CN117370352A

CN117370352A - 一种基于大数据的数据监测方法及系统

Info

Publication number: CN117370352A
Application number: CN202311334386.5A
Authority: CN
Inventors: 刘书南; 郑志进; 林昌平; 卢祥生; 郑益平; 焦庆东; 余蛟龙; 付合; 吕楚男; 曹明
Original assignee: Zhejiang Zhenshan Technology Co ltd
Current assignee: Zhejiang Zhenshan Technology Co ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-01-09

Abstract

本发明公开了一种基于大数据的数据监测方法及系统，属于数据处理技术领域，方法包括：获取各个用户终端的待监测数据；对待监测数据进行脱敏处理；对脱敏处理后的待监测数据进行基于小波变换的预处理，其中，预处理包括异常点去除、噪声去除和缺失值填充；结合主成分分析法和线性回归算法，构建异常数据识别模型；利用异常数据识别模型预处理后的待监测数据进行拟合监测，得到实际观测数据波动值和实时拟合值；基于实时拟合值设置预警域值，在待监测数据的实际观测数据波动值的波动幅度处于预警域值的情况下，则确定正常，否则确定为异常；在待监测数据为异常数据的情况下，发出警报。提升待监测数据的安全性和监测准确性。

Description

一种基于大数据的数据监测方法及系统

技术领域

本发明属于数据处理技术领域，具体涉及一种基于大数据的数据监测方法及系统。

背景技术

大数据是指规模庞大、复杂度高、多样性丰富的数据集合，通常难以通过传统的数据处理工具和方法来捕获、存储、管理和分析。这些数据集合通常包括结构化数据(如数据库中的表格数据)、半结构化数据(如XML文件或JSON数据)和非结构化数据(如文本、图像、音频和视频文件等)。大数据的应用范围非常广泛，涵盖了各个领域，包括商业智能、市场营销、金融分析、医疗保健、科学研究、政府决策等。通过分析大数据，组织可以获得关键的竞争优势和洞察，改进业务流程，提供更好的用户体验，并解决各种复杂的问题。

现有技术中，对用户数据进行监测往往直接调取分析，易造成敏感数据的泄露，而且缺乏有效的数据预处理方式，导致数据监测得到的结果偏差大不准确，另外，现有的数据监测技术在大量数据的筛选过程只根据特定的字符进行筛选分析，往往主观设置报警域值，难以真实反映待监测数据的数据质量，不能准确完成数据的监测效果，易出现监测误判的情况。

发明内容

为了解决现有技术存在的用户数据泄露风险大，数据监测准确性差，易出现监测误判的技术问题，本发明提供一种基于大数据的数据监测方法及系统。

第一方面

本发明提供了一种基于大数据的数据监测方法，包括：

S101：获取各个用户终端的待监测数据；

S102：对待监测数据进行脱敏处理；

S103：对脱敏处理后的待监测数据进行基于小波变换的预处理，其中，预处理包括异常点去除、噪声去除和缺失值填充；

S104：结合主成分分析和线性回归算法，构建异常数据识别模型；

S105：利用异常数据识别模型对预处理后的待监测数据进行拟合监测，得到实际观测数据波动值和实时拟合值；

S106：基于实时拟合值设置预警域值，在待监测数据的实际观测数据波动值的波动幅度处于预警域值的情况下，则确定正常，否则确定为异常；

S107：在待监测数据为异常数据的情况下，发出警报。

第二方面

本发明提供了一种基于大数据的数据监测系统，用于执行第一方面中的基于大数据的数据监测方法。

与现有技术相比，本发明至少具有以下有益技术效果：

在本发明中，在对待监测数据进行监测前进行脱敏处理，去除用户敏感数据，降低数据泄露风险。另外，通过基于小波变换的去除噪声、监测并清除异常值、填充缺失数据，有助于更好地理解数据的内在结构和信息，并提取关键特征，为后续数据监测和分析提供了更干净、完整和有用的数据，从而增强了分析的准确性和可信度，优化了数据处理效率，有助于更好地分析大数据中的信息和趋势。此外，结合主成分分析法和线性回归算法进行信息分解和筛选，构建异常数据识别模型，提取待监测数据的具有代表性的波动幅度变量，降低多重共线性影响，提高模型对待监测数据的提前拟合精度，使得数据监测更符合实测值，提升数据监测准确性。通过实时拟合值设置预警域值，避免主观设置预警域值出现多次失误预警的情况，提升预警可靠性。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明提供的一种基于大数据的数据监测方法的流程示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1

在一个实施例中，参考说明书附图1，示出了本发明提供的基于大数据的数据监测方法的流程示意图。

本发明提供的一种基于大数据的数据监测方法，包括：

S101：获取各个用户终端的待监测数据。

其中，待监测数据指需要进行监测、分析和处理的数据集合，获取待监测数据的方式通常涉及数据采集和存储的设备、传感器、应用程序或系统。这些数据可以通过网络传输、传感器收集、应用程序日志记录等方式被收集到数据存储系统中，以便后续的处理和分析。

S102：对待监测数据进行脱敏处理。

需要说明的是，脱敏处理是一种数据隐私保护技术，用于移除或隐藏敏感数据中的个人身份信息或敏感信息，以确保数据在分享、存储或分析时不会泄露个体的隐私，脱敏处理的主要目标是在保持数据的可用性和有用性的同时，最大程度地减少数据的风险和隐私泄露风险。

在一种可能的实施方式中，S102具体包括：

S1021：确定需要脱敏处理的敏感词汇；

S1022：对待监测数据与敏感词汇进行滑动窗口匹配，确定是否需要进行脱敏处理；

S1023：在匹配成功的情况下，对敏感词汇进行隐私保护处理，其中，隐私保护处理包括用虚拟标识符替代敏感词汇、将敏感词汇进行泛化和对敏感词汇添加噪声。

在一种可能的实施方式中，S1022具体包括：

S1022A：将待监测数据与敏感词汇的尾字符进行匹配；

S1022B：在尾字符匹配成功的情况下，将待监测数据与敏感词汇的首字符进行匹配；

S1022C：在首字符匹配成功的情况下，将敏感词汇的第二个字符一直匹配到倒数第二个字符；

S1022D：在出现不匹配的情况下，滑动窗口以敏感词汇的最后两个字符进行跳跃，重新进行匹配；

S1022E：在匹配成功的情况下，表示在待监测数据中存在敏感词汇，需要进行脱敏处理。

具体地，首先需要明确哪些词汇或信息被认为是敏感的，需要进行隐私保护处理。之后通过滑动窗口的方式，对待监测数据进行遍历，检查是否包含了事先确定的敏感词汇。在匹配成功的情况下，对敏感词汇进行隐私保护处理，具体操作包括：用虚拟标识符替代：将敏感词汇替换为特定的标识符或通用标签，以隐藏其真实内容。泛化：将具体的敏感信息泛化为一般性描述，减少了敏感性。添加噪声：在敏感信息中添加随机噪声，以增加数据的难以追溯性。通过滑动窗口的方式，可以精细地识别敏感词汇的位置，从而减少了误判和漏判的可能性。在不匹配的情况下，采用了敏感词汇最后两个字符进行跳跃的策略，提高了匹配的效率。该方法保留了原始数据的结构，只对敏感信息进行处理，保持了数据的完整性和可用性。提供了多种隐私保护方式，包括用虚拟标识符替代、泛化和添加噪声，可以根据具体需求进行选择，增强了隐私保护的灵活性和效果。

S103：对脱敏处理后的待监测数据进行基于小波变换的预处理。

其中，预处理包括异常点去除、噪声去除和缺失值填充。

需要说明的是，在数据集中，可能存在异常点或离群值，这些异常点可能是由于测量误差、数据录入错误或其他异常情况引起的，异常点的存在可能会干扰数据分析和建模的准确性，因此需要将其去除或修正，小波变换在这里可以用来监测和去除异常点，小波变换可以将信号分解成不同频率分量，异常点通常在某些频率分量上表现出较高的幅度，通过分析小波系数，可以监测到这些异常点并采取相应的处理措施，例如剔除或修复。基于小波变换的预处理在数据监测中的作用主要是提高数据质量、去除异常点、减小噪声、填充缺失值，以便后续的数据分析、异常监测和模型建立能够更加准确和可靠。小波变换是一种多尺度分析方法，可以帮助发现数据中的局部和全局特征，因此在数据预处理中使用小波变换有助于更全面地理解和利用数据。

在一种可能的实施方式中，S103具体包括：

S1031：确定待监测数据的母小波函数：

ψ(t)∈L(R)²

其中，L(R)表示空间平方可积的实数空间，ψ(t)表示小波函数，ψ₁(t)表示母小波函数，C表示傅里叶变换系数，R表示实数，w表示变换域值；

S1032：对母小波函数进行平移伸缩，获取母小波函数的小波序列：

其中，ψ_a,b(t)小波序列的元素，a表示伸缩因子，b表示平移因子；

S1033：对小波序列进行小波连续变换，进行异常点去除，具体公式为：

其中，f(t)表示连续小波变换，W_t(a,b)表示小波变换核。

在一种可能的实施方式中，S103还包括：

S1034：建立待监测数据的噪声表达式：

S(k)＝W_t(a,b)·l(k)+ε·e(k)

其中，S(k)表示噪声，l(k)表示待监测数据中的非噪声信号，e(k)表示噪声信号，ε表示噪声系数偏差；

S1035：对噪声进行小波分解，并选择相应的小波处理系数对分解后的噪声进行逆处理，重构去除噪声后的待监测数据；

S1036：利用当前时刻数据采样点的前后时刻数据采样点对待监测数据进行缺失值填充：

其中，X(t)表示当前时刻的数据采样点，X(t-1)表示采样点上一时刻，X(t+1)表示采样点下一时刻。

具体地，首先，选择适当的母小波函数，这是小波变换的基础，母小波函数通常是在实数空间中定义的。之后对所选的母小波函数进行平移和伸缩操作，以生成一系列不同尺度和位置的小波函数，构成小波序列，这些小波函数的伸缩因子(a)和平移因子(b)控制了小波函数的形状和位置。小波连续变换是一种将数据在不同尺度下分解的方法，它可以将信号分解成不同频率分量，在这一步中，使用小波变换核对小波序列进行连续小波变换，以便监测和去除数据中的异常点，异常点通常表现为在某些频率分量上的高振幅成分。建立待监测数据中的噪声表达式，将噪声与非噪声信号分离，噪声通常是来自传感器误差、测量误差或环境干扰等因素的不希望的信号成分。通过小波分解将噪声与信号分离，并选择适当的小波处理系数对分解后的噪声进行逆处理，以恢复去除噪声后的待监测数据。最后，利用当前时刻数据采样点的前后时刻数据采样点对待监测数据进行缺失值填充。这可以通过插值或其他技术来估计缺失值，以确保数据的完整性。通过小波变换和相关技术对脱敏处理后的数据进行预处理，以去除异常点、去噪声、填充缺失值，从而为后续的数据分析和建模提供更准确、可靠的数据，这些步骤有助于改善数据质量，使其更适合于进一步的分析和应用。

S104：结合主成分分析法和线性回归算法，构建异常数据识别模型。

在一种可能的实施方式中，S104具体包括：

S1041：对于多个预处理后的待监测数据样本n，则有m个数据自变量的矩阵X＝[x₁,x₂,…,x_n]^T，有相对应的数据因变量矩阵Y＝[y₁,y₂,…,y_n]^T；

S1042：对数据自变量矩阵和数据因变量矩阵进行归一化：

其中，x表示数据变量数，x_min表示数据波动幅度最小值，x_max表示数据波动幅度最大值，y表示归一化后的待监测数据，E₀和F₀分别表示归一化后的数据自变量矩阵和数据因变量矩阵；

S1043：以相关协方差最大为目标，提取归一化后的数据自变量矩阵和数据因变量矩阵的主成分，得到主成分t₁和l₂：

其中，主成分t₁＝E₀W₁，W₁ ^T*W₁＝1，主成分l₂＝F₀；

S1044：根据主成分t₁，将数据自变量矩阵和数据因变量矩阵进行回归：

F₀＝t₁r₁+F₁

其中，E₁、F₁均表示回归方程的残差矩阵，p₁、r₁均表示回归系数；

S1045：通过交叉验证判断新的主成分加入是否能提升预设比例的异常数据识别模型的预测精度：

其中，y_i表示实际观测数据波动值，表示使用h个主成分得到的拟合值，/>表示去除实际观测数据波动值后得到的拟合值，表示预设比例；

S1046：基于回归系数，异常数据识别模型为：

其中，y₀表示常数项，b_k表示主成分t_k对应的回归系数，k表示提取了k次主成分，表示实时拟合值。

需要说明的是，主成分分析法用于提取数据集中最重要的主成分，这些主成分是原始数据中的线性组合，能够保留数据中的大部分方差，通过主成分分析，模型能够从数据的自变量和因变量中提取最相关和最有信息量的特征，从而更好地捕捉数据中的模式和趋势。待监测数据一般都存在多重共线性，多重共线性是指数据中的自变量之间存在高度相关性的情况，这可能导致传统线性回归模型的系数估计不稳定，通过结合主成分分析，模型可以减小自变量之间的共线性影响，提高模型的拟合精度和稳定性。最后通过选择合适的主成分数目和回归系数，模型能够有效地拟合数据，提高异常数据的预测精度，此外，通过交叉验证来判断新的主成分是否能提升模型的预测精度，确保了模型的可靠性和鲁棒性。结合主成分分析和线性回归算法构建的异常数据识别模型具有更好的数据处理和模型解释性能，能够提高异常数据监测的准确性和可靠性，同时降低了误判和漏判的概率，使得监测系统更适用于不同类型的数据序列，这样的模型有助于提高数据监测的质量和效率，为异常情况的及时发现和处理提供了重要的支持。

S105：利用异常数据识别模型对预处理后的待监测数据进行拟合监测，得到实际观测数据波动值和实时拟合值。

S106：基于实时拟合值设置预警域值，在待监测数据的实际观测数据波动值的波动幅度处于预警域值的情况下，则确定正常，否则确定为异常。

在一种可能的实施方式中，S106具体为：

S1061：基于实时拟合值设置预警域值，在待监测数据的波动幅度处于预警域值的情况下，则确定正常，否则确定为异常：

其中，sd_r表示残差剩余标准差，表示实时拟合值，y_i实际观测数据波动值，和/>分别表示预警域值的上下限。

需要说明的是，在前面的步骤中，已经建立了异常数据识别模型，这个模型通过主成分分析和线性回归等方法生成了实时拟合值，实时拟合值是模型基于历史数据和当前数据的输入，对待监测数据的预测值或拟合值。待监测数据的波动幅度通常是指数据在一定时间段内的变化范围或标准差，表示数据的不稳定性或波动性，这个值可以用来衡量数据的变化程度。预警域值是根据模型和监测需求设置的一个阈值，它是一个界限，用于确定待监测数据是否正常，这个值可以根据模型的性能和数据的特性进行调整。具体地说，如果待监测数据的波动幅度(实际观测数据波动值)在预警域值，那么就确定数据是正常的。反之，如果波动幅度超出了预警域值，那么数据被认为是异常的。残差剩余标准差通常表示模型的拟合误差或残差的标准差，这个值可以用来衡量模型对待监测数据的拟合程度，在判定过程中，它与波动幅度一起用来评估数据的正常性。基于一种动态的、数据自适应的异常监测方法，通过实时拟合值和波动幅度的比较，可以根据当前的数据情况来判断数据是否正常，而不仅仅依赖于静态的固定阈值，这种方法可以更灵活地适应不同数据情境，减少误判和漏判，提高异常监测的准确性和可靠性，同时，它还可以根据监测需求随时调整预警域值，以满足特定的应用要求。

S107：在待监测数据为异常数据的情况下，发出警报。

可以理解的是，在待监测数据被判定为异常数据的情况下，系统触发警报或报警通知，及时通知相关人员或系统管理员，以便他们采取适当的措施来应对异常情况。

在一种可能的实施方式中，还包括：

S108：在待监测数据为正常数据的情况下，对状态正常的待监测数据进行分类存储。

在一种可能的实施方式中，S108具体包括：

S1081：利用均值聚类算法对状态正常的待监测数据进行多次聚类；

S1082：根据聚类的到的数据中心点，基于用户需求划分重要性；

S1083：将重要性程度高的待监测数据进行分布式存储，将重要性程度低的待监测数据利用缓存系统进行临时存储。

需要说明的是，根据数据的状态和用途进行智能管理，通过聚类和重要性划分，可以更好地组织和存储数据，以满足不同的业务需求，这种分类存储方法还可以优化数据的访问效率，确保重要数据始终可用，同时最大程度地减少了存储成本，此外，它也有助于数据生命周期管理，确保数据保留和清理符合法规和政策要求。

与现有技术相比，本发明至少具有以下有益技术效果：

实施例2

在一个实施例中，本发明提供的一种基于大数据的数据监测系统，用于执行实施例1中的基于大数据的数据监测方法。

本发明提供的一种基于大数据的数据监测系统可以实现上述实施例1中的基于大数据的数据监测方法的步骤和效果，为避免重复，本发明不再赘述。

与现有技术相比，本发明至少具有以下有益技术效果：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于大数据的数据监测方法，方法包括：

S101：获取各个用户终端的待监测数据；

S102：对所述待监测数据进行脱敏处理；

S103：对脱敏处理后的待监测数据进行基于小波变换的预处理，其中，所述预处理包括异常点去除、噪声去除和缺失值填充；

S104：结合主成分分析法和线性回归算法，构建异常数据识别模型；

S105：利用所述异常数据识别模型对预处理后的待监测数据进行拟合监测，得到实际观测数据波动值和实时拟合值；

S106：基于所述实时拟合值设置预警域值，在待监测数据的实际观测数据波动值的波动幅度处于所述预警域值的情况下，则确定正常，否则确定为异常；

S107：在所述待监测数据为异常数据的情况下，发出警报。

2.根据权利要求1所述的基于大数据的数据监测方法，其特征在于，所述S102具体包括：

S1021：确定需要脱敏处理的敏感词汇；

S1022：对所述待监测数据与所述敏感词汇进行滑动窗口匹配，确定是否需要进行脱敏处理；

S1023：在匹配成功的情况下，对所述敏感词汇进行隐私保护处理，其中，所述隐私保护处理包括用虚拟标识符替代所述敏感词汇、将所述敏感词汇进行泛化和对所述敏感词汇添加噪声。

3.根据权利要求2所述的基于大数据的数据监测方法，其特征在于，所述S1022具体包括：

S1022A：将所述待监测数据与所述敏感词汇的尾字符进行匹配；

S1022B：在所述尾字符匹配成功的情况下，将所述待监测数据与所述敏感词汇的首字符进行匹配；

S1022C：在所述首字符匹配成功的情况下，将所述敏感词汇的第二个字符一直匹配到倒数第二个字符；

S1022D：在出现不匹配的情况下，滑动窗口以所述敏感词汇的最后两个字符进行跳跃，重新进行匹配；

S1022E：在匹配成功的情况下，表示在所述待监测数据中存在敏感词汇，需要进行脱敏处理。

4.根据权利要求1所述的基于大数据的数据监测方法，其特征在于，所述S103具体包括：

S1031：确定所述待监测数据的母小波函数：

ψ(t)∈L(R)²

S1032：对所述母小波函数进行平移伸缩，获取所述母小波函数的小波序列：

S1033：对所述小波序列进行小波连续变换，进行异常点去除，具体公式为：

其中，f(t)表示连续小波变换，W_t(a,b)表示小波变换核。

5.根据权利要求4所述的基于大数据的数据监测方法，其特征在于，所述S103还包括：

S1034：建立所述待监测数据的噪声表达式：

S(k)＝W_t(a,b)·l(k)+ε·e(k)

其中，S(k)表示所述噪声，l(k)表示所述待监测数据中的非噪声信号，e(k)表示噪声信号，ε表示噪声系数偏差；

S1035：对所述噪声进行小波分解，并选择相应的小波处理系数对分解后的噪声进行逆处理，重构去除噪声后的待监测数据；

6.根据权利要求1所述的基于大数据的数据监测方法，其特征在于，所述S104具体包括：

S1042：对所述数据自变量矩阵和所述数据因变量矩阵进行归一化：

其中，主成分t₁＝E₀W₁，W₁ ^T*W₁＝1，主成分l₂＝F₀；

S1044：根据主成分t₁，将所述数据自变量矩阵和所述数据因变量矩阵进行回归：

F₀＝t₁r₁+F₁

S1045：通过交叉验证判断新的主成分加入是否能提升预设比例的所述异常数据识别模型的预测精度：

其中，y_i表示实际观测数据波动值，表示使用h个主成分得到的拟合值，/>表示去除所述实际观测数据波动值后得到的拟合值，表示所述预设比例；

S1046：基于所述回归系数，所述异常数据识别模型为：

7.根据权利要求1所述的基于大数据的数据监测方法，其特征在于，所述S106具体为：

S1061：基于所述实时拟合值设置预警域值，在待监测数据的波动幅度处于所述预警域值的情况下，则确定正常，否则确定为异常：

其中，sd_r表示残差剩余标准差，表示实时拟合值，y_i实际观测数据波动值，/>和分别表示所述预警域值的上下限。

8.根据权利要求1所述的基于大数据的数据监测方法，其特征在于，还包括：

S108：在所述待监测数据为正常数据的情况下，对状态正常的待监测数据进行分类存储。

9.根据权利要求8所述的基于大数据的数据监测方法，其特征在于，所述S108具体为：

10.一种基于大数据的数据监测系统，其特征在于，用于执行权利要求1至9中任一项所述的基于大数据的数据监测方法。