CN117407443A

CN117407443A - 一种面向海量瞬变数据的异常快速发现方法及系统

Info

Publication number: CN117407443A
Application number: CN202311714700.2A
Authority: CN
Inventors: 戴鹏飞; 周春姐
Original assignee: Yantai Cloud Software Co ltd
Current assignee: Yantai Cloud Software Co ltd
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-01-16
Anticipated expiration: 2043-12-14
Also published as: CN117407443B

Abstract

本发明涉及一种数据处理领域，尤其涉及一种面向海量瞬变数据的异常快速发现方法及系统。本发明为了克服现有技术无法监测实时变化的海量数据的缺点，本发明要解决的技术问题是提供一种面向海量瞬变数据的异常快速发现方法及系统。本发明通过采用两个深度学习模型对数据进行过滤，进行数据异常判断，设置用户交互模块，用户能在用户交互模块下达指令，为深度学习模型提供建议，同时用户能在用户交互模块查看数据错误的信息，数据精简度大大提高的同时不影响数据异常识别的精度，深度学习模型能够及时进行改进，用户能够根据错误信息查看系统运行情况，获取错误原因，能够及时更改数据源获取到的数据，提高了生产经营的效率。

Description

一种面向海量瞬变数据的异常快速发现方法及系统

技术领域

本发明涉及一种数据处理领域，尤其涉及一种面向海量瞬变数据的异常快速发现方法及系统。

背景技术

随着大数据时代的来临，有越来越多的数据统计需求，基于各种需求的统计，每次都会重新统计，会导致统计都很困难，现有技术中存在一些实时计算框架如sparkstreaming、storm等，这些框架具有实时统计海量数据的能力，但是这些框架也有缺点，在基于新增数据的实时统计时，会采用不断叠加计算的方式实现最终统计，假如遇到处理失败或者运算错误的情况时，不仅排查困难，而且数据会一直出现错误；另一方面，在涉及到有历史数据需要计算的时候，往往需要将数据全量重放进去才能获得结果。

因此亟需研发一种面向海量瞬变数据的异常快速发现方法及系统，来克服现有技术中的缺点。

发明内容

（1）要解决的技术问题

本发明为了克服现有技术无法监测实时变化的海量数据的缺点，本发明要解决的技术问题是提供一种面向海量瞬变数据的异常快速发现方法及系统。

（2）技术方案

为了解决上述技术问题，本发明提供了这样一种面向海量瞬变数据的异常快速发现方法及系统，具体包括有以下模块：

数据获取模块，负责对海量瞬变数据的获取，并将海量瞬变数据发送至数据存储模块进行存储；

数据处理模块，用于对海量瞬变数据进行预处理操作，并进行特征提取；

异常数据判断标注模块，用于对处理后的数据进行异常值判断，检测数据中的异常信息；并对过滤完成后的数据进行异常数据标注处理，包括格式转换和编译操作；

模型优化模块，负责对海量瞬变数据进行异常检测的模型进行优化，提高模型在异常检测时的响应速度及准确率；

数据安全模块，用于对测量得到的海量瞬变数据以及模型预测的异常结果进行安全防护；

数据存储模块，对海量瞬变数据以及处理完成的数据进行存储；

用户交互模块，用于向用户汇报面向海量瞬变数据异常快速发现系统的运行日志，并对海量瞬变数据的异常数据快速发现结果进行可视化展示。

进一步地，具体由以下流程实现：

S1首先对获取到的海量瞬变数据进行数据归一化处理，将数据标准化，确保深度学习模型不会因为数据的不同量级受影响，并使用滤波算法对海量瞬变数据降噪处理，保证数据的稳定性；

S2之后对数据清洗完毕的海量瞬变数据进行特征提取，提取出有助于异常检测的特征；

S3使用训练好的深度学习模型，其中一个是对数据进行异常值判断的深度学习模型而另一个是进行异常数据标注的深度学习模型，利用两个深度学习模型来对异常数据进行快速发现；

S4利用异常值判断的深度学习模型对获取到的数据进行初步过滤，过滤掉模板性数据，保留包含具体信息的数据；

S5对过滤完成的数据利用异常数据标注的深度学习模型进行二次过滤，判断其中无法读取的数据；对数据进行异常数据标注处理，将无法识别的数据和处理失败的数据标识为异常数据；

S6获取异常数据的错误信息，通过判断出的异常数据中的错误信息，不断对两个深度学习模型进行参数优化，保证两个深度学习模型的拟合能力，并防止模型陷入欠拟合或过拟合的状况。

进一步地，所述步骤S3、S4使用了两个模型结合的方式对海量瞬变数据的异常进行快速发现，其中第一个模型采用的是稀疏自编码器模型，通过对海量瞬变数据的低维表示进行学习，来重构输入的海量瞬变数据，通过对稀疏自编码器模型使用正常数据进行训练，当训练完成的稀疏自编码器模型在遇到海量瞬变数据中与训练数据分布明显不同的异常数据时，重构误差会增大，以此作为发现异常的依据；同时稀疏自编码器模型通过比对数据集中不同的数据，挖掘出共同字段，并从数据中分割字段，筛选出带有实质信息的数据，并将筛选出的数据发送给下一个模型进行异常数据标注；其中，具体的模型计算公式为：

其中，是重构误差，x是真实输入，/>是稀疏自编码器的输出，/>是Kullback-Leibler散度，用于衡量实际稀疏度/>和期望稀疏度ρ之间的差异，而Ф则是稀疏性权重，稀疏自编码器通过引入稀疏性约束，使自编码器算法更好的聚焦于海量瞬变数据中最能区分正常数据与异常数据的特征，同时，稀疏自编码器倾向于学习有限的特征，在任何时刻值激活少量的神经元，提高海量瞬变数据异常值判断的处理速度。

进一步地，所述步骤S5中进行异常数据标注的模型为梯度提升机模型，在所述步骤S4将实质性信息的数据筛选后，训练好的梯度提升机模型接收到筛选后的数据，预测数据中的每个数据是否异常，并给每个数据一个概率得分x，对概率得分设定一个评判标准x∈（a,b），其中x为正在进行评判的数据概率得分，a、b为评判该数据的概率得分设置的阈值，当该数据的概率得分在a、b之间，则判定该数据通过第二次数据异常评断；当该数据小于a或大于b时，则判定该数据为异常数据，其中a、b为工作人员根据业务需求不断调整的概率得分阈值，其中具体的计算公式为：

其中Ft(x)是梯度提升机在时间t的输出值，hi(x)是第i个弱学习器的预测，在每个时间步t，梯度提升机评估当前模型的性能，根据需要添加新的弱学习器，γi是第i个弱学习器的权重，在对瞬变数据的每一轮学习中根据弱学习器对于改进模型性能的贡献进行更新，ω是学习率，决定了弱学习器对最终结果的贡献程度。

进一步地，所述对海量瞬变数据进行异常值判断的自编码器算法会提取数据中具有时间序列数据的特征，将数据中的无效数据进行过滤，保留具有实质作用的数据，并将提取的特征值与数据处理模块提取的特征相融合，将融合后的特征作为梯度提升机的输入数据，帮助梯度提升机进行更有效的异常检测；其中融合的特征值的表示为：其中，z表示为自编码器算法提取出的特征值和原始数据特征值融合后特征，fz (x)是自编码器算法提取出的特征值，x则是原始数据特征，‘；’表示进行连接操作。

进一步地，所述第二次异常数据标注通过对数据格式转换和编译进行操作，当出现数据无法通过编译，不符合预期要求时对该数据进行异常标注，当数据通过编译后对数据的格式进行转换，若出现不符合预期格式转换效果报错时，也将该数据标注为异常数据。

进一步地，所述模型优化模块主要对海量瞬变数据进行异常检测的模型进行优化，使用分布式深度学习框架，将两个深度学习模型分布在多个节点上进行并行处理，提高对海量瞬变数据的处理速度。

进一步地，所述用户交互模块主要负责对用户进行可视化展示并进行结果反馈，所述系统在将海量瞬变数据进行分析处理后，用户交互模块在用户进行查看时，根据用户的角色权限查找数据及分析结果，包括正常数据、异常数据，之后将查找的数据集分析结果以可视化的方式进行展示，如echarts图表、表格，用户还能够对多维数据视图进行缩放、拖动、旋转，用户通过可视化展示进一步分析数据的异常。

进一步地，数据安全模块对于海量瞬变数据中的敏感信息，会采用基于用户角色的访问控制机制限制敏感信息的访问，只有得到系统管理员授权的用户才能根据自己在系统中的角色访问数据；同时数据安全模块会在数据处理模块对海量瞬变数据进行预处理时，对海量数据进行数据脱敏，将数据中包含的能够识别个人身份信息的数据进行去除或替换。

进一步地，数据存储模块采用时间序列化数据库，在数据存入数据库时，利用数据库的批量写入优化和压缩机制提高写入效率，之后根据时间戳和其他关键指标，将数据分配到对应的分片中，在数据写入的同时，更新对应分片的索引，确保数据能够被快速检索，在数据进行异常判断和标注时，通过索引快速定位到存在异常的数据分片，最后根据数据量的增长和查询需求的变化，动态调整分片策略和索引策略；同时，根据业务需求，设置存储保留策略，自动清理过期数据。

（3）有益效果

本发明通过采用双深度模型对数据进行过滤，同时采用两次数据异常判断，数据精简度大大提高的同时不影响数据异常识别的精度，能够减少数据的处理量，在提高了数据识别精度的同时还能够提高数据处理效率。

本发明通过设置用户交互模块，用户可以在用户交互模块下达指令，为深度学习模型提供建议，深度学习模型能够及时进行改进，使得深度学习模型能够不断的提升数据识别的精准度和效率。

本发明通过设置用户交互模块，用户可以在用户交互模块查看数据错误的信息，用户能够根据错误信息查看系统运行情况，获取错误原因，能够及时更改数据源获取到的数据，提高生产效率。

附图说明

图1为本发明的运行流程示意图。

图2为本发明的各个模块示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

实施例1

本发明提供了这样一种面向海量瞬变数据的异常快速发现方法，如图1所示，具体由以下流程实现：

首先对获取到的海量瞬变数据进行数据归一化处理，将数据标准化，确保深度学习模型不会因为数据的不同量级受影响，并使用滤波算法对海量瞬变数据降噪处理，保证数据的稳定性；之后对数据清洗完毕的海量瞬变数据进行特征提取，提取出有助于异常检测的特征；使用训练好的两个深度学习模型进行异常数据查找，其中一个是对数据进行异常值判断的深度学习模型而另一个是进行异常数据标注的深度学习模型，利用两个深度学习模型来对海量瞬变数据中的异常数据进行快速发现；利用异常值判断的深度学习模型对获取到的数据进行初步过滤，过滤掉模板性数据，保留包含具体信息的数据；对过滤完成的数据利用异常数据标注的深度学习模型进行二次过滤，判断其中无法读取的数据；对数据进行异常数据标注处理，将无法识别的数据和处理失败的数据标识为异常数据；获取异常数据的错误信息，通过判断出的异常数据中的错误信息，不断对两个深度学习模型进行参数优化，保证两个深度学习模型的拟合能力，并防止两个深度学习模型陷入欠拟合或过拟合的状况。

面向海量瞬变数据的异常快速发现系统，如图2所示，包括有：数据获取模块，主要负责对海量瞬变数据进行获取，并将海量瞬变数据发送至数据存储模块进行存储；数据处理模块，用于对海量瞬变数据进行预处理操作，包括将数据标准化确保深度学习模型不会因为数据的不同量级而受到影响，再使用滤波算法去除海量瞬变数据中的噪声，提高模型的准确度，并进行特征提取，从原始数据中提取有助于异常检测的特征；异常数据判断标注模块，用于对处理后的数据进行异常值判断，检测数据中的异常信息；并对过滤完成后的数据进行异常数据标注处理，包括格式转换和编译操作；模型优化模块，主要负责对海量瞬变数据进行异常检测的模型进行优化，提高模型在异常检测时的响应速度及准确率；数据安全模块，用于对测量得到的海量瞬变数据以及模型预测的异常结果进行安全防护；数据存储模块，对海量瞬变数据以及处理完成的数据进行存储；用户交互模块，用于向用户汇报面向海量瞬变数据异常快速发现系统的运行日志，并对海量瞬变数据的异常数据快速发现结果进行可视化展示。

在面向海量瞬变数据的异常快速发现方法流程中，使用了两个模型结合的方式对海量瞬变数据的异常进行快速发现，其中第一个模型采用的是稀疏自编码器模型，通过对海量瞬变数据的低维表示进行学习，来重构输入的海量瞬变数据，通过对稀疏自编码器模型使用正常数据进行训练，当训练完成的稀疏自编码器模型在遇到海量瞬变数据中与训练数据分布明显不同的异常数据时，重构误差会增大，以此作为发现异常的依据；同时稀疏自编码器模型通过比对数据集中不同的数据，挖掘出共同字段，并从数据中分割字段，筛选出带有实质信息的数据，并将筛选出的数据发送给下一个模型进行异常数据标注；其中，具体的模型计算公式为：

其中进行异常数据标注的模型为梯度提升机模型，在自编码器算法将实质性信息的数据筛选后，训练好的梯度提升机模型接收到筛选后的数据，预测数据中的每个数据是否异常，并给每个数据一个概率得分x，对概率得分设定一个评判标准x∈（a,b），其中x为正在进行评判的数据概率得分，a、b为评判该数据的概率得分设置的阈值，当该数据的概率得分在a、b之间，则判定该数据通过第二次数据异常评断；当该数据小于a或大于b时，则判定该数据为异常数据，其中a、b为工作人员根据业务需求不断调整的概率得分阈值，其中具体的计算公式为：

对海量瞬变数据进行异常值判断的自编码器算法会提取数据中具有时间序列数据的特征，将数据中的无效数据进行过滤，保留具有实质作用的数据，并将提取的特征值与数据处理模块提取的特征相融合，将融合后的特征作为梯度提升机的输入数据，帮助梯度提升机进行更有效的异常检测；其中融合的特征值可以表示为：，其中，z表示为自编码器算法提取出的特征值和原始数据特征值融合后特征，f_z(x)是自编码器算法提取出的特征值，x则是原始数据特征，‘；’表示进行连接操作。

在异常判断过程中，对于第一次评断异常数据未能捕捉到，第二次评断异常数据获取到的异常数据进行记录，根据错误的类型进行汇报，之后按照未能捕获的异常数据对两个深度学习模型参数优化，将两个深度学习模型进行改进，提高两个深度学习模型的判断能力，对学习结果进行验证更新，使得数据判断的深度学习模型能够不断根据未发现的异常数据进行识别，提高对异常数据的发现能力，可以及时适应新出现的错误，减少对新出现的异常数据漏处理，同时还要预防两个深度学习模型陷入过拟合或欠拟合的问题，防止模型在数据学习时太过彻底，把噪声数据的特征也学习到，导致不能很好识别数据，或者模型没有很好的捕捉数据特征，不能很好地拟合数据。

同时用户交互模块能够在用户和面向海量瞬变数据的异常快速发现系统之间提供交互，系统在将海量瞬变数据进行分析处理后，用户交互模块在用户进行查看时，根据用户的角色权限查找数据及分析结果，包括正常数据、异常数据，之后将查找的数据集分析结果以可视化的方式进行展示，如echarts图表、表格，用户还可以对多维数据视图进行缩放、拖动、旋转，用户通过可视化展示进一步分析数据的异常。同时用户能够实时监测面向海量瞬变数据的异常快速发现系统的异常数据发现过程，对面向海量瞬变数据的异常快速发现系统执行过程中提出改进意见，使得面向海量瞬变数据的异常快速发现系统的适应能力得到提高，也能够提高用户的体验。

在数据安全模块中，对于海量瞬变数据中的敏感信息，数据管理模块会采用基于用户角色的访问控制机制限制敏感信息的访问，只有得到系统管理员授权的用户才能根据自己在系统中的角色访问数据；同时数据安全模块会在数据处理模块对海量瞬变数据进行预处理时，对海量数据进行数据脱敏，将数据中包含的可以识别个人身份信息的数据进行去除或替换。

在数据存储模块采用时间序列化数据库,并选择分布式存储架构设计，在数据存入数据库时，利用数据库的批量写入优化和压缩机制提高写入效率，之后根据时间戳和其他关键指标，将数据分配到对应的分片中，每个分片存储在不同的节点，以实现水平扩展和高并发处理，在数据写入的同时，更新对应分片的索引，确保数据可以被快速检索，在数据进行异常判断和标注时，通过索引快速定位到可能存在异常的数据分片，索引基于B树、LSM树倒排索引的结构，方便快速检索和访问数据，最后根据数据量的增长和查询需求的变化，动态调整分片策略和索引策略，保持系统的高性能和可扩展性；同时根据业务需求设置数据保留策略，自动清理过期数据，以节省存储空间。

以上所述实施例仅表达了本发明的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形、改进及替代，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种面向海量瞬变数据的异常快速发现方法及系统，其特征在于，包括有以下模块：

2.根据权利要求1所述的一种面向海量瞬变数据的异常快速发现方法及系统，其特征在于，具体由以下流程实现：

3.根据权利要求2所述的一种面向海量瞬变数据的异常快速发现方法及系统，其特征在于，所述步骤S3、S4使用了两个模型结合的方式对海量瞬变数据的异常进行快速发现，其中第一个模型采用的是稀疏自编码器模型，通过对海量瞬变数据的低维表示进行学习，来重构输入的海量瞬变数据，通过对稀疏自编码器模型使用正常数据进行训练，当训练完成的稀疏自编码器模型在遇到海量瞬变数据中与训练数据分布明显不同的异常数据时，重构误差会增大，以此作为发现异常的依据；同时稀疏自编码器模型通过比对数据集中不同的数据，挖掘出共同字段，并从数据中分割字段，筛选出带有实质信息的数据，并将筛选出的数据发送给下一个模型进行异常数据标注；其中，具体的模型计算公式为：

4.根据权利要求3所述的一种面向海量瞬变数据的异常快速发现方法及系统，其特征在于，所述步骤S5中进行异常数据标注的模型为梯度提升机模型，在所述步骤S4将实质性信息的数据筛选后，训练好的梯度提升机模型接收到筛选后的数据，预测数据中的每个数据是否异常，并给每个数据一个概率得分x，对概率得分设定一个评判标准x∈（a,b），其中x为正在进行评判的数据概率得分，a、b为评判该数据的概率得分设置的阈值，当该数据的概率得分在a、b之间，则判定该数据通过第二次数据异常评断；当该数据小于a或大于b时，则判定该数据为异常数据，其中a、b为工作人员根据业务需求不断调整的概率得分阈值，其中具体的计算公式为：

5.根据权利要求4所述的一种面向海量瞬变数据的异常快速发现方法及系统，其特征在于，所述对海量瞬变数据进行异常值判断的自编码器算法会提取数据中具有时间序列数据的特征，将数据中的无效数据进行过滤，保留具有实质作用的数据，并将提取的特征值与数据处理模块提取的特征相融合，将融合后的特征作为梯度提升机的输入数据，帮助梯度提升机进行更有效的异常检测；其中融合的特征值的表示为：，其中，z表示为自编码器算法提取出的特征值和原始数据特征值融合后特征，fz (x)是自编码器算法提取出的特征值，x则是原始数据特征，‘；’表示进行连接操作。

6.根据权利要求5所述的一种面向海量瞬变数据的异常快速发现方法及系统，其特征在于，所述第二次异常数据标注通过对数据格式转换和编译进行操作，当出现数据无法通过编译，不符合预期要求时对该数据进行异常标注，当数据通过编译后对数据的格式进行转换，若出现不符合预期格式转换效果报错时，也将该数据标注为异常数据。

7.根据权利要求6所述的一种面向海量瞬变数据的异常快速发现方法及系统，其特征在于，所述模型优化模块主要对海量瞬变数据进行异常检测的模型进行优化，使用分布式深度学习框架，将两个深度学习模型分布在多个节点上进行并行处理，提高对海量瞬变数据的处理速度。

8.根据权利要求7所述的一种面向海量瞬变数据的异常快速发现方法及系统，其特征在于，所述用户交互模块主要负责对用户进行可视化展示并进行结果反馈，所述系统在将海量瞬变数据进行分析处理后，用户交互模块在用户进行查看时，根据用户的角色权限查找数据及分析结果，包括正常数据、异常数据，之后将查找的数据集分析结果以可视化的方式进行展示，如echarts图表、表格，用户还能够对多维数据视图进行缩放、拖动、旋转，用户通过可视化展示进一步分析数据的异常。

9.根据权利要求8所述的一种面向海量瞬变数据的异常快速发现方法及系统，其特征在于，所述数据安全模块对于海量瞬变数据中的敏感信息，会采用基于用户角色的访问控制机制限制敏感信息的访问，只有得到系统管理员授权的用户才能根据自己在系统中的角色访问数据；同时数据安全模块会在数据处理模块对海量瞬变数据进行预处理时，对海量数据进行数据脱敏，将数据中包含的能够识别个人身份信息的数据进行去除或替换。

10.根据权利要求9所述的一种面向海量瞬变数据的异常快速发现方法及系统，其特征在于，所述数据存储模块采用时间序列化数据库，在数据存入数据库时，利用数据库的批量写入优化和压缩机制提高写入效率，之后根据时间戳和其他关键指标，将数据分配到对应的分片中，在数据写入的同时，更新对应分片的索引，确保数据能够被快速检索，在数据进行异常判断和标注时，通过索引快速定位到存在异常的数据分片，最后根据数据量的增长和查询需求的变化，动态调整分片策略和索引策略；同时，根据业务需求，设置存储保留策略，自动清理过期数据。