CN117407443A - 一种面向海量瞬变数据的异常快速发现方法及系统 - Google Patents
一种面向海量瞬变数据的异常快速发现方法及系统 Download PDFInfo
- Publication number
- CN117407443A CN117407443A CN202311714700.2A CN202311714700A CN117407443A CN 117407443 A CN117407443 A CN 117407443A CN 202311714700 A CN202311714700 A CN 202311714700A CN 117407443 A CN117407443 A CN 117407443A
- Authority
- CN
- China
- Prior art keywords
- data
- massive
- transient
- abnormal
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001052 transient effect Effects 0.000 title claims abstract description 100
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013136 deep learning model Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 39
- 230000003993 interaction Effects 0.000 claims abstract description 16
- 230000005856 abnormality Effects 0.000 claims abstract description 11
- 238000002372 labelling Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 13
- 239000012634 fragment Substances 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 11
- 238000013500 data storage Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000000586 desensitisation Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000012821 model calculation Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 claims description 2
- 230000002547 anomalous effect Effects 0.000 claims 1
- 230000007547 defect Effects 0.000 abstract description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种数据处理领域,尤其涉及一种面向海量瞬变数据的异常快速发现方法及系统。本发明为了克服现有技术无法监测实时变化的海量数据的缺点,本发明要解决的技术问题是提供一种面向海量瞬变数据的异常快速发现方法及系统。本发明通过采用两个深度学习模型对数据进行过滤,进行数据异常判断,设置用户交互模块,用户能在用户交互模块下达指令,为深度学习模型提供建议,同时用户能在用户交互模块查看数据错误的信息,数据精简度大大提高的同时不影响数据异常识别的精度,深度学习模型能够及时进行改进,用户能够根据错误信息查看系统运行情况,获取错误原因,能够及时更改数据源获取到的数据,提高了生产经营的效率。
Description
技术领域
本发明涉及一种数据处理领域,尤其涉及一种面向海量瞬变数据的异常快速发现方法及系统。
背景技术
随着大数据时代的来临,有越来越多的数据统计需求,基于各种需求的统计,每次都会重新统计,会导致统计都很困难,现有技术中存在一些实时计算框架如sparkstreaming、storm等,这些框架具有实时统计海量数据的能力,但是这些框架也有缺点,在基于新增数据的实时统计时,会采用不断叠加计算的方式实现最终统计,假如遇到处理失败或者运算错误的情况时,不仅排查困难,而且数据会一直出现错误;另一方面,在涉及到有历史数据需要计算的时候,往往需要将数据全量重放进去才能获得结果。
因此亟需研发一种面向海量瞬变数据的异常快速发现方法及系统,来克服现有技术中的缺点。
发明内容
(1)要解决的技术问题
本发明为了克服现有技术无法监测实时变化的海量数据的缺点,本发明要解决的技术问题是提供一种面向海量瞬变数据的异常快速发现方法及系统。
(2)技术方案
为了解决上述技术问题,本发明提供了这样一种面向海量瞬变数据的异常快速发现方法及系统,具体包括有以下模块:
数据获取模块,负责对海量瞬变数据的获取,并将海量瞬变数据发送至数据存储模块进行存储;
数据处理模块,用于对海量瞬变数据进行预处理操作,并进行特征提取;
异常数据判断标注模块,用于对处理后的数据进行异常值判断,检测数据中的异常信息;并对过滤完成后的数据进行异常数据标注处理,包括格式转换和编译操作;
模型优化模块,负责对海量瞬变数据进行异常检测的模型进行优化,提高模型在异常检测时的响应速度及准确率;
数据安全模块,用于对测量得到的海量瞬变数据以及模型预测的异常结果进行安全防护;
数据存储模块,对海量瞬变数据以及处理完成的数据进行存储;
用户交互模块,用于向用户汇报面向海量瞬变数据异常快速发现系统的运行日志,并对海量瞬变数据的异常数据快速发现结果进行可视化展示。
进一步地,具体由以下流程实现:
S1首先对获取到的海量瞬变数据进行数据归一化处理,将数据标准化,确保深度学习模型不会因为数据的不同量级受影响,并使用滤波算法对海量瞬变数据降噪处理,保证数据的稳定性;
S2之后对数据清洗完毕的海量瞬变数据进行特征提取,提取出有助于异常检测的特征;
S3使用训练好的深度学习模型,其中一个是对数据进行异常值判断的深度学习模型而另一个是进行异常数据标注的深度学习模型,利用两个深度学习模型来对异常数据进行快速发现;
S4利用异常值判断的深度学习模型对获取到的数据进行初步过滤,过滤掉模板性数据,保留包含具体信息的数据;
S5对过滤完成的数据利用异常数据标注的深度学习模型进行二次过滤,判断其中无法读取的数据;对数据进行异常数据标注处理,将无法识别的数据和处理失败的数据标识为异常数据;
S6获取异常数据的错误信息,通过判断出的异常数据中的错误信息,不断对两个深度学习模型进行参数优化,保证两个深度学习模型的拟合能力,并防止模型陷入欠拟合或过拟合的状况。
进一步地,所述步骤S3、S4使用了两个模型结合的方式对海量瞬变数据的异常进行快速发现,其中第一个模型采用的是稀疏自编码器模型,通过对海量瞬变数据的低维表示进行学习,来重构输入的海量瞬变数据,通过对稀疏自编码器模型使用正常数据进行训练,当训练完成的稀疏自编码器模型在遇到海量瞬变数据中与训练数据分布明显不同的异常数据时,重构误差会增大,以此作为发现异常的依据;同时稀疏自编码器模型通过比对数据集中不同的数据,挖掘出共同字段,并从数据中分割字段,筛选出带有实质信息的数据,并将筛选出的数据发送给下一个模型进行异常数据标注;其中,具体的模型计算公式为:
其中,是重构误差,x是真实输入,/>是稀疏自编码器的输出,/>是Kullback-Leibler散度,用于衡量实际稀疏度/>和期望稀疏度ρ之间的差异,而Ф则是稀疏性权重,稀疏自编码器通过引入稀疏性约束,使自编码器算法更好的聚焦于海量瞬变数据中最能区分正常数据与异常数据的特征,同时,稀疏自编码器倾向于学习有限的特征,在任何时刻值激活少量的神经元,提高海量瞬变数据异常值判断的处理速度。
进一步地,所述步骤S5中进行异常数据标注的模型为梯度提升机模型,在所述步骤S4将实质性信息的数据筛选后,训练好的梯度提升机模型接收到筛选后的数据,预测数据中的每个数据是否异常,并给每个数据一个概率得分x,对概率得分设定一个评判标准x∈(a,b),其中x为正在进行评判的数据概率得分,a、b为评判该数据的概率得分设置的阈值,当该数据的概率得分在a、b之间,则判定该数据通过第二次数据异常评断;当该数据小于a或大于b时,则判定该数据为异常数据,其中a、b为工作人员根据业务需求不断调整的概率得分阈值,其中具体的计算公式为:
其中Ft(x)是梯度提升机在时间t的输出值,hi(x)是第i个弱学习器的预测,在每个时间步t,梯度提升机评估当前模型的性能,根据需要添加新的弱学习器,γi是第i个弱学习器的权重,在对瞬变数据的每一轮学习中根据弱学习器对于改进模型性能的贡献进行更新,ω是学习率,决定了弱学习器对最终结果的贡献程度。
进一步地,所述对海量瞬变数据进行异常值判断的自编码器算法会提取数据中具有时间序列数据的特征,将数据中的无效数据进行过滤,保留具有实质作用的数据,并将提取的特征值与数据处理模块提取的特征相融合,将融合后的特征作为梯度提升机的输入数据,帮助梯度提升机进行更有效的异常检测;其中融合的特征值的表示为:其中,z表示为自编码器算法提取出的特征值和原始数据特征值融合后特征,fz (x)是自编码器算法提取出的特征值,x则是原始数据特征,‘;’表示进行连接操作。
进一步地,所述第二次异常数据标注通过对数据格式转换和编译进行操作,当出现数据无法通过编译,不符合预期要求时对该数据进行异常标注,当数据通过编译后对数据的格式进行转换,若出现不符合预期格式转换效果报错时,也将该数据标注为异常数据。
进一步地,所述模型优化模块主要对海量瞬变数据进行异常检测的模型进行优化,使用分布式深度学习框架,将两个深度学习模型分布在多个节点上进行并行处理,提高对海量瞬变数据的处理速度。
进一步地,所述用户交互模块主要负责对用户进行可视化展示并进行结果反馈,所述系统在将海量瞬变数据进行分析处理后,用户交互模块在用户进行查看时,根据用户的角色权限查找数据及分析结果,包括正常数据、异常数据,之后将查找的数据集分析结果以可视化的方式进行展示,如echarts图表、表格,用户还能够对多维数据视图进行缩放、拖动、旋转,用户通过可视化展示进一步分析数据的异常。
进一步地,数据安全模块对于海量瞬变数据中的敏感信息,会采用基于用户角色的访问控制机制限制敏感信息的访问,只有得到系统管理员授权的用户才能根据自己在系统中的角色访问数据;同时数据安全模块会在数据处理模块对海量瞬变数据进行预处理时,对海量数据进行数据脱敏,将数据中包含的能够识别个人身份信息的数据进行去除或替换。
进一步地,数据存储模块采用时间序列化数据库,在数据存入数据库时,利用数据库的批量写入优化和压缩机制提高写入效率,之后根据时间戳和其他关键指标,将数据分配到对应的分片中,在数据写入的同时,更新对应分片的索引,确保数据能够被快速检索,在数据进行异常判断和标注时,通过索引快速定位到存在异常的数据分片,最后根据数据量的增长和查询需求的变化,动态调整分片策略和索引策略;同时,根据业务需求,设置存储保留策略,自动清理过期数据。
(3)有益效果
本发明通过采用双深度模型对数据进行过滤,同时采用两次数据异常判断,数据精简度大大提高的同时不影响数据异常识别的精度,能够减少数据的处理量,在提高了数据识别精度的同时还能够提高数据处理效率。
本发明通过设置用户交互模块,用户可以在用户交互模块下达指令,为深度学习模型提供建议,深度学习模型能够及时进行改进,使得深度学习模型能够不断的提升数据识别的精准度和效率。
本发明通过设置用户交互模块,用户可以在用户交互模块查看数据错误的信息,用户能够根据错误信息查看系统运行情况,获取错误原因,能够及时更改数据源获取到的数据,提高生产效率。
附图说明
图1为本发明的运行流程示意图。
图2为本发明的各个模块示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
实施例1
本发明提供了这样一种面向海量瞬变数据的异常快速发现方法,如图1所示,具体由以下流程实现:
首先对获取到的海量瞬变数据进行数据归一化处理,将数据标准化,确保深度学习模型不会因为数据的不同量级受影响,并使用滤波算法对海量瞬变数据降噪处理,保证数据的稳定性;之后对数据清洗完毕的海量瞬变数据进行特征提取,提取出有助于异常检测的特征;使用训练好的两个深度学习模型进行异常数据查找,其中一个是对数据进行异常值判断的深度学习模型而另一个是进行异常数据标注的深度学习模型,利用两个深度学习模型来对海量瞬变数据中的异常数据进行快速发现;利用异常值判断的深度学习模型对获取到的数据进行初步过滤,过滤掉模板性数据,保留包含具体信息的数据;对过滤完成的数据利用异常数据标注的深度学习模型进行二次过滤,判断其中无法读取的数据;对数据进行异常数据标注处理,将无法识别的数据和处理失败的数据标识为异常数据;获取异常数据的错误信息,通过判断出的异常数据中的错误信息,不断对两个深度学习模型进行参数优化,保证两个深度学习模型的拟合能力,并防止两个深度学习模型陷入欠拟合或过拟合的状况。
面向海量瞬变数据的异常快速发现系统,如图2所示,包括有:数据获取模块,主要负责对海量瞬变数据进行获取,并将海量瞬变数据发送至数据存储模块进行存储;数据处理模块,用于对海量瞬变数据进行预处理操作,包括将数据标准化确保深度学习模型不会因为数据的不同量级而受到影响,再使用滤波算法去除海量瞬变数据中的噪声,提高模型的准确度,并进行特征提取,从原始数据中提取有助于异常检测的特征;异常数据判断标注模块,用于对处理后的数据进行异常值判断,检测数据中的异常信息;并对过滤完成后的数据进行异常数据标注处理,包括格式转换和编译操作;模型优化模块,主要负责对海量瞬变数据进行异常检测的模型进行优化,提高模型在异常检测时的响应速度及准确率;数据安全模块,用于对测量得到的海量瞬变数据以及模型预测的异常结果进行安全防护;数据存储模块,对海量瞬变数据以及处理完成的数据进行存储;用户交互模块,用于向用户汇报面向海量瞬变数据异常快速发现系统的运行日志,并对海量瞬变数据的异常数据快速发现结果进行可视化展示。
在面向海量瞬变数据的异常快速发现方法流程中,使用了两个模型结合的方式对海量瞬变数据的异常进行快速发现,其中第一个模型采用的是稀疏自编码器模型,通过对海量瞬变数据的低维表示进行学习,来重构输入的海量瞬变数据,通过对稀疏自编码器模型使用正常数据进行训练,当训练完成的稀疏自编码器模型在遇到海量瞬变数据中与训练数据分布明显不同的异常数据时,重构误差会增大,以此作为发现异常的依据;同时稀疏自编码器模型通过比对数据集中不同的数据,挖掘出共同字段,并从数据中分割字段,筛选出带有实质信息的数据,并将筛选出的数据发送给下一个模型进行异常数据标注;其中,具体的模型计算公式为:
其中,是重构误差,x是真实输入,/>是稀疏自编码器的输出,/>是Kullback-Leibler散度,用于衡量实际稀疏度/>和期望稀疏度ρ之间的差异,而Ф则是稀疏性权重,稀疏自编码器通过引入稀疏性约束,使自编码器算法更好的聚焦于海量瞬变数据中最能区分正常数据与异常数据的特征,同时,稀疏自编码器倾向于学习有限的特征,在任何时刻值激活少量的神经元,提高海量瞬变数据异常值判断的处理速度。
其中进行异常数据标注的模型为梯度提升机模型,在自编码器算法将实质性信息的数据筛选后,训练好的梯度提升机模型接收到筛选后的数据,预测数据中的每个数据是否异常,并给每个数据一个概率得分x,对概率得分设定一个评判标准x∈(a,b),其中x为正在进行评判的数据概率得分,a、b为评判该数据的概率得分设置的阈值,当该数据的概率得分在a、b之间,则判定该数据通过第二次数据异常评断;当该数据小于a或大于b时,则判定该数据为异常数据,其中a、b为工作人员根据业务需求不断调整的概率得分阈值,其中具体的计算公式为:
其中Ft(x)是梯度提升机在时间t的输出值,hi(x)是第i个弱学习器的预测,在每个时间步t,梯度提升机评估当前模型的性能,根据需要添加新的弱学习器,γi是第i个弱学习器的权重,在对瞬变数据的每一轮学习中根据弱学习器对于改进模型性能的贡献进行更新,ω是学习率,决定了弱学习器对最终结果的贡献程度。
对海量瞬变数据进行异常值判断的自编码器算法会提取数据中具有时间序列数据的特征,将数据中的无效数据进行过滤,保留具有实质作用的数据,并将提取的特征值与数据处理模块提取的特征相融合,将融合后的特征作为梯度提升机的输入数据,帮助梯度提升机进行更有效的异常检测;其中融合的特征值可以表示为:,其中,z表示为自编码器算法提取出的特征值和原始数据特征值融合后特征,fz (x)是自编码器算法提取出的特征值,x则是原始数据特征,‘;’表示进行连接操作。
在异常判断过程中,对于第一次评断异常数据未能捕捉到,第二次评断异常数据获取到的异常数据进行记录,根据错误的类型进行汇报,之后按照未能捕获的异常数据对两个深度学习模型参数优化,将两个深度学习模型进行改进,提高两个深度学习模型的判断能力,对学习结果进行验证更新,使得数据判断的深度学习模型能够不断根据未发现的异常数据进行识别,提高对异常数据的发现能力,可以及时适应新出现的错误,减少对新出现的异常数据漏处理,同时还要预防两个深度学习模型陷入过拟合或欠拟合的问题,防止模型在数据学习时太过彻底,把噪声数据的特征也学习到,导致不能很好识别数据,或者模型没有很好的捕捉数据特征,不能很好地拟合数据。
同时用户交互模块能够在用户和面向海量瞬变数据的异常快速发现系统之间提供交互,系统在将海量瞬变数据进行分析处理后,用户交互模块在用户进行查看时,根据用户的角色权限查找数据及分析结果,包括正常数据、异常数据,之后将查找的数据集分析结果以可视化的方式进行展示,如echarts图表、表格,用户还可以对多维数据视图进行缩放、拖动、旋转,用户通过可视化展示进一步分析数据的异常。同时用户能够实时监测面向海量瞬变数据的异常快速发现系统的异常数据发现过程,对面向海量瞬变数据的异常快速发现系统执行过程中提出改进意见,使得面向海量瞬变数据的异常快速发现系统的适应能力得到提高,也能够提高用户的体验。
在数据安全模块中,对于海量瞬变数据中的敏感信息,数据管理模块会采用基于用户角色的访问控制机制限制敏感信息的访问,只有得到系统管理员授权的用户才能根据自己在系统中的角色访问数据;同时数据安全模块会在数据处理模块对海量瞬变数据进行预处理时,对海量数据进行数据脱敏,将数据中包含的可以识别个人身份信息的数据进行去除或替换。
在数据存储模块采用时间序列化数据库,并选择分布式存储架构设计,在数据存入数据库时,利用数据库的批量写入优化和压缩机制提高写入效率,之后根据时间戳和其他关键指标,将数据分配到对应的分片中,每个分片存储在不同的节点,以实现水平扩展和高并发处理,在数据写入的同时,更新对应分片的索引,确保数据可以被快速检索,在数据进行异常判断和标注时,通过索引快速定位到可能存在异常的数据分片,索引基于B树、LSM树倒排索引的结构,方便快速检索和访问数据,最后根据数据量的增长和查询需求的变化,动态调整分片策略和索引策略,保持系统的高性能和可扩展性;同时根据业务需求设置数据保留策略,自动清理过期数据,以节省存储空间。
以上所述实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种面向海量瞬变数据的异常快速发现方法及系统,其特征在于,包括有以下模块:
数据获取模块,负责对海量瞬变数据的获取,并将海量瞬变数据发送至数据存储模块进行存储;
数据处理模块,用于对海量瞬变数据进行预处理操作,并进行特征提取;
异常数据判断标注模块,用于对处理后的数据进行异常值判断,检测数据中的异常信息;并对过滤完成后的数据进行异常数据标注处理,包括格式转换和编译操作;
模型优化模块,负责对海量瞬变数据进行异常检测的模型进行优化,提高模型在异常检测时的响应速度及准确率;
数据安全模块,用于对测量得到的海量瞬变数据以及模型预测的异常结果进行安全防护;
数据存储模块,对海量瞬变数据以及处理完成的数据进行存储;
用户交互模块,用于向用户汇报面向海量瞬变数据异常快速发现系统的运行日志,并对海量瞬变数据的异常数据快速发现结果进行可视化展示。
2.根据权利要求1所述的一种面向海量瞬变数据的异常快速发现方法及系统,其特征在于,具体由以下流程实现:
S1首先对获取到的海量瞬变数据进行数据归一化处理,将数据标准化,确保深度学习模型不会因为数据的不同量级受影响,并使用滤波算法对海量瞬变数据降噪处理,保证数据的稳定性;
S2之后对数据清洗完毕的海量瞬变数据进行特征提取,提取出有助于异常检测的特征;
S3使用训练好的深度学习模型,其中一个是对数据进行异常值判断的深度学习模型而另一个是进行异常数据标注的深度学习模型,利用两个深度学习模型来对异常数据进行快速发现;
S4利用异常值判断的深度学习模型对获取到的数据进行初步过滤,过滤掉模板性数据,保留包含具体信息的数据;
S5对过滤完成的数据利用异常数据标注的深度学习模型进行二次过滤,判断其中无法读取的数据;对数据进行异常数据标注处理,将无法识别的数据和处理失败的数据标识为异常数据;
S6获取异常数据的错误信息,通过判断出的异常数据中的错误信息,不断对两个深度学习模型进行参数优化,保证两个深度学习模型的拟合能力,并防止模型陷入欠拟合或过拟合的状况。
3.根据权利要求2所述的一种面向海量瞬变数据的异常快速发现方法及系统,其特征在于,所述步骤S3、S4使用了两个模型结合的方式对海量瞬变数据的异常进行快速发现,其中第一个模型采用的是稀疏自编码器模型,通过对海量瞬变数据的低维表示进行学习,来重构输入的海量瞬变数据,通过对稀疏自编码器模型使用正常数据进行训练,当训练完成的稀疏自编码器模型在遇到海量瞬变数据中与训练数据分布明显不同的异常数据时,重构误差会增大,以此作为发现异常的依据;同时稀疏自编码器模型通过比对数据集中不同的数据,挖掘出共同字段,并从数据中分割字段,筛选出带有实质信息的数据,并将筛选出的数据发送给下一个模型进行异常数据标注;其中,具体的模型计算公式为:
其中,是重构误差,x是真实输入,/>是稀疏自编码器的输出,/>是Kullback-Leibler散度,用于衡量实际稀疏度/>和期望稀疏度ρ之间的差异,而Ф则是稀疏性权重,稀疏自编码器通过引入稀疏性约束,使自编码器算法更好的聚焦于海量瞬变数据中最能区分正常数据与异常数据的特征,同时,稀疏自编码器倾向于学习有限的特征,在任何时刻值激活少量的神经元,提高海量瞬变数据异常值判断的处理速度。
4.根据权利要求3所述的一种面向海量瞬变数据的异常快速发现方法及系统,其特征在于,所述步骤S5中进行异常数据标注的模型为梯度提升机模型,在所述步骤S4将实质性信息的数据筛选后,训练好的梯度提升机模型接收到筛选后的数据,预测数据中的每个数据是否异常,并给每个数据一个概率得分x,对概率得分设定一个评判标准x∈(a,b),其中x为正在进行评判的数据概率得分,a、b为评判该数据的概率得分设置的阈值,当该数据的概率得分在a、b之间,则判定该数据通过第二次数据异常评断;当该数据小于a或大于b时,则判定该数据为异常数据,其中a、b为工作人员根据业务需求不断调整的概率得分阈值,其中具体的计算公式为:
其中Ft(x)是梯度提升机在时间t的输出值,hi(x)是第i个弱学习器的预测,在每个时间步t,梯度提升机评估当前模型的性能,根据需要添加新的弱学习器,γi是第i个弱学习器的权重,在对瞬变数据的每一轮学习中根据弱学习器对于改进模型性能的贡献进行更新,ω是学习率,决定了弱学习器对最终结果的贡献程度。
5.根据权利要求4所述的一种面向海量瞬变数据的异常快速发现方法及系统,其特征在于,所述对海量瞬变数据进行异常值判断的自编码器算法会提取数据中具有时间序列数据的特征,将数据中的无效数据进行过滤,保留具有实质作用的数据,并将提取的特征值与数据处理模块提取的特征相融合,将融合后的特征作为梯度提升机的输入数据,帮助梯度提升机进行更有效的异常检测;其中融合的特征值的表示为:,其中,z表示为自编码器算法提取出的特征值和原始数据特征值融合后特征,fz (x)是自编码器算法提取出的特征值,x则是原始数据特征,‘;’表示进行连接操作。
6.根据权利要求5所述的一种面向海量瞬变数据的异常快速发现方法及系统,其特征在于,所述第二次异常数据标注通过对数据格式转换和编译进行操作,当出现数据无法通过编译,不符合预期要求时对该数据进行异常标注,当数据通过编译后对数据的格式进行转换,若出现不符合预期格式转换效果报错时,也将该数据标注为异常数据。
7.根据权利要求6所述的一种面向海量瞬变数据的异常快速发现方法及系统,其特征在于,所述模型优化模块主要对海量瞬变数据进行异常检测的模型进行优化,使用分布式深度学习框架,将两个深度学习模型分布在多个节点上进行并行处理,提高对海量瞬变数据的处理速度。
8.根据权利要求7所述的一种面向海量瞬变数据的异常快速发现方法及系统,其特征在于,所述用户交互模块主要负责对用户进行可视化展示并进行结果反馈,所述系统在将海量瞬变数据进行分析处理后,用户交互模块在用户进行查看时,根据用户的角色权限查找数据及分析结果,包括正常数据、异常数据,之后将查找的数据集分析结果以可视化的方式进行展示,如echarts图表、表格,用户还能够对多维数据视图进行缩放、拖动、旋转,用户通过可视化展示进一步分析数据的异常。
9.根据权利要求8所述的一种面向海量瞬变数据的异常快速发现方法及系统,其特征在于,所述数据安全模块对于海量瞬变数据中的敏感信息,会采用基于用户角色的访问控制机制限制敏感信息的访问,只有得到系统管理员授权的用户才能根据自己在系统中的角色访问数据;同时数据安全模块会在数据处理模块对海量瞬变数据进行预处理时,对海量数据进行数据脱敏,将数据中包含的能够识别个人身份信息的数据进行去除或替换。
10.根据权利要求9所述的一种面向海量瞬变数据的异常快速发现方法及系统,其特征在于,所述数据存储模块采用时间序列化数据库,在数据存入数据库时,利用数据库的批量写入优化和压缩机制提高写入效率,之后根据时间戳和其他关键指标,将数据分配到对应的分片中,在数据写入的同时,更新对应分片的索引,确保数据能够被快速检索,在数据进行异常判断和标注时,通过索引快速定位到存在异常的数据分片,最后根据数据量的增长和查询需求的变化,动态调整分片策略和索引策略;同时,根据业务需求,设置存储保留策略,自动清理过期数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311714700.2A CN117407443B (zh) | 2023-12-14 | 2023-12-14 | 一种面向海量瞬变数据的异常快速发现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311714700.2A CN117407443B (zh) | 2023-12-14 | 2023-12-14 | 一种面向海量瞬变数据的异常快速发现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117407443A true CN117407443A (zh) | 2024-01-16 |
CN117407443B CN117407443B (zh) | 2024-03-26 |
Family
ID=89494718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311714700.2A Active CN117407443B (zh) | 2023-12-14 | 2023-12-14 | 一种面向海量瞬变数据的异常快速发现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117407443B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101902997B1 (ko) * | 2018-03-29 | 2018-10-01 | 한국해양과학기술원 | 비지도 학습방법을 이용한 선박의 이상 운항 상태 자동 식별 시스템 및 그 방법 |
KR20200039536A (ko) * | 2018-10-05 | 2020-04-16 | 넷마블 주식회사 | 이상 케이스 탐지 방법 및 장치 |
CN113887616A (zh) * | 2021-09-30 | 2022-01-04 | 海看网络科技(山东)股份有限公司 | 一种epg连接数的实时异常检测系统及方法 |
CN116562740A (zh) * | 2023-07-10 | 2023-08-08 | 长沙宜选供应链有限公司 | 一种基于改进型深度学习算法模型的外贸物流平台 |
CN116776273A (zh) * | 2023-08-23 | 2023-09-19 | 烟台云朵软件有限公司 | 物联网设备的运行状态监测方法及系统 |
CN117034003A (zh) * | 2023-06-30 | 2023-11-10 | 西安交通大学 | 航空航天重大产品制造装备的全生命周期自适应故障诊断方法、系统、设备及介质 |
-
2023
- 2023-12-14 CN CN202311714700.2A patent/CN117407443B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101902997B1 (ko) * | 2018-03-29 | 2018-10-01 | 한국해양과학기술원 | 비지도 학습방법을 이용한 선박의 이상 운항 상태 자동 식별 시스템 및 그 방법 |
KR20200039536A (ko) * | 2018-10-05 | 2020-04-16 | 넷마블 주식회사 | 이상 케이스 탐지 방법 및 장치 |
CN113887616A (zh) * | 2021-09-30 | 2022-01-04 | 海看网络科技(山东)股份有限公司 | 一种epg连接数的实时异常检测系统及方法 |
CN117034003A (zh) * | 2023-06-30 | 2023-11-10 | 西安交通大学 | 航空航天重大产品制造装备的全生命周期自适应故障诊断方法、系统、设备及介质 |
CN116562740A (zh) * | 2023-07-10 | 2023-08-08 | 长沙宜选供应链有限公司 | 一种基于改进型深度学习算法模型的外贸物流平台 |
CN116776273A (zh) * | 2023-08-23 | 2023-09-19 | 烟台云朵软件有限公司 | 物联网设备的运行状态监测方法及系统 |
Non-Patent Citations (3)
Title |
---|
SOO-YEON JI ET AL: "Desining a two-level monitoring method to detect network abnormal behaviors", 《PROCEEDINGS OF THE 2014 IEEE 15TH INTERNATIONAL CONFERENCE ON INFORMATION REUSE AND INTEGRATION》, 2 March 2015 (2015-03-02), pages 703 - 709 * |
刘子健: "基于深度学习的不文明文本过滤方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2020, no. 01, 15 January 2020 (2020-01-15), pages 138 - 2494 * |
李海斌 等: "一种无监督的数据库用户行为异常检测方法", 《小型微型计算机系统》, vol. 39, no. 11, 15 November 2018 (2018-11-15), pages 2464 - 2472 * |
Also Published As
Publication number | Publication date |
---|---|
CN117407443B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113723632B (zh) | 一种基于知识图谱的工业设备故障诊断方法 | |
US8868985B2 (en) | Supervised fault learning using rule-generated samples for machine condition monitoring | |
CN111507376B (zh) | 一种基于多种无监督方法融合的单指标异常检测方法 | |
CN111259947A (zh) | 一种基于多模态学习的电力系统故障预警方法和系统 | |
CN111027615A (zh) | 基于机器学习的中间件故障预警方法和系统 | |
CN111444169A (zh) | 一种变电站电气设备状态监测与诊断系统及方法 | |
CN115309871B (zh) | 一种基于人工智能算法的工业大数据处理方法及系统 | |
CN117196066A (zh) | 智慧运维信息分析模型 | |
CN112906764B (zh) | 基于改进bp神经网络的通信安全设备智能诊断方法及系统 | |
CN117235661B (zh) | 基于ai的直饮水质量监测方法 | |
CN115062851B (zh) | 基于多算法融合的排污异常监测方法及系统 | |
CN117032165A (zh) | 一种工业设备故障诊断方法 | |
CN115719283A (zh) | 一种智能化会计管理系统 | |
CN117331790A (zh) | 一种用于数据中心的机房故障检测方法及装置 | |
WO2024027487A1 (zh) | 基于智能运维场景的健康度评价方法及装置 | |
CN117407443B (zh) | 一种面向海量瞬变数据的异常快速发现方法及系统 | |
CN117648658A (zh) | 一种交通违法模型训练过程异常检测方法 | |
CN118604719B (zh) | 深度信念网络驱动的电能表故障预警方法及系统 | |
CN117768220B (zh) | 基于人工智能的网络安全等级保护测评方法、系统及装置 | |
Xu et al. | Research and Application of Anomaly Detection of Bridge Data Based on Improved Transformer | |
CN118350053A (zh) | 一种日志异常检测系统与方法 | |
CN117970030A (zh) | 一种考虑分布式电源接入的配电网故障快速诊断方法 | |
CN118796833A (zh) | 一种基于交通规则向量数据库的构建与优化方法 | |
CN117473367A (zh) | 一种配电网绝缘故障态势检测方法、装置和设备 | |
CN117807072A (zh) | 一种电网数据治理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |