CN109829543A - 一种基于集成学习的数据流在线异常检测方法 - Google Patents
一种基于集成学习的数据流在线异常检测方法 Download PDFInfo
- Publication number
- CN109829543A CN109829543A CN201910099716.4A CN201910099716A CN109829543A CN 109829543 A CN109829543 A CN 109829543A CN 201910099716 A CN201910099716 A CN 201910099716A CN 109829543 A CN109829543 A CN 109829543A
- Authority
- CN
- China
- Prior art keywords
- model
- data flow
- lstm
- network
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于集成学习的数据流在线异常检测方法,涉及数据处理技术领域。该方法首先运用Bagging集成学习框架,通过多次LSTM模型的迭代训练,获得稳定的LSTM预测模型,实现复杂场景数据流正常‑异常样本的深度辨识;同时以有效载荷数据流作为输入,一方面为稳定的LSTM模型提供实时测试数据,其次运用Bagging集成学习框架,集成多个弱学习器获得强学习器,建立基于Stacking算法的学习器,结合多个弱学习器的输出结果获得最优检测结果,提升了数据流在线异常检测的准确性;获得精度更好的异常检测结果,减少了误报率和漏报率。解决了传统的异常检测方法无法准确挖掘复杂空间有效载荷潜在异常的问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于集成学习的数据流在线异常检测方法。
背景技术
有效载荷是航天器装载的直接开展空间应用任务的科学仪器设备,其健康稳定运行是保证空间应用任务顺利开展的关键。有效载荷在轨运行期间,传感器采集数据通过信息系统主机实时编码,通过遥测信道传输至地面,因此下行数据是地面运管人员开展有效载荷运行、管理、维护的重要依据。遥测数据异常与否与有效载荷健康程度和空间应用任务执行状态密切关联,对地面接收的遥测数据进行实时、科学、有效地处理和分析,能够快速发现数据中的异常模式,辅助地面运控人员及时发现传感器采集失效、传输链路受损、指令执行失败、设备性能退化或失效故障等问题。
近些年,国内外科研机构对航天设备异常检测相关技术开展了大量的研究。较为著名的为NASA Ames Research Center开发的Orca以及IMS工具,Orca是基于距离计算的离群点检测技术,以邻近点之间的平均距离作为检测数据异常程度的指标,当异常数据作为离群点出现时,检测距离的突变将检测出异常数据,其优势在于能够挖掘多维数据的离群异常点。IMS则通过对大量的正常样本进行训练,获得正常样本模型,利用正常样本模型检测异常数据,利用无监督学习解决样本无标签和正负样本失衡的问题。
然而空间有效载荷由于上行指令控制、部件性能衰退及外界工况扰动等因素的影响,数据在局部范围内呈现出明显的波动性特点,一方面空间有效载荷数据属于多分类复杂跳变数据,基于距离计算的Orca难以将复杂跳变数据的异常检测问题简化成正常-异常二分类问题;另一方面空间有效载荷数据异常一般不属于单点异常问题,通常是通过多元时间序列的相关性分析和上下文分析挖掘的异常状态,因此数据各类别间难以明确正负样本边界,利用IMS难以有效实现异常状态的准确检测。
Orca和IMS是利用无监督学习方法解决无标签、正负样本失衡数据异常检测的案例典范,且Orca和IMS计算原理相对简单,适用于实时数据异常检测。但其存在的不足主要表现为,空间有效载荷工作模式设定以及参数间的关联性较为复杂,参数异常通常不属于简单的单点异常问题,正负样本之间的边界难以准确设定,导致Orca和IMS的检测算法在解决多分类复杂跳变数据的异常检测时具有较高的误检率。此外基于分类和聚类的方法难以解决上下文异常和集体异常。
另外,目前有很多航空航天领域的异常检测系统都是基于阈值判读的异常检测,这一类方法具有稳定性和易实施性,对于已经确定的异常信息能够有效的检测出来。有效载荷地面运控系统通常采用阈值自动判读以及专家系统进行下行数据异常检测,方法简单且易于实施,可有效检测部分预设异常。基于阈值判读的系统在设计初期需要有关的载荷专家根据载荷的运行工况给每一项参数设定一组阈值。在阈值设定的时候,可以根据历史的数据来合理的设定。在系统运行的时候,根据下行的数据分别进行判断。如果哪一类数据出现超出上限或者低于下限的情况,那么异常检测系统能够及时的报告异常。
基于阈值判读的异常检测系统虽然能够很好的利用专家经验和历史运行数据,但是仍然具有很多缺点。首先系统阈值的设定需要大量人力物力,而且阈值一旦设定难以更改,系统的灵活性较差,难以解决流数据概念漂移的问题。而且基于阈值判读的异常检测系统通常只能检测已知的异常,对于未知的异常和阈值范围内的异常难以检测出来。此外基于固定阈值的方法难以检测出上下文异常。
发明内容
本发明的目的在于提供一种基于集成学习的数据流在线异常检测方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于集成学习的数据流在线异常检测方法,包括如下步骤:
S1,构建HTM网络弱学习器模型和LSTM网络弱学习器模型;
S2,利用HTM网络弱学习器模型和LSTM网弱络学习器模型构建基于Bagging和Stacking算法的集成学习框架;
S3,在集成学习框架中,通过n次随机采样获得n个采样集,利用n个采样集对LSTM网络弱学习器模型迭代训练,获得n个独立的LSTM基模型,并通过均值计算对n个独立的LSTM基模型进行集成,得到集成LSTM模型;
S4,数据流作为集成LSTM模型的输入数据实时获得预测结果;同时数据流作为HTM网络弱学习器模型的输入,实时获得预测结果;
S5,将集成LSTM模型和HTM网络弱学习器模型的输出结果作为Stacking学习器的输入,Stacking学习器对多模型预测结果进行融合,获得最优预测值;
S6,统计预测值和真实值间的偏差,获得数据流的异常程度。
优选地,S4中,所述数据流作为集成LSTM模型的输入数据,通过均值计算获得集成LSTM模型的预测结果,具体为:
HTM网络弱学习器模型利用循环深度网络结构,提取复杂数据流的关联和时变特征,通过数据流上下文持续输入自循环迭代网络权重并获得稳定收敛的网络模型,获得预测结果。
优选地,S4中,所述同时数据流作为HTM网络弱学习器模型的输入,实时获得预测结果,具体为:
HTM网络弱学习器模型利用网络本身的层次组织结构,实时存储和记忆稀疏分布表征后的数据流,通过自适应地学习数据流时变特性和持续地上下文预测,获得无标签、样本失衡和概念漂移数据流的在线异常检测结果。
优选地,S5中,所述Stacking学习器对多模型预测结果进行融合,具体为Stacking学习器运用Logistic回归法对多模型预测结果进行融合。
本发明的有益效果是:本发明提供的基于集成学习的数据流在线异常检测方法,首先运用Bagging集成学习框架,通过多次LSTM模型的迭代训练,获得稳定的LSTM预测模型,实现复杂场景数据流正常-异常样本的深度辨识;同时以有效载荷数据流作为输入,一方面为稳定的LSTM模型提供实时测试数据,其次运用Bagging集成学习框架,集成多个弱学习器获得强学习器,建立基于Stacking算法的学习器,结合多个弱学习器的输出结果获得最优检测结果,提升了数据流在线异常检测的准确性;获得精度更好的异常检测结果,减少了误报率和漏报率。解决了传统的基于阈值原理的异常检测方法无法准确挖掘复杂空间有效载荷潜在异常的问题。
附图说明
图1是本发明提供的用于数据流在线异常检测的学习器构建流程示意图;
图2是本发明提供的基于集成学习的数据流在线异常检测方法流程示意图;
图3是基于HTM模型的数据流在线异常检测的流程图;
图4是一个具有4区域4层级的网络组织结构;
图5是图4所示的HTM网络层次组织结构的工作原理示意图;
图6是传统的RNN网络结构示意图;
图7是传统的LSTM的网络结构示意图;
图8是LSTM网络的细胞结构组成示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
有效载荷下行数据是高速、实时、连续的流式数据,具有复杂的关联和时变特性,数据分布特性随着时间的推移以不可预见的方式发生改变,表现出明显的概念漂移现象,为高检测率、低误报率、强解释性的有效载荷数据流异常检测实现带来严峻的挑战。
(1)有效载荷数据流具有实时、高速、连续的特点,随着时间的推移数据流分布特性会发生不可预见的改变;传统的基于离线数据训练建立分类模型的异常检测方法已不再适用。如何利用有限的存储空间和计算资源,自适应学习数据流的时变特性,在线持续更新异常检测模型是面临的挑战之一。
(2)有效载荷数据流正常样本居多,异常样本匮乏或未知,具有无标签或正负样本失衡的特点;同时受空间环境、注入指令、设备性能或故障等问题的影响,数据流关联和时变特性复杂。如何建立精度较高的数据流二分类模型或回归预测模型,降低异常检测的误报率和漏报率是面临的挑战之一;
我国空间站任务即将实施,在轨运行时间长达10年,将开展领域广泛和系列化的空间应用任务。与以往载人航天空间应用任务相比,空间站有效载荷下行数据流的传输速率和数据量成数倍增加,其中蕴含的丰富的有用信息可有效反映空间应用任务的执行状况和有效载荷的健康状态。空间有效载荷数据流的在线异常检测方法的研究能够满足我国工程应用的需求。
面对上述问题,本发明的目的是:
(1)有效载荷下行数据是高速、实时、连续的流式数据,分布特性随时间发生变化。本发明在解决数据流概念漂移现象时,摒弃了传统的基于离线数据训练的时间序列分析方法,采用多层级实时记忆网络模型,自适应学习数据流时变特性,以提高检测时效性和准确性;
(2)有效载荷下行数据受到注入指令、运行环境、设备性能等因素的影响,数据流表现出复杂的时间变化和多维相关特性。本发明采用长短期记忆网络模型,兼顾提取数据流时变和关联特征,增强复杂应用场景下正常-异常样本的辨识能力;
(3)针对层级实时记忆网络模型和长短期记忆网络模型各自的优势和不足,本发明采用集成学习框架有效融合基于批数据处理的LSTM模型和基于流数据处理的HTM模型,获得精度更好的异常检测结果,以减少误报率和漏报率。
如图1-2所示,本发明提供了一种基于集成学习的数据流在线异常检测方法,包括如下步骤:
S1,构建HTM网络弱学习器模型和LSTM网络弱学习器模型;
S2,利用HTM网络弱学习器模型和LSTM网弱络学习器模型构建基于Bagging和Stacking算法的集成学习框架;
S3,在集成学习框架中,通过n次随机采样获得n个采样集,利用n个采样集对LSTM网络弱学习器模型迭代训练,获得n个独立的LSTM基模型,并通过均值计算对n个独立的LSTM基模型进行集成,得到集成LSTM模型;
S4,数据流作为集成LSTM模型的输入数据实时获得预测结果;同时数据流作为HTM网络弱学习器模型的输入,实时获得预测结果;
S5,将集成LSTM模型和HTM网络弱学习器模型的输出结果作为Stacking学习器的输入,Stacking学习器对多模型预测结果进行融合,获得最优预测值;
S6,统计预测值和真实值间的偏差,获得数据流的异常程度。
其中,S4中,所述数据流作为集成LSTM模型的输入数据,通过均值计算获得集成LSTM模型的预测结果,具体可以为:
HTM网络弱学习器模型利用循环深度网络结构,提取复杂数据流的关联和时变特征,通过数据流上下文持续输入自循环迭代网络权重并获得稳定收敛的网络模型,获得预测结果。
S4中,所述同时数据流作为HTM网络弱学习器模型的输入,实时获得预测结果,具体可以为:
HTM网络弱学习器模型利用网络本身的层次组织结构,实时存储和记忆稀疏分布表征后的数据流,通过自适应地学习数据流时变特性和持续地上下文预测,获得无标签、样本失衡和概念漂移数据流的在线异常检测结果。
5中,所述Stacking学习器对多模型预测结果进行融合,具体可以为:Stacking学习器运用Logistic回归法对多模型预测结果进行融合。
上述方法的具体实施过程,详细说明如下。
1、HTM模型构建
HTM模型是模拟新大脑皮层运作机制的算法,实质上是一种基于学习、记忆和预测的新型神经网络。HTM网络利用数据流稀疏分布表征,降低对数据流在线处理的存储空间和计算资源;利用HTM网络层级组织结构在线学习和记忆数据流特性,实现数据流时变特性在线自适应学习;利用HTM网络基于可变记忆窗口的上下文预测,计算预测和真实稀疏分布表征向量的重叠度,最终获得预测数据流点发生异常的可能性。基于HTM模型的数据流在线异常检测的流程图如图3所示。
(1)HTM网络的稀疏分布表征
HTM网络模拟人类大脑皮层信息表征形式,对数据流进行稀疏编码和稀疏表示,获得数据流的稀疏分布表征,实现数据流概要结构生成。HTM网络稀疏分布表征的数值编码器流程如下:
1)数据流稀疏编码
数据流稀疏编码器主要将数据流中数值转化能够稀疏表示的二进制编码,其中数值为1是代表活跃比特,数据流中每一个数据点对应一组二进制码。已知数据流的最大值maxval和最小值minval,数值范围为range=maxval-minval;运用数据桶划分法对数据流数值进行划分,定义数据桶个数为buckets,同时假设二进制码向量中活跃比特的数目为w,则二进制码的比特总数n为n=buckets+w+1;假设数据流数值为v,其所在桶号为i,则i=floor[buckets*(v-minval)/range],通过把n个初始比特中从第i个开始的连续w个比特置翻转为1来实现二进制编码表征,即实现数据流的稀疏分布表征。
2)稀疏编码属性计算
定义稀疏分布表征的属性,用于计算数据流数值之间的邻近程度,从而为异常检测提供有效信息。
向量模:在SDR x=[b0,,b-1]中,n指代向量的长度,可以表示为向量中元素的个数、向量的维数或者比特总数;
向量势:用w指代向量的基数,即向量中ON比特的总数,假如稀疏度为s,那么向量势为wx=s×n=||x||o;
稀疏度:在任何时刻,向量x中n个比特是ON,其余是OFF,用s表示ON比特所占的比例;
重叠度:评价x,y对应SDR的相似程度,即统计两者共有ON的数目,则重叠度计算公式为overlap(x,y)=x·y。
匹配度:检查SDR是否充分匹配,对于x和y两条SDR而言,match(x,y|θ)=overlapx y≥θ。如果x和y有相同的势w,我们可以通过设定阈值θ=w来确定一个精确匹配。如果θ<w,重叠评分会表明SDR间是非精确匹配;
3)数据流稀疏编码的容错能力
定义重叠集和容量指标,明确非精确匹配和精确匹配的条件,评估稀疏分布表征的鲁棒性和可靠性。
重叠集:假设x是长度为n且有wx个比特为ON的SDR编码。向量x关于新参数b的重叠集是Ωx(n,w,b),定义为大小为n且有w个比特为ON,与向量x恰好有b个比特重叠的向量的集合。向量的数目用Ωx(n,w,b)表示,|·|表示集合中所有元素的数目。如果b≤wx且b≤w,则有:
SDR的容量和错误匹配概率:给定一个模为n且势为w的向量,那么对它编码的不同SDR的数目可以用从n个中选出w个的组合数表示为式(2):
给定一个SDR编码x和另一个随机SDR编码y,两者有相同的向量模n和向量势w,发生错误匹配的概率为
虽然稀疏分布表征向量很大,但是运算耗时都在关于ON比特数目的线性范围内,运算复杂度依赖于ON比特的数目w,而不是向量的模n。实际应用中w<<n且向量是二进制的,运算效率较高。
基于稀疏分布表征的稀疏编码和稀疏表示方法,摒弃了传统基于概率统计和哈希函数的概要结构成生成原理,获得高可靠性和高运算效率的数据流概要结构。
(2)HTM网络构建
HTM网络利用层级组织结构,对输入数据特性进行逐层挖掘和学习,低层级已学习的数据特性能够在高层级得到重复使用,显著减少了训练时间和使用的记忆空间,具有较好的效率。
1)HTM网络空间池化模型
图4所示为一个具有4区域4层级的网络组织结构,能够进行层内信息、层间信息以及层级外部输入和输出信息的传递和交换。HTM网络层次组织结构的工作原理如图5所示,HTM网络空间池化模型将数据流转化为稀疏分布表征,输入层接收数据流稀疏编码信息并激活相应的节点;HTM网络柱状区域细胞负责数据流信息的存储和传递,是数据流在线学习、记忆和预测的主要单元。HTM网络的任一柱状区域会对应数据流输入空间的部分子集如图5所示,假设区域内第i个柱状区域为中心在边长为γ的立方体空间内,当柱状区域与输入层的连接权值满足下式,连接建立。
式中为显示函数,当xj属于超立方体范围内,返回1;Zij~U(0,1)是0和1之间的随机数;p为超立方体内与柱状区域具有潜在连接的输入向量个数,且随着时间不断地被学习调整。
当输入空间与柱状区域间的连接权值超过阈值时,柱状区域被激活,则输入空间相应的节点被激活(置1),
式中,Dij表示第j个输入向量与第i个柱状区域间的连接持久度,其介于0和1之间,满足均匀分布。连接阈值θc默认设置为0.5,可调整。
通过输入层与柱状区域间前馈连接的建立,数据流被持续转换为二进制编码,实现了数据流特性的在线学习与记忆。与此同时,HTM网络通过柱状区域细胞间的信息传递实现数据流上下文关系的在线学习和记忆;柱状区域细胞间的连接权值一旦超过阈值,当前输入数据流对应的柱状区域细胞将被转化为预测状态;激活后的柱状区域会通过一定的抑制机制限定区域内被激活的细胞,以满足稀疏表征的要求;同时依据Hebbian学习法则,同一时间被激活连接的神经元联系将被加强,而不能被同步激活的神经元联系将被弱化。
式(6-7)反映的是柱状区域内细胞间的激活条件,ai表示的是激活状态;oi代表相邻输入稀疏分布表征的重叠度;bi是正向促进因子,控制柱状区域被激活的难易程度;θstim是激活阈值;Vi表示柱状区域i与所有邻近树状区域的重叠度;Z(X,p)是百分率函数,表示向量X在[0,100]间隔的直方统计概率。
随着数据流稀疏分布表征向量的持续输入,HTM网络空间池化模型通过Hebbian学习法则不断迭代学习,对数据流时变特性进行在线学习和记忆,实现了概念漂移数据流的在线自适应学习。
2)HTM时序预测模型
针对每个活跃的柱状区域,遍历具有预测状态的细胞并激活,获得的活跃细胞集合代表当前输入在先前输入环境下的表征,计算活跃细胞与柱状区域间其他细胞的连接权值,并在阈值触发机制和抑制激活机制下输出全部预测状态细胞集合。
假设输入数据流对应的离散参数和状态参数满足马尔科夫过程特性,将数据流的稀疏向量表示为{Xn,n∈T},T={0,1,2…},I={0,1,2…},给定整数n∈T和任意的i0,…in+1∈I及P(X0=i0,…,Xn=in)>0有P(Xn+1=in+1|X0=i0,X1=i1,…,Xn=in)=P(Xn+1=in+1|Xn=in),则表明稀疏表征向量{Xn,n∈T}为马尔科夫链,则P(Xn+1=j|Xn=i)为{Xn,n∈T}在时刻n的一步转移概率。HTM网络的时序预测模型利用当前已学习和记忆数据流上下文关系,可动态调整上下文记忆窗口的长度,同时运用马尔科夫链概率模型计算下一时刻数据流的状态转移概率,最终获得预测值的稀疏编码向量;通过计算下一时刻预测稀疏编码和真实稀疏编码间的重叠度,获得数据流异常的可能概率。
2、LSTM模型构建
LSTM算法称为长短期记忆网络模型,是一种特定形式的RNN。RNN在处理长期依赖时会产生梯度消失或者梯度膨胀的问题,针对此类问题研究人员提出门限RNN,而LSTM则是最著名的门限RNN网络。图6和图7分别表示传统RNN和LSTM的网络结构。
所有RNN都具有一种重复的神经网络模型的链式形式,在标准RNN中,重复模块的结构非常简单,例如一个Tanh层。LSTM网络同样具有这样的结构,但重复模块的结构不同,主要由输入门、遗忘门及输出门组成,LSTM网络的细胞结构组成由图8所示。
LSTM循环网络除了外部RNN循环外,还具有内部LSTM细胞循环(自环),因此LSTM循环网络不是简单地向输入和循环单元的仿射变换之后施加一个逐元素的非线性。与普通循环网络类似,每个单元有相同的输入和输出,但也有更多的参数和控制信息流动的门控单元系统。最重要的组成部分是状态单元与渗漏单元有类似的线性自环。然而,此处自环权重(或相关联的时间常数)由遗忘门fi (t)控制(时刻t和细胞i),由sigmoid单元将权重设置为0和1之间的值:
其中x(t)是当前输入向量,ht是当前隐藏层向量,其包含所有LSTM细胞的输出。bf、Uf、Wf分别是偏置、输入权和遗忘门的循环权重。因此LSTM细胞内部状态以如下方式更新:
其中,b、U、W分别是LSTM细胞的偏置、输入权重和遗忘门的循环权重。外部输入门单元以类似遗忘门(使用sigmoid获得一个0和1之间的值)的方式更新,但有自身参数:
LSTM细胞的输出也可以由输出门关闭(使用sigmoid单元作为门控):
其中bo、Uo、Wo分别是偏置、输入权重和遗忘门的循环权重。
LSTM网络比简单的循环架构更易于学习长期依赖,与传统RNN相比,能够深度提取复杂数据流的关联和时变特征,从而实现数据流的准确预测。
3、数据流在线异常检测集成学习框架的构建
HTM网络能够通过在线自适应学习数据流的时变特征,快速适应数据流的概念漂移现象,然而其对异常样本的快速适应能力容易引起对异常样本的阶段性误报;LSTM网络能够深度提取复杂数据流的关联和时变特征,且具有较强的准确预测能力,但其算法本身仍需要大量的训练样本支持,难以辨识未知正常样本和异常样本。因此本发明运用集成学习框架,融合两者的优势以提高数据流在线异常检测的准确性。
本发明中,采用基于Bagging和Stacking算法的集成学习框架,将基于批处理的LSTM模型和基于在线处理的HTM模型进行有效融合,获得最优的集成学习结果,提高数据流在线检测精度。基于Bagging和Stacking集成学习框架的数据流在线异常检测技术框架如图2所示。由图2可见,Bagging集成学习框架中的个体弱学习器的训练集通过Bootstapsampling自助采样法获得。通过n次的随机采样获得n个采样集,通过迭代训练获得n个独立的LSTM基模型,通过均值计算获得多LSTM基模型集成后的预测结果,数据流作为集成LSTM模型的输入数据可以实时输出预测结果;同时数据流作为HTM模型的输入,HTM模型可以在线学习和预测数据流,集成LSTM模型和HTM模型的输出结果可作为Stacking学习器的输入,Stacking学习器运用Logistic回归对多模型预测结果进行融合,获得最优预测值。最后,统计预测值和真实值间的偏差,获得数据流的异常程度。
因此,本发明中,针对复杂空间有效载荷异常状态检测问题,提出基于集成学习的数据流在线异常检测方法,解决了传统的基于阈值原理的异常检测方法无法准确挖掘复杂空间有效载荷潜在异常的问题。
另外,本发明中通过运用LSTM网络,能够充分挖掘空间有效载荷复杂跳变参数间的相关性和上下文关系,提高了空间有效载荷异常检测的精准度。同时,借助HTM网络模型,能够有效的记忆数据的历史信息,自适应学习流数据时变特性,有助于提高空间有效载荷异常检测的准确性和时效性。针对HTM模型和LSTM模型各自的优势和不足,本发明采用集成学习的框架,充分学习载荷数据的上下文特性和时变特性,能够获得精度更高的异常检测结果,以减少误报率和漏报率。
本发明涉及的异常检测技术方案的成功应用,可推广到复杂机电设备异常检测领域。通过对复杂机电设备实时监测数据的在线分析,实时评价设备的运行状态,挖掘和检测设备的潜在异常并及时采取处置措施,有效避免严重故障或事故的发生。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明提供的基于集成学习的数据流在线异常检测方法,首先运用Bagging集成学习框架,通过多次LSTM模型的迭代训练,获得稳定的LSTM预测模型,实现复杂场景数据流正常-异常样本的深度辨识;同时以有效载荷数据流作为输入,一方面为稳定的LSTM模型提供实时测试数据,其次运用Bagging集成学习框架,集成多个弱学习器获得强学习器,建立基于Stacking算法的学习器,结合多个弱学习器的输出结果获得最优检测结果,提升了数据流在线异常检测的准确性;获得精度更好的异常检测结果,减少了误报率和漏报率。解决了传统的基于阈值原理的异常检测方法无法准确挖掘复杂空间有效载荷潜在异常的问题。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (4)
1.一种基于集成学习的数据流在线异常检测方法,其特征在于,包括如下步骤:
S1,构建HTM网络弱学习器模型和LSTM网络弱学习器模型;
S2,利用HTM网络弱学习器模型和LSTM网弱络学习器模型构建基于Bagging和Stacking算法的集成学习框架;
S3,在集成学习框架中,通过n次随机采样获得n个采样集,利用n个采样集对LSTM网络弱学习器模型迭代训练,获得n个独立的LSTM基模型,并通过均值计算对n个独立的LSTM基模型进行集成,得到集成LSTM模型;
S4,数据流作为集成LSTM模型的输入数据实时获得预测结果;同时数据流作为HTM网络弱学习器模型的输入,实时获得预测结果;
S5,将集成LSTM模型和HTM网络弱学习器模型的输出结果作为Stacking学习器的输入,Stacking学习器对多模型预测结果进行融合,获得最优预测值;
S6,统计预测值和真实值间的偏差,获得数据流的异常程度。
2.根据权利要求1所述的基于集成学习的数据流在线异常检测方法,其特征在于,S4中,所述数据流作为集成LSTM模型的输入数据,通过均值计算获得集成LSTM模型的预测结果,具体为:
HTM网络弱学习器模型利用循环深度网络结构,提取复杂数据流的关联和时变特征,通过数据流上下文持续输入自循环迭代网络权重并获得稳定收敛的网络模型,获得预测结果。
3.根据权利要求1所述的基于集成学习的数据流在线异常检测方法,其特征在于,S4中,所述同时数据流作为HTM网络弱学习器模型的输入,实时获得预测结果,具体为:
HTM网络弱学习器模型利用网络本身的层次组织结构,实时存储和记忆稀疏分布表征后的数据流,通过自适应地学习数据流时变特性和持续地上下文预测,获得无标签、样本失衡和概念漂移数据流的在线异常检测结果。
4.根据权利要求1所述的基于集成学习的数据流在线异常检测方法,其特征在于,S5中,所述Stacking学习器对多模型预测结果进行融合,具体为Stacking学习器运用Logistic回归法对多模型预测结果进行融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910099716.4A CN109829543B (zh) | 2019-01-31 | 2019-01-31 | 基于集成学习的空间有效载荷数据流在线异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910099716.4A CN109829543B (zh) | 2019-01-31 | 2019-01-31 | 基于集成学习的空间有效载荷数据流在线异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109829543A true CN109829543A (zh) | 2019-05-31 |
CN109829543B CN109829543B (zh) | 2020-05-26 |
Family
ID=66863177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910099716.4A Active CN109829543B (zh) | 2019-01-31 | 2019-01-31 | 基于集成学习的空间有效载荷数据流在线异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829543B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232082A (zh) * | 2019-06-13 | 2019-09-13 | 中国科学院新疆理化技术研究所 | 面向连续时空加油数据的异常检测方法 |
CN110247910A (zh) * | 2019-06-13 | 2019-09-17 | 深信服科技股份有限公司 | 一种异常流量的检测方法、系统及相关组件 |
CN110351301A (zh) * | 2019-07-26 | 2019-10-18 | 长沙市智为信息技术有限公司 | 一种http请求双层递进式异常检测方法 |
CN110912272A (zh) * | 2019-12-03 | 2020-03-24 | 合肥工业大学 | 基于区域性异常模式识别的城市电网故障检测方法和系统 |
CN111126489A (zh) * | 2019-12-24 | 2020-05-08 | 广东电网有限责任公司 | 一种基于集成学习的输电设备状态评价方法 |
CN111168569A (zh) * | 2020-01-08 | 2020-05-19 | 华中科技大学 | 一种磨削材料去除量预测方法、装置、设备及存储介质 |
CN111199343A (zh) * | 2019-12-24 | 2020-05-26 | 上海大学 | 一种多模型融合的烟草市场监管异常数据挖掘方法 |
CN111447217A (zh) * | 2020-03-25 | 2020-07-24 | 西南大学 | 一种稀疏编码下的基于htm的流数据异常检测方法及系统 |
CN111478904A (zh) * | 2020-04-08 | 2020-07-31 | 莆田学院 | 一种基于概念漂移的物联网设备通信异常检测方法及装置 |
CN111507765A (zh) * | 2020-04-16 | 2020-08-07 | 厦门美图之家科技有限公司 | 广告点击率预测方法、装置、电子设备和可读存储介质 |
CN111651504A (zh) * | 2020-06-03 | 2020-09-11 | 湖南大学 | 基于深度学习的多元时间序列多层时空依赖建模方法 |
CN111784738A (zh) * | 2020-06-19 | 2020-10-16 | 中国科学院国家空间科学中心 | 一种基于涨落分析的极暗弱运动目标关联检测方法 |
CN111866128A (zh) * | 2020-07-20 | 2020-10-30 | 浙江树人学院(浙江树人大学) | 一种基于双lstm迭代学习的物联网数据流检测方法 |
CN112131212A (zh) * | 2020-09-29 | 2020-12-25 | 合肥城市云数据中心股份有限公司 | 基于集成学习技术面向混合云场景的时序数据异常预测方法 |
CN112633360A (zh) * | 2020-12-18 | 2021-04-09 | 中国地质大学(武汉) | 一种基于大脑皮层学习模式的分类方法 |
CN112820105A (zh) * | 2020-12-31 | 2021-05-18 | 银江股份有限公司 | 路网异常区域处理的方法及系统 |
CN112884167A (zh) * | 2019-11-29 | 2021-06-01 | 中国信托登记有限责任公司 | 一种基于机器学习的多指标异常检测方法及其应用系统 |
CN113961922A (zh) * | 2021-10-27 | 2022-01-21 | 浙江网安信创电子技术有限公司 | 一种基于深度学习的恶意软件行为检测与分类系统 |
CN114310870A (zh) * | 2021-11-10 | 2022-04-12 | 达闼科技(北京)有限公司 | 智能体的控制方法、装置、电子设备及存储介质 |
CN114386601A (zh) * | 2022-01-13 | 2022-04-22 | 江苏瑞祥科技集团有限公司 | 一种面向服务器负载数据的htm高效异常检测方法 |
CN114387030A (zh) * | 2022-01-13 | 2022-04-22 | 瑞祥全球购超市有限公司 | 一种面向网络购物平台的在线用户量的智能分析方法 |
CN114513328A (zh) * | 2021-12-31 | 2022-05-17 | 西安电子科技大学 | 基于概念漂移和深度学习的网络流量入侵检测方法 |
CN117131428A (zh) * | 2023-10-26 | 2023-11-28 | 国网浙江省电力有限公司营销服务中心 | 一种自适应营销事件风险识别方法和系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220092179A1 (en) * | 2021-12-02 | 2022-03-24 | Intel Corporation | Detecting data oriented attacks using hardware-based data flow anomaly detection |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170063908A1 (en) * | 2015-08-31 | 2017-03-02 | Splunk Inc. | Sharing Model State Between Real-Time and Batch Paths in Network Security Anomaly Detection |
US20180189128A1 (en) * | 2017-01-03 | 2018-07-05 | International Business Machines Corporation | Hybrid and hierarchical outlier detection system and method for large scale data protection |
CN108764597A (zh) * | 2018-04-02 | 2018-11-06 | 华南理工大学 | 一种基于集成学习的产品质量控制方法 |
CN109274651A (zh) * | 2018-08-30 | 2019-01-25 | 上海海事大学 | 一种DDoS攻击检测方法 |
-
2019
- 2019-01-31 CN CN201910099716.4A patent/CN109829543B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170063908A1 (en) * | 2015-08-31 | 2017-03-02 | Splunk Inc. | Sharing Model State Between Real-Time and Batch Paths in Network Security Anomaly Detection |
US20180302423A1 (en) * | 2015-08-31 | 2018-10-18 | Splunk Inc. | Network security anomaly and threat detection using rarity scoring |
US20180189128A1 (en) * | 2017-01-03 | 2018-07-05 | International Business Machines Corporation | Hybrid and hierarchical outlier detection system and method for large scale data protection |
CN108764597A (zh) * | 2018-04-02 | 2018-11-06 | 华南理工大学 | 一种基于集成学习的产品质量控制方法 |
CN109274651A (zh) * | 2018-08-30 | 2019-01-25 | 上海海事大学 | 一种DDoS攻击检测方法 |
Non-Patent Citations (3)
Title |
---|
MALHOTRA P: ""Long Short Term Memory Networks for Anomaly Detection in Time Series"", 《EUROPEAN SYMPOSIUM ON ARTIFICIAL NEURAL NETWORKS》 * |
YUWEI CUI: ""Continuous online sequence learning with an unsupervised neural network model"", 《ARXIV》 * |
丁智国: ""一种新的在线流数据异常检测方法"", 《计算机科学》 * |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110247910A (zh) * | 2019-06-13 | 2019-09-17 | 深信服科技股份有限公司 | 一种异常流量的检测方法、系统及相关组件 |
CN110247910B (zh) * | 2019-06-13 | 2022-08-09 | 深信服科技股份有限公司 | 一种异常流量的检测方法、系统及相关组件 |
CN110232082B (zh) * | 2019-06-13 | 2022-08-30 | 中国科学院新疆理化技术研究所 | 面向连续时空加油数据的异常检测方法 |
CN110232082A (zh) * | 2019-06-13 | 2019-09-13 | 中国科学院新疆理化技术研究所 | 面向连续时空加油数据的异常检测方法 |
CN110351301A (zh) * | 2019-07-26 | 2019-10-18 | 长沙市智为信息技术有限公司 | 一种http请求双层递进式异常检测方法 |
CN110351301B (zh) * | 2019-07-26 | 2021-09-28 | 长沙市智为信息技术有限公司 | 一种http请求双层递进式异常检测方法 |
CN112884167B (zh) * | 2019-11-29 | 2023-11-10 | 中国信托登记有限责任公司 | 一种基于机器学习的多指标异常检测方法及其应用系统 |
CN112884167A (zh) * | 2019-11-29 | 2021-06-01 | 中国信托登记有限责任公司 | 一种基于机器学习的多指标异常检测方法及其应用系统 |
CN110912272A (zh) * | 2019-12-03 | 2020-03-24 | 合肥工业大学 | 基于区域性异常模式识别的城市电网故障检测方法和系统 |
CN110912272B (zh) * | 2019-12-03 | 2023-02-21 | 合肥工业大学 | 基于区域性异常模式识别的城市电网故障检测方法和系统 |
CN111126489A (zh) * | 2019-12-24 | 2020-05-08 | 广东电网有限责任公司 | 一种基于集成学习的输电设备状态评价方法 |
CN111199343B (zh) * | 2019-12-24 | 2023-07-21 | 上海大学 | 一种多模型融合的烟草市场监管异常数据挖掘方法 |
CN111199343A (zh) * | 2019-12-24 | 2020-05-26 | 上海大学 | 一种多模型融合的烟草市场监管异常数据挖掘方法 |
CN111168569A (zh) * | 2020-01-08 | 2020-05-19 | 华中科技大学 | 一种磨削材料去除量预测方法、装置、设备及存储介质 |
CN111447217A (zh) * | 2020-03-25 | 2020-07-24 | 西南大学 | 一种稀疏编码下的基于htm的流数据异常检测方法及系统 |
CN111478904A (zh) * | 2020-04-08 | 2020-07-31 | 莆田学院 | 一种基于概念漂移的物联网设备通信异常检测方法及装置 |
CN111478904B (zh) * | 2020-04-08 | 2022-05-03 | 莆田学院 | 一种基于概念漂移的物联网设备通信异常检测方法及装置 |
CN111507765A (zh) * | 2020-04-16 | 2020-08-07 | 厦门美图之家科技有限公司 | 广告点击率预测方法、装置、电子设备和可读存储介质 |
CN111651504A (zh) * | 2020-06-03 | 2020-09-11 | 湖南大学 | 基于深度学习的多元时间序列多层时空依赖建模方法 |
CN111651504B (zh) * | 2020-06-03 | 2021-10-08 | 湖南大学 | 基于深度学习的多元时间序列多层时空依赖建模方法 |
CN111784738B (zh) * | 2020-06-19 | 2023-10-31 | 中国科学院国家空间科学中心 | 一种基于涨落分析的极暗弱运动目标关联检测方法 |
CN111784738A (zh) * | 2020-06-19 | 2020-10-16 | 中国科学院国家空间科学中心 | 一种基于涨落分析的极暗弱运动目标关联检测方法 |
CN111866128A (zh) * | 2020-07-20 | 2020-10-30 | 浙江树人学院(浙江树人大学) | 一种基于双lstm迭代学习的物联网数据流检测方法 |
CN111866128B (zh) * | 2020-07-20 | 2022-06-03 | 浙江树人学院(浙江树人大学) | 一种基于双lstm迭代学习的物联网数据流检测方法 |
CN112131212A (zh) * | 2020-09-29 | 2020-12-25 | 合肥城市云数据中心股份有限公司 | 基于集成学习技术面向混合云场景的时序数据异常预测方法 |
CN112633360B (zh) * | 2020-12-18 | 2024-04-05 | 中国地质大学(武汉) | 一种基于大脑皮层学习模式的分类方法 |
CN112633360A (zh) * | 2020-12-18 | 2021-04-09 | 中国地质大学(武汉) | 一种基于大脑皮层学习模式的分类方法 |
CN112820105A (zh) * | 2020-12-31 | 2021-05-18 | 银江股份有限公司 | 路网异常区域处理的方法及系统 |
CN113961922B (zh) * | 2021-10-27 | 2023-03-24 | 浙江网安信创电子技术有限公司 | 一种基于深度学习的恶意软件行为检测与分类系统 |
CN113961922A (zh) * | 2021-10-27 | 2022-01-21 | 浙江网安信创电子技术有限公司 | 一种基于深度学习的恶意软件行为检测与分类系统 |
CN114310870A (zh) * | 2021-11-10 | 2022-04-12 | 达闼科技(北京)有限公司 | 智能体的控制方法、装置、电子设备及存储介质 |
CN114513328B (zh) * | 2021-12-31 | 2023-02-10 | 西安电子科技大学 | 基于概念漂移和深度学习的网络流量入侵检测方法 |
CN114513328A (zh) * | 2021-12-31 | 2022-05-17 | 西安电子科技大学 | 基于概念漂移和深度学习的网络流量入侵检测方法 |
CN114387030A (zh) * | 2022-01-13 | 2022-04-22 | 瑞祥全球购超市有限公司 | 一种面向网络购物平台的在线用户量的智能分析方法 |
CN114386601A (zh) * | 2022-01-13 | 2022-04-22 | 江苏瑞祥科技集团有限公司 | 一种面向服务器负载数据的htm高效异常检测方法 |
CN114387030B (zh) * | 2022-01-13 | 2024-03-15 | 瑞祥全球购超市有限公司 | 一种面向网络购物平台的在线用户量的智能分析方法 |
CN117131428A (zh) * | 2023-10-26 | 2023-11-28 | 国网浙江省电力有限公司营销服务中心 | 一种自适应营销事件风险识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109829543B (zh) | 2020-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829543A (zh) | 一种基于集成学习的数据流在线异常检测方法 | |
CN110414788A (zh) | 一种基于相似日和改进lstm的电能质量预测方法 | |
CN107886168A (zh) | 一种使用多层感知器神经网络进行电梯故障识别的方法 | |
CN110321361A (zh) | 基于改进的lstm神经网络模型的试题推荐判定方法 | |
CN110689171A (zh) | 一种基于e-lstm的汽轮机健康状态预测方法 | |
Miao et al. | A novel real-time fault diagnosis method for planetary gearbox using transferable hidden layer | |
CN111461413B (zh) | 一种公路路面使用性能检测系统 | |
CN111768000A (zh) | 在线自适应微调深度学习的工业过程数据建模方法 | |
CN112329990A (zh) | 一种基于lstm-bp神经网络的用户用电负荷预测方法 | |
CN114462718A (zh) | 基于时间滑动窗口的cnn-gru风电功率预测方法 | |
Xing-yu et al. | RNN-based method for fault diagnosis of grinding system | |
CN114548482A (zh) | 一种基于蠕变型滑坡动能变化率临滑预警方法 | |
CN115409258A (zh) | 一种混合深度学习短期辐照度预测方法 | |
Su et al. | Generative adversarial networks for gearbox of wind turbine with unbalanced data sets in fault diagnosis | |
Ren et al. | An intelligent fault detection method based on sparse auto-encoder for industrial process systems: A case study on tennessee eastman process chemical system | |
CN117421571A (zh) | 一种基于配电网的拓扑实时辨识方法及系统 | |
CN113033898A (zh) | 基于k均值聚类与bi-lstm神经网络的电负荷预测方法及系统 | |
CN115660221B (zh) | 基于混合神经网络的油气藏经济可采储量评估方法及系统 | |
CN116109039A (zh) | 一种数据驱动异常检测与预警系统 | |
Wu et al. | Fault diagnosis of TE process based on incremental learning | |
Zhang et al. | Neural network based algorithm and simulation of information fusion in the coal mine | |
CN114841063A (zh) | 一种基于深度学习的航空发动机剩余寿命预测方法 | |
CN114401135A (zh) | 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法 | |
CN113128130A (zh) | 一种判断直流配电系统稳定性的实时监测方法及装置 | |
Chai et al. | Production Forecast of Coalbed Methane Based on GA Optimized BP Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |