CN117076171A - 一种面向多元时序数据的异常检测及定位方法及装置 - Google Patents

一种面向多元时序数据的异常检测及定位方法及装置 Download PDF

Info

Publication number
CN117076171A
CN117076171A CN202311014078.4A CN202311014078A CN117076171A CN 117076171 A CN117076171 A CN 117076171A CN 202311014078 A CN202311014078 A CN 202311014078A CN 117076171 A CN117076171 A CN 117076171A
Authority
CN
China
Prior art keywords
feature matrix
data
time sequence
sequence data
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311014078.4A
Other languages
English (en)
Inventor
张王俊
吴金龙
何旭东
顾荣斌
潘晨灵
刘文意
张皛
方晓蓉
邵佳炜
周忠冉
李马峰
蔡世龙
潘安顺
顾亚林
张俊杰
邱文元
富思
李静
陈世伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
State Grid Corp of China SGCC
State Grid Shanghai Electric Power Co Ltd
Nari Information and Communication Technology Co
State Grid Electric Power Research Institute
Original Assignee
Nanjing University of Aeronautics and Astronautics
State Grid Corp of China SGCC
State Grid Shanghai Electric Power Co Ltd
Nari Information and Communication Technology Co
State Grid Electric Power Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics, State Grid Corp of China SGCC, State Grid Shanghai Electric Power Co Ltd, Nari Information and Communication Technology Co, State Grid Electric Power Research Institute filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202311014078.4A priority Critical patent/CN117076171A/zh
Publication of CN117076171A publication Critical patent/CN117076171A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种面向多元时序数据的异常检测及定位方法及装置,方法包括以下步骤:S1:对多元时序数据中每个时间点的数据划分多个尺度的滑动窗口,计算得到多元时序数据的特征矩阵;S2:使用正常的多尺度特征矩阵和自特征矩阵作为训练集输入训练模型进行迭代训练;S3:组建异常检测器,将多元时序数据输入异常检测器,得到重构数据,计算多元时序数据的异常分数;S4:基于异常分数以及阈值,判定多元时序数据是否为异常;S5:根据异常贡献程度确定发生异常的根因。本发明具有能有效识别异常根因,进而完成对故障传感器检测及定位的技术效果。

Description

一种面向多元时序数据的异常检测及定位方法及装置
技术领域
本发明属于计算机技术领域,尤其涉及一种面向多元时序数据的异常检测及定位方法及装置。
背景技术
随着社会对于大规模系统或设备基础设施的依赖逐渐加深,许多大规模的系统应用或设备也被广泛用于众多行业中,包括金融、教育、制造、交通以及医疗等。这些基础设施的可靠性和稳定性影响着数十亿人的生产生活,一旦发生故障可能会产生大量中断从而引起用户的不满并因此带来巨大的经济损失。为了满足用户不断变化的需求以及保障基础设施的安全,许多系统应用或者设备中的数据模式变得更具复杂性,然而用户们在各方面生产生活变得更加便利的同时,监控和保障系统或设备安全的难度也是与日俱增,变得更容易发生故障和产生性能问题。因此,为了保障系统或设备的安全、可靠,在当前不同场景下,往往需要实时监控海量多源的系统或设备数据,用于检测并及时发现系统中的异常状态或者故障,以保障安全。
伴随着人工智能技术的发展,深度学习领域中的神经网络已经广泛的应用到时序异常检测领域中,针对时序数据中的很多问题,神经网络对于多元时序数据之间复杂的线性和非线性关系往往具备很好的学习能力。
现在的深度学习方法可以通过学习历史数据的潜在特征来预测未来数据来完成异常检测,也可以通过重构正常数据来检测出异常数据,因此,针对时序数据,如何进行有效的建模时提高异常检测性能的关键。
发明内容
本发明的目的是为了解决背景技术中提及的问题,提供一种面向多元时序数据的异常检测及定位方法及装置。
为实现上述技术目的,本发明采取的技术方案为:
一种面向多元时序数据的异常检测及定位方法,包括以下步骤:
S1:对多元时序数据中每个时间点的数据划分多个尺度的滑动窗口,计算得到多元时序数据的多尺度特征矩阵和自特征矩阵;
S2:对结合双卷积自编码器以及基于注意力的ConvLSTM的模型进行训练,使用多尺度特征矩阵和自特征矩阵模板作为训练集输入模型进行迭代训练,使模型收敛;
S3:获取收敛后模型的部分模块,组建异常检测器,将多元时序数据的多尺度特征矩阵和自特征矩阵输入异常检测器,异常检测器输出重构数据,重构数据结合重构误差,计算多元时序数据的异常分数;
S4:基于异常分数以及阈值,判定多元时序数据是否为异常;
S5:在识别出异常的基础上,统计每个维度对异常的贡献程度,根据异常贡献程度确定发生异常的根因。
为了优化上述技术方案,采取的具体措施还包括:
步骤S1中,计算多元时序数据的多尺度特征矩阵和自特征矩阵的具体过程包括以下步骤:
S11:表示t时刻往前一个时间戳长度为w的滑动窗口为xt,w={xt-w+1,xt-w+2,…,xt}, 表示形状为w×N的二维数据,t时刻的特征矩阵等于转置/>与xt,w的乘积,再除以时间戳长度w,计算出N×N的特征矩阵,用/>表示,具体计算公式如下:
然后选取p个不同尺度的滑动窗口,计算在不同时间戳长度w的情况下t时刻的特征矩阵,并组合在一起,形成了一个三维数据即多元时序数据的多尺度特征矩阵,
S12:w=1时的t时刻的多元时序数据的多尺度特征矩阵为多元时序数据的自特征矩阵
S13:当t<w时,将这些时刻的多尺度特征矩阵和自身特征矩阵分别置为N×N×p和N×N的零阵,将多元时序数据生成的多尺度特征矩阵表示为自特征矩阵标记为/>
步骤S2中,对结合双卷积自编码器以及基于注意力的ConvLSTM的模型进行训练具体包括以下步骤:
S21:所述双卷积自编码器包括AE1和AE2两部分,AE1和AE2相互连接,对训练集多尺度特征矩阵进行重构,其训练目标为:
其中 表示t时刻长度为s的训练集多尺度特征矩阵,
S22:基于注意力的ConvLSTM对通过提取时间信息,得到最终的t时刻重构后的训练集多尺度特征矩阵/>表示为/>其训练目标为:
其中为训练集自特征矩阵;
S23:进而可以得到结合双卷积自编码器以及基于注意力的ConvLSTM的模型的训练目标,模型损失函数表示为:
步骤S22中,所述双卷积自编码器中AE1和AE2均包含卷积编码部分E和反卷积解码部分D,其编码和解码计算公式为:
表示第l层的输出,/>表示D1第l层的输出,/>分别表示E1、D1卷积网络中第l层的卷积核权重与偏移。
步骤S23中,所述基于注意力的ConvLSTM能在不同的时间点上自适应选择相关的隐藏状态信息,使用作为输入,捕获时间信息,输出t时刻的重构后的训练集多尺度特征矩阵/>其隐藏状态向量公式为/>其中ConvLSTM中详细状态向量更新公式如下所示:
其中,*表示卷积运算,表示哈达玛积,σ表示sigmoid激活函数,tanh表示激活函数,/>表示i时刻ConvLSTM模块的输入,/>表示i时刻输入门的输出,/>表示i时刻遗忘门的输出,/>表示i时刻更新后的单元状态,/>表示i时刻ConvLSTM的输出,/>表示i时刻隐藏层的输出, 表示对应隐藏状态向量中的卷积核权重和偏置。同时,当i=1时,上一时刻的相关状态信息的根据经验设置。
步骤S3中,使用收敛后的AE1的卷积编码部分E和AE2的反卷积解码部分D,组成新的卷积自编码器AE3,结合基于注意力的ConLSTM组成异常检测器,将多元时序数据的多尺度特征矩阵和自特征矩阵输入异常检测器,异常检测器输出多元时序数据的多尺度特征矩阵和自特征矩阵的重构数据,通过计算重构后的多元时序数据的多尺度特征矩阵和自特征矩阵的残差得到多元时序数据的异常分数。
多元时序数据的异常分数的具体算法为:
分别计算重构后多元时序数据的多个尺度的异常得分
其中,在得到各尺度的异常得分后,再计算出平均异常分数
平均异常分数即为多元时序数据的异常分数。
步骤S4中,根据训练集的异常分数来确定阈值δ:
时,判定多元时序数据为异常。
步骤S5中的具体子步骤为:
S51:计算出重构后的训练集多尺度特征矩阵与训练集自特征矩阵/>两者之间的差距,表示为训练集多尺度残差矩阵/>然后取出每个训练集多尺度残差矩阵/>中的最大值,并计算其均值作为θ,
S52:异常检测器输出多元时序数据的多尺度特征矩阵和自特征矩阵的重构数据,输出重构后的多元时序数据的多尺度特征矩阵与多元时序数据的/>表示为多元时序数据的多尺度残差矩阵/>
S53:多元时序数据的多尺度残差矩阵中各个维度在残差矩阵中固定行与相同维度的固定列中大于阈值θ的数据数量/>即为贡献程度,其计算公式为:
其中,表示第j个残差矩阵第i行的取值,/>表示第j个残差矩阵第i列的取值,根据贡献程度对维度进行排序,贡献程度越靠前的维度所表示的指标越有可能是引发异常的根因指标,进而完成对故障传感器检测及定位。
一种面向多元时序数据的异常检测及定位装置,包括:计算单元、训练单元、检测单元、判断单元和定位单元,计算单元、训练单元、检测单元、判断单元和定位单元之间通过信号连接,
计算单元,用于对时序数据中每个时间点的数据划分多个尺度的滑动窗口,并计算整个多元时序数据的多尺度特征矩阵以及自特征矩阵。
训练单元,用于对结合双卷积自编码器以及基于注意力的ConvLSTM的模型进行训练,使用正常的多尺度特征矩阵和自特征矩阵作为训练集输入模型进行迭代训练,使模型收敛;
检测单元用于获取收敛后模型的部分模块,组建异常检测器,将多元时序数据的多尺度特征矩阵和自特征矩阵输入异常检测器,异常检测器输出重构数据,重构数据结合重构误差,计算多元时序数据的异常分数;
判断单元用于基于异常分数以及阈值,判定多元时序数据是否为异常;
定位单元用于在识别出异常的基础上,统计每个维度对异常的贡献程度,根据异常贡献程度确定发生异常的根因。
一种计算机可读存储介质,所述的计算机可读存储介质存储有计算机程序,所述的计算机程序被处理器执行时,实现上述的方法步骤。
一种电子设备,所述的电子设备包括处理器以及存储器,所述的存储器存储有计算机程序,所述的计算机程序被所述的处理器执行时,实现上述的方法步骤。
本发明采用正常的多元时序数据的多尺度特征矩阵和自特征矩阵作为多尺度特征矩阵和自特征矩阵模板。
本发明具有以下优点:本发明针对多元时序数据生成多尺度特征矩阵和自特征矩阵,用以反映数据特征,并使用卷积神经网络对多尺度特征矩阵进行编码,有效提升了模型的检测精度;同时,提出了串行卷积编码的结构,有效地抑制了时序数据中的噪声影响;最后,在异常时刻检测的基础上,使用了一种计算多元时序数据各维度对异常贡献程度的计算方式,能有效识别发生异常根因。
附图说明
图1为本发明的方法流程图;
图2为本发明的异常检测架构图;
图3为本发明的异常检测装置结构图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
参见图1,表示了本方法的具体流程,具体的,本发明方法包括:
步骤S1:生成数据的特征矩阵;针对多元时序数据,对每个时间点的数据划分多个尺度的滑动窗口,进而计算整个多元时序数据的多尺度特征矩阵序列以及自特征矩阵序列
表示时间序列为其中每一个/>t=1,2,……M,M表示时间序列的长度,N表示维度,也就是多元时序数据的指标数量。针对每个时刻的xt,将构造多个不同尺度的特征矩阵和一个自特征矩阵,用于分析t时刻数据是否符合正常的变化趋势。下面针对相关概念做出详细介绍。
多尺度特征矩阵:对于不同维度之间的相关性计算,采用了一种使用滑动窗口数据来计算t时刻特征矩阵的方法。为了表示t时刻的数据与历史数据的关系,从t时刻开始,向前选取了时间戳长度为w的滑动窗口(包括t时刻),即利用t-w+1到t时刻这个滑动窗口及其转置后的数据,以内积的计算方式构造了一个N×N的特征矩阵,具体计算方式为:
首先表示t时刻往前一个长度为w的滑动窗口为xt,w={xt-w+1,xt-w+2,…,xt},xt,w是一个w×N的矩阵,于是,t时刻的特征矩阵就等于转置/>与xt,w的乘积,再除以窗口大小w,最终计算出一个N×N的特征矩阵,后续用/>表示xt,w对应的特征矩阵,具体计算公式如下,其中w是作为一个缩放因子来参与矩阵数据的运算:
基于上述公式的计算,就可以得出t时刻的特征矩阵,在模型训练与检测中,本文将选取p个不同尺度的滑动窗口来计算来t时刻的特征矩阵,目的是在反映t时刻的多级状态,可以更好的获取数据的特征。因此,计算了在不同时间戳长度w的情况下t时刻的特征矩阵,并组合在一起,形成了一个三维数据
自特征矩阵。为了检测时序数据中每个时刻的异常情况,提出了一种自特征矩阵,其实,也就是计算当w=1时的,t时刻的特征矩阵,在这里用来表示该自特征矩阵,依然利用上述来进行计算,将同一窗口移动一步到下一个时刻,就会获得下一时刻t+1的自特征矩阵/>
步骤S2:对结合双卷积自编码器以及基于注意力的ConvLSTM的模型进行训练,使用正常的多尺度特征矩阵和自特征矩阵作为训练集输入模型进行迭代训练,使模型收敛;
S3:获取收敛后模型的部分模块,组建异常检测器,将多元时序数据的多尺度特征矩阵和自特征矩阵输入异常检测器,异常检测器输出重构数据,重构数据结合重构误差,计算多元时序数据的异常分数;
步骤S4:基于异常分数以及阈值,判定多元时序数据是否为异常;
步骤S5:识在识别出异常的基础上,统计每个维度对异常的贡献程度,对每个维度的异常贡献程度进行排序,根据异常贡献程度确定发生异常的根因。
步骤S2中,对结合双卷积自编码器以及基于注意力的ConvLSTM的模型进行训练具体包括以下步骤:
S21:所述双卷积自编码器包括AE1和AE2两部分,AE1和AE2相互连接,对训练集多尺度特征矩阵进行重构,其训练目标为:
其中 表示t时刻长度为s的训练集多尺度特征矩阵,
S22:基于注意力的ConvLSTM对通过提取时间信息,得到最终的t时刻重构后的训练集多尺度特征矩阵/>表示为/>其训练目标为:
其中为训练集自特征矩阵;
S23:进而可以得到结合双卷积自编码器以及基于注意力的ConvLSTM的模型的训练目标,模型损失函数表示为:
步骤S22中,所述双卷积自编码器中AE1和AE2均包含卷积编码部分E和反卷积解码部分D,即双卷积自编码器中AE1包含卷积编码部分E1、反卷积解码部分D1,AE2包括卷积编码部分E2、反卷积解码部分D2,以E1、D1为例,其编码和解码计算公式为:
表示第l层的输出,/>表示D1第l层的输出,/>分别表示E1、D1卷积网络中第l层的卷积核权重与偏移。
步骤S23中,所述基于注意力的ConvLSTM能在不同的时间点上自适应选择相关的隐藏状态信息,使用作为输入,捕获时间信息,输出t时刻的重构后的训练集多尺度特征矩阵/>其隐藏状态向量公式为/>其中ConvLSTM中详细状态向量更新公式如下所示:
其中,*表示卷积运算,表示哈达玛积,σ表示sigmoid激活函数,tanh表示激活函数,/>表示i时刻ConvLSTM模块的输入,/>表示i时刻输入门的输出,/>表示i时刻遗忘门的输出,/>表示i时刻更新后的单元状态,/>表示i时刻ConvLSTM的输出,/>表示i时刻隐藏层的输出,/> 表示对应隐藏状态向量中的卷积核权重和偏置。同时,当i=1时,上一时刻的相关状态信息的根据经验设置。
步骤S3中,使用收敛后的AE1的卷积编码部分E和AE2的反卷积解码部分D,组成新的卷积自编码器AE3,结合基于注意力的ConLSTM组成异常检测器,将多元时序数据的多尺度特征矩阵和自特征矩阵输入异常检测器,异常检测器输出多元时序数据的多尺度特征矩阵和自特征矩阵的重构数据,通过计算重构后的多元时序数据的多尺度特征矩阵和自特征矩阵的残差得到多元时序数据的异常分数。
多元时序数据的异常分数的具体算法为:
分别计算重构后多元时序数据的多个尺度的异常得分
其中,在得到各尺度的异常得分后,再计算出平均异常分数
平均异常分数即为多元时序数据的异常分数。
步骤S4中,根据训练集的异常分数来确定阈值δ:
时,判定多元时序数据为异常。
步骤S5中的具体子步骤为:
S51:计算出重构后的训练集多尺度特征矩阵与训练集自特征矩阵/>两者之间的差距,表示为训练集多尺度残差矩阵/>然后取出每个训练集多尺度残差矩阵/>中的最大值,并计算其均值作为θ,
S52:异常检测器输出多元时序数据的多尺度特征矩阵和自特征矩阵的重构数据,输出重构后的多元时序数据的多尺度特征矩阵与多元时序数据的/>表示为多元时序数据的多尺度残差矩阵/>
S53:多元时序数据的多尺度残差矩阵中各个维度在残差矩阵中固定行与相同维度的固定列中大于阈值θ的数据数量/>即为贡献程度,其计算公式为:
其中,表示第j个残差矩阵第i行的取值,/>表示第j个残差矩阵第i列的取值,根据贡献程度对维度进行排序,贡献程度越靠前的维度所表示的指标越有可能是引发异常的根因指标,进而完成对故障传感器检测及定位。
如图3所示,表示本发明的一种面向多元时序数据的异常检测及定位装置的结构框图,本实施例提供的装置包括:
计算单元10、训练单元20、检测单元30、判断单元40和定位单元50,计算单元10、训练单元20、检测单元30、判断单元40和定位单元50之间通过信号连接,
计算单元10,用于对时序数据中每个时间点的数据划分多个尺度的滑动窗口,并计算整个多元时序数据的多尺度特征矩阵以及自特征矩阵。
训练单元20,用于对结合双卷积自编码器以及基于注意力的ConvLSTM的模型进行训练,使用正常的多尺度特征矩阵和自特征矩阵作为训练集输入模型进行迭代训练,使模型收敛;
检测单元30用于获取收敛后模型的部分模块,组建异常检测器,将多元时序数据的多尺度特征矩阵和自特征矩阵输入异常检测器,异常检测器输出重构数据,重构数据结合重构误差,计算多元时序数据的异常分数;
判断单元40用于基于异常分数以及阈值,判定多元时序数据是否为异常;
定位单元50用于在识别出异常的基础上,统计每个维度对异常的贡献程度,对每个维度的异常贡献程度进行排序,根据异常贡献程度确定发生异常的根因。
具体实施例:
在具体的实验中,使用了一个合成数据集和两个真实的公开数据集来进行实验,以验证本文方法的有效性。
实验过程主要包含异常检测和根因定位。
多尺度特征矩阵参数设置:在实验阶段,设置了三个尺度的特征矩阵,即p=3。三个尺度的滑动窗口大小分别设置w={10,20,40},主要目的从三个尺度去检测异常,计算出对应的异常分数。在划分多尺度特征矩阵后,定义每个时刻输入的特征矩阵序列长度为s=5,用于在最后的ConvLSTM模块来编码序列数据的时间特征。
卷积网络参数设置:本章的卷积与反卷积过程都设置了三层卷积层,第一层是拥有32个卷积核大小为5×3×3的卷积层,步长设置为strides1=1,第二层是拥有64个卷积核大小为32×3×3的卷积层,步长设置为strides2=2,第三层是拥有128个卷积核大小为64×2×2的卷积层,步长设置为strides3=2,在反卷积阶段,是与卷积编码阶段刚好对应的卷积核大小,用于对多尺度特征矩阵实现卷积重构,其中,每一层卷积后都是用SeLU激活函数作为激活函数层。
最后,定义本次实验室模型迭代次数Q=60。
为了评估方法在异常检测方面的性能与其他模型相比的优劣,采用了精确率(Precision)、召回率(Recall)以及F1分数来衡量模型在异常检测方面的有效性,同时,为实现更细粒度的时间点异常检测,
因此,与IForest、DAGMM、AE、LSTM-ED、LSTM-VAE这五种方法进行了在三个数据集上性能比较。最终,经过整理,本文所介绍的六种基线方法和提出方法在合成数据集和真实数据集上的检测指标结果如表1所示:
表1对比试验结果
如表1所示,展示了所对比的方法与以及本发明方法在合成数据集和真实数据集上的实验结果。从IForest、DAGMM以及AE三种异常检测方法在三个数据集上的实验结果来看,检测结果并不理想,甚至很差,因为针对时序数据而言,这三种方法并没有任何针对数据时间依赖性方面的建模,AE的作用仅仅是学习数据特征再进行简单的重构。而对于方法LSTM-ED来说,使用LSTM建模了时序数据的时间依赖性,效果好很多,同时,所比较的LSTM-VAE方法是在该基础上,使用变分自编码器的架构来重构数据,但是,这些方法并没有从时间序列之间的相关性来建模数据,同时有些方法在面对数据中的噪声时,显得无能为力。而本发明同时考虑到了这几点,使用了卷积网络对数据的多尺度特征矩阵进行特征提取,并采用了串行的架构来抑制噪声信息,最后利用ConvLSTM在卷积中捕获时间信息综合,可以说考虑的相对全面。最终从三个数据集的实验结果来看,本发明提供的方法在三个数据集上均取得了最高的F1分数,异常检测性能优于其他方法。
基于本发明输出的异常分数以及阈值,可以识别出时序数据中的异常,在此基础上,对于每个异常,在分析他们对应的多尺度残差矩阵后,会统计每个维度对异常的贡献程度并排序,并将前k个维度的指标确定为引起异常的根因。在分析了三个数据集上的残差矩阵后,对每个数据集上注入的真实异常维度和检测出的异常维度进行了总结,在合成数据集上,注入了五个异常,异常维度分别是(15,24,28)、(5,21,26)、(2,3,16)、(5,9,20)、(8,14,25),在发电厂数据集上,注入了四个异常,异常维度指标分别是(30,31,35)、(11,17,20)、(4,28,30)、(2,3,32),在室内温湿度数据集上,注入了四个异常,异常维度分别是(1,5,10,15)、(1,6,8,14)、(5,8,12,17)、(10,11,13,19),最终的实验结果如表2所示,分别是展示在三个数据集上的真实异常维度以及对这些异常维度的异常定位结果。
表2合成数据集指标定位表
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器运行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上运行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上运行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种面向多元时序数据的异常检测及定位方法,其特征在于,包括以下步骤:
S1:对多元时序数据中每个时间点的数据划分多个尺度的滑动窗口,计算得到多元时序数据的多尺度特征矩阵和自特征矩阵;
S2:对结合双卷积自编码器以及基于注意力的ConvLSTM的模型进行训练,使用多尺度特征矩阵和自特征矩阵模板作为训练集输入模型进行迭代训练,使模型收敛;
S3:获取收敛后模型的部分模块,组建异常检测器,将多元时序数据的多尺度特征矩阵和自特征矩阵输入异常检测器,异常检测器输出重构数据,重构数据结合重构误差,计算多元时序数据的异常分数;
S4:基于异常分数以及阈值,判定多元时序数据是否为异常;
S5:在识别出异常的基础上,统计每个维度对异常的贡献程度,根据异常贡献程度确定发生异常的根因。
2.根据权利要求1所述的一种面向多元时序数据的异常检测及定位方法,其特征在于,
步骤S1中,计算多元时序数据的多尺度特征矩阵和自特征矩阵的具体过程包括以下步骤:
S11:表示t时刻往前一个时间戳长度为w的滑动窗口为xt,w={xt-w+1,xt-w+2,...,xt}, 表示形状为w×N的二维数据,t时刻的特征矩阵等于转置/>与xt,w的乘积,再除以时间戳长度w,计算出N×N的特征矩阵,用/>表示,具体计算公式如下:
然后选取p个不同尺度的滑动窗口,计算在不同时间戳长度w的情况下t时刻的特征矩阵,并组合在一起,形成了一个三维数据即多元时序数据的多尺度特征矩阵,
S12:w=1时的t时刻的多元时序数据的多尺度特征矩阵为多元时序数据的自特征矩阵
S13:当t<w时,将这些时刻的多尺度特征矩阵和自身特征矩阵分别置为N×N×p和N×N的零阵,将多元时序数据生成的多尺度特征矩阵表示为自特征矩阵标记为/>
3.根据权利要求2所述的一种面向多元时序数据的异常检测及定位方法,其特征在于,步骤S2中,对结合双卷积自编码器以及基于注意力的ConvLSTM的模型进行训练具体包括以下步骤:
S21:所述双卷积自编码器包括AE1和AE2两部分,AE1和AE2相互连接,对训练集多尺度特征矩阵进行重构,其训练目标为:
其中 表示t时刻长度为s的训练集多尺度特征矩阵,
S22:基于注意力的ConvLSTM对通过提取时间信息,得到最终的t时刻重构后的训练集多尺度特征矩阵/>表示为/>其训练目标为:
其中为训练集自特征矩阵;
S23:进而可以得到结合双卷积自编码器以及基于注意力的ConvLSTM的模型的训练目标,模型损失函数表示为:
4.根据权利要求3所述的一种面向多元时序数据的异常检测及定位方法,其特征在于,步骤S22中,所述双卷积自编码器中AE1和AE2均包含卷积编码部分E和反卷积解码部分D,其编码和解码计算公式为:
表示第l层的输出,/>表示D1第l层的输出,/>分别表示E1、D1卷积网络中第l层的卷积核权重与偏移;步骤S23中,所述基于注意力的ConvLSTM能在不同的时间点上自适应选择相关的隐藏状态信息,使用/>作为输入,捕获时间信息,输出t时刻的重构后的训练集多尺度特征矩阵/>其隐藏状态向量公式为/>其中ConvLSTM中详细状态向量更新公式如下所示:
其中,*表示卷积运算,表示哈达玛积,σ表示sigmoid激活函数,tanh表示激活函数,/>表示i时刻ConvLSTM模块的输入,/>表示i时刻输入门的输出,/>表示i时刻遗忘门的输出,表示i时刻更新后的单元状态,/>表示i时刻ConvLSTM的输出,/>表示i时刻隐藏层的输出,/> 表示对应隐藏状态向量中的卷积核权重和偏置,同时,当i=1时,上一时刻的相关状态信息的根据经验设置。
5.根据权利要求4所述的一种面向多元时序数据的异常检测及定位方法,其特征在于,
步骤S3中,使用收敛后的AE1的卷积编码部分E和AE2的反卷积解码部分D,组成新的卷积自编码器AE3,结合基于注意力的ConLSTM组成异常检测器,将多元时序数据的多尺度特征矩阵和自特征矩阵输入异常检测器,异常检测器输出多元时序数据的多尺度特征矩阵和自特征矩阵的重构数据,通过计算重构后的多元时序数据的多尺度特征矩阵和自特征矩阵的残差得到多元时序数据的异常分数。
6.根据权利要求5所述的一种面向多元时序数据的异常检测及定位方法,其特征在于,多元时序数据的异常分数的具体算法为:
分别计算重构后多元时序数据的多个尺度的异常得分:
其中,在得到各尺度的异常得分后,再计算出平均异常分数
平均异常分数即为多元时序数据的异常分数。
7.根据权利要求5所述的一种面向多元时序数据的异常检测及定位方法,其特征在于,步骤S4中,根据训练集的异常分数来确定阈值δ:
时,判定多元时序数据为异常。
8.根据权利要求5所述的一种面向多元时序数据的异常检测及定位方法,其特征在于,步骤S5中的具体子步骤为:
S51:计算出重构后的训练集多尺度特征矩阵与训练集自特征矩阵/>两者之间的差距,表示为训练集多尺度残差矩阵/>然后取出每个训练集多尺度残差矩阵/>中的最大值,并计算其均值作为θ,
S52:异常检测器输出多元时序数据的多尺度特征矩阵和自特征矩阵的重构数据,输出重构后的多元时序数据的多尺度特征矩阵与多元时序数据的/>表示为多元时序数据的多尺度残差矩阵/>
S53:多元时序数据的多尺度残差矩阵中各个维度在残差矩阵中固定行与相同维度的固定列中大于阈值θ的数据数量/>即为贡献程度,其计算公式为:
其中,表示第j个残差矩阵第i行的取值,/>定示第j个残差矩阵第i列的取值,根据贡献程度对维度进行排序,贡献程度越靠前的维度所表示的指标越有可能是引发异常的根因指标,进而完成对故障传感器检测及定位。
9.一种面向多元时序数据的异常检测及定位装置,其特征在于,包括:计算单元、训练单元、检测单元、判断单元和定位单元,所述的计算单元、训练单元、检测单元、判断单元和定位单元之间通过信号连接,
所述的计算单元,用于对时序数据中每个时间点的数据划分多个尺度的滑动窗口,并计算整个多元时序数据的多尺度特征矩阵以及自特征矩阵;
所述的训练单元,用于对结合双卷积自编码器以及基于注意力的ConvLSTM的模型进行训练,使用正常的多尺度特征矩阵和自特征矩阵作为训练集输入模型进行迭代训练,使模型收敛;
所述的检测单元用于获取收敛后模型的部分模块,组建异常检测器,将多元时序数据的多尺度特征矩阵和自特征矩阵输入异常检测器,异常检测器输出重构数据,重构数据结合重构误差,计算多元时序数据的异常分数;
所述的判断单元用于基于异常分数以及阈值,判定多元时序数据是否为异常;
所述的定位单元用于在识别出异常的基础上,统计每个维度对异常的贡献程度,根据异常贡献程度确定发生异常的根因。
10.一种计算机可读存储介质,所述的计算机可读存储介质存储有计算机程序,所述的计算机程序被处理器执行时,实现权利要求1-8任意一项所述的方法步骤。
CN202311014078.4A 2023-08-11 2023-08-11 一种面向多元时序数据的异常检测及定位方法及装置 Pending CN117076171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311014078.4A CN117076171A (zh) 2023-08-11 2023-08-11 一种面向多元时序数据的异常检测及定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311014078.4A CN117076171A (zh) 2023-08-11 2023-08-11 一种面向多元时序数据的异常检测及定位方法及装置

Publications (1)

Publication Number Publication Date
CN117076171A true CN117076171A (zh) 2023-11-17

Family

ID=88707233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311014078.4A Pending CN117076171A (zh) 2023-08-11 2023-08-11 一种面向多元时序数据的异常检测及定位方法及装置

Country Status (1)

Country Link
CN (1) CN117076171A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117373600A (zh) * 2023-12-04 2024-01-09 邦盛高科特种车辆(天津)有限公司 一种医疗检测车数据优化存储方法
CN117648215A (zh) * 2024-01-26 2024-03-05 国网山东省电力公司营销服务中心(计量中心) 一种用电信息采集系统异常溯源方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117373600A (zh) * 2023-12-04 2024-01-09 邦盛高科特种车辆(天津)有限公司 一种医疗检测车数据优化存储方法
CN117373600B (zh) * 2023-12-04 2024-02-20 邦盛高科特种车辆(天津)有限公司 一种医疗检测车数据优化存储方法
CN117648215A (zh) * 2024-01-26 2024-03-05 国网山东省电力公司营销服务中心(计量中心) 一种用电信息采集系统异常溯源方法及系统

Similar Documents

Publication Publication Date Title
CN117076171A (zh) 一种面向多元时序数据的异常检测及定位方法及装置
Ma et al. A hybrid attention-based deep learning approach for wind power prediction
CN114297936A (zh) 一种数据异常检测方法及装置
CN113095402B (zh) 一种基于编码输入的生成对抗网络故障检测方法及系统
CN113011085A (zh) 一种设备数字孪生建模方法及系统
CN115983087B (zh) 一种注意力机制与lstm结合检测时序数据异常方法及终端机
CN110851654A (zh) 基于张量化数据降维的工业设备故障检测分类方法
CN117075582A (zh) 一种基于dsecmr-vae的工业过程广义零样本故障诊断方法
CN116361635A (zh) 一种多维时序数据异常检测方法
Xu et al. Industrial process fault detection and diagnosis framework based on enhanced supervised kernel entropy component analysis
Ma et al. A collaborative central domain adaptation approach with multi-order graph embedding for bearing fault diagnosis under few-shot samples
Liu et al. Fault diagnosis of complex industrial systems based on multi-granularity dictionary learning and its application
Yue Data decomposition for analytics of engineering systems: Literature review, methodology formulation, and future trends
CN116992380A (zh) 卫星多维遥测序列异常检测模型构建方法及装置、异常检测方法及装置
CN117290800A (zh) 一种基于超图注意力网络的时序异常检测方法及系统
CN117092582A (zh) 一种基于对抗对比自编码器的电能表异常检测方法及装置
CN110399278B (zh) 基于数据中心异常监控的告警融合系统及方法
CN116595465A (zh) 基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统
Gao et al. Decentralized adaptively weighted stacked autoencoder-based incipient fault detection for nonlinear industrial processes
CN114298413A (zh) 一种水电机组振摆趋势预测方法
CN115878391A (zh) 磁盘异常的检测方法及装置
Najar et al. Comparative Machine Learning Study for Estimating Peak Cladding Temperature in AP1000 Under LOFW
CN117932503A (zh) 一种基于异常段的时间序列异常检测评估方法和系统
CN117726183A (zh) 一种基于空间高阶卷积的燃气运行数据预测方法
CN116910617A (zh) 一种基于mcdlstm-cnn的化工生产过程故障诊断方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination