CN113076215A - 一种独立于数据类型的无监督异常检测方法 - Google Patents

一种独立于数据类型的无监督异常检测方法 Download PDF

Info

Publication number
CN113076215A
CN113076215A CN202110378282.9A CN202110378282A CN113076215A CN 113076215 A CN113076215 A CN 113076215A CN 202110378282 A CN202110378282 A CN 202110378282A CN 113076215 A CN113076215 A CN 113076215A
Authority
CN
China
Prior art keywords
data
abnormal
normal
anomaly detection
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110378282.9A
Other languages
English (en)
Other versions
CN113076215B (zh
Inventor
何克晶
罗钲宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110378282.9A priority Critical patent/CN113076215B/zh
Publication of CN113076215A publication Critical patent/CN113076215A/zh
Application granted granted Critical
Publication of CN113076215B publication Critical patent/CN113076215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种独立于数据类型的无监督异常检测方法,涉及传感器网络,可靠系统等的异常检测领域,包括:(1)对给定的任意类型的数据进行预处理,构建训练数据集;(2)构建自编码器网络,对数据进行维度压缩和特征提取;(3)构建正常数据提取层,对数据进行进一步正常特征提取;(4)用概率密度函数高斯混合模型对正常特征的数据分布进行拟合;(5)对无监督异常检测网络进行训练;(6)使用训练完成的神经网络对测试数据集进行预测,当测试数据的异常概率大于指定阈值时,将该数据视为异常。克服异常检测中异常标签难以获得和针对特定数据类型设计的模型无法应用于其他数据类型的挑战,提高性能的同时又保证了数据类型可扩展性。

Description

一种独立于数据类型的无监督异常检测方法
技术领域
本发明涉及异常检测领域,特别涉及工业生产中传感器网络,可靠系统等的一种独立于数据类型的无监督异常检测方法。
背景技术
异常检测是保证系统运行可靠性和安全性的基础技术之一。在大数据时代,各种数据无时无刻不在被收集。收集的数据通常反映运行系统的质量。当异常发生时,系统中可能会出现意外情况。如何检测异常成为一个迫切需要解决的问题。异常检测的目的是监控这些系统,发现异常,以便操作人员及时做出反应。
对于异常检测,虽然有监督异常检测和半监督异常检测在精度上取得比较好的成果,但在现实数据中,异常标签的获得通常是耗费很大的人力物力的,所以采用无监督的异常检测方法更为现实。而如今的无监督异常检测方法的假设前提是,正常数据的数据量是远远大于异常数据的,所以在训练中不区分正常数据和异常数据是可行的。但当训练数据中的异常数据占据了一定数据量后,这些无监督异常检测方法的性能就会大大下降,因此,如何在训练中保证正常数据和异常数据的分离是必不可少的。此外,现有的方法都是针对一到两种具体的数据类型进行异常检测,而不能适用于其他类型的数据,而为一种新的数据类型设计一个新的方法的成本是巨大的。因此,异常检测所面临的挑战包括,异常标签通常是很难获得的,并且针对特定数据类型设计的模型无法应用于其他数据类型。一方面,异常标签难以获得,例如文献(Zong,B.,Song,Q.,Min,M.R.,Cheng,W.,Lumezanu,C.,Cho,D.,Chen,H.:Deep autoencoding gaussian mixture model for unsupervised anomalydetection.I)(Zhai,S.,Cheng,Y.,Lu,W.,Zhang,Z.:Deep structured energy basedmodels for anomaly detection.arXiv preprint arXiv:1605.07717(2016).)的性能在无监督的条件下表现良好,但当训练数据中的异常数据逐渐增加时性能会降低。另一方面,大多数为特定数据类型而设计的模型在处理其他数据类型的数据时表现较差,例如文献(Yang,B.,Fu,X.,Sidiropoulos,N.D.,Hong,M.:Towards k-means-friendly spaces:Simultaneous deep learning and clustering.In:international conference onmachine learning,pp.3861-3870.PMLR(2017).)被证明是有效的,但仅适用于静态数据类型。有些处理图像数据表现出良好的性能,但它们在其他数据类型上的结果一般。现有的为时序数据设计的模型也面临着同样的难题。
发明内容
本发明的目的在于针对异常检测所面临的异常标签难以获得和针对特定数据类型设计的模型无法应用于其他数据类型的挑战,如何在训练中分离正常数据和异常数据,并且在不改变核心步骤的基础下适用多种数据类型。
本发明至少通过如下技术方案之一实现。
一种独立于数据类型的无监督异常检测方法,包括以下步骤:
(1)对给定的任意类型的数据进行预处理,构建训练数据集;
(2)构建自编码器网络,对数据进行维度压缩和特征提取;
(3)构建正常数据提取层,对数据进行进一步正常特征提取;
(4)用概率密度函数高斯混合模型对正常特征的数据分布进行拟合;
(5)对无监督异常检测网络进行训练;
(6)使用训练完成的神经网络对测试数据集进行预测,当测试数据的异常概率大于指定阈值时,将该数据视为异常。
优选的,步骤(1)中,对给定的任意类型的数据进行预处理包括:
对于静态数据类型,对每一个特征维度进行标准差标准化,即均值为0,标准差为1,使得经过处理后的数据服从标准正态分布;
对于图像数据类型,对每一个像素点进行简单缩放,使得经过处理后的数据分布在[0,1]的区间范围内;
对于时间序列数据类型,先对每一个特征维度进行标准差标准化,即均值为0,标准差为1,使得经过处理后的数据服从标准正态分布,再以步长为s的固定大小的滑动窗口对序列进行采样。
优选的,所述自编码器网络对数据进行维度压缩和特征提取如下:
z=ε(x)
其中,x表示为输入数据;ε为采用的自编码器网络,根据不同的数据类型的特点和输入数据的表示形式不同,自适应地选择不同的自编码器网络对相应的数据类型数据进行维度压缩和特征提取。
优选的,对于静态数据类型,输入数据表示为[批数,特征数],自编码器网络为采用全连接层的自编码器网络,对数据进行维度压缩和非线性特征提取;
对于图像数据类型,输入数据表示为[批数,图片高度,图片宽度,通道数],自编码器网络为采用卷积神经网络的自编码网络,对数据进行维度压缩和空间特征提取;
对于时间序列数据类型,输入数据表示为[批数,步长,特征数],自编码器网络为采用长短期记忆网络的自编码器网络,对数据进行维度压缩和时间依赖特征提取。
优选的,步骤(3)具体为:假定数据中的异常是由于数据的部分特征发生异常而引起的,那么原始数据被划分为正常的数据特征和异常的数据特征,基于此,正常的数据特征用低秩的矩阵表示,异常的数据特征用一个稀疏的矩阵表示;通过线性转换找到子空间,使正常的数据特征都分布在这个子空间上,而异常的数据特征分布在这个子空间外,从而进行正常数据的提取:
z′=M×z
其中,M是一个服从正态分布的正交矩阵,z为特征向量,经过线性转换后的z′被视为仅包含正常数据的特征表示。
优选的,所述概率密度函数高斯混合模型为K个高斯分布函数线性组合的模型,每个高斯分布函数都有一组参数,这组参数包括:混合模型权重γ、混合模型分布φ、混合模型均值μ、混合模型方差Σ;使用多层感知器来生成初始的混合模型权重γ,再在这基础上计算合模型分布φ、混合模型均值μ和混合模型方差Σ:
γ=softmax(MLP(z′))
Figure BDA0003012118400000041
Figure BDA0003012118400000042
Figure BDA0003012118400000043
其中,γi,k表示混合权重,φk、μk、Σk分别表示K个模型分布,混合模型均值和混合模型方差,z′表示仅包含正常数据的特征表示,MLP为多层感知器,softmax()为归一化指数函数,K为高斯混合模型的高斯分布函数个数,N为数据批数。
优选的,训练中使用的目标函数为:
Figure BDA0003012118400000044
其中,L表示目标函数,xi表示原始数据,x′i表示重建数据,zi表示特征向量,M为正交矩阵,I为和MMT维数相同的单位矩阵,
Figure BDA0003012118400000045
为l2,1范数,||·||F为F范数,λ1、λ2、λ3、λ4均为平衡因子;目标函数的第一项为自编码器的重建数据和原始数据间的误差,第二项为正常数据提取层的投影误差,第三项为正常数据提取层的正则项,用来保证投影矩阵M接近于正交矩阵,第四项为高斯混合模型的输出结果,即数据是异常的概率,第五项为高斯混合模型的正则项,用来防止高斯混合模型中有可能出现的奇异解问题;训练达到一定轮次直到收敛即可停止训练。
优选的,步骤(6)包括以下步骤:
6.1对测试数据根据不同的数据类型进行预处理,构建测试数据集;
6.2将获得的数据组成测试集,输入到训练完成的神经网络中,用高斯混合模型的概率输出结果作为测试数据的异常概率;
6.3用测试数据的异常概率和人工设定的阈值做比较,当异常概率大于指定阈值时,则将该数据视为异常。
优选的,在步骤6.3中,用测试数据的异常概率和人工设定的阈值做比较,当异常概率大于指定阈值时,则将该数据视为异常的具体方法为:
人工预测在测试数据集中,设定异常数据的占比百分数,然后用测试数据集中该百分数所对应的数值作为阈值,当测试数据的异常概率大于该阈值时,则将该测试数据视为异常。
优选的,所述测试数据的异常概率计算如下:
Figure BDA0003012118400000051
与现有的技术相比,本发明的有益效果为:
克服异常检测中异常标签难以获得和针对特定数据类型设计的模型无法应用于其他数据类型的挑战,提高性能的同时又保证了数据类型可扩展性。
附图说明
图1为实施例提供的一种独立于数据类型的无监督异常检测方法的总体流程图;
图2为实施例提供的一种独立于数据类型的无监督异常检测方法的架构图;
图3为实施例提供的一种独立于数据类型的无监督异常检测方法的针对静态数据类型的自编码器网络框架;
图4为实施例提供的一种独立于数据类型的无监督异常检测方法的针对图像数据类型的自编码器网络框架;
图5为实施例提供的一种独立于数据类型的无监督异常检测方法的针对时间序列数据类型的自编码器网络框架。
具体实施方式
下面结合附图对本发明的一种独立于数据类型的无监督异常检测方法的具体实施方式作详细描述。应当理解,此处所描述的具体实施例仅用以解释本发明,并不限定本发明。
如图1所示的一种独立于数据类型的无监督异常检测方法,包括如下步骤:
S1.对给定的任意类型的数据进行预处理,构建训练数据集。
具体地,对于静态数据类型,如没有时间和空间依赖关系的数据,对每一个特征维度进行标准差标准化,即均值为0,标准差为1,使得经过处理后的数据服从标准正态分布。
对于图像数据类型,对每一个像素点进行简单缩放,使得经过处理后的数据分布在[0,1]的区间范围内。
对于时间序列数据类型,如由传感器获得的连续时间的采集数据,先对每一个特征维度进行标准差标准化,即均值为0,标准差为1,使得经过处理后的数据服从标准正态分布,再以步长为s的固定大小的滑动窗口对序列进行采样。
S2.构建自编码器网络,对数据进行维度压缩和特征提取。具体地,根据不同的数据类型的特点,可以自适应地选择不同的自编码器网络对相应的数据类型数据进行维度压缩和特征提取:
z=ε(x)
对于静态数据类型,x可以表示为[批数,特征数],ε为采用全连接层的自编码器网络,对数据进行维度压缩和非线性特征提取。
对于图像数据类型,x可以表示为[批数,图片高度,图片宽度,通道数],ε为采用卷积神经网络的自编码网络,对数据进行维度压缩和空间特征提取。
对于时间序列数据类型,x可以表示为[批数,步长,特征数],ε为采用长短期记忆网络的自编码器网络,对数据进行维度压缩和时间依赖特征提取。根据输入数据的表示形式不同,可以自适应地选择不同的自编码器网络进行处理。
参考图2,图2为实施例提供的一种独立于数据类型的无监督异常检测方法的架构图。
图3为实施例提供的一种独立于数据类型的无监督异常检测方法的针对静态数据类型的自编码器网络框架,图中的每个圆代表静态数据的一个特征,该自编码器网络能将数据的高维特征进行逐步的特征提取,压缩成低维特征,然后通过重建逐步将低维特征恢复成高维特征。
图4为实施例提供的一种独立于数据类型的无监督异常检测方法的针对图像数据类型的自编码器网络框架,图中的每个矩阵代表图像的数据特征,该自编码器网络能将图像的高维空间特征进行逐步的特征提取,压缩成低维空间特征,然后通过重建逐步将低维空间特征恢复成高维空间特征。
图5为实施例提供的一种独立于数据类型的无监督异常检测方法的针对时间序列数据类型的自编码器网络框架,图中的每个圆代表一个时间点的特征,每个矩阵代表一个LSTM模块,该自编码器网络能将时间序列的时间依赖特征进行逐步的特征提取,压缩成低维时间特征,然后通过重建逐步将低维时间特征恢复成高维时间特征。[xt,xt+T]为时间t到t+T的原始时间序列数据,[x′t,x′t+T]为时间t到t+T的重建时间序列数据。
作为另外的实施例,可以用Attention网络或者Transformer网络代替自编码器网络对高维数据进行特征提取。
S3.构建正常数据提取层,对数据进行进一步正常特征提取。
具体地,假定数据中的异常是由于数据的少部分特征发生异常而引起的,那么原始数据就可以被划分为数据特征是正常的部分和数据特征是异常的部分。基于此,数据特征是正常的部分可以用一个低秩的矩阵表示,数据特征是异常的部分可以用一个稀疏的矩阵表示。于是,可以通过线性转换找到一个子空间,正常数据都分布在这个子空间上而异常数据分布在这个子空间外,从而进行正常数据的提取:
z′=M×z
其中,M是一个服从正态分布的正交矩阵,z为从步骤S3得到的特征向量,经过线性转换后的z′可以被视为仅包含正常数据的特征表示。
S4.用概率密度函数高斯混合模型对正常特征的数据分布进行拟合。具体地,使用高斯混合模型对正常数据进行拟合,高斯混合模型是多个高斯分布函数的线性组合,每个高斯分布函数都有一组参数,这组参数包括:混合模型权重γ、混合模型分布φ、混合模型均值μ、混合模型方差Σ;使用传统的最大期望算法无法做到自编码器网络和高斯混合模型的共同训练,而神经网络可以弥补这一缺陷。使用多层感知器来生成初始的混合模型权重γ,再在这基础上计算合模型分布φ、混合模型均值μ、混合模型方差Σ:
γ=softmax(MLP(z′))
Figure BDA0003012118400000081
Figure BDA0003012118400000082
Figure BDA0003012118400000083
其中,γi,k表示混合权重,φk、μk、Σk分别表示K个模型分布,混合模型均值和混合模型方差,z′表示从步骤5得到的仅包含正常数据的特征表示,MLP为多层感知器,softmax()为归一化指数函数,K为高斯混合模型的高斯分布函数个数,N为数据批数。
S5.对无监督异常检测网络进行训练。具体地,用目标函数进行优化:
Figure BDA0003012118400000091
其中,L表示目标函数,x表示原始数据,x′表示重建数据,z表示从步骤3得到的特征向量,M为从步骤S5得到的正交矩阵,I为和MMT维数相同的单位矩阵,φ、μ、Σ分别表示从步骤S6得到的模型分布,混合模型均值和混合模型方差,
Figure BDA0003012118400000092
为l2,1范数,||·||F为F范数,λ1、λ2、λ3、λ4为平衡因子。目标函数的第一项为自编码器的重建数据和原始数据间的误差,第二项为正常数据提取层的投影误差,第三项为正常数据提取层的正则项,用来保证投影矩阵M接近于正交矩阵,第四项为高斯混合模型的输出结果,即数据是异常的概率,第五项为高斯混合模型的正则项,用来防止高斯混合模型中有可能出现的奇异解问题。训练达到一定轮次直到收敛即可停止训练。
作为另外的实施例,可以用其它聚类方法、概率密度函数或核函数代替高斯混合模型对各自适用的数据进行特征提取。
S6.使用训练完成的神经网络对测试数据集进行预测,当测试数据的异常概率大于指定阈值时,将该数据视为异常。
具体地,对于静态数据类型,对每一个特征维度进行标准差标准化,即均值为0,标准差为1,使得经过处理后的数据服从标准正态分布。
对于图像数据类型,对每一个像素点进行简单缩放,使得经过处理后的数据分布在[0,1]的区间范围内。
对于时间序列数据类型,先对每一个特征维度进行标准差标准化,即均值为0,标准差为1,使得经过处理后的数据服从标准正态分布,再以步长为s(1≤s≤100)的固定大小的滑动窗口对序列进行采样。
6.1对测试数据根据不同的数据类型进行预处理,构建测试数据集。
具体地,对于静态数据类型,对每一个特征维度进行标准差标准化,即均值为0,标准差为1,使得经过处理后的数据服从标准正态分布。对于图像数据类型,对每一个像素点进行简单缩放,使得经过处理后的数据分布在[0,1]的区间范围内。对于时间序列数据类型,先对每一个特征维度进行标准差标准化,即均值为0,标准差为1,使得经过处理后的数据服从标准正态分布,再以步长为1的固定大小的滑动窗口对序列进行采样。
6.2将获得的数据组成测试训练集输入到训练完成的神经网络中,用高斯混合模型的概率输出结果作为测试数据的异常概率:
Figure BDA0003012118400000101
6.3用测试数据的异常概率和人工设定的阈值,可根据经验选择80%-99%之间的值作为阈值做比较,当异常概率大于指定阈值时,则将该数据视为异常。具体地,人工预测在测试数据集中,异常数据的占比百分数,然后用测试数据集中该百分数所对应的数值作为阈值,当测试数据的异常概率大于该阈值时,则将该测试数据视为异常。
本发明提供了一种独立于数据类型的无监督异常检测方法,克服异常检测中异常标签难以获得和针对特定数据类型设计的模型无法应用于其他数据类型的挑战,提高性能的同时又保证了数据类型可扩展性,在传感器网络,可靠系统等领域都具有广阔的应用前景。具体可用于检测计算机入侵检测的数据集KDDCup99,安全水处理数据集SWaT,水分布系统数据集WADI等。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种独立于数据类型的无监督异常检测方法,其特征在于,包括以下步骤:
(1)对给定的任意类型的数据进行预处理,构建训练数据集;
(2)构建自编码器网络,对数据进行维度压缩和特征提取;
(3)构建正常数据提取层,对数据进行进一步正常特征提取;
(4)用概率密度函数高斯混合模型对正常特征的数据分布进行拟合;
(5)对无监督异常检测网络进行训练;
(6)使用训练完成的神经网络对测试数据集进行预测,当测试数据的异常概率大于指定阈值时,将该数据视为异常。
2.如权利要求1所述的一种独立于数据类型的无监督异常检测方法,其特征在于,步骤(1)中,对给定的任意类型的数据进行预处理包括:
对于静态数据类型,对每一个特征维度进行标准差标准化,即均值为0,标准差为1,使得经过处理后的数据服从标准正态分布;
对于图像数据类型,对每一个像素点进行简单缩放,使得经过处理后的数据分布在[0,1]的区间范围内;
对于时间序列数据类型,先对每一个特征维度进行标准差标准化,即均值为0,标准差为1,使得经过处理后的数据服从标准正态分布,再以步长为s的固定大小的滑动窗口对序列进行采样。
3.如权利要求2所述的一种独立于数据类型的无监督异常检测方法,其特征在于,所述自编码器网络对数据进行维度压缩和特征提取如下:
z=ε(x)
其中,x表示为输入数据;ε为采用的自编码器网络,根据不同的数据类型的特点和输入数据的表示形式不同,自适应地选择不同的自编码器网络对相应的数据类型数据进行维度压缩和特征提取。
4.如权利要求3所述的一种独立于数据类型的无监督异常检测方法,其特征在于,
对于静态数据类型,输入数据表示为[批数,特征数],自编码器网络为采用全连接层的自编码器网络,对数据进行维度压缩和非线性特征提取;
对于图像数据类型,输入数据表示为[批数,图片高度,图片宽度,通道数],自编码器网络为采用卷积神经网络的自编码网络,对数据进行维度压缩和空间特征提取;
对于时间序列数据类型,输入数据表示为[批数,步长,特征数],自编码器网络为采用长短期记忆网络的自编码器网络,对数据进行维度压缩和时间依赖特征提取。
5.如权利要求4所述的一种独立于数据类型的无监督异常检测方法,其特征在于,步骤(3)具体为:假定数据中的异常是由于数据的部分特征发生异常而引起的,那么原始数据被划分为正常的数据特征和异常的数据特征,基于此,正常的数据特征用低秩的矩阵表示,异常的数据特征用一个稀疏的矩阵表示;通过线性转换找到子空间,使正常的数据特征都分布在这个子空间上,而异常的数据特征分布在这个子空间外,从而进行正常数据的提取:
z′=M×z
其中,M是一个服从正态分布的正交矩阵,z为特征向量,经过线性转换后的z′被视为仅包含正常数据的特征表示。
6.如权利要求5所述的一种独立于数据类型的无监督异常检测方法,其特征在于,所述概率密度函数高斯混合模型为K个高斯分布函数线性组合的模型,每个高斯分布函数都有一组参数,这组参数包括:混合模型权重γ、混合模型分布φ、混合模型均值μ、混合模型方差Σ;使用多层感知器来生成初始的混合模型权重γ,再在这基础上计算合模型分布φ、混合模型均值μ和混合模型方差Σ:
γ=softmax(MLP(z′))
Figure FDA0003012118390000021
Figure FDA0003012118390000031
Figure FDA0003012118390000032
其中,γi,k表示混合权重,φk、μk、∑k分别表示K个模型分布,混合模型均值和混合模型方差,z′表示仅包含正常数据的特征表示,MLP为多层感知器,softmax()为归一化指数函数,K为高斯混合模型的高斯分布函数个数,N为数据批数。
7.如权利要求6所述的一种独立于数据类型的无监督异常检测方法,其特征在于,训练中使用的目标函数为:
Figure FDA0003012118390000033
其中,L表示目标函数,xi表示原始数据,x′i表示重建数据,zi表示特征向量,M为正交矩阵,I为和MMT维数相同的单位矩阵,
Figure FDA0003012118390000034
为l2,1范数,||·||F为F范数,λ1、λ2、λ3、λ4均为平衡因子;目标函数的第一项为自编码器的重建数据和原始数据问的误差,第二项为正常数据提取层的投影误差,第三项为正常数据提取层的正则项,用来保证投影矩阵M接近于正交矩阵,第四项为高斯混合模型的输出结果,即数据是异常的概率,第五项为高斯混合模型的正则项,用来防止高斯混合模型中有可能出现的奇异解问题;训练达到一定轮次直到收敛即可停止训练。
8.如权利要求7所述的一种独立于数据类型的无监督异常检测方法,其特征在于,步骤(6)包括以下步骤:
6.1对测试数据根据不同的数据类型进行预处理,构建测试数据集;
6.2将获得的数据组成测试集,输入到训练完成的神经网络中,用高斯混合模型的概率输出结果作为测试数据的异常概率;
6.3用测试数据的异常概率和人工设定的阈值做比较,当异常概率大于指定阈值时,则将该数据视为异常。
9.如权利要求8所述的一种独立于数据类型的无监督异常检测方法,其特征在于,在步骤6.3中,用测试数据的异常概率和人工设定的阈值做比较,当异常概率大于指定阈值时,则将该数据视为异常的具体方法为:
人工预测在测试数据集中,设定异常数据的占比百分数,然后用测试数据集中该百分数所对应的数值作为阈值,当测试数据的异常概率大于该阈值时,则将该测试数据视为异常。
10.如权利要求9所述的一种独立于数据类型的无监督异常检测方法,其特征在于,所述测试数据的异常概率计算如下:
Figure FDA0003012118390000041
CN202110378282.9A 2021-04-08 2021-04-08 一种独立于数据类型的无监督异常检测方法 Active CN113076215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110378282.9A CN113076215B (zh) 2021-04-08 2021-04-08 一种独立于数据类型的无监督异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110378282.9A CN113076215B (zh) 2021-04-08 2021-04-08 一种独立于数据类型的无监督异常检测方法

Publications (2)

Publication Number Publication Date
CN113076215A true CN113076215A (zh) 2021-07-06
CN113076215B CN113076215B (zh) 2023-06-20

Family

ID=76615610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110378282.9A Active CN113076215B (zh) 2021-04-08 2021-04-08 一种独立于数据类型的无监督异常检测方法

Country Status (1)

Country Link
CN (1) CN113076215B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486302A (zh) * 2021-07-12 2021-10-08 浙江网商银行股份有限公司 数据处理方法及装置
CN113689390A (zh) * 2021-08-06 2021-11-23 广东工业大学 一种无缺陷样本学习的异常检测方法
CN113702895A (zh) * 2021-10-28 2021-11-26 华中科技大学 一种电压互感器误差状态在线定量评估方法
CN114925196A (zh) * 2022-03-01 2022-08-19 健康云(上海)数字科技有限公司 多层感知网络下糖尿病血检异常值辅助剔除方法
CN114938337A (zh) * 2022-04-12 2022-08-23 华为技术有限公司 一种模型训练方法、装置及电子设备
CN115983087A (zh) * 2022-09-16 2023-04-18 山东财经大学 一种注意力机制与lstm结合检测时序数据异常方法及终端机
WO2023143190A1 (en) * 2022-01-28 2023-08-03 International Business Machines Corporation Unsupervised anomaly detection of industrial dynamic systems with contrastive latent density learning
CN117577117A (zh) * 2024-01-17 2024-02-20 清华大学 正交化低秩适应矩阵的语音检测模型的训练方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804668A (zh) * 2018-06-08 2018-11-13 珠海格力智能装备有限公司 数据处理方法及装置
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN109388944A (zh) * 2018-11-06 2019-02-26 吉林大学 一种基于kpca和elm的入侵检测方法
CN110071913A (zh) * 2019-03-26 2019-07-30 同济大学 一种基于无监督学习的时间序列异常检测方法
CN110207997A (zh) * 2019-07-24 2019-09-06 中国人民解放军国防科技大学 基于卷积自编码器的液体火箭发动机故障检测方法
CN110706720A (zh) * 2019-08-16 2020-01-17 广东省智能制造研究所 一种端到端无监督深度支撑网络的声学异常检测方法
CN111914873A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种两阶段云服务器无监督异常预测方法
CN112181704A (zh) * 2020-09-28 2021-01-05 京东数字科技控股股份有限公司 一种大数据任务处理方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804668A (zh) * 2018-06-08 2018-11-13 珠海格力智能装备有限公司 数据处理方法及装置
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN109388944A (zh) * 2018-11-06 2019-02-26 吉林大学 一种基于kpca和elm的入侵检测方法
CN110071913A (zh) * 2019-03-26 2019-07-30 同济大学 一种基于无监督学习的时间序列异常检测方法
CN110207997A (zh) * 2019-07-24 2019-09-06 中国人民解放军国防科技大学 基于卷积自编码器的液体火箭发动机故障检测方法
CN110706720A (zh) * 2019-08-16 2020-01-17 广东省智能制造研究所 一种端到端无监督深度支撑网络的声学异常检测方法
CN111914873A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种两阶段云服务器无监督异常预测方法
CN112181704A (zh) * 2020-09-28 2021-01-05 京东数字科技控股股份有限公司 一种大数据任务处理方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何克晶等: "GSGCP-FEM_A_General_Service-Oriented_Grid_Computing_Platform_for_FEM-Based_Simulations", 《IEEE COMPUTER SOCIETY》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486302A (zh) * 2021-07-12 2021-10-08 浙江网商银行股份有限公司 数据处理方法及装置
CN113689390A (zh) * 2021-08-06 2021-11-23 广东工业大学 一种无缺陷样本学习的异常检测方法
CN113689390B (zh) * 2021-08-06 2023-10-24 广东工业大学 一种无缺陷样本学习的异常检测方法
CN113702895B (zh) * 2021-10-28 2022-02-08 华中科技大学 一种电压互感器误差状态在线定量评估方法
CN113702895A (zh) * 2021-10-28 2021-11-26 华中科技大学 一种电压互感器误差状态在线定量评估方法
WO2023143190A1 (en) * 2022-01-28 2023-08-03 International Business Machines Corporation Unsupervised anomaly detection of industrial dynamic systems with contrastive latent density learning
CN114925196A (zh) * 2022-03-01 2022-08-19 健康云(上海)数字科技有限公司 多层感知网络下糖尿病血检异常值辅助剔除方法
CN114925196B (zh) * 2022-03-01 2024-05-21 健康云(上海)数字科技有限公司 多层感知网络下糖尿病血检异常值辅助剔除方法
CN114938337A (zh) * 2022-04-12 2022-08-23 华为技术有限公司 一种模型训练方法、装置及电子设备
CN115983087A (zh) * 2022-09-16 2023-04-18 山东财经大学 一种注意力机制与lstm结合检测时序数据异常方法及终端机
CN115983087B (zh) * 2022-09-16 2023-10-13 山东财经大学 一种注意力机制与lstm结合检测时序数据异常方法及终端机
CN117577117A (zh) * 2024-01-17 2024-02-20 清华大学 正交化低秩适应矩阵的语音检测模型的训练方法及装置
CN117577117B (zh) * 2024-01-17 2024-03-19 清华大学 正交化低秩适应矩阵的语音检测模型的训练方法及装置

Also Published As

Publication number Publication date
CN113076215B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN113076215A (zh) 一种独立于数据类型的无监督异常检测方法
WO2022160902A1 (zh) 面向云环境下大规模多元时间序列数据异常检测方法
US11087452B2 (en) False alarm reduction system for automatic manufacturing quality control
CN110287983B (zh) 基于最大相关熵深度神经网络单分类器异常检测方法
Caceres et al. A probabilistic Bayesian recurrent neural network for remaining useful life prognostics considering epistemic and aleatory uncertainties
CN112036513B (zh) 基于内存增强潜在空间自回归的图像异常检测方法
Du et al. GAN-based anomaly detection for multivariate time series using polluted training set
CN112862127B (zh) 一种传感器数据的异常处理方法、装置、电子设备及介质
CN117123131B (zh) 石油助剂的生产设备及其方法
CN116824481B (zh) 基于图像识别的变电站巡检方法及其系统
CN114970750A (zh) 一种对时间序列进行异常检测的方法、系统、设备及介质
Xu et al. Industrial process fault detection and diagnosis framework based on enhanced supervised kernel entropy component analysis
Yue Data decomposition for analytics of engineering systems: Literature review, methodology formulation, and future trends
Jiang et al. A timeseries supervised learning framework for fault prediction in chiller systems
Sha et al. Robust kernel principal component analysis and its application in blockage detection at the turn of conveyor belt
Wan et al. Representation learning for fault diagnosis with contrastive predictive coding
CN116663388A (zh) 粮堆温度预测方法、装置、设备及存储介质
CN110673577A (zh) 一种复杂化工生产过程的分布式监控与故障诊断方法
CN115758086A (zh) 卷烟烘丝机故障检测的方法、装置、设备及可读存储介质
CN114419382A (zh) 一种无监督的多视图图像的图嵌入方法及系统
CN112949344B (zh) 一种用于异常检测的特征自回归方法
CN114879645A (zh) 一种ica-fa信息提取的svdd工业故障检测方法
CN116700213B (zh) 基于门控循环单元的工业设备异常检测方法及相关装置
CN114970752A (zh) 一种对时间序列进行异常检测的方法、系统、设备及介质
Kotenko et al. Intelligent state assessment of complex autonomous objects based on wavelet analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant