CN116595465A - 基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统 - Google Patents
基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统 Download PDFInfo
- Publication number
- CN116595465A CN116595465A CN202310378368.0A CN202310378368A CN116595465A CN 116595465 A CN116595465 A CN 116595465A CN 202310378368 A CN202310378368 A CN 202310378368A CN 116595465 A CN116595465 A CN 116595465A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- enhancement
- encoder
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000013450 outlier detection Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000001514 detection method Methods 0.000 claims abstract description 43
- 230000007246 mechanism Effects 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000005856 abnormality Effects 0.000 claims abstract description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 52
- 230000002159 abnormal effect Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 abstract description 11
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 239000013598 vector Substances 0.000 description 11
- 238000009826 distribution Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
本发明公开了一种基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统,属于数据挖掘技术领域,其中,该方法包括:获取异常检测样本数据集作为试验数据集,并对其进行预处理,得到训练集和测试集;构建数据增强模型,以对训练集进行上下采集处理,得到类异常样本与正常样本相等的增强数据;将训练集输入注意力机制模块中,以计算特征关联度;将增强数据输入注意力机制模型中,根据特征关联度计算相关特征数,根据相关特征数计算重构数据;利用离群点检测基准器对重构数据进行异常检测。该方法基于自编码器对数据进行降维操作,将稀疏的高维数据映射到低维空间中进行离群点检测,解决了维度过高对检测结果准确率的影响。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统。
背景技术
离群点检测又称异常检测,是从数据集中识别出少量与其他数据有明显偏差的数据特征,或由不同机制产生的异常数据点。现实生活中广泛应用信用卡欺诈、故障检测、网络入侵、生物分析、工业与医疗诊断等领域。我国制造业发展迅速,制造过程中存在产品质量缺陷、设备故障、外部环境变化等异常问题,异常工况检测、故障监测、设备健康状态分析是工业数据异常检测的关键问题。
离群点检测的方法可以按照不同分类标准进行分类,根据对离群点与其余数据做出的假定,将离群点检测方法分为统计学方法、基于邻近性的方法和基于聚类的方法。传统的离群点检测算法依赖欧式距离衡量数据对象之间的位置关系,离群点与正常数据对象间的差异较小,检测的准确性不高,如He等人提出了基于聚类的局部离群因子算法,将数据聚类为大簇和小簇,利用距离被测样本最近的大簇计算异常得分;近年来,基于深度学习的离群点检测方法也得到了广泛的关注和研究,如基于自编码器的离群点检测算法,利用神经网络强大学习能力,确定输出层中难以重建的对象为离群点,但是,在中小型数据集上,神经网络层容易出现过拟合和不确定性,从而导致离群点检测算法的准确性下降,因此Zong等人提出了一种基于深度自动编码器的无监督离群点检测模型,该模型使用深度自动编码器对输入数据进行低维表示和重构误差,并联合进行端到端优化,以获得更好的性能。
但后续研究认为,为了解决异常检测算法在高维数据中遭受“维数灾难”等问题,可以使用降维方法。高维数据降维的两种主要方法是特征选择和特征融合,特征选择基于数据相关性分析,获得高维数据的子集以保留原始特征,并增强特征子集与异常样本之间的关联性。但是,特征信息在处理过程中容易缺失;特征融合旨在寻找数据分布的最优子空间,并通过变换和组合数据形成新特征。然而,工业环境下传感器采集数据规模庞大,特征融合难以区分人为操作和噪声引起的异常点,而且异常检测过程还受到数据样本不平衡的影响。因此,不平衡数据和高维稀疏数据的异常检测是工业大数据分析的热点研究方向,Guan等人提出了一个顺序集成噪声滤波器(SENF),在SENF中选择相关特征并用于为每个实例生成噪声分数;还为了解决不平衡IBD中维数缩减和特征保留之间的矛盾,Zhou等人提出了一种基于重构特征表示的变分长短时记忆(VLSTM)学习模型,用于实现智能异常检测,该模型设计了一个编解码神经网络,与变分重参数化方案相结合,以从高维原始数据中学习低维特征表示。然而,仅仅考虑将高维数据映射到低维空间中,忽略了数据特征之间的相关性,数据特征之间的相关性包含重要的信息,可提高离群点检测算法的准确率。在使用神经网络进行训练时,还需要考虑超参数的设置,手动不断调整可能无法达到最佳的降维效果,甚至会导致模型过拟合。
发明内容
本发明提供一种基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统,以用于解决现有技术仅考虑将高维数据映射到低维空间中,忽略了数据特征之间的相关性,数据特征之间的相关性包含重要的信息,造成离群点检测算法低的技术问题。
本发明一方面实施例提供一种基于自编码器和数据增强的高维稀疏数据离群点检测方法,包括:
步骤S1,获取异常检测样本数据集作为试验数据集,并对所述试验数据集进行预处理,得到训练集和测试集;
步骤S2,构建数据增强模型,以对所述训练集进行上下采集处理,得到类异常样本与正常样本相等的增强数据;
步骤S3,将所述训练集输入注意力机制模块中,以计算特征关联度;
步骤S4,将所述类异常样本与正常样本相等的增强数据输入所述注意力机制模型中,根据所述特征关联度计算相关特征数,根据所述相关特征数计算重构数据;
步骤S5,利用离群点检测基准器对所述重构数据进行异常检测。
本发明另一方面实施例提供一种基于自编码器和数据增强的高维稀疏数据离群点检测系统,包括:
采集模块,用于获取异常检测样本数据集作为试验数据集,并对所述试验数据集进行预处理,得到训练集和测试集;
上下采样模块,用于构建数据增强模型,以对所述训练集进行上下采集处理,得到类异常样本与正常样本相等的增强数据;
计算模块,用于将所述训练集输入注意力机制模块中,以计算特征关联度;
重构模块,用于将所述类异常样本与正常样本相等的增强数据输入所述注意力机制模型中,根据所述特征关联度计算相关特征数,根据所述相关特征数计算重构数据;
检测模块,用于利用离群点检测基准器对所述重构数据进行异常检测。
本发明又一方面实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述实施例所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法。
本发明还一方面实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法。
本发明的技术方案,至少实现了如下有益的技术效果:
(1)在应对数据样本不平衡问题方面,本发明将计算机视觉领域中的数据增强算法引入到异常检测领域中,通过增加少数类样本的数量来弥补样本不平衡问题,生成更优质的训练数据,显著提高了方法在异常检测中的表现;
(2)在训练网络不断参数调优问题方面,本发明使用了注意力机制来计算特征权重从而确定神经网络层数,以防止神经网络的过拟合并提高泛化能力,还可以更加准确地确定神经网络的结构,使得神经网络在训练过程中能够更好地学习数据的特征,提高了模型的效率和准确性;
(3)在高维稀疏数据离群点检测问题方面,本发明基于自编码器对数据进行降维操作,将稀疏的高维数据映射到低维空间中进行离群点检测,解决了维度过高对检测结果准确率的影响。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的基于自编码器和数据增强的高维稀疏数据离群点检测方法的流程图;
图2是本发明一个实施例的数据增强加权加权SMOTE算法过采样的示意图;
图3是本发明一个实施例的基于自编码器和数据增强的高维稀疏数据离群点检测方法的示意图;
图4是本发明一个实施例的加权KNN算法的示意图;
图5是本发明一个实施例的基于自编码器和数据增强的高维稀疏数据离群点检测系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统,首先将参照附图描述根据本发明实施例提出的基于自编码器和数据增强的高维稀疏数据离群点检测方法。
图1是本发明一个实施例的基于自编码器和数据增强的高维稀疏数据离群点检测方法的流程图。
如图1所示,该基于自编码器和数据增强的高维稀疏数据离群点检测方法包括以下步骤:
在步骤S1中,获取异常检测样本数据集作为试验数据集,并对试验数据集进行预处理,得到训练集和测试集。
其中,异常检测样本数据集包括异常检测领域数据集和工业数据集。
具体地,分别采集异常检测领域数据集和真实工业数据集,以构建出试验数据集,再对试验数据集进行预处理,预处理后的试验数据集划分为训练集和测试集。
在步骤S2中,构建数据增强模型,以对训练集进行上下采集处理,得到类异常样本与正常样本相等的增强数据。
进一步地,在本发明的一个实施例中,步骤S2具体包括:
步骤S201,采用数据增强算法、加权SMOTE算法和ENN算法构建数据增强模型;
步骤S202,将训练集输入数据增强模型中,利用加权SMOTE算法对训练集进行过采样处理,利用ENN算法对过采样处理的训练集进行降采样处理,得到类异常样本与正常样本相等的增强数据。
具体地,如图2所示,训练集经过上下采样进行增强时,分别使用了加权SMOTE算法和ENN算法,其中,先通过数据增强算法对训练集进行处理,类似对图片进行翻转、移位等对少数异常点进行填补,解决样本不平衡问题;一般采用SMOTE算法增加少数类异常样本的数量,模型能更好的学习少数类样本提高检测率,但是该算法没有对每个样本进行区别选择,这会导致生成冗余样本,因此,本发明实施例对SMOTE算法进行了改进,在数据预处理将训练集加权SMOTE算法进行采样,加权过采样策略根据每个少数类样本与剩余少数类样本之间的欧氏距离为每个样本分配不同的权重,如下为加权SMOTE算法推导过程:
如图2所示,设数据集X的一个少数类的样本数为M,每个样本包含C个特征.
(1)计算每个样本到其他样本间的欧氏距离,如下式所示:
其中,i=1,2,3,...,M,j=1,2,3,...,M,i≠j,Dij(xi,xj)为第i和j两个样本间欧式距离。
(2)计算样本xi到其他样本距离之和Di,Di越大表示样本xi越靠近边界,Di越小表示样本xi越靠近中心,如下式所示:
(3)对Di进行归一化,计算D′中各元素与D′均值之差的绝对值ND′,ND′越大则代表该样本越靠近类别中心或者类别边界,对异常检测更有效,它所生成的新样本数量就相对越多。
通过上式可以计算出每个样本的权重:
其中,wi为第i个样本的权重值。训练集需要生成新样本的数量乘以此权重即为最终该样本生成新样本的数量。
如图2所示,本发明实施例中采用加权SMOTE算法增加少数类异常样本的数量,能更好的学习少数类样本提高检测率。本步骤在数据预处理阶段将原始数据经过加权SMOTE算法进行采样,对于该少数类中第i个样本xi,计算它到该类其他所有样本间的欧式距离,得到其k个近邻样本,从其k个近邻样本中随机选取Nw=[N×wi」个样本{x1,x2,x3,...,xn},为向下取整,生成这些样本中关于少数样本xi的新样本:
xnew=xi+γ|xi-xn|
其中,γ是0和1之间的随机数。
进一步地,加权SMOTE算法选取样本点具有随机性,当在不同样本集边缘进行邻近插值时容易合成噪声数据,造成模糊样本边界的问题,因此本发明实施例使用ENN算法对噪声降采样处理,以避免不同样本中加权SMOTE算法的差异。
可以理解的是,ENN算法被用来遍历数据集中的每个样本,计算它的k个最近邻样本中每种类别出现的次数,如果与该样本点所属的类别不同的类别出现的次数占多数,则该样本被识别为噪声数据,并被删除。故本发明实施例在数据增强模型中使用加权SMOTE算法与ENN算法相结合,融合两个算法优点进行互补,使过采样阶段数据增强效果最优。
具体地,本发明实施例将数据集归一化处理,以加快收敛速度,过程如下:
将过采样处理后的训练集中每个数据值减去其均值μ,并除以方差σ,使处理后的数据满足标准正态分布,得到类异常样本与正常样本相等的增强数据,其中,归一化公式为:
其中,x为过采样处理后的训练集中每个数据值,μ为过采样处理后的训练集的平均值,σ为过采样处理后的训练集的标准差。
在步骤S3中,将训练集输入注意力机制模块中,以计算特征关联度。
进一步地,在本发明的一个实施例中,步骤S3具体包括:
步骤S301,计算训练集中每个特征的平均数,利用平均数构建相似矩阵;
步骤S302,将相似矩阵输入注意力机制模型中,以计算特征关联度。
具体地,预设训练集中N个输入向量[x1,x2,...,xn]中选择出和某个特定任务相关信息,则需要引入一个和任务相关的表示,称为查询向量组q(Query Vector),并通过一个打分函数来计算每个输入向量和查询向量之间的相关性,如下:
(1)查询向量组q是通过数据集矩阵中x=[x1,x2,...,xn]中计算每个特征平均数来定义,选取数据集中每个特征向量的平均数这样可以向中心点靠拢。
其中,xk为样本中特征向量平均数,数据集中Q=[x1,x2,...,xn],k为特征数。
(2)通过得到的向量组q与数据集特征来计算权重相似度,计算过程中注意力机制点积模型在实现上更好地利用矩阵乘积,但当输入向量的维度d比较高,点积模型的值通常方差比较大,导致softmax函数的梯度会比较小。因此本发明实施例使用缩放点积模型较好地解决这个问题:
其中,s(xi,q)为注意力打分函数,d为输入向量维度,xi为数据样本,q为特征平均数向量组。
(3)通过softmax函数将注意力打分函数输出值转换为范围在[0,1]的概率分布,最后通过设置阈值为0.5判断哪些特征相似度高,根据特征关联度计算相关特征数,把得到的特征数作为神经网络降维维度,解决神经网络手动调节超参数的过程,并且减小自编码器重构误差使算法具有可解释性。
在步骤S4中,将类异常样本与正常样本相等的增强数据输入注意力机制模型中,根据特征关联度计算相关特征数,根据相关特征数计算重构数据。
进一步地,在本发明的一个实施例中,步骤S4具体包括:
步骤S401,将类异常样本与正常样本相等的增强数据输入至注意力机制模型中,计算特征权重;
步骤S402,分析特征权重和特征关联度确定相关特征数,以调整初始编码-重构模型,得到最优编码-重构模型;
步骤S403,将类异常样本与正常样本相等的增强数据输入最优编码-重构模型中,以计算重构数据。
具体地,如图3所示,将类异常样本与正常样本相等的增强数据输入到与步骤S3中的注意力机制模型中,以计算特征权重得到相关特征数,来解决编码-重构模块的超参数调整问题。
进一步地,自编码器对增强后的数据样本进行低维特征抽取,通过从高维空间中学习对增强后的数据样本进行建模,映射过程中异常样本与正常样本产生的重构误差较大。自编码器在训练过程中不断进行迭代使编码器对数据进行充分的特征提取,其中,编码器E的公式如下:
y(i)=f(w1x(i)+b1)
其中,y(i)为编码结果,w1为输入层到隐藏层之前的权值矩阵,x(i)为样本,b1为隐藏层神经元的偏置量,f为激活函数。
将编码层结果y(i)用作输入,通过解码器训练得到重构数据x(i)=(x(1),x(2),x(3),...,x(n)),解码器D公式如下:
其中,y(i)是样本x经编码器压缩编码提取的低维特征,后续通过解码器进行重构。注意,y(i)的尺寸必须小于样本x以保证编码器和解码器可以学习到与数据集合x相关的信息,而非简单地执行无意义的恒等映射。
数据经过预处理阶段增强算法后也会包含无意义噪声,一般是采用构造对抗网络或者变分自动编码器进行解决,前者通过不断对弈来除去噪声,后者通过潜在空间符合正态分布来除去;然而前者不能抽取低维特征,后者网络训练过程参数设置复杂并增加拟合风险。因此,如图3所示,本发明实施例通过自编码器(Autoencoder,AE)提取输入数据特征信息,将经数据增强模块处理后的数据Xenhance输入至AE网络中,计算公式如下:
xAE=AE(Xenhance)
其中,为自编码器解码器最后一层的输出,AE函数公式所示,AE输出层维度由其隐藏单元个数决定。由于隐藏层单元个数设置不同会造成模型产生过拟合使降维效果不佳。本发明实施例使用注意力机制对增强数据特征进行权重相似计算,将隐藏层单元个数设为n,n为注意力机制模块输出数据特征维数(即相关特征数)。
本发明实施例中编码-解码模型更新权值使用了一种自适应学习方法:Adam算法,本质上是带有动量项的均方根传播,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,即调整初始编码-重构模型,得到最优编码-重构模型。神经网络经过偏置校正后,每一次迭代学习率都有个确定范围使得参数比较平稳,权值更新计算如公式所示:
其中,t为次数;为mt的纠正,/>为ut的纠正,公式如下:
其中,β1和β2是常数,控制指数衰减,wt是在t时刻的移动平均梯度,ut是平方梯度,α是学习率,初始值设置为0.01;ε是非常小的数值,其作用是避免零除。
本发明实施例使用数据增强可以提高神经网络学习能力,但为了保证降维前后缩小差距,保持原始样本特征对异常检测有所提高。因此,在学习过程中还引入损失函数以确保降维后数据分布和原始输入数据分布一致。根据机器学习中选取MSE(均方差)损失函数,该函数通过计算输入数据和输出数据对应点误差的平方和的均值来衡量重构误差,重构误差的计算公式:
其中,n为注意力机制模块输出数据特征维数,w1为输入层到隐藏层之间的权值,g和f为激活函数,w2为隐藏层到输出层之间的权值,x(i)为潜在空间数据,b1和b2为隐藏层神经元的偏置量,xi为增强数据,为重构数据。
在步骤S5中,利用离群点检测基准器对重构数据进行异常检测。
进一步地,在本发明的一个实施例中,步骤S5具体为:
将重构数据输入离群点检测基准器中,采用加权K近邻算法计算重构数据中每个数据点彼此之间的距离和权重,通过权重大小来判断每个样本点是否异常。
具体地,本发明实施例采用加权K近邻算法对重构数据进行异常检测,如图4所示,加权K近邻算法与基础K近邻算法并不相同,加权K近邻算法不仅考虑点之间的距离,还为每个邻居点分配了不同的权重。但该种算法还存在潜在问题,若为近邻分配很大的权重,稍远一点的会衰减的很快,若数据中含有噪声也不会影响检测结果,但通过自编码器生成的重构数据xAE放入离群点检测基准器进行检测,加权K近邻算法中K值选取采用网格搜索法来确定,会保证基础检测器的准确性。因此,在本发明实施例中,重构数据通过加权K近邻算法对数据样本中每个数据点进行计算彼此之间距离和权重,通过权重大小来判断该样本点是否属于异常。
综上,根据本发明实施例提出的基于自编码器和数据增强的高维稀疏数据离群点检测方法,先通过数据增强算法对少数类样本进行填补解决数据不平衡问题;得到的增强后数据放入自编码器进行降维,通过注意力机制对增强数据计算特征权重,分析特征相似度确定神经网络结构,解决神经网络超参数问题;训练结束后,使用基准算法作为识别离群点评价标准;通过在15个真实数据集和真实工业数据集上测试,与其他离群点检测方法进行对比,本发明在离群点检测方面具有较好的效果;另外应用到了天津市某区空气质量数据实验中,并与对比方法进行了比较,在实验结果中表现出优越性,本发明提出的方法不仅在理论上具有可行性和优越性,同时也具有实际的应用价值和现实意义,可用于工业等领域的稀疏数据异常检测。
其次参照附图描述根据本发明实施例提出的基于自编码器和数据增强的高维稀疏数据离群点检测系统。
图5是本发明一个实施例的基于自编码器和数据增强的高维稀疏数据离群点检测系统的结构示意图。
如图5所示,该系统10包括:采集模块100、上下采样模块200、计算模块300、重构模块400和检测模块500。
其中,采集模块100用于获取异常检测样本数据集作为试验数据集,并对试验数据集进行预处理,得到训练集和测试集。上下采样模块200用于构建数据增强模型,以对训练集进行上下采集处理,得到类异常样本与正常样本相等的增强数据。计算模块300用于将训练集输入注意力机制模块中,以计算特征关联度。重构模块400用于将类异常样本与正常样本相等的增强数据输入注意力机制模型中,根据特征关联度计算相关特征数,根据相关特征数计算重构数据。检测模块500用于利用离群点检测基准器对重构数据进行异常检测。
需要说明的是,前述对基于自编码器和数据增强的高维稀疏数据离群点检测方法实施例的解释说明也适用于该实施例的系统,此处不再赘述。
根据本发明实施例提出的基于自编码器和数据增强的高维稀疏数据离群点检测系统,先通过数据增强算法对少数类样本进行填补解决数据不平衡问题;得到的增强后数据放入自编码器进行降维,通过注意力机制对增强数据计算特征权重,分析特征相似度确定神经网络结构,解决神经网络超参数问题;训练结束后,使用基准算法作为识别离群点评价标准精准度更高,具有较好的效果。
为了实现上述实施例,本发明还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如前述实施例所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法。
为了实现上述实施例,本发明还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施例所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于自编码器和数据增强的高维稀疏数据离群点检测方法,其特征在于,包括以下步骤:
步骤S1,获取异常检测样本数据集作为试验数据集,并对所述试验数据集进行预处理,得到训练集和测试集;
步骤S2,构建数据增强模型,以对所述训练集进行上下采集处理,得到类异常样本与正常样本相等的增强数据;
步骤S3,将所述训练集输入注意力机制模块中,以计算特征关联度;
步骤S4,将所述类异常样本与正常样本相等的增强数据输入所述注意力机制模型中,根据所述特征关联度计算相关特征数,根据所述相关特征数计算重构数据;
步骤S5,利用离群点检测基准器对所述重构数据进行异常检测。
2.根据权利要求1所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法,其特征在于,所述异常检测样本数据集包括异常检测领域数据集和工业数据集。
3.根据权利要求1所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法,其特征在于,所述步骤S2具体包括:
步骤S201,采用数据增强算法、加权SMOTE算法和ENN算法构建所述数据增强模型;
步骤S202,将所述训练集输入所述数据增强模型中,利用所述加权SMOTE算法对所述训练集进行过采样处理,利用所述ENN算法对过采样处理的训练集进行降采样处理,得到所述类异常样本与正常样本相等的增强数据。
4.根据权利要求2所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法,其特征在于,所述加权SMOTE算法进行过采样处理时,根据每个少数类样本与剩余少数类样本之间的欧氏距离为每个样本分配不同的权重。
5.根据权利要求1所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法,其特征在于,所述步骤S3具体包括:
步骤S301,计算所述训练集中每个特征的平均数,利用所述平均数构建相似矩阵;
步骤S302,将所述相似矩阵输入所述注意力机制模型中,以计算所述特征关联度。
6.根据权利要求1所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法,其特征在于,所述步骤S4具体包括:
步骤S401,将所述类异常样本与正常样本相等的增强数据输入至所述注意力机制模型中,计算所述特征权重;
步骤S402,分析所述特征权重和所述特征关联度确定相关特征数,以调整初始编码-重构模型,得到最优编码-重构模型;
步骤S403,将所述类异常样本与正常样本相等的增强数据输入所述最优编码-重构模型中,以计算所述重构数据。
7.根据权利要求1所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法,其特征在于,所述步骤S5具体为:
将所述重构数据输入离群点检测基准器中,采用加权K近邻算法计算所述重构数据中每个数据点彼此之间的距离和权重,通过权重大小来判断每个样本点是否异常。
8.一种基于自编码器和数据增强的高维稀疏数据离群点检测系统,其特征在于,包括:
采集模块,用于获取异常检测样本数据集作为试验数据集,并对所述试验数据集进行预处理,得到训练集和测试集;
上下采样模块,用于构建数据增强模型,以对所述训练集进行上下采集处理,得到类异常样本与正常样本相等的增强数据;
计算模块,用于将所述训练集输入注意力机制模块中,以计算特征关联度;
重构模块,用于将所述类异常样本与正常样本相等的增强数据输入所述注意力机制模型中,根据所述特征关联度计算相关特征数,根据所述相关特征数计算重构数据;
检测模块,用于利用离群点检测基准器对所述重构数据进行异常检测。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7中任一所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310378368.0A CN116595465A (zh) | 2023-04-10 | 2023-04-10 | 基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310378368.0A CN116595465A (zh) | 2023-04-10 | 2023-04-10 | 基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116595465A true CN116595465A (zh) | 2023-08-15 |
Family
ID=87588847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310378368.0A Pending CN116595465A (zh) | 2023-04-10 | 2023-04-10 | 基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116595465A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421684A (zh) * | 2023-12-14 | 2024-01-19 | 易知谷科技集团有限公司 | 基于数据挖掘和神经网络的异常数据监测与分析方法 |
-
2023
- 2023-04-10 CN CN202310378368.0A patent/CN116595465A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421684A (zh) * | 2023-12-14 | 2024-01-19 | 易知谷科技集团有限公司 | 基于数据挖掘和神经网络的异常数据监测与分析方法 |
CN117421684B (zh) * | 2023-12-14 | 2024-03-12 | 易知谷科技集团有限公司 | 基于数据挖掘和神经网络的异常数据监测与分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105224872B (zh) | 一种基于神经网络聚类的用户异常行为检测方法 | |
CN110598851A (zh) | 一种融合lstm和gan的时间序列数据异常检测方法 | |
CN111914883B (zh) | 一种基于深度融合网络的主轴轴承状态评估方法及装置 | |
Zhang et al. | A novel feature adaptive extraction method based on deep learning for bearing fault diagnosis | |
Xia et al. | Multi-stage fault diagnosis framework for rolling bearing based on OHF Elman AdaBoost-Bagging algorithm | |
CN112766379A (zh) | 一种基于深度学习多权重损失函数的数据均衡方法 | |
CN111562108A (zh) | 一种基于cnn和fcmc的滚动轴承智能故障诊断方法 | |
CN109389171B (zh) | 基于多粒度卷积降噪自动编码器技术的医疗图像分类方法 | |
CN108399434B (zh) | 基于特征提取的高维时间序列数据的分析预测方法 | |
CN116226646B (zh) | 轴承健康状态及剩余寿命的预测方法、系统、设备及介质 | |
CN111079805A (zh) | 一种结合注意力机制及信息熵最小化的异常图像检测方法 | |
CN113155464B (zh) | 面向轴承故障识别的cnn模型可视化优化方法 | |
CN110991471A (zh) | 一种高速列车牵引系统故障诊断方法 | |
CN116595465A (zh) | 基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统 | |
CN114565594A (zh) | 基于软掩膜对比损失的图像异常检测方法 | |
Ou et al. | A deep sequence multi-distribution adversarial model for bearing abnormal condition detection | |
CN115358337A (zh) | 一种小样本故障诊断方法、装置及存储介质 | |
Saufi et al. | Machinery fault diagnosis based on a modified hybrid deep sparse autoencoder using a raw vibration time-series signal | |
CN117041972A (zh) | 基于信道-时空注意自编码的车联网传感器异常检测方法 | |
CN114004258B (zh) | 一种半监督的心电异常检测方法 | |
CN116522070A (zh) | 一种机械零部件无监督智能故障诊断方法及系统 | |
CN113435321A (zh) | 一种主轴轴承状态评估方法、系统、设备及可读存储介质 | |
CN112632466A (zh) | 一种基于主成分分析和深度双向长短时记忆网络的轴承故障预测方法 | |
CN112884093B (zh) | 基于dscrn模型的旋转机械故障诊断方法、设备和存储介质 | |
CN117688496B (zh) | 面向卫星遥测多维时序数据的异常诊断方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |