CN114463587A - 一种异常数据检测方法、装置、设备及存储介质 - Google Patents
一种异常数据检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114463587A CN114463587A CN202210113649.9A CN202210113649A CN114463587A CN 114463587 A CN114463587 A CN 114463587A CN 202210113649 A CN202210113649 A CN 202210113649A CN 114463587 A CN114463587 A CN 114463587A
- Authority
- CN
- China
- Prior art keywords
- feature
- characteristic
- data
- value
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 78
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 65
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000009826 distribution Methods 0.000 claims abstract description 18
- 238000003384 imaging method Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 6
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种异常数据检测方法、装置、设备及存储介质。该方法包括:对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集;结合预设数量组正常样本数据的参考特征图像集,确定各所述特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集;采用预先训练好的高维数据检测模型,确定所述特征注意力图像集的数据状态;当所述数据状态为异常状态时,确定所述待检高维数据为异常数据。本发明通过将高维数据转换为多个二维图像数据,并且采用注意力机制提取特征,更加贴近数据本身的分布信息,可以克服传统算法运算效率低,且对高维数据特征提取效果差,信息易丢失的问题,实现了快速准确检测高维数据中的异常数据。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种异常数据检测方法、装置、设备及存储介质。
背景技术
技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web文档、基因表达数据、文档词频数据、用户评分数据、工业制造数据、WEB使用数据及多媒体数据等,这些数据的维度(属性)通常可以达到成百上千维,甚至更高。我们可以称这些数据为高维数据。
由于高维数据存在的普遍性,使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响,也使得高维数据挖掘变得异常地困难,必须采用一些特殊的手段进行处理。高维数据异常检测是二分类问题,常见的方法是将高维的数据作降低维度的处理,后针对降低维度以后的数据进行异常检测。传统分类方法在高维数据集中进行聚类时,主要遇到两个问题:一、高维数据中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;二、高维空间中数据较低维空间中数据分布要稀疏,其中数据间距离几乎相等是普遍现象,而传统聚类方法是基于距离进行聚类的,因此在高维空间中无法基于距离来构建簇。目前,一般使用两种方法解决以上问题:(1)特征转换;(2)特征选择/子空间聚类。
专利CN110826620A提出一种高维数据聚类方法,根据高维数据X建立关于系数矩阵Z的目标函数,然后根据目标函数对系数矩阵Z进行求解,根据求解得到的系数矩阵Z构造相似度矩阵A从而实现高维数据的降维,最后根据相似度矩阵A对高维数据X进行聚类,实现分类的效果。该高维数据聚类方法将矩阵块对角约束引入到聚类模型中实现聚类,相比于其他聚类方法聚类精度高,该方法属于典型的特征转化的方法。
专利CN103761426A提出一种高维数据聚类方法。该方法一方面最小化由留一法度量的交叉验证分类误差、同时最小化选择特征的个数,最后建模实现高维数据中特征组合的快速识别,为高维数据的统计分析提供了一个快速的解决办法,该方法属于特征选择方法。
以上两种方法虽然实现了筛选或转化出高维数据中的重要维度,但采用人工估计系数的方式进行检验,数据计算量较大,人工工作量大,导致高维数据分析时间长。另外,特征选择面临大量的子空间,特征选择一般使用贪心策略等搜索方法搜索不同的特征子空间,然后使用一些标准来评价这些子空间,从而找到所需的簇,在求解过程中往往会陷入局部最优解,同时面临大量且复杂度很高的计算,所求的子特征可能会造成信息损失;高维数据中不同维度的数据存在一定的相关程度,特征转换的方法虽然将多个特征转化成少数特征,但是在特征转化的过程中需要做大量相关性计算,耗时大,并且新的维度数据往往会缺失代表性。
发明内容
本发明提供一种异常数据检测方法、装置、设备及存储介质,以实现准确检测出异常高维数据。
第一方面,本发明实施例提供了一种异常数据检测方法,包括:
对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集;
结合预设数量组正常样本数据的参考特征图像集,确定各所述特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集;
采用预先训练好的高维数据检测模型,确定所述特征注意力图像集的数据状态;
当所述数据状态为异常状态时,确定所述待检高维数据为异常数据。
可选的,所述对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集,包括:
提取待检高维数据不同特征维度内包含的特征值,对各所述特征值在所属特征维度内进行归一化处理,得到各所述特征值对应的归一化特征值;
基于预设灰度映射关系,对各所述归一化特征值作灰度映射,得到各所述特征值对应的特征灰度值;
分别将同一特征维度内的特征灰度值形成一个特征图像,构成特征图像集。
可选的,所述提取待检高维数据不同特征维度内包含的特征值,对各所述特征值在所属特征维度内进行归一化处理,得到各所述特征值对应的归一化特征值,包括:
获取待检高维数据,确定所述待检高维数据的特征矩阵;
对所述特征矩阵按特征维度进行划分,形成与特征维度数量相应的特征向量;
针对每个特征向量,确定所述特征向量包含的向量特征值的特征平均值,以及特征分布方差,根据所述特征平均值和所述特征分布方差,确定各所述向量特征值对应的归一化特征值。
可选的,所述基于预设灰度映射关系,对各所述归一化特征值作灰度映射,得到各所述特征值对应的特征灰度值,包括:
当所述归一化特征值大于等于第一预设特异阈值,令所述归一化特征值对应的特征灰度值等于第一灰度值;
当所述归一化特征值小于所述第一预设特异阈值且大于第二预设特异阈值,根据所述归一化特征值,结合预设函数变换关系,确定对应的特征灰度值;
当所述归一化特征值小于等于第二预设特异阈值,令所述归一化特征值对应的特征灰度值等于第二灰度值。
可选的,所述结合预设数量组正常样本数据的参考特征图像集,确定各所述特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集,包括:
根据预设数量个正常样本数据的参考特征图像集,确定各所述特征图像中每个像素位置对应的特征参考平均值;
基于所述特征图像中各像素位置的特征像素值和对应特征参考平均值,确定所述特征图像中各像素位置的特征注意力权重;
根据各所述特征注意力权重,调整对应特征像素值,得到特征注意力图像集。
可选的,所述基于所述特征图像中各像素位置的特征像素值和对应特征参考平均值,确定所述特征图像中各像素位置的特征注意力权重,包括:
针对每个像素位置,将所述像素位置与对应特征参考平均值的差值确定为特征差值,确定所述特征差值与对应特征参考平均值之比的绝对值为特征相对误差;
获取预设误差阈值,当所述特征相对误差小于所述预设误差阈值,则确定所述像素位置的特征注意力权重为第一权重;否则,确定所述像素位置的特征注意力权重为第二权重。
可选的,所述高维数据检测模型的训练过程,包括:
对训练特征图像集进行数据状态标注,得到标准数据状态;
将所述训练特征图像集输入待训练高维数据检测模型,获得输出的预测数据状态;
根据所述标准数据状态和所述预测数据状态,获得拟合损失函数;
通过所述拟合损失函数对所述待训练高维数据检测模型进行反向传播,得到所述高维数据检测模型。
第二方面,本发明实施例还提供了一种异常数据检测装置,该装置包括:
高维特征图像确定模块,用于对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集;
注意力图像确定模块,用于结合预设数量组正常样本数据的参考特征图像集,确定各所述特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集;
数据状态检测模块,用于采用预先训练好的高维数据检测模型,确定所述特征注意力图像集的数据状态;
异常数据确定模块,用于当所述数据状态为异常状态时,确定所述待检高维数据为异常数据
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所述的异常数据检测方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例所述的异常数据检测方法。
本发明通过对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集;结合预设数量组正常样本数据的参考特征图像集,确定各特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集;采用预先训练好的高维数据检测模型,确定特征注意力图像集的数据状态;当数据状态为异常状态时,确定待检高维数据为异常数据。本发明通过将高维数据转换为多个二维图像数据,并且采用注意力机制提取特征,更加贴近数据本身的分布信息,可以克服传统算法从大量子集空间中取值计算,运算效率低,且对高维数据特征提取效果差,信息易丢失的问题,实现了快速准确检测高维数据中的异常数据。
附图说明
图1是本发明实施例一提供的一种异常数据检测方法的流程图;
图2是本发明实施例二提供的一种异常数据检测装置的结构框图;
图3是本发明实施例三提供的一种计算机设备的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构,此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
图1为本发明实施例一提供的一种异常数据检测方法的流程图,本实施例可适用于对高维数据进行异常检测的情况,该方法可以由异常数据检测装置来执行,该装置可以通过软件和/或硬件实现。
如图1所示,该方法具体包括如下步骤:
步骤110、对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集。
其中,待检高维数据可以理解为需要检测是否存在异常的高维数据。
在本实施例中,为消除高维数据特征之间的量纲关系,保留数据的特征信息,可以对待检高维数据进行数据图像化处理,待检高维数据的每个维度形成一个特征图像,构成待检高维数据对应的特征图像集。
可选的,步骤110可以通过以下步骤具体实现:
S1101、提取待检高维数据不同特征维度内包含的特征值,对各特征值在所属特征维度内进行归一化处理,得到各特征值对应的归一化特征值。
进一步的,S1101可以通过以下方法具体实现:获取待检高维数据,确定待检高维数据的特征矩阵;对特征矩阵按特征维度进行划分,形成与特征维度数量相应的特征向量;针对每个特征向量,确定特征向量包含的向量特征值的特征平均值,以及特征分布方差,根据特征平均值和特征分布方差,确定各向量特征值对应的归一化特征值。
具体的,为消除高维数据特征之间的量纲关系,增加不同特征的可比性,可以对数据中每个特征进行归一化处理。将待检高维数据表示为一个n行m列的特征矩阵:
在实际应用中,可以将特征矩阵的每一列作为一个特征维度,那么可以将特征矩阵转化形成多个特征向量:
Bi=[D1i,D2i,...,Dni]T,
其中,i=1,2,...,m,Bi表示第i个特征向量。一般情况下,高维数据的每个特征向量中的所有特征值都服从正态分布,则第i个特征向量归一化的过程可表示为:
S1102、基于预设灰度映射关系,对各归一化特征值作灰度映射,得到各特征值对应的特征灰度值。
进一步的,S1102可以通过以下方法具体实现:
当归一化特征值大于等于第一预设特异阈值,令归一化特征值对应的特征灰度值等于第一灰度值;当归一化特征值小于第一预设特异阈值且大于第二预设特异阈值,根据归一化特征值,结合预设函数变换关系,确定对应的特征灰度值;当归一化特征值小于等于第二预设特异阈值,令归一化特征值对应的特征灰度值等于第二灰度值。
具体的,每个特征向量进行归一化后,可以表示为Yi=[y1i,y2i,...,yni]T,此时Yi~N(0,1),为排除数据中极端值影响,同时也防止图像化空间过于集中,采用3倍标准差剔除特异值的方法剔除yji中的特异值,将特异值作为边缘数据作填充处理,其表达式如下:
其中,yjio可以表示特征灰度值。
S1103、分别将同一特征维度内的特征灰度值形成一个特征图像,构成特征图像集。
具体的,一个特征维度对应一个特征向量,可以根据每个特征向量内包含的特征值对应的特征灰度值形成一个特征图像。特征图像的尺寸可以根据实际数据确定。
步骤120、结合预设数量组正常样本数据的参考特征图像集,确定各特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集。
其中,参考特征图像集可以是正常样本数据根据步骤110中的数据图像化处理方式处理后形成的图像集。
注意力机制按照作用的形式可以分为基于项的注意力和基于位置的注意力,注意力机制以本身的形式可以分为软性注意力和硬性注意力。对于高维数据异常检测就需要略去相对冗余的特征,保留可能会导致样本区别于正常类的特征。因此,本实施例提供的高维数据异常检测方法采用基于位置的软性注意力机制。
在实际应用中,可以结合一定数量的正常样本数据,根据正常样本数据的参考特征图像集,分析计算得到待检高维数据各像素位置的特征注意力权重,根据特征注意力权重对待检高维数据各特征图像进行加权操作,形成特征注意力图像集。
可选的,步骤120可以通过以下步骤具体实现:
S1201、根据预设数量个正常样本数据的参考特征图像集,确定各特征图像中每个像素位置对应的特征参考平均值。
在本实施例中,针对于一个特征图像,可以表示为
Xg:k=[[x11 … x1k] [x21 … x2k] … [xg1 … xgk]]
S1202、基于特征图像中各像素位置的特征像素值和对应特征参考平均值,确定特征图像中各像素位置的特征注意力权重。
进一步的,S1202可以通过以下方法具体实现:针对每个像素位置,将像素位置与对应特征参考平均值的差值确定为特征差值,确定特征差值与对应特征参考平均值之比的绝对值为特征相对误差;获取预设误差阈值,当特征相对误差小于预设误差阈值,则确定像素位置的特征注意力权重为第一权重;否则,确定像素位置的特征注意力权重为第二权重。
具体的,对于一个特征图像中的任意像素位置,特征注意力权重可以表示为:
其中,a可以表示预设的误差阈值,在实际应用中可以根据样本进行调整,一个特征图像就对应存在一组注意力权重Ag:k。
S1203、根据各特征注意力权重,调整对应特征像素值,得到特征注意力图像集。
具体的,针对于一个特征图像,根据特征注意力权重调整对应特征像素值得到的特征注意力图像可以表示为:
Mg:k=Xg:k T·Ag:k。
步骤130、采用预先训练好的高维数据检测模型,确定特征注意力图像集的数据状态。
其中,数据状态可以分为异常状态和正常状态。
具体的,可以将特征注意力图像集输入训练好的高维数据检测模型,输出即为特征注意力图像集的数据状态。
可选的,高维数据检测模型的训练过程,包括:
A1、对训练特征图像集进行数据状态标注,得到标准数据状态。
A2、将训练特征图像集输入待训练高维数据检测模型,获得输出的预测数据状态。
A3、根据标准数据状态和预测数据状态,获得拟合损失函数。
A4、通过拟合损失函数对待训练高维数据检测模型进行反向传播,得到高维数据检测模型。
其中,训练特征图像集可以理解为用于训练高维数据检测模型的历史训练特征图像集。标准数据状态可以理解为训练特征图像集的真实数据状态。待训练高维数据检测模型可以理解为初始构建的用于检测高维数据的数据状态的深度学习模型。预测数据状态可以理解为待训练高维数据检测模型检测分析出的训练特征图像集的数据状态。
具体的,可以对一定数量的训练特征图像集进行标注,采用搭建好的待训练高维数据检测模型对训练特征图像集进行识别分类,输出训练特征图像集的预测数据状态,由于标准数据状态是根据实际数据状态情况进行标注的,预测数据状态是由未训练好的高维数据检测模型识别输出的,经过对比大量根据标准数据状态和预测数据状态,可以获得模型的拟合损失函数,以实现对高维数据检测模型的训练调参。
在本实施例中,高维数据检测模型中的分类算法可根据高维数据的维度不同采用不同的算法,例如可以使用LeNet-5模型对应不同场景下的高维数据进行调整,可以将特征注意力图像集放入模型训练测试后利用Softmax函数分类,卷积核的移动步长可以为1,激活函数可以为Relu函数。
步骤140、当数据状态为异常状态时,确定待检高维数据为异常数据。
具体的,如果特征注意力图像集的数据状态为异常状态时,那么可以认为特征注意力图像集对应的待检高维数据为异常数据。
本实施例的技术方案,通过对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集;结合预设数量组正常样本数据的参考特征图像集,确定各特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集;采用预先训练好的高维数据检测模型,确定特征注意力图像集的数据状态;当数据状态为异常状态时,确定待检高维数据为异常数据。本发明实施例通过将高维数据转换为多个二维图像数据,并且采用注意力机制提取特征,更加贴近数据本身的分布信息,可以克服传统算法从大量子集空间中取值计算,运算效率低,且对高维数据特征提取效果差,信息易丢失的问题,实现了快速准确检测高维数据中的异常数据。
实施例二
本发明实施例所提供的异常数据检测装置可执行本发明任意实施例所提供的异常数据检测方法,具备执行方法相应的功能模块和有益效果。图2是本发明实施例二提供的一种异常数据检测装置的结构框图,如图2所示,该装置包括:高维特征图像确定模块210、注意力图像确定模块220、数据状态检测模块230和异常数据确定模块240。
高维特征图像确定模块210,用于对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集;
注意力图像确定模块220,用于结合预设数量组正常样本数据的参考特征图像集,确定各所述特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集;
数据状态检测模块230,用于采用预先训练好的高维数据检测模型,确定所述特征注意力图像集的数据状态;
异常数据确定模块240,用于当所述数据状态为异常状态时,确定所述待检高维数据为异常数据。
本实施例的技术方案,通过对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集;结合预设数量组正常样本数据的参考特征图像集,确定各特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集;采用预先训练好的高维数据检测模型,确定特征注意力图像集的数据状态;当数据状态为异常状态时,确定待检高维数据为异常数据。本发明实施例通过将高维数据转换为多个二维图像数据,并且采用注意力机制提取特征,更加贴近数据本身的分布信息,可以克服传统算法从大量子集空间中取值计算,运算效率低,且对高维数据特征提取效果差,信息易丢失的问题,实现了快速准确检测高维数据中的异常数据。
可选的,所述高维特征图像确定模块210,包括:
归一化特征值确定单元,用于提取待检高维数据不同特征维度内包含的特征值,对各所述特征值在所属特征维度内进行归一化处理,得到各所述特征值对应的归一化特征值;
特征灰度值确定单元,用于基于预设灰度映射关系,对各所述归一化特征值作灰度映射,得到各所述特征值对应的特征灰度值;
特征图像集形成单元,用于分别将同一特征维度内的特征灰度值形成一个特征图像,构成特征图像集。
可选的,所述归一化特征值确定单元,包括:
特征矩阵确定子单元,用于获取待检高维数据,确定所述待检高维数据的特征矩阵;
特征向量划分子单元,用于对所述特征矩阵按特征维度进行划分,形成与特征维度数量相应的特征向量;
归一化特征值计算子单元,用于针对每个特征向量,确定所述特征向量包含的向量特征值的特征平均值,以及特征分布方差,根据所述特征平均值和所述特征分布方差,确定各所述向量特征值对应的归一化特征值。
可选的,所述特征灰度值确定单元,包括:
第一灰度值确定子单元,用于当所述归一化特征值大于等于第一预设特异阈值,令所述归一化特征值对应的特征灰度值等于第一灰度值;
变换灰度值确定子单元,用于当所述归一化特征值小于所述第一预设特异阈值且大于第二预设特异阈值,根据所述归一化特征值,结合预设函数变换关系,确定对应的特征灰度值;
第二灰度值确定子单元,用于当所述归一化特征值小于等于第二预设特异阈值,令所述归一化特征值对应的特征灰度值等于第二灰度值。
可选的,所述注意力图像确定模块220,包括:
特征参考平均值确定单元,用于根据预设数量个正常样本数据的参考特征图像集,确定各所述特征图像中每个像素位置对应的特征参考平均值;
特征注意力权重确定单元,用于基于所述特征图像中各像素位置的特征像素值和对应特征参考平均值,确定所述特征图像中各像素位置的特征注意力权重;
特征注意力图像集确定单元,用于根据各所述特征注意力权重,调整对应特征像素值,得到特征注意力图像集。
可选的,所述特征注意力权重确定单元,包括:
特征相对误差确定子单元,用于针对每个像素位置,将所述像素位置与对应特征参考平均值的差值确定为特征差值,确定所述特征差值与对应特征参考平均值之比的绝对值为特征相对误差;
特征注意力权重确定子单元,用于获取预设误差阈值,当所述特征相对误差小于所述预设误差阈值,则确定所述像素位置的特征注意力权重为第一权重;否则,确定所述像素位置的特征注意力权重为第二权重。
可选的,所述高维数据检测模型的训练过程,包括:
对训练特征图像集进行数据状态标注,得到标准数据状态;
将所述训练特征图像集输入待训练高维数据检测模型,获得输出的预测数据状态;
根据所述标准数据状态和所述预测数据状态,获得拟合损失函数;
通过所述拟合损失函数对所述待训练高维数据检测模型进行反向传播,得到所述高维数据检测模型。
实施例三
图3为本发明实施例三提供的一种计算机设备的结构框图,如图3所示,该计算机设备包括处理器310、存储器320、输入装置330和输出装置340;计算机设备中处理器310的数量可以是一个或多个,图3中以一个处理器310为例;计算机设备中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器320作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的异常数据检测方法对应的程序指令/模块(例如,异常数据检测装置中的高维特征图像确定模块210、注意力图像确定模块220、数据状态检测模块230和异常数据确定模块240)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的异常数据检测方法。
存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器320可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置330可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。
实施例四
本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种异常数据检测方法,该方法包括:
对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集;
结合预设数量组正常样本数据的参考特征图像集,确定各所述特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集;
采用预先训练好的高维数据检测模型,确定所述特征注意力图像集的数据状态;
当所述数据状态为异常状态时,确定所述待检高维数据为异常数据。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的异常数据检测方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述异常数据检测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种异常数据检测方法,其特征在于,包括:
对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集;
结合预设数量组正常样本数据的参考特征图像集,确定各所述特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集;
采用预先训练好的高维数据检测模型,确定所述特征注意力图像集的数据状态;
当所述数据状态为异常状态时,确定所述待检高维数据为异常数据。
2.根据权利要求1所述的异常数据检测方法,其特征在于,所述对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集,包括:
提取待检高维数据不同特征维度内包含的特征值,对各所述特征值在所属特征维度内进行归一化处理,得到各所述特征值对应的归一化特征值;
基于预设灰度映射关系,对各所述归一化特征值作灰度映射,得到各所述特征值对应的特征灰度值;
分别将同一特征维度内的特征灰度值形成一个特征图像,构成特征图像集。
3.根据权利要求2所述的异常数据检测方法,其特征在于,所述提取待检高维数据不同特征维度内包含的特征值,对各所述特征值在所属特征维度内进行归一化处理,得到各所述特征值对应的归一化特征值,包括:
获取待检高维数据,确定所述待检高维数据的特征矩阵;
对所述特征矩阵按特征维度进行划分,形成与特征维度数量相应的特征向量;
针对每个特征向量,确定所述特征向量包含的向量特征值的特征平均值,以及特征分布方差,根据所述特征平均值和所述特征分布方差,确定各所述向量特征值对应的归一化特征值。
4.根据权利要求2所述的异常数据检测方法,其特征在于,所述基于预设灰度映射关系,对各所述归一化特征值作灰度映射,得到各所述特征值对应的特征灰度值,包括:
当所述归一化特征值大于等于第一预设特异阈值,令所述归一化特征值对应的特征灰度值等于第一灰度值;
当所述归一化特征值小于所述第一预设特异阈值且大于第二预设特异阈值,根据所述归一化特征值,结合预设函数变换关系,确定对应的特征灰度值;
当所述归一化特征值小于等于第二预设特异阈值,令所述归一化特征值对应的特征灰度值等于第二灰度值。
5.根据权利要求1所述的异常数据检测方法,其特征在于,所述结合预设数量组正常样本数据的参考特征图像集,确定各所述特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集,包括:
根据预设数量个正常样本数据的参考特征图像集,确定各所述特征图像中每个像素位置对应的特征参考平均值;
基于所述特征图像中各像素位置的特征像素值和对应特征参考平均值,确定所述特征图像中各像素位置的特征注意力权重;
根据各所述特征注意力权重,调整对应特征像素值,得到特征注意力图像集。
6.根据权利要求5所述的异常数据检测方法,其特征在于,所述基于所述特征图像中各像素位置的特征像素值和对应特征参考平均值,确定所述特征图像中各像素位置的特征注意力权重,包括:
针对每个像素位置,将所述像素位置与对应特征参考平均值的差值确定为特征差值,确定所述特征差值与对应特征参考平均值之比的绝对值为特征相对误差;
获取预设误差阈值,当所述特征相对误差小于所述预设误差阈值,则确定所述像素位置的特征注意力权重为第一权重;否则,确定所述像素位置的特征注意力权重为第二权重。
7.根据权利要求1所述的异常数据检测方法,其特征在于,所述高维数据检测模型的训练过程,包括:
对训练特征图像集进行数据状态标注,得到标准数据状态;
将所述训练特征图像集输入待训练高维数据检测模型,获得输出的预测数据状态;
根据所述标准数据状态和所述预测数据状态,获得拟合损失函数;
通过所述拟合损失函数对所述待训练高维数据检测模型进行反向传播,得到所述高维数据检测模型。
8.一种异常数据检测装置,其特征在于,包括:
高维特征图像确定模块,用于对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集;
注意力图像确定模块,用于结合预设数量组正常样本数据的参考特征图像集,确定各所述特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集;
数据状态检测模块,用于采用预先训练好的高维数据检测模型,确定所述特征注意力图像集的数据状态;
异常数据确定模块,用于当所述数据状态为异常状态时,确定所述待检高维数据为异常数据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的异常数据检测方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的异常数据检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210113649.9A CN114463587A (zh) | 2022-01-30 | 2022-01-30 | 一种异常数据检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210113649.9A CN114463587A (zh) | 2022-01-30 | 2022-01-30 | 一种异常数据检测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114463587A true CN114463587A (zh) | 2022-05-10 |
Family
ID=81412253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210113649.9A Pending CN114463587A (zh) | 2022-01-30 | 2022-01-30 | 一种异常数据检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114463587A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115272831A (zh) * | 2022-09-27 | 2022-11-01 | 成都中轨轨道设备有限公司 | 接触网悬挂状态监测图像的传输方法及系统 |
CN116628428A (zh) * | 2023-07-24 | 2023-08-22 | 华能信息技术有限公司 | 一种数据加工方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796634A (zh) * | 2019-09-10 | 2020-02-14 | 中国三峡建设管理有限公司 | 大坝状态检测方法、装置、计算机设备和可读存储介质 |
CN111079805A (zh) * | 2019-12-03 | 2020-04-28 | 浙江工业大学 | 一种结合注意力机制及信息熵最小化的异常图像检测方法 |
WO2020173177A1 (zh) * | 2019-02-25 | 2020-09-03 | 研祥智能科技股份有限公司 | 物体色差缺陷检测方法、装置、计算机设备及存储介质 |
CN113743484A (zh) * | 2021-08-20 | 2021-12-03 | 宁夏大学 | 基于空间和通道注意力机制的图像分类方法与系统 |
-
2022
- 2022-01-30 CN CN202210113649.9A patent/CN114463587A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020173177A1 (zh) * | 2019-02-25 | 2020-09-03 | 研祥智能科技股份有限公司 | 物体色差缺陷检测方法、装置、计算机设备及存储介质 |
CN110796634A (zh) * | 2019-09-10 | 2020-02-14 | 中国三峡建设管理有限公司 | 大坝状态检测方法、装置、计算机设备和可读存储介质 |
CN111079805A (zh) * | 2019-12-03 | 2020-04-28 | 浙江工业大学 | 一种结合注意力机制及信息熵最小化的异常图像检测方法 |
CN113743484A (zh) * | 2021-08-20 | 2021-12-03 | 宁夏大学 | 基于空间和通道注意力机制的图像分类方法与系统 |
Non-Patent Citations (1)
Title |
---|
余石龙;鲍劲松;李婕;张启华;: "基于误差注意力的晶圆制造数据异常检测", 中国机械工程, no. 14, 25 July 2020 (2020-07-25), pages 1 - 5 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115272831A (zh) * | 2022-09-27 | 2022-11-01 | 成都中轨轨道设备有限公司 | 接触网悬挂状态监测图像的传输方法及系统 |
CN115272831B (zh) * | 2022-09-27 | 2022-12-09 | 成都中轨轨道设备有限公司 | 接触网悬挂状态监测图像的传输方法及系统 |
CN116628428A (zh) * | 2023-07-24 | 2023-08-22 | 华能信息技术有限公司 | 一种数据加工方法及系统 |
CN116628428B (zh) * | 2023-07-24 | 2023-10-31 | 华能信息技术有限公司 | 一种数据加工方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12001949B2 (en) | Computer-implemented method, computer program product and system for data analysis | |
CN111291777B (zh) | 一种基于多组学集成的癌症亚型分类方法 | |
Wu et al. | Online feature selection with streaming features | |
CN112639834A (zh) | 用于数据分析的计算机实现的方法、计算机程序产品以及系统 | |
US20180082215A1 (en) | Information processing apparatus and information processing method | |
CN109817339B (zh) | 基于大数据的患者分组方法和装置 | |
US11593673B2 (en) | Systems and methods for identifying influential training data points | |
CN114463587A (zh) | 一种异常数据检测方法、装置、设备及存储介质 | |
WO2021027142A1 (zh) | 图片分类模型训练方法、系统和计算机设备 | |
CN112764024A (zh) | 基于卷积神经网络和Bert的雷达目标识别方法 | |
US20130304783A1 (en) | Computer-implemented method for analyzing multivariate data | |
CN113516019B (zh) | 高光谱图像解混方法、装置及电子设备 | |
CN113988303B (zh) | 基于并行量子本征求解器的量子推荐方法、装置及系统 | |
Chiu et al. | Interpolation based consensus clustering for gene expression time series | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
CN111027636A (zh) | 基于多标签学习的无监督特征选择方法及系统 | |
Solorio-Fernández et al. | A systematic evaluation of filter Unsupervised Feature Selection methods | |
US11100428B2 (en) | Distributable event prediction and machine learning recognition system | |
Chen et al. | Sparsity-regularized feature selection for multi-class remote sensing image classification | |
CN106951509B (zh) | 多标签核化典型相关分析检索方法 | |
CN105654126A (zh) | 一种计算设备、核矩阵评估方法以及多核学习方法 | |
EP4227855A1 (en) | Graph explainable artificial intelligence correlation | |
CN110837853A (zh) | 一种快速分类模型构建方法 | |
CN114422450B (zh) | 基于多源网络流量数据的网络流量分析方法和装置 | |
US11055620B2 (en) | Distributable clustering model training system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |