CN116561689B

CN116561689B - 一种高维数据异常检测方法

Info

Publication number: CN116561689B
Application number: CN202310520347.8A
Authority: CN
Inventors: 请求不公布姓名; 陈传杰; 花小朋; 许贺洋; 吴国民; 周琦
Original assignee: Yancheng Institute of Technology
Current assignee: Yancheng Institute of Technology
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-11-14
Anticipated expiration: 2043-05-10
Also published as: CN116561689A

Abstract

本发明属于数据处理技术领域，公开了一种适用于高维数据异常检测的方法，在原始数据集上随机抽取一部分属性，分别在抽取的数值属性和非数字属性上进行异常检测，最后根据抽取属性上的检测结果判定原始数据集中的记录是否属于异常值；在数值属性上采用每个划分中包含记录个数的倒数作为异常打分值，在非数字属性上采用各簇的熵作为异常打分值，最后根据数值属性和非数字属性的异常打分值判定原始数据集中哪些记录属于异常值；本发明克服了高维数据异常检测计算代价大的缺点，能够大大提高异常检测的效率和精度。

Description

一种高维数据异常检测方法

技术领域

本发明属于数据处理技术领域，主要涉及一种数据集中异常数据检测方法，该方法根据数据集本身的特点，检测出数据集中异常的数据记录。异常检测可应用于银行欺诈检测、结构缺陷检测、系统健康检测、文本错误检测等很多领域。

背景技术

目前，异常检测方法主要包括：通过概率分布进行异常检测，通过聚类进行异常检测，通过深度学习进行异常检测。

通过概率分布进行检测的理论基础是正常的数据分布是具有一定特点的，如果某个数据与正常的分布偏离较大，我们认为该数据很可能是不正常的，很可能就是异常值。这种方法能够很好利用数据的统计特性，在一定的领域表现较好，但该类方法需要对数据集进行统计分析，获取正常数据的分布特征，这个过程往往较困难，特别是对于数据量较大，数据维度较高的情况下，其运算代价较大。

通过聚类进行异常检测，首先对原始数据集进行聚类，然后根据每条记录距离聚类中心的距离来判断哪些数据是异常值，一般认为距离聚类中心较远的记录就是异常值。这种方法需要进行聚类，聚类的过程是比较耗时，且聚类数的多少对检测效果影响较大，目前对聚类数的确定没有统一的方法。

通过深度学习进行异常检测，主要通过训练一个深度神经网络来检测数据集中的异常值。就目前情况来看，这种方法多数情况下表现较好，但是，训练的神经网络高度依赖于样本数据集，对于不同类别的数据集上，很难训练出比较理想的网络模型，且训练网络的过程往往比较耗时。

综上所述，现存技术的主要问题是：计算量比较大，效率比较低。无论是采用统计、聚类还是深度学习的方法，进行异常检测时，计算量都比较大，尤其是对于高维数据，现有检测方法很难高效的进行异常检测。高维数据结构比较复杂，采用现有方法很难取得比较好的效果。

本发明基于随机抽样公开了以一种适用于高维数据的异常检测方法，该方法能够大大提高异常检测的效率。随机抽样大大提高了异常检测的效率，提高了异常检测的精度。

发明内容

针对现有技术存在的问题，本发明公开了一种新的适用于高维数据的异常检测方法。

本发明：一种高维数据的异常检测方法，所述异常检测方法包括：

在高维数据上随机选择属性：随机在高维数据集上选择一个或多个属性(列),作为原始数据集的一次抽样，第i次抽样记为s_i，每个s_i称为原始数据集的一个样本，每个样本中可以包含原始数据集中的一个属性或多个属性的组合；

在每个样本上进行异常检测：若样本s_i抽取的数值属性，则对该样本中的数据进行排序，求得s_i中记录2范数的最大值max_i和最小值min_i，把区间[min_i,max_i]平均分成kn个子区间，kn是随机从区间[|s_i|/20,|s_i|/10]随机选择的整数，|s_i|表示样本中记录的个数。统计2范数落在kn个子区间的记录数做为该区间内包含记录的异常值打分；

若样本s_i抽取的非数值属性，则首先随机选择一个记录作为基准记录r₀，计算所有记录到该基准记录的距离，d_max表示距离样本s_i中记录距离r₀的最大距离，kc是从区间[|s_i|/20,|s_i|/10]随机选择的整数，把区间[0,d_max]平均分成kc个子区间，根据记录与r₀的距离所在的子区间，把样本s_i划分成kc个子类，计算每个子类的信息熵，作为该子类中包含元素的异常值打分；

由不同的样本，得数据集中每条记录的多个异常值打分，求解异常值打分的加权和，作为判定数据集中每条记录是不是异常值的依据。

进一步，在高维数据上随机选择属性，具体包括：

输入：原始数据集r是数据集D中记录，r包含a₁,a₂,…,a_m个属性

输出：抽样样本集

算法：

(1)S为空集

(2)fori＝1toN_s其中N_s表示需要产生的样本数

(3)对数据集D中每记录r，随机选择a₁,a₂,…,a_m中一个或多个属性作为该记录的抽样记录

(4)把所有抽样记录放入s_i

(5)把s_i放入S

(6)Endfor

(7)返回S

进一步，样本s_i抽取的数值属性，在每个样本上进行异常检测，具体包括：

输入：样本s_i

输出：数据集中每条记录的异常值打分

算法：

(1)计算s_i中每条记录的2范数，2范数的最大值和最小值分别记为max_i，min_i

(2)Fori＝1toN

(3)随机从区间[|s_i|/20,|s_i|/10]随机选择的整数kn

(4)把区间[min_i,max_i]平均分成kn个子区间

(5)根据每条记录的2范数所在的子区间，把记录分开成kn个簇

(6)计算每个簇中记录的个数c_i，1/c_i为该簇中每条记录的异常打分值

(7)Endfor

(8)计算每个记录的∑1/c_i作为记录的异常值最终打分

进一步，样本s_i抽取的非数值属性，在每个样本上进行异常检测，具体包括：

输入：样本s_i

输出：数据集中每条记录的异常值打分

算法：

(1)Fori＝1toN

(2)随机选择s_i中一条记录r_i ⁰

(3)计算其他记录与r_i ⁰的距离

(4)kc是从区间[|s_i|/20,|s_i|/10]随机选择的整数

(5)根据其他记录与r_i ⁰的距离，把s_i中数据划分成kc簇

(6)计算各簇的信息熵entr_i，

(7)Endfor

(8)计算各记录对应的entr＝∑entr_i

(9)每条记录的entr即为异常打分值

进一步，在不同的样本上，在得数据集中每条记录的多个异常值打分，求解异常值打分的加权和，作为最终确定每条记录是否为异常值的依据。这里的权值可以是专家指定，也可以利用带标签的样本学习获得。

本发明的另一目的在于提供一种高维数据异常检测实现方法的计算机程序。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的异常检测实现方法。

本发明的另一目的在于提供一种实现所述新的异常检测实现方法的新的异常检测实现控制系统。

综上所述，本发明的优点及效果为：

本方法有别于传统方法，首先在高维数据集上抽取一部分属性作为一个样本，在多个样本上进行异常检测，最后计算不同样本上的检测结果的加权和，并作为最终判断异常数据的依据；本方案最大特点是更适用于高维数据的异常检测，能够大大降低高维数据异常检测的运算代价；通过多次随机采样，在数值属性和非数值属性上多次运行相应的检测方法，能够大大提高异常检测的精度。

附图说明

图1是本发明实施例提供的异常检测方法的流程图。

图2非数字属性泛化树结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的具体实施过程总体上分三个步骤：首先在原始数据集上进行抽样，然后再抽取的数据集上进行异常检测，最后把得到的异常检测值进行汇总得到最终异常检测的结果。下面结合实例对本发明的每个步骤做进一步的说明。

本发明的随机抽样过程包括：

本发明中的随机抽样有别于其他随机抽样，多数随机抽样为在数据集中抽取部分记录组成新的数据集，本方案中的随机抽样，是抽数据集中所有记录的部分属性。如某数据集中有10万条记录，每条记录有100个属性，本发明的随机抽样将抽取10万条记录，可能只抽取100个属性的5个属性，这样抽样后得到的数据集将包含10万条记录，每条记录包含5个属性，通过抽样大大降低了数据的维度，所得的数据为原始数据集的一个样本。本抽样方法等同于原始数据集的记录在部分维度上的投影，每次投影类等同于一次特征提取，通过投影压缩了原始数据集的维度。每个随机抽样产生的样本均从不同角度反映了原始数据的部分特征，在不同的样本上异常检测值均在一定程度上反应原始数据集中部分记录偏离正常值的情况，最后根据各个样本上的异常检测结果，得出最终异常检测结果。

本发明的异常检测方法包括适用于数值属性的异常检测方法和适用于非数字属性的异常检测方法，具体内容包括:

对于数值属性异常检测方法具体内容包括：

首先计算样本中每条记录的二范数，对于样本中的某条记录r，a₁,a₂,…,a_m为r的属性，则r的二范数为：

样本s_i中每条记录的2范数的最大值和最小值分别记为max_i和min_i，把区间[min_i,max_i]平均分成kn个子区间，其中kn值的确定取决于数据集的大小，如数据集中记录较多，kn值可以适当增大，依据样本中每条记录的2范数，把所有记录划分成kn类，如：把记录的2范数均落在第一个小区间的所有记录归为一个簇，这样若簇中记录说多，说明簇中的记录多，记录接近于正常值；若初中包含记录少，说明这些记录与正常数据记录偏离较大，更可能是异常值。运用每个簇记录数的倒数作为该簇中每条记录的异常值打分；打分值越高意味着该记录与正常记录偏离较大，更可能是异常值；打分值越低，说明该记录与数据集中的多数记录更接近，更可能是正常值。

对于非数值属性异常检测方法具体内容包括：

首先在数据集中随机选择一个记录作为基准值，然后计算各元素距离该基准值的距离，这里可以采用但不局限于基于泛化树的距离。

含有非数值属性的记录e₁与e₂之间距离定义为：

其中表示属性A_i的泛化树，如图2泛化树中其叶子节点该属性可能的取值，根据语义关系可以逐层向上泛化为唯一的根节点。/>表示泛化树的高度，如下图2中/> 表示属性A_i的权重，e'是e₁、e₂的第一个共同泛化祖先。如e₁、e₂在该属性A_i上取值分别为“个人企业”与“地方政府”，e'是e₁、e₂向上泛化的第一个共同祖先，即“有报酬”，那么e₁、e₂之间的距离计算公式方法为：

把各个样本上得到的对应记录的异常打分值进行汇总得到最终异常检测的结果，具体包括：

设r是原始数据集D中的一条记录，则r的最终异常值打分为：

其中：为元素记录r在样本s_i上的异常值打分，ω_i为权。权值的确定可以有专家指定，也可以通过带标签的样本数据集进行训练获得。

最终根据v_r的值及设定的阈值判定r是否为异常值。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于文本错误检测的高维数据异常检测方法，其特征在于，在高维数据上随机选择单个或多个属性，选择的单个属性或多个属性的组合作为异常点检测的特征，在每个特征上运行异常检测方法，得到每个数据点的异常值打分，运用各个数据点的异常值打分的和作为判断异常数据的标准；

具体包括:

随机在高维数据集上选择一个或多个属性，作为原始数据集的一次抽样，第i次抽样记为s_i，每个s_i称为原始数据集的一个样本，每个样本中包含原始数据集中的一个属性或多个属性的组合；

在每个样本上进行异常检测：若样本s_i抽取的数值属性，则对该样本中的数据进行排序，求得s_i中记录2范数的最大值max_i和最小值min_i，把区间[min_i,max_i]平均分成kn个子区间，kn是随机从区间[|s_i|/20,|s_i|/10]随机选择的整数，|s_i|表示样本中记录的个数；统计2范数落在kn个子区间的记录数作为该区间内包含记录的异常值打分；

由不同的样本，得到数据集中每条记录的多个异常值打分，求解异常值打分的加权和，作为判定数据集中每条记录是不是异常值的依据；

进一步，在高维数据上随机选择属性，具体包括：

输入：原始数据集r是数据集D中记录，r包含a₁,a₂,…,a_m个属性输出：抽样样本集

算法：

(1)S为空集

(2)for i＝1to N_s其中N_s表示需要产生的样本数

(4)把所有抽样记录放入s_i

(5)把s_i放入S

(6)Endfor

(7)返回S

输入：样本s_i

输出：数据集中每条记录的异常值打分

算法：

(2)For i＝1to N

(3)随机从区间[|s_i|/20,|s_i|/10]随机选择的整数kn

(4)把区间[min_i,max_i]平均分成kn个子区间

(5)根据每条记录的2范数所在的子区间，把记录分开成kn个簇

(7)Endfor

(8)计算每个记录的∑1/c_i作为记录的异常值最终打分；

输入：样本s_i

输出：数据集中每条记录的异常值打分

算法：

(1) For i＝1 to N

(2)随机选择s_i中一条记录r_i ⁰

(3)计算其他记录与r_i ⁰的距离

(4)kc是从区间[|s_i|/20,|s_i|/10]随机选择的整数

(5)根据其他记录与r_i ⁰的距离，把s_i中数据划分成kc簇

(6)计算各簇的信息熵entr_i，

(7)Endfor

(8)计算各记录对应的entr＝∑entr_i

(9)每条记录的entr即为异常打分值

进一步，在不同的样本上，在得到数据集中每条记录的多个异常值打分后，求解异常值打分的加权和，作为最终确定每条记录是否为异常值的依据；这里权值的确定有两种方法，一种是由专家设定，另一种是利用带标签的样本学习获得。

2.根据权利要求1所述的一种用于文本错误检测的高维数据异常检测方法，其特征在于，对于数值属性，以概率P_1t选取第t个数值属性，对于非数值属性，以概率P_2j选取第j个非数值属性，P_1t的值与对应数值属性的方差和极差正相关，P_2j的值与对应非数值属性的信息熵正相关，选择的单个属性或多个属性的组合称为该数据集的一个特征，在各个特征上运行异常检测方法。

3.根据权利要求1所述的一种用于文本错误检测的高维数据异常检测方法，其特征在于，对于数值属性和数值属性的组合，把最小值到最大值之间，均匀的划分成几个区间，每个区间中包含数据记录数的倒数作为该区间内的每条记录的异常值打分；对于非数值属性和包含非数字属性的组合，把所有记录均匀的划分成几组，计算每个分组中数据的熵，熵的值作为该组数据中各个记录的异常值打分。

4.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1所述的一种用于文本错误检测的高维数据异常检测方法。

5.一种实现权利要求1所述的一种用于文本错误检测的高维数据异常检测方法的高维数据异常检测实现控制系统。