CN112906751A

CN112906751A - 一种非监督学习识别异常值的方法

Info

Publication number: CN112906751A
Application number: CN202110103375.0A
Authority: CN
Inventors: 王小华; 潘晓光; 焦璐璐; 张娜; 张雅娜
Original assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Current assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-06-04

Abstract

本发明属于非监督学习技术领域，具体涉及一种非监督学习识别异常值的方法，包括下列步骤：设定参数；在所述设定参数中的第t次迭代中计算输出异常得分向量AS_t；经过T次迭代后，把异常值得分从高到低排序整合为SAS_t；SAS_t按照函数F合并为AS_FINAL；进行仿真实验。本发明结合了各种离群点检测算法，通过对原始特征数据集的特征子集进行采样，提高了分类器的多样性。本发明与现有的LOF方法相比，采用迭代采集子集的方法，不同子集有不同异常值数量，不同变量数量，显示出了更好的精度。可以用于高维的含多个无关变量的数据的异常值检测。本发明用于非监督学习异常值的识别。

Description

一种非监督学习识别异常值的方法

技术领域

本发明属于非监督学习技术领域，具体涉及一种非监督学习识别异常值的方法。

背景技术

通常而言，当样本量较小和样本变量较多的时候，高维数据集上的异常值可能影响数据的均值和方差，甚至影响模型的预测结果。目前机器学习领域的异常值检测方法主要包括监督学习和非监督学习两类。在数据量较小的时候可以使用监督学习，然而缺点是其要在标签数据基础上使用。另外一种方法是非监督学习，这种方法在高维数据异常值检测领域较为常用，通常是计算高维空间的数据点间的距离，然而高维空间中数据点很分散，数据间的距离差别较小，所有的数据都有可能被判定为异常值，比如常用的马氏距离就被证明在高维空间中对于距离的测量不够稳定。

因此，学者们提出了一些在亚高维空间中检测异常值的方法，然而，随着选择的变量数不同，亚空间也不同，最终检测到的异常值也不同，造成了结果的差异性。

为更好解决这个问题，有学者提出了局部异常值检测方法，这种方法基于数据族的密度计算高维空间的密度，比较之前提及的检测方法，此方法确实在检测高维数据方面有更好的表现，然而还是存在异常值检测误差较大，当数据包含较多无关变量时，结果不稳定的情况。为了解决这个问题，本文提出了改进的LOF方法，此方法能够合理科学的检测出异常值，也能在数据包含多个无关变量的时候，降低检测误差。

发明内容

针对上述的技术问题，本发明提供了一种精度高、误差小、稳定性强的非监督学习识别异常值的方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种非监督学习识别异常值的方法，包括下列步骤：

S100、设定参数；

S200、在所述设定参数中的第t次迭代中计算输出异常得分向量AS_t；

S300、经过T次迭代后，把异常值得分从高到低排序整合为向量SAS_t；

S400、向量SAS_t按照函数F合并为向量AS_FINAL；

S500、进行仿真实验。

所述S100中设定参数的方法为：设定的参数总共包括T次迭代过程，t＝1,2,3…T轮迭代，数据集X的变量数为d，m为数据集样本量大小，也是每个向量中的数据个数，S是数据集。

所述S200中，在其中的第t次迭代，随机不放回的选择变量数大小为N_t，数值在d/2至 d间，构造一个子集F_t，在子集F_t中使用异常值检测方法LOF，其中LOF为Local outlierfactor 离群点检测算法。

所述S400中，迭代的异常值得分整合得到向量AS_FINAL的函数F包括如下两种方式：

方式一：创造序列Ind_t，结合数据集Ind_t信息，组合成数据向量Ind_FINAL和异常值得分 AS_FINAL，在将异常值得分排序后，将有最高异常值得分的数据AS_1,1,AS_2,1.....AS_t,1插入到Ind_FINAL中，再将异常值得分第二高的数据AS_1,2,AS_2,2.....AS_t,2放到Ind_FINAL后，如果得到的数据已经在 Ind_FINAL出现过，则不再将数据附在Ind_FINAL后，最终得到与成为异常值的概率对应的数据集 Ind_FINAL，和包括异常值概率的AS_FINAL，最终得到Ind_FINAL中按照异常值得分从大到小排列的各个数据；

方式二：输出排序后的向量SAS_t对应的Ind_t，运用加权平均算出综合异常值得分为向量 AS_FINAL，将向量AS_FINAL的内部得分排序，得分最高的被认为是异常值。

所述S400中向量AS_FINAL＝F(SAS_t),t＝1...T。

本发明与现有技术相比，具有的有益效果是：

本发明提出一种改进的异常值检测方法，改进局部异常因子检测方法，考虑到了主数据集的密度还有该异常值点距离数据集的距离，并且该方法结合了各种离群点检测算法，通过对原始特征数据集的特征子集进行采样，提高了分类器的多样性。本发明与现有的LOF方法相比，采用迭代采集子集的方法，不同子集有不同异常值数量，不同变量数量，显示出了更好的精度。可以用于高维的含多个无关变量的数据的异常值检测。

附图说明

图1为本发明的改进局部异常值检测流程图；

图2是本发明提供的改进局部异常值检测的函数F流程；

图3为本发明实施例中方法一的流程图；

图4为本发明实施例中方法二的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种非监督学习识别异常值的方法，如图1所示，包括下列步骤：

S100、设定参数；

S400、向量SAS_t按照公式F合并为向量AS_FINAL；

S500、进行仿真实验。

进一步，步骤S100中，设定的参数总共包括T次迭代过程，t＝1,2,3…T轮迭代，数据集 X的变量数为d，m为数据集样本量大小，也是每个向量中的数据个数，S是数据集。

进一步，步骤S200中，在其中的第t次迭代，随机不放回的选择变量数大小为N_t，数值在d/2至d间，构造一个子集F_t，在子集F_t中使用异常值检测方法LOF，其中LOF为Localoutlier factor离群点检测算法，以此来得到每次迭代的异常值得分向量。

进一步，步骤S300中，如图2中第一次迭代中，原数据NC₁的第一个数异常值得分最高为AS_1,1，第二次迭代是第四位AS_2,4，我们会将T次迭代中原数据NC₁的所有异常值得分加总，进入AS_FINAL中进行排序经过T次迭代后，把每次迭代的异常值得分单独从高到低排序整合为 SAS_t。迭代的异常值得分整合得到AS_FINAL的函数F具体包括如下两种方法：

方法一：再创造序列Ind_t。Ind_t(1)为SAS_t中有最高得分SASt(1)的原数据，比如Ind_t(1)＝k 代表第t次异常值检验的得分向量AS_t对应的原数据x_k有最高的异常值得分AS_t(k)，如图3 所示，AS_1,2就代表第一次迭代中第二个最可能的异常值。

结合数据集Ind_t信息，组合成数据向量Ind_FINAL和异常值得分AS_FINAL。在将异常值得分排序后，我们将有最高异常值得分的数据(AS_1,1,AS_2,1.....AS_t,1)插入到Ind_FINAL中，再将异常值得分第二高的数据(AS_1,2,AS_2,2.....AS_t,2)放到Ind_FINAL后，如果得到的数据已经在Ind_FINAL出现过，则不再将数据附在Ind_FINAL后。最终得到与成为异常值的概率对应的数据集Ind_FINAL，和包括异常值概率的AS_FINAL。具体的程序执行如下：创造两个空向量Ind_FINAL和AS_FINAL，执行以下循环语句：对于i＝1至m，对于t＝1至T，如果Ind_t(i)在Ind_FINAL中没有出现过，则加入 Ind_FINAL后，插入Ind_t(i)到向量Ind_FINAL后，插入AS_t(i)到AS_FINAL后，输出Ind_FINAL和AS_FINAL。

最终得到Ind_FINAL中按照异常值得分从大到小排列的各个数据。

方法二：输出排序后的SAS_t对应的Ind_t。

如图4所示，第一次迭代异常值得分排名第一的数据，在Ind_t中记录下为原数据NC₁，第二次迭代数据NC₁异常值得分是第四位AS_2,4；

运用加权平均算出综合异常值得分AS_FINAL。对于AS_t,t＝1,...,T,m是AS_t向量长度，把每一个数的异常值得分加总，得到总的AS_FINAL，使用的语句为：对于i＝1至m，

得到AS_FINAL将AS_FINAL的内部得分排序；得分最高的被认为是异常值。

进一步，步骤S400中，将SAS_t按照公式F合并为AS_FINAL，公式F为： AS_FINAL＝F(SAS_t),t＝1...T。

进一步，步骤S500中，仿真实验验证为：

1.仿真条件

实验是在合成数据和真实数据集之上进行的。本发明是在中央处理器为Intel(R)Core(TM) i3-2130 3.40GHZ、内存16G、WINDOWS 7操作系统上，运用R软件进行的仿真

2.仿真内容

(1)合成数据上检测增加无关干扰变量，测试改进LOF方法。

假设数据集有正态分布，因此，在第一阶段的训练过程中，为了设定特定的误报率，先在训练集(没有异常值)正态分布数据集上应用本文的异常值检测，在第二步的测试过程中，我们在测试集(有所有的异常值)上使用异常值检测。

我们的合成数据集中有5100个数据点，其中5000个是正态分布，100个是异常值。数据有5个自变量，二维下的正态分布应该如图中蓝色点所示，我们增添了5个红色的，远离正常值的异常值点。

AUC用于测试异常值检测的有效性，最理想的值为1，越接近，说明异常值检测的精度越高。

数据集	数据集大小	变量个数	异常值个数	异常值比例
					LED	10000	7	1000	10％
Letter	6238	617	240	3.85％
					segment	2310	19	330	14.29％

可以看出，干扰变量会使异常值检测的精度下降，使用改进的LOF方法对于这种负面的影响会有降低，尤其是改进的LOF方法二效果更好。

(2)真实数据测试改进LOF方法的检验精度：

我们的几组数据的设置如下：

用于实际的数据当中最终比较下来的检测精度为：

	单独的LOF方法	改进LOF方法一	改进LOF方法二
				LED	0.816	0.818	0.820
Letter	0.820	0.825	0.845
				segment	0.825	0.834	0.839

可以看出，使用改进的LOF方法一、二均使得异常值检测精度上升，尤其针对高维数据，改进的LOF提高精度很高，在高维数据Letter中的AUC从0.82提升到0.825和0.845。

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。

Claims

1.一种非监督学习识别异常值的方法，其特征在于：包括下列步骤：

S100、设定参数；

S400、向量SAS_t按照函数F合并为向量AS_FINAL；

S500、进行仿真实验。

2.根据权利要求1所述的一种非监督学习识别异常值的方法，其特征在于：所述S100中设定参数的方法为：设定的参数总共包括T次迭代过程，t＝1,2,3…T轮迭代，数据集X的变量数为d，m为数据集样本量大小，也是每个向量中的数据个数，S是数据集。

3.根据权利要求1所述的一种非监督学习识别异常值的方法，其特征在于：所述S200中，在其中的第t次迭代，随机不放回的选择变量数大小为N_t，数值在d/2至d间，构造一个子集F_t，在子集F_t中使用异常值检测方法LOF，其中LOF为Local outlier factor离群点检测算法。

4.根据权利要求1所述的一种非监督学习识别异常值的方法，其特征在于：所述S400中，迭代的异常值得分整合得到向量AS_FINAL的函数F包括如下两种方式：

方式一：创造序列Ind_t，结合数据集Ind_t信息，组合成数据向量Ind_FINAL和异常值得分AS_FINAL，在将异常值得分排序后，将有最高异常值得分的数据AS_1,1,AS_2,1.....AS_t,1插入到Ind_FINAL中，再将异常值得分第二高的数据AS_1,2,AS_2,2.....AS_t,2放到Ind_FINAL后，如果得到的数据已经在Ind_FINAL出现过，则不再将数据附在Ind_FINAL后，最终得到与成为异常值的概率对应的数据集Ind_FINAL，和包括异常值概率的AS_FINAL，最终得到Ind_FINAL中按照异常值得分从大到小排列的各个数据；

方式二：输出排序后的向量SAS_t对应的Ind_t，运用加权平均算出综合异常值得分为向量AS_FINAL，将向量AS_FINAL的内部得分排序，得分最高的被认为是异常值。

5.根据权利要求1所述的一种非监督学习识别异常值的方法，其特征在于：所述S400中向量AS_FINAL＝F(SAS_t),t＝1...T。