CN106446928A

CN106446928A - 基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法

Info

Publication number: CN106446928A
Application number: CN201610563347.6A
Authority: CN
Inventors: 陈晋音; 苏蒙蒙; 章涛; 陈军敢; 杨东勇; 俞山青
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2016-07-15
Filing date: 2016-07-15
Publication date: 2017-02-22

Abstract

一种基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法，包括如下步骤：1)根据数据集的密度峰值计算出聚类中心并删除噪声；2)根据非噪声自我样本生成自我检测器；3)根据自我检测器生成非自我检测器；4)同时使用自我检测器和非自我检测器判断检测数据样本是否异常，实现数据分类。本发明提供了一种有效排除噪声的影响、时间开销较小、误判率较低的基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法。

Description

基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法

技术领域

本发明涉及一种数据分类方法。

背景技术

人工免疫系统是对生物免疫系统的模拟，具有学习能力、记忆能力和强大的信息处理能力。AIS由生物免疫系统启发而来，借鉴免疫系统的功能和原理并应用于复杂问题的解决，是最早的人工免疫系统模型。否定选择算法(NSA：Negative selection algorithm)是人工免疫理论中的一种重要的检测器生成算法，它由T细胞在胸腺中成熟的模型而来，具有识别自体和异常的能力。否定选择算法(NNSA)最初由FORREST S于1994年提出，NNSA基于字符串表示，但是受计算开销的影响，限制了应用。RNSA将检测器和抗原的属性归一化到N维实值范围，使得应用问题可以在真实值空间中定义和研究，并使得数据在二维空间中表示，具有可视化的特点。但传统的RNSA采用半径固定的检测器，这使得检测器的个数较多，并且有很多黑洞使得检测器的覆盖率不理想。可变半径的V-detector算法由Zhou Ji提出，利用检测器中心和自我样本之间的距离，改变非自我检测器的半径，从而解决了传统RNSA黑洞普遍的情况，减少了检测器的数量。深层训练否定选择算法(further training NSA)是在V-detector的基础上生成了自我检测器，通过样本点和自我检测器、非自我检测器之间的距离共同判断样本点是否异常，从而提高检测率、减小虚警率。

但是目前所存在的检测器都是在自我样本的基础上通过距离计算生成检测器，这就使得大量的时间浪费在了距离计算上,虽然FtNSA 生成了自我检测器，但是自我检测器生成是在非自我检测器生成之后，虽然减少了对检测样本检测的时间，但是并没有减少非自我检测器距离计算的开销时间。另外目前所存在的检测方法大部分都是针对纯自我样本,没有对噪声进行筛选的过程,一旦有噪声的存在，实验的检测率将会明显的下降。而在实际的生活中，所给出的自我样本并不可能是百分百正确的。

发明内容

为了克服已有基于否定选择算法的数据分类方法的无法排除噪声的影响、时间开销较大、误判率较高的不足,本发明提供了一种有效排除噪声的影响、时间开销较小、误判率较低的基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法。

本发明解决其技术问题所采用的技术方案是：

一种基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法，所述数据分类方法包括如下步骤：

1)根据数据集的密度峰值计算出聚类中心并删除噪声；

2)根据非噪声自我样本生成自我检测器；

3)根据自我检测器生成非自我检测器；

4)同时使用自我检测器和非自我检测器判断检测数据样本是否异常，实现数据分类。

进一步，所述步骤1)中，聚类过程如下：

1.1)按照公式计算数据集中每一个点的密度ρ_i和δ_i，ρ_i为第i个数据点的密度，δ_i为第i个数据点的最邻近更高密度距离；

1.2)画出决策图，根据聚类中心自动确定策略确定聚类中心，并且对数据集中的每个点进行划分；

1.3)按照DSC算法计算每个类簇的边界密度上限ρ_i ^b，并按照公式对ρ_i ^b再次进行计算；

1.4)将每个类簇中密度低于ρ_i ^b的点标识为噪声。

再进一步，所述步骤1.3)中，根据公式(5)(6)对ρ_b再次进行计算：

ρ_i ^b＝ρ_{i min}(IF ρ_i ^b＝0) (5)

其中，ρ_i ^b是DSC算法得出的第i个类簇边界最大密度，ρ_{i max}为第i个类簇的最大密度，ρ_i ^b'为再次计算后所获得的噪声密度阈值，hc为噪声密度阈值控制参数。

更进一步，所述步骤2)中，所述自我检测器生成过程如下：

2.1)对每一个不是噪声的点，生成自体半径为R_S的自我检测器；

2.2)以每个聚类中心为圆心，以到最近噪声的距离为半径生成一个大范围检测器，并且将嵌入在这个大检测器中的常半径检测器剔除；

2.3)按照(7)检查重叠的常半径检测器，任意选择一个进行剔除；

其中，c_i和c_j为两个自我检测器的中心，S_ij标志自我检测器i和自我检测器j是否被判定为重叠，若S_ij为1则表示两个自我检测器重叠，只要选择其中一个剔除即可。

所述步骤3)中，非自我检测器的生成过程如下：每采样到一未被自我区域覆盖的点，判断其是否与已有的非自我检测器重叠。若不重叠，以该点为圆心，到自体区域的最短距离为半径生成非自我检测器。采样过程终止的条件与参照文献1一致，参照文献1：Z.Ji,D.Dasgupta,V-detector:An efficient negative selection algorithm with“probablyadequate”detector age,Information Sciences 179(2009)1390–1406。

本发明的技术构思为：由于大多数的NSA选择算法都无法对噪声进行处理，一旦噪声产生将对整个实验结果产生较大的影响。针对此问题本发明设计一种快速搜寻密度峰聚类方法利用聚类中心的密度比周围的点高并且到密度更高的点距离十分远的特点对自我样本进行了处理，当某一点到类聚中心的距离超过预定值，则判断为噪声。为了更好的说明此方法，给出如下定义。

定义1点i的局部密度ρ_i即为与点i的距离少于d_c的点的个数。计算公式如公式(1)所示，其中d_ij是第点i和点j之间的欧氏距离，d_c为截断距离参数，由输入参数t决定

但是在有些数据集中，每个点的密度估计可能会存在误差，严重的时候会影响算法的效果。为此，需要一种更加精确的密度计算公式(2)：

定义2聚类中心与密度更高点之间的距离δ_i公式如公式(3)所示。其中密度最高点的公式如公式(4)所示

定义5聚类中心被密度更小的点所包围且与密度更高的点之间的距离很大。

定义6 ρ_b为每个类簇的边界中密度最高的点，类簇中密度高于ρ_b的被认为是有用数据，密度低于ρ_b的点被认为是噪声。

在正常计算时，我们首先根据定义5得到聚类中心，即δ_i和ρ_i都很大的点为聚类中心。在聚类中心确定以后，每个点都分配给与其最邻近更高密度的点，提高的划分的效率。但是考虑到并不是所有的点都将被分配到一个类簇，否则我们将无法区别噪声和正常点。所以我们将会根据定义6对噪声进行初步区别。但是，这种噪声判断办法存在一些问题：当噪声的数量比较少，分属每个类簇的噪声之间的距离都大于d_c时或只有一个类簇时，每个类簇的ρ_b不能被计算，即每个类簇的ρ_b都为0，也就是说，所有的点都是有用的，这显然是不合理的。然后再根据公式(5)(6)对ρ_b再次进行了计算。

ρ_i ^b＝ρ_{i min}(IF ρ_i ^b＝0) (5)

这里，ρ_i ^b是DSC算法得出的第i个类簇边界最大密度，ρ_{i max}为第i个类簇的最大密度，ρ_i ^b'为再次计算后所获得的噪声密度阈值。在每个类簇中，密度高于ρ_i ^b'的点为有用的点，即正常的训练数据，密度低于ρ_i ^b'的点认为是隐藏在训练数据中的异常样本,也就是噪声；hc为算法输入参数，用来调节噪声密度阈值。

基于自体集密度搜寻与划分聚类方法的否定选择算法(Density search andclustering detector)，简称DSC-NSA。该算法采用基于密度聚类算法对自体训练数据进行预处理，将训练数据进行聚类分析，剔除噪声并生成自我检测器，然后根据自我检测器生成非自我检测器。实验表明，DSC-NSA算法确实可以排除噪声对检测器的影响、减少了自我检测器的个数、减小程序在距离计算上的时间开销并在一定程度上减小了实验的误判率。

本发明的有益效果主要表现在：有效排除噪声的影响、时间开销较小、误判率较低。

附图说明

图1是自我集聚类流程图。

图2是自我检测器生成流程图。

图3是自我检测器的生成示意图，其中，(a)是固定半径R_S自我检测器，(b)是DSC-NSA算法生成的自我检测器。

图4是非自我检测器生成流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法，所述数据分类方法包括如下步骤：

1)根据数据集的密度峰值计算出聚类中心并删除噪声；

2)根据非噪声自我样本生成自我检测器；

3)根据自我检测器生成非自我检测器；

参照图1和图2，自体集聚类过程如下：

1.1)按照公式计算数据集中每一个点的ρ_i和δ_i，ρ_i为第i个数据点的密度，δ_i为第i个数据点的最邻近更高密度距离；

1.3)按照DSC算法计算每个类簇的边界密度上限ρ_i ^b，并按照公式和参数hc对ρ_i ^b再次进行计算；

1.4)将每个类簇中密度低于ρ_i ^b的点标识为噪声。

S为数据集，hc为噪声密度阈值控制参数。

由于FtNSA方法和V-detector方法的自我样本的个数较多，在生成非自我检测器的时候会有大量的时间消耗在距离计算上，所以本文在生成非自我检测器之前先生成自我检测器，以减少非自我检测器的生成时间。首先以每个非噪声的点为圆心，生成半径为R_S(R_S为DSC-NSA算法的输入参数，与V-detector和FtNSA算法中的自体半径一致)的固定半径自我检测器。然后，以聚类中心为圆心，以聚类中心到最近的噪声点的距离为半径，生成一个大圆，并且将完全镶嵌在这个大圆里的无用常半径自我检测器剔除，这样就大大减少自我检测器的个数。最后根据定义7对自我检测器的重叠部分进行处理。

定义7 S_ij标志自我检测器i和自我检测器j是否被判定为重叠，若S_ij为1则表示两个自我检测器重叠，我们只要选择其中一个剔除即可。S_ij的计算方法如公式(7)所示。其中c_i和c_j为两个自我检测器的中心.

实验效果如图3所示。

本实施例的DSC-NSA(Density search and clustering detector)算法首先根据自体集的密度峰值计算出类聚中心并删除噪声。然后根据非噪声自我样本生成自我检测器，再根据自我检测器生成非自我检测器，最后同时使用自我检测器和非自我检测器判断检测样本是否异常。

采用固定半径的自我检测器，会导致大量重叠，尤其是在训练数据密度很高的区域内，自我检测器个数十分多，这在生成检测器阶段效率是很低的，以聚类中心为圆心的大圆很好的覆盖了密度很高区域的自我检测器，使自我检测器大大减少；另外自体区域边缘的检测器个数也下降不少，DSC-NSA算法可以很好地将自体的个数降低，提高生成检测器的效率。

自我检测器生成流程如下：

2.3)按照(7)检查重叠的常半径检测器，任意选择一个进行剔除。

非自我检测器生成：无论是FtNSA还是V-detector算法，当p＝99％时，由参照文献1计算得到其生成的非自我检测器的个数至少为n(500)个。这使得非自我检测器的重叠率较高，无效的检测器个数较多。为解决此类问题，提出检测器终止条件，使得若连续出现x个非自我检测器未被覆盖，则将候选检测器存入检测器，来减少非自我检测器个数。

参照图4，非自我检测器生成过程如下：每采样到一未被自我区域覆盖的点，判断其是否与已有的非自我检测器重叠。若不重叠，以该点为圆心，到自体区域的最短距离为半径生成非自我检测器。采样过程终止的条件与参照文献1一致。

本实施例采用简单快速的检测方案。在检测时只使用异常检测器，而不扫描自我检测器，只要是被异常检测器激活的对象都被认为是异常个数，没有被异常检测器激活的对象被认为是正常个体。

传统的检测器都是在自我样本的基础上通过距离计算生成检测器,这就使得大量的时间浪费在了距离计算上,并且在有噪声的情况下检测器的检测率会有所下降。针对此类问题，本发明的基于自体集密度搜寻与划分聚类方法的否定选择算法(Density searchand clustering detector)，首先根据自体集的密度峰值计算出类聚中心并删除噪声。然后根据非噪声自我样本生成自我检测器，再根据自我检测器生成非自我检测器，最后同时使用自我检测器和非自我检测器判断检测样本是否异常。实验结果表明DSC-NSA方法确实可以排除噪声对自我检测器的干扰，与此同时增加了检测率，减少了误测率，并且减少了检测器的个数。

Claims

1.一种基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法，其特征在于：所述数据分类方法包括如下步骤：

1)根据自体集的密度峰值计算出聚类中心并删除噪声；

2)根据非噪声自我样本生成自我检测器；

3)根据自我检测器生成非自我检测器；

2.如权利要求1所述的基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法，其特征在于：所述步骤1)中，聚类过程如下：

1.4)将每个类簇中密度低于ρ_i ^b的点标识为噪声。

3.如权利要求2所述的基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法，其特征在于：所述步骤1.3)中，根据公式(5)(6)对ρ_b再次进行计算：

ρ_i ^b＝ρ_imin(IFρ_i ^b＝0) (5)

ρ_{i} {^{b}}^{'} = {ρ_{i}}^{b} + \frac{ρ_{i m a x} - {ρ_{i}}^{b}}{h c} - - - (6)

其中，ρ_i ^b是DSC算法得出的第i个类簇边界最大密度，ρ_imax为第i个类簇的最大密度，ρ_i ^b'为再次计算后所获得的噪声密度阈值，hc为噪声密度阈值控制参数。

4.如权利要求1～3之一所述的基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法，其特征在于：所述步骤2)中，所述自我检测器生成过程如下：

S_{i j} = 1 (I F {dis}_{c_{i} c_{j}} < \frac{R_{s}}{2}) - - - (7)

5.如权利要求1～3之一所述的基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法，其特征在于：所述步骤3)中，非自我检测器的生成过程如下：每采样到一未被自我区域覆盖的点，判断其是否与已有的非自我检测器重叠；若不重叠，以该点为圆心，到自体区域的最短距离为半径生成非自我检测器。