CN105469118B

CN105469118B - 基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法

Info

Publication number: CN105469118B
Application number: CN201510884354.1A
Authority: CN
Inventors: 吴勇; 季海琦; 陈岭; 涂鼎
Original assignee: Zhejiang Hongcheng Computer Systems Co Ltd
Current assignee: Zhejiang Hongcheng Computer Systems Co Ltd
Priority date: 2015-12-04
Filing date: 2015-12-04
Publication date: 2018-07-20
Anticipated expiration: 2035-12-04
Also published as: CN105469118A

Abstract

本发明涉及基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法，本发明针对传统稀有类别检测方法中对已标记数据点利用不充分和需要预先指定类别相关信息的问题，提出了一种基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法，通过使用非参半监督聚类的方法利用少量标注数据和大量未标注数据来优化数据分布模型，并结合主动学习选择出在所有未标记数据点中最具代表性的异常点提交给专家进行标注，从而减少了稀有类别检测过程中人工标注的工作量，提高了稀有类别检测过程的效率，并且解决了在非线性情况下的稀有类别发现问题。

Description

基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法

技术领域

本发明涉及异常数据检测领域，尤其涉及基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法。

背景技术

异常数据检测在很多应用中都发挥着关键的作用，比如医疗保健、关键安全系统中的故障检测和对视频中特定行为人的跟踪等。异常数据点的意义在于其在特定应用中通常能给出很多有用的信息。但是，异常数据点可分为两类，第一类是平凡的异常点，其通常由一些可预期的原因产生。第二类则属于具有额外信息的异常点，通常需要对其进行进一步的探索和分析。与平凡异常点相比，这些更加令人感兴趣的异常点通常只在整个异常点中占据较少的比例。稀有类别检测任务是异常检测任务中所出现的一种新兴的挑战，其关注的重点在于如何从大量数据中高效准确的发现第二类异常点。

现有稀有类别检测方法还是比较多的，主要的如Interleave、NNDM(Nearest-Neighbor-Based Rare Category Detection for Multiple Classes)、FRED(Fast RareCategory Detection)等方法需要人工预先设定类别数目等相关信息，这在实际应用环境中很难满足并且对方法的使用设置了一定门槛。此外，目前所有稀有类别检测方法均基于主动学习过程将潜在稀有类别数据点提交给专家进行人工标注，但目前大多数方法在其选择潜在稀有类别数据点的时候并没有考虑使用已标记数据点来提高主动学习的效果，这限制了已有稀有类别检测方法的性能。

发明内容

本发明为克服上述的不足之处，目的在于提供基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法，本发明通过基于核函数的非参半监督聚类的方法使用专家标注过的数据和大量未标注数据来优化对数据分布的估计，并引入融合多个数据点选择标准的主动学习过程来减少单一选择标准发现满足特定分布的数据点较难的问题；本发明使用基于核函数估计的非参层次聚类方法对数据集进行聚类，其结果为一个关于数据集的聚类层次，然后基于多个聚类评价标准从聚类层次中选出一批潜在稀有类别聚类，并将其聚类中心点提交给专家进行标注。标注后基于所有已标注的数据点学习出新的距离度量函数，基于新的距离度量函数使用层次密度聚类方法得到新的聚类层次，并再次使用多个标准从该聚类层次中选出一批新的数据点提交给专家标注。该过程反复直到特定比例的数据点都已被标注或者迭代一定次数后没有发现新的稀有类别；解决了如何在不预先设定数据集类别相关信息的情况下利用人工标注过的数据点来更有效地检测数据集中的稀有类别的问题。

本发明通过以下技术方案达到上述目的：基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法，包括半监督聚类层次构建阶段、基于多个标准的主动学习阶段、迭代控制阶段；

1)半监督聚类层次构建阶段；

1.1)对数据集进行基于核函数的距离度量学习，得到核矩阵；

1.2)结合核矩阵利用非参层次聚类方法对数据集聚类,得到数据集的聚类层次；

2)基于多个标准的主动学习阶段；

2.1)基于多个聚类评价标准对得到的聚类层次进行筛选，选出部分比例的潜在稀有类别聚类；

2.2)将筛选出的潜在稀有类别聚类的聚类中心提交专家进行标注；

3)迭代控制阶段；

3.1)结合标注后的数据点学习得到新的距离度量函数，并基于新的距离度量函数使用层次密度聚类方法得到新的聚类层次；

3.2)利用多个聚类评价标准从新的聚类层次中选出部分比例新的数据点提交给专家标注；该步骤循环执行直到部分比例的数据点都已被标注或者迭代若干次数后没有发现新的稀有类别。

作为优选，所述步骤1.1)得到核矩阵的方法步骤如下：

(a)基于选定的核函数计算数据集X在核空间中的核矩阵K；若核矩阵K是线性映射则直接输出；否则将核矩阵K中心化，并执行步骤b-c；

(b)分别计算核矩阵K的特征向量A和特征值Λ，并将所有特征向量规范化并得到一组新的基向量；

(c)利用新得到的基向量将原数据映射到新的特征空间中，得到在新的特征空间中的数据集Y；

(d)取出数据集Y中所有已标注过的数据点组成标记点集合L_dl，并将L_dl中的数据点两两配对生成约束集合C_dl；

(e)基于约束集合C_dl利用大边界最近邻算法求解得到最优距离度量矩阵M；

(f)基于新的距离度量矩阵M和Y得到在经过距离度量学习过程调整过的核矩阵K’。

作为优选，所述步骤(e)求解得到最优距离度量矩阵M可通过学习求解马氏距离函数得到，距离度量矩阵M为半正定矩阵，形式如下：

其中，马氏距离函数如下式所示：

由距离函数表达式得到大边界最近邻算法的约束条件，如下所示：

D_M(x_i,x_l)-D_M(x_i,x_j)≥1-ξ_ijl

(2)ξ_ijl≥0

(3)M≥0

其中，r_ij指代x_i和x_j是否为邻接关系，y_il指代x_i和x_l是否属于同一类。

作为优选，所述步骤1.2)类,得到数据集的聚类层次的方法步骤如下：

(A)利用步骤1.1)得到的核矩阵计算出在新的特征空间中各个数据点之间的对间距离；

(B)取最小的p％和最大的p％处的对间距离分别作为层次密度聚类方法的初始半径和终止半径；

(C)基于初始半径和终止半径计算相邻两次密度聚类之间的步进，并将初始半径设为当前半径；

(D)对数据集Y中的数据点逐一计算其均值漂移向量，反复将数据点沿着均值漂移向量移动，直到收敛；

(E)根据步进和当前半径调整得到新的聚类半径；

(F)如果所有数据点都划分到同一类别中或者已达到终止半径，则输出得到的聚类层次，否则循环执行步骤(D)与步骤(E)直至所有数据点都划分到同一类别中或者已达到终止半径。

作为优选，所述的步进的表达式如下：

其中，increment为步进，h₁为初始半径，h₂为终止半径，n为数据集的大小。

作为优选，所述步骤(E)根据步进和当前半径调整得到新的聚类半径的方法为利用当前半径乘以步进增量系数得到新的聚类半径。

作为优选，所述步骤2)基于多个标准的主动学习阶段的步骤如下：

(i)基于得到的聚类层次计算出聚类层次中所有聚类的异常指数，并根据其对所有聚类进行排序得到队列L_out；

(ii)基于得到的聚类层次计算出聚类层次中所有聚类的内聚-孤立指数，并根据其对所有聚类进行排序得到队列L_ci；

(iii)从L_out中选择出lcount个新的潜在稀有类别数据点并提交给专家进行标注；同时从L_ci中选择出lcount个新的潜在稀有类别数据点并提交给专家进行标注；

(iv)循环执行步骤(iii)直至选择的潜在稀有类别数据点总数达到数据点总数的一定比例，则结束主动学习过程；其中，比例为预设的。

作为优选，所述异常指数计算公式如下：

其中，life(C_i)函数给出了聚类C_i的生命周期，其被定义为C_i第一次出现在聚类层次中和被其他聚类中心合并时的带宽之间的对数差；membercount(C_i)函数给出了属于聚类C_i的数据点的数目。

作为优选，所述内聚-孤立指数计算公式如下：所述内聚-孤立指数综合了两个独立的指标compactness和isolation；层次密度聚类中一个聚类C_i的compactness和isolation指标可通过如下公式计算：

其中，a_i和a_j是与聚类C_i和C_j的聚类中心相关的权重向量，a_x是数据点x的权重向量；K为核矩阵。

作为优选，所述步骤3.2)的比例为预先设定的。

本发明的有益效果在于：(1)本方法可通过使用少量标注数据和大量未标注数据来提高数据分布模型的质量；(2)本发明方法分别从不同角度来描述聚类层次中的聚类质量，减轻单一选择标准发现特定分布的数据点较难的问题；(3)本方法能在检测过程中逐渐根据已有数据点优化检测过程。

附图说明

图1是本发明的基于核函数的距离度量学习流程示意图；

图2是本发明的非参层次聚类流程示意图；

图3是本发明的多标准主动学习流程示意图；

图4是本发明的迭代控制阶段的流程示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法，该方法半监督聚类层次构建、基于多个标准的主动学习、迭代控制过程等三个阶段。

其中，半监督聚类层次构建阶段包括基于核函数的距离度量学习子阶段和非参聚类层次构建子阶段。

1)基于核函数的距离度量学习，流程如图1所示。

步骤1，基于选定的核函数计算数据集X在核空间中的核矩阵K；如果是线性映射，直接输出矩阵，否则执行步骤2-9。

使用映射函数φ(x)可将数据集X＝(x₁,x₂,…,x_n)从最初的欧几里得空间扩展到了内积空间(kernel space)。这一扩展形式的优点在于其使得一些算法能够处理非线性问题。当选择径向基核函数作为映射函数时，新的特征空间中点维度可能是无穷大的，此时一般公式无法直接进行计算。因此，一般使用核技巧(Kernel Trick)以一种间接的方式来计算在新空间中各种距离。核技巧做法是定义一个半正定的核函数K，其对于原始空间X中的任意数据点x、x’满足以下条件：

K(x,x')＝φ(x)^Tφ(x') (1)

核函数K(x,x’)提供了一种间接的计算x、x’在新的特征空间中内积的方法。

根据公式1，可以计算得到一个n×n维核矩阵K：

K＝Φ^TΦ (2)

其中，Φ满足：

Φ＝[φ(x₁)φ(x₂)...φ(x_n)] (3)

步骤2，将核矩阵K中心化；

K＝K-II'K/n-KII'/n+(I'KI)II'/n² (4)

这里I代表元素全是1的向量，n是数据集中数据点的个数。

步骤3，计算核矩阵K的特征向量A和特征值Λ；

[A,Λ]＝eig(K)； (5)

步骤4，将所有特征向量规范化并得到一组新的基向量；

假设主成分的数目为k，则其计算公式为：

步骤5，用新得到的基向量将原数据映射到新的特征空间中，得到在新的特征空间中的数据集Y；

假设X中的数据点x₁、x₂在空间Y中对应得数据点为y₁、y₂，那么其间应该满足以下关系：

K(x₁,x₂)＝φ(x₁)^Tφ(x₂)＝y₁ ^Ty₂ (7)

步骤6，取出所有Y中已标注过的数据点组成标记点集合L_dl；

假设在原始数据集X中的数据点x已被标记，那么在Y中由x映射得到的数据点y将会被添加到L_dl中，并且x和y的标签类别相同。

步骤7，将L_dl中的数据点两两配对生成约束集合C_dl；

假设选出的两个数据点分别为x₁、x₂，如果x₁、x₂的标签属于同一类别，那么生成的约束形式为{x₁,x₂,1}。反之，如果x₁、x₂的标签不属于同一类别，那么生成的约束形式为{x₁,x₂,0}。

步骤8，将L_dl和C_dl作为输入使用大边界最近邻算法(Large Margin NearestNeighbor，LMNN)求解得到最优距离度量矩阵M；

距离度量学习方法的目标一般是学习一个马氏距离(Mahalanobis distance)函数，使得同类数据点之间距离变小，异类数据点之间距离变大。该距离函数通常由一个半正定矩阵M定义，其形式如下：

既然M满足半正定条件，那么其可满足如下分解形式：

根据公式9，公式8可重写为如下形式：

一个马氏距离函数本质上是计算数据点在一个由线性变换A所定义的特征空间中的欧式距离。变换矩阵A可通过最小化距离度量学习的目标函数得到，该目标函数通常包含各种形式的类别约束。LMNN方法的约束条件如下所示：

D_M(x_i,x_l)-D_M(x_i,x_j)≥1-ξ_ijl (11)

(2)ξ_ijl≥0

(3)M≥0

这里r_ij指代x_i和x_j是否是邻接关系，y_il指代x_i和x_l是否属于同一类。该目标函数包含两个互相竞争的部分。第一部分惩罚同类数据点对之间较大的距离，第二部分惩罚所有异类数据点对大于同类点对的较小距离。该目标函数是凸函数所以可通过半正定规划解决，其结果为距离度量矩阵M。

步骤9，基于新的距离度量矩阵M和Y得到经过距离度量学习过程调整过的核矩阵K’。

K'＝Y^TMY (12)

2)非参聚类层次构建阶段流程如图2所示，包含以下步骤：

步骤1，根据输入的核矩阵K计算在新的特征空间中各个数据点之间的对间距离；

这里K指经过距离函数调整过的核矩阵。Φ的一个重要性质是均值漂移向量始终处于Φ的列空间之中。因此，所有Y中数据点和通过均值漂移过程得到的数据点的坐标都可如以下形式表达：

y＝Φa_y (13)

这里a_y是一个n维权重向量。依据公式2和13，在数据集Y中两个数据点y和y’的距离可以重写为如下形式：

||y-y'||²＝||Φa_y-Φa_y'||²

＝a_y ^TΦ^TΦa_y+a_y' ^TΦ^TΦa_y'-2a_y ^TΦ^TΦa_y' (14)

＝a_y ^TKa_y+a_y' ^TKa_y'-2a_y ^TKa_y'

通过公式14计算出所有点对之间的距离后将其添加到一个队列中并按照大小排序。

步骤2，取最小的p％和最大的p％处的距离分别作为层次密度聚类方法的初始半径和终止半径；

层次密度聚类方法通过不断增大带宽来得到更加模糊的聚类划分。假设N(h)是带宽为h时所得到的聚类数目，通常其初始半径h₁为有节点发生合并时的最小半径(h₁＝max(N(h)＝n))，终止半径h₂为所有节点都合并到同一个聚类中时的半径(h₂＝min(N(h)＝1))。在具体应用中，由于无法明确h₁和h₂的值，因此可选择将h₁和h₂替代为所有点对间的最小和最大距离或者所有点对之间最小的p％和最大的p％处的距离。

步骤3，根据初始半径和终止半径计算相邻两次密度聚类之间的步进，将初始半径设为当前半径；

已有工作中表明密度聚类最终聚类的数目与带宽h之间满足如下关系：

N(h)＝N(0)e^-βh (15)

β是一个与特征空间维度数目相关的常量。从公式15可以看出聚类数目是随着带宽h的增大而不断衰减的。假设数据集的大小是n，将整个聚类层次近似为一颗二叉树，那么最多不超过log₂n层节点就足以揭示整个数据集的结构。根据公式15，可将层次聚类过程中的步进increment近似为：

步骤4，对于数据集Y中的每一个一数据点，计算其均值漂移(Mean Shift)向量，反复将其沿着均值漂移向量移动，直到收敛；

与在原始输入空间中一样，可通过密度函数的梯度来找到数据密度分布的局部极大值。在新的特征空间中，均值漂移向量的形式如公式17所示：

由于φ(x)可能是非显式的映射函数，所以根据公式14可将公式17替代为成在Y的列空间中的权重表达的形式：

均值漂移过程开始时将空间中每一个数据点作为其初始数据点，即对于数据点y_i，其初始权重向量为a_y＝e_i。然后算法根据公式18反复更新a_y直到收敛。通过沿着均值漂移向量不断移动当前数据点可以到达底层密度分布的局部极大值。如果两个数据点的局部密度极大值所处位置重合，即可认为这两个数据点在当前半径下属于同一个聚类，局部密度极大值所在的坐标即聚类中心。判断两个聚类中心是否重合的条件为其间的距离小于特定阈值。

步骤5，根据步进和当前半径得到新的聚类半径；

假设当前半径为h₀，在下一个阶段，其将带宽h₀乘以一个increment增量系数来得到新的带宽h₁。

步骤6，如果所有数据点都划分到同一类别中或者已达到终止半径，则输出得到的聚类层次，否则将步骤4中得到的聚类中心点作为新的输入数据点重复步骤4和步骤5。

基于多个标准的主动学习阶段包括以下步骤，如图3所示：

步骤1，给定聚类层次计算出聚类层次中所有聚类的异常指数(Outlierness，OUT)并根据其对所有聚类进行排序得到队列L_out；

聚类C_i的OUT是基于聚类C_i中数据点的数目和生存周期得到的，其outlierness分数可通过如下公式计算得到：

这里函数life(C_i)给出了聚类C_i的生命周期，其被定义为C_i第一次出现在聚类层次中和被其他聚类中心合并时的带宽之间的对数差。函数membercount(C_i)给出了属于聚类C_i的数据点的数目。如果聚类C_i中所包含的数据点较少且生命周期较长，那么其将会获得较高的outlierness值，这同时也暗示着C_i有较高的可能是一个稀有类别。

步骤2，给定聚类层次计算出聚类层次中所有聚类的内聚-孤立指数(Compactness-Isolation，CI)并根据其对所有聚类进行排序得到队列L_ci；

CI指标综合了两个独立的指标compactness和isolation。一个高质量的聚类通常有较小的类内距离(即compactness)和较大的类间距离(即isolation)。层次密度聚类中一个聚类C_i的compactness和isolation指标可通过如下公式计算：

这里a_i和a_j是与聚类C_i和C_j的聚类中心相关的权重向量。a_x是数据点x的权重向量。对于一个高质量聚类而言，其compactness和isolation值均应接近于1。CI指标通过计算compactness和isolation的和来综合考虑两种指标。较大的CI值通常预示着更高质量的聚类。

步骤3，从L_out中选择出lcount个新的潜在稀有类别数据点并提交给专家进行标注；

在选择过程中其每次从排序好的队列中选出最靠前的聚类。假设C_i是被选到的聚类，最靠近C_i聚类中心的数据点x_i被选择为候选的潜在稀有类别数据点。如果C_i中没有其他数据点被标记过，那么x_i将被提交给专家进行标记。然后，本方法将选择出聚类队列中的下一个聚类。当已标记的数据点达到一定的阈值lcount时，选择线索数据点的过程将会停止。

为了提升性能，本方法还设置了最大平均距离(Highest average distance，HAD)tiebreaker机制来减少冗余查询。满足HAD条件的潜在稀有类别数据点被定义为与所有已标记数据点之间平均距离最大的那个潜在稀有类别数据点。引入tiebreaker机制的原因是很多聚类具有相同的衡量指标值，例如，当聚类半径较小时，很多聚类中心都有相似的高Compactness-Isolation值。HAD tiebreaker始终选择距离那些已标记的聚类中心平均距离更大的点，降低了线索数据点的所属类别是已发现类别的概率。

除了HAD tiebreaker，本方法还设置了聚类检查器(cluster checker)来提升性能。由于每轮距离学习过程都会产生新的距离度量函数，本方法的一个潜在问题是在每一次迭代过程中，距离每个聚类中心最近的数据点可能会产生变化，这样新的最近的点可能会被作为潜在稀有类别数据点而被提交，从而引入额外的查询。聚类检查器的目的在于减少此类从已标记聚类中选择潜在稀有类别数据点的情况。如果一个聚类中已经有带标签数据点并且存在一个已标记数据点距离其聚类中心较近，那么该聚类在线索选择过程中将会被跳过。满足较小距离的数据点被定义为小于该聚类中所有数据点到聚类中心的平均距离的数据点。

步骤4，从L_ci中选择出lcount个新的潜在稀有类别数据点并提交给专家进行标注；

选择方法与步骤3相同。

步骤5，如果本轮主动学习过程选择的潜在稀有类别数据点总数达到了数据点总数的一定比例，则结束该轮主动学习过程。

该比例需要在算法初始阶段预先定义，如总数据量的1％。

迭代控制阶段流程如图4所示，包括以下步骤：

步骤1，执行非参聚类层次构建过程，得到新的聚类层次；

此阶段所使用的核矩阵是没有经过距离度量函数调整过的核矩阵。

步骤2，执行基于多标准的主动学习过程，从数据集中选择出潜在稀有类别数据点并提交给专家进行标注；

步骤3，基于所有已标记数据点进行距离度量学习，并得到新的核矩阵；

步骤4，基于新特征空间中的核矩阵执行非参聚类层次构建过程，得到经距离度量函数调整过的聚类层次；

步骤5，如果选择的潜在稀有类别数据点总数达到了数据点总数的一定比例或者在连续N轮迭代中没有发现新的稀有类别，则结束算法，否则执行步骤2-5。

由于无法事先知道整个数据中的稀有类别数目，需要设定一个可行的策略来终止算法的执行。本方法中主要有两种策略来终止算法的执行：1)当潜在稀有类别数据点总数达到了数据点总数的一定比例，如10％；2)当在连续N轮迭代中所有标记过的数据点里没有发现新的稀有类别时，如N＝5。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法，其特征在于，包括半监督聚类层次构建阶段、基于多个标准的主动学习阶段、迭代控制阶段；

1)半监督聚类层次构建阶段；

1.1)对数据集进行基于核函数的距离度量学习，得到核矩阵，具体步骤如下：

(f)基于新的距离度量矩阵M和Y得到在经过距离度量学习过程调整过的核矩阵K’；

2)基于多个标准的主动学习阶段；

3)迭代控制阶段；

2.根据权利要求1所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法，其特征在于：所述步骤(e)中的最优距离度量矩阵M通过学习求解马氏距离函数得到，距离度量矩阵M为半正定矩阵，形式如下：

其中，马氏距离函数如下式所示：

D_M(x_i,x_l)-D_M(x_i,x_j)≥1-ξ_ijl

(2)ξ_ijl≥0

(3)M≥0

3.根据权利要求1所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法，其特征在于：所述步骤1.2)类,得到数据集的聚类层次的方法步骤如下：

(E)根据步进和当前半径调整得到新的聚类半径；

4.根据权利要求3所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法，其特征在于：所述的步进的表达式如下：

5.根据权利要求3所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法，其特征在于：所述步骤(E)根据步进和当前半径调整得到新的聚类半径的方法为利用当前半径乘以步进增量系数得到新的聚类半径。

6.根据权利要求1所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法，其特征在于：所述步骤2)基于多个标准的主动学习阶段的步骤如下：

7.根据权利要求6所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法，其特征在于：所述异常指数计算公式如下：

8.根据权利要求6所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法，其特征在于：所述内聚-孤立指数计算公式如下：所述内聚-孤立指数综合了两个独立的指标compactness和isolation；层次密度聚类中一个聚类C_i的compactness和isolation指标可通过如下公式计算：

9.根据权利要求1所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法，其特征在于：所述步骤3.2)的比例为预先设定的。