CN105469118A - 基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法 - Google Patents

基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法 Download PDF

Info

Publication number
CN105469118A
CN105469118A CN201510884354.1A CN201510884354A CN105469118A CN 105469118 A CN105469118 A CN 105469118A CN 201510884354 A CN201510884354 A CN 201510884354A CN 105469118 A CN105469118 A CN 105469118A
Authority
CN
China
Prior art keywords
cluster
data point
active learning
new
rare
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510884354.1A
Other languages
English (en)
Other versions
CN105469118B (zh
Inventor
吴勇
季海琦
陈岭
涂鼎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Hongcheng Computer Systems Co Ltd
Original Assignee
Zhejiang Hongcheng Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Hongcheng Computer Systems Co Ltd filed Critical Zhejiang Hongcheng Computer Systems Co Ltd
Priority to CN201510884354.1A priority Critical patent/CN105469118B/zh
Publication of CN105469118A publication Critical patent/CN105469118A/zh
Application granted granted Critical
Publication of CN105469118B publication Critical patent/CN105469118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,本发明针对传统稀有类别检测方法中对已标记数据点利用不充分和需要预先指定类别相关信息的问题,提出了一种基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,通过使用非参半监督聚类的方法利用少量标注数据和大量未标注数据来优化数据分布模型,并结合主动学习选择出在所有未标记数据点中最具代表性的异常点提交给专家进行标注,从而减少了稀有类别检测过程中人工标注的工作量,提高了稀有类别检测过程的效率,并且解决了在非线性情况下的稀有类别发现问题。

Description

基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法
技术领域
本发明涉及异常数据检测领域,尤其涉及基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法。
背景技术
异常数据检测在很多应用中都发挥着关键的作用,比如医疗保健、关键安全系统中的故障检测和对视频中特定行为人的跟踪等。异常数据点的意义在于其在特定应用中通常能给出很多有用的信息。但是,异常数据点可分为两类,第一类是平凡的异常点,其通常由一些可预期的原因产生。第二类则属于具有额外信息的异常点,通常需要对其进行进一步的探索和分析。与平凡异常点相比,这些更加令人感兴趣的异常点通常只在整个异常点中占据较少的比例。稀有类别检测任务是异常检测任务中所出现的一种新兴的挑战,其关注的重点在于如何从大量数据中高效准确的发现第二类异常点。
现有稀有类别检测方法还是比较多的,主要的如Interleave、NNDM(Nearest-Neighbor-BasedRareCategoryDetectionforMultipleClasses)、FRED(FastRareCategoryDetection)等方法需要人工预先设定类别数目等相关信息,这在实际应用环境中很难满足并且对方法的使用设置了一定门槛。此外,目前所有稀有类别检测方法均基于主动学习过程将潜在稀有类别数据点提交给专家进行人工标注,但目前大多数方法在其选择潜在稀有类别数据点的时候并没有考虑使用已标记数据点来提高主动学习的效果,这限制了已有稀有类别检测方法的性能。
发明内容
本发明为克服上述的不足之处,目的在于提供基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,本发明通过基于核函数的非参半监督聚类的方法使用专家标注过的数据和大量未标注数据来优化对数据分布的估计,并引入融合多个数据点选择标准的主动学习过程来减少单一选择标准发现满足特定分布的数据点较难的问题;本发明使用基于核函数估计的非参层次聚类方法对数据集进行聚类,其结果为一个关于数据集的聚类层次,然后基于多个聚类评价标准从聚类层次中选出一批潜在稀有类别聚类,并将其聚类中心点提交给专家进行标注。标注后基于所有已标注的数据点学习出新的距离度量函数,基于新的距离度量函数使用层次密度聚类方法得到新的聚类层次,并再次使用多个标准从该聚类层次中选出一批新的数据点提交给专家标注。该过程反复直到特定比例的数据点都已被标注或者迭代一定次数后没有发现新的稀有类别;解决了如何在不预先设定数据集类别相关信息的情况下利用人工标注过的数据点来更有效地检测数据集中的稀有类别的问题。
本发明通过以下技术方案达到上述目的:基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,包括半监督聚类层次构建阶段、基于多个标准的主动学习阶段、迭代控制阶段;
1)半监督聚类层次构建阶段;
1.1)对数据集进行基于核函数的距离度量学习,得到核矩阵;
1.2)结合核矩阵利用非参层次聚类方法对数据集聚类,得到数据集的聚类层次;
2)基于多个标准的主动学习阶段;
2.1)基于多个聚类评价标准对得到的聚类层次进行筛选,选出部分比例的潜在稀有类别聚类;
2.2)将筛选出的潜在稀有类别聚类的聚类中心提交专家进行标注;
3)迭代控制阶段;
3.1)结合标注后的数据点学习得到新的距离度量函数,并基于新的距离度量函数使用层次密度聚类方法得到新的聚类层次;
3.2)利用多个聚类评价标准从新的聚类层次中选出部分比例新的数据点提交给专家标注;该步骤循环执行直到部分比例的数据点都已被标注或者迭代若干次数后没有发现新的稀有类别。
作为优选,所述步骤1.1)得到核矩阵的方法步骤如下:
(a)基于选定的核函数计算数据集X在核空间中的核矩阵K;若核矩阵K是线性映射则直接输出;否则将核矩阵K中心化,并执行步骤b-c;
(b)分别计算核矩阵K的特征向量A和特征值Λ,并将所有特征向量规范化并得到一组新的基向量;
(c)利用新得到的基向量将原数据映射到新的特征空间中,得到在新的特征空间中的数据集Y;
(d)取出数据集Y中所有已标注过的数据点组成标记点集合Ldl,并将Ldl中的数据点两两配对生成约束集合Cdl
(e)基于约束集合Cdl利用大边界最近邻算法求解得到最优距离度量矩阵M;
(f)基于新的距离度量矩阵M和Y得到在经过距离度量学习过程调整过的核矩阵K’。
作为优选,所述步骤(e)求解得到最优距离度量矩阵M可通过学习求解马氏距离函数得到,距离度量矩阵M为半正定矩阵,形式如下:
M = W T Λ W = A T A , A = WΛ 1 2
其中,马氏距离函数如下式所示:
D M ( x i , x j ) = ( x i - x j ) T A T A ( x i - x j ) = | | Ax i - Ax j | |
由距离函数表达式得到大边界最近邻算法的约束条件,如下所示:
M i n Σ i j r i j D M ( x i , x j ) + c Σ i j r i j ( 1 - y i l ) ξ i j l
s . t . ( 1 ) ∀ ( i , j , l ) ∈ P t r a i n
DM(xi,xl)-DM(xi,xj)≥1-ξijl
(2)ξijl≥0
(3)M≥0
其中,rij指代xi和xj是否为邻接关系,yil指代xi和xl是否属于同一类。
作为优选,所述步骤1.2)类,得到数据集的聚类层次的方法步骤如下:
(A)利用步骤1.1)得到的核矩阵计算出在新的特征空间中各个数据点之间的对间距离;
(B)取最小的p%和最大的p%处的对间距离分别作为层次密度聚类方法的初始半径和终止半径;
(C)基于初始半径和终止半径计算相邻两次密度聚类之间的步进,并将初始半径设为当前半径;
(D)对数据集Y中的数据点逐一计算其均值漂移向量,反复将数据点沿着均值漂移向量移动,直到收敛;
(E)根据步进和当前半径调整得到新的聚类半径;
(F)如果所有数据点都划分到同一类别中或者已达到终止半径,则输出得到的聚类层次,否则循环执行步骤(D)与步骤(E)直至所有数据点都划分到同一类别中或者已达到终止半径。
作为优选,所述的步进的表达式如下:
i n c r e m e n t = ( h 1 - 1 h 2 ) 1 log 2 n
其中,increment为步进,h1为初始半径,h2为终止半径,n为数据集的大小。
作为优选,所述步骤(E)根据步进和当前半径调整得到新的聚类半径的方法为利用当前半径乘以步进增量系数得到新的聚类半径。
作为优选,所述步骤2)基于多个标准的主动学习阶段的步骤如下:
(i)基于得到的聚类层次计算出聚类层次中所有聚类的异常指数,并根据其对所有聚类进行排序得到队列Lout
(ii)基于得到的聚类层次计算出聚类层次中所有聚类的内聚-孤立指数,并根据其对所有聚类进行排序得到队列Lci
(iii)从Lout中选择出lcount个新的潜在稀有类别数据点并提交给专家进行标注;同时从Lci中选择出lcount个新的潜在稀有类别数据点并提交给专家进行标注;
(iv)循环执行步骤(iii)直至选择的潜在稀有类别数据点总数达到数据点总数的一定比例,则结束主动学习过程;其中,比例为预设的。
作为优选,所述异常指数计算公式如下:
O u t l ( C i ) = l i f e ( C i ) m e m b e r c o u n t ( C i )
其中,life(Ci)函数给出了聚类Ci的生命周期,其被定义为Ci第一次出现在聚类层次中和被其他聚类中心合并时的带宽之间的对数差;membercount(Ci)函数给出了属于聚类Ci的数据点的数目。
作为优选,所述内聚-孤立指数计算公式如下:所述内聚-孤立指数综合了两个独立的指标compactness和isolation;层次密度聚类中一个聚类Ci的compactness和isolation指标可通过如下公式计算:
i s o l ( C i ) = Σ x ∈ C i exp ( - a i T Ka i + e x T Ke x - 2 a i T Ke x 2 h 2 ) Σ x exp ( - a i T Ka i + e x T Ke x - 2 a i T Ke x 2 h 2 )
c o m p ( C i ) = Σ x ∈ C i exp ( - a i T Ka i + e x T K e - 2 a i T Ke x 2 h 2 ) Σ x ∈ C i Σ C j exp ( - a j T Ka j + e x T Ke x - 2 a j T Ke x 2 h 2 )
其中,ai和aj是与聚类Ci和Cj的聚类中心相关的权重向量,ax是数据点x的权重向量;K为核矩阵。
作为优选,所述步骤3.2)的比例为预先设定的。
本发明的有益效果在于:(1)本方法可通过使用少量标注数据和大量未标注数据来提高数据分布模型的质量;(2)本发明方法分别从不同角度来描述聚类层次中的聚类质量,减轻单一选择标准发现特定分布的数据点较难的问题;(3)本方法能在检测过程中逐渐根据已有数据点优化检测过程。
附图说明
图1是本发明的基于核函数的距离度量学习流程示意图;
图2是本发明的非参层次聚类流程示意图;
图3是本发明的多标准主动学习流程示意图;
图4是本发明的迭代控制阶段的流程示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,该方法半监督聚类层次构建、基于多个标准的主动学习、迭代控制过程等三个阶段。
其中,半监督聚类层次构建阶段包括基于核函数的距离度量学习子阶段和非参聚类层次构建子阶段。
1)基于核函数的距离度量学习,流程如图1所示。
步骤1,基于选定的核函数计算数据集X在核空间中的核矩阵K;如果是线性映射,直接输出矩阵,否则执行步骤2-9。
使用映射函数φ(x)可将数据集X=(x1,x2,…,xn)从最初的欧几里得空间扩展到了内积空间(kernelspace)。这一扩展形式的优点在于其使得一些算法能够处理非线性问题。当选择径向基核函数作为映射函数时,新的特征空间中点维度可能是无穷大的,此时一般公式无法直接进行计算。因此,一般使用核技巧(KernelTrick)以一种间接的方式来计算在新空间中各种距离。核技巧做法是定义一个半正定的核函数K,其对于原始空间X中的任意数据点x、x’满足以下条件:
K(x,x')=φ(x)Tφ(x')(1)
核函数K(x,x’)提供了一种间接的计算x、x’在新的特征空间中内积的方法。
根据公式1,可以计算得到一个n×n维核矩阵K:
K=ΦTΦ(2)
其中,Φ满足:
Φ=[φ(x1)φ(x2)...φ(xn)](3)
步骤2,将核矩阵K中心化;
K=K-II'K/n-KII'/n+(I'KI)II'/n2(4)
这里I代表元素全是1的向量,n是数据集中数据点的个数。
步骤3,计算核矩阵K的特征向量A和特征值Λ;
[A,Λ]=eig(K);(5)
步骤4,将所有特征向量规范化并得到一组新的基向量;
假设主成分的数目为k,则其计算公式为:
a i = a i / λ i a i ∈ A λ i ∈ Λ i = 1 , ... , k ; - - - ( 6 )
步骤5,用新得到的基向量将原数据映射到新的特征空间中,得到在新的特征空间中的数据集Y;
假设X中的数据点x1、x2在空间Y中对应得数据点为y1、y2,那么其间应该满足以下关系:
K(x1,x2)=φ(x1)Tφ(x2)=y1 Ty2(7)
步骤6,取出所有Y中已标注过的数据点组成标记点集合Ldl
假设在原始数据集X中的数据点x已被标记,那么在Y中由x映射得到的数据点y将会被添加到Ldl中,并且x和y的标签类别相同。
步骤7,将Ldl中的数据点两两配对生成约束集合Cdl
假设选出的两个数据点分别为x1、x2,如果x1、x2的标签属于同一类别,那么生成的约束形式为{x1,x2,1}。反之,如果x1、x2的标签不属于同一类别,那么生成的约束形式为{x1,x2,0}。
步骤8,将Ldl和Cdl作为输入使用大边界最近邻算法(LargeMarginNearestNeighbor,LMNN)求解得到最优距离度量矩阵M;
距离度量学习方法的目标一般是学习一个马氏距离(Mahalanobisdistance)函数,使得同类数据点之间距离变小,异类数据点之间距离变大。该距离函数通常由一个半正定矩阵M定义,其形式如下:
D M ( x i , x j ) = ( x i - x j ) T M ( x i - x j ) - - - ( 8 )
既然M满足半正定条件,那么其可满足如下分解形式:
M = W T Λ W = A T A , A = WΛ 1 2 - - - ( 9 )
根据公式9,公式8可重写为如下形式:
D M ( x i , x j ) = ( x i - x j ) T A T A ( x i - x j ) = | | Ax i - Ax j | | - - - ( 10 )
一个马氏距离函数本质上是计算数据点在一个由线性变换A所定义的特征空间中的欧式距离。变换矩阵A可通过最小化距离度量学习的目标函数得到,该目标函数通常包含各种形式的类别约束。LMNN方法的约束条件如下所示:
M i n Σ i j r i j D M ( x i , x j ) + c Σ i j r i j ( 1 - y i l ) ξ i j l
s . t . ( 1 ) ∀ ( i , j , l ) ∈ P t r a i n
DM(xi,xl)-DM(xi,xj)≥1-ξijl(11)
(2)ξijl≥0
(3)M≥0
这里rij指代xi和xj是否是邻接关系,yil指代xi和xl是否属于同一类。该目标函数包含两个互相竞争的部分。第一部分惩罚同类数据点对之间较大的距离,第二部分惩罚所有异类数据点对大于同类点对的较小距离。该目标函数是凸函数所以可通过半正定规划解决,其结果为距离度量矩阵M。
步骤9,基于新的距离度量矩阵M和Y得到经过距离度量学习过程调整过的核矩阵K’。
K'=YTMY(12)
2)非参聚类层次构建阶段流程如图2所示,包含以下步骤:
步骤1,根据输入的核矩阵K计算在新的特征空间中各个数据点之间的对间距离;
这里K指经过距离函数调整过的核矩阵。Φ的一个重要性质是均值漂移向量始终处于Φ的列空间之中。因此,所有Y中数据点和通过均值漂移过程得到的数据点的坐标都可如以下形式表达:
y=Φay(13)
这里ay是一个n维权重向量。依据公式2和13,在数据集Y中两个数据点y和y’的距离可以重写为如下形式:
||y-y'||2=||Φay-Φay'||2
=ay TΦTΦay+ay' TΦTΦay'-2ay TΦTΦay'(14)
=ay TKay+ay' TKay'-2ay TKay'
通过公式14计算出所有点对之间的距离后将其添加到一个队列中并按照大小排序。
步骤2,取最小的p%和最大的p%处的距离分别作为层次密度聚类方法的初始半径和终止半径;
层次密度聚类方法通过不断增大带宽来得到更加模糊的聚类划分。假设N(h)是带宽为h时所得到的聚类数目,通常其初始半径h1为有节点发生合并时的最小半径(h1=max(N(h)=n)),终止半径h2为所有节点都合并到同一个聚类中时的半径(h2=min(N(h)=1))。在具体应用中,由于无法明确h1和h2的值,因此可选择将h1和h2替代为所有点对间的最小和最大距离或者所有点对之间最小的p%和最大的p%处的距离。
步骤3,根据初始半径和终止半径计算相邻两次密度聚类之间的步进,将初始半径设为当前半径;
已有工作中表明密度聚类最终聚类的数目与带宽h之间满足如下关系:
N(h)=N(0)e-βh(15)
β是一个与特征空间维度数目相关的常量。从公式15可以看出聚类数目是随着带宽h的增大而不断衰减的。假设数据集的大小是n,将整个聚类层次近似为一颗二叉树,那么最多不超过log2n层节点就足以揭示整个数据集的结构。根据公式15,可将层次聚类过程中的步进increment近似为:
i n c r e m e n t = ( h 1 - 1 h 2 ) 1 log 2 n - - - ( 16 )
步骤4,对于数据集Y中的每一个一数据点,计算其均值漂移(MeanShift)向量,反复将其沿着均值漂移向量移动,直到收敛;
与在原始输入空间中一样,可通过密度函数的梯度来找到数据密度分布的局部极大值。在新的特征空间中,均值漂移向量的形式如公式17所示:
Δ y = Σ i = 1 n φ ( x i ) g ( | | y - φ ( x i ) h | | 2 ) Σ i = 1 n g ( | | y - φ ( x i ) h | | 2 ) - y - - - ( 17 )
由于φ(x)可能是非显式的映射函数,所以根据公式14可将公式17替代为成在Y的列空间中的权重表达的形式:
a Δ y = Σ i = 1 n e i g ( a y T Ka y + e i T Ke i - 2 a y T Ke i h 2 ) Σ i = 1 n g ( a y T Ka y + e i T Ke i - 2 a y T Ke i h 2 ) - a y - - - ( 18 )
均值漂移过程开始时将空间中每一个数据点作为其初始数据点,即对于数据点yi,其初始权重向量为ay=ei。然后算法根据公式18反复更新ay直到收敛。通过沿着均值漂移向量不断移动当前数据点可以到达底层密度分布的局部极大值。如果两个数据点的局部密度极大值所处位置重合,即可认为这两个数据点在当前半径下属于同一个聚类,局部密度极大值所在的坐标即聚类中心。判断两个聚类中心是否重合的条件为其间的距离小于特定阈值。
步骤5,根据步进和当前半径得到新的聚类半径;
假设当前半径为h0,在下一个阶段,其将带宽h0乘以一个increment增量系数来得到新的带宽h1
步骤6,如果所有数据点都划分到同一类别中或者已达到终止半径,则输出得到的聚类层次,否则将步骤4中得到的聚类中心点作为新的输入数据点重复步骤4和步骤5。
基于多个标准的主动学习阶段包括以下步骤,如图3所示:
步骤1,给定聚类层次计算出聚类层次中所有聚类的异常指数(Outlierness,OUT)并根据其对所有聚类进行排序得到队列Lout
聚类Ci的OUT是基于聚类Ci中数据点的数目和生存周期得到的,其outlierness分数可通过如下公式计算得到:
O u t l ( C i ) = l i f e ( C i ) m e m b e r c o u n t ( C i ) - - - ( 19 )
这里函数life(Ci)给出了聚类Ci的生命周期,其被定义为Ci第一次出现在聚类层次中和被其他聚类中心合并时的带宽之间的对数差。函数membercount(Ci)给出了属于聚类Ci的数据点的数目。如果聚类Ci中所包含的数据点较少且生命周期较长,那么其将会获得较高的outlierness值,这同时也暗示着Ci有较高的可能是一个稀有类别。
步骤2,给定聚类层次计算出聚类层次中所有聚类的内聚-孤立指数(Compactness-Isolation,CI)并根据其对所有聚类进行排序得到队列Lci
CI指标综合了两个独立的指标compactness和isolation。一个高质量的聚类通常有较小的类内距离(即compactness)和较大的类间距离(即isolation)。层次密度聚类中一个聚类Ci的compactness和isolation指标可通过如下公式计算:
i s o l ( C i ) = Σ x ∈ C i exp ( - a i T Ka i + e x T Ke x - 2 a i T Ke x 2 h 2 ) Σ x exp ( - a i T Ka i + e x T Ke x - 2 a i T Ke x 2 h 2 ) - - - ( 20 )
c o m p ( C i ) = Σ x ∈ C i exp ( - a i T Ka i + e x T Ke x - 2 a i T Ke x 2 h 2 ) Σ x ∈ C i Σ C j exp ( - a j T Ka j + e x T Ke x - 2 a j T Ke x 2 h 2 ) - - - ( 21 )
这里ai和aj是与聚类Ci和Cj的聚类中心相关的权重向量。ax是数据点x的权重向量。对于一个高质量聚类而言,其compactness和isolation值均应接近于1。CI指标通过计算compactness和isolation的和来综合考虑两种指标。较大的CI值通常预示着更高质量的聚类。
步骤3,从Lout中选择出lcount个新的潜在稀有类别数据点并提交给专家进行标注;
在选择过程中其每次从排序好的队列中选出最靠前的聚类。假设Ci是被选到的聚类,最靠近Ci聚类中心的数据点xi被选择为候选的潜在稀有类别数据点。如果Ci中没有其他数据点被标记过,那么xi将被提交给专家进行标记。然后,本方法将选择出聚类队列中的下一个聚类。当已标记的数据点达到一定的阈值lcount时,选择线索数据点的过程将会停止。
为了提升性能,本方法还设置了最大平均距离(Highestaveragedistance,HAD)tiebreaker机制来减少冗余查询。满足HAD条件的潜在稀有类别数据点被定义为与所有已标记数据点之间平均距离最大的那个潜在稀有类别数据点。引入tiebreaker机制的原因是很多聚类具有相同的衡量指标值,例如,当聚类半径较小时,很多聚类中心都有相似的高Compactness-Isolation值。HADtiebreaker始终选择距离那些已标记的聚类中心平均距离更大的点,降低了线索数据点的所属类别是已发现类别的概率。
除了HADtiebreaker,本方法还设置了聚类检查器(clusterchecker)来提升性能。由于每轮距离学习过程都会产生新的距离度量函数,本方法的一个潜在问题是在每一次迭代过程中,距离每个聚类中心最近的数据点可能会产生变化,这样新的最近的点可能会被作为潜在稀有类别数据点而被提交,从而引入额外的查询。聚类检查器的目的在于减少此类从已标记聚类中选择潜在稀有类别数据点的情况。如果一个聚类中已经有带标签数据点并且存在一个已标记数据点距离其聚类中心较近,那么该聚类在线索选择过程中将会被跳过。满足较小距离的数据点被定义为小于该聚类中所有数据点到聚类中心的平均距离的数据点。
步骤4,从Lci中选择出lcount个新的潜在稀有类别数据点并提交给专家进行标注;
选择方法与步骤3相同。
步骤5,如果本轮主动学习过程选择的潜在稀有类别数据点总数达到了数据点总数的一定比例,则结束该轮主动学习过程。
该比例需要在算法初始阶段预先定义,如总数据量的1%。
迭代控制阶段流程如图4所示,包括以下步骤:
步骤1,执行非参聚类层次构建过程,得到新的聚类层次;
此阶段所使用的核矩阵是没有经过距离度量函数调整过的核矩阵。
步骤2,执行基于多标准的主动学习过程,从数据集中选择出潜在稀有类别数据点并提交给专家进行标注;
步骤3,基于所有已标记数据点进行距离度量学习,并得到新的核矩阵;
步骤4,基于新特征空间中的核矩阵执行非参聚类层次构建过程,得到经距离度量函数调整过的聚类层次;
步骤5,如果选择的潜在稀有类别数据点总数达到了数据点总数的一定比例或者在连续N轮迭代中没有发现新的稀有类别,则结束算法,否则执行步骤2-5。
由于无法事先知道整个数据中的稀有类别数目,需要设定一个可行的策略来终止算法的执行。本方法中主要有两种策略来终止算法的执行:1)当潜在稀有类别数据点总数达到了数据点总数的一定比例,如10%;2)当在连续N轮迭代中所有标记过的数据点里没有发现新的稀有类别时,如N=5。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (10)

1.基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,其特征在于,包括半监督聚类层次构建阶段、基于多个标准的主动学习阶段、迭代控制阶段;
1)半监督聚类层次构建阶段;
1.1)对数据集进行基于核函数的距离度量学习,得到核矩阵;
1.2)结合核矩阵利用非参层次聚类方法对数据集聚类,得到数据集的聚类层次;
2)基于多个标准的主动学习阶段;
2.1)基于多个聚类评价标准对得到的聚类层次进行筛选,选出部分比例的潜在稀有类别聚类;
2.2)将筛选出的潜在稀有类别聚类的聚类中心提交专家进行标注;3)迭代控制阶段;
3.1)结合标注后的数据点学习得到新的距离度量函数,并基于新的距离度量函数使用层次密度聚类方法得到新的聚类层次;
3.2)利用多个聚类评价标准从新的聚类层次中选出部分比例新的数据点提交给专家标注;该步骤循环执行直到部分比例的数据点都已被标注或者迭代若干次数后没有发现新的稀有类别。
2.根据权利要求1所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,其特征在于:所述步骤1.1)得到核矩阵的方法步骤如下:
(a)基于选定的核函数计算数据集X在核空间中的核矩阵K;若核矩阵K是线性映射则直接输出;否则将核矩阵K中心化,并执行步骤b-c;
(b)分别计算核矩阵K的特征向量A和特征值Λ,并将所有特征向量规范化并得到一组新的基向量;
(c)利用新得到的基向量将原数据映射到新的特征空间中,得到在新的特征空间中的数据集Y;
(d)取出数据集Y中所有已标注过的数据点组成标记点集合Ldl,并将Ldl中的数据点两两配对生成约束集合Cdl
(e)基于约束集合Cdl利用大边界最近邻算法求解得到最优距离度量矩阵M;
(f)基于新的距离度量矩阵M和Y得到在经过距离度量学习过程调整过的核矩阵K’。
3.根据权利要求2所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,其特征在于:所述步骤(e)中的最优距离度量矩阵M通过学习求解马氏距离函数得到,距离度量矩阵M为半正定矩阵,形式如下:
M = W T Λ W = A T A , A = WΛ 1 2
其中,马氏距离函数如下式所示:
D M ( x i , x j ) = ( x i - x j ) T A T A ( x i - x j ) = | | Ax i - Ax j | |
由距离函数表达式得到大边界最近邻算法的约束条件,如下所示:
M i n Σ i j r i j D M ( x i , x j ) + c Σ i j r i j ( 1 - y i l ) ξ i j l
s . t . ( 1 ) ∀ ( i , j , l ) ∈ P t r a i n D M ( x i , x l ) - D M ( x i , x j ) ≥ 1 - ξ i j l
(2)ξijl≥0
其中,rij指代xi和xj是否为邻接关系,yil指代xi和xl是否属于同一类。
4.根据权利要求1所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,其特征在于:所述步骤1.2)类,得到数据集的聚类层次的方法步骤如下:
(A)利用步骤1.1)得到的核矩阵计算出在新的特征空间中各个数据点之间的对间距离;
(B)取最小的p%和最大的p%处的对间距离分别作为层次密度聚类方法的初始半径和终止半径;
(C)基于初始半径和终止半径计算相邻两次密度聚类之间的步进,并将初始半径设为当前半径;
(D)对数据集Y中的数据点逐一计算其均值漂移向量,反复将数据点沿着均值漂移向量移动,直到收敛;
(E)根据步进和当前半径调整得到新的聚类半径;
(F)如果所有数据点都划分到同一类别中或者已达到终止半径,则输出得到的聚类层次,否则循环执行步骤(D)与步骤(E)直至所有数据点都划分到同一类别中或者已达到终止半径。
5.根据权利要求4所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,其特征在于:所述的步进的表达式如下:
i n c r e m e n t = ( h 1 - 1 h 2 ) 1 log 2 n
其中,increment为步进,h1为初始半径,h2为终止半径,n为数据集的大小。
6.根据权利要求4所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,其特征在于:所述步骤(E)根据步进和当前半径调整得到新的聚类半径的方法为利用当前半径乘以步进增量系数得到新的聚类半径。
7.根据权利要求1所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,其特征在于:所述步骤2)基于多个标准的主动学习阶段的步骤如下:
(i)基于得到的聚类层次计算出聚类层次中所有聚类的异常指数,并根据其对所有聚类进行排序得到队列Lout
(ii)基于得到的聚类层次计算出聚类层次中所有聚类的内聚-孤立指数,并根据其对所有聚类进行排序得到队列Lci
(iii)从Lout中选择出lcount个新的潜在稀有类别数据点并提交给专家进行标注;同时从Lci中选择出lcount个新的潜在稀有类别数据点并提交给专家进行标注;
(iv)循环执行步骤(iii)直至选择的潜在稀有类别数据点总数达到数据点总数的一定比例,则结束主动学习过程;其中,比例为预设的。
8.根据权利要求7所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,其特征在于:所述异常指数计算公式如下:
O u t l ( C i ) = l i f e ( C i ) m e m b e r c o u n t ( C i )
其中,life(Ci)函数给出了聚类Ci的生命周期,其被定义为Ci第一次出现在聚类层次中和被其他聚类中心合并时的带宽之间的对数差;membercount(Ci)函数给出了属于聚类Ci的数据点的数目。
9.根据权利要求7所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,其特征在于:所述内聚-孤立指数计算公式如下:所述内聚-孤立指数综合了两个独立的指标compactness和isolation;层次密度聚类中一个聚类Ci的compactness和isolation指标可通过如下公式计算:
i s o l ( C i ) = Σ x ∈ C i exp ( - a i T Ka i + e x T Ke x - 2 a i T Ke x 2 h 2 ) Σ x exp ( - a i T Ka i + e x T Ke x - 2 a i T Ke x 2 h 2 )
c o m p ( C i ) = Σ x ∈ C i exp ( - a i T Ka i + e x T Ke x - 2 a i T Ke x 2 h 2 ) Σ x ∈ C i Σ C j exp ( - a j T Ka j + e x T Ke x - 2 a j T Ke x 2 h 2 )
其中,ai和aj是与聚类Ci和Cj的聚类中心相关的权重向量,ax是数据点x的权重向量;K为核矩阵。
10.根据权利要求1所述的基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法,其特征在于:所述步骤3.2)的比例为预先设定的。
CN201510884354.1A 2015-12-04 2015-12-04 基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法 Active CN105469118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510884354.1A CN105469118B (zh) 2015-12-04 2015-12-04 基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510884354.1A CN105469118B (zh) 2015-12-04 2015-12-04 基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法

Publications (2)

Publication Number Publication Date
CN105469118A true CN105469118A (zh) 2016-04-06
CN105469118B CN105469118B (zh) 2018-07-20

Family

ID=55606789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510884354.1A Active CN105469118B (zh) 2015-12-04 2015-12-04 基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法

Country Status (1)

Country Link
CN (1) CN105469118B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976407A (zh) * 2016-05-20 2016-09-28 重庆大学 一种适用于遮挡条件下的餐盘形状识别方法
CN106845536A (zh) * 2017-01-09 2017-06-13 西北工业大学 一种基于图像缩放的并行聚类方法
CN110008924A (zh) * 2019-04-15 2019-07-12 中国石油大学(华东) 一种面向高光谱影像中地物的半监督自动标记方法与装置
CN110501290A (zh) * 2019-08-16 2019-11-26 安徽优思天成智能科技有限公司 船舶废气光谱图像分割与污染预测方法
CN111881979A (zh) * 2020-07-28 2020-11-03 复旦大学 多模态数据标注装置及包含程序的计算机可读存储介质
CN112766296A (zh) * 2019-11-06 2021-05-07 济南信通达电气科技有限公司 输电线路安全隐患目标检测模型训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082602A1 (en) * 2008-07-05 2010-04-01 Archana Sulochana Ganapathi Predicting Performance Of Multiple Queries Executing In A Database
CN102346817A (zh) * 2011-10-09 2012-02-08 广州医学院第二附属医院 一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法
CN104766084A (zh) * 2015-04-10 2015-07-08 南京大学 一种多目标匹配的近复制图像检测方法
CN105046720A (zh) * 2015-07-10 2015-11-11 北京交通大学 基于人体运动捕捉数据字符串表示的行为分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082602A1 (en) * 2008-07-05 2010-04-01 Archana Sulochana Ganapathi Predicting Performance Of Multiple Queries Executing In A Database
CN102346817A (zh) * 2011-10-09 2012-02-08 广州医学院第二附属医院 一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法
CN104766084A (zh) * 2015-04-10 2015-07-08 南京大学 一种多目标匹配的近复制图像检测方法
CN105046720A (zh) * 2015-07-10 2015-11-11 北京交通大学 基于人体运动捕捉数据字符串表示的行为分割方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976407A (zh) * 2016-05-20 2016-09-28 重庆大学 一种适用于遮挡条件下的餐盘形状识别方法
CN105976407B (zh) * 2016-05-20 2018-12-11 重庆大学 一种适用于遮挡条件下的餐盘形状识别方法
CN106845536A (zh) * 2017-01-09 2017-06-13 西北工业大学 一种基于图像缩放的并行聚类方法
CN106845536B (zh) * 2017-01-09 2019-12-27 西北工业大学 一种基于图像缩放的并行聚类方法
CN110008924A (zh) * 2019-04-15 2019-07-12 中国石油大学(华东) 一种面向高光谱影像中地物的半监督自动标记方法与装置
CN110501290A (zh) * 2019-08-16 2019-11-26 安徽优思天成智能科技有限公司 船舶废气光谱图像分割与污染预测方法
CN110501290B (zh) * 2019-08-16 2021-09-24 安徽优思天成智能科技有限公司 船舶废气光谱图像分割与污染预测方法
CN112766296A (zh) * 2019-11-06 2021-05-07 济南信通达电气科技有限公司 输电线路安全隐患目标检测模型训练方法及装置
CN112766296B (zh) * 2019-11-06 2023-04-07 济南信通达电气科技有限公司 输电线路安全隐患目标检测模型训练方法及装置
CN111881979A (zh) * 2020-07-28 2020-11-03 复旦大学 多模态数据标注装置及包含程序的计算机可读存储介质

Also Published As

Publication number Publication date
CN105469118B (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN105469118A (zh) 基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法
Joseph et al. Impact of regularization on spectral clustering
Li et al. An elitist nondominated sorting hybrid algorithm for multi-objective flexible job-shop scheduling problem with sequence-dependent setups
Zhou et al. A learned query rewrite system using monte carlo tree search
Gan et al. A genetic fuzzy k-Modes algorithm for clustering categorical data
Soares et al. Optimization based on phylogram analysis
Adler et al. On simplex pivoting rules and complexity theory
Masters et al. Gps++: An optimised hybrid mpnn/transformer for molecular property prediction
Lee et al. Tensor denoising and completion based on ordinal observations
CN107818328A (zh) 结合局部信息的不完整数据相似性刻画方法
CN114169251A (zh) 一种超短期风电功率预测方法
CN116843083A (zh) 基于混合神经网络模型的碳排放预测系统及方法
Park et al. Active semi-supervised learning with multiple complementary information
Chachi et al. A multi-attribute assessment of fuzzy regression models
Nguyen et al. Strategies of multi-step-ahead forecasting for chaotic time series using autoencoder and LSTM neural networks: a comparative study
CN109074348A (zh) 用于对输入数据集进行迭代聚类的设备和迭代方法
CN113378900B (zh) 一种基于聚类的大规模不规则kpi时间序列的异常检测方法
Yu et al. Online subspace learning and imputation by tensor-ring decomposition
Kalifullah et al. Retracted: Graph‐based content matching for web of things through heuristic boost algorithm
Marta et al. VARIQuery: VAE Segment-Based Active Learning for Query Selection in Preference-Based Reinforcement Learning
Khoroshev et al. Adaptive clustering method in intelligent automated decision support systems
Heins et al. On the potential of normalized tsp features for automated algorithm selection
CN108804588A (zh) 一种混合数据流数据标签方法
Qiu et al. A traffic speed imputation method based on self-adaption and clustering
Mola et al. Discriminant analysis and factorial multiple splits in recursive partitioning for data mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant