CN102043784A

CN102043784A - 一种融合成对约束和属性排序信息的半监督聚类方法

Info

Publication number: CN102043784A
Application number: CN2009101796722A
Authority: CN
Inventors: 王金龙; 吴舜尧
Original assignee: Qingdao University of Technology
Current assignee: Qingdao University of Technology
Priority date: 2009-10-17
Filing date: 2009-10-17
Publication date: 2011-05-04

Abstract

本发明公开了一种融合成对约束和属性排序信息的半监督聚类方法，该方法包括：依据用户提供的成对约束信息获得初始属性权重；基于初始属性权重添加用户所提供的属性排序信息进行半监督聚类；依据准确度指标选择聚类结果。由于本发明所提供的半监督聚类方法在融合成对约束信息的基础上，继续添加属性排序信息，在运用成对约束学习属性权重的同时，利用属性排序对相应的属性权重进行调整，使两种先验信息相互影响，相互促进，所以可获得更准确的聚类结果。

Description

一种融合成对约束和属性排序信息的半监督聚类方法

技术领域

本发明涉及聚类方法，尤其是指一种融合成对约束和属性排序信息的半监督聚类方法。

背景技术

作为一种重要的数据挖掘工具，聚类分析依据某种相似度量将数据划分成若干不同组。传统的聚类方法不需给定任何先验信息，仅根据聚类客观性指标，如簇间紧密度(inter-cluster density)和簇内紧密性(intra-cluster variance)进行划分。这种无监督聚类方法的划分结果往往不令人满意，且难于理解。为了获得令人满意的“准确”划分，一些研究者将部分先验信息融入无监督聚类中，得到了有监督聚类(supervised clustering)和半监督聚类(semi-supervised clustering)。

不同于有监督聚类，半监督聚类仅需给定少量先验信息，就可以取得令人满意的结果。先验信息主要包括实例层(instance-level)信息和属性层(attribute-level)信息。实例层信息包括实例标签，成对约束(pairwise constraints)等形式信息。实例标签在真实应用中往往较难准确获取。成对约束信息包括被确定属于同一类的关系(must-link)和被确定不属于同一类的关系(cannot-link)。must-link关系(x，y)表示实例x和y相似，必须被划分在一起；cannot-link关系(x，z)表示实例x和z不同，必须被划分到不同簇中。明确两实例的成对约束关系远比确定实例标签简单得多，因此越来越多的研究者使用成对约束作为实例层先验信息。不同于实例层信息，属性排序是一种属性层信息。文献[Jun Sun，Wenbo Zhao，Jiangwei Xue，Zhiyong Shen，Yi-Dong Shen.Clustering with feature order preferences.PRICAI 2008，pp.382-393]利用三元组(s，t，δ)(δ＞0)来表示属性排序。(s，t，δ)表示w_s-w_t≥δ，即属性s的权重比属性t的权重大δ，s比t要重要得多。

在实际应用中，用户往往会同时提供成对约束和属性排序两种不同性质的信息。虽然单纯基于其中一种限制性信息的半监督聚类都可有效提高结果质量，但它们在处理时均未综合考虑这两种不同种类信息的融合问题，导致聚类结果的准确性和稳定性都不高。

发明内容

有鉴于此，本发明提供一种融合成对约束和属性排序信息的半监督聚类方法，充分利用这两种不同性质的信息，有效提高聚类结果的准确性。

为达到上述目的，本发明的技术方案是这样实现的：

本发明的实施提供了一种融合成对约束和属性排序信息的半监督聚类方法，该方法包括以下步骤：

A、依据用户提供的成对约束信息获得初始属性权重；

B、基于初始属性权重添加用户所提供的属性排序信息进行半监督聚类；

C、依据准确度指标选择聚类结果。

由上述的技术方案可知，本发明中的半监督聚类方法，由于在融合成对约束信息的基础上，继续添加属性排序信息，在运用成对约束学习属性权重的同时，利用属性排序对相应的属性权重进行调整，使这两种先验信息相互影响，相互促进，所以可获得更准确的聚类结果。

附图说明

图1为本发明实施例中融合成对约束和属性排序信息的半监督聚类方法的原理图。

图2为本发明实施例中基于初始属性权重融合属性排序进行半监督聚类的流程图。

具体实施方式

为使本发明的目的、技术方案和优点表达得更加清楚明白，下面结合附图及具体实施例对本发明再作进一步详细的说明。

本发明提供了一种半监督聚类方法，该方法首先融合成对约束形式的实例层信息，学习到初始属性权重。然后，在尽量满足成对约束的基础上，继续添加属性排序形式的属性层信息，以有效融合这两种不同性质的先验信息，得到令人满意的结果。

图1为本发明实施例中融合成对约束和属性排序信息的半监督聚类方法的原理图。如图1所示，本发明实施例中成对约束和属性排序信息融合的半监督聚类方法包括如下所述的步骤：

步骤101，依据用户提供的成对约束信息获得初始属性权重。

在该步骤中，上述初始属性权重的获取方法如下：

首先，构建测度学习(metric learning)的优化式。文献[Eric P.Xing，Andrew Y.Ng，Michael I.Jordan，Stuart J.Russell.Distance metric learning with application to clustering with side-information.NIPS 2002，pp.505-512]基于成对约束信息学习新的测度，使用方法较简单，且效果较好。因此，本框架采用该方法学习成对约束以获得初始属性权重。同时，为了使属性排序和成对约束信息在距离度量上保持统一，本发明为该文献中所提到的距离度量添加了规整项。公式(1)为添加规整项v和属性权重w的Bregman Divergences。其中，w_j代表权重向量w第j维上的值，v_j代表规整向量v第j维上的值，x_j和y_j分别代表实例x和实例y第j维上的属性值。d_φ(·，·)代表Bregman Divergences，给定不同的函数φ(·)可得到不同的距离度量。

D_{w} (x, y) = Σ_{j = 1}^{d} \frac{w_{j}^{2}}{v_{j}} d_{φ} (x_{j}, y_{j}) - - - (1)

其中，

表示全部实例的平均值。文献[Eric P.Xing，Andrew Y.Ng，Michael I.Jordan，Stuart J.Russell.Distance metric learning with application to clustering with side-information.NIPS 2002，pp.505-512]使用的距离为平方欧式距离。因此，令φ(z)＝z²，公式(1)则为平方欧式距离。另外，本发明采用了上述文献所提方法中的一种特殊情况，即矩阵A为对角阵。从而，优化问题形式为：

\min_{w} \underset{(x_{i}, x_{j}) &Element; S}{Σ} D_{w} (x_{i}, x_{j})

Subjectto : \underset{(x_{i}, x_{j}) &Element; D}{Σ} \sqrt{D_{w} (x_{i}, x_{j})} &GreaterEqual; 1 - - - (2)

w≥0

该优化问题表示尽量最小化所有must-link点对的距离，并保证所有cannot-link点对的距离较大。利用MOSEK优化软件包工具，可对该优化问题进行求解。

然后，将用户所提供的成对约束输入上述优化问题，学习得到初始属性权重。

步骤102，基于初始属性权重添加用户所提供的属性排序信息进行半监督聚类；

在该步骤中，利用上一步所获得的初始属性权重，对属性进行排序。属性权重值越大，则认为属性重要程度越高。依据属性权重值选择相应的维度构建子空间，而后将属性排序输入半监督聚类方法中对子空间进行聚类，用户可以根据对聚类结果的满意程度随时停止聚类过程。

步骤103，依据准确度指标选择聚类结果。

由于本发明融合了两种先验信息，所以选择聚类结果的准确度指标是对两种先验信息的满足程度，如公式(3)所示，即对成对约束信息的满足程度和对属性排序的满足程度。

F = {accuracy}_{pairwise} + {accuracy}_{attribute_order_preference}

= \frac{sat (pairwise)}{total (pairwise)} + \frac{sat (attribute_order_preference)}{total (attribute_order_preference)} - - - (3)

其中，sat()表示聚类结果所满足的成对约束(或属性排序)的数目，total()表示用户所提供的成对约束(或属性排序)的总数。如果维度缩减后，所有的属性排序都不能被新的子空间利用，则令accuracy_{attribute_order_preference}＝0。

其中，如图2所示，步骤102，基于初始属性权重添加用户所提供的属性排序信息进行半监督聚类的过程包括：

步骤201，基于成对约束信息所获得的初始属性权重选择属性维度。

首先，基于步骤101得到的初始属性权重对属性进行排序，排序依据属性权重值的大小进行。然后，依据此排序选择前两个维度作为步骤202的初始子空间X_sub。其后，在用户对聚类结果不满意时，每次按顺序添加一个维度，继续学习属性权重，直至用户满意或所有属性维度都被选择为止。

步骤202，对待聚类数据进行子空间投影。

在经过步骤201维度选择后，本发明需将所选维度的属性权重规整到[0，1]，而后利用规整后的属性权重w_{select_and_normalized}作映射获得新的子空间，w_{select_and_normalized}·X_sub→X_sub′，其中X_sub为步骤201得到的子空间，X_sub′表示投影后的子空间。

对于由用户提供的属性排序，本发明按照文献[Jun Sun，Wenbo Zhao，Jiangwei Xue，Zhiyong Shen，Yi-Dong Shen.Clustering with feature order preferences.PRICAI 2008，pp.382-393]方法以三元组(s，t，δ)(δ＞0)的形式进行表示，即w_s-w_t≥δ，表示用户认为属性s的权重比属性t的权重大δ，s比t要重要得多。

由于进行了维度选择，某些属性排序可能无法使用。属性排序(s，t，δ)(δ＞0，且s，t∈[0，1，2，...，d])中的s和t均为属性编号，对应于相应属性。经过维度选择后，子空间只会具备原始数据集的一部分属性，所以须对子空间中的现有属性重新编号。本方法依据属性权重值选择并添加维度，子空间按从小至大编号。

如果经过维度选择后，属性s或属性t不在缩减后的子空间中，则将此属性排序信息变成(1，1，0)；如果经维度选择后，属性s和属性t都在新的子空间中，则修改属性排序中的属性编号使其与当前子空间对应(s→s′和t→t′，记属性s对应于子空间中的属性s′，属性t对应于子空间中的属性t′)，并将δ替换为

其中，w_select是依据属性权重选择出的未规整的属性权重。

步骤203，融合两种先验信息的半监督聚类。

为了融合用户所提供的两种先验信息，本发明对文献[Jun Sun，Wenbo Zhao，Jiangwei Xue，Zhiyong Shen，Yi-Dong Shen.Clustering with feature order preferences.PRICAI 2008，pp.382-393]所述目标函数进行了修改，以基于两种先验信息学习属性权重。为了尽量满足成对约束，本发明在目标函数中添加对成对约束的满足程度。修改后的目标函数为公式(4)：

第一项是聚类客观性指标，用于最小化簇内紧密性，取值范围为[0，1]；第二项是属性排序的惩罚项，聚类对属性排序满足程度越高，该值越小；第三项是规整项，确保权重尽可能一致，从而使属性排序作用更明显；最后一项表示成对约束的惩罚项，Accuracy_S&D表示对成对约束的满足程度，即

取值范围为[0，1]。

为了使目标函数中各部分都可起到相应作用，本发明令

λ₂＝d，λ₃＝1。其中，d表示属性总数，m表示属性排序总数。这样就可确保每一项的取值范围尽可能在[0，1]附近。另外，为保证在维数较少时属性排序尽可能被利用，本发明令属性排序数目为

如上所述，便可较好地实现本发明。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合成对约束和属性排序信息的半监督聚类方法，其特征在于，该方法包括以下步骤：

A、依据用户提供的成对约束信息获得初始属性权重；

C、依据准确度指标选择聚类结果。

2.根据权利要求1所述的方法，其特征在于：步骤A中初始属性权重通过测度学习得到。

3.根据权利要求1所述的方法，其特征在于：步骤B中半监督聚类包括：

B1、基于成对约束信息所获得的属性权重选择属性维度；

B2、对待聚类数据进行子空间投影；

B3、融合两种先验信息的半监督聚类。

4.根据权利要求3所述的方法，其特征在于，步骤B2子空间投影包括：

C1、将所选维度属性权重规整到[0，1]；

C2、利用规整后属性权重对数据进行空间投影；

C3、基于所选维度调整属性排序信息。

5.根据权利要求3所述的方法，其特征在于，步骤B3中半监督聚类为软限制性优化聚类方法。

6.根据权利要求1所述的方法，其特征在于，步骤C中准确度指标基于对用户所提供限制性信息的满足程度。

7.根据权利要求1所述的方法，其特征在于，步骤A之前还包括：用户提供成对约束信息和属性排序信息。