CN105069137B

CN105069137B - 一种基于概念分解的半监督文档分类方法及系统

Info

Publication number: CN105069137B
Application number: CN201510507976.2A
Authority: CN
Inventors: 路梅; 赵向军; 李凡长; 张莉
Original assignee: Suzhou University; Zhangjiagang Institute of Industrial Technologies Soochow University
Current assignee: Suzhou University; Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date: 2015-08-18
Filing date: 2015-08-18
Publication date: 2018-11-20
Anticipated expiration: 2035-08-18
Also published as: CN105069137A

Abstract

本发明公开了一种基于概念分解的半监督文档分类方法，包括：对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵；利用算法接收参数K对原始数据的低维近似矩阵进行聚类，得到聚类结果；利用精确度和互信息两种评价标准对所述聚类结果进行评价。本发明基于概念分解，不仅考虑了原始数据的邻域保持特性，同时还考虑了数据点相似在原始空间和低维流形空间的一致性，以及约束对在原始空间和转换空间的约束保持，使得聚类性能不仅在先验信息较多的时候大大提高，在先验信息很少的时候依然能保持较好的聚类性能。本发明还公开了一种基于概念分解的半监督文档分类系统。

Description

一种基于概念分解的半监督文档分类方法及系统

技术领域

本发明涉及文档分类技术领域，尤其涉及一种基于概念分解的半监督文档分类方法及系统。

背景技术

近年来矩阵分解技术在模式识别和机器学习中受到越来越广泛的关注。在许多诸如计算机视觉和模式识别的问题中，数据的维数都很高，处理这类数据需要更多的时间和空间。更重要的是，高维数据使得原本在低维空间简单可行的分类、聚类、检索等学习任务也变得困难重重。因此，对高维数据矩阵进行分解，得到分解后的高维数据的低维表达成为近期的研究热点。非负矩阵分解(nonnegative matrix factorization,，NMF)在处理像人脸和文档等非负数据时有特别的优势。但是非负矩阵分解的一个不足之处是很难在投影空间如再生核希尔伯特空间有效的执行NMF。

概念分解(concept factorization，CF)克服了NMF算法的上述不足同时继承了NMF方法的优点。概念分解是对矩阵分解，找到两个因子矩阵和使得WV的乘积尽可能的和原来的矩阵近似，其中V可以看作是原来矩阵X的低维表示。聚类的结果可以通过低维表达V导出。局部一致性原理指出，在原空间相邻的两个顶点在转换空间应该也是相邻的，局部一致性原理在模式识、数据挖掘中有着非常重要的作用。局部一致性概念分解(Locally Consistent Concept Factorization，LCCF)把局部一致性原理应用到CF中，通过在CF框架中嵌入拉普拉斯图作为额外的正则化项，提升算法的聚类性能。

计算机视觉、模式识别、数据挖掘的实践中，有些数据是有标记的。上述算法都是无监督学习方法，不能有效的利用已有的带标记数据指导聚类，所以在聚类性能上会大打折扣。成对约束概念分解(pairwise constrained concept factorization，PCCF)通过把同类的数据映射到转换空间保持相同的类别标记，不同类的数据在转换空间中的类别标记依然不同的思想应用到CF中对原始数据聚类。该方法存在的不足是当已知的标记数据很少时，方法退化为CF，不能有效的利用原始数据的内部结构，也不同充分的利用同类数据的相似性，故而聚类性能得不到有效的提升。

发明内容

本发明提供了一种基于概念分解的半监督文档分类方法，该方法基于概念分解，不仅考虑了原始数据的邻域保持特性，同时还考虑了数据点相似在原始空间和低维流形空间的一致性，以及约束对在原始空间和转换空间的约束保持，使得聚类性能不仅在先验信息较多的时候大大提高，在先验信息很少的时候依然能保持较好的聚类性能。

本发明提供了一种基于概念分解的半监督文档分类方法，包括：

对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵；

利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类，得到聚类结果；

利用精确度和互信息两种评价标准对所述聚类结果进行评价。

优选地，所述对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为：

令所有数据组成的集合为其中x_i∈R^m，n是图像的总个数，m是图像样本的维数，并假设图像数据中有N_M个must-link约束对和N_C个cannot-link约束对；

构造由所有顶点构成的p-邻域图，顶点由所有数据点组成，其中，边上的权重定义为：

构造由同类顶点构成的相似图，其中顶点由所有数据点组成，其中，边上的权重定义为：

依据must-link约束对，构成矩阵M：

依据cannot-link约束对，构成矩阵C：

利用公式对非负矩阵分解进行优化，得到投影以后的新空间的基W和原始数据在新空间的投影V，其中，λ_W和λ_S均为参数；

定义简化后得到：

F＝tr(K)-2tr(VW^TK)+tr(VW^TKWV^T)+tr(V^TLV)+tr(V^TMVA)，其中，

利用拉格朗日最小二乘法，分别对W和V求偏导，得到U和V的迭代公式；

利用迭代公式求U和V直至收敛。

优选地，所述利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为：

对数据点d_i，令l_i和α_i分别代表数据的原始标记和非负矩阵分解算法得到的标记，定义精确度：

其中，n是数据集的数据总数，函数map(l_i)把得到的类别标记l_i映射为数据集中相应的标记α_i，δ(x,y)是delta函数，定义为：

定义互信息：

其中，p(c_i)和p(c'_j)分别表示从数据集中随机抽取的数据属于聚类c_i和c'_j的概率，p(c_i,c'_j)表示数据同时属于聚类c_i和c'_j的联合概率；

利用归一化互信息，定义其中，H(C)和H(C')分别是C和C'的熵。

一种基于概念分解的半监督文档分类系统，包括：

转换模块，用于对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵；

聚类模块，用于利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类，得到聚类结果；

评价模块，用于利用精确度和互信息两种评价标准对所述聚类结果进行评价。

优选地，所述转换模块对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为：

依据must-link约束对，构成矩阵M：

依据cannot-link约束对，构成矩阵C：

定义简化后得到：

F＝tr(K)-2tr(VW^TK)+tr(VW^TKWV^T)+tr(V^TLV)+tr(V^TMVA)，其中，

利用迭代公式求U和V直至收敛。

优选地，所述评价模块利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为：

定义互信息：

利用归一化互信息，其中，H(C)和H(C')分别是C和C'的熵。

由上述方案可知，本发明提供的一种基于概念分解的半监督文档分类方法，首先通过对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵，然后利用算法接收参数K对低维近似矩阵进行聚类，得到聚类结果，最后利用精确度和互信息两种评价标准对所述聚类结果进行评价，本发明基于概念分解，不仅考虑了原始数据的邻域保持特性，同时还考虑了数据点相似在原始空间和低维流形空间的一致性，以及约束对在原始空间和转换空间的约束保持，使得聚类性能不仅在先验信息较多的时候大大提高，在先验信息很少的时候依然能保持较好的聚类性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种基于概念分解的半监督文档分类方法的流程图；

图2为本发明公开的一种基于概念分解的半监督文档分类系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明公开的一种基于概念分解的半监督文档分类方法，包括：

S101、对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵；

S102、利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类，得到聚类结果；

其次，用得到的原始数据在低维空间的近似矩阵V，利用kmeans进行聚类。

S103、利用精确度和互信息两种评价标准对所述聚类结果进行评价。

最后，利用两种评价标准精确度(accuracy，AC)和互信息(mutual information，MI)对所得的聚类结果进行评价。

综上所述，本发明提供的一种基于非负矩阵分解的半监督聚类方法，首先通过对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵，然后利用算法接收参数K对低维近似矩阵进行聚类，得到聚类结果，最后利用精确度和互信息两种评价标准对所述聚类结果进行评价，本发明基于概念分解，不仅考虑了原始数据的邻域保持特性，同时还考虑了数据点相似在原始空间和低维流形空间的一致性，以及约束对在原始空间和转换空间的约束保持，使得聚类性能不仅在先验信息较多的时候大大提高，在先验信息很少的时候依然能保持较好的聚类性能。

具体的，上述实施例中，步骤101对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为：

依据must-link约束对，构成矩阵M：

依据cannot-link约束对，构成矩阵C：

定义简化后得到：

F＝tr(K)-2tr(VW^TK)+tr(VW^TKWV^T)+tr(V^TLV)+tr(V^TMVA)，其中，

利用迭代公式求U和V直至收敛。

具体的，上述实施例中，步骤103利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为：

定义互信息：

利用归一化互信息，定义其中，H(C)和H(C')分别是C和C'的熵。

为了更好的说明本发明的有益效果，对本发明在PIE数据集中进行了测试，求出PIE数据集表示的高维矩阵的的低维表达，并通过对数据的低维表达实施聚类检测低维表达的性能。该实验使用的PIE人脸数据库包含68个大小为32×32的灰度人脸图像，每个人在42种光照条件下的照片。从数据集中随机选择N_M个must-link约束对，和N_C个cannot-link约束对。

从图像中随机抽取15个簇，再从这些数据中随机抽取t×n×(n-1)个约束对。在这里，n＝364，第一个实验选择t＝0.01，共有474个must-link约束对和847个cannot-link约束对。第二个实验选择t＝0.2，共有9965个must-link约束对和16391个cannot-link约束对

表1为本发明第一个实验与CF，LCCF以及semiCF算法在相同的数据集上做比较的结果。

表1 CF，LCCF，semiCF和本发明方法的聚类性能对比(t＝0.01)

0.01	CF	LCCF	semiCF	本发明
					AC	0.74304	0.79067	0.80367	0.84811
NMI	0.78284	0.82666	0.85932	0.88229

表2为本发明第二个实验与CF，LCCF以及semiCF算法在相同的数据集上做比较的结果。

表2 CF，LCCF，semiCF和本发明方法的聚类性能对比(t＝0.2)

0.2	CF	LCCF	semiCF	本发明
					AC	0.74304	0.79067	0.87184	0.89297
NMI	0.78284	0.82666	0.90084	0.92974

通过实验结果可以看出本发明对于先验知识有较强的鲁棒性，不管约束对是多还是少，本发明的效果明显优于其他方法。

如图2所示，为本发明公开的一种基于概念分解的半监督文档分类系统，包括：

转换模块201，用于对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵；

聚类模块202，用于利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类，得到聚类结果；

通过聚类模块202用投影模块201得到的原始数据在低维空间的近似矩阵V，利用kmeans进行聚类。

评价模块203，用于利用精确度和互信息两种评价标准对所述聚类结果进行评价。

通过评价模块203利用两种评价标准精确度(accuracy，AC)和互信息(mutualinformation，MI)对所得的聚类结果进行评价。

综上所述，本发明提供的一种基于非负矩阵分解的半监督聚类系统，首先通过转换模块对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵，然后通过聚类模块利用算法接收参数K对低维近似矩阵进行聚类，得到聚类结果，最后评价模块利用精确度和互信息两种评价标准对所述聚类结果进行评价，本发明基于概念分解，不仅考虑了原始数据的邻域保持特性，同时还考虑了数据点相似在原始空间和低维流形空间的一致性，以及约束对在原始空间和转换空间的约束保持，使得聚类性能不仅在先验信息较多的时候大大提高，在先验信息很少的时候依然能保持较好的聚类性能。

具体的，上述实施例中，转换模块201对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为：

依据must-link约束对，构成矩阵M：

依据cannot-link约束对，构成矩阵C：

定义简化后得到：

F＝tr(K)-2tr(VW^TK)+tr(VW^TKWV^T)+tr(V^TLV)+tr(V^TMVA)，其中，

利用迭代公式求U和V直至收敛。

具体的，上述实施例中，评价模块203利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为：

定义互信息：

利用归一化互信息，定义其中，H(C)和H(C')分别是C和C'的熵。

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于概念分解的半监督文档分类方法，其特征在于，包括：

利用精确度和互信息两种评价标准对所述聚类结果进行评价；

所述对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为：

令所有数据组成的集合为其中x_i∈R^m，n'是图像的总个数，m是图像样本的维数，并假设图像数据中有N_M个must-link约束对和N_C个cannot-link约束对；

依据must-link约束对，构成矩阵M：

依据cannot-link约束对，构成矩阵C：

利用公式对非负矩阵分解进行优化，得到投影以后的新空间的基W和原始数据在新空间的投影V，其中，λ_H和λ_S均为参数；

定义简化后得到：

F＝tr(K)-2tr(VW^TK)+tr(VW^TKWV^T)+tr(V^TLV)+tr(V^TMVA)，其中，

L＝λ_HL_H+λ_SL_S+C，K＝X^TX；

利用迭代公式求U和V直至收敛。

2.根据权利要求1所述的方法，其特征在于，所述利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为：

定义互信息：

利用归一化互信息，定义其中，H(C)和H(C')分别是C和C'的熵。

3.一种基于概念分解的半监督文档分类系统，其特征在于，包括：

评价模块，用于利用精确度和互信息两种评价标准对所述聚类结果进行评价；

所述转换模块对原始数据矩阵作分解，将数据转换到低维空间，得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为：

依据must-link约束对，构成矩阵M：

依据cannot-link约束对，构成矩阵C：

定义简化后得到：

F＝tr(K)-2tr(VW^TK)+tr(VW^TKWV^T)+tr(V^TLV)+tr(V^TMVA)，其中，

L＝λ_HL_H+λ_SL_S+C，K＝X^TX；

利用迭代公式求U和V直至收敛。

4.根据权利要求3所述的系统，其特征在于，所述评价模块利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为：

定义互信息：

利用归一化互信息，定义其中，H(C)和H(C')分别是C和C'的熵。