CN105069137B - 一种基于概念分解的半监督文档分类方法及系统 - Google Patents

一种基于概念分解的半监督文档分类方法及系统 Download PDF

Info

Publication number
CN105069137B
CN105069137B CN201510507976.2A CN201510507976A CN105069137B CN 105069137 B CN105069137 B CN 105069137B CN 201510507976 A CN201510507976 A CN 201510507976A CN 105069137 B CN105069137 B CN 105069137B
Authority
CN
China
Prior art keywords
data
matrix
cluster
space
kept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510507976.2A
Other languages
English (en)
Other versions
CN105069137A (zh
Inventor
路梅
赵向军
李凡长
张莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Zhangjiagang Institute of Industrial Technologies Soochow University
Original Assignee
Suzhou University
Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University, Zhangjiagang Institute of Industrial Technologies Soochow University filed Critical Suzhou University
Priority to CN201510507976.2A priority Critical patent/CN105069137B/zh
Publication of CN105069137A publication Critical patent/CN105069137A/zh
Application granted granted Critical
Publication of CN105069137B publication Critical patent/CN105069137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明公开了一种基于概念分解的半监督文档分类方法,包括:对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵;利用算法接收参数K对原始数据的低维近似矩阵进行聚类,得到聚类结果;利用精确度和互信息两种评价标准对所述聚类结果进行评价。本发明基于概念分解,不仅考虑了原始数据的邻域保持特性,同时还考虑了数据点相似在原始空间和低维流形空间的一致性,以及约束对在原始空间和转换空间的约束保持,使得聚类性能不仅在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。本发明还公开了一种基于概念分解的半监督文档分类系统。

Description

一种基于概念分解的半监督文档分类方法及系统
技术领域
本发明涉及文档分类技术领域,尤其涉及一种基于概念分解的半监督文档分类方法及系统。
背景技术
近年来矩阵分解技术在模式识别和机器学习中受到越来越广泛的关注。在许多诸如计算机视觉和模式识别的问题中,数据的维数都很高,处理这类数据需要更多的时间和空间。更重要的是,高维数据使得原本在低维空间简单可行的分类、聚类、检索等学习任务也变得困难重重。因此,对高维数据矩阵进行分解,得到分解后的高维数据的低维表达成为近期的研究热点。非负矩阵分解(nonnegative matrix factorization,,NMF)在处理像人脸和文档等非负数据时有特别的优势。但是非负矩阵分解的一个不足之处是很难在投影空间如再生核希尔伯特空间有效的执行NMF。
概念分解(concept factorization,CF)克服了NMF算法的上述不足同时继承了NMF方法的优点。概念分解是对矩阵分解,找到两个因子矩阵使得WV的乘积尽可能的和原来的矩阵近似,其中V可以看作是原来矩阵X的低维表示。聚类的结果可以通过低维表达V导出。局部一致性原理指出,在原空间相邻的两个顶点在转换空间应该也是相邻的,局部一致性原理在模式识、数据挖掘中有着非常重要的作用。局部一致性概念分解(Locally Consistent Concept Factorization,LCCF)把局部一致性原理应用到CF中,通过在CF框架中嵌入拉普拉斯图作为额外的正则化项,提升算法的聚类性能。
计算机视觉、模式识别、数据挖掘的实践中,有些数据是有标记的。上述算法都是无监督学习方法,不能有效的利用已有的带标记数据指导聚类,所以在聚类性能上会大打折扣。成对约束概念分解(pairwise constrained concept factorization,PCCF)通过把同类的数据映射到转换空间保持相同的类别标记,不同类的数据在转换空间中的类别标记依然不同的思想应用到CF中对原始数据聚类。该方法存在的不足是当已知的标记数据很少时,方法退化为CF,不能有效的利用原始数据的内部结构,也不同充分的利用同类数据的相似性,故而聚类性能得不到有效的提升。
发明内容
本发明提供了一种基于概念分解的半监督文档分类方法,该方法基于概念分解,不仅考虑了原始数据的邻域保持特性,同时还考虑了数据点相似在原始空间和低维流形空间的一致性,以及约束对在原始空间和转换空间的约束保持,使得聚类性能不仅在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。
本发明提供了一种基于概念分解的半监督文档分类方法,包括:
对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵;
利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;
利用精确度和互信息两种评价标准对所述聚类结果进行评价。
优选地,所述对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为:
令所有数据组成的集合为其中xi∈Rm,n是图像的总个数,m是图像样本的维数,并假设图像数据中有NM个must-link约束对和NC个cannot-link约束对;
构造由所有顶点构成的p-邻域图,顶点由所有数据点组成,其中,边上的权重定义为:
构造由同类顶点构成的相似图,其中顶点由所有数据点组成,其中,边上的权重定义为:
依据must-link约束对,构成矩阵M:
依据cannot-link约束对,构成矩阵C:
利用公式对非负矩阵 分解进行优化,得到投影以后的新空间的基W和原始数据在新空间的投影V,其中,λW和λS均 为参数;
定义简化后得到:
F=tr(K)-2tr(VWTK)+tr(VWTKWVT)+tr(VTLV)+tr(VTMVA),其中,
利用拉格朗日最小二乘法,分别对W和V求偏导,得到U和V的迭代公式;
利用迭代公式求U和V直至收敛。
优选地,所述利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为:
对数据点di,令li和αi分别代表数据的原始标记和非负矩阵分解算法得到的标记,定义精确度:
其中,n是数据集的数据总数,函数map(li)把得到的类别标记li映射为数据集中相应的标记αi,δ(x,y)是delta函数,定义为:
定义互信息:
其中,p(ci)和p(c'j)分别表示从数据 集中随机抽取的数据属于聚类ci和c'j的概率,p(ci,c'j)表示数据同时属于聚类ci和c'j的 联合概率;
利用归一化互信息,定义其中,H(C)和H(C')分别是C和C'的熵。
一种基于概念分解的半监督文档分类系统,包括:
转换模块,用于对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵;
聚类模块,用于利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;
评价模块,用于利用精确度和互信息两种评价标准对所述聚类结果进行评价。
优选地,所述转换模块对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为:
令所有数据组成的集合为其中xi∈Rm,n是图像的总个数,m是图像样本的维数,并假设图像数据中有NM个must-link约束对和NC个cannot-link约束对;
构造由所有顶点构成的p-邻域图,顶点由所有数据点组成,其中,边上的权重定义为:
构造由同类顶点构成的相似图,其中顶点由所有数据点组成,其中,边上的权重定义为:
依据must-link约束对,构成矩阵M:
依据cannot-link约束对,构成矩阵C:
利用公式对非负矩阵分 解进行优化,得到投影以后的新空间的基W和原始数据在新空间的投影V,其中,λW和λS均为 参数;
定义简化后得到:
F=tr(K)-2tr(VWTK)+tr(VWTKWVT)+tr(VTLV)+tr(VTMVA),其中,
利用拉格朗日最小二乘法,分别对W和V求偏导,得到U和V的迭代公式;
利用迭代公式求U和V直至收敛。
优选地,所述评价模块利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为:
对数据点di,令li和αi分别代表数据的原始标记和非负矩阵分解算法得到的标记,定义精确度:
其中,n是数据集的数据总数,函数map(li)把得到的类别标记li映射为数据集中相应的标记αi,δ(x,y)是delta函数,定义为:
定义互信息:
其中,p(ci)和p(c'j)分别表示从数据 集中随机抽取的数据属于聚类ci和c'j的概率,p(ci,c'j)表示数据同时属于聚类ci和c'j的 联合概率;
利用归一化互信息,其中,H(C)和H(C')分别是C和C'的熵。
由上述方案可知,本发明提供的一种基于概念分解的半监督文档分类方法,首先通过对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵,然后利用算法接收参数K对低维近似矩阵进行聚类,得到聚类结果,最后利用精确度和互信息两种评价标准对所述聚类结果进行评价,本发明基于概念分解,不仅考虑了原始数据的邻域保持特性,同时还考虑了数据点相似在原始空间和低维流形空间的一致性,以及约束对在原始空间和转换空间的约束保持,使得聚类性能不仅在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种基于概念分解的半监督文档分类方法的流程图;
图2为本发明公开的一种基于概念分解的半监督文档分类系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明公开的一种基于概念分解的半监督文档分类方法,包括:
S101、对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵;
S102、利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;
其次,用得到的原始数据在低维空间的近似矩阵V,利用kmeans进行聚类。
S103、利用精确度和互信息两种评价标准对所述聚类结果进行评价。
最后,利用两种评价标准精确度(accuracy,AC)和互信息(mutual information,MI)对所得的聚类结果进行评价。
综上所述,本发明提供的一种基于非负矩阵分解的半监督聚类方法,首先通过对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵,然后利用算法接收参数K对低维近似矩阵进行聚类,得到聚类结果,最后利用精确度和互信息两种评价标准对所述聚类结果进行评价,本发明基于概念分解,不仅考虑了原始数据的邻域保持特性,同时还考虑了数据点相似在原始空间和低维流形空间的一致性,以及约束对在原始空间和转换空间的约束保持,使得聚类性能不仅在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。
具体的,上述实施例中,步骤101对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为:
令所有数据组成的集合为其中xi∈Rm,n是图像的总个数,m是图像样本的维数,并假设图像数据中有NM个must-link约束对和NC个cannot-link约束对;
构造由所有顶点构成的p-邻域图,顶点由所有数据点组成,其中,边上的权重定义为:
构造由同类顶点构成的相似图,其中顶点由所有数据点组成,其中,边上的权重定义为:
依据must-link约束对,构成矩阵M:
依据cannot-link约束对,构成矩阵C:
利用公式对非负矩阵 分解进行优化,得到投影以后的新空间的基W和原始数据在新空间的投影V,其中,λW和λS均 为参数;
定义简化后得到:
F=tr(K)-2tr(VWTK)+tr(VWTKWVT)+tr(VTLV)+tr(VTMVA),其中,
利用拉格朗日最小二乘法,分别对W和V求偏导,得到U和V的迭代公式;
利用迭代公式求U和V直至收敛。
具体的,上述实施例中,步骤103利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为:
对数据点di,令li和αi分别代表数据的原始标记和非负矩阵分解算法得到的标记,定义精确度:
其中,n是数据集的数据总数,函数map(li)把得到的类别标记li映射为数据集中相应的标记αi,δ(x,y)是delta函数,定义为:
定义互信息:
其中,p(ci)和p(c'j)分别表示从数据 集中随机抽取的数据属于聚类ci和c'j的概率,p(ci,c'j)表示数据同时属于聚类ci和c'j的 联合概率;
利用归一化互信息,定义其中,H(C)和H(C')分别是C和C'的熵。
为了更好的说明本发明的有益效果,对本发明在PIE数据集中进行了测试,求出PIE数据集表示的高维矩阵的的低维表达,并通过对数据的低维表达实施聚类检测低维表达的性能。该实验使用的PIE人脸数据库包含68个大小为32×32的灰度人脸图像,每个人在42种光照条件下的照片。从数据集中随机选择NM个must-link约束对,和NC个cannot-link约束对。
从图像中随机抽取15个簇,再从这些数据中随机抽取t×n×(n-1)个约束对。在这里,n=364,第一个实验选择t=0.01,共有474个must-link约束对和847个cannot-link约束对。第二个实验选择t=0.2,共有9965个must-link约束对和16391个cannot-link约束对
表1为本发明第一个实验与CF,LCCF以及semiCF算法在相同的数据集上做比较的结果。
表1 CF,LCCF,semiCF和本发明方法的聚类性能对比(t=0.01)
0.01 CF LCCF semiCF 本发明
AC 0.74304 0.79067 0.80367 0.84811
NMI 0.78284 0.82666 0.85932 0.88229
表2为本发明第二个实验与CF,LCCF以及semiCF算法在相同的数据集上做比较的结果。
表2 CF,LCCF,semiCF和本发明方法的聚类性能对比(t=0.2)
0.2 CF LCCF semiCF 本发明
AC 0.74304 0.79067 0.87184 0.89297
NMI 0.78284 0.82666 0.90084 0.92974
通过实验结果可以看出本发明对于先验知识有较强的鲁棒性,不管约束对是多还是少,本发明的效果明显优于其他方法。
如图2所示,为本发明公开的一种基于概念分解的半监督文档分类系统,包括:
转换模块201,用于对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵;
聚类模块202,用于利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;
通过聚类模块202用投影模块201得到的原始数据在低维空间的近似矩阵V,利用kmeans进行聚类。
评价模块203,用于利用精确度和互信息两种评价标准对所述聚类结果进行评价。
通过评价模块203利用两种评价标准精确度(accuracy,AC)和互信息(mutualinformation,MI)对所得的聚类结果进行评价。
综上所述,本发明提供的一种基于非负矩阵分解的半监督聚类系统,首先通过转换模块对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵,然后通过聚类模块利用算法接收参数K对低维近似矩阵进行聚类,得到聚类结果,最后评价模块利用精确度和互信息两种评价标准对所述聚类结果进行评价,本发明基于概念分解,不仅考虑了原始数据的邻域保持特性,同时还考虑了数据点相似在原始空间和低维流形空间的一致性,以及约束对在原始空间和转换空间的约束保持,使得聚类性能不仅在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。
具体的,上述实施例中,转换模块201对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为:
令所有数据组成的集合为其中xi∈Rm,n是图像的总个数,m是图像样本的维数,并假设图像数据中有NM个must-link约束对和NC个cannot-link约束对;
构造由所有顶点构成的p-邻域图,顶点由所有数据点组成,其中,边上的权重定义为:
构造由同类顶点构成的相似图,其中顶点由所有数据点组成,其中,边上的权重定义为:
依据must-link约束对,构成矩阵M:
依据cannot-link约束对,构成矩阵C:
利用公式对非负矩阵 分解进行优化,得到投影以后的新空间的基W和原始数据在新空间的投影V,其中,λW和λS均 为参数;
定义简化后得到:
F=tr(K)-2tr(VWTK)+tr(VWTKWVT)+tr(VTLV)+tr(VTMVA),其中,
利用拉格朗日最小二乘法,分别对W和V求偏导,得到U和V的迭代公式;
利用迭代公式求U和V直至收敛。
具体的,上述实施例中,评价模块203利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为:
对数据点di,令li和αi分别代表数据的原始标记和非负矩阵分解算法得到的标记,定义精确度:
其中,n是数据集的数据总数,函数map(li)把得到的类别标记li映射为数据集中相应的标记αi,δ(x,y)是delta函数,定义为:
定义互信息:
其中,p(ci)和p(c'j)分别表示从数据 集中随机抽取的数据属于聚类ci和c'j的概率,p(ci,c'j)表示数据同时属于聚类ci和c'j的 联合概率;
利用归一化互信息,定义其中,H(C)和H(C')分别是C和C'的熵。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种基于概念分解的半监督文档分类方法,其特征在于,包括:
对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵;
利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;
利用精确度和互信息两种评价标准对所述聚类结果进行评价;
所述对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为:
令所有数据组成的集合为其中xi∈Rm,n'是图像的总个数,m是图像样本的维数,并假设图像数据中有NM个must-link约束对和NC个cannot-link约束对;
构造由所有顶点构成的p-邻域图,顶点由所有数据点组成,其中,边上的权重定义为:
构造由同类顶点构成的相似图,其中顶点由所有数据点组成,其中,边上的权重定义为:
依据must-link约束对,构成矩阵M:
依据cannot-link约束对,构成矩阵C:
利用公式对非负矩阵分解进行优化,得到投影以后的新空间的基W和原始数据在新空间的投影V,其中,λH和λS均为参数;
定义简化后得到:
F=tr(K)-2tr(VWTK)+tr(VWTKWVT)+tr(VTLV)+tr(VTMVA),其中,
L=λHLHSLS+C,K=XTX;
利用拉格朗日最小二乘法,分别对W和V求偏导,得到U和V的迭代公式;
利用迭代公式求U和V直至收敛。
2.根据权利要求1所述的方法,其特征在于,所述利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为:
对数据点di,令li和αi分别代表数据的原始标记和非负矩阵分解算法得到的标记,定义精确度:
其中,n是数据集的数据总数,函数map(li)把得到的类别标记li映射为数据集中相应的标记αi,δ(x,y)是delta函数,定义为:
定义互信息:
其中,p(ci)和p(c'j)分别表示从数据集中随机抽取的数据属于聚类ci和c'j的概率,p(ci,c'j)表示数据同时属于聚类ci和c'j的联合概率;
利用归一化互信息,定义其中,H(C)和H(C')分别是C和C'的熵。
3.一种基于概念分解的半监督文档分类系统,其特征在于,包括:
转换模块,用于对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵;
聚类模块,用于利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;
评价模块,用于利用精确度和互信息两种评价标准对所述聚类结果进行评价;
所述转换模块对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵具体为:
令所有数据组成的集合为其中xi∈Rm,n'是图像的总个数,m是图像样本的维数,并假设图像数据中有NM个must-link约束对和NC个cannot-link约束对;
构造由所有顶点构成的p-邻域图,顶点由所有数据点组成,其中,边上的权重定义为:
构造由同类顶点构成的相似图,其中顶点由所有数据点组成,其中,边上的权重定义为:
依据must-link约束对,构成矩阵M:
依据cannot-link约束对,构成矩阵C:
利用公式对非负矩阵分解进行优化,得到投影以后的新空间的基W和原始数据在新空间的投影V,其中,λH和λS均为参数;
定义简化后得到:
F=tr(K)-2tr(VWTK)+tr(VWTKWVT)+tr(VTLV)+tr(VTMVA),其中,
L=λHLHSLS+C,K=XTX;
利用拉格朗日最小二乘法,分别对W和V求偏导,得到U和V的迭代公式;
利用迭代公式求U和V直至收敛。
4.根据权利要求3所述的系统,其特征在于,所述评价模块利用精确度和互信息两种评价标准对所述聚类结果进行评价具体为:
对数据点di,令li和αi分别代表数据的原始标记和非负矩阵分解算法得到的标记,定义精确度:
其中,n是数据集的数据总数,函数map(li)把得到的类别标记li映射为数据集中相应的标记αi,δ(x,y)是delta函数,定义为:
定义互信息:
其中,p(ci)和p(c'j)分别表示从数据集中随机抽取的数据属于聚类ci和c'j的概率,p(ci,c'j)表示数据同时属于聚类ci和c'j的联合概率;
利用归一化互信息,定义其中,H(C)和H(C')分别是C和C'的熵。
CN201510507976.2A 2015-08-18 2015-08-18 一种基于概念分解的半监督文档分类方法及系统 Active CN105069137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510507976.2A CN105069137B (zh) 2015-08-18 2015-08-18 一种基于概念分解的半监督文档分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510507976.2A CN105069137B (zh) 2015-08-18 2015-08-18 一种基于概念分解的半监督文档分类方法及系统

Publications (2)

Publication Number Publication Date
CN105069137A CN105069137A (zh) 2015-11-18
CN105069137B true CN105069137B (zh) 2018-11-20

Family

ID=54498506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510507976.2A Active CN105069137B (zh) 2015-08-18 2015-08-18 一种基于概念分解的半监督文档分类方法及系统

Country Status (1)

Country Link
CN (1) CN105069137B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182445B (zh) * 2017-12-13 2020-05-19 东北大学 基于大数据智能核独立元分析的过程故障识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714171A (zh) * 2013-12-31 2014-04-09 深圳先进技术研究院 文本聚类方法
CN104408033A (zh) * 2014-11-25 2015-03-11 中国人民解放军国防科学技术大学 一种文本信息提取的方法及系统
CN104680180A (zh) * 2015-03-09 2015-06-03 西安电子科技大学 基于k均值和稀疏自编码的极化sar图像分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140204092A1 (en) * 2012-04-09 2014-07-24 The Regents Of The University Of California Classification of high dimensional data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714171A (zh) * 2013-12-31 2014-04-09 深圳先进技术研究院 文本聚类方法
CN104408033A (zh) * 2014-11-25 2015-03-11 中国人民解放军国防科学技术大学 一种文本信息提取的方法及系统
CN104680180A (zh) * 2015-03-09 2015-06-03 西安电子科技大学 基于k均值和稀疏自编码的极化sar图像分类方法

Also Published As

Publication number Publication date
CN105069137A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
Liu et al. Multiview Hessian discriminative sparse coding for image annotation
Zhang et al. Discovering discriminative graphlets for aerial image categories recognition
CN105023026B (zh) 一种基于非负矩阵分解的半监督聚类方法及系统
Li et al. Page object detection from pdf document images by deep structured prediction and supervised clustering
Bai et al. Splitting touching cells based on concave points and ellipse fitting
Lin et al. Study of image retrieval and classification based on adaptive features using genetic algorithm feature selection
Zhou et al. A novel community detection method in bipartite networks
Lin et al. Local and global encoder network for semantic segmentation of Airborne laser scanning point clouds
Nguyen et al. Leaf based plant identification system for android using surf features in combination with bag of words model and supervised learning
Yang et al. Optimization equivalence of divergences improves neighbor embedding
Han et al. Parts4Feature: Learning 3D global features from generally semantic parts in multiple views
Biasotti et al. SHREC’14 track: Retrieval and classification on textured 3D models
Morales-Gonzalez et al. A new proposal for graph-based image classification using frequent approximate subgraphs
Comber et al. Community detection in spatial networks: Inferring land use from a planar graph of land cover objects
Ding et al. Community detection by propagating the label of center
Wang et al. Hierarchical instance recognition of individual roadside trees in environmentally complex urban areas from UAV laser scanning point clouds
Fang et al. Spatial context-aware method for urban land use classification using street view images
Sun et al. Feature and semantic views consensus hashing for image set classification
Fowler et al. All pixels are useful, but some are more useful: Efficient in situ data collection for crop-type mapping using sequential exploration methods
CN111626311B (zh) 一种异构图数据处理方法和装置
Zhang et al. Low-rank decomposition and Laplacian group sparse coding for image classification
CN105069137B (zh) 一种基于概念分解的半监督文档分类方法及系统
CN114693923A (zh) 一种基于上下文和注意力的三维点云语义分割方法
Ganapathi et al. Graph based texture pattern classification
Yanmin et al. An artificial immune network clustering algorithm for mangroves remote sensing image

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20181018

Address after: No. 10, mayor Jinglu Road, Zhangjiagang, Suzhou, Jiangsu

Applicant after: Zhangjiagang Institute of Industrial Technologies Soochow University

Applicant after: Soochow University

Address before: No. 10, mayor Jinglu Road, Zhangjiagang, Suzhou, Jiangsu

Applicant before: Zhangjiagang Institute of Industrial Technologies Soochow University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant