CN103714171A - 文本聚类方法 - Google Patents

文本聚类方法 Download PDF

Info

Publication number
CN103714171A
CN103714171A CN201310754063.1A CN201310754063A CN103714171A CN 103714171 A CN103714171 A CN 103714171A CN 201310754063 A CN201310754063 A CN 201310754063A CN 103714171 A CN103714171 A CN 103714171A
Authority
CN
China
Prior art keywords
document
feature
document sets
theme
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310754063.1A
Other languages
English (en)
Other versions
CN103714171B (zh
Inventor
蔡业首
陈小军
管婷婷
黄哲学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Internet Service Co ltd
Ourchem Information Consulting Co ltd
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201310754063.1A priority Critical patent/CN103714171B/zh
Publication of CN103714171A publication Critical patent/CN103714171A/zh
Application granted granted Critical
Publication of CN103714171B publication Critical patent/CN103714171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种文本聚类方法,用于对潜在狄利克雷分布模型的文档集进行文本挖掘,其至少包括如下步骤:在第一文档集D1中对预设了主题数量K的潜在狄利克雷分布算法进行训练,得到参数β和φ;根据参数φ,利用信息熵理论对所述第一文档集D1进行过滤,得到第二文档集D2;根据参数β,对第二文档集D2进行分组,生成包含分组信息的第三文档集D3;以及在第三文档集D3上运行FG-Kmeans算法,得到最终聚类的聚类中心集合C以及标记矩阵U。本发明提供的文本聚类方法,通过潜在狄利克雷分布模型对文本进行分组,再利用FG-Kmeans算法处理分组后的文本,很好地应对文本挖掘中数据的高维和稀疏的问题,而且把特征分组的概念引入了特征空间,使得特征空间包含的信息更为丰富。

Description

文本聚类方法
技术领域
本发明涉及数据挖掘领域,尤其涉及一种文本聚类方法。
背景技术
随着大数据时代的到来,人们面临着在高维数据上做数据聚类的严峻挑战。维度过高直接带来的是数据的稀疏,这一现象在文本挖掘中尤为明显。聚类算法是一类对高维稀疏数据进行聚类的有效方法,作为一种聚类算法,FG-Kmeans算法(Chen,X.,Ye,Y.,Xu,X.,Huang,J.Z.:A feature group weighting method forsubspace clustering of high-dimensional data.Pattern Recognition45(1)(2012))成功的将组的概念引入到软聚类当中,在FG-Kmeans算法中,特征根据相似性被分为若干个组,该算法同时对特征和组进行加权,找出聚类完成之后每个簇中比较重要的特征组以及特征组比较重要的特征。实验证明FG-Kmeans相比于其他软聚类算法可以更有效地面对数据的稀疏问题。
然而,FG-Kmeans需要事先对数据集的特征进行分组,才能将FG-Kmeans算法应用于数据集上。而到目前为止还没有一种算法可以对数据集上的特征进行自动的分组,这在很大程度上限制了该算法的推广应用。
发明内容
针对上述问题,本发明的目的在于提供一种文本聚类方法,其利用潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型对文本进行过滤和分组,然后利用FG-Kmeans算法对过滤和分组后的文本做进一步的聚类处理,很好地解决了文本挖掘中数据的高维和稀疏的特点,而且把分组的概念引入了特征空间,使得特征空间包含的信息更为丰富。
为了解决上述技术问题,本发明提供了一种文本聚类方法,用潜在狄利克雷分布模型对文档集进行文本挖掘,其特征在于,所述文本聚类方法至少包括如下步骤:
在第一文档集D1中对预设了主题数量K的潜在狄利克雷分布算法进行训练,得到参数β和φ,其中,所述第一文档集D1包括N个不重复的特征,分别记为V1…VN,所述K和N均为自然数;
根据参数φ,利用信息熵理论对所述第一文档集D1进行过滤,得到第二文档集D2
根据参数β,对第二文档集D2进行分组,生成包含分组信息的第三文档集D3;以及
在第三文档集D3上运行FG-Kmeans算法,得到最终聚类的聚类中心集合C以及标记矩阵U。
其中,所述K个主题分别记为Z1…ZK,所述第一文档集D1包括M个文档,分别记为d1…dM,所述第一文档集D1的每个文档dm(1≤m≤M)由这K个主题Zk(1≤k≤K)按照一定的比例分布而成,如此通过所述潜在狄利克雷分布算法将所述第一文档集D1降维成一M×K的主题分布矩阵θ,θ的每一行θm(1≤m≤M)表示文档dm在K个主题下的概率分布,满足约束
Figure BDA0000451523960000021
其中,M为自然数。
其中,所述文档dm的主题分布θm服从参数为α的狄利克雷分布,即θm~Dirichlet(α),其中,α为超参数,由经验值获得。
其中,所述参数β通过最大期望算法或吉布斯算法获得,所述参数β为一K×N矩阵,矩阵元βkn(1≤k≤K,1≤n≤N)表示所述第一文档集D1中第n个特征Wn在第k个主题Zk下出现的概率,满足约束条件
Figure BDA0000451523960000022
其中,在利用所述最大期望算法或吉布斯算法求解所述参数β的过程中,还引入另一参数φ,所述参数φ为一K维列向量,所述文档dm(1≤m≤M)中包含Lm个特征,将所述文档dm中的特征记为Wm1…WmLm,则每一个特征Wml(1≤l≤Lm)具有一个K维列向量φml,φml的向量元φmlk(1≤k≤K)表示文档dm的第l个特征Wml在主题Zk下的概率分布且满足约束条件
Figure BDA0000451523960000023
其中,所述利用信息熵理论对所述第一文档集D1进行过滤包括:
设定留下特征量的百分比P,其中0%<P≤100%;
统计第一文档集D1里每个特征Vn(1≤n≤N)的在每个主题下出现的次数;
计算第一文档集D1里每个特征Vn的信息熵;以及
对每个特征Vn的信息熵进行升序排序,留下前百分比P的特征,生成第二文档集D2,其中,所述第二文档集D2包括NP个特征。
其中,所述过滤的特征为不具有分组价值的特征,其在各个主题下的出现概率均匀。
其中,所述对第二文档集D2进行分组包括,利用参数β将每个特征归入其出现概率最大的主题下,其中,第二文档集D2的第j个特征属于主题Zk的条件为 { &beta; kj > &beta; ij | &ForAll; 1 &le; i , k &le; K , i &NotEqual; k } .
其中,所述特征为单词或文字。
本发明实施例提供的文本聚类方法,通过利用在第一文档集D1上运行LDA算法留下的模型参数得到参数β和φ,利用参数φ对第一文档集D1里的特征进行过滤得到第二文档集D2,再利用参数β对第二文档集D2进行分组得到第三文档集D3,最后应用FG-Kmeans软子空间聚类算法对包含分组信息的第三文档集D3进行聚类,得到最终聚类的聚类中心集合C以及每个文档隶属于对应的聚类中心的标记矩阵U。基于LDA模型的FG-Kmeans算法相比于传统的矢量空间模型增加了组(即主题)信息,不仅可以很好地应对文本挖掘中数据的高维和稀疏的特点,而且把特征分组的概念引入了特征空间,使得特征空间包含的信息更为丰富。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本聚类方法的流程示意图。
图2是本发明实施例提供的潜在狄利克雷分布算法的图模型表示图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供一种文本聚类方法,其至少包括如下步骤。
S101,在第一文档集D1中对预设了主题数目K的潜在狄利克雷分布(LatentDirichlet Allocation,LDA)算法进行训练,获得参数β和φ。
在本发明的实施例中,所述第一文档集D1包括N个不重复的特征,分别记为V1…VN,所述第一文档集D1包含M个文档,所述M个文档分别记为d1…dM。其中第m(1≤m≤M)个文档dm包含Lm个特征,所述文档dm中的特征分别记为Wm1、Wm2…WmLm,所述文档dm中的特征集合Wm可能出现重复且所有文档dm中的特征都选择自所述第一文档集D1的特征集合V,其中,所述第一文档集D1的特征量N服从泊松分布,所述特征可为单词或文字。LDA模型假设,所述第一文档集D1包括若干个主题,而第一文档集D1中的每一个文档dm都是由这些主题按照一定的比例混合而成,每个主题都是由一些特征按照一定的概率分布形成。基于上面的假设,首先设定所述LDA算法的主题数量K,且所述K个主题分别记为Z1、Z2…ZK。在第一文档集D1上利用该包含K个主题的LDA算法对所述第一文档集D1进行降维,得到一个D×K的主题分布矩阵θ,其中,θ的每一行θm(1≤m≤M)表示文档dm在K个主题下的概率分布,满足约束 &Sigma; k = 1 K &theta; mk = 1 .
请一并参阅图2,图2为本发明实施例提供的潜在狄利克雷分布算法的图模型表示图,在图2中,方框代表循环,循环次数为方框右下角的符号(如Lm和M),图模型当中的圆圈内的符号代表变量(如α、θ、Z、Wml和β),变量之间的依赖关系按图2中的箭头方向给出,如箭头由α指向θ,则代表θ依赖于α,即θ为α的条件概率。在图2中,各个符号α、θ、Z、Wml和β均为LDA算法的参数,其中α是一个超参数,可通过经验值确定它的值,θ为D×K的主题分布矩阵,Z为主题,Wml为文档dm中的特征。所述主题分布θ拥有如下的概率密度函数:
Dirichlet ( &alpha; ) = p ( &theta; | &alpha; ) = &Gamma; ( &Sigma; k = 1 K &alpha; k ) &Pi; k = 1 K &Gamma; ( &alpha; k ) &theta; 1 &alpha; 1 - 1 &CenterDot; &CenterDot; &CenterDot; &theta; K &alpha; K - 1 . - - - ( 1 )
其中α为超参数,通过经验值获得,一般取α1=α2=…=αK
对于第一文档集D1中的每一个特征Vn:
每一个特征Vn对应的主题Zk(1≤k≤K)服从多项式分布Multinomial(θ)。
每一个特征Vn的选择服从p(Vn|Zk,β)的条件概率,其表示主题取Zk的条件下取得特征Vn的概率,其中β是一个K×N的矩阵,矩阵元βkn(1≤k≤K,1≤n≤N)表示所述第一文档集D1中第n个特征Vn在第k个主题Zk下出现的概率,满足约束条件 &Sigma; n = 1 N &beta; kn = 1 ( 0 &le; &beta; kn &le; 1 ) .
LDA假设在人在撰写文档dm时,主要包含以下步骤:
从(K-1)维的Dirichlet(α)分布中抽样得到文档dm的主题概率分布θm
每一次需要在该文档dm中写上一个特征Wm1(1≤m≤M,1≤l≤Lm)时,在以θm为参数的K维多项分布Multinomial(θm)中抽取一个主题Zk
再从对应的多项分布Multinomial(β)中抽取特征Wml填入文档中;
重复上述步骤Lm次。
根据LDA的假设,我们可以用图2的图模型中得出每个文档dm的概率密度表示,即在α,β已知的条件下θm,Zk,Wml的联合分布概率密度函数:
P ( &theta; m , Z k , W ml | &alpha; , &beta; ) = p ( &theta; m | &alpha; ) &Pi; l = 1 L m p ( Z k | &theta; m ) p ( W ml | Z k , &beta; ) - - - ( 2 )
为求得文档dm每个特征Wml的概率密度表示,需要对θm,Zk进行积分求和得到特征Wml的边缘概率密度(对Zk的求和是把每一个特征Wml取得每一个主题的概率密度都累加起来,Zk(k∈{1....K}))可得到如下的边缘概率密度公式:
p ( W ml | &alpha; , &beta; ) = &Integral; p ( &theta; m | &alpha; ) ( &Pi; l = 1 L m &Sigma; k = 1 K p ( Z k | &theta; m ) p ( W ml | Z k , &beta; ) ) d &theta; m - - - ( 3 )
最后求出第一文档集D1的特征Vn的条件概率密度只需要把所有文档当中的p(Wml|α,β)累加即可,如下:
p ( D 1 | &alpha; , &beta; ) = &Sigma; m = 1 M &Integral; p ( &theta; m | &alpha; ) ( &Pi; l = 1 L m &Sigma; k = 1 K p ( Z k | &theta; m ) p ( W ml | Z k , &beta; ) ) d &theta; m - - - ( 4 )
从图2所示的图模型和公式(1)~(4)中,可以看出α,β是整个LDA模型的全局变量。
LDA模型的参数β可以通过最大期望(Expectation-maximization algorithm,EM)算法或吉布斯(Gibbs)抽样算法完成。在求解参数β的过程中会引入另外一个参数φ,所述参数φ为一K维列向量,所述文档dm(1≤m≤M)的每一个特征Wml(1≤l≤Lm)都具有一个K维列向量φml,φml的向量元φmlk(1≤k≤K)表示文档dm的第l个特征Wml在主题Zk下的概率分布且满足约束条件通过所述参数β和φ,就可以对所述第一文档集D1进行下一步的处理。
S102,根据参数φ,利用信息熵理论对所述第一文档集D1进行过滤,生成第二文档集D2
所述第一文档集D1内包含有N个特征,这N个特征中,存在一些特征(如介词、连接词等),其在每个主题Zk(1≤k≤K)下都出现且出现的概率比较均匀,本身不能体现文档的特点,没有分组的价值,因此可以将其过滤。所述过滤过程包括如下步骤:
首先,预设第一文档集D1中保留的特征的百分比P(0%<P≤100%)。
其次,计算第一文档集D1里每个特征Wn(1≤n≤N)在每个主题Zk(1≤k≤K)下出现的次数。具体为,为每一个文档dm新建一个K×N的矩阵Ym(1≤m≤M),矩阵元Ymkn表示在文档dm中,第一文档集中D1的第n(1≤n≤N)个特征Vn在第k个主题Zk下出现的次数,其用如下公式计算:当且仅当文档dm中的第l个特征Wml为第一文档集D1中的第n个特征Vn时,
Figure BDA0000451523960000062
否则
Figure BDA0000451523960000063
对所有的M个文档求和,获得第一文档集D1中的每个特征Vn在每个主题下的出现次数:
Figure BDA0000451523960000064
再次,计算第一文档集D1里每个特征Vn(1≤n≤N)的信息熵。具体为,定义向量ψ={ψ12,...,ψN},其表示在第一文档集D1中第n个特征Vn在K个主题下的信息熵,其中, &psi; n = &Sigma; k = 1 K ( Y kn &Sigma; k = 1 K Y kn &times; log ( Y kn &Sigma; k = 1 K Y kn ) ) .
最后,对ψn进行升序排序,留下前百分比P的特征,生成第二文档集D2。此时第二文档集D2内包括了NP个特征。同时,每个文档dm的特征数量也转变成NP个,所述文档dm除了保留其原有的未被过滤的特征外,还填充入若干特征属性为0的特征,即将第二文档集D2内出现而文档dm中未出现的特征记为0并填充入所述文档dm的相应位置,分别记填充后的每个文档dm的特征为Gm1Gm2…GmNP
S103,根据参数β,对第二文档集D2进行分组,生成包含分组信息的第三文档集D3。具体为,对第二文档集D2中的特征进行分组,使得第二文档集D2中的每个特征Vj(1≤j≤NP)只留在一个主题下,对于每个属于第二文档集D2的第j(1≤j≤NP)个特征,其属于第k个主题Zk的条件为:
{ &beta; kj > &beta; ij | &ForAll; 1 &le; i , k &le; T , i &NotEqual; k } , - - - ( 5 )
即该特征在主题Zk出现的概率最高。将第二文档集D2中的每个特征按照如上方法分别归入到相应的主题下,从而生成包含分组(即把每个特征归入对应的主题下)信息的第三文档集D3。所述第三文档集D3包含M个文档,每个文档dm由K个主题按一定概率分布构成,且每个主题Zk均包含在该主题下出现概率最大的若干特征。
S104,在第三文档集D3上运行FG-Kmeans算法,得到最终聚类的聚类中心集合C以及每个文档dm隶属于对应的聚类中心的标记矩阵U。
通过上述步骤,我们得到了包含分组信息的第三文档集D3,对于已经对特征分组后的第三文档集D3,可以用FG-Kmeans算法对其进一步处理。FG-Kmeans是一个软子空间聚类算法,在此算法中,相似的特征被分配到相同的主题当中,与其他软子空间聚类算法不同,权重不仅被分配到每个特征上,还分配到了每个主题上,通过文献(Chen,X.,Ye,Y.,Xu,X.,Huang,J.Z.:A feature groupweighting method for subspace clustering of high-dimensional data.PatternRecognition45(1)(2012))提出的方法对所述第三文档集D3进行处理,处理过程可用如下数学式表达:
Function ( U , C , S , H ) = &Sigma; t = 1 T [ &Sigma; m = 1 M &Sigma; k = 1 K &Sigma; g = 1 NP u mt s tk h tn dis tan ce ( G mg , C tg ) + &lambda; &Sigma; k = 1 K s tk log ( s tk ) + &eta; &Sigma; n = 1 NP h tn log ( h tn ) ] , - - - ( 6 )
满足条件:
&Sigma; t = 1 T u mt = 1 , u mt &Element; { 0,1 } , 1 &le; m &le; M , &Sigma; t = 1 T s tk = 1,0 < s tk < 1,1 &le; k &le; K , &Sigma; t = 1 T h tn = 1,0 < h tn < 1,1 &le; t &le; T , 1 &le; n &le; NP .
其中,U是一个M×T的标记矩阵,其矩阵元umt只取0和1两个值,其中umt=1表示第m个文档属于第t个聚类中心,相应的,umt=0表示第m个文档不属于第t个聚类中心。C={C1,C2,...CT}表示聚类中心集合且
Figure BDA0000451523960000073
其中,Gm为一NP维向量,其向量元表示文档dm中特征的属性,如所述特征在所述文档dm中出现的次数、所述特征的词频(term frequency,TF)或逆向文件频率(inverse document frequency,IDF)。函数distance(Gmg,Ctg)表示文档dm的第g(1≤g≤NP)个特征Gmg与第t个聚类中心Ct的第g个特征Ctg的距离,所述特征之间的距离可通过欧拉距离度量。H是一个T×NP的权重矩阵,其矩阵元htn表示第三文档集D3的第n(1≤n≤NP)个特征Vn在第t个聚类中心的权重且0<htn<1。S是一个T×K的权重矩阵,其矩阵元stk表示第k个主题在第t个聚类中心的权重且0<stk<1。λ和η为大于0的参数,用以控制权重的分布均匀程度。
表达式(4)的参数可通过文献(Chen,X.,Ye,Y.,Xu,X.,Huang,J.Z.:A featuregroup weighting method for subspace clustering of high-dimensional data.PatternRecognition45(1)(2012)434-446)提出的迭代优化方法可以得到最优解,如此即可得到最终聚类的聚类中心集合C以及每个文档dm隶属于对应的聚类中心Ct的标记矩阵U。
综上所述,本发明实施例提供的文本聚类方法,通过利用在第一文档集D1上运行LDA算法留下的模型参数得到参数β和φ,利用参数φ对第一文档集D1里的特征进行过滤得到第二文档集D2,再利用参数β对第二文档集D2进行分组得到第三文档集D3,最后应用FG-Kmeans软子空间聚类算法对包含分组信息的第三文档集D3进行聚类,得到最终聚类的聚类中心集合C以及每个文档dm隶属于对应的聚类中心Ct的标记矩阵U。基于LDA模型的FG-Kmeans算法相比于传统的矢量空间模型增加了组(即主题)信息,不仅可以很好地应对文本挖掘中数据的高维和稀疏的特点,而且把特征分组的概念引入了特征空间,使得特征空间包含的信息更为丰富。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种文本聚类方法,用潜在狄利克雷分布模型对文档集进行文本挖掘,其特征在于,所述文本聚类方法至少包括如下步骤:
在第一文档集D1中对预设了主题数量K的潜在狄利克雷分布算法进行训练,得到参数β和φ,其中,所述第一文档集D1包括N个不重复的特征,分别记为V1…VN,所述K和N均为自然数;
根据参数φ,利用信息熵理论对所述第一文档集D1进行过滤,得到第二文档集D2
根据参数β,对第二文档集D2进行分组,生成包含分组信息的第三文档集D3;以及
在第三文档集D3上运行FG-Kmeans算法,得到最终聚类的聚类中心集合C以及标记矩阵U。
2.根据权利要求1所述的文本聚类方法,其特征在于,所述K个主题分别记为Z1…ZK,所述第一文档集D1包括M个文档,分别记为d1…dM,所述第一文档集D1的每个文档dm(1≤m≤M)由这K个主题Zk(1≤k≤K)按照一定的比例分布而成,如此通过所述潜在狄利克雷分布算法将所述第一文档集D1降维成一M×K的主题分布矩阵θ,θ的每一行θm(1≤m≤M)表示文档dm在K个主题下的概率分布,满足约束
Figure FDA0000451523950000011
其中,M为自然数。
3.根据权利要求2所述的文本聚类方法,其特征在于,所述文档dm的主题分布θm服从参数为α的狄利克雷分布,即θm~Dirichlet(α),其中,α为超参数,由经验值获得。
4.根据权利要求1所述的文本聚类方法,其特征在于,所述参数β通过最大期望算法或吉布斯算法获得,所述参数β为一K×N矩阵,矩阵元βkn(1≤k≤K,1≤n≤N)表示所述第一文档集D1中第n个特征Vn在第k个主题Zk下出现的概率,满足约束条件 &Sigma; n = 1 N &beta; kn = 1 ( 0 &le; &beta; kn &le; 1 ) .
5.根据权利要求4所述的文本聚类方法,其特征在于,在利用所述最大期望算法或吉布斯算法求解所述参数β的过程中,还引入另一参数φ,所述参数φ为一K维列向量,所述文档dm(1≤m≤M)中包含Lm个特征,将所述文档dm中的特征记为Wm1…WmLm,则每一个特征Wml(1≤l≤Lm)具有一个K维列向量φml,φml的向量元φmlk(1≤k≤K)表示文档dm的第l个特征Wml在主题Zk下的概率分布且满足约束条件
Figure FDA0000451523950000021
6.根据权利要求5所述的文本聚类方法,其特征在于,所述利用信息熵理论对所述第一文档集D1进行过滤包括:
设定留下特征量的百分比P,其中0%<P≤100%;
统计第一文档集D1里每个特征Vn(1≤n≤N)的在每个主题下出现的次数;
计算第一文档集D1里每个特征Vn的信息熵;以及
对每个特征Vn的信息熵进行升序排序,留下前百分比P的特征,生成第二文档集D2,其中,所述第二文档集D2包括NP个特征。
7.根据权利要求6所述的文本聚类方法,其特征在于,所述过滤的特征为不具有分组价值的特征,其在各个主题下的出现概率均匀。
8.根据权利要求6所述的文本聚类方法,其特征在于,所述对第二文档集D2进行分组包括,利用参数β将每个特征归入其出现概率最大的主题下,其中,第二文档集D2的第j个特征属于主题Zk的条件为
Figure FDA0000451523950000022
9.根据权利要求1所述的文本聚类方法,其特征在于,所述特征为单词或文字。
CN201310754063.1A 2013-12-31 2013-12-31 文本聚类方法 Active CN103714171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310754063.1A CN103714171B (zh) 2013-12-31 2013-12-31 文本聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310754063.1A CN103714171B (zh) 2013-12-31 2013-12-31 文本聚类方法

Publications (2)

Publication Number Publication Date
CN103714171A true CN103714171A (zh) 2014-04-09
CN103714171B CN103714171B (zh) 2017-02-01

Family

ID=50407146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310754063.1A Active CN103714171B (zh) 2013-12-31 2013-12-31 文本聚类方法

Country Status (1)

Country Link
CN (1) CN103714171B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995849A (zh) * 2014-05-07 2014-08-20 中国科学院计算技术研究所 一种事件跟踪方法及系统
CN104778280A (zh) * 2015-05-04 2015-07-15 合肥工业大学 基于近邻传播的文本数据流聚类算法
CN105069137A (zh) * 2015-08-18 2015-11-18 苏州大学张家港工业技术研究院 一种基于概念分解的半监督文档分类方法及系统
CN105205145A (zh) * 2015-09-18 2015-12-30 中国科学院自动化研究所 一种轨迹建模与检索方法
CN106446117A (zh) * 2016-09-18 2017-02-22 西安电子科技大学 基于泊松‑伽玛置信网络主题模型的文本分析方法
CN106446339A (zh) * 2016-08-29 2017-02-22 北京化工大学 基于狄利克雷混合模型的转动机械运行状态异常检测方法
CN106815310A (zh) * 2016-12-20 2017-06-09 华南师范大学 一种对海量文档集的层次聚类方法及系统
CN106897276A (zh) * 2015-12-17 2017-06-27 中国科学院深圳先进技术研究院 一种互联网数据聚类方法及系统
CN107341233A (zh) * 2017-07-03 2017-11-10 北京拉勾科技有限公司 一种职位推荐方法及计算设备
CN108228721A (zh) * 2017-12-08 2018-06-29 复旦大学 大型语料库上的快速文本聚类方法
CN109902181A (zh) * 2019-03-04 2019-06-18 北京工业大学 文本的检测方法及装置
CN109933678A (zh) * 2019-03-07 2019-06-25 合肥工业大学 艺术品推荐方法、装置、可读介质及电子设备
WO2019153551A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN110263153A (zh) * 2019-05-15 2019-09-20 北京邮电大学 面向多源信息的混合文本话题发现方法
CN112561500A (zh) * 2021-02-25 2021-03-26 深圳平安智汇企业信息管理有限公司 基于用户数据的薪酬数据生成方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05307499A (ja) * 1992-04-30 1993-11-19 Matsushita Electric Ind Co Ltd 情報検索装置
CN102254033A (zh) * 2011-08-05 2011-11-23 西安电子科技大学 基于熵权重的全局k-均值聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
董婧灵: "基于LDA模型的文本聚类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈小军 等: "a feature group weighting method for subspace clustering of high-dimensional data", 《PATTERN RECOGNITION》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995849B (zh) * 2014-05-07 2017-05-03 中国科学院计算技术研究所 一种事件跟踪方法及系统
CN103995849A (zh) * 2014-05-07 2014-08-20 中国科学院计算技术研究所 一种事件跟踪方法及系统
CN104778280A (zh) * 2015-05-04 2015-07-15 合肥工业大学 基于近邻传播的文本数据流聚类算法
CN104778280B (zh) * 2015-05-04 2018-02-02 合肥工业大学 基于近邻传播的文本数据流聚类算法
CN105069137B (zh) * 2015-08-18 2018-11-20 苏州大学张家港工业技术研究院 一种基于概念分解的半监督文档分类方法及系统
CN105069137A (zh) * 2015-08-18 2015-11-18 苏州大学张家港工业技术研究院 一种基于概念分解的半监督文档分类方法及系统
CN105205145A (zh) * 2015-09-18 2015-12-30 中国科学院自动化研究所 一种轨迹建模与检索方法
CN106897276A (zh) * 2015-12-17 2017-06-27 中国科学院深圳先进技术研究院 一种互联网数据聚类方法及系统
CN106446339A (zh) * 2016-08-29 2017-02-22 北京化工大学 基于狄利克雷混合模型的转动机械运行状态异常检测方法
CN106446339B (zh) * 2016-08-29 2019-04-30 北京化工大学 基于狄利克雷混合模型的转动机械运行状态异常检测方法
CN106446117A (zh) * 2016-09-18 2017-02-22 西安电子科技大学 基于泊松‑伽玛置信网络主题模型的文本分析方法
CN106815310A (zh) * 2016-12-20 2017-06-09 华南师范大学 一种对海量文档集的层次聚类方法及系统
CN106815310B (zh) * 2016-12-20 2020-04-21 华南师范大学 一种对海量文档集的层次聚类方法及系统
CN107341233A (zh) * 2017-07-03 2017-11-10 北京拉勾科技有限公司 一种职位推荐方法及计算设备
CN107341233B (zh) * 2017-07-03 2020-11-06 北京拉勾科技有限公司 一种职位推荐方法及计算设备
CN108228721A (zh) * 2017-12-08 2018-06-29 复旦大学 大型语料库上的快速文本聚类方法
CN108228721B (zh) * 2017-12-08 2021-06-04 复旦大学 大型语料库上的快速文本聚类方法
WO2019153551A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN109902181A (zh) * 2019-03-04 2019-06-18 北京工业大学 文本的检测方法及装置
CN109902181B (zh) * 2019-03-04 2021-04-23 北京工业大学 文本的检测方法及装置
CN109933678A (zh) * 2019-03-07 2019-06-25 合肥工业大学 艺术品推荐方法、装置、可读介质及电子设备
CN110263153B (zh) * 2019-05-15 2021-04-30 北京邮电大学 面向多源信息的混合文本话题发现方法
CN110263153A (zh) * 2019-05-15 2019-09-20 北京邮电大学 面向多源信息的混合文本话题发现方法
CN112561500A (zh) * 2021-02-25 2021-03-26 深圳平安智汇企业信息管理有限公司 基于用户数据的薪酬数据生成方法、装置、设备及介质
CN112561500B (zh) * 2021-02-25 2021-05-25 深圳平安智汇企业信息管理有限公司 基于用户数据的薪酬数据生成方法、装置、设备及介质

Also Published As

Publication number Publication date
CN103714171B (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
CN103714171A (zh) 文本聚类方法
CN106210044B (zh) 一种基于访问行为的活跃用户识别方法
Chavan et al. Vision transformer slimming: Multi-dimension searching in continuous optimization space
CN103324628B (zh) 一种针对发布文本的行业分类方法和系统
CN109598340A (zh) 卷积神经网络的裁剪方法、装置及存储介质
CN103870474A (zh) 一种新闻话题组织方法及装置
CN104166982A (zh) 基于典型相关性分析的图像优化聚类方法
CN107392224A (zh) 一种基于三通道卷积神经网络的作物病害识别算法
CN104133843A (zh) 科技文献异构网络中节点的学术影响力协同排序方法
Zhao et al. Bisecting k-means clustering based face recognition using block-based bag of words model
CN104933445A (zh) 一种基于分布式K-means的海量图像分类方法
CN109271516A (zh) 一种知识图谱中实体类型分类方法及系统
Rengasamy et al. K-means–Laplacian clustering revisited
CN104077274A (zh) 一种从文档集中抽取热词短语的方法和装置
Shahmizad et al. Political districting to minimize county splits
CN104866550A (zh) 一种模拟神经网络的文本过滤方法
CN105160357A (zh) 基于全局一致性和局部拓扑的多模态数据子空间聚类方法
CN103530277A (zh) 一种基于稀疏感知的多流形邻域点选择方法
Perez et al. Near-Linear Time Projection onto the $\ell_ {1,\infty} $ Ball; Application to Sparse Autoencoders
Chen et al. Fast hierarchy preserving graph embedding via subspace constraints
CN102663040A (zh) 基于正负对约束数据的kl距离训练得到属性列权重的方法
Cai et al. Completely random measures for modeling power laws in sparse graphs
CN108920837B (zh) 利用共享zmodd提取esop乘积项间公因子的可逆电路综合方法
Yu et al. Recursive least squares method for training and pruning convolutional neural networks
Fabrikant et al. Charting the ICA world of cartography 1999–2009

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230103

Address after: Room 301, No. 235, Kexue Avenue, Huangpu District, Guangzhou, Guangdong 510000

Patentee after: OURCHEM INFORMATION CONSULTING CO.,LTD.

Address before: 1068 No. 518055 Guangdong city in Shenzhen Province, Nanshan District City Xili University School Avenue

Patentee before: SHENZHEN INSTITUTES OF ADVANCED TECHNOLOGY

Effective date of registration: 20230103

Address after: 510000 room 606-609, compound office complex building, No. 757, Dongfeng East Road, Yuexiu District, Guangzhou City, Guangdong Province (not for plant use)

Patentee after: China Southern Power Grid Internet Service Co.,Ltd.

Address before: Room 301, No. 235, Kexue Avenue, Huangpu District, Guangzhou, Guangdong 510000

Patentee before: OURCHEM INFORMATION CONSULTING CO.,LTD.

TR01 Transfer of patent right