CN103886077A - 短文本的聚类方法和系统 - Google Patents

短文本的聚类方法和系统 Download PDF

Info

Publication number
CN103886077A
CN103886077A CN201410112525.4A CN201410112525A CN103886077A CN 103886077 A CN103886077 A CN 103886077A CN 201410112525 A CN201410112525 A CN 201410112525A CN 103886077 A CN103886077 A CN 103886077A
Authority
CN
China
Prior art keywords
short text
short
similarity
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410112525.4A
Other languages
English (en)
Other versions
CN103886077B (zh
Inventor
高振华
杨鹤鸣
刘俊峰
梁冠雄
李炯城
肖恒辉
关晓明
杨若冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Planning and Designing Institute of Telecommunications Co Ltd
Original Assignee
Guangdong Planning and Designing Institute of Telecommunications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Planning and Designing Institute of Telecommunications Co Ltd filed Critical Guangdong Planning and Designing Institute of Telecommunications Co Ltd
Priority to CN201410112525.4A priority Critical patent/CN103886077B/zh
Publication of CN103886077A publication Critical patent/CN103886077A/zh
Application granted granted Critical
Publication of CN103886077B publication Critical patent/CN103886077B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种短文本的聚类方法和系统,所述方法包括:获取短文本集中各短文本间的相似度;从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合;判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合;判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。实施本发明的方法和系统,在提高聚类精度的同时,可降低数据信息的丢失率,可反映数据集中各短文本的真实数据信息。

Description

短文本的聚类方法和系统
技术领域
本发明涉及计算机技术领域,特别是涉及一种短文本的聚类方法和系统。
背景技术
从短信、微博、论坛和新闻评论等应用中产生的短文本(Short Text),为长度在100个汉字内的文本。针对短文本的信息过滤系统解决文本聚类的问题。目前的聚类技术一般是将相似度高(文本距离小)的文本聚集到一个主题(划分为一类)。
但是一个短文本中会包含多类的数据信息,仅根据相似度大小,将相似度高的文本划分为一类,会使短文本丢失包含的数据信息,无法反映真实数据的信息。
发明内容
基于此,有必要针对上述聚类技术会会使短文本丢失包含的数据信息的问题,提供一种短文本的聚类方法和系统。
一种短文本的聚类方法,包括以下步骤:
获取短文本集中各短文本间的相似度;
从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本;
判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本;
判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。
一种短文本的聚类系统,包括:
获取模块,用于获取短文本集中各短文本间的相似度;
第一查找模块,用于从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本;
第二查找模块,用于判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本;
聚类模块,用于判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。
上述短文本的聚类方法和系统,基于各短文本间的相似度,从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,并从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,通过比较所述查找到的短文本与再次查找到的短文中相同短文本的数目是否超过文本数阈值,在相同短文本的数目超过阈值时将所述待处理短文本与所述待标记短文本划分为同一类别,通过对比分别与两个短文本相似的短文本集合的重合度来聚类,在提高聚类精度的同时,可进而降低数据信息的丢失率,反映数据集中各短文本的真实数据信息。
附图说明
图1是本发明短文本的聚类方法第一实施方式的流程示意图;
图2是本发明短文本的聚类方法第二实施方式的流程示意图;
图3是本发明短文本的聚类系统第一实施方式的结构示意图;
图4是本发明短文本的聚类系统第二实施方式的结构示意图。
具体实施方式
请参阅图1,图1是本发明短文本的聚类方法第一实施方式的流程示意图。
本实施方式的所述短文本的聚类方法包括以下步骤:
步骤101,获取短文本集中各短文本间的相似度。
步骤102,从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本。
步骤103,判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本。
步骤104,判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。
本实施方式所述的短文本的聚类方法,基于各短文本间的相似度,从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,并从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,通过比较所述查找到的短文本与再次查找到的短文中相同短文本的数目是否超过文本数阈值,在相同短文本的数目超过阈值时将所述待处理短文本与所述待标记短文本划分为同一类别,通过对比分别与两个短文本相似的短文本集合的重合度来聚类,在提高聚类精度的同时,可进而降低数据信息的丢失率,反映数据集中各短文本的真实数据信息。
其中,对于步骤101,优选地,可通过短文本中各词语的词频权重计算各短文两两之间的相似度。还可以进一步将所述短文本集中各短文本间的相似度转换为所述短文本集的相似度矩阵。
在一个实施例中,本发明所述的短文本的聚类方法,在所述获取短文本集中各短文本间的相似度的步骤之前,还包括以下步骤:
根据停用词词典,去除各短文本中已停用的词语、数字及标点符号,对各短文本中剩余的词语进行同义词语替换。
通过汉语词法分析系统ICTCLAS分词算法,对同义词语替换后的各短文本进行分词。
对分词后的各短文本进行词频统计。
其中,所述词频统计优选地为统计各个词语在短文本中出现的次数。
在另一个实施例中,所述获取短文本集中各短文本间的相似度的步骤包括以下步骤:
分别对所述短文本集的各短文本中的各词语进行词频统计,并根据各词语的词频统计值计算各词语在各短文本中的权重。
根据各词语在所述短文本集的任意两个短文本中的权重,计算所述任意两个短文本的相似度。
其中,优选地,所述根据各词语的词频统计值计算各词语在各短文本中的权重的步骤包括以下步骤:
通过以下所述公式计算各词语在各短文本中的权重:
W i = ( 1 / 2 πσ ) exp ( - ( p i - μ ) / 2 σ 2 ) ;
μ = Σ i = 1 N p i / N ;
σ = Σ i = 1 N ( p i - μ ) 2 / N ;
其中,Wi为第i个词语在一个短文本中的权重,N为词语总数,Pi为第i个词语的词频统计值。
上述公式计算出的词语权重可精确反映出词语在短文本中的数据比重。
进一步地,所述根据各词语在所述短文本集的任意两个短文本中的权重,计算所述任意两个短文本的相似度的步骤包括以下步骤:
通过以下所述公式计算所述短文本集中任意两个短文本的相似度:
S i , j = ( X i · X j ) / ( | X i | · | X j | ) = Σ k = 1 N X k , i · X k , j / Σ k = 1 N X k , i 2 · Σ k = 1 N X k , j 2 ;
X i = W → T · I → / Σ k = 1 N W k · I k ;
W → T = ( W 1 , W 2 , . . . , W N ) T ;
I → = ( I 1 , I 2 , . . . I N ) ;
I k = 1 0 ;
其中,Si,j为第i个短文本与第j个短文本之间的相似度,Wk为第k个词语在第i个短文本中的权重,Xi为所述短文本集中第i个短文本的归一化权重向量,Xk,i为第k个词语在第i个短文本中的权重值,
Figure BDA0000481400520000054
为所述短文本集中所有词语的权重向量的转置,当第k个词语在第i个短文本中出现时Ik的值为1,当第k个词语在第i个短文本中未出现时Ik的值为0。
通过上述公式可计算出精度较高的相似度。
对于步骤102,可提前对所述短文本集中的各短文本进行编号区分,还可设定所述短文本集中作为所述待处理文本的次序,为各短文本分类。
优选地,所述相似度阈值可根据计算量的大小以及最终期望达到的聚类精度进行设定。
在一个实施例中,所述从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合的步骤包括以下步骤:
分别从所述短文本集中查找与所述短文本集中各个短文本间的相似度大于所述相似度阈值的短文本,生成分别与所述各个短文本对应的第一集合。
在其他实施方式中,还可在执行完步骤103或104后,回到步骤102,循环执行步骤102至104,直至将所述短文本集中所有短文本聚类。
对于步骤103,优选地,当所述第一集合为空或其中短文本的数量为0时,可将所述待处理短文本划分为噪声数据,可通过为所述待处理短文本设置噪声标记来划分噪声数据类。
优选地,可随机选取所述第一集合中的任意一个短文本为所述待标记短文本,还可根据预先设定的顺序,使所述第一集合中短文本顺次为所述待标记短文本。
在一个实施例中,所述从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合的步骤包括以下步骤:
分别从所述短文本集中再次查找与所述第一集合中各个短文本间的相似度大于所述相似度阈值的短文本,生成分别与所述各个短文本对应的第二集合。
在其他实施方式中,还可循环执行步骤103,直至生成分别与所述第一集合中各个短文本对应的第二集合。将所述待处理文本与所述查找到的短文本中的多个短文本划分同一类别。
对于步骤104,所述文本数阈值优选地可预先根据期望的聚类精度和计算量大小设定。
在一个实施例中,在所述判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值的步骤之后,还包括以下步骤:
若未超过,则从所述第一集合中在再选取另一短文本作为待标记文本。
再次从所述短文本集中再次查找与所述待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合。
判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。
在本实施例中,可对所述查找到的短文中的各短文本依次执行上述操作。当对所述第一集合的短文本中的每个短文本均执行过上述操作后,还无法将所述待处理短文本与所述第一集合中的短文本中的任一短文本划分为同一类时,将所述待处理的短文本标记为二次处理对象,等待下一次的聚类处理。
优选地,当所述待处理文本无法与所述第一集合中任意一个短文本划分为一类时,可从所述短文本集中查找与所述二次处理对象的相似度大于所述相似度阈值的短文本,生成第三集合,获取所述第三集合内所有划分类别的短文本,将所述二次处理对象分别与获取的已划分类别的短文本划分为同一类别。
其中,所述二次处理对象是边界对象,是在上面步骤101-步骤104中无法划分类别的对象,因此,通过上述操作,二次处理对象会划分到两个或两个以上的类别中,即对所述二次处理对象进行了模糊聚类。
在另一个实施例中,所述将所述待处理短文本与所述待标记短文本划分为同一类别的步骤还包括以下步骤:
判断所述待标记短文本是否已有标记类别。
若是,则将所述待处理短文本与所述待标记短文本已有的标记类别划分为一类。
若否,则将所述待处理短文本与所述待标记短文本划分为一个新的类别。
请参阅图2,图2所示是本发明短文本的聚类方法第二实施方式的流程示意图。
本实施方式所述的短文本的聚类方法与第一实施方式的区别在于:当所述短文本集中所有短文本均已划分类别时,还包括以下步骤:
步骤201,获取所述短文本集中所包含的类别数目、每个类别中的短文本数目、以及各类别间的相同短文本数目。
步骤202,通过以下公式计算用于表征聚类精度的特征值:
P = &Sigma; i = 1 , j = 2 C , i < j - 1 / c &CenterDot; log C ( 2 &CenterDot; E i , j ) / ( Q i + Q j ) ;
其中,P为特征值,C为类别数目,Qi为第i个类别中的短文本数目,Ei,j为第i个类别与第j个类别中相同短文本的数目。
本实施方式所述的短文本聚类方法,可对聚类结果进行评价,特征值越小则聚类结果越好,不同类别间的界限也越明显。
以下所述是本发明短文本的聚类方法的第三实施方式。
本实施方式所述的短文本的聚类方法与第一与第二实施方式的区别在于:用相似度矩阵的形式标记各短文本之间的相似度,通过计算机语言执行上述聚类操作,用扫描半径eps标识所述相似度阈值,用最小包含点数minpts标识所述文本数阈值,并具体包括以下步骤:
步骤301,输入最小包含点数minPts和扫描半径eps,并初始化待处理队列D。
步骤302,从所述短文本集中随机选择一短文本对象P加入待处理队列D。
步骤303,从待处理队列中D取出对象P,扫面其eps邻域,若其邻域内没有包含任何短文本对象,则标记对象P为噪声数据,并回到步骤302,若其领域内包含有短文本对象,则用对象集合O标识所包含的短文本对象,并执行步骤304。
步骤304,对象集合O中每一个对象Oi,扫描其邻域,如果对象Oi邻域内包含的短文本对象与对象P邻域内的短文本对象中相同短文本对象的个数超过minPts,且对象Oi具有簇标记Y,则为对象P增加簇标记Y,记录P的可达对象为Oi,并标记P为已处理,并返回步骤303,如果没有超过minPts,则转入步骤305,如果对象Oi具有簇标记,则转入步骤305。
步骤305,如果对象P依然没有标记,且其可达对象集合不为空,则新建簇M,并将对象P标记为簇M,标记P为已处理,返回步骤302。如果对象P依然没有标记,且其可达对象集合为空,则将P加入至二次处理对象集合E,返回步骤302。
步骤306,当对象集合中所有对象均已处理完毕,则循环处理需要二次处理的集合E中对象,扫描其邻域内所有已标记对象,将邻域内已标记对象所有的簇标记均添加至此对象。
步骤307,输出每个对象及其簇标记,噪声数据则标记为“噪声”。
本实施方式所述的短文本的聚类方法,可对属于边界对象二次处理对象集合中的短文本进行模糊分类,为其短文本标记两个或两个以上的簇标识。
请参阅图3,图3是本发明短文本的聚类系统第一实施方式的结构示意图。
本实施方式的所述短文本的聚类系统包括获取模块100、第一查找模块200、第二查找模块300和聚类模块400,其中:
获取模块100,用于获取短文本集中各短文本间的相似度。
第一查找模块200,用于从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本。
第二查找模块300,用于判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本。
聚类模块400,用于判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。
本实施方式所述的短文本的聚类系统,基于各短文本间的相似度,从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,并从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,通过比较所述查找到的短文本与再次查找到的短文中相同短文本的数目是否超过文本数阈值,在相同短文本的数目超过阈值时将所述待处理短文本与所述待标记短文本划分为同一类别,通过对比分别与两个短文本相似的短文本集合的重合度来聚类,在提高聚类精度的同时,可进而降低数据信息的丢失率,反映数据集中各短文本的真实数据信息。
其中,对于获取模块100,优选地,通过短文本中各词语的词频权重计算各短文两两之间的相似度。还可以进一步将所述短文本集中各短文本间的相似度转换为所述短文本集的相似度矩阵。
在一个实施例中,本发明所述的短文本的聚类系统,还可包括预处理模块,用于在所述获取短文本集中各短文本间的相似度之前:
根据停用词词典,去除各短文本中已停用的词语、数字及标点符号,对各短文本中剩余的词语进行同义词语替换。
通过汉语词法分析系统ICTCLAS分词算法,对同义词语替换后的各短文本进行分词。
对分词后的各短文本进行词频统计。
其中,所述词频统计优选地为统计各个词语在短文本中出现的次数。
在另一个实施例中,获取模块100还可用于:
分别对所述短文本集的各短文本中的各词语进行词频统计,并根据各词语的词频统计值计算各词语在各短文本中的权重。
根据各词语在所述短文本集的任意两个短文本中的权重,计算所述任意两个短文本的相似度。
其中,优选地,获取模块100可通过以下所述公式计算各词语在各短文本中的权重:
W i = ( 1 / 2 &pi;&sigma; ) exp ( - ( p i - &mu; ) / 2 &sigma; 2 ) ;
&mu; = &Sigma; i = 1 N p i / N ;
&sigma; = &Sigma; i = 1 N ( p i - &mu; ) 2 / N ;
其中,Wi为第i个词语在一个短文本中的权重,N为词语总数,Pi为第i个词语的词频统计值。
上述公式计算出的词语权重可精确反映出词语在短文本中的数据比重。
进一步地,获取模块100可通过以下所述公式计算所述短文本集中任意两个短文本的相似度:
S i , j = ( X i &CenterDot; X j ) / ( | X i | &CenterDot; | X j | ) = &Sigma; k = 1 N X k , i &CenterDot; X k , j / &Sigma; k = 1 N X k , i 2 &CenterDot; &Sigma; k = 1 N X k , j 2 ;
X i = W &RightArrow; T &CenterDot; I &RightArrow; / &Sigma; k = 1 N W k &CenterDot; I k ;
W &RightArrow; T = ( W 1 , W 2 , . . . , W N ) T ;
I &RightArrow; = ( I 1 , I 2 , . . . I N ) ;
I k = 1 0 ;
其中,Si,j为第i个短文本与第j个短文本之间的相似度,Wk为第k个词语在第i个短文本中的权重,Xi为所述短文本集中第i个短文本的归一化权重向量,Xk,i为第k个词语在第i个短文本中的权重值,
Figure BDA0000481400520000107
为所述短文本集中所有词语的权重向量的转置,当第k个词语在第i个短文本中出现时Ik的值为1,当第k个词语在第i个短文本中未出现时Ik的值为0。
通过上述公式可计算出精度较高的相似度。
对于第一查找模块200,可提前对所述短文本集中的各短文本进行编号区分,还可设定所述短文本集中作为所述待处理文本的次序,为各短文本分类。
优选地,所述相似度阈值可根据计算量的大小以及最终期望达到的聚类精度进行设定。
在一个实施例中,第一查找模块200可用于分别从所述短文本集中查找与所述短文本集中各个短文本间的相似度大于所述相似度阈值的短文本,生成分别与所述各个短文本对应的第一集合。
对于第二查找模块300,优选地,当所述第一集合为空或其中短文本的数量为0时,可将所述待处理短文本划分为噪声数据,可通过为所述待处理短文本设置噪声标记来划分噪声数据类。
优选地,可随机选取所述第一集合中的任意一个短文本为所述待标记短文本,还可根据预先设定的顺序,使所述第一集合中短文本顺次为所述待标记短文本。
在一个实施例中,第二查找模块300可用于分别从所述短文本集中再次查找与所述第一集合中各个短文本间的相似度大于所述相似度阈值的短文本,生成分别与所述各个短文本对应的第二集合。
对于聚类模块400,所述文本数阈值优选地可预先根据期望的聚类精度和计算量大小设定。
在一个实施例中,聚类模块400可用于:
判断所述待标记短文本是否已有标记类别。
若是,则将所述待处理短文本与所述待标记短文本已有的标记类别划分为一类。
若否,则将所述待处理短文本与所述待标记短文本划分为一个新的类别。
请参阅图4,图4所示是本发明短文本的聚类系统第二实施方式的结构示意图。
本实施方式所述的短文本的聚类系统与第一实施方式的区别在于:还包括精度模块500,用于在所述短文本集中所有短文本均已分类时:
获取所述短文本集中所包含的类别数目、每个类别中的短文本数目、以及各类别间的相同短文本数目。
通过以下公式计算用于表征聚类精度的特征值:
P = &Sigma; i = 1 , j = 2 C , i < j - 1 / c &CenterDot; log C ( 2 &CenterDot; E i , j ) / ( Q i + Q j ) ;
其中,P为特征值,C为类别数目,Qi为第i个类别中的短文本数目,Ei,j为第i个类别与第j个类别中相同短文本的数目。
本实施方式所述的短文本的聚类系统,可对聚类结果进行评价,特征值越小则聚类结果越好,不同类别间的界限也越明显。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种短文本的聚类方法,其特征在于,包括以下步骤:
获取短文本集中各短文本间的相似度;
从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本;
判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本;
判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。
2.根据权利要求1所述的短文本的聚类方法,其特征在于,所述获取短文本集中各短文本间的相似度的步骤包括以下步骤:
分别对所述短文本集的各短文本中的各词语进行词频统计,并根据各词语的词频统计值计算各词语在各短文本中的权重;
根据各词语在所述短文本集的任意两个短文本中的权重,计算所述任意两个短文本的相似度。
3.根据权利要求2所述的短文本的聚类方法,其特征在于,所述根据各词语的词频统计值计算各词语在各短文本中的权重的步骤包括以下步骤:
通过以下所述公式计算各词语在各短文本中的权重:
W i = ( 1 / 2 &pi;&sigma; ) exp ( - ( p i - &mu; ) / 2 &sigma; 2 ) ;
&mu; = &Sigma; i = 1 N p i / N ;
&sigma; = &Sigma; i = 1 N ( p i - &mu; ) 2 / N ;
其中,Wi为第i个词语在一个短文本中的权重,N为词语总数,Pi为第i个词语的词频统计值。
4.根据权利要求2所述的短文本的聚类方法,其特征在于,所述根据各词语在所述短文本集的任意两个短文本中的权重,计算所述任意两个短文本的相似度的步骤包括以下步骤:
通过以下所述公式计算所述短文本集中任意两个短文本的相似度:
S i , j = ( X i &CenterDot; X j ) / ( | X i | &CenterDot; | X j | ) = &Sigma; k = 1 N X k , i &CenterDot; X k , j / &Sigma; k = 1 N X k , i 2 &CenterDot; &Sigma; k = 1 N X k , j 2 ;
X i = W &RightArrow; T &CenterDot; I &RightArrow; / &Sigma; k = 1 N W k &CenterDot; I k ;
W &RightArrow; T = ( W 1 , W 2 , . . . , W N ) T ;
I &RightArrow; = ( I 1 , I 2 , . . . I N ) ;
I k = 1 0 ;
其中,Si,j为第i个短文本与第j个短文本之间的相似度,Wk为第k个词语在第i个短文本中的权重,Xi为所述短文本集中第i个短文本的归一化权重向量,Xk,i为第k个词语在第i个短文本中的权重值,
Figure FDA0000481400510000026
T为所述短文本集中所有词语的权重向量的转置,当第k个词语在第i个短文本中出现时Ik的值为1,当第k个词语在第i个短文本中未出现时Ik的值为0。
5.根据权利要求1所述的短文本的聚类方法,其特征在于,所述将所述待处理短文本与所述待标记短文本划分为同一类别的步骤还包括以下步骤:
判断所述待标记短文本是否已有标记类别;
若是,则将所述待处理短文本与所述待标记短文本已有的标记类别划分为一类;
若否,则将所述待处理短文本与所述待标记短文本划分为一个新的类别。
6.根据权利要求1所述的短文本的聚类方法,其特征在于,所述从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合的步骤包括以下步骤:
分别从所述短文本集中查找与所述短文本集中各个短文本间的相似度大于所述相似度阈值的短文本,生成分别与所述各个短文本对应的第一集合。
7.根据权利要求1至6中任意一项所述的短文本的聚类方法,其特征在于,所述从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合的步骤包括以下步骤:
分别从所述短文本集中再次查找与所述第一集合中各个短文本间的相似度大于所述相似度阈值的短文本,生成分别与所述各个短文本对应的第二集合。
8.根据权利要求7所述的短文本的聚类方法,其特征在于,当所述短文本集中所有短文本均已划分类别时,还包括以下步骤:
获取所述短文本集中所包含的类别数目、每个类别中的短文本数目、以及各类别间的相同短文本数目;
通过以下公式计算用于表征聚类精度的特征值:
P = &Sigma; i = 1 , j = 2 C , i < j - 1 / c &CenterDot; log C ( 2 &CenterDot; E i , j ) / ( Q i + Q j ) ;
其中,P为特征值,C为类别数目,Qi为第i个类别中的短文本数目,Ei,j为第i个类别与第j个类别中相同短文本的数目。
9.一种短文本的聚类系统,其特征在于,包括:
获取模块,用于获取短文本集中各短文本间的相似度;
第一查找模块,用于从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本;
第二查找模块,用于判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本;
聚类模块,用于判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。
10.根据权利要求9所述的短文本的聚类系统,其特征在于,所述获取模块还用于:
分别对所述短文本集的各短文本中的各词语进行词频统计,并根据各词语的词频统计值计算各词语在各短文本中的权重;
根据各词语在所述短文本集的任意两个短文本中的权重,计算所述任意两个短文本的相似度。
CN201410112525.4A 2014-03-24 2014-03-24 短文本的聚类方法和系统 Active CN103886077B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410112525.4A CN103886077B (zh) 2014-03-24 2014-03-24 短文本的聚类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410112525.4A CN103886077B (zh) 2014-03-24 2014-03-24 短文本的聚类方法和系统

Publications (2)

Publication Number Publication Date
CN103886077A true CN103886077A (zh) 2014-06-25
CN103886077B CN103886077B (zh) 2017-04-19

Family

ID=50954969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410112525.4A Active CN103886077B (zh) 2014-03-24 2014-03-24 短文本的聚类方法和系统

Country Status (1)

Country Link
CN (1) CN103886077B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630767A (zh) * 2015-12-22 2016-06-01 北京奇虎科技有限公司 一种文本相似性的比较方法以及装置
CN105975495A (zh) * 2016-04-26 2016-09-28 北京奇虎科技有限公司 大数据的存储、搜索方法及装置
CN106469192A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置
CN106649255A (zh) * 2015-11-04 2017-05-10 江苏引跑网络科技有限公司 一种对短文本自动分类和识别主题词的方法
CN110597980A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机可读存储介质
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN112597772A (zh) * 2020-12-31 2021-04-02 讯飞智元信息科技有限公司 一种热点信息确定方法、计算机设备以及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080177736A1 (en) * 2006-11-01 2008-07-24 International Business Machines Corporation Document clustering based on cohesive terms
CN101989289A (zh) * 2009-08-06 2011-03-23 富士通株式会社 数据聚类方法和装置
CN103425748A (zh) * 2013-07-19 2013-12-04 百度在线网络技术(北京)有限公司 一种文档资源建议词的挖掘方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080177736A1 (en) * 2006-11-01 2008-07-24 International Business Machines Corporation Document clustering based on cohesive terms
CN101989289A (zh) * 2009-08-06 2011-03-23 富士通株式会社 数据聚类方法和装置
CN103425748A (zh) * 2013-07-19 2013-12-04 百度在线网络技术(北京)有限公司 一种文档资源建议词的挖掘方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KUMAR P 等: "Rough Clustering of Sequential Data", 《DATA & KNOWLEDGE ENGINEERING》 *
吴泽衡: "基于话题检测和情感分析的互联网热点分析与监控技术", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
骆卫华 等: "基于多策略优化的分治多层聚类算法的话题发现研究", 《中文信息学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649255A (zh) * 2015-11-04 2017-05-10 江苏引跑网络科技有限公司 一种对短文本自动分类和识别主题词的方法
CN105630767A (zh) * 2015-12-22 2016-06-01 北京奇虎科技有限公司 一种文本相似性的比较方法以及装置
CN105630767B (zh) * 2015-12-22 2018-06-15 北京奇虎科技有限公司 一种文本相似性的比较方法以及装置
CN105975495A (zh) * 2016-04-26 2016-09-28 北京奇虎科技有限公司 大数据的存储、搜索方法及装置
CN106469192A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置
CN106469192B (zh) * 2016-08-30 2021-07-30 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN110597980A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机可读存储介质
CN112597772A (zh) * 2020-12-31 2021-04-02 讯飞智元信息科技有限公司 一种热点信息确定方法、计算机设备以及装置

Also Published As

Publication number Publication date
CN103886077B (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
Ahuja et al. The impact of features extraction on the sentiment analysis
CN103886077A (zh) 短文本的聚类方法和系统
Kadhim et al. Text document preprocessing and dimension reduction techniques for text document clustering
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN107844559A (zh) 一种文件分类方法、装置及电子设备
Patra et al. A survey report on text classification with different term weighing methods and comparison between classification algorithms
CN103778205A (zh) 一种基于互信息的商品分类方法和系统
CN105808526A (zh) 商品短文本核心词提取方法和装置
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN104317784A (zh) 一种跨平台用户识别方法和系统
WO2014022172A2 (en) Information classification based on product recognition
Man Feature extension for short text categorization using frequent term sets
CN114003721A (zh) 矛盾纠纷事件类型分类模型的构建方法、装置及应用
CN108021545A (zh) 一种司法文书的案由提取方法及装置
CN106503153B (zh) 一种计算机文本分类体系
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN105335350A (zh) 一种基于集成学习的语种识别方法
CN106446124A (zh) 一种基于网络关系图的网站分类方法
Bhakuni et al. Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis
CN108462624A (zh) 一种垃圾邮件的识别方法、装置以及电子设备
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant