CN108920475A - 一种短文本相似度计算方法 - Google Patents

一种短文本相似度计算方法 Download PDF

Info

Publication number
CN108920475A
CN108920475A CN201810275511.2A CN201810275511A CN108920475A CN 108920475 A CN108920475 A CN 108920475A CN 201810275511 A CN201810275511 A CN 201810275511A CN 108920475 A CN108920475 A CN 108920475A
Authority
CN
China
Prior art keywords
lexical item
text
similarity
word
strong
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810275511.2A
Other languages
English (en)
Other versions
CN108920475B (zh
Inventor
马慧芳
刘�文
李志欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Normal University
Original Assignee
Northwest Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Normal University filed Critical Northwest Normal University
Priority to CN201810275511.2A priority Critical patent/CN108920475B/zh
Publication of CN108920475A publication Critical patent/CN108920475A/zh
Application granted granted Critical
Publication of CN108920475B publication Critical patent/CN108920475B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种短文本相似度计算方法;包括如下步骤:1)利用距离共现相关度得到词项的关联权重;2)通过词项的关联权重计算词项的内联关系,接着利用链接词产生的路径的共享熵来表征外联关系,然后耦合这两种关系得到基于耦合距离区分度的短文本相似度;3)接下来利用加类标数据得到每个类别的强类别特征集合,并利用强类别特征词项的上下文信息进行语义消歧,基于文本包含每个类的强类别特征越多则越相似的思想,得到强类别特征相似度;4)通过平衡因子来调节两种相似度来得到最终的短文本相似度。本发明方法能够解决短文本内容简短、特征稀疏,以及传统的短文本相似度计算忽略类别信息等问题,同时能够避免一词多义对相似度计算的影响。

Description

一种短文本相似度计算方法
技术领域
本发明涉及一种融合耦合距离区分度和强类别特征的短文本相似度计算方法,属于文本信息处理领域,具体地说是一种短文本相似度计算方法。
背景技术
随着互联网技术的飞速发展。微博,微信,手机短信凭借开放性和便捷性等优势,已发展成为人们社交和娱乐的主流媒体,是人们了解时事动态,人际交往和发表观点和评论的主要平台。面对这些应用产生的超大规模短文本数据,怎样挖掘隐藏在数据中的巨大的潜在价值是研究的热点和难点。而短文本相似度的计算的优劣对于挖掘数据隐藏的价值起着至关重要的作用,被大量用于文本分类,文本聚类,舆情分析,兴趣推荐,信息检索等多个领域。
当前短文本相似度的计算方法主要分为两大类,即基于统计信息的和基于外部语料库的方法。第一类方法常见的是在向量空间模型(Vector Space Model,VSM)的基础上,通过统计分词过后文档的词语及其词频生成字典,把每个字典看作一个多维向量,从而将计算文档的相似度转换为计算向量间的相似度,典型的工作有:利用共现词项的概率相关度来计算词项在文本中的权重改进了相似度计算方法;利用一种耦合词项间的关系模型来表示文档,分析内联关系(词项间的共现)和外联关系(链接词产生路径)来表示词项间的关系。该类方法虽然考虑到了词项加权和利用共现关系来衡量词项间的相似度,进而通过词项间的关系来衡量文本间的关系,但是该类方法都是基于简单的词频统计和共现关系,并未很好的描述词项间更深层次的关系。基于外部语料库的方法通常是利用外部知识语料库和深度学习框架来计算文本间的相似度,常见的方法有:利用大规模语义网络Probase将两个词项映射到概念空间中,并对这个概念空间聚类,最后在聚类后的概念空间中计算词项的相似度,利用词项的相似度计算文本间的相似度;或者结合显性语义分析(ESA)表示和Word2Vec表示产生词项的稀疏表示,作者利用该向量表示来计算文本相似度。基于语料库的方法虽然考虑到了词项的词性、语义,但是基于语料库的方法有这样的局限:只能处理语料库中的词项,不能处理语料库中未出现的词项。而基于Word2Vec模型的方法,词项的向量表示只有一个,因此不能区分有一词多义的词项,从而导致信息的缺失,影响相似度计算的精确度。
发明内容
本发明的目的在于提出一种短文本相似度计算方法,通过融合耦合距离区分度和强类别特征的短文本相似度计算方法(Combining Coupled Distance Discriminationand Strong Classification Features for Short Text Similarity Calculation,CDDCF),综合考虑词项间的距离、区分度,内联关系,外联关系和类别信息,能够在脱离外部语料库的情况下挖掘词项间的语义关系。
为实现上述目的,本发明所述一种短文本相似度计算方法,实现步骤如下:
1)获取文本,进行文本预处理;
2)计算词项间的共现距离区分度来对词项加权,得到词项的关联权重;
3)利用词项的关联权重计算词项的内联关系,接着利用链接词产生的路径的共享熵来表征外联关系,然后耦合这两种关系得到基于耦合距离区分度的文本相似度;
4)利用有监督的方法来衡量文本间的相似度,即利用加类标数据得到每个类别的强类别特征集合,并利用强类别特征词项的上下文信息进行语义消歧,基于文本包含每个类的强类别特征越多则越相似,得到强类别特征相似度;
5)通过平衡因子来调节两种相似度来得到最终的融合共现距离区分度和强类别特征的短文本相似度计算方法。
所述步骤1)中文本预处理的方法,其步骤如下:
a.获取需要计算的文本,所述文本由若干数目的句子组成;
b.文本除去所有的目录、标题、图、表等,只留下文本信息;
c.对文本进行分词,对于英文文本,基于简单的空格进行分词;对于中文文本,使用常用的分词算法进行分词;
d.将文本进行停用词过滤;
e.去除每个句子之中重复的词语。
所述步骤2)中计算词项间的共现距离区分度来对词项加权,得到词项的关联权重,其步骤如下:
a.建立词典,由给定短文本集合D={d1,d2,...dm}和词项集T={t1,t2...tn},首先计算词项ti与词项tj在特定短文本ds中间隔的词的个数为
b.计算词项ti与词项tj间的共现距离为;
c.计算文本中所有与词项ti共现过的词项间的共现距离的和值
d.计算整个文本集上词项ti与词项tj间的共现距离区分度为:
e.求对称后的词项间的距离区分度:
f.求词项在文本集中的词频
g.求文本ds中词项的个数和词项ti在文本ds中的初始权重为;
h.求词项的逆文档频率idf:
i.求词项在文本ds中的关联权重为:
所述步骤3)中计算文本间的耦合距离区分度的相似度算法,其步骤如下:
a.得到词项ti与词项tj共现过得文本集合H,并计算得到H中文本的个数为|H|;
b.计算词项ti与词项tj间的未归一化的内联关系为:
c.计算词项ti与词项tj间归一化后的内联关系为:
d.计算对称化后的内联关系为:
e.构建外联关系图,其中顶点为词项,边表示词项间的关系,当且仅当词对在文本中共现则结点存在连边;
f.求得词项间的外联路径,对于任意两个词项ti和tj,存在一条或多条从词项ti开始,且有序的链接多个词项后以tj结束的词项序列称为路径,这个路径被定义为外联路径:
其中词项ti为起始点,tj为终止点,代表路径Path(ti→tj)上的词项,即链接词,g是路径中链接词的个数,为Path(ti→tj)上特定路径P上所有点的集合,eij表示两个点之间有边,E为所有边的集合,第P条路径上所有经过边的集合,θ是用户为限制数量(即链接词个数)所定义的阈值;
g.求得词项ti到tj的路径Path(ti→tj)上任一路径p上的所有词项的集合为链接词项集且计算该集合的长度为h:
h.计算词项ti到tj的第p条路径的链接词集Tp-link上词对间的共享熵
其中,J(Tp-link)为该路径上链接词间的联合熵公式如下:
i.求得第p条路径的外联关系为:
j.求得词项ti与词项tj间的外联关系,即选取词对所有路径中共享熵最大值
来表征词对ti与tj间的外联关系:
IeR(ti,tj)=max{IeRp(ti,tj)} (15);
k.利用介于[0,1]直接的参数α来平衡内外联关系得到耦合的距离区分度为:
l.选取CR(ti,tj)≥0.3的词对(ti,tj)放入集合M中作为候选词对;
m.通过耦合的内外联关系得到基于耦合距离相似度的文本相似度为:
其中h(ti)={tj|tj∈d2∧(ti,tj)∈M}。
所述步骤4)中强类别特征的文本相似度算法,其步骤如下:
a.文档集Dl={d1 l,d2 l,…,dy l},带标签的数据分别属于类别集合C={C1,C2,…,Cr,…,Ck},通过计算类别Cr中的词项ti携带的短文本内容信息,定义词项ti在Cr类中的关联权重为:
其中|Cr(ti)|表示在Cr类中包含词项ti的文本个数;
b.求词项ti在类别Cr中的权重为:
c.词项ti在其他类别的中的权重值定义为;
d.词项ti在除了Cr类别中剩下k-1个类别中的平均权重:
g.词项ti在类别Cr中的最终权重为:
其中idf被定义为
h.对类别Cr中的词项按值进行降序排列,其他类采取相似度的操作,最后取每个类中前K个词项构成强类别特征集合S={s1,s2,…,skK};
i.对于任意两个文本d1和d2,判断词项强类别的特征的数量来衡量两个文本的相似度,因此本方法只处理满足特定条件的ti,即ti∈s(t)={tj|tj∈d1,tj∈d2,tj∈S},词项ti分别与文本d1和d2共现过的窗口内的词构成该词项的上下文,即为定义如下:
其中为一个控制窗口大小的阈值;
j.计算上下文的相似度来确定强类别特征词ti是否有歧义,计算公式如下:
k.利用强类别特征词ti的上下文相似度来得到一个指示函数I(ti)来表示词项ti是否表征同一个含义;I(ti)定义如下:
l.重新定义强类别特征词项ti在d1的权重为:
同理可得到强类别特征词项ti在文本d2的权重
m.利用两个文本包含相似含义的强类别特征的情况来计算两个文本的相似度,计算公式如下:
n.定义归一化后的强类别特征相似度为:
所述步骤5)中得到最终的融合共现距离区分度和强类别特征的短文本相似度计算方法,其步骤如下:利用介于[0,1]之间的参数β来调节耦合距离区分度的相似度方法和强烈别特征方法的相对重要性;
SCR-CF(d1,d2)=βSCR(d1,d2)+(1-β)SCF'(d1,d2) (30)。
本发明所述一种短文本相似度计算方法,其有益效果在于:(一)通过融合耦合距离区分度和强类别特征的短文本相似度计算方法,综合考虑词项间的距离、区分度,内联关系,外联关系和类别信息,能够在脱离外部语料库的情况下挖掘词项间更丰富的语义关系;(二)本发明的相似度算法克服了因短文本内容稀疏而导致语义信息不足的问题,提升了短文本相似度计算的精度;(三)本发明的算法提取每个类中的最能代表该类的词项,并利用词项的上下文对多义词进行语义消歧。
附图说明
图1为本发明基本技术流图;
图2为本发明中基于耦合共现距离区分度的相似度算法中控制内外联关系的参数的改变对算法F-measure指标的影响图;
图3为本发明中基于耦合共现距离区分度的相似度算法中控制内外联关系的参数的改变对算法RI指标的影响图;
图4为本发明中每个类强类别特征的取值K的改变对强类别特征算法的影响图;
图5为本发明中影响耦合距离区分度和强类别特征两种相似度算法的参数β的改变对算法F-measure指标的影响图;
图6为本发明中影响耦合距离区分度和强类别特征两种相似度算法的参数β的改变对算法RI指标的影响图;
图7为本发明中的提出的不同相似度计算方法的性能对比图;
图8为本发明提出的相似度计算方法与现存的相似度算法的性能对比图;
图9为本发明中文本规模的改变对算法的性能影响图。
具体实施方式
实施例1
如图1-8所示,本发明所述一种短文本相似度计算方法,实现步骤如下:
1)获取文本,进行文本预处理;
a.获取文本,选取DBLP数据集中的人工智能方向的论文标题作为文本,文本由若干数目的句子组成;
b.去除文本中所有的符号和图形等,只留下文本信息;
c.对文本进行分词,对于英文文本,基于简单的空格进行分词,去除停用词;对于中文文本,使用常用的分词算法进行分词;英文文本能够以空格作为自然分界符,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,选择合适的分词软件对中文进行分词;
“Topical Analysis of Interactions Between News and Social Media”,“Collective Supervision ofTopic Models forPredicting Surveys with SocialMedia”两篇短文本进行分词之后将变为:
“Topical Analysis Interactions Between News Social Media”和“Collective Supervision Topic Models Predicting Surveys Social Media”
e.去除每个句子之中重复的词语,形成词典:
“Topical Analysis Interactions Between News Social Media CollectiveSupervision Models Predicting Surveys”;
2)计算词项间的共现距离区分度来对词项加权,得到词项的关联权重:
a.利用建立好的词典,即短文本集合D={d1,d2,...dm}和词项集T={t1,t2...tn},首先计算词项ti与词项tj在特定短文本ds中间隔的词的个数计为
b.计算词项ti与词项tj间的共现距离为;
c.计算文本中所有与词项ti共现的词项间的共现距离的和值
d.计算整个文本集上词项ti与词项tj间的共现距离区分度为:
e.求对称后的词项间的距离区分度:
f.求词项在文本集中的词频
g.求文本ds中词项的个数和词项ti在文本ds中的初始权重为;
h.求词项的逆文档频率idf:
i.求词项在文本ds中的关联权重为:
3)计算文本间的耦合距离区分度的相似度算法:
a.得到词项ti与词项tj共现过得文本集合H,并计算得到H中文本的个数为|H|;
b.计算词项ti与词项tj间的未归一化的内联关系为:
c.计算词项ti与词项tj间归一化后的内联关系为:
d.计算对称化后的内联关系为:
e.构建外联关系图,其中顶点为词项,边表示词项间的关系,当且仅当词对在文本中共现则结点存在连边;
f.求得词项间的外联路径,对于任意两个词项ti和tj,存在一条或多条从词项ti开始,且有序的链接多个词项后以tj结束的词项序列称为路径,这个路径被定义为外联路径:
其中词项ti为起始点,tj为终止点,代表路径Path(ti→tj)上的词项,即链接词,g是路径中链接词的个数,上特定路径P上所有点的集合,eij表示两个点之间有边,E为所有边的集合,为Path(ti→tj)第P条路径上所有经过边的集合;θ是用户为限制数量(即链接词个数)所定义的阈值;
g.求得词项ti到tj的路径Path(ti→tj)上任一路径p上的所有词项的集合为链接词项集且计算该集合的长度为h:
h.计算词项ti到tj的第p条路径的链接词集Tp-link上词对间的共享熵
其中,J(·)为该路径上链接词间的联合熵公式如下:
ii.求得第第p条路径的外联关系为:
j.求得词项ti与词项tj间的外联关系,即选取词对所有路径中共享熵最大值
来表征词对ti与tj间的外联关系:
IeR(ti,tj)=max{IeRp(ti,tj)} (15);
k.利用介于[0,1]直接的参数α来平衡内外联关系得到耦合的距离区分度为:
l.选取CR(ti,tj)≥0.3的词对(ti,tj)放入集合M中作为候选词对;
m.通过耦合的内外联关系得到基于耦合距离相似度的文本相似度为:
其中h(ti)={tj|tj∈d2∧(ti,tj)∈M};
4)计算强类别特征相似度;
a.文档集Dl={d1 l,d2 l,…,dy l},带标签的数据分别属于类别集合C={C1,C2,…,Cr,…,Ck};通过计算类别Cr中的词项ti携带的短文本内容信息,定义词项ti在Cr类中的关联权重为:
其中|Cr(ti)|表示在Cr类中包含词项ti的文本个数;
b.求词项ti在类别Cr中的权重为:
c.词项ti其他类别的中的权重值定义为;
d.词项ti在除了Cr类别中剩下k-1个类别中的平均权重:
g.词项ti在类别Cr中的最终权重为:
其中idf被定义为
h.对类别Cr中的词项按值进行降序排列,其他类采取相似度的操作,最后取每个类中前K个词项构成强类别特征集合S={s1,s2,…,skK};
i.对于任意两个文本d1和d2,判断词项强类别的特征的数量来衡量两个文本的相似度,因此本方法只处理满足特定条件的ti,即ti∈s(t)={tj|tj∈d1,tj∈d2,tj∈S},词项ti分别与文本d1和d2共现过的窗口内的词构成该词项的上下文,即为定义如下:
其中为一个控制窗口大小的阈值;
j.计算上下文的相似度来确定强类别特征词ti是否有歧义,计算公式如下:
k.利用强类别特征词ti的上下文相似度来得到一个指示函数I(ti)来表示词项ti是否表征同一个含义,I(ti)定义如下:
l.重新定义强类别特征词项ti在d1的权重为:
同理可得到强类别特征词项ti在文本d2的权重
m.利用两个文本包含相似含义的强类别特征的情况来计算两个文本的相似度,计算公式如下:
n.定义归一化后的强类别特征相似度为:
5)耦合共现距离区分度和强烈别特征的相似度计算方法,本发明综合考虑文本间耦合距离区分度和强类别特征的相似度方法:
SCR-CF(d1,d2)=βSCR(d1,d2)+(1-β)SCF'(d1,d2) (30);
其中β为偏好因子,介于[0,1]之间,用来调节两种不同的相似度计算方法,该相似度既考虑到了词项的耦合距离共现关系,又考虑到带类别标签信息的文本间的相似度,更能够体现文本间隐含的关系,使相似度值更加精确,而当β取值分别为0和1时则分别退化为SCF算法和CR算法。
由于相似度计算的数值具有主观性,为了体现相似度方法的有效性,本发明将相似度计算方法应用于聚类问题,这是因为聚类性能的优劣取决于相似度算法。因此通过观察文本聚类后的准确率来衡量文本相似度的效果。本发明使用k-means算法来对文本聚类,通过观察聚类结果来衡量相似度计算的效果,实验中k值分别被设置为数据集类别的个数。本发明将采用以下两个指标来评价聚类的性能:所涉及到的评价指标包括F-measure和兰德指数(Rand index,RI),其公式定义如下:
F值是综合准确率(precision)和召回率(recall)的一个综合评价指标,定义如下:
其中TP是指被聚在一类的两个文档被正确分类了,TN是指不应该被聚在一类的两个文档被正确分开了,FP指不应该放在一类的文档被错误的放在了一类,FN指不应该分开的文档被错误的分开了。以上两个聚类指标的取值都规范化在[0,1]之间,并且可以发现其值都是越高聚类性能越好;实验结果分析时RI和F-measure表示为5折交叉验证结果的均值。
实验设计
为了验证本文方法的有效性设计了三个实验。一是对本文中的三个重要参数α,K,β的分析;二是比较本文提出的三种方法的聚类性能和比较本文的方法和已存在的相似度计算方法的聚类性能的对比;三是研究文本规模的改变对算法稳定性的影响。
1.输入参数的影响
在本节中,通过一系列实验来分析参数α,K,β对算法性能的影响。其中参数α用于调节耦合距离区分度中的内联和外联关系的相对重要性,K用来调节每个类中强类别特征的个数,β用来调节耦合距离相似度和强类别特征相似度间的相对重要性。在接下来的实验中,利用RI,F-measure来衡量参数的改变对算法的影响。具体的实验设计以0.1为步长从[0,1]之间改变α的取值,分析CR在不同数据集上两种评价指标的变化趋势。实验结果如图2-3所示,随着α取值逐渐增大,RI和F-measure值也随着递增且当α=0.5时达到峰值,之后随着α的增大,RI和F-measure的值减小。这是因为随着α的增大,外联关系可以提升聚类性能,也就意味这外联关系对内联关系有促进作用,因为外联关系考虑到了词项即使不共现也可以通过外联路径产生关联性,当α>0.5时,外联关系会影响聚类性能的提升。因此通过对实验结果的分析,在接下来的实验中本文统一选取α=0.5作为最优的实验参数。
K的取值控制了每个类中的强类别特征个数,因此通过调节K以50为步长从[50,500]之间变化,来观察K值改变对SCF方法的聚类性能的影响,选取使得F-measure最高的K值,实验结果如图4所示,可以看到随着K值增加,F-measure和RI也随着增加,当K等于200时达到峰值,紧接着随着K的增加F-measure反而变小,最后趋于稳定。分析原因是K的取值过小,会导致该类中强类别特征不足代表该类的类别信息,而K值过大则会导致一些不太重要的词项作为强类别特征来看待,使得每个类的类别信息含有噪声,导致相似度计算结果不精确。通过实验结果的分析,最后选取K=200为实验最优参数。
实验中β以0.1为步长在[0,1]之间逐渐递增,且根据前面的实验参数α选择为0.5,K的取值选为200,通过观察RI和F-measure的改变对耦合共现距离区分度和强类别特征的短文本相似度计算方法的影响,选取最优的参数β。实验结果如图5-6所示,可以观察到,当β=0时,表示只考虑强类别特征相似度,此时两个数据集上RI和F-measure值最小,原因在于强类别特征忽略了词项间的结构关系和耦合关系,仅仅考虑到了文本间相同的词项对相似度的影响,因此效率不高。当β逐渐递增时,RI和F-measure值随之递增,当β=0.7时,CDDCF方法的RI和F-measure达到峰值。这是因为耦合距离相似度对于整个相似度的计算更重要,原因在于CR方法考虑到词项间的更全面的关系—内联关系和外联关系,使得在计算文本相似度时考虑到了词项间的显性和隐性关系,计算结果更加精确。反观SCF方法仅仅考虑到了带有类别特征的词项间的显性关系,因此SCF对相似度计算的贡献程度不如CR方法。当β>0.7时,之后随着β的递增,RI和F-measure值反而减小,且当β=1时,CDDCF方法退化为耦合距离区分度的相似度。
2.聚类性能的评估
实验比较了本发明提出的三种方法耦合距离区分度的形似度算法,强类别特征相似度算法和共现距离区分度和强类别特征的短文本相似度算法(CR,SCF,CDDCF)在RI和F-measure指标上使用K-means后的聚类性能。实验结果如图7所示;观察图7可知CDDCF方法在两个数据集上的和RI和F-measure值优于其他两种方法。因为CDDCF方法既考虑到了词项间的耦合关系,也考虑到了类别信息对于词项的区分性,使得词项相似度计算更加准确,文本聚类的性能更好。同时由图7看到CR方法的评价指标也优于SCF方法,因为SCF方法仅仅考虑到的是内联关系的类别信息,虽然会比不考虑类别信息的内联关系好,但CR方法考虑到同时考虑到了外联关系,使得语义信息更丰富。所以导致CR方法比仅仅考虑到内联关系的类别信息的SCF方法在聚类性能上更优秀。
此外设置本文发明的方法(CDDCF)与三个基准方法的实验结果对比来验证本文方法的有效性。三种方法为:融合共现距离和区分度的短文本相似度计算方法(CDPC),耦合词项关系模型(CRM)和强类别近邻传播聚类算法(SCFAP)。实验结果见图8,观察图8,可知本发明提出的方法在聚类性能上优于其他三种基准方法。分析实验结果,CDPC方法仅仅利用了词项间的共现和距离关系,然后在通过改进的余弦相似度方法计算文本的相似度。而CRM相比于CDPC方法不仅考虑到了词项的共现关系(内联关系),而且考虑到了外联关系,因此CRM方法的聚类性能略优于CDPC方法。SCFAP方法考虑到了少量类别信息,并利用AP算法[21]来对未加标的数据加标,得到文本的相似度,因此可以使得相似度计算扩充到半监督领域,但是因为SCFAP算法简单计算文本中共同出现过得词项的类别信息,对于文本的语境和词项间的关系没有考虑到,因此SCFAP方法聚类性劣与CDPC方法。而本文的CDDCF方法不仅考虑到了词项的类别信息,而且将词项的距离,内联关系和外联关系都考虑到了,因此聚类性能优于三种基准方法。
3.文本规模对算法的影响
实验通过改变DBLP数据集的规模来研究本发明的算法(CDDCF)方法在文本聚类的稳定性。分别在两组数据集上逐渐增多文本数量观察RI和F-measure指标的变化情况。实验结果如图9所示说明了随着数据规模的改变,本发明提出的CDDCF方法在RI和F-measure指标上的变化。能够直观的看到CDDCF方法的RI和F-measure曲线并未随着数据集的改变而剧烈波动。实验结果表明随着文本规模的增加,聚类的性能是稳定的,没有出现文本规模增大导致聚类性能迅速衰减或者提升。

Claims (6)

1.一种短文本相似度计算方法,其特征在于:
1)获取文本,进行文本预处理;
2)计算词项间的共现距离区分度来对词项加权,得到词项的关联权重;
3)利用词项的关联权重计算词项的内联关系,接着利用链接词产生的路径的共享熵来表征外联关系,最终耦合这两种关系得到基于耦合距离区分度的文本相似度;
4)利用有监督的方法来衡量文本间的相似度,即利用加类标数据得到每个类别的强类别特征集合,并利用强类别特征词项的上下文信息进行语义消歧,基于文本包含每个类的强类别特征越多则越相似,得到强类别特征相似度;
5)通过平衡因子来调节两种相似度(基于耦合距离区分度的文本相似度和强类别相似度)来得到最终的融合共现距离区分度和强类别特征的短文本相似度计算方法。
2.如权利要求1所述一种短文本相似度计算方法,其特征在于:所述步骤1)中文本预处理的方法,其步骤如下:
a.获取需要计算的文本,所述文本由若干数目的句子组成;
b.文本除去所有的目录、标题、图、表等,只留下文本信息;
c.对文本进行分词,对于英文文本,基于简单的空格进行分词;对于中文文本,使用常用的分词算法进行分词;
d.将文本进行停用词过滤;
e.去除每个句子之中重复的词语。
3.如权利要求2所述一种短文本相似度计算方法,其特征在于:所述步骤2)中计算词项间的共现距离区分度来对词项加权,得到词项的关联权重,其步骤如下:
a.建立词典,由给定短文本集合D={d1,d2,...dm}和词项集T={t1,t2...tn},首先计算词项ti与词项tj在特定短文本ds中间隔的词的个数为
b.计算词项ti与词项tj间的共现距离为;
c.计算文本中所有与词项ti共现过的词项间的共现距离的和值
d.计算整个文本集上词项ti与词项tj间的共现距离区分度为:
e.求对称后的词项间的距离区分度:
f.求词项在文本集中的词频
g.求文本ds中词项的个数和词项ti在文本ds中的初始权重为;
h.求词项的逆文档频率idf:
i.求词项在文本ds中的关联权重为:
4.如权利要求3所述一种短文本相似度计算方法,其特征在于:所述步骤3)中计算文本间的耦合距离区分度的相似度算法,其步骤如下:
a.得到词项ti与词项tj共现过的文本集合H,并计算得到H中文本的个数为|H|;
b.计算词项ti与词项tj间的未归一化的内联关系为:
c.计算词项ti与词项tj间归一化后的内联关系为:
d.计算对称化后的内联关系为:
e.构建外联关系图,其中顶点为词项,边表示词项间的关系,当且仅当词对在文本中共现则结点存在连边;
f.求得词项间的外联路径,对于任意两个词项ti和tj,存在一条或多条从词项ti开始,且有序的链接多个词项后以tj结束的词项序列称为路径,这个路径被定义为外联路径:
其中词项ti为起始点,tj为终止点,代表路径Path(ti→tj)上的词项,即链接词,g是路径中链接词的个数,为Path(ti→tj)上特定路径P上所有点的集合,eij表示两个点之间有边,E为所有边的集合,为Path(ti→tj)第P条路径上所有经过边的集合,θ是用户为限制数量(即链接词个数)所定义的阈值;
g.求得词项ti到tj的路径Path(ti→tj)上任一路径p上的所有词项的集合为链接词项集且计算该集合的长度为h:
h.计算词项ti到tj的第p条路径的链接词集Tp-link上词对间的共享熵
其中,J(Tp-link)为该路径上链接词间的联合熵公式如下:
i.求得第p条路径的外联关系为:
j.求得词项ti与词项tj间的外联关系,即选取词对所有路径中共享熵最大值来表征词对ti与tj间的外联关系:
IeR(ti,tj)=max{IeRp(ti,tj)} (15);
k.利用介于[0,1]直接的参数α来平衡内外联关系得到耦合的距离区分度为:
l.选取CR(ti,tj)≥0.3的词对(ti,tj)放入集合M中作为候选词对;
m.通过耦合的内外联关系得到基于耦合距离相似度的文本相似度为:
其中h(ti)={tj|tj∈d2∧(ti,tj)∈M}。
5.如权利要求4所述一种短文本相似度计算方法,其特征在于:所述步骤4)中强类别特征的文本相似度算法,其步骤如下:
a.文档集带标签的数据分别属于类别集合C={C1,C2,…,Cr,…,Ck},通过计算类别Cr中的词项ti携带的短文本内容信息,定义词项ti在Cr类中的关联权重为:
其中|Cr(ti)|表示在Cr类中包含词项ti的文本个数;
b.求词项ti在类别Cr中的权重为:
c.词项ti其他类别的中的权重值定义为;
d.词项ti在除了Cr类别中剩下k-1个类别中的平均权重:
g.词项ti在类别Cr中的最终权重为:
其中idf被定义为
h.对类别Cr中的词项按值进行降序排列,其他类采取相似度的操作,最后取每个类中前K个词项构成强类别特征集合S={s1,s2,…,skK};
i.对于任意两个文本d1和d2,判断词项强类别的特征的数量来衡量两个文本的相似度,因此本方法只处理满足特定条件的ti,即ti∈s(t)={tj|tj∈d1,tj∈d2,tj∈S},词项ti分别与文本d1和d2共现过的窗口内的词构成该词项的上下文,即为定义如下:
其中为一个控制窗口大小的阈值;
j.计算上下文的相似度来确定强类别特征词ti是否有歧义,计算公式如下:
k.利用强类别特征词ti的上下文相似度来得到一个指示函数I(ti)来表示词项ti是否表征同一个含义;I(ti)定义如下:
l.重新定义强类别特征词项ti在d1的权重为:
同理可得到强类别特征词项ti在文本d2的权重
m.利用两个文本包含相似含义的强类别特征的情况来计算两个文本的相似度,计算公式如下:
n.定义归一化后的强类别特征相似度为:
6.如权利要求5所述一种短文本相似度计算方法,其特征在于:所述步骤5)中得到最终的融合共现距离区分度和强类别特征的短文本相似度计算方法,其步骤如下:利用介于[0,1]之间的参数β来调节耦合距离区分度的相似度方法和强烈别特征方法的相对重要性;
SCR-CF(d1,d2)=βSCR(d1,d2)+(1-β)SCF'(d1,d2) (30)。
CN201810275511.2A 2018-03-30 2018-03-30 一种短文本相似度计算方法 Expired - Fee Related CN108920475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810275511.2A CN108920475B (zh) 2018-03-30 2018-03-30 一种短文本相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810275511.2A CN108920475B (zh) 2018-03-30 2018-03-30 一种短文本相似度计算方法

Publications (2)

Publication Number Publication Date
CN108920475A true CN108920475A (zh) 2018-11-30
CN108920475B CN108920475B (zh) 2021-09-14

Family

ID=64402855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810275511.2A Expired - Fee Related CN108920475B (zh) 2018-03-30 2018-03-30 一种短文本相似度计算方法

Country Status (1)

Country Link
CN (1) CN108920475B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407717A (zh) * 2021-05-28 2021-09-17 数库(上海)科技有限公司 消除新闻中行业词歧义的方法、装置、设备和存储介质
CN115580841A (zh) * 2022-12-05 2023-01-06 安徽创瑞信息技术有限公司 一种降低短信发送延迟的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
US20090254549A1 (en) * 2006-06-12 2009-10-08 Zalag Corporation Methods and apparatuses for searching content
US9047379B2 (en) * 2006-06-12 2015-06-02 Zalag Corporation Methods and apparatuses for searching content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254549A1 (en) * 2006-06-12 2009-10-08 Zalag Corporation Methods and apparatuses for searching content
US9047379B2 (en) * 2006-06-12 2015-06-02 Zalag Corporation Methods and apparatuses for searching content
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
COURTNEY CORLEY等: "Measuring the Semantic Similarity of Texts", 《PROCEEDINGS OF THE ACL WORKSHOP ON EMPIRICAL MODELING OF SEMANTIC EQUIVALENCE AND ENTAILMENT》 *
WAEL H. GOMAA等: "A Survey of Text Similarity Approaches", 《INTERNATIONAL JOURNAL OF COMPUTER APPLICATIONS》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407717A (zh) * 2021-05-28 2021-09-17 数库(上海)科技有限公司 消除新闻中行业词歧义的方法、装置、设备和存储介质
CN113407717B (zh) * 2021-05-28 2022-12-20 数库(上海)科技有限公司 消除新闻中行业词歧义的方法、装置、设备和存储介质
CN115580841A (zh) * 2022-12-05 2023-01-06 安徽创瑞信息技术有限公司 一种降低短信发送延迟的方法

Also Published As

Publication number Publication date
CN108920475B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
Tong et al. A text mining research based on LDA topic modelling
Zhao et al. Topical keyphrase extraction from twitter
Zhang et al. Automatic text summarization based on sentences clustering and extraction
Sharifi et al. Summarization of twitter microblogs
El-Fishawy et al. Arabic summarization in twitter social network
CN108763214B (zh) 一种针对商品评论的情感词典自动构建方法
CN111694958A (zh) 基于词向量与single-pass融合的微博话题聚类方法
Hu et al. Latent topic model for audio retrieval
Garg et al. The structure of word co-occurrence network for microblogs
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
US20170193197A1 (en) System and method for automatic unstructured data analysis from medical records
CN108304479B (zh) 一种基于图结构过滤的快速密度聚类双层网络推荐方法
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN106776672A (zh) 技术发展脉络图确定方法
CN112989802A (zh) 一种弹幕关键词提取方法、装置、设备及介质
Rajagopal et al. Commonsense-based topic modeling
Singh et al. Sentiment analysis of Twitter data using TF-IDF and machine learning techniques
Aggarwal Mining text and social streams: A review
CN106126605A (zh) 一种基于用户画像的短文本分类方法
CN113988053A (zh) 一种热词提取方法及装置
CN112949713A (zh) 一种基于复杂网络的集成学习的文本情感分类方法
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
Charnine et al. Measuring of" idea-based" influence of scientific papers
Aggarwal Mining text streams
Widjanarko et al. Multi document summarization for the Indonesian language based on latent dirichlet allocation and significance sentence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210914