CN103761225B - 一种数据驱动的中文词语义相似度计算方法 - Google Patents

一种数据驱动的中文词语义相似度计算方法 Download PDF

Info

Publication number
CN103761225B
CN103761225B CN201410033339.1A CN201410033339A CN103761225B CN 103761225 B CN103761225 B CN 103761225B CN 201410033339 A CN201410033339 A CN 201410033339A CN 103761225 B CN103761225 B CN 103761225B
Authority
CN
China
Prior art keywords
word
semantic similarity
story
idf
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410033339.1A
Other languages
English (en)
Other versions
CN103761225A (zh
Inventor
冯伟
聂学成
杨昂
党建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING HONGBO ZHIWEI SCIENCE & TECHNOLOGY Co.,Ltd.
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201410033339.1A priority Critical patent/CN103761225B/zh
Publication of CN103761225A publication Critical patent/CN103761225A/zh
Application granted granted Critical
Publication of CN103761225B publication Critical patent/CN103761225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种数据驱动的中文词语义相似度计算方法,包括以下步骤:文本故事集合的初始化;建立相关性关系图模型;通过tf‑idf可分性值对所述相关性关系图模型进行修剪;将修剪后的相关性关系图模型作为Simrank算法输入,通过Simrank的迭代计算词语对之间的语义相似度;以所述语义相似度为核心定义柔性语义相似度度量模型;基于所述柔性语义相似度度量模型对中文新闻文本进行协同分割。本方法能更好的区分出属于同一主题的词语和不属于同一主题的词语,同时还能度量词字与其组成的词语之间的语义相似度。在标准数据集上的实验显示,相对于现有方法,新闻故事协同分割的结果的F1‑measure绝对值增长了11%。

Description

一种数据驱动的中文词语义相似度计算方法
技术领域
本发明涉及计算机与媒体计算领域,特别涉及一种数据驱动的中文词语义相似度计算方法。
背景技术
故事协同分割旨在多个文本之间提取出属于同一主题的故事,在实践中,故事协同分割对于高层次的语义总结和行为分析等是一个很重要的预处理操作。
在特定的条件下,诸如:已知主题模型和预先主题标定的情况下,主题检测与跟踪方法(TDT)[1]能够被用于故事协同分割。相比之下,Feng et al.于2012年提出了一个基于概率图模型的[2],更加通用和无监督的方法用以自动地检测语义相似的文本故事对。此方法纯粹以数据为导向并且全部依赖于主题间和主题内的语义相似性的依赖与约束。因此,如何正确地度量语义相似度得以极大程度地影响故事分割的准确性。根据“词袋”模型,词语出现的频率分布可以用来表示词语流的语义,也就是说,两个相同的词语间的相似度为1,否则为0。此方式有助于简化模型,但是,将词与词之间潜在的相似性关系考虑进来将会更有意义。
度量词语的语义相似度在自然语言处理(NLP)领域中是一个很重要的课题,同时也是其他多种应用的重要基础,例如,2002年Pantel and Lin提出的词义排歧[3];1998年Lin提出了一种信息论定义的词语相似性[4][5],此相似性度量是语料库为本的并来源于一系列的关于相似性的假设。对于英文来说,2004年Pedersen et al.提出的WordNet::Similarity[6]是一种能够度量任意两个英文单词间相似度的度量方法,它基于预先主题标定的语料库,根据单词的含义,将名词、动词、副词和形容词编组入一个继承关系的层次结构,达到对单词分类和关联的目的。2008年Kolb提出了一个DISCO方法[7],用以检索多种语言之间给定任意两个词的语义相似度。但是WordNet::Similarity和DISCO都不能处理中文的语义相似度。同时,此类基于先验知识的语义相似度度量方法不如只依赖语料数据驱动的方法受欢迎,因为后者能够产生更相关的度量来更好的产生协同分割结果。
发明内容
本发明提供了一种数据驱动的中文词语义相似度计算方法,本发明实现了对中文的语义相似度的处理,且取得了较高的相似度精度,详见下文描述:
一种数据驱动的中文词语义相似度计算方法,所述方法包括以下步骤:
(1)文本故事集合的初始化;
(2)建立相关性关系图模型;
(3)通过tf-idf可分性值对所述相关性关系图模型进行修剪;
(4)将修剪后的相关性关系图模型作为Simrank算法输入,通过Simrank的迭代计算词语对之间的语义相似度;
(5)以所述语义相似度为核心定义柔性语义相似度度量模型;
(6)基于所述柔性语义相似度度量模型对中文新闻文本进行协同分割。
所述文本故事集合的初始化的步骤具体为:
1)输入带有故事边界和故事主题标定的文本集合每个主题由m个故事组成,表示第i个主题的第j个故事,n为主题的数量;
2)提取出文本集合C中所有出现的词,去掉重复组成有顺序的词语集合Vword,提取文本集合C中所有的字组成字集合Vchar,词语集合Vword与字集合Vchar取并集生成词典V;
3)以词语集合Vword中的元素为向量的基,对文本集合C中的每个故事建立词频向量模型。
所述词频向量模型的步骤具体为:
将不同长度不同内容的故事表现为维度相同的词频向量,词频向量的每个元素表示词语集合Vword中的词语在故事中出现的频率。
所述建立相关性关系图模型的步骤具体为:
1)建立词对上下文连接图模型:
2)建立词语局部连接图模型;
3)通过所述词对上下文连接图模型和所述词语局部连接图模型建立相关性关系图模型;
所述相关性关系图模型具体为:G=<V,E,W>
节点集合V=Vword∪Vchar,边集合E=EC∪EP,边权重集合W=WC∪WP,其中,EC为词对上下文连接图的边集合;EP为词语局部连接图的边集合;WC为词对上下文连接图的边权重集合;WP为词语局部连接图的边权重集合。
所述通过tf-idf可分性值对所述相关性关系图模型进行修剪的步骤具体为:
其中,
tf-idf表示词频-逆向文件频率,tf-idfa表示词语wa对于文本集中所有主题计算出的tf-idf值的集合,以mean{tf-idfa}为阈值,对集合tf-idfa中大于阈值的数值再求一次平均即得到词语wa的可分性值Disc(wa),通过对可分性值低于设定阈值d的词语节点以及与该节点连接的边进行清除,同时将清除词语后产生的孤立的汉字节点也进行清除。
所述将修剪后的相关性关系图模型作为Simrank算法输入,通过Simrank的迭代计算词语对之间的语义相似度的步骤具体为:
获取语义相似度矩阵为
其中,Mca为加强后的语义相似度矩阵,M'ca(i,j)表示词语集合Vword中第i个词和第j个词之间的语义相似度;Disc(wi)和Disc(wj)用于表示可分性值。
所述以所述语义相似度为核心定义柔性语义相似度度量模型的步骤具体为:
其中,Fx为文本sx的词频向量模型,Fy为文本sy的词频向量模型,T为转置,Sim(sx,sy|Mca)表示文本故事sx和sy之间的柔性语义相似度。
本发明提供的技术方案的有益效果是:本方法基于文本集中的故事边界和故事的主题标定的相关信息,相对于预先的主题标定,定位文本集的故事边界更加容易。本方法综合考虑了数据集中任意词与词之间、字与字之间的语义相似度,提供了一种低监督的只基于数据集文本的中文语义相似度度量方法。与现有语义相似度度量方式比较,本方法能更好的区分出属于同一主题的词语和不属于同一主题的词语,同时还能度量词字与其组成的词语之间的语义相似度。在句子级别方面,通过本方法定义的平均主题内语义相似度和平均主题间语义相似度之比与现有方法相比有明显提高。采用同样的中文新闻文本分割方法的情况下,基于本语义相似度度量方法的中文新闻文本分割结果的精度F1-measure比现有方法提高了11%。
附图说明
图1为数据驱动的中文词语义相似度计算方法的流程图;
图2为相关性关系图模型的示意图;
图3为四种语义相似度量方法的文本协同分割结果的F1-measure对比图;
图4为针对2个数据集的四种语义相似度量方法的随机参数表现对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本方法作进一步详细描述。在利用本方法建立的柔性语义相似度进行的中文新闻文本协同分割的实例中,使用柔性语义相似度度量替代现有的基于欧式距离的硬性语义相似度,并适用于现有的中文新闻文本协同分割框架之中。实验表明,本方法提出的柔性语义相似度对于主题内和主题间的词语有更好的区分性,结合现有的中文新闻文本协同分割框架算法,能更准确和合理地将文档对中属于同一主题的故事分割出来。
101:文本故事集合的初始化;
其中,步骤101具体如下:
1)输入文本故事集:输入带有故事边界和故事主题标定的文本集合该文本集合由n个主题构成,每个主题由m个故事组成,表示第i个主题的第j个故事。
2)提取词典:提取出该文本集合C中所有出现的词,去掉重复组成有顺序的词语集合Vword,词语的排列顺序符合第一次出现的先后顺序。提取该文本集合中所有的字组成字集合Vchar,词语集合与字集合取并集生成词典V。
3)生成词频向量模型:以词语集合Vword中的元素为向量的基,对于文本集合C中的每个故事建立词频向量模型,即将不同长度不同内容的故事表现为维度相同的词频向量,向量的每个元素表示词语集合Vword中该位置的词语在该故事中出现的频率。
102:相关性关系图模型(Correlated Affinity Graph,CAG)的建立;
基于“词袋”模型,主题相关的词语更倾向于同时出现在同一个故事里,即上下文连接;此外,组成中文词语的单个汉字往往也有其自己的意思,于是,含有相同汉字的不同词语也更有可能语义相关。基于此,建立的相关性关系图模型实际上由两个子图组成:词对上下文连接图模型和词语局部连接图模型。
1)词对上下文连接图模型的建立:
在词对上下文连接图中,节点为词语集合Vword中所有的词语。对于词语集合Vword中任意词对wa和wb,当且仅当wa和wb同时间出现在同一故事S中,且wa和wb之间的距离小于某一个阈值τ时(τ的通常取值为5),认为词语对wa和wb为上下文连接,并在该词对节点之间建立一条边。基于此标准便能建立无权值的词对上下文连接图[8][9]
注意到,词语对(wa,wb)在数据集的同一个故事S中的上下文连接次数可能不止一次,于是对于文本集合该集合含有个主题T,每个主题包含m个故事S,定义此文本集合中任意词语对wa和wb的连接相似度WC'(a,b)为:
其中,表示词语wa在故事i中出现的频率,表示词语wb在故事i中出现的频率,Cab表示词对(wa,wb)同时出现在同一个主题下同一个故事中的频率,即上文所说的上下文连接次数,而freqmax=max(i,j){freq(i,j)}表示任意故事之间任意词语对被连接次数的最大值,也就是计算值的最大值。ε>0是一个常量用来保证0≤WC'(a,b)<1。然后将WC'(a,b)作为连接词语对(wa,wb)的边的权值。
考虑到词语对(wa,wb)在同一主题Tx不同故事里(Si或Sj)同时存在对词语对(wa,wb)间语义相似度的正面影响,在WC'(a,b)基础上添加项:
(wa∈Si∈Tx,wb∈Sj∈Tx,i≠j)
添加的项为词语对(wa,wb)在同一主题不同故事中(Si或Sj)出现的频率乘积之和。
考虑到词语对(wa,wb)在不同主题(Tx或Ty)不同故事里(Si或Sj)的同时存在对词对(wa,wb)间语义相似度的负面影响,在WC'(a,b)+addC(a,b)的基础上减少项:
(wa∈Si∈Tx,wb∈Sj∈Ty,x≠y)
至此,词语上下文连接图模型中,连接词对节点(wa,wb)之间的边的权值WC,即词对(wa,wb)的上下文连接相似度为:
WC(a,b)=WC'(a,b)+addC(a,b)-subC(a,b)。
2) 词语局部连接图模型的建立:
在词语局部连接图模型中,节点为词语集合Vword与字集合Vchar的并集中所有的元素,当某一个字cz出现在词语wa中时,便在该字节点和该词语节点之间建立边。至此,连接字cz和词语wa的边的权值WP为该词语的局部连接相似度,表示为:
其中,表示字cz在词语wa中出现的次数,la表示词语wa的长度。
3) 相关性关系图模型(CAG)的建立:
通过对词对上下文连接图和词语局部连接图做并集,即两个图中节点作并集,连接节点的边也做并集,得到的图模型便是相关性关系图模型G=<V,E,W>如图2所示,节点集合V=Vword∪Vchar,边集合E=EC∪EP,边权重集合W=WC∪WP。其中,EC为词对上下文连接图的边集合;EP为词语局部连接图的边集合;WC为词对上下文连接图的边权重集合;WP为词语局部连接图的边权重集合。
在相关性关系图模型中,词语与词语之间可以直接通过上下文连接相关联,也可通过包含的共同的汉字来间接的相关联。
103:通过tf-idf可分性值[10]对相关性关系图模型进行修剪;
其中,步骤103具体如下:
对于相关性关系图模型中每一个词语节点wa,用tf-idf(词频-逆向文件频率)值计算方法计算其在该文本数据集中的可分性值:
其中
tf-idfa表示词语wa对于文本集中所有主题计算出的tf-idf值的集合。然后以mean{tf-idfa}为阈值,对集合tf-idfa中大于阈值的数值再求一次平均即得到词语wa的可分性值Disc(wa)。至此得以计算出Vword中每个词语的可分性值,通过对可分性值低于设定阈值d的词语节点以及与该节点连接的边进行清除,同时将清除词语后产生的孤立的汉字节点也进行清除,得以对相关性关系图模型进行精简处理,保留更具有主题代表性的词语节点。同时,词语的可分性值得分也将用于后续步骤为Simrank迭代计算中完善和增强相关性关系图模型的效果。
104:将修剪后的相关性关系图模型(CAG)作为Simrank算法输入,通过Simrank的迭代计算词语对之间的语义相似度;
其中,步骤104具体如下:
将修剪后的相关性关系图模型作为Simrank算法[11]的输入,利用Simrank算法对相似度的传播,计算相关性关系图中任意节点之间的语义相似度。通过Simrank计算得到的语义相似度矩阵为。同时,使用词语的可分性值来对得到的语义相似度矩阵进行完善和加强:
其中,Mca为加强后的语义相似度矩阵。M'ca(i,j)表示词语集合Vword中第i个词和第j个词之间的语义相似度;Disc(wi)和Disc(wj)也用于表示可分性值。
105:以语义相似度为核心定义柔性语义相似度度量模型;
其中,步骤105具体如下:
文本sx和文本sy之间的语义相似度,决定于该文本对之间的所有词语对组合的语义相似度之和。以语义相似度矩阵为核心,建立柔性语义相似度度量模型[12]
其中,Fx为文本sx的词频向量模型,Fy为文本sy的词频向量模型,T为转置,Sim(sx,sy|Mca)表示文本故事sx和sy之间的柔性语义相似度。基于此语义相似度度量的文本协同分割相比于现有方法将会有更准确和合理的结果。
至此,根据以上步骤,从输入带主题标定和故事边界的文本数据集开始,经过数据初始化,相关性关系图模型建立,图模型修剪,到Simrank语义相似度计算,一直到柔性语义相似度度量的建立。本方法建立了低监督的基于文本数据集导向的中文文本语义相似度的度量方法。
106:基于柔性语义相似度度量模型对中文新闻文本进行协同分割。
1)中文新闻故事协同分割算法框架;
现有的新闻故事协同分割算法框架的核心基于马尔可夫随机场模型,提出一种四步迭代的方法来解决新闻故事协同分割问题。算法的第一步是对前景和背景标识的初始化,这是通过对词汇进行聚类然后从中选出相似的簇来完成的;第二步使用当前的标定结果对前景和背景模型进行更新;第三步将新闻故事协同分割的问题形式化为能量方程最小化问题;最后通过混合优化的方法来完成对前景和背景标定的修正。具体技术方法和细节请参考[12]。将本方法提出的柔性语义相似度度量模型代入现有算法框架中替换现有算法框架使用的硬性语义相似度度量(欧式距离度量)方法,以提高语义相似度度量的准确度。
2)计算得到的基于柔性语义相似度的中文协同分割结果与协同分割查找目标的相似性。
本实施例中,在TDT2数据集中进行实验,检测结果的准确率定义为:
其中,
Xcorrect表示分割结果中正确的结点集合,X表示新闻故事协同分割产生前景的所有句子的标识集合,Xgroundtruth表示真解。使用F1-measure对分割结果进行评价,F1-measure得分越高表示分割结果越好,反之,越差。
下面以具体的试验来验证本方法提供的一种数据驱动的中文词语义相似度计算方法可行性,详见下文描述:
图3给出了四种相似度量方法:1)由词语上下文连接图和词局部连接图组成的相关性关系图;2)仅由词语上下文连接图构成的相关性关系图;3)仅由词语局部连接图构成的相关性关系图;4)现有的算法框架中(Feng提出的)硬性语义相似度。
基于上述四种语义相似度度量方法,在TDT2数据集上进行中文新闻故事协同分割,对比F1-measure值的平均值结果,可以看出词语上下文连接图和局部连接图都对词语的相似度度量有提高效果,相关性关系图模型在现有硬性相似度基础上提高了11%(即(0.6364-0.5729)/0.5729)。
图4为针对2个数据集(TDT2ref和TDT2reg),在 20对随机参数的设置下,基于四种语义相似度度量方法的文本协同分割的准确率对比,可以看出参数即使随机设置,相关性关系图模型的表现都优于现有的硬性语义相似度模型,验证了本方法的可行性。
综上所述,为了获得任意只带有故事边界的文本语料集中的任意中文词语间的语义相似度,本方法首先根据文本语料集中任意词语对在同一故事中共同出现的频率,以及该词语对的上下文的连接关系建立任意词语对上下文连接图;与此同时建立词语对上下文连接相似度模型,为词语对上下文连接图中的边赋予权值。然后,根据语料集中每个词语和组成该词语的单个汉字之间的“整体-部分”的连接关系建立词语局部连接图;同时建立词语局部连接相似度模型,为词语局部连接图中的边赋予权值。之后将此前建立的两个图做并集,建立相关性关系图模型。然后根据该图模型中每个节点词的差异值(TF-IDF值),对图模型中差异值低于平均差异值的节点进行修剪。然后将得到的相关性关系图模型作为Simrank算法的输入,输出为该图所有节点对之间的语义相似度矩阵。最后,凭借得到的语义相似度矩阵,得以度量此语料集中任意词语对间的语义相似度,此结果可以应用到自然语言处理的多个任务当中,如文本分割与协同分割、文本相似度计算等。此结果加上现有的中文新闻文本协同分割框架,得以对中文新闻文本进行更准确的协同分割,以用于更高级别的自然语言处理任务,如:主题跟踪,文本内容分析等。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
参考文献:
[1] J. Allan, J. Carbonell, G. Doddington, J. Yamron, and Y. Yang.1998. Topic detection and tracking pilot study: Final report. The DARPABroadcast News Transcription and Understanding Workshop, pages 194–218.
[2] W. Feng, X. Nie, L. Wan, L. Xie, and J. Jiang. 2012. Lexicalstory co-segmentation of Chinese broadcast news. In INTERSPEECH.
[3] P. Pantel and D. Lin. 2002. Discovering word senses from text. InSIGKDD.
[4] D. Lin. 1998a. Automatic retrieval and clustering of similarwords. In ACL.
[5] D. Lin. 1998b. An information-theoretic definition of similarity.In ICML.
[6] T. Pedersen, S. Patwardhan, and J. Michelizzi. 2004. Wordnet::similarity - measuring the relatedness of concepts. In AAAI.
[7] P. Kolb. 2008. Disco: A multilingual database of distributionallysimilarwords. In KONVENS.
[8] G. Ambwani and A. R. Davis. 2010. Contextuallymediated semanticsimilarity graphs for topic segmentation. In ACL.
[9] X. Nie, W. Feng, L.Wan, and L. Xie. 2013. Measuring semanticsimilarity by contextual word connections in Chinese news story segmentation.In ICASSP.
[10] G. Salton, C. Buckley et al. Term Weighting Approaches inAutomatic Text Retrieval.Technical Report. Cornell University, Ithaca, NY,USA, 1987.
[11] G. Jeh and J. Widom. 2002. SimRank: A measure of structural-context similarity. In SIGKDD.
[12] K. W. Church and P. Hanks. 1990. Word association norms, mutualinformation, and lexicography. Computational Linguistics, 16(1):22–29.

Claims (2)

1.一种数据驱动的中文词语义相似度计算方法,其特征在于,所述方法包括以下步骤:
(1)文本故事集合的初始化;
(2)建立相关性关系图模型;
(3)通过tf-idf可分性值对所述相关性关系图模型进行修剪;
(4)将修剪后的相关性关系图模型作为Simrank算法输入,通过Simrank的迭代计算词语对之间的语义相似度;
(5)以所述语义相似度为核心定义柔性语义相似度度量模型;
(6)基于所述柔性语义相似度度量模型对中文新闻文本进行协同分割;
其中,所述文本故事集合的初始化的步骤具体为:
1)输入带有故事边界和故事主题标定的文本集合每个主题由m个故事组成,表示第i个主题的第j个故事,n为主题的数量;
2)提取出文本集合C中所有出现的词,去掉重复组成有顺序的词语集合Vword,提取文本集合C中所有的字组成字集合Vchar,词语集合Vword与字集合Vchar取并集生成词典V;
3)以词语集合Vword中的元素为向量的基,对文本集合C中的每个故事建立词频向量模型;
其中,所述建立相关性关系图模型的步骤具体为:
1)建立词对上下文连接图模型;
2)建立词语局部连接图模型;
3)通过所述词对上下文连接图模型和所述词语局部连接图模型建立相关性关系图模型;
所述相关性关系图模型具体为:G=<V,E,W>
V=VwordUVchar,边集合E=EC UEP,边权重集合W=WC UWP,其中,EC为词对上下文连接图的边集合;EP为词语局部连接图的边集合;WC为词对上下文连接图的边权重集合;WP为词语局部连接图的边权重集合;
其中,所述通过tf-idf可分性值对所述相关性关系图模型进行修剪的步骤具体为:
D i s c ( w a ) = m e a n { t f - idf l a y e r a }
其中,
t f - idf l a y e r a = { t f - i d f : t f - idf i a > m e a n { t f - idf a } , i = 1 , .. , n }
tf-idf表示词频-逆向文件频率,tf-idfa表示词语wa对于文本集中所有主题计算出的tf-idf值的集合,其中tf-idfi a表示集合tf-idfa中的第i个数值,以mean{tf-idfa}为阈值,对集合tf-idfa中大于阈值的数值再求一次平均即得到词语wa的可分性值Disc(wa),对可分性值低于设定阈值d的词语节点、以及与该节点连接的边进行清除,同时将清除词语后产生的孤立的汉字节点也进行清除;
所述将修剪后的相关性关系图模型作为Simrank算法输入,通过Simrank的迭代计算词语对之间的语义相似度的步骤具体为:
获取语义相似度矩阵为
M c a = { D i s c ( w i ) M &prime; c a ( i , j ) D i s c ( w j ) } i , j &Element; | V w o r d | ;
其中,Mca为加强后的语义相似度矩阵,M'ca(i,j)表示词语集合Vword中第i个词和第j个词之间的语义相似度;Disc(wi)和Disc(wj)用于表示可分性值;
所述以所述语义相似度为核心定义柔性语义相似度度量模型的步骤具体为:
S i m ( s x , s y | M c a ) = F x T M c a F y F x T M c a F x F y T M c a F y
其中,Fx为文本sx的词频向量模型,Fy为文本sy的词频向量模型,T为转置,Sim(sx,sy|Mca)表示文本故事sx和sy之间的柔性语义相似度。
2.根据权利要求1所述的一种数据驱动的中文词语义相似度计算方法,其特征在于,所述建立词频向量模型的步骤具体为:
将不同长度不同内容的故事表现为维度相同的词频向量,词频向量的每个元素表示词语集合Vword中的词语在故事中出现的频率。
CN201410033339.1A 2014-01-23 2014-01-23 一种数据驱动的中文词语义相似度计算方法 Active CN103761225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410033339.1A CN103761225B (zh) 2014-01-23 2014-01-23 一种数据驱动的中文词语义相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410033339.1A CN103761225B (zh) 2014-01-23 2014-01-23 一种数据驱动的中文词语义相似度计算方法

Publications (2)

Publication Number Publication Date
CN103761225A CN103761225A (zh) 2014-04-30
CN103761225B true CN103761225B (zh) 2017-03-29

Family

ID=50528465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410033339.1A Active CN103761225B (zh) 2014-01-23 2014-01-23 一种数据驱动的中文词语义相似度计算方法

Country Status (1)

Country Link
CN (1) CN103761225B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104158840B (zh) * 2014-07-09 2017-07-07 东北大学 一种分布式计算图节点相似度的方法
CN105005554A (zh) * 2015-06-30 2015-10-28 北京信息科技大学 一种词汇语义相关度的计算方法
CN109255040B (zh) * 2018-07-27 2021-10-22 昆明理工大学 一种基于矩阵运算的相似汉字提取方法
CN110287424B (zh) * 2019-06-28 2021-07-20 中国人民大学 基于单源SimRank的协同过滤推荐方法
CN113688685B (zh) * 2021-07-26 2023-09-22 天津大学 基于交互场景下的手语识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955837A (zh) * 2011-12-13 2013-03-06 华东师范大学 一种基于中文词对关系相似度的类比检索控制方法
CN103177087A (zh) * 2013-03-08 2013-06-26 浙江大学 一种基于概率主题模型的相似中药检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955837A (zh) * 2011-12-13 2013-03-06 华东师范大学 一种基于中文词对关系相似度的类比检索控制方法
CN103177087A (zh) * 2013-03-08 2013-06-26 浙江大学 一种基于概率主题模型的相似中药检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Lexical story co-segmentation of Chinese broadcast news;Wei Feng 等;《INTERSPEECH》;20121231;1-4 *
Maximum Lexical Cohesion for Fine-Grained News Story Segmentation;Zihan Liu 等;《INTERSPEECH》;20101231;1301-1304 *
Measuring semantic similarity by contextualword connections in Chinese news story segmentation;Xuecheng Nie 等;《Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on》;20130531;8312-8316 *

Also Published As

Publication number Publication date
CN103761225A (zh) 2014-04-30

Similar Documents

Publication Publication Date Title
Jain et al. Application of machine learning techniques to sentiment analysis
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
US10706084B2 (en) Method and device for parsing question in knowledge base
CN102662931B (zh) 一种基于协同神经网络的语义角色标注方法
CN107885721A (zh) 一种基于lstm的命名实体识别方法
CN102799577B (zh) 一种中文实体间语义关系抽取方法
CN102880600B (zh) 基于通用知识网络的词语语义倾向性预测方法
CN103761225B (zh) 一种数据驱动的中文词语义相似度计算方法
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和系统
Bertaglia et al. Exploring word embeddings for unsupervised textual user-generated content normalization
US20140032207A1 (en) Information Classification Based on Product Recognition
Choudhury et al. Global topology of word co-occurrence networks: Beyond the two-regime power-law
CN110633467B (zh) 一种基于改进特征融合的语义关系抽取方法
CN107844608B (zh) 一种基于词向量的句子相似度比较方法
CN109783806A (zh) 一种利用语义解析结构的文本匹配方法
Sun et al. Hierarchical verb clustering using graph factorization
Alian et al. Arabic semantic similarity approaches-review
CN109918503B (zh) 基于动态窗口自注意力机制提取语义特征的槽填充方法
Xu et al. Product feature mining: Semantic clues versus syntactic constituents
Galitsky et al. Improving text retrieval efficiency with pattern structures on parse thickets
Ait-Saada et al. Unsupervised anomaly detection in multi-topic short-text corpora
CN103455638A (zh) 一种结合推理和半自动学习的行为知识提取方法和装置
Ebert et al. Lamb: A good shepherd of morphologically rich languages
CN103793491B (zh) 一种基于柔性语义相似性度量的中文新闻故事分割方法
Nie et al. Measuring semantic similarity by contextualword connections in chinese news story segmentation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210625

Address after: No.48, 1st floor, No.58, No.44, Middle North Third Ring Road, Haidian District, Beijing 100088

Patentee after: BEIJING HONGBO ZHIWEI SCIENCE & TECHNOLOGY Co.,Ltd.

Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92

Patentee before: Tianjin University

TR01 Transfer of patent right