CN104699667A - 改进的基于语义词典的词语相似度计算方法和装置 - Google Patents

改进的基于语义词典的词语相似度计算方法和装置 Download PDF

Info

Publication number
CN104699667A
CN104699667A CN201510083760.8A CN201510083760A CN104699667A CN 104699667 A CN104699667 A CN 104699667A CN 201510083760 A CN201510083760 A CN 201510083760A CN 104699667 A CN104699667 A CN 104699667A
Authority
CN
China
Prior art keywords
word
phrase
similarity value
similarity
semantic dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201510083760.8A
Other languages
English (en)
Inventor
张贯京
陈兴明
葛新科
克里斯基捏·普拉纽克
艾琳娜·古列莎
王海荣
张少鹏
方静芳
高伟明
程金兢
梁艳妮
周荣
李慧玲
波达别特·伊万
徐之艳
周亮
梁昊原
肖应芬
郑慧华
唐小浪
李潇云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai AnyCheck Information Technology Co Ltd
Original Assignee
Shenzhen Qianhai AnyCheck Information Technology Co Ltd
Shenzhen E Techco Information Technology Co Ltd
Shenzhen Beiwo Deke Biotechnology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai AnyCheck Information Technology Co Ltd, Shenzhen E Techco Information Technology Co Ltd, Shenzhen Beiwo Deke Biotechnology Research Institute Co Ltd filed Critical Shenzhen Qianhai AnyCheck Information Technology Co Ltd
Priority to CN201510083760.8A priority Critical patent/CN104699667A/zh
Priority to PCT/CN2015/073841 priority patent/WO2016127458A1/zh
Publication of CN104699667A publication Critical patent/CN104699667A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种改进的词语相似度计算方法。当待比较的所述词语A和所述词语B有其中一个不存在于所述语义词典中时,通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N];再计算所述词语A与所述扩展词组b[N]中每个词语的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值;取最大相似度值作为所述词语A与所述词语B的相似度值。本发明实施例通过对待比较的所述词语A和/或所述词语B进行同义词扩展,提高词语之间相似度计算的准确性,进而提高智能交互系统的智能化水平。

Description

改进的基于语义词典的词语相似度计算方法和装置
技术领域
本发明涉及计算机科学中自然语言处理技术领域,尤其涉及一种改进的基于语义词典的词语相似度计算方法。
背景技术
词语相似度计算在自然语音处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用。目前,国内外词语相似度计算方法之一是基于语义词典的词语相似度计算,常用的语义词典在汉语方面,有知网(Hownet)、同义词词林、中文概念词典等。
然而比较词语的相似性,首先要到语义词典对应的词库中查找该词语,若该词语不存在,如:“送到”与“送达”,其中若“送达”不在词库中,则其相似度无法计算,则会默认这两个词语之间的相似度为零。
基于此有必要提供一种改进的基于语义词典的词语相似度计算方法,以提高词语之间相似度计算的准确性,进而提高智能交互系统的智能化水平。
发明内容
本发明的主要目的在于提供一种改进的基于语义词典的词语相似度计算方法,提高词语之间相似度计算的准确性,进而提高智能交互系统的智能化水平。
为实现上述目的,本发明提供了一种改进的基于语义词典的词语相似度计算方法。
所述改进的基于语义词典的词语相似度计算方法包括如下步骤:
S10:获取待比较的词语A和词语B;
S20:当所述词语A和所述词语B都存在于所述语义词典中时,计算所述词语A与所述词语B的相似度值,否则执行步骤S30;
S30:通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N];计算所述词语A与所述扩展词组b[N]中每个词语的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值;取最大相似度值作为所述词语A与所述词语B的相似度值。
进一步地,所述改进的基于语义词典的词语相似度计算方法还包括如下步骤:
S40:当所述词组a[M]中的词语和/或所述词组b[N]中的词语不存在于所述语义词典中时,将所述词语A和/或所述词语B切分为单字词,建立所述词语A的单字词组aa[P]和/或所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,或所述单字词组aa[P]与所述词语B的相似度值,或所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。
优选地,所述步骤S40具体为:
当所述词组a[M]中的词语都不存在于所述语义词典中,且所述词组b[N]中的词语有存在于所述语义词典中时,将所述词语A切分为单字词,建立所述词语A的单字词组aa[P];计算所述单字词组aa[P]与所述词语B的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;
当所述词组b[N]中的词语都不存在于所述语义词典中,且所述词组a[M]中的词语有存在于所述语义词典中时,将所述词语B切分为单字词,建立所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;
当所述词组a[M]中的词语和所述词组b[N]中的词语都不存在于所述语义词典中时,将所述词语A和所述词语B分别切分为单字词,建立所述词语A的单字词组aa[P]和所述词语B的单字词组bb[Q];计算所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。
优选地,所述步骤S30具体为:
当所述词语A存在于语义词典中,且所述词语B不存在于语义词典中时,建立所述词语B的扩展词组b[N],依次计算所述词语A与扩展词组b[N]中每个词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值;
当所述词语A不存在于语义词典中,且所述词语B存在于语义词典中时,建立所述词语A的扩展词组a[M],依次计算所述扩展词组a[M]中所有词语与所述词语B的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值;
当所述词语A和所述词语B都不存在于语义词典中,建立所述词语A的扩展词组a[M]和所述词语B的扩展词组b[N],依次计算所述扩展词组a[M]中所有词语和所述扩展词组b[N]中所有词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值。
为实现上述目的,本发明提供了一种改进的基于语义词典的词语相似度计算装置。
所述改进的基于语义词典的词语相似度计算装置包括:
词语获取模块,用于获取待比较的词语A和词语B;
第一词语相似度计算模块,用于当所述词语A和所述词语B都存在于所述语义词典中时,计算所述词语A与所述词语B的相似度值;
第二词语相似度计算模块,用于当所述词语A和所述词语B至少一个不存在于所述语义词典中时,通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N],计算所述词语A与所述扩展词组b[N]中每个词语的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值,取最大相似度值作为所述词语A与所述词语B的相似度值。
进一步地,所述改进的基于语义词典的词语相似度计算装置还包括:
第三词语相似度计算模块,用于当所述词组a[M]中的词语和/或所述词组b[N]中的词语不存在于所述语义词典中时,将所述词语A和/或所述词语B切分为单字词,建立所述词语A的单字词组aa[P]和/或所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,或所述单字词组aa[P]与所述词语B的相似度值,或所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。
优选地,所述第三词语相似度计算模块具体用于:
当所述词组a[M]中的词语都不存在于所述语义词典中,且所述词组b[N]中的词语有存在于所述语义词典中时,将所述词语A切分为单字词,建立所述词语A的单字词组aa[P];计算所述单字词组aa[P]与所述词语B的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;
当所述词组b[N]中的词语都不存在于所述语义词典中,且所述词组a[M]中的词语有存在于所述语义词典中时,将所述词语B切分为单字词,建立所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;
当所述词组a[M]中的词语和所述词组b[N]中的词语都不存在于所述语义词典中时,将所述词语A和所述词语B分别切分为单字词,建立所述词语A的单字词组aa[P]和所述词语B的单字词组bb[Q];计算所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。
优选地,所述第二词语相似度计算模块具体用于:
当所述词语A存在于语义词典中,且所述词语B不存在于语义词典中时,建立所述词语B的扩展词组b[N],依次计算所述词语A与扩展词组b[N]中每个词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值;
当所述词语A不存在于语义词典中,且所述词语B存在于语义词典中时,建立所述词语A的扩展词组a[M],依次计算所述扩展词组a[M]中所有词语与所述词语B的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值;
当所述词语A和所述词语B都不存在于语义词典中,建立所述词语A的扩展词组a[M]和所述词语B的扩展词组b[N],依次计算所述扩展词组a[M]中所有词语和所述扩展词组b[N]中所有词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值。
本发明采用上述技术方案,带来的技术效果为:当待比较的所述词语A和所述词语B有其中一个不存在于所述语义词典中时,通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N],再计算所述词语A与所述扩展词组b[N]中每个词语的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值,取最大相似度值作为所述词语A与所述词语B的相似度值。本发明实施例通过对待比较的所述词语A和/或所述词语B进行同义词扩展,提高词语之间相似度计算的准确性,进而提高智能交互系统的智能化水平。
附图说明
图1为本发明改进的基于语义词典的词语相似度计算方法第一实施例流程示意图;
图2为本发明改进的基于语义词典的词语相似度计算装置第一实施例结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的主要目的在于提供一种改进的基于语义词典的词语相似度计算方法,提高词语之间相似度计算的准确性,进而提高智能交互系统的智能化水平。
为实现上述目的,本发明提供了一种改进的基于语义词典的词语相似度计算方法。
参照图1,图1为本发明改进的基于语义词典的词语相似度计算方法第一实施例流程示意图。
在一实施例中,如图1所示,所述改进的基于语义词典的词语相似度计算方法包括如下步骤:
S10:获取待比较的词语A和词语B;
具体地,可以通过多种方式获取待比较的词语A和词语B,例如,在智能交互系统中,要进行问题匹配时,所述词语A为从客户端获取,所述词语B从服务器端的数据库中年获取;或者在进行语句相似度计算是,所述词语A从语句1中获取,所述词语B从语句2中获取。
S20:当所述词语A和所述词语B都存在于所述语义词典中时,计算所述词语A与所述词语B的相似度值,否则执行步骤S30;
具体地,所述预设的语义词典是指HowNet语义词典,包括glossary.dat文件。分别判断所述词语A和所述词语B是否存在于预设的语义词典中,即在glossary.dat文件中分别查找所述词语A和所述词语B,若所述词语A和所述词语B都在所述语义词典中,则按照传统的计算词语相似度的方法计算所述词语A和所述词语B的相似度。此处所说的传统的计算词语相似度的方法是指现有技术中公开的基于语义词典的计算词语相似度的方法。
S30:通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N];计算所述词语A与所述扩展词组b[N]中每个词语的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值;取最大相似度值作为所述词语A与所述词语B的相似度值。
具体地,当所述词语A和/或所述词语B不在所述语义词典中,则需要基于预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N]。其中,a[M]为所述词语A的同义词扩展词组,M为自然数,代表了扩展词组a[M]中词语的个数;b[N]为所述词语B的同义词扩展词组,N为自然数,代表了扩展词组b[N]中词语的个数。本发明实施例中所述的预设的同义词词典可以基于现有的《同义词词林》或其他版本的同义词词典。
步骤S30在以下三种情况下需要做不同的处理,下述所说的传统的计算词语相似度的方法是指现有技术中公开的基于语义词典的计算词语相似度的方法。
(1)当所述词语A存在于语义词典中,且所述词语B不存在于语义词典中时,只需建立所述词语B的扩展词组b[N],按照传统的计算词语相似度的方法依次计算所述词语A与扩展词组b[N]中每个词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值;
(2)当所述词语A不存在于语义词典中,且所述词语B存在于语义词典中时,只需建立所述词语A的扩展词组a[M],按照传统的计算词语相似度的方法依次计算所述扩展词组a[M]中所有词语与所述词语B的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值;
(3)当所述词语A和所述词语B都不存在于语义词典中,则需要同时建立所述词语A的扩展词组a[M]和所述词语B的扩展词组b[N],按照传统的计算词语相似度的方法依次计算所述扩展词组a[M]中所有词语和所述扩展词组b[N]中所有词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值。
本发明实施例中当待比较的所述词语A和所述词语B有其中一个不存在于所述语义词典中时,通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N],再计算所述词语A与所述扩展词组b[N]中每个词语的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值,取最大相似度值作为所述词语A与所述词语B的相似度值。本发明实施例通过对待比较的所述词语A和/或所述词语B进行同义词扩展,提高词语之间相似度计算的准确性,进而提高智能交互系统的智能化水平。
在一个优选的实施例中,进一步地,当通过第一实施例的方法计算出所述词语A和所述词语B的相似度仍然为0时,所述改进的基于语义词典的词语相似度计算方法还包括如下步骤:
S40:当所述词组a[M]中的词语和/或所述词组b[N]中的词语不存在于所述语义词典中时,将所述词语A和/或所述词语B切分为单字词,建立所述词语A的单字词组aa[P]和/或所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,或所述单字词组aa[P]与所述词语B的相似度值,或所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。
优选地,所述步骤S40具体为:
当所述词组a[M]中的词语都不存在于所述语义词典中,且所述词组b[N]中的词语有存在于所述语义词典中时,将所述词语A切分为单字词,建立所述词语A的单字词组aa[P];计算所述单字词组aa[P]与所述词语B的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;
当所述词组b[N]中的词语都不存在于所述语义词典中,且所述词组a[M]中的词语有存在于所述语义词典中时,将所述词语B切分为单字词,建立所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;
当所述词组a[M]中的词语和所述词组b[N]中的词语都不存在于所述语义词典中时,将所述词语A和所述词语B分别切分为单字词,建立所述词语A的单字词组aa[P]和所述词语B的单字词组bb[Q];计算所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。
具体地,在一个实施例中,若所述词组a[M]中的词语和所述词组b[N]中的词语都不存在于所述语义词典中,将所述词语A和所述词语B分别切分为单字词,建立所述词语A的单字词组aa[P]和所述词语B的单字词组bb[Q]。假设所述词语A的单字词组为aa[P](aa[0],aa[1],aa[2],......,aa[P-1]),所述述词语B的单字词组为bb[Q](bb[0],bb[1],bb[2],......,bb[Q-1]),则aa[i](0≤i≤P-1)和bb[j](0≤j≤Q-1)之间的相似度可以用sim(aa[i],bb[j])表示,则词语A和词语B之间相似度sim2(A,B)公式如式(1)所示:
sim 2 ( A , B ) = ( Σ i = 0 P - 1 a i P + Σ j = 0 Q - 1 b j Q ) / 2     式(1)
式(1)中ai=max(sim(aa[i],bb[0]),sim(aa[i],bb[1]),...,sim(aa[i],bb[Q-1]));
bj=max(sim(bb[j],aa[0]),sim(bb[j],aa[1]),...,sim(bb[j],aa[P-1]))。
本发明实施例通过第一实施例的方法计算出所述词语A和所述词语B的相似度仍然为0时,进一步对所述词语A和/或所述词语B的扩展词a[M]中的词语和/或所述词组b[N]中的词语进行分析,将所述词语A和/或所述词语B切分为单字词,建立所述词语A的单字词组aa[P]和/或所述词语B的单字词组bb[Q],按照上述算法计算所述词语A和所述词语B的相似度,进一步提高了词语之间相似度计算的准确性,进而提高智能交互系统的智能化水平。
本发明改进的基于语义词典的词语相似度计算方法最佳实施例的伪代码如下,其中,sim函数是传统的计算词语相似度的算法,sim2函数以式(1)为原型,它的两个参数类型是字符串数组,当其中一个参数为字符串时,可以看作是长度为一的字符串数组:
为实现上述目的,本发明提供了一种改进的基于语义词典的词语相似度计算装置。
参照图2,图2为本发明改进的基于语义词典的词语相似度计算装置第一实施例结构示意图。
在一实施例中,如图2所示,所述改进的基于语义词典的词语相似度计算装置包括:
词语获取模块10,用于获取待比较的词语A和词语B;
具体地,可以通过多种方式获取待比较的词语A和词语B,例如,在智能交互系统中,要进行问题匹配时,所述词语A为从客户端获取,所述词语B从服务器端的数据库中年获取;或者在进行语句相似度计算是,所述词语A从语句1中获取,所述词语B从语句2中获取。
第一词语相似度计算模块20,用于当所述词语A和所述词语B都存在于所述语义词典中时,计算所述词语A与所述词语B的相似度值;
具体地,所述预设的语义词典是指HowNet语义词典,包括glossary.dat文件。分别判断所述词语A和所述词语B是否存在于预设的语义词典中,即在glossary.dat文件中分别查找所述词语A和所述词语B,若所述词语A和所述词语B都在所述语义词典中,则按照传统的计算词语相似度的方法计算所述词语A和所述词语B的相似度。此处所说的传统的计算词语相似度的方法是指现有技术中公开的基于语义词典的计算词语相似度的方法。
第二词语相似度计算模块30,用于当所述词语A和所述词语B至少一个不存在于所述语义词典中时,通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N],计算所述词语A与所述扩展词组b[N]中每个词语的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值,取最大相似度值作为所述词语A与所述词语B的相似度值。
具体地,当所述词语A和/或所述词语B不在所述语义词典中,则需要基于预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N]。其中,a[M]为所述词语A的同义词扩展词组,M为自然数,代表了扩展词组a[M]中词语的个数;b[N]为所述词语B的同义词扩展词组,N为自然数,代表了扩展词组b[N]中词语的个数。
所述第二词语相似度计算模块具体用于:在以下三种情况下需要做不同的处理,下述所说的传统的计算词语相似度的方法是指现有技术中公开的基于语义词典的计算词语相似度的方法。
(1)当所述词语A存在于语义词典中,且所述词语B不存在于语义词典中时,只需建立所述词语B的扩展词组b[N],按照传统的计算词语相似度的方法依次计算所述词语A与扩展词组b[N]中每个词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值;
(2)当所述词语A不存在于语义词典中,且所述词语B存在于语义词典中时,只需建立所述词语A的扩展词组a[M],按照传统的计算词语相似度的方法依次计算所述扩展词组a[M]中所有词语与所述词语B的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值;
(3)当所述词语A和所述词语B都不存在于语义词典中,则需要同时建立所述词语A的扩展词组a[M]和所述词语B的扩展词组b[N],按照传统的计算词语相似度的方法依次计算所述扩展词组a[M]中所有词语和所述扩展词组b[N]中所有词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值。
本发明实施例中当待比较的所述词语A和所述词语B有其中一个不存在于所述语义词典中时,通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N],再计算所述词语A与所述扩展词组b[N]中每个词语的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值,取最大相似度值作为所述词语A与所述词语B的相似度值。本发明实施例通过对待比较的所述词语A和/或所述词语B进行同义词扩展,提高词语之间相似度计算的准确性,进而提高智能交互系统的智能化水平。
在一个优选的实施例中,进一步地,所述改进的基于语义词典的词语相似度计算装置还包括:
第三词语相似度计算模块,用于当通过第一实施例的方法计算出所述词语A和所述词语B的相似度仍然为0时,进一步判断所述词组a[M]中的词语和/或所述词组b[N]中的词语是否都不存在于所述语义词典中时,将所述词语A和/或所述词语B切分为单字词,建立所述词语A的单字词组aa[P]和/或所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,或所述单字词组aa[P]与所述词语B的相似度值,或所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。
优选地,所述第三词语相似度计算模块具体用于:
当所述词组a[M]中的词语都不存在于所述语义词典中,且所述词组b[N]中的词语有存在于所述语义词典中时,将所述词语A切分为单字词,建立所述词语A的单字词组aa[P];计算所述单字词组aa[P]与所述词语B的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;
当所述词组b[N]中的词语都不存在于所述语义词典中,且所述词组a[M]中的词语有存在于所述语义词典中时,将所述词语B切分为单字词,建立所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;
当所述词组a[M]中的词语和所述词组b[N]中的词语都不存在于所述语义词典中时,将所述词语A和所述词语B分别切分为单字词,建立所述词语A的单字词组aa[P]和所述词语B的单字词组bb[Q];计算所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。
具体地,在一个实施例中,若所述词组a[M]中的词语和所述词组b[N]中的词语都不存在于所述语义词典中,将所述词语A和所述词语B分别切分为单字词,建立所述词语A的单字词组aa[P]和所述词语B的单字词组bb[Q]。假设所述词语A的单字词组为aa[P](aa[0],aa[1],aa[2],......,aa[P-1]),所述述词语B的单字词组为bb[Q](bb[0],bb[1],bb[2],......,bb[Q-1]),则aa[i](0≤i≤P-1)和bb[j](0≤j≤Q-1)之间的相似度可以用sim(aa[i],bb[j])表示,则词语A和词语B之间相似度sim2(A,B)公式如式(1)所示:
sim 2 ( A , B ) = ( Σ i = 0 P - 1 a i P + Σ j = 0 Q - 1 b j Q ) / 2     式(1)
式(1)中ai=max(sim(aa[i],bb[0]),sim(aa[i],bb[1]),...,sim(aa[i],bb[Q-1]));
bj=max(sim(bb[j],aa[0]),sim(bb[j],aa[1]),...,sim(bb[j],aa[P-1]))。
本发明实施例通过第一实施例的方法计算出所述词语A和所述词语B的相似度仍然为0时,进一步对所述词语A和/或所述词语B的扩展词a[M]中的词语和/或所述词组b[N]中的词语进行分析,将所述词语A和/或所述词语B切分为单字词,建立所述词语A的单字词组aa[P]和/或所述词语B的单字词组bb[Q],按照上述算法计算所述词语A和所述词语B的相似度,进一步提高了词语之间相似度计算的准确性,进而提高智能交互系统的智能化水平。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种改进的基于语义词典的词语相似度计算方法,其特征在于,所述改进的基于语义词典的词语相似度计算方法包括如下步骤:
S10:获取待比较的词语A和词语B;
S20:当所述词语A和所述词语B都存在于所述语义词典中时,计算所述词语A与所述词语B的相似度值,否则执行步骤S30;
S30:通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N];计算所述词语A与所述扩展词组b[N]中每个词语的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值;取最大相似度值作为所述词语A与所述词语B的相似度值。
2.如权利要求1所述的改进的基于语义词典的词语相似度计算方法,其特征在于,所述改进的基于语义词典的词语相似度计算方法还包括如下步骤:
S40:当所述词组a[M]中的词语和/或所述词组b[N]中的词语不存在于所述语义词典中时,将所述词语A和/或所述词语B切分为单字词,建立所述词语A的单字词组aa[P]和/或所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,或所述单字词组aa[P]与所述词语B的相似度值,或所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。
3.如权利要求2所述的改进的基于语义词典的词语相似度计算方法,其特征在于,所述步骤S40具体为:
当所述词组a[M]中的词语都不存在于所述语义词典中,且所述词组b[N]中的词语有存在于所述语义词典中时,将所述词语A切分为单字词,建立所述词语A的单字词组aa[P];计算所述单字词组aa[P]与所述词语B的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;
当所述词组b[N]中的词语都不存在于所述语义词典中,且所述词组a[M]中的词语有存在于所述语义词典中时,将所述词语B切分为单字词,建立所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;
当所述词组a[M]中的词语和所述词组b[N]中的词语都不存在于所述语义词典中时,将所述词语A和所述词语B分别切分为单字词,建立所述词语A的单字词组aa[P]和所述词语B的单字词组bb[Q];计算所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。
4.如权利要求1~3任一项所述的改进的基于语义词典的词语相似度计算方法,其特征在于,所述步骤S30具体为:
当所述词语A存在于语义词典中,且所述词语B不存在于语义词典中时,建立所述词语B的扩展词组b[N],依次计算所述词语A与扩展词组b[N]中每个词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值;
当所述词语A不存在于语义词典中,且所述词语B存在于语义词典中时,建立所述词语A的扩展词组a[M],依次计算所述扩展词组a[M]中所有词语与所述词语B的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值;
当所述词语A和所述词语B都不存在于语义词典中,建立所述词语A的扩展词组a[M]和所述词语B的扩展词组b[N],依次计算所述扩展词组a[M]中所有词语和所述扩展词组b[N]中所有词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值。
5.一种改进的基于语义词典的词语相似度计算装置,其特征在于,所述改进的基于语义词典的词语相似度计算装置包括:
词语获取模块,用于获取待比较的词语A和词语B;
第一词语相似度计算模块,用于当所述词语A和所述词语B都存在于所述语义词典中时,计算所述词语A与所述词语B的相似度值;
第二词语相似度计算模块,用于当所述词语A和所述词语B至少一个不存在于所述语义词典中时,通过预设的同义词词典建立所述词语A的扩展词组a[M]和/或所述词语B的扩展词组b[N],计算所述词语A与所述扩展词组b[N]中每个词语的相似度值,或所述扩展词组a[M]中每个词语与所述词语B的相似度值,或所述扩展词组a[M]中每个词语与扩展词组b[N]中每个词语的相似度值,取最大相似度值作为所述词语A与所述词语B的相似度值。
6.如权利要求5所述的改进的基于语义词典的词语相似度计算装置,其特征在于,所述改进的基于语义词典的词语相似度计算装置还包括:
第三词语相似度计算模块,用于当所述词组a[M]中的词语和/或所述词组b[N]中的词语不存在于所述语义词典中时,将所述词语A和/或所述词语B切分为单字词,建立所述词语A的单字词组aa[P]和/或所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,或所述单字词组aa[P]与所述词语B的相似度值,或所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。
7.如权利要求6所述的改进的基于语义词典的词语相似度计算装置,其特征在于,所述第三词语相似度计算模块具体用于:
当所述词组a[M]中的词语都不存在于所述语义词典中,且所述词组b[N]中的词语有存在于所述语义词典中时,将所述词语A切分为单字词,建立所述词语A的单字词组aa[P];计算所述单字词组aa[P]与所述词语B的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;
当所述词组b[N]中的词语都不存在于所述语义词典中,且所述词组a[M]中的词语有存在于所述语义词典中时,将所述词语B切分为单字词,建立所述词语B的单字词组bb[Q];计算所述词语A与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值;
当所述词组a[M]中的词语和所述词组b[N]中的词语都不存在于所述语义词典中时,将所述词语A和所述词语B分别切分为单字词,建立所述词语A的单字词组aa[P]和所述词语B的单字词组bb[Q];计算所述单字词组aa[P]与所述单字词组bb[Q]的相似度值,取所述相似度值作为所述词语A与所述词语B的相似度值。
8.如权利要求5~7任一项所述的改进的基于语义词典的词语相似度计算装置,其特征在于,所述第二词语相似度计算模块具体用于:
当所述词语A存在于语义词典中,且所述词语B不存在于语义词典中时,建立所述词语B的扩展词组b[N],依次计算所述词语A与扩展词组b[N]中每个词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值;
当所述词语A不存在于语义词典中,且所述词语B存在于语义词典中时,建立所述词语A的扩展词组a[M],依次计算所述扩展词组a[M]中所有词语与所述词语B的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值;
当所述词语A和所述词语B都不存在于语义词典中,建立所述词语A的扩展词组a[M]和所述词语B的扩展词组b[N],依次计算所述扩展词组a[M]中所有词语和所述扩展词组b[N]中所有词语的相似度值,并取最大相似度值作为所述词语A与所述词语B的相似度值。
CN201510083760.8A 2015-02-15 2015-02-15 改进的基于语义词典的词语相似度计算方法和装置 Withdrawn CN104699667A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510083760.8A CN104699667A (zh) 2015-02-15 2015-02-15 改进的基于语义词典的词语相似度计算方法和装置
PCT/CN2015/073841 WO2016127458A1 (zh) 2015-02-15 2015-03-07 改进的基于语义词典的词语相似度计算方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510083760.8A CN104699667A (zh) 2015-02-15 2015-02-15 改进的基于语义词典的词语相似度计算方法和装置

Publications (1)

Publication Number Publication Date
CN104699667A true CN104699667A (zh) 2015-06-10

Family

ID=53346806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510083760.8A Withdrawn CN104699667A (zh) 2015-02-15 2015-02-15 改进的基于语义词典的词语相似度计算方法和装置

Country Status (2)

Country Link
CN (1) CN104699667A (zh)
WO (1) WO2016127458A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106802918A (zh) * 2016-12-13 2017-06-06 成都数联铭品科技有限公司 用于自然语言处理的领域词典生成系统
CN108153735A (zh) * 2017-12-28 2018-06-12 北京奇艺世纪科技有限公司 一种近义词的获取方法及系统
CN108664464A (zh) * 2017-03-27 2018-10-16 中国移动通信有限公司研究院 一种语义相关度的确定方法及确定装置
CN108932222A (zh) * 2017-05-22 2018-12-04 中国移动通信有限公司研究院 一种获取词语相关度的方法及装置
CN109472019A (zh) * 2018-10-11 2019-03-15 厦门快商通信息技术有限公司 一种基于同义词典的短文本相似度匹配方法及系统
CN110737469A (zh) * 2019-09-29 2020-01-31 南京大学 一种功能粒度上基于语义信息的源代码相似度评估方法
CN111339262A (zh) * 2020-05-21 2020-06-26 北京金山数字娱乐科技有限公司 一种语句选词方法及装置
CN112528666A (zh) * 2019-08-30 2021-03-19 北京猎户星空科技有限公司 一种语义识别方法、装置及电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815484B (zh) * 2018-12-21 2022-03-15 平安科技(深圳)有限公司 基于交叉注意力机制的语义相似度匹配方法及其匹配装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101288071A (zh) * 2005-02-25 2008-10-15 西门子企业通讯有限责任两合公司 用于确定计算机服务名称的方法和计算机单元
CN103377239A (zh) * 2012-04-26 2013-10-30 腾讯科技(深圳)有限公司 计算文本间相似度的方法和装置
US8682898B2 (en) * 2010-04-30 2014-03-25 International Business Machines Corporation Systems and methods for discovering synonymous elements using context over multiple similar addresses
CN103678272A (zh) * 2012-09-17 2014-03-26 北京信息科技大学 汉语依存树库中未登录词的处理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622338B (zh) * 2012-02-24 2014-02-26 北京工业大学 一种短文本间语义距离的计算机辅助计算方法
CN102880600B (zh) * 2012-08-30 2015-10-28 北京航空航天大学 基于通用知识网络的词语语义倾向性预测方法
CN102968409B (zh) * 2012-11-23 2015-09-09 海信集团有限公司 智能人机交互语义分析方法及交互系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101288071A (zh) * 2005-02-25 2008-10-15 西门子企业通讯有限责任两合公司 用于确定计算机服务名称的方法和计算机单元
US8682898B2 (en) * 2010-04-30 2014-03-25 International Business Machines Corporation Systems and methods for discovering synonymous elements using context over multiple similar addresses
CN103377239A (zh) * 2012-04-26 2013-10-30 腾讯科技(深圳)有限公司 计算文本间相似度的方法和装置
CN103678272A (zh) * 2012-09-17 2014-03-26 北京信息科技大学 汉语依存树库中未登录词的处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张培颖 等: "多特征结合的词语相似度计算模型", 《计算机技术与发展》 *
朱毅华: "智能搜索引擎中的同义词识别算法研究", 《中国优秀博硕士学位论文全文数据库 (硕士) 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106802918A (zh) * 2016-12-13 2017-06-06 成都数联铭品科技有限公司 用于自然语言处理的领域词典生成系统
CN108664464A (zh) * 2017-03-27 2018-10-16 中国移动通信有限公司研究院 一种语义相关度的确定方法及确定装置
CN108664464B (zh) * 2017-03-27 2021-07-16 中国移动通信有限公司研究院 一种语义相关度的确定方法及确定装置
CN108932222A (zh) * 2017-05-22 2018-12-04 中国移动通信有限公司研究院 一种获取词语相关度的方法及装置
CN108932222B (zh) * 2017-05-22 2021-11-19 中国移动通信有限公司研究院 一种获取词语相关度的方法及装置
CN108153735A (zh) * 2017-12-28 2018-06-12 北京奇艺世纪科技有限公司 一种近义词的获取方法及系统
CN109472019A (zh) * 2018-10-11 2019-03-15 厦门快商通信息技术有限公司 一种基于同义词典的短文本相似度匹配方法及系统
CN109472019B (zh) * 2018-10-11 2023-02-10 厦门快商通信息技术有限公司 一种基于同义词典的短文本相似度匹配方法及系统
CN112528666A (zh) * 2019-08-30 2021-03-19 北京猎户星空科技有限公司 一种语义识别方法、装置及电子设备
CN110737469A (zh) * 2019-09-29 2020-01-31 南京大学 一种功能粒度上基于语义信息的源代码相似度评估方法
CN110737469B (zh) * 2019-09-29 2021-09-03 南京大学 一种功能粒度上基于语义信息的源代码相似度评估方法
CN111339262A (zh) * 2020-05-21 2020-06-26 北京金山数字娱乐科技有限公司 一种语句选词方法及装置

Also Published As

Publication number Publication date
WO2016127458A1 (zh) 2016-08-18

Similar Documents

Publication Publication Date Title
CN104699667A (zh) 改进的基于语义词典的词语相似度计算方法和装置
CN102541874B (zh) 网页正文内容提取方法及装置
US10824816B2 (en) Semantic parsing method and apparatus
CN103377226B (zh) 一种智能检索方法及其系统
CN103092828B (zh) 基于语义分析和语义关系网络的文本相似度度量方法
US20190196811A1 (en) Api specification generation
CN103617157A (zh) 基于语义的文本相似度计算方法
CN104933027A (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN105095444A (zh) 信息获取方法和装置
CN106294396A (zh) 关键词扩展方法和关键词扩展系统
JP2007094775A (ja) 意味解析装置、意味解析方法および意味解析プログラム
CN104063502A (zh) 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
CN110516040B (zh) 文本间的语义相似性比较方法、设备及计算机存储介质
CN102402561A (zh) 一种搜索方法和装置
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
CN103605781A (zh) 一种隐式篇章关系类型推理方法及系统
GB2575580A (en) Supporting interactive text mining process with natural language dialog
CN101833579A (zh) 一种自动检测学术不端文献的方法及系统
CN103886094A (zh) 电子商务搜索引擎纠错扩展方法
CN106372202A (zh) 文本相似度计算方法及装置
CN113761880A (zh) 一种用于文本校验的数据处理方法、电子设备及存储介质
CN117556050B (zh) 数据分类分级方法、装置、电子设备及存储介质
CN112948573B (zh) 文本标签的提取方法、装置、设备和计算机存储介质
JP2017010274A (ja) 対応付け装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150923

Address after: 518063 Guangdong city of Shenzhen province Qianhai Shenzhen Hong Kong cooperation zone before Bay Road No. 1 building 201 room A (located in Shenzhen Qianhai business secretary Co. Ltd.)

Applicant after: SHENZHEN QIANHAI ANCE INFORMATION TECHNOLOGY CO., LTD.

Address before: 518057 Guangdong city of Shenzhen province Nanshan District Hing Road two No. 6 Wuhan University B815 Shenzhen research building (real Qianhai settled in Shenzhen City, Secretary of Commerce Co. Ltd.)

Applicant before: SHENZHEN QIANHAI ANCE INFORMATION TECHNOLOGY CO., LTD.

Applicant before: Shenzhen Yi Teke Information Technology Co., Ltd

Applicant before: SHENZHEN BEIWO DEKE BIOTECHNOLOGY RESEARCH INSTITUTE CO., LTD.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20150610

WW01 Invention patent application withdrawn after publication