CN110442863B - 一种短文本语义相似度计算方法及其系统、介质 - Google Patents

一种短文本语义相似度计算方法及其系统、介质 Download PDF

Info

Publication number
CN110442863B
CN110442863B CN201910638949.7A CN201910638949A CN110442863B CN 110442863 B CN110442863 B CN 110442863B CN 201910638949 A CN201910638949 A CN 201910638949A CN 110442863 B CN110442863 B CN 110442863B
Authority
CN
China
Prior art keywords
short text
similarity
sense
word
sources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910638949.7A
Other languages
English (en)
Other versions
CN110442863A (zh
Inventor
张云翔
饶竹一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Power Supply Bureau Co Ltd
Original Assignee
Shenzhen Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Bureau Co Ltd filed Critical Shenzhen Power Supply Bureau Co Ltd
Priority to CN201910638949.7A priority Critical patent/CN110442863B/zh
Publication of CN110442863A publication Critical patent/CN110442863A/zh
Application granted granted Critical
Publication of CN110442863B publication Critical patent/CN110442863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种短文本语义相似度计算方法及其系统、存储介质,所述方法包括如下步骤:获取第一短文本和第二短文本,并获取第一短文本和第二短文本中的词语和独立义原;根据语义词典获取词语树状层次结构和义原树状层次结构;根据第一短文本和第二短文本中的词语和独立义原以及所述词语树状层次结构和义原树状层次结构计算所述词语相似度、义原相似度、以及实词概念的相似度;根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度。

Description

一种短文本语义相似度计算方法及其系统、介质
技术领域
本发明涉及短文本语义相似度技术领域,具体涉及一种短文本语义相似度计算方法及其系统、计算机可读存储介质。
背景技术
语义具有领域性特征,不属于任何领域的语义是不存在的,而语义异构则是指对同一事物在解释上所存在差异,也就体现为同一事物在不同领域中理解的不同,对于计算机科学来说,语义一般是指用户对于那些用来描述现实世界的计算机表示的解释,也就是用户用来联系计算机表示和现实世界的途径。语义是对数据符号的解释,而语法则是对于这些符号之间的组织规则和结构关系的定义,对于信息集成领域来说,数据往往是通过模式来组织的,数据的访问也是通过作用于模式来获得的,这时语义就是指模式元素的含义,而语法则是模式元素的结构。目前短文本语义相似度计算方法在计算中不够合理,方法不够细腻,对于词义的短文本中行为词语和抽象事物以及生命物体的词义计算度低,并且计算出的差距大,导致计算的结果不合理。
发明内容
本发明的目的在于提出一种短文本语义相似度计算方法及其系统、计算机可读存储介质,以解决目前短文本语义相似度计算方法存在的技术问题。
为了实现本发明目的,根据本发明第一方面,本发明实施例提供一种短文本语义相似度计算方法,其特征在于,包括如下步骤:
步骤S1、获取第一短文本和第二短文本,并获取第一短文本和第二短文本中的词语和独立义原;
步骤S2、根据语义词典获取词语树状层次结构和义原树状层次结构;
步骤S3、根据所述词语树状层次结构计算所述第一短文本和第二短文本中各词语之间的词语距离,并根据所述义原树状层次结构计算所述第一短文本和第二短文本中各义原之间在义原树状层次结构中的路径长度,计算所述第一短文本和第二短文本中各义原之间配对相似度;
步骤S3、根据所述各词语之间的词语距离计算所述第一短文本和第二短文本的词语相似度,根据所述各义原之间在义原树状层次结构中的路径长度计算所述第一短文本和第二短文本的词语相似度,以及根据所述各义原之间配对相似度计算所述第一短文本和第二短文本中实词概念的相似度;
步骤S4、根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度。
优选地,所述步骤S3包括词语相似度的计算,其计算过程如下:
Figure BDA0002131228860000021
Figure BDA0002131228860000022
其中,Sim(W)为第一短文本和第二短文本的词语相似度,第一短文本中包括n个词语,第二短文本中包括m个词语,Wij为第一短文本中第i个词语与第二短文本中第j个词语的词语相似度,0<i≤n,0<j≤n;Dis(Wi,Wj)为第一短文本中第i个词语与第一短文本中第j个词语的词语距离,k为比例系数。
优选地,所述步骤S3包括义原相似度的计算,其计算过程如下:
Figure BDA0002131228860000031
Figure BDA0002131228860000032
其中,Sim(P)为第一短文本和第二短文本的义原相似度,第一短文本中包括e个义原,第二短文本中包括u个义原,dij为第一短文本中第i个义原与第二短文本中第j个义原的义原相似度,0<i≤e,0<j≤u;Dis(Wi,Wj)为第一短文本中第i个义原与第一短文本中第j个义原的义原距离,α为可调节参数。
优选地,所述步骤S3包括实词概念的相似度的计算,其计算过程如下:
将第一短文本和第二短文本中所有独立义原进行任意配对,计算出所有可能的配对的义原相似度;
根据义原相似度对第一短文本和第二短文本中的独立义原进行分组,其中,取义原相似度最大的一对义原,并将它们归为一组;在剩下的独立义原的配对相似度中,取最大的一对,并归为一组;如此反复,直到所有独立义原都完成分组;
对每组义原的配对相似度进行加权求平均值得到所述实词概念的相似度。
优选地,所述步骤S4包括将所述词语相似度、义原相似度、以及实词概念的相似度进行加权求平均值得到所述第一短文本和第二短文本的语义相似度。
根据本发明第二方面,本发明实施例提供一种短文本语义相似度计算系统,包括:
文本获取单元,用于获取第一短文本和第二短文本,并获取第一短文本和第二短文本中的词语和独立义原;
树结构单元,用于根据语义词典获取词语树状层次结构和义原树状层次结构;
第一计算单元,用于根据所述词语树状层次结构计算所述第一短文本和第二短文本中各词语之间的词语距离,并根据所述义原树状层次结构计算所述第一短文本和第二短文本中各义原之间在义原树状层次结构中的路径长度,计算所述第一短文本和第二短文本中各义原之间配对相似度;
第二计算单元,用于根据所述各词语之间的词语距离计算所述第一短文本和第二短文本的词语相似度,根据所述各义原之间在义原树状层次结构中的路径长度计算所述第一短文本和第二短文本的词语相似度,以及根据所述各义原之间配对相似度计算所述第一短文本和第二短文本中实词概念的相似度;
第三计算单元,用于根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度。
优选地,所述第二计算单元包括词语相似度计算单元,其用于根据以下公式计算所述第一短文本和第二短文本的词语相似度;其中,公式如下:
Figure BDA0002131228860000041
Figure BDA0002131228860000042
其中,Sim(W)为第一短文本和第二短文本的词语相似度,第一短文本中包括n个词语,第二短文本中包括m个词语,Wij为第一短文本中第i个词语与第二短文本中第j个词语的词语相似度,0<i≤n,0<j≤n;Dis(Wi,Wj)为第一短文本中第i个词语与第一短文本中第j个词语的词语距离,k为比例系数。
优选地,所述第二计算单元包括义原相似度计算单元,其用于根据以下公式计算所述第一短文本和第二短文本的义原相似度;其中,公式如下:
Figure BDA0002131228860000051
Figure BDA0002131228860000052
其中,Sim(P)为第一短文本和第二短文本的义原相似度,第一短文本中包括e个义原,第二短文本中包括u个义原,dij为第一短文本中第i个义原与第二短文本中第j个义原的义原相似度,0<i≤e,0<j≤u;Dis(Wi,Wj)为第一短文本中第i个义原与第一短文本中第j个义原的义原距离,α为可调节参数。
优选地,所述第二计算单元包括实词概念相似度计算单元,其包括:
第一计算子单元,用于将第一短文本和第二短文本中所有独立义原进行任意配对,计算出所有可能的配对的义原相似度;
第二计算子单元,用于根据义原相似度对第一短文本和第二短文本中的独立义原进行分组,其中,取义原相似度最大的一对义原,并将它们归为一组;在剩下的独立义原的配对相似度中,取最大的一对,并归为一组;如此反复,直到所有独立义原都完成分组;
第三计算子单元,用于对每组义原的配对相似度进行加权求平均值得到所述实词概念的相似度。
根据本发明第三方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述短文本语义相似度计算方法。
在本发明实施例中,利用根据语义词典获取关于第一短文本和第二短文本中词语以及义原的词语树状层次结构和义原树状层次结构,根据语义词典获取词语树状层次结构和义原树状层次结构,并根据第一短文本和第二短文本中的词语和独立义原以及所述词语树状层次结构和义原树状层次结构计算所述词语相似度、义原相似度、以及实词概念的相似度,最后根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度,提高了语义短文本相似度计算方法在计算中的合理性,方法更加细腻,对于词义的短文本中行为词语和抽象事物以及生命物体的词义计算度有很大提高,分辨了文本中行为词语和抽象事物以及生命物体的相关度进行比较,并且对计算出的差距通过多次求和,计算其平均值,可以降低误差,让其更加合理。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而得以体现。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一中一种短文本语义相似度计算方法流程图。
图2为本发明实施例二中一种短文本语义相似度计算系统示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
另外,为了更好的说明本发明,在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的手段未作详细描述,以便于凸显本发明的主旨。
如图1所示,本发明实施例提供一种短文本语义相似度计算方法,包括如下步骤:
步骤S1、获取第一短文本和第二短文本,并获取第一短文本和第二短文本中的词语和独立义原;
步骤S2、根据语义词典获取词语树状层次结构和义原树状层次结构;
步骤S3、根据所述词语树状层次结构计算所述第一短文本和第二短文本中各词语之间的词语距离,并根据所述义原树状层次结构计算所述第一短文本和第二短文本中各义原之间在义原树状层次结构中的路径长度,计算所述第一短文本和第二短文本中各义原之间配对相似度;
步骤S4、根据所述各词语之间的词语距离计算所述第一短文本和第二短文本的词语相似度,根据所述各义原之间在义原树状层次结构中的路径长度计算所述第一短文本和第二短文本的词语相似度,以及根据所述各义原之间配对相似度计算所述第一短文本和第二短文本中实词概念的相似度;
步骤S5、根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度。
具体而言,语义词典例如是Wordnet或Hownet等,语义词典是将所有的词组织在一棵或几棵树状的层次结构中。在一棵树状图中,任何两个结点之间有且只有一条路径。于是,这条路径的长度就可以作为这两个词语概念间语义距离的一种度量;而且随着概念所处结点越深,其所包含的语义信息越丰富,越能准确地决定概念的性质,它们对语义相似度起着决定作用。
其中,在自然语言处理中,我们会对语言中不同的语义单位进行分析和处理,语义单位包括从比较大的篇章、段落到比较小的句子、短语、词和义原等。义原是比词更小的语义单位。
其中,所述步骤S3包括词语相似度的计算,其计算过程如下:
Figure BDA0002131228860000081
Figure BDA0002131228860000082
其中,Sim(W)为第一短文本和第二短文本的词语相似度,第一短文本中包括n个词语,第二短文本中包括m个词语,Wij为第一短文本中第i个词语与第二短文本中第j个词语的词语相似度,0<i≤n,0<j≤n;Dis(Wi,Wj)为第一短文本中第i个词语与第一短文本中第j个词语的词语距离,k为比例系数。
具体而言,两个词语,在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低;相似度一般被定义为一个0到1之间的实数,两个词语完全一样时,它们的相似度为1;当两个词语是完全不同的概念时,它们的相似度接近于0。
其中,所有的义原根据上下位关系构成了一个义原树状层次结构。
其中,所述步骤S3包括义原相似度的计算,其计算过程如下:
Figure BDA0002131228860000083
Figure BDA0002131228860000084
其中,Sim(P)为第一短文本和第二短文本的义原相似度,第一短文本中包括e个义原,第二短文本中包括u个义原,dij为第一短文本中第i个义原与第二短文本中第j个义原的义原相似度,0<i≤e,0<j≤u;Dis(Wi,Wj)为第一短文本中第i个义原与第一短文本中第j个义原的义原距离,α为可调节参数。
其中,所述步骤S3包括实词概念的相似度的计算,其计算过程如下:
将第一短文本和第二短文本中所有独立义原进行任意配对,计算出所有可能的配对的义原相似度;
根据义原相似度对第一短文本和第二短文本中的独立义原进行分组,其中,取义原相似度最大的一对义原,并将它们归为一组;在剩下的独立义原的配对相似度中,取最大的一对,并归为一组;如此反复,直到所有独立义原都完成分组;
对每组义原的配对相似度进行加权求平均值得到所述实词概念的相似度。
其中,所述步骤S5包括:
将所述词语相似度、义原相似度、以及实词概念的相似度进行加权求平均值得到所述第一短文本和第二短文本的语义相似度。
进一步地,根据所述第一短文本和第二短文本的语义相似度与预设阈值的比较结果判定所述第一短文本和第二短文本的是否是语义相似,若第一短文本和第二短文本的语义相似度大于预设阈值,则第一短文本和第二短文本的语义相似,反之,则第一短文本和第二短文本的语义不相似。
其中,所述预设阈值优选但不限于为90%。
如图2所示,本发明实施例二提供一种短文本语义相似度计算系统,包括:
文本获取单元1,用于获取第一短文本和第二短文本,并获取第一短文本和第二短文本中的词语和独立义原;
树结构单元2,用于根据语义词典获取词语树状层次结构和义原树状层次结构;
第一计算单元3,用于根据所述词语树状层次结构计算所述第一短文本和第二短文本中各词语之间的词语距离,并根据所述义原树状层次结构计算所述第一短文本和第二短文本中各义原之间在义原树状层次结构中的路径长度,计算所述第一短文本和第二短文本中各义原之间配对相似度;
第二计算单元4,用于根据所述各词语之间的词语距离计算所述第一短文本和第二短文本的词语相似度,根据所述各义原之间在义原树状层次结构中的路径长度计算所述第一短文本和第二短文本的词语相似度,以及根据所述各义原之间配对相似度计算所述第一短文本和第二短文本中实词概念的相似度;
第三计算单元5,用于根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度。
其中,所述第二计算单元包括词语相似度计算单元,其用于根据以下公式计算所述第一短文本和第二短文本的词语相似度;其中,公式如下:
Figure BDA0002131228860000101
Figure BDA0002131228860000102
其中,Sim(W)为第一短文本和第二短文本的词语相似度,第一短文本中包括n个词语,第二短文本中包括m个词语,Wij为第一短文本中第i个词语与第二短文本中第j个词语的词语相似度,0<i≤n,0<j≤n;Dis(Wi,Wj)为第一短文本中第i个词语与第一短文本中第j个词语的词语距离,k为比例系数。
其中,所述第二计算单元包括义原相似度计算单元,其用于根据以下公式计算所述第一短文本和第二短文本的义原相似度;其中,公式如下:
Figure BDA0002131228860000111
Figure BDA0002131228860000112
其中,Sim(P)为第一短文本和第二短文本的义原相似度,第一短文本中包括e个义原,第二短文本中包括u个义原,dij为第一短文本中第i个义原与第二短文本中第j个义原的义原相似度,0<i≤e,0<j≤u;Dis(Wi,Wj)为第一短文本中第i个义原与第一短文本中第j个义原的义原距离,α为可调节参数。
其中,所述第二计算单元包括实词概念相似度计算单元,其包括:
第一计算子单元,用于将第一短文本和第二短文本中所有独立义原进行任意配对,计算出所有可能的配对的义原相似度;
第二计算子单元,用于根据义原相似度对第一短文本和第二短文本中的独立义原进行分组,其中,取义原相似度最大的一对义原,并将它们归为一组;在剩下的独立义原的配对相似度中,取最大的一对,并归为一组;如此反复,直到所有独立义原都完成分组;
第三计算子单元,用于对每组义原的配对相似度进行加权求平均值得到所述实词概念的相似度。
所述第三计算单元5还用于根据所述第一短文本和第二短文本的语义相似度与预设阈值的比较结果判定所述第一短文本和第二短文本的是否是语义相似,若第一短文本和第二短文本的语义相似度大于预设阈值,则第一短文本和第二短文本的语义相似,反之,则第一短文本和第二短文本的语义不相似。其中,所述预设阈值优选但不限于为90%。
需说明的是,本实施例二所述系统为与实施例一所述方法对应,其用于实施实施例一所述方法,因此,有关实施例二所述系统的其他未描述的内容,可以参阅实施例一所述方法内容得到,此处不再赘述。
还应该理解,可以以很多方式实施实施例一所述方法和实施例二所述系统,包括作为过程、装置或系统。本文中所述的方法可以部分地由用于指示处理器执行这种方法的程序指令、以及记录在非暂态计算机可读存储介质上的该指令而实施,非暂态计算机可读存储介质诸如硬盘驱动、软盘、光碟(诸如小型碟(CD)或数字通用碟(DVD))、闪速存储器等。在一些实施例中,程序指令可以被远程存储并且经由光学或电子通信链路而在网络上被发送。
本发明实施例三提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述短文本语义相似度计算方法。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (4)

1.一种短文本语义相似度计算方法,其特征在于,包括如下步骤:
步骤S1、获取第一短文本和第二短文本,并获取第一短文本和第二短文本中的词语和独立义原;
步骤S2、根据语义词典获取词语树状层次结构和义原树状层次结构;
步骤S3、根据所述词语树状层次结构计算所述第一短文本和第二短文本中各词语之间的词语距离,并根据所述义原树状层次结构计算所述第一短文本和第二短文本中各义原之间在义原树状层次结构中的路径长度,计算所述第一短文本和第二短文本中各义原之间配对相似度;
步骤S4、根据所述各词语之间的词语距离计算所述第一短文本和第二短文本的词语相似度,根据所述各义原之间在义原树状层次结构中的路径长度计算所述第一短文本和第二短文本的义原相似度,以及根据所述各义原之间配对相似度计算所述第一短文本和第二短文本中实词概念的相似度;
其中,所述词语相似度的计算如下:
其中,Sim(W)为第一短文本和第二短文本的词语相似度,第一短文本中包括n个词语,第二短文本中包括m个词语,Wij为第一短文本中第i个词语与第二短文本中第j个词语的词语相似度,0<i≤n,0<j≤n;Dis(Wi,Wj)为第一短文本中第i个词语与第一短文本中第j个词语的词语距离,k为比例系数;
其中,所述义原相似度的计算如下:
其中,Sim(P)为第一短文本和第二短文本的义原相似度,第一短文本中包括e个义原,第二短文本中包括u个义原,dij为第一短文本中第i个义原与第二短文本中第j个义原的义原相似度,0<i≤e,0<j≤u;Dis(Wi,Wj)为第一短文本中第i个义原与第一短文本中第j个义原的义原距离,α为可调节参数;
其中,所述实词概念的相似度的计算如下:
将第一短文本和第二短文本中所有独立义原进行任意配对,计算出所有可能的配对的义原相似度;
根据义原相似度对第一短文本和第二短文本中的独立义原进行分组,其中,取义原相似度最大的一对义原,并将它们归为一组;在剩下的独立义原的配对相似度中,取最大的一对,并归为一组;如此反复,直到所有独立义原都完成分组;
对每组义原的配对相似度进行加权求平均值得到所述实词概念的相似度;
步骤S5、根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度。
2.根据权利要求1所述的一种短文本语义相似度计算方法,其特征在于,所述步骤S5包括将所述词语相似度、义原相似度、以及实词概念的相似度进行加权求平均值得到所述第一短文本和第二短文本的语义相似度。
3.一种短文本语义相似度计算系统,其特征在于,包括:
文本获取单元,用于获取第一短文本和第二短文本,并获取第一短文本和第二短文本中的词语和独立义原;
树结构单元,用于根据语义词典获取词语树状层次结构和义原树状层次结构;
第一计算单元,用于根据所述词语树状层次结构计算所述第一短文本和第二短文本中各词语之间的词语距离,并根据所述义原树状层次结构计算所述第一短文本和第二短文本中各义原之间在义原树状层次结构中的路径长度,计算所述第一短文本和第二短文本中各义原之间配对相似度;
第二计算单元,用于根据所述各词语之间的词语距离计算所述第一短文本和第二短文本的词语相似度,根据所述各义原之间在义原树状层次结构中的路径长度计算所述第一短文本和第二短文本的词语相似度,以及,根据所述各义原之间配对相似度计算所述第一短文本和第二短文本中实词概念的相似度;
第三计算单元,用于根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度;
所述第二计算单元包括词语相似度计算单元,其用于根据以下公式计算所述第一短文本和第二短文本的词语相似度;其中,公式如下:
其中,Sim(W)为第一短文本和第二短文本的词语相似度,第一短文本中包括n个词语,第二短文本中包括m个词语,Wij为第一短文本中第i个词语与第二短文本中第j个词语的词语相似度,0<i≤n,0<j≤n;Dis(Wi,Wj)为第一短文本中第i个词语与第一短文本中第j个词语的词语距离,k为比例系数;
所述第二计算单元还包括义原相似度计算单元,其用于根据以下公式计算所述第一短文本和第二短文本的义原相似度;其中,公式如下:
其中,Sim(P)为第一短文本和第二短文本的义原相似度,第一短文本中包括e个义原,第二短文本中包括u个义原,dij为第一短文本中第i个义原与第二短文本中第j个义原的义原相似度,0<i≤e,0<j≤u;Dis(Wi,Wj)为第一短文本中第i个义原与第一短文本中第j个义原的义原距离,α为可调节参数;
所述第二计算单元还包括实词概念相似度计算单元,其包括第一计算子单元、第二计算子单元和第三计算子单元;
所述第一计算子单元,用于将第一短文本和第二短文本中所有独立义原进行任意配对,计算出所有可能的配对的义原相似度;
所述第二计算子单元,用于根据义原相似度对第一短文本和第二短文本中的独立义原进行分组,其中,取义原相似度最大的一对义原,并将它们归为一组;在剩下的独立义原的配对相似度中,取最大的一对,并归为一组;如此反复,直到所有独立义原都完成分组;
所述第三计算子单元,用于对每组义原的配对相似度进行加权求平均值得到所述实词概念的相似度。
4.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1~2中任一项所述的短文本语义相似度计算方法。
CN201910638949.7A 2019-07-16 2019-07-16 一种短文本语义相似度计算方法及其系统、介质 Active CN110442863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910638949.7A CN110442863B (zh) 2019-07-16 2019-07-16 一种短文本语义相似度计算方法及其系统、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910638949.7A CN110442863B (zh) 2019-07-16 2019-07-16 一种短文本语义相似度计算方法及其系统、介质

Publications (2)

Publication Number Publication Date
CN110442863A CN110442863A (zh) 2019-11-12
CN110442863B true CN110442863B (zh) 2023-05-05

Family

ID=68430327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910638949.7A Active CN110442863B (zh) 2019-07-16 2019-07-16 一种短文本语义相似度计算方法及其系统、介质

Country Status (1)

Country Link
CN (1) CN110442863B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784570A (zh) * 2021-02-23 2021-05-11 南方电网调峰调频发电有限公司信息通信分公司 用于文本相似度计算的分词方法、装置、设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970729A (zh) * 2014-04-29 2014-08-06 河海大学 一种基于语义类的多主题提取方法
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN107193930A (zh) * 2017-05-17 2017-09-22 东莞市华睿电子科技有限公司 一种网站敏感词屏蔽方法
CN107203609A (zh) * 2017-05-17 2017-09-26 东莞市华睿电子科技有限公司 一种快速搜索移动终端短信息的方法和移动终端
CN109101488A (zh) * 2018-07-12 2018-12-28 南京邮电大学 一种基于知网的词语语义相似度计算方法
CN109190117A (zh) * 2018-08-10 2019-01-11 中国船舶重工集团公司第七〇九研究所 一种基于词向量的短文本语义相似度计算方法
CN109960786A (zh) * 2019-03-27 2019-07-02 北京信息科技大学 基于融合策略的中文词语相似度计算方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970729A (zh) * 2014-04-29 2014-08-06 河海大学 一种基于语义类的多主题提取方法
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN107193930A (zh) * 2017-05-17 2017-09-22 东莞市华睿电子科技有限公司 一种网站敏感词屏蔽方法
CN107203609A (zh) * 2017-05-17 2017-09-26 东莞市华睿电子科技有限公司 一种快速搜索移动终端短信息的方法和移动终端
CN109101488A (zh) * 2018-07-12 2018-12-28 南京邮电大学 一种基于知网的词语语义相似度计算方法
CN109190117A (zh) * 2018-08-10 2019-01-11 中国船舶重工集团公司第七〇九研究所 一种基于词向量的短文本语义相似度计算方法
CN109960786A (zh) * 2019-03-27 2019-07-02 北京信息科技大学 基于融合策略的中文词语相似度计算方法

Also Published As

Publication number Publication date
CN110442863A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
WO2020228732A1 (zh) 训练对话状态跟踪分类器的方法和计算机设备
JP6335898B2 (ja) 製品認識に基づく情報分類
Tungthamthiti et al. Recognition of sarcasms in tweets based on concept level sentiment analysis and supervised learning approaches
CN109284397A (zh) 一种领域词典的构建方法、装置、设备及存储介质
CN115630640B (zh) 一种智能写作方法、装置、设备及介质
CN104050256A (zh) 基于主动学习的问答方法及采用该方法的问答系统
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
CN105975499A (zh) 一种文本主题检测方法及系统
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN109408802A (zh) 一种提升句向量语义的方法、系统及存储介质
CN111143569A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN106649662A (zh) 一种领域词典的构建方法
CN105786971B (zh) 一种面向国际汉语教学的语法点识别方法
WO2023115890A1 (zh) 一种文本的质量清洗方法、装置及介质
CN113590810A (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN110162595B (zh) 用于生成文本摘要的方法、装置、设备以及可读存储介质
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN110442863B (zh) 一种短文本语义相似度计算方法及其系统、介质
CN107122378B (zh) 对象处理方法、装置及移动终端
CN111078874B (zh) 基于随机子空间的决策树分类的对外汉语难度评估方法
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及系统
CN111125379A (zh) 知识库扩充方法、装置、电子设备和存储介质
CN106547822A (zh) 一种文本相关性确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant