CN109472019B - 一种基于同义词典的短文本相似度匹配方法及系统 - Google Patents

一种基于同义词典的短文本相似度匹配方法及系统 Download PDF

Info

Publication number
CN109472019B
CN109472019B CN201811183141.6A CN201811183141A CN109472019B CN 109472019 B CN109472019 B CN 109472019B CN 201811183141 A CN201811183141 A CN 201811183141A CN 109472019 B CN109472019 B CN 109472019B
Authority
CN
China
Prior art keywords
similarity
word
word segmentation
synonym dictionary
short text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811183141.6A
Other languages
English (en)
Other versions
CN109472019A (zh
Inventor
邹辉
肖龙源
蔡振华
李稀敏
刘晓葳
谭玉坤
王静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Corp ltd
Original Assignee
Xiamen Kuaishangtong Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Corp ltd filed Critical Xiamen Kuaishangtong Technology Corp ltd
Priority to CN201811183141.6A priority Critical patent/CN109472019B/zh
Publication of CN109472019A publication Critical patent/CN109472019A/zh
Application granted granted Critical
Publication of CN109472019B publication Critical patent/CN109472019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于同义词典的短文本相似度匹配方法及系统,其通过对待处理的短文本进行分词处理,并对分词结果进行词频统计;对于高频词利用词语语义相似度进行构建第一同义词典;对于低频词利用字符串相似度进行构建第二同义词典,并对所述第一同义词典和所述第二同义词典进行聚类处理,得到所述短文本的完整同义词典;或者,直接将字符串相似度高于预设的相似度阈值的分词结果存放到所述第一同义词典中的对应位置,得到更新的第一同义词典,即得到所述短文本的完整同义词典;最后利用带有所述欧氏距离或余弦相似度的完整同义词典计算两个短文本之间的语义相似度;算法准确性更高,适用范围更广。

Description

一种基于同义词典的短文本相似度匹配方法及系统
技术领域
本发明涉及通信技术领域,特别是一种基于同义词典的短文本相似度匹配方法及其应用该方法的系统。
背景技术
在文本相似度的度量算法中,经常会用到word2vec训练网络。但是,对于出现频率很低的词语(如出现次数小于5次),word2vec训练网络训练得到的低频词的词向量表示效果就会比较差,甚至是直接去除停用词和低频词,极大的降低了相似度算法的准确性。
发明内容
本发明为解决上述问题,提供了一种基于同义词典的短文本相似度匹配方法及系统,对高频词和低频词采用不同的算法,并将高频词和低频词重新融合为完整的同义词典来计算短文本的相似度,算法准确性更高。
为实现上述目的,本发明采用的技术方案为:
一种基于同义词典的短文本相似度匹配方法,其包括以下步骤:
a.对待处理的短文本进行分词处理,并对分词结果进行词频统计;
b.对于词频大于预设的词频阈值的分词结果,则利用词语语义相似度,对词语语义相似度大于预设的相似度阈值的分词结果进行构建第一同义词典;
c.对于词频小于或等于预设的词频阈值的分词结果,则利用字符串相似度,对字符串相似度高于预设的相似度阈值的分词结果进行构建第二同义词典,并对所述第一同义词典和所述第二同义词典进行聚类处理,得到所述短文本的完整同义词典;或者,直接将字符串相似度高于预设的相似度阈值的分词结果存放到所述第一同义词典中的对应位置,得到更新的第一同义词典,即得到所述短文本的完整同义词典;
d.计算所述完整同义词典中的所有词语与其同义词的欧氏距离或余弦相似度,并利用带有所述欧氏距离或余弦相似度的完整同义词典计算两个短文本之间的语义相似度。
优选的,所述的步骤a中,是指通过结巴分词工具对所述短文本进行分词处理,并去除停用词,得到分词结果;并利用Python工具对所述分词结果进行词频统计,得到每个分词结果对应的词频。
进一步的,所述的步骤b中,对于词频大于预设的词频阈值的分词结果,采用word2vec算法进行学习每个分词结果的词向量,并根据所述词向量进行计算各个分词结果之间的词语语义相似度,对词语语义相似度大于预设的相似度阈值的分词结果进行构建第一同义词典。
优选的,所述的步骤c中,对于词频小于或等于预设的词频阈值的分词结果,利用编辑距离进行计算各个分词结果之间的字符串相似度,并根据所述字符串相似度对所述分词结果进行聚类处理。
进一步的,所述的步骤c中,对于词频小于或等于预设的词频阈值的分词结果,所述聚类处理是以所述分词结果中的任一个为类中心,计算其他分词结果与所述类中心之间的编辑距离,进而得到其他分词结果与所述类中心之间的字符串相似度;以此类推进行遍历所述分词结果,并对字符串相似度高于预设的相似度阈值的分词结果进行构建第二同义词典。
或者,所述的步骤c中,对于词频小于或等于预设的词频阈值的分词结果,所述聚类处理是以所述第一同义词典中的任一个类别为类中心,计算所述分词结果与所述类中心之间的编辑距离,进而得到所述分词结果与所述类中心之间的字符串相似度;以此类推进行遍历所述分词结果,并直接将字符串相似度高于预设的相似度阈值的分词结果存放到所述第一同义词典中的对应类别位置,得到更新的第一同义词典。
优选的,所述的步骤b中,对词语语义相似度大于预设的相似度阈值的分词结果进行构建第一同义词典;所述的步骤c中,对字符串相似度高于预设的相似度阈值的分词结果进行构建第二同义词典,或者,直接将字符串相似度高于预设的相似度阈值的分词结果存放到所述第一同义词典中的对应位置;是利用机器学习库gensim进行查找前n个大于预设的相似度阈值的分词结果及其对应的词语语义相似度或字符串相似度。
优选的,所述的步骤d中,根据RWMD算法进行计算第一短文本的完整同义词典和第二短文本的完整同义词典之间的欧式距离,得到第一短文本与第二短文本的相似度;或者,根据RWMS算法进行计算第一短文本的完整同义词典和第二短文本的完整同义词典之间的余弦相似度,得到第一短文本与第二短文本的相似度。
对应的,本发明还提供一种基于同义词典的短文本相似度匹配系统,其包括:
文本预处理模块,用于对待处理的短文本进行分词处理,并对分词结果进行词频统计;
高频词的同义词典构建模块,其对于词频大于预设的词频阈值的分词结果,则利用词语语义相似度,对词语语义相似度大于预设的相似度阈值的分词结果进行构建第一同义词典;
低频词的同义词典构建模块,其对于词频小于或等于预设的词频阈值的分词结果,则利用字符串相似度,对字符串相似度高于预设的相似度阈值的分词结果进行构建第二同义词典,并对所述第一同义词典和所述第二同义词典进行聚类处理,得到所述短文本的完整同义词典;或者,直接将字符串相似度高于预设的相似度阈值的分词结果存放到所述第一同义词典中的对应位置,得到更新的第一同义词典,即得到所述短文本的完整同义词典;
同义词典的相似度计算模块,用于计算所述完整同义词典中的所有词语与其同义词的欧氏距离或余弦相似度,并利用带有所述欧氏距离或余弦相似度的完整同义词典计算两个短文本之间的语义相似度。
本发明的有益效果是:
(1)本发明通过对高频词和低频词采用不同的算法,并将高频词和低频词重新融合为完整的同义词典来计算短文本的相似度,算法准确性更高;
(2)本发明对高频词采用词语语义相似度算法,对低频词采用字符串相似度算法,能够兼顾算法的准确性和计算效率,适用范围更广;
(3)本发明对低频词的相似度计算结果进一步进行聚类处理,使得低频词与高频词的同义词典相融合得到完整的同义词典,从而便于对短文本之间进行相似度匹配,算法准确性更高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为第一实施例的基于同义词典的短文本相似度匹配方法的流程简图;
图2为第二实施例的基于同义词典的短文本相似度匹配方法的流程简图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1和图2所示,本发明的一种基于同义词典的短文本相似度匹配方法,其包括以下步骤:
a.对待处理的短文本进行分词处理,并对分词结果进行词频统计;
b.对于词频大于预设的词频阈值的分词结果,则利用词语语义相似度,对词语语义相似度大于预设的相似度阈值的分词结果进行构建第一同义词典;
c.对于词频小于或等于预设的词频阈值的分词结果,则利用字符串相似度,对字符串相似度高于预设的相似度阈值的分词结果进行构建第二同义词典,并对所述第一同义词典和所述第二同义词典进行聚类处理,得到所述短文本的完整同义词典(如图1所示);或者,直接将字符串相似度高于预设的相似度阈值的分词结果存放到所述第一同义词典中的对应位置,得到更新的第一同义词典,即得到所述短文本的完整同义词典(如图2所示);
d.计算所述完整同义词典中的所有词语与其同义词的欧氏距离或余弦相似度,并利用带有所述欧氏距离或余弦相似度的完整同义词典计算两个短文本之间的语义相似度。
所述的步骤a中,是指通过结巴分词工具对所述短文本进行分词处理,并去除停用词,得到分词结果;并利用Python工具对所述分词结果进行词频统计,得到每个分词结果对应的词频。
所述的步骤b中,对于词频大于预设的词频阈值的分词结果,采用word2vec算法进行学习每个分词结果的词向量,并根据所述词向量进行计算各个分词结果之间的词语语义相似度,对词语语义相似度大于预设的相似度阈值的分词结果进行构建第一同义词典。例如,预设的词频阈值为5;对于词频大于5的分词结果,利用词向量查找每个分词结果的词语语义最接近的20个其他分词结果,将该21个分词结果组成一个同义词典,得到第一同义词典。
所述的步骤c中,对于词频小于或等于预设的词频阈值的分词结果,利用编辑距离进行计算各个分词结果之间的字符串相似度,并根据所述字符串相似度对所述分词结果进行聚类处理。例如,预设的词频阈值为5;对于词频小于或等于5的分词结果,则利用字符串相似度对该部分分词结果进行聚类处理。本实施例中,根据不同的类中心可采用不同的聚类处理方法:
聚类方法1:以所述分词结果中的任一个为类中心,计算其他分词结果与所述类中心之间的编辑距离,进而得到其他分词结果与所述类中心之间的字符串相似度;以此类推进行遍历所述分词结果,并对字符串相似度高于预设的相似度阈值的分词结果进行构建第二同义词典。
聚类方法2:以所述第一同义词典中的任一个类别为类中心,计算所述分词结果与所述类中心之间的编辑距离,进而得到所述分词结果与所述类中心之间的字符串相似度;以此类推进行遍历所述分词结果,并直接将字符串相似度高于预设的相似度阈值的分词结果存放到所述第一同义词典中的对应类别位置,得到更新的第一同义词典。
所述的步骤b中,对词语语义相似度大于预设的相似度阈值的分词结果进行构建第一同义词典;所述的步骤c中,对字符串相似度高于预设的相似度阈值的分词结果进行构建第二同义词典,或者,直接将字符串相似度高于预设的相似度阈值的分词结果存放到所述第一同义词典中的对应位置;是利用机器学习库gensim进行查找前n个大于预设的相似度阈值的分词结果及其对应的词语语义相似度或字符串相似度;或者也可以直接通过阈值法进行计算,不以此为限。
所述的步骤d中,根据RWMD算法进行计算第一短文本的完整同义词典和第二短文本的完整同义词典之间的欧式距离,得到第一短文本与第二短文本的相似度;或者,根据RWMS算法进行计算第一短文本的完整同义词典和第二短文本的完整同义词典之间的余弦相似度,得到第一短文本与第二短文本的相似度。其中,所述RWMD算法是WMD的改进算法,RWMD算法中计算两个欧式词间的距离(Distance)来表示词语间的相关性(距离越大,相似度或者相关性就越小),其优点是能够降低计算复杂度,提高计算速度。所述RWMS算法是将WMD算法中的距离表示改为计算余弦相似度(Similar),D换成S可理解为词语到另外一个词语的可替换度。若所述同义词典中存储的是词语和词语间的相似度,则采用RWMS算法;若所述同义词典中存储的是词语及距离该词语最近的若干个词语,则采用RWMD算法。
对应的,本发明还提供一种基于同义词典的短文本相似度匹配系统,其包括:
文本预处理模块,用于对待处理的短文本进行分词处理,并对分词结果进行词频统计;
高频词的同义词典构建模块,其对于词频大于预设的词频阈值的分词结果,则利用词语语义相似度,对词语语义相似度大于预设的相似度阈值的分词结果进行构建第一同义词典;
低频词的同义词典构建模块,其对于词频小于或等于预设的词频阈值的分词结果,则利用字符串相似度,对字符串相似度高于预设的相似度阈值的分词结果进行构建第二同义词典,并对所述第一同义词典和所述第二同义词典进行聚类处理,得到所述短文本的完整同义词典;或者,直接将字符串相似度高于预设的相似度阈值的分词结果存放到所述第一同义词典中的对应位置,得到更新的第一同义词典,即得到所述短文本的完整同义词典;
同义词典的相似度计算模块,用于计算所述完整同义词典中的所有词语与其同义词的欧氏距离或余弦相似度,并利用带有所述欧氏距离或余弦相似度的完整同义词典计算两个短文本之间的语义相似度。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (8)

1.一种基于同义词典的短文本相似度匹配方法,其特征在于,包括以下步骤:
a.对待处理的短文本进行分词处理,并对分词结果进行词频统计;
b.对于词频大于预设的词频阈值的分词结果,则利用词语语义相似度,对词语语义相似度大于预设的相似度阈值的分词结果进行构建第一同义词典;
c.对于词频小于或等于预设的词频阈值的分词结果,则利用字符串相似度,对字符串相似度高于预设的相似度阈值的分词结果进行构建第二同义词典,并对所述第一同义词典和所述第二同义词典进行聚类处理,得到所述短文本的完整同义词典;或者,直接将字符串相似度高于预设的相似度阈值的分词结果存放到所述第一同义词典中的对应位置,得到更新的第一同义词典,即得到所述短文本的完整同义词典;
d.根据RWMD算法进行计算第一短文本的完整同义词典和第二短文本的完整同义词典之间的欧式距离,得到第一短文本与第二短文本的相似度;或者,根据RWMS算法进行计算第一短文本的完整同义词典和第二短文本的完整同义词典之间的余弦相似度,得到第一短文本与第二短文本的相似度。
2.根据权利要求1所述的一种基于同义词典的短文本相似度匹配方法,其特征在于:所述步骤a中,是指通过结巴分词工具对所述短文本进行分词处理,并去除停用词,得到分词结果;并利用Python工具对所述分词结果进行词频统计,得到每个分词结果对应的词频。
3.根据权利要求1所述的一种基于同义词典的短文本相似度匹配方法,其特征在于:所述步骤b中,对于词频大于预设的词频阈值的分词结果,采用word2vec算法进行学习每个分词结果的词向量,并根据所述词向量进行计算各个分词结果之间的词语语义相似度,对词语语义相似度大于预设的相似度阈值的分词结果进行构建第一同义词典。
4.根据权利要求1所述的一种基于同义词典的短文本相似度匹配方法,其特征在于:所述步骤c中,对于词频小于或等于预设的词频阈值的分词结果,利用编辑距离进行计算各个分词结果之间的字符串相似度,并根据所述字符串相似度对所述分词结果进行聚类处理。
5.根据权利要求4所述的一种基于同义词典的短文本相似度匹配方法,其特征在于:所述的步骤c中,对于词频小于或等于预设的词频阈值的分词结果,所述聚类处理是以所述分词结果中的任一个为类中心,计算其他分词结果与所述类中心之间的编辑距离,进而得到其他分词结果与所述类中心之间的字符串相似度;以此类推进行遍历所述分词结果,并对字符串相似度高于预设的相似度阈值的分词结果进行构建第二同义词典。
6.根据权利要求4所述的一种基于同义词典的短文本相似度匹配方法,其特征在于:所述的步骤c中,对于词频小于或等于预设的词频阈值的分词结果,所述聚类处理是以所述第一同义词典中的任一个类别为类中心,计算所述分词结果与所述类中心之间的编辑距离,进而得到所述分词结果与所述类中心之间的字符串相似度;以此类推进行遍历所述分词结果,并直接将字符串相似度高于预设的相似度阈值的分词结果存放到所述第一同义词典中的对应类别位置,得到更新的第一同义词典。
7.根据权利要求1所述的一种基于同义词典的短文本相似度匹配方法,其特征在于:所述步骤b中,对词语语义相似度大于预设的相似度阈值的分词结果进行构建第一同义词典;所述步骤c中,对字符串相似度高于预设的相似度阈值的分词结果进行构建第二同义词典,或者,直接将字符串相似度高于预设的相似度阈值的分词结果存放到所述第一同义词典中的对应位置;是利用机器学习库gensim进行查找前n个大于预设的相似度阈值的分词结果及其对应的词语语义相似度或字符串相似度。
8.一种基于同义词典的短文本相似度匹配系统,其特征在于,包括:
文本预处理模块,用于对待处理的短文本进行分词处理,并对分词结果进行词频统计;
高频词的同义词典构建模块,其对于词频大于预设的词频阈值的分词结果,则利用词语语义相似度,对词语语义相似度大于预设的相似度阈值的分词结果进行构建第一同义词典;
低频词的同义词典构建模块,其对于词频小于或等于预设的词频阈值的分词结果,则利用字符串相似度,对字符串相似度高于预设的相似度阈值的分词结果进行构建第二同义词典,并对所述第一同义词典和所述第二同义词典进行聚类处理,得到所述短文本的完整同义词典;或者,直接将字符串相似度高于预设的相似度阈值的分词结果存放到所述第一同义词典中的对应位置,得到更新的第一同义词典,即得到所述短文本的完整同义词典;
同义词典的相似度计算模块,其根据RWMD算法进行计算第一短文本的完整同义词典和第二短文本的完整同义词典之间的欧式距离,得到第一短文本与第二短文本的相似度;或者,根据RWMS算法进行计算第一短文本的完整同义词典和第二短文本的完整同义词典之间的余弦相似度,得到第一短文本与第二短文本的相似度。
CN201811183141.6A 2018-10-11 2018-10-11 一种基于同义词典的短文本相似度匹配方法及系统 Active CN109472019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811183141.6A CN109472019B (zh) 2018-10-11 2018-10-11 一种基于同义词典的短文本相似度匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811183141.6A CN109472019B (zh) 2018-10-11 2018-10-11 一种基于同义词典的短文本相似度匹配方法及系统

Publications (2)

Publication Number Publication Date
CN109472019A CN109472019A (zh) 2019-03-15
CN109472019B true CN109472019B (zh) 2023-02-10

Family

ID=65664793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811183141.6A Active CN109472019B (zh) 2018-10-11 2018-10-11 一种基于同义词典的短文本相似度匹配方法及系统

Country Status (1)

Country Link
CN (1) CN109472019B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259655B (zh) * 2019-11-07 2023-07-18 上海大学 一种基于语义的物流智能客服问题相似度计算方法
CN111310444A (zh) * 2020-01-16 2020-06-19 北京大学 一种公园景观服务识别方法
CN111325032B (zh) * 2020-02-21 2023-06-16 中国建设银行股份有限公司 一种5g+智能银行机构名称的规范化方法及装置
CN111737460A (zh) * 2020-05-28 2020-10-02 思派健康产业投资有限公司 一种基于聚类算法的无监督学习多点匹配方法
CN113779183A (zh) * 2020-06-08 2021-12-10 北京沃东天骏信息技术有限公司 文本匹配方法、装置、设备及存储介质
CN112269858B (zh) * 2020-10-22 2024-04-19 中国平安人寿保险股份有限公司 同义词典的优化方法、装置、设备及存储介质
CN112597313B (zh) * 2021-03-03 2021-06-29 北京沃丰时代数据科技有限公司 短文本聚类方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008166A (zh) * 2014-05-30 2014-08-27 华东师范大学 一种基于形态和语义相似度的对话短文本聚类方法
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
CN104699667A (zh) * 2015-02-15 2015-06-10 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN106708966A (zh) * 2016-11-29 2017-05-24 中国计量大学 基于相似度计算的垃圾评论检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008166A (zh) * 2014-05-30 2014-08-27 华东师范大学 一种基于形态和语义相似度的对话短文本聚类方法
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
CN104699667A (zh) * 2015-02-15 2015-06-10 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN106708966A (zh) * 2016-11-29 2017-05-24 中国计量大学 基于相似度计算的垃圾评论检测方法

Also Published As

Publication number Publication date
CN109472019A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN109472019B (zh) 一种基于同义词典的短文本相似度匹配方法及系统
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN108280061B (zh) 基于歧义实体词的文本处理方法和装置
CN109146610B (zh) 一种智能保险推荐方法、装置及智能保险机器人设备
CN109344399B (zh) 一种基于堆叠双向lstm神经网络的文本相似度计算方法
WO2020244150A1 (zh) 语音检索方法、装置、计算机设备及存储介质
CN107832306A (zh) 一种基于Doc2vec的相似实体挖掘方法
WO2019236138A1 (en) Method and apparatus for establishing a hierarchical intent system
CN109635157A (zh) 模型生成方法、视频搜索方法、装置、终端及存储介质
CN110781687B (zh) 相同意图语句的获取方法及装置
WO2014022172A2 (en) Information classification based on product recognition
CN113051368B (zh) 双塔模型训练方法、检索方法、装置及电子设备
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN111198946A (zh) 一种网络新闻热点挖掘方法及装置
CN111090771A (zh) 歌曲搜索方法、装置及计算机存储介质
CN113901289A (zh) 一种基于无监督学习的推荐方法及系统
CN109189907A (zh) 一种基于语义匹配的检索方法及装置
CN109614493B (zh) 一种基于监督词向量的文本缩写识别方法及系统
CN113609847B (zh) 信息抽取方法、装置、电子设备及存储介质
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN111428487B (zh) 模型训练方法、歌词生成方法、装置、电子设备及介质
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN107562714B (zh) 一种语句相似度计算方法及装置
CN112528005A (zh) 基于知识检索图和预训练模型的中文对话知识检索方法
US20220318318A1 (en) Systems and methods for automated information retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant