CN109597992B - 一种结合同义词词典和词嵌入向量的问句相似度计算方法 - Google Patents

一种结合同义词词典和词嵌入向量的问句相似度计算方法 Download PDF

Info

Publication number
CN109597992B
CN109597992B CN201811428781.9A CN201811428781A CN109597992B CN 109597992 B CN109597992 B CN 109597992B CN 201811428781 A CN201811428781 A CN 201811428781A CN 109597992 B CN109597992 B CN 109597992B
Authority
CN
China
Prior art keywords
similarity
word
question
dict
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811428781.9A
Other languages
English (en)
Other versions
CN109597992A (zh
Inventor
张家重
赵亚欧
王玉奎
付宪瑞
张金清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Financial Information Technology Co Ltd
Original Assignee
Inspur Financial Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Financial Information Technology Co Ltd filed Critical Inspur Financial Information Technology Co Ltd
Priority to CN201811428781.9A priority Critical patent/CN109597992B/zh
Publication of CN109597992A publication Critical patent/CN109597992A/zh
Application granted granted Critical
Publication of CN109597992B publication Critical patent/CN109597992B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种结合同义词词典和词嵌入向量的问句相似度计算方法,包括句子级别的相似度融合方法和词语级别的相似度融合方法;将句子级别的相似度融合方法和词语级别的相似度融合方法进行结合计算,本发明具有以下优点:相对于单纯使用词向量的方法,该方法充分利用了人工编写的同义词词典,保证了词语相似度计算的准确性;对于词典缺失的流行词和专业词汇,该方法使用词向量方法计算相似度,有效的避免了单一使用词典方法,在词汇缺失的情况下相似度无法计算的问题;该方法融合了同义词词典和词向量两种相似度计算方法,考虑的因素更多,结果更加准确。

Description

一种结合同义词词典和词嵌入向量的问句相似度计算方法
技术领域
本发明涉及金融领域服务机器人的自动问答,特别是涉及一种结合同义词词典和词嵌入向量的问句相似度计算方法。
背景技术
随着人工智能技术在金融自助领域的应用不断加深,越来越多的银行使用基于语音交互技术的机器人来辅助工作人员进行业务的咨询、办理。语音交互技术主要是对用户语音进行识别,转换成相应文字,然后在此基础上对文字的语义进行分析,通过搜索银行内部问题库,提取与用户问题最接近问题的答案。最后,将答案通过语音合成技术(TTS)转换为语音信号,发给机器人并通过扬声器发声。
这其中,对用户问题的理解,一般表现为用户所提问题与银行内部数据库中预制问题的匹配,是当前技术的一个难点。该问题的难度主要体现在:(1)用户对同一个问题往往有不同的表达方式(句法结构不同)。(2)用户对同一事物采用不同的词语进行表达(同义词替换)。(3)口语一般采用缩略语,如使用“卡”来代替“银行卡”。对于第一种情况,往往使用预制多个问句模板来解决,即定义一个问题的多种句式,分别进行匹配;对于后两种情况,一般通过计算同义词之间的相似度来解决。
对于同义词相似度的计算,存在两种方法,一种是传统的基于查字典的方法,典型的就是使用哈工大的“同义词词林”。该方法通过搜索“同义词词林”中的对应词语所处的位置来计算词语之间的相似度。其缺点是:“同义词词林”为人工编纂,所涉及的词语大多为日常生活中涉及到的词,对于银行领域的专业词,或者生僻词往往存在缺失。此外,由于人工词典编写的滞后性,一些流行词也存在缺失。
第二种方法是基于词嵌入向量的方法。该方法首先在互联网上爬取特定领域的相关文字资料,形成语料库,然后借助word2vec、glove、fasttext等词向量计算工具,自动生成每个词语的词向量,最后通过计算词语对应词向量的余弦距离得出词语的语义相似度。该方法的优点是:只要语料库足够大,几乎可以计算所有词语之间的相似度,有效避免了人工编写词典词汇缺失的问题。该方法的缺点是:由于词向量是算法自动生成,因此该方法估计出的词语相似度不如人工词典方法准确。
发明内容
针对上述存在的技术问题,本发明的目的是:本发明提出了一种结合同义词词典和词嵌入向量的问句相似度计算方法,该方法首先利用同义词词典方法和词向量方法分别计算词语之间的相似度,然后对两种方法计算的结果进行融合。
本发明的技术解决方案是这样实现的:一种结合同义词词典和词嵌入向量的问句相似度计算方法,包括句子级别的相似度融合方法和词语级别的相似度融合方法;
(一)句子级别的相似度融合方法:
待计算相似度的两个问句分别为S1、S2,对其进行分词处理,可得
Figure GDA0004148188820000021
其中,m、n分别是问句S1、S2所包含词语的数目,/>
Figure GDA0004148188820000031
表示第p个问句中的第q个词语;
第一步,计算问句之间的词典相似度Simdict(S1,S2),对于问句S1、S2中的任意词语对
Figure GDA0004148188820000032
查询同义词词典,计算得出/>
Figure GDA0004148188820000033
的词典相似度/>
Figure GDA0004148188820000034
然后将计算结果排列成大小为m*n的词典相似度矩阵Mdict,取Mdict矩阵每一行的最大值和每一列的最大值,相加取平均得出问句S1、S2的词典相似度Simdict(S1,S2);
第二步,计算问句之间的词向量相似度,首先使用词向量计算工具计算语料库中所含词语的词向量,对得出的词向量进行归一化处理,然后对问句S1、S2中的每一个词语对
Figure GDA0004148188820000035
计算余弦相似度/>
Figure GDA0004148188820000036
最后将所有的相似度相加取平均,得到问句S1、S2的词向量相似度Simvec(S1,S2);
第三步,融合上述两个相似度,将上述计算结果进行加权平均,计算公式如下:Sim(S1,S2)=ω1Simdict(S1,S2)+ω2Simvec(S1,S2),其中ω1、ω2为权重系数;
(二)词语级别的相似度融合方法:
其计算步骤如下:第一步,计算问句S1、S2中每个词语
Figure GDA0004148188820000037
的词典相似度
Figure GDA0004148188820000038
生成大小为m*n的词典相似度矩阵Mdict,当/>
Figure GDA0004148188820000039
或者/>
Figure GDA00041481888200000310
存在缺失,则
Figure GDA00041481888200000311
值置为-1;
第二步,计算问句S1、S2中每个词语
Figure GDA00041481888200000312
的词向量相似度/>
Figure GDA00041481888200000313
同样生成大小为m*n的相似度矩阵Mvec
第三步,针对Mdict和Mvec的每一个元素,生成融合后的相似性矩阵Mf,计算公式为:
Figure GDA00041481888200000314
其中,Mf(i,j)、Mdict(i,j)和Mvec(i,j)分别为融合相似性矩阵、词典相似性矩阵和词向量相似性矩阵对应的第i行、第j列元素,ω1、ω2为融合权重系数。
第四步,取Mf每一行的最大值和每一列的最大值相加,然后取平均,得到问句S1、S2的相似度Sim(S1,S2);
将句子级别的相似度融合方法和词语级别的相似度融合方法进行结合计算,步骤如下,步骤1,使用切词工具对要进行相似度计算的问句S1、S2进行分词,得到S1对应的词语集合
Figure GDA0004148188820000041
S2对应的词语集合/>
Figure GDA0004148188820000042
步骤2,计算问句S1、S2中每个词语之间词典相似度
Figure GDA0004148188820000043
生成词典相似性矩阵Mdict
在相似度的计算步骤如下所示:
第一步,获取词语
Figure GDA0004148188820000044
对应的词语八位类别编号/>
Figure GDA0004148188820000045
词语/>
Figure GDA0004148188820000046
对应的词语八位类别编号/>
Figure GDA0004148188820000047
然后,计算两个编码之间的差异信息H,H计算公式如下:/>
Figure GDA0004148188820000048
其中,/>
Figure GDA0004148188820000049
分别表示取/>
Figure GDA00041481888200000410
编号的前n位;
第二步,计算词林距离N,定义为:N=5-H,即词林的最大层次减去深度H,此时,词语对
Figure GDA00041481888200000411
的词林相似度计算公式定义为:/>
Figure GDA00041481888200000412
针对词汇缺失的情况,采用句子级别的融合方法,则将
Figure GDA00041481888200000413
定义为0;采用词语级别的融合方法,则将/>
Figure GDA0004148188820000051
定义为-1;
第三步,按照上述计算结果,将相似度按行、列排列,形成m行n列的相似性矩阵Mdict,形式如下:
Figure GDA0004148188820000052
第四步,取Mdict每一行的最大值Mdict_max(i)和每一列的最大值Mdict_max(j),累加取平均得到问句S1、S2的相似度,计算公式为:
Figure GDA0004148188820000053
采用词语级别的融合方法,忽略第四步,直接转步骤S3;
步骤S3,计算问句S1、S2中每个词语之间词向量相似度
Figure GDA0004148188820000054
生成词向量相似性矩阵Mvec,或者直接生成问句之间的词向量相似度/>
Figure GDA0004148188820000055
第一步,利用python语言编写网络爬虫,爬取百度百科、wiki百科中文版、新浪、搜狐相关网站的相关文字信息,形成训练语料;
第二步,利用词嵌入计算工具计算训练语料中出现词汇的词向量;
第三步,采用句子级别的融合方法,则问句S1、S2的词向量相似度可按如下公式计算:
Figure GDA0004148188820000056
其中/>
Figure GDA0004148188820000057
Figure GDA0004148188820000058
分别为词语/>
Figure GDA0004148188820000059
所对应的词向量;计算完成后转步骤S4;采用词语级别的融合,忽略第三步,直接转入第四步。
第四步,计算问句S1、S2中每个词语
Figure GDA00041481888200000510
之间的余弦距离,得到词向量相似度
Figure GDA00041481888200000511
按照上述计算结果,将词向量相似度按行、列排列,形成m行n列的相似性矩阵Mvec,形式如下:/>
Figure GDA0004148188820000061
步骤S4,采用句子级别的融合方法,利用公式Sim(S1,S2)=ω1Simdict(S1,S2)+ω2Simvec(S1,S2)计算得到问句S1、S2的融合相似度Sim(S1,S2),算法结束;采用词语级别的融合方法,转步骤S5。
步骤S5,计算词汇级别的问句相似度。
第一步,根据上述步骤获得的词典相似性矩阵Mdict和词向量相似性矩阵Mvec,利用公式
Figure GDA0004148188820000062
得到融合后的词语相似性矩阵Mf
第二步,取Mf每一行的最大值Mf_max(i)和每一列的最大值Mf_max(j),累加取平均得到问句S1、S2的相似度。计算公式为:
Figure GDA0004148188820000063
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明的一种结合同义词词典和词嵌入向量的问句相似度计算方法,(1)相对于单纯使用词向量的方法,该方法充分利用了人工编写的同义词词典,保证了词语相似度计算的准确性。
(2)对于词典缺失的流行词和专业词汇,该方法使用词向量方法计算相似度,有效的避免了单一使用词典方法,在词汇缺失的情况下相似度无法计算的问题。
(3)该方法融合了同义词词典和词向量两种相似度计算方法,考虑的因素更多,结果更加准确。
附图说明
下面结合附图对本发明技术方案作进一步说明:
附图1为本发明的句子级别的相似度融合方法流程图;
附图2为本发明的词语级别的相似度融合方法流程图。
具体实施方式
下面结合附图来说明本发明。
如附图1、2所示为本发明所述的一种结合同义词词典和词嵌入向量的问句相似度计算方法,其特征在于:包括句子级别的相似度融合方法和词语级别的相似度融合方法;
(一)句子级别的相似度融合方法:
待计算相似度的两个问句分别为S1、S2,对其进行分词处理,可得
Figure GDA0004148188820000071
其中,m、n分别是问句S1、S2所包含词语的数目,/>
Figure GDA0004148188820000072
表示第p个问句中的第q个词语;
第一步,计算问句之间的词典相似度Simdict(S1,S2),对于问句S1、S2中的任意词语对
Figure GDA0004148188820000073
查询同义词词典,计算得出/>
Figure GDA0004148188820000074
的词典相似度/>
Figure GDA0004148188820000075
然后将计算结果排列成大小为m*n的词典相似度矩阵Mdict,取Mdict矩阵每一行的最大值和每一列的最大值,相加取平均得出问句S1、S2的词典相似度Simdict(S1,S2);
第二步,计算问句之间的词向量相似度,首先使用词向量计算工具计算语料库中所含词语的词向量,对得出的词向量进行归一化处理,然后对问句S1、S2中的每一个词语对
Figure GDA0004148188820000076
计算余弦相似度/>
Figure GDA0004148188820000077
最后将所有的相似度相加取平均,得到问句S1、S2的词向量相似度Simvec(S1,S2);
第三步,融合上述两个相似度,将上述计算结果进行加权平均,计算公式如下:Sim(S1,S2)=ω1Simdict(S1,S2)+ω2Simvec(S1,S2),其中ω1、ω2为权重系数;
(二)词语级别的相似度融合方法:
其计算步骤如下:第一步,计算问句S1、S2中每个词语
Figure GDA0004148188820000081
的词典相似度
Figure GDA0004148188820000082
生成大小为m*n的词典相似度矩阵Mdict,当/>
Figure GDA0004148188820000083
或者/>
Figure GDA0004148188820000084
存在缺失,则
Figure GDA0004148188820000085
值置为-1;
第二步,计算问句S1、S2中每个词语
Figure GDA0004148188820000086
的词向量相似度/>
Figure GDA0004148188820000087
同样生成大小为m*n的相似度矩阵Mvec
第三步,针对Mdict和Mvec的每一个元素,生成融合后的相似性矩阵Mf,计算公式为:
Figure GDA0004148188820000088
其中,Mf(i,j)、Mdict(i,j)和Mvec(i,j)分别为融合相似性矩阵、词典相似性矩阵和词向量相似性矩阵对应的第i行、第j列元素,ω1、ω2为融合权重系数。
第四步,取Mf每一行的最大值和每一列的最大值相加,然后取平均,得到问句S1、S2的相似度Sim(S1,S2);
将句子级别的相似度融合方法和词语级别的相似度融合方法进行结合计算,步骤如下,步骤1,使用切词工具对要进行相似度计算的问句S1、S2进行分词,得到S1对应的词语集合
Figure GDA0004148188820000089
S2对应的词语集合/>
Figure GDA00041481888200000810
步骤2,计算问句S1、S2中每个词语之间词典相似度
Figure GDA00041481888200000811
生成词典相似性矩阵Mdict
在相似度的计算步骤如下所示:
第一步,获取词语
Figure GDA0004148188820000091
对应的词语八位类别编号/>
Figure GDA0004148188820000092
词语/>
Figure GDA0004148188820000093
对应的词语八位类别编号/>
Figure GDA0004148188820000094
然后,计算两个编码之间的差异信息H,H计算公式如下:/>
Figure GDA0004148188820000095
其中,/>
Figure GDA0004148188820000096
分别表示取/>
Figure GDA0004148188820000097
编号的前n位;
第二步,计算词林距离N,定义为:N=5-H,即词林的最大层次减去深度H,此时,词语对
Figure GDA0004148188820000098
的词林相似度计算公式定义为:/>
Figure GDA0004148188820000099
针对词汇缺失的情况,采用句子级别的融合方法,则将
Figure GDA00041481888200000910
定义为0;采用词语级别的融合方法,则将/>
Figure GDA00041481888200000911
定义为-1;
第三步,按照上述计算结果,将相似度按行、列排列,形成m行n列的相似性矩阵Mdict,形式如下:
Figure GDA00041481888200000912
第四步,取Mdict每一行的最大值Mdict_max(i)和每一列的最大值Mdict_max(j),累加取平均得到问句S1、S2的相似度,计算公式为:
Figure GDA00041481888200000913
采用词语级别的融合方法,忽略第四步,直接转步骤S3;
步骤S3,计算问句S1、S2中每个词语之间词向量相似度
Figure GDA0004148188820000101
生成词向量相似性矩阵Mvec,或者直接生成问句之间的词向量相似度/>
Figure GDA0004148188820000102
第一步,利用python语言编写网络爬虫,爬取百度百科、wiki百科中文版、新浪、搜狐相关网站的相关文字信息,形成训练语料;
第二步,利用词嵌入计算工具计算训练语料中出现词汇的词向量;
第三步,采用句子级别的融合方法,则问句S1、S2的词向量相似度可按如下公式计算:
Figure GDA0004148188820000103
其中/>
Figure GDA0004148188820000104
Figure GDA0004148188820000105
分别为词语/>
Figure GDA0004148188820000106
所对应的词向量;计算完成后转步骤S4;采用词语级别的融合,忽略第三步,直接转入第四步。
第四步,计算问句S1、S2中每个词语
Figure GDA0004148188820000107
之间的余弦距离,得到词向量相似度
Figure GDA0004148188820000108
按照上述计算结果,将词向量相似度按行、列排列,形成m行n列的相似性矩阵Mvec,形式如下:/>
Figure GDA0004148188820000109
步骤S4,采用句子级别的融合方法,利用公式Sim(S1,S2)=ω1Simdict(S1,S2)+ω2Simvec(S1,S2)计算得到问句S1、S2的融合相似度Sim(S1,S2),算法结束;采用词语级别的融合方法,转步骤S5。
步骤S5,计算词汇级别的问句相似度。
第一步,根据上述步骤获得的词典相似性矩阵Mdict和词向量相似性矩阵Mvec,利用公式
Figure GDA00041481888200001010
得到融合后的词语相似性矩阵Mf
第二步,取Mf每一行的最大值Mf_max(i)和每一列的最大值Mf_max(j),累加取平均得到问句S1、S2的相似度。计算公式为:
Figure GDA0004148188820000111
本发明的一种结合同义词词典和词嵌入向量的问句相似度计算方法,(1)相对于单纯使用词向量的方法,该方法充分利用了人工编写的同义词词典,保证了词语相似度计算的准确性。
(2)对于词典缺失的流行词和专业词汇,该方法使用词向量方法计算相似度,有效的避免了单一使用词典方法,在词汇缺失的情况下相似度无法计算的问题。
(3)该方法融合了同义词词典和词向量两种相似度计算方法,考虑的因素更多,结果更加准确。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并加以实施,并不能以此限制本发明的保护范围,凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围内。

Claims (1)

1.一种结合同义词词典和词嵌入向量的问句相似度计算方法,其特征在于:包括句子级别的相似度融合方法和词语级别的相似度融合方法;
(一)句子级别的相似度融合方法:
待计算相似度的两个问句分别为S1、S2,对其进行分词处理,可得
Figure FDA0004148188770000011
其中,m、n分别是问句S1、S2所包含词语的数目,/>
Figure FDA0004148188770000012
表示第p个问句中的第q个词语;
第一步,计算问句之间的词典相似度Simdict(S1,S2),对于问句S1、S2中的任意词语对
Figure FDA0004148188770000013
查询同义词词典,计算得出/>
Figure FDA0004148188770000014
的词典相似度/>
Figure FDA0004148188770000015
然后将计算结果排列成大小为m*n的词典相似度矩阵Mdict,取Mdict矩阵每一行的最大值和每一列的最大值,相加取平均得出问句S1、S2的词典相似度Simdict(S1,S2);
第二步,计算问句之间的词向量相似度,首先使用词向量计算工具计算语料库中所含词语的词向量,对得出的词向量进行归一化处理,然后对问句S1、S2中的每一个词语对
Figure FDA0004148188770000016
计算余弦相似度/>
Figure FDA0004148188770000017
最后将所有的相似度相加取平均,得到问句S1、S2的词向量相似度Simvec(S1,S2);
第三步,融合上述两个相似度,将上述计算结果进行加权平均,计算公式如下:Sim(S1,S2)=ω1Simdict(S1,S2)+ω2Simvec(S1,S2),其中ω1、ω2为权重系数;
(二)词语级别的相似度融合方法:
其计算步骤如下:第一步,计算问句S1、S2中每个词语
Figure FDA0004148188770000018
的词典相似度
Figure FDA0004148188770000019
生成大小为m*n的词典相似度矩阵Mdict,当/>
Figure FDA00041481887700000110
或者/>
Figure FDA0004148188770000021
存在缺失,则
Figure FDA0004148188770000022
值置为-1;
第二步,计算问句S1、S2中每个词语
Figure FDA0004148188770000023
的词向量相似度/>
Figure FDA0004148188770000024
同样生成大小为m*n的相似度矩阵Mvec
第三步,针对Mdict和Mvec的每一个元素,生成融合后的相似性矩阵Mf,计算公式为:
Figure FDA0004148188770000025
其中,Mf(i,j)、Mdict(i,j)和Mvec(i,j)分别为融合相似性矩阵、词典相似性矩阵和词向量相似性矩阵对应的第i行、第j列元素,ω1、ω2为融合权重系数;
第四步,取Mf每一行的最大值和每一列的最大值相加,然后取平均,得到问句S1、S2的相似度Sim(S1,S2);
将句子级别的相似度融合方法和词语级别的相似度融合方法进行结合计算,步骤如下,步骤S1,使用切词工具对要进行相似度计算的问句S1、S2进行分词,得到S1对应的词语集合
Figure FDA0004148188770000026
S2对应的词语集合/>
Figure FDA0004148188770000027
步骤S2,计算问句S1、S2中每个词语之间词典相似度
Figure FDA0004148188770000028
生成词典相似性矩阵Mdict
相似度的计算步骤如下所示:
步骤S21,获取词语
Figure FDA0004148188770000029
对应的词语八位类别编号/>
Figure FDA00041481887700000210
词语/>
Figure FDA00041481887700000211
对应的词语八位类别编号/>
Figure FDA00041481887700000212
然后,计算两个编码之间的差异信息H,H计算公式如下:
Figure FDA0004148188770000031
其中,/>
Figure FDA0004148188770000032
分别表示取/>
Figure FDA0004148188770000033
编号的前n位;
步骤S22,计算词林距离N,定义为:N=5-H,即词林的最大层次减去深度H,此时,词语对
Figure FDA0004148188770000034
的词林相似度计算公式定义为:/>
Figure FDA0004148188770000035
针对词汇缺失的情况,采用句子级别的融合方法,则将
Figure FDA0004148188770000036
定义为0;采用词语级别的融合方法,则将/>
Figure FDA0004148188770000037
定义为-1;
步骤S23,按照上述计算结果,将相似度按行、列排列,形成m行n列的相似性矩阵Mdict,形式如下:
Figure FDA0004148188770000038
步骤S24,取Mdict每一行的最大值Mdict_max(i)和每一列的最大值Mdict_max(j),累加取平均得到问句S1、S2的相似度,计算公式为:
Figure FDA0004148188770000039
采用词语级别的融合方法,忽略步骤S24,直接转步骤S3;
步骤S3,计算问句S1、S2中每个词语之间词向量相似度
Figure FDA00041481887700000310
生成词向量相似性矩阵Mvec,或者直接生成问句之间的词向量相似度/>
Figure FDA00041481887700000311
步骤S31,利用python语言编写网络爬虫,爬取百度百科、wiki百科中文版、新浪、搜狐相关网站的相关文字信息,形成训练语料;
步骤S32,利用词嵌入计算工具计算训练语料中出现词汇的词向量;
步骤S33,采用句子级别的融合方法,则问句S1、S2的词向量相似度可按如下公式计算:
Figure FDA0004148188770000041
其中/>
Figure FDA0004148188770000042
Figure FDA0004148188770000043
分别为词语/>
Figure FDA0004148188770000044
所对应的词向量;计算完成后转步骤S4;采用词语级别的融合,忽略步骤S33,直接转入步骤S34;
步骤S34,计算问句S1、S2中每个词语
Figure FDA0004148188770000045
之间的余弦距离,得到词向量相似度
Figure FDA0004148188770000046
按照上述计算结果,将词向量相似度按行、列排列,形成m行n列的相似性矩阵Mvec,形式如下:/>
Figure FDA0004148188770000047
步骤S4,采用句子级别的融合方法,利用公式Sim(S1,S2)=ω1Simdict(S1,S2)+ω2Simvec(S1,S2)计算得到问句S1、S2的融合相似度Sim(S1,S2),算法结束;采用词语级别的融合方法,转步骤S5;
步骤S5,计算词汇级别的问句相似度;
步骤S51,根据上述步骤获得的词典相似性矩阵Mdict和词向量相似性矩阵Mvec,利用公式
Figure FDA0004148188770000048
得到融合后的词语相似性矩阵Mf
步骤S52,取Mf每一行的最大值Mf_max(i)和每一列的最大值Mf_max(j),累加取平均得到问句S1、S2的相似度;计算公式为:
Figure FDA0004148188770000051
CN201811428781.9A 2018-11-27 2018-11-27 一种结合同义词词典和词嵌入向量的问句相似度计算方法 Active CN109597992B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811428781.9A CN109597992B (zh) 2018-11-27 2018-11-27 一种结合同义词词典和词嵌入向量的问句相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811428781.9A CN109597992B (zh) 2018-11-27 2018-11-27 一种结合同义词词典和词嵌入向量的问句相似度计算方法

Publications (2)

Publication Number Publication Date
CN109597992A CN109597992A (zh) 2019-04-09
CN109597992B true CN109597992B (zh) 2023-06-27

Family

ID=65959003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811428781.9A Active CN109597992B (zh) 2018-11-27 2018-11-27 一种结合同义词词典和词嵌入向量的问句相似度计算方法

Country Status (1)

Country Link
CN (1) CN109597992B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309278B (zh) * 2019-05-23 2021-11-16 泰康保险集团股份有限公司 关键词检索方法、装置、介质及电子设备
CN111078849B (zh) * 2019-12-02 2023-07-25 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN112131341A (zh) * 2020-08-24 2020-12-25 博锐尚格科技股份有限公司 文本相似度计算方法、装置、电子设备和存储介质
CN112364142A (zh) * 2020-11-09 2021-02-12 上海恒企教育培训有限公司 一种面向垂直领域的问句匹配方法、装置、终端以及可读存储介质
CN113032519A (zh) * 2021-01-22 2021-06-25 中国平安人寿保险股份有限公司 一种句子相似度判断方法、装置、计算机设备及存储介质
CN114881022A (zh) * 2022-04-08 2022-08-09 山东新一代信息产业技术研究院有限公司 一种基于词林和词向量的文本相似度计算方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹莉丽等.融合词向量的多特征问句相似度计算方法研究.《研究与开发》.2017,第55-59页. *
林江豪等.基于词向量的领域情感词典构建.《山东大学学报( 工学版)》.2018,第48卷(第03期),第40-47页. *

Also Published As

Publication number Publication date
CN109597992A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109597992B (zh) 一种结合同义词词典和词嵌入向量的问句相似度计算方法
Du et al. Self-training improves pre-training for natural language understanding
US10268685B2 (en) Statistics-based machine translation method, apparatus and electronic device
WO2023273170A1 (zh) 一种迎宾机器人对话方法
CN111984766B (zh) 缺失语义补全方法及装置
Severyn et al. Modeling relational information in question-answer pairs with convolutional neural networks
CN109032375A (zh) 候选文本排序方法、装置、设备及存储介质
CN104050160A (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN114943230A (zh) 一种融合常识知识的中文特定领域实体链接方法
CN107688583A (zh) 创建用于自然语言处理装置的训练数据的方法和设备
CN113239666A (zh) 一种文本相似度计算方法及系统
CN109033073B (zh) 基于词汇依存三元组的文本蕴含识别方法及装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
Neubig et al. A summary of the first workshop on language technology for language documentation and revitalization
CN111090664A (zh) 基于神经网络的高仿人多模式对话方法
El Desouki et al. A hybrid model for paraphrase detection combines pros of text similarity with deep learning
Wang et al. Information-enhanced hierarchical self-attention network for multiturn dialog generation
Alian et al. Building Arabic paraphrasing benchmark based on transformation rules
Karpagam et al. Deep learning approaches for answer selection in question answering system for conversation agents
Lee Natural Language Processing: A Textbook with Python Implementation
Alwaneen et al. Stacked dynamic memory-coattention network for answering why-questions in Arabic
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
Nio et al. Intelligence is asking the right question: A study on japanese question generation
Baranwal et al. Extracting primary objects and spatial relations from sentences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210823

Address after: 215100 818 Wusong Road, Wusong River Industrial Park, Wuzhong development area, Suzhou, Jiangsu

Applicant after: INSPUR FINANCIAL INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 215100 Building 1, 178 Tayun Road, Yuexi street, Wuzhong District, Suzhou City, Jiangsu Province

Applicant before: SUZHOU INSPUR INTELLIGENT SOFTWARE Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant