CN109597992B - 一种结合同义词词典和词嵌入向量的问句相似度计算方法 - Google Patents
一种结合同义词词典和词嵌入向量的问句相似度计算方法 Download PDFInfo
- Publication number
- CN109597992B CN109597992B CN201811428781.9A CN201811428781A CN109597992B CN 109597992 B CN109597992 B CN 109597992B CN 201811428781 A CN201811428781 A CN 201811428781A CN 109597992 B CN109597992 B CN 109597992B
- Authority
- CN
- China
- Prior art keywords
- similarity
- word
- question
- dict
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种结合同义词词典和词嵌入向量的问句相似度计算方法,包括句子级别的相似度融合方法和词语级别的相似度融合方法;将句子级别的相似度融合方法和词语级别的相似度融合方法进行结合计算,本发明具有以下优点:相对于单纯使用词向量的方法,该方法充分利用了人工编写的同义词词典,保证了词语相似度计算的准确性;对于词典缺失的流行词和专业词汇,该方法使用词向量方法计算相似度,有效的避免了单一使用词典方法,在词汇缺失的情况下相似度无法计算的问题;该方法融合了同义词词典和词向量两种相似度计算方法,考虑的因素更多,结果更加准确。
Description
技术领域
本发明涉及金融领域服务机器人的自动问答,特别是涉及一种结合同义词词典和词嵌入向量的问句相似度计算方法。
背景技术
随着人工智能技术在金融自助领域的应用不断加深,越来越多的银行使用基于语音交互技术的机器人来辅助工作人员进行业务的咨询、办理。语音交互技术主要是对用户语音进行识别,转换成相应文字,然后在此基础上对文字的语义进行分析,通过搜索银行内部问题库,提取与用户问题最接近问题的答案。最后,将答案通过语音合成技术(TTS)转换为语音信号,发给机器人并通过扬声器发声。
这其中,对用户问题的理解,一般表现为用户所提问题与银行内部数据库中预制问题的匹配,是当前技术的一个难点。该问题的难度主要体现在:(1)用户对同一个问题往往有不同的表达方式(句法结构不同)。(2)用户对同一事物采用不同的词语进行表达(同义词替换)。(3)口语一般采用缩略语,如使用“卡”来代替“银行卡”。对于第一种情况,往往使用预制多个问句模板来解决,即定义一个问题的多种句式,分别进行匹配;对于后两种情况,一般通过计算同义词之间的相似度来解决。
对于同义词相似度的计算,存在两种方法,一种是传统的基于查字典的方法,典型的就是使用哈工大的“同义词词林”。该方法通过搜索“同义词词林”中的对应词语所处的位置来计算词语之间的相似度。其缺点是:“同义词词林”为人工编纂,所涉及的词语大多为日常生活中涉及到的词,对于银行领域的专业词,或者生僻词往往存在缺失。此外,由于人工词典编写的滞后性,一些流行词也存在缺失。
第二种方法是基于词嵌入向量的方法。该方法首先在互联网上爬取特定领域的相关文字资料,形成语料库,然后借助word2vec、glove、fasttext等词向量计算工具,自动生成每个词语的词向量,最后通过计算词语对应词向量的余弦距离得出词语的语义相似度。该方法的优点是:只要语料库足够大,几乎可以计算所有词语之间的相似度,有效避免了人工编写词典词汇缺失的问题。该方法的缺点是:由于词向量是算法自动生成,因此该方法估计出的词语相似度不如人工词典方法准确。
发明内容
针对上述存在的技术问题,本发明的目的是:本发明提出了一种结合同义词词典和词嵌入向量的问句相似度计算方法,该方法首先利用同义词词典方法和词向量方法分别计算词语之间的相似度,然后对两种方法计算的结果进行融合。
本发明的技术解决方案是这样实现的:一种结合同义词词典和词嵌入向量的问句相似度计算方法,包括句子级别的相似度融合方法和词语级别的相似度融合方法;
(一)句子级别的相似度融合方法:
第一步,计算问句之间的词典相似度Simdict(S1,S2),对于问句S1、S2中的任意词语对查询同义词词典,计算得出/>的词典相似度/>然后将计算结果排列成大小为m*n的词典相似度矩阵Mdict,取Mdict矩阵每一行的最大值和每一列的最大值,相加取平均得出问句S1、S2的词典相似度Simdict(S1,S2);
第二步,计算问句之间的词向量相似度,首先使用词向量计算工具计算语料库中所含词语的词向量,对得出的词向量进行归一化处理,然后对问句S1、S2中的每一个词语对计算余弦相似度/>最后将所有的相似度相加取平均,得到问句S1、S2的词向量相似度Simvec(S1,S2);
第三步,融合上述两个相似度,将上述计算结果进行加权平均,计算公式如下:Sim(S1,S2)=ω1Simdict(S1,S2)+ω2Simvec(S1,S2),其中ω1、ω2为权重系数;
(二)词语级别的相似度融合方法:
第三步,针对Mdict和Mvec的每一个元素,生成融合后的相似性矩阵Mf,计算公式为:其中,Mf(i,j)、Mdict(i,j)和Mvec(i,j)分别为融合相似性矩阵、词典相似性矩阵和词向量相似性矩阵对应的第i行、第j列元素,ω1、ω2为融合权重系数。
第四步,取Mf每一行的最大值和每一列的最大值相加,然后取平均,得到问句S1、S2的相似度Sim(S1,S2);
在相似度的计算步骤如下所示:
采用词语级别的融合方法,忽略第四步,直接转步骤S3;
第一步,利用python语言编写网络爬虫,爬取百度百科、wiki百科中文版、新浪、搜狐相关网站的相关文字信息,形成训练语料;
第二步,利用词嵌入计算工具计算训练语料中出现词汇的词向量;
步骤S4,采用句子级别的融合方法,利用公式Sim(S1,S2)=ω1Simdict(S1,S2)+ω2Simvec(S1,S2)计算得到问句S1、S2的融合相似度Sim(S1,S2),算法结束;采用词语级别的融合方法,转步骤S5。
步骤S5,计算词汇级别的问句相似度。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明的一种结合同义词词典和词嵌入向量的问句相似度计算方法,(1)相对于单纯使用词向量的方法,该方法充分利用了人工编写的同义词词典,保证了词语相似度计算的准确性。
(2)对于词典缺失的流行词和专业词汇,该方法使用词向量方法计算相似度,有效的避免了单一使用词典方法,在词汇缺失的情况下相似度无法计算的问题。
(3)该方法融合了同义词词典和词向量两种相似度计算方法,考虑的因素更多,结果更加准确。
附图说明
下面结合附图对本发明技术方案作进一步说明:
附图1为本发明的句子级别的相似度融合方法流程图;
附图2为本发明的词语级别的相似度融合方法流程图。
具体实施方式
下面结合附图来说明本发明。
如附图1、2所示为本发明所述的一种结合同义词词典和词嵌入向量的问句相似度计算方法,其特征在于:包括句子级别的相似度融合方法和词语级别的相似度融合方法;
(一)句子级别的相似度融合方法:
第一步,计算问句之间的词典相似度Simdict(S1,S2),对于问句S1、S2中的任意词语对查询同义词词典,计算得出/>的词典相似度/>然后将计算结果排列成大小为m*n的词典相似度矩阵Mdict,取Mdict矩阵每一行的最大值和每一列的最大值,相加取平均得出问句S1、S2的词典相似度Simdict(S1,S2);
第二步,计算问句之间的词向量相似度,首先使用词向量计算工具计算语料库中所含词语的词向量,对得出的词向量进行归一化处理,然后对问句S1、S2中的每一个词语对计算余弦相似度/>最后将所有的相似度相加取平均,得到问句S1、S2的词向量相似度Simvec(S1,S2);
第三步,融合上述两个相似度,将上述计算结果进行加权平均,计算公式如下:Sim(S1,S2)=ω1Simdict(S1,S2)+ω2Simvec(S1,S2),其中ω1、ω2为权重系数;
(二)词语级别的相似度融合方法:
第三步,针对Mdict和Mvec的每一个元素,生成融合后的相似性矩阵Mf,计算公式为:其中,Mf(i,j)、Mdict(i,j)和Mvec(i,j)分别为融合相似性矩阵、词典相似性矩阵和词向量相似性矩阵对应的第i行、第j列元素,ω1、ω2为融合权重系数。
第四步,取Mf每一行的最大值和每一列的最大值相加,然后取平均,得到问句S1、S2的相似度Sim(S1,S2);
在相似度的计算步骤如下所示:
采用词语级别的融合方法,忽略第四步,直接转步骤S3;
第一步,利用python语言编写网络爬虫,爬取百度百科、wiki百科中文版、新浪、搜狐相关网站的相关文字信息,形成训练语料;
第二步,利用词嵌入计算工具计算训练语料中出现词汇的词向量;
步骤S4,采用句子级别的融合方法,利用公式Sim(S1,S2)=ω1Simdict(S1,S2)+ω2Simvec(S1,S2)计算得到问句S1、S2的融合相似度Sim(S1,S2),算法结束;采用词语级别的融合方法,转步骤S5。
步骤S5,计算词汇级别的问句相似度。
本发明的一种结合同义词词典和词嵌入向量的问句相似度计算方法,(1)相对于单纯使用词向量的方法,该方法充分利用了人工编写的同义词词典,保证了词语相似度计算的准确性。
(2)对于词典缺失的流行词和专业词汇,该方法使用词向量方法计算相似度,有效的避免了单一使用词典方法,在词汇缺失的情况下相似度无法计算的问题。
(3)该方法融合了同义词词典和词向量两种相似度计算方法,考虑的因素更多,结果更加准确。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并加以实施,并不能以此限制本发明的保护范围,凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围内。
Claims (1)
1.一种结合同义词词典和词嵌入向量的问句相似度计算方法,其特征在于:包括句子级别的相似度融合方法和词语级别的相似度融合方法;
(一)句子级别的相似度融合方法:
第一步,计算问句之间的词典相似度Simdict(S1,S2),对于问句S1、S2中的任意词语对查询同义词词典,计算得出/>的词典相似度/>然后将计算结果排列成大小为m*n的词典相似度矩阵Mdict,取Mdict矩阵每一行的最大值和每一列的最大值,相加取平均得出问句S1、S2的词典相似度Simdict(S1,S2);
第二步,计算问句之间的词向量相似度,首先使用词向量计算工具计算语料库中所含词语的词向量,对得出的词向量进行归一化处理,然后对问句S1、S2中的每一个词语对计算余弦相似度/>最后将所有的相似度相加取平均,得到问句S1、S2的词向量相似度Simvec(S1,S2);
第三步,融合上述两个相似度,将上述计算结果进行加权平均,计算公式如下:Sim(S1,S2)=ω1Simdict(S1,S2)+ω2Simvec(S1,S2),其中ω1、ω2为权重系数;
(二)词语级别的相似度融合方法:
第三步,针对Mdict和Mvec的每一个元素,生成融合后的相似性矩阵Mf,计算公式为:其中,Mf(i,j)、Mdict(i,j)和Mvec(i,j)分别为融合相似性矩阵、词典相似性矩阵和词向量相似性矩阵对应的第i行、第j列元素,ω1、ω2为融合权重系数;
第四步,取Mf每一行的最大值和每一列的最大值相加,然后取平均,得到问句S1、S2的相似度Sim(S1,S2);
相似度的计算步骤如下所示:
采用词语级别的融合方法,忽略步骤S24,直接转步骤S3;
步骤S31,利用python语言编写网络爬虫,爬取百度百科、wiki百科中文版、新浪、搜狐相关网站的相关文字信息,形成训练语料;
步骤S32,利用词嵌入计算工具计算训练语料中出现词汇的词向量;
步骤S33,采用句子级别的融合方法,则问句S1、S2的词向量相似度可按如下公式计算:其中/> 分别为词语/>所对应的词向量;计算完成后转步骤S4;采用词语级别的融合,忽略步骤S33,直接转入步骤S34;
步骤S4,采用句子级别的融合方法,利用公式Sim(S1,S2)=ω1Simdict(S1,S2)+ω2Simvec(S1,S2)计算得到问句S1、S2的融合相似度Sim(S1,S2),算法结束;采用词语级别的融合方法,转步骤S5;
步骤S5,计算词汇级别的问句相似度;
步骤S52,取Mf每一行的最大值Mf_max(i)和每一列的最大值Mf_max(j),累加取平均得到问句S1、S2的相似度;计算公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811428781.9A CN109597992B (zh) | 2018-11-27 | 2018-11-27 | 一种结合同义词词典和词嵌入向量的问句相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811428781.9A CN109597992B (zh) | 2018-11-27 | 2018-11-27 | 一种结合同义词词典和词嵌入向量的问句相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109597992A CN109597992A (zh) | 2019-04-09 |
CN109597992B true CN109597992B (zh) | 2023-06-27 |
Family
ID=65959003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811428781.9A Active CN109597992B (zh) | 2018-11-27 | 2018-11-27 | 一种结合同义词词典和词嵌入向量的问句相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109597992B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309278B (zh) * | 2019-05-23 | 2021-11-16 | 泰康保险集团股份有限公司 | 关键词检索方法、装置、介质及电子设备 |
CN111078849B (zh) * | 2019-12-02 | 2023-07-25 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN112131341A (zh) * | 2020-08-24 | 2020-12-25 | 博锐尚格科技股份有限公司 | 文本相似度计算方法、装置、电子设备和存储介质 |
CN112364142A (zh) * | 2020-11-09 | 2021-02-12 | 上海恒企教育培训有限公司 | 一种面向垂直领域的问句匹配方法、装置、终端以及可读存储介质 |
CN113032519A (zh) * | 2021-01-22 | 2021-06-25 | 中国平安人寿保险股份有限公司 | 一种句子相似度判断方法、装置、计算机设备及存储介质 |
CN114881022A (zh) * | 2022-04-08 | 2022-08-09 | 山东新一代信息产业技术研究院有限公司 | 一种基于词林和词向量的文本相似度计算方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021223A (zh) * | 2016-05-09 | 2016-10-12 | Tcl集团股份有限公司 | 一种句子相似度的计算方法及系统 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
-
2018
- 2018-11-27 CN CN201811428781.9A patent/CN109597992B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021223A (zh) * | 2016-05-09 | 2016-10-12 | Tcl集团股份有限公司 | 一种句子相似度的计算方法及系统 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
Non-Patent Citations (2)
Title |
---|
曹莉丽等.融合词向量的多特征问句相似度计算方法研究.《研究与开发》.2017,第55-59页. * |
林江豪等.基于词向量的领域情感词典构建.《山东大学学报( 工学版)》.2018,第48卷(第03期),第40-47页. * |
Also Published As
Publication number | Publication date |
---|---|
CN109597992A (zh) | 2019-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109597992B (zh) | 一种结合同义词词典和词嵌入向量的问句相似度计算方法 | |
Du et al. | Self-training improves pre-training for natural language understanding | |
US10268685B2 (en) | Statistics-based machine translation method, apparatus and electronic device | |
WO2023273170A1 (zh) | 一种迎宾机器人对话方法 | |
CN111984766B (zh) | 缺失语义补全方法及装置 | |
Severyn et al. | Modeling relational information in question-answer pairs with convolutional neural networks | |
CN109032375A (zh) | 候选文本排序方法、装置、设备及存储介质 | |
CN104050160A (zh) | 一种机器与人工翻译相融合的口语翻译方法和装置 | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
CN114943230A (zh) | 一种融合常识知识的中文特定领域实体链接方法 | |
CN107688583A (zh) | 创建用于自然语言处理装置的训练数据的方法和设备 | |
CN113239666A (zh) | 一种文本相似度计算方法及系统 | |
CN109033073B (zh) | 基于词汇依存三元组的文本蕴含识别方法及装置 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
Neubig et al. | A summary of the first workshop on language technology for language documentation and revitalization | |
CN111090664A (zh) | 基于神经网络的高仿人多模式对话方法 | |
El Desouki et al. | A hybrid model for paraphrase detection combines pros of text similarity with deep learning | |
Wang et al. | Information-enhanced hierarchical self-attention network for multiturn dialog generation | |
Alian et al. | Building Arabic paraphrasing benchmark based on transformation rules | |
Karpagam et al. | Deep learning approaches for answer selection in question answering system for conversation agents | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
Alwaneen et al. | Stacked dynamic memory-coattention network for answering why-questions in Arabic | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
Nio et al. | Intelligence is asking the right question: A study on japanese question generation | |
Baranwal et al. | Extracting primary objects and spatial relations from sentences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210823 Address after: 215100 818 Wusong Road, Wusong River Industrial Park, Wuzhong development area, Suzhou, Jiangsu Applicant after: INSPUR FINANCIAL INFORMATION TECHNOLOGY Co.,Ltd. Address before: 215100 Building 1, 178 Tayun Road, Yuexi street, Wuzhong District, Suzhou City, Jiangsu Province Applicant before: SUZHOU INSPUR INTELLIGENT SOFTWARE Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |