CN110134964B - 一种基于层次化卷积神经网络和注意力机制的文本匹配方法 - Google Patents

一种基于层次化卷积神经网络和注意力机制的文本匹配方法 Download PDF

Info

Publication number
CN110134964B
CN110134964B CN201910419010.1A CN201910419010A CN110134964B CN 110134964 B CN110134964 B CN 110134964B CN 201910419010 A CN201910419010 A CN 201910419010A CN 110134964 B CN110134964 B CN 110134964B
Authority
CN
China
Prior art keywords
question
answer
semantic
neural network
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910419010.1A
Other languages
English (en)
Other versions
CN110134964A (zh
Inventor
李俊
杜洋
李宏广
李鹏
田文凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201910419010.1A priority Critical patent/CN110134964B/zh
Publication of CN110134964A publication Critical patent/CN110134964A/zh
Application granted granted Critical
Publication of CN110134964B publication Critical patent/CN110134964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于层次化卷积神经网络和注意力机制的文本匹配方法,针对传统文本匹配算法中问题‑答案语义匹配问题,提出注意力机制下的层次化卷积神经网络模型。首先问题‑答案词向量化之后,通过交互运算得到问题‑答案交互矩阵,接着使用层次化卷积神经网络进行高维语义信息的特征提取和池化操作,最后通过注意力网络进行处理,使用注意力机制进行原始问题语义单元的重要性排序和选择学习,得到最终的问题‑答案匹配得分。本发明可以处理自然语言处理领域中语义匹配问题,实现高维语义特征提取和文本语义重要性学习,提高文本匹配计算的准确度。

Description

一种基于层次化卷积神经网络和注意力机制的文本匹配方法
技术领域
本发明涉及人工智能的自然语言处理技术领域,特别涉及一种基于层次化卷积神经网络和注意力机制的文本匹配方法。
背景技术
为了满足自然语言中语义匹配需求,需要在信息检索,自动问答等领域进行相关语义匹配。由于深度学习和文本词向量表征技术的迅猛发展,在对于不同文本的语义匹配问题上,学者们提出了很多效果较好的深度学习模型来解决文本匹配问题。
MV-LSTM模型采用双向长短期记忆神经网络处理两个原始文本词向量化之后的文本表示,接着进行两个文本向量交互计算得到文本间的语义交互矩阵,得到词粒度和句粒度不同层次的语义交互信息,接着采用K最大值池化和全连接网络得到对应的文本间匹配分值。整个模型表达简单,匹配计算速度快,但是不具有传递性。
aNMM模型采用注意力机制进行文本语义单元的重要性排序和选择性学习。首先文本进行词向量化后,通过交互计算可以得到不同文本间的交互矩阵,采用全连接网络进行处理,接着引入注意力网络进行原始文本语义单元间语义关系的重要性排序,进行选择学习后得到匹配分值。整个模型考虑了词与词之间的时序关系,但是没有考虑文本的全局语义信息。
因此以上的文本语义匹配方法实际应用效果并不理想。
发明内容
本发明的目的是提供一种基于层次化卷积神经网络和注意力机制的文本匹配方法,它能够实现自然语言中文本语义匹配功能。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于层次化卷积神经网络和注意力机制的文本匹配方法,首先问题-答案词向量化之后,通过交互运算得到问题-答案交互矩阵,接着使用层次化卷积神经网络进行高维语义信息的特征提取和池化操作,最后通过注意力网络进行处理,使用注意力机制进行原始问题语义单元的重要性排序和选择学习,得到最终的问题-答案匹配得分。
进一步地,所诉的词向量化采用的词向量是预训练好的词向量,接着采用词向量做特征映射,得到问题和答案的定长词向量表示。
进一步地,交互矩阵是对问题和答案间进行交互计算得到的问题-答案交互矩阵。
进一步地,层次化卷积神经网络即不同层级下不同维度的卷积核操作和其相应的池化操作,对问题-答案交互矩阵,进行词粒度,短语粒度和语句粒度间的不同粒度下语义匹配信息的高维特征提取。
进一步地,注意力网络使用注意力机制进行原始问题语义单元的重要性排序和选择学习,我们需要对高维抽象的语义信息和已排序的原始问题语义单元进行结合,得到最终的问题-答案匹配得分。
进一步地,匹配过程如下:
①首先对自动问答数据集中的问题和答案语句进行词汇定长输出后得到T1=(ω12,…ωm)和T2=(v1,v2,…vn)进行词向量化得到问题和答案的定长词向量表示,可得到问题的定长词向量表示
Figure GDA0002115580700000021
和答案的定长词向量表示
Figure GDA0002115580700000022
②从问题和答案之间进行交互计算得到的问题-答案交互矩阵为:
Figure GDA0002115580700000023
③层次化卷积神经网络对问题-答案交互矩阵,进行词粒度,短语粒度和语句粒度间的不同粒度下语义匹配信息的高维特征提取即不同层级下不同维度的卷积核操作和其对应的池化操作。第一层卷积神经网络采用二维卷积核,第k个卷积核W(1,k)对于交互矩阵Z(0)=M进行运算:
Figure GDA0002115580700000024
采用二维正方形卷积核和Re LU作为σ激活函数。第二层网络的池化层采用动态最大值池化策略,通过公式得到动态池化后的高维语义特征向量:
Figure GDA0002115580700000025
第三层卷积神经网络采用三维卷积核计算得到更高维度和更抽象的语义特征信息,第四层池化层采用最大值池化策略:
Figure GDA0002115580700000026
注意力机制是对高维抽象的语义信息和已排序的原始问题语义单元进行结合,采用softmax进行原始问题语义单元重要性的归一化,同时采用点乘计算得到最终的得分:
Figure GDA0002115580700000031
其中,wi:文本T1第i个词汇;
vj:文本T2中第j个词汇;
Φ:表示将文本进行向量化函数;
rk:代表第k个卷积核的大小;
dk:表示动态池化单元的宽度大小,
Figure GDA0002115580700000032
d'k:表示动态池化单元长度大小,
Figure GDA0002115580700000033
c:表示第二层输出的高维语义特征向量的数量,也就是第一层二维卷积核的数量;
qj:表示原始问题的语义单元;
zjk:表示高维语义信息的语义单元;
σ:激活函数为sigmoid函数。
与现有技术相比,本发明的有益效果是:
1.本发明采用交互矩阵作为文本间交互计算,可以得到文本匹配中问题和答案之间的在词粒度,短语粒度和语句粒度的不同粒度下的语义匹配信息,增加文本匹配的准确性。
2.本发明采用层次化卷积神经网络在文本匹配中对问题-答案交互矩阵,进行词粒度,短语粒度和语句粒度间的不同粒度下语义匹配信息的高维特征提取,特征是高维且抽象的语义匹配特征,同时也是层次化的语义特征。
3.本发明使用注意力机制对高维抽象的语义信息和已排序的原始问题语义单元进行结合,充分考虑原始语义单元的重要性,加强了文本匹配中原始问题的选择性学习。
附图说明
图1为本发明文本匹配模型的网络结构图。
图2为本发明文本匹配点乘交互计算效果图。
图中附图标记含义为:1词向量化,2交互矩阵,3为层次化卷积神经网络,4为注意力网络。
具体实施方式
下面结合附图以及具体实施方式进一步说明本发明。
本发明是一种基于层次化卷积神经网络和注意力机制的文本匹配方法,其网络结构如图1所示,包括:词向量化1、交互矩阵2、层次化卷积神经网络3、注意力网络4。
所诉的词向量化,采用的词向量是预训练好的词向量,接着采用词向量做特征映射,得到问题和答案的定长词向量表示。
具体来说,所诉的词向量化是预训练好的词向量,首先对自动问答数据集中的问题和答案语句进行词汇定长输出后得到T1=(ω12,…ωm)和T2=(v1,v2,…vn)进行词向量化得到问题和答案的定长词向量表示,可得到问题的定长词向量表示
Figure GDA0002115580700000041
和答案的定长词向量表示
Figure GDA0002115580700000042
所诉的交互矩阵部分,为了得到问题和答案之间的在词粒度,短语粒度和语句粒度的不同粒度下的语义匹配信息,我们需要对问题和答案之间进行交互计算得到问题-答案交互矩阵。
具体来说,所诉的交互矩阵部分从问题和答案之间进行交互计算得到的问题-答案交互矩阵为:
Figure GDA0002115580700000043
所诉的层次化卷积神经网络,对于问题-答案交互矩阵,需要进行词粒度,短语粒度和语句粒度间的不同粒度下语义匹配信息的高维特征提取,因此采用层次化的卷积神经网络进行处理,即不同层级下不同维度的卷积核操作和其对应的池化操作。
具体来说,所诉的层次化卷积神经网络的第一层卷积神经网络采用二维卷积核,第k个卷积核W(1,k)对于交互矩阵Z(0)=M进行运算:
Figure GDA0002115580700000044
采用二维正方形卷积核和Re LU作为σ激活函数。第二层网络的池化层采用动态最大值池化策略,通过公式得到动态池化后的高维语义特征向量:
Figure GDA0002115580700000045
第三层卷积神经网络采用三维卷积核计算得到更高维度和更抽象的语义特征信息,第四层池化层采用最大值池化策略:
Figure GDA0002115580700000046
所诉的注意力网络进行原始问题语义单元[10]的重要性排序和选择学习,是注意力网络的核心。我们需要对高维抽象的语义信息和已排序的原始问题语义单元进行结合,得到最终的问题-答案匹配得分。
具体来说,所诉的采用注意力网络softmax进行原始问题语义单元重要性的归一化,同时采用点乘计算得到最终的得分:
Figure GDA0002115580700000051
词向量化、卷积神经网络、注意力机制等概念属于本领域技术人员的公知常识,在本说明书中不进行详细的赘述,本领域技术人员可根据实际应用情况进行概念查询,选择公知手段对各个网络结构进行理解实现。

Claims (6)

1.一种基于层次化卷积神经网络和注意力机制的文本匹配方法,其特征在于:词向量化(1)、交互矩阵(2)、层次化卷积神经网络(3)、注意力网络(4),其中所述的词向量化是对自动问答数据集中的问题和答案语句进行词汇定长输出后得到的T1=(ω12,…ωm)和T2=(v1,v2,…vn)用词向量做特征映射,得到问题和答案的定长词向量表示;交互矩阵是从问题和答案之间进行交互计算得到的问题-答案交互矩阵;层次化卷积神经网络对问题-答案交互矩阵,进行词粒度,短语粒度和语句粒度间的不同粒度下语义匹配信息的高维特征提取;使用注意力机制对高维抽象的语义信息和已排序的原始问题语义单元进行结合,得到最终的问题-答案匹配得分。
2.根据权利要求1所述的一种基于层次化卷积神经网络和注意力机制的文本匹配方法,其特征在于:词向量化(1)采用的词向量是预训练好的词向量,首先对自动问答数据集中的问题和答案语句进行词汇定长输出得到T1=(ω12,…ωm)和T2=(v1,v2,…vn),接着采用词向量做特征映射,得到问题和答案的定长词向量表示。
3.根据权利要求1所述的一种基于层次化卷积神经网络和注意力机制的文本匹配方法,其特征在于:交互矩阵(2)对问题和答案之间进行交互计算得到的问题-答案交互矩阵。
4.根据权利要求1所述的一种基于层次化卷积神经网络和注意力机制的文本匹配方法,其特征在于:层次化卷积神经网络(3)即不同层级下不同维度的卷积核操作和其相应的池化操作,对问题-答案交互矩阵,进行词粒度,短语粒度和语句粒度间的不同粒度下语义匹配信息的高维特征提取。
5.根据权利要求1所述的一种基于层次化卷积神经网络和注意力机制的文本匹配方法,其特征在于:注意力网络(4)使用注意力机制进行原始问题语义单元的重要性排序和选择学习,是注意力网络的核心;我们需要对高维抽象的语义信息和已排序的原始问题语义单元进行结合,得到最终的问题-答案匹配得分。
6.根据权利要求1所述的一种基于层次化卷积神经网络和注意力机制的文本匹配方法,其特征在于:匹配过程如下:
①首先对自动问答数据集中的问题和答案语句进行词汇定长输出后得到T1=(ω12,…ωm)和T2=(v1,v2,…vn)进行词向量化得到问题和答案的定长词向量表示,可得到问题的定长词向量表示
Figure FDA0002115580690000011
和答案的定长词向量表示
Figure FDA0002115580690000012
②从问题和答案之间进行交互计算得到的问题-答案交互矩阵为:
Figure FDA0002115580690000021
③层次化卷积神经网络对问题-答案交互矩阵,进行词粒度,短语粒度和语句粒度间的不同粒度下语义匹配信息的高维特征提取即不同层级下不同维度的卷积核操作和其对应的池化操作;第一层卷积神经网络采用二维卷积核,第k个卷积核W(1,k)对于交互矩阵Z(0)=M进行运算:
Figure FDA0002115580690000022
采用二维正方形卷积核和ReLU作为σ激活函数;第二层网络的池化层采用动态最大值池化策略,通过公式得到动态池化后的高维语义特征向量:
Figure FDA0002115580690000023
第三层卷积神经网络采用三维卷积核计算得到更高维度和更抽象的语义特征信息,第四层池化层采用最大值池化策略:
Figure FDA0002115580690000024
注意力机制是对高维抽象的语义信息和已排序的原始问题语义单元进行结合,采用softmax进行原始问题语义单元重要性的归一化,同时采用点乘计算得到最终的得分:
Figure FDA0002115580690000025
其中,wi:文本T1第i个词汇;
vj:文本T2中第j个词汇;
Φ:表示将文本进行向量化函数;
rk:代表第k个卷积核的大小;
dk:表示动态池化单元的宽度大小,
Figure FDA0002115580690000026
d'k:表示动态池化单元长度大小,
Figure FDA0002115580690000027
c:表示第二层输出的高维语义特征向量的数量,也就是第一层二维卷积核的数量;
qj:表示原始问题的语义单元;
zjk:表示高维语义信息的语义单元;
σ:激活函数为sigmoid函数。
CN201910419010.1A 2019-05-20 2019-05-20 一种基于层次化卷积神经网络和注意力机制的文本匹配方法 Active CN110134964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910419010.1A CN110134964B (zh) 2019-05-20 2019-05-20 一种基于层次化卷积神经网络和注意力机制的文本匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910419010.1A CN110134964B (zh) 2019-05-20 2019-05-20 一种基于层次化卷积神经网络和注意力机制的文本匹配方法

Publications (2)

Publication Number Publication Date
CN110134964A CN110134964A (zh) 2019-08-16
CN110134964B true CN110134964B (zh) 2022-10-28

Family

ID=67571567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910419010.1A Active CN110134964B (zh) 2019-05-20 2019-05-20 一种基于层次化卷积神经网络和注意力机制的文本匹配方法

Country Status (1)

Country Link
CN (1) CN110134964B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765260A (zh) * 2019-10-18 2020-02-07 北京工业大学 一种基于卷积神经网络与联合注意力机制的信息推荐方法
CN112925961A (zh) * 2019-12-06 2021-06-08 北京海致星图科技有限公司 一种基于企业实体的智能问答方法及装置
CN111046672B (zh) * 2019-12-11 2020-07-14 山东众阳健康科技集团有限公司 多场景文本摘要生成方法
CN113116384A (zh) * 2019-12-31 2021-07-16 无锡祥生医疗科技股份有限公司 超声扫查引导方法、超声设备及存储介质
CN111831789B (zh) * 2020-06-17 2023-10-24 广东工业大学 一种基于多层语义特征提取结构的问答文本匹配方法
CN112270289A (zh) * 2020-07-31 2021-01-26 广西科学院 一种基于图卷积注意力网络的智能监测方法
CN111967542B (zh) * 2020-10-23 2021-01-29 江西小马机器人有限公司 一种基于深度特征点的表计识别二次定位方法
CN113901215B (zh) * 2021-10-09 2022-04-26 延边大学 一种融合高低层语义信息的文本蕴含识别方法
CN117637153B (zh) * 2024-01-23 2024-03-29 吉林大学 患者安全护理的信息化管理系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562792A (zh) * 2017-07-31 2018-01-09 同济大学 一种基于深度学习的问答匹配方法
CN108829719A (zh) * 2018-05-07 2018-11-16 中国科学院合肥物质科学研究院 一种非事实类问答答案选择方法及系统
WO2019012908A1 (ja) * 2017-07-13 2019-01-17 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019012908A1 (ja) * 2017-07-13 2019-01-17 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答装置
CN107562792A (zh) * 2017-07-31 2018-01-09 同济大学 一种基于深度学习的问答匹配方法
CN108829719A (zh) * 2018-05-07 2018-11-16 中国科学院合肥物质科学研究院 一种非事实类问答答案选择方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于注意力和字嵌入的中文医疗问答匹配方法;陈志豪等;《计算机应用》;20190129(第06期);全文 *
基于深度学习的问答匹配方法;荣光辉等;《计算机应用》;20171010(第10期);全文 *

Also Published As

Publication number Publication date
CN110134964A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110134964B (zh) 一种基于层次化卷积神经网络和注意力机制的文本匹配方法
CN107562792B (zh) 一种基于深度学习的问答匹配方法
Wang et al. Convolutional recurrent neural networks for text classification
CN110222163B (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN111767408B (zh) 一种基于多种神经网络集成的因果事理图谱构建方法
CN110580288B (zh) 基于人工智能的文本分类方法和装置
CN109918491B (zh) 一种基于知识库自学习的智能客服问句匹配方法
CN113987209A (zh) 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质
CN109472024A (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN110232122A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
Arora et al. Agribot: a natural language generative neural networks engine for agricultural applications
CN111930942A (zh) 文本分类方法、语言模型训练方法、装置及设备
CN111858896B (zh) 一种基于深度学习的知识库问答方法
CN111309891B (zh) 一种阅读机器人进行自动问答的系统及其应用方法
CN112417894A (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN111898374A (zh) 文本识别方法、装置、存储介质和电子设备
CN110334196B (zh) 基于笔画和自注意力机制的神经网络中文问题生成系统
CN111897944A (zh) 基于语义空间共享的知识图谱问答系统
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN114758180B (zh) 一种基于知识蒸馏的轻量化花卉识别方法
CN113901188A (zh) 一种检索式个性化对话方法与系统
CN116775846A (zh) 领域知识问答方法、系统、设备及介质
CN113806543B (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN110516231A (zh) 基于注意力机制的膨胀卷积实体名识别方法
CN112667797B (zh) 自适应迁移学习的问答匹配方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant