CN113239678B - 一种面向答案选择的多角度注意力特征匹配方法及系统 - Google Patents

一种面向答案选择的多角度注意力特征匹配方法及系统 Download PDF

Info

Publication number
CN113239678B
CN113239678B CN202110361238.7A CN202110361238A CN113239678B CN 113239678 B CN113239678 B CN 113239678B CN 202110361238 A CN202110361238 A CN 202110361238A CN 113239678 B CN113239678 B CN 113239678B
Authority
CN
China
Prior art keywords
sample
processing object
object group
module
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110361238.7A
Other languages
English (en)
Other versions
CN113239678A (zh
Inventor
徐小龙
刘聪
肖甫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110361238.7A priority Critical patent/CN113239678B/zh
Publication of CN113239678A publication Critical patent/CN113239678A/zh
Application granted granted Critical
Publication of CN113239678B publication Critical patent/CN113239678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向答案选择的多角度注意力特征匹配方法及系统,使用混合编码层,通过使用混合编码层丰富文本特征,结合双向LSTM提取序列化信息,以及TextCNN的不同高度卷积核,获取更为广泛的短文本信息,进而达到互补效果;同时使用多层次相似度计算,通过注意力机制,提取两个句子之间的局部交互信息和整体相似度特征,然后将提取的特征进行组合,兼顾句子局部与整体进行相似度评分,整个技术方案,由候选答案中,能够高效、准确的实现目标答案的自动获得。

Description

一种面向答案选择的多角度注意力特征匹配方法及系统
技术领域
本发明涉及一种面向答案选择的多角度注意力特征匹配方法及系统,属于自然语言处理技术领域。
背景技术
在问答系统中,经过信息检索后,问答系统内容需要对候选答案进行排序,从而选择最佳答案。在社区问答、智能客服等场景中,相对于生成需要答案,在已有的候选答案中选择合适的答案更加便捷高效。答案选择是自然语言处理中十分重要的任务,也是问答系统不可缺少的重要组件。答案选择任务可以看做是一个答案匹配任务。答案选择任务也被认为是文本匹配的一种应用。但是检索式问答系统同时也面临着以下的问题:(1)问句信息匮乏。用户提问一般不会非常详细,通常由短文本构成,其中蕴含的信息量本就不多,在去除无意义的词语后就更加稀少;(2)问题和答案的长度不匹配。通常问题内容较短,一般有5-15字短文本内容构成。而答案常常20-50字构成。答案中与问题不是十分相关的冗余特征,会对答案的表示造成影响,进而影响最后的排序;(3)候选答案相似度高。候选答案通常由相似领域的不同答案构成,这对基于关键词匹配或词袋模型的方法很难解决这类问题。
目前已经有很多学者研究问答系统中的答案选择,主要可以基于特征扩展的方法和基于深度学习的方法。前者通常基于词语匹配或者语法特征。后者通过对答案抽象总结,转化为对称的特征编码,减少冗余信息影响。答案选择任务实质上就是一种文本匹配任务,深度学习在答案选择中的应用通常由几个类别,首先是基于表示的文本匹配模型,这类模型通常使用孪生网络。通常是对问句和答案分别进行编码,然后根据二者的向量表示,设定相似度计算函数或结构,最终获得两句的相似度评分。另一种是基于交互的匹配模型,这类模型通常结合注意力机制构建。一般通过注意力结构对问题和答案进行不同粒度的交互,然后将交互结果组合起来,形成最终的匹配关系表示。这类模型通常由复杂的结构组成,注重提取句子特征和句子交互关系方面的内容。
目前的答案选择技术主要存在以下问题:
(1)基于特征工程的方法需要人为的进行特征工程,这类方法往往有着复杂的特征工程,并且模型只能适应特定数据集,并不具有普遍性。而且,模型的效果依赖特征工程的设计,人的作用过于重要。
(2)基于深度学习的方法中,基于表示的方法通常对两个句子进行相对独立的特征提取,即使加入交互信息,也是单一层级的交互,交互信息利用不充分;基于交互的方法通常难以考虑全面的交互信息,不能通篇考虑局部和全局相似度并加以有效结合。
发明内容
本发明所要解决的技术问题是提供一种面向答案选择的多角度注意力特征匹配方法,采用全新设计逻辑,能够由高效、准确的实现目标答案的自动获得。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种面向答案选择的多角度注意力特征匹配方法,执行如下步骤i至步骤viii,获得问题答案分类模型,以及应用问题答案分类模型,执行步骤A至步骤C,获得目标问题基于其各候选答案中所对应的目标答案;
步骤i.基于预设数量的各样本问题、各样本问题分别所对应的各样本候选答案,以及各样本问题分别基于其各样本候选答案中所对应的目标样本答案,构建样本数据集,然后进入步骤ii;
步骤ii.针对各样本问题,获得各样本问题分别所对应彼此相同长度的各向量集合,进而获得各样本问题分别所对应的向量集合;以及针对各样本候选答案,获得各样本候选答案分别所对应彼此相同长度的各向量集合,进而获得各样本候选答案分别所对应的向量集合;然后以样本问题所对应向量集合分别与其各样本候选答案所对应向量集合,构建该样本问题所对应的各样本处理对象组,进而获得各样本问题分别所对应的各样本处理对象组,并进入步骤iii;
步骤iii.基于预设第一网络、预设第二网络,以处理对象组为输入,处理对象组中问题与候选答案分别所对应彼此维度相同的特征编码矩阵为处理对象组的更新输出,分别构建彼此输出维度相同的第一特征提取网络、第二特征提取网络,第一特征提取网络、第二特征提取网络用于同时接收相同处理对象组,并分别执行处理,然后进入步骤iv;
步骤iv.构建拼接模块,拼接模块的输入端同时对接第一特征提取网络的输出端、第二特征提取网络的输出端,拼接模块用于实现第一特征提取网络与第二特征提取网络所输出相同处理对象组的拼接,执行该处理对象组中问题分别对应第一特征提取网络、第二特征提取网络输出的特征编码矩阵之间的拼接,获得该处理对象组中问题对应的拼接特征编码矩阵,以及执行该处理对象组中候选答案分别对应第一特征提取网络、第二特征提取网络输出的特征编码矩阵之间的拼接,获得该处理对象组中候选答案对应的拼接特征编码矩阵;进而构成拼接处理对象组;然后进入步骤v;
步骤v.构建局部特征提取模块,局部特征提取模块的输入端对接拼接模块的输出端,用于接收来自拼接模块的拼接处理对象组,并基于拼接处理对象组中问题与候选答案分别对应拼接特征编码矩阵之间的相似度,获得拼接处理对象组中问题与候选答案分别对应的局部特征矩阵,构成局部特征处理对象组;
同时,构建相似矩阵模块,相似矩阵模块的输入端对接拼接模块的输出端,用于接收来自拼接模块的拼接处理对象组,应用拼接处理对象组中问题与候选答案分别对应拼接特征编码矩阵之间的余弦距离值,加上与拼接特征编码矩阵维度相同的权重矩阵,构成拼接处理对象组所对应的相似度;
然后进入步骤vi;
步骤vi.构建矩阵组合模块,矩阵组合模块的输入端同时对接局部特征提取模块的输出端、相似矩阵模块的输出端,矩阵组合模块用于针对局部特征提取模块输出拼接处理对象组所对应的局部特征处理对象组,结合相似矩阵模块输出对应拼接处理对象组的相似度,获得该拼接处理对象组所对应的综合处理对象组,然后进入步骤vii;
步骤vii.构建矩阵组合模块的输出端对接全连接层,即基于第一特征提取网络、第二特征提取网络、拼接模块、局部特征提取模块、相似矩阵模块、矩阵组合模块、全连接层的连接,构建问题答案分类初始模型,然后进入步骤viii;
步骤viii.以各样本处理对象组为输入,各样本处理对象组中样本问题对应样本候选答案的概率为输出,结合各样本问题分别基于其各样本候选答案中所对应的目标样本答案,以及相似矩阵模块中权重矩阵的调整,针对问题答案分类初始模型进行训练,获得问题答案分类模型;
步骤A.针对目标问题、以及其所对应的各个候选答案,按步骤ii的方法,获得目标问题分别所对应的各处理对象组,然后进入步骤B;
步骤B.针对目标问题分别所对应的各处理对象组,应用问题答案分类模型进行处理,获得各处理对象组中目标问题对应候选答案的概率,即获得目标问题分别对应其各候选答案的概率,然后进入步骤C;
步骤C.基于目标问题分别对应其各候选答案的概率,选择最高概率所对应的候选答案,即为目标问题所对应的目标答案。
作为本发明的一种优选技术方案:所述步骤ii包括如下步骤ii-1至步骤ii-3;
步骤ii-1.针对各样本问题,获得各样本问题分别所对应彼此相同数量的各分词,进而获得各样本问题分别所对应的分词集合;以及针对各样本候选答案,获得各样本候选答案分别所对应彼此相同数量的各分词,进而获得各样本候选答案分别所对应的分词集合;然后进入步骤ii-2;
步骤ii-2.分别针对各样本问题所对应的分词集合,基于各分词至对应向量的转换,获得各样本问题分别所对应的向量集合,以及分别针对各样本候选答案所对应的分词集合,基于各分词至对应向量的转换,获得各样本候选答案分别所对应的向量集合,然后进入步骤ii-3;
步骤ii-3.以样本问题所对应向量集合分别与其各样本候选答案所对应向量集合,构建该样本问题所对应的各样本处理对象组,进而获得各样本问题分别所对应的各样本处理对象组,然后进入步骤iii。
作为本发明的一种优选技术方案:所述步骤ii-1包括如下步骤ii-1-1至步骤ii-1-2:
步骤ii-1-1.分别针对各样本问题,依次执行分词处理、以及基于预设连词库的连词删除处理,获得各样本问题分别所对应的各分词;以及分别针对各样本候选答案,依次执行分词处理、以及基于预设连词库的连词删除处理,获得各样本候选答案分别所对应的各分词;然后进入步骤ii-1-2;
步骤ii-1-2.分别针对各样本问题,基于预设数量分词数m,通过补充预设数值或顺序删除末尾分词的方式,更新获得各样本问题分别所对应彼此相同数量m的各分词,进而获得各样本问题分别所对应的分词集合;分别针对各样本候选答案,基于预设数量分词数n,通过补充预设数值或顺序删除末尾分词的方式,更新获得各样本候选答案分别所对应彼此相同数量n的各分词,进而获得各样本候选答案分别所对应的分词集合;然后进入步骤ii-2。
作为本发明的一种优选技术方案:所述步骤iii中,预设第一网络为卷积神经网络,预设第二网络为双向长短时记忆网络。
作为本发明的一种优选技术方案:所述步骤v中所构建局部特征提取模块的应用中,首选接收来自拼接模块的拼接处理对象组(q,a),q表示拼接处理对象组中问题对应的拼接特征编码矩阵,a表示拼接处理对象组中候选答案对应的拼接特征编码矩阵;然后根据q·a,获得拼接处理对象组中问题与候选答案分别对应拼接特征编码矩阵之间的相似度;最后针对拼接处理对象组中问题与候选答案分别对应拼接特征编码矩阵,结合该相似度,通过软注意力机制,获得问题对应的局部特征矩阵vq,以及候选答案对应的局部特征矩阵va,构成局部特征处理对象组(vq,va)。
作为本发明的一种优选技术方案:所述步骤vi中所构建矩阵组合模块的应用中,矩阵组合模块用于针对局部特征提取模块输出拼接处理对象组所对应的局部特征处理对象组(vq,va),结合相似矩阵模块输出对应拼接处理对象组的相似度d,按qout=dvq、aout=dva,获得该拼接处理对象组所对应的综合处理对象组(qout,aout)。
与上述相对应,本发明进一步设计了一种面向答案选择的多角度注意力特征匹配方法的系统,包括预处理模块、编码模块、相似度判断模块、相似度加权模块、答案获得模块;其中,预处理模块用于执行所述步骤ii,编码模块用于执行所述步骤iii至步骤iv,相似度判断模块用于执行所述步骤v,相似度加权模块用于执行所述步骤vi,答案获得模块用于执行所述步骤vii至步骤viii。
本发明所述一种面向答案选择的多角度注意力特征匹配方法及系统,采用以上技术方案与现有技术相比,具有以下技术效果:
本发明所设计一种面向答案选择的多角度注意力特征匹配方法及系统,使用混合编码层,通过使用混合编码层丰富文本特征,结合双向LSTM提取序列化信息,以及TextCNN的不同高度卷积核,获取更为广泛的短文本信息,进而达到互补效果;同时使用多层次相似度计算,通过注意力机制,提取两个句子之间的局部交互信息和整体相似度特征,然后将提取的特征进行组合,兼顾句子局部与整体进行相似度评分,整个技术方案,由候选答案中,能够高效、准确的实现目标答案的自动获得。
附图说明
图1是本发明所设计面向答案选择的多角度注意力特征匹配方法的流程示意图;
图2是本发明所设计面向答案选择的多角度注意力特征匹配方法的系统的架构示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明所涉及一种面向答案选择的多角度注意力特征匹配方法,问答系统中的最佳答案选择问题必然会面对文本特点带来的特征稀疏问题。考虑到传统基于特征工程方法使用技术往往有着复杂的特征工程,并且模型只能适应特定数据集,并不具有普遍性。本发明提出的方法并没有此类局限,并且通过混合编码层的使用,更加全面丰富的提取了文本的编码信息。考虑到在问题和答案相似度建模时,常常只关注某个角度的相似度,不能够多角度全面提取,本发明利用注意力机制分别从局部和整体两个方面进行特征提取,通过局部推断增强和句子余弦相似度的动态训练获得更加准确的相似度评分。
基于上述现有技术,本发明设计了一种面向答案选择的多角度注意力特征匹配方法,执行如下步骤i至步骤viii,获得问题答案分类模型。
步骤i.基于预设数量的各样本问题、各样本问题分别所对应的各样本候选答案,以及各样本问题分别基于其各样本候选答案中所对应的目标样本答案,构建样本数据集,然后进入步骤ii。
步骤ii.针对各样本问题,获得各样本问题分别所对应彼此相同长度的各向量集合,进而获得各样本问题分别所对应的向量集合;以及针对各样本候选答案,获得各样本候选答案分别所对应彼此相同长度的各向量集合,进而获得各样本候选答案分别所对应的向量集合;然后以样本问题所对应向量集合分别与其各样本候选答案所对应向量集合,构建该样本问题所对应的各样本处理对象组,进而获得各样本问题分别所对应的各样本处理对象组,并进入步骤iii。
实际应用当中,上述步骤ii具体执行如下步骤ii-1至步骤ii-3。
步骤ii-1.针对各样本问题,获得各样本问题分别所对应彼此相同数量的各分词,进而获得各样本问题分别所对应的分词集合;以及针对各样本候选答案,获得各样本候选答案分别所对应彼此相同数量的各分词,进而获得各样本候选答案分别所对应的分词集合;然后进入步骤ii-2。
进一步,上述步骤ii-1具体设计执行如下步骤ii-1-1至步骤ii-1-2。
步骤ii-1-1.分别针对各样本问题,依次执行分词处理、以及基于预设连词库的连词删除处理,获得各样本问题分别所对应的各分词;以及分别针对各样本候选答案,依次执行分词处理、以及基于预设连词库的连词删除处理,获得各样本候选答案分别所对应的各分词;然后进入步骤ii-1-2。
步骤ii-1-2.分别针对各样本问题,基于预设数量分词数m,通过补充预设数值或顺序删除末尾分词的方式,更新获得各样本问题分别所对应彼此相同数量m的各分词,进而获得各样本问题分别所对应的分词集合;分别针对各样本候选答案,基于预设数量分词数n,通过补充预设数值或顺序删除末尾分词的方式,更新获得各样本候选答案分别所对应彼此相同数量n的各分词,进而获得各样本候选答案分别所对应的分词集合;然后进入步骤ii-2。
步骤ii-2.分别针对各样本问题所对应的分词集合,基于各分词至对应向量的转换,获得各样本问题分别所对应的向量集合,以及分别针对各样本候选答案所对应的分词集合,基于各分词至对应向量的转换,获得各样本候选答案分别所对应的向量集合,然后进入步骤ii-3。
步骤ii-3.以样本问题所对应向量集合分别与其各样本候选答案所对应向量集合,构建该样本问题所对应的各样本处理对象组,进而获得各样本问题分别所对应的各样本处理对象组,然后进入步骤iii。
步骤iii.基于预设第一网络、以及预设第二网络,以处理对象组为输入,处理对象组中问题与候选答案分别所对应彼此维度相同的特征编码矩阵为处理对象组的更新输出,分别构建彼此输出维度相同的第一特征提取网络、第二特征提取网络,第一特征提取网络、第二特征提取网络用于同时接收相同处理对象组,并分别执行处理,然后进入步骤iv。
实际应用中,基于诸如卷积神经网络的预设第一网络、以及诸如双向长短时记忆网络的预设第二网络进行应用,其中,卷积神经网络提取文本特征,分别获得短文本编码qcnn,acnn。采用预训练词向量初始化文本通过嵌入层后每个词的词向量为
Figure GDA0003151722000000071
其中n是句子长度,l是向量维度。
本部分主要由卷积神经网络特征提取和池化层组成。使用不同尺寸的过滤器,使用不同高度的卷积神经网络可以获取含有不同语义特征的特征向量,通过设置好的滤波器提取句子特征,公式如下:
Ci=f(W·xi:i+g-1+b)
其中,W是卷积核的权重,卷积核的尺寸是h,xi:i+g-1表示i到i+g-1个词向量组成的句子向量,b是偏置,每次滑动h个单词,f是非线性激活函数如ReLU或tanh。通过卷积层得到特征矩阵C,C=[c1,c2,…,cn-h+1]。
采用最大池化操作获取每个卷积核生成的特征向量中最具代表性的特征实现特征降维,公式如下:
M=max(c1,c2,...,cn-g+1)=max{C}
为了实现上下文之间联系的提取,设计应用双向长短时记忆网络作为预设第二网络,提取由前到后和由后向前两个方向的关联关系。采用具有门结构的长短时记忆网络(LSTM),提取经过的词向量初始化文本的词序特征将得到编码输出到全连接层调整成合适的特征矩阵输出,获得短文本特征c。
xt是词嵌入后的矩阵,代表当前时间步输入。x1 x2…xt∈RId×1,其中Id为词嵌入的维度。每个LSTM节点包含输入门、输出门和遗忘门,使得LSTM单元可以判断、控制和记忆相关信息。而且,每个LSTM单元还可以接受与传递单元状态与隐层状态。
输入门it更新计算公式如下所示:
it=σ(Wi[ht-1,xt]+bi)
遗忘门ft更新计算公式如下所示:
ft=σ(Wf[ht-1,xt]+bf)
输出门ot更新计算公式如下所示:
ot=σ(Wo[ht-1,xt]+bo)
其中,σ表示Sigmoid函数,Wi,Wf,Wo分别表示输入们、遗忘门和输出门的权重矩阵,bi,bf,bo分别表示对应的偏置。遗忘门与输入门又共同构成更新门,改变单元的状态,其计算公式如下所示:
Figure GDA0003151722000000081
其中,ct-1表示上一时刻的c值,Wc表示更新门的权重矩阵,bc表示更新门的偏置。
ht代表当前时间步隐层的状态,h∈Rn×1,n为隐层的维度,其计算公式如公式10所示:
Figure GDA0003151722000000082
门结构是用来限制信息量,并且可以使长短时记忆节点记住历史信息,更适合处理文本信息,而BiLSTM是由两个方向相反的LSTM层组合而成。
步骤iv.构建拼接模块,拼接模块的输入端同时对接第一特征提取网络的输出端、第二特征提取网络的输出端,拼接模块用于实现第一特征提取网络与第二特征提取网络所输出相同处理对象组的拼接,执行该处理对象组中问题分别对应第一特征提取网络、第二特征提取网络输出的特征编码矩阵之间的拼接,获得该处理对象组中问题对应的拼接特征编码矩阵,以及执行该处理对象组中候选答案分别对应第一特征提取网络、第二特征提取网络输出的特征编码矩阵之间的拼接,获得该处理对象组中候选答案对应的拼接特征编码矩阵;进而构成拼接处理对象组;然后进入步骤v。
步骤v.构建局部特征提取模块,局部特征提取模块的输入端对接拼接模块的输出端,用于接收来自拼接模块的拼接处理对象组,并基于拼接处理对象组中问题与候选答案分别对应拼接特征编码矩阵之间的相似度,获得拼接处理对象组中问题与候选答案分别对应的局部特征矩阵,构成局部特征处理对象组。
这里局部特征提取模块在应用中,首选接收来自拼接模块的拼接处理对象组(q,a),q表示拼接处理对象组中问题对应的拼接特征编码矩阵,a表示拼接处理对象组中候选答案对应的拼接特征编码矩阵;然后根据q·a,获得拼接处理对象组中问题与候选答案分别对应拼接特征编码矩阵之间的相似度;最后针对拼接处理对象组中问题与候选答案分别对应拼接特征编码矩阵,结合该相似度,通过软注意力机制,获得问题对应的局部特征矩阵vq,以及候选答案对应的局部特征矩阵va,构成局部特征处理对象组(vq,va)。
对于局部特征提取模块进行具体分析,在计算两个句子相似度时,不可忽略就是单词这种局部信息的相似度匹配。为了获取句子之间的单词相似度,需要对问答句子进行交互。首先,我们对两个句子的编码结果点乘,获得交互矩阵:
Figure GDA0003151722000000091
其中eij为交互后的注意力权重矩阵。如果两个句子的相关性较大,其对应的乘积也会相应变高,而不相似的内容乘积相对变小,这样就获得了两句交互信息中的相似度。接着,使用权重矩阵对两个向量进行相互表示,通过相似度表示的内容包含了两个句子局部相似度交互信息。为了平衡注意力权重,对其归一化处理。这个权重矩阵代表了两个句子在对应位置的相似程度,使用权重矩阵对两个句子进行局部推理,获得句子的交互结果。公式形式借鉴了softmax函数求取:
Figure GDA0003151722000000092
Figure GDA0003151722000000093
以上三个公式作用是将一个句子中的某个单词与另一个中的所有单词计算相似度,计算所得结果即为注意力的权重矩阵,以此得到新的序列,提取了局部信息的匹配结果。
为了分析局部信息与原有特征矩阵的相似度,通过点乘和相减的方式获取差异性,并与前面获取的其他信息组合起来,获取局部匹配信息的强化结果。
Figure GDA0003151722000000094
Figure GDA0003151722000000095
最终获得局部差异矩阵,代表了问句和答句单词之间的匹配程度,并为与两句的全局特征组合为进一步推断做准备。为了减少参数和模型复杂度,获得的参数进行最大池化和平均池化操作。
Figure GDA0003151722000000101
vq=[vq,ave;vq,max]
Figure GDA0003151722000000102
va=[va,ave;va,max]
使用两种池化方法也是为了更加详细的分析矩阵差异性,在将向量中最具代表性的特征筛选出来的同时,获得了向量的整体分布的平均值。经过池化的特征拼接之后,获得问题和答案的输出vq,va
步骤v中,同时构建相似矩阵模块,相似矩阵模块的输入端对接拼接模块的输出端,用于接收来自拼接模块的拼接处理对象组,应用拼接处理对象组中问题与候选答案分别对应拼接特征编码矩阵之间的余弦距离值,加上与拼接特征编码矩阵维度相同的权重矩阵,构成拼接处理对象组所对应的相似度;然后进入步骤vi。
这里关于拼接处理对象组所对应的相似度d,是两个编码矩阵的动态加权余弦相似度。从另一个角度提取了两个句子的整体相似度。这里可训练的权重矩阵使得余弦相似度计算不再一成不变,而且可以根据自己的需求调整相似度通道数量,使得全局相似度的计算更加灵活。
步骤vi.构建矩阵组合模块,矩阵组合模块的输入端同时对接局部特征提取模块的输出端、相似矩阵模块的输出端,矩阵组合模块用于针对局部特征提取模块输出拼接处理对象组所对应的局部特征处理对象组,结合相似矩阵模块输出对应拼接处理对象组的相似度,获得该拼接处理对象组所对应的综合处理对象组,然后进入步骤vii。
具体实施中,上述步骤vi中所构建矩阵组合模块在应用中,矩阵组合模块用于针对局部特征提取模块输出拼接处理对象组所对应的局部特征处理对象组(vq,va),结合相似矩阵模块输出对应拼接处理对象组的相似度d,按qout=dvq、aout=dva,获得该拼接处理对象组所对应的综合处理对象组(qout,aout)。
步骤vii.构建矩阵组合模块的输出端对接全连接层,即基于第一特征提取网络、第二特征提取网络、拼接模块、局部特征提取模块、相似矩阵模块、矩阵组合模块、全连接层的连接,构建问题答案分类初始模型,然后进入步骤viii;其中,全连接层中应用sigmoid函数作为激活函数。
步骤viii.以各样本处理对象组为输入,各样本处理对象组中样本问题对应样本候选答案的概率为输出,结合各样本问题分别基于其各样本候选答案中所对应的目标样本答案,以及相似矩阵模块中权重矩阵的调整,针对问题答案分类初始模型进行训练,获得问题答案分类模型。
基于上述步骤i至步骤viii,问题答案分类模型的获得,进一步执行步骤A至步骤C,获得目标问题基于其各候选答案中所对应的目标答案。
步骤A.针对目标问题、以及其所对应的各个候选答案,按步骤ii的方法,获得目标问题分别所对应的各处理对象组,然后进入步骤B。
步骤B.针对目标问题分别所对应的各处理对象组,应用问题答案分类模型进行处理,获得各处理对象组中目标问题对应候选答案的概率,即获得目标问题分别对应其各候选答案的概率,然后进入步骤C。
步骤C.基于目标问题分别对应其各候选答案的概率,选择最高概率所对应的候选答案,即为目标问题所对应的目标答案。
与上述相对应,本发明进一步设计了一种面向答案选择的多角度注意力特征匹配方法的系统,包括预处理模块、编码模块、相似度判断模块、相似度加权模块、答案获得模块;其中,预处理模块用于执行所述步骤ii,编码模块用于执行所述步骤iii至步骤iv,相似度判断模块用于执行所述步骤v,相似度加权模块用于执行所述步骤vi,答案获得模块用于执行所述步骤vii至步骤viii。
具体来说,所述预处理模块对原始文本进行预处理,去除原始文本中的多余噪声,如缩写、特殊字符、大小写、标点符号去除、停用词过滤等,提升数据的质量,为后续的模块提供干净数据;编码模块分别使用卷积神经网络、双向长短时记忆网络算法提取特征,并使用最大池化精简融合;相似度判断模块,分别使用注意力机制从局部相似度和全局相似度进行提取,获得全面的问题与答案之间的相似度;相似度加权模块,将局部与全局相似度加权,将二者加以融合;答案获得模块,通过多层感知机进一步学习调整,并通过sigmoid函数获得相似度评分,根据答案的相似度评分对答案进行排序,其中,得分最多的答案就是问题对应的最佳答案。
上述技术方案所设计面向答案选择的多角度注意力特征匹配方法及系统,使用混合编码层,通过使用混合编码层丰富文本特征,结合双向LSTM提取序列化信息,以及TextCNN的不同高度卷积核,获取更为广泛的短文本信息,进而达到互补效果;同时使用多层次相似度计算,通过注意力机制,提取两个句子之间的局部交互信息和整体相似度特征,然后将提取的特征进行组合,兼顾句子局部与整体进行相似度评分,整个技术方案,由候选答案中,能够高效、准确的实现目标答案的自动获得。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (7)

1.一种面向答案选择的多角度注意力特征匹配方法,其特征在于:执行如下步骤i至步骤viii,获得问题答案分类模型,以及应用问题答案分类模型,执行步骤A至步骤C,获得目标问题基于其各候选答案中所对应的目标答案;
步骤i.基于预设数量的各样本问题、各样本问题分别所对应的各样本候选答案,以及各样本问题分别基于其各样本候选答案中所对应的目标样本答案,构建样本数据集,然后进入步骤ii;
步骤ii.针对各样本问题,获得各样本问题分别所对应彼此相同长度的各向量集合,进而获得各样本问题分别所对应的向量集合;以及针对各样本候选答案,获得各样本候选答案分别所对应彼此相同长度的各向量集合,进而获得各样本候选答案分别所对应的向量集合;然后以样本问题所对应向量集合分别与其各样本候选答案所对应向量集合,构建该样本问题所对应的各样本处理对象组,进而获得各样本问题分别所对应的各样本处理对象组,并进入步骤iii;
步骤iii.基于预设第一网络、预设第二网络,以处理对象组为输入,处理对象组中问题与候选答案分别所对应彼此维度相同的特征编码矩阵为处理对象组的更新输出,分别构建彼此输出维度相同的第一特征提取网络、第二特征提取网络,第一特征提取网络、第二特征提取网络用于同时接收相同处理对象组,并分别执行处理,然后进入步骤iv;
步骤iv.构建拼接模块,拼接模块的输入端同时对接第一特征提取网络的输出端、第二特征提取网络的输出端,拼接模块用于实现第一特征提取网络与第二特征提取网络所输出相同处理对象组的拼接,执行该处理对象组中问题分别对应第一特征提取网络、第二特征提取网络输出的特征编码矩阵之间的拼接,获得该处理对象组中问题对应的拼接特征编码矩阵,以及执行该处理对象组中候选答案分别对应第一特征提取网络、第二特征提取网络输出的特征编码矩阵之间的拼接,获得该处理对象组中候选答案对应的拼接特征编码矩阵;进而构成拼接处理对象组;然后进入步骤v;
步骤v.构建局部特征提取模块,局部特征提取模块的输入端对接拼接模块的输出端,用于接收来自拼接模块的拼接处理对象组,并基于拼接处理对象组中问题与候选答案分别对应拼接特征编码矩阵之间的相似度,获得拼接处理对象组中问题与候选答案分别对应的局部特征矩阵,构成局部特征处理对象组;
同时,构建相似矩阵模块,相似矩阵模块的输入端对接拼接模块的输出端,用于接收来自拼接模块的拼接处理对象组,应用拼接处理对象组中问题与候选答案分别对应拼接特征编码矩阵之间的余弦距离值,加上与拼接特征编码矩阵维度相同的权重矩阵,构成拼接处理对象组所对应的相似度;
然后进入步骤vi;
步骤vi.构建矩阵组合模块,矩阵组合模块的输入端同时对接局部特征提取模块的输出端、相似矩阵模块的输出端,矩阵组合模块用于针对局部特征提取模块输出拼接处理对象组所对应的局部特征处理对象组,结合相似矩阵模块输出对应拼接处理对象组的相似度,获得该拼接处理对象组所对应的综合处理对象组,然后进入步骤vii;
步骤vii.构建矩阵组合模块的输出端对接全连接层,即基于第一特征提取网络、第二特征提取网络、拼接模块、局部特征提取模块、相似矩阵模块、矩阵组合模块、全连接层的连接,构建问题答案分类初始模型,然后进入步骤viii;
步骤viii.以各样本处理对象组为输入,各样本处理对象组中样本问题对应样本候选答案的概率为输出,结合各样本问题分别基于其各样本候选答案中所对应的目标样本答案,以及相似矩阵模块中权重矩阵的调整,针对问题答案分类初始模型进行训练,获得问题答案分类模型;
步骤A.针对目标问题、以及其所对应的各个候选答案,按步骤ii的方法,获得目标问题分别所对应的各处理对象组,然后进入步骤B;
步骤B.针对目标问题分别所对应的各处理对象组,应用问题答案分类模型进行处理,获得各处理对象组中目标问题对应候选答案的概率,即获得目标问题分别对应其各候选答案的概率,然后进入步骤C;
步骤C.基于目标问题分别对应其各候选答案的概率,选择最高概率所对应的候选答案,即为目标问题所对应的目标答案。
2.根据权利要求1所述一种面向答案选择的多角度注意力特征匹配方法,其特征在于:
所述步骤ii包括如下步骤ii-1至步骤ii-3;
步骤ii-1.针对各样本问题,获得各样本问题分别所对应彼此相同数量的各分词,进而获得各样本问题分别所对应的分词集合;以及针对各样本候选答案,获得各样本候选答案分别所对应彼此相同数量的各分词,进而获得各样本候选答案分别所对应的分词集合;然后进入步骤ii-2;
步骤ii-2.分别针对各样本问题所对应的分词集合,基于各分词至对应向量的转换,获得各样本问题分别所对应的向量集合,以及分别针对各样本候选答案所对应的分词集合,基于各分词至对应向量的转换,获得各样本候选答案分别所对应的向量集合,然后进入步骤ii-3;
步骤ii-3.以样本问题所对应向量集合分别与其各样本候选答案所对应向量集合,构建该样本问题所对应的各样本处理对象组,进而获得各样本问题分别所对应的各样本处理对象组,然后进入步骤iii。
3.根据权利要求2所述一种面向答案选择的多角度注意力特征匹配方法,其特征在于:所述步骤ii-1包括如下步骤ii-1-1至步骤ii-1-2:
步骤ii-1-1.分别针对各样本问题,依次执行分词处理、以及基于预设连词库的连词删除处理,获得各样本问题分别所对应的各分词;以及分别针对各样本候选答案,依次执行分词处理、以及基于预设连词库的连词删除处理,获得各样本候选答案分别所对应的各分词;然后进入步骤ii-1-2;
步骤ii-1-2.分别针对各样本问题,基于预设数量分词数m,通过补充预设数值或顺序删除末尾分词的方式,更新获得各样本问题分别所对应彼此相同数量m的各分词,进而获得各样本问题分别所对应的分词集合;分别针对各样本候选答案,基于预设数量分词数n,通过补充预设数值或顺序删除末尾分词的方式,更新获得各样本候选答案分别所对应彼此相同数量n的各分词,进而获得各样本候选答案分别所对应的分词集合;然后进入步骤ii-2。
4.根据权利要求1所述一种面向答案选择的多角度注意力特征匹配方法,其特征在于:所述步骤iii中,预设第一网络为卷积神经网络,预设第二网络为双向长短时记忆网络。
5.根据权利要求1所述一种面向答案选择的多角度注意力特征匹配方法,其特征在于:所述步骤v中所构建局部特征提取模块的应用中,首选接收来自拼接模块的拼接处理对象组(q,a),q表示拼接处理对象组中问题对应的拼接特征编码矩阵,a表示拼接处理对象组中候选答案对应的拼接特征编码矩阵;然后根据q·a,获得拼接处理对象组中问题与候选答案分别对应拼接特征编码矩阵之间的相似度;最后针对拼接处理对象组中问题与候选答案分别对应拼接特征编码矩阵,结合该相似度,通过软注意力机制,获得问题对应的局部特征矩阵vq,以及候选答案对应的局部特征矩阵va,构成局部特征处理对象组(vq,va)。
6.根据权利要求1所述一种面向答案选择的多角度注意力特征匹配方法,其特征在于:所述步骤vi中所构建矩阵组合模块的应用中,矩阵组合模块用于针对局部特征提取模块输出拼接处理对象组所对应的局部特征处理对象组(vq,va),结合相似矩阵模块输出对应拼接处理对象组的相似度d,按qout=dvq、aout=dva,获得该拼接处理对象组所对应的综合处理对象组(qout,aout)。
7.一种执行权利要求1至6中任意一项所述一种面向答案选择的多角度注意力特征匹配方法的系统,其特征在于:包括预处理模块、编码模块、相似度判断模块、相似度加权模块、答案获得模块;其中,预处理模块用于执行所述步骤ii,编码模块用于执行所述步骤iii至步骤iv,相似度判断模块用于执行所述步骤v,相似度加权模块用于执行所述步骤vi,答案获得模块用于执行所述步骤vii至步骤viii。
CN202110361238.7A 2021-04-02 2021-04-02 一种面向答案选择的多角度注意力特征匹配方法及系统 Active CN113239678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110361238.7A CN113239678B (zh) 2021-04-02 2021-04-02 一种面向答案选择的多角度注意力特征匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110361238.7A CN113239678B (zh) 2021-04-02 2021-04-02 一种面向答案选择的多角度注意力特征匹配方法及系统

Publications (2)

Publication Number Publication Date
CN113239678A CN113239678A (zh) 2021-08-10
CN113239678B true CN113239678B (zh) 2023-06-20

Family

ID=77130952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110361238.7A Active CN113239678B (zh) 2021-04-02 2021-04-02 一种面向答案选择的多角度注意力特征匹配方法及系统

Country Status (1)

Country Link
CN (1) CN113239678B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188118B (zh) * 2023-04-26 2023-08-29 北京龙智数科科技服务有限公司 基于ctr预测模型的目标推荐方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110597947A (zh) * 2019-03-20 2019-12-20 桂林电子科技大学 一种基于全局和局部注意力交互的阅读理解系统及方法
CN111400461A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 智能客服问题匹配方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5697202B2 (ja) * 2011-03-08 2015-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語の対応を見出す方法、プログラム及びシステム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400461A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 智能客服问题匹配方法及装置
CN110597947A (zh) * 2019-03-20 2019-12-20 桂林电子科技大学 一种基于全局和局部注意力交互的阅读理解系统及方法
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于注意力机制的答案选择方法研究;熊雪;刘秉权;吴翔虎;;智能计算机与应用(第06期);全文 *

Also Published As

Publication number Publication date
CN113239678A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN111008293A (zh) 基于结构化语义表示的视觉问答方法
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN108829662A (zh) 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN111881262A (zh) 基于多通道神经网络的文本情感分析方法
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN110516070A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN115408603A (zh) 一种基于多头自注意力机制的在线问答社区专家推荐方法
CN113239678B (zh) 一种面向答案选择的多角度注意力特征匹配方法及系统
CN114328866A (zh) 应答流畅准确的强拟人化智能对话机器人
CN111813907A (zh) 一种自然语言问答技术中的问句意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant