CN110134771B - 一种基于多注意力机制融合网络问答系统的实现方法 - Google Patents

一种基于多注意力机制融合网络问答系统的实现方法 Download PDF

Info

Publication number
CN110134771B
CN110134771B CN201910281835.1A CN201910281835A CN110134771B CN 110134771 B CN110134771 B CN 110134771B CN 201910281835 A CN201910281835 A CN 201910281835A CN 110134771 B CN110134771 B CN 110134771B
Authority
CN
China
Prior art keywords
vector
word
text
attention
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910281835.1A
Other languages
English (en)
Other versions
CN110134771A (zh
Inventor
杨祖元
陈松灿
梁乃耀
李珍妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910281835.1A priority Critical patent/CN110134771B/zh
Publication of CN110134771A publication Critical patent/CN110134771A/zh
Application granted granted Critical
Publication of CN110134771B publication Critical patent/CN110134771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多注意力机制融合网络问答系统的实现方法,包括以下步骤:构建问答系统网络模型,对原始数据集预处理后得到待用数据集,进行文本长度分布分析;将待用数据集中文本进行one‑hot向量表示,使用CBOW模型训练one‑hot词向量,并组成word2vec词表;调整文本中每一条句子的序列长度,并加入句子结束符;使用ELMO语言模型训练word2vec向量得到ELMO词向量;对ELMO向量进行编码得到句子向量;分别对句子向量进行粗细粒度的关注分别得到记忆向量和基于每个词的关注向量;进行向量拼接得到基于词和句子的表示向量;解码表示向量生成问题句子的答案。本发明通过ELMO语言模型提高了句子的表征能力;融合多种注意力机制,提高了系统做决策的准确率,增强了系统的可解释性。

Description

一种基于多注意力机制融合网络问答系统的实现方法
技术领域
本发明涉及问答系统领域,更具体地,涉及一种基于多注意力机制融合网络问答系统的实现方法。
背景技术
问答是人类交流的主要方式之一,随着数据规模的不断增长,越来越多的人开始关注如何从海量的信息中快速的获取自己想要的答案,而传统的搜索引擎系统已经跟不上时代的步伐,其搜索结果的精确度和多样化都需要作出巨大的改变才能满足用户的需求。国外研究人员认为以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜索引擎的基本形态。区别于传统的搜索引擎系统,问答系统通过自然语言输入问句,经过一系列的语义解析,句法分析,句子理解,知识推理等处理手段,用自然语言回答用户问题,直接给出用户所需要的答案,而不是返回一系列相关文档排序的形态。当前,人工智能正式上升为国家战略,业界认为自然语言处理领域应该重点突破自然语言的语法逻辑、字符概念表征和深度语义分析的核心技术,推进人类与机器的有效沟通和自由交互,实现多风格多语言多领域的自然语言智能理解和自动生成。问答系统有很多种分类,根据答案的范围分类,可以分为面向限定领域和面向开放领域的问答系统。根据方法技术的不同分类,可以分为基于规则的、基于相似度计算的和基于深度学习的问答系统。根据答案生成的反馈机制的不同分类,问答系统也可以分为基于检索式的和基于生成式的问答系统。此外,根据支持问答系统产生答案的知识库以及实现的技术分类,可将问答系统分为社区问答系统、知识图谱问答系统、阅读理解问答系统等。当前基于注意力机制的阅读理解问答系统值得进一步研究。
发明内容
本发明为克服上述现有技术中问答系统采用端到端的模型数据压缩时出现数据丢失导致系统的表征能力不足、可解释性低的缺陷,提供一种基于多注意力机制融合网络问答系统的实现方法。
本发明旨在至少在一定程度上解决上述技术问题。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
一种基于多注意力机制融合网络问答系统的实现方法,所述方法包括以下步骤:
S1:构建问答系统网络模型,所述问答系统网络模型包括有:输入层、词嵌入层、编码层、关注层和解码输出层;采集原始文本数据组成原始数据集并进行文本格式预处理后得到待用数据集,根据待用数据集中各文本长度分布,确定待用数据集中每个文本的最大长度及计算待用数据集中文本的平均长度,所述文本包括:问题句子文本、答案句子文本和文章文本;同时将待用数据集按设定的比例划分为训练集和验证集;
S2:在输入层对待用数据集中的文本进行one-hot编码得到one-hot词向量;在词嵌入层采用word2vec的CBOW模型训练one-hot词向量,得到word2vec词表;
S3:从训练的word2vec词表中获取文本每个词的向量表示,并根据S1得到的文本平均长度进行补零或裁剪处理,使文本中每一条句子的序列长度一致,并加入句子结束符;
S4:使用ELMO语言模型训练CBOW模型训练完毕的word2vec向量,得到ELMO词向量;使文本的每个词向量具有不同的语义;
S5:在编码层通过双向循环神经网络对步骤S4得到的ELMO向量进行编码得到句子向量;所述句子向量包括:文章句子向量和问题句子向量;
S6:在关注层将编码后得到的文章句子向量和问题句子向量输入至神经网络中进行设定次数的记忆,分别得到对文章句子和问题句子关注程度的记忆向量;
S7:在关注层使用细粒度的关注函数对编码后的文章句子向量和问题句子向量中的每个词进行关注,将所述关注函数的输出信息集成得到基于每个词的关注向量;
S8:将步骤S5中所述的问题句子向量包含的每个词向量进行拼接得到的向量记为rq向量,将步骤S6得到的记忆向量和步骤S7得到的关注向量进行相加拼接成一个向量,将拼接后得到的向量与rq向量进行Concat attention拼接,得到基于词和基于句子的表示向量;
S9:在解码输出层对步骤S8得到的表示向量进行解码,生成问题句子的答案。本发明通过将将问答系统和注意力机制结合,在文本数据的上下文中根据词和句子短语的重要性在文档中进行加权,提取对预测有用的最相关的信息。一方面解决了词或者句子语义消失的问题来增强系统的有效性,另一方面在词层面上运用注意力机制增强了输入文档与问题之间的交互作用,达到更好的句子理解,使模型具有更好的推理能力,同时使得系统的可解释性增强。
进一步地,步骤S1所述的预处理具体过程为:首先将原始数据集中英文标点符号换成中文标点符号得到数据集D1,再去除数据集D1文本中的停用词得到数据集D2,删除数据集D2文本中的非法字符得到数据集D3,对数据集D3各文本进行长度分布分析得到待用数据集。本发明通过预处理实现了统一文本格式、消除噪音数据目的,生成更丰富、更深层次的信息。
进一步地,每个文本的最大长度具体为:
计算待用数据集中所有问题句子文本的平均长度作为句子文本的最大文本长度;
计算待用数据集中文章文本数据中所有文本的平均长度作为文章文本的最大文本长度。选择适合的长度能够减少丢失语义信息,同时节省计算机资源。
进一步地,将所述one-hot编码得到one-hot词向量作为CBOW模型的输入,所述CBOW模型输出层输出目标词概率最大的one-hot词向量;所述CBOW模型的目标函数为:
Figure GDA0003440789360000031
其中,w表示语料库C中任意一个词的one-hot词向量;将输入层的每个词的one-hot词向量与CBOW模型的权重矩阵W相乘得到的向量记为CBOW模型训练后的one-hot词向量。本发明中CBOW模型是将已知上下文作为输入,映射层在所有的词间共享,输出层为一个分类器,目标是使当前词的概率最大。
进一步地,所述ELMO语言模型为一个双向的LSTM语言模型,所述的ELMO语言模型目标函数为:
Figure GDA0003440789360000032
其中,k、N表示序号,t表示每个词的word2vec表示,p表示概率;CBOW模型训练后的Word2vec向量作为ELMO语言模型的输入;
对每个词,L-layer双向LSTM计算一组表征,所述一组表征为一组经过双向LSTM得到的句子向量:
Figure GDA0003440789360000041
其中,k表示每个词,j表示层序号,
Figure GDA0003440789360000042
表示从左至右第j层的第k个词的隐藏层状态,L表示双向GRU的层数;
Figure GDA0003440789360000043
表示从右至左第j层的第k个词的隐藏层状态;
Figure GDA0003440789360000044
是每个双向LSTM输出的结果,Rk表示ELMO模型每一层的输出;并将ELMO模型所有输出层中最上层的输出作为词的表示。本发明通过使用word2vec语言模型学习一个词的词嵌入,然后再根据上下文词的语义去调整词的词嵌入表示,这样经过调整后的词嵌入更好的表达在这个上下文中的具体含义,同时解决了多义词的问题。
进一步地,所述双向循环神经网络数学表示如下:
Figure GDA0003440789360000045
Figure GDA0003440789360000046
Figure GDA0003440789360000047
其中,GRU()表示RNN神经网络的变种,xt表示输入的上下文词的ELMO词向量表示,
Figure GDA0003440789360000048
分别表示当前时刻和前一刻的从左到右隐藏层状态,
Figure GDA0003440789360000049
分别表示是当前时刻和前一刻的从右向左隐藏层状态,
Figure GDA00034407893600000410
表示双向循环神经网络最终的隐藏层状态。
进一步地,所述神经网络中进行若干次阅读输入的句子,每次只关注fact句子向量的一个子集;所述fact句子向量为输入至神经网络的问题句子向量;编码后的文章句子向量和问题句子向量输入至神经网络中,通过动态神经网络中的双向循环神经网络模块产生记忆向量m,记双向循环神经网络模块的第i个pass产生的记忆表示为mi
mi=GRU(ei,mi-1)
其中m0=q,q为问题句子向量question向量,ei表示由神经网络的注意力机制产生的向量,所述ei通过神经网络隐藏状态
Figure GDA0003440789360000051
及fact句子向量ct进行更新,更新公式如下:
Figure GDA0003440789360000052
Figure GDA0003440789360000053
其中,GRU()表示RNN神经网络的变种,
Figure GDA0003440789360000054
表示记忆网络的最后隐藏层,
Figure GDA0003440789360000055
表示t时刻隐含层状态,
Figure GDA0003440789360000056
表示t-1时刻隐含层状态;g是注意力机制,公式如下所示:
Figure GDA0003440789360000057
G(c,m,q)=σ(W(2)tanh(W(1)z(c,m,q)+b(1))+b(2))
Figure GDA00034407893600000512
其中W是权重,b是偏置参数,z表示关注程度,通过句子向量c、问题向量q、上一次记忆向量m之间的点乘和线性乘积方式按行拼接后输入至神经网络的非线性激活传播一层,通过softmax函数进行分类输出得到g,所述g表示每次阅读对每个时刻每个句子的关注程度。
进一步地,所述细粒度的关注函数包括有:Concat attention函数、Bilinearattention函数、Dot attention函数、Minus attention函数,
所述Concat attention函数表示如下:
Figure GDA0003440789360000058
Figure GDA0003440789360000059
Figure GDA00034407893600000510
所述Bilinear attention函数表示如下:
Figure GDA00034407893600000511
Figure GDA0003440789360000061
Figure GDA0003440789360000062
所述Dot attention函数表示如下:
Figure GDA0003440789360000063
Figure GDA0003440789360000064
Figure GDA0003440789360000065
所述Minus attention函数表示如下:
Figure GDA0003440789360000066
Figure GDA0003440789360000067
Figure GDA0003440789360000068
其中,所述Concat attention函数、Bilinear attention函数、Dot attention函数、Minus attention函数中函数参数的含义具体如下:W表示权重,
Figure GDA0003440789360000069
表示概率,
Figure GDA00034407893600000610
表示的是输入的文章文本的第t个单词,
Figure GDA00034407893600000611
表示的是输入的问题文本的第j个单词,
Figure GDA00034407893600000612
表示问题文本的第j个单词对文章文本的第t个单词的关注分数,
Figure GDA00034407893600000613
表示对问题文本的每个单词对文章文本的每个单词的关注得分进行归一化处理。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过ELMO语言模型提高了句子的表征能力;本发明融合了多种注意力机制,建立端到端的模型,同时提取对预测有用的最相关的信息,提高系统做决策的准确率,增强了系统的可解释性。
附图说明
图1为本发明方法流程图。
图2为预处理流程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于多注意力机制融合网络问答系统的实现方法,所述方法包括以下步骤:
S1:构建问答系统网络模型,所述问答系统网络模型包括有:输入层、词嵌入层、编码层、关注层和解码输出层;采集原始文本数据组成原始数据集并进行文本格式预处理后得到待用数据集,根据待用数据集中各文本长度分布,确定待用数据集中每个文本的最大长度及计算待用数据集中文本的平均长度,所述文本包括:问题句子文本、答案句子文本和文章文本;同时将待用数据集按设定的比例划分为训练集和验证集;本实施例中训练集和验证集的比例设为6比4。
如图2所示,步骤S1所述的预处理具体过程为:首先将原始数据集中英文标点符号换成中文标点符号得到数据集D1,再去除数据集D1文本中的停用词得到数据集D2,删除数据集D2文本中的非法字符得到数据集D3,对数据集D3各文本进行长度分布分析得到待用数据集。本发明通过预处理实现了统一文本格式、消除噪音数据目的,生成更丰富、更深层次的信息。
每个文本的最大长度具体为:
计算待用数据集中所有问题句子文本的平均长度作为句子文本的最大文本长度;
计算待用数据集中文章文本数据中所有文本的平均长度作为文章文本的最大文本长度。选择适合的长度能够减少丢失语义信息,同时节省计算机资源。
S2:在输入层对待用数据集中文本进行one-hot编码得到one-hot词向量;在词嵌入层采用word2vec的CBOW模型训练one-hot词向量,得到word2vec词表;
将所述one-hot编码得到one-hot词向量作为CBOW模型的输入,所述CBOW模型输出层输出目标词概率最大的one-hot词向量;所述CBOW模型的目标函数为:
Figure GDA0003440789360000081
其中,w表示语料库C中任意一个词的one-hot词向量;将输入层的每个词的one-hot词向量与CBOW模型的权重矩阵W相乘得到的向量记为CBOW模型训练后的one-hot词向量。本发明中CBOW模型是将已知上下文作为输入,映射层在所有的词间共享,输出层为一个分类器,目标是使当前词的概率最大。
S3:从训练的word2vec词表中获取文本每个词的向量表示,并根据S1得到的文本平均长度进行补零或裁剪处理,使文本中每一条句子的序列长度一致,并加入句子结束符;
S4:使用ELMO语言模型训练CBOW模型训练完毕的Word2vec向量,得到ELMO词向量;使文本的每个词向量具有不同的语义;
,所述ELMO语言模型为一个双向的LSTM语言模型,所述的ELMO语言模型目标函数为:
Figure GDA0003440789360000082
其中,k、N表示序号,t表示每个词的word2vec表示,p表示概率;CBOW模型训练后的Word2vec向量作为ELMO语言模型的输入;
对每个词,L-layer双向LSTM计算一组表征,所述一组表征为一组经过双向LSTM得到的句子向量:
Figure GDA0003440789360000083
其中,k表示每个词,j表示层序号,
Figure GDA0003440789360000084
表示从左至右第j层的第k个词的隐藏层状态,L表示双向GRU的层数;
Figure GDA0003440789360000085
表示从右至左第j层的第k个词的隐藏层状态;
Figure GDA0003440789360000086
是每个双向LSTM输出的结果,Rk表示ELMO模型每一层的输出;并将ELMO模型所有输出层中最上层的输出作为词的表示。本发明通过使用word2vec语言模型学习一个词的词嵌入,然后再根据上下文词的语义去调整词的词嵌入表示,这样经过调整后的词嵌入更好的表达在这个上下文中的具体含义,同时解决了多义词的问题。
S5:在编码层通过双向循环神经网络对步骤S4得到的ELMO向量进行编码得到句子向量;所述句子向量包括:文章句子向量和问题句子向量;
所述双向循环神经网络数学表示如下:
Figure GDA0003440789360000091
Figure GDA0003440789360000092
Figure GDA0003440789360000093
其中,GRU()表示RNN神经网络的变种,xt表示输入的上下文词的ELMO词向量表示,
Figure GDA0003440789360000094
分别表示当前时刻和前一刻的从左到右隐藏层状态,
Figure GDA0003440789360000095
分别表示是当前时刻和前一刻的从右向左隐藏层状态,
Figure GDA0003440789360000096
表示双向循环神经网络最终的隐藏层状态。
S6:在关注层将编码后得到的文章句子向量和问题句子向量输入至神经网络中进行设定次数的记忆,分别得到对文章句子和问题句子关注程度的记忆向量;
所述神经网络中进行若干次阅读输入的句子,每次只关注fact句子向量的一个子集;所述fact句子向量为输入至神经网络的问题句子向量;编码后的文章句子向量和问题句子向量输入至神经网络中,通过动态神经网络中的双向循环神经网络模块产生记忆向量m,记双向循环神经网络模块的第i个pass产生的记忆表示为mi
mi=GRU(ei,mi-1)
其中m0=q,q为问题句子向量question向量,ei表示由神经网络的注意力机制产生的,所述ei通过神经网络隐藏状态
Figure GDA0003440789360000097
及fact句子向量ct进行更新,更新公式如下:
Figure GDA0003440789360000101
Figure GDA0003440789360000102
其中,GRU()表示RNN神经网络的变种,
Figure GDA0003440789360000103
表示记忆网络的最后隐藏层,
Figure GDA0003440789360000104
表示t时刻隐含层状态,
Figure GDA0003440789360000105
表示t-1时刻隐含层状态;g是注意力机制,公式如下所示:
Figure GDA0003440789360000106
G(c,m,q)=σ(W(2)tanh(W(1)z(c,m,q)+b(1))+b(2))
Figure GDA00034407893600001011
其中W是权重,b是偏置参数,z表示关注程度,通过句子向量c、问题向量q、上一次记忆向量m之间的点乘和线性乘积方式按行拼接后输入至神经网络的非线性激活传播一层,通过softmax函数进行分类输出得到g,所述g表示每次阅读对每个时刻每个句子的关注程度。
S7:在关注层使用细粒度的关注函数对编码后的文章句子向量和问题句子向量中的每个词进行关注,将所述关注函数的输出信息集成得到基于每个词的关注向量;
所述细粒度的关注函数包括有:Concat attention函数、Bilinear attention函数、Dot attention函数、Minus attention函数,
所述Concat attention函数表示如下:
Figure GDA0003440789360000107
Figure GDA0003440789360000108
Figure GDA0003440789360000109
所述Bilinear attention函数表示如下:
Figure GDA00034407893600001010
Figure GDA0003440789360000111
Figure GDA0003440789360000112
所述Dot attention函数表示如下:
Figure GDA0003440789360000113
Figure GDA0003440789360000114
Figure GDA0003440789360000115
所述Minus attention函数表示如下:
Figure GDA0003440789360000116
Figure GDA0003440789360000117
Figure GDA0003440789360000118
其中,所述Concat attention函数、Bilinear attention函数、Dot attention函数、Minus attention函数中函数参数的含义具体如下:W表示权重,
Figure GDA0003440789360000119
表示概率,
Figure GDA00034407893600001110
表示的是输入的文章文本的第t个单词,
Figure GDA00034407893600001111
表示的是输入的问题文本的第j个单词,
Figure GDA00034407893600001112
表示问题文本的第j个单词对文章文本的第t个单词的关注分数,
Figure GDA00034407893600001113
表示对问题文本的每个单词对文章文本的每个单词的关注得分进行归一化处理。
S8:将步骤S5中所述的问题句子向量包含的每个词向量进行拼接得到的向量记为rq向量,将步骤S6得到的记忆向量和步骤S7得到的关注向量进行相加拼接成一个向量,将拼接后得到的向量与rq向量进行Concat attention拼接,得到基于词和基于句子的表示向量;
S9:在解码输出层对步骤S8得到的表示向量进行解码,生成问题句子的答案。本发明通过将将问答系统和注意力机制结合,在文本数据的上下文中根据词和子短语的重要性在文档中进行加权,提取对预测有用的最相关的信息。一方面解决了词或者句子语义消失的问题来增强系统的有效性,另一方面在词层面上运用注意力机制增强了输入文档与问题之间的交互作用,达到更好的句子理解,使模型具有更好的推理能力,同时使得问答系统的可解释性增强。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于多注意力机制融合网络问答系统的实现方法,其特征在于,所述方法包括以下步骤:
S1:构建问答系统网络模型,所述问答系统网络模型包括有:输入层、词嵌入层、编码层、关注层和解码输出层;采集原始文本数据组成原始数据集并进行文本格式预处理后得到待用数据集,根据待用数据集中各文本长度分布,确定待用数据集中每个文本的最大长度及计算待用数据集中文本的平均长度,所述文本包括:问题句子文本、答案句子文本和文章文本;同时将待用数据集按设定的比例划分为训练集和验证集;
S2:在输入层对待用数据集中的文本进行one-hot编码得到one-hot词向量;在词嵌入层采用word2vec的CBOW模型训练one-hot词向量,得到word2vec词表;
S3:从训练的word2vec词表中获取文本每个词的向量表示,并根据S1得到的文本平均长度进行补零或裁剪处理,使文本中每一条句子的序列长度一致,并加入句子结束符;
S4:使用ELMO语言模型训练CBOW模型训练完毕的word2vec向量,得到ELMO词向量;
所述ELMO语言模型为一个双向的LSTM语言模型,所述的ELMO语言模型目标函数为:
Figure FDA0003440789350000011
其中,k、N表示序号,t表示每个词的word2vec表示,p表示概率;CBOW模型训练后的Word2vec向量作为ELMO语言模型的输入;
对每个词,L-layer双向LSTM计算一组表征,所述一组表征为一组经过双向LSTM得到的句子向量:
Figure FDA0003440789350000012
其中,k表示每个词,j表示层序号,
Figure FDA0003440789350000021
表示从左至右第j层的第k个词的隐藏层状态,L表示双向GRU的层数;
Figure FDA0003440789350000022
表示从右至左第j层的第k个词的隐藏层状态;
Figure FDA0003440789350000023
是每个双向LSTM输出的结果,Rk表示ELMO模型每一层的输出;并将ELMO模型所有输出层中最上层的输出作为词的表示;
S5:在编码层通过双向循环神经网络对步骤S4得到的ELMO向量进行编码得到句子向量;所述句子向量包括:文章句子向量和问题句子向量;
S6:在关注层将编码后得到的文章句子向量和问题句子向量输入至神经网络中进行设定次数的记忆,分别得到对文章句子和问题句子关注程度的记忆向量;
S7:在关注层使用细粒度的关注函数对编码后的文章句子向量和问题句子向量中的每个词进行关注,将所述关注函数的输出信息集成得到基于每个词的关注向量;
S8:将步骤S5中所述的问题句子向量包含的每个词向量进行拼接得到的向量记为rq向量,将步骤S6得到的记忆向量和步骤S7得到的关注向量进行相加拼接成一个向量,将拼接后得到的向量与rq向量进行Concat attention拼接,得到基于词和基于句子的表示向量;
S9:在解码输出层对步骤S8得到的表示向量进行解码,生成问题句子的答案。
2.根据权利要求1所述的一种基于多注意力机制融合网络问答系统的实现方法,其特在在于,步骤S1所述的预处理具体过程为:首先将原始数据集中英文标点符号换成中文标点符号得到数据集D1,再去除数据集D1文本中的停用词得到数据集D2,删除数据集D2文本中的非法字符得到数据集D3,对数据集D3各文本进行长度分布分析得到待用数据集。
3.根据权利要求1所述的一种基于多注意力机制融合网络问答系统的实现方法,其特在在于,每个文本的最大长度具体为:
计算待用数据集中所有问题句子文本的平均长度作为句子文本的最大文本长度;
计算待用数据集中文章文本数据中所有文本的平均长度作为文章文本的最大文本长度。
4.根据权利要求1所述的一种基于多注意力机制融合网络问答系统的实现方法,其特在于,将所述one-hot编码得到one-hot词向量作为CBOW模型的输入,所述CBOW模型输出层输出目标词概率最大的one-hot词向量;所述CBOW模型的目标函数为:
Figure FDA0003440789350000031
其中,w表示语料库C中任意一个词的one-hot词向量;将输入层的每个词的one-hot词向量与CBOW模型的权重矩阵W相乘得到的向量记为CBOW模型训练后的one-hot词向量。
5.根据权利要求1所述的一种基于多注意力机制融合网络问答系统的实现方法,其特在在于,所述双向循环神经网络数学表示如下:
Figure FDA0003440789350000032
Figure FDA0003440789350000033
Figure FDA0003440789350000034
其中,GRU()表示RNN神经网络的变种,xt表示输入的上下文词的ELMO词向量表示,
Figure FDA0003440789350000035
分别表示当前时刻和前一刻的从左到右隐藏层状态,
Figure FDA0003440789350000036
分别表示是当前时刻和前一刻的从右向左隐藏层状态,
Figure FDA0003440789350000037
表示双向循环神经网络最终的隐藏层状态。
6.根据权利要求1-5任一项所述的一种基于多注意力机制融合网络问答系统的实现方法,其特征在于,在所述神经网络的输入层对每一文章文本按照中文结束符进行断句,形成多个fact句子向量ct,所述神经网络中进行若干次阅读输入的句子,每次只关注fact句子向量的一个子集;编码后的文章句子向量和问题句子向量输入至神经网络中,通过动态神经网络中的双向循环神经网络模块产生记忆向量m,记双向循环神经网络模块的第i个pass产生的记忆表示为mi
mi=GRU(ei,mi-1)
其中m0=q,q为问题句子向量question向量,ei表示由神经网络的注意力机制产生的向量,所述ei通过神经网络隐藏状态
Figure FDA0003440789350000041
及fact句子向量ct进行更新,更新公式如下:
Figure FDA0003440789350000042
Figure FDA0003440789350000043
其中,GRU()表示RNN神经网络的变种,
Figure FDA0003440789350000044
表示记忆网络的最后隐藏层,
Figure FDA0003440789350000045
表示t时刻隐含层状态,
Figure FDA0003440789350000046
表示t-1时刻隐含层状态;
Figure FDA0003440789350000047
是注意力机制,公式如下所示:
Figure FDA0003440789350000048
G(c,m,q)=σ(W(2)tanh(W(1)z(c,m,q)+b(1))+b(2))
Figure FDA0003440789350000049
其中W是权重,b是偏置参数,z表示关注程度,通过句子向量c、问题向量q、上一次记忆向量m之间的点乘和线性乘积方式按行拼接后输入至神经网络的非线性激活传播一层,通过softmax函数进行分类输出得到g,所述g表示每次阅读对每个时刻每个句子的关注程度。
7.根据权利要求6所述的一种基于多注意力机制融合网络问答系统的实现方法,其特在在于,所述细粒度的关注函数包括有:Concat attention函数、Bilinear attention函数、Dot attention函数、Minus attention函数,
所述Concat attention函数表示如下:
Figure FDA00034407893500000410
Figure FDA00034407893500000411
Figure FDA00034407893500000412
所述Bilinear attention函数表示如下:
Figure FDA00034407893500000413
Figure FDA0003440789350000051
Figure FDA0003440789350000052
所述Dot attention函数表示如下:
Figure FDA0003440789350000053
Figure FDA0003440789350000054
Figure FDA0003440789350000055
所述Minus attention函数表示如下:
Figure FDA0003440789350000056
Figure FDA0003440789350000057
Figure FDA0003440789350000058
其中,所述Concat attention函数、Bilinear attention函数、Dot attention函数、Minus attention函数中函数参数的含义具体如下:W表示权重,
Figure FDA0003440789350000059
表示概率,
Figure FDA00034407893500000510
表示的是输入的文章文本的第t个单词,
Figure FDA00034407893500000511
表示的是输入的问题文本的第j个单词,
Figure FDA00034407893500000512
表示问题文本的第j个单词对文章文本的第t个单词的关注分数,
Figure FDA00034407893500000513
表示对问题文本的每个单词对文章文本的每个单词的关注得分进行归一化处理。
CN201910281835.1A 2019-04-09 2019-04-09 一种基于多注意力机制融合网络问答系统的实现方法 Active CN110134771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910281835.1A CN110134771B (zh) 2019-04-09 2019-04-09 一种基于多注意力机制融合网络问答系统的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910281835.1A CN110134771B (zh) 2019-04-09 2019-04-09 一种基于多注意力机制融合网络问答系统的实现方法

Publications (2)

Publication Number Publication Date
CN110134771A CN110134771A (zh) 2019-08-16
CN110134771B true CN110134771B (zh) 2022-03-04

Family

ID=67569548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910281835.1A Active CN110134771B (zh) 2019-04-09 2019-04-09 一种基于多注意力机制融合网络问答系统的实现方法

Country Status (1)

Country Link
CN (1) CN110134771B (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532353B (zh) * 2019-08-27 2021-10-15 海南阿凡题科技有限公司 基于深度学习的文本实体匹配方法、系统、装置
CN110502627A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于多层Transformer聚合编码器的答案生成方法
CN110516213B (zh) * 2019-09-03 2022-04-15 哈尔滨工业大学 一种基于表格层次化建模的结构化数据生成文本方法
CN110598223A (zh) * 2019-09-20 2019-12-20 沈阳雅译网络技术有限公司 一种从粗粒度到细粒度的神经机器翻译推断加速方法
CN110929476B (zh) * 2019-09-27 2022-09-30 中国人民解放军63626部队 一种基于混合粒度注意力机制的任务型多轮对话模型构建方法
CN110609986B (zh) * 2019-09-30 2022-04-05 哈尔滨工业大学 一种基于预训练的结构化数据生成文本的方法
CN110727764A (zh) * 2019-10-10 2020-01-24 珠海格力电器股份有限公司 一种话术生成方法、装置及话术生成设备
CN110727824B (zh) * 2019-10-11 2022-04-01 浙江大学 利用多重交互注意力机制解决视频中对象关系问答任务的方法
CN112732877B (zh) * 2019-10-14 2024-05-17 阿里巴巴集团控股有限公司 数据处理的方法、装置和系统
CN110781305B (zh) * 2019-10-30 2023-06-06 北京小米智能科技有限公司 基于分类模型的文本分类方法及装置,以及模型训练方法
CN110874411A (zh) * 2019-11-20 2020-03-10 福州大学 一种基于注意力机制融合的跨领域情感分类系统
CN110969010A (zh) * 2019-12-06 2020-04-07 浙江大学 一种基于关系指导及双通道交互机制的问题生成方法
CN111125316B (zh) * 2019-12-26 2022-04-22 北京工业大学 一种融合多损失函数及注意力机制的知识库问答方法
CN111241807B (zh) * 2019-12-31 2021-06-29 浙江大学 一种基于知识引导注意力的机器阅读理解方法
CN111222338A (zh) * 2020-01-08 2020-06-02 大连理工大学 基于预训练模型和自注意力机制的生物医学关系抽取方法
CN111428104B (zh) * 2020-01-21 2023-10-10 广东工业大学 基于观点型阅读理解的癫痫病辅助医疗智能问答方法
CN111291940B (zh) * 2020-03-02 2022-06-07 桂林电子科技大学 一种基于Attention深度学习模型的学生辍课预测方法
CN111400455A (zh) * 2020-03-18 2020-07-10 北京工业大学 基于知识图谱的问答系统的关系检测方法
CN111563146B (zh) * 2020-04-02 2023-05-23 华南理工大学 一种基于推理的难度可控问题生成方法
CN111475620B (zh) * 2020-04-03 2022-08-26 南京邮电大学 一种面向智能问答系统的自然语言推理方法
CN111460136B (zh) * 2020-04-22 2022-10-14 南京邮电大学 一种面向网络知识问答社区的自动答案摘要方法
CN111581383A (zh) * 2020-04-30 2020-08-25 上海电力大学 一种基于ERNIE-BiGRU的中文文本分类方法
WO2021243706A1 (zh) * 2020-06-05 2021-12-09 中山大学 一种跨语言生成提问的方法和装置
CN111813907A (zh) * 2020-06-18 2020-10-23 浙江工业大学 一种自然语言问答技术中的问句意图识别方法
CN111858933A (zh) * 2020-07-10 2020-10-30 暨南大学 基于字符的层次化文本情感分析方法及系统
CN111651970B (zh) * 2020-07-14 2022-07-22 华侨大学 基于表格型数据生成文本的方法、装置、设备及存储介质
CN111858893B (zh) * 2020-07-27 2022-06-03 平安科技(深圳)有限公司 句子对匹配方法、装置和计算机设备和存储介质
CN112115247B (zh) * 2020-09-07 2023-10-10 中国人民大学 一种基于长短时记忆信息的个性化对话生成方法和系统
CN112131864A (zh) * 2020-09-10 2020-12-25 上海交通大学 一种基于自注意机制的中文词向量训练方法
CN112183085A (zh) * 2020-09-11 2021-01-05 杭州远传新业科技有限公司 机器阅读理解方法、装置、电子设备及计算机存储介质
CN112084782B (zh) * 2020-09-14 2024-05-03 成都数联铭品科技有限公司 一种基于能量增强的注意力网络的答案识别方法及系统
CN112182151B (zh) * 2020-09-23 2021-08-17 清华大学 基于多语言的阅读理解任务识别方法及装置
CN112347756B (zh) * 2020-09-29 2023-12-22 中国科学院信息工程研究所 一种基于序列化证据抽取的推理阅读理解方法及系统
CN112560456B (zh) * 2020-11-03 2024-04-09 重庆安石泽太科技有限公司 一种基于改进神经网络的生成式摘要生成方法和系统
CN112328767B (zh) * 2020-11-11 2022-10-14 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法
CN112597366B (zh) * 2020-11-25 2022-03-18 中国电子科技网络信息安全有限公司 基于Encoder-Decoder的事件抽取方法
CN112561474B (zh) * 2020-12-14 2024-04-30 华南理工大学 一种基于多源数据融合的智能人格特性评价方法
CN112732879B (zh) * 2020-12-23 2022-05-10 重庆理工大学 一种问答任务的下游任务处理方法及模型
CN112651225B (zh) * 2020-12-29 2022-06-14 昆明理工大学 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法
CN112613282A (zh) * 2020-12-31 2021-04-06 桂林电子科技大学 一种文本生成方法、装置及存储介质
CN112765955B (zh) * 2021-01-22 2023-05-26 中国人民公安大学 一种中文指代表达下的跨模态实例分割方法
CN112966499A (zh) * 2021-03-17 2021-06-15 中山大学 一种基于自适应融合多注意力网络的问题和答案匹配方法
CN113051909B (zh) * 2021-03-19 2024-05-10 浙江工业大学 一种基于深度学习的文本语义提取方法
CN112668338B (zh) 2021-03-22 2021-06-08 中国人民解放军国防科技大学 澄清问题生成方法、装置和电子设备
CN113239160B (zh) * 2021-04-29 2022-08-12 桂林电子科技大学 一种问题生成方法、装置及存储介质
CN113220853B (zh) * 2021-05-12 2022-10-04 燕山大学 一种法律提问自动生成方法及系统
CN113536804B (zh) * 2021-06-29 2022-05-03 北京理工大学 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法
CN114970563B (zh) * 2022-07-28 2022-10-25 山东大学 融合内容和形式多样性的中文问题生成方法和系统
CN115618251B (zh) * 2022-11-03 2024-02-06 中国科学院空天信息创新研究院 船舶轨迹预测方法、装置、电子设备及存储介质
CN116610776A (zh) * 2022-12-30 2023-08-18 摩斯智联科技有限公司 车联网智能问答系统
CN116681087B (zh) * 2023-07-25 2023-10-10 云南师范大学 一种基于多阶段时序和语义信息增强的自动问题生成方法
CN117891929B (zh) * 2024-03-18 2024-05-17 南京华飞数据技术有限公司 改进型深度学习算法的知识图谱智能问答信息识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439595A (zh) * 2009-03-13 2012-05-02 发明机器公司 基于文本文档和用户问题的语义标记的问答系统和方法
CN106126596A (zh) * 2016-06-20 2016-11-16 中国科学院自动化研究所 一种基于层次化记忆网络的问答方法
CN108628935A (zh) * 2018-03-19 2018-10-09 中国科学院大学 一种基于端到端记忆网络的问答方法
WO2018195875A1 (en) * 2017-04-27 2018-11-01 Microsoft Technology Licensing, Llc Generating question-answer pairs for automated chatting
CN109033463A (zh) * 2018-08-28 2018-12-18 广东工业大学 一种基于端到端记忆网络的社区问答内容推荐方法
WO2019012908A1 (ja) * 2017-07-13 2019-01-17 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答装置
CN109408627A (zh) * 2018-11-15 2019-03-01 众安信息技术服务有限公司 一种融合卷积神经网络和循环神经网络的问答方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439595A (zh) * 2009-03-13 2012-05-02 发明机器公司 基于文本文档和用户问题的语义标记的问答系统和方法
CN106126596A (zh) * 2016-06-20 2016-11-16 中国科学院自动化研究所 一种基于层次化记忆网络的问答方法
WO2018195875A1 (en) * 2017-04-27 2018-11-01 Microsoft Technology Licensing, Llc Generating question-answer pairs for automated chatting
WO2019012908A1 (ja) * 2017-07-13 2019-01-17 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答装置
CN108628935A (zh) * 2018-03-19 2018-10-09 中国科学院大学 一种基于端到端记忆网络的问答方法
CN109033463A (zh) * 2018-08-28 2018-12-18 广东工业大学 一种基于端到端记忆网络的社区问答内容推荐方法
CN109408627A (zh) * 2018-11-15 2019-03-01 众安信息技术服务有限公司 一种融合卷积神经网络和循环神经网络的问答方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于注意力机制的上下文相关的问答配对方法》;王路 等;《中文信息学报》;20190131;第33卷(第1期);第125-132页 *
《领域问答系统中问句相似度计算方法研究》;刘拼拼;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115(第01期);第I138-5127页 *

Also Published As

Publication number Publication date
CN110134771A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110134771B (zh) 一种基于多注意力机制融合网络问答系统的实现方法
Yang et al. RNN-stega: Linguistic steganography based on recurrent neural networks
Yang et al. VAE-Stega: linguistic steganography based on variational auto-encoder
CN107133211B (zh) 一种基于注意力机制的作文评分方法
CN110781680B (zh) 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN110737763A (zh) 一种融合知识图谱和深度学习的中文智能问答系统及方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
Yang et al. Rits: Real-time interactive text steganography based on automatic dialogue model
CN115392259B (zh) 一种基于对抗训练融合bert的微博文本情感分析方法及系统
CN115310551A (zh) 文本分析模型训练方法、装置、电子设备和存储介质
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN113239666A (zh) 一种文本相似度计算方法及系统
CN113836866A (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN115658890A (zh) 基于主题增强的情感共注意力bert模型的中文评论分类方法
CN115906816A (zh) 一种基于Bert的双通道Attention模型的文本情感分析方法
Zhang et al. Description-enhanced label embedding contrastive learning for text classification
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN117708692A (zh) 基于双通道图卷积神经网络的实体情感分析方法及系统
Chowanda et al. Generative Indonesian conversation model using recurrent neural network with attention mechanism
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN115759102A (zh) 一种中国诗酒文化命名实体识别方法
Oura et al. Multimodal Deep Neural Network with Image Sequence Features for Video Captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant