CN110502627A - 一种基于多层Transformer聚合编码器的答案生成方法 - Google Patents
一种基于多层Transformer聚合编码器的答案生成方法 Download PDFInfo
- Publication number
- CN110502627A CN110502627A CN201910801514.XA CN201910801514A CN110502627A CN 110502627 A CN110502627 A CN 110502627A CN 201910801514 A CN201910801514 A CN 201910801514A CN 110502627 A CN110502627 A CN 110502627A
- Authority
- CN
- China
- Prior art keywords
- layer
- information
- vector
- aggregation
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000006116 polymerization reaction Methods 0.000 title claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 98
- 230000002776 aggregation Effects 0.000 claims description 63
- 238000004220 aggregation Methods 0.000 claims description 63
- 230000006870 function Effects 0.000 claims description 46
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 5
- 239000000654 additive Substances 0.000 claims 1
- 230000000996 additive effect Effects 0.000 claims 1
- 238000010606 normalization Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多层Transformer聚合编码器的答案生成方法,包括:接收输入信息,其中,输入信息包括段落文章信息和问题信息;对输入信息通过字符嵌入层和词嵌入层转换,获得对应的字符向量和词向量;将字符向量和词向量进行拼接,获得拼接词向量;对拼接词向量与位置编码向量进行加法拼接,获得输入顺序序列;将输入顺序序列输入至多层Transformer聚合编码器,获得更高层次语义信息;将更高层次语义信息输入至上下文‑问题注意力层,对问答信息进行学习;将学习的结果输入至包括三个多层Transformer聚合编码器的编码层,通过softmax函数获得起始位置和结束位置;将起始位置和结束位置所确定的内容作为目标答案。应用本发明实施例,解决了现有信息丢失及性能不足的问题。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于多层Transformer聚合编码器的答案生成方法。
背景技术
问答系统是当前学术界自然语言处理领域中的热门研究话题,也是在工业界内最为广泛使用的人工智能应用之一。随着时代的进步,互联网大数据时代的兴起,人们需要搜索的资料和知识信息也越来越多,而大数据的背景下,人们单单通过搜索引擎获取准确的结果信息越发困难。因此研究一些方法对于问答系统中的答案生成已经成为了目前的一个迫切的需求。
问答系统是将无序语料信息进行有序和科学整理的用于知识分类的系统模型,尽管目前搜索引擎已被广泛用于搜索信息和查阅资料,但是此类系统大多基于关键词检索,并非语义层面理解用户的意图,此外搜索引擎返回的搜索结果信息太过冗余增加了用户判断并筛选信息数据的成本。因此基于自然语言理解、语义分析建立的问答系统,通过检索已有知识库,从中提取并声称符合人类想获得的知识答案,使得人们搜索问题获取知识的途径更加直接、高效、准确。
对目标答案的材料段落以及用户提出的问题进行分析是NLP领域中答案生成模块的重要组成部分,也是难点所在。目前答案生成模块主要采用以下几种模型方法:1.基于LSTM的神经网络的问答模型,通过递归神经网络(RNN)的结构来对文本序列进行建模;2.基于卷积神经网络(CNN)的模型,将CNN代替LSTM对文本序列进行编码;因此现有的研究工作,大多基于传统机器学习算法或是经典神经网络结构来处理答案生成任务。而上述的网络结构在利用信息时,只利用了网络最后一层的输出信息,从而导致了在信息传输过程中存在着信息的大量丢失,利用不完全,也导致了本身存在性能表现不足,从而使模型在生成答案时不准确。
针对问答生成中信息丢失以及性能表现不足的问题,一些比较经典的神经网络结构并不能很好的解决这个问题。而在这些网络的每一层都存在这大量可利用的信息序列特征,因此将每层的信息充分利用是解决问题的关键所在,所以我们设计了具有多层注意力机制的Transformer以及含有多层Transformer的聚合编码器,通过将多层注意力层通过全连接方式连接,从而使模型充分的考虑到了每层信息的特征,再通过全新设计的多层Transformer聚合编码器将每两层网络聚合在一起,同时输入到下一层网络中,同时使模型能充分考虑到句子的不同层次的信息,提高答案生成的准确率,有效的解决性能不足以及信息丢失的问题。
发明内容
本发明的目的在于提供一种基于多层Transformer聚合编码器的答案生成方法,旨在解决现有信息丢失及性能表现不足的问题。
为了实现上述目的,本发明提供一种基于多层Transformer聚合编码器的答案生成方法,包括:
接收输入信息,其中,所述输入信息包括段落文章信息和问题信息;
对所述输入信息通过字符嵌入层和词嵌入层转换,获得对应的字符向量和词向量;
将所获得的字符向量和词向量进行拼接,获得拼接词向量;
对拼接词向量与位置编码向量进行加法拼接,获得输入顺序序列;
将输入顺序序列输入至多层Transformer聚合编码器,获得更高层次语义信息;
将更高层次语义信息输入至上下文-问题注意力层,对问答信息进行学习;
将学习到的结果输入至包括三个多层Transformer聚合编码器的编码层,通过softmax函数获得起始索引位置和结束索引位置;
将所述起始索引位置和所述结束索引位置所确定的内容作为目标答案。
一种实现方式中,对所述输入信息通过字符嵌入层和词嵌入层转换,获得对应的字符向量和词向量的步骤,包括:
对所述段落文章信息和所述问题信息的任意一单词,在词嵌入层使用Glove词向量,获得单词对应的词向量、每个字符的向量;
将每个字符的向量随机的初始化随模型一起训练。
一种实现方式中,所述将拼接词向量与位置编码向量进行加法拼接,获得输入顺序序列的步骤,包括:
将输入信息中的每个单词位置进行编号,使得每个编号对应一个词向量;
通过每个单词位置编号产生的位置向量与词向量,获得位置编码向量;
对位置编码向量与拼接的词向量进行加法拼接,获得输入顺序序列。
优选的,所述位置编码向量计算公式为,
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
其中,PE表示位置编码向量,pos表示词的位置,i表示第i个词的维度,d表示词向量的维度。
一种实现方式中,所述将输入顺序序列传入至多层Transformer聚合编码器,获得更高层次语义信息的步骤,包括:
通过多层Transformer聚合编码器单元结构,构建多层自注意力机制的网络,对每一层进行全连接;
将所述输入顺序序列输入至构建好的多层自注意力机制的网络中,通过注意力函数计算结果,并通过聚合函数将所计算的结果进行聚合;
通过sigmoid激活函数的前馈神经网络,对聚合后的结果进行累加,获得更高层次语义信息。
一种实现方式中,所述通过聚合函数将所计算的结果进行聚合的方法,包括:
将多层注意力Transformer单元的相邻两个节点聚合为一个节点,将结果传回线性主干网络;
将传回的结果输入至下一层,且与线性主干网络的后两个节点进行聚合操作;
将每个多层注意力Transformer单元学习的语义信息通过加法后合并,将合并结果作为更高层次语义信息。
一种实现方式中,所述将更高层次语义信息输入至上下文-问题注意力层,对问答信息进行学习的步骤,包括:
计算每个上下文编码和问题编码的相似性获得相似矩阵S;
利用softmax对相似矩阵S的每行进行标准化后获得与问题编码做乘积运算得到context和query的关系;
利用softmax函数再对相似矩阵S的每列进行标准化后获得将与和上下文编码做乘积运算,获得Query和Context中的关键词语。
一种实现方式中,所述将学习到的结果输入至包括三个多层Transformer聚合编码器的编码层,通过softmax函数获得起始索引位置和结束索引位置的步骤,包括:
将学习到的结果输入至一个多层Transformer聚合编码器,获得输出结果,并记为M0;
将M0输入至下一层多层Transformer聚合编码器中进行学习,获得输出结果,并记为M1;
将M1输入至下一层多层Transformer聚合编码器中进行学习,获得输出结果,并记为M2;
将M0、M1、M2进行组合,获得[M0;M1],[M0;M2];通过softmax函数获得起始索引位置和结束索引位置。
应用本发明实施例提供的一种基于多层Transformer聚合编码器的答案生成方法,将多层注意力层通过全连接方式连接,充分的考虑到了每层信息的特征,再通过全新设计的多层Transformer聚合编码器将每两层网络聚合在一起,同时输入到下一层网络中,使模型能充分考虑到句子的不同层次的信息,提高答案生成的准确率,有效的解决了信息丢失及性能表现不足的问题,适用范围广、鲁棒性强。
附图说明
图1是本发明实施例一种流程示意图。
图2是本发明实施例一种结构示意图。
图3是本发明实施例另一种结构示意图。
图4是本发明实施例又一种流程示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
长短期记忆(LSTM,Long short-term memory)是RNN(Recurrent NeuralNetwork)特殊的类型,可以学习长期依赖信息。该算法由Hochreiter和Schmidhuber在1997年开发,LSTM主要通过保存好之前的信息,来防止较早期的信号在处理过程中逐渐消失的情况。
注意力机制(Attention)能使训练重点集中在与输入数据相关的部分,解决了Encoder-Decoder模型结构中处理长句的时不足以表征整个输入序列的困难。
Transformer是谷歌在2017年发布的用来代替RNN(Recurrent Neural Network)和CNN(Convolutional Neural Network)的新网络结构,Transformer其本质上就是一个Self-Attention结构,Transformer模型除了使用自注意力机制对序列进行编码,还设计了多头机制,多次并行地使用点积注意力,以达到能够使得模型共同关注来自不同位置的不同表示子空间的信息。
如图1本发明提供一种基于多层Transformer聚合编码器的答案生成方法,所述方法包括:
S110,接收输入信息,其中,所述输入信息包括段落文章信息和问题信息。
S120,对所述输入信息通过字符嵌入层和词嵌入层转换,获得对应的字符向量和词向量。
需要说明的是,对输入的段落文章信息和问题信息中的任一单词w的词嵌入层使用预训练好的Glove词向量,并将w对应的词向量设置为xw,每个字符的向量记为xc,同时将xc随机的初始化随模型一起训练;
进一步的,首先词嵌入在训练中是固定好的,词嵌入层使用维度为p1=300维预训练好的Glove单词向量来初始化,且标记为xw,且不在词典中的单词都被标记为一个<UNK>标记,将带有<UNK>标记的词嵌入随机初始化后加入网络训练。且每个字符可以被表示成一个p2=200维的可训练向量,标记为xc。这样每个单词就可看作是它每个字符嵌入向量的连接。我们将每个词的长度统一到固定的长度k,则每个单词w就可以表示为p2*k的矩阵,我们从这个矩阵的每行中选取一个最大值来获得单词w的向量表示。
S130,将所获得的字符向量和词向量进行拼接,获得拼接词向量。
可以理解的是,将获得词向量xw和每个字符的向量xc进行拼接,得到单词w的词向量
S140,对拼接词向量与位置编码向量进行加法拼接,获得输入顺序序列。
可以理解的是,对输入的段落文章信息和问题信息中的每个单词位置进行编号,使得每个编号对应一个单词的向量。
通过结合每个单词位置编号产生的位置向量与词向量,产生的位置信息能使得上下文-问题注意力层(Context-Query Attention)分辨出不同位置的单词;
将产生的位置编码(Positional Encoding)向量与拼接的词向量通过数组合并的加法操作将位置编码向量与词向量拼接在一起,获得输入顺序序列。
需要说明的是,纯Attention机制在对序列进行编码是并不会考虑序列的位置顺序关系,例如纯Attention对于“小明把桌上的花瓶打碎了”和“花瓶把桌上的小明打碎了”这两句话的编码结果可能相差不大,但其语义信息完全不同。因此位置编码(PositionalEncoding)向量的引入,可以使得Attention机制可以分辨出不同位置的单词,加强对句子语义信息的理解。位置编码(Positional Encoding)即对每个单词位置进行编号,并且每个编号对应一个向量。这样就可以将位置向量和词向量结合起来,为每个单词引入位置信息。位置编码的计算公式如下:
PE(pos,2i)=sin(pos/100002i/d) (1)
PE(pos,2i+1)=cos(pos/100002i/d) (2)
其中,PE表示位置编码向量,pos表示词的位置,i表示第i个词的维度,d表示词向量的维度。位置编码本身表达的是序列的绝对位置信息,但是该公式还有一个重要的作用在于它也能够表示相对位置关系,原因如下:
sin(α+β)=sinαcosβ+cosαsinβ (3)
cos(α+β)=cosαcosβ-sinαsinβ (4)
上述公式表明了位置p+k的向量也可以表示成位置p的向量的线性变化,从而表达了相对位置信息。
在公式(1)(2)中,将id为pos的位置可以映射为d维的一个位置向量,这个位置向量的第i个元素的数值即为PE(pos,i)。而映射的关系可以通过正弦函数sin以及余弦函数cos来计算。
其中(3)(4)公式可以解释为,假设有一位置向量p以及另外一个位置向量q,其中p到q的距离记为k,即为q=p+k。通过公式(3)(4)所描述的线性关系,即可表达了位置向量q相对于位置向量p的线性变化,从而表达了P,q的相对位置信息。P的线性变换公式可表达为:
sin(q)=sin(p+k)=sinpcosk+cospsink
cos(q)=cos(p+k)=cospcosk-sinpsink
S150,将输入顺序序列输入至多层Transformer聚合编码器,获得更高层次语义信息。
可以理解的是,以Transformer单元结构为基础,构建多层自注意力机制的网络,对所有的层进行全连接;
将获取的词向量、字符向量以及位置向量等序列信息,传入构建好的多层自注意力机制的网络中,通过注意力函数(Attention())计算结果,再通过聚合函数(Aggregation())将各层结果统一聚合;
通过sigmoid为激活函数的前馈神经网络,对所有的输入结果进行累加,最后用传入层标准化函数(LayerNorm())得到结果;
通过聚合函数(Aggregation())将各层结果统一聚合方法,包括:
首先将多层注意力Transformer单元的节点两两聚合为一个节点,将结果传回线性主干网络;
线性主干网络将传回的结果作为下一层的输入并于线性主干网络的后两个节点进行聚合操作;
将所有的节点进行聚合操作,直至所有节点聚合完成,得到最终更高层次的语义信息;
需要说明的是,构建多层Transformer聚合编码器的方法,我们以Transformer结构模型为基础,对其使用层聚合技术来更好地融合各个层地信息,提出了一种基于多层Transformer单元聚合的编码器模型MTA(Multiple Transformer Aggregation)Encoder,其具体结构如图2、3所示;图2为多层注意力Transformer单元结构,其中,多头注意力机制Multi-head Attention,层标准化函数Add&NormLayer,前馈网络层FeedForward,网络通过保留前一层学习的序列信息加强网络对全局信息的把握与理解。其具体的构建方法描述如下所示:我们将Transformer单元结构一组自注意力机制和前馈网络改进为对其使用多层自注意力机制网络,并对所有层进行全连接:
……
其中,是第l-k层Attention函数计算得出的结果,Aggregation()是将各层结果统一的聚合函数,其计算方式如下:
我们首先将x1,x2,…,xk拼接起来然后传入以sigmoid为激活函数的前馈神经网络,并对所有输入进行累加,最后用传入层标准化函数得到结果。其中,LayerNorm()是层标准化函数,Attention()是自注意力计算函数,FFN()是以ReLU函数为激活函数的前馈神经网络。此外,Ql-1,Kl-1,Vl-1量是由上一层Tl-1转化而来的query,key,value向量,它们也是注意力机制中的基础输入参数。如图2中所示,其多头注意力能够允许模型共同关注来自不同位置的不同子空间的表示信息,其具体计算方式如下:
MultiHead(Q,K,V)=Concat(kead1,…,headh)WO (7)
其中的WO均为模型中的训练参数。
然后,我们将上述设计好的单元结构进行分层聚合:
其中的聚合函数Aggregation()与公式6相同。其中图3中多头注意力层单元为我们所设计的多头注意力Transformer单元结构,聚合函数Aggregation node,通过聚合函数我们将相同层的节点两两聚合为一个节点,然后将结果传回线性主干网络作为下一层的输入并与线性主干网络的后两个节点进行聚合操作。其聚合的步骤都采用加法操作,减少计算复杂度的同时保持状态层的尺寸不变。对多层注意力层采用全连接方式是为了:将损失更直接向前传播到以方便训练;每一层地编码信息都是前面所有层的一种聚合,在整个网络中都保留了低复杂程度的信息表示;最终的编码结果来自于所有层的表示,所以这样的结果既用了复杂特征也用到了简单的特征。
S160,将更高层次语义信息输入至上下文-问题注意力层,对问答信息进行学习。
需要说明的是,首先计算每个上下文编码(Context)和问题编码(Query)的相似性得到相似矩阵S;
使用softmax对相似矩阵S的每行进行标准化(normalize)后得到再与问题编码(Query)做乘积运算得到context和query的关系(context-to-query attention);
使用softmax函数再对相似矩阵S的每列进行标准化(normalize)后得到再将与和上下文编码(Context)做乘积运算解析出Query和Context中的关键词语(query-to-context attention);
可以理解的是,将多层Transformer单元聚合的编码器模型MTA层得到的问题编码Q(Query)和C(Context)的结果,传入Context-QueryAttention层用于对问答信息进行学习,其中context-queryattention构造如下所示:我们首先计算每一个上下文和查询词的相似度,并通过相似度矩阵S∈Rn×m,n为Context的长度,m为Query的长度,再利用softmax函数对矩阵S的每一行进行归一化,得到矩阵所以context-queryattention的结果A可以表示为其中d表示Q的转置矩阵的维度。同时还利用softmax函数对S的每一列进行归一化,得到矩阵所以query-contextattention的结果B可以表示为在这里使用的相似度函数为三线性函数(trilinear function):
f(q,c)=W0[q,c,q⊙c] (11)
其中,⊙表示元素算法(element-wise multiplication),W0是可训练的变量。
该模块所介绍的A和B两种计算可以如下表示:
A=softmax(S,axis=row)·QT (12)
B=A·softmax(S,axis=column)T·CT (13)
S170,将学习到的结果输入至包括三个多层Transformer聚合编码器的编码层,通过softmax函数获得起始索引位置和结束索引位置;
需要说明的是,将上下文-注意力层(Cntext-Query Attention)学习到的结果传入一个多层Transformer聚合编码器,并将输出结果记为M0;
将M0输入至下一层多层Transformer聚合编码器中进行学习,获得输出结果,并记为M1;,
将M1输入至下一层多层Transformer聚合编码器中进行学习,获得输出结果,并记为M2;
将三层多层Transformer聚合编码器得到的M0、M1、M2组合成[M0;M1],[M0;M2]两种形式,通过softmax函数得出开始索引位置和结束索引位置;
通过softmax函数得到目标答案在文章段落中的起始索引位置:
posstart=softmax(Wstart[M0;M1]) (14)
将多层Transformer单元聚合的编码器模型MTA输出的M0,M2合并得到[M0;M2],通过softmax函数得到目标答案在文章段落中的结束索引位置:
posend=softmax(Wend[M0;M2]) (15)
S180,将所述起始索引位置和所述结束索引位置所确定的内容作为目标答案。
如公式(14)(15),其中,Wstart,Wend分别为模型所训练的参数,用来加强输出位置的准确性。Softmax是归一化指数函数,通过计算[M0;M1]以及[M0;M2]序列输出每个答案的概率值,分别选取概率最大的值就得到了答案在文章里的起始位置posstart以及结束位置posend。
通过设定好的Loss函数不断修正模型输出起始索引位置和结束索引位置的准确度,以求模型达到最好的输出效果,其Loss函数可以表示为:
其中分别表示Context中真实的答案所处的起始和结束位置。
本发明的一个具体的实施例中,通过将文章信息以及问题信息传入答案生成网络中学习要经过以下步骤:首先将段落文章信息以及问题信息分别经过字符嵌入层和词嵌入层,得到对应的关系矩阵。再通过对段落中每个单词引入位置编码向量,将字符嵌入层、词嵌入层和位置编码向量一同传入到我们所设计的多层Transformer聚合编码器中。
将最终的词向量传入多层Transformer聚合编码器进行学习的过程包含如下几个步骤:
将词向量传入由多头注意力层(Multi-head Attention)、前向反馈层(FeedForward)、标准化层(Norm Layer)组成的多头注意力Transformer单元中,该单元的每一层都是前面所有层的累加信息,具体组合结构如图2所示。再将每个多头注意力Transformer单元之间进行连接,并将每两个单元之间通过聚合函数(Aggregation)进行两两聚合,同时将聚合的结果一并传输到下一个单元中,得到段落文章和问句的高层次语义信息。具体结构如图3所示。
将学习到的语义信息传入Context-Query Attention层中,再传入由三个多层Transformer聚合编码器中从全局来描述上下文和问题的关系。通过softmax函数输出问题答案在文章段落中的起始位置信息和结束位置信息,如图4。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (8)
1.一种基于多层Transformer聚合编码器的答案生成方法,其特征在于,所述方法包括:
接收输入信息,其中,所述输入信息包括段落文章信息和问题信息;
对所述输入信息通过字符嵌入层和词嵌入层转换,获得对应的字符向量和词向量;
将所获得的字符向量和词向量进行拼接,获得拼接词向量;
对拼接词向量与位置编码向量进行加法拼接,获得输入顺序序列;
将输入顺序序列输入至多层Transformer聚合编码器,获得更高层次语义信息;
将更高层次语义信息输入至上下文-问题注意力层,对问答信息进行学习;
将学习到的结果输入至包括三个多层Transformer聚合编码器的编码层,通过softmax函数获得起始索引位置和结束索引位置;
将所述起始索引位置和所述结束索引位置所确定的内容作为目标答案。
2.根据权利要求1所述的一种基于多层Transformer聚合编码器的答案生成方法,其特征在于,所述对所述输入信息通过字符嵌入层和词嵌入层转换,获得对应的字符向量和词向量的步骤,包括:
对所述段落文章信息和所述问题信息的任意一单词,在词嵌入层使用Glove词向量,获得单词对应的词向量、每个字符的向量;
将每个字符的向量随机的初始化随模型一起训练。
3.根据权利要求1或2所述的一种基于多层Transformer聚合编码器的答案生成方法,其特征在于,所述将拼接词向量与位置编码向量进行加法拼接,获得输入顺序序列的步骤,包括:
将输入信息中的每个单词位置进行编号,使得每个编号对应一个词向量;
通过每个单词位置编号产生的位置向量与词向量,获得位置编码向量;
对位置编码向量与拼接的词向量进行加法拼接,获得输入顺序序列。
4.根据权利要求3所述的一种基于多层Transformer聚合编码器的答案生成方法,其特征在于,所述位置编码向量计算公式为,
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
其中,PE表示位置编码向量,pos表示词的位置,i表示第i个词的维度,d表示词向量的维度。
5.根据权利要求3所述的一种基于多层Transformer聚合编码器的答案生成方法,其特征在于,所述将输入顺序序列传入至多层Transformer聚合编码器,学习序列的更高层次语义信息的步骤,包括:
通过多层Transformer聚合编码器单元结构,构建多层自注意力机制的网络,对每一层进行全连接;
将所述输入顺序序列输入至构建好的多层自注意力机制的网络中,通过注意力函数计算结果,并通过聚合函数将所计算的结果进行聚合;
通过sigmoid激活函数的前馈神经网络,对聚合后的结果进行累加,学习序列的更高层次语义信息。
6.根据权利要求5所述的一种基于多层Transformer聚合编码器的答案生成方法,其特征在于,所述通过聚合函数将所计算的结果进行聚合的方法,包括:
将多层注意力Transformer单元的相邻两个节点聚合为一个节点,将结果传回线性主干网络;
将传回的结果输入至下一层,且与线性主干网络的后两个节点进行聚合操作;
将每个多层注意力Transformer单元学习的语义信息通过加法后合并,将合并结果作为更高层次语义信息。
7.根据权利要求6所述的一种基于多层Transformer聚合编码器的答案生成方法,其特征在于,所述将更高层次语义信息输入至上下文-问题注意力层,对问答信息进行学习的步骤,包括:
计算每个上下文编码和问题编码的相似性获得相似矩阵S;
利用softmax对相似矩阵S的每行进行标准化后获得与问题编码做乘积运算得到context和query的关系;
利用softmax函数再对相似矩阵S的每列进行标准化后获得将与和上下文编码做乘积运算,获得Query和Context中的关键词语。
8.根据权利要求1所述的一种基于多层Transformer聚合编码器的答案生成方法,其特征在于,所述将学习到的结果输入至包括三个多层Transformer聚合编码器的编码层,通过softmax函数获得起始索引位置和结束索引位置的步骤,包括:
将学习到的结果输入至一个多层Transformer聚合编码器,获得输出结果,并记为M0;
将M0输入至下一层多层Transformer聚合编码器中进行学习,获得输出结果,并记为M1;
将M1输入至下一层多层Transformer聚合编码器中进行学习,获得输出结果,并记为M2;
将M0、M1、M2进行组合,获得[M0;M1],[M0;M2];通过softmax函数获得起始索引位置和结束索引位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910801514.XA CN110502627A (zh) | 2019-08-28 | 2019-08-28 | 一种基于多层Transformer聚合编码器的答案生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910801514.XA CN110502627A (zh) | 2019-08-28 | 2019-08-28 | 一种基于多层Transformer聚合编码器的答案生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110502627A true CN110502627A (zh) | 2019-11-26 |
Family
ID=68590001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910801514.XA Pending CN110502627A (zh) | 2019-08-28 | 2019-08-28 | 一种基于多层Transformer聚合编码器的答案生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502627A (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909527A (zh) * | 2019-12-03 | 2020-03-24 | 北京字节跳动网络技术有限公司 | 文本处理模型的运行方法、装置、电子设备、及存储介质 |
CN111160038A (zh) * | 2019-12-16 | 2020-05-15 | 浙江大学 | 一种基于自注意机制进行视频对话答案与问题的生成方法 |
CN111259666A (zh) * | 2020-01-15 | 2020-06-09 | 上海勃池信息技术有限公司 | 一种结合多头自注意力机制的cnn文本分类方法 |
CN111291190A (zh) * | 2020-03-23 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种编码器的训练方法、信息检测的方法以及相关装置 |
CN111355671A (zh) * | 2019-12-31 | 2020-06-30 | 鹏城实验室 | 基于自注意机制的网络流量分类方法、介质及终端设备 |
CN111428443A (zh) * | 2020-04-15 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种基于实体上下文语义交互的实体链接方法 |
CN111881279A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 基于Transformer模型的问答方法、问答装置及存储装置 |
CN111950701A (zh) * | 2020-07-13 | 2020-11-17 | 中国科学技术大学 | 一种融合公式信息的数学题求解方法及系统 |
CN112328767A (zh) * | 2020-11-11 | 2021-02-05 | 重庆邮电大学 | 基于bert模型和比较聚合框架的问答匹配方法 |
CN112395841A (zh) * | 2020-11-18 | 2021-02-23 | 福州大学 | 一种基于bert的自动填补空缺文本方法 |
CN112446215A (zh) * | 2020-12-14 | 2021-03-05 | 云南电网有限责任公司电力科学研究院 | 一种实体关系联合抽取方法 |
CN112508048A (zh) * | 2020-10-22 | 2021-03-16 | 复旦大学 | 图像描述的生成方法和装置 |
CN112507234A (zh) * | 2020-12-21 | 2021-03-16 | 北京明略软件系统有限公司 | 物料的推送方法及装置、存储介质、电子设备 |
CN112632216A (zh) * | 2020-12-10 | 2021-04-09 | 深圳得理科技有限公司 | 一种基于深度学习的长文本检索系统及方法 |
CN112949284A (zh) * | 2019-12-11 | 2021-06-11 | 上海大学 | 一种基于Transformer模型的文本语义相似度预测方法 |
CN112988967A (zh) * | 2021-03-08 | 2021-06-18 | 华南理工大学 | 基于两阶段解码的对话生成方法及装置、介质和计算设备 |
CN113033213A (zh) * | 2021-04-23 | 2021-06-25 | 中国工商银行股份有限公司 | 使用注意力模型分析文本信息的方法及装置、电子设备 |
CN113033153A (zh) * | 2021-04-28 | 2021-06-25 | 西南石油大学 | 基于Transformer模型融合关键信息的神经机器翻译模型 |
WO2021143021A1 (zh) * | 2020-01-14 | 2021-07-22 | 平安科技(深圳)有限公司 | 基于大数据的答案位置获取方法、装置、设备及介质 |
CN113191539A (zh) * | 2021-04-15 | 2021-07-30 | 电子科技大学 | 一种基于异构图聚合网络的高密度复合场景轨迹预测方法 |
CN113239160A (zh) * | 2021-04-29 | 2021-08-10 | 桂林电子科技大学 | 一种问题生成方法、装置及存储介质 |
WO2021164199A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
CN113312912A (zh) * | 2021-06-25 | 2021-08-27 | 重庆交通大学 | 一种用于交通基础设施检测文本的机器阅读理解方法 |
CN113487088A (zh) * | 2021-07-06 | 2021-10-08 | 哈尔滨工业大学(深圳) | 基于动态时空图卷积注意力模型的交通预测方法及装置 |
CN113704437A (zh) * | 2021-09-03 | 2021-11-26 | 重庆邮电大学 | 一种融合多头注意力机制和相对位置编码的知识库问答方法 |
CN116452931A (zh) * | 2023-04-11 | 2023-07-18 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN117725543A (zh) * | 2024-02-18 | 2024-03-19 | 中国民航大学 | 一种多元时间序列异常预测方法、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959246A (zh) * | 2018-06-12 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
CN110134771A (zh) * | 2019-04-09 | 2019-08-16 | 广东工业大学 | 一种基于多注意力机制融合网络问答系统的实现方法 |
-
2019
- 2019-08-28 CN CN201910801514.XA patent/CN110502627A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959246A (zh) * | 2018-06-12 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
CN110134771A (zh) * | 2019-04-09 | 2019-08-16 | 广东工业大学 | 一种基于多注意力机制融合网络问答系统的实现方法 |
Non-Patent Citations (2)
Title |
---|
ASHISH VASWANI等: "Attention Is All You Need", 《31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017)》 * |
ZI-YI DOU等: "Exploiting Deep Representations for Neural Machine Translation", 《EMNLP2018》 * |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909527B (zh) * | 2019-12-03 | 2023-12-08 | 北京字节跳动网络技术有限公司 | 文本处理模型的运行方法、装置、电子设备、及存储介质 |
CN110909527A (zh) * | 2019-12-03 | 2020-03-24 | 北京字节跳动网络技术有限公司 | 文本处理模型的运行方法、装置、电子设备、及存储介质 |
CN112949284B (zh) * | 2019-12-11 | 2022-11-04 | 上海大学 | 一种基于Transformer模型的文本语义相似度预测方法 |
CN112949284A (zh) * | 2019-12-11 | 2021-06-11 | 上海大学 | 一种基于Transformer模型的文本语义相似度预测方法 |
CN111160038A (zh) * | 2019-12-16 | 2020-05-15 | 浙江大学 | 一种基于自注意机制进行视频对话答案与问题的生成方法 |
CN111355671A (zh) * | 2019-12-31 | 2020-06-30 | 鹏城实验室 | 基于自注意机制的网络流量分类方法、介质及终端设备 |
WO2021143021A1 (zh) * | 2020-01-14 | 2021-07-22 | 平安科技(深圳)有限公司 | 基于大数据的答案位置获取方法、装置、设备及介质 |
CN111259666A (zh) * | 2020-01-15 | 2020-06-09 | 上海勃池信息技术有限公司 | 一种结合多头自注意力机制的cnn文本分类方法 |
WO2021164199A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
CN111291190A (zh) * | 2020-03-23 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种编码器的训练方法、信息检测的方法以及相关装置 |
CN111291190B (zh) * | 2020-03-23 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种编码器的训练方法、信息检测的方法以及相关装置 |
CN111428443A (zh) * | 2020-04-15 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种基于实体上下文语义交互的实体链接方法 |
CN111428443B (zh) * | 2020-04-15 | 2022-09-13 | 中国电子科技网络信息安全有限公司 | 一种基于实体上下文语义交互的实体链接方法 |
CN111950701A (zh) * | 2020-07-13 | 2020-11-17 | 中国科学技术大学 | 一种融合公式信息的数学题求解方法及系统 |
CN111950701B (zh) * | 2020-07-13 | 2022-09-02 | 中国科学技术大学 | 一种融合公式信息的数学题求解方法及系统 |
CN111881279A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 基于Transformer模型的问答方法、问答装置及存储装置 |
CN112508048A (zh) * | 2020-10-22 | 2021-03-16 | 复旦大学 | 图像描述的生成方法和装置 |
CN112508048B (zh) * | 2020-10-22 | 2023-06-06 | 复旦大学 | 图像描述的生成方法和装置 |
CN112328767A (zh) * | 2020-11-11 | 2021-02-05 | 重庆邮电大学 | 基于bert模型和比较聚合框架的问答匹配方法 |
CN112328767B (zh) * | 2020-11-11 | 2022-10-14 | 重庆邮电大学 | 基于bert模型和比较聚合框架的问答匹配方法 |
CN112395841A (zh) * | 2020-11-18 | 2021-02-23 | 福州大学 | 一种基于bert的自动填补空缺文本方法 |
CN112395841B (zh) * | 2020-11-18 | 2022-05-13 | 福州大学 | 一种基于bert的自动填补空缺文本方法 |
CN112632216A (zh) * | 2020-12-10 | 2021-04-09 | 深圳得理科技有限公司 | 一种基于深度学习的长文本检索系统及方法 |
CN112446215A (zh) * | 2020-12-14 | 2021-03-05 | 云南电网有限责任公司电力科学研究院 | 一种实体关系联合抽取方法 |
CN112446215B (zh) * | 2020-12-14 | 2024-03-22 | 云南电网有限责任公司电力科学研究院 | 一种实体关系联合抽取方法 |
CN112507234B (zh) * | 2020-12-21 | 2024-03-01 | 北京明略软件系统有限公司 | 物料的推送方法及装置、存储介质、电子设备 |
CN112507234A (zh) * | 2020-12-21 | 2021-03-16 | 北京明略软件系统有限公司 | 物料的推送方法及装置、存储介质、电子设备 |
CN112988967A (zh) * | 2021-03-08 | 2021-06-18 | 华南理工大学 | 基于两阶段解码的对话生成方法及装置、介质和计算设备 |
CN113191539A (zh) * | 2021-04-15 | 2021-07-30 | 电子科技大学 | 一种基于异构图聚合网络的高密度复合场景轨迹预测方法 |
CN113191539B (zh) * | 2021-04-15 | 2022-03-15 | 电子科技大学 | 一种基于异构图聚合网络的高密度复合场景轨迹预测方法 |
CN113033213A (zh) * | 2021-04-23 | 2021-06-25 | 中国工商银行股份有限公司 | 使用注意力模型分析文本信息的方法及装置、电子设备 |
CN113033153A (zh) * | 2021-04-28 | 2021-06-25 | 西南石油大学 | 基于Transformer模型融合关键信息的神经机器翻译模型 |
CN113239160A (zh) * | 2021-04-29 | 2021-08-10 | 桂林电子科技大学 | 一种问题生成方法、装置及存储介质 |
CN113239160B (zh) * | 2021-04-29 | 2022-08-12 | 桂林电子科技大学 | 一种问题生成方法、装置及存储介质 |
CN113312912A (zh) * | 2021-06-25 | 2021-08-27 | 重庆交通大学 | 一种用于交通基础设施检测文本的机器阅读理解方法 |
CN113487088A (zh) * | 2021-07-06 | 2021-10-08 | 哈尔滨工业大学(深圳) | 基于动态时空图卷积注意力模型的交通预测方法及装置 |
CN113487088B (zh) * | 2021-07-06 | 2024-09-13 | 哈尔滨工业大学(深圳) | 基于动态时空图卷积注意力模型的交通预测方法及装置 |
CN113704437A (zh) * | 2021-09-03 | 2021-11-26 | 重庆邮电大学 | 一种融合多头注意力机制和相对位置编码的知识库问答方法 |
CN113704437B (zh) * | 2021-09-03 | 2023-08-11 | 重庆邮电大学 | 一种融合多头注意力机制和相对位置编码的知识库问答方法 |
CN116452931A (zh) * | 2023-04-11 | 2023-07-18 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN116452931B (zh) * | 2023-04-11 | 2024-03-19 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN117725543A (zh) * | 2024-02-18 | 2024-03-19 | 中国民航大学 | 一种多元时间序列异常预测方法、电子设备及存储介质 |
CN117725543B (zh) * | 2024-02-18 | 2024-05-03 | 中国民航大学 | 一种多元时间序列异常预测方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502627A (zh) | 一种基于多层Transformer聚合编码器的答案生成方法 | |
CN109241536B (zh) | 一种基于深度学习自注意力机制的句子排序方法 | |
CN110188176B (zh) | 深度学习神经网络及训练、预测方法、系统、设备、介质 | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN111191002B (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN108628935B (zh) | 一种基于端到端记忆网络的问答方法 | |
CN113297364B (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN113177141B (zh) | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 | |
CN113343125B (zh) | 一种面向学术精准推荐的异质科研信息集成方法及系统 | |
CN112860930B (zh) | 一种基于层次化相似性学习的文本到商品图像的检索方法 | |
CN110516145B (zh) | 一种基于句向量编码的信息搜索方法 | |
CN115982338B (zh) | 一种基于查询路径排序的领域知识图谱问答方法及系统 | |
CN114896407A (zh) | 一种基于语义解析与向量建模结合的问答方法 | |
CN111339407A (zh) | 一种信息抽取云平台的实现方法 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
Li et al. | Using context information to enhance simple question answering | |
CN114329181A (zh) | 一种题目推荐方法、装置及电子设备 | |
CN115688784A (zh) | 一种融合字与词语特征的中文命名实体识别方法 | |
CN116894120A (zh) | 一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法 | |
Wu et al. | Memory-aware attentive control for community question answering with knowledge-based dual refinement | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 | |
CN114328943A (zh) | 基于知识图谱的问题回答方法、装置、设备及存储介质 | |
CN116561314B (zh) | 基于自适应阈值选择自注意力的文本分类方法 | |
CN111507101B (zh) | 一种基于多层次语义胶囊路由的反讽检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Shang Shengjie Inventor after: Liu Jin Inventor after: Liu Minjie Inventor before: Shang Shengjie Inventor before: Liu Jin |
|
CB03 | Change of inventor or designer information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191126 |
|
RJ01 | Rejection of invention patent application after publication |