CN110427605A

CN110427605A - 面向短文本理解的省略恢复方法

Info

Publication number: CN110427605A
Application number: CN201910385277.3A
Authority: CN
Inventors: 孔芳; 郑杰; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-11-08
Anticipated expiration: 2039-05-09
Also published as: CN110427605B

Abstract

本发明公开了一种面向短文本理解的省略恢复方法。本发明模型主要分为嵌入层、编码层和解码层。嵌入层是为了获取离散词语的分布式表征；编码层是为了挖掘文本的特征；解码层则是利用编码层提取的特征来生成省略补全后的结果。本发明的有益效果：给出的模型则假定句子内词与词之间都可能存在省略，模型在训练和预测时充分考虑了待恢复序列的结构信息，有效解决seq2seq带来的“病句”问题。另外，在短文本理解上，模型融合了交叉注意力和自注意力机制，相较于seq2seq模型能够提取更多、更深的文本特征。

Description

面向短文本理解的省略恢复方法

技术领域

本发明涉及语言处理领域，具体涉及一种面向短文本理解的省略恢复方法。

背景技术

作为一种语言现象，省略在自然语言中普遍存在。根据统计，英文中大约 96％为显式主语，而中文里显式主语仅占64％。由此可见，相较于英文，中文里的省略现象更为频繁。此外，在短文本应用场景，例如对话系统中，对话双方有相同的对话背景，对话的多个轮次共享了一些信息，因此在对话里省略现象更为常见。类似地，系列问答系统中，连续的多个问题间存在关联关系，后续问题与前面问题的答案间也存在一定的关联关系，它们间都可能共享一些信息，这些共享信息在后续陈述中都可能会被省略。显然，对短文本的理解，对省略的识别及恢复起着重要的作用。

面向短文本的省略恢复研究是一个很有潜力的领域，受限于语料，目前相关研究很少。代表性工作包括：Huang等人对中文口语对话系统中的省略现象进行研究，提出了一种基于主题结构的省略恢复方法。但他们提出的方法是面向特定领域的，不具有通用性，而且该方法只是停留在理论层，并没有给出具体的可计算模型。Ren等人从依存关系的角度定义了省略类型。Yin等人针对中文省略中特殊的零代词构建了恢复和消解的框架，并采用联合模型减少管道模型带来的误差传播，但其服务对象并不是短文本。郑杰等人首次提出使用生成式模型来处理中文短文本中的省略。他们给出了一个序列到序列的模型进行省略恢复，但该方法不能保存原语句的结构信息，生成结果具有一定的随机性。

目前基于文本生成式的深度学习技术在文本省略恢复应用中最为广泛。其中典型的工作是Zheng等人[1]于2018年提出的基于序列到序列的省略恢复模型，该模型构成如图1所示。

首次将序列到序列模型应用到中文短文本省略补全的研究中。图1是本发明模型的一个神经网络结构图，该框架主要包含三个层次，即嵌入层、编码层和解码层。接下来本发明将从模型的这三个层面分别展开，进行模型详细细节的说明。

嵌入层

嵌入层(embedding)的主要作用是获得词的分布式表示。它会维护一个嵌入矩阵D，其中V表示词表长度，f表示词向量的维度，之后该序列会被词典映射为标签序列：

X＝(x₁,x₂...x_m) (0.10)

其中X表示输入序列中的单词在词典里的序号。嵌入层会根据标签序列的值从嵌入矩阵D中找到序号所对应的向量，最终标签序列都会对应一个分布式表示，也就是词向量：

W＝(w₁,w₂...w_m) (0.11)

考虑到没有合适的大规模外部公共对话语料，所以并没有采用外部公共词向量来初始化嵌入矩阵，对嵌入矩阵采用了随机初始化的方法。设置嵌入矩阵可训练，并让它的参数随着反向传播算法动态更新，学习词语的潜在语义。

编码层

LSTM

循环神经网络(RNN)由于其能够捕捉时序信息而被在自然语言处理任务中广泛应用。但是，面对较长的序列，循环神经网络会出现梯度消失和梯度爆炸的问题。而LSTM(LongShort-Term Memory)1997年被提出，作为RNN的一个变体，可以解决梯度消失的问题。一个LSTM神经单元由3个门组成，分别是输出门，输入门和遗忘门，这三个门会控制传输到下一个时序信息的多少。一般的，LSTM神经单元的更新规则如以下公式所示：

i_t＝σ(W_ih_t-1+U_ix_t+b_i) (0.12)

f_t＝σ(W_fh_t-1+U_fx_t+b_f) (0.13)

o_t＝σ(W_oh_t-1+U_ox_t+b_o) (0.16)

h_t＝o_t⊙tanh(c_t) (0.17)

Bi-LSTM

一般的单向LSTM网络只能学习历史信息，而Bi-LSTM的思想是将前向传播的状态和后向传播的状态进行拼接，并且已有实验证明这种双向结构可以捕捉历史信息和未来信息。它的结构如图2所示：

在本发明的序列到序列模型中，编码层是用来获得源端句子的语义表征的。 Bi-LSTM模型可以获得源端序列的历史信息和未来信息，能够更好地表征句子的语义信息，所以在编码层采用Bi-LSTM的神经网络结构。它的具体运算过程如下。

标签序列在经过嵌入层得到的词向量序列，在Bi-LSTM中，前向和后向LSTM 网络都是单独计算的，所以词向量会分别传给前向和后向LSTM作为输入向量。假设在第i时刻，在前向LSTM中的输出如下公式所示：

在后向LSTM中，第i时刻的输出如下所示：

所以编码层最后的输出如公式(9)所示：

h＝(h₁,h₂...h_m) (0.20)

其中，h中每一个元素都是前向和后向LSTM的拼接：

解码层

注意力机制

注意力机制最初是指人的心理活动指向或集中于某些事物的能力，引入到神经网络中就是指神经网络模型对一些输出向量“注意”，对另一些输出向量“忽略”。而模型的这种“注意”和“忽略”是用权重来动态模拟的，和当前状态相关的向量会被分配高权重，不相关的向量会被分配低权重。那些被分配高权重的向量在数值计算中影响较大，而被分配低权重的向量对数值运算的结果影响较小，这就是模型会动态选择“注意”相关的内容而忽视不相关内容的原因。注意力机制的原理如图3所示：

解码

根据RNN网络结构具有捕捉时序状态信息的特点，传统的编码解码 (Encoder-Decoder)模型认为编码层最后一个时序的输出向量可以作为源端序列的语义表征。这种做法存在两种弊端，一方面是在对长序列进行处理时，很难把握长句的依赖关系，不可避免会造成语义信息的丢失；另一方面是这种表征方式也无法获得源端序列的焦点信息。因此，采用了交叉注意力(Bahdanau Attention)，对编码层的输出向量计算求得注意力权重，并得到上下文向量 (Context Vector)加入到解码层的输入。具体做法如下：

首先，在解码第一步，序列开始标志符“<GO>”在经过字典映射到标签并通过嵌入层得到词向量w，并用如下公式计算得分e：

e_i1＝Vtanh(W_hh_i+w_ss_o+b) (0.22)

s表示解码端的初始状态向量。这时，可以通过得分e来计算权重：

所以，上下文向量c通过公式计算得到:

最后得到预测标签y：

同时，第一个时序的预测标签作为第二个时序的输入标签：

至此，第一步解码计算完成，之后解码步骤类似，直到输出结束符号“<EOS>”为止。最后可以得到编码端输出标签：

y＝(y₁,y₂...y_t) (0.27)

在训练模式中采用公式负对数似然(negative log-likelihood)来计算损失：

表示j时刻预测的概率分布p_j在目标词处的概率。

Beam Search

在推理过程中，常用的方法使用的是贪心算法搜索。这种方法实现简单，但是结果往往不是最优解。因此，为了增加候选预测序列集合，提高模型的性能，采用了一种集束搜索(beam search)的解码方法。假设beam size大小为 K，词典维度为V，它的思想是每次从概率分布中选择最高的K个值所对应的标签作为预测结果。设第i时刻的最高的K个得分结果计算为：

其中p_ij是第i时刻词典上第j个词的概率，那么score表示第i时刻下从 K*V个概率中选择最大的K个的结果，预测的标签就是score对应的词典中的序号。

[1]郑杰,孔芳,周国栋.基于序列到序列的中文短文本省略补全[J].中文信息学报,2018,32(12):92-99.

传统技术存在以下技术问题：

Zheng等人提出的seq2seq模型中，待恢复序列的结构信息都是来自 Bi-LSTM的编码信息，seq2seq模型通过MLE来隐式地学习待恢复序列的语义结构，从而导致在预测时，模型会丢失部分源序列结构信息，造成完全匹配的准确率较低。

发明内容

本发明要解决的技术问题是提供一种面向短文本理解的省略恢复方法，给出的模型则假定句子内词与词之间都可能存在省略，模型在训练和预测时充分考虑了待恢复序列的结构信息，有效解决seq2seq带来的“病句”问题。另外，在短文本理解上，的模型融合了交叉注意力和自注意力机制，相较于seq2seq 模型能够提取更多、更深的文本特征。

为了解决上述技术问题，本发明提供了一种面向短文本理解的省略恢复方法，包括：

嵌入层：字符级嵌入，是正太分布随机数来初始化嵌入矩阵；每个词语首先都会被填充到最大字长度，然后通过字嵌入矩阵映射为字向量集合；为了去除填充内容对词语语义信息的干扰，对每个词语的字集合加上了mask，即将有效字置为1，填充字置为0；和词嵌入矩阵一样，字嵌入矩阵参数随模型一起训练，最后将词向量和字向量拼接后的向量作为词语的表征；

编码层(Encoder)采用的是双向LSTM结构，这种结构可以有效捕获序列的历史和未来信息，将融合了时序信息的隐层向量作为词语新的语义表征；另外，为了提取文本自身特征，本发明在双向LSTM结果上引入多头自注意力机制，并结合门控机制将自注意力特征动态融入词语的语义表征内；

解码层(Decoder)是本发明模型的核心部分；模型的解码层会综合考虑待恢复序列以及上下文序列的编码特征，词级别以及字符级别特征，交叉注意力特征以及自注意力特征，采取一种新颖的解码策略，对待恢复序列中省略位置进行识别，以及对省略位置进行内容的恢复；

在编码层中，对于融合了时序信息的输出结果和蕴含词语间依赖关系的自注意力计算结果，只考虑一种或者简单相加都是不合理的；因此，在编码层输出结果上增加sigmoid门控单元，让模型自适应调节权重比例；门控单元的计算原理如下所示：

其中，分别表示上下文以及待恢复序列的双向LSTM输出；w_ctx，b_ctx和w_elp，b_elpb_elp分别表示上下文序列和待恢复序列的权重和偏置；最后，编码层最终输出结果由门控单元自适应控制，计算原理如下：

其中，MultiHead_ctx和MultiHead_elpMultiHead_elp分别代表上下文序列以及待恢复序列的多头自注意力机制计算结果；

在解码层也增加了门控机制，具体计算原理如下：

cv_c,e＝gate_c,e*cv_ctx+(1-gate_c,e)*cv_elp (0.35)

其中，gate_c,e表示调节上下文信息和待恢复序列信息权重的门控单元，和分别表示经过编码层编码的上下文状态向量和待恢复序列的状态向量；cv_ctx和cv_elp分别表示经过交叉注意力计算的上下文和待恢复序列结果；cv_c,e则表示模型自适应得到的上下文和待恢复序列的融合信息表征；

省略恢复采用一种联合的方法：不去检测省略出现的位置，而是假设句子内相邻词之间都可能存在省略，在每一对相邻词之间都进行省略内容的预测；

注意力层：

为了让模型在做省略恢复时，能够从多角度分析和利用序列内部依赖关系以及序列间的联系，融合了交叉注意力和自注意力机制。

在其中一个实施例中，为了能够在解码端动态参照编码端序列信息，实现“软对齐”，引入了交叉注意力；交叉注意力的计算原理同上注意力机制。

在其中一个实施例中，借鉴多头自注意力机制来从不同角度、不同层次提取更多文本自身特征，来更好地帮助模型理解文本和进行省略恢复；

多头自注意力机制主要分为两个部分：放缩点积注意力机制和多头机制；放缩点积注意力机制，主要是提取文本中词语之间的相似度信息，学习句子内部的词依赖关系，捕获句子中的内部结构；它的计算公式如下：

其中，Q，K，V在模型中都表示为编码层输出向量h^enc；d_K是Q，K，V的最后一个维度，起到了调节作用，控制Q,K的内积不会太大。

在其中一个实施例中，多头注意力机制在参数不共享的前提下将Q、K、V 通过参数矩阵映射后再做放缩点积注意力，并将这个过程重复做h次，最后将结果进行拼接，从而获得较全面的特征信息；它的计算公式如下：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)(0.37)

MultiHead(Q,K,V)＝Concat(head_i,...,head_h) (0.38)

在模型中，对编码层输出结果做了多头自注意力的计算，让编码层在融入序列的时序信息的同时也能够把握句子中词语之间的依赖关系。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

给出的模型则假定句子内词与词之间都可能存在省略，模型在训练和预测时充分考虑了待恢复序列的结构信息，有效解决seq2seq带来的“病句”问题。另外，在短文本理解上，的模型融合了交叉注意力和自注意力机制，相较于 seq2seq模型能够提取更多、更深的文本特征。

附图说明

图1是本发明面向短文本理解的省略恢复方法背景技术中的序列到序列的省略补全模型示意图。

图2是本发明面向短文本理解的省略恢复方法背景技术中的编码层双向 LSTM结构图。

图3是本发明面向短文本理解的省略恢复方法背景技术中的注意力机制原理图。

图4是本发明面向短文本理解的省略恢复方法中的字符级嵌入原理示意图。

图5是本发明面向短文本理解的省略恢复方法中的编码层结构图。

图6是本发明面向短文本理解的省略恢复方法中的解码层结构图。

图7是本发明面向短文本理解的省略恢复方法中的解码步骤示意图。

图8(1)到(11)是本发明面向短文本理解的省略恢复方法中的一个具体例子的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本发明使用的省略恢复模型是一种基于编码器和解码器的神经网络框架。模型主要分为嵌入层、编码层和解码层。嵌入层是为了获取离散词语的分布式表征；编码层是为了挖掘文本的特征；解码层则是利用编码层提取的特征来生成省略补全后的结果。下面对各部分分别展开介绍。

嵌入层

嵌入层(Embedding)的主要功能是将离散的词语单元映射到低维语义空间，用几十到几千不等维度的向量进行表征，从而让模型理解词语的语义信息。这里，为了综合考虑词信息以及字级别信息，本发明采用了词向量和字符向量相结合的方法。

词级嵌入

词级别嵌入(Word Embedding)，是以语料经过分词后形成的词典为基础，构建一个v_w*f_w的词嵌入矩阵其中v_w表示词典长度，f_w表示词向量的维度。在实验中，本发明没有使用预训练的词向量，采用的是正太分布随机数来初始化嵌入矩阵，参数随模型一起训练。

字符级嵌入

字符级嵌入(Character Embeddi ng)，是将所有词语分解为字，构建一个 v_c*f_c字嵌入矩阵,其中v_c表示字典长度，f_c表示字向量的维度。使用字符级嵌入的原因，是在对语料进行统计时发现，很多词语并没有真正分开，比如“感谢有你”就被当作一个词，只使用词嵌入无法很好地表征词语含义，而将词语拆成字级别表征后可以获得词语内细粒度的语义信息。

本发明使用的字符级嵌入，是正太分布随机数来初始化嵌入矩阵。在实验中，每个词语首先都会被填充到最大字长度，然后通过字嵌入矩阵映射为字向量集合。为了去除填充内容对词语语义信息的干扰，对每个词语的字集合加上了mask，即将有效字置为1，填充字置为0。和词嵌入矩阵一样，字嵌入矩阵参数随模型一起训练，最后将词向量和字向量拼接后的向量作为词语的表征。字符级嵌入的原理如图4所示。

编码层

编码层(Encoder)采用的是双向LSTM结构，这种结构可以有效捕获序列的历史和未来信息，将融合了时序信息的隐层向量作为词语新的语义表征。另外，为了提取文本自身特征，本发明在双向LSTM结果上引入多头自注意力机制，并结合门控机制将自注意力特征动态融入词语的语义表征内。关于注意力机制和门控机制的具体细节在之后的章节详细展开。编码层的结构如图5所示。

从图5可以看出，模型对原省略序列和它对应的上下文序列都进行了编码。由于本发明的语料是由带省略的一轮问答对组成，因此若待恢复序列为回答序列，那么其上下文为问句序列；若待恢复序列为问句序列，那么其上下文为空。

记x_elp为需要省略恢复的词索引序列，x_ctx为其上下文词索引序列。v_elp和v_ctx分别表示将x_elp和x_ctx通过嵌入层表示为词向量序列。之后，通过编码层编码，公式如下所示：

x_elp和x_ctx被编码为融入序列时序信息的输出向量和值得注意的是，使用同一种编码层权重参数来对当前待恢复序列以及上下文序列编码。

解码层

解码层(Decoder)是本发明模型的核心部分。模型的解码层会综合考虑待恢复序列以及上下文序列的编码特征，词级别以及字符级别特征，交叉注意力特征以及自注意力特征，采取一种新颖的解码策略，对待恢复序列中省略位置进行识别，以及对省略位置进行内容的恢复。解码层的结构如图6所示。

门控

门控(Gate)单元旨在控制多路信息的流通。本发明为了减少人工干预，让模型自适应学习调控，在多处增加了门控机制。

在编码层中，对于融合了时序信息的输出结果和蕴含词语间依赖关系的自注意力计算结果，只考虑一种或者简单相加都是不合理的。因此，在编码层输出结果上增加sigmoid门控单元，让模型自适应调节权重比例。门控单元的计算原理如下所示：

其中，分别表示上下文以及待恢复序列的双向LSTM输出。w_ctx，b_ctx和w_elp，b_elpb_elp分别表示上下文序列和待恢复序列的权重和偏置。最后，编码层最终输出结果由门控单元自适应控制，计算原理如下：

其中，MultiHead_ctx和MultiHead_elpMultiHead_elp分别代表上下文序列以及待恢复序列的多头自注意力机制计算结果。

此外，由于对上下文序列以及待恢复序列都进行了编码，并且模型在各时刻解码过程中对两者信息的需求程度是不同的。为了模拟这个特点，在解码层也增加了门控机制，具体计算原理如下：

cv_c,e＝gate_c,e*cv_ctx+(1-gate_c,e)*cv_elp (0.46)

其中，gate_c,e表示调节上下文信息和待恢复序列信息权重的门控单元，和分别表示经过编码层编码的上下文状态向量和待恢复序列的状态向量。cv_ctx和cv_elp分别表示经过交叉注意力计算的上下文和待恢复序列结果。cv_c,e则表示模型自适应得到的上下文和待恢复序列的融合信息表征。

解码步骤

省略恢复常见的思路是使用pipeline结构，即先进行省略位置的识别，再从识别出省略的位置进行省略内容的填充。这种方法会带来误差传播，即整体模型的性能受限于各个子模型的性能。所以，本发明采用一种联合的方法。不去检测省略出现的位置，而是假设句子内相邻词之间都可能存在省略，在每一对相邻词之间都进行省略内容的预测，具体过程如图7，其中红色字体为省略内容。

假设有待恢复序列为{“Go”，“没”，“心情”，“玩”}，首先解码层接受句子开始标志“Go”作为第一个时序的输入，并经过解码层计算后从词表选择概率最大的词“我”，但是“我”并不是待恢复序列下一个词“没”，所以解码层将“我”作为下一个时序的输入。在第二个时序，解码层接受“我”作为输入，经过计算输出词“没”，“没”是待恢复序列的下一个词，所以“Go”和“没”之间的省略内容为“我”。在第三个时序，解码层接受“没”作为输入，输出词“心情”，但是“心情”是待恢复序列下一个词，所以“没”和“心情”之间没有省略。以此类推直到输出句子结束标志“EOS”，最终经过模型省略恢复后的序列为{“我”，“没”，“心情”，“玩”，“游戏”}。

最终，模型会将解码过程中预测的词保存，作为模型预测的省略内容输出。若相邻词之间为空，则表明模型预测这两个词间不存在省略；若相邻词不为空，则相邻词之间的预测内容就是模型预测的省略内容。还有一点值得注意的是，为了增强模型的鲁棒性，防止模型进入无限预测的死循环中，在实验中设置了最长连续解码步长为8，即最长省略内容长度为8。

注意力层

为了让模型在做省略恢复时，能够从多角度分析和利用序列内部依赖关系以及序列间的联系，本发明融合了交叉注意力和自注意力机制。

交叉注意力

交叉注意力(Bahdanau Attention)最早由Bahdanau提出并将其使用在神经机器翻译任务中，本质上起到对齐的作用，它将翻译中的目标语句与源语句中的词进行对齐，进而大大提升了翻译质量。在本发明中，为了能够在解码端动态参照编码端序列信息，实现“软对齐”，引入了交叉注意力。交叉注意力的计算原理同上注意力机制机制。

自注意力

自注意力(Self Attention)来自Google机器翻译团队2017年提出的模型transformer。考虑到中文短文本句长短，表达方式不规范，所以本发明借鉴多头自注意力机制来从不同角度、不同层次提取更多文本自身特征，来更好地帮助模型理解文本和进行省略恢复。

多头自注意力机制主要分为两个部分：放缩点积注意力机制和多头机制。放缩点积注意力机制，主要是提取文本中词语之间的相似度信息，学习句子内部的词依赖关系，捕获句子中的内部结构。它的计算公式如下：

其中，Q，K，V在模型中都表示为编码层输出向量h^enc。d_K是Q，K，V的最后一个维度，起到了调节作用，控制Q,K的内积不会太大。

另一个重要的内容是多头机制。考虑到只使用单一的放缩点积注意力,特别是在中文不规范短文本中,不能够从多角度、多层面捕获到重要的特征，所以本发明了使用多头注意力机制。

多头注意力机制在参数不共享的前提下将Q、K、V通过参数矩阵映射后再做放缩点积注意力，并将这个过程重复做h次，最后将结果进行拼接，从而获得较全面的特征信息。它的计算公式如下：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)(0.48)

MultiHead(Q,K,V)＝Concat(head_i,...,head_h) (0.49)

本发明的有益效果：

评价指标

准确率

关于评价指标，为了和之前的工作做对比，采用了句子级评价方式准确率来测试模型的性能。具体方法如下：

其中，预测正确是指预测结果必须和标准答案完全一致才算正确预测。有省略预测正确是指模型正确识别有省略句子并做正确的省略恢复，无省略预测正确指模型正确识别无省略句子并且不做省略内容恢复。

F1值

除了和Zheng等人的工作做对比之外，对词语间单个省略位置的识别以及省略内容恢复也做了实验。虽然模型是联合省略位置识别和消解一起训练，但是为了更直观感受模型省略恢复的过程，也分别对省略位置识别和恢复做了F1 值评价。其中对省略位置识别的计算方式如下：

省略位置内容恢复的计算如下：

性能评估

首先，为了和Zheng等人提出的seq2seq模型做对比，在同样的数据集上做了十折交叉验证，将十折平均准确率作为衡量模型泛化性能的标准。对比结果如表1所示。

表1模型十折平均准确率对比表

此外，为了剖析模型的运行机制，增强模型的可解释性，本发明主要对注意力模块、上下文编码、门控机制做了对比实验。实验数据集中训练集开发集和测试集比例为8：1：1。实验结果如表2所示。

表2模型各模块对比实验结果

参阅图8(1)到(11)，下面介绍本发明更具体的一个实施例：

1、语料预处理和词典的构建。

2、假设现有一个样例，其中上下文词序列为{“要”，“不”，“要”，“玩”，“游戏”，“了”}，输入词序列为{“没”，“心情”，“玩”}。经过预处理后，上下文序列被补齐为{“要”，“不”，“要”，“玩”，“游戏”，“了”，“<PAD>”…，“<PAD>”}；输入序列补齐为{“没”，“心情”，“玩”，“<PAD>”…，“<PAD>”}。补齐后上下文和输入序列长度都变成一样长。上下文序列是为模型提供场景信息，而输入序列是模型实际进行省略填充的序列。

3、输入序列和上下文序列经过嵌入层被映射为词向量序列。

4，模型的编码层接受词向量序列，并计算得到编码后的向量输出。下图是编码层分别对上下文序列和输入序列计算向量表示。

5、再经过自注意力计算，将编码结果转化为最终的向量表征。

6、通过交叉注意力计算，并结合门控机制，将上下文序列信息和当前序列信息融合。

7、将融合后的信息结合解码输入送入模型解码层，让模型预测省略补全后的结果。解码的步骤如下：

第一步：输入开始标识符“Go”，模型经过计算后对词汇表排序后选择得分最高的词“我”。

第二步：由于上一步预测结果“我”既不是结束符“EOS”，又不是下一个词“没”，所以词“我”作为输入继续预测。

第三步：由于上一步预测结果为“没”，而“没”是下一个词，所以预测结束。以新的词“没”作为新的解码，这里为了保留历史信息，不会初始化状态，而是继续使用之前的解码状态。

第四步：由于上一步预测结果为“心情”，而“心情”是下一个词，所以预测结束。以新的词“心情”作为新的解码

第五步：由于上一步预测结果为“玩”，而“玩”是下一个词，所以预测结束。以新的词“玩”作为新的解码

第六步：由于上一步预测结果“游戏”不是结束符“EOS”，所以词“游戏”作为输入继续预测。预测结果为“EOS”，预测过程结束。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种面向短文本理解的省略恢复方法，其特征在于，包括：

其中，分别表示上下文以及待恢复序列的双向LSTM输出；w_ctx，b_ctx和w_elp，b_elp分别表示上下文序列和待恢复序列的权重和偏置；最后，编码层最终输出结果由门控单元自适应控制，计算原理如下：

其中，MultiHead_ctx和MultiHead_elp分别代表上下文序列以及待恢复序列的多头自注意力机制计算结果；

在解码层也增加了门控机制，具体计算原理如下：

cv_c,e＝gate_c,e*cv_ctx+(1-gate_c,e)*cv_elp (0.6)

注意力层：

2.如权利要求1所述的面向短文本理解的省略恢复方法，其特征在于，为了能够在解码端动态参照编码端序列信息，实现“软对齐”，引入了交叉注意力。

3.如权利要求1所述的面向短文本理解的省略恢复方法，其特征在于，借鉴多头自注意力机制来从不同角度、不同层次提取更多文本自身特征，来更好地帮助模型理解文本和进行省略恢复；

4.如权利要求1所述的面向短文本理解的省略恢复方法，其特征在于，

多头注意力机制在参数不共享的前提下将Q、K、V通过参数矩阵映射后再做放缩点积注意力，并将这个过程重复做h次，最后将结果进行拼接，从而获得较全面的特征信息；它的计算公式如下：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (0.8)

MultiHead(Q,K,V)＝Concat(head_i,...,head_h) (0.9)

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到4任一项所述方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到4任一项所述方法的步骤。

7.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到4任一项所述的方法。