CN109522403B

CN109522403B - 一种基于融合编码的摘要文本生成方法

Info

Publication number: CN109522403B
Application number: CN201811308510.XA
Authority: CN
Inventors: 丘金宣; 权小军; 胡弘康
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2023-04-21
Anticipated expiration: 2038-11-05
Also published as: CN109522403A

Abstract

本发明提供一种基于融合编码的摘要文本生成方法，包括以下步骤：确定输入句子，将句子中每个词进行映射得到词向量；将句子中每个词经Spacy工具集转换为相应词性特征，通过映射得到词性标注特征；构建生成式文本摘要模型，将词向量、词性标注特征导入模型中，得到摘要序列。本发明提供的一种基于融合编码的摘要文本生成方法，通过生成式文本摘要模型，融合词向量和词性标注特征作为模型输入，有效提升了模型性能；同时将局部信息与全局信息进行融合编码，有利于模型的梯度传递，保证了句子的长期依赖。

Description

一种基于融合编码的摘要文本生成方法

技术领域

本发明涉及自然语言处理领域，更具体的，涉及一种基于融合编码的摘要文本生成方法。

背景技术

在知识爆炸的新时代，提升生成式自动文本摘要模型的性能具有重大意义，随着深度学习的发展以及注意力机制的提出，基于注意力机制的神经网络开始在生成式文本摘要方面得到广泛的应用。一般神经网络模型都由两部分组成：编码器与解码器，编码器使用卷积神经网络或循环神经网络产生具有上下文语义信息的文本表征，如果引入了选择机制，则将该文本表征再通过一层由神经网络的sigmoid函数控制的门，通过门筛选出重点信息；解码器根据编码信息以及当前生成的摘要词汇计算出注意力分数，通过分数用归一化指数函数再词库中计算出下一个摘要词汇的分数，最后输出最高分数对应的摘要词汇，直到生成终止符则停止解码。

传统的基于统计或规则的模型，通常需要人为制定大量规则，费时费力，且模型输出精度低，难以拟合数据。近年来的神经网络模型虽取得了长足的发展，但在编码方面仍然存在缺点，卷积神经网络的编码器只能捕捉句子的局部特征，使句子的位置信息严重缺失，捕获性能低；而循环神经网络的编码器虽能够有效捕捉句子的位置信息，但容易出现梯度消失问题，难以捕捉句子的长期依赖信息。

发明内容

本发明为克服上述现有技术在捕获文本摘要信息的时候存在捕获性能低，容易出现梯度消失问题，难以捕捉句子的长期依赖信息的技术问题，提供一种基于融合编码的摘要文本生成方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于融合编码的摘要文本生成方法，包括以下步骤：

S1：确定输入句子，将句子中每个词进行映射得到词向量；

S2：将句子中每个词经Spacy工具集转换为相应词性特征，通过映射得到词性标注特征；

S3：构建生成式文本摘要模型，将词向量、词性标注特征导入模型中，得到摘要序列。

其中，在步骤S3中，所述的生成式文本摘要模型包括词嵌入层、融合模块、选择层和解码器；其中：

所述词嵌入层用于融合词向量、词性标注特征，得到融合模块的350维融合输入，其中，词向量设定为300维，词性标注特征设定为50维；

所述融合模块包括局部编码层、全局编码层和融合层；

其中，所述局部编码层由双向门控循环单位GRU组成，通过双向GRU获取融合输入信息的上下文局部表征H，其维度为300×m，m维输入句子的总词数；

所述全局编码层由多头自注意力层组成，通过6个线性变换将300维的上下文局部表征H映射维6个50维的子表征Q_i，其中i＝1,2,...,6，再使用放缩点积注意力计算每个子表征的长期依赖特征，最后通过矩阵拼接融合所有子表征的全局信息，得到上下文全局表征G，其维度为300×m；

所述融合层用于将上下文局部表征H与上下文全局表征G直接相加，获得融合编码；

所述选择层通过神经网络的sigmoid函数筛选融合编码中的重点信息，将重点信息保留突出；

所述解码器通过门控循环单位GRU进行解码，最终得到摘要序列。

其中，所述词嵌入层通过矩阵拼接的方式融合词向量、词性标注特征。

其中，所述放缩点积注意力Attention计算公式具体为：

其中，d_Qi为子表征的维度，为50，其中i＝1,2,...,6，为子表征的序号。

其中，所述选择层通过神经网络的sigmoid函数筛选融合编码中的重点信息K，其具体计算公式为：

K＝σ(W_kG+b_k)*G；

其中，W_k和b_k是选择层的参数，在模型训练时优化更新，σ为sigmoid函数，*为哈达玛乘积。

其中，所述解码器通过门控循环单位GRU进行解码，其具体计算公式为：

s_t＝GRU(y_t-1,c_t-1,s_t-1)；

其中，y_t-1是上一个解码得到的摘要词的词向量，c_t-1是上一个解码状态中的注意力表征，s_t-1是上一个解码状态中的GRU状态，注意力表征c_t的具体计算公式如下：

其中：

其中：

其中，

为模型参数的转置矩阵，W_a，U_a均为模型参数，在训练过程中优化更新，k_i为重要信息K矩阵的第i个向量，s_t-1是上一个解码状态中的GRU状态；由此，注意力表征能够学习到上一个解码状态中的GRU状态与当前第i个编码状态的关联；

通过线性转换将注意力表征c_t、上一个解码得到的摘要词的词向量y_t-1、当前GRU状态s_t进行融合，得到融合解码状态r_t，具体计算公式如下：

r_t＝W_ry_t-1+U_rc_t+V_rs_t；

其中，W_r，U_r，V_r为模型参数，在训练过程中优化更新；

最后对融合解码状态r_t采用归一化指数函数变换，得到当前摘要位置t中出现某个词的概率，取最大概率的词作为该位置的摘要词Y_t，最终得到摘要序列Y₁,Y₂,...,Y_T。

上述方案中，对于输入句子

其中x_t为句子中的每个词，m为句子的总词数，模型的输出目标为

其中y_t是摘要中的每个词，n为摘要的总词数，却对于生成式摘要，y_t取自于词库，n≤m。

上述方案中，所述融合模块能够有效学习局部信息与全局信息，并将二者融合编码，大大提升了编码信息量。

上述方案中，所述的词嵌入层通过简单有效的方式，将词向量和词性标注特征有效地进行融合，有效地丰富了输入信息量，既提升了模型性能，又不会显著降低模型的训练速度。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供的一种基于融合编码的摘要文本生成方法，通过生成式文本摘要模型，融合词向量和词性标注特征作为模型输入，有效提升了模型性能；同时将局部信息与全局信息进行融合编码，有利于模型的梯度传递，保证了句子的长期依赖。

附图说明

图1为本发明方法流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于融合编码的摘要文本生成方法，包括以下步骤：

S1：确定输入句子，将句子中每个词进行映射得到词向量；

更具体的，在步骤S3中，所述的生成式文本摘要模型包括词嵌入层、融合模块、选择层和解码器；其中：

所述融合模块包括局部编码层、全局编码层和融合层；

更具体的，所述词嵌入层通过矩阵拼接的方式融合词向量、词性标注特征。

更具体的，所述放缩点积注意力Attention计算公式具体为：

其中，

为子表征的维度，为50，其中i＝1,2,...,6，为子表征的序号。

更具体的，所述选择层通过神经网络的sigmoid函数筛选融合编码中的重点信息K，其具体计算公式为：

K＝σ(W_kG+b_k)*G；

s_t＝GRU(y_t-1,c_t-1,s_t-1)；

其中：

其中：

其中，

r_t＝W_ry_t-1+U_rc_t+V_rs_t；

其中，W_r，U_r，V_r为模型参数，在训练过程中优化更新；

在具体实施过程中，对于输入句子

在具体实施过程中，所述融合模块能够有效学习局部信息与全局信息，并将二者融合编码，大大提升了编码信息量。

在具体实施过程中，所述的词嵌入层通过简单有效的方式，将词向量和词性标注特征有效地进行融合，有效地丰富了输入信息量，既提升了模型性能，又不会显著降低模型的训练速度。

在具体实施过程中，该方法通过生成式文本摘要模型，融合词向量和词性标注特征作为模型输入，有效提升了模型性能；同时将局部信息与全局信息进行融合编码，有利于模型的梯度传递，保证了句子的长期依赖。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。