CN110619043A

CN110619043A - 基于动态词向量的自动文本摘要生成方法

Info

Publication number: CN110619043A
Application number: CN201910810862.3A
Authority: CN
Inventors: 王侃; 曹开臣; 刘万里; 徐畅; 潘袁湘
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: CETC 10 Research Institute; Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-27

Abstract

本发明公开的一种基于动态词向量的自动文本摘要生成方法，旨在提供一种准确性和流畅度更高的文本摘要自动生成方法。本发明通过下述技术方案予以实现：首先通过文本预处理模块对文本进行预处理，预处理包括分词操作、高频词过滤与词性标注，将处理后的文本生成初始词向量；紧接着将初始词向量输入ELMo模型模块，生成初步动态词向量；同时将文本输入Doc2Vec句向量模块得到每个句子的句向量，句向量输入自注意力机制模块计算出相对摘要结果的重要性权重以生成加权句向量，将加权句向量作为各个词的环境特征向量，环境特征向量与初始动态词向量相加得到最终的动态词向量，动态词向量输入Transformer神经网络模型生成高质量的文本摘要。

Description

基于动态词向量的自动文本摘要生成方法

技术领域

本发明属于自然语言处理技术领域，具体涉及自动生成文本摘要的深度神经网络算法。

背景技术

随着近年来互联网的飞速发展与广泛普及，信息数据量呈指数级爆发式增长，信息过载问题日益显现。人们每天需要面对并处理海量的文本信息，如何高效地从大量文本信息中获取重要关键内容，文本摘要自动生成已成为迫切的需求。文本摘要充斥着我们生活的方方面面，新闻关键词的提炼是文本摘要，谷歌、百度等搜索引擎的结果优化也要用到文本摘要。文本摘要自动生成是目前提取文本主旨信息的一个较为高效的方法。该方法通过机器自动输出简洁、流畅、保留原文本关键信息的摘要。目前主流的文本摘要自动生成有两种方式，一种是抽取式，另一种是生成式。顾名思义，抽取式摘要是寻找原文中最接近中心思想的几个句子，通过提取文本中已存在的关键词与短语，重新拼接成一小段摘要，而不对原本的内容做创造性的修改。而生成式摘要则运用自然语言处理的算法，在理解整篇文章意思的基础上，通过转述、同义替换、语句缩写等方法，按自己的话生成简明扼要且流畅的翻译。

抽取式摘要目前已相对成熟，但抽取质量及内容流畅度均差强人意。近几年来快速发展的深度神经网络因其强大的表征能力，为构建优秀的生成式摘要模型提供了可能性，不少生成式神经网络模型在公开测试集上已经超越了最好的抽取式模型，但目前也受文本长度过长、抽取内容不佳等问题的限制。传统的循环神经网络(RNN)非常适用于文本序列建模，但由于不能并行计算而使得训练非常耗时，同时多步骤的循环递归存在梯度消失、爆炸、语义丢失等长期依赖问题，导致文本摘要的生成质量和效率不高；针对此缺陷，Facebook AI实验室基于卷积神经网络(CNN)提出了更为高效的ConvS2S模型，但CNN存在不能直接处理变长文本序列的问题；谷歌团队则彻底抛弃传统的CNN和RNN，完全基于注意力机制提出了Transformer模型，既改善了RNN难以并行及长期依赖的缺陷，更解决了CNN难以处理变长序列样本的问题。

除了网络结构，作为网络模型的输入端，词通常被映射为连续的一维向量，这使得词与词之间的相似度可以在向量空间度量。在以往的深度学习模型中，文本词向量随模型训练而得到固定的数学表达。但是，同一个词在不同的语言环境里，往往会具有不同的词性或语义，特别是多义词表现得尤其明显。在现有技术中，ELMo语言模型可用于动态词向量的预训练。它由深层双向LSTM模块堆叠构成，通过词序列前后语义预测当前词，可对句法语义进行动态建模，每个LSTM层都会输出基于当前文本的一个向量表达，使得同一个词在不同上下文里具有不同的向量表示。因此，上下文语境相关的动态词向量，亦可用于提升自动文本摘要的质量。

发明内容

本发明目的在于：针对词向量难以充分感知上下文语境相关的语义特征，利用基于注意力机制的Transformer模型，并结合语言层先验知识与ELMo动态词向量，提供一种准确性和流畅度更高的文本摘要自动生成方法。

本发明的上述目的可以通过以下措施来实现：首先通过文本预处理模块对文本进行预处理，预处理包括分词操作、高频词过滤与词性标注，将处理后的文本生成初始词向量；紧接着将初始词向量输入ELMo模型模块，生成初步动态词向量；同时将文本输入Doc2Vec句向量模块得到每个句子的句向量，紧接着将句向量输入自注意力机制模块，计算出各句子对摘要结果的重要性权重以生成加权句向量，将加权句向量作为各个词的环境特征向量；然后将此环境特征向量与初始动态词向量相加，得到最终的动态词向量，将此动态词向量输入Transformer神经网络模型，生成高质量的文本摘要。

本发明的有益效果是：相比基于RNN的GRU-Context模型与基于CNN的RAS-Elman模型，本发明所提出的基于Transformer框架的动态词向量模型，在公开数据集LCSTS上的评测指标Rouge值更高，表明所生成的文本摘要的准确性和流畅度更高。评测对比如表1所示。

表1模型评测对照表

附图说明

图1是本发明“基于动态词向量的自动文本摘要生成方法”的动态文本词向量计算结构示意图；

图2是整个Transformer算法模型结构示意图。

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步的详细描述。

具体实施方式

参阅图1。根据本发明，首先通过文本预处理模块对文本进行预处理，包括分词操作、高频词过滤与词性标注，将处理后的文本生成初始词向量；紧接着将初始词向量输入ELMo模型模块，生成初步动态词向量；同时将文本输入Doc2Vec句向量模块得到每个句子的句向量，紧接着将句向量输入自注意力机制模块，计算出各句子对摘要结果的重要性权重以生成加权句向量，将加权句向量作为各个词的环境特征向量；然后将此环境特征向量与初始动态词向量相加，得到最终的动态词向量，将此动态词向量输入Transformer神经网络模型，生成高质量的文本摘要。

步骤1：在进行文本摘要生成之前，对文本进行预处理。通过图1中的“文本预处理”模块，引入语言层先验知识对文本进行预处理操作。一是首先使用结巴分词工具对中文文本进行分词处理，接着过滤掉类似于“的”、“是”、“一个”这类没有太多意义的高频词，然后对分词后的文本以句子为单位进行合并。二是本发明引入了语言层的先验知识，旨在优化自动文摘模型的训练过程，以期减少训练集的数据量和加快模型收敛速度。具体实施为使用pyltp工具对分词后的每个单词标注出正确的词性，如名词、动词、副词、形容词，识别出文本中有意义的实体，例如人名、地名、组织机构名。最终将预处理后的文本文件生成初始词向量。

步骤2：通过图1中的ELMo模型模块生成初步动态词向量。预处理后的初始词向量分别输入到ELMo的前向和后向语言模型，将前后两个方向的输出拼接得到初始文本的256维动态词向量表达。

步骤3：通过图1中的Doc2Vec句向量模块成文本句向量。为了更好地表征各输入文本句子之间的关联性，本发明在词向量基础上引入本词当句的句向量。Doc2Vec句向量模块利用LCSTS数据集里的样本句构成训练集，利用Doc2Vec无监督算法来训练输入文本每句的句向量，经过训练后句向量维度为256。

步骤4：通过图1中的自注意力机制模块与矩阵相加模块，生成最终的动态词向量。自注意力机制模块结合自注意力机制计算各句子对摘要结果的重要性权重，其计算公式为

其中，Q(Query)、K(Key)、V(Value)是同一个句向量由3个不同的权值矩阵W^Q、W^K、W^V线性映射得到，T表示矩阵共轭，d_k表示向量维度大小。由于Q、K、V来源相同，所以称为自注意力。为了防止Q向量与K向量内积过大引起梯度消失，有时会将内积除以向量维度大小的平方根。对缩放内积施以Softmax激活函数后点乘V向量，得到加权后的每个加权句向量。将其作为各个词的环境特征向量并与ELMo初步动态词向量相加，得到最终输入Transformer框架的动态词向量。

步骤5：参阅图2。动态词向量输入到Transformer模型框架中，最终输出文本摘要。该Transformer模型包括编码和解码两个阶段，每个阶段都仅由注意力网络层和前馈网络层组成。注意力网络层利用注意力机制对关联性进行编码，前馈网络层包含两个全连接层，中间利用Relu激活函数加快训练速度。同时，每层之间都具有形如残差网络的捷径(Shortcut)结构，增加网络深度的同时保证了训练精度，并对每层作归一化操作将中间输出正则化，以解决深度学习中的退化问题。

编码阶段，输入Transformer模型框架的动态词向量经过多头自注意力层之后得到多个加权输出，多头输出拼接形成更大的矩阵作为紧接着的前馈网络层的输入。多头自注意力层有多组W^Q/K/V权重矩阵，每一组都随机初始化，经过训练后可提取文本不同维度的特征。编码端总共栈式堆叠6次此计算过程，增加模型训练深度，使得模型对文本表征更充分，能够获取更全面的文本语义信息。最终，编码端输出固定长度的K向量和V向量到解码端。

解码阶段，解码端同样栈式堆叠6个结构相同的计算模块，每个计算模块比编码端中多了一个编码-解码多头注意力层，帮助解码端专注于输入句子与文本摘要之间的关联性。此注意力层中，Q向量来自于解码端的上一个输出，K向量和V向量来自于编码端的当前输出。由于Q、K、V来源不同，所以不再是自注意力。解码端在经过样本训练后，能够较为准确地将编码端输出的文本向量解码生成相应的变长文本摘要。

以上所述为本发明较佳实施例，应该注意的是上述实施例对本发明进行说明，然而本发明并不局限于此，并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于动态词向量的自动文本摘要生成方法，其特征在于包括如下步骤：首先通过文本预处理模块对文本进行预处理，预处理包括分词操作、高频词过滤与词性标注，将处理后的文本生成初始词向量；紧接着将初始词向量输入ELMo模型模块，生成初步动态词向量；同时将文本输入Doc2Vec句向量模块得到每个句子的句向量，紧接着将句向量输入自注意力机制模块，计算出各句子对摘要结果的重要性权重并输出加权句向量，将加权句向量作为各个词的环境特征向量；然后将此环境特征向量与初始动态词向量相加，得到最终的动态词向量，将此动态词向量输入Transformer神经网络模型，生成高质量的文本摘要。

2.如权利要求1所述的基于动态词向量的自动文本摘要生成方法，其特征在于：在文本摘要生成之前的预处理过程中，首先使用结巴分词工具对中文文本进行分词处理，接着过滤掉类似于“的”、“是”、“一个”这类没有太多意义的高频词，然后对分词后的文本以句子为单位进行合并；其次引入语言层的先验知识，标注出每个词的词性，旨在优化自动文摘模型的训练过程，以期减少训练集的数据量和加快模型收敛速度。

3.如权利要求1所述的基于动态词向量的自动文本摘要生成方法，其特征在于：预处理后的初始词向量分别输入到ELMo模型模块的前向和后向语言模型，将前后两个方向的输出拼接得到初始文本的256维动态词向量表达。

4.如权利要求1所述的基于动态词向量的自动文本摘要生成方法，其特征在于：Doc2Vec句向量模块在词向量基础上引入本词当句的句向量，利用LCSTS数据集里的样本句构成训练集，利用Doc2Vec无监督算法来训练输入文本每句的句向量，经过训练后句向量维度为256。

5.如权利要求1所述的基于动态词向量的自动文本摘要生成方法，其特征在于：自注意力机制模块利用自注意力机制计算各句子对摘要结果的重要性权重，其计算公式为

其中，T表示矩阵共轭，d_k表示向量维度大小，Q(Query)、K(Key)、V(Value)是同一个句向量由3个不同的权值矩阵W^Q、W^K、W^V线性映射得到。

6.如权利要求1所述的基于动态词向量的自动文本摘要生成方法，其特征在于：自注意力机制模块将加权后的加权句向量作为各个词的环境特征向量，并与ELMo初步动态词向量相加，得到最终输入Transformer模型的动态词向量。

7.如权利要求1所述的基于动态词向量的自动文本摘要生成方法，其特征在于：Transformer模型包括编码和解码两个阶段，每个阶段都仅由注意力网络层和前馈网络层组成；注意力网络层利用注意力机制对关联性进行编码，前馈网络层包含两个全连接层，中间利用Relu激活函数加快训练速度；同时，每层之间都具有形如残差网络的捷径(Shortcut)结构，增加网络深度的同时保证了训练精度，并对每层作归一化操作将中间输出正则化，以解决深度学习中的退化问题。

8.如权利要求7所述的基于动态词向量的自动文本摘要生成方法，其特征在于：编码阶段，输入Transformer模型框架的动态词向量经过多头自注意力层得到多个加权输出，将多头输出拼接形成大的矩阵作为紧接着的前馈网络层的输入；编码端总共栈式堆叠6次此计算过程，最终输出固定长度的K向量和V向量到解码。

9.如权利要求7所述的基于动态词向量的自动文本摘要生成方法，其特征在于：解码阶段，解码端同样栈式堆叠6个计算模块，每个计算模块比编码端中多了一个编码-解码多头注意力层，此注意力层中，Q向量来自于解码端的上一个输出，K向量和V向量来自于编码端的当前输出。

10.如权利要求9所述的基于动态词向量的自动文本摘要生成方法，其特征在于：解码端在经过样本训练后，将编码端输出的文本向量解码生成相应的变长文本摘要。