CN111639174B

CN111639174B - 文本摘要生成系统、方法、装置及计算机可读存储介质

Info

Publication number: CN111639174B
Application number: CN202010415140.0A
Authority: CN
Inventors: 李振; 张刚; 鲍东岳; 尹正; 刘昊霖; 张雨枫; 陈厚霖; 彭加欣
Original assignee: Minsheng Science And Technology Co ltd
Current assignee: Minsheng Science And Technology Co ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2023-12-22
Anticipated expiration: 2040-05-15
Also published as: CN111639174A

Abstract

本发明提供了一种文本摘要生成系统、方法、装置及计算机可读存储介质，本发明通过seq2seq框架，以“文本‑摘要”对组成训练数据，实现一个对文本生成摘要的系统。针对不定长序列到序列问题使用经典的seq2seq框架，在Encoder端使用Bert中文预训练模型来获取文本输入信息，在Decoder端引入双向解码机制，在一定程度上提高了生成文本的质量。在最后生成摘要序列的时候根据beam‑search的思想，同时缓存两个方向的topK个结果最终找到概率最高的作为输出。

Description

文本摘要生成系统、方法、装置及计算机可读存储介质

【技术领域】

本发明涉及计算机文字处理技术领域，尤其涉及一种基于双向解码机制的序列到序列框架的文本摘要生成系统、方法、装置及计算机可读存储介质。

【背景技术】

文本摘要是指对内容进行提炼与总结，以简洁直观的摘要来概括用户所关注的主要内容，方便用户快速了解与浏览海量内容。

随着互联网时代的来临，文本摘要正变得越来越重要。首先是信息爆炸文本变得越来越多，如何在有限的时间接收更多的信息成为了棘手的问题；其次是相关信息过多，冗余、片面、杂质的信息导致了信息过载的状况；最后移动设备的普及和使用使得内容短少、快速阅读等特点成文新的信息浏览与阅读方式。

目前关于摘要生成的已有专利大部分采用抽取式摘要的方法，抽取式摘要是指从文章中找出少数有代表性的句子形成摘要。抽取式摘要问题可以概括归纳为从文本N个句子中寻找n个句子，希望句子满足一定的目标函数，经常可以转化为一个组合优化问题。他的优点是能保证句子的可读性，但是缺点也很明显，文章有的时候抽取出的句子无法表达文章的含义。生成式摘要方法中使用的模型大都为seq2seq神经网络模型，同时采用词嵌入和深度学习的方法对文本生成一个简单的摘要，针对Encoder编码为固定语义向量导致的信息丢失和有损压缩问题，使用Attention注意力机制不再将整个输入序列编码为固定长度的中间语义向量而是根据上下文转换为不同的中间语义向量,通过这种方式在一定程度上解决了信息丢失的问题。但是生成式摘要还存在一个问题，就是摘要序列的质量会越来越差，因为前面生成的字概率会高，但是随着序列预测的深入条件概率会降低，使得生成的字概率也会降低，导致的现象就是前面几个字的生成准确率会比后几个字要高，如果从右向左生成序列，就是后面几个字的生成准确率会比前面几个字高，即不管从哪个方向生成都会有方向性倾斜的问题。针对此问题本发明中在这里创新性的提出了双向解码机制，并采取了可行的方法进行训练、序列生成、预测和评估。有效消除了解码质量的不对称性。

因此，有必要研究一种双向解码机制的序列到序列框架的文本摘要生成系统、方法、装置及计算机可读存储介质来应对现有技术的不足，以解决或减轻上述一个或多个问题。

【发明内容】

有鉴于此，本发明提供了一种文本摘要生成系统、方法、装置及计算机可读存储介质，本发明通过seq2seq框架，以“文本-摘要”对组成训练数据，实现一个对文本生成摘要的系统。针对不定长序列到序列问题使用经典的seq2seq框架，在Encoder端使用Bert中文预训练模型来获取文本输入信息，在Decoder端引入双向解码机制，在一定程度上提高了生成文本的质量。在最后生成摘要序列的时候根据beam-search的思想，同时缓存两个方向的topK个结果最终找到概率最高的作为输出。

一方面，本发明提供一种文本摘要生成系统，所述系统基于双向解码机制的序列到序列框架，所述系统基于双向解码机制的序列到序列框架，其特征在于，所述系统包括：

给定句子模块，对输入的句子X；

编码模块，通过预训练模型对给定句子X进行编码和函数变换，获得中间语义向量；

双向解码模块，通过Attention机制和双向解码，获得两组不同预测字及句子；

实际预测模块，通过对两组不同的字和句子进行两个方向的训练并生成完整句子；

模型评价模块，用于模型生成结果以及人工摘要结果进行评分对比；

输出处理模块，用于对最终选择的完整句子进行重复删减。

如上所述的方面和任一可能的实现方式，进一步提供一种文本摘要生成方法，包括所述的文本摘要生成系统，所述方法包括以下步骤：

S1：通过给定句子模块输入文本句子序列；

S2：通过编码模块对输入的文本句子序列进行编码和函数变换，获得中间语义向量；

S3：通过双向解码模块，对中间语义向量进行训练和双向解码，获得预测字及句子；

S4：通过实际预测模块对双向解码的两个结果进行预测，选择枚举概率最高的作为完整解码结果；

S5：通过模型评价模块计算的完整解码结果与人工解码的摘要进行比对，并评价吻合度；

S6：通过输出处理模块删除完整解码结果中重复的部分。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S1具体为：给定输入句子X对输入句子X进行预处理；

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S2具体为：

S21:在Encoder端，对给定句子X采用预训练的Bert进行编码；

S22：经过函数变换，将编码后的为给定句子对变换为中间语义向量H。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S3中训练方法具体为：在Decoder端采用LSTM，使用Dropout控制过拟合，所有参数的初始值都服从-0.1到0.1的平均分布，训练方法为RMSProp，每5个回合之后，训练速率减半，所述S3中双向解码具体为：若干层编码后，得到的自左向右向量序列为：

自右向左向量序列为:

其中，在双向解码机制下，H为query，以H'为key和value做Attention，用Attention的输出作为特征来预测第n个字。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S4中训练方案为Teacher-Forcing，通过softmax和Attention mechanism来生成每个词，最终的损失函数为两个方向的逐字交叉熵的平均，所述损失函数公式如下：

y是输出的词，x是输入的词。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S4中选择方法具体为：当解码出完整的句子后，选择概率最高的，在生成第N个词的时候，选择概率最大的2个词，生成第N+1个词的时候，将当前序列分别与词表中的所有词进行组合，得到新的2*M个序列，然后从其中选择2个得分最高的，作为当前序列后,并不断重复，直到遇到结束符为止，所述M为词表单词个数。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S5中进行模型评价时，使用ROUGE-N作为最终评价标准，以ROUGE-N计算基于N元语言模型自动评价系统摘要与人工摘要的吻合程度，ROUGE-N公式如下：

分子代表系统摘要中匹配到的ngram个数，分母代表人工摘要中的ngram个数。

如上所述的方面和任一可能的实现方式，进一步提供一种文本摘要生成装置，所述装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的文本摘要生成的处理程序，所述文本摘要生成的处理程序被所述处理器执行时实现如所述的文本摘要生成方法的步骤。

如上所述的方面和任一可能的实现方式，进一步提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有文本摘要生成的处理程序，所述文本摘要生成的处理程序被处理器执行时实现所述的文本摘要生成方法的步骤。

与现有技术相比，本发明可以获得包括以下技术效果：

1、本发明采取了可行的方法进行训练、序列生成、预测和评估；

2、本发明有效消除了解码质量的不对称性。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明一个实施例提供的用Attention的输出作为特征来预测第n个字的示例图；

图2是本发明一个实施例提供的Beam search示例图；

图3是本发明一个实施例提供的文本摘要生成方法的流程图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

本发明提供一种双向解码机制的序列到序列框架的文本摘要生成系统、方法、装置及可读存储介质。所述系统基于双向解码机制的序列到序列框架，所述系统包括：

给定句子模块，对输入的句子X进行文本预处理；

双向解码模块，通过batch训练和双向解码，获得两组不同预测字及句子；

模型评价模块，用于对模型生成结果以及人工摘要结果进行评价；

输出处理模块，用于对最终选择的完整句子进行重复删减；

所述给定句子模块、编码模块、双向解码模块、实际预测模块、模型评价模块和输出处理模块依次连接。

一种文本摘要生成方法，包括所述的文本摘要生成系统，所述方法包括以下步骤：

S1：通过给定句子模块输入文本句子序列；

S6：通过输出处理模块删除完整解码结果中重复的部分。

所述S1具体为：给定输入句子X进行文本预处理。

所述S2具体为：

S21:在Encoder端，对给定句子对X采用预训练的Bert进行编码；

所述S3中训练方法具体为：在Decoder端采用LSTM，使用Dropout控制过拟合，所有参数的初始值都服从-0.1到0.1的平均分布，训练方法为RMSProp，每5个回合之后，训练速率减半，通过batch训练，所述S3中双向解码具体为：若干层编码后，得到的自左向右向量序列为：

自右向左向量序列为:

其中，在双向解码机制下，为query，以为key和value做Attention，用Attention的输出作为特征来预测第n个字。

所述S4中训练方案为Teacher-Forcing，通过softmax和Attention mechanism来生成每个词，最终的损失函数为两个方向的逐字交叉熵的平均，所述损失函数公式如下：

y是输出的词，x是输入的词。

所述S4中选择方法具体为：当解码出完整的句子后，选择概率最高的，在生成第N个词的时候，选择概率最大的2个词，生成第N+1个词的时候，将当前序列分别与词表中的所有词进行组合，得到新的2*M个序列，然后从其中选择2个得分最高的，作为当前序列，后并不断重复，直到遇到结束符为止，所述M为词表单词个数。

所述S5中进行模型评价时，使用ROUGE-N作为最终评价标准，以ROUGE-N计算基于N元语言模型自动评价系统摘要与人工摘要的吻合程度，ROUGE-N公式如下：

一种文本摘要生成装置，所述装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的文本摘要生成的处理程序，所述文本摘要生成的处理程序被所述处理器执行时实现如所述的文本摘要生成方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有文本摘要生成的处理程序，所述文本摘要生成的处理程序被处理器执行时实现如所述的文本摘要生成方法的步骤。

实施例1：

本发明中所述文本摘要生成过程中，尤其适用于新闻文本摘要的生成，并且当用于新闻摘要生成时，其相对准确率最高，下面以新闻摘要生成作为具体案例进行说明：

本发明通过seq2seq框架，以“新闻-摘要”对组成训练数据，实现一个对新闻生成摘要的系统。针对不定长序列到序列问题使用经典的seq2seq框架，在Encoder端使用Bert中文预训练模型来获取新闻输入信息，在Decoder端引入双向解码机制，在一定程度上提高了生成新闻的质量。在最后生成摘要序列的时候根据beam-search的思想，同时缓存两个方向的topK个结果最终找到概率最高的作为输出。

本发明中，将Bert应用到了摘要生成中，使用Bert来获取新闻输入信息，通过进一步增加词向量模型泛化能力和动态表达能力，以达到充分描述字符级、词级、句子级甚至句间关系特征的目的。

双向解码机制：常见的seq2seq是从左向右序列生成的，即根据Encoder的结果向量生成第一个字，然后根据Encoder的结果和第一个字生成第二个字，以此类推。同样如果从右向左，则是先生成倒数第一个字，再生成倒数第二个字，以此来推。不论何种方式最终可以转化为一个条件概率最大的形式进行结果生成。但是这种方法会产生方向性倾斜的问题，因为前面预测的准确率肯定要比后面的高，若从左向右生成序列，则后面的结果会变差，若从右向左生成序列，则前面的结果会变差。为了消除这种不对称性，本发明中使用双向解码机制，计算得到两个方向的Decoder，通过Attention注意力机制来进一步对齐生成结果。

在Decoder端，在预测第n个字时，以从左到右的第n-1个解码状态h为query，然后以从右向左的的所有n-1个状态h为key和value来做一个Attention，用Attention的输出作为特征预测第n个字。同理对于另一个方向同样使用该方法预测倒数第n个字。

使用Teacher-Forcing的方式来进行训练，最终的损失函数是自左向右和自右向左两个方向的逐字交叉熵的平均。

使用双向beam-search的方式生成结果序列。同时对两个方向使用beam-search的结果查找方式的双向束搜索。

使用ROUGE-N作为最终评价标准。以ROUGE-N计算基于N元语言模型自动评价系统摘要与人工摘要的吻合程度。

在Decoder端使用多层LSTM结构。

在Decoder端左右两个方向使用相反的起始和结束标记符号。即在自左向右方向中，用<s>作为起始标记，用<e>作为结束标记，而在自右向左方向中，用<e>作为起始标记，用<s>作为结束标记。

对生成序列词的后处理策略。对于重复三次的词，概率设置为0，避免了重复词的出现。

对生成序列句子的后处理策略。重复的句子，删除第二句，少于三个词的句子删除。

本发明所述方法具体包括以下步骤：

1、给定输入句子X，通过Encoder-Decoder来得到目标句子Y。而X和Y分别由各自的字序列构成。

在Encoder端编码采用预训练的Bert进行编码来获取输入新闻信息。

H＝Bert(x₁,…,x_m)

2、对输入语句X进行编码后，经过函数变换为中间语义向量H。

对于编码之后的向量引入了Attention模型。Attention模型Decoder不再将整个输入序列编码为固定长度的中间语义向量，而是根据当前生成的新单词计算新的向量，使得每个时刻输入不同的向量，这样就解决了序列过长使得梯度消失引起的单词信息丢失问题。

3、在Decoder端采用了4层LSTM，每层有600个单元，使用Dropout控制过拟合，所有参数的初始值都服从-0.1到0.1的平均分布，训练方法是RMSProp，每5个回合之后，都将训练速率减半。通过batch训练。

4、在Decoder端使用双向解码，双向解码基本上可以看成是两个不同方向的解码模块共存。每个模块预测每一个字时，除了用到模块内部的信息外，还用到另一模块已经编码好的信息序列。即假设当前情况下自左向右模块要预测第n个字，以及自右向左模块要预测倒数第n个字。经过若干层编码后，得到的自左向右向量序列为：

自右向左向量序列为:

在双向解码机制下，本发明中以H为query，然后以H'为key和value来做一个Attention，用Attention的输出作为特征来预测第n个字，示例如图1所示。

双向解码基本上可以看成是两个不同方向的解码模块共存，为了便于描述，本发明中将上方称为L2R模块，而下方称为R2L模块。开始情况下，都输入一个起始标记(上图中的S)，然后L2R模块负责预测第一个字，而R2L模块负责预测最后一个字。接着，将第一个字(以及历史信息)传入到L2R模块中，来预测第二个字，为了预测第二个字，除了用到L2R模块本身的编码外，还用到R2L模块已有的编码结果；反之，将最后一个字(以及历史信息)传入到R2L模块，再加上L2R模块已有的编码信息，来预测倒数第二个字；依此类推，直到出现了结束标记(上图中的E)。例如上图本发明中在预测第五个字(你)时，本发明中以为query，然后以/>为key和value来做一个Attention，用Attention的输出作为特征来预测第n个字，这样在预测第n个字的时候，就可以提前“感知”到后面的字了。与此同时本发明中以/>为query，然后以/>为key和value来做一个Attention，用Attention的输出作为特征来预测倒数第n个字，就可以提前“感知”到前面的字了。

5.在训练方案用Teacher-Forcing的方式来进行训练，即自左向右方向在预测第n个字的时候，假设前n-1个字都是准确知道的，而自右向左方向在预测倒数第n个字的时候，假设倒数第n-1,n-2,…,1个字都是准确知道的。使用softmax和Attention mechanism来生成每个词。最终的损失函数是两个方向的逐字交叉熵的平均。损失函数公式如下：

y是输出的词，x是输入的词。

6.在实际预测时使用beam search的思路，同时缓存两个方向的topk个结果。由于双向解码时，自左向右的解码是要参考自右向左已有的解码结果，所以在预测下一个字时，除了要枚举概率最高的topk个字、枚举topk条自左向右的临时路径外，还要枚举topk条自右向左的临时路径。之后对每种“字-自左向右临时路径”的得分在“自右向左临时路径”这一维度上做了平均，使分数变为topk2个，作为每种“字-自左向右临时路径”的得分，再从这topk2个组合中，选出分数最高的topk个。而自右向左这边的解码，则要进行反向的、相同的处理。最后两个方向都解码出了完整的句子后，选择概率最高的那个。

Beam search示例如图2所示，假设beam size为2，在生成第N个词的时候，选择概率最大的2个词，生成第N+1个词的时候，本发明中将当前序列分别与词表中的所有词进行组合，得到新的2*M(M为词表单词个数)个序列，然后从其中选择2个得分最高的，作为当前序列，后面会不断重复这个过程，直到遇到结束符为止。最终输出2个得分最高的序列。

7.在模型评价时使用ROUGE-N作为最终评价标准。以ROUGE-N计算基于N元语言模型自动评价系统摘要与人工摘要的吻合程度。

ROUGE-N公式如下：

8.设定后处理策略。重复三次的词，概率设置为0，避免了重复词的出现；重复的句子，删除第二句；少于三个词的句子删除。

本发明中所述涉及到的名词缩写的解释及含义具体见下表1：

表1

以上对本申请实施例所提供的新闻摘要生成系统、方法、装置及可读存储介质，进行了详细介绍。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

如在说明书及权利要求书当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语，故应解释成“包含/包括但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求书所界定者为准。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求书的保护范围内。

Claims

1.一种文本摘要生成方法，其特征在于，所述方法包括以下步骤：

S1：通过给定句子模块输入文本句子序列，给定输入句子X进行文本预处理，所述文本预处理为对乱码以及文本格式进行统一转换；

S4：通过实际预测模块对双向解码的两个结果进行预测，联合选择枚举概率最高的作为完整解码结果；

S6：通过输出处理模块删除完整解码结果中重复的部分；

所述S3中训练方法具体为：在Decoder端采用LSTM，使用Dropout控制过拟合，所有参数的初始值都服从-0.1到0.1的平均分布，训练方法为RMSProp，每5个回合之后，训练速率减半，所述S3中双向解码具体为：若干层编码后，得到的自左向右向量序列为：

自右向左向量序列为:

其中，在双向解码机制下，H为query，以H′为key和value做Attention，用Attention的输出作为特征来预测第n个字；

y是输出的词，x是输入的词。

2.根据权利要求1所述的文本摘要生成方法，其特征在于，所述S1具体为：给定输入句子X，通过Encoder-Decoder来得到目标句子Y，X和Y分别由各自的字序列构成给定句子对<X,Y>。

3.根据权利要求2所述的文本摘要生成方法，其特征在于，所述S2具体为：

S21:在Encoder端，对给定句子X采用预训练的Bert进行编码；

S22：经过函数变换，将编码后的为给定句子变换为中间语义向量H。

4.根据权利要求1所述的文本摘要生成方法，其特征在于，所述S4中选择方法具体为：当解码出完整的句子后，选择概率最高的，在生成第N个词的时候，选择概率最大的2个词，生成第N+1个词的时候，将当前序列分别与词表中的所有词进行组合，得到新的2*M个序列，然后从其中选择2个得分最高的，作为当前序列，后并不断重复，直到遇到结束符为止，所述M为词表单词个数。

5.根据权利要求3所述的文本摘要生成方法，其特征在于，所述S5中进行模型评价时，使用ROUGE-N作为最终评价标准，以ROUGE-N计算基于N元语言模型自动评价系统摘要与人工摘要的吻合程度，ROUGE-N公式如下：

6.一种文本摘要生成系统，所述系统基于双向解码机制的序列到序列框架，所述系统用于上述权利要求1-5之一所述的文本摘要生成方法，所述系统包括：

给定句子模块，对输入的句子X进行预处理；

实际预测模块，通过对两组不同的字和句子进行两个方向的训练并评分生成完整句子；

模型评价模块，用于对对模型生成摘要与人工摘要Y进行评价；

输出处理模块，用于对最终选择的完整句子进行重复删减。

7.一种文本摘要生成装置，其特征在于，所述装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的文本摘要生成的处理程序，所述文本摘要生成的处理程序被所述处理器执行时实现如权利要求1至5中任一项所述的文本摘要生成方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有文本摘要生成的处理程序，所述文本摘要生成的处理程序被处理器执行时实现如权利要求1至5中任一项所述的文本摘要生成方法的步骤。