CN112463956B

CN112463956B - 基于对抗学习和分层神经网络的文本摘要生成系统和方法

Info

Publication number: CN112463956B
Application number: CN202011351699.8A
Authority: CN
Inventors: 黄海辉; 查茂鸿; 常光辉; 胡诗洋
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2022-08-23
Anticipated expiration: 2040-11-26
Also published as: CN112463956A

Abstract

本发明请求保护一种基于对抗学习和分层神经网络的文本摘要生成系统和方法，属于自然语言处理的文本摘要领域，系统包括：判别器模块、预处理模块、词嵌入模块、句嵌入模块、生成模块和对抗学习模块，本发明在编码器‑解码器模型(Seq2Seq)基础上，提出一种层级划分的新模型。将Seq2Seq的编码器部分划分为词嵌入层和句嵌入层，并在每个层级引入增强记忆机制，使模型能够更好的理解文本含义，同时在解码时引入对抗学习，设置一个识别器将标准表示与模糊表示进行识别，缩小两者的距离，同时监督学习阻止他们接近，形成对抗，对抗平衡时，找到最优的生成结果，提高了文本摘要生成的准确率。

Description

基于对抗学习和分层神经网络的文本摘要生成系统和方法

技术领域

本发明属于自然语言处理的文本摘要领域，具体涉及一种基于对抗学习和分层神经网络的文本摘要方法和系统。

背景技术

随着近年互联网文本信息爆发式增长，人们每天能接触到海量的文本信息，如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容，已成为迫切需求，而自动文本摘要则提供了一个高效的解决方案。

传统基于注意力机制的编码器-解码器模型首先对文本的词语做编码，随后加入注意力机制学习文章的关键信息，之后再对词编码进行解码生成文本摘要。此类方法的注意力机制的颗粒度较为粗化，对于长文本的学习不能达到很好的注意效果，很难捕捉到一篇中长文本中的关键语句和关键词语，造成生成的摘要的准确性有较大的偏差。且假设文本序列长度过长，尽管引入了长短记忆型神经网络，但是仍然会发生反向传播过程的梯度弥散现象，从而引发导数计算偏差，在产生偏差的基础上再引入注意力矩阵，则是在产生误差的基础上再次得到更大误差，最终导致摘要生成不准确。

因此，本文提出一种基于对抗学习和分层神经网络的文本摘要方法和系统，将神经网络分层，分为词嵌入层和句嵌入层，并在每个层级引入增强记忆机制，使模型能够更好的理解文本含义，同时在解码时引入对抗学习，设置一个识别器将标准表示与模糊表示进行识别，缩小两者的距离，同时监督学习阻止他们接近，形成对抗，对抗平衡时，找到最优的生成结果，提高文本摘要生成的准确率。

本发明所要解决的技术问题是实现自动文本摘要的生成并提高文摘得准确率。针对传统的基于注意力机制的seq2seq模型由于输入序列过长而不能很好的记忆上下文，造成文本理解缺失以及注意力机制颗粒度较为粗化带来的关键信息捕捉不精确造成的摘要准确性低的问题，提出一种对神经网络分层编码的思想，分为词嵌入级和句嵌入级，在每个层级引入增强记忆机制，效益是减少了反向传播求导中的误差并细化了传统seq2seq模型注意力机制的关注颗粒度，使之能够更为精准的捕获文章中的关键信息，同时在解码时引入对抗学习，设置一个识别器将标准表示与模糊表示进行识别，缩小两者的距离，同时监督学习阻止他们接近，形成对抗，对抗平衡时，找到最优的生成结果，提高文本摘要生成的准确率，从而提高最终生成摘要的精确度。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于对抗学习和分层神经网络的文本摘要生成系统及方法。本发明的技术方案如下：

一种基于对抗学习和分层神经网络的文本摘要生成系统，其包括：判别器模块、预处理模块、词嵌入模块、句嵌入模块、生成模块和对抗学习模块，其中判别器模块用于对文本有效性进行判别，预处理模块用于将文本分词化并转化为独热编码one-hot向量，同时做分块处理；词嵌入模块用于利用双向长短记忆型神经网络对one-hot向量进行词编码处理，得到具有高表征的词编码并加入增强记忆矩阵与词编码做点积得到句向量；句嵌入模块利用双向长短记忆型神经网络对所得句向量进行句编码处理，得到具有高表征的句编码并加入增强记忆矩阵与句编码做点积得到文本向量；生成模块对所得文本向量进行解码操作并生成完整的文章摘要记为标准摘要；对抗学习模块对文本重新训练，使用传统的Seq2Seq模型，得到一个模糊表示；接着引入对抗学习，设置一个识别器将标准表示与模糊表示进行识别，调节参数λ缩小两者的距离，同时监督学习阻止他们接近，形成对抗，找到对抗平衡的λ时训练的文本摘要为最优结果。

进一步的，所述判别器模块对文本有效性进行判别具体包括：扫描文本，识别出<时间，地点，事件>的命名实体三元组，若三元组中任一元素为空，则判定为文本不完整，视为无效文本丢弃；否则将无效文本输入到所述词嵌入模块进行进一步处理。

进一步的，所述预处理模块将文本按句划分成n个数据块，对每个数据块做分词操作，并将每个词语初始化成独热编码的嵌入表示，记为w_ij，输入到词嵌入层，其中i表示第i句，j表示第i句中的第j个词。

一种基于所述系统的文本摘要生成方法，其包括以下步骤：

S1：扫描文本，通过NER命名实体识别技术识别文本的时间，地点，事件三元组，若三元组中任一元素为空，则认为该文本内容残缺，判定为无效文本并丢弃；

S2：将文本按句划分成n个数据块，对每个数据块做分词操作，并将每个词语初始化成one-hot编码的嵌入表示，记为w_ij，输入到词嵌入层。其中i表示第i句，j表示第i句中的第j个词；

S3：将每个数据块的句子进行词编码操作，使用双向长短记忆型神经网络对one-hot向量进行词编码处理，得到具有高表征的词编码；

S4：引入随机初始化的t个上下文矩阵u_wt，将其与S2所得的词编码做softmax操作，根据公式

求出第t个词记忆矩阵，得到词记忆矩阵，其中L表示第L个分区，对其所有的注意力矩阵做加权得到增强词记忆矩阵

再将α和隐藏层的结果做点积并加权，生成具有高表征特性的句向量S_l，l表示第l个句向量；

S5：同理对上述所得句向量做句编码处理得到具有高表征的句编码并引入随机的句增强记忆矩阵，将其与上述所得到的句编码做softmax操作，生成具有高表征特性的文档向量T；

S6：将上述编码过程的最后一个状态即最后生成的文本向量T输入生成模块进行解码操作，生成文本摘要，记为标准表示；

S7：对文本重新训练，使用传统的Seq2Seq模型，得到一个模糊表示；

S8：引入对抗学习机制，引入可调节的权重参数λ，衡量解码器的监督强度，原文和摘要越相关，监督学习的强度应该越强，λ越大，训练识别器，将上述得到的模糊表示和标准表示进行判别，与此同时，监督学习一边缩小这两个表示的距离，使它们越来越相近，阻止识别器区分它们，所以当识别器可以区分两者时，降低λ，反之增加λ，最终得到合适的λ值，此时训练出的文本摘要为最优解。

进一步的，分层神经网络具有以下特性：句子由单词组成，文本由句子组成，据此构建自下而上的分层结构，将传统的seq2seq模型的编码器层分解为词嵌入层和句嵌入层，并引入增强记忆机制，首先判断其是否是有效文本，若是有效文本，将文本输入序列分成若干个数据块分别处理，同时在解码过程中引入对抗学习。

进一步的，所述步骤S6将上述编码过程的最后一个状态即最后生成的文本向量T输入生成模块进行解码操作，生成文本摘要，记为标准表示，具体步骤为：

S61：将编码过程最后生成的文本向量作为解码器初始化参数传入生成模块，在向量中插入begin和end标签，表示开始和结束，并将标签begin作为输入参数；

S62：初始化后的生成模块运行一次时间步操作，并采用softmax计算出下一时刻概率最大的单词并输出；

S63：输入上一时刻的输出单词，同时神经网络系统通过反向传播自动更新整个神经网络权重参数，再运行一次时间步并做softmax计算输出下一个概率最大的单词；

S64：迭代S63过程，直到遇到end标签，结束流程，得到完整摘要，记为标准摘要。

进一步的，所述解码器模块的解码操作包括：输入文本向量T和begin标签，做softmax计算得出下一个要输出的单词的概率，输出最大概率的单词，将该单词将会在下一个时序的输入，再通过softmax计算得出下一个要输出的单词；以此类推，最终生成完整的文本摘要，神经网络通过当前状态利用反向传播自适应更新神经网络的权重参数。

本发明的优点及有益效果如下：

本发明通过对神经网络的结构分层，将原本的编码器-解码器模型分成了词嵌入层级和句嵌入层级的自下向上模型，缩短了每个处理单元的输入序列的长度，从而缓解了由于序列过长导致反向传播中求导误差较大的问题；并在每个层级增强记忆机制，提高了模型的关注度，使之能够更为精准的捕获到文章中的关键信息，同时在解码器部分引入了对抗学习，设置一个识别器将标准表示与模糊表示进行识别，缩小两者的距离，同时监督学习阻止他们接近，形成对抗，对抗平衡时，找到最优的生成结果，提高了文本摘要生成的准确率。提高了生成摘要的精确性。

传统基于注意力机制的编码器-解码器模型首先对文本的词语做编码，随后加入注意力机制学习文章的关键信息，之后再对词编码进行解码生成文本摘要。此类方法的注意力机制的颗粒度较为粗化，对于长文本的学习不能达到很好的注意效果，很难捕捉到一篇中长文本中的关键词句，造成生成的摘要的准确性有较大的偏差。且假设文本序列长度过长，尽管引入了长短记忆型神经网络，但是仍然会发生反向传播过程的梯度弥散现象，最终导致摘要生成不准确。

本发明的创新模块有两部分(对应的效益/优点)：

1.在编码器模块，将传统的编码器分成了词嵌入层和句嵌入层，构建一个自上向下的层次结构，缩短了每个处理单元的输入序列的长度，避免传统的编码器解码器模型中由于输入序列过长导致的反向传播误差问题；在每个层级分别增加一种增强记忆机制，它细化了传统的注意力机制的颗粒度，使文本能够更精准的捕捉关键词句，提升了文本摘要生成的准确性。

2.在传统的解码器中引入一种对抗学习机制，设置一个识别器将标准表示与模糊表示进行识别，调节参数λ缩小两者的距离，同时监督学习阻止他们接近，形成对抗，识别器的判别能力会在过程中不断加强，直到找到对抗平衡的λ时训练的文本摘要为最优结果。这样做可以进一步的提高文本摘要生成的准确率。

此外，在进入系统之前，增加了一个判别器模块，可以预先过滤不完整的文本，这样可以提高系统的效率。

附图说明

图1是本发明提供优选实施例的系统模块结构示意图。

图2是本发明所述系统分层神经网络结构图。

图3是本发明对抗学习模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

需要说明的是，自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，主要涉及实现人与计算机之间用自然语言进行有效通信的各种理论和方法，从微博或微信中获取文本数据的方法可以使用爬虫方法，或者其他的获取数据的软件程序等，本发明实施例不做具体限定。

图1是本发明的系统模块结构示意图。根据上述对基于对抗学习和分层神经网络的文本摘要方法的特点进行分析，本发明提出的系统整体框架主要分为；六个模块：包括判别器模块、预处理模块、词嵌入模块、句嵌入模块、生成模块和对抗学习模块。判别器模块对文本有效性进行判别，预处理模块用于将文本分词化并转化为独热编码one-hot向量，同时做分块处理，将处理单元按句划分，一个句子中的词的集合作为一个独立的处理单元，句与句在该阶段是相互独立的。词嵌入模块利用双向长短记忆型神经网络对one-hot向量进行词编码处理，得到具有高表征的词编码并加入增强记忆矩阵与词编码做点积得到句向量。其中所述的双向长短记忆性神经网络可以是LSTM，GRU等但不限于上述举例。句嵌入模块利用双向长短记忆型神经网络对上述所得句向量进行句编码处理，得到具有高表征的句编码并加入增强记忆矩阵与句编码做点积得到文本向量。生成模块对所得文本向量进行解码操作并生成完整的文章摘要记为标准摘要，对抗学习模块对文本重新训练，使用传统的Seq2Seq模型，得到一个模糊表示。接着引入对抗学习，设置一个识别器将标准表示与模糊表示进行识别，调节参数λ缩小两者的距离，同时监督学习阻止他们接近，形成对抗，找到对抗平衡的λ时训练的文本摘要为最优结果。

所述判别器模块对文本有效性进行判别，扫描文本，识别出<时间，地点，事件>的命名实体三元组，若三元组中任一元素为空，则判定为文本不完整，视为无效文本丢弃。否则将其输入到所述词嵌入模块进行进一步处理。

所述预处理模块将文本按句划分成n个数据块，对每个数据块做分词操作，并将每个词语初始化成独热编码的嵌入表示，记为w_ij，输入到词嵌入层。其中i表示第i句，j表示第i句中的第j个词。

所述词嵌入模块利用双向长短记忆型神经网络对one-hot向量进行词编码处理，得到具有高表征的词编码并引入增强记忆矩阵并做一系列处理得到句向量。

所述句嵌入模块利用双向长短记忆型神经网络对上述所得句向量进行句编码处理，得到具有高表征的句编码并引入增强记忆矩阵并做一些列处理转化得到文本向量。

所述生成模块对所得文本向量进行解码操作生成文本摘要的标准表示。

所述对抗学习模块首先对文本重新训练，使用传统的Seq2Seq模型，得到一个模糊表示。接着引入对抗学习，设置一个识别器将标准表示与模糊表示进行识别，调节参数λ缩小两者的距离，同时监督学习组织他们接近，形成对抗，找到对抗平衡的λ时训练的文本摘要为最优结果。

优选的，所述解码器模块的解码操作包括：输入文本向量T和begin标签，做softmax计算得出下一个要输出的单词的概率，输出最大概率的单词。将该单词将会在下一个时序的输入，再通过softmax计算得出下一个要输出的单词。以此类推，最终生成完整的文本摘要。需要说明的，神经网络通过当前状态利用反向传播自适应更新神经网络的权重参数。

优选的，该系统只要符合分层神经网络而不限制具体使用哪一种神经网络模型，可以使用RNN，LSTM，GRU或其他神经网络结构，可根据不同应用场景的实际效果替换结构模型。

图2是本发明所述系统分层神经网络结构图。首先对文本的有效性进行判别。具体操作为，扫描文本，通过NER命名实体识别技术识别文本的时间，地点，事件三元组，若三元组中任一元素为空，则认为该文本内容残缺，判定为无效文本并丢弃。例如：对于文本可以抽取出<2020年11月10日晚9点，**，**>，则认为其是有效文本。而对于三元组中任一元素有缺失的文本，均认为其文本不具备完整性，认为是无效文本并丢弃。如文本缺少时间实体，故认为其是不完整的无效文本丢弃。

当判别完文本的有效性之后，将文本输入至预处理模块，对文本进行分块。将文本按句划分成n个数据块，对每个数据块做分词操作，得到初始单词序列（x₁₁，x₁₂，...，x_nm)并将每个词语初始化成one-hot编码的嵌入表示，记为w_ij，输入到词嵌入层。其中i表示第i句，j表示第i句中的第j个词。

将one-hot向量作为词编码模块的输入。词编码模块的神经网络结构是一种基于时序的结构模型，此处选用GRU神经网络作为词编码模块的网络结构。经过双向GRU模型可映射得到每个单词的新的词向量u_ij。同时，双向GRU将前向和后向的状态进行拼接。接着，引入随机初始化的t个上下文矩阵u_wt，将其与S2所得的词编码做softmax操作，根据公式

求出第t个词记忆矩阵，得到词记忆矩阵，其中L表示第L个分区。对其所有的记忆矩阵做加权得到增强词记忆矩阵

再将α和隐藏层的结果做点积并加权，生成具有高表征特性的句向量S_l。l表示第l个句向量。同理对上述所得句向量做句编码处理得到具有高表征的句编码并引入随机的句增强记忆矩阵，将其与上述所得到的句编码做softmax操作，生成具有高表征特性的文档向量T。上述上下文矩阵均可通过网络在训练过程中学习更新。

接着，将所述编码过程最后生成的文本向量作为解码器初始化参数传入生成模块，在向量中插入begin和end标签，表示开始和结束，并将标签begin作为输入参数。初始化后的生成模块运行一次时间步操作，并采用softmax计算出下一时刻概率最大的单词并输出。输入上一时刻的输出单词，同时神经网络系统通过反向传播自动更新整个神经网络权重参数，再运行一次时间步并做softmax计算输出下一个概率最大的单词。一直迭代上述过程，直到遇到end标签结束。此过程得到的文本摘要称为标准文摘。同时，对文本重新训练，使用普通的Seq2Seq模型，得到文本摘要，称为文摘的一个模糊表示。

最后，引入对抗学习，对抗学习模块示意图如图3所示。引入可调节的权重参数λ，衡量解码器的监督强度，原文和摘要越相关，监督学习的强度应该越强，λ越大。训练识别器，将上述得到的模糊表示和标准表示进行判别。与此同时，监督学习一边缩小这两个表示的距离，使它们越来越相近，阻止识别器区分它们。所以当识别器可以区分两者时，降低λ，反之增加λ。最终得到合适的λ值，此时训练出的文本摘要为最优解。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于对抗学习和分层神经网络的文本摘要生成系统，其特征在于，包括：判别器模块、预处理模块、词嵌入模块、句嵌入模块、生成模块和对抗学习模块，其中判别器模块用于对文本有效性进行判别，预处理模块用于将文本分词化并转化为独热编码one-hot向量，同时做分块处理；词嵌入模块用于利用双向长短记忆型神经网络对one-hot向量进行词编码处理，得到具有高表征的词编码并加入增强记忆矩阵与词编码做点积得到句向量；句嵌入模块利用双向长短记忆型神经网络对所得句向量进行句编码处理，得到具有高表征的句编码并加入增强记忆矩阵与句编码做点积得到文本向量；生成模块对所得文本向量进行解码操作并生成完整的文章摘要记为标准摘要；对抗学习模块对文本重新训练，使用传统的Seq2Seq模型，得到一个模糊表示；接着引入对抗学习，设置一个识别器将标准表示与模糊表示进行识别，调节参数λ缩小两者的距离，同时监督学习阻止他们接近，形成对抗，找到对抗平衡的λ时训练的文本摘要为最优结果。

2.根据权利要求1所述的一种基于对抗学习和分层神经网络的文本摘要生成系统，其特征在于，所述判别器模块对文本有效性进行判别具体包括：扫描文本，识别出<时间，地点，事件>的命名实体三元组，若三元组中任一元素为空，则判定为文本不完整，视为无效文本丢弃；否则将无效文本输入到所述词嵌入模块进行进一步处理。

3.根据权利要求1所述的一种基于对抗学习和分层神经网络的文本摘要生成系统，其特征在于，所述预处理模块将文本按句划分成n个数据块，对每个数据块做分词操作，并将每个词语初始化成独热编码的嵌入表示，记为w_ij，输入到词嵌入层，其中i表示第i句，j表示第i句中的第j个词。

4.一种基于权利要求1-3之一所述系统的文本摘要生成方法，其特征在于，包括以下步骤：

S2:将文本按句划分成n个数据块，对每个数据块做分词操作，并将每个词语初始化成one-hot编码的嵌入表示，记为w_ij，输入到词嵌入层，其中i表示第i句，j表示第i句中的第j个词；

求出第t个词记忆矩阵，得到词记忆矩阵，其中L表示第L个分区，u_ij表示每个单词的新的词向量，对其所有的注意力矩阵做加权得到增强词记忆矩阵

S5：同理对上述所得句向量做句编码处理得到具有高表征的句编码并引入随机的句增强记忆矩阵，将其与上述所得到的句编码做softmax操作，生成具有高表征特性的文本向量T；

S8：引入对抗学习机制，引入可调节的权重参数λ，衡量解码器的监督强度，原文和摘要越相关，监督学习的强度越强，λ越大，训练识别器，将上述得到的模糊表示和标准表示进行判别，与此同时，监督学习一边缩小这两个表示的距离，使它们越来越相近，阻止识别器区分它们，所以当识别器可以区分两者时，降低λ，反之增加λ，最终得到合适的λ值，此时训练出的文本摘要为最优解。

5.根据权利要求4所述的文本摘要生成方法，其特征在于，分层神经网络具有以下特性：句子由单词组成，文本由句子组成，据此构建自下而上的分层结构，将传统的seq2seq模型的编码器层分解为词嵌入层和句嵌入层，并引入增强记忆机制，首先判断其是否是有效文本，若是有效文本，将文本输入序列分成若干个数据块分别处理，同时在解码过程中引入对抗学习。

6.根据权利要求4所述的文本摘要生成方法，其特征在于，所述步骤S6将上述编码过程的最后一个状态即最后生成的文本向量T输入生成模块进行解码操作，生成文本摘要，记为标准表示，具体步骤为：

7.根据权利要求6所述的文本摘要生成方法，其特征在于，解码器的解码操作包括：输入文本向量T和begin标签，做softmax计算得出下一个要输出的单词的概率，输出最大概率的单词，将该单词将会在下一个时序的输入，再通过softmax计算得出下一个要输出的单词；以此类推，最终生成完整的文本摘要，神经网络通过当前状态利用反向传播自适应更新神经网络的权重参数。