CN109766432B

CN109766432B - 一种基于生成对抗网络的中文摘要生成方法和装置

Info

Publication number: CN109766432B
Application number: CN201810765723.9A
Authority: CN
Inventors: 曹亚男; 徐灏; 尚燕敏; 刘燕兵; 谭建龙; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2021-03-30
Anticipated expiration: 2038-07-12
Also published as: CN109766432A

Abstract

本发明涉及一种基于生成对抗网络的中文摘要生成方法和装置。该方法包括：1)通过对给定的中文数据集进行预处理操作形成训练集；2)构建基于生成对抗网络的中文摘要生成模型，并使用训练集对中文摘要生成模型进行训练；3)将待生成摘要的中文文本输入到训练完毕的中文摘要生成模型，得到对应的摘要。本发明使用判别器最小化误差来代替最大生成摘要概率的框架；特别设计了由3个LSTMs组成的判别器，能够更好地捕获特征，辅助分类效果；提出使用以字为单位结合上下文，能够有效提升文本摘要的效率。本发明能够对大规模中文文本进行摘要的自动生成，生成的摘要更自然、连贯，具有可读性。

Description

一种基于生成对抗网络的中文摘要生成方法和装置

技术领域

本发明属于人工智能、深度学习技术领域，具体涉及一种基于生成对抗网络的中文摘要生成方法和装置。

背景技术

随着大数据时代的到来，互联网的信息正在以指数级别的增长，尤其是文本信息。如何快速地从冗余的文本中获取关键信息显得非常重要。然而，以人工的方式来构建摘要是昂贵且不切实际的。因此，构建一个成本低、规模大，效率高的自动摘要系统是具有实际用用价值的。

目前中文摘要生成方法可以分为“提取式摘要”和“生成式摘要”。提取式摘要方法有基于分类的贝叶斯、最大熵和SVM，基于图的TextRank和LexRank方法。由于生成式摘要是基于理解而生成的，更符合人类的思维模式，因此，该方法是目前研究的趋势。生成式摘要主要基于深度学习的seq2seq模型实现的。此外，为了加强机器学习，会加入Attention机制，LVT方法等。

虽然基于seq2seq的模型在摘要生成领域取得了一定的成绩，但是最大释然估计(MLE)的优化方法与实际评价指标不一致，使得生成的摘要质量不高。尤其在中文长文本摘要的应用上，复杂的结构和长距离的上下文依赖使得生成式摘要的效果很差。

发明内容

为了解决优化方法与实际评价指标不一致问题，本发明提出一种基于生成对抗网络的中文摘要生成方法和装置。该方法将三个长短时记忆神经网络(LSTMs)作为判别器来判别摘要是机器生成还是人工摘要，将差距信息反馈给seq2seq模型，使得seq2seq模型能生成更接近人工摘要的摘要。

本发明采用的技术方案如下：

一种基于生成对抗网络的中文摘要生成方法，包括以下步骤：

1)通过对给定的中文数据集进行预处理操作形成训练集；

2)构建基于生成对抗网络的中文摘要生成模型，并使用训练集对中文摘要生成模型进行训练；

3)将待生成摘要的中文文本输入到训练完毕的中文摘要生成模型，得到对应的摘要。

进一步地，步骤1)所述预处理包括：

1.1)将给定的中文数据集的文本和摘要一一对应，形成文本摘要对；

1.2)同时对文本和摘要去除特殊字符、表情符、全角字符；

1.3)将步骤1.2)得到的数据集，使用“TAGURL”替换所有超链接URL，使用“TAGDATA”替换所有日期，使用“TAGNUM”替换所有数字，使用“TAGPUN”替换所有标点符号；

1.4)将1.3)得到的数据按字切开，并使用停用字典过滤停用词；

1.5)将文本摘要对一一对应地同时混洗，并按比例切分成训练集、验证集和测试集；

1.6)根据训练数据集构建一定长度的字典，并将文本和摘要中的字没有出现在字典中的表示成“UNK”，在文档开始添加标记“BOS”，结束添加“EOS”，将文本和摘要分别处理成固定长度，多余的字直接截断，小于长度的用占位符“PAD”填充；

1.7)将文本摘要数据集中的每个字用一个固定维度k的字向量表示，包括步骤1.6)中的标记。

进一步地，步骤2)所述基于生成对抗网络的中文摘要生成模型包括生成器和判别器；所述生成器是典型的seq2seq框架并加入Attention机制，用来根据输入文本生成摘要，其中编码器使用GRU单元，解码器使用Attention模型；所述判别器使用3个LSTMs，其中两个LSTMs分别对文本和摘要提取特征求共享参数，最后一个LSTMs根据文本摘要的特征对其分类，判别该文本摘要对是人工摘要还是生成摘要；所述生成器的目标是使生成的摘要让判别器无法区分，所述判别器的目标是尽可能区分生成摘要和人工摘要。

进一步地，所述生成器中的编码器可以使用卷积神经网络结构代替；所述判别器中的LSTMs可以使用GRU单元或者卷积神经网络结构代替。

进一步地，步骤2)所述基于生成对抗网络的中文摘要生成模型的训练过程包括：

2.1)将训练集的文本输入到生成器，预训练生成器；

2.2)预训练判别器：使用生成器生成k/2个文本摘要对，并同时从人工文本摘要对随机采样得到k/2个，将k个文本输入到第一个LSTMs中，得到k个文本隐变量列表；将k个摘要输入到第二个LSTMs中，得到k个摘要隐变量列表；将一一对应的k个文本和摘要隐变量，成对输入到第三个LSTMs中，最后经过softmax层，输出类标签，0表示机器生成，1表示人工摘要；

2.3)训练判别器；

2.4)训练生成器；

2.5)重复步骤2.3)和2.4)多次，使用验证集评测模型；

2.6)重复步骤2.3)至2.5)，直至模型在训练集上收敛且在验证集上最优。

进一步地，步骤2)得到训练完毕的中文摘要生成模型后，使用测试集并采用Rouge评价指标测试模型的性能，包括以下步骤：

a)将测试集的文本输入到训练好的中文摘要生成模型中，得到对应的摘要；

b)将测试集的文本对应的人工摘要与步骤a)对应的生成摘要一一对应，得到

c)将

送入到Rouge工具包评测Rouge-1，Rouge-2和Rouge-L的F-测度。

一种基于生成对抗网络的中文摘要生成装置，其包括：

预处理模块，负责通过对给定的中文数据集进行预处理操作形成训练集；

模型构建及训练模块，负责构建基于生成对抗网络的中文摘要生成模型，并使用训练集对中文摘要生成模型进行训练；

摘要生成模块，负责将待生成摘要的中文文本输入到训练完毕的中文摘要生成模型，得到对应的摘要。

本发明的关键点是：1、提出了使用判别器最小化误差来代替最大生成摘要概率的框架；2、特别设计了由3个LSTMs组成的判别器，能够更好地捕获特征，辅助分类效果；3、提出使用以字为单位结合上下文，会有效提升文本摘要的效率。

本发明是生成式摘要系统，能够对大规模中文文本进行摘要的自动生成，相比于抽取式，生成的摘要更自然、连贯，具有可读性；而相对于常见的生成式摘要系统，本发明在中文摘要生成上具有以下两个方面的重要作用和优点：

1.提出了一种基于生成对抗网络的摘要生成方法，使用一个判别器最小化误差来代替最大化生成摘要概率，使得优化目标与评价标准一致，得到更高的性能；

2.针对中文结构复杂，字典庞大，使用以字为单位结合上下文机制，大大降低了字典，减少未登录词的出现。

附图说明

图1是本发明的基于生成对抗网络的中文摘要生成方法的步骤流程图。

图2是本发明的基于生成对抗网络的中文摘要生成模型的示意图。

图3是本发明的基于生成对抗网络的中文摘要生成模型的判别器结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本实施例的基于生成对抗网络的中文摘要生成方法，所述摘要生成过程如图1所示，包括以下步骤：

步骤1，对给定的中文数据集进行单词分割、去停用词、特殊词标记等数据预处理操作，将数据混洗后划分为训练集、验证集和测试集。

步骤2，构建基于生成对抗网络的中文摘要生成模型，并使用步骤1的训练集对中文摘要生成模型进行训练。

步骤3，待中文摘要生成模型训练完毕，用测试集测试模型的性能，可以使用Rouge评价指标。在实际应用中，在交互界面输入一条文本，得到一条对应的摘要。

所述步骤1中，对原始数据进行预处理过程如下：

步骤1.1，将给定的原始中文数据集进行文本和摘要一一对应，形成文本摘要对。

步骤1.2，同时对文本和摘要去除特殊字符、表情符、全角字符等。

步骤1.3，将步骤1.2得到的数据集，使用“TAGURL”替换所有超链接URL,使用“TAGDATA”替换所有日期，使用“TAGNUM”替换所有数字，使用“TAGPUN”替换所有标点符号。

步骤1.4，将1.3清洗后的数据按字切开，并使用停用字典过滤停用词。

步骤1.5，将文本摘要对一一对应地同时混洗，按比例切分成训练集、验证集和测试集。

步骤1.6，根据训练数据集(以下文LCSTS为例)构建一定长度的字典，并将文本和摘要中的字没有出现在字典中的表示成“UNK”，在文档开始添加标记“BOS”，结束添加“EOS”，将文本和摘要分别处理成固定长度，多余的字直接截断，小于长度的用占位符“PAD”填充。

步骤1.7，使用Gensim的WordEmbedding工具包，将文本摘要数据集中的每个字用一个固定维度k的字向量表示，包括步骤1.6的特殊标记。

所述步骤2中，将原始文本摘要对表示成(X,Y)，其中X＝{x₁,x₂,…,x_n}表示文本X包含n个词，其中x_i表示第i个词，Y＝{y₁,y₂,…,y_m}表示人工摘要，其中y_j表示第j个词。目标是生成摘要，用

表示。其中每一个词都用一个固定维数k的词向量表示。

基于生成对抗网络的中文摘要生成模型如图2所示，包括生成器和判别器。其中：

生成器：生成器是一个典型的seq2seq框架并加入Attention机制，用来根据输入文本来生成摘要。其中Encoder(编码器)使用GRU(门控循环)单元，Decoder(解码器)使用了Attention(注意力)模型。

判别器：判别器使用3个LSTMs，其中两个LSTMs分别对文本和摘要提取特征求共享参数，最后一个LSTMs根据文本摘要的特征对其分类，判别该文本摘要对是人工摘要还是生成摘要。

记人工文本摘要对(X,Y)满足P_r(X,Y)分布，机器生成文本摘要对

满足

分布。那么生成器的目标是生成的摘要让判别器无法区分，而判别器的目标是尽可能区分生成摘要还是人工摘要。那么，基于生成对抗网络的方法要同时最优化这两个目标，那么统一的优化目标函数是：

其中，G表示生成器，D表示判别器，V(D,G)表示生成器与判别器的代价函数，E表示期望。

此时，生成器尽可能生产高质量的摘要来欺骗判别器，同时判别器尽可能区分生成摘要，最终达到两者最优。

生成器的详细设置如下：

在Encoder(编码)阶段，将当前时刻t的输入的文本字向量表示为x_t，上一时刻的隐层输出记为h_t-1，那么当前时刻的隐层输出为h_t＝f(h_t-1,x_t)；

在Decoder(解码)阶段，根据文本输入和前i-1个字的信息来生成第i个字，可以表示为条件概率

其中s_i是解码器生成第i个字的隐藏状态，其计算公式是：

c_i是y_i对应的上下文向量，根据Encoder阶段的隐藏向量(h₁,…,h_n)序列加权求和，其计算公式是：

α_ij表示第i个输出在第j个输入上分配的注意力。

判别器的结构图如图3所示，包含三个LSTMs结构和一个softmax层，最后输出每一个文本摘要对是否来自于人工摘要。该图3中，“文本-摘要”表示原始文本摘要对；(X₁,Y₁)～(X_k,Y_k)表示每一对文本摘要对；W、U是LSTMs的参数；h表示每一个词经过LSTMs的隐状态；H_content表示文本经过LSTMs的隐状态；

表示k个样本的文本对应隐状态；H_summary表示摘要经过LSTMs的隐状态

H表示两个LSTMs的k个样本隐状态组合的张量；h₁′～h₂′_k表示k个样本对应的文本、摘要隐状态平铺成2k个向量；空白小方框表示神经单元。

所述步骤2中，基于生成对抗网络的中文摘要模型的训练过程如下步骤：

步骤2.1，使用步骤1处理好的训练集的文本输入到生成器，预训练生成器；

步骤2.2，预训练判别器，使用生成器生成k/2个文本摘要对，并同时从人工文本摘要对随机采样得到k/2个，将k个文本输入到第一个LSTMs中，得到k个文本隐变量列表，将k个摘要输入到第二个LSTMs中，得到k个摘要隐变量列表。将一一对应的k个文本和摘要隐变量，成对输入到第三个LSTMs中，最后经过softmax层，输出类标签，0表示机器生成摘要，1表示人工摘要。

步骤2.3，训练判别器，详细步骤如下：

步骤2.3.1：随机采样k/2个文本，依次输入到生成器中，得到对应的摘要

得到文本摘要对

其中G(·|X)表示已知文本X的条件概率，G表示生成器函数。

步骤2.3.2：从训练集中随机采样k/2个文本摘要对(X,Y)；

步骤2.3.3：使用(X,Y)作为正样本，

作为负样本来更新D；

步骤2.3.4：重复步骤2.3.1至步骤2.3.3D次；

步骤2.4，训练生成器，详细步骤如下：

步骤2.4.1：随机采样k/2个文本，依次输入到生成器中，得到对应的摘要

得到文本摘要对

步骤2.4.2：从训练集中随机采样k/2个文本摘要对(X,Y)；

步骤2.4.3：将

输入到判别器，得到反馈

步骤2.4.4：使用反馈r更新生成器；

步骤2.4.5：使用步骤2.4.2的文本摘要对(X,Y)更新生成器；

步骤2.4.6：重复步骤2.4.1至步骤2.4.5G次；

步骤2.5，重复步骤2.3和2.4多次，使用验证集评测模型；

步骤2.6，重复步骤2.3至2.5，直至模型在训练集上收敛且在验证集上最优。

所述步骤3中，评测模型如下所示：

步骤3.1，将测试集的文本输入到步骤2训练好的模型中，得到对应的摘要；

步骤3.2，将测试集文本对应的人工摘要与步骤3.1对应的生成摘要一一对应，得到

步骤3.5，将

送入到Rouge工具包评测Rouge-1，Rouge-2和Rouge-L的F-测度；

所述步骤3中，应用模型步骤类同于步骤3.1。

下面结合具体的数据集来对本发明作进一步的说明：

采用的中文数据集是比较广泛采用的大规模短文本摘要数据集(LCSTS)(BaotianHu,Qingcai Chen et al.:LCSTS:A Large Scale Chinese Short Text SummarizationDataset.(2015))，包含240万来自新浪微博的文本摘要对。

步骤1，对给定的中文新闻数据集进行单词分割、去停用词、特殊词标记等数据预处理操作，将数据混洗后划分为训练集、验证集和测试集。

步骤1.1，将给定的原始中文数据集进行文本和摘要一一对应。如(文本，摘要)＝(“本文总结了十个可穿戴产品的设计原则，而这些原则，同样也是笔者认为是这个行业最吸引人的地方：1.为人们解决重复性问题；2.从人开始，而不是从机器开始；3.要引起注意，但不要刻意；4.提升用户能力，而不是取代人”，“可穿戴技术十大设计原则”)

步骤1.2，同时对文本和摘要去除特殊字符、表情符、全角字符等，如“￥”“【嘻嘻】”，“300”等。

步骤1.5，LCSTS数据集已经切分为训练集、验证集和测试集，故此步骤省略。

步骤1.6，根据数据集构建3万的字典，并将文本和摘要中的字没有出现在字典中的表示成“UNK”，在文档开始添加标记“BOS”，结束添加“EOS”，将文本长度最长限制为140字，摘要为30字，多余的字直接截断，小于长度的用占位符“PAD”填充。

步骤1.7，使用Gensim的WordEmbedding工具包，将文本摘要数据集中的每个字用一个512维的字向量表示，如步骤1.1的文本对可以表示为(X,Y)＝({x₁,…,x₁₄₀},{y₁,…,y₃₀})，每一个x_i或y_i都是一个512维的向量。

步骤2，构建基于生成对抗网络的中文摘要生成模型，并使用步骤1的训练集对模型训练。

步骤2.1，使用步骤1处理好的训练集的文本输入到生成器，预训练生成器；如同时输入64组文本，按照最大释然估计方案最大化生成摘要概率来预训练模型，如此重复训练生成器1000次。

步骤2.2，预训练判别器，随机采样64个文本，输入到步骤1预训练好的生成器中，得到对应的摘要，并同时随机采样64组文本摘要对，组合成128组文本摘要对，将128个文本输入到第一个LSTMs中，得到128个文本隐变量列表

将128个摘要输入到第二个LSTMs中，得到128个摘要隐变量列表

将文本摘要的特征一一对应

成对输入到第三个LSTMs中，最后经过softmax层，输出类标签，-1表示机器生成，1表示人工摘要，并使用最小化误差来优化判别器，如此重复训练500次。

步骤2.3，训练判别器，详细步骤如下：

步骤2.3.1：随机采样64个文本，依次输入到生成器中，得到对应的摘要

得到文本摘要对

步骤2.3.2：从训练集中随机采样64个文本摘要对(X,Y)；

步骤2.3.3：使用(X,Y)作为正样本，

作为负样本，最小化类标签的错误率来更新D；

步骤2.3.4：重复步骤2.3.1至步骤2.3.3 5次。

步骤2.4，训练生成器，详细步骤如下：

步骤2.4.1：随机采样64个文本，依次输入到生成器中，得到对应的摘要

得到文本摘要对

步骤2.4.2：从训练集中随机采样64个文本摘要对(X,Y)；

步骤2.4.3：将

输入到判别器，得到反馈r；

步骤2.4.4：使用反馈r更新生成器；

步骤2.4.5：使用步骤2.4.2的文本摘要对(X,Y)更新生成器。

步骤2.5，重复步骤2.3和2.4 1000次，使用验证集评测模型。

为了比较本发明的基于生成对抗网络的中文摘要生成方法(简记为GAN)相较于现有直接才有最大释然估计的方法的优缺点，现分别采用原始seq2seq模型(Abs)，seq2seq模型+Attention机制(Abs+)以及分别以字(char)、词(word)为单位做了实验，记录各个模型对测试集生成摘要的Rouge分的F-测度，实验结果如表1所示：

表1各模型分别以字词为单位的Rouge分的F-测度

系统	Rouge-1	Rouge-2	Rouge-L
				Abs(word)	17.7	8.5	15.8
Abs(char)	21.5	8.9	18.6
				Abs+(word)	26.8	16.1	24.1
Abs+(char)	29.9	17.4	27.2
				GAN(word)	31.9	17.5	27.5
GAN(char)	39.4	21.7	29.1

实验结果表明基于生成对抗网络的方法各个评价值远超原来对比方法，尤其是以字为单位时，Rouge-1高达39.4，进而证明了本发明提出方法的有效性。

在实际应用中，在交互界面输入一条文本，得到一条对应的摘要：

例如输入文本：今天有传在某市某小区，某人因从事违法活动被捕的消息。下午该市警方官方微博发布声明通报情况，证实该人为XXX。XXX伙同另外6人，于某日晚在某市某小区内从事违法活动，6人全部被警方抓获，且当事人对犯案事实供认不讳。

得到摘要：某市警方确认XXX从事违法活动被捕，警方抓获TAGNUM人。

可以从实际案例中得出，本发明所生成的摘要具有很好的连贯性、易于理解，接近人工摘要。

本法另一实施例提供一种基于生成对抗网络的中文摘要生成装置，其包括：

本发明中，生成器中的编码器(Encoder)可以使用卷积神经网络结构(CNN)代替；判别器中的LSTMs同样可以更换为门控循环单元(GRU)或者卷积神经网络结构(CNN)结构。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于生成对抗网络的中文摘要生成方法，其特征在于，包括以下步骤：

1)通过对给定的中文数据集进行预处理操作形成训练集；

2)构建基于生成对抗网络的中文摘要生成模型，并使用训练集对中文摘要生成模型进行训练；所述基于生成对抗网络的中文摘要生成模型包括生成器和判别器；所述生成器是典型的seq2seq框架并加入Attention机制，用来根据输入文本生成摘要，其中编码器使用GRU单元，解码器使用Attention模型；所述判别器使用3个LSTMs，其中两个LSTMs分别对文本和摘要提取特征求共享参数，最后一个LSTMs根据文本摘要的特征对其分类，判别该文本摘要对是人工摘要还是生成摘要；所述生成器的目标是使生成的摘要让判别器无法区分，所述判别器的目标是尽可能区分生成摘要和人工摘要；

2.根据权利要求1所述的方法，其特征在于，步骤1)所述预处理包括：

1.2)同时对文本和摘要去除特殊字符、表情符、全角字符；

3.根据权利要求1所述的方法，其特征在于，所述生成器中的编码器使用卷积神经网络结构代替；所述判别器中的LSTMs使用GRU单元或者卷积神经网络结构代替。

4.根据权利要求1所述的方法，其特征在于，所述生成器的设置如下：

a)在编码阶段，将当前时刻t输入的文本字向量表示为x_t，上一时刻的隐层输出记为h_t-1，那么当前时刻的隐层输出为h_t＝f(h_t-1,x_t)；

b)在解码阶段，根据文本输入和前i-1个字的信息来生成第i个字，将其表示为条件概率