CN109766432B - 一种基于生成对抗网络的中文摘要生成方法和装置 - Google Patents

一种基于生成对抗网络的中文摘要生成方法和装置 Download PDF

Info

Publication number
CN109766432B
CN109766432B CN201810765723.9A CN201810765723A CN109766432B CN 109766432 B CN109766432 B CN 109766432B CN 201810765723 A CN201810765723 A CN 201810765723A CN 109766432 B CN109766432 B CN 109766432B
Authority
CN
China
Prior art keywords
abstract
text
chinese
training
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810765723.9A
Other languages
English (en)
Other versions
CN109766432A (zh
Inventor
曹亚男
徐灏
尚燕敏
刘燕兵
谭建龙
郭莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201810765723.9A priority Critical patent/CN109766432B/zh
Publication of CN109766432A publication Critical patent/CN109766432A/zh
Application granted granted Critical
Publication of CN109766432B publication Critical patent/CN109766432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于生成对抗网络的中文摘要生成方法和装置。该方法包括:1)通过对给定的中文数据集进行预处理操作形成训练集;2)构建基于生成对抗网络的中文摘要生成模型,并使用训练集对中文摘要生成模型进行训练;3)将待生成摘要的中文文本输入到训练完毕的中文摘要生成模型,得到对应的摘要。本发明使用判别器最小化误差来代替最大生成摘要概率的框架;特别设计了由3个LSTMs组成的判别器,能够更好地捕获特征,辅助分类效果;提出使用以字为单位结合上下文,能够有效提升文本摘要的效率。本发明能够对大规模中文文本进行摘要的自动生成,生成的摘要更自然、连贯,具有可读性。

Description

一种基于生成对抗网络的中文摘要生成方法和装置
技术领域
本发明属于人工智能、深度学习技术领域,具体涉及一种基于生成对抗网络的中文摘要生成方法和装置。
背景技术
随着大数据时代的到来,互联网的信息正在以指数级别的增长,尤其是文本信息。如何快速地从冗余的文本中获取关键信息显得非常重要。然而,以人工的方式来构建摘要是昂贵且不切实际的。因此,构建一个成本低、规模大,效率高的自动摘要系统是具有实际用用价值的。
目前中文摘要生成方法可以分为“提取式摘要”和“生成式摘要”。提取式摘要方法有基于分类的贝叶斯、最大熵和SVM,基于图的TextRank和LexRank方法。由于生成式摘要是基于理解而生成的,更符合人类的思维模式,因此,该方法是目前研究的趋势。生成式摘要主要基于深度学习的seq2seq模型实现的。此外,为了加强机器学习,会加入Attention机制,LVT方法等。
虽然基于seq2seq的模型在摘要生成领域取得了一定的成绩,但是最大释然估计(MLE)的优化方法与实际评价指标不一致,使得生成的摘要质量不高。尤其在中文长文本摘要的应用上,复杂的结构和长距离的上下文依赖使得生成式摘要的效果很差。
发明内容
为了解决优化方法与实际评价指标不一致问题,本发明提出一种基于生成对抗网络的中文摘要生成方法和装置。该方法将三个长短时记忆神经网络(LSTMs)作为判别器来判别摘要是机器生成还是人工摘要,将差距信息反馈给seq2seq模型,使得seq2seq模型能生成更接近人工摘要的摘要。
本发明采用的技术方案如下:
一种基于生成对抗网络的中文摘要生成方法,包括以下步骤:
1)通过对给定的中文数据集进行预处理操作形成训练集;
2)构建基于生成对抗网络的中文摘要生成模型,并使用训练集对中文摘要生成模型进行训练;
3)将待生成摘要的中文文本输入到训练完毕的中文摘要生成模型,得到对应的摘要。
进一步地,步骤1)所述预处理包括:
1.1)将给定的中文数据集的文本和摘要一一对应,形成文本摘要对;
1.2)同时对文本和摘要去除特殊字符、表情符、全角字符;
1.3)将步骤1.2)得到的数据集,使用“TAGURL”替换所有超链接URL,使用“TAGDATA”替换所有日期,使用“TAGNUM”替换所有数字,使用“TAGPUN”替换所有标点符号;
1.4)将1.3)得到的数据按字切开,并使用停用字典过滤停用词;
1.5)将文本摘要对一一对应地同时混洗,并按比例切分成训练集、验证集和测试集;
1.6)根据训练数据集构建一定长度的字典,并将文本和摘要中的字没有出现在字典中的表示成“UNK”,在文档开始添加标记“BOS”,结束添加“EOS”,将文本和摘要分别处理成固定长度,多余的字直接截断,小于长度的用占位符“PAD”填充;
1.7)将文本摘要数据集中的每个字用一个固定维度k的字向量表示,包括步骤1.6)中的标记。
进一步地,步骤2)所述基于生成对抗网络的中文摘要生成模型包括生成器和判别器;所述生成器是典型的seq2seq框架并加入Attention机制,用来根据输入文本生成摘要,其中编码器使用GRU单元,解码器使用Attention模型;所述判别器使用3个LSTMs,其中两个LSTMs分别对文本和摘要提取特征求共享参数,最后一个LSTMs根据文本摘要的特征对其分类,判别该文本摘要对是人工摘要还是生成摘要;所述生成器的目标是使生成的摘要让判别器无法区分,所述判别器的目标是尽可能区分生成摘要和人工摘要。
进一步地,所述生成器中的编码器可以使用卷积神经网络结构代替;所述判别器中的LSTMs可以使用GRU单元或者卷积神经网络结构代替。
进一步地,步骤2)所述基于生成对抗网络的中文摘要生成模型的训练过程包括:
2.1)将训练集的文本输入到生成器,预训练生成器;
2.2)预训练判别器:使用生成器生成k/2个文本摘要对,并同时从人工文本摘要对随机采样得到k/2个,将k个文本输入到第一个LSTMs中,得到k个文本隐变量列表;将k个摘要输入到第二个LSTMs中,得到k个摘要隐变量列表;将一一对应的k个文本和摘要隐变量,成对输入到第三个LSTMs中,最后经过softmax层,输出类标签,0表示机器生成,1表示人工摘要;
2.3)训练判别器;
2.4)训练生成器;
2.5)重复步骤2.3)和2.4)多次,使用验证集评测模型;
2.6)重复步骤2.3)至2.5),直至模型在训练集上收敛且在验证集上最优。
进一步地,步骤2)得到训练完毕的中文摘要生成模型后,使用测试集并采用Rouge评价指标测试模型的性能,包括以下步骤:
a)将测试集的文本输入到训练好的中文摘要生成模型中,得到对应的摘要;
b)将测试集的文本对应的人工摘要与步骤a)对应的生成摘要一一对应,得到
Figure GDA0001815035160000031
c)将
Figure GDA0001815035160000032
送入到Rouge工具包评测Rouge-1,Rouge-2和Rouge-L的F-测度。
一种基于生成对抗网络的中文摘要生成装置,其包括:
预处理模块,负责通过对给定的中文数据集进行预处理操作形成训练集;
模型构建及训练模块,负责构建基于生成对抗网络的中文摘要生成模型,并使用训练集对中文摘要生成模型进行训练;
摘要生成模块,负责将待生成摘要的中文文本输入到训练完毕的中文摘要生成模型,得到对应的摘要。
本发明的关键点是:1、提出了使用判别器最小化误差来代替最大生成摘要概率的框架;2、特别设计了由3个LSTMs组成的判别器,能够更好地捕获特征,辅助分类效果;3、提出使用以字为单位结合上下文,会有效提升文本摘要的效率。
本发明是生成式摘要系统,能够对大规模中文文本进行摘要的自动生成,相比于抽取式,生成的摘要更自然、连贯,具有可读性;而相对于常见的生成式摘要系统,本发明在中文摘要生成上具有以下两个方面的重要作用和优点:
1.提出了一种基于生成对抗网络的摘要生成方法,使用一个判别器最小化误差来代替最大化生成摘要概率,使得优化目标与评价标准一致,得到更高的性能;
2.针对中文结构复杂,字典庞大,使用以字为单位结合上下文机制,大大降低了字典,减少未登录词的出现。
附图说明
图1是本发明的基于生成对抗网络的中文摘要生成方法的步骤流程图。
图2是本发明的基于生成对抗网络的中文摘要生成模型的示意图。
图3是本发明的基于生成对抗网络的中文摘要生成模型的判别器结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本实施例的基于生成对抗网络的中文摘要生成方法,所述摘要生成过程如图1所示,包括以下步骤:
步骤1,对给定的中文数据集进行单词分割、去停用词、特殊词标记等数据预处理操作,将数据混洗后划分为训练集、验证集和测试集。
步骤2,构建基于生成对抗网络的中文摘要生成模型,并使用步骤1的训练集对中文摘要生成模型进行训练。
步骤3,待中文摘要生成模型训练完毕,用测试集测试模型的性能,可以使用Rouge评价指标。在实际应用中,在交互界面输入一条文本,得到一条对应的摘要。
所述步骤1中,对原始数据进行预处理过程如下:
步骤1.1,将给定的原始中文数据集进行文本和摘要一一对应,形成文本摘要对。
步骤1.2,同时对文本和摘要去除特殊字符、表情符、全角字符等。
步骤1.3,将步骤1.2得到的数据集,使用“TAGURL”替换所有超链接URL,使用“TAGDATA”替换所有日期,使用“TAGNUM”替换所有数字,使用“TAGPUN”替换所有标点符号。
步骤1.4,将1.3清洗后的数据按字切开,并使用停用字典过滤停用词。
步骤1.5,将文本摘要对一一对应地同时混洗,按比例切分成训练集、验证集和测试集。
步骤1.6,根据训练数据集(以下文LCSTS为例)构建一定长度的字典,并将文本和摘要中的字没有出现在字典中的表示成“UNK”,在文档开始添加标记“BOS”,结束添加“EOS”,将文本和摘要分别处理成固定长度,多余的字直接截断,小于长度的用占位符“PAD”填充。
步骤1.7,使用Gensim的WordEmbedding工具包,将文本摘要数据集中的每个字用一个固定维度k的字向量表示,包括步骤1.6的特殊标记。
所述步骤2中,将原始文本摘要对表示成(X,Y),其中X={x1,x2,…,xn}表示文本X包含n个词,其中xi表示第i个词,Y={y1,y2,…,ym}表示人工摘要,其中yj表示第j个词。目标是生成摘要,用
Figure GDA0001815035160000041
表示。其中每一个词都用一个固定维数k的词向量表示。
基于生成对抗网络的中文摘要生成模型如图2所示,包括生成器和判别器。其中:
生成器:生成器是一个典型的seq2seq框架并加入Attention机制,用来根据输入文本来生成摘要。其中Encoder(编码器)使用GRU(门控循环)单元,Decoder(解码器)使用了Attention(注意力)模型。
判别器:判别器使用3个LSTMs,其中两个LSTMs分别对文本和摘要提取特征求共享参数,最后一个LSTMs根据文本摘要的特征对其分类,判别该文本摘要对是人工摘要还是生成摘要。
记人工文本摘要对(X,Y)满足Pr(X,Y)分布,机器生成文本摘要对
Figure GDA0001815035160000055
满足
Figure GDA0001815035160000056
分布。那么生成器的目标是生成的摘要让判别器无法区分,而判别器的目标是尽可能区分生成摘要还是人工摘要。那么,基于生成对抗网络的方法要同时最优化这两个目标,那么统一的优化目标函数是:
Figure GDA0001815035160000051
其中,G表示生成器,D表示判别器,V(D,G)表示生成器与判别器的代价函数,E表示期望。
此时,生成器尽可能生产高质量的摘要来欺骗判别器,同时判别器尽可能区分生成摘要,最终达到两者最优。
生成器的详细设置如下:
在Encoder(编码)阶段,将当前时刻t的输入的文本字向量表示为xt,上一时刻的隐层输出记为ht-1,那么当前时刻的隐层输出为ht=f(ht-1,xt);
在Decoder(解码)阶段,根据文本输入和前i-1个字的信息来生成第i个字,可以表示为条件概率
Figure GDA0001815035160000052
其中si是解码器生成第i个字的隐藏状态,其计算公式是:
Figure GDA0001815035160000053
ci是yi对应的上下文向量,根据Encoder阶段的隐藏向量(h1,…,hn)序列加权求和,其计算公式是:
Figure GDA0001815035160000054
αij表示第i个输出在第j个输入上分配的注意力。
判别器的结构图如图3所示,包含三个LSTMs结构和一个softmax层,最后输出每一个文本摘要对是否来自于人工摘要。该图3中,“文本-摘要”表示原始文本摘要对;(X1,Y1)~(Xk,Yk)表示每一对文本摘要对;W、U是LSTMs的参数;h表示每一个词经过LSTMs的隐状态;Hcontent表示文本经过LSTMs的隐状态;
Figure GDA0001815035160000057
表示k个样本的文本对应隐状态;Hsummary表示摘要经过LSTMs的隐状态
Figure GDA0001815035160000058
H表示两个LSTMs的k个样本隐状态组合的张量;h1′~h2k表示k个样本对应的文本、摘要隐状态平铺成2k个向量;空白小方框表示神经单元。
所述步骤2中,基于生成对抗网络的中文摘要模型的训练过程如下步骤:
步骤2.1,使用步骤1处理好的训练集的文本输入到生成器,预训练生成器;
步骤2.2,预训练判别器,使用生成器生成k/2个文本摘要对,并同时从人工文本摘要对随机采样得到k/2个,将k个文本输入到第一个LSTMs中,得到k个文本隐变量列表,将k个摘要输入到第二个LSTMs中,得到k个摘要隐变量列表。将一一对应的k个文本和摘要隐变量,成对输入到第三个LSTMs中,最后经过softmax层,输出类标签,0表示机器生成摘要,1表示人工摘要。
步骤2.3,训练判别器,详细步骤如下:
步骤2.3.1:随机采样k/2个文本,依次输入到生成器中,得到对应的摘要
Figure GDA0001815035160000061
得到文本摘要对
Figure GDA0001815035160000062
其中G(·|X)表示已知文本X的条件概率,G表示生成器函数。
步骤2.3.2:从训练集中随机采样k/2个文本摘要对(X,Y);
步骤2.3.3:使用(X,Y)作为正样本,
Figure GDA0001815035160000063
作为负样本来更新D;
步骤2.3.4:重复步骤2.3.1至步骤2.3.3D次;
步骤2.4,训练生成器,详细步骤如下:
步骤2.4.1:随机采样k/2个文本,依次输入到生成器中,得到对应的摘要
Figure GDA0001815035160000064
得到文本摘要对
Figure GDA0001815035160000065
步骤2.4.2:从训练集中随机采样k/2个文本摘要对(X,Y);
步骤2.4.3:将
Figure GDA0001815035160000066
输入到判别器,得到反馈
Figure GDA0001815035160000067
步骤2.4.4:使用反馈r更新生成器;
步骤2.4.5:使用步骤2.4.2的文本摘要对(X,Y)更新生成器;
步骤2.4.6:重复步骤2.4.1至步骤2.4.5G次;
步骤2.5,重复步骤2.3和2.4多次,使用验证集评测模型;
步骤2.6,重复步骤2.3至2.5,直至模型在训练集上收敛且在验证集上最优。
所述步骤3中,评测模型如下所示:
步骤3.1,将测试集的文本输入到步骤2训练好的模型中,得到对应的摘要;
步骤3.2,将测试集文本对应的人工摘要与步骤3.1对应的生成摘要一一对应,得到
Figure GDA0001815035160000068
步骤3.5,将
Figure GDA0001815035160000069
送入到Rouge工具包评测Rouge-1,Rouge-2和Rouge-L的F-测度;
所述步骤3中,应用模型步骤类同于步骤3.1。
下面结合具体的数据集来对本发明作进一步的说明:
采用的中文数据集是比较广泛采用的大规模短文本摘要数据集(LCSTS)(BaotianHu,Qingcai Chen et al.:LCSTS:A Large Scale Chinese Short Text SummarizationDataset.(2015)),包含240万来自新浪微博的文本摘要对。
步骤1,对给定的中文新闻数据集进行单词分割、去停用词、特殊词标记等数据预处理操作,将数据混洗后划分为训练集、验证集和测试集。
步骤1.1,将给定的原始中文数据集进行文本和摘要一一对应。如(文本,摘要)=(“本文总结了十个可穿戴产品的设计原则,而这些原则,同样也是笔者认为是这个行业最吸引人的地方:1.为人们解决重复性问题;2.从人开始,而不是从机器开始;3.要引起注意,但不要刻意;4.提升用户能力,而不是取代人”,“可穿戴技术十大设计原则”)
步骤1.2,同时对文本和摘要去除特殊字符、表情符、全角字符等,如“¥”“【嘻嘻】”,“300”等。
步骤1.3,将步骤1.2得到的数据集,使用“TAGURL”替换所有超链接URL,使用“TAGDATA”替换所有日期,使用“TAGNUM”替换所有数字,使用“TAGPUN”替换所有标点符号。
步骤1.4,将1.3清洗后的数据按字切开,并使用停用字典过滤停用词。
步骤1.5,LCSTS数据集已经切分为训练集、验证集和测试集,故此步骤省略。
步骤1.6,根据数据集构建3万的字典,并将文本和摘要中的字没有出现在字典中的表示成“UNK”,在文档开始添加标记“BOS”,结束添加“EOS”,将文本长度最长限制为140字,摘要为30字,多余的字直接截断,小于长度的用占位符“PAD”填充。
步骤1.7,使用Gensim的WordEmbedding工具包,将文本摘要数据集中的每个字用一个512维的字向量表示,如步骤1.1的文本对可以表示为(X,Y)=({x1,…,x140},{y1,…,y30}),每一个xi或yi都是一个512维的向量。
步骤2,构建基于生成对抗网络的中文摘要生成模型,并使用步骤1的训练集对模型训练。
步骤2.1,使用步骤1处理好的训练集的文本输入到生成器,预训练生成器;如同时输入64组文本,按照最大释然估计方案最大化生成摘要概率来预训练模型,如此重复训练生成器1000次。
步骤2.2,预训练判别器,随机采样64个文本,输入到步骤1预训练好的生成器中,得到对应的摘要,并同时随机采样64组文本摘要对,组合成128组文本摘要对,将128个文本输入到第一个LSTMs中,得到128个文本隐变量列表
Figure GDA0001815035160000071
将128个摘要输入到第二个LSTMs中,得到128个摘要隐变量列表
Figure GDA0001815035160000072
将文本摘要的特征一一对应
Figure GDA0001815035160000073
成对输入到第三个LSTMs中,最后经过softmax层,输出类标签,-1表示机器生成,1表示人工摘要,并使用最小化误差来优化判别器,如此重复训练500次。
步骤2.3,训练判别器,详细步骤如下:
步骤2.3.1:随机采样64个文本,依次输入到生成器中,得到对应的摘要
Figure GDA0001815035160000081
得到文本摘要对
Figure GDA0001815035160000082
步骤2.3.2:从训练集中随机采样64个文本摘要对(X,Y);
步骤2.3.3:使用(X,Y)作为正样本,
Figure GDA0001815035160000083
作为负样本,最小化类标签的错误率来更新D;
步骤2.3.4:重复步骤2.3.1至步骤2.3.3 5次。
步骤2.4,训练生成器,详细步骤如下:
步骤2.4.1:随机采样64个文本,依次输入到生成器中,得到对应的摘要
Figure GDA0001815035160000084
得到文本摘要对
Figure GDA0001815035160000085
步骤2.4.2:从训练集中随机采样64个文本摘要对(X,Y);
步骤2.4.3:将
Figure GDA0001815035160000086
输入到判别器,得到反馈r;
步骤2.4.4:使用反馈r更新生成器;
步骤2.4.5:使用步骤2.4.2的文本摘要对(X,Y)更新生成器。
步骤2.5,重复步骤2.3和2.4 1000次,使用验证集评测模型。
步骤2.6,重复步骤2.3至2.5,直至模型在训练集上收敛且在验证集上最优。
为了比较本发明的基于生成对抗网络的中文摘要生成方法(简记为GAN)相较于现有直接才有最大释然估计的方法的优缺点,现分别采用原始seq2seq模型(Abs),seq2seq模型+Attention机制(Abs+)以及分别以字(char)、词(word)为单位做了实验,记录各个模型对测试集生成摘要的Rouge分的F-测度,实验结果如表1所示:
表1各模型分别以字词为单位的Rouge分的F-测度
系统 Rouge-1 Rouge-2 Rouge-L
Abs(word) 17.7 8.5 15.8
Abs(char) 21.5 8.9 18.6
Abs+(word) 26.8 16.1 24.1
Abs+(char) 29.9 17.4 27.2
GAN(word) 31.9 17.5 27.5
GAN(char) 39.4 21.7 29.1
实验结果表明基于生成对抗网络的方法各个评价值远超原来对比方法,尤其是以字为单位时,Rouge-1高达39.4,进而证明了本发明提出方法的有效性。
在实际应用中,在交互界面输入一条文本,得到一条对应的摘要:
例如输入文本:今天有传在某市某小区,某人因从事违法活动被捕的消息。下午该市警方官方微博发布声明通报情况,证实该人为XXX。XXX伙同另外6人,于某日晚在某市某小区内从事违法活动,6人全部被警方抓获,且当事人对犯案事实供认不讳。
得到摘要:某市警方确认XXX从事违法活动被捕,警方抓获TAGNUM人。
可以从实际案例中得出,本发明所生成的摘要具有很好的连贯性、易于理解,接近人工摘要。
本法另一实施例提供一种基于生成对抗网络的中文摘要生成装置,其包括:
预处理模块,负责通过对给定的中文数据集进行预处理操作形成训练集;
模型构建及训练模块,负责构建基于生成对抗网络的中文摘要生成模型,并使用训练集对中文摘要生成模型进行训练;
摘要生成模块,负责将待生成摘要的中文文本输入到训练完毕的中文摘要生成模型,得到对应的摘要。
本发明中,生成器中的编码器(Encoder)可以使用卷积神经网络结构(CNN)代替;判别器中的LSTMs同样可以更换为门控循环单元(GRU)或者卷积神经网络结构(CNN)结构。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (9)

1.一种基于生成对抗网络的中文摘要生成方法,其特征在于,包括以下步骤:
1)通过对给定的中文数据集进行预处理操作形成训练集;
2)构建基于生成对抗网络的中文摘要生成模型,并使用训练集对中文摘要生成模型进行训练;所述基于生成对抗网络的中文摘要生成模型包括生成器和判别器;所述生成器是典型的seq2seq框架并加入Attention机制,用来根据输入文本生成摘要,其中编码器使用GRU单元,解码器使用Attention模型;所述判别器使用3个LSTMs,其中两个LSTMs分别对文本和摘要提取特征求共享参数,最后一个LSTMs根据文本摘要的特征对其分类,判别该文本摘要对是人工摘要还是生成摘要;所述生成器的目标是使生成的摘要让判别器无法区分,所述判别器的目标是尽可能区分生成摘要和人工摘要;
3)将待生成摘要的中文文本输入到训练完毕的中文摘要生成模型,得到对应的摘要。
2.根据权利要求1所述的方法,其特征在于,步骤1)所述预处理包括:
1.1)将给定的中文数据集的文本和摘要一一对应,形成文本摘要对;
1.2)同时对文本和摘要去除特殊字符、表情符、全角字符;
1.3)将步骤1.2)得到的数据集,使用“TAGURL”替换所有超链接URL,使用“TAGDATA”替换所有日期,使用“TAGNUM”替换所有数字,使用“TAGPUN”替换所有标点符号;
1.4)将1.3)得到的数据按字切开,并使用停用字典过滤停用词;
1.5)将文本摘要对一一对应地同时混洗,并按比例切分成训练集、验证集和测试集;
1.6)根据训练数据集构建一定长度的字典,并将文本和摘要中的字没有出现在字典中的表示成“UNK”,在文档开始添加标记“BOS”,结束添加“EOS”,将文本和摘要分别处理成固定长度,多余的字直接截断,小于长度的用占位符“PAD”填充;
1.7)将文本摘要数据集中的每个字用一个固定维度k的字向量表示,包括步骤1.6)中的标记。
3.根据权利要求1所述的方法,其特征在于,所述生成器中的编码器使用卷积神经网络结构代替;所述判别器中的LSTMs使用GRU单元或者卷积神经网络结构代替。
4.根据权利要求1所述的方法,其特征在于,所述生成器的设置如下:
a)在编码阶段,将当前时刻t输入的文本字向量表示为xt,上一时刻的隐层输出记为ht-1,那么当前时刻的隐层输出为ht=f(ht-1,xt);
b)在解码阶段,根据文本输入和前i-1个字的信息来生成第i个字,将其表示为条件概率
Figure FDA0002782024220000011
其中si是解码器生成第i个字的隐藏状态,其计算公式是:
Figure FDA0002782024220000012
ci是yi对应的上下文向量,根据Encoder阶段的隐藏向量(h1,…,hn)序列加权求和,其计算公式是:
Figure FDA0002782024220000021
αij表示第i个输出在第j个输入上分配的注意力。
5.根据权利要求1所述的方法,其特征在于,步骤2)所述基于生成对抗网络的中文摘要生成模型的训练过程包括:
2.1)将训练集的文本输入到生成器,预训练生成器;
2.2)预训练判别器:使用生成器生成k/2个文本摘要对,并同时从人工文本摘要对随机采样得到k/2个,将k个文本输入到第一个LSTMs中,得到k个文本隐变量列表;将k个摘要输入到第二个LSTMs中,得到k个摘要隐变量列表;将一一对应的k个文本和摘要隐变量,成对输入到第三个LSTMs中,最后经过softmax层,输出类标签,0表示机器生成,1表示人工摘要;
2.3)训练判别器;
2.4)训练生成器;
2.5)重复步骤2.3)和2.4)多次,使用验证集评测模型;
2.6)重复步骤2.3)至2.5),直至模型在训练集上收敛且在验证集上最优。
6.根据权利要求5所述的方法,其特征在于,步骤2.3)所述训练判别器包括以下步骤:
2.3.1)随机采样k/2个文本,依次输入到生成器中,得到对应的摘要
Figure FDA0002782024220000022
得到文本摘要对
Figure FDA0002782024220000023
2.3.2)从训练集中随机采样k/2个文本摘要对(X,Y);
2.3.3)使用(X,Y)作为正样本,
Figure FDA0002782024220000024
作为负样本来更新D;
2.3.4)重复步骤2.3.1)至步骤2.3.3)D次。
7.根据权利要求5所述的方法,其特征在于,步骤2.4)所述训练生成器包括以下步骤:
2.4.1)随机采样k/2个文本,依次输入到生成器中,得到对应的摘要
Figure FDA0002782024220000025
得到文本摘要对
Figure FDA0002782024220000026
2.4.2)从训练集中随机采样k/2个文本摘要对(X,Y);
2.4.3)将
Figure FDA0002782024220000027
输入到判别器,得到反馈
Figure FDA0002782024220000028
2.4.4)使用反馈r更新生成器;
2.4.5)使用步骤2.4.2)的文本摘要对(X,Y)更新生成器;
2.4.6)重复步骤2.4.1)至步骤2.4.5)G次。
8.根据权利要求1所述的方法,其特征在于,步骤2)得到训练完毕的中文摘要生成模型后,使用测试集并采用Rouge评价指标测试模型的性能,包括以下步骤:
a)将测试集的文本输入到训练好的中文摘要生成模型中,得到对应的摘要;
b)将测试集的文本对应的人工摘要与步骤a)对应的生成摘要一一对应,得到
Figure FDA0002782024220000031
c)将
Figure FDA0002782024220000032
送入到Rouge工具包评测Rouge-1,Rouge-2和Rouge-L的F-测度。
9.一种采用权利要求1~8中任一权利要求所述方法的基于生成对抗网络的中文摘要生成装置,其特征在于,包括:
预处理模块,负责通过对给定的中文数据集进行预处理操作形成训练集;
模型构建及训练模块,负责构建基于生成对抗网络的中文摘要生成模型,并使用训练集对中文摘要生成模型进行训练;
摘要生成模块,负责将待生成摘要的中文文本输入到训练完毕的中文摘要生成模型,得到对应的摘要。
CN201810765723.9A 2018-07-12 2018-07-12 一种基于生成对抗网络的中文摘要生成方法和装置 Active CN109766432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810765723.9A CN109766432B (zh) 2018-07-12 2018-07-12 一种基于生成对抗网络的中文摘要生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810765723.9A CN109766432B (zh) 2018-07-12 2018-07-12 一种基于生成对抗网络的中文摘要生成方法和装置

Publications (2)

Publication Number Publication Date
CN109766432A CN109766432A (zh) 2019-05-17
CN109766432B true CN109766432B (zh) 2021-03-30

Family

ID=66449094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810765723.9A Active CN109766432B (zh) 2018-07-12 2018-07-12 一种基于生成对抗网络的中文摘要生成方法和装置

Country Status (1)

Country Link
CN (1) CN109766432B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188172B (zh) * 2019-05-31 2022-10-28 清华大学 基于文本的事件检测方法、装置、计算机设备及存储介质
CN110245708B (zh) * 2019-06-18 2021-05-18 浪潮集团有限公司 一种基于gan网络的技术文档术语解释生成方法及装置
CN110457483B (zh) * 2019-06-21 2022-02-18 浙江大学 一种基于神经主题模型的长文本生成方法
CN110347819A (zh) * 2019-06-21 2019-10-18 同济大学 一种基于正负样本对抗训练的文本摘要生成方法
CN110704606B (zh) * 2019-08-19 2022-05-31 中国科学院信息工程研究所 一种基于图文融合的生成式摘要生成方法
CN110717333B (zh) * 2019-09-02 2024-01-16 平安科技(深圳)有限公司 文章摘要自动生成方法、装置及计算机可读存储介质
CN111008277B (zh) * 2019-10-30 2020-11-03 创意信息技术股份有限公司 一种自动文本摘要方法
CN111046178B (zh) * 2019-11-29 2023-06-20 北京邮电大学 一种文本序列生成方法及其系统
CN111563367A (zh) * 2020-05-06 2020-08-21 首都师范大学 基于FocalGAN的短文本自动生成方法、装置、设备及存储介质
CN112328750A (zh) * 2020-11-26 2021-02-05 上海天旦网络科技发展有限公司 训练文本判别模型的方法及系统
CN112487134A (zh) * 2020-12-08 2021-03-12 武汉大学 一种基于极简摘要策略的科技文本问题方法抽取的方法
CN113128214B (zh) * 2021-03-17 2022-05-06 重庆邮电大学 一种基于bert预训练模型的文本摘要生成方法
CN113032569A (zh) * 2021-04-09 2021-06-25 中南大学 一种基于语义相似度的中文自动文本摘要评价方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN107784099A (zh) * 2017-10-24 2018-03-09 济南浪潮高新科技投资发展有限公司 一种自动生成中文新闻摘要的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8666916B2 (en) * 2011-07-07 2014-03-04 Yahoo! Inc. Method for summarizing event-related texts to answer search queries
US9881082B2 (en) * 2016-06-20 2018-01-30 International Business Machines Corporation System and method for automatic, unsupervised contextualized content summarization of single and multiple documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN107784099A (zh) * 2017-10-24 2018-03-09 济南浪潮高新科技投资发展有限公司 一种自动生成中文新闻摘要的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于注意力机制的评论摘要生成;苏放等;《北京邮电大学学报》;20180630;第7-13页 *

Also Published As

Publication number Publication date
CN109766432A (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
CN109766432B (zh) 一种基于生成对抗网络的中文摘要生成方法和装置
Wang et al. An LSTM approach to short text sentiment classification with word embeddings
Ruder et al. Character-level and multi-channel convolutional neural networks for large-scale authorship attribution
Zhou et al. Linguistic steganography based on adaptive probability distribution
Lin et al. A post-processing method for detecting unknown intent of dialogue system via pre-trained deep neural network classifier
Islam et al. Using social networks to detect malicious bangla text content
Tang et al. Learning sentence representation for emotion classification on microblogs
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN110457711B (zh) 一种基于主题词的社交媒体事件主题识别方法
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
Khatun et al. Authorship Attribution in Bangla literature using Character-level CNN
Sadiq et al. High dimensional latent space variational autoencoders for fake news detection
CN113254582A (zh) 一种基于预训练模型的知识驱动对话方法
CN114462385A (zh) 一种文本分段方法及装置
Wang et al. Cross-modal generative augmentation for visual question answering
Guo et al. Supervised contrastive learning with term weighting for improving Chinese text classification
Yildiz A comparative study of author gender identification
Du et al. A topic recognition method of news text based on word embedding enhancement
Diwan et al. Fingerprinting fine-tuned language models in the wild
Ouyang et al. Gated pos-level language model for authorship verification
CN113282746B (zh) 一种网络媒体平台变体评论对抗文本生成方法
Liu et al. Noise-resistant multimodal transformer for emotion recognition
Prasanthi et al. A Novel Approach for Sentiment Analysis on social media using BERT & ROBERTA Transformer-Based Models
CN113032558A (zh) 融合维基知识的变分半监督百度百科分类方法
Ameur et al. Domain adaptation approach for Arabic sarcasm detection in hotel reviews based on hybrid learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant