CN109614480A

CN109614480A - 一种基于生成式对抗网络的自动摘要的生成方法及装置

Info

Publication number: CN109614480A
Application number: CN201811417886.4A
Authority: CN
Inventors: 刘进; 储玮; 周平义; 郭俊材; 余啸; 韩波
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2019-04-12
Anticipated expiration: 2038-11-26
Also published as: CN109614480B

Abstract

本发明提供了一种基于生成式对抗网络的自动摘要的生成方法及装置，其中的方法首先从问答社区上获取问题数据，并用脚本对数据进行清洗，划分训练集和测试集，建立词典并利用词典生成训练集句向量；再用生成式对抗网络模型对训练集中的句向量进行训练以得到合适的模型参数；最后利用训练得到的模型对测试集进行相似问题答案的自动摘要生成。实现了无监督的学习方式获取数据集以及提高自动摘要的生成效果的技术效果。

Description

一种基于生成式对抗网络的自动摘要的生成方法及装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于生成式对抗网络的自动摘要的生成方法及装置。

背景技术

随着计算机科学的发展，越来越多的开发者在网上交流问题，分享经验。网上众多的问答者社区成为了开发者们交流的主要平台。问答社区，即互动式知识问答分享平台，它与一般的问答系统有所不同，问答社区中的问题和答案都是由用户提出的，问答社区网站主要提供了搜索功能。这些社区中包含了海量数据，蕴含着巨大的资源。然而社区中的海量数据在开发者有针对性的寻找信息时造成了很大的干扰。虽然社区中的搜索引擎可以帮助进行相似问题搜索，但是搜索引擎只能返回一系列相似问题，并且搜索过程中搜索结果往往会出现答案重复，或者同一问题答案差异很大等情况。对于搜索返回的众多答案，开发者仍需亲自查看每个相似问题的答案，从中过滤无关信息，寻找有用的知识。因此，为了提升开发者的使用效率，自动为开发者生成搜索相关问题的答案摘要成为近些年来的研究热点。

目前，在自动摘要领域中，许多文本摘要方法已应用于不同的软件工程任务，旨在减少开发人员信息阅读量。有基于自动错误报告汇总的摘要生成方法，有基于语义搜索引擎框架的摘要生成方法，有基于检测社区问答场所中的高质量回答的摘要生成方法，有基于神经网络的摘要生成方法，还有基于文本特征的摘要生成方法。

本发明申请人在实施本发明的过程中，发现现有的基于自动错误报告汇总、语义搜索引擎框架、神经网络和文本特征的摘要生成方法至少存在如下问题：

(1)应用限制在相对较小的数据集中；

(2)神经网络大部分是需要进行有监督训练，数据集难以获取；

(3)它们是不可扩展的，并且不能够处理问答社区中的连续更新；

(4)实验结果并不理想。

由上可知，现有技术的方法存在数据集难以获取，生成效果不佳的技术问题。

发明内容

有鉴于此，本发明提供了一种基于生成式对抗网络的自动摘要的生成方法及装置，用以解决或者至少部分解决现有技术的方法存在数据集难以获取，生成效果不佳的技术问题。

本发明第一方面提供了一种基于生成式对抗网络的自动摘要的生成方法，包括：

步骤S1：从问答社区上获取问题数据；

步骤S2：对问题数据进行预处理；

步骤S3：将预处理后的问题数据划分为训练集和测试集；

步骤S4：对训练集构建词典；

步骤S5：利用构建的词典对训练集中的每个问题数据建立句向量；

步骤S6：利用预设生成式对抗网络模型对训练集中的句向量进行训练，获得训练后的模型；

步骤S7：将测试集中的问题数据输入所述训练后的模型，生成相似问题答案的自动摘要。

在一种实施方式中，步骤S2具体包括：

对每条问题数据进行数据清洗，去除问题中的标点符号，多余的空格和代码。

在一种实施方式中，步骤S4具体包括：

步骤S4.1：建立字典变量dict；

步骤S4.2：对于训练集train中的每个词W_i，如果W_i未出现在dict中，则将键值对{W_i：1}加入dict，如果W_i在dict中已存在，则对词典D中的W_i的值进行更新：{W_i：w+1}；

步骤S4.3：对dict中的词dict_i进行编号得到词典D。

在一种实施方式中，步骤S5具体包括：

对于每个问题数据中的单词，建立单词与词典之间的对应关系，具体为：对于第j个问题中的第i个单词W_ij，将其转化为在词典D中的编号。

在一种实施方式中，步骤S6具体包括：

步骤S6.1：采用LSTMs作为预设生成式对抗网络模型的产生模型，对于训练集中的一个问题，LSTMs产生的答案为s，训练集中的答案为u；

步骤S6.2：利用公式(1)计算LSTMs产生的答案s与训练集中的答案u的余弦相似度，

其中，y_s,y_u分别为s和u对应的句向量；

步骤S6.3：将C作为LSTMs产生的答案s的集合，并利用公式(2)计算与s对应的序列的排名分数:

其中，γ为预设的经验学习率，C'＝C∪{s}，表示所有的答案s'∈C’；

步骤S6.4：对于LSTMs产生的所有答案，利用公式(3)计算答案的排名：

步骤S6.5：通过上述的公式(1)、(2)和(3)，训练LSTMs使得其产生的s与u相似，并利用公式(4)进行优化，获得训练后的模型；

其中，s～P_h表示s属于人工编写的句子，s～G_θ表示s属于LSTMs生成的句子，C⁺、C^-表示不同类型输入句子对应的比较集，如果s是人工编写的数据，则C^-包含来自于G_θ的生成数据；如果s为生成的数据，则C⁺包含来自于P_h的人工编写的数据。

在一种实施方式中，在步骤S7之后，所述方法还包括：

计算生成候选摘要的评价指标ROUGE-N，

其中，n表示gram_n的长度，gram_n表示n元词，{ReferenceSummaries}表示参考摘要，Count_match(gram_n)表示候选摘要和参考摘要中同时出现gram_n的个数，Count(gram_n)表示参考摘要中出现的gram_n个数。

基于同样的发明构思，本发明第二方面提供了一种基于生成式对抗网络的自动摘要的生成装置，包括：

获取模块，用于从问答社区上获取问题数据；

预处理模块，用于对问题数据进行预处理；

划分模块，用于将预处理后的问题数据划分为训练集和测试集；

构建模块，用于对训练集构建词典；

建立模块，用于利用构建的词典对训练集中的每个问题数据建立句向量；

训练模块，用于利用预设生成式对抗网络模型对训练集中的句向量进行训练，获得训练后的模型；

生成模块，用于将测试集中的问题数据输入所述训练后的模型，生成相似问题答案的自动摘要。

在一种实施方式中，预处理模块具体用于：

在一种实施方式中，构建模块具体用于执行下述步骤：

步骤S4.1：建立字典变量dict；

步骤S4.3：对dict中的词dict_i进行编号得到词典D。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面的所述的方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

在本发明提供的方法，首先从问答社区上获取问题数据，并对问题数据进行预处理；然后将问题数据划分训练集和测试集，接着建立词典并利用词典生成训练集句向量；再用生成式对抗网络模型对训练集中的句向量进行训练以得到合适的模型参数；最后利用训练得到的模型对测试集进行相似问题答案的自动摘要生成。解决了现有技术的方法存在数据集难以获取，生成效果不佳的技术问题。

第一，本发明引入了生成式对抗网络模型，相比较其他生成模型(玻尔兹曼机和GSNs)来说，只用到了反向传播，而不需要复杂的马尔科夫链；第二，生成式对抗网络模型采用的是一种无监督的学习方式训练，可以被广泛用在无监督学习和半监督学习领域；第三，生成式对抗网络模型在图片处理中的迁移性，使得其用在自动摘要生成中也能有很好的迁移性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种基于生成式对抗网络的自动摘要的生成方法的流程图；

图2为生成式对抗网络模型的示意图；

图3为本发明实施例中一种基于生成式对抗网络的自动摘要的生成装置的结构框图；

图4为本发明实施例中计算机可读存储介质的结构图。

具体实施方式

本发明的目的在于针对目前问答社区技术问题答案的自动摘要生成方面的不足，提供了一种基于生成式对抗网络的问答社区问题答案自动摘要生成方法。该方法首先对问答社区中的问题数据，先进行数据预处理，从而建立语料库并划分训练集和测试集；然后对训练集构建词典，并利用构建的词典对训练集中的每个问题数据建立句向量；最后用生成式对抗网络模型对训练集中的句向量进行训练，利用训练完成的模型进行测试。

为了达到上述的目的，本发明的主要构思如下：首先从问答社区上获取问题数据，并用脚本对数据进行清洗，划分训练集和测试集，建立词典并利用词典生成训练集句向量；再用生成式对抗网络模型对训练集中的句向量进行训练以得到合适的模型参数；最后利用训练得到的模型对测试集进行相似问题答案的自动摘要生成。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于生成式对抗网络的自动摘要的生成方法，请参见图1，该方法包括：

首先执行步骤S1：从问答社区上获取问题数据。

具体来说，可以利用已有的框架或者工具从问答社区中获取问题数据，例如scrapy框架，它是用Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。问答社区可以从现有的问答社区进行选取，例如Stack Overflow，它是一个与程序相关的IT技术问答网站。用户可以在网站免费提交问题，浏览问题，索引相关内容，

然后执行步骤S2：对问题数据进行预处理。

具体来说，由于获取的问题数据可能存在重复或者错误，则需要对其进行预处理。例如数据清洗等。

在一种实施方式中，对每条问题数据进行数据清洗，去除问题中的标点符号，多余的空格和代码。

接下来执行步骤S3：将预处理后的问题数据划分为训练集和测试集。

具体来说，训练集和测试集的规模可以根据实际情况进行选取，例如选取70％作为训练集train，30％作为测试集test，或者将n个数据作为训练集train和m个数据作为测试集train，其中训练集和测试集中的文本数据均为一个问题对应一个答案，可以由人工编写。

然后执行步骤S4：对训练集构建词典。

在一种实施方式中，步骤S4具体包括：

步骤S4.1：建立字典变量dict；

步骤S4.3：对dict中的词dict_i进行编号得到词典D。

然后执行步骤S5：利用构建的词典对训练集中的每个问题数据建立句向量。

具体地，步骤S5具体包括：

具体来说，对于第j个问题中的第i个单词W_ij将其用W_ij在词典D中的编号来代替，采样形式如下：

train_j＝[1，2，11，32，35，25，68，37，…，66，89]。

接下来执行步骤S6：利用预设生成式对抗网络模型对训练集中的句向量进行训练，获得训练后的模型。

具体地，步骤S6具体包括：

其中，y_s,y_u分别为s和u对应的句向量；

步骤S6.3：将C作为LSTMs产生的答案s的集合，并利用公式(2)计算与s对应的序列的排名分数：

具体来说，LSTMs为长短记忆模型，为预设生成式对抗网络模型的一部分，生成式对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型，一种无监督学习的模型。请参见图2，为本发明实施例采用的预设生成式对抗网络模型的示意图，包括生成器和排序器，生成器G_θ即LSTMs，G_θ生成的所有答案句子作为训练完成的排序器R_φ的输入。R_φ引入训练集中的答案句子U，G_θ生成的答案句子经由R_φ处理后，可得到排序完成后的答案句子，排名靠前句子即所需答案句子。

其中，公式(2)是采用类似Softmax函数的方式计算排名分数，其中，Softmax函数是一种归一化指数函数。在计算出排名分数后，则可以根据公式(3)进行排名的计算。在具体的优化过程中，利用公式(4)进行优化训练，公式(4)可由前述的公式(1)(2)(3)可计算，使得三个公式中最大化θ，最小化φ。优化模型的参数，从而得到训练后的模型。为函数名，由括号中的两个变量为自变量，为人工编写的句子(即答案)的排名，为LSTMs生成句子的排名。

具体来说，通过前述的训练和优化，可以得到训练后的模型，则可以利用该模型来生成相似问题答案的自动摘要。由于采用的生成式对抗网络模型，是一种无监督的学习方式训练，可以被广泛用在无监督学习和半监督学习领域，从而解决现有技术中数据集难以获取的技术问题；并且可以利用生成式对抗网络模型在图片处理中的迁移性，使得其用在自动摘要生成中也能有很好的迁移性，从而提高自动摘要生成的效果。

在一种实施方式中，在步骤S7之后，所述方法还包括：

计算生成候选摘要的评价指标ROUGE-N，

其中，n表示gram_n的长度，gram_n表示n元词，{ReferenceSummaries}表示参考摘要，也就是事先获得的标准摘要，Count_match(gram_n)表示候选摘要和参考摘要中同时出现gram_n的个数，Count(gram_n)表示参考摘要中出现的gram_n个数。在具体的实施过程中，对所有测试集的生成候选摘要计算ROUGE-N并取平均ROUGE-N_Average，ROUGE-N_Average越大，则表明该生成式对抗网络效果越好。

举例来说，R1，R2为参考摘要，C1，C2为候选摘要，其具体形式如下：

R1:police killed the gunman.

R2:the gunman was shot down by police.

C1:police ended the gunman.

C2:the gunman murdered police.

则生成的候选摘要的评价指标为：

ROUGE-1(C1)＝(3+3)/(4+7)＝6/11

ROUGE-1(C2)＝(3+3)/(4+7)＝6/11

ROUGE-2(C1)＝(1+1)/(3+6)＝2/9

ROUGE-2(C2)＝(1+1)/(3+6)＝2/9

C1与C2的ROUGE-1、ROUGE-2分数相等，但是其含义不相同。

基于同一发明构思，本申请还提供了与实施例一中基于生成式对抗网络的自动摘要的生成方法对应的装置，详见实施例二。

实施例二

本实施例提供了一种基于生成式对抗网络的自动摘要的生成装置，请参见图3，该装置包括：

获取模块301，用于从问答社区上获取问题数据；

预处理模块302，用于对问题数据进行预处理；

划分模块303，用于将预处理后的问题数据划分为训练集和测试集；

构建模块304，用于对训练集构建词典；

建立模块305，用于利用构建的词典对训练集中的每个问题数据建立句向量；

训练模块306，用于利用预设生成式对抗网络模型对训练集中的句向量进行训练，获得训练后的模型；

生成模块307，用于将测试集中的问题数据输入所述训练后的模型，生成相似问题答案的自动摘要。

在一种实施方式中，预处理模块具体用于：

在一种实施方式中，构建模块具体用于执行下述步骤：

步骤S4.1：建立字典变量dict；

步骤S4.3：对dict中的词dict_i进行编号得到词典D。

在一种实施方式中，建立模块305具体用于：

在一种实施方式中，训练模块306具体用于执行下述步骤：

其中，y_s,y_u分别为s和u对应的句向量；

在一种实施方式中，还包括计算模块，用于：

计算生成候选摘要的评价指标ROUGE-N，

由于本发明实施例二所介绍的装置，为实施本发明实施例一中基于生成式对抗网络的自动摘要的生成方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

实施例三

基于同一发明构思，本申请还提供了一种计算机可读存储介质400，请参见图4，其上存储有计算机程序411，该程序被执行时实现实施例一中的方法。

由于本发明实施例三所介绍的计算机可读存储介质，为实施本发明实施例一中基于生成式对抗网络的自动摘要的生成方法所采用的计算机可读存储介质，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于生成式对抗网络的自动摘要的生成方法，其特征在于，包括：

步骤S1：从问答社区上获取问题数据；

步骤S2：对问题数据进行预处理；

步骤S3：将预处理后的问题数据划分为训练集和测试集；

步骤S4：对训练集构建词典；

2.如权利要求1所述的方法，其特征在于，步骤S2具体包括：

3.如权利要求1所述的方法，其特征在于，步骤S4具体包括：

步骤S4.1：建立字典变量dict；

步骤S4.3：对dict中的词dict_i进行编号得到词典D。

4.如权利要求3所述的方法，其特征在于，步骤S5具体包括：

5.如权利要求1所述的方法，其特征在于，步骤S6具体包括：

其中，y_s,y_u分别为s和u对应的句向量；

6.如权利要求1所述的方法，其特征在于，在步骤S7之后，所述方法还包括：

计算生成候选摘要的评价指标ROUGE-N，

7.一种基于生成式对抗网络的自动摘要的生成装置，其特征在于，包括：

获取模块，用于从问答社区上获取问题数据；

预处理模块，用于对问题数据进行预处理；

构建模块，用于对训练集构建词典；

8.如权利要求7所述的装置，其特征在于，预处理模块具体用于：

9.如权利要求7所述的装置，其特征在于，构建模块具体用于执行下述步骤：

步骤S4.1：建立字典变量dict；

步骤S4.3：对dict中的词dict_i进行编号得到词典D。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被执行时实现如权利要求1至6任一项权利要求所述的方法。