CN110196903A

CN110196903A - 一种用于为文章生成摘要的方法及系统

Info

Publication number: CN110196903A
Application number: CN201910371354.XA
Authority: CN
Inventors: 杨永全; 尹垄钧; 魏志强
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2019-09-03
Anticipated expiration: 2039-05-06
Also published as: CN110196903B

Abstract

本发明公开了一种用于为文章生成摘要的方法及系统，其中方法包括：对文章内容进行分词处理，所分出的每个词对应一个词向量，将分出的所有的词向量映入多维的词向量空间；对分出的每个词分配权重进行编码生成一个上下文向量，并且根据上下文向量进行解码，生成所述文章的初始摘要；分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，优化序列生成对抗网络SeqGan的判别器与生成器参数，训练完成后，通过序列生成对抗网络SeqGan的判别器对所述初始摘要进行识别；所述识别器对所述初始摘要识别的结果为符合要求时，则将所述初始摘要作为最终摘要。

Description

一种用于为文章生成摘要的方法及系统

技术领域

本发明涉及深度学习技术领域，更具体地，涉及一种用于为文章生成摘要的方法及系统。

背景技术

近年来，随着科学的进步以及科技的日益发达，从论文中获取摘要成为了需要关注的重点，在进行论文写作时，需要包含大量知识的论文中提炼出精度高、内容准确的摘要既费时又费力，能够精准的从论文中提取出精度高、内容准确的摘要就显得尤为重要，用户对论文摘要的提取需求体现在：

论文有数据量比较大的特性，用户在对论文进行概括总结摘要时，既费时又费力，能够快速提取出精度高、内容准确的摘要无疑是用户关注的重点。

因此，需要一种技术，以实现生成文章摘要的技术。

发明内容

本发明技术方案提供一种用于为文章生成摘要的方法及系统，以解决如何生成文章摘要的问题。

为了解决上述问题，本发明提供了一种用于为文章生成摘要的方法，所述方法包括：

对文章内容进行分词处理，所分出的每个词对应一个词向量，将分出的所有的词向量映入多维的词向量空间；

用于对分出的每个词分配权重并进行编码生成上下文向量，并且根据上下文向量进行解码，生成初始摘要；

分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，优化序列生成对抗网络SeqGan的判别器与生成器参数，训练完成后，通过序列生成对抗网络SeqGan的判别器对所述初始摘要进行识别；

所述识别器对所述初始摘要识别的结果为符合要求时，则将所述初始摘要作为最终摘要。

优选地，所述方法包括：

通过jieba分词工具对文章内容进行分词，然后通过词嵌入word embedding的方式对文章分出的每个词分配一个对应的词向量，将分出的所有的词向量映入多维的词向量空间；

在编码端Encoder通过注意力机制Attention对分好词的文章内容中的每个词分配权重并进行编码，生成一个上下文向量，再使用序列到序列集束搜索解码Seq2Seq withbeamsearch的解码方式，通过抽象的上下文向量不断解码生成初始摘要。

优选地，所述分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，优化序列生成对抗网络SeqGan的判别器与生成器参数，训练完成后，通过判别器对所述初始摘要进行识别，包括：

分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，训练序列生成对抗网络SeqGan的判别器与生成器，不断优化序列生成对抗网络SeqGan的判别器与生成器的参数；

训练完成后，将所述初始摘要放入序列生成对抗网络SeqGan中，通过判别器对所述初始摘要进行识别。

优选地，还包括：所述识别器对所述初始摘要识别的结果为不符合要求时，将所述初始摘要放入生成器中进行进一步优化，重复迭代直至判别器识别所述初始摘要符合要求。

优选地，所述分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，包括：

对所述文章的原摘要标识为“1”；

对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容标识为“0”。

基于本发明的另一方面，提供一种用于为文章生成摘要的系统，所述系统包括：

初始单元，用于对文章内容进行分词处理，所分出的每个词对应一个词向量，将分出的所有的词向量映入多维的词向量空间；

生成单元，用于对分出的每个词分配权重并进行编码生成上下文向量，并且根据上下文向量进行解码，生成初始摘要；

识别单元，用于分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，优化序列生成对抗网络SeqGan的判别器与生成器参数，训练完成后，通过序列生成对抗网络SeqGan的判别器对所述初始摘要进行识别；

确认单元，用于所述识别器对所述初始摘要识别的结果为符合要求时，则将所述初始摘要作为最终摘要。

优选地，包括：

所述初始单元还用于：通过jieba分词工具对文章内容进行分词，然后通过词嵌入word embedding的方式对文章分出的每个词分配一个对应的词向量，将分出的所有的词向量映入多维的词向量空间；

所述生成单元还用于：在编码端Encoder通过注意力机制Attention对分好词的文章内容中的每个词分配权重并进行编码，生成一个上下文向量，再使用序列到序列集束搜索解码Seq2Seq with beamsearch的解码方式，通过抽象的上下文向量不断解码生成初始摘要。

优选地，还包括优化单元，用于：所述识别器对所述初始摘要识别的结果为不符合要求时，将所述初始摘要放入生成器中进行进一步优化，重复迭代直至判别器识别所述初始摘要符合要求。

优选地，所述识别单元用于：分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始噪音数据生成的随机内容进行标识，还用于：

对所述文章的原摘要标识为“1”；

本发明技术方案提供一种用于为文章生成摘要的方法及系统，其中方法包括：对文章内容进行分词处理，所分出的每个词对应一个词向量，将分出的所有的词向量映入多维的词向量空间；用于对分出的每个词分配权重并进行编码生成上下文向量，并且根据上下文向量进行解码，生成初始摘要；分别对文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，优化序列生成对抗网络SeqGan的判别器与生成器参数，训练完成后，通过序列生成对抗网络SeqGan的判别器对初始摘要进行识别；识别器对初始摘要识别的结果为符合要求时，则将初始摘要作为最终摘要。本发明技术方案利用结合深度学习模型和强化学习的模型，强化学习对抗网络将深度学习模型输出的摘要进行不断循环迭代，直至找出针对于文章最优的摘要，以此来体现出该本发明技术方案的创新之处。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明优选实施方式的一种用于为文章生成摘要的方法流程图；

图2为根据本发明优选实施方式的一种用于为文章生成摘要的方法流程图；

图3为根据本发明优选实施方式的基于序列生成对抗网络SeqGan的算法原理图；

图4为根据本发明优选实施方式的基于序列到序列框架Seq2Seq(+注意力机制Attention的框架的摘要提取模型的算法流程图；

图5为根据本发明优选实施方式的基于序列生成对抗网络SeqGan的摘要优化模型算法流程示意图；以及

图6为根据本发明优选实施方式的一种用于为文章生成摘要的系统结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明优选实施方式的一种用于为文章生成摘要的方法流程图。本申请实施方式提出了一种针对于论文摘要的提取技术，本申请根据论文正文内容自动提取精简、准确且通顺流畅的论文摘要。整个过程省去了人工总结概括论文摘要的时间和精力，对用户来说既节省时间有节省精力，已经独立训练好了两个模型，对用户来说是一劳永逸的，整个过程对用户来说是完全透明化的，也就是说，当用户提取论文摘要时无需了解该发明的过程。本申请实施方式基于两个独立训练模型：基于序列到序列框架Seq2Seq+注意力机制Attention的框架的摘要提取模型和基于序列生成对抗网络SeqGan的摘要优化模型。本申请采用序列到序列框架Seq2Seq+注意力机制Attention的框架与SeqGan结合的方式生成摘要，算法思想是基于序列到序列框架Seq2Seq+注意力机制Attention的框架的摘要提取模型用于提取论文的初始摘要，初始摘要会包括重点的内容，但是通常会出现词语重复或语句衔接不通顺的情况，使用基于序列生成对抗网络SeqGan的摘要优化模型优化初始摘要，序列生成对抗网络SeqGan中的判别器会对摘要进行判定，若判别器认为摘要符合论文摘要语法结构，则直接输出摘要，否则将摘要放入生成器中进行进一步优化，重复迭代直至判别器判定其符合论文摘要语法结构，输出摘要。如图1所示，一种用于为文章生成摘要的方法，方法包括：

优选地，在步骤101：对文章内容进行分词处理，所分出的每个词对应一个词向量，将分出的所有的词向量映入多维的词向量空间。

本申请的方法包括：

在编码端Encoder通过注意力机制Attention对分好词的文章内容中的每个词分配权重并进行编码，生成一个上下文向量context vector，再使用序列到序列集束搜索解码Seq2Seq with beamsearch的解码方式，通过抽象的上下文向量不断解码生成初始摘要。

优选地，在步骤102：对分出的每个词分配权重并进行编码生成上下文向量，并且根据上下文向量进行解码，生成初始摘要。

本申请由已知的大量论文数据、基于序列到序列框架Seq2Seq+注意力机制Attention的框架的深度学习模型与基于序列生成对抗网络SeqGan的模型组成，其中：基于序列到序列框架Seq2Seq+注意力机制Attention的框架的摘要提取模型的提取过程为：首先将正文进行分词，通过词嵌入word embedding的方式将每一个词对应一个词向量，然后将每篇正文组成的数组放入序列到序列框架Seq2Seq框架中，使用注意力机制Attention，对每一个词分配一个影响输出结果的权重，在序列到序列框架Seq2Seq的编码Encoder端，之前的数组被编码为一个抽象的上下文向量context vector，在序列到序列框架Seq2Seq中的解码Decoder端，通过之前的上的下文向量context vector，使用序列到序列集束搜索解码Seq2Seq with beamsearch的解码方式，通过抽象的上下文向量不断解码生成初始摘要。

优选地，在步骤103：分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，优化序列生成对抗网络SeqGan的判别器与生成器参数；

训练完成后，通过判别器对初始摘要进行识别。本申请，分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，优化序列生成对抗网络SeqGan的判别器与生成器参数，训练完成后，通过判别器对初始摘要进行识别，包括：

分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，优化序列生成对抗网络SeqGan的判别器与生成器参数；

训练完成后，将初始摘要放入序列生成对抗网络SeqGan网络中，通过判别器对初始摘要进行识别。

优选地，分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，包括：对文章的原摘要标识为“1”；对序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容标识为“0”。

优选地，在步骤104：识别器对初始摘要识别的结果为符合要求时，则将初始摘要作为最终摘要。

优选地，方法还包括：识别器对初始摘要识别的结果为不符合要求时，将初始摘要放入生成器中进行进一步优化，重复迭代直至判别器识别初始摘要符合要求。如图5所示。

本申请基于序列生成对抗网络SeqGan的摘要优化模型的优化过程为：将初始摘要放入序列生成对抗网络SeqGan中，判别器对初始摘要进行判定，若判别器认为摘要符合论文摘要语法结构，则直接输出摘要，否则将摘要放入生成器中进行进一步优化，重复迭代直至判别器判定其符合论文摘要语法结构，输出摘要。

本申请的一种针对于论文的摘要提取技术，整篇论文中涉及大量的知识内容，而作为对比的论文摘要只需要其中最精简、概括性最高的内容即可。本申请利用深度学习与强化学习的相关算法模型相结合自动、快速、智能地提取通顺、流畅、概括性高的论文摘要。

图2为根据本发明优选实施方式的一种用于为文章生成摘要的方法流程图。如图2所示，本申请针对于论文的摘要提取技术，通过独立训练两个模型，一个基于序列到序列框架Seq2Seq+注意力机制Attention的框架的摘要提取模型用于提取初始摘要，另一个基于序列生成对抗网络SeqGan的摘要优化模型进行优化摘要，基于序列到序列框架Seq2Seq+注意力机制Attention的框架的摘要提取模型将论文正文在序列到序列框架序列到序列框架Seq2Seq中的编码Encoder端通过之前训练好的注意力机制Attention参数编码为一个抽象的上下文向量context vector，然后根据上下文向量context vector，在序列到序列框架Seq2Seq中的Decoder端不断解码生成初始摘要，即可能不符合预期标准的摘要；基于序列生成对抗网络SeqGan的摘要优化模型中的判别器对此摘要进行评判，若判别器认为摘要符合论文摘要语法结构，则直接输出摘要，否则将摘要放入生成器中进行进一步优化，重复迭代直至判别器判定其符合论文摘要语法结构，输出摘要。

本申请针对于论文的摘要提取技术，用户将论文正文内容作为输入，然后提取初始摘要的算法模型自动提取初始摘要，优化摘要的算法模型自动迭代优化摘要。

本申请提供一种针对于论文的摘要提取方法，主要包括已知的论文正文内容、基于序列到序列框架Seq2Seq+注意力机制Attention的框架的摘要提取模型和基于序列生成对抗网络SeqGan的摘要优化模型，三者之间相互连接，用户可以通过第一个模型获取论文正文内容的初始摘要，然后通过第二个模型获得优化后的摘要，即最终摘要。

本申请独立训练两个模型：基于序列到序列框架Seq2Seq+注意力机制Attention的框架的摘要提取模型和基于序列生成对抗网络SeqGan的摘要优化模型。如图4所示。

其中基于序列到序列框架Seq2Seq+注意力机制Attention的框架的摘要提取模型，为：将正文和摘要进行分词，通过词嵌入word embedding的方式将所有的词映入一个n维的词向量空间，每一个词对应一个词向量，每篇正文和摘要的词向量组成的数组被放入序列到序列框架Seq2Seq中，模型中加入桶机制bucket，因为正文与摘要是非对等长度对应，桶机制bucket可以允许输入输出序列长度不相等，并且使用注意力机制Attention，为每一篇论文的每一个词分配一个会影响输出结果的权重，在序列到序列框架Seq2Seq的编码Encoder端，之前的数组通过注意力机制Attention被编码为一个抽象的上下文向量context vector，在序列到序列框架Seq2Seq中的解码Decoder端，通过上下文向量contextvector进行解码，使用序列到序列集束搜索解码Seq2Seq with beamsearch的解码方式，在预测过程中，如果有一个单元cell解码错了词，那么错误便会一直累加，所以使用序列集束搜索解码beam-search的方法，通过抽象的上下文向量不断解码生成初始摘要。

图3为根据本发明优选实施方式的基于序列生成对抗网络SeqGan的算法原理图。如图3所示，基于序列生成对抗网络SeqGan的摘要优化模型为：

①判别器Discriminativemodel的训练：

要训练一个的判别器D，首先要通过随机初始化的生成器生成一些噪音数据，将原论文的摘要都打上标签为1，然后把所有噪音数据打上标签为0，很明显这里就已经默认真样本集所有的类标签都为1，而假样本集的所有类标签都为0。判别器的任务是分辨样本真假，此时问题就变成了一个简单的有监督的二分类问题，通过噪音数据和原论文中的摘要，使用最小化交叉熵来预训练判别器，这样就训练好了判别器。

②生成器Generative model的训练：

生成器是用来生成序列y_1：T＝(y₁，y₂…y_t…y_T)，y_t∈Y的，其中Y表示词典。首先通过初始化的生成器生成一个序列sequence，然后判别器会根据生成序列序列sequence给出一个回报reward作为反馈，从而通过增强学习的策略梯度Policy Gradient，更新生成器的参数。

算法的目标是最大化序列的回报reward，即每一个词的回报reward都要最大，每一个词的回报reward＝这个词的概率×这个词的Q值，所以要求Q值。

因为生成器是一个接一个生成词组成序列的，但是判别器需要对一个完整的序列进行评分，需要使用了蒙特卡洛树搜索MCTS，已经生成了的序列y_1：t-1，对于下一个要产生的词y_t的Q值不能直接计算，而是将后面所有可能的序列补全，即随意补全后面所有空余的词组成一个序列，然后计算所有的可能的序列squence的回报reward，然后求平均值，作为y_t的Q值

更优的生成器会生成更好的序列sequence，和真实数据一起训练判别器，于是判别器会变得更加准确，去判断生成器的生成以及更新生成器的参数，不断迭代训练直至最优。

图6为根据本发明优选实施方式的一种用于为文章生成摘要的系统结构图。如图6所示，一种用于为文章生成摘要的系统，系统包括：

初始单元601，用于对文章内容进行分词处理，所分出的每个词对应一个词向量，将分出的所有的词向量映入多维的词向量空间；

生成单元602，用于对分出的每个词分配权重并进行编码生成上下文向量，并且根据上下文向量进行解码，生成初始摘要；

识别单元603，用于分别对文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，优化序列生成对抗网络SeqGan的判别器与生成器参数，训练完成后，通过序列生成对抗网络SeqGan的判别器对初始摘要进行识别；

确认单元604，用于识别器对初始摘要识别的结果为符合要求时，则将初始摘要作为最终摘要。

优选地，系统包括：

初始单元601还用于：通过jieba分词工具对文章内容进行分词，然后通过词嵌入word embedding的方式对文章分出的每个词分配一个对应的词向量，将分出的所有的词向量映入多维的词向量空间；

生成单元602还用于：在编码端Encoder通过注意力机制Attention对分好词的文章内容中的每个词分配权重并进行编码，生成一个上下文向量，再使用序列到序列集束搜索解码Seq2Seq with beamsearch的解码方式，通过抽象的上下文向量不断解码生成初始摘要。

优选地，分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，优化序列生成对抗网络SeqGan的判别器与生成器参数，训练完成后，通过判别器对初始摘要进行识别，包括：

优选地，系统还包括优化单元，用于：识别器对初始摘要识别的结果为不符合要求时，将初始摘要放入生成器中进行进一步优化，重复迭代直至判别器识别初始摘要符合要求。

优选地，系统识别单元603用于：分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始噪音数据生成的随机内容进行标识，还用于：

对文章的原摘要标识为“1”；

对文章的序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容标识为“0”。

本发明优选实施方式的一种用于为文章生成摘要的系统600与本发明另一优选实施方式的一种用于为文章生成摘要的方法100相对应，在此不再进行赘述。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

Claims

1.一种用于为文章生成摘要的方法，所述方法包括：

对分出的每个词分配权重并进行编码生成上下文向量，并且根据上下文向量进行解码，生成初始摘要；

2.根据权利要求1所述的方法，所述方法包括：

3.根据权利要求1所述的方法，所述分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，优化序列生成对抗网络SeqGan的判别器与生成器参数，训练完成后，通过判别器对所述初始摘要进行识别，包括：

4.根据权利要求1所述的方法，还包括：所述识别器对所述初始摘要识别的结果为不符合要求时，将所述初始摘要放入生成器中进行进一步优化，重复迭代直至判别器识别所述初始摘要符合要求。

5.根据权利要求1所述的方法，所述分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，包括：

对所述文章的原摘要标识为“1”；

6.一种用于为文章生成摘要的系统，所述系统包括：

7.根据权利要求6所述的系统，包括：

所述初始单元还用于：通过jieba分词工具对文章内容进行分词，然后通过词嵌入wordembedding的方式对文章分出的每个词分配一个对应的词向量，将分出的所有的词向量映入多维的词向量空间；

8.根据权利要求1所述的系统，所述分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始化参数和随机噪音数据生成的随机内容进行标识，优化序列生成对抗网络SeqGan的判别器与生成器参数，训练完成后，通过判别器对所述初始摘要进行识别，包括：

9.根据权利要求6所述的系统，还包括优化单元，用于：所述识别器对所述初始摘要识别的结果为不符合要求时，将所述初始摘要放入生成器中进行进一步优化，重复迭代直至判别器识别所述初始摘要符合要求。

10.根据权利要求6所述的系统，所述识别单元用于：分别对所述文章的原摘要和序列生成对抗网络SeqGan通过初始噪音数据生成的随机内容进行标识，还用于：

对所述文章的原摘要标识为“1”；