CN110134780B

CN110134780B - 文档摘要的生成方法、装置、设备、计算机可读存储介质

Info

Publication number: CN110134780B
Application number: CN201810151330.9A
Authority: CN
Inventors: 秦添轶; 张永伟; 董滨; 姜珊珊; 张佳师
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2023-11-24
Anticipated expiration: 2038-02-08
Also published as: CN110134780A; JP6693582B2; JP2019139772A

Abstract

本发明提供了一种文档摘要的生成方法、装置、设备、计算机可读存储介质，属于数据处理技术领域。该方法包括：利用训练数据训练得到带有注意力矩阵的神经网络模型，训练数据包括至少一组第一原句及其对应的摘要；将待处理文档的每一第二原句输入神经网络模型，得到每一第二原句对应的摘要；根据所述待处理文档的每一第二原句与其对应的摘要之间的注意力矩阵建立短语注意力表；从所述待处理文档中选取最初的短语，根据所述短语注意力表对每一所述最初的短语进行扩展，得到扩展后的多个短语候选集，将每个所述短语候选集中的短语聚合成句子，生成所述待处理文档的摘要。本发明生成的文档摘要精炼，准确，可读性好，并且文档摘要中不存在冗余信息。

Description

文档摘要的生成方法、装置、设备、计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，特别是指一种文档摘要的生成方法、装置、设备、计算机可读存储介质。

背景技术

随着互联网技术的迅速发展，越来越多的用户倾向于通过互联网查看新闻信息，目前用户通过移动终端例如手机查看互联网上提供的新闻信息是一种常用方式。然而随着科技的飞速发展，每天在互联网上更新的新闻量非常庞大，类别多样，形式变化多端，人们要在有限的时间内阅读这么多的新闻内容，了解其要点信息是非常困难的事情，并且对于内容量大的新闻，由于移动终端例如手机的屏幕有限，往往手机的首屏中无法展现新闻的全部内容，用户查看不方便，并且用户阅读大量新闻内容后容易忘记前部分新闻内容核心内容，用户查看新闻的用户体验差。

为了方便用户阅读新闻信息，了解新闻的核心内容，现有的展现新闻方式主要是在页面上显示新闻文档对应的标题和对应的一句话摘要或者小于100字的短摘要，用户通过查看标题和对应的摘要即可获得新闻的核心内容，当用户对查看的新闻信息感兴趣后，可通过点击对应的新闻标题查看详细新闻。

现有生成文档摘要的方式主要有两种方式，第一种方式为抽取式摘要生成方式，该种方式生成的摘要冗余，并且由于利用的特征较少，输出摘要的精确度较低，不能准确代表文档的含义；第二种方式为生成式摘要生成方式，该种方式输出摘要的精确度较高，但生成的摘要不符合人们的阅读习惯，可读性较差。

发明内容

本发明要解决的技术问题是提供一种文档摘要的生成方法、装置、设备、计算机可读存储介质，生成的文档摘要精炼，准确，可读性好，并且文档摘要中不存在冗余信息。

为解决上述技术问题，本发明的实施例提供技术方案如下：

一方面，提供一种文档摘要的生成方法，包括：

利用训练数据训练得到带有注意力矩阵的神经网络模型，所述训练数据包括至少一组第一原句及其对应的摘要，所述第一原句为训练文档中的纯文本句子；

将待处理文档的每一第二原句输入所述神经网络模型，得到每一第二原句对应的摘要，所述第二原句为待处理文档中的纯文本句子；

根据所述待处理文档的每一第二原句与其对应的摘要之间的注意力矩阵建立短语注意力表，所述短语注意力表中包括有所述待处理文档中每一第二原句的短语与对应的摘要中的短语之间的注意力值；

从所述待处理文档中选取最初的短语，根据所述短语注意力表对每一所述最初的短语进行扩展，得到扩展后的多个短语候选集，将每个所述短语候选集中的短语聚合成句子，生成所述待处理文档的摘要。

进一步地，所述利用训练数据训练得到带有注意力矩阵的神经网络模型的步骤之前，所述方法还包括获取所述训练数据的步骤，获取所述训练数据的步骤包括：

对所述训练文档进行分词处理和去噪处理，得到所述训练文档的纯文本；

对所述训练文档的每个摘要句子，遍历所述纯文本中的每个句子，在所述纯文本中的一个句子包含一摘要句子的所有非停用词时，将所述纯文本中的该句子及对应的摘要句子组成一组第一原句及其对应的摘要。

进一步地，所述将待处理文档的每一第二原句输入所述神经网络模型的步骤之前，所述方法还包括：

对所述待处理文档进行分词处理和去噪处理，得到所述待处理文档的纯文本，从所述待处理文档的纯文本中提取所述第二原句。

进一步地，所述根据所述待处理文档的每一第二原句与其对应的摘要之间的注意力矩阵建立短语注意力表，所述短语注意力表中包括有所述待处理文档中每一第二原句的短语与对应的摘要中的短语之间的注意力值包括：

提取每一所述第二原句中每一词与对应的摘要中每一词之间的注意力矩阵，根据每一对词的注意力值建立词注意力表，所述词注意力表中包括有所述待处理文档中每一第二原句的每一词与对应的摘要中每一词之间的注意力值；

将所述词注意力表中的词合并成短语，并根据每一对词的注意力值更新每一对短语之间的注意力值，得到短语注意力表，所述短语注意力表中包括有所述待处理文档中每一第二原句的每一短语与对应的摘要中每一短语之间的注意力值。

进一步地，所述将所述词注意力表中的词合并成短语包括：

对每一所述第二原句进行句法分析，根据句法短语标签将所述第二原句中的词合并成短语。

进一步地，每一对短语之间的注意力值为该对短语中包括的多对词之间的注意力值的平均值。

进一步地，所述从所述待处理文档中选取最初的短语包括：

从所述待处理文档的纯文本的标题或者第一句中选取命名实体作为所述最初的短语。

进一步地，所述根据所述短语注意力表对每一所述最初的短语进行扩展，得到扩展后的多个短语候选集包括：

步骤a：对于每一所述最初的短语建立一短语候选集；

步骤b：在所述短语注意力表中选择与所述短语候选集中每个短语有最高注意力值的短语，在所述最高注意力值大于预设阈值时，将所述最高注意力值对应的短语加入所述短语候选集中；

步骤c：判断所述短语候选集的长度是否达到目标长度，在所述短语候选集的长度达到目标长度时，不再执行步骤b；在所述短语候选集的长度未达到目标长度时，继续执行步骤b。

进一步地，所述将每个所述短语候选集中的短语聚合成句子，生成所述待处理文档的摘要包括：

将每个所述短语候选集中的短语聚合成具有可读性的句子，并计算每一所述短语候选集的偏移量，按照所述短语候选集的偏移量输出所述短语候选集聚合的句子作为所述待处理文档的摘要，其中，所述短语候选集的偏移量为所述短语候选集中所有词的平均偏移量。

本发明实施例还提供了一种文档摘要的生成装置，包括：

训练模块，用于利用训练数据训练得到带有注意力矩阵的神经网络模型，所述训练数据包括至少一组第一原句及其对应的摘要，所述第一原句为训练文档中的纯文本句子；

输入模块，用于将待处理文档的每一第二原句输入所述神经网络模型，得到每一第二原句对应的摘要，所述第二原句为待处理文档中的纯文本句子；

处理模块，用于根据所述待处理文档的每一第二原句与其对应的摘要之间的注意力矩阵建立短语注意力表，所述短语注意力表中包括有所述待处理文档中每一第二原句的短语与对应的摘要中的短语之间的注意力值；

生成模块，用于从所述待处理文档中选取最初的短语，根据所述短语注意力表对每一所述最初的短语进行扩展，得到扩展后的多个短语候选集，将每个所述短语候选集中的短语聚合成句子，生成所述待处理文档的摘要。

本发明实施例还提供了一种生成文档摘要的电子设备，包括：

处理器；和

存储器，在所述存储器中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器运行时，使得所述处理器执行以下步骤：

本发明的实施例具有以下有益效果：

上述方案中，利用包括多组第一原句及其对应的摘要的训练数据训练得到带有注意力矩阵的神经网络模型，将待处理文档的每一第二原句输入所述神经网络模型，得到每一第二原句对应的摘要，根据所述待处理文档的每一第二原句与其对应的摘要之间的注意力矩阵建立短语注意力表，从所述待处理文档中选取最初的短语，根据所述短语注意力表对每一所述最初的短语进行扩展，得到扩展后的多个短语候选集，将每个所述短语候选集中的短语聚合成句子，生成所述待处理文档的摘要。本发明的技术方案是利用待处理文档的关键短语来组成句子，进而形成待处理文档的摘要，利用了丰富的特征来生成摘要，能够精确地代表文档的含义，并且生成的摘要逻辑性好，符合人们的阅读习惯，可读性好。

附图说明

图1为本发明实施例文档摘要的生成方法的流程示意图；

图2为本发明实施例获取训练数据的流程示意图；

图3为本发明实施例获取训练数据的具体流程示意图；

图4为本发明实施例建立短语注意力表的流程示意图；

图5为本发明实施例扩展短语候选集的流程示意图；

图6为本发明实施例文档摘要的生成装置的结构框图；

图7为本发明实施例生成文档摘要的电子设备的结构框图；

图8为本发明具体实施例文档摘要的生成方法的流程示意图；

图9为本发明实施例seq2seq模型的示意图；

图10为本发明实施例对短语候选集进行扩展的示意图。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明的实施例提供一种文档摘要的生成方法、装置、设备、计算机可读存储介质，生成的文档摘要精炼，准确，可读性好，并且文档摘要中不存在冗余信息。

实施例一

本发明的实施例提供一种文档摘要的生成方法，如图1所示，包括：

步骤101：利用训练数据训练得到带有注意力矩阵的神经网络模型，所述训练数据包括至少一组第一原句及其对应的摘要，所述第一原句为训练文档中的纯文本句子；

具体地，神经网络模型可以为seq2seq模型。

步骤102：将待处理文档的每一第二原句输入所述神经网络模型，得到每一第二原句对应的摘要，所述第二原句为待处理文档中的纯文本句子；

步骤103：根据所述待处理文档的每一第二原句与其对应的摘要之间的注意力矩阵建立短语注意力表，所述短语注意力表中包括有所述待处理文档中每一第二原句的短语与对应的摘要中的短语之间的注意力值；

步骤104：从所述待处理文档中选取最初的短语，根据所述短语注意力表对每一所述最初的短语进行扩展，得到扩展后的多个短语候选集，将每个所述短语候选集中的短语聚合成句子，生成所述待处理文档的摘要。

本实施例中，利用包括多组第一原句及其对应的摘要的训练数据训练得到带有注意力矩阵的神经网络模型，将待处理文档的每一第二原句输入所述神经网络模型，得到每一第二原句对应的摘要，根据所述待处理文档的每一第二原句与其对应的摘要之间的注意力矩阵建立短语注意力表，从所述待处理文档中选取最初的短语，根据所述短语注意力表对每一所述最初的短语进行扩展，得到扩展后的多个短语候选集，将每个所述短语候选集中的短语聚合成句子，生成所述待处理文档的摘要。本发明的技术方案是利用待处理文档的关键短语来组成句子，进而形成待处理文档的摘要，利用了丰富的特征来生成摘要，能够精确地代表文档的含义，并且生成的摘要逻辑性好，符合人们的阅读习惯，可读性好。

作为一个示例，如图2所示，所述步骤101之前还包括：

步骤100：获取所述训练数据。

具体地，如图3所示，所述步骤100包括：

步骤1001：对所述训练文档进行分词处理和去噪处理，得到所述训练文档的纯文本；

其中，去噪处理是去除训练文档中的噪声，噪声包括但不限于URL(UniformResource Locator，统一资源定位符)、电话号码及其它社交网络账号。

步骤1002：对所述训练文档的每个摘要句子，遍历所述纯文本中的每个句子，在所述纯文本中的一个句子包含一摘要句子的所有非停用词时，将所述纯文本中的该句子及对应的摘要句子组成一组第一原句及其对应的摘要。

作为一个示例，将待处理文档的每一第二原句输入所述神经网络模型的步骤之前，所述方法还包括：

作为一个示例，如图4所示，步骤103包括：

步骤1031：提取每一所述第二原句中每一词与对应的摘要中每一词之间的注意力矩阵，根据每一对词的注意力值建立词注意力表，所述词注意力表中包括有所述待处理文档中每一第二原句的每一词与对应的摘要中每一词之间的注意力值；

步骤1032：将所述词注意力表中的词合并成短语，并根据每一对词的注意力值更新每一对短语之间的注意力值，得到短语注意力表，所述短语注意力表中包括有所述待处理文档中每一第二原句的每一短语与对应的摘要中每一短语之间的注意力值。

其中，将所述词注意力表中的词合并成短语为对每一所述第二原句进行句法分析，根据句法短语标签将所述第二原句中的词合并成短语。具体地，每一对短语之间的注意力值为该对短语中包括的多对词之间的注意力值的平均值，当然也可以采用其他计算规则根据短语中包括的多对词之间的注意力值来计算每一对短语之间的注意力值。

作为一个示例，所述从所述待处理文档中选取最初的短语包括：

作为一个示例，如图5所示，步骤104包括：

步骤1041：对于每一所述最初的短语建立一短语候选集；

步骤1042：在所述短语注意力表中选择与所述短语候选集中每个短语有最高注意力值的短语，在所述最高注意力值大于预设阈值时，将所述最高注意力值对应的短语加入所述短语候选集中；

步骤1043：判断所述短语候选集的长度是否达到目标长度，在所述短语候选集的长度达到目标长度时，不再执行步骤1042，输出短语候选集；在所述短语候选集的长度未达到目标长度时，继续执行步骤1042。

具体地，在将每个所述短语候选集中的短语聚合成句子，生成所述待处理文档的摘要时，是将每个所述短语候选集中的短语聚合成具有可读性的句子，并计算每一所述短语候选集的偏移量，按照所述短语候选集的偏移量输出所述短语候选集聚合的句子作为所述待处理文档的摘要，其中，所述短语候选集的偏移量为所述短语候选集中所有词的平均偏移量。比如按照偏移量的从低到高依次输出每一所述短语候选集聚合的句子。

实施例二

本发明实施例还提供了一种文档摘要的生成装置，如图6所示，包括：

训练模块21，用于利用训练数据训练得到带有注意力矩阵的神经网络模型，所述训练数据包括至少一组第一原句及其对应的摘要，所述第一原句为训练文档中的纯文本句子；

输入模块22，用于将待处理文档的每一第二原句输入所述神经网络模型，得到每一第二原句对应的摘要，所述第二原句为待处理文档中的纯文本句子；

处理模块23，用于根据所述待处理文档的每一第二原句与其对应的摘要之间的注意力矩阵建立短语注意力表，所述短语注意力表中包括有所述待处理文档中每一第二原句的短语与对应的摘要中的短语之间的注意力值；

生成模块24，用于从所述待处理文档中选取最初的短语，根据所述短语注意力表对每一所述最初的短语进行扩展，得到扩展后的多个短语候选集，将每个所述短语候选集中的短语聚合成句子，生成所述待处理文档的摘要。

作为一个示例，文档摘要的生成装置还包括获取模块，用于获取所述训练数据，所述获取模块具体用于对所述训练文档进行分词处理和去噪处理，得到所述训练文档的纯文本；对所述训练文档的每个摘要句子，遍历所述纯文本中的每个句子，在所述纯文本中的一个句子包含一摘要句子的所有非停用词时，将所述纯文本中的该句子及对应的摘要句子组成一组第一原句及其对应的摘要。

作为一个示例，输入模块22在将待处理文档的每一第二原句输入所述神经网络模型的步骤之前，还用于对所述待处理文档进行分词处理和去噪处理，得到所述待处理文档的纯文本，从所述待处理文档的纯文本中提取所述第二原句。

作为一个示例，处理模块23具体用于提取每一所述第二原句中每一词与对应的摘要中每一词之间的注意力矩阵，根据每一对词的注意力值建立词注意力表，所述词注意力表中包括有所述待处理文档中每一第二原句的每一词与对应的摘要中每一词之间的注意力值；将所述词注意力表中的词合并成短语，并根据每一对词的注意力值更新每一对短语之间的注意力值，得到短语注意力表，所述短语注意力表中包括有所述待处理文档中每一第二原句的每一短语与对应的摘要中每一短语之间的注意力值。

具体地，处理模块23用于对每一所述第二原句进行句法分析，根据句法短语标签将所述第二原句中的词合并成短语。其中，每一对短语之间的注意力值可以为该对短语中包括的多对词之间的注意力值的平均值。

作为一个示例，生成模块24用于从所述待处理文档的纯文本的标题或者第一句中选取命名实体作为所述最初的短语。

作为一个示例，生成模块24具体用于执行以下步骤来得到扩展后的多个短语候选集：

步骤a：对于每一所述最初的短语建立一短语候选集；

作为一个示例，生成模块24具体用于将每个所述短语候选集中的短语聚合成具有可读性的句子，并计算每一所述短语候选集的偏移量，按照所述短语候选集的偏移量输出所述短语候选集聚合的句子作为所述待处理文档的摘要，其中，所述短语候选集的偏移量为所述短语候选集中所有词的平均偏移量。

实施例三

本发明实施例还提供了一种生成文档摘要的电子设备30，如图7所示，包括：

处理器32；和

存储器34，在所述存储器34中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器32执行以下步骤：

进一步地，如图7所示，实现网页相似度计算的电子设备30还包括网络接口31、输入设备33、硬盘35、和显示设备36。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器32代表的一个或者多个中央处理器(CPU)，以及由存储器34代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口31，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，例如训练数据，并可以保存在硬盘35中。

所述输入设备33，可以接收操作人员输入的各种指令，并发送给处理器32以供执行。所述输入设备33可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备36，可以将处理器32执行指令获得的结果进行显示。

所述存储器34，用于存储操作系统运行所必须的程序和数据，以及处理器32计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器34可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器34旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器34存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统341和应用程序342。

其中，操作系统341，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序342，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序342中。

上述处理器32，当调用并执行所述存储器34中所存储的应用程序和数据，具体的，可以是应用程序342中存储的程序或指令时，可以利用训练数据训练得到带有注意力矩阵的神经网络模型，所述训练数据包括至少一组第一原句及其对应的摘要，所述第一原句为训练文档中的纯文本句子；将待处理文档的每一第二原句输入所述神经网络模型，得到每一第二原句对应的摘要，所述第二原句为待处理文档中的纯文本句子；根据所述待处理文档的每一第二原句与其对应的摘要之间的注意力矩阵建立短语注意力表，所述短语注意力表中包括有所述待处理文档中每一第二原句的短语与对应的摘要中的短语之间的注意力值；从所述待处理文档中选取最初的短语，根据所述短语注意力表对每一所述最初的短语进行扩展，得到扩展后的多个短语候选集，将每个所述短语候选集中的短语聚合成句子，生成所述待处理文档的摘要。

本发明上述实施例揭示的方法可以应用于处理器32中，或者由处理器32实现。处理器32可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器32中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器32可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器34，处理器32读取存储器34中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，处理器32获取所述训练数据，获取所述训练数据的步骤包括：对所述训练文档进行分词处理和去噪处理，得到所述训练文档的纯文本；对所述训练文档的每个摘要句子，遍历所述纯文本中的每个句子，在所述纯文本中的一个句子包含一摘要句子的所有非停用词时，将所述纯文本中的该句子及对应的摘要句子组成一组第一原句及其对应的摘要。

具体地，处理器32将待处理文档的每一第二原句输入所述神经网络模型的步骤之前，对所述待处理文档进行分词处理和去噪处理，得到所述待处理文档的纯文本，从所述待处理文档的纯文本中提取所述第二原句。

具体地，处理器32提取每一所述第二原句中每一词与对应的摘要中每一词之间的注意力矩阵，根据每一对词的注意力值建立词注意力表，所述词注意力表中包括有所述待处理文档中每一第二原句的每一词与对应的摘要中每一词之间的注意力值；将所述词注意力表中的词合并成短语，并根据每一对词的注意力值更新每一对短语之间的注意力值，得到短语注意力表，所述短语注意力表中包括有所述待处理文档中每一第二原句的每一短语与对应的摘要中每一短语之间的注意力值。

具体地，处理器32对每一所述第二原句进行句法分析，根据句法短语标签将所述第二原句中的词合并成短语。每一对短语之间的注意力值为该对短语中包括的多对词之间的注意力值的平均值。

具体地，处理器32从所述待处理文档的纯文本的标题或者第一句中选取命名实体作为所述最初的短语。

具体地，处理器32通过以下步骤得到扩展后的多个短语候选集：

步骤a：对于每一所述最初的短语建立一短语候选集；

具体地，处理器32将每个所述短语候选集中的短语聚合成具有可读性的句子，并计算每一所述短语候选集的偏移量，按照所述短语候选集的偏移量输出所述短语候选集聚合的句子作为所述待处理文档的摘要，其中，所述短语候选集的偏移量为所述短语候选集中所有词的平均偏移量。

实施例四

实施例五

下面结合附图对本发明的文档摘要的生成方法进行进一步介绍，如图8所示，本发明实施例的文档摘要的生成方法具体包括以下步骤：

步骤401：获取训练数据，训练数据包括至少一组第一原句及其对应的摘要；

事先已经获取有训练文档以及训练文档的摘要，对训练文档进行分词处理和去噪处理，得到训练文档的纯文本；其中，去噪处理是将训练文档中的噪音去除，噪音包括但不限于URL、电话号码及其它社交网络账号，只保留训练文档的纯文本。

以利用一训练文档获取训练数据为例进行说明，对于该训练文档的摘要中的每个句子，遍历该训练文档的纯文本中的每个句子，如果该训练文档的纯文本中的一个句子包含一摘要句子的所有非停用词时，将该纯文本中的该句子及对应的摘要句子组成一组第一原句及其对应的摘要，作为一组训练数据。其中，停用词为不具有实际语义的词，包括助词、语气词等。

对每一训练文档都执行上述操作，可以得到大量的训练数据。

步骤402：利用训练数据训练得到带有注意力(attention)矩阵的神经网络模型；

以神经网络模型为seq2seq模型为例，将训练数据包括的多组第一原句及其对应的摘要输入seq2seq模型，训练得到一个带有注意力矩阵的seq2seq模型。其中，将seq2seq模型的encoder(编码)和decoder(解码)的层数设置为3，注意力矩阵采用全局模式。seq2seq模型的注意力矩阵表现为：

e_ij＝a(s_i-1，h_j)

其中，e_ij是能量，它代表encoder侧词xi-1对decoder侧词yj的影响力，s_i-1是decoder在i-1时刻的隐藏状态，h_j是encoder所有时刻的输出状态，a是一个非线性函数，a_ij是对能量e_ij进行softmax归一化的结果，也即是注意力矩阵。

将纯文本输入seq2seq模型的encoder，可以得到decoder侧生成的摘要以及encoder侧词和decoder侧词之间的注意力矩阵。

步骤403：将待处理文档的每一第二原句输入神经网络模型，得到每一第二原句对应的摘要以及第二原句中每一词与对应摘要中每一词的注意力矩阵；

其中，第二原句为待处理文档中的纯文本句子。首先对待处理文档进行分词处理和去噪处理，得到待处理文档的纯文本；其中，去噪处理是将待处理文档中的噪音去除，噪音包括但不限于URL、电话号码及其它社交网络账号，只保留待处理文档的纯文本，从待处理文档的纯文本中提取第二原句。

将待处理文档的纯文本中的第二原句输入seq2seq模型的encoder，在seq2seq模型的decoder侧可以得到生成的与该第二原句对应的摘要，以及第二原句中每一词与对应摘要中每一词的注意力矩阵。

如图9所示，一示例中，第二原句为Angry Tom chase Jerry in dining room，将该第二原句输入seq2seq模型的encoder，在seq2seq模型的decoder侧可以得到生成的摘要Tom chase Jerry，另外还可以得到第二原句中每一词与对应摘要中每一词的注意力矩阵c。

步骤404：提取每一第二原句中每一词与对应的摘要中每一词之间的注意力矩阵，根据每一对词的注意力值建立词注意力表；

其中，词注意力表中包括有待处理文档中每一第二原句的每一词与对应的摘要中每一词之间的注意力值。以第二原句为Angry Tom chase Jerry in dining room，输出的摘要为Tom chase Jerry为例，建立的词注意力表如表1所示，其中，A_ij为第二原句中的第i个词与对应摘要中的第j个词之间的注意力值。

表1

步骤405：将词注意力表中的词合并成短语，并根据每一对词的注意力值更新每一对短语之间的注意力值，得到短语注意力表；

具体地，可以使用现有的句法分析工具对第二原句进行句法分析，根据句法短语标签(例如：NP,VP)来将词合并成短语，比如在节点树中，词为叶节点，可以将叶节点上一层节点对应的叶节点进行合并，得到短语。以第二原句为Angry Tom chase Jerry in diningroom为例，可以将Angry和Tom合并为Angry Tom，将dining和room合并为dining room，并根据每一对词的注意力值更新每一对短语之间的注意力值，得到短语注意力表，短语注意力表中包括有待处理文档中每一第二原句的每一短语与对应的摘要中每一短语之间的注意力值。

具体地，可以将每一对短语之间的注意力值设计为该对短语中包括的多对词之间的注意力值的平均值，根据表1所示的词注意力表得到的短语注意力表如表2所示。

表2

	Tom	chase	Jerry
				Angry Tom	(A₁₁+A₂₁)/2	(A₁₂+A₂₂)/2	(A₁₃+A₂₃)/2
chase	A₃₁	A₃₂	A₃₃
				Jerry	A₄₁	A₄₂	A₄₃
in	A₅₁	A₅₂	A₅₃
				dining room	(A₆₁+A₇₁)/2	(A₆₂+A₇₂)/2	(A₆₃+A₇₃)/2

步骤406：从待处理文档中选取最初的短语，并为每个短语生成一个短语候选集；

具体地，可以从待处理文档的纯文本的标题或者第一句中选取命名实体作为最初的短语。

步骤407：对每一短语的短语候选集进行扩展，得到扩展后的多个短语候选集；

在短语注意力表中选择与短语候选集中每个短语有最高注意力值的短语，在最高注意力值大于预设阈值时，将最高注意力值对应的短语加入短语候选集中；重复执行上述步骤，并且判断短语候选集的长度是否达到目标长度，在短语候选集的长度达到目标长度时，停止将短语加入短语候选集中，如果短语候选集的长度未达到目标长度，则继续执行上述步骤，将满足要求的短语加入短语候选集中。比如，短语候选集中包括有短语A，从短语注意力表中选择与短语A有最高注意力值的短语B，如果该最高注意力值大于预设阈值，则将短语B加入短语候选集中，再从短语注意力表中选择与短语B有最高注意力值的短语C，如果该最高注意力值大于预设阈值，则将短语C加入短语候选集中，以此类推，直至短语候选集的长度达到目标长度。

如图10所示，初始的短语候选集为<Tom>和<Jerry>，经过第一次扩展后得到的短语候选集为<Tom，chase>、<Tom，Indian Headdress>、<Jerry，Nibbles>和<Jerry，Diningroom>，经过第二次扩展后得到的短语候选集为<Tom，chase，Nibbles>、<Tom，IndianHeaddress，shotgun>、<Jerry，Nibbles，feed>等，经过第三次扩展后得到的短语候选集为<Tom，chase，Nibbles，dining room>等。

步骤408：将每个扩展后的短语候选集中的短语聚合成句子；

按照现有的语音工具将每个短语候选集中的短语聚合成具有可读性的句子，比如将短语候选集<Tom，chase，Nibbles，dining room>可以聚合为句子Tom chase Nibbles indining room。

步骤409：按照每个扩展后的短语候选集的偏移量输出聚合后的句子，生成待处理文档的摘要。

计算每一短语候选集的偏移量，按照短语候选集的偏移量输出短语候选集聚合的句子作为待处理文档的摘要，比如按照偏移量的从低到高依次输出每一所述短语候选集聚合的句子，其中，短语候选集的偏移量为短语候选集中所有词的平均偏移量。

以上是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文档摘要的生成方法，其特征在于，包括：

从所述待处理文档中选取最初的短语，根据所述短语注意力表对每一所述最初的短语进行扩展，得到扩展后的多个短语候选集，将每个所述短语候选集中的短语聚合成句子，生成所述待处理文档的摘要，

其中，所述根据所述待处理文档的每一第二原句与其对应的摘要之间的注意力矩阵建立短语注意力表，所述短语注意力表中包括有所述待处理文档中每一第二原句的短语与对应的摘要中的短语之间的注意力值包括：

2.根据权利要求1所述的文档摘要的生成方法，其特征在于，所述利用训练数据训练得到带有注意力矩阵的神经网络模型的步骤之前，所述方法还包括获取所述训练数据的步骤，获取所述训练数据的步骤包括：

3.根据权利要求1所述的文档摘要的生成方法，其特征在于，所述将待处理文档的每一第二原句输入所述神经网络模型的步骤之前，所述方法还包括：

4.根据权利要求1所述的文档摘要的生成方法，其特征在于，所述将所述词注意力表中的词合并成短语包括：

5.根据权利要求1所述的文档摘要的生成方法，其特征在于，

每一对短语之间的注意力值为该对短语中包括的多对词之间的注意力值的平均值。

6.根据权利要求1所述的文档摘要的生成方法，其特征在于，所述从所述待处理文档中选取最初的短语包括：

7.根据权利要求1所述的文档摘要的生成方法，其特征在于，所述根据所述短语注意力表对每一所述最初的短语进行扩展，得到扩展后的多个短语候选集包括：

步骤a：对于每一所述最初的短语建立一短语候选集；

8.根据权利要求1所述的文档摘要的生成方法，其特征在于，所述将每个所述短语候选集中的短语聚合成句子，生成所述待处理文档的摘要包括：

9.一种文档摘要的生成装置，其特征在于，包括：

生成模块，用于从所述待处理文档中选取最初的短语，根据所述短语注意力表对每一所述最初的短语进行扩展，得到扩展后的多个短语候选集，将每个所述短语候选集中的短语聚合成句子，生成所述待处理文档的摘要，

其中，所述处理模块具体用于：

10.一种生成文档摘要的电子设备，其特征在于，包括：

处理器；和

存储器，在所述存储器中存储有计算机程序指令，

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器运行时，使得所述处理器执行以下步骤：