CN112541073B

CN112541073B - 一种文本摘要生成方法、装置、电子设备及存储介质

Info

Publication number: CN112541073B
Application number: CN202011479204.XA
Authority: CN
Inventors: 吴文涛; 周维; 陈志刚; 谭昶
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2022-12-06
Anticipated expiration: 2040-12-15
Also published as: CN112541073A

Abstract

本申请公开一种文本摘要生成方法、装置、电子设备及存储介质，所述方法包括：接收待生成摘要的文本；生成初始文本摘要，通过经训练的文本摘要模型为所述文本生成初始文本摘要；接收到用户通过人机交互方式对所述初始文本摘要的改进请求；生成合成文本摘要，当接收到所述改进请求时，通过所述经训练的文本摘要模型并且根据所述文本生成基于所述初始文本摘要且体现所述预定内容的合成文本摘要。该方法不仅具备生成能力还具有融合核心句上下文的能力，保证生成的摘要包括核心句子，内容上具有概括性和连续性。通过人与文本交互，融入人对文本的理解，防止生成摘要遗漏重要核心的内容，进一步提升生成摘要的效果。

Description

一种文本摘要生成方法、装置、电子设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文本摘要生成方法、装置、电子设备和存储介质。

背景技术

随着互联网技术普及，人们接收信息越来越容易。同时，信息的爆炸也带来了“信息过载”问题。信息爆炸使得人们要面对海量信息，从海量信息中智能、迅速的获取摘要信息成为了一项重要且具有挑战性的课题。

在我们日常生活中，摘要技术的应用能给我们的生活带来便利。如手机上的新闻APP，我们只要通过浏览新闻标题就可以大致了解到该新闻描述的事情，是否对这篇新闻感兴趣，决定是否继续浏览，杜绝被“标题党”误导，这为我们节约了很多时间。因此，摘要的生成质量对我们有很大影响。如果摘要生成的质量较差，则浪费我们很多时间，在这个需要快速获得符合个体化需求的精准信息的时代，生成符合个体化需求的摘要也尤为重要。另外，在工作中，我们会经常碰到需要将冗长的文件提炼成一段简短且概括的段落，这样的工作不仅耗时且枯燥，在总结过程中容易丢失重要信息。在这种情况下，以提高摘要生成速度和效率的自动摘要技术就显得必不可少。

显然，摘要生成的速度、效率、质量以及是否符合个体化需求将作为摘要生成的优劣的几个重要指标。

目前，不管是采用抽取式还是生成式来获取文本摘要，都存在着一些不足的地方。例如，采用抽取式来获取摘要，抽取出的摘要内容一般多且杂，内容不连贯，不具备概括性，与人工总结的摘要存在一定的语义偏差。但是人工总结摘要存在摘要生成速度太慢的问题。采用生成式来获取摘要，容易忽略重要信息，抓不住文本的核心，偏离了文本表达的真正含义，以及生成摘要的质量不可控等问题，导致生成的摘要不能用，还有一些生成的摘要内容晦涩难懂，影响用户的使用体验。

因此，提高摘要生成的速度和效率、质量以及最大程度的满足个体化需求显得尤为重要。

发明内容

有鉴于此，本申请提供了一种文本摘要方法、装置、电子设备和存储介质，用以解决现有摘要方法摘要生成的质量欠佳、速度和效率低下、不符合用户的个体化需求的问题。

第一方面，本申请提供了一种文本摘要生成方法，该方法包括：

接收待生成摘要的文本；

通过人机交互生成文本摘要，所述通过人机交互生成文本摘要包括：

用户与所述文本进行交互以从所述文本中指定预定内容；

经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的文本摘要。

优选地，经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的文本摘要包括：

根据所述文本的内容来融合所述预定内容，以使生成的文本摘要中的所述预定内容和所述预定内容的上下文之间通顺、连贯。

经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的至少一个摘要；

从所述至少一个摘要中选择最终的文本摘要。

优选地，从所述至少一个摘要中选择最终的文本摘要包括：

计算所生成的至少一个摘要的摘要序列平均分；

选择摘要序列平均分最高的摘要作为最终的文本摘要。

优选地，所述计算所生成的至少一个摘要的摘要序列平均分包括：

对摘要序列分数取对数后所得到的数值除以摘要序列长度，

其中，所述摘要序列分数为整个摘要序列的所有字的得分的乘积，所述摘要序列长度为生成的摘要的文本的长度。

优选地，经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的至少一个摘要包括：控制摘要重复。

优选地，所述控制摘要重复包括：

每生成一个字，将已生成的字与已生成的摘要的相邻连续预定字数的字构成一个片段；

检测所述片段是否与已生成的摘要的内容重复；

当重复时，降低当前生成的字的概率且在摘要中不生成所述字，继续生成摘要直到结束；

当不重复时，在摘要中生成所述字，继续生成摘要直到结束。

优选地，其特征在于，所述通过人机交互生成文本摘要进一步包括：

经训练的文本摘要模型为所述文本生成初始文本摘要。

经训练的文本摘要模型根据所述文本的内容且基于所述初始文本摘要和所述预定内容来生成包括所述预定内容和至少部分所述初始文本摘要的文本摘要。

优选地，根据所述文本的内容且基于所述初始文本摘要和所述预定内容来生成文本摘要包括：

根据所述文本的内容来融合所述预定内容和至少部分所述初始文本摘要，以使生成的文本摘要中的所述预定内容和所述预定内容的上下文之间通顺、连贯，以及至少部分所述初始文本摘要和至少部分所述初始文本摘要的上下文之间通顺、连贯。

优选地，所述根据所述文本的内容来融合所述预定内容和所述初始文本摘要包括：

将所述预定内容所包含的句子和所述初始文本摘要所包含的至少部分句子作为关键句；

在至少部分所述关键句之前或之后补充所述文本的部分内容，以使所述关键句与所述关键句的上下文之间通顺、连贯。

优选地，所述预定内容包括：

用户所理解的能够体现所述文本的核心信息的句子。

优选地，进一步包括：训练所述文本摘要模型，所述训练所述文本摘要模型在所述接收待生成摘要的文本之前且包括：

接收样本文本和与所述样本文本对应的标注摘要；

确定所述样本文本的关键句；

对所述关键句进行标识，以使所述关键句出现在所生成的摘要中；

根据已标识出关键句的样本文本，训练输入序列到输出序列的所述文本摘要模型，以使所述文本摘要模型具备融合能力。

优选地，所述确定所述样本文本的关键句包括：

根据所述标注摘要在所述文本中检索能够体现所述文本的核心信息的连续句子序列；

选取所述连续句子序列中的至少一个句子作为串起整个连续句子序列的关键句。

优选地，训练所述文本摘要模型进一步包括：

利用至少一个用户指定的预定内容来迭代所述文本摘要模型；

将迭代后的文本摘要模型作为所述经训练的文本摘要模型。

第二方面，本申请还提供了一种文本摘要生成装置，所述装置包括：

接收文本单元，用于接收待生成摘要的文本；

人机交互单元，用于通过人机交互生成文本摘要，

所述人机交互单元包括：

指定单元，用于用户与所述文本进行交互以从所述文本中指定用户所理解的能够体现所述文本的核心信息的预定内容；

生成单元，用于经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的文本摘要。

本申请还提供了一种电子设备，所述电子设备包括存储器、处理器及存储在存储器中并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述的文本摘要生成方法的步骤。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述程序被处理器执行时实现上述任一项所述的文本摘要生成方法的步骤。

本申请提供了一种通过人机交互来生成摘要的方法。该方法不仅具备生成能力还具有融合核心句上下文的能力，保证生成的摘要包括核心句子，内容上具有概括性和连续性。另外，本方法直接加入人对文本的理解，辅助自动摘要的生成，同时具有一定的纠正能力。用户指定文本的关键句，在生成摘要时要体现出指定的关键信息，保证在加入关键信息后，生成的摘要中包含不可缺少的信息，使得整个生成摘要质量得到提升，满足人们对高质量摘要的要求。

该方法具有以下优势：1、通过人与文本交互，融入人对文本的理解，防止生成摘要遗漏重要且核心的内容，提升生成摘要的效果；2、使用交互方式提取文本中的关键句，保证了准确性，避免利用算法提取关键句带来的与用户的个体化需求之间的偏差，从而保证生成摘要的质量；3、使用交互方式选择关键句，使得模型模仿用户对生成摘要的要求，从而学习到更加符合用户偏好的摘要生成策略；4、通过关注到不同的核心句子，可以控制生成不同的摘要，保证了生成摘要的多样性，符合不同用户的需求。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的文本摘要生成方法的一个实施例的流程示意图；

图2为本申请提供的生成文本摘要的方法的一个实施例的流程示意图；

图3为本申请提供的选择最终的文本摘要的方法的一个实施例的流程示意图；

图4为本申请提供的控制摘要重复的方法的一个实施例的流程示意图；

图5为本申请提供的基于初始文本摘要和用户指定的关键句来生成文本摘要的方法中的融合的一个实施例的流程示意图；

图6为本申请提供的训练文本摘要模型的方法的一个实施例的流程示意图；

图7为本申请提供的确定样本文本的关键句的方法的一个实施例的流程示意图；

图8为本申请提供的迭代文本摘要模型并利用迭代后的文本摘要模型的方法的一个实施例的流程示意图；

图9为本申请提供的文本摘要生成装置的一个实施例的示意图；以及

图10为本申请提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

传统的文本摘要生成方法主要是提取文本的关键词，提取关键词后对关键词进行编辑，最后生成摘要。这种生成摘要的方法具有以下三个缺点：1、关键词数量多，且一般是时间、地点、人物、事件等不能体现不同用户的偏好的标准化词汇，依据这种标准化词汇生成的摘要不具有概括性和连续性。另外生成摘要后，还需对摘要进行通顺性和精确性进行校验，这种交互方式耗时耗力、效率低下，需要用户具有丰富的知识储备，要求高，不具备通用性；2、因为时间、地点、人物、事件这样的关键词不能体现不同用户的要求和偏好，所以传统交互方式不能从人工提取的关键词中学习到用户对摘要的要求和偏好，无法通过反馈，学习到符合用户偏好的摘要生成策略；3、生成的摘要完全依赖人工提取的关键词，关键词的好坏决定了摘要的生成质量。

针对以上问题，本方法结合生成式的自动摘要生成技术，提出一种提升生成摘要效果的方法。不仅具有生成能力还具有融合能力。保证了生成摘要能够涵盖文本的核心句子，内容上具有概括性和连续性。直接加入人对文本的理解，辅助自动摘要的生成，同时具有一定的纠正能力。生成的摘要中包含不可缺少的信息，提升整个生成摘要质量、生成的摘要符合个体化需求，以及在提升整个生成摘要质量和符合个体化需求的前提下，摘要生成的速度和效率也大大提升。

图1是本申请提供的文本摘要生成方法的一个实施例的流程示意图。如图1所示，该方法包括：

步骤110，接收待生成摘要的文本。

其中，以获取含有文本的数据的方式来接收所述待生成摘要的文本。具体地，将需要生成摘要的文本输入到文本摘要模型中。所述文本可以包括多种类型的文本，文本的长度也可以不进行限制。

步骤120，通过人机交互生成文本摘要，所述通过人机交互生成文本摘要包括：

用户与所述文本进行交互以从所述文本中指定预定内容；

步骤120具体包括：

步骤1201，用户与所述文本进行交互以从所述文本中指定用户所理解的能够体现所述文本的核心信息的预定内容。在一个示例中，用户可接触到文本，以进行人机交互。具体地，当用户对生成的摘要不满意时，用户只需简单地浏览文本，通过选择文本中的预定内容，将选定的预定内容覆盖到摘要中未体现的信息。本领域技术人员可知晓，用户选择预定内容的方式可以包括多种方式，例如，输入式或接触式。在一个示例中，所述预定内容包括用户所理解的能够体现文本的核心信息的句子，即关键句。在另一个示例中，所述预定内容包括用户所理解的能够体现文本的核心信息的单词。在一个示例中，所述预定内容为关键句和单词的组合。在一个示例中，上述的句子或单词的数量分别可以为一个或两个以上。

步骤1202，经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的所述文本摘要。

在一个示例中，文本摘要模型可以包括：指针生成模型，即，指针生成网络，保持抽取和生成方法之间的平衡；以及基于语义匹配的摘要抽取模型，即，基于语义匹配的摘要抽取方法。

生成摘要的具体过程：在生成最终的摘要时，人工指定关键句后，计算机会将文本处理成包含指定关键句特征的输入样式，然后模型将输入编码成一个包含文本语义的向量，模型根据摘要开始生成信号，通过该向量一步一步生成摘要句子。生成过程中，模型会从输入的文本、生成的当前字，以及当前字和输入文本之间的联系共三个方面共同决策出下一个生成的字，直到摘要生成结束。

现在以下面的一个示例来说明模型自动生成的摘要与人机交互生成的摘要的区别。

待生成摘要的文本的内容如下：

随着各地政府对生态环境管理工作的要求提高，环保产业的市场空间加速释放，产业规模不断扩大。“互联网+”相关的新数字技术，逐渐在环境治理领域得到创新应用。生态环境部科技与财务司司长邹首民指出，随着一些关键技术的研发突破，在污染治理和生态修复方面的技术可达性更强、经济可行性更加合理，环境保护与经济发展更加协调。比如，水专项在钢铁、化工、造纸等重点行业废水治理技术上的突破，使得这些传统重污染行业实现了产能提升和污染减排的“双赢”。

以模型自动生成摘要得方法所生成的摘要如下：

随着一些关键技术的研发突破，在污染治理和生态修复方面的技术可达性更强、经济可行性更加合理，环境保护与经济发展更加协调。

以交互式摘要生成方法所生成合成文本摘要如下：

“互联网+”相关的新数字技术，逐渐在环境治理领域得到创新应用。随着一些关键技术的研发突破，在污染治理和生态修复方面的技术可达性更强、经济可行性更加合理，环境保护与经济发展更加协调。

其中，用户从上面的文本中指定““互联网+”相关的新数字技术，逐渐在环境治理领域得到创新应用”这一句子作为关键句。

从上面可看出，用户指定的句子作为关键句，在生成摘要中必须体现出来，使得整个摘要更加完整。通过指定关键句，整个摘要生成的更加准确，生成的摘要也符合情理，与文本表达的内容一致，极大地提升了摘要生成质量。最后，生成的摘要中体现了文本的核心信息，包含了用户指定的关键句，满足了用户对生成摘要的要求，文本摘要生成结束。

在上述实施例中，通过人与文本交互，融入人对文本的理解，防止生成摘要遗漏重要且核心的内容，提升生成摘要的效果，同时避免传统交互方式中人工提取关键词和检查摘要质量的复杂工作。另外，通过用户来选择关键句，生成的摘要更加符合用户的需求。不同的用户选择不同的关键句，生成的摘要更具多样性。另外，通过本申请的人机交互摘要生成方法来生成的摘要的过程中，通过人机交互，用户反馈的关键句在摘要中出现，可以不断迭代模型，使得模型不断学习到用户对生成摘要的偏好策略，进一步提升生成摘要效果。

基于上述的实施例，在本发明另一实施例提供的文本摘要生成方法中，经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的文本摘要包括：

在一个示例中，模型先自动生成一个初始文本摘要，用户对初始文本摘要不满意，则用户指定文本中的特定内容(句子或单词或句子和单词和组合)。在此，以特定内容是句子为例，将用户指定的句子作为关键句，使得所生成的文本摘要一定会出现该句子。

在一个示例中，融合的含义是使生成的文本摘要中的所述预定内容和所述预定内容的上下文之间通顺、连贯，进而使得预定内容和生成的文本摘要的其他句子之间通顺、连贯。

融合的具体步骤可以是如下步骤：

将所述预定内容所包含的句子作为关键句；

对所述关键句进行标识，以使在生成文本摘要时，能够通过标识来识别出关键句，并对关键句附近执行融合操作；

以下面的示例来说明这里的“融合”：

假设文本的部分内容如下：

小明的班主任老师批评小明，警告他不要再迟到。小明在悔改声明中指出，他将不会再迟到，否则他将接受处罚。

生成的摘要的部分内容如下：

小明声明他将不会再迟到。

假设这里的关键句为“他将不会再迟到”，由上可以看出，在这个关键句的前面补充了“小明声明”这样的内容，在该关键句前面补充“小明声明”这样的内容后，整个内容更通顺、连贯。当然，本领域技术人员可知晓，补充文本内容，以使关键句与所述关键句的上下文之间通顺、连贯得示例还有很多，不限于上面举出的示例，在此不一一列举。

在上述实施例中，通过将用户指定的句子设置为关键句，使得模型对关键句进行重点关注，不仅避免遗漏重要信息的问题，同时，通过在关键句处执行的融合操作也提高了整个生成摘要的质量，使得生成的摘要通顺、连贯，易读性更强，符合用户偏好和理解。

基于上述的任一实施例，图2示出了本发明另一实施例提供的生成至少一个摘要的方法，如图2所示，经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的文本摘要包括：

步骤210，经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的至少一个摘要；

步骤220，从所述至少一个摘要中选择最终的文本摘要。

在上述实施例中，模型自动生成了多个摘要，通过预定的选择方式而从多个摘要中选择最优的摘要。这样，通过这样的筛选机制在一定程度上也提高了最终的生成的摘要的质量，生成的摘要也具有多样性。

基于上述的任一实施例，图3示出了本发明另一实施例提供的选择最终的文本摘要的方法，如图3所示，从所述至少一个摘要中选择最终的文本摘要包括：

步骤221，计算所生成的至少一个摘要的摘要序列平均分；

步骤222，选择摘要序列平均分最高的摘要作为最终的文本摘要。

在一个示例中，在所述至少一个摘要生成完整的情况下，选择最优摘要的具体步骤包括：选择摘要序列得分最高的摘要作为最终的文本摘要。

当生成的摘要的过程中，没有生成完整事实就遇到了结束符，此时，所生成的摘要的序列得分却又是最大的情况下，那么选择序列得分最大的摘要，就会将不完整的摘要挑选出来，如果将这种摘要提供给用户，给用户带来该摘要生成不好的感觉，则大大降低了用户的使用体验。

为了解决上述问题，本申请的选择最优摘要的具体步骤包括：计算所生成的至少一个摘要的摘要序列平均分；选择摘要序列平均分最高的摘要作为最终的文本摘要。即，本申请的选择最优摘要的方法中，使用摘要序列平均分最高的策略。

在一个示例中，选择通过如下公式计算得到的摘要序列平均分最高的摘要作为最终的文本摘要。

在一个示例中，待生成摘要的文本的内容如下：湖人在今天的比赛中以106-114输给了掘金队，目前系列赛大比分来到2-1，湖人仍然处于领先。这场比赛湖人队整体表现并不理想，在攻防两端没有能够延续之前的表现，最多时曾落后掘金队20分，尽管球队在最后一节前7分钟打出一波19-2的进攻，追了17分，把比分差距缩小至3分，但是在关键时刻，球队没有能够把握住机会，不论是库兹马的三分，还是詹姆斯的跳投，都没有能够命中，球队也最终输掉了这场比赛。

生成的一个摘要如下：湖人106-114输给掘金队，系列赛大比分来到 2-1，这场比赛湖人队表现不理想，最多时落后20分。上述摘要的摘要分数：-0.91，摘要序列平均分数：-0.019。

生成的另一个摘要如下：湖人106-114输给掘金队，系列赛大比分来到2-1，这场比赛湖人队表现不理想，最多时曾落后20分。尽管最后一节7分钟追了17分，但在关键时刻没能把握机会投球命中，最终输掉了比赛。上述摘要的摘要分数：-1.63，摘要序列平均分数：-0.018。

从上可看出，摘要分数较高的摘要并不是最完整、涵盖信息最全面的质量最好的摘要，而摘要序列平均分最高的摘要为最完整、涵盖信息最全面的质量最好的摘要。

在上述实施中，通过选择最优摘要的方法，避免了选择当生成的摘要的过程中，没有生成完整事实就遇到了结束符而生成的摘要作为最终的摘要，选择摘要序列平均分的作为最终摘要结果，获得了最佳的摘要，从而大大提高了用户的使用体验。

基于上述的任一实施例，在本发明另一实施例提供的文本摘要生成方法中，

计算所生成的至少一个摘要的摘要序列平均分包括：

对摘要序列分数取对数后所得到的数值除以摘要序列长度，

在一个示例中，摘要序列平均分的计算公式如下：

其中，S_mean表示所述摘要序列平均分，C_i表示生成摘要中的每个字的得分，C_i的数值在0到1之间，i表示生成的字的序号。

其中，整个摘要序列的所有字的得分的乘积为所述摘要序列分数，生成的摘要的文本的长度为序列长度。由于整个摘要序列的最终得分是所有字得分的连续乘积，而每个字的得分数值在0到1之间。若这样计算会导致摘要得分数值很低，可能造成数值下溢。因此我们利用对数函数的性质，对得分取对数，所以最终摘要得分是一个小于0的值。具体地，在一个示例中，对摘要序列分数取对数后所得到的数值除以序列长度，得到序列平均分，选择序列平均分最高的摘要作为初始文本摘要。

在上述实施例中，通过对摘要序列分数取对数，避免了可能造成的数值下溢的现象，从而提高了选取最优摘要的准确度。

基于上述的任一实施例，在本发明另一实施例提供的文本摘要生成方法中，经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的至少一个摘要：控制摘要重复。

在逐字生成摘要的过程中执行控制摘要重复的步骤。在生成至少一个摘要的过程中和/或生成最终的融合有初始文本摘要的和预定内容的摘要的过程中执行控制摘要重复的步骤。

在上述实施中，通过控制摘要重复，能够降低文本摘要包括重复片段的概率或使得文本摘要中不包括重复的片段。

基于上述的任一实施例，图4示出了本发明另一实施例提供的控制摘要重复的方法，如图4所示，控制摘要重复包括：

检测所述片段是否与已生成的摘要的内容重复；

在上述实施中，通过上述的控制重复片段的方法，可以防止某个片段重复出现，保证摘要中没有重复的句子，提升摘要生成的效果和用户体验。

基于上述的任一实施例，图5为本申请另一个实施例提供的基于初始文本摘要和用户指定的关键句来生成文本摘要的方法的流程示意图。

所述通过人机交互生成文本摘要进一步包括：经训练的文本摘要模型为所述文本生成初始文本摘要。

在一个示例中，经训练的文本摘要模型为所述文本生成初始文本摘要在用户指定预定内容之前。

具体地，基于初始文本摘要和用户指定的关键句来生成文本摘要的方法包括：经训练的文本摘要模型根据所述文本的内容且基于所述初始文本摘要和所述预定内容来生成包括所述预定内容和至少部分所述初始文本摘要的文本摘要。

在上述实施中，通过模型自动生成摘要，避免了全程都是人工操作来生成摘要而产生的费时，费力等弊端和问题。如果用户对模型自动生成的摘要不满意，则可以通过指定文本的特定内容来使得所生成的摘要包括用户指定的特定内容，以避免漏掉用户偏好或重点关注的信息，从而对模型自动生成的摘要起到了纠正的效果。

基于上述的任一实施例，本申请另一个实施例提供的基于初始文本摘要和用户指定的关键句来生成文本摘要的方法中的融合。

根据所述文本的内容且基于所述初始文本摘要和所述预定内容来生成文本摘要包括：

在上述实施中，通过使得生成的摘要的可读性更好，质量更好。

基于上述的任一实施例，本申请另一个实施例提供的基于初始文本摘要和用户指定的关键句来生成文本摘要的方法中的融合的具体步骤如下：

融合的具体方法如下：

步骤510，将所述预定内容所包含的句子和所述初始文本摘要所包含的至少部分句子作为关键句；

将用户指定的句子设置为关键句，另外，根据初始文本摘要中的内容在文本中搜索对应的句子，将搜索到的一个或更多个句子设置为关键句。这里的“关键句”被设置为较大的权重，这样，模型在重新生成摘要时将会对这些关键句进行重点关注，从而使得所生成的摘要必定包含这些关键句。

步骤520，在至少部分所述关键句之前或之后补充所述文本的部分内容，以使所述关键句与所述关键句的上下文之间通顺、连贯。

在进行重点关注的同时，并在生成关键句的前后上下文进行融合操作，以保证关键句的和关键句的上下文之间是连贯、顺畅。

这里的融合与上述的人机交互生成摘要的实施例中的融合除了选择的关键句不同(该实施例的关键句既包括预定内容所包含的句子，又包括初始文本摘要所包含的至少部分句子)，其他都基本相同。

最终生成的摘要为用户指定的全部关键句和初始文本摘要的全部或部分句子的结合。在另一个示例中，初始文本摘要的句子和用户指定的关键句之间包括融合内容，所述融合内容使得生成的文本摘要中的全部句子之间顺畅和连贯，更主要的是使文本摘要中的关键句和关键句的上下文之间更顺畅和连贯。

在一个示例中，通过经训练的文本摘要模型为所述文本生成至少一个摘要；从所述至少一个摘要中选择初始文本摘要。当用户对初始文本摘要满意时，初始文本摘要可以作为输出摘要。当用户对初始文本摘要不满意时，用户通过指定文本的特定内容(预定内容)来重新生成摘要，通过用户与所述文本进行交互以从所述文本中指定用户所理解的能够体现所述文本的核心信息的预定内容。

生成摘要的具体过程：在生成最终的摘要时，人工指定关键句后，计算机会将文本处理成包含初始文本摘要的句子(选择为关键句)和指定关键句特征的输入样式，然后模型将输入编码成一个包含文本语义的向量，模型根据摘要开始生成信号，通过该向量一步一步生成摘要句子。生成过程中，模型会从输入的文本、生成的当前字，以及当前字和输入文本之间的联系共三个方面共同决策出下一个生成的字，直到摘要生成结束。

该实施例除了上述的人机交互生成摘要的实施例的不同之处为：模型自动生成初始文本摘要，在选择关键句时加入了初始文本摘要中的句子。其他方面均可相同，在此，不再赘述。

在上述实施例中，通过模型自动生成摘要，避免了全程都是人工操作来生成摘要而产生的费时，费力等弊端和问题。如果用户对模型自动生成的摘要不满意，则可以通过指定文本的特定内容来使得所生成的摘要包括用户指定的特定内容，以避免漏掉用户偏好或重点关注的信息，从而对模型自动生成的摘要起到了纠正的效果。这种模型自动生成摘要和人机交互来生成摘要相结合的方式能够在提高摘要生成的速度的前提下，使得所生成的摘要的质量更高且满足不同用户的个体化需求。本方法既有模型自动生产摘要的速度快、效率高以及机器算法提取关键句的全面搜索和提取的优点，又有人机交互生产摘要的符合用户偏好和理解的优点，使得生成的摘要的可读性更好，质量更好。

基于上述任一实施例，所述预定内容包括：用户所理解的所述文本中的能够体现所述文本的核心信息的句子。

本领域技术人员可知晓，用户指定的句子的数量不作限定，可以为一个或两个以上句子。用户理解的能够体现所述文本的核心信息的句子可以完全基于用户个人的理解或偏好、喜好等。

在上述实施例中，通过用户选择能够体现所述文本的核心信息句子不仅使得模型具备了融合能力，提高摘要生成的质量，同时，避免了传统交互方式中人工提取关键词和检查摘要质量的复杂工作。

基于上述任一实施例，图6为本申请提供的训练文本摘要模型的方法的一个实施例的流程示意图。如图6所示，该文本摘要生成方法还包括：步骤100，训练所述文本摘要模型。训练文本摘要模型在接收待生成摘要的文本之前，步骤100包括：

步骤101，接收数据样本文本和与所述样本文本对应的标注摘要。

在一个示例中，标注摘要为用户进行标注过的文本，即，用户浏览过并对文本的关键信息进行标注过的文本。

步骤102，确定样本文本的关键句。

根据标注摘要在与标注摘要相对应的样本文本中检索能够体现样本文本的核心信息的关键句。当文本无核心信息时，设置关键句的状态为“空缺”，关键句被设置为空缺状态不影响模型的训练。当由于所述样本文本无核心信息而未检索到能够体现所述样本文本的核心信息的句子时，设置关键句的状态为空缺状态。

具体的确定样本文本的关键句的方法的一个示例可参看下表1所示：

表1

步骤103，对所述关键句进行标识，以使所述关键句出现在所生成的摘要中。

在文本中标识出关键句特征，让模型在训练过程中能够识别到关键句和其它句子的区别，以及对摘要生成效果的影响，强化模型对关键句的融合能力。以上述一个文本为例：

S1:他刚吃完饭，没有午休，

S2:就去学习，

S3:非常勤奋。

没有标识关键句特征前，文本句子表示为[S1，S2，S3]，本方法中使用KS表示关键句开始位置，KE表示关键句结束位置，加入关键句特征标识符后，文本表示为[S1，[KS]S2[KE]，S3]。

步骤104，根据已标识出关键句的样本文本，训练输入序列到输出序列的所述文本摘要模型，以使所述文本摘要模型具备融合能力。

根据已标识出关键句的样本文本或关键句的状态被设置为空缺状态的样本文本，基于深度学习框架训练输入序列到输出序列的所述文本摘要模型。

在上述实施中，通过上述方式来训练文本摘要模型，使得训练后的文本摘要模型能很好的识别以被标识的关键句并加重对关键句的权重，以更准确的生成包括关键句的摘要。

基于上述任一实施例，图7为本申请提供的确定样本文本的关键句的方法的一个实施例的流程示意图。如图7所示，步骤102包括：

步骤1021，根据标注摘要在文本中检索能够体现文本的核心信息的连续句子序列。

步骤1022，选取连续句子序列中的至少一个句子作为串起整个连续句子序列的关键句。

在一个示例中，当在文本中检索到能够体现文本的核心信息的连续句子序列时，选取连续句子序列中的一个句子作为关键句。当在文本中未检索到能够体现文本的核心信息的连续句子序列时，选取样本文本中能够体现样本文本的核心信息的一个句子作为关键句。

综上，首先根据标注摘要，找出体现文本核心的连续句子序列，选择其中一个句子作为核心句子，保证核心句子在生成摘要中必定出现，使得该方法不仅具备生成能力还具有融合核心句上下文的能力。

在上述实施中，将关键句作为串起整个连续句子序列的桥梁，以使训练后的文本摘要模型具备融合文本中能够体现核心信息的内容与内容的上下文的能力。

基于上述任一实施例，图8为本申请提供的迭代文本摘要模型并利用迭代后的文本摘要模型的方法的一个实施例的流程示意图。如图8所示，步骤100进一步包括：

步骤105，利用至少一个用户指定的预定内容来迭代所述文本摘要模型。

步骤106，将迭代后的文本摘要模型作为所述经训练的文本摘要模型。

在上述实施中，模型对用户指定的内容进行学习，使得模型模仿用户对生成摘要的要求，从而学习更加符合用户偏好的摘要生成策略。

综上，本方案中的交互式文本摘要自动生成方法，是基于机器理解文本后，生成摘要效果无法满足用户的要求，为了提升摘要的生成效果而提出的。具有以下如下优势：

1、通过人与文本交互，融入人对文本的理解，防止生成摘要遗漏重要核心的内容，进一步提升生成摘要的效果，同时避免传统生成摘要的方法中人工提取关键词和检查摘要质量的复杂工作。

2、使用交互方式提取文本中的关键句，保证了准确性，避免利用算法提取关键句带来偏差，从而保证生成摘要的质量。

3、使用交互方式选择关键句，可以使得模型模仿用户对生成摘要的要求，从而学习更加符合用户偏好的摘要生成策略。

4、通过不同用户指定的不同的句子，可以控制生成不同的摘要，保证了生成摘要的多样性，符合不同用户的需求。

图9为本申请提供的文本摘要生成装置的一个实施例的示意图。如图 9所示，所述文本摘要生成装置包括：

接收文本单元910，用于接收待生成摘要的文本；

人机交互单元920，用于通过人机交互生成文本摘要，

所述人机交互单元包括：

指定单元，用于用户与所述文本进行交互以从所述文本中指定预定内容；

生成单元，用于经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的所述文本摘要。

本申请还公开了一种电子设备，包括存储器、处理器及存储在存储器中并可在处理器上运行的计算机程序，处理器执行程序时实现上述文本摘要生成方法的步骤。

图10为本申请提供的电子设备的结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑命令，以执行如下方法：接收待生成摘要的文本；通过人机交互生成文本摘要，所述通过人机交互生成文本摘要包括：用户与所述文本进行交互以从所述文本中指定用户所理解的能够体现所述文本的核心信息的预定内容；经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的文本摘要。

本申请还公开了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序指令，当程序指令被处理器执行时实现如下方法：接收待生成摘要的文本；通过人机交互生成文本摘要，所述通过人机交互生成文本摘要包括：用户与所述文本进行交互以从所述文本中指定用户所理解的能够体现所述文本的核心信息的预定内容；经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的文本摘要。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种文本摘要生成方法，其特征在于，包括：

接收待生成摘要的文本；

用户与所述文本进行交互以从所述文本中指定预定内容；所述预定内容包括：用户所理解的能够体现所述文本的核心信息的句子；

经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的文本摘要；

所述经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的文本摘要，包括：

根据所述文本的内容来融合所述预定内容，以使生成的文本摘要中的所述预定内容和所述预定内容的上下文之间通顺、连贯；

所述根据所述文本的内容来融合所述预定内容，以使生成的文本摘要中的所述预定内容和所述预定内容的上下文之间通顺、连贯，包括：

将所述预定内容所包含的句子作为关键句；

2.根据权利要求1所述的文本摘要生成方法，其特征在于，经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的文本摘要包括：

从所述至少一个摘要中选择最终的文本摘要。

3.根据权利要求2所述的文本摘要生成方法，其特征在于，从所述至少一个摘要中选择最终的文本摘要包括：

计算所生成的至少一个摘要的摘要序列平均分；

选择摘要序列平均分最高的摘要作为最终的文本摘要。

4.根据权利要求3所述的文本摘要生成方法，其特征在于，所述计算所生成的至少一个摘要的摘要序列平均分包括：

对摘要序列分数取对数后所得到的数值除以摘要序列长度，

5.根据权利要求2所述的文本摘要生成方法，其特征在于，经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的至少一个摘要包括：控制摘要重复。

6.根据权利要求5所述的文本摘要生成方法，其特征在于，所述控制摘要重复包括：

检测所述片段是否与已生成的摘要的内容重复；

7.根据权利要求1所述的文本摘要生成方法，其特征在于，所述通过人机交互生成文本摘要进一步包括：

经训练的文本摘要模型为所述文本生成初始文本摘要。

8.根据权利要求7所述的文本摘要生成方法，其特征在于，经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的文本摘要包括：

9.根据权利要求8所述的文本摘要生成方法，其特征在于，根据所述文本的内容且基于所述初始文本摘要和所述预定内容来生成文本摘要包括：

10.根据权利要求9所述的文本摘要生成方法，其特征在于，所述根据所述文本的内容来融合所述预定内容和至少部分所述初始文本摘要包括：

11.根据权利要求1所述的文本摘要生成方法，其特征在于，进一步包括：训练所述文本摘要模型，所述训练所述文本摘要模型在所述接收待生成摘要的文本之前且包括：

接收样本文本和与所述样本文本对应的标注摘要；

确定所述样本文本的关键句；

12.根据权利要求11所述的文本摘要生成方法，其特征在于，所述确定所述样本文本的关键句包括：

13.根据权利要求11所述的文本摘要生成方法，其特征在于，训练所述文本摘要模型进一步包括：

将迭代后的文本摘要模型作为所述经训练的文本摘要模型。

14.一种文本摘要生成装置，其特征在于，包括：

接收文本单元，用于接收待生成摘要的文本；

人机交互单元，用于通过人机交互生成文本摘要，

所述人机交互单元包括：

指定单元，用于用户与所述文本进行交互以从所述文本中指定预定内容，所述预定内容包括：用户所理解的能够体现所述文本的核心信息的句子；

生成单元，用于经训练的文本摘要模型根据所述文本的内容且基于至少所述预定内容来生成包括所述预定内容的所述文本摘要；

所述生成单元，进一步用于：

将所述预定内容所包含的句子作为关键句；

15.一种电子设备，包括存储器、处理器及存储在存储器中并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-13中任一项所述的文本摘要生成方法的步骤。

16.一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其特征在于，当所述程序被处理器执行时实现如权利要求1-13中任一项所述的文本摘要生成方法的步骤。