CN115982343B

CN115982343B - 摘要生成方法、训练摘要生成模型的方法及装置

Info

Publication number: CN115982343B
Application number: CN202310257447.6A
Authority: CN
Inventors: 袁正; 苑洪意; 李晨亮; 谭传奇; 黄松芳
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-08-22
Anticipated expiration: 2043-03-13
Also published as: CN115982343A

Abstract

本申请实施例公开了一种摘要生成方法、训练摘要生成模型的方法及装置，涉及人工智能技术领域。其中摘要生成方法包括：获取待处理文本；利用基于深度学习模型预先训练得到的摘要生成模型，针对待处理文本生成摘要文本；其中摘要生成模型包括编码模块和解码模块；编码模块对待处理文本进行编码处理，得到待处理文本中各元素Token的特征表示，从待处理文本中提取K个关键文本单元，将K个关键文本单元中各Token的特征表示输出至解码模块；解码模块利用K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，K为正整数。通过本申请能够提高针对长文本的摘要生成效果。

Description

摘要生成方法、训练摘要生成模型的方法及装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种摘要生成方法、训练摘要生成模型的方法及装置。

背景技术

利用人工智能技术将大量文本进行处理，产生简洁、精炼内容的过程就是摘要生成。人们可以通过阅读摘要来把握文本主要内容，节省时间，提高阅读效率。依赖于预训练模型的强大语言建模和生成能力，基于生成式语言模型的生成式摘要方法在多种摘要任务上取得了很好的效果，大幅度超过了抽取式的摘要方法。然而在很多场景下需要针对诸如新闻文本等长文本生成摘要，这些长文本篇幅较长且包含较多冗余的语言，目前的摘要生成方法对于这类长文本均效果较差。

发明内容

有鉴于此，本申请提供了一种摘要生成方法、训练摘要生成模型的方法及装置，以便于提高针对长文本的摘要生成效果。

本申请提供了如下方案：

第一方面，提供了一种摘要生成方法，所述方法包括：

获取待处理文本；

利用基于深度学习模型预先训练得到的摘要生成模型，针对所述待处理文本生成摘要文本；

其中所述摘要生成模型包括编码模块和解码模块；所述编码模块对所述待处理文本进行编码处理，得到所述待处理文本中各元素Token的特征表示，从所述待处理文本中提取K个关键文本单元，将所述K个关键文本单元中各Token的特征表示输出至所述解码模块；所述解码模块利用所述K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，所述K为正整数。

根据本申请实施例中一可实现的方式，所述编码模块包括编码子网络、整合子网络和分类子网络；

所述编码子网络对所述待处理文本进行编码处理，得到所述待处理文本中各Token的特征表示；

所述整合子网络利用所述待处理文本中各文本单元所包含Token的特征表示分别得到各文本单元的特征表示；

所述分类子网络利用所述各文本单元的特征表示对各文本单元进行分类，得到各文本单元是否为关键文本单元的分类结果。

根据本申请实施例中一可实现的方式，利用所述待处理文本中各文本单元所包含Token的特征表示分别得到各文本单元的特征表示包括：

针对各文本单元分别执行：利用文本单元所包含Token的特征表示进行池化处理得到该文本单元的特征表示，或者将文本单元所包含的起始符的特征表示作为该文本单元的特征表示。

根据本申请实施例中一可实现的方式，所述待处理文本为新闻文本，所述关键文本单元为关键句，所述摘要文本为所述新闻文本的新闻摘要；或者，

所述待处理文本为在线会议的会议记录，所述关键文本单元为关键句，所述摘要文本为所述会议记录的会议摘要。

第二方面，提供了一种摘要生成模型的训练方法，所述方法包括：

获取多个训练样本，所述训练样本包括文本样本以及所述文本样本的摘要样本；

利用所述多个训练样本训练基于深度学习模型的摘要生成模型，所述摘要生成模型包括编码模块和解码模块；所述编码模块对所述文本样本进行编码处理，得到所述文本样本中各Token的特征表示，从所述文本样本中提取K个关键文本单元，将所述K个关键文本单元中各Token的特征表示输出至所述解码模块；所述解码模块利用所述K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，所述K为正整数；所述训练的目标包括：最小化所述解码模块生成的摘要文本与所述文本样本的摘要样本之间的差异。

根据本申请实施例中一可实现的方式，所述训练样本还包括：所述文本样本被标注的关键文本单元标签；

所述训练目标进一步包括：最小化所述编码模块提取的关键文本单元与对应关键文本单元标签之间的差异。

根据本申请实施例中一可实现的方式，所述获取多个训练样本包括：

获取文本样本以及所述文本样本的摘要样本；

分别确定所述文本样本中各文本单元与所述摘要样本的匹配程度，选择对应匹配程度满足预设匹配要求的文本单元标注关键文本单元标签。

所述编码子网络对所述文本样本进行编码处理，得到所述文本样本中各Token的特征表示；

所述整合子网络利用所述文本样本中各文本单元所包含Token的特征表示分别得到各文本单元的特征表示；

根据本申请实施例中一可实现的方式，利用所述文本样本中各文本单元所包含Token的特征表示分别得到各文本单元的特征表示包括：

第三方面，提供了一种摘要生成方法，由云端服务器执行，所述方法包括：

获取来自用户终端的待处理文本；

利用基于深度学习模型预先训练得到的摘要生成模型，针对所述待处理文本生成摘要文本，并将所述摘要文本返回给所述用户终端；

第四方面，提供了一种摘要生成装置，所述装置包括：

文本获取单元，被配置为获取待处理文本；

摘要生成单元，被配置为利用基于深度学习模型预先训练得到的摘要生成模型，针对所述待处理文本生成摘要文本；其中所述摘要生成模型包括编码模块和解码模块；所述编码模块对所述待处理文本进行编码处理，得到所述待处理文本中各元素Token的特征表示，从所述待处理文本中提取K个关键文本单元，将所述K个关键文本单元中各Token的特征表示输出至所述解码模块；所述解码模块利用所述K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，所述K为正整数。

第五方面，提供了一种摘要生成模型的训练装置，所述装置包括：

样本获取单元，被配置为获取多个训练样本，所述训练样本包括文本样本以及所述文本样本的摘要样本；

模型训练单元，被配置为利用所述多个训练样本训练基于深度学习模型的摘要生成模型，所述摘要生成模型包括编码模块和解码模块；所述编码模块对所述文本样本进行编码处理，得到所述文本样本中各Token的特征表示，从所述文本样本中提取K个关键文本单元，将所述K个关键文本单元中各Token的特征表示输出至所述解码模块；所述解码模块利用所述K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，所述K为正整数；所述训练的目标包括：最小化所述解码模块生成的摘要文本与所述文本样本的摘要样本之间的差异。

根据第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

根据第七方面，提供了一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1）本申请的摘要生成模型首先从待处理文本中提取关键文本单元，然后利用关键文本单元中各Token的特征表示进行解码处理生成摘要。通过关键文本单元的提取，在保证待处理文本中关键语义的基础上，精简生成摘要时所基于的信息，从而降低待处理文本中的噪声影响，提高摘要生成的准确性和效率。

2）本申请在摘要生成模型的训练过程中，可以进一步结合文本样本被标注的关键文本单元标签，结合摘要生成任务和关键文本单元的提取任务进行模型训练，从整体上提高摘要生成模型的效果。

3）本申请中利用文本样本中各文本单元与摘要样本的匹配程度来选择对应匹配程度满足预设匹配要求的文本单元，以标注关键文本单元标签，从而实现了关键文本单元标签的自动标注，相比较人工标注的方式，大大节省了人工成本，提高了获取训练样本的效率。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为是本申请实施例所适用的系统架构图；

图2为本申请实施例提供的摘要生成方法的主要流程图；

图3为本申请实施例提供的摘要生成模型的原理性结构图；

图4为本申请实施例提供的训练摘要生成模型的方法流程图；

图5为本申请实施例提供的生成会议记录摘要的示意图；

图6为本申请实施例提供的摘要生成装置的示意性框图；

图7为本申请实施例提供的摘要生成模型的训练装置的示意性框图；

图8为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

传统的摘要生成方法大多采用端到端的模型对输入文本进行编码得到输入文本中各Token（元素）的特征表示后，再对各Token的特征表示进行解码从而生成输入文本的摘要。这种方式对于篇幅较长且包含较多冗余语言的长文本的摘要生成效果较差。

有鉴于此，本申请提供了一种全新的摘要提取思路。为了方便对本申请的理解，首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示例性系统架构，如图1中所示，该系统架构可以包括模型训练装置和摘要生成装置。

其中，模型训练装置在获取训练数据后，可以采用本申请实施例提供的方法进行模型训练，得到摘要生成模型。模型训练装置可以采用离线方式建立摘要生成模型。

摘要生成装置利用摘要生成模型针对输入的长文本生成摘要。摘要生成装置可以在线进行摘要的生成，也可以采用离线的方式进行摘要的生成。

模型训练装置和摘要生成装置可以分别设置为独立的服务器，也可以设置于同一个服务器或服务器群组，还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器（VPs，Virtual Private Server）服务中存在的管理难度大，服务扩展性弱的缺陷。模型训练装置和摘要生成装置还可以设置于具有较强计算能力的计算机终端。

应该理解，图1中的模型训练装置、摘要生成装置和摘要生成模型的数目仅仅是示意性的。根据实现需要，可以具有任意数目的模型训练装置、摘要生成装置和摘要生成模型。

图2为本申请实施例提供的摘要生成方法的主要流程图，该方法可以由图1所示系统中的文本摘要生成装置执行。如图2中所示，该方法可以包括以下步骤：

步骤202：获取待处理文本。

步骤204：利用基于深度学习模型预先训练得到的摘要生成模型，针对待处理文本生成摘要文本；其中摘要生成模型包括编码模块和解码模块；编码模块对待处理文本进行编码处理，得到待处理文本中各Token的特征表示，从待处理文本中提取K个关键文本单元，将K个关键文本单元中各Token的特征表示输出至解码模块；解码模块利用K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，K为正整数。

由上述流程可以看出，本申请的摘要生成模型首先从待处理文本中提取关键文本单元，然后利用关键文本单元中各Token的特征表示进行解码处理生成摘要。通过关键文本单元的提取，在保证待处理文本中关键语义的基础上，精简生成摘要时所基于的信息，从而降低待处理文本中的噪声影响，提高摘要生成的准确性和效率。

下面结合实施例分别对上述流程中的各步骤进行详细描述。首先对上述步骤202即“获取待处理文本”进行详细描述。

本申请实施例中涉及的待处理文本指的是需要从中提取摘要的文本。在本申请实施例中，该待处理文本可以是长文本，也可以是短文本。也就是说，本申请实施例提供的方式对待处理文本的长度没有限制，不仅能够实现短文本的摘要提取，也可以实现长文本的摘要提取。其中“长文本”和“短文本”是一个相对的概念，具体的标准可以自定义。例如可以将少于512个字符的文本称为短文本，将多于或等于512个字符的文本称为长文本。

待处理文本可以从存储文本的数据库中获取，也可以从生成该待处理文本的系统中获取。例如，在线会议服务可以针对用户的会议内容生成会议记录，本申请实施例中的摘要生成装置可以从在线会议服务端获取该会议记录。在线会议服务可以将会议记录持久化至数据库中，本申请实施例中的文本摘要生成装置可以在获取到摘要生成指令后，从该数据库中获取会议记录作为待处理文本。再例如，在线新闻服务可以在线展示新闻文本，这些新闻文本存储于在线新闻服务端的数据库中，本申请实施例中的摘要生成装置可以在获取到摘要生成指令后，从该数据库中获取新闻文本作为待处理文本。

下面结合实施例对上述步骤204即“利用基于深度学习模型预先训练得到的摘要生成模型，针对待处理文本生成摘要文本”进行详细描述。

本申请采用的摘要生成模型采用encoder（编码器）-decoder（解码器）框架，但在encoder端增加了关键文本单元的抽取任务。具体地，摘要生成模型的结构可以如图3中所示，主要包括编码模块和解码模块。

其中，编码模块对待处理文本进行编码处理，得到待处理文本中各Token的特征表示，从待处理文本中提取K个关键文本单元，将K个关键文本单元中各Token的特征表示输出至解码模块。

本步骤中涉及的文本单元可以是段落、句子、短语等文本单元。作为其中一种较为优选的方式，后续实施例中均以句子为例，即关键句作为关键文本单元为例进行描述。从待处理文本中提取的关键文本单元可以是一个，也可以是多个。

本申请中进行关键文本单元的提取是考虑到在一些长文本中，虽然存在很多噪声即一些无关的或者冗余语义的表达，但文本中会包含一些高度简洁且表达文本整体语义的文本单元，例如一些总结性的句子、点题的句子、围绕中心思想的句子等等。如果能将这些句子提取出来用于后续摘要生成，则能够使得生成的摘要更加精准且降低因冗余语句所带来的计算量。

作为其中一种可实现的方式，编码模块可以具体包括编码子网络、整合子网络和分类子网络。

编码子网络对待处理文本进行编码处理，得到待处理文本中各Token的特征表示。

更具体地，编码子网络可以首先对待处理文本中的各Token（元素）进行Embedding（嵌入）处理，得到各Token的Embedding结果；然后对各Token的嵌入结果进行编码，得到各Token的特征表示。

其中，编码子单元可以采用Transformer（转换层）网络实现，例如可以基于预训练语言模型实现，预训练语言模型可以采用诸如BERT（Bidirectional EncoderRepresentation from Transformers，基于转换的双向编码表示）模型、GPT（GenerativePre-Training，生成式预训练）模型、XLNet（一种通过排列语言模型实现双向上下文信息的自回归模型）、T5（Transfer Text-to-Text Transformer，文本到文本转换）模型等。

本申请实施例中涉及的Token指的是文本（例如上述的待处理文本）中的元素，Token构成的序列与该文本相对应。其中，Token可以是字符、词语、起始符或分隔符等。

上述Embedding处理可以包括：词Embedding、位置Embedding、句Embedding。词Embedding，即将各Token进行词向量编码，得到词向量表示。位置Embedding，即将各Token在待预测文本序列中的位置进行编码，得到位置的表示。例如可以依据各Token在文本序列中的位置依次编号为0、1、2、3、4、5和6等。句Embedding是将各Token所在的句子信息进行编码，得到所属句子的表示。例如将位于第1个句子的各Token编码为0，将位于第2个句子的各Token编码为1，等等。

整合子网络利用待处理文本中各文本单元所包含Token的特征表示分别得到各文本单元的特征表示。

具体地，可以针对各文本单元分别执行：利用文本单元所包含Token的特征表示进行池化处理得到该文本单元的特征表示。例如，对于待处理文本中的句子，可以对该句子/>中各Token的特征表示进行诸如平均池化、最大池化等处理后，得到句子/>的特征表示/>。

除了进行池化处理之外，也可以将文本单元所包含的第一个Token即起始符的特征表示作为该文本单元的特征表示。例如，对于待处理文本中的句子，该句子/>的起始符表示为[CLS]，可以将该起始符的特征表示/>作为句子/>的特征表示/>。

分类子网络利用各文本单元的特征表示对各文本单元进行分类，得到各文本单元是否为关键文本单元的分类结果。分类子网络实际上是一个二分类网络，例如利用各句子的特征表示对句子进行分类，分类结果为：关键句或非关键句。经过分类子网络对各句子进行分类后，就能够得到待处理文本中的关键句的信息，即哪个或哪些句子是关键句。

确定出关键文本单元后，编码模块仅将关键文本单元中各Token的特征表示输出给解码模块。由解码模块利用K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，K为正整数。解码模块可以采用Transformer网络实现的自回归解码器。

假设待处理文本为，其中包含有/>个句子/>，每个句子中包含若干Token，例如/>中的第/>个Token表示为/>。经过编码模块中编码子网络可以得到各Token的特征表示/>。整合子网络对各句子中的Token的特征表示进行平均池化处理，得到各句子的特征表示，例如句子/>的特征表示为/>。分类子网络依据各句子的特征表示进行分类，输出其中的关键句信息。提取的关键句构成的关键句集合表示为/>，那么各关键句中各Token的特征表示为/>，/>。这些关键句的各Token的特征表示输出给解码模块，如图3中所示，在每一个时间步预测得到的摘要中的Token，会用于下一个时间步的预测。也就是说，解码模块在每一个时间步利用各关键句中Token的特征表示以及已经预测得到的摘要中的各Token来进行当前时间步所对应Token的预测。时间步/>预测得到的摘要中的Token表示为/>。其中，<bos>为序列开始标记。

除了自回归解码器之外，解码模块也可以采用其他形式的解码器来实现从各Token的特征表示到文本序列（即摘要）的解码预测。

上述实施例中涉及的摘要生成模型是预先训练得到的。图4为本申请实施例提供的训练摘要生成模型的方法流程图，该方法可以由图1所示架构中的模型训练装置执行。如图4中所示，该方法可以包括以下步骤：

步骤402：获取多个训练样本，训练样本包括文本样本以及文本样本的摘要样本。

在训练摘要生成模型时，可以选取一些已具有摘要的文本作为文本样本，具有的摘要作为摘要样本。也可以选取一些文本作为文本样本，然后人工为文本样本生成摘要作为摘要样本。

更进一步地，上述训练样本还可以包括文本样本被标注的关键文本单元标签。作为其中一种可实现的方式，文本样本的关键文本单元标签可以采用人工方式进行标注。由于人工标注的方式效率较低，可以采用一些方式自动确定文本样本的关键文本单元。

作为其中一种可实现的方式，可以确定文本样本中各文本单元与摘要样本的匹配程度，选择对应匹配程度满足预设匹配要求的文本单元标注关键文本单元标签。例如，可以分别计算文本单元中各句子与摘要文本的匹配程度，选择对应匹配程度排在前K个的句子作为关键句，K为预设的正整数。或者选择对应匹配程度大于或等于预设匹配度阈值的句子作为关键句。

其中，在确定各文本单元与摘要样本的匹配程度时，可以将摘要样本作为参考摘要，采用计算文本单元的ROUGE（Recall-Oriented Understudy for Gisting Evaluation，基于召回的摘要评估）评分的方式。其中文本单元的ROUGE评分可以由文本单元与摘要样本中相同的N-gram（N元语法）数除以摘要样本中的N-gram总数得到。其中，N-gram的含义是按照字符进行大小为N的滑动窗口操作所形成的N个字符序列，N取预设的正整数，例如取1、2、3或4等。鉴于ROUGE评分是目前已有的一个指标，在此不做详述。

除了计算ROUGE评分之外，还可以采用其他计算文本相似度的方式计算文本单元与摘要单元之间的文本相似度来作为匹配程度。

另外，还可以采用其他方式对文本样本中的各文本单元进行打分，得到各文本单元的评分值，将评分值满足预设要求的文本单元作为关键文本单元。例如，可以统计句子中包含各词语的TF（term frequency，词频）-IDF（inverse document frequency，逆文档率），基于各词语的TF-IDF对该句子进行打分。

步骤404：利用多个训练样本训练基于深度学习模型的摘要生成模型，摘要生成模型包括编码模块和解码模块；编码模块对文本样本进行编码处理，得到文本样本中各Token的特征表示，从文本样本中提取K个关键文本单元，将K个关键文本单元中各Token的特征表示输出至解码模块；解码模块利用K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，K为正整数；训练的目标包括：最小化解码模块生成的摘要文本与文本样本的摘要样本之间的差异。

摘要生成模型的结构可以采用图3中所示。作为其中一种可实现的方式，编码模块可以具体包括编码子网络、整合子网络和分类子网络。

编码子网络可以首先对文本样本中的各Token进行Embedding处理，得到各Token的Embedding结果；然后对各Token的嵌入结果进行编码，得到各Token的特征表示。

整合子网络利用文本样本中各文本单元所包含Token的特征表示分别得到各文本单元的特征表示。

具体地，可以针对各文本单元分别执行：利用文本单元所包含Token的特征表示进行池化处理得到该文本单元的特征表示。其中池化处理可以是诸如平均池化、最大池化等处理。除了进行池化处理之外，也可以将文本单元所包含的起始符的特征表示作为该文本单元的特征表示。

分类子网络利用各文本单元的特征表示对各文本单元进行分类，得到各文本单元是否为关键文本单元的分类结果。分类子网络实际上是一个二分类网络，例如利用各句子的特征表示对句子进行分类，分类结果为：关键句或非关键句。

训练摘要生成模型时，采用的训练目标除了包括最小化解码模块生成的摘要文本与文本样本的摘要样本之间的差异之外，还可以进一步包括最小化编码模块提取的关键文本单元与对应关键文本单元标签之间的差异。可以分别针对这两个训练目标的内容设计两个损失函数，loss1和loss2，然后综合loss1和loss2得到总损失函数，例如将loss1和loss2进行求和或加权求和等，得到总损失函数。在每一轮迭代中，可以依据总损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如总损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

其中，对于最小化解码模块生成的摘要文本与文本样本的摘要样本之间的差异的训练目标，作为其中一种可实现的方式，可以理解为最大化解码模块输出摘要样本的最大似然概率。例如，loss1可以采用如下公式：

loss1= （1）

为摘要生成模型的模型参数，/>为摘要样本中的第/>个Token。/>为摘要样本中的第j个Token。/>是全称量词，指的是对于所有的。/>为条件概率。

除了公式（1）示出的训练方式之外，对于该训练目标还可以采用其他训练方法，或者与其他增强训练方法相结合。例如可以采用SimCLS（A Simple Framework forContrastive Learning of Abstractive Summarization，摘要生成的对比学习简单框架）的训练方法。SimCLS是在摘要生成模型之后加上了一个无参考摘要（即摘要样本）的候选摘要打分模型，该打分模型的训练采用了对比学习的思想。SimCLS可以缓解序列到序列框架固有的目标函数和评价指标不一致的问题，从而可以从模型生成的候选摘要中筛选出真实的评价指标（例如ROUGE）打分更高的摘要。鉴于SimCLS为目前已有的技术，在此不做详述。

最小化编码模块提取的关键文本单元与对应关键文本单元标签之间的差异实际上是最大化编码模块将关键文本单元标签分类为关键文本单元的概率。例如，loss2可以采用如下公式：

Loss2= （2）

其中，若文本单元为关键文本单元，则/>取1，否则/>取0。

作为其中一种可实现的方式，上述摘要生成方法可以由云端服务器执行，也就是说在云端集成摘要生成的功能。云端服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器（VPS，Virtual PrivateServer）服务中存在的管理难度大，服务扩展性弱的缺陷。

当用户希望从一篇文档中提取摘要时，可以将该文档作为待处理文本，通过用户终端上传待处理文本至云端服务器。

上述用户终端可以是但不限于诸如：手机、平板电脑、笔记本电脑、PDA（PersonalDigital Assistant，个人数字助理）、可穿戴式设备、PC（Personal Computer，个人计算机）等。

云端服务器获取来自用户终端的待处理文本；然后利用基于深度学习模型预先训练得到的摘要生成模型，针对该待处理文本生成摘要文本，并将该摘要文本返回给用户终端。

其中摘要生成模型包括编码模块和解码模块；编码模块对待处理文本进行编码处理，得到待处理文本中各元素Token的特征表示，从待处理文本中提取K个关键文本单元，将K个关键文本单元中各Token的特征表示输出至解码模块；解码模块利用K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，K为正整数。摘要生成模型的具体实现过程可以参见上面实施例中的相关记载，在此不做赘述。

本申请实施例提供的上述方法可以应用于多种应用场景，包括但不限于：

应用场景1、在线会议记录的摘要提取

随着全球市场化持续增长，在线会议服务越来越多地被使用，用户可以使用在线会议软件进行网络会议、参与课堂教学、足不出户远程面试、创办讲座和论坛等。用户还可以一边进行视频会议，一边进行信息的记录和传输。

在线会议服务对会议过程中的语音进行语音识别后生成在线会议的会议记录。该在线会议记录中除了语音识别的结果之外，还可以包括用户在会议界面中输入的文字信息、文档信息等等。为了方便用户了解会议的主要内容，需要针对会议记录生成会议摘要。由于会议、讲座、面试等场景存在持续时间久、包含较多冗余表达等特点，因此如图5中所示，摘要生成装置可以采用本申请实施例所提供的方法从在线会议服务的服务器端获取会议记录作为待处理文本。然后将会议记录输入摘要生成模型，由摘要生成模型对会议记录进行编码处理，得到会议记录中各Token的特征表示，从会议记录中提取关键句；然后仅对关键句中的各Token进行解码处理，得到待处理文本即会议记录的摘要。

会议记录的摘要可以自动发送给该在线会议的各参与者。也可以将该会议记录与摘要关联存储至数据库，以便后续响应于用户的请求将该会议记录的摘要发送给用户，等等。

通过本申请实施例提供的方式，在针对会议记录生成摘要时通过关键句的提取，为摘要的生成提供指导，使得摘要生成模型能够聚焦会议记录中的关键内容，降低噪声的影响。另一方面，在保证会议记录中关键语义的基础上，精简生成摘要时所基于的信息，从而提高了摘要生成的效率。

应用场景二、新闻摘要提取

随着互联网的广泛使用，互联网上的文档数据呈爆炸式的增长，出现了大量的新闻等文档，并在一些数据平台上提供这些新闻等文档的阅读。为了方便用户快速了解这些文档的内容，通常需要针对这些文档生成摘要并在平台上提供摘要供用户阅读和参考。在这种应用场景下，也可以采用本申请实施例中提供的方式，将诸如新闻等文档作为待处理文本生成摘要。具体过程在此不做赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种摘要生成装置。图6示出根据一个实施例的摘要生成装置的示意性框图。如图6所示，该装置600包括：文本获取单元601和摘要生成单元602。其中各组成单元的主要功能如下：

文本获取单元601，被配置为获取待处理文本。

本申请实施例中涉及的待处理文本指的是需要从中提取摘要的文本。在具体应用场景下上述待处理文本可以是不同的内容，例如，在线会议场景下，上述待处理文本为在线会议的会议记录。在新闻平台场景下，上述待处理文本为新闻平台的新闻文本。文本获取单元601可以直接从服务端获取上述待处理文本，也可以从服务端的数据库中获取上述待处理文本。

摘要生成单元602，被配置为利用基于深度学习模型预先训练得到的摘要生成模型，针对待处理文本生成摘要文本；其中摘要生成模型包括编码模块和解码模块；编码模块对待处理文本进行编码处理，得到待处理文本中各元素Token的特征表示，从待处理文本中提取K个关键文本单元，将K个关键文本单元中各Token的特征表示输出至解码模块；解码模块利用K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，K为正整数。

作为其中一种可实现的方式，编码模块包括编码子网络、整合子网络和分类子网络。

分类子网络利用各文本单元的特征表示对各文本单元进行分类，得到各文本单元是否为关键文本单元的分类结果。

作为其中一种可实现的方式，利用待处理文本中各文本单元所包含Token的特征表示分别得到各文本单元的特征表示包括：

摘要生成模型的结构和原理可以采用图3中方法实施例的相关记载，在此不做赘述。

根据再一方面的实施例，提供了一种摘要生成模型的训练装置。图7示出根据一个实施例的摘要生成模型的训练装置的示意性框图，该装置即图1所示系统架构中的模型训练装置。如图7所示，该装置700包括：样本获取单元701和模型训练单元702。其中各组成单元的主要功能如下：

样本获取单元701，被配置为获取多个训练样本，训练样本包括文本样本以及文本样本的摘要样本。

模型训练单元702，被配置为利用多个训练样本训练基于深度学习模型的摘要生成模型，摘要生成模型包括编码模块和解码模块；编码模块对文本样本进行编码处理，得到文本样本中各Token的特征表示，从文本样本中提取K个关键文本单元，将K个关键文本单元中各Token的特征表示输出至解码模块；解码模块利用K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，K为正整数；训练的目标包括：最小化解码模块生成的摘要文本与文本样本的摘要样本之间的差异。

作为其中优选的实施方式，样本获取单元701获取的训练样本还包括：文本样本被标注的关键文本单元标签。

模型训练单元702采用的上述训练目标进一步包括：最小化编码模块提取的关键文本单元与对应关键文本单元标签之间的差异。

作为其中一种可实现的方式，样本获取单元701可以具体被配置为：获取文本样本以及文本样本的摘要样本；分别确定文本样本中各文本单元与摘要样本的匹配程度，选择对应匹配程度满足预设匹配要求的文本单元标注关键文本单元标签。

其中，样本获取单元701在确定文本样本中各文本单元与摘要样本的匹配程度时，可以将摘要样本作为参考摘要，采用计算文本单元的ROUGE评分的方式。其中文本单元的ROUGE评分可以由文本单元与摘要样本中相同的N-gram数除以摘要样本中的N-gram总数得到。

另外，还可以采用其他方式对文本样本中的各文本单元进行打分，得到各文本单元的评分值，将评分值满足预设要求的文本单元作为关键文本单元。例如，可以统计句子中包含各词语的TF-IDF，基于各词语的TF-IDF对该句子进行打分。

作为其中一种可实现的方式，上述编码模块可以包括编码子网络、整合子网络和分类子网络。

编码子网络对文本样本进行编码处理，得到文本样本中各Token的特征表示。

整合子网络利用文本样本各文本单元所包含Token的特征表示分别得到各文本单元的特征表示。

其中，上述整合子网络可以针对各文本单元分别执行：利用文本单元所包含Token的特征表示进行池化处理得到该文本单元的特征表示，或者将文本单元所包含的起始符的特征表示作为该文本单元的特征表示。

具体地，模型训练单元702可以分别针对这两个训练目标（最小化解码模块生成的摘要文本与文本样本的摘要样本之间的差异，以及，最小化编码模块提取的关键文本单元与对应关键文本单元标签之间的差异）的内容设计两个损失函数，loss1和loss2，然后综合loss1和loss2得到总损失函数，例如将loss1和loss2进行求和或加权求和等，得到总损失函数。在每一轮迭代中，可以依据总损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如总损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

其中，图8示例性的展示出了电子设备的架构，具体可以包括处理器810，视频显示适配器811，磁盘驱动器812，输入/输出接口813，网络接口814，以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820之间可以通过通信总线830进行通信连接。

其中，处理器810可以采用通用的CPU、微处理器、应用专用集成电路（ApplicationSpecific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器820可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作系统821，用于控制电子设备800的低级别操作的基本输入输出系统(BIOS) 822。另外，还可以存储网页浏览器823，数据存储管理系统824，以及摘要生成装置/模型训练装置825等等。上述摘要生成装置/模型训练装置825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行。

输入/输出接口813用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口814用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线830包括一通路，在设备的各个组件（例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，存储器820，总线830等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种摘要生成方法，其特征在于，所述方法包括：

获取待处理文本；

其中所述摘要生成模型包括编码模块和解码模块；所述编码模块对所述待处理文本进行编码处理，得到所述待处理文本中各元素Token的特征表示，从所述待处理文本中提取K个关键文本单元，将所述K个关键文本单元中各Token的特征表示输出至所述解码模块；所述解码模块利用所述K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，所述K为正整数；其中所述解码模块在每一个时间步利用所述K个关键文本单元中Token的特征表示以及已经预测得到的摘要中的各Token来进行当前时间步所对应摘要中的Token的预测；

所述摘要生成模型在所述训练的过程中是利用预设的总损失函数更新所述摘要生成模型的模型参数得到的。

2.根据权利要求1所述的方法，其特征在于，所述编码模块包括编码子网络、整合子网络和分类子网络；

3.根据权利要求2所述的方法，其特征在于，利用所述待处理文本中各文本单元所包含Token的特征表示分别得到各文本单元的特征表示包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述待处理文本为新闻文本，所述关键文本单元为关键句，所述摘要文本为所述新闻文本的新闻摘要；或者，

5.一种摘要生成模型的训练方法，其特征在于，所述方法包括：

利用所述多个训练样本训练基于深度学习模型的摘要生成模型，所述摘要生成模型包括编码模块和解码模块；所述编码模块对所述文本样本进行编码处理，得到所述文本样本中各Token的特征表示，从所述文本样本中提取K个关键文本单元，将所述K个关键文本单元中各Token的特征表示输出至所述解码模块；所述解码模块利用所述K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，所述K为正整数；其中所述解码模块在每一个时间步利用所述K个关键文本单元中Token的特征表示以及已经预测得到的摘要中的各Token来进行当前时间步所对应摘要中的Token的预测；所述训练的目标包括：最小化所述解码模块生成的摘要文本与所述文本样本的摘要样本之间的差异；

其中，在所述训练的过程中利用预设的总损失函数更新所述摘要生成模型的模型参数，所述总损失函数由所述训练的目标得到。

6.根据权利要求5所述的方法，其特征在于，所述训练样本还包括：所述文本样本被标注的关键文本单元标签；

7.根据权利要求6所述的方法，其特征在于，所述获取多个训练样本包括：

获取文本样本以及所述文本样本的摘要样本；

8.根据权利要求5所述的方法，其特征在于，所述编码模块包括编码子网络、整合子网络和分类子网络；

9.根据权利要求8所述的方法，其特征在于，利用所述文本样本中各文本单元所包含Token的特征表示分别得到各文本单元的特征表示包括：

10.一种摘要生成方法，由云端服务器执行，其特征在于，所述方法包括：

获取来自用户终端的待处理文本；

11.一种摘要生成装置，其特征在于，所述装置包括：

文本获取单元，被配置为获取待处理文本；

摘要生成单元，被配置为利用基于深度学习模型预先训练得到的摘要生成模型，针对所述待处理文本生成摘要文本；其中所述摘要生成模型包括编码模块和解码模块；所述编码模块对所述待处理文本进行编码处理，得到所述待处理文本中各元素Token的特征表示，从所述待处理文本中提取K个关键文本单元，将所述K个关键文本单元中各Token的特征表示输出至所述解码模块；所述解码模块利用所述K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，所述K为正整数；其中所述解码模块在每一个时间步利用所述K个关键文本单元中Token的特征表示以及已经预测得到的摘要中的各Token来进行当前时间步所对应摘要中的Token的预测；

其中，所述摘要生成模型在所述训练的过程中是利用预设的总损失函数更新所述摘要生成模型的模型参数得到的。

12.一种摘要生成模型的训练装置，其特征在于，所述装置包括：

模型训练单元，被配置为利用所述多个训练样本训练基于深度学习模型的摘要生成模型，所述摘要生成模型包括编码模块和解码模块；所述编码模块对所述文本样本进行编码处理，得到所述文本样本中各Token的特征表示，从所述文本样本中提取K个关键文本单元，将所述K个关键文本单元中各Token的特征表示输出至所述解码模块；所述解码模块利用所述K个关键文本单元中各Token的特征表示进行解码处理，生成摘要文本，所述K为正整数；其中所述解码模块在每一个时间步利用所述K个关键文本单元中Token的特征表示以及已经预测得到的摘要中的各Token来进行当前时间步所对应摘要中的Token的预测；所述训练的目标包括：最小化所述解码模块生成的摘要文本与所述文本样本的摘要样本之间的差异；

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至10中任一项所述的方法的步骤。