CN111026861B

CN111026861B - 文本摘要的生成方法、训练方法、装置、设备及介质

Info

Publication number: CN111026861B
Application number: CN201911259066.1A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2023-07-04
Anticipated expiration: 2039-12-10
Also published as: CN111026861A

Abstract

本申请公开了一种文本摘要的生成方法、装置、设备及介质，所述方法属于计算机视觉领域，所述方法包括：获取文本内容；将所述文本内容输入编码层，得到所述文本内容的隐层嵌入向量；所述编码层是基于抽取式摘要生成模型和生成式摘要生成模型的协同训练得到的；将所述隐层嵌入向量输入所述抽取式摘要生成模型或所述生成式摘要生成模型进行处理，输出所述文本摘要。本申请能够综合抽取式摘要生成和生成式摘要生成两种方式各自的优点，从而使得最终输出的文本摘要能够更好地概括文本内容的内容特性。

Description

文本摘要的生成方法、训练方法、装置、设备及介质

技术领域

本申请实施例涉及人机交互领域，特别涉及一种文本摘要的生成方法、训练方法、装置、设备及介质。

背景技术

文本摘要生成是提取文本内容的浓缩内容的过程。对于互联网资讯产品，将好的文本摘要展示在产品界面，会极大地提高用户阅读效率，吸引用户阅读欲望。由于互联网资讯产品的内容源非常广泛，依赖人工写摘要几乎是不可能的任务，所以自动摘要技术越来越受青睐。

目前的自动摘要技术主要分为：抽取式摘要生成和生成式摘要生成。抽取式摘要生成是抽取文本内容中的重要句子作为摘要，生成式摘要生成是模仿人类写作过程写一段自己的话来做总结。显然，后者更符合人们对摘要的预期，也更能吸引用户阅读。

虽然抽取式摘要生成和生成式摘要生成各有优点，但相关技术中只会根据应用场景使用其中一种摘要生成方式，所生成的摘要质量较差。

发明内容

本申请实施例提供了一种文本摘要的生成方法、训练方法、装置、设备及介质，可以解决虽然抽取式摘要生成和生成式摘要生成各有优点，但相关技术中只会根据应用场景使用其中一种摘要生成方式，所生成的摘要质量较差。所述技术方案如下：

根据本申请的一个方面，提供了一种文本摘要的生成方法，所述方法包括：

获取文本内容；

将所述文本内容输入编码层，得到所述文本内容的隐层嵌入向量；所述编码层是基于抽取式摘要生成模型和生成式摘要生成模型的协同训练得到的；

将所述隐层嵌入向量输入所述抽取式摘要生成模型或所述生成式摘要生成模型进行处理，输出所述文本摘要。

根据本申请的一个方面，提供了一种用于文本摘要生成的模型训练方法，所述方法包括：

获取摘要生成模型，所述摘要生成模型包括：编码层、与所述编码层相连的抽取式摘要生成模型和生成式摘要生成模型；

采用第一训练样本和第二训练样本对所述摘要生成模型进行协同训练，所述第一训练样本是所述抽取式摘要生成模型对应的训练样本，所述第二训练样本是所述生成式摘要生成模型对应的训练样本；

在满足训练结束条件时，得到训练后的摘要生成模型。

根据本申请的一个方面，提供了一种文本摘要的生成装置，所述装置包括：

获取模块，用于获取文本内容；

特征提取模块，用于将所述文本内容输入编码层，得到所述文本内容的隐层嵌入向量；所述编码层是基于抽取式摘要生成模型和生成式摘要生成模型的协同训练得到的；

摘要生成模块，用于将所述隐层嵌入向量输入所述抽取式摘要生成模型或所述生成式摘要生成模型进行处理，输出所述文本摘要。

根据本申请的一个方面，提供了一种用于文本摘要生成的模型训练装置，其特征在于，所述装置包括：

获取模块，用于获取摘要生成模型，所述摘要生成模型包括：编码层、与所述编码层相连的抽取式摘要生成模型和生成式摘要生成模型；

训练模块，用于采用第一训练样本和第二训练样本对所述摘要生成模型进行协同训练，所述第一训练样本是所述抽取式摘要生成模型对应的训练样本，所述第二训练样本是所述生成式摘要生成模型对应的训练样本；

输出模块，用于在满足训练结束条件时，得到训练后的摘要生成模型。

根据本申请的另一方面，提供了一种计算机设备(或装置)，所述计算机设备包括存储器和处理器；所述存储器存储有至少一条程序，所述至少一条程序由所述处理器加载并执行以实现如上所述的用于文本摘要生成的模型训练方法或文本摘要的生成方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序，所述至少一条程序由处理器加载并执行以实现如上所述的用于文本摘要生成的模型训练方法或文本摘要的生成方法。

根据本申请的另一方面，提供了一种计算机程序产品，所述计算机程序产品中存储有至少一条程序，所述至少一条程序由处理器加载并执行以实现如上所述的用于文本摘要生成的模型训练方法或文本摘要的生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过基于抽取式摘要生成模型和生成式摘要生成模型的协同训练得到编码层，通过编码层来提取文本内容的隐层嵌入向量，能够综合抽取式生成和生成式生成两种生成方式各自的优点，从而使得最终输出的文本摘要能够更好地概括文本内容的内容特性，将两者互为补充来分享编码层的底层参数，增强整个模型的表示能力，同时可灵活用在抽取式摘要生成和生成式摘要生成的场景中。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的一种计算机系统的示意图；

图2是本申请另一个示例性实施例提供的摘要生成模型的框图；

图3是本申请另一个示例性实施例提供的用于文本摘要生成的模型训练方法的流程图；

图4是本申请另一个示例性实施例提供的用于文本摘要生成的模型训练方法的流程图；

图5是本申请另一个示例性实施例提供的用于文本摘要生成的模型训练方法的原理图；

图6是本申请另一个示例性实施例提供的文本摘要的生成方法的流程图；

图7是本申请另一个示例性实施例提供的文本摘要的生成方法的原理图；

图8是本申请另一个示例性实施例提供的用于文本摘要生成的模型训练装置的框图；

图9是本申请另一个示例性实施例提供的文本摘要的生成方法的应用场景示意图；

图10是本申请另一个示例性实施例提供的文本摘要的生成装置的框图；

图11是本申请另一个示例性实施例提供的一种计算机设备的框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区域分开。例如，在不脱离各种所述示例的范围的情况下，第一方向可以被称为第二方向，并且类似地，第二方向可以被称为第一方向。第一方向和第二方向都可以是方向，并且在某些情况下，可以是单独且不同的方向。

在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示例，而并非旨在进行限制。如在对各种所述示例的描述和所附权利要求书中所使用的那样，单数形式“一个(“a”，“an”)”和“该”旨在也包括复数形式，除非上下文另外明确地指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”(“inCludes”“inCluding”“Comprises”和/或“Comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。

根据上下文，术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

首先对本申请涉及的若干个名词进行简介：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

抽取式(extraction)摘要生成：直接从原始的文本内容中选择若干条重要的句子，并对它们进行排序和重组而形成摘要的方法。通常而言，抽取式方法可以分为两大类：无监督抽取式方法和有监督抽取式方法。无监督抽取式方法不需要平行语料对来进行训练，略去了人工标记语料的繁琐，因此在很多场景下都得到了广泛的应用。随着机器学习和深度学习技术的发展，抽取式摘要的研究逐渐偏向于有监督方向。在有监督方法中，文本摘要被看作二分类问题，通过神经网络来学习句子及其标签之间的对应关系。

生成式(abstraction)摘要生成：相比抽取式方法，生成式方法(可以生成原文中不存在的新词，同时引入了语言模型来保证摘要具有高的连贯性和可读性。本文对生成式摘要的介绍分为两方面：无监督生成式摘要和有监督生成式摘要。无监督生成式摘要通常对原文中的单词和短语进行图层面的建模，然后通过彼此之间的语义依存关系选择若干个单词进行排列组合组成摘要。由于该方法并非直接选择句子组成摘要，而将最小的语义单元换成了单词，所以也可以看作一种生成式摘要。有监督生成式摘要大都基于Seq2Seq(序列到序列)+Attention(注意力)框架。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理技术，具体通过如下实施例进行说明。

由于抽取式摘要生成具有训练时间短，且能够提取原始的文本内容的主要思想的优点；而生成式摘要生成具有连贯摘要的优点。因此本申请实施例尝试将两种模型进行网络融合，并尝试将两种模型的损失函数进行联合训练，从而达到较好的效果。

图1出了本申请一个示例性实施例提供的计算机系统的结构示意图，该计算机系统包括终端120和计算机设备140。

终端120与计算机设备140之间通过有线或者无线网络相互连接。

可选地，终端120可以包括笔记本电脑、台式电脑、智能手机、平板电脑、智能音箱、智能机器人中的至少一种。

终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序，第一程序是具有阅读电子资讯或电子书籍能力的程序，该第一程序是由计算机设备140提供的。第一程序包括但不限于：新闻阅读程序、资讯阅读程序、社交程序、电子书阅读程序、论文阅读程序、文档阅读程序，或者具有前述一种或多种阅读能力的多功能程序。

第一存储器可以包括但不限于以下几种：随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read Only Memory，ROM)、可编程只读存储器(ProgrammableRead-Only Memory，PROM)、可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)。

第一处理器可以是一个或者多个集成电路芯片组成。可选地，第一处理器可以是通用处理器，比如，中央处理器(Central Processing Unit，CPU)或者网络处理器(NetworkProcessor，NP)。

可选地，第一处理器120从计算机设备140获取电子资讯，以及该电子资讯的摘要；或从计算机设备140获取电子书籍，以及该电子书籍的摘要。

可选地，终端120中包括显示器；显示器用于显示电子资讯，以及该电子资讯的摘要；或电子书籍，以及该电子书籍的摘要。

计算机设备140包括第二存储器和第二处理器。第二存储器中存储有第二程序，上述第二程序被第二处理器调用来实现本申请提供的用于文本摘要生成的模型训练方法，或，文本摘要的生成方法中计算机设备侧执行的步骤。第二存储器中存储有文本获取模块142、摘要生成模型144和摘要输出模块146。其中，文本获取模块142用于获取待生成摘要的文本内容(比如资讯或书籍)。上述摘要生成模型344被第二处理器调用以实现上述用于文本摘要生成的模型训练方法，或，文本摘要的生成方法中计算机设备侧执行的步骤。可选地，第二存储器可以包括但不限于以下几种：RAM、ROM、PROM、EPROM、EEPROM。

图2示出了本申请一个示意性实施例提供的摘要生成模型200的框图。该摘要生成模型200包括：编码层220、抽取式摘要生成模型240和生成式摘要生成模型260。抽取式摘要生成模型240的输入端和编码层220的输出端相连，生成式摘要生成模型260的输入端和编码层220的输出端相连。其中：

编码层220的输入为待生成摘要的文本内容，输出为文本内容的隐层嵌入(embedding)向量。可选地，该编码层220是卷积神经网络(Convolutional NeuralNetworks,CNN)、长短时记忆网络(Long Short-Term Memory，LSTM)、双向长短时记忆网络(Bi-directional Long Short-Term Memory，Bi-LSTM)和双向转换编码器(BidirectionalEncoder Representation from Transformer，BERT)中的至少一种。

抽取式摘要生成模型240的输入为文本内容的隐层嵌入向量，输出为采用抽取式生成的第一摘要。

生成式摘要生成模型260的输入为文本内容的隐层嵌入向量，输出为采用生成式生成的第二摘要。

上述摘要生成模型200的训练阶段：

图3示出了本申请一个示意性实施例提供的用于文本摘要生成的模型训练方法的流程图。该方法可以应用于图1所示的计算机设备来执行。该方法包括：

步骤301，获取摘要生成模型，摘要生成模型包括：编码层、与编码层相连的抽取式摘要生成模型和生成式摘要生成模型；

摘要生成模型是用于为输入的文本内容生成文本摘要的模型。如图2所示，该摘要生成模型包括：编码层、与编码层相连的抽取式摘要生成模型、与编码层相连的生成式摘要生成模型。

编码层用于将文本内容编码为隐层编码向量。可选地，编码层包括至少一层网络层，每层网络层是CNN、LSTM、Bi-LSTM、BERT中的任意一种。

抽取式摘要生成模型用于根据隐层编码向量从文本内容中抽取一个或多个句子，输出第一摘要。

生成式摘要生成模型用于根据隐层编码向量从文本内容中拷贝或改写多个字词，输出第二摘要。

步骤302，采用第一训练样本和第二训练样本对摘要生成模型进行协同训练，第一训练样本是抽取式摘要生成模型对应的训练样本，第二训练样本是生成式摘要生成模型对应的训练样本；

第一训练样本中包括：样本文本内容和第一摘要样本。第一摘要样本是与抽取式摘要生成模型对应的摘要样本。

第二训练样本中包括：样本文本内容和第二摘要样本。第二摘要样本是与生成式摘要生成模型对应的摘要样本。

可选地，第一训练样本和第二训练样本是成组出现的多组训练样本。属于同一组的第一训练样本和第二训练样本中的样本文本内容是相同的。

采用损失函数计算摘要生成模型对第一训练样本和第二训练样本的预测误差，采用预测误差对摘要生成模型进行误差反向传播训练。

步骤303，在满足训练结束条件时，得到训练后的摘要生成模型。

训练结束条件包括：损失函数最小化，或者，迭代次数达到预定次数。

综上所述，本实施例提供的方法，通过基于抽取式摘要生成模型和生成式摘要生成模型的协同训练得到编码层，通过编码层来提取文本内容的隐层嵌入向量，能够综合抽取式生成和生成式生成两种生成方式各自的优点，从而使得最终输出的文本摘要能够更好地概括文本内容的内容特性，将两者互为补充来分享编码层的底层参数，增强整个模型的表示能力，同时可灵活用在抽取式摘要生成和生成式摘要生成的场景中。

基于图3所示实施例，图4示出了本申请一个示意性实施例提供的用于文本摘要生成的模型训练方法的流程图。该方法可以应用于图1所示的计算机设备来执行。该方法包括：

步骤401，获取摘要生成模型，摘要生成模型包括：编码层、与编码层相连的抽取式摘要生成模型和生成式摘要生成模型。

抽取式摘要生成模型用于根据隐层编码向量从文本内容中抽取一个或多个句子，输出第一摘要。可选地，抽取式摘要生成模型是序列标注模型。该序列标注模型可以对文本内容中的每个句子进行标注，以标注该句子是否属于摘要的一部分。

生成式摘要生成模型用于根据隐层编码向量从文本内容中拷贝或改写多个字词，输出第二摘要。可选地，生成式摘要生成模型是拷贝生成网络，该拷贝生成网络用于根据输入的隐层编码向量，从词典中选择新词，或者从原始文本内容中拷贝已有的词来生成摘要。

步骤402，将第一训练样本输入编码层和抽取式摘要生成模型，计算得到第一损失；

第一训练样本中包括：样本文本内容和第一摘要样本。第一摘要样本是与抽取式摘要生成模型对应的摘要样本。第一摘要样本的获取方式存在至少两种方式：

一，直接由人工在样本文本内容中进行标注。

二，通过生成式摘要生成模型为样本文本内容生成参考摘要，计算样本文本内容中的每个句子与参考摘要的相似度，将相似度最高的句子确定为第一摘要样本。

设样本文本内容为X＝{x₁，…，x_n}，x₁对应样本文本内容中的第一个字词，x_n对应样本文本内容中的最后一个字词，n为样本文本内容中的字词数。

计算机设备将样本文本内容X输入编码层进行编码，得到样本文本内容X对应的隐层嵌入向量{h₁，…，h_n}。计算机设备将隐层嵌入向量{h₁，…，h_n}输入抽取式摘要生成模型中进行训练，该抽取式摘要生成模型会输出第一预测摘要。该第一预测摘要是抽取式摘要生成模型从文本内容中抽取的一句或几句摘要。

设第一摘要样本被表示为Y＝{00000011111100…000}。Y包括n个比特，每个比特的取值为0时，代表该比特对应的字词不属于摘要中的字词；取值为1时，代表该比特对应的字词属于摘要中的字词。设第一预测摘要被表示为Y1，且表示方式与第一摘要样本的表示方式相同。

计算第一摘要样本Y和第一预测摘要Y1之间的交叉熵损失L1，将交叉熵损失L1确定为第一损失。示例性的，该交叉熵损失L1是句子级的交叉熵损失。

步骤403，将第二训练样本输入编码层和生成式摘要生成模型，计算得到第二损失；

计算机设备将样本文本内容X输入编码层进行编码，得到样本文本内容X对应的隐层嵌入向量{h₁，…，h_n}。计算机设备将隐层嵌入向量{h₁，…，h_n}输入生成式摘要生成模型中进行训练，该生成式摘要生成模型会输出第二预测摘要Y2。

设第二摘要样本被表示为Y’，计算第二摘要样本Y’和第二预测摘要Y2之间的交叉熵损失L2，将交叉熵损失L2确定为第二损失。示例性的，该交叉熵损失L2是字词级的交叉熵损失。

示例性的，第一训练样本和第二训练样本是成组出现的多组训练样本。属于同一组的第一训练样本和第二训练样本中的样本文本内容是相同的。属于同一组的第一训练样本和第二训练样本，计算一次加权损失和。

步骤404，根据第一损失和第二损失，计算得到加权损失和；

计算机设备计算第一损失和第一权重的第一乘积，计算第二损失和第二权重的第二乘积，将第一乘积和第二乘积之和，确定为加权损失和。也即，加权损失和如下：

L＝L1*a+L2*b；

其中，第一权重a大于第二权重b；或，第一权重a等于第二权重b；或，第一权重a小于第二权重b。

可选地，若训练目标是以抽取式摘要生成为主任务，生成式摘要生成为辅任务，则设置第一权重a大于第二权重b；若训练目标是以生成式摘要生成为主任务，抽取式摘要生成为辅任务，则设置第二权重b大于第一权重a。若希望两个任务都能有所应用，则设置第一权重a等于第二权重b。

其中，第一权重a和第二权重b相加的和为1(或者100％)。

步骤405，根据加权损失和对摘要生成模型进行误差反向传播训练。

根据加权损失和对摘要生成模型进行误差反向传播训练。

步骤406，在满足训练结束条件时，得到训练后的摘要生成模型。

以抽取式摘要生成模型是序列标注模型，生成式摘要生成模型是拷贝生成模型为例，结合参考图5，将原始的文本内容输入编码层，由编码层输出文本内容的隐层嵌入向量。编码层将隐层嵌入向量分别输入至序列标注模型和拷贝生成模型。

序列标注模型输出第一预测摘要，该第一预测摘要采用n个预测标签来表示，每个字词的预测标签用来表示该字词是否属于第一预测摘要。当取值为0时，代表该字词不属于第一预测摘要；当取值为1时，代表该字词属于第一预测摘要。将第一预测摘要和第一摘要样本进行比对，计算得到第一交叉损失熵L1。

拷贝生成模型输出第二预测摘要，该第二预测摘要采用预测序列来表示，预测序列包括若干个字词，每个字词来自词典或原始的文本内容。将第二预测摘要和第二摘要样本进行比对，计算得到第二交叉损失熵L2。

根据第一交叉损失熵L1和第二交叉损失熵L2，计算得到加权损失和。采用加权损失和对摘要生成模型进行误差反向传播训练。

本实施例提供的方法，还通过调节第一权重和第二权重的权重比例，能够使得编码层在训练时有所侧重，若训练目标是以抽取式摘要生成为主任务，生成式摘要生成为辅任务，则设置第一权重a大于第二权重b；若训练目标是以生成式摘要生成为主任务，抽取式摘要生成为辅任务，则设置第二权重b大于第一权重a。若希望两个任务都能有所应用，则设置第一权重a等于第二权重b。这样，编码层可以人为地对抽取式摘要生成和生成式摘要生成的优点进行混合。

上述摘要生成模型200的预测阶段：

图6示出了本申请一个示意性实施例提供的文本摘要的生成方法的流程图。该方法可以应用于图1所示的计算机设备来执行。该方法包括：

步骤601，获取文本内容；

该文本内容是待生成摘要的文本内容。

步骤602，将文本内容输入编码层，得到文本内容的隐层嵌入向量；编码层是基于抽取式摘要生成模型和生成式摘要生成模型的协同训练得到的；

步骤603，将隐层嵌入向量输入抽取式摘要生成模型或生成式摘要生成模型进行处理，输出文本摘要。

根据业务需求，可以将文本内容的隐层嵌入向量输入抽取式摘要生成模型和生成式摘要生成模型中的至少一个，输出文本摘要。

以抽取式摘要生成模型是序列标注模型，生成式摘要生成模型是拷贝生成模型为例，结合参考图7，将原始的文本内容输入编码层，由编码层输出文本内容的隐层嵌入向量。编码层将隐层嵌入向量输入至序列标注模型和拷贝生成模型中的至少一个。

计算机设备将隐层嵌入向量输入抽取式摘要生成模型，由抽取式摘要生成模型根据隐层嵌入向量输出含有多个比特的预测标签；根据预测标签得到文本摘要。其中，每个比特对应文本内容中的一个字词，比特的取值为第一取值时代表所对应的字词属于文本摘要，比特的取值为第二取值时代表所对应的字词不属于文本摘要。

也即，当隐层嵌入向量输入序列标注模型后，序列标注模型输出第一摘要，该第一摘要采用n个预测标签来表示，每个字词的预测标签用来表示原始的文本内容中对应的字词是否属于第一预测摘要。当取值为0时，代表该字词不属于第一摘要；当取值为1时，代表该字词属于第一摘要。

计算机设备将隐层嵌入向量输入拷贝生成模型，由拷贝生成模型根据隐层嵌入向量输出含有多个字词的预测序列；根据预测序列得到文本摘要。其中，字词是拷贝生成模型从词典中选择的新词，或者，从文本内容中拷贝的字词。

也即，当隐层嵌入向量输入至拷贝生成模型后，拷贝生成模型输出第二摘要，该第二摘要采用预测序列来表示，预测序列包括若干个字词，每个字词来自词典或原始的文本内容。

在大部分应用场景下，步骤603中的摘要生成只需要进行一次即可。也即只需要输入抽取式摘要生成模型或生成式摘要生成模型进行处理即可，不需要同时输入两个模型中。但是不排除在某些

在一个示例性的实施例中，两种模型的业务场景可以如下：

抽取式摘要生成模型：长文本摘要任务(如长新闻摘要)、多文档摘要(如论文综述生成以及多新闻的摘要)。

生成式摘要生成模型：短文本摘要任务(标题生成，标题压缩，关键短语提取)。

在一个示意性的场景中，上述摘要生成模型被部署在摘要生成服务器23中。该摘要生成服务器23在上游与资讯采集服务器32、电子书籍存储服务器34相连；在下游与资讯服务器22和读书服务器24相连。

资讯采集服务器32用于采集互联网上的各种新闻资讯，将各种新闻资讯存储在本地。电子书籍存储服务器34用于存储各个作者出版的电子书籍。

摘要生成服务器23内设置有上述实施例提供的摘要生成模型。该摘要生成服务器23可以在为各种新闻资讯生成摘要时，调用编码层编码得到新闻资讯的隐层编码向量后，调用生成式摘要生成模型根据隐层编码向量生成各种新闻资讯的摘要。该摘要生成服务器24可以在为各种电子书籍生成摘要时，调用编码层编码得到电子书籍的隐层编码向量后，调用抽取式摘要生成模型根据隐层编码向量生成各种电子书籍的摘要。

资讯服务器32是用于提供资讯服务的服务器。当用户采用资讯客户端12读取新闻资讯时，资讯服务器32根据用户偏好从资讯采集服务器32获取用户喜欢的新闻资讯，以及摘要生成服务器23生成的摘要。资讯服务器32将用户喜欢的新闻资讯及摘要推送给资讯客户端12，供资讯客户端12显示给用户观看。

读书服务器34是用于提供读书服务的服务器。当用户采用读书客户端14读取电子书籍时，读书服务器34根据用户偏好从电子书籍存储服务器34获取用户喜欢的电子书籍，以及摘要生成服务器43生成的摘要。读书服务器34将用户喜欢的电子书籍及摘要推送给读书客户端14，供读书客户端14显示给用户观看。

图9示出了本申请一个示例性实施例提供的一种文本摘要的生成装置的框图。所述装置包括：

文本获取模块920，用于获取文本内容；

特征提取模块940，用于将所述文本内容输入编码层，得到所述文本内容的隐层嵌入向量；所述编码层是基于抽取式摘要生成模型和生成式摘要生成模型的协同训练得到的；

摘要生成模块960，用于将所述隐层嵌入向量输入所述抽取式摘要生成模型或所述生成式摘要生成模型进行处理，输出所述文本摘要。

在一个可选的实施例中，所述编码层是通过第一损失和第二损失的加权损失和训练得到的编码层；所述第一损失是所述抽取式摘要生成模型对第一训练样本计算得到的损失值；所述第二损失是所述生成式摘要生成模型对第二训练样本计算得到的损失值。

在一个可选的实施例中，所述加权损失和等于第一乘积和第二乘积之和；所述第一乘积是所述第一损失和第一权重的乘积，所述第二乘积是所述第二损失和第二权重的乘积；所述第一权重和所述第二权重之和等于一；其中，

所述第一权重大于所述第二权重；或，所述第一权重等于所述第二权重；或，所述第一权重小于所述第二权重。

在一个可选的实施例中，所述第一损失是句子级的交叉熵损失，所述第二损失是字词级的交叉熵损失。

在一个可选的实施例中，所述抽取式摘要生成模型是序列标注模型；所述生成式摘要生成模型是拷贝生成模型。

在一个可选的实施例中，所述摘要生成模块960，用于将所述隐层嵌入向量输入所述抽取式摘要生成模型，由所述抽取式摘要生成模型根据所述隐层嵌入向量输出含有多个比特的预测标签；根据所述预测标签得到所述文本摘要；

其中，每个比特对应所述文本内容中的一个字词，所述比特的取值为第一取值时代表所对应的字词属于所述文本摘要，所述比特的取值为第二取值时代表所对应的字词不属于所述文本摘要。

在一个可选的实施例中，所述摘要生成模块960，用于将所述隐层嵌入向量输入所述拷贝生成模型，由所述拷贝生成模型根据所述隐层嵌入向量输出含有多个字词的预测序列；根据所述预测序列得到所述文本摘要；

其中，所述字词是所述拷贝生成模型从词典中选择的新词，或者，从所述文本内容中拷贝的字词。

图10示出了本申请一个示例性实施例提供的一种用于文本摘要生成的模型训练装置的框图。所述装置包括：

获取模块1020，用于获取摘要生成模型，所述摘要生成模型包括：编码层、与所述编码层相连的抽取式摘要生成模型和生成式摘要生成模型；

训练模块1040，用于采用第一训练样本和第二训练样本对所述摘要生成模型进行协同训练，所述第一训练样本是所述抽取式摘要生成模型对应的训练样本，所述第二训练样本是所述生成式摘要生成模型对应的训练样本；

输出模块1060，用于在满足训练结束条件时，得到训练后的摘要生成模型。

在一个可选的实施例中，所述训练模块1040，用于计算所述第一训练样本输入所述编码层和所述抽取式摘要生成模型，计算得到第一损失；计算所述第二训练样本输入所述编码层和所述生成式摘要生成模型，计算得到第二损失；根据所述第一损失和所述第二损失，计算得到加权损失和；根据所述加权损失和对所述摘要生成模型进行误差反向传播训练。

在一个可选的实施例中，所述训练模块1040，用于计算所述第一损失和第一权重的第一乘积；计算所述第二损失和第二权重的第二乘积；将所述第一乘积和所述第二乘积之和，确定为所述加权损失和；

其中，所述第一权重大于所述第二权重；或，所述第一权重等于所述第二权重；或，所述第一权重小于所述第二权重。

图11示出了本申请还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的用于文本摘要生成的模型训练方法或文本摘要的生成方法。需要说明的是，该计算机设备可以是如下图11所提供的计算机设备。

请参考图11，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：计算机设备1100包括中央处理单元(CPU)1101、包括随机存取存储器(RAM)1102和只读存储器(ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。计算机设备1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1106，和用于存储操作系统1113、应用程序1110和其他程序模块1110的大容量存储设备1107。

基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说，大容量存储设备1107可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1101执行，一个或多个程序包含用于实现上述用于文本摘要生成的模型训练方法或文本摘要的生成方法，中央处理单元1101执行该一个或多个程序实现上述各个方法实施例提供的用于文本摘要生成的模型训练方法或文本摘要的生成方法。

根据本申请的各种实施例，计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。

存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，一个或者一个以上程序包含用于进行本申请实施例提供的用于文本摘要生成的模型训练方法或文本摘要的生成方法。

本申请还提供一种计算机设备，该计算机设备包括：处理器和存储器，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的用于文本摘要生成的模型训练方法或文本摘要的生成方法。

本申请还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的用于文本摘要生成的模型训练方法或文本摘要的生成方法。

可选地，本申请还提供了一种包含指令的计算机程序产品，当其在计算机设备上运行时，使得计算机设备执行上述各个方法实施例所提供的用于文本摘要生成的模型训练方法或文本摘要的生成方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本摘要的生成方法，其特征在于，所述方法包括：

获取文本内容；

将所述文本内容输入编码层，得到所述文本内容的隐层嵌入向量；所述编码层是通过第一损失和第二损失的加权损失和进行误差反向传播训练得到的；所述第一损失是抽取式摘要生成模型对第一训练样本计算得到的句子级的交叉熵损失；所述第二损失是生成式摘要生成模型对第二训练样本计算得到的字词级的交叉熵损失；

将所述隐层嵌入向量输入所述抽取式摘要生成模型或所述生成式摘要生成模型进行处理，输出所述文本摘要；

其中，所述加权损失和等于第一乘积和第二乘积之和；所述第一乘积是所述第一损失和第一权重的乘积，所述第二乘积是所述第二损失和第二权重的乘积；所述第一权重和所述第二权重之和等于一；

其中，所述第一权重大于所述第二权重；或，所述第一权重等于所述第二权重；或，所述第一权重小于所述第二权重；

其中，所述第一权重和所述第二权重基于训练目标中的主任务和辅任务确定，所述主任务和所述辅任务基于业务需求确定。

2.根据权利要求1所述的方法，其特征在于，所述抽取式摘要生成模型是序列标注模型；

所述将所述隐层嵌入向量输入所述抽取式摘要生成模型进行处理，输出所述文本摘要，包括：

将所述隐层嵌入向量输入所述抽取式摘要生成模型，由所述抽取式摘要生成模型根据所述隐层嵌入向量输出含有多个比特的预测标签；根据所述预测标签得到所述文本摘要；

3.根据权利要求1所述的方法，其特征在于，所述生成式摘要生成模型是拷贝生成模型；

所述将所述隐层嵌入向量输入所述生成式摘要生成模型进行处理，输出所述文本摘要，包括：

将所述隐层嵌入向量输入所述拷贝生成模型，由所述拷贝生成模型根据所述隐层嵌入向量输出含有多个字词的预测序列；根据所述预测序列得到所述文本摘要；

4.一种用于文本摘要生成的模型训练方法，其特征在于，所述方法包括：

将第一训练样本输入所述编码层和所述抽取式摘要生成模型，计算得到第一损失；所述第一训练样本是所述抽取式摘要生成模型对应的训练样本；

将第二训练样本输入所述编码层和所述生成式摘要生成模型，计算得到第二损失；所述第二训练样本是所述生成式摘要生成模型对应的训练样本；

计算所述第一损失和第一权重的第一乘积；计算所述第二损失和第二权重的第二乘积；将所述第一乘积和所述第二乘积之和，确定为加权损失和；

根据所述加权损失和对所述摘要生成模型进行误差反向传播训练；

在满足训练结束条件时，得到训练后的摘要生成模型；

其中，所述第一权重大于所述第二权重；或，所述第一权重等于所述第二权重；或，所述第一权重小于所述第二权重，所述第一权重和所述第二权重基于训练目标中的主任务和辅任务确定，所述主任务和所述辅任务基于业务需求确定。

5.一种文本摘要的生成装置，其特征在于，所述装置包括：

获取模块，用于获取文本内容；

特征提取模块，用于将所述文本内容输入编码层，得到所述文本内容的隐层嵌入向量；所述编码层是通过第一损失和第二损失的加权损失和进行误差反向传播训练得到的编码层；所述第一损失是抽取式摘要生成模型对第一训练样本计算得到的句子级的交叉熵损失；所述第二损失是生成式摘要生成模型对第二训练样本计算得到的字词级的交叉熵损失；

摘要生成模块，用于将所述隐层嵌入向量输入所述抽取式摘要生成模型或所述生成式摘要生成模型进行处理，输出所述文本摘要；

6.一种用于文本摘要生成的模型训练装置，其特征在于，所述装置包括：

训练模块，用于将第一训练样本输入所述编码层和所述抽取式摘要生成模型，计算得到第一损失；所述第一训练样本是所述抽取式摘要生成模型对应的训练样本；将第二训练样本输入所述编码层和所述生成式摘要生成模型，计算得到第二损失；所述第二训练样本是所述生成式摘要生成模型对应的训练样本；计算所述第一损失和第一权重的第一乘积；计算所述第二损失和第二权重的第二乘积；将所述第一乘积和所述第二乘积之和，确定为加权损失和；根据所述加权损失和对所述摘要生成模型进行误差反向传播训练；

输出模块，用于在满足训练结束条件时，得到训练后的摘要生成模型；

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；所述存储器存储有至少一条程序，所述至少一条程序由所述处理器加载并执行以实现如上权利要求1至3任一所述的文本摘要的生成方法，或，权利要求4所述的用于文本摘要生成的模型训练方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序，所述至少一条程序由处理器加载并执行以实现权利要求1至3任一所述的文本摘要的生成方法，或，权利要求4所述的用于文本摘要生成的模型训练方法。