CN111651996B

CN111651996B - 摘要生成方法、装置、电子设备及存储介质

Info

Publication number: CN111651996B
Application number: CN201910161329.9A
Authority: CN
Inventors: 刘纯一; 王鹏; 徐江; 李奘
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2023-12-08
Anticipated expiration: 2039-03-04
Also published as: CN111651996A

Abstract

本申请提供了一种摘要生成方法、装置、电子设备及存储介质，涉及信息处理领域，该摘要生成方法包括：获取待分析的文本信息；采用摘要分析模型，对文本信息进行处理，获取文本信息的摘要，其中，摘要分析模型基于文本样本、文本样本的摘要、以及预设关键词集合训练获取，预设关键词集合包括词汇类型以及各词汇类型的特征信息。本申请实施例中，在训练摘要分析模型的过程中，利用了预设关键词集合，从而保证了经训练的摘要分析模型处理文本信息后所获取的摘要具有良好的逻辑性和信息完整性。

Description

摘要生成方法、装置、电子设备及存储介质

技术领域

本申请涉及信息处理领域，具体而言，涉及一种摘要生成方法、装置、电子设备及存储介质。

背景技术

在查阅各种类型的文本信息时，为了节省查阅时间，通常首先查阅这些文本信息的关键内容(也就是这些文本信息的摘要)。然而，有些待查阅的文本信息通常没有预先生成的摘要，例如，对于根据客服与用户之间对话沟通所形成的对话文本信息，通常不存在与之对应的摘要。因此，期望服务器或者终端等机器设备能够根据这些待查阅的文本信息来自动地生成摘要。

通常，机器设备自动生成文本信息的摘要主要包括如下两种方式：抽取式和生成式。抽取式是机器设备根据一定的权重，从原始文本信息中提取与中心思想最相近的若干语句，生成式是在机器设备读取原始文本信息之后，采用一定的模型来理解原始文本信息并且自动概括原文的含义。

然而，采用现有的自动摘要生成方式基于原始文本信息生成的摘要，逻辑性和信息完整比较欠缺。

发明内容

有鉴于此，本申请实施例的目的在于提供一种摘要生成方法、装置、电子设备及存储介质，能够通过该摘要生成方法解决现有技术中基于原始文本信息自动生成摘要时，所生成的摘要在逻辑性和信息完整性方面比较欠缺的问题。

一方面，本申请实施例提供一种摘要生成方法，包括：

获取待分析的文本信息；

采用摘要分析模型，对文本信息进行处理，获取文本信息的摘要，其中，摘要分析模型基于文本样本、文本样本的摘要、以及预设关键词集合训练获取，预设关键词集合包括词汇类型以及各词汇类型的特征信息。

可选地，所述采用摘要分析模型，对文本信息进行处理，获取文本信息的摘要，包括：

采用摘要分析模型，根据文本信息中各词汇的特征信息获取各词汇的词汇类型；

根据文本信息中各词汇的词汇类型，生成关键词序列；

根据关键词序列生成文本信息的摘要。

可选地，所述获取待分析的文本信息，包括：

根据预设的预处理规则，对原始文本信息进行预处理，得到文本信息。

可选地，所述根据关键词序列生成文本信息的摘要，包括：

分别生成关键词序列中的每一个关键词对应的摘要语句；

根据关键词在关键词序列中的顺序，合并摘要语句，以生成文本信息的摘要。

可选地，所述分别生成关键词序列中的每一个关键词对应的摘要语句，包括：

针对关键词序列中的每一个关键词，计算用于生成与该关键词对应的摘要语句中的词汇的生成概率和拷贝概率，其中，生成概率用于表示采用预设词汇形成摘要语句词汇的概率，并且拷贝概率用于表示采用文本信息中的词汇形成摘要语句词汇的概率；

根据生成概率和拷贝概率，确定摘要语句词汇的生成方式；

根据摘要语句词汇的生成方式，生成每一个关键词对应的摘要语句。

可选地，关键词序列的词汇数量小于第一预设阈值，摘要语句的词汇数量小于第二预设阈值。

可选地，在所述采用摘要分析模型，对文本信息进行处理，获取文本信息的摘要之前，还包括：

获取文本样本、文本样本的摘要、以及预设关键词集合；

采用神经网络，基于文本样本、文本样本的摘要、以及预设关键词集合进行训练，得到摘要分析模型。

可选地，所述采用神经网络，基于文本样本、文本样本的摘要、以及预设关键词集合进行训练，得到摘要分析模型，包括：

采用神经网络，基于文本样本、文本样本的摘要、以及预设关键词集合进行训练，获取中间摘要分析模型；

采用中间摘要分析模型分析测试文本，获取测试文本的测试摘要；

根据测试文本的预设摘要、以及测试文本的测试摘要，获取损失函数，其中，损失函数由交叉熵和奖励函数构成；

根据损失函数更新中间摘要分析模型，得到摘要分析模型。

采用神经网络，基于文本样本、文本样本的摘要、文本样本的关键词序列、以及预设关键词集合进行训练，得到摘要分析模型。

另一方面，本申请实施例还提供一种摘要生成装置，包括：文本信息获取模块和摘要获取模块，

文本信息获取模块，用于获取待分析的文本信息；

摘要获取模块，用于采用摘要分析模型，对文本信息进行处理，获取文本信息的摘要，其中，摘要分析模型基于文本样本、文本样本的摘要、以及预设关键词集合训练获取，预设关键词集合包括词汇类型以及各词汇类型的特征信息。

可选地，摘要获取模块，具体用于：采用摘要分析模型，根据文本信息中各词汇的特征信息获取各词汇的词汇类型；根据文本信息中各词汇的词汇类型，生成关键词序列；根据关键词序列生成文本信息的摘要。

可选地，文本信息获取模块，具体用于：根据预设的预处理规则，对原始文本信息进行预处理，得到文本信息。

可选地，摘要获取模块，具体用于：分别生成关键词序列中的每一个关键词对应的摘要语句；根据关键词在关键词序列中的顺序，合并摘要语句，以生成文本信息的摘要。

可选地，摘要获取模块，具体用于：针对关键词序列中的每一个关键词，计算用于生成与该关键词对应的摘要语句中的词汇的生成概率和拷贝概率，其中，生成概率用于表示采用预设词汇形成摘要语句词汇的概率，并且拷贝概率用于表示采用文本信息中的词汇形成摘要语句词汇的概率；根据生成概率和拷贝概率，确定摘要语句词汇的生成方式；根据摘要语句词汇的生成方式，生成每一个关键词对应的摘要语句。

可选地，该装置还包括：样本获取模块和模型训练模块，

样本获取模块，用于获取文本样本、文本样本的摘要、以及预设关键词集合；

模型训练模块，用于采用神经网络，基于文本样本、文本样本的摘要、以及预设关键词集合进行训练，得到摘要分析模型。

可选地，模型训练模块，具体用于：采用神经网络，基于文本样本、文本样本的摘要、以及预设关键词集合进行训练，获取中间摘要分析模型；采用中间摘要分析模型分析测试文本，获取测试文本的测试摘要；根据测试文本的预设摘要、以及测试文本的测试摘要，获取损失函数，其中，损失函数由交叉熵和奖励函数构成；根据损失函数更新中间摘要分析模型，得到摘要分析模型。

可选地，模型训练模块，具体用于：采用神经网络，基于文本样本、文本样本的摘要、文本样本的关键词序列、以及预设关键词集合进行训练，得到摘要分析模型。

另一方面，本申请实施例还提供一种电子设备，包括：处理器、存储介质和总线；存储介质存储有处理器可执行的机器可读指令，当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行机器可读指令，以执行根据上述一方面所述的摘要生成方法。

又一方面，本申请实施例还提供一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行根据上述一方面所述的摘要生成方法。

基于上述任一方面，本申请的有益效果包括：通过获取待分析的文本信息；采用摘要分析模型，对文本信息进行处理，获取文本信息的摘要，其中，摘要分析模型基于文本样本、文本样本的摘要、以及预设关键词集合训练获取，预设关键词集合包括词汇类型以及各词汇类型的特征信息。本申请实施例中，在训练摘要分析模型的过程中，利用了预设关键词集合，从而保证了经训练的摘要分析模型处理文本信息后所获取的摘要具有更为良好的逻辑性和信息完整性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种摘要生成方法的流程示意图；

图2示出了本申请实施例所提供的另一种摘要生成方法的流程示意图；

图3示出了本申请实施例所提供的又一种摘要生成方法的流程示意图；

图4示出了本申请实施例所提供的另一种摘要生成方法的流程示意图；

图5示出了本申请实施例所提供的另一种摘要生成方法的流程示意图；

图6示出了本申请实施例所提供的另一种摘要生成方法的流程示意图；

图7示出了本申请实施例所提供的一种摘要生成装置的结构示意图；

图8示出了本申请实施例所提供的另一种摘要生成装置的结构示意图；

图9示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合摘要生成方法，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。本申请主要围绕文本信息的摘要生成，可以包括各种场景下产生的文本，例如输入的本文、通过语音/视频等转换获取的文本等，本申请均不作限制。一种可选的打车场景下，该文本信息可以从客服端与服务请求方(例如乘客、叫外卖用户)或服务提供方(司机、外卖送餐员)的对话语音信息转换获取。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。此外，本申请实施例中，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

随着现代计算机、网络等技术的发展，可以通过各种途径获取大量信息，例如，可以通过互联网或者存储设备获取大量的文本信息。由于文本信息通常篇幅较长，查阅这些文本信息以识别其是否可用是非常耗时的。因此，期望能够首先查阅这些文本信息所对应的摘要，以初步筛选有用信息。

例如，服务行业在通过通讯设备获取与客户之间的对话记录后，希望从对话记录中快速准确的获取摘要，即从对话中提取的有用信息。从而可以节省人工生成对话摘要所需的人力资源。现有技术中已经提出了多种用于生成对话摘要的模型。然而，它们缺乏确保摘要的逻辑性和信息完整性的机制。因此，本申请提出了一种能够保证生成的摘要的逻辑性和信息完整性的摘要生成方法，下面将进行详细描述。

图1示出了本申请实施例所提供的一种摘要生成方法的流程示意图。该方法的执行主体可以是运行摘要生成方法的服务器、终端等设备，本申请对此不作限制。如图1所示，该方法包括：

S101、获取待分析的文本信息。

本申请实施例对待分析的文本信息的类型不作限制。在下文中，本申请实施例中的摘要生成方法将以生成客服与用户之间的对话的文本信息的摘要为例对本方法进行说明。也就是说，在本申请实施例中，首先获取待分析的客服与用户之间的对话的文本信息。

可选地，在获取待分析的文本信息时，先获取到原始文本信息，例如原始的对话文本，进而可以根据预设的预处理规则，对原始文本信息进行预处理，得到用于分析的文本信息。应当理解，本申请实施例中的摘要生成方法也可以分析处理其他类型的文本信息，例如，新闻文本信息、学术论文文本信息等等。

一种可选的实施方式中，可以通过以下步骤对原始文本信息进行预处理：首先，可以采用特定词汇替换文本信息中的同类意义词汇，例如通过用“电话号码”、“车牌”、“金额”、“行程”、“时间”等特定词汇替换文本信息中具体的电话号码、车牌号码、金额、行程信息和时间来规范化文本信息。其次，对于相邻的语句，如果这些语句的讲话者相同并且它们的总长度(也就是语句内的总词汇数量)较短(例如，词汇数量小于15、20或者25，本申请实施例对此不作限制)，则可以将这些语句连接成一个语句。另外，可选地，为了提高生成摘要的精确度，可以将每个语句截断为不超过预设数量的词汇，例如50、55、60、65、70或75个词汇，并且将整个对话文本信息截断为不超过预设数量的语句，例如30、40、50或60个语句。可选地，还可以删除一些无意义的词汇，例如语气词等，本申请实施例不作限制。

S102、采用摘要分析模型，对文本信息进行处理，获取文本信息的摘要。

其中，摘要分析模型基于文本样本、文本样本的摘要、以及预设关键词集合训练获取，预设关键词集合包括词汇类型以及各词汇类型的特征信息。将上述文本信息代入摘要分析模型后，即可输出该文本信息的摘要。该摘要可以表达文本信息的核心思想，以便快速获取文本信息主要表达的内容。

在根据步骤S101获取待分析的文本信息之后，需要采用摘要分析模型对文本信息进行处理，从而可以获取文本信息的摘要。该摘要分析模型通过如下训练来获得：首先准备文本样本、预先提取这些文本样本对应的摘要、以及预设关键词集合，并且将这些所准备的这些信息作为模型的训练集，例如，可以采用神经网络来进行模型训练，从而得到摘要分析模型。下文中对此将进行详细描述。

为了提高模型的准确性，训练集中的文本样本量通常较大，例如，样本量可以为几千甚至几万个、或者更多。可以通过人工或者其他方式来预先提取文本样本对应的摘要，并将这些预先提取的摘要作为训练集的一部分，这些文本样本的摘要满足逻辑性、完整性等优化条件，从而使得获取的摘要分析模型可以得出逻辑性、完整性更优的摘要。

预设关键词集合包括了词汇类型以及各词汇类型的特征信息。其中，词汇类型可以表示文本信息中一个或多个连续的词汇或语句对应的主题，例如，在客服与用户的对话场景中，词汇类型包括例如“问题描述”、“解决方案”、“结束”等。这些词汇类型构成了文本信息的逻辑主线，并且概括了文本信息中的关键信息点。这些词汇类型可以通过经验预先获得，词汇类型的规模(也就是词汇类型中所包括词汇类型的数量)可以为几个、几十个或者几百个，例如，基于打车业务的客服与用户之间对话文本信息，可以根据经验确定例如51个词汇类型。词汇类型的特征信息表示文本信息中词汇或语句对应于特定词汇类型所应当具有的特征信息，也就是将文本信息中词汇或语句分类到该词汇类型的预设标准，例如将带有疑问词的词汇划分到“问题描述”，疑问词包括“吗”、“么”等，例如将带有建议词的词汇划分到“建议”，建议词包括“建议”、“推荐”等；在此不一一举例。词汇类型的特征信息基于文本信息中词汇或语句所表达的含义，并且根据经验来确定。

表1给出了本申请实施例中采用的在打车场景下用户(乘客或司机)与客服之间对话文本的部分词汇类型的列表。表1中左侧一列举例示出了多个词汇类型，右侧一列举例示出了根据词汇类型的特征信息确定的词汇类型对应的样本摘要语句。

预设关键词集合中的词汇类型是确保生成的摘要具有逻辑性和信息完整性的关键因素。这些词汇类型以及各词汇类型的特征信息可以帮助训练摘要分析模型，在模型训练过程中，为摘要分析的逻辑性和信息完整性提供了保证。

表1词汇类型列表

本申请实施例所提供的摘要生成方法，通过获取待分析的文本信息；采用摘要分析模型，对文本信息进行处理，获取文本信息的摘要，其中，摘要分析模型基于文本样本、文本样本的摘要、以及预设关键词集合训练获取，预设关键词集合包括词汇类型以及各词汇类型的特征信息。在训练摘要分析模型的过程中，利用了预设关键词集合，从而保证了经训练的摘要分析模型处理文本信息后所获取的摘要具有更为良好的逻辑性和信息完整性。

可选地，图2示出了本申请实施例所提供的另一种摘要生成方法的流程示意图，采用摘要分析模型，对文本信息进行处理，获取文本信息的摘要，如图2所示，包括：

S201、采用摘要分析模型，根据文本信息中各词汇的特征信息获取各词汇的词汇类型。

如上文所述，摘要分析模型在训练过程中利用了词汇类型和各词汇类型的特征信息，因此，在利用摘要分析模型对文本信息进行处理时，摘要分析模型可以首先根据文本信息各词汇的特征信息来获取各词汇的词汇类型。

文本信息各词汇的特征信息表示了待分析文本信息中各词汇所表达的逻辑含义，而所获取的词汇类型是选自上文中所述的预设关键词集合。也就是说，首先利用摘要分析模型，将待分析文本信息中各词汇进行逻辑分类，分类的类型为训练摘要分析模型时所预设的关键词集合。

例如，摘要分析模型可以是采用神经网络模型的编码器-解码器模型。编码器用于对输入数据(例如，文本信息、预设词汇类型、用于生成摘要的词汇集等)进行编码，从而得到经编码的向量。解码器基于经编码的向量数据以及概率权重，生成词汇类型以及摘要语句。

在解码过程中，首先解码生成多个词汇类型。具体过程如下式(1)所示：

其中，t是解码步数，是由编码器给出的文本信息的上下文向量。/>是解码开始符号的嵌入向量。在模型训练过程中，/>是预设的词汇类型的嵌入向量，其中i为1、2、…、t-1。在摘要生成阶段，/>是基于文本信息生成的词汇类型的嵌入向量。Decoder^KP表示对其后数据进行解码处理以生成词汇类型，在进行解码过程中，每次解码生成一个词汇。持续进行解码过程，直到获得结束符号或者达到预定数目的解码步骤为止。解码表示符/>用于第t步解码过程中使得摘要生成模型解码生成与词汇类型对应的摘要语句。/>是第t步词汇类型生成解码过程中得到的解码符号分布，/>是第t步词汇类型生成解码过程中得到的词汇类型。

S202、根据文本信息中各词汇的词汇类型，生成关键词序列。

在根据步骤S201获取文本信息中各词汇的词汇类型之后，根据文本信息各词汇在文本信息中的先后位置关系，将这些词汇类型依据上述先后位置关系进行排序，从而形成由这些词汇类型构成的关键词序列。由于每个词汇类型对应于文本信息中各词汇的逻辑含义，因此该关键词序列构成了文本信息的完整的逻辑主线。例如生成的关键词序列为：解决方案-系统判定-用户申诉。

S203、根据关键词序列生成文本信息的摘要。

在生成关键词序列之后，可以根据关键词序列来生成文本信息的摘要。关键词序列所表示的逻辑主线，构成了所生成的文本信息摘要的逻辑主线。另外，所生成的文本信息的摘要包括了关键词序列中所包括的关键信息点。因此，在关键词序列保证信息完整性的情况下，所生成的文本信息的摘要也保证了文本信息的信息完整性。

可选地，摘要分析模型在解码过程中，在生成关键词序列之后，可以基于关键词序列生成摘要，具体过程可以如下式(2)所示：

其中，t是解码步数，是由编码器给出的文本信息的上下文向量。/>是摘要生成解码的初始嵌入向量，该参数对于基于词汇类型生成摘要的过程中至关重要。例如，可以将词汇类型的嵌入向量/>作为/>可选地，也可以将Decoder^KP的解码表示符/>作为/>其中，/>对文本信息和先前的词汇类型的信息进行编码。在摘要生成阶段，/>是摘要语句中的第i个词汇，其中i为1、2、…、t-1。Decoder^SS表示对其后数据进行解码处理以生成摘要语句，在进行解码过程中，每次解码生成一个词汇。持续进行解码过程，直到获得结束符号或者达到预定数目的解码步骤为止。解码表示符/>用于第t步解码过程中使得摘要生成模型解码生成与摘要语句对应的摘要。/>是第t步摘要语句生成解码过程中得到的解码符号分布，是第t步摘要语句生成解码过程中得到的摘要语句词汇。

如表2所示，表2中上部分示出了客服与用户之间的原始对话文本信息，中间部分示出了基于该文本信息生成的摘要，下部分示出了与摘要对应的关键词序列。该关键词序列描述了生成的摘要的逻辑和关键信息。

表2对话摘要

可选地，图3示出了本申请实施例所提供的又一种摘要生成方法的流程示意图，根据关键词序列生成文本信息的摘要，如图3所示，包括：

S301、分别生成关键词序列中的每一个关键词对应的摘要语句。

通常关键词序列中包括多个关键词(也就是多个词汇类型)，这些关键词表示了文本信息中对应词汇或语句所表示的逻辑含义。在根据文本信息，由摘要分析模型生成关键词序列之后，可以分别针对每一个关键词，摘要分析模型对该关键词所表示的含义进行语句扩展，从而形成与该关键词在逻辑含义上对应的语义上完整的语句。每个语句在含义上表示了该关键词所对应表示的具体含义。从而，将由多个关键词构成的关键词序列扩展成了多个语义上完整的语句。这些语句为用于形成摘要的摘要语句。

可选地，关键词序列的词汇数量小于第一预设阈值，该第一预设阈值例如可以为10、13、15或18等。摘要语句的词汇数量小于第二预设阈值，该第二预设阈值例如可以为45、50、55、60或70等。

S302、根据关键词在关键词序列中的顺序，合并摘要语句，以生成文本信息的摘要。

在根据步骤S301分别针对每个关键词生成对应的摘要语句之后，根据关键词在关键词序列中的顺序，依序合并每个关键词对应的摘要语句。由于每个摘要语句是语义上完整的语句，通过合并后，形成了语义上完成的摘要，该摘要就是本文信息的摘要。

可选地，图4示出了本申请实施例所提供的另一种摘要生成方法的流程示意图，分别生成关键词序列中的每一个关键词对应的摘要语句，如图4所示，包括：

S401、针对关键词序列中的每一个关键词，计算用于生成与该关键词对应的摘要语句中的词汇的生成概率和拷贝概率。

其中，生成概率用于表示采用预设词汇形成摘要语句词汇的概率，并且拷贝概率用于表示采用文本信息中的词汇形成摘要语句词汇的概率。

关键词序列中的每个关键词对应一个摘要语句，每个摘要语句由多个词汇构成。为了根据关键词序列中的每一个关键词生成对应的摘要语句，对于每一个关键词，首先需要确定用于生成与该关键词对应的摘要语句中的词汇的方式。通常，可以通过从文本信息中拷贝词汇或者通过从预先设定的词汇集中选择词汇来生成构成摘要语句的词汇。因此，针对每一个关键词，首先需要计算与用于生成与该关键词对应的摘要语句中的词汇相关的生成概率和拷贝概率。生成概率用于表示采用预先设定的词汇集中的预设词汇形成摘要语句词汇的概率，并且拷贝概率用于表示从文本信息中拷贝词汇形成摘要语句词汇的概率。对于待生成的词汇，其生成概率与拷贝概率的和为1，也就是生成概率+拷贝概率＝1。生成词汇的概率通过摘要分析模型中的“门”来控制(根据摘要分析模型的输入，可以产生在0到1之间的概率输出)，并且可以根据该概率值来选择词汇的生成方式。

S402、根据生成概率和拷贝概率，确定摘要语句词汇的生成方式。

针对每一个关键词，在计算出用于生成与该关键词对应的摘要语句中的词汇的生成概率和拷贝概率之后，可以确定摘要语句词汇的生成方式。词汇的生成方式包括生成模式和拷贝模式两种，具体如下文所述。如果所计算出的生成概率大于拷贝概率，则选择生成模式生成词汇；如果所计算出的拷贝概率大于生成概率，则选择拷贝模式生成词汇。

S403、根据摘要语句词汇的生成方式，生成每一个关键词对应的摘要语句。

在确定摘要语句词汇的生成方式之后，根据摘要语句词汇的生成方式，生成每一个关键词对应的摘要语句。在生成概率大于拷贝概率时，也就是选择生成模式来生成构成摘要语句的词汇时，摘要分析模型基于“编码器-解码器”的结构可以生成在词汇表上的概率，然后选择概率最大词汇作为输出词汇，并且将该输出词汇作为构成摘要语句的词汇。在拷贝概率大于生成概率时，也就是选择拷贝模式来生成构成摘要语句的词汇时，摘要分析模型基于“层次的注意力机制”获取在文本信息中的概率，然后选择概率最大的词汇作为拷贝词汇，并且将该拷贝词汇作为构成摘要语句的词汇。在根据以上所述综合了生成和拷贝两种摘要语句词汇的生成方式的情况下，所生成的每一个关键词对应的摘要语句在逻辑上优于仅采用生成而没有考虑拷贝的方式生成的摘要语句。

可选地，图5示出了本申请实施例所提供的另一种摘要生成方法的流程示意图，在采用摘要分析模型，对文本信息进行处理，获取文本信息的摘要之前，如图5所示，还包括：

S501、获取文本样本、文本样本的摘要、以及预设关键词集合。

为了进行模型训练，首先需要获取文本样本、文本样本的摘要，并且从预设关键词集合中选择词汇类型，形成与文本样本的摘要对应的关键词序列。在摘要分析模型的训练过程中，关键词序列可以充当辅助标签。它有助于模型学习摘要的逻辑。在后续利用训练好的摘要分析模型分析处理文本信息的过程中，摘要分析模型首先预测关键词序列，然后预测相应的摘要。

在本申请实施例中，例如，采用了51个词汇类型，应当理解，本申请对词汇类型的数目不作限制。注意，具有相反含义的事实对应于不同的词汇类型，例如，用户批准和用户拒绝不属于同一词汇类型(例如“用户反馈”)。通过这种方式，摘要分析模型可以确保摘要中关键事实的正确性。

在训练过程之前，按照一定规则从摘要中提取关键词序列。标记关键词序列的规则根据经验预先给出。例如，如果摘要中的句子以“我建议”或“我推荐”开头，则该句子属于“建议”的词汇类型。如果一个句子与任何规则不匹配，则它属于其前一句的词汇类型。如果第一个句子与任何规则不匹配，则它属于“问题描述”的词汇类型。最后，摘要的所有子部分都分配了一个词汇类型。在模型训练过程中，关键词序列是辅助标签。在摘要生成过程中，关键词序列是辅助变量。本申请中的摘要分析模型首先预测关键词序列，然后根据关键词序列生成摘要。

S502、采用神经网络，基于文本样本、文本样本的摘要、以及预设关键词集合进行训练，得到摘要分析模型。

如上文所述，在获取文本样本、文本样本的摘要、以及预设关键词集合后，可以采用神经网络来训练模型，从而得到摘要分析模型，模型具体训练过程如下文所述。

可选地，图6示出了本申请实施例所提供的另一种摘要生成方法的流程示意图，采用神经网络，基于文本样本、文本样本的摘要、以及预设关键词集合进行训练，得到摘要分析模型，如图6所示，包括：

S601、采用神经网络，基于文本样本、文本样本的摘要、以及预设关键词集合进行训练，获取中间摘要分析模型。

神经网络(Neural Networks，NN)是一种深度机器学习模型，具有极强的适应性，能够提取全局训练特征和分类。本申请实施例不对神经网络的具体网络模型进行限定，例如，神经网络可以为卷积神经网络(Convolutional Neural Networks，CNN)或循环神经网络(Recurrent Neural Networks，RNN)。采用神经网络模型，基于文本样本、文本样本的摘要、以及预设关键词集合中的一部分数据进行训练优化模型参数，从而得到中间摘要分析模型。

S602、采用中间摘要分析模型分析测试文本，获取测试文本的测试摘要。

采用中间摘要分析模型分析测试文本，该测试本文来自于预先获取的文本样本，并且该文本样本具有对应的摘要以及由选自预设关键词集合的词汇类型形成的关键词序列。通过中间摘要分析模型分析测试文本，可以基于该测试文本由模型生成摘要以及关键词序列。

S603、根据测试文本的预设摘要、以及测试文本的测试摘要，获取损失函数。

其中，损失函数由交叉熵和奖励函数构成。

如上文所述，由于测试文本具有预设摘要以及相应的预设的关键词序列，因此可以根据中间摘要分析模型分析测试文本所得到的测试摘要以及测试关键词序列以及预设摘要以及预设的关键词序列，获得模型的损失函数。该损失函数用于优化模型参数。

在本申请实施例中，损失函数由交叉熵和奖励函数构成。奖励函数可以是摘要评估导向指标(Recall-Oriented Understudy for Gisting Evaluation，ROUGE)和/或摘要评估最长公共子序列导向指标(Recall-Oriented Understudy for Gisting Evaluation-Longest Common Subsequence，ROUGE-L)。

具体地，在本申请实施例中可以采用如下损失函数L：

其中，α₁、α₂、α₃为控制损失贡献的超参数，在本申请实施例中，例如，可以进行如下设置：α₁＝0.25、α₂＝0.25、α₃＝0.25。为生成关键词序列的交叉熵损失，/>为基于关键词序列生成摘要语句的交叉熵损失，/>为由奖励函数和生成关键词序列的交叉熵损失构成的增强损失函数，/>为由奖励函数和基于关键词序列生成摘要语句的交叉熵损失构成的增强损失函数。

具体地，

其中，n是关键词序列中词汇类型的数目，p_t为给定对话的词汇类型，t＝1、2、…、n。为词汇类型p_t的预测概率。s_i,j为词汇类型p_t的摘要语句，/>为摘要语句s_i,j的预测概率。P^r为在每次解码步骤中从/>中采样形成的序列。P^p是从上文中式(1)中获得的序列。R_P为序列的奖励函数，R_s是摘要语句的奖励函数，/>是所生成的摘要，/>是采样得到的摘要序列，/>是第t步解码中在第i句摘要中采样的词汇。例如，R_P和R_s均可以采用ROUGE-L。

通过将奖励函数引入损失函数中，显著提高了经训练的模型生成摘要的逻辑性和信息完整性。

S604、根据损失函数更新中间摘要分析模型，得到摘要分析模型。

在根据上述计算获得损失函数后，可以根据损失函数更新中间摘要分析模型，可以重复循环进行上述模型更新过程，直到损失函数满足预期或者循环次数达到预设值为止。从而将最后一次更新的模型作为摘要分析模型。

另一方面，图7示出了本申请实施例所提供的一种摘要生成装置的结构示意图，本申请实施例所提供的摘要生成装置用于执行上述摘要生成方法的实施例中各个步骤，以实现对应的技术效果，如图7所示，包括：文本信息获取模块701和摘要获取模块702。

文本信息获取模块701用于获取待分析的文本信息；摘要获取模块702用于采用摘要分析模型，对文本信息进行处理，获取文本信息的摘要，其中，摘要分析模型基于文本样本、文本样本的摘要、以及预设关键词集合训练获取，预设关键词集合包括词汇类型以及各词汇类型的特征信息。

可选地，摘要获取模块702具体用于：采用摘要分析模型，根据文本信息中各词汇的特征信息获取各词汇的词汇类型；根据文本信息中各词汇的词汇类型，生成关键词序列；根据关键词序列生成文本信息的摘要。

可选地，文本信息获取模块701具体用于：根据预设的预处理规则，对原始文本信息进行预处理，得到文本信息。

可选地，摘要获取模块702具体用于：分别生成关键词序列中的每一个关键词对应的摘要语句；根据关键词在关键词序列中的顺序，合并摘要语句，以生成文本信息的摘要。

可选地，摘要获取模块702具体用于：针对关键词序列中的每一个关键词，计算用于生成与该关键词对应的摘要语句中的词汇的生成概率和拷贝概率，其中，生成概率用于表示采用预设词汇形成摘要语句词汇的概率，并且拷贝概率用于表示采用文本信息中的词汇形成摘要语句词汇的概率；根据生成概率和拷贝概率，确定摘要语句词汇的生成方式；根据摘要语句词汇的生成方式，生成每一个关键词对应的摘要语句。

可选地，图8示出了本申请实施例所提供的另一种摘要生成装置的结构示意图，如图8所示，该装置还包括：样本获取模块703和模型训练模块704。

样本获取模块703用于获取文本样本、文本样本的摘要、以及预设关键词集合，模型训练模块704用于采用神经网络，基于文本样本、文本样本的摘要、以及预设关键词集合进行训练，得到摘要分析模型。

可选地，模型训练模块704具体用于：采用神经网络，基于文本样本、文本样本的摘要、以及预设关键词集合进行训练，获取中间摘要分析模型；采用中间摘要分析模型分析测试文本，获取测试文本的测试摘要；根据测试文本的预设摘要、以及测试文本的测试摘要，获取损失函数，其中，损失函数由交叉熵和奖励函数构成；根据损失函数更新中间摘要分析模型，得到摘要分析模型。

可选地，模型训练模块704具体用于：采用神经网络，基于文本样本、文本样本的摘要、文本样本的关键词序列、以及预设关键词集合进行训练，得到摘要分析模型。

又一方面，图9示出了本申请实施例所提供的一种电子设备的结构示意图，本申请实施例还提供一种电子设备，如图9所示，包括：处理器810、存储介质820和总线830。

存储介质820存储有处理器810可执行的机器可读指令，当电子设备运行时，处理器810与存储介质820之间通过总线830通信，处理器810执行机器可读指令，以执行根据上述一方面所述的摘要生成方法。

电子设备可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的摘要生成方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备可以包括用于执行程序指令的一个或多个处理器810、总线830、和不同形式的存储介质820，例如，磁盘、只读存储器(Read Only Memory，ROM)、或随机存取存储器(Random Access Memory，RAM)，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。

为了便于说明，在电子设备中仅描述了一个处理器。然而，应当注意，本申请中的电子设备还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。

另一方面，本申请实施例还提供一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行根据上述一方面所述的摘要生成方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种摘要生成方法，其特征在于，包括：

获取待分析的文本信息；

采用摘要分析模型，对所述文本信息进行处理，获取所述文本信息的摘要，其中，所述摘要分析模型基于文本样本、所述文本样本的摘要、以及预设关键词集合训练获取，所述预设关键词集合包括词汇类型以及各词汇类型的特征信息；

所述采用摘要分析模型，对所述文本信息进行处理，获取所述文本信息的摘要，包括：

采用所述摘要分析模型，根据所述文本信息中各词汇的特征信息获取各词汇的词汇类型；

根据所述文本信息中各词汇的词汇类型，生成关键词序列；

针对所述关键词序列中的每一个关键词，计算用于生成与该关键词对应的摘要语句中的词汇的生成概率和拷贝概率，其中，所述生成概率用于表示采用预设词汇形成摘要语句词汇的概率，并且所述拷贝概率用于表示采用所述文本信息中的词汇形成摘要语句词汇的概率；

根据所述生成概率和所述拷贝概率，确定摘要语句词汇的生成方式；

根据所述摘要语句词汇的生成方式，生成所述每一个关键词对应的摘要语句；

根据所述关键词在所述关键词序列中的顺序，合并所述摘要语句，以生成所述文本信息的摘要。

2.根据权利要求1所述的方法，其特征在于，所述获取待分析的文本信息，包括：

根据预设的预处理规则，对原始文本信息进行预处理，得到所述文本信息。

3.根据权利要求1所述的方法，其特征在于，所述关键词序列的词汇数量小于第一预设阈值，所述摘要语句的词汇数量小于第二预设阈值。

4.根据权利要求1所述的方法，其特征在于，在所述采用摘要分析模型，对所述文本信息进行处理，获取所述文本信息的摘要之前，还包括：

获取文本样本、所述文本样本的摘要、以及预设关键词集合；

采用神经网络，基于所述文本样本、所述文本样本的摘要、以及所述预设关键词集合进行训练，得到所述摘要分析模型。

5.根据权利要求4所述的方法，其特征在于，所述采用神经网络，基于所述文本样本、所述文本样本的摘要、以及所述预设关键词集合进行训练，得到所述摘要分析模型，包括：

采用神经网络，基于所述文本样本、所述文本样本的摘要、以及所述预设关键词集合进行训练，获取中间摘要分析模型；

采用所述中间摘要分析模型分析测试文本，获取所述测试文本的测试摘要；

根据所述测试文本的预设摘要、以及所述测试文本的测试摘要，获取损失函数，其中，所述损失函数由交叉熵和奖励函数构成；

根据所述损失函数更新所述中间摘要分析模型，得到所述摘要分析模型。

6.根据权利要求4或5所述的方法，其特征在于，所述采用神经网络，基于所述文本样本、所述文本样本的摘要、以及所述预设关键词集合进行训练，得到所述摘要分析模型，包括：

采用神经网络，基于所述文本样本、所述文本样本的摘要、所述文本样本的关键词序列、以及所述预设关键词集合进行训练，得到所述摘要分析模型。

7.一种摘要生成装置，其特征在于，包括：文本信息获取模块和摘要获取模块，

所述文本信息获取模块，用于获取待分析的文本信息；

所述摘要获取模块，用于采用摘要分析模型，对所述文本信息进行处理，获取所述文本信息的摘要，其中，所述摘要分析模型基于文本样本、所述文本样本的摘要、以及预设关键词集合训练获取，所述预设关键词集合包括词汇类型以及各词汇类型的特征信息；

所述摘要获取模块，具体用于：采用所述摘要分析模型，根据所述文本信息中各词汇的特征信息获取各词汇的词汇类型；根据所述文本信息中各词汇的词汇类型，生成关键词序列；针对所述关键词序列中的每一个关键词，计算用于生成与该关键词对应的摘要语句中的词汇的生成概率和拷贝概率，其中，所述生成概率用于表示采用预设词汇形成摘要语句词汇的概率，并且所述拷贝概率用于表示采用所述文本信息中的词汇形成摘要语句词汇的概率；根据所述生成概率和所述拷贝概率，确定摘要语句词汇的生成方式；根据所述摘要语句词汇的生成方式，生成所述每一个关键词对应的摘要语句；根据所述关键词在所述关键词序列中的顺序，合并所述摘要语句，以生成所述文本信息的摘要。

8.根据权利要求7所述的装置，其特征在于，所述文本信息获取模块，具体用于：根据预设的预处理规则，对原始文本信息进行预处理，得到所述文本信息。

9.根据权利要求7所述的装置，其特征在于，所述关键词序列的词汇数量小于第一预设阈值，所述摘要语句的词汇数量小于第二预设阈值。

10.根据权利要求7所述的装置，其特征在于，还包括：样本获取模块和模型训练模块，

所述样本获取模块，用于获取文本样本、所述文本样本的摘要、以及预设关键词集合；

所述模型训练模块，用于采用神经网络，基于所述文本样本、所述文本样本的摘要、以及所述预设关键词集合进行训练，得到所述摘要分析模型。

11.根据权利要求10所述的装置，其特征在于，所述模型训练模块，具体用于：采用神经网络，基于所述文本样本、所述文本样本的摘要、以及所述预设关键词集合进行训练，获取中间摘要分析模型；采用所述中间摘要分析模型分析测试文本，获取所述测试文本的测试摘要；根据所述测试文本的预设摘要、以及所述测试文本的测试摘要，获取损失函数，其中，所述损失函数由交叉熵和奖励函数构成；根据所述损失函数更新所述中间摘要分析模型，得到所述摘要分析模型。

12.根据权利要求10所述的装置，其特征在于，所述模型训练模块，具体用于：采用神经网络，基于所述文本样本、所述文本样本的摘要、所述文本样本的关键词序列、以及所述预设关键词集合进行训练，得到所述摘要分析模型。

13.一种电子设备，其特征在于，包括：处理器、存储介质和总线；所述存储介质存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储介质之间通过所述总线通信，所述处理器执行所述机器可读指令，以执行根据权利要求1至6中任一项所述的摘要生成方法。

14.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行根据权利要求1至6中任一项所述的摘要生成方法。