CN113987162A

CN113987162A - 文本摘要的生成方法、装置及计算机设备

Info

Publication number: CN113987162A
Application number: CN202111142825.3A
Authority: CN
Inventors: 王伟; 黄勇其; 于翠翠; 张黔
Original assignee: Runlian Smart Technology Xi'an Co ltd
Current assignee: Runlian Smart Technology Xi'an Co ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-01-28

Abstract

本申请实施例属于人工智能和自然语言处理领域，应用于文本处理领域中，涉及一种文本摘要的生成方法、装置、计算机设备及存储介质，方法包括获取样本文本序列进行编码，得到所述样本文本序列的文本输入向量；从所述样本文本序列的随机位置开始进行掩码，得到掩码文本序列，所述掩码的长度为等差变化；对所述掩码文本序列进行位置编码，生成位置向量；基于所述位置向量与所述文本输入向量，对文本摘要模型进行训练，得到预训练的文本摘要模型；将目标文本输入到所述预训练的文本摘要模型，生成目标文本的摘要内容。该方法使得文本摘要模型能够捕捉长距离的依赖信息，进一步捕捉原始文本内蕴含的信息，解决长距离依赖带来的信息丢失问题。

Description

文本摘要的生成方法、装置及计算机设备

技术领域

本申请涉及人工智能技术领域和自然语言处理领域，尤其涉及一种文本摘要的生成方法、装置、计算机设备及存储介质。

背景技术

人们日常生活工作中积累产生了大量的文本信息，以往需要耗费大量精力阅读这些文本，从而获得真正的有用信息。通过文本摘要技术能够将原来冗长的文本内容压缩为较短的内容，同时保留被压缩前文本的核心观点，从而在很大程度上为人们减轻了工作负担。

早期文本摘要主要是采用抽取式摘要的思路，通过各种方法直接选择被压缩文本中的句子，形成摘要，但这种思想最大的缺点在于缺乏对整个文档内容更高语义层面的概括，无法建立段落中的完整语义信息。而生成式摘要则是通过神经网络模型捕捉语义信息，直接生成文本序列作为最后的摘要，近年来在不少公开测试集上已经超越了最好的抽取式模型。但现有生成式摘要技术多采用seq2seq架构，即通过编码器将原文本编码为包含上下文语义信息的向量，再通过解码器从该向量中得到文本序列，即将该文本序列视为最后生成的文本摘要。但缺点是当文本序列长度过长时，由于众所周知的“长距离依赖”问题，越到解码的后期阶段，信息损失就越大，导致最后语义丢失严重，从而使得文本摘要的质量较差。

发明内容

本申请实施例的目的在于提出一种文本摘要的生成方法、装置、计算机设备及存储介质，以解决文本摘要的准确性低的问题。

为了解决上述技术问题，本申请实施例提供一种文本摘要的生成方法，采用了如下所述的技术方案：

获取样本文本序列进行编码，得到所述样本文本序列的文本输入向量；

从所述样本文本序列的随机位置开始进行掩码，得到掩码文本序列，所述掩码的长度为等差变化；

对所述掩码文本序列进行位置编码，生成位置向量；

基于所述位置向量与所述文本输入向量，对文本摘要模型进行训练，得到预训练的文本摘要模型；

将目标文本输入到所述预训练的文本摘要模型，生成目标文本的摘要内容。

进一步的，获取样本文本序列进行编码，得到所述样本文本序列的文本输入向量的步骤具体包括：

通过词嵌入算法将所述样本文本序列中每个字符转换为固定维度的字符向量，以得到所述样本文本序列的文本输入向量。

进一步的，所述从所述样本文本序列的随机位置开始进行掩码，得到掩码文本序列的步骤包括：

根据所述样本文本序列的长度，确定最大掩码长度；

在所述样本文本序列中的随机确定掩码起始位置；

从所述掩码起始位置开始，以等差数列的形式对所述样本文本序列进行掩码，得到掩码文本序列。

进一步的，所述从所述掩码起始位置开始，以等差数列的形式对所述样本文本序列进行掩码的步骤包括：

从所述掩码起始位置开始，间隔第一等差数列，通过第二等差数列对所述样本文本序列进行掩码。

进一步的，所述对所述掩码文本序列进行位置编码，生成位置向量的步骤包括：

确定各个被掩码部分在所述掩码文本序列的第一序列位置，所述被掩码部分中包括至少一个被掩码字符；

确定各个被掩码部分对应的文本内容，根据文本内容确定对应被掩码部分的加权位置；

确定各个被掩码字符在所述被掩码部分中的第二序列位置；

基于所述加权位置以及所述第二序列位置，生成位置向量。

进一步的，所述基于所述加权位置以及所述第二序列位置，生成位置向量的步骤包括：

将所述加权位置与所述第二序列位置进行相加，得到最终位置编码；

通过三角函数将所述最终位置编码生成位置向量。

进一步的，所述基于所述位置向量与所述文本输入向量，对文本摘要模型进行训练，得到预训练的文本摘要模型的步骤包括：

将所述位置向量与所述文本输入向量相加，输入到所述文本摘要模型；

以最大化长度为m的文本序列排列集合为训练目标，通过自回归方式对所述文本摘要模型进行训练，得到预训练的文本摘要模型。

为了解决上述技术问题，本申请实施例还提供一种文本摘要的生成装置，采用了如下所述的技术方案：

获取模块，用于获取样本文本序列进行编码，得到所述样本文本序列的文本输入向量；

掩码模块，用于从所述样本文本序列的随机位置开始进行掩码，得到掩码文本序列，所述掩码的长度为等差变化；

位置编码模块，用于对所述掩码文本序列进行位置编码，生成位置向量；

训练模块，用于基于所述位置向量与所述文本输入向量，对文本摘要模型进行训练，得到预训练的文本摘要模型；

处理模块，用于将目标文本输入到所述预训练的文本摘要模型，生成目标文本的摘要内容。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述的文本摘要的生成方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的文本摘要的生成方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：获取样本文本序列进行编码，得到文本输入向量后，通过对样本文本序列的随机位置开始进行掩码，得到掩码文本序列，并对掩码文本序列进行位置编码，得到的位置向量与文本输入向量对文本摘要模型进行训练，使得文本摘要模型能够捕捉长距离的依赖信息，进一步捕捉原始文本内蕴含的信息，解决长距离依赖带来的信息丢失问题。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的文本摘要的生成方法的一个实施例的流程图；

图3是图2中步骤S202的一个实施例的流程图；

图4是本申请的一个掩码示意图；

图5是图2中步骤S203的一个实施例的流程图；

图6是根据本申请的文本摘要的生成装置的一个实施例的结构示意图；

图7是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备，网络104和服务器105。其中，终端设备可以包括第一终端设备101、第二终端设备102和第三终端设备103，网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备通过网络104与服务器105交互，以接收或发送消息等。终端设备上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的文本摘要的生成方法一般由服务器执行，相应地，文本摘要的生成装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的文本摘要的生成方法的一个实施例的流程图。所述的文本摘要的生成方法，包括以下步骤：

步骤S201，获取样本文本序列进行编码，得到样本文本序列的文本输入向量。

在本实施例中，文本摘要的生成方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是，上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体地，服务器获取样本文档，将样本文档处理成样本文本序列。样本文档可以通过互联网进行获取，比如在各大文献库(比如知网、万方等)中进行通过爬虫技术爬取各个领域的文档作为样本文档，以及爬取文档对应的摘要作为有监督训练或半监督训练中样本文档的真实标签。

举例来说，样本文档为D，D＝[x1,x2,...,xn]。xi为文档D中的字符，样本文本序列为字符组成的序列，[x1,x2,...,xn]则为样本文本序列。

在一种可能的实施例中，可以对样本文档通过正则表达式去掉样本文档中的分段、标点以及特殊符号，只留下文字相关的字符，从而得到样本文本序列[x1,x2,...,xn]。

对样本文本序列的编码可以采用transformer模型中的encoder模块，通过transformer模型中的encoder模块将样本文本序列编码为一个文本向量

将该文本向量

作为样本文本序列的文本输入向量。

步骤S202，从样本文本序列的随机位置开始进行掩码，得到掩码文本序列。

具体地，服务器从样本文本序列的随机位置开始进行掩码，得到掩码文本序列，掩码的长度可以为等差变化。

举例来说，在样本文本序列中，随机选择部分位置，分别用掩码长度1、2、…、S长度的掩码标志M替代样本文本序列中原来的字符，从而得到掩码文本序列。

需要说明的是，掩码文本序列相对样本文本序列来说，是在样本文本序列的基础上进行遮掩，被遮掩的部分为掩码部分，通过掩码标志M表示，未被遮掩的部分则还是原来的字符。

在一种可能的实施方式中，随机选择的部分位置，应当在掩码的长度处于等差变化条件下，满足对样本文本序列的最大长度掩码，比如，掩码的最大长度为S，则随机选择的部分位置应当使得掩码长度在1、2、…、S的条件下，对样本文本序列能够进行最大长度S的掩码。

步骤S203，对掩码文本序列进行位置编码，生成位置向量。

具体地，服务器从样本文本序列的随机位置开始进行掩码，得到掩码文本序列后，对掩码文本序列进行位置编码，生成位置向量。

位置向量可以用于自注意力机制，自注意力机制根据位置向量，给样本文本序列对应的位置上分配自注意力权重，从而根据自注意力权重来重点关注样本文本序列中的长距离字符之间的蕴含的信息。

步骤S204，基于位置向量与文本输入向量，对文本摘要模型进行训练，得到预训练的文本摘要模型。

具体的，服务器在生成位置向量后，可以基于位置向量与文本输入向量，对文本摘要模型进行训练，从而得到预训练的文本摘要模型。

文本摘要模型可以是基于transformer的改进模型，具体的，文本摘要模型可以由多个transformer-encoder模块叠加得到，上一个transformer-encoder模块的输出作为下一个transformer-encoder模块的输入，其中，每个transformer-encoder模块具有L层特征计算网络，特征计算网络可以是卷积神经网络，更具体的，特征计算网络可以是全卷积神经网络。

需要说明的是，文本摘要模型中，如同原始transformer中一样，设置Q，K，V矩阵。其中，

为权重矩阵，权重矩阵采用随机初始化，在训练过程中进行调整。在原始transformer中，自注意力机制为：

式中，H^L为文本输入向量，A^L为原始transformer的自注意力权重，d_k为K^L的维数。

而本申请自注意力机制为：

与原始transformer不同的是，在式中，自注意力权重叠加有掩码矩阵M，A_M ^L为本申请中文本摘要模型的自注意力权重。若xi在文本序列中的出现位置早于xj，则xi能够与xj进行注意力计算；否则不能。

通过位置向量与文本输入向量对文本摘要模型进行训练后，得到预训练的文本摘要模型。

步骤S205，将目标文本输入到预训练的文本摘要模型，生成目标文本的摘要内容。

具体的，服务器获取目标文本，目标文本可以是用户通过终端设备到服务器上的。服务器获取目标文本后，将目标文本编码为文本输入向量输入到预训练的文本摘要模型中，通过预训练的文本摘要模型生成目标文本的摘要内容进行输出。

本实施例中，获取样本文本序列进行编码，得到文本输入向量后，通过对样本文本序列的随机位置开始进行掩码，得到掩码文本序列，并对掩码文本序列进行位置编码，得到的位置向量与文本输入向量对文本摘要模型进行训练，使得文本摘要模型能够捕捉长距离的依赖信息，进一步捕捉原始文本内蕴含的信息，解决长距离依赖带来的信息丢失问题。

进一步的，获取样本文本序列进行编码，得到所述样本文本序列的文本输入向量的步骤具体包括：通过词嵌入算法将样本文本序列中每个字符转换为固定维度的字符向量，以得到样本文本序列的文本输入向量。

具体的，服务器在获取到样本文本序列后，可以将样本文本序列中每个字符通过词嵌入算法转换为字符向量，每个字符都被嵌入为固定维度的向量，比如，每个字符都被嵌入为512维度的向量。

词嵌入算法可以是设置在transformer模型中的encoder模块内，可以通过encoder模块将样本文本序列中每个字符转换为固定维度的字符向量。可以对transformer模型中的encoder模块进行随机初始化，通过随机初始化，可以给encoder模块的参数随机赋值作为初始值。

需要说明的是，随机初始化一般用于还没有训练过的文本摘要模型中的参数，在文本摘要模型开始训练之前，文本摘要模型中的参数都会进行随机初始化或固定值初始化，在后续训练过程中，再对文本摘要模型中的参数进行调整。

采用transformer模型中的encoder模块对样本文本序列进行编码。设需要进行文本摘要的文本文档为D，D＝[x1,x2,…,xn]。xi为文本文档D中的字符。文本摘要模型由L层的transformer-encoder模块叠加得到，即上一个transformer-encoder模块的输出作为下一个transformer-encoder模块的输入。采用随机初始化手段将文档中每个字符xi映射为固定维度dn的向量h_i ⁰。则编码的过程则为将D＝[x1,x2,…,xn]编码为文本输入向量H⁰＝[h₁ ⁰,...,h_n ⁰]。

本发明实施例中，通过词嵌入算法将样本文本序列中每个字符转换为固定维度的字符向量来得到所述样本文本序列的文本输入向量，不需要人为的事先对每个字符进行编码。

继续参考图3，图3是图2中步骤S202的一个实施例的流程图。所述从所述样本文本序列的随机位置开始进行掩码，得到掩码文本序列的步骤包括：

步骤S2021，根据样本文本序列的长度，确定最大掩码长度。

具体的，服务器获取样本文本序列后，还可以统计样本文本序列的长度，样本文本序列的长度等于样本文本序列的字符数，最大掩码长度S需要小于样本文本序列的长度。

需要说明的是，掩码长度可以是等差变化，相当于掩码长度是一个等差数列，在本申请中，总掩码长度则可以通过等差数列的和来进行计算。而总掩码长度也需要小于样本文本序列。

举例来说，最小掩码长度为s1，最大掩码长度为sk，样本文本序列的长度为n(表示有n个字符)，则有sk＜n，Sk＝k(s1+sk)/2，Sk＜n，其中，Sk为总掩码长度，k为掩码数量。考虑到样本文本序列中未掩码字符的重要性，因此，Sk＜n/2，则有k(s1+sk)/2＜n/2，进而sk＜n/k－s1，可以看出，当k越大，则最大掩码长度sk的取值越小，或者当s1越大，则最大掩码长度sk的取值越小。

本申请中，最大掩码长度优选为样本文本序列的长度的15％-20％，掩码数量k可以为4至7之间的整数。

在一种可能的实施例中，总掩码长度优选为样本文本序列的长度的15％-20％，可以在训练时，保留样本文本序列中更多的明文信息，提高训练的拟合速度，进而提高文本摘要模型的训练速度。

步骤S2022，在样本文本序列中的随机确定掩码起始位置。

具体的，服务器在确定最大掩码长度S后，可以在样本文本序列中的随机确定掩码起始位置。

在一种可能的实施方式中，随机选择的部分位置，应当在掩码的长度处于等差变化条件下，满足对样本文本序列的最大长度掩码，比如，掩码的最大长度为S，则随机选择的部分位置应当使得掩码长度在1、2、…、S的条件下，对样本文本序列能够进行最大长度S的掩码。这样，可以避免随机选择的部分位置太靠后，从而只能掩码部分长度，比如随机选择的部分位置为样本文本序列中倒数第二个位置时，则只能对掩码长度为1的字符进行掩码，掩码长度为2、…、S在样本文本序列中没有对应位置进行掩码。当然，该实施方式为可选的，在具体实施例中，也可以不选该实施方式。

步骤S2023，从掩码起始位置开始，以等差数列的形式对样本文本序列进行掩码，得到掩码文本序列。

具体的，服务器在样本文本序列中的随机确定掩码起始位置后，以等差数列的形式对样本文本序列进行掩码，得到掩码文本序列。

等差数列的形式指的是掩码长度具有等差数列的规律，比如掩码长度为1、2、…、S这样的等差数列。

举例来说，对样本文本序列中掩码起始位置上的1个字符进行掩码，间隔预设字符，对样本文本序列中的2个字符进行掩码，再间隔预设字符，对样本文本序列中的3个字符进行掩码，直到对样本文本序列中的S个字符进行掩码，得到掩码文本序列。

结合图4举例来说，请继续参考图4，图4是本申请的一个掩码示意图。如图4所示，样本文本序列(图4中的原始文本序列)为x1、x2、x3、x4、x5、x6、x7、x8、x9、x10、x11、x12…，掩码起始位置为x2，分别用掩码长度为1、2、…、S的掩码标志M替代样本文本序列中原来的字符，即用M替代样本文本序列中的(x2)，间隔x3后用M替代样本文本序列中的(x4、x5)，间隔x6、x7、x8后用M替代样本文本序列中的(x9、x10、x11)，从而得到掩码文本序列(图4中的遮掩后的文本序列)。

本实施例中，根据所述样本文本序列的长度，确定最大掩码长度S，可以控制掩码的数量，在保证训练效果的同时，提高训练后文本摘要模型的鲁棒性，通过在样本文本序列中的随机确定掩码起始位置，可以使得训练过程中，样本文本序列的掩码更公平，提高训练的效果。

进一步的，所述从掩码起始位置开始，以等差数列的形式对样本文本序列进行掩码的步骤包括：从掩码起始位置开始，间隔第一等差数列，通过第二等差数列对样本文本序列进行掩码。

具体的，第一等差数列用于描述掩码间隔长度为等差变化，第二等差数用于描述掩码长度为等差变化，第一等差数列可以与第二等差数相同。

举例来说，样本文本序列为x1、x2、x3、x4、x5、x6、x7、x8、x9、x10、x11、x12…，掩码起始位置为x2，分别用掩码长度为1、2、…、S的掩码标志M替代文本序列中原来的字符，即用M替代样本文本序列中的(x2)，间隔x3后用M替代样本文本序列中的(x4、x5)，间隔x6、x7后用M替代样本文本序列中的(x8、x9、x10)，从而得到掩码文本序列。

本实施例中，通过从掩码起始位置开始，间隔第一等差数列，通过第二等差数列对样本文本序列进行掩码，使文本摘要模型在训练过程中，更容易捕捉长距离字符之间蕴含的信息。

进一步的，请继续参考图5，图5是图2中步骤S203的一个实施例的流程图。所述对所述掩码文本序列进行位置编码，生成位置向量的步骤包括：

步骤S2031，确定各个被掩码部分在掩码文本序列的第一序列位置。

具体的，服务器在得到掩码文本序列后，可以确定各个被掩码部分在掩码文本序列的第一序列位置SP。其中，被掩码部分中包括至少一个被掩码字符。

结合图4举例来说，样本文本序列(图4中的原始文本序列)为x1、x2、x3、x4、x5、x6、x7、x8、x9、x10、x11、x12…，掩码起始位置为x2，分别用掩码长度为1、2、...、S的掩码标志M替代样本文本序列中原来的字符，即用M替代样本文本序列中的(x2)，间隔x3后用M替代样本文本序列中的(x4、x5)，间隔x6、x7、x8后用M替代样本文本序列中的(x9、x10、x11)，从而得到掩码文本序列(图4中的遮掩后的文本序列)。被掩码部分为(x2)，(x4、x5)，(x9、x10、x11)，则得到掩码文本序列为x1、M、x3、M、x6、x7、x8、M、x12…。在掩码文本序列中，x1对应的第一序列位置SP为1，第一个掩码标志M对应的第一序列位置SP为2，x3对应的第一序列位置SP为3，第二个掩码标志M对应的第一序列位置SP为4，x6对应的第一序列位置SP为5，x7对应的第一序列位置SP为6，x8对应的第一序列位置SP为7，第三个掩码标志M对应的第一序列位置SP为8，x12对应的第一序列位置SP为9，依次类推。

步骤S2032，确定各个被掩码部分对应的文本内容，根据文本内容确定对应被掩码部分的加权位置。

具体的，服务器在得到掩码文本序列后，可以确定各个被掩码部分对应的文本内容，并根据文本内容确定对应被掩码部分的加权位置SPw。

文本内容可以是词性实体，更具体的，对被掩码部分的文本内容进行分词和命名实体识别，若该被掩码部分的文本内容中包含有实体、名词、动词中任意一种，则给予该位置更高的权重。

结合图4举例来说，样本文本序列(图4中的原始文本序列)为x1、x2、x3、x4、x5、x6、x7、x8、x9、x10、x11、x12…，掩码起始位置为x2，分别用掩码长度为1、2、...、S的掩码标志M替代样本文本序列中原来的字符，即用M替代样本文本序列中的(x2)，间隔x3后用M替代样本文本序列中的(x4、x5)，间隔x6、x7、x8后用M替代样本文本序列中的(x9、x10、x11)，从而得到掩码文本序列(图4中的遮掩后的文本序列)。被掩码部分为(x2)，(x4、x5)，(x9、x10、x11)，则得到掩码文本序列为x1、M、x3、M、x6、x7、x8、M、x12…。在掩码文本序列中，x1对应的第一序列位置SP为1，第一个掩码标志M对应的第一序列位置SP为2，x3对应的第一序列位置SP为3，第二个掩码标志M对应的第一序列位置SP为4，x6对应的第一序列位置SP为5，x7对应的第一序列位置SP为6，x8对应的第一序列位置SP为7，第三个掩码标志M对应的第一序列位置SP为8，x12对应的第一序列位置SP为9，依次类推。被掩码部分的文本内容(x2)，(x4、x5)，(x9、x10、x11)，若被掩码部分的文本内容(x2)为实体、名词、动词中任意一种，则给予SP为2的位置更高的权重；若被掩码部分的文本内容(x9、x10、x11)包含实体、名词、动词中任意一种，则给予SP为8的位置更高的权重。

更具体的，可以实体数量为NE，名词数量为NN，动词数量为NV，则SP为k的被掩码部分的权重为：

式中，

表示所有被掩码部分的实体数量、名词数量、动词数量的总和，NE_k+NN_k+NV_k表示SP为k的被掩码部分的实体数量、名词数量、动词数量的总和。

加权位置SPw可以是第一序列位置SP与权重w_k的乘积，即SPw＝w_k*SP。

步骤S2033，确定各个被掩码字符在被掩码部分中的第二序列位置。

具体的，被掩码部分中可以包括一个以上的掩码字符，被掩码部分中字符数与被掩码部分的掩码长度相同。

结合图4举例来说，样本文本序列(图4中的原始文本序列)为x1、x2、x3、x4、x5、x6、x7、x8、x9、x10、x11、x12…，掩码起始位置为x2，分别用掩码长度为1、2、...、S的掩码标志M替代样本文本序列中原来的字符，即用M替代样本文本序列中的(x2)，间隔x3后用M替代样本文本序列中的(x4、x5)，间隔x6、x7、x8后用M替代样本文本序列中的(x9、x10、x11)，从而得到掩码文本序列(图4中的遮掩后的文本序列)。被掩码部分为(x2)，(x4、x5)，(x9、x10、x11)，则得到掩码文本序列为x1、M、x3、M、x6、x7、x8、M、x12…。被掩码部分为(x2)，(x4、x5)，(x9、x10、x11)，对于(x2)来说，是在对应被掩码部分的第一位，其第二序列位置IP为1，对于(x4、x5)来说，x4、x5分别是在对应被掩码部分的第一位和第二位，x4的第二序列位置IP为1，x5的第二序列位置IP为2，对于(x9、x10、x11)来说，x9、x10、x11分别是在对应被掩码部分的第一位、第二位和第三位，x9的第二序列位置IP为1，x10的第二序列位置IP为2，x11的第二序列位置IP为3。

步骤S2034，基于加权位置以及第二序列位置，生成位置向量。

具体的，服务器可以通过加权位置SPw以及第二序列位置IP，生成各个被掩码字符的位置向量。

本实施例中，在确定各个被掩码部分在所述掩码文本序列的第一序列位置SP后，可以根据被掩码部分对应的文本内容，确定对应被掩码部分的加权位置SPw，通过加权位置SPw与第二序列位置IP生成被掩码字符的位置向量，从而提高文本摘要模型中自注意力机制的效果。

进一步的，所述基于所述加权位置SPw以及所述第二序列位置IP，生成位置向量的步骤包括：将加权位置SPw与第二序列位置IP进行相加，得到最终位置编码；通过三角函数将最终位置编码生成位置向量。

具体的，服务器在得到加权位置SPw与第二序列位置IP后，可以将加权位置SPw与第二序列位置IP进行相加，得到最终位置编码pos，再通过三角函数生成位置向量PE，具体如下述式子所示：

本实施例中，在将加权位置SPw与第二序列位置IP进行相加，得到最终位置编码后，通过三角函数生成位置向量PE，能够扩展到未知的文本序列长度。例如，当训练出的文本摘要模型需要生成远比训练集里的摘要更长的摘要时，能够扩展生成更长的摘要文本长度。

进一步的，所述基于所述位置向量与所述文本输入向量，对文本摘要模型进行训练，得到预训练的文本摘要模型的步骤包括：将位置向量与文本输入向量相加，输入到文本摘要模型；以最大化长度为m的文本序列排列集合为训练目标，通过自回归方式对文本摘要模型进行训练，得到预训练的文本摘要模型。

具体的，服务器可以通过自回归方式训练文本摘要模型，训练的目标为：

其中，

Zm为长度为m的所有符合语言规律的文本序列排列集合，θ代表训练过程中各种参数，X_seg为掩码文本序列。

对每个Zm中的字符通过排列，形成总数为m！个序列的Zm文本序列排列集合。

对Zm文本序列排列集合中每个文本序列，检查其包含的N元词数量，N元词代表该词有N个字符，N取值从2开始直到该序列长度。若某个序列中能够形成的词数量少于阈值NT，则从Zm文本序列排列集合中剔除，通过这样的方式能够避免在对全部文本序列进行排列时带来的过高计算开销。

更进一步的，可以采用adam优化方法优化文本摘要模型中参数。

本实施例中，在将位置向量与文本输入向量相加，输入到文本摘要模型后；以最大化长度为m的文本序列排列集合Zm为训练目标，通过自回归方式对文本摘要模型进行训练，得到预训练的文本摘要模型，可以使文本摘要模型的梯度下降更快，从而提高文本摘要模型的训练速度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图6，作为对上述图2所示方法的实现，本申请提供了一种文本摘要的生成装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例所述的文本摘要的生成装置600包括：获取模块601、掩码模块602、位置编码模块603、训练模块604以及处理模块605，其中：

获取模块601，用于获取样本文本序列进行编码，得到所述样本文本序列的文本输入向量；

掩码模块602，用于从所述样本文本序列的随机位置开始进行掩码，得到掩码文本序列，所述掩码的长度为等差变化；

位置编码模块603，用于对所述掩码文本序列进行位置编码，生成位置向量；

训练模块604，用于基于所述位置向量与所述文本输入向量，对文本摘要模型进行训练，得到预训练的文本摘要模型；

处理模块605，用于将目标文本输入到所述预训练的文本摘要模型，生成目标文本的摘要内容。

在本实施例的一些可能的实现方式中，获取模块601包括转换子模块，其中：

转换子模块，用于通过词嵌入算法将样本文本序列中每个字符转换为固定维度的字符向量，以得到所述样本文本序列的文本输入向量。

本实施例中，通过词嵌入算法将样本文本序列中每个字符转换为固定维度的字符向量来得到所述样本文本序列的文本输入向量，不需要人为的事先对每个字符进行编码。

在本实施例的一些可选的实现方式中，掩码模块602包括：第一确定子模块、第二确定子模块以及掩码子模块，其中：

第一确定子模块，用于根据所述样本文本序列的长度，确定最大掩码长度；

第二确定子模块，用于在所述样本文本序列中的随机确定掩码起始位置；

掩码子模块，用于从所述掩码起始位置开始，以等差数列的形式对所述样本文本序列进行掩码，得到掩码文本序列。

本实施例中，通过根据所述样本文本序列的长度，确定最大掩码长度，将在所述样本文本序列中的随机确定掩码起始位置，从所述掩码起始位置开始，以等差数列的形式对所述样本文本序列进行掩码，得到掩码文本序列，通过在样本文本序列中的随机确定掩码起始位置，可以使得训练过程中，样本文本序列的掩码更公平，提高训练的效果。

在本实施例的一些可能的实现方式中，掩码子模块包括掩码单元，其中：

掩码单元，用于从所述掩码起始位置开始，间隔第一等差数列，通过第二等差数列对所述样本文本序列进行掩码。

本实施例中，通过从所述掩码起始位置开始，间隔第一等差数列，通过第二等差数列对所述样本文本序列进行掩码，使文本摘要模型在训练过程中，更容易捕捉长距离字符之间蕴含的信息。

在本实施例的一些可能的实现方式中，位置编码模块603包括：第三确定子模块、第四确定子模块、第五确定子模块以及生成子模块，其中：

第三确定子模块，用于确定各个被掩码部分在所述掩码文本序列的第一序列位置，所述被掩码部分中包括至少一个被掩码字符；

第四确定子模块，用于确定各个被掩码部分对应的文本内容，根据文本内容确定对应被掩码部分的加权位置；

第五确定子模块，用于确定各个被掩码字符在所述被掩码部分中的第二序列位置；

生成子模块，用于基于所述加权位置以及所述第二序列位置，生成位置向量。

本实施例中，确定各个被掩码部分在所述掩码文本序列的第一序列位置；确定各个被掩码部分对应的文本内容，根据文本内容确定对应被掩码部分的加权位置；确定各个被掩码字符在所述被掩码部分中的第二序列位置；基于所述加权位置以及所述第二序列位置，生成位置向量，从而提高文本摘要模型中自注意力机制的效果。

在本实施例的一些可能的实现方式中，生成子模块包括：相加单元以及生成单元，其中：

相加单元，用于将所述加权位置与所述第二序列位置进行相加，得到最终位置编码；

生成单元，用于通过三角函数将所述最终位置编码生成位置向量。

本实施例中，将所述加权位置与所述第二序列位置进行相加，得到最终位置编码；通过三角函数将所述最终位置编码生成位置向量，能够扩展到未知的文本序列长度。

在本实施例的一些可能的实现方式中，训练模块604包括：相加子模块以及训练子模块，其中：

相加子模块，用于将所述位置向量与所述文本输入向量相加，输入到所述文本摘要模型；

训练子模块，用于以最大化长度为m的文本序列排列集合为训练目标，通过自回归方式对所述文本摘要模型进行训练，得到预训练的文本摘要模型。

本实施例中，将所述位置向量与所述文本输入向量相加，输入到所述文本摘要模型，以最大化长度为m的文本序列排列集合为训练目标，通过自回归方式对所述文本摘要模型进行训练，得到预训练的文本摘要模型，可以使文本摘要模型的梯度下降更快，从而提高文本摘要模型的训练速度。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图7，图7为本实施例计算机设备基本结构框图。

所述计算机设备7包括通过系统总线相互通信连接存储器71、处理器72、网络接口73。需要指出的是，图中仅示出了具有组件71-73的计算机设备7，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器71至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器71可以是所述计算机设备7的内部存储单元，例如该计算机设备7的硬盘或内存。在另一些实施例中，所述存储器71也可以是所述计算机设备7的外部存储设备，例如该计算机设备7上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器71还可以既包括所述计算机设备7的内部存储单元也包括其外部存储设备。本实施例中，所述存储器71通常用于存储安装于所述计算机设备7的操作系统和各类应用软件，例如文本摘要的生成方法的计算机可读指令等。此外，所述存储器71还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器72在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器72通常用于控制所述计算机设备7的总体操作。本实施例中，所述处理器72用于运行所述存储器71中存储的计算机可读指令或者处理数据，例如运行所述文本摘要的生成方法的计算机可读指令。

所述网络接口73可包括无线网络接口或有线网络接口，该网络接口73通常用于在所述计算机设备7与其他电子设备之间建立通信连接。

本实施例中提供的计算机设备可以执行上述文本摘要的生成方法的步骤。此处文本摘要的生成方法的步骤可以是上述各个实施例的文本摘要的生成方法中的步骤。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的文本摘要的生成方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种文本摘要的生成方法，其特征在于，包括下述步骤：

对所述掩码文本序列进行位置编码，生成位置向量；

2.根据权利要求1所述的文本摘要的生成方法，其特征在于，获取样本文本序列进行编码，得到所述样本文本序列的文本输入向量的步骤具体包括：

3.根据权利要求2所述的文本摘要的生成方法，其特征在于，所述从所述样本文本序列的随机位置开始进行掩码，得到掩码文本序列的步骤包括：

根据所述样本文本序列的长度，确定最大掩码长度；

在所述样本文本序列中的随机确定掩码起始位置；

4.根据权利要求3所述的文本摘要的生成方法，其特征在于，所述从所述掩码起始位置开始，以等差数列的形式对所述样本文本序列进行掩码的步骤包括：

5.根据权利要求4所述的文本摘要的生成方法，其特征在于，所述对所述掩码文本序列进行位置编码，生成位置向量的步骤包括：

确定各个被掩码字符在所述被掩码部分中的第二序列位置；

基于所述加权位置以及所述第二序列位置，生成位置向量。

6.根据权利要求5所述的文本摘要的生成方法，其特征在于，所述基于所述加权位置以及所述第二序列位置，生成位置向量的步骤包括：

通过三角函数将所述最终位置编码生成位置向量。

7.根据权利要求6所述的文本摘要的生成方法，其特征在于，所述基于所述位置向量与所述文本输入向量，对文本摘要模型进行训练，得到预训练的文本摘要模型的步骤包括：

8.一种文本摘要的生成装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的文本摘要的生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的文本摘要的生成方法的步骤。