CN113157855B

CN113157855B - 一种融合语义与上下文信息的文本摘要方法及系统

Info

Publication number: CN113157855B
Application number: CN202110197752.1A
Authority: CN
Inventors: 陈羽中; 张斯巍
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2023-02-21
Anticipated expiration: 2041-02-22
Also published as: CN113157855A

Abstract

本发明提出一种融合语义与上下文信息的文本摘要方法，其特征在于：包括以下步骤：步骤A：采集文本内容以及摘要，构建文本‑摘要对训练集；步骤B：基于文本‑摘要对训练集，训练融合语义与上下文信息的深度学习网络模型；步骤C：将文本内容输入步骤B训练好的深度学习网络模型中，输出文本的摘要；本发明能够更好地捕获文本的潜在语义信息，提高了对于生成摘要的准确精度。

Description

一种融合语义与上下文信息的文本摘要方法及系统

技术领域

本发明涉及自然语言处理与文本摘要应用领域，尤其是一种融合语义与上下文信息的文本摘要方法及系统。

背景技术

近年来，随着深度学习在各个应用领域取得突飞猛进的发展，研究人员开始将其应用到自动文本摘要中。与传统的机器学习方法相比，深度学习方法能够自动地对文本的高层次特征进行提取、学习文本的语义信息，实验效果得到显著提升。随着自然语言处理越来越受到研究人员的重视和研究，自动文本摘要的关键技术成为了相关领域学者的研究热点之一。自动文本摘要可分为抽取式文本摘要和生成式文本摘要，抽取式文本摘要是从原始文档中选择能够代表文章中心意思的句子、段落等，并将它们连接起来组成摘要，而生成式摘要旨在通过学习文本的主要内容，重新组织并用简短的语言进行概括。抽取式文本摘要方法相对简单，并且产生的摘要语法结构更准确，但是句子之间的联系不够紧密，抽取出来摘要不易理解。而生成式文本摘要更加符合人类生成摘要的习惯，摘要的中心意思更加的集中，并尽可能用更少的文字表达文本的中心意思，两者有各自的优点和应用场景，都是自动文本摘要领域的研究重点。

在过去的十几年内，生成式文本摘要的研究飞速发展，取得了一定的成就。早期的方法包括句子压缩、句子融合、句子修改等方法。然而，这些方法与抽取式方法相比改进不大。后来，一种完全抽象的方法应运而生，通常包含三个子任务:信息提取、内容选择和生成。该方法先从文本中提取重要信息获得候选短语，之后选择一些候选短语，组成一个子集，最后使用语法/句法规则，组合子集中的候选内容，利用文本生成方法生成摘要。Genest等人先对数据集中进行句子分割、标记化等一些预处理,之后选择最常出现的短语,最后使用SimpleNLG工具生成摘要，从一定程度上提升了摘要的流畅性。Greenbacker等人提出一种语义模型框架，先使用Sparser分析文本并构建语义模型，之后使用信息密度度量，捕获文档和模型中重要的信息，从而获得丰富的语义信息，最后将这些信息组合成摘要。

近年来，深度学习方法在包括文本摘要研究在内的众多自然语言处理领域获得了广泛的应用。 Rush等人提出一种基于注意力机制的模型，模型由CNN编码器和神经网络语言模型组成，此外，他们是第一个在句子摘要任务中使用带注释的Gigaword新闻数据集，并且还构建大规模语料库。随后 Chopra等人在此基础上，用循环神经网络作为解码器，进一步提高了生成式文本摘要模型的性能。 Nallapati等人受到seq2seq(Sequence toSequence)模型的启发，在生成式文本摘要模型上引入基于注意力机制的编码器-解码器的模型，使用词法和统计特征对关键词进行建模，用层级的编码器结构捕捉文档结构，进而获得丰富的潜在语义信息。尽管这些生成式的方法在文本摘要任务上取得了不错的结果，但是依然存在着不能准确把握文章事实、无法处理词汇表外的词和重复问题。针对上述问题，See 等人提出指针-生成器网络，该网络不仅能够从源文本复制单词，还能使用生成器生成新单词，解决了OOV(Out of Vocabulary)的问题，此外，为了解决摘要的重复问题，See等人提出覆盖机制跟踪历史注意力权重，进一步调节注意力权重，能够有效地提高所得到摘要的质量和效果。

编码器-解码器模型在短文本序列上取得了良好的性能，但是对于较长的文档序列，这些模型通常会出现重复或者不连贯的短语。因此，近年来，出现了很多新的模型和方法解决文本的远距离依赖问题。Lin等人提出用卷积门控单元对源文本进行全局编码，能够更好地获取n-gram语法特征信息。 Vaswani等人提出一种完全基于注意力机制的Tansformer模型，能更有效地对文本的长距离关系进行建模，在众多领域上表现出显著的性能。You等人在Tansformer的基础上，提出一个局部方差注意力，能够很好的学习长文本的表征，解决摘要语义不准确的问题。

发明内容

本发明提出一种融合语义与上下文信息的文本摘要方法及系统，能够更好地捕获文本的潜在语义信息，提高了对于生成摘要的准确精度。

本发明采用以下技术方案。

一种融合语义与上下文信息的文本摘要方法，包括以下步骤：

步骤A：采集文本内容以及摘要，构建文本-摘要对训练集；

步骤B：基于文本-摘要对训练集，训练融合语义与上下文信息的深度学习网络模型；

步骤C：将文本内容输入步骤B训练好的深度学习网络模型中，输出文本的摘要。

所述步骤B具体包括以下步骤：

步骤B1：遍历文本-摘要对训练集，对训练集中的每个训练样本，重复下述步骤B2-B7；

步骤B2：对每个训练样本，根据预训练的词向量矩阵分别对文本和摘要进行编码，得到文本的初始表征向量

和摘要的初始表征向量

步骤B3：将步骤B2得到的初始表征向量

输入到卷积编码器中，得到文本的语义表征向量

步骤B4：将步骤B2得到的初始表征向量

输入到变换网络中，得到文本的上下文表征向量

步骤B5：使用门控单元融合步骤B3得到的文本的语义表征向量

和步骤B4得到的文本的上下文表征向量

得到文本的表征向量

步骤B6：将步骤B5得到的文本的表征向量

和步骤B2得到的摘要的初始表征向量

输入到解码器中，得到融合文本和摘要语义信息的表征向量

步骤B7：将步骤B5得到的表征向量

输入到全连接层，再通过Softmax，输出概率分布向量

|D|为词典大小，计算公式如下：

其中

为隐藏层权重矩阵，为可训练的参数；

步骤B8：根据目标损失函数loss，利用反向传播方法计算深度学习网络中各参数的梯度，并利用随机梯度下降方法更新参数；

用交叉熵作为损失函数计算损失值，通过梯度优化算法SGD进行学习率更新，利用反向传播迭代更新模型参数，以最小化损失函数来训练模型；

其中最小化损失函数Loss的计算公式如下：

其中M为摘要中词的个数；

为预测第i个摘要词时，目标单词在词典中的索引；

步骤B9：当深度学习网络模型产生的损失值小于设定阈值不再降低或者达到最大迭代次数，终止深度学习模型的训练。

所述步骤B2具体包括以下步骤：

步骤B21：每个训练样本表示为(s,a)，s表示文本，a表示摘要，分别对文本s和摘要a进行分词并去除停用词；

文本s和摘要a经过分词及去除停用词后，可分别表示为：

其中，

为文本s经过分词及去除停用词后剩余词语中的第i个词，i＝1,2,...,N；

为摘要a 经过分词及去除停用词后剩余词语中的第j个词，j＝1,2,...,M；N为文本s经过分词及去除停用词后剩余的词语数量，M为摘要a经过分词及去除停用词后剩余的词语数量；

步骤B22：对步骤B21得到的摘要s进行编码，得到摘要s的初始表征向量

表示为：

其中，

“+”表示向量加法操作，

为文本中第i个词

所对应的词向量，i＝1,2,...,N，通过在预训练的词向量矩阵

中查找得到，其中d表示词向量的维度，|D| 是词典中的词语数；

为文本s中第i个词

所对应的位置编码，i＝1,2,...,N，编码方式如下：

其中，

表示位置编码

的偶数维对应的正弦值，

表示位置编码

的奇数维对应的余弦值；

[]^T表示转置操作；

步骤B23：对步骤B21得到的摘要a进行编码，得到摘要a的初始表征向量

表示为：

其中，

“+”表示向量加法操作，

为摘要中第j个词

所对应的词向量，j＝1,2,...,M，通过在预训练的词向量矩阵

为摘要中第j个词

所对应的位置编码，j＝1,2,...,M，编码方式如下：

其中，

表示位置编码

的偶数维对应的正弦值，

表示位置编码

的奇数维对应的余弦值；

[]^T表示转置操作。

所述步骤B3具体方法如下：将文本的初始表征向量

视作由

构成的向量序列，输入到卷积编码器中，卷积编码器由L个卷积层构成，第一个卷积层的输入为文本的初始表征向量

第 l个卷积层的输出为第l+1个卷积层的输入，对第l个卷积层，卷积操作公式如下：

其中，

表示第l层第i个卷积核窗口的输出，

表示在卷积核窗口内的向量序列，k为卷积核的大小,

为待学习的参数，2d表示特征映射的个数；

为偏置向量，

为文本s的第i个词在第l个卷积层所对应的输出；

将

平分成两部分，分别为

和

使用门控单元融合两部分的信息，得到

计算公式如下：

其中，σ为sigmoid函数，

为可训练的参数；

将第L个卷积层的输出作为文本的语义表征向量

所述步骤B4中；具体包括以下步骤：

步骤B41：将得到文档的初始表征向量

分别乘以权重矩阵

得到新向量

计算公式如下：

其中，

为可训练的参数；

步骤B42：选择能够整除d的整数h，将步骤B41计算得到的新向量q_e,k_e,v_e的最后一个维度平均分成h个子向量，分别得到子向量序列[q_e,1；...；q_e,i；...；q_e,h]、[k_e,1；...；k_e,i；...；k_e,h]和 [v_e,1；...；v_e,i；...；v_e,h]，其中

是q_e的第i个子向量，

是k_e的第i个子向量，

是v_e的第i个子向量；

步骤B43：将q_e、k_e、v_e的每个对应的子向量输入到注意力机制模块中，计算公式如下：

Head_e,i＝softmax(A_e,i)v_e,i 公式十四

其中

为注意力相似性权重矩阵，

为多头注意力机制第i个子向量的输出向量；

步骤B44：把将h个子向量的输出向量连接起来作为多注意力机制的输出向量：

c_e＝[Head_e,1；...；Head_e,i...；Head_e,h]W_e,i＝1,2,...,h 公式十五

其中，

为多头注意力机制的输出向量，[；]表示向量连接操作，

为可训练的参数；

步骤B45：把多头注意力机制的输出向量c_e和q_e向量输入到门控单元中，得到门控注意力向量

计算公式如下：

f＝tanh([c_e；q_e]W_f) 公式十六

g＝sigmoid([c_e；q_e]W_g) 公式十七

其中，

是矩阵之间的元素乘积，

为可训练的参数；

步骤B46：对得到的门控注意力向量u进行残差操作和层归一化操作，再经过一个全连接前向网络，得到文本的上下文表征向量

计算公式如下：

其中LayerNorm表示层归一化操作，max为取最大值函数，

为可训练的参数。。

所述步骤B5中，使用门控单元融合步骤B3得到的文本的语义表征向量

和步骤B4得到的文本的上下文表征向量

得到文本的表征向量

计算公式如下：

其中，

表示哈达玛积，σ为sigmoid函数。

所述步骤B6具体包括以下步骤：

步骤B61：得到摘要的初始表征向量

之后，将

分别乘以权重矩阵

得到新向量

计算公式如下：

其中，

为可学习的参数；

步骤B62：选择能够整除d的整数h，将步骤B61计算得到的新向量q_a,k_a,v_a的最后一个维度平均分成h个子向量，分别得到子向量序列[q_a,1；...；q_a,i；...；q_a,h]、[k_a,1；…；k_a,i；...；k_a,h]和 [v_a,1；...；v_a,i；...；v_a,h]，其中

是q_a的第i个子向量，

是k_a的第i个子向量，

是v_a的第i个子向量；

步骤B63：将q_a,k_a,v_a的每个对应的子向量输入到注意力机制模块中，计算公式如下：

A_a,i＝q_a,ik_a,i ^T,i＝1,2,...h 公式二十三

其中，

为注意力相似性权重矩阵；

步骤B64：对每个注意力相似性权重矩阵做掩码操作，计算公式如下：

其中，

为上三角区域为负无穷的矩阵。掩码操作的目的是在原始矩阵上盖上一层掩膜，从而屏蔽或选择一些特定元素；

步骤B65：将注意力相似性权重矩阵A′_a,i经过softmax计算之后，再与v_a,i相乘，计算公式如下：

Head_a,i＝softmax(A′_a,i)v_a,i 公式二十五

其中，

多头注意力机制第i个子向量的输出向量。

步骤B66：将h个子向量的输出向量连接起来作为多头注意力机制的输出向量，计算公式如下：

c_a＝[Head_a,1；...；Head_a,i；...；Head_a,h]W_c,i＝1,2,...,h 公式二十六

其中，

为多头注意力机制的输出向量，[；]表示向量连接操作，

为可训练参数；

步骤B67：对得到的多头注意力机制的输出向量c_a进行残差操作和层归一化操作，再经过一个全连接前向网络，得到摘要的上下文信息表征向量

计算公式如下：

其中LayerNorm表示层归一化操作，max为取最大值函数，

为可训练参数；

步骤B68：将摘要的上下文表征向量

和文本的表征向量

输入到注意力层中，将

乘以权重矩阵

得到向量

将

分别乘以权重矩阵

得到向量

计算公式如下：

其中，

为可训练参数；

步骤B69：选择能够整除d的整数h，将步骤B68计算得到的新向量q_d、k_d、v_d的最后一个维度平均分成h个子向量，分别得到子向量序列[q_d,1；...；q_d,i；...；q_d,h]、[k_d,1；...；k_d,i；...；k_d,h]和 [v_d,1；...；v_d,i；...；v_d,h]，其中

是q_d的第i个子向量，

是k_d的第i个子向量，

是v_d的第i个子向量。

将q_d、k_d、v_d的每个对应的子向量输入到注意力机制模块中，计算公式如下：

Head_d,i＝softmax(A_d,i)v_d,i 公式三十一

其中

为注意力相似性权重矩阵，

为多头注意力机制第i个子向量的输出向量。

然后把将h个子向量的输出向量连接起来作为多注意力机制的输出向量：

c_d＝[Head_d,1；...；Head_d,i...；Head_d,h]W_d,i＝1,2,...,h 公式三十二

其中，

为多头注意力机制的输出向量，[；]表示向量连接操作，

为可训练的参数；

把多头注意力机制的输出向量c_d经过残差操作和层归一化操作，最后经过一个全连接前向网络，得到表征向量

计算公式如下：

y_d＝LayerNorm((c_d)W_d,1+F_m) 公式三十三

其中LayerNorm表示层归一化操作，max为取最大值函数，

为可训练的参数。

一种融合语义与上下文信息的文本摘要系统，采用以上所述的一种融合语义与上下文信息的文本摘要方法，包括：

训练集构建模块，采集文本内容以及摘要，构建文本-摘要对训练集；

文本预处理模块，用于对训练集中的每个训练样本进行预处理，包括对样本中包含的文本与摘要进行分词处理和去除停用词；

网络训练模块，用于将文本和摘要的文本表征向量分别输入到深度学习网络模型的卷积神经网络和转换编码器中，得到文档的局部上下文信息表征向量和文档的全局上下文信息表征向量，两个向量经过门控单元得到融合向量，进而输入到转换解码器中得到最后的表征向量。利用该表征向量的概率分布向量以及训练集中的标注，以最小化损失为目标来对整个深度学习网络进行训练，得到深度学习网络模型；以及文档摘要模块，用于利用训练好的深度学习网络模型对输入的文本进行分析处理，输出文本的摘要。

相较于现有技术，本发明具有以下有益效果：提供了一种卷积神经网络与改进变换网络的文本摘要方法及系统，该方法及系统基于文本摘要对训练集训练基于卷积神经网络与改进变换网络的深度学习网络模型，充分提取文档全局和局部信息，从而使模型能够更加充分地学习源文本的语义信息。引入门控机制控制模块各层中的语义信息流向，提取上下文信息和关键信息，从而使得模型能够更好地捕获文本的潜在语义信息，提高了对于生成摘要的准确精度，具有很强的实用性和广阔的应用前景。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

附图1为本发明实施例的方法实现流程图；

附图2为本发明实施例的系统结构示意图。

具体实施方式

步骤A：采集文本内容以及摘要，构建文本-摘要对训练集；

所述步骤B具体包括以下步骤：

和摘要的初始表征向量

步骤B3：将步骤B2得到的初始表征向量

输入到卷积编码器中，得到文本的语义表征向量

步骤B4：将步骤B2得到的初始表征向量

输入到变换网络中，得到文本的上下文表征向量

步骤B5：使用门控单元融合步骤B3得到的文本的语义表征向量

和步骤B4得到的文本的上下文表征向量

得到文本的表征向量

步骤B6：将步骤B5得到的文本的表征向量

和步骤B2得到的摘要的初始表征向量

输入到解码器中，得到融合文本和摘要语义信息的表征向量

步骤B7：将步骤B5得到的表征向量

输入到全连接层，再通过Softmax，输出概率分布向量

|D|为词典大小，计算公式如下：

其中

为隐藏层权重矩阵，为可训练的参数；

其中最小化损失函数Loss的计算公式如下：

其中M为摘要中词的个数；

为预测第i个摘要词时，目标单词在词典中的索引；

所述步骤B2具体包括以下步骤：

文本s和摘要a经过分词及去除停用词后，可分别表示为：

其中，

表示为：

其中，

“+”表示向量加法操作，

为文本中第i个词

所对应的词向量，i＝1,2,...,N，通过在预训练的词向量矩阵

为文本s中第i个词

所对应的位置编码，i＝1,2,...,N，编码方式如下：

其中，

表示位置编码

的偶数维对应的正弦值，

表示位置编码

的奇数维对应的余弦值；

[]^T表示转置操作；

表示为：

其中，

“+”表示向量加法操作，

为摘要中第j个词

所对应的词向量，j＝1,2,...,M，通过在预训练的词向量矩阵

为摘要中第j个词

所对应的位置编码，j＝1,2,...,M，编码方式如下：

其中，

表示位置编码

的偶数维对应的正弦值，

表示位置编码

的奇数维对应的余弦值；

[]^T表示转置操作。

所述步骤B3具体方法如下：将文本的初始表征向量

视作由

其中，

表示第l层第i个卷积核窗口的输出，

表示在卷积核窗口内的向量序列，k为卷积核的大小,

为待学习的参数，2d表示特征映射的个数；

为偏置向量，

为文本s的第i个词在第l个卷积层所对应的输出；

将

平分成两部分，分别为

和

使用门控单元融合两部分的信息，得到

计算公式如下：

其中，σ为sigmoid函数，

为可训练的参数；

将第L个卷积层的输出作为文本的语义表征向量

所述步骤B4中；具体包括以下步骤：

步骤B41：将得到文档的初始表征向量

分别乘以权重矩阵

得到新向量

计算公式如下：

其中，

为可训练的参数；

步骤B42：选择能够整除d的整数h，将步骤B41计算得到的新向量q_e,k_e,v_e的最后一个维度平均分成h个子向量，分别得到子向量序列[q_e,1；…；q_e,i；…；q_e,h]、[k_e,1；…；k_e,i；…；k_e,h]和 [v_e,1；…；v_e,i；…；v_e,h]，其中

是q_e的第i个子向量，

是k_e的第i个子向量，

是v_e的第i个子向量；

Head_e,i＝softmax(A_e,i)v_e,i 公式十四

其中

为注意力相似性权重矩阵，

为多头注意力机制第i个子向量的输出向量；

c_e＝[Head_e,1；...；Head_e,i...；Head_e,h]W_e,i＝1,2,...,h 公式十五

其中，

为多头注意力机制的输出向量，[；]表示向量连接操作，

为可训练的参数；

计算公式如下：

f＝tanh([c_e；q_e]W_f) 公式十六

g＝sigmoid([c_e；q_e]W_g) 公式十七

其中，

是矩阵之间的元素乘积，

为可训练的参数；

计算公式如下：

其中LayerNorm表示层归一化操作，max为取最大值函数，

为可训练的参数。。

和步骤B4得到的文本的上下文表征向量

得到文本的表征向量

计算公式如下：

其中，

表示哈达玛积，σ为sigmoid函数。

所述步骤B6具体包括以下步骤：

步骤B61：得到摘要的初始表征向量

之后，将

分别乘以权重矩阵

得到新向量

计算公式如下：

其中，

为可学习的参数；

步骤B62：选择能够整除d的整数h，将步骤B61计算得到的新向量q_a,k_a,v_a的最后一个维度平均分成h个子向量，分别得到子向量序列[q_a,1；...；q_a,i；...；q_a,h]、[k_a,1；...；k_a,i；...；k_a,h]和 [v_a,1；...；v_a,i；...；v_a,h]，其中

是q_a的第i个子向量，

是k_a的第i个子向量，

是v_a的第i个子向量；

A_a,i＝q_a,ik_a,i ^T,i＝1,2,…h 公式二十三

其中，

为注意力相似性权重矩阵；

其中，

Head_a,i＝softmax(A′_a,i)v_a,i 公式二十五

其中，

多头注意力机制第i个子向量的输出向量。

其中，

为多头注意力机制的输出向量，[；]表示向量连接操作，

为可训练参数；

计算公式如下：

其中LayerNorm表示层归一化操作，max为取最大值函数，

为可训练参数；

步骤B68：将摘要的上下文表征向量

和文本的表征向量

输入到注意力层中，将

乘以权重矩阵

得到向量

将

分别乘以权重矩阵

得到向量

计算公式如下：

其中，

为可训练参数；

步骤B69：选择能够整除d的整数h，将步骤B68计算得到的新向量q_d、k_d、v_d的最后一个维度平均分成h个子向量，分别得到子向量序列[q_d,1；…；q_d,i；…；q_d,h]、[k_d,1；...；k_d,i；...；k_d,h]和 [v_d,1；...；v_d,i；...；v_d,h]，其中

是q_d的第i个子向量，

是k_d的第i个子向量，

是v_d的第i个子向量。

Head_d,i＝softmax(A_d,i)v_d,i 公式三十一

其中

为注意力相似性权重矩阵，

为多头注意力机制第i个子向量的输出向量。

其中，

为多头注意力机制的输出向量，[；]表示向量连接操作，

为可训练的参数；

计算公式如下：

y_d＝LayerNorm((c_d)W_d,1+F_m) 公式三十三

其中LayerNorm表示层归一化操作，max为取最大值函数，

为可训练的参数。

实施例1：

如图所示，一种融合语义与上下文信息的文本摘要方法，其特征在于：包括以下步骤：

步骤A：采集文档的文本内容以及摘要，构建包括文档、摘要和文档与摘要关联数据的文本-摘要训练集SA；

步骤B：基于文本-摘要对训练集SA，训练基于融合卷积神经网络与改进变换网络的深度学习网络模型M；

步骤C：自动文摘系统接受文本内容，将文本输入到训练好的深度学习网络模型M中，输出文本的摘要。

所述步骤B具体包括以下步骤：

步骤B1：对训练集SA中的每个文本、摘要进行编码，得到文本的初始表征向量

和摘要的初始表征向量

步骤B2：将步骤B1得到的初始表征向量

输入到卷积编码器中，得到文本的局部上下文信息表征向量F_l；

步骤B3：将步骤B1得到的初始表征向量

输入到改进变换网络中，得到文本的全局上下文信息表征向量F_g。

步骤B4：用神经网络的GTU门控单元将步骤B2得到的文本的局部上下文信息表征向量F_l和步骤B3得到的全局上下文信息表征向量F_g融合起来，得到融合向量F；

步骤B5：将步骤B4得到的融合向量F和摘要的初始表征向量输入到深度学习网络模型的解码器模块中，得到表征向量F_d；

步骤B6：将步骤B5得到的表征向量输入到全连接层和Softmax层，根据目标损失函数loss，利用反向传播方法计算深度学习网络中各参数的梯度，并利用随机梯度下降方法更新参数；

步骤B7：当深度学习网络模型M产生的损失值小于设定阈值且不再降低或者迭代次数达到最大迭代次数，则终止神经网络模型的训练。

所述步骤B1具体包括以下步骤：

步骤B11：遍历训练集SA，SA中的每个训练样本表示为sa＝(s,a)，其中s表示文本，a表示摘要；对训练样本sa中的文档s和摘要a进行分词处理去除停用词；

其中，文本s和摘要a分别经过分词及去除停用词后，表示为：

其中，

和

分别为文本s和摘要a经过分词及去除停用词后剩余词语中的第i个词和第j 个词，i＝1,2,...,N，j＝1,2,...,M，N、M分别为文本s和摘要a经过分词及去除停用词后剩余的词语数量；

步骤B12：对经过分词及去除停用词后的摘要s进行编码，得到摘要s的初始表征向量

表示为：

其中，

为第i个词

所对应的词向量，通过在预训练的词向量矩阵

中查找得到，其中d表示词向量的维度，|D|是词典D中的词语数；

为文本s中第i个词

所对应的位置信息的编码；编码方式如下：

其中，p_(i,2j)表示位于文本中第i个词的第j个维度的值，i表示该词在文档中出现的位置，位置编码的每一维对应一个正弦信号。

是文本s的初始表征向量

中第t个单词

及其位置信息p_t的相加表示，“+”表示向量加法操作，

文本s的初始表征向量

步骤B13：对经过分词及去除停用词后的摘要a进行编码，得到摘要a的初始表征向量

表示为：

其中，

为第i个词

所对应的词向量，通过在预训练的词向量矩阵

为摘要a中第i个词

所对应的位置信息的编码；编码方式如下：

其中，p_(i,2j)表示位于摘要中第i个词的第j个维度的值，i表示该词在摘要中出现的位置，位置编码的每一维对应一个正弦信号。

是摘要a的初始表征向量

中第t个单词

及其位置信息p_t的相加表示，“+”表示向量加法操作，

摘要a的初始表征向量

所述步骤B2具体包括以下步骤：

步骤B21：将文档的初始表征向量

视作词向量构成的序列，输入到深度学习网络模型的卷积编码器中，最后输出文档的局部上下文信息表征向量F_l；

其中卷积编码器由L个卷积块构成,block_l,l＝1,2,K L表示第l个卷积块，每个block相互独立，卷积块block_l的计算公式如下：

其中，

表示该卷积窗口内的向量序列，k为卷积核的大小,W^l∈R^2d×kd为可学习的参数，2d表示特征映射的个数；

为偏置向量；

为第l个卷积块第i个词所对应的输入，

为第l层卷积block第i个词所对应的输出，第一层卷积的输入为文档的初始表征向量

将

按d维平分成两部分，分别为

和

使用门控单元融合两部分的信息，得到d维向量，计算公式如下式所示

其中，σ为sigmoid函数，W_a∈R^d×d，W_b∈R^d×d为可训练的参数，最后一个卷积块的输出为卷积编码器的输出，即文档的局部上下文信息表征向量F_l∈R^N×d。

所述步骤B3具体包括以下步骤：

步骤B31：将得到文档的初始表征向量

分别乘以权重矩阵

得到新向量q_e∈R^N×d、 k_e∈R^N×d、v_e∈R^N×d，其中N为文档中词的个数，d表示词向量的维度，计算公式如下：

其中，

为可训练的参数。

步骤B32：选择能够整除d的整数h，将步骤B31计算得到的新向量q_e,k_e,v_e的最后一个维度平均分成h个子向量，分别得到子向量序列[q_e,1；...；q_e,i；...；q_e,h]、[k_e,1；...；k_e,i；...；k_e,h]和[v_e,1；...；v_e,i；...；v_e,h]，其中q_e,i∈R^N×(d/h),i＝1,2,...h是q_e的第i个子向量，k_e,i∈R^N×(d/h),i＝1,2,...h是k_e的第i个子向量， v_e,i∈R^N×(d/h),i＝1,2,...h是v_e的第i个子向量。

步骤B33：将q_e、k_e、v_e的每个对应的子向量输入到注意力机制模块中，计算公式如下：

Head_e,i＝softmax(A_e,i)v_e,i (公式13)

其中A_e,i∈R^N×N为注意力相似性权重矩阵，Head_e,i∈R^N×(d/h)为多头注意力机制第i个子向量的输出向量；

步骤B34：把将h个子向量的输出向量连接起来作为多注意力机制的输出向量：

c_e＝[Head_e,1；Head_e,2；...；Head_e,h]·W_e,i＝1,2,...,h (公式14)

其中，c_e∈R^N×d为多头注意力机制的输出向量，“·”为矩阵相乘操作，“；”表示向量连接操作。W_e∈R^d×d为可训练的参数；

步骤B35：把多头注意力机制的输出向量c_e和q_e向量输入到门控单元中，得到门控注意力向量 u∈R^N×d，计算公式如下：

f＝tanh([c_e；q_e]·W^f) (公式15)

g＝sigmoid([c_e；q_e]·W^g) (公式16)

其中，

是矩阵之间的元素乘积，W^f∈R^2d×d、W^g∈R^2d×d为可训练的参数；

步骤B36：把得到的门控注意力向量u进行残差操作和层归一化操作，再经过一个全连接前向网络，得到文档的全局上下文信息表征向量F_g∈R^N×d，计算公式如下：

F_g＝max(0,y_eW_e,2+b_e,1)W_e,3+b_e,2 (公式19)

其中LayerNorm表示层归一化操作，W_e,1∈R^d×d，W_e,2∈R^d×d，W_e,3∈R^d×d，b_e,1∈R^N×d，b_e,2∈R^N×d为可训练的参数。

所述步骤B4具体为：

用门控单元融合步骤B2得到的文档的局部上下文信息表征向量F_l∈R^N×d与步骤B3得到的文档的全局上下文信息表征向量F_g∈R^N×d，得到融合向量F∈R^N×d，计算公式如下；

其中，

是矩阵之间的元素乘积，σ为sigmoid函数。

所述步骤B5具体包括以下步骤：

步骤B51：得到摘要的初始表征向量

之后，将

分别乘以权重矩阵

得到新向量 q_m∈R^M×d、k_m∈R^M×d、v_m∈R^M×d，其中M为摘要中词的个数，d表示词向量的维度，计算公式如下：

其中，

为可学习的参数；

步骤B52：选择能够整除d的整数h，将步骤B51计算得到的新向量q_m,k_m,v_m的最后一个维度平均分成h个子向量，分别得到子向量序列[q_m,1；...；q_m,i；...；q_m,h]、[k_m,1；…；k_m,i；…；k_m,h]和 [v_m,1；...；v_m,i；...；v_m,h]，其中q_m,i∈R^M×(d/h),i＝1,2,...h是q_m的第i个子向量，k_m,i∈R^M×(d/h),i＝1,2,...h是k_m的第i个子向量，v_m,i∈R^M×(d/h),i＝1,2,...h是v_m的第i个子向量；

步骤B53：将q_m,k_m,v_m的每个对应的子向量输入到注意力机制模块中，计算公式如下：

A_m,i＝q_m,ik_m,i ^T,i＝1,2,...h (公式22)

其中，A_m,i∈R^M×M为注意力相似性权重矩阵；

步骤B54：对每个注意力相似性权重矩阵做掩码操作，计算公式如下：

其中，W_m∈R^M×M为上三角区域为负无穷的矩阵。掩码操作的目的是在原始矩阵上盖上一层掩膜，从而屏蔽或选择一些特定元素。

步骤B55：将注意力相似性权重矩阵A′_m,i经过softmax计算之后，再与v_m,i相乘，计算公式如下：

a_m,i＝softmax(A′_m,i)v_m,i (公式24)

其中，a_m,i∈R^M×(d/h)多头注意力机制第i个子向量的输出向量。

步骤B56：把将h个子向量的输出向量连接起来作为多头注意力机制的输出向量，计算公式如下：

c_m＝[a_m,1；...；a_m,i；...；a_m,h]·W_c,i＝1,2,...,h (公式25)

其中，c_m∈R^M×d为多头注意力机制的输出向量，“·”为矩阵相乘操作，“；”表示向量连接操作， W_c∈R^d×d为可训练参数；

步骤B57：把得到的多头注意力机制的输出向量c_m进行残差操作和层归一化操作，再经过一个全连接前向网络，得到摘要的全局上下文信息表征向量

计算公式如下：

F_m＝max(0,y_mW_m,2+b_m,1)W_m,3+b_m,2 (公式27)

其中LayerNorm表示层归一化操作,W_m,1∈R^d×d、W_m,2∈R^d×d、W_m,3∈R^d×d、b_m,1∈R^N×d、b_m,2∈R^N×d为可训练参数；

步骤B58：将摘要的全局上下文信息表征向量F_m和融合向量F输入到编码器-解码器注意力层中，将得到的摘要全局上下文信息表征向量F_m乘以权重矩阵

得到新向量q_d∈R^N×d。将融合向量F 分别乘以权重矩阵

得到新向量k_d∈R^M×d、v_d∈R^M×d，其中M为摘要中词的个数，d表示词向量的维度，计算公式如下：

其中，

为可训练参数；

步骤B59：选择能够整除d的整数h，将步骤B58计算得到的新向量q_d、k_d、v_d的最后一个维度平均分成h个子向量，分别得到子向量序列[q_d,1；...；q_d,i；...；q_d,h]、[k_d,1；...；k_d,i；...；k_d,h]和 [v_d,1；…；v_d,i；…；v_d,h]，其中q_d,i∈R^N×(d/h),i＝1,2,…h是q_d的第i个子向量，k_d,i∈R^M×(d/h),i＝1,2,…h是k_d的第i个子向量，v_d,i∈R^M×(d/h),i＝1,2,…h是v_d的第i个子向量。

Head_d,i＝softmax(A_d,i)v_d,i (公式30)

其中A_d,i∈R^N×M为注意力相似性权重矩阵，Head_d,i∈R^N×(d/h)为多头注意力机制第i个子向量的输出向量；

c_d＝[Head_d,1；Head_d,2；...；Head_d,h]·W_d,i＝1,2,...,h (公式31)

其中，c_d∈R^N×d为多头注意力机制的输出向量，“·”为矩阵相乘操作，“；”表示向量连接操作， W_d∈R^d×d为可训练的参数；

把多头注意力机制的输出向量c_d经过残差操作和层归一化操作，最后经过一个全连接前向网络，得到表征向量F_d∈R^N×d，计算公式如下：

y_d＝LayerNorm((c_d)W_d,1+F_m) (公式32)

F_d＝max(0,y_dW_d,2+b_d,1)W_d,3+b_d,2 (公式33)

其中LayerNorm表示层归一化操作，W_d,1∈R^d×d、W_d,2∈R^d×d、W_d,3∈R^d×d、b_d,1∈R^N×d、b_d,2∈R^N×d为可训练的参数。

所述步骤B6具体包括以下步骤：

步骤B61：将步骤B5得到的表征向量F_d经过全连接层，再经过softmax层进行归一化处理，计算概率分布向量P_v∈R^N×|D|，|D|为词典大小，计算公式如下：

P_v＝soft max(F_dW_o) (公式34)

其中W_o∈R^d×|D|为隐藏层权重矩阵，为可训练的参数；

步骤B62:用交叉熵作为损失函数计算损失值，通过梯度优化算法SGD进行学习率更新，利用反向传播迭代更新模型参数，以最小化损失函数来训练模型。

其中最小化损失函数Loss的计算公式如下：

其中M为摘要中词的个数；

为预测第i个摘要词时，目标单词在词典中的索引。

以上所述的一种融合语义与上下文信息的文本摘要方法：其所使用的系统包括训练集构建模块，用于采集文档内容以及摘要，构建文档-摘要对训练集SA；

所述系统还包括文本预处理模块，用于对训练集输入文本进行预处理，包括对输入文本进行分词处理和去除停用词，得到经过预处理的文本；

所述系统还包括特征提取模块，用于在预训练的词向量矩阵中查找经过预处理的训练集文本中词的词向量，并且结合位信息得到文档和摘要的文本表征向量；

所述系统还包括网络训练模块，用于将文本和摘要的文本表征向量分别输入到深度学习网络模型的卷积神经网络和转换编码器中，得到文档的局部上下文信息表征向量和文档的全局上下文信息表征向量，两个向量经过门控单元得到融合向量，进而输入到转换解码器中得到最后的表征向量。利用该表征向量的概率分布向量以及训练集中的标注，以最小化损失为目标来对整个深度学习网络进行训练，得到深度学习网络模型；

所述系统还包括文档处理模块，用于利用训练好的深度学习网络模型对输入的文档进行分析处理，输出文档的摘要。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种融合语义与上下文信息的文本摘要方法，其特征在于：包括以下步骤：

步骤A：采集文本内容以及摘要，构建文本-摘要对训练集；

步骤C：将文本内容输入步骤B训练好的深度学习网络模型中，输出文本的摘要；所述步骤B具体包括以下步骤：

和摘要的初始表征向量

步骤B3：将步骤B2得到的初始表征向量

输入到卷积编码器中，得到文本的语义表征向量

步骤B4：将步骤B2得到的初始表征向量

输入到变换网络中，得到文本的上下文表征向量

步骤B5：使用门控单元融合步骤B3得到的文本的语义表征向量

和步骤B4得到的文本的上下文表征向量

得到文本的表征向量

步骤B6：将步骤B5得到的文本的表征向量

和步骤B2得到的摘要的初始表征向量

输入到解码器中，得到融合文本和摘要语义信息的表征向量

步骤B7：将步骤B6得到的表征向量

输入到全连接层，再通过Softmax，输出概率分布向量

|D|为词典大小，计算公式如下：

其中

为隐藏层权重矩阵，为可训练的参数；

其中最小化损失函数Loss的计算公式如下：

其中M为摘要中词的个数；

为预测第i个摘要词时，目标单词在词典中的索引；

步骤B9：当深度学习网络模型产生的损失值小于设定阈值且损失值不再降低，或者达到最大迭代次数，终止深度学习模型的训练。

2.根据权利要求1所述的一种融合语义与上下文信息的文本摘要方法，其特征在于：所述步骤B2具体包括以下步骤：

文本s和摘要a经过分词及去除停用词后，可分别表示为：

其中，

为摘要a经过分词及去除停用词后剩余词语中的第j个词，j＝1,2,...,M；N为文本s经过分词及去除停用词后剩余的词语数量，M为摘要a经过分词及去除停用词后剩余的词语数量；

步骤B22：对步骤B21得到的文本s进行编码，得到文本s的初始表征向量

表示为：

其中，

“+”表示向量加法操作，

为文本s中第i个词

所对应的词向量，i＝1,2,...,N，通过在预训练的词向量矩阵

中查找得到，其中d表示词向量的维度，|D|是词典中的词语数；

为文本s中第i个词

所对应的位置编码，i＝1,2,...,N，编码方式如下：

其中，

表示位置编码

的偶数维对应的正弦值，

表示位置编码

的奇数维对应的余弦值；

[]^T表示转置操作；

表示为：

其中，

“+”表示向量加法操作，

为摘要a中第j个词

所对应的词向量，j＝1,2,...,M，通过在预训练的词向量矩阵

为摘要a中第j个词

所对应的位置编码，j＝1,2,...,M，编码方式如下：

其中，

表示位置编码

的偶数维对应的正弦值，

表示位置编码

的奇数维对应的余弦值；

[]^T表示转置操作。

3.根据权利要求2所述的一种融合语义与上下文信息的文本摘要方法，其特征在于：所述步骤B3具体方法如下：将文本的初始表征向量

视作由

第l个卷积层的输出为第l+1个卷积层的输入，对第l个卷积层，卷积操作公式如下：

其中，

表示第l层第i个卷积核窗口的输出，

表示在卷积核窗口内的向量序列，k为卷积核的大小,

为待学习的参数，2d表示特征映射的个数；

为偏置向量，

为文本s的第i个词在第l个卷积层所对应的输出；

将

平分成两部分，分别为

和

使用门控单元融合两部分的信息，得到

计算公式如下：

其中，σ为sigmoid函数，

为可训练的参数；将第L个卷积层的输出作为文本的语义表征向量

4.根据权利要求2所述的一种融合语义与上下文信息的文本摘要方法，其特征在于：所述步骤B4中；具体包括以下步骤：

步骤B41：将得到文档的初始表征向量

分别乘以权重矩阵

得到新向量

计算公式如下：

其中，

为可训练的参数；

步骤B42：选择能够整除d的整数h，将步骤B41计算得到的新向量q_e,k_e,v_e的最后一个维度平均分成h个子向量，分别得到子向量序列[q_e,1；...；q_e,i；...；q_e,h]、[k_e,1；...；k_e,i；...；k_e,h]和[v_e,1；...；v_e,i；...；v_e,h]，其中

是q_e的第i个子向量，

是k_e的第i个子向量，

是v_e的第i个子向量；

Head_e,i＝softmax(A_e,i)v_e,i 公式十四

其中

为注意力相似性权重矩阵，

为多头注意力机制第i个子向量的输出向量；

步骤B44：把h个子向量的输出向量连接起来作为多注意力机制的输出向量：

c_e＝[Head_e,1；...；Head_e,i...；Head_e,h]W_e,i＝1,2,...,h 公式十五

其中，

为多头注意力机制的输出向量，[；]表示向量连接操作，

为可训练的参数；

计算公式如下：

f＝tanh([c_e；q_e]W_f) 公式十六

g＝sigmoid([c_e；q_e]W_g) 公式十七

其中，

是矩阵之间的元素乘积，

为可训练的参数；

计算公式如下：

其中LayerNorm表示层归一化操作，max为取最大值函数，

为可训练的参数。

5.根据权利要求1所述的一种融合语义与上下文信息的文本摘要方法，其特征在于：所述步骤B5中，使用门控单元融合步骤B3得到的文本的语义表征向量

和步骤B4得到的文本的上下文表征向量

得到文本的表征向量

计算公式如下：

其中，

表示哈达玛积，σ为sigmoid函数。

6.根据权利要求1所述的一种融合语义与上下文信息的文本摘要方法，其特征在于：所述步骤B6具体包括以下步骤：

步骤B61：得到摘要的初始表征向量

之后，将

分别乘以权重矩阵

得到新向量

计算公式如下：

其中，

为可学习的参数；

步骤B62：选择能够整除d的整数h，将步骤B61计算得到的新向量q_a,k_a,v_a的最后一个维度平均分成h个子向量，分别得到子向量序列[q_a,1；...；q_a,i；...；q_a,h]、[k_a,1；...；k_a,i；...；k_a,h]和[v_a,1；...；v_a,i；...；v_a,h]，其中

是q_a的第i个子向量，

是k_a的第i个子向量，

是v_a的第i个子向量；

A_a,i＝q_a,ik_a,i ^T,i＝1,2,...h 公式二十三

其中，

为注意力相似性权重矩阵；

其中，

为上三角区域为负无穷的矩阵；掩码操作的目的是在原始矩阵上盖上一层掩膜，从而屏蔽或选择一些特定元素；

Head_a,i＝softmax(A′_a,i)v_a,i 公式二十五

其中，

多头注意力机制第i个子向量的输出向量；

其中，

为多头注意力机制的输出向量，[；]表示向量连接操作，

为可训练参数；

计算公式如下：

其中LayerNorm表示层归一化操作，max为取最大值函数，

为可训练参数；

步骤B68：将摘要的上下文表征向量

和文本的表征向量

输入到注意力层中，将

乘以权重矩阵

得到向量

将

分别乘以权重矩阵

得到向量

计算公式如下：

其中，

为可训练参数；

步骤B69：选择能够整除d的整数h，将步骤B68计算得到的新向量q_d、k_d、v_d的最后一个维度平均分成h个子向量，分别得到子向量序列[q_d,1；...；q_d,i；...；q_d,h]、[k_d,1；...；k_d,i；...；k_d,h]和[v_d,1；...；v_d,i；...；v_d,h]，其中

是q_d的第i个子向量，

是k_d的第i个子向量，

是v_d的第i个子向量；

Head_d,i＝softmax(A_d,i)v_d,i 公式三十一

其中，

为注意力相似性权重矩阵，

为多头注意力机制第i个子向量的输出向量；

其中，

为多头注意力机制的输出向量，[；]表示向量连接操作，

为可训练的参数；

计算公式如下：

其中，LayerNorm表示层归一化操作，max为取最大值函数，

为可训练的参数。

7.一种融合语义与上下文信息的文本摘要系统，其特征在于：采用权利要求1、2、3、4、5、6任一项所述的一种融合语义与上下文信息的文本摘要方法，包括：

网络训练模块，用于将文本和摘要的文本表征向量分别输入到深度学习网络模型的卷积神经网络和转换编码器中，得到文档的局部上下文信息表征向量和文档的全局上下文信息表征向量，两个向量经过门控单元得到融合向量，进而输入到转换解码器中得到最后的表征向量，利用该表征向量的概率分布向量以及训练集中的标注，以最小化损失为目标来对整个深度学习网络进行训练，得到深度学习网络模型；以及文档摘要模块，用于利用训练好的深度学习网络模型对输入的文本进行分析处理，输出文本的摘要。