CN113157914B

CN113157914B - 一种基于多层循环神经网络的文档摘要提取方法及系统

Info

Publication number: CN113157914B
Application number: CN202110157327.XA
Authority: CN
Inventors: 陈羽中; 张斯巍
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2022-06-14
Anticipated expiration: 2041-02-04
Also published as: CN113157914A

Abstract

本发明涉及一种基于多层循环神经网络的文档摘要提取方法及系统，包括以下步骤：步骤A：采集用于训练的文档‑句子标签对，构建文档‑句子标签对训练集，每条训练样本包括文档与文档中每条句子的标签；句子的标签值为1代表该句子属于摘要，标签值为0代表该句子不属于摘要；步骤B：使用文档‑句子标签对训练集，对用于文档摘要提取的深度学习模型进行训练；步骤C：将文档输入到训练好的深度学习网络模型中，输出文档的摘要。该方法及系统有利于提高对于文本摘要的准确精度。

Description

一种基于多层循环神经网络的文档摘要提取方法及系统

技术领域

本发明涉及自然语言处理与文本摘要应用领域，具体涉及一种基于多层循环神经网络的文档摘要提取方法及系统。

背景技术

随着互联网的迅速兴起和智能手机的普及，人们获取和发送信息的方式变得更加便利，互联网上的网络资源以前所未有的速度增长。互联网上的网络资源，如百度网页资源、微博用户评论、新浪新闻和简书博客等，都是文本数据的巨大来源，还有各种新闻文章、科学论文、法律文件等文本，加上一些新兴的自媒体平台，使得文本信息的呈现形式更加复杂。信息化高速发展虽然给人们带来便利，但是存在着传统信息处理技术跟不上当代信息产出速度的问题。因此，对各类文本进行汇总和压缩就显得尤为迫切和重要。

自动文本摘要是自然语言处理领域的一项重要任务，通过自动创建一个或多个文本文档的简明摘要，节省了人工总结摘要所需的大量时间。自动文本摘要可以应用在文献自动标引上，一般包括关键词标引，主题词标引和摘要标引。还可用于新闻的信息服务上，将整篇新闻精简成一个有明确标题并配有几句概述的新闻摘要，使得用户在短时间内就能了解新闻中的关键信息。自动文本摘要的研究始于1958年。Luhn通过对文本词频的统计，进而对文本中的句子进行评分，并将评分高的句子作为文本的摘要。Luhn的研究成果主要应用于自动摘录杂志和技术论文的摘要，开启了文本摘要研究的先河。从20世纪50年代至今，研究人员致力于改进文本摘要算法，使得算法能够用精简的文字涵盖输入文本的中心主题，并符合人类的预期。

早期的方法主要基于语言特征，采用统计方法分析文章的语法结构和内容，提取文本特征，从而确定句子的重要程度。这些特征包括句子的位置和长度，标题中的词语，词语出现频率以及内容特征等。Salto等人提出TF-IDF算法，通过计算文中的词在文本和语料库中出现的频率，衡量该词对于文本的重要性程度，这种思想充分利用了语料库的信息，并考虑了句子和词语之间的关系，从而获取了文档中的关键信息。20世纪九十年代末，谷歌的两位创始人Larry Page和Sergey Brin等人提出了PageRank算法判断论文的重要性，这种算法已经成功地应用在引文分析、社会网络和万维网的链接结构分析。

虽然机器学习方法的应用大大推动了文本摘要的发展，但是没有充分考虑到词语和句子间的上下文关系，无法真正读懂文章的深层语义信息。随着深度学习的发展，很多学者都使用深度学习解决文本摘要问题，利用神经网络学习词与句子之间的特征向量表示和上下文表征关系，并决定句子的重要性。Cao等人提出了一个基于递归神经网络的排序框架。该网络首先对句子进行句法解析，之后把递归神经网络与句法树相结合，学习文本中每个词、短语和句子的向量表示，最后结合神经网络学习到的向量表示与传统特征进行回归分析，评估句子的重要性。Cheng等人提出一种可以同时抽取句子和词语的抽取式文本摘要模型，通过引入基于注意力机制的内容提取器，从而学习到更丰富的句子相关性信息。Chen等人提出了一种能够获取句子级上下文的编码方式，通过从文档中选择重要的特征，获得丰富的语义表示，基于此表示提取句子，并使用强化学习的训练方法。Xiao等人提出一种针对长文本的抽取式文本摘要模型，首先通过对文档和句子分别进行编码，得到文档全局上下文表示和句子上下文表示，再使用基于LSTM的句子段嵌入方法获得当前主题的局部上下文信息，从而得到结合主题的语义表示，最后基于以上三者计算得出句子的置信度。Jadhav等人提出一种基于指针网络的交换模型，该模型利用指针网络对关键词和重要句子之间的关系进行建模，获得更准确的语义信息，再通过选择合适的句子和单词组合，得到中心意义更加明确的摘要。Zhong 等人将抽取式摘要任务转化为语义匹配问题，使用BERT预训练模型计算源文档和候选摘要之间的相似度，将达到一定相似度阈值的摘要作为最终的结果。

发明内容

本发明的目的在于提供一种基于多层循环神经网络的文档摘要提取方法及系统，有利于提高对于文本摘要提取的准确精度。

为实现上述目的，本发明的技术方案是：一种基于多层循环神经网络的文档摘要提取方法，包括以下步骤：

步骤A、采集用于训练的文档-句子标签对，构建文档-句子标签对训练集，每条训练样本包括文档与文档中每条句子的标签；句子的标签值为1代表该句子属于摘要，标签值为0代表该句子不属于摘要；

步骤B、使用文档-句子标签对训练集，对用于文档摘要提取的深度学习网络模型进行训练；

步骤C、将待提取摘要的文档输入到训练好的深度学习网络模型中，输出文档的摘要。

在本发明一实施例中，所述步骤B具体包括以下步骤：

步骤B1、遍历训练集，对训练集中的每个训练样本，重复步骤B2-B5；

步骤B2、根据预训练的词向量矩阵，对训练样本中的文档进行编码，得到文档中每个句子的初始表征向量；

步骤B3、将步骤B2得到的文档中每个句子的初始表征向量输入到句子编码器中，得到文档中每个句子的上下文表征向量；

步骤B4、将步骤B3得到的文档中每个句子的上下文表征向量输入到文档编码器中，得到文档的上下文表征向量；

步骤B5、将步骤B4得到的文档的上下文表征向量输入到线性分类层，根据目标损失函数loss，利用反向传播方法计算深度学习网络M中各参数的梯度，并利用随机梯度下降方法更新参数；

步骤B6、当深度学习网络模型M产生的损失值小于设定阈值且不再降低或者迭代次数达到最大迭代次数，则终止深度学习网络模型M的训练。

在本发明一实施例中，所述步骤B2具体包括以下步骤：

步骤B21、对训练样本中的文档的每个句子进行分词并去除停用词，并将每个句子的长度设置为固定长度m，若经过分词与去除停用词后句子中的词语数量小于m，则填充到固定长度m，超过m则截断到固定长度m；

步骤B22、根据预训练的词向量矩阵，对步骤B21得到的文档中的每个句子进行编码，得到文档中每个句子的初始表征向量；

训练样本中的文档可表示为：

s＝{s₁,s₂,...,s_t,…,s_n}

其中，s_t表示文档中的第t个句子，t＝1,2,...,n，n为文档中的句子数，s_t可表示为：

s_t＝{w_t,1,w_t,2,…,w_t,j,…,w_t,m}

其中，w_t,j为文档中第t个句子的第j个词，t＝1,2,...,n，j＝1,2,...,m，则s_t的初始表征向量可表示为：

其中，

为句子s_t的初始表征向量，

为文档s中第t个句子的第j个词w_t,j所对应的词向量，在预训练的词向量矩阵

中查找得到，其中d表示词向量的维度， |V|是词典V中的词语数。

在本发明一实施例中，所述步骤B3具体包括以下步骤：

步骤B31、对文档中的每个句子s_t，将s_t的初始表征向量

输入到多层双向长短期记忆网络中进行编码，第一层双向长短期网络的前向层从左到右读取构成

的词向量序列

产生前向隐藏状态序列

i＝1,2,...m；第一层双向长短期记忆网络的反向层从右到左逆向读取构成

的词向量序列

产生反向隐藏状态序列

表示s_t中的第i个词w_t,i在第一层双向长短期记忆网络的前向隐藏状态表示，

表示s_t中的第i个词w_t,i在第一层双向长短期记忆网络的反向隐藏状态表示；连接前向隐藏状态序列与反向隐藏状态序列，得到第一层双向长短期网络输出的隐藏状态序列

其中

[；]表示向量连接操作；

步骤B32、将第一层双向长短期网络输出的隐藏状态序列

输入到第二层双向长短期记忆网络中，输出隐藏状态序列

以此类推，第l 层双向长短期网络输出的隐藏状态序列

作为第l+1层双向长短期网络的输入；各层双向长短期记忆网络的输出可表示为

表示s_t中的第i个词w_t,i在第l层双向长短期记忆网络的前向隐藏状态表示，

表示s_t中的第i个词w_t,i在第l层双向长短期记忆网络的反向隐藏状态表示；

步骤B33、将步骤B32得到的各层双向长短期记忆网络的隐藏状态表示

输入线性层，学习各层输出的隐藏状态表示

的权重，得到s_t的表征向量

计算公式如下：

其中，

为待训练的参数；

步骤B34、将步骤B33得到的s_t的表征向量

输入到注意力网络中，计算s_t中词语之间的注意力权重分布，可得到s_t的上下文表征向量

计算公式如下：

其中，α_t,i是s_t中第i个词的注意力权重，W₁，u₁，b₁为待训练的参数。

在本发明一实施例中，所述步骤B4具体包括以下步骤：

步骤B41、将文档中每个句子的上下文表征向量构成的向量矩阵

分别乘以权重矩阵W_q、W_k、W_v，得到作为多头注意力机制输入的表征向量

计算公式如下：

其中，W_q、W_k、W_v为待训练的参数；

步骤B42、选择能够整除2d₁的整数h，将步骤B41计算得到的q,k,v在最后一个维度上平均分成h个子向量，分别得到子向量序列[q₁；...；q_i；...；q_h]，[k₁；...；k_i；...；k_h]，[v₁；...；v_i；...；v_h]，其中

是q的第i个子向量，

是k的第i个子向量，

是v的第i个子向量，i＝1,2,...h；

步骤B43、将q,k,v中对应的每个子向量输入到注意力机制中，得到输出的子向量，计算公式如下：

Head_i＝softmax(A_i)v_i

其中，A_i∈R^n×n,i＝1,2,...h为注意力相似性权重矩阵，

为多头注意力机制输出的第i个子向量；

步骤B44、连接输出的h个子向量，并乘以参数矩阵W₂，得到输出向量c，计算公式如下：

c＝W₂[Head₁；Head₂；...；Head_h]

其中，

[；]表示向量连接操作，W₂为待训练的参数矩阵；

步骤B45、将步骤B41得到的向量矩阵

和步骤B44得到的输出向量c，依次经过非线性层、残差连接、层归一化后，得到向量

计算公式如下：

其中，σ为sigmoid函数，layerNorm为层归一化，

为待训练的参数；

步骤B46、将步骤B45得到的向量u，依次经过非线性层、全连接前馈神经网络层、残差连接、层归一化后，获得文档的上下文表征向量

计算公式如下：

T_v＝σ(uW₅)

v＝max(0,u+b₂)W₆+b₃

其中，σ为sigmoid函数，max为取最大值函数，W₅，W₆，W₇，b₂，b₃为待训练的参数。

在本发明一实施例中，所述步骤B5具体包括以下步骤：

步骤B51、将得到的文档上下文表征向量

输入到线性分类层中，以预测是否选择句子，计算公式如下：

其中，y_j为句子j的标签，是一个二进制变量，指示第j个句子是否为摘要句,

为对应第j个句子的表征向量，W₈为待训练的参数，σ为sigmoid激活函数；

步骤B52、使用负对数似然函数计算损失值，通过梯度优化算法Adam进行学习率更新，利用反向传播迭代更新模型参数，以最小化损失函数来训练模型；

其中，最小化损失函数loss的计算公式如下：

其中，N表示文档数量，n为文档中句子数量，

表示第i个文档中第j个句子的标签，即

代表第i个文档中中第j个句子属于摘要的概率。

本发明还提供了一种基于多层循环神经网络的文档摘要提取系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上述所述的方法步骤。

本发明还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上述所述的方法步骤。

相较于现有技术，本发明具有以下有益效果：本发明提供了一种基于多层循环神经网络的文档摘要提取方法，该方法及系统基于文本-句子标签对训练用于文档摘要提取的深度学习网络模型，使用多层双向长短期记忆网络对文档中的句子进行编码，获得句子的上下文语义表征；通过使用注意力机制融合多层双向长短期记忆网络输出的隐藏状态表征，从而提取到更加丰富的句子上下文信息与语义信息；使用门控增强自注意力网络学习文档的上下文表征，充分利用门控机制的优势，控制多头注意力各部分的语义信息流向，增强了句子之间的相关性语义信息，从而更好地建模文档语义，提高了提取的摘要的准确度，具有很强的实用性和广阔的应用前景。

附图说明

图1为本发明实施例的方法实现流程图。

图2为本发明实施例的系统结构示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本发明实施例提供了一种基于多层循环神经网络的文档摘要提取方法，包括以下步骤：

所述步骤B具体包括以下步骤：

所述步骤B2具体包括以下步骤：

训练样本中的文档可表示为：

s＝{s₁,s₂,...,s_t,...,s_n}

s_t＝{w_t,1,w_t,2,...,w_t,j,...,w_t,m}

其中，

为句子s_t的初始表征向量，

所述步骤B3具体包括以下步骤：

步骤B31、对文档中的每个句子s_t，将s_t的初始表征向量

的词向量序列

产生前向隐藏状态序列

的词向量序列

产生反向隐藏状态序列

i＝1,2,...m，

其中

i＝1,2,...m，[；]表示向量连接操作；

步骤B32、将第一层双向长短期网络输出的隐藏状态序列

输入到第二层双向长短期记忆网络中，输出隐藏状态序列

以此类推，第l 层双向长短期网络输出的隐藏状态序列

输入线性层，学习各层输出的隐藏状态表示

的权重，得到s_t的表征向量

计算公式如下：

其中，

为待训练的参数；

步骤B34、将步骤B33得到的s_t的表征向量

计算公式如下：

所述步骤B4具体包括以下步骤：

分别乘以权重矩阵W_q、W_k、W_v，得到作为多头注意力机制输入的表征向量q、k、v，计算公式如下：

其中，W_q、W_k、W_v为待训练的参数；

是q的第i个子向量，

是k的第i个子向量，

是v的第i个子向量，i＝1,2,...h；

Head_i＝softmax(A_i)v_i

其中，A_i∈R^n×n,i＝1,2,...h为注意力相似性权重矩阵，

为多头注意力机制输出的第i个子向量；

c＝W₂[Head₁；Head₂；...；Head_h]

其中，

[；]表示向量连接操作，W₂为待训练的参数矩阵；

步骤B45、将步骤B41得到的向量矩阵

和步骤B44得到的输出向量c 输入到门控增强单元中，得到向量

计算公式如下：

其中，σ为sigmoid函数，layerNorm为层归一化，

为待训练的参数；

步骤B46、将步骤B45得到的向量u输入到门控增强全连接层中，获得文档的上下文表征向量

计算公式如下：

T_v＝σ(uW₅)

v＝max(0,u+b₂)W₆+b₃

其中，σ为sigmoid函数，max为取最大值函数，

为待训练的参数。

所述步骤B5具体包括以下步骤：

步骤B51、将得到的文档上下文表征向量

其中，最小化损失函数loss的计算公式如下：

其中，N表示文档数量，n为文档中句子数量，

表示第i个文档中第j个句子的标签，即

代表第i个文档中中第j个句子属于摘要的概率。

本实施例还提供了一种基于多层循环神经网络的文档摘要提取系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文的方法步骤。

本实施例还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文方法步骤。

较佳的，如图2所示，本实施例对应包括以下功能模块：

训练集构建模块，用于采集文档内容以及句子标签，构建文档-句子标签对训练集；

预处理模块，用于对训练集中的训练样本进行预处理，包括分词处理、去除停用词和并设置为固定长度；

网络训练模块，用于在预训练的词向量矩阵中查找经过预处理的文档中词的词向量，得到文档中每个句子的初始表征向量；文档中每个句子的初始表征向量输入到句子编码器中，得到文档中每个句子的上下文表征向量；然后将文档中每个句子的上下文表征向量输入到文档编码器中，得到文档的上下文表征向量；再经过线性分类层，得到每个句子的二分类概率，即句子是否属于该文档的摘要的概率；利用训练集中的句子标签，以最小化损失为目标来对整个深度学习网络进行训练，得到深度学习网络模型；

文档摘要模块，用于利用训练好的深度学习网络模型对输入的文档进行分析处理，输出文档的摘要。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/ 或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/ 或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。