CN110399477A

CN110399477A - 一种文献摘要提取方法、设备及可存储介质

Info

Publication number: CN110399477A
Application number: CN201910535327.1A
Authority: CN
Inventors: 高源伯; 李向伟; 高爽; 柴博; 宋博川
Original assignee: State Grid Corp of China SGCC; Global Energy Interconnection Research Institute; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Global Energy Interconnection Research Institute; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-11-01

Abstract

本申请公开了一种文献摘要提取方法、设备和可存储介质，属于计算机技术领域。所述方法包括：获取目标文档，将目标文档拆分为至少一个句子，对句子中的每个单词进行特征提取，得到单词初始特征向量；基于单词初始特征向量，确定句子中的预设单词，以得到句子的特征向量；基于句子的特征向量，确定句子的上下文特征；根据句子的上下文特征，确定句子是否为目标文档摘要中的句子，以得到目标文档摘要。这样综合考虑目标文档中每个句子中单词的特征与句子的上下文的特征提取的摘要，能够提高准确性，并且能够得到更快的速度与更丰富的上下文关联，由此得到更准确的结果。

Description

一种文献摘要提取方法、设备及可存储介质

技术领域

本发明涉及计算机信息技术领域，具体涉及一种文献摘要提取方法、设备及可存储介质。

背景技术

目前很多公司每年要处理海量的文档(如发文、收文、通知、会议管理等)，例如国家电网的海量系统公告、通知和请示，调度和运检业务中的工单票据，巡检业务中的巡检报告等，但是目前这些文档工作仍主要由人工撰写，大量的重复性和主观性工作使得文档编制存在着效率较低、准确性不足的问题。

近年来，随着人工智能技术的突破，许多专家学者开始尝试应用深度神经网络去解决自动文档编制领域问题。这些问题中，文献摘要提取显得十分重要，因为在进行文献检索与阅读中，文献的摘要全面的反映了的核心内容与主题思想，是文献的重要组成部分，摘要的准确性显得十分重要，提高生成摘要的效率与准确性迫在眉睫。

目前自动摘要提取技术已经逐步得到开发，但是还存在着计算效率低、准确性不足的问题，这一问题有待解决。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的准确性不足的缺陷，从而提供一种文献摘要提取方法，所述技术方案如下：

第一方面，本发明实施例提供一种文献摘要提取方法，包含：

获取目标文档，将目标文档拆分为至少一个句子，对所述句子中的每个单词进行特征提取，得到单词初始特征向量；

基于所述单词初始特征向量，确定所述句子中的预设单词，以得到所述句子的特征向量；其中，所述句子的特征向量为所有所述预设单词的特征的集合；

基于所述句子的特征向量，确定所述句子的上下文特征；

根据所述句子的上下文特征，确定所述句子是否为所述目标文档摘要中的句子，以得到目标文档摘要。

可选的，所述基于所述单词初始特征向量，确定所述句子中的预设单词，以得到所述句子的特征向量，包含：

对所述单词初始特征向量进行处理，得到所述句子中的每个单词的第四特征向量，所述第四特征向量包含归一化后的第三特征向量；

对所述第四特征向量进行处理，以得到所述句子的特征向量。

可选的，所述对所述单词初始特征向量进行处理，得到所述句子中的每个单词的第四特征向量，包含：

对所述单词初始特征向量进行处理，得到每个单词的第二特征向量，所述第二特征向量包含归一化后的第一特征向量。

可选的，所述对所述单词初始特征向量进行处理，得到每个单词的第二特征向量，包含：

对所述单词初始特征向量进行过滤，得到每个单词的第一特征向量，所述第一特征向量包含单词的语义信息；

对所述第一特征向量进行归一化，得到每个单词的第二特征向量。

可选的，所述对所述单词初始特征向量进行处理，得到每个单词的第二特征向量，之后，还包含：

对所述第二特征向量进行处理，得到每个单词的第四特征向量。

可选的，所述对所述第二特征向量进行处理，得到每个单词的第四特征向量，包括；

对所述第二特征向量进行线性整流，得到每个单词的第三特征向量；

对所述第三特征向量进行归一化，得到每个单词的第四特征向量。

根据所述第四特征向量，计算每个单词在所述句子中的权重，提取预设单词特征，得到所述句子的特征向量。

可选的，所述基于所述句子的特征向量，确定所述句子的上下文特征，包含：

基于所述句子的特征向量，通过长短期记忆模型进行处理，得到所述句子的上下文特征。

可选的，所述基于所述句子的特征向量，通过长短期记忆模型进行处理，得到所述句子的上下文特征，包含：

根据所述句子的特征向量，通过所述长短期记忆模型，得到所述句子的前向长短期记忆特征向量与后向长短期记忆特征向量。

通过所述句子的前向长短期记忆特征向量与后向长短期记忆特征向量的拼接，得到所述句子的上下文特征。

可选的，所述根据所述句子的上下文特征，确定所述句子是否为所述目标文档的摘要中的句子，以得到目标文档摘要，包含：

基于所述句子的上下文特征通过分类器，计算所述句子作为摘要的概率；

所述概率高于阈值的类标为1，低于阈值的类标为0；

当所述句子的类标为1，则确定所述句子为所述目标文档摘要。

第二方面，本发明一种文献摘要提取模型训练方法，包含：

获取目标文档，将目标文档拆分为至少一个句子，向所述模型输入所述目标文档拆分后得到的句子，对所述句子中的每个单词进行特征提取，得到单词初始特征向量；

输入所述句子的单词初始特征向量，进行处理，得到所述句子的特征向量，其中，所述句子的特征向量为所有所述预设单词的特征的集合；

输入所述句子的特征向量，以确定所述句子的上下文特征；

输入所述句子的上下文特征，通过预测的句子类标和真实的句子类标做交叉熵作为损失函数，以确定所述模型的参数进行训练，得到文献摘要提取模型。

第三方面，本发明实施例提供了一种计算机设备，所述设备包括：

处理器和存储器，所述存储器中存储有至少一条指令或程序，所述指令或程序由所述处理器加载并执行以实现如权利要求1至10中任一所述的文献摘要提取方法，或权利要求11中的文献摘要提取模型训练方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述存储介质包括：

所述存储介质存储有至少一条指令或程序，所述计算机指令或程序由计算机加载并执行以实现权利要求1至10中任一所述的文献摘要提取方法或权利要求11中的文献摘要提取模型训练方法。

本申请实施例带来的有益效果至少包括：本申请提供的文献摘要提取方法，通过对目标文档进行拆分，输入拆分得到的每个句子，对每个句子的每个单词进行特征提取，得到单词初始特征向量，基于所述单词初始特征向量，确定所述句子中的预设单词，以得到所述句子的特征向量；基于所述句子的特征向量，确定所述句子的上下文特征；最后根据所述句子的上下文特征，确定所述句子是否为所述目标文档摘要中的句子，以得到目标文档摘要。这样综合考虑目标文档中每个句子中单词的特征与句子的上下文的特征提取的摘要，能够提高准确性，并且能够得到更快的速度与更丰富的上下文关联，由此得到更准确的结果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中一种文献摘要提取方法的一个具体示例的流程图；

图2为本发明实施例2中一种文献摘要提取方法的的一个具体示例的流程图。

图3为本发明实施例2中一种文献摘要提取方法的的一个示例图。

图4为本发明实施例3中一种文献摘要提取模型训练方法的一个示意图。

具体实施方式

下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

首先，对本申请实施例涉及的若干个名词进行简单介绍：

第一特性向量：由句子的初始特征经过过滤得到，包含单词的语义信息。

第二特征向量：由第一特征向量归一化后得到。

第三特征向量：由第二特征向量线性整流后得到。

第四特征向量：由第三特征向量归一化后得到。

句子的特征向量：是所有预设单词的特征的集合，根据单词的第四特征向量，计算每个单词在所述句子中的权重，提取得到。

实施例1

图1，示出了本申请一个示例性实施例提供的文献摘要提取方法的流程图。该方法可由计算设备执行，该方法包括。

步骤101，获取目标文档，将目标文档拆分为至少一个句子，对句子中的每个单词进行特征提取，得到单词初始特征向量；

步骤102，基于单词初始特征向量，确定句子中的预设单词，以得到句子的特征向量；

步骤103，基于句子的特征向量，确定句子的上下文特征；

步骤104，根据句子的上下文特征，确定句子是否为目标文档摘要中的句子，以得到目标文档摘要。

上述文献摘要提取方法通过对目标文档进行拆分，输入拆分得到的每个句子，对每个句子的每个单词进行特征提取，得到单词初始特征向量，基于所述单词初始特征向量，确定所述句子中的预设单词，以得到所述句子的特征向量；基于所述句子的特征向量，确定所述句子的上下文特征；最后根据所述句子的上下文特征，确定所述句子是否为所述目标文档摘要中的句子，以得到目标文档摘要。这样经过综合考虑目标文档中每个句子中单词的特征与句子的上下文的特征提取的摘要，能够更准确，并且使用能够得到更快的速度与更丰富的上下文关联，由此得到更准确地结果。

步骤201，获取目标文档，将目标文档拆分为至少一个句子，对这些句子中的每个单词进行特征提取，得到每个单词的初始特征向量。

例如，将目标文档拆分后形成的目标文档的句子集合{S₁、S₂....S_n}，

句子集合{S₁、S₂....S_n}中的每个句子进入输入层，得到句子所有单词的初始特征向量集合，如，句子1的单词初始向量集合S₁＝{X_S1、X_S2、...X_Sn}。

步骤202，调用特征提取Transformer模型对单词初始特征向量进行处理，得到句子中每个单词的第四特征向量。

可选的，调用特征提取Transformer模型对单词初始特征向量进行处理，得到句子中每个单词的第四特征向量，包含：

对每个单词的初始特征向量进行处理，得到句子中每个单词的第四特征向量；

对每个单词的第四特征向量进行处理，以得到句子的特征向量。

可选的，对每个单词的初始特征向量进行处理，得到句子中每个单词的第四特征向量，包含：

对每个单词的初始特征向量进行处理，得到每个单词的第二特征向量。

可选的，对每个单词的初始特征向量进行处理，得到每个单词的第二特征向量，包含：

对每个单词的初始特征向量进行过滤，得到每个单词的第一特征向量；

对每个单词的第一特征向量进行归一化，得到每个单词的第二特征向量。

例如：通过下式对初始特征向量进行过滤，

X是单词的初始特征，X₁是单词的第一特征向量，X₁包含单词的上下文特征，d是归一化因子；softmax函数用来计算X的上下文特征对X特征的权重。

通过下式对X₁进行归一化，

X₂＝LayerNorm(X₁)+X，

LayerNorm是归一化函数，将归一化函数作用于X₁进行残差计算，得到X₂，X₂是单词的第二特征向量，X₂包含归一化后单词的上下文特征。

可选的，对每个单词初始特征向量进行处理，得到每个单词的第二特征向量之后，还包含：

对每个单词的第二特征向量进行处理，得到每个单词的第四特征向量。

可选的，对每个单词的第二特征向量进行处理，得到每个单词的第四特征向量，包括；

对每个单词的第二特征向量进行线性整流，得到每个单词的第三特征向量；

对每个单词的第三特征向量进行归一化，得到每个单词的第四特征向量。

例如，通过下式对第二特征向量进行线性整流，

Y＝Relu(0，W₁X₂+b₁)W₂+b₂

Relu是Rectifier Linear Units线性整流函数Relu，Relu作用于X₂，得到Y，Y是单词的第三特征向量，X₂是单词的第二特征向量，W₁，b₁，W₂，b₂是训练参数；

通过下式对第三特征向量进行归一化；

Y’＝LayerNorm(Y)+X₂

将归一化函数作用于Y进行残差计算得到Y’，Y’是单词的第四特征向量。

步骤203，调用最大池化Maxpooling函数对单词的第四特征向量进行处理，得到句子的特征向量。

可选的，调用最大池化Maxpooling函数对单词的第四特征向量进行处理，得到句子特征向量，包含：

根据每个单词的第二特征向量，计算每个单词在其所在句子中的权重，提取预设单词特征，得到句子的特征向量。

步骤204，基于句子的特征向量，确定句子的上下文特征。

可选的，基于所述句子的特征向量，确定句子的上下文特征，包含：

调用长短期记忆LSTM模型对句子的特征向量进行处理，得到句子的上下文特征。

可选的，调用长短期记忆LSTM模型对句子的特征向量进行处理，得到句子的上下文特征，包含：

根据句子的特征向量，通过LSTM模型，得到句子的前向LSTM特征向量与后向LSTM特征向量。

通过句子的前向LSTM特征向量与后向LSTM特征向量的拼接，得到句子的上下文特征。

例如，使用双向LSTM对句子的特征向量进行处理，

其中LSTM由三个门组成，“遗忘门，输入门，输出门”，遗忘门决定让那些信息通过一个单元(cell)，输入门决定让多少新的信息加入到单元(cell)，输出门决定输出什么值。

LSTM模型公式参数如下表示：

式中：

f_t是遗忘门，用来表示在时间t步，当前网络要遗忘多少信息。

i_i是输入门，用来表示在时间t步，要往网络中输入多少信息。

C_t是时间t步网络的输出，用来存储当前网络的长记忆。

是更新们，用来表示在时间t步，当前网络要更新多少信息。

o_t是输出门，用来表示在时间t步，当前网络要输出多少信息。

h_t是时间t步网络的输出，用来存储当前网络的短记忆。

x_t是时间t步网络的输入。

h_t-1是时间t-1步网络的输出，用来存储t时间步之前的短记忆。

C_t-1是时间t-1步网络的输出，用来存储t时间步之前的长记忆。

σ是S型函数，用于把值的范围控制在0到1之间。

Tanh是双曲函数，用于把值的范围控制在-1到1之间。

W_f，W_i，W_c，W_o，b_f，b_i，b_c，b_o，是网络的参数，网络通过训练这些参数让性能更优。

步骤205，根据句子的上下文特征，确定该句子是否为所述目标文档的摘要中的句子，以得到所述摘要。

可选的，根据句子的上下文特征，确定句子是否为目标文档的摘要中的句子，以得到目标文档的摘要，包含：

通过分类器基于句子的上下文特征，计算所句子作为摘要的概率；

概率高于阈值的则将句子的类标标为1，低于阈值的类标标为为0；

当句子的类标为1时，则确定所述句子为所述目标文档的摘要。

例如，使用softmax分类器来为每个句子输出这个句子类标的概率公式如下：

此式表示第j个句子成为最终摘要一部分的概率，越大表示这个句子越有可能成为最终摘要的一部分。

式中，W_ch_j表示第j个句子的信息；表示第j个句子对于这个文档的重要性；捕获了第j个句子对于当前抽取的摘要的冗余信息。

其中，h_j是第j个句子的隐层表示，计算公式如下：

其中，s_j是在第j个句子上摘要的动态特征，摘要的特征是第j个句子之前的所有句子特征的加权平均和。其表示如下：

分类的目标是最小化分类的损失，损失函数如下：

式中，N代表所选取文章的数量，N_d是第j篇文档中句子的总数。表示第d篇文章立马的第j句话的类标。

本实施例使用人工标注的2000篇电力系统相关文献获取实验数据，提取主题句生成摘要，使用ROUGE-L对试验结果进行评价。

ROUGE-L(Recall-Oriented Understand for Gisting Evaluation是评估自动文摘以及机器翻译的一组指标，用于衡量自动生成的摘要或翻译与参考摘要之间的“相似度”)。

ROUGE-L计算使用了最长公共子序列(LCS)。

式中，m、n是参考摘要和自动摘要的长度；R代表召回率；P代表精确率，a是抽取的摘要，b是真实的摘要。

本实施例采用的文献摘要提取方法，结合了Transformer模型、Maxpooling函数以及LSTM模型的优点，能够实现计算速度更快，而且能保存的历史记忆更多，得到的上下文信息关联度更高。

为保证主题句评价的正确性并降低个人主观性带来的结果偏差，同时研究提取摘要句数目对摘要结果质量的影响，本实施例采用5折交叉验证，计算出ROUGE-L值为47.8％。

表1对比结果

模型	ROUGE-L(％)
		本论文的模型	47.8％
基于CRF的模型	41.2％

表1中我们可以看出我们的模型在数据集上的效果更好，超过了基于CRF模型6个百分点，CRF是Conditional Random Field是缩写，是条件概率分布模型P(Y|X)，表示的是给定一组输入随机变量X的条件下另一组输出随机变量Y的马尔可夫随机场。

表2为本实施例提取的一个例子；

表2《独立变桨距控制策略研究》摘要提取

本实施例的实验结果表示，ROUGE-L值为47.8％，自动生成的摘要具有更丰富的信息，能更好地替代原文档。

实施例3

本申请实施例还提供一种用于文献摘要提取的方法，该方法可由计算设备执行，该方法包括：

步骤301，获取目标文档，将目标文档拆分为至少一个句子，向模型中输入目标文档拆分后得到的句子，对句子中的每个单词进行特征提取，得到单词初始特征向量；

步骤302，输入句子的单词初始特征向量，进行处理，得到句子的特征向量；

步骤303，输入句子的特征向量，以确定句子的上下文特征；

步骤304，输入所述句子的上下文特征，通过预测的句子类标和真实的句子类标做交叉熵作为损失函数，以确定模型的参数进行训练，得到文献摘要提取模型。

实施例4

一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述任一实施例所述的文献摘要提取方法或文献摘要提取模型训练方法。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种文献摘要提取方法，其特征在于，所述方法包括：

基于所述句子的特征向量，确定所述句子的上下文特征；

根据所述句子的上下文特征，确定所述句子是否为所述目标文档摘要中的句子，以得到所述目标文档的摘要。

2.根据权利要求1所述的方法，其特征在于，所述基于所述单词初始特征向量，确定所述句子中的预设单词，以得到所述句子的特征向量，包含：

3.根据权利要求2所述的方法，其特征在于，所述对所述单词初始特征向量进行处理，得到所述句子中的每个单词的第四特征向量，包含：

4.根据权利要求3所述的方法，其特征在于，所述对所述单词初始特征向量进行处理，得到每个单词的第二特征向量，包含：

5.根据权利要求4所述的方法，其特征在于，所述对所述单词初始特征向量进行处理，得到每个单词的第二特征向量之后，还包含：

6.根据权利要求5所述的方法，其特征在于，所述对所述第二特征向量进行处理，得到每个单词的第四特征向量，包括；

7.根据权利要求6所述的方法，其特征在于，所述对所述第二特征向量进行处理，得到每个单词的第四特征向量之后，还包含：

8.根据权利要求1所述的方法，其特征在于，基于所述句子的特征向量，确定所述句子的上下文特征，包含：

9.根据权利要求8所述的方法，其特征在于，所述基于所述句子的特征向量，通过长短期记忆模型进行处理，得到所述句子的上下文特征，包含：

根据所述句子的特征向量，通过所述长短期记忆模型，得到所述句子的前向长短期记忆特征向量与后向长短期记忆特征向量；

10.根据权利要求1所述的方法，其特征在于，所述根据所述句子的上下文特征，确定所述句子是否为所述目标文档的摘要中的句子，以得到目标文档摘要，包含：

所述概率高于阈值的类标为1，低于阈值的类标为0；

11.一种文献摘要提取模型训练方法，包含：

输入所述句子的特征向量，以确定所述句子的上下文特征；

12.一种计算机设备，其特征在于，所述设备包括：

13.一种计算机可读存储介质，其特征在于，所述存储介质包括：

所述存储介质存储有至少一条指令或程序，所述计算机指令或程序由计算机加载并执行以实现权利要求1至10中任一所述的文献摘要提取方法，或权利要求11中的文献摘要提取模型训练方法。