CN112417865A

CN112417865A - 一种基于文章和标题动态融合的摘要提取方法及系统

Info

Publication number: CN112417865A
Application number: CN202011392074.6A
Authority: CN
Inventors: 谭力; 卓汉逵
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-02-26
Anticipated expiration: 2040-12-02
Also published as: CN112417865B

Abstract

本发明公开了一种基于文章和标题动态融合的摘要提取方法及系统，该方法包括：S1、获取数据集并对数据集中的文章和标题进行预处理，得到文章向量和标题向量；S2、以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合，得到融合向量；S3、将融合向量替换标题向量重新执行步骤S2直至达到预设循环次数，输出最终融合向量；S4、根据最终融合向量计算句子概率分布并按预设规则选择摘要句，得到文章摘要。该系统包括：预处理模块、动态融合与交互模块和预测与选择模块。本发明提高了最终提取摘要的精确性。本发明作为一种基于文章和标题动态融合的摘要提取方法及系统，可广泛应用于文本摘要提取领域。

Description

一种基于文章和标题动态融合的摘要提取方法及系统

技术领域

本发明属于文本摘要提取领域，尤其涉及一种基于文章和标题动态融合的摘要提取方法及系统。

背景技术

文本摘要是自然语言处理的一项基本而富有挑战的工作，相关方法已经成为自然语言处理领域的重要组成部分。文本摘要的目标是从输入的文章中得到最符合文章意思的几句作为文章的摘要。文本摘要的方法主要分为提取式摘要和生成式摘要两种，提取式是指从文章中直接选择重要的句子作为摘要句，而生成式是指从根据文章内容生成单词组成摘要。传统提取式摘要的方法通常简单比对文章中单词占比或者句子特征之间的相似性，选择其中相似性最高的几个句子作为摘要句。显然这样的方法误差较大而且不同文章的差异性明显。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于文章和标题动态融合的摘要提取方法及系统，充分利用标题向量信息，并且捕获文本和提取摘要句之间的潜在逻辑关系来预测未来的摘要句，解决了当前提取式摘要精确度不高的问题。

本发明所采用的第一技术方案是：一种基于文章和标题动态融合的摘要提取方法，包括以下步骤：

S1、获取数据集并对数据集中的文章和标题进行预处理，得到文章向量和标题向量；

S2、以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合，得到融合向量；

S3、将融合向量替换标题向量重新执行步骤S2直至达到预设循环次数，输出最终融合向量；

S4、根据最终融合向量计算句子概率分布并按预设规则选择摘要句，得到文章摘要。

进一步，还包括：

基于交叉熵损失方法计算选择的摘要句与参考选择句的差异，得到模型损失；

基于模型损失更新网络参数。

进一步，所述获取数据集并对数据集中的文章和标题进行预处理，得到文章向量和标题向量这一步骤，其具体包括：

获取数据集并根据数据集得到文章和标题；

对文章和标题进行句子拆分并添加分词重新拼接，初始化得到预处理向量；

基于预构建的自编码模型对预处理向量进行映射处理，得到文章向量和标题向量。

进一步，所述以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合，得到融合向量这一步骤，其具体包括：

以标题向量为指引，并基于多头注意力机制学习向量之间的相关性，得到句子间的语义关系；

根据句子间的语义关系，采用线性映射和sigmoid函数计算文章向量中句子的分数值；

根据分数值排名，得到待融合向量和对应的分数值；

计算待融合向量中对应的句子的重要性比重，并转换为文章高级抽象表征；

将文章高级抽象表征与标题向量动态融合，得到融合向量。

进一步，计算文章向量中句子的分数值的具体计算公式如下：

上式中，G^l表示第l层经过动态融合后文章各句子向量，

表示第l层中文章各句子经过线性映射所得的分数值，

和b^l分别是可学习的参数。

进一步，选择分数排名前k的句子，计算这k个待融合向量中对应的句子的重要性比重，具体计算公式如下：

上式中，

为该k个待融合向量中的第j个分数值，

为融合后的句子重要性比重。

进一步，所述转换为文章高级抽象表征具体计算公式如下：

上式中，

为被选择k个向量中的第j个，

表示该向量的占比，

为这些所选择的k个向量融合后的结果，其中l表示第l层的动态融合模块。

进一步，所述将文章高级抽象表征与标题向量动态融合具体计算公式如下：

上式中，

为第l层句子融合后的向量，V^l为第l层的标题向量，V^l+1将作为为下一层即第l+1层的标题向量，

和

是可学习的参数。

本发明所采用的第二技术方案是：一种基于文章和标题动态融合的摘要提取系统，包括以下模块：

预处理模块，用于获取数据集并对数据集中的文章和标题进行预处理，得到文章向量和标题向量；

动态融合与交互模块，用于以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合，得到融合向量，在得到融合向量后将融合向量替换标题向量重新执行动态融合步骤直至达到预设循环次数，输出最终融合向量；

预测与选择模块，用于根据最终融合向量计算句子概率分布并按预设规则选择摘要句，得到文章摘要。

本发明方法及系统的有益效果是：本发明提出了一种新颖的标题与文章之间的信息交互动态融合块，能够充分利用标题向量信息，并且捕获文本和提取摘要句之间的潜在逻辑关系来预测未来的摘要句，以提高最终提取摘要的精确性。

附图说明

图1是本发明具体实施例一种基于文章和标题动态融合的摘要提取方法的步骤流程图；

图2是本发明具体实施例一种基于文章和标题动态融合的摘要提取系统的结构框图；

图3是本发明具体实施例整体流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

本发明提出基于文章和标题的动态融合模型提取式摘要模型及建模方法。该发明探索了提取式文本摘要的新视角，充分利用标题来指导摘要预测。同时提出了一种新颖的标题与文章之间的信息交互动态融合块，充分利用标题向量。并且捕获文本和已各提取摘要之间的潜在逻辑关系来预测未来的摘要句，最终提高提取摘要的精确性。本发明由下面几个部分组成

如图1和图3所示，本发明提供了一种基于文章和标题动态融合的摘要提取方法，该方法包括以下步骤：

进一步作为本方法的优选实施例，还包括：

基于模型损失更新网络参数。

进一步作为本方法优选实施例，所述获取数据集并对数据集中的文章和标题进行预处理，得到文章向量和标题向量这一步骤，其具体包括：

获取数据集并根据数据集得到文章和标题；

具体地，把文章及标题每句先拆分出来，然后在前后分别添加[CLS]，[SEP]分词构成新的句子再拼接起来作为模型初始化输入。实际输入到模型是每个分词对应单词表的位置所构成的向量。令文章向量输出为

其中L_s为文章长度；而对于文章中第i句向量表示

其中

为第i句话中的第j个单词。对于标题向量

其中L_t为标题的单词数目。

具体地，将已经被初始化预处理的向量输入到自编码预训练模型BERT中，得到此时文章对应的输出向量为

标题对应的输出向量为V＝[v]∈R^D ^×1，其中D为特征向量的维度。

进一步作为本发明的优选实施例，所述以标题向量为指引计算文章向量句子的分值并选择部分句子与标题向量动态融合，得到融合向量这一步骤，其具体包括：

具体地，该部分为匹配层，在这里采用了多头注意力机制，它能够学习两个向量之间的相关性，对于长文档中语义捕获有重要作用。对于每一层中第H个Attention的相关匹配学习公式为：

其中

对应的是标题向量V，而

它们对应的是文章向量U^l。当中的l为第l层的动态融合模块，H为第H个Attention模块，返回的

输出结果。

另外，之后将这H个Attention模块线性拼接起来，并对该拼接向量使用正则化和残差网络操作：

其中

这部分输出值G^l将作为下一层的U，若当前融合模块为最后一层，那么该输出将作为预测与选择模块的输入。相关公式如下：

U^l+1＝G^l；

在完成匹配层的计算和交互之后，能够学习到标题向量的高级语义，之后会再使用动态选择和融合的方式来选择核心的摘要语句与标题融合。

具体地，此时使用G^l作为计算文章各句子分数值的标准，采用线性映射并sigmoid的方式得到每个句子的分数值。

根据分数值排名，得到待融合向量和对应的分数值；

具体地，得到每句话的分数值之后，选择分数排名前TOP–K所对应的向量为待融合向量

以及这些向量对应的分数值

其中i_k∈{1,2,...,L_s}，为这些被选择句子对应文章的位置系数。

具体地，获取前TOP–K对应的句子及其向量之后，先计算各个句子的重要性比重以便后续转换。

将文章高级抽象表征与标题向量动态融合，得到融合向量。

具体地，

为文章句子高级抽象表征，然后会与标题向量采用线性交互的方式进行融合，作为动态融合与交互模块下一层V的输入。

进一步作为本发明优选实施例，计算文章向量中句子的分数值的具体计算公式如下：

上式中，G^l表示第l层经过动态融合后文章各句子向量，

表示第l层中文章各句子经过线性映射所得的分数值，

和b^l分别是可学习的参数。

进一步作为本发明优选实施例，选择分数排名前k的句子，计算这k个待融合向量中对应的句子的重要性比重，具体计算公式如下：

上式中，

为该k个待融合向量中的第j个分数值，

为融合后的句子重要性比重。

进一步作为本方法的优选实施例，转换为文章高级抽象表征的具体计算公式如下：

上式中，

为被选择k个向量中的第j个，

表示该向量的占比，

进一步作为本方法的优选实施例，将文章高级抽象表征与标题向量动态融合的具体计算公式如下：

上式中，

和

是可学习的参数。

进一步作为本方法优选实施例，动态融合与交互模块的最后一层的G^L，将作为预测与选择模块的输入，计算文章各个句子的被选择概率值，选择概率前三的句子作为这篇文章的摘要句，计算公式为：

Y_p＝sigmoid(W^LG^L+b^l)；

进一步作为本方法优选实施例，模型训练的损失函数是由最终对文章每个句子的预测值和参考选择句(依据贪心算法计算得到的ORACLE值)之间的交叉熵损失，相关损失函数为：

Loss＝-(log(Y_p)+(1-Y_t)log(1-Y_p))；

通过最小化损失函数，优化整个模型参数以实现在测试集的最佳预测结果。

如图2和图3所示，一种基于文章和标题动态融合的摘要提取系统，包括以下模块：

具体地，通过所述的预处理模块首先在实验数据中对文章和标题进行处理，并将两者使用自编码预训练模型BERT映射为高级向量U,V。

具体地，模块具有多层结构，可利用它基于标题可以提高从文章中动态选择重要向量的准确性的假设，并且将这些向量与标题进行融合，以捕获文章和摘要之间的潜在逻辑，以提高模型的性能。该模块首先把预处理模块处理得到的高级特征向量作为输入，标题向量将作为指引，来指导计算文章各句子的分数值。之后选择分数排名前K的向量(当中包含摘要句的潜在信息)与标题向量融合作为下一层的输入。

具体地，该模块也会计算当前的损失函数loss，用于模型的参数调整。

上述系统实施例中的内容均适用于本方法实施例中，本方法实施例所具体实现的功能与上述系统实施例相同，并且达到的有益效果与上述系统实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。