CN114091429A

CN114091429A - 基于异构图神经网络的文本摘要生成方法及系统

Info

Publication number: CN114091429A
Application number: CN202111203728.0A
Authority: CN
Inventors: 刘培玉; 金盾; 李亚辉; 朱振方
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-02-25

Abstract

本发明公开了基于异构图神经网络的文本摘要生成方法及系统，包括：获取待处理文档；将待处理文档的换转为对应的文档张量、句子张量和单词张量；使用文档张量、句子张量和单词张量，对异构图网络的节点进行初始化；其中，异构图网络包括文档节点、句子节点和单词节点；对异构图网络的节点进行迭代更新；将迭代更新后的异构图网络的句子节点提取出来，对提取出的句子节点进行句间关系弥补；根据弥补句间关系的句子，得到最终的摘要语句。最终本申请选择融合了丰富信息的句子节点来生成最终的文档摘要。

Description

基于异构图神经网络的文本摘要生成方法及系统

技术领域

本发明涉及自动文本摘要技术领域，特别是涉及基于异构图神经网络的文本摘要生成方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

随着社会的发展，各种各样的信息让人们应接不暇。特别地，大部分的信息往往以文本的形式存在。例如，微信中推送的公众号的文章，微博中的热搜信息以及各大新闻网站中的新闻。面对互联网中如此庞大的文本信息，仅仅依靠人工处理是不现实的。因此，本申请需要一种技术来自动提取这些文本信息的重要的一部分作为摘要以节省人们的宝贵时间。为了帮助人们节约时间，不再把宝贵的时间花费在阅读冗长的文章上，自动化文本摘要技术应运而生。

显然，自动文本摘要的目标是生成简洁的句子来替代冗长的原文。目前，自动文本摘要可以分为两种类型，一种是抽取式总结，另一种是生成式总结。抽取式摘要是指从原始文章中选择被认为是重要的原始句子，并将这些原始句子组合起来，生成最终的总结。相比之下，生成式摘要方法产生的摘要中的句子并不是简单地从原文中选取的，而是在通过模型学习原文后从零重新生成的。这两种方式各有自己的优缺点。生成式摘要的优点是生成的句子是重新组织的，可以结合原文中的各种信息来构建新的句子；而他的缺点则是生成的句子会面临着语法问题甚至真实性问题的困扰。抽取式摘要的优点是生成的句子是从原文中抽取出来，这样将不会存在语法问题和真实性的困扰；但是他的缺点也非常明显，因为最终的摘要都是从原文中选取出的原句，所以这些句子的概括性往往不强，并且比较呆板。

由于深度学习的快速发展，许多模型采用了深度神经网络的结构，如长短时记忆(LSTM)，Transformer等。尽管它们取得了成功，但存在一个显著的局限性，即它们很难完全捕获长距离句子的依赖。它们只是根据原文中句子的顺序将句子加载到模型中进行训练。因此，他们无法完全理解这篇长文章的含义。它们在自动指标(如ROUGE)方面的表现已经达到了一定水平，而且似乎很难进一步提高。为了解决这个问题，许多研究人员进行了大量的实验，其中使用图神经网络进行提取摘要的方法取得了很大的进步。然而，为抽取摘要选择合适的图结构也是一项具有挑战性的任务。

发明内容

为了解决现有技术的不足，本发明提供了基于异构图神经网络的文本摘要生成方法及系统；选择使用异构图网络来建模句间关系，并在节点的更新方式上选择使用图注意力网络来更新不同粒度节点的信息。其次，本申请不再单单以句子为对象进行建模句间关系，本申请将整个文档也当做一种节点类型。这样本申请的异构图网络中存在3种节点类型：单词节点，句子节点，和文档节点。这三种节点通过图注意力机制不断的迭代更新，最终本申请选择融合了丰富信息的句子节点来生成最终的文档摘要。

第一方面，本发明提供了基于异构图神经网络的文本摘要生成方法；

基于异构图神经网络的文本摘要生成方法，包括：

获取待处理文档；将待处理文档的换转为对应的文档张量、句子张量和单词张量；

使用文档张量、句子张量和单词张量，对异构图网络的节点进行初始化；其中，异构图网络包括文档节点、句子节点和单词节点；

对异构图网络的节点进行迭代更新；

将迭代更新后的异构图网络的句子节点提取出来，对提取出的句子节点进行句间关系弥补；

根据弥补句间关系的句子，得到最终的摘要语句。

第二方面，本发明提供了基于异构图神经网络的文本摘要生成系统；

基于异构图神经网络的文本摘要生成系统，包括：

转换模块，其被配置为：获取待处理文档；将待处理文档的换转为对应的文档张量、句子张量和单词张量；

初始化模块，其被配置为：使用文档张量、句子张量和单词张量，对异构图网络的节点进行初始化；其中，异构图网络包括文档节点、句子节点和单词节点；

更新模块，其被配置为：对异构图网络的节点进行迭代更新；

弥补模块，其被配置为：将迭代更新后的异构图网络的句子节点提取出来，对提取出的句子节点进行句间关系弥补；

生成模块，其被配置为：根据弥补句间关系的句子，得到最终的摘要语句。

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

与现有技术相比，本发明的有益效果是：

本申请的模型利用不同粒度的节点间的信息传递和图注意力网络，解决了传统的模型难以捕捉到长距离句子之间的依赖关系的问题。这对选取概括性和重要性更强的句子作为摘要句起到关键作用。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例的模型图；

图2为异构图中不同粒度节点的更新方式的示意图；

其中，①表示使用句子节点对文档节点进行更新。②表示使用文档节点对对句子节点进行更新。③表示使用句子节对单词节点进行更新。④表示使用单词节点对句子节点进行更新。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

近年来，图神经网络在许多任务中取得了良好的效果。图卷积网络(GraphConvolutional Network，GCN)和图注意网络(Graph Attention Networks,GAT)表现尤为突出。然而，GCN在处理动态图时存在一定的不足，在实现对相邻节点分配不同权重时也不太方便。而GAT在处理这些问题时则更为灵活。

实施例一

本实施例提供了基于异构图神经网络的文本摘要生成方法；

基于异构图神经网络的文本摘要生成方法，包括：

S101：获取待处理文档；将待处理文档的换转为对应的文档张量、句子张量和单词张量；

S102：使用文档张量、句子张量和单词张量，对异构图网络的节点进行初始化；其中，异构图网络包括文档节点、句子节点和单词节点；

S103：对异构图网络的节点进行迭代更新；

S104：将迭代更新后的异构图网络的句子节点提取出来，对提取出的句子节点进行句间关系弥补；

S105：根据弥补句间关系的句子，得到最终的摘要语句。

进一步地，所述S101：将待处理文档的换转为对应的文档张量、句子张量和单词张量；具体包括：

采用编码器，将待处理文档的换转为对应的文档张量、句子张量和单词张量。

其中，所述编码器，采用Xlnet编码器。

显然，文本摘要是一项处理长文档的任务。因此，为了更好的获得长文档的更多信息表示，选择Xlnet对文档、句子和单词进行编码。这是因为当选择编码器时，了解到Xlnet比Glove，以及Bert等预训练模型更适合对长文档输入进行编码。经过Xlnet嵌入表示后，得到用于图节点初始化的文档、句子和单词表示。

进一步地，所述S102：异构图网络包括文档节点、句子节点和单词节点；其中，使用图G来表示一个文档，其中G＝{V,E}。其中，V代表图中的节点，E代表边。此外，节点集V＝{Vw,Vs,Vd}，其中Vw代表单词节点集，Vs代表句子节点集，Vd代表文档集。

在图结构中，如果文档有n个不同的词，那么图中就有n个单词节点。

像单词节点一样，为图创建句子节点，句子节点数量将与句子的数量一样多。

文档节点，显然只有一个这样的节点。

集合中的另一个元素E＝{Eds,Esw}，其中Eds表示文档节点和句子节点之间的边，Esw表示句子节点和单词节点之间的边。

如果句子si包含wj，将添加一条无向边来连接si和wj。

正是因为通过这种方式，与传统的循环神经网络模型相比，可以在句子之间建立更多的联系。遍历所有单词节点后，每个单词节点都会连接一个或几个句子节点。

使用获得的文档、句子和单词的表示来初始化异构图网络。这里用Wd、Ws和Ww分别代表文档、句子和词的特征表示。文档、句子和单词节点将使用Wd、Ws和Ww进行初始化。

进一步地，所述S103：对异构图网络的节点进行迭代更新；具体包括：

S1031：使用句子节点对文档节点进行更新；

S1032：使用文档节点对句子节点进行更新；

S1033：使用句子节点对单词节点进行更新；

S1034：使用单词节点对句子节点进行更新；

S1035：重复S1031～S1034。

S1031～S1034以上为一个轮次的更新，完后以后再重复两遍上述更新过程，目的是充分建模句间的关系。

所述使用句子节点对文档节点进行更新、使用文档节点对句子节点进行更新、使用句子节点对单词节点进行更新或者使用单词节点对句子节点进行更新，均采用图注意力网络来实现。

图注意力网络(GAT)将用于更新节点中的信息。在每一轮迭代更新中，将使用被更新节点的邻居节点更新这些节点。这意味着将使用第i个节点h_i的所有邻居节点的表示来更新h_i。

使用文档节点来更新句子节点。这样做的原因是因为在图注意力网络GAT更新过程中，注意力机制会更好的将文档节点中的信息传递到句子节点，可以更好地利用句子节点来预测标签。

使用文档节点的第二个原因是，在构建损失函数时，使用文档节点的表示与每个句子节点的表示之间的余弦相似度来为模型更新参数制定重要的参考标准。

图注意力网络的更新公式如下：

e_ij＝a([Wh_i||Wh_j]),j∈N_i (1)

其中，i和j分别代表第i个和第j个节点，α_ij是两个相连节点之间的注意力权重系数，W是可训练的权重。式(1)中，[·||·]为拼接操作，a为映射操作。

然后使用SoftMax对相关系数e_ij进行归一化，如公式(2)所示。

经过公式(1)和公式(2)得到了注意力系数，现在将所有邻居节点的注意力系数的加权和相加，如公式(3)所示，其中σ是sigmoid函数，Ni是第i个邻居节点的集合节点。

虽然得到了h_i的新表示，但为了更好地捕捉信息，图注意力网络使用了多头注意力网络来增强本申请的模型提取重要信息的能力，如下所示：

K代表多头注意力的头数，σ是sigmoid函数，α_ij是两个相连节点之间的注意力权重系数，W是可训练的权重,i和j是第i和第j个节点，h_j代表第j个节点的隐层状态。在GAT层，详细的更新过程如图2所示。

首先，既然使用了注意力机制，那么最好使用注意力机制来进行部分和整体之间的交互。显然，这里的整体代表整个文档，部分代表一个句子。因此，文档节点将被连接到它的每个句子节点更新。反过来，如图2中虚线②所示，然后使用文档节点来更新句子节点。显然，在一张图中，只有一个文档节点连接到句子节点。这样，每个句子节点被文档节点更新后，得到一个全局表示和一个局部表示。实验结果表明，这种更新方法确实提高了摘要提取的准确性。接下来，单词节点Wi将被句子节点Sn更新。当然，单词节点Wi可能不仅会被Sn更新，其他与Wi相连的句子节点也会参与到这个过程中。这里本申请只用一个节点来说明更新过程。最后，句子节点S1将被包含其他句子节点信息的单词节点Wi更新。

上述过程不仅说明了信息在图中是如何传递的，还说明了两个没有边的句子节点是如何传递信息的。注意图中的箭头仅表示某一时刻信息传递的方向，并不代表本申请的图是有向图。

进一步地，所述S104：将迭代更新后的异构图网络的句子节点提取出来，对提取出的句子节点进行句间关系弥补；

使用双向门控循环单元(Bidirectional Gate Recurrent Unit，Bi-GRU)，对提取出的句子节点进行句间关系弥补。

由于上述的句子节点是经过单词节点作为中介来间接更新的，而本申请的目的是使用这些句子节点来选取最终的摘要句。因此本申请将这些句子节点取出，使用Bi-GRU来建模他们的句间关系以弥补间接传递信息的不足。

在GAT中迭代更新文档、句子和单词的表示后，每个节点包含的信息比刚初始化时的节点信息更多。可以直接取出句子节点进行预测。但是考虑到Sn节点的信息不是直接传送到S1，而是经过中间节点Wi。本申请认为这种间接传输方式可能会导致两个句子节点之间的一些重要信息丢失。因此，采用GRU来进一步处理句子节点的表示。然后，将GRU处理后的句子表示用作预测的最终输出。

进一步地，所述S105：根据弥补句间关系的句子，得到最终的摘要语句。

根据弥补句间关系的句子，使用线性变化层进行处理，得到一个二维张量，所述二维张量表示一个句子被选为摘要的概率，选择概率大于设定阈值的一个或多个句子，得到最终的摘要语句。

当根据概率选择的是多个句子时，多个句子按照各自在文档中出现的先后顺序进行排序，得到最终的摘要语句。

进一步地，所述方法S101～S104采用训练后的模型来实现。

其中，模型，其结构包括：依次连接的编码器、图注意力网络、Bi-GRU层、线性变换层和输出层。

其中，训练后的模型，训练步骤包括：

构建训练集；所述训练集为已知摘要的文档；

将训练集输入到模型中，进行训练，当总损失函数不再下降时，停止训练，得到训练后的模型。

总损失函数为第一损失函数和第二损失函数的求和结果；

其中，第一损失函数为交叉熵损失函数；

其中，第二损失函数为：

L＝max(0,f(d,s)) (5)

其中f(d,s)＝cosine(d,s)，d和s分别表示文档和句子的嵌入。

在句子节点的表示被GRU处理后，将使用这些表示进行预测。

实施例二

本实施例提供了基于异构图神经网络的文本摘要生成系统；

基于异构图神经网络的文本摘要生成系统，包括：

此处需要说明的是，上述转换模块、初始化模块、更新模块、弥补模块和生成模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于异构图神经网络的文本摘要生成方法，其特征是，包括：

对异构图网络的节点进行迭代更新；

根据弥补句间关系的句子，得到最终的摘要语句。

2.如权利要求1所述的基于异构图神经网络的文本摘要生成方法，其特征是，将待处理文档的换转为对应的文档张量、句子张量和单词张量；具体包括：

3.如权利要求1所述的基于异构图神经网络的文本摘要生成方法，其特征是，对异构图网络的节点进行迭代更新；具体包括：

使用句子节点对文档节点进行更新；

使用文档节点对句子节点进行更新；

使用句子节点对单词节点进行更新；

使用单词节点对句子节点进行更新；

重复上述步骤。

4.如权利要求3所述的基于异构图神经网络的文本摘要生成方法，其特征是，使用句子节点对文档节点进行更新、使用文档节点对句子节点进行更新、使用句子节点对单词节点进行更新或者使用单词节点对句子节点进行更新，均采用图注意力网络来实现。

5.如权利要求1所述的基于异构图神经网络的文本摘要生成方法，其特征是，将迭代更新后的异构图网络的句子节点提取出来，对提取出的句子节点进行句间关系弥补；

使用双向门控循环单元，对提取出的句子节点进行句间关系弥补。

6.如权利要求1所述的基于异构图神经网络的文本摘要生成方法，其特征是，根据弥补句间关系的句子，得到最终的摘要语句；

7.如权利要求1所述的基于异构图神经网络的文本摘要生成方法，其特征是，所述方法，采用训练后的模型来实现；其中，模型，其结构包括：依次连接的编码器、图注意力网络、Bi-GRU层、线性变换层和输出层；

其中，训练后的模型，训练步骤包括：

构建训练集；所述训练集为已知摘要的文档；

8.基于异构图神经网络的文本摘要生成系统，其特征是，包括：

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。