CN112749253B

CN112749253B - 一种基于文本关系图的多文本摘要生成方法

Info

Publication number: CN112749253B
Application number: CN202011574822.2A
Authority: CN
Inventors: 李肯立; 罗文明; 唐卓; 宋莹洁; 刘园春; 郭耀莲; 阳王东; 曹嵘晖; 肖国庆; 刘楚波; 周旭
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-04-05
Anticipated expiration: 2040-12-28
Also published as: CN112749253A

Abstract

本发明公开了一种基于文本关系图的多文本摘要生成方法，其包括三个阶段：第一个阶段是根据所有输入文本，构建文本之间的关系图，并对文本进行特征提取；第二个阶段是利用第一阶段生成的文本关系图数据和文本特征，结合图神经网络进行高阶特征提取。第三个阶段是对前两个阶段编码的文本特征进行解码，生成摘要。在第二个阶段中，是将构建的文档关系图和经过编码器编码的文档表征作为图卷积神经网络的输入，进行前向传播，提取更高阶的文本特征，使得图中每个文档节点都可以获得领域节点信息，丰富了文档表征。本发明在多个文档输入时可以有效捕捉其相互间关系，克服传统方法不能充分利用文本之间关系的缺陷。

Description

一种基于文本关系图的多文本摘要生成方法

技术领域

本发明属于自然语言处理领域，更具体地，涉及一种基于文本关系图的多文本摘要生成方法和系统。

背景技术

随着信息技术和智能设备的发展，网络空间中产生的文本数据越来越多，文本信息过载问题日益。目前我们可以轻松快速获取大量信息，获取信息的频率增加了，同时获得关键信息的难度也随之增大。所以，对各类文本进行一个概括处理以轻松地从中获得关键信息显得愈发重要。文本摘要是一种对大量文本进行简明而精确的总结的技术，利用计算机自动生成输入文本的摘要的技术，以使人们能够轻松地从大量信息中获得关键信息。如今，文本摘要已成为自然语言处理领域的重要分支。

文本摘要按照输入文本的类型可以分为单文本摘要和多文本摘要。单文本摘要的输入为单一文本；多文本摘要研究同一主题信息中的若干篇文档合集，通过相关摘要技术的处理，生成该事件主题的一小段简明扼要、可读性较好的文本，这段文本无冗余信息，可以准确还原出事件主旨。用户通过阅读该文本，可以迅速了解该事件主题相关内容信息，用户基于这些相关信息再决定是否进一步深入阅读更多相关细节内容，从而加快用户获取文本信息的速度，满足当前社会中人们快速掌握信息的要求，节省用户阅读时间，提高信息获取效率。

按照摘要词生成的方式，文本摘要主要分为抽取式、生成式和混合式三大类。抽取式文本摘要从源文章中选出可以代表最重要观点的词或者句子，并将它们组合在一起构成摘要；生成式文本摘要首先理解源文档然后进行摘要生成，多使用复杂的深度学习技术来实现，它可以生成源文档中没有出现过的词或者句子，因此这种方法可以解决抽取式摘要方法的语法不准确性问题；混合式方法则是同时使用抽取式和生成式的方法。

目前的多文本生成式摘要生成方法主要有基于RNN类模型的方法、基于图图注意力的方法以及结合单文本摘要模型的方法，其中基于RNN类模型的方法是以RNN类模型作为基本单元的编码器和解码器来生成文本摘要，但其时间上的前后依赖性意味着该网络在训练时无法并行执行，导致实际应用时效率低下；基于图注意力的方法借助事先构建好的关系图，以辅助注意力机制中的注意力值分配，但其本质上仍是以加权求和为基础的注意力机制，无法充分捕捉文本之间的关系，使得模型不能很好地理解输入文本集合在语义上的关联，导致生成的摘要质量不佳；结合单文本摘要模型的方法是在多文本输入场景时，将所有输入文本连接起来再使用单文本摘要模型来进行处理，但是这种方法导致输入过长，使得模型从输入文本序列中定位关键信息变得十分困难，此外，这种方法忽略了输入文本之间的关系，多个输入文本之间往往存在信息重复或者互补的关系，从而造成生成的摘要质量偏低。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于文本关系图的多文本摘要生成方法，其目的在于，解决现有基于RNN类模型的方法中由于网络在训练时无法并行执行，导致实际应用时效率低下的技术问题，以及基于图注意力的方法由于模型不能很好地理解输入文本集合在语义上的关联，导致生成的摘要质量不佳的技术问题，以及结合单文本摘要模型的方法从输入文本序列中定位关键信息十分困难、生成的摘要质量偏低的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于文本关系图的多文本摘要生成方法，包括以下步骤：

(1)获取多个输入文本，对获取的多个输入文本进行预处理，以得到预处理后的多个文本；

(2)针对步骤(1)预处理后的每个文本而言，获取该文本中每个词的TF-IDF值，根据该文本中所有词的TF-IDF值构建该文本的特征向量，根据每个文本的特征向量计算任意两个文本之间的余弦相似度，并使用步骤(1)得到的所有文本中每两个文本之间的余弦相似度构建文本关系图矩阵G；

(3)将步骤(1)预处理后的每个文本输入训练好的第一神经网络模型中，以得到该文本中每个词的上下文表征向量；

(4)将步骤(3)得到的每个文本中每个词的上下文表征向量输入训练好的第二神经网络模型中，以得到该文本的特征向量；

(5)将步骤(2)得到的文本关系图矩阵G和步骤(4)得到的每个文本的特征向量输入训练好的第三神经网络模型中，以得到特征矩阵；

(6)将步骤(5)得到的特征矩阵中每个文本经过第三神经网络模型更新后的特征向量和步骤(3)得到的每个文本中每个词的上下文表征向量进行融合，以获得每个文本中每个词的高阶表征向量。

(7)将步骤(6)得到的所有文本中所有词的高阶表征向量输入训练好的第四神经网络模型中，以得到所有文本对应的最终摘要。

优选地，步骤(2)具体为：

首先，获取每个文本中每个词的TF-IDF值

TF-IDF＝TF×IDF

其中TF表示词的词频，IDF表示词的逆文本频率，且有：

其中K表示步骤(1)得到的所有文本总数；

然后，根据该文本中所有词的TF-IDF值构建每个文本的n维特征向量vec_A，特征向量中第i维的值就是所有文本中所包含的第i个不重复的词的TF-IDF值，其中n表示步骤(1)得到的所有文本中所包含的不重复的词的数量，A表示文本序号，且有A∈[1，K]，i∈[0，n-1]；

接着，根据每个文本的特征向量计算任意两个文本A和B之间的余弦相似度，并将该余弦相似度作为文本关系图矩阵G的第A行第B列元素：

其中B表示文本序号，B≠A，且B∈[1，K]；

最后，针对步骤(1)得到的文本中的每个文本，重复上述过程，从而得到完成文本关系图矩阵G的构建。

优选地，本步骤(3)包括以下子步骤：

(3-1)对每个文本中的每个词进行正余弦函数编码，以得到每个词的位置向量pe；

(3-2)将每个文本中的每个词输入第一神经网络模型的词嵌入层，以得到每个词的词嵌入向量w，并根据步骤(3-1)中得到的每个词的位置向量pe和词嵌入向量w获取每个文本中该词的词向量；

(3-3)将(3-2)得到的每个文本中每个词的词向量输入第一神经网络模型的多头自注意力层，以得到每个文本中每个词对应的多头自注意力层输出；

(3-4)将步骤(3-3)得到的每个文本中每个词对应的多头自注意力层输出输入到第一神经网络模型中的前馈网络中，以得到每个文本中每个词的词上下文表征向量；

其中前馈网络是由两层线性层和中间的激活函数组成，其中ReLU激活函数表达式为：

ReLU(x)＝max(0,x)

优选地，步骤(3-1)中，每个词的位置向量pe等于：

其中pos表示每个词在其所在文本中的当前位置，2k表示位置向量pe的偶数维位置，2k+1表示位置向量pe的奇数维位置，d_model表示位置向量pe的维度大小，同时也是词嵌入的维度大小，2k,2k+1∈[0，d_model-1]；

每个文本中每个词的词向量x为：

x＝w+pe

优选地，步骤(3-3)具体为：

首先，通过n_head个不同的矩阵将步骤(3-2)得到的每个词的词向量线性映射为n_head个向量三元组[Q_j,K_j,V_j]，该向量三元组中的每个向量均是d_head维，且公式如下：

其中n_head取值范围是1到10，优选等于8，j∈[1，n_head]，

是第一神经网络模型的多头自注意力层中的可学习参数矩阵，且维度均为d_head×d_model,。

然后，针对第j个向量三元组[Q_j,K_j,V_j]而言，计算其自注意力输出向量head_j：

其中softmax表示归一化函数，且：

最后，将所有n_head个向量三元组的自注意力输出向量head_j连接起来，并进行一步线性映射，以得到多头自注意力层输出：

其中concat为连接操作，将多个向量堆叠为一个高维向量，W^O是第一神经网络模型的多头自注意力层中的可学习参数矩阵，其维度为(d_model,n_head×d_head)。

优选地，步骤(4)中，每个文本的特征向量doc_g是通过下式计算，其中g∈[1，K]：

其中中间变量

等于：

其中k_p＝W_kx_p；

中间变量v_p等于：

v_p＝W_vx_p

其中num表示第g个文本中词的数量，W_g、W_k、W_v均为第二神经网络模型中的可学习参数，x_p表示第g个文本中第p个词的上下文表征向量，且有p∈[1，num]。

优选地，步骤(5)包括以下子步骤：

(5-1)对步骤(2)得到的文本关系图矩阵G进行预处理，以得到邻接矩阵A和度矩阵D；

具体而言，本步骤首先根据文本关系图矩阵G生成邻接矩阵A：

A＝G+I

其中I表示与文本关系图矩阵G大小完全相同的单位矩阵，本过程使得矩阵A的主对角线元素的值均为1：

然后，根据邻接矩阵A获取度矩阵D：

其中i和k分别为度矩阵D中的行序号和列序号；

(5-2)将步骤(4)得到的所有K个文本的特征向量doc₁,doc₂,...,doc_K组合为输入特征矩阵H；

本步骤中的组合方法为：

(5-3)将步骤(5-1)得到的邻接矩阵A、度矩阵D、以及步骤(5-2)得到的输入特征矩阵H输入训练好的第三神经网络模型，以获得特征矩阵，该特征矩阵中的每一行是每个文本经过第三神经网络模型更新后的特征向量的转置。

特征矩阵是通过以下过程获得：

其中ReLU表示第三神经网络模型中的ReLU激活函数。W为第三神经网络模型中的可学习参数。

优选地，步骤(6)中将每个文本经过第三神经网络模型更新后的特征向量和该文本中每个词的上下文表征向量进行融合的具体方法为：

首先，从步骤(5)得到的特征矩阵output_gcn中分离出K个文本经过第三神经网络模型更新后的特征向量c₁,c₂,...,c_K，

然后，针对所有K个文本中的每一个文本g而言，采用以下公式获取第g个文本中第p个词的高阶表征向量：

优选地，步骤(7)具体为，首先，将步骤(6)得到的所有文本中所有词的高阶表征向量和起始符y₀一起输入训练好的第四神经网络模型中，以得到第1个摘要词y₁，然后，将第1个摘要词y₁和步骤(6)得到的所有文本中所有词的高阶表征向量一起输入训练好的第四神经网络模型中，以得到第2个摘要词y₂，然后，将第1个摘要词y₁、第2个摘要词y₂和步骤(6)得到的所有文本中所有词的高阶表征向量一起输入训练好的第四神经网络模型中，以得到第3个摘要词y₃，以此类推，直到最终生成的摘要词是终止符、或者最终生成的摘要词数量达到预设的最大摘要长度为止，得到的所有摘要词就是最终的摘要。

优选地，生成第t个摘要词的过程包括以下子步骤，其中t∈[1，预设的最大摘要长度]：

(7-1)对第四神经网络模型已生成的摘要词y₁,y₂,...,y_t-1进行正余弦函数编码，以得到每个摘要词的位置向量；

(7-2)将第四神经网络模型已生成的摘要词y₁,y₂,...,y_t-1输入第四神经网络的词嵌入层，以得到每个摘要词的词嵌入向量，将得到的每个摘要词的词嵌入向量与步骤(7-1)得到的每个摘要词的位置向量相加，以得到每个摘要词的词向量；

(7-3)将步骤(7-2)得到的每个摘要词的词向量输入第四神经网络模型的多头自注意力层，以得到每个摘要词对应的多头自注意力层输出。

(7-4)将步骤(7-3)得到的每个摘要词对应的多头自注意力层输出输入第四神经网络模型中的编码器-解码器多头注意力层，以得到每个摘要词对应的编码器-解码器多头注意力层输出。

(7-5)将步骤(7-4)得到的编码器-解码器多头注意力层输出output_enc-dec输入第四神经网络模型中的前馈网络，将前馈网络的输出结果输入第四神经网络模型中的全连接层，从而得到表示词汇表大小的向量h_vocab，并利用softmax函数对向量h_vocab进行处理，以得到词汇表的概率分布p(vocab)，该概率分布p(vocab)中的每个元素对应于词汇表中不同词的生成概率。

h_vocab＝W_f(FFN(output_enc-dec))

p(vocab)＝softmax(h_vocab)

其中，FFN表示第四神经网络模型中的前馈网络，W_f为第四神经网络模型中全连接层的可学习参数；

(7-6)从步骤(7-5)得到的词汇表的概率分布p(vocab)中找出词汇表中生成概率最大的词，将该词作为最终生成的摘要词output_word：

output_word＝argmax(p(vocab))

其中argmax表示取最大值对应的词。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、由于本发明采用了步骤(3)，其使用的第一神经网络是Transformer的编码器部分，处理后的每个文本的所有词可以同时输入到第一神经网络，无须逐词输入，可以并行训练，因此能够解决现有方法存在的网络在训练时无法并行执行，导致实际应用时效率低下的技术问题；

2、由于本发明采用了步骤(2)、步骤(4)和步骤(5)，首先基于语义相似度构建文本关系图，然后将其和步骤(4)得到每个文本的特征向量输入图卷积神经网络，以此捕捉文本之间的关系，获取更高阶的语义特征，因此能够解决现有方法存在的无法充分捕捉文本之间的关系，从而导致生成的摘要质量不佳的技术问题；

3、由于本发明采用了步骤(1)到步骤(3)，其首先对文本进行预处理，将单个长文本截断为多个文本，并且使用第一神经网络对每个文本分别处理，因此能够解决现有方法存在的输入过长使模型从输入文本序列中定位关键信息十分困难的技术问题；

4、由于本发明采用了步骤(2)到步骤(6)，其基于相似度构建文本关系图，然后使用图卷积神经网络来理解文本之间的关系，并处理文本之间相似或者互补的信息，以此更好地利用文本之间的关系，因此能够解决现有方法存在的因多个输入文本之间存在信息重复或者互补的关系造成的生成摘要质量偏低的技术问题；

5、本发明实现简单，可以并行训练，效率高，内部组件可根据实际应用需要调整，具有很高的灵活性；

6、本发明生成摘要的方式与人工撰写摘要的流程类似，生成的摘要不仅包含重要信息，而且语法错误少，具有很高的流畅性。

附图说明

图1是本发明基于文本关系图的多文本摘要生成方法的实现架构图；

图2是本发明基于文本关系图的多文本摘要生成方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的多文本摘要生成模型采用编码器-解码器的架构，且编码器的每个输入文本长度会被设为固定值，大于固定值的文本将被截断为多个文本，小于固定值的将使用填充符号填充至固定值，以便于可以并行执行，提高训练速度。本发明采用基于语义相似度的方法对文本之间的关系进行建模，构建文本关系图。同时使用在图结构的数据上性能优异的图卷积神经网络来聚合每个节点的领域信息，从而达到高效利用文本关系的目的，以生成更高质量的摘要。

如图1和图2所示，本发明提供了一种基于文本关系图的多文本摘要生成方法，包括以下步骤：

具体而言，本步骤首先是从互联网上获得某一事件的若干篇新闻报道作为输入文本，然后去除这些输入文本中的标点符号和非文字的特殊符号，最后将长度超过预设文本长度最大值的输入文本从对应的段落结尾处截断(如果截断后的输入文本的长度仍然大于预设文本长度最大值，则重复本截断操作)，以将其分割为多个截断后的文本；

在本实施方式中，预设文本长度最大值是100到400个词之间，优选是200个词。

(2)针对步骤(1)预处理后的每个文本而言，获取该文本中每个词的词频-逆文本频率(Term frequency-Inverse document frequency，简称TF-IDF)值，根据该文本中所有词的TF-IDF值构建该文本的特征向量，根据每个文本的特征向量计算任意两个文本之间的余弦相似度，并使用步骤(1)得到的所有文本中每两个文本之间的余弦相似度构建文本关系图矩阵G；

具体而言，本步骤具体为：

首先，获取每个文本中每个词的TF-IDF值

TF-IDF＝TF×IDF

其中TF表示词的词频，IDF表示词的逆文本频率，且有：

其中K表示步骤(1)得到的所有文本总数，计算逆文本频率时对数函数内分母加1是为了防止分母为0的情况出现。

其中B表示文本序号，B≠A，且B∈[1，K]；

上述步骤(2)的优点在于，基于语义相似度构建文本关系图，构建的文本关系图可以帮助模型理解文本之间的关系，对模型生成摘要有一定的指导作用。

具体而言，本发明中使用的第一神经网络模型是Transformer神经网络模型的编码器部分。

本发明的第一神经网络模型是通过以下过程训练得到的：

(a)获取多文本摘要数据集，并将该数据集数据按9:1的比例划分为训练集与测试集。

(b)根据步骤(a)获得的训练集，进行前向传播，并使用神经网络模型的损失函数计算神经网络模型的损失值。

(c)根据步骤(b)获得的损失值，并利用反向传播算法对神经网络模型的所有权重参数进行更新，以获得更新后的神经网络模型；

(d)根据步骤(c)更新后的神经网络模型，重复迭代步骤(b)和(c)，直到该网络模型收敛为止，从而得到迭代训练后的神经网络模型；具体而言，该神经网络模型收敛的条件是在步骤(a)得到的测试集上的损失值不能再小，或者迭代次数达到设定的上限值500000，从而获得训练好的第一神经网络模型。

本步骤(3)包括以下子步骤：

具体而言，每个词的位置向量pe等于：

其中pos表示每个词在其所在文本中的当前位置，2k表示位置向量pe的偶数维位置，2k+1表示位置向量pe的奇数维位置，d_model表示位置向量pe的维度大小，同时也是词嵌入的维度大小，2k,2k+1∈[0，d_model-1]。

每个文本中每个词的词向量x为：

x＝w+pe

本步骤具体为：

其中n_head取值范围是1到10，优选等于8，j∈[1，n_head]，

是第一神经网络模型的多头自注意力层中的可学习参数矩阵，且维度均为d_head×d_model。

其中softmax表示归一化函数，且：

ReLU(x)＝max(0,x)

上述步骤(3)的优点在于，预处理后的每个文本的所有词可以同时输入到第一神经网络，无须逐词输入，可以并行训练。

具体而言，本发明中使用的第二神经网络模型是由两层线性层组成，两层线性层中间使用Softmax激活函数。

本发明的第二神经网络模型是通过以下过程训练得到的：

(d)根据步骤(c)更新后的神经网络模型，重复迭代步骤(b)和(c)，直到该网络模型收敛为止，从而得到迭代训练后的神经网络模型；具体而言，该神经网络模型收敛的条件是在步骤(a)得到的测试集上的损失值不能再小，或者迭代次数达到设定的上限值500000，从而获得训练好的第二神经网络模型。

每个文本的特征向量doc_g是通过下式计算，其中g∈[1，K]：

其中中间变量

等于：

其中k_p＝W_kx_p；

中间变量v_p等于：

v_p＝W_vx_p

(5)将步骤(2)得到的文本关系图矩阵G和步骤(4)得到的每个文本的特征向量输入训练好的第三神经网络模型中，以得到特征矩阵。

具体而言，第三神经网络模型是图卷积神经网络模型。

本发明的第三神经网络模型是通过以下过程训练得到的：

(d)根据步骤(c)更新后的神经网络模型，重复迭代步骤(b)和(c)，直到该网络模型收敛为止，从而得到迭代训练后的神经网络模型；具体而言，该神经网络模型收敛的条件是在步骤(a)得到的测试集上的损失值不能再小，或者迭代次数达到设定的上限值500000，从而获得训练好的第三神经网络模型。

本步骤包括以下子步骤：

A＝G+I

然后，根据邻接矩阵A获取度矩阵D：

其中i和k分别为度矩阵D中的行序号和列序号，本过程使得度矩阵D只有主对角线元素有值，其他位置均为0。

本步骤中的组合方法为：

特征矩阵是通过以下过程获得：

其中ReLU表示第三神经网络模型中的修正线性单元(RectifiedLinear Unit，简称ReLU)激活函数。W为第三神经网络模型中的可学习参数。

将每个文本经过第三神经网络模型更新后的特征向量和该文本中每个词的上下文表征向量进行融合的具体方法为：

上述步骤(4)到步骤(6)的优点在于，将每个文本的特征向量和文本关系图输入图卷积神经网络，获取更高阶的文本特征，并以此高阶文本特征丰富每个词的上下文表征向量，这种方法可以很好地捕捉文本之间的关系，从而提高生成摘要质量。

(7)将步骤(6)得到的所有文本中所有词的高阶表征向量输入训练好的第四神经网络模型中，以得到所有文本对应的最终摘要；

具体而言，第四神经网络模型是Transformer的解码器部分。

本发明的第四神经网络模型是通过以下过程训练得到的：

(d)根据步骤(c)更新后的神经网络模型，重复迭代步骤(b)和(c)，直到该网络模型收敛为止，从而得到迭代训练后的神经网络模型；具体而言，该神经网络模型收敛的条件是在步骤(a)得到的测试集上的损失值不能再小，或者迭代次数达到设定的上限值500000，从而获得训练好的第四神经网络模型。

本步骤具体为，首先，将步骤(6)得到的所有文本中所有词的高阶表征向量和起始符y₀一起输入训练好的第四神经网络模型中，以得到第1个摘要词y₁，然后，将第1个摘要词y₁和步骤(6)得到的所有文本中所有词的高阶表征向量一起输入训练好的第四神经网络模型中，以得到第2个摘要词y₂，然后，将第1个摘要词y₁、第2个摘要词y₂和步骤(6)得到的所有文本中所有词的高阶表征向量一起输入训练好的第四神经网络模型中，以得到第3个摘要词y₃，…，以此类推，直到最终生成的摘要词是终止符、或者最终生成的摘要词数量达到预设的最大摘要长度为止。

在本发明中，预设的最大摘要长度是200到500个词，优选为300个词。

本步骤生成第t(其中t∈[1，预设的最大摘要长度])个摘要词的过程包括以下子步骤：

本步骤的计算过程和上述步骤(3-1)完全相同，在此不再赘述。

(7-2)将第四神经网络模型已生成的摘要词y₁,y2,...,y_t-1输入第四神经网络的词嵌入层，以得到每个摘要词的词嵌入向量，将得到的每个摘要词的词嵌入向量与步骤(7-1)得到的每个摘要词的位置向量相加，以得到每个摘要词的词向量；

本步骤的计算过程和上述步骤(3-3)完全相同，在此不再赘述。

需要注意的是，该层执行的操作相对于步骤(3-3)的多头自注意力层，唯一不同的是，其用来计算注意力输出的K、V向量均来自于步骤(6)编码生成的每个词的高阶表征向量，Q向量来自于步骤(7-3)得到的第t-1个摘要词对应的多头自注意力层输出。

h_vocab＝W_f(FFN(output_enc-dec))

p(vocab)＝softmax(h_vocab)

其中，FFN表示第四神经网络模型中的前馈网络，W_f为第四神经网络模型中全连接层的可学习参数。

(7-6)从步骤(7-5)得到的词汇表的概率分布p(vocab)中找出词汇表中生成概率最大的词，将该词作为最终应生成的摘要词output_word：

output_word＝argmax(p(vocab))

其中argmax表示取最大值对应的词。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本关系图的多文本摘要生成方法，其特征在于，包括以下步骤：

(6)将步骤(5)得到的特征矩阵中每个文本经过第三神经网络模型更新后的特征向量和步骤(3)得到的每个文本中每个词的上下文表征向量进行融合，以获得每个文本中每个词的高阶表征向量，

2.根据权利要求1所述的多文本摘要生成方法，其特征在于，步骤(2)具体为：

首先，获取每个文本中每个词的TF-IDF值

TF-IDF＝TF×IDF

其中TF表示词的词频，IDF表示词的逆文本频率，且有：

其中K表示步骤(1)得到的所有文本总数；

其中B表示文本序号，B≠A，且B∈[1，K]；

3.根据权利要求2所述的多文本摘要生成方法，其特征在于，本步骤(3)包括以下子步骤：

ReLU(x)＝max(0，x) 。

4.根据权利要求3所述的多文本摘要生成方法，其特征在于，

步骤(3-1)中，每个词的位置向量pe等于：

其中pos表示每个词在其所在文本中的当前位置，2k表示位置向量pe的偶数维位置，2k+1表示位置向量pe的奇数维位置，d_model表示位置向量pe的维度大小，同时也是词嵌入的维度大小，2k，2k+1∈[0，d_model-1]；

每个文本中每个词的词向量x为：

x＝w+pe。

5.根据权利要求4所述的多文本摘要生成方法，其特征在于，步骤(3-3)具体为：

首先，通过n_head个不同的矩阵将步骤(3-2)得到的每个词的词向量线性映射为n_head个向量三元组[Q_j，K_j，V_j]，该向量三元组中的每个向量均是d_head维，且公式如下：

其中n_head取值范围是1到10，优选等于8，j∈[1，n_head]，

是第一神经网络模型的多头自注意力层中的可学习参数矩阵，且维度均为d_head×d_model，

然后，针对第j个向量三元组[Q_j，K_j，V_j]而言，计算其自注意力输出向量head_j：

其中softmax表示归一化函数，且：

其中concat为连接操作，将多个向量堆叠为一个高维向量，W^O是第一神经网络模型的多头自注意力层中的可学习参数矩阵，其维度为(d_model，n_head×d_head)。

6.根据权利要求5所述的多文本摘要生成方法，其特征在于，步骤(4)中，每个文本的特征向量doc_g是通过下式计算，其中g∈[1，K]：

其中中间变量

等于：

其中k_p＝W_kx_p；

中间变量v_p等于：

v_p＝W_vx_p

7.根据权利要求6所述的多文本摘要生成方法，其特征在于，步骤(5)包括以下子步骤：

A＝G+I

然后，根据邻接矩阵A获取度矩阵D：

其中i和k分别为度矩阵D中的行序号和列序号；

(5-2)将步骤(4)得到的所有K个文本的特征向量doc₁，doc₂，...，doc_K组合为输入特征矩阵H；

本步骤中的组合方法为：

(5-3)将步骤(5-1)得到的邻接矩阵A、度矩阵D、以及步骤(5-2)得到的输入特征矩阵H输入训练好的第三神经网络模型，以获得特征矩阵，该特征矩阵中的每一行是每个文本经过第三神经网络模型更新后的特征向量的转置，

特征矩阵是通过以下过程获得：

8.根据权利要求7所述的多文本摘要生成方法，其特征在于，步骤(6)中将每个文本经过第三神经网络模型更新后的特征向量和该文本中每个词的上下文表征向量进行融合的具体方法为：

首先，从步骤(5)得到的特征矩阵output_gcn中分离出K个文本经过第三神经网络模型更新后的特征向量c₁，c₂，...，c_K，

9.根据权利要求8所述的多文本摘要生成方法，其特征在于，步骤(7)具体为，首先，将步骤(6)得到的所有文本中所有词的高阶表征向量和起始符y₀一起输入训练好的第四神经网络模型中，以得到第1个摘要词y₁，然后，将第1个摘要词y₁和步骤(6)得到的所有文本中所有词的高阶表征向量一起输入训练好的第四神经网络模型中，以得到第2个摘要词y₂，然后，将第1个摘要词y₁、第2个摘要词y₂和步骤(6)得到的所有文本中所有词的高阶表征向量一起输入训练好的第四神经网络模型中，以得到第3个摘要词y₃，以此类推，直到最终生成的摘要词是终止符、或者最终生成的摘要词数量达到预设的最大摘要长度为止，得到的所有摘要词就是最终的摘要。

10.根据权利要求8所述的多文本摘要生成方法，其特征在于，生成第t个摘要词的过程包括以下子步骤，其中t∈[1，预设的最大摘要长度]：

(7-1)对第四神经网络模型已生成的摘要词y₁，y₂，...，y_t-1进行正余弦函数编码，以得到每个摘要词的位置向量；

(7-2)将第四神经网络模型已生成的摘要词y₁，y₂，...，y_t-1输入第四神经网络的词嵌入层，以得到每个摘要词的词嵌入向量，将得到的每个摘要词的词嵌入向量与步骤(7-1)得到的每个摘要词的位置向量相加，以得到每个摘要词的词向量；

(7-4)将步骤(7-3)得到的每个摘要词对应的多头自注意力层输出输入第四神经网络模型中的编码器-解码器多头注意力层，以得到每个摘要词对应的编码器-解码器多头注意力层输出，

(7-5)将步骤(7-4)得到的编码器-解码器多头注意力层输出output_enc-dec输入第四神经网络模型中的前馈网络，将前馈网络的输出结果输入第四神经网络模型中的全连接层，从而得到表示词汇表大小的向量h_vocab，并利用softmax函数对向量九_vocab进行处理，以得到词汇表的概率分布p(vocab)，该概率分布p(vocab)中的每个元素对应于词汇表中不同词的生成概率。

h_vocab＝W_f(FFN(output_enc-dec))

p(vocab)＝softmax(九_vocab)

output_word＝argmax(p(vocab))

其中argmax表示取最大值对应的词。