CN114860920A

CN114860920A - 一种基于异构图的单语言主题摘要生成方法

Info

Publication number: CN114860920A
Application number: CN202210416073.3A
Authority: CN
Inventors: 云静; 郑博飞; 焦磊; 袁静姝; 刘利民
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-08-05

Abstract

一种基于异构图的单语言主题摘要生成方法，从网络爬取源语言的摘要数据集，并进行分词、分句和打标签操作；使用对抗训练学习一个从源语言到目标语言的空间线性映射，得到源语言与目标语言在同一个共享向量空间的词向量，对分词、分句和打标签操作得到的数据进行预处理，得到包含单词节点、句子节点和边特征的向量，其中源语言即为需要生成摘要的数据集的语种，目标语言为一个大型语种；使用图注意力网络，将包含单词节点、句子节点和边特征的向量进行信息聚合，不断更新单词节点与句子节点，得到信息聚合之后的句子节点；将信息聚合之后的句子节点进行节点分类，并以交叉熵损失作为训练目标，根据句子的分数排序，筛选适合作为摘要的句子节点。

Description

一种基于异构图的单语言主题摘要生成方法

技术领域

本发明属于人工智能技术领域，特别涉及一种基于异构图的单语言主题摘要生成方法。

背景技术

互联网快速发展，各种包含新闻的文本数据涌现，导致人们很难快速获取本文中的主题信息；另外，同一新闻在不同记者报道下，会有不同角度的观点，从而有助于帮助用户了解某一件事件的全貌，怎样把所有的报道归纳成的主要的观点；在闲暇之余想看到长篇新闻的时候想快速了解新闻的主要内容。怎样快速地从文本信息中去获取核心的内容，在当今格局下显得尤为必要与迫切。

现有用GCN或者GAT模型，用异构图的方法做到单语言摘要。但是缺点是未考虑单词之间的多种关系，并且现有技术多针对于英语，对于其他语言，缺少其对应的词嵌入。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于异构图的单语言主题摘要生成方法，利用multi-GCN，可以考虑单词之间的关系，如句法关系与语义关系；利用GAN网络，可以生成其他语言的词嵌入，从而可以解决多种语言的摘要问题；并且通过图注意网络聚合异构图中的节点信息，提高生成摘要的准确性。

为了实现上述目的，本发明采用的技术方案是：

一种基于异构图的单语言主题摘要生成方法，包括如下步骤：

步骤1，从网络爬取源语言的摘要数据集，并进行分词、分句和打标签操作，所述源语言即为需要生成摘要的数据集的语种；

步骤2，使用对抗训练学习一个从源语言到目标语言的空间线性映射，得到源语言与目标语言在同一个共享向量空间的词向量，对分词、分句和打标签操作得到的数据进行预处理，得到包含单词节点、句子节点和边特征的向量，其中所述目标语言为一个大型语种；

步骤3，使用图注意力网络，将包含单词节点、句子节点和边特征的向量进行信息聚合，不断更新单词节点与句子节点，得到信息聚合之后的句子节点；

步骤4，将信息聚合之后的句子节点进行节点分类，并以交叉熵损失作为训练目标，根据句子的分数排序，筛选适合作为摘要的句子节点。

与现有技术相比，本发明针对新闻的文本数据涌现时很难快速获取新闻主旨的现象，已经想要快速了解一个事情的全貌，采用异构图和图注意机制，让句子聚合数据集中单词的信息，并更新单词节点，不断迭代，便会得到重要性较高的句子，即为文章的主题摘要。采用本发明，极大程度上解决长文本摘要不准确的问题，提高提取式摘要的准确性，为用户快速获取新闻信息作出贡献。

附图说明

图1是本发明整体流程示意图。

图2是本发明实施例中multi-GCN模型图

图3是本发明实施例中句子节点信息更新示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明一种基于异构图的单语言主题摘要生成方法，如图1所示，包括如下步骤：

步骤1，从网络爬取源语言的摘要数据集。

网络爬取的数据集有很多无效字符或者错误，因此需要先对数据进行清洗操作，保证数据集正确、完整，

本实施例中，以中文为源语言。对摘要数据集中的数据进行分词(中文需要分词，以满足后续词嵌入需求，其他语种不需此操作)、分句和打标签操作，源语言即为需要生成摘要的数据集的语种。

对于中文，可参照jieba词库进行分词操作，清洗其内部存留的异常文字和分隔符，并对分词后的数据集进行分句、打标签操作。标签可为摘要在正文中为第i-1句话。

步骤2，对分词、分句和打标签操作得到的数据进行预处理，得到包含单词节点、句子节点和边特征的向量。

本步骤中，对分词、分句和打标签操作得到的数据，利用源语言的词向量进行词嵌入操作，并将词嵌入整合获得句子嵌入，将词嵌入作为单词节点，句子嵌入作为句子节点，词嵌入与句子嵌入之间的关系作为边特征，构造异构图。

为了保证本发明的方法对所有语言都适用，需要生成源语言的词向量作词嵌入，并根据异构图的特性，将其图结构分为单词节点、句子节点、边特征，对数据集进行四步预处理，得到包含单词节点、句子节点和边特征的向量。具体如下：

步骤2.1，为了生成的源语言的词向量作为摘要模型词嵌入需要的材料，本发明采用GAN网络，利用一一对应的两种语言的数据集(其中一种为源语言，另一种为目标语言，目标语言一般应为一个大型语种，例如英语、法语等) 作为用来对抗的数据集，通过对抗训练的方法，使用对抗训练学习一个从源语言到目标语言的空间线性映射，得到源语言与目标语言在同一个共享向量空间的词向量。本步骤是通过GAN网络训练，生成源语言的词向量。

其中空间线性映射的映射函数W如下所示

公式中，X表示源语言的词嵌入，Y表示与X对应的目标语言的词嵌入，生成器生成X到Y的映射W，

为一个d×d维空间的实数矩阵，|| ||_F为F范数符号，W^*表示WX-Y的F范数最小时映射函数的值；判别器辨别WX和对应 Y之间的不同，通过判别器和生成器的不断对抗，直到WX与Y相似程度使得判别器判别不出。

判别器的参数为θ_D，判别器的损失函数如下所示：

n为源语言的单词数量，m为目标语言的单词数量，x_i表示源语言中第i个单词的词嵌入，y_i表示目标语言中第i个单词的词嵌入；

表示判别器认为Wx_i是源语言嵌入的概率，

表示判别器认为y_i是目标语言嵌入的概率；

训练W使得判别器无法辨别出这原始嵌入WX与Y，则其损失函数为：

表示判别器认为Wx_i是目标语言嵌入的概率，

表示判别器认为y_i是源语言嵌入的概率；

给定输入的样本，判别器和映射函数W依次用随机梯度下降法进行更新，使得L_D(θ_D|W)与L_W(W|θ_D)之和最小；

模型的训练方法是对抗网络的流程，给定输入的样本，判别器和映射矩阵 W依次用随机梯度下降法进行更新，使得L_D与L_W之和最小。

为了使语种之间产生可靠的匹配对，本发明实施例中改善了准则，采用 CSLS法，最终会得到源语言与目标语言在同一个共享向量空间的词向量，任意一个源语言单词的邻居节点均为目标语言的对应单词，生成的源语言的词向量作为摘要模型词嵌入需要的材料。

步骤2.2，使用步骤2.1生成的词向量对数据集中词部分进行词嵌入操作。

步骤2.3，使用步骤2.2生成的词嵌入，采用CNN+BiLSTM对数据集中的每个句子的词作初始化，用Multi-GCN捕捉单词间的多个关系，得到该句子的词嵌入，将词嵌入整合起来获得句子嵌入。

本步骤中，基于源语言的词向量，先采用卷积神经网络(CNN)捕捉每个句子局部的n-garm特征，即单词的联合概率。然后采用双向长短期记忆网络 (BiLSTM)捕捉句子级特征，将局部的n-garm特征与句子级特征进行连接得到上下文单词嵌入，即初始化后的结果，对于该初始化后的结果，用Multi- GCN捕捉单词间的多个关系。

具体地，参考图2，其中，对于句法关系，两个单词之间存在依赖关系时，A_r[w_i,w_j]＝1，不存在依赖关系时，A_r[w_i,w_j]＝0；对于语义关系，使用单词嵌入之间的点积绝对值来构造，

式中，A_r[w_i,w_j]表示第i个单词w_i与第j个单词w_j之间的句法关系或者语义关系；

表示第i个单词的词向量的转置，

第j个单词的词向量，

表示

和

点积的绝对值，以判断两个单词语义是否相似。

接下来，对A_r[w_i,w_j]进行融合，融合第l层表示计算某个单词与第l个单词之间的关系(比如我、喜欢、吃、苹果、并且、喜欢、打、羽毛球。如果捕捉” 吃”这个单词与其他单词的关系，第3层就是计算吃与苹果的关系)，更新函数定义为：

式中，

和

表示权重和偏差，

为初始化后的初始嵌入，即上下文单词嵌入，

表示某个单词第l-1层最终得到的词嵌入，

表示第l个 GCN层，

表示某个单词融合与第l个单词之间的关系后的词嵌入，

表示第l个GCN层最终得到的词嵌入，通过若干个GCN层后，得到最后更新的结果H，最终的词嵌入F_w＝H+X_w，将句子的词嵌入整合即得到句子嵌入F_s。

本步骤中，得到所有句子最终的词嵌入与其对应句子嵌入，词嵌入作为异构图结构的单词节点，句子嵌入作为异构图结构的句子节点。

步骤2.4，采用TF-IDF表示词与句子之间的关系，作为图结构的边特征。

本步骤，在边特征中注入TF-IDF值，词频TF表示第i个单词w_i在第j个句子s_j中出现的次数，逆文档频率IDF表示w_i出现的逆函数。

步骤3，使用图注意力网络，将包含单词节点、句子节点和边特征的向量进行信息聚合，不断更新单词节点与句子节点，得到信息聚合之后的句子节点。步骤如下：

步骤3.1，结合多头注意力机制、残差连接对GAT(图注意力网络)修改。

具体地，本步骤中，图注意力网络以图卷积神经网络作为基本框架，框架引入一个注意力机制，并且添加了一个残差连接，本实施例采用多头注意力。其中引入注意力机制用于搜集并聚合距离相近的邻居节点的特征表示，采用多头注意力是起到集成作用，防止过拟合，添加残差连接是为了防止聚合节点信息时迭代出现梯度消失问题。具体修改过程如下：

引入了注意力机制，单词节点与句子节点分别为F_w与F_s，节点特征表示为F_w∪F_s，边特征表示为E，节点特征与边特征构造的图表示为G，使用图注意力网络，更新语义节点的表示。

指定

作为输出节点的隐藏状态，其图注意层设计如下：

z_ij＝LeakyReLU(W_α[W_qh_i；W_kh_j])

式中W_a,W_q,W_k,W_v为可训练权重；a_ij是h_i与h_j之间的注意力权重，在多头注意力中表示为：

为了防止在聚合信息时多次迭代后梯度消失，添加了一个残差连接，因此最终输出表示为：

h'_i＝u_i+h_i

之后，进一步修改图注意力网络，注入边的标量权重值e_ij映射到多维嵌入空间

于是修改注意力层公式为：

z_i,j＝LeakyReLU(W_α[W_qh_i；W_kh_j；e_ij])

最后，还在图注意层后加入一个位置级前馈层。

该步骤描述了模型从GCN引入注意力机制从而变为GAT的公式过程；信息聚合的结果是句子节点的特征向量的一个新表示，会与重点词汇(关键词) 进行一个分数计算(即相似性度计算)句子节点的特征向量的一个新表示，会与重点词汇(关键词)进行一个分数计算(即相似性度计算)，分数越高那么代表句子得分越高。

步骤3.2，使用步骤3.1修改后的网络更新句子节点。

使用图注意力网络更新单词节点和句子节点如下：

其中

是每个句子聚合包含的单词级信息，

表示用单词节点更新句子节点，

和

表示进行了一次注意机制的计算，其中

为注意力机制的query，

表示注意力机制的key和value。

然后，使用更新的句子节点获取单词节点的新表示，并进一步迭代地更新句子节点。每次迭代都包含一个句子到单词和一个单词到句子的更新过程。第 t次迭代过程可以表示为：

表示第t次迭代每个句子聚合包含的单词级信息，

表示第t次迭代用单词节点更新句子节点，

表示第t次迭代时注意力机制的key和value，

用一个前馈层FNN更新注意力机制的key和value，FNN为前馈网络， GAT为图注意力网络；

参考图3，更新句子节点(句子节点每次迭代更新都是其特征向量在GAT 通过query、key和value计算得到新的特征向量，从而达到更新句子节点，也就是节点包含的信息达到了更)的处理步骤如下：

(1)文档中每个句子s_i聚合所包含的单词级信息；

(2)用单词w_i所在句子s_i的新表示更新句子节点。由于句子节点的特性向量是由单词节点的特征向量相加得到的，单词节点的特征向量更新，则句子节点的特征向量也会同步更新。因此，用句子中包含单词的新表示(即特征向量更新后的新特征向量)即可更新句子节点。

经过本步骤，会得到句子节点的特征向量的一个新表示，会在步骤4进行一个分数计算(即相似性度计算)，分数高，表示该句子为摘要候选。

步骤4，将信息聚合之后的句子节点进行节点分类，并以交叉熵损失作为训练目标，根据句子的分数排序，筛选适合作为摘要的句子节点。具体步骤如下：

(1)对更新之后的句子节点进行评分排名；具体方法如下：

1)、句子节点特征向量被线性变换到一个出现在摘要中的概率(具体是，如果句子包含关键词越多，那么这个句子的分数越高，那么该句子作为摘要的概率就越大)，单词在句子中出现的概率与通过TD-IDF得到的边特征的向量相关；

2)、按照概率进行排序，选择前k个作为摘要。

3)、丢弃与排名较高的句子有重复的三元组的句子。

(2)去除分数排名靠后的句子，保留排名靠前的句子为重点句子；

(3)去除重点句子中排名靠后且语义与靠前的句子句意重复或关键词重复过多的句子；

(4)提取出最终摘要。

在本发明的一个具体实施例中，硬件为一台计算机，配置包含硬件环境： CPU：Intel Core处理器(3.1GHz)/4.5GHz/8GT；GPU：6块16G_TESLA- P100_4096b_P_CAC；内存：16根32G ECC Registered DDR4 2666；软件环境：操作系统：Ubantu 16.04；深度学习框架：Pytorch；语言及开发环境：Python 3.6、Anaconda 3。

本实施例中文以2017年nlpcc测评数据集的数据为分析对象，英文以 CNN/DM数据集的数据为分析对象，中文按照上述步骤进行分词分句等操作，英文只作分句操作，并将处理过的数据集提取单词节点特征、句子节点特征与边特征，对句子特征进行聚合，聚合单词节点信息，更新句子节点，然后对最后的句子节点进行排名，筛选出适合的摘要，得出最后对应的中英文摘要。

表1为中文与英文两种语言下经过分词分句等操作处理后的数据集(部分示意)，如下：

表1

对表一所示的数据集进行特征提取、句子节点聚合及更新，以及筛选适合作为摘要的句子得到提取结果如下表2所示：

表2

Claims

1.一种基于异构图的单语言主题摘要生成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于异构图的单语言主题摘要生成方法，其特征在于，所述步骤2，对分词、分句和打标签操作得到的数据，利用所述源语言的词向量进行词嵌入操作，并将词嵌入整合获得句子嵌入，将词嵌入作为单词节点，句子嵌入作为句子节点，词嵌入与句子嵌入之间的关系作为边特征，构造异构图。

3.根据权利要求2所述基于异构图的单语言主题摘要生成方法，其特征在于，所述对抗训练采用GAN网络，其中用来对抗的数据集是一一对应的，所述空间线性映射的映射函数如下所示：

其中，X表示源语言的词嵌入，Y表示与X对应的目标语言的词嵌入，生成器生成X到Y的映射W，

为一个d×d维空间的实数矩阵，|| ||_F为F范数符号，W^*表示WX-Y的F范数最小时映射函数的值；判别器辨别WX和对应Y之间的不同，通过判别器和生成器的不断对抗，直到WX与Y相似程度使得判别器判别不出；

所述判别器的参数为θ_D，判别器的损失函数如下所示：

表示判别器认为Wx_i是源语言嵌入的概率，

表示判别器认为y_i是目标语言嵌入的概率；

训练W使得判别器无法辨别出WX与Y，则其损失函数为：

表示判别器认为Wx_i是目标语言嵌入的概率，

表示判别器认为y_i是源语言嵌入的概率；

最终得到源语言与目标语言在同一个共享向量空间的词向量，任意一个源语言单词的邻居节点均为目标语言的对应单词。

4.根据权利要求3所述基于异构图的单语言主题摘要生成方法，其特征在于，基于所述源语言的词向量，先采用卷积神经网络捕捉每个句子局部的n-garm特征，然后采用双向长短期记忆网络捕捉句子级特征，将所述局部的n-garm特征与所述句子级特征进行连接得到上下文单词嵌入，再用multi-GCN捕捉单词间的多个关系，对于句法关系，两个单词之间存在依赖关系时，A_r[w_i,w_j]＝1，不存在依赖关系时，A_r[w_i,w_j]＝0；对于语义关系，使用单词嵌入之间的点积绝对值来构造，