CN115048948B

CN115048948B - 融合主题关联图的越汉低资源跨语言摘要方法

Info

Publication number: CN115048948B
Application number: CN202210671046.0A
Authority: CN
Inventors: 余正涛; 李笑萌; 张勇丙
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2024-04-19
Anticipated expiration: 2042-06-15
Also published as: CN115048948A

Abstract

本发明涉及一种融合主题关联图的越汉低资源跨语言摘要方法，属于自然语言处理技术领域。本发明首先利用源语言文本获取文本主题词，基于越汉概率映射对将主题词进行映射从而构建主题关联图，然后通过图编码器、序列编码器，基于双编码器生成表示，最后在解码端同时关注主题关联图表示和神经网络生成的分布来生成摘要。本发明在越‑汉跨语言摘要数据集上进行了实验，实验证明了本发明模型的有效性和优越性。

Description

融合主题关联图的越汉低资源跨语言摘要方法

技术领域：

本发明涉及融合主题关联图的越汉低资源跨语言摘要方法，属于自然语言处理技术领域。

背景技术：

跨语言摘要任务旨在为给定的源语言文本生成目标语言的摘要。现有跨语言摘要方法大多依赖于大量的跨语言摘要数据。但是，越南语属于小语种，目前对于越南语等的机器翻译性能不尽人意的情况下获取大规模高质量的越汉跨语言摘要数据集非常困难。主题关联图是一种具有全局信息的文本结构，可以从文本全局的角度对文本信息进行凝练。从数据层面可以知道越汉互译的文本在主题结构上是一致的，因此通过获取源语言文本的主题结构信息引导摘要的生成，更有利于获得主题结构与源文本一致的摘要。由于缺乏大规模高质量的越汉跨语言摘要数据集，因此目前的越汉跨语言摘要模型会出现生成摘要主题性较差、对齐困难的问题。

针对低资源场景下语义对齐困难以及生成摘要主题不明确的问题，在跨语言摘要的研究过程中，还没有着重解决这个问题，在单语摘要研究中已经证明，生成信息丰富、主题明确且简洁的摘要，需要结构化的表示。目前主要的研究集中在单语摘要上。

图结构最开始使用在抽取式摘要中，即TextRank和LexRank；Wan等人提出了一个基于文档的图模型，将基于文档的信息、句子与文档之间的关系结合到图排序的过程中，将图排序方法结合到多文档摘要生成的过程中；Wang等人提出了一种基于异构图的摘要方法，其构造的异构图以词和句子为节点，基于GCN对其进行编码生成句子表示进行摘要；Dong等人提出了一种无监督的图排序模型，基于边界位置函数和基于文本结构的层次主题信息，将完全连通的句子图转化为层次图。

基于图的方法也更多的应用在生成式摘要中，Xu等人提出了文档级语法图卷积网络，使用门控图注意力机制将图与传统序列到序列模型进行结合；最近，Tan等人基于生成式摘要面临的问题在编码器框架中提出了新的基于图的注意力机制；Fernandes等人提出一种混合模型，基于GNN网络提出一个扩展序列编码器，在弱结构化数据中推理远距离关系，但是实体间的交互被忽略；Velickovic等人提出图注意力网络，基于图注意力机制计算每一个节点的邻近节点的注意力值来更新节点表示，并行化计算大大提升了训练速度，且独立于图结构，即不依赖于图结构信息，泛化能力强；然后，Fan等人对图注意力网络进行了改进，可以更有效地捕捉全局有效信息。为了解决基于图结构信息生成摘要的连贯及可读性问题，Yun等人提出了图变换网络(Graph Transformer Networks,GTN)，基于此生成新的图结构，以端到端的方式学习图节点的表示；对于学习图表示Transformer也被证明是更适合的。Koncel-Kedziorski等人利用图注意力网络，结合Transformer提出了端到端的图到文本，结合知识图和标题摘要进行文本生成，获得了更优的效果；Huang等人提出基于文本序列编码器和图编码器双编码器进行全局表征和局部表征，对模型进行了改进。

以上研究证明了主题在摘要性能方面提升的重要性，尤其是基于图排序的摘要方法对摘要性能有更优秀的效果。但是目前这些方法主要集中在单语摘要上，针对跨语言摘要还缺乏类似的研究。综上所述，融合主题关联图的越汉低资源跨语言摘要研究是有意义的。

发明内容：

本发明提供了融合主题关联图的越汉低资源跨语言摘要方法，以用于解决越汉跨语言摘要模型中无法很好的学习到句子中的语义信息，导致生成的摘要主题不明确等问题。

本发明的技术方案是：融合主题关联图的越汉低资源跨语言摘要生成方法(Vietnamese-Chinese Low Resource Cross-language Summarization of fused withTopic Association Graphs，TAcls)，所述融合主题关联图的越汉低资源跨语言摘要生成方法的具体步骤如下：

Step1.语料收集：利用基于模板的网络爬虫技术从互联网上爬取基于越南语的文章摘要数据集，并利用Google翻译获得对应的中文的文章摘要数据集。从而获得30万的越汉跨语言摘要数据集，并通过基于回译等自动化的方式进行筛选对齐，最终得到规模为10万的越汉跨语言摘要数据集；

Step2.语料预处理：对筛选后获得的10万越汉跨语言摘要数据集进行分词等预处理，利用fast-align工具及统计的思想获得越汉概率映射对，并基于源语言文本获取文本的主题词；

Step3.图映射构建及编码：在Step2的基础上，首先通过越汉概率映射对将基于越南语的主题词迁移到中文的语义空间中，以此作为主题关联图的节点。将连个主题词之间的相似度作为连接两个主题词之间的边，由此构建主题关联图G，引入图编码器，对主题关联图进行表征。

Step4.主题关联图的融入：在Step2、Step3的基础上，以序列到序列模型Transformer为框架，结合图编码器，对处理好的越汉跨语言摘要数据集进行训练，并得到训练好的融合主题关联图的越汉低资源跨语言摘要模型。利用测试集对训练好的模型进行测试，得到跨语言摘要结果并进行质量评估。

进一步地，所述Step2中，利用fast-align工具及统计的思想获得的越汉概率映射对作为外部映射词典，实现了缺少平行语料下的共享语义空间的构建。

进一步地，所述Step4中，基于序列到序列模型的Transformer框架，通过图编码器、序列编码器，基于双编码器生成表示，最后在解码端同时关注主题关联图表示和神经网络生成的分布来生成摘要。

进一步地，所述Step3中，构建主题关联图时，首先通过源语言文本获取全文的主题词，基于主题词作为节点，首先对节点进行编码，然后通过越汉概率映射词典，通过越汉概率映射机制，将基于源语言的主题词节点映射到目标语言；然后利用基于目标语言的主题词构造主题关联图；开始构造主题关联图时，将各个主题词作为主题关联图的节点，将每两个主题词之间的相似度作为连接两个主题词之间的边，由此构建主题关联图。

进一步地，所述Step3中，图形编码器通过合并主题关联图中的所有节点并捕获它们节点之间的交互来编码文档级别的全局上下文。

进一步地，所述Step4中包括：

将主题关联图信息的节点特征T作为解码端编解码注意力机制的Key、Value，将多头自注意力机制输出的结果H作为Query；

然后，利用融合了主题关联图结构信息的表征A_k来指导源语言文本的解码，以序列编码器的输出作为下一个编解码注意力机制的Key、Value，上一层的输出作为Query；

然后，经残差连接归一化后，解码端输出结果。

本发明的有益效果是：在构建的越汉跨语言摘要数据集上对构建的模型进行实验，验证了本发明的有效性。本发明采用Google开源的Transformer框架作为模型基本框架，构建了一个融合主题关联图的越汉低资源跨语言摘要方法，实现摘要的抽取。本发明构建了越汉跨语言摘要数据集，基于Step2构建了越汉概率映射对、主题词，基于Step3构建了主题关联图，基于Step4构造了基于Transformer的跨语言摘要模型，与传统方法进行对比实验证明，越汉文本在主题结构上的一致性，在低资源情况下，通过获取源语言文本的主题词并映射至目标语言构成主题关联图指导摘要生成的方式，对越汉低资源跨语言摘要任务存在一定的性能提升，通过实验同样证明了越汉文本主体结构的一致性可以更好的指导摘要生成与原文本主题一致的摘要，也证明本文提出的方法对低资源跨语言摘要任务可能是更有效的。

附图说明：

图1是本发明提出的融合主题关联图的越汉低资源跨语言摘要的流程图；

图2是提出的融合主题关联图的越汉低资源跨语言摘要模型的原理图。

具体实施方式：

实施例1：如图1-2所示，融合主题关联图的越汉低资源跨语言摘要方法，具体步骤如下：

Step1.训练语料数据的收集与组织：

本发明通过基于模板的网络爬虫从互联网获取30万基于越南语的文章摘要数据集，利用Google翻译，将其翻译至汉语，通过基于自动化的方式进行筛选对齐获得10万的越汉跨语言摘要数据集，将其分为训练集、验证集和测试集，如表1所示：

表1：数据集统计结果

Step2.数据预处理：

在越汉的跨语言摘要任务上，汉语使用jieba分词工具进行分词，利用VnCoreNLP工具对越南语进行分词。跨语言摘要任务均在词级条件下进行，其中，越南语使用3万大小的词典，汉语使用1万大小的词典。

越汉双语词典的构建：本发明的主题词获取在源语言的语义空间下进行。为了对主题词信息进行融入，需要将其映射至目标语言的语义空间下。因此，本发明引用了越汉映射概率对。

越汉概率映射对的构建主要利用较高质量的越汉语料进行。其中，源语言输入序列为C＝(c₁,c₂,...,c_j)，目标语言输入序列为V＝(v₁,v₂,...,v_r)，j，r表示输入序列的长度，随输入文本的长度变化。

本发明利用fast_align方法，得到C，V对应的编码。本发明利用统计的方法，汉越映射概率对的计算方法如下：

根据汉越平行语料C，V以及双语对应的编码，得到一个映射对。即v_r→c_j表示一个映射对。如式(1)所示，得到每一个v_r映射为c_j的概率P_MP。

Step3.图映射构建及编码

(1)主题关联图构建

为了从源语言文本中获取特征构建主题关联图，首先通过源语言文本获取全文的主题词，基于主题词作为节点，首先对节点进行编码，然后通过越汉概率映射词典，通过越汉概率映射机制，将基于源语言的主题词节点映射到目标语言。然后利用基于目标语言的主题词构造主题关联图。开始构造主题关联图时，本发明将各个主题词作为主题关联图的节点，将每两个主题词之间的相似度作为连接两个主题词之间的边。由此构建主题关联图G。

(2)图编码器

在主题关联图构建中，构造了主题关联图G：G＝(V,E)，其中V表示本发明构造主题关联图中节点v_i的表示，E表示描述的有向边的邻接矩阵。

本发明将每个节点v_i表示为作为嵌入的初始化，然后，将主题词通过越汉概率映射词典将源语言的主题关联图的节点映射至目标语言，即：

其中，v_i为本发明构造的主题关联图中节点的表示，是每一个关键词对应的映射候选词，生成新的目标语言的主题关联图节点的表示/>

图形编码器通过合并主题关联图中的所有节点并捕获它们节点之间的交互来编码文档级别的全局上下文，用每个节点邻居的加权平均来表示每个节点/>

其中，表示N个头的串联，产生与/>相同维数的向量，在本实验中，设置N为4，在实验中使用了两层GAT，/>表示在图G中节点/>的邻居节点，W_*,n为训练参数。

Step4.主题关联图的融入

本发明采用传统的Transformer解码器结构，其输入为中文的摘要，即Y＝(y₁,y₂,...,y_m)，经自注意力机制，得到待解码向量H＝(h₁,h₂,h₃,…,h_m)。

为了将主题关联图信息特征融合至解码端指导摘要的生成，本发明将主题关联图信息的节点特征T作为解码端编解码注意力机制的Key、Value，将多头自注意力机制输出的结果H作为Query。其中编解码注意力机制的定义如下：

A_k＝[a_k,1,a_k,2,a_k,3,…,a_k,h] (7)其中，为可学习的参数矩阵，h为多头注意力中头的数量。

然后，利用融合了主题关联图结构信息的表征A_k来指导源语言文本的解码，基于式(5)以及式(6)，以序列编码器的输出Z＝(z₁,z₂,…,z_n)作为下一个编解码注意力机制的Key、Value，上一层的输出作为Query，即其输出为：

R_k＝(r_k,1,r_k,2,r_k,3,…,r_k,h) (9)

然后，经残差连接归一化后，解码端输出的结果为：

F_k＝LayuiNorm(R_k,A_k) (10)

Output_k＝LayuiNorm(FFN_k,F_k) (12)其中，W₃，W₄为可学习的参数矩阵，Relu(·)为激活函数，LayuiNorm(·)为层归一化函数。

本模型将主题关联图结构信息融合到Transformer解码端指导摘要的生成，因此损失函数如式所示：

针对融合主题关联图的越汉低资源跨语言摘要模型进行实验，验证本发明的有效性：

本发明所有实验均基于Transformer架构，采用Adam优化器，其中，β₁＝0.9，β₂＝0.98，ε＝1e-9。在训练过程中使用的标签平滑率e_ls＝0.1。本发明采用的学习率lr＝0.3,批次大小batch_size＝2048，dropout＝0.1。编码器和解码器层数、模型隐藏大小、前馈隐藏大小和头数分别为6、1024、2048和8。本发明设置编解码器词表大小分别为：越南语为3万，中文1万，未登录词使用<unk>来代替。本发明实验所构概率映射词典的大小根据词频设置为39311。本发明所有实验均在单个Nvidia RTX2070SUPER GPU上进行。

为了证明本发明融合主题关联图方法在越汉低资源跨语言摘要任务上的优势，将本发明模型与基准模型在越汉跨语言摘要数据集上进行了实验对比，表2中给出了本发明模型与基准模型在越汉跨语言摘要测试集上RG-1、RG-2、RG-L的对比结果。

表2融合主题关联图的模型实验结果

分析表2可知，本发明提出的模型在越汉跨语言摘要数据集上基于指标RG-1、RG-2和RG-L取得了不错的效果。本发明模型与基准模型NCLS相比，在指标RG-1、RG-2和RG-L上分别取得了0.36、0.23和0.18个百分点的提升。由于本发明方法为融合了主题结构图的跨语言摘要方法，相较于直接的端到端的基于Transformer的NCLS模型，在原本神经网络的基础上，融入了主题概率映射关联图，对摘要的主题信息进一步的进行了补充，由实验结果，本发明模型较TETran模型在指标RG-1、RG-2和RG-L上分别取得了1.79、1.46和0.92个百分点的提升；较TLTran模型在指标RG-1、RG-2和RG-L上分别取得了1.16、0.77和0.57个百分点的提升。由上说明了本发明所提融合主题关联图的低资源越汉跨语言摘要模型可以有效提高跨语言摘要模型的性能。

为了验证主题关联图节点数对模型性能的影响，给出了主题关联图节点数不同时，本发明模型在越汉跨语言摘要测试集上指标RG-1、RG-2和RG-L的比对结果。本发明分别选取关键词个数为0、3、5、8，设计了实验二：

表3主题关联图节点数对本发明模型的影响

分析表3可知，随着主题关联图节点数的不断增加，本发明模型在越汉跨语言摘要测试集上的指标RG-1、RG-2和RG-L不断增加，但是当节点数增加至5后，模型的性能达到了最好的结果，较不融入主题关联图时，其在指标RG-1、RG-2和RG-L上分别取得了0.36、0.23和0.18个百分点的提升，在主题节点数为3时，较本发明模型在各评价指标上分别取得了0.18、0.15、0.10个百分点的提升。通过分析实验结果，可以知道，主题关联图的融入取得了一定的效果，但是当在主题关联图中主题性不高的词过多时，即增加了一定的噪声，对模型有一定的影响。由上也说明了，本发明所提融入主题关联图的策略对于越汉跨语言摘要模型性能的提升有一定的影响，但是对于主题关联图的节点数需要更进一步的探究。

为了验证概率映射词典规模对模型性能的影响，本发明设计了实验三。其中，本发明在概率映射词典的大小上进行了相关实验。根据词频设置概率映射词典大小为25 087、36 368、39 311、42 399，表4中给出了本发明模型在越汉跨语言摘要测试集上RG-1、RG-2和RG-L的比对结果，其中覆盖率为概率映射词典对于关键词的覆盖程度。

表4概率映射词典规模对本发明模型的影响

分析表4可知，概率映射词典大小为39311时，本发明模型的性能是最好的。相较概率映射词典大小为25087、36368和42339时在指标RG-1、RG-2和RG-L上分别取得了4.03、2.61、3.06，1.10、0.90、0.27和-0.04、0.03、-0.20个百分点的提升。分析表4，概率映射词典的覆盖率对于主题映射后再来构建主题关联图的影响是较大的，在概率映射词典大小为39311较概率映射词典大小为25087时的结果，进一步证明了概率映射词典的大小对于模型的性能影响较大。综上，也进一步说明了概率映射词典这一策略在越汉跨语言摘要任务上的有效性，但是概率映射词典对于关键词的覆盖率在一定程度上影响了模型的性能。

为了进一步验证算法的有效性，本发明列举了不同模型的摘要结果，如表5所示。原文与标准摘要均来自越汉跨语言摘要数据集。本发明列举了所有基准模型的输出结果作为对比，为了便于理解，本发明给出了对应越南语的翻译结果。

表5不同模型生成摘要样例

分析表5可知，由源语言文本的译文可知，原文主要讲述了某机构发明有自毁功能的机器人帮助体内药物的输送。由于模型的现状，模型TETran表达了“某机构”“提供”“机器人”等信息，但是并没有对“体内”“搬运工”的文本主题进行表述；模型TLTran表达了“某机构”“科学家”“帮助”的信息，但是对于文本中表述的“体内”“机器人”“自毁”主题并没有进行展现；NCLS模型是表现较好的模型，在输出的摘要结果中，我们可以看到“某机构”“科学家”“药物”“研究”等信息，但是并没有表达出“体内”“搬运工”等文本想要表达的中心主题，且内容过于冗余，主题也出现了偏差；而本文模型，其主题信息为“帮助”“药物”“输送”等，在本文模型输出的结果中可以看到，对于“帮助药物输送”等中心主题有了相关表述，在不影响原有信息量的基础上，对文本主题结构进行映射融入，使输出的摘要结果在主题上与原文表达更加一致。

针对越汉低资源跨语言摘要，本发明在Transformer框架下，结合图编码器对主题概率映射关联图进行编码，基于双编码器的方法，提出融合主题关联图的越汉低资源跨语言摘要方法。通过实验证明，越汉文本在主题结构上的一致性，在低资源情况下，通过获取源语言文本的主题词并映射至目标语言构成主题关联图指导摘要生成的方式，对越汉低资源跨语言摘要任务存在一定的性能提升，通过实验同样证明了越汉文本主体结构的一致性可以更好的指导摘要生成与原文本主题一致的摘要，也证明本发明提出的方法对低资源跨语言摘要任务可能是更有效的。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融合主题关联图的越汉低资源跨语言摘要方法，其特征在于，所述方法的具体步骤如下：

Step1.语料收集：利用基于模板的网络爬虫技术从互联网上爬取基于越南语的文章摘要数据集，并获得对应的中文的文章摘要数据集；从而获得越汉跨语言摘要数据集，并进行筛选对齐，得到最终的越汉跨语言摘要数据集；

Step2.语料预处理：对筛选后获得的最终的越汉跨语言摘要数据集进行分词预处理，利用fast-align工具及统计的思想获得越汉概率映射对，并基于源语言文本获取文本的主题词；

Step3.图映射构建及编码：首先通过越汉概率映射对将基于越南语的主题词映射到汉语的语义空间中，以此作为主题关联图的节点；将两个主题词之间的相似度作为连接两个主题词之间的边，由此构建主题关联图，引入图编码器，对主题关联图进行表征；

Step4.主题关联图的融入：以序列到序列模型Transformer为框架，结合图编码器，对处理好的越汉跨语言摘要数据集进行训练，并得到训练好的融合主题关联图的越汉低资源跨语言摘要模型，利用测试集对训练好的模型进行测试，得到跨语言摘要结果并进行质量评估；

所述Step4中，基于序列到序列模型的Transformer框架，通过图编码器、序列编码器，基于双编码器生成表示，最后在解码端同时关注主题关联图表示和神经网络生成的分布来生成摘要；

所述Step3中，构建主题关联图时，首先通过源语言文本获取全文的主题词，基于主题词作为节点，首先对节点进行编码，然后通过越汉概率映射词典，通过越汉概率映射机制，将基于源语言的主题词节点映射到目标语言；然后利用基于目标语言的主题词构造主题关联图；开始构造主题关联图时，将各个主题词作为主题关联图的节点，将每两个主题词之间的相似度作为连接两个主题词之间的边，由此构建主题关联图；

所述Step3中，图形编码器通过合并主题关联图中的所有节点并捕获它们节点之间的交互来编码文档级别的全局上下文；

所述Step4中包括：

然后，经残差连接归一化后，解码端输出结果。

2.根据权利要求1所述的融合主题关联图的越汉低资源跨语言摘要方法，其特征在于，所述Step2中，利用fast-align工具及统计的思想获得的越汉概率映射对作为外部映射词典，实现了缺少平行语料下的共享语义空间的构建。