CN113743133A

CN113743133A - 融合词粒度概率映射信息的汉越跨语言摘要方法

Info

Publication number: CN113743133A
Application number: CN202110958255.9A
Authority: CN
Inventors: 张亚飞; 李笑萌; 郭军军; 高盛祥; 余正涛
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-12-03
Anticipated expiration: 2041-08-20
Also published as: CN113743133B

Abstract

本发明涉及融合词粒度概率映射信息的汉越跨语言摘要方法，属于自然语言处理技术领域。本发明包括步骤：语料收集；对收集的语料进行分词预处理；并利用fast‑align工具及统计的思想获得汉越概率映射对；并采用编解码注意力机制，以此获取基于汉语文章摘要的关键词；概率映射机制的构建；词级概率映射信息的融入；本发明对汉越词粒度的信息和其篇章级的文本进行表征；其次，基于注意力机制对词粒度的信息和篇章级文本进行联合表征；最后，通过融合词粒度的对齐信息到目标语言的摘要，提高摘要的准确性。本发明在汉‑越跨语言摘要数据集上进行了实验，实验证明了本发明的有效性和优越性。

Description

融合词粒度概率映射信息的汉越跨语言摘要方法

技术领域

本发明涉及融合词粒度概率映射信息的汉越跨语言摘要方法，属于自然语言处理技术领域。

背景技术

文本自动摘要旨在从给定的长文本中生成简短的摘要。目前主流的摘要任务只针对一种语言，而跨语言摘要旨在为给定的一篇源语言文章生成另一种语言的摘要。目前，虽然汉越跨语言摘要篇章级标注数据稀缺，但是其词级对齐数据是比较丰富的。又因为中文与越南语的语序不同，导致其语义难以对齐，需要大量的标记数据来训练。在低资源语言环境下，由于平行数据稀缺，导致跨语言摘要模型在学习时无法很好的学习到句子中的语义信息，导致摘要结果出现信息表达不完整、信息表达不准确等问题。

针对以上问题，现有的解决思路主要有基于机器翻译的方法，以及词级映射的方法。大多数的跨语言摘要是基于机器翻译开展的，它可以大致分为三类。一是端到端的跨语言摘要方法。Zhu等人提出了基于Transformer框架的多任务摘要方法，该方法的主要贡献是利用循回翻译获得大规模的高质量汉英跨语言摘要数据集，但它仍依赖于大规模的数据才能获得较好的结果。二是利用“教师”-“学生”网络的跨语言摘要方法。Ayana等人提出利用“教师”-“学生”框架，在没有直接的源语言文章和目标语言标题语料的情况下，基于预先训练的神经网络机器翻译模型及单语摘要模型，指导无平行语料学生模型的参数学习，这样的方法需要大量的语料训练机器翻译模型，并增加了训练时间。三是预训练的跨语言摘要方法。Xu等人提出了基于 Transformer的混合语言预训练方法，该方法利用跨语言任务(如翻译)和单语任务模型(如mask语言模型)，利用大量单语数据增强其语言模型的建模能力，是目前研究的一个新方向。但是，目前基于机器翻译的方法大都需要大量标记的平行语料，对于低资源的汉越跨语言摘要任务效果较差。

基于词级映射的跨语言摘要方法。传统的跨语言摘要方法是构建双语词典，将作为输入的源语言文本和目标语言的参考摘要通过双语词典映射至同一语义空间，然后在进行摘要。但是使用双语对齐词典等词级映射的方法，不仅没有解决跨语言的问题，还增加了训练的时间。Cao等人提出在理解不同语言语义的同时总结摘要的方法，该方法基于Transformer框架，利用对抗的方法，解决了两种语言之间的语义鸿沟的问题。但是由于缺乏大量对齐的跨语言数据集，对抗的方法不能取得很好的效果。对于跨语言文本摘要，使用词级映射，不能有效的关注到关键信息，不利于指导摘要的生成。因此，使用词级映射对于低资源的汉越跨语言文本摘要任务是不可取的。

发明内容

本发明提供了融合词粒度概率映射信息的汉越跨语言摘要方法，以用于解决汉越跨语言摘要方法及其模型中无法很好的学习到句子中的语义信息，导致摘要结果出现信息表达不完整、信息表达不准确等问题。

本发明的技术方案是：融合词粒度概率映射信息的汉越跨语言摘要方法(Chinese-Vietnamese Bilingual Text Summarization Based on Mappping of Word-grained Probability，C-Vbts)，所述融合词粒度概率映射信息的汉越跨语言摘要方法的具体步骤如下：

Step1、语料收集：获取汉越文章摘要数据对、汉英文章摘要数据对；

Step2、语料预训练：对收集的语料进行分词预处理；并利用fast-align工具及统计的思想获得汉越概率映射对；并采用编解码注意力机制，以此获取基于汉语文章摘要的关键词；

Step3、概率映射机制的构建：首先获得篇章级文本及目标语言关键词的联合表征，引入Step2中获得的汉越概率映射对，将基于汉越的关键词通过汉越概率映射对迁移到越南语的语义空间中；

Step4、词级概率映射信息的融入：以序列到序列模型Transformer为框架，结合指针网络，对汉越跨语言摘要数据集进行训练，并得到训练好的融合词粒度概率映射信息的汉越跨语言摘要模型，利用测试集对训练好的模型进行测试，得到跨语言摘要结果并进行质量评估。

作为本发明的进一步方案，所述Step1包括：

从互联网中爬取基于汉语的文章摘要数据集，并利用google翻译获得基于越南语的文章摘要数据集、基于英语的文章摘要数据集，进而获得30万个汉越文章摘要数据对及30万个汉英文章摘要数据对，通过人工筛选对齐得到10万个汉越文章摘要数据对及10万个汉英文章摘要数据对。

作为本发明的进一步方案，所述Step2中，对收集的语料进行分词预处理包括：

汉语使用结巴分词工具进行分词，利用VnCoreNLP工具对越南语进行分词，英语使用原有的词级结构。

作为本发明的进一步方案，所述Step2中，并利用fast-align工具及统计的思想获得汉越概率映射对包括：

(1)、利用fast-align工具得到源语言输入序列C＝(c₁,c₂,...,c_j)、目标语言输入序列V＝(v₁,v₂,...,v_r)对应的编码；其中，j，r分别表示源语言、目标语言输入序列的长度，随输入文本的长度变化；

(2)、利用统计的方法汉越概率映射对的计算方法如下：

根据汉越平行语料源语言输入序列C、目标语言输入序列V以及双语对应的编码，得到一个映射对；其中，v_r→c_j表示一个映射对，如式(1)所示，得到每一个 v_r映射为c_j的概率P_MP：

作为本发明的进一步方案，所述Step3包括：

获得篇章级文本及目标语言关键词的联合表征；

给定一组跨语言数据D：D＝(X,Y,G)，其中X为源语言文本输入序列，即 X＝(x₁,x₂,...,x_n)，Y为目标语言参考摘要输入序列，即Y＝(y₁,y₂,...,y_m)，G为关键词输入序列，即G＝(g₁,g₂,...,g_q)，n，m，q跟随源序列长度变化，n＞m≥q；

对输入序列进行词嵌入，并通过公式(2)及公式(3)进行位置编码：

其中，pos表示每个词在输入序列中的位置信息，d_model表示词向量维度，i表示词向量的位置；

编码器由一个编解码注意力模块以及一个前馈神经网络构成；其中编解码注意力模块采用多头注意力机制，每个头对应一个点积注意力机制，由查询(Q)，键(K) 和值(V)组成：

其中d_k是键(K)的维度；

编解码注意力模块的输出通过前馈神经网络得到最终值：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (5)

MultiHead(Q,K,V)＝Concat(head₁,head₂,...,head_h) (6)

其中，W_i ^Q，W_i ^K，W_i ^V是学习参数矩阵，h是头的数量；

编码端输入的源语言文本和关键词通过编码器分别得到输出的隐状态Z： Z＝(z₁,z₂，...，z_n)和S：S＝(s₁，s₂，...，s_q)；

将编码器的输出的隐状态Z和S作为输入，将每一个关键词的表征s₁作为查询，将编码器输出的源语言文本的隐藏序列Z作为键和值，从而得到每一个关键词对于源语言文本的注意力得分，如式(7)所示：

其中，

概率映射机制的构建：

为了将关键词映射到目标语言，使用概率映射机制，利用概率映射机制，计算出每一个关键词对应其汉越映射概率对的映射概率，如式(8)所示：

其中，ω₁是关键词注意力机制输出的每个关键词的表示，作为查询，

是每一个关键词对应的映射候选词，作为键和值，即关键词的解码最终获得输出词的概率分布。

作为本发明的进一步方案，所述Step4包括：

使用O作为解码器在时间步t下的隐藏状态，计算了时间步t下的生成概率P_gen，其中P_gen∈(0,1)；如式(9)所示：

P_gen＝δ(W₂(W₁O+b₁)+b₂) (9)

其中，

是学习矩阵，

b₂∈R是偏置向量，d_model表示此时隐藏状态的维度，δ是sigmoid函数；其中，P_gen被用作一个软开关，用于选择从篇章级的解码端生成一个单词，或者选择从关键词中复制一个单词，那么，生成一个单词的概率如式(10)所示：

其中，P_T(ω_src→ω)表示关键词ω_src映射到词ω的概率大小，P_N(ω)表示解码端生成的词ω的概率大小；

由于结合了指针网络将词粒度映射概率信息融合到了Transformer框架中，因此损失函数如式(11)所示：

Loss＝-[εlog(p_t)+(1-ε)log(1-p_t)] (11)

其中，p_t表示在t时刻预测结果正确的概率，ε为超参数。

所述Step2中，并采用编解码注意力机制，以此获取基于汉语文章摘要的关键词包括：

利用一个编解码注意力机制，计算每一个关键词对于源语言文本摘要的注意力得分，取其注意力得分的前q个作为输入本发明所述方法对应的模型C-Vbts的关键词。

所述Step2中，利用fast-align工具及统计的思想构建的汉越概率映射对作为外部映射词典，实现了缺少平行语料下的共享语义空间的构建。

所述Step3中，利用概率映射机制，构建目标语言语义空间下的关键信息。

所述Step4中，基于序列到序列模型的Transformer框架，引用了两个编码器，构建概率映射机制，并加入了指针生成网络，得到融合词粒度概率映射信息的神经网络。

针对汉越、汉英可比语料数据集对所构建的模型进行实验，验证本发明的有效行。本发明采用谷歌开源的Transformer模型作为模型基本框架，构造了一个融合词粒度概率映射信息的汉越跨语言摘要方法，实现摘要的抽取。基于Step1构造的汉越、汉英可比语料，基于Step2构造的汉越概率映射对、关键词，基于Step3构造的概率映射机制，基于Step4构造的基于Transformer的跨语言摘要模型，与传统方法做对比实验获得结论。

本发明的有益效果是：本发明提高了摘要的准确性，且在汉-越跨语言摘要数据集上进行了实验，实验证明了本发明的有效性和优越性。

附图说明

图1是本发明提出的融合词粒度概率映射信息的汉越跨语言摘要方法的流程图；

图2是提出的融合词粒度概率映射信息的汉越跨语言摘要方法模型的原理图；

图3是统计信息注意力机制的原理图；

图4是概率映射机制的原理图。

具体实施方式

实施例1：如图1-4所示，融合词粒度概率映射信息的汉越跨语言摘要方法，所述融合词粒度概率映射信息的汉越跨语言摘要方法的具体步骤如下：

作为本发明的进一步方案，所述Step1包括：

从互联网中爬取基于汉语的文章摘要数据集，并利用google翻译将其翻译至越南语以及英语，获得基于越南语的文章摘要数据集、基于英语的文章摘要数据集，进而获得30万个汉越文章摘要数据对及30万个汉英文章摘要数据对，通过人工筛选对齐得到10万个汉越文章摘要数据对及10万个汉英文章摘要数据对。分为训练集、验证集和测试集，如表1所示：

表1数据集

在汉越的跨语言摘要任务上，汉语使用结巴分词工具进行分词，利用VnCoreNLP工具对越南语进行分词。在汉英的跨语言摘要任务上，汉语使用结巴分词工具进行分词，英语使用原有的词级结构。跨语言摘要任务均在词级条件下进行，其中，汉语使用10万大小的词典，越南语及英语使用1万大小的词典。

汉越双语词典的构建：本发明的统计信息解码在源语言的语义空间下进行。为了对词粒度信息进行融入，需要将其映射至目标语言的语义空间下。因此，本发明提出了汉越映射概率对。

汉越映射概率对的构建主要利用较高质量的汉越平行语料进行。

(1)、利用fast-align工具得到源语言输入序列C＝(c₁,c₂,...,c_j)、目标语言输入序列V＝(v₁,v₂,...,v_r)对应的编码；其中，j，r分别表示源语言、目标语言输入序列的长度，随输入文本的长度变化；本发明利用fast_align方法，得到C，V对应的编码；

(2)、利用统计的方法汉越概率映射对的计算方法如下：

关键词的选择：

本文选择输入文本中与参考摘要重复的词，且包括了文本中重要的信息，本文将这些词统称为统计信息，其中融入摘要中的词称之为关键词。使用这些词来指导跨语言摘要的生成，会在语义信息上进一步提高摘要的质量，并且关键词的融入，无需使用大规模的语料即可取得较高质量的摘要。

本发明利用一个编解码注意力机制，计算每一个关键词对于源语言文本摘要的注意力得分，取其注意力得分的前q个作为输入C-Vbts的关键词。

作为本发明的进一步方案，所述Step3包括：

获得篇章级文本及目标语言关键词的联合表征；

给定一组跨语言数据D：D＝(X,Y,G)，其中X为源语言文本输入序列，即X＝(x₁,x₂,...,x_n)，Y为目标语言参考摘要输入序列，即Y＝(y₁,y₂,...,y_m)，G为关键词输入序列，即G＝(g₁,g₂,...,g_q)，n，m，q跟随源序列长度变化，n＞m≥q；

其中d_k是键(K)的维度；

编解码注意力模块的输出通过前馈神经网络得到最终值：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (5)

MultiHead(Q,K,V)＝Concat(head₁,head₂,...,head_h) (6)

其中，W_i ^Q，W_i ^K，W_i ^V是学习参数矩阵，h是头的数量；

编码端输入的源语言文本和关键词通过编码器分别得到输出的隐状态Z： Z＝(z₁,z₂,...,z_n)和S：S＝(s₁,s₂,..,s_q)；

将编码器的输出的隐状态Z和S作为输入，将每一个关键词的表征s₁作为查询，将编码器输出的源语言文本的隐藏序列Z作为键和值，如图3所示，从而得到每一个关键词对于源语言文本的注意力得分，如式(7)所示：

其中，

概率映射机制的构建：

为了将关键词映射到目标语言，使用概率映射机制，如图4所示，利用概率映射机制，计算出每一个关键词对应其汉越映射概率对的映射概率，如式(8)所示：

篇章级解码端的输入是编码端的输出以及(t-1)时刻解码端的输出。与编码端相比，增加了一个编解码注意力模块，并在其中加入了mask修饰，因为训练时的输出都是真实值，这样可以确保预测p位置时不会预知到未来的信息。解码端的输出是对应p位置时，输出词的概率分布。

本发明利用Oriol Vinyals等人提出的指针网络，通过指针从源文本复制单词，它允许通过指针复制单词，并从固定的词汇中生成单词。

作为本发明的进一步方案，所述Step4包括：

P_gen＝δ(W₂(W₁O+b₁)+b₂) (9)

其中，

是学习矩阵，

其中，P_T(ω_src→ω）表示关键词ω_src映射到词ω的概率大小，P_N(ω)表示解码端生成的词ω的概率大小；

Loss＝-[εlog(p_t)+(1-ε)log(1-p_t)] (11)

其中，p_t表示在t时刻预测结果正确的概率，ε为超参数。

Step5、针对融合词粒度概率映射信息的汉越跨语言摘要方法进行实验，验证本发明的有效性：

首先对实验所需参数进行设置，本发明所有实验均基于Transformer架构，其中进行了8000个warm-up进行优化，采用Adam优化器，其中，β₁＝0.9，β₂＝0.998， ε＝1e-9。在训练过程中使用的标签平滑率e_ls＝0.1。在验证时使用波束大小为4且长度罚分α＝0.6的波束搜索。本发明采用的学习率lr＝0.3,批次大小 batch_size＝2048，dropout＝0.1，编码器和解码器层数、模型隐藏大小、前馈隐藏大小和头数分别为6、1024、2048和8，统计信息注意力机制、概率映射机制的头数均为8。本发明设置编解码器词表大小分别为：中文100k，英文、越南语均为10k，未登录词使用UNK来代替。本发明所有实验均在单个NvidiaRTX 2070SUPER GPU 上进行。

为了验证本发明提出的汉越跨语言摘要方法对应模型在不同基准模型上的效果对比，本发明选择GLTran、GETran、NCLS 3个模型作为基准模型。设计了实验一，

表2汉越跨语言摘要测试集在不同基准模型上实验结果的F1值(q＝5)

实验结果如表2所示。本发明的模型在汉越跨语言摘要数据集上取得了相较其他模型更优的性能。这也证明了将基于词粒度统计信息注意力机制以及概率映射机制引入解码过程是有效的。C-Vbts模型与基准模型相比，本发明提出的C-Vbts模型较次优模型GLTran在指标RG-1、RG-2和RG-L上分别取得了1.1、0.07、1.51的提升。C-Vbts相比于使用Transformer直接生成摘要的基准模型NCLS，取得了3.85、 0.89、2.83的提升，证明了有引导性信息的融入相比直接利用模型生成摘要的策略更有效。另外从表3还可以看出，C-Vbts模型相较基准模型GLTran模型和GETran模型在指标RG-L的F1值上分别取得了1.51、4.71的性能提升。因此，从实验结果可以看出，本发明提出的融入融入词粒度概率映射信息指导摘要生成的策略是有效的。此外，从C-Vbts模型与基准模型NCLS的实验结果可以看出，有引导性的信息融入是有效的，减少了信息损失。

为了验证关键词的融入对模型性能的影响，本发明分别选取关键词个数为0、1、2、5，设计了实验二：

表3关键词个数对C-Vbts模型的影响

从实验结果可以看出，在汉越跨语言摘要数据集上，本发明提出的融入统计信息的策略包含词粒度信息较多的模型取得了更优的性能。

为了验证词级概率映射、指针网络对模型性能的影响，本发明设计了实验三。其中，C-Vbts模型是本发明实现的带有词级映射以及指针网络的模型，C-Vbts-MP 模型是在C-Vbts模型的基础上减少了词级映射的模型，C-Vbts-PN模型是在C-Vbts 模型的基础上减少了指针网络的模型。

表4词级映射、指针网络对C-Vbts模型的影响

从实验结果可以看出，C-Vbts-MP的策略没有对统计信息进行映射，在q＝5的情况下进行实验，它的性能是最差的，证明了本发明提出的概率映射机制对于模型性能的提升是有效的。C-Vbts-PN的策略与本发明模型C-Vbts相比，减少了指针网络，、可以看到其F1的值较C-Vbts相差较大。分析其原因是没有指针网络的加入，会导致重复词的出现，影响摘要的性能，证明了使用指针网络、的必要性。因此，本发明模型利用词粒度信息的概率映射及联合指针网络的策略是有效的。

为了验证本发明所提出模型的泛化性。本发明设计了实验四，在汉英跨语言摘要测试集上与基准模型进行对比。

表5汉英跨语言摘要测试集在不同基准模型上实验结果的F1值

从实验结果中可以看出，本发明提出的融入词粒度概率映射信息指导摘要生成的策略在中-英跨语言摘要数据集上取得了相较其他模型更优的性能。但是观察表2、表5，可以看到同样数量级的数据在同样的基准模型上，在不同的数据集上取得了不同的效果。在汉英跨语言摘要数据集上较汉越跨语言摘要数据集上取得的F1的分数是较低的。本发明认为，原因在于实验设置时，越南语和英文构造的词典均为1万，根据越南语和英文文本构造特点，越南语词典对于测试集文本的覆盖率高于英文词典对于测试集文本的覆盖率，即汉越跨语言摘要的实验结果没有大量未登录词UNK 的出现，提高了摘要的准确性。但是，依然可以从实验结果看出，本发明提出的引入具有引导性的词粒度概率映射信息的策略对于中-英跨语言摘要任务是有效的，也证明了本发明对应方法所提模型的泛化性。

通过实验可以发现，本发明基于Transformer框架提出的融合词粒度概率映射信息的策略是有效的，且有一定的优越性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。