CN114996438B

CN114996438B - 一种多策略强化学习的汉越跨语言摘要生成方法

Info

Publication number: CN114996438B
Application number: CN202210549003.5A
Authority: CN
Inventors: 赖华; 高玉梦; 黄于欣; 李笑萌
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2024-05-28
Anticipated expiration: 2042-05-20
Also published as: CN114996438A

Abstract

本发明涉及一种多策略强化学习的汉越跨语言摘要生成方法，属于自然语言处理技术领域。本发明首先构造伪汉‑越跨语言摘要数据集、伪越‑汉跨语言摘要数据集；其次，利用评价指标ROUGE、BERTScore与Mgfscore对回译数据进行筛选得到高质量的汉越跨语言数据集；基于此，在Transform模型基础上，提出一种多策略强化学习的汉越跨语言摘要模型。本发明一方面，以真实的源语言摘要为基准，弱化传统的交叉熵损失函数使用伪目标语言摘要为监督信号噪声数据带来的干扰问题；另一方面，在多个层面设计强化学习期望奖励与传统交叉熵损失函数相结合优化模型，有效指导模型生成质量更高的摘要。

Description

一种多策略强化学习的汉越跨语言摘要生成方法

技术领域

本发明涉及一种多策略强化学习的汉越跨语言摘要生成方法，属于自然语言处理技术领域。

背景技术

汉越跨语言摘要是指从一篇给定的源语言(中文或越南)文本进行信息压缩的同时翻译得到一则可读性高、概括能力强的目标语言(越南语或中文)摘要的技术。在本发明中，面向的是汉-越与越-汉跨语言摘要，统称为汉越跨语言摘要。通过该技术，可以简洁、高效的了解越南或中国的舆情动态信息。一方面，中越是两个相邻的国家，无论是否精通另一国家的语言，汉越跨语言摘要可以帮助两国人民从海量的信息中高效获取另一个国家的信息动态。可实现读者通过对摘要的浏览后，以此确定是否需要对全文进行进一步的阅读，在节约了时间的同时，也解决了读者在外文网页浏览中语言障碍带来的不便。另一方面，汉越跨语言摘要可以提升用户的检索效率。在信息化的今天，网络信息十分繁杂。对于外文文章的阅读，往往需要打开正文页面才能了解文章主要内容。但如果实现了汉越跨语言摘要，完成了对外文正文内容概括后，可以用自己熟悉的语言在外文网站搜索感兴趣的内容。因此，生成高质量的目标语言摘要对高效掌握中越两国的舆情动态提供了技术支撑。

在汉越跨语言摘要上缺乏大规模、高质量的跨语言摘要数据来训练跨语言摘要模型训练。最常用的跨语摘要数据集构造方法是利用单语摘要数据翻译得到伪平行的跨语言摘要数据，但机器翻译在越南语上性能不够优秀，从而导致得到的数据集中存在大量噪声。采用这样的低质量、高噪声的伪目标语言摘要来指导模型训练得到的生成摘要质量较差。那么如何有效判断数据的好坏，剔除噪声数据以提高数据集质量是需要解决的问题。当前主流的神经网络模型训练即要求数据大规模又要求数据高质量。因此，在保证数据的数量的同时也得保证数据质量，充分利用数据，来弱化噪声数据对跨语摘要模型带来负面的影响，从而生成更高质量的摘要是一个难点问题。跨语摘要数据集是基于单语摘要数据构建的，源语言摘要与正文中不存在机器翻译带来的噪声。因此，可在优化目标中引入源语言摘要改善数据集中的噪声问题对训练模型带来的干扰问题。

发明内容

本发明提供了一种多策略强化学习的汉越跨语言摘要生成方法，以用于解决传统的交叉熵损失函数使用伪目标语言摘要作为监督信号来优化模型时，伪目标语言摘要中存在的噪声带来的干扰，以致生成摘要效果不理想的问题。

本发明的技术方案是：一种多策略强化学习的汉越跨语言摘要生成方法，所述一种多策略强化学习的汉越跨语言摘要生成方法的具体步骤如下：

Step1、从互联网采集数据，对数据进行预处理，并回译构造伪汉越跨语言摘要数据集。所述伪汉越跨语言摘要数据集格式为：源语言正文-源语言摘要/伪目标语言摘要/伪源语言摘要；

Step2、在上述构造的伪汉越跨语言摘要数据集基础上，并使用ROUGE、BERTScore与Mgfscore评价指标对源语言摘要与伪源语言摘要进行打分，以评价源语言正文与伪目标语言摘要的平行质量；基于此过滤得分低的句子，得到汉越跨语言摘要数据集，所述汉越跨语言摘要数据集格式为：源语言正文-源语言摘要/伪目标语言摘要；

Step3、随机抽取100对伪汉越跨语言摘要数据与汉越跨语言摘要数据进行噪声类型分析与统计；

Step4、在上述构造的伪汉越跨语言摘要数据集基础上，使用编码器对源语言正文序列X^A＝{x₁,x₂,x₃,…,x_n}进行编码，得到源语言正文表征序列向量H＝{h₁,h₂,h₃,…,h_n}；

Step5、基于源语言正文隐状态序列H＝{h₁,h₂,h₃,…,h_n}输入解码器，生成序列长度为L的摘要解码向量R＝{r₁,r₂,…,r_L},r_L为生成目标语言的摘要序列中第L个词的表征向量，基于此计算生成词汇表分布概率

Step6、基于标准目标语言摘要与生成目标语言摘要Y^B计算交叉熵损失L_cls，通过梯度下降算法对模型进行训练，得到初始优化模型。

Step7、在初始优化模型的基础上继续训练，基于Step2得到的汉越跨语言摘要数据集，进行Step3、Step4；

Step8、基于得到的生成词汇表分布概率分别采用蒙特卡洛法采样解码与Greedy Search解码得到生成目标语言摘要Y^S与Y^G；

Step9、计算源语言摘要Y^A与生成目标语言摘要Y^B间的词相似度与缺失度作为强化学习奖励R(Y^B,Y^A)，通过自我批判策略梯度算法计算强化学习损失L_rl；

Step10、将L_cls与L_rl相结合得到整个模型的损失L_mix，通过梯度下降算法对模型进行训练，得到最终的汉越跨语言摘要模型。最后，输入测试集正文，汉越跨语言摘要模型生成相应的目标语言摘要，进行模型测试。

所述方法具体步骤如下：

Step1、从互联网采集数据，对数据进行预处理，并回译构造伪汉越跨语言摘要数据集；所述伪汉越跨语言摘要数据集格式为：源语言正文—源语言摘要/伪目标语言摘要/伪源语言摘要；

Step2、在上述构造的伪汉越跨语言摘要数据集基础上，并使用ROUGE、BERTScore与Mgfscore评价指标对源语言摘要与伪源语言摘要进行打分，以评价源语言正文与伪目标语言摘要的平行质量；基于此过滤得分低的句子，得到汉越跨语言摘要数据集，所述汉越跨语言摘要数据集格式为：源语言正文—源语言摘要/伪目标语言摘要；

Step3、随机抽取若干对伪汉越跨语言摘要数据与汉越跨语言摘要数据进行噪声类型分析与统计；

Step5、基于源语言正文表征序列向量H＝{h₁,h₂,h₃,…,h_n}输入解码器，生成序列长度为L的摘要解码向量R＝{r₁,r₂,…,r_L},r_L为生成目标语言的摘要序列中第L个词的表征向量，基于此计算生成词汇表分布概率

Step6、基于标准目标语言摘要与生成目标语言摘要Y^B计算交叉熵损失L_cls，通过梯度下降算法对模型进行训练，得到初始优化模型；

Step8、基于得到的生成词汇表分布概率分别采用蒙特卡洛法采样解码与Greedy Search解码得到生成目标语言摘要Y^S与Y^G，统称为Y^B；

Step10、将L_cls与L_rl相结合得到整个模型的损失L_mix，通过梯度下降算法对模型进行训练，得到最终的汉越跨语言摘要模型，最后，输入测试集正文，汉越跨语言摘要模型生成相应的目标语言摘要，进行模型测试。

作为本发明的优选方案，所述Step1的具体步骤为：

Step1.1、构造伪汉-越跨语言摘要数据集：针对公开的中文单语摘要数据集LCSTS，利用谷歌翻译对中文摘要进行回译，得到格式为中文正文-中文摘要/伪越南语摘要/伪中文摘要；其中，在该数据集中中文为源语言，越南语为目标语言；

Step1.2、构造伪越-汉跨语言摘要数据集：从互联网采集越南语单语摘要数据，并进行清洗，得到格式为越南语正文-越南语摘要的单语摘要数据集；利用谷歌翻译对越南语摘要进行回译，得到格式为越南语正文-越南语摘要/伪中文摘要/伪越南语摘要；其中，在该数据集中越南语为源语言，中文为目标语言。

作为本发明的优选方案，所述Step2的具体步骤为：

Step2.1、根据Step1.1构造的伪汉-越跨语言摘要数据集，使用ROUGE与BERTScore对其中的中文摘要与伪中文摘要进行打分，并选取得分最高的前若干对，得到汉-越跨语言摘要数据集，格式为：中文正文—中文摘要/越南语摘要；

Step2.2、根据Step1.2构造的伪越-汉跨语言摘要数据集，使用ROUGE与Mgfscore对其中的越南语摘要与伪越南语摘要进行打分，并选取得分最高的前若干对，得到越-汉跨语言摘要数据集，格式为：越南语正文—越南语摘要/中文摘要。

作为本发明的优选方案，所述Step3的具体步骤为：

Step3.1、随机抽取若干对伪汉-越跨语言摘要数据与汉-越跨语言摘要数据，中文摘要与伪越南语摘要/越南语摘要，分别对每个伪越南语摘要/越南语摘要中存在的噪声类型进行人工标记；

Step3.2、随机抽取若干对伪越-汉跨语言摘要数据与越-汉跨语言摘要数据，对比越南语摘要与伪中文摘要/中文摘要，分别对每个伪中文摘要/中文摘要中存在的噪声类型进行人工标记。

作为本发明的优选方案，所述Step4的具体步骤为：

Step4.1、使用伪汉越跨语言摘要数据，将源语言正文序列X^A＝{x₁,x₂,…,x_n}映射至高维向量中并且进行同维度的位置嵌入，然后将两个该词的位置向量与高维表征向量相加得到词嵌入向量e_n，e_n为输入文本的第n个词嵌入向量；

e_n＝(pos(x_n)+emb(x_n))

其中pos为位置嵌入函数，emb为高维向量映射函数；

Step4.2、将得到的源语言正文词嵌入向量序列{e₁,e₂,…,e_n}输入Transformer编码器进行编码，得到源语言正文表征向量序列H＝{h₁,h₂,…,h_n}。

作为本发明的优选方案，所述Step4.2的具体步骤为：

Step4.2.1采用self-attention为计算每个嵌入向量e_n的第i个头的注意力权重

其中W_k,W_Q为训练参数；

Step4.2.2采用multi-head attention将多个self-attention得到的信息进行聚合得到高维表征向量h′_n；

其中W^O为训练参数，h为头数，Concat表示h个头连接；

Step4.2.3、最后，通过下式计算得到源语言正文表征向量h_n；

h_n＝LayerNorm(FFN(LayerNorm(h′_n))+LayerNorm(h′_n))

其中LayerNorm是层归一化函数，FFN是前馈神经网络。

作为本发明的优选方案，所述Step5的具体步骤为：

Step5.1将目标语言摘要送入解码器的Masked multi-head self-attention层进行表征，得到t-1时刻的隐状态s_t-1；

Step5.2编码器输出源语言正文表征向量序列H＝{h₁,h₂,…,h_n}与上一时刻t-1的隐状态s_t-1计算得到的注意力权重

Step5.3、基于注意力权重，计算t时刻的解码向量c_t；

Step5.4、利用隐状态s_t-1和上下文表征向量c_t计算t时刻的解码特征向量r_t:

r_t＝tanh(W_t[s_t；c_t]+b_t)

其中W_t为训练参数,b_t为偏置向量。

作为本发明的优选方案，所述Step6的具体步骤为：

Step6.1、根据Step5计算得到的解码向量序列R＝{r₁,r₂,…,r_L}，通过下式计算对应的词汇表分布概率

其中W_p为训练参数,b_p为偏置向量；

Step6.2、在上述过程中使用生成目标语言摘要Y^B与标准目标语言摘要间交叉熵损失L_clx优化模型；

其中L为生成目标语言摘要的序列长度。

作为本发明的优选方案，所述Step9的具体步骤为：

Step9.1、使用fast-align工具进行中-越平行语料对齐并得到中-越词汇概率表即源语言摘要序列所对应词的相关性值；基于此，并分别计算每个生成摘要词汇/>与源语言摘要序列/>的相关性/>

其中sum表示取和,其中j为源语言摘要中的每一个词汇，为目标语言生成摘要Y^S/Y^G中第t个词/>或/>

Step9.2、使用TF-IDF计算源语言摘要中每个/>重要程度，得到源语言词汇重要概率表Y_idf ^A；如下式分别计算每个生成摘要词汇/>与源语言摘要的缺失度/>

其中j为源语言摘要中的每一个词汇；

Step9.3、分别计算目标语言生成摘要序列Y^S/Y^G与源语言摘要词汇的相关度以及生成摘要的缺失度来计算奖励期望R(Y^S,Y^A)与R(Y^G,Y^A)；

其中M为源语言摘要的长度，表示/>的次数,Y^B为Y^S或Y^G；

Step9.4、使用自我批判策略梯度训练算法计算强化学习损失L_rl:

作为本发明的优选方案，所述Step10的具体步骤为：

Step10.1、L_rl结合交叉熵损失L_cls计算最终模型总的损失，以此作为模型优化目标:

L_mix＝γL_cls+(1-γ)L_rl

其中γ为交叉熵损失函数与强化学习训练目标函数间的比例因子，本发明中γ＝0.6；

Step10.2、完成优化模型训练后，根据词汇表分布概率解码得到生成目标语言生成摘要/>

本发明的有益效果是：

1)使用评价指标对伪跨语摘要数据集进行过滤，提高了数据集的质量，有利于模型更好的学习参数；对常用机器翻译构造的数据集进行了噪声分析，为噪声数据下的生成任务提供了参考。

2)在模型优化时，引入了真实的源语言摘要，充分使用构造伪跨语言摘要数据过程中产生的不同类型的数据。同时以源语言摘要为约束，针对主要噪声类型设计强化学习奖励，减弱了传统的使用交叉熵损失作为优化目标时，伪目标语言摘要中噪声数据对模型学习带来的负面影响，为生成高质量的跨语言摘要提供了有力支撑。

附图说明

图1为本发明中的总的流程图；

图2为本发明中的数据集构建的流程图；

图3为本发明中的数据筛选的流程图；

图4为本发明中多策略强化学习的汉越跨语言摘要模型结构示意图；

具体实施方式

实施例1：如图1-4所示，一种多策略强化学习的汉越跨语言摘要生成方法，所述一种多策略强化学习的汉越跨语言摘要生成方法的具体步骤如下：

Step1、从互联网采集数据，对数据进行预处理，并回译构造伪汉越跨语言摘要数据集。所述伪汉越跨语言摘要数据集数据格式为：源语言正文—源语言摘要/伪目标语言摘要/伪源语言摘要，各数据集的详细信息如表1所示。

表1各数据集具体信息

Step2、在上述构造的伪汉越跨语言摘要数据集基础上，并使用ROUGE、BERTScore与Mgfscore评价指标对源语言摘要与伪源语言摘要进行打分，以评价源语言正文与伪目标语言摘要的平行质量；基于此过滤得分低的句子，得到汉越跨语言摘要数据集，所述汉越跨语言摘要数据集数据格式为：源语言正文—源语言摘要/伪目标语言摘要。

如图3采用Rouge、BERTScore、Mgfscore对回译数据进行筛选，其中Rouge筛选时选用的Rouge-1、Rouge-2、Rouge-L平均值作为最终得分，BERTScore与Mgfscore均取F值得分。

在汉-越跨语言摘要数据过滤得分最低50％数据，剩下10万数据；由于越-汉跨语言摘要数据回译质量相对较高，过滤得分最低30％数据，剩下8.1万数据。对得到的数据进行进行训练集、验证集、测试集划分详细信息如表2所示。

表2各数据集具体信息

其中，Bert代表用BERTScore过滤汉-越跨语言摘要数据；Mgf代表用Mgfscore过滤越-汉跨语言摘要数据；RG代表用Rouge指标过滤该数据。在本发明中，无论使用那种方式过滤和训练，同一语种下测试集均相同。

Step3、随机抽取100个伪汉越跨语言摘要数据与汉越跨语言摘要数据进行噪声类型分析与统计，结果如表3。

表3汉越跨语言摘要数据集噪声情况

其中，Filter-No表示未过滤，Filter-RG/Bert/Msf分别表示使用Rouge、BERTScore、Mgfscore过滤。无论是在汉-越的短文本跨语言摘要数据，还是在越-汉的长文本新闻跨语摘要数据集中，选词不当与实词缺失是占比较大的两个噪声类型。因此，使用数据筛选提高伪数据的质量后，并继续弱化噪声是非常有必要的。

Step7、在初始优化模型的基础继续训练上，基于Step2得到的汉越跨语言摘要数据集，进行Step3、Step4；

Step8、基于得到的生成词汇表分布概率分别采用蒙特卡洛法采样解码与Greedy Search算法解码得到生成目标语言摘要Y^S与Y^G(统称为Y^B)；

作为本发明的进一步方案，所述Step1的具体步骤为：

Step1.1、构造伪汉-越跨语言摘要数据集：针对公开的中文单语摘要数据集LCSTS(格式为中文正文-中文摘要)前20万，利用谷歌翻译对中文摘要进行回译，得到格式为中文正文-中文摘要/伪越南语摘要/伪中文摘要。其中，在该数据集中中文为源语言，越南语为目标语言；

Step1.2、构造伪越-汉跨语言摘要数据集：从互联网采集越南语单语摘要数据，并进行清洗，得到格式为越南语正文-越南语摘要的单语摘要数据集；利用谷歌翻译对越南语摘要进行回译，得到格式为越南语正文-越南语摘要/伪中文摘要/伪越南语摘要。其中，在该数据集中越南语为源语言，中文为目标语言。具体构建过程如图2所示；

作为本发明的进一步方案，所述Step1.1的具体步骤为：

Step1.1.1利用谷歌翻译对中文摘要进行翻译得到伪越南语摘要；

Step1.1.2对伪越南语摘要进行翻译得到伪中文摘要；

Step1.1.3去除中文正文与越南语摘要中的特殊标记；

Step1.1.4对中文正文进行分字；

Step1.1.5构造词汇表；

Step1.1.6划分训练集、测试集。

作为本发明的进一步方案，所述Step1.2的具体步骤为：

Step1.2.1过滤互联网采集越南语单语摘要数据中的乱码与特殊标记；

Step1.2.2过滤摘要小于10个音节、大于150音节，以及正文小于100个音节、大于900音节的越南语单语摘要数据；

Step1.2.3利用谷歌翻译对越南语摘要进行翻译得到伪中文摘要；

Step1.2.4对伪中文摘要进行翻译得到伪越南语摘要；

Step1.2.5使用jieba对伪中文摘要进行分词；

Step1.2.6构造词汇表；

Step1.2.7划分训练集、测试集；

作为本发明的进一步方案，所述Step2的具体步骤为：

Step2.1、根据Step1.1构造的20万伪汉-越跨语言摘要数据集，使用ROUGE与BERTScore对其中的中文摘要与伪中文摘要进行打分，并选取得分最高的前10万对，得到汉-越跨语言摘要数据集，格式为：中文正文—中文摘要/越南语摘要。具体构建过程如图3所示；

Step2.2、根据Step1.2构造的11.5798万对伪越-汉跨语言摘要数据集，使用ROUGE与Mgfscore对其中的越南语摘要与伪越南语摘要进行打分，并选取得分最高的前8.1万对，得到越-汉跨语言摘要数据集，格式为：越南语正文—越南语摘要/中文摘要；

作为本发明的进一步方案，所述Step3的具体步骤为：

Step3.1、随机抽取100对伪汉-越跨语言摘要数据与汉-越跨语言摘要数据，中文摘要与伪越南语摘要/越南语摘要，分别对每个伪越南语摘要/越南语摘要中存在的噪声类型进行人工标记；

Step3.2、随机抽取100对伪越-汉跨语言摘要数据与越-汉跨语言摘要数据，对比越南语摘要与伪中文摘要/中文摘要，分别对每个伪中文摘要/中文摘要中存在的噪声类型进行人工标记；

作为本发明的进一步方案，所述Step4的具体步骤为：

e_n＝(pos(x_n)+emb(x_n))

其中pos为位置嵌入函数，emb为高维向量映射函数。

Step4.2、将得到的源语言正文词嵌入向量序列{e₁,e₂,…,e_n}输入Transformer编码器进行编码，得到源语言正文表征向量序列H＝{h₁,h₂,…,h_n}；

作为本发明的进一步方案，所述步骤Step4.2的具体步骤为：

其中W_k,W_Q为训练参数。

其中W^O为训练参数，h为头数，Concat表示h个头连接。

Step4.2.3、最后，通过下式计算得到源语言正文表征向量h_n；

h_n＝LayerNorm(FFN(LayerNorm(h′_n))+LayerNorm(h′_n))

其中LayerNorm是层归一化函数，FFN是前馈神经网络。

作为本发明的进一步方案，所述Step5的具体步骤为：

Step5.1与编码过程类似，将目标语言摘要送入解码器的Masked multi-headself-attention层进行表征，得到t-1时刻的隐状态s_t-1；

Step5.3、基于注意力权重，计算t时刻的解码向量c_t；

r_t＝tanh(W_t[s_t；c_t]+b_t)

其中W_t为训练参数,b_t为偏置向量；

作为本发明的进一步方案，所述Step6的具体步骤为：

其中W_p为训练参数,b_p为偏置向量；

Step6.2、在该过程中使用生成目标语言摘要Y^B与标准目标语言摘要间交叉熵损失L_clx优化模型；

其中L为生成目标语言摘要的序列长度；

作为本发明的进一步方案，所述Step7的具体步骤为：

Step7.1、将训练数据集从步骤Step1得到伪汉越跨语摘要数据集换为步骤Step2过滤后的汉越跨语言摘要数据集。

作为本发明的进一步方案，所述Step8的具体步骤为：

Step8.1、根据Step6.1得到词汇表分布概率使用分别使用蒙特卡洛法采样解码与Greedy Search算法解码得到目标语言生成摘要/>与

作为本发明的进一步方案，所述Step9的具体步骤为：

Step9.2、使用TF-IDF计算源语言摘要中每个/>重要程度，得到源语言词汇重要概率表Y_idf ^A；如下式分别计算每个生成摘要词汇/>与源语言摘要/>的缺失度/>

其中j为源语言摘要中的每一个词汇；

其中M为源语言摘要的长度，表示/>的次数,Y^B为Y^S或Y^G；

作为本发明的进一步方案，所述Step10的具体步骤为：

L_mix＝γL_cls+(1-γ)L_rl

其中γ为交叉熵损失函数与强化学习训练目标函数间的比例因子，本发明中γ＝0.6。

为了说明本发明的在汉越跨语言摘要任务上的有效性，本文设计了两组实验进行验证。实验一：为了验证噪声数据对模型的影响，采用传统的Transformer在不同数据集下进行试验，表4展示了不同数据集对模型性能的影响。实验二：采用基线系统和本发明产生的摘要进行对比，表5展示了不同基线系统的模型在汉-越跨语言摘要任务与越-汉跨语言摘要任务中的表现；表6展示了模型带来的摘要质量提升。

实验一：不同数据集对模型性能的影响

本实验进行噪声数据实验对比，模型采用基础的Transformer框架，具体结果如表4所示。其中，All为采用20万未过滤伪汉-越跨语言摘要以及11.5798万未过滤伪越-汉跨语言摘要进行模型训练；Filter-Bert/Mgf代表使用过滤后的数据进行模型训练，伪汉-越跨语言摘要使用BERTScore过滤，伪越-汉跨语言摘要使用Mgfscore过滤，数据详细信息如表2；Random代表在未过滤数据中随机抽取与过滤后等量的数据进行模型训练。

表4不同数据下的实验结果

从表4中可以看出神经网络模型对噪声数据较为敏感，使用同等的数据训练模型，过滤掉噪声的数据更有利于模型学习。在汉-越跨语言摘要数据集中，数据噪声较大，使用前10万高质量的数据训练模型仍比20万未过滤的数据进行训练更有利于生成可读性高的摘要。相较而言，汉跨语言摘要数据量较小，但质量相对较高，过滤掉前30％的数据训练模型在RG-2、RG-L指标上仍比用全部数据训练模型略差，但无论是在哪个数据集下噪声都带了负面的影响。由此，从噪声数据出发，对汉越跨语言摘要研究是非常有必要的。

实验二:本发明的在汉越跨语言摘要任务上的有效性

(1)不同基线系统的模型在汉-越跨语言摘要任务与越-汉跨语言摘要任务中的表现

表5不同模型的性能对比

从以上结果可以看出利用真实的源语言摘要与生成摘要的相关性与缺失度计算期望奖励，并将此与交叉熵损失相结合作为模型训练的优化目标，能改善了直接使用伪目标语言摘要训练模型时噪声数据带来的负面影响，提升汉-越跨语言摘要与越-汉跨语言摘要任务上的生成摘要质量。本文发明在汉-越或是越-汉，以及在短文本或长文本的噪声数据下都有较好的表现。

(2)不同的汉越跨语言摘要模型生成的摘要示例

表6不同的汉越跨语言摘要模型生成的摘要示例

从表6中可以看出在几个摘要模型中，本发明提出的方法生成的摘要质量最高。使用高质量数据进行继续训练模型后，模型都尝试生成更丰富的信息，但只有本发明生成了关键的信息“迄今为止越南共记录了#名患者”。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种多策略强化学习的汉越跨语言摘要生成方法，其特征在于：所述方法具体步骤如下：

2.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法，其特征在于：所述Step1的具体步骤为：

3.根据权利要求2所述的多策略强化学习的汉越跨语言摘要生成方法，其特征在于：所述Step2的具体步骤为：

4.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法，其特征在于：所述Step3的具体步骤为：

5.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法，其特征在于：所述Step4的具体步骤为：

e_n＝(pos(x_n)+emb(x_n))

其中pos为位置嵌入函数，emb为高维向量映射函数；

6.根据权利要求5所述的多策略强化学习的汉越跨语言摘要生成方法，其特征在于：所述Step4.2的具体步骤为：

其中W_k,W_Q为训练参数；

其中W^O为训练参数，h为头数，Concat表示h个头连接；

Step4.2.3、最后，通过下式计算得到源语言正文表征向量h_n；

h_n＝LayerNorm(FFN(LayerNorm(h_n′))+LayerNorm(h_n′))

其中LayerNorm是层归一化函数，FFN是前馈神经网络。

7.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法，其特征在于：所述Step5的具体步骤为：

Step5.3、基于注意力权重，计算t时刻的解码向量c_t；

r_t＝tanh(W_t[s_t；c_t]+b_t)

其中W_t为训练参数,b_t为偏置向量。

8.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法，其特征在于：所述Step6的具体步骤为：

其中W_p为训练参数,b_p为偏置向量；

其中L为生成目标语言摘要的序列长度。

9.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法，其特征在于：所述Step9的具体步骤为：

其中sum表示取和,其中j为源语言摘要中的每一个词汇，为目标语言生成摘要Y^S/Y^G中第t个词/>或y_t ^G；

Step9.2、使用TF-IDF计算源语言摘要中每个/>重要程度，得到源语言词汇重要概率表/>如下式分别计算每个生成摘要词汇/>与源语言摘要的缺失度/>

其中j为源语言摘要中的每一个词汇；

其中M为源语言摘要的长度，表示/>的次数,Y^B为Y^S或Y^G；

10.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法，其特征在于：所述Step10的具体步骤为：

L_mix＝γL_cls+(1-γ)L_rl

其中γ为交叉熵损失函数与强化学习训练目标函数间的比例因子，γ＝0.6；