CN112765996B

CN112765996B - 基于强化学习和机器翻译质量评估的中朝机器翻译方法

Info

Publication number: CN112765996B
Application number: CN202110069256.8A
Authority: CN
Inventors: 赵亚慧; 李飞雨; 崔荣一; 杨飞扬; 王琪; 金晶; 金城; 李丹阳; 李路军; 姜克鑫; 高君龙; 崔东虎
Original assignee: Yanbian University
Current assignee: Yanbian University
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-08-31
Anticipated expiration: 2041-01-19
Also published as: CN112765996A

Abstract

本发明公开了基于强化学习和机器翻译质量评估的中朝机器翻译方法,主要包括以下步骤：将句子级别评价机制引入翻译模型中指导模型的训练，评价机制采用机器翻译质量评估，指导策略采用强化学习方法；机器翻译过程中，NMT系统作为强化学习的智能体，通过不断与环境进行交互获取当前时刻环境状态信息，根据当前环境的状态决策出下一步所选单词，同时获得当前状态执行选词操作后的奖励值，进入下一状态；通过机器翻译质量评估模型

生成反馈信号，将机器翻译质量评估模型的输出作为奖励分数的一部分，所述模型通过网络结构对生成的译文进行全面评分。

Description

基于强化学习和机器翻译质量评估的中朝机器翻译方法

技术领域

本发明属于计算机智能信息处理中的自然语言处理领域，特别是涉及一种基于强化学习和机器翻译质量评估的中朝机器翻译方法。

背景技术

机器翻译研究如何利用计算机自动地实现不同语言之间的相互转换，是自然语言处理和人工智能重要研究领域，也是目前互联网常用服务之一。虽然机器翻译译文与专业译员相比仍有较大差距，但是在一些对译文质量要求不高的场景下，或者是在特定领域翻译任务上，机器翻译在翻译速度上具有明显优势，仍然得到广泛应用。鉴于机器翻译的复杂性和应用前景，学术界和产业界都把该领域作为重点研究方向，成为当前自然语言处理最活跃的研究领域之一。

由于自然语言处理的多样性和复杂性，将一种语言恰如其分地翻译成另一种语言仍然困难重重。目前，在大规模语料和计算能力条件下，神经机器翻译展现出巨大潜力，已经发展成为一种新的机器翻译方法。这种方法仅需要双语平行语料，便于训练大规模翻译模型，不仅具有很高的研究价值，同时也具有很强的产业化能力，成为当前机器翻译研究的前沿热点。

我国是统一的多民族国家，各少数民族语言类型和形态丰富，并且存在语言类型跨度大，语言资源匮乏、语言处理基础技术薄弱等问题。这些问题的存在使得目前成熟的一些机器翻译方法对少数民族语言和韩语之间的翻译并不适用。实际上，我国少数民族语言和汉语之间的自动翻译技术面临很多复杂的科学问题，如形态丰富语言的机器翻译，资源匮乏语言的机器翻译等，这些也是目前机器翻译研究的重要内容。虽然近年来神经机器翻译技术快速发展并且成为机器翻译研究的主流技术，但是，国内少数民族语言机器翻译方面的相关研究主要集中在蒙古语、藏语、维吾尔语等少数民族语言中。

朝鲜语是我国朝鲜族的官方语言，同时通行于朝鲜半岛、美国、俄罗斯远东地区等朝鲜族聚居地区，具有跨国跨地区的特点。朝鲜族是我国24个拥有自己语言的少数民族之一，因此中朝机器翻译的研究，对促进少数民族语言文字工作的发展、推动中朝、中韩跨语言信息交流具有重要的现实意义和迫切的时代需求。然而对于中朝机器翻译而言，中朝语言对之间缺乏大规模的平行语料，属于低资源语言。国内对该任务的研究起步晚、基础差，缺少大规模语料资源库。在低资源环境下提升中朝机器翻译质量面临巨大挑战。

发明内容

本发明通过将机器翻译质量评级引入中朝机器翻译模型，有效解决了传统神经机器翻译模型使用教师强制策略带来的曝光偏差和译文多样性差的问题，并通过有效设置采样策略、奖励函数和损失函数极大地稳定了训练过程，实现模型性能提升最大化。

为实现上述目的，本发明提供了如下方案：

基于强化学习和机器翻译质量评估的中朝机器翻译方法，包括以下步骤：

将句子级别评价机制引入翻译模型中指导模型的训练，评价机制采用机器翻译质量评估，指导策略采用强化学习方法，机器翻译过程中，NMT系统作为强化学习的智能体，通过不断与环境进行交互获取当前时刻环境状态信息，根据当前环境的状态决策出下一步所选单词，同时获得当前状态执行选词操作后的奖励值，进入下一状态；

通过机器翻译质量评估模型

生成反馈信号，将所述机器翻译质量评估模型

的输出作为奖励分数QE的一部分，所述机器翻译质量评估模型

通过网络结构对生成的译文进行全面评分；

采用基于波束搜索的动作采样策略，将从词表中选取候选词看作一个动作，通过解码器生成目标句后环境给出的奖励来学习得到分数最高时对应的译文。

优选地，所述评价机制指导模型包括机器翻译模块和机器翻译质量评估模块，所述机器翻译模块采用编码器-解码器架构与Transformer保持一致，所述机器翻译质量评估模块采用句子级别的机器翻译质量评估模型Bilingual Expert进行质量评估。

优选地，所述机器翻译质量评估模型包括基于双向Transformer的词预测模块和基于Bi-LSTM的回归预测模型，所述双向Transformer的词预测模块包括源句的自注意力编码器、目标句的双向自注意力编码器和目标句的重构器，通过在大规模平行语料上进行预训练，获取隐藏状态特征h。

优选地，所述机器翻译质量评估模型在训练过程中，通过解码器生成目标句后，参考环境给出的奖励来学习得到分数最高时对应的译文。

优选地，使用生成句子经过所述机器翻译质量评估模块得到的QE值作为所述机器翻译质量评估模型的训练目标。

优选地，基于QE值和BLEU值的反馈函数为：

其中，

为生成译文与参考译文之间的归一化BLEU值，

为生成译文的归一化QE评估得分；超参数α用于平衡BLEU值和QE得分之间的权重。

优选地，在训练期间，动作采样表示为给定源句和上文选取该词的条件概率

目标为追求期望奖励最大化；当生成完整目标句后，将所要翻译句子的质量评估得分作为你标签信息计算反馈值，结合强化学习算法中的Policy Gradient方法得到最大化预期收益。

优选地，训练期间使用奖励塑造，即每完成一次采样动作均计算一个累计奖励作为当前序列反馈值，两个连续时间步之间的反馈差值为词项级别奖励。

优选地，将MLE训练目标与RL目标相结合，结合后的损失函数L_combine为：

L_combine＝γ×L_mle+(1-γ)L_rl

通过γ值对交叉熵损失和强化学习目标进行权衡，使模型效益最大化。

与现有技术相比，本发明具有以下优点：

(1)本发明将句子级机器翻译质量评价引入神经机器翻译模型中，使得翻译模型生成译文不完全收敛于参考译文，从而缓解传统神经机器翻译模型译文多样性差的问题；

(2)本发明采用强化学习方法对模型进行训练，与常用的极大似然估计方法不同，策略优化的强化学习方法实现了模型在句子级优化目标序列，解决了教师强制策略带来的曝光偏差问题；

(3)本发明提出了一种基于QE评价的奖励函数，改善了直接使用BLEU值作为奖励函数导致的模型偏差，进一步增强了模型生成译文的多样性；

(4)本发明将传统神经机器翻译模型的交叉熵损失函数与强化学习奖励函数进行线性组合，并使用基线反馈方法缓解强化学习本身存在的训练不稳定和方差大等问题，实现了模型性能提升最大化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图；

图2为本发明模型框架示意图；

图3为本发明采样波束采样策略的原理示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供一种基于强化学习和机器翻译质量评估的中朝机器翻译方法。

本发明采用基于波束搜索的动作采样策略。由于强化学习的机器翻译任务动作空间巨大且离散，其大小为整个单词表容量。在对动作空间进行采样时，使用穷举搜索可以保证获取到最佳动作，但其计算成本过高，贪心策略计算成本小但无法保证获取最优序列。因此需要一个合理策略权衡性能与计算成本的关系。中朝机器翻译模型图如图2所示。

本发明选用的波束搜索方法可以通过灵活选择波束大小，有效在性能与计算成本之间进行权衡。波束搜索原理示意如图3所示。

本实例的环境配置如下：Linux中的Ubuntu系统，CPU主频3.20GHZ，以及内存16G，编程语言为Python，在集成开发环境PyCharm下完成。

在本实施例中，各模块详细参数设置为翻译模块在基于自注意力的编码器-解码器框架上实现，Transformer系统具体实现采用谷歌大脑构建的Tensor2Tensor开源工具，dropout设置为0.1，词向量维数为512，MLE训练梯度优化算法使用Adam算法并使用学习率衰减调度；机器翻译质量评估模块，特征提取部分编码器和解码器层数为2，前馈子层隐藏单元数为1024，注意力机制head数为4；质量评估部分使用单层Bi-LSTM，隐层单元设置为512，梯度优化算法使用Adam，学习率设置为0.001；强化学习训练过程中使用MLE模型进行参数初始化，学习率设置为0.0001，波束搜索宽度设置为6。

本实施例选择在真实的数据集“中韩科技信息加工综合平台”项目构建的语料上进行对比实验，原始语料包含3万余句，涉及生物技术、海洋环境、航天3个领域。为缓解数据稀疏问题，实验还使用了额外单语语料。进行预处理后得到的数据集详情如表1所示：

表1

类别	语种	规模(句)
			平行语料	中-朝	30,000
单语语料	中	115,000
				朝	115,000
QE语料	中	30,000
				朝	30,000

朝鲜语属于低资源语言，缺乏大规模语料，因此语料中会存在大量低频词，进而导致词向量质量较低。针对这一问题，在预处理过程中使用更加灵活的朝鲜语语言粒度进行词嵌入，以此缓解数据稀疏问题。分别使用音素、音节、词三个粒度对朝鲜语文本进行语料预处理。音素使用开源音素分解工具hgtk获取，音节直接通过读取字符获得，分词采用分词工具Kkma。

为了验证方法的有效性，将本发明与加入注意力机制的LSTM模型、Transformer模型在相同的硬件和语料环境下进行翻译实验。模型所使用的词向量维度与本发明相同，翻译性能结果对比如表2：

表2

翻译性能表明：在不同的模型中，本发明方法翻译效果表现出色，与LSTM+attention相比，中-朝语向BLEU值提升了9.87，QE分数降低了59.68，朝-中语向BLEU值提升了10.99，QE分数下降了57.76；与Transformer相比，中-朝语向BLEU值提升了5.39，QE分数降低了5.16，朝-中语向BLEU值提升了2.73，QE分数下降了2.82，证明本发明有效提高了中朝机器翻译性能。

本发明引入了机器翻译质量模块对翻译模块进行强化训练，因此为保证该策略的合理性和有效性，对机器翻译质量评估模块性能进行实验验证。对比基线系统采用开源系统QuEst++，该系统为世界机器翻译大赛2013-2019年官方基线系统。性能验证结果如表3所示：

表3

指标	Bilingual Expert	基线系统
			Pearson’s↑	0.476	0.397
MAE↓	0.118	0.136
			RMSE↓	0.166	0.173

质量评估验证结果表明：本发明采用的Bilingual Expert相较于QE任务的基线系统有较好的性能提升，皮尔逊相关系数提高了0.079，MAE降低了0.018，RMSE降低了0.007，与人工评价具有较高的相关性，证明了本发明采用的机器翻译质量评估模型的有效性。

为了更清晰的展示模型翻译效果，本发明以中-朝、朝-中两个语向的翻译任务为例，源句通过QR-Transformer模型得到的翻译示例如表4所示：

表4

为缓解机器翻译任务中教师强制策略带来的曝光偏差和翻译多样差的问题，本发明提出了一种基于强化学习和机器翻译质量评估的中朝机器翻译模型QR-Transformer。该模型在句子级别引入了一种评价机制，以此指导模型预测不完全收敛于参考译文。评价机制采用无参考译文的机器翻译质量评估，指导策略采用强化学习方法。实验结果表明，该方法能够有效提升中朝机器翻译的性能。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.基于强化学习和机器翻译质量评估的中朝机器翻译方法，其特征在于，包括以下步骤：

通过机器翻译质量评估模型

生成反馈信号，将所述机器翻译质量评估模型

通过网络结构对生成的译文进行全面评分；

2.根据权利要求1所述的基于强化学习和机器翻译质量评估的中朝机器翻译方法，其特征在于，评价机制指导模型包括机器翻译模块和机器翻译质量评估模块，所述机器翻译模块采用编码器-解码器架构与Transformer保持一致，所述机器翻译质量评估模块采用句子级别的机器翻译质量评估模型Bilingual Expert进行质量评估。

3.根据权利要求2所述的基于强化学习和机器翻译质量评估的中朝机器翻译方法，其特征在于，所述机器翻译质量评估模型包括基于双向Transformer的词预测模块和基于Bi-LSTM的回归预测模型，所述双向Transformer的词预测模块包括源句的自注意力编码器、目标句的双向自注意力编码器和目标句的重构器，通过在大规模平行语料上进行预训练，获取隐藏状态特征h。

4.根据权利要求1所述的基于强化学习和机器翻译质量评估的中朝机器翻译方法，其特征在于，所述机器翻译质量评估模型在训练过程中，通过解码器生成目标句后，参考环境给出的奖励来学习得到分数最高时对应的译文。

5.根据权利要求4所述的基于强化学习和机器翻译质量评估的中朝机器翻译方法，其特征在于，使用生成句子经过所述机器翻译质量评估模块得到的QE值作为所述机器翻译质量评估模型的训练目标。

6.根据权利要求5所述的基于强化学习和机器翻译质量评估的中朝机器翻译方法，其特征在于，基于QE值和BLEU值的反馈函数为：

其中，

为生成译文与参考译文之间的归一化BLEU值，

7.根据权利要求6所述的基于强化学习和机器翻译质量评估的中朝机器翻译方法，其特征在于，在训练期间，动作采样表示为给定源句和上文选取该词的条件概率

目标为追求期望奖励最大化；当生成完整目标句后，将所要翻译句子的质量评估得分作为标签信息计算反馈值，结合强化学习算法中的Policy Gradient方法得到最大化预期收益。

8.根据权利要求7所述的于强化学习和机器翻译质量评估的中朝机器翻译方法，其特征在于，训练期间使用奖励塑造，即每完成一次采样动作均计算一个累计奖励作为当前序列反馈值，两个连续时间步之间的反馈差值为词项级别奖励。

9.根据权利要求8所述的于强化学习和机器翻译质量评估的中朝机器翻译方法，其特征在于，将MLE训练目标与RL目标相结合，结合后的损失函数L_combine为：