CN111178092B

CN111178092B - 一种动态调整长度惩罚及译文长度的翻译模型优化方法

Info

Publication number: CN111178092B
Application number: CN201911323594.9A
Authority: CN
Inventors: 杜权; 李自荐
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2023-04-07
Anticipated expiration: 2039-12-20
Also published as: CN111178092A

Abstract

本发明公开一种动态调整长度惩罚及译文长度的翻译模型优化方法，步骤为：获取指定语种方向的标准数据作为各种指标预测的标准双语数据集；对标准双语数据集进行分词操作，并进一步训练得到新的训练数据集；对神经机器翻译模型解码器部分进行修改，自动预测出当前句对最优的长度惩罚值；进行长度统计，得到目标语句子长度；准备独立的前馈神经网络模型，使模型最终预测的生成译文更加趋向于最佳长度的译文结果；Transformer神经机器翻译模型针对不同的句子动态的调整其长度惩罚以及最佳译文句子长度。本发明实现了模型翻译过程中长度惩罚以及译文长度的动态调整，实现简单、方法有效，实用性强，模型译文质量提升效果明显。

Description

一种动态调整长度惩罚及译文长度的翻译模型优化方法

技术领域

本发明涉及一种机器翻译领域，具体为一种动态调整长度惩罚及译文长度的翻译模型优化方法。

背景技术

近几年来，使用神经网络技术构建的许多自然语言处理任务均取得了最优的效果，如神经机器翻译等。使用神经网络技术架构的机器翻译模型，又称为神经机器翻译。其作为一种具备超强学习能力的机器翻译模型，往往需要使用大规模高质量的双语平行语料库进行训练支撑。神经机器翻译模型实际上是能够自动地将某个语种中一定长度的句子通过计算机将其翻译为另一个语种中一定长度的译文句子的模型结构，其中主要由编码器与解码器组成，其中编码器的作用是能够将输入句子(源语言句子)编码成为指定维度的向量表示的结构。解码器的主要作用是能够将在编码器处得到的指定维度的向量解码成为译文句子。另外，在语言翻译的领域中，通常认为若将某一语种的句子翻译成为另一个语种的译文句子，其原始句子长度与译文句子长度间是存在一定统计规律的。例如，通常来说一句中文的英文译文句子相对较长，但一句英文的中文译文则相对较短。在机器翻译领域，神经机器翻译模型中往往使用长度惩罚值用于限制某一项翻译任务中，其译文句子的生成长度。其值越大，则神经机器翻译模型将更加偏向于长句子译文的生成，反之则更加偏向于短句子。

虽然不同语种间的翻译任务针对数据集整体的译文长度与原始句子长度间的存在一定的规律，但单一句子与句子之间的翻译任务中，该长度比例存在一定差异。如例所示：

源语：今天天气怎么样？

目标语：What’s the weather like today？

源语：产学研三方融合？

目标语：The integration of production,teaching and research.

由上例可知，其源语句子与目标语句子语种分别为中文、英文，在中到英机器翻译任务中，对于该种情况来说，不同句子需要对应不同的长度惩罚值，很明显例子中的第二条句对需要比第一条句对更大的长度惩罚值参与其译文句子结果的生成过程。

在以往的研究工作中，神经机器翻译模型中的长度惩罚值都是依据不同语种间互译的经验值进行设置，是一个固定值。也就是说该值的大小完全依赖经验进行设置且模型的训练、测试以及使用的过程中均不会对其进行修改，这种方式将对模型生成的译文句子质量产生一定程度的影响。

发明内容

针对现有方法中的神经机器翻译模型训练过程中长度惩罚值将对模型生成的译文句子质量产生一定程度的影响等不足，本发明方法提出了一种动态调整长度惩罚及译文长度的翻译模型优化方法，使神经机器翻译模型在训练的过程中能够获取最优的长度惩罚值以及最佳译文句子长度值，并使这两个值参与到模型译文生成过程。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种动态调整长度惩罚及译文长度的翻译模型优化方法，包括以下步骤：

1)获取指定语种方向的标准数据作为各种指标预测的标准双语数据集；

2)对标准双语数据集进行分词操作，得到分词后标准双语训练数据集；

3)根据标准双语数据集，使用不同长度惩罚值将双语句对通过公开的Transformer神经机器翻译模型进行解码操作，将获取得到的所有最优长度惩罚值与原始标准双语数据集组合成为新的训练数据集；

4)对神经机器翻译模型解码器部分进行修改，使用带有长度惩罚值的数据集，对修改后的神经机器翻译模型进行训练，使最终训练完成后的模型在翻译的过程中，能够自动预测出当前句对最优的长度惩罚值；

5)使用步骤2)中获取得到的分词后标准双语训练数据集，对目标语句子分词后的结果进行长度统计，得到目标语句子长度；并将长度信息加至双语数据集作为最终数据集用于后续模型训练过程；

6)准备独立的前馈神经网络模型，使用最终数据集对前馈神经网络模型进行训练，使该模型最终能够对其自动生成译文句子的最佳长度进行预测；

7)在Transformer神经机器翻译模型解码过程中，对于每一句待翻译句子，根据解码器端获取到模型预测的最佳译文长度，通过优化模型中beam search部分的评分函数，使模型预测最佳长度参与到译文结果生成的评分函数中，使模型最终预测的生成译文更加趋向于最佳长度的译文结果；

8)对翻译模型本身进行修改以及独立模型的准备后，Transformer神经机器翻译模型在训练周期内针对不同的句子动态的调整其长度惩罚以及最佳译文句子长度，使其最终生成更加优质的译文结果。

步骤3)中，使用不同大小的长度惩罚值对获取得到的标准双语数据集中的源语句子逐句进行翻译，翻译完成后利用BLEU值作为翻译质量的度量标准，针对每一条句对均选举出其最优的长度惩罚值，使当前源语句子的机器翻译结果取得最高的BLEU值评分。

步骤4)中，对神经机器翻译模型解码器部分进行修改为：使用其解码器部分能够实现当前句子的最优长度惩罚值进行预测，使每一条句子均能够获取得到其最优的长度惩罚值，利用模型生成的当前最优长度惩罚值能够影响模型译文句子生成结果，使模型生成更加优质的译文。

步骤6)中，准备独立的前馈神经网络模型为：使用独立的前馈神经网络模型结构实现最佳译文长度的预测，参与到Transformer神经网络模型解码过程中，在过程中能够使每一条句子均能够获取得到最佳的译文长度值。

步骤7)中，根据Transformer神经网络模型翻译过程中动态预测得到的最佳译文长度值，提出了一种新的beamsearch打分函数，使预测得到的最优译文长度值能够直接影响模型译文结果的生成；并且，模型能够动态设置可接受的译文长度范围，用于进一步约束译文结果生成，减小模型生成异常句子的风险。

本发明具有以下有益效果及优点：

1.本发明在原有神经机器翻译模型的基础上，根据基础句子集合中分词后的双语句对，使用长度惩罚预测以及最佳译文长度预测的方式实现了模型优化方法，能够使模型在翻译的过程中动态的调整长度惩罚值并生成最佳译文长度值，实现了模型生成译文质量的提升，是一种实现简单、方便有效的模型优化方法。

2.本发明使用长度惩罚预测以及最佳译文长度预测两种方式实现翻译模型优化，架构透明，对各个语种的机器翻译模型的译文生成质量均能够达到有效提升，是一种通用的模型优化方法，能够快速地对译文结果进行调优，达到一种高效且准确的模型优化方法。程序结构简单，方法清晰。

附图说明

图1为本发明方法中编码器部分改进方法图；

图2为本发明方法中独立预测网络模型结构图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明提出一种动态调整长度惩罚及译文长度的翻译模型优化方法，在模型翻译的过程中能够动态的对最优长度惩罚以及最佳译文长度进行预测，是一种有效的模型优化方法。

步骤1)中，使用具有互译关系的公开标准双语平行数据集作为模型优化的基础数据集合。数据集可以是目前互联网上公开的任意两个语种方向的标准双语平行数据集。

就目前情况来说，训练一个优质的神经机器翻译模型均需要大规模的双语平行数据对其进行训练支撑。准备双语平行数据集的过程中，其中一个重要的因素即为双语平行数据的质量，其原因是该部分数据集将直接用于句子长度惩罚值以及最佳译文长度值的预测任务中，因此其句子互译质量将直接关系到值预测的准确性，因此双语平行数据质量十分关键。另外，双语数据集中数据来源多样性也需要得到保证，其原因是在后续各项参数的预测任务中，需要保证在数据集中包含多种领域数据，避免后续预测任务中出现严重的领域化情况。

步骤2)中，利用开源分词技术，使用步骤1)中获取得到的标准双语数据集生成对应句子的分词后结果，并使用分词后的源语句子以及目标语句子组合成为新的分词后双语平行数据集。

本发明根据现有双语句子序列使用开源单词切分技术获取句对的分词后结果，获取的经过分词后的句子将可以用于进行句子长度相关信息的统计操作基础。

步骤3)中，根据步骤1)中获取得到的标准双语数据集合。使用不同的长度惩罚值分别使用一定范围内的不同长度惩罚值对双语句对使用公开的Transformer神经机器翻译模型进行解码操作，解码完成后利用BLEU值作为翻译质量的度量标准，针对每一条句对均选举出其最优的长度惩罚值，该值能够使当前源语句子的机器翻译结果取得最高的BLEU值评分。将获取得到的所有最优长度惩罚值与原始标准双语数据集组合成为新的训练数据集。

利用现有的神经机器翻译模型，使用不同的长度惩罚值对标准数据集进行翻译，其中长度惩罚值设置范围是[0，0.1，0.2，…，2]，另外，针对生成的不同译文结果，使用BLEU值作为评价生成译文结果的标准，对每一条双语数据均采用最合适的长度惩罚值，生成带有长度惩罚值的训练数据集。

步骤4)中，在神经机器翻译模型训练过程中，使用目前最先进的Transformer神经机器翻译模型。修改神经机器翻译模型中的解码器部分，在模型训练的过程中使编码器具备能够预测长度惩罚值的能力。在神经机器翻译模型翻译的过程中，多采用beam search的方法作为译文生成方法，该方法使用打分函数通过长度惩罚值影响生成译文结果。其中beam search方法中打分函数如下所示：

其中，∑s_i为模型对译文结果最终打分，其打分为log值结果，其取值范围为[-∞，0]。i为译文总长度，α为长度惩罚值。由公式可知，若长度惩罚值取得更大的值，则模型更偏向于生成长句子译文，反之则偏向于生成短句子译文。在模型翻译的过程中，取得更加合适的长度惩罚值对神经机器翻译模型译文生成更有利。因此使用标准数据集使神经机器翻译模型具备根据不同的句子预测更加合适的长度惩罚值是有意义的。

如图1所示，本发明方法在模型训练过程中，对训练数据集的源语言部分句子的首部使用<alpha>作为占位符，在神经机器翻译模型编码器部分使用最新的结构，获取最佳的模型参数对当前最优的长度惩罚值进行预测，从而使模型编码器部分具有预测针对当前句对最优长度惩罚值的能力。

步骤5)中，使用步骤2)中获取得到的分词后的双语数据集，对每一条句对均计算其目标语句子长度，针对每一条源语言句子，使用其对应目标语句子的长度组合成为带有最佳译文句子长度的源语言句子，用于训练能够预测当前句子最佳译文长度结果的独立网络模型。

步骤6)中，使用步骤5)中获取得到的最终数据集，提出独立的神经网络模型结构进行最佳译文长度结果预测。其中网络模型使用前馈神经网络，模型对整个源语句子作为输入部分，最终生成最佳译文长度预测结果。

假设输入源语句子长度为L，神经网络隐藏层维度为H，模型将生成L×H大小的矩阵，经过矩阵变换以及softmax层后，生成最终的预测结果。模型整体结果如图2所示。该模型结构也能够应用于步骤4)中长度惩罚值预测方法。

使用独立的网络模型对当前句子的最优译文长度进行预测后，生成当前最优译文长度T。在神经机器翻译模型层面，本发明方法提出了最新的beam search打分函数，使预测得到的译文结果能够对最终译文结果产生影响。最新的beam search打分函数如下所示：

由上式可知，其中

为原始的beam search打分函数，T为模型预测的最优译文长度结果，i为模型真实生成的译文长度，beta为模型使用前设置得到的超参数，用作衡量译文长度预测值对打分函数的影响程度。

在步骤7)中，在神经机器翻译模型使用过程中，除去步骤4)、6)中的预测方法之外，对于模型预测得到的最优译文长度结果来说，除了修改其对beam search打分函数，还能够根据其预测值设置一定范围的可接受译文长度，用于限制模型在译文生成过程中，异常句子的生成概率。在本发明方法中，模型设置的长度范围是[T-2，T+2]。对于模型译文生成过程中，不在该范围内的生成结果，将对译文生成结果进行舍弃操作。

在步骤8)中，使用最终修正后的方法对步骤1)中的数据集进行处理以及模型修改后，对最新的模型进行训练，使模型在训练周期内能够针对不同的句子动态的调整其长度惩罚以及目标语句子长度，使模型最终能够生成更加优质的译文结果，提升神经机器翻译效果。

本发明提出了一种非常简单且有效的方法提升神经机器翻译模型生成的译文质量。分别利用长度惩罚预测、生成译文长度预测手段，实现了神经机器翻译模型译文结果生成过程中，多个有效值的成功预测，使模型最终能够生成更高质量的译文结果。

本实施例使用ldc中-英标准双语数据集，针对动态调整长度惩罚方法以及最佳译文长度预测方法分别进行测试，证明了两种方法对于神经机器翻译模型的优化均能够起到积极的效果。同时，分别使用ni_st04、ni_st05标准数据集作为模型的测试集，对模型的翻译效果进行BLEU值评分，用作衡量模型提升效果。

动态调整长度惩罚方法实验结果如下。

Base-Alpha代表使用基础神经机器翻译模型结构且保持长度惩罚值不变的情况下得到的神经机器翻译模型在测试集上的BLEU值结果。Auto-Alpha代表使用长度惩罚动态调整方法获取的到的神经机器翻译模型在测试集上的BLEU值结果。

最佳译文长度预测方法实验结果如下。

Base-Model代表使用基础神经机器翻译模型结构得到的神经机器翻译模型在测试集上的BLEU值结果。Length-Model代表使用外部神经网络模型，能够对模型最佳生成译文长度值进行预测后得到的神经机器翻译模型在测试集上的BLEU值结果。

根据实验结果得知，本发明中的两种方法在神经机器翻译任务中均能够起到积极的效果，能够辅助神经机器翻译模型进行更好译文的生成，提升模型翻译效果。

Claims

1.一种动态调整长度惩罚及译文长度的翻译模型优化方法，其特征在于包括以下步骤：

8)对翻译模型本身进行修改以及独立模型的准备后，Transformer神经机器翻译模型在训练周期内针对不同的句子动态的调整其长度惩罚以及最佳译文句子长度，使其最终生成更加优质的译文结果；

步骤7)中，beam search打分函数如下：

其中

2.根据权利要求1所述的动态调整长度惩罚及译文长度的翻译模型优化方法，其特征在于：步骤3)中，使用不同大小的长度惩罚值对获取得到的标准双语数据集中的源语句子逐句进行翻译，翻译完成后利用BLEU值作为翻译质量的度量标准，针对每一条句对均选举出其最优的长度惩罚值，使当前源语句子的机器翻译结果取得最高的BLEU值评分。

3.根据权利要求1所述的动态调整长度惩罚及译文长度的翻译模型优化方法，其特征在于步骤4)中，对神经机器翻译模型解码器部分进行修改为：使用其解码器部分能够实现当前句子的最优长度惩罚值进行预测，使每一条句子均能够获取得到其最优的长度惩罚值，利用模型生成的当前最优长度惩罚值能够影响模型译文句子生成结果，使模型生成更加优质的译文。

4.根据权利要求1所述的动态调整长度惩罚及译文长度的翻译模型优化方法，其特征在于步骤6)中，准备独立的前馈神经网络模型为：使用独立的前馈神经网络模型结构实现最佳译文长度的预测，参与到Transformer神经网络模型解码过程中，在过程中能够使每一条句子均能够获取得到最佳的译文长度值。

5.根据权利要求1所述的动态调整长度惩罚及译文长度的翻译模型优化方法，其特征在于：步骤7)中，根据Transformer神经网络模型翻译过程中动态预测得到的最佳译文长度值，提出了一种新的beam search打分函数，使预测得到的最优译文长度值能够直接影响模型译文结果的生成；并且，模型能够动态设置可接受的译文长度范围，用于进一步约束译文结果生成，减小模型生成异常句子的风险。