CN105550174A

CN105550174A - 基于样本重要性的自动机器翻译领域自适应方法

Info

Publication number: CN105550174A
Application number: CN201511023540.2A
Authority: CN
Inventors: 曹海龙; 周鑫鹏; 赵铁军; 杨沐昀; 郑德权
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2016-05-04

Abstract

基于样本重要性的自动机器翻译领域自适应方法，本发明涉及语言翻译领域，具体涉及一种自动机器翻译领域的自适应方法。为了解决现有的翻译系统的自适应方法不能充分利用训练语料中的领域信息的问题，本发明首先对训练样本添加权重，然后通过统计的方法得到训练样本源语言句子的一元词频分布，使用训练样本源语言句子的一元词频分布计算目标领域文本的句子概率并建立样本权重向量的似然函数，求解最优样本权重向量，确定目标领域文本所属的领域；依据短语对及其翻译概率生成基于样本权重向量的翻译规则，提高翻译系统领域适应性；能够得到具有领域适应能力的翻译系统。本发明适用于语言翻译领域。

Description

基于样本重要性的自动机器翻译领域自适应方法

技术领域

本发明涉及语言翻译领域，具体涉及一种自动机器翻译领域的自适应方法。

背景技术

随着全球化时代的到来，机器翻译在促进国际政治、经济、文化、科技交流等方面具有重大的实用价值和战略意义。自动机器翻译方法通过在大规模高质量的双语对齐语料集上使用机器学习的方法来训练翻译系统。自动机器翻译系统是一种机器学习模型，机器学习(MachineLearning)的相关研究已经证明：训练数据和测试数据的分布差异越大，机器学习模型的泛化误差也就会越大。对于自动机器翻译系统，当训练语料与翻译任务来自不同的领域，即训练数据和测试数据来自于不同的分布，那么翻译系统的性能就会下降。由于大规模特定领域的双语平行语料不易获取，现实中使用的训练集往往为由来自多个领域的语料组成的混合语料集，例如由议会记录、法律文本、日常对话以及新闻报道等组成的混合训练语料集。使用基于混合语料集的翻译系统完成特定领域的翻译任务时，翻译结果往往不能达到人们的期望。在训练语料为混合语料的前提下，为提高翻译系统在特定领域的翻译性能，需要提高翻译系统的领域自适应能力。

在现有自动机器翻译方法上，为进一步提高翻译系统的翻译性能和实用性，需要提高翻译系统的领域自适应能力。目前，针对如何提高翻译系统领域自适应能力的问题，主要有以下几种解决方法:

(1)基于信息检索(InformationRetrieval)和数据选择(DataSelection)的领域自适应方法：这是一种简单直接的方法，通过检索的方式选择和目标领域最相关的语料作为训练数据，提高翻译系统与目标领域的匹配程度从而提高翻译质量。训练数据和目标领域的相似性对于自动机器翻译系统的性能是至关重要的，此方法通过提高这种相似性能有效地提升翻译系统的性能。这种方法实现简单，适用于目标领域单一而且预先确定的情况，但是难以应对目标领域多样或未知的环境。

(2)基于训练实例加权(InstanceWeighting)的领域自适应方法：这种方法可以看作是检索方法的柔性改进。加权法根据训练实例与目标领域的相关性，或者根据实例的可靠性，用连续的实数表示实例的权重，并依据实例权重训练翻译系统。实例的粒度可以有多种级别，例如语料库级别、篇章级别、句子级别、短语级别以及翻译规则级别。在自动机器翻译系统的训练阶段，适当提高与目标领域相匹配的实例的权重能有效提高翻译系统在目标领域的翻译性能。

(3)基于混合模型(MixtureModel)的领域自适应方法：这类方法把上面的加权法从实例延伸到了模型，预先在多个不同领域的数据集上分别训练相应的翻译模型，然后根据目标领域的特性来调整各个翻译模型的重要性。该方法是一种粗粒度的领域自适应方法，能有效提高翻译系统的领域自适应性，但不能充分利用训练语料中的领域信息。

发明内容

本发明为了解决现有的翻译系统的自适应方法不能充分利用训练语料中的领域信息的问题。

基于样本重要性的自动机器翻译领域自适应方法，包括以下步骤：

步骤1、训练集为双语言对齐的句对集合，一个双语言对齐的句对中包括一个源语言句子f_i、一个目标语言句子e_i；每个句对称作一个训练样本，

为训练集中的每个训练样本设置样本权重λ_i,i＝1,2,3,…,n，其中，n为训练样本的个数；

设置样本权重向量λ＝{λ₁,λ₂,...,λ_i,...,λ_n}，样本权重向量是一个n维的向量，每一维与训练集中的一个训练样本相对应；

步骤2、统计训练样本源语言句子的一元词频分布：

依据步骤1中设置的样本权重向量，通过统计的方法得到训练样本源语言句子的一元词频分布，此分布为样本权重向量的非线性表示，如下所示：

p(w)＝Ψ(λ)(1)

其中，w为训练样本源语言句子中的词语，p(w)为其概率值；Ψ(λ)为样本权重向量λ的非线性表示，是源语言词语概率与样本权重向量之间的非线性关系；

步骤3、使用训练样本源语言句子的一元词频分布计算目标领域文本的句子概率；依据目标领域文本的句子概率建立训练样本与目标领域之间的联系；

步骤4、依据目标领域文本的句子概率建立样本权重向量的似然函数L(λ)；

步骤5、优化样本权重向量的似然函数，求解最优样本权重向量，确定目标领域文本所属的领域；

步骤6、计算短语对的翻译概率，依据短语对及其翻译概率生成基于样本权重向量的翻译规则，依据基于样本权重向量的翻译规则，提高翻译系统领域适应性。

本发明具有以下有益效果：

基于样本重要性的机器翻译领域自适应方法使用源语言句子的一元词频分布相似性来衡量文本的领域相似性，能够处理目标领域未知或多领域混合的领域适应问题；通过训练样本权重，能够训练得到具有领域自适应的翻译系统。在大规模中英翻译任务上实验检验发现，通过添加训练样本权重，领域自适应翻译系统在未知目标领域翻译任务上的翻译性能得到了提高，翻译系统BLEU值相对于未使用领域适应方法的翻译系统提高了0.75个百分点。

附图说明

图1为本发明流程示意图。

具体实施方式

具体实施方式一：结合图1说明本实施方式，

步骤2、统计训练样本源语言句子的一元词频分布：

p(w)＝Ψ(λ)(1)

训练样本源语言的一元词频分布与目标领域文本的一元词频越相似时，两者的领域相似性也就越高；由于训练样本源语言的一元词频分布为样本权重向量的非线性函数，因此通过样本权重向量调整训练样本源语言句子的一元词频分布，修改训练集与目标领域文本的领域相似性；不同的样本权重向量使得训练集与目标领域文本之间具有不同的领域相似性，由此可知，存在一个最优样本权重向量使得训练集和目标领域文本的领域相似性最高；本发明的样本权重模型即是寻找一个这样的样本权重向量，依据目标领域文本的句子概率建立样本权重向量的似然函数，通过求解此似然函数得到所需要的最优样本权重向量；

在样本权重向量的似然函数取得最大值时，训练样本源语言句子与目标领域文本的一元词频分布相似性最高，此时两者的领域相似性也最高；由于样本权重向量维度过高，似然函数所涉及变量较多，似然函数最优值很难求解；在求解过程中本发明方法通过求解似然函数的极大值代替求解最大值，将似然函数取极大值时的样本权重向量作为最优样本权重向量；

本发明提出的是机器翻译领域自适应方法；现实中，同一词语在不同领域下可能具有不同的翻译结果，如：“粉丝”一词在食物领域中应当翻译为“vermicelli”，而在娱乐新闻领域常翻译为“fans”，这种情况就要求翻译系统针对相同的词语在不同的领域下能够使用不同的翻译规则；在训练翻译系统时，本发明将求得的样本权重向量应用在翻译规则的抽取过程中，通过样本权重向量修改生成的翻译规则，使翻译系统具有领域适应性。

具体实施方式二：

本实施方式步骤2的具体实施步骤如下：

训练集C_Train的表示如下：

C_Train＝{(f₁,e₁),(f₂,e₂),...,(f_i,e_i),...,(f_n,e_n)}

其中，(f_i,e_i)表示训练集中第i个训练样本；

设训练集C_Train中所有训练样本源语言句子的词语集合如下：

W＝{w₁,w₂,...,w_r,...,w_k}

其中，w_r表示所有训练样本源语言句子的词语集中第r个词语，k表示词语的个数；由于为每个训练样本设置了样本权重，在此基础之上通过统计的方法得到训练样本源语言句子的基于样本权重的一元词频分布，对每一个词语w,其一元词频概率如下：

p (w) = \frac{Σ_{i = 1}^{n} σ (w, f_{i}) λ_{i}}{Σ_{r = 1}^{k} Σ_{i = 1}^{n} σ (w_{r}, f_{i}) λ_{i}} - - - (2)

其中，σ(w,f_i)表示在第i个训练样本源语言句子f_i中词语w出现的次数，当词语在句子中未出现时函数值为0；w_r指训练样本源语句子的词语集中第r个词语，λ_i表示第i个训练样本的样本权重。

其他步骤和参数与具体实施方式一相同。

具体实施方式三：

本实施方式步骤3的具体实施步骤如下：

目标领域文本C_Target的表示如下：

C_Target＝{s₁,s₂,...,s_j,...,s_m}

其中，s_j表示翻译目标领域文本中第j个句子，m表示目标领域文本的大小，即句子的个数；

通过使用训练样本源语言句子的一元词频分布计算目标领域文本句子的句子概率P(s_j)，计算方法如下：

P (s_{j}) = Π_{t = 1}^{l_{j}} p (w_{t j}) - - - (3)

其中，l_j表示句子s_j的长度；w_tj表示句子s_j中第t个词语，p(w_tj)表示词语w_tj在训练样本源语言句子一元词频分布中的概率，由于训练集C_Train相对于目标领域文本C_Target是一个大规模语料集，因此目标领域文本词语集中的出现的大部分词语同时也包含在训练样本源语词语集中；对于出现在目标领域文本而又不存在于训练样本源语词语集中的词语，使用平滑技术估计其词语的概率；所以对于目标领域文本C_Target中的每一个词语w_tj，可得到其在训练样本源语言一元词频分布中的概率值p(w_tj)。

其他步骤和参数与具体实施方式二相同。

具体实施方式四：

本实施方式步骤4所述的样本权重向量的似然函数L(λ)如下：

\begin{matrix} L (λ) = Π_{j = 1}^{m} P (s_{j}) \\ = Π_{j = 1}^{m} Π_{t = 1}^{l_{j}} p (w_{t j}) \end{matrix} - - - (4) .

其他步骤和参数与具体实施方式三相同。

具体实施方式五：

本实施方式步骤5具体实施步骤如下：

为简化计算，首先对似然函数L(λ)取对数，转换为求解对数似然函数的极值，然后对公式(5)求极值，并得到似然函数取极值时的样本权重；

\begin{matrix} \tilde{λ} = \underset{λ}{\arg \max} Σ_{j = 1}^{m} Σ_{t = 1}^{l_{j}} \log p (w_{t j}) \\ = \underset{λ}{\arg \max} Σ_{j = 1}^{m} Σ_{t = 1}^{l_{j}} \log \frac{Σ_{i = 1}^{n} σ (w_{t j}, f_{j}) λ_{i}}{Σ_{r = 1}^{k} Σ_{i = 1}^{n} σ (w_{r}, f_{j}) λ_{i}} \end{matrix} - - - (5)

其中，指最优样本权重向量；σ(w_tj,f_i)表示在训练样本源语言句子f_i中词语w_tj出现的次数；

根据得到最优样本权重向量后；在训练集中，能够确定与目标领域文本C_Target最接近的源语言所在的领域，将目标领域文本C_Target标定为对应源语言所在的领域。

其他步骤和参数与具体实施方式四相同。

具体实施方式六：

本实施方式步骤5所述的对公式(5)求极值的过程使用L-BFGS算法。

其他步骤和参数与具体实施方式五相同。

具体实施方式七：

本实施方式步骤6具体实施步骤如下：

对于训练样本中对齐的源语言短语f'和目标语言短语e'，计算短语对(f',e')的翻译概率φ(f'|e')：

φ (f^{'} | e^{'}) = \frac{c o u n t (f^{'} | e^{'})}{Σ_{p = 1}^{A_{e^{'}}} c o u n t (f_{p}^{'}, e^{'})} - - - (6)

其中，A_e'表示训练样本中与目标语言短语e'对齐的源语言短语的个数，count(f',e')表示短语对(f',e')的基于样本权重的出现次数；count(f',e')函数的计算公式如下：

c o u n t (f^{'}, e^{'}) = Σ_{i = 1}^{n} ψ (f^{'}, e^{'} | f_{i}, e_{i}) λ_{i} - - - (7)

其中，ψ(f',e'|f_i,e_i)表示在训练样本(f_i,e_i)中抽取出短语对(f',e')的次数，当无法从样本中抽取出该短语对时函数值为0；

依据短语对及其翻译概率生成基于样本权重向量的翻译规则，依据基于样本权重向量的翻译规则，提高翻译系统领域适应性。进而能够得到具有领域适应性的翻译模型。

本发明生成的翻译系统的翻译规则，使训练得到的翻译系统具有领域特性；通过本发明方法可得到具有领域自适应能力的自动机器翻译系统。

其他步骤和参数与具体实施方式五或六相同。

实施例

在大规模的中英翻译任务上检验结合本发明提出的领域自适应翻译系统，检验实验中使用的训练集为会议记录、法律条文和新闻三个领域混合的中英双语训练集，训练样本数目约337万；目标领域为新闻领域，检验翻译系统在新闻领域的领域适应能力，目标领域文本句子数目约为117万；开发集和测试集均为NIST评价语料集中新闻语料集。

经过检验得到以下实验结果，使用不加权重的翻译系统对测试集进行翻译时翻译系统BLEU得分为26.90，而使用添加了样本权重后的领域自适应翻译系统(基于本发明的翻译系统)对测试集翻译时的BLEU值得分为27.65；在目标领域完成相同翻译任务时，基于样本权重的领域自适应方法使翻译系统BLEU值提高了0.75个百分点，由此可知基于训练样本权重的机器翻译系统领域自适应方法能够提高翻译系统在目标领域的翻译性能。

Claims

1.基于样本重要性的自动机器翻译领域自适应方法，其特征在于包括以下步骤：

步骤2、统计训练样本源语言句子的一元词频分布：

p(w)＝Ψ(λ)(1)

步骤3、使用训练样本源语言句子的一元词频分布计算目标领域文本的句子概率；

2.根据权利要求1所述的基于样本重要性的自动机器翻译领域自适应方法，其特征在于步骤2的具体实施步骤如下：

训练集C_Train的表示如下：

C_Train＝{(f₁,e₁),(f₂,e₂),...,(f_i,e_i),...,(f_n,e_n)}

其中，(f_i,e_i)表示训练集中第i个训练样本；

设训练集C_Train中所有训练样本源语言句子的词语集合如下：

W＝{w₁,w₂,...,w_r,...,w_k}

p (w) = \frac{Σ_{i = 1}^{n} σ (w, f_{i}) λ_{i}}{Σ_{r = 1}^{k} Σ_{i = 1}^{n} σ (w_{r}, f_{i}) λ_{i}} - - - (2)

3.根据权利要求2所述的基于样本重要性的自动机器翻译领域自适应方法，其特征在于步骤3的具体实施步骤如下：

目标领域文本C_Target的表示如下：

C_Target＝{s₁,s₂,...,s_j,...,s_m}

P (s_{j}) = Π_{t = 1}^{l_{j}} p (w_{t j}) - - - (3)

其中，l_j表示句子s_j的长度；w_tj表示句子s_j中第t个词语，p(w_tj)表示词语w_tj在训练样本源语言句子一元词频分布中的概率。

4.根据权利要求3所述的基于样本重要性的自动机器翻译领域自适应方法，其特征在于步骤4所述的样本权重向量的似然函数L(λ)如下：

\begin{matrix} L (λ) = Π_{j = 1}^{m} P (s_{j}) \\ = Π_{j = 1}^{m} Π_{t = 1}^{l_{j}} p (w_{t j}) \end{matrix} - - - (4) .

5.根据权利要求4所述的基于样本重要性的自动机器翻译领域自适应方法，其特征在于步骤5具体实施步骤如下：

首先对似然函数L(λ)取对数，转换为求解对数似然函数的极值，然后对公式(5)求极值，并得到似然函数取极值时的样本权重；

\begin{matrix} \tilde{λ} = \underset{λ}{\arg \max} Σ_{j = 1}^{m} Σ_{t = 1}^{l_{j}} \log p (w_{t j}) \\ = \underset{λ}{\arg \max} Σ_{j = 1}^{m} Σ_{t = 1}^{l_{j}} l o g \frac{Σ_{i = 1}^{n} σ (w_{t j}, f_{i}) λ_{i}}{Σ_{r = 1}^{k} Σ_{i = 1}^{n} σ (w_{r}, f_{i}) λ_{i}} \end{matrix} - - - (5)

6.根据权利要求5所述的基于样本重要性的自动机器翻译领域自适应方法，其特征在于步骤5所述的对公式(5)求极值的过程使用L-BFGS算法。

7.根据权利要求5或6所述的基于样本重要性的自动机器翻译领域自适应方法，其特征在于步骤6具体实施步骤如下：

φ (f^{'} | e^{'}) = \frac{c o u n t (f^{'}, e^{'})}{Σ_{p = 1}^{A_{e^{'}}} c o u n t (f_{p}^{'}, e^{'})} - - - (6)

c o u n t (f^{'}, e^{'}) = Σ_{i = 1}^{n} ψ (f^{'}, e^{'} | f_{i}, e_{i}) λ_{i} - - - (7)

依据短语对及其翻译概率生成基于样本权重向量的翻译规则，依据基于样本权重向量的翻译规则，提高翻译系统领域适应性。