CN103092831A

CN103092831A - 一种用于统计机器翻译的参数调整方法

Info

Publication number: CN103092831A
Application number: CN2013100295380A
Authority: CN
Inventors: 曹海龙; 张文文; 刘乐茂; 赵铁军; 杨沐昀; 郑德权; 朱聪慧; 徐冰
Original assignee: Harbin Institute of Technology
Current assignee: Harbin University of Technology Robot Group Co., Ltd.
Priority date: 2013-01-25
Filing date: 2013-01-25
Publication date: 2013-05-08
Anticipated expiration: 2033-01-25
Also published as: CN103092831B; WO2014114140A1; US9460087B2; US20160004691A1

Abstract

一种用于统计机器翻译的参数调整方法，涉及一种参数调整方法。是要解决现有方法在参数调整过程中容易造成参数的过拟合现象及陷入局部最优解的问题。方法：步骤一：利用单语语料库构建翻译所需的语言模型；步骤二：利用双语平行语料库构建翻译模型；步骤三：利用目标函数对参数进行调整。本发明的方法易于实现，能够防止在参数调整过程中出现过拟合现象，并能结合较多的特征数目。另外，由于目标函数是凸的，因此在训练过程中亦能够得到全局的最优解。本发明方法用于翻译系统的参数调整。

Description

一种用于统计机器翻译的参数调整方法

技术领域

本发明涉及一种参数调整方法。

背景技术

随着互联网的快速发展以及经济全球化的深入，不同国别之间的人与人交往越来越频繁，语言问题越发成为限制人们自由交流的障碍。为实现用本国语言与世界无障碍的沟通，人们对翻译服务的需求越来越广泛。

由人类操作员实现对文本或者口语的人工翻译可能不仅费时且费钱。机器翻译的目标就是实现一种语言到另一种语言的自动翻译。目前存在多种机器翻译的方法，包括基于实例的机器翻译和基于统计的机器翻译。其中，基于统计的机器翻译方法是目前的主流方法。对于给定的源语言句子，统计机器翻译试图找到最优可能的目标语言翻译句子。以f表示源语言，e表示目标语言，统计机器翻译试图找到如下的e：

也即在所有可能的翻译句子中，选择使P(e|f)值最大的翻译句子e。在现有的对数线性模型中，通过引入特征和权重，P(e|f)被因式分解为：

其中λ_m表示权重，h_m(e，f)表示特征函数，常用的特征函数包括语言模型、翻译模型、调序模型和词惩罚项。

翻译系统的训练过程就是寻找参数λ_m，m＝1，...，M，最优解的过程。对此，已存在不少参数优化的方法，其中被广泛使用的方法是一种被称为最小错误率的训练法(MinimumError Rate Training，MERT)，其优化准则为：

也即MERT的目标是找到参数λ_m，m＝1，..M，使得翻译系统在训练集上的错误率最小。

MERT在参数调整的过程中直接的考虑到了最终的翻译性能，取得了比较好的效果，虽然如此，MERT也存在着不足的地方。例如在优化准则中，没有使用正则化项，这样容易造成参数的过拟合。同时，MERT对大规模特征的支持也不好。另外，由于目标函数是非凸的，MERT需要使用多个初始化值，以防止陷入局部极小值点，这无疑也增加了计算的复杂性。

现有的参数调整方法中除上述提到的最小错误率训练方法(MERT)之外，还有在线的(online)的训练算法，基于最大边缘(margin)以及基于条件概率(conditional likelihood，CL)的训练方法等。

尽管基于最大边缘和条件概率的方法能够在一定程度上解决参数训练的问题，但是二者都各自存在不足之处，其中基于最大边缘方法的目标函数是非凸的，这使得在优化求解过程中容易陷入极小值，从而难以得到最优解。基于条件概率的训练方法尽管解决了函数非凸这个问题，但是目标函数中没有结合耗费函数，这使得优化过程不能直接针对训练集进行，得不到有效的模型参数。

发明内容

本发明是要解决现有方法在参数调整过程中容易造成参数的过拟合现象及陷入局部最优解的问题，提供一种用于统计机器翻译的参数调整方法。

本发明用于统计机器翻译的参数调整方法，按以下步骤进行：

步骤一：利用单语语料库构建翻译所需的语言模型；

步骤二：利用双语平行语料库构建短语翻译模型；

步骤三：利用目标函数

\min_{λ} Σ_{s = 1}^{n} [- Σ_{m = 1}^{M} λ_{m} h_{m} (e_{s}, f_{s}) + \log \underset{e &Element; C_{s}}{Σ} \exp {Σ_{m = 1}^{M} λ_{m} h_{m} (f_{s}, e^{'}) + l (e^{'}, e_{s})}]

对参数λ_m进行参数调整；其中e_s表示参考译文，e′表示机器译文，f_s表示待翻译的源语言句子，h_m(e_s，f_s)和h_m(f_s，e′)表示翻译系统构建过程中所使用的特征，特征包含语言模型、短语翻译列表、调序模型和词惩罚四大类，m＝1，...，M，M表示特征总的个数，l(e′，e_s)为消耗函数，C_s表示候选机器译文的集合，e′∈C_s。

参数调整是搭建翻译系统过程中很重要的一个环节，参数的好坏直接影响着最终系统的翻译性能，参数调整的不好，会显著的降低最终的翻译质量。

本发明在目标函数中添加正则化项(例如，

)来防止才优化求解过程当中出现过拟合现象。另外，与MERT相比，本发明得到的目标函数为凸函数，这样使得得到的最优解不依赖于初始的赋值；同时由于用于求解凸优化的有效方法很多，求解原优化问题也变得相对容易；此外，由于结合进了正则化项，使得本发明可以结合比MERT更多的特征，同时避免出现参数过拟合情况。

机器翻译中一个很重要的问题是，在参数调整过程中，所使用的优化方法是否需要利用黄金标准(gold standard)翻译。本发明方法需要使用到黄金标准翻译。由于在解码过程中，这种翻译一般是不能得到的，对此，需要寻找替代的措施。本发明采取的方法是使用在当前模型参数下BLEU得分最高的翻译来替代黄金标准翻译。

另外一个问题是如何选取耗费函数的形式，不同的耗费函数可能对最终的翻译结果有不同影响，对于翻译质量差的句子，应该对之处以比较大的惩罚。针对这个问题，本发明使用BLEU得分的相反数作为耗费函数。

本发明的方法易于实现，能够防止在参数调整过程中出现过拟合现象，并能结合较多的特征数目。另外，由于目标函数是凸的，因此在训练过程中亦能够得到全局的最优解。

附图说明

图1为具体实施方式一所述用于统计机器翻译的参数调整方法的流程图。

具体实施方式

本发明技术方案不局限于以下所列举具体实施方式，还包括各具体实施方式间的任意组合。

具体实施方式一：本实施方式用于统计机器翻译的参数调整方法，按以下步骤进行：

步骤一：利用单语语料库构建翻译所需的语言模型；

步骤二：利用平行双语语料库构建短语翻译模型；

步骤三：利用目标函数

\min_{λ} Σ_{s = 1}^{n} [- Σ_{m = 1}^{M} λ_{m} h_{m} (e_{s}, f_{s}) + \log \underset{e &Element; C_{s}}{Σ} \exp {Σ_{m = 1}^{M} λ_{m} h_{m} (f_{s}, e^{'}) + l (e^{'}, e_{s})}]

具体实施方式二：本实施方式是对具体实施方式一步骤三的目标函数中l(e′，e_s)做进一步说明，步骤三的目标函数中

其中BP(e′，e_s)为长度惩罚因子，赋予比参考译文长度短的句子以惩罚，p_n为n元语法n-gram的精度，表示机器译文中n-gram短语与参考译文n-gram吻合的比例，N表示n元语法所使用的最大阶数。

具体实施方式三：本实施方式是对具体实施方式一步骤三的目标函数中e_s的选择方法做进一步说明，步骤三的目标函数中e_s的选择方法具体为：

步骤A：对于C_s集合里的每个句子，用一个9维的整数数组存储其语言学信息A＝[a₀，a₁，...，a₇，a₈]，

步骤B：如果a₀，a₂，a₄，a₆中有一个为0，则该句得分score＝0；否则记

= Σ_{i = 0}^{3} (\log a_{2 i} - \log a_{2 i + 1}) / 4;

步骤C：计算如果temp＜0，则该句得分score＝sum+temp；否则score＝sum；

步骤D：从C_s集合里选出score分最高的句子

来替代e_s。

具体实施方式四：本实施方式是对具体实施方式一步骤三的目标函数的求解过程做进一步说明，步骤三的目标函数求解的过程为：

步骤a：对目标函数的各个参数求偏导数得到

\frac{&PartialD;}{&PartialD; λ_{k}} = Σ_{s = 1}^{n} [- h_{k} (f_{s}, e_{s}) + \underset{e^{'} &Element; C_{s}}{Σ} \frac{\exp {Σ_{m = 1}^{M} λ_{m} h_{m} (f_{s}, e^{'}) + l (e^{'}, e_{s})}}{Σ_{e^{'} &Element; C_{s}} \exp {Σ_{m = 1}^{M} λ_{m} h_{m} (f_{s}, e^{'}) + l (e^{'}, e_{s})}} h_{k} (f_{s}, e^{'})];

步骤b：初始化λ_m，m＝1，...，M，为[-1，1]之间的随机值，按步骤a的公式计算各个参数的偏倒数δ_m，m＝1，...，M，M表示特征总的个数；

步骤c：更新λ_m的值，m＝1...，M；

步骤d：重复步骤b和步骤c直至

m＝1，...，M。