CN106062736B

CN106062736B - 词语对齐分数算出装置、词语对齐装置、以及存储介质

Info

Publication number: CN106062736B
Application number: CN201580012326.9A
Authority: CN
Inventors: 田村晃裕; 渡边太郎; 隅田英郎; 隅田英一郎
Original assignee: State-Run Research And Development Legal Person Nict
Current assignee: State-Run Research And Development Legal Person Nict
Priority date: 2014-03-07
Filing date: 2015-02-12
Publication date: 2019-04-05
Anticipated expiration: 2035-02-12
Also published as: US10049105B2; JP2015170168A; CN106062736A; WO2015133238A1; SG11201606967RA; JP5850512B2; US20170068665A1

Abstract

本发明提供一种用于以高精度进行词语对齐的装置。该装置包括：接收对照翻译句对和针对该对照翻译句对的词语对齐，以规定的顺序依次选择第1语言的句子的词语f_j的选择单元；和针对第1语言的句子的所有词语算出表示由对照翻译句对的第2语言之中通过词语对齐a_j与词语f_j建立了对应的词语e_{a_{j}}和词语f_j构成的词语对正确的可能性的分数(102)，基于该分数算出词语对齐a_j的分数的循环型神经网络(RNN)(100)。RNN(100)在算出词语对(f_j，e_{a_{j}})的分数时，通过循环连接(118)，基于词语对齐a_j之中在词语对(f_j，e_{a_{j}})的词语f_j之前通过选择单元选择出的词语的对齐全体a₁ ^j‑1算出词语对(f_j，e_{a_{j}})的分数(102)。

Description

词语对齐分数算出装置、词语对齐装置、以及存储介质

技术领域

本发明涉及在对照翻译句对内解析各词语的对应关系(词语对齐： WordAlignment)的词语对齐装置以及用于该词语对齐装置的词语对齐分数算出装置。

背景技术

词语对齐为统计机器翻译(Statistical Machine Translation：SMT)不可缺少的重要处理之一。图1中表示词语对齐的例子。

参照图1，考虑日语句子和英语的对照翻译句对20。对照翻译句对20 的各句子预先按每个词语被划分。对照翻译句对20包括日语句子30(“私 |が|利用|料金|を|払う”(“|”表示词语的划分))和英语句子32(“I pay usage fees.”)。词语对齐是以下处理：例如对构成日语句子30的各词语被翻译成英语句子32中的哪个词语(或者词语组)进行推定，即对构成日语句子30的各词语与英语句子32中的哪个词语(或者词语组)相对应进行推定。图1中表示了从日语向英语的词语对齐，但也同样可以进行从英语向日语的词语对齐。

在SMT中，这种词语对齐有非常重要的作用。SMT中，准备包括大量上述那样的对照翻译在内的对照翻译语料库。针对各对照翻译进行词语对齐。基于该词语对齐，通过统计上的处理来创建翻译模型。将该过程称为翻译模型的学习。简单来说，翻译模型是以概率的形式来表示将一种语言的某个词语翻译成另一种语言的哪个词语的模型。在SMT中，当提供了原语言的句子时，准备大量翻译目标的语言(目标语言)的句子的候补，求出该原语言的句子从目标语言的各句子的候补中生成的概率，将目标语言的句子之中该概率最高的句子推定为针对原语言的句子的翻译句子。在该过程中，使用上述翻译模型。

显然，为了改善SMT的性能，需要提高翻译模型的精度。为此，必须提高翻译模型的学习中所使用的对照翻译语料库的词语对齐的精度。因此，为了改善SMT的性能，要求提高对对照翻译进行词语对齐的词语对齐装置的性能。

作为广泛使用的词语对齐的方法，有IBM模型(参照后述的非专利文献1)以及HMM模型(参照非专利文献2)。这些模型是假设词语对齐根据某概率分布来生成，根据实际观测到的词语对齐来推定(学习)该概率分布的模型(生成模型)。若将原语言的句子设为f₁ ^J＝f₁，...，f_J、将目标语言的句子设为e₁ ^I＝e₁，..，e_I，则原语言的句子f₁ ^J按照词语对齐a₁ ^J根据目标语言的句子e₁ ^I来生成，其生成概率采用以下的式(1)来计算。式(1)中的各a_j是表示原语言的词语f_j与目标语言的词语e_{a_j}相对应的隐变量。此外，在以下的文本中，采用下划线“_”表示对某下标字符进一步附加下标字符的情况，用下划线之后的“{}”表示下标字符的范围。即，“e_a{j}”之类的表现是表示对“e”添加的下标字符在通常的表现下是“a_j”，“e_{a_{j}-1}”之类的表现是表示e的下标字符为a_j-1，“e_{a_{j-1}}”之类的表现是表示e的下标字符是a_j-1。

[数1]

[数2]

式(2)中，p_a为对齐概率，p_t为词汇翻译概率。

这些模型，对对照翻译句对(f₁ ^J，e₁ ^I)，使用forward-backward算法等来确定满足以下式(3)的最佳对齐^a(记号“∧”为本来应在紧邻之后的字符的正上方记载的记号。)。最佳对齐^a被称作维特比对齐(Viterbi Alignment)。

[数3]

非专利文献3中提出了以下对齐方法：即，将前馈型神经网络(feed forwardneural networks(FFNN))的一种Context-Dependent Deep Neural Network for HMM应用于非专利文献2的HMM模型，采用FFNN来计算与对齐概率相对应的对齐分数、与词汇选择概率相对应的词汇分数。即，针对对照翻译句对(f₁ ^J，e₁ ^I)的对齐a₁ ^J的分数s_NN(a₁ ^J|f₁ ^J，e₁ ^I)通过以下的式(4) 表示。

[数4]

在非专利文献3的方法中，由于所有词语中的标准化的计算量变得庞大，因此使用分数来代替概率。在此，t_a以及t_t分别与式(2)的p_a以及p_t相对应。s_NN是对齐a₁ ^J的分数，c(w)表示词语w的上下文。维特比对齐在该模型中也与HMM模型同样地由forward-backward算法来决定。

图3中表示用于计算式(4)中的词汇翻译分数t_t(f_j，e_a{j}|c(f_j)，c(e_a{j}-1)) 的神经网络的网络结构(词汇翻译模型)。图3所示的神经网络60包括：输入层(Lookup层)70，其接收原语言的词语f_j-1、f_j、f_j+1、以及目标语言的词语e_{a_{j}-1}、e_{a_{j}}、e_{a_{j}+1}，将这些词语变换为向量z₀；隐藏层72，其接收向量z₀并输出通过式(5)得到的输出向量z₁；输出层74，其接收向量z₁通过式(6)来计算词汇翻译分数76并输出。各层分别具有权重矩阵L、 {H，B_H}、以及{O，B_o}。在此说明隐藏层为1层的情况，但也可采用多层的隐藏层。

权重矩阵L为embedding矩阵，管理各词语的词嵌入(word embedding)。所谓词嵌入是对词语附加特征的低维的实向量，表示词语的句法方面的、意义上的特性。如果将原语言的词语集合设为V_f，将目标语言的词语集合设为V_e，将词嵌入的长度设为M，则权重矩阵L为M×(|V_f|+|V_e|)矩阵。其中，在V_f和V_e中，分别追加表示未知词语的<unk>和表示词语“null”的 <null>。

该词汇翻译模型，与作为计算对象的原语言的词语f_j和目标语言的词语e_{a_{j}}一起来受理它们的上下文词语而作为输入。所谓上下文词语是在预定尺寸的窗口内存在的词语。在此，如图3所示那样假设窗口宽度为3的情况。输入层70包括原语言的输入部80和目标语言的输入部82。原语言的输入部80与作为计算对象的原语言的词语f_j一起受理其前后的2个词语f_j-1以及f_j+1，从embedding矩阵(L)中找到对应的列，输出词嵌入向量之中原语言部分。目标语言的输入部82与作为计算对象的目标语言的词语e_{a_{j}}一起受理其前后的两个词语e_{a_{j}-1}以及e_{a_{j}+1}，从embedding矩阵(L)中找到对应的列，输出词嵌入向量之中目标语言的部分。原语言的输入部80的输出以及目标语言的输入部82的输出被连结而形成实向量z₀，并被提供给隐藏层72的输入。接下来，隐藏层72捕捉实向量z₀的非线性的特征并输出向量 z₁。最后，输出层74接受隐藏层72输出的向量z₁，计算以下的式子所表示的词汇翻译分数76并输出。

[数5]

隐藏层72以及输出层74所进行的具体的计算如下所示。

[数6]

z₁＝f(H×z₀+B_H)， (5)

t_t＝O×z₁+B_O (6)

在此，H、B_H、O、B_o分别为|z₁|×|z₀|、|z₁|×1、1×|z₁|、1×1矩阵。f(x) 为非线性激活函数，在此采用htanh(x)。htanh(x)为如下那样的函数。

[数7]

计算对齐分数ta(a_j-a_j-1|c(e_{a_{j}-1}))的对齐模型也能与此同样地构成。

各模型的学习中，按照使下式(7)的排序损失最小化的方式，通过随机梯度下降法(Stochastic Gradient Descent：SGD)来对各层的权重矩阵进行学习。各权重的梯度采用反向传播来计算。

[数8]

在此，θ表示最优化的参数(权重矩阵的权重)，T表示学习数据，s_θ表示参数θ的模型下的a₁ ^J的分数(参照式(4))，a⁺表示正解对齐，a^-表示在参数θ的模型下分数最高的非正解对齐。

现有技术文献

非专利文献

非专利文献1：Peter F.Brown，Stephen A.Della Pietra， Vincent J.DellaPietra，and Robert L.Mercer.1993.The Mathematics of Statistical MachineTranslation：Parameter Estimation.Computational Linguistics，19(2)：263-311.

非专利文献2：Stephan Vogel，Hermann Ney，and ChristophTillmann.1996.Hmm-based Word Alignment in Statistical Translation.InProceedings of the 16th International Conference on ComputationalLinguistics，pages 836-841.

非专利文献3：Nan Yang，Shujie Liu，Mu Li，Ming Zhou， and NenghaiYu.2013.Word Alignment Modeling with Context Dependent Deep Neural Network.InProceedings of the 51st Annual Meeting of the Association for ComputationalLinguistics(Volume 1：Long Papers)，pages 166-175.

发明内容

发明所要解决的课题

在式(2)以及式(4)的任一个中，各词语的对齐a_j都依赖于刚刚之前的对齐a_j-1。如图2所示那样，进行了日语句子30的开头的词语“私”的对齐40之后，进行接下来的词语“が”的对齐42时，参照对齐40的结果。即，在求出最佳对齐^a时，各词语的对齐基于刚刚之前的对齐关系(作为线索)来决定。

但是，仅刚刚之前的对齐关系作为对齐的线索是否充分并不清楚。为了提高词语对齐的精度，也考虑其它的方法，如果有精度更高的方法则需要确定该方法。

因此本发明的一个目的在于，提供一种进行精度比现有方法高的词语对齐的词语对齐装置及用于该词语对齐装置的词语对齐分数算出装置、以及用于这些装置的计算机程序。

用于解决课题的手段

本发明的第1方面相关的词语对齐分数算出装置算出第1语言和第2语言的对照翻译句对的词语对齐的分数。该装置包括：选择单元，其接收对照翻译句对和针对该对照翻译句对的词语对齐，按照规定的顺序依次选择对照翻译句对的第1语言的句子的词语；和分数算出单元，其针对对照翻译句对的第1语言的句子的所有的词语，算出表示由通过选择单元选择出的词语和通过词语对齐与该词语建立了对应的第2语言的词语构成的词语对为正确的词语对的可能性的分数，基于该分数算出词语对齐的分数。分数算出单元在算出某词语对的分数时，基于在构成该词语对的第1语言的词语之前通过选择单元选择出的词语的对齐的全体，算出该某词语对的分数。

优选，选择单元包括在对照翻译句对内从第1语言的句子的开头起依次选择第1语言的句子的词语的单元。

更优选，分数算出单元包括：第1算出单元，其算出表示由通过选择单元选择出的词语和对照翻译句对的第2语言的句子之中通过词语对齐与该词语建立了对应的词语构成的词语对为正确的词语对的可能性的分数；和第2算出单元，其基于针对对照翻译句对的第1语言的句子的所有词语通过第1算出单元算出的分数，算出词语对齐的分数。

进而优选，第2算出单元包括通过将针对对照翻译句对的第1语言的句子的所有词语通过第1算出单元算出的分数彼此相乘，从而算出词语对齐的分数的单元。

分数算出单元也可包括：循环型的神经网络，其具有第1输入和第2输入，其中，该第1输入接收通过选择单元选择出的词语，该第2输入接收通过词语对齐与该词语建立了对应的第2语言的词语；和输入控制单元，其将通过选择单元选择出的词语和通过词语对齐与该词语建立了对应的词语分别提供给第1输入以及第2输入。循环型的神经网络包括：输入层，其具有第1输入以及第2输入，从分别提供给第1输入以及第2输入的词语中算出词嵌入向量并输出；隐藏层，其接收输入层的输出，通过预先决定的非线性运算来生成表示来自输入层的两个输出的关系的向量；和输出层，其基于隐藏层的输出来算出词语对齐的分数并输出。在将接下来的词语对作为输入而提供给词语对齐分数算出装置时，隐藏层的输出被作为输入而提供给隐藏层。

本发明的第2方面相关的词语对齐装置为对第1语言和第2语言的对照翻译句对的词语对齐进行推定的词语对齐装置。该装置包括：上述任一个词语对齐分数算出装置；词语对齐候补生成单元，其对对照翻译句对生成多个词语对齐候补；算出单元，其针对通过词语对齐候补生成单元而生成的多个词语对齐候补的每一个词语对齐候补，使用词语对齐分数算出装置来算出针对对照翻译句对的词语对齐分数；和词语对齐决定单元，其将与通过算出单元对多个词语对齐候补算出的词语对齐分数之中最高的分数对应的词语对齐候补决定为对照翻译句对的词语对齐并输出。

本发明的第3方面相关的计算机程序，如果通过计算机被执行，则使该计算机作为上述任一个装置的各单元起作用。

附图说明

图1为说明词语对齐的示意图。

图2为说明现有的词语对齐的方法的示意图。

图3为示意地表示实现基于非专利文献3的词汇翻译模型的神经网络的结构的图。

图4为表示本发明的1实施方式中的基于RNN的词语对齐模型的结构的示意图。

图5为表示用于使用对照翻译语料库来进行图4所示的词语对齐模型的学习的计算机程序的控制结构的流程图。

图6为表示使用图4所示的词语对齐模型来进行语料库中的对照翻译的词语对齐的计算机程序的控制结构的流程图。

图7为表示用于使用对照翻译语料库来进行图4所示的词语对齐模型的单方向的学习的计算机程序的控制结构的流程图。

图8为表示用于实验的数据组的大小的表格形式的图。

图9为以表格形式来表示本发明的1实施方式的词语对齐性能的图。

图10为以表格形式来表示使用本发明的1实施方式的词语对齐结果进行了学习的统计机器翻译装置的翻译性能的图。

图11为表示词语对齐的例子的图。

图12为表示词语对齐的另一例子的图。

图13为以表格形式来表示相对于通过各种大小的学习数据进行了学习时的BTEC语料库的词语对齐性能的图。

图14为表示实现本发明的1实施方式相关的词语对齐装置的计算机的外观的图。

图15为表示图14所示的计算机的内部结构的框图。

具体实施方式

在以下的说明以及附图中，对相同的部件赋予相同的参照编号。因此，不重复针对它们的详细说明。

[基本思路]

本实施方式中，求取最佳对齐^a时，各词语的对齐基于从句子开头到前一个对齐为止的所有的对齐关系来决定。例如，如下式(8)那样通过依赖于以前所有对齐关系的分数来求得对齐系列a₁ ^J＝a₁，...，a_J的分数。分数也可为概率。

[数9]

[第1实施方式]

因此，在本实施方式中，采用基于RNN(Recurrent Neural Network) 的对齐模型。该模型使用RNN并使用式(8)来计算对齐a₁ ^J的分数s_NN。根据式(8)，第j个对齐a_j的预测依赖于a_j之前所有的对齐a₁ ^j-1。在该例子中，需要注意与现有的FFNN型的情况同样地，不是概率而是采用分数这一点。

图4中表示基于该RNN的模型100的结构。参照图4，该模型100包括输入层(Lookup层)110、隐藏层112和输出层114。这些层分别具有权重矩阵L、{H^d，^d，B^d _H}以及{O，B_o}。隐藏层112的矩阵(H^d，R^d，B^d _H)依赖于对齐。在此，d表示从对齐a_j-1到对齐a_j的跳跃距离：d＝a_j-a_j-1。此外，在后述的实验中，跳跃距离为8以上的情况以及为-8以下的情况分别集中设为“≥8”距离以及“≤-8”距离。即，隐藏层112具有权重矩阵{H^≤-8，H^-7，...，H⁷，H^8≤，R ^≤-8，R^-7，...，R⁷，R^8≤，B_H ^≤-8，B_H ^-7，...，B_H ⁷，B_H ^8≤。

参照图4，输入层110包括原语言的输入部130和目标语言的输入部 132。原语言的输入部130受理作为计算对象的原语言的词语f_j，从 embedding矩阵(L)中找到对应的列，输出词嵌入向量之中原语言部分。目标语言的输入部132受理作为计算对象的目标语言的词语e_{a_{j}}，从 embedding矩阵(L)中找到对应的列，输出词嵌入向量之中目标语言的部分。原语言的输入部130的输出以及目标语言的输入部132的输出被连结而形成实向量x_j，并被提供给隐藏层112的输入。隐藏层112的上一次的输出被暂时存储，通过循环连接118而作为上一次的输出向量y_j-1被提供给隐藏层112的输入。接下来，隐藏层112捕捉实向量x_j以及输出向量y_j-1的非线性的特征并输出向量y_j。该向量被暂时存储，在原语言的接下来的词语f_j+₁的处理时经由循环连接118被提供给隐藏层112的输入。此外，在j＝0时，向量 y_j-1全部被初始化为0。在隐藏层112中的计算中，需要注意，使用了依赖于特定的跳跃距离d的权重矩阵{H^d，^d，B^d _H}。最后，输出层114接受隐藏层112 输出的向量y_j，计算并输出由下式表示的分数102，即

[数10]

接收了隐藏层112输出的向量y_j的输出层114响应于向量y_j而通过式 (10)算出对齐a_j的分数102(t_RNN)并输出。现有的FFNN模型(图3)由词汇翻译分数和对齐分数这两个要素构成，但需要注意本实施方式的基于 RNN的模型仅输出一个分数102这一点。

该模型的隐藏层112以及输出层114的计算通过以下式子进行。

[数11]

tR_NN＝O×y_j+B_O (10)

其中，H^d、R^d、B^d _H、O以及B_O分别为|y_j|×|x_j|、|y_j|×|y_j-1|、|y_j|×1、1×|y_j|、以及1×1矩阵。在此，注意|y_j|＝|y_j-1|。f(x)为非线性激活函数，在本实施方式中为htanh(x)。

在本实施方式中，维特比对齐通过forward-backward算法决定，但严格来说不能使用基于动态规划的forward-backward算法。这是因为针对v_j的对齐的历史记录长的缘故。因此，在此，通过启发式集束搜索近似地算出维特比对齐。具体来说，在forward算法时，针对各f_j，仅保持预先指定的集束宽度量的状态，除此之外的部分被舍弃。

如上那样，基于RNN的模型具有被循环连接的隐藏层。通过该循环连接，利用隐藏层112能将到此为止的对齐的历史记录紧凑地编码来进行传播。因此，通过按照该隐藏层112的设定来求得分数，从而能够计算考虑了以前的全体对齐关系的分数。

<学习>

学习中，各层的权重矩阵的最优化通过批大小(batch sise)D的 Mini-batch SGD来进行。该方法与单纯的SGD(D＝1)相比，收敛快速且稳定。梯度通过沿时间反向传播(Backpropagation through time：BPTT) 算法进行计算。BPTT中，将网络在时间(j)方向上展开，按每个时间步骤计算梯度。进而通过在目标函数中添加l2标准化项，从而防止模型的过学习。

基于RNN的模型与基于FFNN的模型同样地能够进行基于有监督学习的学习。此时，学习基于通过式(7)定义的排序损失来进行。此外，除了该学习方法以外，通过组入取得对齐的两个方向的匹配性的制约，或进行无监督学习，从而能够进一步改善性能。在有监督学习中，需要训练数据(理想的对齐)。为了解决这种问题，在本实施方式中，使用从无标签的学习数据中进行学习的、采用了NCE(Noise-Contrastive Estimation)的无监督学习。

<无监督学习>

Dyer等人提出了基于contrastive estimation(CE)的无监督学习的对齐模型(Chris Dyer，Jonathan Clark，Alon Lavie，and Noah A.Smith.2011. UnsupervisedWord Alignment with Arbitrary Features.In Proceedings of the 49th AnnualMeeting of the Association for Computational Linguistics： Human LanguageTechnologies Volume 1，pages 409-419.)。CE针对被观测的数据，将其周边的数据看作疑似的负样本，对识别观测数据和其周边数据的模型进行学习。Dyer等人将针对提供为学习数据T的对照翻译句子而考虑的尽可能的词语对齐看作观测数据，将翻译的整个搜索空间Ω看作其周边数据。

本实施方式中将该想法导入到带裕量的排序损失中。

[数12]

在此，Φ指给出了(f，e)时可能的所有的对齐的集合，E_Φ[s_θ]表示Φ上的分数s_θ的期待值，e⁺表示学习数据中的目标语言的句子，e^-表示疑似的目标语言的句子。期待值的第1项针对观测数据，第2项涉及周边数据。

针对整个搜索空间Ω的计算量变得庞大。为了削减计算量而采用了 NCE。NCE将从整个搜索空间Ω中随机选择出的采样句子设为e-。此外，通过集束宽度W的集束搜索来算出期待值，通过舍弃分数低的对齐来进一步削减计算量。而且，将上述式(11)变形为适于在线(on line)处理的形式。

[数13]

其中，e⁺表示在学习数据中成为f⁺的对照翻译的目标语言的句子，即 (f⁺，e⁺)∈T，e^-表示通过随机采样生成的、长度为|e⁺|的疑似的目标语言的句子，N表示针对f⁺生成的疑似的目标语言的句子的数目。GEN表示可能的所有的对齐的集合Φ的、通过集束搜索而生成的子集。

在生成e^-的单纯的方法中，从目标语言的词语集合V_e中随机地采样第 |e⁺|次的语言的词语，通过排列这些词语来生成e^-。为了通过模型的学习而生成有效的负样本，从在原语言的词语f_i∈f⁺和学习数据的对照翻译句子内同时出现的目标语言的词语之内、判定为在组入了10prior的IBM模型1中具有比阈值C大的概率的词语(翻译候补的词语)的词语集合中进行采样。由于组入了10prior的IBM模型1与标准的IBM模型1相比生成更松散的对齐，因此在削减翻译候补的数目这一点上适合。

<协议制约>

基于FFNN的模型、基于RNN的模型都将HMM对齐模型作为基础，因此为非对称。即，在从目标语言侧观察时，能表示1对多的对齐。这种非对称模型的学习通常在两个对齐方向上进行。但是，关于具有这种方向性的模型，已知如果进行两者一致那样的学习则对齐性能会提高。将这种制约称作协议制约。以下，说明对上述模型加上协议制约来进行学习的方法。

具体来说，协议制约加上使双方向上的词嵌入一致之类的条件。在本实施方式中，针对双方向的模型，按照以下所示那样的导入了表现词嵌入的差异的惩罚项的目标函数来进行学习。

[数14]

其中，θ_FE(θ_EF)表示从原语言向目标语言(从目标语言向原语言) 的对齐模型中的各层的权重，θ_L表示输入层(Lookup层)即词嵌入的权重，α表示对协议制约的强度进行控制的参数。“||θ||”表示范数(norm)。在后述的实验中，使用了2-norm。式(13)以及式(14)均能利用于有监督学习以及无监督学习这两者。也可分别将式(7)以及式(12)代入到式 (13)、式(14)的loss(θ)中。

参照图5，实现本实施方式中的学习的程序具有以下那样的控制结构。此外，如后述那样与本实施方式相关的词语对齐模型学习装置、以及词语对齐装置一般实际上通过计算机硬件和由该计算机硬件执行的计算机程序来实现。但是，这些装置也都可以通过专用的硬件来实现，还都可以通过可编程逻辑器件来实现。

该程序首先读出预先记入了参数的设定文件，设定批大小D、N、C、 W、α(步骤150)。接下来，接收θ¹ _FE、θ¹ _EF和表示最大反复次数的常数 MaxIter的输入，同时读入学习数据T和IBM1(步骤152)。在此，IBM1 是针对原语言以及目标语言的各词语，将利用组入了10prior的IBM模型1 而找到的翻译候补的词语进行排列后得到的列表。该程序接着上述步骤还包括：对满足1≤t≤MaxIter的所有t反复以下处理的步骤154；和输出在步骤154完成时得到的值θ_EF ^MaxIter+1以及θ_FE ^MAXIter+1并结束处理的步骤156。

步骤154中对各t反复的处理包括：从学习数据T中采样D个对照翻译句对(f⁺，e⁺)^D的步骤170；基于利用组入了10prior的IBM模型1而找到的f⁺中的各词语的翻译候补(IBM1)，对各f⁺生成N个疑似的负样本的步骤172；和通过同样的处理，基于e⁺中的各词语的翻译候补，对各e⁺生成N个疑似的负样本的步骤174。进而，通过步骤176以及178，遵从上述的目标函数来更新神经网络的各层的权重。θ^t _EF以及θ^t _FE分别被反复同时更新，在更新θ^t _FE和θ^t _EF时，为了分别使词嵌入相互相符(一致)而使用θ^t-1 _EF和θ^t-1 _FE的值。

图6中表示使用基于该RNN的模型来进行对照翻译语料库的词语对齐的计算机程序的控制结构。由此，例如能够对统计机器翻译装置的学习所使用的学习数据(对照翻译语料库)赋予词语对齐。参照图6，该程序包括：读出基于RNN的模型的学习完成参数，对RNN进行初始化的步骤190；打开对照翻译语料库的步骤192；对所有的对照翻译(f₁ ^J，e₁ ^I)执行词语对齐的步骤194；和通过步骤194对所有的对照翻译关闭词语对齐结束后的学习数据文件并结束处理的步骤196。

步骤194包括：对针对处理中的对照翻译(f₁ ^J，e₁ ^I)而考虑的所有的对齐(a₁ ^J，_k)(k＝1～K)算出后述的分数s_k并存储的步骤200；在所有的对齐 (a₁ ^J，_k)(k＝1～K)之中选择通过步骤200存储的分数s_k成为最大的对齐作为针对处理中的对照翻译的对齐，对对照翻译附加标签来更新学习数据的步骤202。

步骤200包括：将分数s_k初始化为1的步骤210；在以变量j＝1～J的顺序依次变化来选择原语言的词语f_j的同时，对于各j，针对词语f_j和通过对齐a_j与该词语f_j对齐的词语e_{a_{j}}，考虑到此为止所得到的所有对齐结果(a₁ ^j-1) 来更新分数s_k，算出最终的分数s_k的步骤212；和将在步骤212中算出的分数s_k作为针对第k个对齐的分数进行存储的步骤214。

步骤212包括：算出分数t_RNN(a_j|a₁ ^j-1，f_j，e_{a_{j}})的步骤220；和对分数s_k乘以分数t_RNN来更新分数s_k的步骤222。

[第2实施方式]

第1实施方式为对基于RNN的模型加上双方向的协议制约的实施方式。但是本发明并不限于加上了这种协议制约的情况。也可采用没有协议制约的一个方向的RNN模型。

图7中表示实现在该第2实施方式中使用的模型的学习的计算机程序的控制结构。图7中所示的程序包括步骤240以及242来代替图5所示的步骤 154以及步骤156。步骤240实质上是从图5的步骤154中去除步骤174以及步骤178，只计算两个变量之中的一个变量。步骤242与步骤156的不同之处在于，只输出在图5的步骤156中输出的2个变量之中在步骤240中计算的一个变量的值。

图5中的步骤176以及178分别将式(13)、式(14)作为目标函数来更新各权重，相对于此，在图7的步骤176中，在将式(7)或者(12)设为目标函数这一点上不同。图7中，其他各个步骤中进行的处理分别与采用图5中所示的步骤来执行的处理相同。

[实验]

为了研究上述实施方式中记载的词语对齐方法的性能而进行了实验。实验中，进行了语料库BTEC(Toshiyuki Takezawa，Eiichiro Sumita，Fumiaki Sugaya，HirofumiYamamoto，and Seiichi Yamamoto.2002.Toward a Broad-coverage Bilingual Corpusfor Speech Translation of Travel Conversations in the Real World.InProceedings of the 3rd International Conference on Language Resources andEvaluation，pages 147-152.)中的日语和英语的词语对齐、和2003NAACL公共任务(RadaMihalcea and Ted Pedersen.2003.An Evaluation Exercise for Word Alignment.InProceedings of the HLT-NAACL 2003Workshop on Building and Using ParallelTexts： Data Driven Machine Translation and Beyond，pages 1-10.)中采用的Hansards数据组(Hansards)中的法语和英语的对齐。进而，也针对FBIS 语料库中的从中文向英语的翻译任务、IWSLT2007中的从日语向英语的翻译任务、以及NTCIR日语-英语专利翻译任务，评价了其翻译性能。

图8中采用表格形式表示所使用的数据组的大小。针对BTEC以及 Hansards，由于通过预备实验设定完成了用于对齐任务的超参数(hyper parameter)，因此不采用开发组。BTEC数据是IWSLT的学习数据中的最初的9,960个对照翻译句对，通过Goh等人(Chooi-LingGoh，Taro Watanabe， Hirofumi Yamamoto，and Eiichiro Sumita.2010.Constraining aGenerative Word Alignment Model with Discriminative Output.IEICETransactions，93-D(7)：1976-1983.)附加了词语对齐。将该数据分割为两个。是由开头的9000个句对构成的学习数据、和由最后的960个句对构成的测试数据。针对BTEC的所有数据进行了词语对齐，但Hansards中的学习数据没有进行标签附加。针对FBIS将NIST02评价数据用作开发数据，将NIST03以及04 的评价数据用作测试数据。

<比较对象>

针对与上述实施方式相关的基于RNN的对齐模型，与两个基准模型进行了对比。第1为IBM模型4，第2为具有一个隐藏层的基于FFNN的模型。 IBM模型4是利用由Och以及Ney(Franz Josef Och and Hermann Ney.2003. A Systematic Comparison of VariousStatistical Alignment Models. Computational Linguistics，29：19-51.)表示的模型序列(1⁵H⁵3⁵4⁵：采用IBM 模型1反复5次，此后采用HMM模型反复5次、...)进行了学习后的模型，这是针对GIZA++的默认的设定(IBM4)。针对基于FFNN的模型，将词嵌入长M设定为30，将隐藏层的单元数目|z₁|设定为100，将窗口宽度设定为5。按照Yang等人(Nan Yang，ShujieLiu，Mu Li，Ming Zhou，and Nenghai Yu.2013.Word Alignment Modeling with ContextDependent Deep Neural Network.In Proceedings of the 51st Annual Meeting ofthe Association for Computational Linguistics(Volume 1：Long Papers)，pages166-175.)的指教，通过已经说明的有监督学习来进行了基于FFNN的模型的学习。

关于基于RNN的模型，分别将词嵌入长M设定为30，将隐藏层的单元数|y_i|设定为100。在评价实验中，对基于RNN的4个模型即RNN_s、RNN_s+c、 RNN_u、以及RNN_u+c的性能进行了评价。在此，“s/u”表示基于有监督/无监督学习的模型，“+c”表示是否加上了协议制约。

在涉及除IBM4以外的模型的学习中，首先对各层的权重进行了初始化。即，针对输入层(Lookup层)L的权重，对原语言以及目标语言这两者从学习数据的各侧对词嵌入进行学习，将所得到的词嵌入设定为L。由此，避免落入局部最优解。针对其他权重，在闭区间[-0.1，0.1]的范围内设定为随机的值。在词嵌入的学习中以默认设定采用了基于Mikolov等人 (Tomas Mikolov，Martin Karafiat，Lukas Burget，Jan Cernocky，and SanjeevKhudanpur.2010.Recurrent Neural Network based Language Model.In Proceedingsof 11th Annual Conference of the International Speech CommunicationAssociation，pages 1045-1048.)的RNNLM工具箱 (http：//www.fit.vutbr.cz/～imikolov/)。其中，在此，出现少于5次的词语全部被收集于<unk>之类特别的标识(token)中。接下来，采用Mini-batch SGD对每个权重进行了最优化。在此，批大小D设定为100，学习率设定为 0.01，l2标准化参数设定为0.1。学习在反复了50代之后结束。其他参数如以下所示那样。无监督学习中的参数W、N以及C分别设定为100、50以及 0.001。表示协议制约的强度的参数α设定为0.1。

在翻译任务中，采用了Koehn等人(Philipp Koehn，Hieu Hoang， AlexandraBirch，Chris Callison-Burch，Marcello Federico，Nicola Bertoldi， Brooke Cowan，Wade Shen，Christine Moran，Richard Zens，Chris Dyer，Ondrej Bojar，AlexandraConstrantin，and Evan Herbst.2007.Moses：Open Source Toolkit for StatisticalMachine Translation.In Proceedings of the 45th Annual Meeting of theAssociation for Computational Linguistics on Interactive Poster andDemonstration Sessions，pages 177-180.)的基于短语的 SMT。日语以及中文句子全部使用Chasen以及Stanford segmenter来分别进行了词语分割。在学习中，除去了超过40个词语的较长句子。使用采用了改良型的Kneser-Ney(modified Kneser-Ney)平滑化的SRILM工具箱 (Stolcke，2002)，采用学习数据的英语侧进行了用于IWSLT以及NTCIR 的5文法语言模型的学习，采用English Gigaword Corpus的Xinhua侧进行了用于FBIS的5文法语言模型的学习。关于SMT的权重参数，采用开发数据并采用MERT(Franz Josef Och.2003.MinimumError Rate Training in Statistical Machine Translation.In Proceedings of the41st Annual Meeting of the Association for Computational Linguistics，pages160-167.)进行了调整。

<词语对齐的结果>

图9表示利用F值对词语对齐的性能进行了评价的结果。在以下的说明中，MODEL(R)以及MODEL(I)分别表示将正解对齐、基于IBM模型 4的词语对齐作为训练数据进行了学习后的模型。在Hansards中，利用从学习数据中随机采样到的100K的数据进行了所有模型的学习。关于词语对齐的评价，首先在双方向上对各模型进行应用并对各个方向的对齐进行了解析，之后利用“grow-diag-final-and”启发式(Philipp Koehn，Franz Josef Och，and Daniel Marcu.2003.Statistical Phrase-Based Translation.In Proceedings ofthe 2003Human Language Technology Conference：North American Chapter of theAssociation for Computational Linguistics，pages 48-54.)将这些对齐组合起来，针对组合后的结果来进行。与词语对齐的性能相关的显著性检验采用显著标签5％通过符号检验来进行。图9的“+”表示与基准 (IBM4以及FFNN_s(R/I))之间存在显著性差异。

图9中，RNN_u+c具备在上述实施方式中记载的所有的特征。即，全部应用基于RNN的模型、无监督学习、以及协议制约。而且，该RNN_u+c在 BTEC以及Hansards这两者中示出最好的性能。尤其，与基准的系统之间的差异在统计上是显著性的。根据图9还可知，针对BTEC，RNN_s(R/I)相对于FFNN_s(R/I)在统计上示出显著性差异。根据这些结果，通过基于RNN 的模型，不仅是刚刚之前的对齐结果而且还考虑这以前的对齐结果来进行词语对齐，从而能够确认到性能得到提高。

根据图9，RNN_s+c(R/I)以及RNN_u+c在任一个任务中都分别示出比RNN_s (R/I)以及RNN_u更好的性能。根据该结果可知，如果加上协议制约则模型的性能会得到提高。

在BTEC中，RNN_u以及RNN_u+c的性能分别超过RNN_s(I)以及RNN_s+c (I)的性能很多，但在Hansards中在这些性能之间没有较大的差异。这种情况表示，如将学习数据的自动对齐结果使用作训练数据时那样，在训练数据的精度不高时，上述实施方式的无监督学习有效果。

<机器翻译的结果>

图10表示利用区分了大写字母和小写字母的BLEU值(Kishore Papineni，SalimRoukos，Todd Ward，and Wei-Jing Zhu.2002.BLEU：a Method for Automatic Evaluationof Machine Translation.In Proceedings of 40th Annual Meeting of theAssociation for Computational Linguistics，pages 311-318.)进行了测定的翻译精度。各值为采用3次独立的MERT处理得到的BLEU值的算术平均。

在NTCIR以及FBIS中，利用随机采样的100K的数据对各对齐模型进行了学习，之后使用采用该对齐模型进行了词语对齐后得到的全部学习数据来进行翻译模型的学习。进而，也进行了采用所有的学习数据进行了学习的基于IBM模型4的SMT系统(IBM4_all)的评价。与翻译性能相关的显著性检验采用显著标签5％通过基于boot strap的检验方法(PhilippKoehn. 2004.Statistical Significance Tests for Machine TranslationEvaluation.In Proceedings of the 2004Conference on Empirical Methods inNatural Language Processing，pages 388-395.)来进行。图10中“*”表示翻译性能对于两个基准、IBM4以及FFNN_s(I)这两者具有显著性差异。

根据图10的结果可知，RNN_u以及RNN_u+c示出在所有的任务中超过 FFNN_s(I)以及IBM4的性能。因此，可知，通过利用采用基于RNN的模型进行了词语对齐后的学习数据来进行翻译模型的学习，从而翻译性能得到提高。进而，根据图10可知，基于RNN的模型在NTCIR以及FBIS任务中，与仅采用一部分学习数据进行了学习的情况无关地，示出与IBM4_all相匹敌的性能。

图11中，采用○表示基于RNN_s(R)的针对日语和英语的对照翻译句子的词语对齐的结果，采用Δ表示基于FFNN_s(R)的词语对齐的结果，采用实线的□表示正确的对齐。根据图11可知，基于RNN_s(R)的模型大致正确地进行了包括远离的两个词语在内的复杂的对齐。在FFNN_s(R)中尤其不能顺利地进行远离的两个词语的对齐。这是因为，相对于FFNN_s(R) 只采用刚刚之前的对齐的结果，RNN_s(R)不仅采用刚刚之前的对齐的结果还采用这以前的对齐的结果，在某种意义下可以说进行了短语级的对齐。

图12中表示基于RNN_s(I)和FFNN_s(I)针对法语和英语的对照翻译句子的词语对齐的结果。由于在英语和法语中词序相似，因此可知，刚刚之前的对齐结果成为词语对齐的较大线索，在FFNN_s(I)中也能提高对齐精度。因此，认为在这种语言对中即使采用RNN_s(I)也不能得到这么大的效果。

<学习数据大小>

图13中表示采用改变学习数据的大小后进行了学习的各模型来进行 BTEC的词语对齐所得到的结果(F值)。学习数据为从IWSLT用的学习数据(40K)、BTEC用的学习数据(9K)、以及BTEC的学习数据中随机采样的学习数据(1K)。此外，由于针对IWSLT没有对齐的正解数据，因此针对RNN_s+c(R)不能进行采用了IWSLT用的数据(40K)的学习。

根据图13，与上述实施方式相关的基于RNN的模型的性能在采用1K 的带标签数据中进行了学习的情况下、采用9K的无标签数据中进行了学习的情况下，都超过利用40K的无标签的学习数据进行了学习后的IBM模型 4。即，对于基于RNN的模型来说，即使采用不足IBM模型4的学习数据的 25％的数据进行学习也示出超过IBM模型4的性能。因此，根据采用了利用非常少的学习数据进行了学习后得到的RNN_u+c模型的SMT，能够得到与图 10所示那样的基于使用所有学习数据进行了学习后得到的IBM模型4的SMT同等以上的性能。

如上那样如果采用与上述实施方式相关的基于RNN的模型，则不仅使用刚刚之前的词语对齐的结果，而且使用这以前的词语对齐的结果来进行词语的对齐。其结果是，如在实验中所明确的那样，采用了该模型的词语对齐示出比以往的仅依赖于刚刚之前的词语对齐来进行词语对齐的模型更高的性能。而且该模型也可为无监督学习下的学习，其结果所得到的模型的性能也高。进而，即使学习中所需的学习数据的数量较少也能得到现有模型的同等以上的性能。

[基于计算机的实现]

上述的词语对齐模型学习装置以及词语对齐装置实质上能够由计算机硬件和与计算机硬件进行协作的计算机程序来实现。

<软件结构>

关于软件结构，如图5、图6以及图7中所记载的那样。

<硬件结构>

图14表示实现上述词语对齐模型学习装置以及词语对齐装置的包括计算机340在内的计算机系统330的外观，图15表示计算机340的内部结构。

参照图14，该计算机系统330包括计算机340和与该计算机340连接的监视器342、键盘346、以及鼠标348。计算机340具有能安装DVD362(参照图15)的DVD驱动器350和安装可移动存储器364(参照图15)的存储器端口352。

参照图15，计算机340除了上述的DVD驱动器350以及存储器端口352 之外，还包括：CPU(中央运算处理装置)356；与CPU356连接的总线366；存储启动程序等的可改写的读出专用存储器(ROM)358；存储程序命令、系统程序、以及操作数据等的随机存取存储器(RAM)360；存储计算机程序以及对照翻译语料库等的硬盘驱动器(HDD)354和能与其他终端进行通信的网络接口(I/F)344。

用于使计算机系统330作为与上述实施方式相关的词语对齐模型学习装置以及词语对齐装置的各功能部起作用的计算机程序，其预先被存储于可移动存储器364中，在将可移动存储器364装载于存储器端口352之后启动ROM358的改写程序，从而被传送并存储于ROM358或者HDD354中。或者将程序通过经由网络I/F344的通信从网络上的其他装置传送到RAM360，此后也可写入到ROM358或者HDD354。程序在执行时从 ROM358或者HDD354中被读出，被载入RAM360，并由CPU356执行。

在ROM358或者HDD354中存储的程序包括用于使计算机340作为与上述实施方式相关的词语对齐模型学习装置以及词语对齐装置的各功能部起作用的多个命令所构成的命令串。进行该动作所需的几个基本功能有时通过在计算机340上进行动作的操作系统或者第三方程序或安装于计算机340的各种可编程工具箱或程序库被实时且动态地提供。因此，该程序自身也可不必包括用于实现与本实施方式相关的词语对齐模型学习装置以及词语对齐装置所需的所有功能。该程序只要仅包括命令之中为了得到期望的结果而以被控制的方式从计算机340的存储装置内动态地调取适当的功能或者可编程工具箱内的适当的程序工具从而实现作为上述系统的功能的命令即可。当然，也可仅由程序来提供所有必要的功能。

执行计算机程序时的计算机系统330的动作是众所周知的。因此，在此不重复其详细情况。

上述实施方式中，首先从英语句子的开头依次地选择词语，按照对齐来算出各对齐的分数。但是，本发明并不限于这种实施方式。选择词语的顺序也可以是任意的，只要能够以规定的顺序选择所有词语就可以为任意的顺序。不过，如上述实施方式那样从一种语言的句子的开头的词语起依次与另一种语言的词语进行对齐是比较简单的。

此外，在上述实施方式中采用特定的函数作为循环型的神经网络的各层的函数。但是本发明并不限于这种实施方式。例如在隐藏层中，只要能够表现两个词语之间的非线性的关系就可以采用任何函数。关于输入层以及输出层也同样。此外，在上述的实施方式中，神经网络的输出为分数，但如上述那样神经网络的输出也可以是两个词语正确地建立对应的概率。概率也能认为是某种分数。

在上述实施方式中，采用同一计算机来执行RNN型的神经网络的学习和词语对齐。但是，当然本发明并不限于这种实施方式。将通过学习得到的神经网络的参数复制到其他计算机并建立RNN型的神经网络，从而能够采用任意的计算机来进行词语对齐。

本次公开的实施方式仅是例示，本发明不应仅限于上述的实施方式。本发明的范围在参照发明的详细说明的记载的基础上，通过权利要求书的各权利要求来示出，包括与在本文记载的语句均等的意思以及范围内的所有的变更。

工业可利用性

本发明能够利用于在两个句子、例如不同语言的两个句子之间确定相对应的词语，典型地能够利用于用于基于统计的语言翻译的翻译模型的学习数据的创建、用于翻译者以及翻译监督人员的翻译的验证装置、用于两个文件之间的比较的装置等中。

符号说明

20 对照翻译句对

30 日语句子

32 英语句子

40，42 对齐

60 神经网络

70，110 输入层(Lookup层)

72，112 隐藏层

74，114 输出层

76 词汇翻译分数

80，130 原语言的输入部

82，132 目标语言的输入部

100 基于RNN的模型

102 分数

118 循环连接

Claims

1.一种词语对齐分数算出装置，算出第1语言和第2语言的对照翻译句对的词语对齐的分数，该词语对齐分数算出装置包括：

选择单元，其接收上述对照翻译句对和针对该对照翻译句对的词语对齐，按照规定的顺序依次选择上述对照翻译句对的上述第1语言的句子的词语；和

分数算出单元，其针对上述对照翻译句对的上述第1语言的句子的所有词语，算出表示由通过上述选择单元选择出的词语和通过上述词语对齐与该词语建立了对应的上述第2语言的词语构成的词语对为正确的词语对的可能性的分数，基于该分数算出上述词语对齐的分数，

上述分数算出单元在算出某词语对的分数时，基于上述词语对齐之中、在构成该某词语对的上述第1语言的词语之前通过上述选择单元选择出的词语的对齐的全体，算出该某词语对的分数。

2.根据权利要求1所述的词语对齐分数算出装置，其中，

上述选择单元包括在上述对照翻译句对内从上述第1语言的句子的开头起依次选择上述第1语言的句子的词语的单元。

3.根据权利要求1所述的词语对齐分数算出装置，其中，

上述分数算出单元包括：

第1算出单元，其算出表示由通过上述选择单元选择出的词语和上述对照翻译句对的上述第2语言的句子之中通过上述词语对齐与该词语建立了对应的词语构成的词语对为正确的词语对的可能性的分数；和

第2算出单元，其基于针对上述对照翻译句对的上述第1语言的句子的所有词语通过上述第1算出单元算出的分数，算出上述词语对齐的分数。

4.根据权利要求2所述的词语对齐分数算出装置，其中，

上述分数算出单元包括：

5.根据权利要求3或4所述的词语对齐分数算出装置，其中，

上述第2算出单元包括通过将针对上述对照翻译句对的上述第1语言的句子的所有词语通过上述第1算出单元算出的分数彼此相乘，从而算出上述词语对齐的分数的单元。

6.根据权利要求1～4中任一项所述的词语对齐分数算出装置，其中，

上述分数算出单元包括：

循环型的神经网络，其具有第1输入和第2输入，其中，该第1输入接收通过上述选择单元选择出的词语，该第2输入接收通过上述词语对齐与该词语建立了对应的上述第2语言的词语；和

输入控制单元，其将通过上述选择单元选择出的词语和通过上述词语对齐与该词语建立了对应的词语分别提供给上述第1输入以及上述第2输入，

上述循环型的神经网络包括：

输入层，其具有上述第1输入以及上述第2输入，从分别提供给上述第1输入以及上述第2输入的词语中算出词嵌入向量并输出；

隐藏层，其接收上述输入层的输出，通过预先决定的非线性运算来生成表示来自上述输入层的两个输出的关系的向量；和

输出层，其基于上述隐藏层的输出来算出上述词语对齐的分数并输出，

在将接下来的词语对作为输入而提供给上述词语对齐分数算出装置时，上述隐藏层的输出被作为输入而提供给上述隐藏层。

7.一种词语对齐装置，对第1语言和第2语言的对照翻译句对的词语对齐进行推定，该词语对齐装置包括：

权利要求1～权利要求6中任一项所述的词语对齐分数算出装置；

词语对齐候补生成单元，其对上述对照翻译句对生成多个词语对齐候补；

算出单元，其针对通过上述词语对齐候补生成单元而生成的上述多个词语对齐候补的每一个词语对齐候补，使用上述词语对齐分数算出装置来算出针对上述对照翻译句对的词语对齐分数；和

词语对齐决定单元，其将与通过上述算出单元对上述多个词语对齐候补算出的词语对齐分数之中最高的分数对应的词语对齐候补决定为上述对照翻译句对的词语对齐并输出。

8.一种存储了计算机程序的计算机可读取的存储介质，如果该计算机程序通过计算机被执行，则使该计算机作为权利要求1～权利要求7中任一项中所述的各单元起作用。