CN105144149B

CN105144149B - 翻译词序信息输出装置、翻译词序信息输出方法及存储介质

Info

Publication number: CN105144149B
Application number: CN201480023752.8A
Authority: CN
Inventors: 后藤功雄
Original assignee: State-Run Research And Development Legal Person Nict
Current assignee: State-Run Research And Development Legal Person Nict
Priority date: 2013-05-29
Filing date: 2014-05-20
Publication date: 2017-10-27
Anticipated expiration: 2034-05-20
Also published as: KR20160016768A; EP3007076A4; EP3007076A1; JP6296592B2; JP2014232452A; CN105144149A; WO2014192598A1; US20160085748A1

Abstract

以往在统计翻译中难以正确确定翻译的词序。通过一种翻译词序信息输出装置，在已知目前已翻译的用语的状态下，能够在源语言句中正确确定下一个应翻译的用语，该翻译词序信息输出装置具备：语句存储部，能够存储源语言句；权重向量存储部，能够存储权重向量；接受部，用于接受当前用语的当前用语位置，所述当前用语是当前的翻译对象的用语；候选取得部，从源语言句中取得当前用语位置以及作为当前用语之后下一个被翻译的候选的一个以上下一个用语位置候选；向量取得部，使用当前用语、下一个用语候选以及源语言句，取得具有两个以上要素的向量；概率信息取得部，使用向量和权重向量，按照一个以上的各下一个用语位置候选分别取得概率信息，其中，所述概率信息为，关于一个以上的各下一个用语位置候选的用语为当前用语之后下一个被翻译的下一个用语的概率的信息；以及输出部，用于输出概率信息。

Description

翻译词序信息输出装置、翻译词序信息输出方法及存储介质

技术领域

本发明涉及有助于确定翻译的词序的翻译词序信息输出装置等。

背景技术

机器翻译中的主要问题是翻译词选择和词序推定。另外，例如在统计翻译中，翻译词选择的性能较高，所以统计翻译目前最大的问题是词序推定。作为机器翻译方法之一，在基于短语的统计翻译中，作为代表性的翻译算法存在从左(句首)向右(句尾)连续生成目标语言句的算法。在这种情况下，在已知目前已翻译的输入语句的位置(CP)的状态下，需要推定下一个应翻译的输入语句的位置(NP)。下面，在图11中示出了CP和NP的例子。此外，CP是目前已翻译的输入语句的位置，也可以认为是该位置的用语。在以下的说明中，将该位置的用语适当地称作当前用语。另外，NP是下一个应翻译的输入语句的位置，也可以认为是该位置的用语。在以下的说明中，将该位置的用语适当地称作下一个用语。

在现有技术中，主要通过词汇重排序(lexical reordering)模型进行NP的推定(例如，参考非专利文献1)。词汇重排序模型是指，计算NP为连续(monotone)、交换(swap)、非连续(discontinuous)中的某一个的概率。此外，连续是指CP与NP连续，交换是指交换CP与NP的词序，非连续是指CP与NP非连续(参考图12)。

另外，还提出了使用推定扭曲级别(distortion class)的概率的模型进行NP推定的方法(例如，参考非专利文献2)。在该现有技术中，利用CP的词语和其周围的词语来推定NP相距多远。使用扭曲级别表示相距多远。当将CP设为i、将NP的候选设为j时，扭曲(distortion)被定义为j-i-1。非专利文献2中的扭曲级别为用于对扭曲进行分类的如下的九个级别：(-∞,-8)、[-7,-5]、[-4,-3]、-2、0、1、[2,3]、[4,6]、[7,∞]。此外，扭曲、扭曲级别等是后述的距离以及CP与NP候选之间的相对词序的信息的一例。

此外，还提出了利用如下模型的方案：利用NP的候选词语和其周围的词语，当该NP的候选词语为NP时，推定CP应相距多远的概率。

在先技术文献

非专利文献

非专利文献1：Christoph Tillman.2004.A unigram orientation model forstatistical machine translation.HLT-NAACL 2004:Short Papers,pages 101–104,Boston,Massachusetts,USA,May 2-May 7.Association for ComputationalLinguistics.

非专利文献2：Spence Green,Michel Galley,and ChristopherD.Manning.2010.Improved models of distortion cost for statistical machinetranslation.In Human Language Technologies:The 2010 Annual Conference of theNorth American Chapter of the Association for Computational Linguistics,pages867–875,LosAngeles,California,June.Association for ComputationalLinguistics.

发明内容

发明所要解决的技术问题

然而，在以往的翻译词序信息输出装置中，统计翻译过程中，在已知目前已翻译的用语的位置的状态下，难以在源语言句中正确确定下一个应翻译的用语的位置。

进一步具体而言，在词汇重排序模型中，由于仅使用了非连续的概率，因而不能确定远离CP的NP，因此，难以在词序差异较大的语言之间进行高精度的词序推定。

在推定扭曲级别的概率的模型中，没有同时考虑CP的词语和NP候选的词语，因此无法正确推定NP。

在图13中示出了上述词序推定难度问题的汇总。图13的(1)(2)的例子是表示仅通过CP和其周围的词语无法正确推定NP的例子。即，目前在(1)(2)中，与源语言用语“彼”(CP为“彼”)(彼：日语，意为“他”)相对应的目标语言用语为“he”(he：英语，意为“他”)。而且，虽然NP为“買った”(買った：日语，意为“买了”、“买”的过去时)，但是，在取得NP“買った”时，需要同时考虑CP和NP候选的词语。即，在(1)(2)的例子中，需要同时考虑CP和NP候选的词语。

另外，图13的(3)(4)的例子是表示仅通过CP和NP候选的词语无法正确进行推定的例子。即，在(3)中，CP为“彼”时，NP为“借りた”(借りた：日语，意为“借了”、“借”的过去时)，而不是“買った”。另外，在(4)中，CP为“彼”时，NP为“買った”，而不是“借りた”。即，在(3)(4)的例子中，需要考虑相对词序。

另外，在图13的(4)(5)的例子是表示并非选择距离近的词语就好的例子。在(4)中，CP为“彼”时，NP为“買った”，但是，在(5)中，CP为“彼”时，NP为“借りた”。即，在(4)(5)的例子中，需要考虑CP和NP候选的周围的词语。

用于解决技术问题的方案

本申请的第一项发明的翻译词序信息输出装置具备：语句存储部，能够存储源语言句，所述源语言句是翻译对象的源语言的语句；权重向量存储部，能够存储权重向量，所述权重向量表示向量的各要素的权重；接受部，用于接受当前用语位置，所述当前用语位置是源语言句中的一个用语位置并且是当前的翻译对象的用语位置；候选取得部，从源语言句中取得当前用语位置以及一个以上的下一个用语位置候选，所述下一个用语位置候选是作为当前用语之后下一个被翻译的候选的用语的位置；向量取得部，分别区别使用通过当前用语位置表示的当前用语、通过下一个用语位置候选表示的下一个用语候选以及一个以上的中间用语，取得具有两个以上要素的向量，其中，所述中间用语是当前用语与下一个用语候选之间的用语；概率信息取得部，使用向量取得部取得的向量以及权重向量，按照候选取得部取得的一个以上的各下一个用语位置候选分别取得概率信息，其中，所述概率信息为，关于所述一个以上的各下一个用语位置候选的用语为当前用语之后下一个被翻译的下一个用语的概率的信息；以及输出部，用于输出概率信息取得部取得的概率信息。

根据该结构，在已知目前已翻译的用语位置的状态下，能够在源语言句中正确确定下一个应翻译的用语位置。

另外，与第一项发明相对应地，本申请的第二项发明的翻译词序信息输出装置为，向量取得部具备：原始信息取得单元，用于取得原始信息，所述原始信息具有：当前用语、包含该当前用语前方的第一个用语或后方的第一个用语在内的一个以上的当前用语周边用语、下一个用语候选、包含该下一个用语候选前方的第一个用语或后方的第一个用语在内的一个以上的下一个用语周边用语、关于在源语言句中当前用语与下一个用语候选的相对词序的信息即词序信息、关于当前用语与下一个用语候选在源语言句中的距离的信息即距离信息、以及当前用语与下一个用语候选之间的用语即一个以上的中间用语；以及向量取得单元，使用原始信息取得单元取得的原始信息，取得具有两个以上要素的向量。

根据该结构，在已知目前已翻译的用语的状态下，能够在源语言句中正确确定下一个应翻译的用语。

此外，与第一项发明相对应地，本申请的第三项发明的翻译词序信息输出装置为，向量取得部具备：原始信息取得单元，用于取得原始信息，所述原始信息具有：当前用语、包含该当前用语前方的第一个用语或后方的第一个用语在内的一个以上的当前用语周边用语、下一个用语候选、包含该下一个用语候选前方的第一个用语或后方的第一个用语在内的一个以上的下一个用语周边用语、关于在源语言句中当前用语与下一个用语候选的相对词序的信息即词序信息、以及关于当前用语与下一个用语候选在源语言句中的距离的信息即距离信息；以及向量取得单元，使用原始信息取得单元取得的原始信息，取得具有两个以上要素的向量。

根据该结构，在已知目前已翻译的用语的状态下，能够在源语言句中进一步正确确定下一个应翻译的用语。

此外，本申请的第四项发明的机器翻译装置具备：用语对词典，能够存储两个以上的用语对，所述用语对是源语言用语与目标语言用语的组；上述翻译词序信息输出装置；目标语言用语取得部，根据翻译词序信息输出装置输出的一个以上的下一个用语候选的概率信息，确定下一个用语，并从用语对词典中取得与该下一个用语相对应的目标语言用语；目标语言句构成部，根据目标语言用语取得部取得的一个以上的目标语言用语，构成目标语言句；以及目标语言句输出部，用于输出目标语言句构成部构成的目标语言句。

根据该结构，能够进行高精度的机器翻译。

另外，本申请的第五项发明的学习装置具备：权重向量存储部，能够存储权重向量，所述权重向量表示向量的各要素的权重；平行语料库存储部，能够存储平行语料库，所述平行语料库是源语言句与目标语言句的组即两个以上的对译句；用语对齐信息存储部，能够存储用语对齐信息，所述用语对齐信息是表示构成源语言句的用语与构成目标语言句的用语的对应关系的信息；学习部，一边从两个以上的各对译句所具有的两个以上的各目标语言句的左侧向右侧移动各目标语言句的当前用语，一边取得表示各目标语言句的当前用语的位置的当前用语位置、以及表示下一个用语的位置的下一个用语位置，并使用用语对齐信息，取得与各目标语言句的现用语位置以及下一个用语位置相对应的如下信息，即表示各源语言句的现用语的位置的现用语位置、表示下一个用语的位置的下一个用语位置以及除该下一个用语位置以外的全部下一个用语位置候选，并取得与各源语言句的当前用语位置、下一个用语位置以及全部下一个用语位置候选相关的一个或两个以上的特征量，进而使用该取得的特征量，以使熵达到最大的方式确定权重向量，从而取得该权重向量；以及权重向量累积部，将学习部取得的权重向量累积到所述权重向量存储部中。

根据该结构，能够学习用于进行高精度的机器翻译的权重向量。

发明效果

根据基于本发明的翻译词序信息输出装置，在机器翻译过程中，能够正确确定翻译的词序。

附图说明

图1是第一实施方式中的翻译词序信息输出装置1的框图。

图2是用于对第一实施方式中的翻译词序信息输出装置1的动作进行说明的流程图。

图3是示出第一实施方式中的序列(Sequence)模型的标注(label)系列的图。

图4是第二实施方式中的机器翻译装置2的框图。

图5是第三实施方式中的学习装置3的框图。

图6是用于对第三实施方式中的学习装置3的动作进行说明的流程图。

图7是示出第三实施方式中的实验结果的图。

图8是示出第三实施方式中的其他实验结果的图。

图9是上述各实施方式中的计算机系统的概略图。

图10是上述各实施方式中的计算机系统的框图。

图11是示出现有技术中的CP和NP的例子的图。

图12是说明现有技术中的词汇重排列模型的图。

图13是说明现有技术的问题的图。

具体实施方式

以下，参照附图，对翻译词序信息输出装置等的实施方式进行说明。此外，在实施方式中赋予了相同附图标记的构成要素执行相同的动作，因而有时对其省略重复说明。

(第一实施方式)

在本实施方式中，对翻译词序信息输出装置进行说明，该翻译词序信息输出装置在已知目前已翻译的用语的状态下，能够在源语言句中正确确定下一个应翻译的用语。此外，在本说明书中，用语通常是指单词，但也可以是多个单词、句子等。另外，翻译词序信息输出装置通常在统计翻译中被利用。

另外，本翻译词序信息输出装置使用后述的对(Pair)模型或序列模型等。

图1是本实施方式中的翻译词序信息输出装置1的框图。翻译词序信息输出装置1具备语句存储部11、权重向量存储部12、接受部13、候选取得部14、向量取得部15、概率信息取得部16、输出部17。

向量取得部15具备原始信息取得单元151、向量取得单元152。

语句存储部11能够存储一个或两个以上的源语言句。源语言句是翻译对象的源语言的语句。

权重向量存储部12能够存储权重向量，所述权重向量表示向量的各要素的权重。向量是指具有两个以上要素的信息，其中，所述两个以上要素是使用以原始信息作为参数的两个以上的特征函数取得的，关于该原始信息将在下文中进行说明。特征函数优选为二进制特征函数。例如，在某特征函数f中，当用s_i表示CP的用语、用s_j表示NP候选的用语时，如果将该特征函数中所使用的特征设为s_i＝“彼”、s_j＝“買った”，则该特征函数f为如下的数学式1。

[数学式1]

另外，权重向量例如是通过将在第二实施方式中说明的学习装置进行学习而得到的向量。

接受部13用于接受当前用语的位置，所述当前用语是源语言句中的一个用语并且是当前的翻译对象的用语。将当前用语的位置称作当前用语位置。当前的翻译对象的用语也可以说是最后的翻译对象的用语。在此，用语通常是指单词，但也可以是句子等。用语是构成句子的集合的某一部分。另外，接受是指包含如下接受方式在内的概念，即从软件接受、接受经由有线或无线的通信线路发送的信息、接受从光盘、磁盘、半导体存储器等存储介质读取出的信息、接受从键盘、鼠标、触摸面板等输入设备输入的信息等。

候选取得部14从源语言句中取得当前用语位置以及一个以上的下一个用语位置候选。下一个用语位置候选是指，作为当前用语之后下一个被翻译的候选的用语的位置。候选取得部14可以取得源语言句中除当前用语以外的全部用语的位置，以作为下一个用语位置候选。另外，候选取得部14也可以取得除源语言句中的当前用语以及BOS(表示句子的结尾的信息)以外的全部用语的位置，以作为下一个用语位置候选。另外，候选取得部14还可以排除源语言句中的当前用语以及已经被翻译的已翻译用语，而取得源语言句中的一个以上的用语，以作为下一个用语候选。

向量取得部15使用当前用语、下一个用语候选以及源语言句，取得具有两个以上要素的向量。

另外，优选为，向量取得部15还使用一个以上的中间用语取得具有两个以上要素的向量，其中，所述中间用语是源语言句中的用语并且是当前用语与下一个用语候选之间的用语。在此，向量取得部15通常分别区别使用当前用语、下一个用语候选以及中间用语取得向量。向量取得部15例如对当前用语赋予标注“0”，对中间用语赋予标注“1”，对下一个用语候选赋予标注“2”。然后，向量取得部15构成例如由“0”、“1”、“2”组成的标注序列(labelsequence)，并使用该标注序列取得向量。

进一步，向量取得部15通常使用两个以上的特征函数取得向量。在此，特征函数例如是二进制特征函数，但也可以是其他的特征函数。

然后，构成向量取得部15的原始信息取得单元151取得原始信息。原始信息是取得向量所必需的信息。该原始信息例如具有：当前用语、一个以上的当前用语周边用语、下一个用语候选、一个以上的下一个用语周边用语、词序信息、距离信息。

此外，当前用语周边用语是指，包含当前用语前方的第一个用语或后方的第一个用语在内的一个以上的用语。当前用语周边用语通常是指，包含当前用语前方的第一个用语或后方的第一个用语在内的、在源语言句中连续的用语。另外，当前用语周边用语优选为，包含当前用语前方的第一个用语以及后方的第一个用语在内的两个以上的用语。另外，当前用语周边用语例如是包含源语言句中的当前用语前方的两个用语以及后方的两个用语在内的四个用语。

另外，下一个用语周边用语是指，包含下一个用语候选前方的第一个用语或后方的第一个用语在内的一个以上的用语。下一个用语周边用语通常是指，包含下一个用语前方的第一个用语或后方的第一个用语在内的、在源语言句中连续的用语。另外，下一个用语周边用语优选为，包含下一个用语候选前方的第一个用语以及后方的第一个用语在内的两个以上的用语。另外，下一个用语周边用语例如是包含源语言句中的下一个用语前方的两个用语以及后方的两个用语在内的四个用语。

另外，词序信息是指，关于在源语言句中当前用语与下一个用语候选的相对词序的信息。词序信息例如是表示当前用语存在于下一个用语候选的左侧还是存在于下一个用语候选的右侧的标志。例如，当当前用语存在于下一个用语候选的左侧时，词序信息为“0”。另外，例如，当当前用语存在于下一个用语候选的右侧时，词序信息为“1”。

进一步，距离信息是指，关于当前用语与下一个用语候选在源语言句中的距离的信息。距离信息通常是表示根据当前用语与下一个用语候选在源语言句中的距离而分类的级别的信息。但是，距离信息也可以是当前用语与下一个用语候选在源语言句中的距离本身。此外，距离信息为表示上述级别的信息的情况是指，例如，距离为“1”(即，当前用语与下一个用语候选相邻时)时，距离信息为“0”；距离为“2以上且5以下”时，距离信息为“1”；距离为“6以上”时，距离信息为“2”。在此，级别为三个，但也可以是四个、五个等。

另外，原始信息可以进一步具有例如当前用语与下一个用语候选之间的一个以上的用语。此外，原始信息当然还可以具有上述以外的信息。

向量取得单元152使用原始信息取得单元151取得的原始信息，取得具有两个以上要素的向量。向量取得单元152通常使用两个以上的特征函数取得向量。此处的特征函数优选为二进制特征函数。

另外，向量取得单元152例如取得以如下特征函数的返回值作为要素的向量，即以构成原始信息的两个以上的各信息为参数的特征函数。也就是说，向量取得单元152将构成原始信息取得单元151取得的原始信息的各信息赋予给预定的特征函数，并执行该特征函数，进而取得执行结果。然后，向量取得单元152取得以该执行结果作为要素的向量。

概率信息取得部16使用向量取得部15取得的向量以及权重向量存储部12的权重向量(w)，对一个以上的各下一个用语位置候选分别取得概率信息。此外，概率信息是指关于如下概率的信息，即候选取得部14取得的一个以上的各下一个用语位置候选为当前用语之后下一个被翻译的下一个用语的位置(下一个用语位置)的概率。

该概率信息取得部16通常使用向量取得部15取得的向量与权重向量(也可以是权重向量的转置向量)的内积，对一个以上的各下一个用语位置候选分别取得概率信息。此外，优选为，概率信息取得部16使用该积的指数函数取得概率信息。即，优选为，概率信息取得部16使用exp(向量取得部15取得的向量与权重向量之积)取得概率信息。进一步优选为，概率信息取得部16对积的指数函数的执行结果进行标准化。即，优选为，概率信息取得部16使用(1/Z_i)exp(向量取得部15取得的向量与权重向量之积)取得概率信息。此外，在此Z_i是标准化项。

此外，概率信息取得部16事先存储有概率计算式，该概率计算式是用于计算下一个用语位置候选为下一个用语位置的概率的计算式。概率信息取得部16读取出概率计算式，将原始信息代入该概率计算式，并执行该概率计算式。然后，概率信息取得部16对每一个下一个用语位置候选取得概率信息。另外，概率计算式例如具有向量取得部15取得的向量与权重向量(也可以是权重向量的转置向量)之积。进一步具体而言，概率计算式例如是以下的数学式2或数学式3。此外，数学式2中示出的模型称为对模型，数学式3中示出的模型称为序列模型。

[数学式2]

此外，在表示对模型的数学式2中，将当前用语位置(也称作CP)设为i，将下一个用语位置候选(也称作NP候选)设为j，将输入语句(源语言句)设为S＝s₀···s_n+1＝s₀ ⁿ⁺¹(其中，s₀＝BOS(句首标记)、S_n+1＝EOS(句尾标记))。另外，在数学式2中，w是权重向量，f的要素是二进制特征函数，Z_i是标准化项。在使用对译语料库和单词对齐进行学习并进行翻译时，将该模型用于NP的概率计算。使用训练数据和最大熵法学习权重向量w。另外，同时考虑CP和CP周围的词语(s_i-2 ⁱ⁺²)以及NP候选和NP候选周围的词语(s_i-2 ⁱ⁺²)计算概率。此外，CP周围的词语(s_i-2 ⁱ⁺²)是上述当前用语周边用语，NP候选周围的词语(s_i-2 ⁱ⁺²)是上述下一个用语周边用语。

此外，exp()内的第一项是CP与标注系列中其他位置的组合。此外，第二项表示NP候选与标注系列中其他位置的组合。另外，在数学式2中，o是词序信息。而且，当当前用语存在于下一个用语候选的前方时，词序信息为“0”，而当当前用语存在于下一个用语候选的后方时，词序信息为“1”。另外，在数学式2中，d是距离信息。在数学式2中，距离信息可采用三个值。即，在数学式2中，当前用语与下一个用语候选在源语言句中的距离被分级为三个值中的某一个值。当当前用语与下一个用语候选之间的距离为1时，距离信息为“0”；当距离为2以上且5以下时，距离信息为“1”；当距离为6以上时，距离信息为“2”。此外，与距离本身相比，优选为将距离信息分成两个以上的级别。

[数学式3]

此外，在表示序列模型的数学式3中，Z_i是标准化项。另外，exp()内的第一项是CP与标注系列中其他位置的组合。另外，第二项表示NP候选与标注系列中其他位置的组合。

另外，在数学式3中，l_i是用语i(CP的用语)可采用的标注，l_j是用语j(NP候选的用语)可采用的标注，l_k是用语k可采用的标注。

另外，在对模型能够进行的“同时考虑CP和当前用语周边用语(CP周围的词语(s_i-2 ⁱ⁺²))以及NP候选和下一个用语周边用语(NP候选周围的词语(s_i-2 ⁱ⁺²))”的基础上，序列模型在通过训练数据进行学习并计算NP候选的概率时，还能够考虑“NP候选之间的相对词序”以及“距离的差异”(即，将权重向量设定为恰当的值)。

能够考虑相对词序的理由如下所述。标注系列能够考虑相对词序。例如，在图3中，标注系列ID为10时，能够考虑“買った”的左侧存在“借りた”。这是因为对“買った”赋予了标注2，而对“借りた”赋予了标注1。而且，标注1被定义为，与标注2相比相对靠近CP。

能够考虑距离的差异的理由如下所述。以使在不同长度的标注系列之间相互区别的方式设计模型，由此，该模型当然能够处理距离的影响。由于较长的标注系列在CP与NP候选之间包含有大量的标注，因此，将从较长的标注系列中提取出大量的特征量。另一方面，较短的标注系列在CP与CP候选之间包含有少量的标注，因此，将从较短的标注系列中提取出少量的特征量。源于这些差异的偏置(bias)提供了用于对距离的效应进行学习的重要线索。

输出部17输出概率信息取得部16取得的概率信息。在此，输出通常是指向其他处理装置或其他程序等传递处理结果。此外，其他程序例如是指机器翻译软件所具有的程序。但是，输出是包含如下输出方式在内的概念，即显示到显示器上、利用投影仪投影、通过打印机打印、输出语音、发送到外部装置、累积到存储介质中等。

语句存储部11、权重向量存储部12优选为非易失性的存储介质，但是，也可通过易失性的存储介质来实现。不限定将源语言句等存储到语句存储部11等中的过程。例如，可以借助存储介质将源语言句等存储在语句存储部11等中，也可以将经由通信线路等发送的源语言句等存储在语句存储部11等中，或者还可以将借助输入设备输入的源语言句等存储在语句存储部11等中。

候选取得部14、向量取得部15、原始信息取得单元151、向量取得单元152以及概率信息取得部16通常可由MPU和存储器等实现。候选取得部14等的处理顺序通常通过软件来实现，该软件存储在ROM等存储介质中。但是，候选取得部14等的处理顺序也可以通过硬件(专用电路)来实现。

输出部17通常可由MPU和存储器等实现。但是，既可以认为输出部17包括显示器和/或扬声器等的输出设备，也可以认为不包括。输出部17可以通过输出设备的驱动软件、或者输出设备的驱动软件与输出设备等实现。

接下来，使用图2的流程图，对翻译词序信息输出装置1的动作进行说明。

(步骤S201)接受部13判断是否接受了当前用语位置。如果接受了当前用语位置，则进入步骤S202，如果未接受当前用语位置，则返回步骤S201。

(步骤S202)候选取得部14从语句存储部11中读取出语句。此外，该语句是翻译对象的源语言句。另外，在步骤S201中接受的当前用语包含在该源语言句中。

(步骤S203)候选取得部14将1代入计数器c。

(步骤S204)候选取得部14取得第c个下一个用语位置候选。

(步骤S205)向量取得部15判断是否在步骤S204中取得了第c个下一个用语位置候选。如果取得了第c个下一个用语位置候选，则进入步骤S206，如果未取得，则进入步骤S212。

(步骤S206)向量取得部15的原始信息取得单元151取得原始信息。即，原始信息取得单元151取得例如一个以上的当前用语周边用语。在此，当前用语周边用语例如是四个用语，即当前用语前方的第一个用语、当前用语前方的第二个用语、当前用语后方的第一个用语、当前用语后方的第二个用语。设该当前用语周边用语能够表示为(s_i-2 ⁱ⁺²)。另外，原始信息取得单元151取得例如一个以上的下一个用语周边用语。在此，下一个用语周边用语例如是四个用语，即下一个用语候选前方的第一个用语、下一个用语候选前方的第二个用语、下一个用语候选后方的第一个用语、下一个用语候选后方的第二个用语。设该下一个用语周边用语能够表示为(s_j-2 ^j+2)。另外，原始信息取得单元151取得词序信息，所述词序信息是关于在源语言句中当前用语与下一个用语候选的相对词序的信息。在此，词序信息例如是0或1。当当前用语存在于下一个用语候选的前方时，词序信息为“0”，而当当前用语存在于下一个用语候选的后方时，词序信息为“1”。另外，原始信息取得单元151取得距离信息，所述距离信息是关于当前用语与下一个用语候选在源语言句中的距离的信息。进一步，原始信息取得单元151取得例如当前用语与下一个用语候选之间的一个以上的用语。此外，通过原始信息取得单元151取得的信息、当前用语以及下一个用语候选构成原始信息。

(步骤S207)向量取得单元152使用在步骤S206中取得的原始信息取得向量。向量取得单元152例如向两个以上的各特征函数代入构成两个以上的原始信息的信息，并取得具有两个以上要素的向量。此外，在此，特征函数优选为二进制特征函数。另外，向量取得单元152事先存储有两个以上的特征函数。

(步骤S208)概率信息取得部16从权重向量存储部12中读取出权重向量(w)。

(步骤S209)概率信息取得部16使用在步骤S207中取得的向量以及在步骤S208中读取出的权重向量，取得第c个下一个用语位置候选可作为下一个用语位置的概率信息。

(步骤S210)概率信息取得部16将在步骤S209中取得的概率信息以与第c个下一个用语位置候选相对应的方式临时累积到未图示的缓冲存储器中。

(步骤S211)候选取得部14使计数器c递增1，并返回步骤S204。

(步骤S212)输出部17输出存储在未图示的缓冲存储器中的各下一个用语位置候选的概率信息，并返回步骤S201。

另外，在图2的流程图中，通过关闭电源或插入处理结束的中断来结束处理。

下面，对本实施方式中的翻译词序信息输出装置1的具体动作进行说明。在此，对使用序列模型输出各下一个用语候选的概率信息的情形进行说明。另外，在此假设翻译词序信息输出装置1是用于日英翻译的装置。

目前，在语句存储部11中存储有源语言句“昨日彼は本を借りたが彼女は買った”(昨日彼は本を借りたが彼女は買った：日语，意为“昨天他借了书，但是她买了书”)。

另外，向量取得部15存储有用于计算出向量的以下的数学式4、数学式5。

[数学式4]

[数学式5]

而且，概率信息取得部16存储有数学式3。

在这种状况下，对序列模型进行说明。在序列模型中，考虑如下的标注系列，即用0表示CP、用1表示CP与NP候选之间的位置、用2表示NP候选(参见图3)。翻译词序信息输出装置1对模型进行学习，从而识别图3的标注系列，并使用该模型计算概率。

在此，假设接受部13接受了作为当前用语位置(CP)的“彼”的位置“2”。并且，针对NP候选为“買った”即位置“10”的情况来说明翻译词序信息输出装置1的动作。即，假设候选取得部14取得了作为第九个下一个用语位置候选(“買った”的位置)“10”。

接下来，向量取得部15的原始信息取得单元151取得当前用语周边用语s_i-2＝“BOS”、s_i-1＝“昨日”(昨日：日语，意为“昨天”)、s_i+1＝“は”(は：日语中的提示助词，无实际意义)、s_i+2＝“本”(本：日语，意为“书”)。此外，在此，例如并非仅知晓周围存在什么词汇即可，还需要知晓其相对位置(s_i-1等信息)。另外，原始信息取得单元151取得下一个用语周边用语s_j-2＝“彼女”(彼女：日语，意为“她”)、s_j-1＝“は”、s_j+1＝“EOS”、s_j+2＝“NULL”。另外，原始信息取得单元151取得词序信息“o＝0”(当前用语存在于下一个用语候选的前方)。另外，原始信息取得单元151取得距离信息“d＝2”(当前用语与下一个用语候选之间的距离为6以上)。进一步，原始信息取得单元151取得当前用语“彼”和下一个用语候选“買った”。

接下来，向量取得单元152将构成所取得的原始信息的各信息代入数学式4、数学式5(对应的特征函数)，并取得向量f。

接下来，概率信息取得部16从权重向量存储部12中读取出权重向量(w)。

接着，概率信息取得部16将取得的向量和读取出的权重向量代入数学式3，从而取得下一个用语位置候选(“買った”的位置即“10”)可作为下一个用语位置的概率信息。

对全部下一个用语位置候选进行上述处理。然后，输出部17输出各下一个用语位置候选的概率信息。

此外，在图3中，在标注系列的ID中使用了NP候选的值。由此，使计算NP候选的概率与识别标注系列具有相同的意义。

如果使用图3的标注系列，则能够考虑相对词序。例如，在图3的标注系列ID为10的标注系列中，能够考虑到“買った”的左侧存在“借りた”。这是因为对“買った”赋予了标注2，而对“借りた”赋予了标注1。标注1被定义为，与标注2相比相对靠近CP。此外，“借りた”是上述中间用语的例子。

另外，距离CP较远的NP候选的标注系列会变长，因此，能够在模型的学习中应用因标注系列的长度差异而导致的影响。这在学习因距离的差异而导致的影响时非常有用。

综上所述，根据本实施方式，在已知目前已翻译的用语的状态下，能够在源语言句中正确确定下一个应翻译的用语。

此外，在本实施方式中，翻译词序信息输出装置1在统计翻译中尤其有效。

进一步，本实施方式中的处理也可以通过软件实现。而且，可以通过下载软件等方式来发布该软件。另外，还可以将该软件存储在CD-ROM等存储介质中传播。此外，此做法也适用于本说明书中的其他实施方式。此外，实现本实施方式中的翻译词序信息输出装置1的软件是如下的程序。即，该程序为，计算机可访问的存储介质具有：语句存储部，能够存储源语言句，所述源语言句是翻译对象的源语言的语句；以及权重向量存储部，能够存储权重向量，所述权重向量表示向量的各要素的权重；并且该程序用于使计算机发挥接受部、候选取得部、向量取得部、概率信息取得部以及输出部的功能，其中，所述接受部用于接受当前用语位置，所述当前用语位置是所述源语言句中的一个用语位置并且是当前的翻译对象的用语位置；所述候选取得部从所述源语言句中取得所述当前用语位置以及一个以上的下一个用语位置候选，所述下一个用语位置候选是作为该当前用语之后下一个被翻译的候选的用语的位置；所述向量取得部使用通过所述当前用语位置表示的当前用语、通过所述下一个用语位置候选表示的下一个用语候选以及所述源语言句，取得具有两个以上要素的向量；所述概率信息取得部使用所述向量取得部取得的向量以及所述权重向量，按照所述候选取得部取得的一个以上的各下一个用语位置候选分别取得概率信息，其中，所述概率信息为，所述一个以上的各下一个用语位置候选的用语为当前用语之后下一个被翻译的下一个用语的概率的信息；所述输出部用于输出所述概率信息取得部取得的概率信息。

另外，优选为，在上述程序中使计算机发挥以下功能：所述向量取得部具备原始信息取得单元以及向量取得单元，其中，所述原始信息取得单元用于取得原始信息，所述原始信息具有：所述当前用语、包含该当前用语前方的第一个用语或后方的第一个用语在内的一个以上的当前用语周边用语、所述下一个用语候选、包含该下一个用语候选前方的第一个用语或后方的第一个用语在内的一个以上的下一个用语周边用语、关于在源语言句中所述当前用语与所述下一个用语候选的相对词序的信息即词序信息、以及关于所述当前用语与所述下一个用语候选在所述源语言句中的距离的信息即距离信息；所述向量取得单元使用所述原始信息取得单元取得的原始信息，取得具有两个以上要素的向量。

另外，优选为，在上述程序中使计算机发挥以下功能：所述向量取得部还使用一个以上的中间用语取得具有两个以上要素的向量，其中，所述一个以上的中间用语是所述源语言句中的用语并且是所述当前用语与所述下一个用语候选之间的用语。

另外，优选为，在上述程序中使计算机发挥以下功能：所述向量取得部具备原始信息取得单元以及向量取得单元，其中，所述原始信息取得单元用于取得原始信息，所述原始信息具有：所述当前用语、包含该当前用语前方的第一个用语或后方的第一个用语在内的一个以上的当前用语周边用语、所述下一个用语候选、包含该下一个用语候选前方的第一个用语或后方的第一个用语在内的一个以上的下一个用语周边用语、关于在源语言句中所述当前用语与所述下一个用语候选的相对词序的信息即词序信息、关于所述当前用语与所述下一个用语候选在所述源语言句中的距离的信息即距离信息、以及所述当前用语与所述下一个用语候选之间的一个以上的用语；所述向量取得单元使用所述原始信息取得单元取得的原始信息，取得具有两个以上要素的向量。

(第二实施方式)

图4中示出了利用本发明的翻译词序信息输出装置1的输出结果的机器翻译装置2的框图，已参照图1至图3对本发明的翻译词序信息输出装置1进行了详细说明。该机器翻译装置2具备用语对词典21、翻译词序信息输出装置1、目标语言用语取得部22、目标语言句构成部23、目标语言句输出部24，该机器翻译装置2通常是统计机器翻译装置。

用语对词典21能够存储两个以上的用语对。用语对是指源语言用语与目标语言用语的组。

目标语言用语取得部22根据翻译词序信息输出装置1输出的一个以上的下一个用语候选的概率信息确定下一个用语，并从用语对词典21中取得与该下一个用语相对应的目标语言用语。

目标语言句构成部23根据目标语言用语取得部22取得的一个以上的目标语言用语构成目标语言句。

目标语言句输出部24输出目标语言句构成部23构成的目标语言句。在此，输出是指包含如下输出方式在内的概念，即显示到显示器上、利用投影仪投影、通过打印机打印、输出语音、发送到外部装置、累积到存储介质中、向其他处理装置或其他程序等传递处理结果等。

用语对词典21优选为非易失性的存储介质，但是，也可通过易失性的存储介质实现。不限定将用语对存储到用语对词典21中的过程。例如，可以借助存储介质将用语对存储在用语对词典21中，也可以将经由通信线路等发送的用语对存储在用语对词典21中，或者还可以将借助输入设备输入的用语对存储在用语对词典21中。

目标语言用语取得部22以及目标语言句构成部23通常可由MPU和存储器等实现。目标语言用语取得部22等的处理顺序通常通过软件来实现，该软件存储在ROM等存储介质中。但是，也可以通过硬件(专用电路)来实现。

既可以认为目标语言句输出部24包括显示器和/或扬声器等输出设备，也可以认为不包括。构成要素可以通过输出设备的驱动软件、或者输出设备的驱动软件与输出设备等实现。

关于一边确定所要翻译的词语的词序一边进行机器翻译的机器翻译装置2的动作是公知技术，因此省略详细说明。

综上所述，根据本实施方式，在已知目前已翻译的用语的状态下，能够在源语言句中正确确定下一个应翻译的用语，其结果是能够进行高精度的机器翻译。

此外，实现本实施方式中的机器翻译装置2的软件是如下的程序。即，该程序为，计算机可访问的存储介质具有能够存储两个以上的用语对的用语对词典，所述用语对是源语言用语与目标语言用语的组；并且该程序用于使计算机发挥翻译词序信息输出装置1、目标语言用语取得部、目标语言句构成部以及目标语言句输出部的功能，其中，所述目标语言用语取得部根据所述翻译词序信息输出装置输出的一个以上的下一个用语候选的概率信息确定下一个用语，并从所述用语对词典中取得与该下一个用语相对应的目标语言用语；所述目标语言句构成部根据所述目标语言用语取得部取得的一个以上的目标语言用语构成目标语言句；所述目标语言句输出部用于输出所述目标语言句构成部构成的目标语言句。

(第三实施方式)

在图5示出了用于学习权重向量的学习装置，其中，所述权重向量被用于上述翻译词序信息输出装置1或机器翻译装置2。该学习装置3具备权重向量存储部12、平行语料库存储部31、用语对齐信息存储部32、学习部33、权重向量累积部34。

平行语料库存储部31存储有平行语料库。平行语料库是大量的对译句，该对译句为源语言句与目标语言句的组。另外，源语言句是翻译对象的源语言的语句。目标语言句是翻译成与源语言句成对的目标语言的正确翻译句。

用语对齐信息存储部32存储有用语对齐信息。用语对齐信息是指，表示构成源语言句的用语与构成目标语言句的用语的对应关系的信息。在此，构成目标语言句的用语是指目标语言用语，并且是将构成源语言句的用语翻译成目标语言的翻译结果。

学习部33使用存储在平行语料库存储部31中的对译句以及存储在用语对齐信息存储部32中的用语对齐信息，取得权重向量。

具体而言，学习部33一边从存储在平行语料库存储部31中的两个以上的各对译句所具有的两个以上的各目标语言句的左侧向右侧移动各目标语言句的当前用语，一边取得当前用语位置以及下一个用语位置，其中，所述当前用语位置表示各目标语言句的当前用语的位置，所述下一个用语位置表示下一个用语的位置。接下来，学习部33使用用语对齐信息，取得与该各目标语言句的现用语位置以及下一个用语位置相对应的如下信息，即源语言句的当前用语位置、下一个用语位置以及全部下一个用语位置候选。此外，当前用语位置是表示当前用语的位置的信息，下一个用语位置是表示下一个用语的位置的信息，下一个用语位置候选是表示下一个用语位置以外的全部下一个用语候选的位置的信息。接下来，学习部33取得与各源语言句的当前用语位置、下一个用语位置以及全部下一个用语位置候选相关的特征量。此外，上述“移动当前用语”的意思是指，使用于指示当前用语的指针移动。

在此，学习部33取得的特征量例如是<o><s_p><s_q>。另外，p可取i-2至i+2的值，q可取j-2至j+2的值。另外，在此设为p＝i、q＝j的情况。另外，<o>是词序信息，例如当“i<j”时为“0”。另外，设“s_i”＝“彼”、“s_j”＝“買った”。<s_p>是总计五个用语，即包含CP在内的CP前方的两个用语以及CP后方的两个用语。另外，<s_q>是总计五个用语，即包含NP候选在内的NP候选前方的两个用语以及NP候选后方的两个用语。此外，<s_p><s_q>均还含有用语的位置的信息。另外，取得的特征量例如可以是<s_i-2>、<s_i-1>、<s_i>、<s_i+1>、<s_i+2>、<t_i>、<t_i-1，t_i>、<t_i，t_i+1>、<s_i，t_i>等。在此，<s_i>是当前用语，<s_i-2>是当前用语前方的第二个用语，<s_i-1>是当前用语前方的第一个用语，<s_i+1>是当前用语后方的第一个用语，<s_i+2>是当前用语后方的第二个用语，<t_i>是当前用语的词性，<t_i-1>是当前用语前方的第一个用语的词性，<t_i+1>是当前用语后方的第一个用语的词性，<t_i-1，t_i>是当前用语前方的第一个用语的词性以及当前用语的词性，<t_i，t_i+1>是当前用语的词性以及当前用语后方的第一个用语的词性。进一步，取得的特征量可以是例如<o>、<o，s_p>、<o，t_i>、<o，t_j>、<o，d>、<o，s_p，s_q>、<o，t_i，t_j>、<o，t_i-1，t_i，t_j>、<o，t_i，t_i+1，t_j>、<o，t_i，t_j-1，t_j>、<o，t_i，t_j，t_j+1>、<o，s_i，t_i，t_j>、<o，s_j，t_i，t_j>等。在此，p满足“p∈{p∣i-2<＝p<＝i+2∨j-2<＝p<＝j+2}”。另外，(p，q)满足“(p,q)∈{(p,q)i-2<p<i+2∧j-2<q<j+2∧(∣p-i∣<＝1∨∣q-j∣<＝1)}”。

然后，学习部33对全部对译句进行上述处理。接下来，学习部33以使熵达到最大的方式确定权重向量。另外，该方法被称作L-BFGS法，因为是公知技术，所以省略详细的说明。另外，关于L-BFGS法，参照论文“D.C.Liu and J.Nocedal.1989.On the limited memorymethod for large scale optimization.Mathematical Programming B,45(3):503–528.”。另外，为了使权重向量平滑，学习部33优选使用高斯先验(Gaussian prior)。此外，关于高斯先验，记载在论文“Stanley F.Chen and Ronald Rosenfeld.1999.A gaussianprior for smoothing maximum entropy models.Technical report.”中，因此省略详细的说明。

权重向量累积部34将通过学习部33中的学习处理取得的权重向量累积到权重向量存储部12中。

平行语料库存储部31以及用语对齐信息存储部32优选为非易失性的存储介质，但是，也可以通过易失性的存储介质来实现。不限定将平行语料库等存储到平行语料库存储部31等中的过程。例如，可以借助存储介质将平行平行语料库等存储在平行语料库存储部31等中，也可以将经由通信线路发送的平行语料库等存储在平行语料库存储部31等中，或者还可以将借助输入设备输入的平行语料库等存储在平行语料库存储部31等中。

学习部33以及权重向量累积部34通常可由MPU和存储器等实现。学习部33等的处理顺序通常通过软件来实现，该软件存储在ROM等存储介质中。但是，也可以通过硬件(专用电路)来实现。

接下来，使用图6的流程图，对学习装置3的动作进行说明。

(步骤S601)学习部33将1代入计数器c。

(步骤S602)学习部33判断平行语料库存储部31中是否存在第c个对译句。如果存在第c个对译句，则进入步骤S603，如果不存在，则进入步骤S610。

(步骤S603)学习部33将1代入计数器d。

(步骤S604)学习部33判断在第c个对译句的目标语言句中是否存在第d个当前用语。如果存在第d个当前用语，则进入步骤S605，如果不存在第d个当前用语，则进入步骤S609。

(步骤S605)学习部33从第c个对译句的目标语言句中取得表示第d个当前用语的位置的当前用语位置以及表示下一个用语的位置的下一个用语位置。

(步骤S606)学习部33使用用语对齐信息，取得与第d个当前用语位置以及下一个用语位置相对应的如下信息，即表示源语言句中的当前用语的位置的当前用语位置、表示下一个用语的位置的下一个用语位置以及除该下一个用语位置以外的全部下一个用语位置候选。

(步骤S607)学习部33使用在步骤S606取得的当前用语位置、下一个用语位置以及全部下一个用语位置候选，取得一个或两个以上的特征量。然后，学习部33将取得的一个或两个以上的特征量临时累积在未图示的缓冲存储器中。

(步骤S608)学习部33使计数器d递增1，并返回步骤S604。

(步骤S609)学习部33使计数器c递增1，并返回步骤S602。

(步骤S610)学习部33使用存储在未图示的缓冲存储器中的多个特征量，以使熵达到最大的方式确定权重向量。此外，在本步骤中，还进行权重向量的平滑处理。

(步骤S611)权重向量累积部34将在步骤S611中由学习部33取得的权重向量累积到权重向量存储部12中。

综上所述，根据本实施方式，能够学习在翻译词序信息输出装置1中所使用的权重向量。

进一步，本实施方式中的学习装置3的处理可以通过软件来实现。而且，可以通过下载软件等方式发布该软件。另外，还可以将该软件存储在CD-ROM等存储介质中传播。

此外，实现本实施方式中的学习装置3的软件是如下的程序。即，该软件为，计算机可访问的存储介质具备：权重向量存储部，能够存储权重向量，所述权重向量表示向量的各要素的权重；平行语料库存储部，能够存储平行语料库，所述平行语料库是源语言句与目标语言句的组即两个以上的对译句；以及用语对齐信息存储部，能够存储用语对齐信息，所述用语对齐信息是表示构成源语言句的用语与构成目标语言句的用语的对应关系的信息；并且，该程序用于使计算机发挥学习部以及权重向量累积部的功能，其中，所述学习部一边从所述两个以上的各对译句所具有的两个以上的各目标语言句的左侧向右侧移动各目标语言句的当前用语，一边取得各目标语言句的当前用语的位置即当前用语位置、以及下一个用语的位置即下一个用语位置，并使用所述用语对齐信息，取得与各目标语言句的当前用语位置以及下一个用语位置相对应的如下信息，即表示各源语言句的当前用语的位置的当前用语位置、表示下一个用语的位置的下一个用语位置以及除该下一个用语位置以外的全部下一个用语位置候选，并取得与各源语言句的当前用语位置、下一个用语位置以及全部下一个用语位置候选相关的一个或两个以上的特征量，进而使用该取得的特征量，以使熵达到最大的方式确定权重向量，从而取得该权重向量；所述权重向量累积部将所述学习部取得的权重向量累积到所述权重向量存储部中。

(实验结果)

下面，描述对翻译词序信息输出装置1等进行的实验的结果。

(1)实验的前提

在实验中，在学习装置3的平行语料库存储部31中存储了以日语为源语言、以英语为目标语言的专利文件。另外，在平行语料库存储部31中还存储了以英语为源语言、以汉语为目标语言的专利文件。此外，所使用的专利文件为NTCIR-9专利机器翻译任务(参照IsaoGoto,Bin Lu,Ka Po Chow,Eiichiro Sumita,and Benjamin K.Tsou.2011.Overview ofthe patent machine translation task at the NTCIR-9 workshop.In Proceedings ofNTCIR-9,pages 559–578.)的文件。

而且，作为日语分词解析软件，使用了Mecab(参照互联网URL：http://mecab.sourceforge.net)。另外，为了拆分汉语句子、赋予词性标签，使用了Stanfordsegmenter和tagger(参照互联网URL：http://nlp.stanford.edu/software/segmenter.shtml、http://nlp.stanford.edu/software/tagger.shtml)。另外，作为训练数据，选择了40个词语以内的句子。而且，使用了日英大约205万个对译句、汉英大约49万个对译句。为了取得单词对齐，使用了GIZA++和grow diag-final-and启发(heuristics)。此外，为了减少单词对齐的错误，从英语句子中删除了冠词{a、an、the}。另外，从日语句子中删除了助词{が、を、は}。这是因为这些单词与其他语言句中的任何单词都不相对应。然后，在单词对齐之后，将删除的单词恢复到原来的位置。另外，使用了5-gram语言模型。该5-gram语言模型是双语训练数据的英语句子集。

在本实验中，使用了与Moses解码器(参照论文“Philipp Koehn,Hieu Hoang,Alexandra Birch,Chris Callison-Burch,Marcello Federico,Nicola Bertoldi,BrookeCowan,Wade Shen,Christine Moran,Richard Zens,Chris Dyer,Ondrej Bojar,Alexandra Constantin,and Evan Herbst.2007.Moses:Open source toolkit forstatistical machine translation.In Proceedings of the 45th Annual Meeting ofthe Association for Computational Linguistics Companion Volume Proceedings ofthe Demo and Poster Sessions,pages 177–180,Prague,Czech Republic,June.Association for Computational Linguistics.”)具有互换性的独自的基于短语的SMT(Statistical Machine Translation：统计机器翻译)。

另外，在本实验中，通过MERT(Minimum Error Rate Training：最小错误率训练)优化了SMT的权重向量的各参数。另外，在本实验中，实验者为了使MERT的结果稳定，使用开发数据的起始一半的数据，通过MERT进行了三次优化。然后，在使用后续一半的开发数据时，从三个SMT的权重向量参数集中选择了BLEU分数最好的SMT的权重向量参数集。

另外，在本实验中，实验者使用由标准SMT的特征量集以及与标准SMT的特征量集不同的特征量集构成的共同SMT特征量集，对系统进行了比较。共同SMT特征量集是以下五个。

(1)线性扭曲代价模型特征(the linear distortion cost model feature)(LINEAR)

(2)线性扭曲代价模型特征和6 MSD双向词汇扭曲模型特征(the lineardistortion cost model feature and the six MSD bidire ctional lexicaldistortion model features)(LINEAR+LEX)

(3)outbound与inbound扭曲模型特征识别9扭曲级别(the outbound andinbound distortion model features discriminating nine distortion classes)(9-CLASS)

(4)作为翻译词序信息输出装置1的一例的对模型的特征量(PAIR)

(5)作为翻译词序信息输出装置1的一例的序列模型的特征量(SEQUENCE)。

另外，在作为翻译词序信息输出装置1的一例的对模型、序列模型中，使其进行了如下的学习。即，大约20万个的对译句和用语对齐信息分别被存储在平行语料库存储部31、用语对齐信息存储部32中。在此，在序列模型中使用的特征量是当前用语与下一个用语的位置的标注对，为<0，1><1，0><1，2>。

另外，使用L-BFGS法，以使熵达到最大的方式确定权重向量。进一步，为了使权重向量平滑，使用了高斯先验。

此外，在9-CLASS中，使用了与序列模型同样的学习数据。另外，在9-CLASS中，作为特征量使用了<s_i-2>、<s_i-1>、<s_i>、<s_i+1>、<s_i+2>、<t_i-1>、<t_i>、<t_i+1>、<t_i-1，t_i>、<t_i，t_i+1>。此外，这些特征量模板(Template)与序列模型、对模型的特征量模板相对应。在序列模型等中，在上述特征量的基础上，作为特征量还使用了在源语言句中相对的位置信息。此外，该特征量被Green等人(参照论文“Spence Green,Michel Galley,and ChristopherD.Manning.2010.Improved models of distortion cost for statistical machinetranslation.In Human Language Technologies:The 2010 Annual conference of theNorth American Chapter of the Association for Computational Linguistics,pages867–875,Los Angeles,California,June.Association for ComputationalLinguistics”)使用。另外，将位置信息分级为五个值。另外，在inbound模型中，特征量模板的i变化为j。另外，在此使用了在用于学习的文章中出现四次以上的特征量。进一步，为了推定模型参数，使用了伴随高斯先验平滑(Gaussian prior smoothing)的最大熵法。另外，使用所有用于构建翻译模型的数据构建了LINEAR+LEX模型。

(2)实验结果

下面，对使用翻译词序信息输出装置1的机器翻译装置2的实验结果进行说明。在此，对分别使用上述(1)至(5)的五个(LINEAR、LINEAR+LEX、9-CLASS、PAIR、SEQUENCE)的情况，评价了机器翻译的质量。另外，在本实验中，使用BLEU-4自动评价评分，对机器翻译的质量进行了评价。

另外，在本实验中，作为扭曲的限制，对10、20、30以及无穷大(∞)进行了评价。该评价结果如图7所示。在图7中，与其他情况相比，使用了作为翻译词序信息输出装置1的一例的序列模型时，日英翻译(Japanese-English)以及汉英翻译(Chinese-English)均最好。

另外，序列模型比对模型的结果好。这表示考虑CP与NP候选之间的相对词序以及CP与NP候选之间的用语是有效的。

另外，对模型高于9-CLASS的结果。这表示考虑CP的用语、NP候选的用语两者是有效的。

另外，在词序存在较大差异的语言之间(例如，日语和英语等)进行翻译的过程中，显示出了在小扭曲的限制中难以进行正确翻译。

在日英翻译中，在使用序列模型的情况下，与扭曲的限制为10相比，扭曲的限制为20和30时获得了良好的结果(参照图7)。另一方面，在LINEAR、LINEAR+LEX、9-CLASS中，无法实现这样的良好结果(参照图7)。这表示序列模型与其他模型相比能够处理更长距离的排列候选。

另外，在本实验中，测试了使用Moses实现(Moses Implementation)的基于层次化短语的SMT(Hier)。在本测试中，为了进行系统设定，使用了无限制的最大图跨度(max-chart-span)。其结果，在Hier中，日英翻译的BLEU-4值为“30.47”，中英翻译的BLEU-4值为“36.66”。这些值低于序列模型。另外，日英翻译中两者的差异较大，中英翻译中两者的差异较小。

进一步，在本实验中，在日英翻译中计算出了将3～20的扭曲适用于三种模型(SEQUENCE、PAIR、CORPUS)后所得的结果、即概率(平均扭曲的概率)。表示该实验结果的图表是图8。CORPUS是学习数据的实际失真的概率，所述学习数据是根据用于构建翻译模型而使用的单词对齐信息得到的。此外，此处的CORPUS的扭曲概率是扭曲的数量除以学习数据的扭曲总数而得到的值。在三种模型中，所使用的距离的级别相同。

另外，图8中显示出在PAIR中生成了大致相同的平均扭曲概率。另一方面，扭曲的长度增加时，SEQUENCE的平均扭曲概率表现出减少趋势。此外，在此，即使扭曲的长度不同，距离级别也相同。该倾向在CORPUS中也是同样的(参照图8)。通过以上说明可知，在翻译词序信息输出装置1的SEQUENCE中，根据训练数据能够适当地对距离的影响进行学习。

另外，图9示出了用于执行本说明书中描述的程序以实现上述各种实施方式的翻译词序信息输出装置等的计算器的外观。上述实施方式可通过计算机硬件以及在该计算机硬件上执行的计算机程序来实现。图9是该计算机系统300的概略图，图10是系统300的框图。

在图9中，计算机系统300具备包括CD-ROM驱动器3012的计算机301、键盘302、鼠标303以及显示器304。

在图10中，计算机301除了包括CD-ROM驱动器3012以外，还包括MPU3013、总线3014、ROM3015、RAM3016以及硬盘3017。此外，总线3014与MPU3013和CD-ROM驱动器3012相连接。另外，ROM3015中存储有开机引导程序等程序。另外，RAM3016与MPU3013相连接，用于临时存储应用程序的指令并提供临时存储空间。另外，硬盘3017用于存储应用程序、系统程序以及数据。在此，虽未图示，但是计算机301还可以进一步包括提供用于与LAN连接的网卡。

使计算机系统300执行上述实施方式的翻译词序信息输出装置等的功能的程序可以存储在CD-ROM3101中，并将其插入到CD-ROM驱动器3012中，进一步被传送到硬盘3017中。也可以用其他方式来代替，即该程序经由未图示的网络被发送给计算机301，并被存储到硬盘3017中。程序在执行时被加载到RAM3016中。也可以从CD-ROM3101或者未图示的网络直接加载程序。

程序可以不必包含使计算机301执行上述实施方式的翻译词序信息输出装置等的功能的操作系统或第三方程序等。程序也可以只包含在被控制的状态下调用适当的功能(模块)以获得期望结果的指令部分。计算机系统300如何工作是周知的技术，因而省略详细说明。

另外，执行上述程序的计算机可以是一个，也可以是多个。即，可以进行集中处理，或者也可以进行分散处理。

另外，在上述各实施方式中，各处理(各功能)可以通过由单一的装置(系统)进行集中处理来实现，或者也可以通过由多个装置进行分散处理来实现。

本发明并不限定于以上的实施方式，可以进行各种变更，这些变形当然也包含在本发明的保护范围内。

产业上的利用可能性

如上所述，本发明所涉及的翻译词序信息输出装置在统计翻译中具有在已知目前已翻译的用语的状态下能够在源语言句中正确确定下一个应翻译的用语的效果，可作为统计翻译装置等使用。

附图标记说明

1：翻译词序信息输出装置

2：机器翻译装置

3：学习装置

11：语句存储部

12：向量存储部

13：接受部

14：候选取得部

15：向量取得部

16：概率信息取得部

17：输出部

21：用语对词典

22：目标语言用语取得部

23：目标语言句构成部

24：目标语言句输出部

31：平行语料库存储部

32：用语对齐信息存储部

33：学习部

34：向量累积部

151：原始信息取得单元

152：向量取得单元

Claims

1.一种翻译词序信息输出装置，具备：

语句存储部，能够存储源语言句，所述源语言句是翻译对象的源语言的语句；

权重向量存储部，能够存储权重向量，所述权重向量表示向量的各要素的权重；

接受部，用于接受当前用语位置，所述当前用语位置是所述源语言句中的一个用语位置并且是当前的翻译对象的用语位置；

候选取得部，从所述源语言句中取得所述当前用语位置以及一个以上的下一个用语位置候选，所述下一个用语位置候选是作为当前用语之后下一个被翻译的候选的用语的位置；

向量取得部，分别区别使用通过所述当前用语位置表示的当前用语、通过所述下一个用语位置候选表示的下一个用语候选以及一个以上的中间用语，取得具有两个以上要素的向量，其中，所述中间用语是所述当前用语与所述下一个用语候选之间的用语；

概率信息取得部，使用所述向量取得部取得的向量以及所述权重向量，按照所述候选取得部取得的一个以上的各下一个用语位置候选分别取得概率信息，其中，所述概率信息为，关于所述一个以上的各下一个用语位置候选的用语为当前用语之后下一个被翻译的下一个用语的概率的信息；以及

输出部，用于输出所述概率信息取得部取得的概率信息。

2.根据权利要求1所述的翻译词序信息输出装置，其特征在于，

所述向量取得部具备：

原始信息取得单元，用于取得原始信息，所述原始信息具有：所述当前用语、包含该当前用语前方的第一个用语或后方的第一个用语在内的一个以上的当前用语周边用语、所述下一个用语候选、包含该下一个用语候选前方的第一个用语或后方的第一个用语在内的一个以上的下一个用语周边用语、关于在所述源语言句中所述当前用语与所述下一个用语候选的相对词序的信息即词序信息、关于所述当前用语与所述下一个用语候选在所述源语言句中的距离的信息即距离信息、以及所述当前用语与所述下一个用语候选之间的用语即一个以上的中间用语；以及

向量取得单元，使用所述原始信息取得单元取得的原始信息，取得具有两个以上要素的向量。

3.根据权利要求1所述的翻译词序信息输出装置，其特征在于，

所述向量取得部具备：

原始信息取得单元，用于取得原始信息，所述原始信息具有：所述当前用语、包含该当前用语前方的第一个用语或后方的第一个用语在内的一个以上的当前用语周边用语、所述下一个用语候选、包含该下一个用语候选前方的第一个用语或后方的第一个用语在内的一个以上的下一个用语周边用语、在所述源语言句中所述当前用语与所述下一个用语候选的相对词序的信息即词序信息、以及关于所述当前用语与所述下一个用语候选在所述源语言句中的距离的信息即距离信息；以及

4.一种机器翻译装置，具备：

用语对词典，能够存储两个以上的用语对，所述用语对是源语言用语与目标语言用语的组；

根据权利要求1所述的翻译词序信息输出装置；

目标语言用语取得部，根据所述翻译词序信息输出装置输出的一个以上的下一个用语候选的概率信息，确定下一个用语，并从所述用语对词典中取得与该下一个用语相对应的目标语言用语；

目标语言句构成部，根据所述目标语言用语取得部取得的一个以上的目标语言用语，构成目标语言句；以及

目标语言句输出部，用于输出所述目标语言句构成部构成的目标语言句。

5.一种机器翻译装置，具备：

根据权利要求2所述的翻译词序信息输出装置；

6.一种机器翻译装置，具备：

根据权利要求3所述的翻译词序信息输出装置；

7.一种学习装置，具备：

平行语料库存储部，能够存储平行语料库，所述平行语料库是源语言句与目标语言句的组即两个以上的对译句；

用语对齐信息存储部，能够存储用语对齐信息，所述用语对齐信息是表示构成源语言句的用语与构成目标语言句的用语的对应关系的信息；

学习部，一边从所述两个以上的各对译句所具有的两个以上的各目标语言句的左侧向右侧移动各目标语言句的当前用语，一边取得各目标语言句的当前用语的位置即当前用语位置、以及下一个用语的位置即下一个用语位置，并使用所述用语对齐信息，取得与各目标语言句的当前用语位置以及下一个用语位置相对应的如下信息，即表示各源语言句的当前用语的位置的当前用语位置、表示下一个用语的位置的下一个用语位置以及除该下一个用语位置以外的全部下一个用语位置候选，并取得与各源语言句的当前用语位置、下一个用语位置以及全部下一个用语位置候选相关的一个或两个以上的特征量，进而使用该取得的特征量，以使熵达到最大的方式确定权重向量，从而取得该权重向量；以及

权重向量累积部，将所述学习部取得的权重向量累积到所述权重向量存储部中。

8.一种翻译词序信息输出方法，通过接受部、候选取得部、向量取得部、概率信息取得部以及输出部实现，

在存储介质中具备：语句存储部，能够存储源语言句，所述源语言句是翻译对象的源语言的语句；以及权重向量存储部，能够存储权重向量，所述权重向量表示向量的各要素的权重；

其特征在于，具备以下步骤：

接受步骤，由所述接受部接受当前用语位置，所述当前用语位置是所述源语言句中的一个用语位置并且是当前的翻译对象的用语位置；

候选取得步骤，由所述候选取得部从所述源语言句中取得所述当前用语位置以及一个以上的下一个用语位置候选，所述下一个用语位置候选是作为该当前用语之后下一个被翻译的候选的用语的位置；

向量取得步骤，由所述向量取得部使用通过所述当前用语位置表示的当前用语、通过所述下一个用语位置候选表示的下一个用语候选以及所述源语言句，取得具有两个以上要素的向量；

概率信息取得步骤，由所述概率信息取得部使用在所述向量取得步骤中取得的向量以及所述权重向量，按照在所述候选取得步骤中取得的一个以上的各下一个用语位置候选分别取得概率信息，其中，所述概率信息为，关于所述一个以上的各下一个用语位置候选的用语为当前用语之后下一个被翻译的下一个用语的概率的信息；以及

输出步骤，由所述输出部输出在所述概率信息取得步骤中取得的概率信息。

9.一种存储介质，具有：语句存储部，能够存储源语言句，所述源语言句是翻译对象的源语言的语句；以及权重向量存储部，能够存储权重向量，所述权重向量表示向量的各要素的权重；

并且存储有能够用于在计算机中执行以下步骤的程序：

接受步骤，接受当前用语位置，所述当前用语位置是所述源语言句中的一个用语位置并且是当前的翻译对象的用语位置；

候选取得步骤，从所述源语言句中取得所述当前用语位置以及一个以上的下一个用语位置候选，所述下一个用语位置候选是作为该当前用语之后下一个被翻译的候选的用语的位置；

向量取得步骤，使用通过所述当前用语位置表示的当前用语、通过所述下一个用语位置候选表示的下一个用语候选以及所述源语言句，取得具有两个以上要素的向量；

概率信息取得步骤，使用在所述向量取得步骤中取得的向量以及所述权重向量，按照在所述候选取得步骤中取得的一个以上的各下一个用语位置候选分别取得概率信息，其中，所述概率信息为，关于所述一个以上的各下一个用语位置候选的用语为当前用语之后下一个被翻译的下一个用语的概率的信息；以及

输出步骤，输出在所述概率信息取得步骤中取得的概率信息。