JP5544518B2 - 機械翻訳装置、機械翻訳方法、およびそのプログラム - Google Patents
機械翻訳装置、機械翻訳方法、およびそのプログラム Download PDFInfo
- Publication number
- JP5544518B2 JP5544518B2 JP2010112639A JP2010112639A JP5544518B2 JP 5544518 B2 JP5544518 B2 JP 5544518B2 JP 2010112639 A JP2010112639 A JP 2010112639A JP 2010112639 A JP2010112639 A JP 2010112639A JP 5544518 B2 JP5544518 B2 JP 5544518B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- word
- language
- word string
- hypothesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
統計的機械翻訳では、翻訳元言語の単語列(文)が与えられたとき、翻訳確率を最大化するような翻訳先言語の単語列(文)を探索する問題として定式化される。ここで、翻訳確率を対数線形モデルで表現すると、最終的に統計的機械翻訳は式(1)で定式化される。
重み付き同期文脈自由文法は、式(2)に示すルールに、重みが付いたものの集合からなるものである。
また、かかる発明によれば、部分仮説スコア算出手段は、前記重みを用いることで、部分仮説スコアをより高い精度で算出することができる。
ルール作成装置は、翻訳元言語の単語列(文)を翻訳先言語の単語列(文)に機械的に翻訳する機械翻訳装置で利用するルールを作成するものである。以下では、翻訳元言語を日本語、翻訳先言語を英語として説明する。
対訳コーパス150は、互いに同じ意味を有する翻訳元言語の単語列と翻訳先言語の単語列との組合せのデータを複数備える。
それに対し、本実施形態では、「X→<γ,γ´,α,〜>」という形式のルールを用いる。
X→<X1 を X2 に つなげる, に つなげるX1 を X2, connect X1 to X2 >
X→<X1 を X2 に つなげる, つなげるX1 を X2 に, connect X1 to X2 >
X→<X1 を X2 に つなげる, に つなげるX1 を X2, connect X1 to X2 >
この例では結果的に一つ目の形態と同一のルールとなっているが、一般的には、異なったルールがつくられる。
に対応して、式(9)〜式(9d)のルールを生成する。このうち、式(9a)〜式(9d)のルールは、式(9)のルールから自動的に生成することができる。また、式(9a)〜式(9d)のルールに付与されるスコアについても、式(9)のルールと同一値を用いることができる。このような理由から、実装上は、式(9a)〜式(9d)のルールは明示的にストレージに格納する必要がない。式(9a)〜式(9d)のルールは、非特許文献2で用いられるグルー規則の非終端記号Xを、Xを左辺とする個々の規則で1回書き換えたものに対応している。
具体的には、ルール作成手段133は、図2に示した対訳文から表4に示すような規則(右辺だけ示す)を生成する。この例では、対応しない日本語単語を、左側の終端記号もしくは非終端記号に付随するものとしている。
次に、図1に示したルール作成装置1の動作について、図4を参照(適宜図1等参照)して説明する。図4に示すように、ルール作成装置1は、モード判定手段131によって、モードを判定する(ステップS1)。判定の結果、モードが「単語対応作成」モードの場合には(ステップS1で「単語対応作成」)、ルール作成装置1は、入出力手段10を介して、対訳コーパス150を単語対応作成モジュール12に入力し(ステップS2)、単語対応作成モジュール12によって、単語対応を作成する(ステップS3)。作成された単語対応111は、記憶手段11に格納される。
次に、機械翻訳装置について説明する。機械翻訳装置2は、ルール作成装置1(図1参照)で作成されたルールテーブル114を利用して、入力された翻訳元言語の単語列を、入力に対応する翻訳先言語の単語列に機械的に翻訳するものである。
なお、単語対応付き素性重み学習用対訳コーパス250は、ルール作成装置1(図1参照)がルールを作成する際に利用する対訳コーパス150とは別に用意するものである。
と表記する。ここで、生成された翻訳先言語の単語列は、「i」番目の単語から「i+ε」番目の単語で構成されている。また、h7(H´)におけるPLM´は、対訳コーパスの翻訳元言語の文を翻訳先言語の語順に並び替えたものから学習するn-gram言語モデルである。
図5に示した機械翻訳装置2の動作について、図6を参照(適宜図5参照)して説明する。図6に示すように、予め、機械翻訳装置2は、素性重み学習モジュール22によって、単語対応付き素性重み学習用対訳コーパス250と、言語モデル215と、ルールテーブル114と、翻訳元言語並べ替えモデル115とに基づいて、素性関数の値の重みを学習し、学習結果である素性重み211を記憶手段21に格納しておく。
一方、r′をすべて選択した場合(ステップS18:Yes)、仮説探索手段244は、適用可能なルールrをすべて選択したか否かを判別する(ステップS19)。適用可能なrがまだ存在する場合(ステップS19:No)、機械翻訳装置2は、ステップS15に戻る。
図7と、表6と、表7と、表8とを参照して具体例について説明する。
図7は、図5に示した部分仮説から仮説への拡張例を示す図である。表6は、11単語からなる翻訳元言語文を示し、表7は、表6に示した翻訳元言語文に対応して適用可能なルールを示す。なお、表7中の「ルールの種類」とは、前記した式(9)〜式(9d)のいずれに対応するかを示すものである。表8は、表7に示したルールの適用順とそれに基づく単語範囲付きルールを示すものである。
「The international terrorism also is a possible threat in Japan」
次に、ルール作成装置1と機械翻訳装置2の変形例について説明する。例えば、ルール作成装置1の単語並び替えモデル学習手段14において、翻訳元言語並び替えモデル115の代わりに翻訳先言語の語順を並び替えた翻訳先言語並び替えモデル116を作成し、式(10)〜式(12)のr´の代わりにα´(翻訳先言語の単語列を翻訳元言語の語順に並び替えた単語列)に置き換えたルールを利用することができる。
さらなる変形例として、(b)翻訳元言語の文を翻訳先言語の語順に並び替えた単語並びモデル(翻訳元言語並べ替えモデル115)と、(c)翻訳先言語の文を翻訳元言語の語順に並び替えた単語並びモデル(翻訳先言語並べ替えモデル116)の両方を活用することも可能である。この場合、X→<γ,γ´,α´,α,〜>の形式のルールを用い、h7´(H´)とh8´(H´)の両方を素性関数として用いる。
以上で説明したルール作成装置および機械翻訳装置の代わりに、非特許文献2のアルゴリズムを採用したルール作成装置および機械翻訳装置も可能である。この場合、ルールはボトムアップに適用される。
X→<γ,γ´,α´,α,〜>
γは翻訳元言語の終端記号もしくは非終端記号の列を、αは翻訳先言語の終端記号もしくは非終端記号の列を、γ´は翻訳元言語の終端記号もしくは非終端記号の列を翻訳先言語の語順に並び替えたものを、α´は翻訳先言語の終端記号もしくは非終端記号の列を翻訳元言語の語順に並び替えたものを表す。
X:[i,j]→<f´,e´,e>
のように表される。Xは非終端記号、[i, j]はそれが覆う翻訳元言語の文の単語範囲、f´は翻訳元言語の単語列を翻訳先言語の語順に並び替えた単語列、e´は翻訳先言語の単語列を翻訳元言語の語順に並び替えた単語列、eは翻訳先言語の単語列を表す。
X→< X1 で ある, で ある X1, X1 is a, is a X1>
によって展開され、より広い範囲をカバーする仮説H´を生成する。例えば、次の通りである。
H: X:[7,9]→<起こり うる 脅威, possible threat, possible threat>
H´: X:[7,11]→<で ある 起こり うる 脅威, possible threat is a, is a possible threat>
f´およびe´を利用して、h7, h8やh´7, h´8を展開前の仮説の値からの差分を計算することで、展開後の仮説の値を計算することができる。
非特許文献1は、素性重み学習用対訳コーパス(単語対応付き素性重み学習用対訳コーパス250に対応)中の翻訳元の文と正解翻訳文のペアを利用し、素性重みを学習する「素性重み学習モジュール(素性重み学習モジュール22に対応)」の実現法について記述している。この手法では、目的関数を最適化するように重みが学習される。通常、目的関数としては、翻訳した文章(複数の文の列)eと正解文章reとの近さを表す関数が使われ、具体的には前記したBLEU(e, re)などが広く利用されている。
2 機械翻訳装置
10 入出力手段
11 記憶手段
111 単語対応
112 フレーズペア
113 ルール
114 ルールテーブル
12 単語対応作成モジュール
13 制御手段
131 モード判定手段
132 フレーズペア抽出手段
133 ルール作成手段
134 翻訳スコア計算手段
150 対訳コーパス
20 入出力手段
21 記憶手段
211 素性重み
212 単語情報
213 単語範囲付きルール
214 部分仮説
215 言語モデル
216 部分仮説スコア
22 素性重み学習モジュール
23 単語情報抽出モジュール
24 制御手段
241 ルール探索手段
242 単語範囲付きルール生成手段
243 部分仮説スコア算出手段
244 仮説探索手段
250 素性重み学習用対訳コーパス
K 入力装置
D 出力装置
Claims (5)
- 同期文脈自由文法を用いて翻訳元言語の単語列から翻訳先言語の単語列を生成するルールとして、(a)翻訳候補となる翻訳先言語の単語列と、少なくとも、(b)翻訳元言語の文を翻訳先言語の語順に並び替えた単語列、および、(c)翻訳先言語の文を翻訳元言語の語順に並び替えた単語列、のいずれかと、を含む同期文脈自由文法ルールが複数格納されたルールテーブルを利用して、入力された翻訳元言語の単語列の翻訳結果である前記入力に対応する翻訳先言語の単語列として、「翻訳先言語の文頭からの単語列」と「翻訳元言語の文を翻訳先言語の語順に並び替えた単語列」と「翻訳元言語の単語列のうち未翻訳の単語の範囲を保持するスタック」との三つ組みからなる部分仮説からそれよりも長い新たな部分仮説を順次作成して前記部分仮説を拡張することによって最終的に生成された部分仮説である仮説を出力する機械翻訳装置であって、
前記部分仮説を拡張するために適用可能な前記同期文脈自由文法ルールを前記ルールテーブルからそれぞれ探索するルール探索手段と、
前記探索された同期文脈自由文法ルールに対して、前記入力された翻訳元言語の単語列を構成する単語の単語数と単語位置とに基づいて、前記探索された同期文脈自由文法ルールの非終端記号が被う翻訳元言語の単語列の範囲を示す単語範囲を付加して、適用可能な単語範囲付き同期文脈自由文法ルールをそれぞれ生成する単語範囲付きルール生成手段と、
前記適用可能な同期文脈自由文法ルールを適用し前記新たな部分仮説を拡張し、前記同期文脈自由文法ルールごとにそれぞれ予め求められた、翻訳の確からしさを表す翻訳モデルのスコアと、前記(a)の単語列としての確からしさを表す言語モデルのスコアと、少なくとも、前記(b)の単語列としての確からしさを表す言語モデルのスコア、および、前記(c)の単語列としての確からしさを表す言語モデルのスコア、のいずれかと、に基づいて、前記作成された部分仮説の評価値を示す部分仮説スコアを算出する部分仮説スコア算出手段と、
前記入力された翻訳元言語の単語列に対して適用可能な前記部分仮説を探索し、前記部分仮説を拡張することによって最終的に生成された部分仮説のうちで、前記部分仮説スコアが最大となる部分仮説を、前記仮説として探索する仮説探索手段と、
を備えることを特徴とする機械翻訳装置。 - 前記(a)の単語列、前記(b)の単語列、および、前記(c)の単語列のそれぞれについて、前記ルールテーブルと、所定の単語対応付き素性重み学習用対訳コーパスと、所定の翻訳元言語並べ替えモデルと、所定の翻訳先言語並べ替えモデルと、所定の言語モデルと、を用いて、前記所定の単語対応付き素性重み学習用対訳コーパス中の翻訳元の文と正解翻訳文のペアを利用し、前記翻訳元の文と前記正解翻訳文の近さを表す目的関数を最適化することで、各素性関数の値に対応した重みを学習し、学習結果を素性の重みとして予め生成する重み学習モジュールを、さらに備え、
前記部分仮説スコア算出手段は、前記重みを用いて前記部分仮説スコアを算出する
ことを特徴とする請求項1に記載の機械翻訳装置。 - 同期文脈自由文法を用いて翻訳元言語の単語列から翻訳先言語の単語列を生成するルールとして、(a)翻訳候補となる翻訳先言語の単語列と、少なくとも、(b)翻訳元言語の文を翻訳先言語の語順に並び替えた単語列、および、(c)翻訳先言語の文を翻訳元言語の語順に並び替えた単語列、のいずれかと、を含む同期文脈自由文法ルールが複数格納されたルールテーブルを利用して、入力された翻訳元言語の単語列の翻訳結果である前記入力に対応する翻訳先言語の単語列として、「翻訳先言語の文頭からの単語列」と「翻訳元言語の文を翻訳先言語の語順に並び替えた単語列」と「翻訳元言語の単語列のうち未翻訳の単語の範囲を保持するスタック」との三つ組みからなる部分仮説からそれよりも長い新たな部分仮説を順次作成して前記部分仮説を拡張することによって最終的に生成された部分仮説である仮説を出力する機械翻訳装置による機械翻訳方法であって、
前記機械翻訳装置は、
前記部分仮説を拡張するために適用可能な前記同期文脈自由文法ルールを前記ルールテーブルからそれぞれ探索するルール探索ステップと、
前記探索された同期文脈自由文法ルールに対して、前記入力された翻訳元言語の単語列を構成する単語の単語数と単語位置とに基づいて、前記探索された同期文脈自由文法ルールの非終端記号が被う翻訳元言語の単語列の範囲を示す単語範囲を付加して、適用可能な単語範囲付き同期文脈自由文法ルールをそれぞれ生成する単語範囲付きルール生成ステップと、
前記適用可能な同期文脈自由文法ルールを適用し前記新たな部分仮説を拡張し、前記同期文脈自由文法ルールごとにそれぞれ予め求められた、翻訳の確からしさを表す翻訳モデルのスコアと、前記(a)の単語列としての確からしさを表す言語モデルのスコアと、少なくとも、前記(b)の単語列としての確からしさを表す言語モデルのスコア、および、前記(c)の単語列としての確からしさを表す言語モデルのスコア、のいずれかと、に基づいて、前記作成された部分仮説の評価値を示す部分仮説スコアを算出する部分仮説スコア算出ステップと、
前記入力された翻訳元言語の単語列に対して適用可能な前記部分仮説を探索し、前記部分仮説を拡張することによって最終的に生成された部分仮説のうちで、前記部分仮説スコアが最大となる部分仮説を、前記仮説として探索する仮説探索ステップと、
を有することを特徴とする機械翻訳方法。 - 前記機械翻訳装置は、重み学習モジュールをさらに備えており、
前記重み学習モジュールは、
前記(a)の単語列、前記(b)の単語列、および、前記(c)の単語列のそれぞれについて、前記ルールテーブルと、所定の単語対応付き素性重み学習用対訳コーパスと、所定の翻訳元言語並べ替えモデルと、所定の翻訳先言語並べ替えモデルと、所定の言語モデルと、を用いて、前記所定の単語対応付き素性重み学習用対訳コーパス中の翻訳元の文と正解翻訳文のペアを利用し、前記翻訳元の文と前記正解翻訳文の近さを表す目的関数を最適化することで、各素性関数の値に対応した重みを学習し、学習結果を素性の重みとして予め生成する
ことを特徴とする請求項3に記載の機械翻訳方法。 - コンピュータを請求項1または請求項2に記載の機械翻訳装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010112639A JP5544518B2 (ja) | 2010-05-14 | 2010-05-14 | 機械翻訳装置、機械翻訳方法、およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010112639A JP5544518B2 (ja) | 2010-05-14 | 2010-05-14 | 機械翻訳装置、機械翻訳方法、およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011242895A JP2011242895A (ja) | 2011-12-01 |
JP5544518B2 true JP5544518B2 (ja) | 2014-07-09 |
Family
ID=45409497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010112639A Active JP5544518B2 (ja) | 2010-05-14 | 2010-05-14 | 機械翻訳装置、機械翻訳方法、およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5544518B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5800206B2 (ja) * | 2013-03-01 | 2015-10-28 | 日本電信電話株式会社 | 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム |
CN111797638B (zh) * | 2020-06-23 | 2023-11-03 | 语联网(武汉)信息技术有限公司 | 一种单词级质量标签的生成方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005025474A (ja) * | 2003-07-01 | 2005-01-27 | Advanced Telecommunication Research Institute International | 機械翻訳装置、コンピュータプログラム及びコンピュータ |
JP4113204B2 (ja) * | 2005-06-23 | 2008-07-09 | 日本電信電話株式会社 | 機械翻訳装置、その方法およびプログラム |
JP4829702B2 (ja) * | 2006-07-06 | 2011-12-07 | 日本電信電話株式会社 | 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 |
US7783473B2 (en) * | 2006-12-28 | 2010-08-24 | At&T Intellectual Property Ii, L.P. | Sequence classification for machine translation |
JP5180522B2 (ja) * | 2007-06-20 | 2013-04-10 | 日本電信電話株式会社 | 機械翻訳装置、機械翻訳方法、およびそのプログラムならびに記録媒体 |
-
2010
- 2010-05-14 JP JP2010112639A patent/JP5544518B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011242895A (ja) | 2011-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5774751B2 (ja) | ツリーレット翻訳対の抽出 | |
JP5586817B2 (ja) | ツリーレット翻訳対の抽出 | |
US7797148B2 (en) | Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice | |
US10198437B2 (en) | Machine translation device and machine translation method in which a syntax conversion model and a word translation model are combined | |
KR101544690B1 (ko) | 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램 | |
Mondal et al. | Machine translation and its evaluation: a study | |
JP5180522B2 (ja) | 機械翻訳装置、機械翻訳方法、およびそのプログラムならびに記録媒体 | |
JP5552101B2 (ja) | 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
JP2006338261A (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
JP5544518B2 (ja) | 機械翻訳装置、機械翻訳方法、およびそのプログラム | |
JP4829702B2 (ja) | 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 | |
JP2005025474A (ja) | 機械翻訳装置、コンピュータプログラム及びコンピュータ | |
JP4113204B2 (ja) | 機械翻訳装置、その方法およびプログラム | |
JP5734917B2 (ja) | 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
JP5780670B2 (ja) | 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム | |
JP6590723B2 (ja) | 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム | |
KR20140079545A (ko) | 디코딩 방식에 기반한 다국어 형태소 분석 및 품사 태깅 방법 | |
JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム | |
JP6083645B2 (ja) | 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム | |
JP5416021B2 (ja) | 機械翻訳装置、機械翻訳方法、およびそのプログラム | |
JP2004280467A (ja) | 翻訳装置、翻訳方法、及びそのプログラム | |
Lee et al. | IBM Chinese-to-English PatentMT System for NTCIR-9. | |
WO2012127805A1 (ja) | 訳語選択条件抽出システム、訳語選択条件抽出方法および訳語選択条件抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110825 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120828 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130827 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140408 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20140410 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140411 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5544518 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |