JP4829702B2 - 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 - Google Patents
機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP4829702B2 JP4829702B2 JP2006187240A JP2006187240A JP4829702B2 JP 4829702 B2 JP4829702 B2 JP 4829702B2 JP 2006187240 A JP2006187240 A JP 2006187240A JP 2006187240 A JP2006187240 A JP 2006187240A JP 4829702 B2 JP4829702 B2 JP 4829702B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- translation
- hypothesis
- generation rule
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
統計的機械翻訳は、翻訳元言語の単語列(文)が与えられたとき、翻訳確率を最大化するような翻訳先言語の単語列(文)を探索する問題として定式化される。ここで、翻訳確率を対数線形モデルで表現すると、最終的に統計的機械翻訳は式(1)で定式化される。
重み付き同期文脈自由文法は、式(2)に示す生成規則に、重みが付いたものの集合からなるものである。
まず、CKY(Cocke-Kasami-Younger)法に基づくボトムアップ構文解析において、同期文脈自由文法の翻訳元言語側の生成規則を、翻訳元言語の単語列に適用し、翻訳元言語の構文解析木を得る。そして、翻訳元言語の構文解析木に対応する同期文脈自由文法の最適な導出D^を、前記した式(4)に基づいて求め、その最適な導出D^に基づいて翻訳先言語の単語列を生成する。ただし、統計的機械翻訳の解探索において解の候補(以下、仮説と呼ぶ)は膨大であるため、計算量の観点から、全探索をして真の最適解を求めることは事実上不可能となっている。そこで、従来、解探索の過程で部分的に構成された、同期文脈自由文法の部分木の導出Dに対して所定の枝刈りを実行しながら処理をすすめて準最適解を求めることとしている。
Franz Josef Och. Minimum error rate training in statistical machine translation. In Proc.of ACL 2003、p. 160-167、Sapporo、Japan、July 2003 David Chiang. A hierarchical phrase-based model for statistical machine translation. In Proc. of ACL 2005, p. 263-270, Ann Arbor, Michigan, June 2005 Philipp Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based translation. In Proc. of NAACL 2003, p. 48-54、Edmonton, Canada, 2003 Philipp Koehn. Pharaoh: A beam search decoder for phrase-based statistical machine translation models. In Proc. of the 6th Conference of the Association for Machine Translation in the Americas(AMTA), p. l15-124, September-October 2004
図1は、本発明の実施形態に係る生成規則作成装置の構成を示す機能ブロック図である。
生成規則作成装置1は、翻訳元言語の単語列を翻訳先言語の単語列に機械的に翻訳する機械翻訳装置で利用する生成規則を作成するものである。以下では、翻訳元言語を日本語、翻訳先言語を英語として説明することとする。
生成規則作成装置1は、例えば、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、ROM(Read Only Memory)と、HDD(Hard Disk Drive)と、入出力インタフェース等から構成され、図1に示すように、入出力手段10と、記憶手段11と、単語対応作成モジュール12と、制御手段13とを備えている。
対訳コーパス150は、互いに同じ意味を有する翻訳元言語の単語列と翻訳先言語の単語列との組合せのデータを複数備える。
「違憲 の 問題 について は 、 連邦 憲法 裁判所 が 決定 する 。」
「The Federal Constitutional Court decides on the question of unconstitutionality .」
S → <S(1)X(1) ,S(1)X(1)>
S → <X(1) ,X(1)>
に対応して、式(9)〜式(9d)の生成規則を生成する。このうち、式(9a)〜式(9d)の生成規則は、式(9)の生成規則から自動的に生成することができる。また、式(9a)〜式(9d)の生成規則に付与されるスコアについても、式(9)の生成規則と同一値を用いることができる。このような理由から、実装上は、式(9a)〜式(9d)の生成規則は明示的にストレージに格納する必要がない。式(9a)〜式(9d)の生成規則は、非特許文献2で用いられるグルー規則の非終端記号Xを、Xを左辺とする個々の規則で1回書き換えたものに対応している。
具体的には、生成規則作成手段133は、図2に示した対訳文から表4に示すような規則(右辺だけ示す)を生成する。表4の例では、各生成規則の右辺の翻訳先言語側は必ず終端記号(単語)で始まっている。一方、従来の方法では、生成規則の右辺の翻訳先言語側は必ずしも終端記号で始まることはなく、例えば、表1に示したように、非終端記号Xで始まる場合がある。
図1に示した生成規則作成装置の動作について図4を参照(適宜図1参照)して説明する。図4は、図1に示した生成規則作成装置の動作を示すフローチャートである。
生成規則作成装置1は、モード判定手段131によって、モードを判定する(ステップS1)。判定の結果、モードが「単語対応作成」モードの場合には、生成規則作成装置1は、入出力手段10を介して、対訳コーパス150を単語対応作成モジュール12に入力し(ステップS2)、単語対応作成モジュール12によって、単語対応を作成する(ステップS3)。作成された単語対応111は、記憶手段11に格納される。
図5は、本発明の実施形態に係る機械翻訳装置の構成を示す機能ブロック図である。
機械翻訳装置2は、生成規則作成装置1(図1参照)で作成されたルールテーブルを利用して、入力された翻訳元言語の単語列を、入力に対応する翻訳先言語の単語列に機械的に翻訳するものである。機械翻訳装置2は、例えば、CPUと、RAMと、ROMと、HDDと、入出力インタフェース等から構成され、図5に示すように、入出力手段20と、記憶手段21と、素性重み学習モジュール22と、単語情報抽出モジュール23と、制御手段24とを備えている。
素性重み学習用対訳コーパス250は、生成規則作成装置1(図1参照)が生成規則を作成する際に利用する対訳コーパス150とは別に用意するものである。
と表記する。ここで、生成された翻訳先言語の単語列は、「i」番目の単語から「i+ε」番目の単語で構成されている。
図5に示した機械翻訳装置の動作について図6を参照(適宜図5参照)して説明する。図6は、図5に示した機械翻訳装置の動作を示すフローチャートである。予め、機械翻訳装置2は、素性重み学習モジュール22によって、素性重み学習用対訳コーパス250と、言語モデル215と、ルールテーブル114とに基づいて、素性関数の値の重みを学習し、学習結果である素性重み211を記憶手段21に格納しておく。
図7と、表6と、表7と、表8とを参照して具体例について説明する。
図7は、図5に示した部分仮説から仮説への拡張例を示す図である。表6は、11単語からなる翻訳元言語文を示し、表7は、表6に示した翻訳元言語文に対応して適用可能な生成規則を示す。なお、表7中の「生成規則の種類」とは、前記した式(9)〜式(9d)のいずれに対応するかを示すものである。表8は、表7に示した生成規則の適用順とそれに基づく単語範囲付き生成規則を示すものである。
「The international terrorism also is a possible threat in Japan」
「international The terrorism also is a possible threat in Japan」
2 機械翻訳装置
10 入出力手段
11 記憶手段
111 単語対応
112 フレーズペア
113 ルール
114 ルールテーブル
12 単語対応作成モジュール
13 制御手段
131 モード判定手段
132 フレーズペア抽出手段
133 生成規則作成手段
134 翻訳スコア計算手段
150 対訳コーパス
20 入出力手段
21 記憶手段
211 素性重み
212 単語情報
213 単語範囲付きルール
214 部分仮説
215 言語モデル
216 部分仮説スコア
22 素性重み学習モジュール
23 単語情報抽出モジュール
24 制御手段
241 生成規則探索手段
242 単語範囲付き生成規則生成手段
243 部分仮説スコア算出手段
244 仮説探索手段
250 素性重み学習用対訳コーパス
K 入力装置
D 出力装置
Claims (7)
- 同期文脈自由文法を用いて翻訳元言語の単語列から翻訳先言語の単語列を生成する生成規則の右辺の前記翻訳先言語の記号列が終端記号から始まるように生成された生成規則が複数格納されたルールテーブルを利用して、入力された翻訳元言語の単語列の翻訳結果である前記入力に対応する翻訳先言語の単語列として、所定の部分仮説からそれよりも長い新たな部分仮説を順次作成して前記所定の部分仮説を拡張することによって最終的に生成された部分仮説である仮説を出力する機械翻訳装置であって、
前記所定の部分仮説を拡張するために適用可能な生成規則を前記ルールテーブルからそれぞれ探索する生成規則探索手段と、
前記探索された生成規則の翻訳元言語側に対して、前記入力された翻訳元言語の単語列を構成する単語の単語数と単語位置とに基づいて、前記探索された生成規則の非終端記号が被う翻訳元言語の単語列の範囲を示す単語範囲を付加して、適用可能な単語範囲付き生成規則をそれぞれ生成する単語範囲付き生成規則生成手段と、
前記生成された単語範囲付き生成規則に含まれる翻訳先言語側の翻訳済み単語と前記単語範囲とを、前記新たな部分仮説として作成すると共に、前記適用可能な生成規則をトップダウンに適用し且つ前記適用可能な生成規則において翻訳先言語側の非終端記号が文頭から文末に亘って並べられた順序で、前記新たな部分仮説を拡張し、前記生成規則ごとにそれぞれ予め求められた、翻訳の確からしさを表す翻訳モデルのスコアと、前記翻訳先言語の単語列としての確からしさを表す言語モデルのスコアとに基づいて、前記作成された部分仮説の評価値を示す部分仮説スコアを算出する部分仮説スコア算出手段と、
前記入力された翻訳元言語の単語列に対して適用可能な所定の部分仮説を探索し、前記所定の部分仮説を拡張することによって最終的に生成された部分仮説のうちで、前記部分仮説スコアが最大となる部分仮説を、前記仮説として探索する仮説探索手段と、
を備えることを特徴とする機械翻訳装置。 - 同期文脈自由文法を用いて翻訳元言語の単語列から翻訳先言語の単語列を生成する生成規則の右辺の前記翻訳先言語の記号列が終端記号から始まるように生成された生成規則が複数格納されたルールテーブルを利用して、入力された翻訳元言語の単語列の翻訳結果である前記入力に対応する翻訳先言語の単語列として、所定の部分仮説からそれよりも長い新たな部分仮説を順次作成して前記所定の部分仮説を拡張することによって最終的に生成された部分仮説である仮説を出力する機械翻訳装置の機械翻訳方法であって、
前記機械翻訳装置は、
前記所定の部分仮説を拡張するために適用可能な生成規則を前記ルールテーブルからそれぞれ探索する生成規則探索ステップと、
前記探索された生成規則の翻訳元言語側に対して、前記入力された翻訳元言語の単語列を構成する単語の単語数と単語位置とに基づいて、前記探索された生成規則の非終端記号が被う翻訳元言語の単語列の範囲を示す単語範囲を付加して、適用可能な単語範囲付き生成規則をそれぞれ生成する単語範囲付き生成規則生成ステップと、
前記生成された単語範囲付き生成規則に含まれる翻訳先言語側の翻訳済み単語と前記単語範囲とを、前記新たな部分仮説として作成すると共に、前記適用可能な生成規則をトップダウンに適用し且つ前記適用可能な生成規則において翻訳先言語側の非終端記号が文頭から文末に亘って並べられた順序で、前記新たな部分仮説を拡張し、前記生成規則ごとにそれぞれ予め求められた、翻訳の確からしさを表す翻訳モデルのスコアと、前記翻訳先言語の単語列としての確からしさを表す言語モデルのスコアとに基づいて、前記作成された部分仮説の評価値を示す部分仮説スコアを算出する部分仮説スコア算出ステップと、
前記入力された翻訳元言語の単語列に対して適用可能な所定の部分仮説を探索し、前記所定の部分仮説を拡張することによって最終的に生成された部分仮説のうちで、前記部分仮説スコアが最大となる部分仮説を、前記仮説として探索する仮説探索ステップと、
を有することを特徴とする機械翻訳方法。 - 請求項1に記載の機械翻訳装置で利用する生成規則を作成する生成規則作成装置であって、
翻訳元言語の単語と翻訳先言語の単語との単語対応に基づき、互いに同じ意味を有する翻訳元言語の単語列と翻訳先言語の単語列との組合せを複数備える対訳コーパスに格納された前記組合せから、前記翻訳元言語と翻訳先言語において互いに同じ意味を有する単語または句の組合せをフレーズペアとして抽出するフレーズペア抽出手段と、
前記抽出されたフレーズペアに基づいて、同期文脈自由文法の生成規則において、右辺の前記翻訳先言語の記号列が終端記号から始まるという制約を加えた生成規則を作成する生成規則作成手段と、
を備えることを特徴とする生成規則作成装置。 - 請求項1に記載の機械翻訳装置で利用する生成規則を作成する生成規則作成装置の生成規則作成方法であって、
前記生成規則作成装置は、
翻訳元言語の単語と翻訳先言語の単語との単語対応に基づき、互いに同じ意味を有する翻訳元言語の単語列と翻訳先言語の単語列との組合せを複数備える対訳コーパスに格納された前記組合せから、前記翻訳元言語と翻訳先言語において互いに同じ意味を有する単語または句の組合せをフレーズペアとして抽出するフレーズペア抽出ステップと、
前記抽出されたフレーズペアに基づいて、同期文脈自由文法の生成規則において、右辺の前記翻訳先言語の記号列が終端記号から始まるという制約を加えた生成規則を作成する生成規則作成ステップと、
を有することを特徴とする生成規則作成方法。 - 請求項2に記載の機械翻訳方法をコンピュータに実行させることを特徴とする機械翻訳プログラム。
- 請求項4に記載の生成規則作成方法をコンピュータに実行させることを特徴とする生成規則作成プログラム。
- 請求項5に記載の機械翻訳プログラムまたは請求項6に記載の生成規則作成プログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006187240A JP4829702B2 (ja) | 2006-07-06 | 2006-07-06 | 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006187240A JP4829702B2 (ja) | 2006-07-06 | 2006-07-06 | 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008015844A JP2008015844A (ja) | 2008-01-24 |
JP4829702B2 true JP4829702B2 (ja) | 2011-12-07 |
Family
ID=39072784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006187240A Active JP4829702B2 (ja) | 2006-07-06 | 2006-07-06 | 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4829702B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5544518B2 (ja) * | 2010-05-14 | 2014-07-09 | 日本電信電話株式会社 | 機械翻訳装置、機械翻訳方法、およびそのプログラム |
JP6103573B2 (ja) * | 2012-06-11 | 2017-03-29 | 国立研究開発法人情報通信研究機構 | 翻訳装置、翻訳方法、およびプログラム |
KR102251832B1 (ko) | 2016-06-16 | 2021-05-13 | 삼성전자주식회사 | 번역 서비스를 제공하는 전자 장치 및 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003296326A (ja) * | 2002-04-03 | 2003-10-17 | Just Syst Corp | 機械翻訳装置、機械翻訳方法、及び機械翻訳プログラム |
-
2006
- 2006-07-06 JP JP2006187240A patent/JP4829702B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008015844A (ja) | 2008-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5774751B2 (ja) | ツリーレット翻訳対の抽出 | |
US8229731B2 (en) | Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice | |
US9176936B2 (en) | Transliteration pair matching | |
Kanthak et al. | Novel reordering approaches in phrase-based statistical machine translation | |
JP5586817B2 (ja) | ツリーレット翻訳対の抽出 | |
KR101544690B1 (ko) | 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램 | |
Hellsten et al. | Transliterated mobile keyboard input via weighted finite-state transducers | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
KR20040086775A (ko) | 단어 분석 시스템 및 방법 | |
JP5180522B2 (ja) | 機械翻訳装置、機械翻訳方法、およびそのプログラムならびに記録媒体 | |
Mermer | Unsupervised search for the optimal segmentation for statistical machine translation | |
JP4829702B2 (ja) | 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 | |
JP5565827B2 (ja) | 統計的機械翻訳のための言語独立な単語セグメント化のための文分離器トレーニング装置、そのためのコンピュータプログラム及びコンピュータ可読媒体。 | |
JP2010244385A (ja) | 機械翻訳装置、機械翻訳方法、およびプログラム | |
JP5544518B2 (ja) | 機械翻訳装置、機械翻訳方法、およびそのプログラム | |
JP4113204B2 (ja) | 機械翻訳装置、その方法およびプログラム | |
JP5780670B2 (ja) | 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム | |
Finch et al. | A bayesian model of transliteration and its human evaluation when integrated into a machine translation system | |
Hewavitharana et al. | The CMU statistical machine translation system for IWSLT2005 | |
Zhu | Optimized Chinese pronunciation prediction by component-based statistical machine translation | |
KR100910275B1 (ko) | 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치 | |
Xu et al. | Partitioning parallel documents using binary segmentation | |
JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム | |
Lee et al. | IBM Chinese-to-English PatentMT System for NTCIR-9. | |
KR20090042201A (ko) | 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080730 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110805 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110913 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110916 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140922 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4829702 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |