JP2009003642A - 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 - Google Patents
機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2009003642A JP2009003642A JP2007162897A JP2007162897A JP2009003642A JP 2009003642 A JP2009003642 A JP 2009003642A JP 2007162897 A JP2007162897 A JP 2007162897A JP 2007162897 A JP2007162897 A JP 2007162897A JP 2009003642 A JP2009003642 A JP 2009003642A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- word
- feature
- language
- hypothesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】機械翻訳装置2は、翻訳元または翻訳先の文を構成する部分木の階層的特徴を表現する素性を示す階層的素性119と、翻訳元に含まれずに翻訳先の文に挿入されている単語と翻訳元単語との関係を表現する素性を示す翻訳先言語挿入素性118と、ルールテーブル114に格納された翻訳モデルとを含む素性に対応した重みを、素性重み学習用対訳学習データ250に基づいて学習し、素性重み211を格納する素性重み学習手段221と、素性ベクトルと素性重みベクトルとの内積を部分仮説スコアとして算出する部分仮説スコア算出手段243と、入力文に対して適用可能な部分仮説を探索し、部分仮説を拡張することによって最終的に生成された部分仮説のうちで部分仮説スコアが最大となる部分仮説を仮説として探索する仮説探索手段244とを備える。
【選択図】図7
Description
統計的機械翻訳は、翻訳元言語の単語列(文)が与えられたとき、翻訳確率を最大化するような翻訳先言語の単語列(文)を探索する問題として定式化される。ここで、翻訳確率を対数線形モデルで表現すると、最終的に統計的機械翻訳は式(1)で定式化される。
重み付き同期文脈自由文法は、式(3)に示す生成規則に、重みが付いたものの集合からなるものである。
Philipp Koehn, Franz Josef Och, and Daniel Marcu、Statistical phrase-based translation、In Proc. of NAACL 2003、p. 48-54、Edmonton、Canada、2003 David Chiang、A hierarchical phrase-based model for statistical machine translation、In Proc. of ACL 2005、p. 263-270、Ann Arbor、Michigan、June 2005 Taro Watanabe, Hajime Tsukada, and Hideki Isozaki、Left-to-right target generation for hierarchical phrase-based trans1ation、In Proc. of COLING/ACL2006、p. 777-784、Sydney、Australia、Jully 2006 Franz Josef Och、Minimum error rate training in statistical machine translation、In Proc.of ACL 2003、p. 160-167、Sapporo、Japan、July 2003
(1)翻訳元言語(日本語)の文:
「中国 の 措置 に対する 日本 の抗議 は 当然 だ 。」
(2)翻訳先言語(英語)の文(誤訳例):
「It is natural for China’s action to protest Japan.」
(3)翻訳先言語(英語)の文(正解翻訳例):
「It is natural for Japan to protest China’s action.」
一方、図13の正解翻訳例に示すように、翻訳元言語側の「X→X(1) は 当然だ X(2)」のX(1)は、「X→X(1) に対する 日本 の X(2)」のルールで展開されている。
前記した(3)の正解翻訳例のスコアを、前記した(2)の誤訳例のスコアよりも有利にする(高くする)ためには、後者のルールによる展開が、より尤もらしいことをモデル化すればよいと考えられる。しかしながら、従来のそれぞれの方法では、このようなモデル化を明示的には行っていなかった。したがって、従来の方法は翻訳精度が低いという問題がある。なお、図12および図13では、非終端記号を「X1,X2,X8,X6,…」等で表記した。
図1は、本発明の実施形態に係る生成規則作成装置の構成を示すブロック図である。
生成規則作成装置1は、翻訳元言語の単語列を翻訳先言語の単語列に機械的に翻訳する機械翻訳装置で利用する素性と生成規則とを作成するものである。以下では、翻訳元言語を日本語、翻訳先言語を英語として説明することとする。
生成規則作成装置1は、例えば、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、ROM(Read Only Memory)と、HDD(Hard Disk Drive)と、入出力インタフェース等から構成され、図1に示すように、入出力手段10と、記憶手段11と、制御手段12とを備えている。
対訳コーパス150は、互いに同じ意味を有する翻訳元言語の単語列と翻訳先言語の単語列との組合せのデータを複数備える。
「違憲 の 問題 について は 、 連邦 憲法 裁判所 が 決定 する 。」
「The Federal Constitutional Court decides on the question of unconstitutionality .」
単語ペア素性抽出手段131は、単語対応111から単語ペア素性117を抽出するものである。単語ペア素性117は、翻訳元言語/翻訳先言語の単語ペアに基づく素性である。
翻訳先言語挿入素性抽出手段132は、単語対応111に基づいて、翻訳先言語挿入素性118を抽出するものである。
翻訳先言語挿入素性118は、単語対応111において、翻訳先言語の単語列を構成する単語に対応する単語が翻訳元言語の単語列に含まれていないときに翻訳先言語の単語列に挿入されている単語と翻訳元言語の単語列に含まれる単語との関係を表現する素性を示す。これら単語ペア素性117および翻訳先言語挿入素性118の詳細については後記する。
このとき、フレーズペア内の各単語の対応、例えば、表2に示す最初の(1行目の)フレーズペア内において、(違憲,unconstitutionality),(問題,question)などの単語対応もフレーズペア112に同時に格納されるものとする。つまり、表2は、実際には、各行に、フレーズペアの格納された列の他に、(違憲,unconstitutionality),(問題,question)などの単語対応が格納された列(図示を省略する)を備える。
S → <S(1)X(1) ,S(1)X(1)>
S → <X(1) ,X(1)>
に対応して、式(13)〜式(17)の生成規則を生成する。このうち、式(14)〜式(17)の生成規則は、式(13)の生成規則から自動的に生成することができる。また、式(14)〜式(17)の生成規則に付与されるスコアについても、式(13)の生成規則と同一値を用いることができる。このような理由から、実装上は、式(14)〜式(17)の生成規則は明示的にストレージに格納する必要がない。式(14)〜式(17)の生成規則は、非特許文献2で用いられるグルー規則の非終端記号Xを、Xを左辺とする個々の規則で1回書き換えたものに対応している。
具体的には、生成規則作成手段126は、図2に示した対訳文から表4に示すような規則(右辺だけ示す)を生成する。表4の例では、各生成規則の右辺の翻訳先言語側は必ず終端記号(単語)で始まっている。なお、表4は、実際には、各行に、各生成規則の右辺の格納された列の他に、(連邦,Federal)などの単語対応が格納された列(図示を省略する)を備える。
単語ペア素性117(図1参照)について図4を参照して説明する。ここでは、図4に示すように、翻訳先言語の単語列401と、翻訳元言語の単語列402とから、フレーズペア403(403a,403b,403c)が抽出され、フレーズペア112に格納されているものとする。また、例えば、フレーズペア403bに含まれる単語対応404,405,406が単語対応111に格納されているものとする。ここでは、単語対応404は(ei,fj+1)であり、単語対応405は(ei,fj+1)、単語対応406は(ei+3,fj)である。このとき、単語対応(we,wf)ごとに、式(23)に示す素性hi(f,e)を定義する。なお、フレーズペア403aに含まれる単語対応407は(ei-1,ej-1)である。
この素性を実現するために、言語間対応素性抽出手段124の単語ペア素性抽出手段131(図1参照)は、単語ペア素性117に、(ei,fj+1)、(ei+2,fj+2)、(ei+3,fj)を格納する。
翻訳先言語挿入素性118(図1参照)は、翻訳先言語にはあるが翻訳元言語に対応する単語がないものをモデル化するものである。一般に、翻訳結果には、翻訳元の単語に対応しないものが現れることがある。例えば、日本語では、しばしば主語が省略される。そのため、日英翻訳において、翻訳先言語「英語」の主語に対応する翻訳元言語「日本語」の単語が存在しない場合が生じる。同様に、日本語には冠詞がないので、翻訳先言語「英語」の冠詞に対応する翻訳元言語「日本語」の単語がないことが多い。このような背景を考慮した翻訳先言語挿入素性118(図1参照)について図4を参照して説明する。
翻訳先言語bigram素性116(図1参照)は、翻訳先言語の流暢さを表現するために用いる素性であり、従来の言語モデル素性を補強するものである。例えば、図4に示すように、翻訳先言語の単語列401において、単語ペア(ei-1,ei)、(ei,ei+1)、(ei+1,ei+2)、…といった各単語ペア(e1,e2)に対して、式(26)に示す素性hi(f,e)を定義する。
階層的素性119(図1参照)は、同期文脈自由文法の上位下位関係を規定する素性である。例えば、生成規則作成手段126(図1参照)で作成される同期文脈自由文法の規則r1,r2において、r1の非終端記号がr2で展開されるとき、(r1,r2)という規則の組に対して式(27)に示す素性hi(f,e)を定義する。
従来の素性では、単語の表層形を仮定していた。しかしながら、このような表層形を仮定した素性だけでは、過学習の問題を起こす可能性がある。なお、学習に用いなかったデータに対する汎化誤差が大きくなってしまう現象は過学習と呼ばれている。本実施形態では、過学習を避けるため、正規化された単語を併用する。正規化の方法は、限定されないが、例えば、以下に示すような方法を用いることができる。
(2)品詞 − 形態素解析システムによって与えられた品詞を正規形とする。
(3)接頭辞/接尾辞 − 4文字のprefixあるいはsuffixを正規形とする。例えば、英語において、“violate”は、4文字のprefix/suffixをとることで、“viol+”、“+late”として、正規化される。
(4)stem − stemmingアルゴリズムにより、様々な表層型を正規化する。
(5)数字 − 数字を正規化する。例えば、“2007/6/27”であれば、数字の部分を“@”で置き換えることにより、“@@@@/@/@@”として正規化される。
図1に示した生成規則作成装置の動作について図6を参照(適宜図1参照)して説明する。図6は、図1に示した生成規則作成装置の動作を示すフローチャートである。
生成規則作成装置1は、モード判定手段121によって、モードを判定する(ステップS1)。判定の結果、モードが「単語対応作成」モードの場合には、生成規則作成装置1は、入出力手段10を介して、対訳コーパス150を単語対応作成手段123に入力し(ステップS2)、単語対応作成手段123によって、単語対応を作成する(ステップS3)。作成された単語対応111は、記憶手段11に格納される。
図7は、本発明の実施形態に係る機械翻訳装置の構成を示す機能ブロック図である。
機械翻訳装置2は、前記した階層的素性と前記した翻訳先言語挿入素性とのうちの少なくとも一方と、翻訳元言語の単語列と翻訳先言語の単語列との対応の確からしさを定義する翻訳モデルとを利用して、入力された翻訳元言語の単語列を、入力に対応する翻訳先言語の単語列に機械的に翻訳するものである。本実施形態では、機械翻訳装置2は、翻訳モデルとして、生成規則作成装置1(図1参照)で作成されたルールテーブルを利用することとした。機械翻訳装置2は、入力された翻訳元言語の単語列の翻訳結果である、入力に対応する翻訳先言語の単語列として、所定の部分仮説からそれよりも長い新たな部分仮説を順次作成して所定の部分仮説を拡張することによって最終的に生成された部分仮説である仮説を出力する。機械翻訳装置2は、例えば、CPUと、RAMと、ROMと、HDDと、入出力インタフェース等から構成され、図7に示すように、入出力手段20と、記憶手段21と、制御手段22とを備えている。
素性重み学習用対訳コーパス250は、生成規則作成装置1(図1参照)が生成規則を作成する際に利用する対訳コーパス150とは別に用意するものである。
本実施形態では、部分仮説スコア算出手段243は、ルールテーブル114に格納された翻訳モデルと、翻訳先言語bigram素性116と、単語ペア素性117と、翻訳先言語挿入素性118と、階層的素性119とを要素として含む素性ベクトルと、素性重み211を示す重みベクトルとの内積を部分仮説スコアS(H′)として算出する。
と表記する。ここで、生成された翻訳先言語の単語列は、「i」番目の単語から「i+ε」番目の単語で構成されている。
ここで、素性重み学習手段221が行うオンラインマージン最大化学習(Online Large-Margin Training)について説明する。素性重み学習手段221は、図8に示すオンライン学習アルゴリズムを実行する。このオンライン学習アルゴリズムは、デコーダ(仮説探索手段244)が生成可能な準正解データを活用する点が、一般的なオンライン学習アルゴリズムと相違している。
図7に示した機械翻訳装置2の動作について図9を参照(適宜図7参照)して説明する。図9は、図7に示した機械翻訳装置の動作を示すフローチャートである。予め、機械翻訳装置2は、素性重み学習手段221によって、素性重み学習用対訳コーパス250と、ルールテーブル114と、言語モデル115と、翻訳先言語bigram素性116と、単語ペア素性117と、翻訳先言語挿入素性118と、階層的素性119とに基づいて、素性関数の値の重みを学習し、学習結果である素性重み211を記憶手段21に格納しておく(ステップS21:素性重み学習ステップ)。
図10と、表6と、表7と、表8とを参照して具体例について説明する。
図10は、図7に示した部分仮説から仮説への拡張例を示す図である。表6は、11単語からなる翻訳元言語文を示し、表7は、表6に示した翻訳元言語文に対応して適用可能な生成規則を示す。なお、表7中の「生成規則の種類」とは、前記した式(13)〜式(17)のいずれに対応するかを示すものである。表8は、表7に示した生成規則の適用順とそれに基づく単語範囲付き生成規則を示すものである。
「The international terrorism also is a possible threat in Japan」
「international The terrorism also is a possible threat in Japan」
また、本実施形態では、機械翻訳装置2は、階層的素性119と翻訳先言語挿入素性118との両方を含んで統計的機械翻訳を行うものとして構成したが、階層的素性119と翻訳先言語挿入素性118とのうちのいずれか一方のみを含むように構成してもよい。この場合にも同等の効果を奏することができる。さらに、機械翻訳装置2は、翻訳モデルとして、生成規則作成装置1(図1参照)で作成されたルールテーブルを利用することとしたが、利用する翻訳モデルはルールテーブルに限定されるものではない。
具体的には、対訳コーパス150(図1参照)として、LDC(Linguistic Data Consortium:米国の言語データ研究機構)から配布されている「アラビア語/英語のコーパス」を用いた。この対訳コーパス(training set)150は、約380万文からなる。
また、素性重み学習用対訳コーパス250(図7参照)として、MT2003評価セット(663文:development set)を用い、テストに、MT2004(707文:open test set)およびMT2005(1,056文:open test set)を用いた。
また、翻訳先言語コーパス140(図1参照)として、LDCから配布されている「English Gigaword」を用いた。つまり、「English Gigaword」が、言語モデル115の学習や翻訳先言語bigram素性116の抽出に用いられた。
単語の正規化に関する実験として、単語の表層形(surface form)を仮定した素性と、単語を正規化することを仮定した素性とを比較する実験を行った。
(実施例1)単語の表層形(surface form)のみを仮定した。
(実施例2)単語の表層形(surface form)に加えて、接頭辞および接尾辞の正規化(prefix/suffix)を仮定した。
(実施例3)単語の表層形(surface form)に加えて、単語クラスの正規化(word class)を仮定した。
(実施例4)単語の表層形(surface form)に加えて、数字の正規化(digits)を仮定した。
(実施例5)単語の表層形(surface form)に加えて、接頭辞および接尾辞の正規化と、単語クラスの正規化と、数字の正規化とを総合した正規化(all token types)を仮定した。
素性重み学習手段221は、オンラインマージン最大化学習において繰り返し回数を、50回とした(N=50)。
各学習サンプルごとに、仮説探索手段244(デコーダ)は、1000-bestを出力し、そこから、上位10の翻訳および10の正解データを抽出した。
ロス関数としては、BLEUを用い、BLEUとNISTの両方で評価した。
この場合の実験結果を表10に示す。
実施例5の総合した正規化を仮定した素性を用いた上で、二値素性の組み合わせを比較する実験を行った。
(実施例6)単語ペア素性(word pairs)のみを利用した。
(実施例7)実施例6の素性(word pairs)に加えて、翻訳先言語bigram素性(target bigram)を利用した。
(実施例8)実施例7の素性(word pairs、target bigram)に加えて、翻訳先言語挿入素性(insertion)を利用した。
(実施例9)実施例8の素性(word pairs、target bigram、insertion)に加えて、単語ベースの階層的素性(hierarchical)を利用した。
この場合の実験結果を表11に示す。
実施例9のように4種類の素性を用いたもの(二値素性あり)と、二値素性を用いないもの(二値素性なし)とを比較する実験を行った。具体的には、MT2003評価セット、MT2004およびMT2005を合わせたセット(総計セット)について、2分割交差検定法(2-fold cross validation)を用いた。すなわち、総計セットの半分を素性重み学習用コーパスに用いると共に、残り半分をテストセットとして用いて、これを交互に行って平均を求めた。ここでは、4種類の素性を用いたものを実施例10(online)とする。また、二値素性を用いない比較例(baseline)として、非特許文献4に記載された従来の方法を用いた。この場合の実験結果を表12に示す。表12に示すように、実施例10は、比較例よりも性能が大幅に向上した。
2 機械翻訳装置
10 入出力手段
11 記憶手段
111 単語対応
112 フレーズペア
113 ルール
114 ルールテーブル
115 言語モデル
116 翻訳先言語bigram素性
117 単語ペア素性
118 翻訳先言語挿入素性
119 階層的素性
12 制御手段
121 モード判定手段
122 言語モデル学習手段
123 単語対応作成手段
124 言語間対応素性抽出手段
125 フレーズペア抽出手段
126 生成規則作成手段
127 翻訳スコア計算手段
128 階層的素性抽出手段
131 単語ペア素性抽出手段
132 翻訳先言語挿入素性抽出手段
140 翻訳先言語コーパス
150 対訳コーパス
20 入出力手段
21 記憶手段
211 素性重み
212 単語情報
213 単語範囲付きルール
214 部分仮説
215 部分仮説スコア
22 制御手段
221 素性重み学習手段
222 単語情報抽出手段
241 生成規則探索手段
242 単語範囲付き生成規則生成手段
243 部分仮説スコア算出手段
244 仮説探索手段
250 素性重み学習用対訳コーパス
Claims (7)
- 対訳学習データ中の翻訳元言語の単語列または翻訳先言語の単語列を構成する部分木の階層的特徴を表現する素性を示す階層的素性と、前記対訳学習データ中の翻訳先言語の単語列を構成する単語に対応する単語が翻訳元言語の単語列に含まれていないときに前記翻訳先言語の単語列に挿入されている単語と前記翻訳元言語の単語列に含まれる単語との関係を表現する素性を示す翻訳先言語挿入素性とのうちの少なくとも一方と、翻訳元言語の単語列と翻訳先言語の単語列との対応の確からしさを定義する翻訳モデルとを利用して、入力された翻訳元言語の単語列の翻訳結果である前記入力に対応する翻訳先言語の単語列として、所定の部分仮説からそれよりも長い新たな部分仮説を順次作成して前記所定の部分仮説を拡張することによって最終的に生成された部分仮説である仮説を出力する機械翻訳装置であって、
前記階層的素性と前記翻訳先言語挿入素性とのうちの少なくとも一方と前記翻訳モデルとを含む素性に対応した重みを、素性重み学習用対訳学習データに基づいて学習し、学習結果を素性重みとして記憶手段に格納する素性重み学習手段と、
前記階層的素性と前記翻訳先言語挿入素性とのうちの少なくとも一方と前記翻訳モデルとを要素として含む素性ベクトルと、前記素性重みを示す重みベクトルとの内積を、前記作成された部分仮説の評価値を示す部分仮説スコアとして算出する部分仮説スコア算出手段と、
前記入力された翻訳元言語の単語列に対して適用可能な所定の部分仮説を探索し、前記所定の部分仮説を拡張することによって最終的に生成された部分仮説のうちで、前記部分仮説スコアが最大となる部分仮説を、前記仮説として探索する仮説探索手段とを備えることを特徴とする機械翻訳装置。 - 対訳学習データ中の翻訳元言語の単語列または翻訳先言語の単語列を構成する部分木の階層的特徴を表現する素性を示す階層的素性と、前記対訳学習データ中の翻訳先言語の単語列を構成する単語に対応する単語が翻訳元言語の単語列に含まれていないときに前記翻訳先言語の単語列に挿入されている単語と前記翻訳元言語の単語列に含まれる単語との関係を表現する素性を示す翻訳先言語挿入素性とのうちの少なくとも一方と、翻訳元言語の単語列と翻訳先言語の単語列との対応の確からしさを定義する翻訳モデルとを利用して、入力された翻訳元言語の単語列の翻訳結果である前記入力に対応する翻訳先言語の単語列として、所定の部分仮説からそれよりも長い新たな部分仮説を順次作成して前記所定の部分仮説を拡張することによって最終的に生成された部分仮説である仮説を出力する機械翻訳装置の機械翻訳方法であって、
素性重み学習手段によって、前記階層的素性と前記翻訳先言語挿入素性とのうちの少なくとも一方と前記翻訳モデルとを含む素性に対応した重みを、素性重み学習用対訳学習データに基づいて学習し、学習結果を素性重みとして記憶手段に格納する素性重み学習ステップと、
部分仮説スコア算出手段によって、前記階層的素性と前記翻訳先言語挿入素性とのうちの少なくとも一方と前記翻訳モデルとを要素として含む素性ベクトルと、前記素性重みを示す重みベクトルとの内積を、前記作成された部分仮説の評価値を示す部分仮説スコアとして算出する部分仮説スコア算出ステップと、
仮説探索手段によって、前記入力された翻訳元言語の単語列に対して適用可能な所定の部分仮説を探索し、前記所定の部分仮説を拡張することによって最終的に生成された部分仮説のうちで、前記部分仮説スコアが最大となる部分仮説を、前記仮説として探索する仮説探索ステップとを有することを特徴とする機械翻訳方法。 - 請求項1に記載の機械翻訳装置で利用する素性と生成規則とを作成する生成規則作成装置であって、
対訳学習データから予め求められた翻訳元言語の単語と翻訳先言語の単語との単語対応に基づいて、前記翻訳元言語の単語列または前記翻訳先言語の単語列を構成する部分木の階層的特徴を表現する素性を示す階層的素性を前記素性の1つとして抽出する階層的素性抽出手段と、
対訳学習データから予め求められた翻訳元言語の単語と翻訳先言語の単語との単語対応に基づいて、前記翻訳先言語の単語列を構成する単語に対応する単語が前記翻訳元言語の単語列に含まれていないときに前記翻訳先言語の単語列に挿入されている単語と前記翻訳元言語の単語列に含まれる単語との関係を表現する素性を示す翻訳先言語挿入素性を抽出する翻訳先言語挿入素性抽出手段とのうちの少なくとも一方を備えることを特徴とする生成規則作成装置。 - 請求項1に記載の機械翻訳装置で利用する素性と生成規則とを作成する生成規則作成装置の生成規則作成方法であって、
階層的素性抽出手段によって、対訳学習データから予め求められた翻訳元言語の単語と翻訳先言語の単語との単語対応に基づいて、前記翻訳元言語の単語列または前記翻訳先言語の単語列を構成する部分木の階層的特徴を表現する素性を示す階層的素性を前記素性の1つとして抽出する階層的素性抽出ステップと、
翻訳先言語挿入素性抽出手段によって、対訳学習データから予め求められた翻訳元言語の単語と翻訳先言語の単語との単語対応に基づいて、前記翻訳先言語の単語列を構成する単語に対応する単語が前記翻訳元言語の単語列に含まれていないときに前記翻訳先言語の単語列に挿入されている単語と前記翻訳元言語の単語列に含まれる単語との関係を表現する素性を示す翻訳先言語挿入素性を抽出する翻訳先言語挿入素性抽出ステップとのうちの少なくとも一方を有することを特徴とする生成規則作成方法。 - 請求項2に記載の機械翻訳方法をコンピュータに実行させることを特徴とする機械翻訳プログラム。
- 請求項4に記載の生成規則作成方法をコンピュータに実行させることを特徴とする生成規則作成プログラム。
- 請求項5に記載の機械翻訳プログラムまたは請求項6に記載の生成規則作成プログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007162897A JP5180522B2 (ja) | 2007-06-20 | 2007-06-20 | 機械翻訳装置、機械翻訳方法、およびそのプログラムならびに記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007162897A JP5180522B2 (ja) | 2007-06-20 | 2007-06-20 | 機械翻訳装置、機械翻訳方法、およびそのプログラムならびに記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009003642A true JP2009003642A (ja) | 2009-01-08 |
JP5180522B2 JP5180522B2 (ja) | 2013-04-10 |
Family
ID=40319975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007162897A Active JP5180522B2 (ja) | 2007-06-20 | 2007-06-20 | 機械翻訳装置、機械翻訳方法、およびそのプログラムならびに記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5180522B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011243147A (ja) * | 2010-05-21 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム |
JP2011242895A (ja) * | 2010-05-14 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳装置、機械翻訳方法、およびそのプログラム |
WO2014196375A1 (ja) * | 2013-06-03 | 2014-12-11 | 独立行政法人情報通信研究機構 | 翻訳装置、学習装置、翻訳方法、および記録媒体 |
JP2017084274A (ja) * | 2015-10-30 | 2017-05-18 | 日本電信電話株式会社 | 単語対応付け装置、機械翻訳学習装置、方法、及びプログラム |
CN110895660A (zh) * | 2018-08-23 | 2020-03-20 | 澳门大学 | 一种基于句法依存关系动态编码的语句处理方法及装置 |
-
2007
- 2007-06-20 JP JP2007162897A patent/JP5180522B2/ja active Active
Non-Patent Citations (6)
Title |
---|
CSNG200500630005; 渡辺 太郎 外3名: '階層的句アラインメントを用いた統計的機械翻訳' 電子情報通信学会論文誌 (J87-D-II) 第J87-D-II巻第4号, 20040401, p.978-986, 社団法人電子情報通信学会 * |
CSNG200700706020; 今村 賢治 外2名: '句に基づく構文トランスファ方式統計翻訳' 情報処理学会論文誌 第48巻第4号, 20070415, P.1809〜1819, 社団法人情報処理学会 * |
CSNH200700066005; 塚田 元 外4人: '統計的機械翻訳' NTT技術ジャーナル 第19巻第6号, 20070601, P.23〜25, 社団法人電気通信協会 * |
JPN6012037584; 今村 賢治 外2名: '句に基づく構文トランスファ方式統計翻訳' 情報処理学会論文誌 第48巻第4号, 20070415, P.1809〜1819, 社団法人情報処理学会 * |
JPN6012037585; 塚田 元 外4人: '統計的機械翻訳' NTT技術ジャーナル 第19巻第6号, 20070601, P.23〜25, 社団法人電気通信協会 * |
JPN6012037586; 渡辺 太郎 外3名: '階層的句アラインメントを用いた統計的機械翻訳' 電子情報通信学会論文誌 (J87-D-II) 第J87-D-II巻第4号, 20040401, p.978-986, 社団法人電子情報通信学会 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011242895A (ja) * | 2010-05-14 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳装置、機械翻訳方法、およびそのプログラム |
JP2011243147A (ja) * | 2010-05-21 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム |
WO2014196375A1 (ja) * | 2013-06-03 | 2014-12-11 | 独立行政法人情報通信研究機構 | 翻訳装置、学習装置、翻訳方法、および記録媒体 |
JP2017084274A (ja) * | 2015-10-30 | 2017-05-18 | 日本電信電話株式会社 | 単語対応付け装置、機械翻訳学習装置、方法、及びプログラム |
CN110895660A (zh) * | 2018-08-23 | 2020-03-20 | 澳门大学 | 一种基于句法依存关系动态编码的语句处理方法及装置 |
CN110895660B (zh) * | 2018-08-23 | 2024-05-17 | 澳门大学 | 一种基于句法依存关系动态编码的语句处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5180522B2 (ja) | 2013-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5774751B2 (ja) | ツリーレット翻訳対の抽出 | |
Liang et al. | An end-to-end discriminative approach to machine translation | |
US9176936B2 (en) | Transliteration pair matching | |
JP4961755B2 (ja) | 単語アライメント装置、単語アライメント方法、単語アライメントプログラム | |
US8239188B2 (en) | Example based translation apparatus, translation method, and translation program | |
DeNero et al. | Inducing sentence structure from parallel corpora for reordering | |
JP5586817B2 (ja) | ツリーレット翻訳対の抽出 | |
US20090326916A1 (en) | Unsupervised chinese word segmentation for statistical machine translation | |
JP6817556B2 (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
JP5180522B2 (ja) | 機械翻訳装置、機械翻訳方法、およびそのプログラムならびに記録媒体 | |
Xu et al. | Do we need Chinese word segmentation for statistical machine translation? | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
CN109033066A (zh) | 一种摘要形成方法及装置 | |
Dreyer | A non-parametric model for the discovery of inflectional paradigms from plain text using graphical models over strings | |
JP5552101B2 (ja) | 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
JP2015169947A (ja) | モデル学習装置、形態素解析装置、及び方法 | |
JP5565827B2 (ja) | 統計的機械翻訳のための言語独立な単語セグメント化のための文分離器トレーニング装置、そのためのコンピュータプログラム及びコンピュータ可読媒体。 | |
JP4829702B2 (ja) | 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 | |
JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
JP2009157888A (ja) | 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム | |
JP5544518B2 (ja) | 機械翻訳装置、機械翻訳方法、およびそのプログラム | |
JP5734917B2 (ja) | 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
JP4113204B2 (ja) | 機械翻訳装置、その方法およびプログラム | |
Wegari et al. | Parts of speech tagging for Afaan Oromo | |
JP6083645B2 (ja) | 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090715 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120724 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5180522 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |