JP6058513B2 - 語順並び替え装置、翻訳装置、方法、及びプログラム - Google Patents

語順並び替え装置、翻訳装置、方法、及びプログラム Download PDF

Info

Publication number
JP6058513B2
JP6058513B2 JP2013206589A JP2013206589A JP6058513B2 JP 6058513 B2 JP6058513 B2 JP 6058513B2 JP 2013206589 A JP2013206589 A JP 2013206589A JP 2013206589 A JP2013206589 A JP 2013206589A JP 6058513 B2 JP6058513 B2 JP 6058513B2
Authority
JP
Japan
Prior art keywords
language
word
stack
action
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013206589A
Other languages
English (en)
Other versions
JP2015072509A (ja
Inventor
林 克彦
克彦 林
克仁 須藤
克仁 須藤
塚田 元
元 塚田
鈴木 潤
潤 鈴木
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013206589A priority Critical patent/JP6058513B2/ja
Publication of JP2015072509A publication Critical patent/JP2015072509A/ja
Application granted granted Critical
Publication of JP6058513B2 publication Critical patent/JP6058513B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、語順並び替え装置、翻訳装置、方法、及びプログラムに係り、特に、入力文の語順を並び替える語順並び替え装置、翻訳装置、方法、及びプログラムに関する。
統計的機械翻訳の分野では、日本語と英語のように文の構文構造が異なる言語間での翻訳性能改善が大きな課題となっている。これらの言語対において翻訳性能を劣化させる主な要因は、入力言語文と出力言語文の単語の並びが大きく異なるために生じる長距離の単語並び替え現象にある。
この長距離の単語並び替え問題を効率的に解くため、後単語並び替え手法が提案されている(非特許文献1)。後単語並び替え手法とは、まず機械翻訳装置によって入力言語語順の翻訳結果を出力した後に、独立して単語並び替えを行う技術である。図13に後単語並び替えによる機械翻訳方式の概念図を示す。
後単語並び替えによる機械翻訳方式では機械翻訳装置と単語並び替え(及び編集)装置で用いるモデルを統計的に学習するためのデータが必要となる。ここで必要となるデータとは、入力言語文と同じ語順となった出力言語文(中間言語文)、及び中間言語文から元の出力言語文を復元するための重要な情報を持つ中間言語構造(中間言語木)のことを指す。非特許文献1の手法において中間言語木は必要ないが、別の手法ではそれを利用することが翻訳性能向上に有効であることが示されている(非特許文献2)。
図3では英語文「I saw a girl with a telescope」と日本語文「私は望遠鏡で少女を見た」を対訳文とした中間言語(英語)データ作成の例を示している。図3の左図に示すように、まず英語文の構文構造(構文木)を自動構文解析装置によって作成する。この木では単語の上には品詞タグが付与され、例えば、「I」という単語には「N」という品詞タグが割り当てられている。品詞タグ「N」には単語「I」が主辞として付与される。品詞タグを付与する文法規則は「N→I」のように表記する。品詞タグよりも上の層では、非終端記号によって、1つ、ないしは2つの品詞または非終端記号が結合されていくことで木構造を形成する。例えば、V(saw)とNP(girl)がまとまりVP(saw)へと結合されている。このようにまとめる文法規則は「VP→V NP」として表記する。
次に、非特許文献3で提案されたルールに基づく手法をその構文木に適用することで、図3の右図に示すような日本語語順の英語文(中間英語文)及び中間英語木を作成する。この手法では図3の左図の木における非終端記号に付随する主辞を必ず後ろにするという操作を行う。例えば、図3の左図のPP(with)→PR(with)NP(telescope)の辺では、PPの主辞となる「with」は「telescope」の前に位置するが、図3の右図ではPP#→N(telescope)"a/an"PR(with)のように「with」は「telescope」の後ろに位置する。#は並び替えが行われることを意味するマーキングである。このような変換は日本語が厳密な主辞終端の原則に基づいた構文構造をとるためである。ちなみに上記図3の右図からNP(telescope)→N(telescope)のような単一規則は全て除去している。これは自動構文解析装置を効率化するためであり、よく使われる手段である。また、中間英語文からは冠詞(the、a、an)が消去されており、逆に、日本語の助詞(が、は、を)が挿入されているが、これらは日本語文との単語対応をとりやすくするための操作である。削除された冠詞はそれが先頭に挿入される句を表す品詞ないしは非終端記号にマーキングする。例えば、N(telescope)"a/an"である。
後単語並び替えによる機械翻訳方式によって日本語から英語への翻訳を行う場合、まず機械翻訳装置によって日本語文を中間英語文へと翻訳する。この機械翻訳装置は句に基づいた統計的機械翻訳手法(非特許文献4)により、日本語文と中間英語文が対となった大量の対訳データから統計的にモデルを学習することで作成することができる。
後単語並び替え手法は、機械翻訳装置によって出力された中間英語文に対して、単語並び替え及び編集を行うことで、英語文を作成するための方法である。非特許文献2の方法ではまず上記図3の右図で示したような中間英語木から自動構文解析装置のモデルを統計的に学習しておく。そして、そのモデルに基づいて、自動構文解析装置は翻訳装置が出力した中間英語文に対して中間英語木を自動推定し、その中間英語木から英語文の単語並びを復元する。また、非特許文献2の方法では削除した冠詞を英語文へと挿入するため、N-gram言語モデルによる編集装置も提案している。非特許文献2の手法は非特許文献1の後単語並び替え手法よりも高い性能を示すことが報告されている。
Katsuhito Sudoh, Xianchao Wu, Kevin Duh, Hajime Tsukada, and Masaaki Nagata. Postordering in statistical machine translation. In Proc. MT Summit, 2011. Isao Goto, Masao Utiyama, and Eiichiro Sumita. Post-ordering by parsing for japaneseenglish statistical machine translation. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pages 311−316, 2012. Hideki Isozaki, Katsuhito Sudoh, Hajime Tsukada, and Kevin Duh. Head finalization: A simple reordering rule for sov languages. In Proceedings of the Joint Fifth Workshop on Statistical Machine Translation and MetricsMATR, pages 244−251, 2010. Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico,Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, et al. Moses:Open source toolkit for statistical machine translation. In Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions, pages 177−180,2007.
非特許文献2で提案された後単語並び替え及び編集手法では単語並び替えを行うための自動構文解析装置としてチャート型の構文解析装置を利用している。この装置は入力文長nに対してО(n)相当の計算量を必要とする。さらにその後、冠詞挿入を行うために、N-gram言語モデルによる編集装置を動作させる必要があり、これら一連の処理は多くの計算時間を必要とするという問題がある。
一般にチャート型の構文解析装置では解析時に用いる情報を増やす程、その計算量に影響を与えることが知られている。チャート型の構文解析装置では冠詞挿入の処理を構文解析と同時に扱うことは自明ではなく、仮に同時に扱う手法を提案したとしても、計算量はO(n)より大きくなる。また、非特許文献2に記載のチャート型自動構文解析装置が用いる統計モデルでは、単語並び替えを行うために効果的な特徴量(素性)を定義することが原理的に困難であるという問題がある。これらの素性を定義する場合、冠詞挿入の問題と同様に計算量O(n)はさらに増加するという問題がある。
本発明では、上記問題点を解決するために成されたものであり、計算量の増大を抑制して、入力文の語順を並べ替えることできる語順並び替え装置、翻訳装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る語順並び替え装置は、第1言語の語順に並んだ第1言語とは異なる第2言語で記述された入力文に含まれる各単語を格納したバッファと、少なくとも1つの単語の形態素解析結果を表す部分解析木を格納するための少なくとも1つの要素からなるスタックと、前記バッファに格納された先頭の単語を取り出し、前記取り出した単語の形態素解析結果を表す部分解析木を格納した要素を、前記スタックの先頭要素として追加するシフトアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、初期状態から、前記入力文の形態素解析結果を表す解析木が前記スタックの先頭要素に格納された最終状態までの各状態遷移に対応する前記アクションからなるアクションの列であって、各状態遷移について、遷移前の状態における前記スタックの各要素及び前記バッファの各単語と前記アクションとの組み合わせと、前記アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列を探索する探索部と、前記探索部によって探索されたアクションの列に従って前記最終状態で作成される、前記入力文の形態素解析結果を表す解析木を用いて、前記入力文に含まれる各単語を、前記第2言語の語順に並び替える並び替え部と、を含んで構成されている。
第2の発明に係る語順並び替え方法は、第1言語の語順に並んだ第1言語とは異なる第2言語で記述された入力文に含まれる各単語を格納したバッファと、少なくとも1つの単語の形態素解析結果を表す部分解析木を格納するための少なくとも1つの要素からなるスタックと、探索部と、並び替え部とを含む語順並び替え装置の語順並び替え方法であって、前記探索部は、前記バッファに格納された先頭の単語を取り出し、前記取り出した単語の形態素解析結果を表す部分解析木を格納した要素を、前記スタックの先頭要素として追加するシフトアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、初期状態から、前記入力文の形態素解析結果を表す解析木が前記スタックの先頭要素に格納された最終状態までの各状態遷移に対応する前記アクションからなるアクションの列であって、各状態遷移について、遷移前の状態における前記スタックの各要素及び前記バッファの各単語と前記アクションとの組み合わせと、前記アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列を探索するステップと、前記並び替え部は、前記探索部によって探索されたアクションの列に従って前記最終状態で作成される、前記入力文の形態素解析結果を表す解析木を用いて、前記入力文に含まれる各単語を、前記第2言語の語順に並び替えるステップと、を含む。
第1の発明及び第2の発明によれば、探索部によりアクションの列のうち、初期状態から最終状態までの各状態遷移に対応するアクションからなるアクションの列を探索し、並び替え部により探索されたアクションの列に従って入力文に含まれる各単語を並び替える。
このように、第1の発明及び第2の発明によれば、シフトアクション及びレデュースアクションを含む複数のアクションで形成されるアクションの列のうち、初期状態から最終状態までの各状態遷移に対応するアクションからなるアクションの列であって、アクションを決定するための予め求められたモデルに基づいて算出されるスコアの合計が最大となるアクションの列を探索し、探索されたアクションの列に従って入力文に含まれる各単語を並び替えることにより、計算量の増大を抑制して、入力文の語順を並び替えることができる。
また、第1の発明において、前記レデュースアクションは、前記スタックの先頭要素及び2番目の要素を取り出し、取り出した先頭要素に格納された前記部分解析木を右側とし、取り出した2番目の要素に格納された前記部分解析木を左側として結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースMRアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、取り出した先頭要素に格納された前記部分解析木を左側とし、取り出した2番目の要素に格納された前記部分解析木を右側として結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースSRアクションを含んでもよい。
また、第1の発明において、前記複数のアクションは、前記スタックの先頭要素に格納されている前記部分解析木に対応する前記少なくとも1つの単語の先頭に冠詞を挿入するように、前記部分解析木を更新する挿入アクション、及び前記スタックの先頭要素に格納されている前記部分解析木に対応する前記少なくとも1つの単語の先頭に冠詞を挿入しないことを示す情報を挿入するように、前記部分解析木を更新する挿入アクションを更に含んでもよい。
第3の発明に係る翻訳装置は、前記第1言語で記述された入力文を、前記第2言語で記述された文に翻訳する翻訳装置において、前記第1言語で記述された入力文を、前記第1言語の語順に並んだ前記第2言語で記述された文に翻訳するための予め学習された翻訳モデルに基づいて、前記第1言語で記述された入力文を、前記第1言語の語順に並んだ前記第2言語で記述された文に翻訳する翻訳部と、 請求項1〜請求項3の何れか1項記載の語順並び替え装置と、を含んで構成され、前記語順並び替え装置は、前記翻訳部によって翻訳された、前記第1言語の語順に並んだ前記第2言語で記述された文を、前記第2言語の語順に並び替える。
第4の発明に係る翻訳方法は、翻訳部と、語順並び替え装置とを含み、前記第1言語で記述された入力文を、前記第2言語で記述された文に翻訳する翻訳装置の翻訳方法であって、前記翻訳部は、前記第1言語で記述された入力文を、前記第1言語の語順に並んだ前記第2言語で記述された文に翻訳するための予め学習された翻訳モデルに基づいて、前記第1言語で記述された入力文を、前記第1言語の語順に並んだ前記第2言語で記述された文に翻訳するステップと、上記第2の発明に係る語順並び替え方法の各ステップと、を含み、前記語順並び替え方法は、前記翻訳部によって翻訳された、前記第1言語の語順に並んだ前記第2言語で記述された文を、前記第2言語の語順に並び替える。
第3の発明及び第4の発明によれば、第1言語で記述された入力文を、第1言語の語順に並んだ第2言語で記述された文に翻訳し、シフトアクション及びレデュースアクションを含む複数のアクションで形成されるアクションの列のうち、初期状態から最終状態までの各状態遷移に対応するアクションからなるアクションの列であって、アクションを決定するための予め求められたモデルに基づいて算出されるスコアの合計が最大となるアクションの列を探索し、探索されたアクションの列に従って、第1言語の語順に並んだ第2言語で記述された文を並び替えることにより、計算量の増大を抑制して、入力文の翻訳を行うことができる。
また、本発明のプログラムは、コンピュータを、上記の語順並び替え装置、又は翻訳装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の語順並び替え装置、方法、及びプログラムによれば、シフトアクション及びレデュースアクションを含む複数のアクションで形成されるアクションの列のうち、初期状態から最終状態までの各状態遷移に対応するアクションからなるアクションの列であって、アクションを決定するための予め求められたモデルに基づいて算出されるスコアの合計が最大となるアクションの列を探索し、探索されたアクションの列に従って入力文に含まれる各単語を並び替えることにより、計算量の増大を抑制して、入力文の語順を並び替えることができる。
また、本発明の翻訳装置、方法、及びプログラムによれば、第1言語で記述された入力文を、第1言語の語順に並んだ第2言語で記述された文に翻訳し、シフトアクション及びレデュースアクションを含む複数のアクションで形成されるアクションの列のうち、初期状態から最終状態までの各状態遷移に対応するアクションからなるアクションの列であって、アクションを決定するための予め求められたモデルに基づいて算出されるスコアの合計が最大となるアクションの列を探索し、探索されたアクションの列に従って、第1言語の語順に並んだ第2言語で記述された文を並び替えることにより、計算量の増大を抑制して、入力文の翻訳を行うことができる。
バッファの例を示す図である。 スタックの例を示す図である。 中間英語データ作成の例を示す図である。 素性テンプレートの例を示す図である。 本発明の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る翻訳装置の機能的構成を示すブロック図である。 本発明の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係る翻訳処理ルーチンを示すフローチャート図である。 7単語からなる日本語入力文の例を示す図である。 日本語語順の中間英語文の例を示す図である。 中間英語文から英語出力文が作成された例を示す図である。 アクションによる状態の遷移の例を示す図である。 後単語並び替えによる機械翻訳方式の概念図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<発明の概要>
本実施の形態におけるシフトレデュース型の語順並び替え方法を用いた翻訳装置は、入力として図1に示すようなバッファを用いて、図2に示すようなスタックに部分解析結果を保持する。また、解析はアクション定義、統計的に学習されたモデル、文法に従って進められる。
シフトレデュース型の語順並び替え方法は状態とアクションという概念を用いることで単語並び替え及び編集処理を進める。この装置は初期状態からステップごとに1つアクションを選択して次の状態へと遷移し、最終状態に至ると解析が完了する。
状態はスタックデータ構造をもち、解析の途中結果をそこに保持する。本実施の形態においては、アクションとしてシフトアクション、挿入アクション、レデュースアクション×2の計4種類のアクションを定義する。シフトアクションとは入力文が積まれたバッファから先頭の単語を取り出し、スタックの先頭へと積む操作である。挿入アクションはスタック先頭要素における部分解析木が覆う単語列の先頭に冠詞を挿入する操作である。レデュースアクションはスタック先頭と2番目要素の部分解析木を結合することでより大きな部分解析木を作る操作である。2種類のレデュースアクションは、2つの部分解析木を並び替えて結合する、または、2つの部分解析木を並び替えないで結合する、という違いを持つ。
ある状態において選択可能なアクションが複数ある場合があり、適切なアクションを選択するために統計モデルを導入する。統計モデルを用いたアクションの選択では、ある状態が持つ部分解析情報から抽出できる素性(特徴量)ベクトルと重みベクトルの内積からスコアを計算する。また、状態、アクション、モデル、素性、及び、それらに付随する必要概念を以下に定義する。
<状態>
状態は、
として定義される。ここでlはステップ数を表す。Sはスタックを表す。スタックはその要素s,s,…を持つ。各スタック要素は部分解析結果となる。iはスタック先頭要素sの部分解析結果のスパンの左端である。jは入力文を積んだバッファの先頭単語の位置を示す。よって、スタック要素sのスパンはiからj−1までである。πは予測前状態へのポインタ集合であり、その概念は非特許文献5の方法と同じものである(非特許文献5:Liang Huang and Kenji Sagae. Dynamic programming for linear-time incremental parsing. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics,pages 1077−1086, 2010.)。
初期状態pは、
として定義される。ここで、<s>は入力文頭に慣習的につける仮想単語とする。また最終状態pは、
として定義される。ここで、mは最終状態に至るまでのステップ回数、nは入力文長である。スタック先頭要素sは、上記図3の右図で示したような完全な中間英語木となっている。
<スタック要素の情報>
各スタック要素は、上記図3の右図で示したような完全な中間英語木を作るための部分解析木を保持する。また、スタック要素sは、定義上は最低限度の情報として下記(4)式が表わす要素を持つとする。
ここでHとはこのスタック要素sが持つ部分解析木のルートにある非終端記号または単語の品詞ラベルである。hはHに付随して付けられる主辞単語である。aは「“the”」、「“a/an”」、「“no articles”」、又はnullが割り当てられる変数を示している。wleftとwrightは部分解析木が覆う単語列の左端と右端単語をそれぞれ示す。スタック要素sのある要素*を参照する場合、s.*という記法を用いる。
<シフトアクション>
シフトアクションは、バッファの先頭単語を取り出し、スタックに積み、その単語に品詞を割り当てることにより、取り出した単語の形態素解析結果を表す部分解析木を格納した要素を、スタックの先頭要素として追加する操作を行う。下記(5)式は前状態pに対して、シフトアクションを適用した際に、次の状態へと進むことを自然演繹法の推論規則で表している。
ここで、sは{X,j,w,w,null}となり、単語wに品詞Xが割り当てられたことを意味する。
<挿入アクション>
挿入アクションは、現在の状態が持つスタック先頭要素の部分解析木が覆う単語列の先頭に「“the”」、「“a/an”」、又は「“no articles”」のいずれかを挿入するように、スタックの先頭要素に格納されている部分解析木を更新する操作であり、下記(6)式により表される。なお、「“the”」を挿入する操作、「“a/an”」を挿入する操作、及び「“no articles”」を挿入する操作の各々が別々の挿入アクションとなる。また、「“no articles”」を挿入する操作に対応する挿入アクションが、スタックの先頭要素に格納されている部分解析木に対応する少なくとも1つの単語の先頭に冠詞を挿入しないことを示す情報を挿入するように、部分解析木を更新する挿入アクションの一例である。
ここで、s'は{X,h,wleft,wright,a}であり、s'は{X,h,wleft,wright,x}(i≦h,left,right<j)であり、Iは冠詞が挿入される候補となる品詞ラベル又は非終端記号の集合となる。このアクションを適用するためには条件s'.X∈I∧(s'.a≠“the”∧s'.a≠“a/an”)を満たす必要がある。これは同じ位置に冠詞を2回以上挿入することを防ぐためである。
<レデュースアクション>
レデュースアクションは、レデュースMRアクションとレデュースSRアクションの2種類を定義する。これらの推論規則は下記(7)式で同一に表記できる。
ここで、s'は{Z,h,wleft0,wright0,a}、s'は{Y,h,wleft1,wright1,a}とする。レデュースアクションはs'とs'とを文法規則X→YZによって結合し、新たなスタック要素sを作りだす。
レデュースMRアクションとレデュースSRアクションの違いはsの違いにある。レデュースMRアクションは、スタックの先頭要素及び2番目の要素を取り出し、下記(8)式に表すような新たなsを作りだし、スタックの先頭要素として追加する操作である。
上記(8)式に示す要素sは、スタックから取り出した先頭要素に格納された部分解析木を右側とし、取り出した2番目の要素に格納された部分解析木を左側として結合して作成される部分解析木を格納した要素である。
ここで、新たな非終端記号Xには右側の非終端記号Zに付けられた主辞単語wh0を付ける。これらがMRやSRのR(Right)の命名由来である。レデュースMRアクションは非終端記号YとZがカバーする2つの句をそのままの並びで結合する。よって、新たにできる非終端記号Xがカバーする句の左端はYの左端の単語wleft1となり、右端はZの右端の単語wright0となる。変数aにはYの先頭に挿入された冠詞変数aがセットされる。
レデュースSRアクションは、スタックの先頭要素及び2番目の要素を取り出し、レデュースMRアクションとは逆に、文法規則X→YZによってYとZの句を並び替えて結合し、下記(9)式に示すような新たなスタック要素sを生成し、スタックの先頭要素として追加する操作である。
上記(8)式に示す要素sは、取り出した先頭要素に格納された部分解析木を左側とし、取り出した2番目の要素に格納された部分解析木を右側として結合して作成される部分解析木を格納した要素である。
新たに生成される非終端記号Xの左端はZの左端単語wleft0、右端はYの右端単語wright1となる。変数aはZの先頭に挿入された冠詞変数aに設定される。
なお、レデュースMRアクション及びレデュースSRアクションは、各々、当該アクションにより結合して生成される部分解析木のルートに付与される非終端記号の種類数だけ存在する。
<モデル>
入力文xに対して作り出せる中間言語木の集合をУとし、y∈Уとなる中間言語木yは、下記(10)式に示すように、状態とアクションのペアの列am−1 に分解できる。
ここで、pm−1でアクションam−1をとると最終状態になるとする。この分解のもとでУをАとして表し直す(am−1 ∈А)。
シフトレデュース型の解析では、ある状態においてとれるアクションそれぞれについて、統計モデルに基づいた優先度スコアを計算する。解析では下記(11)式及び下記(12)式に従って、この優先度スコアの合計ができるだけ高くなる、状態とアクションのペアの列^yをАから探索する。
ここで、w^は重みベクトル、f^(p,a)は素性ベクトルである。ある状態pであるアクションaをとる度合いを示す優先度スコアは、重みベクトルw^とf^(p,a)の内積から計算される。上記(12)式で近似となっているのは、実際には優先度スコアの合計が最大となるアクション列am−1 を探索するのではなく、貪欲的(Greedy)に探索を行うためである。ここで、素性ベクトルf^(p,a)は、後述する素性テンプレートを用いて、素性テンプレートに記載されている各素性を状態pについて求めることにより作成する。
<素性テンプレート>
図4に本実施の形態において定義した素性テンプレートを示す。素性テンプレートとは、素性ベクトルf^(p,a)の特徴を作り出すための雛形である。ある状態pは各スタック要素が下記(13)式からなる情報を持つとする。
ここで、LとRはそれぞれ、非終端記号または品詞タグHの左と右の子供となる非終端記号または品詞タグである。lとrは、LとRの主辞単語及び品詞の入力文中でのインデックスである。各状態では、スタックの先頭から3つ要素s、s、sを素性の定義に利用している。また、入力文を溜め込んでいるバッファについては先頭から2つの要素q、qを素性の定義に利用している。また、○は組み合わせ素性を表現している。図4の下2カラムが非局所素性と呼ばれる素性であり、従来のチャート型自動構文解析装置では定義することが難しい素性である。
<モデルの学習>
モデルの学習は、ある入力文xが与えられたときにできるだけ良いyが出力できる重みベクトルw^を学習することである。これは、一般に教師付き学習と呼ばれる手法で行われ、本実施の形態では平均化パーセプトロンを用いる(非特許文献6:Michael Collins and Brian Roark. Incremental parsing with the perceptron algorithm. In Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics,page 111, 2004.)。パーセプトロンの基本的な仕組みは装置からの出力が正解と異なる場合に、正解事例から発火する素性ベクトルを正の向きに、装置の出力事例から発火する素性ベクトルを負の向きにして、重みベクトルに足し合わせることで更新が行われる。結果として、正解事例にはできるだけ正の高いスコアを割り当てるような重みベクトルw^が学習できる。
次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。
<モデル学習装置の構成>
本発明の実施の形態に係るモデル学習装置について説明する。図5に示すように、本発明の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図5に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、キーボードなどの入力装置から複数の日本語と英語の対訳となっている文対(対訳データ)の集合を受け付ける。なお、入力部10は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。なお、日本語が第1言語の一例であり、英語が第2言語の一例である。
演算部20は、対訳データ記憶部22と、中間目的語作成部24と、翻訳モデル学習部26と、翻訳モデル記憶部28と、バッファ29と、重みベクトル学習部30と、スタック31と、重みベクトル記憶部32とを備えている。
対訳データ記憶部22は、入力部10において受け付けた対訳データの集合が記憶されている。なお、対訳データの集合は、日本語と英語の対訳文が同じ行数の位置に記載されたテキストファイルである。
中間目的語作成部24は、対訳データ記憶部22に記憶されている複数の対訳データの各々について、既知の自動構文解析方法、及び上記非特許文献3のルールに基づく手法を用いて、日本語の語順で並んだ英語文(中間英語文)を作成する。具体的には、複数の対訳データの英語文の各々について、既知の方法の自動構文解析方法を用いて、上記図3の左図に示す様な、当該英語文を表す解析木を作成する。そして、作成された英語文を表す解析木に、非特許文献3のルールを適用することで、上記図3の右図に示すような中間英語文を表す中間英語木を作成し、中間英語木に基づいて中間英語文を作成する。
翻訳モデル学習部26は、対訳データ記憶部22に記憶されている複数の対訳データの日本語文と、中間目的語作成部24において複数の対訳データの各々について作成された複数の中間英語文とに基づいて、統計的な翻訳モデルを学習し、出力部50に出力するとともに翻訳モデル記憶部28に記憶する。具体的には、複数の対訳データの各々に対する、当該対訳データの日本語の文と、当該対訳データの中間英語文とからなるペアに基づいて、非特許文献4に記載の句に基づいた統計的機械翻訳手法を用いて統計的に翻訳モデルを学習し、出力部50に出力するとともに翻訳モデル記憶部28に記憶する。
翻訳モデル記憶部28には、翻訳モデル学習部26において学習された翻訳モデルが記憶されている。
バッファ29では、中間英語文の各単語が、先頭から各要素に格納される。
重みベクトル学習部30は、対訳データ記憶部22に記憶されている複数の対訳データの英語文と、中間目的語作成部24において作成された複数の対訳データの各々に対応する中間英語文とに基づいて、平均化パーセプトロン(非特許文献6)を用いて、重みベクトルw^を学習し、出力部50に出力するとともに、重みベクトル記憶部32に記憶する。具体的には、まず、対訳データの各々について、当該対訳データに対応する中間英語文の各単語を先頭からバッファ29の各要素に格納する。次に、スタック31が空の状態を初期状態とし、初期状態からバッファ29に格納されている単語が空になる最終状態まで、取り得る状態とアクションのペアの列を網羅的に求め、バッファ29の状態、スタック31の状態、及び素性テンプレートに基づいて、各状態の素性ベクトルを求める。ここで、取り得るアクションとは、上記(6)式の上式を満たす場合には、上記のシフトアクション、挿入アクション、及びレデュースアクションであり、一方、上記(6)式の上式を満たさない場合には、上記のシフトアクション、及びレデュースアクションである。
そして、全ての対訳データについての状態とアクションのペアの列の各々において求められた各状態の素性ベクトルと、対訳データの各々の英語文とに基づいて、上記(11)式に従って、平均化パーセプトロンを用いて、正解となる状態とアクションのペアの列から算出される優先度スコアの合計が最大となるように重みベクトルw^を学習する。
スタック31は、重みベクトルw^を学習する際に、対訳データの各々の中間英語文に含まれる少なくとも1つの単語についての部分解析木が、中間解析結果として記憶される。
重みベクトル記憶部32には、重みベクトル学習部30において学習された重みベクトルが記憶されている。
次に、本発明の実施の形態に係る翻訳装置の構成について説明する。
<翻訳装置の構成>
本発明の実施の形態に係る翻訳装置について説明する。図6に示すように、本発明の実施の形態に係る翻訳装置200は、CPUと、RAMと、後述する翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この翻訳装置200は、機能的には図6に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、キーボードなどの入力装置から日本語の文を受け付ける。なお、入力部210は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。
演算部220は、翻訳部222と、翻訳モデル記憶部224と、バッファ225と、探索部226と、スタック227と、重みベクトル記憶部228と、中間目的語木作成部230と、並び替え部232と、を備えている。
翻訳部222は、入力部210において入力された日本語の文について、翻訳モデル記憶部224に記憶されている翻訳モデルを用いた公知の機械翻訳器により、中間英語文に翻訳する。なお、翻訳の方法は、公知の統計的機械翻訳の技術によって実現すればよく、詳細な説明を省略する。
翻訳モデル記憶部224には、モデル学習装置100において学習された翻訳モデルが記憶されている。
バッファ225には、翻訳部222において翻訳された中間英語文の各単語が、先頭から各要素に格納される。
探索部226は、バッファ225に格納された中間英語文の各単語と、重みベクトル記憶部228に記憶されている重みベクトルw^とに基づいて、上記(12)式に従って、スタック227が空の状態である初期状態p0から、中間英語文の形態素結果を表す解析木がスタックの先頭要素に格納された最終状態pm-1までの各状態遷移に対応するアクションと遷移前の状態とのペアからなる、状態とアクションのペアの列のうち、優先度スコアの合計が最大となる状態とアクションのペアの列を探索する。具体的には、貪欲法を用いて、初期状態p0から最終状態pm-1まで、バッファ29の状態、スタック31の状態、及び素性テンプレートに基づいて、各状態の素性ベクトルを求めると共に、重みベクトルw^を用いて算出される優先度スコアの合計が最大となるように、上記(12)式に従って、状態とアクションのペアの列を探索する。
なお、取り得るアクションとは、モデル学習装置100と同様に、上記(6)式の上式を満たす場合には、上記のシフトアクション、挿入アクション、及びレデュースアクションであり、一方、上記(6)式の上式を満たさない場合には、上記のシフトアクション、及びレデュースアクションである。
また、探索部226は、探索された状態とアクションのペアの列に従って、各状態でアクションの操作を行いバッファ225及びスタック227を繰り返し更新し、最終状態のスタック227の先頭要素に基づいて、中間英語木を作成する。
スタック227は、重みベクトルw^を学習する際に、対訳データの各々の中間英語文に含まれる少なくとも1つの単語についての部分解析木が、中間解析結果として記憶される。なお、最終状態のスタック227の先頭要素に格納されている部分解析木が、中間英語文の形態素解析結果を表す解析木の一例である。
並び替え部232は、探索部226において作成された中間英語木をバックトラックすることにより、中間英語文の語順を並び替えると共に冠詞を挿入し、英語文に並び替え、出力部250に出力する。
<モデル学習装置の作用>
次に、本発明の実施の形態に係るモデル学習装置100の作用について説明する。まず、入力部10により、日本語と英語の対訳となっている文対(対訳データ)の集合が入力され、対訳データ記憶部22に記憶される。そして、モデル学習装置100のROMに記憶されたプログラムを、CPUが実行することにより、図7に示すモデル学習処理ルーチンが実行される。
まず、ステップS100では、対訳データ記憶部22に記憶されている複数の対訳データを読み出す。
次に、ステップS102では、ステップS100において取得した複数の対訳データの各々について、既知の自動構文解析方法、及び非特許文献3のルールに基づく手法を用いて、当該対訳データの英語文に対する中間英語文を作成する。
次に、ステップS104では、ステップS100において取得した複数の対訳データの日本語文と、ステップS102において取得した対訳データの各々の中間英語文とに基づいて、日本語文を中間英語文に翻訳するための統計的な翻訳モデルを学習し、出力部50に出力するとともに、翻訳モデル記憶部28に記憶する。
次に、ステップS206では、ステップS100において取得した複数の対訳データの英語文と、ステップS102において取得した対訳データの各々に対応する中間英語文とに基づいて、平均化パーセプトロン(非特許文献6)を用いて、重みベクトルw^を学習し、出力部50に出力するとともに、重みベクトル記憶部228に記憶し、処理を終了する。
<翻訳装置の作用>
次に、本発明の実施の形態に係る翻訳装置200の作用について説明する。まず、入力部210により、モデル学習装置100によって学習された翻訳モデルが入力され翻訳モデル記憶部224に記憶される。また、モデル学習装置100によって学習された重みベクトルが入力され重みベクトル記憶部228に記憶される。そして、入力部210により、日本語で記述された文が入力されると、翻訳装置200のROMに記憶されたプログラムを、CPUが実行することにより、図8に示す翻訳処理ルーチンが実行される。
まず、ステップS200において日本語で記述された入力文を受け付ける。
次に、ステップS201において、翻訳モデル記憶部224に記憶されている翻訳モデルを読み込む。
次に、ステップS202において、重みベクトル記憶部228に記憶されている重みベクトルを読み込む。
次に、ステップS204において、ステップS200において受け付けた日本語の文について、ステップS201において取得した翻訳モデルを用いて、中間英語文に翻訳する。
次に、ステップS206では、ステップS204において取得した中間英語文の各単語と、ステップS202において取得した重みベクトルw^とに基づいて、上記(12)式に従って、スタック227が初期状態から最終状態までの各状態遷移に対応するアクションと遷移前の状態とのペアからなる、状態とアクションのペアの列のうち、優先度スコアの合計が最大となる状態とアクションのペアの列を探索する。
次に、ステップ208では、ステップS206において取得した状態とアクションのペアの列に従って、各状態でのアクションの操作を行いバッファ225及びスタック227を繰り返し更新することにより、ステップS204において取得した中間英語文について中間英語木を作成する。
次に、ステップS210では、ステップS208において取得した中間英語木をバックトラックすることにより、中間英語文の語順を並び替えると共に冠詞を挿入し、英語文に並び替えて、出力部250に出力し、処理を終了する。
<翻訳装置200の実施例>
次に、日本語から英語への翻訳を行った実施例について以下説明する。
図9は、入力部210において入力される7単語からなる日本語入力文を示しており、図10は、当該日本語入力文が翻訳部222において翻訳された結果である、日本語語順の中間英語文を示している。図11は、当該日本語入力文に対する英語出力文を示している。
図12のステップ0の初期状態が示す通り、探索部226は、入力となる中間英語文の各単語をバッファ225に溜め込み、スタック227を空として設定する。ここで、スタック227は右側が先頭、バッファ225は左側が先頭とする。
図12のステップ0では、シフトNアクションをとり、ステップ1へと至る。ステップ1の状態では、バッファ先頭の単語「I」を取り出してスタック先頭へ追加し、品詞タグ「N」が割り当てられている。ステップ1でも同様にシフトWAアクションをとり、バッファ先頭の単語「wa」を取り出して、スタック先頭へ追加し、品詞タグ「WA」を割り当てて、ステップ2の状態へと至る。
ステップ2では、レデュースMR−NPアクションをとり、N(I)とWA(wa)を結合して、NP(wa)を作り出している。ステップ3では挿入“no articles”アクションをとり、NP(wa)からなる単語列(I wa)の先頭に冠詞を挿入しないということを決定している。ステップ7まで進み、ステップ7では、レデュースSR−PPアクションによってN(telescope)“no articles”とPR(with)を、PP(with)で結合している。ここで、処理中には明示的な並び替え操作を行わないことに注意するが、上記(13)式におけるwleft、wright、aについては素性ベクトル計算のため内部実装では並び替えを明示的に表現している。
ステップ7以降の処理が進み最終的にはステップ16の状態へと至り終了する。ステップ16の状態におけるスタック先頭の木は図3で示した完全な中間英語木と一致する。最後に、この中間英語木をバックトラックしながら図11で示した英語文に復元することで最終的な翻訳結果が得られる。なお、選択している状態とアクションのペアの列としては、探索部226において、中間英語文と、学習された重みベクトルw^とに基づいて、上記(12)式に従って、優先度スコアの合計が最大となる状態とアクションのペアの列を探索した結果を用いる。
以上説明したように、本発明の実施の形態に係る翻訳装置によれば、日本語で記述された入力文を、日本語の語順に並んだ英語で記述された文に翻訳し、シフトアクション、挿入アクション、及びレデュースアクションを含む複数のアクションで形成されるアクションの列のうち、初期状態から最終状態までの各状態遷移に対応するアクションと状態のペアの列であって、アクションを決定するための予め求められたモデルに基づいて算出される優先度スコアの合計が最大となる状態とアクションのペアの列を探索し、探索された状態とアクションのペアの列に従って、日本語の語順に並んだ英語で記述された文を並び替えることにより、計算量の増大を抑制して、入力文の翻訳を行うことができる。
また、本発明の実施の形態に係る翻訳装置によれば、入力となる中間英語文を左から右へとワンパスで解析することができ、計算量はO(n)となる。また、英語文への冠詞挿入操作も解析器の機能として加えようとしても、単語の並び替え及び編集は計算量O(n)で行うことができる。また、構文解析と冠詞挿入を同時に扱うことができる。
また、統計モデルに単語の並び替えに有効な素性を定義しても、計算量が全く変化しない。この性質により非特許文献2の方法では定義することが困難であった素性を統計モデルに定義することが可能となる。
また、計算量の観点、また、単語並び替え及び編集を同時に行うことなどから、非特許文献2の手法に比べて、高速に動作させることが出来る。実データ上において、平均文長35程度の中間英語文2000文を処理する際、1文平均0.01秒で処理をすることが可能である。非特許文献2の記載において利用している自動構文解析装置では平均1.0秒以上かかり、冠詞挿入のための編集装置の計算時間は平均2.0秒以上かかる。このような単純な見積もりからも、本実施の形態に係る翻訳装置は従来の手法に比べて、極めて高速に動作する。
また、性能の面では、非特許文献2に記載の手法を利用した自動構文解析装置の統計モデルでは定義することが原理的に困難な素性を定義することが出来る。また、この素性を定義したモデルと、取り除いたモデルを用いて実験を行った結果、これらの素性が出来ることで性能が改善できることがわかっている。最終的な実験結果からは非特許文献2に記載の手法よりも高い翻訳精度を達成することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
本実施の形態においては、原言語を日本語とし、目的言語を英語とする場合について説明したがこれに限定されるものではなく、文の構文構造が異なる言語ペアであれば、他の言語ペアを、原言語及び目的言語としてもよい。
また、本実施の形態においては、翻訳装置により翻訳する対象を文とする場合について説明したがこの限りでない。例えば、翻訳する対象を句としてもよい。
10、210 入力部
20、220 演算部
22 対訳データ記憶部
24 中間目的語作成部
26 翻訳モデル学習部
28、224 翻訳モデル記憶部
30 重みベクトル学習部
32、228 重みベクトル記憶部
50、250 出力部
100 モデル学習装置
200 翻訳装置
222 翻訳部
29、225 バッファ
226 探索部
31、227 スタック
230 中間目的語木作成部
232 並び替え部

Claims (8)

  1. 第1言語の語順に並んだ第1言語とは異なる第2言語で記述された入力文に含まれる各単語を格納したバッファと、
    少なくとも1つの単語の形態素解析結果を表す部分解析木を格納するための少なくとも1つの要素からなるスタックと、
    前記バッファに格納された先頭の単語を取り出し、前記取り出した単語の形態素解析結果を表す部分解析木を格納した要素を、前記スタックの先頭要素として追加するシフトアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、
    初期状態から、前記入力文の形態素解析結果を表す解析木が前記スタックの先頭要素に格納された最終状態までの各状態遷移に対応する前記アクションからなるアクションの列であって、各状態遷移について、遷移前の状態における前記スタックの各要素及び前記バッファの各単語と前記アクションとの組み合わせと、前記アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列を探索する探索部と、
    前記探索部によって探索されたアクションの列に従って前記最終状態で作成される、前記スタックの先頭要素に格納されている部分解析木を、前記入力文の形態素解析結果を表す解析木とし、前記解析木をバックトラックすることにより、前記入力文に含まれる各単語を、前記第2言語の語順に並び替える並び替え部と、
    を含む語順並び替え装置。
  2. 前記レデュースアクションは、前記スタックの先頭要素及び2番目の要素を取り出し、取り出した先頭要素に格納された前記部分解析木を右側とし、取り出した2番目の要素に格納された前記部分解析木を左側として結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースMRアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、取り出した先頭要素に格納された前記部分解析木を左側とし、取り出した2番目の要素に格納された前記部分解析木を右側として結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースSRアクションを含む請求項1記載の語順並び替え装置。
  3. 前記複数のアクションは、前記スタックの先頭要素に格納されている前記部分解析木に対応する前記少なくとも1つの単語の先頭に冠詞を挿入するように、前記部分解析木を更新する挿入アクション、及び前記スタックの先頭要素に格納されている前記部分解析木に対応する前記少なくとも1つの単語の先頭に冠詞を挿入しないことを示す情報を挿入するように、前記部分解析木を更新する挿入アクションを更に含む、請求項1又は2記載の語順並び替え装置。
  4. 前記第1言語で記述された入力文を、前記第2言語で記述された文に翻訳する翻訳装置において、
    前記第1言語で記述された入力文を、前記第1言語の語順に並んだ前記第2言語で記述された文に翻訳するための予め学習された翻訳モデルに基づいて、前記第1言語で記述された入力文を、前記第1言語の語順に並んだ前記第2言語で記述された文に翻訳する翻訳部と、
    請求項1〜請求項3の何れか1項記載の語順並び替え装置と、
    を含み、
    前記語順並び替え装置は、前記翻訳部によって翻訳された、前記第1言語の語順に並んだ前記第2言語で記述された文を、前記第2言語の語順に並び替える
    翻訳装置。
  5. 第1言語の語順に並んだ第1言語とは異なる第2言語で記述された入力文に含まれる各単語を格納したバッファと、少なくとも1つの単語の形態素解析結果を表す部分解析木を格納するための少なくとも1つの要素からなるスタックと、探索部と、並び替え部とを含む語順並び替え装置の語順並び替え方法であって、
    前記探索部は、前記バッファに格納された先頭の単語を取り出し、前記取り出した単語の形態素解析結果を表す部分解析木を格納した要素を、前記スタックの先頭要素として追加するシフトアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、
    初期状態から、前記入力文の形態素解析結果を表す解析木が前記スタックの先頭要素に格納された最終状態までの各状態遷移に対応する前記アクションからなるアクションの列であって、各状態遷移について、遷移前の状態における前記スタックの各要素及び前記バッファの各単語と前記アクションとの組み合わせと、前記アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列を探索するステップと、
    前記並び替え部は、前記探索部によって探索されたアクションの列に従って前記最終状態で作成される、前記スタックの先頭要素に格納されている部分解析木を、前記入力文の形態素解析結果を表す解析木とし、前記解析木をバックトラックすることにより、前記入力文に含まれる各単語を、前記第2言語の語順に並び替えるステップと、
    を含む語順並び替え方法。
  6. 翻訳部と、語順並び替え装置とを含み、前記第1言語で記述された入力文を、前記第2言語で記述された文に翻訳する翻訳装置の翻訳方法であって、
    前記翻訳部は、前記第1言語で記述された入力文を、前記第1言語の語順に並んだ前記第2言語で記述された文に翻訳するための予め学習された翻訳モデルに基づいて、前記第1言語で記述された入力文を、前記第1言語の語順に並んだ前記第2言語で記述された文に翻訳するステップと、
    請求項5記載の語順並び替え方法の各ステップと、
    を含み、
    前記語順並び替え方法は、前記翻訳部によって翻訳された、前記第1言語の語順に並んだ前記第2言語で記述された文を、前記第2言語の語順に並び替える
    翻訳方法。
  7. コンピュータを、請求項1〜請求項3の何れか1項記載の語順並び替え装置の各部として機能させるためのプログラム。
  8. コンピュータを、請求項4記載の翻訳装置の各部として機能させるためのプログラム。
JP2013206589A 2013-10-01 2013-10-01 語順並び替え装置、翻訳装置、方法、及びプログラム Active JP6058513B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013206589A JP6058513B2 (ja) 2013-10-01 2013-10-01 語順並び替え装置、翻訳装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013206589A JP6058513B2 (ja) 2013-10-01 2013-10-01 語順並び替え装置、翻訳装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015072509A JP2015072509A (ja) 2015-04-16
JP6058513B2 true JP6058513B2 (ja) 2017-01-11

Family

ID=53014853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013206589A Active JP6058513B2 (ja) 2013-10-01 2013-10-01 語順並び替え装置、翻訳装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6058513B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1465018A (zh) * 2000-05-11 2003-12-31 南加利福尼亚大学 机器翻译技术
JP5780670B2 (ja) * 2011-09-05 2015-09-16 日本電信電話株式会社 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2015072509A (ja) 2015-04-16

Similar Documents

Publication Publication Date Title
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US5895446A (en) Pattern-based translation method and system
CN107870901B (zh) 从翻译源原文生成相似文的方法、记录介质、装置以及系统
US10198437B2 (en) Machine translation device and machine translation method in which a syntax conversion model and a word translation model are combined
JPS61105671A (ja) 自然言語処理装置
JP2008065395A (ja) 翻訳装置、翻訳方法および翻訳プログラム
JP6817556B2 (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
KR20160138077A (ko) 기계 번역 시스템 및 방법
KR20120021933A (ko) 의존관계 포레스트를 이용한 통계적 기계 번역 방법
Graliński et al. PSI-toolkit: A natural language processing pipeline
Ali et al. Genetic approach for Arabic part of speech tagging
JP6112536B2 (ja) 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム
JP5552101B2 (ja) 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
CN109960803B (zh) 基于成分句法压缩树的指代消解方法
Vandeghinste et al. METIS-II: machine translation for low resource languages
Jones Non-hybrid example-based machine translation architectures
JP6058513B2 (ja) 語順並び替え装置、翻訳装置、方法、及びプログラム
Gao et al. Chinese-Naxi machine translation method based on Naxi dependency language model
JP6564709B2 (ja) 文書き換え装置、方法、及びプログラム
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
CN116484842A (zh) 语句纠错的方法及装置、电子设备、存储介质
Venkatapathy et al. A discriminative approach for dependency based statistical machine translation
Cromières et al. Translation rules with right-hand side lattices
JP5380566B2 (ja) 言語処理装置、プログラムおよび方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160913

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160914

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161207

R150 Certificate of patent or registration of utility model

Ref document number: 6058513

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150