JP2015153182A - 語順並べ替え装置、翻訳装置、方法、及びプログラム - Google Patents

語順並べ替え装置、翻訳装置、方法、及びプログラム Download PDF

Info

Publication number
JP2015153182A
JP2015153182A JP2014026801A JP2014026801A JP2015153182A JP 2015153182 A JP2015153182 A JP 2015153182A JP 2014026801 A JP2014026801 A JP 2014026801A JP 2014026801 A JP2014026801 A JP 2014026801A JP 2015153182 A JP2015153182 A JP 2015153182A
Authority
JP
Japan
Prior art keywords
phrase
translation
main part
clause
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014026801A
Other languages
English (en)
Other versions
JP6040946B2 (ja
Inventor
克仁 須藤
Katsuto Sudo
克仁 須藤
永田 昌明
Masaaki Nagata
昌明 永田
翔 星野
Sho Hoshino
翔 星野
祐介 宮尾
Yusuke Miyao
祐介 宮尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Research Organization of Information and Systems
Original Assignee
Nippon Telegraph and Telephone Corp
Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Research Organization of Information and Systems filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014026801A priority Critical patent/JP6040946B2/ja
Publication of JP2015153182A publication Critical patent/JP2015153182A/ja
Application granted granted Critical
Publication of JP6040946B2 publication Critical patent/JP6040946B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】入力文又は句の語順を適切に並べ替えることできる。
【解決手段】文節同定部34により、入力文又は句について、機能語を含む各文節を同定し、主部同定部40により、入力文又は句の主部を同定し、並べ替え部50により、同定された入力文又は句の主部について、主部に含まれる各文節の順序を反転するように並べ替え、入力文又は句のうち、主部とは異なる部分について、各文節の順序を反転するように並べ替え、主部について並べ替えられた各文節及び主部とは異なる部分について並べ替えられた各文節について、文節同定部により同定された機能語を文節の先頭に並べ替えるように、文節内の語順を並べ替える。
【選択図】図1

Description

本発明は、語順並べ替え装置、翻訳装置、方法、及びプログラムに係り、特に、入力文の語順を並べ替える語順並べ替え装置、翻訳装置、方法、及びプログラムに関する。
言語Aから言語Bへの機械翻訳の処理は、言語Aの語句から言語Bの語句への翻訳と、翻訳された言語Bの語句の言語Bにおける適切な並べ替えとの2つに大別される。当該分野で広く利用されている統計的翻訳技術においては、大量の対訳文から推定された言語Aの語句と言語Bの語句との対応関係から語句の翻訳と語句の並べ替えを統計的にモデル化し、言語Aの入力文に対し、それらの統計モデルに基づいて尤もらしい語句の翻訳と語句の並べ替えによって構成される言語Bの翻訳文を探索するという方法が採られる。
一般にすべての翻訳文候補を網羅的に探索することは計算量的に非常に困難であるため、各語句の翻訳の候補数を制限し、かつ語句の並べ替えの距離を一定の範囲内に制約することによって実用的な計算量での機械翻訳処理が実現される。
しかし、翻訳の対象となる言語Aと言語Bの組み合わせによっては、対応する語句が大きく異なる順序で現れる可能性があり、そのような言語間の翻訳を正確に行うためには十分に大きな並べ替え距離を考慮した翻訳処理が要求されるため、計算量の増加が避けられないという問題が存在する。
上記問題に対処する技術として、翻訳処理を行う前に言語Aの語句を対応する言語Bの語句の順序に近づけるように並べ替える「事前並べ替え(pre-ordering)」と呼ばれる技術が知られている(特許文献1、非特許文献1)。非特許文献1の方法は、独語から英語、特許文献1の方法は、英語から日本語への翻訳を対象としており、入力文の言語(言語A)の語句を翻訳後の言語(言語B)の対応する語句の順序に近づけるように並べ替える規則を利用している。
また、日本語から英語への翻訳において、構文解析を利用して日本語の文節の係り受け構造を推定し、文節の順序を入れ替えることによって英語の語順に近づける技術が知られている(非特許文献2、非特許文献3、非特許文献4)。
非特許文献2の方法は、係り受け構造に加え、述語項構造解析と呼ばれるある述語に対する主語や目的語等を推定する技術を利用して主語や目的語を同定し、英語の主語‐動詞‐目的語の順になるように主語や目的語を移動するための規則を利用している。
非特許文献3の方法は、係り受け構造と、助詞を利用して主語や目的語を推定し、非特許文献2の方法と同様の並べ替え規則を利用している。これらの方法は文節の順序を英語に近い順に並べることが期待できるが、文節内の語順は変えないため、「東京 に 着い た」という句は、「着い た 東京 に」という語順になるに留まり、対応する英語の「arrived at Tokyo」とは助詞「に」と前置詞「at」の位置に違いが残る。
非特許文献4の方法は、非特許文献2の方法を改良し、日本語の助詞や助動詞等の機能語を文節の先頭に移動することによって、英語の前置詞の位置とほぼ一致するような並べ替えを実現している。また、構文解析を利用せず、日本語の述部を反転させて英語の語順に近づける技術も知られている(非特許文献5)。
特開2011−175500号公報
Michael Collins, Philipp Koehn, Ivona Kucerova, "Clause Restructuring for Statistical Machine Translation", In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, pp. 531-540, 2005 Mamoru Komachi, Yuji Matsumoto, Masaaki Nagata, "Phrase Reordering for Statistical Machine Translation Based on Predicate-Argument Structure", In Proceedings of International Work-shop on Spoken Language Translation (IWSLT 2006), 2006 Katsuhito Sudoh, Kevin Duh, Hajime Tsukada, Masaaki Nagata, Xianchao Wu, Takuya Matsuzaki and Jun'ichi Tsujii, "NTT-UT Statistical Machine Translation in NTCIR-9 PatentMT", In Proceedings of NTCIR-9, 2011. Sho Hoshino, Yusuke Miyao, Katsuhito Sudoh, Masaaki Nagata, "Two-Stage Pre-ordering for Japanese-to-English Statistical Machine Translation", In Proceedings of IJCNLP, 2013 Jason Katz-Brown and Michael Collins, "Syntactic reordering in preprocessing for Japanese→English translation: MIT system description for NTCIR-7 patent translation task", In Proceedings of the NTCIR-7 Workshop Meeting, 2008.
しかし、非特許文献1及び特許文献1の方法は、言語A側の構文解析と適切な規則を利用することによって並べ替えをかなり正確に行うことができる反面、言語Aや言語Bが異なれば必要な規則も異なるため、新たに規則を定義する必要があるという問題がある。
また、非特許文献2、非特許文献3、及び非特許文献4に記載の方法は文法的に妥当な並べ替えを可能にする一方で、日本語の係り受け解析や述語項構造解析といった処理の正確性の影響を強く受けるという問題がある。また、このような解析を行うためには相応の規則の設計や学習用コーパスの整備などが必要な上、処理対象分野が設計時のものと異なる場合は語彙や文体の違いなどの影響を受けて解析精度が低下することもあるという問題もある。
また、非特許文献5に記載の方法は、解析精度の問題はないが、述部の語順を単純に反転させてしまうために、並列句や複合語のように順序を持つ語句まで逆順に並べ替えてしまい、動詞や目的語という単位の順序はおおむね英語に近づくものの、その内部の語順は望ましい英語の語順と逆になってしまうという問題がある。
本発明は、上記問題点を解決するために成されたものであり、入力文の語順を適切に並べ替えることできる語順並べ替え装置、翻訳装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る語順並べ替え装置は、入力文又は句について、機能語を含む各文節を同定する文節同定部と、前記入力文又は句の主部を同定する主部同定部と、前記主部同定部により同定された前記入力文又は句の主部について、前記主部に含まれる各文節の順序を反転するように並べ替え、前記入力文又は句のうち、前記主部とは異なる部分について、各文節の順序を反転するように並べ替え、前記主部について並べ替えられた各文節及び前記主部とは異なる部分について並べ替えられた各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える並べ替え部と、を含んで構成されている。
第2の発明に係る語順並べ替え方法は、文節同定部と、主部同定部と、並べ替え部と、を含む語順並べ替え装置における語順並べ替え方法であって、前記文節同定部が、入力文又は句について、機能語を含む各文節を同定し、前記主部同定部が、前記入力文又は句の主部を同定し、前記並べ替え部が、前記主部同定部により同定された前記入力文又は句の主部について、前記主部に含まれる各文節の順序を反転するように並べ替え、前記入力文又は句のうち、前記主部とは異なる部分について、各文節の順序を反転するように並べ替え、前記主部について並べ替えられた各文節及び前記主部とは異なる部分について並べ替えられた各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える。
第1及び第2の発明によれば、文節同定部により、入力文又は句について、機能語を含む各文節を同定し、主部同定部により、入力文又は句の主部の各々を同定し、並べ替え部により、同定された入力文又は句の主部について、各文節の順序を反転するように並べ替え、主部とは異なる部分について、各文節の順序を反転するように並べ替え、並べ替えられた各文節について、文節に含まれる機能語を文節の先頭に並べ替える。
このように、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替えることにより、入力文又は句の語順を適切に並べ替えることできる。
また、第1の発明に係る語順並べ替え装置において、前記入力文又は句の各文節から、並列の関係となる文節の組み合わせを同定する並列同定部を更に含み、前記並べ替え部は、前記並列同定部により同定された並列の関係となる文節の組み合わせについての文節の順序を維持するように、前記主部に含まれる各文節の順序を反転するように並べ替え、前記主部とは異なる部分について各文節の順序を反転するように並べ替え、前記並列の関係となる文節の組み合わせについて、最も後方に位置する文節に含まれる機能語を、最も前方に位置する文節の先頭に並べ替え、前記並列の関係となる文節の組み合わせとは異なる各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替えてもよい。
第3の発明に係る翻訳装置は、第1特定言語で記述された入力文又は句を、第1特定言語とは異なる第2特定言語で記述された文又は句に翻訳する翻訳装置において、上記第1の発明の語順並べ替え装置によって前記入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記第2特定言語で記述された文又は句に翻訳する翻訳部と、を含んで構成されている。
第4の発明に係る翻訳方法は、翻訳部を含む、第1特定言語で記述された入力文又は句を、第1特定言語とは異なる第2特定言語で記述された文又は句に翻訳する翻訳装置における翻訳方法であって、前記翻訳部によって、上記第2の発明の語順並べ替え方法によって前記入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記第2特定言語で記述された文又は句に翻訳する。
第3及び第4の発明によれば、翻訳部により、語順並べ替え装置によって第1特定言語で記述された入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び複数種類の翻訳モデルの各々に対する重みに基づいて、第2特定言語で記述された文又は句に翻訳する。
このように、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替え、翻訳をすることにより、精度よく翻訳を行うことができる。
また、本発明のプログラムは、コンピュータを、上記の語順並べ替え装置を構成する各部として機能させるためのプログラムである。
また、本発明のプログラムは、コンピュータを、上記の翻訳装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の語順並べ替え装置、方法、及びプログラムによれば、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替えることにより、入力文又は句の語順を適切に並べ替えることできる。
また、本発明の翻訳装置、方法、及びプログラムによれば、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替え、並べ替えられた文又は句について翻訳を行うことにより、精度よく翻訳を行うことができる。
本発明の実施の形態に係る翻訳装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る翻訳モデル学習装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る翻訳モデル学習装置における翻訳モデル学習処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係る翻訳装置における翻訳処理ルーチンを示すフローチャート図である。 KNPの解析結果の例を示す図である。 KNPの解析結果の解釈の例を示す図である。 文分割の例を示す図である。 主部の同定の例を示す図である。 文節の並べ替え規則を用いて文節を並べ替えた例を示す図である。 機能語を文節の先頭に並べ替えた例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の原理>
本発明の実施の形態において、日本語から英語への翻訳を対象とした事前並べ替えを行うために、上記非特許文献5と同様に日本語で記述された文を主部と述部に分け、その後に上記非特許文献4と同様に文節間・文節内の二段階の並べ替えを行う。特に、本実施の形態においては、文節間の並べ替えにおいて、並列句の順序を誤って反転させることがないように、並列句の情報を利用することで過剰な順序反転を抑制する。なお、日本語を第1特定言語の一例とし、英語を第2特定言語の一例とする。
上記非特許文献4の方法においては、係り受け構造の範囲内に文節の並べ替えが制限されているが、本実施の形態においては、文節の情報までしか利用せず、係り受け構造は並べ替えに利用しない。
また、上記非特許文献5の方法においては、単純に単語順序を反転させるだけであったものを、文節間・文節内の二段階の並べ替えを行うことによって、複合語などの語順反転(例えば、「国立 情報 学 研究所」→「研究所 学 情報 国立」)を抑制する。
また、本実施形態においては、並列構造がある場合に、並列順序を誤って反転させないことにより、並列句の順序反転(例えば、「装置 1 と 装置 2 が」→「が 装置 2 と 装置 1」)を抑制する。
<本発明の実施の形態に係る翻訳装置の構成>
次に、本発明の実施の形態に係る翻訳装置の構成について説明する。図1に示すように、本発明の実施の形態に係る翻訳装置100は、CPUと、RAMと、後述する翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この翻訳装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90とを備えている。
入力部10は、キーボードなどの入力装置から日本語の入力文を受け付ける。入力される文は前処理としてHTMLやXMLなどのタグの除去、表記の正規化等がされ、入力時においては適切な入力形式に変換された状態で入力される。なお、入力部10は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。
演算部20は、言語解析部30と、並べ替え部50と、翻訳部52と、モデル記憶部54と、を備えている。
言語解析部30は、形態素解析部32と、文節同定部34と、並列同定部36と、文分割部38と、主部同定部40と、を備えている。言語解析部30は、入力部10において受け付けた日本語で記述された入力文に対して形態素解析、文節の同定、並列関係となる文節の組み合わせの同定、文の分割、及び主部の同定を行う。
形態素解析部32は、入力部10において受け付けた日本語で記述された入力文に対して、公知の形態素解析器(JUMAN、MeCab等)を利用し、形態素解析(単語区切りと品詞の同定)を行う。本実施の形態においては、JUMANを利用する。
文節同定部34は、形態素解析部32において形態素解析された日本語で記述された文に対して、文節の同定を行う。具体的には、本実施の形態においては、公知の日本語解析器(KNP)を利用して、形態素解析された日本語で記述された文に対して構文解析を行い、当該構文解析の結果のうち文節のみの情報を用いて、各文節について、文節内の各要素としての各単語に、その語単独で意味を持つ「内容語」と、内容語に付属する形でのみ使用され、付属する内容語の構文的あるいは意味的役割を表す「機能語」との分類を与える。なお、内容語のみが同定される文節や、機能語のみが同定される文節が存在する可能性がある。また、「内容語」と「機能語」との分類は、機能語を「助詞及び助動詞」などの特定の品詞に固定した規則を用いて機能語の同定を行ってもよいし、コーパスから学習した分類器を利用してもよい。
なお、公知の日本語解析器(CaboCha等)を利用して、文節の同定を行ってもよいし、文「助詞などの機能語で分割する」というような簡単な規則を用いて、文節の同定を行ってもよい。
並列同定部36は、文節同定部34において同定された日本語で記述された入力文の各文節から、並列の関係となる文節の組み合わせを同定する。本実施の形態においては、文節同定部34において取得した公知の日本語解析器(KNP等)による構文解析の結果を利用する。なお、並列の関係となる文節の組み合わせの同定は、接続詞や接続助詞に基づく規則を用いてもよいし、並列構造解析プログラムを用いてもよい。
文分割部38は、日本語で記述された入力文について、句読点で、当該文を仮想的に分割し、複数の部分文を得る。具体的には、文節同定部34において取得した公知の日本語解析器(KNP等)による構文解析の結果を利用する。これは、日本語では句読点によって、大きく文の構造が分割されることがあり、英語への翻訳においても句読点を跨ぐような長距離の並べ替えを行う必要がないことが多いため、並べ替えは文頭・文末・句読点で挟まれた範囲内に制限すれば十分である場合があるということに基づくものである。そのため、本実施の形態においては、文を仮想的に分割し、複数の部分文に分割することにより、分割点(部分文の範囲)を超えるような並べ替えを行わないように制限させることができる。
主部同定部40は、日本語で記述された入力文に含まれる主部を同定する。具体的には、文節同定部34において取得した公知の日本語解析器(KNP等)による構文解析の結果を利用し、格助詞「は」、「が」を含む文節という規則に適合する文節を主部として同定する。なお、主部の同定には「格助詞を用いる」等の規則を用いてもよいし、コーパスから学習した分類器を利用してもよい。また、主部とは、「は」、「が」を含む(主部)文節と、それより前の分割点までの間にある文節すべてを含むものとする。また、「は」と「が」とが両方含まれるような場合は、「は」に相当する主部と、「が」に相当する主部とをそれぞれ別の主部として扱ってもよいし、全体で一つの主部として扱ってもよい。
並べ替え部50は、言語解析部30で得られた日本語で記述された入力文に含まれる文節の各々と、並列の関係となる文節の組み合わせの同定結果と、主部の同定結果と、部分文への分割結果とを利用して、日本語で記述された文について、部分文の単位において、英語で記述された文の語順に相似するように文節及び文節内の単語を並べ替え、並べ替えられた部分文を結合する。具体的には、以下に示すような処理が行われる。
まず、部分文の単位において、主部同定部40において主部と同定された部分について、当該部分に含まれる各文節の順序が反転するように並べ替える。なお、並列同定部36において並列の関係となる文節の組み合わせと同定された文節の組み合わせについては、当該組み合わせに含まれる文節の順序を維持するように並べ替えを行う。なお、主部が複数ある場合には、主部の各々に対して、上記のように並べ替えを行う。
次に、部分文の単位において、主部同定部40において主部と同定されなかった部分について、当該部分に含まれる各文節の順序が反転するように並べ替える。なお、並列同定部36において並列の関係となる文節の組み合わせと同定された文節の組み合わせについては、当該組み合わせに含まれる文節の順序を維持するように並べ替えを行う。
次に、部分文の単位において、上記のように並べ替えられた文節の各々について、文節同定部34において同定された、当該文節に含まれる機能語を、当該文節の先頭に移動させるように語順を並べ替える。なお、並列同定部36において文節間の並列の関係となる文節の組み合わせと同定された文節の組み合わせについては、当該組み合わせの最も後方にある文節に含まれる機能語を当該組み合わせの最も前方に位置する文節の先頭に並べ替える。なお、特定の機能語については、並べ替えを行わないとしてもよい。例えば、格助詞の「は」、「が」については、並べ替えを行わないようにしてもよい。
そして、全ての部分文について、上記のように並べ替えが行われると、並べ替えられた部分文の各々を連結し、入力部10において受け付けた日本語で記述された文の語順の並べ替え結果とする。
翻訳部52は、公知の機械翻訳器を用いて、並べ替え部50において並べ替えられた日本語で記述された入力文を翻訳し、複数の翻訳候補文の中から、モデル記憶部54に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みに基づいて、翻訳スコアが最適な翻訳候補文を選択し、出力部90に出力する。なお、翻訳の方法は、非特許文献6(Phillip Koehn, Franz Josef Och, and Daniel Marcu. 2003. Statistical Phrase-based Translation. In Proc. HLT- NAACL, pages 263-270.)の公知の統計的機械翻訳の技術によって実現すればよく、詳細な説明を省略する。
出力部90は、翻訳部52において翻訳された英語で記述された文に、入力前の処理で削除したXMLやHTMLタグなどの復元や追加を行い、出力装置もしくはネットワーク等によって外部に出力する。
<翻訳モデル学習装置の構成>
次に、本発明の実施の形態に係る翻訳モデル学習装置の構成について説明する。図2に示すように、本発明の実施の形態に係る翻訳モデル学習装置200は、CPUと、RAMと、後述する翻訳モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この翻訳モデル学習装置200は、機能的には図2に示すように入力部210と、演算部220と、出力部290とを備えている。
入力部210は、キーボードなどの入力装置から複数の日本語と英語の対訳となっている文対、語句対(対訳データ)の集合である学習用並行コーパスを受け付ける。なお、入力部210は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。
演算部220は、学習用並行コーパス222と、モデル学習部250と、モデル記憶部270とを備えている。
学習用並行コーパス222は、入力部210において受け付けた学習用並行コーパスが記憶されている。なお、学習用並行コーパスは、日本語と英語の対訳文が同じ行数の位置に記載されたテキストファイルである。
モデル学習部250は、学習データ言語解析部252と、学習データ並べ替え部254と、モデル用並行コーパス256と、翻訳モデル学習部258と、翻訳部260と、モデル重み学習部262と、を備えている。モデル学習部250は、学習用並行コーパス222に記憶されている、学習用並行コーパスを利用して統計的な翻訳モデル及びモデル重みを学習し、モデル記憶部270に記憶する。
学習データ言語解析部252は、言語解析部30と同様の形態素解析部、文節同定部、並列同定部、文分割部、及び主部同定部(図示省略)を含み、学習用並行コーパスに含まれる日本語及び英語の対訳データ毎に、日本語及び英語の言語解析を行う。日本語の言語解析は、翻訳装置100の言語解析部30で行われる言語解析と同一の言語解析(形態素解析、文節の同定、並列関係となる文節の組み合わせの同定、文の分割、及び主部の同定)を行う。一方、英語の言語解析は単語区切りの同定を行う。英語は通常単語毎に分割されているため、文末記号等を切り出すのみでもよいし、その他当該分野において一般的に用いられる単語分割方法を利用しても良い。
学習データ並べ替え部254は、学習データ言語解析部252において言語解析された複数の対訳データ毎に、対訳データに含まれる日本語の文又は語句に対して、翻訳装置100の並べ替え部50と同様に、部分文の単位において文節及び文節内の単語を並べ替え、連結することによって、語順を並べ替える。学習データ並べ替え部254は、並べ替えられた日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句(単語に区切られたもの)とを併せてモデル用並行コーパスとしてモデル用並行コーパス256に各々記憶する。
モデル用並行コーパス256は、学習データ並べ替え部254において並べ替えられた日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句(単語に区切られたもの)とを併せた対訳データの集合をモデル用並行コーパスとして記憶している。
翻訳モデル学習部258は、モデル用並行コーパス256に記憶されている対訳データの集合に基づいて、複数の統計的な翻訳モデルを学習し、モデル記憶部270に記憶する。統計的な翻訳モデルには、非特許文献6に代表される統計的機械翻訳技術で利用される「語句翻訳モデル」、「語句並べ替えモデル」、「言語モデル」等があり、機械翻訳の制約として適宜その構成を選択可能である。学習の方法は非特許文献6などが広く知られているが、本実施の形態においては、特定の方法に限定されず適用可能である。
例えば、翻訳モデル学習部258は、モデル用並行コーパス256に記憶されている日本語で記述された文又は語句と、英語で記述された文又は語句からなる対訳データに基づいて、統計的な語句翻訳モデルと語句並べ替えモデルの各々を学習する。また、モデル用並行コーパス256に記憶されている英語で記述された文又は語句に基づいて、言語モデルを学習する。
翻訳部260は、重み学習用データであるモデル用並行コーパス256に記憶されている日本語の文又は語句の各々について、公知の機械翻訳器と、モデル記憶部270に記憶されている複数の翻訳モデル及び複数の翻訳モデルの各々に対する重みと、を用いて複数の翻訳候補を作成する。例えば、モデル記憶部270に記憶されている翻訳モデルの各々に対する重みを用いて翻訳スコア(例えば、各翻訳モデルのスコアの重み付き加算値)を算出し、算出された翻訳スコアが一定の値よりも大きい翻訳候補のみを翻訳候補として抽出する。
モデル重み学習部262は、重み学習用データの複数の翻訳候補と、モデル用並行コーパス256に記憶されている当該重み学習用データに対応する英語で記述された文又は語句(正解翻訳)とに基づいて、翻訳部260において抽出された各翻訳候補に対する翻訳評価尺度(例えば、BLEU値)を算出する。
そして、モデル重み学習部262は、翻訳部260において抽出された翻訳候補の各々の翻訳評価尺度に基づいて、良い翻訳である翻訳候補ほど、モデル記憶部270に記憶されている翻訳モデルの各々に対する重みを用いて算出される翻訳スコア(例えば、各翻訳モデルのスコアの重み付き加算値)が高くなるように、翻訳モデルの各々に対する重みを最適化し、翻訳モデルの各々に対する重みをモデル記憶部270に記憶する。
上記の翻訳部260において行われる翻訳候補の抽出と、モデル重み学習部262において行われる重みの学習とは、翻訳モデルの各々に対する重みが収束するまで繰り返して行われる。
出力部290は、モデル記憶部270に記憶されている翻訳モデル及びモデル重みを出力する。
<翻訳モデル学習装置の作用>
次に、本発明の実施の形態に係る翻訳モデル学習装置200の作用について説明する。まず、入力部210により、日本語と英語の対訳となっている文対、語句対(対訳データ)の集合である学習用並行コーパスを受け付け、学習用並行コーパス222に記憶される。そして、翻訳モデル学習装置200のROMに記憶されたプログラムを、CPUが実行することにより、図3に示す翻訳モデル学習処理ルーチンが実行される。
まず、ステップS100では、学習用並行コーパス222に記憶されている学習用並行コーパスを読み込む。
次に、ステップS102では、ステップS100において読み込んだ学習用並行コーパスに含まれる日本語の文又は語句の各々について、公知の形態素解析器(JUMAN、MeCab等)を利用し、形態素解析(単語区切りと品詞の同定)を行う。
次に、ステップS104では、ステップS102において取得した形態素解析済みの日本語で記述された文又は語句の各々について、公知の日本語解析器(KNP)を利用して構文解析を行い、当該構文解析の結果のうち文節のみの情報を用いて、各文節について、文節内の各要素としての各単語に、「内容語」と「機能語」との分類を与える。
次に、ステップS106では、ステップS102において取得した形態素解析済みの日本語で記述された文又は語句の各々について、公知の日本語解析器を利用した構文解析の結果に基づいて、並列の関係となる文節の組み合わせを同定する。
次に、ステップS108では、ステップS102において取得した形態素解析済みの日本語で記述された文又は語句の各々について、公知の日本語解析器を利用した構文解析の結果に基づいて、句読点で、当該文を仮想的に分割し、複数の部分文を得る。
次に、ステップS110では、ステップS102において取得した形態素解析済みの日本語で記述された文又は語句の各々について、公知の日本語解析器を利用した構文解析の結果を用いて、格助詞「は」、「が」を含む文節という規則に適合する文節を主部として同定する。
次に、ステップS112では、ステップS100において読み込んだ学習用並行コーパスに含まれる英語で記述されている文又は語句の各々について、単語区切りの同定を行う。
次に、ステップS114では、ステップS102〜ステップS110までの処理を行った、ステップS100において読み込んだ学習用並行コーパスに含まれる処理対象となる日本語の文又は語句について、ステップS108において取得した処理対象となる部分文に対して、ステップS104において取得した文節の情報、ステップS106において取得した並列の関係となる文節の組み合わせ、及びステップS110において取得した主部の情報に基づいて、並列の関係となる文節の組み合わせについての文節の順序を維持するように、主部に含まれる各文節の順序を反転するように並べ替えると共に、主部とは異なる部分について各文節の順序を反転するように並べ替える。
次に、ステップS116では、ステップS114において取得した並べ替えられた各文節について、ステップS104において取得した各文節の各単語の「内容語」と「機能語」との分類に基づいて、当該文節に含まれる機能語を先頭に並べ替えるように文節内の単語を並べ替える。
次に、ステップS118では、処理対象となる日本語の文又は語句に含まれる全ての部分文についてステップS114〜ステップS116の処理を終了したか否かの判定を行う。処理対象となる日本語の文又は語句に含まれている全ての部分文についてステップS114〜ステップS116の処理を終了した場合には、ステップS120へ移行し、全ての部分文についてステップS114〜ステップS116の処理を終了していない場合には、処理対象となる部分文を変更し、ステップS114へ移行する。
次に、ステップS120では、ステップS116において取得した並べ替えられた部分文の各々を連結した日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句(ステップS116で取得したもの)と併せてモデル用並行コーパスとしてモデル用並行コーパス256に記憶する。
次に、ステップS122では、ステップS100において読み込んだ学習用並行コーパスに含まれる日本語の文又は語句の全てについて、ステップS114〜ステップS120の処理を終了したか否かを判定する。全ての日本語の文又は語句について、ステップS114〜ステップS120の処理を終了した場合には、ステップS124へ移行し、全ての日本語の文又は語句について、ステップS114〜ステップS120の処理を終了していない場合には、処理対象となる日本語の文又は語句を変更し、ステップS114へ移行する。
次に、ステップS124では、モデル用並行コーパス256に記憶されている日本語で記述された文又は語句と、英語で記述された文又は語句からなる対訳データの集合に基づいて、統計的な語句翻訳モデルと語句並べ替えモデルの各々を学習し、モデル用並行コーパス256に記憶されている英語で記述された文又は語句の各々に基づいて、言語モデルを学習する。そして、学習した各翻訳モデルをモデル記憶部270に記憶する。また、各翻訳モデルの各々に対する重みの初期値をモデル記憶部270に記憶する。
次に、ステップS126では、ステップS114〜ステップS120において語順を並べ替えた日本語で記述された文又は語句の各々について、公知の機械翻訳器と、上記ステップS124で学習した各翻訳モデルと、モデル記憶部270に記憶されている翻訳モデルの各々に対する重みとを用いて、翻訳スコアに基づいて、複数の翻訳候補を作成する。
次に、ステップS128では、上記ステップS126で作成された複数の翻訳候補の各々について、モデル用並行コーパス256に記憶されている当該翻訳候補に対応する英語で記述された文又は語句(正解翻訳)に基づいて、各翻訳候補に対する翻訳評価尺度を算出する。そして、各翻訳候補の翻訳評価尺度と、各翻訳候補の翻訳スコアとに基づいて、翻訳モデルの各々に対する重みを最適化し、翻訳モデルの各々に対する重みを学習し、モデル記憶部270に記憶する。
次に、ステップS130では、ステップS128で学習した翻訳モデルの各々に対する重みが収束したか否かを判定する。収束している場合には、処理を終了する。収束していない場合には、ステップS126に移行する。
<翻訳装置の作用>
次に、本発明の実施の形態に係る翻訳装置100の作用について説明する。まず、入力部10により、翻訳モデル学習装置200によって学習された複数の翻訳モデル及び翻訳モデルの各々に対する重みを受け付けモデル記憶部54に記憶される。そして、入力部10により、日本語で記述された文を受け付けると、翻訳装置100のROMに記憶されたプログラムを、CPUが実行することにより、図4に示す翻訳処理ルーチンが実行される。
まず、ステップS200では、モデル記憶部54に記憶されている複数の翻訳モデル及び翻訳モデルの各々に対する重みを読み込む。
次に、ステップS202では、ステップS102と同様に、入力部10おいて受け付けた日本語で記述された入力文に対して、公知の形態素解析器(JUMAN、MeCab等)を利用し、形態素解析(単語区切りと品詞の同定)を行う。
次に、ステップS204では、ステップS104と同様に、ステップS202において形態素解析された入力文に対して、公知の日本語解析器(KNP)を利用して構文解析を行い、当該構文解析の結果のうち文節のみの情報を用いて、各文節について、文節内の各要素としての各単語に、「内容語」と「機能語」との分類を与える。
次に、ステップS206では、ステップS106と同様に、ステップS204において取得した構文解析の結果に基づいて、並列の関係となる文節の組み合わせを同定する。
次に、ステップS208では、ステップS108と同様に、ステップS204において取得した構文解析の結果に基づいて、公知の日本語解析器を利用した構文解析の結果に基づいて、句読点で、当該文を仮想的に分割し、複数の部分文を得る。
次に、ステップS210では、ステップS110と同様に、ステップS208において取得した文分割された部分文の単位において、ステップS204において取得した構文解析の結果に基づいて、格助詞「は」、「が」を含む文節という規則に適合する文節を主部として同定する。
次に、ステップS212では、ステップS208において取得した入力文の処理対象となる部分文に対して、ステップS204において取得した文節の情報、ステップS206において取得した並列の関係となる文節の組み合わせ、及びステップS210において取得した主部の情報に基づいて、並列の関係となる文節の組み合わせについての文節の順序を維持するように、主部に含まれる各文節の順序を反転するように並べ替えると共に、主部とは異なる部分について各文節の順序を反転するように並べ替える。
次に、ステップS214では、ステップS212において取得した並べ替えられた各文節について、ステップS204において取得した各文節の各単語の「内容語」と「機能語」との分類に基づいて、当該文節に含まれる機能語を先頭に並べ替えるように文節内の単語を並べ替える。
次に、ステップS216では、入力文に含まれる全ての部分文についてステップS212〜ステップS214の処理を終了したか否かの判定を行う。入力文に含まれている全ての部分文についてステップS212〜ステップS214の処理を終了した場合には、ステップS218へ移行し、全ての部分文についてステップS212〜ステップS214の処理を終了していない場合には、処理対象となる部分文を変更し、ステップS212へ移行する。
次に、ステップS218では、ステップS214において取得した並べ替えられた部分文の各々を連結する。
次に、ステップS220において、ステップS218において取得した語順を並べ替えた入力文について、公知の機械翻訳器を用いて翻訳し、複数の翻訳候補文の中から、ステップS200において取得した複数の翻訳モデルと翻訳モデルの各々に対する重みに基づいて、翻訳スコアが最適な翻訳候補文を選択する。
次に、ステップS222において、ステップS220において選択した翻訳結果を出力して処理を終了する。
<翻訳モデル学習装置200の実施例>
次に、約300万文の日本語・英語並行コーパスから統計翻訳モデルの学習を行った実施例について以下説明する。
翻訳モデル学習装置200の学習データ言語解析部252において、日本語及び英語の言語解析を行う。日本語の言語解析では翻訳装置100の言語解析部30と同一の処理を行い、同様の結果が得られる。英語の言語解析ではMosesに同梱されている単語分割プログラムを利用し、単語分割のみ行う。
翻訳モデル学習装置200の学習データ並べ替え部254において、並行コーパスの日本語については、翻訳装置100の並べ替え部50と同様の並べ替え処理を行う。
日本語と英語の並行コーパスは、並べ替えられた日本語の単語列の集合と、英語の単語列の集合に書き換えられる。各単語列の集合は単語ごとに半角空白で区切られた、1行に1文が格納されたテキストファイルである。翻訳モデル学習においては、Mosesで提供されている学習プログラムにより、日本語と英語の単語列の集合を表すテキストファイルから、「語句翻訳モデルDB:phrase-table.gz」「語句並べ替えモデルDB:reordering-table.wbe-msd-bidirectional-fe.gz」を作成する。
また、公知の言語モデル学習プログラムSRILMにより、英語の単語列の集合のテキストファイルから「言語モデルDB:ja.5gram.arpa.gz」を作成する。本実施例では、単語5グラム言語モデルを作成する。
さらに、モデル間の重みの最適値を決定する「誤り最小化学習」(Minimum Error Rate Training: MERT)と呼ばれる公知の方法(非特許文献7:Franz J. Och. 2003. Minimum error rate training for statistical machine translation.In Proceedings of the 41st annual conference of the Association for Computational Linguistics, pp.160--167, 2003.)によって、各モデルに対する重みを学習し、前記モデルDBの情報と併せて、翻訳プログラム設定ファイルに書き出す。
<翻訳装置100の実施例>
「また、データ保存装置とデータ収集装置がネットワークに接続される。」という日本語文を、翻訳装置100が実装された計算機端末に入力した場合の実施例を以下に示す。
本実施例では日本語の言語解析に公知の日本語形態素解析ソフトウェアJUMAN、及び公知の構文解析ソフトウェアKNPを利用する。本実施例においては、形態素解析、文節同定、及び並列の関係となる文節の組み合わせの同定を一括で行うために、入力部10から入力された日本語文を計算機端末の標準入力からJUMANに入力し、その出力を直接KNPの入力とするように構成している。また、KNP解析結果は図5のように出力される。なお、上記図5では、本実施例で利用しない情報の一部を取り除いて表記している。
行頭の記号「*」は文節の始まりを示し、その後の数字が係り先の文節(0始まりの文節番号)、係タイプ(Dは通常の修飾、Pは並列)を表す。行頭の記号「+」は続く行に示された単語が内容語であることを示し、前の行に「+」で始まる行のない単語は機能語であることを示している。この解析結果の解釈は図6に示す通りである。なお、上記図6では、本実施の形態では係り受けの情報は利用しないため、文節・並列の関係となる文節の組み合わせ・内容語/機能語の情報のみを示す。
また、文分割部38による文分割において、日本語の句読点を分割点として扱うこととすると、当該入力文は、図7のように分割され、2つの部分文を取得する。
そして、主部同定部40による主部同定において、「機能語に格助詞「が」を含む文節」という規則を適用し、図8に示すように「部分文1−文節1」と、これと並列の関係となる「部分文1−文節0」とを併せて主部であると同定される。その他の部分は述部と同定する。
翻訳装置100の並べ替え部50は、上記のように、日本語文の文節を並べ替える。本実施例では、上記の日本語文の各部分文の主部と述部の各々について、並列の関係となる文節の組み合わせを除き、各文節の順序を反転するように並べ替える。図9に文節を並べ替えた結果を示す。
次に、上記の文節を並べ替えられた日本語文の各部分文についての各文節について、機能語を当該文節の先頭に移動する。ここで、並列の関係となる文節の組み合わせについては、並列の関係となる文節の組み合わせのうち、最後に位置する文節の機能語を並列の関係となる文節の組み合わせの先頭に位置する文節の先頭に移動するという規則を用いる。図10に、並べ替えの結果を示す。
最後に、並べ替えられた部分文を結合すると「また、 が データ 保存 装置 と データ 収集 装置 さ れる 接続 に ネットワーク。」という並べ替えられた単語列が得られる。
翻訳装置100の翻訳部52は、並べ替え部50で並べ替えられた日本語の文を英語に翻訳する。本実施例では、翻訳モデル学習装置200の翻訳モデル学習部258で学習された統計翻訳モデル(句翻訳モデル、句並べ替えモデル、言語モデル)及び各モデルに対する重みを利用し、公知の統計翻訳ソフトウェアMosesを用いた。本実施例においてはMosesの「then , the data storage device and a data collecting device are connected to the network.」との出力結果を出力部90に出力する。
上記の実施例の方法で実現された機械翻訳プログラムは、従来技術で構成された機械翻訳プログラムおよび従来の日本語並べ替え方法に基づく機械翻訳プログラムより高い翻訳性能を示すことが分かった。約300万文の日英並行コーパスで学習された統計モデルを用いた実験において、当該分野で最も一般的に用いられる評価指標BLEU及びRIBESの値が、上記非特許文献4に記載の従来技術で構成された機械翻訳プログラムではそれぞれ、31.44、及び72.88であったのに対し、本実施例の機械翻訳プログラムでは31.84及び74.28を達成している。
以上説明したように、本発明の実施の形態に係る翻訳装置によれば、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替え、並べ替えられた文について翻訳を行うことにより、精度よく翻訳を行うことができる。
また、日本語から英語への翻訳において、日本語の語順を英語に近い語順に並べ替えることが可能になり、その結果、日本語から英語への翻訳において語順の差が非常に小さくなることから、翻訳がより容易になる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、日本語で記述された入力文に対して、英語の語順に相似するように語順を並べ替える場合について説明したが、これに限定されるものではなく、他の言語の入力文を用いてもよい。この場合には、第1言語の入力文に対して、第1言語とは異なる第2言語の語順に相似するように語順を並べ替えるようにすればよい。
また、本実施の形態においては、翻訳装置は、入力文に対して翻訳を行う場合について説明したがこの限りでない。例えば、翻訳装置は、入力句に対して翻訳を行うようにしてもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 入力部
20 演算部
30 言語解析部
32 形態素解析部
34 文節同定部
36 並列同定部
38 文分割部
40 主部同定部
50 並べ替え部
52 翻訳部
54 モデル記憶部
90 出力部
100 翻訳装置
200 翻訳モデル学習装置
210 入力部
220 演算部
222 学習用並行コーパス
250 モデル学習部
252 学習データ言語解析部
254 学習データ並べ替え部
256 モデル用並行コーパス
258 翻訳モデル学習部
260 翻訳部
262 学習部
270 モデル記憶部
290 出力部

Claims (7)

  1. 入力文又は句について、機能語を含む各文節を同定する文節同定部と、
    前記入力文又は句の主部を同定する主部同定部と、
    前記主部同定部により同定された前記入力文又は句の主部について、前記主部に含まれる各文節の順序を反転するように並べ替え、前記入力文又は句のうち、前記主部とは異なる部分について、各文節の順序を反転するように並べ替え、前記主部について並べ替えられた各文節及び前記主部とは異なる部分について並べ替えられた各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える並べ替え部と、
    を含む、語順並べ替え装置。
  2. 前記入力文又は句の各文節から、並列の関係となる文節の組み合わせを同定する並列同定部を更に含み、
    前記並べ替え部は、前記並列同定部により同定された並列の関係となる文節の組み合わせについての文節の順序を維持するように、前記主部に含まれる各文節の順序を反転するように並べ替え、前記主部とは異なる部分について各文節の順序を反転するように並べ替え、前記並列の関係となる文節の組み合わせについて、最も後方に位置する文節に含まれる機能語を、最も前方に位置する文節の先頭に並べ替え、前記並列の関係となる文節の組み合わせとは異なる各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える請求項1記載の語順並べ替え装置。
  3. 第1特定言語で記述された入力文又は句を、第1特定言語とは異なる第2特定言語で記述された文又は句に翻訳する翻訳装置において、
    請求項1又は2記載の語順並べ替え装置によって前記入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記第2特定言語で記述された文又は句に翻訳する翻訳部
    を含む翻訳装置。
  4. 文節同定部と、主部同定部と、並べ替え部と、を含む語順並べ替え装置における語順並べ替え方法であって、
    前記文節同定部が、入力文又は句について、機能語を含む各文節を同定し、
    前記主部同定部が、前記入力文又は句の主部を同定し、
    前記並べ替え部が、前記主部同定部により同定された前記入力文又は句の主部について、前記主部に含まれる各文節の順序を反転するように並べ替え、前記入力文又は句のうち、前記主部とは異なる部分について、各文節の順序を反転するように並べ替え、前記主部について並べ替えられた各文節及び前記主部とは異なる部分について並べ替えられた各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える
    語順並べ替え方法。
  5. 翻訳部を含む、第1特定言語で記述された入力文又は句を、第1特定言語とは異なる第2特定言語で記述された文又は句に翻訳する翻訳装置における翻訳方法であって、
    前記翻訳部によって、請求項4記載の語順並べ替え方法によって前記入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記第2特定言語で記述された文又は句に翻訳する
    翻訳方法。
  6. コンピュータを、請求項1又は請求項2記載の語順並べ替え装置を構成する各部として機能させるためのプログラム。
  7. コンピュータを、請求項3記載の翻訳装置を構成する各部として機能させるためのプログラム。
JP2014026801A 2014-02-14 2014-02-14 語順並べ替え装置、翻訳装置、方法、及びプログラム Active JP6040946B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014026801A JP6040946B2 (ja) 2014-02-14 2014-02-14 語順並べ替え装置、翻訳装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014026801A JP6040946B2 (ja) 2014-02-14 2014-02-14 語順並べ替え装置、翻訳装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015153182A true JP2015153182A (ja) 2015-08-24
JP6040946B2 JP6040946B2 (ja) 2016-12-07

Family

ID=53895341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014026801A Active JP6040946B2 (ja) 2014-02-14 2014-02-14 語順並べ替え装置、翻訳装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6040946B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018097022A1 (ja) * 2016-11-24 2018-05-31 国立研究開発法人情報通信研究機構 自動翻訳パターン学習装置、自動翻訳の前処理装置、及びコンピュータプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013054607A (ja) * 2011-09-05 2013-03-21 Nippon Telegr & Teleph Corp <Ntt> 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013054607A (ja) * 2011-09-05 2013-03-21 Nippon Telegr & Teleph Corp <Ntt> 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6016037402; 星野 翔 外3名: '日英統計的機械翻訳のための述語項構造に基づく事前並べ替え' 言語処理学会第19回年次大会 発表論文集 , 20130304, p.394-397, 言語処理学会 *
JPN6016037411; 磯崎 秀樹: '英日翻訳における語順について' 言語処理学会第16回年次大会発表論文集 , 20100308, p.884-887, 言語処理学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018097022A1 (ja) * 2016-11-24 2018-05-31 国立研究開発法人情報通信研究機構 自動翻訳パターン学習装置、自動翻訳の前処理装置、及びコンピュータプログラム

Also Published As

Publication number Publication date
JP6040946B2 (ja) 2016-12-07

Similar Documents

Publication Publication Date Title
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
US10061768B2 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
US8670975B2 (en) Adaptive pattern learning for bilingual data mining
JP4694111B2 (ja) 用例ベースの機械翻訳システム
US6816830B1 (en) Finite state data structures with paths representing paired strings of tags and tag combinations
Mori et al. A machine learning approach to recipe text processing
JP2006012168A (ja) 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
JP5552101B2 (ja) 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
JP6040946B2 (ja) 語順並べ替え装置、翻訳装置、方法、及びプログラム
KR20100062834A (ko) 번역 오류 후처리 보정 장치 및 방법
JP5800206B2 (ja) 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム
JP5734917B2 (ja) 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
JP5780670B2 (ja) 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム
JP2017142758A (ja) 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム
Glöckner et al. The LogAnswer Project at ResPubliQA 2010.
JP6083645B2 (ja) 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム
Murawaki et al. Online Japanese Unknown Morpheme Detection using Orthographic Variation.
JP3939264B2 (ja) 形態素解析装置
Howlett et al. Dual-path phrase-based statistical machine translation
KR101638442B1 (ko) 중국어 구문 분절 방법 및 장치
JP5462894B2 (ja) 翻訳モデル学習装置、方法、翻訳装置、方法、及びプログラム
Ekbal et al. Named entity transliteration

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20151209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161024

R150 Certificate of patent or registration of utility model

Ref document number: 6040946

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250