JP5800206B2 - 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム - Google Patents
語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5800206B2 JP5800206B2 JP2013040796A JP2013040796A JP5800206B2 JP 5800206 B2 JP5800206 B2 JP 5800206B2 JP 2013040796 A JP2013040796 A JP 2013040796A JP 2013040796 A JP2013040796 A JP 2013040796A JP 5800206 B2 JP5800206 B2 JP 5800206B2
- Authority
- JP
- Japan
- Prior art keywords
- order
- sentence
- translation
- elements
- types
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
また、非特許文献2及び非特許文献3の技術において、日本語から英語への翻訳においても、構文解析を利用して日本語の文節の係り受け構造を推定し、文節の順序を入れ替えることによって英語の語順に近づけることができる。
本発明の実施の形態では、日本語から英語への翻訳を対象とした事前並べ替えのための、日本語の構文解析結果に対して適用する並べ替え規則を提供し、それに基づく日本語から英語への機械翻訳を実現する。本発明の実施の形態では、並べ替え規則に基づいて、文節の順序を入れ替えるだけでなく、例えば、英語の前置詞の位置に合うよう助詞等の機能語を当該文節の先頭に移動させるように、並べ替え規則に基づいて文節内の単語についても並べ替え、従来の技術よりさらに英語に近い語順に日本語を並べ替えられるようにする。なお、本発明の実施の形態において、その語単独で意味を持つ語を「内容語」、内容語に付属する形でのみ使用され、付属する内容語の構文的あるいは意味的役割を表す語を「機能語」とする。
本発明の実施の形態に係る翻訳装置について説明する。図1に示すように、本発明の実施の形態に係る翻訳装置100は、CPUと、RAMと、後述する翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この翻訳装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部70とを備えている。
(1)述語文節を主語文節(ガ格)の直後に移動する。
(2)主語文節がない場合は目的語文節(ヲ格)及び対象文節(ニ格)のうちの何れか前方にあるものの直前に述語文節を移動する。
(3)述語文節が動詞連用形の文節である場合、当該述語文節を係り先の単語(被修飾語)の直後に移動する。
(4)主語文節、目的語文節、対象文節のいずれも存在しない場合は、述語文節を文末から数えて2番目になる位置に移動する。
なお、係り受け構造は階層的な構造であるため、係り受けの各階層において、係り先となる述語文節を上記文節の並べ替え規則に従って移動させる操作を行う。
(5)機能語を文節の先頭に移動させる。
上記(5)の単語の並べ替え規則に従った並べ替えを行うか否かを、文節間の係り受け関係、当該文節の文節内要素の構成、又は当該文節を係り先とする文節の文節内要素の構成に基づいて判断する。
次に、本発明の実施の形態に係る翻訳モデル学習装置の構成について説明する。図2に示すように、本発明の実施の形態に係る翻訳モデル学習装置200は、CPUと、RAMと、後述する翻訳モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この翻訳モデル学習装置200は、機能的には図2に示すように入力部210と、演算部220と、出力部270とを備えている。
次に、本発明の実施の形態に係る翻訳モデル学習装置200の作用について説明する。まず、入力部210により、日本語と英語の対訳となっている文対、語句対(対訳データ)の集合である学習用並行コーパスが入力され、学習用並行コーパス250に記憶される。そして、翻訳モデル学習装置200のROMに記憶されたプログラムを、CPUが実行することにより、図3に示す翻訳モデル学習処理ルーチンが実行される。
次に、本発明の実施の形態に係る翻訳装置100の作用について説明する。まず、入力部10により、翻訳モデル学習装置200によって学習された複数の翻訳モデル及び翻訳モデルの各々に対する重みが入力されモデル記憶部44に記憶される。そして、入力部10により、日本語で記述された文が入力されると、翻訳装置100のROMに記憶されたプログラムを、CPUが実行することにより、図4に示す翻訳処理ルーチンが実行される。
次に、約300万文の日本語・英語並行コーパスから統計翻訳モデルの学習を行った実施例について以下説明する。
「データ保存装置10がデータ収集装置20に接続される。」という日本語文を、翻訳装置100が実装された計算機端末に入力した場合の実施例を以下に示す。
20 演算部
30 言語解析部
32 形態素解析部
34 構文解析部
36 述語項構造解析部
40 並べ替え部
42 翻訳部
44 モデル記憶部
70 出力部
100 翻訳装置
200 翻訳モデル学習装置
210 入力部
220 演算部
250 学習用並行コーパス
252 モデル学習部
254 学習データ言語解析部
256 学習データ並べ替え部
257 モデル用並行コーパス
258 翻訳モデル学習部
259 翻訳部
260 モデル重み学習部
262 モデル記憶部
270 出力部
Claims (14)
- 第1言語で記述された入力文の語順を、第1言語とは異なる第2言語で記述された文に近い語順に並べ替える語順並べ替え装置において、
入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類する構文解析部と、
前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、予め定められた前記第1言語の並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、
を含む語順並べ替え装置。 - 前記構文解析部は、前記文節内の各要素を、内容語と機能語とに分類する請求項1記載の語順並べ替え装置。
- 前記並べ替え部は、前記入力文に対する係り受け解析の結果から得られる前記文節間の係り受け関係に基づいて、前記文節毎に、前記文節の前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替える請求項1又は2記載の語順並べ替え装置。
- 前記並べ替え部は、前記文節毎に、前記入力文に対する係り受け解析の結果から得られる前記文節の係り元及び係り先の少なくとも一方の文節の要素の構成に基づいて、前記文節の前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替える請求項1又は2記載の語順並べ替え装置。
- 前記並べ替え部は、前記文節毎に、前記入力文に対する係り受け解析の結果から得られる前記文節間の係り受け関係と、前記文節の係り元及び係り先の少なくとも一方の文節の要素の構成とに基づいて、前記文節の前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替える請求項1又は2記載の語順並べ替え装置。
- 前記並べ替え部は、前記文節毎に、前記文節の機能語が前記文節の先頭に配置されるように、前記文節の前記2種類以上の要素の順序を並べ替える請求項2記載の語順並べ替え装置。
- 日本語で記述された入力文の語順を、日本語とは異なる特定言語で記述された文に近い語順に並べ替える語順並べ替え装置において、
前記入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類する構文解析部と、
日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、日本語で記述された文の文節の前記2種類以上の要素の順序を前記特定言語で記述された文の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、
を含む語順並べ替え装置。 - 日本語で記述された入力文を、日本語とは異なる特定言語で記述された文に翻訳する翻訳装置において、
前記入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類する構文解析部と、
日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、日本語で記述された文の文節の前記2種類以上の要素の順序を前記特定言語で記述された文の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、
複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により要素の順序を並べ替えられた前記入力文を、前記特定言語で記述された文に翻訳する翻訳部と、
を含む翻訳装置。 - 予め用意された、日本語で記述された文又は語句と、日本語とは異なる特定言語で記述された文又は語句との対である対訳データの集合に基づいて、日本語で記述された文を、前記特定言語で記述された文に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置において、
前記対訳データの集合の各対訳データの日本語で記述された文又は語句の各文節について、前記文節内の各要素を2種類以上の要素に分類する学習データ言語解析部と、
日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、各対訳データの日本語で記述された文又は語句の文節の順序を並べ替え、前記並べ替えた前記文又は語句について、前記文節毎に、前記文又は語句の文節の前記2種類以上の要素の順序を前記特定言語で記述された文又は語句の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記学習データ言語解析部により分類された前記2種類以上の要素の順序を並べ替えることにより、前記文又は語句の語順を並べ替える学習データ並べ替え部と、
前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句とに基づいて、前記複数種類の翻訳モデルを学習する翻訳モデル学習部と、
前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習するモデル重み学習部と、
を含む翻訳モデル学習装置。 - 構文解析部と、並べ替え部とを含む、第1言語で記述された入力文の語順を、第1言語とは異なる第2言語で記述された文に近い語順に並べ替える語順並べ替え装置の語順並べ替え方法であって、
前記構文解析部は、入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類し、
前記並べ替え部は、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、予め定められた前記第1言語の並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える
語順並べ替え方法。 - 構文解析部と、並べ替え部と、を含み、日本語で記述された入力文の語順を、日本語とは異なる特定言語で記述された文に近い語順に並べ替える語順並べ替え装置の語順並べ替え方法であって、
前記構文解析部は、前記入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類し、
前記並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、日本語で記述された文の文節の前記2種類以上の要素の順序を前記特定言語で記述された文の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える
語順並べ替え方法。 - 構文解析部と、並べ替え部と、翻訳部と、を含み、日本語で記述された入力文を、日本語とは異なる特定言語で記述された文に翻訳する翻訳装置の翻訳方法であって、
前記構文解析部は、前記入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類し、
前記並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、日本語で記述された文の文節の前記2種類以上の要素の順序を前記特定言語で記述された文の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替え、
前記翻訳部は、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により要素の順序を並べ替えられた前記入力文を、前記特定言語で記述された文に翻訳する
翻訳方法。 - 学習データ言語解析部と、学習データ並べ替え部と、翻訳モデル学習部と、モデル重み学習部と、を含み、予め用意された、日本語で記述された文又は語句と、日本語とは異なる特定言語で記述された文又は語句との対である対訳データの集合に基づいて、日本語で記述された文を、前記特定言語で記述された文に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置の翻訳モデル学習方法であって、
前記学習データ言語解析部は、前記対訳データの集合の各対訳データの日本語で記述された文又は語句の各文節について、前記文節内の各要素を2種類以上の要素に分類し、
前記学習データ並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、各対訳データの日本語で記述された文又は語句の文節の順序を並べ替え、前記並べ替えた前記文又は語句について、前記文節毎に、前記文又は語句の文節の前記2種類以上の要素の順序を前記特定言語で記述された文又は語句の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記学習データ言語解析部により分類された前記2種類以上の要素の順序を並べ替えることにより、前記文又は語句の語順を並べ替え、
前記翻訳モデル学習部は、前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句とに基づいて、前記複数種類の翻訳モデルを学習し、
前記モデル重み学習部は、前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習する
翻訳モデル学習方法。 - コンピュータを、請求項1〜7の何れか1項記載の語順並べ替え装置、請求項8に記載の翻訳装置、又は請求項9に記載の翻訳モデル学習装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013040796A JP5800206B2 (ja) | 2013-03-01 | 2013-03-01 | 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013040796A JP5800206B2 (ja) | 2013-03-01 | 2013-03-01 | 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014170296A JP2014170296A (ja) | 2014-09-18 |
JP5800206B2 true JP5800206B2 (ja) | 2015-10-28 |
Family
ID=51692668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013040796A Active JP5800206B2 (ja) | 2013-03-01 | 2013-03-01 | 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5800206B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6952967B2 (ja) * | 2015-03-06 | 2021-10-27 | 国立研究開発法人情報通信研究機構 | 自動翻訳装置 |
CN111859941B (zh) * | 2019-04-30 | 2023-05-05 | 广东小天才科技有限公司 | 一种调整英文语句顺序的方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05266069A (ja) * | 1992-03-23 | 1993-10-15 | Nec Corp | 中国語と日本語との間の双方向機械翻訳方式 |
JPH0981568A (ja) * | 1995-09-11 | 1997-03-28 | Matsushita Electric Ind Co Ltd | 機械翻訳用の中国語生成装置 |
JP4047900B1 (ja) * | 2006-11-15 | 2008-02-13 | 日本電信電話株式会社 | 係り受け解析装置及びそのプログラム |
JP2008299777A (ja) * | 2007-06-04 | 2008-12-11 | Nippon Hoso Kyokai <Nhk> | 多言語単語分類装置及び多言語単語分類プログラム |
JP5193798B2 (ja) * | 2008-10-24 | 2013-05-08 | 日本電信電話株式会社 | 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体 |
JP2010244385A (ja) * | 2009-04-08 | 2010-10-28 | Nec Corp | 機械翻訳装置、機械翻訳方法、およびプログラム |
JP5544518B2 (ja) * | 2010-05-14 | 2014-07-09 | 日本電信電話株式会社 | 機械翻訳装置、機械翻訳方法、およびそのプログラム |
-
2013
- 2013-03-01 JP JP2013040796A patent/JP5800206B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014170296A (ja) | 2014-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8670975B2 (en) | Adaptive pattern learning for bilingual data mining | |
CN1954315B (zh) | 用于将汉语拼音翻译成汉字的系统和方法 | |
JP3266246B2 (ja) | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 | |
Mori et al. | A machine learning approach to recipe text processing | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
JP2007241764A (ja) | 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
JP2013502643A (ja) | 構造化データ翻訳装置、システム及び方法 | |
Hadni et al. | Hybrid part-of-speech tagger for non-vocalized Arabic text | |
Mager et al. | Probabilistic finite-state morphological segmenter for wixarika (huichol) language | |
Khairova et al. | The Aligned Kazakh-Russian Parallel Corpus Focused on the Criminal Theme. | |
JP5800206B2 (ja) | 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム | |
JP5552101B2 (ja) | 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
JP5780670B2 (ja) | 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム | |
JP5734917B2 (ja) | 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
Yeshambel et al. | Evaluation of corpora, resources and tools for Amharic information retrieval | |
Khoufi et al. | Supervised learning model for parsing Arabic language | |
JP6040946B2 (ja) | 語順並べ替え装置、翻訳装置、方法、及びプログラム | |
JP4088171B2 (ja) | テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
JP6461832B2 (ja) | オラクル要約探索装置、方法、及びプログラム | |
JP6083645B2 (ja) | 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム | |
Ouersighni | Robust rule-based approach in Arabic processing | |
Howlett et al. | Dual-path phrase-based statistical machine translation | |
Qamet et al. | Development Kazakh-Turkish machine translation on the base of complete set of endings model | |
JP5462894B2 (ja) | 翻訳モデル学習装置、方法、翻訳装置、方法、及びプログラム | |
KR101638442B1 (ko) | 중국어 구문 분절 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150319 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150714 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150812 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5800206 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |