JP2016177341A

JP2016177341A - 対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラム

Info

Publication number: JP2016177341A
Application number: JP2015055001A
Authority: JP
Inventors: 佐藤　大輔; Daisuke Sato; 大輔佐藤; 松永　務; Tsutomu Matsunaga; 務松永
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2015-03-18
Filing date: 2015-03-18
Publication date: 2016-10-06

Abstract

【課題】翻訳の品質を向上する。【解決手段】対訳文生成装置は、取得された、第１の言語の文と、第１の言語とは異なる第２の言語の文とが対応付けられた対訳文の、第１の言語の文と、第２の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する係り受け解析部と、係り受け解析部によって解析された係り受けの関係に基づいて、第１の言語の文の少なくとも所定の単位を含む構成単位と、第２の言語の文の少なくとも所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する対訳文生成部とを備える。【選択図】図１

Description

本発明は、対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラムに関する。

近年、翻訳機能を計算機処理により実現する統計的機械翻訳方式を利用した翻訳装置が知られている。このような統計的機械翻訳方式では、大量で良質な対訳文の集合である対訳コーパスが必要とされる。
対訳コーパスの作成に関する技術としては、例えば、特許文献１に記載の技術が知られている。この特許文献１に記載の技術では、複数の翻訳結果に含まれる単語の頻度が高いものを正しいとする判断処理に基づいて対訳コーパスの作成が行われる。

特開２０１０−３３３９２号公報

しかしながら、上述した技術では、例えば、出現頻度の低い単語の誤訳は、誤りやすい傾向があり、翻訳の品質をより高めるために、より品質の高い対訳コーパスを作成する技術が望まれる。

本発明は、上記問題を解決すべくなされたもので、その目的は、翻訳の品質を向上させることができる対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラムを提供することにある。

上記問題を解決するために、本発明の一態様は、取得された、第１の言語の文と、前記第１の言語とは異なる第２の言語の文とが対応付けられた対訳文の、前記第１の言語の文と、前記第２の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する係り受け解析部と、前記係り受け解析部によって解析された前記係り受けの関係に基づいて、前記第１の言語の文の少なくとも前記所定の単位を含む構成単位と、前記第２の言語の文の少なくとも前記所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する対訳文生成部とを備えることを特徴とする対訳文生成装置である。

また、本発明の一態様は、上記の対訳文生成装置において、前記構成単位には、係り元の前記所定の単位と、係り先の前記所定の単位との組構成が含まれ、前記対訳文生成部は、前記第１の言語の文と、前記第２の言語の文とにおいて、前記係り受けの関係が等しい前記組構成から成る文を対応付けて、前記新たな対訳文を生成することを特徴とする。

また、本発明の一態様は、上記の対訳文生成装置において、前記組構成には、主語と動詞との組が含まれ、前記対訳文生成部は、前記第１の言語の文と、前記第２の言語の文とにおいて、前記主語と動詞とから成る文を対応付けて、前記新たな対訳文を生成することを特徴とする。

また、本発明の一態様は、上記の対訳文生成装置が生成した前記新たな対訳文を含む対訳文の集合である対訳コーパスに基づき生成された学習モデルに基づいて、翻訳対象の文を翻訳することを特徴とする翻訳装置である。

また、本発明の一態様は、係り受け解析部が、取得された、第１の言語の文と、前記第１の言語とは異なる第２の言語の文とが対応付けられた対訳文の、前記第１の言語の文と、前記第２の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する係り受け解析ステップと、対訳文生成部が、前記係り受け解析ステップによって解析された前記係り受けの関係に基づいて、前記第１の言語の文の少なくとも前記所定の単位を含む構成単位と、前記第２の言語の文の少なくとも前記所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する対訳文生成ステップとを含むことを特徴とする対訳文生成方法である。

また、本発明の一態様は、コンピュータに、取得された、第１の言語の文と、前記第１の言語とは異なる第２の言語の文とが対応付けられた対訳文の、前記第１の言語の文と、前記第２の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する係り受け解析ステップと、前記係り受け解析ステップによって解析された前記係り受けの関係に基づいて、前記第１の言語の文の少なくとも前記所定の単位を含む構成単位と、前記第２の言語の文の少なくとも前記所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する対訳文生成ステップとを実行させるためのプログラムである。

本発明によれば、翻訳の品質を向上させることができる。

本実施形態による対訳文生成装置の一例を示す概略ブロック図である。本実施形態における対訳文ＤＢのデータ例を示す図である。本実施形態における英語文の係り受け解析結果の一例を示す図である。本実施形態における日本語文の係り受け解析結果の一例を示す図である。本実施形態における英語句抽出ルール記憶部のデータ例を示す図である。本実施形態における英語句抽出結果の一例を示す図である。本実施形態における英語文解析結果記憶部のデータ例を示す図である。本実施形態における日本語句抽出ルール記憶部のデータ例を示す図である。本実施形態における日本語句抽出結果の一例を示す図である。本実施形態における日本語文解析結果記憶部のデータ例を示す図である。本実施形態における対訳文の生成結果の一例を示す図である。本実施形態における対訳文生成装置の動作の一例を示すフローチャートである。本実施形態における句抽出処理の一例を示すフローチャートである。本実施形態における翻訳システム及び翻訳装置の一例を示す概略ブロック図である。

以下、本発明の一実施形態による対訳文生成装置、及び翻訳装置について、図面を参照して説明する。
［第１の実施形態］
まず、第１の実施形態として、本発明に係る対訳文生成装置について、図面を参照して説明する。
図１は、本実施形態による対訳文生成装置１の一例を示す概略ブロック図である。

図１に示すように、対訳文生成装置１は、記憶部１０と、制御部３０とを備えている。また、対訳文生成装置１は、記憶装置２と接続される。
なお、本実施形態による対訳文生成装置１は、ある特定の用途（目的）の文（例えば、技術文書や科学分野の文など）を翻訳するための対訳文を、当該用途の翻訳を行うために既に存在している対訳コーパス（対訳文の集合）から新たに生成する。そして、対訳文生成装置１は、新たに生成した対訳文を、既に存在している対訳コーパスに追加する。

記憶装置２は、例えば、ストレージ装置やサーバ装置などの外部記憶装置である。記憶装置２は、少なくとも対訳文を再生成する際に、対訳文生成装置１に接続される。また、記憶装置２は、対訳文ＤＢ（データベース）記憶部２１を備えている。

対訳文ＤＢ記憶部２１（対訳文記憶部の一例）は、言語の異なる２つの文を対応付けて対訳文として記憶する。ここで、対訳文における異なる２つの言語とは、第１の言語と、当該第１の言語とは異なる第２の言語であり、例えば、英語と日本語とである。なお、以下の本実施形態の説明において、第１の言語を英語、第２の言語を日本語として説明する。対訳文ＤＢ記憶部２１は、例えば、英語文（第１の言語の文）と、日本語文（第２の言語の文）とを対応付けた対訳文を複数有する対訳文の集合を対訳文ＤＢ（対訳コーパス）として記憶している。
なお、本実施形態による対訳文ＤＢ（対訳コーパス）は、ある特定の用途（例えば、科学分野など）の翻訳するためのものとする。ここで、図２を参照して、対訳文ＤＢ記憶部２１に日本語と英語との対訳文が記憶されている場合を例として、対訳文ＤＢのデータ構成について説明する。

図２は、本実施形態における対訳文ＤＢのデータ構成の一例を示す図である。
この図において、対訳文ＤＢ記憶部２１は、「対訳文ＩＤ」、「英語文」、及び「日本語文」を関連付けて記憶する。ここで、「対訳文ＩＤ」は、対訳文を識別する識別情報を示し、「英語文」及び「日本語文」は、英語と日本語との対応する文を示している。対訳文ＤＢ記憶部２１は、このような「対訳文ＩＤ」、「英語文」、及び「日本語文」を複数有している。

例えば、図２に示す例では、「対訳文ＩＤ」が“１”である対訳文は、「英語文」が“Scientists discovered the old knife in a cave.”であり、この「英語文」に対応する「日本語文」が、“科学者たちは大昔のナイフを洞窟の中で発見した。”であることを示している。

図１に戻り、記憶部１０は、対訳文生成装置１が実行する各種処理に利用される情報を記憶する。また、記憶部１０は、例えば、英語文解析結果記憶部１１と、日本語文解析結果記憶部１２と、英語句抽出ルール記憶部１３と、日本語句抽出ルール記憶部１４と、英語句抽出結果記憶部１５と、日本語句抽出結果記憶部１６とを備えている。

英語文解析結果記憶部１１は、後述する係り受け解析部３２の英語文解析部３２１による英語文の係り受け解析結果を記憶する。英語文解析結果記憶部１１は、英語文の係り受け解析結果と、ルール適用フラグとを関連付けて記憶する。なお、英語文解析結果記憶部１１が記憶する係り受け解析結果及びルール適用フラグの詳細については後述する。

日本語文解析結果記憶部１２は、後述する係り受け解析部３２の日本語文解析部３２２による日本語文の係り受け解析結果を記憶する。日本語文解析結果記憶部１２は、日本語文の係り受け解析結果と、ルール適用フラグとを関連付けて記憶する。なお、日本語文解析結果記憶部１２が記憶する係り受け解析結果及びルール適用フラグの詳細については後述する。

英語句抽出ルール記憶部１３は、後述する対訳文生成部３３の英語句抽出部３３１による英語文の単語（句）を抽出する抽出ルールを記憶する。なお、英語句抽出ルール記憶部１３が記憶する抽出ルールの詳細については後述する。

日本語句抽出ルール記憶部１４は、後述する対訳文生成部３３の日本語句抽出部３３２による日本語文の句を抽出する抽出ルールを記憶する。なお、日本語句抽出ルール記憶部１４が記憶する抽出ルールの詳細については後述する。

英語句抽出結果記憶部１５は、後述する英語句抽出部３３１による英語句（英語の単語）の抽出結果を記憶する。英語句抽出結果記憶部１５は、なお、英語句抽出結果記憶部１５が記憶する抽出結果の詳細については後述する。

日本語句抽出結果記憶部１６は、後述する日本語句抽出部３３２による日本語句の抽出結果を記憶する。日本語句抽出結果記憶部１６は、なお、日本語句抽出結果記憶部１６が記憶する抽出結果の詳細については後述する。

制御部３０は、例えば、ＣＰＵ（Central Processing Unit）などを含むプロセッサであり、対訳文生成装置１を統括的に制御する。制御部３０は、対訳文取得部３１と、係り受け解析部３２と、対訳文生成部３３とを備えている。

対訳文取得部３１（取得部の一例）は、英語文と、日本語文とを対応付けた対訳文を記憶する対訳文ＤＢ記憶部２１から対訳文を取得する。すなわち、対訳文取得部３１は、言語の異なる文を対応付けた対訳文を記憶する対訳文ＤＢ記憶部２１から対訳文を取得する。対訳文取得部３１は、取得した対訳文を係り受け解析部３２に出力する。

係り受け解析部３２は、対訳文取得部３１が取得した英語文と、日本語文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する。ここで、文において意味を持つ所定の単位とは、英語において、「単語」に対応し、日本語に「おいて、「句」に対応する。係り受け解析部３２は、英語文解析部３２１と、日本語文解析部３２２とを備えている。

英語文解析部３２１は、対訳文取得部３１が取得した対訳文のうちの英語文の係り受け解析を行う。英語文解析部３２１は、例えば、Enjuなどの英語の構文解析器であり、英語文を単語単位に分割して、各単語間の係り受けの関係を解析する。英語文解析部３２１は、図３に示すように、「単語番号」と、「単語」と、「係り先」と、「係りタイプ」とを関連付けた解析結果を出力する。英語文解析部３２１は、解析結果を英語文解析結果記憶部１１に記憶させる。

図３は、本実施形態における英語文の係り受け解析結果の一例を示す図である。
この図に示す例は、英語文解析部３２１が、英語文“Scientists discovered the old knife in a cave.”を係り受け解析した結果を示している。
図３に示すように、係り受け解析結果は、「単語番号」と、「単語」と、「係り先」と、「係りタイプ」とを関連付けられている。ここで、「単語番号」は、英語文の先頭から単語に付与した番号（例えば、“０”から順に付与した番号）を示し、「単語」は、単語と判定された文字列を示している。また、「係り先」は、当該単語の係り先の「単語番号」を示す、「係りタイプ」は、“主語”、“目的語”などの係りタイプを示している。なお、「係り先」が“Ｎｕｌｌ”となっている単語は、係り先がなく、「係りタイプ」が“ＲＯＯＴ”と記載される。この「係り先」が“Ｎｕｌｌ”となり、「係りタイプ」が“ＲＯＯＴ”である単語は、“動詞”を示している。

例えば、図３に示す例では、「単語番号」が“０”、「係り先」が“１”、「係りタイプ」が“主語”である「単語」“Scientists”は、係り先を“discovered”とする主語であることを示している。また、「単語番号」が“１”である「単語」“discovered”は、“動詞”であることを示している。

再び、図１に戻り、日本語文解析部３２２は、対訳文取得部３１が取得した対訳文のうちの日本語文の係り受け解析を行う。日本語文解析部３２２は、例えば、CaboCha／南瓜などの日本語の係り受け解析器であり、日本語文を句単位に分割して、各句間の係り受けの関係を解析する。英語文解析部３２１は、図４に示すように、句番号と、句の内容と、係り先と、品詞とを関連付けた解析結果を出力する。日本語文解析部３２２は、解析結果を日本語文解析結果記憶部１２に記憶させる。

図４は、本実施形態における日本語文の係り受け解析結果の一例を示す図である。
この図に示す例は、日本語文解析部３２２が、日本語文“科学者たちは大昔のナイフを洞窟の中で発見した。”を係り受け解析した結果を示している。
図４に示すように、係り受け解析結果は、「句番号」と、「係り先句番号」と、句を構成する「単語」と、各単語に対応する「品詞」とを関連付けられている。ここで、“＊”文字の後の数字が「句番号」を示し、次の数字が「係り先句番号」を示している。「句番号」は、日本語文の先頭から句ごとに付与した番号（例えば、“０”から順に付与した番号）を示し、「係り先句番号」は、係り先の「句番号」を示している。なお、「係り先句番号」が“Ｎｕｌｌ”とる句は、係り先がないことを示している。

例えば、図４に示す例では、「句番号」が“０”、「係り先句番号」が“５”の句である“科学者たちは”は、「句番号」が“５”の句である“発見した。”が係り先となっていることを示している。

対訳文生成部３３は、係り受け解析部３２によって解析された係り受けの関係に基づいて、英語文と、日本語文との少なくとも所定の単位を含む構成単位を対応付けて、新たな対訳文を生成する。ここで、少なくとも所定の単位を含む構成単位とは、所定の単位である単語又は句そのものであってもよいし、単語又は句を複数組み合わせた構成（例えば、主語（主部）と動詞（述部）との組、目的語と動詞との組など）であってもよい。対訳文生成部３３は、生成した新たな対訳文を対訳文ＤＢ記憶部２１の対訳文ＤＢに追加する。
また、対訳文生成部３３は、英語句抽出部３３１と、日本語句抽出部３３２と、対訳出力部３３３とを備えている。

英語句抽出部３３１は、英語文解析部３２１による英語文の係り受けの解析結果と、英語句抽出ルール記憶部１３が記憶する抽出ルールとに基づいて、抽出ルールに対応する単語（句）を抽出する。例えば、英語句抽出部３３１は、英語文解析結果記憶部１１が記憶する解析結果と、英語句抽出ルール記憶部１３が記憶する抽出ルールとに基づいて、新たな対訳文の英語の部分（例えば、主語と動詞との組のような構成）を抽出する。英語句抽出部３３１は、抽出結果を英語句抽出結果記憶部１５に記憶させるとともに、英語文解析結果記憶部１１に抽出された単語に対応するルール適用フラグに“１”を記憶させる。

ここで、図５を参照して、英語句抽出ルール記憶部１３が記憶する抽出ルールについて説明する。
図５は、本実施形態における英語句抽出ルール記憶部１３のデータ例を示す図である。
この図に示すように、英語句抽出ルール記憶部１３は、「ルール番号」と、「ルール内連番」と、「抽出条件」と、「絞り込み条件」とを関連付けて記憶する。ここで、「ルール番号」は、抽出ルールを特定する情報（番号）を示し、「ルール内連番」は、同一の抽出ルールの中で複数の単語を順次抽出する処理を行う場合の処理の順序を示す情報（番号）である。また、「抽出条件」は、係り受け解析結果から単語を抽出する条件を示しており、「絞り込み条件」は、「抽出条件」により複数の単語が抽出された場合にさらに絞り込む条件を示している。なお、英語句抽出ルール記憶部１３と日本語句抽出ルール記憶部１４とは、ルール番号が同じルールをそれぞれ適用して所定の単位構成となり単語や句の組み合わせを抽出した際に、抽出された文字列同士が対訳となるように設定されている。

図５に示す例では、「ルール番号」が“１”の抽出ルール（以下、「ルール１」という）は、主語と動詞との組を抽出するルールである。この例では、「ルール内連番」の“（１）”において動詞を抽出し、「抽出条件」が“係り先＝Ｎｕｌｌ”であることを示している。また、「ルール内連番」の“（２）”において主語を抽出し、「抽出条件」が“係り先＝（１）の該当番号＆係りタイプ＝主語”であることを示している。なお、「ルール１」では、主語や動詞が所定の単位であり、「主語、動詞を組み合わせた構成」が所定の単位構成となっている。

また、「ルール番号」が“２”の抽出ルール（以下、「ルール２」という）は、動詞と目的語との組（所定の単位構成）を抽出するルールである。この例では、「ルール内連番」の“（１）”において動詞を抽出し、「抽出条件」が“係り先＝Ｎｕｌｌ”であることを示している。また、「ルール内連番」の“（２）”において目的語を抽出し、「抽出条件」が“係り先＝（１）の該当番号＆係りタイプ＝目的語”であることを示している。
また、「ルール番号」が“３”の抽出ルール（以下、「ルール３」という）は、単に動詞を抽出するルールである。この例では、「ルール内連番」の“（１）”において動詞を抽出し、「抽出条件」が“係り先＝Ｎｕｌｌ”であることを示している。

このように、英語句抽出部３３１は、英語文の係り受けの解析結果と、図５に示すような抽出ルールとに基づいて、新たな対訳文の英語の部分を抽出する。また、英語句抽出部３３１は、抽出結果を、図６に示すように、英語句抽出結果記憶部１５に記憶させるとともに、図７に示すように、英語文解析結果記憶部１１のルール適用フラグを変更する。

図６は、本実施形態における英語句抽出結果の一例を示す図である。
図６に示すように、英語句抽出結果記憶部１５は、例えば、「ルール番号」と、「ルール内連番」と、「該当単語番号」とを関連付けて英語句抽出結果として記憶する。ここで、「ルール番号」及び「ルール内連番」は、英語句抽出ルール記憶部１３と同様であり、「該当単語番号」は、抽出ルールにより抽出された該当単語の単語番号を示している。

例えば、図６に示す例では、「ルール番号」が“１”で、「ルール内連番」が“（１）”である抽出結果は、「該当単語番号」が“１”であり、図３に示す係り受け解析結果における「単語」“discovered”であることを示している。
また、「ルール番号」が“１”で、「ルール内連番」が“（２）”である抽出結果は、「該当単語番号」が“０”であり、図３に示す係り受け解析結果における「単語」“Scientists”であることを示している。

また、図７は、本実施形態における英語文解析結果記憶部１１のデータ例を示す図である。
図７に示すように、英語文解析結果記憶部１１は、「係り受け解析結果」と「ルール適用フラグ」とを関連付けて記憶する。ここで、「係り受け解析結果」には、例えば、「単語番号」と、「単語」と、「係り先」と、「係りタイプ」とが含まれている。また、「ルール適用フラグ」には、各抽出ルールにおいて適用（抽出）されたか否かを示す適用フラグが含まれている。なお、適用フラグは、“１”である場合に、適用（抽出）されたことを示し、“０”である場合に、適用（抽出）されていないことを示している。

例えば、図７に示す例では、「単語番号」が“０”である「単語」“Scientists”は、上述した「ルール１」において適用（抽出）されたことを示す“１”が記憶されている。
このように、英語句抽出部３３１は、抽出結果に基づいて、英語文解析結果記憶部１１のルール適用フラグを変更する。

再び、図１に戻り、日本語句抽出部３３２は、日本語文解析部３２２による日本語文の係り受けの解析結果と、日本語句抽出ルール記憶部１４が記憶する抽出ルールとに基づいて、抽出ルールに対応する句を抽出する。例えば、日本語句抽出部３３２は、日本語文解析結果記憶部１２が記憶する解析結果と、日本語句抽出ルール記憶部１４が記憶する抽出ルールとに基づいて、新たな対訳文の日本語の部分（例えば、主語と動詞との組のような構成）を抽出する。日本語句抽出部３３２は、抽出結果を日本語句抽出結果記憶部１６に記憶させるとともに、日本語文解析結果記憶部１２に抽出された句に対応するルール適用フラグに“１”を記憶させる。

ここで、図８を参照して、日本語句抽出ルール記憶部１４が記憶する抽出ルールについて説明する。
図８は、本実施形態における日本語句抽出ルール記憶部１４のデータ例を示す図である。
この図に示すように、日本語句抽出ルール記憶部１４は、「ルール番号」と、「ルール内連番」と、「抽出条件」と、「絞り込み条件」とを関連付けて記憶する。ここで、「ルール番号」は、抽出ルールの番号を示し、「ルール内連番」は、同一の抽出ルールの中で複数の句を抽出する場合の番号を示している。また、「抽出条件」は、係り受け解析結果から句を抽出する条件を示しており、「絞り込み条件」は、「抽出条件」により複数の句が抽出された場合にさらに絞り込む条件を示している。

図８に示す例では、「ルール番号」が“１”の抽出ルール（「ルール１」）は、主語と動詞との組を抽出するルールである。この例では、「ルール内連番」の“（１）”において動詞を抽出し、「抽出条件」が“係り先句番号＝Ｎｕｌｌ”であることを示している。また、「ルール内連番」の“（２）”において主語を抽出し、「抽出条件」が“係り先句番号＝（１）の該当番号”であり、「絞り込み条件」が“品詞＝（は：係助詞ｏｒが：格助詞）”であることを示している。

また、「ルール番号」が“２”の抽出ルール（「ルール２」）は、動詞と目的語との組を抽出するルールである。この例では、「ルール内連番」の“（１）”において動詞を抽出し、「抽出条件」が“係り先句番号＝Ｎｕｌｌ”であることを示している。また、「ルール内連番」の“（２）”において目的語を抽出し、「抽出条件」が“係り先＝（１）の該当番号”であり、「絞り込み条件」が“品詞＝を：格助詞”であることを示している。
また、「ルール番号」が“３”の抽出ルール（「ルール３」）は、単に動詞を抽出するルールである。この例では、「ルール内連番」の“（１）”において動詞を抽出し、「抽出条件」が“係り先句番号＝Ｎｕｌｌ”であることを示している。

このように、日本語句抽出部３３２は、日本語文の係り受けの解析結果と、図８に示すような抽出ルールとに基づいて、新たな対訳文の日本語の部分を抽出する。また、日本語句抽出部３３２は、抽出結果を、図９に示すように、日本語句抽出結果記憶部１６に記憶させるとともに、図１０に示すように、日本語文解析結果記憶部１２のルール適用フラグを変更する。

図９は、本実施形態における日本語句抽出結果の一例を示す図である。
図９に示すように、日本語句抽出結果記憶部１６は、例えば、「ルール番号」と、「ルール内連番」と、「該当句番号」とを関連付けて日本語句抽出結果として記憶する。ここで、「ルール番号」及び「ルール内連番」は、日本語句抽出ルール記憶部１４と同様であり、「該当句番号」は、抽出ルールにより抽出された該当句の句番号を示している。

例えば、図９に示す例では、「ルール番号」が“１”で、「ルール内連番」が“（１）”である抽出結果は、「該当句番号」が“５”であり、図４に示す係り受け解析結果における句である“発見した。”であることを示している。
また、「ルール番号」が“１”で、「ルール内連番」が“（２）”である抽出結果は、「該当句番号」が“０”、“２”もしくは“４”となるが、「絞り込み条件」の品詞＝（は：係助詞ｏｒが：格助詞）に該当するのは“０”のみであり、図４に示す係り受け解析結果における句である“科学者たちは”であることを示している。

なお、「ルール１」での「ルール内連番」が“（２）”に該当する句番号、つまり、「ルール１」で抽出した句番号“５”の“発見した”に係っている句（つまり、図１０の日本語文解析結果記憶部１２の係り先句番号が“５”となっている句）は、句番号“０”の“科学者たちは”と句番号“２”の“ナイフを”と、句番号“４”の“中で”の３つとなる。
また、日本語句抽出部３３２は、抽出された句番号が２つ以上なので、絞り込み条件を適用する。（日本語句抽出部３３２は、抽出された句番号が１つのみの場合、絞り込み条件は適用しない。）絞り込み条件では、日本語句抽出部３３２は、句番号の中に含まれる単語（もしくは、単語の群）の中に、絞り込み条件で指定された品詞の単語が存在するか否かを判定する。「ルール１」の絞り込み条件は、品詞が係助詞で“は”という単語か、品詞が格助詞で“が”という単語を含む句を絞り込み結果として抽出する条件である。

ここで、句番号“０”を構成する単語は“科学：一般名詞”、“者：接尾名詞”、“たち：接尾名詞”、及び“は：係助詞”となっており、絞り込み条件の“は：係助詞”が含まれる。
一方、句番号“２”を構成する単語は“ナイフ：一般名詞”と“を：格助詞”であり、句番号“４”を構成する単語は“中：非自立の名詞”と“で：格助詞”であるため、いずれも絞り込み条件に該当しない。
このため、日本語句抽出部３３２は、絞り込み条件により、「ルール１」の「ルール内連番」が“（２）”に該当する句番号を“０”の１つに絞り込む。なお、絞り込み条件により句番号を１つに絞り込むことができない場合は、日本語句抽出部３３２は、そのルール番号で抽出される結果がないと判定する。（「ルール１」の「ルール内連番」が“（１）”に該当する句番号が１つであっても、「ルール内連番」が“（２）”での絞り込み結果の句番号の数が２以上の場合、日本語句抽出部３３２は、「ルール１」で抽出される句はないと判定する。）

また、図１０は、本実施形態における日本語文解析結果記憶部１２のデータ例を示す図である。
図１０に示すように、日本語文解析結果記憶部１２は、「係り受け解析結果」と「ルール適用フラグ」とを関連付けて記憶する。ここで、「係り受け解析結果」には、例えば、「句番号」と、「係り先句番号」と、「単語」と、「品詞」とが含まれている。また、「ルール適用フラグ」には、各抽出ルールにおいて適用（抽出）されたか否かを示す適用フラグが含まれている。なお、適用フラグは、“１”である場合に、適用（抽出）されたことを示し、空欄である場合に、適用（抽出）されていないことを示している。

例えば、図１０に示す例では、「句番号」が“０”である“科学者たちは”は、上述した「ルール１」において適用（抽出）されたことを示す“１”が記憶されている。
このように、日本語句抽出部３３２は、抽出結果に基づいて、日本語文解析結果記憶部１２のルール適用フラグを変更する。

再び、図１に戻り、対訳出力部３３３は、英語句抽出部３３１及び日本語句抽出部３３２による抽出結果に基づいて、少なくとも単語（句）を含む構成単位を対応付けて、新たな対訳文を生成する。対訳出力部３３３は、例えば、英語文解析結果記憶部１１及び日本語文解析結果記憶部１２が記憶する「ルール適用フラグ」に基づいて、各抽出ルールに合致する英語と日本語を対応付けて、新たな対訳文を生成する。具体的に、対訳出力部３３３は、各抽出ルールにおいて適用フラグが“１”となる英語と日本語とを対応付けて、新たな対訳文を生成する。なお、英語と日本語とを対応付けるとは、具体的には、英語文解析結果記憶部で適用フラグが“１”となっている単語を、入力された文での出現順序と同じ順序に並べて生成される句や文と、日本語文解析結果記憶部で適用フラグが“１”となっている句を、入力された文での出現順序と同じ順序に並べて生成される句や文とを対応付けて対訳文（対訳の句）とすることを指す。また、対訳出力部３３３は、各抽出ルールに適合する英語と日本語との対応が取れない場合には、新たな対訳文を生成しない。なお、対応が取れないとは、例えば、英語文では「ルール１」の適用フラグが“１”となっている単語や句があるが、日本語では「ルール１」の適用フラグが適用された単語や句がない場合である。
対訳出力部３３３は、生成した新たな対訳文を、対訳文ＤＢ記憶部２１の対訳文ＤＢに追加する。

図１１は、本実施形態における対訳文の生成結果の一例を示す図である。
図１１に示す例は、上述した“Scientists discovered the old knife in a cave.”と“科学者たちは大昔のナイフを洞窟の中で発見した。”との対訳文から、対訳文生成部３３が、生成した対訳文の例を示している。
例えば、対訳文生成部３３は、「ルール１」により、対訳文“scientists discovered − 科学者たちは発見した。”を生成する。また、対訳文生成部３３は、「ルール２」により、対訳文“discovered knife − ナイフを発見した。”を生成する。

ここで、英語句抽出ルール記憶部１３と日本語句抽出ルール記憶部１４とに記憶されている「ルール１」は、いずれも上述したように、主語と動詞との組であり、「ルール２」は、上述したように、動詞と目的語との組である。このように、上述した対訳文の構成単位には、係り元の所定の単位（例えば、主語の単語（又は主語の句））と、係り先の所定の単位（例えば、動詞の単語（又は動詞の句））との組構成が含まれる。そして、対訳文生成部３３は、英語文と、日本語文とにおいて、この係り受けの関係が等しい組構成（から成る文）を対応付けて、新たな対訳文を生成する。

また、この組構成には、上述したように主語と動詞との組が含まれる（「ルール１」）。対訳文生成部３３は、英語文と、日本語文とにおいて、主語と動詞との組を対応付けて、新たな対訳文を生成する。
また、この組構成には、上述したように動詞と目的語との組が含まれる（「ルール２」）。対訳文生成部３３は、英語文と、日本語文とにおいて、動詞と目的語との組を対応付けて、新たな対訳文を生成する。

次に、図面を参照して、本実施形態による対訳文生成装置１の動作について説明する。
図１２は、本実施形態における対訳文生成装置１の動作の一例を示すフローチャートである。
図１２に示すように、対訳文生成装置１は、まず、対訳文を取得する（ステップＳ１０１）。すなわち、対訳文生成装置１の対訳文取得部３１は、記憶装置２の対訳文ＤＢ記憶部２１が記憶する対訳文を取得する。

次に、対訳文生成装置１の係り受け解析部３２は、英語文及び日本語文のそれぞれの係り受けを解析する（ステップＳ１０２）。例えば、係り受け解析部３２の英語文解析部３２１は、取得した対訳文の英語文の係り受け解析を実行し、解析結果を英語文解析結果記憶部１１に記憶させる。また、係り受け解析部３２の日本語文解析部３２２は、取得した対訳文の日本語文の係り受け解析を実行し、解析結果を日本語文解析結果記憶部１２に記憶させる。

次に、対訳文生成装置１の対訳文生成部３３は、抽出ルールに基づいて、対応句を抽出する（ステップＳ１０３）。対訳文生成部３３の英語句抽出部３３１は、英語文解析結果記憶部１１が記憶する係り受け解析結果と、英語句抽出ルール記憶部１３が記憶する抽出ルールとに基づいて、各ルールに対応した英語の単語（句）を抽出する。英語句抽出部３３１は、抽出結果を英語句抽出結果記憶部１５に記憶させるとともに、抽出結果に基づいて、英語文解析結果記憶部１１の「ルール適用フラグ」を変更する。
また、対訳文生成部３３の日本語句抽出部３３２は、日本語文解析結果記憶部１２が記憶する係り受け解析結果と、日本語句抽出ルール記憶部１４が記憶する抽出ルールとに基づいて、各ルールに対応した日本語の句を抽出する。日本語句抽出部３３２は、抽出結果を日本語句抽出結果記憶部１６に記憶させるとともに、抽出結果に基づいて、日本語文解析結果記憶部１２の「ルール適用フラグ」を変更する。

次に、対訳文生成装置１の対訳文生成部３３は、新たな対訳文を生成して、対訳コーパスに追加する（ステップＳ１０４）。すなわち、対訳文生成部３３の対訳出力部３３３は、例えば、英語句抽出結果記憶部１５及び日本語句抽出結果記憶部１６が記憶する抽出結果と、英語文解析結果記憶部１１及び日本語文解析結果記憶部１２が記憶する「ルール適用フラグ」とに基づいて、各抽出ルールに合致する英語と日本語を対応付けて、新たな対訳文を生成する。そして、対訳出力部３３３は、生成した対訳文を、上述した対訳文ＤＢ記憶部２１の対訳文ＤＢ（対訳コーパス）に追加する。ステップＳ１０４の処理後に、対訳文生成装置１は、対訳文の生成処理を終了する。

例えば、上述のステップＳ１０３の処理の結果、英語文解析結果記憶部１１が図７に示す状態であり、日本語文解析結果記憶部１２が図１０に示す状態であるとする。この場合、英語文解析結果記憶部１１において、「ルール１」が適用された「単語」は、“scientists”及び“discovered”である（図７参照）。また、日本語文解析結果記憶部１２において、「ルール１」が適用された句は、“科学者たちは”及び“発見した。”である（図１０参照）。そのため、対訳出力部３３３は、“scientists”及び“discovered”と、“科学者たちは”及び“発見した。”とを対応付けて、新たな対訳文（“scientists discovered − 科学者たちは発見した。”）を生成する。対訳出力部３３３は、「ルール２」以降についても同様に、新たな対訳文を生成し、生成した新たな対訳文を対訳文ＤＢ記憶部２１の対訳文ＤＢ（対訳コーパス）に追加する。
このように、対訳文生成装置１は、英語文と日本語文とをそれぞれ係り受け解析し、両方から同様の係り受けが抽出できた場合に、抽出した両者を対応付けて新たな対訳文を生成する。

なお、上述した対訳文生成装置１における対訳文の生成処理の手順は、１つの対訳文に対して、新たに対訳文を生成する処理であり、対訳文生成装置１は、対訳文ＤＢ（対訳コーパス）の「対訳文ＩＤ」を順番に変更して、対訳文ＤＢ記憶部２１が記憶する全対訳文に対して、同様の処理を実行する。

次に、図１３を参照して、上述した図１２のステップＳ１０３の処理（句抽出処理）の詳細について説明する。
図１３は、本実施形態における句抽出処理の一例を示すフローチャートである。
なお、図１３において、日本語句抽出部３３２による日本語文の句抽出処理について説明するが、基本的には、英語句抽出部３３１による英語文の句抽出処理も同様である。

図１３に示すように、日本語句抽出部３３２は、まず、ルール番号を示す変数Ｎを“１”（ルール番号Ｎ＝１）にするとともに、ルール内連番を示す変数ｉを“１”（ルール内連番ｉ＝１）にする（ステップＳ２０１）。

次に、日本語句抽出部３３２は、ルール番号Ｎ、ルール内連番ｉの抽出条件に基づいて、抽出ルールに適合する句を抽出する（ステップＳ２０２）。日本語句抽出部３３２は、例えば、日本語句抽出ルール記憶部１４が記憶する抽出ルールのうちの、ルール番号Ｎ、ルール内連番ｉに対応する抽出条件に基づいて、抽出ルールに適合する句（句の候補）を抽出する。

次に、日本語句抽出部３３２は、抽出した候補が１つ以上であるか否かを判定する（ステップＳ２０３）。日本語句抽出部３３２は、抽出した候補が１つ以上である場合（ステップＳ２０３：ＹＥＳ）に、処理をステップＳ２０４に進める。また、日本語句抽出部３３２は、候補が１つも抽出できなかった場合（ステップＳ２０３：ＮＯ）に、処理をステップＳ２１１に進める。

ステップＳ２０４において、日本語句抽出部３３２は、絞り込み条件があるか否かを判定する。すなわち、日本語句抽出部３３２は、ルール番号Ｎ、ルール内連番ｉの抽出ルールにおいて、「絞り込み条件」があるか否かを判定する。日本語句抽出部３３２は、絞り込み条件がある場合（ステップＳ２０４：ＹＥＳ）に、処理をステップＳ２０５に進める。また、日本語句抽出部３３２は、絞り込み条件がない場合（ステップＳ２０４：ＮＯ）に、処理をステップＳ２０６に進める。

ステップＳ２０５において、日本語句抽出部３３２は、ルール内連番ｉの絞り込み条件を適用する。日本語句抽出部３３２は、例えば、絞り込み条件により、抽出した候補をさらに絞り込む。
ステップＳ２０６において、日本語句抽出部３３２は、抽出した候補が１つであるか否かを判定する。日本語句抽出部３３２は、抽出した候補が１つである場合（ステップＳ２０６：ＹＥＳ）に、処理をステップＳ２０７に進める。また、日本語句抽出部３３２は、候補が１つでない場合（ステップＳ２０６：ＮＯ）に、処理をステップＳ２１１に進める。

ステップＳ２０７において、日本語句抽出部３３２は、抽出した該当番号（該当句番号）を日本語句抽出結果記憶部１６に記憶させる。すなわち、日本語句抽出部３３２は、図９に示すように、抽出した候補の句番号を日本語句抽出結果記憶部１６の「該当句番号」に記憶させる。

次に、日本語句抽出部３３２は、各抽出ルールに合致した候補の適用フラグに“１”を記憶させる（ステップＳ２０８）。すなわち、日本語句抽出部３３２は、日本語文解析結果記憶部１２の「ルール適用フラグ」のうちの各抽出ルールに合致した句に対応する適用フラグに“１”を記憶させる。

次に、日本語句抽出部３３２は、次のルール内連番があるか否かを判定する（ステップＳ２０９）。日本語句抽出部３３２は、例えば、日本語句抽出ルール記憶部１４が記憶するルール番号Ｎの抽出ルールに次のルール内連番（ｉ＋１）があるか否かを判定する。日本語句抽出部３３２は、次のルール内連番がある場合（ステップＳ２０９：ＹＥＳ）に、処理をステップＳ２１０に進める。また、日本語句抽出部３３２は、次のルール内連番がない場合（ステップＳ２０９：ＮＯ）に、処理をステップＳ２１１に進める。

ステップＳ２１０において、日本語句抽出部３３２は、ルール内連番ｉに“１”を加算する更新をして（ｉ＝ｉ＋１）、処理をステップＳ２０２に戻す。
また、ステップＳ２１１において、日本語句抽出部３３２は、次のルール番号があるか否かを判定する。日本語句抽出部３３２は、例えば、日本語句抽出ルール記憶部１４が記憶する次のルール番号（Ｎ＋１）があるか否かを判定する。日本語句抽出部３３２は、次のルール番号がある場合（ステップＳ２１１：ＹＥＳ）に、処理をステップＳ２１２に進める。また、日本語句抽出部３３２は、次のルール番号がない場合（ステップＳ２１１：ＮＯ）に、処理を終了する。

ステップＳ２１２において、日本語句抽出部３３２は、ルール番号Ｎに“１”を加算するとともに、ルール内連番ｉを“１”に初期化して（Ｎ＝Ｎ＋１、ｉ＝１）、処理をステップＳ２０２に戻す。
このように、日本語句抽出部３３２は、日本語文解析結果記憶部１２が記憶する係り受け解析結果に対して、日本語句抽出ルール記憶部１４が記憶する抽出ルールを順番に適用し、抽出ルールに合致する句を抽出する。そして、日本語句抽出部３３２は、当該抽出結果に応じて、日本語句抽出結果記憶部１６に抽出結果を記憶させるとともに、日本語文解析結果記憶部１２が記憶する「ルール適用フラグ」を変更する。

なお、上述したフローチャートは、日本語句抽出部３３２による処理を説明したが、英語句抽出部３３１による処理も同様に実行される。

以上説明したように、本実施形態による対訳文生成装置１は、対訳文取得部３１（取得部の一例）と、係り受け解析部３２と、対訳文生成部３３とを備えている。対訳文取得部３１は、英語文（第１の言語の文）と、英語（第１の言語）とは異なる日本語文（第２の言語の文）とを対応付けた対訳文を記憶する対訳文ＤＢ記憶部２１（対訳文記憶部の一例）から対訳文を取得する。係り受け解析部３２は、対訳文取得部３１が取得した英語文（第１の言語の文）と、日本語文（第２の言語の文）とのそれぞれに対して、文において意味を持つ所定の単位（例えば、単語、句など）における係り受けの関係を解析する。すなわち、係り受け解析部３２は、取得された、第１の言語の文と、第１の言語とは異なる第２の言語の文とが対応付けられた対訳文の、第１の言語の文と、第２の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する。対訳文生成部３３は、係り受け解析部３２によって解析された係り受けの関係に基づいて、英語文（第１の言語の文）の少なくとも前記所定の単位を含む構成単位（例えば、単語単位、句単位、主語と動詞との組である構成単位など）と、日本語文（第２の言語の文）の少なくとも所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する。

これにより、本実施形態による対訳文生成装置１は、例えば、品質の高い既存の対訳文に基づいて、品質の高い新たな対訳文を生成することができる。すなわち、本実施形態による対訳文生成装置１は、現有する限られた対訳文を効果的に活用することにより、新たに対訳文を収集することなく、品質の高い対訳文の数を増やすことができ、品質の高い対訳コーパスを得ることができる。よって、本実施形態による対訳文生成装置１は、例えば、統計的機械翻訳において、翻訳の品質を向上させることができる。
また、本実施形態による対訳文生成装置１は、既存の対訳文に基づいて新たな対訳文を生成するため、品質の高い対訳文を収集するためのコストや時間を低減することができる。また、コストや時間を掛けずに品質の高い対訳コーパスが得られるため、本実施形態による対訳文生成装置１は、統計的機械翻訳の適用範囲の拡大に繋がる効果を期待できる。

また、本実施形態では、上述した構成単位には、係り元の所定の単位（例えば、係り元の単語（主語）など）と、係り先の所定の単位（例えば、係り先の単語（動詞）など）との組構成（例えば、主語と動詞との組構成など）が含まれる。対訳文生成部３３は、英語文（第１の言語の文）と、日本語文（第２の言語の文）とにおいて、係り受けの関係が等しい組構成から成る文を対応付けて、新たな対訳文を生成する。
これにより、本実施形態による対訳文生成装置１は、組合せにより品質の高い対訳文のより多く生成することができる。

また、本実施形態では、上述した組構成には、主語（主部）と動詞（述部）との組が含まれる。対訳文生成部３３は、英語文（第１の言語の文）と、日本語文（第２の言語の文）とにおいて、主語と動詞との組（主語と動詞とから成る文）を対応付けて、新たな対訳文を生成する。
これにより、本実施形態による対訳文生成装置１は、簡易な手法により、品質の高い対訳文のより多く生成することができる。

また、本実施形態における対訳文生成装置１は、上述した少なくとも所定の単位を含む構成単位を抽出する抽出ルールを記憶する抽出ルール記憶部（例えば、英語句抽出ルール記憶部１３及び日本語句抽出結果記憶部１６）を備える。対訳文生成部３３は、係り受け解析部３２によって解析された係り受けの関係と、抽出ルール記憶部（例えば、英語句抽出ルール記憶部１３及び日本語句抽出結果記憶部１６）が記憶する抽出ルールとに基づいて、少なくとも所定の単位を含む構成単位を抽出する。そして、対訳文生成部３３は、抽出した少なくとも所定の単位を含む構成単位を対応付けて、新たな対訳文を生成する。

これにより、本実施形態における対訳文生成装置１は、抽出ルールにより適切に新たな対訳文を生成することができる。また、本実施形態における対訳文生成装置１は、抽出ルール記憶部（例えば、英語句抽出ルール記憶部１３及び日本語句抽出結果記憶部１６）は記憶する抽出ルールを、例えば、翻訳の用途、分野、目的に応じて、柔軟に変更することができる。よって、本実施形態における対訳文生成装置１は、例えば、翻訳の用途、分野、目的に応じて品質の高い対訳文を新たに生成することができる。

また、本実施形態による対訳文生成方法は、取得ステップと、解析ステップと、対訳文生成ステップとを含んでいる。取得ステップにおいて、対訳文取得部３１が、英語文（第１の言語の文）と、英語（第１の言語）とは異なる日本語文（第２の言語の文）とを対応付けた対訳文を記憶する対訳文ＤＢ記憶部２１から対訳文を取得する。解析ステップにおいて、係り受け解析部３２が、取得ステップにより取得した第１の言語の文と、第２の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する。すなわち、解析ステップにおいて、係り受け解析部３２が、取得された、第１の言語の文と、第１の言語とは異なる第２の言語の文とが対応付けられた対訳文の、第１の言語の文と、第２の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する。対訳文生成ステップにおいて、対訳文生成部３３が、係り受け解析ステップによって解析された係り受けの関係に基づいて、英語文（第１の言語の文）の少なくとも所定の単位を含む構成単位と、日本語文（第２の言語の文）の少なくとも所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する。

これにより、本実施形態による対訳文生成方法は、対訳文生成装置１と同様に、本実施形態による対訳文生成装置１は、例えば、品質の高い既存の対訳文に基づいて、品質の高い新たな対訳文を生成することができ、品質の高い対訳コーパスを得ることができる。よって、本実施形態による対訳文生成方法は、例えば、統計的機械翻訳において、翻訳の品質を向上させることができる。

本実施形態では、図７の英語文解析結果記憶部１１のルール適用フラグでは抽出ルールが適用されていない単語には“０”を記入しているが、抽出ルールが適用されないことを示す所定の情報を記入することとしたり、何も情報を記入しない（空欄）こととしたりしてもよい。同様に、図１０の日本語文解析結果記憶部１２のルール適用フラグでは抽出ルールが適用されていない句は空欄としているが、抽出ルールが適用されないことを示す所定の情報（例えば、“０”、“−”、“ＮＵＬＬ”等）を記入することとしてもよい。

なお、本実施形態の「ルール１」では「対訳文」を新たに生成する例を示したが、「ルール２」に示す様に対訳となる句（句の組み合わせ）や、対訳となる単語の組み合わせを新たに生成することとしてもよい。

［第２の実施形態］
次に、第２の実施形態として上述した対訳文生成装置１によって生成した対訳コーパスを利用した翻訳システム２００及び翻訳装置１００の一例について説明する。
図１４は、本実施形態による翻訳システム２００及び翻訳装置１００の一例を示す概略ブロック図である。
図１４に示すように、翻訳システム２００は、対訳文生成装置１と、翻訳装置１００とを備えている。また、翻訳装置１００は、対訳文ＤＢ記憶部２１と、学習モデル生成部１１０と、翻訳処理部１２０とを備えている。また、翻訳処理部１２０は、学習モデル１２１を有している。この図において、図１に示す第１の実施形態と同一の構成には、同一の符号を付与している。
なお、本実施形態では、翻訳装置１００が、対訳文ＤＢ記憶部２１及び学習モデル生成部１１０を含む場合の一例について説明する。

対訳文ＤＢ記憶部２１は、複数の対訳文を有する対訳文ＤＢを記憶する。ここで、対訳文ＤＢは、対訳文生成装置１が新たに対訳を作成するために用いる対訳文に加えて、対訳文生成装置１によって新たに生成された対訳文が追加された対訳コーパスである。すなわち、対訳文ＤＢ記憶部２１が記憶する対訳文ＤＢは、対訳文生成装置１が生成した新たな対訳文を含む対訳文の集合である対訳コーパスである。

学習モデル生成部１１０は、対訳文ＤＢ記憶部２１が記憶する対訳文ＤＢ（対訳コーパス）と、統計的機械翻訳の所定のアルゴリズムに基づいて、学習モデル１２１を生成する。学習モデル生成部１１０は、生成した学習モデル１２１を翻訳処理部１２０に供給（格納）する。

翻訳処理部１２０は、学習モデル生成部１１０によって生成された学習モデル１２１に基づいて、翻訳の対象文である入力された「元文」を対応する言語に翻訳し、「翻訳文」を出力する。翻訳処理部１２０は、例えば、日本語文が入力された場合に、日本語文の「元文」を、学習モデル１２１に基づいて英語文に翻訳し、英語文の「翻訳文」を出力する。また、翻訳処理部１２０は、例えば、英語文が入力された場合に、英語文の「元文」を、学習モデル１２１に基づいて日本語文に翻訳し、日本語文の「翻訳文」を出力する。
このように、翻訳処理部１２０は、対訳文生成装置１が生成した新たな対訳文を含む対訳コーパスに基づき生成された学習モデル１２１に基づいて、翻訳対象の文を翻訳する。

以上説明したように、本実施形態における翻訳装置１００は、対訳文ＤＢ記憶部２１と、学習モデル生成部１１０と、翻訳処理部１２０とを備えている。学習モデル生成部１１０は、対訳文ＤＢ記憶部２１が記憶する対訳文ＤＢ（対訳コーパス）と、統計的機械翻訳の所定のアルゴリズムに基づいて、学習モデル１２１を生成する。翻訳処理部１２０は、学習モデル生成部１１０によって生成された学習モデル１２１に基づいて、翻訳処理を実行する。すなわち、翻訳装置１００は、対訳文生成装置１が生成した新たな対訳文を含む対訳コーパスに基づき生成された学習モデル１２１に基づいて、翻訳対象の文を翻訳する。
これにより、本実施形態における翻訳装置１００は、対訳文生成装置１により統計的機械翻訳に適した品質の高い対訳文を多数得ることができるので、統計的機械翻訳の品質を向上させることができる。

なお、本発明は、上記の各実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で変更可能である。
例えば、上記の各実施形態では、日本語文と英語文との対訳文を生成するとともに、日本語文と英語文との翻訳を行う場合について説明したが、日本語及び英語以外の言語の翻訳に適用してもよい。対訳文生成装置１及び翻訳装置１００は、例えば、日本語及び英語の他に、フランス語、ドイツ語、中国語、韓国語などの自然言語のうちのいずれかの２つの言語に対して適用してもよい。

また、上述した係り受け解析部３２の解析結果は、図３及び図４に示す形式の出力に限定されるものではなく、他の形式の出力であってもよい。また、係り受け解析部３２は、上記に限定されるものではなく、他の構文解析器などを利用して、係り受け解析を実行するようにしてもよい。
また、上記の各実施形態において、文において意味を持つ所定の単位の一例として、英語文における単語単位、日本語文における句単位により処理する例を説明したが、これに限定されるものではない。例えば、文において意味を持つ所定の単位としては、句単位、節（文節）単位、又は熟語単位などであってもよい。

また、上記の各実施形態において、係り元と係り先との組構成の例として、主語と動詞との組構成と、動詞と目的語との組構成とを適用する場合について説明したが、これに限定されるものではなく、他の係り元と係り先との組構成に対して適用してもよい。

また、上記の第２の実施形態において、翻訳装置１００は、対訳文生成装置１を備えない場合の一例ついて説明したが、翻訳装置１００は、対訳文生成装置１を備える形態であってもよい。また、翻訳装置１００は、対訳文ＤＢ記憶部２１及び学習モデル生成部１１０を備える場合の一例について説明したが、これに限定されるものではなく、対訳文ＤＢ記憶部２１と、学習モデル生成部１１０との少なくとも一方を外部に備えるようにしてもよい。

なお、上述した対訳文生成装置１が備える各構成は、内部に、コンピュータシステムを有している。そして、上述した対訳文生成装置１が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した対訳文生成装置１が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、インターネットやＷＡＮ、ＬＡＮ、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、ＣＤ−ＲＯＭ等の非一過性の記録媒体であってもよい。

また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部又は外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に対訳文生成装置１が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

また、上述した機能の一部又は全部を、ＬＳＩ（Large Scale Integration）等の集積回路として実現してもよい。上述した各機能は個別にプロセッサ化してもよいし、一部、又は全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、又は汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

１対訳文生成装置
２記憶装置
１０記憶部
１１英語文解析結果記憶部
１２日本語文解析結果記憶部
１３英語句抽出ルール記憶部
１４日本語句抽出ルール記憶部
１５英語句抽出結果記憶部
１６日本語句抽出結果記憶部
２１対訳文ＤＢ記憶部
３０制御部
３１対訳文取得部
３２係り受け解析部
３３対訳文生成部
１００翻訳装置
１１０学習モデル生成部
１２０翻訳処理部
１２１学習モデル
２００翻訳システム
３２１英語文解析部
３２２日本語文解析部
３３１英語句抽出部
３３２日本語句抽出部
３３３対訳出力部

Claims

取得された、第１の言語の文と、前記第１の言語とは異なる第２の言語の文とが対応付けられた対訳文の、前記第１の言語の文と、前記第２の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する係り受け解析部と、
前記係り受け解析部によって解析された前記係り受けの関係に基づいて、前記第１の言語の文の少なくとも前記所定の単位を含む構成単位と、前記第２の言語の文の少なくとも前記所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する対訳文生成部と
を備えることを特徴とする対訳文生成装置。
前記構成単位には、係り元の前記所定の単位と、係り先の前記所定の単位との組構成が含まれ、
前記対訳文生成部は、前記第１の言語の文と、前記第２の言語の文とにおいて、前記係り受けの関係が等しい前記組構成から成る文を対応付けて、前記新たな対訳文を生成する
ことを特徴とする請求項１に記載の対訳文生成装置。
前記組構成には、主語と動詞との組が含まれ、
前記対訳文生成部は、前記第１の言語の文と、前記第２の言語の文とにおいて、前記主語と動詞とから成る文を対応付けて、前記新たな対訳文を生成する
ことを特徴とする請求項２に記載の対訳文生成装置。
請求項１から請求項３のいずれか一項に記載の対訳文生成装置が生成した前記新たな対訳文を含む対訳文の集合である対訳コーパスに基づき生成された学習モデルに基づいて、翻訳対象の文を翻訳することを特徴とする翻訳装置。
係り受け解析部が、取得された、第１の言語の文と、前記第１の言語とは異なる第２の言語の文とが対応付けられた対訳文の、前記第１の言語の文と、前記第２の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する係り受け解析ステップと、
対訳文生成部が、前記係り受け解析ステップによって解析された前記係り受けの関係に基づいて、前記第１の言語の文の少なくとも前記所定の単位を含む構成単位と、前記第２の言語の文の少なくとも前記所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する対訳文生成ステップと
を含むことを特徴とする対訳文生成方法。
コンピュータに、
取得された、第１の言語の文と、前記第１の言語とは異なる第２の言語の文とが対応付けられた対訳文の、前記第１の言語の文と、前記第２の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する係り受け解析ステップと、
前記係り受け解析ステップによって解析された前記係り受けの関係に基づいて、前記第１の言語の文の少なくとも前記所定の単位を含む構成単位と、前記第２の言語の文の少なくとも前記所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する対訳文生成ステップと
を実行させるためのプログラム。