JP2016177341A - 対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラム - Google Patents

対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラム Download PDF

Info

Publication number
JP2016177341A
JP2016177341A JP2015055001A JP2015055001A JP2016177341A JP 2016177341 A JP2016177341 A JP 2016177341A JP 2015055001 A JP2015055001 A JP 2015055001A JP 2015055001 A JP2015055001 A JP 2015055001A JP 2016177341 A JP2016177341 A JP 2016177341A
Authority
JP
Japan
Prior art keywords
sentence
unit
language
bilingual
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015055001A
Other languages
English (en)
Inventor
佐藤 大輔
Daisuke Sato
大輔 佐藤
松永 務
Tsutomu Matsunaga
務 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2015055001A priority Critical patent/JP2016177341A/ja
Publication of JP2016177341A publication Critical patent/JP2016177341A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】翻訳の品質を向上する。【解決手段】対訳文生成装置は、取得された、第1の言語の文と、第1の言語とは異なる第2の言語の文とが対応付けられた対訳文の、第1の言語の文と、第2の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する係り受け解析部と、係り受け解析部によって解析された係り受けの関係に基づいて、第1の言語の文の少なくとも所定の単位を含む構成単位と、第2の言語の文の少なくとも所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する対訳文生成部とを備える。【選択図】図1

Description

本発明は、対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラムに関する。
近年、翻訳機能を計算機処理により実現する統計的機械翻訳方式を利用した翻訳装置が知られている。このような統計的機械翻訳方式では、大量で良質な対訳文の集合である対訳コーパスが必要とされる。
対訳コーパスの作成に関する技術としては、例えば、特許文献1に記載の技術が知られている。この特許文献1に記載の技術では、複数の翻訳結果に含まれる単語の頻度が高いものを正しいとする判断処理に基づいて対訳コーパスの作成が行われる。
特開2010−33392号公報
しかしながら、上述した技術では、例えば、出現頻度の低い単語の誤訳は、誤りやすい傾向があり、翻訳の品質をより高めるために、より品質の高い対訳コーパスを作成する技術が望まれる。
本発明は、上記問題を解決すべくなされたもので、その目的は、翻訳の品質を向上させることができる対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラムを提供することにある。
上記問題を解決するために、本発明の一態様は、取得された、第1の言語の文と、前記第1の言語とは異なる第2の言語の文とが対応付けられた対訳文の、前記第1の言語の文と、前記第2の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する係り受け解析部と、前記係り受け解析部によって解析された前記係り受けの関係に基づいて、前記第1の言語の文の少なくとも前記所定の単位を含む構成単位と、前記第2の言語の文の少なくとも前記所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する対訳文生成部とを備えることを特徴とする対訳文生成装置である。
また、本発明の一態様は、上記の対訳文生成装置において、前記構成単位には、係り元の前記所定の単位と、係り先の前記所定の単位との組構成が含まれ、前記対訳文生成部は、前記第1の言語の文と、前記第2の言語の文とにおいて、前記係り受けの関係が等しい前記組構成から成る文を対応付けて、前記新たな対訳文を生成することを特徴とする。
また、本発明の一態様は、上記の対訳文生成装置において、前記組構成には、主語と動詞との組が含まれ、前記対訳文生成部は、前記第1の言語の文と、前記第2の言語の文とにおいて、前記主語と動詞とから成る文を対応付けて、前記新たな対訳文を生成することを特徴とする。
また、本発明の一態様は、上記の対訳文生成装置が生成した前記新たな対訳文を含む対訳文の集合である対訳コーパスに基づき生成された学習モデルに基づいて、翻訳対象の文を翻訳することを特徴とする翻訳装置である。
また、本発明の一態様は、係り受け解析部が、取得された、第1の言語の文と、前記第1の言語とは異なる第2の言語の文とが対応付けられた対訳文の、前記第1の言語の文と、前記第2の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する係り受け解析ステップと、対訳文生成部が、前記係り受け解析ステップによって解析された前記係り受けの関係に基づいて、前記第1の言語の文の少なくとも前記所定の単位を含む構成単位と、前記第2の言語の文の少なくとも前記所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する対訳文生成ステップとを含むことを特徴とする対訳文生成方法である。
また、本発明の一態様は、コンピュータに、取得された、第1の言語の文と、前記第1の言語とは異なる第2の言語の文とが対応付けられた対訳文の、前記第1の言語の文と、前記第2の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する係り受け解析ステップと、前記係り受け解析ステップによって解析された前記係り受けの関係に基づいて、前記第1の言語の文の少なくとも前記所定の単位を含む構成単位と、前記第2の言語の文の少なくとも前記所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する対訳文生成ステップとを実行させるためのプログラムである。
本発明によれば、翻訳の品質を向上させることができる。
本実施形態による対訳文生成装置の一例を示す概略ブロック図である。 本実施形態における対訳文DBのデータ例を示す図である。 本実施形態における英語文の係り受け解析結果の一例を示す図である。 本実施形態における日本語文の係り受け解析結果の一例を示す図である。 本実施形態における英語句抽出ルール記憶部のデータ例を示す図である。 本実施形態における英語句抽出結果の一例を示す図である。 本実施形態における英語文解析結果記憶部のデータ例を示す図である。 本実施形態における日本語句抽出ルール記憶部のデータ例を示す図である。 本実施形態における日本語句抽出結果の一例を示す図である。 本実施形態における日本語文解析結果記憶部のデータ例を示す図である。 本実施形態における対訳文の生成結果の一例を示す図である。 本実施形態における対訳文生成装置の動作の一例を示すフローチャートである。 本実施形態における句抽出処理の一例を示すフローチャートである。 本実施形態における翻訳システム及び翻訳装置の一例を示す概略ブロック図である。
以下、本発明の一実施形態による対訳文生成装置、及び翻訳装置について、図面を参照して説明する。
[第1の実施形態]
まず、第1の実施形態として、本発明に係る対訳文生成装置について、図面を参照して説明する。
図1は、本実施形態による対訳文生成装置1の一例を示す概略ブロック図である。
図1に示すように、対訳文生成装置1は、記憶部10と、制御部30とを備えている。また、対訳文生成装置1は、記憶装置2と接続される。
なお、本実施形態による対訳文生成装置1は、ある特定の用途(目的)の文(例えば、技術文書や科学分野の文など)を翻訳するための対訳文を、当該用途の翻訳を行うために既に存在している対訳コーパス(対訳文の集合)から新たに生成する。そして、対訳文生成装置1は、新たに生成した対訳文を、既に存在している対訳コーパスに追加する。
記憶装置2は、例えば、ストレージ装置やサーバ装置などの外部記憶装置である。記憶装置2は、少なくとも対訳文を再生成する際に、対訳文生成装置1に接続される。また、記憶装置2は、対訳文DB(データベース)記憶部21を備えている。
対訳文DB記憶部21(対訳文記憶部の一例)は、言語の異なる2つの文を対応付けて対訳文として記憶する。ここで、対訳文における異なる2つの言語とは、第1の言語と、当該第1の言語とは異なる第2の言語であり、例えば、英語と日本語とである。なお、以下の本実施形態の説明において、第1の言語を英語、第2の言語を日本語として説明する。対訳文DB記憶部21は、例えば、英語文(第1の言語の文)と、日本語文(第2の言語の文)とを対応付けた対訳文を複数有する対訳文の集合を対訳文DB(対訳コーパス)として記憶している。
なお、本実施形態による対訳文DB(対訳コーパス)は、ある特定の用途(例えば、科学分野など)の翻訳するためのものとする。ここで、図2を参照して、対訳文DB記憶部21に日本語と英語との対訳文が記憶されている場合を例として、対訳文DBのデータ構成について説明する。
図2は、本実施形態における対訳文DBのデータ構成の一例を示す図である。
この図において、対訳文DB記憶部21は、「対訳文ID」、「英語文」、及び「日本語文」を関連付けて記憶する。ここで、「対訳文ID」は、対訳文を識別する識別情報を示し、「英語文」及び「日本語文」は、英語と日本語との対応する文を示している。対訳文DB記憶部21は、このような「対訳文ID」、「英語文」、及び「日本語文」を複数有している。
例えば、図2に示す例では、「対訳文ID」が“1”である対訳文は、「英語文」が“Scientists discovered the old knife in a cave.”であり、この「英語文」に対応する「日本語文」が、“科学者たちは大昔のナイフを洞窟の中で発見した。”であることを示している。
図1に戻り、記憶部10は、対訳文生成装置1が実行する各種処理に利用される情報を記憶する。また、記憶部10は、例えば、英語文解析結果記憶部11と、日本語文解析結果記憶部12と、英語句抽出ルール記憶部13と、日本語句抽出ルール記憶部14と、英語句抽出結果記憶部15と、日本語句抽出結果記憶部16とを備えている。
英語文解析結果記憶部11は、後述する係り受け解析部32の英語文解析部321による英語文の係り受け解析結果を記憶する。英語文解析結果記憶部11は、英語文の係り受け解析結果と、ルール適用フラグとを関連付けて記憶する。なお、英語文解析結果記憶部11が記憶する係り受け解析結果及びルール適用フラグの詳細については後述する。
日本語文解析結果記憶部12は、後述する係り受け解析部32の日本語文解析部322による日本語文の係り受け解析結果を記憶する。日本語文解析結果記憶部12は、日本語文の係り受け解析結果と、ルール適用フラグとを関連付けて記憶する。なお、日本語文解析結果記憶部12が記憶する係り受け解析結果及びルール適用フラグの詳細については後述する。
英語句抽出ルール記憶部13は、後述する対訳文生成部33の英語句抽出部331による英語文の単語(句)を抽出する抽出ルールを記憶する。なお、英語句抽出ルール記憶部13が記憶する抽出ルールの詳細については後述する。
日本語句抽出ルール記憶部14は、後述する対訳文生成部33の日本語句抽出部332による日本語文の句を抽出する抽出ルールを記憶する。なお、日本語句抽出ルール記憶部14が記憶する抽出ルールの詳細については後述する。
英語句抽出結果記憶部15は、後述する英語句抽出部331による英語句(英語の単語)の抽出結果を記憶する。英語句抽出結果記憶部15は、なお、英語句抽出結果記憶部15が記憶する抽出結果の詳細については後述する。
日本語句抽出結果記憶部16は、後述する日本語句抽出部332による日本語句の抽出結果を記憶する。日本語句抽出結果記憶部16は、なお、日本語句抽出結果記憶部16が記憶する抽出結果の詳細については後述する。
制御部30は、例えば、CPU(Central Processing Unit)などを含むプロセッサであり、対訳文生成装置1を統括的に制御する。制御部30は、対訳文取得部31と、係り受け解析部32と、対訳文生成部33とを備えている。
対訳文取得部31(取得部の一例)は、英語文と、日本語文とを対応付けた対訳文を記憶する対訳文DB記憶部21から対訳文を取得する。すなわち、対訳文取得部31は、言語の異なる文を対応付けた対訳文を記憶する対訳文DB記憶部21から対訳文を取得する。対訳文取得部31は、取得した対訳文を係り受け解析部32に出力する。
係り受け解析部32は、対訳文取得部31が取得した英語文と、日本語文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する。ここで、文において意味を持つ所定の単位とは、英語において、「単語」に対応し、日本語に「おいて、「句」に対応する。係り受け解析部32は、英語文解析部321と、日本語文解析部322とを備えている。
英語文解析部321は、対訳文取得部31が取得した対訳文のうちの英語文の係り受け解析を行う。英語文解析部321は、例えば、Enjuなどの英語の構文解析器であり、英語文を単語単位に分割して、各単語間の係り受けの関係を解析する。英語文解析部321は、図3に示すように、「単語番号」と、「単語」と、「係り先」と、「係りタイプ」とを関連付けた解析結果を出力する。英語文解析部321は、解析結果を英語文解析結果記憶部11に記憶させる。
図3は、本実施形態における英語文の係り受け解析結果の一例を示す図である。
この図に示す例は、英語文解析部321が、英語文“Scientists discovered the old knife in a cave.”を係り受け解析した結果を示している。
図3に示すように、係り受け解析結果は、「単語番号」と、「単語」と、「係り先」と、「係りタイプ」とを関連付けられている。ここで、「単語番号」は、英語文の先頭から単語に付与した番号(例えば、“0”から順に付与した番号)を示し、「単語」は、単語と判定された文字列を示している。また、「係り先」は、当該単語の係り先の「単語番号」を示す、「係りタイプ」は、“主語”、“目的語”などの係りタイプを示している。なお、「係り先」が“Null”となっている単語は、係り先がなく、「係りタイプ」が“ROOT”と記載される。この「係り先」が“Null”となり、「係りタイプ」が“ROOT”である単語は、“動詞”を示している。
例えば、図3に示す例では、「単語番号」が“0”、「係り先」が“1”、「係りタイプ」が“主語”である「単語」“Scientists”は、係り先を“discovered”とする主語であることを示している。また、「単語番号」が“1”である「単語」“discovered”は、“動詞”であることを示している。
再び、図1に戻り、日本語文解析部322は、対訳文取得部31が取得した対訳文のうちの日本語文の係り受け解析を行う。日本語文解析部322は、例えば、CaboCha/南瓜などの日本語の係り受け解析器であり、日本語文を句単位に分割して、各句間の係り受けの関係を解析する。英語文解析部321は、図4に示すように、句番号と、句の内容と、係り先と、品詞とを関連付けた解析結果を出力する。日本語文解析部322は、解析結果を日本語文解析結果記憶部12に記憶させる。
図4は、本実施形態における日本語文の係り受け解析結果の一例を示す図である。
この図に示す例は、日本語文解析部322が、日本語文“科学者たちは大昔のナイフを洞窟の中で発見した。”を係り受け解析した結果を示している。
図4に示すように、係り受け解析結果は、「句番号」と、「係り先句番号」と、句を構成する「単語」と、各単語に対応する「品詞」とを関連付けられている。ここで、“*”文字の後の数字が「句番号」を示し、次の数字が「係り先句番号」を示している。「句番号」は、日本語文の先頭から句ごとに付与した番号(例えば、“0”から順に付与した番号)を示し、「係り先句番号」は、係り先の「句番号」を示している。なお、「係り先句番号」が“Null”とる句は、係り先がないことを示している。
例えば、図4に示す例では、「句番号」が“0”、「係り先句番号」が“5”の句である“科学者たちは”は、「句番号」が“5”の句である“発見した。”が係り先となっていることを示している。
対訳文生成部33は、係り受け解析部32によって解析された係り受けの関係に基づいて、英語文と、日本語文との少なくとも所定の単位を含む構成単位を対応付けて、新たな対訳文を生成する。ここで、少なくとも所定の単位を含む構成単位とは、所定の単位である単語又は句そのものであってもよいし、単語又は句を複数組み合わせた構成(例えば、主語(主部)と動詞(述部)との組、目的語と動詞との組など)であってもよい。対訳文生成部33は、生成した新たな対訳文を対訳文DB記憶部21の対訳文DBに追加する。
また、対訳文生成部33は、英語句抽出部331と、日本語句抽出部332と、対訳出力部333とを備えている。
英語句抽出部331は、英語文解析部321による英語文の係り受けの解析結果と、英語句抽出ルール記憶部13が記憶する抽出ルールとに基づいて、抽出ルールに対応する単語(句)を抽出する。例えば、英語句抽出部331は、英語文解析結果記憶部11が記憶する解析結果と、英語句抽出ルール記憶部13が記憶する抽出ルールとに基づいて、新たな対訳文の英語の部分(例えば、主語と動詞との組のような構成)を抽出する。英語句抽出部331は、抽出結果を英語句抽出結果記憶部15に記憶させるとともに、英語文解析結果記憶部11に抽出された単語に対応するルール適用フラグに“1”を記憶させる。
ここで、図5を参照して、英語句抽出ルール記憶部13が記憶する抽出ルールについて説明する。
図5は、本実施形態における英語句抽出ルール記憶部13のデータ例を示す図である。
この図に示すように、英語句抽出ルール記憶部13は、「ルール番号」と、「ルール内連番」と、「抽出条件」と、「絞り込み条件」とを関連付けて記憶する。ここで、「ルール番号」は、抽出ルールを特定する情報(番号)を示し、「ルール内連番」は、同一の抽出ルールの中で複数の単語を順次抽出する処理を行う場合の処理の順序を示す情報(番号)である。また、「抽出条件」は、係り受け解析結果から単語を抽出する条件を示しており、「絞り込み条件」は、「抽出条件」により複数の単語が抽出された場合にさらに絞り込む条件を示している。なお、英語句抽出ルール記憶部13と日本語句抽出ルール記憶部14とは、ルール番号が同じルールをそれぞれ適用して所定の単位構成となり単語や句の組み合わせを抽出した際に、抽出された文字列同士が対訳となるように設定されている。
図5に示す例では、「ルール番号」が“1”の抽出ルール(以下、「ルール1」という)は、主語と動詞との組を抽出するルールである。この例では、「ルール内連番」の“(1)”において動詞を抽出し、「抽出条件」が“係り先=Null”であることを示している。また、「ルール内連番」の“(2)”において主語を抽出し、「抽出条件」が“係り先=(1)の該当番号 & 係りタイプ=主語”であることを示している。なお、「ルール1」では、主語や動詞が所定の単位であり、「主語、動詞を組み合わせた構成」が所定の単位構成となっている。
また、「ルール番号」が“2”の抽出ルール(以下、「ルール2」という)は、動詞と目的語との組(所定の単位構成)を抽出するルールである。この例では、「ルール内連番」の“(1)”において動詞を抽出し、「抽出条件」が“係り先=Null”であることを示している。また、「ルール内連番」の“(2)”において目的語を抽出し、「抽出条件」が“係り先=(1)の該当番号 & 係りタイプ=目的語”であることを示している。
また、「ルール番号」が“3”の抽出ルール(以下、「ルール3」という)は、単に動詞を抽出するルールである。この例では、「ルール内連番」の“(1)”において動詞を抽出し、「抽出条件」が“係り先=Null”であることを示している。
このように、英語句抽出部331は、英語文の係り受けの解析結果と、図5に示すような抽出ルールとに基づいて、新たな対訳文の英語の部分を抽出する。また、英語句抽出部331は、抽出結果を、図6に示すように、英語句抽出結果記憶部15に記憶させるとともに、図7に示すように、英語文解析結果記憶部11のルール適用フラグを変更する。
図6は、本実施形態における英語句抽出結果の一例を示す図である。
図6に示すように、英語句抽出結果記憶部15は、例えば、「ルール番号」と、「ルール内連番」と、「該当単語番号」とを関連付けて英語句抽出結果として記憶する。ここで、「ルール番号」及び「ルール内連番」は、英語句抽出ルール記憶部13と同様であり、「該当単語番号」は、抽出ルールにより抽出された該当単語の単語番号を示している。
例えば、図6に示す例では、「ルール番号」が“1”で、「ルール内連番」が“(1)”である抽出結果は、「該当単語番号」が“1”であり、図3に示す係り受け解析結果における「単語」“discovered”であることを示している。
また、「ルール番号」が“1”で、「ルール内連番」が“(2)”である抽出結果は、「該当単語番号」が“0”であり、図3に示す係り受け解析結果における「単語」“Scientists”であることを示している。
また、図7は、本実施形態における英語文解析結果記憶部11のデータ例を示す図である。
図7に示すように、英語文解析結果記憶部11は、「係り受け解析結果」と「ルール適用フラグ」とを関連付けて記憶する。ここで、「係り受け解析結果」には、例えば、「単語番号」と、「単語」と、「係り先」と、「係りタイプ」とが含まれている。また、「ルール適用フラグ」には、各抽出ルールにおいて適用(抽出)されたか否かを示す適用フラグが含まれている。なお、適用フラグは、“1”である場合に、適用(抽出)されたことを示し、“0”である場合に、適用(抽出)されていないことを示している。
例えば、図7に示す例では、「単語番号」が“0”である「単語」“Scientists”は、上述した「ルール1」において適用(抽出)されたことを示す“1”が記憶されている。
このように、英語句抽出部331は、抽出結果に基づいて、英語文解析結果記憶部11のルール適用フラグを変更する。
再び、図1に戻り、日本語句抽出部332は、日本語文解析部322による日本語文の係り受けの解析結果と、日本語句抽出ルール記憶部14が記憶する抽出ルールとに基づいて、抽出ルールに対応する句を抽出する。例えば、日本語句抽出部332は、日本語文解析結果記憶部12が記憶する解析結果と、日本語句抽出ルール記憶部14が記憶する抽出ルールとに基づいて、新たな対訳文の日本語の部分(例えば、主語と動詞との組のような構成)を抽出する。日本語句抽出部332は、抽出結果を日本語句抽出結果記憶部16に記憶させるとともに、日本語文解析結果記憶部12に抽出された句に対応するルール適用フラグに“1”を記憶させる。
ここで、図8を参照して、日本語句抽出ルール記憶部14が記憶する抽出ルールについて説明する。
図8は、本実施形態における日本語句抽出ルール記憶部14のデータ例を示す図である。
この図に示すように、日本語句抽出ルール記憶部14は、「ルール番号」と、「ルール内連番」と、「抽出条件」と、「絞り込み条件」とを関連付けて記憶する。ここで、「ルール番号」は、抽出ルールの番号を示し、「ルール内連番」は、同一の抽出ルールの中で複数の句を抽出する場合の番号を示している。また、「抽出条件」は、係り受け解析結果から句を抽出する条件を示しており、「絞り込み条件」は、「抽出条件」により複数の句が抽出された場合にさらに絞り込む条件を示している。
図8に示す例では、「ルール番号」が“1”の抽出ルール(「ルール1」)は、主語と動詞との組を抽出するルールである。この例では、「ルール内連番」の“(1)”において動詞を抽出し、「抽出条件」が“係り先句番号=Null”であることを示している。また、「ルール内連番」の“(2)”において主語を抽出し、「抽出条件」が“係り先句番号=(1)の該当番号”であり、「絞り込み条件」が“品詞=(は:係助詞 or が:格助詞)”であることを示している。
また、「ルール番号」が“2”の抽出ルール(「ルール2」)は、動詞と目的語との組を抽出するルールである。この例では、「ルール内連番」の“(1)”において動詞を抽出し、「抽出条件」が“係り先句番号=Null”であることを示している。また、「ルール内連番」の“(2)”において目的語を抽出し、「抽出条件」が“係り先=(1)の該当番号”であり、「絞り込み条件」が“品詞=を:格助詞”であることを示している。
また、「ルール番号」が“3”の抽出ルール(「ルール3」)は、単に動詞を抽出するルールである。この例では、「ルール内連番」の“(1)”において動詞を抽出し、「抽出条件」が“係り先句番号=Null”であることを示している。
このように、日本語句抽出部332は、日本語文の係り受けの解析結果と、図8に示すような抽出ルールとに基づいて、新たな対訳文の日本語の部分を抽出する。また、日本語句抽出部332は、抽出結果を、図9に示すように、日本語句抽出結果記憶部16に記憶させるとともに、図10に示すように、日本語文解析結果記憶部12のルール適用フラグを変更する。
図9は、本実施形態における日本語句抽出結果の一例を示す図である。
図9に示すように、日本語句抽出結果記憶部16は、例えば、「ルール番号」と、「ルール内連番」と、「該当句番号」とを関連付けて日本語句抽出結果として記憶する。ここで、「ルール番号」及び「ルール内連番」は、日本語句抽出ルール記憶部14と同様であり、「該当句番号」は、抽出ルールにより抽出された該当句の句番号を示している。
例えば、図9に示す例では、「ルール番号」が“1”で、「ルール内連番」が“(1)”である抽出結果は、「該当句番号」が“5”であり、図4に示す係り受け解析結果における句である“発見した。”であることを示している。
また、「ルール番号」が“1”で、「ルール内連番」が“(2)”である抽出結果は、「該当句番号」が“0”、“2”もしくは“4”となるが、「絞り込み条件」の品詞=(は:係助詞 or が:格助詞)に該当するのは“0”のみであり、図4に示す係り受け解析結果における句である“科学者たちは”であることを示している。
なお、「ルール1」での「ルール内連番」が“(2)”に該当する句番号、つまり、「ルール1」で抽出した句番号“5”の“発見した”に係っている句(つまり、図10の日本語文解析結果記憶部12の係り先句番号が“5”となっている句)は、句番号“0”の“科学者たちは”と句番号“2”の“ナイフを”と、句番号“4”の“中で”の3つとなる。
また、日本語句抽出部332は、抽出された句番号が2つ以上なので、絞り込み条件を適用する。(日本語句抽出部332は、抽出された句番号が1つのみの場合、絞り込み条件は適用しない。)絞り込み条件では、日本語句抽出部332は、句番号の中に含まれる単語(もしくは、単語の群)の中に、絞り込み条件で指定された品詞の単語が存在するか否かを判定する。「ルール1」の絞り込み条件は、品詞が係助詞で“は”という単語か、品詞が格助詞で“が”という単語を含む句を絞り込み結果として抽出する条件である。
ここで、句番号“0”を構成する単語は“科学:一般名詞”、“者:接尾名詞”、“たち:接尾名詞”、及び“は:係助詞”となっており、絞り込み条件の“は:係助詞”が含まれる。
一方、句番号“2”を構成する単語は“ナイフ:一般名詞”と“を:格助詞”であり、句番号“4”を構成する単語は“中:非自立の名詞”と“で:格助詞”であるため、いずれも絞り込み条件に該当しない。
このため、日本語句抽出部332は、絞り込み条件により、「ルール1」の「ルール内連番」が“(2)”に該当する句番号を“0”の1つに絞り込む。なお、絞り込み条件により句番号を1つに絞り込むことができない場合は、日本語句抽出部332は、そのルール番号で抽出される結果がないと判定する。(「ルール1」の「ルール内連番」が“(1)”に該当する句番号が1つであっても、「ルール内連番」が“(2)”での絞り込み結果の句番号の数が2以上の場合、日本語句抽出部332は、「ルール1」で抽出される句はないと判定する。)
また、図10は、本実施形態における日本語文解析結果記憶部12のデータ例を示す図である。
図10に示すように、日本語文解析結果記憶部12は、「係り受け解析結果」と「ルール適用フラグ」とを関連付けて記憶する。ここで、「係り受け解析結果」には、例えば、「句番号」と、「係り先句番号」と、「単語」と、「品詞」とが含まれている。また、「ルール適用フラグ」には、各抽出ルールにおいて適用(抽出)されたか否かを示す適用フラグが含まれている。なお、適用フラグは、“1”である場合に、適用(抽出)されたことを示し、空欄である場合に、適用(抽出)されていないことを示している。
例えば、図10に示す例では、「句番号」が“0”である“科学者たちは”は、上述した「ルール1」において適用(抽出)されたことを示す“1”が記憶されている。
このように、日本語句抽出部332は、抽出結果に基づいて、日本語文解析結果記憶部12のルール適用フラグを変更する。
再び、図1に戻り、対訳出力部333は、英語句抽出部331及び日本語句抽出部332による抽出結果に基づいて、少なくとも単語(句)を含む構成単位を対応付けて、新たな対訳文を生成する。対訳出力部333は、例えば、英語文解析結果記憶部11及び日本語文解析結果記憶部12が記憶する「ルール適用フラグ」に基づいて、各抽出ルールに合致する英語と日本語を対応付けて、新たな対訳文を生成する。具体的に、対訳出力部333は、各抽出ルールにおいて適用フラグが“1”となる英語と日本語とを対応付けて、新たな対訳文を生成する。なお、英語と日本語とを対応付けるとは、具体的には、英語文解析結果記憶部で適用フラグが“1”となっている単語を、入力された文での出現順序と同じ順序に並べて生成される句や文と、日本語文解析結果記憶部で適用フラグが“1”となっている句を、入力された文での出現順序と同じ順序に並べて生成される句や文とを対応付けて対訳文(対訳の句)とすることを指す。また、対訳出力部333は、各抽出ルールに適合する英語と日本語との対応が取れない場合には、新たな対訳文を生成しない。なお、対応が取れないとは、例えば、英語文では「ルール1」の適用フラグが“1”となっている単語や句があるが、日本語では「ルール1」の適用フラグが適用された単語や句がない場合である。
対訳出力部333は、生成した新たな対訳文を、対訳文DB記憶部21の対訳文DBに追加する。
図11は、本実施形態における対訳文の生成結果の一例を示す図である。
図11に示す例は、上述した“Scientists discovered the old knife in a cave.”と“科学者たちは大昔のナイフを洞窟の中で発見した。”との対訳文から、対訳文生成部33が、生成した対訳文の例を示している。
例えば、対訳文生成部33は、「ルール1」により、対訳文“scientists discovered − 科学者たちは発見した。”を生成する。また、対訳文生成部33は、「ルール2」により、対訳文“discovered knife − ナイフを発見した。”を生成する。
ここで、英語句抽出ルール記憶部13と日本語句抽出ルール記憶部14とに記憶されている「ルール1」は、いずれも上述したように、主語と動詞との組であり、「ルール2」は、上述したように、動詞と目的語との組である。このように、上述した対訳文の構成単位には、係り元の所定の単位(例えば、主語の単語(又は主語の句))と、係り先の所定の単位(例えば、動詞の単語(又は動詞の句))との組構成が含まれる。そして、対訳文生成部33は、英語文と、日本語文とにおいて、この係り受けの関係が等しい組構成(から成る文)を対応付けて、新たな対訳文を生成する。
また、この組構成には、上述したように主語と動詞との組が含まれる(「ルール1」)。対訳文生成部33は、英語文と、日本語文とにおいて、主語と動詞との組を対応付けて、新たな対訳文を生成する。
また、この組構成には、上述したように動詞と目的語との組が含まれる(「ルール2」)。対訳文生成部33は、英語文と、日本語文とにおいて、動詞と目的語との組を対応付けて、新たな対訳文を生成する。
次に、図面を参照して、本実施形態による対訳文生成装置1の動作について説明する。
図12は、本実施形態における対訳文生成装置1の動作の一例を示すフローチャートである。
図12に示すように、対訳文生成装置1は、まず、対訳文を取得する(ステップS101)。すなわち、対訳文生成装置1の対訳文取得部31は、記憶装置2の対訳文DB記憶部21が記憶する対訳文を取得する。
次に、対訳文生成装置1の係り受け解析部32は、英語文及び日本語文のそれぞれの係り受けを解析する(ステップS102)。例えば、係り受け解析部32の英語文解析部321は、取得した対訳文の英語文の係り受け解析を実行し、解析結果を英語文解析結果記憶部11に記憶させる。また、係り受け解析部32の日本語文解析部322は、取得した対訳文の日本語文の係り受け解析を実行し、解析結果を日本語文解析結果記憶部12に記憶させる。
次に、対訳文生成装置1の対訳文生成部33は、抽出ルールに基づいて、対応句を抽出する(ステップS103)。対訳文生成部33の英語句抽出部331は、英語文解析結果記憶部11が記憶する係り受け解析結果と、英語句抽出ルール記憶部13が記憶する抽出ルールとに基づいて、各ルールに対応した英語の単語(句)を抽出する。英語句抽出部331は、抽出結果を英語句抽出結果記憶部15に記憶させるとともに、抽出結果に基づいて、英語文解析結果記憶部11の「ルール適用フラグ」を変更する。
また、対訳文生成部33の日本語句抽出部332は、日本語文解析結果記憶部12が記憶する係り受け解析結果と、日本語句抽出ルール記憶部14が記憶する抽出ルールとに基づいて、各ルールに対応した日本語の句を抽出する。日本語句抽出部332は、抽出結果を日本語句抽出結果記憶部16に記憶させるとともに、抽出結果に基づいて、日本語文解析結果記憶部12の「ルール適用フラグ」を変更する。
次に、対訳文生成装置1の対訳文生成部33は、新たな対訳文を生成して、対訳コーパスに追加する(ステップS104)。すなわち、対訳文生成部33の対訳出力部333は、例えば、英語句抽出結果記憶部15及び日本語句抽出結果記憶部16が記憶する抽出結果と、英語文解析結果記憶部11及び日本語文解析結果記憶部12が記憶する「ルール適用フラグ」とに基づいて、各抽出ルールに合致する英語と日本語を対応付けて、新たな対訳文を生成する。そして、対訳出力部333は、生成した対訳文を、上述した対訳文DB記憶部21の対訳文DB(対訳コーパス)に追加する。ステップS104の処理後に、対訳文生成装置1は、対訳文の生成処理を終了する。
例えば、上述のステップS103の処理の結果、英語文解析結果記憶部11が図7に示す状態であり、日本語文解析結果記憶部12が図10に示す状態であるとする。この場合、英語文解析結果記憶部11において、「ルール1」が適用された「単語」は、“scientists”及び“discovered”である(図7参照)。また、日本語文解析結果記憶部12において、「ルール1」が適用された句は、“科学者たちは”及び“発見した。”である(図10参照)。そのため、対訳出力部333は、“scientists”及び“discovered”と、“科学者たちは”及び“発見した。”とを対応付けて、新たな対訳文(“scientists discovered − 科学者たちは発見した。”)を生成する。対訳出力部333は、「ルール2」以降についても同様に、新たな対訳文を生成し、生成した新たな対訳文を対訳文DB記憶部21の対訳文DB(対訳コーパス)に追加する。
このように、対訳文生成装置1は、英語文と日本語文とをそれぞれ係り受け解析し、両方から同様の係り受けが抽出できた場合に、抽出した両者を対応付けて新たな対訳文を生成する。
なお、上述した対訳文生成装置1における対訳文の生成処理の手順は、1つの対訳文に対して、新たに対訳文を生成する処理であり、対訳文生成装置1は、対訳文DB(対訳コーパス)の「対訳文ID」を順番に変更して、対訳文DB記憶部21が記憶する全対訳文に対して、同様の処理を実行する。
次に、図13を参照して、上述した図12のステップS103の処理(句抽出処理)の詳細について説明する。
図13は、本実施形態における句抽出処理の一例を示すフローチャートである。
なお、図13において、日本語句抽出部332による日本語文の句抽出処理について説明するが、基本的には、英語句抽出部331による英語文の句抽出処理も同様である。
図13に示すように、日本語句抽出部332は、まず、ルール番号を示す変数Nを“1”(ルール番号N=1)にするとともに、ルール内連番を示す変数iを“1”(ルール内連番i=1)にする(ステップS201)。
次に、日本語句抽出部332は、ルール番号N、ルール内連番iの抽出条件に基づいて、抽出ルールに適合する句を抽出する(ステップS202)。日本語句抽出部332は、例えば、日本語句抽出ルール記憶部14が記憶する抽出ルールのうちの、ルール番号N、ルール内連番iに対応する抽出条件に基づいて、抽出ルールに適合する句(句の候補)を抽出する。
次に、日本語句抽出部332は、抽出した候補が1つ以上であるか否かを判定する(ステップS203)。日本語句抽出部332は、抽出した候補が1つ以上である場合(ステップS203:YES)に、処理をステップS204に進める。また、日本語句抽出部332は、候補が1つも抽出できなかった場合(ステップS203:NO)に、処理をステップS211に進める。
ステップS204において、日本語句抽出部332は、絞り込み条件があるか否かを判定する。すなわち、日本語句抽出部332は、ルール番号N、ルール内連番iの抽出ルールにおいて、「絞り込み条件」があるか否かを判定する。日本語句抽出部332は、絞り込み条件がある場合(ステップS204:YES)に、処理をステップS205に進める。また、日本語句抽出部332は、絞り込み条件がない場合(ステップS204:NO)に、処理をステップS206に進める。
ステップS205において、日本語句抽出部332は、ルール内連番iの絞り込み条件を適用する。日本語句抽出部332は、例えば、絞り込み条件により、抽出した候補をさらに絞り込む。
ステップS206において、日本語句抽出部332は、抽出した候補が1つであるか否かを判定する。日本語句抽出部332は、抽出した候補が1つである場合(ステップS206:YES)に、処理をステップS207に進める。また、日本語句抽出部332は、候補が1つでない場合(ステップS206:NO)に、処理をステップS211に進める。
ステップS207において、日本語句抽出部332は、抽出した該当番号(該当句番号)を日本語句抽出結果記憶部16に記憶させる。すなわち、日本語句抽出部332は、図9に示すように、抽出した候補の句番号を日本語句抽出結果記憶部16の「該当句番号」に記憶させる。
次に、日本語句抽出部332は、各抽出ルールに合致した候補の適用フラグに“1”を記憶させる(ステップS208)。すなわち、日本語句抽出部332は、日本語文解析結果記憶部12の「ルール適用フラグ」のうちの各抽出ルールに合致した句に対応する適用フラグに“1”を記憶させる。
次に、日本語句抽出部332は、次のルール内連番があるか否かを判定する(ステップS209)。日本語句抽出部332は、例えば、日本語句抽出ルール記憶部14が記憶するルール番号Nの抽出ルールに次のルール内連番(i+1)があるか否かを判定する。日本語句抽出部332は、次のルール内連番がある場合(ステップS209:YES)に、処理をステップS210に進める。また、日本語句抽出部332は、次のルール内連番がない場合(ステップS209:NO)に、処理をステップS211に進める。
ステップS210において、日本語句抽出部332は、ルール内連番iに“1”を加算する更新をして(i=i+1)、処理をステップS202に戻す。
また、ステップS211において、日本語句抽出部332は、次のルール番号があるか否かを判定する。日本語句抽出部332は、例えば、日本語句抽出ルール記憶部14が記憶する次のルール番号(N+1)があるか否かを判定する。日本語句抽出部332は、次のルール番号がある場合(ステップS211:YES)に、処理をステップS212に進める。また、日本語句抽出部332は、次のルール番号がない場合(ステップS211:NO)に、処理を終了する。
ステップS212において、日本語句抽出部332は、ルール番号Nに“1”を加算するとともに、ルール内連番iを“1”に初期化して(N=N+1、i=1)、処理をステップS202に戻す。
このように、日本語句抽出部332は、日本語文解析結果記憶部12が記憶する係り受け解析結果に対して、日本語句抽出ルール記憶部14が記憶する抽出ルールを順番に適用し、抽出ルールに合致する句を抽出する。そして、日本語句抽出部332は、当該抽出結果に応じて、日本語句抽出結果記憶部16に抽出結果を記憶させるとともに、日本語文解析結果記憶部12が記憶する「ルール適用フラグ」を変更する。
なお、上述したフローチャートは、日本語句抽出部332による処理を説明したが、英語句抽出部331による処理も同様に実行される。
以上説明したように、本実施形態による対訳文生成装置1は、対訳文取得部31(取得部の一例)と、係り受け解析部32と、対訳文生成部33とを備えている。対訳文取得部31は、英語文(第1の言語の文)と、英語(第1の言語)とは異なる日本語文(第2の言語の文)とを対応付けた対訳文を記憶する対訳文DB記憶部21(対訳文記憶部の一例)から対訳文を取得する。係り受け解析部32は、対訳文取得部31が取得した英語文(第1の言語の文)と、日本語文(第2の言語の文)とのそれぞれに対して、文において意味を持つ所定の単位(例えば、単語、句など)における係り受けの関係を解析する。すなわち、係り受け解析部32は、取得された、第1の言語の文と、第1の言語とは異なる第2の言語の文とが対応付けられた対訳文の、第1の言語の文と、第2の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する。対訳文生成部33は、係り受け解析部32によって解析された係り受けの関係に基づいて、英語文(第1の言語の文)の少なくとも前記所定の単位を含む構成単位(例えば、単語単位、句単位、主語と動詞との組である構成単位など)と、日本語文(第2の言語の文)の少なくとも所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する。
これにより、本実施形態による対訳文生成装置1は、例えば、品質の高い既存の対訳文に基づいて、品質の高い新たな対訳文を生成することができる。すなわち、本実施形態による対訳文生成装置1は、現有する限られた対訳文を効果的に活用することにより、新たに対訳文を収集することなく、品質の高い対訳文の数を増やすことができ、品質の高い対訳コーパスを得ることができる。よって、本実施形態による対訳文生成装置1は、例えば、統計的機械翻訳において、翻訳の品質を向上させることができる。
また、本実施形態による対訳文生成装置1は、既存の対訳文に基づいて新たな対訳文を生成するため、品質の高い対訳文を収集するためのコストや時間を低減することができる。また、コストや時間を掛けずに品質の高い対訳コーパスが得られるため、本実施形態による対訳文生成装置1は、統計的機械翻訳の適用範囲の拡大に繋がる効果を期待できる。
また、本実施形態では、上述した構成単位には、係り元の所定の単位(例えば、係り元の単語(主語)など)と、係り先の所定の単位(例えば、係り先の単語(動詞)など)との組構成(例えば、主語と動詞との組構成など)が含まれる。対訳文生成部33は、英語文(第1の言語の文)と、日本語文(第2の言語の文)とにおいて、係り受けの関係が等しい組構成から成る文を対応付けて、新たな対訳文を生成する。
これにより、本実施形態による対訳文生成装置1は、組合せにより品質の高い対訳文のより多く生成することができる。
また、本実施形態では、上述した組構成には、主語(主部)と動詞(述部)との組が含まれる。対訳文生成部33は、英語文(第1の言語の文)と、日本語文(第2の言語の文)とにおいて、主語と動詞との組(主語と動詞とから成る文)を対応付けて、新たな対訳文を生成する。
これにより、本実施形態による対訳文生成装置1は、簡易な手法により、品質の高い対訳文のより多く生成することができる。
また、本実施形態における対訳文生成装置1は、上述した少なくとも所定の単位を含む構成単位を抽出する抽出ルールを記憶する抽出ルール記憶部(例えば、英語句抽出ルール記憶部13及び日本語句抽出結果記憶部16)を備える。対訳文生成部33は、係り受け解析部32によって解析された係り受けの関係と、抽出ルール記憶部(例えば、英語句抽出ルール記憶部13及び日本語句抽出結果記憶部16)が記憶する抽出ルールとに基づいて、少なくとも所定の単位を含む構成単位を抽出する。そして、対訳文生成部33は、抽出した少なくとも所定の単位を含む構成単位を対応付けて、新たな対訳文を生成する。
これにより、本実施形態における対訳文生成装置1は、抽出ルールにより適切に新たな対訳文を生成することができる。また、本実施形態における対訳文生成装置1は、抽出ルール記憶部(例えば、英語句抽出ルール記憶部13及び日本語句抽出結果記憶部16)は記憶する抽出ルールを、例えば、翻訳の用途、分野、目的に応じて、柔軟に変更することができる。よって、本実施形態における対訳文生成装置1は、例えば、翻訳の用途、分野、目的に応じて品質の高い対訳文を新たに生成することができる。
また、本実施形態による対訳文生成方法は、取得ステップと、解析ステップと、対訳文生成ステップとを含んでいる。取得ステップにおいて、対訳文取得部31が、英語文(第1の言語の文)と、英語(第1の言語)とは異なる日本語文(第2の言語の文)とを対応付けた対訳文を記憶する対訳文DB記憶部21から対訳文を取得する。解析ステップにおいて、係り受け解析部32が、取得ステップにより取得した第1の言語の文と、第2の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する。すなわち、解析ステップにおいて、係り受け解析部32が、取得された、第1の言語の文と、第1の言語とは異なる第2の言語の文とが対応付けられた対訳文の、第1の言語の文と、第2の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する。対訳文生成ステップにおいて、対訳文生成部33が、係り受け解析ステップによって解析された係り受けの関係に基づいて、英語文(第1の言語の文)の少なくとも所定の単位を含む構成単位と、日本語文(第2の言語の文)の少なくとも所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する。
これにより、本実施形態による対訳文生成方法は、対訳文生成装置1と同様に、本実施形態による対訳文生成装置1は、例えば、品質の高い既存の対訳文に基づいて、品質の高い新たな対訳文を生成することができ、品質の高い対訳コーパスを得ることができる。よって、本実施形態による対訳文生成方法は、例えば、統計的機械翻訳において、翻訳の品質を向上させることができる。
本実施形態では、図7の英語文解析結果記憶部11のルール適用フラグでは抽出ルールが適用されていない単語には“0”を記入しているが、抽出ルールが適用されないことを示す所定の情報を記入することとしたり、何も情報を記入しない(空欄)こととしたりしてもよい。同様に、図10の日本語文解析結果記憶部12のルール適用フラグでは抽出ルールが適用されていない句は空欄としているが、抽出ルールが適用されないことを示す所定の情報(例えば、“0”、“−”、“NULL”等)を記入することとしてもよい。
なお、本実施形態の「ルール1」では「対訳文」を新たに生成する例を示したが、「ルール2」に示す様に対訳となる句(句の組み合わせ)や、対訳となる単語の組み合わせを新たに生成することとしてもよい。
[第2の実施形態]
次に、第2の実施形態として上述した対訳文生成装置1によって生成した対訳コーパスを利用した翻訳システム200及び翻訳装置100の一例について説明する。
図14は、本実施形態による翻訳システム200及び翻訳装置100の一例を示す概略ブロック図である。
図14に示すように、翻訳システム200は、対訳文生成装置1と、翻訳装置100とを備えている。また、翻訳装置100は、対訳文DB記憶部21と、学習モデル生成部110と、翻訳処理部120とを備えている。また、翻訳処理部120は、学習モデル121を有している。この図において、図1に示す第1の実施形態と同一の構成には、同一の符号を付与している。
なお、本実施形態では、翻訳装置100が、対訳文DB記憶部21及び学習モデル生成部110を含む場合の一例について説明する。
対訳文DB記憶部21は、複数の対訳文を有する対訳文DBを記憶する。ここで、対訳文DBは、対訳文生成装置1が新たに対訳を作成するために用いる対訳文に加えて、対訳文生成装置1によって新たに生成された対訳文が追加された対訳コーパスである。すなわち、対訳文DB記憶部21が記憶する対訳文DBは、対訳文生成装置1が生成した新たな対訳文を含む対訳文の集合である対訳コーパスである。
学習モデル生成部110は、対訳文DB記憶部21が記憶する対訳文DB(対訳コーパス)と、統計的機械翻訳の所定のアルゴリズムに基づいて、学習モデル121を生成する。学習モデル生成部110は、生成した学習モデル121を翻訳処理部120に供給(格納)する。
翻訳処理部120は、学習モデル生成部110によって生成された学習モデル121に基づいて、翻訳の対象文である入力された「元文」を対応する言語に翻訳し、「翻訳文」を出力する。翻訳処理部120は、例えば、日本語文が入力された場合に、日本語文の「元文」を、学習モデル121に基づいて英語文に翻訳し、英語文の「翻訳文」を出力する。また、翻訳処理部120は、例えば、英語文が入力された場合に、英語文の「元文」を、学習モデル121に基づいて日本語文に翻訳し、日本語文の「翻訳文」を出力する。
このように、翻訳処理部120は、対訳文生成装置1が生成した新たな対訳文を含む対訳コーパスに基づき生成された学習モデル121に基づいて、翻訳対象の文を翻訳する。
以上説明したように、本実施形態における翻訳装置100は、対訳文DB記憶部21と、学習モデル生成部110と、翻訳処理部120とを備えている。学習モデル生成部110は、対訳文DB記憶部21が記憶する対訳文DB(対訳コーパス)と、統計的機械翻訳の所定のアルゴリズムに基づいて、学習モデル121を生成する。翻訳処理部120は、学習モデル生成部110によって生成された学習モデル121に基づいて、翻訳処理を実行する。すなわち、翻訳装置100は、対訳文生成装置1が生成した新たな対訳文を含む対訳コーパスに基づき生成された学習モデル121に基づいて、翻訳対象の文を翻訳する。
これにより、本実施形態における翻訳装置100は、対訳文生成装置1により統計的機械翻訳に適した品質の高い対訳文を多数得ることができるので、統計的機械翻訳の品質を向上させることができる。
なお、本発明は、上記の各実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で変更可能である。
例えば、上記の各実施形態では、日本語文と英語文との対訳文を生成するとともに、日本語文と英語文との翻訳を行う場合について説明したが、日本語及び英語以外の言語の翻訳に適用してもよい。対訳文生成装置1及び翻訳装置100は、例えば、日本語及び英語の他に、フランス語、ドイツ語、中国語、韓国語などの自然言語のうちのいずれかの2つの言語に対して適用してもよい。
また、上述した係り受け解析部32の解析結果は、図3及び図4に示す形式の出力に限定されるものではなく、他の形式の出力であってもよい。また、係り受け解析部32は、上記に限定されるものではなく、他の構文解析器などを利用して、係り受け解析を実行するようにしてもよい。
また、上記の各実施形態において、文において意味を持つ所定の単位の一例として、英語文における単語単位、日本語文における句単位により処理する例を説明したが、これに限定されるものではない。例えば、文において意味を持つ所定の単位としては、句単位、節(文節)単位、又は熟語単位などであってもよい。
また、上記の各実施形態において、係り元と係り先との組構成の例として、主語と動詞との組構成と、動詞と目的語との組構成とを適用する場合について説明したが、これに限定されるものではなく、他の係り元と係り先との組構成に対して適用してもよい。
また、上記の第2の実施形態において、翻訳装置100は、対訳文生成装置1を備えない場合の一例ついて説明したが、翻訳装置100は、対訳文生成装置1を備える形態であってもよい。また、翻訳装置100は、対訳文DB記憶部21及び学習モデル生成部110を備える場合の一例について説明したが、これに限定されるものではなく、対訳文DB記憶部21と、学習モデル生成部110との少なくとも一方を外部に備えるようにしてもよい。
なお、上述した対訳文生成装置1が備える各構成は、内部に、コンピュータシステムを有している。そして、上述した対訳文生成装置1が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した対訳文生成装置1が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、インターネットやWAN、LAN、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、CD−ROM等の非一過性の記録媒体であってもよい。
また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部又は外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に対訳文生成装置1が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
また、上述した機能の一部又は全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。上述した各機能は個別にプロセッサ化してもよいし、一部、又は全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、又は汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
1 対訳文生成装置
2 記憶装置
10 記憶部
11 英語文解析結果記憶部
12 日本語文解析結果記憶部
13 英語句抽出ルール記憶部
14 日本語句抽出ルール記憶部
15 英語句抽出結果記憶部
16 日本語句抽出結果記憶部
21 対訳文DB記憶部
30 制御部
31 対訳文取得部
32 係り受け解析部
33 対訳文生成部
100 翻訳装置
110 学習モデル生成部
120 翻訳処理部
121 学習モデル
200 翻訳システム
321 英語文解析部
322 日本語文解析部
331 英語句抽出部
332 日本語句抽出部
333 対訳出力部

Claims (6)

  1. 取得された、第1の言語の文と、前記第1の言語とは異なる第2の言語の文とが対応付けられた対訳文の、前記第1の言語の文と、前記第2の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する係り受け解析部と、
    前記係り受け解析部によって解析された前記係り受けの関係に基づいて、前記第1の言語の文の少なくとも前記所定の単位を含む構成単位と、前記第2の言語の文の少なくとも前記所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する対訳文生成部と
    を備えることを特徴とする対訳文生成装置。
  2. 前記構成単位には、係り元の前記所定の単位と、係り先の前記所定の単位との組構成が含まれ、
    前記対訳文生成部は、前記第1の言語の文と、前記第2の言語の文とにおいて、前記係り受けの関係が等しい前記組構成から成る文を対応付けて、前記新たな対訳文を生成する
    ことを特徴とする請求項1に記載の対訳文生成装置。
  3. 前記組構成には、主語と動詞との組が含まれ、
    前記対訳文生成部は、前記第1の言語の文と、前記第2の言語の文とにおいて、前記主語と動詞とから成る文を対応付けて、前記新たな対訳文を生成する
    ことを特徴とする請求項2に記載の対訳文生成装置。
  4. 請求項1から請求項3のいずれか一項に記載の対訳文生成装置が生成した前記新たな対訳文を含む対訳文の集合である対訳コーパスに基づき生成された学習モデルに基づいて、翻訳対象の文を翻訳することを特徴とする翻訳装置。
  5. 係り受け解析部が、取得された、第1の言語の文と、前記第1の言語とは異なる第2の言語の文とが対応付けられた対訳文の、前記第1の言語の文と、前記第2の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する係り受け解析ステップと、
    対訳文生成部が、前記係り受け解析ステップによって解析された前記係り受けの関係に基づいて、前記第1の言語の文の少なくとも前記所定の単位を含む構成単位と、前記第2の言語の文の少なくとも前記所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する対訳文生成ステップと
    を含むことを特徴とする対訳文生成方法。
  6. コンピュータに、
    取得された、第1の言語の文と、前記第1の言語とは異なる第2の言語の文とが対応付けられた対訳文の、前記第1の言語の文と、前記第2の言語の文とのそれぞれに対して、文において意味を持つ所定の単位における係り受けの関係を解析する係り受け解析ステップと、
    前記係り受け解析ステップによって解析された前記係り受けの関係に基づいて、前記第1の言語の文の少なくとも前記所定の単位を含む構成単位と、前記第2の言語の文の少なくとも前記所定の単位を含む構成単位とを対応付けて、新たな対訳文を生成する対訳文生成ステップと
    を実行させるためのプログラム。
JP2015055001A 2015-03-18 2015-03-18 対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラム Pending JP2016177341A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015055001A JP2016177341A (ja) 2015-03-18 2015-03-18 対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015055001A JP2016177341A (ja) 2015-03-18 2015-03-18 対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2016177341A true JP2016177341A (ja) 2016-10-06

Family

ID=57070070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015055001A Pending JP2016177341A (ja) 2015-03-18 2015-03-18 対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2016177341A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021099771A (ja) * 2019-12-19 2021-07-01 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 翻訳方法、装置、電子機器、可読記憶媒体、及びコンピュータープログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060095248A1 (en) * 2004-11-04 2006-05-04 Microsoft Corporation Machine translation system incorporating syntactic dependency treelets into a statistical framework
JP2006134311A (ja) * 2004-11-04 2006-05-25 Microsoft Corp ツリーレット翻訳対の抽出

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060095248A1 (en) * 2004-11-04 2006-05-04 Microsoft Corporation Machine translation system incorporating syntactic dependency treelets into a statistical framework
JP2006134311A (ja) * 2004-11-04 2006-05-25 Microsoft Corp ツリーレット翻訳対の抽出

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
山本 薫 外1名: "統計的係り受け結果を用いた対訳表現抽出", 情報処理学会論文誌, vol. 第42巻 第9号, JPN6018045628, 15 September 2001 (2001-09-15), JP, pages 2239 - 2247 *
後藤 功雄 外3名: "日英単言語Webコーパスからの対訳treebank自動獲得", 電子情報通信学会技術研究報告, vol. 第109巻第142号, JPN6018045630, 15 July 2009 (2009-07-15), JP, pages 37 - 44 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021099771A (ja) * 2019-12-19 2021-07-01 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 翻訳方法、装置、電子機器、可読記憶媒体、及びコンピュータープログラム
US11574135B2 (en) 2019-12-19 2023-02-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, electronic device and readable storage medium for translation

Similar Documents

Publication Publication Date Title
US10303761B2 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
JP5090547B2 (ja) 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法
US11288460B2 (en) Translation support system, etc
JP2009151777A (ja) 音声言語パラレルコーパスのアライメント方法及び装置
KR20140049150A (ko) 사용자 참여 기반의 자동 번역 생성 후처리 시스템
JP5973986B2 (ja) 翻訳システム、方法、及びプログラム
Hatem et al. Syntactic reordering for Arabic-English phrase-based machine translation
Sulaeman et al. Development of Indonesian-Japanese statistical machine translation using lemma translation and additional post-process
JP2017010274A (ja) 対応付け装置及びプログラム
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Yeong et al. Using dictionary and lemmatizer to improve low resource English-Malay statistical machine translation system
JP2016177341A (ja) 対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラム
Hatem et al. Morphological analysis for rule based machine translation
JP2015225662A (ja) 人名ユニット辞書の拡張方法、人名言語の認識方法及び人名言語の認識装置
JP2016057810A (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Rikters et al. Combining machine translated sentence chunks from multiple MT systems
JP2018032324A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
KR20160085100A (ko) 하이브리드 번역 장치 및 그 방법
Nidhi et al. English-maithili machine translation and divergence
JP2018055328A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
JP2006252290A (ja) 機械翻訳装置及びコンピュータプログラム
El-Shishtawy et al. The best templates match technique for example based machine translation
Ghaffar et al. English to arabic statistical machine translation system improvements using preprocessing and arabic morphology analysis
JP2017091382A (ja) 対訳辞書作成装置、対訳辞書作成方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190117

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190625