JP6259599B2 - 対訳評価装置、翻訳装置、対訳評価方法、及びプログラム - Google Patents

対訳評価装置、翻訳装置、対訳評価方法、及びプログラム Download PDF

Info

Publication number
JP6259599B2
JP6259599B2 JP2013148720A JP2013148720A JP6259599B2 JP 6259599 B2 JP6259599 B2 JP 6259599B2 JP 2013148720 A JP2013148720 A JP 2013148720A JP 2013148720 A JP2013148720 A JP 2013148720A JP 6259599 B2 JP6259599 B2 JP 6259599B2
Authority
JP
Japan
Prior art keywords
sentence
parallel translation
translation
unit
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013148720A
Other languages
English (en)
Other versions
JP2015022430A (ja
Inventor
松永 務
務 松永
正吾 新海
正吾 新海
智道 高山
智道 高山
高志 末永
高志 末永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2013148720A priority Critical patent/JP6259599B2/ja
Publication of JP2015022430A publication Critical patent/JP2015022430A/ja
Application granted granted Critical
Publication of JP6259599B2 publication Critical patent/JP6259599B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、対訳評価装置、翻訳装置、対訳評価方法、及びプログラムに関する。
近年、翻訳機能を計算機処理により実現する統計的機械翻訳方式を利用した翻訳装置が知られている。このような統計的機械翻訳方式では、大量で良質な対訳文の集合である対訳コーパスが必要とされる。
対訳コーパスの作成に関する技術としては、例えば、特許文献1に記載の技術が知られている。この特許文献1に記載の技術では、複数の翻訳結果に含まれる単語の頻度が高いものを正しいとする判断処理に基づいて対訳コーパスの作成が行われる。
特開2010−33392号公報
今村賢治 他、「直訳性に着目した対訳コーパスフィルタリング」、FIT(情報科学技術フォーラム)2002、E−52
上述の特許文献1に記載の技術では、原言語の文に対して複数個の翻訳文を作成し、翻訳文の各単語に対して「何個の翻訳文で用いられているか」をカウントし、カウントした値が所定の閾値以上となる単語のみを含むような翻訳文を対訳として採用することにより、質の良い対訳文を自動的に生成することを行っている。しかしながら、特許文献1に記載の技術では、複数の翻訳文の中での単語の出現頻度にのみ着目しているため、原言語と目的言語とでの単語の対応づけの揺らぎの影響を受ける。特許文献1に記載の技術では、例えば、「This is a pretty Chihuahua.」という原言語の文に対して「これはかわいいチワワだ。」及び「これはかわいい犬だ。」という2種類の翻訳文が得られ、「Chihuahua」に対する翻訳単語(チワワ、犬)のいずれも所定の閾値以上とならなかった場合に、正しい対訳文が得られないこととなる。
また、非特許文献1には、直訳性を利用して対訳コーパスをフィルタリングする技術が記載されている。すなわち、非特許文献1には、直訳性が高い文は、より機械翻訳に適しているとして、直訳性が高い対訳を集めることが記載されている。しかしながら、非特許文献1に記載の技術では、直訳となる(つまり、対応する)単語があるか否かのみに基づいて対訳文を評価しているため、文の構造的な情報については考慮することができない。このため、非特許文献1に記載の技術では、単語レベルでの対応づけは取れているものの、文の構造を考慮した場合に、対訳文としては不適切なものを除外することができない。
このように、上述の単語頻度ベースによる特許文献1に記載の技術、及び上述の直訳性を利用した非特許文献1に記載の技術では、対訳文を適切に評価することはできなかった。その結果、適切な対訳文が得られないため、上述の特許文献1及び非特許文献1に記載の技術を用いて生成された対訳文を利用した翻訳装置では、統計的機械翻訳の品質が低下する場合があった。
本発明は、上記問題を解決すべくなされたもので、その目的は、統計的機械翻訳の品質を向上させることができる対訳評価装置、翻訳装置、対訳評価方法、及びプログラムを提供することにある。
上記問題を解決するために、本発明の一態様は、言語の異なる文を対応付けた対訳文を記憶する対訳文記憶部から前記対訳文を取得する取得部と、文の構成要素である語句の並び順が、前記対訳文に対応付けられた前記言語の異なる文の間で一方の言語に近い語順である所定の順となるように前記対訳文の少なくとも1つの言語の文を変換する変換部と、前記変換部によって前記少なくとも1つの言語の文が変換された前記対訳文における語順に基づいて、前記対訳文を評価する評価値であって、比較対象に対する文の構成要素である語句の数と対訳文に係る構成要素の数とで構成される行列であって対角線状のパターンが設定された行列である固有のベクトルのパターンに基づく類似度を、前記評価値として算出する評価部とを備え、前記対訳文における異なる言語とは、日本語と英語とであり、前記所定の順は、英語の文の主辞を後置する主辞後置の順であり、前記変換部は、前記対訳文に含まれる英語の文を主辞後置英語に変換することを特徴とする対訳評価装置である。
また、本発明の一態様は、上記の対訳評価装置において、前記評価部は、対訳文において対応する単語を抽出し、前記少なくとも1つの文が変換された前記対訳文において対応する語句の並び順が類似する程、当該対訳文の適正度合が高くなるように、前記固有のベクトルのパターンに基づく類似度である部分空間法の類似度を、前記評価値として算出することを特徴とする。
また、本発明の一態様は、上記の対訳評価装置において、前記対訳文における異なる言語とは、日本語と英語とであり、前記変換部は、前記対訳文に含まれる英語の文を主辞後置英語に変換することを特徴とする。
また、本発明の一態様は、上記の対訳評価装置において、前記評価部によって算出された前記評価値に基づいて、前記対訳文を選択する選択部を備えることを特徴とする。
また、本発明の一態様は、上記の対訳評価装置による前記評価値に基づき選択された前記対訳文に基づいて学習モデルを生成し、生成した前記学習モデルに基づいて、翻訳対象の文を翻訳する翻訳装置である。
また、本発明の一態様は、取得部が、言語の異なる文を対応付けた対訳文を記憶する対訳文記憶部から前記対訳文を取得する取得ステップと、変換部が、文の構成要素である語句の並び順が、前記対訳文に対応付けられた前記言語の異なる文の間で一方の言語に近い語順である所定の順となるように前記対訳文の少なくとも1つの言語の文を変換する変換ステップと、評価部が、前記変換部によって前記少なくとも1つの言語の文が変換された前記対訳文における語順に基づいて、前記対訳文を評価する評価値であって、比較対象に対する文の構成要素である語句の数と対訳文に係る構成要素の数とで構成される行列であって対角線状のパターンが設定された行列である固有のベクトルのパターンに基づく類似度を、前記評価値として算出する評価ステップとを含み、前記対訳文における異なる言語とは、日本語と英語とであり、前記所定の順は、英語の文の主辞を後置する主辞後置の順であり、前記変換ステップにおいて、前記変換部が、前記対訳文に含まれる英語の文を主辞後置英語に変換することを特徴とする対訳評価方法である。
また、本発明の一態様は、コンピュータに、取得部が、言語の異なる文を対応付けた対訳文を記憶する対訳文記憶部から前記対訳文を取得する取得ステップと、変換部が、文の構成要素である語句の並び順が、前記対訳文に対応付けられた前記言語の異なる文の間で一方の言語に近い語順である所定の順となるように前記対訳文の少なくとも1つの言語の文を変換する変換ステップと、評価部が、前記変換部によって前記少なくとも1つの言語の文が変換された前記対訳文における語順に基づいて、前記対訳文を評価する評価値であって、比較対象に対する文の構成要素である語句の数と対訳文に係る構成要素の数とで構成される行列であって対角線状のパターンが設定された行列である固有のベクトルのパターンに基づく類似度を、前記評価値として算出する評価ステップとを実行させ、前記対訳文における異なる言語とは、日本語と英語とであり、前記所定の順は、英語の文の主辞を後置する主辞後置の順であり、前記変換ステップにおいて、前記対訳文に含まれる英語の文を主辞後置英語に変換する処理を実行させるためのプログラムである。
本発明によれば、対訳文を評価することができるので、適切な対訳文を得ることができる。よって、本発明によれば、統計的機械翻訳の品質を向上させることができる。
本実施形態による対訳評価装置の一例を示す概略ブロック図である。 本実施形態における対訳文DBのデータ構成の一例を示す図である。 HFE変換処理を実施しない場合の対応パターン行列の一例を示す図である。 本実施形態における対応パターン行列の一例を示す図である。 本実施形態における対角線状のパターン行列の一例を示す図である。 本実施形態における対訳文の評価処理の一例を示すフローチャートである。 本実施形態における評価部による評価処理の一例を示すフローチャートである。 本実施形態における対訳文の選択処理及びクリーンアップ処理の一例を示すフローチャートである。 本実施形態における翻訳システム及び翻訳装置の一例を示す概略ブロック図である。 本実施形態における翻訳装置の別の一例を示す概略ブロック図である。
以下、本発明の一実施形態による対訳評価装置、及び翻訳装置について、図面を参照して説明する。
[第1の実施形態]
まず、本発明に係る第1の実施形態について、図面を参照して説明する。
図1は、本実施形態による対訳評価装置1の一例を示す概略ブロック図である。
なお、第1の実施形態では、一例として、日本語文と英語文とを対応付けた対訳文の評価を行う対訳評価装置1について説明する。
図1において、対訳評価装置1は、対訳文取得部10、単語分割部20、変換ルール記憶部30、単語対応辞書記憶部40、変換部50、対応抽出部60、評価部70、及び選択部80を備えている。また、対訳評価装置1は、記憶装置2及びクリーンアップ処理装置3と接続される。
記憶装置2は、例えば、ストレージ装置やサーバ装置などの外部記憶装置である。記憶装置2は、少なくとも対訳文を評価する際に、対訳評価装置1に接続される。また、記憶装置2は、対訳文DB(データベース)記憶部21を備えている。
対訳文DB記憶部21(対訳文記憶部)は、言語の異なる2つの文を対応付けて対訳文として記憶する。ここで、対訳文における異なる2つの言語とは、例えば、日本語と英語とである。対訳文DB記憶部21は、例えば、日本語文と英語文とを対応付けた対訳文を複数有する対訳文の集合を対訳文DB(対訳コーパス)として記憶している。ここで、図2を参照して、対訳文DB記憶部21に日本語と英語との対訳文が記憶されている場合を例として、対訳文DBのデータ構成について説明する。
図2は、本実施形態における対訳文DBのデータ構成の一例を示す図である。
この図において、対訳文DB記憶部21は、「対訳文ID」、「日本語文」、及び「英語文」を関連付けて記憶する。ここで、「対訳文ID」は、対訳文を識別する識別情報を示し、「日本語文」及び「英語文」は、日本語と英語との対応する文を示している。対訳文DB記憶部21は、このような「対訳文ID」、「日本語文」、及び「英語文」を複数有している。
例えば、図2に示す例では、対訳文DB記憶部21は、「対訳文ID」が“1”〜“N”までの対訳文を記憶しており、「対訳文ID」における“k”は、任意のk番目の対訳文を示している。例えば、「対訳文ID」が“1”である対訳文は、「日本語文」が“彼は、東京にある会社で働いている。”であり、この「日本語文」に対応する「英語文」が、“He works for a company in Tokyo.”であることを示している。
図1に戻り、対訳文取得部10(取得部)は、日本語文と英語文との2つの文を対応付けて対訳文として記憶する対訳文DB記憶部21から対訳文を取得する。すなわち、対訳文取得部10は、言語の異なる文を対応付けた対訳文を記憶する対訳文DB記憶部21から対訳文を取得する。対訳文取得部10は、例えば、「対訳文ID」と、「対訳文ID」と関連付けられた対訳文とを対訳文DB記憶部21から取得し、取得した「対訳文ID」と、対訳文とを単語分割部20に出力する。なお、対訳文DB記憶部21は、複数の対訳文を記憶しており、対訳文取得部10は、評価の対象となる対訳文を順次、対訳文DB記憶部21から読み出して、読み出した対訳文を単語分割部20に出力する。
単語分割部20は、日本語文と英語文とのそれぞれに対して、単語に分割する処理を実行する。単語分割部20は、例えば、日本語の文については、形態素解析(形態素解析ソフトの代表例としては、「MeCab」など)し、英語の文については、スペース、カンマ(コロン、セミコロン等の区切り記号も含む)、ピリオドで分割する。単語分割部20は、例えば、“He works for a company in Tokyo.”という英語文に対して、後述する図3に示す英語文ES1のように“he”、“works”、“for”、“a”、“company”、“in”、“tokyo”、及び“.”の8個の単語に分割する。なお、単語分割部20は、英語文を分割する際に、大文字を小文字に変換する。また、単語分割部20は、例えば、“彼は、東京にある会社で働いている。”という日本語文に対して、図3に示す日本語文NS1のように“彼”、“は”、“、”、“東京”、“に”、“ある”、“会社”、“で”、“働い”、“て”、“いる”、及び“。”の12個の単語に分割する。単語分割部20は、「対訳文ID」及び単語に分割した日本語文を対応抽出部60に出力し、「対訳文ID」及び単語に分割した英語文を変換部50に出力する。
変換ルール記憶部30は、変換部50により、対訳の英語文をHFE(Head-Final English:主辞後置英語)に変換するための変換ルール情報を記憶する。なお、HFEに変換する処理の詳細については、後述する。変換ルール記憶部30は、例えば、英語の文法に基づく、構文や、構文の基本文型(例、「主語+動詞」など)等と、単語の並べ替えルールとを関連付けて記憶している。
単語対応辞書記憶部40は、例えば、日本語の単語と、当該単語の意味に対応する英語の単語とを対応付けた辞書情報を記憶する日英単語辞書である。
変換部50は、単語分割部20から出力された単語に分割された英語文(分割英語文)を、主辞後置性(係り受け関係の係り先が後ろに位置する)という日本語の特徴に基づく主辞後置英語(HFE)に変換する。ここで、主辞後置英語(HFE)とは、一般に、日本語と英語には言語上で語順の違いが大きいとされている中で、主辞後置性(係り受け関係の係り先が後ろに位置する)という日本語の特徴に基づき、日本語に近い語順に英語の並べ替えがされた英語文のことである。なお、主辞後置英語(HFE)には、後述する主辞後置英語の例のように、日本語に合わせて、“ga”(が)、“o”(を)などの助詞が補完される。
変換部50は、例えば、“he”、“works”、“for”、“a”、“company”、“in”、“tokyo”、及び“.”と分割された英語文を、後述する図4に示す英語文ES2のように“he”、“ga”、“tokyo”、“in”、“company”、“for”、“works”、及び“.”に並べ替える。このように、変換部50は、対訳文取得部10が取得した対訳文の2つの文において、2つの言語の対応する語句の順(単語や句の順序)が等しくなるように、2つの文のうちの少なくとも1つの文を変換する。すなわち、変換部50は、文の構成要素である語句の並び順が所定の順となるように対訳文の少なくとも1つの言語の文を変換する。また、変換部50は、構文解析部51と、並び替え部52とを備えている。
構文解析部51は、単語分割部20から出力された単語に分割された英語文(分割英語文)の構文を解析する。ここでいう構文とは、英語の基本文型、否定文、疑問文、仮定文などの英語の文法に基づく構文である。構文解析部51は、解析した構文を示す情報を並び替え部52に出力する。なお、代表的な構文解析ツールとしては、例えば、「Enju」がある。
並び替え部52は、構文解析部51が解析した構文情報と、変換ルール記憶部30が記憶する変換ルール情報とに基づいて、単語に分割された英語文(分割英語文)を、主辞後置英語(HFE)に並び替える。具体的に、並び替え部52は、構文解析部51が解析した構文情報に対応する変換ルール情報を変換ルール記憶部30から取得し、取得した変換ルール情報に基づいて、分割英語文を、主辞後置英語(HFE)に並び替える(変換する)。並び替え部52は、主辞後置英語(HFE)に変換した分割英語文(分割HFE文)と、「対訳文ID」とを対応抽出部60に出力する。
なお、英語文を主辞後置英語(HFE)に変換する手法は、例えば、特開2011-175500号公報に記載されている。また、主辞後置英語(HFE)には、助詞の代わりに、助詞に相当する語が入る可能性を示す助詞相当語が補完されてもよいし、主辞後置英語(HFE)は、助詞を補完されなくてもよい。
対応抽出部60は、単語に分割された日本語文(分割日本語文)と、分割HFE文との間の単語の対応づけを抽出する。対応抽出部60は、図4に示すように、分割日本語文の分割数(分割された文に含まれる単語の数)を行列の列のサイズ、分割HFE文の分割数(分割された文に含まれる単語の数)を行列の行のサイズに持つマトリクス(行列)を生成する。なお、この行列の各要素の初期値は「0」とする。対応抽出部60は、生成したマトリクスに分割日本語文の単語と、分割HFE文の単語とが対応する要素を「1」とした対応パターン行列を生成する。なお、図4に示す例では、説明上、値が「1」となる要素にマーク“●”(黒丸印)を記入している。
ここで、対応抽出部60は、例えば、分割日本語文の単語に対応する英語の単語を、単語対応辞書記憶部40から読み出し、読み出した英語の単語が分割HFE文の単語と一致する否かを判定する。次に、対応抽出部60は、読み出した英語の単語が分割HFE文の単語と一致する場合に、読み出した英語の単語に対応する日本語の単語を読み出し、読み出した日本語の単語が分割日本語文の単語と一致する否かを判定する。対応抽出部60は、読み出した日本語の単語が分割日本語文の単語と一致する場合に、分割日本語文の単語と、分割HFE文の単語とが対応していると判定し、当該分割日本語文の単語と、当該分割HFE文の単語とが対応する要素の値を「1」とする。このように、対応抽出部60は、単語対応辞書記憶部40が記憶する日英単語辞書に基づいて、相互からの検索により対応が判定できた単語を抽出することにより、対応パターン行列を生成する。
図4は、本実施形態における対応パターン行列の一例を示す図である。
図4に示す例は、分割HFE文の分割数(単語数)が8個であり、分割日本語文の分割数(単語数)が12個である場合の一例を示しており、この場合、対応抽出部60は、8行×12列の対応パターン行列(8行×12列の行列)を抽出する。なお、この図において、英語文ES2は、HFE変換された分割英語文を示し、日本語文NS1は、分割日本語文を示している。ずなわち、図4は、列に英語の単語、行に形態素解析された日本語の単語を割り当てた行列の情報を示した図である。
また、この対応パターン行列において、8行×12列のうち、対応抽出部60によって抽出された、英語文の単語と日本語文の単語とが対応する単語の数は、8個であることを示している。ここでは、対応抽出部60は、分割HFE文と、分割日本語文との対応づけを抽出しているため、対応パターン行列は、対角線状に近い要素に「1」(マーク“●”)が挿入される状態になっていることを示している。
この図において、対応抽出部60は、分割HFE文の各分割された単語を、出現順に行に対応づけ、分割日本語文の各分割された単語を出現順に列に対応づける(つまり、単語に分割された日本語文に含まれる各単語を文頭から順に、列に対応付ける)。図4に示す例では、1列目に“彼”、1行目に“he”が割り当てられている。対応抽出部60は、日本語単語に対応づけられた列と、その日本語単語に対応する英単語に対応付けられた行で指定される行列の要素を特定する。例えば、日本語の単語“彼”に対応づけられた英単語は“he”であるため、行列の要素の中から“彼”で指定される1列目と、“he”で指定される1行目より「1行1列」の要素が特定される。対応抽出部60は、特定された行列の要素を「1」とする。なお、図4では、値が「1」となる要素にマーク“●”(黒丸印)を記入している。また、マーク“●”が記入されていない要素の値は、初期値の「0」である。
このように、対応抽出部60は、単語の対応づけそれぞれに対して行列の要素を「1」とした結果である対応パターン行列を作成する。
対応抽出部60は、抽出した対応パターン行列と、「対訳文ID」とを評価部70に出力する。
なお、図3は、HFE変換処理を実施しない場合の対応パターン行列の一例を示す図である。
この図において、英語文ES1は、HFE変換される前の分割英語文を示し、日本語文NS1は、分割日本語文を示している。
HFE変換処理を実施しない場合には、図3に示すように、対応パターン行列は、対角線状に近い要素に「1」(マーク“●”)が挿入される状態にならないことを示している。
評価部70は、対応抽出部60が抽出した対応パターン行列に基づいて、対訳文の評価値を算出する。すなわち、評価部70は、言語の文が変換された対訳文における語順に基づいて、対訳文を評価する評価値を算出する。評価部70は、例えば、対訳文において対応する単語を抽出し、少なくとも1つの文が変換された対訳文において2つの言語の対応する語句の並び順が類似する程、当該対訳文の適正度合が高くなるように評価値を算出する。すなわち、評価部70は、変換された対訳文で対応する単語の出現位置(順序、語順)に基づき、その対訳文が統計的機械翻訳の学習モデルを作成する際に用いる対訳文として適切かどうかを評価する。評価部70は、句や語の出現順序が揃うように変換がなされた対訳文で、対応する単語の出現順序が類似していればいるほど、対訳文としてより適切であると評価する。
具体的に、評価部70は、例えば、部分空間法の類似度を対訳文の評価値として算出する。評価部70は、固有ベクトル生成部71と、評価値算出部72とを備えている。
固有ベクトル生成部71は、評価するn行×m列の対応パターン行列における対角線状のパターン行列群を生成する。ここで、“n”は、分割HFE文の分割数(単語数)を示し、“m”は、分割日本語文の分割数(単語数)を示している。この対角線状のパターン行列群は、固有ベクトルを生成するための基準となるパターン行列群である。固有ベクトル生成部71は、例えば、図5に示すような対角線状のパターン行列を複数生成する。ここで、図5を参照して、固有ベクトル生成部71による対角線状のパターン行列の生成について説明する。
図5は、本実施形態における対角線状のパターン行列の一例を示す図である。
ここでは、対応抽出部60が、8行×12列の対応パターン行列であって、対応が抽出された単語数が8個である場合における対角線状のパターン行列の一例を示している。
固有ベクトル生成部71は、0〜1の間の乱数Rを生成し、生成した乱数Rに基づいて、対応が抽出された単語数の数だけ、「1」を挿入する。なお、ここでは、図4に示す対応パターン行列と同様に、値が「1」となる要素にマーク“●”(黒丸印)を記入している。また、●印が記入されていない要素の値は、初期値の「0」である。具体的に、固有ベクトル生成部71は、乱数Rに英語文の分割数“8”を積算して小数点以下を切り捨てた値に“1”を加算した行数と、乱数Rに日本語文の分割数“12”を積算して小数点以下を切り捨てた値に“1”を加算した列数とが交差する要素に、「1」(マーク“●”)を追加する。固有ベクトル生成部71は、この値「1」を追加する処理を、複数回実行(例えば、対応が抽出された単語数である8回実行)し、図5に示すような対角線状のパターン行列を生成する。
また、固有ベクトル生成部71は、この対角線状のパターン行列を生成する処理を複数回実行して、対角線状のパターン行列群を生成する。固有ベクトル生成部71は、例えば、対応が抽出された単語数である“8”を十倍した数の回数だけ実行して、対角線状のパターン行列群を生成する。
固有ベクトル生成部71は、生成した対角線状のパターン行列群に基づいて、固有ベクトルを生成する。固有ベクトル生成部71は、対角線状のパターン行列をn行×m列の行列として、部分空間法の手法に基づいて、自己相関行列の固有ベクトルを生成する。ここで、対角線状のパターン行列群は、対応が抽出された単語数だけ対角線状にランダムに「1」が並ぶように生成されたパターン行列の集合である。
再び図1に戻り、評価値算出部72は、固有ベクトル生成部71が生成した固有ベクトルに基づいて、対応抽出部60が抽出した対応パターン行列の類似度を評価値として算出する。評価値算出部72は、対応パターン行列をn行×m列の行列として、例えば、部分空間法の手法を利用して、類似度L(0≦L≦1)を算出する。評価値算出部72は、固有ベクトルからなる部分空間に、対応抽出部60が抽出した対応パターン行列を射影して類似度を算出する。ここで、評価値算出部72は、対応抽出部60が抽出した対応パターン行列を(分割HFE文の分割数(単語数))×(分割日本語文の分割数(単語数))の要素数をもつ1次元ベクトルの形に変換して類似度を算出する。HFE分割英語文の分割数(単語数)個の列、分割日本語文の分割数(単語数)個の行を持つ行列を1次元ベクトルの形に変換する方法としては、例えば、行列の中からそれぞれの行(1つの行)を抽出し、抽出した行を連結する方法が適用できる。また、1次元ベクトルの形に変換する方法として、列を抽出して連結してもよい。
なお、本実施形態では、評価値算出部72が算出した類似度は、日本語と英語との対応する語句の順(単語や句の順序)が一致する程(対角線状の対応している程)、値が大きくなる。
このように、評価部70は、変換部50によって語順が変換された英語文(HFE変換英語文)と、日本語文との2つの文における語順に基づいて、対訳文を評価する評価値を算出する。また、評価部70は、HFE変換英語文と日本語文との2つの文における2つの言語(英語及び日本語)の対応する語句の順(単語や句の順序)が一致する程、評価値が高くなるように評価値を算出する。すなわち、評価値算出部72は、日本語文と英語文で対応する単語の語順が一致する程、高い評価値を算出する。評価部70は、例えば、類似度が大きくなれば大きくなるほど大きな値を与える関数を用いて類似度から評価値を求め、評価値が大きければ大きいほど対訳文として適切と判断することとしてもよい。また、評価部70は、評価値の大小と、対訳文としての適不適との間の対応関係は予め定めておき、予め定めた関係に沿う所定の評価関数を用いて評価値を算出してもよい。
評価部70は、算出した評価値と「対訳文ID」とを対応付けて、選択部80に出力する。
選択部80は、評価部70によって算出された評価値(類似度)に基づいて、対訳文を選択する。選択部80は、例えば、評価部70によって算出された評価値と、所定の評価値の大小と、対訳文としての適不適との対応関係の規則に基づき、対訳文としての適正度が高い(あるいは、低い)対訳文を選択する。評価部70による対訳文の選択方法としては、例えば、適正度が評価値と正の相関を持つ場合、評価値が予め定めた閾値以上(以下)の対訳文を学習用として選択する(学習に不適な削除対象として選択する)こととしてもよい。また、評価部70による対訳文の選択方法として、対訳文を評価値に基づきソートし、評価値が大きな値の順に予め定めた個数や割合の対訳文を学習に用いる対訳として選択することとしてもよい。
選択部80は、例えば、評価部70によって算出された評価値に基づいて、評価の対象である対訳文のランキングを算出する。ここで、選択部80は、対訳文ごとに算出される類似度を降順にソートすることにより対訳文のランキングを得ることができる。
選択部80は、例えば、対訳文DBが有する対訳文数の所定の割合以下(例えば、5%以下)にランキングされた対訳文を品質の悪い対訳文として選択する。なお、選択部80は、例えば、対訳文DBが有する対訳文数の所定の割合以上にランキングされた対訳文を品質の良い対訳文として選択してもよい。また、選択部80は、ランキングを算出せずに、評価部70によって算出された評価値(類似度)が所定の閾値以上である場合に、品質の良い対訳文として選択し、評価部70によって算出された評価値(類似度)が所定の閾値未満である場合に、品質の悪い対訳文として選択してもよい。
選択部80は、対訳文の選択結果をクリーンアップ処理装置3に出力する。
クリーンアップ処理装置3は、対訳文DB記憶部21が記憶する対訳文DBの品質を向上させるために、対訳評価装置1による評価値に基づいて選択された対訳文を保存、削除、又は編集する処理を実行する。これにより、対訳文DB記憶部21が記憶する対訳文DBは、品質の良い対訳文の集合にクリーンアップ処理される。
次に、本実施形態における対訳評価装置1の動作について、図面を参照して説明する。
対訳評価装置1は、例えば、対訳文DB(対訳コーパス)を新規に作成する場合、既に作成されている対訳文DBに対訳文を追加する場合、統計的機械翻訳の品質を改善したい場合などに、対訳文の評価処理を実行する。
<対訳文の評価処理>
図6は、本実施形態における対訳文の評価処理の一例を示すフローチャートである。
この図において、対訳評価装置1の対訳文取得部10は、対訳文DB記憶部21から評価対象となる対訳文を取得する(ステップS101)。対訳文取得部10は、例えば、「対訳文ID」と、「対訳文ID」と関連付けられた対訳文とを対訳文DB記憶部21から取得し、取得した「対訳文ID」と、対訳文とを単語分割部20に出力する。
次に、対訳評価装置1の単語分割部20は、日英それぞれの文を単語に分割する(ステップS102)。単語分割部20は、評価対象となる対訳文のうちの日本語文と英語文とのそれぞれに対して、単語に分割する処理を実行する。具体的に、単語分割部20は、図3に示す日本語文NS1のように、日本語文を単語に分割し、図3に示す英語文ES1のように英語文を単語に分割する。単語分割部20は、「対訳文ID」及び単語に分割した日本語文(分割日本語文)を対応抽出部60に出力するとともに、「対訳文ID」及び単語に分割した英語文(分割英語文)を変換部50に出力する。
次に、変換部50は、英語文を構造解析に基づきHFEに変換する(ステップS103)。すなわち、変換部50は、単語分割部20によって単語に分割された英語文(分割英語文)を、図4に示す英語文ES2のような日本語に近い語順の英語に並べ替える。
具体的には、変換部50の構文解析部51は、単語分割部20から出力された単語に分割された英語文(分割英語文)の構文を解析する。次に、変換部50の並び替え部52は、構文解析部51が解析した構文情報と、変換ルール記憶部30が記憶する変換ルール情報とに基づいて、分割英語文を、HFE(主辞後置英語)に並び替える。変換部50は、並べ替えた分割HFE文と「対訳文ID」とを対応抽出部60に出力する。
次に、対応抽出部60は、日英間で単語の対応関係を取得する(ステップS104)。具体的に、対応抽出部60は、例えば、分割日本語文の単語に対応する英語の単語を、単語対応辞書記憶部40から読み出し、読み出した英語の単語が分割HFE文の単語と一致する否かを判定する。次に、対応抽出部60は、読み出した英語の単語が分割HFE文の単語と一致する場合に、読み出した英語の単語に対応する日本語の単語を読み出し、読み出した日本語の単語が分割日本語文の単語と一致する否かを判定する。
次に、対応抽出部60は、単語の対応パターン行列を抽出する(ステップS105)。すなわち、対応抽出部60は、読み出した日本語の単語が分割日本語文の単語と一致する場合に、分割日本語文の単語と、分割HFE文の単語とが対応していると判定し、当該分割日本語文の単語と、当該分割HFE文の単語とが対応する要素の値を「1」にする。図4に示す例では、例えば、値が「1」となる要素にマーク“●”を記入する。すなわち、対応抽出部60は、単語対応辞書記憶部40が記憶する日英単語辞書に基づいて、日本語の単語及び英語の単語の相互からの検索により、対応が検出された単語を抽出することにより、対応パターン行列を抽出する。なお、この対応パターン行列は、対角線状に「1」(マーク“●”)が挿入されている対訳文である程、統計的機械翻訳に適している。対応抽出部60は、抽出した対応パターン行列と、「対訳文ID」とを評価部70に出力する。
次に、対訳評価装置1の評価部70は、対応パターン行列を評価する(ステップS106)。すなわち、評価部70は、対応抽出部60が抽出した対応パターン行列に基づいて、対訳文の評価値を算出する。具体的に、評価部70は、例えば、部分空間法の類似度を対訳文の評価値として算出する。評価部70は、算出した評価値と「対訳文ID」とを対応付けて、選択部80に出力する。
次に、対訳評価装置1は、次の評価対象の対訳文があるか否かを判定する(ステップS107)。例えば、対訳評価装置1の選択部80は、例えば、「対訳文ID」が対訳文DBに含まれる対訳文の数(例えば、“N”)に達したか否かを判定する。選択部80は、「対訳文ID」が“N”に達していない場合(ステップS107:YES)に、次の評価対象の対訳文があると判定し、処理をステップS101に進める。この場合、対訳評価装置1は、次の対象の対訳文に対して、ステップS101からステップS107の処理を繰り返す。
また、選択部80は、「対訳文ID」が“N”に達している場合(ステップS107:YNO)に、次の評価対象の対訳文がないと判定し、処理をステップS108に進める。
ステップS108において、選択部80は、評価値に基づいて対訳文を選択する。選択部80は、例えば、評価部70によって算出された評価値に基づいて、評価の対象である対訳文のランキングを算出し、算出したランキングに基づいて、例えば、品質の良い対訳文を選択する。具体的に、評価部70は、算出したランキングに基づいて、対訳文DBが有する対訳文数の所定の割合以上にランキングされた対訳文を品質の良い対訳文として選択(選定)する。
ステップS108の処理が完了した後、対訳評価装置1は、選択結果を対訳評価装置1の外部に出力して処理を終了する。
次に、本実施形態における評価部70による評価処理について説明する。
<評価部70による評価処理>
図7は、本実施形態における評価部70による評価処理の一例を示すフローチャートである。
この図において、評価部70の固有ベクトル生成部71は、まず、対角線状のパターン行列群を生成する(ステップS201)。固有ベクトル生成部71は、例えば、評価するn行×m列の対応パターン行列における対角線状のパターン行列群を生成する。ここで、対角線状のパターン行列群は、対応が抽出された単語数だけ対角線状にランダムに「1」が並ぶように生成されたパターンの集合である。また、固有ベクトル生成部71は、対応が抽出された単語数を十倍した数の対角線状のパターン行列を対角線状のパターン行列群として生成する。
次に、固有ベクトル生成部71は、生成した対角線状のパターン行列群から自己相関行列を算出する(ステップS202)。固有ベクトル生成部71は、例えば、部分空間法の手法に基づいて、対角線状のパターン行列群から自己相関行列を算出する。
次に、固有ベクトル生成部71は、算出した自己相関行列の固有ベクトルを算出する(ステップS203)。固有ベクトル生成部71は、例えば、部分空間法の手法に基づいて、算出した自己相関行列の固有ベクトルを生成する。
次に、評価部70の評価値算出部72は、対応パターン行列と固有ベクトルとに基づいて類似度を算出する(ステップS204)。すなわち、評価値算出部72は、固有ベクトル生成部71が生成した固有ベクトルに基づいて、対応抽出部60が抽出した対応パターン行列の類似度を評価値として算出する。なお、この類似度は、対応抽出部60が抽出した対応パターン行列が対角線状に“1”がある状態に近い程、高い値となる。すなわち、この類似度の値が大きい程、対訳文におけるHFE変換された英語文の単語の順番と、日本語文の単語の順番との対応が取れており、適切な対訳文であることを示している。例えば、ことわざなどのように、英語文と日本語文との間で、単語の対応、及び語順の対応が取り難い対訳文の場合には、統計的機械翻訳に用いる対訳文として適切でないため、類似度は低い値となる。
ステップS204の処理が完了した後に、評価部70は、選択部80に算出した類似度を出力して、評価処理を終了する。
なお、評価部70は、ステップS201からステップS204の処理を、対訳文ごとに、複数回実行する。
次に、本実施形態における対訳文の選択処理及びクリーンアップ処理について説明する。
<対訳文の選択処理及びクリーンアップ処理>
図8は、本実施形態における対訳文の選択処理及びクリーンアップ処理の一例を示すフローチャートである。
この図において、対訳評価装置1の選択部80は、評価部70が算出した類似度に基づいて、ランキングを生成する(ステップS301)。例えば、選択部80は、対訳文ごとに算出される類似度を降順にソートすることにより対訳文のランキングを算出する。ここで、ランキングは、例えば、対訳文を識別する「対訳文ID」と、類似度と、ランキングの順位を示す情報とが関連付けられている。
次に、選択部80は、ランキングに基づいて、対訳文を選択する(ステップS302)。選択部80は、例えば、対訳文DB(対訳コーパス)が有する対訳文数の所定の割合以下(例えば、5%以下)にランキングされた対訳文を品質の悪い対訳文として選択する。
次に、クリーンアップ処理装置3は、選択された対訳文に基づいて、対訳コーパスをクリーンアップ処理する(ステップS303)。ここで、クリーンアップ処理とは、対訳コーパスに含まれる対訳文を、追加、編集、又は削除して、対訳コーパスを改良(改善)することである。具体的に、クリーンアップ処理装置3は、例えば、選択部80によって選択された品質の悪い対訳文を対訳コーパスから削除する。すなわち、クリーンアップ処理装置3は、対訳文DB記憶部21から品質の悪い対訳文として選択された「対訳文ID」に対応する対訳文を削除する。これにより、対訳文DB(対訳コーパス)は、統計的機械翻訳に適した品質の良い対訳文が残され、対訳文DB(対訳コーパス)の品質が改善される。
以上説明したように、本実施形態による対訳評価装置1は、対訳文取得部10と、変換部50と、評価部70とを備えている。対訳文取得部10は、言語の異なる文(例えば、英語文及び日本語文)を対応付けた対訳文を記憶する対訳文DB記憶部21から対訳文を取得する。変換部50は、対訳文取得部10が取得した対訳文において、文の構成要素である語句の並び順が所定の順となるように対訳文の少なくとも1つの言語の文を変換する。そして、評価部70は、変換部50によって少なくとも1つの言語の文が変換された対訳文における語順に基づいて、対訳文を評価する評価値を算出する。なお、評価部70は、対訳文において対応する単語を抽出し、少なくとも1つの文が変換された対訳文において対応する語句の並び順が類似する程、当該対訳文の適正度合が高くなるように評価値を算出する。
これにより、対訳文を評価することができるので、本実施形態による対訳評価装置1は、例えば、統計的機械翻訳に適した適切な対訳文を得ることができる。そのため、対訳文を利用する統計的機械翻訳における誤訳を低減することができるので、本実施形態による対訳評価装置1は、対訳文を利用する翻訳装置における統計的機械翻訳の品質を向上させることができる。
また、例えば、単語頻度ベースによる特許文献1に記載のような技術では、例えば、「This is a pretty Chihuahua.」という原言語文に対して「これはかわいいチワワだ。」及び「これはかわいい犬だ。」という2種類の翻訳文が得られる場合に、正しい対訳文が得られないことがある。これに対して、本実施形態による対訳評価装置1は、語順に基づいて評価値を算出するので、正しい対訳文を得ることができる。
また、本実施形態による対訳評価装置1は、非特許文献1に記載のような技術と比べて、対訳文として不適切なものを除外することができる。
このように、本実施形態による対訳評価装置1は、誤った対訳文が作成されることを低減することができる。
また、本実施形態による対訳評価装置1は、対訳文を評価値により定量的に評価することができるので、例えば、人手により対訳文DB(対訳コーパス)のクリーンアップ処理を行う場合において、作業時間を低減することができる。そのため、本実施形態による対訳評価装置1は、対訳文DB(対訳コーパス)のクリーンアップ処理を行う場合に、効率的に実行することができるとともに、クリーンアップ処理に要するコストを低減することができる。
また、本実施形態における対訳評価装置1は、評価部70によって算出された評価値に基づいて、対訳文を選択する選択部80を備えている。
これにより、本実施形態における対訳評価装置1は、統計的機械翻訳に適した適切な対訳文を得ることができる。また、本実施形態における対訳評価装置1は、選択された適切な対訳文を統計的機械翻訳に利用することで、統計的機械翻訳の品質を向上させることができる。
また、選択部80は、評価部70によって算出された評価値に基づいて、対訳文のランキングを算出する。このランキングを用いて、対訳文DB(対訳コーパス)のクリーンアップ処理を行うことで、クリーンアップ処理に要する作業時間を低減することができる。
また、本実施形態では、対訳文における異なる言語とは、日本語と英語とであり、変換部50は、対訳文に含まれる英語の文を主辞後置英語に変換する。すなわち、変換部50が、英語文の単語の語順が日本語文と等しくなるように、語順を変換する。
これにより、本実施形態における対訳評価装置1は、日英翻訳における統計的機械翻訳に適した適切な対訳文を得ることができる。
また、本実施形態では、評価部70は、部分空間法に基づく類似度を対訳文の評価値として算出する。具体的に、評価部70は、対応抽出部60が抽出した対応パターン行列における分割HFE文の分割数(単語数)、分割日本語文の分割数(単語数)、及び、分割HFE文と分割日本語文との間で対応する単語の数に基づいて、対角線状のパターン行列群を生成し、対角線状のパターン行列群に基づいて、固有ベクトルを生成する。そして、評価部70は、生成した固有ベクトルと、対応抽出部60が抽出した対応パターン行列とに基づいて、部分空間法の類似度を評価値として算出する。
これにより、本実施形態における対訳評価装置1は、部分空間法の類似度という簡易な手法により、対訳文の単語数が異なる場合であっても、対訳文を定量的に評価することができる。なお、ここでの対訳文の単語数が異なる場合とは、英語文と日本語文との単語数が異なる場合、及び、英語文の単語数と日本語文の単語数との組み合わせが異なる場合を含んでいる。
また、本実施形態によれば、対訳評価方法は、取得ステップと、変換ステップと、評価ステップとを含んでいる。取得ステップにおいて、対訳文取得部10が、言語の異なる文(例えば、英語文及び日本語文)を対応付けた対訳文を記憶する対訳文DB記憶部21から対訳文を取得する。変換ステップにおいて、変換部50が、取得ステップによって取得された対訳文において、文の構成要素である語句の並び順が所定の順となるように対訳文の少なくとも1つの言語の文を変換する。評価ステップにおいて、評価部70が、変換ステップによって少なくとも1つの言語の文が変換された対訳文における語順に基づいて、対訳文を評価する評価値を算出する。
これにより、本実施形態における対訳評価方法は、統計的機械翻訳に適した適切な対訳文を得ることができる。そのため、本実施形態における対訳評価方法は、統計的機械翻訳の品質を向上させることができる。
[第2の実施形態]
次に、本発明に係る第2の実施形態について、図面を参照して説明する。
第2の実施形態では、第1の実施形態の対訳評価装置1が算出した評価値に基づいて、生成、又はクリーンアップ処理された対訳文DBを利用した翻訳システム及び翻訳装置の一例について説明する。
図9は、本実施形態による翻訳システム200及び翻訳装置100の一例を示す概略ブロック図である。
図9において、翻訳システム200は、対訳評価装置1、クリーンアップ処理装置3、及び翻訳装置100を備えている。また、翻訳装置100は、対訳文DB記憶部21、学習モデル生成部110、及び翻訳処理部120を備えている。また、翻訳処理部120は、学習モデル121を有している。この図において、図1に示す第1の実施形態と同一の構成には、同一の符号を付与している。
なお、本実施形態では、翻訳装置100が、対訳文DB記憶部21及び学習モデル生成部110を含む場合の一例について説明する。
対訳文DB記憶部21は、複数の対訳文を有する対訳文DBを記憶する。ここで、対訳文DBは、対訳評価装置1によって対訳文が評価され、クリーンアップ処理装置3が対訳評価装置1によって算出された評価値に基づいてクリーンアップ処理を実行された対訳コーパスである。
学習モデル生成部110は、対訳文DB記憶部21が記憶する対訳文DB(対訳コーパス)と、統計的機械翻訳の所定のアルゴリズムに基づいて、学習モデル121を生成する。学習モデル生成部110は、生成した学習モデル121を翻訳処理部120に供給(格納)する。
翻訳処理部120は、学習モデル生成部110によって生成された学習モデル121に基づいて、翻訳の対象文である入力された「元文」を対応する言語に翻訳し、「翻訳文」を出力する。翻訳処理部120は、例えば、日本語文が入力された場合に、日本語文の「元文」を、学習モデル121に基づいて英語文に翻訳し、英語文の「翻訳文」を出力する。また、翻訳処理部120は、例えば、英語文が入力された場合に、英語文の「元文」を、学習モデル121に基づいて日本語文に翻訳し、日本語文の「翻訳文」を出力する。
以上説明したように、本実施形態における翻訳装置100は、対訳文DB記憶部21と、学習モデル生成部110と、翻訳処理部120とを備えている。学習モデル生成部110は、対訳文DB記憶部21が記憶する対訳文DB(対訳コーパス)と、統計的機械翻訳の所定のアルゴリズムに基づいて、学習モデル121を生成する。翻訳処理部120は、学習モデル生成部110によって生成された学習モデル121に基づいて、翻訳処理を実行する。すなわち、翻訳装置100は、対訳評価装置1による評価値に基づき選択された対訳文(例えば、対訳文DB)に基づいて学習モデル121を生成し、生成した学習モデル121に基づいて、翻訳対象の文を翻訳する。
これにより、本実施形態における翻訳装置100は、対訳評価装置1により統計的機械翻訳に適した対訳文を得ることができるので、統計的機械翻訳の品質を向上させることができる。
なお、本発明は、上記の各実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で変更可能である。
例えば、上記の各実施形態では、日本語文と英語文との対訳文を評価し、日本語文と英語文との翻訳を行う場合について説明したが、日本語及び英語以外の言語の翻訳にてきようしてもよい。対訳評価装置1及び翻訳装置100は、例えば、日本語及び英語の他に、フランス語、ドイツ語、中国語、韓国語などの自然言語のうちのいずれかの2つの言語に対して適用してもよい。
また、上記の各実施形態では、対訳文に含まれる英語文を、後述のHFE変換処理を用いて句や単語の修飾関係が日本語と同じになるように変換しているが、対訳文に含まれる言語のいずれの言語文を変換するのかは適宜決定すればよく、変換処理についても変換元と先の言語に応じて適宜定めればよい。
また、上記の実施形態において、変換部50により英語文を日本語文の語順になるように変換する場合について説明したが、日本語文を英語文の語順になるように変換してもよいし、日本語文と英語文との両方に対して、2つの言語の対応する語句の順(単語や句の順序)が等しくなるように変換してもよい。
また、上記の実施形態において、対応抽出部60は、単語対応辞書記憶部40が記憶する日英単語辞書に基づいて、相互からの検索により対応が判定できた単語を抽出することにより、対応パターン行列を抽出する場合について説明したが、これに限定されるものではない。例えば、対応抽出部60は、単語対応辞書記憶部40が記憶する日英単語辞書に基づいて、一方の言語からの検索により対応が判定できた単語を抽出してもよい。すなわち、対応抽出部60は、英語文の単語からの検索により対応が判定できた単語を抽出する形態でもよいし、日本語文の単語からの検索により対応が判定できた単語を抽出する形態でもよい。
なお、対応抽出部60は、上記の実施形態に限定されるものではなく、対応抽出部60が、変換された対訳文で対応する単語の出現位置(順序、語順)を評価部70に受け渡せば他の形態でもよい。
例えば、対応抽出部60は、句や語の出現順序の整合が取れるように少なくとも1つの言語の対訳文を変換した後、変換された対訳文の中で対応する単語同士の出現位置を示す情報を受け渡すこととしてもよい。図4の例では、対応抽出部60は、例えば、(彼、1;he、1)、(は、2;ga、2)、(東京、4;Tokyo、3)、・・・、(。、12;.、8)の様な形式で情報を受け渡すこととしてもよい。
また、対応抽出部60での語の対応付けは、例えば、単語アライメントツールのGIZA++による対訳文集合における言語間の単語の翻訳の期待値最大化処理により実現してもよい。また、別の方法としては、単語に分割された日本語文(分割日本語文)に含まれる単語と、分割HFE文に含まれる単語の中で、翻訳関係にあるもの(例えば、日本語の“彼”と英語の“he”)を対応づけてもよい。対応抽出部60は、さらに、分割日本語文と分割HFE文とで対応付けられた語句の出現順序を特定して評価部に受け渡し、評価部70が単語の出現順序の類似度合(あるいは、一致度合)を求めてもよい。
また、上記の実施形態において、評価部70は、部分空間法の類似度を利用して評価値を算出する場合について説明したが、これに限定されるものではなく、2つの文における語順に基づいて、対訳文を評価する手法であれば、他の手法を適用してもよい。
例えば、対応抽出部から(彼、1;he、1)、(は、2;ga、2)、(東京、3;tokyo、3)、・・・、(。、12;.、8)の様な形式で情報を受け取った場合、評価部70は、次のように、評価することとしてもよい。評価部70は、日本語単語の出現位置(語順)をx座標値、英単語の出現位置をy座標値として、単語の対応づけ毎に座標値を作成する。評価部70は、作成した座標値群を最小二乗法により一次関数で近似し、近似した一次関数と座標値群に含まれる座標値との間の最小距離を求め、最小距離の和を座標群に含まれる座標値の数の逆数を乗じて正規化した値を求める。そして、評価部70は、正規化した値が小さければ小さいほど、その対訳文が適していると評価することとしても良い。
また、評価部70は、正規化した値から評価値を求める他の例としては、正規化した値が小さければ小さいほど、大きな値を与える関数を用いて正規化した値から求めた値を評価値とし、評価値が大きければ大きいほどその対訳文は適切と判定することとしてもよい。
また、別の一例として、評価部70は、例えば、一方の言語での単語の出現順序により受け取った情報(単語のペアと出現順序の情報)を昇順あるいは降順にソートし、並べ替えに用いなかった言語での単語の出現順序の中でソートに用いた規則(昇順あるいは降順)に合致しないものを抽出する。評価部70は、抽出された規則に合致しないものの数を対応抽出部60から受け取った単語ペアの数で正規化し、正規化した値が小さければ小さいほど、その対訳文が適していると評価することとしてもよい。
このように、評価部70は、固有ベクトル生成部71と評価値算出部72を用いない方法であってもよい。
また、上記の実施形態において、固有ベクトル生成部71は、例えば、対応が抽出された単語数である“8”を十倍した数の回数だけ実行して、対角線状のパターン行列群を生成する一例について説明したが、これに限定されるものではない。例えば、固有ベクトル生成部71は、対角線状のパターン行列群の分布を記述するのに相当する数、例えば、対応が抽出された単語数である”8”の二乗といった回数だけ実行して、対角線状のパターン行列群を生成してもよい。
また、上記の実施形態では、評価値算出部72において「良い対訳文であるほど(学習モデルを作成する際に用いる対訳文として適切であるほど)高い値を算出するような評価方法」を用いる場合について説明したが、これに限定されるものではない。すなわち、評価値算出部72は、日本語文と英語文で対応する単語の語順が一致する程、高い評価値を算出する場合に限定されずに、良い対訳文であるほど小さな値を算出するような評価方法を用いてもよい。
また、上記の実施形態では、単語分割部20、変換部50、対応抽出部60、及び評価部70の各構成が、取得した「対訳文ID」を出力する形態を説明したが、対訳文取得部10が取得した「対訳文ID」を不図示の記憶部に記憶させて、各構成が、それぞれこの記憶部から「対訳文ID」を読み出してもよい。
上記の実施形態において、対訳評価装置1が選択部80も含む形態で説明しているが、対訳評価装置1が対訳文を特定する識別情報と所定の規則(評価値の大小と、対訳文としての適正度合との関係を示す規則)に基づく評価値を選択装置に受け渡し、対訳評価装置1と同様の規則を共有する選択装置が対訳を選択する構成としてもよい。
また、上記の実施形態において、対訳評価装置1は、選択部80を含む場合について説明したが、選択部80を含まない形態であってもよい。また、クリーンアップ処理をクリーンアップ処理装置3が実行する場合について説明したが、人手によって、クリーンアップ処理が実施されてもよい。また、対訳評価装置1がクリーンアップ処理装置3を含み、クリーンアップ処理まで含めて対訳評価装置1が実行してもよい。
また、上記の実施形態において、評価部70が、固有ベクトルを生成するための対角線状のパターン行列群を生成する場合について説明したが、これに限定されるものではない。例えば、各対応パターン行列に応じた対角線状のパターン行列群が予め定められて記憶部に記憶されており、評価部70は、記憶部に記憶されている予め定められた対角線状のパターン行列群に基づいて、固有ベクトルを生成してもよい。また、例えば、各対応パターン行列に応じた固有ベクトルが予め生成されており、評価部70は、予め生成された固有ベクトルに基づいて、類似度を算出してもよい。
また、上記の実施形態において、対訳評価装置1は、変換ルール記憶部30及び単語対応辞書記憶部40を備える場合について説明したが、対訳文DB記憶部21と同様に、外部に存在する記憶装置2が変換ルール記憶部30及び単語対応辞書記憶部40を備える形態でもよい。また、記憶装置2は、ネットワークを介して、対訳評価装置1と接続されてもよい。
また、上記の実施形態において、翻訳装置100は、対訳評価装置1及びクリーンアップ処理装置3を備えない場合について説明したが、図10に示すように、対訳評価装置1及びクリーンアップ処理装置3を備える形態であってもよい。
図10は、本実施形態における翻訳装置100(100a)の別の一例を示す概略ブロック図である。この図において、図9と同一の構成には、同一の符号が不要されている。この図において、翻訳装置100aは、対訳評価装置1、クリーンアップ処理装置3、対訳文DB記憶部21、学習モデル生成部110、及び翻訳処理部120を備えている。このように構成された翻訳装置100aにおいても、図9に示す翻訳装置100と同様に、統計的機械翻訳の品質を向上させることができる。また、翻訳装置100aは、対訳評価装置1及びクリーンアップ処理装置3を備えているので、対訳文DBに対して、対訳文の追加、編集、削除などの対訳文DBの更新処理(クリーンアップ処理)を随時実行することができる。よって、翻訳装置100aは、動的に統計的機械翻訳の品質を向上させることができる。
また、翻訳装置100は、対訳文DB記憶部21及び学習モデル生成部110を備える場合について説明したが、対訳文DB記憶部21及び学習モデル生成部110を備えずに、予め生成された学習モデル121に基づいて翻訳処理を実行する形態でもよい。なお、この場合の学習モデル121は、対訳評価装置1による評価値に基づき選択された対訳文(対訳文DB)に基づいて予め生成されたものである。
また、上記の実施形態において、対訳評価装置1は、英語文と日本語文とを単語単位に分割して、単語の語順に基づいて評価値を算出する場合について説明したが、句単位、節(文節)単位、又は熟語単位などに分割して、句単位、節(文節)単位、又は熟語単位などの語順に基づいて評価値を算出してもよい。
なお、本発明における対訳評価装置1が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した対訳評価装置1が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやWAN、LAN、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、CD−ROM等の非一過性の記録媒体であってもよい。また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部または外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に対訳評価装置1が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
また、上述した機能の一部または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。上述した各機能は個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
1 対訳評価装置
2 記憶装置
3 クリーンアップ処理装置
10 対訳文取得部
20 単語分割部
21 対訳文DB記憶部
30 変換ルール記憶部
40 単語対応辞書記憶部
50 変換部
51 構文解析部
52 並び替え部
60 対応抽出部
70 評価部
71 固有ベクトル生成部
72 評価値算出部
80 選択部
100、100a 翻訳装置
110 学習モデル生成部
120 翻訳処理部
121 学習モデル
200 翻訳システム

Claims (6)

  1. 言語の異なる文を対応付けた対訳文を記憶する対訳文記憶部から前記対訳文を取得する取得部と、
    文の構成要素である語句の並び順が、前記対訳文に対応付けられた前記言語の異なる文の間で一方の言語に近い語順である所定の順になるように前記対訳文の少なくとも1つの言語の文を変換する変換部と、
    前記変換部によって前記少なくとも1つの言語の文が変換された前記対訳文における語順に基づいて、前記対訳文を評価する評価値であって、比較対象に対する文の構成要素である語句の数と対訳文に係る構成要素の数とで構成される行列であって対角線状のパターンが設定された行列である固有のベクトルのパターンに基づく類似度を、前記評価値として算出する評価部と
    を備え
    前記対訳文における異なる言語とは、日本語と英語とであり、
    前記所定の順は、英語の文の主辞を後置する主辞後置の順であり、
    前記変換部は、前記対訳文に含まれる英語の文を主辞後置英語に変換する
    とを特徴とする対訳評価装置。
  2. 前記評価部は、
    対訳文において対応する単語を抽出し、前記少なくとも1つの文が変換された前記対訳文において対応する語句の並び順が類似する程、当該対訳文の適正度合が高くなるように、前記固有のベクトルのパターンに基づく類似度である部分空間法の類似度を、前記評価値として算出する
    ことを特徴とする請求項1に記載の対訳評価装置。
  3. 前記評価部によって算出された前記評価値に基づいて、前記対訳文を選択する選択部
    を備えることを特徴とする請求項1又は請求項に記載の対訳評価装置。
  4. 請求項1から請求項のいずれか一項に記載の対訳評価装置による前記評価値に基づき選択された前記対訳文に基づいて学習モデルを生成し、生成した前記学習モデルに基づいて、翻訳対象の文を翻訳する翻訳装置。
  5. 取得部が、言語の異なる文を対応付けた対訳文を記憶する対訳文記憶部から前記対訳文を取得する取得ステップと、
    変換部が、文の構成要素である語句の並び順が、前記対訳文に対応付けられた前記言語の異なる文の間で一方の言語に近い語順である所定の順となるように前記対訳文の少なくとも1つの言語の文を変換する変換ステップと、
    評価部が、前記変換部によって前記少なくとも1つの言語の文が変換された前記対訳文における語順に基づいて、前記対訳文を評価する評価値であって、比較対象に対する文の構成要素である語句の数と対訳文に係る構成要素の数とで構成される行列であって対角線状のパターンが設定された行列である固有のベクトルのパターンに基づく類似度を、前記評価値として算出する評価ステップと
    を含み、
    前記対訳文における異なる言語とは、日本語と英語とであり、
    前記所定の順は、英語の文の主辞を後置する主辞後置の順であり、
    前記変換ステップにおいて、前記変換部が、前記対訳文に含まれる英語の文を主辞後置英語に変換する
    とを特徴とする対訳評価方法。
  6. コンピュータに、
    取得部が、言語の異なる文を対応付けた対訳文を記憶する対訳文記憶部から前記対訳文を取得する取得ステップと、
    変換部が、文の構成要素である語句の並び順が、前記対訳文に対応付けられた前記言語の異なる文の間で一方の言語に近い語順である所定の順となるように前記対訳文の少なくとも1つの言語の文を変換する変換ステップと、
    評価部が、前記変換部によって前記少なくとも1つの言語の文が変換された前記対訳文における語順に基づいて、前記対訳文を評価する評価値であって、比較対象に対する文の構成要素である語句の数と対訳文に係る構成要素の数とで構成される行列であって対角線状のパターンが設定された行列である固有のベクトルのパターンに基づく類似度を、前記評価値として算出する評価ステップと
    を実行させ
    前記対訳文における異なる言語とは、日本語と英語とであり、
    前記所定の順は、英語の文の主辞を後置する主辞後置の順であり、
    前記変換ステップにおいて、前記対訳文に含まれる英語の文を主辞後置英語に変換する処理を実行させるためのプログラム。
JP2013148720A 2013-07-17 2013-07-17 対訳評価装置、翻訳装置、対訳評価方法、及びプログラム Active JP6259599B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013148720A JP6259599B2 (ja) 2013-07-17 2013-07-17 対訳評価装置、翻訳装置、対訳評価方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013148720A JP6259599B2 (ja) 2013-07-17 2013-07-17 対訳評価装置、翻訳装置、対訳評価方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015022430A JP2015022430A (ja) 2015-02-02
JP6259599B2 true JP6259599B2 (ja) 2018-01-10

Family

ID=52486844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013148720A Active JP6259599B2 (ja) 2013-07-17 2013-07-17 対訳評価装置、翻訳装置、対訳評価方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6259599B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11829597B2 (en) 2019-08-06 2023-11-28 Samsung Electronics Co., Ltd Electronic device and method for processing handwriting input thereof

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642337B (zh) * 2020-05-11 2023-12-19 阿里巴巴集团控股有限公司 数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11829597B2 (en) 2019-08-06 2023-11-28 Samsung Electronics Co., Ltd Electronic device and method for processing handwriting input thereof

Also Published As

Publication number Publication date
JP2015022430A (ja) 2015-02-02

Similar Documents

Publication Publication Date Title
JP3906356B2 (ja) 構文解析方法及び装置
Huang et al. Rethinking chinese word segmentation: tokenization, character classification, or wordbreak identification
US20200234009A1 (en) Word semantic relation estimation device and word semantic relation estimation method
CN100454294C (zh) 用于将日文翻译成中文的设备
CN109815390B (zh) 多语言信息的检索方法、装置、计算机设备及计算机存储介质
KR20080052282A (ko) 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
CN101308512A (zh) 一种基于网页的互译翻译对抽取方法及装置
JP2015022431A (ja) 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム
JP6259599B2 (ja) 対訳評価装置、翻訳装置、対訳評価方法、及びプログラム
CN108701126B (zh) 主题推定装置、主题推定方法以及存储介质
US20140358522A1 (en) Information search apparatus and information search method
KR20100073163A (ko) 복합 명사 인식 장치 및 그 방법
JP6590723B2 (ja) 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム
CN114462427A (zh) 基于术语保护的机器翻译方法及装置
JP6564709B2 (ja) 文書き換え装置、方法、及びプログラム
JP5194920B2 (ja) 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
JP2009181301A (ja) 表現テンプレート生成装置、その方法およびそのプログラム
KR101735314B1 (ko) 하이브리드 번역 장치 및 그 방법
Nawab et al. External Plagiarism Detection using Information Retrieval and Sequence Alignment-Notebook for PAN at CLEF 2011.
Benko et al. Application of POS tagging in machine translation evaluation
JP2004348514A (ja) 対訳語抽出方法、対訳辞書構築方法及び翻訳メモリ構築方法
JP2019153056A (ja) 情報処理装置、及び情報処理プログラム
JP5521670B2 (ja) パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム
JP5521669B2 (ja) パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム
JP2016177341A (ja) 対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171211

R150 Certificate of patent or registration of utility model

Ref document number: 6259599

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250