JP6259599B2

JP6259599B2 - 対訳評価装置、翻訳装置、対訳評価方法、及びプログラム

Info

Publication number: JP6259599B2
Application number: JP2013148720A
Authority: JP
Inventors: 松永　務; 務松永; 正吾新海; 智道高山; 高志末永
Original assignee: NTT Data Corp
Current assignee: NTT Data Corp
Priority date: 2013-07-17
Filing date: 2013-07-17
Publication date: 2018-01-10
Anticipated expiration: 2033-07-17
Also published as: JP2015022430A

Description

本発明は、対訳評価装置、翻訳装置、対訳評価方法、及びプログラムに関する。

近年、翻訳機能を計算機処理により実現する統計的機械翻訳方式を利用した翻訳装置が知られている。このような統計的機械翻訳方式では、大量で良質な対訳文の集合である対訳コーパスが必要とされる。
対訳コーパスの作成に関する技術としては、例えば、特許文献１に記載の技術が知られている。この特許文献１に記載の技術では、複数の翻訳結果に含まれる単語の頻度が高いものを正しいとする判断処理に基づいて対訳コーパスの作成が行われる。

特開２０１０−３３３９２号公報

今村賢治他、「直訳性に着目した対訳コーパスフィルタリング」、ＦＩＴ（情報科学技術フォーラム）２００２、Ｅ−５２

上述の特許文献１に記載の技術では、原言語の文に対して複数個の翻訳文を作成し、翻訳文の各単語に対して「何個の翻訳文で用いられているか」をカウントし、カウントした値が所定の閾値以上となる単語のみを含むような翻訳文を対訳として採用することにより、質の良い対訳文を自動的に生成することを行っている。しかしながら、特許文献１に記載の技術では、複数の翻訳文の中での単語の出現頻度にのみ着目しているため、原言語と目的言語とでの単語の対応づけの揺らぎの影響を受ける。特許文献１に記載の技術では、例えば、「ＴｈｉｓｉｓａｐｒｅｔｔｙＣｈｉｈｕａｈｕａ．」という原言語の文に対して「これはかわいいチワワだ。」及び「これはかわいい犬だ。」という２種類の翻訳文が得られ、「Ｃｈｉｈｕａｈｕａ」に対する翻訳単語（チワワ、犬）のいずれも所定の閾値以上とならなかった場合に、正しい対訳文が得られないこととなる。

また、非特許文献１には、直訳性を利用して対訳コーパスをフィルタリングする技術が記載されている。すなわち、非特許文献１には、直訳性が高い文は、より機械翻訳に適しているとして、直訳性が高い対訳を集めることが記載されている。しかしながら、非特許文献１に記載の技術では、直訳となる（つまり、対応する）単語があるか否かのみに基づいて対訳文を評価しているため、文の構造的な情報については考慮することができない。このため、非特許文献１に記載の技術では、単語レベルでの対応づけは取れているものの、文の構造を考慮した場合に、対訳文としては不適切なものを除外することができない。

このように、上述の単語頻度ベースによる特許文献１に記載の技術、及び上述の直訳性を利用した非特許文献１に記載の技術では、対訳文を適切に評価することはできなかった。その結果、適切な対訳文が得られないため、上述の特許文献１及び非特許文献１に記載の技術を用いて生成された対訳文を利用した翻訳装置では、統計的機械翻訳の品質が低下する場合があった。

本発明は、上記問題を解決すべくなされたもので、その目的は、統計的機械翻訳の品質を向上させることができる対訳評価装置、翻訳装置、対訳評価方法、及びプログラムを提供することにある。

上記問題を解決するために、本発明の一態様は、言語の異なる文を対応付けた対訳文を記憶する対訳文記憶部から前記対訳文を取得する取得部と、文の構成要素である語句の並び順が、前記対訳文に対応付けられた前記言語の異なる文の間で一方の言語に近い語順である所定の順となるように前記対訳文の少なくとも１つの言語の文を変換する変換部と、前記変換部によって前記少なくとも１つの言語の文が変換された前記対訳文における語順に基づいて、前記対訳文を評価する評価値であって、比較対象に対する文の構成要素である語句の数と対訳文に係る構成要素の数とで構成される行列であって対角線状のパターンが設定された行列である固有のベクトルのパターンに基づく類似度を、前記評価値として算出する評価部とを備え、前記対訳文における異なる言語とは、日本語と英語とであり、前記所定の順は、英語の文の主辞を後置する主辞後置の順であり、前記変換部は、前記対訳文に含まれる英語の文を主辞後置英語に変換することを特徴とする対訳評価装置である。

また、本発明の一態様は、上記の対訳評価装置において、前記評価部は、対訳文において対応する単語を抽出し、前記少なくとも１つの文が変換された前記対訳文において対応する語句の並び順が類似する程、当該対訳文の適正度合が高くなるように、前記固有のベクトルのパターンに基づく類似度である部分空間法の類似度を、前記評価値として算出することを特徴とする。

また、本発明の一態様は、上記の対訳評価装置において、前記対訳文における異なる言語とは、日本語と英語とであり、前記変換部は、前記対訳文に含まれる英語の文を主辞後置英語に変換することを特徴とする。

また、本発明の一態様は、上記の対訳評価装置において、前記評価部によって算出された前記評価値に基づいて、前記対訳文を選択する選択部を備えることを特徴とする。

また、本発明の一態様は、上記の対訳評価装置による前記評価値に基づき選択された前記対訳文に基づいて学習モデルを生成し、生成した前記学習モデルに基づいて、翻訳対象の文を翻訳する翻訳装置である。

また、本発明の一態様は、取得部が、言語の異なる文を対応付けた対訳文を記憶する対訳文記憶部から前記対訳文を取得する取得ステップと、変換部が、文の構成要素である語句の並び順が、前記対訳文に対応付けられた前記言語の異なる文の間で一方の言語に近い語順である所定の順となるように前記対訳文の少なくとも１つの言語の文を変換する変換ステップと、評価部が、前記変換部によって前記少なくとも１つの言語の文が変換された前記対訳文における語順に基づいて、前記対訳文を評価する評価値であって、比較対象に対する文の構成要素である語句の数と対訳文に係る構成要素の数とで構成される行列であって対角線状のパターンが設定された行列である固有のベクトルのパターンに基づく類似度を、前記評価値として算出する評価ステップとを含み、前記対訳文における異なる言語とは、日本語と英語とであり、前記所定の順は、英語の文の主辞を後置する主辞後置の順であり、前記変換ステップにおいて、前記変換部が、前記対訳文に含まれる英語の文を主辞後置英語に変換することを特徴とする対訳評価方法である。

また、本発明の一態様は、コンピュータに、取得部が、言語の異なる文を対応付けた対訳文を記憶する対訳文記憶部から前記対訳文を取得する取得ステップと、変換部が、文の構成要素である語句の並び順が、前記対訳文に対応付けられた前記言語の異なる文の間で一方の言語に近い語順である所定の順となるように前記対訳文の少なくとも１つの言語の文を変換する変換ステップと、評価部が、前記変換部によって前記少なくとも１つの言語の文が変換された前記対訳文における語順に基づいて、前記対訳文を評価する評価値であって、比較対象に対する文の構成要素である語句の数と対訳文に係る構成要素の数とで構成される行列であって対角線状のパターンが設定された行列である固有のベクトルのパターンに基づく類似度を、前記評価値として算出する評価ステップとを実行させ、前記対訳文における異なる言語とは、日本語と英語とであり、前記所定の順は、英語の文の主辞を後置する主辞後置の順であり、前記変換ステップにおいて、前記対訳文に含まれる英語の文を主辞後置英語に変換する処理を実行させるためのプログラムである。

本発明によれば、対訳文を評価することができるので、適切な対訳文を得ることができる。よって、本発明によれば、統計的機械翻訳の品質を向上させることができる。

本実施形態による対訳評価装置の一例を示す概略ブロック図である。本実施形態における対訳文ＤＢのデータ構成の一例を示す図である。ＨＦＥ変換処理を実施しない場合の対応パターン行列の一例を示す図である。本実施形態における対応パターン行列の一例を示す図である。本実施形態における対角線状のパターン行列の一例を示す図である。本実施形態における対訳文の評価処理の一例を示すフローチャートである。本実施形態における評価部による評価処理の一例を示すフローチャートである。本実施形態における対訳文の選択処理及びクリーンアップ処理の一例を示すフローチャートである。本実施形態における翻訳システム及び翻訳装置の一例を示す概略ブロック図である。本実施形態における翻訳装置の別の一例を示す概略ブロック図である。

以下、本発明の一実施形態による対訳評価装置、及び翻訳装置について、図面を参照して説明する。
［第１の実施形態］
まず、本発明に係る第１の実施形態について、図面を参照して説明する。
図１は、本実施形態による対訳評価装置１の一例を示す概略ブロック図である。
なお、第１の実施形態では、一例として、日本語文と英語文とを対応付けた対訳文の評価を行う対訳評価装置１について説明する。

図１において、対訳評価装置１は、対訳文取得部１０、単語分割部２０、変換ルール記憶部３０、単語対応辞書記憶部４０、変換部５０、対応抽出部６０、評価部７０、及び選択部８０を備えている。また、対訳評価装置１は、記憶装置２及びクリーンアップ処理装置３と接続される。

記憶装置２は、例えば、ストレージ装置やサーバ装置などの外部記憶装置である。記憶装置２は、少なくとも対訳文を評価する際に、対訳評価装置１に接続される。また、記憶装置２は、対訳文ＤＢ（データベース）記憶部２１を備えている。

対訳文ＤＢ記憶部２１（対訳文記憶部）は、言語の異なる２つの文を対応付けて対訳文として記憶する。ここで、対訳文における異なる２つの言語とは、例えば、日本語と英語とである。対訳文ＤＢ記憶部２１は、例えば、日本語文と英語文とを対応付けた対訳文を複数有する対訳文の集合を対訳文ＤＢ（対訳コーパス）として記憶している。ここで、図２を参照して、対訳文ＤＢ記憶部２１に日本語と英語との対訳文が記憶されている場合を例として、対訳文ＤＢのデータ構成について説明する。

図２は、本実施形態における対訳文ＤＢのデータ構成の一例を示す図である。
この図において、対訳文ＤＢ記憶部２１は、「対訳文ＩＤ」、「日本語文」、及び「英語文」を関連付けて記憶する。ここで、「対訳文ＩＤ」は、対訳文を識別する識別情報を示し、「日本語文」及び「英語文」は、日本語と英語との対応する文を示している。対訳文ＤＢ記憶部２１は、このような「対訳文ＩＤ」、「日本語文」、及び「英語文」を複数有している。

例えば、図２に示す例では、対訳文ＤＢ記憶部２１は、「対訳文ＩＤ」が“１”〜“Ｎ”までの対訳文を記憶しており、「対訳文ＩＤ」における“ｋ”は、任意のｋ番目の対訳文を示している。例えば、「対訳文ＩＤ」が“１”である対訳文は、「日本語文」が“彼は、東京にある会社で働いている。”であり、この「日本語文」に対応する「英語文」が、“ＨｅｗｏｒｋｓｆｏｒａｃｏｍｐａｎｙｉｎＴｏｋｙｏ．”であることを示している。

図１に戻り、対訳文取得部１０（取得部）は、日本語文と英語文との２つの文を対応付けて対訳文として記憶する対訳文ＤＢ記憶部２１から対訳文を取得する。すなわち、対訳文取得部１０は、言語の異なる文を対応付けた対訳文を記憶する対訳文ＤＢ記憶部２１から対訳文を取得する。対訳文取得部１０は、例えば、「対訳文ＩＤ」と、「対訳文ＩＤ」と関連付けられた対訳文とを対訳文ＤＢ記憶部２１から取得し、取得した「対訳文ＩＤ」と、対訳文とを単語分割部２０に出力する。なお、対訳文ＤＢ記憶部２１は、複数の対訳文を記憶しており、対訳文取得部１０は、評価の対象となる対訳文を順次、対訳文ＤＢ記憶部２１から読み出して、読み出した対訳文を単語分割部２０に出力する。

単語分割部２０は、日本語文と英語文とのそれぞれに対して、単語に分割する処理を実行する。単語分割部２０は、例えば、日本語の文については、形態素解析（形態素解析ソフトの代表例としては、「MeCab」など）し、英語の文については、スペース、カンマ（コロン、セミコロン等の区切り記号も含む）、ピリオドで分割する。単語分割部２０は、例えば、“ＨｅｗｏｒｋｓｆｏｒａｃｏｍｐａｎｙｉｎＴｏｋｙｏ．”という英語文に対して、後述する図３に示す英語文ＥＳ１のように“ｈｅ”、“ｗｏｒｋｓ”、“ｆｏｒ”、“ａ”、“ｃｏｍｐａｎｙ”、“ｉｎ”、“ｔｏｋｙｏ”、及び“．”の８個の単語に分割する。なお、単語分割部２０は、英語文を分割する際に、大文字を小文字に変換する。また、単語分割部２０は、例えば、“彼は、東京にある会社で働いている。”という日本語文に対して、図３に示す日本語文ＮＳ１のように“彼”、“は”、“、”、“東京”、“に”、“ある”、“会社”、“で”、“働い”、“て”、“いる”、及び“。”の１２個の単語に分割する。単語分割部２０は、「対訳文ＩＤ」及び単語に分割した日本語文を対応抽出部６０に出力し、「対訳文ＩＤ」及び単語に分割した英語文を変換部５０に出力する。

変換ルール記憶部３０は、変換部５０により、対訳の英語文をＨＦＥ（Head-Final English：主辞後置英語）に変換するための変換ルール情報を記憶する。なお、ＨＦＥに変換する処理の詳細については、後述する。変換ルール記憶部３０は、例えば、英語の文法に基づく、構文や、構文の基本文型（例、「主語＋動詞」など）等と、単語の並べ替えルールとを関連付けて記憶している。

単語対応辞書記憶部４０は、例えば、日本語の単語と、当該単語の意味に対応する英語の単語とを対応付けた辞書情報を記憶する日英単語辞書である。

変換部５０は、単語分割部２０から出力された単語に分割された英語文（分割英語文）を、主辞後置性（係り受け関係の係り先が後ろに位置する）という日本語の特徴に基づく主辞後置英語（ＨＦＥ）に変換する。ここで、主辞後置英語（ＨＦＥ）とは、一般に、日本語と英語には言語上で語順の違いが大きいとされている中で、主辞後置性（係り受け関係の係り先が後ろに位置する）という日本語の特徴に基づき、日本語に近い語順に英語の並べ替えがされた英語文のことである。なお、主辞後置英語（ＨＦＥ）には、後述する主辞後置英語の例のように、日本語に合わせて、“ｇａ”（が）、“ｏ”（を）などの助詞が補完される。
変換部５０は、例えば、“ｈｅ”、“ｗｏｒｋｓ”、“ｆｏｒ”、“ａ”、“ｃｏｍｐａｎｙ”、“ｉｎ”、“ｔｏｋｙｏ”、及び“．”と分割された英語文を、後述する図４に示す英語文ＥＳ２のように“ｈｅ”、“ｇａ”、“ｔｏｋｙｏ”、“ｉｎ”、“ｃｏｍｐａｎｙ”、“ｆｏｒ”、“ｗｏｒｋｓ”、及び“．”に並べ替える。このように、変換部５０は、対訳文取得部１０が取得した対訳文の２つの文において、２つの言語の対応する語句の順（単語や句の順序）が等しくなるように、２つの文のうちの少なくとも１つの文を変換する。すなわち、変換部５０は、文の構成要素である語句の並び順が所定の順となるように対訳文の少なくとも１つの言語の文を変換する。また、変換部５０は、構文解析部５１と、並び替え部５２とを備えている。

構文解析部５１は、単語分割部２０から出力された単語に分割された英語文（分割英語文）の構文を解析する。ここでいう構文とは、英語の基本文型、否定文、疑問文、仮定文などの英語の文法に基づく構文である。構文解析部５１は、解析した構文を示す情報を並び替え部５２に出力する。なお、代表的な構文解析ツールとしては、例えば、「Enju」がある。

並び替え部５２は、構文解析部５１が解析した構文情報と、変換ルール記憶部３０が記憶する変換ルール情報とに基づいて、単語に分割された英語文（分割英語文）を、主辞後置英語（ＨＦＥ）に並び替える。具体的に、並び替え部５２は、構文解析部５１が解析した構文情報に対応する変換ルール情報を変換ルール記憶部３０から取得し、取得した変換ルール情報に基づいて、分割英語文を、主辞後置英語（ＨＦＥ）に並び替える（変換する）。並び替え部５２は、主辞後置英語（ＨＦＥ）に変換した分割英語文（分割ＨＦＥ文）と、「対訳文ＩＤ」とを対応抽出部６０に出力する。
なお、英語文を主辞後置英語（ＨＦＥ）に変換する手法は、例えば、特開２０１１-１７５５００号公報に記載されている。また、主辞後置英語（ＨＦＥ）には、助詞の代わりに、助詞に相当する語が入る可能性を示す助詞相当語が補完されてもよいし、主辞後置英語（ＨＦＥ）は、助詞を補完されなくてもよい。

対応抽出部６０は、単語に分割された日本語文（分割日本語文）と、分割ＨＦＥ文との間の単語の対応づけを抽出する。対応抽出部６０は、図４に示すように、分割日本語文の分割数（分割された文に含まれる単語の数）を行列の列のサイズ、分割ＨＦＥ文の分割数(分割された文に含まれる単語の数）を行列の行のサイズに持つマトリクス（行列）を生成する。なお、この行列の各要素の初期値は「０」とする。対応抽出部６０は、生成したマトリクスに分割日本語文の単語と、分割ＨＦＥ文の単語とが対応する要素を「１」とした対応パターン行列を生成する。なお、図４に示す例では、説明上、値が「１」となる要素にマーク“●”（黒丸印）を記入している。

ここで、対応抽出部６０は、例えば、分割日本語文の単語に対応する英語の単語を、単語対応辞書記憶部４０から読み出し、読み出した英語の単語が分割ＨＦＥ文の単語と一致する否かを判定する。次に、対応抽出部６０は、読み出した英語の単語が分割ＨＦＥ文の単語と一致する場合に、読み出した英語の単語に対応する日本語の単語を読み出し、読み出した日本語の単語が分割日本語文の単語と一致する否かを判定する。対応抽出部６０は、読み出した日本語の単語が分割日本語文の単語と一致する場合に、分割日本語文の単語と、分割ＨＦＥ文の単語とが対応していると判定し、当該分割日本語文の単語と、当該分割ＨＦＥ文の単語とが対応する要素の値を「１」とする。このように、対応抽出部６０は、単語対応辞書記憶部４０が記憶する日英単語辞書に基づいて、相互からの検索により対応が判定できた単語を抽出することにより、対応パターン行列を生成する。

図４は、本実施形態における対応パターン行列の一例を示す図である。
図４に示す例は、分割ＨＦＥ文の分割数（単語数）が８個であり、分割日本語文の分割数（単語数）が１２個である場合の一例を示しており、この場合、対応抽出部６０は、８行×１２列の対応パターン行列（８行×１２列の行列）を抽出する。なお、この図において、英語文ＥＳ２は、ＨＦＥ変換された分割英語文を示し、日本語文ＮＳ１は、分割日本語文を示している。ずなわち、図４は、列に英語の単語、行に形態素解析された日本語の単語を割り当てた行列の情報を示した図である。
また、この対応パターン行列において、８行×１２列のうち、対応抽出部６０によって抽出された、英語文の単語と日本語文の単語とが対応する単語の数は、８個であることを示している。ここでは、対応抽出部６０は、分割ＨＦＥ文と、分割日本語文との対応づけを抽出しているため、対応パターン行列は、対角線状に近い要素に「１」（マーク“●”）が挿入される状態になっていることを示している。

この図において、対応抽出部６０は、分割ＨＦＥ文の各分割された単語を、出現順に行に対応づけ、分割日本語文の各分割された単語を出現順に列に対応づける（つまり、単語に分割された日本語文に含まれる各単語を文頭から順に、列に対応付ける）。図４に示す例では、１列目に“彼”、１行目に“ｈｅ”が割り当てられている。対応抽出部６０は、日本語単語に対応づけられた列と、その日本語単語に対応する英単語に対応付けられた行で指定される行列の要素を特定する。例えば、日本語の単語“彼”に対応づけられた英単語は“ｈｅ”であるため、行列の要素の中から“彼”で指定される１列目と、“ｈｅ”で指定される１行目より「１行１列」の要素が特定される。対応抽出部６０は、特定された行列の要素を「１」とする。なお、図４では、値が「１」となる要素にマーク“●”（黒丸印）を記入している。また、マーク“●”が記入されていない要素の値は、初期値の「０」である。
このように、対応抽出部６０は、単語の対応づけそれぞれに対して行列の要素を「１」とした結果である対応パターン行列を作成する。
対応抽出部６０は、抽出した対応パターン行列と、「対訳文ＩＤ」とを評価部７０に出力する。

なお、図３は、ＨＦＥ変換処理を実施しない場合の対応パターン行列の一例を示す図である。
この図において、英語文ＥＳ１は、ＨＦＥ変換される前の分割英語文を示し、日本語文ＮＳ１は、分割日本語文を示している。
ＨＦＥ変換処理を実施しない場合には、図３に示すように、対応パターン行列は、対角線状に近い要素に「１」（マーク“●”）が挿入される状態にならないことを示している。

評価部７０は、対応抽出部６０が抽出した対応パターン行列に基づいて、対訳文の評価値を算出する。すなわち、評価部７０は、言語の文が変換された対訳文における語順に基づいて、対訳文を評価する評価値を算出する。評価部７０は、例えば、対訳文において対応する単語を抽出し、少なくとも１つの文が変換された対訳文において２つの言語の対応する語句の並び順が類似する程、当該対訳文の適正度合が高くなるように評価値を算出する。すなわち、評価部７０は、変換された対訳文で対応する単語の出現位置（順序、語順）に基づき、その対訳文が統計的機械翻訳の学習モデルを作成する際に用いる対訳文として適切かどうかを評価する。評価部７０は、句や語の出現順序が揃うように変換がなされた対訳文で、対応する単語の出現順序が類似していればいるほど、対訳文としてより適切であると評価する。
具体的に、評価部７０は、例えば、部分空間法の類似度を対訳文の評価値として算出する。評価部７０は、固有ベクトル生成部７１と、評価値算出部７２とを備えている。

固有ベクトル生成部７１は、評価するｎ行×ｍ列の対応パターン行列における対角線状のパターン行列群を生成する。ここで、“ｎ”は、分割ＨＦＥ文の分割数（単語数）を示し、“ｍ”は、分割日本語文の分割数（単語数）を示している。この対角線状のパターン行列群は、固有ベクトルを生成するための基準となるパターン行列群である。固有ベクトル生成部７１は、例えば、図５に示すような対角線状のパターン行列を複数生成する。ここで、図５を参照して、固有ベクトル生成部７１による対角線状のパターン行列の生成について説明する。

図５は、本実施形態における対角線状のパターン行列の一例を示す図である。
ここでは、対応抽出部６０が、８行×１２列の対応パターン行列であって、対応が抽出された単語数が８個である場合における対角線状のパターン行列の一例を示している。
固有ベクトル生成部７１は、０〜１の間の乱数Ｒを生成し、生成した乱数Ｒに基づいて、対応が抽出された単語数の数だけ、「１」を挿入する。なお、ここでは、図４に示す対応パターン行列と同様に、値が「１」となる要素にマーク“●”（黒丸印）を記入している。また、●印が記入されていない要素の値は、初期値の「０」である。具体的に、固有ベクトル生成部７１は、乱数Ｒに英語文の分割数“８”を積算して小数点以下を切り捨てた値に“１”を加算した行数と、乱数Ｒに日本語文の分割数“１２”を積算して小数点以下を切り捨てた値に“１”を加算した列数とが交差する要素に、「１」（マーク“●”）を追加する。固有ベクトル生成部７１は、この値「１」を追加する処理を、複数回実行（例えば、対応が抽出された単語数である８回実行）し、図５に示すような対角線状のパターン行列を生成する。
また、固有ベクトル生成部７１は、この対角線状のパターン行列を生成する処理を複数回実行して、対角線状のパターン行列群を生成する。固有ベクトル生成部７１は、例えば、対応が抽出された単語数である“８”を十倍した数の回数だけ実行して、対角線状のパターン行列群を生成する。

固有ベクトル生成部７１は、生成した対角線状のパターン行列群に基づいて、固有ベクトルを生成する。固有ベクトル生成部７１は、対角線状のパターン行列をｎ行×ｍ列の行列として、部分空間法の手法に基づいて、自己相関行列の固有ベクトルを生成する。ここで、対角線状のパターン行列群は、対応が抽出された単語数だけ対角線状にランダムに「１」が並ぶように生成されたパターン行列の集合である。

再び図１に戻り、評価値算出部７２は、固有ベクトル生成部７１が生成した固有ベクトルに基づいて、対応抽出部６０が抽出した対応パターン行列の類似度を評価値として算出する。評価値算出部７２は、対応パターン行列をｎ行×ｍ列の行列として、例えば、部分空間法の手法を利用して、類似度Ｌ（０≦Ｌ≦１）を算出する。評価値算出部７２は、固有ベクトルからなる部分空間に、対応抽出部６０が抽出した対応パターン行列を射影して類似度を算出する。ここで、評価値算出部７２は、対応抽出部６０が抽出した対応パターン行列を（分割ＨＦＥ文の分割数（単語数））×（分割日本語文の分割数（単語数））の要素数をもつ１次元ベクトルの形に変換して類似度を算出する。ＨＦＥ分割英語文の分割数（単語数）個の列、分割日本語文の分割数（単語数）個の行を持つ行列を１次元ベクトルの形に変換する方法としては、例えば、行列の中からそれぞれの行（１つの行）を抽出し、抽出した行を連結する方法が適用できる。また、１次元ベクトルの形に変換する方法として、列を抽出して連結してもよい。

なお、本実施形態では、評価値算出部７２が算出した類似度は、日本語と英語との対応する語句の順（単語や句の順序）が一致する程（対角線状の対応している程）、値が大きくなる。
このように、評価部７０は、変換部５０によって語順が変換された英語文（ＨＦＥ変換英語文）と、日本語文との２つの文における語順に基づいて、対訳文を評価する評価値を算出する。また、評価部７０は、ＨＦＥ変換英語文と日本語文との２つの文における２つの言語（英語及び日本語）の対応する語句の順（単語や句の順序）が一致する程、評価値が高くなるように評価値を算出する。すなわち、評価値算出部７２は、日本語文と英語文で対応する単語の語順が一致する程、高い評価値を算出する。評価部７０は、例えば、類似度が大きくなれば大きくなるほど大きな値を与える関数を用いて類似度から評価値を求め、評価値が大きければ大きいほど対訳文として適切と判断することとしてもよい。また、評価部７０は、評価値の大小と、対訳文としての適不適との間の対応関係は予め定めておき、予め定めた関係に沿う所定の評価関数を用いて評価値を算出してもよい。
評価部７０は、算出した評価値と「対訳文ＩＤ」とを対応付けて、選択部８０に出力する。

選択部８０は、評価部７０によって算出された評価値（類似度）に基づいて、対訳文を選択する。選択部８０は、例えば、評価部７０によって算出された評価値と、所定の評価値の大小と、対訳文としての適不適との対応関係の規則に基づき、対訳文としての適正度が高い（あるいは、低い）対訳文を選択する。評価部７０による対訳文の選択方法としては、例えば、適正度が評価値と正の相関を持つ場合、評価値が予め定めた閾値以上（以下）の対訳文を学習用として選択する（学習に不適な削除対象として選択する）こととしてもよい。また、評価部７０による対訳文の選択方法として、対訳文を評価値に基づきソートし、評価値が大きな値の順に予め定めた個数や割合の対訳文を学習に用いる対訳として選択することとしてもよい。

選択部８０は、例えば、評価部７０によって算出された評価値に基づいて、評価の対象である対訳文のランキングを算出する。ここで、選択部８０は、対訳文ごとに算出される類似度を降順にソートすることにより対訳文のランキングを得ることができる。
選択部８０は、例えば、対訳文ＤＢが有する対訳文数の所定の割合以下（例えば、５％以下）にランキングされた対訳文を品質の悪い対訳文として選択する。なお、選択部８０は、例えば、対訳文ＤＢが有する対訳文数の所定の割合以上にランキングされた対訳文を品質の良い対訳文として選択してもよい。また、選択部８０は、ランキングを算出せずに、評価部７０によって算出された評価値（類似度）が所定の閾値以上である場合に、品質の良い対訳文として選択し、評価部７０によって算出された評価値（類似度）が所定の閾値未満である場合に、品質の悪い対訳文として選択してもよい。
選択部８０は、対訳文の選択結果をクリーンアップ処理装置３に出力する。

クリーンアップ処理装置３は、対訳文ＤＢ記憶部２１が記憶する対訳文ＤＢの品質を向上させるために、対訳評価装置１による評価値に基づいて選択された対訳文を保存、削除、又は編集する処理を実行する。これにより、対訳文ＤＢ記憶部２１が記憶する対訳文ＤＢは、品質の良い対訳文の集合にクリーンアップ処理される。

次に、本実施形態における対訳評価装置１の動作について、図面を参照して説明する。
対訳評価装置１は、例えば、対訳文ＤＢ（対訳コーパス）を新規に作成する場合、既に作成されている対訳文ＤＢに対訳文を追加する場合、統計的機械翻訳の品質を改善したい場合などに、対訳文の評価処理を実行する。

＜対訳文の評価処理＞
図６は、本実施形態における対訳文の評価処理の一例を示すフローチャートである。
この図において、対訳評価装置１の対訳文取得部１０は、対訳文ＤＢ記憶部２１から評価対象となる対訳文を取得する（ステップＳ１０１）。対訳文取得部１０は、例えば、「対訳文ＩＤ」と、「対訳文ＩＤ」と関連付けられた対訳文とを対訳文ＤＢ記憶部２１から取得し、取得した「対訳文ＩＤ」と、対訳文とを単語分割部２０に出力する。

次に、対訳評価装置１の単語分割部２０は、日英それぞれの文を単語に分割する（ステップＳ１０２）。単語分割部２０は、評価対象となる対訳文のうちの日本語文と英語文とのそれぞれに対して、単語に分割する処理を実行する。具体的に、単語分割部２０は、図３に示す日本語文ＮＳ１のように、日本語文を単語に分割し、図３に示す英語文ＥＳ１のように英語文を単語に分割する。単語分割部２０は、「対訳文ＩＤ」及び単語に分割した日本語文（分割日本語文）を対応抽出部６０に出力するとともに、「対訳文ＩＤ」及び単語に分割した英語文（分割英語文）を変換部５０に出力する。

次に、変換部５０は、英語文を構造解析に基づきＨＦＥに変換する（ステップＳ１０３）。すなわち、変換部５０は、単語分割部２０によって単語に分割された英語文（分割英語文）を、図４に示す英語文ＥＳ２のような日本語に近い語順の英語に並べ替える。
具体的には、変換部５０の構文解析部５１は、単語分割部２０から出力された単語に分割された英語文（分割英語文）の構文を解析する。次に、変換部５０の並び替え部５２は、構文解析部５１が解析した構文情報と、変換ルール記憶部３０が記憶する変換ルール情報とに基づいて、分割英語文を、ＨＦＥ（主辞後置英語）に並び替える。変換部５０は、並べ替えた分割ＨＦＥ文と「対訳文ＩＤ」とを対応抽出部６０に出力する。

次に、対応抽出部６０は、日英間で単語の対応関係を取得する（ステップＳ１０４）。具体的に、対応抽出部６０は、例えば、分割日本語文の単語に対応する英語の単語を、単語対応辞書記憶部４０から読み出し、読み出した英語の単語が分割ＨＦＥ文の単語と一致する否かを判定する。次に、対応抽出部６０は、読み出した英語の単語が分割ＨＦＥ文の単語と一致する場合に、読み出した英語の単語に対応する日本語の単語を読み出し、読み出した日本語の単語が分割日本語文の単語と一致する否かを判定する。

次に、対応抽出部６０は、単語の対応パターン行列を抽出する（ステップＳ１０５）。すなわち、対応抽出部６０は、読み出した日本語の単語が分割日本語文の単語と一致する場合に、分割日本語文の単語と、分割ＨＦＥ文の単語とが対応していると判定し、当該分割日本語文の単語と、当該分割ＨＦＥ文の単語とが対応する要素の値を「１」にする。図４に示す例では、例えば、値が「１」となる要素にマーク“●”を記入する。すなわち、対応抽出部６０は、単語対応辞書記憶部４０が記憶する日英単語辞書に基づいて、日本語の単語及び英語の単語の相互からの検索により、対応が検出された単語を抽出することにより、対応パターン行列を抽出する。なお、この対応パターン行列は、対角線状に「１」（マーク“●”）が挿入されている対訳文である程、統計的機械翻訳に適している。対応抽出部６０は、抽出した対応パターン行列と、「対訳文ＩＤ」とを評価部７０に出力する。

次に、対訳評価装置１の評価部７０は、対応パターン行列を評価する（ステップＳ１０６）。すなわち、評価部７０は、対応抽出部６０が抽出した対応パターン行列に基づいて、対訳文の評価値を算出する。具体的に、評価部７０は、例えば、部分空間法の類似度を対訳文の評価値として算出する。評価部７０は、算出した評価値と「対訳文ＩＤ」とを対応付けて、選択部８０に出力する。

次に、対訳評価装置１は、次の評価対象の対訳文があるか否かを判定する（ステップＳ１０７）。例えば、対訳評価装置１の選択部８０は、例えば、「対訳文ＩＤ」が対訳文ＤＢに含まれる対訳文の数（例えば、“Ｎ”）に達したか否かを判定する。選択部８０は、「対訳文ＩＤ」が“Ｎ”に達していない場合（ステップＳ１０７：ＹＥＳ）に、次の評価対象の対訳文があると判定し、処理をステップＳ１０１に進める。この場合、対訳評価装置１は、次の対象の対訳文に対して、ステップＳ１０１からステップＳ１０７の処理を繰り返す。
また、選択部８０は、「対訳文ＩＤ」が“Ｎ”に達している場合（ステップＳ１０７：ＹＮＯ）に、次の評価対象の対訳文がないと判定し、処理をステップＳ１０８に進める。

ステップＳ１０８において、選択部８０は、評価値に基づいて対訳文を選択する。選択部８０は、例えば、評価部７０によって算出された評価値に基づいて、評価の対象である対訳文のランキングを算出し、算出したランキングに基づいて、例えば、品質の良い対訳文を選択する。具体的に、評価部７０は、算出したランキングに基づいて、対訳文ＤＢが有する対訳文数の所定の割合以上にランキングされた対訳文を品質の良い対訳文として選択（選定）する。
ステップＳ１０８の処理が完了した後、対訳評価装置１は、選択結果を対訳評価装置１の外部に出力して処理を終了する。

次に、本実施形態における評価部７０による評価処理について説明する。
＜評価部７０による評価処理＞
図７は、本実施形態における評価部７０による評価処理の一例を示すフローチャートである。
この図において、評価部７０の固有ベクトル生成部７１は、まず、対角線状のパターン行列群を生成する（ステップＳ２０１）。固有ベクトル生成部７１は、例えば、評価するｎ行×ｍ列の対応パターン行列における対角線状のパターン行列群を生成する。ここで、対角線状のパターン行列群は、対応が抽出された単語数だけ対角線状にランダムに「１」が並ぶように生成されたパターンの集合である。また、固有ベクトル生成部７１は、対応が抽出された単語数を十倍した数の対角線状のパターン行列を対角線状のパターン行列群として生成する。

次に、固有ベクトル生成部７１は、生成した対角線状のパターン行列群から自己相関行列を算出する（ステップＳ２０２）。固有ベクトル生成部７１は、例えば、部分空間法の手法に基づいて、対角線状のパターン行列群から自己相関行列を算出する。

次に、固有ベクトル生成部７１は、算出した自己相関行列の固有ベクトルを算出する（ステップＳ２０３）。固有ベクトル生成部７１は、例えば、部分空間法の手法に基づいて、算出した自己相関行列の固有ベクトルを生成する。

次に、評価部７０の評価値算出部７２は、対応パターン行列と固有ベクトルとに基づいて類似度を算出する（ステップＳ２０４）。すなわち、評価値算出部７２は、固有ベクトル生成部７１が生成した固有ベクトルに基づいて、対応抽出部６０が抽出した対応パターン行列の類似度を評価値として算出する。なお、この類似度は、対応抽出部６０が抽出した対応パターン行列が対角線状に“１”がある状態に近い程、高い値となる。すなわち、この類似度の値が大きい程、対訳文におけるＨＦＥ変換された英語文の単語の順番と、日本語文の単語の順番との対応が取れており、適切な対訳文であることを示している。例えば、ことわざなどのように、英語文と日本語文との間で、単語の対応、及び語順の対応が取り難い対訳文の場合には、統計的機械翻訳に用いる対訳文として適切でないため、類似度は低い値となる。
ステップＳ２０４の処理が完了した後に、評価部７０は、選択部８０に算出した類似度を出力して、評価処理を終了する。
なお、評価部７０は、ステップＳ２０１からステップＳ２０４の処理を、対訳文ごとに、複数回実行する。

次に、本実施形態における対訳文の選択処理及びクリーンアップ処理について説明する。
＜対訳文の選択処理及びクリーンアップ処理＞
図８は、本実施形態における対訳文の選択処理及びクリーンアップ処理の一例を示すフローチャートである。

この図において、対訳評価装置１の選択部８０は、評価部７０が算出した類似度に基づいて、ランキングを生成する（ステップＳ３０１）。例えば、選択部８０は、対訳文ごとに算出される類似度を降順にソートすることにより対訳文のランキングを算出する。ここで、ランキングは、例えば、対訳文を識別する「対訳文ＩＤ」と、類似度と、ランキングの順位を示す情報とが関連付けられている。

次に、選択部８０は、ランキングに基づいて、対訳文を選択する（ステップＳ３０２）。選択部８０は、例えば、対訳文ＤＢ（対訳コーパス）が有する対訳文数の所定の割合以下（例えば、５％以下）にランキングされた対訳文を品質の悪い対訳文として選択する。

次に、クリーンアップ処理装置３は、選択された対訳文に基づいて、対訳コーパスをクリーンアップ処理する（ステップＳ３０３）。ここで、クリーンアップ処理とは、対訳コーパスに含まれる対訳文を、追加、編集、又は削除して、対訳コーパスを改良（改善）することである。具体的に、クリーンアップ処理装置３は、例えば、選択部８０によって選択された品質の悪い対訳文を対訳コーパスから削除する。すなわち、クリーンアップ処理装置３は、対訳文ＤＢ記憶部２１から品質の悪い対訳文として選択された「対訳文ＩＤ」に対応する対訳文を削除する。これにより、対訳文ＤＢ（対訳コーパス）は、統計的機械翻訳に適した品質の良い対訳文が残され、対訳文ＤＢ（対訳コーパス）の品質が改善される。

以上説明したように、本実施形態による対訳評価装置１は、対訳文取得部１０と、変換部５０と、評価部７０とを備えている。対訳文取得部１０は、言語の異なる文（例えば、英語文及び日本語文）を対応付けた対訳文を記憶する対訳文ＤＢ記憶部２１から対訳文を取得する。変換部５０は、対訳文取得部１０が取得した対訳文において、文の構成要素である語句の並び順が所定の順となるように対訳文の少なくとも１つの言語の文を変換する。そして、評価部７０は、変換部５０によって少なくとも１つの言語の文が変換された対訳文における語順に基づいて、対訳文を評価する評価値を算出する。なお、評価部７０は、対訳文において対応する単語を抽出し、少なくとも１つの文が変換された対訳文において対応する語句の並び順が類似する程、当該対訳文の適正度合が高くなるように評価値を算出する。
これにより、対訳文を評価することができるので、本実施形態による対訳評価装置１は、例えば、統計的機械翻訳に適した適切な対訳文を得ることができる。そのため、対訳文を利用する統計的機械翻訳における誤訳を低減することができるので、本実施形態による対訳評価装置１は、対訳文を利用する翻訳装置における統計的機械翻訳の品質を向上させることができる。

また、例えば、単語頻度ベースによる特許文献１に記載のような技術では、例えば、「ＴｈｉｓｉｓａｐｒｅｔｔｙＣｈｉｈｕａｈｕａ．」という原言語文に対して「これはかわいいチワワだ。」及び「これはかわいい犬だ。」という２種類の翻訳文が得られる場合に、正しい対訳文が得られないことがある。これに対して、本実施形態による対訳評価装置１は、語順に基づいて評価値を算出するので、正しい対訳文を得ることができる。
また、本実施形態による対訳評価装置１は、非特許文献１に記載のような技術と比べて、対訳文として不適切なものを除外することができる。
このように、本実施形態による対訳評価装置１は、誤った対訳文が作成されることを低減することができる。

また、本実施形態による対訳評価装置１は、対訳文を評価値により定量的に評価することができるので、例えば、人手により対訳文ＤＢ（対訳コーパス）のクリーンアップ処理を行う場合において、作業時間を低減することができる。そのため、本実施形態による対訳評価装置１は、対訳文ＤＢ（対訳コーパス）のクリーンアップ処理を行う場合に、効率的に実行することができるとともに、クリーンアップ処理に要するコストを低減することができる。

また、本実施形態における対訳評価装置１は、評価部７０によって算出された評価値に基づいて、対訳文を選択する選択部８０を備えている。
これにより、本実施形態における対訳評価装置１は、統計的機械翻訳に適した適切な対訳文を得ることができる。また、本実施形態における対訳評価装置１は、選択された適切な対訳文を統計的機械翻訳に利用することで、統計的機械翻訳の品質を向上させることができる。

また、選択部８０は、評価部７０によって算出された評価値に基づいて、対訳文のランキングを算出する。このランキングを用いて、対訳文ＤＢ（対訳コーパス）のクリーンアップ処理を行うことで、クリーンアップ処理に要する作業時間を低減することができる。

また、本実施形態では、対訳文における異なる言語とは、日本語と英語とであり、変換部５０は、対訳文に含まれる英語の文を主辞後置英語に変換する。すなわち、変換部５０が、英語文の単語の語順が日本語文と等しくなるように、語順を変換する。
これにより、本実施形態における対訳評価装置１は、日英翻訳における統計的機械翻訳に適した適切な対訳文を得ることができる。

また、本実施形態では、評価部７０は、部分空間法に基づく類似度を対訳文の評価値として算出する。具体的に、評価部７０は、対応抽出部６０が抽出した対応パターン行列における分割ＨＦＥ文の分割数（単語数）、分割日本語文の分割数（単語数）、及び、分割ＨＦＥ文と分割日本語文との間で対応する単語の数に基づいて、対角線状のパターン行列群を生成し、対角線状のパターン行列群に基づいて、固有ベクトルを生成する。そして、評価部７０は、生成した固有ベクトルと、対応抽出部６０が抽出した対応パターン行列とに基づいて、部分空間法の類似度を評価値として算出する。
これにより、本実施形態における対訳評価装置１は、部分空間法の類似度という簡易な手法により、対訳文の単語数が異なる場合であっても、対訳文を定量的に評価することができる。なお、ここでの対訳文の単語数が異なる場合とは、英語文と日本語文との単語数が異なる場合、及び、英語文の単語数と日本語文の単語数との組み合わせが異なる場合を含んでいる。

また、本実施形態によれば、対訳評価方法は、取得ステップと、変換ステップと、評価ステップとを含んでいる。取得ステップにおいて、対訳文取得部１０が、言語の異なる文（例えば、英語文及び日本語文）を対応付けた対訳文を記憶する対訳文ＤＢ記憶部２１から対訳文を取得する。変換ステップにおいて、変換部５０が、取得ステップによって取得された対訳文において、文の構成要素である語句の並び順が所定の順となるように対訳文の少なくとも１つの言語の文を変換する。評価ステップにおいて、評価部７０が、変換ステップによって少なくとも１つの言語の文が変換された対訳文における語順に基づいて、対訳文を評価する評価値を算出する。
これにより、本実施形態における対訳評価方法は、統計的機械翻訳に適した適切な対訳文を得ることができる。そのため、本実施形態における対訳評価方法は、統計的機械翻訳の品質を向上させることができる。

［第２の実施形態］
次に、本発明に係る第２の実施形態について、図面を参照して説明する。
第２の実施形態では、第１の実施形態の対訳評価装置１が算出した評価値に基づいて、生成、又はクリーンアップ処理された対訳文ＤＢを利用した翻訳システム及び翻訳装置の一例について説明する。

図９は、本実施形態による翻訳システム２００及び翻訳装置１００の一例を示す概略ブロック図である。
図９において、翻訳システム２００は、対訳評価装置１、クリーンアップ処理装置３、及び翻訳装置１００を備えている。また、翻訳装置１００は、対訳文ＤＢ記憶部２１、学習モデル生成部１１０、及び翻訳処理部１２０を備えている。また、翻訳処理部１２０は、学習モデル１２１を有している。この図において、図１に示す第１の実施形態と同一の構成には、同一の符号を付与している。
なお、本実施形態では、翻訳装置１００が、対訳文ＤＢ記憶部２１及び学習モデル生成部１１０を含む場合の一例について説明する。

対訳文ＤＢ記憶部２１は、複数の対訳文を有する対訳文ＤＢを記憶する。ここで、対訳文ＤＢは、対訳評価装置１によって対訳文が評価され、クリーンアップ処理装置３が対訳評価装置１によって算出された評価値に基づいてクリーンアップ処理を実行された対訳コーパスである。

学習モデル生成部１１０は、対訳文ＤＢ記憶部２１が記憶する対訳文ＤＢ（対訳コーパス）と、統計的機械翻訳の所定のアルゴリズムに基づいて、学習モデル１２１を生成する。学習モデル生成部１１０は、生成した学習モデル１２１を翻訳処理部１２０に供給（格納）する。

翻訳処理部１２０は、学習モデル生成部１１０によって生成された学習モデル１２１に基づいて、翻訳の対象文である入力された「元文」を対応する言語に翻訳し、「翻訳文」を出力する。翻訳処理部１２０は、例えば、日本語文が入力された場合に、日本語文の「元文」を、学習モデル１２１に基づいて英語文に翻訳し、英語文の「翻訳文」を出力する。また、翻訳処理部１２０は、例えば、英語文が入力された場合に、英語文の「元文」を、学習モデル１２１に基づいて日本語文に翻訳し、日本語文の「翻訳文」を出力する。

以上説明したように、本実施形態における翻訳装置１００は、対訳文ＤＢ記憶部２１と、学習モデル生成部１１０と、翻訳処理部１２０とを備えている。学習モデル生成部１１０は、対訳文ＤＢ記憶部２１が記憶する対訳文ＤＢ（対訳コーパス）と、統計的機械翻訳の所定のアルゴリズムに基づいて、学習モデル１２１を生成する。翻訳処理部１２０は、学習モデル生成部１１０によって生成された学習モデル１２１に基づいて、翻訳処理を実行する。すなわち、翻訳装置１００は、対訳評価装置１による評価値に基づき選択された対訳文（例えば、対訳文ＤＢ）に基づいて学習モデル１２１を生成し、生成した学習モデル１２１に基づいて、翻訳対象の文を翻訳する。
これにより、本実施形態における翻訳装置１００は、対訳評価装置１により統計的機械翻訳に適した対訳文を得ることができるので、統計的機械翻訳の品質を向上させることができる。

なお、本発明は、上記の各実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で変更可能である。
例えば、上記の各実施形態では、日本語文と英語文との対訳文を評価し、日本語文と英語文との翻訳を行う場合について説明したが、日本語及び英語以外の言語の翻訳にてきようしてもよい。対訳評価装置１及び翻訳装置１００は、例えば、日本語及び英語の他に、フランス語、ドイツ語、中国語、韓国語などの自然言語のうちのいずれかの２つの言語に対して適用してもよい。
また、上記の各実施形態では、対訳文に含まれる英語文を、後述のＨＦＥ変換処理を用いて句や単語の修飾関係が日本語と同じになるように変換しているが、対訳文に含まれる言語のいずれの言語文を変換するのかは適宜決定すればよく、変換処理についても変換元と先の言語に応じて適宜定めればよい。

また、上記の実施形態において、変換部５０により英語文を日本語文の語順になるように変換する場合について説明したが、日本語文を英語文の語順になるように変換してもよいし、日本語文と英語文との両方に対して、２つの言語の対応する語句の順（単語や句の順序）が等しくなるように変換してもよい。

また、上記の実施形態において、対応抽出部６０は、単語対応辞書記憶部４０が記憶する日英単語辞書に基づいて、相互からの検索により対応が判定できた単語を抽出することにより、対応パターン行列を抽出する場合について説明したが、これに限定されるものではない。例えば、対応抽出部６０は、単語対応辞書記憶部４０が記憶する日英単語辞書に基づいて、一方の言語からの検索により対応が判定できた単語を抽出してもよい。すなわち、対応抽出部６０は、英語文の単語からの検索により対応が判定できた単語を抽出する形態でもよいし、日本語文の単語からの検索により対応が判定できた単語を抽出する形態でもよい。

なお、対応抽出部６０は、上記の実施形態に限定されるものではなく、対応抽出部６０が、変換された対訳文で対応する単語の出現位置（順序、語順）を評価部７０に受け渡せば他の形態でもよい。
例えば、対応抽出部６０は、句や語の出現順序の整合が取れるように少なくとも１つの言語の対訳文を変換した後、変換された対訳文の中で対応する単語同士の出現位置を示す情報を受け渡すこととしてもよい。図４の例では、対応抽出部６０は、例えば、（彼、１；ｈｅ、１）、（は、２；ｇａ、２）、（東京、４；Ｔｏｋｙｏ、３）、・・・、（。、１２；.、８）の様な形式で情報を受け渡すこととしてもよい。
また、対応抽出部６０での語の対応付けは、例えば、単語アライメントツールのGIZA++による対訳文集合における言語間の単語の翻訳の期待値最大化処理により実現してもよい。また、別の方法としては、単語に分割された日本語文(分割日本語文)に含まれる単語と、分割HFE文に含まれる単語の中で、翻訳関係にあるもの（例えば、日本語の“彼”と英語の“ｈｅ”）を対応づけてもよい。対応抽出部６０は、さらに、分割日本語文と分割ＨＦＥ文とで対応付けられた語句の出現順序を特定して評価部に受け渡し、評価部７０が単語の出現順序の類似度合（あるいは、一致度合）を求めてもよい。

また、上記の実施形態において、評価部７０は、部分空間法の類似度を利用して評価値を算出する場合について説明したが、これに限定されるものではなく、２つの文における語順に基づいて、対訳文を評価する手法であれば、他の手法を適用してもよい。
例えば、対応抽出部から（彼、１；ｈｅ、１）、（は、２；ｇａ、２）、（東京、３；ｔｏｋｙｏ、３）、・・・、（。、１２；.、８）の様な形式で情報を受け取った場合、評価部７０は、次のように、評価することとしてもよい。評価部７０は、日本語単語の出現位置（語順）をｘ座標値、英単語の出現位置をｙ座標値として、単語の対応づけ毎に座標値を作成する。評価部７０は、作成した座標値群を最小二乗法により一次関数で近似し、近似した一次関数と座標値群に含まれる座標値との間の最小距離を求め、最小距離の和を座標群に含まれる座標値の数の逆数を乗じて正規化した値を求める。そして、評価部７０は、正規化した値が小さければ小さいほど、その対訳文が適していると評価することとしても良い。

また、評価部７０は、正規化した値から評価値を求める他の例としては、正規化した値が小さければ小さいほど、大きな値を与える関数を用いて正規化した値から求めた値を評価値とし、評価値が大きければ大きいほどその対訳文は適切と判定することとしてもよい。
また、別の一例として、評価部７０は、例えば、一方の言語での単語の出現順序により受け取った情報（単語のペアと出現順序の情報）を昇順あるいは降順にソートし、並べ替えに用いなかった言語での単語の出現順序の中でソートに用いた規則（昇順あるいは降順）に合致しないものを抽出する。評価部７０は、抽出された規則に合致しないものの数を対応抽出部６０から受け取った単語ペアの数で正規化し、正規化した値が小さければ小さいほど、その対訳文が適していると評価することとしてもよい。
このように、評価部７０は、固有ベクトル生成部７１と評価値算出部７２を用いない方法であってもよい。

また、上記の実施形態において、固有ベクトル生成部７１は、例えば、対応が抽出された単語数である“８”を十倍した数の回数だけ実行して、対角線状のパターン行列群を生成する一例について説明したが、これに限定されるものではない。例えば、固有ベクトル生成部７１は、対角線状のパターン行列群の分布を記述するのに相当する数、例えば、対応が抽出された単語数である”８”の二乗といった回数だけ実行して、対角線状のパターン行列群を生成してもよい。

また、上記の実施形態では、評価値算出部７２において「良い対訳文であるほど（学習モデルを作成する際に用いる対訳文として適切であるほど）高い値を算出するような評価方法」を用いる場合について説明したが、これに限定されるものではない。すなわち、評価値算出部７２は、日本語文と英語文で対応する単語の語順が一致する程、高い評価値を算出する場合に限定されずに、良い対訳文であるほど小さな値を算出するような評価方法を用いてもよい。
また、上記の実施形態では、単語分割部２０、変換部５０、対応抽出部６０、及び評価部７０の各構成が、取得した「対訳文ＩＤ」を出力する形態を説明したが、対訳文取得部１０が取得した「対訳文ＩＤ」を不図示の記憶部に記憶させて、各構成が、それぞれこの記憶部から「対訳文ＩＤ」を読み出してもよい。

上記の実施形態において、対訳評価装置１が選択部８０も含む形態で説明しているが、対訳評価装置１が対訳文を特定する識別情報と所定の規則（評価値の大小と、対訳文としての適正度合との関係を示す規則）に基づく評価値を選択装置に受け渡し、対訳評価装置１と同様の規則を共有する選択装置が対訳を選択する構成としてもよい。
また、上記の実施形態において、対訳評価装置１は、選択部８０を含む場合について説明したが、選択部８０を含まない形態であってもよい。また、クリーンアップ処理をクリーンアップ処理装置３が実行する場合について説明したが、人手によって、クリーンアップ処理が実施されてもよい。また、対訳評価装置１がクリーンアップ処理装置３を含み、クリーンアップ処理まで含めて対訳評価装置１が実行してもよい。

また、上記の実施形態において、評価部７０が、固有ベクトルを生成するための対角線状のパターン行列群を生成する場合について説明したが、これに限定されるものではない。例えば、各対応パターン行列に応じた対角線状のパターン行列群が予め定められて記憶部に記憶されており、評価部７０は、記憶部に記憶されている予め定められた対角線状のパターン行列群に基づいて、固有ベクトルを生成してもよい。また、例えば、各対応パターン行列に応じた固有ベクトルが予め生成されており、評価部７０は、予め生成された固有ベクトルに基づいて、類似度を算出してもよい。

また、上記の実施形態において、対訳評価装置１は、変換ルール記憶部３０及び単語対応辞書記憶部４０を備える場合について説明したが、対訳文ＤＢ記憶部２１と同様に、外部に存在する記憶装置２が変換ルール記憶部３０及び単語対応辞書記憶部４０を備える形態でもよい。また、記憶装置２は、ネットワークを介して、対訳評価装置１と接続されてもよい。

また、上記の実施形態において、翻訳装置１００は、対訳評価装置１及びクリーンアップ処理装置３を備えない場合について説明したが、図１０に示すように、対訳評価装置１及びクリーンアップ処理装置３を備える形態であってもよい。
図１０は、本実施形態における翻訳装置１００（１００ａ）の別の一例を示す概略ブロック図である。この図において、図９と同一の構成には、同一の符号が不要されている。この図において、翻訳装置１００ａは、対訳評価装置１、クリーンアップ処理装置３、対訳文ＤＢ記憶部２１、学習モデル生成部１１０、及び翻訳処理部１２０を備えている。このように構成された翻訳装置１００ａにおいても、図９に示す翻訳装置１００と同様に、統計的機械翻訳の品質を向上させることができる。また、翻訳装置１００ａは、対訳評価装置１及びクリーンアップ処理装置３を備えているので、対訳文ＤＢに対して、対訳文の追加、編集、削除などの対訳文ＤＢの更新処理（クリーンアップ処理）を随時実行することができる。よって、翻訳装置１００ａは、動的に統計的機械翻訳の品質を向上させることができる。

また、翻訳装置１００は、対訳文ＤＢ記憶部２１及び学習モデル生成部１１０を備える場合について説明したが、対訳文ＤＢ記憶部２１及び学習モデル生成部１１０を備えずに、予め生成された学習モデル１２１に基づいて翻訳処理を実行する形態でもよい。なお、この場合の学習モデル１２１は、対訳評価装置１による評価値に基づき選択された対訳文（対訳文ＤＢ）に基づいて予め生成されたものである。

また、上記の実施形態において、対訳評価装置１は、英語文と日本語文とを単語単位に分割して、単語の語順に基づいて評価値を算出する場合について説明したが、句単位、節（文節）単位、又は熟語単位などに分割して、句単位、節（文節）単位、又は熟語単位などの語順に基づいて評価値を算出してもよい。

なお、本発明における対訳評価装置１が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した対訳評価装置１が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやＷＡＮ、ＬＡＮ、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、ＣＤ−ＲＯＭ等の非一過性の記録媒体であってもよい。また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部または外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に対訳評価装置１が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

また、上述した機能の一部または全部を、ＬＳＩ（Large Scale Integration）等の集積回路として実現してもよい。上述した各機能は個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

１対訳評価装置
２記憶装置
３クリーンアップ処理装置
１０対訳文取得部
２０単語分割部
２１対訳文ＤＢ記憶部
３０変換ルール記憶部
４０単語対応辞書記憶部
５０変換部
５１構文解析部
５２並び替え部
６０対応抽出部
７０評価部
７１固有ベクトル生成部
７２評価値算出部
８０選択部
１００、１００ａ翻訳装置
１１０学習モデル生成部
１２０翻訳処理部
１２１学習モデル
２００翻訳システム

Claims

言語の異なる文を対応付けた対訳文を記憶する対訳文記憶部から前記対訳文を取得する取得部と、
文の構成要素である語句の並び順が、前記対訳文に対応付けられた前記言語の異なる文の間で一方の言語に近い語順である所定の順になるように前記対訳文の少なくとも１つの言語の文を変換する変換部と、
前記変換部によって前記少なくとも１つの言語の文が変換された前記対訳文における語順に基づいて、前記対訳文を評価する評価値であって、比較対象に対する文の構成要素である語句の数と対訳文に係る構成要素の数とで構成される行列であって対角線状のパターンが設定された行列である固有のベクトルのパターンに基づく類似度を、前記評価値として算出する評価部と
を備え、
前記対訳文における異なる言語とは、日本語と英語とであり、
前記所定の順は、英語の文の主辞を後置する主辞後置の順であり、
前記変換部は、前記対訳文に含まれる英語の文を主辞後置英語に変換する
ことを特徴とする対訳評価装置。
前記評価部は、
対訳文において対応する単語を抽出し、前記少なくとも１つの文が変換された前記対訳文において対応する語句の並び順が類似する程、当該対訳文の適正度合が高くなるように、前記固有のベクトルのパターンに基づく類似度である部分空間法の類似度を、前記評価値として算出する
ことを特徴とする請求項１に記載の対訳評価装置。
前記評価部によって算出された前記評価値に基づいて、前記対訳文を選択する選択部
を備えることを特徴とする請求項１又は請求項２に記載の対訳評価装置。
請求項１から請求項３のいずれか一項に記載の対訳評価装置による前記評価値に基づき選択された前記対訳文に基づいて学習モデルを生成し、生成した前記学習モデルに基づいて、翻訳対象の文を翻訳する翻訳装置。
取得部が、言語の異なる文を対応付けた対訳文を記憶する対訳文記憶部から前記対訳文を取得する取得ステップと、
変換部が、文の構成要素である語句の並び順が、前記対訳文に対応付けられた前記言語の異なる文の間で一方の言語に近い語順である所定の順となるように前記対訳文の少なくとも１つの言語の文を変換する変換ステップと、
評価部が、前記変換部によって前記少なくとも１つの言語の文が変換された前記対訳文における語順に基づいて、前記対訳文を評価する評価値であって、比較対象に対する文の構成要素である語句の数と対訳文に係る構成要素の数とで構成される行列であって対角線状のパターンが設定された行列である固有のベクトルのパターンに基づく類似度を、前記評価値として算出する評価ステップと
を含み、
前記対訳文における異なる言語とは、日本語と英語とであり、
前記所定の順は、英語の文の主辞を後置する主辞後置の順であり、
前記変換ステップにおいて、前記変換部が、前記対訳文に含まれる英語の文を主辞後置英語に変換する
ことを特徴とする対訳評価方法。
コンピュータに、
取得部が、言語の異なる文を対応付けた対訳文を記憶する対訳文記憶部から前記対訳文を取得する取得ステップと、
変換部が、文の構成要素である語句の並び順が、前記対訳文に対応付けられた前記言語の異なる文の間で一方の言語に近い語順である所定の順となるように前記対訳文の少なくとも１つの言語の文を変換する変換ステップと、
評価部が、前記変換部によって前記少なくとも１つの言語の文が変換された前記対訳文における語順に基づいて、前記対訳文を評価する評価値であって、比較対象に対する文の構成要素である語句の数と対訳文に係る構成要素の数とで構成される行列であって対角線状のパターンが設定された行列である固有のベクトルのパターンに基づく類似度を、前記評価値として算出する評価ステップと
を実行させ、
前記対訳文における異なる言語とは、日本語と英語とであり、
前記所定の順は、英語の文の主辞を後置する主辞後置の順であり、
前記変換ステップにおいて、前記対訳文に含まれる英語の文を主辞後置英語に変換する処理を実行させるためのプログラム。