JP6175900B2

JP6175900B2 - 翻訳装置、方法、及びプログラム

Info

Publication number: JP6175900B2
Application number: JP2013109037A
Authority: JP
Inventors: 育昌鄭; 友樹長瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-05-23
Filing date: 2013-05-23
Publication date: 2017-08-09
Anticipated expiration: 2033-05-23
Also published as: US20140350913A1; JP2014229122A

Description

開示の技術は、翻訳装置、翻訳方法、及び翻訳プログラムに関する。

機械翻訳の翻訳品質を向上させるための技術として、「原文前編集」が知られている。原文前編集とは、翻訳先の言語に翻訳する前に原文に加える修正である。例えば、原文において、主語が抜けている場合には主語を補ったり、係り受け関係が明確でない場合には、係り受け関係が明確になるように修正したりする。このように、意味を変えることなく原文に前編集を行うことで、原文の構文解析等の解析精度が向上し、翻訳品質を向上させることができる。

例えば、適用条件と編集方法とを特定する情報を含む複数の前編集規則を格納しておき、入力テキスト内の前編集規則を適用すべき箇所を検出し、検出された箇所に、対応する前編集規則を適用して、入力テキストを前編集する技術が提案されている。この技術では、予め所定の基準に従って分類された複数種類の前編集規則群から、入力テキストの分野に応じた前編集規則群を選択して、入力テキストに適用している。

特開平５−２２５２３２号公報

しかし、翻訳に先立って原文に対して適切な前編集を行うことにより、翻訳品質の向上が図れる場合もあるが、一方で、原文に対して適切な前編集が行われなかった場合には、前編集が悪影響となり、翻訳品質を低下させる場合もある。翻訳品質を低下させないように適切な前編集規則を原文に適用できればよいが、前編集による訳文への影響を予測して前編集規則の適用可否を判別することは困難である。特に、複数の前編集規則を複合的に適用する場合には、前編集による訳文への影響はより複雑となるため、前編集による訳文への影響を予測して、複数の前編集規則の効果的な組み合わせを選択することは困難である。

また、翻訳品質を向上させるための前編集規則の作成には、専門的な言語知識や機械翻訳に対する知識が必要であり、翻訳品質の向上に有効な前編集規則を作成することは容易ではない。

開示の技術は、一つの側面として、前編集規則の作成及び適用の困難性を排除して、翻訳品質を向上させることが目的である。

開示の技術は、第１言語により表現された原文に、言語解析結果の特徴を用いて表された表現パターンに相当する箇所を他の表現パターンに変化するための予め定めた複数の異なる前編集規則の各々または前記前編集規則を組み合わせた組み合わせ規則を適用して、複数の原文候補を生成する原文候補生成部を備えている。また、開示の技術は、前記複数の原文候補の各々を前記第１言語とは異なる第２言語により表現された訳文候補の各々に翻訳すると共に、前記訳文候補の各々を前記第１言語により表現された逆翻訳文の各々に翻訳する翻訳部を備えている。また、開示の技術は、前記原文候補の各々及び前記逆翻訳文の各々の意味的構造を表す概念構造を生成する概念構造生成部を備えている。また、開示の技術は、前記原文候補の概念構造と前記原文候補に対応する前記逆翻訳文の概念構造との類似度が所定値以上の原文候補に対応する訳文候補を選択する選択部を備えている。

開示の技術は、一つの側面として、前編集規則の作成及び適用の困難性を排除して、翻訳品質を向上させることができる、という効果を有する。

第１実施形態に係る翻訳装置の構成の一例を示すブロック図である。言語解析の一例を示す図である。前編集規則データベースの一例を示す図である。原文候補の一例を示す図である。訳文候補の一例を示す図である。逆翻訳文の一例を示す図である。概念構造の一例を示す図である。概念構造の要素を説明するための図である。概念構造の類似を説明するための図である。概念構造類似度及び適切性の判定結果の一例を示す図である。翻訳装置として機能するコンピュータの一例を示す概略ブロック図である。第１実施形態における翻訳処理を示すフローチャートである。第１実施形態における選択処理を示すフローチャートである。概念構造の一例を示す図である。概念構造の一例を示す図である。概念構造の一例を示す図である。第２実施形態に係る翻訳装置の構成の一例を示すブロック図である。第２実施形態における前編集規則判定処理を示すフローチャートである。ＴｒｅｅＫｅｒｎｅｌの手法を説明するための図である。機械翻訳部及び概念構造生成部の他の構成例を示すブロック図である。機械翻訳部及び概念構造生成部の他の構成例を示すブロック図である。機械翻訳部及び概念構造生成部の他の構成例を示すブロック図である。

以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。

＜第１実施形態＞
図１に、第１実施形態に係る翻訳装置１０を示す。翻訳装置１０は、図１に示すように、原文入力部１２、言語解析部１４、原文候補生成部１６、機械翻訳部１８、概念構造生成部２０、選択部２２、及び翻訳結果出力部２４を備えている。

翻訳装置１０には、翻訳装置１０に接続されたキーボード等の入力装置を介して、またはネットワークを介して翻訳装置１０と接続されたユーザ端末等から、翻訳元の言語（第１言語）により表現された原文（テキストデータ）が入力される。翻訳装置１０は、原文を翻訳先の言語（第２言語）に翻訳した翻訳結果（テキストデータ）を出力する。なお、本実施形態では、翻訳元の言語（第１言語）を日本語、翻訳先の言語（第２言語）を英語とする場合について説明する。

原文入力部１２は、翻訳装置１０に入力された原文を受け付け、言語解析部１４へ受け渡す。

言語解析部１４は、原文入力部１２で受け付けた原文に対し、形態素解析、文節解析、係り受け解析、及び意味解析を含む言語解析を行い、言語解析結果を出力する。具体的には、形態素解析では、図２に示すような「機械翻訳により翻訳作業を効率化」という原文を、辞書を参照して単語単位に分解する。また、図２では図示を省略しているが、各単語にその単語の読み、品詞、活用形等の情報を付与する。文節解析では、形態素解析結果に基づいて、例えば、名詞と後置詞（助詞）とを１つにまとめるなどの処理により、原文の文節単位を解析する。係り受け解析では、形態素解析結果及び文節解析結果に基づいて、文節間の係り受け関係を規則に従って解析する。意味解析では、係り受け解析結果に基づいて、修飾語と被修飾語との関係を規則に従って特定することにより、適切な係り受け関係を識別する。

また、言語解析部１４は、各解析結果に基づいて、原文の概念構造（詳細は後述）を生成してもよい。なお、言語解析部１４は、原文の言語解析として、形態素解析、文節解析、係り受け解析、意味解析、及び概念構造の生成の全てを行う必要はなく、後述する原文候補生成部１６における前編集規則の適用時に必要な解析を行えばよい。

原文候補生成部１６は、言語解析部１４から出力された言語解析結果に基づいて、前編集規則データベース（ＤＢ）３０を参照し、適用可能な前編集規則の各々を原文に適用し、複数の原文候補を生成する。

前編集規則ＤＢ３０には、例えば、図３に示すように、言語解析結果により特定可能な表現パターンと、その表現パターンに相当する原文の箇所をどのように変換するかを定めた前編集規則が各々対応付けられている。言語解析結果により特定可能な表現パターンとは、各解析結果の特徴を用いて表されたパターンである。例えば、図３の例では、形態素解析結果に含まれる品詞や形態素の表記等の特徴により表現パターンが表されている。また、各前編集規則には、前編集規則毎の識別番号である規則ＩＤが付与されている。以下では、規則ＩＤが１の規則を「規則１」と表記する。他の規則ＩＤについても同様である。

ここで、各前編集規則は、原文に表れる部分的な表現パターンを認識対象としており、原文全体の構造、意味、文脈等を考慮する必要はない。すなわち、原文及び翻訳先の言語に対する専門的な知識や、機械翻訳において翻訳品質を向上させるための知識等を必要とすることなく、また、前編集が翻訳結果に与える影響を考慮することなく、あらゆる前編集規則を定めておくことができる。なお、本実施形態では、表現パターンが言語解析結果により特定可能である場合について説明するが、言語解析結果に基づかない前編集規則を定めておいてもよい。例えば、「により」、「の」、「を」など、単純に部分的な表記のみを表現パターンとして定めておき、この部分的な表記部分を他の表記に変換する前編集規則を定めておくことができる。また、表現パターンに関係なく、文頭に「私は」等の主語を追加する前編集規則や、文末に「する」等の述語を追加する前編集規則を定めておいてもよい。

原文候補生成部１６は、上記の前編集規則ＤＢ３０に格納された前編集規則の各々と、言語解析結果とを比較し、原文において前編集規則ＤＢ３０に含まれる表現パターンに一致する箇所を認識する。そして、表現パターンに一致した箇所を、その表現パターンに対応する前編集規則に従って変換する。原文が複数の表現パターンに一致する箇所を含む場合には、対応する複数の前編集規則を適用する。以下では、原文に対して複数の前編集規則が適用される場合、その複数の前編集規則を「組み合わせ規則」といい、規則（１，４）のように表記する。規則（１，４）は規則１と規則４との組み合わせ規則であることを表す。

例えば、原文が「機械翻訳により翻訳作業を効率化」の場合、図３の前編集規則ＤＢ３０を参照すると、「機械翻訳により」の箇所が、規則１に対応する表現パターン「名詞Ａ＋により」に一致する。この箇所を規則１の前編集規則「名詞Ａ＋による」に従って変換すると、「機械翻訳による翻訳作業を効率化」という原文候補が生成される。また、同じ原文において、「・・・効率化」の箇所が、規則５に対応する表現パターン「［文末］サ変名詞」に一致する。この箇所を規則５の前編集規則「［文末］サ変名詞＋する」に従って変換すると、「機械翻訳により翻訳作業を効率化する」という原文候補が生成される。また、規則（１，５）を適用すると、「機械翻訳による翻訳作業を効率化する」という原文候補が生成される。このように、一致する表現パターンに対応する前編集規則の各々、及び組み合わせ規則を全て適用して、複数の原文候補を生成する。生成した原文候補は原文候補格納部３２へ格納する。

原文候補生成部１６で生成した原文候補の一例を図４に示す。図４では、原文候補を生成する際に適用した前編集規則及び組み合わせ規則の規則ＩＤを合わせて表記している。また、生成した原文候補を原文候補格納部３２へ格納する際には、原文候補毎の識別番号である原文候補ＩＤを各原文候補に付与する。なお、原文候補ＩＤが１の原文候補（以下、「原文候補１」と表記。他の原文候補ＩＤについても同様）は、前編集を行っていない原文のままの状態である。原文のままの状態を原文候補として残すのは、原文のままの方が品質の良い翻訳結果が得られる場合もあることを考慮したものである。

機械翻訳部１８は、原文候補格納部３２に格納された原文候補の各々に対して、機械翻訳を行い、日本語の原文候補を英語に翻訳した訳文候補を生成する。この原文の言語（第１言語、ここでは日本語）から、翻訳先の言語（第２言語、ここでは英語）への翻訳を「順翻訳」という。具体的には、機械翻訳部１８は、原文候補の各々に対して、言語解析部１４と同様に、形態素解析、文節解析、係り受け解析、及び意味解析を行い、各解析結果を概念構造生成部２０に受け渡す。

また、機械翻訳部１８は、概念構造生成部２０で生成された原文候補の各々の概念構造（詳細は後述）受け取り、原文候補の各々の概念構造に基づいて、訳文候補の各々を生成する。具体的には、原文候補の概念構造に含まれる各要素が示す概念を英語の単語に置換すると共に、英語の構文解析に従って概念構造から英語の文を組み立てる。これにより、原文候補の各々に対応した訳文候補の各々が生成される。機械翻訳部１８は、生成した訳文候補の各々を、訳文格納部３６へ格納する。機械翻訳部１８で生成した訳文候補の一例を図５に示す。生成した訳文候補を訳文格納部３６へ格納する際には、訳文候補毎の識別番号であり、かつ原文候補ＩＤと対応した訳文候補ＩＤを各訳文候補に付与する。なお、訳文候補ＩＤが１の訳文候補を、以下では、「訳文候補１」と表記する。他の訳文候補ＩＤについても同様である。

また、機械翻訳部１８は、訳文格納部３６に格納された訳文候補の各々に対して、機械翻訳を行い、英語の訳文候補を日本語に翻訳した逆翻訳文を生成する。この翻訳先の言語（第２言語、ここでは英語）から、原文の言語（第１言語、ここでは日本語）への翻訳を「逆翻訳」という。具体的には、機械翻訳部１８は、訳文候補の各々に対して、言語解析部１４と同様に、形態素解析、文節解析、係り受け解析、及び意味解析を行い、各解析結果を概念構造生成部２０に受け渡す。

また、機械翻訳部１８は、概念構造生成部２０で生成された逆翻訳文の各々の概念構造（詳細は後述）を受け取り、逆翻訳文の各々の概念構造に基づいて、逆翻訳文の各々を生成する。具体的には、逆翻訳文の概念構造に含まれる各要素が示す概念を日本語の単語に置換すると共に、日本語の構文解析に従って概念構造から日本語の文を組み立てる。これにより、訳文候補の各々に対応した、すなわち原文候補の各々に対応した逆翻訳文の各々が生成される。機械翻訳部１８は、生成した逆翻訳文の各々を、訳文格納部３６へ格納する。機械翻訳部１８で生成した逆翻訳文の一例を図６に示す。生成した逆翻訳文を訳文格納部３６へ格納する際には、逆翻訳文毎の識別番号であり、かつ原文候補ＩＤと対応した逆翻訳文ＩＤを各逆翻訳文に付与する。なお、逆翻訳文ＩＤが１の逆翻訳文を、以下では、「逆翻訳文１」と表記する。他の逆翻訳文ＩＤについても同様である。

概念構造生成部２０は、機械翻訳部１８から受け渡された原文候補の各々の各解析結果に基づいて、文節間の意味関係を特定し、原文候補の各々の概念構造を生成し、概念構造格納部３４に格納すると共に、機械翻訳部１８に受け渡す。また、概念構造生成部２０は、機械翻訳部１８から受け渡された訳文候補の各々の各解析結果に基づいて、訳文候補の各々の概念構造（逆翻訳文の概念構造と同値）を生成し、概念構造格納部３４に格納すると共に、機械翻訳部１８に受け渡す。

ここで、概念構造とは、文の意味を構造化したものであり、語順、表記揺れ、同義語、類義語等の影響を最小限に抑えた言語非依存の意味的構造の表現方式であり、例えば、図７に示すように表現することができる。図７は、原文候補１の概念構造の例である。概念構造に含まれる各要素の図例及び意味を図８に示す。図８に示すように、概念構造は、概念ノード、ノード関係、ノード属性、及び中心概念を要素として含む。なお、図７の例では、説明のため、各要素を日本語で表しているが、実際には、言語に依存しない概念を示す値が各要素に付与されている。従って、概念が同一の要素は、原文の言語と翻訳先の言語とで同値となる。

概念ノードは、文に含まれる概念（意味）を持った単語（自立語）の各々を言語間で共通の概念として表したものである。図７の例では、「機械翻訳」、「効率化」、「翻訳」、及び「作業」という概念ノードが含まれている。すなわち、原文候補１に、「機械翻訳」、「効率化」、「翻訳」、及び「作業」という概念を持った単語が含まれていることを表す。

ノード関係は、意味的に関係のある概念ノード間を連結すると共に、連結された概念ノード間の関係の種類を示すものである。図７の例では、概念ノード「機械翻訳」が概念ノード「効率化」の［影響対象］であることを表している。また、概念ノード「作業」が概念ノード「効率化」の［主題］であることを表している。また、概念ノード「翻訳」が概念ノード「作業」を［修飾］する関係であることを表している。

ノード属性は、概念ノードに付属する助詞や、概念ノード自体の文法的属性を示すものである。図７の例では、概念ノード「効率化」は属性が＜述語＞であることを表している。また、概念ノード「作業」には助詞＜を＞が付属していることを表している。また、概念ノード「翻訳」は属性が＜連語＞であることを表している。

中心概念は、文全体の意味を支配する最も重要な概念ノードであり、ノード関係の終点とならない概念ノードである。図７の例では、概念ノード「効率化」と概念ノード「機械翻訳」との関係は、２つの概念ノードがどのような関係かを考慮すると、概念ノード「効率化」から概念ノード「機械翻訳」へ向かう矢印で表すことができる。すなわち、概念ノード「効率化」が始点で概念ノード「機械翻訳」が終点である。このようにして各概念ノードの関係をみると、概念ノード「効率化」がいずれのノード関係においても始点であり、終点となっていないため、中心概念であることが分かる。中心概念は概念構造内に１つ存在する。なお、図７の例では、中心概念である概念ノードがノード関係において終点とならないことを、始点に何も存在しない破線矢印で表している。

選択部２２は、訳文格納部３６に格納された訳文候補の中から、原文の翻訳結果として適切な訳文候補を選択する。選択部２２は、類似度計算部２２２、適切性判定部２２４、及び訳文候補選択部２２６を備えている。

類似度計算部２２２は、概念構造格納部３４に格納された原文候補の概念構造の各々と、原文候補に対応する逆翻訳文の概念構造の各々との類似度を示す概念構造類似度を計算する。

ここで、翻訳結果として適切な訳文候補を選択するために、原文候補の概念構造と逆翻訳文の概念構造との類似度を用いることの理由について説明する。

まず、原文候補１と、原文候補１に対応する訳文候補１及び逆翻訳文１とを比較する。
原文候補１：機械翻訳により翻訳作業を効率化
訳文候補１：It is efficiency improvement according to the machine translation as for the translation work.
逆翻訳文１：翻訳業務のような機械翻訳によると、それは効率化です。
上記の例では、原文候補１（原文のまま）の文法には不適切な部分があるため、順翻訳時に正確な日本語の言語解析が行えない。このような不十分な日本語の言語解析結果に基づく順翻訳の翻訳結果である訳文候補１は、翻訳品質が良いとは言えない。訳文候補１を逆翻訳した逆翻訳文１と原文候補１との意味がかけ離れていることからも、訳文候補１の品質が低いことが分かる。

次に、原文に前編集を行った原文候補７と、原文候補７に対応する訳文候補７及び逆翻訳文７とを比較する。なお、原文候補において、前編集規則が適用された箇所を［］で示している。
原文候補７：機械翻訳により翻訳作業［の］効率化
訳文候補７：The efficiency improvement of the translation work according to the machine translation.
逆翻訳文７：機械翻訳に従った翻訳業務の効率化。
上記の例の場合、訳文候補７を逆翻訳した逆翻訳文７と原文候補７との意味が近いことから、訳文候補７の翻訳品質が良いことが分かる。すなわち、原文候補７は原文に対して適切な前編集規則が適用されて生成された原文候補であると言える。

また、別の例として、原文に前編集を行った原文候補２と、原文候補２に対応する訳文候補２及び逆翻訳文２とを比較する。
原文候補２：機械翻訳により翻訳作業を効率化［する］
訳文候補２：The translation work is made efficiency by the machine translation.
逆翻訳文２：機械翻訳によって翻訳業務は人工の効率です。
上記の例の場合、訳文候補２を逆翻訳した逆翻訳文２と原文候補２との意味がかけ離れていることから、訳文候補２の翻訳品質が悪いことが分かる。すなわち、原文候補２は原文に対して不適切な前編集が適用されて生成された原文候補であると言える。

上述のように、原文候補と逆翻訳文との意味が近いかかけ離れているかにより、訳文候補の品質を確認することができる。原文候補と逆翻訳文との意味が近い場合には、原文候補の概念構造と逆翻訳文の概念構造との類似度は高くなる。一方、原文候補と逆翻訳文との意味がかけ離れている場合には、原文候補の概念構造と逆翻訳文の概念構造との類似度は低くなる。すなわち、順翻訳時の原文候補の概念構造と、逆翻訳時の逆翻訳文の概念構造とを比較することで、最良の翻訳結果を生成する原文候補を特定することができる。最良の翻訳結果を生成する原文候補の特定は、最良の前編集規則が適用されて生成された原文候補の特定を意味する。

また、原文候補と逆翻訳文との意味が近いかかけ離れているかを判断するには、表記や語順を用いて原文候補と逆翻訳文とを比較する場合に比べ、概念構造同士で比較する方が適切に判断することができる。以下の例文を用いて説明する。
原文候補：これは昨日私が作った計算機だ。
訳文候補：This is a computer that I made yesterday.
逆翻訳文：これは、私が昨日作ったコンピュータです。

原文候補と逆翻訳文とを比較すると、語順の変化（原文候補「昨日私が」→逆翻訳文「私が昨日」）、同義語の書き替え（原文候補「計算機だ」→逆翻訳文「コンピュータです」）、及び文構造の変化（原文候補「これは」→逆翻訳文「これは、」）が存在する。このため、原文候補と逆翻訳文とは、表記的にはかけ離れている。しかし、図９に示すように、両者の概念構造を比較すると、略一致していることが分かる。そのため、上記事例の原文候補と逆翻訳文との類似度は、意味構造を表現する概念構造で比較する場合の方が、表記や語順で比較する場合より、正確に評価することができる。なお、図９において、概念ノード「計算機」と概念ノード「コンピュータ」とは、概念としては同値である。

上記のような理由から、類似度計算部２２２は、原文候補の概念構造と逆翻訳文の概念構造との概念構造類似度を計算する。具体的には、原文候補とその原文候補に対応する逆翻訳文（以下、「原文候補−逆翻訳文ペア」と表記する）毎に、概念構造の構造を示す構造点と、概念構造間の相違を示す相違点とを計算し、この構造点と相違点とから概念構造類似度を計算する。

より具体的には、類似度計算部２２２は、例えば、概念構造に含まれる各要素の種類に応じて、下記に示すような点数を設定する。
・中心概念に対する点数:α
・中心概念以外の概念ノードに対する点数:β
・ノード関係に対する点数:γ
・ノード属性に対する点数:δ

α、β、γ、及びδの値は、概念構造における各要素の重要度を考慮して設定することができ、例えば、α＞β＞γ＞δとすることができる。すなわち、中心概念は最も重要な概念ノードであるため、最大の重みを持ち、次は中心概念以外の概念ノード、ノード関係、ノード属性の順に重みが大きくなるように設定することができる。なお、この点数の設定は、機械翻訳装置の適用場面に応じて適宜設定可能である。例えば、原文と翻訳結果との間で、文の重要な部分の意味の維持を重視する場合はαの値を大きく設定し、文全体の意味の維持を重視する場合はβの値を大きく設定することができる。

次に、原文候補の概念構造及び逆翻訳原文の概念構造の各々に含まれる各要素から、以下の値を計算する。
・両概念構造に含まれる中心概念以外の概念ノードの数:Ｘ
・両概念構造に含まれるノード関係の数:Ｙ
・両概念構造に含まれるノード属性の数:Ｚ
・概念構造間の中心概念の相違:Ｒ
※例えば、中心概念が一致する場合はＲ＝０、相違する場合はＲ＝１
・概念構造間で相違する概念ノード数:Ｘ’
※相違する概念ノード：一方の概念構造にしか存在しない概念ノード。概念ノードの位置及び概念ノード間の関係を考慮しない。
・概念構造間で相違するノード関係の数:Ｙ’
※相違するノード関係：ノード関係の種類またはノード関係が連結する概念ノードが異なるノード関係
・概念構造間で相違するノード属性の数:Ｚ’
※相違するノード属性：ノード属性の種類またはノード属性が付属する概念ノードが異なるノード属性

上記のような各点数及び各値を用いて、下記に示すように、概念構造の構造点数及び概念構造間の相違点数を計算し、構造点数及び相違点数から概念構造類似度を計算する。
概念構造の構造点数＝α＊２＋β＊Ｘ＋γ＊Ｙ＋δ＊Ｚ
概念構造間の相違点数＝α＊Ｒ＋β＊Ｘ’＋γ＊Ｙ’＋δ＊Ｚ’
概念構造類似度
＝（概念構造の構造点数−概念構造間の相違点数）／（概念構造の構造点数）

適切性判定部２２４は、原文候補−逆翻訳文ペア毎に、原文候補の表記と逆翻訳文の表記とを比較し、原文候補−逆翻訳文ペアに対応する訳文候補の翻訳結果としての適切性を判定する。原文候補と逆翻訳文との間で、概念構造同士が類似していたとしても、表記が大きく相違する場合には、その原文候補−逆翻訳文ペアに対応する訳文候補は翻訳結果として適切ではないと判定するものである。適切性判定部２２４は、例えば、下記の情報を用いて原文候補−逆翻訳文ペア毎に表記類似度を計算する。

・原文候補と逆翻翻訳文との文字単位編集距離：Ｄ１
・原文候補と逆翻訳文との形態素単位編集距離：Ｄ２
・原文候補の表記長さ：Ｌ１
・逆翻訳結果の表記長さ：Ｌ２
・原文候補の形態素列長さ：Ｍ１
・逆翻訳結果の形態素列長さ：Ｍ２
表記類似度＝（Ｄ１／（Ｌ１＋Ｌ２））＋（Ｄ２／（Ｍ１＋Ｍ２））

適切性判定部２２４は、上記のように計算した原文候補−逆翻訳文ペアの表記類似度が予め定めた閾値より高い場合は、その原文候補−逆翻訳文ペアに対応する訳文候補は適切であると判定する。また、表記類似度が予め定めた閾値以下の場合には、その原文候補−逆翻訳文ペアに対応する訳文候補は不適切であると判定する。閾値は対訳コーパスなどを用いた学習により適切な値を定めておく。

訳文候補選択部２２６は、類似度計算部２２２で計算された原文候補−逆翻訳文ペア毎の概念構造類似度、及び適切性判定部２２４で判定された適切性の判定結果に基づいて、複数の訳文候補の中から翻訳結果として出力する訳文候補を選択する。例えば、適切性判定部２２４により適切と判定された訳文候補のうち、類似度計算部２２２で計算された概念構造類似度が最大の原文候補−逆翻訳文ペアに対応する訳文候補を選択することができる。

図１０に、類似度計算部２２２で計算された概念構造類似度、及び適切性判定部２２４で判定された適切性の一例を示す。図１０の例では、適切性は、適切の場合を「ＯＫ」、不適切の場合を「ＮＧ」としている（図１０では「ＮＧ」の該当なし）。図１０の例では、いずれの訳文候補ペアも適切性は「ＯＫ（適切）」であるので、この中で概念構造類似度が最大である原文候補３−逆翻訳文３ペアに対応する訳文候補３が選択される。

なお、選択する訳文候補は１つである必要はない。例えば、概念構造類似度が所定値以上の原文候補−逆翻訳文ペアに対応する訳文候補を全て選択するようにしてもよい。また、概念構造類似度が上位所定個となる原文候補−逆翻訳文ペアに対応する訳文候補を選択するようにしてもよい。

翻訳結果出力部２４は、選択部２２で選択された訳文候補を、原文に対する翻訳結果として出力する。選択部２２により複数の訳文候補が選択されている場合には、訳文候補に対応する原文候補−逆翻訳文ペアの概念構造類似度が高い順に並べ替えて出力してもよい。また、訳文候補に、対応する概念構造類似度及び適切性の判定結果を付与して出力してもよい。

翻訳装置１０は、例えば図１１に示すコンピュータ４０で実現することができる。コンピュータ４０はＣＰＵ４２、メモリ４４、不揮発性の記憶部４６、入出力インターフェース（Ｉ／Ｆ）４７、及びネットワークＩ／Ｆ４８を備えている。ＣＰＵ４２、メモリ４４、記憶部４６、入出力Ｉ／Ｆ４７、及びネットワークＩ／Ｆ４８は、バス４９を介して互いに接続されている。

記憶部４６はＨＤＤ（Hard Disk Drive）やフラッシュメモリ等によって実現できる。記録媒体としての記憶部４６には、コンピュータ４０を翻訳装置１０として機能させるための翻訳プログラム５０が記憶されている。ＣＰＵ４２は、翻訳プログラム５０を記憶部４６から読み出してメモリ４４に展開し、翻訳プログラム５０が有するプロセスを順次実行する。

翻訳プログラム５０は、原文入力プロセス５２、言語解析プロセス５４、原文候補生成プロセス５６、機械翻訳プロセス５８、概念構造生成プロセス６０、選択プロセス６２、及び翻訳結果出力プロセス６４を有する。

ＣＰＵ４２は、原文入力プロセス５２を実行することで、図１に示す原文入力部１２として動作する。また、ＣＰＵ４２は、言語解析プロセス５４を実行することで、図１に示す言語解析部１４として動作する。また、ＣＰＵ４２は、原文候補生成プロセス５６を実行することで、図１に示す原文候補生成部１６として動作する。また、ＣＰＵ４２は、機械翻訳プロセス５８を実行することで、図１に示す機械翻訳部１８として動作する。また、ＣＰＵ４２は、概念構造生成プロセス６０を実行することで、図１に示す概念構造生成部２０として動作する。また、ＣＰＵ４２は、選択プロセス６２を実行することで、図１に示す選択部２２として動作する。また、ＣＰＵ４２は、翻訳結果出力プロセス６４を実行することで、図１に示す翻訳結果出力部２４として動作する。これにより、翻訳プログラム５０を実行したコンピュータ４０が、翻訳装置１０として機能することになる。

なお、翻訳装置１０は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）等で実現することも可能である。

次に、本実施形態に係る翻訳装置１０の作用について説明する。翻訳装置１０に翻訳元の言語（第１言語、ここでは日本語）による原文（テキストデータ）が入力されると、翻訳装置１０により、図１２に示す翻訳処理が実行される。

図１２に示す翻訳処理のステップ１００で、原文入力部１２が、入力された原文を受け付ける。ここでは、例えば図２に示すような、原文「機械翻訳により翻訳作業を効率化」を受け付けるものとする。次に、ステップ１０２で、図２に示すように、言語解析部１４が、上記ステップ１００で受け付けられた原文に対し、形態素解析、文節解析、係り受け解析、及び意味解析を含む言語解析を行う。

次に、ステップ１０４で、原文候補生成部１６が、上記ステップ１０２の言語解析結果に基づいて、図３に示すような前編集規則ＤＢ３０を参照し、適用可能な前編集規則または組み合わせ規則を原文に適用し、複数の原文候補を生成する。原文候補生成部１６は、生成した複数の原文候補を原文候補格納部３２へ格納する。ここでは、例えば図４に示す原文候補１〜原文候補８が生成されるものとする。

次に、ステップ１０６で、機械翻訳部１８が、原文候補格納部３２に格納された原文候補の各々に対して、機械翻訳を行い、日本語から英語に順翻訳した訳文候補の各々を生成する。ここでは、例えば図５に示す訳文候補１〜訳文候補８が生成されるものとする。機械翻訳部１８は、生成した訳文候補の各々を、訳文格納部３６へ格納する。また、順翻訳の際に、概念構造生成部２０が、原文候補の各々の概念構造を生成し、概念構造格納部３４に格納する。

次に、ステップ１０８で、機械翻訳部１８が、訳文格納部３６に格納された訳文候補の各々に対して、機械翻訳を行い、英語から日本語に逆翻訳した逆翻訳文の各々を生成する。ここでは、例えば図６に示す逆翻訳文１〜逆翻訳文８が生成されるものとする。機械翻訳部１８は、生成した逆翻訳文の各々を、訳文格納部３６へ格納する。また、逆翻訳の際に、概念構造生成部２０が、逆翻訳文の各々の概念構造を生成し、概念構造格納部３４に格納する。

次に、ステップ１１０で、選択部２２が、図１３に示す選択処理を実行する。

図１３に示す選択処理のステップ１１００で、類似度計算部２２２が、原文候補格納部３２に格納された原文候補の各々と、訳文格納部３６に格納された逆翻訳文の各々とを対応させたペアリストを作成する。例えば、原文候補１−逆翻訳文１、原文候補２−逆翻訳文２、・・・、原文候補８−逆翻訳文８のようなペアリストを作成する。

次に、ステップ１１０２で、類似度計算部２２２が、上記ステップ１１００で作成したペアリストの中から、１つの原文候補−逆翻訳文ペアを取得する。また、類似度計算部２２２が、取得したペアに含まれる原文候補及び逆翻訳文の各々の概念構造を、概念構造格納部３４から取得する。

次に、ステップ１１０４で、類似度計算部２２２が、上記ステップ１１０２で取得した原文候補の概念構造及び逆翻訳文の概念構造の構造点数を計算する。例えば、上記ステップ１１０２で取得された原文候補−逆翻訳文ペアが原文候補１−逆翻訳文１であった場合、図１４に示すような概念構造の各々について構造点数を計算して合計することにより概念構造の構造点数を計算する。上述の概念構造類似度の計算例を用いると、原文候補１及び逆翻訳文１の概念構造の構造点数は下記のように計算される。なお、α＝５０、β＝１０、γ＝５、及びδ＝２とした場合について説明する。

・原文候補１の構造概念に含まれる中心概念以外の概念ノードの数:３
（「機械翻訳」、「翻訳」、及び「作業」）
・逆翻訳文１の構造概念に含まれる中心概念以外の概念ノードの数:３
（「機械翻訳」、「翻訳業務」、及び「それ」）
・両構造概念に含まれる中心概念以外の概念ノードの数:Ｘ＝６

・原文候補１の概念構造に含まれるノード関係の数:３
（「機械翻訳」と「効率化」間の［影響対象］、「効率化」と「作業」間の［主題］、及び「翻訳」と「作業」間の［修飾］）
・逆翻訳文１の概念構造に含まれるノード関係の数:３
（「機械翻訳」と「効率化」間の［影響対象］、「効率化」と「それ」間の［述語対象］、及び「機械翻訳」と「翻訳業務」間の［類似］）
・両概念構造に含まれるノード関係の数:Ｙ＝６

・原文候補１の概念構造に含まれるノード属性の数:３
（「効率化」に付属する＜属性：述語＞、「作業」に付属する＜助詞：を＞、及び「翻訳」に付属する＜連語＞）
・逆翻訳文１の概念構造に含まれるノード属性の数:４
（「効率化」に付属する＜属性：述語＞、「効率化」に付属する＜語尾：です＞、「機械翻訳」に付属する＜語尾：読点＞、及び「それ」に付属する＜助詞：は＞）
・両概念構造に含まれるノード属性の数:Ｚ＝７

・概念構造の構造点数＝α＊２＋β＊Ｘ＋γ＊Ｙ＋δ＊Ｚ
＝５０＊２＋１０＊６＋５＊６＋２＊７＝２０４

次に、ステップ１１０６で、類似度計算部２２２が、概念構造間の相違点数を計算する。上記の図１４に示す原文候補１−逆翻訳文１の概念構造間の相違点は、下記のように計算される。

・概念構造間の中心概念の相違:Ｒ＝０（「効率化」で一致）
・概念構造間で相違する概念ノード数:Ｘ’＝４
（原文候補１の概念構造内の「翻訳」及び「作業」、並びに逆翻訳文１の概念構造内の「翻訳業務」及び「それ」）
・概念構造間で相違するノード関係の数:Ｙ’＝４
（原文候補１の概念構造内の「効率化」と「作業」間の［主題］及び「翻訳」と「作業」間の［修飾］、並びに逆翻訳文１の概念構造内の「効率化」と「それ」間の［述語対象］及び「機械翻訳」と「翻訳業務」間の［類似］）
・概念構造間で相違するノード属性の数:Ｚ’＝５
（原文候補１の概念構造内の「作業」に付属する＜助詞：を＞及び「翻訳」に付属する＜連語＞、並びに逆翻訳文１の概念構造内の「効率化」に付属する＜語尾：です＞、「機械翻訳」に付属する＜語尾：読点＞、及び「それ」に接続する＜助詞：は＞）

・概念構造間の相違点数＝α＊Ｒ＋β＊Ｘ’＋γ＊Ｙ’＋δ＊Ｚ’
＝５０＊０＋１０＊４＋５＊４＋２＊５＝７０

次に、ステップ１１０８で、類似度計算部２２２が、上記ステップ１１０４で計算した構造点数と上記ステップ１１０６で計算した相違点数とを用いて、上記ステップ１１０２で取得した原文候補−逆翻訳文ペアの概念構造類似度を計算する。上記の図１４に示す原文候補１−逆翻訳文１の場合、概念構造類似度は下記のように計算される。
概念構造類似度
＝（概念構造の構造点数−概念構造間の相違点数）／（概念構造の構造点数）
＝（２０４−７０）／２０４＝０．６６

また、例えば、上記ステップ１１０２で取得された原文候補−逆翻訳文ペアが原文候補３−逆翻訳文３であった場合、図１５に示すような概念構造間の概念構造類似度を計算する。上記と同様に原文候補３−逆翻訳文３の概念構造類似度を計算すると、下記のようになる。

・原文候補３の構造概念に含まれる中心概念以外の概念ノードの数:３
・逆翻訳文３の構造概念に含まれる中心概念以外の概念ノードの数:３
・両構造概念に含まれる中心概念以外の概念ノードの数:Ｘ＝６
・原文候補３の概念構造に含まれるノード関係の数:３
・逆翻訳文３の概念構造に含まれるノード関係の数:３
・両概念構造に含まれるノード関係の数:Ｙ＝６
・原文候補３の概念構造に含まれるノード属性の数:２
・逆翻訳文３の概念構造に含まれるノード属性の数:２
・両概念構造に含まれるノード属性の数:Ｚ＝４
・概念構造の構造点数＝α＊２＋β＊Ｘ＋γ＊Ｙ＋δ＊Ｚ
＝５０＊２＋１０＊６＋５＊６＋２＊４＝１９８

・概念構造間の中心概念の相違:Ｒ＝０
・概念構造間で相違する概念ノード数:Ｘ’＝０
・概念構造間で相違するノード関係の数:Ｙ’＝０
・概念構造間で相違するノード属性の数:Ｚ’＝０
・概念構造間の相違点数＝α＊Ｒ＋β＊Ｘ’＋γ＊Ｙ’＋δ＊Ｚ’
＝５０＊０＋１０＊０＋５＊０＋２＊０＝０

概念構造類似度
＝（概念構造の構造点数−概念構造間の相違点数）／（概念構造の構造点数）
＝（１９８−０）／１９８＝１．００

また、例えば、上記ステップ１１０２で取得された原文候補−逆翻訳文ペアが原文候補５−逆翻訳文５であった場合、図１６に示すような概念構造間の概念構造類似度を計算する。上記と同様に原文候補５−逆翻訳文５の概念構造類似度を計算すると、下記のようになる。

・原文候補５の構造概念に含まれる中心概念以外の概念ノードの数:３
・逆翻訳文５の構造概念に含まれる中心概念以外の概念ノードの数:３
・両構造概念に含まれる中心概念以外の概念ノードの数:Ｘ＝６
・原文候補５の概念構造に含まれるノード関係の数:３
・逆翻訳文５の概念構造に含まれるノード関係の数:３
・両概念構造に含まれるノード関係の数:Ｙ＝６
・原文候補５の概念構造に含まれるノード属性の数:３
・逆翻訳文５の概念構造に含まれるノード属性の数:５
・両概念構造に含まれるノード属性の数:Ｚ＝８
・概念構造の構造点数＝α＊２＋β＊Ｘ＋γ＊Ｙ＋δ＊Ｚ
＝５０＊２＋１０＊６＋５＊６＋２＊８＝２０６

・概念構造間の中心概念の相違:Ｒ＝０
・概念構造間で相違する概念ノード数:Ｘ’＝４
・概念構造間で相違するノード関係の数:Ｙ’＝６
・概念構造間で相違するノード属性の数:Ｚ’＝６
・概念構造間の相違点数＝α＊Ｒ＋β＊Ｘ’＋γ＊Ｙ’＋δ＊Ｚ’
＝５０＊０＋１０＊４＋５＊６＋２＊６＝８２

概念構造類似度
＝（概念構造の構造点数−概念構造間の相違点数）／（概念構造の構造点数）
＝（２０６−８２）／２０６＝０．６０

次に、ステップ１１１０で、適切性判定部２２４が、上記ステップ１１０２で取得された原文候補−逆翻訳文ペアの原文候補の表記と逆翻訳文の表記との類似度である表記類似度を計算する。

次に、ステップ１１１２で、適切性判定部２２４が、上記ステップ１１１０で計算した表記類似度が予め定めた閾値より高いか否かを判定する。表記類似度が閾値より高い場合には、ステップ１１１４へ移行し、適切性判定部２２４が、適切性「ＯＫ」の判定結果を出力する。一方、表記類似度が閾値以下の場合には、ステップ１１１６へ移行し、適切性判定部２２４が、適切性「ＮＧ」の判定結果を出力する。

次に、ステップ１１８で、訳文候補選択部２２６が、上記ステップ１１００で作成したペアリストに含まれる全ての原文候補−逆翻訳文ペアについて概念構造類似度の計算及び適切性の判定の処理が終了したか否かを判定する。未処理のペアが存在する場合には、ステップ１１０２へ戻って、次のペアをペアリストから取得して、ステップ１１０４〜１１１６の処理を繰り返す。全てのペアについて処理が終了した場合には、ステップ１１２０へ移行する。

ステップ１１２０で、訳文候補選択部２２６が、上記ステップ１１１０で計算された概念構造類似度、及び上記ステップ１１１４または１１１６で出力された適切性の判定結果に基づいて、複数の訳文候補の中から最良の訳文候補を選択する。例えば、図１０に示すような概念構造類似度及び適切性の判定結果に基づいて、適切性が「ＯＫ」の訳文候補のうち、概念構造類似度が最大の原文候補−逆翻訳文ペアに対応する訳文候補を選択することができる。訳文候補選択部２２６が訳文候補を選択すると、翻訳処理（図１２）へリターンする。

図１２に示す翻訳処理のステップ１１２へ移行し、翻訳結果出力部２４が、上記ステップ１１０で選択された訳文候補を、原文に対する翻訳結果として出力して、翻訳処理を終了する。

以上説明したように、第１実施形態に係る翻訳装置１０によれば、言語や機械翻訳の知識を必要とすることなく、また前編集が翻訳に与える影響を考慮することなく定めた複数の前編集規則または組み合わせ規則を適用して、複数の原文候補を生成する。そして、原文候補の概念構造とその原文候補に対応する逆翻訳文の概念構造との類似度を計算する。類似度が高い場合には、原文候補と逆翻訳文とで概念構造が維持されており、対応する訳文候補の品質が良いこと、すなわち、原文候補に行われた前編集が有効であったことを示す。従って、原文に行う前編集の有効性を直接判断することなく、翻訳品質の向上に有効な前編集を選別することができる。そのため、前編集規則の作成及び適用の困難性を排除して、翻訳品質を向上させることができる。

また、原文候補と逆翻訳文との表記の類似性を用いて、翻訳結果として選択する訳文候補の適切性を判定することで、翻訳品質を保つことができる。

また、概念構造に含まれる要素数、及び概念構造間で相違する要素数を用いて概念構造類似度を計算することで、簡易な計算により概念構造類似度を計算することができる。さらに、概念構造の要素の種類に応じて重み付けした概念構造類似度を計算することで、文の中でも重要な部分の意味の維持を重視するか、文全体の意味の維持を重視するかなど、目的に応じて柔軟な概念構造類似度を計算することができる。

また、前編集規則は語順や文法等を考慮することなくあらゆる前編集規則を作成しておくことができる。これにより、語順や文法に誤りがある原文が入力された場合に、前編集規則の適用により、語順や文法に誤りが修正された原文候補が生成される可能性が高い。例えば、図２に示す原文「機械翻訳により翻訳作業を効率化」は一部文法の誤りがある。これに対し、本実施形態の翻訳装置１０では、複数の原文候補から原文候補３が最良の原文候補として選択される。原文候補３では、原文に含まれる文法の誤りが解消されている。この原文候補３に対応した訳文候補３が翻訳結果として出力されることで、結果的に、入力された原文の文法の誤りを校正する前編集が適用されたことになる。従って、本実施形態に係る翻訳装置によれば、入力された原文に語順や文法の誤りが存在する場合でも、自動的に原文の校正を行ない、正確な翻訳結果を導き出すことができる。

＜第２実施形態＞
次に、第２実施形態について説明する。図１７に示すように、第２実施形態に係る翻訳装置２１０は、第１実施形態に係る翻訳装置１０に前編集規則判定部２６を加えた構成であるため、以下、前編集規則判定部２６について説明する。

第２実施形態に係る翻訳装置２１０は、第１実施形態に係る翻訳装置１０と同様に、あらゆる前編集規則を作成しておくことが可能であるが、前編集規則の数が多過ぎると、翻訳の計算コストが増大してしまう。一方で、原文に前編集を行った場合に、文法的に誤った原文候補を生成してしまう前編集規則が存在する可能性もある。例えば、図４に示す原文候補４及び原文候補８には文法的な誤りが含まれる。原文候補４及び原文候補８をみると、図３に示す前編集規則の規則４と規則５とを含む組み合わせ規則が適用された結果、「翻訳作業の効率化する」のような文法的な誤りを含む原文候補が作成されていることが分かる。このような文法的な誤りを含む原文候補は、図１０に示すように、類似度計算部２２２により計算される概念構造類似度が低くなる。すなわち、概念構造類似度により、規則４と規則５とを含む組み合わせ規則が不適切であることが判断できる。

そこで、前編集規則判定部２６は、類似度計算部２２２により計算された概念構造類似度に基づいて、原文に適用することが不適切な前編集規則及び組み合わせ規則を判定する。また、前編集規則判定部２６は、不適切と判定した前編集規則及び組み合わせ規則が以後の処理で適用されないように、前編集規則ＤＢ３０を更新する。

具体的には、前編集規則判定部２６は、原文候補−逆翻訳文ペアについて計算された概念構造類似度が予め定めた閾値より低い場合に、その原文候補を生成する際に原文に適用された前編集規則または組み合わせ規則を不適切と判定する。前編集規則判定部２６は、翻訳処理が複数回実行された場合に、不適切と判定した回数が所定回数以上となった前編集規則を前編集規則ＤＢ３０から削除する。また、前編集規則判定部２６は、不適切と判定した回数が所定回数以上となった組み合わせ規則が、以後の処理で適用されないように、前編集規則ＤＢ３０内にフラグを立てる。

翻訳装置２１０は、例えば図１１に示すコンピュータ４０で実現することができる。コンピュータ４０はＣＰＵ４２、メモリ４４、不揮発性の記憶部４６、入出力Ｉ／Ｆ４７、及びネットワークＩ／Ｆ４８を備えている。ＣＰＵ４２、メモリ４４、記憶部４６、入出力Ｉ／Ｆ４７、及びネットワークＩ／Ｆ４８は、バス４９を介して互いに接続されている。

記憶部４６はＨＤＤ（Hard Disk Drive）やフラッシュメモリ等によって実現できる。記録媒体としての記憶部４６には、コンピュータ４０を翻訳装置２１０として機能させるための翻訳プログラム２５０が記憶されている。ＣＰＵ４２は、翻訳プログラム２５０を記憶部４６から読み出してメモリ４４に展開し、翻訳プログラム２５０が有するプロセスを順次実行する。

翻訳プログラム２５０は、原文入力プロセス５２、言語解析プロセス５４、原文候補生成プロセス５６、機械翻訳プロセス５８、概念構造生成プロセス６０、選択プロセス６２、翻訳結果出力プロセス６４、及び前編集規則判定プロセス６６を有する。

ＣＰＵ４２は、前編集規則判定プロセス６６を実行することで、図１７に示す前編集規則判定部２６として動作する。他のプロセスについては第１実施形態における翻訳プログラム５０と同様である。これにより、翻訳プログラム２５０を実行したコンピュータ４０が、翻訳装置２１０として機能することになる。

なお、翻訳装置２１０は、例えば半導体集積回路、より詳しくはＡＳＩＣ等で実現することも可能である。

次に、第２実施形態に係る翻訳装置２１０の作用について説明する。翻訳装置２１０に原文が入力されると、翻訳装置２１０により、第１実施形態における翻訳処理（図１２）及び選択処理（図１３）と同様の翻訳処理及び選択処理が実行される。この選択処理のステップ１１０８で概念構造類似度が計算されると、翻訳装置２１０において、図１８に示す前編集規則判定処理が実行される。

図１８に示す前編集規則判定処理のステップ２００で、前編集規則判定部２６が、上記ステップ１１０８で計算された概念構造類似度が予め定めた閾値より低いか否かを判定する。概念構造類似度が閾値より低い場合には、ステップ２０２へ移行し、閾値以上の場合には、処理を終了する。

ステップ２０２では、前編集規則判定部２６が、上記ステップ１１０８で概念構造類似度が計算された原文候補−逆翻訳文ペアの原文候補を生成する際に原文に適用された前編集規則または組み合わせ規則を不適切と判定する。前編集規則判定部２６は、この判定結果を所定の記憶領域に記憶する。

次に、ステップ２０４で、前編集規則判定部２６が、上記ステップ２０２で不適切と判定した前編集規則または組み合わせ規則について、不適切と判定した回数が所定回数以上となったか否かを、所定の記憶領域に記憶した判定結果を参照して判定する。不適切と判定した回数が所定回数以上となった場合には、ステップ２０６へ移行し、所定回数未満の場合には、処理を終了する。

ステップ２０６では、前編集規則判定部２６が、不適切と判定した回数が所定回数以上となった前編集規則を前編集規則ＤＢ３０から削除する。或いは、前編集規則判定部２６が、不適切と判定した回数が所定回数以上となった組み合わせ規則が、以後の処理で適用されないように、前編集規則ＤＢ３０内にフラグを立てて、前編集規則判定処理を終了する。

以上説明したように、第２実施形態に係る翻訳装置２１０によれば、概念構造類似度に基づいて、前編集規則及び組み合わせ規則の適用の有効性を判定する。このため、あらゆる前編集規則を複数作成しておいても、翻訳処理の実行時に、自動的に不適切な前編集規則及び組み合わせ規則を削除または適用されないように更新することができる。従って、前編集規則の作成の困難性を排除できると共に、翻訳処理時の計算コストの増大を抑制することができる。

なお、第２実施形態では、概念構造類似度が閾値より低い前編集規則及び組み合わせ規則を不適切と判定する場合について説明したが、これに限定されない。例えば、原文候補−逆翻訳文ペアの概念構造類似度が低い場合には、訳文候補選択部２２６でその原文候補−逆翻訳文ペアに対応する訳文候補が選択されないことを利用してもよい。具体的には、訳文候補選択部２２６で選択されなかった訳文候補に対応する原文候補を生成する際に原文に適用された前編集規則または組み合わせ規則を不適切と判定することができる。

また、第２実施形態において、複数のユーザからの入力を受け付ける場合、前編集規則の更新をユーザ毎に行ってもよい。具体的には、前編集規則ＤＢ３０をユーザ毎に用意しておき、前編集規則判定部２６において、不適切と判定した前編集規則及び組み合わせ規則を、ユーザ毎に集計する。そして、ユーザ毎に集計された不適切と判定した前編集規則及び組み合わせ規則に基づいて、ユーザ毎の前編集規則ＤＢ３０を更新することができる。これにより、ユーザ毎の入力のくせや誤り易い文法等に応じて、前編集規則ＤＢ３０を更新することができる。

また、上記各実施形態では、概念構造類似度として、概念構造に含まれる各要素（中心概念、概念ノード、ノード関係、及びノード属性）の数や相違に基づく類似度を計算する場合について説明したが、これに限定されない。例えば、概念構造類似度を、自然言語処理や他の情報科学分野における木構造間またはグラフ間の類似度と同様に考えると、以下のような類似度を用いることができる（参考文献「高橋哲朗、乾健太郎、松本裕治、“テキストの構文的類似度の評価方法について”、情報処理学会研究報告、自然言語処理研究会報告、ｊｕｌ．２００２、Ｎｏ．６６、ｐｐ．１６３−１７０」）。なお、この場合、概念構造を、中心概念に相当する概念ノードを最上位のノードとし、概念ノード間を連結するノード関係をエッジとする木構造とみなす。

例えば、概念構造類似度として、木構造の編集距離に基づく類似度を算出することができる。具体的には、一方の概念構造を他方の概念構造に変換するために必要な最短の編集操作の数である編集距離を類似度とすることができる。この場合、編集距離が小さいほど概念構造間の類似度が高いことを表す。

また、概念構造類似度として、木構造アライメントの手法を用いた類似度を計算してもよい。アライメントの問題では、テキスト間の照合が用いられる。例えば、２つの概念構造において、始めに概念ノードの対応を取り、その後概念ノードの対応を用いてノード関係及びノード属性の対応を取りながら、照合することにより、概念構造における類似領域を検出する。または、各ノードの子ノード間の類似度を再帰的に計算しながら、最上位のノードである中心概念に相当する概念ノード間の類似度を計算するようにしてもよい。

また、概念構造類似度として、句構造木間の類似度を与えるために提案された手法であるＴｒｅｅＫｅｒｎｅｌによる類似度を計算してもよい。ＴｒｅｅＫｅｒｎｅｌの手法では、句構造木間の内積を、各句構造木において共通に含まれる部分木の数と定義する。例えば、図１９上段に示す構文木には、図１９下段に示すような部分木が含まれている。二つの構文木（概念構造）において共通に含まれる部分木（概念ノード、またはノード関係で連結された複数の概念ノード）の数が内積となる。ここで求められる内積は、構文木全体を考慮した類似度とみなすことができるため、概念構造類似度として用いることができる。

なお、上記実施形態で説明した各要素の数や相違に基づく概念構造類似度の計算は、上記のような木構造に基づく類似度の計算に比べ、計算コストを抑えることができる。

また、上記各実施形態では、機械翻訳部１８と概念構造生成部２０とを別の機能ブロックとして表現しているが、概念構造を用いた機械翻訳では、一連の処理の中で概念構造が生成される。そのため、図２０に示すように、概念構造の生成も行う機械翻訳部３１８としてもよい。また、図２０に示す構成は、図２１に示すように、概念構造生成部２０が機械翻訳部１８に含まれる構成として表現することもできる。

また、図２２に示すように、機械翻訳部４１８と概念構造生成部４２０とを各々独立させて構成してもよい。この場合、機械翻訳部４１８は、概念構造生成部４２０で生成された概念構造を用いることなく翻訳処理を行う。例えば、概念構造を用いない方式による翻訳処理や、機械翻訳部４１８自体が生成した概念構造を用いた翻訳処理などを行うことができる。また、概念構造生成部４２０は、原文候補格納部３２に格納された原文候補の各々について、原文候補の概念構造を生成すると共に、訳文格納部３６に格納された逆翻訳文の各々について、逆翻訳文の概念構造を生成する。

なお、図２０〜２２は、翻訳装置において、機械翻訳部及び概念構造生成部を含む一部のみを表したブロック図である。

また、上記各実施形態では、第１言語を日本語、第２言語を英語とする場合について説明したが、これに限定されない。開示の技術で用いる概念構造は言語非依存であるため、概念構造で表すことができる言語であれば、開示の技術を適用可能である。

また、上記各実施形態では、原文がテキストデータとして入力される態様を説明したが、音声データとして入力されてもよい。また、翻訳結果も、音声データとして出力してもよい。この場合、入力された音声データを音声認識する音声認識部、翻訳結果を音声出力するための音声合成部を含む態様とすることができる。

また、上記では開示の技術における翻訳プログラムの一例である翻訳プログラム５０及び２５０が記憶部４６に予め記憶（インストール）されている態様を説明した。しかし、開示の技術における翻訳プログラムは、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等の記録媒体に記録されている形態で提供することも可能である。

以上の実施形態に関し、更に以下の付記を開示する。

（付記１）
第１言語により表現された原文に、予め定めた複数の異なる前編集規則の各々または前記前編集規則を組み合わせた組み合わせ規則を適用して、複数の原文候補を生成する原文候補生成部と、
前記複数の原文候補の各々を前記第１言語とは異なる第２言語により表現された訳文候補の各々に翻訳すると共に、前記訳文候補の各々を前記第１言語により表現された逆翻訳文の各々に翻訳する翻訳部と、
前記原文候補の各々及び前記逆翻訳文の各々の意味的構造を表す概念構造を生成する概念構造生成部と、
前記原文候補の概念構造と前記原文候補に対応する前記逆翻訳文の概念構造との類似度が所定値以上の原文候補に対応する訳文候補を選択する選択部と、
を含む翻訳装置。

（付記２）
前記翻訳部は、前記概念構造生成部により生成された前記原文候補の概念構造を用いて、前記複数の原文候補の各々を前記訳文候補の各々に翻訳し、前記概念構造生成部により生成された前記逆翻訳文の概念構造を用いて、前記訳文候補の各々を前記逆翻訳文の各々に翻訳する付記１記載の翻訳装置。

（付記３）
前記概念構造は、複数の異なる種類の要素を含み、
前記選択部は、前記原文候補の概念構造及び前記逆翻訳文の概念構造の各々に含まれる種類毎の要素数、及び概念構造間で相違する種類毎の要素数を用いた概念構造の類似度を計算する付記１または付記２記載の翻訳装置。

（付記４）
前記選択部は、前記要素の種類に応じて重み付けした概念構造の類似度を計算する付記３記載の翻訳装置。

（付記５）
前記概念構造の類似度に基づいて、前記原文候補を生成する際に前記原文に適用された前記前編集規則または前記組み合わせ規則の適切性を判定する判定部を含む付記１〜付記４のいずれかに記載の翻訳装置。

（付記６）
前記選択部は、前記原文候補の表記と前記原文候補に対応する前記逆翻訳文の表記との類似度に基づいて、訳文候補の翻訳結果としての適切性を判定する付記１〜付記５のいずれかに記載の翻訳装置。

（付記７）
コンピュータに、
第１言語により表現された原文に、予め定めた複数の異なる前編集規則の各々または前記前編集規則を組み合わせた組み合わせ規則を適用して、複数の原文候補を生成し、
前記複数の原文候補の各々を前記第１言語とは異なる第２言語により表現された訳文候補の各々に翻訳すると共に、前記訳文候補の各々を前記第１言語により表現された逆翻訳文の各々に翻訳し、
前記原文候補の各々及び前記逆翻訳文の各々の意味的構造を表す概念構造を生成し、
前記原文候補の概念構造と前記原文候補に対応する前記逆翻訳文の概念構造との類似度が最大の訳文候補をデフォルトの訳語として選択する
ことを含む処理を実行させる翻訳方法。

（付記８）
コンピュータに、
前記原文候補の概念構造を用いて、前記複数の原文候補の各々を前記訳文候補の各々に翻訳し、前記逆翻訳文の概念構造を用いて、前記訳文候補の各々を前記逆翻訳文の各々に翻訳することを含む処理を実行させる付記７記載の翻訳方法。

（付記９）
前記概念構造は、複数の異なる種類の要素を含み、コンピュータに、前記原文候補の概念構造及び前記逆翻訳文の概念構造の各々に含まれる種類毎の要素数、及び概念構造間で相違する種類毎の要素数を用いた概念構造の類似度を計算することを含む処理を実行させる付記７または付記８記載の翻訳方法。

（付記１０）
コンピュータに、前記要素の種類に応じて重み付けした概念構造の類似度を計算することを含む処理を実行させる付記９記載の翻訳方法。

（付記１１）
コンピュータに、
前記概念構造の類似度に基づいて、前記原文候補を生成する際に前記原文に適用された前記前編集規則または前記組み合わせ規則の適切性を判定することを含む処理を実行させる付記７〜付記１０のいずれかに記載の翻訳方法。

（付記１２）
コンピュータに、前記原文候補の表記と前記原文候補に対応する前記逆翻訳文の表記との類似度に基づいて、訳文候補の翻訳結果としての適切性を判定することを含む処理を実行させる付記７〜付記１１のいずれかに記載の翻訳方法。

（付記１３）
コンピュータに、
第１言語により表現された原文に、予め定めた複数の異なる前編集規則の各々または前記前編集規則を組み合わせた組み合わせ規則を適用して、複数の原文候補を生成し、
前記複数の原文候補の各々を前記第１言語とは異なる第２言語により表現された訳文候補の各々に翻訳すると共に、前記訳文候補の各々を前記第１言語により表現された逆翻訳文の各々に翻訳し、
前記原文候補の各々及び前記逆翻訳文の各々の意味的構造を表す概念構造を生成し、
前記原文候補の概念構造と前記原文候補に対応する前記逆翻訳文の概念構造との類似度が最大の訳文候補をデフォルトの訳語として選択する
ことを含む処理を実行させるための翻訳プログラム。

（付記１４）
前記原文候補の概念構造を用いて、前記複数の原文候補の各々を前記訳文候補の各々に翻訳し、前記逆翻訳文の概念構造を用いて、前記訳文候補の各々を前記逆翻訳文の各々に翻訳する付記１３記載の翻訳プログラム。

（付記１５）
前記概念構造は、複数の異なる種類の要素を含み、
前記原文候補の概念構造及び前記逆翻訳文の概念構造の各々に含まれる種類毎の要素数、及び概念構造間で相違する種類毎の要素数を用いた概念構造の類似度を計算する付記１３または付記１４記載の翻訳プログラム。

（付記１６）
前記要素の種類に応じて重み付けした概念構造の類似度を計算する付記１５記載の翻訳プログラム。

（付記１７）
コンピュータに、前記概念構造の類似度に基づいて、前記原文候補を生成する際に前記原文に適用された前記前編集規則または前記組み合わせ規則の適切性を判定することを含む処理を実行させるための付記１３〜付記１６のいずれかに記載の翻訳プログラム。

（付記１８）
前記原文候補の表記と前記原文候補に対応する前記逆翻訳文の表記との類似度に基づいて、訳文候補の翻訳結果としての適切性を判定する付記１３〜付記１７のいずれかに記載の翻訳プログラム。

１０、２１０翻訳装置
１２原文入力部
１４言語解析部
１６原文候補生成部
１８機械翻訳部
２０概念構造生成部
２２選択部
２４翻訳結果出力部
２６前編集規則判定部
３０前編集規則ＤＢ
３２原文候補格納部
３４概念構造格納部
３６訳文格納部
４０コンピュータ
２２２類似度計算部
２２４適切性判定部
２２６訳文候補選択部

Claims

第１言語により表現された原文に、言語解析結果の特徴を用いて表された表現パターンに相当する箇所を他の表現パターンに変化するための予め定めた複数の異なる前編集規則の各々または前記前編集規則を組み合わせた組み合わせ規則を適用して、複数の原文候補を生成する原文候補生成部と、
前記複数の原文候補の各々を前記第１言語とは異なる第２言語により表現された訳文候補の各々に翻訳すると共に、前記訳文候補の各々を前記第１言語により表現された逆翻訳文の各々に翻訳する翻訳部と、
前記原文候補の各々及び前記逆翻訳文の各々の意味的構造を表す概念構造を生成する概念構造生成部と、
前記原文候補の概念構造と前記原文候補に対応する前記逆翻訳文の概念構造との類似度が所定値以上の原文候補に対応する訳文候補を選択する選択部と、
を含む翻訳装置。
前記翻訳部は、前記概念構造生成部により生成された前記原文候補の概念構造を用いて、前記複数の原文候補の各々を前記訳文候補の各々に翻訳し、前記概念構造生成部により生成された前記逆翻訳文の概念構造を用いて、前記訳文候補の各々を前記逆翻訳文の各々に翻訳する請求項１記載の翻訳装置。
前記概念構造は、複数の異なる種類の要素を含み、
前記選択部は、前記原文候補の概念構造及び前記逆翻訳文の概念構造の各々に含まれる種類毎の要素数、及び概念構造間で相違する種類毎の要素数を用いた概念構造の類似度を計算する請求項１または請求項２記載の翻訳装置。
前記選択部は、前記要素の種類に応じて重み付けした概念構造の類似度を計算する請求項３記載の翻訳装置。
前記前編集規則及び前記組み合わせ規則は記憶部に記憶されており、
前記概念構造の類似度に基づいて、前記原文候補を生成する際に前記原文に適用された前記前編集規則または前記組み合わせ規則の適切性を判定し、判定結果に基づいて前記記憶部に記憶された前記前編集規則または前記組み合わせ規則を更新する判定部を含む請求項１〜請求項４のいずれか１項記載の翻訳装置。
前記選択部は、前記原文候補の表記と前記原文候補に対応する前記逆翻訳文の表記との類似度に基づいて、訳文候補の翻訳結果としての適切性を判定する請求項１〜請求項５のいずれか１項記載の翻訳装置。
コンピュータに、
第１言語により表現された原文に、言語解析結果の特徴を用いて表された表現パターンに相当する箇所を他の表現パターンに変化するための予め定めた複数の異なる前編集規則の各々または前記前編集規則を組み合わせた組み合わせ規則を適用して、複数の原文候補を生成し、
前記複数の原文候補の各々を前記第１言語とは異なる第２言語により表現された訳文候補の各々に翻訳すると共に、前記訳文候補の各々を前記第１言語により表現された逆翻訳文の各々に翻訳し、
前記原文候補の各々及び前記逆翻訳文の各々の意味的構造を表す概念構造を生成し、
前記原文候補の概念構造と前記原文候補に対応する前記逆翻訳文の概念構造との類似度が最大の訳文候補をデフォルトの訳語として選択する
ことを含む処理を実行させる翻訳方法。
コンピュータに、
第１言語により表現された原文に、言語解析結果の特徴を用いて表された表現パターンに相当する箇所を他の表現パターンに変化するための予め定めた複数の異なる前編集規則の各々または前記前編集規則を組み合わせた組み合わせ規則を適用して、複数の原文候補を生成し、
前記複数の原文候補の各々を前記第１言語とは異なる第２言語により表現された訳文候補の各々に翻訳すると共に、前記訳文候補の各々を前記第１言語により表現された逆翻訳文の各々に翻訳し、
前記原文候補の各々及び前記逆翻訳文の各々の意味的構造を表す概念構造を生成し、
前記原文候補の概念構造と前記原文候補に対応する前記逆翻訳文の概念構造との類似度が最大の訳文候補をデフォルトの訳語として選択する
ことを含む処理を実行させるための翻訳プログラム。