JP5747508B2

JP5747508B2 - 対訳情報検索装置、翻訳装置及びプログラム

Info

Publication number: JP5747508B2
Application number: JP2011000513A
Authority: JP
Inventors: 劉　紹明; 紹明劉
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2011-01-05
Filing date: 2011-01-05
Publication date: 2015-07-15
Anticipated expiration: 2031-01-05
Also published as: CN102591898A; US20120173223A1; CN102591898B; US8909511B2; JP2012141879A

Description

本発明は対訳情報検索装置、翻訳装置及びプログラムに関する。

特許文献１には、ある言語で入力された文を他の言語に翻訳する際に、入力された文に対応する対訳情報を選択し、翻訳を行う翻訳装置が開示されている。ここで、対訳情報は、対訳例文パターンを含み、対訳例文パターンは、原言語の文の可変項目と固定項目とを示す原言語構成情報と、翻訳の目的となる目的言語の文の可変項目と固定項目とを示す目的言語構成情報と、を含む。非特許文献１には、入力された文に類似する対訳例文を選択し、翻訳に用いる翻訳方法が開示されている。

特開２０１０−１５２４２０号公報

佐藤理史、長尾真、「実例に基づいた翻訳」、情報処理学会研究報告、1989年1月20日、第89巻、第6号、p.70.9.1-70.9.8

本発明の目的は、原言語構成情報および目的言語構成情報に関連づけられる評価情報を用いない場合に対し、入力文の特性をより反映した目的言語構成情報を選択することができる対訳情報検索装置、またその技術を用いた翻訳装置およびプログラムを提供することにある。

請求項１に記載の発明は対訳情報検索装置であって、原言語で入力された文である入力文を取得する入力文取得手段と、原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段と、前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む目的言語構成情報のうちから１つの目的言語構成情報を、前記原言語構成情報と前記目的言語構成情報とに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段と、を含むことを特徴とする。

請求項２に記載の発明は請求項１に記載の発明において、前記評価情報は前記各原言語構成情報と、当該原言語構成情報に対応する目的言語構成情報との対応関係を示す言語間対応情報を含み、前記目的言語構成情報選択手段は、前記選択された原言語構成情報と前記言語間対応情報とを用いて生成した翻訳文の生成確率に基づいて、１つの前記目的言語構成情報を選択する、ことを特徴とする。

請求項３に記載の発明は請求項１または２に記載の発明において、前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の属性と前記目的言語構成情報とを関連づけた情報を含み、前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列の属性と、前記原言語構成情報に含まれる前記可変項目の前記属性と前記目的言語構成情報とを関連づけた情報とに基づいて、１つの前記目的言語構成情報を選択する、ことを特徴とする。

請求項４に記載の発明は請求項３に記載の発明において、前記入力文を形態素解析し複数の単語と当該単語の品詞情報とを取得する形態素解析手段をさらに有し、前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の品詞と前記目的言語構成情報とを関連づけた情報を含み、前記目的言語構成情報選択手段は、前記入力文の単語の品詞情報と前記選択された原言語構成情報に含まれる前記可変項目の品詞とを関連づけた前記情報に基づいて、１つの前記目的言語構成情報を選択する、ことを特徴とする。

請求項５に記載の発明は請求項３または４に記載の発明において、前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の語彙体系と前記目的言語情報とを関連づけた情報を含み、前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列と、前記語彙体系と前記目的言語とを関連づけた情報とに基づいて、１つの前記目的言語構成情報を選択する、ことを特徴とする。

請求項６に記載の発明は請求項３から５のいずれかに記載の発明において、前記評価情報は前記複数の原言語構成情報に含まれる前記可変項目の用例情報と前記目的言語構成情報を関連づけた情報を含み、前記目的言語構成情報選択手段は、前記原言語構成情報の前記可変項目に対応する前記入力文の文字列と、前記用例情報と前記目的言語構成情報とを関連づけた情報とに基づいて、１つの前記目的言語構成情報を選択する、ことを特徴とする。

請求項７に記載の発明は請求項１から６のいずれかに記載の発明において、前記評価情報は前記複数の原言語構成情報のいずれかに適合する原言語の例文とそれぞれ前記複数の目的言語構成情報のいずれかに適合する目的言語の例文とからなる複数の対訳例文を含み、前記目的言語構成情報選択手段は、前記選択された原言語構成情報に適合する前記例文と、前記選択された原言語構成情報に対応する目的言語構成情報に適合する前記例文とからなる対訳例文の数に基づいて、１つの前記目的言語構成情報を選択する、ことを特徴とする。

請求項８に記載の発明は翻訳装置であって、原言語で入力された文である入力文を取得する入力文取得手段と、原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段と、前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む目的言語構成情報のうちから１つの目的言語構成情報を、前記原言語構成情報のいずれかと前記目的言語情報のいずれかとに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段と、前記選択された目的言語構成情報と、当該目的言語構成情報に対応する前記選択された原言語構成情報と、に基づいて、前記入力文の翻訳文を出力する翻訳文出力手段と、を含むことを特徴とする。

請求項９に記載の発明は、原言語で入力された文である入力文を取得する入力文取得手段、原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段、前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む目的言語構成情報のうちから１つの目的言語構成情報を、前記原言語構成情報と前記目的言語構成情報とに関連づけられる評価情報に基づいて選択する目的言語構成情報選択手段、としてコンピュータを機能させるためのプログラムである。

請求項１，９に記載の発明によれば、原言語構成情報および目的言語構成情報に関連づけられた評価情報を用いない場合に比べて、入力文の特性をより反映した目的言語構成情報を選択することができる。

請求項２に記載の発明によれば、本構成を有しない場合より、入力文により適合する目的言語構成情報を選択することができる。

請求項３に記載の発明によれば、入力文の文字列の属性により目的言語構成情報が異なる場合に、入力文に適合する目的言語構成情報を選択することができる。

請求項４に記載の発明によれば、入力文の句の品詞により目的言語構成情報が異なる場合に、入力文に適合する目的言語構成情報を選択することができる。

請求項５に記載の発明によれば、入力文の句の語彙体系により翻訳の仕方が異なる場合に、入力文に適合する原言語構成情報を選択することができる。

請求項６に記載の発明によれば、原言語構成情報の可変項目に対応する入力文の句により翻訳の仕方が異なる場合に、入力文に適合する目的言語構成情報を選択することができる。

請求項７に記載の発明によれば、原言語構成情報と目的言語構成情報の組み合わせに適合する対訳例文の数がその組み合わせにより異なる場合に、入力文に適合する目的言語構成情報を選択することができる。

請求項８に記載の発明によれば、原言語構成情報および目的言語構成情報に関連づけられた評価情報を用いない場合に比べて、入力文の特性をより反映した翻訳をすることができる。

本発明の実施形態に係る翻訳装置の構成の一例を示す図である。本発明の実施形態に係る翻訳装置が実現する機能を示す機能ブロック図である。原言語による入力文が対訳例文パターンにより翻訳される例を示す図である。１つの例文パターンのデータ構造を示す図である。対訳例文パターンの一例を示す図である。原言語構成情報選択部の処理フローの一例を示す図である。距離計算部の処理フローの一例を示す図である。距離計算部の計算過程の例を示す図である。写像抽出部の処理フローの一例を示す図である。写像抽出部の処理フローの一例を示す図である。写像抽出部の処理フローの一例を示す図である。選択された原言語構成情報に対し複数の対訳例文パターンが存在する場合の対訳例文パターンの一例を示す図である。目的言語構成情報選択部の処理フローの一例を示す図である。第１の評価尺度での評価値を計算する処理フローを示す図である。第２の評価尺度での評価値を計算する処理フローを示す図である。第３の評価尺度での評価値を計算する処理フローを示す図である。第４の評価尺度での評価値を計算する処理フローを示す図である。第５の評価尺度での評価値を計算する処理フローを示す図である。語彙体系の例を示す図である。対訳例文の例を示す図である。図１１に示す候補から目的言語例文パターンを選択する過程の例を説明する図である。第４の評価尺度の計算で生成される訳文の一例を示す図である。

以下、本発明の実施形態について図面に基づき詳細に説明する。図１は、本発明の実施形態に係る翻訳装置１の構成の一例を示す図である。同図に示すように、翻訳装置１は、ＣＰＵ１１と、記憶部１２と、通信部１３と、入出力部１４とを含んでいる。翻訳装置１は例えばパーソナルコンピュータやサーバなどによって構成されている。

ＣＰＵ１１は、記憶部１２に格納されているプログラムに従って動作する。なお、上記プログラムは、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等の情報記録媒体に格納されて提供されるものであってもよいし、インターネット等のネットワークを介して提供されるものであってもよい。

記憶部１２は、ＲＡＭやＲＯＭ等のメモリ素子およびハードディスクドライブ等によって構成されている。記憶部１２は、上記プログラムを格納する。また、記憶部１２は、各部から入力される情報や演算結果を格納する。

通信部１３は、他の装置と通信接続するための通信手段等で構成されている。通信部１３は、ＣＰＵ１１の制御に基づいて、他の装置から受信した情報をＣＰＵ１１や記憶部１２に入力し、他の装置に情報を送信する。

入出力部１４は、モニタ等の表示出力手段と、キーボード、マウス等の入力手段とを制御する手段などによって構成されている。入出力部１４は、ＣＰＵ１１の制御に基づいて、画像データ等をモニタ等に対して出力し、キーボードやマウスより操作者からの情報を取得する。

図２は、本発明の実施形態に係る翻訳装置１が実現する機能を示す機能ブロック図である。翻訳装置１は機能的に、入力文取得部５１と、形態素解析部５２と、原言語構成情報候補検索部５３と、原言語構成情報選択部５４と、目的言語構成情報選択部５５と、翻訳文出力部５６と、辞書部５７と、を含む。原言語構成情報選択部５４は、機能的に距離計算部６１と、写像抽出部６２と、最適写像選択部６３と、を含む。これらの機能はＣＰＵ１１が記憶部１２に格納されたプログラムを実行し、通信部１３および入出力部１４を制御することによって実現される。

ここで、本実施形態にかかる翻訳装置１は、対訳情報を用いて翻訳を行う。対訳情報は、原言語の文のパターンを示す原言語例文パターンと、翻訳の目的となる目的言語の文のパターンを示す目的言語例文パターンと、を含む対訳例文パターンを含む。図３は、原言語による入力文が対訳例文パターンにより翻訳される例を示す図である。対訳例文パターンの記載で［ｖ］としている部分は、それに該当する１または複数の単語が可変である可変項目を示す。図３の例は、入力文として「彼は電車に乗る。」が入力されると、翻訳文として、図３の翻訳文に示される文が得られることを示している。その過程では、翻訳装置１はその入力文に適合する原言語例文パターンである「［ｖ］は［ｖ］に乗る。」を含む最適な対訳例文パターンを検索し、その対訳例文パターンの目的言語例文パターンである「［ｖ］坐［ｖ］」の［ｖ］の部分に、原言語例文パターンの［ｖ］に該当する入力文の単語を翻訳した言葉を当てはめて翻訳文を得ている。このような翻訳の手法をパターンベース翻訳という。原言語例文パターンおよび目的言語例文パターンのどちらも、可変となる文字列と固定的な文字列との組み合わせを用いて文を表現する点は変わらないので、以下ではまとめて例文パターンと呼ぶ。

翻訳装置１のうち、入力文取得部５１と、形態素解析部５２と、原言語構成情報候補検索部５３と、原言語構成情報選択部５４と、目的言語構成情報選択部５５と、は上述の対訳例文パターンを検索する処理を行っている。これらにより構成される部分を対訳情報検索装置として利用してもよい。

図４は１つの例文パターンのデータ構造を示す図である。例文パターンは、ある言語の文の構成を示す情報である。例文パターンは、それぞれがその文を構成する文字列のうち１または複数の文字列に対応する複数の項目を含んでおり、その項目は、固定項目と可変項目とに分けられる。固定項目は、文の対応する文字列として、その固定項目ごとに定められた固定的な文字列である固定文字列を示し、可変項目は、文の対応する文字列として、文字数を含めて可変の文字列を示す。なお、上述の文字列は、複数の単語からなる句または１つの単語を表す。１つの例文パターンは、１または複数の固定項目と、１または複数の可変項目とを含んでいる。そして、本図では固定項目や可変項目は、文の先頭に対応させるものから順に並んでいる。

可変項目は、位置情報と、タイプ情報と、変数情報と、語彙体系情報と、用例情報と、を含む。固定項目は、位置情報と、タイプ情報と、固定内容と、品詞情報と、サブ構造情報とを含む。位置情報は固定項目と可変項目との両方に含まれており、文の中で表れる順番を通番で示す。タイプ情報は可変項目か固定項目かを示す情報であり、固定項目であれば「ｆ」、可変項目であれば「ｖ」となる。変数情報は可変項目の品詞を示す情報であり、例えば、「ＮＰ」であれば名詞の変数であることを、「ＡＰ」であれば形容詞の変数であることを、「ＤＰ」であれば副詞の変数であることを示す。語彙体系情報は、可変項目に入る単語の語彙体系を示す情報である。用例情報は例文パターンの可変項目に入る単語の用例を示す情報である。固定内容は固定項目の文字列を示す情報であり、品詞情報は固定項目に設定される単語の品詞を示す情報である。例えば品詞情報が「６１」ならその固定項目が格助詞であることを示す。サブ構造情報は固定項目が複数の単語で構成される場合に、そのそれぞれの単語の情報を示す。

ここで、例文パターンのなかで最も特徴的である情報である、可変項目の存在を示す情報と、固定項目の固定内容の情報とを言語構成情報と呼ぶ。具体的には可変項目の位置情報およびタイプ情報と、固定項目の位置情報、タイプ情報および固定内容とに対応する。以下では原言語例文パターンに含まれる言語構成情報を原言語構成情報と、目的言語例文パターンに含まれる言語構成情報を目的言語構成情報と呼ぶ。

図５は、対訳例文パターンの一例を示す図である。対訳例文パターンは、原言語例文パターンと、目的言語例文パターンと、アライメント情報とを含む。本図に示す例文パターンでは、固定項目および可変項目どうしの区切りをスペースで、固定項目および可変項目に含まれる情報間の区切りを「／」で示している。また、図５では位置情報は固定項目および可変項目の並び順により表し、個々の可変項目や固定項目の中には記していない。例えば、原言語例文パターンの１番目の項目の「v/NP/人/」はその項目が可変項目であり、可変項目は品詞が名詞の変数であり、語彙体系は「人」であり、用例は設定されていないことを示し、原言語例文パターンの５番目の項目の「f/改選する/89/属性変化[改選/17/する/47/]」は、その項目が固定項目であり、文字列が「改選する」であり、それがサ変動詞(89)でありサブ構造として、「改選」と「する」からなり属性変化していることを示している。

アライメント情報は、原言語の可変項目と目的言語の可変項目との対応関係、および原言語の固定項目と目的言語の固定項目との対応関係を示す言語間対応情報である。図５では、「３：」は対応付けが３つあることを示し、「１−１；」は原言語例文パターンの１番目の項目と目的言語例文パターンの１番目の項目とが対応していることを示し、「５０１，５０２−２；」原言語例文パターンの５番目の項目の１番目のサブ項目と２番目のサブ項目とは、目的言語例文パターンの２番目の項目に対応することを示す。ここで「５０１」は原言語例文パターンの５番目の項目の１番目のサブ項目を示している。

辞書部５７は、ＣＰＵ１１、記憶部１２を中心として実現される。辞書部５７は、複数の対訳例文パターン、単語辞書、例文対訳辞書、等を記憶する。

以下では上述の対訳例文パターンを用いて翻訳を行う処理をより具体的に説明する。入力文取得部５１は、ＣＰＵ１１、記憶部１２、通信部１３、入出力部１４を中心として実現される。入力文取得部５１は、入出力部１４を介して取得するキーボードの操作情報や、記憶部１２から取得する情報、またはネットワークを介して接続されたクライアントから受信した情報から、原言語で入力された文である入力文の情報を取得する。

形態素解析部５２は、ＣＰＵ１１、記憶部１２を中心として実現される。形態素解析部５２は入力文を形態素解析し、入力文を構成する複数の単語とそれらの単語の品詞情報とを取得する。例えば、「彼は電車に乗る」を形態素解析すると、形態素解析部５２は「彼」、「は」、「電車」、「に」、「乗る」の５つの単語を取得し、それぞれの単語について「名詞」、「格助詞」、「名詞」、「格助詞」、「動詞」といった品詞情報も取得する。

原言語構成情報候補検索部５３は、ＣＰＵ１１、記憶部１２を中心として実現される。原言語構成情報候補検索部５３は、辞書部５７に記憶されている複数の対訳例文パターンから、候補となる原言語構成情報を検索する。次の原言語構成情報選択部５４はこれらの候補から原言語構成情報を選択する。なお、原言語構成情報の候補を検索すれば、その原言語構成情報を含む原言語例文パターンおよびその原言語例文パターンを含む対訳例文パターンも特定される。

上述の検索処理をより具体的に記すと、原言語構成情報候補検索部５３は、入力文と原言語構成情報の固定項目との類似度Ｓｉｍと、カバー率Ｃｏｖとがそれぞれある閾値を超えた原言語構成情報を候補として検索する。原言語構成情報候補検索部５３は、入力文の文字列のＢｉ−ｇｒａｍ（Ｓ）と、原言語構成情報の文字列のＢｉ−ｇｒａｍ（Ａ）とを求め、それらにより類似度Ｓｉｍおよびカバー率Ｃｏｖを計算する。類似度Ｓｉｍおよびカバー率Ｃｏｖは以下の式で求められる。

Ｓｉｍ＝（２×｜Ｓ∩Ａ｜）／（｜Ｓ｜＋｜Ａ｜）

Ｃｏｖ＝｜Ｓ∩Ａ｜／｜Ｓ｜

ここで、｜Ｓ｜は入力文の文字列に含まれるＢｉ−ｇｒａｍの数であり、｜Ａ｜は、原言語構成情報の文字列のＢｉ−ｇｒａｍの数であり、｜Ｓ∩Ａ｜は、入力文と原言語構成情報とで共通するＢｉ−ｇｒａｍの数である。

原言語構成情報選択部５４は、ＣＰＵ１１、記憶部１２を中心として実現される。原言語構成情報選択部５４は、原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む原言語構成情報のうちから、その入力文に対応する原言語構成情報を選択する。より具体的には、原言語構成情報候補検索部５３が検索した複数の原言語構成情報の候補から、入力文に最も近い原言語構成情報を選択し、さらに入力文に含まれる文字列と原言語構成情報の可変項目および固定項目との対応関係を示す写像情報を取得する。なお、原言語構成情報を選択すると、その原言語構成情報を含む原言語例文パターンや例文対訳パターンも実質的に選択される。なお、入力文に最も近い原言語構成情報が複数ある場合などは、原言語構成情報選択部５４は複数の原言語構成情報を選択してもよい。

図６は、原言語構成情報選択部５４の処理フローの一例を示す図である。はじめに、原言語構成情報選択部５４に含まれる距離計算部６１は、各候補となる原言語構成情報と、入力文との距離を求める（ステップＳ１０１）。この処理は、原言語構成情報選択部５４に含まれる距離計算部６１が行う。以下ではステップＳ１０１の処理について距離計算部６１のフローを示しながら説明する。

距離計算部６１は、ＣＰＵ１１、記憶部１２を中心として実現される。図７は距離計算部６１の処理フローの一例を示す図である。図７では、入力文と候補となる１つの原言語構成情報との距離を計算する処理フローのみを示す。実際にはこれらの処理は、候補となる原言語構成情報の数だけ繰り返される。距離計算部６１は、はじめに、形態素解析部５２により分割された入力文の単語（その数をｍとする）を、順にデータ列ｓ１〜ｓｍに格納する（ステップＳ１１１）。次に、候補となる１つの原言語構成情報の可変項目および固定項目（それらをあわせた数をｎとする）のそれぞれについて、可変項目であるか否かの情報および固定項目の場合の固定内容の文字列の情報を位置情報の小さいものから順にデータ列ａ１〜ａｎに格納する（ステップＳ１１２）。なお、以下ではｓ０およびａ０も登場するが、これらは入力文および原言語構成情報の先頭であることを示し、これらは空文字列に相当する。

入力文と原言語構成情報との距離は、入力文の各単語と原言語構成情報の可変項目および固定項目との間の対応関係に依存するものとする。入力文と原言語構成情報との距離は、その入力文と原言語構成情報との間で存在しうる複数の対応関係のそれぞれについて求められる変換重みのなかで最小なものを距離とする。ある対応関係における変換重みは、可変項目および固定項目とそれに対応する単語との重みや、単語と項目が対応しない場合の重みを積算したものである。より具体的には、例えば、ａｉ（ｉは１からｎ）がｓｊ（ｊは１からｍ）と対応するとした場合に、ａｉとｓｊとが同じ単語であれば編集が不要なので編集重みが０、ａｉとｓｊとが異なる単語であれば置換が必要なので編集重みがｐ、ａｉに対応するｓｊが無ければ入力文に単語の挿入が必要なので編集重みがｑ、反対にｓｊに対応するａｉが無ければ入力文から単語の削除が必要なので編集重みがｒであるとして求められる重みを積算する。ここで、ｐ、ｑ、ｒは正の定数である。また、対応関係については、原言語構成情報も入力文の単語も並び順が破壊されないという条件と、可変項目は入力文の複数の単語に対応しうるという条件を満たすものとする。前者の条件の例は、例えばａｉとｓｊとが対応する場合、ａ（ｉ＋１）とｓ（ｊ−１）とは対応することはないといったことである。後者の条件は可変項目が複数の単語からなる句であってもよいことから生じる。前者の条件から、原言語構成情報のうちａ１からａｉと入力文のうちｓ１からｓｊとの間での全ての対応関係における最小の距離ｄ（ｉ，ｊ）は、ｄ（ｉ−１，ｊ−１）、ｄ（ｉ−１，ｊ）、ｄ（ｉ，ｊ−１）の全てと、ａｉとｓｊとの関係がわかれば求められる。以下では上述の法則を利用した計算方法について説明する。

距離計算部６１は、距離の値が格納され、（ｎ＋１）×（ｍ＋１）の２次元配列ｄと、ｄ（ｉ−１，ｊ−１）、ｄ（ｉ−１，ｊ）、ｄ（ｉ，ｊ−１）のうちどれを用いて計算するとｄ（ｉ，ｊ）が最小の距離となるかを示すｎ×ｍの配列ＰａｔｈＦｌａｇとを初期化する（ステップＳ１１３）。配列ｄは、ｄ（０，０）からｄ（ｎ，ｍ）まであり、ｄ（ｉ，ｊ）は部分文字列ａ１
ａ２…ａｉとｓ１ｓ２…ｓｊ間の距離を表す。ｄ（ｉ，０）にはｉ×ｑが、ｄ（０，ｊ）にはｊ×ｒが代入される。配列ＰａｔｈＦｌａｇはＰａｔｈＦｌａｇ（１，１）からＰａｔｈＦｌａｇ（ｎ，ｍ）まである。次に、変数ｉおよびｊに１を代入し（ステップＳ１１４）、繰返し処理をはじめる。距離計算部６１は、ａ１からａｉとｓ１からｓｊとの間での最小の距離ｄ（ｉ，ｊ）を求め、ｄ（ｉ−１，ｊ−１）、ｄ（ｉ−１，ｊ）、ｄ（ｉ，ｊ−１）のうちどれを用いて計算すると最小となるかをＰａｔｈＦｌａｇ（ｉ，ｊ）に格納する（ステップＳ１１５）。ｄ（ｉ，ｊ）は以下の方法で計算される。

ａｉが可変項目の場合：
ｄ（ｉ，ｊ）＝ｍｉｎ｛ｄ（ｉ−１，ｊ−１）＋ｗ（ａｉ，ｓｊ），ｄ（ｉ−１，ｊ）＋ｑ，ｄ（ｉ，ｊ−１）｝

ａｉが固定項目の場合：
ｄ（ｉ，ｊ）＝ｍｉｎ｛ｄ（ｉ−１，ｊ−１）＋ｗ（ａｉ，ｓｊ），ｄ（ｉ−１，ｊ）＋ｑ，ｄ（ｉ，ｊ−１）＋ｒ｝

ここで、ｗ（ａｉ，ｓｊ）は、ａｉが可変項目の場合は、例えば０であり、ａｉが固定項目であれば例えばａｉとｓｊとが等しければ０、等しくなければｐである。また、ｄ（ｉ−１，ｊ−１）、ｄ（ｉ−１，ｊ）、ｄ（ｉ，ｊ−１）のうち距離が最小となるものが複数ある場合は、その全ての情報をＰａｔｈＦｌａｇ（ｉ，ｊ）に格納する。

次に距離計算部６１はｊを１増やし（ステップＳ１１６）、ｊがｍ以下であれば（ステップＳ１１７のＹ）ステップＳ１１５から繰り返す。ｊがｍ以下でなければ（ステップＳ１１７のＮ）ｉを１増やし（ステップＳ１１８）、ｉがｎ以下か判定する（ステップＳ１１９）。ｉがｎ以下であれば（ステップＳ１１９のＹ）、ステップＳ１１５から繰り返す。ｉがｎ以下でなければ（ステップＳ１１９のＮ）、距離としての変数ｄ（ｎ，ｍ）と配列ＰａｔｈＦｌａｇとを原言語例文パターンに関連づけて記憶し（ステップＳ１２０）、処理を終了する。

図８は、距離計算部の計算過程の例を示す図である。図８の表の各セルの値は配列ｄの各セルの値を表し、矢印は左上、左、上のうちどのセルから計算すると距離が最小となるかを表している。この例では、入力文が「私は富士ゼロックスの社員です」、原言語構成情報の候補が、「［ｖ］は［ｖ］です」である場合について最小の距離を計算した例を示している。ここで、この例ではｐ＝ｑ＝ｒ＝１としている。この表によれば、配列ＰａｔｈＦｌａｇが最小の距離を計算する場合の入力文の単語と、可変項目および固定項目との関係を示すことがわかる。

ステップＳ１０１の処理により原言語構成情報の各候補と入力文との距離が求められると、原言語構成情報選択部５４は原言語構成情報の候補のうちから距離が最小となる原言語構成情報を選択する（ステップＳ１０２）。ここで、選択される原言語構成情報は、必ずしも１つとは限らない。仮に距離が最小となる原言語構成情報の種類が１つであったとしても、例えば原言語構成情報が同じである複数の対訳例文パターンが存在する場合には、その対訳例文パターンの数の原言語構成情報が選択されてよい。

次に、原言語構成情報選択部５４は、選択された原言語構成情報の固定項目および可変項目の各項目と入力文の文字列との対応関係（以下最小写像と呼ぶ）を求める（ステップＳ１０３）。ステップＳ１０３の処理は、原言語構成情報選択部５４に含まれる写像抽出部６２が行う。以下では写像抽出部６２の処理フローとともにこの処理内容について説明する。

写像抽出部６２は、ＣＰＵ１１、記憶部１２を中心として実現される。図９Ａから９Ｃは写像抽出部６２の処理フローの一例を示す図である。はじめに、写像抽出部６２は、選択された原言語構成情報に関連づけて記憶された配列ＰａｔｈＦｌａｇを取得し、さらにその原言語構成情報に含まれる可変項目および固定項目の情報をそれぞれ位置情報の順に格納したデータ列ａ１〜ａｎを取得する（ステップＳ１３１）。この可変項目および固定項目の情報は具体的には、可変項目であるか否かの情報および固定項目の場合の固定内容の文字列の情報である。次に、選択された原言語構成情報の各可変項目および固定項目に対応する１または複数の単語を記憶するｎ個のリストからなる配列Ｍａｔを初期化し、（ｎ，ｍ）と、０と、配列Ｍａｔをスタックにｐｕｓｈする（ステップＳ１３２）。

次に、写像抽出部６２はスタックからｐｏｐし、値を変数組（ｉ，ｊ）と、変数ｕと、配列Ｍａｔとに格納する（ステップＳ１３３）。変数組（ｉ，ｊ）が（０，０）であれば（ステップＳ１３４のＹ）、最小写像が求まっているので最小写像のリストＦｓｅｔに配列Ｍａｔを追加し（ステップＳ１３５）、残りのスタックがあれば（ステップＳ１３６のＹ）再びステップＳ１３３から繰り返す。残りのスタックが無ければ（ステップＳ１３６のＮ）処理は終了する。ステップＳ１３４で変数組（ｉ，ｊ）が（０，０）でない場合は（ステップＳ１３４のＮ）、変数ｉが０であるか判定する（ステップＳ１３７）。変数ｉが０であれば（ステップＳ１３７のＹ）、入力文のｊ番目の単語は脱落しているのでＭａｔ（０）のリストにその単語を追加し（ステップＳ１３８）、変数組（ｉ，ｊ−１）と、０と、配列Ｍａｔをｐｕｓｈし（ステップＳ１３９）、ステップＳ１３３の処理から繰り返す。

ステップＳ１３７で変数ｉが０でなければ（ステップＳ１３７のＮ）、ａｉが固定項目か判定する（ステップＳ１４０）。ａｉが固定項目であれば（ステップＳ１４０のＹ）、ＰａｔｈＦｌａｇ（ｉ，ｊ）について判定を行う（ステップＳ１４１）。ＰａｔｈＦｌａｇ（ｉ，ｊ）が、ｄ（ｉ，ｊ）をｄ（ｉ−１，ｊ−１）から求めたことを示せば（ステップＳ１４１のＹ）、Ｍａｔ（ｉ）のリストにｊ番目の単語を追加し（ステップＳ１４２）、変数組（ｉ−１，ｊ−１）と、０と、配列Ｍａｔをｐｕｓｈする（ステップＳ１４３）。以下ではＰａｔｈＦｌａｇ（ｉ，ｊ）が、ｄ（ｉ，ｊ）をｄ（ｉ−１，ｊ−１）から求めたことを示すことを「（ｉ−１，ｊ−１）経由」と記載する。またｄ（ｉ，ｊ−１）やｄ（ｉ−１，ｊ）の場合はそれぞれ「（ｉ，ｊ−１）経由」、「（ｉ−１，ｊ）経由」と記す。ステップＳ１４１で（ｉ−１，ｊ−１）経由でない場合（ステップＳ１４１のＮ）およびステップＳ１４３の処理後は、ＰａｔｈＦｌａｇ（ｉ，ｊ）が（ｉ，ｊ−１）経由か判定する（ステップＳ１４４）。（ｉ，ｊ−１）経由であれば（ステップＳ１４４のＹ）、挿入であるのでＭａｔ（ｉ）のリストにｊ番目の単語を追加し（ステップＳ１４５）、変数組（ｉ，ｊ−１）と、０と、配列Ｍａｔをｐｕｓｈする（ステップＳ１４６）。ステップＳ１４１で（ｉ，ｊ−１）経由でない場合（ステップＳ１４４のＮ）およびステップＳ１４６の処理後は、ステップＳ１５３の処理に移る。次に、ステップＳ１４０でａｉが可変項目であれば（ステップＳ１４０のＮ）、ＰａｔｈＦｌａｇ（ｉ，ｊ）について（ｉ−１，ｊ−１）経由か判定する（ステップＳ１４７）。（ｉ−１，ｊ−１）経由であれば（ステップＳ１４７のＹ）、Ｍａｔ（ｉ）のリストにｊ番目から（ｊ＋ｕ）番目の単語を追加し（ステップＳ１４８）、変数組（ｉ−１，ｊ−１）と、０と、配列Ｍａｔをｐｕｓｈする（ステップＳ１４９）。ステップＳ１４７で（ｉ−１，ｊ−１）経由でない場合（ステップＳ１４７のＮ）およびステップＳ１４９の処理後は、ＰａｔｈＦｌａｇ（ｉ，ｊ）が（ｉ，ｊ−１）経由か判定する（ステップＳ１５０）。（ｉ，ｊ−１）経由であれば（ステップＳ１５０のＹ）、ｕを１増やし（ステップＳ１５１）、変数組（ｉ，ｊ−１）と、変数ｕと、配列Ｍａｔをｐｕｓｈする（ステップＳ１５２）。ステップＳ１５０で（ｉ，ｊ−１）経由でない場合（ステップＳ１５０のＮ）およびステップＳ１５２の処理後は、ステップＳ１５３の処理に移る。

ステップＳ１５３ではＰａｔｈＦｌａｇ（ｉ，ｊ）が（ｉ−１，ｊ）経由か判定する。（ｉ−１，ｊ）経由であれば（ステップＳ１５３のＹ）、脱落であるので、Ｍａｔ（ｉ）のリストを空にし（ステップＳ１５４）、変数組（ｉ−１，ｊ）と、０と、配列Ｍａｔをｐｕｓｈする（ステップＳ１５５）。ステップＳ１５３で（ｉ−１，ｊ）経由でない場合（ステップＳ１５３のＮ）およびステップＳ１５５の処理後は、ステップＳ１３３の処理から繰り返す。これらの処理により、写像のリストＦｓｅｔが取得される。なお、スタックを使うことにより、写像が複数ある場合でもそれらが求められる。

ステップＳ１０３の処理で写像が求められた後では、原言語構成情報選択部５４は写像が複数あるか確認し、複数の写像がある場合には、それらの写像から１つの写像を選択する（ステップＳ１０４）。ステップＳ１０４の処理は、最適写像選択部６３が行う。最適写像選択部６３は、ＣＰＵ１１、記憶部１２を中心として実現される。最適写像選択部６３は、写像が複数ある場合に、各写像について、可変項目の単語により構成される句を、いくつかの基準により評価し、それらの評価を総合的に判断して１つの写像を選択する。その評価の基準としては、例えば、その句が辞書に存在するか、その句に動詞、助詞、助動詞が含まれるか、などがある。

目的言語構成情報選択部５５は、ＣＰＵ１１、記憶部１２を中心として実現される。目的言語構成情報選択部５５は、選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれがその文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む目的言語構成情報のうちから１つの目的言語構成情報を、原言語構成情報と目的言語構成情報とに関連づけられる評価情報に基づいて選択する。ここで、評価情報は、対訳例文パターンのうち原言語構成情報の部分を除いた部分を示す。対訳例文パターンは原言語例文パターンと目的言語例文パターンを含むので、それによって原言語目的情報および目的言語情報と関連づけられている。また、原言語例文パターンにおける可変項目の変数情報（品詞情報）や語彙体系や用例情報、そして対訳例文パターンにおける言語間対応情報や対訳例文情報なども原言語構成情報に関連づけられている。可変項目の変数情報（品詞情報）や語彙体系や用例情報は可変項目の属性を示す情報である。なお、目的言語構成情報を選択することは、実質的に目的言語例文パターンも選択することおよび対訳例文パターンも選択することと同じである。

目的言語構成情報選択部５５は、選択された原言語構成情報を含む複数の目的言語情報および対訳例文パターンが存在する場合に、選択された原言語構成情報に対応する複数の目的言語構成情報から１つの目的言語構成情報および対訳例文パターンを選択する。図１０は、選択された原言語構成情報に対し複数の対訳例文パターンが存在する場合の対訳例文パターンの一例を示す図である。本図の例では、入力文として、「彼は電車に乗る」が与えられ、「［ｖ］は［ｖ］に乗る」という原言語構成情報（［ｖ］は可変項目を示す）が選択された場合に、その原言語構成情報を含む３つの対訳例文パターンが存在することを示している。１つ目は、人が乗り物に座って乗る意味の場合の対訳例文パターンであり、２つ目は、人が調子やリズムに乗るような意味の場合の対訳例文パターンであり、３つ目は、人が動物などにまたがって乗る意味の場合の対訳例文パターンである。本図では理解の容易のため、アライメント情報を示す代わりに、原言語例文パターンおよび目的言語例文パターンの可変情報の変数情報に共通の数字をつけることにより、原言語例文パターンと目的言語例文パターンとの間での可変項目の対応関係を示している。他の表記は、対訳例文パターンのデータ構造を説明した図５の例と同じ表記法である。

目的言語構成情報選択部５５は、選択された原言語構成情報を含む対訳例文パターンのセットを取得し、その対訳例文パターンのそれぞれについて、５つの評価尺度のそれぞれでの評価値Ｓｅｐ１からＳｅｐ５を計算し、それらの値に重み付けして和を取った総合評価値ＳｅｐＰに基づいて対訳例文パターンを選択する。図１１は、目的言語構成情報選択部５５の処理フローの一例を示す図である。また、図１２Ａから図１２Ｅは、順に、第１の評価尺度での評価値Ｓｅｐ１を計算する処理フロー、第２の評価尺度での評価値Ｓｅｐ２を計算する処理フロー、第３の評価尺度での評価値Ｓｅｐ３を計算する処理フロー、第４の評価尺度での評価値Ｓｅｐ４を計算する処理フロー、第５の評価尺度での評価値Ｓｅｐ５を計算する処理フローを示す図である。なお、図１２Ａから図１２Ｄは１つの対訳例文パターンに対する処理のみを記載している。第１から第３の評価尺度における評価値Ｓｅｐ１からＳｅｐ３を計算する処理については、目的言語構成情報選択部５５は原言語構成情報の可変項目に対応する入力文の文字列の属性と、原言語構成情報に含まれる可変項目の属性と目的言語構成情報とを関連づけた情報とに基づいて、１つの前記目的言語構成情報を選択するといえる。

第１の評価尺度における評価値Ｓｅｐ１の計算（ステップＳ１７１）について説明する。目的言語構成情報選択部５５は、入力文の単語の品詞情報と選択された原言語構成情報に含まれる可変項目の品詞と目的言語情報とを関連づけた情報に基づいて、１つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部５５は、ある対訳例文パターンに含まれる原言語例文パターンの可変項目（その数をｈとする）の情報を取得し、ＳＰ１からＳＰｈに格納し、各可変項目の処理結果を記憶する変数ＦＳ１〜ＦＳｈを初期化する（ステップＳ２１１）。次に、ＳＰ１からＳＰｈのそれぞれに対応する入力文の文字列（１または複数の単語）から中心単語を取得し、変数ＳＷ１からＳＷｈに格納する（ステップＳ２１２）。ここで、中心単語は、可変項目に対応する１または複数の単語のうち、他の固定項目や可変項目との繋がりが生じる１つの単語であり、日本語では最後の単語である。次に、目的言語構成情報選択部５５は、変数ｉに１を代入する（ステップＳ２１３）。

目的言語構成情報選択部５５は、可変項目のうちｉ番目のものであるＳＰｉに品詞集合の情報（変数情報）が設定されているか確認し（ステップＳ２１４）、設定されていなければ（ステップＳ２１４のＮ）変数ＦＳｉに１を代入し（ステップＳ２１５）、設定されていれば（ステップＳ２１４のＹ）、その品詞集合にＳＷｉの品詞が含まれているか判断する（ステップＳ２１６）。ここで、ＳＷｉの品詞は形態素解析部５２の処理結果から取得する。ＳＷｉの品詞が含まれていれば（ステップＳ２１６のＹ）、変数ＦＳｉに１を代入し（ステップＳ２１５）、含まれていなければ（ステップＳ２１６のＮ）、変数ＦＳｉに０を代入する（ステップＳ２１７）。変数ＦＳｉに何らかの値を代入したら変数ｉを１増やし（ステップＳ２１８）、ｉの値がｈ以下なら（ステップＳ２１９のＹ）ステップＳ２１４から繰り返す。ｉの値がｈを超えたら（ステップＳ２１９のＮ）、ＦＳ１からＦＳｈの平均を取得し、それをこの対訳例文パターンにおける第１の評価尺度での評価値Ｓｅｐ１とする（ステップＳ２２０）。ステップＳ２１１からステップＳ２２０の処理は、選択された対訳例文パターン全てに対して行われる。

例えば図１０の例で、入力文として「彼は電車に乗る」が取得された場合には、原言語構成情報の可変項目に対応する単語である「彼」および「電車」はどちらも名詞であり、対訳例文パターン１から３のどれもそれらの可変項目は名詞の変数とされているので、評価値Ｓｅｐ１は１となる。

第２の評価尺度における評価値Ｓｅｐ２の計算（ステップＳ１７２）について説明する。目的言語構成情報選択部５５は、原言語構成情報の可変項目に対応する入力文の文字列と、語彙体系と目的言語とを関連づけた情報とに基づいて、１つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部５５は、ある対訳例文パターンに含まれる原言語例文パターンの可変項目（その数をｈとする）の情報をＳＰ１からＳＰｈに格納し、変数ＦＳ１〜ＦＳｈを初期化する（ステップＳ２３１）。次に、ＳＰ１からＳＰｈのそれぞれに対応する入力文の文字列（１または複数の単語）から中心単語を取得し、変数ＳＷ１からＳＷｈに格納する（ステップＳ２３２）。次に、目的言語構成情報選択部５５は、変数ｉに１を代入する（ステップＳ２３３）。

目的言語構成情報選択部５５は、可変項目のうちｉ番目のものであるＳＰｉに語彙体系情報が設定されているか確認し（ステップＳ２３４）、設定されていなければ（ステップＳ２３４のＮ）変数ＦＳｉに１を代入し（ステップＳ２３５）、設定されていれば（ステップＳ２３４のＹ）、その語彙体系が示す語彙体系にＳＷｉの単語が含まれているか判断する（ステップＳ２３６）。ＳＷｉがその語彙体系に含まれていれば（ステップＳ２３６のＹ）、変数ＦＳｉに１を代入し（ステップＳ２３５）、含まれていなければ（ステップＳ２３６のＮ）、変数ＦＳｉに０を代入する（ステップＳ２３７）。変数ＦＳｉに何らかの値を代入したら変数ｉを１増やし（ステップＳ２３８）、ｉの値がｈ以下なら（ステップＳ２３９のＹ）ステップＳ２３４から繰り返す。ｉの値がｈを超えたら（ステップＳ２３９のＮ）、ＦＳ１からＦＳｈの平均を取得し、それをこの対訳例文パターンにおける第２の評価尺度での評価値Ｓｅｐ２とする（ステップＳ２４０）。ステップＳ２３１からステップＳ２４０の処理は、選択された対訳例文パターン全てに対して行われる。

図１３は、語彙体系の例を示す図である。例えば図１０の例で、入力文として「彼は電車に乗る」が取得された場合には、原言語構成情報の可変項目の１番目に対応する単語である「彼」は人物の語彙体系に含まれ、２番目に対応する「電車」は図１３に示すように「乗り物」の語彙体系に含まれる。よって、それらの語彙体系の情報が設定されている対訳例文パターン１と３では評価値Ｓｅｐ２は１であり、前者に対する「人物」の語彙体系情報のみが設定されている対訳例文パターンでは評価値Ｓｅｐ２は０，５となる。

第３の評価尺度における評価値Ｓｅｐ３の計算（ステップＳ１７３）について説明する。目的言語構成情報選択部５５は、原言語構成情報の可変項目に対応する入力文の文字列と、前記用例情報と前記目的言語構成情報とを関連づけた情報とに基づいて、１つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部５５は、ある対訳例文パターンに含まれる原言語例文パターンの可変項目（その数をｈとする）の情報をＳＰ１からＳＰｈに格納し、変数ＦＳ１〜ＦＳｈを初期化する（ステップＳ２５１）。次に、ＳＰ１からＳＰｈのそれぞれに対応する入力文の文字列（１または複数の単語）から中心単語を取得し、変数ＳＷ１からＳＷｈに格納する（ステップＳ２５２）。次に、目的言語構成情報選択部５５は、変数ｉに１を代入する（ステップＳ２５３）。

目的言語構成情報選択部５５は、ＳＰｉの用例情報が設定されているか確認し（ステップＳ２５４）、用例情報が設定されていなければ（ステップＳ２５４のＮ）、変数ＦＳｉに１を代入する（ステップＳ２５５）。用例情報が設定されていれば（ステップＳ２５４のＹ）、ＳＰｉの用例情報から用例の集合ＳＰＥを取得する（ステップＳ２５６）。次に目的言語構成情報選択部５５はＳＷｉとＳＰＥとの類似度ＳｉｍＷを計算し、変数ＦＳｉに格納する（ステップＳ２５６）。ＳｉｍＷを求める際には、まず用例の集合に含まれる個々の用例の単語とＳＷｉとの類似度Ｓｉｍを求める。この類似度Ｓｉｍは、例えばＳＷｉのＢｉ−ｇｒａｍと、用例の単語の文字列のＢｉ−ｇｒａｍとから原言語構成情報候補検索部５３と同じ計算方法で求められる。用例の集合に含まれる個々の用例の数をｔとし、ｊ番目の用例とＳＷｉとの類似度をＳｉｍ（ｊ）とすると、以下の式で求められる。

ＳｉｍＷ＝ｍａｘ｛ｓｉｍ（１），ｓｉｍ（２），…，ｓｉｍ（ｔ）｝

なお、ＳｉｍＷは以下の式で求めてもよい。

ＳｉｍＷ＝｛ｓｉｍ（１）＋ｓｉｍ（２）＋…＋ｓｉｍ（ｔ）｝／ｔ

変数ＦＳｉに何らかの値をセットしたら変数ｉを１増やし（ステップＳ２５８）、ｉの値がｈ以下なら（ステップＳ２５９のＹ）ステップＳ２５４から繰り返す。ｉの値がｈを超えたら（ステップＳ２５９のＮ）、ＦＳ１からＦＳｈの平均を取得し、それをこの対訳例文パターンにおける第３の評価尺度での評価値Ｓｅｐ３とする（ステップＳ２６０）。ステップＳ２５１からステップＳ２６０の処理は、選択された対訳例文パターン全てに対して行われる。

第４の評価尺度における評価値Ｓｅｐ４の計算（ステップＳ１７４）について説明する。目的言語構成情報選択部５５は、選択された原言語構成情報と言語間対応情報とを用いて生成した翻訳文の生成確率に基づいて、１つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部５５は、ある対訳例文パターンに含まれる原言語例文パターンの可変項目（その数をｈとする）のそれぞれに対応する入力文の文字列（１または複数の単語）から中心単語を取得し、配列ＳＷ１からＳＷｈに格納する（ステップＳ２７１）。

次に目的言語構成情報選択部５５は、辞書部５７に記憶される単語辞書を用いて、ＳＷ１からＳＷｈのそれぞれの訳語リストを求め、それぞれＴＷ１からＴＷｈに格納する（ステップＳ２７２）。ここで、単語辞書は原言語と目的言語とで１対多の関係を持ちうる。よって、ＴＷ１からＴＷｈのそれぞれは複数の訳語を含んでよい。目的言語構成情報選択部５５は、ＴＷ１からＴＷｈの訳語リストのそれぞれから１つの訳語を選択する全ての組み合わせを求める（ステップＳ２７３）。これは、目的言語の可変項目に代入する訳語の組み合わせを求めることに相当する。そして、各組み合わせに含まれる訳語のそれぞれを、目的言語例文パターンの可変項目のうち対応するものに代入し、固定項目とあわせて訳文を生成する（ステップＳ２７４）。可変項目の訳語は中心単語の訳語のみであり、この訳文は本来の翻訳文より簡易的なものである。そして、各組み合わせについて生成された訳文のそれぞれについて、単語のＮグラムモデルを用いて、訳文の生成確率を生成する（ステップＳ２７５）。その生成確率のうち最大のものをこの対訳例文パターンにおける第４の評価尺度での評価値Ｓｅｐ４とする（ステップＳ２７６）。ステップＳ２７１からステップＳ２７６の処理は、選択された対訳例文パターン全てに対して行われる。

図１０の例で、入力文として「彼は電車に乗る」が取得された場合には、対訳例文パターン１、対訳例文パターン２、対訳例文パターン３により生成される訳文は、図１６に示すようになる。なお、Ｎグラムモデルにおける（Ｎ−１）個の単語からＮ個目の単語の出現確率を示す情報は、辞書部５７に記憶されている。

第５の評価尺度における評価値Ｓｅｐ５の計算（ステップＳ１７５）について説明する。ここでは、評価情報として、原言語例文パターンと目的言語例文パターンとの対応関係だけでなく、辞書部５７に記憶された例文対訳辞書も用いる。例文対訳辞書は複数の対訳例文を含む。個々の対訳例文は、複数の原言語構成情報のいずれかに適合する原言語の例文と複数の目的言語構成情報のいずれかに適合する目的言語の例文とからなる。図１４は、対訳例文の例を示す図である。対訳例文に含まれる原言語の例文および目的言語の例文は文字列であり、形態素解析の結果の情報は含まなくてよい。また対訳例文と原言語構成情報や目的言語構成情報との関連について、予め記憶してもよい。

目的言語構成情報選択部５５は、選択された原言語構成情報に適合する原言語の例文と、選択された原言語構成情報に対応する目的言語構成情報に適合する目的言語の例文とからなる対訳例文の数に基づいて、１つの目的言語構成情報を選択する。はじめに、目的言語構成情報選択部５５は、選択された原言語構成情報を含む対訳例文パターンのセットのうちから、順に１つの対訳例文パターンを取得する（ステップＳ２９１）。次に、例文対訳辞書から、選択された原言語構成情報に適合する原言語の例文を含む対訳例文の集合ＢＳＳを取得し（ステップＳ２９２）、例文対訳辞書から、取得された例文パターンの目的言語構成情報に適合する目的言語の例文を含む対訳例文の集合ＢＳＴを取得する（ステップＳ２９３）。次に、集合ＢＳＳと、集合ＢＳＴとで共通する対訳例文の数を求め、その数を記憶する（ステップＳ２９４）。そして、全ての対訳例文パターンが取得されていなければ（ステップＳ２９５のＮ）ステップＳ２９１から処理を繰り返す。全ての対訳例文パターンが取得されれば（ステップＳ２９５のＹ）、各対訳例文パターンにおける対訳例文の数の最大値が１になるように正規化した値を求め、その各対訳例文パターンにおける第５の評価尺度における評価値Ｓｅｐ５として記憶する（ステップＳ２９６）。評価値Ｓｅｐ５は具体的には、具体的には全対訳例文パターンにおける対訳例文の数の和で各対訳例文パターンにおける対訳例文の数を割った値である。

第１から第５の評価尺度での評価値Ｓｅｐ１からＳｅｐ５が計算されたら、目的言語構成情報選択部５５はそれらから各対訳例文パターンの総合評価値ＳｅｐＰを計算する（ステップＳ１７６）。総合評価値ＳｅｐＰは、評価値Ｓｅｐ１からＳｅｐ５を重み付けして足しあわせた値であり、Ｓｅｐ１からＳｅｐ５に対する重みをｋ１からｋ５（ｋ１，・・・ｋ５）とすると、以下に式で求められる。

ＳｅｐＰ＝ｋ１×ＦＳ１＋ｋ２×ＦＳ２＋ｋ３×ＦＳ３＋ｋ４×ＦＳ４＋ｋ５×ＦＳ５

次に、目的言語構成情報選択部５５は総合評価値ＳｅｐＰが最大となる１つの対訳例文パターンを選択する。この選択された対訳例文パターンには１つの目的言語情報が含まれ、１つの目的言語情報が選択されている。

図１５は、図１１に示す候補から目的言語例文パターンを選択する過程の例を説明する図である。図１５の例では、ｋ１＝ｋ２＝ｋ３＝ｋ５＝０．１５、ｋ４＝０．４であるとして総合評価値ＳｅｐＰを計算している。ここで、ｋ１からｋ５の値は、他の実験的に求めた値でもよい。

翻訳文出力部５６は、ＣＰＵ１１、記憶部１２、通信部１３、入出力部１４を中心として実現される。翻訳文出力部５６は、選択された目的言語構成情報と、その目的言語構成情報に対応する選択された原言語構成情報と、に基づいて、入力文の翻訳文を入出力部１４に接続された出力手段、通信部１３およびネットワークを介して接続されたクライアントや、記憶部１２に出力する。具体的には、原言語構成情報が含む可変項目のそれぞれに対応する入力文の単語を単語辞書により翻訳して訳語を生成し、それを目的言語例文パターンの可変項目に代入し、位置情報が示す順に可変項目に代入された訳語と固定内容の文字列とを出力することで翻訳文が出力される。ある可変項目に複数の単語からなる句が対応する場合は、その句の内容に適合する原言語例文パターンおよび対訳例文パターンを選択して訳語を翻訳する。

本実施形態にかかる翻訳装置１は、必ずしも文を翻訳することしか行わないわけではない。例えば翻訳支援システムの一部であってもよい。

１翻訳装置、１１ＣＰＵ、１２記憶部、１３通信部、１４入出力部、５１入力文取得部、５２形態素解析部、５３原言語構成情報候補検索部、５４原言語構成情報選択部、５５目的言語構成情報選択部、５６翻訳文出力部、５７辞書部、６１距離計算部、６２写像抽出部、６３最適写像選択部、Ｓｅｐ１，Ｓｅｐ２，Ｓｅｐ３，Ｓｅｐ４，Ｓｅｐ５評価値、ＳｅｐＰ総合評価値。

Claims

原言語で入力された文である入力文を取得する入力文取得手段と、
原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段と、
前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む目的言語構成情報のうちから１つの目的言語構成情報を、それぞれが原言語の例文と目的言語の例文とからなる複数の対訳例文のうち、前記選択された原言語構成情報に適合する原言語の例文と当該原言語構成情報に対応する目的言語構成情報に適合する目的言語の例文とからなる対訳例文の数に基づいて選択する目的言語構成情報選択手段と、
を含むことを特徴とする対訳情報検索装置。
原言語で入力された文である入力文を取得する入力文取得手段と、
原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段と、
前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む目的言語構成情報のうちから１つの目的言語構成情報を、それぞれが原言語の例文と目的言語の例文とからなる複数の対訳例文のうち、前記選択された原言語構成情報に適合する原言語の例文と当該原言語構成情報に対応する目的言語構成情報に適合する目的言語の例文とからなる対訳例文の数に基づいて選択する目的言語構成情報選択手段と、
前記選択された目的言語構成情報と、当該目的言語構成情報に対応する前記選択された原言語構成情報と、に基づいて、前記入力文の翻訳文を出力する翻訳文出力手段と、
を含むことを特徴とする翻訳装置。
原言語で入力された文である入力文を取得する入力文取得手段、
原言語の文の構成を示す複数の原言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む原言語構成情報のうちから、前記入力文に対応する原言語構成情報を選択する原言語構成情報選択手段、
前記選択された原言語構成情報に対応する目的言語の文の構成を示す複数の目的言語構成情報であってそれぞれが当該文の固定文字列を示す固定項目と任意の文字列を示す可変項目とを含む目的言語構成情報のうちから１つの目的言語構成情報を、それぞれが原言語の例文と目的言語の例文とからなる複数の対訳例文のうち、前記選択された原言語構成情報に適合する原言語の例文と当該原言語構成情報に対応する目的言語構成情報に適合する目的言語の例文とからなる対訳例文の数に基づいて選択する目的言語構成情報選択手段、
としてコンピュータを機能させるためのプログラム。