JP5398202B2

JP5398202B2 - 翻訳プログラム、翻訳システム、翻訳システムの製造方法及び対訳データ生成方法

Info

Publication number: JP5398202B2
Application number: JP2008231441A
Authority: JP
Inventors: 陸男高野; 諭白井; 一純大島; 雅敏小野; 武翁; 哲治赤坂
Original assignee: Funai Electric Co Ltd; Funai Electric Advanced Applied Technology Research Institute Inc
Current assignee: Funai Electric Co Ltd; Funai Electric Advanced Applied Technology Research Institute Inc
Priority date: 2008-09-09
Filing date: 2008-09-09
Publication date: 2014-01-29
Anticipated expiration: 2028-09-09
Also published as: JP2010066926A

Description

本発明は、翻訳プログラム、翻訳システム、翻訳システムの製造方法及び対訳データ生成方法に関する。

一つの言語を他の言語に翻訳する翻訳システムの研究が行われており、種々の翻訳システムが開発されている。

しかし、人が発信する情報の内容や構成は非常に多様であることから、処理能力が高いハードウエア（コンピュータ等）や膨大なデータベースを用いた場合でも、精度のよい翻訳を実現することは困難であった。
特開平９−２５８７７６号公報特開平４−５４６７０号公報

背景技術において、２つの基本的な問題が存在する。

第一は、翻訳の忠実度である。具体的には、原文データが少しでも異なれば、できる限り差異を持たせた訳文を構成しようとする方向性である。このため、翻訳に使用するデータ量が多いほど翻訳品質の向上すると仮定して、データベース規模の増大を招いているほか、データベース規模の増大につれて、収録内容の無矛盾性の保証が難しくなり、データベース維持のためのコストも増大するという問題がある。一方、人間が外国語によるコミュニケーションを行う場合、数千語の語彙知識があれば、タスク達成が十分可能であることから、翻訳システムが真に必要とするデータ量については再検討すべき段階に来ている。

第二は、入力の正確さである。一般に、翻訳システムの入力は正しい文であることが前提となっている。しかし、思いつきでしゃべった文や書きなぐった文には、語彙や文法的な誤りが含まれることが少なくなく、翻訳システムの入力としては不適当であるとされる。しかし、誤りを含んでいても、些細なものであれば人間同士のコミュニケーションには支障が生じないことから、原文入力に含まれる語句を１語１語同じ重みでチェックし翻訳するという、現在の翻訳システムの前提条件を見直すことも必要である。

本発明の目的は、処理負荷が小さく、かつ、翻訳精度の高い翻訳プログラム、翻訳システム、翻訳システムの製造方法及び並びに、対訳データ生成方法を提供することにある。

（１）本発明は、
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、
を含み、
第１の対訳データ記憶部は、
少なくとも１つの前記第１言語単文データを構成する少なくとも１つの語句を特定するためのキーワード情報を含み、
前記翻訳対象選択処理部は、
前記キーワード情報に基づき前記原文データと前記第１言語単文データとを比較して、比較結果に基づき前記第１の対訳データ記憶部かいらずれかの第１言語単文データを翻訳対象として選択することを特徴とする。

（２）この翻訳プログラムは、
前記翻訳対象選択処理部は、
前記原文データと前記第１言語単文データとを比較する際に、前記第１言語単文データの前記キーワード情報に基づき特定される語句が前記原文データに含まれているか否か判断し、否と判断した場合には、前記第１言語単文データを選択対象から除外して翻訳対象を選択する処理又は前記第１言語単文データの選択優先度を下げて翻訳対象を選択する処理を行ってもよい。

（３）この翻訳プログラムは、
前記翻訳対象選択処理部は、
前記原文データと前記第１言語単文データとを比較して、前記第１言語単文データの前記キーワード情報に基づき特定される語句とそれ以外の語句とでは異なる重み付けを行い類似度を演算し、演算された類似度に基づき前記第１の対訳データ記憶部からいずれかの第１言語単文データを翻訳対象として選択してもよい。

（４）この翻訳プログラムは、
第１の対訳データ記憶部は、
前記第１言語単文データの前記キーワード情報によって特定される語句についてレベルが設定され、
前記翻訳対象選択処理部は、
前記原文データと前記第１言語単文データとを比較して、前記第１言語単文データの前記キーワード情報に基づき特定される語句については設定されたレベルに応じて異なる重み付けを行い類似度を演算し、演算された類似度に基づき前記第１の対訳データ記憶部からいずれかの第１言語単文データを翻訳対象として選択してもよい。

（５）本発明は、
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
第１言語で表現された複数の第１言語語句データと、第２言語で表現された複数の第２言語語句データとを含み、対訳関係を有する前記第１言語語句データと前記第２言語語句データとが関連付けられて記憶された第２の対訳データ記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データには含まれないが原文データには含まれている語句である補足語を検出して、前記第２の対訳データ記憶部から補足語に対応した第１言語語句データと対訳関係を有する第２言語語句データを読み出す補足語抽出処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
前記対訳出力処理部は、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付し、読み出した第２言語語句データの前又は後に所定の第２言語語句データを添付して、前記訳文データとして出力してもよい。

（６）この翻訳プログラムは、
前記対訳出力処理部は、
読み出した第２言語語句データが所定の語句であるか否か判断し、所定の語句であると判断した場合には、読み出した第２言語語句データの前又は後に所定の第２言語語句データを添付して、前記訳文データとして出力してもよい。

（７）この翻訳プログラムは、
前記第２の対訳データ記憶部は、
前記第１言語語句データ及び前記第２言語語句データの少なくとも一方に関連づけて記憶された属性情報を含み、
前記対訳出力処理部は、
前記属性情報に基づき、読み出した第２言語語句データまたは前記第２言語語句データと対訳関係にある前記第１言語語句データが所定の属性であるか否か判断し、所定の属性であると判断した場合には、読み出した第２言語語句データの前又は後に所定の第２言語語句データを添付して、前記訳文データとして出力してもよい。

（８）この翻訳プログラムは、
前記対訳出力処理部は、
選択された第１言語単文データに所定の語句が含まれているか否か判断し、所定の語句が含まれていると判断した場合には、読み出した第２言語語句データの前又は後に所定の第２言語語句データを添付して、前記訳文データとして出力してもよい。

（９）この翻訳プログラムは、
所定の言語で表現された音声またはテキストによる呼びかけデータを記憶する呼びかけデータ記憶部と、
操作入力情報に基づき前記所与の呼びかけデータに対応した音声又はテキストの出力を行う呼びかけデータ出力部とを、含むんでもよい。

（１０）この翻訳プログラムは、
前記翻訳対象選択処理部は、
前記原文データに基づいて複数の第１言語単文データを翻訳対象選択候補として抽出し、抽出された翻訳対象選択候補を出力し（表示し）、
受け取った選択入力情報に基づき、第１言語単文データを選択してもよい。

（１１）本発明は、
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、を含み、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含むことを特徴とする翻訳システムの製造方法であって、
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶され、第１言語単文データ及び第２言語単文データの少なくとも一方に関連づけて、利用場面に関するデータ利用場面情報が設定された対訳データベースを作成するステップと、
翻訳システムの利用場面に関するシステム利用場面情報を受け取るステップと、
前記システム利用場面情報とデータ利用場面情報とに基づいて対訳データベースから対訳データを抽出するステップと、
抽出した対訳データに基づき翻訳システムの第１の対訳データ記憶部を製造するステップを、含むことを特徴とする。

（１２）この翻訳プログラムは、
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含む。

（１３）この翻訳プログラムは、
前記翻訳処理部は、
入力された原文データから特徴語を抽出する特徴語抽出処理部を含み、
前記翻訳対象選択処理部は、
前記第１の対訳データ記憶部から前記特徴語を含む第１言語単文データを抽出して、抽出結果に基づきいずれかの第１言語単文データを翻訳対象として選択してもよい。

翻訳対象選択処理部は、
特徴語を含む第１言語単文データが複数抽出された場合には、抽出された複数の第１言語単文データと原文データの類似度を判断し、判断結果に基づき第１言語単文データを選択してもよい。例えば最も類似度が高いと判断した第１言語単文データを選択してもよい。

（１４）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連した管理ＩＤ（例えば同じ管理ＩＤ）に対応付けて記憶されており、
前記対訳出力処理部は、
前記管理ＩＤ（例えば同じ管理ＩＤ）に基づき対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して前記訳文データとして出力してもよい。

関連した管理ＩＤとは例えば同じ管理ＩＤでもよい。

（１５）この翻訳プログラムは、
第１言語で表現された複数の第１言語語句データと、第２言語で表現された複数の第２言語語句データとを含み、対訳関係を有する前記第１言語語句データと前記第２言語語句データとが関連付けられて記憶された第２の対訳データ記憶部（単語、慣用句辞書）を含み、
前記翻訳処理部は、
翻訳対象として選択された第１言語単文データには含まれないが原文データには含まれている語句である補足語を検出して、前記第２の対訳データ記憶部から補足語に対応した第１言語語句データと対訳関係を有する第２言語語句データを読み出す補足語抽出処理部を含み、
前記対訳出力処理部は、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付して、前記訳文データとして出力してもよい。

（１６）この翻訳プログラムは、
第１言語で表現された代表語句と所定の関連を有する関連語句の情報である関連語句情報が記憶されている関連語句情報記憶部をさらに含み、
前記翻訳対象選択処理部は、
前記関連語句情報に基づき、入力された原文データが前記関連語句を含むか否か判断し、含むと判断した場合には、原文データの関連語句の部分を当該関連語句と所定の関連を有する代表語句に置換して、置換後の原文データに基づいて、前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択し、
前記補足語抽出処理部は、
前記関連語句に対応した第１言語語句データと対訳関係を有する第２言語語句データを前記第２の対訳データ記憶部から読み出し、
前記対訳出力処理部は、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付して、前記訳文データとして出力してもよい。

前記対訳出力処理部は、
翻訳対象として選択された第１言語単文データの後ろに、読み出した第２言語語句データを添付して前記訳文データとして出力してもよい。

（１７）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶され、グループに属するいずれかの第１言語単文データに代表データの指定がされており、
前記翻訳対象選択処理部は、
原文データに基づき抽出された第１言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第１言語単文データを翻訳対象として抽出してもよい。

（１８）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第２言語単文データがグループ化されて記憶され、グループに属するいずれかの第２言語単文データに代表データの指定がされており、
前記対訳出力処理部は、
選択された第１言語単文データと対訳関係を有する第２言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第２言語単文データに基づき前記訳文データを出力してもよい。

（１９）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
対訳関係を有する前記第１言語単文データのグループと前記第２言語単文データのグループとがグループ単位で関連付けられていてもよい。

（２０）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
第１言語単文データに関連づけて、当該第１言語単文データに含まれる特徴語が記憶されており、
前記翻訳対象選択処理部は、
前記第１の対訳データ記憶部を検索して、抽出された特徴語に関連づけられている第１言語単文データを抽出してもよい。

（２１）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
第１言語単文データに関連づけて、当該第１言語単文データの利用場面に関するデータ利用場面情報が記憶されており、
前記翻訳処理部は、
前記第１言語で表現された原文データに関連づけて、前記原文データの利用場面に関する原文利用場面情報を受け取り、
前記翻訳対象選択処理部は、
前記原文利用場面情報とデータ利用場面情報とに基づいて翻訳対象を選択してもよい。

（２２）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
第１言語単文データに関連づけて、当該第１言語単文データの話し手／聞き手に関するデータ話し手／聞き手情報が記憶されており、
前記翻訳処理部は、
前記第１言語で表現された原文データに関連づけて、前記原文データの話し手／聞き手に関する原文話し手／聞き手情報を受け取り、
前記翻訳対象選択処理部は、
前記原文話し手／聞き手情報とデータ話し手／聞き手情報とに基づいて翻訳対象を選択してもよい。

（２３）この翻訳プログラムは、
前記第１の対訳データ記憶部は、
第１言語単文データに関連づけて、当該第１言語単文データの事実／質問に関するデータ事実／質問情報が記憶されており、
前記翻訳処理部は、
前記第１言語で表現された原文データに関連づけて、前記原文データの事実／質問に関する原文事実／質問情報を受け取り、
前記翻訳対象選択処理部は、
前記原文事実／質問情報とデータ事実／質問情報とに基づいて翻訳対象を選択してもよい。

（２４）この翻訳プログラムは、
前記翻訳対象選択処理部は、
前記第１の対訳データ記憶部から特徴語を含む複数の第１言語単文データを抽出し、原文データにおける前記複数の第１言語単文データとの一致部分が所定の分布条件を満たすか否か判断し、満たすと判断した場合には、前記複数の第１言語単文データを翻訳対象として選択し、
前記対訳出力処理部は、
翻訳対象となった前記複数の第１言語単文データとそれぞれ対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出し、読み出された複数の第２言語単文データを接続して前記訳文データとして出力してもよい。

（２５）この翻訳プログラムは、
前記翻訳対象選択処理部は、
前記前記原文データに基づいて複数の第１言語単文データを抽出し、抽出された複数の第１言語単文データについてそれぞれ原文データとの類似度を判断する類似度判断処理を行い、判断結果に基づき翻訳対象となる第１言語単文データを選択してもよい。

（２６）本発明に係る翻訳システムは、
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、を含み、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含む。

（２７）本発明に係る対訳データベースの製造方法は、
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された対訳データベースの製造方法であって、
対訳関係を有する前記第１言語単文データと前記第２言語単文データとを関連した管理ＩＤに対応付けて記憶させる。

（２８）この対訳データベースの製造方法は、
意味内容が同じで表現形式が異なる複数の第１言語単文データ及び意味内容が同じで表現形式が異なる複数の第１言語単文データをグループ化して記憶させ、対訳関係を有する前記第１言語単文データのグループと前記第２言語単文データのグループとをグループ単位で、関連した管理ＩＤで管理してもよい。

（２９）この対訳データベースの製造方法は、
前記グループに属するいずれかの第１言語単文データ及び第２言語単文データの少なくとも一方に代表データの指定を行ってもよい。

以下、本発明を適用した実施の形態について図面を参照して説明する。ただし、本発明は以下の実施の形態に限定されるものではない。また、本発明は、以下の実施の形態及び変形例を自由に組み合わせたものを含むものとする。

（第１の実施の形態）
以下、本発明を適用した第１の実施の形態に係る翻訳システム１について説明する。

１．翻訳システム１の構成
図１は本実施の形態の翻訳システム（または翻訳プログラムをコンピュータで実行することにより実現される各部）１の機能ブロック図である。

本実施形態の翻訳システム１は、図１の構成要素（各部）を全て含む必要はなく、その一部を省略した構成としてもよい。

本実施形態の翻訳システム１は、第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部３２と、前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部４０とを含む。

前記翻訳処理部４０は、前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部４４と、翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部４８とを含む。

一般的に、「単文」とは、「主語と述語の関係を一組だけ含む文」と定義される。しかし本発明では、「単文」とは、これよりも広い概念を含むものとする。例えば日本語では主語（主格）が省略されることがあるが、本発明では、主語が省略された語句も、当然に「単文」に含まれる。また、文法上、複文（主節と従属節から成る文）として分類される構文の語句であっても、慣用句的にひとまとまりの語句として利用されている語句は、単文に含ませてもよい。すなわち、本発明では、「単文」を、「複数の単語を含む語句であって、１つの意味を表す語句（ひとまとまりの語句）」ととらえてもよい。

対訳関係を有する第１言語単文データと第２言語単文データは、１対１の対応関係であっても良いし、多対１の対応関係であっても良いし、多対多の対応関係であっても良い。

前記翻訳処理部４０は、前記第１の対訳データ記憶部３２を検索して、前記第１の対訳データ記憶部に、前記原文データ（テキストデータ）と一致する第１言語単文データ（テキストデータ）が記憶されているか否か判断し、記憶されていると判断した場合に、当該第１言語単文データを選択するようにしてもよい。

また翻訳処理部４０は、入力された原文データから特徴語を抽出する特徴語抽出処理部４２を含み、前記翻訳対象選択処理部４４は、前記第１の対訳データ記憶部３２から前記特徴語を含む第１言語単文データを抽出して、抽出結果に基づきいずれかの第１言語単文データを翻訳対象として選択してもよい。

また翻訳対象選択処理部４４は、特徴語を含む第１言語単文データが複数抽出された場合には、抽出された複数の第１言語単文データと原文データの類似度を判断し、判断結果に基づき第１言語単文データを選択してもよい。例えば最も類似度が高いと判断した第１言語単文データを選択してもよい。

特徴語と第１の対訳データ記憶部に記憶された第１言語単文データとの関連づけを予め行っておいても良い。例えば特徴語と特徴語を含む第１言語単文データの関係リストを生成しておいても良いし、第１の対訳データ記憶部の第１言語単文データに特徴語を示す情報を付しておいても良い。

特徴語抽出処理部４２は、原文データを複数の語句に分割して特徴語を抽出してもよい。例えば既存の解析手法（形態素解析手法、ストップワード処理、キーワードスポッティング等）を用いて、単語分割や名詞や動詞を抽出して特徴語を抽出してもよい。例えば特徴がないものを予めリストアップしておいて文から削除してから特徴語を抽出してもよい。また所定のキーワード（例えば「できますか」）というキーワードを登録しておいて、キーワードの前を特徴語と判断してもよい。

また音声入力を音声認識して原文データが生成される場合には音声認識による単語境界情報をうけとり、原文データを複数の語句に分割してもよい。

また前記第１の対訳データ記憶部３２は、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連した管理ＩＤ（例えば同じ管理ＩＤ）に対応付けて記憶されており、前記対訳出力処理部４８は、前記管理ＩＤ（例えば同じ管理ＩＤ）に基づき対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して前記訳文データとして出力してもよい。

関連した管理ＩＤとは例えば同じ管理ＩＤでもよい。

前記対訳出力処理部４８は、選択された第１言語単文データと同じ管理ＩＤに対応付けられた第２言語単文データを前記第１の対訳データ記憶部から読み出して前記訳文データとして出力してもよい。

また本実施形態の翻訳システム１は、第１言語で表現された複数の第１言語語句データと、第２言語で表現された複数の第２言語語句データとを含み、対訳関係を有する前記第１言語語句データと前記第２言語語句データとが関連付けられて記憶された第２の対訳データ記憶部（単語、慣用句辞書）３４を含んで構成してもよい。

また翻訳処理部４０は、翻訳対象として選択された第１言語単文データには含まれないが原文データには含まれている語句である補足語を検出して、前記第２の対訳データ記憶部３４から補足語に対応した第１言語語句データと対訳関係を有する第２言語語句データを読み出す補足語抽出処理部４６とを含んで構成してもよい。前記対訳出力処理部４８は、翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付して、前記訳文データとして出力してもよい。

前記対訳出力処理部４８は、翻訳対象として選択された第１言語単文データの後ろに、読み出した第２言語語句データを添付して前記訳文データとして出力してもよい。

また第１の対訳データ記憶部３２は、少なくとも１つの前記第１言語単文データを構成する少なくとも１つの語句を特定するためのキーワード情報を含むようにしてもよい。

翻訳対象選択処理部４４は、前記キーワード情報に基づき前記原文データと前記第１言語単文データとを比較して、比較結果に基づき前記第１の対訳データ記憶部からいずれかの第１言語単文データを翻訳対象として選択してもよい。

また翻訳対象選択処理部４４は、前記原文データと前記第１言語単文データとを比較する際に、前記第１言語単文データの前記キーワード情報に基づき特定される語句が前記原文データに含まれているか否か判断し、否と判断した場合には、前記第１言語単文データを選択対象から除外して翻訳対象を選択する処理又は前記第１言語単文データの選択優先度を下げて翻訳対象を選択する処理をおこなってもよい。

翻訳対象選択処理部４４は、前記原文データと前記第１言語単文データとを比較して、前記第１言語単文データの前記キーワード情報に基づき特定される語句とそれ以外の語句とでは異なる重み付けを行い類似度を演算し、演算された類似度に基づき前記第１の対訳データ記憶部からいずれかの第１言語単文データを翻訳対象として選択してもよい。

第１の対訳データ記憶部３２は、前記第１言語単文データの前記キーワード情報によって特定される語句についてレベルが設定され、翻訳対象選択処理部４４は、前記原文データと前記第１言語単文データとを比較して、前記第１言語単文データの前記キーワード情報に基づき特定される語句については設定されたレベルに応じて異なる重み付けを行い類似度を演算し、演算された類似度に基づき前記第１の対訳データ記憶部からいずれかの第１言語単文データを翻訳対象として選択してもよい。

対訳出力処理部４８は、翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付し、読み出した第２言語語句データの前又は後に所定の第２言語語句データを添付して、前記訳文データとして出力してもよい。

また対訳出力処理部４８は、読み出した第２言語語句データが所定の語句であるか否か判断し、所定の語句であると判断した場合には、読み出した第２言語語句データの前又は後に所定の第２言語語句データを添付して、前記訳文データとして出力してもよい。

第２の対訳データ記憶部３４は、前記第１言語語句データ及び前記第２言語語句データの少なくとも一方に関連づけて記憶された属性情報を含み、対訳出力処理部４８は、前記属性情報に基づき、読み出した第２言語語句データまたは前記第２言語語句データと対訳関係にある前記第１言語語句データが所定の属性であるか否か判断し、所定の属性であると判断した場合には、読み出した第２言語語句データの前又は後に所定の第２言語語句データを添付して、前記訳文データとして出力してもよい。

対訳出力処理部４８は、選択された第１言語単文データに所定の語句が含まれているか否か判断し、所定の語句が含まれていると判断した場合には、読み出した第２言語語句データの前又は後に所定の第２言語語句データを添付して、前記訳文データとして出力してもよい。

翻訳対象選択処理部４４は、前記原文データに基づいて複数の第１言語単文データを翻訳対象選択候補として抽出し、抽出された翻訳対象選択候補を出力し、受け取った選択入力情報に基づき、第１言語単文データを選択してもよい。

また本実施形態の翻訳システム１は、第１言語で表現された代表語句と所定の関連を有する関連語句の情報である関連語句情報が記憶されている関連語句情報記憶部３６をさらに含み、前記翻訳対象選択処理部４４は、前記関連語句情報に基づき、入力された原文データが前記関連語句を含むか否か判断し、含むと判断した場合には、原文データの関連語句の部分を当該関連語句と所定の関連を有する代表語句に置換して、置換後の原文データに基づいて、前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択し、前記補足語抽出処理部４６は、前記関連語句に対応した第１言語語句データと対訳関係を有する第２言語語句データを前記第２の対訳データ記憶部３４から読み出し、前記対訳出力処理部４８は、翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付して、前記訳文データとして出力してもよい。

代表語句とは例えば単語である。代表語句に対する関連語句とは例えば代表語句の代替え語（同じ意味で表記や異なる単語、言い換えても同じ意味となる単語等）となる単語でもよいし、類似語でもよい。

関連語句情報は、例えば関連語句と関連語句に対応する代表語句の情報でもよい。また関連語句の種別（例えば代替語か類似語）の情報を含んでもよい。関連語句情報記憶部には、関連語句に対して対応する代表語句と関連語句の種別情報が関連づけて記憶されていてもよい。

このようにすると、代表語句と関連語句を置き換え可能な文については、代表語句を用いた第１の言語単文データを用意すると、代表語句が関連語句に置換された文については第１の言語単文データを用意しなくても良い。従って第１の対訳データ記憶部の容量を削減することができるとともに、マッチング率を向上させることができる。

また前記第１の対訳データ記憶部３２は、意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶され、グループに属するいずれかの第１言語単文データに代表データの指定がされており、前記翻訳対象選択処理部４４は、原文データに基づき抽出された第１言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第１言語単文データを翻訳対象として抽出してもよい。

前記第１の対訳データ記憶部４４は、意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶され、グループに属するいずれかの第１言語単文データに代表データの指定がされており、対訳関係を有する前記第１言語単文データのグループと前記第２言語単文データとが関連付けられて記憶されていてもよい。

原文の言語に対応する第１言語単文データが意味内容が同じで表現形式が異なる複数の表現形式をもちグループ化されていると、バリエーションのある入力に対応が可能である。そして第２の言語データについてはグループの対訳として１種類の第２言語単文データをもつようにしてもよい。このようにすると少ないデータ量でバリエーションのある入力の翻訳に対応可能となる。

また前記第１の対訳データ記憶部３２は、意味内容が同じで表現形式が異なる複数の第２言語単文データがグループ化されて記憶され、グループに属するいずれかの第２言語単文データに代表データの指定がされており、前記対訳出力処理部４８は、選択された第１言語単文データと対訳関係を有する第２言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第２言語単文データに基づき前記訳文データを出力してもよい。

また前記第１の対訳データ記憶部３２は、対訳関係を有する前記第１言語単文データのグループと前記第２言語単文データのグループとがグループ単位で関連付けられていてもよい。

例えば対訳関係を有するグループに同じグループＩＤを与えて管理してもよい。

また前記第１の対訳データ記憶部３２は、第１言語単文データに関連づけて、当該第１言語単文データに含まれる特徴語が記憶されており、前記翻訳対象選択処理部４４は、前記第１の対訳データ記憶部を検索して、抽出された特徴語に関連づけられている第１言語単文データを抽出してもよい。

例えば第１の対訳データ記憶部に、特徴語と当該特徴語を含む第１言語単文データとの索引情報を記憶させても良い。

また前記第１の対訳データ記憶部３２は、第１言語単文データに関連づけて、当該第１言語単文データの利用場面に関するデータ利用場面情報が記憶されており、各種設定情報入力部１４は、前記第１言語で表現された原文データに関連づけて前記原文データの利用場面に関する原文利用場面情報１５を受け取り、前記翻訳対象選択処理部４４は、前記原文利用場面情報１５とデータ利用場面情報とに基づいて翻訳対象を選択してもよい。

このようにすると、利用場面で検索対象または抽出対象となる第１言語単文データを絞ることができるので、的はずれや場違いな翻訳がなされるのを防止し、効率のよい検索や抽出を行うことができる。

意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶されている場合にはグループ単位でデータ利用場面情報が記憶されていてもよい。

前記原文利用場面情報は、ユーザーの入力情報でもよい。例えばメニューにより選択入力できるようにしても良い。

また前記第１の対訳データ記憶部３２は、第１言語単文データに関連づけて、当該第１言語単文データの話し手／聞き手に関するデータ話し手／聞き手情報が記憶されており、各種設定情報入力部１４は、前記第１言語で表現された原文データに関連づけて、前記原文データの話し手／聞き手に関する原文話し手／聞き手情報１６を受け取り、前記翻訳対象選択処理部４４は、前記原文話し手／聞き手情報１６とデータ話し手／聞き手情報とに基づいて翻訳対象を選択してもよい。

このようにすると、話し手／聞き手の別で検索対象または抽出対象となる第１言語単文データを絞ることができるので、的はずれや場違いな翻訳がなされるのを防止し、効率のよい検索や抽出を行うことができる。

意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶されている場合にはグループ単位でデータ話し手／聞き手情報が記憶されていてもよい。

前記話し手／聞き手情報は、ユーザの入力情報でもよい。例えばメニューにより選択入力できるようにしても良い。

なお音声入力の音声認識により原文データが生成される場合には、持ち主の声を判別して、持ち主の声である場合には話し手と自動判別するようにしてもよい。

また前記第１の対訳データ記憶部３２は、第１言語単文データに関連づけて、当該第１言語単文データの事実／質問に関するデータ事実／質問情報が記憶されており、前記各種設定情報入力部１４は、前記第１言語で表現された原文データに関連づけて、前記原文データの事実／質問に関する原文事実／質問情報１７を受け取り、前記翻訳対象選択処理部４４は、前記原文事実／質問情報１７とデータ事実／質問情報とに基づいて翻訳対象を選択してもよい。

このようにすると、事実／質問の別で検索対象または抽出対象となる第１言語単文データを絞ることができるので、的はずれや場違いな翻訳がなされるのを防止し、効率のよい検索や抽出を行うことができる。

意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶されている場合にはグループ単位でデータ事実／質問情報が記憶されていてもよい。

前記事実／質問情報は、ユーザの入力情報でもよい。例えばメニューにより選択入力できるようにしても良い。

また前記翻訳対象選択処理部４４は、前記第１の対訳データ記憶部から特徴語を含む複数の第１言語単文データを抽出し、原文データにおける前記複数の第１言語単文データとの一致部分が所定の分布条件を満たすか否か判断し、満たすと判断した場合には、前記複数の第１言語単文データを翻訳対象として選択し、前記対訳出力処理部４８は、翻訳対象となった前記複数の第１言語単文データとそれぞれ対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出し、読み出された複数の第２言語単文データを接続して前記訳文データとして出力してもよい。

また前記翻訳対象選択処理部４４は、前記前記原文データに基づいて複数の第１言語単文データを抽出し、抽出された複数の第１言語単文データについてそれぞれ原文データとの類似度を判断する類似度判断処理を行い、判断結果に基づき翻訳対象となる第１言語単文データを選択してもよい。

類似度判断処理として、例えば抽出された各第１言語単文データと原文データとの文字の照合を行って一致文字数を検出し、前記各第１言語単文データについて、当該第１言語単文データに対する一致文字数の比率（一致文字数／第１言語単文データの文字数）と原文データに対する一致文字数の比率（一致文字数／原文データの文字数）の両方に基づいて、各第１言語単文データと原文データとの類似度を判断してもよい。

図２は本実施の形態の構成を示す図である。

本実施の形態の翻訳システム１は、図１で説明した各部としてコンピュータを機能させることにより実現することができる。

本実施の形態に係る翻訳システム１は、入力部１０を含む。入力部１０は、ユーザが所与の語句（原文）を入力するための原文入力部１２として機能する。なお、原文とは、翻訳システム１（翻訳装置）が翻訳の対象とする語句である。そして、入力部１０は、ユーザの原文入力操作（動作）を受け付けて、原文に対応する原文データ１３を出力する。

翻訳システム１に適用可能な入力部１０は特に限定されず、既に公知となっているいずれかの入力装置（ユーザインターフェース）を適用することができる。入力部１０は、ユーザが文字として原文を入力する装置であってもよい。このとき、入力部１０は、押しボタンや操作レバー、タッチパネル等のハードウエアによって実現してもよい。

あるいは、入力部１０は、ユーザが音声として原文を入力する装置であってもよい。このとき、入力部１０は、既に公知となっているいずれかのマイクロフォン（音声入力装置）によって実現してもよい。なお入力部１０は、ユーザが音声として原文を入力する装置である場合には音声データの音声認識を行い認識結果として音声データに対応するテキストデータが生成されて、当該テキストデータが原文データとして出力される。

また入力部１０は各種設定情報入力部１４として機能する。各種設定情報とは原文の利用場面を特定するための原文利用場面情報１５や、原文が話し手の文なのか聞き手の文なのかを特定する原文話し手／聞き手情報１６や、原文が事実を述べる文であるか質問文であるかを特定する原文事実／質問情報１７を含んでもよい。これらは例えばメニュー画面等から入力されるようにしてもよい。

本実施の形態に係る翻訳システム１は、出力装置６０を含んでいてもよい。出力装置６０は、例えば、表示部６２や音声出力部６４であってもよい。

ここで、表示部６２とは、ＣＲＴディスプレイ、ＬＣＤ、ＯＥＬＤ、ＰＤＰ、タッチパネル型ディスプレイ等のハードウエアによって実現してもよい。表示部６２に、抽出された翻訳対象選択候補が表示されるようにしてもよい。また表示部６２は操作入力情報に基づき前記所与の呼びかけ文のテキストデータを表示する呼びかけデータ出力部として機能してもよい。

音声出力部６４は、スピーカやヘッドフォン等のハードウエアによって実現してもよい。また音声出力部６４は、操作入力情報に基づき操作入力情報に基づき前記所与の呼びかけ文の音声データを再生して出力する呼びかけデータ出力部として機能してもよい。

本実施の形態に係る翻訳システム１は、操作部８０を含んでいてもよい。操作部８０は、ユーザの操作をデータとして入力するためのものであり、その機能は、操作ボタン、操作レバー、タッチパネル等によって実現してもよい。操作部８０は、例えば、第１言語（原文データとして入力される言語）や第２言語（訳文データとして出力する言語）を指定する情報を入力する装置であってもよい。操作部８０は、各種入力情報１５，１６，１７を入力する装置であってもよい。また操作部８０からは、抽出された翻訳対象選択候補に対する選択入力情報を受け取るようにしてもよい。

本実施の形態に係る翻訳システム１は、記憶部３０を含む。記憶部３０は、主記憶部やワーク領域として使用される揮発性記憶部やプログラムやデータなどを格納する不揮発性の記憶部や各種情報記憶媒体（コンピュータにより読み取り可能な媒体）であり、その機能は、ＲＡＭ、光ディスク（ＣＤ、ＤＶＤ等）、光磁気ディスク（ＭＯ）、磁気ディスク、ハードディスク、磁気テープ、或いはメモリ（ＲＯＭ）などのハードウエアにより実現できる。

記憶部３０は、図１で説明した第１の対訳データ記憶部３２、第２の対訳データ記憶部３４、関連語句情報記憶部３６として機能する。また記憶部３０は、所定の言語で表現された所定の呼びかけ文の音声データ又はテキストデータを記憶する呼びかけデータ記憶部３８として機能するようにしてもよい。

本実施の形態に係る翻訳システム１は、処理部１００を含む。処理部１００は、本実施の形態の翻訳プログラム（記憶部３０に格納されていてもよい）やデータなどに基づいて本実施形態の種々の処理を行うもので、その機能は、各種プロセッサ（ＣＰＵ、ＤＳＰ等）で本実施の形態の翻訳プログラム等を実行することによって実現してもよいし、専用のハードウエア回路によって実現してもよい。

処理部１００は、図１で説明した翻訳処理部４０として機能する。翻訳処理部４０は、特徴語抽出処理部４２、翻訳対象選択処理部４４、補足語抽出処理部４６、対訳出力処理部４８を含む場合には、処理部１００は前記各部として機能するようにしてもよい。

２．第１の対訳データ記憶部
図３に、第１の対訳データ記憶部３２に記憶される単文（第１言語単文及び第２言語単文）の一例を示す。本実施の形態では、図３に示すように、第１言語単文データと第２言語単文データとが、対訳となるように関連付けて記憶されている。本実施の形態では、第１言語単文データ及び第２言語単文データは、ＡＳＣＩＩコードやＪＩＳコードで構成されたテキストデータであってもよい。

本実施の形態では、対訳データ記憶部３２は、翻訳装置本体に固定された記憶装置として構成されていてもよい。あるいは、対訳データ記憶部３２は、翻訳装置本体から取り外し可能な情報記憶媒体によって実現してもよい。

図４は、第１言語単文及び第２言語単文のグループ化について説明するための図である。

本実施の形態では、対訳データ記憶部３２の第１言語単文データは、複数のグループに分類されて記憶されていてもよい。本実施の形態では、同じ内容で表現の異なる第１言語単文データや類似の意味を示す第１言語単文データが、ひとつのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第１言語単文データのいずれかが、代表データに指定されていてもよい。

本実施の形態では、対訳データ記憶部３２の第２言語単文データは、複数のグループに分類されて記憶されていてもよい。本実施の形態では、同じ内容で表現の異なる第２言語単文データや類似の意味を示す第２言語単文データが、ひとつのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第２言語単文データのいずれかが、代表データに指定されていてもよい。

図４には、対訳データ記憶部３２に記憶される、グループ化された対訳データの一例を示す。グループ１では、「風邪をひきました。」との第１言語単文と、「I caught a cold.」との第２言語単文とが、それぞれ、代表データとして指定されている。そして、代表データと（ほぼ）同じ意味となるデータが、１つのグループに分類されている。また、グループ２では、「風邪薬を下さい。」との第１言語単文と、「 Can I have a cold medicine?」との第２言語単文とが、それぞれ、代表データとして指定されている。そして、代表データと同じ意味となるデータが、１つのグループに分類されている。

そして、本実施の形態では、第１言語単文データ選択処理部４２は、代表データに指定されている第１言語単文データのいずれかを選択するように構成されていてもよい。詳しくは、第１言語単文データ選択処理部４２は、受け付けた原語単文データが属するグループを検出する処理と、検出されたグループの代表データに指定されている第１言語単文データを選択する処理とを行ってもよい。

具体的には、第１言語単文データ選択処理部４２は、例えば「風邪気味です。」との原語単文データを受け付けた場合に、受け付けた原語単文データがグループ１に属することを検出して、グループ１の第１言語単文データの代表データに指定されている「風邪をひきました。」との第１言語単文データを選択する。

そして、訳語単文データ出力処理部４０は、第１言語単文データの代表データに関連付けられた第２言語単文データを、訳語単文データとして出力してもよい。

これによると、一般的に利用される単文を代表データに指定することで、第三者に、より伝わりやすい訳語を出力することができるので、コミュニケーションをより円滑にすることが可能になる。

ただし、常に代表データを利用して訳語を出力すると、ユーザの意図の概要は伝わったとしても、語句のニュアンスが伝わらないことがある。そのため、本実施の形態に係る翻訳システムは、動作モードが切り替え可能に構成されていてもよい。すなわち、本発明に係る翻訳システムは、代表データを選択する代表データ利用モードと、代表データを利用しない通常モードとを切り替え可能に構成されていてもよい。これにより、使用状況に適した訳語を出力させることが可能になる。例えば、操作部８０を介してユーザが入力したモード切替信号に基づいて、動作モードを切り替える処理を行ってもよい。

図５は、第１の対訳データ記憶部に記憶されている第１の言語単文データに関する情報について説明するための図である。

第１の言語単文データに関する情報（以下、第１の言語単文情報）２００という。第１の言語単文情報２００は、少なくとも第１の単文の内容を表すテキストデータ（第１の単文データに相当）を含む情報であり、識別ＩＤ（例えばグループＩＤ２１０と単文識別ＩＤ２１２）、センテンス識別ＩＤ２４２に関連づけて記憶されるようにしてもよい。

グループＩＤ２１０は、意味内容が同じで表現形式が異なる複数の第１言語単文データがグループ化されて記憶されている場合にグループを特定するための用いられる識別情報である。例えば対訳関係を有する前記第１言語単文データと前記第２言語単文データとを関連した管理ＩＤ（例えば同じ管理ＩＤ）に対応付けて記憶するようにしてもよい。

単文識別ＩＤはグループ内において単文を特定するための識別情報である。なお第１の対訳データ記憶部に記憶されている第１の言語単文データがすべてグループ化されている場合（グループの構成要素は１つでもよい）には上記構成でよいが、全くグループ化されているデータと単独のデータが混在している場合には単独のデータに仮想的なグループＩＤを付して管理するようにしてもよい。また第１の言語単文データがすべてがグループ化されていない場合にはグループＩＤを設定せずに単文識別ＩＤのみで管理するようにしてもよい。

テキスト情報２１４は、第１の言語単文の内容を表す第１の言語単文データであり、例えば「途中下車はできますか」という第１の言語単文に対応してそのテキストデータ（「途中下車はできますか」を表すＡＳＣＩＩコードやＪＩＳコードで構成されたテキストデータ等）が記憶されている。

第１の言語単文情報２００は、特徴語情報２１６を含んでもよい。特徴語とは第１の言語単文データの一部の語句や語句の一部（当該第１の言語単文データの特徴を表すとして予め指定または定義されている語句や語句の一部）である。例えば「（途中）（下車）は（でき）ます（か）」のかっこに囲まれた部分が特徴語して指定されている場合には「途中」「下車」「でき」「か」が特徴語として」記憶されている。

なお特徴語情報２１６は、少なくとも１つの前記第１言語単文データを構成する少なくとも１つの語句を特定するためのキーワード情報として機能してもよい。そして図１７で説明するように、キーワード情報（ここでは特徴語情報２１６）によって特定される語句についてレベルが設定されるようにしてもよい。

第１の言語単文情２００は、代表データ指定情報２１８を含んでもよい。

第１の言語単文情２００は、データ利用場面情報２２０を含んでもよい。データ利用場面情報２２０とは、第１の言語単文データの利用される場面（ホテル、乗り物、道案内、チケット売り場、買い物等）を想定して、その利用場面に対応付けて設定されたＩＤや番号等でもよい。

第１の言語単文情２００は、データ話し手／聞き手情報２２２を含んでもよい。データ話し手／聞き手情報２２２は、第１の言語単文データを発するのが話し手であるか聞き手であるかを示すフラグ等でもよい。

第１の言語単文情２００は、データ事実／質問情報２２４を含んでもよい。データ事実／質問情報２２４は、第１の言語単文データが事実を述べる文であるか質問文であるかを示すフラグ等でもよい。

なお第１言語単文データがグループ化されて記憶されている場合には、データ利用場面情報２２０やデータ話し手／聞き手情報２２２やデータ事実／質問情報２２４はグループ単位で設定されるようにしてもよい。

３．翻訳処理の具体例
図６〜図１５は、本実施の形態の翻訳処理の具体例について説明するための図である。

図６に、第１の対訳データベースの一例を示す。

本実施の形態の対訳データ記憶部３２には、第１言語単文データが、複数のグループに分類されて記憶されている。本実施の形態では、類似の意味を示す第１言語単文に対応する第１言語単文データが、ひとつのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第１言語単文データのいずれかが、代表データに指定されている。

また、本実施の形態では、対訳データ記憶部３２には、第２言語単文データが、複数のグループに分類されて記憶されている。本実施の形態では、類似の意味を示す第２言語単文に対応する第２言語単文データが、１つのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第２言語単文データのいずれかが、代表データに指定されている。

図６の２４０は、識別ＩＤがＳ１−１の第１の言語単文データ２６０、識別ＩＤがＳ１−１の第２の言語単文データ２６６が対訳関係を有し、識別ＩＤがＳ１−２の第１の言語単文データ２６４、識別ＩＤがＳ１−２の第２の言語単文データ２６６が対訳関係を有し、これらがグループ化されていることを示している。またグループのグループＩＤ２４２がＳ１であり、このグループのデータ話し手／聞き手情報２４４として「話し手」が設定されている事を示している。そしてＳ１−１の第１の言語単文データ２６０にグループの代表データ指定２５０がされ、Ｓ１−２の第２の言語単文データ２６６にグループの代表データ指定２５２がされている。

図７（Ａ）〜（Ｃ）、図８（Ａ）〜（Ｄ）は本実施の形態の基本動作について説明するための図である。

まず原文データを入力し、分割する処理を行う。図７（Ａ）に示すように、「途中下車できますか」３１０という原文データが入力されると、３１１，３１２，３１３、３１４，３１５の５つの語句に分割される。

次に文法情報に基づいて特徴語を抽出し、検索キーを作成する。図７（Ｂ）に示すように、３１１，３１２，３１３、３１５の４つの語句が特徴語として抽出され、検索キーとなる。

次に検索キーを用いて第１の対訳データ記憶部に記憶されている第１の言語単文データを検索し、検索キーを含む第１の言語単文データを抽出する。

図７（Ｃ）にしめすように、検索結果として識別ＩＤＳ１−１、識別ＩＤＳ２−１、識別ＩＤＳ１−２、識別ＩＤＳ３−１の４つの第１の言語単文データが抽出される。

識別ＩＤＳ１−１の第１の言語単文データは「途中+下車+でき+か」の４つの特徴語を含んでいる。識別ＩＤＳ２−１の第１の言語単文データは「途中+下車+でき」の３つの特徴語を含んでいる。識別ＩＤＳ１−２と識別ＩＤＳ３−１の第１の言語単文データは、「途中+下車+か」の３つのの特徴語を含んでいる。

次に原文データと抽出した各第１の言語単文データとの類似度を判断する類似度判断処理を行う。類似度判断処理として、例えば、抽出された各第１言語単文データと原文データとの文字の照合を行って一致文字数を検出し、前記各第１言語単文データについて、当該第１言語単文データに対する一致文字数の比率（一致文字数／第１言語単文データの文字数）と原文データに対する一致文字数の比率（一致文字数／原文データの文字数）の両方に基づいて、各第１言語単文データと原文データとの類似度を判断してもよい。

図８（Ａ）は類似度判断処理結果を示している。

３２１は原文データ（文字数は９個）３１８と識別ＩＤＳ１−１の第１の言語単文データ（文字数は９個）の一致文字数が９個であることを示している。３２０は原文データに対する一致文字数の比率を示している。また３２２は識別ＩＤＳ１−１の第１の言語単文データに対する一致文字数の比率を示している。

同様に３２５は原文データ（文字数は９個）３１８と識別ＩＤＳ２−１の第１の言語単文データ（文字数は１５個）の一致文字数が７個であることを示している。３２４は原文データに対する一致文字数の比率を示している。また３２６は識別ＩＤＳ２−１の第１の言語単文データに対する一致文字数の比率を示している。

同様に３２９は原文データ（文字数は９個）３１８と識別ＩＤＳ１−２の第１の言語単文データ（文字数は１５個）の一致文字数が５個であることを示している。３２８は原文データに対する一致文字数の比率を示している。また３３０は識別ＩＤＳ１−２の第１の言語単文データに対する一致文字数の比率を示している。

同様に３３３は原文データ（文字数は９個）３１８と識別ＩＤＳ３−１の第１の言語単文データ（文字数は１３個）の一致文字数が７個であることを示している。３３２は原文データに対する一致文字数の比率を示している。また３３４は識別ＩＤＳ３−１の第１の言語単文データに対する一致文字数の比率を示している。

３２３、３２７、３３１、３３３はそれぞれ識別ＩＤＳ１−１，Ｓ２−１，Ｓ１−２、Ｓ３−１の第１の言語単文データの原文データに対する類似度を示す値である。

類似度３２３は、原文データに対する一致文字数の比率３２０と識別ＩＤＳ１−１の第１の言語単文データに対する一致文字数の比率３２２に基づき算出（例えばかけ算）された値である。同様に類似度３２７は、原文データに対する一致文字数の比率３２４と識別ＩＤＳ２−１の第１の言語単文データに対する一致文字数の比率３２６に基づき算出（例えばかけ算）された値である。同様に類似度３３１は、原文データに対する一致文字数の比率３２８と識別ＩＤＳ１−２の第１の言語単文データに対する一致文字数の比率３３０に基づき算出（例えばかけ算）された値である。同様に類似度３３３は、原文データに対する一致文字数の比率３３２と識別ＩＤＳ３−１の第１の言語単文データに対する一致文字数の比率３３４に基づき算出（例えばかけ算）された値である。

類似度を比較した結果、図８（Ｂ）に示すように類似度の値の最も大きな識別ＩＤＳ１−１の第１の言語単文データが、翻訳対象として選択される。

ここで入力文に比べ極端に長い第１の言語単文データ（長文）が比較対象となったとき、原文データが長文に100%含まれることがあり得る。このような場合、原文データに対する一致文字数の比率のみで類似度を計算すると、原文データにない余計な要素が出力されることになる。本実施の形態のように、第１言語単文データに対する一致文字数の比率（一致文字数／第１言語単文データの文字数）と原文データに対する一致文字数の比率（一致文字数／原文データの文字数）の両方に基づいて、各第１言語単文データと原文データとの類似度を判断することにより係る事態を防ぐことができる。

またキーワードの一致数も加味して類似度を判断するようにしてもよい。

次に選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する。

図６に示すように第１の言語単文データＳ１−１はグループＳ１に属している。グループＳ１にはＳ１−１、Ｓ２−２の第１の言語単文データと対訳となる第２の言語データ単文が含まれており、グループＳ１の第２の言語単文データの代表データにはＳ１−２の第２の言語データ単文が指定されている。

単純出力モードにおいては図８（Ｃ）に示すようにＳ１−１の第１言語単文データの訳文データとしてＳ１−１の第２言語単文データが出力されるようにしてもよい。

また代表データ出力モードでは図８（Ｄ）に示すように、Ｓ１−１の第１言語単文データの訳文データとしてＳ１−１の第２言語単文データではなくて、代表データとして指定されているＳ１−１の第２言語単文データが出力されるようにしてもよい。

図９は、話し手／聞き手の区別を行う場合の処理例について説明する図である。

例えば話し手の発話の場合、「途中の下車かまいません(↑)」と語尾が上がり調子になるので疑問文であることが状況から判断できるが、テキストデータだけでは、判別が困難な場合がある。

図９（Ａ）に示すように、「途中の下車かまいません」という原文データが入力されると、原文データが６つの語句に分割される。

次に図９（Ｂ）に示すように、４つの部分が特徴語として抽出され、検索キーとなる。

次に４つの特徴語を検索キーとして第１の対訳データ記憶部に記憶されている第１の言語単文データを検索すると、図９（Ｃ）に示すように識別ＩＤＳ１−２、識別ＩＤＳ２−１、識別ＩＤＳ１−１、識別ＩＤＳ３−１の４つの第１の言語単文データが抽出される。

識別ＩＤＳ１−２の第１の言語単文データは「途中+下車+かまい+ん」の４つの特徴語を含んでおり、識別ＩＤＳ２−１の第１の言語単文データは「途中+下車+ん」の３つの特徴語を含んでおり、識別ＩＤＳ１−１と識別ＩＤＳ３−１の第１の言語単文データは、「途中+下車」の２つのの特徴語を含んでいる。

ここで識別ＩＤＳ１−２のデータ聞き手／話し手情報には「話し手」である旨の情報が設定され、識別ＩＤＳ２−１のデータ聞き手／話し手情報には「聞き手」である旨の情報が設定され、識別ＩＤＳ１−１のデータ聞き手／話し手情報には「話し手」である旨の情報が設定され、識別ＩＤＳ３−１のデータ聞き手／話し手情報には「聞き手」である旨の情報が設定されているとする。このような場合原文聞き手／話し手情報として「話し手」である旨の情報が入力または設定されている場合には、抽出された第１の言語単文データ（識別ＩＤＳ１−２、識別ＩＤＳ２−１、識別ＩＤＳ１−１、識別ＩＤＳ３−１）の中からデータ聞き手／話し手情報に「話し手」である旨の情報が設定されているものを選択する。すると識別ＩＤＳ１−２、識別ＩＤＳ１−１の第１の言語単文データが選択されるので、図９（Ｄ）に示すように、選択されたの第１の言語単文データ（識別ＩＤＳ１−２、識別ＩＤＳ１−１）について類似度判定処理を行う。

このようにすると特徴語で抽出した全データについて類似度判定処理を行う場合に比べ、処理付加を大幅に軽減することができる。

そして図９（Ｅ）に示すように、類似度判断結果に基づき翻訳対象となるＳ１−２の第１言語単文データを選択する。そして図９（Ｆ）に示すように、翻訳対象と対訳関係にあるＳ１−２の第２言語単文データを対訳データとして出力する。

原文利用場面情報や原文事実／質問情報が入力された場合にも、第１の対訳データ記憶部のデータ利用場面情報やデータ事実／質問情報に基づいて同様の選択処理を行うことができる。

図１０は、補足語抽出処理の処理例について説明する図である。

翻訳対象として選択された第１言語単文データには含まれないが原文データには含まれている語句（例えば特徴語でもよい）である補足語を検出し、第２の対訳データ記憶部を検索して、補足語に対応した第１言語語句データと対訳関係を有する第２言語語句データを読み出して、翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付して、前記訳文データとして出力してもよい。

例えば「部屋のお掃除を早くお願いね」という原文データが入力されると、図１０（Ａ）に示すように、原文データが７つの語句に分割される。

次に文法情報に基づいて特徴語を抽出し、検索キーを作成すると、図１０（Ｂ）に示すように、４つの部分が特徴語として抽出され、検索キーとなる。

次に検索キーを用いて第１の対訳データ記憶部に記憶されている第１の言語単文データを検索し、検索キーを含む第１の言語単文データを抽出すると、検索結果として図１０（Ｃ）に示すように識別ＩＤＳ４−２、識別ＩＤＳ４−１の２つの第１の言語単文データが抽出される。識別ＩＤＳ４−２の第１の言語単文データは「部屋+掃除+お願い」の３つの特徴語を含んでいる。識別ＩＤＳ４−１の第１の言語単文データは「部屋+掃除」の２つの特徴語を含んでいる。

次に図１０（Ｄ）に示すように、原文データと抽出した各第１の言語単文データとの類似度を判断する類似度判断処理を行う。

すると類似度判断結果に基づき、図１０（Ｅ）に示すように翻訳対象となるＳ４−２の第１言語単文データが選択される。ここで翻訳対象として選択されたＳ４−２の第１言語単文データは「部屋+掃除+お願い」の３つの特徴語を含んでいるが、原文データには含まれていた「早く」という特徴語を含んでいない。

次に図１０（Ｆ）に示すように、翻訳対象として選択された第１言語単文データには含まれないが原文データには含まれている語句である「早く」を補足語として、第２の対訳データ記憶部を検索して、補足語「早く」に対応した第１言語語句データと対訳関係を有する第２言語語句データ「quickly」４５２を読み出す。

そして図１０（Ｇ）に示すように、翻訳対象として選択されたＳ４−２の第１言語単文データと対訳関係を有する第２言語単文データ４５０（この場合はＳ４グループの第２の言語単文データの代表データとして指定されているＳ４−１の第２の言語単文データ、図７参照）に、読み出した第２言語語句データ４５２を添付して、訳文データとして出力する。

図１１は、原文データに対して複数の翻訳対象を選択して訳文データを生成する処理例について説明する図である。

前記第１の対訳データ記憶部を検索して、抽出された特徴語を含む第１言語単文データが複数あり、原文データにおける前記複数の第１言語単文データとの一致部分が所定の分布条件を満たす場合には、複数の第１言語単文データを翻訳対象とし、翻訳対象となった複数の第１言語単文データとそれぞれ対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出し、読み出された複数の第２言語単文データを接続して前記訳文データを出力してもよい。

例えば「名古屋を越えたあたりですが事故っちゃいました」という原文データが入力されると、図１１（Ａ）に示すように、原文データが１１個の語句に分割される。

次に文法情報に基づいて特徴語を抽出し、検索キーを作成すると、図１１（Ｂ）に示すように、６つの語句が特徴語として抽出され、検索キーとなる。

次に検索キーを用いて第１の対訳データ記憶部に記憶されている第１の言語単文データを検索し、検索キーを含む第１の言語単文データを抽出すると、検索結果として図１１（Ｃ）に示すように識別ＩＤＳ５−１、識別ＩＤＳ６−１の２つの第１の言語単文データが抽出される。識別ＩＤＳ５−１の第１の言語単文データは「越え+あたり」の２つの特徴語を含んでいる。識別ＩＤＳ６−１の第１の言語単文データは「事故+た」の２つの特徴語を含んでいる。

次に図１１（Ｄ）に示すように、原文データと抽出した各第１の言語単文データとの類似度を判断する類似度判断処理を行う。

４６０は原文データ（文字数は２２個）４６２と識別ＩＤＳ５−１の第１の言語単文データ（文字数は８個）の一致部分を示している。これによれば一致部分４６０は原文データ４６２の前半部分に偏っている。

４６４は原文データ（文字数は２２個）４６２と識別ＩＤＳ６−１の第１の言語単文データ（文字数は１３個）の一致部分を示している。これによれば一致部分４６４は原文データ４６２の後半部分に偏っている。

このように抽出された特徴語を含む第１言語単文データが複数あり、原文データにおける複数の第１言語単文データとの一致部分の一致部分が所定の分布条件を満たす場合（例えば一致した特徴語を含む例文の守備範囲が異なる場合）には、図１１（Ｅ）に示すように、複数の第１言語単文データを翻訳対象とする。

そして図１１（Ｆ）に示すように、翻訳対象として選択され複数の第１言語単文データには含まれないが原文データには含まれている語句である「名古屋」を補足語として、第２の対訳データ記憶部を検索して、補足語「名古屋」に対応した第１言語語句データと対訳関係を有する第２言語語句データ「Nagoya」４６２を読み出す。

そして図１１（Ｇ）に示すように、翻訳対象として選択されたＳ５−２の第１言語単文データと対訳関係を有する第２言語単文データ４６６と、Ｓ６−２の第１言語単文データと対訳関係を有する第２言語単文データ４６８と、読み出した第２言語語句データ４７０を接続して訳文データとして出力する。

図１２〜図１５は、関連する単語グループを用いた処理例について説明する図である。

第１の対訳データ記憶部には、図１２（Ａ）に示すようにＳ７−１の第１言語単文データが記憶されている。また図１２（Ｂ）に示すように関連語句記憶部には、代表語句として「葉書」が記憶され、代表語句に関連づけて第１言語で表現された関連語句として、「葉書」の代替語である「はがき」、「ポストカード」や「葉書」の類似語である「絵はがき」、「絵葉書」、「往復はがき」、「航空書簡」、…等が記憶されている。

図１３は関連する単語グループを用いた処理の流れをしめすフローチャート図である。

入力された原文データに前記関連語句が含むか否か判断し、否か判断し、含むと判断した場合には、以下の処理を行ってもよい（ステップＳ１０）。

次に当該関連語句に対応付けられている代表語句を前記関連語句記憶部から読み出し、原文データの関連語句の部分を読み出した代表語句で置換して、置換後の原文データに基づいて、前記第１の対訳データ記憶部から翻訳対象となる第１言語単文データを選択する（ステップＳ２０）。

次に翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出す（ステップＳ３０）。

次に関連語句に対応した第１言語語句データと対訳関係を有する第２言語語句データを前記第２の対訳データ記憶部から読み出す（ステップＳ４０）。

次に読み出した第２言語単文データに、読み出した第２言語語句データを添付して、訳文データとして出力する（ステップＳ５０）。

図１４は原文データに含まれた関連語句が代替語である場合について説明するための図である。

例えば「はがきはいくらですか」という原文データが入力されると、図１４（Ａ）に示すように、原文データが５つの語句に分割される。そして関連語句記憶部（図１４（Ｂ）参照）を検索して、図１４（Ｂ）に示すように「はがき」を関連語句（代替語）にもつ代表語句「葉書」４７０を抽出する。そして図１４（Ｃ）に示すように関連語句を代表語句に置き換えた特徴語を検索キーとして第１の対訳データ記憶部を検索すると、図１４（Ｄ）に示すように識別ＩＤＳ７−１の第１の言語単文データが抽出される。

原文データに含まれた関連語句が代替語である場合には、図１４（Ｅ）に示すように置換後の原文データに基づいて選択した第１言語単文データと対訳関係を有する第２言語単文データを対訳データとして出力してもよい。

図１５は原文データに含まれた関連語句が類似語である場合について説明するための図である。

例えば「絵はがきはいくらですか」という原文データが入力されると、図１５（Ａ）に示すように、原文データが５つの語句に分割される。そして関連語句記憶部（図１２（Ｂ）参照）を検索して、図１５（Ｂ）に示すように「絵はがき」を関連語句（類似語）にもつ代表語句「葉書」４７０を抽出する。そして図１５（Ｃ）に示すように関連語句を代表語句に置き換えた特徴語を検索キーとして第１の対訳データ記憶部を検索すると、図１５（Ｄ）に示すように識別ＩＤＳ７−１の第１の言語単文データが抽出される。

原文データに含まれた関連語句が類似である場合には、関連語句に対応した第１言語語句データと対訳関係を有する第２言語語句データを前記第２の対訳データ記憶部から読み出し、読み出した第２言語単文データに、読み出した第２言語語句データを添付して、訳文データとして出力してもよい。

例えば図１５（Ｅ）に示すように関連語句「絵はがき」の訳である第２言語語句データ「picture postcard」４７２が読みだされる。そして図１５（Ｆ）に示すように、読み出した第２言語単文データ「How much is a postcard?」４７４に、読み出した第２言語語句データ「picture postcard」４７２を添付した訳文データが出力される。

図１６に、本実施の形態の翻訳システム１を適用可能な電子機器の一例である携帯電話１０００を示す。携帯電話１０００は、押しボタン及びマイクで実現された入力部１０１０を含む。携帯電話１０００は、押しボタンで実現された操作部１０８０を含む。携帯電話１０００は、表示パネルで実現された表示部１０６２や、スピーカで実現された音声出力部１０６４を含む。

ユーザは入力部からテキスト入力により原文データを入力してもよい。また携帯電話１０００が音声認識手段を有している場合には、原文に対応した音声をマイクにより入力し、音声認識手段で原文データを生成してもよい。

携帯電話１０００は図示しない記憶部（内蔵ＲＯＭ等）を有し、記憶部を第１の対訳データ記憶部、第２の対訳データ記憶部、関連語句情報記憶部として機能させてもよい。

また携帯電話１０００は図示しないＣＰＵ（各種プロセッサ等）を有し、ＣＰＵを翻訳処理部として機能させてもよい。

４．対訳データベースの製造方法、
本実施の形態に係る対訳データベースの製造方は第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された対訳データベースの製造方法であって、対訳関係を有する前記第１言語単文データと前記第２言語単文データとを関連した管理ＩＤに対応付けて記憶させる。

また第３言語で表現された複数の第３言語単文データを含み、対訳関係を有する前記第１言語単文データ、前記第２言語単文データ、前記第３言語単文データとを関連した管理ＩＤに対応付けて記憶させてもよい。

さらに第ｎ（ｎは４以上の自然数）言語で表現された複数の第ｎ言語単文データを含み、対訳関係を有する前記第１言語単文データ、前記第２言語単文データ、前記第３言語単文データ、・・・、前記第ｎ言語単文データとを関連した管理ＩＤに対応付けて記憶させてもよい。

このように構成された対訳データベースを用いることにより、翻訳プログラム（又はシステム）は対訳関係を有する多言語を管理ＩＤで管理可能になり、ブリッジ言語を介することなくダイレクトに翻訳を行うことが可能な翻訳プログラム（又はシステム）の実現が容易になる。

また意味内容が同じで表現形式が異なる複数の第１言語単文データ及び意味内容が同じで表現形式が異なる複数の第１言語単文データをグループ化して記憶させ、対訳関係を有する前記第１言語単文データのグループと前記第２言語単文データのグループとをグループ単位で、関連した管理ＩＤで管理してもよい。

また前記グループに属するいずれかの第１言語単文データ及び第２言語単文データの少なくとも一方に代表データの指定を行ってもよい。

５．キーワード情報に基づく翻訳対象選択処理
図１７（Ａ）（Ｂ）は、図１８（Ａ）（Ｂ）はキーワード情報に基づく翻訳対象選択処理について説明するための図である。ここでは第１言語が日本語、第２言語が英語である場合を例にとり説明する。

図１７（Ａ）における入力文は「ワインはどこで売っていますか」であり、これが原文データ５００となる。「婦人服はどこで売っていますか」５１０、「売り場はどこですか」５２０、「売っているんですか」５３０、「どこにありますか」５４０は、第１の対訳データ記憶部に記憶されている第１言語単文データである。５１１、５２１、５３１、５４１は、第１の対訳データ記憶部に記憶されている第１言語単文データ５１０、５２０、５３０、５４０と対訳関係を有する第２言語単文データである。

第１の対訳データ記憶部に記憶されている第１言語単文データには、前記第１言語単文データを構成する少なくとも１つの語句を特定するためのキーワード情報５５０が指定されていてもよい。そしてキーワード情報５５０によって特定される語句についてレベル（必須５５２、優先５５４、一般５５６）が設定されていてもよい。

５６０は翻訳対象選択処理における各種判定結果を示すものである。判定／キーワード含有率５６１は、キーワード判定及びキーワード含有率を示している。キーワード判定とは、所定のキーワード（例えば必須レベルのキーワード）を含むか否かに基づく判定であり、キーワード含有率とは、第１の単文データに含まれるキーワードを原文データが含む割合である。文字数５６２（文全体５６３，一致数５６４）は、原文データと第１の単文データの文字単位で比較した場合の一致度を示すもので、原文データと第１の単文データの文全体の文字数と一致する文字の文字数を示している。類似度スコアは例えば図８（Ａ）で説明した手法により求めても良い。採否５６６は、最終的に翻訳対象として選択されたか否かの結果を示している。

（ａ１）は原文データ５００と第１言語単文データ「婦人服はどこで売っていますか」５１０の比較結果を示している。５１０については、「婦人服」５１２、「売っ」５１４、「どこ」５１６がキーワードとして指定されており、「婦人服」５１２及び「売っ」５１４には必須レベルが、「どこ」５１６には一般レベルが設定されている。

原文データ「ワインはどこで売っていますか」５００は、「婦人服」５１２というキーワードを含んでおらず（５１３参照）、「売っ」５１４、「どこ」５１６を含んでいる（５１５、５１７参照）。このような場合、原文データ５００は第１言語単文データ５１０の必須レベルのキーワード「婦人服」５１２を含んでいないため、判定は×となり選択対象から外される（５１８参照）。

（ａ２）は原文データ５００と第１言語単文データ「売り場はどこですか」５２０の比較結果を示している。５２０については、「売り場」５２２、「どこ」５２４がキーワードとして指定されており、「売り場」５２２には優先レベルが、「どこ」５２４には一般レベルが設定されている。

原文データ「ワインはどこで売っていますか」５００は、「売り場」５２２というキーワードを含んでおらず（５２３参照）、「どこ」５２４を含んでいる（５２５参照）。このような場合、原文データ５００は第１言語単文データ５２０のキーワード２つのうち１個を含んでいるためキーワード含有率は１／２で、優先レベルのキーワード「売り場」５２２を含んでいないので判定５６１を△とする（５２６参照）。

ここで５２７は原文データ５００と第１の単文データ５２０を文字単位で比較した場合の原文データ５００における一致する文字の位置を示しており、５２８は第１の単文データ５２０における一致する文字の位置を示している。原文データ５００の文字数は１４個であり、第１の単文データ５２０の文字数は９個であり、一致文字数は７個である。５２９はこれらに基づき算定された原文データ５００と第１の単文データ５２０の類似度スコアである。

（ａ３）は原文データ５００と第１言語単文データ「売っているんですか」５３０の比較結果を示している。５３０については、「売っ」５３２、「か」５３４がキーワードとして指定されており、「売っ」５３２及び「か」５３４には一般レベルが設定されている。

原文データ「ワインはどこで売っていますか」５００は、「売っ」５３２及び「か」５３４の両方のキーワードを含んでいる（５３３、５３５参照）。このような場合、原文データ５００は第１言語単文データ５３０のキーワード２つの全部を含んでいるため、キーワード含有率は２／２で、判定５６１は○とする（５３６参照）。

ここで５３７は原文データ５００と第１の単文データ５３０を文字単位で比較した場合の原文データ５００における一致する文字の位置を示しており、５３８は第１の単文データ５３０における一致する文字の位置を示している。原文データ５００の文字数は１４個であり、第１の単文データ５３０の文字数は９個であり、一致文字数は７個である。５３９はこれらに基づき算定された原文データ５００と第１の単文データ５３０の類似度スコアである。

（ａ４）は原文データ５００と第１言語単文データ「どこにありますかね」５４０の比較結果を示している。５４０については、「どこ」５４２、「か」５４４がキーワードとして指定されており、「どこ」５４２及び「か」５４４には一般レベルが設定されている。

原文データ「ワインはどこで売っていますか」５００は、「どこ」５４２及び「か」５４４の両方のキーワードを含んでいる（５４３、５４５参照）。このような場合、原文データ５００は第１言語単文データ５４０のキーワード２つの全部を含んでいるためキーワード含有率は２／２で、判定５６１は○とする（５４６参照）。

ここで５４７は原文データ５００と第１の単文データ５４０を文字単位で比較した場合の原文データ５００における一致する文字の位置を示しており、５４８は第１の単文データ５４０における一致する文字の位置を示している。原文データ５００の文字数は１４個であり、第１の単文データ５３０の文字数は９個であり、一致文字数は５個である。５４９はこれらに基づき算定された原文データ５００と第１の単文データ５４０の類似度スコアである。

これらの比較結果に基づき、以下のように選択対象を決定してもよい。例えば第１言語単文データ「婦人服はどこで売っていますか」５１０は必須キーワードが原文データ５００に含まれていないので、選択対象から除外する。また第１言語単文データ「売り場はどこですか」５２０はキーワードの含有率５２６が他に比べて低いので除外する。第１言語単文データ「売っているんですか」５３０と第１言語単文データ「どこにありますかね」５４０はキーワード含有率５３６，５４６は同じであるので、類似度スコア５３９．５４９の高いほうである第１言語単文データ「売っているんですか」５３０を翻訳対象として決定する。

第１言語単文データ「売っているんですか」５３０が翻訳対象として決定された場合、翻訳対象として選択された第１言語単文データ５３０には含まれないが原文データ５００には含まれている語句である補足語「ワイン」５７４を検出して、前記第２の対訳データ記憶部から補足語に対応した第１言語語句データと対訳関係を有する第２言語語句データ「Wine」５７４を読み出す。そして、図１７（Ｂ）に示すように、翻訳対象として選択された第１言語単文データ５３０と対訳関係を有する第２言語単文データ５３１を読み出した第２言語語句データ５７４を添付して、前記訳文データとして出力する。ここで５７０はシステムが訳出しようとしている内容を入力言語で表示したシステムの解釈表示であり、５７６は、正しそうか否かを直感的に把握するための評価表示である。

図１８（Ａ）における入力文は「ワイン売り場はどこですか」であり、これが原文データ６００となる。「婦人服はどこで売っていますか」６１０、「売り場はどこですか」６２０、「売っているんですか」６３０、「どこにありますか」６４０は、第１の対訳データ記憶部に記憶されている第１言語単文データである。６１１、６２１、６３１、６４１は、第１の対訳データ記憶部に記憶されている第１言語単文データ６１０、６２０、６３０、６４０と対訳関係を有する第２言語単文データである。

（ｂ１）は原文データ６００と第１言語単文データ「婦人服はどこで売っていますか」６１０の比較結果を示している。６１０については、「婦人服」６１２、「売っ」６１４、「どこ」６１６がキーワードとして指定されており、「婦人服」６１２及び「売っ」６１４には必須レベルが、「どこ」６１６には一般レベルが設定されている。

原文データ「ワイン売り場はどこにありますか」６００は、「婦人服」６１２及び「売っ」６１４というキーワードを含んでおらず（６１３参照）、「どこ」６１６を含んでいる（６１５、６１７参照）。このような場合、原文データ６００は第１言語単文データ６１０の必須レベルのキーワード「婦人服」６１２及び「売っ」６１４を含んでいないため、で判定は×となり（６１８参照）、選択対象から外される。

（ｂ２）は原文データ６００と第１言語単文データ「売り場はどこですか」６２０の比較結果を示している。６２０については、「売り場」６２２、「どこ」６２４がキーワードとして指定されており、「売り場」６２２には優先レベルが、「どこ」６２４には一般レベルが設定されている。

原文データ「ワイン売り場はどこにありますか」６００は、「売り場」６２２及び「どこ」６２４というキーワードを含んでいる（６２３、６２５参照）。このような場合、原文データ５００は第１言語単文データ５２０のキーワード２つのうち全部を含んでいるためキーワード含有率は２／２で、判定を○とする（６２６参照）。

ここで６２７は原文データ６００と第１の単文データ６２０を文字単位で比較した場合の原文データ６００における一致する文字の位置を示しており、６２８は第１の単文データ６２０における一致する文字の位置を示している。原文データ６００の文字数は１５個であり、第１の単文データ６２０の文字数は９個であり、一致文字数は８個である。６２９はこれらに基づき算定された原文データ６００と第１の単文データ６２０の類似度スコアである。

（ｂ３）は原文データ６００と第１言語単文データ「売っているんですか」６３０の比較結果を示している。６３０については、「売っ」６３２、「か」６３４がキーワードとして指定されており、「売っ」６３２及び「か」６３４には一般レベルが設定されている。

原文データ「ワイン売り場はどこですか」６００は、「売っ」６３２のキーワードを含んでいないが（６３３参照）、「か」６３４のキーワードを含んでいる（６３５参照）。このような場合、原文データ６００は第１言語単文データ６３０のキーワード２つのうち１つを含んでいるためキーワード含有率は１／２で、含まれていないキーワード「売っ」６３２は一般レベルなので、判定を○とする（６３６参照）。

ここで６３７は原文データ６００と第１の単文データ６３０を文字単位で比較した場合の原文データ６００における一致する文字の位置を示しており、６３８は第１の単文データ６３０における一致する文字の位置を示している。原文データ６００の文字数は１５個であり、第１の単文データ６３０の文字数は９個であり、一致文字数は３個である。６３９はこれらに基づき算定された原文データ６００と第１の単文データ６３０の類似度スコアである。

（ｂ４）は原文データ６００と第１言語単文データ「どこにありますかね」６４０の比較結果を示している。６４０については、「どこ」６４２、「か」６４４がキーワードとして指定されており、「どこ」６４２及び「か」６４４には一般レベルが設定されている。

原文データ「ワイン売り場はどこですか」６００は、「どこ」６４２及び「か」６４４の両方のキーワードを含んでいる（６４３、６４５参照）。このような場合、原文データ６００は第１言語単文データ６４０のキーワード２つの全部を含んでいるため、キーワード含有率は２／２で、判定を○とする（６４６参照）。

ここで６４７は原文データ６００と第１の単文データ６４０を文字単位で比較した場合の原文データ６００における一致する文字の位置を示しており、６４８は第１の単文データ６４０における一致する文字の位置を示している。原文データ６００の文字数は１５個であり、第１の単文データ６３０の文字数は９個であり、一致文字数は８個である。６４９はこれらに基づき算定された原文データ６００と第１の単文データ６４０の類似度スコアである。

これらの比較結果に基づき、以下のように選択対象を決定してもよい。例えば第１言語単文データ「婦人服はどこで売っていますか」６１０は必須キーワードが原文データ６００に含まれていないので、選択対象から除外する。また第１言語単文データ「売っているんですか」６３０はキーワードの含有率６３６が他に比べて低いので除外する。第１言語単文データ「売り場はどこですか」６２０と第１言語単文データ「どこにありますかね」６４０はキーワード含有率６３６、６４６は同じであるので、類似度スコア６２９、６５４９の高いほうである第１言語単文データ「売り場はどこですか」６２０を翻訳対象として決定する。

第１言語単文データ「売り場はどこですか」６２０が翻訳対象として決定された場合、翻訳対象として選択された第１言語単文データ６２０には含まれないが原文データ６００には含まれている語句である補足語「ワイン」６７２を検出して、前記第２の対訳データ記憶部から補足語に対応した第１言語語句データと対訳関係を有する第２言語語句データ「Wine」６７４を読み出す。そして、図１８（Ｂ）に示すように、翻訳対象として選択された第１言語単文データ６２０と対訳関係を有する第２言語単文データ６２１を読み出した第２言語語句データ６７４を添付して、前記訳文データとして出力する。ここで６７０はシステムが訳出しようとしている内容を入力言語で表示したシステムの解釈表示であり、６７６は、正しそうか否かを直感的に把握するための評価表示である。

図１９は、本実施の形態のキーワード情報に基づく翻訳対象選択処理の流れの一例を示すフローチャートである。

まず原文データを受け取る（ステップＳ１０）。次に第１の対訳データベースから原文データと比較する第１の言語単文データを順次取り出して（ステップＳ２０）、以下の比較処理を行う。

取り出した第１の言語単文データは必須指定キーワードを含むか否か判断し（ステップＳ３０）、含む場合にはステップＳ４０にいき含まない場合にはステップＳ６０にいく。

第１言語単文データの必須キーワードを有する場合、原文データが第１言語単文データの必須キーワードを含むかいなか判断し（ステップＳ４０）、含まない場合にはステップＳ７０にいく。第１言語単文データが必須キーワードを有しない場合や第１言語単文データが必須キーワードを有するが原文データに含まれる場合にはステップＳ５０にいく。

第１の言語単文データに対する原文データのキーワード含有割合を求める（ステップＳ５０）。

原文データと第１言語単文データとを比較して（文字や単語単位）、一致割合を求める
（ステップＳ６０）。

原文データと比較する第１の言語単文データとの比較が終了するまでステップＳ２０〜Ｓ７０の処理を行い、比較が終了した場合にはステップＳ８０にいく（ステップＳ７０）。

第１言語単文データの必須指定キーワードが前記原文データに含まれていないと判断した第１言語単文データを選択対象から除外する（ステップＳ８０）。

キーワード含有率が所定基準以下の第１言語単文データを選択対象から除外する。（ステップＳ９０）。例えばキーワード含有率の値が所定値以下の場合に選択対象から除外してもよいし、所定のレベルのキーワード含有率が所定値以下の場合に選択対象から除外してもよい。また選択する際の優先順位を低くしても良い。

選択対象のなかで、原文データとの一致割合が最も高い第１言語単文データを翻訳対象として選択する。（ステップＳ１００）。

個別的な例文を登録しやすくするためには、このようにキーワードを必須指定と任意指定に区分しておき、必須指定がすべて満たされたものから例文を選択することが有効である。個別的なキーワードを必須指定することで、誤選択を起こりにくくする事が出来る。

６．補足語がある場合の対訳出力処理
図２０（Ａ）（Ｂ）は、補足語がある場合の対訳出力処理について説明するための図である。ここでは第１言語が英語、第２言語が日本語である場合を例にとり説明する。

図２０（Ａ）の７１０は原文データである。７２０は原文データに対応して生成された翻訳対象文であり、原文データに基づき翻訳対象として選択された第１言語単文データ７２２と、翻訳対象として選択された第１言語単文データ７２０には含まれないが原文データ７１０には含まれている語句である補足語７２４からなる。

７３０は翻訳結果として出力される訳文データの一例である。７３２は、翻訳対象として選択された第１言語単文データ７２２と対訳関係を有する第２言語単文データであり、７３４は補足語７２４に対応した第１言語語句データと対訳関係を有する第２言語語句データである。

７３０’は翻訳結果として出力される訳文データの他の一例である。７３６は、読み出した第２言語語句データ７２４の前又は後（ここでは後ろ）添付する所定の第２言語語句データ（ここでは「お願いします」）である。

補足語に対応して読み出した第２言語語句データが所定の語句（例えば「早く」）であるか否か判断し、所定の語句（例えば「早く」）であると判断した場合には、７３０’に示すように、読み出した第２言語語句データの前又は後に所定の第２言語語句データ（例えば「お願いします」）を付加して、前記訳文データとして出力してもよい。

７３０のような表現だと強く命令したような印象を与える可能性があるが、７３０’のように「早く」７３４の後ろに「お願いします」７３６を添えて出力することで、丁寧な表現にすることが出来る。

各言語毎に、所定の第２言語語句データが付加される補足語と、補足語に対応して付加する所定の第２言語語句データを登録して置くようにしても良い。そして、補足語に対応して読み出した第２言語語句データに対して、付加する所定の第２言語語句データが登録されているか場合には、読み出した第２言語語句データに登録されている第２言語語句データを付加するようにしてもよい。

このようにすることで特定の文脈で不適切な表現になることを避ける事が出来る。

図２０（Ｂ）の７４０は原文データである。７５０は原文データに対応して生成された翻訳対象文であり、原文データに基づき翻訳対象として選択された第１言語単文データ７５２と、翻訳対象として選択された第１言語単文データ７５０には含まれないが原文データ７４０には含まれている語句である補足語７５４からなる。

７６０は翻訳結果として出力される訳文データの一例である。７６２は、翻訳対象として選択された第１言語単文データ７６２と対訳関係を有する第２言語単文データであり、７６４は補足語７５４に対応した第１言語語句データと対訳関係を有する第２言語語句データである。

７６０’は翻訳結果として出力される訳文データの他の一例である。７３６は、読み出した第２言語語句データ７２４の前又は後（ここでは後ろ）添付する所定の第２言語語句データ（ここでは「です」）である。

第１言語語句データ及び前記第２言語語句データの少なくとも一方に関連づけて属性情報を設定しておき、属性情報に基づき、読み出した第２言語語句データ７６４（ここでは「パスポート」）または前記第２言語語句データと対訳関係にある前記第１言語語句データ７５４（ここでは「passport」）が所定の属性（例えば名詞）であるか否か判断し、所定の属性であると判断した場合には、読み出した第２言語語句データ４の前又は後（ここでは後ろ）に所定の第２言語語句データ（ここでは「です」）を付加して、前記訳文データとして出力してもよい。

７６０のような表現だとぞんざいな印象を与える可能性があるが、７６０’のように「パスポート」７６４の後ろに「です」７６６を添えて出力することで、丁寧な表現にすることが出来る。

図２１は補足語処理の流れの一例を示すフローチャートである。

原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する（ステップＳ１１０）。

翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出す（ステップＳ１２０）。

翻訳対象として選択された第１言語単文データには含まれないが原文データには含まれている語句（補足語）があるか否か判断し（ステップＳ１３０）、ある場合には第２の対訳データ記憶部から補足語に対応した第１言語語句データと対訳関係を有する第２言語語句データを読み出し（ステップＳ１４０）、翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付し、読み出した第２言語語句データの前又は後に所定の第２言語語句データを添付して、前記訳文データとして出力する（ステップＳ１５０）。

また翻訳対象として選択された第１言語単文データには含まれないが原文データには含まれている語句（補足語）がない場合には、翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに、読み出した第２言語語句データを添付し、訳文データとして出力する（ステップＳ１６０）。

図２２は、補足語処理の流れの具体例を示すフローチャートである。ここでは第２言語が日本語である場合を例にとり説明する。

読み出した第２言語語句データが所定の語句「早く」であるか否か判断し（ステップＳ２１０）、「早く」であると判断した場合には翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データとともに、「はやく」の後に「お願いします」を添付して、前記訳文データとして出力する（ステップＳ２２０）
読み出した第２言語語句データが所定の語句「早く」でない場合には、読み出した第２言語語句データまたは前記第２言語語句データと対訳関係にある前記第１言語語句データが所定の属性（例えば名詞）であるか否か判断し（ステップＳ２３０）、所定の属性（例えば名詞）であると判断した場合には、翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データとともに、所定の属性（例えば名詞）の第２言語語句データ後に「です」を添付して、前記訳文データとして出力する（ステップＳ２４０）
所定の属性（例えば名詞）でないと判断した場合には、翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データとともに、読み出した第２言語語句データを添付して、前記訳文データとして出力する（ステップＳ２５０）
図２３は、補足語処理の流れの他の一例を示すフローチャートである。

選択された第１言語単文データに所定の語句が含まれているか否か判断し（ステップＳ３１０）、含まれている場合には、読み出した第２言語語句データの前又は後に所定の第２言語語句データを添付して、前記訳文データとして出力する（ステップＳ３２０）。

含まれていない場合には、翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データとともに、読み出した第２言語語句データを添付して、前記訳文データとして出力する（ステップＳ３３０）。

７．翻訳対象選候補の選択肢表示処理
図２４は、翻訳対象選候補の選択肢表示について説明する図である。

原文データに基づいて複数の第１言語単文データを翻訳対象選択候補として抽出する際に、翻訳システムの表示部に抽出された翻訳対象選択候補を表示し、ユーザからの選択入力情報を受け付けるようにしてもよい。そして受け取った選択入力情報に基づき、第１言語単文データを選択してもよい。

例えば図１７のように原文データが「ワインはどこに売っていますか」の場合、翻訳対象選択候補として５２０、５３０、５４０を抽出して、抽出した翻訳対象選択候補５２０、５３０、５４０を図２４に示すように表示部に表示してもよい。例えばユーザが所望の翻訳対象候補をカーソル等で指定することで、選択入力を行うようにしてもよい。

８．翻訳対象の選択肢（第１の言語単文）を提示して、ユーザからの選択を受け付ける。一致レベルも表示してもよい。またある確率以上の一致レベルを示す例文を提示してもよい。

なお翻訳対象選択候補とともに、各翻訳対象選択候補の類似度（例えば図１７の類似度スコア５６５や、判定／キーワード含有率５６１等）を表示してもよい。

また類似度が所定の基準を満たすものを前記翻訳対象選択候補として湧出してもよい。また例えば一致レベル（例えば図１７の原文データと第１の単文データを文字単位で比較した場合の原文データにおける一致する文字の位置５２７や第１の単文データにおける一致する文字の位置５２８）表示してもよい。またある確率以上の一致レベルを示す例文を提示してもよい。

このように翻訳対象選候補の選択肢を示すことにより、伝達内容が許容範囲かどうかをユーザが確認可能にすることが出来、ユーザの意思を反映した翻訳対象を選択することが出来る。

９．多言語音声又はテキストによるガイダンス処理
図２５（Ａ）（Ｂ）は、多言語音声ガイダンスについて説明するための図である。

例えば呼びかけデータが所定の言語で表現された所定の呼びかけ文の音声データである場合には、前記呼びかけデータ記憶部は、各言語毎に用意された所定の呼びかけ文の音声データを記憶し、呼びかけデータ出力部は、操作入力情報に基づきいずれかの言語の呼びかけ文の音声データを選択してスピーカ等から再生出力してもよい。

また例えば呼びかけデータが所定の言語で表現された所定の呼びかけ文のテキストデータである場合には、前記呼びかけデータ記憶部は、各言語毎に用意された所定の呼びかけ文のテキストデータを記憶し、呼びかけデータ出力部は、操作入力情報に基づきいずれかの言語に呼びかけ文のテキストデータを選択して表示部等に表示してもよい。

すなわち各言語毎に所定の呼びかけ文の音声データ又はテキストデータを記憶させておき、ユーザからの操作入力等に基づき、所定の言語の呼びかけ文の音声データ又はテキストデータを再生するようにしてもよい。

図２５（Ａ）は、日本語と英語についての呼びかけ文の例である。呼びかけ文の内容はユーザが所定の言語への翻訳を行う際に、対応してくれそうな人に呼びかける内容であればよい。ユーザが所定の言語への翻訳を行う際に操作部から呼びかけ文再生の指示を行うことで、呼びかけ文の音声データが再生されるようにすることで、対応してくれそうな人を探すことが出来る。

複数の言語について呼びかけ文を用意している場合には、どの言語で呼びかけ文が再生するかについてユーザが選択入力するようにしても良いし、翻訳システムの現在の設定（現在第２言語に設定されている言語）に基づき対応する言語の呼びかけ文が自動選択されるようにしてもよい。

図２５（Ｂ）は、日本語と英語についての呼びかけ文の他の例である。このように呼びかけ文は単に人に呼びかけるだけでなく、翻訳システムの説明等を含む内容でもよい。

また呼びかけ文の音声又はテキストによるガイダンスと共に注意を喚起するための音や光等を発する構成を設けても良い。

１０．翻訳システムの製造方法
図２６は翻訳システムの製造方法について説明するためのフローチャート図である。

第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶され、第１言語単文データ及び第２言語単文データの少なくとも一方に関連づけて、利用場面に関するデータ利用場面情報が設定された対訳データベースを作成する（ステップＳ４１０）。ここで対訳データベースには、用意可能な最大の対訳データ（例えばすべてのデータ利用場面に対応した対訳データ）が格納されており、個々に翻訳システムの第１の対訳データ記憶部には、対訳データベースの一部（又は全部でもよい）の対訳データが格納される事になる。データ利用場面情報とは、図５の２２０で説明した情報である。

次に翻訳システムの利用場面に関するシステム利用場面情報を受け取る（ステップＳ４２０）。ユーザが自己のニーズに合わせて必要な利用場面を特定して申告したものがシステム利用場面情報となる。

システム利用場面情報とデータ利用場面情報とに基づいて対訳データベースから対訳データを抽出する（ステップＳ４３０）。

次に抽出した対訳データに基づき翻訳システムの第１の対訳データ記憶部を製造する（ステップＳ４４０）。

例えばユーザが「ホテル」「乗り物」「買い物」を必要な利用場面として」申告すると、これらに対応したデータ利用場面情報が設定された対訳データが抽出して、ユーザの翻訳システムの第１の対訳データ記憶部に格納される事になる
このようにシステム利用場面情報としてユーザが必要なものを指定することで、ユーザにとって必要十分な対訳データが記憶された第１の対訳データ記憶部を有する翻訳システム（翻訳装置）を製造することが出来る。

また対訳データベースにおいて利用場面に関するデータ利用場面情報が設定されているため、システム利用場面情報対応するデータ利用場面情報が設定されている対訳データを抽出するだけでよいので、カスタマイズが容易である。

本発明は、上述の実施の形態に限定されるものではなく、種々の変形が可能である。本発明は、実施の形態で説明した構成と実質的に同一の構成（例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成）を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。

本実施の形態の翻訳システムの機能ブロック図である。本実施の形態の構成を示す図である。第１の対訳データ記憶部に記憶される単文の一例を示す図。第１言語単文及び第２言語単文のグループ化について説明するための図。第１の対訳データ記憶部に記憶されている第１の言語単文データに関する情報について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳処理の具体例について説明するための図。本実施の形態の翻訳システムを適用可能な電子機器の一例である携帯電話を示す図。図１７（Ａ）（Ｂ）は、キーワード情報に基づく翻訳対象選択処理について説明するための図。図１８（Ａ）（Ｂ）は、キーワード情報に基づく翻訳対象選択処理について説明するための図。キーワード情報に基づく翻訳対象選択処理の流れの一例を示すフローチャート。図２０（Ａ）（Ｂ）は、補足語がある場合の対訳出力処理について説明するための図。補足語処理の流れの一例を示すフローチャート。補足語処理の流れの具体例を示すフローチャート。補足語処理の流れの他の一例を示すフローチャート。翻訳対象選候補の選択肢表示について説明する図。図２５（Ａ）（Ｂ）は、多言語音声ガイダンスについて説明するための図。翻訳システムの製造方法について説明するためのフローチャート図。

符号の説明

１翻訳システム、１０翻訳システム、１２原文入力部、１４各種設定情報入力部、３０記憶部、３２第１の対訳データ記憶部、３４第２の対訳データ記憶部、３６関連国情報記憶部、４０翻訳処理部、４２特徴語抽出部、４４翻訳対象選択部、４６補足語抽出処理部、４８対訳出力処理部、６０出力装置、６２表示部、６４音声出力部、８０操作部、１００処理部

Claims

第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
第１の対訳データ記憶部は、
少なくとも１つの前記第１言語単文データを構成する少なくとも１つの語句を特定するためのキーワード情報を記憶し、
前記キーワード情報は、必須キーワード情報を含み、
前記翻訳対象選択処理部は、
前記キーワード情報に基づき前記原文データと前記第１言語単文データとを比較して、比較結果に基づき前記第１の対訳データ記憶部からいずれかの第１言語単文データを翻訳対象として選択するよう構成され、
前記原文データと前記第１言語単文データとを比較する際に、前記第１言語単文データの前記必須キーワード情報に基づき特定される語句が前記原文データに含まれているか否か判断し、否と判断した場合には、前記第１言語単文データを選択対象から除外し、
前記原文データと選択対象から除外しなかった前記第１言語単文データとを比較して、前記第１言語単文データの前記キーワード情報に基づき特定される語句を前記原文データが含む割合であるキーワード含有率と、前記原文データと前記第１言語単文データとの一致
度合を示す類似度を演算し、前期キーワード含有率及び前記類似度に基づき翻訳対象として選択する第１言語単文データを決定することを特徴とする翻訳プログラム。
請求項１において、
第１の対訳データ記憶部は、
前記第１言語単文データの前記キーワード情報によって特定される語句についてレベルが設定され、
前記翻訳対象選択処理部は、
前記原文データと前記第１言語単文データとを比較して、前記第１言語単文データの前記キーワード情報に基づき特定される語句については設定されたレベルに応じて異なる重み付けを行い類似度を演算し、演算された類似度に基づき前記第１の対訳データ記憶部からいずれかの第１言語単文データを翻訳対象として選択することを特徴とする翻訳プログラム。
請求項１又は２において、
第１言語で表現された複数の第１言語語句データと、第２言語で表現された複数の第２言語語句データとを含み、対訳関係を有する前記第１言語語句データと前記第２言語語句データとが関連付けられて記憶された第２の対訳データ記憶部と、してさらにコンピュータを機能させ、
前記翻訳処理部は、
翻訳対象として選択された第１言語単文データには含まれないが原文データには含まれている語句である補足語を検出して、前記第２の対訳データ記憶部から補足語に対応した第１言語語句データと対訳関係を有する第２言語語句データを読み出す補足語抽出処理部を含み、
前記対訳出力処理部は、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データに読み出した第２言語語句データを添付し、読み出した第２言語語句データの前又は後に所定の第２言語語句データを添付して、前記訳文データとして出力することを特徴とする翻訳プログラム。
請求項３において、
前記対訳出力処理部は、
読み出した第２言語語句データが所定の語句であるか否か判断し、所定の語句であると判断した場合には、読み出した第２言語語句データの前又は後に所定の第２言語語句データを添付して、前記訳文データとして出力することを特徴とする翻訳プログラム。
請求項３又は４のいずれかにおいて、
前記第２の対訳データ記憶部は、
前記第１言語語句データ及び前記第２言語語句データの少なくとも一方に関連づけて記憶された属性情報を含み、
前記対訳出力処理部は、
前記属性情報に基づき、読み出した第２言語語句データまたは前記第２言語語句データと対訳関係にある前記第１言語語句データが所定の属性であるか否か判断し、所定の属性であると判断した場合には、読み出した第２言語語句データの前又は後に所定の第２言語語句データを添付して、前記訳文データとして出力することを特徴とする翻訳プログラム。
請求項３において、
前記対訳出力処理部は、
選択された第１言語単文データに所定の語句が含まれているか否か判断し、所定の語句
が含まれていると判断した場合には、読み出した第２言語語句データの前又は後に所定の第２言語語句データを添付して、前記訳文データとして出力することを特徴とする翻訳プログラム。
請求項１乃至６のいずれかにおいて、
ガイダンス用に予め用意した呼びかけ文に対応付けて、所定の言語で表現された音声又はテキストによる呼びかけデータを記憶する呼びかけデータ記憶部と、
操作入力情報により指定された呼びかけ文に対応づけて記憶された音声又はテキストによる呼びかけデータを、呼びかけデータ記憶部から読み出して出力を行う呼びかけデータ出力部と、を含むことを特徴とする翻訳プログラム。
請求項１乃至７のいずれかにおいて、
前記翻訳対象選択処理部は、
前記原文データに基づいて複数の第１言語単文データを翻訳対象選択候補として抽出し、抽出された翻訳対象選択候補を出力し、
受け取った選択入力情報に基づき、第１言語単文データを選択することを特徴とする翻訳プログラム。
第１言語で表現された複数の第１言語単文データと、第２言語で表現された複数の第２言語単文データとを含み、対訳関係を有する前記第１言語単文データと前記第２言語単文データとが関連付けられて記憶された第１の対訳データ記憶部と、
前記第１言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、を含み、
前記翻訳処理部は、
前記原文データに基づいて前記第１の対訳データ記憶部に記憶されたいずれかの第１言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第１言語単文データと対訳関係を有する第２言語単文データを前記第１の対訳データ記憶部から読み出して、読み出した第２言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
第１の対訳データ記憶部は、
少なくとも１つの前記第１言語単文データを構成する少なくとも１つの語句を特定するためのキーワード情報を記憶し、
前記キーワード情報は、必須キーワード情報を含み、
前記翻訳対象選択処理部は、
前記キーワード情報に基づき前記原文データと前記第１言語単文データとを比較して、比較結果に基づき前記第１の対訳データ記憶部からいずれかの第１言語単文データを翻訳対象として選択するよう構成され、
前記原文データと前記第１言語単文データとを比較する際に、前記第１言語単文データの前記必須キーワード情報に基づき特定される語句が前記原文データに含まれているか否か判断し、否と判断した場合には、前記第１言語単文データを選択対象から除外し、
前記原文データと選択対象から除外しなかった前記第１言語単文データとを比較して、前記第１言語単文データの前記キーワード情報に基づき特定される語句を前記原文データが含む割合であるキーワード含有率と、前記原文データと前記第１言語単文データとの一致度合を示す類似度を演算し、前期キーワード含有率及び前記類似度に基づき翻訳対象として選択する第１言語単文データを決定することを特徴とする翻訳システム。