JP5398202B2 - 翻訳プログラム、翻訳システム、翻訳システムの製造方法及び対訳データ生成方法 - Google Patents

翻訳プログラム、翻訳システム、翻訳システムの製造方法及び対訳データ生成方法 Download PDF

Info

Publication number
JP5398202B2
JP5398202B2 JP2008231441A JP2008231441A JP5398202B2 JP 5398202 B2 JP5398202 B2 JP 5398202B2 JP 2008231441 A JP2008231441 A JP 2008231441A JP 2008231441 A JP2008231441 A JP 2008231441A JP 5398202 B2 JP5398202 B2 JP 5398202B2
Authority
JP
Japan
Prior art keywords
data
language
translation
simple sentence
language simple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008231441A
Other languages
English (en)
Other versions
JP2010066926A (ja
Inventor
陸男 高野
諭 白井
一純 大島
雅敏 小野
武 翁
哲治 赤坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Funai Electric Co Ltd
Funai Electric Advanced Applied Technology Research Institute Inc
Original Assignee
Funai Electric Co Ltd
Funai Electric Advanced Applied Technology Research Institute Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Funai Electric Co Ltd, Funai Electric Advanced Applied Technology Research Institute Inc filed Critical Funai Electric Co Ltd
Priority to JP2008231441A priority Critical patent/JP5398202B2/ja
Publication of JP2010066926A publication Critical patent/JP2010066926A/ja
Application granted granted Critical
Publication of JP5398202B2 publication Critical patent/JP5398202B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、翻訳プログラム、翻訳システム、翻訳システムの製造方法及び対訳データ生成方法に関する。
一つの言語を他の言語に翻訳する翻訳システムの研究が行われており、種々の翻訳システムが開発されている。
しかし、人が発信する情報の内容や構成は非常に多様であることから、処理能力が高いハードウエア(コンピュータ等)や膨大なデータベースを用いた場合でも、精度のよい翻訳を実現することは困難であった。
特開平9−258776号公報 特開平4−54670号公報
背景技術において、2つの基本的な問題が存在する。
第一は、翻訳の忠実度である。具体的には、原文データが少しでも異なれば、できる限り差異を持たせた訳文を構成しようとする方向性である。このため、翻訳に使用するデータ量が多いほど翻訳品質の向上すると仮定して、データベース規模の増大を招いているほか、データベース規模の増大につれて、収録内容の無矛盾性の保証が難しくなり、データベース維持のためのコストも増大するという問題がある。一方、人間が外国語によるコミュニケーションを行う場合、数千語の語彙知識があれば、タスク達成が十分可能であることから、翻訳システムが真に必要とするデータ量については再検討すべき段階に来ている。
第二は、入力の正確さである。一般に、翻訳システムの入力は正しい文であることが前提となっている。しかし、思いつきでしゃべった文や書きなぐった文には、語彙や文法的な誤りが含まれることが少なくなく、翻訳システムの入力としては不適当であるとされる。しかし、誤りを含んでいても、些細なものであれば人間同士のコミュニケーションには支障が生じないことから、原文入力に含まれる語句を1語1語同じ重みでチェックし翻訳するという、現在の翻訳システムの前提条件を見直すことも必要である。
本発明の目的は、処理負荷が小さく、かつ、翻訳精度の高い翻訳プログラム、翻訳システム、翻訳システムの製造方法及び並びに、対訳データ生成方法を提供することにある。
(1)本発明は、
第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された第1の対訳データ記憶部と、
前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、
を含み、
第1の対訳データ記憶部は、
少なくとも1つの前記第1言語単文データを構成する少なくとも1つの語句を特定するためのキーワード情報を含み、
前記翻訳対象選択処理部は、
前記キーワード情報に基づき前記原文データと前記第1言語単文データとを比較して、比較結果に基づき前記第1の対訳データ記憶部かいらずれかの第1言語単文データを翻訳対象として選択することを特徴とする。
(2)この翻訳プログラムは、
前記翻訳対象選択処理部は、
前記原文データと前記第1言語単文データとを比較する際に、前記第1言語単文データの前記キーワード情報に基づき特定される語句が前記原文データに含まれているか否か判断し、否と判断した場合には、前記第1言語単文データを選択対象から除外して翻訳対象を選択する処理又は前記第1言語単文データの選択優先度を下げて翻訳対象を選択する処理を行ってもよい。
(3)この翻訳プログラムは、
前記翻訳対象選択処理部は、
前記原文データと前記第1言語単文データとを比較して、前記第1言語単文データの前記キーワード情報に基づき特定される語句とそれ以外の語句とでは異なる重み付けを行い類似度を演算し、演算された類似度に基づき前記第1の対訳データ記憶部からいずれかの第1言語単文データを翻訳対象として選択してもよい。
(4)この翻訳プログラムは、
第1の対訳データ記憶部は、
前記第1言語単文データの前記キーワード情報によって特定される語句についてレベルが設定され、
前記翻訳対象選択処理部は、
前記原文データと前記第1言語単文データとを比較して、前記第1言語単文データの前記キーワード情報に基づき特定される語句については設定されたレベルに応じて異なる重み付けを行い類似度を演算し、演算された類似度に基づき前記第1の対訳データ記憶部からいずれかの第1言語単文データを翻訳対象として選択してもよい。
(5)本発明は、
第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された第1の対訳データ記憶部と、
第1言語で表現された複数の第1言語語句データと、第2言語で表現された複数の第2言語語句データとを含み、対訳関係を有する前記第1言語語句データと前記第2言語語句データとが関連付けられて記憶された第2の対訳データ記憶部と、
前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第1言語単文データには含まれないが原文データには含まれている語句である補足語を検出して、前記第2の対訳データ記憶部から補足語に対応した第1言語語句データと対訳関係を有する第2言語語句データを読み出す補足語抽出処理部と、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
前記対訳出力処理部は、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付し、読み出した第2言語語句データの前又は後に所定の第2言語語句データを添付して、前記訳文データとして出力してもよい。
(6)この翻訳プログラムは、
前記対訳出力処理部は、
読み出した第2言語語句データが所定の語句であるか否か判断し、所定の語句であると判断した場合には、読み出した第2言語語句データの前又は後に所定の第2言語語句データを添付して、前記訳文データとして出力してもよい。
(7)この翻訳プログラムは、
前記第2の対訳データ記憶部は、
前記第1言語語句データ及び前記第2言語語句データの少なくとも一方に関連づけて記憶された属性情報を含み、
前記対訳出力処理部は、
前記属性情報に基づき、読み出した第2言語語句データまたは前記第2言語語句データと対訳関係にある前記第1言語語句データが所定の属性であるか否か判断し、所定の属性であると判断した場合には、読み出した第2言語語句データの前又は後に所定の第2言語語句データを添付して、前記訳文データとして出力してもよい。
(8)この翻訳プログラムは、
前記対訳出力処理部は、
選択された第1言語単文データに所定の語句が含まれているか否か判断し、所定の語句が含まれていると判断した場合には、読み出した第2言語語句データの前又は後に所定の第2言語語句データを添付して、前記訳文データとして出力してもよい。
(9)この翻訳プログラムは、
所定の言語で表現された音声またはテキストによる呼びかけデータを記憶する呼びかけデータ記憶部と、
操作入力情報に基づき前記所与の呼びかけデータに対応した音声又はテキストの出力を行う呼びかけデータ出力部とを、含むんでもよい。
(10)この翻訳プログラムは、
前記翻訳対象選択処理部は、
前記原文データに基づいて複数の第1言語単文データを翻訳対象選択候補として抽出し、抽出された翻訳対象選択候補を出力し(表示し)、
受け取った選択入力情報に基づき、第1言語単文データを選択してもよい。
(11)本発明は、
第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された第1の対訳データ記憶部と、
前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、を含み、
前記翻訳処理部は、
前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含むことを特徴とする翻訳システムの製造方法であって、
第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶され、第1言語単文データ及び第2言語単文データの少なくとも一方に関連づけて、利用場面に関するデータ利用場面情報が設定された対訳データベースを作成するステップと、
翻訳システムの利用場面に関するシステム利用場面情報を受け取るステップと、
前記システム利用場面情報とデータ利用場面情報とに基づいて対訳データベースから対訳データを抽出するステップと、
抽出した対訳データに基づき翻訳システムの第1の対訳データ記憶部を製造するステップを、含むことを特徴とする。
(12)この翻訳プログラムは、
第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された第1の対訳データ記憶部と、
前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
前記翻訳処理部は、
前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含む。
(13)この翻訳プログラムは、
前記翻訳処理部は、
入力された原文データから特徴語を抽出する特徴語抽出処理部を含み、
前記翻訳対象選択処理部は、
前記第1の対訳データ記憶部から前記特徴語を含む第1言語単文データを抽出して、抽出結果に基づきいずれかの第1言語単文データを翻訳対象として選択してもよい。
翻訳対象選択処理部は、
特徴語を含む第1言語単文データが複数抽出された場合には、抽出された複数の第1言語単文データと原文データの類似度を判断し、判断結果に基づき第1言語単文データを選択してもよい。例えば最も類似度が高いと判断した第1言語単文データを選択してもよい。
(14)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連した管理ID(例えば同じ管理ID)に対応付けて記憶されており、
前記対訳出力処理部は、
前記管理ID(例えば同じ管理ID)に基づき対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して前記訳文データとして出力してもよい。
関連した管理IDとは例えば同じ管理IDでもよい。
(15)この翻訳プログラムは、
第1言語で表現された複数の第1言語語句データと、第2言語で表現された複数の第2言語語句データとを含み、対訳関係を有する前記第1言語語句データと前記第2言語語句データとが関連付けられて記憶された第2の対訳データ記憶部(単語、慣用句辞書)を含み、
前記翻訳処理部は、
翻訳対象として選択された第1言語単文データには含まれないが原文データには含まれている語句である補足語を検出して、前記第2の対訳データ記憶部から補足語に対応した第1言語語句データと対訳関係を有する第2言語語句データを読み出す補足語抽出処理部を含み、
前記対訳出力処理部は、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付して、前記訳文データとして出力してもよい。
(16)この翻訳プログラムは、
第1言語で表現された代表語句と所定の関連を有する関連語句の情報である関連語句情報が記憶されている関連語句情報記憶部をさらに含み、
前記翻訳対象選択処理部は、
前記関連語句情報に基づき、入力された原文データが前記関連語句を含むか否か判断し、含むと判断した場合には、原文データの関連語句の部分を当該関連語句と所定の関連を有する代表語句に置換して、置換後の原文データに基づいて、前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択し、
前記補足語抽出処理部は、
前記関連語句に対応した第1言語語句データと対訳関係を有する第2言語語句データを前記第2の対訳データ記憶部から読み出し、
前記対訳出力処理部は、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付して、前記訳文データとして出力してもよい。
前記対訳出力処理部は、
翻訳対象として選択された第1言語単文データの後ろに、読み出した第2言語語句データを添付して前記訳文データとして出力してもよい。
(17)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶され、グループに属するいずれかの第1言語単文データに代表データの指定がされており、
前記翻訳対象選択処理部は、
原文データに基づき抽出された第1言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第1言語単文データを翻訳対象として抽出してもよい。
(18)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
意味内容が同じで表現形式が異なる複数の第2言語単文データがグループ化されて記憶され、グループに属するいずれかの第2言語単文データに代表データの指定がされており、
前記対訳出力処理部は、
選択された第1言語単文データと対訳関係を有する第2言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第2言語単文データに基づき前記訳文データを出力してもよい。
(19)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
対訳関係を有する前記第1言語単文データのグループと前記第2言語単文データのグループとがグループ単位で関連付けられていてもよい。
(20)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
第1言語単文データに関連づけて、当該第1言語単文データに含まれる特徴語が記憶されており、
前記翻訳対象選択処理部は、
前記第1の対訳データ記憶部を検索して、抽出された特徴語に関連づけられている第1言語単文データを抽出してもよい。
(21)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
第1言語単文データに関連づけて、当該第1言語単文データの利用場面に関するデータ利用場面情報が記憶されており、
前記翻訳処理部は、
前記第1言語で表現された原文データに関連づけて、前記原文データの利用場面に関する原文利用場面情報を受け取り、
前記翻訳対象選択処理部は、
前記原文利用場面情報とデータ利用場面情報とに基づいて翻訳対象を選択してもよい。
(22)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
第1言語単文データに関連づけて、当該第1言語単文データの話し手/聞き手に関するデータ話し手/聞き手情報が記憶されており、
前記翻訳処理部は、
前記第1言語で表現された原文データに関連づけて、前記原文データの話し手/聞き手に関する原文話し手/聞き手情報を受け取り、
前記翻訳対象選択処理部は、
前記原文話し手/聞き手情報とデータ話し手/聞き手情報とに基づいて翻訳対象を選択してもよい。
(23)この翻訳プログラムは、
前記第1の対訳データ記憶部は、
第1言語単文データに関連づけて、当該第1言語単文データの事実/質問に関するデータ事実/質問情報が記憶されており、
前記翻訳処理部は、
前記第1言語で表現された原文データに関連づけて、前記原文データの事実/質問に関する原文事実/質問情報を受け取り、
前記翻訳対象選択処理部は、
前記原文事実/質問情報とデータ事実/質問情報とに基づいて翻訳対象を選択してもよい。
(24)この翻訳プログラムは、
前記翻訳対象選択処理部は、
前記第1の対訳データ記憶部から特徴語を含む複数の第1言語単文データを抽出し、原文データにおける前記複数の第1言語単文データとの一致部分が所定の分布条件を満たすか否か判断し、満たすと判断した場合には、前記複数の第1言語単文データを翻訳対象として選択し、
前記対訳出力処理部は、
翻訳対象となった前記複数の第1言語単文データとそれぞれ対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出し、読み出された複数の第2言語単文データを接続して前記訳文データとして出力してもよい。
(25)この翻訳プログラムは、
前記翻訳対象選択処理部は、
前記前記原文データに基づいて複数の第1言語単文データを抽出し、抽出された複数の第1言語単文データについてそれぞれ原文データとの類似度を判断する類似度判断処理を行い、判断結果に基づき翻訳対象となる第1言語単文データを選択してもよい。
(26)本発明に係る翻訳システムは、
第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された第1の対訳データ記憶部と、
前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、を含み、
前記翻訳処理部は、
前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含む。
(27)本発明に係る対訳データベースの製造方法は、
第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された対訳データベースの製造方法であって、
対訳関係を有する前記第1言語単文データと前記第2言語単文データとを関連した管理IDに対応付けて記憶させる。
(28)この対訳データベースの製造方法は、
意味内容が同じで表現形式が異なる複数の第1言語単文データ及び意味内容が同じで表現形式が異なる複数の第1言語単文データをグループ化して記憶させ、対訳関係を有する前記第1言語単文データのグループと前記第2言語単文データのグループとをグループ単位で、関連した管理IDで管理してもよい。
(29)この対訳データベースの製造方法は、
前記グループに属するいずれかの第1言語単文データ及び第2言語単文データの少なくとも一方に代表データの指定を行ってもよい。
以下、本発明を適用した実施の形態について図面を参照して説明する。ただし、本発明は以下の実施の形態に限定されるものではない。また、本発明は、以下の実施の形態及び変形例を自由に組み合わせたものを含むものとする。
(第1の実施の形態)
以下、本発明を適用した第1の実施の形態に係る翻訳システム1について説明する。
1.翻訳システム1の構成
図1は本実施の形態の翻訳システム(または翻訳プログラムをコンピュータで実行することにより実現される各部)1の機能ブロック図である。
本実施形態の翻訳システム1は、図1の構成要素(各部)を全て含む必要はなく、その一部を省略した構成としてもよい。
本実施形態の翻訳システム1は、第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された第1の対訳データ記憶部32と、前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部40とを含む。
前記翻訳処理部40は、前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部44と、翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部48とを含む。
一般的に、「単文」とは、「主語と述語の関係を一組だけ含む文」と定義される。しかし本発明では、「単文」とは、これよりも広い概念を含むものとする。例えば日本語では主語(主格)が省略されることがあるが、本発明では、主語が省略された語句も、当然に「単文」に含まれる。また、文法上、複文(主節と従属節から成る文)として分類される構文の語句であっても、慣用句的にひとまとまりの語句として利用されている語句は、単文に含ませてもよい。すなわち、本発明では、「単文」を、「複数の単語を含む語句であって、1つの意味を表す語句(ひとまとまりの語句)」ととらえてもよい。
対訳関係を有する第1言語単文データと第2言語単文データは、1対1の対応関係であっても良いし、多対1の対応関係であっても良いし、多対多の対応関係であっても良い。
前記翻訳処理部40は、前記第1の対訳データ記憶部32を検索して、前記第1の対訳データ記憶部に、前記原文データ(テキストデータ)と一致する第1言語単文データ(テキストデータ)が記憶されているか否か判断し、記憶されていると判断した場合に、当該第1言語単文データを選択するようにしてもよい。
また翻訳処理部40は、入力された原文データから特徴語を抽出する特徴語抽出処理部42を含み、前記翻訳対象選択処理部44は、前記第1の対訳データ記憶部32から前記特徴語を含む第1言語単文データを抽出して、抽出結果に基づきいずれかの第1言語単文データを翻訳対象として選択してもよい。
また翻訳対象選択処理部44は、特徴語を含む第1言語単文データが複数抽出された場合には、抽出された複数の第1言語単文データと原文データの類似度を判断し、判断結果に基づき第1言語単文データを選択してもよい。例えば最も類似度が高いと判断した第1言語単文データを選択してもよい。
特徴語と第1の対訳データ記憶部に記憶された第1言語単文データとの関連づけを予め行っておいても良い。例えば特徴語と特徴語を含む第1言語単文データの関係リストを生成しておいても良いし、第1の対訳データ記憶部の第1言語単文データに特徴語を示す情報を付しておいても良い。
特徴語抽出処理部42は、原文データを複数の語句に分割して特徴語を抽出してもよい。例えば既存の解析手法(形態素解析手法、ストップワード処理、キーワードスポッティング等)を用いて、単語分割や名詞や動詞を抽出して特徴語を抽出してもよい。例えば特徴がないものを予めリストアップしておいて文から削除してから特徴語を抽出してもよい。また所定のキーワード(例えば「できますか」)というキーワードを登録しておいて、キーワードの前を特徴語と判断してもよい。
また音声入力を音声認識して原文データが生成される場合には音声認識による単語境界情報をうけとり、原文データを複数の語句に分割してもよい。
また前記第1の対訳データ記憶部32は、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連した管理ID(例えば同じ管理ID)に対応付けて記憶されており、前記対訳出力処理部48は、前記管理ID(例えば同じ管理ID)に基づき対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して前記訳文データとして出力してもよい。
関連した管理IDとは例えば同じ管理IDでもよい。
前記対訳出力処理部48は、選択された第1言語単文データと同じ管理IDに対応付けられた第2言語単文データを前記第1の対訳データ記憶部から読み出して前記訳文データとして出力してもよい。
また本実施形態の翻訳システム1は、第1言語で表現された複数の第1言語語句データと、第2言語で表現された複数の第2言語語句データとを含み、対訳関係を有する前記第1言語語句データと前記第2言語語句データとが関連付けられて記憶された第2の対訳データ記憶部(単語、慣用句辞書)34を含んで構成してもよい。
また翻訳処理部40は、翻訳対象として選択された第1言語単文データには含まれないが原文データには含まれている語句である補足語を検出して、前記第2の対訳データ記憶部34から補足語に対応した第1言語語句データと対訳関係を有する第2言語語句データを読み出す補足語抽出処理部46とを含んで構成してもよい。前記対訳出力処理部48は、翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付して、前記訳文データとして出力してもよい。
前記対訳出力処理部48は、翻訳対象として選択された第1言語単文データの後ろに、読み出した第2言語語句データを添付して前記訳文データとして出力してもよい。
また第1の対訳データ記憶部32は、少なくとも1つの前記第1言語単文データを構成する少なくとも1つの語句を特定するためのキーワード情報を含むようにしてもよい。
翻訳対象選択処理部44は、前記キーワード情報に基づき前記原文データと前記第1言語単文データとを比較して、比較結果に基づき前記第1の対訳データ記憶部からいずれかの第1言語単文データを翻訳対象として選択してもよい。
また翻訳対象選択処理部44は、前記原文データと前記第1言語単文データとを比較する際に、前記第1言語単文データの前記キーワード情報に基づき特定される語句が前記原文データに含まれているか否か判断し、否と判断した場合には、前記第1言語単文データを選択対象から除外して翻訳対象を選択する処理又は前記第1言語単文データの選択優先度を下げて翻訳対象を選択する処理をおこなってもよい。
翻訳対象選択処理部44は、前記原文データと前記第1言語単文データとを比較して、前記第1言語単文データの前記キーワード情報に基づき特定される語句とそれ以外の語句とでは異なる重み付けを行い類似度を演算し、演算された類似度に基づき前記第1の対訳データ記憶部からいずれかの第1言語単文データを翻訳対象として選択してもよい。
第1の対訳データ記憶部32は、前記第1言語単文データの前記キーワード情報によって特定される語句についてレベルが設定され、翻訳対象選択処理部44は、前記原文データと前記第1言語単文データとを比較して、前記第1言語単文データの前記キーワード情報に基づき特定される語句については設定されたレベルに応じて異なる重み付けを行い類似度を演算し、演算された類似度に基づき前記第1の対訳データ記憶部からいずれかの第1言語単文データを翻訳対象として選択してもよい。
対訳出力処理部48は、翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付し、読み出した第2言語語句データの前又は後に所定の第2言語語句データを添付して、前記訳文データとして出力してもよい。
また対訳出力処理部48は、読み出した第2言語語句データが所定の語句であるか否か判断し、所定の語句であると判断した場合には、読み出した第2言語語句データの前又は後に所定の第2言語語句データを添付して、前記訳文データとして出力してもよい。
第2の対訳データ記憶部34は、前記第1言語語句データ及び前記第2言語語句データの少なくとも一方に関連づけて記憶された属性情報を含み、対訳出力処理部48は、前記属性情報に基づき、読み出した第2言語語句データまたは前記第2言語語句データと対訳関係にある前記第1言語語句データが所定の属性であるか否か判断し、所定の属性であると判断した場合には、読み出した第2言語語句データの前又は後に所定の第2言語語句データを添付して、前記訳文データとして出力してもよい。
対訳出力処理部48は、選択された第1言語単文データに所定の語句が含まれているか否か判断し、所定の語句が含まれていると判断した場合には、読み出した第2言語語句データの前又は後に所定の第2言語語句データを添付して、前記訳文データとして出力してもよい。
翻訳対象選択処理部44は、前記原文データに基づいて複数の第1言語単文データを翻訳対象選択候補として抽出し、抽出された翻訳対象選択候補を出力し、受け取った選択入力情報に基づき、第1言語単文データを選択してもよい。
また本実施形態の翻訳システム1は、第1言語で表現された代表語句と所定の関連を有する関連語句の情報である関連語句情報が記憶されている関連語句情報記憶部36をさらに含み、前記翻訳対象選択処理部44は、前記関連語句情報に基づき、入力された原文データが前記関連語句を含むか否か判断し、含むと判断した場合には、原文データの関連語句の部分を当該関連語句と所定の関連を有する代表語句に置換して、置換後の原文データに基づいて、前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択し、前記補足語抽出処理部46は、前記関連語句に対応した第1言語語句データと対訳関係を有する第2言語語句データを前記第2の対訳データ記憶部34から読み出し、前記対訳出力処理部48は、翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付して、前記訳文データとして出力してもよい。
前記対訳出力処理部48は、翻訳対象として選択された第1言語単文データの後ろに、読み出した第2言語語句データを添付して前記訳文データとして出力してもよい。
代表語句とは例えば単語である。代表語句に対する関連語句とは例えば代表語句の代替え語(同じ意味で表記や異なる単語、言い換えても同じ意味となる単語等)となる単語でもよいし、類似語でもよい。
関連語句情報は、例えば関連語句と関連語句に対応する代表語句の情報でもよい。また関連語句の種別(例えば代替語か類似語)の情報を含んでもよい。関連語句情報記憶部には、関連語句に対して対応する代表語句と関連語句の種別情報が関連づけて記憶されていてもよい。
このようにすると、代表語句と関連語句を置き換え可能な文については、代表語句を用いた第1の言語単文データを用意すると、代表語句が関連語句に置換された文については第1の言語単文データを用意しなくても良い。従って第1の対訳データ記憶部の容量を削減することができるとともに、マッチング率を向上させることができる。
また前記第1の対訳データ記憶部32は、意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶され、グループに属するいずれかの第1言語単文データに代表データの指定がされており、前記翻訳対象選択処理部44は、原文データに基づき抽出された第1言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第1言語単文データを翻訳対象として抽出してもよい。
前記第1の対訳データ記憶部44は、意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶され、グループに属するいずれかの第1言語単文データに代表データの指定がされており、対訳関係を有する前記第1言語単文データのグループと前記第2言語単文データとが関連付けられて記憶されていてもよい。
原文の言語に対応する第1言語単文データが意味内容が同じで表現形式が異なる複数の表現形式をもちグループ化されていると、バリエーションのある入力に対応が可能である。そして第2の言語データについてはグループの対訳として1種類の第2言語単文データをもつようにしてもよい。このようにすると少ないデータ量でバリエーションのある入力の翻訳に対応可能となる。
また前記第1の対訳データ記憶部32は、意味内容が同じで表現形式が異なる複数の第2言語単文データがグループ化されて記憶され、グループに属するいずれかの第2言語単文データに代表データの指定がされており、前記対訳出力処理部48は、選択された第1言語単文データと対訳関係を有する第2言語単文データがグループ化されている場合には、当該グループの代表データの指定がなされている第2言語単文データに基づき前記訳文データを出力してもよい。
また前記第1の対訳データ記憶部32は、対訳関係を有する前記第1言語単文データのグループと前記第2言語単文データのグループとがグループ単位で関連付けられていてもよい。
例えば対訳関係を有するグループに同じグループIDを与えて管理してもよい。
また前記第1の対訳データ記憶部32は、第1言語単文データに関連づけて、当該第1言語単文データに含まれる特徴語が記憶されており、前記翻訳対象選択処理部44は、前記第1の対訳データ記憶部を検索して、抽出された特徴語に関連づけられている第1言語単文データを抽出してもよい。
例えば第1の対訳データ記憶部に、特徴語と当該特徴語を含む第1言語単文データとの索引情報を記憶させても良い。
また前記第1の対訳データ記憶部32は、第1言語単文データに関連づけて、当該第1言語単文データの利用場面に関するデータ利用場面情報が記憶されており、各種設定情報入力部14は、前記第1言語で表現された原文データに関連づけて前記原文データの利用場面に関する原文利用場面情報15を受け取り、前記翻訳対象選択処理部44は、前記原文利用場面情報15とデータ利用場面情報とに基づいて翻訳対象を選択してもよい。
このようにすると、利用場面で検索対象または抽出対象となる第1言語単文データを絞ることができるので、的はずれや場違いな翻訳がなされるのを防止し、効率のよい検索や抽出を行うことができる。
意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶されている場合にはグループ単位でデータ利用場面情報が記憶されていてもよい。
前記原文利用場面情報は、ユーザーの入力情報でもよい。例えばメニューにより選択入力できるようにしても良い。
また前記第1の対訳データ記憶部32は、第1言語単文データに関連づけて、当該第1言語単文データの話し手/聞き手に関するデータ話し手/聞き手情報が記憶されており、各種設定情報入力部14は、前記第1言語で表現された原文データに関連づけて、前記原文データの話し手/聞き手に関する原文話し手/聞き手情報16を受け取り、前記翻訳対象選択処理部44は、前記原文話し手/聞き手情報16とデータ話し手/聞き手情報とに基づいて翻訳対象を選択してもよい。
このようにすると、話し手/聞き手の別で検索対象または抽出対象となる第1言語単文データを絞ることができるので、的はずれや場違いな翻訳がなされるのを防止し、効率のよい検索や抽出を行うことができる。
意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶されている場合にはグループ単位でデータ話し手/聞き手情報が記憶されていてもよい。
前記話し手/聞き手情報は、ユーザの入力情報でもよい。例えばメニューにより選択入力できるようにしても良い。
なお音声入力の音声認識により原文データが生成される場合には、持ち主の声を判別して、持ち主の声である場合には話し手と自動判別するようにしてもよい。
また前記第1の対訳データ記憶部32は、第1言語単文データに関連づけて、当該第1言語単文データの事実/質問に関するデータ事実/質問情報が記憶されており、前記各種設定情報入力部14は、前記第1言語で表現された原文データに関連づけて、前記原文データの事実/質問に関する原文事実/質問情報17を受け取り、前記翻訳対象選択処理部44は、前記原文事実/質問情報17とデータ事実/質問情報とに基づいて翻訳対象を選択してもよい。
このようにすると、事実/質問の別で検索対象または抽出対象となる第1言語単文データを絞ることができるので、的はずれや場違いな翻訳がなされるのを防止し、効率のよい検索や抽出を行うことができる。
意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶されている場合にはグループ単位でデータ事実/質問情報が記憶されていてもよい。
前記事実/質問情報は、ユーザの入力情報でもよい。例えばメニューにより選択入力できるようにしても良い。
また前記翻訳対象選択処理部44は、前記第1の対訳データ記憶部から特徴語を含む複数の第1言語単文データを抽出し、原文データにおける前記複数の第1言語単文データとの一致部分が所定の分布条件を満たすか否か判断し、満たすと判断した場合には、前記複数の第1言語単文データを翻訳対象として選択し、前記対訳出力処理部48は、翻訳対象となった前記複数の第1言語単文データとそれぞれ対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出し、読み出された複数の第2言語単文データを接続して前記訳文データとして出力してもよい。
また前記翻訳対象選択処理部44は、前記前記原文データに基づいて複数の第1言語単文データを抽出し、抽出された複数の第1言語単文データについてそれぞれ原文データとの類似度を判断する類似度判断処理を行い、判断結果に基づき翻訳対象となる第1言語単文データを選択してもよい。
類似度判断処理として、例えば抽出された各第1言語単文データと原文データとの文字の照合を行って一致文字数を検出し、前記各第1言語単文データについて、当該第1言語単文データに対する一致文字数の比率(一致文字数/第1言語単文データの文字数)と原文データに対する一致文字数の比率(一致文字数/原文データの文字数)の両方に基づいて、各第1言語単文データと原文データとの類似度を判断してもよい。
図2は本実施の形態の構成を示す図である。
本実施の形態の翻訳システム1は、図1で説明した各部としてコンピュータを機能させることにより実現することができる。
本実施の形態に係る翻訳システム1は、入力部10を含む。入力部10は、ユーザが所与の語句(原文)を入力するための原文入力部12として機能する。なお、原文とは、翻訳システム1(翻訳装置)が翻訳の対象とする語句である。そして、入力部10は、ユーザの原文入力操作(動作)を受け付けて、原文に対応する原文データ13を出力する。
翻訳システム1に適用可能な入力部10は特に限定されず、既に公知となっているいずれかの入力装置(ユーザインターフェース)を適用することができる。入力部10は、ユーザが文字として原文を入力する装置であってもよい。このとき、入力部10は、押しボタンや操作レバー、タッチパネル等のハードウエアによって実現してもよい。
あるいは、入力部10は、ユーザが音声として原文を入力する装置であってもよい。このとき、入力部10は、既に公知となっているいずれかのマイクロフォン(音声入力装置)によって実現してもよい。なお入力部10は、ユーザが音声として原文を入力する装置である場合には音声データの音声認識を行い認識結果として音声データに対応するテキストデータが生成されて、当該テキストデータが原文データとして出力される。
また入力部10は各種設定情報入力部14として機能する。各種設定情報とは原文の利用場面を特定するための原文利用場面情報15や、原文が話し手の文なのか聞き手の文なのかを特定する原文話し手/聞き手情報16や、原文が事実を述べる文であるか質問文であるかを特定する原文事実/質問情報17を含んでもよい。これらは例えばメニュー画面等から入力されるようにしてもよい。
本実施の形態に係る翻訳システム1は、出力装置60を含んでいてもよい。出力装置60は、例えば、表示部62や音声出力部64であってもよい。
ここで、表示部62とは、CRTディスプレイ、LCD、OELD、PDP、タッチパネル型ディスプレイ等のハードウエアによって実現してもよい。表示部62に、抽出された翻訳対象選択候補が表示されるようにしてもよい。また表示部62は操作入力情報に基づき前記所与の呼びかけ文のテキストデータを表示する呼びかけデータ出力部として機能してもよい。
音声出力部64は、スピーカやヘッドフォン等のハードウエアによって実現してもよい。また音声出力部64は、操作入力情報に基づき操作入力情報に基づき前記所与の呼びかけ文の音声データを再生して出力する呼びかけデータ出力部として機能してもよい。
本実施の形態に係る翻訳システム1は、操作部80を含んでいてもよい。操作部80は、ユーザの操作をデータとして入力するためのものであり、その機能は、操作ボタン、操作レバー、タッチパネル等によって実現してもよい。操作部80は、例えば、第1言語(原文データとして入力される言語)や第2言語(訳文データとして出力する言語)を指定する情報を入力する装置であってもよい。操作部80は、各種入力情報15,16,17を入力する装置であってもよい。また操作部80からは、抽出された翻訳対象選択候補に対する選択入力情報を受け取るようにしてもよい。
本実施の形態に係る翻訳システム1は、記憶部30を含む。記憶部30は、主記憶部やワーク領域として使用される揮発性記憶部やプログラムやデータなどを格納する不揮発性の記憶部や各種情報記憶媒体(コンピュータにより読み取り可能な媒体)であり、その機能は、RAM、光ディスク(CD、DVD等)、光磁気ディスク(MO)、磁気ディスク、ハードディスク、磁気テープ、或いはメモリ(ROM)などのハードウエアにより実現できる。
記憶部30は、図1で説明した第1の対訳データ記憶部32、第2の対訳データ記憶部34、関連語句情報記憶部36として機能する。また記憶部30は、所定の言語で表現された所定の呼びかけ文の音声データ又はテキストデータを記憶する呼びかけデータ記憶部38として機能するようにしてもよい。
本実施の形態に係る翻訳システム1は、処理部100を含む。処理部100は、本実施の形態の翻訳プログラム(記憶部30に格納されていてもよい)やデータなどに基づいて本実施形態の種々の処理を行うもので、その機能は、各種プロセッサ(CPU、DSP等)で本実施の形態の翻訳プログラム等を実行することによって実現してもよいし、専用のハードウエア回路によって実現してもよい。
処理部100は、図1で説明した翻訳処理部40として機能する。翻訳処理部40は、特徴語抽出処理部42、翻訳対象選択処理部44、補足語抽出処理部46、対訳出力処理部48を含む場合には、処理部100は前記各部として機能するようにしてもよい。
2.第1の対訳データ記憶部
図3に、第1の対訳データ記憶部32に記憶される単文(第1言語単文及び第2言語単文)の一例を示す。本実施の形態では、図3に示すように、第1言語単文データと第2言語単文データとが、対訳となるように関連付けて記憶されている。本実施の形態では、第1言語単文データ及び第2言語単文データは、ASCIIコードやJISコードで構成されたテキストデータであってもよい。
本実施の形態では、対訳データ記憶部32は、翻訳装置本体に固定された記憶装置として構成されていてもよい。あるいは、対訳データ記憶部32は、翻訳装置本体から取り外し可能な情報記憶媒体によって実現してもよい。
図4は、第1言語単文及び第2言語単文のグループ化について説明するための図である。
本実施の形態では、対訳データ記憶部32の第1言語単文データは、複数のグループに分類されて記憶されていてもよい。本実施の形態では、同じ内容で表現の異なる第1言語単文データや類似の意味を示す第1言語単文データが、ひとつのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第1言語単文データのいずれかが、代表データに指定されていてもよい。
本実施の形態では、対訳データ記憶部32の第2言語単文データは、複数のグループに分類されて記憶されていてもよい。本実施の形態では、同じ内容で表現の異なる第2言語単文データや類似の意味を示す第2言語単文データが、ひとつのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第2言語単文データのいずれかが、代表データに指定されていてもよい。
図4には、対訳データ記憶部32に記憶される、グループ化された対訳データの一例を示す。グループ1では、「風邪をひきました。」との第1言語単文と、「I caught a cold.」との第2言語単文とが、それぞれ、代表データとして指定されている。そして、代表データと(ほぼ)同じ意味となるデータが、1つのグループに分類されている。また、グループ2では、「風邪薬を下さい。」との第1言語単文と、「 Can I have a cold medicine?」との第2言語単文とが、それぞれ、代表データとして指定されている。そして、代表データと同じ意味となるデータが、1つのグループに分類されている。
そして、本実施の形態では、第1言語単文データ選択処理部42は、代表データに指定されている第1言語単文データのいずれかを選択するように構成されていてもよい。詳しくは、第1言語単文データ選択処理部42は、受け付けた原語単文データが属するグループを検出する処理と、検出されたグループの代表データに指定されている第1言語単文データを選択する処理とを行ってもよい。
具体的には、第1言語単文データ選択処理部42は、例えば「風邪気味です。」との原語単文データを受け付けた場合に、受け付けた原語単文データがグループ1に属することを検出して、グループ1の第1言語単文データの代表データに指定されている「風邪をひきました。」との第1言語単文データを選択する。
そして、訳語単文データ出力処理部40は、第1言語単文データの代表データに関連付けられた第2言語単文データを、訳語単文データとして出力してもよい。
これによると、一般的に利用される単文を代表データに指定することで、第三者に、より伝わりやすい訳語を出力することができるので、コミュニケーションをより円滑にすることが可能になる。
ただし、常に代表データを利用して訳語を出力すると、ユーザの意図の概要は伝わったとしても、語句のニュアンスが伝わらないことがある。そのため、本実施の形態に係る翻訳システムは、動作モードが切り替え可能に構成されていてもよい。すなわち、本発明に係る翻訳システムは、代表データを選択する代表データ利用モードと、代表データを利用しない通常モードとを切り替え可能に構成されていてもよい。これにより、使用状況に適した訳語を出力させることが可能になる。例えば、操作部80を介してユーザが入力したモード切替信号に基づいて、動作モードを切り替える処理を行ってもよい。
図5は、第1の対訳データ記憶部に記憶されている第1の言語単文データに関する情報について説明するための図である。
第1の言語単文データに関する情報(以下、第1の言語単文情報)200という。第1の言語単文情報200は、少なくとも第1の単文の内容を表すテキストデータ(第1の単文データに相当)を含む情報であり、識別ID(例えばグループID210と単文識別ID212)、センテンス識別ID242に関連づけて記憶されるようにしてもよい。
グループID210は、意味内容が同じで表現形式が異なる複数の第1言語単文データがグループ化されて記憶されている場合にグループを特定するための用いられる識別情報である。例えば対訳関係を有する前記第1言語単文データと前記第2言語単文データとを関連した管理ID(例えば同じ管理ID)に対応付けて記憶するようにしてもよい。
単文識別IDはグループ内において単文を特定するための識別情報である。なお第1の対訳データ記憶部に記憶されている第1の言語単文データがすべてグループ化されている場合(グループの構成要素は1つでもよい)には上記構成でよいが、全くグループ化されているデータと単独のデータが混在している場合には単独のデータに仮想的なグループIDを付して管理するようにしてもよい。また第1の言語単文データがすべてがグループ化されていない場合にはグループIDを設定せずに単文識別IDのみで管理するようにしてもよい。
テキスト情報214は、第1の言語単文の内容を表す第1の言語単文データであり、例えば「途中下車はできますか」という第1の言語単文に対応してそのテキストデータ(「途中下車はできますか」を表すASCIIコードやJISコードで構成されたテキストデータ等)が記憶されている。
第1の言語単文情報200は、特徴語情報216を含んでもよい。特徴語とは第1の言語単文データの一部の語句や語句の一部(当該第1の言語単文データの特徴を表すとして予め指定または定義されている語句や語句の一部)である。例えば「(途中)(下車)は(でき)ます(か)」のかっこに囲まれた部分が特徴語して指定されている場合には「途中」「下車」「でき」「か」が特徴語として」記憶されている。
なお特徴語情報216は、少なくとも1つの前記第1言語単文データを構成する少なくとも1つの語句を特定するためのキーワード情報として機能してもよい。そして図17で説明するように、キーワード情報(ここでは特徴語情報216)によって特定される語句についてレベルが設定されるようにしてもよい。
第1の言語単文情200は、代表データ指定情報218を含んでもよい。
第1の言語単文情200は、データ利用場面情報220を含んでもよい。データ利用場面情報220とは、第1の言語単文データの利用される場面(ホテル、乗り物、道案内、チケット売り場、買い物等)を想定して、その利用場面に対応付けて設定されたIDや番号等でもよい。
第1の言語単文情200は、データ話し手/聞き手情報222を含んでもよい。データ話し手/聞き手情報222は、第1の言語単文データを発するのが話し手であるか聞き手であるかを示すフラグ等でもよい。
第1の言語単文情200は、データ事実/質問情報224を含んでもよい。データ事実/質問情報224は、第1の言語単文データが事実を述べる文であるか質問文であるかを示すフラグ等でもよい。
なお第1言語単文データがグループ化されて記憶されている場合には、データ利用場面情報220やデータ話し手/聞き手情報222やデータ事実/質問情報224はグループ単位で設定されるようにしてもよい。
3.翻訳処理の具体例
図6〜図15は、本実施の形態の翻訳処理の具体例について説明するための図である。
図6に、第1の対訳データベースの一例を示す。
本実施の形態の対訳データ記憶部32には、第1言語単文データが、複数のグループに分類されて記憶されている。本実施の形態では、類似の意味を示す第1言語単文に対応する第1言語単文データが、ひとつのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第1言語単文データのいずれかが、代表データに指定されている。
また、本実施の形態では、対訳データ記憶部32には、第2言語単文データが、複数のグループに分類されて記憶されている。本実施の形態では、類似の意味を示す第2言語単文に対応する第2言語単文データが、1つのグループとして分類されていてもよい。そして、本実施の形態では、各グループに分類された第2言語単文データのいずれかが、代表データに指定されている。
図6の240は、識別IDがS1−1の第1の言語単文データ260、識別IDがS1−1の第2の言語単文データ266が対訳関係を有し、識別IDがS1−2の第1の言語単文データ264、識別IDがS1−2の第2の言語単文データ266が対訳関係を有し、これらがグループ化されていることを示している。またグループのグループID242がS1であり、このグループのデータ話し手/聞き手情報244として「話し手」が設定されている事を示している。そしてS1−1の第1の言語単文データ260にグループの代表データ指定250がされ、S1−2の第2の言語単文データ266にグループの代表データ指定252がされている。
図7(A)〜(C)、図8(A)〜(D)は本実施の形態の基本動作について説明するための図である。
まず原文データを入力し、分割する処理を行う。図7(A)に示すように、「途中下車できますか」310という原文データが入力されると、311,312,313、314,315の5つの語句に分割される。
次に文法情報に基づいて特徴語を抽出し、検索キーを作成する。図7(B)に示すように、311,312,313、315の4つの語句が特徴語として抽出され、検索キーとなる。
次に検索キーを用いて第1の対訳データ記憶部に記憶されている第1の言語単文データを検索し、検索キーを含む第1の言語単文データを抽出する。
図7(C)にしめすように、検索結果として識別IDS1−1、識別IDS2−1、識別IDS1−2、識別IDS3−1の4つの第1の言語単文データが抽出される。
識別IDS1−1の第1の言語単文データは「途中+下車+でき+か」の4つの特徴語を含んでいる。識別IDS2−1の第1の言語単文データは「途中+下車+でき」の3つの特徴語を含んでいる。識別IDS1−2と識別IDS3−1の第1の言語単文データは、「途中+下車+か」の3つのの特徴語を含んでいる。
次に原文データと抽出した各第1の言語単文データとの類似度を判断する類似度判断処理を行う。類似度判断処理として、例えば、抽出された各第1言語単文データと原文データとの文字の照合を行って一致文字数を検出し、前記各第1言語単文データについて、当該第1言語単文データに対する一致文字数の比率(一致文字数/第1言語単文データの文字数)と原文データに対する一致文字数の比率(一致文字数/原文データの文字数)の両方に基づいて、各第1言語単文データと原文データとの類似度を判断してもよい。
図8(A)は類似度判断処理結果を示している。
321は原文データ(文字数は9個)318と識別IDS1−1の第1の言語単文データ(文字数は9個)の一致文字数が9個であることを示している。320は原文データに対する一致文字数の比率を示している。また322は識別IDS1−1の第1の言語単文データに対する一致文字数の比率を示している。
同様に325は原文データ(文字数は9個)318と識別IDS2−1の第1の言語単文データ(文字数は15個)の一致文字数が7個であることを示している。324は原文データに対する一致文字数の比率を示している。また326は識別IDS2−1の第1の言語単文データに対する一致文字数の比率を示している。
同様に329は原文データ(文字数は9個)318と識別IDS1−2の第1の言語単文データ(文字数は15個)の一致文字数が5個であることを示している。328は原文データに対する一致文字数の比率を示している。また330は識別IDS1−2の第1の言語単文データに対する一致文字数の比率を示している。
同様に333は原文データ(文字数は9個)318と識別IDS3−1の第1の言語単文データ(文字数は13個)の一致文字数が7個であることを示している。332は原文データに対する一致文字数の比率を示している。また334は識別IDS3−1の第1の言語単文データに対する一致文字数の比率を示している。
323、327、331、333はそれぞれ識別IDS1−1,S2−1,S1−2、S3−1の第1の言語単文データの原文データに対する類似度を示す値である。
類似度323は、原文データに対する一致文字数の比率320と識別IDS1−1の第1の言語単文データに対する一致文字数の比率322に基づき算出(例えばかけ算)された値である。同様に類似度327は、原文データに対する一致文字数の比率324と識別IDS2−1の第1の言語単文データに対する一致文字数の比率326に基づき算出(例えばかけ算)された値である。同様に類似度331は、原文データに対する一致文字数の比率328と識別IDS1−2の第1の言語単文データに対する一致文字数の比率330に基づき算出(例えばかけ算)された値である。同様に類似度333は、原文データに対する一致文字数の比率332と識別IDS3−1の第1の言語単文データに対する一致文字数の比率334に基づき算出(例えばかけ算)された値である。
類似度を比較した結果、図8(B)に示すように類似度の値の最も大きな識別IDS1−1の第1の言語単文データが、翻訳対象として選択される。
ここで入力文に比べ極端に長い第1の言語単文データ(長文)が比較対象となったとき、原文データが長文に100%含まれることがあり得る。このような場合、原文データに対する一致文字数の比率のみで類似度を計算すると、原文データにない余計な要素が出力されることになる。本実施の形態のように、第1言語単文データに対する一致文字数の比率(一致文字数/第1言語単文データの文字数)と原文データに対する一致文字数の比率(一致文字数/原文データの文字数)の両方に基づいて、各第1言語単文データと原文データとの類似度を判断することにより係る事態を防ぐことができる。
またキーワードの一致数も加味して類似度を判断するようにしてもよい。
次に選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する。
図6に示すように第1の言語単文データS1−1はグループS1に属している。グループS1にはS1−1、S2−2の第1の言語単文データと対訳となる第2の言語データ単文が含まれており、グループS1の第2の言語単文データの代表データにはS1−2の第2の言語データ単文が指定されている。
単純出力モードにおいては図8(C)に示すようにS1−1の第1言語単文データの訳文データとしてS1−1の第2言語単文データが出力されるようにしてもよい。
また代表データ出力モードでは図8(D)に示すように、S1−1の第1言語単文データの訳文データとしてS1−1の第2言語単文データではなくて、代表データとして指定されているS1−1の第2言語単文データが出力されるようにしてもよい。
図9は、話し手/聞き手の区別を行う場合の処理例について説明する図である。
例えば話し手の発話の場合、「途中の下車かまいません(↑)」と語尾が上がり調子になるので疑問文であることが状況から判断できるが、テキストデータだけでは、判別が困難な場合がある。
図9(A)に示すように、「途中の下車かまいません」という原文データが入力されると、原文データが6つの語句に分割される。
次に図9(B)に示すように、4つの部分が特徴語として抽出され、検索キーとなる。
次に4つの特徴語を検索キーとして第1の対訳データ記憶部に記憶されている第1の言語単文データを検索すると、図9(C)に示すように識別IDS1−2、識別IDS2−1、識別IDS1−1、識別IDS3−1の4つの第1の言語単文データが抽出される。
識別IDS1−2の第1の言語単文データは「途中+下車+かまい+ん」の4つの特徴語を含んでおり、識別IDS2−1の第1の言語単文データは「途中+下車+ん」の3つの特徴語を含んでおり、識別IDS1−1と識別IDS3−1の第1の言語単文データは、「途中+下車」の2つのの特徴語を含んでいる。
ここで識別IDS1−2のデータ聞き手/話し手情報には「話し手」である旨の情報が設定され、識別IDS2−1のデータ聞き手/話し手情報には「聞き手」である旨の情報が設定され、識別IDS1−1のデータ聞き手/話し手情報には「話し手」である旨の情報が設定され、識別IDS3−1のデータ聞き手/話し手情報には「聞き手」である旨の情報が設定されているとする。このような場合原文聞き手/話し手情報として「話し手」である旨の情報が入力または設定されている場合には、抽出された第1の言語単文データ(識別IDS1−2、識別IDS2−1、識別IDS1−1、識別IDS3−1)の中からデータ聞き手/話し手情報に「話し手」である旨の情報が設定されているものを選択する。すると識別IDS1−2、識別IDS1−1の第1の言語単文データが選択されるので、図9(D)に示すように、選択されたの第1の言語単文データ(識別IDS1−2、識別IDS1−1)について類似度判定処理を行う。
このようにすると特徴語で抽出した全データについて類似度判定処理を行う場合に比べ、処理付加を大幅に軽減することができる。
そして図9(E)に示すように、類似度判断結果に基づき翻訳対象となるS1−2の第1言語単文データを選択する。そして図9(F)に示すように、翻訳対象と対訳関係にあるS1−2の第2言語単文データを対訳データとして出力する。
原文利用場面情報や原文事実/質問情報が入力された場合にも、第1の対訳データ記憶部のデータ利用場面情報やデータ事実/質問情報に基づいて同様の選択処理を行うことができる。
図10は、補足語抽出処理の処理例について説明する図である。
翻訳対象として選択された第1言語単文データには含まれないが原文データには含まれている語句(例えば特徴語でもよい)である補足語を検出し、第2の対訳データ記憶部を検索して、補足語に対応した第1言語語句データと対訳関係を有する第2言語語句データを読み出して、翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付して、前記訳文データとして出力してもよい。
例えば「部屋のお掃除を早くお願いね」という原文データが入力されると、図10(A)に示すように、原文データが7つの語句に分割される。
次に文法情報に基づいて特徴語を抽出し、検索キーを作成すると、図10(B)に示すように、4つの部分が特徴語として抽出され、検索キーとなる。
次に検索キーを用いて第1の対訳データ記憶部に記憶されている第1の言語単文データを検索し、検索キーを含む第1の言語単文データを抽出すると、検索結果として図10(C)に示すように識別IDS4−2、識別IDS4−1の2つの第1の言語単文データが抽出される。識別IDS4−2の第1の言語単文データは「部屋+掃除+お願い」の3つの特徴語を含んでいる。識別IDS4−1の第1の言語単文データは「部屋+掃除」の2つの特徴語を含んでいる。
次に図10(D)に示すように、原文データと抽出した各第1の言語単文データとの類似度を判断する類似度判断処理を行う。
すると類似度判断結果に基づき、図10(E)に示すように翻訳対象となるS4−2の第1言語単文データが選択される。ここで翻訳対象として選択されたS4−2の第1言語単文データは「部屋+掃除+お願い」の3つの特徴語を含んでいるが、原文データには含まれていた「早く」という特徴語を含んでいない。
次に図10(F)に示すように、翻訳対象として選択された第1言語単文データには含まれないが原文データには含まれている語句である「早く」を補足語として、第2の対訳データ記憶部を検索して、補足語「早く」に対応した第1言語語句データと対訳関係を有する第2言語語句データ「quickly」452を読み出す。
そして図10(G)に示すように、翻訳対象として選択されたS4−2の第1言語単文データと対訳関係を有する第2言語単文データ450(この場合はS4グループの第2の言語単文データの代表データとして指定されているS4−1の第2の言語単文データ、図7参照)に、読み出した第2言語語句データ452を添付して、訳文データとして出力する。
図11は、原文データに対して複数の翻訳対象を選択して訳文データを生成する処理例について説明する図である。
前記第1の対訳データ記憶部を検索して、抽出された特徴語を含む第1言語単文データが複数あり、原文データにおける前記複数の第1言語単文データとの一致部分が所定の分布条件を満たす場合には、複数の第1言語単文データを翻訳対象とし、翻訳対象となった複数の第1言語単文データとそれぞれ対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出し、読み出された複数の第2言語単文データを接続して前記訳文データを出力してもよい。
例えば「名古屋を越えたあたりですが事故っちゃいました」という原文データが入力されると、図11(A)に示すように、原文データが11個の語句に分割される。
次に文法情報に基づいて特徴語を抽出し、検索キーを作成すると、図11(B)に示すように、6つの語句が特徴語として抽出され、検索キーとなる。
次に検索キーを用いて第1の対訳データ記憶部に記憶されている第1の言語単文データを検索し、検索キーを含む第1の言語単文データを抽出すると、検索結果として図11(C)に示すように識別IDS5−1、識別IDS6−1の2つの第1の言語単文データが抽出される。識別IDS5−1の第1の言語単文データは「越え+あたり」の2つの特徴語を含んでいる。識別IDS6−1の第1の言語単文データは「事故+た」の2つの特徴語を含んでいる。
次に図11(D)に示すように、原文データと抽出した各第1の言語単文データとの類似度を判断する類似度判断処理を行う。
460は原文データ(文字数は22個)462と識別IDS5−1の第1の言語単文データ(文字数は8個)の一致部分を示している。これによれば一致部分460は原文データ462の前半部分に偏っている。
464は原文データ(文字数は22個)462と識別IDS6−1の第1の言語単文データ(文字数は13個)の一致部分を示している。これによれば一致部分464は原文データ462の後半部分に偏っている。
このように抽出された特徴語を含む第1言語単文データが複数あり、原文データにおける複数の第1言語単文データとの一致部分の一致部分が所定の分布条件を満たす場合(例えば一致した特徴語を含む例文の守備範囲が異なる場合)には、図11(E)に示すように、複数の第1言語単文データを翻訳対象とする。
そして図11(F)に示すように、翻訳対象として選択され複数の第1言語単文データには含まれないが原文データには含まれている語句である「名古屋」を補足語として、第2の対訳データ記憶部を検索して、補足語「名古屋」に対応した第1言語語句データと対訳関係を有する第2言語語句データ「Nagoya」462を読み出す。
そして図11(G)に示すように、翻訳対象として選択されたS5−2の第1言語単文データと対訳関係を有する第2言語単文データ466と、S6−2の第1言語単文データと対訳関係を有する第2言語単文データ468と、読み出した第2言語語句データ470を接続して訳文データとして出力する。
図12〜図15は、関連する単語グループを用いた処理例について説明する図である。
第1の対訳データ記憶部には、図12(A)に示すようにS7−1の第1言語単文データが記憶されている。また図12(B)に示すように関連語句記憶部には、代表語句として「葉書」が記憶され、代表語句に関連づけて第1言語で表現された関連語句として、「葉書」の代替語である「はがき」、「ポストカード」や「葉書」の類似語である「 絵はがき」、「絵葉書」、「往復はがき」、「航空書簡」、…等が記憶されている。
図13は関連する単語グループを用いた処理の流れをしめすフローチャート図である。
入力された原文データに前記関連語句が含むか否か判断し、否か判断し、含むと判断した場合には、以下の処理を行ってもよい(ステップS10)。
次に当該関連語句に対応付けられている代表語句を前記関連語句記憶部から読み出し、原文データの関連語句の部分を読み出した代表語句で置換して、置換後の原文データに基づいて、前記第1の対訳データ記憶部から翻訳対象となる第1言語単文データを選択する(ステップS20)。
次に翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出す(ステップS30)。
次に関連語句に対応した第1言語語句データと対訳関係を有する第2言語語句データを前記第2の対訳データ記憶部から読み出す(ステップS40)。
次に読み出した第2言語単文データに、読み出した第2言語語句データを添付して、訳文データとして出力する(ステップS50)。
図14は原文データに含まれた関連語句が代替語である場合について説明するための図である。
例えば「はがきはいくらですか」という原文データが入力されると、図14(A)に示すように、原文データが5つの語句に分割される。そして関連語句記憶部(図14(B)参照)を検索して、図14(B)に示すように「はがき」を関連語句(代替語)にもつ代表語句「葉書」470を抽出する。そして図14(C)に示すように関連語句を代表語句に置き換えた特徴語を検索キーとして第1の対訳データ記憶部を検索すると、図14(D)に示すように識別IDS7−1の第1の言語単文データが抽出される。
原文データに含まれた関連語句が代替語である場合には、図14(E)に示すように置換後の原文データに基づいて選択した第1言語単文データと対訳関係を有する第2言語単文データを対訳データとして出力してもよい。
図15は原文データに含まれた関連語句が類似語である場合について説明するための図である。
例えば「絵はがきはいくらですか」という原文データが入力されると、図15(A)に示すように、原文データが5つの語句に分割される。そして関連語句記憶部(図12(B)参照)を検索して、図15(B)に示すように「絵はがき」を関連語句(類似語)にもつ代表語句「葉書」470を抽出する。そして図15(C)に示すように関連語句を代表語句に置き換えた特徴語を検索キーとして第1の対訳データ記憶部を検索すると、図15(D)に示すように識別IDS7−1の第1の言語単文データが抽出される。
原文データに含まれた関連語句が類似である場合には、関連語句に対応した第1言語語句データと対訳関係を有する第2言語語句データを前記第2の対訳データ記憶部から読み出し、読み出した第2言語単文データに、読み出した第2言語語句データを添付して、訳文データとして出力してもよい。
例えば図15(E)に示すように関連語句「絵はがき」の訳である第2言語語句データ「picture postcard」472が読みだされる。そして図15(F)に示すように、読み出した第2言語単文データ「How much is a postcard?」474に、読み出した第2言語語句データ「picture postcard」472を添付した訳文データが出力される。
図16に、本実施の形態の翻訳システム1を適用可能な電子機器の一例である携帯電話1000を示す。携帯電話1000は、押しボタン及びマイクで実現された入力部1010を含む。携帯電話1000は、押しボタンで実現された操作部1080を含む。携帯電話1000は、表示パネルで実現された表示部1062や、スピーカで実現された音声出力部1064を含む。
ユーザは入力部からテキスト入力により原文データを入力してもよい。また携帯電話1000が音声認識手段を有している場合には、原文に対応した音声をマイクにより入力し、音声認識手段で原文データを生成してもよい。
携帯電話1000は図示しない記憶部(内蔵ROM等)を有し、記憶部を第1の対訳データ記憶部、第2の対訳データ記憶部、関連語句情報記憶部として機能させてもよい。
また携帯電話1000は図示しないCPU(各種プロセッサ等)を有し、CPUを翻訳処理部として機能させてもよい。
4.対訳データベースの製造方法、
本実施の形態に係る対訳データベースの製造方は第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された対訳データベースの製造方法であって、対訳関係を有する前記第1言語単文データと前記第2言語単文データとを関連した管理IDに対応付けて記憶させる。
また第3言語で表現された複数の第3言語単文データを含み、対訳関係を有する前記第1言語単文データ、前記第2言語単文データ、前記第3言語単文データとを関連した管理IDに対応付けて記憶させてもよい。
さらに第n(nは4以上の自然数)言語で表現された複数の第n言語単文データを含み、対訳関係を有する前記第1言語単文データ、前記第2言語単文データ、前記第3言語単文データ、・・・、前記第n言語単文データとを関連した管理IDに対応付けて記憶させてもよい。
このように構成された対訳データベースを用いることにより、翻訳プログラム(又はシステム)は対訳関係を有する多言語を管理IDで管理可能になり、ブリッジ言語を介することなくダイレクトに翻訳を行うことが可能な翻訳プログラム(又はシステム)の実現が容易になる。
また意味内容が同じで表現形式が異なる複数の第1言語単文データ及び意味内容が同じで表現形式が異なる複数の第1言語単文データをグループ化して記憶させ、対訳関係を有する前記第1言語単文データのグループと前記第2言語単文データのグループとをグループ単位で、関連した管理IDで管理してもよい。
また前記グループに属するいずれかの第1言語単文データ及び第2言語単文データの少なくとも一方に代表データの指定を行ってもよい。
5.キーワード情報に基づく翻訳対象選択処理
図17(A)(B)は、図18(A)(B)はキーワード情報に基づく翻訳対象選択処理について説明するための図である。ここでは第1言語が日本語、第2言語が英語である場合を例にとり説明する。
図17(A)における入力文は「ワインはどこで売っていますか」であり、これが原文データ500となる。「婦人服はどこで売っていますか」510、「売り場はどこですか」520、「売っているんですか」530、「どこにありますか」540は、第1の対訳データ記憶部に記憶されている第1言語単文データである。511、521、531、541は、第1の対訳データ記憶部に記憶されている第1言語単文データ510、520、530、540と対訳関係を有する第2言語単文データである。
第1の対訳データ記憶部に記憶されている第1言語単文データには、前記第1言語単文データを構成する少なくとも1つの語句を特定するためのキーワード情報550が指定されていてもよい。そしてキーワード情報550によって特定される語句についてレベル(必須552、優先554、一般556)が設定されていてもよい。
560は翻訳対象選択処理における各種判定結果を示すものである。判定/キーワード含有率561は、キーワード判定及びキーワード含有率を示している。キーワード判定とは、所定のキーワード(例えば必須レベルのキーワード)を含むか否かに基づく判定であり、キーワード含有率とは、第1の単文データに含まれるキーワードを原文データが含む割合である。文字数562(文全体563,一致数564)は、原文データと第1の単文データの文字単位で比較した場合の一致度を示すもので、原文データと第1の単文データの文全体の文字数と一致する文字の文字数を示している。類似度スコアは例えば図8(A)で説明した手法により求めても良い。採否566は、最終的に翻訳対象として選択されたか否かの結果を示している。
(a1)は原文データ500と第1言語単文データ「婦人服はどこで売っていますか」510の比較結果を示している。510については、「婦人服」512、「売っ」514、「どこ」516がキーワードとして指定されており、「婦人服」512及び「売っ」514には必須レベルが、「どこ」516には一般レベルが設定されている。
原文データ「ワインはどこで売っていますか」500は、「婦人服」512というキーワードを含んでおらず(513参照)、「売っ」514、「どこ」516を含んでいる(515、517参照)。このような場合、原文データ500は第1言語単文データ510の必須レベルのキーワード「婦人服」512を含んでいないため、判定は×となり選択対象から外される(518参照)。
(a2)は原文データ500と第1言語単文データ「売り場はどこですか」520の比較結果を示している。520については、「売り場」522、「どこ」524がキーワードとして指定されており、「売り場」522には優先レベルが、「どこ」524には一般レベルが設定されている。
原文データ「ワインはどこで売っていますか」500は、「売り場」522というキーワードを含んでおらず(523参照)、「どこ」524を含んでいる(525参照)。このような場合、原文データ500は第1言語単文データ520のキーワード2つのうち1個を含んでいるためキーワード含有率は1/2で、優先レベルのキーワード「売り場」522を含んでいないので判定561を△とする(526参照)。
ここで527は原文データ500と第1の単文データ520を文字単位で比較した場合の原文データ500における一致する文字の位置を示しており、528は第1の単文データ520における一致する文字の位置を示している。原文データ500の文字数は14個であり、第1の単文データ520の文字数は9個であり、一致文字数は7個である。529はこれらに基づき算定された原文データ500と第1の単文データ520の類似度スコアである。
(a3)は原文データ500と第1言語単文データ「売っているんですか」530の比較結果を示している。530については、「売っ」532、「か」534がキーワードとして指定されており、「売っ」532及び「か」534には一般レベルが設定されている。
原文データ「ワインはどこで売っていますか」500は、「売っ」532及び「か」534の両方のキーワードを含んでいる(533、535参照)。このような場合、原文データ500は第1言語単文データ530のキーワード2つの全部を含んでいるため、キーワード含有率は2/2で、判定561は○とする(536参照)。
ここで537は原文データ500と第1の単文データ530を文字単位で比較した場合の原文データ500における一致する文字の位置を示しており、538は第1の単文データ530における一致する文字の位置を示している。原文データ500の文字数は14個であり、第1の単文データ530の文字数は9個であり、一致文字数は7個である。539はこれらに基づき算定された原文データ500と第1の単文データ530の類似度スコアである。
(a4)は原文データ500と第1言語単文データ「どこにありますかね」540の比較結果を示している。540については、「どこ」542、「か」544がキーワードとして指定されており、「どこ」542及び「か」544には一般レベルが設定されている。
原文データ「ワインはどこで売っていますか」500は、「どこ」542及び「か」544の両方のキーワードを含んでいる(543、545参照)。このような場合、原文データ500は第1言語単文データ540のキーワード2つの全部を含んでいるためキーワード含有率は2/2で、判定561は○とする(546参照)。
ここで547は原文データ500と第1の単文データ540を文字単位で比較した場合の原文データ500における一致する文字の位置を示しており、548は第1の単文データ540における一致する文字の位置を示している。原文データ500の文字数は14個であり、第1の単文データ530の文字数は9個であり、一致文字数は5個である。549はこれらに基づき算定された原文データ500と第1の単文データ540の類似度スコアである。
これらの比較結果に基づき、以下のように選択対象を決定してもよい。例えば第1言語単文データ「婦人服はどこで売っていますか」510は必須キーワードが原文データ500に含まれていないので、選択対象から除外する。また第1言語単文データ「売り場はどこですか」520はキーワードの含有率526が他に比べて低いので除外する。第1言語単文データ「売っているんですか」530と第1言語単文データ「どこにありますかね」540はキーワード含有率536,546は同じであるので、類似度スコア539.549の高いほうである第1言語単文データ「売っているんですか」530を翻訳対象として決定する。
第1言語単文データ「売っているんですか」530が翻訳対象として決定された場合、翻訳対象として選択された第1言語単文データ530には含まれないが原文データ500には含まれている語句である補足語「ワイン」574を検出して、前記第2の対訳データ記憶部から補足語に対応した第1言語語句データと対訳関係を有する第2言語語句データ「Wine」574を読み出す。そして、図17(B)に示すように、翻訳対象として選択された第1言語単文データ530と対訳関係を有する第2言語単文データ531を読み出した第2言語語句データ574を添付して、前記訳文データとして出力する。ここで570はシステムが訳出しようとしている内容を入力言語で表示したシステムの解釈表示であり、576は、正しそうか否かを直感的に把握するための評価表示である。
図18(A)における入力文は「ワイン売り場はどこですか」であり、これが原文データ600となる。「婦人服はどこで売っていますか」610、「売り場はどこですか」620、「売っているんですか」630、「どこにありますか」640は、第1の対訳データ記憶部に記憶されている第1言語単文データである。611、621、631、641は、第1の対訳データ記憶部に記憶されている第1言語単文データ610、620、630、640と対訳関係を有する第2言語単文データである。
(b1)は原文データ600と第1言語単文データ「婦人服はどこで売っていますか」610の比較結果を示している。610については、「婦人服」612、「売っ」614、「どこ」616がキーワードとして指定されており、「婦人服」612及び「売っ」614には必須レベルが、「どこ」616には一般レベルが設定されている。
原文データ「ワイン売り場はどこにありますか」600は、「婦人服」612及び「売っ」614というキーワードを含んでおらず(613参照)、「どこ」616を含んでいる(615、617参照)。このような場合、原文データ600は第1言語単文データ610の必須レベルのキーワード「婦人服」612及び「売っ」614を含んでいないため、で判定は×となり(618参照)、選択対象から外される。
(b2)は原文データ600と第1言語単文データ「売り場はどこですか」620の比較結果を示している。620については、「売り場」622、「どこ」624がキーワードとして指定されており、「売り場」622には優先レベルが、「どこ」624には一般レベルが設定されている。
原文データ「ワイン売り場はどこにありますか」600は、「売り場」622及び「どこ」624というキーワードを含んでいる(623、625参照)。このような場合、原文データ500は第1言語単文データ520のキーワード2つのうち全部を含んでいるためキーワード含有率は2/2で、判定を○とする(626参照)。
ここで627は原文データ600と第1の単文データ620を文字単位で比較した場合の原文データ600における一致する文字の位置を示しており、628は第1の単文データ620における一致する文字の位置を示している。原文データ600の文字数は15個であり、第1の単文データ620の文字数は9個であり、一致文字数は8個である。629はこれらに基づき算定された原文データ600と第1の単文データ620の類似度スコアである。
(b3)は原文データ600と第1言語単文データ「売っているんですか」630の比較結果を示している。630については、「売っ」632、「か」634がキーワードとして指定されており、「売っ」632及び「か」634には一般レベルが設定されている。
原文データ「ワイン売り場はどこですか」600は、「売っ」632のキーワードを含んでいないが(633参照)、「か」634のキーワードを含んでいる(635参照)。このような場合、原文データ600は第1言語単文データ630のキーワード2つのうち1つを含んでいるためキーワード含有率は1/2で、含まれていないキーワード「売っ」632は一般レベルなので、判定を○とする(636参照)。
ここで637は原文データ600と第1の単文データ630を文字単位で比較した場合の原文データ600における一致する文字の位置を示しており、638は第1の単文データ630における一致する文字の位置を示している。原文データ600の文字数は15個であり、第1の単文データ630の文字数は9個であり、一致文字数は3個である。639はこれらに基づき算定された原文データ600と第1の単文データ630の類似度スコアである。
(b4)は原文データ600と第1言語単文データ「どこにありますかね」640の比較結果を示している。640については、「どこ」642、「か」644がキーワードとして指定されており、「どこ」642及び「か」644には一般レベルが設定されている。
原文データ「ワイン売り場はどこですか」600は、「どこ」642及び「か」644の両方のキーワードを含んでいる(643、645参照)。このような場合、原文データ600は第1言語単文データ640のキーワード2つの全部を含んでいるため、キーワード含有率は2/2で、判定を○とする(646参照)。
ここで647は原文データ600と第1の単文データ640を文字単位で比較した場合の原文データ600における一致する文字の位置を示しており、648は第1の単文データ640における一致する文字の位置を示している。原文データ600の文字数は15個であり、第1の単文データ630の文字数は9個であり、一致文字数は8個である。649はこれらに基づき算定された原文データ600と第1の単文データ640の類似度スコアである。
これらの比較結果に基づき、以下のように選択対象を決定してもよい。例えば第1言語単文データ「婦人服はどこで売っていますか」610は必須キーワードが原文データ600に含まれていないので、選択対象から除外する。また第1言語単文データ「売っているんですか」630はキーワードの含有率636が他に比べて低いので除外する。第1言語単文データ「売り場はどこですか」620と第1言語単文データ「どこにありますかね」640はキーワード含有率636、646は同じであるので、類似度スコア629、6549の高いほうである第1言語単文データ「売り場はどこですか」620を翻訳対象として決定する。
第1言語単文データ「売り場はどこですか」620が翻訳対象として決定された場合、翻訳対象として選択された第1言語単文データ620には含まれないが原文データ600には含まれている語句である補足語「ワイン」672を検出して、前記第2の対訳データ記憶部から補足語に対応した第1言語語句データと対訳関係を有する第2言語語句データ「Wine」674を読み出す。そして、図18(B)に示すように、翻訳対象として選択された第1言語単文データ620と対訳関係を有する第2言語単文データ621を読み出した第2言語語句データ674を添付して、前記訳文データとして出力する。ここで670はシステムが訳出しようとしている内容を入力言語で表示したシステムの解釈表示であり、676は、正しそうか否かを直感的に把握するための評価表示である。
図19は、本実施の形態のキーワード情報に基づく翻訳対象選択処理の流れの一例を示すフローチャートである。
まず原文データを受け取る(ステップS10)。次に第1の対訳データベースから原文データと比較する第1の言語単文データを順次取り出して(ステップS20)、以下の比較処理を行う。
取り出した第1の言語単文データは必須指定キーワードを含むか否か判断し(ステップS30)、含む場合にはステップS40にいき含まない場合にはステップS60にいく。
第1言語単文データの必須キーワードを有する場合、原文データが第1言語単文データの必須キーワードを含むかいなか判断し(ステップS40)、含まない場合にはステップS70にいく。第1言語単文データが必須キーワードを有しない場合や第1言語単文データが必須キーワードを有するが原文データに含まれる場合にはステップS50にいく。
第1の言語単文データに対する原文データのキーワード含有割合を求める(ステップS50)。
原文データと第1言語単文データとを比較して(文字や単語単位)、一致割合を求める
(ステップS60)。
原文データと比較する第1の言語単文データとの比較が終了するまでステップS20〜S70の処理を行い、比較が終了した場合にはステップS80にいく(ステップS70)。
第1言語単文データの必須指定キーワードが前記原文データに含まれていないと判断した第1言語単文データを選択対象から除外する(ステップS80)。
キーワード含有率が所定基準以下の第1言語単文データを選択対象から除外する。(ステップS90)。例えばキーワード含有率の値が所定値以下の場合に選択対象から除外してもよいし、所定のレベルのキーワード含有率が所定値以下の場合に選択対象から除外してもよい。また選択する際の優先順位を低くしても良い。
選択対象のなかで、原文データとの一致割合が最も高い第1言語単文データを翻訳対象として選択する。(ステップS100)。
個別的な例文を登録しやすくするためには、このようにキーワードを必須指定と任意指定に区分しておき、必須指定がすべて満たされたものから例文を選択することが有効である。個別的なキーワードを必須指定することで、誤選択を起こりにくくする事が出来る。
6.補足語がある場合の対訳出力処理
図20(A)(B)は、補足語がある場合の対訳出力処理について説明するための図である。ここでは第1言語が英語、第2言語が日本語である場合を例にとり説明する。
図20(A)の710は原文データである。720は原文データに対応して生成された翻訳対象文であり、原文データに基づき翻訳対象として選択された第1言語単文データ722と、翻訳対象として選択された第1言語単文データ720には含まれないが原文データ710には含まれている語句である補足語724からなる。
730は翻訳結果として出力される訳文データの一例である。732は、翻訳対象として選択された第1言語単文データ722と対訳関係を有する第2言語単文データであり、734は補足語724に対応した第1言語語句データと対訳関係を有する第2言語語句データである。
730’は翻訳結果として出力される訳文データの他の一例である。736は、読み出した第2言語語句データ724の前又は後(ここでは後ろ)添付する所定の第2言語語句データ(ここでは「お願いします」)である。
補足語に対応して読み出した第2言語語句データが所定の語句(例えば「早く」)であるか否か判断し、所定の語句(例えば「早く」)であると判断した場合には、730’に示すように、読み出した第2言語語句データの前又は後に所定の第2言語語句データ(例えば「お願いします」)を付加して、前記訳文データとして出力してもよい。
730のような表現だと強く命令したような印象を与える可能性があるが、730’のように「早く」734の後ろに「お願いします」736を添えて出力することで、丁寧な表現にすることが出来る。
各言語毎に、所定の第2言語語句データが付加される補足語と、補足語に対応して付加する所定の第2言語語句データを登録して置くようにしても良い。そして、補足語に対応して読み出した第2言語語句データに対して、付加する所定の第2言語語句データが登録されているか場合には、読み出した第2言語語句データに登録されている第2言語語句データを付加するようにしてもよい。
このようにすることで特定の文脈で不適切な表現になることを避ける事が出来る。
図20(B)の740は原文データである。750は原文データに対応して生成された翻訳対象文であり、原文データに基づき翻訳対象として選択された第1言語単文データ752と、翻訳対象として選択された第1言語単文データ750には含まれないが原文データ740には含まれている語句である補足語754からなる。
760は翻訳結果として出力される訳文データの一例である。762は、翻訳対象として選択された第1言語単文データ762と対訳関係を有する第2言語単文データであり、764は補足語754に対応した第1言語語句データと対訳関係を有する第2言語語句データである。
760’は翻訳結果として出力される訳文データの他の一例である。736は、読み出した第2言語語句データ724の前又は後(ここでは後ろ)添付する所定の第2言語語句データ(ここでは「です」)である。
第1言語語句データ及び前記第2言語語句データの少なくとも一方に関連づけて属性情報を設定しておき、属性情報に基づき、読み出した第2言語語句データ764(ここでは「パスポート」)または前記第2言語語句データと対訳関係にある前記第1言語語句データ754(ここでは「passport」)が所定の属性(例えば名詞)であるか否か判断し、所定の属性であると判断した場合には、読み出した第2言語語句データ4の前又は後(ここでは後ろ)に所定の第2言語語句データ(ここでは「です」)を付加して、前記訳文データとして出力してもよい。
760のような表現だとぞんざいな印象を与える可能性があるが、760’のように「パスポート」764の後ろに「です」766を添えて出力することで、丁寧な表現にすることが出来る。
このようにすることで特定の文脈で不適切な表現になることを避ける事が出来る。
図21は補足語処理の流れの一例を示すフローチャートである。
原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する(ステップS110)。
翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出す(ステップS120)。
翻訳対象として選択された第1言語単文データには含まれないが原文データには含まれている語句(補足語)があるか否か判断し(ステップS130)、ある場合には第2の対訳データ記憶部から補足語に対応した第1言語語句データと対訳関係を有する第2言語語句データを読み出し(ステップS140)、翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付し、読み出した第2言語語句データの前又は後に所定の第2言語語句データを添付して、前記訳文データとして出力する(ステップS150)。
また翻訳対象として選択された第1言語単文データには含まれないが原文データには含まれている語句(補足語)がない場合には、翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに、読み出した第2言語語句データを添付し、訳文データとして出力する(ステップS160)。
図22は、補足語処理の流れの具体例を示すフローチャートである。ここでは第2言語が日本語である場合を例にとり説明する。
読み出した第2言語語句データが所定の語句「早く」であるか否か判断し(ステップS210)、「早く」であると判断した場合には翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データとともに、「はやく」の後に「お願いします」を添付して、前記訳文データとして出力する(ステップS220)
読み出した第2言語語句データが所定の語句「早く」でない場合には、読み出した第2言語語句データまたは前記第2言語語句データと対訳関係にある前記第1言語語句データが所定の属性(例えば名詞)であるか否か判断し(ステップS230)、所定の属性(例えば名詞)であると判断した場合には、翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データとともに、所定の属性(例えば名詞)の第2言語語句データ後に「です」を添付して、前記訳文データとして出力する(ステップS240)
所定の属性(例えば名詞)でないと判断した場合には、翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データとともに、読み出した第2言語語句データを添付して、前記訳文データとして出力する(ステップS250)
図23は、補足語処理の流れの他の一例を示すフローチャートである。
選択された第1言語単文データに所定の語句が含まれているか否か判断し(ステップS310)、含まれている場合には、読み出した第2言語語句データの前又は後に所定の第2言語語句データを添付して、前記訳文データとして出力する(ステップS320)。
含まれていない場合には、翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データとともに、読み出した第2言語語句データを添付して、前記訳文データとして出力する(ステップS330)。
7.翻訳対象選候補の選択肢表示処理
図24は、翻訳対象選候補の選択肢表示について説明する図である。
原文データに基づいて複数の第1言語単文データを翻訳対象選択候補として抽出する際に、翻訳システムの表示部に抽出された翻訳対象選択候補を表示し、ユーザからの選択入力情報を受け付けるようにしてもよい。そして受け取った選択入力情報に基づき、第1言語単文データを選択してもよい。
例えば図17のように原文データが「ワインはどこに売っていますか」の場合、翻訳対象選択候補として520、530、540を抽出して、抽出した翻訳対象選択候補520、530、540を図24に示すように表示部に表示してもよい。例えばユーザが所望の翻訳対象候補をカーソル等で指定することで、選択入力を行うようにしてもよい。
8.翻訳対象の選択肢(第1の言語単文)を提示して、ユーザからの選択を受け付ける。一致レベルも表示してもよい。またある確率以上の一致レベルを示す例文を提示してもよい。
なお翻訳対象選択候補とともに、各翻訳対象選択候補の類似度(例えば図17の類似度スコア565や、判定/キーワード含有率561等)を表示してもよい。
また類似度が所定の基準を満たすものを前記翻訳対象選択候補として湧出してもよい。また例えば一致レベル(例えば図17の原文データと第1の単文データを文字単位で比較した場合の原文データにおける一致する文字の位置527や第1の単文データにおける一致する文字の位置528)表示してもよい。またある確率以上の一致レベルを示す例文を提示してもよい。
このように翻訳対象選候補の選択肢を示すことにより、伝達内容が許容範囲かどうかをユーザが確認可能にすることが出来、ユーザの意思を反映した翻訳対象を選択することが出来る。
9.多言語音声又はテキストによるガイダンス処理
図25(A)(B)は、多言語音声ガイダンスについて説明するための図である。
例えば呼びかけデータが所定の言語で表現された所定の呼びかけ文の音声データである場合には、前記呼びかけデータ記憶部は、各言語毎に用意された所定の呼びかけ文の音声データを記憶し、呼びかけデータ出力部は、操作入力情報に基づきいずれかの言語の呼びかけ文の音声データを選択してスピーカ等から再生出力してもよい。
また例えば呼びかけデータが所定の言語で表現された所定の呼びかけ文のテキストデータである場合には、前記呼びかけデータ記憶部は、各言語毎に用意された所定の呼びかけ文のテキストデータを記憶し、呼びかけデータ出力部は、操作入力情報に基づきいずれかの言語に呼びかけ文のテキストデータを選択して表示部等に表示してもよい。
すなわち各言語毎に所定の呼びかけ文の音声データ又はテキストデータを記憶させておき、ユーザからの操作入力等に基づき、所定の言語の呼びかけ文の音声データ又はテキストデータを再生するようにしてもよい。
図25(A)は、日本語と英語についての呼びかけ文の例である。呼びかけ文の内容はユーザが所定の言語への翻訳を行う際に、対応してくれそうな人に呼びかける内容であればよい。ユーザが所定の言語への翻訳を行う際に操作部から呼びかけ文再生の指示を行うことで、呼びかけ文の音声データが再生されるようにすることで、対応してくれそうな人を探すことが出来る。
複数の言語について呼びかけ文を用意している場合には、どの言語で呼びかけ文が再生するかについてユーザが選択入力するようにしても良いし、翻訳システムの現在の設定(現在第2言語に設定されている言語)に基づき対応する言語の呼びかけ文が自動選択されるようにしてもよい。
図25(B)は、日本語と英語についての呼びかけ文の他の例である。このように呼びかけ文は単に人に呼びかけるだけでなく、翻訳システムの説明等を含む内容でもよい。
また呼びかけ文の音声又はテキストによるガイダンスと共に注意を喚起するための音や光等を発する構成を設けても良い。
10.翻訳システムの製造方法
図26は翻訳システムの製造方法について説明するためのフローチャート図である。
第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶され、第1言語単文データ及び第2言語単文データの少なくとも一方に関連づけて、利用場面に関するデータ利用場面情報が設定された対訳データベースを作成する(ステップS410)。ここで対訳データベースには、用意可能な最大の対訳データ(例えばすべてのデータ利用場面に対応した対訳データ)が格納されており、個々に翻訳システムの第1の対訳データ記憶部には、対訳データベースの一部(又は全部でもよい)の対訳データが格納される事になる。データ利用場面情報とは、図5の220で説明した情報である。
次に翻訳システムの利用場面に関するシステム利用場面情報を受け取る(ステップS420)。ユーザが自己のニーズに合わせて必要な利用場面を特定して申告したものがシステム利用場面情報となる。
システム利用場面情報とデータ利用場面情報とに基づいて対訳データベースから対訳データを抽出する(ステップS430)。
次に抽出した対訳データに基づき翻訳システムの第1の対訳データ記憶部を製造する(ステップS440)。
例えばユーザが「ホテル」「乗り物」「買い物」を必要な利用場面として」申告すると、これらに対応したデータ利用場面情報が設定された対訳データが抽出して、ユーザの翻訳システムの第1の対訳データ記憶部に格納される事になる
このようにシステム利用場面情報としてユーザが必要なものを指定することで、ユーザにとって必要十分な対訳データが記憶された第1の対訳データ記憶部を有する翻訳システム(翻訳装置)を製造することが出来る。
また対訳データベースにおいて利用場面に関するデータ利用場面情報が設定されているため、システム利用場面情報対応するデータ利用場面情報が設定されている対訳データを抽出するだけでよいので、カスタマイズが容易である。
本発明は、上述の実施の形態に限定されるものではなく、種々の変形が可能である。本発明は、実施の形態で説明した構成と実質的に同一の構成(例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成)を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。
本実施の形態の翻訳システムの機能ブロック図である。 本実施の形態の構成を示す図である。 第1の対訳データ記憶部に記憶される単文の一例を示す図。 第1言語単文及び第2言語単文のグループ化について説明するための図。 第1の対訳データ記憶部に記憶されている第1の言語単文データに関する情報について説明するための図。 本実施の形態の翻訳処理の具体例について説明するための図。 本実施の形態の翻訳処理の具体例について説明するための図。 本実施の形態の翻訳処理の具体例について説明するための図。 本実施の形態の翻訳処理の具体例について説明するための図。 本実施の形態の翻訳処理の具体例について説明するための図。 本実施の形態の翻訳処理の具体例について説明するための図。 本実施の形態の翻訳処理の具体例について説明するための図。 本実施の形態の翻訳処理の具体例について説明するための図。 本実施の形態の翻訳処理の具体例について説明するための図。 本実施の形態の翻訳処理の具体例について説明するための図。 本実施の形態の翻訳システムを適用可能な電子機器の一例である携帯電話を示す図。 図17(A)(B)は、キーワード情報に基づく翻訳対象選択処理について説明するための図。 図18(A)(B)は、キーワード情報に基づく翻訳対象選択処理について説明するための図。 キーワード情報に基づく翻訳対象選択処理の流れの一例を示すフローチャート。 図20(A)(B)は、補足語がある場合の対訳出力処理について説明するための図。 補足語処理の流れの一例を示すフローチャート。 補足語処理の流れの具体例を示すフローチャート。 補足語処理の流れの他の一例を示すフローチャート。 翻訳対象選候補の選択肢表示について説明する図。 図25(A)(B)は、多言語音声ガイダンスについて説明するための図。 翻訳システムの製造方法について説明するためのフローチャート図。
符号の説明
1 翻訳システム、10 翻訳システム、12 原文入力部、14 各種設定情報入力部、30 記憶部、32 第1の対訳データ記憶部、34 第2の対訳データ記憶部、36 関連国情報記憶部、40 翻訳処理部、42 特徴語抽出部、44 翻訳対象選択部、46 補足語抽出処理部、48 対訳出力処理部、60 出力装置、62 表示部、64 音声出力部、80 操作部、100 処理部

Claims (9)

  1. 第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された第1の対訳データ記憶部と、
    前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、してコンピュータを機能させ、
    前記翻訳処理部は、
    前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
    翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
    第1の対訳データ記憶部は、
    少なくとも1つの前記第1言語単文データを構成する少なくとも1つの語句を特定するためのキーワード情報を記憶し、
    前記キーワード情報は、必須キーワード情報を含み、
    前記翻訳対象選択処理部は、
    前記キーワード情報に基づき前記原文データと前記第1言語単文データとを比較して、比較結果に基づき前記第1の対訳データ記憶部からいずれかの第1言語単文データを翻訳対象として選択するよう構成され、
    前記原文データと前記第1言語単文データとを比較する際に、前記第1言語単文データの前記必須キーワード情報に基づき特定される語句が前記原文データに含まれているか否か判断し、否と判断した場合には、前記第1言語単文データを選択対象から除外し、
    前記原文データと選択対象から除外しなかった前記第1言語単文データとを比較して、前記第1言語単文データの前記キーワード情報に基づき特定される語句を前記原文データが含む割合であるキーワード含有率と、前記原文データと前記第1言語単文データとの一致
    度合を示す類似度を演算し、前期キーワード含有率及び前記類似度に基づき翻訳対象として選択する第1言語単文データを決定することを特徴とする翻訳プログラム。
  2. 請求項1において、
    第1の対訳データ記憶部は、
    前記第1言語単文データの前記キーワード情報によって特定される語句についてレベルが設定され、
    前記翻訳対象選択処理部は、
    前記原文データと前記第1言語単文データとを比較して、前記第1言語単文データの前記キーワード情報に基づき特定される語句については設定されたレベルに応じて異なる重み付けを行い類似度を演算し、演算された類似度に基づき前記第1の対訳データ記憶部からいずれかの第1言語単文データを翻訳対象として選択することを特徴とする翻訳プログラム。
  3. 請求項1又は2において、
    第1言語で表現された複数の第1言語語句データと、第2言語で表現された複数の第2言語語句データとを含み、対訳関係を有する前記第1言語語句データと前記第2言語語句データとが関連付けられて記憶された第2の対訳データ記憶部と、してさらにコンピュータを機能させ、
    前記翻訳処理部は、
    翻訳対象として選択された第1言語単文データには含まれないが原文データには含まれている語句である補足語を検出して、前記第2の対訳データ記憶部から補足語に対応した第1言語語句データと対訳関係を有する第2言語語句データを読み出す補足語抽出処理部を含み、
    前記対訳出力処理部は、
    翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データに読み出した第2言語語句データを添付し、読み出した第2言語語句データの前又は後に所定の第2言語語句データを添付して、前記訳文データとして出力することを特徴とする翻訳プログラム。
  4. 請求項3において、
    前記対訳出力処理部は、
    読み出した第2言語語句データが所定の語句であるか否か判断し、所定の語句であると判断した場合には、読み出した第2言語語句データの前又は後に所定の第2言語語句データを添付して、前記訳文データとして出力することを特徴とする翻訳プログラム。
  5. 請求項3又は4のいずれかにおいて、
    前記第2の対訳データ記憶部は、
    前記第1言語語句データ及び前記第2言語語句データの少なくとも一方に関連づけて記憶された属性情報を含み、
    前記対訳出力処理部は、
    前記属性情報に基づき、読み出した第2言語語句データまたは前記第2言語語句データと対訳関係にある前記第1言語語句データが所定の属性であるか否か判断し、所定の属性であると判断した場合には、読み出した第2言語語句データの前又は後に所定の第2言語語句データを添付して、前記訳文データとして出力することを特徴とする翻訳プログラム。
  6. 請求項3において、
    前記対訳出力処理部は、
    選択された第1言語単文データに所定の語句が含まれているか否か判断し、所定の語句
    が含まれていると判断した場合には、読み出した第2言語語句データの前又は後に所定の第2言語語句データを添付して、前記訳文データとして出力することを特徴とする翻訳プログラム。
  7. 請求項1乃至6のいずれかにおいて、
    ガイダンス用に予め用意した呼びかけ文に対応付けて、所定の言語で表現された音声又はテキストによる呼びかけデータを記憶する呼びかけデータ記憶部と、
    操作入力情報により指定された呼びかけ文に対応づけて記憶された音声又はテキストによる呼びかけデータを、呼びかけデータ記憶部から読み出して出力を行う呼びかけデータ出力部と、を含むことを特徴とする翻訳プログラム。
  8. 請求項1乃至7のいずれかにおいて、
    前記翻訳対象選択処理部は、
    前記原文データに基づいて複数の第1言語単文データを翻訳対象選択候補として抽出し、抽出された翻訳対象選択候補を出力し、
    受け取った選択入力情報に基づき、第1言語単文データを選択することを特徴とする翻訳プログラム。
  9. 第1言語で表現された複数の第1言語単文データと、第2言語で表現された複数の第2言語単文データとを含み、対訳関係を有する前記第1言語単文データと前記第2言語単文データとが関連付けられて記憶された第1の対訳データ記憶部と、
    前記第1言語で表現された原文データを受け取り、前記原文データの訳文データを出力する翻訳処理部と、を含み、
    前記翻訳処理部は、
    前記原文データに基づいて前記第1の対訳データ記憶部に記憶されたいずれかの第1言語単文データを翻訳対象として選択する翻訳対象選択処理部と、
    翻訳対象として選択された第1言語単文データと対訳関係を有する第2言語単文データを前記第1の対訳データ記憶部から読み出して、読み出した第2言語単文データに基づき前記訳文データを出力する対訳出力処理部と、を含み、
    第1の対訳データ記憶部は、
    少なくとも1つの前記第1言語単文データを構成する少なくとも1つの語句を特定するためのキーワード情報を記憶し、
    前記キーワード情報は、必須キーワード情報を含み、
    前記翻訳対象選択処理部は、
    前記キーワード情報に基づき前記原文データと前記第1言語単文データとを比較して、比較結果に基づき前記第1の対訳データ記憶部からいずれかの第1言語単文データを翻訳対象として選択するよう構成され、
    前記原文データと前記第1言語単文データとを比較する際に、前記第1言語単文データの前記必須キーワード情報に基づき特定される語句が前記原文データに含まれているか否か判断し、否と判断した場合には、前記第1言語単文データを選択対象から除外し、
    前記原文データと選択対象から除外しなかった前記第1言語単文データとを比較して、前記第1言語単文データの前記キーワード情報に基づき特定される語句を前記原文データが含む割合であるキーワード含有率と、前記原文データと前記第1言語単文データとの一致度合を示す類似度を演算し、前期キーワード含有率及び前記類似度に基づき翻訳対象として選択する第1言語単文データを決定することを特徴とする翻訳システム。
JP2008231441A 2008-09-09 2008-09-09 翻訳プログラム、翻訳システム、翻訳システムの製造方法及び対訳データ生成方法 Expired - Fee Related JP5398202B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008231441A JP5398202B2 (ja) 2008-09-09 2008-09-09 翻訳プログラム、翻訳システム、翻訳システムの製造方法及び対訳データ生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008231441A JP5398202B2 (ja) 2008-09-09 2008-09-09 翻訳プログラム、翻訳システム、翻訳システムの製造方法及び対訳データ生成方法

Publications (2)

Publication Number Publication Date
JP2010066926A JP2010066926A (ja) 2010-03-25
JP5398202B2 true JP5398202B2 (ja) 2014-01-29

Family

ID=42192472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008231441A Expired - Fee Related JP5398202B2 (ja) 2008-09-09 2008-09-09 翻訳プログラム、翻訳システム、翻訳システムの製造方法及び対訳データ生成方法

Country Status (1)

Country Link
JP (1) JP5398202B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6687944B2 (ja) * 2016-08-02 2020-04-28 国立研究開発法人情報通信研究機構 自動翻訳システム、自動翻訳方法、およびプログラム
JP6709963B2 (ja) * 2016-09-09 2020-06-17 パナソニックIpマネジメント株式会社 翻訳装置及び翻訳方法
CN110543641B (zh) * 2019-08-14 2023-05-26 交控科技股份有限公司 一种中外文信息对比方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3385146B2 (ja) * 1995-06-13 2003-03-10 シャープ株式会社 会話文翻訳装置

Also Published As

Publication number Publication date
JP2010066926A (ja) 2010-03-25

Similar Documents

Publication Publication Date Title
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
US7925506B2 (en) Speech recognition accuracy via concept to keyword mapping
EP2306451B1 (en) Speech recognition
US8719027B2 (en) Name synthesis
JP2002024212A (ja) 音声対話システム
JPS59144978A (ja) ポ−タブル翻訳装置
JP5620349B2 (ja) 対話装置、対話方法および対話プログラム
US7136803B2 (en) Japanese virtual dictionary
US20240176957A1 (en) Systems and methods for inserting dialogue into a query response
US6985147B2 (en) Information access method, system and storage medium
JP5398202B2 (ja) 翻訳プログラム、翻訳システム、翻訳システムの製造方法及び対訳データ生成方法
JP5302614B2 (ja) 施設関連情報の検索データベース形成方法および施設関連情報検索システム
US20110022378A1 (en) Translation system using phonetic symbol input and method and interface thereof
JP2006030326A (ja) 音声合成装置
US20230004720A1 (en) Logos Communication Platform
CA2483805C (en) System and methods for improving accuracy of speech recognition
JP5204529B2 (ja) 翻訳プログラム、翻訳システム及び対訳データ生成方法
JP2001060194A (ja) 企画支援装置、企画支援方法および企画支援プログラムを格納したコンピュータ読取り可能な記録媒体
JP2008305291A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2019194759A (ja) 対話システム補強装置及びコンピュータプログラム
JP3734101B2 (ja) ハイパーメディア構築支援装置
JP6934621B2 (ja) 方法、装置、及びプログラム
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JPH1055360A (ja) 住所録処理装置及び住所録処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130227

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131022

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees