JP4031921B2

JP4031921B2 - 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム

Info

Publication number: JP4031921B2
Application number: JP2001296556A
Authority: JP
Inventors: 裕美子吉村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2001-09-27
Filing date: 2001-09-27
Publication date: 2008-01-09
Anticipated expiration: 2021-09-27
Also published as: JP2003108553A

Description

【０００１】
【発明の属する技術分野】
本発明は、電子メール送受信ツール、Ｗｅｂブラウザ等において第１言語と第２言語との間の翻訳を行うものに好適な機械翻訳装置、機械翻訳方法及び機械翻訳プログラムに関する。
【０００２】
【従来の技術】
近年、パソコンの普及率は高く、インターネット環境が整備されるに伴って、電子メールやＷｅｂ（world wide web）サイトを利用した海外との情報のやり取りが盛んになってきた。海外との情報の授受の際には、言語の相違について考慮する必要がある。機械翻訳ソフトの翻訳精度も向上してきており、電子メールソフトやＷｅｂブラウザソフトから機械翻訳ソフトを呼び出して、翻訳処理を行うこともできるようになっている。また、Ｗｅｂ上で翻訳サービスを行うサイトも増加している。
【０００３】
ところで、翻訳精度を向上させるために、文脈情報を利用した翻訳方法が採用されることがある。この文書翻訳技術においては、文書全体を前もって解析して各種情報を抽出し、抽出した内容を翻訳に利用すると共に、文書の翻訳を進めながら翻訳した文の情報を後の文の翻訳に利用する手法が採用される。
【０００４】
ところが、電子メールの場合には、通常、１件の文章の長さが短く、個々の文も簡潔なスタイルのものが多いことから、メール全体から情報を得ようとしても適切に翻訳するための十分な情報を得ることは困難である。
【０００５】
また、最近、インターネット上では情報交換の場として、Ｗｅｂ上の掲示板システムが利用されることがある。この掲示板システムにおいて扱われる文書サイズも比較的小さく、共通の話題に対する一連のやり取りの中には、極めて短い記事も存在する。また、掲示板の構成として、関連した話題に対するやり取りをまとめて表示するスレッド表示でなく、個々の記事を時系列的に列挙するタイプのもの（以下、順次表示という）もある。このような順次表示タイプの場合には、１ページ内には複数の話題がランダムに夫々独立して記述され、個々の関連を有する記事の翻訳に適した情報だけを抽出することは極めて困難である。
【０００６】
【発明が解決しようとする課題】
このように、従来、電子メールやＷｅｂ掲示板等の電子情報の授受については、個々の文書内には翻訳処理に利用可能な情報が少ないことが多く、文脈情報を利用した翻訳方法を適用しても十分な翻訳精度を得ることができないという問題点があった。
【０００７】
本発明は、電子メールや電子掲示板等の電子情報のやり取りの特徴を利用して、翻訳対象の文書以外の関連を有する文書から翻訳処理に利用可能な情報を抽出することにより、翻訳精度を向上させることができる機械翻訳装置、機械翻訳方法及び機械翻訳プログラムを提供することを目的とする。
【０００８】
【課題を解決するための手段】
本発明の請求項１に係る機械翻訳装置は、複数の文書データが格納された文書データ保持手段にアクセスして、前記複数の文書データのうち原文データと関連を有する参照系列の文書データを参照文書情報として取得する関連文書情報取得手段と、前記関連文書情報取得手段が取得した参照文書情報から前記原文データの翻訳に利用可能で後記参照関係情報に含まれる翻訳環境情報を取得して翻訳環境保持手段に保持させる翻訳環境設定手段と、第１言語と第２言語との翻訳に必要な知識情報を有する辞書と前記翻訳環境保持手段に保持された翻訳環境情報とを利用して、前記原文データの翻訳を行う翻訳手段とを具備し、前記関連文書情報取得手段は、前記原文データを解析することによって、前記参照系列の文書データを相互に関連付けている参照関係情報を得、この参照関係情報を用いて前記参照文書情報を取得し、前記参照関係情報は、前記原文データが電子メールの送受信データである場合には、サブジェクト情報、送信者、あて先、Ｃｃ先及びメッセージＩＤの少なくとも１つであることを特徴とするものであり、
本発明の請求項２に係る機械翻訳装置は、複数の文書データが格納された文書データ保持手段にアクセスして、前記複数の文書データのうち原文データと関連を有する参照系列の文書データを参照文書情報として取得する関連文書情報取得手段と、前記関連文書情報取得手段が取得した参照文書情報に含まれ前記原文データの翻訳に利用可能で後記参照関係情報に含まれる翻訳環境情報を取得して翻訳環境保持手段に保持させる翻訳環境設定手段と、第１言語と第２言語との翻訳に必要な知識情報を有する辞書と前記翻訳環境保持手段に保持された翻訳環境情報とを利用して、前記原文データの翻訳を行う翻訳手段とを具備し、前記関連文書情報取得手段は、前記原文データを解析することによって、前記参照系列の文書データを相互に関連付けている参照関係情報を得、この参照関係情報を用いて前記参照文書情報を取得し、前記参照関係情報は、前記原文データがウェブ上の掲示板の掲載データである場合には、各メッセージの参照メッセージ番号、サブジェクト、投稿者並びに返信の元となったデータの所在及びファイル名の少なくとも１つであることを特徴とするものであり、
本発明の請求項１０に係る機械翻訳方法は、関連文書情報取得部、翻訳環境設定部及び翻訳部を備えたコンピュータによって、機械翻訳を行う機械翻訳方法であって、前記関連文書情報取得部が、複数の文書データが格納された文書データ保持手段にアクセスして、前記複数の文書データのうち原文データと関連を有する参照系列の文書データを参照文書情報として取得する関連文書情報取得処理と、前記翻訳環境設定部が、前記関連文書情報取得処理において取得した参照文書情報から前記原文データの翻訳に利用可能で後記参照関係情報に含まれる翻訳環境情報を取得して翻訳環境保持手段に保持させる翻訳環境設定処理と、前記翻訳部が、第１言語と第２言語との翻訳に必要な知識情報を有する辞書と前記翻訳環境保持手段に保持された翻訳環境情報とを利用して、前記原文データの翻訳を行う翻訳処理とを具備し、前記関連文書情報取得処理は、前記原文データを解析することによって、前記参照系列の文書データを相互に関連付けている参照関係情報を得、この参照関係情報を用いて前記参照文書情報を取得し、前記参照関係情報は、前記原文データが電子メールの送受信データである場合には、サブジェクト情報、送信者、あて先、Ｃｃ先及びメッセージＩＤの少なくとも１つであることを特徴とするものであり、
本発明の請求項１１に係る機械翻訳プログラムは、関連文書情報取得部、翻訳環境設定部及び翻訳部を備えたコンピュータによって、機械翻訳を行う機械翻訳プログラムであって、前記コンピュータに、前記関連文書情報取得部によって、複数の文書データが格納された文書データ保持手段にアクセスして、前記複数の文書データのうち原文データと関連を有する参照系列の文書データを参照文書情報として取得する関連文書情報取得処理と、前記翻訳環境設定部によって、前記関連文書情報取得処理において取得した参照文書情報から前記原文データの翻訳に利用可能で後記参照関係情報に含まれる翻訳環境情報を取得して翻訳環境保持手段に保持させる翻訳環境設定処理と、前記翻訳部によって、第１言語と第２言語との翻訳に必要な知識情報を有する辞書と前記翻訳環境保持手段に保持された翻訳環境情報とを利用して、前記原文データの翻訳を行う翻訳処理とを実行させるためのものであって、前記関連文書情報取得処理は、前記原文データを解析することによって、前記参照系列の文書データを相互に関連付けている参照関係情報を得、この参照関係情報を用いて前記参照文書情報を取得し、前記参照関係情報は、前記原文データが電子メールの送受信データである場合には、サブジェクト情報、送信者、あて先、Ｃｃ先及びメッセージＩＤの少なくとも１つであることを特徴とするものである。
【０００９】
本発明の請求項１において、文書データ保持手段は、複数の文書データを格納する。関連文書情報取得手段は、文書データ保持手段に格納されている複数の文書データのうち原文データと関連を有する参照系列の文書データを参照文書情報として取得する。これにより、参照文書情報は原文データに関連を有する参照系列の複数の文書データを含んでおり、原文データに翻訳精度を向上させるために必要な情報が少ない場合でも、参照文書情報には翻訳精度を向上させるために必要な情報が多く含まれる。翻訳環境設定手段は、取得された参照文書情報から原文データの翻訳に利用可能な翻訳環境情報を取得して翻訳環境保持手段に保持させる。辞書は第１言語と第２言語との翻訳に必要な知識情報を有する。翻訳手段は辞書と保持された翻訳環境情報とを利用して、原文データの翻訳を行う。
【００１０】
本発明の請求項１３において、文書データ保持手段に格納されている複数の文書データのうち原文データと関連を有する参照系列の文書データが参照文書情報として取得される。取得された参照文書情報から原文データの翻訳に利用可能な翻訳環境情報が取得されて、翻訳環境保持手段に保持される。原文データの翻訳処理時には、第１言語と第２言語との翻訳に必要な知識情報を有する辞書だけでなく、翻訳環境保持手段に保持された翻訳環境情報も利用され、これにより、翻訳精度が向上する。
【００１１】
本発明の請求項１４において、コンピュータに、複数の文書データが格納された文書データ保持手段にアクセスして、複数の文書データのうち原文データと関連を有する参照系列の文書データを参照文書情報として取得する関連文書情報取得処理と、関連文書情報取得処理において取得した参照文書情報から原文データの翻訳に利用可能な翻訳環境情報を取得して翻訳環境保持手段に保持させる翻訳環境設定処理と、第１言語と第２言語との翻訳に必要な知識情報を有する辞書と翻訳環境保持手段に保持された翻訳環境情報とを利用して、原文データの翻訳を行う翻訳処理とを実行させる。
【００１２】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は本発明の一実施の形態に係る機械翻訳装置を示すブロック図である。
【００１３】
本実施の形態は、複数の文書の中から、個々の文書に含まれる情報量が少ない複数の文書について、相互に関連を有する文書同士のチェーン（文書セット）を収集することで、チェーン内の各文書に含まれる情報を利用して翻訳を行うことにより、翻訳精度を向上させるようにしたものである。
【００１４】
本実施の形態においては、例えば、電子メールを介した電子情報の授受、又はＷｅｂサイトを利用した電子情報の授受に適用した例について説明する。
【００１５】
図１において、機械翻訳装置は、装置全体の制御を行う制御部２、外部との入力及び出力のインターフェースを行う入力部１及び出力部５、入力部１を介して入手された入力文書を翻訳するための翻訳部３、翻訳部３が翻訳時に用いる各種翻訳知識を収納した辞書部４、関連文書情報取得部６、翻訳環境設定部７及び翻訳環境記憶部８によって構成されている。
【００１６】
機械翻訳装置は、各種のアプリケーション１０によって起動される。図１の機械翻訳装置の各部の構成はプログラムによっても実現可能である。この場合には、機械翻訳装置は機械翻訳プログラムに相当し、各種アプリケーションは、機械翻訳プログラムを起動するアプリケーションプログラムに相当する。アプリケーションプログラムは、機械翻訳プログラムを内部に組込んでいてもよい。例えば、アプリケーションプログラムとしては、電子メール送受信プログラムや電子掲示板プログラム等があり、更に、単体ソフトウェアにかぎらず、Ｗｅｂブラウザ上で起動するプログラムでもよい。
【００１７】
文書データ記憶部９は、複数の文書データを記憶する。例えば、文書データ記憶部９は、電子メールソフトによって送受信された電子情報、Ｗｅｂアクセスによって送受信する電子情報等を記憶する。即ち、文書データ記憶部９は、アプリケーション１０がアクセス可能であればよく、例えば、インターネット上のハードディスク装置等によって構成されることもある。
【００１８】
アプリケーション１０は、図示しない所定の伝送路を介して送受信する文書データを文書データ記憶部９に記憶させると共に、文書データ記憶部９に記憶されている文書データを読み出して利用する。
【００１９】
なお、アプリケーション１０が電子メール送受信プログラムである場合には、処理する文書データを格納する文書データ記憶部９内の場所及び構造等の情報を、予め後述する関連文書情報取得部６に登録しておく。また、アプリケーション１０がＷｅｂ上の掲示板システムを利用するソフトウェア等である場合には、基本的にはそのページのソース情報から格納場所を取得することができるので、予め登録の必要はない。これにより、アプリケーション１０は、文書データ記憶部９内の各文書データに確実にアクセスすることができるようになっている。
【００２０】
本実施の形態においては、関連文書情報取得部６は、後述するように、制御部２に制御されて、翻訳対象から、各チェーンを構成する各文書を相互に関連付けている情報（参照関係情報）を取得するようになっている。更に、関連文書情報取得部６は、文書データ記憶部９にアクセスして、参照関係情報に基づいてチェーンを収集し、チェーン内の各文書データを参照文書情報として取得するようになっている。
【００２１】
関連文書情報取得部６は取得した参照文書情報を翻訳環境設定部７に供給する。翻訳環境設定部７は、後述するように、参照文書情報から翻訳処理に有用である情報（以下、翻訳環境情報という）を抽出し、抽出した翻訳環境情報を翻訳環境記憶部８に出力する。翻訳環境記憶部８は、翻訳環境設定部７が抽出取得した翻訳環境情報を記憶する。
【００２２】
入力部１はアプリケーション１０から送られた翻訳対象文書を制御部２に供給する。制御部２は、翻訳対象文書が入力されると、関連文書情報取得部６に対して参照文書情報取得処理を実行させる。
【００２３】
なお、アプリケーション１０から送られてくる情報は、文字コードからなる文書そのものでもよいし、文書名、格納場所情報だけでもよい。文書名及び格納場所情報のみが入力された場合でも、制御部２は、関連文書情報取得部６を介して文書データ記憶部９から文字データからなる原文情報そのものを取得させることができる。また、アプリケーション１０から文字コードからなる文書そのものが送られてくる場合でも、文字コードデータと共に元データの格納場所情報（又はファイル情報）をも受理する構成にしてもよいし、文字データに基づいて関連文書情報取得部６を介して元データ個所をサーチさせる構成にしてもよい。
【００２４】
関連文書情報取得部６は、参照文書情報取得処理を実行する場合には、以前に取得した情報を再度取得しないように、翻訳環境記憶部８内の情報を参照する。翻訳環境記憶部８は翻訳環境情報の記憶が終了すると終了信号を制御部２に返す。
【００２５】
制御部２は、翻訳環境設定処理（翻訳環境情報の記憶）が終了したことを示す信号を受け取ると、翻訳部３に翻訳対象文書を送り、翻訳処理を実行させる。翻訳部３は辞書部４に格納されている翻訳知識及び翻訳環境情報を用いて、第１の言語によって記述されている翻訳対象文書を第２言語の文章に変換して制御部２に出力する。制御部２は、翻訳部３からの翻訳結果を出力部５を介してアプリケーション１０に送出するようになっている。
【００２６】
辞書部４は、翻訳部３の翻訳処理に必要な翻訳知識を記憶している。例えば、翻訳部３が日英・英日双方向の翻訳処理を行うものとすると、辞書部４は夫々の翻訳方向毎に以下の構成を有しいてる。
【００２７】
4-1．基本辞書部
(a) 語彙部
第１言語の語彙の各々についての活用情報、意味情報、訳語情報等。
【００２８】
(b) 形態素解析規則
第１言語の入力文を形態素解析するための知識。
【００２９】
(c) 構文・意味解析規則
第１言語の入力文を形態素解析した後、構文的・意味的な解析を行うための知識。
【００３０】
(d) 変換規則
構文・意味解析された結果の第１言語の意味構造を第２言語の意味構造へ変換するための知識。
【００３１】
(e) 構文生成規則
第２言語の意味構造から第２言語の単語列を生成するための知識。
【００３２】
(f) 形態素生成規則
第２言語の語の活用を反映し、最終的な訳文を出力するための知識。
【００３３】
4-2. 専門用語辞書部
複数の分野別辞書が用意されており、入力文書の内容により翻訳時に用いる辞書を選択することが出来る。語彙部のみからなる。
【００３４】
4-3. ユーザ辞書部
ユーザ定義用の辞書。翻訳する文書に合わせてユーザが複数作成することができる。各々について(a)と(b)がある。
【００３５】
(a) 語彙部
ユーザが新規登録した用語についての活用情報、意味情報、訳語情報等。
【００３６】
(b) 訳語学習部
ある第１言語の語句に対してユーザが学習させた訳語の情報を格納する。
【００３７】
なお、辞書部４としては、原文のパターンと訳し方のパターンとを蓄積した翻訳パターン辞書を含む構成にすることも可能である。
【００３８】
次に、このように構成された実施の形態の作用について図２の説明図及び図３乃至図５のフローチャートを参照して説明する。図２は翻訳環境記憶部８内の情報の格納例を示している。
【００３９】
いま、アプリケーション１０が電子メール送受信プログラムであるものとし、第１言語を使用する１人以上のユーザと第２言語を使用する１人以上のユーザとが、所定の標題について複数回の電子情報のやり取りを行っているものとする。また、これらの電子情報（電子メールの送信データ及び受信データ）を記憶した文書データ記憶部９に対して、アプリケーション１０は、第１言語を使用するユーザ（以下、単にユーザという）の操作によってアクセスを行うことができるものとする。
【００４０】
アプリケーション１０は、ユーザによる第１言語の原文データを翻訳対象文書（翻訳原文）として入力部１から制御部２に供給する。例えば、アプリケーション１０が電子メール送受信プログラムである場合には、このプログラム内に翻訳処理の実行を呼び出すためのプログラムを埋め込むことによって、ユーザーはプログラム上の所定の操作によって、送信しようとする原文データの翻訳処理を実行させることが可能である。
【００４１】
制御部３は、入力部１を介して原文データが入力されると、関連文書情報取得部６を起動する。図３は制御部２にアプリケーション１０から原文データが入力されてから、訳文を出力するまでの処理の流れを示している。図３のステップＳ301 において、関連文書情報取得部６は、原文データに付属されている情報を解析して、参照関係情報を取得する。
【００４２】
いま、入力部１を介して入力された原文データは、翻訳対象文書自体と付属情報との組のデータによって構成されているものとする。付属情報は、メールのヘッダ情報や、サブジェクト情報、送信者、あて先、Ｃｃ先等の諸情報に相当する。この場合には、文書のチェーンを収集するために必要な参照関係情報としては、サブジェクト情報、送信者、あて先、Ｃｃ先及びメッセージＩＤ等が考えられる。これらの情報は、一定の形式で原文データ内に組込まれているので、例えば文字列のサーチによって容易に取得することができる。
【００４３】
また、電子メールの返信時には、前回用いた文を引用することが多く、また、引用文であることを示すタグが本文中に付加されることも多い。従って、関連文書情報取得部６は、引用文であることを示すタグ及び引用文の内容が一致するものについて参照系列の文書データであるものと判断することも可能である。
【００４４】
ステップＳ301 における解析及び情報の取得が終了すると、次に、関連文書情報取得部６は、ステップＳ302 において翻訳環境記憶部８を参照し、入力データ内の翻訳原文の翻訳に関して、すでに過去に参照文書を参照して翻訳環境として登録されているか否かを調べる。既に当該翻訳原文の識別情報がいずれかの区分のMessageＩＤの中に含まれていれば、処理をステップＳ303 からステップＳ306に移行して翻訳処理を実行する。
【００４５】
一方、当該翻訳原文の識別情報がいずれの区分のMessageＩＤ中にも含まれていなければ、この翻訳原文についての参照文書取得処理は行なわれていないので、処理をステップＳ304 に移行して、参照文書情報の取得処理を行う。
【００４６】
即ち、関連文書情報取得部６は、ステップＳ301 で取得した参照関係情報を元にして、入力された翻訳原文の作成時に参照された文書、および、当該翻訳原文が作成された後に当該翻訳原文を参照して作成された文書を文書データ記憶部９から取得する。この場合には、関連文書情報取得部６は、参照文書情報として取得した文書が更に参照した文書があれば、文書チェーン（参照系列）の出発点又は終点まで遡って文書を取得する。
【００４７】
なお、関連文書情報取得部６による参照文書情報の取得の仕方としては以下の方法が考えられる。
【００４８】
即ち、送信済みホルダー、受信フォルダー、その他保存用ホルダー内を、同一サブジェクト、および"Re:"、"RE:"等の付加されたサブジェクトの項目を時系列的にサーチし、取得する方法がある。また、プログラム内でメッセージＩＤが完備している場合には、このメッセージＩＤをキーにして参照系列を取得することができる。参照系列をたどり１つのメールを取得する毎に、翻訳環境記憶部８のいずれかの区分にあるMessageＩＤと一致するか否かをチェックし、一致するものがあれば既にその先は過去に参照ずみであると判断することができ、この時点で参照データの取得処理を終了する。ただし、時系列的に新しい参照系列が見つかった場合には、検出した参照文書情報の追加のみは省略せずに行う。
【００４９】
また、MessageＩＤとの一致が見られないものについても、以下のような場合には処理を終了することができる。例えば、同一サブジェクトでも、送信者、受信者、Cｃ先が明かに食い違いが見つかった場合には、系列の区切りと見なして参照系列の検出処理を終了する。また、同一プログラムで送られたメールであるのに、In-Reply-to情報が途絶えた場合にも、他の系列の始発点と見なすことができるので、サーチを終了する。これ以外にも、種々な情報を利用してサーチ方法を適宜工夫することが可能である。
【００５０】
参照文書の取得が終ると、制御部２は、処理をステップＳ305 に移行して、翻訳環境設定部７を起動する。翻訳環境設定部７は、取得した参照文書情報のデータを用いて、翻訳原文に適合した翻訳環境を判定する。
【００５１】
図４は図３中のステップＳ305 の処理を具体的に示している。まず、翻訳環境設定部７は、ステップＳ401 において、参照文書情報全体の中の内容語を抽出する。次に、翻訳環境設定部７は、ステップＳ402 において抽出した内容語を用いて、一連の文書の内容（分野）を推定する処理を行う。この推定処理については、参考文献「辞書管理方法および辞書管理システムおよび翻訳方法および翻訳システム」に詳述されている方法を適用することができる。なお、この文献に記載された推定処理は、特定の分野毎に関連のある語のセットを定義しておき、その定義された語と抽出された語との一致状況によって、文書の分野を推定する方法を採用している。
【００５２】
分野の推定処理が終了すると、翻訳環境設定部７は、ステップＳ403 に処理を移行して、翻訳時に使用する専門用語辞書の選定を行う。この方法としては、ステップＳ402 で推定された分野に応じて、どの専門用語辞書を用いるとよいかの対応表を用意しておき、それに従って、選択を行えば良い。下記表１はこの対応表の例を示している。
【００５３】
表１
（対応表の例）
−−−−−−−−−−−−−−−−−−−−
推定分野専門辞書名
−−−−−−−−−−−−−−−−−−−−
コンピュータコンピュータ
自動車機械
水泳スポーツ
映画娯楽
絵画芸術
−−−−−−−−−−−−−−−−−−−−
専門辞書の選定が終ると、翻訳環境設定部７は、次のステップＳ404 において、ステップＳ304 、Ｓ401 〜Ｓ403 で得た情報を翻訳環境記憶部８に反映させる処理を行う。この場合には、翻訳環境記憶部８のいずれかの区分が当該翻訳原文の参照系列と一致し、すでに記載がある場合には、それに書き加えが行われ、新規の場合には新区分が追加される。ステップＳ401 で抽出した内容語は、英語の文書か日本語の文書かによって、夫々「内容語Ｅ」、「内容語Ｊ」欄にリストアップされる。新規項目の場合には、サブジェクト情報はSubjectに記載される。参照されたメッセージ識別情報は、MessageＩＤに列挙される。推定された分野情報は「分野」欄に、選定された専門用語辞書の種類名は「使用専門辞書」欄に書きこまれる。
【００５４】
図２はステップＳ404 による翻訳環境記憶部８の更新処理によって記憶される翻訳環境情報を示していてる。図２の「Subject:」、「Message ＩＤ：」、「分野：」、「使用専門辞書：」、「内容語Ｅ：」及び「内容語Ｊ：」は、夫々下記の内容を示している。
【００５５】
Subject:
本実施の形態においては、サブジェクトが共通するものを１つの文書セット（チェーン）として認識する。ここではそのサブジェクト名を記憶する。
【００５６】
実施の仕方によっては、サブジェクト名以外から参照関係情報を取得することもあり得るので（アプリケーションが電子掲示板の場合等）、その場合には、複数のサブジェクト名を記憶するようにする。
【００５７】
Message ＩＤ：
アプリケーションが管理する文書識別情報。実施の形態によっては番号であったり、ファイル名であったりする。
【００５８】
分野：
前回の翻訳時に翻訳部３により翻訳原文がいずれの分野の文書と判定されたか、あるいは、翻訳環境設定部７により参照文書情報はいずれの分野の文書と判定されたのかについての情報を記憶する。
【００５９】
使用専門辞書：
前回の翻訳時に、ユーザがどの辞書の使用を指定したか、あるいは翻訳直前の翻訳環境設記憶部８内の分野情報に基づいて、翻訳部３が自動で選択した専門用語辞書は何であったか、あるいは翻訳環境設定部７により参照文書情報に対して判定された分野に対応する専門辞書の種類は何かについての情報を記憶する。
【００６０】
内容語Ｅ：
参照文書履歴中で、もともと英語で書かれた文書に生起した内容語のリストを記憶する。図２の例では単純な列挙にとどめたが、頻度情報を持たせて、後の翻訳部３での利用の制御に用いてもよい。
【００６１】
内容語Ｊ：
参照文書履歴中で、もともと日本語で書かれた文書に生起した内容語のリストを記憶する。言語の違い以外は内容語Ｅと同じ。
【００６２】
このような翻訳環境記憶部８の更新が終了すると、図３のステップＳ306 に処理を移行して、翻訳部３が起動される。図５は図３のステップＳ306 の具体的なフローを示し、翻訳原文中の１文に対する翻訳部３の翻訳処理を示している。なお、入力された翻訳原文全体の翻訳には、文書末まで図５のフローが繰り返される。
【００６３】
翻訳部３は、制御部２から翻訳原文が送られると、先ず、ステップＳ501 において、当該翻訳原文が新しいブロックの第１文か否かを判断する。アプリケーション１０が電子メールの送受信プログラムである場合には、１ブロックは１メッセージに対応する。従って、この場合には、メッセージの先頭の文のみが「新しいブロック」と判断される。ブロックの先頭の文であれば、翻訳部３は、ステップＳ502 に移行して、翻訳環境記憶部８中の該当する区分の翻訳環境情報を読み込む。ブロックの先頭以外の文については、翻訳環境情報を新たに読み込むことなく、前文で用いた環境と同一の翻訳環境情報を用いる。こうして、ブロック毎に対応する翻訳環境情報を用いるように制御される。
【００６４】
翻訳環境の準備が整うと、翻訳部３は、次のステップＳ503 において、辞書部４の下記知識を用いて、辞書引き及び形態素解析処理を行う。
【００６５】

なお、4-2．専門用語辞書部の中で用いる辞書の種類は、翻訳環境情報中に設定されている辞書とする。ユーザ辞書4-3．については、翻訳環境情報との関連付けを行っていないので、ユーザが別途指定した辞書を用いるようにする。この場合でも、翻訳環境記憶部８が記憶する項目の１つとしてユーザ辞書の項目を設けることで、翻訳精度を一層向上させることができる。
【００６６】
次に、翻訳部３は、ステップＳ504 において、4-1．(c)構文・意味解析規則を用いて、入力原文の構文・意味解析を行う。この段階で、入力言語の解析結果の構造が構築されている。次に、翻訳部３は、ステップＳ505 に処理を移行して、4-1．(a)語彙部、(d)変換規則、4-2．語彙部、4-3．(a)語彙部、(b)訳語学習部の知識を用いて、入力言語の構造を出力言語の構造に変換する処理を行う。この段階で、出力言語の言語的な構造と共に、入力単語に対する訳語の決定も行う。
【００６７】
本実施の形態においては、訳語の決定に際して、翻訳環境情報に設定されている分野名、専門用語辞書、内容語Ｅ，Ｊの情報を下記の手法によって用いる。
【００６８】
* 専門用語辞書
入力文中に、基本辞書にはなく、専門用語辞書にのみ登録されている合成語等が現われていれば、ステップＳ503 で専門用語辞書の登録語の辞書引きが行われ、その訳語がここで選択される。また、基本辞書にも専門用語辞書にも登録されている語が入力文中にあった場合にも、専門用語辞書に定義されている訳語が採用される。こうして、当該専門分野に即した訳語で訳出されることになる。（ユーザ辞書についても同様）
* 分野名
基本辞書中の訳語に分野情報がついているものがある。以下に「base」の例を示す。野球分野であれば、「ベース」と訳し、軍事分野であれば「基地」と訳し、それ以外であれば「基礎」と訳すことを示している。よって、翻訳環境情報に設定された分野に合わせて、同じ見出し語でも異なる訳語に訳し分けることができる。
【００６９】
（例）
base: 基礎、ベース(分野=野球)、基地(分野=軍事)
* 内容語Ｅ，Ｊ
いま、MessageＩＤ=000015の文書を翻訳しようとしているとする。その文書の中に「The program featured works by Picasso.」という文があったとする。基本辞書部の「work」の登録内容が以下の通りだとすると、通常は第１定義である「仕事」が「work」の訳語として採用される。ところが、翻訳環境情報として内容語Ｊの中の語を一覧すると、「作品」という語があり、これが「work」の訳語定義群の中の一つと一致する。このような場合に、一致した訳語を優先して用いる、という制御の仕方をする。一方、MessageＩＤ=000010の文書を翻訳する場合には、同じ「work」に対して、内容語Ｊにある「作業」を優先する。こうすることで、翻訳を介したメールやメッセージのやり取りを通して、一貫性のある翻訳が保ちやすくなる。
【００７０】
（例）
work: 仕事、作業、労働、作品
こうして、出力言語の構造が構築されると、翻訳部３は処理をステップＳ506 に移行して、4-1．(e)構文生成規則を用いて、２次元的な構造を１次元的な構造に変換する。最後に、翻訳部３は、ステップＳ507 において、4-1．(f)形態素生成規則を用いて、個々の語の表層形態を生成し、最終的な訳文を出力する。
【００７１】
翻訳部３から出力された訳文は、制御部２に送られる。制御部２は図３のステップＳ307 において、訳文を出力部５を介してアプリケーション１０に出力する。こうして、アプリケーション１０である電子メール送受信プログラム上で、翻訳原文に対する第２言語の翻訳文が得られる。
【００７２】
次に、アプリケーション１０がＷｅｂ上の掲示板システムである場合について作用を説明する。なお、説明を簡略化するために、アプリケーションが異なることに基づく相違点のみを説明する。なお、掲示板システムの電子情報（掲示板に表示される文書データ）を記憶したインターネット上の文書データ記憶部９に対して、第１言語を使用するユーザが、アプリケーション１０によってアクセスを行うものとする。
【００７３】
第１の相違点は、図３のステップＳ301 における付属情報の解析処理であり、第２の相違点は、図３のステップＳ304 における参照文書情報の取得処理であり、第３の相違点は、ステップＳ501 においてブロックを考慮する点である。
【００７４】
先ず、第１の相違点について説明する。
【００７５】
Ｗｅｂ上の掲示板では、翻訳対象及び文書データ記憶部９に格納されている文書がｈｔｍｌソースファイルであることが考えられる。この場合、ソースファイル内に埋め込まれた原文データ以外の例えばタグ等の各種構造情報が付属情報に相当する。
【００７６】
ところで、掲示板の構成はＷｅｂサイト毎に異なる。例えば、１ページに投稿メッセージが時系列的に列挙されている順次表示の掲示板で、返信関係のリンクボタンが用意されていない形態（以下、「タイプＡ」という）の掲示板がある。また、特定のメッセージがいずれのメッセージの返信であるかの情報をリンク付きで表示する形態（以下、「タイプＢ」という）の掲示板もある。更に、参照関係が枝分かれツリーや、インデントを使って表されている形態（以下、「タイプＣ」という）の掲示板もある。これらのタイプの識別は、ステップＳ301 において、関連文書情報取得部６がページ内のテーブルの使用法等を判別することによって予め行う。
【００７７】
「タイプＡ」の掲示板においては、各メッセージは番号で管理されており、返信関係を示す情報として、サブジェクト名に参照したメッセージ番号が付記される等の表示形態をとるのが普通である。そこで、この場合には、関連文書情報取得部６は、ステップＳ301 において、各メッセージの参照メッセージ番号、サブジェクト、投稿者等を参照関係情報として取得する。
【００７８】
「タイプＢ」の掲示板については、関連文書情報取得部６は、ステップＳ301 において、当該メッセージのサブジェクト、投稿者情報の他に、返信の元となったデータの所在、ファイル名等を取得する。掲示板で通常用いられる以下に示す表示の仕方（パターンＡ１，Ａ２）を記憶しておき、そのパターンを入力のｈｔｍｌファイル内でサーチすることで、返信の元となったデータを検出することができる。なお、これらのパターンを、ユーザが容易に追加できるような構成にしておくことも可能である。
【００７９】
パターンＡ１：これは（$変数）さんの（$変数_参照先）に対する返信です
パターンＡ２：このコメントは（$変数_参照先）へ返信です
;
;
同様に、当該メッセージを参照して作成されたメッセージの検出についても、以下のようなパターンＢ１を用意しておき、リンク関係をたどりながらメッセージを取得することができる。
【００８０】
パターンＢ１:このメッセージに対する返信を見る
;
;
また、「タイプＣ」の掲示板については、ｈｔｍｌ形式の構造を解析することで容易に参照関係情報の表示部分の検出が可能である。下記表示例は、その表示の一例である。テーブル形式を用いて表されることが多く、サブジェクト部分は通常実メッセージデータへのリンクとなっている。この中から、もっとも単純なレベルでは、サブジェクト中の「Re」「RE」「re」等の使用法をキーに参照・被参照関係にあるメッセージデータの所在、ファイル名等を参照関係情報として取得すればよい。更に、テーブル内入れ子関係等の構造を解析することにより、サブジェクト名が変わっていても参照・被参照関係を検出することができる。
【００８１】

これらのいずれのタイプについても、入力が原文データのアドレス、存在場所、ファイル名のみであるような場合には、付属情報解析の前に、文書データ記憶部９にアクセスして原文データを取得するところから処理を始める必要がある。
【００８２】
次に、第２の相違点、即ち、参照文書情報の探し方について説明する。
【００８３】
タイプＡのＷｅｂ上の掲示板の場合には、ページ内に参照系列に属する文書が存在する可能性があるので、最初に、ページ上の各メッセージ毎に、参照系列を同ページ内で検索する。ページ内の検索が終了し、その中に参照系列に属するメッセージ（文書）が存在しない場合には、次に前ページの参照を行う。なお、前ページのデータを検出するためには、ｈｔｍｌ内で「前ページ」、「次ページ」等の文字列がボタンやリンクになっている個所を検索することで、容易に前ページのデータの検出が可能である。前ページのデータを取得すると、同様に参照系列のメッセージ番号（参照メッセージ番号）と一致するメッセージを順次検索して、参照系列の出発点までたどりながら、参照文書情報を系列的に取得する。
【００８４】
タイプＢの掲示板の場合には、前記パターンのサーチにより見つかった個所の「$変数_参照先」にリンクがはられているデータを取得し、同様に参照先が無くなるまで、メッセージの参照系列を取得する。
【００８５】
タイプＣの掲示板の場合には、参照関係の表示部分の構造から参照・被参照のメッセージのセットの情報が取得可能なので、取得された情報にあるメッセージを順次取得していけばよい。
【００８６】
また、翻訳環境記憶部８のいずれかの区分にMessageＩＤが記載済みのメッセージが見つかった時点で以降の参照データ取得処理を省略するのは、タイプＡ，Ｂ，Ｃとも同様である。
【００８７】
次に、第３の相違点、即ち、入力される翻訳訳文書が複数のブロックによって構成されている場合について説明する。
【００８８】
本実施の形態においては、掲示板システムでは、通常テーブル形式を用いてひとまとまりに表されるメッセージの集合をブロックと定義する。Ｗｅｂ上の掲示板システムで扱う文書は、タイプＡの掲示板のように、複数ブロックによって構成されていることがある。この場合には、翻訳部３は、ブロックの先頭の文であれば、ステップＳ501 から処理をステップＳ502 に移行し、翻訳環境記憶部８中の該当する区分の翻訳環境情報を読み込む。ブロック先頭以外では、翻訳環境情報を新たに読み込むことなく、前文で用いた環境と同じ翻訳環境情報を用いる。こうして、１つのページに複数のメッセージがある場合には、夫々の翻訳環境情報を用いるように制御することができる。
【００８９】
なお、タイプＢの掲示板の場合には、入力文書全体を１ブロックとみなし、その第１文であるか否かをステップＳ501 において判断すればよい。
【００９０】
他の作用はアプリケーション１０がメール送受信プログラムである場合と同様であり、メッセージのブロック毎に、取得した参照文書の情報を用いて翻訳環境情報を設定し、翻訳環境情報に基づいて翻訳処理を行って訳文書を出力する。
【００９１】
このように、本実施の形態においては、翻訳対象に応じた参照関係情報を用いて文書データ記憶部から関連を有する参照文書情報を検出し、参照文書情報に基づいて翻訳を補助する翻訳環境情報を設定し、設定した翻訳環境情報を用いて翻訳処理を行っており、翻訳精度を向上させることができる。これにより、比較的短い文書の電子メールや電子掲示板上のメッセージの翻訳に際しても、返信履歴等を利用して、履歴内の文書から翻訳を補助する翻訳環境情報を取得して有効利用することができる。また、１ページに複数の話題が並行して掲載される掲示板システムにおいても、話題毎に適した翻訳環境情報を用いて高い翻訳精度の翻訳結果を得ることができる。
【００９２】
図６は本発明の他の実施の形態において採用される翻訳環境設定処理を示すフローチャートである。図６において図４と同一の手順には同一符号を付して説明を省略する。
【００９３】
本実施の形態は翻訳環境設定部７の処理が図１の実施の形態と異なるのみである。翻訳環境設定部７は、図６のステップＳ412 において、対訳用語を作成する。即ち、翻訳環境設定部７は、参照文書情報全体又はその一部に対する文脈情報を用いた翻訳処理によって、収集したチェーン内の単語の訳語として最適な訳語を取得する。
【００９４】
図７は図６のステップＳ404 において更新される翻訳環境記憶部８の内容を示している。図７において図２と同一の記憶内容については説明を省略する。
【００９５】
図７において、対訳用語はステップＳ412 において取得されたものである。第１言語のある語に対して最適の第２言語の訳語を決める手段の典型には、4-1(d)変換規則によるものがある。例えば、「plane」には大きくわけて「飛行機」と「平面」の異なる意味がある。4-1(d)変換規則の中には、どちらかの訳語が適切かを決める知識として以下のような訳出決定のための規則が多数蓄積されている。
【００９６】
plane(主語)+ bomb/crash/explode(主動詞) → plane=飛行機
（意味：bomb, crash, explodeの主語として用いられたplaneは「飛行機」と訳す）
このような規則のいずれかが選択され訳語が決定されることで、「plane=飛行機」という対訳情報を作成することができる。
【００９７】
図７の対訳用語は、翻訳原文に属するチェーン内の文書の訳語として最適と判断されたものである。従って、翻訳部３は、翻訳処理に際して、図７の対訳用語を最優先して翻訳を行う。
【００９８】
他の構成及び作用は図１の実施の形態と同様である。
【００９９】
このように、本実施の形態においても図１の実施の形態と同様の効果を得ることができる。
【０１００】
なお、上記実施の形態において用いた情報は一例にすぎず、請求の範囲を逸脱しない範囲であらゆる情報の利用が可能である。また、アプリケーションプログラムが扱うデータ情報の詳細化に合わせて、履歴情報を取得する手段にも多様な形態が可能である。また、上記各実施の形態は、取得の細かい仕様について限定するものではない。また、アプリケーションプログラムについては、上記実施の形態においては電子メール送受信プログラム又は電子掲示板プログラムを想定したが、翻訳を介した自然言語文データのやり取りを行うあらゆるコミュニケーションプログラムに適用可能である。
【０１０１】
即ち、本発明は翻訳を介したメッセージのやり取りに適用することができ、この場合には、第１言語と第２言語の語句の対を翻訳環境情報として保存するので、翻訳を介した結果まったく別の意味の内容の会話のようになってしまうという問題を回避しやすくなる。
【０１０２】
【発明の効果】
以上説明したように本発明によれば、電子メールや電子掲示板等の電子情報のやり取りの特徴を利用して、翻訳対象の文書以外の関連を有する文書から翻訳処理に利用可能な情報を抽出することにより、翻訳精度を向上させることができるという効果を有する。
【図面の簡単な説明】
【図１】本発明の一実施の形態に係る機械翻訳装置を示すブロック図。
【図２】翻訳環境記憶部８内の情報の格納例を示す説明図。
【図３】図１中の制御部２にアプリケーション１０から原文データが入力されてから、訳文を出力するまでの処理の流れを示すフローチャート。
【図４】図３中のステップＳ305 の翻訳環境設定処理を具体的に示すフローチャート。
【図５】図３のステップＳ306 の翻訳処理を具体的に示すフローチャート。
【図６】本発明の他の実施の形態において採用される翻訳環境設定処理を示すフローチャート。
【図７】図６のステップＳ404 において更新される翻訳環境記憶部８の内容を示す説明図。
【符号の説明】
２…制御部、３…翻訳部、４…辞書部、６…関連文書情報取得部、７…翻訳環境設定部、８…翻訳環境記憶部、９…文書データ記憶部、１０…アプリケーション。

Claims

複数の文書データが格納された文書データ保持手段にアクセスして、前記複数の文書データのうち原文データと関連を有する参照系列の文書データを参照文書情報として取得する関連文書情報取得手段と、
前記関連文書情報取得手段が取得した参照文書情報から前記原文データの翻訳に利用可能で後記参照関係情報に含まれる翻訳環境情報を取得して翻訳環境保持手段に保持させる翻訳環境設定手段と、
第１言語と第２言語との翻訳に必要な知識情報を有する辞書と前記翻訳環境保持手段に保持された翻訳環境情報とを利用して、前記原文データの翻訳を行う翻訳手段とを具備し、
前記関連文書情報取得手段は、前記原文データを解析することによって、前記参照系列の文書データを相互に関連付けている参照関係情報を得、この参照関係情報を用いて前記参照文書情報を取得し、
前記参照関係情報は、前記原文データが電子メールの送受信データである場合には、サブジェクト情報、送信者、あて先、Ｃｃ先及びメッセージＩＤの少なくとも１つであることを特徴とする機械翻訳装置。
複数の文書データが格納された文書データ保持手段にアクセスして、前記複数の文書データのうち原文データと関連を有する参照系列の文書データを参照文書情報として取得する関連文書情報取得手段と、
前記関連文書情報取得手段が取得した参照文書情報から前記原文データの翻訳に利用可能で後記参照関係情報に含まれる翻訳環境情報を取得して翻訳環境保持手段に保持させる翻訳環境設定手段と、
第１言語と第２言語との翻訳に必要な知識情報を有する辞書と前記翻訳環境保持手段に保持された翻訳環境情報とを利用して、前記原文データの翻訳を行う翻訳手段とを具備し、
前記関連文書情報取得手段は、前記原文データを解析することによって、前記参照系列の文書データを相互に関連付けている参照関係情報を得、この参照関係情報を用いて前記参照文書情報を取得し、
前記参照関係情報は、前記原文データがウェブ上の掲示板の掲載データである場合には、各メッセージの参照メッセージ番号、サブジェクト、投稿者並びに返信の元となったデータの所在及びファイル名の少なくとも１つであることを特徴とする機械翻訳装置。
前記関連文書情報取得手段は、前記原文データに付属している情報を解析することによって、前記参照関係情報を得ることを特徴とする請求項１又は２に記載の機械翻訳装置。
前記関連文書情報取得手段は、前記翻訳環境保持手段に保持された翻訳環境情報を参照することで、既登録の翻訳環境情報に対応する参照文書情報については取得しないことを特徴とする請求項１又は２に記載の機械翻訳装置。
前記関連文書情報取得手段は、前記参照系列の文書データを作成時順に取得することを特徴とする請求項１又は２に記載の機械翻訳装置。
前記関連文書情報取得手段は、前記参照系列の文書データを作成時順の逆順に取得することを特徴とする請求項１又は２に記載の機械翻訳装置。
前記辞書は、翻訳に必要な知識情報を複数有し、
前記翻訳環境情報は、前記辞書に含まれる複数の知識情報から翻訳に用いる知識情報を選択するための情報を含むことを特徴とする請求項１又は２に記載の機械翻訳装置。
前記翻訳環境保持手段は、前記参照系列の参照文書情報に含まれる前記第１の言語の語句と前記第２の言語の語句とを翻訳環境情報として記憶し、
前記翻訳手段は、訳語決定に際して、前記翻訳環境情報を利用することを特徴とする請求項１又は２に記載の機械翻訳装置。
前記翻訳環境保持手段は、前記参照系列の参照文書情報に含まれる前記第１の言語と前記第２の言語との対訳用語を翻訳環境情報として記憶し、
前記翻訳手段は、訳語決定に際して、前記対訳用語を利用することを特徴とする請求項１又は２に記載の機械翻訳装置。
関連文書情報取得部、翻訳環境設定部及び翻訳部を備えたコンピュータによって、機械翻訳を行う機械翻訳方法であって、
前記関連文書情報取得部が、複数の文書データが格納された文書データ保持手段にアクセスして、前記複数の文書データのうち原文データと関連を有する参照系列の文書データを参照文書情報として取得する関連文書情報取得処理と、
前記翻訳環境設定部が、前記関連文書情報取得処理において取得した参照文書情報から前記原文データの翻訳に利用可能で後記参照関係情報に含まれる翻訳環境情報を取得して翻訳環境保持手段に保持させる翻訳環境設定処理と、
前記翻訳部が、第１言語と第２言語との翻訳に必要な知識情報を有する辞書と前記翻訳環境保持手段に保持された翻訳環境情報とを利用して、前記原文データの翻訳を行う翻訳処理とを具備し、
前記関連文書情報取得処理は、前記原文データを解析することによって、前記参照系列の文書データを相互に関連付けている参照関係情報を得、この参照関係情報を用いて前記参照文書情報を取得し、
前記参照関係情報は、前記原文データが電子メールの送受信データである場合には、サブジェクト情報、送信者、あて先、Ｃｃ先及びメッセージＩＤの少なくとも１つであることを特徴とする機械翻訳方法。
関連文書情報取得部、翻訳環境設定部及び翻訳部を備えたコンピュータによって、機械翻訳を行う機械翻訳プログラムであって、
前記コンピュータに、
前記関連文書情報取得部によって、複数の文書データが格納された文書データ保持手段にアクセスして、前記複数の文書データのうち原文データと関連を有する参照系列の文書データを参照文書情報として取得する関連文書情報取得処理と、
前記翻訳環境設定部によって、前記関連文書情報取得処理において取得した参照文書情報から前記原文データの翻訳に利用可能で後記参照関係情報に含まれる翻訳環境情報を取得して翻訳環境保持手段に保持させる翻訳環境設定処理と、
前記翻訳部によって、第１言語と第２言語との翻訳に必要な知識情報を有する辞書と前記翻訳環境保持手段に保持された翻訳環境情報とを利用して、前記原文データの翻訳を行う翻訳処理とを実行させるためのものであって、
前記関連文書情報取得処理は、前記原文データを解析することによって、前記参照系列の文書データを相互に関連付けている参照関係情報を得、この参照関係情報を用いて前記参照文書情報を取得し、
前記参照関係情報は、前記原文データが電子メールの送受信データである場合には、サブジェクト情報、送信者、あて先、Ｃｃ先及びメッセージＩＤの少なくとも１つであることを特徴とする機械翻訳プログラム。