JP2005141490A - 用例翻訳装置、用例翻訳処理方法、そのプログラム及び記録媒体 - Google Patents

用例翻訳装置、用例翻訳処理方法、そのプログラム及び記録媒体 Download PDF

Info

Publication number
JP2005141490A
JP2005141490A JP2003377241A JP2003377241A JP2005141490A JP 2005141490 A JP2005141490 A JP 2005141490A JP 2003377241 A JP2003377241 A JP 2003377241A JP 2003377241 A JP2003377241 A JP 2003377241A JP 2005141490 A JP2005141490 A JP 2005141490A
Authority
JP
Japan
Prior art keywords
reliability
priority
user
translation
fixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003377241A
Other languages
English (en)
Inventor
Naoki Asanoma
直樹 麻野間
Akira Kataoka
明 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003377241A priority Critical patent/JP2005141490A/ja
Publication of JP2005141490A publication Critical patent/JP2005141490A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】複数のユーザで共用され、ユーザが対訳用例を入力することができる翻訳装置において、より正確に対訳用例を選択することができるようにする。
【解決手段】 ユーザごとに当該ユーザの信頼度を記憶する信頼度記憶手段、対訳用例ごとに当該対訳用例の優先度を記憶する優先度記憶手段、対訳用例を入力したユーザの信頼度を前記信頼度記憶手段より取得し、前記優先度記憶手段に記憶されている当該対訳用例の優先度を、前記取得した信頼度に応じて更新する更新手段を設ける。用例翻訳手段は、原言語の入力文に類似する対訳用例が複数存在する場合、優先度記憶手段に記憶されている優先度が最も高い対訳用例を選択する。
【選択図】図1

Description

本発明は、原言語の入力文を目的言語に変換する機械翻訳に関し、特に、複数のユーザで利用され、各ユーザが対訳用例を入力することができる用例翻訳装置、用例翻訳処理方法、そのプログラム及び記録媒体に関する。
大量の対訳用例(原言語文とその翻訳である目的言語文の対訳関係)を記憶している用例翻訳システムには、一般にはシステムに登録されていない原言語文と目的言語文からなる対訳をユーザが個別に登録できる機能が備わっている(特許文献1参照)。また、システムに登録されている訳文であっても、システムが自動選択する訳文が誤っているときは、訳文の優先度を変更し、常にユーザが望む対訳を取得することができる。
一方、近年、機械翻訳システムを利用した翻訳サービスがWWW上で公開されている。このサービスは、ユーザが言語対と、任意のテキスト文章、あるいは任意のHTML文書のURLを送信すると、そのテキスト文章、あるいはHTML文書を翻訳した結果をWebブラウザに返信するサービスである。
従来、このようなネットワーク環境の普及に伴い、例えば、ユーザ辞書に登録されている翻訳知識をほかのユーザに公開し、ほかのユーザと翻訳知識を共有することで、多くの翻訳知識を有効に活用し、辞書の構築が容易に行えるようにした辞書流通システムがある(特許文献2参照)。また、ユーザ辞書をサーバ側に用意し、複数のユーザがそのユーザ辞書を読み込んだり、書き込んだりすることができる翻訳システムもある(特許文献3参照)。
特開2002−278964号公報 特開平10−269201号公報 特開2000−34613号公報
ネットワーク上で共有される用例翻訳サービスなど、ユーザが不特定多数である場合、ユーザが個々に登録する対訳用例(原言語文とその翻訳である目的言語文の対訳関係)を共有すれば、より多くの対訳用例をシステムに蓄積することができる。しかし、ユーザによる誤りや、悪意あるユーザによる虚偽の対訳知識などが存在するかもしれないため、ユーザが登録した対訳用例が信頼できるか不明であり、ほかのユーザに公開するとシステムの翻訳精度を落とすことになりかねない。
また、ある原文に対して、複数のユーザがそれぞれ別々の訳文を登録した場合や、それぞれ別の訳文の優先順位を上げようとした場合など、背反する対訳用例が複数のユーザによって入力された場合、システムはいずれの訳文を選択すればよいか不明確である。
本発明は、このような従来技術の問題に鑑みてなされたものであり、複数のユーザによって登録される対訳用例について、ユーザの信頼度を設け、ユーザが入力した対訳用例の優先度を、そのユーザの信頼度によって測ることで、より正確に対訳用例を選択することができる用例翻訳装置、用例翻訳処理方法、そのプログラム及び記録媒体を提供することを目的とする。
また、本発明の別の目的は、ユーザの信頼度を人手で逐一判定せずとも、自動的に信頼度の判定を行うことができる用例翻訳装置、用例翻訳処理方法、そのプログラム及び記録媒体を提供することである。
本発明は、ユーザの信頼度と対訳用例の優先度とを記憶し、入力文に類似する対訳用例が複数ある場合、対訳用例の優先度が最も高い対訳用例を選択すると共に、ユーザが入力した対訳用例を受け付け、入力された対訳用例の優先度を、入力したユーザの信頼度に応じて更新することを主要な特徴とする。さらにユーザが入力した対訳用例の優先度に応じてユーザの信頼度を更新することを特徴とする。
また本発明は、対訳用例ごとに当該対訳用例の固定的な優先度である固定優先度と、ユーザごとに当該ユーザの固定的な信頼度である固定信頼度を記憶しておき、これら固定優先度、固定信頼度も加味して、対訳用例の優先度もしくはユーザの信頼度を記憶することを特徴とする。
また本発明は、ユーザとそのユーザが入力した対訳用例とを関連付けた行列Aを生成し、行列AAの最大固有値に対応する固有ベクトルを求め、固有ベクトルの各要素を対訳用例の優先度とし、さらに、行列AAの最大固有値に対応する固有ベクトルを求め、固有ベクトル各要素をユーザの信頼度とすることを特徴とする。
また本発明は、固定優先度を要素とした対角行列をC、固定信頼度を要素とした対角行列をUとしたときの行列UACAの最大固有値に対する固有ベクトルを求め、この固有ベクトルの各要素を対訳用例の優先度とし記憶し、さらに行列CATUAの最大固有値に対する固有ベクトルを求め、この固有ベクトルの各要素をユーザの信頼度とすることを特徴とする。
また、本発明は、入力文に対する対訳用例を自動で選択する手段を備えて、該選択手段をユーザとみなして、優先度もしくは信頼度を更新することを特徴とする。
本発明による主な効果は以下のとおりである。
(1)対訳用例の優先度を、その対訳用例を入力したユーザの信頼度に応じて更新するので、複数のユーザによって登録された対訳用例であっても、それらの対訳用例の優先度を測ることができ、より正確な翻訳を行うことができる。
(2)ユーザの信頼度は、そのユーザが入力した対訳用例の優先度に応じて更新するので、人手で逐一信頼度を判定せずとも、自動的にユーザの信頼度を測ることができる。
(3)ユーザの信頼度があらかじめ定めた値を超えない場合は、入力された対訳用例の優先度を更新しないので、信頼度の低いユーザによって、誤った対訳用例が入力されることを防ぐことができる。
(4)対訳用例の固定優先度もしくはユーザの固定信頼度を定め、実際に翻訳に使われる優先度・信頼度の自動計算に恒常的に反映できるので、システム製作者の意に反して過度に優先度・信頼度が変化することを防ぐことができる。
(5)ユーザとそのユーザが入力した対訳用例とを関連付けた行列Aを生成し、行列AAの最大固有値に対応する固有ベクトルを対訳用例の優先度とするため、複数のユーザによって登録された対訳用例であっても、それらの対訳用例の優先度を測ることができ、より正確な翻訳を行うことができる。
(6)行列AAの最大固有値に対応する固有ベクトルをユーザの信頼度とするため、人手で逐一信頼度を判定せずとも、自動的にユーザの信頼度を測ることができる。
(7)固定優先度を要素とした対角行列をC、固定信頼度を要素とした対角行列をUとし、行列UACAの最大固有値に対する固有ベクトルを対訳用例の優先度とし、さらに行列CATUAの最大固有値に対する固有ベクトルをユーザの信頼度とすることにより、(5)および(6)に加えて、(4)の効果が得られる。
(8)他の翻訳システムなどによる対訳用例の選択手段をユーザとみなして、対訳用例の選択結果を入力することで、ユーザと選択手段のシームレスな入力を可能とし、より多くの選択基準が反映されて正確な翻訳を行うことができる。
以下、図面を使用して本発明の一実施形態を詳細に説明する。
図1は、本発明を適用した翻訳システムの一実施形態を示す全体構成図である。図1において、本発明による翻訳装置(用例翻訳装置)10と複数のクライアント端末40とが、インターネット等のネットワーク30に接続されている。各ユーザはクライアント端末40から、ネットワーク30を介して本発明による翻訳装置10を利用する。
翻訳装置10は、ユーザ認証を行う認証部11、原言語の入力文、またはユーザが入力した対訳用例を受け付ける入力部12、入力文に対する対訳用例(原言語文とその翻訳である目的言語文の対訳関係)を検索する用例翻訳部13、翻訳結果などを出力する出力部14、優先度記憶部20に記憶された対訳用例の優先度、および信頼度記憶部21に記憶されたユーザの信頼度を更新する更新部15、入力文が属する分野によって優先度記憶部20及び信頼度記憶部21を切り替える切替部16、入力文に関する訳文を自動的に選択する選択部17、対訳用例の優先度が記憶された優先度記憶部20、ユーザの信頼度が記憶された信頼度記憶部21などからなる。また、用例翻訳部13は翻訳用例の検索に利用する、対訳用例の集合である翻訳メモリ25を備えている。なお、翻訳装置10は、これら各部の動作を制御する制御部を備えているが図1では省略してある。
優先度記憶部20及び信頼度記憶部21は、分野ごとに設けられ、それぞれの分野における対訳用例の優先度、及び、ユーザの信頼度を記憶している。例えば、図1では、「一般」、「旅行」、「講演」の3つの分野に対して用意されている。このように、対訳用例の優先度及びユーザの信頼度を分野ごとに設けることにより、分野ごとの正確な翻訳が可能となり、またユーザの信頼度を分野ごとに判定することができる。
図2は優先度記憶部20の分野「一般」に記憶されているエントリの一例である。図2に示すように、優先度記憶部20のエントリは、原言語の文と、目的言語の訳文と、その訳文の優先度と、その訳文を入力したユーザのユーザIDとから構成される。この優先度記憶部20には、用例翻訳部13が持つ翻訳メモリ25に記憶されているすべての対訳用例(原言語文と目的言語の訳文)について、その優先度が記憶されている。その優先度は、0以上の数値で与え、この数値が大きいほど優先度が高いことを表している。優先度の初期値には、たとえば、すべての対訳用例に同じ優先度を与えることができる。ここで、図2(A)は、ある時点における優先度記憶部20のエントリの状態(更新前)、図2(B)は、その状態から優先度が更新された状態(更新後)を示している。また、図2(C)は、優先度を正規化して表したものである。
図3は信頼度記憶部21の分野「一般」に記憶されているエントリの一例である。図3に示すように、信頼度記憶部21のエントリは、ユーザIDと、そのユーザの優先度とから構成される。信頼度は、0から1までの数値で与え、1に近いほど信頼度が高いことを表している。優先度の初期値には、たとえば、すべてのユーザに同じ信頼度を与えることができる。ここで、図3(A)は、ある時点における信頼度記憶部21のエントリの状態(更新前)、図3(B)は、その状態から信頼度が更新された状態(更新後)を示している。
図4は翻訳装置10の全体的処理フローチャートである。以下に図1乃至図4に基づいて本発明の第1の実施例の動作を説明する。なお、以下では、日本語から英語に翻訳する場合を例に挙げ、日本語文「それはいいですね」あるいは「今、何時?」に対する対訳用例を検索して英語に翻訳するものとする。
クライアント端末40から翻訳装置10にアクセスがあると、認証部11が、当該クライアント端末40に対して、ユーザを識別するユーザIDとパスワードの入力と要求するメッセージを送信する。ユーザがクライアント端末40にユーザIDとパスワードを入力すると、認証部11は、あらかじめ登録されているユーザID、パスワードを照合するなどしてユーザ認証を行う(S10)。この例では、ユーザIDは「001」であるとする。
入力部12は、クライアント端末40からの入力を受けるまで待ち(S11)、入力があると、対訳用例の訳文の入力か、原言語文の入力かを判別する(S12、S13)。ここでは、ユーザが原言語の入力文「それはいいですね」と、その入力文が属する分野「一般」をクライアント端末40に入力したとする。
このとき、入力は文書の所在を示すURLなどでもよく、その場合はURLなどの示す場所の文書を取得して入力文とする。また、入力文が属する分野をユーザが入力せず、入力部12が入力文に含まれる単語から推定してもよい。
入力部12は、原言語の入力文が属する分野「一般」を切替部16に送り、切替部16は、これ以降、記憶部(優先度記憶部20、あるいは信頼度記憶部21)への参照および更新が行われるときは、送られた分野「一般」の記憶部に対して参照および更新を行う(S14)。
次に入力部12は、原言語の入力文を用例翻訳部13に送る。用例翻訳部13では、翻訳メモリ25の他に、あらかじめ記憶されている解析用ルールなどを利用して用例翻訳処理を行う(S15)。図5に用例翻訳部13の概略処理フローチャートを示す。用例翻訳部13では、まず原言語の入力文について、形態素解析(単語解析)を行い(S20)、次にこの解析結果を元に、翻訳メモリ25の中で入力文と類似する対訳用例を検索し(S21)、さらに入力文に対する訳文を1つ選択し翻訳文として出力する(S22)。類似する対訳用例は、例えば共通する単語の割合の高いものを類似することとできる。
なお、この用例翻訳部に相当する部分については、これまで様々な用例翻訳技術または翻訳支援技術が提案されており、本発明は翻訳メモリを使って入力文に対して訳文を出力するものであればいずれの技術(たとえば上述の特許文献1)を利用してもよく、また用例翻訳処理それ自体は本発明の趣旨ではないので、ここでは詳しい説明は省略する。
用例翻訳部13は、類似用例検索処理(S21)において、原言語文に対して複数の訳文が記憶されていて、そのうちの1つを選択しなければならないとき、優先度記憶部20の優先度を参照する。用例翻訳部13には、認証部11からユーザIDが送られている。用例翻訳部13は、優先度記憶部20から、その原言語文と訳文のエントリのうち、現在のユーザと同じユーザIDを持つエントリの訳文を選択し、同じユーザIDを持っエントリが無ければ、優先度の最も高い訳文を選択する。
原言語文「それはいいですね」に対して、翻訳メモリ25に訳文「Sounds good.」と「Good point.」が記憶されていたとすると、用例翻訳部13は、図2(A)に示す優先度記憶部20を参照する。現在のユーザのユーザIDである「001」を持っエントリはないので、優先度の最も高い「Good point.」が選択される。同様に、「今、何時?」の訳文として「Do you have the time?」が選択される。
用例翻訳部13は、得られた訳文を出力部14に送るが、翻訳メモリ25に複数の訳文が記憶されていたならば、その原言語文と各訳文とを出力部14に送る。この例では、「それはいいですね−“Sounds good.”、“Good point.”」が送られる。
出力部14は、送られた訳文を含む出力結果を作成し、クライアント端末40に送信する(S16)。出力結果としては、例えばクライアント端末40がWebブラウザによって翻訳結果を表示するならば、以下で説明する表示と動作を行うHTML文書を作成すればよい。
クライアント端末40では、翻訳装置10の出力部14から送信された出力結果を受け取り、Webブラウザが、例えば図6に示す表示60を行う。図6において、訳文62は他の訳文を持つため、リストボックス63が表示されている。ユーザは、訳文を変更したいと思えば、リストボックスをクリックし、他の訳文を参照することができる。図6では、他の訳文である「Good point.」を選択した(反転させた)状態を示している。また、ユーザが望む訳文がリストボックス中に存在しなければ、「新規登録」を選択し、新しい訳文を入力するフォームを表示させることもできる。ユーザが訳文を入力した(リストボックスから選択した)後に、再検索ボタン64をクリックすると、その訳文と原言語文がクライアント端末40から翻訳装置10の入力部12に送信される。
入力部12は、再び入力待ちにあり(S11)、クライアント端末40から原言語文とその訳文を受け取ると、すなわち対訳用例を受け取ると、それを更新部15に送る。更新部15には、認証部11からユーザIDが送られている。更新部15は、信頼度記憶部21から、現在のユーザの信頼度を取得し(S17)、優先度記憶部20のエントリを以下のように更新する(S18)。
ユーザが「それはいいですね」の訳文として「Sounds good.」を入力したとすると、原言語「それはいいですね」、目的言語「Sounds good.」のエントリに、現在のユーザのユーザIDである「001」を加える。優先度は、ユーザの信頼度が高いほど、より高くなるように更新する。ここでは、これまでにその訳文を入力したユーザの信頼度の合計を優先度とする。図2(A)に示す優先度記憶部20の原言語「それはいいですね」、目的言語「Sounds good.」のエントリにおける現在の優先度は「0.1」である。また、ユーザ(ユーザID=001)の信頼度は、図3(A)に示す信頼度記憶部21を参照すると「0.8」である。このため、原言語「それはいいですね」、目的言語「Sounds good.」の優先度は0.1+0.8=0.9となり、「0.9」が新たな優先度として優先度記憶部20の該当エントリに記憶される。その結果、優先度記憶部20のエントリは、図2(B)のように更新される。図2(B)では、「Sounds good.」の優先度が「Good point.」より高くなるため、次回の翻訳からは「それはいいですね」の訳文として「Sounds good.」が選択される。
ユーザが訳文の新規登録を行った場合は、原言語文と入力された訳文を、用例翻訳部13が持つ翻訳メモリ25に記憶する。さらに、優先度記憶部20にも新しいエントリを設け入力したユーザのユーザIDと、優先度の初期値としてユーザの信頼度とを記憶する。
用例翻訳部13は、更新部15が優先度記憶部20を更新した後に、再び用例翻訳処理を行う(S15)。用例翻訳処理では前述したとおり、現在のユーザと同じユーザIDを持つ訳文が選択されるため、現在のユーザ(ユーザID=001)が入力した訳文「Sounds good.」が得られ、出力部14からクライアント端末40に送信される(S16)。
なお、更新部15は、ユーザの信頼度があらかじめ定めた閾値以下であれば、そのユーザが入力した訳文の優先度を更新しない、あるいは新たな訳文を新規登録することを許可しないといった構成にすることができる。これにより、信頼度の低いユーザによって、誤った対訳用例が入力されることを防ぐことができる。
また、更新部15は、さらにユーザが入力した訳語の優先度を優先度記憶部20の該当エントリから取得し、該取得した優先度に応じて、信頼度記憶部21の該当ユーザの信頼度を更新する構成にすることもできる。これにより、人手で逐一信頼度を判定せずとも自動的にユーザの信頼度を測ることができる。信頼度の更新は、翻訳処理が行われるたびに行ってもよいし、あらかじめ定めておいた期間ごと(N回の翻訳ごとや、N日ごとなど)に行ってもよい。
例として、他のユーザによる用例翻訳が行われ、優先度記憶部20のエントリが図2(C)のようになったときに信頼度を更新する場合について説明する。信頼度は、そのユーザがこれまでに入力した訳文の優先度が高いほど、より高くなるように更新する。ここでは、そのユーザが入力した訳文の優先度を正規化したものの平均とする。正規化した優先度とは、同一の原言語の文に対する訳文の優先度の和が1になるように、各訳文の優先度の合計値で除した優先度である。図2(C)において、優先度の欄のカッコ内の値が正規化した優先度を示している。
ユーザIDが「001」のユーザが入力した対訳用例は「それはいいですね−“Sounds good.”」、「今、何時?−“Do you have the time?”」であるとすると、図2(C)の正規化された優先度から、信頼度は、(0.9+0.8)/2=0.85となる。同様にユーザIDが「002」のユーザは、「それはいいですね−“Good point”」、「今、何時?−What time is it now?”」の対訳用例を入力しているため、(0.1+0.2)/2=0.15となる。この結果、信頼度記憶部21のエントリは図3(B)のように更新される。
次に、上記第1の実施例の処理に加え、更新部15が対訳用例ごとの固定的な優先度である固定優先度、およびユーザごとの固定的な信頼度である固定信頼度をも用いて、さらに優先度記憶部20の対訳用例の優先度と信頼度記憶部21の信頼度を更新する第2の実施例について説明する。
本実施例の場合、優先度記憶部20には、対訳用例ごとに当該対訳用例の優先度(図2)に加えて、対訳用例ごとに固定的な優先度である固定優先度をあらかじめ記憶しておく。また、信頼度記憶部21には、ユーザごとに当該ユーザの信頼度(図3)に加えて、ユーザごとに固定的な信頼度である固定信頼度をあらかじめ記憶しておく。
図7は、優先度記憶部20に記憶されている固定優先度の一例である。
図7に示すように、優先度記憶部20の固定優先度のエントリは、原言語の文と、目的言語の訳文と、その訳文の固定的な優先度から構成される。固定優先度は0以上の数値で表され、大きい値は固定的な優先度が高いことを表している。固定優先度は、あらかじめ人間が判断して与えたりすることができる。図2に示したような優先度記憶部20に記憶されている固定でない優先度と違い、図7の固定優先度は翻訳を繰り返しても更新されることはなく絶対的な尺度として用いられる。
図8は、信頼度記憶部21に記憶されている固定信頼度の一例である。
図8に示すように、信頼度記憶部21の固定信頼度のエントリは、ユーザIDと、そのユーザの固定的な信頼度から構成される。固定信頼度は0から1までの数値で表され、1に近いほど固定的な信頼度が高いことを表している。固定信頼度は、ユーザから翻訳対象の言語を得意とするか否かを答えてもらって与えたり、あるいはシステム管理者が個別に判断して与えたりすることができる。図3に示したような信頼度記憶部21に記憶されている固定でない信頼度と違い、図8の固定信頼度は翻訳を繰り返しても更新されることはなく絶対的な尺度として用いられる。
以下に、図2および図3の例にもとづき、さらに図7および図8の固定優先度および固定信頼度をも用いて、本実施例における対訳用例の優先度もしくはユーザの信頼度を更新する動作を説明する。
更新部15は、図2(A)に示す優先度記憶部20のエントリを、図2(B)に示すように各訳文を入力したユーザの信頼度の合計に更新したのちに、図7に示す優先度記憶部20に記憶されている固定優先度を用いてさらに優先度を更新する。固定優先度を反映した優先度は、たとえば前述の正規化した優先度と国定優先度の平均の値で計算できる。例では、図2(B)の対訳用例「それはいいですね−“Sounds good.”」の正規化した優先度は0.9/(0.9+0.4)≒0.7となり、固定優先度は図7から0.8なので新しい優先度は(0.7+0.8)/2=0.75となる。
同様に他の訳文に対して計算した結果、優先度記憶部20のエントリは図9のように更新される。図9では、「Sounds good.」の優先度が「Good point.」より高いため、次回の翻訳では「それはいいですね」の訳文として「Sounds good.」が選択される。
また更新部15は、図3(A)に示す信頼度記憶部21のエントリを、図3(B)に示すように更新したのちに、図8に示す信頼度記憶部21に記憶されている固定信頼度を用いてさらに信頼度を更新することもできる。固定信頼度を反映した信頼度は、たとえばこの信頼度と固定信頼度の平均の値で計算できる。例では、ユーザIDが「001」のユーザについては、図3(B)の信頼度0.85と、図8に示す固定信頼度0.5の平均値0.68が新しい信頼度となる。同様に他のユーザに対して計算した結果、信頼度記憶部21のエントリは図10のように更新される。
この第2の実施例における更新部の処理は、翻訳処理が行われる度に行ってもよいし、あらかじめ定めておいた期間ごと(N回の翻訳ごとや、N日ごとなど)に行ってもよい。また、先に述べた更新処理に加えて、期間などをずらして行うことでもよい。
次に、更新部15が、優先度記憶部20の対訳用例の優先度と信頼度記憶部21のユーザの信頼度とを更新する処理の第3の実施例について説明する。図11に処理フローチャートを示す。この更新処理は、上述の第2の実施例と同様に、翻訳処理が行われる度に行ってもよいし、あらかじめ定めておいた期間ごと(N回の翻訳ごとや、N日ごとなど)に行ってもよい。また、先に述べた更新処理に加えて、期間などをずらして行うことでもよい。
まず、優先度記憶部20の全エントリを参照して(S30)、ユーザを識別するユーザIDと該ユーザが入力した対訳知識を関連付けた行列Aを生成する(S31)。
いま、n人のユーザとm個の対訳用例(例では原言語の文と訳文の対)があるとき、ユーザとそのユーザが入力した対訳用例とを関連付けた行列Aを以下のように表す。
Figure 2005141490
ここで、要素aijは、ユーザu(i=1,2,…,n)によって、対訳用例t(j=1,2,…,m)が入力されているならば、aij=1、されていないならばaij=0のように定義する。
次に、上記行列Aの転置行列をAとしたとき、行列AAの最大固有値に対応する固有ベクトルを求める(S32)。この固有ベクトルの各要素が前記対訳用例の優先度を表す。また、行列AAの最大固有値に対応する固有ベクトルを求める(S33)。この固有ベクトルの各要素が各ユーザの信頼度を表す。
いま、対訳用例tの優先度xを要素とするベクトルをx、ユーザuの信頼度yを要素とするベクトルをyで表す。ただし、x、yは、更新されるたびに正規化を行い、常にΣx=1、Σy=1であるとする。対訳用例tの優先度xは、tを入力としたユーザの信頼度の和から求めるとすると、
x=Ay (1)
で表される。またユーザuの信頼度yは、uが入力した対訳用例の優先度の和から求めるとすると、
y=Ax (2)
で表される。式(1)と式(2)は再帰的関係となっており、x、yに適当な初期値を与え、式(1)(2)を交互に適用していく。十分大きな回数適用後に、x、yは、それぞれ、AA、AAの最大固有値に対応する固有ベクトルに収束することが知られている(例えば、Jon M.Kleinberg,“Authoritative sources in a hyperlinked environment”,Proceedings of the 9th ACM−SIAM Symposium on Discrete Algorithms,1998参照)。
そこで、AA、AAの最大固有値に対応する固有ベクトルをそれぞれ求めて、x、yとするのである(S32、S33)。そして固有ベクトルxの各要素xを対訳用例tの優先度として、あらためて信頼度記憶部20に記憶する(S34)。また、固有ベクトルyの各要素yをユーザuの信頼度として、あらためて信頼度記憶部21に記憶する(S35)。
図2の例では、図2(C)に示されているユーザと対訳用例について、
:ユーザID=001
:ユーザID=002
:ユーザID=003
:それはいいですね−“Sounds good.”
:それはいいですね−“Good point.”
:今、何時?−“Do you have the time?”
:今、何時?−“What time is it now?”
とすると、A、AA、AAは以下となる。
Figure 2005141490
ここでは詳しく言及しないが、例えば、フリーのツールなどを計算機上で使って行列の固有ベクトルを簡単に求めることができる。それらを利用してATAの最大固有値に対応する固有ベクトルxを求めると、x=(0.85,0,0.53,0)となる。この求めた固有ベクトルxの各要素xを対訳用例tの優先度として、信頼度記憶部20に記憶する。同様に、AAの最大固有値に対応する固有ベクトルyを求めると、x=(0.85,0,0.53)となる。この求めた固有ベクトルyの各要素yをユーザuの信頼度として、あらためて信頼度記憶部21に記憶する。
この実施例によれば、ユーザが、誤った訳文や嘘の訳文を入力したとしても、その訳語を選ぶユーザが他にいなければ、優先度は高くならない。よって、他のユーザにその訳文を出力する可能性は低い。また、ユーザが入力した訳文の優先度が低ければ、そのユーザの信頼度が低くなる。よって、そのユーザが、他に誤った訳文や嘘の訳文を入力しても、その訳文が他のユーザに出力する可能性は低い。
次に、更新部15が、対訳用例の固定優先度およびユーザの固定信頼度を用いて、優先度記憶部20の対訳用例の優先度と信頼度記憶部21の信頼度を更新する第4の実施例について説明する。本実施例では、上記第3の実施例で定義した対訳用例tの優先度xを要素とするx、ユーザuの信頼度yを要素とするy、およびユーザとユーザが入力した対訳用例とを関連付けた行列Aを用いる。
対訳用例t(j=1,2,…,m)に対する固定優先度をcとしてこれを要素にした対角行列cを以下のように表す。
Figure 2005141490
このとき対訳用例tの優先度xは、tを入力としたユーザの信頼度の和に、その対訳用例の固定優先度cを乗じたものとすると、
x=CAy (3)
で表される。
またユーザu(i=1,2,…,n)に対する固定信頼度をvとして、これを要素にした対角行列Uを以下のように表す。
Figure 2005141490
このときユーザuの信頼度yは、uが入力した対訳用例の優先度の和に、そのユーザの固定信頼度vを乗じたものとすると、
y=UAx (4)
で表される。
先の式(1)と式(2)の場合と同様に、式(3)式(4)は再帰的関係になっており、上記第3の実施例と同様に式(3)(4)を繰り返し適用していくと、x、yはそれぞれCATUA、UACAの最大固有値に対する固有ベクトルに収束する。
よって、図11の処理フローと同様の処理によってCAUA、UACAの最大固有値に対する固有ベクトルを求め、x、yとする。そして、求まった固有ベクトルxの各要素を対訳用例tの優先度として、あらためて優先度記憶部20に記憶する。また、固有ベクトルyの各要素をユーザuの信頼度として、あらためて信頼度記憶部21に記憶する。
図7および図8の例では、図7に示される固定優先度を表す行列Cと、図8に示される固定信頼度を表す行列Uは以下となる。
Figure 2005141490
そして上記第3の実施例の行列Aを用いると、CAUA、UACAは以下となる。
Figure 2005141490
さらに、CAUAの最大固有値に対する固有ベクトルを求めると、x=(0.91,0,0.40,0)となる、この固有ベクトルの各要素を対訳用例の優先度として優先度記憶部20を更新する。同様にUACAの最大固有値に対する固有ベクトルを求めると、y=(0.63,0,0.78)となる。この固有ベクトルの各要素をユーザの信頼度として信頼度記憶部21を更新する。
この実施例によれば、あらかじめ与えられる静的な優先度・信頼度を、翻訳に使われる動的な優先度・信頼度に恒常的に反映できるので、システム製作者の意に反して過度に優先度・信頼度の値が変化することを防ぐことができる。なおこの更新方法において固定優先度ならびに固定信頼度を処理上無効にしたい場合は、それぞれ行列C,Uの対角要素を全て同じ値にすればよい。
次に、入力文から自動的に対訳用例を選択する選択部をユーザとみなして信頼度を記憶し、対訳用例の優先度、もしくは選択部を含むユーザの信頼度を更新する第5の実施例について説明する。
用例翻訳部13は、類似用例検索処理(図5のS21)において、原言語文に対して複数の訳文が記憶されていれば、原言語文と訳文のペアを出力部14と選択部17にも送る。選択部17は、入力部12から得られる原言語の入力文によって、入力文に関する対訳用例を自動的に選択する。選択部17は、翻訳装置10とは別の、例えば文脈から対訳用例を統計的に選択する翻訳システムを使ったり、あるいはルールベース翻訳システムの出力と最も類似する対訳用例を選択することができる。
先の例では、原言語の入力文「それはいいですね」あるいは「今、何時?」に対し、選択部17には原言語文と訳文のペア、すなわち「それはいいですね−“Sounds good.”,“Good point.”」、「今、何時?−“Do you have the time?”,What time is it now?”」が送られる。そして選択部17は入力文を元にして自動的に「それはいいですね」、「今、何時?」の訳文を選択する。ここでは「それはいいですね」の訳語として「Sounds good.」、「今、何時?」の訳文として「Do you have the time?」が選択されるものとする。
この後更新部15では、選択部17を一ユーザとみなし、他のユーザと同等に扱って更新処理が行われる。更新部15はこれまで述べた実施例の更新方法で優先度記憶部20もしくは信頼度記憶部21を更新する。この例では、選択部17のユーザIDが「M001」とされた場合、たとえば優先度記憶部20のエントリは図13、信頼度記憶部21のエントリは図12のようになる。
この実施例によれば、ユーザからの対訳用例の選択に加え、他の翻訳システムの選択を用いることができ、より多くの選択基準が反映されて正確な翻訳を行うことができる。
なお、上記第5の実施例では選択部は1つであったが、複数の選択部があってもよく、その場合もそれぞれを一ユーザとみなして複数の選択部を扱いながら翻訳することができる。
なお、図1で示した翻訳装置10における各処理部の一部もしくは全部の処理機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、あるいは、図4、図5、図11などで示した処理手順をコンピュータのプログラムで構成し、その各ステップをCPU等の制御手段で実行させ、処理に必要なデータや処理結果のデータ等を記憶手段に記憶するなどして、本発明を実現できることは言うまでもない。また、コンピュータでその処理機能を実現するためのプログラム、あるいは、コンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、FDや、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、提供したりすることができるとともに、インターネット等のネットワークを通してそのプログラムを配布したりすることが可能である。そして、このプログラムをネットワーク又は記録媒体からコンピュータにインストールして実行するのである。
本発明の一実施形態の全体的構成図である。 優先度記憶部に記憶されている優先度エントリの一例である。 信頼度記憶部に記憶されている信頼度エントリの一例である。 本発明の一実施形態の全体的フローチャートである。 用例翻訳部での用例検索処理を示すフローチャートの一例である。 クライアント端末における用例翻訳結果の表示例である。 優先度記憶部に記憶されている固定優先度エントリの一例である。 信頼度記憶部に記憶されている固定信頼度エントリの一例である。 優先度記憶部に記憶されている優先度エントリの一例である。 信頼度記憶部に記憶されている信頼度エントリの一例である。 更新部での更新処理の一実施例を示すフローチャートである。 信頼度記憶部に記憶されている信頼度エントリの一例である。 優先度記憶部に記憶されている優先度エントリの一例である。
符号の説明
10 翻訳装置
11 認証部
12 入力部
13 用例翻訳部
14 出力部
15 更新部
16 切替部
17 選択部
20 優先度記憶部
21 信頼度記憶部
25 翻訳メモリ
30 ネットワーク
40 クライアント端末

Claims (16)

  1. 複数のユーザで共用される用例翻訳装置であって、
    原言語の入力文、ユーザが入力した対訳用例を受け付ける入力手段と、
    ユーザごとに当該ユーザの信頼度を記憶する信頼度記憶手段と、
    対訳用例ごとに当該対訳用例の優先度を記憶する優先度記憶手段と、
    対訳用例を入力したユーザの信頼度を前記信頼度記憶手段より取得し、前記優先度記憶手段に記憶されている当該対訳用例の優先度を、前記取得した信頼度に応じて更新する更新手段と、
    原言語の入力文に対する対訳用例を検索し、当該入力文に類似する対訳用例が複数存在する場合、優先度記憶手段に記憶されている優先度が最も高い対訳用例を選択する用例翻訳手段と、
    前記用例翻訳手段による用例翻訳結果を出力する出力手段と、
    を有することを特徴とする用例翻訳装置。
  2. 前記更新手段は、ユーザが入力した対訳用例の優先度を前記優先度記憶手段より取得し、前記信頼度記憶手段に記憶されている当該ユーザの信頼度を、前記取得した優先度に応じて更新する手段をさらに含むことを特徴とする請求項1に記載の用例翻訳装置。
  3. 前記優先度記憶手段は、対訳用例ごとに当該対訳用例の固定的な優先度である固定優先度をさらに記憶し、
    前記更新手段は、前記優先度記憶手段に記憶されている当該対訳用例の優先度を、当該対訳用例の固定優先度を用いて更新することを特徴とする請求項1または請求項2に記載の用例翻訳装置。
  4. 前記信頼度記憶手段は、ユーザごとに当該ユーザの固定的な信頼度である固定信頼度をさらに記憶し、
    前記更新手段は、前記信頼度記憶手段に記憶されている当該ユーザの信頼度を、当該ユーザの固定信頼度も用いて更新することを特徴とする請求項2または請求項3に記載の用例翻訳装置。
  5. 前記更新手段は、前記対訳用例を入力したユーザの信頼度があらかじめ定められた値を超えない場合は、該対訳用例の優先度を更新しないことを特徴とする請求項1乃至4のいずれか1項に記載の用例翻訳装置。
  6. 前記更新手段は、ユーザを行(あるいは列)、対訳用例を列(あるいは行)とし、その要素がユーザと該ユーザが入力した当該対訳用例との関連付けを表す行列Aを生成し、該行列Aの転置行列をAとして、行列AAの最大固有値に対応する固有ベクトルを求め、該固有ベクトルの各要素を前記対訳用例の優先度として前記優先度記憶手段に記憶し、さらに行列AAの最大固有値に対応する固有ベクトルを求め、該固有ベクトルの各要素を前記ユーザの信頼度として前記信頼度記憶手段に記憶することを特徴とする請求項1乃至5のいずれか1項に記載の用例翻訳装置。
  7. 前記優先度記憶手段は、対訳用例ごとに当該対訳用例の固定的な優先度である固定優先度をさらに記憶し、
    前記信頼度記憶手段は、ユーザごとに当該ユーザの固定的な信頼度である固定信頼度をさらに記憶し、
    前記更新手段は、ユーザが行(あるいは列)、対訳用例を列(あるいは行)とし、その要素がユーザと該ユーザが入力した当該対訳用例との関連付けを表す行列Aを生成し、該行列Aの転置行列をA、前記固定優先度を要素とした対角行列をC、前記固定信頼度を要素とした対角行列をUとしたときの行列CAUAの最大固有値に対応する固有ベクトルを求め、該固有ベクトルの各要素を前記対訳用例の優先度として前記優先度記憶手段に記憶し、さらに行列UACAの最大固有値に対応する固有ベクトルを求め、該固有ベクトルの各要素を前記ユーザの信頼度として前記信頼度記憶手段に記憶することを特徴とする請求項1乃至5のいずれか1項に記載の用例翻訳装置。
  8. 前記入力文を入力して自動的に対訳用例を選択する選択手段をさらに有し、
    前記信頼度記憶手段は、前記選択手段をユーザとみなして該選択手段に対する信頼度を記憶することを特徴とする請求項1乃至7のいずれか1項に記載の用例翻訳装置。
  9. ユーザごとに当該ユーザの信頼度を記憶する信頼度記憶手段と、対訳用例ごとに当該対訳用例の優先度を記憶する優先度記憶手段を備えて、複数のユーザで共用される翻訳システムにおける用例翻訳処理方法であって、
    原言語の入力文、ユーザが入力した対訳用例を受け付けるステップと、
    対訳用例を入力したユーザの信頼度を前記信頼度記憶手段より取得し、前記優先度記憶手段に記憶されている当該対訳用例の優先度を、前記取得した信頼度に応じて更新するステップと、
    原言語の入力文に対する対訳用例を検索し、当該入力文ら類似する対訳用例が複数存在する場合、前記優先度記憶手段に記憶されている優先度が最も高い対訳用例を選択するステップと、
    用例翻訳結果を出力するステップと、
    を有することを特徴とする用例翻訳処理方法。
  10. 前記更新ステップは、ユーザが入力した対訳用例の優先度を前記優先度記憶手段より取得し、前記信頼度記憶手段に記憶されている当該ユーザの信頼度を、前記取得した優先度に応じて更新するステップを更に含むことを特徴とする請求項9に記載の用例翻訳処理方法。
  11. 前記優先度記憶手段には、対訳用例ごとに当該対訳養鶏の固定的な優先度である固定優先度がさらに記憶されており、
    前記更新ステップは、前記優先度記憶手段に記憶されている当該対訳用例の優先度を、当該対訳用例の固定優先度も用いて更新することを特徴とする請求項9または10に記載の用例翻訳処理方法。
  12. 前記信頼度記憶手段には、ユーザごとに当該ユーザの固定的な信頼度である固定信頼度がさらに記憶されており、
    前記更新ステップは、前記信頼度記憶手段に記憶されている当該ユーザの信頼度を、当該ユーザの固定信頼度も用いて更新することを特徴とする請求項10または11に記載の用例翻訳処理方法。
  13. 前記更新ステップは、ユーザを行(あるいは列)、対訳用例を列(あるいは行)とし、その要素が当該ユーザと該ユーザが入力した当該対訳用例との関連付けを表わす行列Aを生成し、該行列Aの転置行列をAとして、行列AAの最大固有値に対応する固有ベクトルを求め、該固有ベクトルの各要素を前記対訳用例の優先度として前記優先度記憶手段に記憶し、さらに行列AAの最大固有値に対応する固有ベクトルを求め、該固有ベクトルの各要素を前記ユーザの信頼度として前記信頼度記憶手段に記憶することを特徴とする請求項9乃至12のいずれか1項に記載の用例翻訳処理方法。
  14. 前記優先度記憶手段には、対訳用例ごとに当該対訳用例の固定的な優先度である固定優先度がさらに記憶されており、
    前記信頼度記憶手段には、ユーザごとに当該ユーザの固定的な信頼度である固定信頼度がさらに記憶されており、
    前記更新ステップは、ユーザを行(あるいは列)、対訳用例を列(あるいは行)とし、その要素が当該ユーザと該ユーザが入力した当該対訳用例との関連付けを表わす行列Aを生成し、該行列Aの転置行列をA、対訳用例ごとの固定優先度を要素とした対角行列をC、ユーザごとに固定信頼度を要素とした対角行列をUとしたときの行列UACAの最大固有値に対応する固有ベクトルを求め、該固有ベクトルの各要素を前記対訳用例の優先度として前記優先度記憶手段に記憶し、さらに、行列CAUAの最大固有値に対応する固有ベクトルを求め、該固有ベクトルの各要素を前記ユーザの信頼度として前記信頼度記憶手段に記憶することを特徴とする請求項9乃至12のいずれか1項に記載の用例翻訳処理方法。
  15. 請求項9乃至14のいずれか1項に記載の用例翻訳処理方法をコンピュータで実行するためのプログラム。
  16. 請求項9乃至14のいずれか1項に記載の用例翻訳処理方法をコンピュータで実行するためのプログラムを記録した記録媒体。
JP2003377241A 2003-11-06 2003-11-06 用例翻訳装置、用例翻訳処理方法、そのプログラム及び記録媒体 Pending JP2005141490A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003377241A JP2005141490A (ja) 2003-11-06 2003-11-06 用例翻訳装置、用例翻訳処理方法、そのプログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003377241A JP2005141490A (ja) 2003-11-06 2003-11-06 用例翻訳装置、用例翻訳処理方法、そのプログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2005141490A true JP2005141490A (ja) 2005-06-02

Family

ID=34688031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003377241A Pending JP2005141490A (ja) 2003-11-06 2003-11-06 用例翻訳装置、用例翻訳処理方法、そのプログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2005141490A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015215660A (ja) * 2014-05-08 2015-12-03 株式会社インフィニトラベルインフォメーション 運賃規則翻訳システム、運賃規則翻訳方法、及び運賃規則翻訳プログラム
JP2016100021A (ja) * 2014-11-26 2016-05-30 ネイバー コーポレーションNAVER Corporation 翻訳文エディタ提供装置、並びに翻訳文エディタ提供方法
JP2018500698A (ja) * 2015-03-27 2018-01-11 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 翻訳情報の提供方法及びシステム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015215660A (ja) * 2014-05-08 2015-12-03 株式会社インフィニトラベルインフォメーション 運賃規則翻訳システム、運賃規則翻訳方法、及び運賃規則翻訳プログラム
JP2016100021A (ja) * 2014-11-26 2016-05-30 ネイバー コーポレーションNAVER Corporation 翻訳文エディタ提供装置、並びに翻訳文エディタ提供方法
CN105630758A (zh) * 2014-11-26 2016-06-01 纳宝株式会社 用于提供译文编辑器的设备和方法
US9881008B2 (en) 2014-11-26 2018-01-30 Naver Corporation Content participation translation apparatus and method
US10496757B2 (en) 2014-11-26 2019-12-03 Naver Webtoon Corporation Apparatus and method for providing translations editor
US10713444B2 (en) 2014-11-26 2020-07-14 Naver Webtoon Corporation Apparatus and method for providing translations editor
US10733388B2 (en) 2014-11-26 2020-08-04 Naver Webtoon Corporation Content participation translation apparatus and method
JP2018500698A (ja) * 2015-03-27 2018-01-11 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 翻訳情報の提供方法及びシステム
US10176169B2 (en) 2015-03-27 2019-01-08 Baidu Online Network Technology (Beijing) Co., Ltd. Method and system for providing translation information

Similar Documents

Publication Publication Date Title
JP5074378B2 (ja) クエリ用語および返答用語を含む情報ソースからのスニペットを有するファクトクエリエンジンのユーザインタフェース
JP3484779B2 (ja) 名前サービス方式及び名前サービス方法
US7765464B2 (en) Method and system for dynamically assembling presentations of web pages
US20050289134A1 (en) Apparatus, computer system, and data processing method for using ontology
US20060173815A1 (en) Facilitating Identification of Entire Web Pages When Each Web Page is Rendered From Multiple Portions and Interest is Expressed Based on Content of the Portions
JP6332781B2 (ja) 翻訳システム
JP7254925B2 (ja) 改良されたデータマッチングのためのデータレコードの字訳
CN111435406A (zh) 一种纠正数据库语句拼写错误的方法和装置
JP2009037501A (ja) 情報検索装置、情報検索方法およびプログラム
JP2009265754A (ja) 情報提供装置、情報提供方法及び情報提供プログラム
JP2010237721A (ja) 検索システム、検索方法および検索用プログラム
JP6640519B2 (ja) 情報分析装置及び情報分析方法
US8971644B1 (en) System and method for determining an annotation for an image
JP2020123321A (ja) クリップボードデータに基づく検索処理方法および装置
JP2005141490A (ja) 用例翻訳装置、用例翻訳処理方法、そのプログラム及び記録媒体
US7805667B2 (en) System and method for identifying target node graphs from predetermined seed node subsets
US20170124156A1 (en) Search system
JP4017077B2 (ja) 翻訳装置及び翻訳処理プログラム
Chen et al. A new multivariate CUSUM chart using principal components with a revision of Crosier's chart
JP5228529B2 (ja) データ検索プログラム、データ検索装置およびデータ検索方法
JP2006309377A (ja) 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体
US20210097447A1 (en) Computer System and Method for Supporting Model Selection
KR101583073B1 (ko) 기사 요약 서비스 서버 및 방법
JP2008225957A (ja) 文書検索装置、方法、及びプログラム
JP2006185167A (ja) ファイル検索方法、ファイル検索装置、および、ファイル検索プログラム