JP4017077B2 - 翻訳装置及び翻訳処理プログラム - Google Patents
翻訳装置及び翻訳処理プログラム Download PDFInfo
- Publication number
- JP4017077B2 JP4017077B2 JP2003108674A JP2003108674A JP4017077B2 JP 4017077 B2 JP4017077 B2 JP 4017077B2 JP 2003108674 A JP2003108674 A JP 2003108674A JP 2003108674 A JP2003108674 A JP 2003108674A JP 4017077 B2 JP4017077 B2 JP 4017077B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- user
- priority
- reliability
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、原言語の入力文を目的言語に変換する機械翻訳に関し、特に、複数のユーザで利用され、各ユーザが翻訳知識を入力することができる翻訳装置及び翻訳処理プログラムに関する。
【0002】
【従来の技術】
一般的な機械翻訳システムには、ユーザ辞書登録機能が備わっていることが多い。ユーザ辞書には、システム辞書に登録されていない訳語や翻訳パターンなどの翻訳知識をそれぞれのユーザが個別に登録することができる。また、システム辞書に登録されている訳語であっても、システムが選択する訳語が誤っているときは、訳語の優先順位(優先度)を変更し、ユーザが望む訳語を使った翻訳を行うことができる。
【0003】
一方、近年、機械翻訳システムを利用した翻訳サービスがインターネットのWWW上で公開されている。このサービスは、ユーザが言語対と、任意のテキスト文章、あるいは、任意のHTML文書のURLを送信すると、そのテキスト文章、あるいは、HTML文書を翻訳した結果をWebブラウザに返信するサービスである。
【0004】
従来、このようなネットワーク環境の普及に伴い、例えば、ユーザ辞書に登録されている翻訳知識を他のユーザに公開し、他のユーザと翻訳知識を共有することで、多くの翻訳知識を有効に活用することができ、さらに、辞書の構築が容易に行えるようにした辞書流通システムがある(特許文献1参照)。また、ユーザ辞書をサーバ側に用意し、複数のユーザが、そのユーザ辞書を読み込んだり、書き込んだりすることができる翻訳システムもある(特許文献2参照)。
【0005】
【特許文献1】
特開平10−269201号公報
【特許文献2】
特開2001−34613号公報
【0006】
【発明が解決しようとする課題】
WWW上で公開された機械翻訳サービスなど、ユーザが不特定多数である場合、ユーザが登録する翻訳知識(原言語の単語等と目的言語の単語等の対応関係)を共有すれば、より多くの翻訳知識をシステムに蓄積することができる。しかし、ユーザの誤りや、悪意のあるユーザによる嘘の知識などが存在するかもしれないため、ユーザが登録した翻訳知識が信頼できるか不明であり、他のユーザに公開すると、システムの翻訳精度を落すことになりかねない。
【0007】
また、ある単語に対して、複数のユーザがそれぞれ別の訳語を登録した場合や、それぞれ別の訳語の優先順位を上げようとした場合など、背反する翻訳知識が複数のユーザによって入力された場合、システムはいずれの知識を用いて翻訳すればよいか不明確である。
【0008】
本発明は、このような従来技術の問題に鑑みてなされたものであり、複数のユーザによって登録される翻訳知識について、ユーザの信頼度を設け、ユーザが入力した翻訳知識の優先度を、そのユーザの信頼度によって測ることで、より正確に翻訳知識を選択することができる翻訳装置及び翻訳処理プログラムを提供することを目的とする。
【0009】
また、本発明の別の目的は、ユーザの信頼度を人手で逐一判定せずとも、自動的に信頼度の判定を行うことができる翻訳装置及び翻訳処理プログラムを提供することである。
【0010】
【課題を解決するための手段】
本発明は、ユーザの信頼度と翻訳知識の優先度とを記憶し、入力文に適用可能な翻訳知識が複数ある場合、翻訳知識の優先度が最も高い翻訳知識を選択して翻訳を行い、ユーザが入力した翻訳知識を受け付け、入力された翻訳知識の優先度を、入力したユーザの信頼度に応じて更新することを主要な特徴とする。さらにユーザが入力した翻訳知識の優先度に応じてユーザの信頼度を更新することを特徴とする。
【0011】
また、本発明は、翻訳知識毎に当該翻訳知識の固定的な優先度である固定優先度と、ユーザ毎に当該ユーザの固定的な信頼度である固定信頼度を記憶しておき、該固定優先度と固定信頼度をも加味して、翻訳知識の優先度やユーザの信頼度を更新することを特徴とする。
【0012】
また、本発明は、ユーザとユーザが入力した翻訳知識とを関連付けた行列Aを生成し、行列Aの転置行列をATとしたとき、行列ATAの最大固有値に対応する固有ベクトルを求め、固有ベクトルの各要素を翻訳知識の優先度として記憶することを特徴とする。さらに、行列AATの最大固有値に対応する固有ベクトルを求め、固有ベクトルの各要素をユーザの信頼度として記憶することを特徴とする。
【0013】
また、本発明は、固定優先度を要素とした対角行列をC、固定信頼度を要素とした対角行列をUとしたときの行列UATCAの最大固有値に対応する固有ベクトルを求め、該固有ベクトルの各要素を翻訳知識の優先度として記憶し、さらに行列CAUATの最大固有値に対応する固有ベクトルを求め、該固有ベクトルの各要素をユーザの信頼度として記憶することを特徴とする。
【0014】
さらに、本発明は、入力文に対する翻訳知識を自動で選択する手段を備えて、該選択手段を一ユーザとみなして、優先度もしくは信頼度を更新することを特徴とする。
【0015】
【発明の実施の形態】
以下、図面を使用して本発明の一実施形態を詳細に説明する。
図1は、本発明を適用した翻訳システムの一実施形態を示す全体構成図である。図1において、本発明による翻訳装置10と複数のクライアント端末40とが、インターネット等のネットワーク30に接続されている。各ユーザはクライアント端末40から、ネットワーク30を介して本発明による翻訳装置10を利用する。
【0016】
翻訳装置10は、ユーザ認証を行う認証部11、原言語の入力文、または、ユーザが入力した翻訳知識を受け付ける入力部12、入力文を目的言語に翻訳する翻訳部13、翻訳結果などを出力する出力部14、優先度記憶部20に記憶された翻訳知識の優先度、及び、信頼度記憶部21に記憶されたユーザの信頼度を更新する更新部15、入力文が属する分野によって優先度記憶部20及び信頼度記憶部21を切替える切替部16、翻訳知識の優先度が記憶された優先度記憶部20、ユーザの信頼度が記憶された信頼度記憶部21などからなる。また、翻訳部13は翻訳に利用するシステム辞書25、及び、ユーザ辞書26を備えている。なお、翻訳装置10は、これら各部の動作を制御する制御部を備えているが、図1では省略してある。
【0017】
優先度記憶部20及び信頼度記憶部21は、分野ごとに設けられ、それぞれの分野における翻訳知識の優先度、及び、ユーザの信頼度を記憶している。例えば、図1では、「一般」、「経済」、「IT」の3つの分野に対して用意されている。このように、翻訳知識の優先度及びユーザの信頼度を分野ごとに設けることにより、分野ごとの正確な翻訳が可能となり、また、ユーザの信頼度を分野ごとに判定することができる。
【0018】
図2は、優先度記憶部20の分野「一般」に記憶されているエントリの一例である。図2に示すように、優先度記憶部20のエントリは、原言語の単語と、目的言語の訳語と、その訳語の優先度と、その訳語を入力したユーザのユーザIDとから構成される。この優先度記憶部20には、翻訳部13が持つシステム辞書25及びユーザ辞書26に記憶されているすべての単語と訳語の対(翻訳知識)について、その優先度が記憶されている。その優先度は、0以上の数値で与え、この数値が大きいほど優先度が高いことを表わしている。優先度の初期値には、例えば、すべての単語に同じ優先度を与えることや、システム辞書25に記述されている優先順位から与えることができる。ここで、図2(A)は、ある時点における優先度記憶部20のエントリの状態(更新前)、図2(B)は、その状態から優先度が更新された状態(更新後)を示している。また、図2(C)は、優先度を正規化して表わしたものである。
【0019】
図3は、信頼度記憶部21の分野「一般」に記憶されているエントリの一例である。図3に示すように、信頼度記憶部21のエントリは、ユーザIDと、そのユーザの信頼度とから構成される。信頼度は、0から1までの数値で与え、1に近いほど信頼度が高いことを表わしている。信頼度の初期値には、例えば、すべてのユーザに同じ信頼度を与えることや、ユーザから翻訳対象の言語を得意とするか否かを申告してもらい与えることができる。ここで、図3(A)は、ある時点における信頼度記憶部21のエントリの状態(更新前)、図3(B)は、その状態から信頼度が更新された状態(更新後)を示している。
【0020】
図4は翻訳装置10の全体的処理フローチャートである。以下に、図1乃至図4に基づいて本発明の第1の実施例の動作を説明する。なお、以下では、英語から日本語に翻訳する場合を例にあげ、英語文「Link to the bank of NewYork」を日本語に翻訳するものとする。
【0021】
クライアント端末40から翻訳装置10にアクセスがあると、認証部11が、当該クライアント端末40に対して、ユーザを識別するユーザIDとパスワードの入力を要求するメッセージを送信する。ユーザがクライアント端末40にユーザIDとパスワードを入力すると、認証部11は、予め登録されているユーザID、パスワードと照合するなどしてユーザ認証を行う(s10)。この例では、ユーザIDは「001」であるとする。
【0022】
入力部12は、クライアント端末40からの入力を受けるまで待ち(s11)、入力があると、翻訳知識の訳語の入力か、原言語の入力か判別する(s12,s13)。ここでは、ユーザが、原言語の入力文「Link to the bank of NewYork」と、その入力文が属する分野「一般」をクライアント端末40に入力したとする。このとき、入力は文書の所在を示すURL等でもよく、その場合は、URL等の示す場所の文書を取得して入力文とする。また、入力文が属する分野をユーザが入力せず、入力部12が、入力文に含まれる単語から推定してもよい。
【0023】
入力部12は、原言語の入力文が属する分野「一般」を切替部16に送り、切替部16は、これ以降、記憶部(優先度記憶部20、あるいは、信頼度記憶部21)への参照及び更新が行われるときは、送られた分野「一般」の記憶部に対して参照及び更新を行う(s14)。
【0024】
次に、入力部12は、原言語の入力文を翻訳部13に送る。翻訳部13では、システム辞書25、ユーザ辞書26の他に、予め記憶されている解析用ルール、変換用ルールなどを利用して翻訳処理を行う(s15)。図5に翻訳部13の概略処理フローチャートを示す。翻訳部13では、まず、原言語の入力文について、単語解析、係り受け等の形態素解析(s20)、さらには構文解析を行う(s21)。次に、この解析結果を元に、変換ルールなどを用いて原言語表現を目的言語表現に変換し(s22)、この目的言語表現を元に、システム辞書25やユーザ辞書26を利用して翻訳文を生成する(s23)。
【0025】
なお、これまで、様々な機械翻訳技術が提案され、実用化されており(例えば、特開昭63−086071号公報など)、本発明はいずれの技術を利用してもよく、また、翻訳処理それ自体は本発明の主旨ではないので、ここでは詳しい説明は省略する。
【0026】
翻訳部13は、訳文生成処理(s23)において、ある単語に対して複数の訳語がシステム辞書25、あるいは、ユーザ辞書26に記憶されており、そのうちの一つを選択しなければならないとき、優先度記憶部20の優先度を参照する。翻訳部13には、認証部11からユーザIDが送られている。翻訳部13は、優先度記憶部20から、その単語と訳語のエントリのうち、現在のユーザと同じユーザIDを持つエントリの訳語を選択し、同じユーザIDを持つエントリが無ければ、優先度の最も高い訳語を選択する。
【0027】
単語「bank」に対して、システム辞書25に訳語「土手」と「銀行」が記憶されていたとすると、翻訳部13は、図2(A)に示す優先度記憶部20を参照する。現在のユーザのユーザIDである「001」を持つエントリは無いので、優先度の最も高い「土手」が選択される。同様に、「link」の訳語として「リンク」が選択される。選択した訳語を用いて、翻訳部13は訳文生成処理を行い、その結果、「ニューヨークの土手へのリンク」という訳文が得られる。
【0028】
翻訳部13は、得られた訳文を出力部14に送り、複数の訳語が記憶されていた単語があれば、その単語と訳語とを出力部14に送る。この例では、「bank−銀行、土手」、「link−リンク、輪」の2組が送られる。
【0029】
出力部14は、送られた訳文と訳語とを含む出力結果を作成し、クライアント端末40に送信する(s16)。出力結果としては、例えば、クライアント端末40がWebブラウザによって翻訳結果を表示するならば、以下で説明する表示と動作を行うHTML文書を作成すればよい。
【0030】
クライアント端末40では、翻訳装置10の出力部14から送信された出力結果を受け取り、Webブラウザが、例えば、図6に示す表示60を行う。図6において、訳文62中の「土手」、「リンク」は、他の訳語を持つため、リストボックス63が表示されている。ユーザは、訳語を変更したいと思えば、変更したい訳語のリストボックス73をクリックし、他の訳語を参照することができる。図6では、「土手」のリストボックスをクリックし、他の訳語である「銀行」を選択した(反転させた)状態を示している。また、ユーザが望む訳語がリストボックス中に存在しなければ、「新規登録」を選択し、新しい訳語を入力するフォームを表示させることもできる。ユーザが訳語を入力した(リストボックスから選択した)後に、再翻訳ボタン64をクリックすると、その訳語と対応する原言語の単語がクライアント端末40から翻訳装置10の入力部12に送信される。
【0031】
入力部12は、再び入力待ちにあり(s11)、クライアント端末40から原言語の単語とその訳語とを受け取ると、即ち、翻訳知識を受け取ると、それを更新部15に送る。更新部15には、認証部11からユーザIDが送られている。更新部15は、信頼度記憶部21から、現在のユーザの信頼度を取得し(s17)、優先度記憶部20のエントリを以下のように更新する(s18)。
【0032】
ユーザが「bank」の訳語として「銀行」を入力したとすると、原言語「bank」、目的言語「銀行」のエントリに、現在のユーザのユーザIDである「001」を加える。優先度は、ユーザの信頼度が高いほど、より高くなるように更新する。ここでは、これまでにその訳語を入力したユーザの信頼度の合計を優先度とする。図2(A)に示す優先度記憶部20の原言語「bank」、目的言語「銀行」のエントリの現在の優先度は「0.1」である。また、現在のユーザ(ユーザID001)の信頼度は、図3(A)に示す信頼度記憶部21を参照すると「0.8」である。このため、原言語「bank」、訳語「銀行」の優先度は、0.1+0.8=0.9となり、「0.9」が新たな優先度として優先度記憶部20の該当エントリに記憶される。
【0033】
その結果、優先度記憶部20のエントリは、図2(B)のように更新される。図2(B)では、「銀行」の優先度が「土手」より高くなるため、次回の翻訳からは、「bank」の訳語として「銀行」が選択される。
【0034】
ユーザが訳語の新規登録を行った場合は、原言語の単語と、入力された訳語とを、翻訳部13が持つユーザ辞書26に記憶する。さらに、優先度記憶部20にも新しいエントリを設け、入力したユーザのユーザIDと、優先度の初期値としてユーザの信頼度とを記憶する。
【0035】
翻訳部13は、更新部15が優先度記憶部20を更新した後に、再び翻訳処理を行う(s15)。翻訳処理では、前述した通り、現在のユーザと同じユーザIDを持つ訳語が選択されるため、現在のユーザ(ユーザID=001)が入力した訳語「銀行」を使用した翻訳結果が得られ、出力部14からは、訳文「ニューヨークの銀行へのリンク」がクライアント端末40に送信される(s16)。
【0036】
なお、更新部15は、ユーザの信頼度が予め定めた閥値以下であれば、そのユーザが入力した訳語の優先度を更新しない、あるいは、新たな訳語を新規登録することを許可しないといった構成にすることができる。これにより、信頼度の低いユーザによって、誤った翻訳知識が入力されることを防ぐことができる。
【0037】
また、更新部15は、さらにユーザが入力した訳語の優先度を優先度記憶部20の該当エントリから取得し、該取得した優先度に応じて、信頼度記憶部21の該当ユーザの信頼度を更新する構成にすることもできる。これにより、人手で逐一信頼度を判定せずとも、自動的にユーザの信頼度を測ることができる。信頼度の更新は、翻訳処理が行なわれる度に行ってもよいし、あらかじめ定めておいた期間毎(N回の翻訳毎や、N日毎など)に行ってもよい。
【0038】
例として、他のユーザによる翻訳が行われ、優先度記憶部20のエントリが図2(C)のようになったときに信頼度を更新する場合について説明する。信頼度は、そのユーザがこれまでに入力した訳語の優先度が高いほど、より高くなるように更新する。ここでは、そのユーザが入力した訳語の優先度を正規化したものの平均とする。正規化した優先度とは、同一の原言語の単語に対する訳語の優先度の和が1となるように、各訳語の優先度の合計で除した優先度である。図2(C)において、優先度の欄の()内の値が正規化した優先度を示している。
【0039】
ユーザIDが「001」のユーザが入力した訳語は「bank−銀行」、「link−リンク」であるとすると、図2(C)の正規化された優先度から、信頼度は、(0.9+0.8)/2=0.85となる。同様に、ユーザIDが「002」のユーザは、「bank−土手」、「link−輪」を入力しているため、(0.1+0.2)/2=0.15となる。この結果、信頼度記憶部21のエントリは図3(B)のように更新される。
【0040】
次に、上記第1の実施例の処理に加え、更新部15が、翻訳知識ごとの固定的な優先度である固定優先度、およびユーザごとの固定的な優先度である固定信頼度も用いて、更に優先度記憶部20の翻訳知識の優先度と信頼度記憶部21の信頼度を更新する第2の実施例について説明する。本実施例の場合、優先度記憶部20には、翻訳知識毎に当該翻訳知識の優先度(図2)に加えて、翻訳知識毎に当該翻訳知識の固定的な優先度である固定優先度をあらかじめ記憶しておく。また、信頼度記憶部21には、ユーザ毎に当該ユーザの信頼度(図3)に加えて、ユーザ毎に当該ユーザの固定的な信頼度である固定信頼度をあらかじめ記憶しておく。
【0041】
図7は、優先度記憶部20に記憶されている固定優先度の一例である。図7に示すように、優先度記憶部20の固定優先度のエントリは、原言語の単語と、目的言語の訳語と、その訳語の固定的な優先度から構成される。その固定優先度は0以上の数値で表され、大きい値は固定的な優先度が高いことを表している。固定優先度は、あらかじめ人間が判断して与えたり、システム辞書25に記述されている優先順位から与えたりすることができる。図2に示したような優先度記憶部20に記憶されている固定でない優先度と違い、図7の固定優先度は翻訳を繰り返しても更新されることはなく絶対的な尺度として用いられる。
【0042】
図8は、信頼度記憶部21に記憶されている固定信頼度の一例である。図8に示すように、信頼度記憶部21の固定信頼度のエントリは、ユーザIDと、そのユーザの固定的な信頼度から構成される。固定信頼度は0から1までの数値で表され、1に近いほど固定的な信頼度が高いことを表している。固定信頼度は、ユーザから翻訳対象の言語を得意とするか否かを答えてもらって与えたり、あるいはシステム管理者が個別に判断して与えたりすることができる。図3に示したような信頼度記憶部21に記憶されている固定でない信頼度と違い、図8の固定信頼度は翻訳を繰り返しても更新されることはなく絶対的な尺度として用いられる。
【0043】
以下に図2及び図3の例にもとづき、更に図7及び図8の固定優先度および固定信頼度をも用いて、翻訳知識の優先度もしくはユーザの信頼度を更新する動作を説明する。
【0044】
更新部15は、図2(A)に示す優先度記憶部20のエントリを、図2(B)に示すように各訳語を入力したユーザの信頼度の合計に更新したのちに、図7に示す優先度記憶部20に記憶されている固定優先度を用いてさらに優先度を更新する。固定優先度を反映した優先度は、たとえば前述の正規化した優先度と固定優先度の平均の値で計算できる。例では、図2(B)の原言語「bank」、訳語「銀行」の正規化した優先度は0.9/(0.9+0.4)≒0.7となり、固定優先度は図7から0.8なので、新しい優先度は(0.7+0.8)/2=0.75となる。
同様に他の訳語に対して計算した結果、優先度記憶部20のエントリは図9のように更新される。図9では、「銀行」の優先度が「土手」より高いため、次回の翻訳では「bank」の訳語として「銀行」が選択される。
【0045】
また、更新部15は、図3(A)に示す信頼度記憶部21のエントリを、図3(B)に示すように更新したのちに、図8に示す信頼度記憶部21に記憶されている固定信頼度を用いてさらに信頼度を更新することもできる。固定信頼度を反映した信頼度は、たとえばこの信頼度と固定信頼度の平均の値で計算できる。例では、ユーザIDが「001」のユーザについては、図3(B)の信頼度0.85と、図8に示す固定信頼度0.5の平均値0.68が新しい信頼度となる。
同様に他のユーザに対して計算した結果、信頼度記憶部21のエントリは図10のように更新される。
【0046】
この第2の実施例における更新部の処理は、翻訳処理が行われる度に行ってもよいし、あらかじめ定めておいた期間ごと(N回の翻訳毎やN日毎など)に行ってもよい。また、先に述べた更新処理に加えて、期間などをずらして行うことでもよい。
【0047】
次に、更新部15が、優先度記憶部20の翻訳知識の優先度と信頼度記憶部21のユーザの信頼度とを更新する処理の第3の実施例について説明する。図10に処理フローチャートを示す。この更新処理は、上述の第2の実施例と同様に、翻訳処理が行なわれる度に行ってもよいし、あらかじめ定めておいた期間毎(N回の翻訳毎や、N日毎など)に行ってもよい。また、先に述べた更新処理に加えて、期間等をずらして行うことでもよい。
【0048】
まず、優先度記憶部20の全エントリを参照して(s30)、ユーザを識別するユーザIDと該ユーザが入力した翻訳知識とを関連付けた行列Aを生成する(s31)。
【0049】
いま、n人のユーザとm個の翻訳知識(例では原言語の単語と訳語の対)があるとき、ユーザとそのユーザが入力した翻訳知識とを関連付けた行列Aを以下のように表わす。
【数1】
【0050】
ここで、要素aijは、ユーザui(i=1,2,…,n)によって、翻訳知識tj(j=1,2,…,m)が入力されているならばaij=1、されていないならばaij=0のように定義する。
【0051】
次に、上記行列Aの転置行列をATとしたとき、行列ATAの最大固有値に対応する固有ベクトルを求める(s32)。この固有ベクトルの各要素が各翻訳知識の優先度を表わす。また、行列AATの最大固有値に対応する固有ベクトルを求める(s33)。この固有ベクトルの各要素が各ユーザの信頼度を表わす。
【0052】
いま、翻訳知識tjの優先度xjを要素とするベクトルをx*、ユーザuiの信頼度yiを要素とするベクトルをy*で表す(ここで、*はベクトルの意味とする)。ただし、x*,y*は、更新される度に正規化を行ない、常にΣjxj=1,Σiyi=1であるとする。
【0053】
翻訳知識tjの優先度xjは、tjを入力したユーザの信頼度の和から求めるとすると、
x* = ATy* (1)
で表される。また、ユーザuiの信頼度yiは、uiが入力した翻訳知識の優先度の和から求めるとすると、
y* = Ax* (2)
で表される。式(1)と式(2)は再帰的関係となっており、x*,y*に適当な初期値を与え、式(1)と式(2)を交互に適用していく。充分大きな回数の適用後に、x*,y*は、それぞれATA,AATの最大固有値に対応する固有ベクトルに収束することが知られている(例えば、Jon M.Kleinberg,“Authoritative sources in a hyperlinked environment”,Proceedings of the 9th ACM−SIAM Symposium on Discrete Algorithms,1998参照)。
【0054】
よって、ATA,AATの最大固有値に対応する固有ベクトルをそれぞれ求め、x*,y*とするのである(s32,s33)。そして、固有ベクトルx*の各要素を翻訳知識tjの優先度として、あらためて信頼度記憶部20に記憶する(s34)。また、固有ベクトルy*の各要素をユーザutjの信頼度として、あらためて信頼度記憶部21に記憶する(s35)。
【0055】
図2の例では、図2(C)に示されているユーザと訳語について、
u1:ユーザID=001
u2:ユーザID=002
u3:ユーザID=003
t1:bank−銀行
t2:bank−土手
t3:link−リンク
t3:link−輪
とすると、A,ATA,AATは以下となる。
【数2】
【0056】
これまで、行列の固有ベクトルを求める様々な方法が知られており(例えば、べき乗法については、田中豊ら著、「多変量統計解析法」、現代数学社、1983年、pp.81−84参照)、また、行列計算のためのツールも実現している(例えば、http://www.octave.org)。それらを利用してATAの最大固有値に対応する固有ベクトルx*を求めると、x*=(0.85,0,0.53,0)Tとなる。この求めた固有ベクトルx*の各要素xjを翻訳知識tjの優先度として優先度記憶部20を更新する。同様に、AATの最大固有値に対応する固有ベクトルy*を求めると、y*=(0.85,0,0.53)Tとなる。この求めた固有ベクトルy*の各要素yiをユーザuiの信頼度として信頼度記憶部21を更新する。
【0057】
この実施例によれば、ユーザが、誤った訳語や嘘の訳語を入力したとしても、その訳語を選ぶユーザが他にいなければ、優先度は高くならない。よって、他のユーザにその訳語を訳出する可能性は低い。また、ユーザが入力した訳語の優先度が低ければ、そのユーザの信頼度が低くなる。よって、そのユーザが、他に誤った訳語や嘘の訳語を入力しても、その訳語が他のユーザに訳出される可能性は低い。
【0058】
次に、更新部15が、翻訳知識の固定優先度およびユーザの固定信頼度を用いて、優先度記憶部20の翻訳知識の優先度と信頼度記憶部21の信頼度を更新する第4の実施例について説明する。本実施例では、上記第3の実施例で定義した翻訳知識tjの優先度xjを要素とするベクトルx*、ユーザuiの信頼度yiを要素とするベクトルy*、およびユーザとユーザが入力した翻訳知識とを関連付けた行列Aを用いる。
【0059】
いま、翻訳知識tj(j=1,2,…,m)に対する固定優先度をcjとして、これを要素にした対角行列Cを以下のように表わす。
【数3】
このとき、翻訳知識tjの優先度xjは、tjを入力としたユーザの信頼度の和に、その翻訳知識の固定優先度cjを乗じたものとすると、先の式(1)は、
x*=CATy* (3)
で表される。
【0060】
またユーザui(i=1,2,…,n)に対する固定信頼度をviとして、これを要素にした対角行列Uを以下のように表わす。
【数4】
このとき、ユーザuiの信頼度yiは、uiが入力した翻訳知識の優先度の和に、そのユーザの固定信頼度viを乗じたものとすると、先の式(2)は、
y*=UAx* (4)
で表される。
【0061】
先の式(1)と式(2)の場合と同様に、式(3)式(4)は再帰的関係になっており、上記第3の実施例と同様に式(3)、(4)を繰り返し適用していくと、x*,y*はそれぞれCATUA,UACATの最大固有値に対する固有ベクトルに収束する。
【0062】
よって、図11の処理フローと同様の処理によってCATUA,UACATの最大固有値に対する固有ベクトルをそれぞれ求め、x*,y*とする。そして、求まった固有ベクトルx*の各要素を翻訳知識tjの優先度として、あらためて優先度記憶部20に記憶する。また、求まった固有ベクトルy*の各要素をユーザuiの信頼度として、あらためて信頼度記憶部21に記憶する。
【0063】
図7及び図8の例では、図7に示される固定優先度を表わす対角行列Cと、図8に示される固定信頼度を表わす対角行列Uは以下のようになる。
【数5】
そして、先の〔数2〕で示される行列Aを用いると、CATUA,UACATは以下のようになる。
【0064】
【数6】
そして、先に述べたような固有ベクトルを計算方法を使って、UACATの最大固有値に対する固有ベクトルを求めると、x*=(0.91,0,0.40,0)となる。この固有ベクトルの各要素を翻訳知識の優先度として優先度記憶部20を更新する。同様にCATUAの最大固有値に対する固有ベクトルを求めると,y*=(0.63,0,0.78)となる。この固有ベクトルの各要素をユーザの信頼度として信頼度記憶部21を更新する。
【0065】
この実施例によれば、あらかじめ与えられる静的な優先度・信頼度を、翻訳に使われる動的な優先度・信頼度に恒常的に反映できるので、システム製作者の意に反して過度に優先度・信頼度の値が変化することを防ぐことができる。
なお、この更新方法において固定優先度ならびに固定信頼度を処理上無効にしたい場合は、それぞれ行列C,Uの対角要素を全て同じ値にすればよい。
【0066】
次に、入力文から自動的に翻訳知識を選択する選択部をユーザとみなして信頼度を記憶し、翻訳知識の優先度、もしくは選択部を含むユーザの信頼度を更新する別の実施例について説明する。
【0067】
図12は、この選択部を含む本発明を適用した翻訳システムの一実施形態を示す全体構成図である。翻訳装置10は、図1に示す構成に加え、入力文から自動的に翻訳知識(原言語と訳語の対)を選択する選択部17を備えている。
【0068】
翻訳部13は、訳文生成処理(図5のs23)においてシステム辞書25に複数の訳語が記憶されていれば、単語と訳語のペアを出力部14と選択部17にも送る。選択部17は、入力部12から得られる原言語の入力文によって、入力文に関する翻訳知識を自動的に選択する。選択部17には、翻訳システムとは別の、例えば文脈から翻訳知識を統計的に選択する翻訳システム、あるいは別の辞書やルールを備えた翻訳システムなどを使うことができる。
【0069】
例では、原言語の入力文「Link to the bank of NewYork」に対し、選択部17には単語と訳語のペア、すなわち「bank−銀行,土手」,「link−リンク,輪」が送られる。選択部17は、入力文を元にして自動的に「bank」「link」の訳語を選択する.ここでは「bank」の訳語として「銀行」,「link」の訳語として「リンク」が選択されるものとする。
【0070】
この後、更新部15では、選択部17を一ユーザとみなし、他のユーザと同等に扱って更新処理が行われる。更新部15は、これまで述べた実施例の更新方法で優先度記憶部20もしくは信頼度記憶部21を更新する。この例では、選択部17のユーザIDが「M001」とされた場合、たとえば信頼度記憶部21のエントリは図13のようになる。なお、図示は省略するが、優先度記憶部20の該当エントリのユーザID欄にも、この「M001」が記憶される。
【0071】
この実施例によれば、ユーザからの翻訳知識の選択に加え、他の翻訳システムの選択を用いることができ、より多くの選択基準が反映されて正確な翻訳を行うことができる。
なお、図12で挙げた実施例では選択部は1つであったが、複数の選択部があってもよく、その場合もそれぞれを一ユーザとみなして複数の選択部を扱いながら自動的に翻訳することができる。
【0072】
以上説明した実施形態では、ユーザが、翻訳知識として、ある原言語の単語に対して目的言語の訳語を入力する例を示したが、本発明は、訳語だけではなく、他の翻訳知識に優先度を与えてユーザが入力できるように構成してもよい。例えば、原言語の句や文パターンとその翻訳となる目的言語の句や文パターンを対にした翻訳パターンを翻訳知識として優先度記憶部20に記憶してもよい。原言語の単語・句と、目的言語の訳語・句との対に優先度を設けることにより、入力文に含まれる原言語の単語・句に対して複数の目的言語の訳語・句が適用可能であっても、適切な訳語・句を選択することが可能となる。また、原言語の文パターンと目的言語の文パターンとを対にした翻訳パターンに優先度を設けることにより、入力文に対して複数の原言語の文パターンが適用可能であっても、適切な翻訳パターンを選択することが可能となる。
【0073】
この他にも、形態素解析のための単言語辞書、構文解析のルールなどに優先度を与えて優先度記憶部20に記憶してもよい。
【0074】
なお、図1や図12で示した翻訳装置10における各処理部の一部もしくは全部の処理機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、あるいは、図4、図5、図11などで示した処理手順をコンピュータのプログラムで構成し、その各ステップをCPU等の制御手段で実行させ、処理に必要なデータや処理結果のデータ等を記憶手段に記憶するなどして、本発明を実現できることは言うまでもない。また、コンピュータでその処理機能を実現するためのプログラム、あるいは、コンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、FDや、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、提供したりすることができるとともに、インターネット等のネットワークを通してそのプログラムを配布したりすることが可能である。そして、このプログラムをネットワーク又は記録媒体からコンピュータにインストールして実行するのである。
【0075】
【発明の効果】
本発明による主な効果は以下のとおりである。
(1) 翻訳知識の優先度を、その翻訳知識を入力したユーザの信頼度に応じて更新するので、複数のユーザによって登録された翻訳知識であっても、それらの翻訳知識の優先度を測ることができ、より正確な翻訳を行うことができる。
【0076】
(2) ユーザの信頼度は、そのユーザが入力した翻訳知識の優先度に応じて更新するので、人手で逐一信頼度を判定せずとも、自動的にユーザの信頼度を測ることができる。
【0077】
(3) ユーザの信頼度が予め定めた値を超えない場合は、入力された翻訳知識の優先度を更新しないので、信頼度の低いユーザによって、誤った翻訳知識が入力されることを防ぐことができる。
【0078】
(4) 翻訳知識の固定優先度もしくはユーザの固定信頼度を定め、実際に翻訳に使われる優先度・信頼度の自動計算に恒常的に反映できるので、システム製作者の意に反して過度に優先度・信頼度が変化することを防ぐことができる。
【0079】
(5) ユーザとそのユーザが入力した翻訳知識とを関連付けた行列Aを生成し、行列ATAの最大固有値に対応する固有ベクトルを翻訳知識の優先度とするため、複数のユーザによって登録された翻訳知識であっても、それらの翻訳知識の優先度を測ることができ、より正確な翻訳を行うことができる。
【0080】
(6) 行列AATの最大固有値に対応する固有ベクトルをユーザの信頼度とするため、人手で逐一信頼度を判定せずとも、自動的にユーザの信頼度を測ることができる。
【0081】
(7) 固定優先度を要素とした対角行列をC、固定信頼度を要素とした対角行列Uとし、行列UATCAの最大固有値に対応する固有ベクトルを翻訳知識の優先度とし、さらに行列CAUATの最大固有値に対応する固有ベクトルをユーザの信頼度とすることにより、(5)及び(6)に加えて、(4)の効果が得られる。
【0082】
(8) 他の翻訳システムなどによる翻訳知識の選択手段をユーザとみなして、翻訳知識の選択結果を入力することで、ユーザと選択手段のシームレスな入力を可能とし、より多くの選択基準が反映されて正確な翻訳を行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態の全体的構成図である。
【図2】優先度記憶部に記憶されている優先度エントリの一例である。
【図3】信頼度記憶部に記憶されている信頼度エントリの一例である。
【図4】本発明の一実施形態の全体的フローチャート図である。
【図5】翻訳部での一般的な翻訳処理示すフローチャートである。
【図6】クライアント端末における翻訳結果の表示例である。
【図7】優先度記憶部に記憶されている固定優先度エントリの一例である。
【図8】信頼度記憶部に記憶されている固定信頼度エントリの一例である。
【図9】優先度記憶部に記憶されている優先度エントリの一例である。
【図10】信頼度記憶部に記憶されている信頼度エントリの一例である。
【図11】更新部での更新処理の一実施例を示すフローチャートである。
【図12】本発明の別の実施形態の全体的構成図である。
【図13】信頼度記憶部に記憶されている信頼度エントリの別の一例である。
【符号の説明】
10 翻訳装置
11 認証部
12 入力部
13 翻訳部
14 出力部
15 更新部
16 切替部
17 選択部
20 優先度記憶部
21 信頼度記憶部
25 システム辞書
26 ユーザ辞書
30 ネットワーク
40 クライアント端末
Claims (10)
- 複数のユーザで共用される翻訳装置であって、
原言語の入力文、ユーザが入力した翻訳知識を受け付ける入力手段と、
ユーザ毎に当該ユーザの信頼度を記憶する信頼度記憶手段と、
翻訳知識毎に当該翻訳知識の優先度を記憶する優先度記憶手段と、
翻訳知識を入力したユーザの信頼度を前記信頼度記憶手段より取得し、前記優先度記憶手段に記憶されている当該翻訳知識の優先度を、前記取得した信頼度に応じて更新する更新手段と、
原言語の入力文を目的言語に翻訳し、当該入力文の一部に適用可能な翻訳知識が複数存在する場合、前記優先度記憶手段に記憶されている優先度が最も高い翻訳知識を選択する翻訳手段と、
前記翻訳手段が翻訳した結果を出力する出力手段と、
を有することを特徴とする翻訳装置。 - 前記更新手段は、ユーザが入力した翻訳知識の優先度を前記優先度記憶手段より取得し、前記信頼度記憶手段に記憶されている当該ユーザの信頼度を、前記取得した優先度に応じて更新する手段を更に含むことを特徴とする請求項1に記載の翻訳装置。
- 前記優先度記憶手段は、翻訳知識毎に当該翻訳知識の固定的な優先度である固定優先度をさらに記憶し、
前記更新手段は、前記優先度記憶手段に記憶されている当該翻訳知識の優先度を、当該翻訳知識の固定優先度も用いて更新することを特徴とする請求項1または2に記載の翻訳装置。 - 前記信頼度記憶手段は、ユーザ毎に当該ユーザの固定的な信頼度である固定信頼度をさらに記憶し、
前記更新手段は、前記信頼度記憶手段に記憶されている当該ユーザの信頼度を、当該ユーザの固定信頼度も用いて更新することを特徴とする請求項2または3に記載の翻訳装置。 - 前記更新手段は、前記翻訳知識を入力したユーザの信頼度が予め定めた値を超えない場合は、該翻訳知識の優先度を更新しないことを特徴とする請求項1乃至4のいずれか1項に記載の翻訳装置。
- 前記更新手段は、ユーザを行(あるいは列)、翻訳知識を列(あるいは行)とし、その要素がユーザと該ユーザが入力した当該翻訳知識との関連付けを表わす行列Aを生成し、該行列Aの転置行列をATとして、行列ATAの最大固有値に対応する固有ベクトルを求め、該固有ベクトルの各要素を前記翻訳知識の優先度として前記優先度記憶手段に記憶することを特徴とする請求項1乃至5のいずれか1項に記載の翻訳装置。
- 前記更新手段は、さらに行列AATの最大固有値に対応する固有ベクトルを求め、該固有ベクトルの各要素を前記ユーザの信頼度として前記信頼度記憶手段に記憶することを特徴とする請求項6に記載の翻訳装置。
- 前記優先度記憶手段は、翻訳知識毎に当該翻訳知識の固定的な優先度である固定優先度をさらに記憶し、
前記信頼度記憶手段は、ユーザ毎に当該ユーザの固定的な信頼度である固定信頼度をさらに記憶し、
前記更新手段は、ユーザを行(あるいは列)、翻訳知識を列(あるいは行)とし、その要素が当該ユーザと該ユーザが入力した当該翻訳知識との関連付けを表わす行列Aを生成し、該行列Aの転置行列をAT、翻訳知識毎の固定優先度を要素とした対角行列をC、ユーザ毎に固定信頼度を要素とした対角行列をUとしたときの行列UATCAの最大固有値に対応する固有ベクトルを求め、該固有ベクトルの各要素を前記翻訳知識の優先度として前記優先度記憶手段に記憶し、
さらに、行列CAUATの最大固有値に対応する固有ベクトルを求め、該固有ベクトルの各要素を前記ユーザの信頼度として前記信頼度記憶手段に記憶することを特徴とする請求項1乃至5のいずれか1項に記載の翻訳装置。 - 前記入力文を入力して自動的に翻訳知識を選択する選択手段を更に有し、
前記信頼度記憶手段は、前記選択手段をユーザとみなして該選択手段に対する信頼度を記憶することを特徴とする請求項1乃至8のいずれか1項に記載の翻訳装置。 - 請求項1乃至9のいずれか1項に記載の翻訳装置を構成する各手段としてコンピュータを機能させる翻訳処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003108674A JP4017077B2 (ja) | 2002-12-06 | 2003-04-14 | 翻訳装置及び翻訳処理プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002355876 | 2002-12-06 | ||
JP2003108674A JP4017077B2 (ja) | 2002-12-06 | 2003-04-14 | 翻訳装置及び翻訳処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004234616A JP2004234616A (ja) | 2004-08-19 |
JP4017077B2 true JP4017077B2 (ja) | 2007-12-05 |
Family
ID=32964444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003108674A Expired - Fee Related JP4017077B2 (ja) | 2002-12-06 | 2003-04-14 | 翻訳装置及び翻訳処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4017077B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5456260B2 (ja) * | 2008-02-01 | 2014-03-26 | ニフティ株式会社 | 翻訳処理プログラム、翻訳処理方法及び翻訳処理 |
JP5208795B2 (ja) * | 2009-02-12 | 2013-06-12 | 株式会社東芝 | 通訳装置、方法、及びプログラム |
-
2003
- 2003-04-14 JP JP2003108674A patent/JP4017077B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004234616A (ja) | 2004-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6498921B1 (en) | Method and system to answer a natural-language question | |
US7496497B2 (en) | Method and system for selecting web site home page by extracting site language cookie stored in an access device to identify directional information item | |
JP2011204260A (ja) | 母集団情報を用いて探索ランク付けを改善する方法とシステム | |
JPWO2007119567A1 (ja) | 文書処理装置および文書処理方法 | |
JP2009075791A (ja) | 機械翻訳を行う装置、方法、プログラムおよびシステム | |
JP6332781B2 (ja) | 翻訳システム | |
JP2018156473A (ja) | 解析装置、解析方法、およびプログラム | |
Demirtas | A method for multivariate ordinal data generation given marginal distributions and correlations | |
JP2018169715A (ja) | 翻訳支援システム等 | |
JP2019053386A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Sarkar et al. | Adjusting the Benjamini–Hochberg method for controlling the false discovery rate in knockoff-assisted variable selection | |
JP2009265754A (ja) | 情報提供装置、情報提供方法及び情報提供プログラム | |
JP2010237721A (ja) | 検索システム、検索方法および検索用プログラム | |
JP4736476B2 (ja) | 翻訳費用の見積りを行う装置および方法 | |
JP4017077B2 (ja) | 翻訳装置及び翻訳処理プログラム | |
WO2015175100A1 (en) | Suggested keywords | |
JPWO2019058479A1 (ja) | 知識取得装置、知識取得方法、及び、プログラム | |
JP2005141490A (ja) | 用例翻訳装置、用例翻訳処理方法、そのプログラム及び記録媒体 | |
JP2021033994A (ja) | テキスト処理方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 | |
JP5703165B2 (ja) | プログラム生成装置、その方法及びプログラム | |
US7835896B1 (en) | Apparatus for evaluating and demonstrating electronic circuits and components | |
JP2003016106A (ja) | 関連度値算出装置 | |
Coronado‐Barrientos et al. | AXC: A new format to perform the SpMV oriented to Intel Xeon Phi architecture in OpenCL | |
JP2010055518A (ja) | 検索装置及び方法、ならびに、コンピュータプログラム | |
US11188598B2 (en) | Document data processing apparatus and non-transitory computer readable medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070704 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070912 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070912 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100928 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100928 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110928 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120928 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130928 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |