JP2004078485A - 翻訳支援システムおよび方法 - Google Patents
翻訳支援システムおよび方法 Download PDFInfo
- Publication number
- JP2004078485A JP2004078485A JP2002236834A JP2002236834A JP2004078485A JP 2004078485 A JP2004078485 A JP 2004078485A JP 2002236834 A JP2002236834 A JP 2002236834A JP 2002236834 A JP2002236834 A JP 2002236834A JP 2004078485 A JP2004078485 A JP 2004078485A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- message
- field
- bilingual
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】同じ対訳が複数回、発生し得る翻訳環境で、原メッセージを目的メッセージに翻訳するための翻訳支援システムにおいて、前記翻訳環境は複数の分野に分割されており、各分野で前記翻訳が実行されると、各分野を識別する分野識別情報とともに、当該翻訳によって動的に発生し各分野に属する前記原メッセージとその目的メッセージの対として構成される前記対訳を蓄積する対訳蓄積手段を備え、前記対訳を再利用することにより、新たな原メッセージをその分野に適合した目的メッセージに翻訳する。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は翻訳支援システムおよび方法に関し、例えば、2ヶ国語以上の言語で投稿、閲覧可能なメーリングリスト、掲示板、チャット等のテキストメッセージによるコミュニケーションシステムにおいて、外国語のメッセージの作成、投稿を支援する場合などに適用して好適なものである。
【0002】
【従来の技術】
現在、インターネット上などでは、英文レター作成支援ソフト、または翻訳ソフトの英文レター作成支援機能が利用されている。
【0003】
これらのプログラムは、あらかじめ英文レターのテンプレートとそれに対応する内容の和文レターのテンプレートを複数用意しておき、ユーザが所望の和文レターのテンプレートを選択して処理を進めることにより、英語の作文能力が高くない日本人ユーザでも、簡単に英文レターを作成することができるようになっている。
【0004】
【発明が解決しようとする課題】
ところが、前記プログラムに用意されている英文レターおよび和文レターのテンプレートの種類は少なく、見積もりなどの業務用や礼状などの定型的な文しか用意されていないため、特定の専門分野に特有な専門的な言い回し(専門的表現)や、特定の地方でしか使われていない方言などに対応することは困難で、表現力に乏しい紋切り型の英文レターしか得られなかった。また、そのような紋切り型の表現は、特定の専門分野や特定の地方に属する人からみると不自然な表現でもあるため、自然なコミュニケーションの発展を妨げるおそれがある。
【0005】
テンプレートの種類を大幅に増加して専門的表現や方言などを網羅することも考えられるが、専門的表現はそれぞれの専門分野ごとに相違し、方言はそれぞれの地方ごとに相違するため、全専門分野、全地方を漏れなく網羅してユーザの希望に確実に応えることができるようにするには膨大な数のテンプレートを用意する必要がある。その一方で、用意するテンプレートの数が増えれば増えるほど、ユーザの利用は薄く分散し、個々のテンプレートが実際にユーザに利用される頻度は低下する傾向がある。したがって、テンプレートの数を増加させることは、あまり効率的な対策ではない。
【0006】
さらに、テンプレートは、製品としての英文レター作成支援ソフトや翻訳ソフトの英文レター作成支援機能を作製する際に予め作っておくものであるから、突然出現する流行語や、新語などに対して速やかに対応することは困難で、即応性に劣る。
【0007】
【課題を解決するための手段】
かかる課題を解決するために、第1の発明では、同じ対訳が複数回、発生し得る翻訳環境で、原メッセージを目的メッセージに翻訳するための翻訳支援システムにおいて、前記翻訳環境は複数の分野に分割されており、各分野で前記翻訳が実行されると、各分野を識別する分野識別情報とともに、当該翻訳によって動的に発生し各分野に属する前記原メッセージとその目的メッセージの対として構成される前記対訳を蓄積する対訳蓄積手段を備え、前記対訳を再利用することにより、新たな原メッセージをその分野に適合した目的メッセージに翻訳することを特徴とする。
【0008】
また、第2の発明では、同じ対訳が複数回、発生し得る翻訳環境で、原メッセージを目的メッセージに翻訳するための翻訳支援方法において、前記翻訳環境は複数の分野に分割されており、各分野で前記翻訳が実行されると、各分野を識別する分野識別情報とともに、当該翻訳によって動的に発生し各分野に属する前記原メッセージとその目的メッセージの対として構成される前記対訳を対訳蓄積手段に蓄積しておき、前記対訳を再利用することにより、新たな原メッセージをその分野に適合した目的メッセージに翻訳することを特徴とする。
【0009】
【発明の実施の形態】
(A)実施形態
以下、本発明にかかる翻訳支援システムおよび方法を、インターネット上などに構築される電子掲示板システムに適用した場合を例に、実施形態について説明する。
【0010】
電子掲示板は、あるユーザが投稿してサーバの掲示板にメッセージを書き込むと多数のユーザがそのメッセージ閲覧することができる1対多のメッセージ交換システムである。当該メッセージを閲覧したユーザも、当該メッセージに対する自身のメッセージを投稿することで、メッセージ交換を進め、議論を発展させることができる。
【0011】
このような電子掲示板の機能をコンピュータネットワーク上で実現する方法には様々なものがある。例えば、パソコン通信の電子掲示板システムや、グループウエアを利用した電子掲示板システムなども知られており、インターネット上では、NNTPプロトコルを用いるネットニュースも電子掲示板の一種として利用できるが、ここでは、インターネット上でWebサーバの機構を利用した電子掲示板システムを想定する。
【0012】
Webサーバの機構を利用した電子掲示板システムでは、基本的に、ユーザがメッセージを投稿する場合には、フォームを利用する。フォームはユーザが記述した情報をWebサーバ側で収集するための部品(フィールド)の集合体であるから、フィールドから収集した情報をもとに、CGIプログラムなどを利用して新たにWebページ(掲示板)を生成すれば、当該Webページを閲覧することで、多数のユーザが当該ユーザのメッセージの内容を知ることができる。
【0013】
フォームもHTMLを用いて記述されるHTML文書であり、HTMLファイルに収容されている。CGIを利用した電子掲示板(CGI掲示板)は、CGIプログラムと連動した複数のHTMLファイルから構成され、このフォームもそのうちの1つのHTMLファイルに収容されている。
【0014】
第1および第2の実施形態に共通する特徴は、分野ごとにわかれたコミュニティサイト(CGI掲示板)に対し多数のユーザに2ヶ国語(ここでは、英語と日本語)のうちのいずれかの言語でメッセージを投稿させた上で当該2ヶ国語間の翻訳結果として得られる対訳を蓄積しておき、蓄積した対訳を再利用して、表現力に富んだ即応性のある機械翻訳を行い、前記掲示板の表現力や即応性を高めることにある。
【0015】
(A−1)第1の実施形態の構成
本実施形態にかかる電子掲示板システム12を含む通信システム10の全体構成例は、図1に示すとおりである。電子掲示板システム12は複数のCGI掲示板を提供し、ユーザU1、ユーザU2を含む不特定多数のユーザがその中の任意の掲示板に対して投稿し、閲覧できるものであってよいが、以下では、主としてユーザU1がメッセージを投稿する場合を例に説明を進める。
【0016】
図1において、当該通信システム10は、ネットワーク11と、前記電子掲示板システム12と、通信端末13,14とを備えている。
【0017】
このうちネットワーク11はLAN(ローカルエリアネットワーク)などであってもかまわないが、ここでは、インターネットであるものとする。
【0018】
通信端末13は例えばWebブラウザを搭載し、キーボード、ポインティングデバイス、ディスプレイ装置などを装備した通常のパーソナルコンピュータであってよい。通信端末14も実質的に当該通信端末13と同様である。ただし通信端末13はユーザU1によって操作され、通信端末14はユーザU2によって操作される。また、通信端末13に搭載されているWebブラウザをB1とし、通信端末14に搭載されているWebブラウザをB2とする。
【0019】
ネットワーク11を介してHTTPプロトコルにより通信端末13または14と通信する電子掲示板システム12は、前記WebブラウザB1,B2に対してはWebサーバとしてのインタフェースを提供するシステムで、メッセージ登録部20と、ページ生成部21と、翻訳処理部22と、メッセージDB(メッセージデータベース)23と、翻訳用辞書24とを備えている。
【0020】
このうち構成要素20〜22の機能は、ハードウエア的に実現してもかまわないが、通常は、CGIプログラムなどの外部プログラムを利用してソフトウエア的に実現される。一般的に、ある機能をソフトウエア的に実現するとハードウエア的に実現する場合に比べ、処理速度は遅くなるが、柔軟性に富み、はるかに低価格なものになる。
【0021】
ページ生成部21は、通信端末13からの閲覧要求を受けると、その閲覧要求の内容に応じて、前記フォームを含む各種のHTML文書(すなわち、Webページ)を生成し、当該通信端末13へ送信する部分である。Webページの生成のため、当該ページ生成部21は、必要に応じて、データベース23または25に格納されている各種のデータを利用する。
【0022】
基本データベース25は、翻訳依頼フォーム要求画面、翻訳依頼フォーム、投稿フォーム、あるいはこれらのWebページを生成するための基礎となるデータを格納してあるデータベースである。
【0023】
翻訳依頼フォームは、機能的には上述したフォームと同じであるが、電子掲示板システム12へ翻訳を依頼するためのフォームであるから翻訳依頼フォームと呼んでいる。また、翻訳依頼フォーム要求画面とは、その画面上でユーザが指定した翻訳依頼フォームをWebブラウザB1側に提供するための画面で、例えば図7に示すような画面WD1として通信端末13に画面表示される。当該翻訳依頼フォーム要求画面もHTMLで記述されたWebページであるから、前記ページ生成部21によって通信端末13へ送信される。
【0024】
メッセージデータベース23は本実施形態において特徴的な構成要素であり、ユーザU1などのユーザが投稿した投稿フォームのフィールドに記述されたメッセージやその翻訳結果を分野別、記事別、文別に区別して管理し、格納しておくためのテーブルTB1〜TB3を備えている。
【0025】
このうち分野テーブルTB1は、図2に示すように、列名として、分野番号、分野(日本語)、分野(英語)を備えたテーブルである。
【0026】
分野番号は分野を識別するための番号である。また、分野(日本語)とは、各分野の具体的な名称を日本語で記述したものであり、分野(英語)とは、各分野の具体的な名称を英語で記述したものである。
【0027】
なお、分野とは、ユーザU1などの各ユーザの興味の対象となるジャンルに相当する概念で、図7に示したショッピング、スポーツ、関東(の方言)、関西(の方言)などのほかにも、テニス、硬式テニス、バスケットボール、方言、東日本の方言、西日本の方言、京都、大阪など様々なものがあり得る。そしてこれら分野のあいだには、例えば、図10に示すように、西日本の方言のなかに関西(の方言)が含まれ、関西(の方言)のなかに、京都(の方言)や大阪(の方言)が包含され、スポーツのなかにテニスやバスケットボールが包含され、テニスのなかに硬式テニスが包含されるというように、包含、被包含の関係を設定できる。したがって、すべての分野は1つの木構造(階層構造)の中のいずれかの節N0〜N41として位置づけることができる。
【0028】
番号対応テーブルTB2は、図2に示すように、列名として、前記分野番号と、記事番号を備えたテーブルである。
【0029】
記事番号とは、ユーザU1などの各ユーザが投稿したメッセージの本体(図5に示すフィールドF13やF23に記述される内容)を識別するために付与される番号である。
【0030】
対訳テーブルTB3は、図4に示すように、列名として、前記記事番号と、文番号と、英語本文と、日本語本文とを備えたテーブルである。文番号は、メッセージの本体に複数の文が含まれることがあるため、各文を識別するために付与される番号である。
【0031】
一般的には、翻訳を行うと、文の数が増減することがあり得る(例えば、1文の英語を和訳すると、2文の日本語になることがあり得る)が、ここでは、説明を簡単にするために、この増減はないものとし、英語で1つの文は、日本語でも1つの文であるものとしている。
【0032】
この対訳テーブルTB3は通常の電子掲示板システムにおいて、過去の記事(メッセージ)を保存した記事ログに相当する部分であるとみることもできる。
【0033】
ただし、通常の電子掲示板の記事ログは、保存しているメッセージがその記憶容量を越えると、単純に古いメッセージ(先に保存されたメッセージ)から順番に削除することが多いが、対訳テーブルTB3に格納されている対訳は単なるログではなく積極的に再利用するものであり、対訳テーブルTB3は翻訳用辞書24の代替手段として機能し得るテーブルであるため、(最近の)使用頻度の低いものから順番に削除する等、再利用に支障のない(支障の少ない)方法を取ることが望ましい。
【0034】
また、通常の電子掲示板の記事ログは、保存できるメッセージの数が数十件程度とかなり少ないこともある。本実施形態の場合、保存するメッセージの数が数十件程度であっても一定の効果は期待できるが、対訳テーブルTB3がさらに有効に機能するためには、十分に多くのメッセージ(対訳)を保存しておくことが望ましい。理想的には、記憶容量不足によって削除する必要が生じないように、記憶容量の空きが少なくなれば、予め記憶資源を増設しておくことが好ましい。
【0035】
このように、記事ログと当該対訳テーブルTB3とは、求められる機能が相違するため、対訳テーブルTB3とは別個に記事ログを設けるようにすることも望ましい。
【0036】
基本的には、ユーザU1などのユーザから新たな投稿が行われるたびに、メッセージとその翻訳結果の対訳が、英語本文および日本語本文として、当該対訳テーブルTB3に格納されるものであってよい。
【0037】
図4には、「very expensive」と「とても高い」の対からなる対訳を含む行C1と、「very expensive」と「めっちゃ高い」の対からなる対訳を含む行C6のほか、4つの行C2〜C5が存在している。なお、当該「めっちゃ高い」は、「とても高い」とほぼ同義の関西地方の方言である。
【0038】
図4に示した当該対訳テーブルTB3は、図5(A)に示す翻訳依頼フォームWD2や図6に示す投稿フォームを、ユーザU1が電子掲示板システム12に送信する前の状態である。
【0039】
なお、その掲示板で使用される言語が1言語に予め決まっている場合(例えば、日本語を使用することに決まっている場合)には、英語によって記述されたメッセージだけを翻訳し日本語によって記述されたメッセージは必ずしも翻訳する必要はないが、本実施形態では、日本語で記述されたメッセージは英語に翻訳し、英語で記述されたメッセージは日本語に翻訳するものとする。これにより、例えば、図13に示すように、英語と日本語の対訳を表示するCGI掲示板をユーザ(例えば、U1)に提供することができる。
【0040】
図13のCGI掲示板では日本語領域JPには日本語によって記述されたメッセージが表示され、英語領域EPには英語によって記述されたメッセージが表示されている。これにより、当該掲示板を閲覧するユーザは、表示されている英語または日本語のメッセージのうち、どちらが原文で、どちらが翻訳結果であるかを意識することなく、好みのほうの言語(例えば、日本語)だけを読むことができるから、英語しか分からないユーザと日本語しかわからないユーザが相互に意見を交換すること等も可能になる。
【0041】
前記翻訳依頼フォーム要求画面WD1は、図7に示すように、分野DM1〜DM4として、ショッピング、スポーツ、関東、関西を備え、各分野につき、英語による投稿を行うか、日本語による投稿を行うかを選択できるようになっている。
【0042】
英語による投稿を行うことを示す「英語投稿」L11〜L41、日本語による投稿を行うことを示す「日本語投稿」L12〜L42の部分はAタグによって指定されたハイパーリンクになっていて、通信端末13のポインティングデバイスなどを操作してユーザU1がいずれか1つのハイパーリンクを選ぶ。そのハイパーリンクのリンク先には8種類のCGIプログラムPR11〜PR42のうちのいずれか1つが存在するから、リンク先として指定を受けたCGIプログラム(例えば、PR41)が、自身に対応した翻訳依頼フォーム(例えば、WD2)を基本データベース23から取得して通信端末13に返す。したがって、これを受信した通信端末13では、WebブラウザB1が当該翻訳依頼フォームを整形して画面表示することができる。
【0043】
すべてのハイパーリンクL11〜L41およびL12〜L42のリンク先が異なるCGIプログラムを指定し、各CGIプログラムPR11〜PR42に異なる翻訳依頼フォームが対応するから、基本データベース25内には、全部で8種類の翻訳依頼フォームTF11〜TF42が格納されていることになる。
【0044】
すなわち、ハイパーリンクL11はCGIプログラムPR11をリンク先とし、ハイパーリンクL12はCGIプログラムPR12をリンク先とし、ハイパーリンクL21はCGIプログラムPR21をリンク先とし、ハイパーリンクL22はCGIプログラムPR22をリンク先とし、ハイパーリンクL31はCGIプログラムPR31をリンク先とし、ハイパーリンクL32はCGIプログラムPR32をリンク先とし、ハイパーリンクL41はCGIプログラムPR41をリンク先とし、ハイパーリンクL42はCGIプログラムPR42をリンク先とする。
【0045】
また、これらCGIプログラムPR11〜PR42と翻訳依頼フォームの対応関係は、例えば、次の通りであってよい。
【0046】
すなわち、CGIプログラムPR11には翻訳依頼フォームFT11が対応し、CGIプログラムPR12には翻訳依頼フォームFT12が対応し、CGIプログラムPR21には翻訳依頼フォームFT21が対応し、CGIプログラムPR31には翻訳依頼フォームFT31が対応し、CGIプログラムPR32には翻訳依頼フォームFT32が対応し、CGIプログラムPR41には翻訳依頼フォームFT41が対応し、CGIプログラムPR42には翻訳依頼フォームFT42が対応する。
【0047】
これら8種類の翻訳依頼フォームTF11〜TF42は、通信端末13に表示された画面も分野ごとに異なるものとしてもかまわないが、ここでは、英語投稿用と日本語投稿用の相違があるだけで、画面上、分野ごとの相違はないものとする。ただし、後述する「TRANS」ボタンBT1や「翻訳」ボタンBT2を操作したときに、各フィールドの記述内容が送信される8種類のCGIプログラムPR11〜PR42を指すURLは異なり、翻訳依頼フォームの各フィールドの記述内容は、上述した対応関係にあるCGIプログラムに送信される。したがって、例えば、翻訳依頼フォームPR41の各フィールドの記述内容は、CGIプログラムPR41に送信される。
【0048】
さらに具体的には、URLは通常、「スキーム名(プロトコル名)、ドメイン名、ディレクトリ名(パス名)、ファイル名」の構造を持つが、例えば、ドメイン名までは同じとしディレクトリ名またはファイル名を相違させることで、この8種類のCGIプログラムPR11〜PR42を指す8通りのURLを決定することができる。
【0049】
ハイパーリンクL11〜L42,CGIプログラムPR11〜PR42、翻訳依頼フォームTF11〜TF42のあいだの対応関係をまとめると、図12に示すようになる。CGIプログラムPR11〜PR42と前記投稿フォームのあいだにも、同様な対応関係が存在することは当然である。
【0050】
当該CGIプログラムPR41などのCGIプログラムPR11〜PR42は、機能ごとに細かくモジュールに分割し、別のプログラムとしてもよいが、ここでは、説明を簡単にするために同じCGIプログラム(例えば、PR41)が、ページ生成部21の機能とメッセージ登録部20の機能と翻訳処理部22の機能を持っているものとする。したがって図1の各構成要素20〜22の機能との対応関係では、例えばCGIプログラムPR41は、メッセージ登録部20と、ページ生成部21と、翻訳処理部22の3つの構成要素にまたがって存在することになる。
【0051】
なお、当該CGIプログラムPR11〜PR42の機能の詳細については後述する。
【0052】
上述したように、8種類の翻訳依頼フォームTF11〜TF42の画面は、英語投稿用と日本語投稿用の相違があるだけであるが、その英語投稿用の翻訳依頼フォームの画面は、例えば図5(A)に示す画面WD2であり、日本語投稿用の翻訳依頼フォームの画面は、例えば図5(B)に示す画面WD3であってよい。
【0053】
図5(A)において、英語投稿用の翻訳依頼フォーム画面WD2は、3つのフィールドF11〜F13と、ボタンBT1を備えている。
【0054】
3つのフィールドF11〜F13のうちフィールドF11は、メッセージを投稿しようとするユーザU1が自身の氏名を記述する部分である。また、フィールドF12は、投稿するメッセージに付与した題名を記述する部分で、フィールドF13はユーザU1が投稿したいメッセージ(の本体)を記述する部分である。
【0055】
フィールドF13へのメッセージの記述などは必須であるが、フィールドF12への題名の記述は、ユーザU1の希望に応じて省略可能としてもよい。
【0056】
もちろん、翻訳依頼フォーム画面WD2が通信端末13に画面表示された時点では、翻訳依頼フォーム画面WD2中のフィールドF12やF13などは、通常、何も記述されていない状態である。
【0057】
ただしフィールドF11の氏名のような予め決まっている静的な情報は、セッション管理の内容に応じて、最初から記述しておくこともできる。
【0058】
一般的にハイパーテキストシステムでは、1つのHTTPリクエストと、それに対する1つのHTTPレスポンスで(すなわち、前記通信端末13に新しいWebページが1つ表示されるごとに)通信端末13と電子掲示板システム(Webサーバ)12のあいだのセッションが切断されるから、個々のユーザ(例えば、U1)からの一連のアクセス(一連のHTTPリクエスト)を他のユーザ(例えば、U2)からのアクセスと識別して矛盾の無い応答(HTTPレスポンス)を返すためにセッション管理を行う必要がある。
【0059】
前記「TRANS」ボタンBT1は、ユーザU1が前記ポインティングデバイスなどを利用して操作することにより各フィールドF11〜F13の記述内容を電子掲示板システム12に送信して、その翻訳(英語から日本語への翻訳)を要求するためのボタンである。ユーザU1は各フィールドF11〜F13に対する記述の編集作業が終わり、記述内容が確定したときに、当該「TRANS」ボタンBT1を操作することになる。
【0060】
図5(B)に示す日本語投稿用の翻訳依頼フォーム画面WD3も基本的にこの翻訳依頼フォーム画面WD2と同じ構成となっている。
【0061】
すなわち翻訳依頼フォーム画面WD3中のフィールドF21は、前記F11に対応し、フィールドF22は前記フィールドF12に対応し、フィールドF23は前記F13に対応する。
【0062】
ただし日本人などの漢字で記述された氏名には複数の発音が可能なことが多く、標準的な発音とは異なる発音を対応させることも少なくない等、情報処理によって正確なアルファベット表記に変換することは必ずしも容易ではないから、翻訳依頼フォームWD3のフィールドF24を設けて、ユーザU1が自身の氏名のアルファベット表記を記述することとしている。
【0063】
日本語投稿用の翻訳依頼フォーム画面WD3の各フィールドF21〜F23中の記述は当然、日本語によって行うが、このフィールドF24だけは、アルファベットで記述することになる。
【0064】
また、「翻訳」ボタンBT2は前記「TRANS」ボタンBT1に対応するボタンである。ただし、「翻訳」ボタンBT2の操作によって電子掲示板システム12に要求される翻訳は、日本語から英語への翻訳である。
【0065】
なお、フィールドF24の記述内容はこの翻訳の対象にならないことは当然である。また、フィールドF24に有効な記述が存在する場合には、フィールドF21の氏名の記述は省略可能としたり、記述してある場合には、翻訳の対象外とすることができる。
【0066】
上述した図5(A)の翻訳依頼フォームWD2にも、当該フィールドF24に相当するフィールドを設けるようにしてもよい。例えば、日系の米国人や、中国系や韓国系の米国人など、アルファベットだけでなく漢字で表記することもできる氏名を持つ者もあるから、漢字表記の氏名を記述できるフィールドの存在意義がある。
【0067】
メッセージ登録部20は、前記投稿フォームを利用してユーザが電子掲示板システム12に送信したメッセージとその翻訳結果をメッセージデータベース23に登録する機能を備えている。なお、前記翻訳依頼フォームの各フィールドの記述内容もデータベース23,25中のいずれかのテーブルに格納するようにしてもよいが、ここでは、格納しないものとする。
【0068】
メッセージの翻訳結果は、機械翻訳を実行する機能を有する前記翻訳処理部22によって得られるものである。この機械翻訳に使用する辞書としては、機械翻訳のための一般的な辞書である翻訳用辞書24と、本実施形態に特徴的な前記メッセージデータベース23内の対訳テーブルTB3が利用される。
【0069】
利用の優先順位は対訳テーブルTB3のほうが高く、対訳テーブルTB3内に、翻訳に必要な情報(対訳)が存在しない場合に、翻訳用辞書24が利用される。
【0070】
本実施形態では、上述したように、投稿されたメッセージが英語で記述されている場合でも、日本語で記述されている場合でも、それぞれ、日本語と英語の相互間で翻訳が実行される。
【0071】
翻訳用辞書24は、機械翻訳に利用される一般的な辞書で、例えば、機械翻訳に必要な文法、対訳語彙などの情報が格納されている。
【0072】
ただしこの対訳語彙は一般的な語彙であるから、上述した専門的な言い回し(専門的表現)や、方言などには対応しておらず、この翻訳用辞書24だけを利用した翻訳結果は、前記分野に依存しない、紋切り型の表現になる傾向が強い。
【0073】
そこで、対訳テーブルTB3に格納された対訳を利用した翻訳を行うことでこの傾向を緩和し、専門的表現や方言などに対応した翻訳結果を得ることになる。このような専門的表現や方言などは、各分野において、多くのユーザに受け入れられやすい、自然な表現である。
【0074】
次に、上述した8種類のCGIプログラムPR11〜PR42の機能、すなわち論理的な内部構成例について、図14を参照しながら説明する。8種類のCGIプログラムPR11〜PR42の機能は基本的に同じであるが、以下では、図14には、主として、CGIプログラムPR41を示したものとして説明を進める。
【0075】
図14において、当該CGIプログラムPR41は、メッセージ登録対応部30と、翻訳対応部31と、ページ生成対応部32と、分野番号管理部33とを備えている。
【0076】
このうちメッセージ登録対応部30の機能は、前記メッセージ登録部20と同じである。ただし、当該CGIプログラムPR41を収容したプログラムファイルは、電子掲示板システム12内において、図7に示す前記ハイパーリンクL41のリンク先に位置するものであるから、当該メッセージ登録対応部30がネットワーク11経由で前記通信端末13から受け取る翻訳依頼フォーム中の各フィールドには、前記「関西(の方言)」分野に対応する英語で記述されたメッセージが含まれている。
【0077】
前記メッセージ登録部20に対応する機能を持つから、当該メッセージ登録対応部30は、前記メッセージデータベース23内に格納されている対訳テーブルTB3へメッセージを格納するとともに、番号対応テーブルTB2へ分野番号と記事番号を格納するが、そのとき、分野番号管理部33から供給を受ける分野番号NB1(例えば、NB1=4であってよい)が、この番号対応テーブルTB2へ格納する分野番号となる。
【0078】
すなわち、当該分野番号管理部33は各分野に特有な分野番号(その1つがNB1)を管理している部分で、「関西」分野に対応するCGIプログラムPR41の分野番号管理部33の場合、「関西」分野の分野番号であるNB1(=4)を管理する。
【0079】
したがって、8種類のCGIプログラムPR11〜PR42のうち当該CGIプログラムPR41と同じ分野番号NB1(=4)を管理する分野番号管理部33を持つのは、CGIプログラムPR42だけである。CGIプログラムPR42は図7に示すハイパーリンクL42のリンク先であり、このハイパーリンクL42は前記ハイパーリンクL41と同じ「関西」分野に属するからである。
【0080】
これと同様に、CGIプログラムPR11とPR12は同じ「ショッピング」分野に属すため、同じ分野番号を管理する分野番号管理部を持ち、CGIプログラムPR21とPR22は同じ「スポーツ」分野に属すため、同じ分野番号を管理する分野番号管理部を持ち、CGIプログラムPR31とPR32は同じ「関東」分野に属すため、同じ分野番号を管理する分野番号管理部を持つことになる。
【0081】
対応する分野が異なるCGIプログラムのあいだ(例えば、PR11とPR21のあいだ)では、分野番号管理部が管理する分野番号も相違する。
【0082】
翻訳対応部31は前記翻訳処理部22に対応する機能を持つ部分であるが、前記対訳テーブルTB3内の各行のうち、当該翻訳対応部31が翻訳に際して最優先で検索するのは、前記番号対応テーブルTB2で当該分野番号NB1(=4)と対応付けられている記事番号の行である。したがって、図3の例では、記事番号2と4が分野番号4に対応付けられているため、図4上では記事番号2の行C2〜C4と、記事番号4の行C6だけがこの検索の対象となる。
【0083】
この検索で必要な対訳が得られればその対訳を利用してその1文の翻訳が行われるが、得られなければ、翻訳対応部31は、対訳テーブルTB3中の他の分野に対応付けられた記事番号の行であるC1やC5も検索の対象とする。
【0084】
この検索でも必要な対訳が得られない場合にかぎり、当該翻訳対応部31は、翻訳用辞書24中の一般的な対訳語彙を検索の対象とする。
【0085】
なお、「めっちゃ高い」という方言の翻訳結果は、前記翻訳辞書24からは得られず、基本的に、対訳テーブルTB3から得るしかない情報である。ただしユーザU1が関西地方の方言に関しても知識がある場合には、他の分野の対訳、または翻訳用辞書24を用いた紋切り型の表現(例えば、「とても高い」)を、ユーザU1自身で、方言(「めっちゃ高い」)に修正することも可能である。
【0086】
その修正は、例えば、図6に示す対訳形式の投稿フォーム(翻訳結果確認画面)WD4を利用してユーザU1の手作業で行われる。
【0087】
当該投稿フォームWD4は、翻訳結果をユーザU1が確認するために利用され、最終的に投稿するメッセージの内容を確定するための画面として表示される。投稿フォームWD4も、HTMLで記述されたフォームの一種であるから、前記ページ生成部21あるいは該当するCGIプログラム(例えば、PR41)のページ生成対応部32が生成して通信端末13へ送信するものである。
【0088】
図6において、この投稿フォームWD4は、フィールドF31〜F33と、フィールドF41〜F43と、ボタンBT3とを備えている。
【0089】
ただし、その性質上、この投稿フォームWD4の各フィールドF31〜F33,F41〜F43には、通信端末13に最初に画面表示された時点で例えば図6に示したような英語、日本語の記述が存在している。
【0090】
翻訳結果を修正したい場合、ユーザU1は、通信端末13上で翻訳結果の一部を変更し編集することができる。そして、その編集作業が終了したとき、「POST(投稿)」ボタンBT3を操作すれば、投稿フォームWD4の各フィールドF31〜F33,F41〜F43の記述内容が自動的に該当するCGIプログラム(例えば、PR41)に送信される。
【0091】
例えば、通信端末13に最初に画面表示されたとき、翻訳結果の文SC1が「とても高い。」であったとしても、この編集作業によって、ユーザU1が「めっちゃ高い。」に変更することができる。
【0092】
投稿フォームWD4の各フィールドF31〜F33,F41〜F43の記述内容を受け取ったCGIプログラム(例えば、PR41)ではそのページ生成対応部32が、当該記述内容に対応したメッセージを、それまで表示されていたメッセージの上(あるいは下など)に表示した形の新しいWebページ(掲示板)を生成し、前記テーブルTB2,TB3に対して、当該投稿フォームWD4の各フィールドの記述内容に対応する格納を行う。
【0093】
これにより、CGI掲示板に対するメッセージの投稿が完了する。
【0094】
なお、まったく同じ対訳が対訳テーブルTB3の複数の行に格納されることは、実質的に処理の効率や記憶資源の使用効率を低下させることになるため、対訳テーブルTB3を利用して翻訳を行い、ユーザU1が投稿フォームWD4上で編集作業を行わなかったためにその翻訳結果がそのまま投稿メッセージとなった文に関しては、対訳テーブルTB3などへの格納を行わないことが望ましい。
【0095】
これによってまた、他分野の対訳がその分野(例えば、「関西」分野)の対訳として対訳テーブルTB3に格納されて、対訳テーブルTB3に格納されているデータの品質が劣化することも防止できる。このような品質劣化を防止できなければ、新たなメッセージが投稿され翻訳が行われるたびに、データの品質は劣化することになるからである。
【0096】
例えば、対訳テーブルTB3などの最初の格納状態などの条件によっては、前記「very expensive」と「とても高い」の対からなる対訳が、「関西」分野に対応する対訳として格納されることも起こり得る。
【0097】
同じ理由から、翻訳用辞書24の一般的な対訳語彙を利用して翻訳し、なおかつその翻訳結果がユーザU1によって変更されることなくそのまま投稿された場合には、メッセージとその翻訳結果の対訳は、対訳テーブルTB3に格納しないほうがよい。
【0098】
以下、上記のような構成を有する本実施形態の動作について、図8のフローチャートを参照しながら説明する。
【0099】
図8のフローチャートは、電子掲示板システム12の動作のうち、本実施形態で特徴的な翻訳処理に関連する動作だけを示したものである。図8のフローチャートは、S10〜S16の各ステップから構成されている。
【0100】
(A−2)第1の実施形態の動作
前記通信端末13を利用するユーザU1が電子掲示板システム12にアクセスする場合、前記WebブラウザB1に所定のURLを入力する。これにより、電子掲示板システム12に対してHTTPリクエストが供給され、その応答として電子掲示板システム12から通信端末13(WebブラウザB1)へ、HTTPレスポンスが返される。
【0101】
このHTTPレスポンスには図7に示す翻訳依頼フォーム要求画面WD1を収容したHTMLファイルが含まれているため、WebブラウザB1は通信端末13上に当該翻訳依頼フォーム要求画面WD1を画面表示する。
【0102】
このときこの画面WD1上で、ユーザU1は8つのハイパーリンクL11〜L42のいずれかを自由に選択することができるが、ここでは、前記「関西」分野であって英語投稿のハイパーリンクL41を選択したものとする。例えば、米国人などの英語には習熟しているが日本語には不慣れな人が、関西地方の方言によるメッセージ投稿を希望する場合に、このハイパーリンクL41を選択する。
【0103】
すなわち、ユーザU1が日本語に不慣れであっても、ハイパーリンクL41を選択すれば、関西地方の方言によって、他のユーザとメッセージ交換を行うことが可能になる。
【0104】
このようなユーザU1の使い勝手を考慮して、図7の画面WD1上の「英語投稿」や分野の名称を示す「関西」などの文字列については、英語表記としたり、英語表記と日本語表記を併用したりしてもよい。
【0105】
図12に示すように、当該ハイパーリンクL41のリンク先にはCGIプログラムPR41が存在するから、この選択のHTTPリクエストに呼応して、このCGIプログラムPR41が、例えば図5(A)に示すような前記翻訳依頼フォームWD2をWebサーバ経由のHTTPレスポンスとして通信端末13へ返送する。
【0106】
当該翻訳依頼フォームWD2の各フィールドF11〜F13に、当該ユーザU1が、一例として、図5(A)に示すような記述を行い「TRANS」ボタンBT1を操作すると、各フィールドF11〜F13の記述内容がHTTPリクエストとして送信され、電子掲示板システム12のCGIプログラムPR41に受信されて処理される。
【0107】
CGIプログラムPR41は英語のメッセージを日本語に翻訳する場合にだけ呼び出される外部プログラムであるから、フィールドF11〜F13の記述内容が英語であるか日本語であるかを確認する処理などを行うことなく、英語から日本語への翻訳処理を開始することができる。
【0108】
もしも、このとき呼び出されるプログラムが、CGIプログラムPR12〜PR42などの日本語のメッセージを英語に翻訳するときにだけ呼び出されるCGIプログラムであれば、フィールドF13の記述内容であるメッセージ本文が英語であるか日本語であるかを確認する処理を行うことなく、日本語から英語への翻訳処理を開始することができる。
【0109】
前記CGIプログラムPR41による翻訳処理において、各フィールドF11〜F13に記述される氏名、題名、メッセージ本文のうち、氏名などは通常、分野ごとの表現の相違を反映させる必要はないため、翻訳用辞書24だけを利用して一般的な翻訳を行えばよいと考えられるが、少なくともメッセージ本文は分野ごとの表現の相違を反映させる必要がある。題名については、必要に応じて、一般的な翻訳の対象としてもよく、分野ごとの表現の相違を反映させた翻訳の対象としてもよい。
【0110】
分野ごとの表現の相違を反映させた翻訳は、図8のフローチャートにしたがって実行される。
【0111】
当該CGIプログラムPR41の翻訳対応部31がその翻訳処理を開始すると、図8のフローチャートの処理がはじまる。
【0112】
図8において、ステップS10では当該翻訳対応部31が前記メッセージ本文を1文切り出す(S10)。これにより、図5(A)に示す翻訳依頼フォームWD2のフィールドF13の記述内容のうち、例えば最初の1文である「It is $10」が切り出される。
【0113】
次に、当該翻訳対応部31は、このメッセージ本文の分野である「関西」分野と同一分野に属する対訳テーブルTB3中の対訳を利用して翻訳を行おうとする。ただし対訳は、その時点で前記対訳テーブルTB3に格納されているものにかぎられるため、最初に、対訳テーブルTB3中の同一分野に属する対訳のなかに必要とする対訳が存在するか否かを検索することになる(S11)。
【0114】
対訳の検索であるから、この検索では基本的に英語本文の値が当該「It is $10」に完全に一致する行を探索することになるが、例えば、「It is $100」など「$10」と「$100」が異なる程度の相違で類似している場合であれば、翻訳用辞書24に格納されている文法などを利用した簡単な自然言語処理を行うことによって、その相違を吸収することが可能であるから、この程度の相違を含む行も探索するようにしてよい。
【0115】
あるいは「It is $10」を対訳テーブルTB3に格納する際に、あらかじめ前記「$10」の部分を抽象化する処理を施しておくようにしてもよい。
【0116】
図4に示す対訳テーブルTB3の6つの行C1〜C6のうち、当該CGIプログラムPR41と同じ分野番号4に対応する行は、図3に示す番号対応テーブルTB2の格納内容から、記事番号2と4の行C2〜C4,およびC6であることが分かる。
【0117】
この行C6の英語本文の値は「very expensive」であり、いま翻訳処理の対象となっている「It is $10」と同一でもなく、類似してもいない。しかし、行C2〜C4の英語本文の値であるAAAA〜CCCCが、当該「It is $10」と同一または類似であれば、ステップS11はYES側に分岐して、その英語本文に対応する日本語本文の値を用いて「It is $10」の翻訳を行うことができる(S16)。
【0118】
この翻訳では対訳を利用するため、基本的には、対訳テーブルTB3における該当する行の日本語本文の値(文字列)を、翻訳しようとしている英語のメッセージの1文と単純に置換することによって、翻訳を行うことができる。
【0119】
ただし、対訳テーブルTB3中の行に、まったく同じ文字列がなく、近い文字列しかない場合には、単純に1文を置換するだけでなく、例えば、前記「$100」を「$10」と置き換える程度の自然言語処理が必要になる。この場合、この自然言語処理では、前記翻訳辞書24の内容(文法など)を利用することになるが、基本的には、対訳テーブルTB3の対訳を利用しているため、表現力を損なうことはほとんどなく、紋切り型の翻訳結果とはならない。
【0120】
一方、前記AAAA〜CCCCが当該「It is $10」と同一でもなく類似でもないものとすると、ステップS11はNO側に分岐して、対訳テーブルTB3中の分野が異なる行も検索する(S12)。
【0121】
この検索では行C1とC3が検索される。この行C1でも英語本文の値は、同一でも類似でもない前記「very expensive」である。もしも、行C3の英語本文の値であるDDDDが前記「It is $10」と同一または類似であれば、対応する日本語本文の値である、ええええを利用して前記「It is $10」の翻訳を行うことができるが(S16)、同一でも類似でもなければ、一般的な翻訳用辞書24だけを使用して機械翻訳を行うことになる(S13)。
【0122】
同一分野のまったく同じ文または類似した文が存在しない場合に、前記ステップS12において、直ちに全分野に関して対訳テーブルTB3を検索せず、上述した木構造を上位にさかのぼって、段階的に、検索対象となるジャンルの範囲を拡大するようにしてもよい。
【0123】
例えば、図10に示す「関西(の方言)」分野N33に、まったく同じ文または類似した文が存在しない場合には、対訳テーブルTB3中の「西日本(の方言)」分野N23に該当する行から、まったく同じ文または近い文を検索するなどの処理を行うことができる。これにより、必要とする関西地方の方言と同じではないが、近似した翻訳結果が得られる可能性が高まる。
【0124】
ただしこのように検索対象となるジャンルの範囲を段階的に拡大するためには、図10の木構造の内容を、例えば前記メッセージデータベース23などに格納して管理しておく必要がある。
【0125】
対訳テーブルTB3に格納されている行の数は、電子掲示板システム12が運用される期間が長くなり、多くのメッセージが投稿されるほど増加する傾向があるから、電子掲示板システム12の運用期間が長くなるほど、対訳テーブルTB3から同じ文または類似した文が検索できる確率が高まり、同じ分野から同じ文または類似した文が検索できる確率も高くなる。
【0126】
運用開始直後でもこの確率を高くするため、運用開始前に、予め予測可能な範囲において、対訳テーブルTB3内に、できるだけ多くの対訳(方言、流行語、専門的表現など)を格納しておくようにしてもよい。
【0127】
このような処理により、翻訳辞書24だけを使用して機械翻訳を行い(S13)、紋切り型の翻訳結果を得ることが、可及的に回避される。
【0128】
前記翻訳依頼フォームWD2のフィールドF13のなかのすべての文について当該ステップS10〜S13,またはS16の処理が行われるまで、ステップS14はNO側に分岐して、ステップS10〜S13,またはS16の処理が繰り返される。
【0129】
したがって、図5(A)に示したフィールドF13中の2つ目の文である「very expensive」についても、前記「It is $10」と同様な処理が行われる。
【0130】
ただし図3と図4から明らかなように、当該「very expensive」については、同じ「関西」分野に属する対訳テーブルTB3の行C6の英語本文の値がまったく同一であるから、同じ行C6の日本語本文の値である「めっちゃ高い」を当該「very expensive」と置き換えるだけで翻訳を行うことができる。すなわち、前記ステップS10,S11のYES側、S16の順番で処理が行われる。
【0131】
図5(A)に示す翻訳依頼フォームWD2のフィールドF13には、「It is $10」と「very expensive」しか記述されていないため、これら2つの文に対する翻訳処理が終わると、ステップS14はYES側に分岐し通信端末13に対して例えば図6に示すような投稿フォーム(翻訳結果確認画面)WD4が送信される(S15)。この送信は、前記ステップS10以前に、図5(A)の翻訳依頼フォームWD2の各フィールドF11〜F13の記述内容を受け取ったことに対するHTTPレスポンスとして、CGIプログラムPR41のページ生成対応部32が行うものである。
【0132】
なお、前記フィールドF12に記述される題名についても、分野ごとの表現の相違を反映させた翻訳の対象とする場合には、フィールドF12に記述された「price negotiation」についても、図8のフローチャートにしたがった処理を行うことになるのは当然である。
【0133】
前記ステップS15で送信された図6の投稿フォームWD4を、通信端末13上で目視したユーザU1は、投稿フォームWD4の各フィールドF31〜F33,およびF41〜F43に記述されている内容で満足ならば、そのまま「POST」ボタンBT3を操作して投稿を行うことになる。
【0134】
このとき、ユーザU1が必要を認めれば、フィールドF41〜F43の記述内容を編集し変更することができる。また、必要ならば、フィールドF31〜F33の記述内容まで変更できるようにしてもよい。編集作業が終了して記述内容が確定し、ユーザU1が「POST」ボタンBT3を操作すると、その時点のフィールドF31〜F33およびF41〜F43の記述内容が、HTTPリクエストとして前記CGIプログラムPR41に送信される。
【0135】
これに応じて、前記CGIプログラムPR41のメッセージ登録対応部30が、フィールドF31〜F33およびF41〜F43の記述内容を、メッセージデータベース23内の該当するテーブルに格納する。このとき、例えば、前記対訳テーブルTB3には、「It is $10」を英語本文の値とし、「10ドルだ」を日本語本文の値とする新たな行を追加するとともに、「very expensive」を英語本文の値とし、「めっちゃ高い」を日本語本文の値とする新たな行を追加するようにしてもよい。
【0136】
ただし上述した実質的な処理効率や記憶資源の利用効率の低下、または対訳テーブルTB3に格納されているデータの品質劣化を防ぐために、ユーザU1が投稿フォームWD4上で各フィールドF31〜F33またはF41〜F43の記述内容を変更しなかった場合には、対訳テーブルTB3に対する新たな行の追加は行わないようにするとよい。
【0137】
この場合、メッセージ登録対応部30は、ユーザU1が投稿フォームWD4上で各フィールドF31〜F33またはF41〜F43の記述内容を変更したか否かを検査する機能を備える必要がある。
【0138】
なお、ユーザU1などの各ユーザが投稿フォームWD4上で各フィールドの記述内容を変更したとしても、その変更の結果が適切である保証はないため、かならずしも適切でない対訳(例えば、「関西」分野の対訳が、「very expensive」と「とても高い」の対である場合など)が対訳テーブルTB3などに格納される可能性もある。
【0139】
このような不適切な対訳が蓄積されると、対訳テーブルTB3が期待どおりの機能を発揮せず、分野ごとの表現の相違を反映した翻訳結果が得られないため、手作業や所定の機能モジュールによる自動的な処理を利用して、明らかに不適切な対訳は、削除または修正するようにしたほうがよい。
【0140】
例えば、モデレータ(調整役)が置かれた掲示板の場合には、モデレータの手作業によってこのような削除または修正を実行するようにしてもよい。
【0141】
対訳テーブルTB3に格納する対訳は、この例のような方言にかぎらず、流行語や、専門的表現などであってもよい。電子掲示板システム12にアクセスするユーザU1などの多数のユーザのなかには、英語にも日本語にも習熟していて、流行語や専門的表現にも詳しいユーザも少なくないため、このようなユーザが前記投稿フォームWD4などを利用して実行する編集作業に応じて、最新の流行語や、専門的表現が、多数、対訳テーブルTB3に蓄積されることが期待できる。
【0142】
前記各フィールドF31〜F33またはF41〜F43の記述内容が、対訳テーブルTB3などに格納されるか否かにかかわりなく、これらの記述内容は、CGIプログラムPR41のページ生成対応部32によって、掲示板上に掲載される。
【0143】
すなわち、ページ生成対応部32が、当該記述内容に対応したメッセージを、それまで表示されていたメッセージの上(あるいは下など)に表示した形の新しいWebページ(掲示板)を生成し、ユーザU1などのユーザに提供する。
【0144】
CGIプログラムPR41がユーザU1に返すHTTPレスポンスとしては、この新しいWebページ(掲示板)そのものを送信するようにしてもよいし、投稿が完了した旨のメッセージだけを送信するようにしてもよい。
【0145】
いずれにしても、この新しいWebページ(掲示板)の生成により、ユーザU1が投稿フォームWD4を用いて投稿したメッセージは、ユーザU1やU2などによって閲覧され得る状態になる。
【0146】
(A−3)第1の実施形態の効果
本実施形態によれば、2ヶ国語間の翻訳結果として得られる対訳をメッセージデータベース(23)に蓄積しておき、蓄積した対訳を再利用して、表現力に富んだ即応性のある機械翻訳を行い、前記掲示板に表示するメッセージの翻訳結果の表現力や、流行などへの即応性を高めることができる。
【0147】
これにより、例えば、ユーザ(U1)が日本語に不慣れな米国人などであっても、日本の関西地方の方言によるメッセージ投稿なども実行することが可能になる。
【0148】
(B)第2の実施形態
以下では、本実施形態が第1の実施形態と相違する点についてのみ説明する。
【0149】
本実施形態は、前記対訳テーブルTB3に格納されている対訳資源を利用する際の処理に、第1の実施形態では存在しなかった処理を付加したものである。
【0150】
すなわち本実施形態では、対訳テーブルTB3に蓄積されている対訳のうち、ユーザ(例えば、U2)が記述したもとのメッセージ(原文メッセージ)の言語(原文言語)と、翻訳結果を記述した言語(訳文言語)を識別して管理しておき、新たな翻訳依頼が発生すると、その翻訳依頼を発したユーザ(例えば、U1)が記述した原文言語のメッセージと一致(または類似)する文を、(原文メッセージとしてではなく)翻訳結果として含む行を対訳テーブルTB3から検索し、その翻訳結果に対応する原文メッセージを、この新たな翻訳依頼のための翻訳結果とするものである。
【0151】
通常、原文言語は、その言語で原文メッセージを記述したユーザU2が習熟している言語(例えば、そのユーザU2の母国語)であるため、その記述は洗練された極めて適切な表現となっていることが多い。したがって、本実施形態で付加する処理により、その適切な表現を翻訳結果として再利用することができれば、高品質の翻訳結果を得られる可能性が高まる。このような適切な表現は、その言語に習熟したユーザ(例えば、その言語を母国語とするユーザ)にとって、極めて自然で受け入れやすい表現となっている。
【0152】
(B−1)第2の実施形態の構成および動作
図1に示す通信システム10の全体構成例や、図14に示すCGIプログラムPR11〜PR42の機能は、本実施形態でも基本的に同じである。
【0153】
ただし本実施形態では、図1に示すメッセージデータベース23の内部に、第1の実施形態では使用しなかった原文言語管理テーブルTB4を用意しておく必要がある。当該原文言語管理テーブルTB4は、前記番号対応テーブルTB2の替わりに使用するものであるから、本実施形態では、当該番号対応テーブルTB2は省略可能である。
【0154】
この原文言語管理テーブルTB4は、例えば、図9に示すように、列名として、分野番号、原文言語、記事番号を備えている。
【0155】
分野番号と記事番号の意味は第1の実施形態と同様である。また、原文言語とは、図4に示す対訳テーブルTB3における英語本文と日本語本文の対から成る対訳のうち、英語本文と日本語本文のいずれが、ユーザ(例えば、U2)の記述した原文メッセージであるかを示す情報である。
【0156】
例えば、当該原文言語管理テーブルTB4の上から4番目の行D4は、分野番号が4,原文言語が「日本語」、記事番号が4となっている。これは対訳テーブルTB3内の記事番号4の行は、分野番号4の分野に属し、原文言語が「日本語」であることを示す。
【0157】
したがって、CGIプログラムPR41は、この記事番号4を検索キーとして図4の対訳テーブルTB3を検索することにより、検索結果として行C6を得ることができる。この行C6は、例えば、ユーザU2が図5(B)に示す(日本語から英語への翻訳を依頼する)翻訳依頼フォームWD3のフィールドF23にメッセージ本文として「めっちゃ高い」と記述し、それをCGIプログラムPR42が機械翻訳した結果として(あるいは、図6に示す前記投稿フォームWD4上でユーザU2が編集した結果として)、「very expensive」を得て、当該「めっちゃ高い」と「very expensive」の対から成る対訳を、CGIプログラムPR42が対訳テーブルTB3に格納したことによって生成されたものである。
【0158】
この場合、ユーザU2は関西地方の方言に習熟したユーザである可能性が高い。
【0159】
なお、図7および図12から明らかなように、CGIプログラムPR41は「関西」分野で英語投稿を行う場合に機能するものであり、CGIプログラムPR42は「関西」分野で日本語投稿を行う場合に機能するものである。
【0160】
本実施形態の翻訳処理の動作は、図11に示すフローチャートの通りである。
【0161】
図11のフローチャートは、S10〜S16およびS20の各ステップから構成されている。このうち図8の各ステップと同じ符号を付与したステップS10〜S16の処理は、第1の実施形態と同じなので、その詳しい説明は省略する。
【0162】
したがって、本実施形態が第1の実施形態と相違するのは、ステップS20に関連する部分の処理だけである。このステップS20の処理が、第1の実施形態には存在せず本実施形態において付加した前述の処理である。
【0163】
当該ステップS20では、ステップS10で切り出した1つの文(例えば、「very expensive」)と同一(または類似)の文を、翻訳結果として持つ行を、対訳テーブルTB3中の同一の分野に属する行のなかから検索する。
【0164】
図9と図4から明らかなように、対訳テーブルTB3の行C1〜C6のうち同一分野(ここでは、「関西」分野)に属する行C6は翻訳結果として当該「veryexpensive」を含んでいるから、ステップS20はYES側に分岐する。
【0165】
そして、ステップS20のYES側につづくステップS16では、当該行C6の原文メッセージである「めっちゃ高い」を、ステップS10で切り出した「very expensive」と置き換えて翻訳処理を行う。それ以降の処理は、第1の実施形態と同様である。
【0166】
一方、ステップS10で切り出した1つの文(例えば、「very expensive」)と同一(または類似)の文を、翻訳結果として持つ行が、対訳テーブルTB3中の同一の分野に属する行のなかに存在しなかった場合には、前記ステップS20はNO側に分岐し、以降は第1の実施形態と同様なステップS11の処理などが実行される。
【0167】
なお、図11ではステップS20がNO側に分岐したあとステップS11を実行しているが、ステップS20のNO側の分岐につづいて、切り出した1つの文と同一(または類似)の文を翻訳結果として持つ行の存否を、対訳テーブルTB3中の全分野から検索するようにしてもよい。
【0168】
また、このとき、上述した木構造をさかのぼって、段階的に、検索対象となるジャンルの範囲を拡大するようにしてもよい。
【0169】
(B−2)第2の実施形態の効果
本実施形態によれば、第1の実施形態の効果と同等な効果を得ることができる。
【0170】
加えて、本実施形態では、洗練された極めて適切な表現となっていることの多い対訳の原文メッセージを、翻訳結果として再利用することができるため、その分野に適合した高品質の翻訳結果を得られる可能性が高い。
【0171】
なお、この原文メッセージは、第1の実施形態では、検索時の照合にしか利用されていなかった情報である。
【0172】
(C)他の実施形態
図5〜図7に示した各画面の構成は図示したものに限らないことは当然である。例えば、図5に示す翻訳依頼フォームの画面WD2またはWD3に、翻訳を依頼するユーザ(例えば、U1)が明示的に分野を記述するためのフィールドを設けるようにしてもよい。
【0173】
その場合、記述するフィールドの数が増えてユーザの操作負担は増大し、CGIプログラムは分岐の多い処理を実行することになって処理に時間がかかるため、応答時間が長くなる可能性が高いものの、用意しておく翻訳依頼フォームTF11〜TF42の数や、CGIプログラムPR1〜PR42の数を低減することができる。
【0174】
上記第1および第2の実施形態では、ハイパーリンクL11〜L42のURLの相違だけによって、この分野を伝えていたものである。
【0175】
なお、上記実施形態で利用したHTML文書は、必要に応じて、他のデータ形式の文書に置換可能である。例えば、XML文書に置換することもできる。
【0176】
また、上述したように、処理の効率や記憶資源の使用効率を低下させないために、投稿されたメッセージとその対訳を対訳テーブルTB3に格納しないことがあり、なおかつ、記事ログを対訳テーブルTB3と別個に設けない場合には、投稿のログ情報を残すために、対訳テーブルTB3で記事番号や文番号の値に複合値(複数の値)を許すか、対訳自体を識別する対訳番号を導入して、この対訳番号と各記事番号や文番号との対応関係を登録するテーブルを用意すること等が必要になる可能性がある。
【0177】
なお、上記実施形態で使用した各種のテーブルTB1〜TB4には、上述した以外の列名を設けるようにしてもよく、上述した列名の一部を省略するようにしてもよい。
【0178】
また、上記第1および第2の実施形態ではCGIプログラムが各テーブルに、分野番号や記事番号を格納するようにしたが、各テーブルを管理するDBMS側が各CGIプログラムPR11〜PR42を識別して識別結果に応じた分野番号や記事番号を生成するようにしてもよいことは当然である。
【0179】
さらに、前記CGI掲示板については、CGIプログラムと連動するHTMLファイルとしてどのようなものを用意し、これらをどのようにCGIプログラムと連動させるかにより、上述したもの以外にも、多様な設計が可能である。
【0180】
例えば、掲示板に掲載された文字列の検索機能を備えた掲示板の場合には、検索する文字列を入力したり、検索結果を出力したりするためのHTML文書を用意する必要があるし、会員制の掲示板でユーザ認証を行う場合には、ユーザIDやパスワードを入力させるログイン画面(HTML文書)を用意する必要がある。もちろん、これらの場合、検索機能や、ユーザ認証機能はCGIプログラムが備えることになる。
【0181】
また、メッセージを表示する部分(掲示板の本体)と、前記翻訳依頼フォームや投稿フォームなどを、通信端末(例えば、13)上で同時に画面表示させるか、別個に画面表示させるか等も、CGIプログラムと各HTMLファイルをどのように連動させるかによって決まる。
【0182】
上述したCGIプログラムは、その他のプログラムに置換可能である。この場合、外部プログラムを呼び出すためのインタフェースもCGIインタフェースと異なるものを用いる。
【0183】
各種ベンダから提供される例えばISAPIなどのインタフェースを使用すれば、CGIよりも高いスループットが得られる可能性が高い。
【0184】
また、上記実施形態では、通信端末(例えば、13)として通常のパーソナルコンピュータを想定し、電子掲示板のために必要な機能のほとんどは、電子掲示板システム12の側に配分したが、上述したCGIプログラム(例えば、PR41)の機能の一部を、必要に応じて、通信端末側に配分するようにしてもよい。
【0185】
例えば、翻訳依頼フォームを生成したり、投稿フォームを生成したりする機能を通信端末側に配分してもよい。また、一致または類似する文が対訳テーブルTB3から検索できない場合の翻訳を、通信端末側に搭載した機械翻訳システムを利用して実行するようにしてもよい。
【0186】
また、上記第1および第2の実施形態にかかわらず、図6に示すような投稿フォーム(翻訳結果確認画面)WD4を通信端末13上で画面表示してユーザU1に見せる処理は省略してもよいし、省略するか否かを、ユーザU1が選択できるようにしてもよい。省略した場合、図8のステップS14がYES側に分岐したあと、そのまま、CGI掲示板に対するメッセージの書込みが行われることになる。
【0187】
ユーザU1が日本語がほとんど分からないユーザの場合には、投稿フォームWD4を見せられても、日本語に関して、翻訳結果を適切に修正する判断力がなく、単に操作手数が増えて負担が増加したり、かえって翻訳結果の品質を低下させたりするだけの結果に終わる可能性もあるからである。
【0188】
なお、上記第1および第2の実施形態では、ステップS13またはS16の処理が終了し、投稿フォームWD4による最終的な投稿が行われた時点で、原文メッセージとその翻訳結果から成る対訳を対訳テーブルTB3に格納するようにしたが、必要に応じて、途中経過に相当する翻訳依頼フォームWD2やWD3の各フィールドの記述内容をCGIプログラムが収集した時点で、その記述内容(原文メッセージなど)を該当するテーブルに格納しておくようにしてもよい。
【0189】
また、図8および図11のステップS11,S12や、図11のステップS20では同一または類似の文(例えば、英語本文の値)の存否に応じて分岐したが、対訳テーブルTB3の行数が多い場合などには、同一または類似の文が複数存在し、複数検索されることも起こり得る。そのようなケースでは、CGIプログラムが自動的にいずれか1つの文(日本語本文の値)を翻訳結果として選択した上でユーザU1に提示してもよく、検索された複数の文(日本語本文の値)をユーザU1に提示して、ユーザU1に選択させるようにしてもよい。
【0190】
なお、実際の電子掲示板では、ある1つの話題について複数のユーザがメッセージの投稿を繰り返して議論を展開していくことも多い。この話題はユーザによって動的に設定されるものであるが、掲示板が分野ごとにわかれている場合には、話題は通常、いずれかの分野のなかで設定されるものであり、前記分野に含まれる最小のジャンルの単位として位置づけることもできる。したがって、話題と話題のあいだにも、前記分野と分野のあいだで設定したような包含、被包含の関係を設定でき、各話題を1つの木構造(階層構造)の中のいずれかの節として位置づけることができる。
【0191】
したがって、上述した分野をそのまま話題に置き換えても、本発明は適用可能である。
【0192】
また、上記第1および第2の実施形態にかかわらず、日本語と英語以外の言語のあいだで翻訳を行うようにしてもよいことは当然である。また、2ヶ国語間だけでなく3ヶ国以上の言語のあいだで翻訳を実行し、その翻訳結果として得られる対訳を表示するようにしてもよい。
【0193】
本発明は、CGI掲示板以外の電子掲示板に適用することができる。例えば、上述したパソコン通信の電子掲示板システムや、グループウエアを利用した電子掲示板システム、NNTPプロトコルを用いるネットニュースなどにも、本発明を適用することができる。
【0194】
また、本発明は電子掲示板以外のメッセージ交換システムに適用することが可能である。
【0195】
例えば、メーリングリスト、チャットなどのメッセージ交換システムにも本発明を適用することが可能である。一例として、メーリングリストでは投稿用と翻訳用の2アドレスを使用する等によって掲示板と同様な機能を実現できる。
【0196】
また、本発明はこのように複数のユーザのあいだでメッセージ交換を行うためのシステムに限って適用されるものではなく、動的な翻訳が反復して繰り返される環境に対し、広く適用することが可能である。例えば、一人のユーザが繰り返し翻訳を行うことを支援する、パーソナルコンピュータ上の翻訳システムに本発明を適用することも可能である。このような場合に本発明を適用すると、以前に行った翻訳処理(ユーザ自身による編集作業も含まれる)の結果(対訳)を再利用でき、翻訳に必要な労力を節約することが可能である。
【0197】
さらに、上記第1または第2の実施形態では、文を単位として対訳を蓄積し再利用するようにしたが、この単位は、文に限定する必要はない。例えば、単語単位や、複合語単位で対訳を蓄積し再利用するようにしてもよい。
【0198】
以上の説明では主としてソフトウエア的に本発明を実現したが、本発明はハードウエア的に実現することも可能である。
【0199】
【発明の効果】
以上に説明したように、本発明の翻訳支援システムおよび方法によれば、蓄積した対訳を再利用して、新たな原メッセージをその分野に適合した目的メッセージに翻訳することで、表現力に富んだ即応性のある翻訳結果を、効率的に得ることができる。
【0200】
この翻訳結果は、当該分野において受け入れられやすい、自然な表現ともなっている。
【図面の簡単な説明】
【図1】第1および第2の実施形態に係る通信システムの全体構成例を示す概略図である。
【図2】第1および第2の実施形態で使用する分野テーブルの構成例を示す概略図である。
【図3】第1および第2の実施形態で使用する番号対応テーブルの構成例を示す概略図である。
【図4】第1および第2の実施形態で使用する対訳テーブルの構成例を示す概略図である。
【図5】第1および第2の実施形態で使用する翻訳依頼フォームの画面表示例を示す概略図である。
【図6】第1および第2の実施形態で使用する投稿フォームの画面表示例を示す概略図である。
【図7】第1および第2の実施形態で使用する翻訳依頼フォーム要求画面の画面表示例を示す概略図である。
【図8】第1の実施形態の翻訳処理動作を示すフローチャートである。
【図9】第2の実施形態で使用する原文言語管理テーブルの構成例を示す概略図である。
【図10】第1および第2の実施形態における分野のあいだの包含、被包含関係に対応する木構造の構成例を示す概略図である。
【図11】第2の実施形態の翻訳処理動作を示すフローチャートである。
【図12】第1および第2の実施形態におけるハイパーリンク,CGIプログラム、翻訳依頼フォームのあいだの対応関係を示す概略図である。
【図13】第1および第2の実施形態における英語と日本語の対訳を表示するCGI掲示板の画面表示例を示す概略図である。
【図14】第1および第2の実施形態で使用するCGIプログラムの構成例を示す概略図である。
【符号の説明】
10…通信システム、11…ネットワーク(インターネット)、12…電子掲示板システム、13,14…通信端末、20…メッセージ登録部、21…ページ生成部、22…翻訳処理部、23…メッセージデータベース、24…翻訳用辞書、25…基本データベース、30…メッセージ登録対応部、31…翻訳対応部、32…ページ生成対応部、33…分野番号管理部、PR11〜PR42…CGIプログラム、TB1…分野テーブル、TB2…番号対応テーブル、TB3…対訳テーブル、WD2,WD3…翻訳依頼フォーム、WD4…投稿フォーム。
Claims (5)
- 同じ対訳が複数回、発生し得る翻訳環境で、原メッセージを目的メッセージに翻訳するための翻訳支援システムにおいて、
前記翻訳環境は複数の分野に分割されており、各分野で前記翻訳が実行されると、各分野を識別する分野識別情報とともに、当該翻訳によって動的に発生し各分野に属する前記原メッセージとその目的メッセージの対として構成される前記対訳を蓄積する対訳蓄積手段を備え、
前記対訳を再利用することにより、新たな原メッセージをその分野に適合した目的メッセージに翻訳することを特徴とする翻訳支援システム。 - 請求項1の翻訳支援システムにおいて、
機械翻訳によって、前記分野に依存することなく、前記原メッセージを目的メッセージに翻訳する通常機械翻訳手段と、
前記対訳蓄積手段を検索して得られた前記対訳に応じて、前記原メッセージを当該対訳に対応した目的メッセージに置き換える第1のメッセージ置換手段と、
前記対訳蓄積手段を検索して対訳が得られた原メッセージについては前記第1のメッセージ置換手段による置き換えを行い、対訳が得られなかった原メッセージについては、前記通常機械翻訳手段による翻訳を実行させる翻訳制御手段とを備えたことを特徴とする翻訳支援システム。 - 請求項1の翻訳支援システムにおいて、
前記複数の分野のあいだの関係は、意味的な階層構造で規定されることを特徴とする翻訳支援システム。 - 請求項1の翻訳支援システムにおいて、
前記対訳蓄積手段は、
前記対訳に関し、当該対訳を構成する2つのメッセージのうちいずれのメッセージが原メッセージで、いずれのメッセージが目的メッセージであるかを識別して管理するメッセージ管理部と、
前記原メッセージが属する言語体系である原言語体系と、前記目的メッセージが属する言語体系である目的言語体系とを識別して管理する言語体系管理部とを備え、
翻訳しようとしている原メッセージが属する原言語体系を目的言語体系とし、当該翻訳によって得られる目的メッセージが属する目的言語体系を原言語体系とする対訳であって、なおかつ、当該原メッセージと同じ内容のメッセージを目的メッセージとする対訳を、前記対訳蓄積手段から検索する逆引き実行手段と、
検索によって当該逆引き実行手段が前記対訳蓄積手段から得た対訳を構成する2つのメッセージのうち、原メッセージのほうを当該翻訳によって得られる目的メッセージとしてメッセージの置き換えを行う第2のメッセージ置換手段とを備えたことを特徴とする翻訳支援システム。 - 同じ対訳が複数回、発生し得る翻訳環境で、原メッセージを目的メッセージに翻訳するための翻訳支援方法において、
前記翻訳環境は複数の分野に分割されており、各分野で前記翻訳が実行されると、各分野を識別する分野識別情報とともに、当該翻訳によって動的に発生し各分野に属する前記原メッセージとその目的メッセージの対として構成される前記対訳を対訳蓄積手段に蓄積しておき、
前記対訳を再利用することにより、新たな原メッセージをその分野に適合した目的メッセージに翻訳することを特徴とする翻訳支援方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002236834A JP2004078485A (ja) | 2002-08-15 | 2002-08-15 | 翻訳支援システムおよび方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002236834A JP2004078485A (ja) | 2002-08-15 | 2002-08-15 | 翻訳支援システムおよび方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004078485A true JP2004078485A (ja) | 2004-03-11 |
Family
ID=32020842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002236834A Pending JP2004078485A (ja) | 2002-08-15 | 2002-08-15 | 翻訳支援システムおよび方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004078485A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008134843A (ja) * | 2006-11-28 | 2008-06-12 | Yahoo Japan Corp | 言語変換装置、言語変換方法、及びコンピュータプログラム |
JP2015106183A (ja) * | 2013-11-28 | 2015-06-08 | シャープ株式会社 | 翻訳装置、および翻訳装置の制御方法 |
WO2023189110A1 (ja) * | 2022-03-28 | 2023-10-05 | 株式会社バンダイ | 翻訳システム、翻訳装置及びプログラム |
-
2002
- 2002-08-15 JP JP2002236834A patent/JP2004078485A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008134843A (ja) * | 2006-11-28 | 2008-06-12 | Yahoo Japan Corp | 言語変換装置、言語変換方法、及びコンピュータプログラム |
JP2015106183A (ja) * | 2013-11-28 | 2015-06-08 | シャープ株式会社 | 翻訳装置、および翻訳装置の制御方法 |
WO2023189110A1 (ja) * | 2022-03-28 | 2023-10-05 | 株式会社バンダイ | 翻訳システム、翻訳装置及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2245577C2 (ru) | Электронная доска объявлений и почтовый сервер | |
US6564254B1 (en) | System and a process for specifying a location on a network | |
US6338059B1 (en) | Hyperlinked search interface for distributed database | |
CN101520786B (zh) | 一种输入法词典的实现方法和输入法系统 | |
US8589373B2 (en) | System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers | |
US7302646B2 (en) | Information rearrangement method, information processing apparatus and information processing system, and storage medium and program transmission apparatus therefor | |
US5649186A (en) | System and method for a computer-based dynamic information clipping service | |
JP3548098B2 (ja) | ネイティブ言語照会サービスを提供する方法およびシステム | |
KR100815215B1 (ko) | 웹사이트 통합 검색 장치 및 방법 | |
US20020193986A1 (en) | Pre-translated multi-lingual email system, method, and computer program product | |
JP2002055872A (ja) | ウェブコンテンツを簡略化するための方法、システムおよび媒体 | |
KR19980032309A (ko) | 기계 번역 방법 및 장치 | |
US20070005649A1 (en) | Contextual title extraction | |
KR20000050225A (ko) | 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법 | |
JP4469432B2 (ja) | インターネット情報処理装置、インターネット情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH10187752A (ja) | 言語間情報検索支援システム | |
JP2004078485A (ja) | 翻訳支援システムおよび方法 | |
JP2002091963A (ja) | 機械翻訳システム | |
JP2003006455A (ja) | 翻訳サービスシステム | |
JP2001344246A (ja) | 用語集データベース作成方法および電子文書検索方法 | |
JP4480353B2 (ja) | リンク情報配送システムおよびリンク情報配送方法 | |
JP3310961B2 (ja) | ネットワーク上の場所を指定するためのシステム及び方法 | |
KR100491254B1 (ko) | 웹사이트 디렉토리나 웹페이지에 대해 설명하는 단어들에하이퍼링크를 적용하는 검색 시스템 및 방법 | |
WO2001055901A1 (fr) | Systeme de traduction automatique, serveur et client de ce systeme | |
JP3311957B2 (ja) | ユーザ辞書構築方法およびユーザ辞書構築装置および翻訳方法および翻訳装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070403 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070604 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070619 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070820 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070910 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20071221 |