JP2003345798A - 翻訳制御方法,翻訳制御装置およびその処理プログラム - Google Patents

翻訳制御方法,翻訳制御装置およびその処理プログラム

Info

Publication number
JP2003345798A
JP2003345798A JP2002148482A JP2002148482A JP2003345798A JP 2003345798 A JP2003345798 A JP 2003345798A JP 2002148482 A JP2002148482 A JP 2002148482A JP 2002148482 A JP2002148482 A JP 2002148482A JP 2003345798 A JP2003345798 A JP 2003345798A
Authority
JP
Japan
Prior art keywords
translation
document
language
sentence
control device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002148482A
Other languages
English (en)
Inventor
Yamato Takahashi
大和 高橋
Kura Furuse
蔵 古瀬
Yoshihiko Hayashi
林  良彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002148482A priority Critical patent/JP2003345798A/ja
Publication of JP2003345798A publication Critical patent/JP2003345798A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 文書と閲覧言語を指定するだけで、翻訳を行
えるようにすること。 【解決手段】 利用者が翻訳を希望する文書の識別情報
と閲覧言語を入力するクライアント端末400と、予め
定められた翻訳元言語から翻訳先言語への翻訳を行う複
数の翻訳装置200と、前記識別情報で特定される翻訳
対象の文書を格納するファイルサーバ300のそれぞれ
に、ネットワークを介して翻訳制御装置100を接続
し、この翻訳制御装置100において、翻訳希望文書を
前記ファイルサーバ300から読み出し、その使用言語
を判別するステップ(10,20,30)と、判別した
言語に対応する翻訳装置を前記複数の翻訳装置中から選
択するステップ(40)と、選択した翻訳装置に前記文
書を渡して翻訳結果を受け取るステップ(50)と、翻
訳された文書を前記クライアント端末400に送るステ
ップ(10)とを有する構成とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は翻訳制御方法,翻訳
制御装置およびその処理プログラムに関し、特に、ネッ
トワークを介して取得した電子化文書を利用者の希望す
る言語へ自動的に翻訳するために複数の翻訳装置を制御
する方法および装置並びに処理プログラムに関する。
【0002】
【従来の技術】従来の翻訳装置は、例えば英語から日本
語へ、もしくは日本語から英語へといったように、予め
用意された特定の翻訳のみが行えるものであり、また、
この際利用者は翻訳しようとする文書がどんな言語(例
えば、英語や韓国語)で記述されているのかを自ら指定
しなければならなかった。
【0003】しかしながら、前者の翻訳装置において
は、この翻訳装置は、特定の端末上でのみ動作するもの
であるため、異なる端末毎に、また、翻訳先言語が異な
る毎に翻訳ソフトウェアを端末台数分導入する必要があ
るという問題があった。
【0004】また一方、後者の翻訳装置においては、現
在のネットワークで利用されている電子化文書でよく使
われているHTML文書では、ハイパーリンクされた先
の文書がハイパーリンク元と同じ言語で書かれているか
どうかは不明であり、言語を正しく判断できるように表
示できるかどうかは保証されていないという問題があっ
た。
【0005】さらに、これから普及するであろうXML
文書では、Unicodeの利用により複数の言語で書かれた
文書を作ることができる。これらの文書を翻訳して閲覧
するときに、言語をそれぞれに指定することは利用者に
とって非常に大きな負担となり、現実的ではない。
【0006】なお、これらに関しては、例えば、特開平
10−134052号,同11−3337号の各公報に
開示された技術を参考にすることができる。
【0007】
【発明が解決しようとする課題】本発明では、このよう
な従来の問題を解決するために、利用者が電子化文書を
希望する言語で自由に閲覧できる多言語翻訳を可能とす
るための、翻訳制御方法および翻訳制御装置並びにその
処理プログラムを提供することを目的とする。
【0008】より具体的には、本発明の目的は、インタ
ーネット上の電子化文書における使用言語を自動判別し
て、目的の翻訳先言語への翻訳を行うための翻訳装置を
選択し、また、インターネット文書の文書構造を適切に
解析して、翻訳後も元の文書構造をできる限り反映した
翻訳文書を作成可能とする翻訳制御方法および翻訳制御
装置並びにその処理プログラムを提供することにある。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、本発明に係る翻訳制御方法は、予め定められた翻訳
元言語から翻訳先言語への翻訳を行う複数の翻訳装置
と、識別情報で特定される文書を格納するファイルサー
バのそれぞれに、ネットワークを介して翻訳制御装置を
接続してなる翻訳システムにおける翻訳制御方法であっ
て、前記翻訳制御装置は、利用者による翻訳を希望する
文書の識別情報と閲覧言語の入力を受け付けるステップ
と、翻訳希望文書を前記ファイルサーバから読み出し、
その文書中の文章の使用言語を判別するステップと、判
別した言語に対応する翻訳装置を前記複数の翻訳装置中
から選択するステップと、選択した翻訳装置に前記文書
を渡して翻訳結果を受け取るステップと、翻訳された文
書を前記利用者の端末に送るステップとを実行すること
を特徴とする。
【0010】ここで、本発明に係る翻訳制御方法におい
ては、前記文書の読み出しに際しては、文書構造の解析
にタグ情報を参照することを特徴とする。また、前記文
書の使用言語を判別する際には、文字コードによる判別
と、特徴的な単語の出現頻度を用いる判別の少なくとも
一方を用いることを特徴とする。
【0011】また、本発明に係る翻訳制御方法では、前
記翻訳装置を選択するステップにおいて、複数台の翻訳
装置の組み合わせ選択を可能とすることを特徴とする。
また更に、本発明に係る翻訳制御方法においては、前記
翻訳制御装置は、前記各ステップに加えて、翻訳装置か
ら受け取った翻訳結果に、前記タグ情報に基づく各種の
加工を行うステップを有することを特徴とする。
【0012】一方、本発明に係る翻訳制御装置は、利用
者が翻訳を希望する文書の識別情報と閲覧言語を入力す
るクライアント端末と、予め定められた翻訳元言語から
翻訳先言語への翻訳を行う複数の翻訳装置と、識別情報
で特定される文書を格納するファイルサーバのそれぞれ
に、ネットワークを介して翻訳制御装置を接続してなる
翻訳システムにおいて、前記翻訳制御装置は、前記クラ
イアント端末との入出力を制御するインタフェース部
と、翻訳希望文書を前記ファイルサーバから読み出す文
書抽出処理部と、読み出した文書中の文章の使用言語を
判別する言語判別処理部と、判別した言語に対応する翻
訳装置を前記複数の翻訳装置中から選択する翻訳装置選
択処理部と、選択した翻訳装置に前記翻訳希望文書を渡
して翻訳結果を受け取る翻訳処理部とを有することを特
徴とする。
【0013】ここで、本発明に係る翻訳制御装置におい
ては、前記翻訳装置選択処理部は、複数台の翻訳装置の
組み合わせ選択を可能とすることを特徴とする。また、
前記翻訳制御装置は、前記各処理手段(処理部)に加え
て、翻訳装置から受け取った翻訳結果に、前記タグ情報
に基づく各種の加工を行う処理手段を有することを特徴
とする。
【0014】本発明に係る翻訳制御方法ないしこれに基
づく翻訳制御装置は、この翻訳制御方法をコンピュータ
制御により実行させることが可能であり、このための処
理プログラム、およびこの処理プログラムを記録したコ
ンピュータにより読み取り可能な記録媒体も、本発明の
権利範囲に含まれることはいうまでもない。
【0015】より具体的には、本発明に係る翻訳制御装
置100は、端末400から入力される利用者からの翻
訳先言語の指定と文書の指定を制御するインタフェース
部10と、ファイルサーバ300から取得した電子化文
書から翻訳する文章の抽出と文書構造の解析を行う文章
抽出部20と、電子化文書の記述言語を自動判別する言
語判別部30と、利用者の指示する翻訳先言語へ翻訳す
るための翻訳装置の組合せを選択する翻訳装置選択部4
0と、様々な翻訳装置の翻訳処理を制御する翻訳装置制
御部50と、翻訳装置200によって構成される(図1
参照)。ことを特徴とする。
【0016】インタフェース部10は、利用者からの指
示の基づき、利用者が閲覧を希望する文書の保管場所
(インターネット上ではURLと呼ばれる)と、希望す
る閲覧用言語の指定を本システムへ指示するとともに、
本システムにおける翻訳結果を利用者に示す機能を有す
るものである。
【0017】文章抽出部20は、文書の保管場所(例え
ば、インターネットに接続された前記ファイルサーバ3
00)から取得した電子化文書の文書構造の解析を行
い、翻訳する文章の抽出とHTML,XMLのタグ情報
から言語情報や文章の装飾情報を抽出し、これを記憶す
る機能を有するものである。HTMLでタグ付けされた
電子化文書には、文書がどのような文字コードで記述さ
れているかを示す情報(例:<meta HTTP‐EQUI
V=”Content‐Type”、CONTENT=”text/ht
ml;charset=ISO‐2022-JP”>、この場合、ISO
‐2022‐JP)がある。
【0018】また、タグによって、言語が何であるかを
明確に記述(HTMLであれば、各要素に属性としてla
ng=”ja”と書くことで、日本語であることを示す)す
ることができる。ただし、これらは省略されることも多
く、加えて文字コードがISO‐2022‐JPなどの日本
語固有のものでも、英文を記述することは可能であり、
規格違反ではないことから、自動言語判別が失敗した場
合の参考情報として利用する。
【0019】また、文章抽出部20は、HTMLで規定
されているタグ要素を記録しながら、翻訳する文章を抽
出する機能を有するものである。タグ要素は<・・・・・>で
文書構造を表現し、一般に、<B>日本語</B>といった
タグ要素で囲まれている部分(ここでは「日本語」)が
翻訳対象の文章になる。
【0020】ここで、<B>日本語</B>といったタグ要
素は、「日本語」という文章を太字で表示するという装
飾を表わす。このような装飾は文の一部だけに用いられ
ることが多く、翻訳する際には文の切れ目としては扱わ
ずに翻訳し、翻訳結果のどの部分が装飾部分の翻訳であ
るか対応を取って、装飾を復元する必要がある。そこ
で、抽出した翻訳元文章にどんな装飾がなされているか
を記録したデータ構造を用いる。文章抽出部20は、文
書毎に言語判定部30を利用して言語を決定するが、タ
グによる言語の明記がある場合は、文書の中に複数言語
が存在していても正しく扱うことができる。
【0021】言語判別部30は、電子化文書がどのよう
な言語で書かれているかを判別するため、文字コード
(電子化文書において、文字は規定されたビット列で表
現される。例えば、日本語はシフトJIS,日本語EU
C,JIS,UTF‐8など複数のビット列表現法があ
る)は何かを判別する。
【0022】一般に、文字コードは規格が定まっている
ため、規格に合致するか否かで判別を行うことが可能で
ある。合致するか否かは状態遷移を使った方式などで実
現できる。言語判別は、文字コードが特定の言語のみを
表わすものであれば、文字コードが判明すれば言語を決
定することができる。文字コードが複数合致する場合
(例:Latin1,Latin2など)は、さらに言語に特徴
的な単語の出現頻度(例:英語ならtheやof )から統計
的に判断する。これでも有意な差がない場合は、タグで
表記されている言語として扱う。
【0023】翻訳装置選択部40は、文章抽出部が作成
したデータ構造を元に、文毎に言語から利用者の指示す
る翻訳元言語へ翻訳できる翻訳装置200を選択する機
能を有するものである。一般に、翻訳装置200は、あ
る一言語からある一言語へ翻訳するものであるが、本シ
ステムでは、この翻訳装置を複数台管理して翻訳させる
ことで、様々な言語間での翻訳を実現可能としている。
また、ここで管理される翻訳装置200は、インターネ
ット上の翻訳サービスでも、LAN内の翻訳サービスア
プリケーションでも同じマシンで動く翻訳アプリケーシ
ョンでも外部から翻訳可能であれば利用できる。
【0024】本発明が適用される翻訳システムでは、管
理している翻訳装置200の一覧を翻訳装置選択部40
が持ち、その中から最適な翻訳装置200、もしくは最
適な翻訳装置200の組み合わせを選択して、組み合わ
せの順番に応じて翻訳装置制御部40へ文章を送り、翻
訳結果を受け取ることを繰り返す。
【0025】この際、管理している翻訳装置200の数
や種類によっては、翻訳先言語へ翻訳できない場合があ
る。この場合は、適切な翻訳装置がないことをインタフ
ェース部10を通じて利用者へ知らせ、翻訳できない文
はそのままとする。なお、翻訳装置200の組み合わせ
の決定は、後述するような方法で最小パスを求める。
【0026】翻訳装置制御部50は、本システムで扱う
様々な翻訳装置200のそれぞれに対応して設けられて
おり、様々な翻訳装置200間の仲介を行う機能を有す
るものである。一般に、翻訳装置200の翻訳機能の利
用方法は様々であり、言語によっては特定の文字コード
でしか翻訳できない場合もある。また、翻訳装置200
の基本機能は文の翻訳であり、HTML,XMLで記述
された文書の装飾を考慮した翻訳ができない場合もあ
る。本システムでは、こういった制限がある場合でも翻
訳することができるよう、文字コードの変換,翻訳装置
200の制御,文書の装飾への対応を可能としている。
【0027】翻訳制御装置50は、文章抽出部20が作
成するデータ構造を一文単位で翻訳する機能を共通の基
本機能として有する。翻訳装置制御部50における文字
コードの変換は、変換テーブルや変換式を用いて、翻訳
対象文を、翻訳装置200が利用できる文字コードへ変
換するものである。翻訳装置200の制御は、一文翻訳
を行う手順を自動で行うようにするものである。
【0028】一般的に、自社で開発した翻訳装置であれ
ば文書の装飾を復元するための単語毎の翻訳対応情報を
得ることができるが、他社製の場合は、一文翻訳機能が
使えるだけのことが多い。そこで、 (1)訳語の対応情報を得ることができる翻訳装置の場
合:翻訳元の文を翻訳、装飾部分の訳語部分の情報を得
る。 (2)一文翻訳しかできない翻訳装置の場合:分割して
翻訳してもよい文パターンをテーブルに持ち、これに合
致するものは分割して翻訳を行う。
【0029】また、分割して翻訳してもよい文パターン
に合致しない場合は、装飾が1つだけのときは文全体を
装飾する。複数の場合は、 a)翻訳品質を優先する場合:欠落してはならない装飾
(例:<A>はハイパーリンクなので消さないようにす
る)は文末に例えばタグで囲まれた単語の訳語でリンク
を残す。 b)表示品質を優先する場合:タグの部分で文が切れる
と考え、翻訳を行う。
【0030】
【発明の実施の形態】以下、本発明の実施の形態を、図
面に示す好適実施例に基づいてより詳細に説明する。
【0031】図1は、本発明の一実施例に係るネットワ
ーク型翻訳制御装置の構成を示すブロック図である。本
実施例に係るネットワーク型翻訳制御装置(以下、単に
装置ともいう)100は、本装置100を利用する利用
者(クライアント端末400)からの操作命令と翻訳さ
れた文書を利用者へ出力するインタフェース部10と、
指定された保管場所(ここでは、前記ファイルサーバ3
00)から文書を取得して文書構造の解析を行う文章抽
出部20と、解析した文書構造と翻訳元文章から言語を
自動判別する言語判別部30と、適切な翻訳装置の選択
と翻訳制御部からの翻訳結果を受け取りインタフェース
部10へ返す翻訳選択部40と、様々な翻訳装置200
の制御とこれらの翻訳装置200の制限などを共通化し
て扱えるようにする翻訳装置制御部50から構成され
る。
【0032】図2に、文章抽出部20で生成する文章デ
ータの構造の一例を示す。図2中、(a)はWebページ
のデータ構造を、(b)は文章抽出部20による、上述
のデータ構造の翻訳文章データへの変換結果を示してい
る。なお、ここで、図2(b)中の,,は、同
(a)中の,,にそれぞれ対応している。
【0033】文章抽出部20は、文字コードを示すタグ
の情報(例えば、図2(a)中のcharset=UTF−8
など)を記憶する。また、言語を示すタグ(例えば、
同、lang="cn"など)を見つけた場合、閉じタグが現れ
るまで言語情報を文の情報として与えていく。また、
A,B,FONT,EM,STRONGなどのタグは単
語の装飾などにも使われることから、タグの位置と種類
は記憶するが、文の切れ目として扱うかどうかは、他の
タグがあるかどうかによって決定する。
【0034】図3〜図5に、翻訳装置制御部50の処理
動作を示す。翻訳装置制御部50は、各種の翻訳装置2
00を制御する機能を備えるとともに、翻訳装置選択部
40から送られる翻訳文章を効率よく翻訳するために、
複数の同一の翻訳装置200を制御する機能を備えてい
る。これにより、翻訳速度を向上することができる。
【0035】翻訳装置制御部50は、文字コード変換部
51,翻訳処理部52,訳語対応処理部53,書式検査
部54の各機能を有する。文字コード変換部51は、送
られた翻訳文章の文字コードを検査し、必要があれば翻
訳装置200が扱える文字コードへ変換を行う機能を有
する。翻訳処理部52は、翻訳装置200に適した形式
で翻訳元の文と訳語対応情報を知りたい単語に関する情
報とを翻訳装置200へ渡し、翻訳結果と訳語対応情報
とを得る機能を有する。
【0036】訳語対応処理部53は、訳語対応情報に従
い、翻訳結果に翻訳元のタグ装飾を埋め込み直す機能を
有する。書式検査部54は、書式テーブル55を参照し
て、タグで分断して翻訳してもよい書式か否かを調べ
る。翻訳装置制御部50は、上述の各機能を用い、制御
する翻訳装置200の機能によって、一文単位で以下の
翻訳処理1から処理3のいずれかを行う。
【0037】処理1(図3参照):翻訳装置200が、
翻訳元の文中のある単語が翻訳後の文のどの単語に翻訳
されたかを示す訳語対応情報を取り出す機能を有するも
のである場合には、翻訳処理部52は、翻訳装置に適し
た形式で翻訳元の文と訳語対応情報を知りたい単語に関
する情報とを翻訳装置200へ渡し、翻訳結果と訳語対
応情報を得る。訳語対応処理部53では、訳語対応情報
に従い、翻訳結果に翻訳元のタグ装飾を埋め込み直す。
【0038】処理2(図4参照):翻訳装置から訳語対
応情報を取り出せない場合には、書式検査部54におい
て、タグで分断して翻訳してもよい書式か否かを調べ
る。ここで、分断してよい書式であるか否かは、図6に
示すように、書式テーブル55に、「タグ,単語,タ
グ,区切り候補文字,タグ,単語,タグ」を登録してお
く。これにより、例えば、図2(a)中の”<A href=”
mail.htm”>メール</A>|<A href=”link.htm”>リンク
</A>”といった文は、<A>タグで分断されて、”メー
ル”,”|”,”リンク”それぞれの翻訳を行う。
【0039】翻訳処理部52は、書式テーブル55にマ
ッチしない場合で、かつタグが複数の場合、タグで囲ま
れた部分の単語と翻訳元の文をそのまま翻訳装置に適し
た形式で翻訳装置へ渡し、翻訳結果を得る。また、タグ
が1つだけの場合は、翻訳結果全体を囲むように復元
し、タグが複数で、かつ、タグで囲まれた部分の単語の
翻訳結果が文全体の翻訳結果に存在する場合は、文全体
の翻訳結果に復元する。
【0040】また、文全体の翻訳結果にタグで囲まれた
部分の単語の翻訳結果が存在しない場合は、文全体の翻
訳結果の後ろにタグで囲まれた部分の単語の翻訳結果を
追加する。これにより、情報の欠損がなく、また翻訳の
品質を落とすことなく翻訳することができる。
【0041】処理3(図5参照):ただし、処理2の場
合、翻訳後の表示が翻訳前と異なってくる。そこで、翻
訳品質よりも表示品質を重視したい場合は、タグ毎に文
が切れると考えて翻訳を行う。この場合、訳語対応処理
部53は、元の文のタグ構造の中に翻訳結果を埋め込ん
でいく。
【0042】以上をまとめると、以下のようになる。一
度に1文毎に翻訳処理を行う翻訳エンジンを利用する場
合は、翻訳単位としている一文内の単語にハイパーリン
クや文装飾があった場合、その単語が正しく認識されな
い恐れがある。そのため、その単語のみを翻訳した場合
に一文を翻訳した訳と同じように訳出されるか必ずしも
保証はない。
【0043】上記のような場合でも、正しく翻訳するた
めに、 (1)一文だが、文の形式によっては単語に分割して各
々を翻訳(文の形式をテーブルで保持し、適合した形式
の文については、単語毎に翻訳)。
【0044】(2A)一文を翻訳した訳文に単語の訳が
ない場合、特定のタグ(予めテーブルでフォントタイプ
(ボールド等、文脈に影響を与えない装飾など)を保持
し)に該当するタグのみを無視し復元しない。ただし、
ハイパーリンクなどのように重要なものは、単語の訳に
リンクのタグをつけ、文末尾に付加していく(リンク情
報を提示)。 (2B)または、一文内でのタグの有無を判別し、タグ
があった場合はタグで分割して前後の文を接続させて翻
訳する、という処理を行う。
【0045】以下、上述のように構成される本実施例の
処理の流れを、図1に基づいて説明する。本発明が適用
される翻訳システムの利用者は、クライアント端末(ブ
ラウザ)400を使って、閲覧したWebページのURL
と閲覧言語を指定する(矢印a)。ここでは、利用者
が、URLとしてhttp://test.jp/を指定し、閲覧言語
は英語を指定したとする。
【0046】インタフェース部10は、URLを元にWe
bページを取得し(矢印b)、文章抽出部20に渡す
(矢印c)。文章抽出部20は、Webページを解析し、
図2(a)に示すような言語情報や文章の装飾情報を抽
出して、図2(b)に示すような翻訳文章データを作成
する。
【0047】文章抽出部20はタグ要素を記録しなが
ら、自動言語判別部30により文書毎の言語を判別する
(矢印d)。これは、HTMLに文字コードが明記され
ている場合でも、UTF‐8などの文字コードでは複数
言語を記述することが可能であるためである。図2
(a)の例では、1文目が日本語、2文目が中国語、3
文目は<A>で囲まれた単語列を含む日本語文というデー
タが作成されることを示している。
【0048】翻訳装置選択部40は、文章抽出部20が
作成したデータ構造および自動言語判別部30により判
別された文書毎の言語の情報(矢印e)を元に、文毎に
当該文の言語(つまり、翻訳元言語)から利用者の指示
する翻訳先言語へ翻訳することが可能な翻訳装置200
を選択する(矢印f1)。この場合、理想的には、1文
目と3文目は日英翻訳装置、2文目は中英翻訳装置が選
択されるが、本システムには、中英翻訳装置が含まれて
いないため、2文目に付いては、後述するように、中国
語→日本語,日本語→英語が選ばれる。
【0049】まず、翻訳装置選択部40は、1文目と3
文目を日英翻訳の翻訳制御部50へ渡す。日英翻訳の翻
訳制御部50のコード変換部51は、翻訳文章データを
UTF‐8から翻訳装置200に適切な文字コードへの
変換を行う。ここでは、日英翻訳の翻訳装置200は訳
語対応情報が扱えるものとする。そこで、翻訳処理部5
2は1文目,3文目の情報と、3文目の訳語対応情報の
必要な「赤い果物」の情報を、適切な形式で日英翻訳装
置200に渡して、翻訳結果1001を得る(矢印g
1)。
【0050】図3に、3文目の原文1000,訳文およ
び訳語対応1002の内容を示している。なお、翻訳処
理部52による翻訳処理の過程では、図7(a)に示す
ような翻訳結果1001を介して最終の翻訳結果100
2を得ている。翻訳処理部52は、この翻訳結果100
2を翻訳装置選択部40に返す(矢印g1,f1,h,
i)。このように、訳語対応情報が扱える日英翻訳装置
200では、訳語対応情報の必要な場合に、好適に対応
することができる。
【0051】一方、日英翻訳の翻訳装置200が、訳語
対応情報が扱えないものである場合には、前述のよう
に、書式テーブルに55に、分割して翻訳してもよい文
パターンがあるか否かを調べて、合致するものは分割し
て翻訳を行う。この場合の動作例を図4に示す。この場
合、訳語対応情報が扱えない翻訳装置200でも、訳語
対応情報がある場合と同等に、好適に対応することがで
きる。
【0052】以上は、1台の翻訳装置で翻訳処理が完結
する場合の例であるが、次に、1台の翻訳装置で翻訳処
理が完結しないが、システム内に存在する複数台の翻訳
装置を多段に接続して、翻訳処理を行う場合を説明す
る。これは、図2(a)中の2文目の中国語から英語へ
の翻訳に相当する。
【0053】図8に示す、翻訳装置選択部40が有する
翻訳装置機能一覧テーブル56にあるように、本システ
ム内に存在する翻訳装置の中には、中国語から英語への
直接翻訳を行なうことが可能な翻訳装置はない。ただ
し、中日翻訳装置と日英翻訳装置は存在するので、これ
らを有機的に結合することにより、多少の正確さの低下
はあるにせよ、中英翻訳を行なうことが可能である。
【0054】なお、このような多段接続による翻訳を行
なわせる場合には、翻訳装置制御部50が、各翻訳装置
に本来の機能である翻訳を行わせる際に必要となる、様
々な翻訳装置200の制御とこれらの翻訳装置200の
制限などを共通化して扱える仕組みが必要であること
は、前述の通りである。
【0055】翻訳装置選択部40は、2文目の中国語文
を、中日翻訳の翻訳制御部50へ渡す(矢印f2)。中
日翻訳の翻訳制御部50のコード変換部51は、翻訳文
章データをUTF‐8から翻訳装置に適切な文字コード
への変換を行う。ここで、中日翻訳の翻訳装置は訳語対
応情報が扱えないので、翻訳制御部50は、前述の処理
2を行う。
【0056】すなわち、まず、書式検査部54で、書式
テーブル55にデータがあるかどうかを調べる。書式テ
ーブル55に適合する文があれば、それに基づいて分割
して翻訳を行う。この例では、書式テーブル55の内容
に適合するため、翻訳処理部52は2文目の情報を、
「人物」「,」「飲食」「,」「公司」と分割して翻訳
を行う。
【0057】この結果、図7(b)に示すような翻訳結
果2001を得る。訳語対応処理部53は、この翻訳結
果2001を、翻訳文章データ形式である翻訳結果20
02として、翻訳装置選択部40に返す。上述の処理に
より、第1段階である中日翻訳が完了したことになる。
【0058】翻訳装置選択部40は、受け取った翻訳結
果2002を日英翻訳の翻訳制御部50へ渡す。日英翻
訳の翻訳制御部50は、前述の場合と同様の処理によ
り、翻訳結果3001を得る。翻訳装置選択部40は、
翻訳結果2002と中間翻訳結果3001とを合わせ、
翻訳結果3002としてインタフェース部10に返す。
インタフェース部10は利用者に翻訳結果3000を渡
す(図7(c)参照)。
【0059】上記実施例によれば、このような処理の流
れで、利用者は指定した閲覧言語でWebページを多言語
翻訳して閲覧することができる。
【0060】なお、上記各実施例はいずれも本発明の一
例を示すものであり、本発明はこれらに限定されるべき
ものではなく、本発明の要旨を逸脱しない範囲内で適宜
の変更・改良を行ってもよいことはいうまでもない。
【0061】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、利用者は端末毎での翻訳システムの導入を行う
ことなく、また、閲覧元の文書の言語を意識することな
く、希望の閲覧言語へ翻訳を行うことが可能になるとい
う顕著な効果を奏するものである。また、本発明を適用
して翻訳サービスシステムを構築する際には、他社製の
アプリケーションを容易に組み込み、サービスの幅を柔
軟に広げることが可能になるという効果も得られる。
【図面の簡単な説明】
【図1】本発明の一実施例に係るネットワーク型翻訳制
御装置の構成を示すブロック図である。
【図2】(a)は実施例における文章抽出部20で対象
とするWebページのデータ構造を、(b)は作成される
翻訳文章データの構造を説明する図である。
【図3】本発明の一実施例における翻訳装置制御部50
の処理動作を示す図である(その1)。
【図4】本発明の一実施例における翻訳装置制御部50
の処理動作を示す図である(その2)。
【図5】本発明の一実施例における翻訳装置制御部50
の処理動作を示す図である(その3)。
【図6】実施例における書式テーブル55の内容を例示
する図である。
【図7】実施例における翻訳結果の一例を示す図であ
る。
【図8】実施例における、翻訳装置選択部40が有する
翻訳装置機能一覧テーブル56の一例を示す図である。
【符号の説明】
10 インタフェース部 20 文章抽出部 30 言語判別部 40 翻訳装置選択部 50 翻訳装置制御部 51 文字コード変換部 52 翻訳処理部 53 訳語対応処理部 54 書式検査部 55 書式テーブル 56 翻訳装置機能一覧テーブル 100 本発明の多言語翻訳装置 200 翻訳装置 300 ファイルサーバ 400 利用者の端末
───────────────────────────────────────────────────── フロントページの続き (72)発明者 林 良彦 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B091 AA01 CD03 EA18

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 予め定められた翻訳元言語から翻訳先言
    語への翻訳を行う複数の翻訳装置と、識別情報で特定さ
    れる文書を格納するファイルサーバのそれぞれに、ネッ
    トワークを介して翻訳制御装置を接続してなる翻訳シス
    テムにおける翻訳制御方法であって、 前記翻訳制御装置は、 利用者による翻訳を希望する文書の識別情報と閲覧言語
    の入力を受け付けるステップと、 翻訳希望文書を前記ファイルサーバから読み出し、その
    文書中の文章の使用言語を判別するステップと、 判別した言語に対応する翻訳装置を前記複数の翻訳装置
    中から選択するステップと、 選択した翻訳装置に前記文書を渡して翻訳結果を受け取
    るステップと、 翻訳された文書を前記利用者の端末に送るステップとを
    実行することを特徴とする翻訳制御方法。
  2. 【請求項2】 前記文書の読み出しに際しては、文書構
    造の解析にタグ情報を参照することを特徴とする請求項
    1に記載の翻訳制御方法。
  3. 【請求項3】 前記文書の使用言語を判別する際には、
    文字コードによる判別と、特徴的な単語の出現頻度を用
    いる判別の少なくとも一方を用いることを特徴とする請
    求項1または2に記載の翻訳制御方法。
  4. 【請求項4】 前記翻訳装置を選択するステップにおい
    ては、複数台の翻訳装置の組み合わせ選択を可能とする
    ことを特徴とする請求項1〜3のいずれか1項に記載の
    翻訳制御方法。
  5. 【請求項5】 前記翻訳制御装置は、前記各ステップに
    加えて、 翻訳装置から受け取った翻訳結果に、前記タグ情報に基
    づく各種の加工を行うステップを有することを特徴とす
    る請求項2〜4のいずれか1項に記載の翻訳制御方法。
  6. 【請求項6】 利用者が翻訳を希望する文書の識別情報
    と閲覧言語を入力するクライアント端末と、予め定めら
    れた翻訳元言語から翻訳先言語への翻訳を行う複数の翻
    訳装置と、識別情報で特定される文書を格納するファイ
    ルサーバのそれぞれに、ネットワークを介して翻訳制御
    装置を接続してなる翻訳システムにおいて、 前記翻訳制御装置は、 前記クライアント端末との入出力を制御するインタフェ
    ース部と、 翻訳希望文書を前記ファイルサーバから読み出す文書抽
    出処理部と、 読み出した文書中の文章の使用言語を判別する言語判別
    処理部と、 判別した言語に対応する翻訳装置を前記複数の翻訳装置
    中から選択する翻訳装置選択処理部と、 選択した翻訳装置に前記翻訳希望文書を渡して翻訳結果
    を受け取る翻訳処理部とを有することを特徴とする翻訳
    制御装置。
  7. 【請求項7】 前記翻訳装置選択処理部は、複数台の翻
    訳装置の組み合わせ選択を可能とすることを特徴とする
    請求項6に記載の翻訳制御装置。
  8. 【請求項8】 前記翻訳制御装置は、前記各処理手段
    (処理部)に加えて、翻訳装置から受け取った翻訳結果
    に、前記タグ情報に基づく各種の加工を行う処理手段を
    有することを特徴とする請求項6または7に記載の翻訳
    制御装置。
  9. 【請求項9】 請求項1〜5のいずれか1項に記載の翻
    訳制御方法をコンピュータ制御により実行するための処
    理プログラム。
  10. 【請求項10】 請求項9に記載の処理プログラムを記
    録したことを特徴とする、コンピュータにより読み取り
    可能な記録媒体。
JP2002148482A 2002-05-23 2002-05-23 翻訳制御方法,翻訳制御装置およびその処理プログラム Pending JP2003345798A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002148482A JP2003345798A (ja) 2002-05-23 2002-05-23 翻訳制御方法,翻訳制御装置およびその処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002148482A JP2003345798A (ja) 2002-05-23 2002-05-23 翻訳制御方法,翻訳制御装置およびその処理プログラム

Publications (1)

Publication Number Publication Date
JP2003345798A true JP2003345798A (ja) 2003-12-05

Family

ID=29767008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002148482A Pending JP2003345798A (ja) 2002-05-23 2002-05-23 翻訳制御方法,翻訳制御装置およびその処理プログラム

Country Status (1)

Country Link
JP (1) JP2003345798A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012014918A1 (ja) * 2010-07-28 2012-02-02 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2013164843A (ja) * 2005-05-26 2013-08-22 Microsoft Corp 統合母国語翻訳
US8793277B2 (en) 2010-03-29 2014-07-29 Ubic, Inc. Forensic system, forensic method, and forensic program
US8799317B2 (en) 2010-03-29 2014-08-05 Ubic, Inc. Forensic system, forensic method, and forensic program
JP2016507828A (ja) * 2013-01-11 2016-03-10 カタール・ファンデーション 機械翻訳システム及び方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013164843A (ja) * 2005-05-26 2013-08-22 Microsoft Corp 統合母国語翻訳
US8793277B2 (en) 2010-03-29 2014-07-29 Ubic, Inc. Forensic system, forensic method, and forensic program
US8799317B2 (en) 2010-03-29 2014-08-05 Ubic, Inc. Forensic system, forensic method, and forensic program
US9244920B2 (en) 2010-03-29 2016-01-26 Ubic, Inc. Forensic system, forensic method, and forensic program
WO2012014918A1 (ja) * 2010-07-28 2012-02-02 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2012032859A (ja) * 2010-07-28 2012-02-16 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US8549037B2 (en) 2010-07-28 2013-10-01 Ubic, Inc. Forensic system, forensic method, and forensic program
JP2016507828A (ja) * 2013-01-11 2016-03-10 カタール・ファンデーション 機械翻訳システム及び方法

Similar Documents

Publication Publication Date Title
US5745360A (en) Dynamic hypertext link converter system and process
EP0797156B1 (en) Data processor
US6073143A (en) Document conversion system including data monitoring means that adds tag information to hyperlink information and translates a document when such tag information is included in a document retrieval request
US6964014B1 (en) Method and system for localizing Web pages
US11182453B2 (en) Translation of documents
US7013425B2 (en) Data processing method, and encoder, decoder and XML parser for encoding and decoding an XML document
US6373502B1 (en) Method and apparatus for facilitating popup links in a hypertext-enabled computer system
US6694484B1 (en) Relating a HTML document with a non-browser application
US20040268243A1 (en) Document processing apparatus and document processing method
WO2005116865A2 (ja) 言語判別装置、翻訳装置、翻訳サーバ、言語判別方法並びに翻訳処理方法
JP2000067049A (ja) 通信翻訳装置、通信翻訳システムおよび記録媒体
KR20030079926A (ko) 미디어 객체를 통일적으로 추출하기 위한 시스템
US6615168B1 (en) Multilingual agent for use in computer systems
US20030014237A1 (en) System and method for converting a standard generalized markup language in multiple languages
US20010002471A1 (en) System and program for processing special characters used in dynamic documents
US7552384B2 (en) Systems and method for optimizing tag based protocol stream parsing
US7814408B1 (en) Pre-computing and encoding techniques for an electronic document to improve run-time processing
JP2003345798A (ja) 翻訳制御方法,翻訳制御装置およびその処理プログラム
JP3467160B2 (ja) 多言語対応通信システム、サーバー装置及びサーバー装置の文書送信方法
WO2002080133A1 (en) Non visual presentation of salient features in a document
US8359534B1 (en) System and method for producing documents in a page description language in a response to a request made to a server
JPH10269223A (ja) 翻訳サービスシステム及び翻訳サービス提供方法
US20080082910A1 (en) Text data generation program, text data generation device, text data generation method, text-processing tool program, text-processing tool device; and text processing method
JP2003296327A (ja) 翻訳サーバ、ジャンル別オンライン機械翻訳方法、およびそのプログラム
JP2001022788A (ja) 情報検索装置および情報検索プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060801

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061124