JP5235135B2 - 機械翻訳システム及び機械翻訳方法 - Google Patents

機械翻訳システム及び機械翻訳方法 Download PDF

Info

Publication number
JP5235135B2
JP5235135B2 JP2008334467A JP2008334467A JP5235135B2 JP 5235135 B2 JP5235135 B2 JP 5235135B2 JP 2008334467 A JP2008334467 A JP 2008334467A JP 2008334467 A JP2008334467 A JP 2008334467A JP 5235135 B2 JP5235135 B2 JP 5235135B2
Authority
JP
Japan
Prior art keywords
translation
text
image
language
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008334467A
Other languages
English (en)
Other versions
JP2010157065A (ja
Inventor
宗 益子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Priority to JP2008334467A priority Critical patent/JP5235135B2/ja
Publication of JP2010157065A publication Critical patent/JP2010157065A/ja
Application granted granted Critical
Publication of JP5235135B2 publication Critical patent/JP5235135B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Description

本発明は、文書を機械的に翻訳する仕組みに関し、特に、Webページ内に表示されるテキストをリアルタイムで翻訳するシステム及び方法に関するものである。
<従来例1>
Webページ中のテキストを機械的に翻訳するサービスがインターネット上で提供されている(例えば、非特許文献1参照)。
同サービスでは、WebページのURLを入力として受け取ると、当該URLに対応するWebページ中のテキストをユーザが指定した言語に翻訳し、元のHTMLデータを変換して出力する。ただし、同サービスは、当該Webページ内の画像に含まれる文字を翻訳する機能を備えていない。
<従来例2>
画像と文字とが混在する画像データの文字部分のみを翻訳した画像を作成する手法が知られている(例えば、特許文献1参照)。
同手法では、画像と文字とが混在する画像データのうち文字データの存在する部分(文字領域)を特定し、文字領域から文字データを抽出し、抽出した文字データをテキストデータに変換し、テキストデータを翻訳し、翻訳データを調整して文字領域に貼り付け、翻訳データが貼り付けられた文字領域を元の画像データと合成する(同文献図2のフローチャート,図3〜図10の説明図等参照)。
<従来例3>
文書の背景となる色や模様などの体裁を維持しつつ、文字の部分だけを別の言語に翻訳された新たな文字に差し替える手法が知られている(例えば、特許文献2)。
同手法では、単一色の用紙に文字が印字された文書をスキャンして得たビットマップ画像から文字を認識した後、その文字を描画していた画素を用紙と同じ属性の画素で埋め戻した上で、認識した文字を翻訳して得た新たな文字を画像に書き込むことにより新たなビットマップ画像を生成する(同文献図1のフローチャート,図2の遷移図等参照)。
<従来例4>
原文と翻訳文とを対応付けて閲覧性の向上を図る手法が知られている(例えば、特許文献3参照)。
同手法では、文字データを所定の言語に翻訳し、翻訳文の文字列長を原文の文字列長と同一長さに補正した上で、原文と翻訳文を対応付けた画像を生成する(同文献図3のフローチャート,図4・図5の説明図等参照)。
なお、文字列長を比較する手法として、ドット数の累計を判定する点,キャラクタ数を判定する点,印刷時の長さを判定する点が記載又は示唆されている(同文献段落0029,0035等参照)。
また、文字列長を補正する手法として、文字のフォントを変更する点,文字のポイントを変更する点,文字列全体を均等割付とする点,文字をルビ文字とする点が記載又は示唆されている(同文献段落0030,0034等参照)。
<従来例5>
ある言語で作成された文書を異なる言語の文書に翻訳する際に、翻訳文のレイアウトを原文と同一にする手法が知られている(例えば、特許文献4参照)。
同手法では、原文の文字列から翻訳文を生成し、翻訳文中の省略対象語句(長い単語又は長いフレーズ)を省略語に置換し、省略対象語句が省略語に置換された翻訳文の画像を原文と同一のレイアウトで生成した上で、省略対象語句と省略語との対応リストを余白部分に配置した翻訳文を出力する(同文献図3のフローチャート,図4〜図7の説明図等参照)。
なお、省略対象語句を省略語に置換するのは、例えば単位領域において翻訳文の行数が対応する原文の行数を上回るときである(同文献段落0032等参照)。
また、省略対象語句とするのは、例えば単位領域において構成文字数及び出現回数がいずれも所定の閾値を超える語句である(同文献段落0033等参照)。
特開2003−122751号公報 特開2006−251902号公報 特開2006−276905号公報 特開2007−034430号公報 Google, Inc.、"Google 翻訳"、インターネット<URL: http://translate.google.co.jp/>
インターネット上で外国人向けのサービスを提供する場合、外国語のWebページがあると便利である。ただし、全てのWebページについて各国語のパターンを予め用意しておくのは、手間がかかり過ぎるため事実上不可能である。
このとき、例えば上記<従来例1>の翻訳サービスと同様の仕組みを利用すれば、各Webページをいずれか1つの言語で作成しておくだけで、各国語のWebページをリアルタイムで作成して提供することがとりあえずは可能である。
一方、サービスを提供するWebページには画像が配置されることが多く、当該画像にはしばしば文字が含まれている(図1(a)の110a)。
このとき、例えば上記<従来例1>の翻訳サービスでは、画像中の文字が翻訳されない(図1(b)の110b)。また、例えば上記<従来例2>や<従来例3>のように画像内の文字を適宜抽出して翻訳するという手法は、処理に時間がかかるためリアルタイム処理を前提とする翻訳サービスにおいては採用し難い。
本発明が解決しようとする課題は、Webページ全体を機械翻訳にかけたときに画像内の文字が翻訳されずにそのまま表示されてしまう不具合を解消する、という点である。
上記課題を解決するため、本発明は、絶対位置が設定された背景画像と該背景画像とは異なる表示要素として絶対位置が該背景画像中の文字を含まない有色の画像領域と重なる位置に設定されたある言語のテキストとの組を含み前記ある言語のテキストが前記画像領域の前面に重ねて表示されるように記述された翻訳対象Webページのソースに対応するURLと、翻訳先言語の指定データと、を取得する取得手段と、翻訳データ記憶手段に記憶される辞書データを参照して、前記取得されるURLに対応するソース中の前記ある言語のテキストを前記取得される指定データに対応する翻訳先言語へ翻訳し、前記背景画像とは異なる表示要素として翻訳先言語のテキストが前記画像領域の前面に重ねて表示されるように前記ソースを再構成する翻訳手段と、前記再構成後のソースを出力する出力手段と、を備える。
前記ある言語のテキストの背景が透明であるのが好ましい。前記画像領域は、前記背景画像の一定範囲を占める閉じた領域であってもよい。
また、上記課題を解決するため、本発明は、コンピュータにより実行される機械翻訳方法であって、絶対位置が設定された背景画像と該背景画像とは異なる表示要素として絶対位置が該背景画像中の文字を含まない有色の画像領域と重なる位置に設定されたある言語のテキストとの組を含み前記ある言語のテキストが前記画像領域の前面に重ねて表示されるように記述された翻訳対象Webページのソースに対応するURLと、翻訳先言語の指定データと、を取得する取得ステップと、翻訳データ記憶手段に記憶される辞書データを参照して、前記取得されるURLに対応するソース中の前記ある言語のテキストを前記取得される指定データに対応する翻訳先言語へ翻訳し、前記背景画像とは異なる表示要素として翻訳先言語のテキストが前記画像領域の前面に重ねて表示されるように前記ソースを再構成する翻訳ステップと、前記再構成後のソースを出力する出力ステップと、を備える。
また、上記課題を解決するため、本発明は、絶対位置が設定された背景画像と該背景画像とは異なる表示要素として絶対位置が該背景画像中の文字を含まない有色の画像領域と重なる位置に設定されたある言語のテキストとの組を含み前記ある言語のテキストが前記画像領域の前面に重ねて表示されるように記述された翻訳対象Webページのソースに対応するURLと、翻訳先言語の指定データと、を取得する取得機能と、翻訳データ記憶手段に記憶される辞書データを参照して、前記取得されるURLに対応するソース中の前記ある言語のテキストを前記取得される指定データに対応する翻訳先言語へ翻訳し、前記背景画像とは異なる表示要素として翻訳先言語のテキストが前記画像領域の前面に重ねて表示されるように前記ソースを再構成する翻訳機能と、前記再構成後のソースを出力する出力機能と、をコンピュータに実現させるための機械翻訳プログラムである。
本発明の機械翻訳システムは、絶対位置が設定された背景画像と該背景画像とは異なる表示要素として絶対位置が該背景画像中の文字を含まない有色の画像領域と重なる位置に設定されたある言語のテキストとの組を含み、ある言語のテキストが画像領域の前面に重ねて表示されるように記述された翻訳対象Webページのソースに対応するURLを取得している。このように、Webページを部分的に2層構成(文字を含まない画像のレイヤ及びテキストのレイヤ)にしておくことにより、当該Webページを機械翻訳にかけたとき、文字を含まない画像に重なる領域の前面に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示されてしまう不具合が解消される。
<定義>
以下の説明中で使用される用語の意義は、それぞれ次の定義の通りとする。
・機械翻訳…コンピュータ等を利用して人手を介さず自動的に行う翻訳。
・可視化…ユーザが視認できるようにする処理を包含する概念。
・不可視化…ユーザが視認できないようにする処理を包含する概念。例えば、非表示に設定する,透明に設定する,要素を削除する,要素をコメントアウトする等の処理形態が考えられる。
<実施形態>
[1.実施形態の概要]
本実施形態の概要を、図2〜図5を参照して説明する。
本実施形態のシステムは、Webページを閲覧するユーザに対し、Webページ内に第1の言語で表示されている部分を、各ユーザが指定(選択)した第2の言語に翻訳するサービス(機械翻訳サービス)を提供するシステムである。
なお、以下の説明では、Webページ内の日本語の部分を英語に翻訳する例を用いている。
[1−1.システムの構成]
図2に示すように、本実施形態のシステムは、全体として、Webページを提供するWebサーバ11,翻訳処理を行う翻訳サーバ12及びWebブラウザを有するユーザ端末20により構成される。
Webサーバ11は、Webページの構造を記述するHTMLデータ及び当該HTMLデータが参照するデータ(例えば、画像データ)を少なくとも記憶するWebDB13を有している。一方、翻訳サーバ12は、Webページの機械翻訳処理において参照する辞書データを少なくとも記憶する翻訳DB14を有している。
なお、翻訳DB14に記憶する辞書データは、語彙や文法を定義したデータや、統計的学習手法により構築したモデルを含んでいるものとする。また、特定の語句に対する特定の訳語を定めたデータを記憶していてもよい。
本実施形態においては、WebDB13,翻訳DB14をWebサーバ11,翻訳サーバ12にそれぞれ接続された外部の記憶装置に構築しているが、記憶している情報の読出しが可能であればWebサーバ11,翻訳サーバ12に内蔵された記憶装置に構築してもよい。
Webサーバ11と翻訳サーバ12は、通信ネットワーク(本実施形態ではLAN等のプライベートネットワーク)により互いに接続し、機械翻訳システム10を形成している。また、ユーザ端末20は、通信ネットワーク(本実施形態ではインターネット30)を介してWebサーバ11及び翻訳サーバ12とそれぞれ接続可能である。
なお、Webサーバ11,翻訳サーバ12,ユーザ端末20の間の通信は、ルータ40により制御される。
[1−2.主要な特徴]
[(a)実施形態1の主要な特徴]
実施形態1の主要な特徴は、文字を含まない画像の参照データ(URL)と、当該画像に重なる領域の前面に表示位置が設定されたテキストデータとの組を少なくとも1組含むHTMLデータをWebDB13に記憶しておく点にある。
このように、Webページを部分的に2層構成(文字を含まない画像のレイヤ及びテキストのレイヤ)にしておくことにより、当該Webページ(HTMLデータ)を機械翻訳にかけたとき、文字を含まない画像に重なる領域の前面に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示されてしまう不具合が解消される。
図3に、実施形態1における翻訳前後のWebページの一部を示す。
翻訳前のWebページには、通常のテキスト310aの他に、文字を含まない画像320と、画像320に重なる領域の前面に表示位置が設定されたテキスト330aとが表示される(図3(a))。
一方、翻訳後のWebページには、テキスト310aが翻訳されたテキスト310bと、翻訳前後において変化しない画像320と、テキスト330aが翻訳されたテキスト330bが表示される(図3(b))。
[(b)実施形態2の主要な特徴]
実施形態2の主要な特徴は、文字を含み可視化されている画像の参照データ(URL)と、当該画像に重なる領域に表示位置が設定され、かつ不可視化されているテキストデータとを少なくとも1組含むHTMLデータをWebDB13に記憶しておき、翻訳処理において当該不可視化されているテキストデータを可視化するとともに、当該可視化されている画像データを不可視化する点にある。
このように、Webページを部分的に2層構成(文字を含む画像のレイヤ及び不可視化されたテキストのレイヤ)にしておき、翻訳処理において表示されるレイヤを切り替えることにより、当該Webページ(HTMLデータ)を機械翻訳にかけたとき、文字を含む画像が表示されていた領域に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示されてしまう不具合が解消される。
図4に、実施形態2における翻訳前後のWebページの一部を示す。
翻訳前のWebページには、通常のテキスト410aと、文字を含む画像420とが表示される(図4(a−1))。また、翻訳前のWebページは、画像420に重なる領域に表示位置が設定され、かつ不可視化されたテキストデータ430aを有している(図4(a−2))。
一方、翻訳後のWebページには、テキスト410aが翻訳されたテキスト410bと、テキスト430aが翻訳されたテキスト430bが表示される(図4(b))。なお、画像420は不可視化されているため、翻訳後のWebページ内では視認できない。
[2.機械翻訳の手順]
[2−1.機械翻訳手順の概要]
本実施形態のシステムによる機械翻訳処理の流れ及びデータの流れを、図5のシーケンスチャートを参照して簡単に説明する。
図5に示すように、機械翻訳システム10を構成するWebサーバ11及び翻訳サーバ12は、下記〔手順1〕〜〔手順4〕によりユーザ端末20に翻訳後のWebページを表示させる。
なお、図5のシーケンスチャートには、参照すべき他の図面の番号が付記されている。必要に応じて、当該他の図面を参照されたい。
〔手順1〕
前提として、ユーザ端末20は、Webサーバ11から提供されたWebページを表示しているものとし(S505a)、当該Webページを翻訳対象のWebページとする(実施形態1では図3(a)、実施形態2では図4(a−1))。また、翻訳対象のWebページには、翻訳後の言語を選択し翻訳を要求するための要素(例えば、プルダウン,ラジオボタン,プルダウン又はラジオボタンとボタン又は画像又はリンクとの組)が表示されているものとする。
翻訳対象のWebページにおいてユーザが翻訳後の言語を指定(選択)し、翻訳を要求する所定の操作を行うと、ユーザ端末20は、翻訳サーバ12にWebページの翻訳を要求する(S510a)。
図6に、翻訳要求の主要な項目を例示する。
翻訳要求には、「翻訳処理プログラムのURL」,「翻訳対象WebページのURL」,「第1言語(翻訳対象Webページの言語)」,「第2言語(翻訳先の言語)」及び「テキストデータの文字コード」が含まれる。
本実施形態では、「翻訳対象WebページのURL」以下をURLパラメータとするHTTPリクエストを翻訳要求としている。なお、図6に示す各項目を他の形式で送信してもよい。
〔手順2〕
翻訳サーバ12は、ユーザ端末20から翻訳要求を受信する(S510b)と、受信した「翻訳対象WebページのURL」に対応するHTMLデータの送信をWebサーバ11に要求する(S515b)。
Webサーバ11は、翻訳サーバ12からHTMLデータの送信要求を受信する(S515c)と、受信した「翻訳対象WebページのURL」に対応するHTMLデータ(翻訳前のHTMLデータ)をWebDB13より読み出し又は生成して、翻訳サーバ12に送信する(S520c)。
〔手順3〕
翻訳サーバ12は、Webサーバ11から翻訳前のHTMLデータを受信する(S520b)と、受信した翻訳前のHTMLデータを対象として機械翻訳処理を実行し、翻訳後のHTMLデータをユーザ端末20に送信する(S525b)。
なお、機械翻訳処理の流れ及び翻訳前後のHTMLデータについては、別に項目を設けて実施形態ごとに詳細に説明する(後述の図7〜図10参照)。
〔手順4〕
ユーザ端末20は、翻訳サーバ12から翻訳後のHTMLデータを受信する(S525a)と、受信したHTMLを解釈して画像なしのWebページを表示する(S530a)とともに、当該HTMLが参照している画像データの送信をWebサーバ11に要求する(S535a)。
Webサーバ11は、画像データの送信要求を受信する(S535c)と、指定された画像データをWebDB13より読み出し、ユーザ端末20に送信する(S540c)。
ユーザ端末20は、Webサーバ11から画像データを受信する(S540a)と、既に表示されているWebページ内の所定の位置に画像を追加表示する(S545a)。表示完了後のWebページは、前述のとおりである(実施形態1では図3(b)、実施形態2では図4(b))。
[2−2.実施形態1の機械翻訳処理手順等]
[(a)翻訳前のHTMLデータ]
図7(a)に、実施形態1における翻訳前のHTMLデータの一部を例示する。
翻訳前のHTMLデータには、テキストデータ710aの他に、画像の参照データ720と、テキストデータ730aとが含まれている。また、いくつかのタグには、スタイルシート(CSS形式)によりスタイルが設定されている。
テキストデータ710a,画像の参照データ720,テキストデータ730aは、それぞれ翻訳前のWebページ(図3(a))のテキスト310a,画像320,テキスト330aに対応する。
画像の参照データ720が参照する画像は、所定の領域(幅840ピクセル,高さ120ピクセル)の上から0ピクセル,左から0ピクセルの位置に左上の頂点を合わせて、幅840ピクセル,高さ120ピクセルで表示されるように設定されている。一方、テキストデータ730aに対応するテキストは、上記所定の領域(幅840ピクセル,高さ120ピクセル)の上から30ピクセルの位置に通常通りに表示されるように設定されている(ここでは、センタリング等)。したがって、上記の所定の領域において、画像とテキストは重なって表示される。
なお、Webページ内の要素はHTMLの記述順に重なる(後ろに記述された要素が前面に表示される)ため図7(a)の例では特に設定していないが、重ね合わせの順序を明示的に設定してもよい。重ね合わせ順序は、例えば「z-index」属性の値(数値)の大小により設定することができる。
[(b)翻訳処理]
実施形態1における翻訳処理の流れを、図8のフローチャートを参照して詳細に説明する。
図8に示すように、翻訳サーバ12は、下記〔手順31〕〜〔手順34〕によりHTMLデータを翻訳する。
〔手順31〕
HTMLの基準URLを変更する(S810)。
具体的には、相対URL形式で記述された参照データ等(例えば、参照データ720(図7(a))中のsrc属性の値)のURLが基準とするURLを、<base>タグのhref属性の値として絶対URL形式で記述する。ここでは、ユーザ端末20から受信した検索要求(図6)に含まれる「翻訳対象WebページのURL」を基準URLとする。
なお、HTML内のURLが全て絶対URL形式で記述されているという前提であれば、基準URLを変更する処理を省略してもよい。また、相対URL形式で記述された全てのURLを個別に絶対URL形式に書き換えても同一の効果を得ることができる。
〔手順32〕
HTMLデータ内で要素(エレメント)の内容(コンテンツ)となっているテキストデータを1つ抽出し(S820)、抽出したテキストデータ(原文)を「第1言語」から「第2言語」へと翻訳して翻訳文を生成する(S830)。
なお、翻訳サーバ12は、テキストの翻訳に当たり翻訳DB14に記憶している辞書データを参照する。
〔手順33〕
必要に応じて翻訳文のサイズを補正し(S840)、抽出したテキストデータを翻訳文に置換する(S850)。
例えば、上記<従来例4>と同様の手法により、文字列長を比較した上で翻訳文の長さを補正するとよい。なお、上記<従来例5>と同様の手法により、所定の条件を満たす語句を翻訳文中から抽出し、所定の方法により生成した省略語に置換してもよい。この場合、省略語の定義を掲載したWebページを別途生成した上で、翻訳後のWebページには省略語の定義を掲載したWebページへのリンクを表示するとよい。また、省略語にポインタを合わせたときに省略対象語句がポップアップ表示されるように構成してもよい。
〔手順34〕
翻訳したテキストデータが、HTMLデータ内で要素の内容となっている最後のテキストデータか否かを判定する(S860)。
具体的には、HTMLデータ内で要素の内容となっている次のテキストデータを検索し、次のテキストデータが検出されないときに、直前に翻訳したテキストデータが最後のテキストデータであると判定する。最後のテキストデータでないとき(S860でNo)、上記〔手順32〕に戻り、次のテキストデータについて抽出〜置換の処理(〔手順32〕〜〔手順33〕)を繰り返す。一方、最後のテキストデータであるとき(S860でYes)、ループを抜ける。
[(c)翻訳後のHTMLデータ]
図7(b)に、実施形態1における翻訳後のHTMLデータの一部を例示する。
図7(b)は、図7(a)のHTMLデータを図8のフローチャートに示す処理により翻訳した後のHTMLデータである。
翻訳後のHTMLデータには、テキストデータ710aが翻訳されたテキストデータ710b,翻訳前後において変化しない画像の参照データ720,テキストデータ730aが翻訳されたテキストデータ730bが含まれている。また、基準URLを明示するタグ740bが追加されている。
テキストデータ710b,画像の参照データ720,テキストデータ730bは、それぞれ翻訳後のWebページ(図3(b))のテキスト310b,画像320,テキスト330bに対応する。
なお、テキストデータ710bの文字サイズは、上記〔手順33〕の補正処理(図8のS840)により通常の90%に補正されている。その他のデータの設定には特に変更がない。
[2−3.実施形態2の機械翻訳処理手順等]
[(a)翻訳前のHTMLデータ]
図9(a)に、実施形態2における翻訳前のHTMLデータの一部を例示する。
翻訳前のHTMLデータには、テキストデータ910aの他に、画像の参照データ920aと、テキストデータ930aとが含まれている。また、いくつかのタグには、スタイルシート(CSS形式)によりスタイルが設定されている。
テキストデータ910a,画像の参照データ920aは、それぞれ翻訳前のWebページ(図4(a−1))のテキスト410a,画像420に対応する。また、テキストデータ930aは、翻訳前のWebページが有する不可視化されたテキストデータ430a(図4(a−2))に対応する。
画像の参照データ920aが参照する画像は、所定の領域(幅840ピクセル,高さ120ピクセル)の上から0ピクセル,左から0ピクセルの位置に左上の頂点を合わせて、幅840ピクセル,高さ120ピクセルで表示されるように設定されている。
一方、テキストデータ930aに対応するテキストは、上記所定の領域(幅840ピクセル,高さ120ピクセル)の上から30ピクセルの位置に通常通りに表示されるように設定されている(ここでは、センタリング等)。ただし、テキストデータ930aに対応するテキストは不可視化されている(文字色属性の値が透明(transparent)に設定されている)ため、Webブラウザのウィンドウ内では視認できない。
[(b)翻訳処理]
実施形態2における翻訳処理の流れを、図10のフローチャートを参照して説明する。
図10に示すように、翻訳サーバ12は、上記〔手順31〕〜〔手順34〕(実施形態1と同様)に加え、下記〔手順35〕によりHTMLデータを翻訳する。
なお、図10のフローチャートにおいて、図8のフローチャートに示した処理と同一の符号が付されている処理は、同一の処理を示す。
〔手順35〕
不可視化されている全ての翻訳文を可視化する(S1070)とともに、可視化した翻訳文と重なる全ての画像を不可視化する(S1080)。
例えば図9(a)の例では、class属性の値が「class_11」である「<div>」タグのclass属性を削除する。これにより、テキストデータ930aに対応するテキスト(明示的に不可視化されていたテキスト)は、親要素の属性を継承して可視化される(文字色属性が透明から有色に変更される)。また、class属性の値が「class_21」である「<img>」タグのclass属性の値を「class_22」に変更する。これにより、画像の参照データ920aに対応する画像(明示的に可視化されていた画像)は、明示的に不可視化される(表示属性が表示から非表示に変更される)。
なお、翻訳文の可視化及び/又は画像の不可視化は、上記のようにクラス属性を一括で適用して行ってもよいし、該当するタグごとに個別に行ってもよい。
[(c)翻訳後のHTMLデータ]
図9(b)に、実施形態2における翻訳後のHTMLデータの一部を例示する。
図9(b)は、図9(a)のHTMLデータを図10のフローチャートに示す処理により翻訳した後のHTMLデータである。
翻訳後のHTMLデータには、テキストデータ910aが翻訳されたテキストデータ910b,参照データ920aが不可視化された参照データ920b,テキストデータ930aが翻訳され可視化されたテキストデータ930bが含まれている。また、基準URLを明示するタグ940bが追加されている。
テキストデータ910b,テキストデータ930bは、それぞれ翻訳後のWebページ(図4(b))のテキスト410b,テキスト430bに対応する。
なお、テキストデータ910bの文字サイズは、上記〔手順33〕の補正処理(図10のS840)により通常の90%に補正されている。その他のデータの設定には、特に明示したものを除き変更がない。
[3.変形例等]
[3−1.システム構成の変形例]
[(a)翻訳サーバが遠隔地にある構成]
上述の実施形態では、Webサーバ11と翻訳サーバ12とをLAN等のプライベートネットワークを介して接続している(図2)。これは、両サーバが同一の事業者の管理下にあることを想定した構成である。
これに対し、図11に示すように、Webサーバ11と翻訳サーバ12とをインターネット30等のパブリックネットワークを介して接続してもよい。これは、Webサーバ11又は翻訳サーバ12が遠隔地(例えば、他の事業所,遠隔地のデータセンター,他の事業者の管理下等)にあることを想定した構成である。
[(b)Webサーバが翻訳処理機能を備える構成]
上述の実施形態では、Webサーバ11と翻訳サーバ12とにより機械翻訳システム10を構成している(図2)。これは、ハードウェアごとに特定の処理機能に特化し、負荷分散を図った構成である。
これに対し、機械翻訳処理の全てのステップをWebサーバ11が実行するように構成してもよい。この場合、図12に示すように、Webサーバ11はWebDB13と翻訳DB14とを有する。また、ユーザ端末20から翻訳要求を受信して、翻訳対象のHTMLデータを取得し、翻訳処理を実行し、翻訳後のHTMLデータ及び必要な画像データを送信する処理の主体は、全てWebサーバ11となる。
[3−2.処理分担の変形例]
上述の実施形態では、Webサーバ11はHTMLデータ又は画像データを送信する処理に特化している。同様に、翻訳サーバ12はユーザ端末20から翻訳要求を受信して翻訳後のHTMLデータを生成し、ユーザ端末20に送信する処理に特化している(図5)。
これに対し、ユーザ端末20から翻訳要求を受信する処理及び翻訳後のHTMLデータをユーザ端末20に送信する処理をWebサーバ11が担当することとし、翻訳サーバ12はWebページの翻訳処理(図8のS810〜S860,図10のS810〜S1080)のみに特化するように構成してもよい。
[3−3.スタイル設定の変形例]
[(a)不可視化されているテキストの可視化の変形例]
不可視化されているテキストを可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素のvisibility属性(表示属性)を「hidden」から「visible」(デフォルト)に変更する
・テキストデータそのもの又は該テキストデータを内容とする要素全体を挟んでいるコメントタグを削除する。
[(b)可視化されている画像の不可視化の変形例]
可視化されている画像を不可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素全体又は<img>タグをコメントタグで挟む(コメントアウトする)
・<div>要素全体又は<img>タグを削除する
・<div>要素のvisibility属性(表示属性)を「visible」(デフォルト)から「hidden」に変更する
・<div>要素又は<img>タグのdisplay属性(表示形式)を「none」に変更する
[(c)不可視化の概念]
上述の実施形態2では、不可視化という用語を、「全く視認できない」ようにする処理を包含する概念として用いている。
これに対し、半透明に設定する,透過性を高める,グレイアウトする,極めて薄い色に設定する(RGBの各値をいずれも概ね200以上に設定する)等、ユーザが「殆ど視認できない」ようにする処理によっても、「不可視化」と同様の効果を奏する場合がある。したがって、これらの処理も「不可視化」と実質的に等価である。
[3−4.スタイル設定の変形例]
上述の実施形態1では、HTMLのタグに個別にスタイルを設定している(図7)。また、上述の実施形態2では、HTMLソース内で定義したスタイルを特定のクラス名が付された全てのタグに適用するようにしている(図9)。
これに対し、所定のスタイルシート言語(例えば、CSS(Cascading Style Sheets))で記述した外部ファイルを参照することによりスタイルを適用してもよい。また、スタイルを全てHTMLタグの属性により設定してもよい。
[4.ソースコードの記載例,Webページの表示例]
図13に例示するHTMLのソースに対し、図14に例示するスタイルシートのソース(ファイル名「test.css」)を関連付ける。このとき、HTML中のテキストの表示位置は、図15に例示する画像(ファイル名「test.gif」)に合わせて、図16に例示するようにそれぞれ設定される。なお、図16は、最上部の白色文字が明確になるように背景を灰色にして示した。
図17に、図13に例示するHTMLのソースをWebブラウザに読み込んだWebページ表示例を示す。このように、画像の背景部分と文字部分とを分離して2層構成(画像のレイヤ,テキストのレイヤ)にすることで、文字部分のみを機械翻訳の対象にすることができる。なお、図17に示す表示例は、文字と一体化された画像(図18)と比較しても、十分な表現性を備えている。
(従来例)(a)翻訳前のWebページの一部,(b)翻訳後のWebページの一部を示す図である。 システムの構成例を示す図である。 (実施形態1)(a)翻訳前のWebページの一部,(b)翻訳後のWebページの一部を示す図である。 (実施形態2)(a−1)翻訳前のWebページの一部,(a−2)翻訳前のWebページが有する不可視化されたデータ,(b)翻訳後のWebページの一部を示す図である。 (実施形態)機械翻訳手順を示すシーケンスチャートである。 (実施形態)翻訳要求の主要な項目を示す図である。 (実施形態1)(a)翻訳前のHTMLソースの一部,(b)翻訳後のHTMLソースの一部を示す図である。 (実施形態1)翻訳処理の流れを示すフローチャートである。 (実施形態2)(a)翻訳前のHTMLソースの一部,(b)翻訳後のHTMLソースの一部を示す図である。 (実施形態2)翻訳処理の流れを示すフローチャートである。 (他の実施形態)システム構成の変形例を示す図である。 (他の実施形態)システム構成の変形例を示す図である。 (他の実施形態)HTMLデータのソースの記載例である。 (他の実施形態)スタイルシートのソースの記載例である。 (他の実施形態)参照画像の表示例である。 (他の実施形態)テキストの表示位置を例示する図である。 (他の実施形態)日本語のWebページの表示例である。 (他の実施形態)文字を含む画像の表示例である。
符号の説明
10 機械翻訳システム
11 Webサーバ
12 翻訳サーバ
13 WebDB
14 翻訳DB
20 ユーザ端末
30 インターネット
40 ルータ

Claims (5)

  1. 絶対位置が設定された背景画像と該背景画像とは異なる表示要素として絶対位置が該背景画像中の文字を含まない有色の画像領域と重なる位置に設定されたある言語のテキストとの組を含み前記ある言語のテキストが前記画像領域の前面に重ねて表示されるように記述された翻訳対象Webページのソースに対応するURLと、翻訳先言語の指定データと、を取得する取得手段と、
    翻訳データ記憶手段に記憶される辞書データを参照して、前記取得されるURLに対応するソース中の前記ある言語のテキストを前記取得される指定データに対応する翻訳先言語へ翻訳し、前記背景画像とは異なる表示要素として翻訳先言語のテキストが前記画像領域の前面に重ねて表示されるように前記ソースを再構成する翻訳手段と、
    前記再構成後のソースを出力する出力手段と、
    を備える機械翻訳システム。
  2. 前記ある言語のテキストの背景が透明である請求項1に記載の機械翻訳システム。
  3. 前記画像領域は、前記背景画像の一定範囲を占める閉じた領域である請求項1又は2に記載の機械翻訳システム。
  4. コンピュータにより実行される機械翻訳方法であって、
    絶対位置が設定された背景画像と該背景画像とは異なる表示要素として絶対位置が該背景画像中の文字を含まない有色の画像領域と重なる位置に設定されたある言語のテキストとの組を含み前記ある言語のテキストが前記画像領域の前面に重ねて表示されるように記述された翻訳対象Webページのソースに対応するURLと、翻訳先言語の指定データと、を取得する取得ステップと、
    翻訳データ記憶手段に記憶される辞書データを参照して、前記取得されるURLに対応するソース中の前記ある言語のテキストを前記取得される指定データに対応する翻訳先言語へ翻訳し、前記背景画像とは異なる表示要素として翻訳先言語のテキストが前記画像領域の前面に重ねて表示されるように前記ソースを再構成する翻訳ステップと、
    前記再構成後のソースを出力する出力ステップと、
    を備える機械翻訳方法。
  5. 絶対位置が設定された背景画像と該背景画像とは異なる表示要素として絶対位置が該背景画像中の文字を含まない有色の画像領域と重なる位置に設定されたある言語のテキストとの組を含み前記ある言語のテキストが前記画像領域の前面に重ねて表示されるように記述された翻訳対象Webページのソースに対応するURLと、翻訳先言語の指定データと、を取得する取得機能と、
    翻訳データ記憶手段に記憶される辞書データを参照して、前記取得されるURLに対応するソース中の前記ある言語のテキストを前記取得される指定データに対応する翻訳先言語へ翻訳し、前記背景画像とは異なる表示要素として翻訳先言語のテキストが前記画像領域の前面に重ねて表示されるように前記ソースを再構成する翻訳機能と、
    前記再構成後のソースを出力する出力機能と、
    をコンピュータに実現させるための機械翻訳プログラム。
JP2008334467A 2008-12-26 2008-12-26 機械翻訳システム及び機械翻訳方法 Active JP5235135B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008334467A JP5235135B2 (ja) 2008-12-26 2008-12-26 機械翻訳システム及び機械翻訳方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008334467A JP5235135B2 (ja) 2008-12-26 2008-12-26 機械翻訳システム及び機械翻訳方法

Publications (2)

Publication Number Publication Date
JP2010157065A JP2010157065A (ja) 2010-07-15
JP5235135B2 true JP5235135B2 (ja) 2013-07-10

Family

ID=42574965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008334467A Active JP5235135B2 (ja) 2008-12-26 2008-12-26 機械翻訳システム及び機械翻訳方法

Country Status (1)

Country Link
JP (1) JP5235135B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI657344B (zh) * 2018-02-26 2019-04-21 日商樂夫蘭度股份有限公司 網頁翻譯系統、網頁翻譯裝置、及網頁翻譯方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5483526B2 (ja) * 2008-12-26 2014-05-07 楽天株式会社 機械翻訳システム及び機械翻訳方法
CA2803861C (en) 2010-06-25 2016-01-12 Rakuten, Inc. Machine translation system and method of machine translation
EP2704025B1 (en) * 2011-04-28 2017-12-27 Rakuten, Inc. Browsing system, terminal, image server, program, computer-readable recording medium recording said program, and method
US9690778B2 (en) * 2013-03-29 2017-06-27 Rakuten, Inc. Information processing system, control method for information processing system, information processing device, control method for information processing device, information storage medium, and program
JP2021177263A (ja) * 2018-07-27 2021-11-11 Wovn Technologies株式会社 翻訳プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3946916B2 (ja) * 1999-10-12 2007-07-18 東芝ソリューション株式会社 翻訳システムおよび記録媒体
JP2001142883A (ja) * 1999-11-12 2001-05-25 Nec Corp インターネット翻訳処理システム及び翻訳処理方法
JP2003122751A (ja) * 2001-10-12 2003-04-25 Alps Electric Co Ltd 翻訳装置
JP3809863B2 (ja) * 2002-02-28 2006-08-16 インターナショナル・ビジネス・マシーンズ・コーポレーション サーバ
JP2007035056A (ja) * 2006-08-29 2007-02-08 Ebook Initiative Japan Co Ltd 翻訳情報生成装置、翻訳情報生成方法並びにコンピュータプログラム
JP2008084286A (ja) * 2006-09-01 2008-04-10 Toshiba Corp 電子漫画配信サーバ、および翻訳電子漫画作成装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI657344B (zh) * 2018-02-26 2019-04-21 日商樂夫蘭度股份有限公司 網頁翻譯系統、網頁翻譯裝置、及網頁翻譯方法

Also Published As

Publication number Publication date
JP2010157065A (ja) 2010-07-15

Similar Documents

Publication Publication Date Title
JP4658236B1 (ja) 機械翻訳システム及び機械翻訳方法
US7340673B2 (en) System and method for browser document editing
US9047261B2 (en) Document editing method
JP4583218B2 (ja) 対象コンテンツを評価する方法、コンピュータ・プログラム、システム
US7412644B2 (en) System and process for delivering and rendering scalable web pages
JP5235135B2 (ja) 機械翻訳システム及び機械翻訳方法
KR20150091132A (ko) 페이지 렌더링 방법 및 장치
JP2001184344A (ja) 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置
US20120072831A1 (en) Method for creating a multi-lingual web page
KR20060122004A (ko) 다중언어를 지원하는 인터넷 만화 서비스 방법 및 그시스템
JP5147683B2 (ja) コンピュータ画面上にデータ表示ウィンドウと入力ウィンドウを動的に視覚表示する方法
JP5483526B2 (ja) 機械翻訳システム及び機械翻訳方法
JP5482223B2 (ja) 情報処理装置、情報処理方法
CN117436417A (zh) 演示文稿生成方法、装置、电子设备和存储介质
CN109445900B (zh) 用于图片显示的翻译方法和装置
JP7246795B1 (ja) 情報処理装置、方法、プログラム、およびシステム
JP2007304867A (ja) 翻訳支援システム、指示データ生成装置、訳文データ生成装置ならびにそれらのプログラム
US11922113B2 (en) Systems, methods, and devices for e-mail rendering
WO2024018694A1 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
JP5232748B2 (ja) ワークフロー表示支援装置及びワークフロー表示プログラム
TW201220084A (en) automatically identifying required rendering elements in a primitive electronic document, generating a list of object elements corresponding to the required rendering elements, and modifying the required rendering elements to the object elements
JP2022132999A (ja) 画像形成装置、画像形成装置の制御方法、及びプログラム
CN115270024A (zh) 网页图标的加载方法及装置、计算机存储介质、电子设备
JP2013161375A (ja) 編集システム
de Normalisation Doc Type: Working Group Document Title: Proposal to add four characters for Sindhi to the BMP of the UCS Source: Michael Everson Status: Individual Contribution Action: For consideration by JTC1/SC2/WG2 and UTC

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100531

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130325

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5235135

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250