JP4658236B1

JP4658236B1 - 機械翻訳システム及び機械翻訳方法

Info

Publication number: JP4658236B1
Application number: JP2010542860A
Authority: JP
Inventors: 宗益子
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2010-06-25
Filing date: 2010-06-25
Publication date: 2011-03-23
Anticipated expiration: 2030-06-25
Also published as: CN102959537A; TW201142620A; CA2803861C; CA2803861A1; CN102959537B; US20130132825A1; JPWO2011161825A1; US9053077B2; KR20130031895A; EP2587388A1; TWI421710B; EP2587388A4; KR101388394B1; WO2011161825A1

Abstract

文字を含み可視化されている画像の参照データ（ＵＲＬ）と、当該画像に重なる領域に表示位置が設定され、文字を含まず不可視化されている背景画像の参照データ（ＵＲＬ）と、当該背景画像に重なる領域に表示位置が設定され、かつ不可視化されているテキストデータとを少なくとも１組含むＨＴＭＬデータをＷｅｂＤＢに記憶しておき、翻訳処理において当該不可視化されている背景画像データ及びテキストデータを可視化するとともに、当該可視化されている画像データを不可視化する。
【選択図】図７

Description

本発明は、文書を機械的に翻訳する仕組みに関し、特に、Ｗｅｂページ内に表示されるテキストをリアルタイムで翻訳するシステム等に関するものである。

Ｗｅｂページ中のテキストを機械的に翻訳する装置として、画像内の文字部分を翻訳するものが知られている（例えば、特許文献１参照）。特許文献１記載の装置は、画像と文字とが混在する画像データの文字部分のみを翻訳した画像を以下の手順で作成する。まず、画像と文字とが混在する画像データのうち文字データの存在する部分（文字領域）を特定する。次に、文字領域から文字データを抽出し、抽出した文字データをテキストデータに変換する。そして、テキストデータを翻訳し、翻訳データを調整して文字領域に貼り付ける。最後に、翻訳データが貼り付けられた文字領域を元の画像データと合成する（同文献図２のフローチャート，図３〜図１０の説明図等参照）。

特開２００３−１２２７５１号公報

利用者にとっては、インターネット上のサービスを提供される際に、当該利用者の使用言語でＷｅｂページが表示されると便利である。しかし、全てのＷｅｂページについて各国語のパターンを予め用意しておくことは、手間がかかり現実的ではない。

これに対して、事前にＷｅｂページを所定の言語で作成し、例えば機械翻訳可能な装置を用いて、Ｗｅｂページ中のテキストを利用者の使用言語へリアルタイムに翻訳して提供することが考えられる。

しかし、サービスを提供するＷｅｂページには画像が配置されることが多く、当該画像にはしばしば文字が含まれている（図１（ａ）の１１０ａ、ここでは日本語）。このため、単にテキストデータのみを機械翻訳するだけでは、画像中の文字が翻訳されない（図１（ｂ）の１１０ｂ、ここでは英訳）。この場合、例えば特許文献１記載の装置を用いることで、画像内の文字も翻訳されるため、Ｗｅｂページの見た目の美しさ及びレイアウトを損なうことなく、機械翻訳することが可能となる。

しかしながら、特許文献１記載の装置にあっては、画像内の文字を適宜抽出して翻訳するため、処理に時間がかかる。よって、リアルタイム処理を前提とする翻訳サービスには、特許文献１記載の装置を採用することができない。

本発明は、上記課題の解決のためになされたものであり、翻訳処理前後において翻訳対象ページの視覚的な体裁を保つことができるとともに、画像内に含まれる文字の翻訳処理の高速化を図ることが可能な機械翻訳システム、機械翻訳方法、機械翻訳プログラム及び当該機械翻訳プログラムを記録した記録媒体を提供することを目的とする。

すなわち、本発明に係る機械翻訳システムは、所定の言語で表現された翻訳対象のＷｅｂページを他の言語へ翻訳し、翻訳された前記Ｗｅｂページを提供する機械翻訳システムであって、翻訳対象の前記Ｗｅｂページの構造が記述されたＨＴＭＬデータ及び該ＨＴＭＬデータにより参照される画像データを記憶するＷｅｂデータ記憶手段と、テキストの翻訳処理に利用される辞書データを記憶する翻訳データ記憶手段とに接続可能であり、前記ＨＴＭＬデータは、文字を含み可視化された画像に関する記述、該画像の表示位置と対応する所定位置に表示位置が設定され、文字を含まず不可視化された背景画像に関する記述、及び、該背景画像に重なる所定位置の前面に表示位置が設定され、不可視化された所定の言語のテキストに関する記述を組として含み、翻訳対象の前記Ｗｅｂページに対応するＵＲＬ及び翻訳先の言語を指定する指定データを含む翻訳要求を、前記Ｗｅｂページを閲覧するユーザの端末から受信する翻訳要求受信手段と、前記翻訳要求に含まれる前記ＵＲＬに対応する前記Ｗｅｂページの構造が記述された前記ＨＴＭＬデータを前記Ｗｅｂデータ記憶手段から取得するＨＴＭＬデータ取得手段と、前記翻訳データ記憶手段により記憶された前記辞書データを参照して、前記ＨＴＭＬデータ取得手段により取得された前記ＨＴＭＬデータに含まれるテキストを前記翻訳要求に含まれる前記指定データに対応する翻訳先の言語へ翻訳する翻訳手段と、前記ＨＴＭＬデータ取得手段により取得された前記ＨＴＭＬデータに含まれる不可視化されたテキスト及び前記背景画像を可視化するとともに、該ＨＴＭＬデータに含まれる可視化された前記画像を不可視化する可視化要素切替手段と、前記翻訳手段により翻訳されたテキストを用いて前記ＨＴＭＬデータ取得手段により取得された前記ＨＴＭＬデータを再構成し、前記端末に送信する翻訳済ＨＴＭＬデータ送信手段と、前記端末からの前記画像データを指定した送信要求に応じて、指定された前記画像データを前記Ｗｅｂデータ記憶手段から読み出して該端末に送信する画像データ送信手段とを備えることを特徴として構成される。

前記可視化要素切替手段は、テキストの文字色属性を透明から有色に変更し、テキストを含む領域の表示属性を非表示から表示に変更し又はテキストを含む領域のタグを挟むコメントタグを削除する、ことにより不可視化されたテキストを可視化するとよい。

前記可視化要素切替手段は、前記背景画像の表示属性を非表示から表示に変更し、前記背景画像を含む領域の表示属性を非表示から表示に変更し、前記背景画像に対応するタグを挟むコメントタグを削除する、ことにより不可視化された前記背景画像を可視化するとよい。

前記可視化要素切替手段は、前記画像の表示属性を表示から非表示に変更し、前記画像に対応するタグを削除し、前記画像に対応するタグをコメントタグで挟み、前記画像を含む領域の表示属性を表示から非表示に変更し又は前記画像を含む領域に対応するタグをコメントタグで挟む、ことにより可視化された前記画像を不可視化するとよい。

前記翻訳済ＨＴＭＬデータ送信手段は、前記ＨＴＭＬデータ取得手段により取得された前記ＨＴＭＬデータの基準ＵＲＬを、前記翻訳要求に含まれる翻訳対象の前記Ｗｅｂページの前記ＵＲＬに変更してもよい。

前記翻訳済ＨＴＭＬデータ送信手段は、前記翻訳手段により翻訳されたテキストの長さが前記ＨＴＭＬデータ取得手段により取得された前記ＨＴＭＬデータに含まれる所定のテキストの長さと比較して一定値以上長い場合には、前記翻訳手段により翻訳されたテキストの長さを短く補正してもよい。

また、本発明に係る機械翻訳方法は、所定の言語で表現された翻訳対象のＷｅｂページのテキストを他の言語へ翻訳し、翻訳された前記Ｗｅｂページを提供する機械翻訳システムによる機械翻訳方法であって、前記機械翻訳システムは、翻訳対象の前記Ｗｅｂページの構造が記述されたＨＴＭＬデータ及び該ＨＴＭＬデータにより参照される画像データを記憶するＷｅｂデータ記憶手段と、テキストの翻訳処理に利用される辞書データを記憶する翻訳データ記憶手段とに接続可能であり、前記ＨＴＭＬデータは、文字を含み可視化された画像に関する記述、該画像の表示位置と対応する所定位置に表示位置が設定され、文字を含まず不可視化された背景画像に関する記述、及び、該背景画像に重なる所定位置の前面に表示位置が設定され、不可視化された所定の言語のテキストに関する記述を組として含み、前記機械翻訳システムが、翻訳対象の前記Ｗｅｂページに対応するＵＲＬ及び翻訳先の言語を指定する指定データを含む翻訳要求を、前記Ｗｅｂページを閲覧するユーザの端末から受信する翻訳要求受信ステップと、前記翻訳要求に含まれる前記ＵＲＬに対応する前記Ｗｅｂページの構造が記述された前記ＨＴＭＬデータを前記Ｗｅｂデータ記憶手段から取得するＨＴＭＬデータ取得ステップと、前記翻訳データ記憶手段により記憶された前記辞書データを参照して、前記ＨＴＭＬデータ取得ステップにより取得された前記ＨＴＭＬデータに含まれるテキストを前記翻訳要求に含まれる前記指定データに対応する翻訳先の言語へ翻訳する翻訳ステップと、前記ＨＴＭＬデータ取得ステップにより取得された前記ＨＴＭＬデータに含まれる不可視化されたテキスト及び前記背景画像を可視化するとともに、該ＨＴＭＬデータに含まれる可視化された前記画像を不可視化する可視化要素切替ステップと、前記翻訳ステップにより翻訳されたテキストを用いて前記ＨＴＭＬデータ取得ステップにより取得された前記ＨＴＭＬデータを再構成し、前記端末に送信する翻訳済ＨＴＭＬデータ送信ステップと、前記端末からの前記画像データを指定した送信要求に応じて、指定された前記画像データを前記Ｗｅｂデータ記憶手段から読み出して該端末に送信する画像データ送信ステップとを実行することを特徴として構成される。

また、本発明に係る機械翻訳プログラムは、上記何れかの機械翻訳システムが備える各手段を１又は複数のコンピュータに機能として実現させるためのプログラムとして構成される。

さらに、本発明に係る記録媒体は、コンピュータにより読み取り可能な記録媒体であって、上記何れかの機械翻訳システムが備える各手段を１又は複数のコンピュータに機能として実現させるためのプログラムを記録した記録媒体として構成される。

本発明の機械翻訳システムは、文字を含み可視化されている画像の参照データ（ＵＲＬ）と、当該画像の表示位置に対応する領域に表示位置が設定され、かつ文字を含まず不可視化されている背景画像の参照データ（ＵＲＬ）及びテキストデータとを少なくとも１組含むＨＴＭＬデータをＷｅｂデータ記憶手段に記憶しておき、翻訳処理において当該不可視化されている背景画像の画像データ及びテキストデータを、テキストデータの表示位置が背景画像の表示位置よりも手前に位置するようにして可視化するとともに、当該可視化されていた画像の画像データを不可視化する。

このように、Ｗｅｂページを部分的に３層構成（可視化され文字を含む画像のレイヤ、不可視化され文字を含まない画像のレイヤ、及び不可視化されたテキストのレイヤ）にしておくことで、翻訳前にあっては文字を含む画像を表示することができるので、見た目も美しい上に表示速度が速い。また、翻訳処理において表示される要素を切り替えることにより、当該Ｗｅｂページ（ＨＴＭＬデータ）を機械翻訳にかけたとき、文字を含む画像が表示されていた領域に背景画像及び翻訳後のテキストが表示されるようになる。よって、画像内の文字が翻訳されずにそのまま表示される事象を解消できるとともに、翻訳処理前後において翻訳対象ページの視覚的な体裁を保つことが可能となる。

（従来例）（ａ）翻訳前のＷｅｂページの一部，（ｂ）翻訳後のＷｅｂページの一部を示す図である。実施形態に係るシステムの構成例を示す図である。（ａ−１）翻訳前のＷｅｂページの一部，（ａ−２）翻訳前のＷｅｂページが有する不可視化された画像データ，（ａ−３）翻訳前のＷｅｂページが有する不可視化されたテキストデータ，（ｂ）翻訳後のＷｅｂページの一部を示す図である。図２に示すシステムの機械翻訳手順を示すシーケンスチャートである。翻訳要求の主要な項目を示す図である。（ａ）翻訳前のＨＴＭＬソースの一部，（ｂ）翻訳後のＨＴＭＬソースの一部を示す図である。翻訳処理の流れを示すフローチャートである。（変形例１）（ａ）翻訳前のＷｅｂページの一部，（ｂ）翻訳後のＷｅｂページの一部を示す図である。（変形例２）（ａ−１）翻訳前のＷｅｂページの一部，（ａ−２）翻訳前のＷｅｂページが有する不可視化されたデータ，（ｂ）翻訳後のＷｅｂページの一部を示す図である。（変形例１）（ａ）翻訳前のＨＴＭＬソースの一部，（ｂ）翻訳後のＨＴＭＬソースの一部を示す図である。（変形例１）翻訳処理の流れを示すフローチャートである。（変形例２）（ａ）翻訳前のＨＴＭＬソースの一部，（ｂ）翻訳後のＨＴＭＬソースの一部を示す図である。（変形例２）翻訳処理の流れを示すフローチャートである。（他の実施形態）システム構成の変形例を示す図である。（他の実施形態）システム構成の変形例を示す図である。（他の実施形態）ＨＴＭＬデータのソースの記載例である。（他の実施形態）スタイルシートのソースの記載例である。（他の実施形態）日本語のＷｅｂページの表示例である。（他の実施形態）不可視化された背景画像の一例である。（他の実施形態）不可視化された日本語のテキストの一例である。（他の実施形態）英語のＷｅｂページの表示例である。（他の実施形態）中国語のＷｅｂページの表示例である。（他の実施形態）韓国語のＷｅｂページの表示例である。

＜定義＞
以下の説明中で使用される用語の意義は、それぞれ次の定義の通りとする。
・機械翻訳…コンピュータ等を利用して人手を介さず自動的に行う翻訳。
・可視化…ユーザが視認できるようにする処理を包含する概念。
・不可視化…ユーザが視認できないようにする処理を包含する概念。例えば、非表示に設定する，透明に設定する，要素を削除する，要素をコメントアウトする等の処理形態が考えられる。

＜実施形態＞
［１．実施形態の概要］
本実施形態の概要を、図２〜図７を参照して説明する。本実施形態のシステムは、Ｗｅｂページを閲覧するユーザに対し、Ｗｅｂページ内に第１の言語（所定の言語）で表示されている部分を、各ユーザが指定（選択）した第２の言語（他の言語）に翻訳するサービス（機械翻訳サービス）を提供するシステムである。なお、以下の説明では、Ｗｅｂページ内の日本語の部分を英語に翻訳する例を用いている。

［１−１．システムの構成］
図２に示すように、本実施形態のシステムは、全体として、Ｗｅｂページを提供するＷｅｂサーバ１１，翻訳処理を行う翻訳サーバ１２及びＷｅｂブラウザを有するユーザ端末２０により構成される。Ｗｅｂサーバ１１は、Ｗｅｂページの構造を記述するＨＴＭＬデータ及び当該ＨＴＭＬデータが参照するデータ（例えば、画像データ）を少なくとも記憶するＷｅｂＤＢ（Ｗｅｂデータ記憶手段）１３に接続可能である。一方、翻訳サーバ１２は、Ｗｅｂページの機械翻訳処理において参照する辞書データを少なくとも記憶する翻訳ＤＢ（翻訳データ記憶手段）１４に接続可能である。

Ｗｅｂサーバ１１及び翻訳サーバ１２は、ＣＰＵ、ＲＯＭ、ＲＡＭ、ハードディスク及び通信装置等を備える一般的なコンピュータとして構成され、ユーザ端末２０は、上記構成要素の他にユーザからの操作を受け付ける操作部及びＷｅｂページを表示可能な表示部を備えて構成される。

なお、翻訳ＤＢ１４に記憶する辞書データは、語彙や文法を定義したデータや、統計的学習手法により構築したモデルを含んでいるものとする。また、特定の語句に対する特定の訳語を定めたデータを記憶していてもよい。本実施形態においては、ＷｅｂＤＢ１３，翻訳ＤＢ１４をＷｅｂサーバ１１，翻訳サーバ１２にそれぞれ接続された外部の記憶装置に構築しているが、記憶している情報の読出しが可能であればＷｅｂサーバ１１又は翻訳サーバ１２に内蔵された記憶装置に構築してもよい。

Ｗｅｂサーバ１１と翻訳サーバ１２は、通信ネットワーク（本実施形態ではＬＡＮ等のプライベートネットワーク）により互いに接続し、機械翻訳システム１０を形成している。また、ユーザ端末２０は、通信ネットワーク（本実施形態ではインターネット３０）を介してＷｅｂサーバ１１及び翻訳サーバ１２とそれぞれ接続可能である。なお、Ｗｅｂサーバ１１，翻訳サーバ１２，ユーザ端末２０の間の通信は、ルータ４０により制御される。

［１−２．実施形態の主要な特徴］
実施形態の主要な特徴は、文字を含み可視化されている画像の参照データ（ＵＲＬ）と、当該画像の表示位置に対応する領域に表示位置が設定され、かつ文字を含まず不可視化されている画像（背景画像）及びテキストデータとを少なくとも１組含むＨＴＭＬデータをＷｅｂＤＢ１３に記憶しておき、翻訳処理において当該不可視化されていた背景画像データ及びテキストデータを、テキストデータの表示位置が背景画像の表示位置よりも手前に位置するようにして可視化するとともに、当該可視化されていた画像データを不可視化する点にある。

このように、Ｗｅｂページを部分的に３層構成（可視化され文字を含む画像のレイヤ、不可視化され文字を含まない背景画像のレイヤ、及び不可視化されたテキストのレイヤ）にしておくことで、翻訳前にあっては文字を含む画像を表示することができるので、見た目も美しい上に表示速度が速い。また、翻訳処理において表示される要素を切り替えることにより、当該Ｗｅｂページ（ＨＴＭＬデータ）を機械翻訳にかけたとき、文字を含む画像が表示されていた領域に背景画像及び翻訳後のテキストが表示されるようになる。よって、画像内の文字が翻訳されずにそのまま表示される事象を解消できるとともに、翻訳処理前後において翻訳対象ページの視覚的な体裁を保つことが可能となる。

図３に、実施形態における翻訳前後のＷｅｂページの一部を示す。翻訳前のＷｅｂページには、通常のテキスト５１０ａと、日本語の文字を含む画像５２０とが表示される（図３（ａ−１））。また、翻訳前のＷｅｂページは、画像５２０の表示位置と対応する領域（又は画像５２０と重なる領域）に表示位置が設定され、かつ文字を含まず不可視化された画像５４０を有している（図３（ａ−２））。さらに、画像５４０に重なる領域に表示位置が設定され、かつ不可視化された日本語のテキストデータ５３０ａを有している（図３（ａ−３））。

一方、翻訳後のＷｅｂページには、テキスト５１０ａが英語に翻訳されたテキスト５１０ｂと、画像５４０と、テキスト５３０ａが英語に翻訳されたテキスト５３０ｂとが表示される（図３（ｂ））。なお、画像５２０は不可視化されているため、翻訳後のＷｅｂページ内では視認できない。

［２．機械翻訳の手順］
［２−１．機械翻訳手順の概要］
本実施形態のシステムによる機械翻訳処理の流れ及びデータの流れを、図４のシーケンスチャートを参照して簡単に説明する。図４に示すように、機械翻訳システム１０を構成するＷｅｂサーバ１１及び翻訳サーバ１２は、下記〔手順１〕〜〔手順４〕によりユーザ端末２０に翻訳後のＷｅｂページを表示させる。なお、図４のシーケンスチャートには、参照する他の図面の番号が付記されている。また、手順１の実行前に、Ｗｅｂサーバ１１により、Ｗｅｂページの構造を記述するＨＴＭＬデータ及び当該ＨＴＭＬデータにより参照されるデータがＷｅｂＤＢ１３に記憶され、翻訳サーバ１２により、Ｗｅｂページの機械翻訳処理において参照される辞書データが翻訳ＤＢ１４に記憶されているものとする。

〔手順１〕
前提として、ユーザ端末２０は、Ｗｅｂサーバ１１から提供されたＷｅｂページを表示しているものとし（Ｓ５０５ａ）、当該Ｗｅｂページを翻訳対象のＷｅｂページとする（図３（ａ−１））。また、翻訳対象のＷｅｂページには、翻訳後の言語を選択し翻訳を要求するための要素（例えば、プルダウン，ラジオボタン，プルダウン又はラジオボタンとボタン又は画像又はリンクとの組）が表示されているものとする。翻訳対象のＷｅｂページにおいてユーザが翻訳後の言語を指定（選択）し、翻訳を要求する所定の操作を行うと、ユーザ端末２０は、翻訳サーバ１２にＷｅｂページの翻訳を要求する（Ｓ５１０ａ）。

図５に、翻訳要求の主要な項目を例示する。翻訳要求には、「翻訳処理プログラムのＵＲＬ」，「翻訳対象ＷｅｂページのＵＲＬ」，「第１言語（翻訳対象Ｗｅｂページの言語）の指定データ」，「第２言語（翻訳先の言語）の指定データ」及び「テキストデータの文字コード」が含まれる。本実施形態では、「翻訳対象ＷｅｂページのＵＲＬ」以下をＵＲＬパラメータとするＨＴＴＰリクエストを翻訳要求としている。なお、図５に示す各項目を他の形式で送信してもよい。

〔手順２〕
翻訳サーバ１２は、ユーザ端末２０から翻訳要求を受信する（Ｓ５１０ｂ，翻訳要求受信ステップ）と、受信した「翻訳対象ＷｅｂページのＵＲＬ」に対応するＨＴＭＬデータの送信をＷｅｂサーバ１１に要求する（Ｓ５１５ｂ）。Ｗｅｂサーバ１１は、翻訳サーバ１２からＨＴＭＬデータの送信要求を受信する（Ｓ５１５ｃ）と、受信した「翻訳対象ＷｅｂページのＵＲＬ」に対応するＨＴＭＬデータ（翻訳前のＨＴＭＬデータ）をＷｅｂＤＢ１３より読み出し又は生成して、翻訳サーバ１２に送信する（Ｓ５２０ｃ，ＨＴＭＬデータ取得ステップ）。

〔手順３〕
翻訳サーバ１２は、Ｗｅｂサーバ１１から翻訳前のＨＴＭＬデータを受信する（Ｓ５２０ｂ）と、受信した翻訳前のＨＴＭＬデータを対象として機械翻訳処理を実行し、翻訳後のＨＴＭＬデータすなわち再構成されたＨＴＭＬデータをユーザ端末２０に送信する（Ｓ５２５ｂ，翻訳済ＨＴＭＬデータ送信ステップ）。なお、機械翻訳処理の流れ及び翻訳前後のＨＴＭＬデータについては、別に項目を設けて詳細に説明する（後述の図６，７参照）。

〔手順４〕
ユーザ端末２０は、翻訳サーバ１２から翻訳後のＨＴＭＬデータを受信する（Ｓ５２５ａ）と、受信したＨＴＭＬデータを解釈して画像なしのＷｅｂページを表示する（Ｓ５３０ａ）とともに、当該ＨＴＭＬデータが参照している画像データの送信をＷｅｂサーバ１１に要求する（Ｓ５３５ａ）。Ｗｅｂサーバ１１は、画像データの送信要求を受信する（Ｓ５３５ｃ）と、指定された画像データをＷｅｂＤＢ１３より読み出し、ユーザ端末２０に送信する（Ｓ５４０ｃ，画像データ送信ステップ）。ユーザ端末２０は、Ｗｅｂサーバ１１から画像データを受信する（Ｓ５４０ａ）と、既に表示されているＷｅｂページ内の所定の位置に画像を追加表示する（Ｓ５４５ａ）。表示完了後のＷｅｂページは、前述のとおりである（図３（ｂ））。

以上のように、本実施形態では、翻訳サーバ１２が、翻訳要求受信手段及び翻訳済ＨＴＭＬデータ送信手段として機能し、Ｗｅｂサーバ１１が、ＨＴＭＬデータ取得手段及び画像データ送信手段として機能する。

［２−２．実施形態の機械翻訳処理手順等］
［（ａ）翻訳前のＨＴＭＬデータ］
図６（ａ）に、実施形態における翻訳前のＨＴＭＬデータの一部を例示する。翻訳前のＨＴＭＬデータには、日本語のテキストデータ９１５ａの他に、画像の参照データ９２５ａ，９５５ａと、日本語のテキストデータ９３５ａとが含まれている。また、いくつかのタグには、スタイルシート（ＣＳＳ形式）によりスタイルが設定されている。テキストデータ９１５ａ，画像の参照データ９２５ａは、それぞれ翻訳前のＷｅｂページ（図３（ａ−１））のテキスト５１０ａ，画像５２０に対応する。また、画像の参照データ９５５ａ，テキストデータ９３５ａは、翻訳前のＷｅｂページが有する不可視化された画像データ５４０（図３（ａ−２）），テキストデータ５３０ａ（図３（ａ−３））に対応する。

画像の参照データ９２５ａが参照する画像は、所定の領域（幅８４０ピクセル，高さ１２０ピクセル）の上から０ピクセル，左から０ピクセルの位置に左上の頂点を合わせて、幅８４０ピクセル，高さ１２０ピクセルで表示されるように設定されている。

一方、画像の参照データ９５５ａが参照する画像は、上記所定の領域（幅８４０ピクセル，高さ１２０ピクセル）の上から０ピクセル，左から０ピクセルの位置に左上の頂点を合わせて、幅８４０ピクセル，高さ１２０ピクセルで表示されるように設定されている。すなわち当該画像の表示位置は、参照データ９２５ａが参照する画像と同一の位置に設定されている。ただし、参照データ９５５ａに対応する画像は不可視化されている（表示属性の値が非表示（hidden）に設定されている）ため、Ｗｅｂブラウザのウィンドウ内では視認できない。そして、テキストデータ９３５ａに対応するテキストは、上記所定の領域（幅８４０ピクセル，高さ１２０ピクセル）の上から３０ピクセルの位置に表示されるように設定されている（ここでは、センタリング等）。すなわち当該テキストの表示位置は、参照データ９５５ａが参照する画像と同一の位置に設定されている。ただし、テキストデータ９３５ａに対応するテキストは不可視化されている（文字色属性の値が透明（transparent）に設定されている）ため、Ｗｅｂブラウザのウィンドウ内では視認できない。

なお、Ｗｅｂページ内の要素はＨＴＭＬの記述順に重なる（後ろに記述された要素が前面に表示される）ため、図６（ａ）の例では特に設定していないが、重ね合わせの順序を明示的に設定してもよい。重ね合わせ順序は、例えば「z-index」属性の値（数値）の大小により設定することができる。

［（ｂ）翻訳処理］
実施形態における翻訳処理の流れを、図７のフローチャートを参照して詳細に説明する。図７に示すように、翻訳サーバ１２は、下記〔手順３１〕〜〔手順３４〕によりＨＴＭＬデータを翻訳する。

〔手順３１〕
ＨＴＭＬデータの基準ＵＲＬを変更する（Ｓ８１０）。具体的には、相対ＵＲＬ形式で記述された参照データ等（例えば、参照データ９２５ａ，９５５ａ（図６（ａ））中のsrc属性の値）のＵＲＬが基準とするＵＲＬを、<base>タグのhref属性の値として絶対ＵＲＬ形式で記述する。ここでは、ユーザ端末２０から受信した検索要求（図５）に含まれる「翻訳対象ＷｅｂページのＵＲＬ」を基準ＵＲＬとする。なお、ＨＴＭＬデータ内のＵＲＬが全て絶対ＵＲＬ形式で記述されているという前提であれば、基準ＵＲＬを変更する処理を省略してもよい。また、相対ＵＲＬ形式で記述された全てのＵＲＬを個別に絶対ＵＲＬ形式に書き換えても同一の効果を得ることができる。

〔手順３２〕
ＨＴＭＬデータ内で要素（エレメント）の内容（コンテンツ）となっているテキストデータを１つ抽出し（Ｓ８２０）、抽出したテキストデータ（原文）を「第１言語」から「第２言語」へと翻訳して翻訳文を生成する（Ｓ８３０，翻訳ステップ）。なお、翻訳サーバ１２は、テキストの翻訳に当たり翻訳ＤＢ１４に記憶している辞書データを参照する。

〔手順３３〕
必要に応じて翻訳文のサイズを補正し（Ｓ８４０）、抽出したテキストデータを翻訳文に置換する（Ｓ８５０）。例えば、翻訳前後の文字列長を比較した上で翻訳文の長さを補正するとよい。具体的には、翻訳前後の文字列長の差分が所定の値以上（一定値以上）の場合には、差分に応じて翻訳文の長さを短く補正する。なお、所定の条件を満たす語句を翻訳文中から抽出し、所定の方法により生成した省略語に置換してもよい。この場合、省略語の定義を掲載したＷｅｂページを別途生成した上で、翻訳後のＷｅｂページには省略語の定義を掲載したＷｅｂページへのリンクを表示するとよい。また、省略語にポインタを合わせたときに省略対象語句がポップアップ表示されるように構成してもよい。

〔手順３４〕
翻訳したテキストデータが、ＨＴＭＬデータ内で要素の内容となっている最後のテキストデータか否かを判定する（Ｓ８６０）。具体的には、ＨＴＭＬデータ内で要素の内容となっている次のテキストデータを検索し、次のテキストデータが検出されないときに、直前に翻訳したテキストデータが最後のテキストデータであると判定する。最後のテキストデータでないとき（Ｓ８６０でＮｏ）、上記〔手順３２〕に戻り、次のテキストデータについて抽出〜置換の処理（〔手順３２〕〜〔手順３３〕）を繰り返す。一方、最後のテキストデータであるとき（Ｓ８６０でＹｅｓ）、ループを抜ける。

〔手順３５〕
不可視化されている全ての翻訳文を可視化する（Ｓ１０７０，可視化要素切替ステップ）とともに、不可視化されている全ての画像を可視化する（Ｓ１０７５，可視化要素切替ステップ）。例えば、図６（ａ）の例では、class属性の値が「class_11」である「<div>」タグのclass属性を削除する。これにより、テキストデータ９３５ａに対応するテキスト（明示的に不可視化されていたテキスト）は、英語に翻訳された状態で親要素の属性を継承して可視化される（文字色属性が透明から有色に変更される）。また、class属性の値が「class_22」である「<img>」タグのclass属性の値を「class_21」に変更する。これにより、画像の参照データ９５５ａに対応する画像（明示的に不可視化されていた背景画像）は、明示的に可視化される（表示属性が非表示から表示に変更される）。そして、Ｓ１０７０，Ｓ１０７５の処理で可視化された翻訳文又は図面と重なる全ての画像を不可視化する（Ｓ１０８５，可視化要素切替ステップ）。例えば、図６（ａ）の例では、class属性の値が「class_21」である「<img>」タグのclass属性の値を「class_22」に変更する。これにより、画像の参照データ９２５ａに対応する画像（明示的に可視化されていた画像）は、明示的に不可視化される（表示属性が表示から非表示に変更される）。なお、翻訳文の可視化及び／又は画像の不可視化は、上記のようにクラス属性を一括で適用して行ってもよいし、該当するタグごとに個別に行ってもよい。

［（ｃ）翻訳後のＨＴＭＬデータ］
図６（ｂ）に、実施形態における翻訳後のＨＴＭＬデータの一部を例示する。図６（ｂ）は、図６（ａ）のＨＴＭＬデータを図７のフローチャートに示す処理により翻訳した後のＨＴＭＬデータである。

翻訳後のＨＴＭＬデータには、テキストデータ９１５ａが英語に翻訳されたテキストデータ９１５ｂ，参照データ９２５ａが不可視化された参照データ９２５ｂ，参照データ９５５ａが可視化された参照データ９５５ｂ，テキストデータ９３５ａが英語に翻訳され可視化されたテキストデータ９３５ｂが含まれている。また、基準ＵＲＬを明示するタグ９４５ｂが追加されている。テキストデータ９１５ｂ，テキストデータ９３５ｂは、それぞれ翻訳後のＷｅｂページ（図３（ｂ））のテキスト５１０ｂ，テキスト５３０ｂに対応する。なお、テキストデータ９１５ｂの文字サイズは、上記〔手順３３〕の補正処理（図７のＳ８４０）により通常の９０％に補正されている。その他のデータの設定には、特に明示したものを除き変更がない。

以上のように、本実施形態では、翻訳サーバ１２が、翻訳手段及び可視化要素切替手段として機能する。

［３．変形例等］
［３−１．変形例の概要］
以下、２つの変形例を説明する。なお、変形例１，２のシステムは、実施形態のシステムと同様に構成されており、機械翻訳処理の流れ及び翻訳前後のＨＴＭＬデータのみが相違する。よって、以下では説明理解の容易性を考慮して相違点を中心に説明する。

［（ａ）変形例１の主要な特徴］
変形例１の主要な特徴は、文字を含まない画像の参照データ（ＵＲＬ）と、当該画像に重なる領域の前面に表示位置が設定されたテキストデータとの組を少なくとも１組含むＨＴＭＬデータをＷｅｂＤＢ１３に記憶しておく点にある。このように、Ｗｅｂページを部分的に２層構成（文字を含まない画像のレイヤ及びテキストのレイヤ）にしておくことにより、当該Ｗｅｂページ（ＨＴＭＬデータ）を機械翻訳にかけたとき、文字を含まない画像に重なる領域の前面に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示される事象が解消される。

図８に、変形例１における翻訳前後のＷｅｂページの一部を示す。翻訳前のＷｅｂページには、日本語の通常のテキスト３１０ａの他に、文字を含まない画像３２０と、画像３２０に重なる領域の前面に表示位置が設定された日本語のテキスト３３０ａとが表示される（図８（ａ））。一方、翻訳後のＷｅｂページには、テキスト３１０ａが英語に翻訳されたテキスト３１０ｂと、翻訳前後において変化しない画像３２０と、テキスト３３０ａが英語に翻訳されたテキスト３３０ｂが表示される（図８（ｂ））。

［（ｂ）変形例２の主要な特徴］
変形例２の主要な特徴は、文字を含み可視化されている画像の参照データ（ＵＲＬ）と、当該画像に重なる領域に表示位置が設定され、かつ不可視化されているテキストデータとを少なくとも１組含むＨＴＭＬデータをＷｅｂＤＢ１３に記憶しておき、翻訳処理において当該不可視化されているテキストデータを可視化するとともに、当該可視化されている画像データを不可視化する点にある。このように、Ｗｅｂページを部分的に２層構成（文字を含む画像のレイヤ及び不可視化されたテキストのレイヤ）にしておき、翻訳処理において表示されるレイヤを切り替えることにより、当該Ｗｅｂページ（ＨＴＭＬデータ）を機械翻訳にかけたとき、文字を含む画像が表示されていた領域に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示される事象が解消される。

図９に、変形例２における翻訳前後のＷｅｂページの一部を示す。翻訳前のＷｅｂページには、日本語の通常のテキスト４１０ａと、文字を含む画像４２０とが表示される（図９（ａ−１））。また、翻訳前のＷｅｂページは、画像４２０に重なる領域に表示位置が設定され、かつ不可視化された日本語のテキストデータ４３０ａを有している（図９（ａ−２））。一方、翻訳後のＷｅｂページには、テキスト４１０ａが英語に翻訳されたテキスト４１０ｂと、テキスト４３０ａが英語に翻訳されたテキスト４３０ｂが表示される（図９（ｂ））。なお、画像４２０は不可視化されているため、翻訳後のＷｅｂページ内では視認できない。

［（ｃ）変形例の機械翻訳手順等］
変形例のシステムによる機械翻訳処理の流れ及びデータの流れは、実施形態のシステムによる機械翻訳処理の流れ及びデータの流れと同様である（図４）。また、翻訳要求の主要な項目についても同様である（図５）。

［３−２．変形例１の翻訳処理等］
［（ａ）翻訳前のＨＴＭＬデータ］
図１０（ａ）に、変形例１における翻訳前のＨＴＭＬデータの一部を例示する。翻訳前のＨＴＭＬデータには、日本語のテキストデータ７１０ａの他に、画像の参照データ７２０と、日本語のテキストデータ７３０ａとが含まれている。また、いくつかのタグには、スタイルシート（ＣＳＳ形式）によりスタイルが設定されている。テキストデータ７１０ａ，画像の参照データ７２０，テキストデータ７３０ａは、それぞれ翻訳前のＷｅｂページ（図８（ａ））のテキスト３１０ａ，画像３２０，テキスト３３０ａに対応する。

画像の参照データ７２０が参照する画像は、所定の領域（幅８４０ピクセル，高さ１２０ピクセル）の上から０ピクセル，左から０ピクセルの位置に左上の頂点を合わせて、幅８４０ピクセル，高さ１２０ピクセルで表示されるように設定されている。一方、テキストデータ７３０ａに対応するテキストは、上記所定の領域（幅８４０ピクセル，高さ１２０ピクセル）の上から３０ピクセルの位置に通常通りに表示されるように設定されている（ここでは、センタリング等）。したがって、上記の所定の領域において、画像とテキストは重なって表示される。なお、Ｗｅｂページ内の要素はＨＴＭＬの記述順に重なる（後ろに記述された要素が前面に表示される）ため図１０（ａ）の例では特に設定していないが、重ね合わせの順序を明示的に設定してもよい。重ね合わせ順序は、例えば「z-index」属性の値（数値）の大小により設定することができる。

［（ｂ）翻訳処理］
変形例１における翻訳処理の流れを、図１１のフローチャートで示す。なお、図１１のフローチャートにおいて、図７のフローチャートに示した処理と同一の符号が付されている処理は、同一の処理を示す。図１１に示すように、翻訳サーバ１２は、上記〔手順３１〕〜〔手順３４〕（実施形態と同様）によりＨＴＭＬデータを翻訳する。

［（ｃ）翻翻訳後のＨＴＭＬデータ］
図１０（ｂ）に、変形例１における翻訳後のＨＴＭＬデータの一部を例示する。図１０（ｂ）は、図１０（ａ）のＨＴＭＬデータを図１１のフローチャートに示す処理により翻訳した後のＨＴＭＬデータである。

翻訳後のＨＴＭＬデータには、テキストデータ７１０ａが英語に翻訳されたテキストデータ７１０ｂ，翻訳前後において変化しない画像の参照データ７２０，テキストデータ７３０ａが英語に翻訳されたテキストデータ７３０ｂが含まれている。また、基準ＵＲＬを明示するタグ７４０ｂが追加されている。テキストデータ７１０ｂ，画像の参照データ７２０，テキストデータ７３０ｂは、それぞれ翻訳後のＷｅｂページ（図８（ｂ））のテキスト３１０ｂ，画像３２０，テキスト３３０ｂに対応する。なお、テキストデータ７１０ｂの文字サイズは、上記〔手順３３〕の補正処理（図１１のＳ８４０）により通常の９０％に補正されている。その他のデータの設定には特に変更がない。

［３−３．変形例２の翻訳処理等］
［（ａ）翻訳前のＨＴＭＬデータ］
図１２（ａ）に、変形例２における翻訳前のＨＴＭＬデータの一部を例示する。翻訳前のＨＴＭＬデータには、日本語のテキストデータ９１０ａの他に、画像の参照データ９２０ａと、日本語のテキストデータ９３０ａとが含まれている。また、いくつかのタグには、スタイルシート（ＣＳＳ形式）によりスタイルが設定されている。テキストデータ９１０ａ，画像の参照データ９２０ａは、それぞれ翻訳前のＷｅｂページ（図９（ａ−１））のテキスト４１０ａ，画像４２０に対応する。また、テキストデータ９３０ａは、翻訳前のＷｅｂページが有する不可視化されたテキストデータ４３０ａ（図９（ａ−２））に対応する。

画像の参照データ９２０ａが参照する画像は、所定の領域（幅８４０ピクセル，高さ１２０ピクセル）の上から０ピクセル，左から０ピクセルの位置に左上の頂点を合わせて、幅８４０ピクセル，高さ１２０ピクセルで表示されるように設定されている。一方、テキストデータ９３０ａに対応するテキストは、上記所定の領域（幅８４０ピクセル，高さ１２０ピクセル）の上から３０ピクセルの位置に通常通りに表示されるように設定されている（ここでは、センタリング等）。ただし、テキストデータ９３０ａに対応するテキストは不可視化されている（文字色属性の値が透明（transparent）に設定されている）ため、Ｗｅｂブラウザのウィンドウ内では視認できない。

［（ｂ）翻訳処理］
変形例２における翻訳処理の流れを、図１３のフローチャートを参照して説明する。図１３に示すように、翻訳サーバ１２は、上記〔手順３１〕〜〔手順３４〕（実施形態及び変形例１と同様）に加え、下記〔手順３６〕によりＨＴＭＬデータを翻訳する。なお、図１３のフローチャートにおいて、図７のフローチャートに示した処理と同一の符号が付されている処理は、同一の処理を示す。

〔手順３６〕
不可視化されている全ての翻訳文を可視化する（Ｓ１０７０）とともに、可視化した翻訳文と重なる全ての画像を不可視化する（Ｓ１０８０）。例えば、図１２（ａ）の例では、class属性の値が「class_11」である「<div>」タグのclass属性を削除する。これにより、テキストデータ９３０ａに対応するテキスト（明示的に不可視化されていたテキスト）は、親要素の属性を継承して可視化される（文字色属性が透明から有色に変更される）。また、class属性の値が「class_21」である「<img>」タグのclass属性の値を「class_22」に変更する。これにより、画像の参照データ９２０ａに対応する画像（明示的に可視化されていた画像）は、明示的に不可視化される（表示属性が表示から非表示に変更される）。なお、翻訳文の可視化及び／又は画像の不可視化は、上記のようにクラス属性を一括で適用して行ってもよいし、該当するタグごとに個別に行ってもよい。

［（ｃ）翻訳後のＨＴＭＬデータ］
図１２（ｂ）に、変形例２における翻訳後のＨＴＭＬデータの一部を例示する。図１２（ｂ）は、図１２（ａ）のＨＴＭＬデータを図１３のフローチャートに示す処理により翻訳した後のＨＴＭＬデータである。

翻訳後のＨＴＭＬデータには、テキストデータ９１０ａが英語に翻訳されたテキストデータ９１０ｂ，参照データ９２０ａが不可視化された参照データ９２０ｂ，テキストデータ９３０ａが英語に翻訳され可視化されたテキストデータ９３０ｂが含まれている。また、基準ＵＲＬを明示するタグ９４０ｂが追加されている。テキストデータ９１０ｂ，テキストデータ９３０ｂは、それぞれ翻訳後のＷｅｂページ（図９（ｂ））のテキスト４１０ｂ，テキスト４３０ｂに対応する。なお、テキストデータ９１０ｂの文字サイズは、上記〔手順３３〕の補正処理（図１３のＳ８４０）により通常の９０％に補正されている。その他のデータの設定には、特に明示したものを除き変更がない。
［３−４．システム構成の変形例］
［（ａ）翻訳サーバが遠隔地にある構成］
上述の実施形態及び変形例では、Ｗｅｂサーバ１１と翻訳サーバ１２とをＬＡＮ等のプライベートネットワークを介して接続している（図２）。これは、両サーバが同一の事業者の管理下にあることを想定した構成である。これに対し、図１４に示すように、Ｗｅｂサーバ１１と翻訳サーバ１２とをインターネット３０等のパブリックネットワークを介して接続してもよい。これは、Ｗｅｂサーバ１１又は翻訳サーバ１２が遠隔地（例えば、他の事業所，遠隔地のデータセンター，他の事業者の管理下等）にあることを想定した構成である。

［（ｂ）Ｗｅｂサーバが翻訳処理機能を備える構成］
上述の実施形態及び変形例では、Ｗｅｂサーバ１１と翻訳サーバ１２とにより機械翻訳システム１０を構成している（図２）。これは、ハードウェアごとに特定の処理機能に特化し、負荷分散を図った構成である。これに対し、機械翻訳処理の全てのステップをＷｅｂサーバ１１が実行するように構成してもよい。この場合、図１５に示すように、Ｗｅｂサーバ１１はＷｅｂＤＢ１３と翻訳ＤＢ１４とを有する。また、ユーザ端末２０から翻訳要求を受信して、翻訳対象のＨＴＭＬデータを取得し、翻訳処理を実行し、翻訳後のＨＴＭＬデータ及び必要な画像データを送信する処理の主体は、全てＷｅｂサーバ１１となる。

［３−５．処理分担の変形例］
上述の実施形態及び変形例では、Ｗｅｂサーバ１１はＨＴＭＬデータ又は画像データを送信する処理に特化している。同様に、翻訳サーバ１２はユーザ端末２０から翻訳要求を受信して翻訳後のＨＴＭＬデータを生成し、ユーザ端末２０に送信する処理に特化している（図４）。これに対し、ユーザ端末２０から翻訳要求を受信する処理及び翻訳後のＨＴＭＬデータをユーザ端末２０に送信する処理をＷｅｂサーバ１１が担当することとし、翻訳サーバ１２はＷｅｂページの翻訳処理（図７，図１１，図１３のＳ８１０〜Ｓ８６０）のみに特化するように構成してもよい。

［３−６．機械翻訳プログラム］
上述の実施形態及び変形例では、機械翻訳システム又は機械翻訳方法について説明したが、本発明は、上記の機械翻訳システムが備える各手段を１又は複数のコンピュータに機能として実現させるための機械翻訳プログラムとして提供されてもよい。この機械翻訳プログラムは、例えば、メインモジュールの他、各手段にそれぞれ対応するモジュールを備えて構成される。また、機械翻訳プログラムは、ＲＯＭ等の記録媒体又は半導体メモリ等によって提供される。また、機械翻訳プログラムは、データ信号としてネットワークを介して提供されてもよい。
［３−７．スタイル設定の変形例］
［（ａ）不可視化されているテキストの可視化の変形例］
不可視化されているテキストを可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素のvisibility属性（表示属性）を「hidden」から「visible」（デフォルト）に変更する。
・テキストデータそのもの又は該テキストデータを内容とする要素全体を挟んでいるコメントタグを削除する。

［（ｂ）不可視化されている画像の可視化の変形例］
不可視化されている画像を可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素のvisibility属性（表示属性）を「visible」（デフォルト）から「hidden」に変更する。
・画像データそのもの又は該画像データを内容とする要素全体を挟んでいるコメントタグを削除する。
・<div>要素又は<img>タグのdisplay属性（表示形式）を「none」から「block」に変更する。
［（ｃ）可視化されている画像の不可視化の変形例］
可視化されている画像を不可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素全体又は<img>タグをコメントタグで挟む（コメントアウトする）。
・<div>要素全体又は<img>タグを削除する。
・<div>要素のvisibility属性（表示属性）を「visible」（デフォルト）から「hidden」に変更する。
・<div>要素又は<img>タグのdisplay属性（表示形式）を「none」に変更する。

［（ｄ）不可視化の概念］
上述の実施形態及び変形例２では、不可視化という用語を、「全く視認できない」ようにする処理を包含する概念として用いている。これに対し、半透明に設定する，透過性を高める，グレイアウトする，極めて薄い色に設定する（ＲＧＢの各値をいずれも概ね２００以上に設定する）等、ユーザが「殆ど視認できない」ようにする処理によっても、「不可視化」と同様の効果を奏する場合がある。したがって、これらの処理も「不可視化」と実質的に等価である。

［３−８．スタイル設定の変形例］
上述の変形例１では、ＨＴＭＬのタグに個別にスタイルを設定している（図１０）。また、上述の実施形態及び変形例２では、ＨＴＭＬソース内で定義したスタイルを特定のクラス名が付された全てのタグに適用するようにしている（図６，図１２）。これに対し、所定のスタイルシート言語（例えば、CSS（Cascading Style Sheets））で記述した外部ファイルを参照することによりスタイルを適用してもよい。また、スタイルを全てＨＴＭＬタグの属性により設定してもよい。

［４．ソースコードの記載例，Ｗｅｂページの表示例］
以下では日本語のＷｅｂページを他の言語（英語、中国語又は韓国語）に翻訳する場合を一例として説明する。図１６に機械翻訳前におけるＨＴＭＬのソースの例を示す。図１６に例示するＨＴＭＬのソースでは、図１７に例示するスタイルシートのソース（ファイル名「test.css」）が関連付けされている。ＨＴＭＬデータ中のテキストの表示位置は、図１９に例示する背景画像（ファイル名「test.gif」）に合わせて、図２０に例示するようにそれぞれ設定されている。なお、図２０は、最上部の白色文字が明確になるように背景を灰色にして示した。

図１８に、図１６に例示するＨＴＭＬのソースをＷｅｂブラウザに読み込んだＷｅｂページ表示例を示す。翻訳前のＷｅｂページでは、日本語を含む画像（ファイル名「first.gif」）が可視化されるとともに、図１９に例示する背景画像及び図２０に例示するテキストは不可視化される。このように、画像、背景画像及び文字部分を分離して３層構成（画像のレイヤ，背景画像のレイヤ，テキストのレイヤ）にすることで、翻訳前のＷｅｂページは文字を含む画像のみにより表示することができるので、見た目も美しい上に表示速度が速い。

翻訳処理時においては、画像のレイヤから背景画像のレイヤ及びテキストのレイヤへ切り替えて、テキストのレイヤを用いて翻訳する。これにより、文字部分のみを機械翻訳の対象にすることができる。図２１〜２３に翻訳後の表示例を示す。図２１は英語に翻訳された表示例、図２２は中国語に翻訳された表示例、図２３は韓国語に翻訳された表示例である。図２１〜２３に示す表示例は、文字と一体化された画像（図１８）と比較しても、十分な表現性を備えており、翻訳前後において視覚的な体裁が保持されている。

１０機械翻訳システム
１１Ｗｅｂサーバ
１２翻訳サーバ
１３ＷｅｂＤＢ
１４翻訳ＤＢ
２０ユーザ端末
３０インターネット
４０ルータ

Claims

所定の言語で表現された翻訳対象のＷｅｂページを他の言語へ翻訳し、翻訳された前記Ｗｅｂページを提供する機械翻訳システムであって、
翻訳対象の前記Ｗｅｂページの構造が記述されたＨＴＭＬデータ及び該ＨＴＭＬデータにより参照される画像データを記憶するＷｅｂデータ記憶手段と、
テキストの翻訳処理に利用される辞書データを記憶する翻訳データ記憶手段と
に接続可能であり、
前記ＨＴＭＬデータは、文字を含み可視化された画像に関する記述、該画像の表示位置と対応する所定位置に表示位置が設定され、文字を含まず不可視化された背景画像に関する記述、及び、該背景画像に重なる所定位置の前面に表示位置が設定され、不可視化された所定の言語のテキストに関する記述を組として含み、
翻訳対象の前記Ｗｅｂページに対応するＵＲＬ及び翻訳先の言語を指定する指定データを含む翻訳要求を、前記Ｗｅｂページを閲覧するユーザの端末から受信する翻訳要求受信手段と、
前記翻訳要求に含まれる前記ＵＲＬに対応する前記Ｗｅｂページの構造が記述された前記ＨＴＭＬデータを前記Ｗｅｂデータ記憶手段から取得するＨＴＭＬデータ取得手段と、
前記翻訳データ記憶手段により記憶された前記辞書データを参照して、前記ＨＴＭＬデータ取得手段により取得された前記ＨＴＭＬデータに含まれるテキストを前記翻訳要求に含まれる前記指定データに対応する翻訳先の言語へ翻訳する翻訳手段と、
前記ＨＴＭＬデータ取得手段により取得された前記ＨＴＭＬデータに含まれる不可視化されたテキスト及び前記背景画像を可視化するとともに、該ＨＴＭＬデータに含まれる可視化された前記画像を不可視化する可視化要素切替手段と、
前記翻訳手段により翻訳されたテキストを用いて前記ＨＴＭＬデータ取得手段により取得された前記ＨＴＭＬデータを再構成し、前記端末に送信する翻訳済ＨＴＭＬデータ送信手段と、
前記端末からの前記画像データを指定した送信要求に応じて、指定された前記画像データを前記Ｗｅｂデータ記憶手段から読み出して該端末に送信する画像データ送信手段と
を備えることを特徴とする機械翻訳システム。
前記可視化要素切替手段は、テキストの文字色属性を透明から有色に変更し、テキストを含む領域の表示属性を非表示から表示に変更し又はテキストを含む領域のタグを挟むコメントタグを削除する、ことにより不可視化されたテキストを可視化する請求項１に記載の機械翻訳システム。
前記可視化要素切替手段は、前記背景画像の表示属性を非表示から表示に変更し、前記背景画像を含む領域の表示属性を非表示から表示に変更し、前記背景画像に対応するタグを挟むコメントタグを削除する、ことにより不可視化された前記背景画像を可視化する請求項１又は２に記載の機械翻訳システム。
前記可視化要素切替手段は、前記画像の表示属性を表示から非表示に変更し、前記画像に対応するタグを削除し、前記画像に対応するタグをコメントタグで挟み、前記画像を含む領域の表示属性を表示から非表示に変更し又は前記画像を含む領域に対応するタグをコメントタグで挟む、ことにより可視化された前記画像を不可視化する請求項１〜３の何れか一項に記載の機械翻訳システム。
前記翻訳済ＨＴＭＬデータ送信手段は、前記ＨＴＭＬデータ取得手段により取得された前記ＨＴＭＬデータの基準ＵＲＬを、前記翻訳要求に含まれる翻訳対象の前記Ｗｅｂページの前記ＵＲＬに変更する請求項１〜４の何れか一項に記載の機械翻訳システム。
前記翻訳済ＨＴＭＬデータ送信手段は、前記翻訳手段により翻訳されたテキストの長さが前記ＨＴＭＬデータ取得手段により取得された前記ＨＴＭＬデータに含まれる所定のテキストの長さと比較して一定値以上長い場合には、前記翻訳手段により翻訳されたテキストの長さを短く補正する請求項１〜５の何れか一項に記載の機械翻訳システム。
所定の言語で表現された翻訳対象のＷｅｂページのテキストを他の言語へ翻訳し、翻訳された前記Ｗｅｂページを提供する機械翻訳システムによる機械翻訳方法であって、
前記機械翻訳システムは、翻訳対象の前記Ｗｅｂページの構造が記述されたＨＴＭＬデータ及び該ＨＴＭＬデータにより参照される画像データを記憶するＷｅｂデータ記憶手段と、
テキストの翻訳処理に利用される辞書データを記憶する翻訳データ記憶手段と
に接続可能であり、
前記ＨＴＭＬデータは、文字を含み可視化された画像に関する記述、該画像の表示位置と対応する所定位置に表示位置が設定され、文字を含まず不可視化された背景画像に関する記述、及び、該背景画像に重なる所定位置の前面に表示位置が設定され、不可視化された所定の言語のテキストに関する記述を組として含み、
前記機械翻訳システムが、
翻訳対象の前記Ｗｅｂページに対応するＵＲＬ及び翻訳先の言語を指定する指定データを含む翻訳要求を、前記Ｗｅｂページを閲覧するユーザの端末から受信する翻訳要求受信ステップと、
前記翻訳要求に含まれる前記ＵＲＬに対応する前記Ｗｅｂページの構造が記述された前記ＨＴＭＬデータを前記Ｗｅｂデータ記憶手段から取得するＨＴＭＬデータ取得ステップと、
前記翻訳データ記憶手段により記憶された前記辞書データを参照して、前記ＨＴＭＬデータ取得ステップにより取得された前記ＨＴＭＬデータに含まれるテキストを前記翻訳要求に含まれる前記指定データに対応する翻訳先の言語へ翻訳する翻訳ステップと、
前記ＨＴＭＬデータ取得ステップにより取得された前記ＨＴＭＬデータに含まれる不可視化されたテキスト及び前記背景画像を可視化するとともに、該ＨＴＭＬデータに含まれる可視化された前記画像を不可視化する可視化要素切替ステップと、
前記翻訳ステップにより翻訳されたテキストを用いて前記ＨＴＭＬデータ取得ステップにより取得された前記ＨＴＭＬデータを再構成し、前記端末に送信する翻訳済ＨＴＭＬデータ送信ステップと、
前記端末からの前記画像データを指定した送信要求に応じて、指定された前記画像データを前記Ｗｅｂデータ記憶手段から読み出して該端末に送信する画像データ送信ステップと
を実行することを特徴とする機械翻訳方法。
請求項１〜６のいずれかに記載の機械翻訳システムが備える各手段を１又は複数のコンピュータに機能として実現させるための機械翻訳プログラム。
コンピュータにより読み取り可能な記録媒体であって、
請求項１〜６のいずれかに記載の機械翻訳システムが備える各手段を１又は複数のコンピュータに機能として実現させるための機械翻訳プログラムを記録した記録媒体。