JP4658236B1 - 機械翻訳システム及び機械翻訳方法 - Google Patents

機械翻訳システム及び機械翻訳方法 Download PDF

Info

Publication number
JP4658236B1
JP4658236B1 JP2010542860A JP2010542860A JP4658236B1 JP 4658236 B1 JP4658236 B1 JP 4658236B1 JP 2010542860 A JP2010542860 A JP 2010542860A JP 2010542860 A JP2010542860 A JP 2010542860A JP 4658236 B1 JP4658236 B1 JP 4658236B1
Authority
JP
Japan
Prior art keywords
translation
data
image
text
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010542860A
Other languages
English (en)
Other versions
JPWO2011161825A1 (ja
Inventor
宗 益子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Application granted granted Critical
Publication of JP4658236B1 publication Critical patent/JP4658236B1/ja
Publication of JPWO2011161825A1 publication Critical patent/JPWO2011161825A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)

Abstract

文字を含み可視化されている画像の参照データ(URL)と、当該画像に重なる領域に表示位置が設定され、文字を含まず不可視化されている背景画像の参照データ(URL)と、当該背景画像に重なる領域に表示位置が設定され、かつ不可視化されているテキストデータとを少なくとも1組含むHTMLデータをWebDBに記憶しておき、翻訳処理において当該不可視化されている背景画像データ及びテキストデータを可視化するとともに、当該可視化されている画像データを不可視化する。
【選択図】図7

Description

本発明は、文書を機械的に翻訳する仕組みに関し、特に、Webページ内に表示されるテキストをリアルタイムで翻訳するシステム等に関するものである。
Webページ中のテキストを機械的に翻訳する装置として、画像内の文字部分を翻訳するものが知られている(例えば、特許文献1参照)。特許文献1記載の装置は、画像と文字とが混在する画像データの文字部分のみを翻訳した画像を以下の手順で作成する。まず、画像と文字とが混在する画像データのうち文字データの存在する部分(文字領域)を特定する。次に、文字領域から文字データを抽出し、抽出した文字データをテキストデータに変換する。そして、テキストデータを翻訳し、翻訳データを調整して文字領域に貼り付ける。最後に、翻訳データが貼り付けられた文字領域を元の画像データと合成する(同文献図2のフローチャート,図3〜図10の説明図等参照)。
特開2003−122751号公報
利用者にとっては、インターネット上のサービスを提供される際に、当該利用者の使用言語でWebページが表示されると便利である。しかし、全てのWebページについて各国語のパターンを予め用意しておくことは、手間がかかり現実的ではない。
これに対して、事前にWebページを所定の言語で作成し、例えば機械翻訳可能な装置を用いて、Webページ中のテキストを利用者の使用言語へリアルタイムに翻訳して提供することが考えられる。
しかし、サービスを提供するWebページには画像が配置されることが多く、当該画像にはしばしば文字が含まれている(図1(a)の110a、ここでは日本語)。このため、単にテキストデータのみを機械翻訳するだけでは、画像中の文字が翻訳されない(図1(b)の110b、ここでは英訳)。この場合、例えば特許文献1記載の装置を用いることで、画像内の文字も翻訳されるため、Webページの見た目の美しさ及びレイアウトを損なうことなく、機械翻訳することが可能となる。
しかしながら、特許文献1記載の装置にあっては、画像内の文字を適宜抽出して翻訳するため、処理に時間がかかる。よって、リアルタイム処理を前提とする翻訳サービスには、特許文献1記載の装置を採用することができない。
本発明は、上記課題の解決のためになされたものであり、翻訳処理前後において翻訳対象ページの視覚的な体裁を保つことができるとともに、画像内に含まれる文字の翻訳処理の高速化を図ることが可能な機械翻訳システム、機械翻訳方法、機械翻訳プログラム及び当該機械翻訳プログラムを記録した記録媒体を提供することを目的とする。
すなわち、本発明に係る機械翻訳システムは、所定の言語で表現された翻訳対象のWebページを他の言語へ翻訳し、翻訳された前記Webページを提供する機械翻訳システムであって、翻訳対象の前記Webページの構造が記述されたHTMLデータ及び該HTMLデータにより参照される画像データを記憶するWebデータ記憶手段と、テキストの翻訳処理に利用される辞書データを記憶する翻訳データ記憶手段とに接続可能であり、前記HTMLデータは、文字を含み可視化された画像に関する記述、該画像の表示位置と対応する所定位置に表示位置が設定され、文字を含まず不可視化された背景画像に関する記述、及び、該背景画像に重なる所定位置の前面に表示位置が設定され、不可視化された所定の言語のテキストに関する記述を組として含み、翻訳対象の前記Webページに対応するURL及び翻訳先の言語を指定する指定データを含む翻訳要求を、前記Webページを閲覧するユーザの端末から受信する翻訳要求受信手段と、前記翻訳要求に含まれる前記URLに対応する前記Webページの構造が記述された前記HTMLデータを前記Webデータ記憶手段から取得するHTMLデータ取得手段と、前記翻訳データ記憶手段により記憶された前記辞書データを参照して、前記HTMLデータ取得手段により取得された前記HTMLデータに含まれるテキストを前記翻訳要求に含まれる前記指定データに対応する翻訳先の言語へ翻訳する翻訳手段と、前記HTMLデータ取得手段により取得された前記HTMLデータに含まれる不可視化されたテキスト及び前記背景画像を可視化するとともに、該HTMLデータに含まれる可視化された前記画像を不可視化する可視化要素切替手段と、前記翻訳手段により翻訳されたテキストを用いて前記HTMLデータ取得手段により取得された前記HTMLデータを再構成し、前記端末に送信する翻訳済HTMLデータ送信手段と、前記端末からの前記画像データを指定した送信要求に応じて、指定された前記画像データを前記Webデータ記憶手段から読み出して該端末に送信する画像データ送信手段とを備えることを特徴として構成される。
前記可視化要素切替手段は、テキストの文字色属性を透明から有色に変更し、テキストを含む領域の表示属性を非表示から表示に変更し又はテキストを含む領域のタグを挟むコメントタグを削除する、ことにより不可視化されたテキストを可視化するとよい。
前記可視化要素切替手段は、前記背景画像の表示属性を非表示から表示に変更し、前記背景画像を含む領域の表示属性を非表示から表示に変更し、前記背景画像に対応するタグを挟むコメントタグを削除する、ことにより不可視化された前記背景画像を可視化するとよい。
前記可視化要素切替手段は、前記画像の表示属性を表示から非表示に変更し、前記画像に対応するタグを削除し、前記画像に対応するタグをコメントタグで挟み、前記画像を含む領域の表示属性を表示から非表示に変更し又は前記画像を含む領域に対応するタグをコメントタグで挟む、ことにより可視化された前記画像を不可視化するとよい。
前記翻訳済HTMLデータ送信手段は、前記HTMLデータ取得手段により取得された前記HTMLデータの基準URLを、前記翻訳要求に含まれる翻訳対象の前記Webページの前記URLに変更してもよい。
前記翻訳済HTMLデータ送信手段は、前記翻訳手段により翻訳されたテキストの長さが前記HTMLデータ取得手段により取得された前記HTMLデータに含まれる所定のテキストの長さと比較して一定値以上長い場合には、前記翻訳手段により翻訳されたテキストの長さを短く補正してもよい。
また、本発明に係る機械翻訳方法は、所定の言語で表現された翻訳対象のWebページのテキストを他の言語へ翻訳し、翻訳された前記Webページを提供する機械翻訳システムによる機械翻訳方法であって、前記機械翻訳システムは、翻訳対象の前記Webページの構造が記述されたHTMLデータ及び該HTMLデータにより参照される画像データを記憶するWebデータ記憶手段と、テキストの翻訳処理に利用される辞書データを記憶する翻訳データ記憶手段とに接続可能であり、前記HTMLデータは、文字を含み可視化された画像に関する記述、該画像の表示位置と対応する所定位置に表示位置が設定され、文字を含まず不可視化された背景画像に関する記述、及び、該背景画像に重なる所定位置の前面に表示位置が設定され、不可視化された所定の言語のテキストに関する記述を組として含み、前記機械翻訳システムが、翻訳対象の前記Webページに対応するURL及び翻訳先の言語を指定する指定データを含む翻訳要求を、前記Webページを閲覧するユーザの端末から受信する翻訳要求受信ステップと、前記翻訳要求に含まれる前記URLに対応する前記Webページの構造が記述された前記HTMLデータを前記Webデータ記憶手段から取得するHTMLデータ取得ステップと、前記翻訳データ記憶手段により記憶された前記辞書データを参照して、前記HTMLデータ取得ステップにより取得された前記HTMLデータに含まれるテキストを前記翻訳要求に含まれる前記指定データに対応する翻訳先の言語へ翻訳する翻訳ステップと、前記HTMLデータ取得ステップにより取得された前記HTMLデータに含まれる不可視化されたテキスト及び前記背景画像を可視化するとともに、該HTMLデータに含まれる可視化された前記画像を不可視化する可視化要素切替ステップと、前記翻訳ステップにより翻訳されたテキストを用いて前記HTMLデータ取得ステップにより取得された前記HTMLデータを再構成し、前記端末に送信する翻訳済HTMLデータ送信ステップと、前記端末からの前記画像データを指定した送信要求に応じて、指定された前記画像データを前記Webデータ記憶手段から読み出して該端末に送信する画像データ送信ステップとを実行することを特徴として構成される。
また、本発明に係る機械翻訳プログラムは、上記何れかの機械翻訳システムが備える各手段を1又は複数のコンピュータに機能として実現させるためのプログラムとして構成される。
さらに、本発明に係る記録媒体は、コンピュータにより読み取り可能な記録媒体であって、上記何れかの機械翻訳システムが備える各手段を1又は複数のコンピュータに機能として実現させるためのプログラムを記録した記録媒体として構成される。
本発明の機械翻訳システムは、文字を含み可視化されている画像の参照データ(URL)と、当該画像の表示位置に対応する領域に表示位置が設定され、かつ文字を含まず不可視化されている背景画像の参照データ(URL)及びテキストデータとを少なくとも1組含むHTMLデータをWebデータ記憶手段に記憶しておき、翻訳処理において当該不可視化されている背景画像の画像データ及びテキストデータを、テキストデータの表示位置が背景画像の表示位置よりも手前に位置するようにして可視化するとともに、当該可視化されていた画像の画像データを不可視化する。
このように、Webページを部分的に3層構成(可視化され文字を含む画像のレイヤ、不可視化され文字を含まない画像のレイヤ、及び不可視化されたテキストのレイヤ)にしておくことで、翻訳前にあっては文字を含む画像を表示することができるので、見た目も美しい上に表示速度が速い。また、翻訳処理において表示される要素を切り替えることにより、当該Webページ(HTMLデータ)を機械翻訳にかけたとき、文字を含む画像が表示されていた領域に背景画像及び翻訳後のテキストが表示されるようになる。よって、画像内の文字が翻訳されずにそのまま表示される事象を解消できるとともに、翻訳処理前後において翻訳対象ページの視覚的な体裁を保つことが可能となる。
(従来例)(a)翻訳前のWebページの一部,(b)翻訳後のWebページの一部を示す図である。 実施形態に係るシステムの構成例を示す図である。 (a−1)翻訳前のWebページの一部,(a−2)翻訳前のWebページが有する不可視化された画像データ,(a−3)翻訳前のWebページが有する不可視化されたテキストデータ,(b)翻訳後のWebページの一部を示す図である。 図2に示すシステムの機械翻訳手順を示すシーケンスチャートである。 翻訳要求の主要な項目を示す図である。 (a)翻訳前のHTMLソースの一部,(b)翻訳後のHTMLソースの一部を示す図である。 翻訳処理の流れを示すフローチャートである。 (変形例1)(a)翻訳前のWebページの一部,(b)翻訳後のWebページの一部を示す図である。 (変形例2)(a−1)翻訳前のWebページの一部,(a−2)翻訳前のWebページが有する不可視化されたデータ,(b)翻訳後のWebページの一部を示す図である。 (変形例1)(a)翻訳前のHTMLソースの一部,(b)翻訳後のHTMLソースの一部を示す図である。 (変形例1)翻訳処理の流れを示すフローチャートである。 (変形例2)(a)翻訳前のHTMLソースの一部,(b)翻訳後のHTMLソースの一部を示す図である。 (変形例2)翻訳処理の流れを示すフローチャートである。 (他の実施形態)システム構成の変形例を示す図である。 (他の実施形態)システム構成の変形例を示す図である。 (他の実施形態)HTMLデータのソースの記載例である。 (他の実施形態)スタイルシートのソースの記載例である。 (他の実施形態)日本語のWebページの表示例である。 (他の実施形態)不可視化された背景画像の一例である。 (他の実施形態)不可視化された日本語のテキストの一例である。 (他の実施形態)英語のWebページの表示例である。 (他の実施形態)中国語のWebページの表示例である。 (他の実施形態)韓国語のWebページの表示例である。
<定義>
以下の説明中で使用される用語の意義は、それぞれ次の定義の通りとする。
・機械翻訳…コンピュータ等を利用して人手を介さず自動的に行う翻訳。
・可視化…ユーザが視認できるようにする処理を包含する概念。
・不可視化…ユーザが視認できないようにする処理を包含する概念。例えば、非表示に設定する,透明に設定する,要素を削除する,要素をコメントアウトする等の処理形態が考えられる。
<実施形態>
[1.実施形態の概要]
本実施形態の概要を、図2〜図7を参照して説明する。本実施形態のシステムは、Webページを閲覧するユーザに対し、Webページ内に第1の言語(所定の言語)で表示されている部分を、各ユーザが指定(選択)した第2の言語(他の言語)に翻訳するサービス(機械翻訳サービス)を提供するシステムである。なお、以下の説明では、Webページ内の日本語の部分を英語に翻訳する例を用いている。
[1−1.システムの構成]
図2に示すように、本実施形態のシステムは、全体として、Webページを提供するWebサーバ11,翻訳処理を行う翻訳サーバ12及びWebブラウザを有するユーザ端末20により構成される。Webサーバ11は、Webページの構造を記述するHTMLデータ及び当該HTMLデータが参照するデータ(例えば、画像データ)を少なくとも記憶するWebDB(Webデータ記憶手段)13に接続可能である。一方、翻訳サーバ12は、Webページの機械翻訳処理において参照する辞書データを少なくとも記憶する翻訳DB(翻訳データ記憶手段)14に接続可能である。
Webサーバ11及び翻訳サーバ12は、CPU、ROM、RAM、ハードディスク及び通信装置等を備える一般的なコンピュータとして構成され、ユーザ端末20は、上記構成要素の他にユーザからの操作を受け付ける操作部及びWebページを表示可能な表示部を備えて構成される。
なお、翻訳DB14に記憶する辞書データは、語彙や文法を定義したデータや、統計的学習手法により構築したモデルを含んでいるものとする。また、特定の語句に対する特定の訳語を定めたデータを記憶していてもよい。本実施形態においては、WebDB13,翻訳DB14をWebサーバ11,翻訳サーバ12にそれぞれ接続された外部の記憶装置に構築しているが、記憶している情報の読出しが可能であればWebサーバ11又は翻訳サーバ12に内蔵された記憶装置に構築してもよい。
Webサーバ11と翻訳サーバ12は、通信ネットワーク(本実施形態ではLAN等のプライベートネットワーク)により互いに接続し、機械翻訳システム10を形成している。また、ユーザ端末20は、通信ネットワーク(本実施形態ではインターネット30)を介してWebサーバ11及び翻訳サーバ12とそれぞれ接続可能である。なお、Webサーバ11,翻訳サーバ12,ユーザ端末20の間の通信は、ルータ40により制御される。
[1−2.実施形態の主要な特徴]
実施形態の主要な特徴は、文字を含み可視化されている画像の参照データ(URL)と、当該画像の表示位置に対応する領域に表示位置が設定され、かつ文字を含まず不可視化されている画像(背景画像)及びテキストデータとを少なくとも1組含むHTMLデータをWebDB13に記憶しておき、翻訳処理において当該不可視化されていた背景画像データ及びテキストデータを、テキストデータの表示位置が背景画像の表示位置よりも手前に位置するようにして可視化するとともに、当該可視化されていた画像データを不可視化する点にある。
このように、Webページを部分的に3層構成(可視化され文字を含む画像のレイヤ、不可視化され文字を含まない背景画像のレイヤ、及び不可視化されたテキストのレイヤ)にしておくことで、翻訳前にあっては文字を含む画像を表示することができるので、見た目も美しい上に表示速度が速い。また、翻訳処理において表示される要素を切り替えることにより、当該Webページ(HTMLデータ)を機械翻訳にかけたとき、文字を含む画像が表示されていた領域に背景画像及び翻訳後のテキストが表示されるようになる。よって、画像内の文字が翻訳されずにそのまま表示される事象を解消できるとともに、翻訳処理前後において翻訳対象ページの視覚的な体裁を保つことが可能となる。
図3に、実施形態における翻訳前後のWebページの一部を示す。翻訳前のWebページには、通常のテキスト510aと、日本語の文字を含む画像520とが表示される(図3(a−1))。また、翻訳前のWebページは、画像520の表示位置と対応する領域(又は画像520と重なる領域)に表示位置が設定され、かつ文字を含まず不可視化された画像540を有している(図3(a−2))。さらに、画像540に重なる領域に表示位置が設定され、かつ不可視化された日本語のテキストデータ530aを有している(図3(a−3))。
一方、翻訳後のWebページには、テキスト510aが英語に翻訳されたテキスト510bと、画像540と、テキスト530aが英語に翻訳されたテキスト530bとが表示される(図3(b))。なお、画像520は不可視化されているため、翻訳後のWebページ内では視認できない。
[2.機械翻訳の手順]
[2−1.機械翻訳手順の概要]
本実施形態のシステムによる機械翻訳処理の流れ及びデータの流れを、図4のシーケンスチャートを参照して簡単に説明する。図4に示すように、機械翻訳システム10を構成するWebサーバ11及び翻訳サーバ12は、下記〔手順1〕〜〔手順4〕によりユーザ端末20に翻訳後のWebページを表示させる。なお、図4のシーケンスチャートには、参照する他の図面の番号が付記されている。また、手順1の実行前に、Webサーバ11により、Webページの構造を記述するHTMLデータ及び当該HTMLデータにより参照されるデータがWebDB13に記憶され、翻訳サーバ12により、Webページの機械翻訳処理において参照される辞書データが翻訳DB14に記憶されているものとする。
〔手順1〕
前提として、ユーザ端末20は、Webサーバ11から提供されたWebページを表示しているものとし(S505a)、当該Webページを翻訳対象のWebページとする(図3(a−1))。また、翻訳対象のWebページには、翻訳後の言語を選択し翻訳を要求するための要素(例えば、プルダウン,ラジオボタン,プルダウン又はラジオボタンとボタン又は画像又はリンクとの組)が表示されているものとする。翻訳対象のWebページにおいてユーザが翻訳後の言語を指定(選択)し、翻訳を要求する所定の操作を行うと、ユーザ端末20は、翻訳サーバ12にWebページの翻訳を要求する(S510a)。
図5に、翻訳要求の主要な項目を例示する。翻訳要求には、「翻訳処理プログラムのURL」,「翻訳対象WebページのURL」,「第1言語(翻訳対象Webページの言語)の指定データ」,「第2言語(翻訳先の言語)の指定データ」及び「テキストデータの文字コード」が含まれる。本実施形態では、「翻訳対象WebページのURL」以下をURLパラメータとするHTTPリクエストを翻訳要求としている。なお、図5に示す各項目を他の形式で送信してもよい。
〔手順2〕
翻訳サーバ12は、ユーザ端末20から翻訳要求を受信する(S510b,翻訳要求受信ステップ)と、受信した「翻訳対象WebページのURL」に対応するHTMLデータの送信をWebサーバ11に要求する(S515b)。Webサーバ11は、翻訳サーバ12からHTMLデータの送信要求を受信する(S515c)と、受信した「翻訳対象WebページのURL」に対応するHTMLデータ(翻訳前のHTMLデータ)をWebDB13より読み出し又は生成して、翻訳サーバ12に送信する(S520c,HTMLデータ取得ステップ)。
〔手順3〕
翻訳サーバ12は、Webサーバ11から翻訳前のHTMLデータを受信する(S520b)と、受信した翻訳前のHTMLデータを対象として機械翻訳処理を実行し、翻訳後のHTMLデータすなわち再構成されたHTMLデータをユーザ端末20に送信する(S525b,翻訳済HTMLデータ送信ステップ)。なお、機械翻訳処理の流れ及び翻訳前後のHTMLデータについては、別に項目を設けて詳細に説明する(後述の図6,7参照)。
〔手順4〕
ユーザ端末20は、翻訳サーバ12から翻訳後のHTMLデータを受信する(S525a)と、受信したHTMLデータを解釈して画像なしのWebページを表示する(S530a)とともに、当該HTMLデータが参照している画像データの送信をWebサーバ11に要求する(S535a)。Webサーバ11は、画像データの送信要求を受信する(S535c)と、指定された画像データをWebDB13より読み出し、ユーザ端末20に送信する(S540c,画像データ送信ステップ)。ユーザ端末20は、Webサーバ11から画像データを受信する(S540a)と、既に表示されているWebページ内の所定の位置に画像を追加表示する(S545a)。表示完了後のWebページは、前述のとおりである(図3(b))。
以上のように、本実施形態では、翻訳サーバ12が、翻訳要求受信手段及び翻訳済HTMLデータ送信手段として機能し、Webサーバ11が、HTMLデータ取得手段及び画像データ送信手段として機能する。
[2−2.実施形態の機械翻訳処理手順等]
[(a)翻訳前のHTMLデータ]
図6(a)に、実施形態における翻訳前のHTMLデータの一部を例示する。翻訳前のHTMLデータには、日本語のテキストデータ915aの他に、画像の参照データ925a,955aと、日本語のテキストデータ935aとが含まれている。また、いくつかのタグには、スタイルシート(CSS形式)によりスタイルが設定されている。テキストデータ915a,画像の参照データ925aは、それぞれ翻訳前のWebページ(図3(a−1))のテキスト510a,画像520に対応する。また、画像の参照データ955a,テキストデータ935aは、翻訳前のWebページが有する不可視化された画像データ540(図3(a−2)),テキストデータ530a(図3(a−3))に対応する。
画像の参照データ925aが参照する画像は、所定の領域(幅840ピクセル,高さ120ピクセル)の上から0ピクセル,左から0ピクセルの位置に左上の頂点を合わせて、幅840ピクセル,高さ120ピクセルで表示されるように設定されている。
一方、画像の参照データ955aが参照する画像は、上記所定の領域(幅840ピクセル,高さ120ピクセル)の上から0ピクセル,左から0ピクセルの位置に左上の頂点を合わせて、幅840ピクセル,高さ120ピクセルで表示されるように設定されている。すなわち当該画像の表示位置は、参照データ925aが参照する画像と同一の位置に設定されている。ただし、参照データ955aに対応する画像は不可視化されている(表示属性の値が非表示(hidden)に設定されている)ため、Webブラウザのウィンドウ内では視認できない。そして、テキストデータ935aに対応するテキストは、上記所定の領域(幅840ピクセル,高さ120ピクセル)の上から30ピクセルの位置に表示されるように設定されている(ここでは、センタリング等)。すなわち当該テキストの表示位置は、参照データ955aが参照する画像と同一の位置に設定されている。ただし、テキストデータ935aに対応するテキストは不可視化されている(文字色属性の値が透明(transparent)に設定されている)ため、Webブラウザのウィンドウ内では視認できない。
なお、Webページ内の要素はHTMLの記述順に重なる(後ろに記述された要素が前面に表示される)ため、図6(a)の例では特に設定していないが、重ね合わせの順序を明示的に設定してもよい。重ね合わせ順序は、例えば「z-index」属性の値(数値)の大小により設定することができる。
[(b)翻訳処理]
実施形態における翻訳処理の流れを、図7のフローチャートを参照して詳細に説明する。図7に示すように、翻訳サーバ12は、下記〔手順31〕〜〔手順34〕によりHTMLデータを翻訳する。
〔手順31〕
HTMLデータの基準URLを変更する(S810)。具体的には、相対URL形式で記述された参照データ等(例えば、参照データ925a,955a(図6(a))中のsrc属性の値)のURLが基準とするURLを、<base>タグのhref属性の値として絶対URL形式で記述する。ここでは、ユーザ端末20から受信した検索要求(図5)に含まれる「翻訳対象WebページのURL」を基準URLとする。なお、HTMLデータ内のURLが全て絶対URL形式で記述されているという前提であれば、基準URLを変更する処理を省略してもよい。また、相対URL形式で記述された全てのURLを個別に絶対URL形式に書き換えても同一の効果を得ることができる。
〔手順32〕
HTMLデータ内で要素(エレメント)の内容(コンテンツ)となっているテキストデータを1つ抽出し(S820)、抽出したテキストデータ(原文)を「第1言語」から「第2言語」へと翻訳して翻訳文を生成する(S830,翻訳ステップ)。なお、翻訳サーバ12は、テキストの翻訳に当たり翻訳DB14に記憶している辞書データを参照する。
〔手順33〕
必要に応じて翻訳文のサイズを補正し(S840)、抽出したテキストデータを翻訳文に置換する(S850)。例えば、翻訳前後の文字列長を比較した上で翻訳文の長さを補正するとよい。具体的には、翻訳前後の文字列長の差分が所定の値以上(一定値以上)の場合には、差分に応じて翻訳文の長さを短く補正する。なお、所定の条件を満たす語句を翻訳文中から抽出し、所定の方法により生成した省略語に置換してもよい。この場合、省略語の定義を掲載したWebページを別途生成した上で、翻訳後のWebページには省略語の定義を掲載したWebページへのリンクを表示するとよい。また、省略語にポインタを合わせたときに省略対象語句がポップアップ表示されるように構成してもよい。
〔手順34〕
翻訳したテキストデータが、HTMLデータ内で要素の内容となっている最後のテキストデータか否かを判定する(S860)。具体的には、HTMLデータ内で要素の内容となっている次のテキストデータを検索し、次のテキストデータが検出されないときに、直前に翻訳したテキストデータが最後のテキストデータであると判定する。最後のテキストデータでないとき(S860でNo)、上記〔手順32〕に戻り、次のテキストデータについて抽出〜置換の処理(〔手順32〕〜〔手順33〕)を繰り返す。一方、最後のテキストデータであるとき(S860でYes)、ループを抜ける。
〔手順35〕
不可視化されている全ての翻訳文を可視化する(S1070,可視化要素切替ステップ)とともに、不可視化されている全ての画像を可視化する(S1075,可視化要素切替ステップ)。例えば、図6(a)の例では、class属性の値が「class_11」である「<div>」タグのclass属性を削除する。これにより、テキストデータ935aに対応するテキスト(明示的に不可視化されていたテキスト)は、英語に翻訳された状態で親要素の属性を継承して可視化される(文字色属性が透明から有色に変更される)。また、class属性の値が「class_22」である「<img>」タグのclass属性の値を「class_21」に変更する。これにより、画像の参照データ955aに対応する画像(明示的に不可視化されていた背景画像)は、明示的に可視化される(表示属性が非表示から表示に変更される)。そして、S1070,S1075の処理で可視化された翻訳文又は図面と重なる全ての画像を不可視化する(S1085,可視化要素切替ステップ)。例えば、図6(a)の例では、class属性の値が「class_21」である「<img>」タグのclass属性の値を「class_22」に変更する。これにより、画像の参照データ925aに対応する画像(明示的に可視化されていた画像)は、明示的に不可視化される(表示属性が表示から非表示に変更される)。なお、翻訳文の可視化及び/又は画像の不可視化は、上記のようにクラス属性を一括で適用して行ってもよいし、該当するタグごとに個別に行ってもよい。
[(c)翻訳後のHTMLデータ]
図6(b)に、実施形態における翻訳後のHTMLデータの一部を例示する。図6(b)は、図6(a)のHTMLデータを図7のフローチャートに示す処理により翻訳した後のHTMLデータである。
翻訳後のHTMLデータには、テキストデータ915aが英語に翻訳されたテキストデータ915b,参照データ925aが不可視化された参照データ925b,参照データ955aが可視化された参照データ955b,テキストデータ935aが英語に翻訳され可視化されたテキストデータ935bが含まれている。また、基準URLを明示するタグ945bが追加されている。テキストデータ915b,テキストデータ935bは、それぞれ翻訳後のWebページ(図3(b))のテキスト510b,テキスト530bに対応する。なお、テキストデータ915bの文字サイズは、上記〔手順33〕の補正処理(図7のS840)により通常の90%に補正されている。その他のデータの設定には、特に明示したものを除き変更がない。
以上のように、本実施形態では、翻訳サーバ12が、翻訳手段及び可視化要素切替手段として機能する。
[3.変形例等]
[3−1.変形例の概要]
以下、2つの変形例を説明する。なお、変形例1,2のシステムは、実施形態のシステムと同様に構成されており、機械翻訳処理の流れ及び翻訳前後のHTMLデータのみが相違する。よって、以下では説明理解の容易性を考慮して相違点を中心に説明する。
[(a)変形例1の主要な特徴]
変形例1の主要な特徴は、文字を含まない画像の参照データ(URL)と、当該画像に重なる領域の前面に表示位置が設定されたテキストデータとの組を少なくとも1組含むHTMLデータをWebDB13に記憶しておく点にある。このように、Webページを部分的に2層構成(文字を含まない画像のレイヤ及びテキストのレイヤ)にしておくことにより、当該Webページ(HTMLデータ)を機械翻訳にかけたとき、文字を含まない画像に重なる領域の前面に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示される事象が解消される。
図8に、変形例1における翻訳前後のWebページの一部を示す。翻訳前のWebページには、日本語の通常のテキスト310aの他に、文字を含まない画像320と、画像320に重なる領域の前面に表示位置が設定された日本語のテキスト330aとが表示される(図8(a))。一方、翻訳後のWebページには、テキスト310aが英語に翻訳されたテキスト310bと、翻訳前後において変化しない画像320と、テキスト330aが英語に翻訳されたテキスト330bが表示される(図8(b))。
[(b)変形例2の主要な特徴]
変形例2の主要な特徴は、文字を含み可視化されている画像の参照データ(URL)と、当該画像に重なる領域に表示位置が設定され、かつ不可視化されているテキストデータとを少なくとも1組含むHTMLデータをWebDB13に記憶しておき、翻訳処理において当該不可視化されているテキストデータを可視化するとともに、当該可視化されている画像データを不可視化する点にある。このように、Webページを部分的に2層構成(文字を含む画像のレイヤ及び不可視化されたテキストのレイヤ)にしておき、翻訳処理において表示されるレイヤを切り替えることにより、当該Webページ(HTMLデータ)を機械翻訳にかけたとき、文字を含む画像が表示されていた領域に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示される事象が解消される。
図9に、変形例2における翻訳前後のWebページの一部を示す。翻訳前のWebページには、日本語の通常のテキスト410aと、文字を含む画像420とが表示される(図9(a−1))。また、翻訳前のWebページは、画像420に重なる領域に表示位置が設定され、かつ不可視化された日本語のテキストデータ430aを有している(図9(a−2))。一方、翻訳後のWebページには、テキスト410aが英語に翻訳されたテキスト410bと、テキスト430aが英語に翻訳されたテキスト430bが表示される(図9(b))。なお、画像420は不可視化されているため、翻訳後のWebページ内では視認できない。
[(c)変形例の機械翻訳手順等]
変形例のシステムによる機械翻訳処理の流れ及びデータの流れは、実施形態のシステムによる機械翻訳処理の流れ及びデータの流れと同様である(図4)。また、翻訳要求の主要な項目についても同様である(図5)。
[3−2.変形例1の翻訳処理等]
[(a)翻訳前のHTMLデータ]
図10(a)に、変形例1における翻訳前のHTMLデータの一部を例示する。翻訳前のHTMLデータには、日本語のテキストデータ710aの他に、画像の参照データ720と、日本語のテキストデータ730aとが含まれている。また、いくつかのタグには、スタイルシート(CSS形式)によりスタイルが設定されている。テキストデータ710a,画像の参照データ720,テキストデータ730aは、それぞれ翻訳前のWebページ(図8(a))のテキスト310a,画像320,テキスト330aに対応する。
画像の参照データ720が参照する画像は、所定の領域(幅840ピクセル,高さ120ピクセル)の上から0ピクセル,左から0ピクセルの位置に左上の頂点を合わせて、幅840ピクセル,高さ120ピクセルで表示されるように設定されている。一方、テキストデータ730aに対応するテキストは、上記所定の領域(幅840ピクセル,高さ120ピクセル)の上から30ピクセルの位置に通常通りに表示されるように設定されている(ここでは、センタリング等)。したがって、上記の所定の領域において、画像とテキストは重なって表示される。なお、Webページ内の要素はHTMLの記述順に重なる(後ろに記述された要素が前面に表示される)ため図10(a)の例では特に設定していないが、重ね合わせの順序を明示的に設定してもよい。重ね合わせ順序は、例えば「z-index」属性の値(数値)の大小により設定することができる。
[(b)翻訳処理]
変形例1における翻訳処理の流れを、図11のフローチャートで示す。なお、図11のフローチャートにおいて、図7のフローチャートに示した処理と同一の符号が付されている処理は、同一の処理を示す。図11に示すように、翻訳サーバ12は、上記〔手順31〕〜〔手順34〕(実施形態と同様)によりHTMLデータを翻訳する。
[(c)翻翻訳後のHTMLデータ]
図10(b)に、変形例1における翻訳後のHTMLデータの一部を例示する。図10(b)は、図10(a)のHTMLデータを図11のフローチャートに示す処理により翻訳した後のHTMLデータである。
翻訳後のHTMLデータには、テキストデータ710aが英語に翻訳されたテキストデータ710b,翻訳前後において変化しない画像の参照データ720,テキストデータ730aが英語に翻訳されたテキストデータ730bが含まれている。また、基準URLを明示するタグ740bが追加されている。テキストデータ710b,画像の参照データ720,テキストデータ730bは、それぞれ翻訳後のWebページ(図8(b))のテキスト310b,画像320,テキスト330bに対応する。なお、テキストデータ710bの文字サイズは、上記〔手順33〕の補正処理(図11のS840)により通常の90%に補正されている。その他のデータの設定には特に変更がない。
[3−3.変形例2の翻訳処理等]
[(a)翻訳前のHTMLデータ]
図12(a)に、変形例2における翻訳前のHTMLデータの一部を例示する。翻訳前のHTMLデータには、日本語のテキストデータ910aの他に、画像の参照データ920aと、日本語のテキストデータ930aとが含まれている。また、いくつかのタグには、スタイルシート(CSS形式)によりスタイルが設定されている。テキストデータ910a,画像の参照データ920aは、それぞれ翻訳前のWebページ(図9(a−1))のテキスト410a,画像420に対応する。また、テキストデータ930aは、翻訳前のWebページが有する不可視化されたテキストデータ430a(図9(a−2))に対応する。
画像の参照データ920aが参照する画像は、所定の領域(幅840ピクセル,高さ120ピクセル)の上から0ピクセル,左から0ピクセルの位置に左上の頂点を合わせて、幅840ピクセル,高さ120ピクセルで表示されるように設定されている。一方、テキストデータ930aに対応するテキストは、上記所定の領域(幅840ピクセル,高さ120ピクセル)の上から30ピクセルの位置に通常通りに表示されるように設定されている(ここでは、センタリング等)。ただし、テキストデータ930aに対応するテキストは不可視化されている(文字色属性の値が透明(transparent)に設定されている)ため、Webブラウザのウィンドウ内では視認できない。
[(b)翻訳処理]
変形例2における翻訳処理の流れを、図13のフローチャートを参照して説明する。図13に示すように、翻訳サーバ12は、上記〔手順31〕〜〔手順34〕(実施形態及び変形例1と同様)に加え、下記〔手順36〕によりHTMLデータを翻訳する。なお、図13のフローチャートにおいて、図7のフローチャートに示した処理と同一の符号が付されている処理は、同一の処理を示す。
〔手順36〕
不可視化されている全ての翻訳文を可視化する(S1070)とともに、可視化した翻訳文と重なる全ての画像を不可視化する(S1080)。例えば、図12(a)の例では、class属性の値が「class_11」である「<div>」タグのclass属性を削除する。これにより、テキストデータ930aに対応するテキスト(明示的に不可視化されていたテキスト)は、親要素の属性を継承して可視化される(文字色属性が透明から有色に変更される)。また、class属性の値が「class_21」である「<img>」タグのclass属性の値を「class_22」に変更する。これにより、画像の参照データ920aに対応する画像(明示的に可視化されていた画像)は、明示的に不可視化される(表示属性が表示から非表示に変更される)。なお、翻訳文の可視化及び/又は画像の不可視化は、上記のようにクラス属性を一括で適用して行ってもよいし、該当するタグごとに個別に行ってもよい。
[(c)翻訳後のHTMLデータ]
図12(b)に、変形例2における翻訳後のHTMLデータの一部を例示する。図12(b)は、図12(a)のHTMLデータを図13のフローチャートに示す処理により翻訳した後のHTMLデータである。
翻訳後のHTMLデータには、テキストデータ910aが英語に翻訳されたテキストデータ910b,参照データ920aが不可視化された参照データ920b,テキストデータ930aが英語に翻訳され可視化されたテキストデータ930bが含まれている。また、基準URLを明示するタグ940bが追加されている。テキストデータ910b,テキストデータ930bは、それぞれ翻訳後のWebページ(図9(b))のテキスト410b,テキスト430bに対応する。なお、テキストデータ910bの文字サイズは、上記〔手順33〕の補正処理(図13のS840)により通常の90%に補正されている。その他のデータの設定には、特に明示したものを除き変更がない。
[3−4.システム構成の変形例]
[(a)翻訳サーバが遠隔地にある構成]
上述の実施形態及び変形例では、Webサーバ11と翻訳サーバ12とをLAN等のプライベートネットワークを介して接続している(図2)。これは、両サーバが同一の事業者の管理下にあることを想定した構成である。これに対し、図14に示すように、Webサーバ11と翻訳サーバ12とをインターネット30等のパブリックネットワークを介して接続してもよい。これは、Webサーバ11又は翻訳サーバ12が遠隔地(例えば、他の事業所,遠隔地のデータセンター,他の事業者の管理下等)にあることを想定した構成である。
[(b)Webサーバが翻訳処理機能を備える構成]
上述の実施形態及び変形例では、Webサーバ11と翻訳サーバ12とにより機械翻訳システム10を構成している(図2)。これは、ハードウェアごとに特定の処理機能に特化し、負荷分散を図った構成である。これに対し、機械翻訳処理の全てのステップをWebサーバ11が実行するように構成してもよい。この場合、図15に示すように、Webサーバ11はWebDB13と翻訳DB14とを有する。また、ユーザ端末20から翻訳要求を受信して、翻訳対象のHTMLデータを取得し、翻訳処理を実行し、翻訳後のHTMLデータ及び必要な画像データを送信する処理の主体は、全てWebサーバ11となる。
[3−5.処理分担の変形例]
上述の実施形態及び変形例では、Webサーバ11はHTMLデータ又は画像データを送信する処理に特化している。同様に、翻訳サーバ12はユーザ端末20から翻訳要求を受信して翻訳後のHTMLデータを生成し、ユーザ端末20に送信する処理に特化している(図4)。これに対し、ユーザ端末20から翻訳要求を受信する処理及び翻訳後のHTMLデータをユーザ端末20に送信する処理をWebサーバ11が担当することとし、翻訳サーバ12はWebページの翻訳処理(図7,図11,図13のS810〜S860)のみに特化するように構成してもよい。
[3−6.機械翻訳プログラム]
上述の実施形態及び変形例では、機械翻訳システム又は機械翻訳方法について説明したが、本発明は、上記の機械翻訳システムが備える各手段を1又は複数のコンピュータに機能として実現させるための機械翻訳プログラムとして提供されてもよい。この機械翻訳プログラムは、例えば、メインモジュールの他、各手段にそれぞれ対応するモジュールを備えて構成される。また、機械翻訳プログラムは、ROM等の記録媒体又は半導体メモリ等によって提供される。また、機械翻訳プログラムは、データ信号としてネットワークを介して提供されてもよい。
[3−7.スタイル設定の変形例]
[(a)不可視化されているテキストの可視化の変形例]
不可視化されているテキストを可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素のvisibility属性(表示属性)を「hidden」から「visible」(デフォルト)に変更する。
・テキストデータそのもの又は該テキストデータを内容とする要素全体を挟んでいるコメントタグを削除する。
[(b)不可視化されている画像の可視化の変形例]
不可視化されている画像を可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素のvisibility属性(表示属性)を「visible」(デフォルト)から「hidden」に変更する。
・画像データそのもの又は該画像データを内容とする要素全体を挟んでいるコメントタグを削除する。
・<div>要素又は<img>タグのdisplay属性(表示形式)を「none」から「block」に変更する。
[(c)可視化されている画像の不可視化の変形例]
可視化されている画像を不可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素全体又は<img>タグをコメントタグで挟む(コメントアウトする)。
・<div>要素全体又は<img>タグを削除する。
・<div>要素のvisibility属性(表示属性)を「visible」(デフォルト)から「hidden」に変更する。
・<div>要素又は<img>タグのdisplay属性(表示形式)を「none」に変更する。
[(d)不可視化の概念]
上述の実施形態及び変形例2では、不可視化という用語を、「全く視認できない」ようにする処理を包含する概念として用いている。これに対し、半透明に設定する,透過性を高める,グレイアウトする,極めて薄い色に設定する(RGBの各値をいずれも概ね200以上に設定する)等、ユーザが「殆ど視認できない」ようにする処理によっても、「不可視化」と同様の効果を奏する場合がある。したがって、これらの処理も「不可視化」と実質的に等価である。
[3−8.スタイル設定の変形例]
上述の変形例1では、HTMLのタグに個別にスタイルを設定している(図10)。また、上述の実施形態及び変形例2では、HTMLソース内で定義したスタイルを特定のクラス名が付された全てのタグに適用するようにしている(図6,図12)。これに対し、所定のスタイルシート言語(例えば、CSS(Cascading Style Sheets))で記述した外部ファイルを参照することによりスタイルを適用してもよい。また、スタイルを全てHTMLタグの属性により設定してもよい。
[4.ソースコードの記載例,Webページの表示例]
以下では日本語のWebページを他の言語(英語、中国語又は韓国語)に翻訳する場合を一例として説明する。図16に機械翻訳前におけるHTMLのソースの例を示す。図16に例示するHTMLのソースでは、図17に例示するスタイルシートのソース(ファイル名「test.css」)が関連付けされている。HTMLデータ中のテキストの表示位置は、図19に例示する背景画像(ファイル名「test.gif」)に合わせて、図20に例示するようにそれぞれ設定されている。なお、図20は、最上部の白色文字が明確になるように背景を灰色にして示した。
図18に、図16に例示するHTMLのソースをWebブラウザに読み込んだWebページ表示例を示す。翻訳前のWebページでは、日本語を含む画像(ファイル名「first.gif」)が可視化されるとともに、図19に例示する背景画像及び図20に例示するテキストは不可視化される。このように、画像、背景画像及び文字部分を分離して3層構成(画像のレイヤ,背景画像のレイヤ,テキストのレイヤ)にすることで、翻訳前のWebページは文字を含む画像のみにより表示することができるので、見た目も美しい上に表示速度が速い。
翻訳処理時においては、画像のレイヤから背景画像のレイヤ及びテキストのレイヤへ切り替えて、テキストのレイヤを用いて翻訳する。これにより、文字部分のみを機械翻訳の対象にすることができる。図21〜23に翻訳後の表示例を示す。図21は英語に翻訳された表示例、図22は中国語に翻訳された表示例、図23は韓国語に翻訳された表示例である。図21〜23に示す表示例は、文字と一体化された画像(図18)と比較しても、十分な表現性を備えており、翻訳前後において視覚的な体裁が保持されている。
10 機械翻訳システム
11 Webサーバ
12 翻訳サーバ
13 WebDB
14 翻訳DB
20 ユーザ端末
30 インターネット
40 ルータ

Claims (9)

  1. 所定の言語で表現された翻訳対象のWebページを他の言語へ翻訳し、翻訳された前記Webページを提供する機械翻訳システムであって、
    翻訳対象の前記Webページの構造が記述されたHTMLデータ及び該HTMLデータにより参照される画像データを記憶するWebデータ記憶手段と、
    テキストの翻訳処理に利用される辞書データを記憶する翻訳データ記憶手段と
    に接続可能であり、
    前記HTMLデータは、文字を含み可視化された画像に関する記述、該画像の表示位置と対応する所定位置に表示位置が設定され、文字を含まず不可視化された背景画像に関する記述、及び、該背景画像に重なる所定位置の前面に表示位置が設定され、不可視化された所定の言語のテキストに関する記述を組として含み、
    翻訳対象の前記Webページに対応するURL及び翻訳先の言語を指定する指定データを含む翻訳要求を、前記Webページを閲覧するユーザの端末から受信する翻訳要求受信手段と、
    前記翻訳要求に含まれる前記URLに対応する前記Webページの構造が記述された前記HTMLデータを前記Webデータ記憶手段から取得するHTMLデータ取得手段と、
    前記翻訳データ記憶手段により記憶された前記辞書データを参照して、前記HTMLデータ取得手段により取得された前記HTMLデータに含まれるテキストを前記翻訳要求に含まれる前記指定データに対応する翻訳先の言語へ翻訳する翻訳手段と、
    前記HTMLデータ取得手段により取得された前記HTMLデータに含まれる不可視化されたテキスト及び前記背景画像を可視化するとともに、該HTMLデータに含まれる可視化された前記画像を不可視化する可視化要素切替手段と、
    前記翻訳手段により翻訳されたテキストを用いて前記HTMLデータ取得手段により取得された前記HTMLデータを再構成し、前記端末に送信する翻訳済HTMLデータ送信手段と、
    前記端末からの前記画像データを指定した送信要求に応じて、指定された前記画像データを前記Webデータ記憶手段から読み出して該端末に送信する画像データ送信手段と
    を備えることを特徴とする機械翻訳システム。
  2. 前記可視化要素切替手段は、テキストの文字色属性を透明から有色に変更し、テキストを含む領域の表示属性を非表示から表示に変更し又はテキストを含む領域のタグを挟むコメントタグを削除する、ことにより不可視化されたテキストを可視化する請求項1に記載の機械翻訳システム。
  3. 前記可視化要素切替手段は、前記背景画像の表示属性を非表示から表示に変更し、前記背景画像を含む領域の表示属性を非表示から表示に変更し、前記背景画像に対応するタグを挟むコメントタグを削除する、ことにより不可視化された前記背景画像を可視化する請求項1又は2に記載の機械翻訳システム。
  4. 前記可視化要素切替手段は、前記画像の表示属性を表示から非表示に変更し、前記画像に対応するタグを削除し、前記画像に対応するタグをコメントタグで挟み、前記画像を含む領域の表示属性を表示から非表示に変更し又は前記画像を含む領域に対応するタグをコメントタグで挟む、ことにより可視化された前記画像を不可視化する請求項1〜3の何れか一項に記載の機械翻訳システム。
  5. 前記翻訳済HTMLデータ送信手段は、前記HTMLデータ取得手段により取得された前記HTMLデータの基準URLを、前記翻訳要求に含まれる翻訳対象の前記Webページの前記URLに変更する請求項1〜4の何れか一項に記載の機械翻訳システム。
  6. 前記翻訳済HTMLデータ送信手段は、前記翻訳手段により翻訳されたテキストの長さが前記HTMLデータ取得手段により取得された前記HTMLデータに含まれる所定のテキストの長さと比較して一定値以上長い場合には、前記翻訳手段により翻訳されたテキストの長さを短く補正する請求項1〜5の何れか一項に記載の機械翻訳システム。
  7. 所定の言語で表現された翻訳対象のWebページのテキストを他の言語へ翻訳し、翻訳された前記Webページを提供する機械翻訳システムによる機械翻訳方法であって、
    前記機械翻訳システムは、翻訳対象の前記Webページの構造が記述されたHTMLデータ及び該HTMLデータにより参照される画像データを記憶するWebデータ記憶手段と、
    テキストの翻訳処理に利用される辞書データを記憶する翻訳データ記憶手段と
    に接続可能であり、
    前記HTMLデータは、文字を含み可視化された画像に関する記述、該画像の表示位置と対応する所定位置に表示位置が設定され、文字を含まず不可視化された背景画像に関する記述、及び、該背景画像に重なる所定位置の前面に表示位置が設定され、不可視化された所定の言語のテキストに関する記述を組として含み、
    前記機械翻訳システムが、
    翻訳対象の前記Webページに対応するURL及び翻訳先の言語を指定する指定データを含む翻訳要求を、前記Webページを閲覧するユーザの端末から受信する翻訳要求受信ステップと、
    前記翻訳要求に含まれる前記URLに対応する前記Webページの構造が記述された前記HTMLデータを前記Webデータ記憶手段から取得するHTMLデータ取得ステップと、
    前記翻訳データ記憶手段により記憶された前記辞書データを参照して、前記HTMLデータ取得ステップにより取得された前記HTMLデータに含まれるテキストを前記翻訳要求に含まれる前記指定データに対応する翻訳先の言語へ翻訳する翻訳ステップと、
    前記HTMLデータ取得ステップにより取得された前記HTMLデータに含まれる不可視化されたテキスト及び前記背景画像を可視化するとともに、該HTMLデータに含まれる可視化された前記画像を不可視化する可視化要素切替ステップと、
    前記翻訳ステップにより翻訳されたテキストを用いて前記HTMLデータ取得ステップにより取得された前記HTMLデータを再構成し、前記端末に送信する翻訳済HTMLデータ送信ステップと、
    前記端末からの前記画像データを指定した送信要求に応じて、指定された前記画像データを前記Webデータ記憶手段から読み出して該端末に送信する画像データ送信ステップと
    を実行することを特徴とする機械翻訳方法。
  8. 請求項1〜6のいずれかに記載の機械翻訳システムが備える各手段を1又は複数のコンピュータに機能として実現させるための機械翻訳プログラム。
  9. コンピュータにより読み取り可能な記録媒体であって、
    請求項1〜6のいずれかに記載の機械翻訳システムが備える各手段を1又は複数のコンピュータに機能として実現させるための機械翻訳プログラムを記録した記録媒体。
JP2010542860A 2010-06-25 2010-06-25 機械翻訳システム及び機械翻訳方法 Active JP4658236B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/060882 WO2011161825A1 (ja) 2010-06-25 2010-06-25 機械翻訳システム及び機械翻訳方法

Publications (2)

Publication Number Publication Date
JP4658236B1 true JP4658236B1 (ja) 2011-03-23
JPWO2011161825A1 JPWO2011161825A1 (ja) 2013-08-19

Family

ID=43952786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010542860A Active JP4658236B1 (ja) 2010-06-25 2010-06-25 機械翻訳システム及び機械翻訳方法

Country Status (8)

Country Link
US (1) US9053077B2 (ja)
EP (1) EP2587388A4 (ja)
JP (1) JP4658236B1 (ja)
KR (1) KR101388394B1 (ja)
CN (1) CN102959537B (ja)
CA (1) CA2803861C (ja)
TW (1) TWI421710B (ja)
WO (1) WO2011161825A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012147839A1 (ja) 2011-04-28 2012-11-01 楽天株式会社 サーバ装置、サーバ装置の制御方法、プログラム、及び、記録媒体
WO2012147936A1 (ja) * 2011-04-28 2012-11-01 楽天株式会社 閲覧システム、端末、画像サーバ、プログラム、プログラムを記録したコンピュータ読み取り可能な記録媒体、及び方法
JP2013077075A (ja) * 2011-09-29 2013-04-25 Furyu Kk 画像表示システム、学習システム、画像表示方法、および制御プログラム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9465782B2 (en) 2010-07-13 2016-10-11 Motionpoint Corporation Dynamic language translation of web site content
JP5786106B2 (ja) * 2013-03-29 2015-09-30 楽天株式会社 情報処理システム、情報処理方法、データ、情報処理装置、表示装置、表示方法、プログラムおよび情報記憶媒体
US9977684B2 (en) 2013-06-12 2018-05-22 Sap Se Self-learning localization service
JP2015069365A (ja) * 2013-09-27 2015-04-13 シャープ株式会社 情報処理装置、および制御プログラム
EP3761182A4 (en) * 2018-02-26 2021-10-13 Loveland Co., Ltd. WEB PAGE TRANSLATION SYSTEM, WEB PAGE TRANSLATION DEVICE, WEB PAGE PROVIDING DEVICE AND WEB PAGE TRANSLATION PROCESS
CN110047488B (zh) * 2019-03-01 2022-04-12 北京彩云环太平洋科技有限公司 语音翻译方法、装置、设备及控制设备
US11347381B2 (en) * 2019-06-13 2022-05-31 International Business Machines Corporation Dynamic synchronized image text localization
US11494567B2 (en) * 2020-03-03 2022-11-08 Dell Products L.P. Content adaptation techniques for localization of content presentation
US11443122B2 (en) * 2020-03-03 2022-09-13 Dell Products L.P. Image analysis-based adaptation techniques for localization of content presentation
US11687626B2 (en) 2020-06-17 2023-06-27 Capital One Services, Llc System and method for securing a browser against font usage fingerprinting
CN111783482A (zh) * 2020-07-06 2020-10-16 南京百家云科技有限公司 一种文本翻译方法、装置、计算机设备及存储介质
TWI807467B (zh) * 2021-11-02 2023-07-01 中國信託商業銀行股份有限公司 要項偵測模型建立方法、業務導向要項鍵值辨識系統及方法
KR102654947B1 (ko) * 2023-07-17 2024-04-05 주식회사 페이브 다국어 웹사이트 콘텐츠를 생성하는 방법 및 전자 장치

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205671A1 (en) * 2000-09-13 2004-10-14 Tatsuya Sukehiro Natural-language processing system
JP2003122751A (ja) 2001-10-12 2003-04-25 Alps Electric Co Ltd 翻訳装置
JP2003157272A (ja) 2001-11-21 2003-05-30 Kyodo Printing Co Ltd 翻訳出版物提供システム及びその方法
US20040111272A1 (en) * 2002-12-10 2004-06-10 International Business Machines Corporation Multimodal speech-to-speech language translation and display
CN1950820A (zh) * 2004-03-02 2007-04-18 梅林格有限公司 嵌入式翻译文档方法和系统
CN1333361C (zh) * 2004-06-30 2007-08-22 高庆狮 提高文字、语音识别的准确率的方法和装置及自动翻译系统
JP4473702B2 (ja) * 2004-11-02 2010-06-02 株式会社東芝 機械翻訳システム、機械翻訳方法及びプログラム
JP4263181B2 (ja) * 2005-03-28 2009-05-13 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP2007026398A (ja) 2005-07-11 2007-02-01 Kodensha Co Ltd 画像情報または音声情報を含む文書データ翻訳システム
JP2008084286A (ja) 2006-09-01 2008-04-10 Toshiba Corp 電子漫画配信サーバ、および翻訳電子漫画作成装置
TW200933393A (en) 2008-01-25 2009-08-01 Inventec Corp Translating system and method of dynamic web page
JP5483526B2 (ja) 2008-12-26 2014-05-07 楽天株式会社 機械翻訳システム及び機械翻訳方法
JP5235135B2 (ja) 2008-12-26 2013-07-10 楽天株式会社 機械翻訳システム及び機械翻訳方法
WO2010105383A1 (en) * 2009-03-18 2010-09-23 Google Inc. Web translation with display replacement

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012147839A1 (ja) 2011-04-28 2012-11-01 楽天株式会社 サーバ装置、サーバ装置の制御方法、プログラム、及び、記録媒体
WO2012147936A1 (ja) * 2011-04-28 2012-11-01 楽天株式会社 閲覧システム、端末、画像サーバ、プログラム、プログラムを記録したコンピュータ読み取り可能な記録媒体、及び方法
JP5211266B1 (ja) * 2011-04-28 2013-06-12 楽天株式会社 閲覧システム、端末、画像サーバ、プログラム、プログラムを記録したコンピュータ読み取り可能な記録媒体、及び方法
CN103493042A (zh) * 2011-04-28 2014-01-01 乐天株式会社 浏览系统、终端机、图像服务器、程序、记录有程序的电脑可读取记录媒体及方法
CN103502962A (zh) * 2011-04-28 2014-01-08 乐天株式会社 服务器装置、服务器装置的控制方法、程序以及记录介质
CN103493042B (zh) * 2011-04-28 2016-04-06 乐天株式会社 浏览系统、图像服务器、及图像服务器执行的方法
CN103502962B (zh) * 2011-04-28 2016-06-22 乐天株式会社 服务器装置和服务器装置的控制方法
US9396392B2 (en) 2011-04-28 2016-07-19 Rakuten, Inc. Server, server control method, program and recording medium
US10013403B2 (en) 2011-04-28 2018-07-03 Rakuten, Inc. Browsing system, terminal, image server, program, computer-readable recording medium storing program, and method
JP2013077075A (ja) * 2011-09-29 2013-04-25 Furyu Kk 画像表示システム、学習システム、画像表示方法、および制御プログラム

Also Published As

Publication number Publication date
CN102959537A (zh) 2013-03-06
TW201142620A (en) 2011-12-01
CA2803861C (en) 2016-01-12
CA2803861A1 (en) 2011-12-29
CN102959537B (zh) 2015-07-22
US20130132825A1 (en) 2013-05-23
JPWO2011161825A1 (ja) 2013-08-19
US9053077B2 (en) 2015-06-09
KR20130031895A (ko) 2013-03-29
EP2587388A1 (en) 2013-05-01
TWI421710B (zh) 2014-01-01
EP2587388A4 (en) 2018-01-03
KR101388394B1 (ko) 2014-04-22
WO2011161825A1 (ja) 2011-12-29

Similar Documents

Publication Publication Date Title
JP4658236B1 (ja) 機械翻訳システム及び機械翻訳方法
JP4583218B2 (ja) 対象コンテンツを評価する方法、コンピュータ・プログラム、システム
US9047261B2 (en) Document editing method
US20150279058A1 (en) Page Rendering Method and Apparatus
US7176931B2 (en) Modifying hyperlink display characteristics
US10296308B2 (en) Automatically generating network applications from design mock-ups
JP2014006913A (ja) 翻訳情報セグメント
JP2001184344A (ja) 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置
JP5235135B2 (ja) 機械翻訳システム及び機械翻訳方法
EP2704025B1 (en) Browsing system, terminal, image server, program, computer-readable recording medium recording said program, and method
WO2014147674A1 (ja) 広告翻訳装置、広告表示装置、および広告翻訳方法
JP5483526B2 (ja) 機械翻訳システム及び機械翻訳方法
KR20090010182A (ko) 질의에 대응하는 탭을 사용하여 추가적인 정보를 제공하는방법 및 그 장치
WO2022014629A1 (ja) ウェブページ処理装置、ウェブページ処理方法、および記録媒体
US20230351091A1 (en) Presenting Intelligently Suggested Content Enhancements
JP2008191879A (ja) 情報表示装置、情報表示装置の表示方法、情報表示プログラム、および情報表示プログラムを記録した記録媒体
Dyer An examination of typographic standards and their relevance to contemporary user-centred web and application design
CN117785184A (zh) 新一代网页基础格式开发设计方法
TW201220084A (en) automatically identifying required rendering elements in a primitive electronic document, generating a list of object elements corresponding to the required rendering elements, and modifying the required rendering elements to the object elements
JP2011065458A (ja) ワークフロー表示支援装置及びワークフロー表示プログラム
Potts Accessibility
Sampaio et al. Analysis and Improvement System WebAnywhere.
MacDonald et al. Styles, Themes, and Master Pages
JP2011113459A (ja) 情報提供システム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4658236

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250