JP2017041039A - 変換装置、変換方法、及びプログラム - Google Patents

変換装置、変換方法、及びプログラム Download PDF

Info

Publication number
JP2017041039A
JP2017041039A JP2015161589A JP2015161589A JP2017041039A JP 2017041039 A JP2017041039 A JP 2017041039A JP 2015161589 A JP2015161589 A JP 2015161589A JP 2015161589 A JP2015161589 A JP 2015161589A JP 2017041039 A JP2017041039 A JP 2017041039A
Authority
JP
Japan
Prior art keywords
conversion
font size
word
translation
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015161589A
Other languages
English (en)
Inventor
昌洋 渡辺
Masahiro Watanabe
昌洋 渡辺
美佐 平尾
Misa Hirao
美佐 平尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015161589A priority Critical patent/JP2017041039A/ja
Publication of JP2017041039A publication Critical patent/JP2017041039A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】コンテンツデータ内の文字列を変換した場合の変換前後のバランスの変化を小さくすること。【解決手段】変換装置は、コンテンツデータに含まれる各文字列間の表示サイズの差と、前記各文字列について取得された1又は複数の変換候補に基づき、前記各文字列間の表示サイズの差を保つように前記各文字列に対する変換候補を選択する変換部を有する。【選択図】図5

Description

本発明は、変換装置、変換方法、及びプログラムに関する。
インターネットの普及によって、様々な情報が得られるようになってきた。インターネットの利用方法のうちの一つにウェブコンテンツの閲覧がある。ウェブコンテンツはHTML文書や画像などからなり、HTML文書で記述された通りに、テキストや画像をブラウザ上に表示するものである。インターネットを使えば、世界中に情報を発信することができる。日本企業などのウェブサイトにおいても、日本語による情報発信以外に、英語や中国語など日本語以外の言語での情報発信が行われている。また、近年は自動翻訳技術が進歩して、自動的に翻訳することもできるようになってきた。
これは、ウェブサイトの情報をいろいろな特性を持つユーザに伝わるようにするアクセシビリティの支援技術にも関連する。アクセシビリティ支援技術はこれまでも様々な研究が行われている。
特開2010−250776号公報
しかしながら、ウェブコンテンツの中の言語を他言語に翻訳し、ウェブコンテンツの構造を変えないようにすると、言語の翻訳により、ウェブコンテンツの印象が大きく変化し、情報が伝わりづらくなる可能性がある。言語翻訳以外にも、難しい言葉を易しく言い換える場合に同じ問題が生じる可能性がある。
例えば、図1のようなウェブコンテンツのナビゲーションメニューにおいて、メニューの枠の大きさを変えずに、文字を他言語に修正する場合に、文字の大きさが変わる可能性がある。同じ意味を表す単語でも、言語によっては長さなどが異なってくるからである。その結果、同じメニューの領域内で表現しようとすると、フォントサイズを小さくしたり、大きくしたりする必要が出てくる。例えば、日本語の単語を英語の単語に翻訳した場合に、その英語の単語が、元の日本語の単語より長くなってしまったときには、図2のように文字を小さくする必要がある。その結果、文字が小さいために見づらくなってしまうという問題が生じる。
また、枠の大きさ以外にも、ウェブサイトでは、ナビゲーションメニューや見出し、本文のフォントサイズなどのバランスをうまく取って、情報を分かりやすく伝えている。例えば、見出しを表す文字は、本文を表す文字とは異なるフォントにして、フォントサイズもより大きくするなどして、見出しを目立たせるようにしている。これにより、ウェブコンテンツを利用するユーザが、見出しを見てコンテンツの概要を理解し、本文を読み進めることができる。また、見出しにもレベルがあり、レベルの高い見出しほど大きく表示するなどして、情報構造を理解しやすくしている。
しかし、言語を翻訳したり、意味の難しい単語を易しい単語に変換したりする際に、見出しが、本文よりも小さくなってしまう場合には、見出しがどこかを把握するのが難しくなり、ウェブサイトの閲覧が困難になるという問題が生じる。
本発明は、上記の点に鑑みてなされたものであって、コンテンツデータ内の文字列を変換した場合の変換前後のバランスの変化を小さくすることを目的とする。
そこで上記課題を解決するため、変換装置は、コンテンツデータに含まれる各文字列間の表示サイズの差と、前記各文字列について取得された1又は複数の変換候補に基づき、前記各文字列間の表示サイズの差を保つように前記各文字列に対する変換候補を選択する変換部を有する。
ウェブコンテンツ内の文字列を変換した場合の変換前後のバランスの変化を小さくすることができる。
日本語のウェブコンテンツをブラウザで表示したときの表示例を示す図である。 日本語から英語に翻訳されたウェブコンテンツをブラウザで表示したときの表示例を示す図である。 第1の実施の形態におけるシステム構成例を示す図である。 第1の実施の形態における変換装置のハードウェア構成例を示す図である。 第1の実施の形態における変換装置の機能構成例を示す図である。 第1の実施の形態における変換装置が実行する処理手順を説明するためのフローチャートである。 ウェブコンテンツを構成するHTML文書の一例を示す図である。 第1の実施の形態における作業用テーブルの一例を示す図である。 第1の実施の形態における翻訳語選択用データの一例を示す図である。 翻訳語の評点の重み付けデータの一例を示す図である。 第1の実施の形態における各抽出文字列の翻訳後の作業用テーブルの第1の例を示す図である。 第1の実施の形態における各抽出文字列の翻訳後の作業用テーブルの第2の例を示す図である。 翻訳後のウェブコンテンツの表示例を示す図である。 第2の実施の形態における各抽出文字列の翻訳後の作業用テーブルの例を示す図である。 文字修飾換算テーブルの一例を示す図である。 第3の実施の形態における変換装置が実行する処理手順を説明するためのフローチャートである。 第3の実施の形態における翻訳語選択用データの一例を示す図である。
以下、図面に基づいて本発明の実施の形態を説明する。図3は、第1の実施の形態におけるシステム構成例を示す図である。図3において、変換装置10は、インターネット又はLAN(Local Area Network)等のネットワークを介して1以上のウェブサーバ20に接続される。
ウェブサーバ20は、ウェブコンテンツを提供する1以上のコンピュータである。
変換装置10は、ウェブサーバ20によって提供されるウェブコンテンツを受信して表示する情報処理装置である。例えば、PC(Personal Computer)、スマートフォン、又はタブレット端末等が、変換装置10として利用されてもよい。
図4は、第1の実施の形態における変換装置のハードウェア構成例を示す図である。図4の変換装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、インタフェース装置105、表示装置106、及び入力装置107等を有する。
変換装置10での処理を実現するプログラムは、CD−ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って変換装置10に係る機能を実現する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。表示装置106はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置107はキーボード及びマウス等で構成され、様々な操作指示を入力させるために用いられる。
図5は、第1の実施の形態における変換装置の機能構成例を示す図である。図5において、変換装置10は、制御部11、送受信部12、情報解析部13、及び情報変換部14等を有する。これら各部は、変換装置10にインストールされた1以上のプログラム(例えば、ウェブブラウザプログラム等)が、CPU104に実行させる処理により実現される。変換装置10は、また、情報蓄積部15を利用する。情報蓄積部15は、例えば、補助記憶装置102等を用いて実現可能である。
制御部11は、変換装置10が実行するWebコンテンツの表示処理の全体を制御する。送受信部12は、ウェブサーバ20に対してリクエストを送信し、リクエストに応じて返信されるウェブコンテンツを受信する。情報解析部13は、送受信部12によって受信されたウェブコンテンツを解析する。例えば、ウェブコンテンツに含まれている各HTML(HyperText Markup Language)要素ごとに、属性情報等が取得される。情報変換部14は、送受信部12によって受信されたウェブコンテンツに含まれている文字列について変換処理を行う。本実施の形態では、日本語の文字列が英語の文字列に変換(翻訳)される例について説明する。但し、翻訳先の言語は英語に限定されない。また、翻訳元の言語も日本語に限定されない。更に、文字列の変換は、翻訳に限定されない。例えば、難しい表現の語句が優しい表現の語句に変換される場合について、本実施の形態が適用されてもよい。たとえば、ウェブコンテンツの内容を高齢者向けに文字を大きくするように変換する場合や、語彙が少ない日本語を学習中の日本語が非母国語の人や小学生向けのコンテンツに変換する場合であっても良い。
以下、変換装置10が実行する処理手順について説明する。図6は、第1の実施の形態における変換装置が実行する処理手順を説明するためのフローチャートである。
ステップS101において、制御部11は、入力装置107を介して、ウェブコンテンツの表示指示の入力をユーザから受け付ける。例えば、当該ウェブコンテンツのURL(Uniform Resource Locator)がユーザによって入力される。
続いて、制御部11は、入力されたURLに対応するウェブサーバ20から、送受信部12を介してウェブコンテンツを取得(たとえば、ダウンロードしたり、HTTPリクエストへの応答として取得)する(ステップS102)。例えば、図7に示されるようなHTML文書を含むウェブコンテンツが取得される。
続いて、制御部11は、取得したウェブコンテンツを情報蓄積部15に記録する(S103)。
続いて、情報解析部13は、当該ウェブコンテンツを解析して、解析結果を作業用テーブルに記録する(ステップS104)。例えば、ウェブコンテンツからHTML要素が抽出され、当該HTML要素ごとに、図8に示される情報が記録される。
図8は、第1の実施の形態における作業用テーブルの一例を示す図である。図8において、作業用テーブルは、HTML要素ごとに、ID、要素名、抽出文字列、フォントサイズ、文字数、横幅、高さ、翻訳語、及び翻訳語のフォントサイズ等を記憶可能である。なお、作業用テーブルは、例えば、情報蓄積部15に記憶される。
IDは、抽出された各HTML要素を識別するための識別子である。但し、IDは、説明の便宜上付されたものであるため、解析結果として記録されなくてもよい。要素名は、HTML要素の名前(タグ名)である。抽出文字列は、HTML要素から抽出された文字列(HTML要素の値として含まれている文字列)である。フォントサイズは、抽出文字列のフォントサイズである。文字数は、抽出文字列の文字数である。横幅及び高さは、抽出文字列の表示領域の横幅及び高さである。フォントサイズ、横幅、及び高さ等は、例えば、HTML文書から参照されているスタイルシートに基づいて特定されてもよい。翻訳語は、抽出文字列の翻訳結果であり、後段の処理において記録される。翻訳語のフォントサイズは、抽出文字列の翻訳結果のフォントサイズであり、後段の処理において記録される。
続いて、情報変換部14は、HTML要素ごとに、抽出文字列に対する翻訳語を決定する(原語での文字の大小関係を保つように、翻訳語を選択する)と共に、当該翻訳語のフォントサイズを決定する(ステップS105)。
具体的には、フォントサイズが大きな抽出文字列から順に、翻訳語が決定される。したがって、図8において、フォントサイズが18ptであるh1要素(ID=1)の「横須賀国際空港」について、最初に翻訳語が決定される。情報変換部14は、「横須賀国際空港」に関して形態素解析等を行い、「横須賀国際空港」を、「横須賀」という地名である固有名詞と、「国際空港」という一般名詞とに分割する。「横須賀」は固有名詞であるため「Yokosuka」に翻訳される。「国際空港」は、一般名詞であるため、情報蓄積部15に記憶された翻訳語を選択するためのデータ(以下、「翻訳語選択用データ」という。)を用いて翻訳語が選択される。
図9は、第1の実施の形態における翻訳語選択用データの一例を示す図である。図9にいて、翻訳語選択用データには、翻訳対象の語(原語)ごとに、翻訳語の候補と優先度とが対応付けられて記録されている。1つの翻訳対象の語(原語)に対して、複数の変換語である翻訳語が対応づけられていても良い。
翻訳語は、原語についての英語による表現である。優先度は、同一の原語に対して複数の翻訳語の候補が有る場合に、各候補の優劣を判定するための数値である。本実施の形態では、小さい値の方が、優先度が高い。なお、図9では、HTML要素ごとに優先度が設定されている。すなわち、或る翻訳語の優先度は、原語の抽出元のHTML要素によって変化する。
例えば、図9において、「国際空港」を原語とするレコードは、番号が4のレコードと、番号が5のレコードとである。これらの各レコードの翻訳語である「International Airport」と「Int. Airport」とが、「国際空港」の翻訳語の候補となる。したがって、「横須賀国際空港」の翻訳語の候補は「Yokosuka International Airport」と「Yokosuka Int. Airport」の2つである。図8より、「横須賀国際空港」は、h1要素(すなわち、見出し)からの抽出文字列である。そこで、情報変換部14は、h1要素に対応する翻訳語の優先度を、翻訳語選択用データ(図9)を参照して特定する。なお、翻訳語選択用データでは、原語に対して翻訳語(変換した後の語)の文字数が少ない場合、ウェブコンテンツにおける上位の見出しでの優先度が下位の見出しの優先度よりも高く、かつ、見出しの優先度が本文(例えば、p要素やa要素)の優先度よりも高くなるように設定されている。一方、原語に対して翻訳語の文字数が多い場合、見出しよりも本文の優先度が高く、かつ、下位の見出しでの優先度が上位の見出しでの優先度よりも高くなるように設定されている。
図9において、h1要素に関して、「Int. Airport」の優先度は22であり、「International Airport」の優先度は53である。一方、固有名詞である「横須賀」の翻訳語は、翻訳語選択用データには含まれていないが、その場合には、「国際空港」の優先度に合わせてもよいし、優先度は0とされてもよい。すなわち、「Yokosuka International Airport」と「Yokosuka Int. Airport」との優先度は、「Int. Airport」と「International Airport」との優先度に従う。したがって、「国際空港」については、優先度の高い「Yokosuka Int. Airport」が翻訳語として選択される。情報変換部14は、「Yokosuka Int. Airport」を、図8の作業用テーブルにおいて、ID=1のレコードの翻訳語として記録する。
なお、「国際空港」が、更に、「国際」と「空港」とに分割されて翻訳が行われてもよい。この場合、「国際」の翻訳語の候補は、図9の番号1のレコードにおける「International」と、番号2のレコードにおける「Int.」とである。h1要素に関して、「International」の優先度は120であり、「Int.」の優先度は28である。したがって、「Int.」が選択される。一方、図9において、「空港」の翻訳語は、「Airport」のみである。したがって、「国際空港」の翻訳語は、「Int. Airport」として決定されてもよい。この場合、「横須賀国際空港」の翻訳語は、「Yokosuka Int. Airport」に決定される。
なお、優先度は、例えば、翻訳前の単語(原語)とのフォントサイズの近さ、翻訳語の分かりやすさに基づいて予め決定されてもよい。原語とのフォントサイズの近さとは、原語と翻訳語とを同じ表示領域(例えば、原語の表示領域)に収めた場合の原語と翻訳語とのフォントサイズの差である。例えば、「Int. Airport」は、「International Airport」と比較して、文字列長が「国際空港」に近いため、フォントサイズについては原語に近いが、分かりやすさの点では劣る。
フォントサイズの近さ及び翻訳語の分かりやすさのそれぞれを評点x、評点yとした場合、優先度pは、例えば、以下の式(1)で算出されてもよい。
p=(fx+cy)/(f+c)・・・(1)
なお、xは、フォントサイズの近さが小さい程、値が小さくなる評点(数値)である。また、yは、分かりやすい程、値が小さくなる評点(数値)である。また、fは、フォントサイズの近さに対する重み付けデータであり、cは、翻訳語の分かりやすさに対する重み付けデータである。重み付けデータは、HTML要素ごとに異なっていてもよい。例えば、h1要素では、翻訳語の分かりやすさよりも、原語とのフォントサイズの近さが重視される。HTML要素間のフォントサイズのバランスが重要であるが、フォントサイズの最も大きなh1要素は、バランスの基準となるため、フォントサイズが特に重視される。したがって、h1要素に関しては、fがcに比べて大きくされてもよい。図10に、翻訳語の評点の重み付けデータの一例を示す。
なお、図10において、p要素に関するfの値は0であり、cの値は10である。p要素は段落を示すが、ウェブコンテンツでは、段落に含まれる文字列の長さに制限が無い場合もある。このような場合、翻訳結果が翻訳前より長くなったとしても、当該段落の表示領域が広がるだけであり、ウェブコンテンツの表示バランスに悪影響を及ぼさない。したがって、p要素では、元の単語と同じフォントサイズが使用されてもよい。そうすると、p要素に関しては、翻訳語のフォントサイズは、抽出文字列のフォントサイズと常に同じとなる。すなわち、p要素に対する翻訳語の優先度は、分かりやすさのみに依存することになる。したがって、図10の例では、p要素に関するfの値は0とされ、cの値は10とされている。
次に、2番目に大きなフォントサイズであるh2要素の翻訳が行われる。すなわち、図8のID=2の「フライト情報」が翻訳される。図9の翻訳語選択用データによれば、h2要素の「フライト情報」に対応する翻訳語の候補としては、優先度が51の「Flight Info」と、優先度が82の「Flight Information」とである。したがって、優先度の高い「Flight Info」が選択される。
翻訳語選択用データでの優先度に基づいて、変換後の語(変換語)を選択することで、原語の見出しは短い(文字数が少ない)語に変換されやすく、かつ、本文は長い(文字数が多い)語に変換されやすい。この結果、文字数の少ない変換語は、相対的に大きな文字で表示されやすく、文字数の多い本文は、相対的に小さな文字で表示されやすくなるため、原語での文字の大小関係を保ちやすくなる。
情報変換部14は、同様にして、各抽出文字列の翻訳語を決定し、決定された翻訳語を作業用テーブルに追記する。例えば、図8のID=3の抽出文字列である「本日のフライト情報は…。」に含まれる「フライト情報」については、翻訳語の候補として、優先度が42の「Flight Info」と優先度が15の「Flight Information」とがあるが、優先度の高い「Flight Information」が選択される。なお、ID=3の抽出文字列は、p要素から抽出されたものであるため、当該優先度は、上記したように、フォントサイズの近さは考慮されずに決定されたものであってもよい。
なお、翻訳語選択用データは、基本的に単語に対する翻訳語の選択に利用される。抽出文字列が単語ではなく文章である場合、翻訳先の言語の文法にしたがった翻訳は、公知の翻訳技術を用いて行えばよい。
全ての抽出文字列について翻訳が完了すると、作業用テーブルは、例えば、図11に示されるように更新される。図11では、各抽出文字列に対して、翻訳語と翻訳語のフォントサイズとが追記されている。翻訳語のフォントサイズは、例えば、翻訳語が、抽出文字列の横幅及び高さによって特定される矩形領域に収まる範囲で最大のフォントサイズが選択される。但し、p要素については、上述したように、翻訳前後のフォントサイズは、同じであってもよい。
なお、段落の長さに制限が有るp要素から抽出された抽出文字列の翻訳語は、次のように決定されてもよい。
段落の長さに制限が有るp要素の翻訳結果の長さ(表示領域の大きさ)は、翻訳前の長さに近い方が望ましい。一方で、p要素の中身は文章であるため、様々な単語が用いられる可能性がある。したがって、単語ごとに、優先度の高い翻訳語を選択した結果、段落全体としては、翻訳前より表示領域が大きくなってしまうことが考えられる。この場合、優先度が相対的に低い翻訳語を、原語が共通する他の翻訳語に置き換えることで、段落全体の長さが調整されてもよい。
例えば、翻訳結果の段落に、「International Airport」と「Access Information」とが含まれており、いずれか一方を短くすれば、翻訳前の段落の長さにより近くなる場合には、これら二つの翻訳語の優先度が比較される。p要素に関して、「International Airport」の優先度は、23であり、「Access Information」の優先度は、12である。したがって、優先度の高い「Access Information」が採用され、優先度の低い「International Airport」が、「Int. Airport」に置き換えられてもよい。
また、情報変換部14は、翻訳前の各文字列の大小関係が保たれるように、各翻訳語のフォントサイズを補正する。例えば、情報変換部14は、翻訳前の各HTML要素を、抽出文字列のフォントサイズごとにグループ分けする。情報変換部14は、翻訳後のグループ間のフォントサイズの差が、翻訳前のグループ間のフォントサイズの差に出来るだけ近くなるように調整を行う。そうすることで、翻訳前のHTML要素間のバランスを、翻訳後においても保つことができる。
この場合、まず、翻訳語のフォントサイズの中で、最大のフォントサイズが基準とされてもよい。例えば、図11において、翻訳語のフォントサイズの最大値は、16ptである。この場合、当該フォントサイズに係るHTML要素と同じグループ(以下、「第1グループ」という。)に分類されたHTML要素のフォントサイズは、16ptに補正される。次にフォントサイズが大きなグループ(以下、「第2グループ」という。)に属する各HTML要素の翻訳語のフォントサイズは、第1グループの翻訳前のフォントサイズと、第2グループの翻訳前のフォントサイズとの差分を16ptから差し引いた値に補正される。例えば、図11において、翻訳前のh1要素のフォントサイズは、18ptであり、翻訳前のh2要素のフォントサイズは14ptであり、その差分は4ptである。したがって、この場合、h2要素の翻訳語のフォントサイズは、16pt−4p5=12ptとされる。この場合の作業用テーブルの例を図12に示す。図12に示される作業用テーブルでは、上位グループとのフォントサイズの差の列が追加されている。上位グループとは、グループをフォントサイズの降順にソートした場合における、1つ前のグループをいう。図12では、翻訳語のフォントサイズの値が、上位グループとのフォントサイズの差によって補正されている。
なお、グループ間のフォントサイズの差ではなく、グループ間のフォントサイズの比率が保たれるように、翻訳語のフォントサイズが補正されてもよい。
また、フォントサイズの補正は、翻訳語が、翻訳前の表示領域(抽出文字列の横幅及び高さ)に収まるという制限の範囲内で行われてもよい。例えば、第2グループのフォントサイズを12ptに補正した場合、第2グループに属するいずれかのHTML要素の翻訳語が、当該HTML要素の横幅及び高さに収まらない場合、当該HTML要素の翻訳語が当該HTML要素の横幅及び高さに収まる範囲で最大のフォントサイズが、第2グループのフォントサイズとされてもよい。
続いて、情報変換部14は、図11又は図12に示される作業用テーブルに基づいて、情報蓄積部15に記録されたウェブコンテンツのHTML文書を書き換える(ステップS106)。具体的には、各HTML要素の値(文字列)が、翻訳語に置換される。また、各HTML要素に対して、フォントサイズを示す属性が追加される。この際、フォントサイズの値には、作業用テーブルにおける翻訳語のフォントサイズの値が用いられる。
続いて、制御部11は、情報蓄積部15に記録されたウェブコンテンツを表示装置106に表示する(ステップS107)。その結果、図13に示されるような翻訳後のウェブコンテンツが表示される。なお、ステップS106が実行されずに(すなわち、HTML文書の書き換えが行われずに)、ステップS107における表示処理の過程で、翻訳語への置換及びフォントサイズの変更等が行われてもよい。
上述したように、第1の実施の形態によれば、翻訳前(変換前)の各HTML要素間の大小関係が保たれるように翻訳(変換)が行われる。したがって、ウェブコンテンツ内の文字列を変換した場合に変換前後のバランスの変化を小さくすることができる。
上記の例では、変換対象の語(単語)に対して1つ以上の変換後の語(単語)の候補が記憶部に対応付けて記憶されているが、変換対象と変換後との対応付けはこの方法に限定されない。たとえば、変換装置10が、送受信部12を介して外部の変換用装置に変換対象の語(単語)を送信し、その応答として1つ以上の変換後の語(単語)を受信することとしても良い。
また、上記の例では入力装置107を介してウェブコンテンツの表示指示の入力をユーザから受け付けることとしているが、変換すべきウェブコンテンツの情報を取得する方法は他の方法であっても良い。たとえば、図示していない利用者端末がウェブサーバに対してコンテンツ閲覧要求を送信する際に、変換装置をプロキシとして設定しておくことで、利用者端末が送信するHTTPリクエストを変換装置が送受信部を介して取得し、利用者端末から取得したURLに対してHTTPリクエストを送信することで、Webサーバからウェブコンテンツを取得し、この取得したウェブコンテンツを変換して利用者端末に(HTTPリクエストへの応答として)送信する構成としても良い。
また、上記の例では取得したウェブコンテンツと作業用テーブル、翻訳語選択用データを情報記憶部15に記憶することとしたが、データ量が大きく主なアクセスが読み込みとなる翻訳語選択用データはデータベースに記憶し、翻訳語選択用データと比べると情報量が少なく、かつ、高い頻度で読み書きを行うウェブコンテンツと作業用テーブルはメモリに記憶する、という様に記憶部を使い分けることとしても良い。
また、上記の例ではウェブコンテンツに付与されているタグを用いて文字の大小関係を判定しているが、タグ(h1、pなどの要素名)が付与されていない場合には、既存の文字切り出し技術を用いて各文字の大きさ(例:フォントサイズ)を推測して、フォントサイズの情報をHTMLのタグ情報の代替として用いることとしても良い。さらに、フォントサイズの種類が所定の閾値以上抽出された場合、予め定めた規則によりフォントサイズをクラスタリングすることとしても良い(予め定めた規則の例:フォントサイズ32ポイント以上がHTMLタグh1に対応、フォントサイズ24ポイントから31ポイントまでがh1に対応)。
また、上記の例では翻訳語選択用データでの優先度を、優先すべきものほど小さな値を付与することとしたが、優先すべきものほど大きな値をとることとしても良い(この場合、優先度の評価式も対応付けて変更することとなる)。
また、変換装置10が、変換種別(例1:日本語から英語に翻訳、例2:日本語の専門的な技術書をわかりやすい日本語に変換)と、外部の各変換用装置の宛先の情報を対応付けて記憶部に保持しておき、変換種別を特定する指示を受けて、変換種別に応じた変換用装置を特定して、その変換用装置に変換対象の語を送信して変換結果を得ることにより、多種の変換を実現することとしても良い。
次に、第2の実施の形態について説明する。第2の実施の形態では第1の実施の形態と異なる点について説明する。第2の実施の形態において特に言及されない点については、第1の実施の形態と同様でもよい。
第1の実施の形態では、フォントサイズが最も大きな抽出文字列に対する翻訳語のフォントサイズを基準として、それよりフォントサイズが小さい翻訳語のフォントサイズが順次決定された。しかし、フォントサイズが同じでも、太字や異なるフォントを使う等、文字を修飾することで、文字を大きく見せることができる。第2の実施の形態では、文字の表現の変更(修飾)をも用いて、HTML要素間の大小関係を保つ例について説明する。例えば、異なるフォントサイズの文字列を類似するフォントサイズの翻訳語に変換する場合に、コンテンツデータにおいて相対的に大きなフォントサイズの文字列が相対的に小さなフォントサイズの文字列よりも目立つように文字列の表現の変換が行われる。
第2の実施の形態では、ステップS105の終了時点において、例えば、図15に示されるように作業用テーブルが更新される。
図14は、第2の実施の形態における各抽出文字列の翻訳後の作業用テーブルの例を示す図である。図14に示される作業用テーブルには、図8に対して、翻訳語のフォント修飾及び補正フォントサイズ等の列が追加されている。
フォント修飾は、抽出文字列に対する修飾方法等である。翻訳語のフォント修飾は、翻訳語に対して付与されることが決定された修飾方法等である。補正フォントサイズは、翻訳語についての補正後のフォントサイズである。修飾が行われる翻訳語については、修飾による効果も、補正フォントサイズに加算される。
翻訳語のフォント修飾及び補正フォントサイズのそれぞれの列の値は、ステップS105において、情報変換部14が、各翻訳語のフォントサイズを補正する際に記録される。すなわち、第2の実施の形態において、翻訳語のフォントサイズの補正は、当該フォントサイズ自体の変更のみならず、翻訳語の修飾等をも用いて行われる。
各翻訳語に付与される修飾等は、例えば、図15に示されるようなテーブルを参照して行われてもよい。
図15は、文字修飾換算テーブルの一例を示す図である。図15に示される文字修飾換算テーブルには、文字の修飾方法ごとに、フォントサイズ換算値及び優先順位が設定されている。フォントサイズ換算値は、該当する修飾方法によるフォントサイズへの影響又は作用の大きさを示す値であり、+N(又は−N)の形式を有する。+Nは、フォントサイズがNpt大きく見せる効果を有すること示す。優先順位は、翻訳語に対する修飾方法を選択する際の優先順位を示す。優先順位では、フォントサイズ換算値が相対的に大きい(フォントサイズの拡大効果が相対的に大きい)修飾方法が上位とされている。なお、文字修飾換算テーブルは、例えば、予め、情報蓄積部15に記憶されている。
情報変換部14は、まず、第1グループ(翻訳前のフォントサイズが最大のグループ)の翻訳語のフォントサイズと、翻訳前のフォントサイズとの差分を埋めるために、第1グループの各HTML要素に対する修飾方法を決定する。
例えば、図14において、h1要素からの抽出文字列である「横須賀国際空港」のフォントサイズは18ptであり、フォント修飾は、ゴシックである。また、「横須賀国際空港」の翻訳語である「Yokosuka Int.Airport」のフォントサイズは、14ptである。したがって、情報変換部14は、18pt−14pt=4ptの差分を埋めることができる修飾方法を、文字修飾換算テーブルを参照し探索する。この際、優先順位が上位である修飾方法から順に、翻訳語への適用が試みられる。
まず、優先順位が1の修飾方法である、「太字」が選択される。当該修飾方法のフォントサイズ換算値は+3であり、必要な4ptに対して1pt足りない。そこで、優先順位が2の修飾方法である「ゴシック」が選択される。当該修飾方法のフォントサイズ換算値は+1である。そうすると、「太字」と「ゴシック」とを合わせることで、4pt分の効果を得ることができる。よって、h1要素の翻訳語のフォント修飾の値は、「太字+ゴシック」となる。
第2グループ以下は、上位のグループの補正フォントサイズに基づいて、補正フォントサイズ及び修飾方法が決定される。この際、翻訳語のフォントサイズは、作業用テーブルに記録されている翻訳語のフォントサイズより大きくできないこととする。翻訳語のフォントサイズは、原語の表示領域の範囲に表示可能な最大のものが選択されているからである。或るグループの翻訳語のフォントサイズと、上位グループの補正フォントサイズと差分が、翻訳前のグループ間のフォントサイズの差分に満たない場合に、当該グループの翻訳語に対する修飾が行われる。例えば、第1グループのh1要素と第2グループのh2要素とについて、翻訳前のフォントサイズの差分は、4ptである。ここで、h2要素の翻訳語のフォントサイズは、14ptである。この場合、14ptをそのまま採用することで、h1要素の翻訳語の補正フォントサイズとの差分を4ptとすることができる。したがって、h2要素については、翻訳語のフォント修飾は「なし」となり、補正フォントサイズは、14ptとなる。
また、第2グループのh2要素と、第3グループのh3要素との翻訳前のフォントサイズの差分は、2ptである。ここで、h3要素の翻訳語のフォントサイズは、12ptである。この場合、12ptをそのまま採用することで、h2要素の翻訳語の補正フォントサイズとの差分を2ptとすることができる。したがって、h3要素については、翻訳語のフォント修飾は「なし」となり、補正フォントサイズは、12ptとなる。
一方、第3グループのh3要素と、第4グループのp要素との翻訳前のフォントサイズの差分は、1ptである。ここで、p要素の翻訳語のフォントサイズは、9ptである。この場合、9ptをそのまま採用しては、第3グループの補正フォントサイズとである12ptとの差を1にすることができない。すなわち、p要素のフォントサイズを2pt大きくする必要が有る。そこで、情報変換部14は、2pt分の修飾方法を文字修飾換算データを参照して探索する。その結果、優先順位が2の「ゴシック」と、優先順位が3の「大文字」とが選択される。二つの選択方法のフォントサイズ換算値の合計が+2ptだからである。したがって、p要素の翻訳語のフォント修飾には、「ゴシック+大文字」が記録される。また、p要素の補正フォントサイズは、9+2=11ptとなる。なお、大文字とは、例えば、「Flight Info」であれば、「FLIHT INFO」とすることである。
上述したように、第2の実施の形態によれば、基準となる第1グループに属するHTML要素について、翻訳前のフォントサイズと同程度のフォントサイズの印象を与えられるように、翻訳語の文字列に関して修飾が行われる。第2グループ以下のグループについては、第1グループを基準として、翻訳語のフォントサイズが補正される。また、抽出文字列の表示領域に収めるために翻訳語フォントサイズを大きく出来ない場合であっても、フォント修飾によって、フォントサイズを擬似的に大きくすることができる。したがって、第2の実施の形態では、第1の実施の形態と比較して、翻訳前後のバランスの変化を更に小さくすることができる。
なお、フォントサイズ換算値は、正の値に限定されるものではなく、目立たなくする表現の変更(例えば、文字の色をグレーにする、細字にする等)を負の換算値に対応付けることとしてもよい。
次に、第3の実施の形態について説明する。第3の実施の形態では第1の実施の形態と異なる点について説明する。第3の実施の形態において特に言及されない点については、第1の実施の形態と同様でもよい。
第1の実施の形態及び第2の実施の形態では、タグ付けされたHTML要素に応じて、翻訳語を選択する方法について説明した。しかし、実際には意味的にタグ付けされていなくても、文字列に意味を持たせているウェブコンテンツが数多く存在する。例えば、見出しにh1要素を使うべきところを、div要素などを使ってフォントサイズをスタイルシートで指定することにより、見た目上、見出しとして見えるようにしているウェブコンテンツも有る。このようなウェブコンテンツに対して第1の実施の形態を適用するのは困難である。本来であれば、全てのウェブコンテンツが、正しい要素でマークアップして、アクセシビリティに対応することが求められるが、第3の実施の形態では、アクセシビリティに配慮していないウェブコンテンツに対応することを目指す。具体的には、HTML要素に依存せず、フォントサイズに基づいて、翻訳語が決定される。
図16は、第3の実施の形態における変換装置が実行する処理手順を説明するためのフローチャートである。図16中、図6と同一ステップには同一ステップ番号を付し、その説明は省略する。
図16では、ステップS105が、ステップS105aに置換されている。ステップS105aにおいて、情報変換部14は、フォントサイズが大きい抽出文字列から順に翻訳語を決定する。この際、情報変換部14は、図17に示されるような翻訳語選択用データを参照する。すなわち、第3の実施の形態では、翻訳語選択用データの構成が、第1の実施の形態(図9)と異なる。
図17は、第3の実施の形態における翻訳語選択用データの一例を示す図である。図17において、翻訳語選択用データは、翻訳対象の語(原語)ごとに、翻訳語の候補と優先度とを含む。図9と大きく異なる点は、優先度が、HTML要素ごとではなく、フォントサイズの範囲ごとに定義されている点である。なお、フォントサイズの範囲の表現において、「Xpt〜Ypt」は、Xpt以上Ypt未満を示す。図17では、フォントサイズの範囲ごとに優先度が定義されているが、更に細分化されて、フォントサイズごとに、優先度が定義されてもよい。
ここでは、図8においてID=2の抽出文字列(「フライト情報」)に対する翻訳語の決定について説明する。なお、ID=2の抽出文字列のフォントサイズの大きさは2番目であるため、当該抽出文字列の翻訳語は、2番目に決定される。また、第3の実施の形態の作業用テーブル(図8)は、要素名の列を含まなくてもよい。
図17によると、「フライト情報」の翻訳語の候補は、「Flight Info」と「Flight Information」とである。一方、図8によれば、ID=2の抽出文字列(「フライト情報」)のフォントサイズは、14ptである。したがって、それぞれの候補の優先度は、図17において、抽出文字列のフォントサイズである14ptに対応する「14pt〜16pt」の列を参照して特定される。その結果、「Flight Info」の優先度が42であり、「Flight Information」の優先度が55であることが特定される。「Flight Info」の方が優先度が高いため、「Flight Info」が「フライト情報」の翻訳語として選択される。また、「Flight Info」のフォントサイズが、「フライト情報」の横幅及び高さに基づいて決定される。
続いて、図8のID=3の抽出文字列である「本日のフライト情報は…。」に含まれる「フライト情報」の翻訳語の決定について説明する。図17によると、「フライト情報」の翻訳語の候補は、「Flight Info」と「Flight Information」とである。一方、図8によれば、ID=3の抽出文字列のフォントサイズは、12ptである。したがって、それぞれの候補の優先度は、図17において、抽出文字列のフォントサイズである12ptに対応する「14pt未満」の列を参照して特定される。その結果、「Flight Info」の優先度が44であり、「Flight Information」の優先度が23であることが特定される。「Flight Information」の方が優先度が高いため、「Flight Information」が「フライト情報」の翻訳語として選択される。
同様にして、各抽出文字列の翻訳語が決定され、作業用テーブルは、図11のように更新される。但し、要素名の列は不要である。また、フォントサイズに基づくグループ間のフォントサイズの差に基づいて、各翻訳語のフォントサイズが補正される。
続いて、第1の実施の形態と同様に、翻訳後のウェブコンテンツが表示される(ステップS107)。
上述したように、第3の実施の形態によれば、正しい要素でマークアップされておらず、アクセシビリティに対応していないウェブコンテンツであっても、第1の実施の形態と同様の効果を得ることができる。
なお、第2の実施の形態が、第3の実施の形態に組み合わされてもよい。
また、上記各実施の形態は、ウェブコンテンツ以外のコンテンツデータに関して適用されてもよい。
なお、本実施の形態において、情報変換部14は、変換部の一例である。翻訳語の候補は、変換候補の一例である。フォントサイズは、表示サイズの一例である。
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10 変換装置
11 制御部
12 送受信部
13 情報解析部
14 情報変換部
15 情報蓄積部
20 ウェブサーバ
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
B バス

Claims (7)

  1. コンテンツデータに含まれる各文字列間の表示サイズの差と、前記各文字列について取得された1又は複数の変換候補に基づき、前記各文字列間の表示サイズの差を保つように前記各文字列に対する変換候補を選択する変換部を有する、
    ことを特徴とする変換装置。
  2. 前記変換部は、複数の変換候補を有する文字列については、前記表示サイズの差と、各変換候補に対応付けられて記憶されている、各変換候補の分かりやすさとに基づいて、1つの変換候補を選択する、
    ことを特徴とする請求項1記載の変換装置。
  3. 前記変換部は、コンテンツデータに含まれる異なる表示サイズの文字列を類似する表示サイズの文字列に変換する場合、コンテンツデータにおいて相対的に大きな表示サイズの文字列が相対的に小さな表示サイズの文字列よりも目立つように文字列の表現を変換する、
    ことを特徴とする請求項1又は2記載の変換装置。
  4. コンピュータが、
    コンテンツデータに含まれる各文字列間の表示サイズの差と、前記各文字列について取得された1又は複数の変換候補に基づき、前記各文字列間の表示サイズの差を保つように前記各文字列に対する変換候補を選択する変換手順を実行する、
    ことを特徴とする変換方法。
  5. 前記変換手順は、複数の変換候補を有する文字列については、前記表示サイズの差と、各変換候補に対応付けられて記憶されている、各変換候補の分かりやすさとに基づいて、1つの変換候補を選択する、
    ことを特徴とする請求項4記載の変換方法。
  6. 前記変換手順は、コンテンツデータに含まれる異なる表示サイズの文字列を類似する表示サイズの文字列に変換する場合、コンテンツデータにおいて相対的に大きな表示サイズの文字列が相対的に小さな表示サイズの文字列よりも目立つように文字列の表現を変換する、
    ことを特徴とする請求項4又は5記載の変換方法。
  7. コンピュータを、請求項1乃至3いずれか一項記載の変換部として機能させるプログラム。
JP2015161589A 2015-08-19 2015-08-19 変換装置、変換方法、及びプログラム Pending JP2017041039A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015161589A JP2017041039A (ja) 2015-08-19 2015-08-19 変換装置、変換方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015161589A JP2017041039A (ja) 2015-08-19 2015-08-19 変換装置、変換方法、及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018104278A Division JP6564910B2 (ja) 2018-05-31 2018-05-31 変換装置、変換方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2017041039A true JP2017041039A (ja) 2017-02-23

Family

ID=58206487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015161589A Pending JP2017041039A (ja) 2015-08-19 2015-08-19 変換装置、変換方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2017041039A (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003060767A (ja) * 2001-08-21 2003-02-28 Kenwood Corp 携帯電話装置
JP2005165652A (ja) * 2003-12-02 2005-06-23 Nec Corp 翻訳メモリシステム、翻訳方法、および翻訳メモリシステム用プログラム
JP2006099153A (ja) * 2004-09-28 2006-04-13 Brother Ind Ltd 印刷データ処理装置、印刷データ処理プログラム、及びコンピュータ読み取り可能な記録媒体
JP2006164179A (ja) * 2004-12-10 2006-06-22 Nippon Telegr & Teleph Corp <Ntt> 情報提示装置及び情報提示方法
JP2008299780A (ja) * 2007-06-04 2008-12-11 Fuji Xerox Co Ltd 画像処理装置、及び画像処理プログラム
US20110320938A1 (en) * 2010-06-25 2011-12-29 Apple Inc. Dynamic text adjustment in a user interface element
JP2012133660A (ja) * 2010-12-22 2012-07-12 Fujifilm Corp 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、該ビューワプログラムが記録された記録媒体ならびに電子コミックの表示方法
JP2012173785A (ja) * 2011-02-17 2012-09-10 Nec Corp 翻訳結果表示方法、翻訳結果表示システム、翻訳結果生成装置および翻訳結果表示プログラム
WO2014147674A1 (ja) * 2013-03-22 2014-09-25 パナソニック株式会社 広告翻訳装置、広告表示装置、および広告翻訳方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003060767A (ja) * 2001-08-21 2003-02-28 Kenwood Corp 携帯電話装置
JP2005165652A (ja) * 2003-12-02 2005-06-23 Nec Corp 翻訳メモリシステム、翻訳方法、および翻訳メモリシステム用プログラム
JP2006099153A (ja) * 2004-09-28 2006-04-13 Brother Ind Ltd 印刷データ処理装置、印刷データ処理プログラム、及びコンピュータ読み取り可能な記録媒体
JP2006164179A (ja) * 2004-12-10 2006-06-22 Nippon Telegr & Teleph Corp <Ntt> 情報提示装置及び情報提示方法
JP2008299780A (ja) * 2007-06-04 2008-12-11 Fuji Xerox Co Ltd 画像処理装置、及び画像処理プログラム
US20110320938A1 (en) * 2010-06-25 2011-12-29 Apple Inc. Dynamic text adjustment in a user interface element
JP2012133660A (ja) * 2010-12-22 2012-07-12 Fujifilm Corp 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、該ビューワプログラムが記録された記録媒体ならびに電子コミックの表示方法
JP2012173785A (ja) * 2011-02-17 2012-09-10 Nec Corp 翻訳結果表示方法、翻訳結果表示システム、翻訳結果生成装置および翻訳結果表示プログラム
WO2014147674A1 (ja) * 2013-03-22 2014-09-25 パナソニック株式会社 広告翻訳装置、広告表示装置、および広告翻訳方法

Similar Documents

Publication Publication Date Title
CN108351871B (zh) 通用翻译
Asakawa et al. Transcoding
US8942973B2 (en) Content page URL translation
US9411790B2 (en) Systems, methods, and media for generating structured documents
US9262403B2 (en) Dynamic generation of auto-suggest dictionary for natural language translation
JP5449633B1 (ja) 広告翻訳装置、広告表示装置、および広告翻訳方法
CN107256234B (zh) 一种网页文本调整方法及其设备
US20120072831A1 (en) Method for creating a multi-lingual web page
CN108717437B (zh) 搜索结果展示方法、装置及存储介质
KR20220123736A (ko) 문서 번역 방법 및 장치, 저장 매체 및 전자 디바이스
JP2010129057A (ja) 情報処理装置、表示データ翻訳方法、及びプログラム
WO2014147674A1 (ja) 広告翻訳装置、広告表示装置、および広告翻訳方法
US20140236568A1 (en) Input method to support multiple languages
US9218341B2 (en) Method and system for language translation
US9886426B1 (en) Methods and apparatus for generating an efficient SVG file
US8094940B2 (en) Input method transform
AU2019341037B2 (en) Dynamically adjusting text strings based on machine translation feedback
JP6564910B2 (ja) 変換装置、変換方法、及びプログラム
CN109445900B (zh) 用于图片显示的翻译方法和装置
CN111143749A (zh) 一种网页展示方法、装置、设备及存储介质
JP2017041039A (ja) 変換装置、変換方法、及びプログラム
JP2019053262A (ja) 学習システム
EP3532956B1 (en) System and method for on-the-fly conversion of non-accessible online documents to accessible documents
JPWO2006016477A1 (ja) 翻訳システム、翻訳サーバ、翻訳サーバの処理方法、プログラム、情報記憶媒体および翻訳装置
JP5477785B2 (ja) 数式表示制御装置、コンピュータプログラム、プログラム格納媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180403

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180330

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181009