JP6564910B2 - CONVERSION DEVICE, CONVERSION METHOD, AND PROGRAM - Google Patents
CONVERSION DEVICE, CONVERSION METHOD, AND PROGRAM Download PDFInfo
- Publication number
- JP6564910B2 JP6564910B2 JP2018104278A JP2018104278A JP6564910B2 JP 6564910 B2 JP6564910 B2 JP 6564910B2 JP 2018104278 A JP2018104278 A JP 2018104278A JP 2018104278 A JP2018104278 A JP 2018104278A JP 6564910 B2 JP6564910 B2 JP 6564910B2
- Authority
- JP
- Japan
- Prior art keywords
- conversion
- priority
- character string
- candidates
- font size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、変換装置、変換方法、及びプログラムに関する。 The present invention relates to a conversion device, a conversion method, and a program.
インターネットの普及によって、様々な情報が得られるようになってきた。インターネットの利用方法のうちの一つにウェブコンテンツの閲覧がある。ウェブコンテンツはHTML文書や画像などからなり、HTML文書で記述された通りに、テキストや画像をブラウザ上に表示するものである。インターネットを使えば、世界中に情報を発信することができる。日本企業などのウェブサイトにおいても、日本語による情報発信以外に、英語や中国語など日本語以外の言語での情報発信が行われている。また、近年は自動翻訳技術が進歩して、自動的に翻訳することもできるようになってきた。 With the spread of the Internet, various information has come to be obtained. One way to use the Internet is to browse web content. The web content includes an HTML document, an image, and the like, and displays text and an image on a browser as described in the HTML document. If you use the Internet, you can send information all over the world. On websites of Japanese companies, in addition to transmitting information in Japanese, information is transmitted in languages other than Japanese such as English and Chinese. In recent years, automatic translation technology has advanced, and automatic translation has become possible.
これは、ウェブサイトの情報をいろいろな特性を持つユーザに伝わるようにするアクセシビリティの支援技術にも関連する。アクセシビリティ支援技術はこれまでも様々な研究が行われている。 This is also related to accessibility assistive technologies that allow website information to be communicated to users with various characteristics. Various studies have been conducted on accessibility support technologies.
しかしながら、ウェブコンテンツの中の言語を他言語に翻訳し、ウェブコンテンツの構造を変えないようにすると、言語の翻訳により、ウェブコンテンツの印象が大きく変化し、情報が伝わりづらくなる可能性がある。言語翻訳以外にも、難しい言葉を易しく言い換える場合に同じ問題が生じる可能性がある。 However, if the language in the web content is translated into another language so as not to change the structure of the web content, the translation of the language may greatly change the impression of the web content and make it difficult to transmit information. In addition to language translation, the same problem can arise when rephrasing difficult words easily.
例えば、図1のようなウェブコンテンツのナビゲーションメニューにおいて、メニューの枠の大きさを変えずに、文字を他言語に修正する場合に、文字の大きさが変わる可能性がある。同じ意味を表す単語でも、言語によっては長さなどが異なってくるからである。その結果、同じメニューの領域内で表現しようとすると、フォントサイズを小さくしたり、大きくしたりする必要が出てくる。例えば、日本語の単語を英語の単語に翻訳した場合に、その英語の単語が、元の日本語の単語より長くなってしまったときには、図2のように文字を小さくする必要がある。その結果、文字が小さいために見づらくなってしまうという問題が生じる。 For example, in the navigation menu for web content as shown in FIG. 1, the size of the character may change when the character is modified to another language without changing the size of the menu frame. This is because even words that have the same meaning have different lengths depending on the language. As a result, it is necessary to reduce or increase the font size when attempting to express within the same menu area. For example, when a Japanese word is translated into an English word, if the English word becomes longer than the original Japanese word, it is necessary to make the characters smaller as shown in FIG. As a result, there is a problem that it is difficult to see because the characters are small.
また、枠の大きさ以外にも、ウェブサイトでは、ナビゲーションメニューや見出し、本文のフォントサイズなどのバランスをうまく取って、情報を分かりやすく伝えている。例えば、見出しを表す文字は、本文を表す文字とは異なるフォントにして、フォントサイズもより大きくするなどして、見出しを目立たせるようにしている。これにより、ウェブコンテンツを利用するユーザが、見出しを見てコンテンツの概要を理解し、本文を読み進めることができる。また、見出しにもレベルがあり、レベルの高い見出しほど大きく表示するなどして、情報構造を理解しやすくしている。 In addition to the size of the frame, the website conveys information in an easy-to-understand manner by balancing the navigation menu, headline, and font size of the text. For example, the heading character is made different from the text representing the body text, and the font size is made larger to make the heading stand out. As a result, a user who uses web content can understand the outline of the content by looking at the headline and read the text. In addition, the heading has a level, and a higher level heading is displayed larger so that the information structure can be easily understood.
しかし、言語を翻訳したり、意味の難しい単語を易しい単語に変換したりする際に、見出しが、本文よりも小さくなってしまう場合には、見出しがどこかを把握するのが難しくなり、ウェブサイトの閲覧が困難になるという問題が生じる。 However, when translating languages or converting difficult words into easy words, if the headline becomes smaller than the main text, it will be difficult to figure out where the headline is. The problem arises that browsing the site becomes difficult.
本発明は、上記の点に鑑みてなされたものであって、コンテンツデータ内の文字列を変換した場合の変換前後のバランスの変化を小さくすることを目的とする。 The present invention has been made in view of the above points, and an object of the present invention is to reduce a change in balance before and after conversion when a character string in content data is converted.
そこで上記課題を解決するため、変換装置は、コンテンツデータにおける表示形式に基づく各要素に対する各文字列について、原語ごとに1以上の変換候補及び優先度を対応付けて記憶した記憶部を参照して変換候補を選択する変換部を有し、前記優先度は、同一の原語に対して複数の変換候補が有る場合に各変換候補の変換結果として採用するか否かを表す優劣を判定するための数値として一つの変換候補に対して前記表示形式に基づく要素ごとに定めらており、前記変換部は、複数の変換候補が有る文字列については、当該文字列に係る前記表示形式に基づく要素に関して前記複数の変換候補のそれぞれに定められている優先度に基づいて変換候補を選択する。 Therefore, in order to solve the above-described problem, the conversion device refers to a storage unit that stores one or more conversion candidates and priorities in association with each character string for each character string for each element based on the display format in the content data. A conversion unit that selects conversion candidates, and the priority is for determining whether the conversion is adopted as a conversion result of each conversion candidate when there are a plurality of conversion candidates for the same original word. It is determined for each element based on the display format with respect to one conversion candidate as a numerical value, and for the character string having a plurality of conversion candidates, the conversion unit relates to the element based on the display format related to the character string. A conversion candidate is selected based on the priority set for each of the plurality of conversion candidates.
ウェブコンテンツ内の文字列を変換した場合の変換前後のバランスの変化を小さくすることができる。 When the character string in the web content is converted, a change in the balance before and after conversion can be reduced.
以下、図面に基づいて本発明の実施の形態を説明する。図3は、第1の実施の形態におけるシステム構成例を示す図である。図3において、変換装置10は、インターネット又はLAN(Local Area Network)等のネットワークを介して1以上のウェブサーバ20に接続される。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 3 is a diagram illustrating a system configuration example according to the first embodiment. In FIG. 3, the
ウェブサーバ20は、ウェブコンテンツを提供する1以上のコンピュータである。
The
変換装置10は、ウェブサーバ20によって提供されるウェブコンテンツを受信して表示する情報処理装置である。例えば、PC(Personal Computer)、スマートフォン、又はタブレット端末等が、変換装置10として利用されてもよい。
The
図4は、第1の実施の形態における変換装置のハードウェア構成例を示す図である。図4の変換装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、インタフェース装置105、表示装置106、及び入力装置107等を有する。
FIG. 4 is a diagram illustrating a hardware configuration example of the conversion device according to the first embodiment. 4 includes a
変換装置10での処理を実現するプログラムは、CD−ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
A program for realizing processing in the
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って変換装置10に係る機能を実現する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。表示装置106はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置107はキーボード及びマウス等で構成され、様々な操作指示を入力させるために用いられる。
The
図5は、第1の実施の形態における変換装置の機能構成例を示す図である。図5において、変換装置10は、制御部11、送受信部12、情報解析部13、及び情報変換部14等を有する。これら各部は、変換装置10にインストールされた1以上のプログラム(例えば、ウェブブラウザプログラム等)が、CPU104に実行させる処理により実現される。変換装置10は、また、情報蓄積部15を利用する。情報蓄積部15は、例えば、補助記憶装置102等を用いて実現可能である。
FIG. 5 is a diagram illustrating a functional configuration example of the conversion device according to the first embodiment. In FIG. 5, the
制御部11は、変換装置10が実行するWebコンテンツの表示処理の全体を制御する。送受信部12は、ウェブサーバ20に対してリクエストを送信し、リクエストに応じて返信されるウェブコンテンツを受信する。情報解析部13は、送受信部12によって受信されたウェブコンテンツを解析する。例えば、ウェブコンテンツに含まれている各HTML(HyperText Markup Language)要素ごとに、属性情報等が取得される。情報変換部14は、送受信部12によって受信されたウェブコンテンツに含まれている文字列について変換処理を行う。本実施の形態では、日本語の文字列が英語の文字列に変換(翻訳)される例について説明する。但し、翻訳先の言語は英語に限定されない。また、翻訳元の言語も日本語に限定されない。更に、文字列の変換は、翻訳に限定されない。例えば、難しい表現の語句が優しい表現の語句に変換される場合について、本実施の形態が適用されてもよい。たとえば、ウェブコンテンツの内容を高齢者向けに文字を大きくするように変換する場合や、語彙が少ない日本語を学習中の日本語が非母国語の人や小学生向けのコンテンツに変換する場合であっても良い。
The
以下、変換装置10が実行する処理手順について説明する。図6は、第1の実施の形態における変換装置が実行する処理手順を説明するためのフローチャートである。
Hereinafter, a processing procedure executed by the
ステップS101において、制御部11は、入力装置107を介して、ウェブコンテンツの表示指示の入力をユーザから受け付ける。例えば、当該ウェブコンテンツのURL(Uniform Resource Locator)がユーザによって入力される。
In step S <b> 101, the
続いて、制御部11は、入力されたURLに対応するウェブサーバ20から、送受信部12を介してウェブコンテンツを取得(たとえば、ダウンロードしたり、HTTPリクエストへの応答として取得)する(ステップS102)。例えば、図7に示されるようなHTML文書を含むウェブコンテンツが取得される。
Subsequently, the
続いて、制御部11は、取得したウェブコンテンツを情報蓄積部15に記録する(S103)。
Subsequently, the
続いて、情報解析部13は、当該ウェブコンテンツを解析して、解析結果を作業用テーブルに記録する(ステップS104)。例えば、ウェブコンテンツからHTML要素が抽出され、当該HTML要素ごとに、図8に示される情報が記録される。
Subsequently, the
図8は、第1の実施の形態における作業用テーブルの一例を示す図である。図8において、作業用テーブルは、HTML要素ごとに、ID、要素名、抽出文字列、フォントサイズ、文字数、横幅、高さ、翻訳語、及び翻訳語のフォントサイズ等を記憶可能である。なお、作業用テーブルは、例えば、情報蓄積部15に記憶される。
FIG. 8 is a diagram illustrating an example of a work table according to the first embodiment. In FIG. 8, the work table can store ID, element name, extracted character string, font size, number of characters, width, height, translated word, font size of translated word, and the like for each HTML element. The work table is stored in the
IDは、抽出された各HTML要素を識別するための識別子である。但し、IDは、説明の便宜上付されたものであるため、解析結果として記録されなくてもよい。要素名は、HTML要素の名前(タグ名)である。抽出文字列は、HTML要素から抽出された文字列(HTML要素の値として含まれている文字列)である。フォントサイズは、抽出文字列のフォントサイズである。文字数は、抽出文字列の文字数である。横幅及び高さは、抽出文字列の表示領域の横幅及び高さである。フォントサイズ、横幅、及び高さ等は、例えば、HTML文書から参照されているスタイルシートに基づいて特定されてもよい。翻訳語は、抽出文字列の翻訳結果であり、後段の処理において記録される。翻訳語のフォントサイズは、抽出文字列の翻訳結果のフォントサイズであり、後段の処理において記録される。 The ID is an identifier for identifying each extracted HTML element. However, since the ID is given for convenience of explanation, it may not be recorded as an analysis result. The element name is an HTML element name (tag name). The extracted character string is a character string extracted from the HTML element (a character string included as a value of the HTML element). The font size is the font size of the extracted character string. The number of characters is the number of characters in the extracted character string. The horizontal width and height are the horizontal width and height of the display area of the extracted character string. The font size, width, height, and the like may be specified based on, for example, a style sheet that is referenced from an HTML document. The translated word is a translation result of the extracted character string and is recorded in the subsequent processing. The font size of the translated word is the font size of the translation result of the extracted character string, and is recorded in the subsequent processing.
続いて、情報変換部14は、HTML要素ごとに、抽出文字列に対する翻訳語を決定する(原語での文字の大小関係を保つように、翻訳語を選択する)と共に、当該翻訳語のフォントサイズを決定する(ステップS105)。
Subsequently, the
具体的には、フォントサイズが大きな抽出文字列から順に、翻訳語が決定される。したがって、図8において、フォントサイズが18ptであるh1要素(ID=1)の「横須賀国際空港」について、最初に翻訳語が決定される。情報変換部14は、「横須賀国際空港」に関して形態素解析等を行い、「横須賀国際空港」を、「横須賀」という地名である固有名詞と、「国際空港」という一般名詞とに分割する。「横須賀」は固有名詞であるため「Yokosuka」に翻訳される。「国際空港」は、一般名詞であるため、情報蓄積部15に記憶された翻訳語を選択するためのデータ(以下、「翻訳語選択用データ」という。)を用いて翻訳語が選択される。
Specifically, the translation words are determined in order from the extracted character string having the largest font size. Therefore, in FIG. 8, a translated word is first determined for “Yokosuka International Airport” of the h1 element (ID = 1) whose font size is 18 pt. The
図9は、第1の実施の形態における翻訳語選択用データの一例を示す図である。図9にいて、翻訳語選択用データには、翻訳対象の語(原語)ごとに、翻訳語の候補と優先度とが対応付けられて記録されている。1つの翻訳対象の語(原語)に対して、複数の変換語である翻訳語が対応づけられていても良い。 FIG. 9 is a diagram illustrating an example of translation word selection data according to the first embodiment. In FIG. 9, translation word candidates and priority levels are recorded in correspondence with each translation target word (original word) in the translation word selection data. A translation word that is a plurality of conversion words may be associated with one translation target word (original language).
翻訳語は、原語についての英語による表現である。優先度は、同一の原語に対して複数の翻訳語の候補が有る場合に、各候補の優劣を判定するための数値である。本実施の形態では、小さい値の方が、優先度が高い。なお、図9では、HTML要素ごとに優先度が設定されている。すなわち、或る翻訳語の優先度は、原語の抽出元のHTML要素によって変化する。 A translated word is an English expression of the original language. The priority is a numerical value for determining the superiority or inferiority of each candidate when there are a plurality of translation word candidates for the same original word. In the present embodiment, a smaller value has a higher priority. In FIG. 9, a priority is set for each HTML element. That is, the priority of a certain translation word varies depending on the HTML element from which the original word is extracted.
例えば、図9において、「国際空港」を原語とするレコードは、番号が4のレコードと、番号が5のレコードとである。これらの各レコードの翻訳語である「International Airport」と「Int. Airport」とが、「国際空港」の翻訳語の候補となる。したがって、「横須賀国際空港」の翻訳語の候補は「Yokosuka International Airport」と「Yokosuka Int. Airport」の2つである。図8より、「横須賀国際空港」は、h1要素(すなわち、見出し)からの抽出文字列である。そこで、情報変換部14は、h1要素に対応する翻訳語の優先度を、翻訳語選択用データ(図9)を参照して特定する。なお、翻訳語選択用データでは、原語に対して翻訳語(変換した後の語)の文字数が少ない場合、ウェブコンテンツにおける上位の見出しでの優先度が下位の見出しの優先度よりも高く、かつ、見出しの優先度が本文(例えば、p要素やa要素)の優先度よりも高くなるように設定されている。一方、原語に対して翻訳語の文字数が多い場合、見出しよりも本文の優先度が高く、かつ、下位の見出しでの優先度が上位の見出しでの優先度よりも高くなるように設定されている。
For example, in FIG. 9, the records having “International Airport” as the original language are the record with the
図9において、h1要素に関して、「Int. Airport」の優先度は22であり、「International Airport」の優先度は53である。一方、固有名詞である「横須賀」の翻訳語は、翻訳語選択用データには含まれていないが、その場合には、「国際空港」の優先度に合わせてもよいし、優先度は0とされてもよい。すなわち、「Yokosuka International Airport」と「Yokosuka Int. Airport」との優先度は、「Int. Airport」と「International Airport」との優先度に従う。したがって、「国際空港」については、優先度の高い「Yokosuka Int. Airport」が翻訳語として選択される。情報変換部14は、「Yokosuka Int. Airport」を、図8の作業用テーブルにおいて、ID=1のレコードの翻訳語として記録する。
In FIG. 9, the priority of “Int. Airport” is 22 and the priority of “International Airport” is 53 for the h1 element. On the other hand, the translated word of the proper noun “Yokosuka” is not included in the translation word selection data, but in that case, it may be matched with the priority of “International Airport” and the priority is 0. It may be said. That is, the priority between “Yokosuka International Airport” and “Yokosuka Int. Airport” follows the priority between “Int. Airport” and “International Airport”. Accordingly, “Yokosuka Int. Airport” having a high priority is selected as the translated word for “International Airport”. The
なお、「国際空港」が、更に、「国際」と「空港」とに分割されて翻訳が行われてもよい。この場合、「国際」の翻訳語の候補は、図9の番号1のレコードにおける「International」と、番号2のレコードにおける「Int.」とである。h1要素に関して、「International」の優先度は120であり、「Int.」の優先度は28である。したがって、「Int.」が選択される。一方、図9において、「空港」の翻訳語は、「Airport」のみである。したがって、「国際空港」の翻訳語は、「Int. Airport」として決定されてもよい。この場合、「横須賀国際空港」の翻訳語は、「Yokosuka Int. Airport」に決定される。
The “international airport” may be further divided into “international” and “airport” for translation. In this case, translation candidates of “international” are “International” in the record of
なお、優先度は、例えば、翻訳前の単語(原語)とのフォントサイズの近さ、翻訳語の分かりやすさに基づいて予め決定されてもよい。原語とのフォントサイズの近さとは、原語と翻訳語とを同じ表示領域(例えば、原語の表示領域)に収めた場合の原語と翻訳語とのフォントサイズの差である。例えば、「Int. Airport」は、「International Airport」と比較して、文字列長が「国際空港」に近いため、フォントサイズについては原語に近いが、分かりやすさの点では劣る。 The priority may be determined in advance based on, for example, the closeness of the font size to the word (original language) before translation and the ease of understanding the translated word. The closeness of the font size to the original word is a difference in font size between the original word and the translated word when the original word and the translated word are stored in the same display area (for example, the original word display area). For example, “Int. Airport” has a character string length that is closer to “International Airport” than “International Airport”, so the font size is close to the original language but is inferior in terms of ease of understanding.
フォントサイズの近さ及び翻訳語の分かりやすさのそれぞれを評点x、評点yとした場合、優先度pは、例えば、以下の式(1)で算出されてもよい。
p=(fx+cy)/(f+c)・・・(1)
なお、xは、フォントサイズの近さが小さい程、値が小さくなる評点(数値)である。また、yは、分かりやすい程、値が小さくなる評点(数値)である。また、fは、フォントサイズの近さに対する重み付けデータであり、cは、翻訳語の分かりやすさに対する重み付けデータである。重み付けデータは、HTML要素ごとに異なっていてもよい。例えば、h1要素では、翻訳語の分かりやすさよりも、原語とのフォントサイズの近さが重視される。HTML要素間のフォントサイズのバランスが重要であるが、フォントサイズの最も大きなh1要素は、バランスの基準となるため、フォントサイズが特に重視される。したがって、h1要素に関しては、fがcに比べて大きくされてもよい。図10に、翻訳語の評点の重み付けデータの一例を示す。
When each of the closeness of the font size and the ease of understanding the translated word is a score x and a score y, the priority p may be calculated by the following equation (1), for example.
p = (fx + cy) / (f + c) (1)
Note that x is a score (numerical value) that becomes smaller as the font size is closer. Further, y is a score (numerical value) that decreases as the value becomes easier to understand. F is weighting data for the closeness of the font size, and c is weighting data for easy understanding of the translated word. The weighting data may be different for each HTML element. For example, in the h1 element, the proximity of the font size to the original word is more important than the ease of understanding the translated word. Although the font size balance between HTML elements is important, the h1 element having the largest font size serves as a reference for balance, and therefore the font size is particularly important. Therefore, for the h1 element, f may be made larger than c. FIG. 10 shows an example of the weighted data of the translation word score.
なお、図10において、p要素に関するfの値は0であり、cの値は10である。p要素は段落を示すが、ウェブコンテンツでは、段落に含まれる文字列の長さに制限が無い場合もある。このような場合、翻訳結果が翻訳前より長くなったとしても、当該段落の表示領域が広がるだけであり、ウェブコンテンツの表示バランスに悪影響を及ぼさない。したがって、p要素では、元の単語と同じフォントサイズが使用されてもよい。そうすると、p要素に関しては、翻訳語のフォントサイズは、抽出文字列のフォントサイズと常に同じとなる。すなわち、p要素に対する翻訳語の優先度は、分かりやすさのみに依存することになる。したがって、図10の例では、p要素に関するfの値は0とされ、cの値は10とされている。 In FIG. 10, the value of f regarding the p element is 0 and the value of c is 10. The p element indicates a paragraph, but there are cases in which the length of a character string included in a paragraph is not limited in web content. In such a case, even if the translation result becomes longer than before translation, only the display area of the paragraph is expanded, and the display balance of the web content is not adversely affected. Thus, the p element may use the same font size as the original word. Then, for the p element, the font size of the translated word is always the same as the font size of the extracted character string. That is, the priority of the translation word for the p element depends only on the ease of understanding. Therefore, in the example of FIG. 10, the value of f regarding the p element is 0, and the value of c is 10.
次に、2番目に大きなフォントサイズであるh2要素の翻訳が行われる。すなわち、図8のID=2の「フライト情報」が翻訳される。図9の翻訳語選択用データによれば、h2要素の「フライト情報」に対応する翻訳語の候補としては、優先度が51の「Flight Info」と、優先度が82の「Flight Information」とである。したがって、優先度の高い「Flight Info」が選択される。 Next, the h2 element having the second largest font size is translated. That is, the “flight information” with ID = 2 in FIG. 8 is translated. According to the translation word selection data of FIG. 9, as translation word candidates corresponding to the “flight information” of the h2 element, “Flight Info” with a priority of 51 and “Flight Information” with a priority of 82 It is. Therefore, “Flight Info” having a high priority is selected.
翻訳語選択用データでの優先度に基づいて、変換後の語(変換語)を選択することで、原語の見出しは短い(文字数が少ない)語に変換されやすく、かつ、本文は長い(文字数が多い)語に変換されやすい。この結果、文字数の少ない変換語は、相対的に大きな文字で表示されやすく、文字数の多い本文は、相対的に小さな文字で表示されやすくなるため、原語での文字の大小関係を保ちやすくなる。 By selecting the converted word (converted word) based on the priority in the translation word selection data, the heading of the original word can be easily converted to a short (small number of characters) word, and the text is long (number of characters) Easily converted to words. As a result, a conversion word with a small number of characters is likely to be displayed with relatively large characters, and a body with a large number of characters is likely to be displayed with relatively small characters, so that the size relationship of the characters in the original language can be easily maintained.
情報変換部14は、同様にして、各抽出文字列の翻訳語を決定し、決定された翻訳語を作業用テーブルに追記する。例えば、図8のID=3の抽出文字列である「本日のフライト情報は…。」に含まれる「フライト情報」については、翻訳語の候補として、優先度が42の「Flight Info」と優先度が15の「Flight Information」とがあるが、優先度の高い「Flight Information」が選択される。なお、ID=3の抽出文字列は、p要素から抽出されたものであるため、当該優先度は、上記したように、フォントサイズの近さは考慮されずに決定されたものであってもよい。
Similarly, the
なお、翻訳語選択用データは、基本的に単語に対する翻訳語の選択に利用される。抽出文字列が単語ではなく文章である場合、翻訳先の言語の文法にしたがった翻訳は、公知の翻訳技術を用いて行えばよい。 The translation word selection data is basically used for selecting a translation word for a word. When the extracted character string is not a word but a sentence, the translation according to the grammar of the translation destination language may be performed using a known translation technique.
全ての抽出文字列について翻訳が完了すると、作業用テーブルは、例えば、図11に示されるように更新される。図11では、各抽出文字列に対して、翻訳語と翻訳語のフォントサイズとが追記されている。翻訳語のフォントサイズは、例えば、翻訳語が、抽出文字列の横幅及び高さによって特定される矩形領域に収まる範囲で最大のフォントサイズが選択される。但し、p要素については、上述したように、翻訳前後のフォントサイズは、同じであってもよい。 When the translation is completed for all the extracted character strings, the work table is updated as shown in FIG. 11, for example. In FIG. 11, the translated word and the font size of the translated word are added to each extracted character string. As the font size of the translation word, for example, the maximum font size is selected in a range in which the translation word fits in a rectangular area specified by the horizontal width and height of the extracted character string. However, for the p element, as described above, the font size before and after translation may be the same.
なお、段落の長さに制限が有るp要素から抽出された抽出文字列の翻訳語は、次のように決定されてもよい。 In addition, the translation word of the extracted character string extracted from the p element with the restriction | limiting in the length of a paragraph may be determined as follows.
段落の長さに制限が有るp要素の翻訳結果の長さ(表示領域の大きさ)は、翻訳前の長さに近い方が望ましい。一方で、p要素の中身は文章であるため、様々な単語が用いられる可能性がある。したがって、単語ごとに、優先度の高い翻訳語を選択した結果、段落全体としては、翻訳前より表示領域が大きくなってしまうことが考えられる。この場合、優先度が相対的に低い翻訳語を、原語が共通する他の翻訳語に置き換えることで、段落全体の長さが調整されてもよい。 It is desirable that the length of the translation result of the p element, which is limited in the length of the paragraph (the size of the display area), be close to the length before translation. On the other hand, since the content of the p element is a sentence, various words may be used. Therefore, as a result of selecting a translated word having a high priority for each word, it is conceivable that the entire paragraph has a larger display area than before translation. In this case, the length of the entire paragraph may be adjusted by replacing a translation word having a relatively low priority with another translation word having a common original word.
例えば、翻訳結果の段落に、「International Airport」と「Access Information」とが含まれており、いずれか一方を短くすれば、翻訳前の段落の長さにより近くなる場合には、これら二つの翻訳語の優先度が比較される。p要素に関して、「International Airport」の優先度は、23であり、「Access Information」の優先度は、12である。したがって、優先度の高い「Access Information」が採用され、優先度の低い「International Airport」が、「Int. Airport」に置き換えられてもよい。 For example, if the translation result paragraph contains “International Airport” and “Access Information” and if one of them is shortened, it will be closer to the length of the pre-translation paragraph. Word priorities are compared. Regarding the p element, the priority of “International Airport” is 23, and the priority of “Access Information” is 12. Therefore, “Access Information” with a high priority may be adopted, and “International Airport” with a low priority may be replaced with “Int. Airport”.
また、情報変換部14は、翻訳前の各文字列の大小関係が保たれるように、各翻訳語のフォントサイズを補正する。例えば、情報変換部14は、翻訳前の各HTML要素を、抽出文字列のフォントサイズごとにグループ分けする。情報変換部14は、翻訳後のグループ間のフォントサイズの差が、翻訳前のグループ間のフォントサイズの差に出来るだけ近くなるように調整を行う。そうすることで、翻訳前のHTML要素間のバランスを、翻訳後においても保つことができる。
In addition, the
この場合、まず、翻訳語のフォントサイズの中で、最大のフォントサイズが基準とされてもよい。例えば、図11において、翻訳語のフォントサイズの最大値は、16ptである。この場合、当該フォントサイズに係るHTML要素と同じグループ(以下、「第1グループ」という。)に分類されたHTML要素のフォントサイズは、16ptに補正される。次にフォントサイズが大きなグループ(以下、「第2グループ」という。)に属する各HTML要素の翻訳語のフォントサイズは、第1グループの翻訳前のフォントサイズと、第2グループの翻訳前のフォントサイズとの差分を16ptから差し引いた値に補正される。例えば、図11において、翻訳前のh1要素のフォントサイズは、18ptであり、翻訳前のh2要素のフォントサイズは14ptであり、その差分は4ptである。したがって、この場合、h2要素の翻訳語のフォントサイズは、16pt−4p5=12ptとされる。この場合の作業用テーブルの例を図12に示す。図12に示される作業用テーブルでは、上位グループとのフォントサイズの差の列が追加されている。上位グループとは、グループをフォントサイズの降順にソートした場合における、1つ前のグループをいう。図12では、翻訳語のフォントサイズの値が、上位グループとのフォントサイズの差によって補正されている。 In this case, first, the maximum font size among the font sizes of the translated words may be used as a reference. For example, in FIG. 11, the maximum font size of the translated word is 16 pt. In this case, the font size of the HTML element classified into the same group as the HTML element related to the font size (hereinafter referred to as “first group”) is corrected to 16 pt. Next, the font size of the translated word of each HTML element belonging to the group with the next largest font size (hereinafter referred to as “second group”) is the font size before translation of the first group and the font before translation of the second group. It is corrected to a value obtained by subtracting the difference from the size from 16 pt. For example, in FIG. 11, the font size of the h1 element before translation is 18 pt, the font size of the h2 element before translation is 14 pt, and the difference is 4 pt. Therefore, in this case, the font size of the translation word of the h2 element is 16pt-4p5 = 12pt. An example of the work table in this case is shown in FIG. In the work table shown in FIG. 12, a column of font size difference from the upper group is added. The upper group is a previous group when the groups are sorted in descending order of font size. In FIG. 12, the font size value of the translated word is corrected by the font size difference from the upper group.
なお、グループ間のフォントサイズの差ではなく、グループ間のフォントサイズの比率が保たれるように、翻訳語のフォントサイズが補正されてもよい。 Note that the font size of the translated word may be corrected so that the ratio of the font sizes between groups is maintained, not the difference in font size between groups.
また、フォントサイズの補正は、翻訳語が、翻訳前の表示領域(抽出文字列の横幅及び高さ)に収まるという制限の範囲内で行われてもよい。例えば、第2グループのフォントサイズを12ptに補正した場合、第2グループに属するいずれかのHTML要素の翻訳語が、当該HTML要素の横幅及び高さに収まらない場合、当該HTML要素の翻訳語が当該HTML要素の横幅及び高さに収まる範囲で最大のフォントサイズが、第2グループのフォントサイズとされてもよい。 Further, the font size may be corrected within a limit range in which the translated word fits in the display area before translation (the width and height of the extracted character string). For example, when the font size of the second group is corrected to 12 pt, if the translated word of any HTML element belonging to the second group does not fit in the width and height of the HTML element, the translated word of the HTML element is The maximum font size within a range that fits in the horizontal width and height of the HTML element may be the second group font size.
続いて、情報変換部14は、図11又は図12に示される作業用テーブルに基づいて、情報蓄積部15に記録されたウェブコンテンツのHTML文書を書き換える(ステップS106)。具体的には、各HTML要素の値(文字列)が、翻訳語に置換される。また、各HTML要素に対して、フォントサイズを示す属性が追加される。この際、フォントサイズの値には、作業用テーブルにおける翻訳語のフォントサイズの値が用いられる。
Subsequently, the
続いて、制御部11は、情報蓄積部15に記録されたウェブコンテンツを表示装置106に表示する(ステップS107)。その結果、図13に示されるような翻訳後のウェブコンテンツが表示される。なお、ステップS106が実行されずに(すなわち、HTML文書の書き換えが行われずに)、ステップS107における表示処理の過程で、翻訳語への置換及びフォントサイズの変更等が行われてもよい。
Subsequently, the
上述したように、第1の実施の形態によれば、翻訳前(変換前)の各HTML要素間の大小関係が保たれるように翻訳(変換)が行われる。したがって、ウェブコンテンツ内の文字列を変換した場合に変換前後のバランスの変化を小さくすることができる。 As described above, according to the first embodiment, translation (conversion) is performed so that the magnitude relationship between HTML elements before translation (before conversion) is maintained. Therefore, when the character string in the web content is converted, the change in the balance before and after conversion can be reduced.
上記の例では、変換対象の語(単語)に対して1つ以上の変換後の語(単語)の候補が記憶部に対応付けて記憶されているが、変換対象と変換後との対応付けはこの方法に限定されない。たとえば、変換装置10が、送受信部12を介して外部の変換用装置に変換対象の語(単語)を送信し、その応答として1つ以上の変換後の語(単語)を受信することとしても良い。
In the above example, one or more converted word (word) candidates are stored in association with the storage unit for the conversion target word (word). Is not limited to this method. For example, the
また、上記の例では入力装置107を介してウェブコンテンツの表示指示の入力をユーザから受け付けることとしているが、変換すべきウェブコンテンツの情報を取得する方法は他の方法であっても良い。たとえば、図示していない利用者端末がウェブサーバに対してコンテンツ閲覧要求を送信する際に、変換装置をプロキシとして設定しておくことで、利用者端末が送信するHTTPリクエストを変換装置が送受信部を介して取得し、利用者端末から取得したURLに対してHTTPリクエストを送信することで、Webサーバからウェブコンテンツを取得し、この取得したウェブコンテンツを変換して利用者端末に(HTTPリクエストへの応答として)送信する構成としても良い。
In the above example, an input of a web content display instruction is received from the user via the
また、上記の例では取得したウェブコンテンツと作業用テーブル、翻訳語選択用データを情報記憶部15に記憶することとしたが、データ量が大きく主なアクセスが読み込みとなる翻訳語選択用データはデータベースに記憶し、翻訳語選択用データと比べると情報量が少なく、かつ、高い頻度で読み書きを行うウェブコンテンツと作業用テーブルはメモリに記憶する、という様に記憶部を使い分けることとしても良い。
In the above example, the acquired web content, work table, and translation word selection data are stored in the
また、上記の例ではウェブコンテンツに付与されているタグを用いて文字の大小関係を判定しているが、タグ(h1、pなどの要素名)が付与されていない場合には、既存の文字切り出し技術を用いて各文字の大きさ(例:フォントサイズ)を推測して、フォントサイズの情報をHTMLのタグ情報の代替として用いることとしても良い。さらに、フォントサイズの種類が所定の閾値以上抽出された場合、予め定めた規則によりフォントサイズをクラスタリングすることとしても良い(予め定めた規則の例:フォントサイズ32ポイント以上がHTMLタグh1に対応、フォントサイズ24ポイントから31ポイントまでがh1に対応)。 In the above example, the size relationship between characters is determined using a tag attached to web content, but if a tag (element name such as h1, p) is not attached, existing characters are used. It is also possible to estimate the size of each character (eg, font size) using a clipping technique and use the font size information as an alternative to HTML tag information. Further, when the font size type is extracted more than a predetermined threshold value, the font sizes may be clustered according to a predetermined rule (an example of a predetermined rule: a font size of 32 points or more corresponds to the HTML tag h1, The font size from 24 to 31 points corresponds to h1).
また、上記の例では翻訳語選択用データでの優先度を、優先すべきものほど小さな値を付与することとしたが、優先すべきものほど大きな値をとることとしても良い(この場合、優先度の評価式も対応付けて変更することとなる)。 Further, in the above example, the priority in the translation word selection data is given a smaller value as the priority should be given, but it is also possible to take a larger value as the priority should be given (in this case, the priority is given). The evaluation formula is also changed correspondingly).
また、変換装置10が、変換種別(例1:日本語から英語に翻訳、例2:日本語の専門的な技術書をわかりやすい日本語に変換)と、外部の各変換用装置の宛先の情報を対応付けて記憶部に保持しておき、変換種別を特定する指示を受けて、変換種別に応じた変換用装置を特定して、その変換用装置に変換対象の語を送信して変換結果を得ることにより、多種の変換を実現することとしても良い。
Also, the
次に、第2の実施の形態について説明する。第2の実施の形態では第1の実施の形態と異なる点について説明する。第2の実施の形態において特に言及されない点については、第1の実施の形態と同様でもよい。 Next, a second embodiment will be described. In the second embodiment, differences from the first embodiment will be described. Points that are not particularly mentioned in the second embodiment may be the same as those in the first embodiment.
第1の実施の形態では、フォントサイズが最も大きな抽出文字列に対する翻訳語のフォントサイズを基準として、それよりフォントサイズが小さい翻訳語のフォントサイズが順次決定された。しかし、フォントサイズが同じでも、太字や異なるフォントを使う等、文字を修飾することで、文字を大きく見せることができる。第2の実施の形態では、文字の表現の変更(修飾)をも用いて、HTML要素間の大小関係を保つ例について説明する。例えば、異なるフォントサイズの文字列を類似するフォントサイズの翻訳語に変換する場合に、コンテンツデータにおいて相対的に大きなフォントサイズの文字列が相対的に小さなフォントサイズの文字列よりも目立つように文字列の表現の変換が行われる。 In the first embodiment, based on the font size of the translated word for the extracted character string having the largest font size, the font size of the translated word having a smaller font size is sequentially determined. However, even if the font size is the same, it is possible to make the characters look larger by modifying the characters, such as using bold or different fonts. In the second embodiment, an example in which the magnitude relationship between HTML elements is maintained using a change (modification) of character expression will be described. For example, when converting a character string with a different font size into a translated word with a similar font size, the character string with a relatively large font size is more prominent than a character string with a relatively small font size in the content data. Conversion of the column representation is performed.
第2の実施の形態では、ステップS105の終了時点において、例えば、図15に示されるように作業用テーブルが更新される。 In the second embodiment, at the end of step S105, for example, the work table is updated as shown in FIG.
図14は、第2の実施の形態における各抽出文字列の翻訳後の作業用テーブルの例を示す図である。図14に示される作業用テーブルには、図8に対して、翻訳語のフォント修飾及び補正フォントサイズ等の列が追加されている。 FIG. 14 is a diagram illustrating an example of a work table after translation of each extracted character string in the second embodiment. In the work table shown in FIG. 14, columns such as font modification of the translation word and corrected font size are added to FIG.
フォント修飾は、抽出文字列に対する修飾方法等である。翻訳語のフォント修飾は、翻訳語に対して付与されることが決定された修飾方法等である。補正フォントサイズは、翻訳語についての補正後のフォントサイズである。修飾が行われる翻訳語については、修飾による効果も、補正フォントサイズに加算される。 Font modification is a modification method for the extracted character string. The font modification of the translation word is a modification method determined to be given to the translation word. The corrected font size is the corrected font size for the translated word. For translated words that are modified, the effect of the modification is also added to the corrected font size.
翻訳語のフォント修飾及び補正フォントサイズのそれぞれの列の値は、ステップS105において、情報変換部14が、各翻訳語のフォントサイズを補正する際に記録される。すなわち、第2の実施の形態において、翻訳語のフォントサイズの補正は、当該フォントサイズ自体の変更のみならず、翻訳語の修飾等をも用いて行われる。
The values in the respective columns of the font modification and the corrected font size of the translated word are recorded when the
各翻訳語に付与される修飾等は、例えば、図15に示されるようなテーブルを参照して行われてもよい。 The modification or the like given to each translated word may be performed with reference to a table as shown in FIG.
図15は、文字修飾換算テーブルの一例を示す図である。図15に示される文字修飾換算テーブルには、文字の修飾方法ごとに、フォントサイズ換算値及び優先順位が設定されている。フォントサイズ換算値は、該当する修飾方法によるフォントサイズへの影響又は作用の大きさを示す値であり、+N(又は−N)の形式を有する。+Nは、フォントサイズがNpt大きく見せる効果を有すること示す。優先順位は、翻訳語に対する修飾方法を選択する際の優先順位を示す。優先順位では、フォントサイズ換算値が相対的に大きい(フォントサイズの拡大効果が相対的に大きい)修飾方法が上位とされている。なお、文字修飾換算テーブルは、例えば、予め、情報蓄積部15に記憶されている。
FIG. 15 is a diagram illustrating an example of the character modification conversion table. In the character modification conversion table shown in FIG. 15, a font size conversion value and a priority order are set for each character modification method. The font size conversion value is a value indicating the magnitude of the influence or action on the font size by the corresponding modification method, and has a format of + N (or -N). + N indicates that the font size has an effect of increasing Npt. The priority order indicates a priority order when selecting a modification method for a translated word. In the priority order, a modification method having a relatively large font size conversion value (a relatively large font size enlargement effect) is ranked high. The character modification conversion table is stored in the
情報変換部14は、まず、第1グループ(翻訳前のフォントサイズが最大のグループ)の翻訳語のフォントサイズと、翻訳前のフォントサイズとの差分を埋めるために、第1グループの各HTML要素に対する修飾方法を決定する。
First, the
例えば、図14において、h1要素からの抽出文字列である「横須賀国際空港」のフォントサイズは18ptであり、フォント修飾は、ゴシックである。また、「横須賀国際空港」の翻訳語である「Yokosuka Int.Airport」のフォントサイズは、14ptである。したがって、情報変換部14は、18pt−14pt=4ptの差分を埋めることができる修飾方法を、文字修飾換算テーブルを参照し探索する。この際、優先順位が上位である修飾方法から順に、翻訳語への適用が試みられる。
For example, in FIG. 14, the font size of “Yokosuka International Airport”, which is an extracted character string from the h1 element, is 18 pt, and the font modification is Gothic. The font size of “Yokosuka Int. Airport”, which is a translated word of “Yokosuka International Airport”, is 14 pt. Therefore, the
まず、優先順位が1の修飾方法である、「太字」が選択される。当該修飾方法のフォントサイズ換算値は+3であり、必要な4ptに対して1pt足りない。そこで、優先順位が2の修飾方法である「ゴシック」が選択される。当該修飾方法のフォントサイズ換算値は+1である。そうすると、「太字」と「ゴシック」とを合わせることで、4pt分の効果を得ることができる。よって、h1要素の翻訳語のフォント修飾の値は、「太字+ゴシック」となる。 First, “bold”, which is a modification method with a priority of 1, is selected. The font size conversion value of the modification method is +3, which is less than 1 pt for the required 4 pt. Therefore, “Gothic”, which is a modification method with a priority of 2, is selected. The font size conversion value of the modification method is +1. Then, by combining “bold” and “gothic”, an effect of 4 pt can be obtained. Therefore, the font modification value of the translated word of the h1 element is “bold + gothic”.
第2グループ以下は、上位のグループの補正フォントサイズに基づいて、補正フォントサイズ及び修飾方法が決定される。この際、翻訳語のフォントサイズは、作業用テーブルに記録されている翻訳語のフォントサイズより大きくできないこととする。翻訳語のフォントサイズは、原語の表示領域の範囲に表示可能な最大のものが選択されているからである。或るグループの翻訳語のフォントサイズと、上位グループの補正フォントサイズと差分が、翻訳前のグループ間のフォントサイズの差分に満たない場合に、当該グループの翻訳語に対する修飾が行われる。例えば、第1グループのh1要素と第2グループのh2要素とについて、翻訳前のフォントサイズの差分は、4ptである。ここで、h2要素の翻訳語のフォントサイズは、14ptである。この場合、14ptをそのまま採用することで、h1要素の翻訳語の補正フォントサイズとの差分を4ptとすることができる。したがって、h2要素については、翻訳語のフォント修飾は「なし」となり、補正フォントサイズは、14ptとなる。 In the second group and thereafter, the correction font size and the modification method are determined based on the correction font size of the upper group. At this time, it is assumed that the font size of the translated word cannot be larger than the font size of the translated word recorded in the work table. This is because the maximum font size that can be displayed in the range of the display area of the original word is selected as the font size of the translated word. When the font size of a translation word of a certain group and the corrected font size and the difference of the upper group are less than the font size difference between the groups before translation, the translation of the group is modified. For example, the difference in font size before translation between the h1 element of the first group and the h2 element of the second group is 4 pt. Here, the font size of the translated word of the h2 element is 14 pt. In this case, by adopting 14pt as it is, the difference from the corrected font size of the translated word of the h1 element can be set to 4pt. Therefore, for the h2 element, the font modification of the translated word is “none”, and the correction font size is 14 pt.
また、第2グループのh2要素と、第3グループのh3要素との翻訳前のフォントサイズの差分は、2ptである。ここで、h3要素の翻訳語のフォントサイズは、12ptである。この場合、12ptをそのまま採用することで、h2要素の翻訳語の補正フォントサイズとの差分を2ptとすることができる。したがって、h3要素については、翻訳語のフォント修飾は「なし」となり、補正フォントサイズは、12ptとなる。 The difference in font size before translation between the h2 element of the second group and the h3 element of the third group is 2 pt. Here, the font size of the translated word of the h3 element is 12 pt. In this case, by adopting 12pt as it is, the difference from the corrected font size of the translated word of the h2 element can be set to 2pt. Therefore, for the h3 element, the font modification of the translated word is “none”, and the correction font size is 12 pt.
一方、第3グループのh3要素と、第4グループのp要素との翻訳前のフォントサイズの差分は、1ptである。ここで、p要素の翻訳語のフォントサイズは、9ptである。この場合、9ptをそのまま採用しては、第3グループの補正フォントサイズとである12ptとの差を1にすることができない。すなわち、p要素のフォントサイズを2pt大きくする必要が有る。そこで、情報変換部14は、2pt分の修飾方法を文字修飾換算データを参照して探索する。その結果、優先順位が2の「ゴシック」と、優先順位が3の「大文字」とが選択される。二つの選択方法のフォントサイズ換算値の合計が+2ptだからである。したがって、p要素の翻訳語のフォント修飾には、「ゴシック+大文字」が記録される。また、p要素の補正フォントサイズは、9+2=11ptとなる。なお、大文字とは、例えば、「Flight Info」であれば、「FLIHT INFO」とすることである。
On the other hand, the difference in font size before translation between the h3 element of the third group and the p element of the fourth group is 1 pt. Here, the font size of the translated word of the p element is 9 pt. In this case, if 9pt is adopted as it is, the difference between 12pt, which is the third group correction font size, cannot be made 1. That is, it is necessary to increase the font size of the p element by 2 pt. Therefore, the
上述したように、第2の実施の形態によれば、基準となる第1グループに属するHTML要素について、翻訳前のフォントサイズと同程度のフォントサイズの印象を与えられるように、翻訳語の文字列に関して修飾が行われる。第2グループ以下のグループについては、第1グループを基準として、翻訳語のフォントサイズが補正される。また、抽出文字列の表示領域に収めるために翻訳語フォントサイズを大きく出来ない場合であっても、フォント修飾によって、フォントサイズを擬似的に大きくすることができる。したがって、第2の実施の形態では、第1の実施の形態と比較して、翻訳前後のバランスの変化を更に小さくすることができる。 As described above, according to the second embodiment, the characters of the translated word are given so that the HTML element belonging to the first group as a reference can be given an impression of the same font size as the font size before translation. Qualification is done on the column. For groups below the second group, the font size of the translated word is corrected based on the first group. Even if the translated word font size cannot be increased to fit in the display area of the extracted character string, the font size can be increased in a pseudo manner by font modification. Therefore, in the second embodiment, the change in the balance before and after translation can be further reduced as compared with the first embodiment.
なお、フォントサイズ換算値は、正の値に限定されるものではなく、目立たなくする表現の変更(例えば、文字の色をグレーにする、細字にする等)を負の換算値に対応付けることとしてもよい。 Note that the font size conversion value is not limited to a positive value, and changes in expression that make it inconspicuous (for example, changing the color of a character to gray, thinning, etc.) are associated with a negative conversion value. Also good.
次に、第3の実施の形態について説明する。第3の実施の形態では第1の実施の形態と異なる点について説明する。第3の実施の形態において特に言及されない点については、第1の実施の形態と同様でもよい。 Next, a third embodiment will be described. In the third embodiment, differences from the first embodiment will be described. Points not particularly mentioned in the third embodiment may be the same as those in the first embodiment.
第1の実施の形態及び第2の実施の形態では、タグ付けされたHTML要素に応じて、翻訳語を選択する方法について説明した。しかし、実際には意味的にタグ付けされていなくても、文字列に意味を持たせているウェブコンテンツが数多く存在する。例えば、見出しにh1要素を使うべきところを、div要素などを使ってフォントサイズをスタイルシートで指定することにより、見た目上、見出しとして見えるようにしているウェブコンテンツも有る。このようなウェブコンテンツに対して第1の実施の形態を適用するのは困難である。本来であれば、全てのウェブコンテンツが、正しい要素でマークアップして、アクセシビリティに対応することが求められるが、第3の実施の形態では、アクセシビリティに配慮していないウェブコンテンツに対応することを目指す。具体的には、HTML要素に依存せず、フォントサイズに基づいて、翻訳語が決定される。 In the first embodiment and the second embodiment, the method of selecting a translation word according to the tagged HTML element has been described. However, there are many web contents that give meaning to character strings even though they are not semantically tagged. For example, some web contents are made to appear as a headline by visually specifying where the h1 element should be used for the headline and specifying the font size in the style sheet using the div element or the like. It is difficult to apply the first embodiment to such web content. Originally, all web content must be marked up with the correct elements to support accessibility, but in the third embodiment, it is necessary to support web content that does not consider accessibility. aim. Specifically, the translation word is determined based on the font size without depending on the HTML element.
図16は、第3の実施の形態における変換装置が実行する処理手順を説明するためのフローチャートである。図16中、図6と同一ステップには同一ステップ番号を付し、その説明は省略する。 FIG. 16 is a flowchart for explaining a processing procedure executed by the conversion apparatus according to the third embodiment. In FIG. 16, the same steps as those in FIG. 6 are denoted by the same step numbers, and the description thereof is omitted.
図16では、ステップS105が、ステップS105aに置換されている。ステップS105aにおいて、情報変換部14は、フォントサイズが大きい抽出文字列から順に翻訳語を決定する。この際、情報変換部14は、図17に示されるような翻訳語選択用データを参照する。すなわち、第3の実施の形態では、翻訳語選択用データの構成が、第1の実施の形態(図9)と異なる。
In FIG. 16, step S105 is replaced with step S105a. In step S105a, the
図17は、第3の実施の形態における翻訳語選択用データの一例を示す図である。図17において、翻訳語選択用データは、翻訳対象の語(原語)ごとに、翻訳語の候補と優先度とを含む。図9と大きく異なる点は、優先度が、HTML要素ごとではなく、フォントサイズの範囲ごとに定義されている点である。なお、フォントサイズの範囲の表現において、「Xpt〜Ypt」は、Xpt以上Ypt未満を示す。図17では、フォントサイズの範囲ごとに優先度が定義されているが、更に細分化されて、フォントサイズごとに、優先度が定義されてもよい。 FIG. 17 is a diagram illustrating an example of translation word selection data according to the third embodiment. In FIG. 17, the translation word selection data includes translation word candidates and priorities for each word (original language) to be translated. A significant difference from FIG. 9 is that the priority is defined for each font size range, not for each HTML element. In the expression of the font size range, “Xpt to Ypt” indicates Xpt or more and less than Ypt. In FIG. 17, the priority is defined for each font size range, but may be further subdivided to define the priority for each font size.
ここでは、図8においてID=2の抽出文字列(「フライト情報」)に対する翻訳語の決定について説明する。なお、ID=2の抽出文字列のフォントサイズの大きさは2番目であるため、当該抽出文字列の翻訳語は、2番目に決定される。また、第3の実施の形態の作業用テーブル(図8)は、要素名の列を含まなくてもよい。 Here, determination of the translation word for the extracted character string (“flight information”) with ID = 2 in FIG. 8 will be described. Note that since the font size of the extracted character string with ID = 2 is second, the translated word of the extracted character string is determined second. The work table (FIG. 8) according to the third embodiment may not include the element name column.
図17によると、「フライト情報」の翻訳語の候補は、「Flight Info」と「Flight Information」とである。一方、図8によれば、ID=2の抽出文字列(「フライト情報」)のフォントサイズは、14ptである。したがって、それぞれの候補の優先度は、図17において、抽出文字列のフォントサイズである14ptに対応する「14pt〜16pt」の列を参照して特定される。その結果、「Flight Info」の優先度が42であり、「Flight Information」の優先度が55であることが特定される。「Flight Info」の方が優先度が高いため、「Flight Info」が「フライト情報」の翻訳語として選択される。また、「Flight Info」のフォントサイズが、「フライト情報」の横幅及び高さに基づいて決定される。 According to FIG. 17, the translation word candidates of “flight information” are “Flight Info” and “Flight Information”. On the other hand, according to FIG. 8, the font size of the extracted character string with ID = 2 (“flight information”) is 14 pt. Therefore, the priority of each candidate is specified with reference to the column “14pt to 16pt” corresponding to 14pt which is the font size of the extracted character string in FIG. As a result, it is specified that the priority of “Flight Info” is 42 and the priority of “Flight Information” is 55. Since “Flight Info” has a higher priority, “Flight Info” is selected as a translated word of “Flight Information”. Further, the font size of “Flight Info” is determined based on the width and height of “Flight Information”.
続いて、図8のID=3の抽出文字列である「本日のフライト情報は…。」に含まれる「フライト情報」の翻訳語の決定について説明する。図17によると、「フライト情報」の翻訳語の候補は、「Flight Info」と「Flight Information」とである。一方、図8によれば、ID=3の抽出文字列のフォントサイズは、12ptである。したがって、それぞれの候補の優先度は、図17において、抽出文字列のフォントサイズである12ptに対応する「14pt未満」の列を参照して特定される。その結果、「Flight Info」の優先度が44であり、「Flight Information」の優先度が23であることが特定される。「Flight Information」の方が優先度が高いため、「Flight Information」が「フライト情報」の翻訳語として選択される。 Next, the determination of the translation word of “flight information” included in “Today's flight information is ...” that is the extracted character string of ID = 3 in FIG. 8 will be described. According to FIG. 17, the translation word candidates of “flight information” are “Flight Info” and “Flight Information”. On the other hand, according to FIG. 8, the font size of the extracted character string with ID = 3 is 12 pt. Accordingly, the priority of each candidate is specified with reference to a column of “less than 14 pt” corresponding to 12 pt which is the font size of the extracted character string in FIG. As a result, it is specified that the priority of “Flight Info” is 44 and the priority of “Flight Information” is 23. Since “Flight Information” has a higher priority, “Flight Information” is selected as a translated word of “Flight Information”.
同様にして、各抽出文字列の翻訳語が決定され、作業用テーブルは、図11のように更新される。但し、要素名の列は不要である。また、フォントサイズに基づくグループ間のフォントサイズの差に基づいて、各翻訳語のフォントサイズが補正される。 Similarly, the translated word of each extracted character string is determined, and the work table is updated as shown in FIG. However, the element name column is not necessary. Further, the font size of each translated word is corrected based on the difference in font size between groups based on the font size.
続いて、第1の実施の形態と同様に、翻訳後のウェブコンテンツが表示される(ステップS107)。 Subsequently, the translated web content is displayed as in the first embodiment (step S107).
上述したように、第3の実施の形態によれば、正しい要素でマークアップされておらず、アクセシビリティに対応していないウェブコンテンツであっても、第1の実施の形態と同様の効果を得ることができる。 As described above, according to the third embodiment, the same effects as those of the first embodiment can be obtained even for web content that is not marked up with correct elements and does not support accessibility. be able to.
なお、第2の実施の形態が、第3の実施の形態に組み合わされてもよい。 Note that the second embodiment may be combined with the third embodiment.
また、上記各実施の形態は、ウェブコンテンツ以外のコンテンツデータに関して適用されてもよい。 Each of the above embodiments may be applied to content data other than web content.
なお、本実施の形態において、情報変換部14は、変換部の一例である。翻訳語の候補は、変換候補の一例である。フォントサイズは、表示サイズの一例である。
In the present embodiment, the
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 As mentioned above, although the Example of this invention was explained in full detail, this invention is not limited to such specific embodiment, In the range of the summary of this invention described in the claim, various deformation | transformation・ Change is possible.
10 変換装置
11 制御部
12 送受信部
13 情報解析部
14 情報変換部
15 情報蓄積部
20 ウェブサーバ
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
B バス
DESCRIPTION OF
105 Interface device B bus
Claims (8)
前記優先度は、同一の原語に対して複数の変換候補が有る場合に各変換候補の変換結果として採用するか否かを表す優劣を判定するための数値として一つの変換候補に対して前記表示形式に基づく要素ごとに定めらており、
前記変換部は、複数の変換候補が有る文字列については、当該文字列に係る前記表示形式に基づく要素に関して前記複数の変換候補のそれぞれに定められている優先度に基づいて変換候補を選択する、
ことを特徴とする変換装置。 For each character string for each element based on the display format in the content data, it has a conversion unit that selects conversion candidates with reference to a storage unit that stores one or more conversion candidates and priorities in association with each original word,
The priority is displayed for one conversion candidate as a numerical value for determining whether the conversion is adopted as a conversion result of each conversion candidate when there are a plurality of conversion candidates for the same source language. It is defined for each element based on the format,
The conversion unit selects a conversion candidate for a character string having a plurality of conversion candidates based on a priority set for each of the plurality of conversion candidates with respect to an element based on the display format related to the character string. ,
A conversion device characterized by that.
ことを特徴とする請求項1記載の変換装置。 For conversion candidates with a small number of characters relative to the original language, the priority of the element representing the upper heading in the content data is higher than the priority of the element representing the lower heading, and the priority of the element representing the heading is the text. It is set to be higher than the priority of the element representing, and for other conversion candidates, the priority of the element representing the body is higher than the element representing the heading, and the element representing the lower heading The priority is set to be higher than the priority of the element representing the top headline,
The conversion device according to claim 1.
前記優先度は、同一の原語に対して複数の変換候補が有る場合に各変換候補の変換結果として採用するか否かを表す優劣を判定するための数値として一つの変換候補に対して表示サイズの範囲ごとに定めらており、
前記変換部は、複数の変換候補が有る文字列については、当該文字列の表示サイズを含む前記範囲に関して前記複数の変換候補のそれぞれに定められている優先度に基づいて変換候補を選択する、
ことを特徴とする変換装置。 For each character string for each element based on the display format in the content data, it has a conversion unit that selects conversion candidates with reference to a storage unit that stores one or more conversion candidates and priorities in association with each original word,
The priority is a display size for one conversion candidate as a numerical value for determining whether or not to adopt as a conversion result of each conversion candidate when there are a plurality of conversion candidates for the same source language. For each range of
For the character string having a plurality of conversion candidates, the conversion unit selects a conversion candidate based on the priority set for each of the plurality of conversion candidates with respect to the range including the display size of the character string.
A conversion device characterized by that.
ことを特徴とする請求項1又は3いずれか一項記載の変換装置。 The conversion unit has an overall display area of the plurality of conversion candidates selected for each of the plurality of character strings of the source language larger than the display area of the plurality of character strings of the source language, and the plurality of characters of the source language For any one or more character strings in the column, when another conversion candidate having a smaller number of characters than the selected conversion candidate is stored in the storage unit, the conversion candidate selected for each of the one or more character strings Replace a conversion candidate with a relatively low priority with another conversion candidate.
The conversion device according to claim 1, wherein the conversion device is characterized in that
ことを特徴とする請求項1又は3記載の変換装置。 When the display size of the source language character string is different from the display size of the conversion candidate selected for the source language character string, the conversion unit includes at least a font, a character thickness, and a character color. For each of the modification methods, a second value that stores a conversion value indicating the influence or effect of the modification method on the display size and a priority order in which the modification method having a relatively large conversion value is higher is stored. With reference to the storage unit, for the conversion candidates selected for the original language character string, one or more such that the total of the converted values is the difference between the display size of the original language character string and the display size of the conversion candidate Selecting the modification method based on the priority,
The conversion device according to claim 1 or 3, wherein
コンテンツデータにおける表示形式に基づく各要素に対する各文字列について、原語ごとに1以上の変換候補及び優先度を対応付けて記憶した記憶部を参照して変換候補を選択する変換手順を実行し、
前記優先度は、同一の原語に対して複数の変換候補が有る場合に各変換候補の変換結果として採用するか否かを表す優劣を判定するための数値として一つの変換候補に対して前記表示形式に基づく要素ごとに定めらており、
前記変換手順は、複数の変換候補が有る文字列については、当該文字列に係る前記表示形式に基づく要素に関して前記複数の変換候補のそれぞれに定められている優先度に基づいて変換候補を選択する、
ことを特徴とする変換方法。 Computer
For each character string for each element based on the display format in the content data, execute a conversion procedure for selecting a conversion candidate with reference to a storage unit that stores one or more conversion candidates and priorities in association with each original word,
The priority is displayed for one conversion candidate as a numerical value for determining whether the conversion is adopted as a conversion result of each conversion candidate when there are a plurality of conversion candidates for the same source language. It is defined for each element based on the format,
In the conversion procedure, for a character string having a plurality of conversion candidates, a conversion candidate is selected based on a priority set for each of the plurality of conversion candidates with respect to an element based on the display format related to the character string. ,
A conversion method characterized by that.
コンテンツデータにおける表示形式に基づく各要素に対する各文字列について、原語ごとに1以上の変換候補及び優先度を対応付けて記憶した記憶部を参照して変換候補を選択する変換手順を実行し、
前記優先度は、同一の原語に対して複数の変換候補が有る場合に各変換候補の変換結果として採用するか否かを表す優劣を判定するための数値として一つの変換候補に対して表示サイズの範囲ごとに定めらており、
前記変換手順は、複数の変換候補が有る文字列については、当該文字列の表示サイズを含む前記範囲に関して前記複数の変換候補のそれぞれに定められている優先度に基づいて変換候補を選択する、
ことを特徴とする変換方法。 Computer
For each character string for each element based on the display format in the content data, execute a conversion procedure for selecting a conversion candidate with reference to a storage unit that stores one or more conversion candidates and priorities in association with each original word,
The priority is a display size for one conversion candidate as a numerical value for determining whether or not to adopt as a conversion result of each conversion candidate when there are a plurality of conversion candidates for the same source language. For each range of
In the conversion procedure, for a character string having a plurality of conversion candidates, a conversion candidate is selected based on a priority set for each of the plurality of conversion candidates with respect to the range including the display size of the character string.
A conversion method characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018104278A JP6564910B2 (en) | 2018-05-31 | 2018-05-31 | CONVERSION DEVICE, CONVERSION METHOD, AND PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018104278A JP6564910B2 (en) | 2018-05-31 | 2018-05-31 | CONVERSION DEVICE, CONVERSION METHOD, AND PROGRAM |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015161589A Division JP2017041039A (en) | 2015-08-19 | 2015-08-19 | Conversion device, conversion method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018152120A JP2018152120A (en) | 2018-09-27 |
JP6564910B2 true JP6564910B2 (en) | 2019-08-21 |
Family
ID=63681018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018104278A Active JP6564910B2 (en) | 2018-05-31 | 2018-05-31 | CONVERSION DEVICE, CONVERSION METHOD, AND PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6564910B2 (en) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003060767A (en) * | 2001-08-21 | 2003-02-28 | Kenwood Corp | Portable telephone system |
JP3952009B2 (en) * | 2003-12-02 | 2007-08-01 | 日本電気株式会社 | Translation memory system, translation method, and program for translation memory system |
JP4556593B2 (en) * | 2004-09-28 | 2010-10-06 | ブラザー工業株式会社 | Print data processing apparatus, print data processing program, and computer-readable recording medium |
JP2006164179A (en) * | 2004-12-10 | 2006-06-22 | Nippon Telegr & Teleph Corp <Ntt> | Information presentation device and information presentation method |
JP2008299780A (en) * | 2007-06-04 | 2008-12-11 | Fuji Xerox Co Ltd | Image processing device and program |
US8484562B2 (en) * | 2010-06-25 | 2013-07-09 | Apple Inc. | Dynamic text adjustment in a user interface element |
JP5674450B2 (en) * | 2010-12-22 | 2015-02-25 | 富士フイルム株式会社 | Electronic comic viewer device, electronic comic browsing system, viewer program, recording medium on which the viewer program is recorded, and electronic comic display method |
JP2012173785A (en) * | 2011-02-17 | 2012-09-10 | Nec Corp | Translation result display method, translation result display system, translation result creation device and translation result display program |
WO2014147674A1 (en) * | 2013-03-22 | 2014-09-25 | パナソニック株式会社 | Advertisement translation device, advertisement display device and advertisement translation method |
-
2018
- 2018-05-31 JP JP2018104278A patent/JP6564910B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018152120A (en) | 2018-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Asakawa et al. | Transcoding | |
CN107256234B (en) | A kind of web page text method of adjustment and its equipment | |
US8935150B2 (en) | Dynamic generation of auto-suggest dictionary for natural language translation | |
US7176931B2 (en) | Modifying hyperlink display characteristics | |
US8612206B2 (en) | Transliterating semitic languages including diacritics | |
JP4344693B2 (en) | System and method for browser document editing | |
US20130238310A1 (en) | Content page url translation | |
US20120072831A1 (en) | Method for creating a multi-lingual web page | |
US20150033116A1 (en) | Systems, Methods, and Media for Generating Structured Documents | |
JP5105513B2 (en) | Technology that selects the appropriate text for processing | |
JPWO2014147674A1 (en) | Advertisement translation device, advertisement display device, and advertisement translation method | |
JP2000090001A (en) | Method and system for conversion of electronic data using conversion setting | |
JP2010129057A (en) | Information processor, display data translation method, and program | |
US8094940B2 (en) | Input method transform | |
AU2019341037B2 (en) | Dynamically adjusting text strings based on machine translation feedback | |
JP6564910B2 (en) | CONVERSION DEVICE, CONVERSION METHOD, AND PROGRAM | |
CN109445900B (en) | Translation method and device for picture display | |
CN111143749A (en) | Webpage display method, device, equipment and storage medium | |
JP2017041039A (en) | Conversion device, conversion method and program | |
JP2019053262A (en) | Learning system | |
US11256776B2 (en) | System and method for on-the-fly conversion of non-accessible online documents to accessible documents | |
JPWO2006016477A1 (en) | Translation system, translation server, translation server processing method, program, information storage medium, and translation apparatus | |
WO2022061857A1 (en) | Method for operating a terminal when accessing a web page defined by a code in a markup language | |
JP5477785B2 (en) | Formula display control apparatus, computer program, and program storage medium | |
JP2006221272A (en) | System, method and program for multilingual translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190723 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190729 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6564910 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |