JP5528420B2 - 翻訳装置、翻訳方法及びコンピュータプログラム - Google Patents

翻訳装置、翻訳方法及びコンピュータプログラム Download PDF

Info

Publication number
JP5528420B2
JP5528420B2 JP2011266170A JP2011266170A JP5528420B2 JP 5528420 B2 JP5528420 B2 JP 5528420B2 JP 2011266170 A JP2011266170 A JP 2011266170A JP 2011266170 A JP2011266170 A JP 2011266170A JP 5528420 B2 JP5528420 B2 JP 5528420B2
Authority
JP
Japan
Prior art keywords
word
translation
collocation
kanji
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011266170A
Other languages
English (en)
Other versions
JP2013117927A (ja
Inventor
毅 九津見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2011266170A priority Critical patent/JP5528420B2/ja
Priority to US13/691,994 priority patent/US20130144598A1/en
Priority to CN2012105111270A priority patent/CN103136195A/zh
Publication of JP2013117927A publication Critical patent/JP2013117927A/ja
Application granted granted Critical
Publication of JP5528420B2 publication Critical patent/JP5528420B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Description

本発明は、第1言語の原文を、第2言語に翻訳して出力する翻訳装置、翻訳方法及びコンピュータプログラムに関する。
従来、ある言語で書かれた文書に対して自動で他の言語に翻訳する技術が知られている。近年、このような技術を用いる翻訳装置として、文書原文の全文ではなく、原文中の単語又は連語ごとにその訳語を得て、訳語を原文の近傍に添えて出力する装置が考案されている。
このような翻訳装置は、一般的に、単語又は連語の難易度及び使用頻度に応じて訳出の要否を決定する手段を備えており、訳出しないと決定された単語又は連語の訳語を出力しないことにより、出力結果の煩雑化を防ぎ、読みやすさを確保している。
また、中国語及び日本語のような漢字を使う言語に対して、漢字の起源に係る情報を利用する日本語と中国語との間の翻訳技術も考案されている。例えば、特許文献1には、日本語単語と中国語単語との漢字対応関係に基づいて、日本語単語の複数の中国語訳語から、適切な中国語訳語を選択する日中機械翻訳装置が記載されている。
特開2006−309346号公報
しかしながら、単語又は連語の難易度及び使用頻度に応じて訳出の要否を決定する上記翻訳装置では、単語又は連語の難易度及び使用頻度が学習者の母語によって異なるため、学習者にとって不要な訳語も出力され、出力結果が煩雑になる問題がある。特に、同一の文字からなる単語又は連語を含む両言語の対訳には、上記問題が著しくなる。
例えば、図12は従来の翻訳装置にて中国語を日本語に翻訳して出力する例を示す図である。図12に示すように、従来の翻訳装置にて、中国語話者にとっての難易度及び使用頻度に基づいて幾つかの中国語の単語を訳出して出力しているが、中国語の「海外」と日本語の「海外」とは、同一の文字からなる単語であり、意味も同じであるので、仮に訳出されなくても、日本語話者としては、見ただけでその意味が理解できる。従って、上記のように中国語話者にとっての難易度及び使用頻度に基づいて単語を訳出すれば、日本語話者にとっては不要と思われる訳語がたくさん出る虞があり、出力結果が煩雑で、学習者にとって読みにくいという問題がある。
また、中国語及び日本語では、同一起源の漢字であっても、形状が異なる場合がある。例えば、図12に示すように、中国語の
Figure 0005528420
と日本語の「動物園」とは全て同一起源の漢字からなるが、字体が大きく異なり、中国語の初学者にとっては、
Figure 0005528420
と「動」とが同じ字であることに気づきにくいため、
Figure 0005528420
の訳出を必要とする。一方で、ある程度中国語の学習を進めた日本語話者にとっては、
Figure 0005528420
と「動」とが同じ字、
Figure 0005528420
と「園」とが同じ字であることに気づきやすく、仮に
Figure 0005528420
という単語を訳出しなくても、その意味が分かるため、
Figure 0005528420
の訳出は不要である。また、同一起源の漢字には、例えば、中国語の「决」及び日本語の「決」のように、形状が非常に近い漢字がある。このような漢字であれば、中国語の初学者にとっても、訳出が不要である。このように、訳出要否は学習者の習熟度及び/又は漢字の形状の類似度によって異なるため、訳出要否の決定基準が課題となる。
さらに、特許文献1に示されている日中機械翻訳装置は、日本語の単語における漢字と中国語の単語における漢字とが同一起源の漢字であるか否かを判定することにより、日本語の単語の訳語となる複数の中国語の単語から、最も適切な訳語を選択して出力するが、訳出の要否を決定する手段を備えず、また、中国語と日本語とで同一起源の漢字の扱いは、何れも同等であり、文字によって結びつきの強さに差をつけるような扱いはしていない。
本発明は、斯かる事情に鑑みてなされたものであり、学習者の習熟度及び/又は漢字の類似度に応じて、不要な訳語の出力を適宜に抑制し、出力結果がより読み易い翻訳装置、翻訳方法及びコンピュータプログラムを提供することを目的とする。
本発明に係る翻訳装置は、第1言語の原文を、第2言語に翻訳して出力する翻訳装置において、第1言語の原文のテキストを取得するテキスト取得手段と、該テキスト取得手段にて取得したテキストに含まれる単語又は連語夫々の第2言語の訳語を取得する訳語取得手段と、前記単語又は連語を構成する文字、及び前記訳語取得手段にて取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定する決定手段と、該決定手段による決定結果に基づいて単語又は連語の訳語を出力する出力手段とを備えることを特徴とする。
本発明では、翻訳装置はテキスト取得手段と、訳語取得手段と、決定手段と、出力手段とを備える。テキスト取得手段は第1言語の原文のテキストを取得する。訳語取得手段はテキストに含まれる単語又は連語夫々の第2言語の訳語を取得する。決定手段は単語又は連語を構成する文字と、訳語を構成する文字とを比較することで、前記単語又は連語ごとに訳出するか否かを決定する。出力手段は決定手段による決定結果に基づいて単語又は連語の訳語を出力する。このように、第1言語の単語又は連語を構成する各文字と、訳語を構成する各文字とを比較することにより、例えば、両者が同一又は類似する文字である場合、当該単語又は連語の訳語を出力しないようにする。例えば、中国語及び日本語、スペイン語及びイタリア語のような、同一の文字からなる単語又は連語を含める両言語の対訳を行う場合に、簡単な手段で、不要な訳語の出力を適宜に抑制することができる。
本発明に係る翻訳装置は、前記第1言語及び第2言語は、中国語及び日本語であり、前記決定手段は、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とが全て同一である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする。
本発明では、中国語と日本語との対訳を行う翻訳装置にあって、決定手段は、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とが全て同一である場合、該単語又は連語を訳出しないと決定する。このように、漢字のみを比較することにより、単語又は連語の訳出要否を決定することができる。
本発明に係る翻訳装置は、前記決定手段は、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とのユニコードにおけるコードポイントが全て同一である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする。
本発明では、決定手段は、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とのユニコードにおけるコードポイントが全て同一である場合、該単語又は連語を訳出しないと決定する。これにより、単語又は連語の訳出要否を簡単に決定することができる。
本発明に係る翻訳装置は、前記第1言語及び第2言語は、中国語及び日本語であり、中国語の漢字と、該中国語の漢字に対応する日本語の漢字とを対応付けてある漢字対応辞書を備え、前記決定手段は、前記漢字対応辞書に基づいて、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とが夫々に対応しない場合、該単語又は連語を訳出すると決定するようにしてあることを特徴とする。
本発明では、中国語と日本語との対訳を行う翻訳装置は、中国語の漢字と、該中国語の漢字に対応する日本語の漢字とを対応付けてある漢字対応辞書を備える。決定手段は、漢字対応辞書に基づいて、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とが夫々に対応しない場合、該単語又は連語を訳出すると決定する。このように、漢字の対応関係のみを比較することにより、単語又は連語の訳出要否を決定することができる。
本発明に係る翻訳装置は、中国語の漢字、及び該中国語の漢字に対応する日本語の漢字の類似度を格納してある漢字類似度辞書と、単語又は連語を構成する漢字、及び該単語又は連語の訳語を構成する漢字が夫々に対応している場合、前記漢字類似度辞書に基づいて、単語又は連語、及び該単語又は連語の訳語の類似度を示す単語類似度を算出する算出手段とを備え、前記決定手段は、前記算出手段にて算出した単語類似度が所定閾値以上である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする。
本発明では、翻訳装置は漢字類似度辞書と、算出手段とを備える。漢字類似度辞書には、中国語の漢字、及び該中国語の漢字に対応する日本語の漢字の類似度を格納してある。算出手段は、単語又は連語を構成する漢字、及び該単語又は連語の訳語を構成する漢字が夫々に対応している場合、漢字類似度辞書に基づいて、単語又は連語、及び該単語又は連語の訳語の類似度を示す単語類似度を算出する。決定手段は、算出手段にて算出した単語類似度が所定閾値以上である場合、該単語又は連語を訳出しないと決定する。このように、単語又は連語における各漢字と訳語における各漢字との類似度に基づいて単語としての類似度を算出することにより、単語又は連語の訳出要否を決定することができる。
本発明に係る翻訳装置は、前記算出手段は、単語又は連語を構成する全ての漢字と、該単語又は連語の訳語を構成する全ての漢字との夫々の類似度の算術平均値を、前記単語類似度として算出するようにしてあることを特徴とする。
本発明では、算出手段は、単語又は連語を構成する全ての漢字と、該単語又は連語の訳語を構成する全ての漢字との夫々の類似度の算術平均値を、単語類似度として算出する。これにより、単語類似度を簡単に算出することができる。
本発明に係る翻訳装置は、前記算出手段は、単語又は連語を構成する全ての漢字と、該単語又は連語の訳語を構成する全ての漢字との夫々の類似度の内、最も低い類似度を、前記単語類似度として算出するようにしてあることを特徴とする。
本発明では、算出手段は、単語又は連語を構成する全ての漢字と、該単語又は連語の訳語を構成する全ての漢字との夫々の類似度の内、最も低い類似度を、前記単語類似度として算出する。これにより、単語類似度を簡単に算出することができる。
本発明に係る翻訳装置は、前記漢字類似度辞書は、漢字の形状に基づく類似度を格納してあることを特徴とする。
本発明では、漢字の類似度が漢字の形状に基づいて予め定められる。
本発明に係る翻訳装置は、前記漢字類似度辞書は、漢字のボディーフェース中の面積比に基づく類似度を格納してあることを特徴とする。
本発明では、漢字の類似度が、フォントにおけるボディーフェース中の漢字自体の面積比に基づいて予め定められる。
本発明に係る翻訳装置は、前記出力手段は、前記原文の全文を出力した上で、前記決定手段にて訳出すると決定した単語又は連語の近傍に、該単語又は連語の訳語を出力するようにしてあることを特徴とする。
本発明では、出力手段は、前記原文の全文を出力した上で、前記決定手段にて訳出すると決定した単語又は連語の近傍に、該単語又は連語の訳語を出力する。これにより、単語又は連語の意味が理解し易くなる位置に訳語を配置することができる。
本発明に係る翻訳装置は、前記出力手段は、前記原文のレイアウトを保持した上で、原文の行間に前記決定手段にて訳出すると決定した単語又は連語の訳語を出力するようにしてあることを特徴とする。
本発明では、出力手段は、前記原文のレイアウトを保持した上で、原文の行間に前記決定手段にて訳出すると決定した単語又は連語の訳語を出力する。これにより、単語又は連語の意味が理解し易くなる位置に訳語を配置することができる。
本発明に係る翻訳装置は、前記出力手段は、前記決定手段にて訳出しないと決定した単語又は連語に傍線を引いて出力するようにしてあることを特徴とする。
本発明では、出力手段は、前記決定手段にて訳出しないと決定した単語又は連語に傍線を引いて出力する。これにより、訳出しないと決定された単語又は連語を明確に示すことができる
本発明に係る翻訳方法は、インターフェース部と、第1言語の原文を、第2言語に翻訳して前記インターフェース部を介して出力する処理を実行するCPUとを備える翻訳装置による翻訳方法において、前記CPUにより第1言語の原文のテキストを取得するステップと、前記CPUにより取得したテキストに含まれる単語又は連語夫々の第2言語の訳語を取得するステップと、前記CPUにより前記単語又は連語を構成する文字、及び取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定するステップと、前記CPUにより決定した結果に基づいて単語又は連語の訳語を前記インターフェース部を介して出力するステップとを含むことを特徴とする。
本発明では、CPUにより第1言語の原文のテキストを取得し、取得されたテキストに含まれる単語又は連語夫々の第2言語の訳語を取得し、単語又は連語を構成する文字と、訳語を構成する文字とを比較して、前記単語又は連語ごとに訳出するか否かを決定し、インターフェース部を介して、決定結果に基づいて単語又は連語の訳語を出力する。このように、第1言語の単語又は連語を構成する各文字と、訳語を構成する各文字とを比較することにより、例えば、両者が同一又は類似する文字である場合、当該単語又は連語の訳語を出力しないようにする。例えば、中国語及び日本語、スペイン語及びイタリア語のような、同一の文字からなる単語又は連語を含める両言語の対訳を行う場合に、簡単な手段で、不要な訳語の出力を適宜に抑制することができる。
本発明に係るコンピュータプログラムは、コンピュータに、第1言語の原文を、第2言語に翻訳して出力する処理を実行させるためのコンピュータプログラムにおいて、第1言語の原文のテキストを取得するステップと、取得したテキストに含まれる単語又は連語夫々の第2言語の訳語を取得するステップと、前記単語又は連語を構成する文字、及び取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定するステップと、決定した結果に基づいて単語又は連語の訳語を出力するステップとを含む処理をコンピュータに実行させることを特徴とする。
本発明では、第1言語の原文のテキストを取得し、テキストに含まれる単語又は連語夫々の第2言語の訳語を取得し、単語又は連語を構成する文字と、訳語を構成する文字とを比較して、前記単語又は連語ごとに訳出するか否かを決定し、決定結果に基づいて単語又は連語の訳語を出力する。このように、第1言語の単語又は連語を構成する各文字と、訳語を構成する各文字とを比較することにより、例えば、両者が同一又は類似する文字である場合、当該単語又は連語の訳語を出力しないようにする。例えば、中国語及び日本語、スペイン語及びイタリア語のような、同一の文字からなる単語又は連語を含める両言語の対訳を行う場合に、簡単な手段で、不要な訳語の出力を適宜に抑制することができる。
本発明においては、単語又は連語を構成する文字と、訳語を構成する文字とを比較して、前記単語又は連語ごとに訳出するか否かを決定し、決定結果に基づいて単語又は連語の訳語を出力することにより、不要な訳語の出力を適宜に抑制し、出力結果がより読み易い翻訳装置、翻訳方法及びコンピュータプログラムを提供することができる。
本発明の実施の形態に係る翻訳装置の内部構成を示すブロック図である。 本発明の実施の形態に係る翻訳装置が実行する処理の手順を示すフローチャートである。 訳語取得処理の手順の例を示すフローチャートである。 原文書画像の例を示す図である。 図4の原文書画像についての訳語データの内容例を示す概念図である。 中日漢字対応表の例を示す図である。 訳出要否決定処理の手順の例を示すフローチャートである。 訳出決定処理の結果を示すテーブルである。 訳語付文書画像生成処理の手順の例を示すフローチャートである。 閾値が0.40とされる場合の訳語付文書画像の例を示す図である。 閾値が0.70とされる場合の訳語付文書画像の例を示す図である。 従来の翻訳装置にて中国語を日本語に翻訳して出力する例を示す図である。
以下本発明をその実施の形態を示す図面に基づき具体的に説明する。
図1は、本発明の実施の形態に係る翻訳装置1の内部構成を示すブロック図である。本実施の形態に係る翻訳装置1は、PC又はサーバ装置等の汎用コンピュータを用いて構成されており、演算を行うCPU11と、演算に伴って発生する一時的な情報を記憶するRAM12と、光ディスク又はメモリカード等の記録媒体2から情報を読み取るCD−ROMドライブ等のドライブ部13と、ハードディスク等の記憶部14とを備えている。CPU11は、記録媒体2から本発明のコンピュータプログラム21をドライブ部13に読み取らせ、読み取ったコンピュータプログラム21を例えば記憶部14に記憶させる。コンピュータプログラム21は必要に応じて記憶部14からRAM12へロードされ、ロードされたコンピュータプログラム21に基づいて、CPU11は必要な処理を実行する。なお、コンピュータプログラム21は、インターネット又はLAN等の通信ネットワークを介して図示しない外部のサーバ装置から翻訳装置1へダウンロードされて記憶部14に記憶される形態であってもよい。
記憶部14には、自然言語処理に必要なデータを記録した辞書データベース22と、中国語の漢字及び該漢字に対応している日本語の漢字が対応付けてある漢字対応辞書23と、中国語の漢字及び日本語の漢字の類似度を格納してある漢字類似度辞書24とを記憶している。辞書データベース22は、言語の文法、構文の出現頻度、及び単語の意味等を示す情報を記録している。辞書データベース22、漢字対応辞書23、及び漢字類似度辞書24は、最初から記憶部14に記憶されている形態でもよく、また記録媒体2に記録されてあってドライブ部13で記録媒体2から読み取られて記憶部14に記憶される形態でもよい。
また翻訳装置1は、使用者が操作することによる各種の処理指示等の情報が入力されるキーボード又はポインティングデバイス等の入力部15と、各種の情報を表示する液晶ディスプレイ等の表示部16とを備えている。さらに、翻訳装置1は、画像読取装置31及び画像形成装置32が接続されたインタフェース部17を備えている。画像読取装置31は、フラットベッドスキャナ又はフィルムスキャナ等のスキャナであり、画像形成装置32は、インクジェットプリンタ又はレーザープリンタ等のプリンタである。なお、画像読取装置31及び画像形成装置32は一体に構成されていてもよい。
画像読取装置31は、文書原稿に記録された画像を光学的に読み取って画像データを生成し、生成した画像データを翻訳装置1へ送信し、インタフェース部17は、画像読取装置31から送信された画像データを受信する。またインタフェース部17は、画像データを画像形成装置32へ送信し、画像形成装置32は、翻訳装置1から送信された画像データに基づいて画像を形成する。
CPU11は、本発明のコンピュータプログラム21をRAM12にロードし、ロードしたコンピュータプログラム21に従って、本発明の翻訳方法の処理を実行する。翻訳方法では、画像読取装置31で文書原稿に記録された画像を読み取ることによって生成した原文書画像から、原文のテキストを取得し、取得したテキストに含まれる単語又は連語夫々の訳語を取得し、単語又は連語を構成する文字、及び取得した該単語又は連語の訳語を構成する文字を比較して、単語又は連語ごとに訳出するか否かを決定し、訳出すると決定した単語又は連語に対する訳語を付加した訳語付文書画像を生成して出力する。ここで、連語とは、複数の単語から構成され、独自の意味を有する語句であり、熟語、又は慣用句等が連語に相当する。
図2は、本発明の実施の形態に係る翻訳装置1が実行する処理の手順を示すフローチャートである。CPU11は、RAM12にロードしたコンピュータプログラム21に従って、以下の処理を実行する。本実施の形態では、原文が中国語、訳語が日本語である場合を例として説明する。
翻訳装置1は、まず、中国語の原文が記載されている原文書から、原文のテキストを取得するテキスト取得処理を行う(ステップS11)。ステップS11では、画像読取装置31に文書原稿が載置された状態で、使用者が入力部15にて処理を指示した場合、CPU11はインタフェース部17を介して画像読取装置31へ画像読取の指示を送信する。画像読取装置31は、文書原稿に記録された画像を読み取り、画像データを生成し、生成した画像データを翻訳装置1へ送信する。翻訳装置1は、インタフェース部17を介して受信した画像データが表す原文書画像から、文字が含まれている文字領域を抽出し、例えば従来のOCR(Optical Character Recognition)技術を利用して、文字領域に含まれる文字の認識と、原文書画像中での文字位置の特定とを行うことにより、原文書におけるテキストの内容を表すテキストデータを生成して、中国語の原文のテキストを取得する。原文書としては、本実施の形態で、画像読取装置31にて読み取った原文書画像を用いているが、インタフェース部17を介して受信された画像又はテキストであってもよく、予め記憶部14に記憶してある画像又はテキストであってもよく、使用者が入力部15にて入力したテキストであってもよい。なお、ステップS11では、OCR技術を利用する場合、又は、フォーマット付文書からテキストを取得する場合、各文字の位置情報、サイズ情報も同時に取得される。
CPU11は、次に、上記ステップS11のテキスト取得処理により取得したテキストに含まれる単語又は連語に対する訳語を取得する訳語取得処理を実行する(S12)。
図3は、図2のステップS12における訳語取得処理の手順の例を示すフローチャートである。CPU11は、ステップS11で取得したテキストの内容を表すテキストデータに対して、自然言語処理を行うことにより、テキストに含まれる各単語及び連語の意味を推定する処理を行う(S121)。ステップS121では、CPU11は、辞書データベース22に記録されたデータに基づいて、テキストデータが表す文章の形態素解析、局所構文解析、及び品詞推定等の自然言語処理を行うことにより、文章中に含まれる単語、及び複数の単語からなる連語を特定し、意味を推定する。CPU11は、次に、文章に含まれる単語及び連語の内、訳語を取得すべき単語及び連語を選択する処理を行う(S122)。辞書データベース22に記録してあるデータでは、単語及び連語の夫々について難易度又は使用頻度を予め定めてあり、また記憶部14は、中国語の各単語及び連語の難易度又は使用頻度を設定した設定情報を記憶している。ステップS122では、CPU11は、設定情報で定められた難易度又は使用頻度が所定値以上の単語及び連語を、訳語を取得すべき単語及び連語として選択する。
CPU11は、次に、選択した単語及び連語の夫々について、辞書データベース22から訳語を取得する処理を行う(S123)。訳語が複数存在する場合、CPU11は、ステップS121の自然言語処理により推定した意味に対応する訳語を取得する。CPU11は、単語又は連語と取得した訳語とを関連付けた訳語データを生成してRAM12に記憶させ、処理を図2のメインの処理へ戻す。図4は原文書画像の例を示す図である。図5は図4の原文書画像についての訳語データの内容例を示す概念図である。図4に示す原文書画像について、訳語を取得すべき単語又は連語として、図5に示すように
Figure 0005528420
が選択され、夫々に対して訳語が関連付けられている。
CPU11は、次に、訳語が取得された単語又は連語の夫々について、単語又は連語を構成する文字と、その訳語を構成する文字とを比較して、当該単語又は連語を訳出するか否かを決定する訳出要否決定処理を実行する(S13)。ステップS13において、CPU11は、漢字対応辞書23及び漢字類似度辞書24に基づく中日漢字対応表を参照して、図5に示している各単語又は連語の中国語の漢字と、その訳語の日本語の漢字とを比較することにより、図5に示している各単語又は連語の訳出要否を決定する。
図6は、中日漢字対応表の例を示す図である。図6に示すように、中日漢字対応表には、中国語の漢字と、当該中国語の漢字のユニコードと、当該中国語の漢字に対応する日本語の漢字と、当該日本語の漢字のユニコードと、中日漢字の類似度とが対応付けてある。本実施の形態では、漢字の類似度は0.00から1.00の間の実数値であり、以下のように翻訳実行前に予め定めているものである。
中国語の漢字と日本語の漢字とが同一の漢字である場合は、類似度を1.00とする。ここで、「同一の漢字」とは、漢字のユニコードにおけるコードポイントが同一であることを言う。例えば、図6における、中国語の「物」と日本語の「物」とがユニコードにおけるコードポイントが同一であるため、同一の漢字と認められる。また、中国語の「海」と、日本語の「海」とが、夫々の言語のフォントで表せば漢字の形状が少し異なるが、ユニコードにおけるコードポイントが同一であるため、同一の漢字と認められる。一方で、中国語の漢字と日本語の漢字とが同一の漢字でない場合、漢字の形状及び日本語話者にとっての習熟度等に基づいて定められる。例えば、日本語の「門」と中国語の
Figure 0005528420
との差は、日本語の「門」という字を手書きする際に慣習的に
Figure 0005528420
に近い形で略記することが広く行われているので、見た目の形の差よりも、日本語話者にとって感じる差は小さい。このように、これを部首として含む漢字(例えば図6における
Figure 0005528420
と「問」)も、上記の事情を考慮して類似度の値が付与される。
また、類似度を付与する他の方法としては、次のような方法が考えられる。部首ごとに、形状の違いによる類似度を予め定めておき、これらを一定の方法で総合して、漢字としての類似度を決める。又は、両言語の文字を、形状の近いフォント(例えば、中国語は「SimHei」、日本語は「MSゴシック」)で表示した際の、ボディーフェース(文字を表示させた際に、文字同士がつながらないようにスペースを含ませた文字のデザイン範囲)中の文字自体の面積比をそれぞれ求め、その値の差、又は比率が小さいほど、類似度が高いとみなす。
図7は、図2のステップS13における訳出要否決定処理の手順の例を示すフローチャートである。CPU11は、図6に示している中日漢字対応表を参照して、訳語が取得された中国語の単語又は連語ごとに、中国語の漢字と、日本語の漢字とが夫々対応関係にあり、且つ順序が同じであるか否かを判定する(ステップS131)。CPU11は、中国語の漢字と日本語の漢字とが対応関係にない、又は順序が同じではないと判定した場合(ステップS131:NO)、例えば、図5における中国語の「法院」及び対応する日本語の「裁判所」の場合、当該中国語の単語又は連語を訳出すると決定し(ステップS132)、処理をステップS136に進める。
CPU11は、中国語の漢字と日本語の漢字とが対応関係にあり、且つ順序が同じであると判定した場合(ステップS131:YES)、図6に示す中日漢字対応表を参照して、当該単語又は連語を構成する各漢字の類似度から、当該単語又は連語と、その訳語との類似度を示す単語類似度を算出する(ステップS133)。ステップS133では、CPU11は、例えば、当該単語又は連語を構成する全ての漢字の類似度を中日漢字対応表から取得し、取得した類似度の算術平均値を単語類似度として算出する。例えば、図5における中国語の
Figure 0005528420
及び対応する日本語の「動物園」の場合、中国語の
Figure 0005528420
と日本語の「動」との類似度が0.40、中国語の「物」と日本語の「物」との類似度が1.00、中国語の
Figure 0005528420
と日本語の「園」との類似度が0.30であるので、これらを算術平均した結果、単語類似度は0.57と算出される。また、ステップS133では、CPU11は、中日漢字対応表から、当該単語又は連語を構成する全ての漢字の内、類似度が最も低い漢字の類似度を取得して上記単語類似度としてもよい。この場合、図5における中国語の
Figure 0005528420
及び対応する日本語の「動物園」の類似度は、0.30とされる。
CPU11は、ステップS133において算出した単語類似度が所定の閾値以上であるか否かを判定する(ステップS134)。ここで、所定の閾値は、0.70又は0.40とされているが、使用者の中国語能力が高ければ高いほど、閾値が小さいように予め設定すればよい。
CPU11は、単語類似度が所定の閾値以上ではないと判定した場合(ステップS134:NO)、当該単語又は連語を「訳出する」と決定する(ステップS132)。単語類似度が所定の閾値以上であると判定した場合(ステップS134:YES)、当該単語又は連語を「訳出しない」と決定する(ステップS135)。例えば、図5における中国語の
Figure 0005528420
及び対応する日本語の「動物園」の場合には、閾値が0.70と設定されるときに、算出された単語類似度の0.57が閾値の0.70より低いため、「訳出する」と決定するが、閾値が0.40と設定されるときに、算出された単語類似度の0.57が閾値の0.40より高いため、「訳出しない」と決定する。
図8は、訳出決定処理の結果を示すテーブルであり、図5に示す単語又は連語ごとに訳出要否を決定した結果を示している。図8に示すテーブルには、中国語の単語又は連語と、該単語又は連語の日本語の訳語と、判定した漢字対応結果と、算出した単語類似度と、閾値が0.70とされる場合の訳出要否の決定結果と、閾値が0.40とされる場合の訳出要否の決定結果とが記録されている。ここで、「近」、「海外」、「旅行」夫々の漢字は、訳語の漢字と同一であるため、閾値が0.70とする場合も閾値が0.40とする場合も、訳出しないと決定される。中国語の
Figure 0005528420
については、これらの単語又は連語夫々を構成する漢字と、その訳語を構成する漢字とが夫々に対応しないため、閾値が0.70とする場合も閾値が0.40とする場合も、訳出すると決定される。一方で、
Figure 0005528420
については、これらの単語又は連語夫々を構成する漢字と、その訳語を構成する漢字とが夫々に対応しているが、算出された単語類似度が夫々0.57、0.90、0.85であるため、所定の閾値と比較することにより、訳出要否が決定される。
CPU11は、訳語が取得された単語又は連語の内、訳出要否を決定していない単語又は連語があるか否かを判定する(ステップS136)。CPU11は、取得された訳語の内、訳出要否を決定していない訳語があると判定した場合(ステップS136:YES)、処理をステップS131に戻す。CPU11は、取得された訳語の内、訳出要否を決定していない訳語がないと判定した場合(ステップS136:NO)、処理をメイン処理に戻す。
CPU11は、次に、ステップS13における決定結果に基づいて、訳語の配置位置を決定して、訳語を配置した訳語付文書画像を生成する訳語付文書画像生成処理を実行する(ステップS14)。ステップS14では、CPU11は、例えば、中国語の原文の全文を表示したうえで、訳出すると決定された単語又は連語の近傍に、当該単語又は連語の訳語を出力するように訳語付文書画像を生成する。具体的には、原文書のレイアウトを保持した上で、原文書の行間に訳語を配置し、訳出しないと決定された単語又は連語に傍線を引く訳語付文書画像を生成する。
図9は、図2のステップS14における訳語付文書画像生成処理の手順の例を示すフローチャートである。図9に示すように、CPU11は、訳語付文書画像に付加すべき訳語の夫々について、訳語付文書画像に訳語を配置する際の位置及びサイズ等の訳語の配置状態を決定する(ステップS141)。ステップS141では、CPU11は、ステップS11にて取得した文字の位置情報、サイズ情報等に基づいて、文書に含まれる各行の行間の大きさを計算し、訳語の配置位置及びフォントサイズを決定する。
CPU11は、次に、原文書画像と同一の大きさのレイヤ中に、訳語データを、ステップS141にて決定した配置状態で配置した訳語レイヤを生成する(ステップS142)。ステップS142では、生成する訳語レイヤ中の訳語データ以外の部分は透明にしておく。CPU11は、次に、原文書画像と同一の大きさの画像中に、訳出しないと決定された単語又は連語に対する下線に相当する線を、訳出しない単語又は連語であることを示す印として配置した印画像レイヤを生成する(S143)。ステップS143では、生成する印画像レイヤ中の線以外の部分は透明にしておく。
CPU11は、次に、原文書画像を画像レイヤにした原文書画像レイヤを生成する(S144)。CPU11は、次に、訳語レイヤ、印画像レイヤを原文書画像レイヤに重ねることにより、訳語付文書画像を生成し(S145)、生成した訳語付文書画像を表す画像データをRAM12に記憶させ、処理を図2のメインの処理へ戻す。例えば、ステップS14では、PDF(Portable Document Format)形式の画像で訳語付文書画像を生成することとし、CPU11は、PDF形式のレイヤとして各レイヤを生成し、生成した訳語レイヤ及び印画像レイヤを原文書画像レイヤに重ねることにより、PDF形式の訳語付文書画像を生成する。図10及び図11夫々は、閾値が0.40及び0.70とされる場合の訳語付文書画像の例を示す図である。図10及び図11に示す訳語付文書画像夫々は、図4に示す原文書画像に上記訳語レイヤ及び印画像レイヤを重ねることにより生成した訳語付文書画像である。
CPU11は、次に、訳語付文書画像を表す画像データを、インタフェース部17から画像形成装置32へ送信し、画像形成装置32に画像データに基づいて訳語付文書画像を形成させる出力処理を行い(S15)、本発明の翻訳処理を終了する。なお、本発明では、ステップS15で訳語付文書画像を形成する処理を行わずに、表示部16で表示する、又は訳語付文書画像を表す画像データを記憶部14に記憶させる処理を行ってもよい。
本実施の形態では、原文の単語又は連語を構成する各文字と、訳語を構成する各文字とを比較することにより、当該単語又は連語の訳語の訳出要否を決定する。例えば、原文の単語又は連語を構成する各文字と、訳語を構成する各文字とが同一又は類似する文字である場合、当該単語又は連語の訳語を訳出しないと設定することができる。このような発明は、上記説明した中国語及び日本語の場合以外、例えばスペイン語及びイタリア語のような、同一の文字からなる単語又は連語を含める両言語の対訳を行う場合にも適用することができる。
また、以上の実施の形態では、原文が中国語、訳語が日本語である場合を例として説明するが、原文が日本語、訳語が中国語である場合にも適用することができる。また、中国語は簡体字中国語である例を説明したが、繁体字中国語に対しても適用できる。
また、以上の実施の形態では、横書きの文書に対して本発明を適用する例を示したが、本発明は縦書きの文書に対しても適用可能である。例えば、日本語による縦書きの文書に対して本発明の処理を実行する形態であってもよく、この形態の場合は、訳語は単語又は連語に近接する右側の行間に配置すればよい。
また、以上の実施の形態では、翻訳装置1は辞書データベース22、漢字対応辞書23、及び漢字類似度辞書24を内部の記憶部14に記録してある形態を示したが、これに限るものではなく、本発明の翻訳装置1は、外部の辞書データベース、漢字対応辞書、又は漢字類似度辞書を用いて本発明に係る処理を実行する形態であってもよい。例えば、翻訳装置1の外部のサーバ装置に辞書データベース等を記憶しておき、翻訳装置1は、必要に応じて外部の辞書データベース等から必要なデータを読み出すことによって本発明に係る処理を実行してもよい。
要するに、以上の実施の形態は例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
1 翻訳装置
11 CPU
12 RAM
14 記憶部
16 表示部
17 インタフェース部
2 記録媒体
21 コンピュータプログラム
22 辞書データベース
23 漢字対応辞書
24 漢字類似度辞書
31 画像読取装置
32 画像形成装置

Claims (14)

  1. 第1言語の原文を、第2言語に翻訳して出力する翻訳装置において、
    第1言語の原文のテキストを取得するテキスト取得手段と、
    該テキスト取得手段にて取得したテキストに含まれる単語又は連語夫々の第2言語の訳語を取得する訳語取得手段と、
    前記単語又は連語を構成する文字、及び前記訳語取得手段にて取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定する決定手段と、
    該決定手段による決定結果に基づいて単語又は連語の訳語を出力する出力手段と
    を備えることを特徴とする翻訳装置。
  2. 前記第1言語及び第2言語は、中国語及び日本語であり、
    前記決定手段は、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とが全て同一である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする請求項1に記載の翻訳装置。
  3. 前記決定手段は、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とのユニコードにおけるコードポイントが全て同一である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする請求項2に記載の翻訳装置。
  4. 前記第1言語及び第2言語は、中国語及び日本語であり、
    中国語の漢字と、該中国語の漢字に対応する日本語の漢字とを対応付けてある漢字対応辞書を備え、
    前記決定手段は、前記漢字対応辞書に基づいて、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とが夫々に対応しない場合、該単語又は連語を訳出すると決定するようにしてあることを特徴とする請求項1に記載の翻訳装置。
  5. 中国語の漢字、及び該中国語の漢字に対応する日本語の漢字の類似度を格納してある漢字類似度辞書と、
    単語又は連語を構成する漢字、及び該単語又は連語の訳語を構成する漢字が夫々に対応している場合、前記漢字類似度辞書に基づいて、単語又は連語、及び該単語又は連語の訳語の類似度を示す単語類似度を算出する算出手段とを備え、
    前記決定手段は、前記算出手段にて算出した単語類似度が所定閾値以上である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする請求項4に記載の翻訳装置。
  6. 前記算出手段は、単語又は連語を構成する全ての漢字と、該単語又は連語の訳語を構成する全ての漢字との夫々の類似度の算術平均値を、前記単語類似度として算出するようにしてあることを特徴とする請求項5に記載の翻訳装置。
  7. 前記算出手段は、単語又は連語を構成する全ての漢字と、該単語又は連語の訳語を構成する全ての漢字との夫々の類似度の内、最も低い類似度を、前記単語類似度として算出するようにしてあることを特徴とする請求項5に記載の翻訳装置。
  8. 前記漢字類似度辞書は、漢字の形状に基づく類似度を格納してあることを特徴とする請求項5に記載の翻訳装置。
  9. 前記漢字類似度辞書は、漢字のボディーフェース中の面積比に基づく類似度を格納してあることを特徴とする請求項5に記載の翻訳装置。
  10. 前記出力手段は、前記原文の全文を出力した上で、前記決定手段にて訳出すると決定した単語又は連語の近傍に、該単語又は連語の訳語を出力するようにしてあることを特徴とする請求項1から請求項9の何れか一つに記載の翻訳装置。
  11. 前記出力手段は、前記原文のレイアウトを保持した上で、原文の行間に前記決定手段にて訳出すると決定した単語又は連語の訳語を出力するようにしてあることを特徴とする請求項10に記載の翻訳装置。
  12. 前記出力手段は、前記決定手段にて訳出しないと決定した単語又は連語に傍線を引いて出力するようにしてあることを特徴とする請求項1から請求項11の何れか一つに記載の翻訳装置。
  13. インターフェース部と、第1言語の原文を、第2言語に翻訳して前記インターフェース部を介して出力する処理を実行するCPUとを備える翻訳装置による翻訳方法において、
    前記CPUにより第1言語の原文のテキストを取得するステップと、
    前記CPUにより取得したテキストに含まれる単語又は連語夫々の第2言語の訳語を取得するステップと、
    前記CPUにより前記単語又は連語を構成する文字、及び取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定するステップと、
    前記CPUにより決定した結果に基づいて単語又は連語の訳語を前記インターフェース部を介して出力するステップと
    を含むことを特徴とする翻訳方法。
  14. コンピュータに、第1言語の原文を、第2言語に翻訳して出力する処理を実行させるためのコンピュータプログラムにおいて、
    第1言語の原文のテキストを取得するステップと、
    取得したテキストに含まれる単語又は連語夫々の第2言語の訳語を取得するステップと、
    前記単語又は連語を構成する文字、及び取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定するステップと、
    決定した結果に基づいて単語又は連語の訳語を出力するステップと
    を含む処理をコンピュータに実行させることを特徴とするコンピュータプログラム。
JP2011266170A 2011-12-05 2011-12-05 翻訳装置、翻訳方法及びコンピュータプログラム Active JP5528420B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011266170A JP5528420B2 (ja) 2011-12-05 2011-12-05 翻訳装置、翻訳方法及びコンピュータプログラム
US13/691,994 US20130144598A1 (en) 2011-12-05 2012-12-03 Translation device, translation method and recording medium
CN2012105111270A CN103136195A (zh) 2011-12-05 2012-12-03 翻译装置和翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011266170A JP5528420B2 (ja) 2011-12-05 2011-12-05 翻訳装置、翻訳方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2013117927A JP2013117927A (ja) 2013-06-13
JP5528420B2 true JP5528420B2 (ja) 2014-06-25

Family

ID=48496034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011266170A Active JP5528420B2 (ja) 2011-12-05 2011-12-05 翻訳装置、翻訳方法及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US20130144598A1 (ja)
JP (1) JP5528420B2 (ja)
CN (1) CN103136195A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731777B (zh) * 2015-03-31 2019-02-01 网易有道信息技术(北京)有限公司 一种译文评价方法及装置
JP6471074B2 (ja) * 2015-09-30 2019-02-13 株式会社東芝 機械翻訳装置、方法及びプログラム
CN106156013B (zh) * 2016-06-30 2019-02-19 电子科技大学 一种固定搭配型短语优先的两段式机器翻译方法
CN108021549B (zh) * 2016-11-04 2019-08-13 华为技术有限公司 序列转换方法及装置
US10762306B2 (en) * 2017-12-27 2020-09-01 Telenav, Inc. Computing system with a cross-locale natural language searching mechanism and method of operation thereof

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1008779B (zh) * 1986-07-01 1990-07-11 日本电气株式会社 日文和中文之间的翻译系统
JPH04295964A (ja) * 1991-03-25 1992-10-20 Matsushita Electric Ind Co Ltd 機械翻訳装置
JP3161942B2 (ja) * 1995-06-14 2001-04-25 シャープ株式会社 訳振り機械翻訳装置
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
JP2001175683A (ja) * 1999-12-21 2001-06-29 Nec Corp 翻訳サーバシステム
US7447624B2 (en) * 2001-11-27 2008-11-04 Sun Microsystems, Inc. Generation of localized software applications
JP2004355248A (ja) * 2003-05-28 2004-12-16 Seiko Instruments Inc 電子辞書
JP4018668B2 (ja) * 2004-05-28 2007-12-05 株式会社東芝 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP4058057B2 (ja) * 2005-04-26 2008-03-05 株式会社東芝 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP2008250796A (ja) * 2007-03-30 2008-10-16 Casio Comput Co Ltd 情報表示装置及び情報表示プログラム
JP5112116B2 (ja) * 2008-03-07 2013-01-09 株式会社東芝 機械翻訳する装置、方法およびプログラム
JP4948586B2 (ja) * 2009-11-06 2012-06-06 シャープ株式会社 文書画像生成装置、文書画像生成方法、コンピュータプログラム及び記録媒体
JP5211193B2 (ja) * 2010-11-10 2013-06-12 シャープ株式会社 翻訳表示装置

Also Published As

Publication number Publication date
JP2013117927A (ja) 2013-06-13
US20130144598A1 (en) 2013-06-06
CN103136195A (zh) 2013-06-05

Similar Documents

Publication Publication Date Title
US7783472B2 (en) Document translation method and document translation device
US8503786B2 (en) Document image generation apparatus, document image generation method and recording medium
US20060217956A1 (en) Translation processing method, document translation device, and programs
Diab et al. Tharwa: A Large Scale Dialectal Arabic-Standard Arabic-English Lexicon.
JP5528420B2 (ja) 翻訳装置、翻訳方法及びコンピュータプログラム
JP4999938B2 (ja) 文書画像生成装置、文書画像生成方法及びコンピュータプログラム
US8923618B2 (en) Information output device and information output method
US7664631B2 (en) Language processing device, language processing method and language processing program
JP2019128943A (ja) 多言語植字の表示方法、表示装置、ブラウザ、端末及びコンピュータ読み取り可能な記憶媒体
JP2008083994A (ja) 辞書登録装置、辞書登録方法及び辞書登録プログラム
JP2010009509A (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
Mohamed et al. Arabic Part of Speech Tagging.
Dhanjal et al. Comparative analysis of sign language notation systems for Indian sign language
JPWO2008146583A1 (ja) 辞書登録システム、辞書登録方法および辞書登録プログラム
JP4886244B2 (ja) 機械翻訳装置および機械翻訳プログラム
CN107870900B (zh) 提供翻译文的方法、装置以及记录介质
US9876916B1 (en) Image forming apparatus that image-forms result of proofreading process with respect to sentence
JP5604276B2 (ja) 文書画像生成装置および文書画像生成方法
JP7315420B2 (ja) テキストの適合および修正の方法
KR20220084915A (ko) 클라우드 기반 문법 교정 서비스 제공 시스템
JP2017151768A (ja) 翻訳プログラム及び情報処理装置
JP2008065594A (ja) 文書変換装置及びコンピュータのプログラム
JP5453779B2 (ja) 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム
JP2002358481A (ja) 画像処理装置
JP2004078531A (ja) 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140415

R150 Certificate of patent or registration of utility model

Ref document number: 5528420

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150