JP5528420B2

JP5528420B2 - 翻訳装置、翻訳方法及びコンピュータプログラム

Info

Publication number: JP5528420B2
Application number: JP2011266170A
Authority: JP
Inventors: 毅九津見
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2011-12-05
Filing date: 2011-12-05
Publication date: 2014-06-25
Anticipated expiration: 2031-12-05
Also published as: JP2013117927A; US20130144598A1; CN103136195A

Description

本発明は、第１言語の原文を、第２言語に翻訳して出力する翻訳装置、翻訳方法及びコンピュータプログラムに関する。

従来、ある言語で書かれた文書に対して自動で他の言語に翻訳する技術が知られている。近年、このような技術を用いる翻訳装置として、文書原文の全文ではなく、原文中の単語又は連語ごとにその訳語を得て、訳語を原文の近傍に添えて出力する装置が考案されている。

このような翻訳装置は、一般的に、単語又は連語の難易度及び使用頻度に応じて訳出の要否を決定する手段を備えており、訳出しないと決定された単語又は連語の訳語を出力しないことにより、出力結果の煩雑化を防ぎ、読みやすさを確保している。

また、中国語及び日本語のような漢字を使う言語に対して、漢字の起源に係る情報を利用する日本語と中国語との間の翻訳技術も考案されている。例えば、特許文献１には、日本語単語と中国語単語との漢字対応関係に基づいて、日本語単語の複数の中国語訳語から、適切な中国語訳語を選択する日中機械翻訳装置が記載されている。

特開２００６−３０９３４６号公報

しかしながら、単語又は連語の難易度及び使用頻度に応じて訳出の要否を決定する上記翻訳装置では、単語又は連語の難易度及び使用頻度が学習者の母語によって異なるため、学習者にとって不要な訳語も出力され、出力結果が煩雑になる問題がある。特に、同一の文字からなる単語又は連語を含む両言語の対訳には、上記問題が著しくなる。

例えば、図１２は従来の翻訳装置にて中国語を日本語に翻訳して出力する例を示す図である。図１２に示すように、従来の翻訳装置にて、中国語話者にとっての難易度及び使用頻度に基づいて幾つかの中国語の単語を訳出して出力しているが、中国語の「海外」と日本語の「海外」とは、同一の文字からなる単語であり、意味も同じであるので、仮に訳出されなくても、日本語話者としては、見ただけでその意味が理解できる。従って、上記のように中国語話者にとっての難易度及び使用頻度に基づいて単語を訳出すれば、日本語話者にとっては不要と思われる訳語がたくさん出る虞があり、出力結果が煩雑で、学習者にとって読みにくいという問題がある。

また、中国語及び日本語では、同一起源の漢字であっても、形状が異なる場合がある。例えば、図１２に示すように、中国語の

と日本語の「動物園」とは全て同一起源の漢字からなるが、字体が大きく異なり、中国語の初学者にとっては、

と「動」とが同じ字であることに気づきにくいため、

の訳出を必要とする。一方で、ある程度中国語の学習を進めた日本語話者にとっては、

と「動」とが同じ字、

と「園」とが同じ字であることに気づきやすく、仮に

という単語を訳出しなくても、その意味が分かるため、

の訳出は不要である。また、同一起源の漢字には、例えば、中国語の「决」及び日本語の「決」のように、形状が非常に近い漢字がある。このような漢字であれば、中国語の初学者にとっても、訳出が不要である。このように、訳出要否は学習者の習熟度及び／又は漢字の形状の類似度によって異なるため、訳出要否の決定基準が課題となる。

さらに、特許文献１に示されている日中機械翻訳装置は、日本語の単語における漢字と中国語の単語における漢字とが同一起源の漢字であるか否かを判定することにより、日本語の単語の訳語となる複数の中国語の単語から、最も適切な訳語を選択して出力するが、訳出の要否を決定する手段を備えず、また、中国語と日本語とで同一起源の漢字の扱いは、何れも同等であり、文字によって結びつきの強さに差をつけるような扱いはしていない。

本発明は、斯かる事情に鑑みてなされたものであり、学習者の習熟度及び／又は漢字の類似度に応じて、不要な訳語の出力を適宜に抑制し、出力結果がより読み易い翻訳装置、翻訳方法及びコンピュータプログラムを提供することを目的とする。

本発明に係る翻訳装置は、第１言語の原文を、第２言語に翻訳して出力する翻訳装置において、第１言語の原文のテキストを取得するテキスト取得手段と、該テキスト取得手段にて取得したテキストに含まれる単語又は連語夫々の第２言語の訳語を取得する訳語取得手段と、前記単語又は連語を構成する文字、及び前記訳語取得手段にて取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定する決定手段と、該決定手段による決定結果に基づいて単語又は連語の訳語を出力する出力手段とを備えることを特徴とする。

本発明では、翻訳装置はテキスト取得手段と、訳語取得手段と、決定手段と、出力手段とを備える。テキスト取得手段は第１言語の原文のテキストを取得する。訳語取得手段はテキストに含まれる単語又は連語夫々の第２言語の訳語を取得する。決定手段は単語又は連語を構成する文字と、訳語を構成する文字とを比較することで、前記単語又は連語ごとに訳出するか否かを決定する。出力手段は決定手段による決定結果に基づいて単語又は連語の訳語を出力する。このように、第１言語の単語又は連語を構成する各文字と、訳語を構成する各文字とを比較することにより、例えば、両者が同一又は類似する文字である場合、当該単語又は連語の訳語を出力しないようにする。例えば、中国語及び日本語、スペイン語及びイタリア語のような、同一の文字からなる単語又は連語を含める両言語の対訳を行う場合に、簡単な手段で、不要な訳語の出力を適宜に抑制することができる。

本発明に係る翻訳装置は、前記第１言語及び第２言語は、中国語及び日本語であり、前記決定手段は、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とが全て同一である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする。

本発明では、中国語と日本語との対訳を行う翻訳装置にあって、決定手段は、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とが全て同一である場合、該単語又は連語を訳出しないと決定する。このように、漢字のみを比較することにより、単語又は連語の訳出要否を決定することができる。

本発明に係る翻訳装置は、前記決定手段は、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とのユニコードにおけるコードポイントが全て同一である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする。

本発明では、決定手段は、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とのユニコードにおけるコードポイントが全て同一である場合、該単語又は連語を訳出しないと決定する。これにより、単語又は連語の訳出要否を簡単に決定することができる。

本発明に係る翻訳装置は、前記第１言語及び第２言語は、中国語及び日本語であり、中国語の漢字と、該中国語の漢字に対応する日本語の漢字とを対応付けてある漢字対応辞書を備え、前記決定手段は、前記漢字対応辞書に基づいて、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とが夫々に対応しない場合、該単語又は連語を訳出すると決定するようにしてあることを特徴とする。

本発明では、中国語と日本語との対訳を行う翻訳装置は、中国語の漢字と、該中国語の漢字に対応する日本語の漢字とを対応付けてある漢字対応辞書を備える。決定手段は、漢字対応辞書に基づいて、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とが夫々に対応しない場合、該単語又は連語を訳出すると決定する。このように、漢字の対応関係のみを比較することにより、単語又は連語の訳出要否を決定することができる。

本発明に係る翻訳装置は、中国語の漢字、及び該中国語の漢字に対応する日本語の漢字の類似度を格納してある漢字類似度辞書と、単語又は連語を構成する漢字、及び該単語又は連語の訳語を構成する漢字が夫々に対応している場合、前記漢字類似度辞書に基づいて、単語又は連語、及び該単語又は連語の訳語の類似度を示す単語類似度を算出する算出手段とを備え、前記決定手段は、前記算出手段にて算出した単語類似度が所定閾値以上である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする。

本発明では、翻訳装置は漢字類似度辞書と、算出手段とを備える。漢字類似度辞書には、中国語の漢字、及び該中国語の漢字に対応する日本語の漢字の類似度を格納してある。算出手段は、単語又は連語を構成する漢字、及び該単語又は連語の訳語を構成する漢字が夫々に対応している場合、漢字類似度辞書に基づいて、単語又は連語、及び該単語又は連語の訳語の類似度を示す単語類似度を算出する。決定手段は、算出手段にて算出した単語類似度が所定閾値以上である場合、該単語又は連語を訳出しないと決定する。このように、単語又は連語における各漢字と訳語における各漢字との類似度に基づいて単語としての類似度を算出することにより、単語又は連語の訳出要否を決定することができる。

本発明に係る翻訳装置は、前記算出手段は、単語又は連語を構成する全ての漢字と、該単語又は連語の訳語を構成する全ての漢字との夫々の類似度の算術平均値を、前記単語類似度として算出するようにしてあることを特徴とする。

本発明では、算出手段は、単語又は連語を構成する全ての漢字と、該単語又は連語の訳語を構成する全ての漢字との夫々の類似度の算術平均値を、単語類似度として算出する。これにより、単語類似度を簡単に算出することができる。

本発明に係る翻訳装置は、前記算出手段は、単語又は連語を構成する全ての漢字と、該単語又は連語の訳語を構成する全ての漢字との夫々の類似度の内、最も低い類似度を、前記単語類似度として算出するようにしてあることを特徴とする。

本発明では、算出手段は、単語又は連語を構成する全ての漢字と、該単語又は連語の訳語を構成する全ての漢字との夫々の類似度の内、最も低い類似度を、前記単語類似度として算出する。これにより、単語類似度を簡単に算出することができる。

本発明に係る翻訳装置は、前記漢字類似度辞書は、漢字の形状に基づく類似度を格納してあることを特徴とする。

本発明では、漢字の類似度が漢字の形状に基づいて予め定められる。

本発明に係る翻訳装置は、前記漢字類似度辞書は、漢字のボディーフェース中の面積比に基づく類似度を格納してあることを特徴とする。

本発明では、漢字の類似度が、フォントにおけるボディーフェース中の漢字自体の面積比に基づいて予め定められる。

本発明に係る翻訳装置は、前記出力手段は、前記原文の全文を出力した上で、前記決定手段にて訳出すると決定した単語又は連語の近傍に、該単語又は連語の訳語を出力するようにしてあることを特徴とする。

本発明では、出力手段は、前記原文の全文を出力した上で、前記決定手段にて訳出すると決定した単語又は連語の近傍に、該単語又は連語の訳語を出力する。これにより、単語又は連語の意味が理解し易くなる位置に訳語を配置することができる。

本発明に係る翻訳装置は、前記出力手段は、前記原文のレイアウトを保持した上で、原文の行間に前記決定手段にて訳出すると決定した単語又は連語の訳語を出力するようにしてあることを特徴とする。

本発明では、出力手段は、前記原文のレイアウトを保持した上で、原文の行間に前記決定手段にて訳出すると決定した単語又は連語の訳語を出力する。これにより、単語又は連語の意味が理解し易くなる位置に訳語を配置することができる。

本発明に係る翻訳装置は、前記出力手段は、前記決定手段にて訳出しないと決定した単語又は連語に傍線を引いて出力するようにしてあることを特徴とする。

本発明では、出力手段は、前記決定手段にて訳出しないと決定した単語又は連語に傍線を引いて出力する。これにより、訳出しないと決定された単語又は連語を明確に示すことができる

本発明に係る翻訳方法は、インターフェース部と、第１言語の原文を、第２言語に翻訳して前記インターフェース部を介して出力する処理を実行するＣＰＵとを備える翻訳装置による翻訳方法において、前記ＣＰＵにより第１言語の原文のテキストを取得するステップと、前記ＣＰＵにより取得したテキストに含まれる単語又は連語夫々の第２言語の訳語を取得するステップと、前記ＣＰＵにより前記単語又は連語を構成する文字、及び取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定するステップと、前記ＣＰＵにより決定した結果に基づいて単語又は連語の訳語を前記インターフェース部を介して出力するステップとを含むことを特徴とする。

本発明では、ＣＰＵにより第１言語の原文のテキストを取得し、取得されたテキストに含まれる単語又は連語夫々の第２言語の訳語を取得し、単語又は連語を構成する文字と、訳語を構成する文字とを比較して、前記単語又は連語ごとに訳出するか否かを決定し、インターフェース部を介して、決定結果に基づいて単語又は連語の訳語を出力する。このように、第１言語の単語又は連語を構成する各文字と、訳語を構成する各文字とを比較することにより、例えば、両者が同一又は類似する文字である場合、当該単語又は連語の訳語を出力しないようにする。例えば、中国語及び日本語、スペイン語及びイタリア語のような、同一の文字からなる単語又は連語を含める両言語の対訳を行う場合に、簡単な手段で、不要な訳語の出力を適宜に抑制することができる。

本発明に係るコンピュータプログラムは、コンピュータに、第１言語の原文を、第２言語に翻訳して出力する処理を実行させるためのコンピュータプログラムにおいて、第１言語の原文のテキストを取得するステップと、取得したテキストに含まれる単語又は連語夫々の第２言語の訳語を取得するステップと、前記単語又は連語を構成する文字、及び取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定するステップと、決定した結果に基づいて単語又は連語の訳語を出力するステップとを含む処理をコンピュータに実行させることを特徴とする。

本発明では、第１言語の原文のテキストを取得し、テキストに含まれる単語又は連語夫々の第２言語の訳語を取得し、単語又は連語を構成する文字と、訳語を構成する文字とを比較して、前記単語又は連語ごとに訳出するか否かを決定し、決定結果に基づいて単語又は連語の訳語を出力する。このように、第１言語の単語又は連語を構成する各文字と、訳語を構成する各文字とを比較することにより、例えば、両者が同一又は類似する文字である場合、当該単語又は連語の訳語を出力しないようにする。例えば、中国語及び日本語、スペイン語及びイタリア語のような、同一の文字からなる単語又は連語を含める両言語の対訳を行う場合に、簡単な手段で、不要な訳語の出力を適宜に抑制することができる。

本発明においては、単語又は連語を構成する文字と、訳語を構成する文字とを比較して、前記単語又は連語ごとに訳出するか否かを決定し、決定結果に基づいて単語又は連語の訳語を出力することにより、不要な訳語の出力を適宜に抑制し、出力結果がより読み易い翻訳装置、翻訳方法及びコンピュータプログラムを提供することができる。

本発明の実施の形態に係る翻訳装置の内部構成を示すブロック図である。本発明の実施の形態に係る翻訳装置が実行する処理の手順を示すフローチャートである。訳語取得処理の手順の例を示すフローチャートである。原文書画像の例を示す図である。図４の原文書画像についての訳語データの内容例を示す概念図である。中日漢字対応表の例を示す図である。訳出要否決定処理の手順の例を示すフローチャートである。訳出決定処理の結果を示すテーブルである。訳語付文書画像生成処理の手順の例を示すフローチャートである。閾値が０．４０とされる場合の訳語付文書画像の例を示す図である。閾値が０．７０とされる場合の訳語付文書画像の例を示す図である。従来の翻訳装置にて中国語を日本語に翻訳して出力する例を示す図である。

以下本発明をその実施の形態を示す図面に基づき具体的に説明する。
図１は、本発明の実施の形態に係る翻訳装置１の内部構成を示すブロック図である。本実施の形態に係る翻訳装置１は、ＰＣ又はサーバ装置等の汎用コンピュータを用いて構成されており、演算を行うＣＰＵ１１と、演算に伴って発生する一時的な情報を記憶するＲＡＭ１２と、光ディスク又はメモリカード等の記録媒体２から情報を読み取るＣＤ−ＲＯＭドライブ等のドライブ部１３と、ハードディスク等の記憶部１４とを備えている。ＣＰＵ１１は、記録媒体２から本発明のコンピュータプログラム２１をドライブ部１３に読み取らせ、読み取ったコンピュータプログラム２１を例えば記憶部１４に記憶させる。コンピュータプログラム２１は必要に応じて記憶部１４からＲＡＭ１２へロードされ、ロードされたコンピュータプログラム２１に基づいて、ＣＰＵ１１は必要な処理を実行する。なお、コンピュータプログラム２１は、インターネット又はＬＡＮ等の通信ネットワークを介して図示しない外部のサーバ装置から翻訳装置１へダウンロードされて記憶部１４に記憶される形態であってもよい。

記憶部１４には、自然言語処理に必要なデータを記録した辞書データベース２２と、中国語の漢字及び該漢字に対応している日本語の漢字が対応付けてある漢字対応辞書２３と、中国語の漢字及び日本語の漢字の類似度を格納してある漢字類似度辞書２４とを記憶している。辞書データベース２２は、言語の文法、構文の出現頻度、及び単語の意味等を示す情報を記録している。辞書データベース２２、漢字対応辞書２３、及び漢字類似度辞書２４は、最初から記憶部１４に記憶されている形態でもよく、また記録媒体２に記録されてあってドライブ部１３で記録媒体２から読み取られて記憶部１４に記憶される形態でもよい。

また翻訳装置１は、使用者が操作することによる各種の処理指示等の情報が入力されるキーボード又はポインティングデバイス等の入力部１５と、各種の情報を表示する液晶ディスプレイ等の表示部１６とを備えている。さらに、翻訳装置１は、画像読取装置３１及び画像形成装置３２が接続されたインタフェース部１７を備えている。画像読取装置３１は、フラットベッドスキャナ又はフィルムスキャナ等のスキャナであり、画像形成装置３２は、インクジェットプリンタ又はレーザープリンタ等のプリンタである。なお、画像読取装置３１及び画像形成装置３２は一体に構成されていてもよい。

画像読取装置３１は、文書原稿に記録された画像を光学的に読み取って画像データを生成し、生成した画像データを翻訳装置１へ送信し、インタフェース部１７は、画像読取装置３１から送信された画像データを受信する。またインタフェース部１７は、画像データを画像形成装置３２へ送信し、画像形成装置３２は、翻訳装置１から送信された画像データに基づいて画像を形成する。

ＣＰＵ１１は、本発明のコンピュータプログラム２１をＲＡＭ１２にロードし、ロードしたコンピュータプログラム２１に従って、本発明の翻訳方法の処理を実行する。翻訳方法では、画像読取装置３１で文書原稿に記録された画像を読み取ることによって生成した原文書画像から、原文のテキストを取得し、取得したテキストに含まれる単語又は連語夫々の訳語を取得し、単語又は連語を構成する文字、及び取得した該単語又は連語の訳語を構成する文字を比較して、単語又は連語ごとに訳出するか否かを決定し、訳出すると決定した単語又は連語に対する訳語を付加した訳語付文書画像を生成して出力する。ここで、連語とは、複数の単語から構成され、独自の意味を有する語句であり、熟語、又は慣用句等が連語に相当する。

図２は、本発明の実施の形態に係る翻訳装置１が実行する処理の手順を示すフローチャートである。ＣＰＵ１１は、ＲＡＭ１２にロードしたコンピュータプログラム２１に従って、以下の処理を実行する。本実施の形態では、原文が中国語、訳語が日本語である場合を例として説明する。

翻訳装置１は、まず、中国語の原文が記載されている原文書から、原文のテキストを取得するテキスト取得処理を行う（ステップＳ１１）。ステップＳ１１では、画像読取装置３１に文書原稿が載置された状態で、使用者が入力部１５にて処理を指示した場合、ＣＰＵ１１はインタフェース部１７を介して画像読取装置３１へ画像読取の指示を送信する。画像読取装置３１は、文書原稿に記録された画像を読み取り、画像データを生成し、生成した画像データを翻訳装置１へ送信する。翻訳装置１は、インタフェース部１７を介して受信した画像データが表す原文書画像から、文字が含まれている文字領域を抽出し、例えば従来のＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）技術を利用して、文字領域に含まれる文字の認識と、原文書画像中での文字位置の特定とを行うことにより、原文書におけるテキストの内容を表すテキストデータを生成して、中国語の原文のテキストを取得する。原文書としては、本実施の形態で、画像読取装置３１にて読み取った原文書画像を用いているが、インタフェース部１７を介して受信された画像又はテキストであってもよく、予め記憶部１４に記憶してある画像又はテキストであってもよく、使用者が入力部１５にて入力したテキストであってもよい。なお、ステップＳ１１では、ＯＣＲ技術を利用する場合、又は、フォーマット付文書からテキストを取得する場合、各文字の位置情報、サイズ情報も同時に取得される。

ＣＰＵ１１は、次に、上記ステップＳ１１のテキスト取得処理により取得したテキストに含まれる単語又は連語に対する訳語を取得する訳語取得処理を実行する（Ｓ１２）。

図３は、図２のステップＳ１２における訳語取得処理の手順の例を示すフローチャートである。ＣＰＵ１１は、ステップＳ１１で取得したテキストの内容を表すテキストデータに対して、自然言語処理を行うことにより、テキストに含まれる各単語及び連語の意味を推定する処理を行う（Ｓ１２１）。ステップＳ１２１では、ＣＰＵ１１は、辞書データベース２２に記録されたデータに基づいて、テキストデータが表す文章の形態素解析、局所構文解析、及び品詞推定等の自然言語処理を行うことにより、文章中に含まれる単語、及び複数の単語からなる連語を特定し、意味を推定する。ＣＰＵ１１は、次に、文章に含まれる単語及び連語の内、訳語を取得すべき単語及び連語を選択する処理を行う（Ｓ１２２）。辞書データベース２２に記録してあるデータでは、単語及び連語の夫々について難易度又は使用頻度を予め定めてあり、また記憶部１４は、中国語の各単語及び連語の難易度又は使用頻度を設定した設定情報を記憶している。ステップＳ１２２では、ＣＰＵ１１は、設定情報で定められた難易度又は使用頻度が所定値以上の単語及び連語を、訳語を取得すべき単語及び連語として選択する。

ＣＰＵ１１は、次に、選択した単語及び連語の夫々について、辞書データベース２２から訳語を取得する処理を行う（Ｓ１２３）。訳語が複数存在する場合、ＣＰＵ１１は、ステップＳ１２１の自然言語処理により推定した意味に対応する訳語を取得する。ＣＰＵ１１は、単語又は連語と取得した訳語とを関連付けた訳語データを生成してＲＡＭ１２に記憶させ、処理を図２のメインの処理へ戻す。図４は原文書画像の例を示す図である。図５は図４の原文書画像についての訳語データの内容例を示す概念図である。図４に示す原文書画像について、訳語を取得すべき単語又は連語として、図５に示すように

が選択され、夫々に対して訳語が関連付けられている。

ＣＰＵ１１は、次に、訳語が取得された単語又は連語の夫々について、単語又は連語を構成する文字と、その訳語を構成する文字とを比較して、当該単語又は連語を訳出するか否かを決定する訳出要否決定処理を実行する（Ｓ１３）。ステップＳ１３において、ＣＰＵ１１は、漢字対応辞書２３及び漢字類似度辞書２４に基づく中日漢字対応表を参照して、図５に示している各単語又は連語の中国語の漢字と、その訳語の日本語の漢字とを比較することにより、図５に示している各単語又は連語の訳出要否を決定する。

図６は、中日漢字対応表の例を示す図である。図６に示すように、中日漢字対応表には、中国語の漢字と、当該中国語の漢字のユニコードと、当該中国語の漢字に対応する日本語の漢字と、当該日本語の漢字のユニコードと、中日漢字の類似度とが対応付けてある。本実施の形態では、漢字の類似度は０．００から１．００の間の実数値であり、以下のように翻訳実行前に予め定めているものである。

中国語の漢字と日本語の漢字とが同一の漢字である場合は、類似度を１．００とする。ここで、「同一の漢字」とは、漢字のユニコードにおけるコードポイントが同一であることを言う。例えば、図６における、中国語の「物」と日本語の「物」とがユニコードにおけるコードポイントが同一であるため、同一の漢字と認められる。また、中国語の「海」と、日本語の「海」とが、夫々の言語のフォントで表せば漢字の形状が少し異なるが、ユニコードにおけるコードポイントが同一であるため、同一の漢字と認められる。一方で、中国語の漢字と日本語の漢字とが同一の漢字でない場合、漢字の形状及び日本語話者にとっての習熟度等に基づいて定められる。例えば、日本語の「門」と中国語の

との差は、日本語の「門」という字を手書きする際に慣習的に

に近い形で略記することが広く行われているので、見た目の形の差よりも、日本語話者にとって感じる差は小さい。このように、これを部首として含む漢字（例えば図６における

と「問」）も、上記の事情を考慮して類似度の値が付与される。

また、類似度を付与する他の方法としては、次のような方法が考えられる。部首ごとに、形状の違いによる類似度を予め定めておき、これらを一定の方法で総合して、漢字としての類似度を決める。又は、両言語の文字を、形状の近いフォント（例えば、中国語は「SimHei」、日本語は「ＭＳゴシック」）で表示した際の、ボディーフェース（文字を表示させた際に、文字同士がつながらないようにスペースを含ませた文字のデザイン範囲）中の文字自体の面積比をそれぞれ求め、その値の差、又は比率が小さいほど、類似度が高いとみなす。

図７は、図２のステップＳ１３における訳出要否決定処理の手順の例を示すフローチャートである。ＣＰＵ１１は、図６に示している中日漢字対応表を参照して、訳語が取得された中国語の単語又は連語ごとに、中国語の漢字と、日本語の漢字とが夫々対応関係にあり、且つ順序が同じであるか否かを判定する（ステップＳ１３１）。ＣＰＵ１１は、中国語の漢字と日本語の漢字とが対応関係にない、又は順序が同じではないと判定した場合（ステップＳ１３１：ＮＯ）、例えば、図５における中国語の「法院」及び対応する日本語の「裁判所」の場合、当該中国語の単語又は連語を訳出すると決定し（ステップＳ１３２）、処理をステップＳ１３６に進める。

ＣＰＵ１１は、中国語の漢字と日本語の漢字とが対応関係にあり、且つ順序が同じであると判定した場合（ステップＳ１３１：ＹＥＳ）、図６に示す中日漢字対応表を参照して、当該単語又は連語を構成する各漢字の類似度から、当該単語又は連語と、その訳語との類似度を示す単語類似度を算出する（ステップＳ１３３）。ステップＳ１３３では、ＣＰＵ１１は、例えば、当該単語又は連語を構成する全ての漢字の類似度を中日漢字対応表から取得し、取得した類似度の算術平均値を単語類似度として算出する。例えば、図５における中国語の

及び対応する日本語の「動物園」の場合、中国語の

と日本語の「動」との類似度が０．４０、中国語の「物」と日本語の「物」との類似度が１．００、中国語の

と日本語の「園」との類似度が０．３０であるので、これらを算術平均した結果、単語類似度は０．５７と算出される。また、ステップＳ１３３では、ＣＰＵ１１は、中日漢字対応表から、当該単語又は連語を構成する全ての漢字の内、類似度が最も低い漢字の類似度を取得して上記単語類似度としてもよい。この場合、図５における中国語の

及び対応する日本語の「動物園」の類似度は、０．３０とされる。

ＣＰＵ１１は、ステップＳ１３３において算出した単語類似度が所定の閾値以上であるか否かを判定する（ステップＳ１３４）。ここで、所定の閾値は、０．７０又は０．４０とされているが、使用者の中国語能力が高ければ高いほど、閾値が小さいように予め設定すればよい。

ＣＰＵ１１は、単語類似度が所定の閾値以上ではないと判定した場合（ステップＳ１３４：ＮＯ）、当該単語又は連語を「訳出する」と決定する（ステップＳ１３２）。単語類似度が所定の閾値以上であると判定した場合（ステップＳ１３４：ＹＥＳ）、当該単語又は連語を「訳出しない」と決定する（ステップＳ１３５）。例えば、図５における中国語の

及び対応する日本語の「動物園」の場合には、閾値が０．７０と設定されるときに、算出された単語類似度の０．５７が閾値の０．７０より低いため、「訳出する」と決定するが、閾値が０．４０と設定されるときに、算出された単語類似度の０．５７が閾値の０．４０より高いため、「訳出しない」と決定する。

図８は、訳出決定処理の結果を示すテーブルであり、図５に示す単語又は連語ごとに訳出要否を決定した結果を示している。図８に示すテーブルには、中国語の単語又は連語と、該単語又は連語の日本語の訳語と、判定した漢字対応結果と、算出した単語類似度と、閾値が０．７０とされる場合の訳出要否の決定結果と、閾値が０．４０とされる場合の訳出要否の決定結果とが記録されている。ここで、「近」、「海外」、「旅行」夫々の漢字は、訳語の漢字と同一であるため、閾値が０．７０とする場合も閾値が０．４０とする場合も、訳出しないと決定される。中国語の

については、これらの単語又は連語夫々を構成する漢字と、その訳語を構成する漢字とが夫々に対応しないため、閾値が０．７０とする場合も閾値が０．４０とする場合も、訳出すると決定される。一方で、

については、これらの単語又は連語夫々を構成する漢字と、その訳語を構成する漢字とが夫々に対応しているが、算出された単語類似度が夫々０．５７、０．９０、０．８５であるため、所定の閾値と比較することにより、訳出要否が決定される。

ＣＰＵ１１は、訳語が取得された単語又は連語の内、訳出要否を決定していない単語又は連語があるか否かを判定する（ステップＳ１３６）。ＣＰＵ１１は、取得された訳語の内、訳出要否を決定していない訳語があると判定した場合（ステップＳ１３６：ＹＥＳ）、処理をステップＳ１３１に戻す。ＣＰＵ１１は、取得された訳語の内、訳出要否を決定していない訳語がないと判定した場合（ステップＳ１３６：ＮＯ）、処理をメイン処理に戻す。

ＣＰＵ１１は、次に、ステップＳ１３における決定結果に基づいて、訳語の配置位置を決定して、訳語を配置した訳語付文書画像を生成する訳語付文書画像生成処理を実行する（ステップＳ１４）。ステップＳ１４では、ＣＰＵ１１は、例えば、中国語の原文の全文を表示したうえで、訳出すると決定された単語又は連語の近傍に、当該単語又は連語の訳語を出力するように訳語付文書画像を生成する。具体的には、原文書のレイアウトを保持した上で、原文書の行間に訳語を配置し、訳出しないと決定された単語又は連語に傍線を引く訳語付文書画像を生成する。

図９は、図２のステップＳ１４における訳語付文書画像生成処理の手順の例を示すフローチャートである。図９に示すように、ＣＰＵ１１は、訳語付文書画像に付加すべき訳語の夫々について、訳語付文書画像に訳語を配置する際の位置及びサイズ等の訳語の配置状態を決定する（ステップＳ１４１）。ステップＳ１４１では、ＣＰＵ１１は、ステップＳ１１にて取得した文字の位置情報、サイズ情報等に基づいて、文書に含まれる各行の行間の大きさを計算し、訳語の配置位置及びフォントサイズを決定する。

ＣＰＵ１１は、次に、原文書画像と同一の大きさのレイヤ中に、訳語データを、ステップＳ１４１にて決定した配置状態で配置した訳語レイヤを生成する（ステップＳ１４２）。ステップＳ１４２では、生成する訳語レイヤ中の訳語データ以外の部分は透明にしておく。ＣＰＵ１１は、次に、原文書画像と同一の大きさの画像中に、訳出しないと決定された単語又は連語に対する下線に相当する線を、訳出しない単語又は連語であることを示す印として配置した印画像レイヤを生成する（Ｓ１４３）。ステップＳ１４３では、生成する印画像レイヤ中の線以外の部分は透明にしておく。

ＣＰＵ１１は、次に、原文書画像を画像レイヤにした原文書画像レイヤを生成する（Ｓ１４４）。ＣＰＵ１１は、次に、訳語レイヤ、印画像レイヤを原文書画像レイヤに重ねることにより、訳語付文書画像を生成し（Ｓ１４５）、生成した訳語付文書画像を表す画像データをＲＡＭ１２に記憶させ、処理を図２のメインの処理へ戻す。例えば、ステップＳ１４では、ＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）形式の画像で訳語付文書画像を生成することとし、ＣＰＵ１１は、ＰＤＦ形式のレイヤとして各レイヤを生成し、生成した訳語レイヤ及び印画像レイヤを原文書画像レイヤに重ねることにより、ＰＤＦ形式の訳語付文書画像を生成する。図１０及び図１１夫々は、閾値が０．４０及び０．７０とされる場合の訳語付文書画像の例を示す図である。図１０及び図１１に示す訳語付文書画像夫々は、図４に示す原文書画像に上記訳語レイヤ及び印画像レイヤを重ねることにより生成した訳語付文書画像である。

ＣＰＵ１１は、次に、訳語付文書画像を表す画像データを、インタフェース部１７から画像形成装置３２へ送信し、画像形成装置３２に画像データに基づいて訳語付文書画像を形成させる出力処理を行い（Ｓ１５）、本発明の翻訳処理を終了する。なお、本発明では、ステップＳ１５で訳語付文書画像を形成する処理を行わずに、表示部１６で表示する、又は訳語付文書画像を表す画像データを記憶部１４に記憶させる処理を行ってもよい。

本実施の形態では、原文の単語又は連語を構成する各文字と、訳語を構成する各文字とを比較することにより、当該単語又は連語の訳語の訳出要否を決定する。例えば、原文の単語又は連語を構成する各文字と、訳語を構成する各文字とが同一又は類似する文字である場合、当該単語又は連語の訳語を訳出しないと設定することができる。このような発明は、上記説明した中国語及び日本語の場合以外、例えばスペイン語及びイタリア語のような、同一の文字からなる単語又は連語を含める両言語の対訳を行う場合にも適用することができる。

また、以上の実施の形態では、原文が中国語、訳語が日本語である場合を例として説明するが、原文が日本語、訳語が中国語である場合にも適用することができる。また、中国語は簡体字中国語である例を説明したが、繁体字中国語に対しても適用できる。

また、以上の実施の形態では、横書きの文書に対して本発明を適用する例を示したが、本発明は縦書きの文書に対しても適用可能である。例えば、日本語による縦書きの文書に対して本発明の処理を実行する形態であってもよく、この形態の場合は、訳語は単語又は連語に近接する右側の行間に配置すればよい。

また、以上の実施の形態では、翻訳装置１は辞書データベース２２、漢字対応辞書２３、及び漢字類似度辞書２４を内部の記憶部１４に記録してある形態を示したが、これに限るものではなく、本発明の翻訳装置１は、外部の辞書データベース、漢字対応辞書、又は漢字類似度辞書を用いて本発明に係る処理を実行する形態であってもよい。例えば、翻訳装置１の外部のサーバ装置に辞書データベース等を記憶しておき、翻訳装置１は、必要に応じて外部の辞書データベース等から必要なデータを読み出すことによって本発明に係る処理を実行してもよい。

要するに、以上の実施の形態は例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１翻訳装置
１１ＣＰＵ
１２ＲＡＭ
１４記憶部
１６表示部
１７インタフェース部
２記録媒体
２１コンピュータプログラム
２２辞書データベース
２３漢字対応辞書
２４漢字類似度辞書
３１画像読取装置
３２画像形成装置

Claims

第１言語の原文を、第２言語に翻訳して出力する翻訳装置において、
第１言語の原文のテキストを取得するテキスト取得手段と、
該テキスト取得手段にて取得したテキストに含まれる単語又は連語夫々の第２言語の訳語を取得する訳語取得手段と、
前記単語又は連語を構成する文字、及び前記訳語取得手段にて取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定する決定手段と、
該決定手段による決定結果に基づいて単語又は連語の訳語を出力する出力手段と
を備えることを特徴とする翻訳装置。
前記第１言語及び第２言語は、中国語及び日本語であり、
前記決定手段は、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とが全て同一である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする請求項１に記載の翻訳装置。
前記決定手段は、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とのユニコードにおけるコードポイントが全て同一である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする請求項２に記載の翻訳装置。
前記第１言語及び第２言語は、中国語及び日本語であり、
中国語の漢字と、該中国語の漢字に対応する日本語の漢字とを対応付けてある漢字対応辞書を備え、
前記決定手段は、前記漢字対応辞書に基づいて、単語又は連語を構成する漢字と、該単語又は連語の訳語を構成する漢字とが夫々に対応しない場合、該単語又は連語を訳出すると決定するようにしてあることを特徴とする請求項１に記載の翻訳装置。
中国語の漢字、及び該中国語の漢字に対応する日本語の漢字の類似度を格納してある漢字類似度辞書と、
単語又は連語を構成する漢字、及び該単語又は連語の訳語を構成する漢字が夫々に対応している場合、前記漢字類似度辞書に基づいて、単語又は連語、及び該単語又は連語の訳語の類似度を示す単語類似度を算出する算出手段とを備え、
前記決定手段は、前記算出手段にて算出した単語類似度が所定閾値以上である場合、該単語又は連語を訳出しないと決定するようにしてあることを特徴とする請求項４に記載の翻訳装置。
前記算出手段は、単語又は連語を構成する全ての漢字と、該単語又は連語の訳語を構成する全ての漢字との夫々の類似度の算術平均値を、前記単語類似度として算出するようにしてあることを特徴とする請求項５に記載の翻訳装置。
前記算出手段は、単語又は連語を構成する全ての漢字と、該単語又は連語の訳語を構成する全ての漢字との夫々の類似度の内、最も低い類似度を、前記単語類似度として算出するようにしてあることを特徴とする請求項５に記載の翻訳装置。
前記漢字類似度辞書は、漢字の形状に基づく類似度を格納してあることを特徴とする請求項５に記載の翻訳装置。
前記漢字類似度辞書は、漢字のボディーフェース中の面積比に基づく類似度を格納してあることを特徴とする請求項５に記載の翻訳装置。
前記出力手段は、前記原文の全文を出力した上で、前記決定手段にて訳出すると決定した単語又は連語の近傍に、該単語又は連語の訳語を出力するようにしてあることを特徴とする請求項１から請求項９の何れか一つに記載の翻訳装置。
前記出力手段は、前記原文のレイアウトを保持した上で、原文の行間に前記決定手段にて訳出すると決定した単語又は連語の訳語を出力するようにしてあることを特徴とする請求項１０に記載の翻訳装置。
前記出力手段は、前記決定手段にて訳出しないと決定した単語又は連語に傍線を引いて出力するようにしてあることを特徴とする請求項１から請求項１１の何れか一つに記載の翻訳装置。
インターフェース部と、第１言語の原文を、第２言語に翻訳して前記インターフェース部を介して出力する処理を実行するＣＰＵとを備える翻訳装置による翻訳方法において、
前記ＣＰＵにより第１言語の原文のテキストを取得するステップと、
前記ＣＰＵにより取得したテキストに含まれる単語又は連語夫々の第２言語の訳語を取得するステップと、
前記ＣＰＵにより前記単語又は連語を構成する文字、及び取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定するステップと、
前記ＣＰＵにより決定した結果に基づいて単語又は連語の訳語を前記インターフェース部を介して出力するステップと
を含むことを特徴とする翻訳方法。
コンピュータに、第１言語の原文を、第２言語に翻訳して出力する処理を実行させるためのコンピュータプログラムにおいて、
第１言語の原文のテキストを取得するステップと、
取得したテキストに含まれる単語又は連語夫々の第２言語の訳語を取得するステップと、
前記単語又は連語を構成する文字、及び取得した該単語又は連語の訳語を構成する文字を比較して、前記単語又は連語ごとに訳出するか否かを決定するステップと、
決定した結果に基づいて単語又は連語の訳語を出力するステップと
を含む処理をコンピュータに実行させることを特徴とするコンピュータプログラム。