JP2002245470A - 言語特定装置及び翻訳装置及び言語特定方法 - Google Patents
言語特定装置及び翻訳装置及び言語特定方法Info
- Publication number
- JP2002245470A JP2002245470A JP2001039410A JP2001039410A JP2002245470A JP 2002245470 A JP2002245470 A JP 2002245470A JP 2001039410 A JP2001039410 A JP 2001039410A JP 2001039410 A JP2001039410 A JP 2001039410A JP 2002245470 A JP2002245470 A JP 2002245470A
- Authority
- JP
- Japan
- Prior art keywords
- language
- languages
- character
- image data
- document image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Processing Or Creating Images (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】 外国語で書かれている文書が何語であるかを
特定したい。 【解決手段】 101において、文書イメージデータを
入力し、201において仮名文字、ハングル文字等の字
種を判定して202の言語を特定する。301におい
て、特殊記号、アクセント記号を判定して302の言語
を特定する。401において、各言語で共通に用いられ
る単語の出現頻度数をカウントして、402に示す言語
を特定する。501において、特殊なスペルの存在を確
認することにより502に示す言語を特定する。
特定したい。 【解決手段】 101において、文書イメージデータを
入力し、201において仮名文字、ハングル文字等の字
種を判定して202の言語を特定する。301におい
て、特殊記号、アクセント記号を判定して302の言語
を特定する。401において、各言語で共通に用いられ
る単語の出現頻度数をカウントして、402に示す言語
を特定する。501において、特殊なスペルの存在を確
認することにより502に示す言語を特定する。
Description
【0001】
【発明の属する技術分野】この発明は外国語で書かれて
いる文書が、何語で書かれている文書であるかを特定す
る方式に関するものである。
いる文書が、何語で書かれている文書であるかを特定す
る方式に関するものである。
【0002】
【従来の技術】従来外国語で書かれている文書を翻訳す
る場合には、その文書が何語で書かれているかを人間が
特定して翻訳機にその言語の種類を指定しなければなら
なかった。しかし、外国語で書かれている文書が何語で
記載されているか分からない場合がある。また、世界中
で使われている言語の中には非常に類似した言語が存在
しており、正確には何語で書かれているかが分からない
場合が多かった。
る場合には、その文書が何語で書かれているかを人間が
特定して翻訳機にその言語の種類を指定しなければなら
なかった。しかし、外国語で書かれている文書が何語で
記載されているか分からない場合がある。また、世界中
で使われている言語の中には非常に類似した言語が存在
しており、正確には何語で書かれているかが分からない
場合が多かった。
【0003】
【発明が解決しようとする課題】従来から特定の種類の
言語を判定する言語判定装置は存在しているが、言語の
種類が多くなった場合には、これらの従来の言語判定装
置による判定基準を用いてはいずれの言語で書かれた文
書であるかを特定することができないという課題があっ
た。この発明は、外国語で書かれている文書が何語で書
かれている文書であるかを特定する方式を提供すること
を目的とする。特に言語の種類が数多くある場合であっ
ても、何語の言語で書かれているかを特定できる方式を
提供することを目的とする。
言語を判定する言語判定装置は存在しているが、言語の
種類が多くなった場合には、これらの従来の言語判定装
置による判定基準を用いてはいずれの言語で書かれた文
書であるかを特定することができないという課題があっ
た。この発明は、外国語で書かれている文書が何語で書
かれている文書であるかを特定する方式を提供すること
を目的とする。特に言語の種類が数多くある場合であっ
ても、何語の言語で書かれているかを特定できる方式を
提供することを目的とする。
【0004】
【課題を解決するための手段】この発明に係る言語特定
装置及び翻訳装置は、複数の言語の各言語による文字の
文字パターンデータを記憶し、複数の言語のなかのいず
れかの言語による文字イメージを有する文書イメージデ
ータを入力し、文書イメージデータ内の文字イメージを
文字コードに変換することなく、文書イメージデータの
文字イメージと文字パターンデータとをパターンマッチ
ングにより比較し、文書イメージデータが、複数の言語
の各言語のなかのいずれの言語による文書イメージデー
タであるかを特定することを特徴とする。
装置及び翻訳装置は、複数の言語の各言語による文字の
文字パターンデータを記憶し、複数の言語のなかのいず
れかの言語による文字イメージを有する文書イメージデ
ータを入力し、文書イメージデータ内の文字イメージを
文字コードに変換することなく、文書イメージデータの
文字イメージと文字パターンデータとをパターンマッチ
ングにより比較し、文書イメージデータが、複数の言語
の各言語のなかのいずれの言語による文書イメージデー
タであるかを特定することを特徴とする。
【0005】この発明に係る言語特定装置は、複数の言
語の各言語による文字の文字パターンデータを記憶した
文字パターンデータ記憶部と、複数の言語の中のいずれ
かの言語による文字の文書イメージデータを入力する文
書イメージデータ入力部と、上記文書イメージデータ入
力部が入力した文書イメージデータと、上記文字パター
ンデータ記憶部が記憶した文字パターンデータとを、複
数の言語の中の一つ以上の所定の言語を特定する第1の
照合基準に基づいて照合し、文書イメージデータが、上
記複数の言語の中のいずれの言語による文書イメージデ
ータであるかを特定する第1の照合特定部と、第1の照
合特定部により文書イメージデータが上記複数の言語の
中のいずれの言語による文書イメージデータであるかを
特定できない場合に、上記文書イメージデータ入力部が
入力した文書イメージデータと、上記文字パターンデー
タ記憶部が記憶した文字パターンデータとを、第1の照
合特定部が特定する言語を除いた複数の言語の中の一つ
以上の所定の言語を特定する第2の照合基準を用いて照
合し、文書イメージデータが、上記複数の言語の中のい
ずれの言語による文書イメージデータであるかを特定す
る第2の照合特定部とを備えたことを特徴とする。
語の各言語による文字の文字パターンデータを記憶した
文字パターンデータ記憶部と、複数の言語の中のいずれ
かの言語による文字の文書イメージデータを入力する文
書イメージデータ入力部と、上記文書イメージデータ入
力部が入力した文書イメージデータと、上記文字パター
ンデータ記憶部が記憶した文字パターンデータとを、複
数の言語の中の一つ以上の所定の言語を特定する第1の
照合基準に基づいて照合し、文書イメージデータが、上
記複数の言語の中のいずれの言語による文書イメージデ
ータであるかを特定する第1の照合特定部と、第1の照
合特定部により文書イメージデータが上記複数の言語の
中のいずれの言語による文書イメージデータであるかを
特定できない場合に、上記文書イメージデータ入力部が
入力した文書イメージデータと、上記文字パターンデー
タ記憶部が記憶した文字パターンデータとを、第1の照
合特定部が特定する言語を除いた複数の言語の中の一つ
以上の所定の言語を特定する第2の照合基準を用いて照
合し、文書イメージデータが、上記複数の言語の中のい
ずれの言語による文書イメージデータであるかを特定す
る第2の照合特定部とを備えたことを特徴とする。
【0006】この発明に係る言語特定装置は、さらに、
第2の照合特定部により文書イメージデータがいずれの
言語による文書イメージデータであるかを特定できない
場合に、上記文書イメージデータ入力部が入力した文書
イメージデータと、上記文字パターンデータ記憶部が記
憶した文字パターンデータとを、第1の照合特定部と第
2の照合特定部とが特定する言語を除いた複数の言語の
中の一つ以上の所定の言語を特定する第3の照合基準を
用いて照合し、文書イメージデータが、上記複数の言語
の中のいずれの言語による文書イメージデータであるか
を特定する第3の照合特定部を備えたことを特徴とす
る。
第2の照合特定部により文書イメージデータがいずれの
言語による文書イメージデータであるかを特定できない
場合に、上記文書イメージデータ入力部が入力した文書
イメージデータと、上記文字パターンデータ記憶部が記
憶した文字パターンデータとを、第1の照合特定部と第
2の照合特定部とが特定する言語を除いた複数の言語の
中の一つ以上の所定の言語を特定する第3の照合基準を
用いて照合し、文書イメージデータが、上記複数の言語
の中のいずれの言語による文書イメージデータであるか
を特定する第3の照合特定部を備えたことを特徴とす
る。
【0007】この発明に係る言語特定装置は、さらに、
第3の照合特定部により文書イメージデータがいずれの
言語による文書イメージデータであるかを特定できない
場合に、上記文書イメージデータ入力部が入力した文書
イメージデータと、上記文字パターンデータ記憶部が記
憶した文字パターンデータとを、第1の照合特定部と第
2の照合特定部と第3の照合特定部とが特定する言語を
除いた複数の言語の中の一つ以上の所定の言語を特定す
る第4の照合基準を用いて照合し、文書イメージデータ
が、上記複数の言語の中のいずれの言語による文書イメ
ージデータであるかを特定する第4の照合特定部を備え
たことを特徴とする。
第3の照合特定部により文書イメージデータがいずれの
言語による文書イメージデータであるかを特定できない
場合に、上記文書イメージデータ入力部が入力した文書
イメージデータと、上記文字パターンデータ記憶部が記
憶した文字パターンデータとを、第1の照合特定部と第
2の照合特定部と第3の照合特定部とが特定する言語を
除いた複数の言語の中の一つ以上の所定の言語を特定す
る第4の照合基準を用いて照合し、文書イメージデータ
が、上記複数の言語の中のいずれの言語による文書イメ
ージデータであるかを特定する第4の照合特定部を備え
たことを特徴とする。
【0008】この発明に係る第1の照合特定部は、第1
の照合基準として、特定の言語に使われる特定の字種の
文字パターンの存否を用いることを特徴とする。
の照合基準として、特定の言語に使われる特定の字種の
文字パターンの存否を用いることを特徴とする。
【0009】この発明に係る第2の照合特定部は、第2
の照合基準として、特定の言語の特殊文字の文字パター
ンと特殊記号の記号パターンとの存否を用いることを特
徴とする。
の照合基準として、特定の言語の特殊文字の文字パター
ンと特殊記号の記号パターンとの存否を用いることを特
徴とする。
【0010】この発明に係る第3の照合特定部は、第3
の照合基準として、各言語に共通して使われる共通単語
の単語パターンの出現頻度を用いることを特徴とする。
の照合基準として、各言語に共通して使われる共通単語
の単語パターンの出現頻度を用いることを特徴とする。
【0011】この発明に係る第4の照合特定部は、第4
の照合基準として、特定の言語に用いられる特定のスペ
ルのスペルパターンの存否を用いることを特徴とする。
の照合基準として、特定の言語に用いられる特定のスペ
ルのスペルパターンの存否を用いることを特徴とする。
【0012】この発明に係る翻訳装置は上記言語特定装
置を備え、言語特定装置が特定した言語から他の言語へ
の翻訳をすることを特徴とする。
置を備え、言語特定装置が特定した言語から他の言語へ
の翻訳をすることを特徴とする。
【0013】この発明に係るプログラムは、複数の言語
の各言語による文字の文字パターンデータを記憶し、複
数の言語のなかのいずれかの言語による文字イメージを
有する文書イメージデータを入力し、文書イメージデー
タ内の文字イメージを文字コードに変換することなく、
文書イメージデータの文字イメージと文字パターンデー
タとをパターンマッチングにより比較し、文書イメージ
データが、複数の言語の各言語のなかのいずれの言語に
よる文書イメージデータであるかを特定する処理をコン
ピュータに実行させるプログラムである。又は、この発
明は、上記プログラムを記録したコンピュータ読み取り
可能な記録媒体である。
の各言語による文字の文字パターンデータを記憶し、複
数の言語のなかのいずれかの言語による文字イメージを
有する文書イメージデータを入力し、文書イメージデー
タ内の文字イメージを文字コードに変換することなく、
文書イメージデータの文字イメージと文字パターンデー
タとをパターンマッチングにより比較し、文書イメージ
データが、複数の言語の各言語のなかのいずれの言語に
よる文書イメージデータであるかを特定する処理をコン
ピュータに実行させるプログラムである。又は、この発
明は、上記プログラムを記録したコンピュータ読み取り
可能な記録媒体である。
【0014】この発明に係る言語特定方法は、複数の言
語の各言語による文字の文字パターンデータを記憶し、
複数の言語のなかのいずれかの言語による文字イメージ
を有する文書イメージデータを入力し、文書イメージデ
ータ内の文字イメージを文字コードに変換することな
く、文書イメージデータの文字イメージと文字パターン
データとをパターンマッチングにより比較し、文書イメ
ージデータが、複数の言語の各言語のなかのいずれの言
語による文書イメージデータであるかを特定することを
特徴とする。
語の各言語による文字の文字パターンデータを記憶し、
複数の言語のなかのいずれかの言語による文字イメージ
を有する文書イメージデータを入力し、文書イメージデ
ータ内の文字イメージを文字コードに変換することな
く、文書イメージデータの文字イメージと文字パターン
データとをパターンマッチングにより比較し、文書イメ
ージデータが、複数の言語の各言語のなかのいずれの言
語による文書イメージデータであるかを特定することを
特徴とする。
【0015】この発明に係る言語特定方法は、特定の言
語に使われる特定の字種の文字パターンの存否を用いる
ことにより複数の言語の中の1つ以上の所定の言語を特
定し、次に、特定の言語の特殊文字の文字パターンと特
殊記号の記号パターンとの存否を用いることにより複数
の言語の中の1つ以上の所定の言語を特定し、次に、各
言語に共通して使われる共通単語の単語パターンの出現
頻度を用いることにより複数の言語の中の1つ以上の所
定の言語を特定し、次に、特定の言語に用いられる特定
のスペルのスペルパターンの存否を用いることにより複
数の言語の中の1つ以上の所定の言語を特定することを
特徴とする。
語に使われる特定の字種の文字パターンの存否を用いる
ことにより複数の言語の中の1つ以上の所定の言語を特
定し、次に、特定の言語の特殊文字の文字パターンと特
殊記号の記号パターンとの存否を用いることにより複数
の言語の中の1つ以上の所定の言語を特定し、次に、各
言語に共通して使われる共通単語の単語パターンの出現
頻度を用いることにより複数の言語の中の1つ以上の所
定の言語を特定し、次に、特定の言語に用いられる特定
のスペルのスペルパターンの存否を用いることにより複
数の言語の中の1つ以上の所定の言語を特定することを
特徴とする。
【0016】
【発明の実施の形態】実施の形態1.図1は、言語特定
装置51の構成図である。言語特定装置51はパーソナ
ルコンピュータやサーバコンピュータにより実現するこ
とができる。言語特定装置51には、中央処理装置(C
PU)56及びオペレーティングシステム(OS)57
及びその他のハードウェア、ソフトウェアが設けられて
おり、プログラムの実行や記憶部へのデータアクセスを
行うことができるようになっている。
装置51の構成図である。言語特定装置51はパーソナ
ルコンピュータやサーバコンピュータにより実現するこ
とができる。言語特定装置51には、中央処理装置(C
PU)56及びオペレーティングシステム(OS)57
及びその他のハードウェア、ソフトウェアが設けられて
おり、プログラムの実行や記憶部へのデータアクセスを
行うことができるようになっている。
【0017】言語特定プログラム53は、コンピュータ
の固定ディスクや磁気ディスクやメモリやその他の記録
媒体に記録されており中央処理装置(CPU)56によ
り読み出されて実行されるプログラムである。
の固定ディスクや磁気ディスクやメモリやその他の記録
媒体に記録されており中央処理装置(CPU)56によ
り読み出されて実行されるプログラムである。
【0018】言語特定プログラム53は文書イメージデ
ータを用いてその文書が何語で書かれている文書である
かを特定するプログラムである。言語特定プログラム5
3は、文書イメージデータ入力部60と第1の照合特定
部61と第2の照合特定部62と第3の照合特定部63
と第4の照合特定部64とから構成されている。文書イ
メージデータ入力部60は文書イメージデータ99を入
力する。文書イメージデータ99は例えばスキャナ81
から文書を読み込むことにより生成される。或いはイン
ターネット83を経由して入力してもよい。或いはフレ
シキブルディスク84から入力してもよい。或いはパー
ソナルコンピュータ(PC)85から入力してもよい。
或いはデジタルカメラ86から入力してもよい。
ータを用いてその文書が何語で書かれている文書である
かを特定するプログラムである。言語特定プログラム5
3は、文書イメージデータ入力部60と第1の照合特定
部61と第2の照合特定部62と第3の照合特定部63
と第4の照合特定部64とから構成されている。文書イ
メージデータ入力部60は文書イメージデータ99を入
力する。文書イメージデータ99は例えばスキャナ81
から文書を読み込むことにより生成される。或いはイン
ターネット83を経由して入力してもよい。或いはフレ
シキブルディスク84から入力してもよい。或いはパー
ソナルコンピュータ(PC)85から入力してもよい。
或いはデジタルカメラ86から入力してもよい。
【0019】第1の照合特定部61は第1の照合基準を
用いて文書イメージデータ入力部60が入力した文書イ
メージデータ99がいずれの言語による文書イメージデ
ータ99であるかを特定するものである。第2の照合特
定部62は第2の照合基準を用いて文書イメージデータ
99がいずれの言語による文書イメージデータ99であ
るかを特定するものである。第3の照合特定部63は第
3の照合基準に基づいて文書イメージデータ99がいず
れの言語による文書イメージデータ99であるかを特定
するものである。第4の照合特定部64は、第4の照合
基準に基づいて文書イメージデータ99がいずれの言語
による文書イメージデータ99であるかを特定するもの
である。また、図示していないが、その他の基準を用い
て文書イメージデータ99がいずれの言語による文書イ
メージデータ99であるかを特定するモジュールがあっ
てもよい。
用いて文書イメージデータ入力部60が入力した文書イ
メージデータ99がいずれの言語による文書イメージデ
ータ99であるかを特定するものである。第2の照合特
定部62は第2の照合基準を用いて文書イメージデータ
99がいずれの言語による文書イメージデータ99であ
るかを特定するものである。第3の照合特定部63は第
3の照合基準に基づいて文書イメージデータ99がいず
れの言語による文書イメージデータ99であるかを特定
するものである。第4の照合特定部64は、第4の照合
基準に基づいて文書イメージデータ99がいずれの言語
による文書イメージデータ99であるかを特定するもの
である。また、図示していないが、その他の基準を用い
て文書イメージデータ99がいずれの言語による文書イ
メージデータ99であるかを特定するモジュールがあっ
てもよい。
【0020】言語特定プログラム53は以上のように複
数の照合特定部を有しており、何れかの照合特定部にお
いて、文書イメージデータ99がいずれの言語による文
書イメージデータ99であるかを特定することができ
る。
数の照合特定部を有しており、何れかの照合特定部にお
いて、文書イメージデータ99がいずれの言語による文
書イメージデータ99であるかを特定することができ
る。
【0021】翻訳プログラム55は、言語特定プログラ
ム53が特定した言語から別の言語(または自国語、例
えば日本語)への翻訳を行うプログラムである。翻訳先
の言語を別の言語(または自国語、例えば日本語)にし
ておけば、翻訳プログラム55は言語特定プログラム5
3から翻訳元の言語の種類を受け取り、別の言語(自国
語(日本語))へ翻訳するものであるから、翻訳プログ
ラム55に対する翻訳元の言語の種類及び翻訳先の言語
の種類は一切入力する必要が無くなる。
ム53が特定した言語から別の言語(または自国語、例
えば日本語)への翻訳を行うプログラムである。翻訳先
の言語を別の言語(または自国語、例えば日本語)にし
ておけば、翻訳プログラム55は言語特定プログラム5
3から翻訳元の言語の種類を受け取り、別の言語(自国
語(日本語))へ翻訳するものであるから、翻訳プログ
ラム55に対する翻訳元の言語の種類及び翻訳先の言語
の種類は一切入力する必要が無くなる。
【0022】文字パターンデータ記憶部71は言語特定
装置51に備えられた記憶部である。文字パターンデー
タ記憶部71は例えば固定ディスクや磁気ディスクや光
ディスクやその他の記録部に記憶されているものであ
る。文字パターンデータ記憶部71には、文字パターン
テーブル73と特殊文字・アクセント記号パターンテー
ブル74と共通単語パターンテーブル75とスペルパタ
ーンテーブル76が記憶されている。これらの各テーブ
ルの詳細は、以下の動作を説明する場合に順次説明す
る。
装置51に備えられた記憶部である。文字パターンデー
タ記憶部71は例えば固定ディスクや磁気ディスクや光
ディスクやその他の記録部に記憶されているものであ
る。文字パターンデータ記憶部71には、文字パターン
テーブル73と特殊文字・アクセント記号パターンテー
ブル74と共通単語パターンテーブル75とスペルパタ
ーンテーブル76が記憶されている。これらの各テーブ
ルの詳細は、以下の動作を説明する場合に順次説明す
る。
【0023】図2は言語特定装置51の言語特定方法の
動作を説明する図であり、言語識別の概略フローを示す
図である。図20は、図2に示した動作により識別され
る言語の例を示す図である。図2の101において文書
イメージデータ入力部60が文書イメージデータ99を
入力する。言語特定プログラム53の特長は以下に述べ
る照合やチェックをすべてイメージデータのまま行う点
である。即ち言語特定プログラム53は文書イメージデ
ータ99内の文字イメージを文字認識処理等により文字
コードに変換したり符号化することなく文書イメージデ
ータの文字イメージと文字パターンデータ記憶部71に
記憶した文字パターンとのパターンマッチングにより照
合する点が特長である。もし、文字コードを使用した場
合にはコードが同一であっても言語によっては同一コー
ドに対応する文字が異なるため、コードを用いてはいず
れの言語であるかを判定することができなくなる。例え
ば、図18に示したように1バイトコードを例に挙げる
と英語の「A」とロシア語の「Φ」は同一コードであ
り、コード化されてしまうと2つの文字が区別できなく
なってしまう。また、図16〜図19に示したように、
各言語によって同一コードに割り当てている文字が異な
っているのでコードを用いてはいずれの言語であるかを
判定することができない。なお、図16〜図19の左欄
の「109」は109個のキーがある「109キーボー
ド」の各キーを示している。従って、以下に述べるアル
ゴリズムはパターンマッチング即ちイメージマッチング
による方法を用いる。
動作を説明する図であり、言語識別の概略フローを示す
図である。図20は、図2に示した動作により識別され
る言語の例を示す図である。図2の101において文書
イメージデータ入力部60が文書イメージデータ99を
入力する。言語特定プログラム53の特長は以下に述べ
る照合やチェックをすべてイメージデータのまま行う点
である。即ち言語特定プログラム53は文書イメージデ
ータ99内の文字イメージを文字認識処理等により文字
コードに変換したり符号化することなく文書イメージデ
ータの文字イメージと文字パターンデータ記憶部71に
記憶した文字パターンとのパターンマッチングにより照
合する点が特長である。もし、文字コードを使用した場
合にはコードが同一であっても言語によっては同一コー
ドに対応する文字が異なるため、コードを用いてはいず
れの言語であるかを判定することができなくなる。例え
ば、図18に示したように1バイトコードを例に挙げる
と英語の「A」とロシア語の「Φ」は同一コードであ
り、コード化されてしまうと2つの文字が区別できなく
なってしまう。また、図16〜図19に示したように、
各言語によって同一コードに割り当てている文字が異な
っているのでコードを用いてはいずれの言語であるかを
判定することができない。なお、図16〜図19の左欄
の「109」は109個のキーがある「109キーボー
ド」の各キーを示している。従って、以下に述べるアル
ゴリズムはパターンマッチング即ちイメージマッチング
による方法を用いる。
【0024】201において、第1の照合特定部61が
第1の照合基準を用いて文書イメージデータ99がいず
れの言語による文書イメージデータ99であるかを判定
する。第1の照合特定部61は第1の照合基準として特
定部の言語に使われる特定の字種の文字パターンの存否
を用いる。
第1の照合基準を用いて文書イメージデータ99がいず
れの言語による文書イメージデータ99であるかを判定
する。第1の照合特定部61は第1の照合基準として特
定部の言語に使われる特定の字種の文字パターンの存否
を用いる。
【0025】図3は字種による言語の分類を示してい
る。図3の左側は、「字種」を示しており、右側は、
「使用言語例」を示している。字種による言語の特定と
は即ち文字の種類により言語を特定するものである。
る。図3の左側は、「字種」を示しており、右側は、
「使用言語例」を示している。字種による言語の特定と
は即ち文字の種類により言語を特定するものである。
【0026】図4から図8は文字パターンテーブル73
の言語1の文字パターン91,言語2の文字パターン9
2,言語3の文字パターン93の例を示すイメージ図
(図4〜図8に示したパターンには図4〜図8に示す各
人・各社・各法人の著作権があり、それぞれ引用した)
である。文字パターンテーブル73は各言語の文字パタ
ーンをイメージで記憶している。文字パターンテーブル
73はアルファベットと数字を全て記憶している。更に
文字パターンテーブル73は、文字のサイズを変えて文
字のイメージを記憶している。図においては12ポイン
トから72ポイントまでの7種類のポイント数を用いて
イメージを記憶している。
の言語1の文字パターン91,言語2の文字パターン9
2,言語3の文字パターン93の例を示すイメージ図
(図4〜図8に示したパターンには図4〜図8に示す各
人・各社・各法人の著作権があり、それぞれ引用した)
である。文字パターンテーブル73は各言語の文字パタ
ーンをイメージで記憶している。文字パターンテーブル
73はアルファベットと数字を全て記憶している。更に
文字パターンテーブル73は、文字のサイズを変えて文
字のイメージを記憶している。図においては12ポイン
トから72ポイントまでの7種類のポイント数を用いて
イメージを記憶している。
【0027】第1の照合特定部61は文字パターンテー
ブル73に記憶された文字パターンと文書イメージデー
タ99の文字イメージとを比較し、特定の字種が存在す
るか否かを判定する。もし、文字のサイズが合わない場
合は、文字パターンテーブル73に記憶された文字パタ
ーンのいずれかのポイント数と一致するように文書イメ
ージデータ99の文字イメージが拡大又は縮小されて比
較される。以下、第2〜第4の照合特定部も、拡大縮小
して比較をする。こうして、比較精度を向上させてい
る。字種による言語の特定として、例えばハングル文字
は韓国語にしか使用されていないので韓国語と決定する
ことができる。また、仮名文字は、日本語にしか使用さ
れていないので日本語であると決定することができる。
また、タイ文字はタイ語にしか使用されないのでタイ語
であると決定することができる。またキリル系文字のう
ちギリシャ文字はギリシャ語のみで使われ、ギリシャ語
が決定できる。グルジア文字はグルジア語のみで使用さ
れるのでグルジア語が決定できる。第1の照合特定部6
1はこのようにして201で字種の照合を行い図20の
Aに示す言語を特定することができる。ここで、「言語
を特定する」とは「言語を一意に決定する」ことをい
う。
ブル73に記憶された文字パターンと文書イメージデー
タ99の文字イメージとを比較し、特定の字種が存在す
るか否かを判定する。もし、文字のサイズが合わない場
合は、文字パターンテーブル73に記憶された文字パタ
ーンのいずれかのポイント数と一致するように文書イメ
ージデータ99の文字イメージが拡大又は縮小されて比
較される。以下、第2〜第4の照合特定部も、拡大縮小
して比較をする。こうして、比較精度を向上させてい
る。字種による言語の特定として、例えばハングル文字
は韓国語にしか使用されていないので韓国語と決定する
ことができる。また、仮名文字は、日本語にしか使用さ
れていないので日本語であると決定することができる。
また、タイ文字はタイ語にしか使用されないのでタイ語
であると決定することができる。またキリル系文字のう
ちギリシャ文字はギリシャ語のみで使われ、ギリシャ語
が決定できる。グルジア文字はグルジア語のみで使用さ
れるのでグルジア語が決定できる。第1の照合特定部6
1はこのようにして201で字種の照合を行い図20の
Aに示す言語を特定することができる。ここで、「言語
を特定する」とは「言語を一意に決定する」ことをい
う。
【0028】第1の照合特定部61により言語を特定す
ることができない場合は、言語特定プログラム53の第
2の照合特定部62が動作し、301において特殊文字
とアクセント記号による言語の特定を行う。図9はラテ
ン文字系の言語で用いる特殊文字例を示している。ま
た、図10はキリル系文字の言語が使用する特殊文字例
を示している。また、図11はアクセント記号付きラテ
ン文字(母音)と使用言語(例)を示している。また、
図21はアクセント記号付きラテン文字(子音)と使用
言語(例)を示している。また、図22はロシア語で使
用しないキリル系文字を示している。また、図23はキ
リル系文字と使用する言語で使用されているラテン系文
字を示している。 図9,図10,図11、図21、図
22、図23に示したものは特殊文字・アクセント記号
パターンテーブル74として文字パターンデータ記憶部
71に記憶されているものである。図9から図11と図
21から図23に示した特殊文字・アクセント記号パタ
ーンテーブル74を用いることにより例えば、
ることができない場合は、言語特定プログラム53の第
2の照合特定部62が動作し、301において特殊文字
とアクセント記号による言語の特定を行う。図9はラテ
ン文字系の言語で用いる特殊文字例を示している。ま
た、図10はキリル系文字の言語が使用する特殊文字例
を示している。また、図11はアクセント記号付きラテ
ン文字(母音)と使用言語(例)を示している。また、
図21はアクセント記号付きラテン文字(子音)と使用
言語(例)を示している。また、図22はロシア語で使
用しないキリル系文字を示している。また、図23はキ
リル系文字と使用する言語で使用されているラテン系文
字を示している。 図9,図10,図11、図21、図
22、図23に示したものは特殊文字・アクセント記号
パターンテーブル74として文字パターンデータ記憶部
71に記憶されているものである。図9から図11と図
21から図23に示した特殊文字・アクセント記号パタ
ーンテーブル74を用いることにより例えば、
【0029】
【数1】
【0030】が使用されている場合、それだけで「ドイ
ツ語」と確定できる。また、各言語に用いられるアルフ
ァベットに使用される文字数を判断基準にしてもよい。
たとえば、アラビア語のアルファベットとして使用する
文字の数は28文字である。ペルシャ文字はアラビア語
の28文字をもとにペルシャ語で考案された4文字を加
えた32文字からなる。さらに、ウルドゥー文字は、ア
ラビア語の28文字をもとに、ペルシャ語で考案された
4文字、ヒンディー系特有の音を表す3文字を加えた3
5文字からなる。したがって、文書イメージデータ99
の文字イメージ(文字パターン)の数(28文字か32
文字か35文字か)を比較することにより、アラビア語
とペルシャ語とウルドゥー語を識別できる。このように
して、第2の照合特定部62は、301において、特定
の言語の特殊文字の文字パターンと特殊記号の記号パタ
ーンとの存在を確認することにより、図20のBの言語
を特定することができる。
ツ語」と確定できる。また、各言語に用いられるアルフ
ァベットに使用される文字数を判断基準にしてもよい。
たとえば、アラビア語のアルファベットとして使用する
文字の数は28文字である。ペルシャ文字はアラビア語
の28文字をもとにペルシャ語で考案された4文字を加
えた32文字からなる。さらに、ウルドゥー文字は、ア
ラビア語の28文字をもとに、ペルシャ語で考案された
4文字、ヒンディー系特有の音を表す3文字を加えた3
5文字からなる。したがって、文書イメージデータ99
の文字イメージ(文字パターン)の数(28文字か32
文字か35文字か)を比較することにより、アラビア語
とペルシャ語とウルドゥー語を識別できる。このように
して、第2の照合特定部62は、301において、特定
の言語の特殊文字の文字パターンと特殊記号の記号パタ
ーンとの存在を確認することにより、図20のBの言語
を特定することができる。
【0031】第2の照合特定部62により言語を特定す
ることができない場合は、第3の照合特定部63が40
1において動作する。第3の照合特定部63は、第3の
照合基準として各言語に共通して使われる共通単語の単
語パターンの出現頻度を用いる。図12は文字パターン
データ記憶部71に記憶されている共通単語パターンテ
ーブル75の一例を示す図である。ここで共通単語とは
特定の単語であり、具体的には例えば日常の必須単語で
あり、格変化または人称変化の少ない、或いは格変化ま
たは人称変化のない品詞のみから又はこれらの品詞を中
心に選択された多くても数十個程度又は数百個程度の単
語である。また、図13は、共通単語パターンテーブル
75の他の例である。図12,図13の場合は英単語を
基準にラテン文字を使用する他の言語の単語を表にした
ものである。共通単語として技術用語を選択する事も可
能であるが、技術用語を用いる場合には同一系統の文字
を使用する複数の言語間でスペルが全く同じになること
が多い為実用的ではない。図12及び図13に示す共通
単語は、共通単語パターンテーブル75に記憶されてい
るがこれらも全て文字パターン(文字イメージ)として
記憶されているものである。従って、第3の照合特定部
63が文書イメージデータ99内の文字イメージと図1
2または図13に示した共通単語パターンとを比較する
場合において、第3の照合特定部63はそれらが単語で
あるという認識は全くなく単にパターンが似ているか似
ていないかということを判断する。そして、似たパター
ンが出現するたびにその単語の出現回数を一プラスして
出現回数をカウントする。もし、その文書イメージデー
タ99がフランス語でできていた場合には図12または
図13における表のうちフランス語の欄にある単語の出
現回数が他の言語の単語の出現回数よりも格段に多くな
るはずである。その結果その文書イメージデータ99が
フランス語であるということを特定することができる。
第3の照合特定部63は、図2の401において、図2
0のCに示す言語を特定することができる。
ることができない場合は、第3の照合特定部63が40
1において動作する。第3の照合特定部63は、第3の
照合基準として各言語に共通して使われる共通単語の単
語パターンの出現頻度を用いる。図12は文字パターン
データ記憶部71に記憶されている共通単語パターンテ
ーブル75の一例を示す図である。ここで共通単語とは
特定の単語であり、具体的には例えば日常の必須単語で
あり、格変化または人称変化の少ない、或いは格変化ま
たは人称変化のない品詞のみから又はこれらの品詞を中
心に選択された多くても数十個程度又は数百個程度の単
語である。また、図13は、共通単語パターンテーブル
75の他の例である。図12,図13の場合は英単語を
基準にラテン文字を使用する他の言語の単語を表にした
ものである。共通単語として技術用語を選択する事も可
能であるが、技術用語を用いる場合には同一系統の文字
を使用する複数の言語間でスペルが全く同じになること
が多い為実用的ではない。図12及び図13に示す共通
単語は、共通単語パターンテーブル75に記憶されてい
るがこれらも全て文字パターン(文字イメージ)として
記憶されているものである。従って、第3の照合特定部
63が文書イメージデータ99内の文字イメージと図1
2または図13に示した共通単語パターンとを比較する
場合において、第3の照合特定部63はそれらが単語で
あるという認識は全くなく単にパターンが似ているか似
ていないかということを判断する。そして、似たパター
ンが出現するたびにその単語の出現回数を一プラスして
出現回数をカウントする。もし、その文書イメージデー
タ99がフランス語でできていた場合には図12または
図13における表のうちフランス語の欄にある単語の出
現回数が他の言語の単語の出現回数よりも格段に多くな
るはずである。その結果その文書イメージデータ99が
フランス語であるということを特定することができる。
第3の照合特定部63は、図2の401において、図2
0のCに示す言語を特定することができる。
【0032】第3の照合特定部63により言語を特定す
ることができない場合は、第4の照合特定部64が動作
し、501において、第4の照合基準を用いて言語を特
定する。第4の照合特定部64は第4の照合基準として
特定の言語に用いられる特定のスペルのスペルパターン
の存否を用いる。図14は文字パターンデータ記憶部7
1に記憶されたスペルパターンテーブル76の一例を示
す図である。ここでスペルとは一単語全体のスペルのみ
ならず単語の一部分を構成している文字列の場合も含む
ものとする。図14に示すように特殊なスペルが存在し
た場合で、かつそのスペルが数多く存在した場合には特
定の言語であると判定することができる。図14に示し
たスペルパターンテーブル76も文字コードで記憶され
ているのではなく、スペルパターン(スペルイメージ)
として記憶されており、第4の照合特定部64は文書イ
メージデータ99のイメージとスペルパターンテーブル
76のスペルパターンを比較することにより、そのスペ
ルパターンが存在するか否かを照合する。なお、第4の
照合特定部64は、第1〜第3の照合特定部の動作の後
に、第1〜第3の照合特定部の動作によって識別された
言語の確認をするために動作させるようにしてもよい。
第4の照合特定部64は、501において以上のような
照合を行った結果、図20の”A”〜”C”にて識別さ
れ得ないその他の言語(図2のD)の識別、および/ま
たは”A”〜”C”の各言語の確認を行う。
ることができない場合は、第4の照合特定部64が動作
し、501において、第4の照合基準を用いて言語を特
定する。第4の照合特定部64は第4の照合基準として
特定の言語に用いられる特定のスペルのスペルパターン
の存否を用いる。図14は文字パターンデータ記憶部7
1に記憶されたスペルパターンテーブル76の一例を示
す図である。ここでスペルとは一単語全体のスペルのみ
ならず単語の一部分を構成している文字列の場合も含む
ものとする。図14に示すように特殊なスペルが存在し
た場合で、かつそのスペルが数多く存在した場合には特
定の言語であると判定することができる。図14に示し
たスペルパターンテーブル76も文字コードで記憶され
ているのではなく、スペルパターン(スペルイメージ)
として記憶されており、第4の照合特定部64は文書イ
メージデータ99のイメージとスペルパターンテーブル
76のスペルパターンを比較することにより、そのスペ
ルパターンが存在するか否かを照合する。なお、第4の
照合特定部64は、第1〜第3の照合特定部の動作の後
に、第1〜第3の照合特定部の動作によって識別された
言語の確認をするために動作させるようにしてもよい。
第4の照合特定部64は、501において以上のような
照合を行った結果、図20の”A”〜”C”にて識別さ
れ得ないその他の言語(図2のD)の識別、および/ま
たは”A”〜”C”の各言語の確認を行う。
【0033】この実施の形態の第1の特徴は、イメージ
データを用い言語の判定を行っている点である。この文
書イメージデータ99は例えば、文書の第1頁或いは、
文書の中で文章がたくさん現れている1頁をイメージ化
したものであれば十分である。
データを用い言語の判定を行っている点である。この文
書イメージデータ99は例えば、文書の第1頁或いは、
文書の中で文章がたくさん現れている1頁をイメージ化
したものであれば十分である。
【0034】次に第2の特徴は、第1から第4の照合特
定部が順番に言語を特定していく点である。即ち、前段
の照合特定部で言語を特定できない場合に後段の照合特
定部において、前段の照合特定部が用いた照合基準とは
異なる照合基準を用いて言語を特定しようとしている点
である。即ち、一つの基準を用いては数多くある複数の
言語を特定することができないが、このように順番に異
なる基準を当てはめることにより言語を特定していくと
いう点が特徴である。第1の照合基準から第4の照合基
準はそれぞれ独立した照合基準である。従って第1から
第4の4つの照合基準をそれぞれ順番を入れ替えて言語
を判定することも可能である。しかし、前述した内容を
もつ第1から第4の照合基準の順番に言語を特定するこ
とが望ましい。その理由は先に適用した基準により特定
された言語が除かれ、その除かれた残りの言語に対して
次の基準を適用することにより、残りの基準による言語
の特定が可能になるからである。例えば第2の照合基準
を第1の照合基準よりも先に適用した場合には第1の照
合基準により図20に示すAの言語が除かれていないた
め、第2の照合基準によって図20に示すBの言語を特
定する(一意に決定する)ことができなくなってしまう
場合がある。以上の理由により前述した実施の形態にお
ける第1から第4の照合基準の順番を守って言語の判定
をすることが望ましい。
定部が順番に言語を特定していく点である。即ち、前段
の照合特定部で言語を特定できない場合に後段の照合特
定部において、前段の照合特定部が用いた照合基準とは
異なる照合基準を用いて言語を特定しようとしている点
である。即ち、一つの基準を用いては数多くある複数の
言語を特定することができないが、このように順番に異
なる基準を当てはめることにより言語を特定していくと
いう点が特徴である。第1の照合基準から第4の照合基
準はそれぞれ独立した照合基準である。従って第1から
第4の4つの照合基準をそれぞれ順番を入れ替えて言語
を判定することも可能である。しかし、前述した内容を
もつ第1から第4の照合基準の順番に言語を特定するこ
とが望ましい。その理由は先に適用した基準により特定
された言語が除かれ、その除かれた残りの言語に対して
次の基準を適用することにより、残りの基準による言語
の特定が可能になるからである。例えば第2の照合基準
を第1の照合基準よりも先に適用した場合には第1の照
合基準により図20に示すAの言語が除かれていないた
め、第2の照合基準によって図20に示すBの言語を特
定する(一意に決定する)ことができなくなってしまう
場合がある。以上の理由により前述した実施の形態にお
ける第1から第4の照合基準の順番を守って言語の判定
をすることが望ましい。
【0035】実施の形態2.この実施の形態2において
は実施の形態1で述べた言語特定装置51を用いた翻訳
システム(翻訳装置)について説明する。図15は、翻
訳システム200を示す図である。翻訳システム200
は翻訳会社が有しているシステムである。サーバ201
は、実施の形態1で述べた言語特定装置51を有してい
る。即ちサーバ201は言語特定プログラム53を動作
させる機能を有している。図15において、”PCx
x”は翻訳で使用するPC(パーソナルコンピュータ又
はパソコン)の番号、その下の(xxxxx語)は当該
PCxxがサポートする翻訳元の言語であることを示
す。翻訳先の言語は、ユーザから指定された言語であ
る。翻訳先の言語指定されないときは、自国語を翻訳先
の言語とする。
は実施の形態1で述べた言語特定装置51を用いた翻訳
システム(翻訳装置)について説明する。図15は、翻
訳システム200を示す図である。翻訳システム200
は翻訳会社が有しているシステムである。サーバ201
は、実施の形態1で述べた言語特定装置51を有してい
る。即ちサーバ201は言語特定プログラム53を動作
させる機能を有している。図15において、”PCx
x”は翻訳で使用するPC(パーソナルコンピュータ又
はパソコン)の番号、その下の(xxxxx語)は当該
PCxxがサポートする翻訳元の言語であることを示
す。翻訳先の言語は、ユーザから指定された言語であ
る。翻訳先の言語指定されないときは、自国語を翻訳先
の言語とする。
【0036】以下動作について説明する。ユーザ(Us
er/Customer)は「翻訳会社」のホームペー
ジを開き、以下のデータ等を入力する。 a.ユーザのe−mailアドレス。 b.「何語」への翻訳を希望するか(メニューからクリ
ックで指定)。 c.どの「分野」の原稿か(メニューからクリックで指
定)。 d.ボリューム(例えばA4換算での頁数)。 e.ユーザの希望する納期。 f.原稿・原文のうち、最も文章の多い1頁を文書イメ
ージデータ99として貼付・添付。 以上を入力すると「送信」ボタンをクリックする。一方
これらのデータを受信した「翻訳会社」の言語特定装置
51はa.〜e.項をユーザデータベース(User
DB)202に格納し、また、文書イメージデータ99
を言語特定装置51により、受信した原稿・原文が何語
であるかを判定し、その結果に基づいて、上記受信デー
タを全て該当する言語サポート用PCxxへ送信する。
次に、こららデータを受けたPCxxでは、そのオペレ
ータ(翻訳担当者)がユーザの求める条件から翻訳受諾
の可否を判断し、その結果に費用見積、およびユーザ・
データ・フォーマットを添付し、サーバ201経由で上
記a.項のe−mailアドレス(=User/Cus
tomer)宛インターネット経由で送信する。この通
知を受けたユーザは、発注すべきかどうかを判断し、発
注と決定した場合、翻訳会社からのe−mailに添付
されていた「ユーザ・データ・フォーマット」に支払方
法など必要事項を入力し、原稿・原文全てとともに「翻
訳会社」宛インターネットを経由して送信する(これに
より正式の注文書発行となる)。図15に示す構成にお
いて、各言語毎に各パソコンが存在しているのは各パソ
コンにそれぞれ言語サポートハードウェア及び言語サポ
ートプログラムがインストールされている場合を想定し
ているからである。例えば、PC01には日本語キーボ
ードと仮名漢字変換プログラムと日本語キーボードドラ
イバ等の日本語サポートハードウェアと日本語サポート
プログラムがインストールされている。従って、翻訳さ
れた結果を日本語として画面に表示したり日本語での修
正作業を行うことが可能になる。
er/Customer)は「翻訳会社」のホームペー
ジを開き、以下のデータ等を入力する。 a.ユーザのe−mailアドレス。 b.「何語」への翻訳を希望するか(メニューからクリ
ックで指定)。 c.どの「分野」の原稿か(メニューからクリックで指
定)。 d.ボリューム(例えばA4換算での頁数)。 e.ユーザの希望する納期。 f.原稿・原文のうち、最も文章の多い1頁を文書イメ
ージデータ99として貼付・添付。 以上を入力すると「送信」ボタンをクリックする。一方
これらのデータを受信した「翻訳会社」の言語特定装置
51はa.〜e.項をユーザデータベース(User
DB)202に格納し、また、文書イメージデータ99
を言語特定装置51により、受信した原稿・原文が何語
であるかを判定し、その結果に基づいて、上記受信デー
タを全て該当する言語サポート用PCxxへ送信する。
次に、こららデータを受けたPCxxでは、そのオペレ
ータ(翻訳担当者)がユーザの求める条件から翻訳受諾
の可否を判断し、その結果に費用見積、およびユーザ・
データ・フォーマットを添付し、サーバ201経由で上
記a.項のe−mailアドレス(=User/Cus
tomer)宛インターネット経由で送信する。この通
知を受けたユーザは、発注すべきかどうかを判断し、発
注と決定した場合、翻訳会社からのe−mailに添付
されていた「ユーザ・データ・フォーマット」に支払方
法など必要事項を入力し、原稿・原文全てとともに「翻
訳会社」宛インターネットを経由して送信する(これに
より正式の注文書発行となる)。図15に示す構成にお
いて、各言語毎に各パソコンが存在しているのは各パソ
コンにそれぞれ言語サポートハードウェア及び言語サポ
ートプログラムがインストールされている場合を想定し
ているからである。例えば、PC01には日本語キーボ
ードと仮名漢字変換プログラムと日本語キーボードドラ
イバ等の日本語サポートハードウェアと日本語サポート
プログラムがインストールされている。従って、翻訳さ
れた結果を日本語として画面に表示したり日本語での修
正作業を行うことが可能になる。
【0037】
【発明の効果】以上のように前述した実施の形態によれ
ば、入力した文書イメージデータ99の言語を自動的に
特定することができる。特に翻訳を行う場合に翻訳元の
文書が何語で書かれた文書であるかを指定する必要がな
くなる。特に欧州のように系統を同じくする言語が多く
存在し、翻訳用ソフトウェアが多数存在する地域では言
語を自動的に特定することは非常に重要である。
ば、入力した文書イメージデータ99の言語を自動的に
特定することができる。特に翻訳を行う場合に翻訳元の
文書が何語で書かれた文書であるかを指定する必要がな
くなる。特に欧州のように系統を同じくする言語が多く
存在し、翻訳用ソフトウェアが多数存在する地域では言
語を自動的に特定することは非常に重要である。
【図1】 言語特定装置51の構成図である。
【図2】 言語特定装置51の動作フローチャートであ
る。
る。
【図3】 字種による言語の分類図である。
【図4】 文字パターンテーブル73の文字パターンの
一例(アラビア語)を示す図である。
一例(アラビア語)を示す図である。
【図5】 文字パターンテーブル73の文字パターンの
一例(ペルシャ語)を示す図である。
一例(ペルシャ語)を示す図である。
【図6】 文字パターンテーブル73の文字パターンの
一例(ギリシャ語)を示す図である。
一例(ギリシャ語)を示す図である。
【図7】 文字パターンテーブル73の文字パターンの
一例(ヘブライ語)を示す図である。
一例(ヘブライ語)を示す図である。
【図8】 文字パターンテーブル73の文字パターンの
一例(ルーマニア語)を示す図である。
一例(ルーマニア語)を示す図である。
【図9】 特殊文字・アクセント記号パターンテーブル
74の一例を示す図である。
74の一例を示す図である。
【図10】 特殊文字・アクセント記号パターンテーブ
ル74の一例を示す図である。
ル74の一例を示す図である。
【図11】 特殊文字・アクセント記号パターンテーブ
ル74の一例を示す図である。
ル74の一例を示す図である。
【図12】 共通単語パターンテーブル75の一例を示
す図である。
す図である。
【図13】 共通単語パターンテーブル75の一例を示
す図である。
す図である。
【図14】 スペルパターンテーブル76の一例を示す
図である。
図である。
【図15】 翻訳システム200を示す図である。
【図16】 文字コードが同一であっても言語によって
対応する文字が異なる場合があることを示す図である。
対応する文字が異なる場合があることを示す図である。
【図17】 文字コードが同一であっても言語によって
対応する文字が異なる場合があることを示す図である。
対応する文字が異なる場合があることを示す図である。
【図18】 文字コードが同一であっても言語によって
対応する文字が異なる場合があることを示す図である。
対応する文字が異なる場合があることを示す図である。
【図19】 文字コードが同一であっても言語によって
対応する文字が異なる場合があることを示す図である。
対応する文字が異なる場合があることを示す図である。
【図20】 図2の動作により識別される言語例を示す
図である。
図である。
【図21】 特殊文字・アクセント記号パターンテーブ
ル74の一例を示す図である。
ル74の一例を示す図である。
【図22】 特殊文字・アクセント記号パターンテーブ
ル74の一例を示す図である。
ル74の一例を示す図である。
【図23】 特殊文字・アクセント記号パターンテーブ
ル74の一例を示す図である。
ル74の一例を示す図である。
51 言語特定装置、53 言語特定プログラム、55
翻訳プログラム、56 中央処理装置(CPU)、5
7 オペレーティングシステム(OS)、60文書イメ
ージデータ入力部、61 第1の照合特定部、62 第
2の照合特定部、63 第3の照合特定部、64 第4
の照合特定部、71 文字パターンデータ記憶部、73
文字パターンテーブル、74 特殊文字・アクセント
記号パターンテーブル、75 共通単語パターンテーブ
ル、76 スペルパターンテーブル、81 スキャナ、
83 インターネット、84 フレシキブルディスク、
85 パーソナルコンピュータ(PC)、86 デジタ
ルカメラ、91 言語1の文字パターン、92 言語2
の文字パターン、93 言語3の文字パターン、99
文書イメージデータ。
翻訳プログラム、56 中央処理装置(CPU)、5
7 オペレーティングシステム(OS)、60文書イメ
ージデータ入力部、61 第1の照合特定部、62 第
2の照合特定部、63 第3の照合特定部、64 第4
の照合特定部、71 文字パターンデータ記憶部、73
文字パターンテーブル、74 特殊文字・アクセント
記号パターンテーブル、75 共通単語パターンテーブ
ル、76 スペルパターンテーブル、81 スキャナ、
83 インターネット、84 フレシキブルディスク、
85 パーソナルコンピュータ(PC)、86 デジタ
ルカメラ、91 言語1の文字パターン、92 言語2
の文字パターン、93 言語3の文字パターン、99
文書イメージデータ。
Claims (12)
- 【請求項1】 複数の言語の各言語による文字の文字パ
ターンデータを記憶し、 複数の言語のなかのいずれかの言語による文字イメージ
を有する文書イメージデータを入力し、 文書イメージデータ内の文字イメージを文字コードに変
換することなく、文書イメージデータの文字イメージと
文字パターンデータとをパターンマッチングにより比較
し、 文書イメージデータが、複数の言語の各言語のなかのい
ずれの言語による文書イメージデータであるかを特定す
ることを特徴とする言語特定装置。 - 【請求項2】 上記言語特定装置は、 複数の言語の各言語による文字の文字パターンデータを
記憶した文字パターンデータ記憶部と、 複数の言語の中のいずれかの言語による文字の文書イメ
ージデータを入力する文書イメージデータ入力部と、 上記文書イメージデータ入力部が入力した文書イメージ
データと、上記文字パターンデータ記憶部が記憶した文
字パターンデータとを、複数の言語の中の一つ以上の所
定の言語を特定する第1の照合基準に基づいて照合し、
文書イメージデータが、上記複数の言語の中のいずれの
言語による文書イメージデータであるかを特定する第1
の照合特定部と、 第1の照合特定部により文書イメージデータが上記複数
の言語の中のいずれの言語による文書イメージデータで
あるかを特定できない場合に、上記文書イメージデータ
入力部が入力した文書イメージデータと、上記文字パタ
ーンデータ記憶部が記憶した文字パターンデータとを、
第1の照合特定部が特定する言語を除いた複数の言語の
中の一つ以上の所定の言語を特定する第2の照合基準を
用いて照合し、文書イメージデータが、上記複数の言語
の中のいずれの言語による文書イメージデータであるか
を特定する第2の照合特定部とを備えたことを特徴とす
る請求項1記載の言語特定装置。 - 【請求項3】 上記言語特定装置は、さらに、 第2の照合特定部により文書イメージデータがいずれの
言語による文書イメージデータであるかを特定できない
場合に、上記文書イメージデータ入力部が入力した文書
イメージデータと、上記文字パターンデータ記憶部が記
憶した文字パターンデータとを、第1の照合特定部と第
2の照合特定部とが特定する言語を除いた複数の言語の
中の一つ以上の所定の言語を特定する第3の照合基準を
用いて照合し、文書イメージデータが、上記複数の言語
の中のいずれの言語による文書イメージデータであるか
を特定する第3の照合特定部を備えたことを特徴とする
請求項2記載の言語特定装置。 - 【請求項4】 上記言語特定装置は、さらに、 第3の照合特定部により文書イメージデータがいずれの
言語による文書イメージデータであるかを特定できない
場合に、上記文書イメージデータ入力部が入力した文書
イメージデータと、上記文字パターンデータ記憶部が記
憶した文字パターンデータとを、第1の照合特定部と第
2の照合特定部と第3の照合特定部とが特定する言語を
除いた複数の言語の中の一つ以上の所定の言語を特定す
る第4の照合基準を用いて照合し、文書イメージデータ
が、上記複数の言語の中のいずれの言語による文書イメ
ージデータであるかを特定する第4の照合特定部を備え
たことを特徴とする請求項3記載の言語特定装置。 - 【請求項5】 第1の照合特定部は、第1の照合基準と
して、特定の言語に使われる特定の字種の文字パターン
の存否を用いることを特徴とする請求項1記載の言語特
定装置。 - 【請求項6】 第2の照合特定部は、第2の照合基準と
して、特定の言語の特殊文字の文字パターンと特殊記号
の記号パターンとの存否を用いることを特徴とする請求
項2記載の言語特定装置。 - 【請求項7】 第3の照合特定部は、第3の照合基準と
して、各言語に共通して使われる共通単語の単語パター
ンの出現頻度を用いることを特徴とする請求項3記載の
言語特定装置。 - 【請求項8】 第4の照合特定部は、第4の照合基準と
して、特定の言語に用いられる特定のスペルのスペルパ
ターンの存否を用いることを特徴とする請求項4記載の
言語特定装置。 - 【請求項9】 上記請求項1記載の言語特定装置を備
え、言語特定装置が特定した言語から他の言語への翻訳
をする翻訳装置。 - 【請求項10】 複数の言語の各言語による文字の文字
パターンデータを記憶し、 複数の言語のなかのいずれかの言語による文字イメージ
を有する文書イメージデータを入力し、 文書イメージデータ内の文字イメージを文字コードに変
換することなく、文書イメージデータの文字イメージと
文字パターンデータとをパターンマッチングにより比較
し、 文書イメージデータが、複数の言語の各言語のなかのい
ずれの言語による文書イメージデータであるかを特定す
る処理をコンピュータに実行させるプログラム又はその
プログラムを記録したコンピュータ読み取り可能な記録
媒体。 - 【請求項11】 複数の言語の各言語による文字の文字
パターンデータを記憶し、 複数の言語のなかのいずれかの言語による文字イメージ
を有する文書イメージデータを入力し、 文書イメージデータ内の文字イメージを文字コードに変
換することなく、文書イメージデータの文字イメージと
文字パターンデータとをパターンマッチングにより比較
し、 文書イメージデータが、複数の言語の各言語のなかのい
ずれの言語による文書イメージデータであるかを特定す
ることを特徴とする言語特定方法。 - 【請求項12】 上記言語特定方法は、特定の言語に使
われる特定の字種の文字パターンの存否を用いることに
より複数の言語の中の1つ以上の所定の言語を特定し、 次に、特定の言語の特殊文字の文字パターンと特殊記号
の記号パターンとの存否を用いることにより複数の言語
の中の1つ以上の所定の言語を特定し、 次に、各言語に共通して使われる共通単語の単語パター
ンの出現頻度を用いることにより複数の言語の中の1つ
以上の所定の言語を特定し、 次に、特定の言語に用いられる特定のスペルのスペルパ
ターンの存否を用いることにより複数の言語の中の1つ
以上の所定の言語を特定することを特徴とする請求項1
1記載の言語特定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001039410A JP2002245470A (ja) | 2001-02-16 | 2001-02-16 | 言語特定装置及び翻訳装置及び言語特定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001039410A JP2002245470A (ja) | 2001-02-16 | 2001-02-16 | 言語特定装置及び翻訳装置及び言語特定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002245470A true JP2002245470A (ja) | 2002-08-30 |
Family
ID=18902201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001039410A Pending JP2002245470A (ja) | 2001-02-16 | 2001-02-16 | 言語特定装置及び翻訳装置及び言語特定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002245470A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006254023A (ja) * | 2005-03-10 | 2006-09-21 | Matsushita Electric Ind Co Ltd | 字幕用表示言語選択装置およびその方法 |
JP2008515107A (ja) * | 2004-09-30 | 2008-05-08 | グーグル・インコーポレーテッド | テキスト分割のために言語を選択する方法およびシステム |
US8849852B2 (en) | 2004-09-30 | 2014-09-30 | Google Inc. | Text segmentation |
-
2001
- 2001-02-16 JP JP2001039410A patent/JP2002245470A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008515107A (ja) * | 2004-09-30 | 2008-05-08 | グーグル・インコーポレーテッド | テキスト分割のために言語を選択する方法およびシステム |
US8306808B2 (en) | 2004-09-30 | 2012-11-06 | Google Inc. | Methods and systems for selecting a language for text segmentation |
US8849852B2 (en) | 2004-09-30 | 2014-09-30 | Google Inc. | Text segmentation |
JP2006254023A (ja) * | 2005-03-10 | 2006-09-21 | Matsushita Electric Ind Co Ltd | 字幕用表示言語選択装置およびその方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7802184B1 (en) | Method and apparatus for processing text and character data | |
US8726148B1 (en) | Method and apparatus for processing text and character data | |
EP0686286B1 (en) | Text input transliteration system | |
JP4332356B2 (ja) | 情報検索装置及び方法並びに制御プログラム | |
US8199112B2 (en) | Character input device | |
US20060217959A1 (en) | Translation processing method, document processing device and storage medium storing program | |
JP2006503353A (ja) | フォームベースのデータ入力システムにおける認識精度を高める方法 | |
EP1679614B1 (en) | Method and apparatus for providing foreign language text display when encoding is not available | |
US20200320325A1 (en) | Image processing system, image processing apparatus, image processing method, and storage medium | |
US5890183A (en) | Method, apparatus, electronic dictionary and recording medium for converting converted output into character code set accetpable for re-retrieval as original input | |
US20120230590A1 (en) | Image processing apparatus, non-transitory computer-readable medium, and image processing method | |
US20060022029A1 (en) | Keyboard with special symbol key and code exchange method for such key | |
JP7027757B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2002245470A (ja) | 言語特定装置及び翻訳装置及び言語特定方法 | |
JP2006252164A (ja) | 中国語文書処理装置 | |
US6298158B1 (en) | Recognition and translation system and method | |
JPH10177623A (ja) | 文書認識装置および言語処理装置 | |
EP1621973A2 (en) | Keyboard with special symbol key and code exchange method for such key | |
US11170182B2 (en) | Braille editing method using error output function, recording medium storing program for executing same, and computer program stored in recording medium for executing same | |
US20140129928A1 (en) | Method and system for representing capitalization of letters while preserving their category similarity to lowercase letters | |
CN114528858A (zh) | 机器翻译译文计算机辅助修正系统和方法 | |
Haentjens | The ordering of universal character strings | |
JP2024003769A (ja) | 文字認識システム、コンピュータによる文字の認識方法、および文字検索システム | |
JP2023052750A (ja) | 自動翻訳装置及び自動翻訳プログラム | |
Zhao et al. | New Challenges for a Digital Society |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040527 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041014 |