JPH0721319A - 自動アジア言語決定装置 - Google Patents
自動アジア言語決定装置Info
- Publication number
- JPH0721319A JPH0721319A JP6070297A JP7029794A JPH0721319A JP H0721319 A JPH0721319 A JP H0721319A JP 6070297 A JP6070297 A JP 6070297A JP 7029794 A JP7029794 A JP 7029794A JP H0721319 A JPH0721319 A JP H0721319A
- Authority
- JP
- Japan
- Prior art keywords
- language
- image
- text
- determining means
- asian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
(57)【要約】
【目的】 アジアスクリプトタイプ文書の個々の言語を
自動的に決定する装置を提供する。 【構成】 本装置の関連構成要素生成手段はテキストイ
メージを構成する画素から関連構成要素を生成する。文
字セル生成手段は少なくとも1個の関連構成要素を取り
囲む文字セルを生成する。光学濃度決定手段は各文字セ
ル内の画素の光学濃度(画素の絶対数またはパーセンテ
ージで)を決定する。スクリプト特徴決定手段は最初に
ヒストグラムを生成し、次に線形識別分析によってヒス
トグラムを新しい座標空間内の点へ変換する。言語決定
手段はその点と、少なくとも1つのアジア言語に対応す
る新しい座標空間内の所定の領域とを比較して、テキス
トイメージの個々のアジア言語を決定する。
自動的に決定する装置を提供する。 【構成】 本装置の関連構成要素生成手段はテキストイ
メージを構成する画素から関連構成要素を生成する。文
字セル生成手段は少なくとも1個の関連構成要素を取り
囲む文字セルを生成する。光学濃度決定手段は各文字セ
ル内の画素の光学濃度(画素の絶対数またはパーセンテ
ージで)を決定する。スクリプト特徴決定手段は最初に
ヒストグラムを生成し、次に線形識別分析によってヒス
トグラムを新しい座標空間内の点へ変換する。言語決定
手段はその点と、少なくとも1つのアジア言語に対応す
る新しい座標空間内の所定の領域とを比較して、テキス
トイメージの個々のアジア言語を決定する。
Description
【0001】
【産業上の利用分野】本発明は、自動文書認識装置、よ
り詳細にはアジアスクリプトタイプ文書の文字の言語を
自動的に決定する装置に関するものである。
り詳細にはアジアスクリプトタイプ文書の文字の言語を
自動的に決定する装置に関するものである。
【0002】
【従来の技術】光学式文字認識や、光学式文字認識を使
用して、走査したイメージデータをディジタルコンピュ
ータにおいて使用するのに適したテキストデータに変換
することはよく知られている。さらに、走査したイメー
ジデータをテキストデータに変換する方法や、その変換
方法によって生じるエラーの種類もよく知られている。
しかし、適切な文字認識方法の選択は文書に使用されて
いるスクリプト(アルファベットまたは表意文字)によ
って大きく左右される。また、適切なエラー修正方法の
選択は文書の言語によって大きく左右される。従来は、
文書に使用されているスクリプトおよび言語が、装置が
使用されている国の通常のスクリプトおよび言語である
と想定して、光学式文字認識方法や光学式文字認識装置
におけるエラー修正方法が提供されてきた。すなわち、
米国においては、通常の光学式文字認識装置は、文書が
英語で、ローマン体を使用していると想定しているであ
ろう。これに対し、日本においては、光学式文字認識装
置は、言語が日本語で、日本文字を使用していると想定
して具体化されているであろう。代わりに、複数の言語
について文字認識方法とエラー修正方法を使用して、光
学式文字認識装置を具体化することは可能である。
用して、走査したイメージデータをディジタルコンピュ
ータにおいて使用するのに適したテキストデータに変換
することはよく知られている。さらに、走査したイメー
ジデータをテキストデータに変換する方法や、その変換
方法によって生じるエラーの種類もよく知られている。
しかし、適切な文字認識方法の選択は文書に使用されて
いるスクリプト(アルファベットまたは表意文字)によ
って大きく左右される。また、適切なエラー修正方法の
選択は文書の言語によって大きく左右される。従来は、
文書に使用されているスクリプトおよび言語が、装置が
使用されている国の通常のスクリプトおよび言語である
と想定して、光学式文字認識方法や光学式文字認識装置
におけるエラー修正方法が提供されてきた。すなわち、
米国においては、通常の光学式文字認識装置は、文書が
英語で、ローマン体を使用していると想定しているであ
ろう。これに対し、日本においては、光学式文字認識装
置は、言語が日本語で、日本文字を使用していると想定
して具体化されているであろう。代わりに、複数の言語
について文字認識方法とエラー修正方法を使用して、光
学式文字認識装置を具体化することは可能である。
【0003】しかし、これまでは、光学式文字認識装置
に文書のスクリプトタイプおよび言語を自動的に決定さ
せることは不可能であった。それどころか、各文書を光
学式文字認識装置に与えるときに、文書の個々の言語お
よびスクリプトについて一定の指示を光学式文字認識装
置に与えなければならない。これは、オペレータが文書
の言語およびスクリプトに関するデータを光学式文字認
識装置に入力するか、または文書の言語およびスクリプ
トを指示する特殊な標識を文書に付けることによって果
たされてきた。
に文書のスクリプトタイプおよび言語を自動的に決定さ
せることは不可能であった。それどころか、各文書を光
学式文字認識装置に与えるときに、文書の個々の言語お
よびスクリプトについて一定の指示を光学式文字認識装
置に与えなければならない。これは、オペレータが文書
の言語およびスクリプトに関するデータを光学式文字認
識装置に入力するか、または文書の言語およびスクリプ
トを指示する特殊な標識を文書に付けることによって果
たされてきた。
【0004】
【発明が解決しようとする課題】従って、本発明の第1
の目的は、自動的言語認識能力を備えた光学式文字認識
装置を提供することである。
の目的は、自動的言語認識能力を備えた光学式文字認識
装置を提供することである。
【0005】本発明の第2の目的は、決定したスクリプ
トタイプに基づいて文書の個々の言語を決定する装置を
提供することである。
トタイプに基づいて文書の個々の言語を決定する装置を
提供することである。
【0006】本発明の第3の目的は、スクリプト特徴に
基づいて文書の言語を決定することである。
基づいて文書の言語を決定することである。
【0007】本発明の第4の目的は、アジアスクリプト
タイプ文書の個々の言語を決定することである。
タイプ文書の個々の言語を決定することである。
【0008】
【課題を解決するための手段】本発明に従って、文書の
テキスト部分のスクリプトがアジアスクリプトタイプで
あると決定されたら、テキスト部分の文字を形成する1
つまたはそれ以上の関連構成要素をそれぞれ取り囲む複
数の文字セルが分析され、文字セル内の光学濃度が決定
される。
テキスト部分のスクリプトがアジアスクリプトタイプで
あると決定されたら、テキスト部分の文字を形成する1
つまたはそれ以上の関連構成要素をそれぞれ取り囲む複
数の文字セルが分析され、文字セル内の光学濃度が決定
される。
【0009】文書のテキスト部分が対応するディジタル
データ信号へ変換されなかった場合には、文書が走査さ
れ、すべての非テキスト情報が除去される。そのあと、
得られたテキストイメージはスキュー、その他の走査人
工産物について修正される(もし必要ならば)。文書の
イメージが走査され、クリーンアップされたら、イメー
ジは、位置およびイメージ濃度をもつ画素のビットマッ
プから複数の関連構成要素へ変換される。関連構成要素
が生成されたあと、各関連構成要素について境界ボック
スが生成される。そして、テキスト部分内の文字セルの
境界を定めるために、行および文字の寸法が決定され
る。続いて、決定された文字セルの光学濃度分布に基づ
いて、文書のテキストの個々のアジア言語が決定され
る。
データ信号へ変換されなかった場合には、文書が走査さ
れ、すべての非テキスト情報が除去される。そのあと、
得られたテキストイメージはスキュー、その他の走査人
工産物について修正される(もし必要ならば)。文書の
イメージが走査され、クリーンアップされたら、イメー
ジは、位置およびイメージ濃度をもつ画素のビットマッ
プから複数の関連構成要素へ変換される。関連構成要素
が生成されたあと、各関連構成要素について境界ボック
スが生成される。そして、テキスト部分内の文字セルの
境界を定めるために、行および文字の寸法が決定され
る。続いて、決定された文字セルの光学濃度分布に基づ
いて、文書のテキストの個々のアジア言語が決定され
る。
【0010】
【実施例】図1に示すように、本発明の光学式文字認識
装置は電荷結合素子(CCD)または同種の素子を含む
スキャナ110を備えている。スキャナ110はイメー
ジ102(図2に、未知のスクリプトおよび言語の3つ
の文字列を含む見本イメージ102を示す)を走査し、
原文書100のイメージ102を構成する複数の画素の
位置とイメージ濃度を表すディジタルデータ信号を出力
する。このディジタルデータ信号はメモリ112へ送ら
れ、そこに一時的または無期限に保存される。ディジタ
ルデータ信号は、メモリ112から出力されると、汎用
ディジタルコンピュータ114へ入力される。コンピュ
ータ114へ入力されると、ディジタルデータ信号は、
最初にイメージ102のすべての非テキスト部分を除去
し、テキスト部分104を残すことによってクリーンア
ップされる。さらに、ディジタルデータ信号のすべての
スキャナ人工産物、たとえばスキューまたは同種の物が
修正される。クリーンアップされたディジタルデータ信
号は、そのあとメモリ112に再び保存されるか、コン
ピュータ114のメモリに保存される。代わりに、スキ
ャナによって一部の前処理たとえばスキャナ人工産物の
除去を実施することができる。
装置は電荷結合素子(CCD)または同種の素子を含む
スキャナ110を備えている。スキャナ110はイメー
ジ102(図2に、未知のスクリプトおよび言語の3つ
の文字列を含む見本イメージ102を示す)を走査し、
原文書100のイメージ102を構成する複数の画素の
位置とイメージ濃度を表すディジタルデータ信号を出力
する。このディジタルデータ信号はメモリ112へ送ら
れ、そこに一時的または無期限に保存される。ディジタ
ルデータ信号は、メモリ112から出力されると、汎用
ディジタルコンピュータ114へ入力される。コンピュ
ータ114へ入力されると、ディジタルデータ信号は、
最初にイメージ102のすべての非テキスト部分を除去
し、テキスト部分104を残すことによってクリーンア
ップされる。さらに、ディジタルデータ信号のすべての
スキャナ人工産物、たとえばスキューまたは同種の物が
修正される。クリーンアップされたディジタルデータ信
号は、そのあとメモリ112に再び保存されるか、コン
ピュータ114のメモリに保存される。代わりに、スキ
ャナによって一部の前処理たとえばスキャナ人工産物の
除去を実施することができる。
【0011】図1に示すように、本発明の汎用ディジタ
ルコンピュータ114は、制御プログラムを保存するメ
モリ22と、メモリ112からディジタルデータ信号を
入力し、イメージ102の決定されたスクリプトタイプ
を表す信号を出力する入出力手段24を含んでいる。汎
用コンピュータ114は、さらに、ディジタルデータ信
号を保存するイメージメモリ26、ディジタルデータ信
号から関連構成要素を生成する関連構成要素生成手段2
8、各関連構成要素について境界ボックスの座標と、境
界ボックス内のディジタルイメージの画素の座標を決定
する境界ボックス生成手段30、1つまたはそれ以上の
関連構成要素を含む文字セルを生成する文字セル生成手
段32、各境界ボックスについて1つまたはそれ以上の
タイプの所定の特徴の分布を決定する特徴決定手段3
4、および文書のスクリプトタイプを決定するスクリプ
ト決定手段36を含んでいる。制御プログラムを保存す
るメモリ22は、ROM22aまたはRAM22bのど
ちらでもよい。
ルコンピュータ114は、制御プログラムを保存するメ
モリ22と、メモリ112からディジタルデータ信号を
入力し、イメージ102の決定されたスクリプトタイプ
を表す信号を出力する入出力手段24を含んでいる。汎
用コンピュータ114は、さらに、ディジタルデータ信
号を保存するイメージメモリ26、ディジタルデータ信
号から関連構成要素を生成する関連構成要素生成手段2
8、各関連構成要素について境界ボックスの座標と、境
界ボックス内のディジタルイメージの画素の座標を決定
する境界ボックス生成手段30、1つまたはそれ以上の
関連構成要素を含む文字セルを生成する文字セル生成手
段32、各境界ボックスについて1つまたはそれ以上の
タイプの所定の特徴の分布を決定する特徴決定手段3
4、および文書のスクリプトタイプを決定するスクリプ
ト決定手段36を含んでいる。制御プログラムを保存す
るメモリ22は、ROM22aまたはRAM22bのど
ちらでもよい。
【0012】動作中、図1に示したイメージ102をも
つ文書100がスキャナ110に挿入され、走査され、
直列または並列ディジタルデータ信号が生成される。生
成されたディジタルデータ信号は、各信号部分が原イメ
ージ102の対応する画素を表している複数の信号部分
から成っている。テキスト部分104の各画素はテキス
ト部分104内の位置とイメージ濃度を有している。従
って、ディジタルデータ信号の各信号部分は、対応する
画素の位置とイメージ濃度を表すデータを含んでいる。
つ文書100がスキャナ110に挿入され、走査され、
直列または並列ディジタルデータ信号が生成される。生
成されたディジタルデータ信号は、各信号部分が原イメ
ージ102の対応する画素を表している複数の信号部分
から成っている。テキスト部分104の各画素はテキス
ト部分104内の位置とイメージ濃度を有している。従
って、ディジタルデータ信号の各信号部分は、対応する
画素の位置とイメージ濃度を表すデータを含んでいる。
【0013】そのあと、スキャナ110によって出力さ
れたディジタルデータ信号はメモリ112に保存され
る。メモリ112はRAM、フラッシュメモリ、ディス
クメモリ、または同種の装置でもよい。メモリ112の
種類に関係なく、ディジタルデータ信号は、各信号部分
内の位置とイメージ濃度データに応じて、メモリ112
内に保存される。中間メモリ112に入力する代わり
に、ディジタルデータ信号を汎用コンピュータ114へ
直接に入力してもよいことはもちろん理解されるであろ
う。代案として、メモリ112を汎用ディジタルコンピ
ュータ114に組み入れることができる。いずれにせ
よ、メモリ112がイメージ102を長期間保存するた
め使用されることは理解されるであろう。
れたディジタルデータ信号はメモリ112に保存され
る。メモリ112はRAM、フラッシュメモリ、ディス
クメモリ、または同種の装置でもよい。メモリ112の
種類に関係なく、ディジタルデータ信号は、各信号部分
内の位置とイメージ濃度データに応じて、メモリ112
内に保存される。中間メモリ112に入力する代わり
に、ディジタルデータ信号を汎用コンピュータ114へ
直接に入力してもよいことはもちろん理解されるであろ
う。代案として、メモリ112を汎用ディジタルコンピ
ュータ114に組み入れることができる。いずれにせ
よ、メモリ112がイメージ102を長期間保存するた
め使用されることは理解されるであろう。
【0014】オペレータによるスキャナ110への文書
の入力が終了したら、あるいは装置が別のやり方でテキ
スト部分104を表すディジタルデータ信号をテキスト
データへ変換すべきであると決定すると、イメージ10
2を表すディジタルデータ信号がメモリ112から汎用
ディジタルコンピュータ114へ出力される。汎用ディ
ジタルコンピュータ114の代わりに、専用コンピュー
タまたはハードワイヤード論理回路を使用してもよいこ
とはもちろん理解されるであろう。
の入力が終了したら、あるいは装置が別のやり方でテキ
スト部分104を表すディジタルデータ信号をテキスト
データへ変換すべきであると決定すると、イメージ10
2を表すディジタルデータ信号がメモリ112から汎用
ディジタルコンピュータ114へ出力される。汎用ディ
ジタルコンピュータ114の代わりに、専用コンピュー
タまたはハードワイヤード論理回路を使用してもよいこ
とはもちろん理解されるであろう。
【0015】メモリ112に保存されたディジタルデー
タ信号は汎用コンピュータ114へ出力され、そこで入
出力手段24によってイメージメモリ26へ入力され
る。本発明の第1の好ましい実施例においては、大体の
スクリプトタイプがアジアスクリプトタイプであると知
られている場合には、特徴決定手段34が、朝鮮語、中
国語、および日本語文書を区別するにためあらかじめ選
定した特徴にセットされる。もちろん、テキスト部分の
大体のスクリプトタイプがアジアスクリプトタイプであ
ると識別されていない、または知られていない場合に
は、米国特許出願第PAL 92-003 号に記載されている、
大体のスクリプト区分を決定する方法および装置を使用
することができる。
タ信号は汎用コンピュータ114へ出力され、そこで入
出力手段24によってイメージメモリ26へ入力され
る。本発明の第1の好ましい実施例においては、大体の
スクリプトタイプがアジアスクリプトタイプであると知
られている場合には、特徴決定手段34が、朝鮮語、中
国語、および日本語文書を区別するにためあらかじめ選
定した特徴にセットされる。もちろん、テキスト部分の
大体のスクリプトタイプがアジアスクリプトタイプであ
ると識別されていない、または知られていない場合に
は、米国特許出願第PAL 92-003 号に記載されている、
大体のスクリプト区分を決定する方法および装置を使用
することができる。
【0016】ディジタルデータ信号がイメージメモリ2
6に完全に保存されたら、ディジタルデータ信号は関連
構成要素生成手段28にとって利用可能になる。関連構
成要素生成手段28は、イメージ102のテキスト部分
104を表すディジタルデータ信号を、各関連構成要素
が1つまたはそれ以上の信号部分を含んでいる複数の関
連構成要素に分割する。各関連構成要素は、一定の最小
イメージ濃度をもち、連続する経路を作っている原テキ
スト部分104の画素に対応する信号部分から成ってい
る。各スクリプト文字は、一般に、“Fuji”の“F ”の
ように1つの関連構成要素、または“Fuji”の“j”ま
たは“i”のように1つより多い関連構成要素に対応し
ている。
6に完全に保存されたら、ディジタルデータ信号は関連
構成要素生成手段28にとって利用可能になる。関連構
成要素生成手段28は、イメージ102のテキスト部分
104を表すディジタルデータ信号を、各関連構成要素
が1つまたはそれ以上の信号部分を含んでいる複数の関
連構成要素に分割する。各関連構成要素は、一定の最小
イメージ濃度をもち、連続する経路を作っている原テキ
スト部分104の画素に対応する信号部分から成ってい
る。各スクリプト文字は、一般に、“Fuji”の“F ”の
ように1つの関連構成要素、または“Fuji”の“j”ま
たは“i”のように1つより多い関連構成要素に対応し
ている。
【0017】関連構成要素生成手段28がディジタルデ
ータ信号からテキスト部分104について複数の関連構
成要素を生成すると、テキスト部分104に対応するデ
ィジタルデータ信号および関連構成要素生成手段28に
よって生成された関連構成要素のリストが、イメージメ
モリ26に保存され、そして境界ボックス生成手段30
へ出力される。
ータ信号からテキスト部分104について複数の関連構
成要素を生成すると、テキスト部分104に対応するデ
ィジタルデータ信号および関連構成要素生成手段28に
よって生成された関連構成要素のリストが、イメージメ
モリ26に保存され、そして境界ボックス生成手段30
へ出力される。
【0018】境界ボックス生成手段30は、テキスト部
分104を表すディジタルデータ信号を複数の境界ボッ
クスに再分割する。各境界ボックスには、1つの関連構
成要素と、その関連構成要素を構成している画素に隣接
した画素の位置に対応するディジタルデータ信号の信号
部分が零、1つまたはそれ以上入っている。各境界ボッ
クスの寸法は、対応する関連構成要素を構成している一
番左と一番右の信号部分と一番上と一番下の信号部分の
位置データによって決定される。従って、境界ボックス
内の信号部分は、イメージ濃度データに関係なく、関連
構成要素を構成している信号部分と、関連構成要素を境
界ボックスの境界の中に置く位置データをもつ信号部分
である。境界ボックス生成手段30によって境界ボック
スのリストと各境界ボックスを構成する信号部分が生成
されたら、境界ボックスのリストと対応する信号部分が
イメージメモリ26に保存され、そして空間的特徴決定
手段32へ出力される。空間的特徴決定手段32は、い
ろいろある方法のどれか1つを使用して、テキスト部分
の行、ワード、および(または)文字セルを決定する。
そのような方法の1つが、米国特許出願第 PAL 92-002
号に記載されている。
分104を表すディジタルデータ信号を複数の境界ボッ
クスに再分割する。各境界ボックスには、1つの関連構
成要素と、その関連構成要素を構成している画素に隣接
した画素の位置に対応するディジタルデータ信号の信号
部分が零、1つまたはそれ以上入っている。各境界ボッ
クスの寸法は、対応する関連構成要素を構成している一
番左と一番右の信号部分と一番上と一番下の信号部分の
位置データによって決定される。従って、境界ボックス
内の信号部分は、イメージ濃度データに関係なく、関連
構成要素を構成している信号部分と、関連構成要素を境
界ボックスの境界の中に置く位置データをもつ信号部分
である。境界ボックス生成手段30によって境界ボック
スのリストと各境界ボックスを構成する信号部分が生成
されたら、境界ボックスのリストと対応する信号部分が
イメージメモリ26に保存され、そして空間的特徴決定
手段32へ出力される。空間的特徴決定手段32は、い
ろいろある方法のどれか1つを使用して、テキスト部分
の行、ワード、および(または)文字セルを決定する。
そのような方法の1つが、米国特許出願第 PAL 92-002
号に記載されている。
【0019】第1の好ましい実施例においては、朝鮮
語、中国語、および日本語の文書を区別するために、特
徴決定手段34は光学濃度スクリプト特徴を使用してい
る。図2は、文書100のイメージ102のテキスト部
分104を構成しているアジア言語のテキストの3つの
見本を示す。関連構成要素生成手段28はテキスト部分
104について各関連構成要素を決定する。次に、境界
ボックス生成手段30が各関連構成要素について境界ボ
ックスを決定する。次に、空間的特徴決定手段32が、
図3に示すように、文字セルを決定する。もちろん、テ
キスト部分104に対して先に行われたスクリプトをお
おざっぱに分類する操作または文字セルを生成する操作
において、これらの操作が終了していれば、繰り返す必
要はないであろう。
語、中国語、および日本語の文書を区別するために、特
徴決定手段34は光学濃度スクリプト特徴を使用してい
る。図2は、文書100のイメージ102のテキスト部
分104を構成しているアジア言語のテキストの3つの
見本を示す。関連構成要素生成手段28はテキスト部分
104について各関連構成要素を決定する。次に、境界
ボックス生成手段30が各関連構成要素について境界ボ
ックスを決定する。次に、空間的特徴決定手段32が、
図3に示すように、文字セルを決定する。もちろん、テ
キスト部分104に対して先に行われたスクリプトをお
おざっぱに分類する操作または文字セルを生成する操作
において、これらの操作が終了していれば、繰り返す必
要はないであろう。
【0020】いずれにせよ、本発明の第1の好ましい実
施例においては、特徴決定手段34は、各文字セルの光
学濃度、すなわち所定値以上のイメージ濃度をもつ画素
の総数を決定するように準備されている。図4は、日本
語テキストの別の見本と、各文字セルごとの、位置デー
タに対する各文字セル内の少なくとも1個の関連構成要
素による文字セルの光学濃度を示す。文字セルのリスト
と、イメージ濃度値の対応するリストが、特徴決定手段
34から言語決定手段36へ出力される。第1の好まし
い実施例においては、言語決定手段36は、最初に、図
5に示したヒストグラムに似ている、テキスト部分10
4の文字セルの光学濃度のヒストグラムを生成する。文
字間隔の水平範囲(すなわち、光学濃度関数が零に落ち
ている所の位置)は、図5のヒストグラムに含まれてい
ないことに注目されたい。図5のヒストグラムには、x
軸に光学濃度範囲が示されており、y軸に光学濃度の値
を含む文字セルの合計すなわち累積水平範囲が示されて
いる。図5に示すように、朝鮮語、中国語、および日本
語のテキストについて一般化されたヒストグラムは容易
に見分けがつく。
施例においては、特徴決定手段34は、各文字セルの光
学濃度、すなわち所定値以上のイメージ濃度をもつ画素
の総数を決定するように準備されている。図4は、日本
語テキストの別の見本と、各文字セルごとの、位置デー
タに対する各文字セル内の少なくとも1個の関連構成要
素による文字セルの光学濃度を示す。文字セルのリスト
と、イメージ濃度値の対応するリストが、特徴決定手段
34から言語決定手段36へ出力される。第1の好まし
い実施例においては、言語決定手段36は、最初に、図
5に示したヒストグラムに似ている、テキスト部分10
4の文字セルの光学濃度のヒストグラムを生成する。文
字間隔の水平範囲(すなわち、光学濃度関数が零に落ち
ている所の位置)は、図5のヒストグラムに含まれてい
ないことに注目されたい。図5のヒストグラムには、x
軸に光学濃度範囲が示されており、y軸に光学濃度の値
を含む文字セルの合計すなわち累積水平範囲が示されて
いる。図5に示すように、朝鮮語、中国語、および日本
語のテキストについて一般化されたヒストグラムは容易
に見分けがつく。
【0021】本発明は、統計に基づいているので、非常
に頑強であり、非常に不完全に印刷された、または走査
された、またはその両方の文書にも耐えることができ
る。すなわち、ディジタルデータ信号、またはそのディ
ジタルデータ信号から生成された関連構成要素は、文書
のすべての文字を完璧に表している必要がない。それど
ころか、本発明は、1つの関連構成要素文字を2つまた
はそれ以上の関連構成要素に分割したり、あるいは2つ
またはそれ以上の独立した関連構成要素を1つの関連構
成要素に併合するなど、普通の走査エラーにも耐えるこ
とができる。
に頑強であり、非常に不完全に印刷された、または走査
された、またはその両方の文書にも耐えることができ
る。すなわち、ディジタルデータ信号、またはそのディ
ジタルデータ信号から生成された関連構成要素は、文書
のすべての文字を完璧に表している必要がない。それど
ころか、本発明は、1つの関連構成要素文字を2つまた
はそれ以上の関連構成要素に分割したり、あるいは2つ
またはそれ以上の独立した関連構成要素を1つの関連構
成要素に併合するなど、普通の走査エラーにも耐えるこ
とができる。
【0022】しかし、一般化されたアジア言語のテキス
トのヒストグラムとイメージ102のテキスト部分10
4のヒストグラムとを比較して、テキスト部分の個々の
言語を決定することは難しいであろう。このため、3つ
の一般化されたヒストグラムは線形識別分析(linear d
iscriminate analysis :LDA)によって新しい座標空
間へ変換される。新しい座標空間において、変数は等し
い分散を有し、相互に関連がない。図6に示すように、
新しい座標空間は、一般化された朝鮮語、中国語、およ
び日本語のテキストの3つのヒストグラムのそれぞれに
対応する3つの重複する領域を有する。
トのヒストグラムとイメージ102のテキスト部分10
4のヒストグラムとを比較して、テキスト部分の個々の
言語を決定することは難しいであろう。このため、3つ
の一般化されたヒストグラムは線形識別分析(linear d
iscriminate analysis :LDA)によって新しい座標空
間へ変換される。新しい座標空間において、変数は等し
い分散を有し、相互に関連がない。図6に示すように、
新しい座標空間は、一般化された朝鮮語、中国語、およ
び日本語のテキストの3つのヒストグラムのそれぞれに
対応する3つの重複する領域を有する。
【0023】言語決定手段36は、LDAによってイメ
ージ102のテキスト部分のヒストグラムを新しい座標
空間の点へ変換する。その点が位置する、または最も近
い新しい座標空間の一般化された言語領域に対応するア
ジア言語が、テキスト部分104について個々のアジア
言語として決定される。
ージ102のテキスト部分のヒストグラムを新しい座標
空間の点へ変換する。その点が位置する、または最も近
い新しい座標空間の一般化された言語領域に対応するア
ジア言語が、テキスト部分104について個々のアジア
言語として決定される。
【0024】言語決定手段36がイメージ102のテキ
スト部分104について個々のアジア言語を決定した
ら、言語決定手段36の結果を、本発明によって決定さ
れるスクリプトおよび言語に最適の光学式文字認識アル
ゴリズムすなわち訓練セットを選択する光学式文字認識
装置へ直かに出力することができる。代わりに、後処理
するため、言語決定手段36の結果をテキスト部分10
4と共にメモリ112に保存することもできる。
スト部分104について個々のアジア言語を決定した
ら、言語決定手段36の結果を、本発明によって決定さ
れるスクリプトおよび言語に最適の光学式文字認識アル
ゴリズムすなわち訓練セットを選択する光学式文字認識
装置へ直かに出力することができる。代わりに、後処理
するため、言語決定手段36の結果をテキスト部分10
4と共にメモリ112に保存することもできる。
【0025】図7に、上に述べたアジア言語決定装置の
動作の簡単なフローチャートを示す。 ステップS10
0において、装置は処理を開始し、ステップS110に
おいて、文書を走査し、ディジタルデータ信号を生成す
る。次に、ステップS120において、ディジタルイメ
ージデータ信号に必要な前処理アルゴリズムを適用し
て、ディジタルイメージデータ信号をクリーンアップす
る。ステップS130において、ディジタルイメージデ
ータ信号の関連構成要素を識別し、ステップS140に
おいて、決定した各関連構成要素について境界ボックス
を生成する。
動作の簡単なフローチャートを示す。 ステップS10
0において、装置は処理を開始し、ステップS110に
おいて、文書を走査し、ディジタルデータ信号を生成す
る。次に、ステップS120において、ディジタルイメ
ージデータ信号に必要な前処理アルゴリズムを適用し
て、ディジタルイメージデータ信号をクリーンアップす
る。ステップS130において、ディジタルイメージデ
ータ信号の関連構成要素を識別し、ステップS140に
おいて、決定した各関連構成要素について境界ボックス
を生成する。
【0026】ステップS150において、テキスト部分
104の文字セルを生成する。ステップS160におい
て、決定すべきスクリプト特徴を選択する。好ましい実
施例においては、好ましいスクリプト特徴は文字セルの
光学濃度である。ステップS170において、各文字セ
ルの光学濃度を決定する。
104の文字セルを生成する。ステップS160におい
て、決定すべきスクリプト特徴を選択する。好ましい実
施例においては、好ましいスクリプト特徴は文字セルの
光学濃度である。ステップS170において、各文字セ
ルの光学濃度を決定する。
【0027】次に、ステップS180において、テキス
ト部分104について、決定した、すなわち捜し出した
特徴(好ましい実施例においては、文字セルの光学濃度
の合計すなわち累積水平範囲)の分布のヒストグラムを
生成する。ステップS190において、決定したヒスト
グラムをLDAによって新しい座標空間上の点へ変換す
る。ステップS200において、テキスト部分104の
点と、複数の異なるアジア言語の一般化されたテキスト
部分に対応する新しい座標空間内の領域とを比較して、
テキスト部分104の個々のアジア言語を決定する。ス
テップS210において、前記点に最も近い領域に対応
するアジア言語をテキスト部分104の言語として選択
する。最後に、ステップS220において、テキスト部
分104の個々のアジア言語を出力し、ステップS23
0において、装置は停止する。
ト部分104について、決定した、すなわち捜し出した
特徴(好ましい実施例においては、文字セルの光学濃度
の合計すなわち累積水平範囲)の分布のヒストグラムを
生成する。ステップS190において、決定したヒスト
グラムをLDAによって新しい座標空間上の点へ変換す
る。ステップS200において、テキスト部分104の
点と、複数の異なるアジア言語の一般化されたテキスト
部分に対応する新しい座標空間内の領域とを比較して、
テキスト部分104の個々のアジア言語を決定する。ス
テップS210において、前記点に最も近い領域に対応
するアジア言語をテキスト部分104の言語として選択
する。最後に、ステップS220において、テキスト部
分104の個々のアジア言語を出力し、ステップS23
0において、装置は停止する。
【図1】光学式文字認識装置のブロック図である。
【図2】朝鮮文字(ハングル)、漢字、および日本文字
の3つの見本テキスト部分を含む文書を示す図である。
の3つの見本テキスト部分を含む文書を示す図である。
【図3】図2のテキスト部分と関連構成要素のまわりの
文字セルを示す図である。
文字セルを示す図である。
【図4】日本語テキストの見本と、得られた光学濃度関
数を示す図である。
数を示す図である。
【図5】一般化された朝鮮語、中国語、日本語のテキス
ト光学濃度のヒストグラムである。
ト光学濃度のヒストグラムである。
【図6】図5の線形識別分析による変換を示す図であ
る。
る。
【図7】本発明のアジア言語決定装置の動作を示すフロ
ーチャートである。
ーチャートである。
22 メモリ 24 入出力手段 26 イメージメモリ 28 関連構成要素生成手段 30 境界ボックス生成手段 32 文字セル生成手段 34 特徴決定手段 36 スクリプト決定手段 100 文書 102 イメージ 104 テキスト部分 110 スキャナ 112 イメージメモリ 114 ディジタルコンピュータ
Claims (1)
- 【請求項1】 文書のイメージのアジアスクリプトタイ
プ文書のテキスト部分の言語を決定するための自動言語
決定装置であって、 各信号部分がイメージの複数の画素の1つに対応してい
る複数の信号部分から成る、テキスト部分を表すディジ
タルデータ信号を入力する入力手段、 複数の信号部分から少なくとも1つの関連構成要素を生
成する関連構成要素生成手段、 少なくとも1つの関連構成要素に基づいて、少なくとも
1つのあらかじめ選定したタイプのスクリプト特徴に一
致するスクリプト特徴を捜し出す特徴決定手段、および
捜し出したスクリプト特徴の分布と、複数のアジア言語
の少なくとも1つのあらかじめ選定したスクリプト特徴
の分布とを比較し、それに応じてテキスト部分のアジア
言語を決定する言語決定手段、から成ることを特徴とす
る装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/047,673 US5425110A (en) | 1993-04-19 | 1993-04-19 | Method and apparatus for automatic language determination of Asian language documents |
US08/047673 | 1993-04-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0721319A true JPH0721319A (ja) | 1995-01-24 |
Family
ID=21950309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6070297A Pending JPH0721319A (ja) | 1993-04-19 | 1994-04-08 | 自動アジア言語決定装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5425110A (ja) |
EP (1) | EP0621541B1 (ja) |
JP (1) | JPH0721319A (ja) |
KR (1) | KR960015594B1 (ja) |
DE (1) | DE69428475T2 (ja) |
TW (1) | TW256905B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011233160A (ja) * | 2007-07-10 | 2011-11-17 | Sharp Corp | 画像データの特徴を特定する方法 |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5555556A (en) * | 1994-09-30 | 1996-09-10 | Xerox Corporation | Method and apparatus for document segmentation by background analysis |
US5999706A (en) * | 1997-04-28 | 1999-12-07 | Pitney Bowes, Inc. | Method and apparatus for substituting a 2-byte font character standard in a printer |
US5909510A (en) * | 1997-05-19 | 1999-06-01 | Xerox Corporation | Method and apparatus for document classification from degraded images |
US6005986A (en) * | 1997-12-03 | 1999-12-21 | The United States Of America As Represented By The National Security Agency | Method of identifying the script of a document irrespective of orientation |
US8812300B2 (en) | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
US6963871B1 (en) * | 1998-03-25 | 2005-11-08 | Language Analysis Systems, Inc. | System and method for adaptive multi-cultural searching and matching of personal names |
US8855998B2 (en) | 1998-03-25 | 2014-10-07 | International Business Machines Corporation | Parsing culturally diverse names |
US6292772B1 (en) | 1998-12-01 | 2001-09-18 | Justsystem Corporation | Method for identifying the language of individual words |
US6889147B2 (en) * | 2002-09-17 | 2005-05-03 | Hydrogenics Corporation | System, computer program product and method for controlling a fuel cell testing device |
US7218779B2 (en) * | 2003-01-21 | 2007-05-15 | Microsoft Corporation | Ink divider and associated application program interface |
JP2006523918A (ja) * | 2003-04-17 | 2006-10-19 | ハイドロジェニクス コーポレイション | 燃料電池試験システムのための警報リカバリシステム及び方法 |
US20040229954A1 (en) * | 2003-05-16 | 2004-11-18 | Macdougall Diane Elaine | Selective manipulation of triglyceride, HDL and LDL parameters with 6-(5-carboxy-5-methyl-hexyloxy)-2,2-dimethylhexanoic acid monocalcium salt |
WO2005028715A1 (en) * | 2003-09-22 | 2005-03-31 | Hydrogenics Corporation | System and method for alarm recovery for an electrolyzer cell module |
US20070005586A1 (en) * | 2004-03-30 | 2007-01-04 | Shaefer Leonard A Jr | Parsing culturally diverse names |
US7986307B2 (en) * | 2005-04-22 | 2011-07-26 | Microsoft Corporation | Mechanism for allowing applications to filter out or opt into tablet input |
US20060267958A1 (en) * | 2005-04-22 | 2006-11-30 | Microsoft Corporation | Touch Input Programmatical Interfaces |
US7928964B2 (en) | 2005-04-22 | 2011-04-19 | Microsoft Corporation | Touch input data handling |
US7702699B2 (en) * | 2006-05-31 | 2010-04-20 | Oracle America, Inc. | Dynamic data stream histograms for large ranges |
CN100440250C (zh) * | 2007-03-09 | 2008-12-03 | 清华大学 | 印刷体蒙古文字符识别方法 |
US9141607B1 (en) * | 2007-05-30 | 2015-09-22 | Google Inc. | Determining optical character recognition parameters |
EP2120130A1 (en) * | 2008-05-11 | 2009-11-18 | Research in Motion Limited | Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input |
US8160365B2 (en) * | 2008-06-30 | 2012-04-17 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
US8744171B1 (en) * | 2009-04-29 | 2014-06-03 | Google Inc. | Text script and orientation recognition |
US8468011B1 (en) | 2009-06-05 | 2013-06-18 | Google Inc. | Detecting writing systems and languages |
US8326602B2 (en) * | 2009-06-05 | 2012-12-04 | Google Inc. | Detecting writing systems and languages |
RU2613847C2 (ru) | 2013-12-20 | 2017-03-21 | ООО "Аби Девелопмент" | Выявление китайской, японской и корейской письменности |
RU2648638C2 (ru) | 2014-01-30 | 2018-03-26 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы эффективного автоматического распознавания символов, использующие множество кластеров эталонов символов |
RU2640322C2 (ru) | 2014-01-30 | 2017-12-27 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы эффективного автоматического распознавания символов |
US20150269135A1 (en) * | 2014-03-19 | 2015-09-24 | Qualcomm Incorporated | Language identification for text in an object image |
US9589185B2 (en) | 2014-12-10 | 2017-03-07 | Abbyy Development Llc | Symbol recognition using decision forests |
US20170068868A1 (en) * | 2015-09-09 | 2017-03-09 | Google Inc. | Enhancing handwriting recognition using pre-filter classification |
US10431203B2 (en) | 2017-09-05 | 2019-10-01 | International Business Machines Corporation | Machine training for native language and fluency identification |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3755780A (en) * | 1971-06-28 | 1973-08-28 | Pattern Analysis & Recognition | Method for recognizing characters |
JPS5837779A (ja) * | 1981-08-31 | 1983-03-05 | Ricoh Co Ltd | 文書処理装置 |
JPS5960574A (ja) * | 1982-09-30 | 1984-04-06 | Fujitsu Ltd | 文字認識方式 |
US4817186A (en) * | 1983-01-07 | 1989-03-28 | International Business Machines Corporation | Locating individual images in a field for recognition or the like |
US5062143A (en) * | 1990-02-23 | 1991-10-29 | Harris Corporation | Trigram-based method of language identification |
US5181259A (en) * | 1990-09-25 | 1993-01-19 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | General method of pattern classification using the two domain theory |
US5253307A (en) * | 1991-07-30 | 1993-10-12 | Xerox Corporation | Image analysis to obtain typeface information |
JPH0540846A (ja) * | 1991-08-06 | 1993-02-19 | Oki Electric Ind Co Ltd | 文書画像の和文・欧文判定方法 |
-
1993
- 1993-04-19 US US08/047,673 patent/US5425110A/en not_active Expired - Lifetime
-
1994
- 1994-03-11 KR KR1019940004750A patent/KR960015594B1/ko not_active IP Right Cessation
- 1994-04-08 JP JP6070297A patent/JPH0721319A/ja active Pending
- 1994-04-11 TW TW083103179A patent/TW256905B/zh active
- 1994-04-18 DE DE69428475T patent/DE69428475T2/de not_active Expired - Lifetime
- 1994-04-18 EP EP94302734A patent/EP0621541B1/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011233160A (ja) * | 2007-07-10 | 2011-11-17 | Sharp Corp | 画像データの特徴を特定する方法 |
Also Published As
Publication number | Publication date |
---|---|
EP0621541A2 (en) | 1994-10-26 |
KR940024627A (ko) | 1994-11-18 |
DE69428475D1 (de) | 2001-11-08 |
US5425110A (en) | 1995-06-13 |
EP0621541B1 (en) | 2001-10-04 |
DE69428475T2 (de) | 2002-05-08 |
EP0621541A3 (en) | 1995-05-17 |
KR960015594B1 (ko) | 1996-11-18 |
TW256905B (ja) | 1995-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0721319A (ja) | 自動アジア言語決定装置 | |
US5377280A (en) | Method and apparatus for automatic language determination of European script documents | |
JPH0721320A (ja) | 自動スクリプト決定装置 | |
EP0621554B1 (en) | Method and apparatus for automatic determination of text line, word and character cell spatial features | |
EP0358815B1 (en) | System and method for automatic segmentation | |
US5764799A (en) | OCR method and apparatus using image equivalents | |
US5659638A (en) | Method and system for converting bitmap data into page definition language commands | |
JP3647518B2 (ja) | コード化したワードトークンを使用して文書画像をハイライトで強調する装置 | |
US5664027A (en) | Methods and apparatus for inferring orientation of lines of text | |
US5375176A (en) | Method and apparatus for automatic character type classification of European script documents | |
EP0933719B1 (en) | Image processing method and apparatus | |
CA2192023C (en) | Separation of touching characters in optical character recognition | |
JP2005303880A (ja) | 画像形成装置、画像形成方法およびプログラム | |
CN113743318A (zh) | 基于行列分割的表格结构识别方法、存储介质和电子装置 | |
JP2002015280A (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
JPH06259597A (ja) | ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置 | |
JPH0728934A (ja) | 文書画像処理装置 | |
Tjahja et al. | Recursive Text Segmentation for Color Images for Indonesian Automated Document Reader | |
JPH09237317A (ja) | 一般文書読取装置 | |
JPH05242293A (ja) | 文書認識システム | |
KR20000033954A (ko) | 클러스터링 기반 문서 영상 분할장치 및 방법 | |
JPH03260887A (ja) | 文字認識方法 | |
JPH0863545A (ja) | 文字認識処理装置における文字方向および行方向決定方法 | |
JPH07220027A (ja) | 文字認識処理装置における文字方向および行方向決定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20020826 |