JPH0721319A

JPH0721319A - 自動アジア言語決定装置

Info

Publication number: JPH0721319A
Application number: JP6070297A
Authority: JP
Inventors: A Lawrence Spitz; ローレンススピッツエイ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1993-04-19
Filing date: 1994-04-08
Publication date: 1995-01-24
Also published as: EP0621541A2; KR940024627A; DE69428475D1; US5425110A; EP0621541B1; DE69428475T2; EP0621541A3; KR960015594B1; TW256905B

Abstract

(57)【要約】【目的】アジアスクリプトタイプ文書の個々の言語を
自動的に決定する装置を提供する。【構成】本装置の関連構成要素生成手段はテキストイ
メージを構成する画素から関連構成要素を生成する。文
字セル生成手段は少なくとも１個の関連構成要素を取り
囲む文字セルを生成する。光学濃度決定手段は各文字セ
ル内の画素の光学濃度（画素の絶対数またはパーセンテ
ージで）を決定する。スクリプト特徴決定手段は最初に
ヒストグラムを生成し、次に線形識別分析によってヒス
トグラムを新しい座標空間内の点へ変換する。言語決定
手段はその点と、少なくとも１つのアジア言語に対応す
る新しい座標空間内の所定の領域とを比較して、テキス
トイメージの個々のアジア言語を決定する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、自動文書認識装置、よ
り詳細にはアジアスクリプトタイプ文書の文字の言語を
自動的に決定する装置に関するものである。

【０００２】

【従来の技術】光学式文字認識や、光学式文字認識を使
用して、走査したイメージデータをディジタルコンピュ
ータにおいて使用するのに適したテキストデータに変換
することはよく知られている。さらに、走査したイメー
ジデータをテキストデータに変換する方法や、その変換
方法によって生じるエラーの種類もよく知られている。
しかし、適切な文字認識方法の選択は文書に使用されて
いるスクリプト（アルファベットまたは表意文字）によ
って大きく左右される。また、適切なエラー修正方法の
選択は文書の言語によって大きく左右される。従来は、
文書に使用されているスクリプトおよび言語が、装置が
使用されている国の通常のスクリプトおよび言語である
と想定して、光学式文字認識方法や光学式文字認識装置
におけるエラー修正方法が提供されてきた。すなわち、
米国においては、通常の光学式文字認識装置は、文書が
英語で、ローマン体を使用していると想定しているであ
ろう。これに対し、日本においては、光学式文字認識装
置は、言語が日本語で、日本文字を使用していると想定
して具体化されているであろう。代わりに、複数の言語
について文字認識方法とエラー修正方法を使用して、光
学式文字認識装置を具体化することは可能である。

【０００３】しかし、これまでは、光学式文字認識装置
に文書のスクリプトタイプおよび言語を自動的に決定さ
せることは不可能であった。それどころか、各文書を光
学式文字認識装置に与えるときに、文書の個々の言語お
よびスクリプトについて一定の指示を光学式文字認識装
置に与えなければならない。これは、オペレータが文書
の言語およびスクリプトに関するデータを光学式文字認
識装置に入力するか、または文書の言語およびスクリプ
トを指示する特殊な標識を文書に付けることによって果
たされてきた。

【０００４】

【発明が解決しようとする課題】従って、本発明の第１
の目的は、自動的言語認識能力を備えた光学式文字認識
装置を提供することである。

【０００５】本発明の第２の目的は、決定したスクリプ
トタイプに基づいて文書の個々の言語を決定する装置を
提供することである。

【０００６】本発明の第３の目的は、スクリプト特徴に
基づいて文書の言語を決定することである。

【０００７】本発明の第４の目的は、アジアスクリプト
タイプ文書の個々の言語を決定することである。

【０００８】

【課題を解決するための手段】本発明に従って、文書の
テキスト部分のスクリプトがアジアスクリプトタイプで
あると決定されたら、テキスト部分の文字を形成する１
つまたはそれ以上の関連構成要素をそれぞれ取り囲む複
数の文字セルが分析され、文字セル内の光学濃度が決定
される。

【０００９】文書のテキスト部分が対応するディジタル
データ信号へ変換されなかった場合には、文書が走査さ
れ、すべての非テキスト情報が除去される。そのあと、
得られたテキストイメージはスキュー、その他の走査人
工産物について修正される（もし必要ならば）。文書の
イメージが走査され、クリーンアップされたら、イメー
ジは、位置およびイメージ濃度をもつ画素のビットマッ
プから複数の関連構成要素へ変換される。関連構成要素
が生成されたあと、各関連構成要素について境界ボック
スが生成される。そして、テキスト部分内の文字セルの
境界を定めるために、行および文字の寸法が決定され
る。続いて、決定された文字セルの光学濃度分布に基づ
いて、文書のテキストの個々のアジア言語が決定され
る。

【００１０】

【実施例】図１に示すように、本発明の光学式文字認識
装置は電荷結合素子（ＣＣＤ）または同種の素子を含む
スキャナ１１０を備えている。スキャナ１１０はイメー
ジ１０２（図２に、未知のスクリプトおよび言語の３つ
の文字列を含む見本イメージ１０２を示す）を走査し、
原文書１００のイメージ１０２を構成する複数の画素の
位置とイメージ濃度を表すディジタルデータ信号を出力
する。このディジタルデータ信号はメモリ１１２へ送ら
れ、そこに一時的または無期限に保存される。ディジタ
ルデータ信号は、メモリ１１２から出力されると、汎用
ディジタルコンピュータ１１４へ入力される。コンピュ
ータ１１４へ入力されると、ディジタルデータ信号は、
最初にイメージ１０２のすべての非テキスト部分を除去
し、テキスト部分１０４を残すことによってクリーンア
ップされる。さらに、ディジタルデータ信号のすべての
スキャナ人工産物、たとえばスキューまたは同種の物が
修正される。クリーンアップされたディジタルデータ信
号は、そのあとメモリ１１２に再び保存されるか、コン
ピュータ１１４のメモリに保存される。代わりに、スキ
ャナによって一部の前処理たとえばスキャナ人工産物の
除去を実施することができる。

【００１１】図１に示すように、本発明の汎用ディジタ
ルコンピュータ１１４は、制御プログラムを保存するメ
モリ２２と、メモリ１１２からディジタルデータ信号を
入力し、イメージ１０２の決定されたスクリプトタイプ
を表す信号を出力する入出力手段２４を含んでいる。汎
用コンピュータ１１４は、さらに、ディジタルデータ信
号を保存するイメージメモリ２６、ディジタルデータ信
号から関連構成要素を生成する関連構成要素生成手段２
８、各関連構成要素について境界ボックスの座標と、境
界ボックス内のディジタルイメージの画素の座標を決定
する境界ボックス生成手段３０、１つまたはそれ以上の
関連構成要素を含む文字セルを生成する文字セル生成手
段３２、各境界ボックスについて１つまたはそれ以上の
タイプの所定の特徴の分布を決定する特徴決定手段３
４、および文書のスクリプトタイプを決定するスクリプ
ト決定手段３６を含んでいる。制御プログラムを保存す
るメモリ２２は、ＲＯＭ２２ａまたはＲＡＭ２２ｂのど
ちらでもよい。

【００１２】動作中、図１に示したイメージ１０２をも
つ文書１００がスキャナ１１０に挿入され、走査され、
直列または並列ディジタルデータ信号が生成される。生
成されたディジタルデータ信号は、各信号部分が原イメ
ージ１０２の対応する画素を表している複数の信号部分
から成っている。テキスト部分１０４の各画素はテキス
ト部分１０４内の位置とイメージ濃度を有している。従
って、ディジタルデータ信号の各信号部分は、対応する
画素の位置とイメージ濃度を表すデータを含んでいる。

【００１３】そのあと、スキャナ１１０によって出力さ
れたディジタルデータ信号はメモリ１１２に保存され
る。メモリ１１２はＲＡＭ、フラッシュメモリ、ディス
クメモリ、または同種の装置でもよい。メモリ１１２の
種類に関係なく、ディジタルデータ信号は、各信号部分
内の位置とイメージ濃度データに応じて、メモリ１１２
内に保存される。中間メモリ１１２に入力する代わり
に、ディジタルデータ信号を汎用コンピュータ１１４へ
直接に入力してもよいことはもちろん理解されるであろ
う。代案として、メモリ１１２を汎用ディジタルコンピ
ュータ１１４に組み入れることができる。いずれにせ
よ、メモリ１１２がイメージ１０２を長期間保存するた
め使用されることは理解されるであろう。

【００１４】オペレータによるスキャナ１１０への文書
の入力が終了したら、あるいは装置が別のやり方でテキ
スト部分１０４を表すディジタルデータ信号をテキスト
データへ変換すべきであると決定すると、イメージ１０
２を表すディジタルデータ信号がメモリ１１２から汎用
ディジタルコンピュータ１１４へ出力される。汎用ディ
ジタルコンピュータ１１４の代わりに、専用コンピュー
タまたはハードワイヤード論理回路を使用してもよいこ
とはもちろん理解されるであろう。

【００１５】メモリ１１２に保存されたディジタルデー
タ信号は汎用コンピュータ１１４へ出力され、そこで入
出力手段２４によってイメージメモリ２６へ入力され
る。本発明の第１の好ましい実施例においては、大体の
スクリプトタイプがアジアスクリプトタイプであると知
られている場合には、特徴決定手段３４が、朝鮮語、中
国語、および日本語文書を区別するにためあらかじめ選
定した特徴にセットされる。もちろん、テキスト部分の
大体のスクリプトタイプがアジアスクリプトタイプであ
ると識別されていない、または知られていない場合に
は、米国特許出願第PAL 92-003 号に記載されている、
大体のスクリプト区分を決定する方法および装置を使用
することができる。

【００１６】ディジタルデータ信号がイメージメモリ２
６に完全に保存されたら、ディジタルデータ信号は関連
構成要素生成手段２８にとって利用可能になる。関連構
成要素生成手段２８は、イメージ１０２のテキスト部分
１０４を表すディジタルデータ信号を、各関連構成要素
が１つまたはそれ以上の信号部分を含んでいる複数の関
連構成要素に分割する。各関連構成要素は、一定の最小
イメージ濃度をもち、連続する経路を作っている原テキ
スト部分１０４の画素に対応する信号部分から成ってい
る。各スクリプト文字は、一般に、“Fuji”の“F ”の
ように１つの関連構成要素、または“Fuji”の“ｊ”ま
たは“ｉ”のように１つより多い関連構成要素に対応し
ている。

【００１７】関連構成要素生成手段２８がディジタルデ
ータ信号からテキスト部分１０４について複数の関連構
成要素を生成すると、テキスト部分１０４に対応するデ
ィジタルデータ信号および関連構成要素生成手段２８に
よって生成された関連構成要素のリストが、イメージメ
モリ２６に保存され、そして境界ボックス生成手段３０
へ出力される。

【００１８】境界ボックス生成手段３０は、テキスト部
分１０４を表すディジタルデータ信号を複数の境界ボッ
クスに再分割する。各境界ボックスには、１つの関連構
成要素と、その関連構成要素を構成している画素に隣接
した画素の位置に対応するディジタルデータ信号の信号
部分が零、１つまたはそれ以上入っている。各境界ボッ
クスの寸法は、対応する関連構成要素を構成している一
番左と一番右の信号部分と一番上と一番下の信号部分の
位置データによって決定される。従って、境界ボックス
内の信号部分は、イメージ濃度データに関係なく、関連
構成要素を構成している信号部分と、関連構成要素を境
界ボックスの境界の中に置く位置データをもつ信号部分
である。境界ボックス生成手段３０によって境界ボック
スのリストと各境界ボックスを構成する信号部分が生成
されたら、境界ボックスのリストと対応する信号部分が
イメージメモリ２６に保存され、そして空間的特徴決定
手段３２へ出力される。空間的特徴決定手段３２は、い
ろいろある方法のどれか１つを使用して、テキスト部分
の行、ワード、および（または）文字セルを決定する。
そのような方法の１つが、米国特許出願第 PAL 92-002
号に記載されている。

【００１９】第１の好ましい実施例においては、朝鮮
語、中国語、および日本語の文書を区別するために、特
徴決定手段３４は光学濃度スクリプト特徴を使用してい
る。図２は、文書１００のイメージ１０２のテキスト部
分１０４を構成しているアジア言語のテキストの３つの
見本を示す。関連構成要素生成手段２８はテキスト部分
１０４について各関連構成要素を決定する。次に、境界
ボックス生成手段３０が各関連構成要素について境界ボ
ックスを決定する。次に、空間的特徴決定手段３２が、
図３に示すように、文字セルを決定する。もちろん、テ
キスト部分１０４に対して先に行われたスクリプトをお
おざっぱに分類する操作または文字セルを生成する操作
において、これらの操作が終了していれば、繰り返す必
要はないであろう。

【００２０】いずれにせよ、本発明の第１の好ましい実
施例においては、特徴決定手段３４は、各文字セルの光
学濃度、すなわち所定値以上のイメージ濃度をもつ画素
の総数を決定するように準備されている。図４は、日本
語テキストの別の見本と、各文字セルごとの、位置デー
タに対する各文字セル内の少なくとも１個の関連構成要
素による文字セルの光学濃度を示す。文字セルのリスト
と、イメージ濃度値の対応するリストが、特徴決定手段
３４から言語決定手段３６へ出力される。第１の好まし
い実施例においては、言語決定手段３６は、最初に、図
５に示したヒストグラムに似ている、テキスト部分１０
４の文字セルの光学濃度のヒストグラムを生成する。文
字間隔の水平範囲（すなわち、光学濃度関数が零に落ち
ている所の位置）は、図５のヒストグラムに含まれてい
ないことに注目されたい。図５のヒストグラムには、ｘ
軸に光学濃度範囲が示されており、ｙ軸に光学濃度の値
を含む文字セルの合計すなわち累積水平範囲が示されて
いる。図５に示すように、朝鮮語、中国語、および日本
語のテキストについて一般化されたヒストグラムは容易
に見分けがつく。

【００２１】本発明は、統計に基づいているので、非常
に頑強であり、非常に不完全に印刷された、または走査
された、またはその両方の文書にも耐えることができ
る。すなわち、ディジタルデータ信号、またはそのディ
ジタルデータ信号から生成された関連構成要素は、文書
のすべての文字を完璧に表している必要がない。それど
ころか、本発明は、１つの関連構成要素文字を２つまた
はそれ以上の関連構成要素に分割したり、あるいは２つ
またはそれ以上の独立した関連構成要素を１つの関連構
成要素に併合するなど、普通の走査エラーにも耐えるこ
とができる。

【００２２】しかし、一般化されたアジア言語のテキス
トのヒストグラムとイメージ１０２のテキスト部分１０
４のヒストグラムとを比較して、テキスト部分の個々の
言語を決定することは難しいであろう。このため、３つ
の一般化されたヒストグラムは線形識別分析（linear d
iscriminate analysis :ＬＤＡ）によって新しい座標空
間へ変換される。新しい座標空間において、変数は等し
い分散を有し、相互に関連がない。図６に示すように、
新しい座標空間は、一般化された朝鮮語、中国語、およ
び日本語のテキストの３つのヒストグラムのそれぞれに
対応する３つの重複する領域を有する。

【００２３】言語決定手段３６は、ＬＤＡによってイメ
ージ１０２のテキスト部分のヒストグラムを新しい座標
空間の点へ変換する。その点が位置する、または最も近
い新しい座標空間の一般化された言語領域に対応するア
ジア言語が、テキスト部分１０４について個々のアジア
言語として決定される。

【００２４】言語決定手段３６がイメージ１０２のテキ
スト部分１０４について個々のアジア言語を決定した
ら、言語決定手段３６の結果を、本発明によって決定さ
れるスクリプトおよび言語に最適の光学式文字認識アル
ゴリズムすなわち訓練セットを選択する光学式文字認識
装置へ直かに出力することができる。代わりに、後処理
するため、言語決定手段３６の結果をテキスト部分１０
４と共にメモリ１１２に保存することもできる。

【００２５】図７に、上に述べたアジア言語決定装置の
動作の簡単なフローチャートを示す。ステップＳ１０
０において、装置は処理を開始し、ステップＳ１１０に
おいて、文書を走査し、ディジタルデータ信号を生成す
る。次に、ステップＳ１２０において、ディジタルイメ
ージデータ信号に必要な前処理アルゴリズムを適用し
て、ディジタルイメージデータ信号をクリーンアップす
る。ステップＳ１３０において、ディジタルイメージデ
ータ信号の関連構成要素を識別し、ステップＳ１４０に
おいて、決定した各関連構成要素について境界ボックス
を生成する。

【００２６】ステップＳ１５０において、テキスト部分
１０４の文字セルを生成する。ステップＳ１６０におい
て、決定すべきスクリプト特徴を選択する。好ましい実
施例においては、好ましいスクリプト特徴は文字セルの
光学濃度である。ステップＳ１７０において、各文字セ
ルの光学濃度を決定する。

【００２７】次に、ステップＳ１８０において、テキス
ト部分１０４について、決定した、すなわち捜し出した
特徴（好ましい実施例においては、文字セルの光学濃度
の合計すなわち累積水平範囲）の分布のヒストグラムを
生成する。ステップＳ１９０において、決定したヒスト
グラムをＬＤＡによって新しい座標空間上の点へ変換す
る。ステップＳ２００において、テキスト部分１０４の
点と、複数の異なるアジア言語の一般化されたテキスト
部分に対応する新しい座標空間内の領域とを比較して、
テキスト部分１０４の個々のアジア言語を決定する。ス
テップＳ２１０において、前記点に最も近い領域に対応
するアジア言語をテキスト部分１０４の言語として選択
する。最後に、ステップＳ２２０において、テキスト部
分１０４の個々のアジア言語を出力し、ステップＳ２３
０において、装置は停止する。

【図面の簡単な説明】

【図１】光学式文字認識装置のブロック図である。

【図２】朝鮮文字（ハングル）、漢字、および日本文字
の３つの見本テキスト部分を含む文書を示す図である。

【図３】図２のテキスト部分と関連構成要素のまわりの
文字セルを示す図である。

【図４】日本語テキストの見本と、得られた光学濃度関
数を示す図である。

【図５】一般化された朝鮮語、中国語、日本語のテキス
ト光学濃度のヒストグラムである。

【図６】図５の線形識別分析による変換を示す図であ
る。

【図７】本発明のアジア言語決定装置の動作を示すフロ
ーチャートである。

【符号の説明】

２２メモリ２４入出力手段２６イメージメモリ２８関連構成要素生成手段３０境界ボックス生成手段３２文字セル生成手段３４特徴決定手段３６スクリプト決定手段１００文書１０２イメージ１０４テキスト部分１１０スキャナ１１２イメージメモリ１１４ディジタルコンピュータ

Claims

【特許請求の範囲】

【請求項１】文書のイメージのアジアスクリプトタイ
プ文書のテキスト部分の言語を決定するための自動言語
決定装置であって、各信号部分がイメージの複数の画素の１つに対応してい
る複数の信号部分から成る、テキスト部分を表すディジ
タルデータ信号を入力する入力手段、複数の信号部分から少なくとも１つの関連構成要素を生
成する関連構成要素生成手段、少なくとも１つの関連構成要素に基づいて、少なくとも
１つのあらかじめ選定したタイプのスクリプト特徴に一
致するスクリプト特徴を捜し出す特徴決定手段、および
捜し出したスクリプト特徴の分布と、複数のアジア言語
の少なくとも１つのあらかじめ選定したスクリプト特徴
の分布とを比較し、それに応じてテキスト部分のアジア
言語を決定する言語決定手段、から成ることを特徴とす
る装置。