JP3796276B2 - 自動テキスト特徴決定システム - Google Patents

自動テキスト特徴決定システム Download PDF

Info

Publication number
JP3796276B2
JP3796276B2 JP00996795A JP996795A JP3796276B2 JP 3796276 B2 JP3796276 B2 JP 3796276B2 JP 00996795 A JP00996795 A JP 00996795A JP 996795 A JP996795 A JP 996795A JP 3796276 B2 JP3796276 B2 JP 3796276B2
Authority
JP
Japan
Prior art keywords
text
line
generating
determining
connected component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP00996795A
Other languages
English (en)
Other versions
JPH07225812A (ja
Inventor
スピッツ エイ.ローレンス
ピー.ディアス アントニオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US08/191,895 external-priority patent/US5513304A/en
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH07225812A publication Critical patent/JPH07225812A/ja
Application granted granted Critical
Publication of JP3796276B2 publication Critical patent/JP3796276B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【産業上の利用分野】
本発明は自動文書認識のための方法及び装置に係り、特に、文書内のテキストラインの空間特徴を自動的に決定するための改良された方法に関する。とりわけ、本発明は、これらのテキストラインが特に迅速且つロバスト(堅牢)に識別されるように、スキュー(傾斜)され且つ歪んだ又は低解像度の文書画像を、利用可能な画像ソースへ変換するための方法に関する。この方法は、スキューやラインワープ(ラインの曲がり)の存在においてロバストであり且つフォトコピー(写真複写)誘導雑音に対して耐性を有する。本発明は更に、テキストのスプレイイング(拡げること)をテキストの収縮と置き換えることによって計算やメモリのデマンド(要求)をより一層減少する。
【0002】
【従来の技術】
走査された画像データをディジタルコンピュータに使用するのに適したテキストデータへ変換するための光学的文字認識とその使用は周知である。さらに、走査された画像データをテキストデータへ変換するための方法と、このような方法が発生するエラーのタイプも周知である。走査された画像データをテキストデータへ変換する時に生じる様々な問題は、テキストの個々のラインを互いに識別できること、テキストの単一ライン内の複数ワードのグルーピングを識別できること、テキストの単一ライン内の文字セルの垂直及び水平の拡がり(エクステント)を決定すること、及びテキストの単一ライン内の連結成分間のリガチュア(合字、抱き字)又はカーン(kerns )(はみ出し又は食い込み文字)を適切に分離することにある。
【0003】
これらの問題は単独で解決するのは難しく且つ認識されるべき画像の実際のテキストラインがスキューされ、ワープされ(曲がり)、且つ雑音で一杯になった時は度々解決が不可能となる。従って、以下のような場合、テキストラインを検出することが難しい。
1)ラインが文書上の画像の軸と位置合わせされていない、つまり互いに平行でない(スキュー)場合。
2)ラインが直線でない(ワープしている)場合。又は、
3)ラインが認識しようとする画像の一部ではない画像成分を含む場合、又はラインの文字が歪んでいる(雑音がある)場合。
【0004】
本明細書中に参照することによって組み込まれているスピッツ(Spitz )に与えられた日本特許第6-70294 号において、テキストラインのボトム(下部)、トップ(上部)、ベースライン、及びx−ライン位置を識別するための方法が開示されている。この出願は、概して、個々のラインを識別するためにフルサイズの連結成分を垂直にスプレイし(拡げ)、次いで連結成分の個々の文字及びワードのグルーピングを識別するために水平のスプレイイングを用いることによって、画像のライン、ワード、及び文字を分離した。
【0005】
スピッツの日本特許第6-70294 号において説明された方法に従って、文書の画像のテキスト部分の複数の連結成分を取り囲む複数の境界ボックスが生成される。これらの境界ボックス(及び連結成分)は、現在ライン(行)の境界ボックスと該現在ラインに垂直に隣接しているラインの境界ボックスのあらゆるオーバーラップ(重なり)を分離するために垂直方向にスプレイされる。各ラインの連結成分の垂直プロファイルが生成され且つトップとボトムのピーク(頂点)が検出される。連結成分のボトムとトップの領域の個々の垂直プロファイルが生成されて、且つベースラインとx−ラインの位置をそれぞれ決定する。テキスト部分の各ラインが一旦識別されると、境界ボックス(及び連結成分)は次いで水平にスプレイされて、且つ現在ライン内の境界ボックスのあらゆるオーバーラップ(重なり)を取り除く。ラインごとに、そのラインの連結成分のモーダル(様相又は形式的)(modal )ストローク幅の値が決定される。連結成分の実際のストローク幅がこのモーダルストローク幅と比較される。あらゆる連結成分が、モーダルストローク幅の所定の倍数より大きな実際のストローク幅を有している場合、このような連結成分の各々は二つ又はそれより多くの独立した連結成分の可能性のあるリガチュア(抱き字又は合字)であると考えられる。この場合において、連結成分は分割されてもよい。このようなリガチュアは、これ以上の分割がもうできないというまで再帰的に分割される。一旦全ての可能性のある分割が行われると、隣接する連結成分の間の空間が各ラインのワード及び文字の空間を決定するために解析される。
【0006】
連結成分が周囲の連結成分から垂直に及び水平に明確に分割されるように、一旦画像のテキスト部分がスプレイされると、各ラインのトップとボトムの位置の間にあり且つ垂直に位置合わせされた連結成分の各グループは1文字として一つの文字セル内に共にグルーピングされる。
【0007】
しかしながら、この方法は、スキューされ、ワープされ、且つ雑音のあるテキスト画像を処理する時に、充分にロバストではない。このような画像はオリジナル画像を写真複写する時に度々生成される。コピー(複製)画像は、形成されるシートの軸に対して度々スキューされる。さらに、オリジナル画像を書籍から取った場合は、(本の)背(スパイン)に近い部分で、ラインがガッタ歪みとして知られる特徴的な湾曲によってワープする。結局、写真複写プロセスは多数の異なる種類の雑音を生じ得る。第1に、コピーの解像度はオリジナル画像に比べて極めて低いかもしれない。従って、コピー画像内の文字の外郭は歪み、且つ文字内で偶発的に(又は意図的に)損失した又は加わった画像の画素による雑音を有することになる。第2に、コピー処理は、コピーウィンドウ上のデブリス(残がい)又は複写機の受光体(又は感光体含む)若しくは他の要素の疵によって画像画素の完全な擬似グループを追加するかもしれない。
【0008】
【発明が解決しようとする課題】
本発明は、従って、テキストライン、ワード及び文字セルの特徴認識能力を有する改良された光学的文字認識システムを提供する。
【0009】
本発明はまた、テキストラインが一つ又はそれより多くのスキュー、ワープ、又は雑音によって歪んだ時の文書のテキストライン、ワード及び文字セルの空間特徴を自動的に決定する。
【0010】
本発明はまた、スキューされ又はワープされたラインが画像軸と位置合わせされるのを可能とするシステムを提供する。
【0011】
本発明はまた、計算量及びメモリに対する要求が少ない、画像ライン、画像ワード、及び画像文字を識別するシステムをさらに提供する。
【0012】
本発明は、連結成分の周りに形成される境界ボックスの中心の周りの画像の連結成分の大きさを選択的に収縮することによって計算量やメモリに対する要求を減少することをさらに提供する。
【0013】
【課題を解決するための手段】
本発明の第1の実施例において、画像のビットマップは連結成分のリストへ変換される。次いで、画像の優先直交軸が決定され、且つ画像の軸が解析軸に位置合わせされる。次に、画像の優先軸に対してスキューされたあらゆる残りのラインが画像軸と位置合わせされるように移動される。
【0014】
次に、同様に、ワープされたあらゆるライン部分は、画像の軸と位置合わせするように移動する。連結成分が位置合わせするように移動した時は常に、小さな回転がこれらの連結成分に加えられる。このシステムは小さな回転に一般にあまり感応しないが、回転された連結成分は連結成分が画像軸と最適に位置合わせされるように補償され得る。
【0015】
連結成分の全てが画像軸に位置合わせされると、境界ボックスは各連結成分の周りに生成され且つこれらの境界ボックスの中心が検出される。次いで、各境界ボックスはその中心の周りを垂直方向に収縮されて、且つ画像を個々のラインへ分離する。次いで各ラインに属する連結成分が識別される。
【0016】
次いで、ラインごとにモーダルベースラインが決定され、且つそのラインの各ベースラインの連結成分がモーダルベースラインと位置合わせされる。これは、もしあれば、ディセンダ(下に出る部分)をマスクして行われる。全ての連結成分が一旦ベースラインに位置合わせされると、ディセンダはベースラインから適切に下に出るようにマスクが取られ且つ再度位置合わせされる。この時点で、各ラインに対するx−ライン、ボトムライン、及びトップラインのパラメータが既に決定されたベースラインに相対して決定される。
【0017】
次に、連結成分のワードグルーピング及び文字グルーピングが決定される。最初に、現在ラインの各境界ボックスが境界ボックスを互いに分離するためにその中心の周りで水平方向に収縮される。次いで、境界ボックス同士間の異なるサイズを有するレディング(leading)(白色空間)のロケーション(位置)及び相対数が一つ又はそれより多くのワード内空間(スペース)又はワード間空間を示す一つ又はそれより多くのピークを見つけるために解析される。
【0018】
ワード内及び/又はワード間空間が一旦見つかると、あらゆる充分にワイドな連結成分が偶発的又は意図的にカーンド文字(隣合う文字同士を互いにくい込ませ、詰めた文字)を分離するために解析される。
【0019】
本発明は、文書画像のテキスト部分のテキスト特徴を決定するための自動テキスト特徴決定システムであって、前記テキスト部分を表すディジタルデータ信号を入力するための入力手段を有し、前記ディジタルデータ信号が複数の信号部分を備え、且つ各信号部分が前記文書画像の複数の画素の内の一つに対応しており、前記複数の信号部分から複数の連結成分を生成するための連結成分生成手段を有し、前記連結成分を解析軸と位置合わせするための位置合わせ手段を有し、位置合わせ手段はテキストの行(ライン)ごとに決定される基線を解析軸と配向が一致するように位置合わせし、各行(ライン)のワープされた連結成分を基線に位置合せする手段を含み、複数の境界ボックスを生成するための境界ボックス生成手段を有し、各境界ボックスが前記複数の連結成分の内の対応する一つの連結成分を取り囲み、前記テキスト部分のテキストの各行(ライン)は前記複数の連結成分の内の少なくとも一つを備えていて、前記テキストの各行(ライン)の空間特徴を決定するためのライン空間特徴決定手段を有する。
また、本発明は、文書画像のテキスト部分のテキスト特徴を決定するための自動テキスト特徴決定システムであって、前記テキスト部分を表すディジタルデータ信号を入力するための入力手段を有し、前記ディジタルデータ信号が複数の信号部分を備え、且つ各信号部分が前記文書画像の複数の画素の内の一つに対応しており、前記複数の信号部分から複数の連結成分を生成するための連結成分生成手段を有し、前記連結成分を解析軸と位置合わせするための位置合わせ手段を有し、前記位置合わせ手段は、前記テキスト部分の連結成分の主テキスト方向を決定するためのテキスト配向決定手段と、前記テキスト部分の連結成分の主テキスト方向を解析軸に位置合せし、それによりテキスト配向を解析軸に位置合わせするための軸位置合せ手段と、前記テキスト部分の連結成分のスキューした部分およびワープした部分を解析軸に位置合せするためのライン位置合せ手段とを有しており、複数の境界ボックスを生成するための境界ボックス生成手段を有し、各境界ボックスが前記複数の連結成分の内の対応する一つの連結成分を取り囲み、前記テキスト部分のテキストの各行(ライン)は前記複数の連結成分の内の少なくとも一つを備えていて、前記テキストの各行(ライン)の空間特徴を決定するためのライン空間特徴決定手段を有する。
さらに、ライン空間特徴決定手段は、テキスト部分から、垂直に収縮されたテキスト部分を生成する垂直収縮手段と、収縮されないテキスト部分の垂直プロファイルを生成する垂直プロファイル手段とを備える。
また、ライン空間特徴決定手段は、各行の文字とワードのスペースを決定するワードスペース決定手段を備える。
【0020】
【実施例】
図1に示したように、本発明の光学的文字認識システムは電荷結合素子(CCD)又はその他同種のものを有するスキャナ110を備える。スキャナ110は画像を有する文書を走査し、且つこの画像は未知の活字書体や言語のテキスト部分を備える。スキャナ110は、オリジナル文書の画像を備える複数の画素のロケーション(場所)や画像濃度を表すディジタルデータ信号を出力する。このディジタルデータ信号はメモリ112へ送られて且つメモリ112へ一時的及び無期限で記憶される。メモリ112から出力されると、ディジタルデータ信号は汎用ディジタルコンピュータ114へ入力される。コンピュータ114へ入力されると、ディジタルデータ信号は、画像のあらゆるノンテキスト部分を除去することによりクリーンアップ(整理)されて、テキスト部分を残す。クリーンアップされたディジタルデータ信号は次いでメモリ112へ戻されるか又はコンピュータ114のメモリ内に記憶される。
【0021】
図1に示したように、本発明の汎用ディジタルコンピュータ114は、コントロールプログラムを記憶するためのメモリ22と、メモリ112からディジタルデータ信号を入力し且つテキスト部分の決定された文字セルを表す信号を出力するための入力/出力回路24を備える。汎用ディジタルコンピュータ114はまた、ディジタルデータ信号を記憶するための画像RAM(ランダムアクセスメモリ)26と、ディジタルデータ信号から連結成分を生成するための連結成分生成手段28と、境界ボックスの座標を決定し且つ連結成分ごとに境界ボックス内のディジタル化された画像の画素を決定するための境界ボックス生成手段30と、テキスト部分を垂直に収縮するための垂直収縮手段32と、非収縮テキスト部分の垂直プロファイルを生成するための垂直プロファイル手段34と、テキスト部分を水平に収縮するための空間特徴決定手段36と、連結成分を文字セルへグルーピングし且つ文字とワード(単語)の分割を識別するための文字セル生成手段38と、画像の複数の主軸を解析軸と位置合わせするための画像軸検出手段40と、連結成分移動回転手段42、及びラインの連結成分をそのラインのベースライン(基線)位置へ位置合わせして、且つ必要となれば、連結成分上に与えられた回転を取り除くためのベースライン位置合わせ手段44と、画像の複数の主軸の配向を決定するためのテキスト配向決定手段46と、を備える。垂直プロファイル手段34は、テキスト部分と、テキスト部分の各ラインと、各ラインの部分の垂直プロファイルを生成するための垂直プロファイル生成手段342と、各ラインの少なくともトップ、ボトム、及びx−ラインの位置を決定するための垂直位置決定手段340を備える。ライン空間特徴決定手段36は、テキスト部分の各ラインを水平に収縮するための水平収縮手段360と、テキスト部分の各ライン内にワード内空間とワード間空間を決定するための空間決定手段362と、テキスト部分の各ラインのモードストローク幅と、連結成分ごとに実際のストローク幅を決定するためのストローク幅決定手段364と、を備える。コントロールプログラムを記憶するためのメモリ22はROM(リードオンリーメモリ)22a又はRAM22bを備えていてもよい。
【0022】
動作上は、画像を含む文書が設置され且つのスキャナ110によって走査されて、且つ直列又は並列のディジタルデータ信号を生成する。ディジタルデータ信号は、各部分がオリジナル文書の対応画素を表す複数の信号部分を備える。画像の各画素は画像内のロケーションと画像濃度を有する。従って、ディジタルデータ信号の各信号部分は対応画素のロケーションと画像濃度を表すデータを含む。
【0023】
スキャナ110によって出力されたディジタルデータ信号は次いでメモリ112に記憶される。メモリ112は、RAM、フラッシュメモリ、ディスクメモリなどを備えていてもよい。メモリ112のタイプに関わらず、ディジタルデータ信号は各信号部分内のロケーション及び画像濃度に応答して、メモリ112に記憶される。ディジタルデータ信号が中間メモリ112ではなくて汎用ディジタルコンピュータ114へ直接入力され得ることが当然理解されよう。或いは、メモリ112が汎用ディジタルコンピュータ114へ組み込まれ得る。あらゆるケースにおいて、メモリ112が画像の長期記憶を提供するために使用されることが理解されよう。
【0024】
オペレータがスキャナ110への文書入力を終了するか、そうでなければ、システムが、メモリ112に記憶された画像を表すディジタルデータ信号がテキストデータへ変換されるべきであることを決定するか若しくは(そのように)命令されると、画像を表すディジタルデータ信号はメモリ112から汎用コンピュータ114へ出力される。特殊目的のディジタルコンピュータ又はハードワイヤード論理回路が汎用ディジタルコンピュータ114に代わって使用され得ることは当然理解されよう。
【0025】
メモリ112に記憶されたディジタル画像データ信号は、汎用コンピュータ114へ出力され、且つここで入力/出力手段24を介して画像メモリ26へ入力される。ディジタルデータ信号が画像メモリ26に完全に記憶されると、画像を表すディジタルデータ信号は連結成分生成手段28へ出力される。連結成分生成手段28は、位置合わせされた画像を表すディジタルデータ信号を複数の連結成分へ分割し、且つ各連結成分は一つ又はそれより多くの信号部分を備える。各連結成分はある最小画像濃度を有し且つ連続パス(経路)を形成する位置合わせされた画像の画素に対応する信号部分を備える。各活字書体文字は、図3の(a)に示したように、"Fuji"の"F" におけるように、一般に一つの連結成分に対応するか、又は"Fuji"の"j" 又は"i" におけるように、一つより多くの連結成分に対応する。連結成分生成手段28によって生成された連結成分のリストは、画像メモリ26及び/又はメモリ112に記憶される。
【0026】
連結成分生成手段28がディジタルデータ信号からの位置合わせされた画像に対して複数の連結成分を生成すると、画像メモリ26に記憶された画像と連結成分生成手段28によって生成された連結成分のリストに対応するディジタルデータ信号が境界ボックス生成手段30へ出力される。
【0027】
境界ボックス生成手段30は位置合わせされた画像を表すディジタルデータ信号を複数の境界ボックスへ再分割して、且つ各境界ボックスは一つの連結成分と、その連結成分を有する信号部分に隣接するように又は近傍に位置されたディジタル信号のゼロ、1つ又はそれより多くの信号部分を含む。テキスト部分の画素に対応するこれらの更なる信号部分は各連結成分を取り囲む。各境界ボックスの大きさは対応する連結成分を有する最左、最右、最上、及び最下の信号部分のロケーション(位置)データによって決定される。従って、境界ボックス内の信号部分は、連結成分を備える信号部分であり且つ均一に黒即ち画素で表された境界ボックスの内容を示す図3の(b)に示したように、それらの画像濃度データとは無関係に、境界ボックスの境界内にそれらを配置するロケーションデータを有する信号部分である。
【0028】
境界ボックスと各境界ボックスを有する信号部分のリストが境界ボックス生成手段30によって一旦生成されると、境界ボックスのリストは画像メモリ26又はメモリ112へ入力される。次いで、画像は画像の第1の(主)配向を決定するテキスト配向決定手段46へ出力される。
【0029】
テキスト配向決定手段46は「ライン」方向が水平(又は縦向き)か否か又は垂直(又は横向き)か否かを決定する。水平方向は画像を含むページの短い側と平行であると定義される。即ち、アジア系(アセンダ部分又はディセンダ部分をもたない活字)テキストは、テキストのラインを水平に延ばし且つ画像のラインを垂直に延ばすことによって水平にセットされるか、又はテキストのラインを垂直に延ばし且つ画像のラインを水平に延ばすことによって垂直にセットされる。同様に、ローマン体(欧文活字書体)テキストは、水平にセットされたアジア系テキストのように縦向きにセットされ得るか又は垂直にセットされたアジア系テキストのように横向きにセットされ得る。
【0030】
好ましい実施例においては、Proceedings of the Symposium on Document Analysis and Information Retrieval (文書解析及び情報検索のシンポジウム議事録)の中のイットナー(Ittner )の"Automatic Inference of Text line Orient-ation(テキストライン配向の自動推論)" に記述されている技術の変更を用いて、テキスト配向決定手段46が画像が水平にセットされるか否かを決定する。イットナーのシステムは文字間のスペーシングがライン間のスペーシングより小さいことを示すことによって文書のテキストライン配向を決定する。イットナーは次いで、連結成分の中心の最小全域木(スパニングツリー)を組み立てることによってテキストラインの配向を見つける。テキスト文書においては、相当多くの木の枝が異なるライン上の隣接文字間でよりもテキストライン内の隣接文字同士の間で見られる。木の枝が主要(ドミナント)方向を有する場合、テキストラインの配向はそれに従って表される。イットナーのシステムにおいて、最小全域木は(ヴォロノイ図式(Voronoi )に基づいて)ドローネ(Delaunay)の三角測量を構成することによって組み立てられる。本発明のシステムにおいてはこのステップが省略され、代わりに、プリム(Prim)のアルゴリズムが最小全域木を形成するために使用される。プリムのアルゴリズムは既に木に存在している節(ノード)と木に存在していない節の間に最短の枝を追加することによって作用する。概して、これは計算コストが非常に高い。従って本発明のシステムは閾値ヒューリスティックを使用して、コストを最小にする。しかしながら、これは真の全域木より、むしろ近傍の最小全域木を生成する。この閾値ヒューリスティックは各ペア(対)のポイント(点)間の距離を決定する。この距離が多数の連結成分に依存するカットオフ(削除)の値より大きな場合、この距離は無視される。従って、連結成分のペアは距離によって分類される。この近傍の最小全域木は少なくとも一つの部材がこの木に未だ追加されていない第1のn−1個のペアを追加することによって構成される。
【0031】
このように、テキスト配向決定手段46は、解析軸を画像の主軸に対して大雑把に位置合わせする。しかしながら、画像の主軸の配向を決定するだけでは、解析軸を画像軸と位置合わせするのに充分ではないかもしれない。図2の(a)に示したように、水平画像から全体画像のグローバル(広域的)スキュー(傾斜)角度を補償することが必要であるかもしれない。これを行うために、画像軸検出(配置)手段40が画像軸と解析軸の間でこれらが位置合わせされるように回転を与える。これは概念的には画像が適切な軸と位置合わせするまでページ全体を回転させることに等しい。しかしながら、たとえページ画像全体において主要スキュー角度を補償したとしても、それが正確なテキストのパラメータ化を可能にするのに充分な調整ではないかもしれない。従って、個々のライン又はラインの小さなグループがページ全体の一般的な配向に相対してスキュー角度を有している。
【0032】
図2の(a)に再び戻って、図2の(a)に示したテキストのスキューラインが全体画像ではなく、画像の一部分だけを備え、画像の残りの部分をページ画像の主軸と位置合わせされている場合、連結成分移動及び回転手段42は個々のスキューラインを主軸と位置合わせされるまで回転する。図2の(b)に示したように、連結成分移動及び回転手段42によって与えられた回転により画像の連結成分が画像の主軸に相対してわずかに回転する。美的な見地から、個々の連結成分の回転を補償することが所望されるかもしれない。これが所望されれば、それも連結成分移動及び回転手段42によって実行され得る。しかしながら、実施上、ページ画像に用いられる大部分のアルゴリズムは、グローバルスキューとは対照的に、少量の局所的回転に対する許容度が極めて高い。
【0033】
連結成分移動及び回転手段42は、スキュー角度を検出することによって起こり得るスキューを検出し且つ補正するが、これは1987年の「写真科学とエンジニア社会」会議議事録に"The Skew Angle of Printed Documents" と題してベアド(Baird )が記載した技術に基づく。スキュー角度が検出されると、個々の連結成分はそれらの原点が画像座標システムに適切に位置合わされるように移動されるが、上記に示したように個々の連結成分のあらゆる回転を残し続ける。
【0034】
位置合わされ、移動され、且つ恐らくは回転された境界ボックスは、次いで、垂直収縮手段32へ出力される。この垂直収縮手段32は、画像内の各境界ボックスの多数の水平に広がる画素の行(ロー)を除去することにより画像を垂直に収縮する。境界ボックスを垂直に拡げるのではなく、境界ボックスの垂直な拡がりを収縮することにより、境界ボックスの中心は変位しないが、垂直に位置合わされた連結成分同士の間に異常に大量の白色空間(レディング)を創成する。次いで、垂直収縮手段は、スプレイイングの場合のように、別の座標系に頼ることを必要とせずに、画像のラインを分離することができる。さらに、垂直収縮手段は、垂直スプレイイング手段のように、このようなスプレイイングが必要とされるか否かによって動作する。収縮が必要とするメモリ及び計算の資源はスプレイイングより相当少ないので、システムは一層効率的となる。
【0035】
即ち、文書のテキスト部分内のラインが白色空間又はレディングの可変量だけ分離され、且つレディングは現在ラインの文字と垂直に隣接するラインの文字と間で、線形の水平の白色パスとして画定される。概して、アジア系活字書体は巧く作用して、且つ連結成分の上に出るアセンディング部分と下に出るディセンディング部分を持たない。従って、アジア系活字書体におけるテキストのラインを収縮せずに明確に検出することが通常は可能である。これとは反対に、欧州系活字書体は巧く作用せず、通常は、アセンディング部分とディセンディング部分を有している。図3の(a)と(b)に示したように、これらのアセンディング部分とディセンディング部分が、しばしば、接触したり又は単に水平に重なったりするので、これらの部分を垂直方向に最初に収縮しないで、欧州系活字書体の文書のテキストのラインを曖昧でなく検出するのは難しい場合が多い。
【0036】
しかしながら、収縮のコストは、消費する時間や必要とされる処理能力の点で非常に低い(且つスプレイイングよりもっと低い)ので、活字書体及び/又は収縮を必要とする特定のラインを決定しようと試みるより、活字書体に関わらず(且つ好ましくは活字書体を最初から決定しないで)全てを垂直に収縮する方がもっと簡単である。当然、収縮コストが高くなるようならば、本発明は画像の一部の収縮が必要か否かを決定するための手段を含むように容易に改良され得る。
【0037】
図3は、(a)において、サンプルテキスト部分を示し、(b)において、サンプルテキスト部分の各連結成分を取り囲む境界ボックスを示し、且つ(c)において、境界ボックスの垂直に収縮された部分を示す。図3の(a)及び(b)から、"Fuji"の"j" の周りの境界ボックスが、"3400"内の最初の"0" の境界ボックスと接触しているのが明らかである。しかしながら、"j" と"0" の連結成分の拡がりを垂直方向に減少するために垂直収縮を用いた後、図3の部分(c)に示したように、各ペア(対)の垂直な隣接ライン同士の間に中断されない白色空間が生じる。
【0038】
メモリ資源における計算量の減少や、別の座標空間の使用を回避すること以外に、垂直収縮手段は、特定の画像に対する境界ボックスに適用されるべき収縮の量や限界を調整することもでき、これによって垂直収縮手段32は異なる書体サイズに容易に適合できる。さらに、垂直収縮手段32は、一般に、各境界ボックスの高さを約10%収縮しようと試みる。垂直収縮手段32は、収縮が中心の位置に影響を与えないように、残っている画素の数が奇数であることを確実にしようと試みる。さらに、いくかの画素のロー(行)が除去される場合、最低三つのローが除去されるが、結果的に生じる収縮された境界ボックスは、垂直な拡がりにおいて3画素未満に縮退されることは決して許容されない。従って、たとえ、第1のラインの"j" の境界ボックスが第2のラインの"0" の境界ボックスに食い込んだとしても、図3の(c)に示したように、今度は、図3の(a)及び(b)の第1のテキストラインと第2のテキストラインの間に線形の水平線を引くことが可能である。
【0039】
画像を垂直に収縮した後で、垂直収縮手段32はどの連結成分及び境界ボックスがテキストの各ラインを備えるかを決定する。即ち、垂直中心が垂直に収縮されたラインプロファイルによって形成されたテキストラインの境界内のあらゆる連結成分はそのラインの中に含まれている。これは、当然、その連結成分の全てを完全に包含するためにラインの拡大に帰着する。従って、図3の(a)及び(b)における第1と第2のラインと同様に、テキストラインのトップ位置とボトム位置が重なったとしても、それらは正確に且つ明確に決定され得る。ラインと対応する連結成分のリストは次いで画像メモリ26及び/又はメモリ112に記憶される。
【0040】
ラインと対応する連結成分のリスト、及び画像を有する元の収縮されない信号部分は、次いで、ベースライン位置合わせ手段44へ出力される。ライン見当合わせ又は位置合わせはテキストラインの文字のベースラインを位置合わせするための処理である。実際の所望されるベースラインは、通常、文字"g" におけるようなディセンダ(下に出る部分)やコンマのような句読点の存在のために、特徴付けることが難しい。従って、ベースライン位置合わせ手段44は、最初に、それらの各文字セルのボトムに置かれていない成分のためのラインの連結成分に対するモーダルボトム位置を計算する。次いで、ベースライン位置合わせ手段44はベースラインの連結成分を位置合わせする。例えば、アクセント、"i" や"j" の上の点(ドット)、疑問符、感嘆符、セミコロン、及びコロンの上部成分がノン・ベースライン成分として分類される。即ち、他の連結成分が所与の連結成分より下に置かれている時、所与の連結成分はノン・ベースライン成分として分類される。
【0041】
これの一つの結果として、下に垂直に位置合わせされた成分を全く持たない引用符やアポストロフィ(’)が、ベースラインの成分であると考えられることが理解されよう。これは反直感的に思えるかもしれないが、この分類はシステムの性能上何ら悪影響を与えない。
【0042】
ベースライン位置合わせ手段44は、文字セル同士間のベースライン位置における小さな変化(ばらつき)を除去しながら、ノン・ディセンディング(下に垂れない)文字に隣接しているディセンディング(下に出る)文字によって、尖った非連続性を許容する点において高域フィルタと類似的に動作する。ベースライン位置合わせ手段44は、ベースラインの成分ごとに、連結成分のボトムとその左に隣接するベースライン成分の近傍の間の相対的垂直オフセットを計測し且つ記憶する。ラインの始まりにおいて、ベースライン位置合わせ手段44は、欠けている左側に隣接するベースラインの近傍の代わりに、モーダルボトム位置を使用する。
【0043】
次いで、ベースライン位置合わせ手段44は、モーダルベースラインへベースラインの連結成分を引き寄せて、完全なベースライン位置合わせを提供するが、アセンディング(上に出る)文字やアポストロフィのボトムをモーダルベースラインへ一時的に位置合わせするにすぎない。一方、ノン・ベースライン成分はそれらの境界ボックスのそれらの対応するベースライン成分に等しい距離を移動される。この処理は図4の(a)乃至(c)に示されている。図4の(a)は、終りが自明的に垂れ下がるワープした(歪んだ)テキストのラインを示す。上記に述べたように、図4の(b)に示したように、テキストのラインを備える文字のボトム位置の全てがモーダル位置へ位置合わせされる。図4の(c)に示したように、隣接文字間の相対的垂直オフセットが、ディセンダ(下に出る部分)を下へ移動し且つアポストロフィや疑問符を上へ移動するために呼び戻され且つ使用される。連結成分移動及び回転手段42を用いると、個々の連結成分が座標軸に相対して回転されることは理解されよう。ベースライン位置合わせ手段44と垂直収縮手段32の動作がシステムの動作に影響を与えずに反転され得ることもまた理解されよう。
【0044】
一旦、境界ボックスが収縮され且つあらゆるワープが除去されると、画像は垂直プロファイル手段34へ出力される。垂直プロファイル手段34は、収縮されない画像に対してテキストの各ラインのトップとボトムの位置及び最右及び最左位置を決定する。垂直プロファイル手段34は、最初に、テキストの各ラインの連結成分の垂直分布プロファイルを生成する。垂直分布プロファイルから、図8に示したようにテキストの一つのラインのトップとボトムの位置が明確に設定され得る。
【0045】
垂直プロファイル手段34は、次いで、既に決定されているベースライン位置に相対するテキストのライン毎に垂直プロファイルの最も上と最も下の位置を決定する。図8に示したようにテキストラインのボトムポイント、垂直分布プロファイルの最下点であるが、図8に示したようにテキストラインのトップポイントは垂直プロファイルの最上点である。垂直プロファイル手段34は次いでラインの連結成分のトップ位置だけの一つの追加垂直部をテキストのラインごとに生成する。このx−ライン位置は、一般に、トップ位置垂直分布プロファイルのピーク(頂点)の垂直位置である。アセンディング又はディセンディング連結成分を持たないテキストラインにおいて、トップとx−ラインの位置は一致するであろう。さらに、高い割合のアッパーケース(大文字を収納するケース)又はアセンディング文字を有するテキストラインにおいて、x−ラインの位置を正確に決定することは可能ではないかもしれない。全てのラインが一旦垂直プロファイル手段によって動作されると、ラインと、各ラインに対応しているベースラインに相対するボトム、トップ、ベースライン、及びxラインの位置のリストは、画像メモリ26へ出力される。テキストの一つのラインと対応している連結成分は、全体的にトップとボトムの位置の間に収容されるような連結成分である。
【0046】
全てのラインがx−ハイト(高さ)のアセンダ及びディセンダ文字のミックス(混合)を含むわけではないことが理解されるべきである。これを補償するため、均一のラインサイズの領域において、垂直プロファイル手段34は全てのラインに対するモーダルディセンダレングス(長さ)、モーダルx−ハイト、及びモーダルアセンダハイトを計算する。次いで垂直プロファイル手段は全ての含まれるラインに対してこれを反復する。ラインの測定されたディセンダサイズが、モーダルディセンダレングスの半分より少ないか又は等しい場合、そのラインのディセンダレングスはモーダルディセンダレングスへセットされる。さらに、ラインのモーダルアセンダハイトが、モーダルアセンダハイトと20%も違わず(即ち、モーダルアセンダハイトの80%乃至120%)且つそのラインのx−ハイトがモーダルx−ハイトの70%より下か又は等しい場合、垂直プロファイル手段はそのラインのx−ハイトをモーダルx−ハイトに等しくセットする。特に、これは、"DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS" (全て大文字)のようなテキストのラインにおけるようにディセンダを持たないライン及びx−ハイト文字を持たないラインを処理するときに非常に良好に作用する。
【0047】
次いで、複数の信号部分と、画像の各ラインに対応する連結成分及び境界ボックスのリストが空間特徴決定手段36へ出力される。空間特徴決定手段36の水平収縮手段360は、二つ又はそれより多くの独立した連結成分に対応する二つ又はそれより多くの境界ボックスのあらゆるオーバーラップ(重なり)(又は偶発的合字)を取り除くため、図3の(b)に示したように、単一ラインの非収縮境界ボックスを水平に収縮する。
【0048】
水平収縮手段360は垂直収縮手段32と同様に動作するが、画像のテキストの各ラインの各境界ボックスの垂直の寸法ではなく水平の寸法において動作する。
【0049】
一般に、テキストのライン内の文字と文字は白色空間の可変量によって分離され、且つ白色空間は現在ライン内の線形垂直白色パスとして画定されている。また、アジア系の活字書体は通常、良好に作用するので、文字の間にこのような白色空間が存在することを確実とするためにアジア系の活字書体文書のラインを水平に収縮することはあまり必要ではない。対照的に、相対的に離間される欧州系の活字書体において、文字とワードは通常白色空間によって分離されるが、ワード内及びワード間の白色空間の量と分布が非常に変化しやすい。それはしばしば使用されるフォント(字体)により、人間によって認識できるほど正確に垂直である必要はなく、且つ意図的に省略されてもよい。極めて低コストの収縮のお陰で、概して、画像の活字書体や特定のラインの収縮が必要か否かを決定することは必要がないばかりか所望されもしない。しかしながら、上記のように、収縮のコストが高くなるような場合、このような情報を得ることができる。
【0050】
概して、ラインの最左から最右までの広がりは、ワードデリミタ(区切り記号)であると仮定される。ハイフォン付のワードは必要ならば下流処理によって再度組み立てられなければならないことが理解されるべきである。ラインの中で、有効な横幅の空間は、最初にライン内の成分の位置を見ることによって発見される。連結成分間の空間の分布は一般にバイモーダル(二つのモーダル)である。即ち、より少ないピークは文字間スペースと対応するが、より高いピークはワード間スペースと対応する。これらのピークの内の一つ又は両方が欠けることもあることが理解されよう。第1のケースにおいて文字間スペース(又はワード間スペース)が欠けている時、テキストはセットタイト("set tight" )にセット(狭い範囲で設定)されてもよい。つまり、テキストはカーニング(はみ出し文字)又は乏しい品質の画像によって文字と文字の間で検出可能なスペースを有さない。これは水平に収縮された境界ボックスの検査によって解決され得る。概して、水平収縮の処理に適用されるヒューリスティックは垂直収縮に対して上記の説明したものと全く同じである。第2のケースにおいて、ワード間スペースは単一ワードを含むライン上又はモノスペースで設定されるアジア系の活字書体のみからなるライン内には存在しない。
【0051】
次いで、空間(スペース)決定手段362は水平に収縮された連結成分において検出可能なスペースの分布を検査する。検出された最も高いピークは最も広いスペースを表す。そのスペースの水平位置が最初の(収縮される前の)連結成分内で発見された文字間(又はワード間)のピークの位置と対応しない場合、それがワードスペースである。それが文字間ピークの位置に対応する場合、ワードスペースがなく、そのラインがライン境界によって区切られた単一ワードを含むと仮定される。ワード境界間のスペースは、それがライン座標か又は連結成分の間隙のいづれから導出されようと、前準備のワードの寸法として使用される。上記に説明したライン境界決定に直接類似している処理において、ワード境界座標は、中心が前準備のワードの寸法内にある連結成分の全てを含むことによって決定される。
【0052】
画像のテキスト部分の各ラインが解析された後で、ワードスペース決定手段362は画像のテキストの各ラインにおける文字とワードのスペースを決定する。ワードスペース決定手段362は、各ラインの左右エッジを決定するためのライン拡がり決定手段3620、決定されたスペースの幅の分布を生成するためのスペース幅分布決定手段3622、及びスペースの幅の分布を解析するためのスペース幅分布解析手段3624を備える。スペース幅分布解析手段3624は、スペース幅分布内にピークを検出するための分布ピーク検出手段3626とワード間又はワード内スペースを表す検出されたピークを決定するための分布ピーク解析手段3628を備える。
【0053】
動作上、ラインの始まりと終りはワードの始まりと終りであると仮定される。次いで、ラインの中では、連結成分同士の間の水平に収縮されたテキスト内のスペースが検出され、且つスペースの幅の分布曲線が生成される。スペースの幅は左に隣接した連結成分の最右エッジと右に隣接した連結成分の最左エッジの間の距離として測定される。概して、分布曲線は、ワード内の文字間の狭いスペースと、ワード間の広いスペースを表すピークを有するバイモーダルである。勿論、一つのピーク又は両ピークが欠けていることも可能である。ワード内スペースを表すより低いピークが見つからない場合、テキストは「セットタイト」されてもよい。スプレイされない(拡げられない)テキスト部分の分布曲線の最も高いピークは水平にスプレイされたテキスト部分の分布曲線と比較される。そのピークが文字間セルスペースと対応していない場合、それはワードスペースである。トップピークが欠けている場合即ちワード間スペースと対応している場合、それはテキストのラインが単一ワードから成ることを意味する。
【0054】
各ワードの空間的境界内で文字セルが分離される。収縮された境界ボックスの水平プロファイルが生成される。収縮された境界ボックス同士の間の白色空間の垂直パスは、ワードをラインボトムからライントップへ延出し且つ文字間スペースによって左及び右側へ境界付けされた前準備用文字セルへ分割する。これらの前準備用セルは後で要素連結成分を含むように拡大されることが理解されよう。ダブルクォーツ文字、漢字、及びハングル文字のように文字が水平に離されている少数の例において、1文字当たり一つより多くの文字セルが生成されることが理解されよう。水平収縮後の境界ボックスが図5に示されている。図3の(a)〜(c)と比較すると、"Avenue"における"Av"におけるように、先にはみ出したペア(kerned pair )の分割が簡単に実行されることが容易に判断できる。
【0055】
図3の(a)及び(b)のサンプルテキストに示したように、"Fuji"の"uj"や"Avenue"の"Av"のような境界ボックスのオーバーラップ(重なり)を生じるペアカーン(対のはみ出し文字)が頻繁に発生し且つ簡単に補正される。しかしながら、幾つかのフォント(字体)において、図6の(a)の"Confidence"における"fi"のような意図的な合字(リガチュア)又は連結成分のオーバーラップが生じる。本発明の好ましい実施例においては、水平収縮手段360は隣接境界ボックスの間のあらゆるオーバーラップを取り除くためにテキスト部分の各ラインを水平に収縮する。次いで、各水平に収縮されたラインは、図6の(b)に示したように、ライン内に存在する残りのリガチュアを検出するために解析される。検出されたリガチュアが識別された後、これらは多くても一つの分割点を検出するように解析される。連結成分内の分割点が検出されたら、リガチュアは二つの連結成分へ分割される。これらの二つの新しい連結成分をさらに収縮した後、現在ラインの連結成分が再チェックされて、他にリガチュアが残っているか否かを決定する。
【0056】
境界ボックスの意図的でないオーバーラップは単に収縮することによって取り去られるが、水平収縮は連結成分間の意図的又は非意図的なリガチュアを取り去ることが不可能である。これらのリガチュアは、これらが単一の連結成分であると識別されると、単一境界ボックスによって表現される。
【0057】
リガチュアを分離するため、ストローク(線)幅決定手段364は、テキストのライン毎にそのラインに対する表現的ストローク幅Sw を決定する。平均ストローク幅は特定のテキストラインと対応する複数の連結成分内に存在するランレングスのモーダル値を検出することによって決定される。ストローク幅決定手段364は、所定の幅に渡って広い連結成分を検出するためのワイド連結成分検出手段3640と、各ワイド連結成分のコスト分布を生成するためのコスト分布生成手段3642と、コスト分布内で最小値を検出するためのコスト最小値検出手段3644と、単一連結成分を検出された最小値において二つの連結成分へ分割するための連結成分分割手段3646を備える。
【0058】
動作上、代表的ストローク幅Sw の3倍を超える幅CW を有するライン内の各連結成分が識別され且つ処理される。ストローク幅Sw の少なくとも3倍の幅CW を有する連結成分を処理するため、この連結成分の各コラム(列)が各隣接コラムとAND演算され、且つAND演算されたコラムの「オン」画素の数が決定されて、且つ連結成分より1画素狭いコスト分布を生成する。コスト分布は次いで最小値を検出するために解析される。代表的ストローク幅Sw より少ない値を有し且つストローク幅Sw の1.5倍を超えて対応する境界ボックスの左境界の右側であって右境界の左側へ位置された多くとも最小値1(同じ値を有する二つの又はそれより多くの最小値がある場合、最も左の最小値が好ましい)に対して連結成分は二つの連結成分へ分割される。これは、全ての断片が再チェックされ且つ必要ならば再分割されるまで、結果的に生じた断片ごとに再帰的に用いられる。図7の(b)に示したように、"Confidence"における"fi"のようにリガチュアが意図的である場合、最小値が発見されないことが頻発する。この場合、リガチュアは単一文字として処理される。
【0059】
本発明の方法及び装置が統計に基づいているので、これらは非常にロバストであり且つ非常に低い品質で印刷され及び/又は走査された文書にも耐えることができる。即ち、ディジタルデータ信号又はこのディジタル信号から生成された連結成分が、文書の全ての文字を完全に表現することは必要ではない。本発明は、むしろ、単一連結成分の文字を二つ又はそれより多くの連結成分へ分割したり又は二つ又はそれより多くの分離した連結成分を単一連結成分へ併合したりするような一般的な走査エラーに耐えることが可能である。
【0060】
水平に収縮されたテキストは、次いで、テキストの各ライン内に文字セルを生成するための文字セル生成手段38へ出力される。一つ又はそれより多くの垂直に位置合わせされた(即ち水平にオーバーラップしている)連結成分のセット毎に、収縮されない連結成分を囲む文字セルが、文字セル生成手段38によって形成される。各文字セルの寸法は、テキストの対応するラインのトップ位置からボトム位置まで、即ち図11に示したように文字セルの連結成分の最も左の位置から文字セルの連結成分の最も右の位置まで拡がる。
【0061】
上記に説明された活字書体(スクリプト)決定システムの動作の単純化されたフローチャートが図9及び図10に示されている。ステップS100において、システムがスタートし、且つステップS110において文書が走査されて、ディジタルデータ信号を発生する。ステップS120において、ディジタル画像データ信号の連結成分が識別される。ステップS130において、決定された各連結成分ごとに境界ボックスが生成される。ステップS140においてテキスト配向を決定し且つステップS150において主要画像軸を決定することによって、画像がクリーンアップされる。次いで、ステップS160において、主要画像軸とスキューしているあらゆる残りのラインが主要画像軸と位置合わせされる。さらに、ステップS170において、回転による補正を必要とするあらゆる文字が、これらの文字は主要画像軸と最大限に位置合わせされるように回転される。次いで、ステップS180において、あらゆるワープされたテキストラインがモーダルベースラインと反復的に位置合わせされる。
【0062】
ステップS190において、テキスト部分は垂直に収縮される。ステップS200において、テキストのラインは収縮されたテキストから識別される。ステップS210において、各ラインの垂直プロファイルが生成され、且つステップS220において、トップ、ボトム、最左、最右、及び(恐らくは)x−ハイトの位置が既に決定されたベースラインに相対して決定される。ステップS230において、各ラインに対応する連結成分と境界ボックスが識別される。
【0063】
次いで、ステップS240において、オリジナル画像の各ラインが水平に収縮される。ステップS250においてモーダルストローク幅がライン毎に決定され、且つステップS260においてテキスト部分内の可能性のあるリガチュアが検出される。ステップS270において、検出されたリガチュアは、それらの要素の独立連結成分へ再帰的に分割される。ステップS280において、各ライン内の文字及びワードのスペースが識別される。ステップS290において、各ラインの文字セルが識別され且つそれらの寸法が決定される。ステップS300においては、文字セル、対応境界ボックス、及び連結成分のリストが出力される。次いで、ステップS310において処理が終了する。
【0064】
【発明の効果】
本発明はテキストライン、ワード、及び文字セルの特徴認識能力を有する改良された光学的文字認識システムを提供する。
【図面の簡単な説明】
【図1】光学的文字認識システムを示すブロック図である。
【図2】図2の(a)は、スキューが取り除かれる前のスキューされたサンプルテキスト部分を示す図である。
図2の(b)は、スキューが取り除かれた後のスキューされたサンプルテキスト部分を示す図である。
【図3】図3の(a)は、サンプルテキスト部分を示す図である。
図3の(b)は、境界ボックスへ変換された後のサンプル部分を示す図である。
図3の(c)は、垂直収縮後のサンプル部分を示す図である。
【図4】図4の(a)は、ワープが最初に取り除かれる前のワープされたサンプルテキスト部分を示す図である。
図4の(b)は、ワープが最初に取り除かれた後のワープされたサンプルテキスト部分を示す図である。
図4の(c)は、ディセンダがベースラインに位置合わされた後のワープされたサンプルテキスト部分を示す図である。
【図5】水平収縮後の図3の(b)のサンプルテキスト部分を示す図である。
【図6】図6の(a)は、水平収縮前の第2のサンプルテキスト部分を示す図である。
図6の(b)は、水平収縮後の第2のサンプルテキスト部分を示す図である。
【図7】図7の(a)は、連結成分の分割前の第2のサンプルテキスト部分を示す図である。
図7の(b)は、連結成分の分割後の第2のサンプルテキスト部分を示す図である。
【図8】テキストラインの相対位置を表すテキストストリングを示す図である。
【図9】本発明の空間特徴決定方法を示すフローチャートである。
【図10】本発明の空間特徴決定方法を示すフローチャートである。
【図11】文字セルや境界ボックスが表示されている図6のテキストサンプルを示す図である。
【符号の説明】
110 スキャナ
112 メモリ
114 汎用ディジタルコンピュータ

Claims (8)

  1. 文書画像のテキスト部分のテキスト特徴を決定するための自動テキスト特徴決定システムであって、
    前記テキスト部分を表すディジタルデータ信号を入力するための入力手段を有し、前記ディジタルデータ信号が複数の信号部分を備え、且つ各信号部分が前記文書画像の複数の画素の内の一つに対応しており、
    前記複数の信号部分から複数の連結成分を生成するための連結成分生成手段を有し、
    前記連結成分を解析軸と位置合わせするための位置合わせ手段を有し、位置合わせ手段はテキストの行ごとに決定される基線を解析軸と配向が一致するように位置合わせし、かつ、各行のワープされた連結成分を基線に位置合せする手段を含み、
    複数の境界ボックスを生成するための境界ボックス生成手段を有し、各境界ボックスが前記複数の連結成分の内の対応する一つの連結成分を取り囲み、
    前記テキスト部分のテキストの各行は前記複数の連結成分の内の少なくとも一つを備えていて、前記テキストの各行の空間特徴を決定するためのライン空間特徴決定手段を有し、ライン空間特徴決定手段は、テキスト部分から、垂直に収縮されたテキスト部分を生成する垂直収縮手段と、収縮されないテキスト部分の垂直プロファイルを生成する垂直プロファイル手段とを備える、
    自動テキスト特徴決定システム。
  2. 文書画像のテキスト部分のテキスト特徴を決定するための自動テキスト特徴決定システムであって、
    前記テキスト部分を表すディジタルデータ信号を入力するための入力手段を有し、前記ディジタルデータ信号が複数の信号部分を備え、且つ各信号部分が前記文書画像の複数の画素の内の一つに対応しており、
    前記複数の信号部分から複数の連結成分を生成するための連結成分生成手段を有し、
    前記連結成分を解析軸と位置合わせするための位置合わせ手段を有し、位置合わせ手段はテキストの行ごとに決定される基線を解析軸と配向が一致するように位置合わせし、かつ、各行のワープされた連結成分を基線に位置合せする手段を含み、
    複数の境界ボックスを生成するための境界ボックス生成手段を有し、各境界ボックスが前記複数の連結成分の内の対応する一つの連結成分を取り囲み、
    前記テキスト部分のテキストの各行は前記複数の連結成分の内の少なくとも一つを備えていて、前記テキストの各行の空間特徴を決定するためのライン空間特徴決定手段を有し、ライン空間特徴決定手段は、各行の文字とワードのスペースを決定するワードスペース決定手段を備える、
    自動テキスト特徴決定システム。
  3. 前記ワードスペース決定手段は、テキスト部分の各行を水平に収縮する水平収縮手段を備える、請求項2記載の自動テキスト特徴決定システム。
  4. 前記ワードスペース決定手段は、水平に収縮されたテキストのテキスト部分の各行内に少なくとも1つの文字セルを生成するための文字セル生成手段を備え、各文字セルは、テキスト部分の少なくとも1つの垂直に位置合わせされた連結成分のグループを含む、請求項3記載の自動テキスト特徴決定システム。
  5. 文書画像のテキスト部分のテキスト特徴を決定するための自動テキスト特徴決定システムであって、
    前記テキスト部分を表すディジタルデータ信号を入力するための入力手段を有し、前記ディジタルデータ信号が複数の信号部分を備え、且つ各信号部分が前記文書画像の複数の画素の内の一つに対応しており、
    前記複数の信号部分から複数の連結成分を生成するための連結成分生成手段を有し、
    前記連結成分を解析軸と位置合わせするための位置合わせ手段を有し、前記位置合わせ手段は、
    前記テキスト部分の連結成分の主テキスト方向を決定するためのテキスト配向決定手段と、
    前記テキスト部分の連結成分の主テキスト方向を解析軸に位置合せし、それによりテキスト配向を解析軸に位置合わせするための軸位置合せ手段と、
    前記テキスト部分の連結成分のスキューした部分およびワープした部分を解析軸に位置合せするためのライン位置合せ手段とを有しており、
    複数の境界ボックスを生成するための境界ボックス生成手段を有し、各境界ボックスが前記複数の連結成分の内の対応する一つの連結成分を取り囲み、
    前記テキスト部分のテキストの各行は前記複数の連結成分の内の少なくとも一つを備えていて、前記テキストの各行の空間特徴を決定するためのライン空間特徴決定手段を有し、ライン空間特徴決定手段は、テキスト部分から、垂直に収縮されたテキスト部分を生成する垂直収縮手段と、収縮されないテキスト部分の垂直プロファイルを生成する垂直プロファイル手段とを備える、
    自動テキスト特徴決定システム。
  6. 文書画像のテキスト部分のテキスト特徴を決定するための自動テキスト特徴決定システムであって、
    前記テキスト部分を表すディジタルデータ信号を入力するための入力手段を有し、前記ディジタルデータ信号が複数の信号部分を備え、且つ各信号部分が前記文書画像の複数の画素の内の一つに対応しており、
    前記複数の信号部分から複数の連結成分を生成するための連結成分生成手段を有し、
    前記連結成分を解析軸と位置合わせするための位置合わせ手段を有し、前記位置合わせ手段は、
    前記テキスト部分の連結成分の主テキスト方向を決定するためのテキスト配向決定手段と、
    前記テキスト部分の連結成分の主テキスト方向を解析軸に位置合せし、それによりテキスト配向を解析軸に位置合わせするための軸位置合せ手段と、
    前記テキスト部分の連結成分のスキューした部分およびワープした部分を解析軸に位置合せするためのライン位置合せ手段とを有しており、
    複数の境界ボックスを生成するための境界ボックス生成手段を有し、各境界ボックスが前記複数の連結成分の内の対応する一つの連結成分を取り囲み、
    前記テキスト部分のテキストの各行は前記複数の連結成分の内の少なくとも一つを備えていて、前記テキストの各行の空間特徴を決定するためのライン空間特徴決定手段を有し、ライン空間特徴決定手段は、各行の文字とワードのスペースを決定するワードスペース決定手段を備える、
    自動テキスト特徴決定システム。
  7. 前記ワードスペース決定手段は、テキスト部分の各行を水平に収縮する水平収縮手段を備える、請求項6記載の自動テキスト特徴決定システム。
  8. 前記ワードスペース決定手段は、水平に収縮されたテキストのテキスト部分の各行内に少なくとも1つの文字セルを生成するための文字セル生成手段を備え、各文字セルは、テキスト部分の少なくとも1つの垂直に位置合わせされた連結成分のグループを含む、請求項7記載の自動テキスト特徴決定システム。
JP00996795A 1994-02-04 1995-01-25 自動テキスト特徴決定システム Expired - Fee Related JP3796276B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/191,895 US5513304A (en) 1993-04-19 1994-02-04 Method and apparatus for enhanced automatic determination of text line dependent parameters
US191895 1994-02-04

Publications (2)

Publication Number Publication Date
JPH07225812A JPH07225812A (ja) 1995-08-22
JP3796276B2 true JP3796276B2 (ja) 2006-07-12

Family

ID=22707346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00996795A Expired - Fee Related JP3796276B2 (ja) 1994-02-04 1995-01-25 自動テキスト特徴決定システム

Country Status (1)

Country Link
JP (1) JP3796276B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6640010B2 (en) * 1999-11-12 2003-10-28 Xerox Corporation Word-to-word selection on images
US10169650B1 (en) * 2017-06-30 2019-01-01 Konica Minolta Laboratory U.S.A., Inc. Identification of emphasized text in electronic documents
CN111563511B (zh) * 2020-04-30 2023-11-14 广东小天才科技有限公司 一种智能框题的方法、装置、电子设备及存储介质
CN113033543B (zh) * 2021-04-27 2024-04-05 中国平安人寿保险股份有限公司 曲形文本识别方法、装置、设备及介质

Also Published As

Publication number Publication date
JPH07225812A (ja) 1995-08-22

Similar Documents

Publication Publication Date Title
US5513304A (en) Method and apparatus for enhanced automatic determination of text line dependent parameters
EP0621554B1 (en) Method and apparatus for automatic determination of text line, word and character cell spatial features
EP0138445B1 (en) Method and apparatus for segmenting character images
JPH0721319A (ja) 自動アジア言語決定装置
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
EP0621555A2 (en) Method and apparatus for automatic character type classification of european script documents
US8600175B2 (en) Apparatus and method of processing image including character string
JP6665595B2 (ja) 文字認識装置、方法およびプログラム
JP5049922B2 (ja) 画像処理装置及び画像処理方法
JP3796276B2 (ja) 自動テキスト特徴決定システム
US7142733B1 (en) Document processing method, recording medium recording document processing program and document processing device
US10911636B2 (en) Image inclination angle detection apparatus that detects inclination angle of image with respect to document, image forming apparatus, and computer-readable non-transitory recording medium storing image inclination angle detection program
JP3852218B2 (ja) 画像処理方法および画像処理装置
EP0476873B1 (en) Method of and apparatus for separating image regions
JP3187895B2 (ja) 文字領域抽出方法
JP4635845B2 (ja) Ocr装置、フォームアウト方法及びフォームアウトプログラム
JP3147281B2 (ja) アンダライン抽出方法
JPH04266185A (ja) 文字のライン化方式
JP2007249580A (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
JP2000067158A (ja) 文書画像処理方法および文書画像処理方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体
JP3071479B2 (ja) 行間スペース検出方法
JP3373068B2 (ja) 光学式文字認識装置
JPH0728934A (ja) 文書画像処理装置
JPH04241074A (ja) 自動文書清書装置
JP2007213325A (ja) 画像処理装置、画像処理方法、及び、画像処理プログラム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040825

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041013

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20041112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060417

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090421

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100421

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110421

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120421

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120421

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130421

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees