JP3359095B2

JP3359095B2 - 画像処理方法及び装置

Info

Publication number: JP3359095B2
Application number: JP12188393A
Authority: JP
Inventors: ワングシン・ヤン; アール．バエズィーメザードゥ; エー．シェリッククリストファー
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1992-04-24
Filing date: 1993-04-26
Publication date: 2002-12-24
Anticipated expiration: 2017-12-24
Also published as: EP0567344B1; DE69332459T2; DE69332459D1; US5680479A; US6115497A; US6081616A; JPH0668301A; EP0567344A3; US5680478A; EP0567344A2

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字認識方法及び装置
に関わるものであり、特に認識処理に先立って、画像デ
−タに基づいて画像データブロックを分類・選別する方
法や装置に関するものである。例えば、画像データがテ
キスト画像データであるか、中間調（あるいはグレース
ケール）画像，線画及びフレームなどのような非テキス
ト画像であるかに応じて、画像データブロックを選別し
て分類するものである。また、本発明は、認識処理への
準備として、テキストブロックからテキストラインを識
別して分割し、次にテキストライン中の個々の文字を識
別してライン中の他の文字から切り出す方法や装置にも
関するものである。

【０００２】尚、本出願は付録のコンピュ−タプログラ
ム（図３５〜図２４７参照）とともに提出される。本明
細書の開示の一部には、著作権保護に関係するものが含
まれている。著作権者は、特許・商標庁の特許ファイル
あるいは記録なので本出願の開示文書がファクシミリ再
生されることに対しては異議を唱えないが、そうでない
場合にはすべての著作権を留保するものとする。

【０００３】

【従来の技術】近年、テキストデータ画像を分析してテ
キストデータ中の個々の文字を認識し、認識された文字
に対応してコンピュータが理解可能な文字コ−ドファイ
ルを生成することが可能になってきた。ここで得られた
ファイルは、ワードプロセッシングやデータプロセッシ
ングのプログラムで操作を加えることができる。以下
「文字認識システム」と呼ぶことにするこのようなシス
テムの利点は、テキストデータを再タイプしたり、ある
いは再入力する必要がないことである。例えば、ファク
シミリで送られてきた文書や、マイクロフィルムや複写
機で再生された文書を文字認識して、文書中の文字や数
字を文字コ−ド（例えばアスキーコードコード）からな
るコンピュータテキストファイルとして生成することに
より、文書の再タイプや再入力をせずに、文書をワード
プロセッシングやデータプロセッシングすることができ
る。

【０００４】文字認識すべき文書にはさまざまな種類の
画像が含まれることが多く、すべてが認識可能というわ
けではない。例えば、テキスト画像データの認識は現在
でも可能であるが、非テキスト画像データの認識は不可
能である。一般に、文字認識すべき文書には、テキスト
画像データブロックと中間調画像，線画及び線などの非
テキスト画像データブロックとが含まれる。また、文書
には、フレームで囲まれていたり囲まれていなかったり
する表や表形式のデータなども含まれる。したがって、
文字認識処理に先立って、ブロック中の画像データの種
類に応じて文書中の個々のブロックを分類し、画像デー
タからテキストタイプのブロックを選別することが必要
となる。

【０００５】図３２は典型的な文書の１ペ−ジの例を示
す図である。図３２において、文書ページ４０１は２段
組のフォーマットで構成されている。ページには、タイ
トルに適した大きなフォントサイズのテキスト情報が含
まれるタイトルブロック４０２、テキストデータライン
を含むテキストブロック４０４、テキストではないグラ
フィックス画像を含むグラフィックスブロック４０５、
テキストや数字情報の表を含む表ブロック４０６、小さ
なサイズのテキストデータでグラフィックスブロックあ
るいは表ブロックに対する見だしが含まれる見だしブロ
ック４０７が存在する。各情報ブロックはブロック内の
情報の種別に応じて分類され、この分類結果に基づいて
ブロックが分割される。

【０００６】画像データからテキスト型のブロックを検
出するため、従来は、画像データ中の黒画素を隣接する
１つあるいは複数の白画素にまで水平方向・垂直方向に
膨張させて、水平方向・垂直方向に画素画像データを塗
りつぶす手法を用いていた。このような塗りつぶし法の
欠点としては、適切な塗りつぶしパラメータを選択する
ために、前もってテキスト型の画像データ中の特徴（例
えばフォントサイズなど）を知らなければならないこと
が挙げられる。また、塗りつぶしパラメータの僅かな変
更が、選別結果の大幅な変化につながるという問題もあ
る。さらに、塗りつぶし法では、必ずしも原文書の内部
構造が保存されるとは限らない。例えば、塗りつぶし法
では、２段組の原文書が１段に塗りつぶされてしまうこ
とがある。このような場合には、テキストデータの格納
順序がばらばらになってしまい、原テキストの正確な再
生が不可能という問題が生じる。この他、テキスト型の
データが非テキスト型のデータまで塗りつぶして、全領
域をテキスト型のデータと誤って解釈してしまう場合
も、塗りつぶし法ではしばしば生じる。

【０００７】ブロック選別に続いて、文書中の文字ごと
に文字認識処理を行い、文字に対応するコンピュータコ
ードを得る。ここで、文字ブロックから個々の文字を得
るには、２つの処理を行う。第１段の処理では、タイト
ルブロック２０２，テキストブロック２０４，見だしブ
ロック２０７などの各テキストブロック中の個々のライ
ンが、テキストブロック中の他のラインから分割され
る。一般に、ライン分割は、各ブロック中の画素密度を
水平投影してライン間のギャップを識別することで行わ
れる。すなわち、図３３Ａに示すように、テキストブロ
ック４０４は間にギャップ４１２を有するテキストライ
ンからなる。画素密度の水平投影４１４は、ブロック４
０４の各ライン上の黒画素数の総和として求められる。
テキストラインは投影４１４中で密度が非ゼロの領域に
対応し、テキストライン間のギャップは投影４１４中の
密度がゼロの領域に対応する。したがって、投影密度に
基づいて、テキストラインを各ラインごとに分割するこ
とができる。

【０００８】第２段の処理では、分割されたテキストラ
イン中の個々の文字がテキストライン中の他の文字から
切り出される。すなわち、図３４Ａに示すように、テキ
ストライン４１１には個々の文字が含まれる。テキスト
ラインにおいて各文字を他の文字から切り出すために、
ラインセグメント４１１の各列ごとに黒画素数の垂直方
向の総和を求め、画素密度の垂直投影４１６を得る。文
字４１５は投影４１６中で密度が非ゼロの領域に対応
し、文字間のギャップは投影４１６中で密度がゼロの領
域に対応する。こうして、個々の文字がラインセグメン
ト中の他の文字から切り出される。

【０００９】このような処理においてはいくつかの問題
点が存在する。例えば、文書が斜めに画像スキャナに入
力され、図３３Ｂに示すように傾斜角θｓで画像メモリ
に格納される場合が多いが、このような場合には、第１
ライン４１８のテキストが第２ライン４１９のテキスト
とライン４２０で重なってしまうため、必ずしもライン
分割が可能であるとは限らない。すなわち、画素密度の
水平投影４２１は非ゼロ値のみとなり、ゼロ値が存在し
ないためライン間のギャップの検出が不可能になる。

【００１０】このような問題点に鑑みて、テキストブロ
ック４０４を図３３Ｃに示すような複数の列４２２，４
２４に分割して、各列ごとに独立に水平投影を得る手法
が用いられている。すなわち、図３３Ｃに示すように、
水平投影４２２ａは列４２２に対応し、水平投影４２４
ａは列４２４に対応するものである。各列でテキストラ
インが重なっていなければ、各列中のテキストラインの
検出が可能となる。図３３Ｃでは２列に分割する例を示
しているが、一般には５列から１０列に分割し、テスト
で最大傾斜角θｓまでの傾きを有していても、ブロック
中の他のラインから個々のラインの分割が可能であるよ
うにしている。

【００１１】しかし、各列ごとに水平画素投影を得なけ
ればならず、またこのようにして得た各水平画素投影も
個々に処理しなければならないため、ライン分割処理が
きわめて時間のかかる処理となる。また、最大傾斜角θ
ｓの文書にまで対応しなければならないため、傾斜角が
小さくて１列あるいは数列への分割で十分である多くの
文書に対しても、すべての列を処理しなければならず、
この点でも時間のかかる処理となっている。上記のよう
な２段階処理のもう１つの問題は、個々の文字をライン
セグメント中の他の文字から切り出す第２段の処理にお
いて生じる。

【００１２】すなわち、文字間に垂直な空間が存在する
場合には、図３４Ａに示したような処理で良好な結果が
得られるが、文字が垂直方向に重なっていた場合や２つ
あるいは複数の文字が接触している場合には、文字分割
処理を適切に行うことができない。イタリックフォント
の場合や、複数回の複写処理やファクシミリ送信によっ
て画像品質が劣化している場合など、このような状況に
陥る可能性は高い。例えば、図３４Ｂに示すように、イ
タリックテキストでは単語「Ｓａｔｉｓｆｙ」中の文字
「ｆ」と「ｙ」とが垂直方向に重なっており、画素密度
の垂直投影４２５が文字間でゼロにならないことがあ
る。そのため、文字「ｆ」と「ｙ」とを分離することは
できない。また、文字「ｔ」と「ｉ」も接触しているた
め、同様にこれら２つの文字の分離も不可能である。

【００１３】

【発明が解決しようとしている課題】本発明は、前記従
来の欠点を除去し、高速かつ正確に文書上の文字を認識
してテキストファイルを作成する文字認識方法及び装置
を提供する。また、高速かつ正確に文書上のテキストと
非テキストとを選別して、テキストブロックを割り出す
方法及び装置を提供する。

【００１４】また、高速かつ正確に文書上の非テキスト
を分類する方法及び装置を提供する。また、高速かつ正
確にテキストブロックからテキストラインを分割する方
法及び装置を提供する。また、高速かつ正確に傾いた文
書のテキストブロックからテキストラインを分割する方
法及び装置を提供する。

【００１５】また、高速かつ正確にテキストラインから
文字を切り出す方法及び装置を提供する。また、不適切
に切り出された文字の再切り出しが可能な方法及び装置
を提供する。

【００１６】

【課題を解決するための手段】この課題を解決するため
に、本発明の文字認識方法及び装置は以下の構成を含
む。画素画像データが入力され、２値の画素画像データ
でない場合は２値の画素画像データに変換される。

【００１７】画素画像データのブロックが、画素画像デ
ータ内で連結要素の輪郭を追跡し、連結要素がテキスト
要素を含むか非テキスト要素を含むかを連結要素のサイ
ズに基づいて決定し、隣接するテキスト要素の近接状態
に基づいてテキスト要素を選択的に連結してテキストラ
インを形成し、隣接するテキストラインの近接状態とテ
キストライン間の非テキスト要素の位置とに基づいてテ
キストラインを選択的に連結することにより、選別され
る。階層的木構造が連結要素に基づいて形成される。

【００１８】テキストブロックは、段の全域での画素密
度の水平投影に基づいてテキストブロックを少なくとも
１つのラインに分割することで、テキストラインに分割
され、非接触で重なっていない文字を切り出す第１の切
り出しと接触文字間を切り離す第２の切り出しとの２回
の切り出しで、文字が分割されたラインから切り出され
る。切り出された文字は認識され、認識に基づいて文字
コードが割り当てられる。文字コードは階層的木構造に
よる確定された順でコンピュータのテキストファイル内
に格納される。

【００１９】必要ならば、非テキスト要素は階層的木構
造により確定された順に対応して格納された文字コード
の間に散在してもよい。画素画像データは例えば画像圧
縮や画質向上等の前処理をされ、認識された文字は例え
ば文脈チェック等の後処理をされてもよい。非テキスト
要素の特徴に基づいて、非テキスト要素に識別子が付与
される。例えば、非テキスト要素の内部で白輪郭の追跡
が行なわれ、非格子状配置の白輪郭が再連結されて、白
輪郭の充填率が計算されて、白輪郭の数、非格子状配置
の白輪郭の再連結率、あるいは白輪郭の充填率等に基づ
いて、非テキスト要素には表の識別子が付与される。

【００２０】非接触で重なっていない文字の切り出し
は、ラインセグメントへのとびとびの処理で達成され、
接触文字の切り離しは、接触文字間の空間に関する情報
が既知か否かに対応して達成される。空間に関する情報
が既知の場合は、空間の統計値に基づいて切り出しが達
成される。空間に関する情報が無い場合、接触文字間の
切り離しは、回転された投影によって決められた角度と
位置で接触文字を斜めに切り離すように、画素密度の回
転投影に対応して達成される。不適切に切り出された文
字は再接続される。

【００２１】

【実施例】本発明は、複写機，ファクシミリ，ビデオカ
メラあるいはスチルビデオカメラ，レーザビームプリン
タなどの画像処理装置あるいは画像再生装置などのよう
な、文字認識処理が望まれるさまざまな装置において実
施可能である。このような装置においては、文字画像を
有する画像を、文字画像が文字認識されるように処理あ
るいは再生する。この際、認識した文字画像を標準文字
セットあるいはフォントに替えて、原文字画像ではなく
標準文字を再送あるいは再生することもできる。また、
本発明は、汎用コンピュータや、パーソナルコンピュー
タ，ワードプロセッシングあるいはデータプロセッシン
グ機器などのオフィス機器や、複数のビジネス機器を単
一の統合パッケージにまとめた統合オフィス自動機器な
どにおいても実施可能である。

【００２２】図１は、スキャン，ファクシミリ，情報送
受信，情報処理（ワードプロセッシングやデータプロセ
ッシングなどの処理をも含む）などの機能を有する統合
オフィス自動機器として、本発明の一実施例を示すブロ
ック図である。図１に示す装置において、画像の入力
は、ファクシミリ送信による入力、原文書のスキャンに
よる入力、モデムを介して離れた地点からの入力などで
行われる。本実施例によれば、画像中の文字を認識し、
認識文字のコンピュータテキストファイルを生成し、装
置内のワードプロセッシング，スプレッドシート処理な
らびに他の情報処理機能を利用してテキストファイルの
修正を行うことができる。この処理に続いて、修正され
たテキストファイル（あるいは無修正のテキストファイ
ル）の再送や、音声合成技術を用いてテキストファイル
のスピーカや通常の音声電話への「話しかけ」などによ
る出力が行われる。

【００２３】図１において、プログラム可能なマイクロ
プロセッサなどの中央処理ユニット（ＣＰＵ）１０はバ
ス１１に接続されている。また、画像を画素ごとにスキ
ャンして画像メモリ（例えば、以下で示すＲＡＭ２０）
に蓄積するスキャナ１２、デジタルデータを電話線１５
ａを通してアナログ形式で送受信するモデム１４、画像
データを電話線１５ｂを通して送受信するファクシミリ
１６（不図示の電話を含むこともある）なども、バス１
１に接続される。なお、電話線１５ａと１５ｂとは同一
の線であって、不図示のネットワーク制御ユニットで制
御されるものでも良い。さらに、バス１１には、ＣＰＵ
１０によって実行される１つあるいは複数のコンピュー
タプログラムを蓄えるリードオンリメモリ（ＲＯＭ）１
７、認識処理において入力文字と比較する文字の辞書を
保持している文字辞書１９、入力画像データ，処理画像
データならびに画像の構造などの情報を蓄えるランダム
アクセスメモリ（ＲＡＭ）２０、文字認識処理において
文字の認識結果を出力する出力装置２１（ディスクメモ
リ，スピーカあるいは音声電話線インタフェースを有す
る音声合成装置など）、装置によって処理された画像を
表示するプリンタ／ディスプレイ２２、オペレータが装
置を操作するためのキーボード２４なども接続される。

【００２４】なお、ここでは、バス１１に接続された装
置が協調して統合オフィス自動機器を構成しているが、
これらの装置のうちのいくつかあるいはすべてが単独で
用いられることも可能なことは明らかであろう。スキャ
ナ１２，モデム１４及びファクシミリ１６は、画像デー
タを装置に入力するための種々の入力手段である。スキ
ャナ１２では、原画像はラインごと画素ごとにスキャン
され、ＣＰＵ１０の制御のもとで画像データの画素はＲ
ＡＭ２０中の画像メモリにビットマップ形式で蓄えられ
る。モデム１４では、電話線１５ａを介してアナログ形
式で受信した画像データがデジタル画素形式に変換さ
れ、デジタル画素データはＲＡＭ２０中の画像メモリに
蓄えられる。ファクシミリ１６では、電話線１５ｂを介
して修正ハフマンランレンクス符号などの符号形式で受
信した圧縮画像データを、ファクシミリ１６において従
来手法でデジタル画像の画素データに復号して、ＣＰＵ
１０によって画像データの画素はＲＡＭ２０中の画像メ
モリにビットマップ形式で蓄えられる。ここで、他の画
像入力手段を用いることはもちろん可能で、ディスクメ
モリなどの大容量の蓄積メディアから画像データを取り
出したり、ビデオカメラあるいはスチルビデオカメラか
ら入力することもできる。

【００２５】ファクシミリ１６や出力装置２１は、文字
認識された画像データを装置から出力するための種々の
手段である。ファクシミリ１６では、本実施例に基づき
認識処理された文字画像が標準文字セットあるいはフォ
ントに変換され、装置から送信される。これにより、例
えば、文字画像を含む画像を受信して、文字画像を文字
認識し、再送に先立って認識文字を標準文字フォントに
変換することで、劣化画像の品質の改善を図ることがで
きる。

【００２６】モデム１４や出力装置２１は、画像データ
で認識された文字をＡＳＣＩＩコードなどで出力あるい
は蓄積するための種々の手段である。すなわち、文字は
装置（ディスクメモリなど）に蓄えられたり、モデム１
４を介して離れた地点に転送するために出力される。こ
の際、ＡＳＣＩＩコードをファクシミリ互換のフォーマ
ットに変換するなどの文字変換手段を設ければ、ファク
シミリ１６を用いることなくモデム１４を介して離れた
地点のファクシミリ機に転送を行うことができる。

【００２７】プリンタ／ディスプレイ２２は、本実施例
に基づく文字認識処理の流れの監視、ならびに文字認識
の各ステップの永久記録の出力および表示を行うための
手段である。キーボード２４は、図１の装置の動作に対
するオペレータの制御を可能にしている。図２は、本実
施例の文字認識処理のフローチャートである。図２に示
した処理ステップは、プログラムＲＯＭ１７に蓄えられ
ているコンピュータプログラムに基づいてＣＰＵ１０で
実行される。

【００２８】ステップＳ２０１において、画素単位の画
像データ（以下画素画像データ）は装置に入力され、Ｒ
ＡＭ１７に蓄えられる。画像データは画像を画素ごとに
表現したものである。この際、画素データは２値画素デ
ータ、すなわち黒ならびに白画像データであることが好
ましい。なお、画像データは、複数のグレイ階調値の１
つで各画素が表現される中間調画像であっても、画素色
を表わす複数ビットワードで各画素が表現されるカラー
画像データであっても良い。このような場合、すなわち
画素データが２値画素データでない場合には、非２値画
素データを２値画素データに変換するためのしきい値処
理をＲＡＭ２０に蓄積する前に行う必要がある。

【００２９】ステップＳ２０１で入力された画素画像デ
ータは、左上隅から右下隅に読み進められるようなポー
トレイト画像であることが好ましい。画像がポートレイ
ト画像でない場合、例えばランドスケイプ画像である場
合には、画素画像データをポートレイト型の画像に変換
する必要がある。この変換処理は、オペレータがキーボ
ード２４から画像データの変換を指示することで行うこ
とができる。

【００３０】ステップＳ２０２では、画像データの前処
理が行われる。一般に、前処理フィルターを用いて画像
データの画質を向上し、劣化した文字や画像を改善す
る。画質向上手法として適切な手法は、１９９１年１０
月４日出願の米国出願番号０７／７７１，２２０に示さ
れている。尚、ステップＳ２０２では、精度の劣化は避
けられないが、画素画像データ中の複数の画素を削除し
たり圧縮したりすることで、認識処理の高速化を図るこ
とも可能である。例えば、ｍ×ｎ画素ブロックの画素の
平均値を求め、この平均値でｍ×ｎ画素ブロックを代表
させることも可能である。

【００３１】ステップＳ２０３では、ブロック選択を行
って各セグメント画像中の画像データの型を調べ、ブロ
ック中の情報がテキスト情報か，グラフィックス情報
か，線画情報か，画像情報かなどを識別する。また、ブ
ロック選択ステップＳ２０３では、画像中の各部分を以
下のステップＳ２１２で示すような適切な順序で再生す
ることができるように、画像の階層的木構造をも生成す
る。この階層的木構造には、例えば、２段組の画像デー
タにおいて第１段のテキストから第２段のテキストに飛
んで読み進めることのないように、第１段のテキストの
後に第２段のテキストを再生できるような情報が含まれ
る。なお、ステップＳ２０３におけるブロック選択処理
については、以下でより詳細に説明する。

【００３２】ＲＡＭ２０に蓄えられた画像から第１の情
報ブロックが選択され、ブロック選択ステップＳ２０３
で判別されたブロック識別子に応じて、ステップＳ２０
４において選択されたブロックがテキストブロックであ
るかどうかが調べられる。第１ブロックがテキストブロ
ックでない場合には、処理をステップＳ２０５に進め、
次のブロックを選択してステップＳ２０４に戻る。

【００３３】ステップＳ２０４においてブロックがテキ
ストブロックである場合には、処理をステップＳ２０６
に進め、テキストブロックに対してライン分割処理を行
う。ライン分割処理では、テキストブロック中の個々の
テキストラインをテキストブロック中の他のテキストラ
インから分離して、以下に詳細に説明するように分離し
たラインごとに順々に処理を行う。ステップＳ２０７で
は、ライン中の各文字をライン中の他の文字から切り出
し、以下に詳細に説明するように個々の文字に対して文
字認識処理を行う。

【００３４】ステップＳ２０８では、文字ごとに各文字
の認識処理が行われ、既知の手法で文字辞書１９に蓄え
られている標準文字と各文字との比較処理が行われる。
文字辞書１９中の索引は一般には１つの文字に対応する
が、分離が難しいような文字列（例えば、「ｆｉ」）や
分離されやすい１文字（例えば「ｊ」）に対しては他の
索引が用意されることもある。すなわち、分離が難しい
ような接触文字ペアを辞書の索引とすることも、分離さ
れやすいような１文字中の部分を辞書の索引とすること
もある。比較処理に基づいて文字画像に対する識別子が
選択され、選択された文字識別子はＲＡＭ２０に蓄えら
れたり、出力装置２１に出力される。また、識別された
文字をプリンタ／ディスプレイ２２に表示することもで
きる。

【００３５】ステップＳ２０９では、テキストブロック
に対する処理が終了したかどうかが調べられる。処理が
終了していなければ、処理をステップＳ２０６（あるい
は適宜ステップＳ２０７）に戻し、ライン分割処理，文
字切り出し処理及び文字認識処理とを繰り返し行う。ブ
ロック処理が終了していれば、処理をステップＳ２１０
に進め、１ページ分の処理を終了したかどうかを調べ
る。１ページ分の処理が終了していなければ、処理をス
テップＳ２０５に戻し、ページ中の次ブロックを選択し
て処理を続ける。

【００３６】１ページ分の処理が終了していれば、処理
をステップＳ２１０からステップＳ２１１に進め、後処
理を実行する。後処理では、文脈チェックやスペルチェ
ックなどの処理を行い、文字認識ステップＳ２０８で認
識された文字識別子を、ステップＳ２０８のような個々
の文字ごとではなく文字の周囲の文脈に基づいて、全体
的な見地から修正する処理を行う。ステップＳ２１２で
は、ブロック選択ステップＳ２０３で定義された階層的
木構造に基づいて画像データが再生される。ページ再生
では画像データが適切な順序で配置される。例えば、脚
注はメインテキストから分離され、段は他の段と混ざる
ことなく順番に配置され、グラフィックスや線画はペー
ジ中の認識文字テキストの適当な位置に挿入される。こ
のようなグラフィックス画像や線画の見だしも図に隣接
して挿入される。この際、他の規則を用いることもで
き、例えばページの物理的再生ではなく、ページからテ
キストのみを抽出するという規則を用いることもでき
る。なお、このようなページ再生の規則は、装置の情報
処理機能を用いてユーザが定義できる。

【００３７】ステップＳ２１３では、再生されたページ
が出力装置２１などに蓄えられる。ここでは、ＲＯＭ１
７に蓄えられており、ＣＰＵ１０で実行される他の応用
プログラムを用いて、スプレッドシートやワードプロセ
ッシング処理などの情報処理を行うことができる。そし
て、処理された情報（あるいは適宜処理していない情
報）は、ファクシミリ１６やモデム１４などを用いて、
またはコンピュータテキストファイルを「しゃべる」音
声合成装置を用いた通常の音声電話を介してなどのさま
ざまな手段を用いて再送される。

【００３８】図３は、図２のステップＳ２０３のブロッ
ク選別処理を説明するための一般化した処理流れ図であ
る。ここで、ブロック選別処理は文字認識システムとは
別に利用可能であることに注意されたい。すなわち、画
像再生装置においてブロック選別処理を用いて、ある種
のブロックに対しては画像再生の第１の手法を施し、別
の種類のブロックに対しては画像再生の第２の手法を施
すといったことも可能である。

【００３９】ブロック選別の処理速度の向上を望む場合
には、ステップＳ３００で画像データを縮小する処理を
行う。画像データの縮小処理を行った場合には、ブロッ
ク選別処理は縮小画像に対して行われる。なお、この
際、図２の残りの文字認識処理（ステップＳ２０４から
ステップＳ２１３）に影響を及ぼさないように、ブロッ
ク選別処理終了時には、縮小前の画像データに対して選
択ブロックが割り当てられる。画像データ縮小処理は、
ｍ×ｍ画素ブロック中の黒画素の連結性を調べながら行
われる。例えば、３×３画素ブロック中に連結された黒
画素が２個ある場合には、３×３画素ブロックを１つの
黒画素に縮小する。逆に、３×３画素ブロック中に連結
された黒画素が２個ない場合には、３×３ブロックを１
つの白画素に縮小する。

【００４０】ステップＳ３０１では、画素画像を解析し
て連結された要素を検出し、連結要素をサイズや他の連
結要素との相対的な位置に応じて分類する処理を行う。
ここで、連結要素は白画素に完全に囲まれた黒画素のグ
ループである。すなわち、連結要素は、少なくとも１つ
の白画素で他の黒画素グループと完全に分離されている
黒画素グループである。図４を参照して以下で詳細に説
明するように、ステップＳ３０１では、連結要素を検出
して、連結要素から得たサイズ情報やいくつかの統計的
な値に基づいて各連結要素の分類を行う。

【００４１】まず、以下で詳細に説明するように、各連
結要素をテキスト要素か非テキスト要素かに分類する。
さらに、非テキスト部については、フレームデータであ
るか，中間調画像であるか，線画であるか，表あるいは
テキストデータを表のように構成したものであるか，あ
るいは未知の要素で分類不可能であるかなどを解析処理
して決定する。また、各連結要素ごとに階層的木構造を
構成して、連結要素の構造的な記述データを求め、ステ
ップＳ２１２で説明したようにデジタルデータの再生を
容易にする。

【００４２】ステップＳ３０２では、水平方向に近い位
置関係にあり、ギャップラインマーカを横切らないよう
な連結要素をラインとしてグループ化する。この際、ス
テップＳ３０１で作成した木構造を用いて、テキスト要
素と非テキスト要素とが不適切にグループ化されないよ
うにする。また、ステップＳ３０２では、段間で垂直方
向に伸びるギャップや非テキスト要素の垂直方向に伸び
る境界を検出して、テキスト要素を段ごとにまとめる。
ここで得られた段構造は階層的木構造に組み込まれ、適
宜木構造の更新が行われる。

【００４３】ステップＳ３０３では、ステップＳ３０２
でグループ化されたラインの内、垂直方向に近接するラ
インを垂直方向にグループ化して、ブロックを形成す
る。ここで、非テキスト要素は垂直方向にソートされ、
画像ページの境界として用いられる。なお、２つの非テ
キスト要素の間に位置するテキストライン要素は、他の
テキストライン要素とは別に処理される。また、ステッ
プＳ３０３では、ステップＳ３０１で分類できなかった
非テキスト要素が、大きなフォントサイズのタイトルで
あるかどうかを判別する。タイトルであると判別される
と、その部分に「タイトル」属性を付与し、木構造を更
新する。ここで得られたタイトルは、ステップＳ２１２
に基づくページの再生の際に有用な情報となりうる。

【００４４】図４Ａ〜図４Ｃは、画素画像デ−タの連結
要素をどのように検出して、どのようにこれらの連結要
素を分類するかを示す詳細なフローチャートである。図
４Ａ〜図４Ｃに示される処理ステップは、ＲＯＭ１７に
保持されているプログラムステップに基づいてＣＰＵ１
０で実行される。ステップＳ４０１では、輪郭追跡を行
い画素画像データの連結要素を検出する。輪郭追跡処理
は図５Ａに示すように画像データをスキャンすることで
行われる。スキャン処理は矢印Ａで示されるように画像
の右下部から左に行われ、画像の右側の端に達したとき
に上に進むように行われる。なお、この際、逆方向すな
わち左上から右下にスキャンすることもできる。スキャ
ン処理中に黒画素を検出すると、３１で示すような星形
パターンの順序で隣接画素を調べ、黒画素の隣接画素も
また黒画素であるかどうかを判別する。星形パターン３
１には８個の番号付けされたベクトルが中心点から伸び
ているため、このような輪郭追跡を以下「８方向」追跡
と呼ぶことにする。黒画素が隣接して存在する場合に
は、画像の外側輪郭を追跡し終えるまで上述の処理を繰
り返す。

【００４５】すなわち、図５Ｂに示すように、矢印Ａ方
向へのスキャン処理によって、まず文字「Ｑ」の端に対
応する点３２が検出される。次いで、星形パターン３１
に基づいて隣接画素が判別され、文字「Ｑ」の外側輪郭
が追跡される。この際、閉輪郭の内部の輪郭追跡処理は
行わない。連結要素を１つ検出して、８方向追跡で輪郭
の追跡を終えると、次の黒画素を検出するまでスキャン
処理を続ける。すなわち、完全な黒領域である物体３４
の８方向追跡を行う。また、手書き単語「ｎｏｎ−ｔｅ
ｘｔ」の非テキスト物体３５を、単語「ｗｏｒｄ」を構
成する個々の文字のテキスト物体３６中の個々の文字と
同様に追跡する。図５Ａに示すスキャン処理は、画素デ
ータ中のすべての連結要素を検出し、８方向追跡して輪
郭を検出するまで行われる。

【００４６】次いで処理をステップＳ４０２に進め、各
連結要素を矩形で囲む処理を行う。具体的には、各連結
要素の周りを包囲する最も小さな矩形を描く。すなわ
ち、図５Ｂに示すように、物体３２の周りには矩形３７
が、物体３４の周りには矩形３９が、物体３５の周りに
は矩形４０が、テキスト物体３６ａ，３６ｂ，３６ｃ，
３６ｄの周りには矩形４１ａ，４１ｂ，４１ｃ，４１ｄ
が描かれる。

【００４７】ステップＳ４０３では、各矩形要素に対し
て木構造中の位置が割り当てられる。ほとんどの場合、
ステップＳ４０３で得られる木構造では、画素画像中の
各物体は木の根に直接つながる。これは、連結要素の外
側輪郭のみを追跡しており、閉輪郭の内部は追跡してい
ないためである。すなわち、図５Ｃに示すように、連結
要素３２に対応する矩形３７はページの根に直接つなが
る。これに対し、非テキスト物体３５に対応する矩形４
０や、テキスト物体３６ａ，３６ｂに対応する矩形４１
ａ，４１ｂなどのように、矩形が他の矩形の内部に完全
に位置するような連結要素は、囲っている連結要素（こ
の場合には要素３４）の子ノードとして位置付けられ
る。また、要素３４などのように少なくとも１つの子を
有する連結要素は、それ自身を「主な子ノード」として
位置付ける。すなわち、図５Ｃに示すように、要素３９
が「主な子ノード」として、要素３９の他の子ノード４
０，４１ａ，４１ｂとともに位置付けられる。

【００４８】ステップＳ４０４では、木構造の第１レベ
ルの各連結要素をテキスト要素あるいは非テキスト要素
に分類する。この分類処理は２つのステップで行われ
る。第１ステップでは、連結要素の矩形と所定のしきい
値サイズとの比較を行う。連結要素を囲む矩形の高さ
が、想定される最大フォントサイズに対応する所定の第
１しきい値以上であれば、あるいは連結要素を囲む矩形
の幅が、ページ幅を経験的に決められた一定値で割った
値以上であれば（「５」で良好な結果が得られることが
わかっている）、連結要素を非テキスト要素と分類し、
要素に「非テキスト」の属性を付与する。

【００４９】第２ステップでは、残りすべての要素すな
わち非テキストと分類されなかった要素と、残りすべて
の連結要素のサイズの集合に基づいて適当に求められる
しきい値との比較を行う。具体的には、非テキスト要素
として分類されなかったすべての矩形の平均の高さを求
め、この平均高にスカラー値を掛け合わせたものを
（「２」を用いると好都合である）適当に求められるし
きい値とする。そして、適当に求めたしきい値以上に大
きな要素はすべて非テキストであると考え、非テキスト
要素として分類する。また、適当に求めたしきい値以下
の小さな要素はすべてテキスト要素であると考える。こ
のようにして要素の分類を行い、適切な属性が付与され
る。

【００５０】なお、図４Ａ〜図４Ｃの残りを参照して以
下で詳細に説明するように、ここで求めた分類結果は以
下で改善される。木構造の第１レベルの各要素をテキス
ト要素あるいは非テキスト要素として分類すると、テキ
スト要素の主な子ノードを含むすべての子ノードをテキ
スト要素として分類する。これに対して、非テキスト要
素の主な子ノードは非テキスト要素として分類するが、
非テキスト要素の他のすべての子ノードはテキスト要素
と分類する。

【００５１】ステップＳ４０５において、最初の要素を
選択する。要素がテキスト要素であれば（ステップＳ４
０６）、ステップＳ４０７に処理を進め次の要素を選択
する。非テキスト要素を選択して処理をステップＳ４０
８に進めるまで、ステップＳ４０６とＳ４０７の処理を
繰り返す。ステップＳ４０８では、非テキスト要素に子
ノードが存在するかどうかが調べられる。例えば、図５
Ｃに示されるように、非テキスト要素３９には、非テキ
ストの主な子ノード３９とテキストの子ノード４０，４
１ａ，４１ｂとが存在する。

【００５２】ステップＳ４０８において子ノードが存在
する場合には、処理をステップＳ４０９に進め、要素に
フィルタ処理が施され、要素が中間調（あるいはグレイ
階調）要素であるかどうかが判別される。中間調フィル
タ処理では要素の子ノードを調べ、要素の子ノードのう
ち「雑音サイズ」以下であるようなサイズのものを求め
る。ここで「雑音サイズ」の要素とは、高さが画像デー
タにおいて想定される最小のフォントサイズ以下である
ような要素のことである。雑音サイズ以下のサイズの子
ノード数が全体の子ノード数の半分以上であれば、要素
は中間調画像として判断される。そこで、ステップＳ４
１０で処理をステップＳ４１１に進め、「中間調」属性
を要素に付与する。

【００５３】次いでステップＳ４１２で、中間調画像中
のテキスト要素をチェックする。具体的には、木構造中
の中間調画像の子ノードのうちテキストサイズの子ノー
ドを修正して、テキストサイズの要素を中間調画像の子
ノードとしてではなく、中間調画像と同一レベルのノー
ドに配置する。これにより、中間調画像中のテキストサ
イズの要素に対しても、適切だとすれば文字認識処理を
行うことができる。この処理を終えると処理をステップ
Ｓ４０７に戻し、次の要素を選択して処理を行う。

【００５４】ステップＳ４０９の中間調フィルタ処理に
おいて要素が中間調画像でないと判別された場合には、
処理をステップＳ４１０からステップ４１３に進め、さ
らなる処理を施すために要素の主な子ノードを選別す
る。そして、処理をステップＳ４１４に進める。ステッ
プＳ４０８において非テキスト要素が子ノードをもたな
いと判別される場合、あるいはステップＳ４１３におい
てさらなる処理を施すために主な子ノードが選択される
と、ステップＳ４１４で当該要素に対してフレームフィ
ルタ処理が施される。フレームフィルタ処理は、当該要
素がフレームであるかどうかを調べ、当該要素を囲むよ
うな矩形とほぼ同一の幅／高さを有する平行水平線と平
行垂直線とを検出するための処理である。具体的には、
画素中の行ごとに当該要素中の連結要素内部の最大長を
求めて、連結要素が調べられる。

【００５５】すなわち、図６Ａに示されるように、非テ
キスト要素４２には連結要素４３が含まれるが、その輪
郭は８方向追跡によって４４で示すように追跡処理され
る。行「ｉ」における連結要素内部の最大長は、輪郭の
左端４５ａから右端４５ｂまでの距離ｘ_i となる。ま
た、行「ｊ」では、連結要素内部の長さとして、連結要
素の境界上の点４６ａと４６ｂの距離、ならびに点４７
ａと４７ｂの距離との２つが存在する。ここで、点４６
ａと４６ｂの距離の方が点４７ａと４７ｂの距離よりも
長いため、距離ｘ_j が行ｊにおける連結要素内部の最大
長となる。

【００５６】非テキスト要素４２中のｎ個の行ごとに距
離「ｘ」を求め、以下の不等式を満たすかどうかを調
べ、非テキスト要素がフレームであるかどうかを判別す
る。

【００５７】

【数１】ここで、ｘ_k は（上述のように）連結要素内部のｋ行目
の最大長，Ｗは矩形要素４２の幅，Ｎは行数，しきい値
はフレームが画像データ中で傾いていてもフレーム検出
が可能となるように前もって計算した値である。ここ
で、１度の傾き角を許容するには、しきい値としてｓｉ
ｎ（１°）をＬ倍したものに、ステップＳ４０４で計算
したテキストの平均の高さをオフセットとして加えたも
のを用いると良い。

【００５８】上記の不等式が満たされれば、要素はフレ
ーム要素であると判断され、ステップＳ４１５からステ
ップＳ４１６に処理を進め、「フレーム」属性を要素に
付与する。ここで、複数の属性が各要素に付与されうる
ことに注意されたい。すなわち、「フレーム−表」、
「フレーム−中間調」などのようにフレームの属性が付
与されることもある。

【００５９】ステップＳ４１６に続いて、フレーム要素
中に表データあるいは表のように組織されたデータが存
在するかどうかを調べる処理を行う。そこで、ステップ
Ｓ４１７において、連結要素の内部を調べて白輪郭を求
める。白輪郭は、黒画素ではなく白画素に着目するとい
う点を除けば、上のステップＳ４０１で検出した輪郭と
同一のものである。すなわち、図７Ａに示されるよう
に、非テキスト要素の内部を非テキスト要素の右下から
左上へ矢印Ｂの方向に沿ってスキャンする。このスキャ
ン処理によって第１の白画素が検出されると、星形パタ
ーン５１の順序で白画素の隣接画素がチェックされる。
星形パターン５１には１から４までの数が付与されたベ
クトルがある。このため、このような処理に基づく白輪
郭追跡処理のことを以下「４方向」白画素追跡と称す
る。

【００６０】黒画素に囲まれた白輪郭すべてを追跡し終
えるまで、４方向の白画素追跡処理を繰り返す。例え
ば、白輪郭追跡処理によって、黒画素セグメント５２，
５３，５４，５５ならびに内部に存在する５６のような
他の黒画素で構成される内部輪郭の画素が追跡される。
このようにして白輪郭を位置付けると、矢印Ｂ方向への
スキャン処理を、非テキスト物体に囲まれたすべての白
輪郭を追跡するまで繰り返す。

【００６１】ステップＳ４１８では、非テキスト要素の
密度を計算する。密度は連結要素中の黒画素数を計数し
て、黒画素数を矩形中の全画素数で割ることで計算され
る。ステップＳ４１９では、非テキスト要素中で検出さ
れた白輪郭数の数をチェックする。白輪郭の数が４以上
であれば、非テキスト画像が表またはテキストブロック
を表のように並べたものである可能性が高い。

【００６２】そこで、ステップＳ４２０において、白輪
郭の充填率を求める。白輪郭の充填率は、白輪郭が非テ
キスト画像中の領域を占める割合のことである。例え
ば、図７Ａに示されるように、白輪郭充填率には、５７
や５９のような斜線領域で完全に空の白領域と、６０や
６１のような領域で中に黒画素を含むような白領域とが
含まれる。この充填率が高いと、非テキスト画像が表ま
たはテキストデータを表のように並べたものである可能
性が高い。そこで、ステップＳ４２１において充填率を
チェックする。この際、高い充填率であれば、非テキス
ト画像は表またはテキストデータを表のように並べたも
のであると考えられる。

【００６３】この処理の信頼性を向上させるために、白
輪郭が水平ならびに垂直方向に格子状の構造をなしてい
るかどうかを調べる。すなわち、ステップＳ４２２にお
いて、少なくとも２つの白輪郭の境界線が水平方向なら
びに垂直方向に一致しないような非格子状の白輪郭を再
接続する。例えば、図７Ａに示されるように、白輪郭５
９の左境界線６２及び右境界線６３は、白輪郭６０の左
境界線６４及び右境界線６５と垂直方向に一致する。そ
のため、これらの白輪郭は格子状に配置されており、白
輪郭の再接続は行わない。同様に、白輪郭５９の上部境
界線６６及び下部境界線６７は、白輪郭７０の上部境界
線６８及び下部境界線６９と水平方向に一致する。その
ため、これらの白輪郭は格子状に配置されており、これ
らの白輪郭の再接続は行わない。

【００６４】図７Ａから図７Ｄまでは、白輪郭を再接続
する場合を説明するための図である。図７Ｂは非テキス
ト要素７１を示しており、これはステップＳ２０１で示
した中間調画像の２値画像へのしきい値処理などによっ
て得られるものである。非テキスト画像７１には、黒領
域７２と白領域７４，７５，７６，７７，７８，７９が
存在する。ここで、これらの白領域の充填率は十分高
く、ステップＳ４２１において処理は再接続ステップＳ
４２２に進められたものとする。

【００６５】まず、図７Ｃに示されるように、白輪郭７
５の左境界線及び右境界線と、白輪郭７６の左境界線及
び右境界線とを比較する。すると、これらの境界線は一
致しないため、白輪郭７５と白輪郭７６とは再接続され
て図７Ｃの接続白輪郭７６’が生成される。次いで、図
７Ｄに示されるように、白輪郭７７の上部境界線及び下
部境界線と、白輪郭７９の上部境界線及び下部境界線と
を比較する。すると、これらの境界線は一致しないた
め、白輪郭７７と白輪郭７９とは１つの接続白輪郭７
７’として結合される。再接続される輪郭がなくなるま
で、これらの処理を水平方向に垂直方向に繰り返す。

【００６６】すなわち、上述のように、表をなす白輪郭
は再接続されにくいのに対し、中間調画像や線画などの
表でないような白輪郭は再接続されやすい。そこで、ス
テップＳ４２３において接続率を調べる。ここで、再接
続率が高ければ、あるいは再接続処理後に残った白輪郭
の数が４より少なければ、処理をステップＳ４２８に進
め、以下で詳述するように、非テキスト要素に「中間調
画像」もしくは「線画」の属性を付与する。ステップＳ
４２３において再接続率が高くなく、且つ少なくとも４
つの白輪郭が残っていれば、処理をステップＳ４２４に
進め、非テキスト画像に「表」の属性を付与する。

【００６７】ステップＳ４２５では、新たに属性が付与
された表の内部を調べ、８方向追跡処理で連結要素を検
出し分類する。ステップＳ４２６では、この新たな内部
の連結要素に基づいて階層的木構造を更新する処理を行
う。続くステップＳ４２７では、ステップＳ４０２から
ステップＳ４０４で示したような手法でもって、内部連
結要素をテキスト要素もしくは非テキスト要素に再分類
し、適当な属性を付与する。これらの処理を終えると、
処理をステップＳ４０７に戻し次の要素が選択される。

【００６８】ステップＳ４２１とＳ４２３に戻って、ス
テップＳ４２１で充填率が高くない場合、あるいはステ
ップＳ４２３で再接続率が高い場合には、非テキストフ
レーム要素は中間調画像もしくは線画である可能性が高
いと考えられる。ここで、要素を中間調画像として分類
するか、あるいは線画として分類するかの決定は、要素
中の黒画素の平均水平ラン長、要素中の白画素の平均水
平ラン長，白画素と黒画素との比率，及び密度に基づい
て行われる。一般に、暗めの画像は中間調画像であると
考えられ、明るめの画像は線画であると考えられる。

【００６９】具体的には、白画素の平均水平ラン長がほ
ぼゼロ（すなわち、全体が暗めあるいはまだらな画像）
であって、ステップＳ４１８で求めた密度によって要素
が白っぽいというよりもむしろ黒っぽい場合（すなわ
ち、密度が１／２程度の第１しきい値より高い）には、
フレーム要素は中間調画像であると判別される。密度が
第１しきい値以下である場合には、要素は線画として判
別される。

【００７０】白画素の平均水平ラン長がほぼゼロではな
く、黒画素の平均水平ラン長より長い場合には、フレー
ム要素は線画であると判別される。しかし、白画素の平
均水平ラン長が黒画素の平均ラン長以下（すなわち、暗
めの画像）である場合には、さらなる判別処理が必要と
なる。具体的には、黒画素数が白画素数よりもかなり少
ない（すなわち、黒画素数を白画素数で割った値が約２
の第２しきい値より大である）場合には、フレーム要素
を中間調要素として判別する。これに対し、黒画素数を
白画素数で割った値が第２しきい値以下であっても、ス
テップＳ４１８で求めた密度が第１しきい値より高けれ
ば、フレーム要素を中間調画像として判別する。これ以
外であれば、フレーム要素は線画として判別される。

【００７１】ステップＳ４２８においてフレーム要素が
線画として判別されれば、処理をステップＳ４２９に進
めて「線画」属性を付与し、ステップＳ４３０ですべて
の子ノードを削除する。なお、要素が線画として判別さ
れると、線画要素のいかなるブロックも文字認識のため
に選択されることはない。そして、処理をステップＳ４
０７に戻し次の要素を選択する。

【００７２】一方、ステップＳ４２８においてフレーム
要素が線画として判別されなかった場合には、処理をス
テップＳ４３１に進めて「中間調」属性を付与し、ステ
ップＳ４３２でフレーム中間調要素のテキストサイズの
子ノードを削除する。ここで、テキストサイズは、ステ
ップ４０４において述べたように平均の要素の高さとし
て求められる。また、テキストサイズより大きなすべて
の子ノードは、フレーム中間調要素の子ノードのままと
する。これらの処理を終えると、処理をステップＳ４０
７に戻し次の要素を選択する。

【００７３】ステップＳ４１９に戻り、白輪郭の数が４
より小さい場合には、フレーム要素は表であるとは判別
されない。そこで、処理をステップＳ４３３に進め、ス
テップＳ４１８で求めた密度と約０．５のしきい値とを
比較する。ここで、しきい値は、フレーム内のテキスト
要素や線画が占める面積は画素の半分以下であることを
鑑みて選択されている。

【００７４】密度がしきい値より小さければ、処理をス
テップＳ４３４に進め、上述のようにフレーム要素の内
部構造を作成する。すなわち、処理をステップ４０１に
戻し、フレーム要素の内部構造に対する処理を行う。ス
テップＳ４３３において、密度が所定のしきい値以上で
あった場合には、処理をステップＳ４４２に進め、フレ
ーム要素を線画，中間調画像あるいは分類不可能（すな
わち、フレームが「未知」）のどれかに分類する。

【００７５】ステップＳ４１５に戻り、ステップＳ４１
４におけるフレームフィルタ処理で非テキスト要素中に
フレームが検出されなかった場合には、処理をステップ
Ｓ４３５に進め、非テキスト要素中に線が含まれるかど
うかを調べる。線は、テキスト境界を明確にするのに適
した非テキスト要素である。この際、このような線に囲
まれたテキストは線のそばに位置することが多いため、
テキストが線に接するということもありうる。そのた
め、テキストが接していても接していなくても線を検出
できるような線の検出処理を行う。

【００７６】テキストが接していない線を検出するに
は、非テキスト要素の長さ方向のヒストグラムを求め
る。すると、図６Ｂに示されるように、線のヒストグラ
ム４８はほぼ均一な分布となり、ヒストグラムの高さは
線幅にほぼ等しくなる。また、線幅は、非テキスト要素
の幅「Ｗ」にほぼ等しい。ここで、線幅と非テキスト要
素の幅との差は、画素画像を生成する際の原文書の傾き
角θｓによるものである。そこで、非テキスト要素が線
を含むかどうかを調べるために、ヒストグラム中の各セ
ルｋの高さ４９を非テキスト要素の幅Ｗと比較する。す
なわち、これらの値間の実効値誤差としきい値とを次式
のように比較する。

【００７７】

【数２】ここで、しきい値は、非テキスト要素中の線の傾き角θ
ｓを許容できるように設定される。例えば１°の傾き角
であれば、しきい値として

【００７８】

【数３】を用いると良好な結果が得られる。上の不等式によって
テキスト要素が接していない線が検出されなかった場合
には、テキスト要素が接している線を含む要素であるか
どうかを調べる処理を行う。テキスト要素に接している
線が非テキスト要素中に含まれるかどうかを判別するた
めに、要素の境界に沿って線が長く伸びているかどうか
を調べる。すなわち、要素を通して線が長く伸びていれ
ば、図６Ｃに示すように要素を囲む矩形の境界は線にき
わめて近いところに位置する。そこで、矩形の境界近く
の第１番目の黒画素位置の均一性を、境界からの距離の
２乗の和を求めることで判断する。すなわち、次式の不
等式を満たすかどうかを調べる（図６Ｃ参照）。

【００７９】

【数４】ここで、２乗の和が所定のしきい値より小である場合に
は、テキスト要素が接している線要素と判別する。この
際、しきい値として、テキスト要素が接していない線の
検出におけるいき値を用いると、良好な結果が得られ
る。ステップＳ４３５において線を検出すると、処理を
ステップＳ４３６からステップＳ４４９に進め、「線」
属性を非テキスト要素に付与する。そして、処理をステ
ップＳ４０７に戻し、次の要素を選択する。

【００８０】一方、ステップＳ４３５で線が検出されな
かった場合には、処理をステップＳ４３６からステップ
Ｓ４３７に進め、非テキスト要素のサイズを調べる。こ
こで、サイズが所定のしきい値以下であると、非テキス
ト要素の分類が不可能となる。なお、このしきい値は最
大のフォントサイズに基づいて決められるものであり、
最大フォントサイズの半分の値で良好な結果が得られ
る。そして、処理をステップＳ４３８に進めて「未知」
属性を非テキスト要素に付与し、処理をステップＳ４０
７に戻して次の要素を選択する。

【００８１】ステップＳ４３７においてサイズが所定の
しきい値よりも大であった場合には、処理をステップＳ
４３９，Ｓ４４０，Ｓ４４１に進め、ステップＳ４１
７，Ｓ４１８，Ｓ４１９で述べたように、非テキスト要
素内部の白輪郭を追跡し、非テキスト要素の密度を求
め、白輪郭の数を調べる。ステップＳ４４１において白
輪郭の数が４以下であれば処理をステップＳ４４２に進
め、要素サイズを計算し、要素が線画や中間調画像であ
るのに十分な大きさであるかを調べる。このサイズ計算
は、非テキスト要素の高さと幅ならびに黒画素の最大ラ
ン長に基づいて行われる。具体的には、非テキスト要素
の高さや幅が最大フォントサイズ以下であれば、非テキ
スト要素は中間調画像や線画であるほど大きくはないと
判断し、処理をステップＳ４４３に進め「未知」属性を
付与する。また、非テキスト要素の幅は最大フォントサ
イズより大であるが、黒画素の最大ラン長は最大フォン
トサイズ以下である場合にも、処理をステップＳ４４３
に進め、「未知」属性を付与する。そのあと、ステップ
Ｓ４０７に処理を戻し、新たな要素を選択する。

【００８２】ステップＳ４４２において非テキスト要素
が線画や中間調画像であるのに十分な大きさであると判
断されると、ステップＳ４４４に処理を進め、非テキス
ト要素が線画であるか中間調画像であるかの判別を行
う。ステップＳ４４４からステップＳ４４８までの処理
は、それぞれステップＳ４２８からステップＳ４３２ま
での処理と同一のものであり、ここでの説明は省略す
る。

【００８３】図４Ａ〜図４Ｃ（図３中のステップＳ３０
１）を参照して以上説明したように、画素画像中のすべ
ての連結要素を検出して分類すると、図１４に示される
ような木構造が得られる。図１４に示されるように、木
構造の根は画素画像データのページに対応する。根から
の子ノードには、テキストブロックや、未知，フレー
ム、絵、線などからなる非テキストブロックが存在す
る。また、フレームの子ノードには、テキストブロッ
ク、未知の非テキストブロック，テキストブロックを有
する表，絵，線などが存在する。

【００８４】図１０は画素画像データの典型的なページ
９０を示したものであり、大きなフォントサイズのテキ
スト９１，テキスト９３などを含む表９２，テキストデ
ータ９４，水平線９５，もう一つのタイトル９６，２段
落のテキストデータ９７及び見だし９９を備えるフレー
ム線画９８とタイトル１００で始まり，テキストデータ
１０１，見だし１０３を備えるフレーム中間調画像１０
２，テキストデータ１０４，水平線１０５，テキストデ
ータの最終段落１０６へと続く第２段とが示されてい
る。図１１は、ステップＳ３０１に基づく処理後の同一
画素画像を示したものである。図１１に示されているよ
うに、画素画像データ９０中の連結要素が矩形ブロック
で囲まれており、矩形ブロックの内部についてはステッ
プＳ４１５からステップＳ４３４までのフレーム処理で
判別される。

【００８５】ステップＳ３０２では、ステップＳ３０１
で得られたすべてのテキスト要素を、木構造の位置に関
わらず水平方向にグループ化する。グループ処理は各テ
キスト要素の密集性ならびにその近傍関係とに基づいて
行われる。なお、この際、段に対応する垂直方向に伸び
たギャップが検出され保持される。以下、図８を参照し
て、ステップＳ３０２で行う詳細な処理について説明を
加える。図８に示される処理ステップは、ＲＯＭ１７に
保持されるプログラムステップに基づいてＣＰＵ１０で
実行される。

【００８６】ステップＳ８０１では、非テキスト要素の
左端ならびに右端から垂直にギャップラインマーカを伸
ばす処理を行う。すなわち、図１１に示されるように、
ギャップラインマーカ１０９ａと１０９ｂとをテキスト
あるいは非テキスト要素（ここでは要素９５）に達する
まで垂直に伸ばす。また、ギャップラインマーカ１０９
ｃと１０９ｄとをテキストあるいは非テキスト要素（こ
こでは要素９５）に達するまで垂直方向に伸ばす。同様
に、残りの非テキスト要素の左端ならびに右端からギャ
ップラインマーカを垂直に伸ばす。このようなギャップ
ラインマーカを用いることで、画素画像データにおいて
段に対応するギャップ位置の判別が容易になる。

【００８７】ステップＳ８０２において、図１１のテキ
スト要素１０７のようなテキスト要素は、連結によりギ
ャップラインマーカを横切らず、且つ他のテキスト要素
と接しているかあるいは他のテキスト要素から所定のし
きい値内の距離にあれば、１つのテキストラインに連結
される。なお、適切なしきい値として、ステップＳ４０
４で求めた平均テキスト長に経験的に得られたスカラー
値を掛けたものを用いる（「１．２」を用いると良好な
結果が得られる）。また、連結処理を行うに先立って、
テキスト要素間の垂直ギャップを調べ、段構造を示唆す
るような垂直ギャップが存在するかどうかを判別する。
すなわち、図１１に示されるように、ギャップ１０８は
テキスト要素のペアの間に存在するが、このギャップは
テキスト画像データ中で垂直方向に数ライン程度の長さ
となるため、テキスト要素が他の要素から所定のしきい
値内の距離に位置しているにも関わらず、ステップＳ８
０２ではギャップが維持される。

【００８８】ステップＳ８０３では、連結ステップＳ８
０２で連結されなかったテキスト要素のペアが連結によ
りギャップラインマーカを横切らず、隣のラインの第３
テキスト要素と共に重なるような場合に、これらのテキ
スト要素のペアを連結する。このようなステップによ
り、段構造を示すギャップではなく単にテキストライン
中のランダムな空間構成に起因するようなギャップを効
果的に除去することが可能となる。例えば、図１１にお
いて、ステップＳ８０２ではギャップ１０８の連結は行
われないが、ギャップ両側のテキスト要素は１行下のラ
インの第３テキスト要素と重なり、またギャップライン
マーカを横切らないため、ステップＳ８０３においてこ
のギャップが除去される。

【００８９】ステップＳ８０４では、これらの処理結果
に基づいて木構造の適切な更新が行われる。図１２は、
ステップＳ３０２のグループ化処理の結果を示してお
り、図１５はステップＳ３０２のグループ化処理で修正
された木構造を示している。図１２に示されるように、
各々が接しているテキスト要素は、ライン１１０のよう
にテキストラインにグループ化される。すなわち、木構
造中に位置するテキスト要素をテキストラインに連結す
る処理を行うが、１１１などのようにテキスト要素が木
構造中のフレーム−表ノードの下に位置する場合にも連
結処理が行われる。ここで、このようなグループ化処理
は、上のステップＳ４１７からＳ４３９で求めた白輪郭
境界を横切ることはなく、表中の個々の項目が１つの連
続するテキストラインにグループ化されることはない。
また、左段と右段との間のギャップは維持される。さら
に、非テキスト要素は再連結されない。すなわち、１１
２や１１３などの要素のように、互いに所定のしきい値
内の距離にあっても、非テキスト要素のグループ化は行
わない。

【００９０】図１５には、新たなグループ化処理の結果
に基づいて修正した木構造が示されている。図８（図３
中のステップＳ３０２）を参照して説明したようにテキ
スト要素のテキストラインのグループ化を行った後に
は、ステップＳ３０３に示されるようにテキストライン
を垂直方向にグループ化してテキストブロックを生成す
る処理を行う。

【００９１】以下、図９を参照してこの処理について詳
述する。グループ化処理は、テキストライン要素の密集
性や非テキスト要素の位置に基づいて行われる。例え
ば、間に存在する非テキストラインは境界を示すため、
これを利用すれば非テキストライン両側のテキストライ
ンを１つのテキストブロックにグループ化することを避
けられる。なお、処理は、２つの連続する非テキストラ
イン要素間のすべてのテキストラインに対して１度に行
われる。また、ステップＳ３０３では、テキスト要素を
非テキスト要素に連結するべきか（例えば、非テキスト
画像とそのテキスト見だし）、非テキスト要素を他の非
テキスト要素に連結すべきか（例えば、中間調画像と線
画）の判断も行う。

【００９２】図９は、テキストラインのテキストブロッ
クへのグループ化を示す詳細なフローチャートである。
ステップＳ９０１においては、最大の予想フォントサイ
ズより小ではあったが平均テキストサイズより大であっ
たため、ステップＳ４０４で非テキスト要素に分類され
た非テキスト要素からタイトルブロックの形成を行う。
隣り合う非テキスト要素のうち同じようなサイズの要素
に対してはすべてグループ化を行い、タイトルブロック
を形成し、「タイトル」属性をこのグループに付与す
る。ここでグループ化されなかった残りすべての非テキ
スト要素に対しては「絵−テキスト」属性が付与され
る。また、それに応じて木構造の更新も行う。ここで得
られたタイトルは、ページ再生時（ステップＳ２１２）
に有用な情報となる。

【００９３】ステップＳ９０２では、２つのテキストラ
インにまたがる非テキスト要素の位置を明確にする。こ
のような非テキスト要素はテキストブロック間の境界と
なり、テキストラインを１つのテキストブロックにグル
ープ化してしまうことを避けることができる。ステップ
Ｓ９０３では、２つのステップでテキストラインの垂直
方向のグループ化を行い、テキストブロックを形成す
る。第１のステップでは、画素密度の垂直ヒストグラム
を求めるなどして、段間のギャップを検出する。第２の
ステップでは、垂直方向に連続するテキストライン間の
垂直距離がステップＳ４０４で求めたテキストの高さよ
り小さければ、それぞれの段ごとにテキストラインのグ
ループ化を行う。このステップＳ９０３の処理により、
図２のライン１１４のような同一テキスト段落中のテキ
ストラインを、テキストブロックにグループ化する。

【００９４】ステップＳ９０４では、垂直ならびに水平
方向に隣接するテキストブロックのグループ化処理を行
う。ここで、これらのテキストブロックが非テキスト要
素で分離されていず、またこれらのブロックを連結して
もステップＳ９０３のヒストグラムから求めたギャップ
が保持されるときに、テキストブロックのグループ化が
行われる。また、ブロック間の距離がステップＳ４０４
の垂直の高さに基づいて計算される所定のしきい値より
小であるときに、テキストブロックはグループ化され
る。このステップＳ９０４の処理により、図１２中の段
落１１５のラインと段落１１６のラインのテキストブロ
ックはグループ化されるが、段落１１７と１１８のライ
ンのテキストブロックはそれらの間に非テキスト要素１
１９（線）を有するためグループ化が行われない。

【００９５】ステップＳ９０５では、テキストブロック
を非テキストブロックに連結すべきか、非テキストブロ
ックを他の非テキストブロックに連結すべきかを判断す
る。ここで、テキストブロックの非テキスト−タイトル
ブロック，非テキスト−中間調ブロック，非テキスト−
ライン接触ブロックとの連結は、以下のように行われ
る。（１）テキストブロックが非テキスト−タイトルブロッ
クと水平方向に近い位置にあり、垂直方向に重なってい
る場合には、テキストブロックを非テキスト−タイトル
ブロックに連結する。（２）テキストブロックがワードサイズのブロックより
小さくて（水平、垂直方向とも）、テキストブロックの
隣にワードサイズのテキストブロックが存在しないとき
には、テキストブロックを非テキスト−中間調画像ブロ
ックの中に位置付ける。（３）テキストブロックが非テキスト−ライン接触ブロ
ックと重なっていれば、ライン接触ブロックはテキスト
の下線である可能性が高いため、ライン接触ブロックを
テキストブロックに変換する。

【００９６】また、以下の表にしたがって、非テキスト
ブロックは他の非テキストブロックと連結される。

【００９７】

【表１】この表中のテストは以下の通りである。テスト１：１つのブロックが完全に他のブロック内に位
置すれば連結、テスト２：絵ーテキストの幅がワードサイズのブロック
の幅より小さければ連結、テスト３：ブロックが近接していれば連結。

【００９８】ステップＳ９０６では、適切な属性が付与
され、上述の処理結果に基づいて木構造の更新が行われ
る。図１３は図９の処理を行った結果のブロック構造で
あり、図１６はその木構造の例である。図１３におい
て、ブロックには、タイトルブロック１２０，テキスト
ブロック１２１及び絵データ１２２が含まれる。また、
フォームデータも含まれ、１２３は表構成のデータを有
するフレーム要素を示しており、１２４はテキスト要素
１２５を有するフレーム要素を示している。なお、非テ
キストライン画像１２７は図１３に示されるさまざまな
要素を分離している。

【００９９】図３から図１６を参照しながら説明したブ
ロック選択処理を終えると、上述のように文字認識処理
は図２のステップＳ２０４に処理を進める。すなわち、
階層的木構造中の第１ブロックを選択して認識処理を行
う。このブロックがテキストブロックでない場合には、
処理をステップＳ２０４からステップＳ２０５に進め、
木構造中の次のブロックを選択する。テキストブロック
が選択されるまでステップＳ２０４とＳ２０５を繰り返
し、テキストブロックが選択された時点でステップＳ２
０６に処理を進め、ラインの分割処理を行う。

【０１００】図１７は、図２のライン分割ステップＳ２
０６で実行される処理ステップを詳細に示すフローチャ
ートである。図１７に示される処理ステップは、プログ
ラムＲＯＭ１７に保持されるコンピュータプログラムに
したがってＣＰＵ１０で実行される。ステップＳ１７０
１に先立って画像縮小処理を行っても良い。しかし、ラ
イン分割処理や文字分割処理は水平方向の空白により影
響を受けやすいため、画像縮小処理を行うにあたっては
分割精度に影響を与えないような注意が必要である。す
なわち、水平方向と垂直方向とでそれぞれ異なる画像縮
小手法を用いることが好ましい。垂直方向では画素の結
合を「ＯＲ」論理で行い、垂直方向の対象画素のうち１
つでも黒画素が存在すれば黒画素が出力される。すなわ
ち、垂直方向の２：１の画像縮小処理では、２つの垂直
画素のいずれかが黒画素であれば黒画素が出力される。
これに対して水平方向では画素の結合を「ＡＮＤ」論理
で行い、水平方向の対象画素すべてが黒画素であれば黒
画素が出力される。すなわち、水平方向の３：１の画像
縮小処理では、３つの画素がすべて黒画素のときのみ黒
画素が出力される。

【０１０１】垂直方向に３：１の縮小を行い、水平方向
に２：１の縮小を行う場合の処理例を以下に示す
（「０」は白画素を「Ｘ」は黒画素を表す）。

【０１０２】

【表２】画像縮小処理を終えると、この縮小画像に対してライン
分割処理と文字切り出し処理とが行われる。ここで、図
２の残りの認識処理（すなわち、ステップＳ２０８から
ステップＳ２１３まで）に影響を及ぼさないように、ラ
イン分割処理と文字切り出し処理とを終えた時点で、文
字間の切り出しは縮小していないもとの画像データに対
して行う。

【０１０３】ステップＳ１７０１では、ステップＳ２０
４で選択されたテキストデータブロックごとに画素密度
の水平投影を求める。画素密度の水平投影は、画素画像
の各行ごとに黒画素数を計数して得られる。ここで、画
素密度の水平投影は全体のテキストブロックに対して求
めることが好ましいが、これは本質的な点ではない。す
なわち、テキストブロックを複数の画素列、例えば２あ
るいは３列に分割して、各列ごとに画素密度の水平投影
を求めることができる。もちろん、このような処理で
は、本発明の処理時間短縮という利点は失われる。

【０１０４】ステップＳ１７０２では、水平投影のうち
ゼロでない領域を求め、どれかが最大フォントサイズと
等しい所定のしきい値より大であるか否かを調べる。最
大フォントサイズ以下であれば、水平投影はページ上の
ラインを均一に分割していることになり、処理をステッ
プＳ１７０３に進める。ステップＳ１７０３では、画素
密度の水平投影のうち近接している領域を連結する。こ
の処理を図１８Ａ〜図１８Ｄを用いて説明する。図１８
Ａは典型的なテキストブロック２３０を示しており、文
字画像のライン２３１と２３３、ならびに雑音スポット
２３２（すなわち、文字情報ではない黒画素）が含まれ
る。これに対応する画素密度の水平投影は２３４に示さ
れる。水平投影２３４に示されるように、領域２３５は
文字「ｉ」の上の点に対応し、領域２３６はライン２３
１上の残りの文字に対応し、領域２３７と２３８は雑音
スポット２３２に対応し、領域２３９はライン２３３上
の文字に対応する。これらの各ピークにより、境界が水
平投影のゼロ値となる領域が定義される。ステップＳ１
７０３では、同一テキストライン上に存在するピーク２
３５と２３６のような近接領域は連結され、テキストラ
インとは関係のないピーク２３７と２３８のような近接
領域は連結されないことが望まれる。

【０１０５】ステップＳ１７０３で述べたように、近接
領域を連結するためには、画素密度の水平投影を投影の
上部から下部まで（テキストブロックの上部から下部ま
で）調べる。第１の領域を検出すると、その下の次の領
域の水平投影をスキャンして、２つの領域の高さを比較
する。上の領域の最も高い要素の高さが下の領域の高さ
より小さく、２つの領域の間隔が上の領域中の最も高い
要素の高さより小さければ、これら２つの領域を連結す
る。ここで、この近接領域を連結する処理は、スケール
に対して不変であることに注意されたい。すなわち、テ
キストの近接領域を連結する際には、テキストサイズが
１２ポイントであるとか８ポイントであるなどの知識は
不要である。

【０１０６】そこで、図１８Ａに戻り、領域２３５の高
さと領域２３６の高さとの比較を行うと、上の領域２３
５の高さが下の領域の高さより小さいことがわかる。ま
た、２つの領域間のギャップは領域２３５の高さより小
さいと判断される。したがって、図１８Ｂに示されるよ
うに、領域２３５と２３６とは１つの領域２３６’とし
て連結される。

【０１０７】画素密度の水平投影を下方向に調べると、
領域２３７が検出される。この場合、領域２３６’の高
さが領域２３７の高さ以上であるため、これら２つの領
域は連結されない。さらに、画素密度の水平投影を下方
向に調べると、領域２３７の高さが領域２３８の高さ以
下であり、また領域間のギャップは領域２３７の高さ以
下であることがわかる。そこで、図１８Ｃに示されるよ
うに、領域２３７と２３８とは１つの領域２３８’とし
て連結される。画素密度の水平投影をさらに下方向に調
べると、領域２３９が検出される。この場合、領域２３
８’の高さは領域２３９の高さより低いが、領域間のギ
ャップは領域２３８’を構成している領域２３７と２３
８とのどちらかの高さより大きいことがわかる。そこ
で、これら２つの領域は連結されない。

【０１０８】また、近接領域の連結処理のあとに各領域
の高さを調べて各領域の高さがラインの最小の高さに対
応するしきい値より大であるかどうかを判別することも
できる。この際、しきい値は、これまでに検出された領
域の高さの平均として適当に設定される。領域がしきい
値以下の高さの場合には、領域を画素データ中の雑音ス
ポットに起因するものと判断し削除することができる。
したがって、領域２３８’の高さは、領域２３６’，２
３８’，２３９の高さの平均として決められるしきい値
以下であるため、図１８Ｄに示されるように領域２３
８’は削除される。

【０１０９】これらの処理を終えると、図１７に戻って
処理をステップＳ１７０４に進め、領域を個々のライン
セグメントに分割し、図２のステップ２０７で示される
文字切り出しに処理を進める。ステップＳ１７０２にお
いて、ステップＳ１７０１で処理された領域が大きすぎ
る領域であった場合には、テキストラインが傾いている
と判断される。例えば、図１９Ａに示されているよう
に、テキストブロック２４０には複数の傾いたテキスト
ライン２４１が含まれる。ステップＳ１７０２に基づく
処理では、２４４に代表テキストを示したようにテキス
トラインが水平方向に相互に重なりあってしまうため、
２４２のような画素密度の水平投影が得られる。

【０１１０】そこで、処理をステップＳ１７０５に進
め、テキストブロックを段に分割する。図１９Ｂに示さ
れるように、テキストブロックの段数を２倍にする。す
なわち、テキストブロック２４０を２つの段に分割す
る。この際、少なくとも１つの共通の画素が重なり合う
ように段を分割することが好ましい。また、テキストブ
ロックを２ブロック以上、例えば３あるいは４ブロック
に分割することも可能である。

【０１１１】ステップＳ１７０６では図１９Ｂの２４７
や２４９のように各段ごとに画素密度の水平投影を求
め、ステップＳ１７０７で領域が大きすぎるかどうかを
再び調べる。領域が大きすぎる場合には、処理をステッ
プＳ１７０８に進め、段数を再び増加させる。例えば、
図１９Ｃに示されているように、段数を更に２倍にす
る。また、ステップＳ１７０９において、段の幅が最低
限度より大であるかどうかを確認する。この最低限度
は、これ以上段数を増加させると適切なライン分割が不
可能になる点を示している。好適な実施例では、最低限
度は１６画素幅である。ステップＳ１７０９において最
低限度に達していると判断されると、ライン分割は不可
能であると表示して処理を終了する。一方、最低限度ま
で達していない場合には、処理をステップＳ１７０６に
戻し、新たな段ごとに水平投影を再び計算する。ステッ
プＳ１７０７において領域が大きすぎないと判断された
場合には、処理をステップＳ１７１０に進める。すなわ
ち、図１９Ｃに示されるように、ラインセグメント以下
の幅の領域が割り出された。そこで、処理をステップＳ
１７１０に進め、ステップＳ１７０３で説明したように
近接領域を連結する。そして、ステップＳ１７１１にお
いて、各段ごとに単一ラインセグメントに対応する領域
を割り出す。

【０１１２】すなわち、図１９Ｃにおいて、単一ライン
セグメントに対応する領域２５０，２５１，２５２，２
５３を検出する。そして、領域が異なる段間で接触して
おり単一ラインセグメントを構成するかどうかを判別す
るために、各段を上から下に調べ各段の第１領域を検出
する。そこで、その領域に接触している領域を調べ、図
１９Ｄに示されているように２つの距離を求める。この
２つの距離、（１）２つの領域を合せたときの全長距離
Ａと、（２）２つの領域の共有領域すなわち２つの領域
の交差領域の距離Ｂとの２つである。そして、比Ａ／Ｂ
を求め、２つの領域が多くの部分で重なっているかを確
かめるためにしきい値と比較する（しきい値として５を
用いると良好な結果が得られる）。比Ａ／Ｂがしきい値
より小であれば、２つのブロックは多くの部分で重複し
ていることになり、ブロックは単一ラインセグメントを
構成していると考えられる。そこで、ステップＳ１７１
２において、比Ａ／Ｂで求められる接触領域を単一ライ
ンセグメントとして割り出される。

【０１１３】ここで、比Ａ／Ｂの計算と、比Ａ／Ｂとし
きい値との比較処理とは、スケールに不変な処理であ
り、ライン中のテキストサイズに関わらず、重なった接
触領域は単一ラインセグメントとして割り出される。こ
のようなスケール不変の性質は、ラインセグメント中の
テキストサイズが既知である必要がないという点で望ま
しいものである。

【０１１４】図１７で述べたラインの分割処理を終える
と、図２のステップＳ２０７で説明し、詳細が図２０に
示される文字分割（文字切り出し）に処理を進める。図
２０に示されるように、文字切り出しは多階層の処理で
行われ、各階層は徐々に複雑な文字切り出し処理を行
う。すなわち、文字切り出し処理は３つの処理に分類さ
れる。相互に接触ならびに重なっていない文字間の切り
出し、相互に接触してはいないが重なっている文字間の
切り出し、接触している文字間の切り出しの３つであ
る。例えば、図３４Ｂに示されるように、文字「Ｓ」と
「ａ」は接触ならびに重なっていないため第１の処理に
分類される。一方、文字「ｆ」と「ｙ」は接触してはい
ないが重なっているため第２の処理に分類される。さら
に、文字「ｔ」と「ｉ」は相互に接触しているため第３
の処理に分類される。

【０１１５】図２０に示されるように、各階層は３つの
処理のうちの１つを実行するように構成される。すなわ
ち、階層１（２６１）では接触ならびに重なっていない
文字間の切り出しが行われる。階層１に続いて、当該テ
キストの性質及び特徴に関する知識の有無に応じて処理
を進める。テキストが単一スペースのテキストであれ
ば、すなわち文字が垂直で文字間が均一であれば（例え
ば「クーリエ」フォント）、処理を階層２（２６２）に
進め、接触している文字の切り出しを行う。単一スペー
スの文字であっても、コピーやファクシミリ転送の繰り
返しに起因する画像の劣化のため、文字が相互に接触す
ることがある。そして、文字認識処理２６３に処理を進
め、図２のステップＳ２０９に進む。

【０１１６】一方、テキストブロックの性質及び特徴に
関して何の情報もない場合、あるいはテキストが単一ス
ペースのテキストでなければ、処理を階層２（２６４）
に進め、接触はしていないが重なっている文字間の切り
出しを行う。そして、階層１と階層２との切り出しで得
られた文字に対して２６５で認識処理を行う。認識処理
２６５で認識されなかったすべての文字に対しては、階
層３（２６６）の処理を行う。すなわち、文字が認識さ
れない理由として、文字の切り出しが完全に行われない
ため実際には認識不能な文字は接触している複数の文字
と考えられる。そこで、階層３では接触している文字の
切り出しが行われる。階層３で文字を切り出すと、２６
７で文字認識処理を行う。認識処理が成功した場合に
は、処理を図２のステップＳ２０９に戻す。一方、認識
処理が再び失敗した場合には、階層３での切り出しが不
適切であったと判断する。そこで、認識不能であった切
り出しを再接続し、再び階層３の切り出し処理と認識処
理とを行う。このような処理を、文字の切り出しが不可
能になるまで繰り返し行う。

【０１１７】「単一スペース（mono-spaced)」２６２か
「全スペース(all-spacing) 」２６４かのどちらに処理
を進めるかは、オペレータからの入力によって選択され
る。オペレータからの入力がない場合には、デフォルト
として処理を「全スペース」２６４に進める。というの
は、この階層は単一スペースのみならず非単一スペース
文字にも適用できるためである。

【０１１８】図２１から２８までは階層１から階層３ま
での処理を説明する図であり、図３０と図３１は２６９
で示される再接続処理を説明する図である。図２１は非
接触で重なっていない文字を切り出す階層１の切り出し
処理を説明するフローチャートである。階層１では、２
つの文字間の白画素すなわち空白を検出することによ
り、非接触で重なっていない文字の切り出しを行う。

【０１１９】具体的には、図２１のステップＳ２１０１
に示されるように、空白でない画素すなわち黒画素が検
出されるまでラインセグメント中をとびとびに検索し、
文字間の白スペースを検出する。ここで、とびとぼの検
索とは、ラインセグメントのすべての画素を検索するの
ではなく、図２２に示されるように、ラインセグメント
の１つの段中の一部の画素２７１のみを検索するもので
ある。なお、ラインセグメントの段中の全画素の１／３
のみ、すなわち３画素ごとの検索で十分であるとの結果
が得られている。画素２７１中で空白でない画素すなわ
ち黒画素が検出されなかった場合には、２７２で示すよ
うに数列の画素をとばして、例えば３画素ごとに新たな
列で黒画素を検索する。ここで、画素を３列とばして
も、非接触で重なっていない文字の検出性能は低下しな
いとの結果が得られている。このようなとびとびの検索
を、図２２の画素２７４のような最初の黒画素が検出さ
れるまで繰り返す。

【０１２０】最初の黒画素が検出されるとステップＳ２
１０２に処理を進め、ラインセグメントを後向きに検索
し、完全に空白な列を検出する。ここでの検索は、ステ
ップＳ２１０１の検索とは異なり、各列ごとにすべての
画素を検索して完全に空白な列を検出するものである。
すなわち、図２２に示されるように、完全に空白な列２
７６が検出されるまで後向きステップ２７５が実行され
る。

【０１２１】完全に空白な列が検出されると、処理をス
テップＳ２１０３に進め、完全に空白な列が検出される
まで画素２７４の列から前向きに検索される。ステップ
Ｓ２１０２と同様に、ここでの前向き検索も各列ごとに
すべての画素を検索するもので、２７７で示すように前
向きに検索される。図２２の２７８で示されるような完
全に空白な列が検出されるまで前向き検索が行われる。

【０１２２】ステップＳ２１０３で完全に空白な列が検
出されると、処理をステップＳ２１０４に進め、空白列
２７６と２７８とで文字を切り出す。その後、処理をス
テップＳ２１０１に戻し、空白でないすなわち黒画素が
再び検出されるまで、ラインセグメントでのとびとびの
検索を再び行う。ラインセグメント全体で階層１の処理
を終えると、テキストが単一スペース（クーリエフォン
トなど）であるか、あるいはテキストのスペースが未知
もしくは単一スペース以外（比例フォントなど）である
かに応じて、図２０の２６１あるいは２６４の階層２の
処理に処理を進める。テキストが単一スペースであれ
ば、２６１の階層２の切り出しに処理を進める。

【０１２３】図２３は単一スペーステキストのための階
層２の処理の流れを示すフローチャートである。なお、
図２３に示される処理ステップは、ＲＯＭ１７に保持さ
れるプログラムステップに基づいてＣＰＵ１０で実行さ
れる。階層２の処理に先立って、文字セグメントの幅を
調べて、過小サイズの文字セグメントを割り出す。ここ
で、文字セグメントの幅が平均文字幅の半分以下のとき
に過小サイズであると判断する。過小サイズの文字セグ
メントが隣り合って存在する場合には、階層１の処理で
１つの文字を半分ずつ２つに切り出してしまった可能性
が高いため、この過小サイズ文字のペアを連結する。

【０１２４】ステップＳ２３０１では、各文字ブロック
の幅をすべての文字ブロックの平均幅と比較して、階層
１で切り出された文字ブロックのうち過大サイズのもの
を割り出す。ここで、各文字ブロックの幅とすべての文
字ブロックの平均幅との比較は、文字が単一スペースで
あって各文字がほぼ同一の幅を有することが既知である
ため、過大サイズの文字ブロックの検出には有効な処理
となる。文字ブロックの幅（「Ｗ」）が以下の式を満た
すと、文字ブロックが過大サイズであると判断される。

【０１２５】

【数５】Ｗ＞（１＋ｃ）＊Ｗ_ave ここで、ｃは定数、Ｗ_ave はラインセグメント中のすべ
ての文字ブロックの平均幅である。なお、この判別処理
はスケールに不変であることに注意されたい。定数ｃ
は、以下のように単一スペースフォントの統計的性質に
基づいて決定される。クーリエアルファベットなどの単
一スペースアルファベットの各文字は、単一なスペース
を有しており、各スペースは文字が存在する部分α_i と
文字の周りの空白スペースの部分β_i とからなる。

【０１２６】例えば、図２４の文字「ｅ」に示されるよ
うに、文字「ｅ」が存在するスペースは中心領域α_i と
周りの空白スペースβ_i とからなる。ここで、ｉは
「ｅ」に対応する番号であり、すべてのｉに対してα_i
＋β_i ＝１である。α_i とβ_i についてはアルファベッ
ト中の各文字、すなわち英字、数字、記号などごとに求
めることができ、α_i とβ_i の平均値（それぞれαと
β）ならびに標準偏差（それぞれσ_A とσ_B ）を計算で
きる。そこで、定数ｃは以下の式で求める。

【０１２７】

【数６】ｃ＝σ_B ／α 図１の装置で用いるクーリエ文字セットでは、α＝２５
／３５，σ_B ＝１０／３５となるためｃ＝０．４とな
る。ステップＳ２３０１で過大サイズの文字ブロックが
割り出されると、ステップＳ２３０２に処理を進め、過
大サイズブロック中に含まれるおおよその文字数を算出
し、おおよその文字境界を求める。具体的には、図２４
において、ブロック２８０の幅Ｗは、すべてのブロック
２８０から２８３の平均の幅に（１＋ｃ）を乗算して計
算されるしきい値より大であるため、ブロック２８０は
過大サイズの文字ブロックと判断される。そして、幅Ｗ
をαで割った値を最も近い整数値に丸めて、過大サイズ
ブロック２８０中のおおよその文字数を算出する。

【０１２８】

【数７】文字数Ｎ＝［Ｗ／α］（最も近い整数）また、ここで得られたブロック中のおおよその文字数
「Ｎ」に基づいて、過大サイズのブロックを単一に分割
して、おおよその文字境界を求める。ステップＳ２３０
３では、ブロック中の画素の垂直投影特性２８４を、お
およその文字境界の近傍２８５で求める。ここで、垂直
投影特性２８４を求める近傍は、距離σ_B に基づいて決
められる。すなわち、図２４に示されるように、おおよ
その文字境界の近傍±σ_B で垂直投影特性２８４を求め
る。

【０１２９】ステップＳ２３０４では、各垂直投影特性
２８４中での最小位置２８６を割り出し、この最小位置
２８４で文字の切り出しを行う。図２０の２６１の階層
２の処理を終えると、文字認識２６３、そしてさらに図
２のステップＳ２０９に処理を進める。ラインセグメン
ト中の文字のスペースが未知あるいは単一スペースでな
い場合には、文字がラインセグメント中で単一のスペー
スを有しているとは限らない。そこで、図２０の２６４
の階層２の処理に進み、非接触であるが重なっている文
字間の切り出しを行う。図２５と図２６とはこの処理を
説明する図である。

【０１３０】ステップＳ２５０１において、階層１で切
り出された各文字を分析して、文字ブロック中の各画像
の輪郭のアウトラインを追跡する処理を行う。すなわ
ち、図２６Ａに示されるように、文字「ｆｙ」を有する
文字ブロックは非接触だが重なっている文字「ｆ」と
「ｙ」を含み、これらは重なっているため階層１の処理
では切り出されない。そこで、図２６Ｂに示されるよう
に、まず、この文字ブロックをブロックの右下から左方
向ならびに上方向に調べて黒画素を検出する。黒画素を
検出すると、図２６Ｃの２８７のように黒画素と黒画素
とを接続したものである輪郭の追跡が行われる。第１の
文字に対して全体の輪郭追跡を終えると、２８８のよう
に文字ブロック中のすべての黒画素の輪郭を追跡するま
で、スキャン処理を続ける。このような処理により、各
々が分離した非接触の文字が得られ、図２６Ｄに示され
るようにこれらの文字が文字ブロックから切り出され
る。

【０１３１】階層２の処理では、非接触だが重なってい
る文字の切り出しとともに、複数のストロークからなる
単一文字、例えば「ｉ」，「ｊ」，「：」，「；」，
「！」，「＝」，「％」をも分離してしまう。そこで、
ステップＳ２５０２でこのような文字の再接続を行う。
図２７はこの処理の詳細なフローチャートである。図２
７に示す再接続処理の対象となるのは階層２の処理で切
り出された文字のみであり、特定の条件を満たすときの
み再接続が行われる。具体的には、ブロックが重なる、
すなわち左側文字の最も右側の画素が右側文字の最も左
側の画素の上あるいは下に位置するような場合にのみ、
ブロックの再接続が行われる。

【０１３２】そこで、ステップＳ２７０１でブロックが
重なっているかどうかを調べる。ブロックが重複してい
なければ、再接続処理は不必要であり（ステップＳ２７
０２）、再接続処理を終了する。一方、ブロックが重複
していれば、ステップＳ２７０３に処理を進め、ブロッ
クが垂直方向に分離しているかどうかを調べる。ここ
で、ブロックが垂直方向に分離していると、「ｉ」，
「ｊ」，「：」，「；」，「！」，「＝」などの複数ス
トローク文字が階層２の処理で切り出されてしまった可
能性があるため、これらの文字であるかどうかを調べ
る。

【０１３３】これらのブロックは垂直方向に分離されて
いるため、高さがＨ１の上部ブロックと高さがＨ２の下
部ブロックとを含む。これらの高さの計算はステップＳ
２７０４で行われ、ステップＳ２７０５でＨ２が（２×
Ｈ１）より大であれば文字「ｉ」あるいは「ｊ」が分離
したものである可能性が高い。そこで、文字の重複度を
計算する（ステップＳ２７０６）。すなわち、２つの部
分に隣接する最も右側の４画素列を平均して、この平均
位置の差を計算する。（全体位置ではなく最も右側の位
置を平均したのは、文字「ｉ」や「ｊ」の上のドットが
「ｉ」や「ｊ」の中心ではなく上部のセリフの右側に位
置するためである）。この際、スケール不変の処理とす
るために、平均位置の差が本体のうちの小さい幅に定数
を乗じたものより小であれば、ブロックを再接続するも
のとする。ここで、定数は、分離の程度が予測できない
ような劣化画像でも再接続できるように選択され、本実
施例では「９／８」としている。

【０１３４】一方、ステップＳ２７０５でＨ２が（２×
Ｈ１）以下、すなわち下部ブロックの高さが上部本体の
２倍以下である場合には、「：」，「；」，「！」，
「＝」などの文字が切り出された可能性が高い。そこ
で、ステップＳ２７０７に処理を進め、この可能性を調
べる。すなわち、各本体中の隣接する４画素列の平均中
心値を求め、これらの中心値の差を得る。この際、スケ
ール不変の処理とするために、中心値の差が２つの本体
の幅のうちの小さい方に定数を乗じたものより小であれ
ば、上述の文字の１つである可能性が高いためブロック
を再接続するものとする。なお、上述のように、定数と
して「９／８」を用いると良好な結果が得られている。

【０１３５】ステップＳ２７０３でブロックが垂直方向
に分離されない場合（すなわち、２つのブロック間に水
平方向に伸びるギャップが存在しない場合）には、文字
はタイプ１のパーセント記号（「タイプ１」）、タイプ
２のパーセント記号（「タイプ２」）、タイプ３のパー
セント記号（「タイプ３」）のどれかである可能性が高
い。そこで、ステップＳ２７０８で以下のように順々に
各タイプごとにチェックする。なお、変数は以下の通り
である。

【０１３６】Ｗ１：第１文字の幅（左から右）Ｗ２：第２文字の幅Ｈ１：第１文字の高さ（上から下）Ｈ２：第２文字の高さＬ１：第１文字の左端画素の列Ｒ１：第１文字の右端画素の列＋１画素Ｌ２：第２文字の左端画素の列Ｒ２：第２文字の右端画素の列＋１画素注意：Ｌ１は常にＬ２以下である。

【０１３７】まず、タイプ１のパーセント記号をチェッ
クする。以下の２つの条件が満たされるときにタイプ１
のパーセント記号であると判断され、ブロックが連結さ
れる。１）０．２４＜ｍｉｎ（Ｗ１，Ｗ２）／ｍａｘ（Ｗ１，
Ｗ２）＜０．７７これはドット幅とライン幅との比の条件である。

【０１３８】２）［ｍｉｎ（Ｒ１，Ｒ２）ーｍａｘ（Ｌ
１，Ｌ２）］／ｍｉｎ（Ｗ１，Ｗ２）＞０．７６これはブロックが水平方向に大部分重なっているという
条件である。次いで、タイプ２のパーセント記号をチェ
ックする。以下の４つの条件が満たされるときにタイプ
２のパーセント記号であると判断され、ブロックが連結
される。

【０１３９】１）（０．２５）Ｌ２＜Ｒ１ーＬ２これはブロックが水平方向に十分重なっているという条
件である。２）０．５０＜Ｗ１／Ｗ２＜１．１０これはドット幅とライン幅の適切な比率の条件である。３）０．４３＜（Ｈ１／Ｈ２）＜０．７０これはドット高とライン高の適切な比率の条件である。

【０１４０】４）（１／ｍ）＞０．３７ここで、ｍはパーセント記号の「斜線」部上のＰ１とＰ
２とを結ぶ線の傾きである。なお、Ｐ１とＰ２とは以下
の手法で求められる。Ｐ１：Ｐ１は第２文字の上部からＤ行目の行で、第２文
字のプリントテキストを含む左端の画素の位置である。
ここで、変数ＤはＤ＝（０．１）Ｗ２である。

【０１４１】Ｐ２：Ｐ２は第２文字の下部からＤ行目の
行で、第２文字のプリントテキストを含む左端の画素の
位置である。さらに、タイプ３のパーセント記号をチェックする。以
下の条件が満たされるときにタイプ３のパーセント記号
であると判断され、ブロックが連結される。１）（０．２５）Ｌ１＜Ｒ２ーＬ１これはブロックが水平方向に十分重なっているという条
件である。

【０１４２】２）０．５０＜Ｗ２／Ｗ１＜１．
１０これはドット幅とライン幅の適切な比率の条件である。３）０．４３＜（Ｈ２／Ｈ１）＜０．７０これはドット高とライン高の適切な比率の条件である。４）（１／ｍ）＞０．３７ここで、ｍはパーセント記号の「斜線」部位上のＰ１と
Ｐ２とを結ぶ線の傾きである。なお、Ｐ１とＰ２とは以
下の手法で求められる。

【０１４３】Ｐ１：Ｐ１は第１文字の上部からＤ行目の
行で、第２文字のプリントテキストを含む右端の画素の
位置である。ここで、変数ＤはＤ＝（０．１）Ｗ２であ
る。Ｐ２：Ｐ２は第１文字の下部からＤ行目の行で、第２文
字のプリントテキストを含む右端の画素の位置である。図２０の２６４で説明した（また、図２３から図２７で
詳細に説明した）階層２の切り出し処理と再接続処理を
終えると、２６５の認識処理を切り出された文字に対し
て行う。階層１と階層２の切り出しにおいてラインセグ
メント中のほとんどの文字は適切に切り出されているた
め、２６５の認識処理では階層１と階層２で切り出され
た文字のほとんどを認識することができる。これに対
し、２６５で認識不能であった文字は、その文字ブロッ
クに接触文字が含まれている可能性が高い。そこで、こ
のような認識不能の文字ブロックに対して、２６６の階
層３の切り出し処理を行い、接触文字を切り出す。

【０１４４】図２８は階層３の切り出し処理を示すフロ
−チャ−トであり、図２９Ａから図２９Ｄは接触文字を
階層３で切り出す処理を説明する図である。図２８に示
される処理ステップはＲＯＭ１７に保持されており、Ｃ
ＰＵ１０で実行される。一般に階層３の切り出し処理
は、文字ブロックを斜めに切り出して行われる。斜めの
切り出し線の傾きと位置とは、ブロック中の画素密度の
垂直投影特性を求め、垂直投影特性中で最も深い谷の側
面の傾きを求めることで算出される。そこで、再び画素
密度の垂直方向以外の投影を行う。すなわち、垂直投影
特性中の谷側面の傾きに対応する回転角度方向に画素密
度の投影を行う。こうして得られた複数の密度投影の中
での最小点を検出し、最小点が得られた角度と位置で切
り出しを行う。以下、この処理について詳細な説明を行
う。

【０１４５】ステップＳ２８０１において、画素密度の
垂直投影特性を求める。例えば、図２９Ａに示されるよ
うに、接触文字「ｔｉ」に対して垂直投影特性を求め
る。ステップＳ２８０２では、垂直投影特性中の第１の
谷を検出する。垂直投影特性はデジタルであるため（す
なわち、離散的な画素数の和であるため）、滑らかでは
なく、谷は垂直投影特性中の最小値が第１の低しきい値
より下であって、第２の高いしきい値より大きい極大点
で両側が囲まれた点であることで見付け出される。した
がって、図２９Ａに示されるように、垂直投影特性を調
べて、高いしきい値２９２より高い上の点で囲まれてい
るような低しきい値２９１より下の点が存在するかどう
かを判別する。このような条件を満たす点が検出されれ
ば、処理をステップＳ２８０３に進める。このような条
件を満たす点が検出されなければ、以下に述べるように
しきい値の変更を行う。

【０１４６】まず、低いしきい値２９１を垂直投影特性
の最大値の１０％とし、高いしきい値２９２を垂直投影
特性の最大値の２０％とする。ここで、高いしきい値と
低いしきい値に関する条件を満たす点が検出されない場
合には、高いしきい値と低いしきい値との双方とも垂直
投影特性の最大値の２％だけ増加させる。図２９Ａで
は、しきい値２９１と２９２の条件を満たす点は検出さ
れない。そこで、しきい値を図２９Ｂに示すように増加
させて、低いしきい値２９１以下であって、高いしきい
値２９２より高いの点２９５と２９６が両側に存在する
ような点２９４を検出する。点２９４を検出すると、ス
テップＳ２８０３に処理を進め、点２９４を囲む谷側面
の傾きを算出する。谷の右側面の傾きは点２９４と２９
５とを結ぶ線の傾きでありθ₁ で示される。同様に、谷
の左側面の傾きは点２９４と２９６とを結ぶ線の傾きで
ありθ₂ で示される。

【０１４７】そこで、ステップＳ２８０４に処理を進
め、角度θ₁ とθ₂ および角度θ₁ とθ₂ の近傍で回転
させて投影特性を求める。すなわち、回転投影特性を角
度θ₁，θ₁ ±３°，θ₁ ±６°，θ₂ ，θ₂ ±３°，
θ₂ ±６°で求める。この回転投影特性は文字ブロック
中の画素を三角関数変換することで求められる。より簡
易な手法として、各回転角度（最も近い角度に近似）ご
とに画素位置が示される表を用意して、テ−ブルルック
アップで回転投影特性を求めることもできる。なお、回
転投影特性の各点は、この画素位置の和として求められ
る。

【０１４８】図２９Ｃの２９７は回転投影特性の典型例
を示したものである。回転投影特性２９７上の各点は、
ここではθ₁ の回転方向の画素数の和として求められ
る。上述のように、ここでの和は、文字ブロック中の画
像を三角関数変換することで求めることもできるし、各
回転角度ごとに用意された表を参照して簡易に求めるこ
ともできる。

【０１４９】図２９ＣとＤの点線で示されるようなすべ
ての回転投影特性を求めると、ステップＳ２８０５に処
理を進め、各回転投影特性（１０個すべて）ならびにス
テップＳ２８０１で求めた垂直投影特性とを比較して、
すべての投影特性の中で最小点を検出する。最小点とな
る投影特性の角度が切り出し角度に対応する。すなわ
ち、図２９Ｃに示されるように、点２９９が１１個の投
影特性の中で最小点となれば、文字ブロックの切り出し
が角度θ₁ で最小点２９９の位置で行われる（ステップ
Ｓ２８０６）。

【０１５０】階層３の切り出し処理を終えると、切り出
された文字に対して認識処理２６７を行う。ここで、階
層３で切り出された２つの文字ブロックとも認識が行わ
れたならば、図２のステップＳ２０９に処理を進める。
しかし、ここでもなお認識不能なブロックが残る可能性
があり、不適切な切り出しが行われた可能性と切り出さ
れた文字ブロックを再接続すべきであるという点を考慮
する必要がある。この処理は再接続ブロック２６９で行
われ、図３０に詳細に示されている。

【０１５１】ステップＳ３００１では、階層３での切り
出し部分の双方に対して２６７の認識処理を試みる。ス
テップＳ３００２で２つの要素の認識が可能であると判
断されると、上述の図２のステップＳ２０９に処理を進
める。一方、２つの切り出し要素とも認識不能である場
合には、ステップＳ３００３において少なくとも１つの
要素が認識可能であるかどうかを判別する。２つの要素
とも認識不能である場合にはステップＳ３００４に進
み、各要素に対して階層３の切り出し処理とステップＳ
３００１などの処理とを行う。

【０１５２】一方、ステップＳ３００３において少なく
とも１つの要素が認識可能であると判断されると、ステ
ップＳ３００５に処理を進め、認識不能の要素に対して
さらに階層３の切り出し処理を行う。そして、ステップ
Ｓ３００６で新たに切り出された要素が認識可能である
と判断されれば、認識不能な要素はなくなり図２のステ
ップＳ２０９に処理を進める。これに対して、新たに切
り出された要素がともに認識不能であるとステップＳ３
００６で判断されると、ステップＳ３００７に処理を進
め、不適切な切り出しブロックを再接続することを考え
る。

【０１５３】図３１は、階層３の処理において不適切な
切り出しが行われる可能性を説明する図である。図３１
Ａはイタリック文字「ｈｍ」がかなり劣化している例を
示したものである。図２０の２６６の階層３の処理では
第１の切り出しを３０１で行うため、文字「ｈ」の垂直
部とル−プ部とが分離してしまう。そして、切り出され
た各要素に対して２６７で認識処理を行い、第１のブロ
ックは「ｌ」として認識され、第２のブロックは認識不
能と判断されたとする。

【０１５４】このような場合、処理はステップＳ３００
５に進み、認識不能の要素３０３に対して図３１Ｂのよ
うにさらなる階層３の切り出し処理が行われる。階層３
の処理により、３０４でさらなる切り出しが行われ、切
り出された要素３０５と３０６に対して２６７の認識処
理が行われる。しかし、要素３０５は文字として認識不
能であるため、再接続処理が必要であると判断される。

【０１５５】そこで、ステップＳ３００７において、認
識不能の切り出し要素を、あらかじめ切り出された隣接
する要素と接続する。この際、隣接する要素は認識され
たものでも、認識不能のものでも良い。すると、図３１
Ｃのように、要素３０２を要素３０５と再接続して文字
「ｈ」をほとんど含む新たな要素３０２’が生成され
る。そこで、要素３０２’と要素３０６とに対して２６
７の認識処理を行う（ステップＳ３００８）。

【０１５６】これらの処理を終えると、ステップＳ３０
０１に処理を進め、２つの要素ともに認識されたかどう
かを調べる。この例の場合には、２つの要素とも文字
「ｈ」、「ｍ」として認識されたため処理を終了する。
一方、２つの要素とも認識不能であった場合には、上述
の処理を繰り返す。

【０１５７】

【発明の効果】以上説明したように、本発明により、高
速かつ正確に文書上の文字を認識してテキストファイル
を作成する文字認識方法及び装置を提供できる。また、
高速かつ正確に文書上のテキストと非テキストとを選別
して、テキストブロックを割り出す方法及び装置を提供
できる。

【０１５８】また、高速かつ正確に文書上の非テキスト
を分類できる方法及び装置を提供できる。また、高速か
つ正確にテキストブロックからテキストラインを分割で
きる方法及び装置を提供できる。また、高速かつ正確に
傾いた文書のテキストブロックからテキストラインを分
割できる方法及び装置を提供できる。

【０１５９】また、高速かつ正確にテキストラインから
文字を切り出す方法及び装置を提供できる。また、不適
切に切り出された文字の再切り出しが可能な方法及び装
置を提供できる。

【図面の簡単な説明】

【図１】本実施例の装置のブロック図である。

【図２】文字認識処理の流れを示すフローチャートであ
る。

【図３】本実施例に基づくブロック分類と選別の処理の
流れを示すフローチャートである。

【図４Ａ】画素画像データ中の連結部位の分類処理の流
れを示すフローチャートである。

【図４Ｂ】画素画像データ中の連結部位の分類処理の流
れを示すフローチャートである。

【図４Ｃ】画素画像データ中の連結部位の分類処理の流
れを示すフローチャートである。

【図５Ａ】輪郭追跡を説明するための図である。

【図５Ｂ】輪郭追跡を説明するための図である。

【図５Ｃ】輪郭追跡を説明するための図である。

【図６Ａ】非テキスト部位の分類処理を説明するための
図である。

【図６Ｂ】非テキスト部位の分類処理を説明するための
図である。

【図６Ｃ】非テキスト部位の分類処理を説明するための
図である。

【図７Ａ】白輪郭処理を説明するための図である。

【図７Ｂ】白輪郭処理を説明するための図である。

【図７Ｃ】白輪郭処理を説明するための図である。

【図７Ｄ】白輪郭処理を説明するための図である。

【図８】他のテキスト部位のサイズと近さに基づいてテ
キスト部分を水平方向に選択的に連結してテキストライ
ンを形成する処理の流れを示すフローチャートである。

【図９】他のテキストラインのサイズと近さに基づいて
テキストラインを垂直方向に選択的に連結してテキスト
ブロックを形成する処理の流れを示すフローチャートで
ある。

【図１０】代表的な画像の画素データを示す図である。

【図１１】ブロック分類と選別処理を説明するための図
である。

【図１２】ブロック分類と選別処理を説明するための図
である。

【図１３】ブロック分類と選別処理を説明するための図
である。

【図１４】図１１から１３にそれぞれ対応する典型的な
階層的木構造である。

【図１５】図１１から１３にそれぞれ対応する典型的な
階層的木構造である。

【図１６】図１１から１３にそれぞれ対応する典型的な
階層的木構造である。

【図１７】本実施例のライン分割処理の流れを示すフロ
ーチャートである。

【図１８Ａ】本実施例のライン分割処理を説明するため
の図である。

【図１８Ｂ】本実施例のライン分割処理を説明するため
の図である。

【図１８Ｃ】本実施例のライン分割処理を説明するため
の図である。

【図１８Ｄ】本実施例のライン分割処理を説明するため
の図である。

【図１９Ａ】本実施例のライン分割処理を説明するため
の図である。

【図１９Ｂ】本実施例のライン分割処理を説明するため
の図である。

【図１９Ｃ】本実施例のライン分割処理を説明するため
の図である。

【図１９Ｄ】本実施例のライン分割処理を説明するため
の図である。

【図２０】本実施例の文字切り出し処理の機能ブロック
図である。

【図２１】図２０の階層１の文字切り出し処理の流れを
示すフローチャートである。

【図２２】階層１の切り出し処理を説明するための図で
ある。

【図２３】図２０における単一スペースモード（クーリ
エフォントなど）の階層２の文字切り出し処理の流れを
示すフローチャートである。

【図２４】階層２の文字切り出し処理を説明するための
図である。

【図２５】図２０における全スペースモード（比例スペ
ースなど）の階層２の文字切り出し処理の流れを示すフ
ローチャートである。

【図２６Ａ】階層２の文字切り出し処理を説明するため
の図である。

【図２６Ｂ】階層２の文字切り出し処理を説明するため
の図である。

【図２６Ｃ】階層２の文字切り出し処理を説明するため
の図である。

【図２６Ｄ】階層２の文字切り出し処理を説明するため
の図である。

【図２７】階層２の処理で切り出された複数ストローク
文字を再融合するための再融合手法を示すフローチャー
トである。

【図２８】図２０の階層３の処理の流れを示すフローチ
ャートである。

【図２９Ａ】階層３の文字切り出し処理を説明するため
の図である。

【図２９Ｂ】階層３の文字切り出し処理を説明するため
の図である。

【図２９Ｃ】階層３の文字切り出し処理を説明するため
の図である。

【図２９Ｄ】階層３の文字切り出し処理を説明するため
の図である。

【図３０】図２０の階層３の処理で切り出された部位の
再融合処理の流れを示すフローチャートである。

【図３１Ａ】再連結処理を説明するための図である。

【図３１Ｂ】再連結処理を説明するための図である。

【図３１Ｃ】再連結処理を説明するための図である。

【図３２】文字認識すべき文書のページの代表例であ
る。

【図３３Ａ】従来のライン分割手法を説明するための図
である。

【図３３Ｂ】従来のライン分割手法を説明するための図
である。

【図３３Ｃ】従来のライン分割手法を説明するための図
である。

【図３４Ａ】従来の文字切り出し手法を説明するための
図である。

【図３４Ｂ】従来の文字切り出し手法を説明するための
図である。

【図３５】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図３６】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図３７】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図３８】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図３９】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図４０】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図４１】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図４２】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図４３】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図４４】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図４５】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図４６】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図４７】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図４８】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図４９】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図５０】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図５１】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図５２】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図５３】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図５４】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図５５】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図５６】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図５７】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図５８】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図５９】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図６０】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図６１】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図６２】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図６３】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図６４】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図６５】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図６６】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図６７】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図６８】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図６９】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図７０】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図７１】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図７２】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図７３】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図７４】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図７５】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図７６】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図７７】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図７８】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図７９】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図８０】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図８１】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図８２】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図８３】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図８４】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図８５】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図８６】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図８７】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図８８】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図８９】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図９０】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図９１】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図９２】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図９３】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図９４】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図９５】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図９６】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図９７】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図９８】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図９９】本実施例のブロック選別プログラムのソース
コードを示す図である。

【図１００】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１０１】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１０２】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１０３】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１０４】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１０５】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１０６】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１０７】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１０８】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１０９】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１１０】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１１１】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１１２】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１１３】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１１４】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１１５】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１１６】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１１７】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１１８】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１１９】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１２０】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１２１】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１２２】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１２３】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１２４】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１２５】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１２６】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１２７】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１２８】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１２９】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１３０】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１３１】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１３２】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１３３】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１３４】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１３５】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１３６】本実施例のブロック選別プログラムのソー
スコードを示す図である。

【図１３７】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１３８】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１３９】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１４０】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１４１】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１４２】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１４３】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１４４】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１４５】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１４６】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１４７】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１４８】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１４９】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１５０】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１５１】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１５２】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１５３】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１５４】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１５５】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１５６】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１５７】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１５８】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１５９】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１６０】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１６１】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１６２】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１６３】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１６４】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１６５】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１６６】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１６７】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１６８】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１６９】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１７０】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１７１】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１７２】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１７３】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１７４】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１７５】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１７６】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１７７】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１７８】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１７９】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１８０】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１８１】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１８２】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１８３】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１８４】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１８５】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１８６】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１８７】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１８８】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１８９】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１９０】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１９１】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１９２】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１９３】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１９４】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１９５】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１９６】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１９７】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１９８】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図１９９】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２００】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２０１】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２０２】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２０３】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２０４】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２０５】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２０６】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２０７】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２０８】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２０９】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２１０】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２１１】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２１２】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２１３】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２１４】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２１５】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２１６】本実施例の比例スペースプログラムのソー
スコードを示す図である。

【図２１７】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２１８】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２１９】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２２０】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２２１】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２２２】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２２３】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２２４】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２２５】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２２６】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２２７】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２２８】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２２９】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２３０】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２３１】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２３２】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２３３】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２３４】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２３５】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２３６】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２３７】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２３８】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２３９】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２４０】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２４１】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２４２】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２４３】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２４４】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２４５】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２４６】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

【図２４７】本実施例の単一スペース（輪郭）分割プロ
グラムのソースコードを示す図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者クリストファーエー．シェリックアメリカ合衆国カリフォルニア州 92626，コスタメサプルマンストリート 3188 キヤノンインフォメーションシステムズインク．内 (56)参考文献特開平３−43879（ＪＰ，Ａ) 特開平３−78892（ＪＰ，Ａ) 特開平１−303587（ＪＰ，Ａ) 特開平２−128293（ＪＰ，Ａ) 特開平５−73717（ＪＰ，Ａ) 特開平２−33686（ＪＰ，Ａ) 特開平３−250279（ＪＰ，Ａ) 特開平５−166002（ＪＰ，Ａ) 特開平５−233873（ＪＰ，Ａ) 特開昭63−82588（ＪＰ，Ａ) 特開昭58−123169（ＪＰ，Ａ) 特開昭58−90272（ＪＰ，Ａ) 汎用的な文書画像の階層的領域分割と識別法，電子情報通信学会論文誌，日本，1992年２月，Ｄ−ＩＩＶｏｌ. Ｊ75−Ｄ−ＩＩＮｏ．２，ｐｐ．246 −256 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06K 9/00 - 9/82

Claims

(57)【特許請求の範囲】

【請求項１】画像に対して有意な画素の輪郭追跡処理
を行って連結要素を検出する連結要素検出ステップと、前記連結要素検出ステップで検出した連結要素に外接す
る矩形を形成する矩形形成ステップと、前記矩形形成ステップで形成された矩形の位置に基づい
て、前記連結要素の階層的木構造を形成する木構造形成
ステップと、前記連結要素の属性を分類して、前記階層的木構造中の
連結要素に属性を付与する属性付与ステップと、前記付与された属性に基づいて、前記木構造形成ステッ
プで形成された階層的木構造のノードを変更するノード
変更ステップと、前記階層的木構造中のテキスト属性が付与されたテキス
ト連結要素と他のテキスト連結要素との距離に基づい
て、該テキスト連結要素を選択的に横方向に連結してテ
キストラインを形成し、前記ノード変更ステップで変更
された階層的木構造を更新する第１の連結ステップと、前記第１の連結ステップで形成されたテキストラインと
他のテキストラインとの距離に基づいて、該テキストラ
インを選択的に縦方向に連結してテキストブロックを形
成し、前記階層的木構造を更新する第２の連結ステップ
とを有することを特徴とする画像処理方法。
【請求項２】前記属性付与ステップは、前記連結要素
のサイズに基づいて、該連結要素の属性がテキストであ
るか判断するステップを含むことを特徴とする請求項１
に記載の画像処理方法。
【請求項３】前記属性付与ステップは、前記連結要素
の属性が中間調画像であるか判断するステップを含むこ
とを特徴とする請求項１に記載の画像処理方法。
【請求項４】前記属性付与ステップは、前記連結要素
の属性がフレームであるか判断するステップを含むこと
を特徴とする請求項１に記載の画像処理方法。
【請求項５】前記属性付与ステップは、フレームと判
断された連結要素内部において有意でない画素の輪郭追
跡処理を行って該有意でない画素の輪郭を検出し、該有
意でない画素の輪郭に基づいて、該フレームと判断され
た連結要素が表であるか判断するステップを含むことを
特徴とする請求項４に記載の画像処理方法。
【請求項６】前記属性付与ステップは、前記有意でな
い画素の輪郭の数と充填率と再接続率に基づいて、該フ
レームと判断された連結要素が表であるか判断すること
を特徴とする請求項５に記載の画像処理方法。
【請求項７】前記属性付与ステップは、前記連結要素
の属性が線であるか判断するステップを含むことを特徴
とする請求項１に記載の画像処理方法。
【請求項８】前記属性付与ステップは、前記連結要素
内部において有意でない画素の輪郭追跡処理を行って該
有意でない画素の輪郭を検出し、該有意でない画素の輪
郭に基づいて、該連結要素が表であるか判断するステッ
プを含むことを特徴とする請求項１に記載の画像処理方
法。
【請求項９】前記属性付与ステップは、前記連結要素
の属性が線画であるか判断するステップを含むことを特
徴とする請求項１に記載の画像処理方法。
【請求項１０】前記属性付与ステップは、属性の判断
がつかない連結画素に、未知の属性を付与することを特
徴とする請求項１に記載の画像処理方法。
【請求項１１】更に、前記テキストブロックを複数の
テキストラインに分割するライン分割ステップと、前記ライン分割ステップで分割されたテキストラインか
ら文字を切り出す文字切り出しステップと、前記文字切り出しステップで切り出された文字に対して
文字認識処理を行う文字認識ステップと、前記文字認識ステップでの文字認識処理結果を、前記階
層的木構造で確定された順に対応してテキストファイル
に格納する格納ステップとを有することを特徴とする請
求項１に記載の画像処理方法。
【請求項１２】更に、前記階層的木構造に基づく順序
にしたがって、画像を再生する再生ステップを有するこ
とを特徴とする請求項１１に記載の画像処理方法。
【請求項１３】画像に対して有意な画素の輪郭追跡処
理を行って連結要素を検出する連結要素検出ステップ
と、前記連結要素検出ステップで検出した連結要素に外接す
る矩形を形成する矩形形成ステップと、前記矩形形成ステップで形成された矩形の位置に基づい
て、前記連結要素の階層的木構造を形成する木構造形成
ステップと、前記連結要素の属性を分類して、前記階層的木構造中の
連結要素に属性を付与する属性付与ステップと、前記付与された属性に基づいて、前記木構造形成ステッ
プで形成された階層的木構造のノードを変更するノード
変更ステップとを有することを特徴とする画像処理方
法。
【請求項１４】２値画像に対して黒画素の外側輪郭追
跡処理を行って連結要素を検出する連結要素検出ステッ
プと、前記連結要素内部において白画素の輪郭追跡処理を行っ
て、白輪郭を検出する白輪郭検出ステップと、前記白輪郭検出ステップで検出された白輪郭の数と充填
率と再接続率に基づいて、該連結要素の属性が表である
か判断する表判断ステップとを有することを特徴とする
画像処理方法。
【請求項１５】画像に対して有意な画素の輪郭追跡処
理を行って連結要素を検出する連結要素検出手段と、前記連結要素検出手段で検出した連結要素に外接する矩
形を形成する矩形形成手段と、前記矩形形成手段で形成された矩形の位置に基づいて、
前記連結要素の階層的木構造を形成する木構造形成手段
と、前記連結要素の属性を分類して、前記階層的木構造中の
連結要素に属性を付与する属性付与手段と、前記属性付与手段により付与された属性に基づいて、前
記木構造形成手段で形成された階層的木構造のノードを
変更するノード変更手段と、前記階層的木構造中のテキスト属性が付与されたテキス
ト連結要素と他のテキスト連結要素との距離に基づい
て、該テキスト連結要素を選択的に横方向に連結してテ
キストラインを形成し、前記ノード変更手段で変更され
た階層的木構造を更新する第１の連結手段と、前記第１の連結手段で形成されたテキストラインと他の
テキストラインとの距離に基づいて、該テキストライン
を選択的に縦方向に連結してテキストブロックを形成
し、前記階層的木構造を更新する第２の連結手段とを有
することを特徴とする画像処理装置。
【請求項１６】前記属性付与手段は、前記連結要素の
サイズに基づいて、該連結要素の属性がテキストである
か判断する手段を含むことを特徴とする請求項１５に記
載の画像処理装置。
【請求項１７】前記属性付与手段は、前記連結要素の
属性が中間調画像であるか判断する手段を含むことを特
徴とする請求項１５に記載の画像処理装置。
【請求項１８】前記属性付与手段は、前記連結要素の
属性がフレームであるか判断する手段を含むことを特徴
とする請求項１５に記載の画像処理装置。
【請求項１９】前記属性付与手段は、フレームと判断
された連結要素内部において有意でない画素の輪郭追跡
処理を行って該有意でない画素の輪郭を検出し、該有意
でない画素の輪郭に基づいて、該フレームと判断された
連結要素が表であるか判断する手段を含むことを特徴と
する請求項１８に記載の画像処理装置。
【請求項２０】前記属性付与手段は、前記有意でない
画素の輪郭の数と充填率と再接続率に基づいて、該フレ
ームと判断された連結要素が表であるか判断することを
特徴とする請求項１９に記載の画像処理装置。
【請求項２１】前記属性付与手段は、前記連結要素の
属性が線であるか判断する手段を含むことを特徴とする
請求項１５に記載の画像処理装置。
【請求項２２】前記属性付与手段は、前記連結要素内
部において有意でない画素の輪郭追跡処理を行って該有
意でない画素の輪郭を検出し、該有意でない画素の輪郭
に基づいて、該連結要素が表であるか判断する手段を含
むことを特徴とする請求項１５に記載の画像処理装置。
【請求項２３】前記属性付与手段は、前記連結要素の
属性が線画であるか判断する手段を含むことを特徴とす
る請求項１５に記載の画像処理装置。
【請求項２４】前記属性付与手段は、属性の判断がつ
かない連結画素に、未知の属性を付与することを特徴と
する請求項１５かに記載の画像処理装置。
【請求項２５】更に、前記テキストブロックを複数の
テキストラインに分割するライン分割手段と、前記ライン分割手段で分割されたテキストラインから文
字を切り出す文字切り出し手段と、前記文字切り出し手段で切り出された文字に対して文字
認識処理を行う文字認識手段と、前記文字認識手段での文字認識処理結果を、前記階層的
木構造で確定された順に対応してテキストファイルに格
納する格納手段とを有することを特徴とする請求項１５
に記載の画像処理装置。
【請求項２６】更に、前記階層的木構造に基づく順序
にしたがって、画像を再生する再生手段を有することを
特徴とする請求項２５に記載の画像処理装置。
【請求項２７】画像に対して有意な画素の輪郭追跡処
理を行って連結要素を検出する連結要素検出手段と、前記連結要素検出手段で検出した連結要素に外接する矩
形を形成する矩形形成手段と、前記矩形形成手段で形成された矩形の位置に基づいて、
前記連結要素の階層的木構造を形成する木構造形成手段
と、前記連結要素の属性を分類して、前記階層的木構造中の
連結要素に属性を付与する属性付与手段と、前記付与された属性に基づいて、前記木構造形成手段で
形成された階層的木構造のノードを変更するノード変更
手段とを有することを特徴とする画像処理装置。
【請求項２８】２値画像に対して黒画素の外側輪郭追
跡処理を行って連結要素を検出する連結要素検出手段
と、前記連結要素内部において白画素の輪郭追跡処理を行っ
て、白輪郭を検出する白輪郭検出手段と、前記白輪郭検出手段で検出された白輪郭の数と充填率と
再接続率に基づいて、該連結要素の属性が表であるか判
断する表判断手段とを有することを特徴とする画像処理
装置。