JPH07296109A

JPH07296109A - 画像処理方法とその装置

Info

Publication number: JPH07296109A
Application number: JP6081998A
Authority: JP
Inventors: Michiko Hirayu; 三知子平湯; Yuka Nagai; 由佳長井; Akihiko Sakai; 明彦酒井; Eiji Ohara; 栄治大原
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1994-04-20
Filing date: 1994-04-20
Publication date: 1995-11-10

Abstract

(57)【要約】【目的】画像イメージに複数の属性を持つデータが混
在していても、オペレータのデータの属性毎に対応する
認識部の選択指示が不要で、高速に画像イメージを認識
する画像処理方法とその装置を提供することを目的とす
る。【構成】１は画像を取り込む、２はスキャナ回路１か
ら入力したデータをメモリ３に格納し読み出す制御を行
うメモリコントロール回路、４は、読み込まれた画像の
属性分離を行うブロックセレクション（Block Selectio
n）回路、５は、その画像のテキストが日本語か英語か
を判定する回路、６は、テキストを認識するＯＣＲ回
路、７は、ＯＣＲ回路６から参照される日本語認識辞
書、８は、ＯＣＲ回路から参照される英語認識辞書、９
は、ＯＣＲ回路６の結果出力回路、１０は、画像処理装
置全体の制御を行うシステム制御回路である。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、画像処理方法とその装
置に関し、特に複数の情報が混在している画像処理方法
とその装置に関するものである。

【０００２】

【従来の技術】従来、画像処理装置としてＯＣＲ（光学
式文字読取装置）を例にとると、例えば、原稿を認識さ
せる場合に、原稿が日本語であれば日本語ＯＣＲを、英
語であれば英語ＯＣＲにと、ユーザがマニュアル指定に
より、切り換えながら使用するのが一般的であった。

【０００３】

【発明が解決しようとする課題】しかしながら、上記従
来例では、原稿が日本語，英語と混在している際に、い
ちいちマニュアルにより切り換える必要があり、また混
在の原稿が大量にある場合、わずらしい操作を繰り返さ
なければならず、操作効率が悪い等の欠点を有してい
た。

【０００４】本発明は上記従来例に鑑みてなされたもの
で、画像イメージに複数の属性を持つデータが混在して
いても、オペレータのデータの属性毎に対応する認識部
の選択指示が不要で、高速に画像イメージを認識する画
像処理方法とその装置を提供することを目的とする。

【０００５】

【課題を解決するための手段】上記目的を達成するた
め、本発明の画像処理方法とその装置は以下の構成を備
える。即ち、画像イメージ中の同じ属性をもつ要素を連
結し、同属性のブロックを生成する連結工程と、前記同
属性のブロックの属性に対応する前記要素を認識する認
識工程と、前記同属性のブロックの属性に対応する前記
認識工程を駆動する駆動工程と、を備える。

【０００６】また、別の発明は、画像イメージ中の同じ
属性をもつ要素を連結し、同属性のブロックを生成する
連結手段と、前記同属性のブロックの属性に対応する前
記要素を認識する認識手段と、前記同属性のブロックの
属性に対応する前記認識手段を駆動する駆動手段と、を
備える。

【０００７】

【作用】以上の構成において、画像イメージ中の同じ属
性をもつ要素を連結し、同属性のブロックを生成し、前
記同属性のブロックの属性に対応する前記要素を認識
し、前記同属性のブロックの属性に対応する前記認識工
程を駆動する。

【０００８】また、別の発明は、連結手段が、画像イメ
ージ中の同じ属性をもつ要素を連結し、同属性のブロッ
クを生成し、認識手段が、前記同属性のブロックの属性
に対応する前記要素を認識し、駆動手段が、前記同属性
のブロックの属性に対応する前記認識手段を駆動する。

【０００９】

【実施例】まず、本実施例の構成を大まかに説明する。

【００１０】本実施例の画像処理装置は、画像読み取り
手段と画像記憶手段と、ブロックセレクション（属性
分離）手段と、日本語ＯＣＲ手段と、英語ＯＣＲ手段
と、前記ブロックセレクション（属性分離）手段の分
離結果と、前記日本語ＯＣＲ手段と英語ＯＣＲ手段の文
字画像に対するマッチング結果により文書画像情報が日
本語か英語かを判読する日本語・英語判定手段とを備
え、文書画像情報に対応したＯＣＲに自動的に切り換え
るようにしたものである。

【００１１】以下、本発明の実施例の画像処理装置につ
いて詳細に説明する。

【００１２】図１は、本発明に係る一実施例の画像処理
装置の構成を示すブロック図である。

【００１３】図１において、１は、画像を取り込むスキ
ャナ回路、２は、メモリコントロール回路、３は、メモ
リ３を制御するメモリ回路、４は、属性分離を行うブロ
ックセレクション（Block Selection）回路、５は、日
本語か英語かを判定する回路、６は、文字を認識するＯ
ＣＲ回路、７は、ＯＣＲ回路から参照される日本語認識
辞書、８は、ＯＣＲ回路から参照される英語認識辞書、
９は、６のＯＣＲ回路の結果出力回路、１０は、画像処
理装置全体の制御を行うシステム制御回路である。

【００１４】次に、各回路の詳細な説明を行う。

【００１５】まず、ブロックセレクション回路４は、属
性分離を行う回路であり、動作原理は以下の通りであ
る。

【００１６】図２は、ブロックセレクション処理のおお
まかなフロー図である。

【００１７】ステップＳ１０００では、ブロックセレク
ションの処理速度を速くしたい場合には、イメージデー
タの間引き処理を行う。イメージデータの間引きが行わ
れた場合には、ブロックセレクションの処理は、その間
引かれたイメージに対して行われる。イメージデータの
間引きは、画素のｍ×ｍブロックにおける黒画素の連結
性を調べることにより行われる。例えば、３×３の画素
ブロックにおいて、連結した黒画素が２つ存在する場合
は、その３×３の画素ブロックは、一つの黒画素に間引
かれる。逆に、そのブロックにおいて、連結白画素が２
つ存在する場合は、そのブロックは、一つの白画素に間
引かれる。

【００１８】ステップＳ１００１では、画素のイメージ
が解析され、連結性が探索されるとともに、その大きさ
や他の連結成分に対する相対的な位置に応じて分類され
る。尚、ここで、一つの"連結成分"とは、白画素によっ
て完全に囲まれた黒画素の集合を意味する。したがっ
て、一つの黒画素連結成分は、他の黒画素連結成分から
少なくとも一つの白画素により完全に分離される。ステ
ップＳ１００１での詳細な処理は、図３を用いて後述す
るが、おおまかには、連結成分の探索と、大きさの情報
と連結成分同志から得られるいくつかの統計的な情報に
基づいて行われる連結成分のクラス分けを行う。クラス
分けでは、まず、それぞれの連結成分が、テキストユニ
ットか、非テキストユニットかに分類される。そして、
非テキストユニットは、さらに詳細な解析をされ、それ
が、フレーム構造を持つデータ，ハーフトーンイメー
ジ，線画，表かその他の表形式のテキストデータかに決
定される。それが未知のものであれば、未知のものとし
て扱い、分類は行わない。そして、連結成分の構成デー
タから、そのデータの再構築を容易にするように、階層
的な木構造を、それぞれの連結成分に対してつくる。

【００１９】ステップＳ１００２では、近接した連結成
分を、"ギャップライン"を挟まない限りグループ化す
る。ここで、ギャップラインとは、対象画像が、例えば
写真等の画像部分とテキストデータを含む場合、その写
真等の画像部分の並行な２本の枠線を延長した時、それ
ら延長した２本の枠線を意味する。ギャップラインによ
って挟まれる領域に、一般的に、その写真等の画像部分
に関するテキストデータが配置される可能性が高いた
め、連結成分のグループ化のための一つの重要な基準と
なる。

【００２０】ここでのグループ化は、垂直方向に行う場
合と水平方向に行う場合とがある。これはグループ化し
ようとするテキストユニットが縦書きであるか横書きで
あるかということに対応しており、両方向に近接した連
結成分間の距離をあらかじめ水平・垂直それぞれの方向
について調べて、水平方向の距離が小さい場合には水平
方向に、垂直方向の距離が小さい場合には垂直方向にグ
ループ化を行う。

【００２１】尚、ステップＳ１００１で生成されたツリ
ー構造は、テキストと非テキストが不適当に混ざらない
ようにするために用いられる。さらに、ステップＳ１０
０２では、行間で垂直もしくは水平方向に延長したギャ
ップラインと、非テキストユニットの垂直方向に延長し
たギャップラインに基づいて、テキストユニットが行に
グループ化されるかどうかを決定する。この行構造ある
いは列構造は、適当に階層木構造を更新していくことに
より、その木構造のなかに保持される。

【００２２】ステップＳ１００３では、ステップＳ１０
０２でグループ化された行が、先にグループ化された方
向とは逆方向について、スペースが狭ければ、その方向
に再度グループ化されブロックとなる。

【００２３】一方、非テキストユニットは、そのイメー
ジページに対する境界として用いられる。二つの非テキ
ストユニットの間にあるテキストユニットは、他のテキ
ストラインユニットとは分けられて処理される。

【００２４】さらに、ステップＳ１００３では、ステッ
プＳ１００１で分類できなかった非テキストユニット
が、大きいフォントサイズのタイトルであるかどうかを
決定するために解析される。もし、それらがタイトルと
決定されたならば、それらのユニットは、適当な属性が
つけられ、そして、木構造は更新される。タイトルは、
そのページを再構築する手助けとなる。

【００２５】次に、ステップＳ１００１での詳細な処理
を説明するフロー図である図３を参照して、どのように
画素イメージデータの連結画素を検出し、それらの連結
画素を分類するかを説明する。

【００２６】ステップＳ１１０１では、画素イメージデ
ータが、輪郭線追跡により探索される。輪郭線追跡は、
図６に示されるように、イメージをスキャンすることに
より行われる。図６では、３５の図形と、３６の"ＴＥ
ＸＴ"という文字列、３２の"Ｑ"という文字、３５の“n
on-text”という手書き文字の輪郭線追跡の様子を示
す。この輪郭線抽出には、３１の８方向ベクトルを用い
る。スキャンは、矢印Ａで示す右下から始まり、水平右
方向にスキャンし、左端まで行くと、一つ上の行の右端
からスキャンを行う処理を、始めに黒画素にぶつかるま
で、順次繰り返す。

【００２７】尚、このスキャンは、他の方向、例えば左
上から右下に向けて行ってもよい。スキャン中に、黒画
素にぶつかると、隣接した画素が、黒画素かどうかが３
１に示すパターンの方向の順に調べられる。この探索方
法は、中心から見て８方向のベクトルで表わされるので
８方向探索と呼ばれる。隣接した黒画素が存在すると、
このプロセスにより、図形の外部輪郭が得られる。例え
ば、図６に示すように、上述のスキャン処理で、３２の
文字“Ｑ”の端のポイントにぶつかと、隣接画素の調査
は、３１の方向パターンを用いて行われ、文字“Ｑ”３
２の外輪郭が追跡される。尚、閉じた輪郭の内側の部分
は追跡されない。

【００２８】８方向探索により得られた輪郭線、すなわ
ち一つの連結成分が取り出されると、つぎの黒画素に出
会うまでスキャンが進行する。こうして、例えば、完全
な黒領域を持つオブジェクト３４が８方向探索される。

【００２９】同様に、手書き文字“non-text”である、
非テキストのオブジェクト３５が追跡され、そして、単
語“text”を形成する個々の文字の集合オブジェクト３
６が追跡される。図６で示されるスキャンは、全ての連
結成分が検出されるまで続けられる。

【００３０】ステップＳ１１０２では、すべての連結成
分は矩形で切り出される。この場合、個々の連結成分を
覆う可能な限り最小の矩形を切り出す。図７に示す３
９、４０、４１、４１、３７の各矩形は、ステップＳ１
１０１の輪郭抽出処理で抽出された、それぞれ、３５の
図形と、３６の"ＴＥＸＴ"という文字列、３２の"Ｑ"と
いう文字、３５の“non-text”という手書き文字の輪郭
線に基づいて生成された矩形を示す。即ち、オブジェク
ト３２のまわりに矩形３７が、オブジェクト３４のまわ
りに矩形３９が、オブジェクト３５のまわりに矩形４０
が描かれる。テキストオブジェクト３６ａ，３６ｂ，３
６ｃ，３６ｄの対する矩形４１ａ〜４１ｄも同様であ
る。

【００３１】ステップＳ１１０３では、すべての矩形に
対して木構造における位置づけがなされる。ほとんどの
場合、ステップＳ１１０３で得られる木構造は、各オブ
ジェクトに対して、ルートノードに直接リンクする。こ
れは、連結成分の外部輪郭だけが追跡され閉領域の内部
は追跡されないからである。例えば、ステップＳ１１０
２で生成された矩形の例である３９、４０、４１、４
１、３７のそれぞれは、図８に示すように木構造にリン
クされる。即ち、ルートノードであるＲＯＯＴ（８００
０）にリンクされる。このように、矩形３７、４１ｃ、
４１ｄはページのＲＯＯＴ（８０００）に直接リンクさ
れる。しかし、非テキストオブジェクト３５を囲む矩形
４０やテキストオブジェクト３６ａ，３６ｂを囲む矩形
４１ａ，４１ｂのように完全にその矩形が他の矩形に含
まれてしまう場合は、これらの矩形は、包含する矩形
（この場合、３９）の子となる。さらに、矩形３９のよ
うな少なくとも一つの子を持つ矩形は、その矩形自身を
“主要な子”とする。図８の例では、矩形３９は他の子
矩形４０，４１ａ，４１ｂとともに自分自身を主要な子
として含んでいる。

【００３２】ステップＳ１１０４では、木における第一
レベルのそれぞれの矩形は、テキストユニットか非テキ
ストユニットに分類される。ここで、木における第一レ
ベルとは、ルートノードから第１の距離の矩形、即ち、
図８の破線で示したトリー第一レベル（８００１）を意
味する。

【００３３】尚、分類過程は次の２つのステップから成
り立つ。

【００３４】最初のステップでは、矩形が予め定められ
たサイズと比較される。矩形の高さがフォントサイズの
最大値に対応する予め定めた値を越える場合、あるいは
矩形の幅がページ幅を経験的に決められた一定の値で割
った値より大きい場合は、その連結成分は非テキストユ
ニットと分類され、“非テキスト”の属性がそのユニッ
トに与えられる。

【００３５】第２のステップでは、属性の与えられなか
った残りのすべての矩形、すなわち非テキストとして分
類されなかった矩形が、残りすべての矩形から得られる
統計的なサイズに基づいて決められた値と比較される。
統計的サイズの一例として、例えば、非テキストとみな
されなかったすべての矩形の平均高さが用いられる。こ
の平均高さに、ある一定値（一般には２）をかけること
によって適応的なしきい値が得られる。このしきい値よ
り大きいすべての矩形は、非テキストに分類される。一
方、そのしきい値より小さい矩形はテキストの矩形とみ
なす。こうして、各矩形は分類され、適切な属性が与え
られる。以上生成された２つの分類は、さらに以下に示
すいくつかの処理を受ける。

【００３６】ツリーの第一レベルのすべての矩形が、テ
キストか非テキストかに分類された後、テキストの矩形
の子は、主要な子（すなわち、自分自身）を含めて、テ
キストとして分類される。非テキストの主要な子は非テ
キストとして残されるが、それ以外の子はテキストとし
て分類される。

【００３７】ステップＳ１１０５では、最初の矩形を選
択する。

【００３８】ステップＳ１１０６では、もしその矩形が
テキストユニットであれば、ステップＳ１１０７へ進
み、次の矩形が選択される。非テキストユニットが選択
されるまでステップＳ１１０６〜ステップＳ１１０７の
処理は続き、非テキストユニットが選択されると、ステ
ップＳ１１０８へ進む。

【００３９】ステップＳ１１０８では、非テキストユニ
ットが子を持っているかどうかが調べられる。たとえ
ば、図８の例では、非テキストユニット３８は非テキス
トである主要な子３９とテキストである４０，４１ａ，
４１ｂという子を持つ。そして、子を持っている場合
は、ステップＳ１１０９へ進む。

【００４０】ステップＳ１１０９では、各ユニットが、
ハーフトーン（または、グレースケール）かどうかチェ
ックするためのフィルタリング処理を行う。ハーフトー
ンフィルタリング処理では、その子が調べられ、所定の
“ノイズ”サイズより小さいものの数が数えられる。
“ノイズサイズ”のユニットというのはその高さが入力
イメージデータにおける最小のフォントサイズより小さ
いものである。

【００４１】ステップＳ１１１０では、ノイズサイズよ
り小さい子の数が、子の総数の半分より大きいかどうか
チェックし、おおきければ、そのユニットはハーフトー
ンイメージと判定し、ステップＳ１１１１へ進む。大き
くなければ、即ち、そのユニットがハーフトーンでなけ
れば、ステップＳ１１１３へ進む。

【００４２】ステップＳ１１１１では、そのユニットに
“ハーフトーン”という属性を与える。

【００４３】ステップＳ１１１２では、ハーフトーンイ
メージの中のテキストが調べられる。すなわち、ハーフ
トーンイメージの子の中でテキストサイズのものは、ハ
ーフトーンイメージの子ではなく、ハーフトーンイメー
ジと同レベルになるように、木構造を修正する。これに
よって、ハーフトーンイメージ中の文字認識も可能にな
る。そして、ステップＳ１１０５に戻り、次のユニット
に関する処理が続行される。

【００４４】ステップＳ１１１３では、そのユニットの
主要な子が後の処理のために選択される。

【００４５】ステップＳ１１１４では、そのユニットは
フレームフィルタリング処理を受ける。フレームフィル
タリング処理とは、そのユニットがフレーム（枠）であ
るかどうかを判定することである。フレームであると
は、そのユニットを囲むような矩形を構成するほとんど
同じ長さの幅や高さをもった平行な直線が存在するとい
うことである。特に、注目ユニットにおいて、画素単位
で見た時の各行での連結成分の線幅を調べる。例えば、
図９に示す非テキストユニット４２がある場合につい
て、この処理の説明を行う。図９で、非テキストユニッ
ト４２は、４４のような輪郭成分を持つ連結成分４３を
含んでいる。この例において、行ｉにおけるこの連結成
分の線幅はｘi、すなわち輪郭線の左端４５ａから右端
４５ｂまでの距離になる。一方、行ｊでは連結成分の内
部に２つの線幅が存在する。４６ａ−４６ｂと４７ａ−
４７ｂ間である。そして、最も長い線幅である４６ｃ−
４６ｄ間が、距離ｘjとして定義される。

【００４６】非テキストユニット４２におけるすべて行
ｎにおいて距離ｘが計算され、その非テキストユニット
がフレームかどうかの判定を次の不等式を用いて行う。ここで、Ｘkは上で述べたように、連結成分中の第ｋ行
における最も長い線幅、Ｗは矩形４２の幅、Ｎは行の数
であり、しきい値はワークが多少傾いていてもワークと
して検知できるように予め計算された値である。１o の
傾きを許すために、Ｔ＝ｓｉｎ（１o）×Ｗ＋ const とする。ここで、constは、ステップＳ１１０４で計算
された文字の平均高である。

【００４７】上記の不等式が満たされると、そのユニッ
トはフレームデータと判定され、フローはステップＳ１
１１５からステップＳ１１１６へ進み“フレーム”とい
う属性が付加される。こうして、例えば、"フレームで
あり表"、あるいは"フレームでありハーフトーン"のよ
うな判定がフレームに対して可能になる。

【００４８】ステップＳ１１１６以後の処理では、その
フレームデータが表あるいは表形式のものを含んでいる
可能性を調べる。

【００４９】ステップＳ１１１７では、連結成分内の白
輪郭を得るための処理が行われる。白輪郭というのは、
ステップＳ１１０１で得られた黒の輪郭と基本的には同
じだが、黒画素の変わりに白画素を調べて得られるもの
である。図１２に示すように、非テキストユニットの内
部が右下から左上に向かって矢印Ｂの方向に探索され
る。

【００５０】始めて白画素に出会うとその点から近傍の
白画素対して５１のような外向き探索が行われる。この
時、５１に示す外向き探索においては、Ｄ１からＤ４ま
での方向しか必要ないことに注意すべきである。その結
果、ここでの処理における白輪郭追跡は、４方向探索と
いうことになる。すべての白輪郭が取り出されるまで、
この処理は続けられる。例えば、白輪郭追跡は、黒成分
５２，５３，５４，５５で囲まれる輪郭部を取り出すこ
とであり、同様の処理は５６のような画素の内部に対し
ても行われる。

【００５１】非テキストオブジェクト中のすべての閉じ
た白輪郭が追跡されるまで、上述したスキャン処理が続
けられる。

【００５２】ステップＳ１１１８では、非テキストユニ
ットの密度が計算される。密度は、連結成分内の黒画素
の数をカウントし、矩形で囲まれた画素の総数により黒
画素の数を割ることにより計算される。

【００５３】ステップＳ１１１９では、非テキストユニ
ット内の白輪郭の数が計算される。そして、その数が４
以上であるかどうか判定して、その数が４以上であれ
ば、その非テキストイメージは表か、テキストブロック
が表状に並んだものである可能性があり、ステップＳ１
１２０へ進む。その数が４以上でなければ、ステップＳ
１１３３へ進む。

【００５４】ステップＳ１１２０では、白輪郭の充填率
が計算される。白輪郭の充填率というのは、非テキスト
イメージ中の白輪郭で囲まれる面積の割合を示すもので
ある。図１２の例では、５７，５９のように完全に白画
素だけで構成される白輪郭もあれば、６０，６１のよう
に内部に黒画素領域を含む白輪郭も存在する。

【００５５】ステップＳ１１２１では、充填率と所定の
閾値と比較し、充填率が大きければ、その非テキストイ
メージは表か、テキストブロックが表状に並んだものの
可能性があり、ステップＳ１１２２へ進む。充填率が小
さければ、ステップＳ１１３３へ戻る。

【００５６】ステップＳ１１２２では、その推定をより
確実にするために、注目白輪郭に対して水平垂直方向に
格子状の内部構造をもっているかどうかをチェックす
る。水平または垂直方向に少なくとも２つの輪郭線を横
断していないような境界線をもつ白輪郭は、格子状にな
っていないとみなして再結合する。

【００５７】例えば、図１２の例では、白輪郭５９の左
境界６２と右境界６３は別の白画素６０の左境界６４と
右境界６５と一致するように垂直方向に伸びている。そ
のため、これらの白輪郭は格子状に並んでいると判断さ
れ再結合されることはない。

【００５８】同様に、白輪郭６３の上境界６６と下境界
６７は別の白画素７０の上境界６８と下境界６９と一致
するように水平方向に伸びている。その結果、これらの
白輪郭も格子状に並んでいると判定され、再結合されな
い。

【００５９】図１３〜図１５は、白輪郭が結合される場
合を説明する図である。

【００６０】図１３の、例えば非テキストユニット７１
は、ハーフトーンイメージからバイナリイメージまでの
ユニットを含む非テキストユニットの例を表している。
非テキストイメージ７１は、黒画素領域７２と白画素領
域７４，７５，７６，７７，７８，７９を含んでいる。
このケースでは、この白画素領域の充填率は十分高いの
で、ステップＳ１１２１から再結合ステップであるステ
ップＳ１１２２へ進む。

【００６１】そして、図１４に示すように、まず白輪郭
７５の上端と下端が白輪郭７７の上端・下端と比較され
る。これらの上端および下端は一致しないので７５と７
６は結合された新たな白輪郭７６’が作り出される。

【００６２】つぎに図１５において、白輪郭７７の左右
の境界が白輪郭７８の左右の境界と比較される。これら
の境界は一致しないので、７７と７９は再結合され新た
な白輪郭７７’となる。

【００６３】このプロセスは再結合が起こらなくなるま
で、水平および垂直方向に繰り返される。

【００６４】以上説明したように、表の白輪郭は結合さ
れにくく、表以外、例えばハーフトーンイメージや線図
形のような表以外のものは結合され易い。

【００６５】ステップＳ１１２３では、再結合率が計算
される。もし再結合率が高いか再結合処理の後に残った
白輪郭の数が４未満であれば、ステップＳ１１２８へ進
み、その非テキストユニットは、以下で詳述するよう
に、ハーフトーンイメージか線図形と判定される。尚、
再結合率は、以下の式で定義する。再結合率ＣＲ＝（ＢＷ - ＡＷ）/ＢＷここで、ＢＷ：結合前の白輪郭の数ＡＷ：結合後の白輪郭の数また、再結合率が高くないか、または少なくとも４個以
上の白輪郭が残った場合、ステップＳ１１２４へ進む。

【００６６】ステップＳ１１２４では、結合されたユニ
ットを表と判定し、"表"の属性を付加する。

【００６７】ステップＳ１１２５では、新たに表と判定
されたものの内部が調べられ、含まれる連結成分の探索
や分類が行われる。

【００６８】ステップＳ１１２６では、新しい内部連結
成分に従って木構造が更新される。

【００６９】ステップＳ１１２７では、内部連結成分は
テキストか非テキストとして再び分類され、適切な属性
が付加される。この処理は、すでに説明したステップＳ
１１０２からステップＳ１１０４の処理と同じである。
ステップＳ１１０７へ戻り、次のテキストユニットが選
択される。

【００７０】ここで、ステップＳ１１２１とステップＳ
１１２３のステップの処理に関して話を戻して補足す
る。もし、ステップＳ１１２１で充填率が高くないか、
ステップＳ１１２３で再結合率が高くない場合、その非
テキスト枠図形はハーフトーンイメージか線図形の可能
性が高い。そして、そのユニットがハーフトーンイメー
ジか線図形かはそのユニット中の黒画素の水平方向のラ
ンレングスの平均、白画素と黒画素の割合、および密度
によって決定される。一般的に、非常に暗いイメージは
ハーフトーンイメージとみなされ、白く明るいイメージ
は線図形と判定される。

【００７１】特に、白画素の平均ランレングスがほとん
ど０の場合（ほとんど真黒か、まだら模様のイメージで
ある）で、さらにステップＳ１１１８で計算された密度
が白より黒の方が大きい場合、すなわち、密度がしきい
値約０．５（これを１番目のしきい値とする）より大き
いときは、そのフレームユニットはハーフトーンと判定
される。もし、密度が１番目のしきい値よりも大きくな
い場合には、そのユニットは、線図形と決められる。

【００７２】また、もし白画素の平均ランレングスがほ
とんど０で、かつ白画素の平均ランレングスが黒画素の
平均ランレングスよりも大きい場合は、そのフレームユ
ニットは線図形と判定される。

【００７３】しかし、白画素の平均ランレングスが黒画
素の平均ランレングスより大きくない場合は（すなわ
ち、これも黒が支配的なイメージである）、さらに詳細
な判定手順が必要である。

【００７４】特に、黒画素の数が白画素の数よりはるか
に少ないとき、即ち、黒画素の数が白画素の２倍（これ
を２番目のしきい値とする）より小さいとき、このフレ
ームユニットはハーフトーンと判定される。一方、黒画
素の数を白画素の数で割った値が２番目のしきい値より
大きくないが、ステップＳ１１１８で計算した密度が１
番目のしきい値より大きい場合は、そのフレームユニッ
トは、ハーフトーンイメージと判定する。そうでなけれ
ば、線図形と判定する。

【００７５】ステップＳ１１２８では、フレームユニッ
トが線図形と判定されると、ステップＳ１１２９へ進
み、“線図形”という属性が付加される。

【００７６】ステップＳ１１３０では、すべての子が除
去される。特に、あるユニットが、ひとたび線図形と判
定されると、もうそのユニットに対しては文字認識処理
が行われない。その後、処理は、ステップＳ１１０７へ
戻り、次のテキストユニットが選択される。

【００７７】他方、フレームユニットが線図形と判定さ
れないと、ステップＳ１１３１へ進み、“ハーフトー
ン”という属性が付加される。

【００７８】ステップＳ１１３２では、そのユニットの
子のうち、テキストサイズの子は除去される。テキスト
サイズより大きいすべての子は、フレームハーフトーン
イメージの子として残ることが許される。そして、処理
はステップＳ１１０７へ戻り、次のテキストユニットが
選択される。

【００７９】ここで、ステップＳ１１１９からの処理に
関して補足する。もし白輪郭の数が４より大きくない場
合は、そのフレームユニットは表でないと判断される。
そして、ステップＳ１１３３へ進み、ステップＳ１１１
８で計算された密度と、所定のしきい値（約０．５）と
が比較される。このしきい値は、フレーム内のテキスト
ユニットや線図形は、全画素の半分より小さいとの想定
の元で選ばれている。もし、密度がこのしきい値より小
さければ、ステップＳ１１３４へ進み、フレームユニッ
トの内部構造が調べられる。この処理は、すでに述べた
ように、フレームユニットの内部構造に対するステップ
Ｓ１１０１での処理と同様である。

【００８０】他方、ステップＳ１１３３で、密度が所定
のしきい値より小さくない場合は、ステップＳ１１４２
へ進み、そのフレームユニットが線図形かハーフトーン
イメージのどちらに分類されるか、あるいはそのフレー
ムが、分類不可能（すなわちそのフレームは“未知”）
という判定が行われる。

【００８１】次に、ステップＳ１１１５からの処理に関
して補足する。ステップＳ１１１５では、ステップＳ１
１１４におけるフレームフィルタリング処理の結果、非
テキストユニット内にフレームが検知されなかった場
合、ステップＳ１１３５へ進み、その非テキストユニッ
トが“線”を含んでいるかどうかが判定される。“線”
はテキストの境界を表すのに有用な非テキストユニット
といえる。しかし、そのような線によって区切られる
（囲まれる）テキストは、その線に非常に近い場合が多
く、接触が起きている可能性がある。その結果、線探索
では、テキストが接触している場合と接触していない場
合の両方を考慮する必要がある。

【００８２】接触が起きていない場合の線探索のために
は、非テキストユニットの縦方向のヒストグラムが計算
される。図１０は、傾いた線分５０００とその線分に関
して、対応するヒストグラム４８を示す。線分５０００
は、その線幅がほぼ均一であるため、そのヒストグラム
４９の高さもほぼ均一の値になり、線分５０００の傾き
が小さければ、そのヒストグラム４９の高さは、ほぼ線
分５０００の線幅に等しい。線分の傾きθS は、元原稿
が入力された時点で発生する。そして、非テキストユニ
ットが線を含んでいるかどうかを判定するためには、ヒ
ストグラム中の各セルｋの高さ４９を幅Ｗと比較する。
次式のように、これらの値の差の２乗平均がしきい値と
比較される。ここで、cellkは、第ｋ番目のセルの高さを意味する。
また、しきい値Ｔは、非テキスト内の線のねじれ、また
は、傾きθS を許容するように設定される。例えば、１
o のねじれや傾きに対しては、なるしきい値Ｔを設定する。

【００８３】上述の不等式による判定で、非接触の線が
発見されなかった場合、接触が起きている線が含まれて
いるかどうかの探索を行う。注目している非テキストユ
ニット中、接触している線が含まれているかどうかを調
べるためには、線状のものがユニットの境界線近くに存
在するかどうかを調べる。

【００８４】例えば、図１１の例のように、ユニットを
囲む矩形の境界線近くに線が存在するとしよう。この場
合、境界線からの距離の２乗和を計算することによって
調べることができる。すなわち、このケースでは、次式
の不等式が計算される。もし、左辺が予め定めたしきい値Ｔより小さければ接触
している線が存在していることがわかる。このしきい値
Ｔは、接触を起こしていない線の場合と同じ値を使えば
よい。

【００８５】ステップＳ１１３５では、線の検出を行
い、ステップＳ１１３６で、線が検出されたかどうかチ
ェックし、線が検出されれば、ステップＳ２０００へ進
み、“線”という属性をその非テキストユニットに付加
する。そして、ステップＳ１１０７からの処理へ戻り、
次のユニットが選択される。他方、もしステップＳ１１
３５で、線が検出されなかった場合は、ステップＳ１１
３７へ進む。

【００８６】ステップＳ１１３７では、その非テキスト
ユニットのサイズが調べられる。もしそのサイズが、所
定のしきい値より小さければ、その非テキストユニット
の分類は決定することができず、ステップＳ１１３８へ
進み、“未知”の属性が付加され、その後、ステップＳ
１１０７へ戻り、次のユニットが選択される。他方、非
テキストユニットのサイズの方が大きければ、ステップ
Ｓ１１３９へ進む。尚、そのしきい値は、最大のフォン
トサイズから決定される。例えば、そのしきい値を、最
大フォントサイズの半分の値に設定する。

【００８７】ステップＳ１１３９〜ステップＳ１１４０
では、前述したステップＳ１１１７〜ステップＳ１１１
９と同様の処理がなされる。即ち、非テキストユニット
の内部領域で、白輪郭の探索が行われ、白輪郭の数が計
算され、密度が計算される。

【００８８】ステップＳ１１４１では、白輪郭の数が４
以上かどうかチェックし、４以上であれば、ステップＳ
１１４２へ進む。他方、白輪郭の数が４以上でなけれ
ば、ステップＳ１１２０へ進む。ステップＳ１１４２で
は、線図形あるいはハーフトーンイメージとして十分な
大きさをもっているかどうかを確かめるためにサイズが
計算される。サイズの決定には、そのテキストのユニッ
トの高さと幅、および黒画素のランレングスの最大長に
基づいて行われる。その非テキストユニットの高さと幅
が、最大フォントサイズより小さい場合は、そのユニッ
トは線図形やハーフトーンイメージを構成するに十分な
大きさをもっていないと判定され、ステップＳ１１４３
へ進み、“未知”の属性が付加される。また、ユニット
の幅は、最大フォントサイズより大きいが、黒画素のラ
ンレングスの最大長が最大フォントサイズより大きくな
いときは、やはりステップＳ１１４３へ進み“未知”の
属性が付加される。そして、その後、ステップＳ１１０
７へ戻り、新しいユニットが選択される。他方、その非
テキストユニットが、線図形あるいはハーフトーンイメ
ージを構成するのに十分な大きさをもっている場合は、
ステップＳ１１４４へ進む。

【００８９】ステップＳ１１４４では、その非テキスト
ユニットが、線図形かハーフトーンイメージであるかチ
ェックして、線図形であれば、ステップＳ１１４５へ進
み、”線”属性を付加し、さらにステップＳ１１４６
で、すべての子が除去される。その後、処理は、ステッ
プＳ１１０７へ戻り、次のテキストユニットが選択され
る。他方、フレームユニットが線図形と判定されない
と、ステップＳ１１４７へ進み、ここで“ハーフトー
ン”という属性が付加され、次に、ステップＳ１１４８
で、そのユニットの子のうち、テキストサイズの子は除
去される。テキストサイズより大きいすべての子はフレ
ームハーフトーンイメージの子として残ることが許され
る。そして、処理は、ステップＳ１１０７へ戻り、次の
テキストユニットが選択される。

【００９０】以上説明したように、図２のステップＳ１
００１の処理に対応する、図３〜図５での処理工程に従
って、入力画像中のすべての連結成分が調べられ分類さ
れると、図１６で示されるようなツリーデータ構造が得
られる。図１６に示されるように、ルートノードである
ＲＯＯＴ（８０００）は、入力画像のページに対応す
る。ルートＲＯＯＴ（８０００）の子は、テキストブロ
ックまたは、未知・フレーム・写真（図）・線等からな
る非テキストブロックである。フレームの子は、テキス
トブロック、“未知”の非テキストデータ、テキストブ
ロックを含む表、写真（図）、線である。

【００９１】図１７は、ピクセルイメージデータを含む
ページの一例を示す図である。ページ９０の中には、大
きなフォントサイズのテキスト９１、９３のようなテキ
ストデータを含む表９２、テキストデータ９４、水平線
９５、別のタイトル９６、二つの段落から成るテキスト
データ９７、キャプション９９をもち枠で囲まれた線図
形９８、タイトル１００で始まり、テキストデータ１０
１へ続く２番目の段組、キャプション１０３をもち、枠
で囲まれたハーフトーンイメージ１０２、テキストデー
タ１０４、水平線１０５、最終段落１０６が含まれる。

【００９２】図１８は、図１７のイメージに対して、ス
テップＳ１００１の処理を施したものである。図１８か
らかわるように、ページ９０中の連結成分は、矩形で切
り出され、その内部は、ステップＳ１１１５からステッ
プＳ１１３４で示される処理によって、その属性が調べ
られている。

【００９３】ステップＳ１００１で得られたすべてのテ
キストユニットは、ツリーのどの位置にあっても、ステ
ップＳ１００２で、垂直方向あるいは水平方向にグルー
プ化される。このグループ化の操作は、各テキストユニ
ットおよびその周囲のユニットのまとまり具合に基づい
ている。また段組を表していると思われるギャップ（空
間スペース）が垂直・水平両方向について検出され、保
持される。ステップＳ１００２の詳細な過程は、図９を
用いて以下で述べる。

【００９４】ステップＳ１５０１では、非テキストユニ
ットの境界線が、垂直及び水平方向に伸ばされ、ギャッ
プラインマーカーとする。図１８で示されるように、垂
直方向のギャップラインマーカー１０９ａ，１０９ｂ
が、テキストあるいは非テキストユニットと交差するま
で（この例ではユニット９５）垂直方向に伸ばされる。
同様に、ギャップラインマーカー１０９ｃ，１０９ｄ
も、ユニット９５と交差するまで伸ばされる。また、水
平方向のギャップラインマーカーについても同様の処理
を行う。ギャップラインマーカーは、ギャップ（空間ス
ペース）を検知するのに有効で、これによって段組を得
ることができる。

【００９５】ステップＳ１５０２において、図１８の１
０７のようなテキストユニットの行結合が行われる。こ
こでの結合は、両方向に近接した連結成分間の距離をあ
らかじめ水平・垂直それぞれの方向について調べて、水
平方向の距離が小さい場合には水平方向に、垂直方向の
距離が小さい場合には垂直方向について行われる。この
結合方向は、結合しようとするテキストユニットの組方
向が縦であるか横であるかに対応しているものである。

【００９６】さて、これらのテキストユニットは、次の
条件が満たされるとひとつのテキストとして結合され
る。

【００９７】（１）その結合によってギャップラインマ
ーカーを越えない。

【００９８】（２）そのテキストユニットは、他のテキ
ストユニットと接しているか、一定のしきい値以下の距
離にある。

【００９９】尚、このしきい値としては、ステップＳ１
１０４で求めたテキストの平均長に実験的に求めたスケ
ールファクター（例えば、１．２）をかけたものでよ
い。

【０１００】しかし、結合の前に、テキストユニットが
横組である場合には、テキストユニット間のギャップを
水平に伸ばし、縦組である場合には、垂直の方向に伸ば
すことによって、段組構造を表す方向に伸びたギャップ
が存在するかどうか決定することができる。例えば、図
１８の例では、ギャップ１０８が、ふたつのテキストの
間に存在している。ギャップは、数行にわたって垂直方
向に伸びており、したがって、ステップＳ１５０２で
は、テキストユニット間の距離がしきい値以下であって
もギャップとして残される。

【０１０１】ステップＳ１５０３では、ステップＳ１５
０２で結合されなかったテキストユニットの組に対し
て、それらのユニットがともに近接する他のテキストユ
ニットによってオーバラップされ、かつ、その結合がギ
ャップラインマーカーを横切らないとき結合が行われ
る。このステップは、段落の構造からくるものではなく
単にテキスト行におけるスペースの関係から発生したも
のを消去するのに効果的である。

【０１０２】図１８の例では、ステップＳ１５０２で残
されたギャップ１０８は、ステップＳ１５０３で消去さ
れる。なぜなら、すぐ下の行の文字にオーバラップさ
れ、かつ、ギャップラインマーカーを横切ることもない
からである。

【０１０３】そして、ステップＳ１５０４で、ツリー構
造が更新される。

【０１０４】図２０は、ステップＳ１００２で説明した
グループ化の処理の結果を表す模式図で、図２１は、ス
テップＳ１００２の処理によってツリー構造がどのよう
に変わったかを表す図である。図２０に示されるよう
に、結合されたテキストユニットはグループ化されて、
１１０のようなテキスト行にされる。特に、ツリー構造
のどこにあっても、テキストユニットは必ず結合されて
テキスト行になる。例えば、１１１は、ツリー構造上の
フレームテーブルの下にあるが、やはり結合されてい
る。しかし、ステップＳ１１１７からステップＳ１１３
９で求めた白輪郭を越えた再グループ化は行われないこ
とに注意されたい。これは、テーブル中の項目をひとつ
の行にしてしまわないためである。左右の段組の間のギ
ャップは、保持される。また、非テキストユニットは、
再グループ化されない。そのため、１１２や１１３のよ
うにしきい値以下の距離にあってもグループ化されてい
ない。

【０１０５】図２１では、この新たなグループ化が反映
されたツリー構造になっている。

【０１０６】図１９で述べた処理工程（図２では、ステ
ップＳ１００２）で、テキストユニットが結合されてテ
キスト行になった後、ステップＳ１００３で示されるよ
うに、テキスト行はテキスト行形成時の結合方向とは逆
の方向に結合されて、テキストブロックとなる。

【０１０７】この処理工程を、図２３を用いてより詳細
に説明する。グループ化の過程は、テキスト行ユニット
のまとまり具合と非テキストユニットの位置による。例
えば、間に存在する非テキスト行は境界線として作用
し、反対側にあるテキスト行同志がグループ化し、一つ
のテキストブロックとなるのを防ぐ。ふたつの連続する
非テキスト行ユニットの間にあるすべてのテキスト行
は、同時に処理を受ける。加えて、ステップＳ１００３
では、いくつかのテキストユニットは非テキストユニッ
トと結合されるべきか（たとえば非テキストイメージと
ともに構成されるテキストキャプション）、また、ある
非テキストユニットを他の非テキストユニットと結合す
べきか（例えば、ハーフトーンイメージと関係している
線図形である）が、調べられる。

【０１０８】図２３は、テキスト行をグループ化してテ
キストブロックとする様子を表すフローチャートであ
る。

【０１０９】ステップＳ１６０１では、タイトルブロッ
クが、ステップＳ１１０４で非テキストユニットと分類
されたものの中から形成される。その判断基準は、最大
フォントサイズより小さいが平均テキストより大きいと
いうことである。そのような、同じような大きさで近接
している非テキストユニットすべてをグループ化するこ
とによって、タイトルブロックは形成される。そして、
そのブロックには“タイトル”という属性が付加され
る。グループ化できなかった残りの全ての非テキストブ
ロックは、”ピクチャーテキスト”という属性が付加さ
れる。ツリー構造が、これに応じて適当に更新される。
なおタイトルはページの再構成に役立つ。

【０１１０】ステップＳ１６０２では、テキスト行の間
にある非テキストユニットが、検出される。これらの非
テキストユニットは、テキストブロック間の境界線とし
て作用し、テキスト行がひとつのテキストブロックにな
るのを防ぐ。

【０１１１】ステップＳ１６０３では、２つのステップ
からなる処理によって、テキスト行がテキスト行形成時
の結合方向とは逆の方向（以下、これを「ブロック結合
方向」と呼ぶ）にグループ化され、テキストブロックと
なる。最初のステップでは、段組の間のギャップが探索
される。そのためには、たとえば画素のブロック結合方
向のヒストグラムが計算される。２番目のステップで
は、ブロック結合方向に連続するテキスト行同士の距離
が、ステップＳ１１０４で計算したテキストの高さより
小さければ、これらのテキスト行は、各段組内において
グループ化される。

【０１１２】ステップＳ１６０３では、図２０のテキス
ト行１１４のような同じ段落に属するテキスト行を結合
する。

【０１１３】ステップＳ１６０４では、垂直方向または
水平方向に近接したテキストブロックが、非テキストユ
ニットによって分離されておらず、前述の処理で得られ
たヒストグラムから発見されたどんなギャップをも破壊
しない場合に、グループ化される。テキストブロックの
グループ化は、ステップＳ１１０４で計算した垂直方向
の高さに応じて計算される一定のしきい値より小さいよ
うなブロック間の分離状態に基づいて行われる。

【０１１４】図２０の例で、段落１１５のテキスト行や
段落１１６のテキスト行から作られるテキストブロック
をグループ化するのにステップＳ１６０４は有効であ
る。しかし、１１７と１１８を結合するのには有効でな
い。これらのテキストブロックが、非テキストブロック
１１９（線）によって分離されているからである。ステ
ップＳ１６０５は、あるテキストブロックが非テキスト
ブロックと結合すべきか、あるいはある非テキストブロ
ックが他の非テキストブロックと結合すべきかを決定す
る。テキストブロックは、非テキストタイトルブロッ
ク、非テキストハーフトーンブロック、および、付属物
をもつ非テキストラインと結合することができる。これ
らの結合は次の判断に従って行われる。（１−ａ）もし、あるテキストブロックが非テキスト
のタイトルブロックと水平方向に近く、かつ垂直方向に
オーバラップしている場合、そのテキストブロックは非
テキストタイトルブロックに結合される（但し、テキス
トブロック及びタイトルブロックは共に横組であるとす
る）。

【０１１５】（１−ｂ）もし、あるテキストブロック
が非テキストのタイトルブロックと垂直方向に近く、か
つ水平方向にオーバラップしている場合、そのテキスト
ブロックは非テキストタイトルブロックに結合される
（但し、テキストブロック及びタイトルブロックは共に
縦組であるとする）。

【０１１６】（２）あるテキストブロックが（水平方
向にも垂直方向にも）ワードサイズのブロックより小さ
く、かつそのテキストブロックが、近接するワードサイ
ズのテキストブロックを持たない場合、このテキストブ
ロックは非テキストハーフトーンイメージブロックの内
部に置かれる。

【０１１７】（３）付属物を持つ非テキストラインを
オーバラップするあるテキストブロックに対して、その
付属物を持つラインは、おそらくアンダーライン付きの
テキストなので単にテキストとする。

【０１１８】また、いくつかの非テキストブロックは、
図２５の表に従って他の非テキストブロックと結合され
る。

【０１１９】この表中で、Ｔｅｓｔとなっているのは、
それぞれ次のような内容である。Ｔｅｓｔ＃１：ひとつのブロックが、完全に他のブロ
ックに含まれるならば結合する。

【０１２０】Ｔｅｓｔ＃２：ピクチャーテキストの幅
が、ワードサイズブロックの幅より小さいならば結合す
る。

【０１２１】Ｔｅｓｔ＃３：ブロック同士が近接して
いるならば結合する。ステップＳ１６０６では、属性が
修正され、これまでに述べた処理によってツリー構造が
更新される。

【０１２２】図２４は、図２３の処理で得られるブロッ
ク構造を表しており、図２２はツリー構造の例である。
図２４中のブロックとしては、タイトルブロック１２
０、テキストブロック１２１、写真（線画）１２２があ
る。また、フレームデータとしては、表形式になってい
る１２３、テキストユニット１２５を内部にもち表構造
になっている１２４がある。非テキストイメージ１２７
は、図２４中の様々なユニットのセパレータとなってい
る。

【０１２３】次に、ＯＣＲ回路６について説明する。

【０１２４】ＯＣＲ回路６の動作原理を、図２６のフロ
ーチャートに基づいて説明する。

【０１２５】ステップＳ１０１における、文字切り出し
処理では、ブロックセレクション回路４で抜き出された
文字記述画像データに対し、１文字づつの文字画像の外
接矩形を求める。認識処理では、まず位置、傾き、線
幅、濃度等の正規化処理を行い、さらにこの正規化され
た切り出し文字画像データに対して輪郭線特徴などに基
づく特徴ベクトルの抽出を行う。そしてあらかじめ用意
された認識辞書におけるすべての認識対象文字の標準パ
ターンベクトルとのマッチングを取り、最も確からしい
とされた標準パターンに対応する文字コードを認識結果
として出力する。

【０１２６】ここで認識辞書は日本語要の認識辞書と英
語用の認識辞書の２つが用意されており、判定回路５か
らの指示によりこの２つの辞書を切り換えられる。

【０１２７】日本語用認識辞書は、ひらがな、カタカ
ナ、漢字、英字、記号、数字等の日本語として用いられ
る文字に関するすべての文字パターンを含んでいる。ま
た、英語用認識辞書は、アルファベット、記号、数字等
の英語として用いられる文字に関するすべての文字パタ
ーンを含んでおり、さらにイタリック文字、飾り文字及
び代表的な英字フォントに対応可能ないくつかの複数フ
ォントに関する文字パターンも併せて持っている。

【０１２８】次に、判定回路５について説明する。

【０１２９】判定回路５は、ＯＣＲ回路６にどちらの認
識辞書を文字認識処理に用いるか指示する。これの動作
原理は、以下に説明する全体の動作原理の中で、図１に
基づいて詳しく説明する。

【０１３０】スキャナ回路１は、原稿をスキャンして文
書画像情報を読み込む。そして、システム制御回路１０
により制御されたメモリコントロール回路２を介して、
その情報がメモリ回路３に記憶される。

【０１３１】次に、メモリコントロール回路２の制御に
基づいて読み出された画像情報は、ブロックセレクショ
ン回路４に供給される。ブロックセレクション回路４で
は、属性分離を行い、また、読み込まれた文書画像情報
の文字画像部分については、縦書きか横書きかを示す組
方向情報も併せて判定し、この文書画像情報とその組方
向情報とを判定回路５送る。

【０１３２】判定回路５の処理を、図２７を用いて説明
する。

【０１３３】ブロックセレクション回路４から送られて
きた結果の組方向情報に基づいて、判定部５００１で縦
書きか横書きかの判定を行う。そして、縦書きと判定し
たときは、日本語認識辞書を選択する指示をＯＣＲ回路
６に送る。また、横書きと判定したときは、文書画像が
日本語か英語かわからないため、判定部５００２は、日
本語・英語マッチングテスト回路５０００に対し、文書
画像の一部の文字に対し日本語、英語ＯＣＲのパターン
マッチングテストを行うように指示する。

【０１３４】ここで、パターンマッチングテストとは、
日本語認識辞書と英語認識辞書の両方についてパターン
マッチングを行い、その結果を出力する処理である。

【０１３５】ＯＣＲ回路６は、日本語・英語マッチング
テスト回路５０００の指示により、パターンマッチング
テストを行う。そして、このパターンマッチングテスト
結果を、日本語・英語マッチングテスト回路５０００に
戻す。それを、日本語・英語マッチングテスト回路５０
００は、判定部５００２に送る。判定部５００２は、送
られてきたパターンマッチングテスト結果の日本語認識
辞書によるマッチング結果と英語認識辞書によるマッチ
ング結果とを比較し、どちらの結果のマッチング度が高
いかによって、文書画像が日本語か英語かを判定し、そ
の判定結果のあった認識辞書を指示し、この指示をＯＣ
Ｒ回路６に送る。ＯＣＲ回路６は、判定回路５の判定結
果より、７の日本語認識辞書か８の英語認識辞書に切り
換え、さらにその辞書を用いて、文書画像全体に対する
文字認識処理を行い、その結果を結果出力回路９に出力
する。また、ブロックセレクション回路４、ＯＣＲ回路
６の動作については、既に上述したので省略する。

【０１３６】尚、本発明は、複数の機器から構成される
システムに適用しても、１つの機器から成る装置に適用
しても良い。また、本発明はシステム或は装置にプログ
ラムを供給することによって達成される場合にも適用で
きることは言うまでもない。

【０１３７】以上説明したように、読み込まれた文書画
像情報をブロックセレクション回路の処理結果及びＯＣ
Ｒ回路のマッチングテスト結果を用いることでＯＣＲの
切り換えを自動で行うため、比較的簡単な構成でしか
も、優れた操作環境を有する画像処理装置を構成でき
る。

【０１３８】

【発明の効果】以上説明したように本発明によれば、画
像イメージに複数の属性を持つデータが混在していて
も、オペレータのデータの属性毎に対応する認識部の選
択指示が不要で、高速に画像イメージを認識することが
できる。

【０１３９】

【図面の簡単な説明】

【図１】本実施例の画像処理装置の構成を示すブロック
図である。

【図２】ブロックセレクション処理のフローチャートで
ある。

【図３】ステップＳ１００１の詳細な処理を示すフロー
チャートである。

【図４】ステップＳ１００１の詳細な処理を示すフロー
チャートである。

【図５】ステップＳ１００１の詳細な処理を示すフロー
チャートである。

【図６】画像イメージの輪郭追跡処理を示す図である。

【図７】画像イメージの外接輪郭を示す図である。

【図８】画像イメージを構成する各要素を管理するツリ
ー構造を示す図である。

【図９】抽出された画像イメージの１要素を分析するた
めの主要データを示す図である。

【図１０】線探索のために、ヒストグラムを利用する例
を示す図である。

【図１１】線探索のために、ヒストグラムを利用する例
を示す図である。

【図１２】白輪郭追跡の方法を説明する図である。

【図１３】白輪郭が結合される場合の一例を説明する図
である。

【図１４】白輪郭が結合される場合の一例を説明する図
である。

【図１５】白輪郭が結合される場合の一例を説明する図
である。

【図１６】画像中のすべての連結成分のツリーデータ構
造を示す図である。

【図１７】あるページのピクセルイメージデータを示す
図である。

【図１８】段組のセグメンテーションを行う際、ギャッ
プラインマーカを用いる方法を説明する図である。

【図１９】ステップＳ１００２の詳細な処理を示すフロ
ーチャートである。

【図２０】グループ化処理結果を示す図である。

【図２１】画像中の連結成分のツリーデータ構造を示す
図である。

【図２２】画像中の連結成分のツリーデータ構造を示す
図である。

【図２３】テキスト行をグループ化してテキストブロッ
クとする処理を示すフローチャートである。

【図２４】テキスト行をグループ化してテキストブロッ
クとする処理がなされた結果の一例を示す図である。

【図２５】非テキストブロック間の結合ルールを示す図
である。

【図２６】ＯＣＲ回路の動作を説明するフローチャート
である。

【図２７】判定回路の動作を説明するフローチャートで
ある。

【符号の説明】

１スキャナ回路２メモリコントロール回路３メモリ回路４ブロックセレクション回路５判定回路６ＯＣＲ回路７日本語認識辞書８英語認識辞書９結果出力回路１０システム制御回路

───────────────────────────────────────────────────── フロントページの続き (72)発明者大原栄治東京都大田区下丸子３丁目30番２号キヤノン株式会社内

Claims

【特許請求の範囲】

【請求項１】画像イメージ中の同じ属性をもつ要素を連
結し、同属性のブロックを生成する連結工程と、前記同属性のブロックの属性に対応する前記要素を認識
する認識工程と、前記同属性のブロックの属性に対応する前記認識工程を
駆動する駆動工程と、を備えることを特徴とする画像処
理方法。
【請求項２】前記属性は、テキスト属性と非テキスト
属性であることを特徴とする請求項１に記載の画像処理
方法。
【請求項３】前記テキスト属性は、日本語属性と英語
属性であることを特徴とする請求項２に記載の画像処理
方法。
【請求項４】前記非テキスト属性は、フレーム構造を
持つデータ属性、ハーフトーンデータ属性、線画属性、
表形式データ属性であることを特徴とする請求項２に記
載の画像処理方法。
【請求項５】画像イメージ中の同じ属性をもつ要素を連
結し、同属性のブロックを生成する連結手段と、前記同属性のブロックの属性に対応する前記要素を認識
する認識手段と、前記同属性のブロックの属性に対応する前記認識手段を
駆動する駆動手段と、を備えることを特徴とする画像処
理装置。
【請求項６】前記属性は、テキスト属性と非テキスト
属性であることを特徴とする請求項５に記載の画像処理
装置。
【請求項７】前記テキスト属性は、日本語属性と英語
属性であることを特徴とする請求項６に記載の画像処理
装置。
【請求項８】前記非テキスト属性は、フレーム構造を
持つデータ属性、ハーフトーンデータ属性、線画属性、
表形式データ属性であることを特徴とする請求項６に記
載の画像処理装置。