JPH07296109A - 画像処理方法とその装置 - Google Patents

画像処理方法とその装置

Info

Publication number
JPH07296109A
JPH07296109A JP6081998A JP8199894A JPH07296109A JP H07296109 A JPH07296109 A JP H07296109A JP 6081998 A JP6081998 A JP 6081998A JP 8199894 A JP8199894 A JP 8199894A JP H07296109 A JPH07296109 A JP H07296109A
Authority
JP
Japan
Prior art keywords
text
attribute
image
circuit
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6081998A
Other languages
English (en)
Inventor
Michiko Hirayu
三知子 平湯
Yuka Nagai
由佳 長井
Akihiko Sakai
明彦 酒井
Eiji Ohara
栄治 大原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP6081998A priority Critical patent/JPH07296109A/ja
Publication of JPH07296109A publication Critical patent/JPH07296109A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 画像イメージに複数の属性を持つデータが混
在していても、オペレータのデータの属性毎に対応する
認識部の選択指示が不要で、高速に画像イメージを認識
する画像処理方法とその装置を提供することを目的とす
る。 【構成】 1は画像を取り込む、2はスキャナ回路1か
ら入力したデータをメモリ3に格納し読み出す制御を行
うメモリコントロール回路、4は、読み込まれた画像の
属性分離を行うブロックセレクション(Block Selectio
n)回路、5は、その画像のテキストが日本語か英語か
を判定する回路、6は、テキストを認識するOCR回
路、7は、OCR回路6から参照される日本語認識辞
書、8は、OCR回路から参照される英語認識辞書、9
は、OCR回路6の結果出力回路、10は、画像処理装
置全体の制御を行うシステム制御回路である。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、画像処理方法とその装
置に関し、特に複数の情報が混在している画像処理方法
とその装置に関するものである。
【0002】
【従来の技術】従来、画像処理装置としてOCR(光学
式文字読取装置)を例にとると、例えば、原稿を認識さ
せる場合に、原稿が日本語であれば日本語OCRを、英
語であれば英語OCRにと、ユーザがマニュアル指定に
より、切り換えながら使用するのが一般的であった。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来例では、原稿が日本語,英語と混在している際に、い
ちいちマニュアルにより切り換える必要があり、また混
在の原稿が大量にある場合、わずらしい操作を繰り返さ
なければならず、操作効率が悪い等の欠点を有してい
た。
【0004】本発明は上記従来例に鑑みてなされたもの
で、画像イメージに複数の属性を持つデータが混在して
いても、オペレータのデータの属性毎に対応する認識部
の選択指示が不要で、高速に画像イメージを認識する画
像処理方法とその装置を提供することを目的とする。
【0005】
【課題を解決するための手段】上記目的を達成するた
め、本発明の画像処理方法とその装置は以下の構成を備
える。即ち、画像イメージ中の同じ属性をもつ要素を連
結し、同属性のブロックを生成する連結工程と、前記同
属性のブロックの属性に対応する前記要素を認識する認
識工程と、前記同属性のブロックの属性に対応する前記
認識工程を駆動する駆動工程と、を備える。
【0006】また、別の発明は、画像イメージ中の同じ
属性をもつ要素を連結し、同属性のブロックを生成する
連結手段と、前記同属性のブロックの属性に対応する前
記要素を認識する認識手段と、前記同属性のブロックの
属性に対応する前記認識手段を駆動する駆動手段と、を
備える。
【0007】
【作用】以上の構成において、画像イメージ中の同じ属
性をもつ要素を連結し、同属性のブロックを生成し、前
記同属性のブロックの属性に対応する前記要素を認識
し、前記同属性のブロックの属性に対応する前記認識工
程を駆動する。
【0008】また、別の発明は、連結手段が、画像イメ
ージ中の同じ属性をもつ要素を連結し、同属性のブロッ
クを生成し、認識手段が、前記同属性のブロックの属性
に対応する前記要素を認識し、駆動手段が、前記同属性
のブロックの属性に対応する前記認識手段を駆動する。
【0009】
【実施例】まず、本実施例の構成を大まかに説明する。
【0010】本実施例の画像処理装置は、画像読み取り
手段と画像記憶手段と、ブロックセレクション (属性
分離)手段と、日本語OCR手段と、英語OCR手段
と、前記ブロックセレクション (属性分離)手段の分
離結果と、前記日本語OCR手段と英語OCR手段の文
字画像に対するマッチング結果により文書画像情報が日
本語か英語かを判読する日本語・英語判定手段とを備
え、文書画像情報に対応したOCRに自動的に切り換え
るようにしたものである。
【0011】以下、本発明の実施例の画像処理装置につ
いて詳細に説明する。
【0012】図1は、本発明に係る一実施例の画像処理
装置の構成を示すブロック図である。
【0013】図1において、1は、画像を取り込むスキ
ャナ回路、2は、メモリコントロール回路、3は、メモ
リ3を制御するメモリ回路、4は、属性分離を行うブロ
ックセレクション(Block Selection)回路、5は、日
本語か英語かを判定する回路、6は、文字を認識するO
CR回路、7は、OCR回路から参照される日本語認識
辞書、8は、OCR回路から参照される英語認識辞書、
9は、6のOCR回路の結果出力回路、10は、画像処
理装置全体の制御を行うシステム制御回路である。
【0014】次に、各回路の詳細な説明を行う。
【0015】まず、ブロックセレクション回路4は、属
性分離を行う回路であり、動作原理は以下の通りであ
る。
【0016】図2は、ブロックセレクション処理のおお
まかなフロー図である。
【0017】ステップS1000では、ブロックセレク
ションの処理速度を速くしたい場合には、イメージデー
タの間引き処理を行う。イメージデータの間引きが行わ
れた場合には、ブロックセレクションの処理は、その間
引かれたイメージに対して行われる。イメージデータの
間引きは、画素のm×mブロックにおける黒画素の連結
性を調べることにより行われる。例えば、3×3の画素
ブロックにおいて、連結した黒画素が2つ存在する場合
は、その3×3の画素ブロックは、一つの黒画素に間引
かれる。逆に、そのブロックにおいて、連結白画素が2
つ存在する場合は、そのブロックは、一つの白画素に間
引かれる。
【0018】ステップS1001では、画素のイメージ
が解析され、連結性が探索されるとともに、その大きさ
や他の連結成分に対する相対的な位置に応じて分類され
る。尚、ここで、一つの"連結成分"とは、白画素によっ
て完全に囲まれた黒画素の集合を意味する。したがっ
て、一つの黒画素連結成分は、他の黒画素連結成分から
少なくとも一つの白画素により完全に分離される。ステ
ップS1001での詳細な処理は、図3を用いて後述す
るが、おおまかには、連結成分の探索と、大きさの情報
と連結成分同志から得られるいくつかの統計的な情報に
基づいて行われる連結成分のクラス分けを行う。クラス
分けでは、まず、それぞれの連結成分が、テキストユニ
ットか、非テキストユニットかに分類される。そして、
非テキストユニットは、さらに詳細な解析をされ、それ
が、フレーム構造を持つデータ,ハーフトーンイメー
ジ,線画,表かその他の表形式のテキストデータかに決
定される。それが未知のものであれば、未知のものとし
て扱い、分類は行わない。そして、連結成分の構成デー
タから、そのデータの再構築を容易にするように、階層
的な木構造を、それぞれの連結成分に対してつくる。
【0019】ステップS1002では、近接した連結成
分を、"ギャップライン"を挟まない限りグループ化す
る。ここで、ギャップラインとは、対象画像が、例えば
写真等の画像部分とテキストデータを含む場合、その写
真等の画像部分の並行な2本の枠線を延長した時、それ
ら延長した2本の枠線を意味する。ギャップラインによ
って挟まれる領域に、一般的に、その写真等の画像部分
に関するテキストデータが配置される可能性が高いた
め、連結成分のグループ化のための一つの重要な基準と
なる。
【0020】ここでのグループ化は、垂直方向に行う場
合と水平方向に行う場合とがある。これはグループ化し
ようとするテキストユニットが縦書きであるか横書きで
あるかということに対応しており、両方向に近接した連
結成分間の距離をあらかじめ水平・垂直それぞれの方向
について調べて、水平方向の距離が小さい場合には水平
方向に、垂直方向の距離が小さい場合には垂直方向にグ
ループ化を行う。
【0021】尚、ステップS1001で生成されたツリ
ー構造は、テキストと非テキストが不適当に混ざらない
ようにするために用いられる。さらに、ステップS10
02では、行間で垂直もしくは水平方向に延長したギャ
ップラインと、非テキストユニットの垂直方向に延長し
たギャップラインに基づいて、テキストユニットが行に
グループ化されるかどうかを決定する。この行構造ある
いは列構造は、適当に階層木構造を更新していくことに
より、その木構造のなかに保持される。
【0022】ステップS1003では、ステップS10
02でグループ化された行が、先にグループ化された方
向とは逆方向について、スペースが狭ければ、その方向
に再度グループ化されブロックとなる。
【0023】一方、非テキストユニットは、そのイメー
ジページに対する境界として用いられる。二つの非テキ
ストユニットの間にあるテキストユニットは、他のテキ
ストラインユニットとは分けられて処理される。
【0024】さらに、ステップS1003では、ステッ
プS1001で分類できなかった非テキストユニット
が、大きいフォントサイズのタイトルであるかどうかを
決定するために解析される。もし、それらがタイトルと
決定されたならば、それらのユニットは、適当な属性が
つけられ、そして、木構造は更新される。タイトルは、
そのページを再構築する手助けとなる。
【0025】次に、ステップS1001での詳細な処理
を説明するフロー図である図3を参照して、どのように
画素イメージデータの連結画素を検出し、それらの連結
画素を分類するかを説明する。
【0026】ステップS1101では、画素イメージデ
ータが、輪郭線追跡により探索される。輪郭線追跡は、
図6に示されるように、イメージをスキャンすることに
より行われる。図6では、35の図形と、36の"TE
XT"という文字列、32の"Q"という文字、35の“n
on-text”という手書き文字の輪郭線追跡の様子を示
す。この輪郭線抽出には、31の8方向ベクトルを用い
る。スキャンは、矢印Aで示す右下から始まり、水平右
方向にスキャンし、左端まで行くと、一つ上の行の右端
からスキャンを行う処理を、始めに黒画素にぶつかるま
で、順次繰り返す。
【0027】尚、このスキャンは、他の方向、例えば左
上から右下に向けて行ってもよい。スキャン中に、黒画
素にぶつかると、隣接した画素が、黒画素かどうかが3
1に示すパターンの方向の順に調べられる。この探索方
法は、中心から見て8方向のベクトルで表わされるので
8方向探索と呼ばれる。隣接した黒画素が存在すると、
このプロセスにより、図形の外部輪郭が得られる。例え
ば、図6に示すように、上述のスキャン処理で、32の
文字“Q”の端のポイントにぶつかと、隣接画素の調査
は、31の方向パターンを用いて行われ、文字“Q”3
2の外輪郭が追跡される。尚、閉じた輪郭の内側の部分
は追跡されない。
【0028】8方向探索により得られた輪郭線、すなわ
ち一つの連結成分が取り出されると、つぎの黒画素に出
会うまでスキャンが進行する。こうして、例えば、完全
な黒領域を持つオブジェクト34が8方向探索される。
【0029】同様に、手書き文字“non-text”である、
非テキストのオブジェクト35が追跡され、そして、単
語“text”を形成する個々の文字の集合オブジェクト3
6が追跡される。図6で示されるスキャンは、全ての連
結成分が検出されるまで続けられる。
【0030】ステップS1102では、すべての連結成
分は矩形で切り出される。この場合、個々の連結成分を
覆う可能な限り最小の矩形を切り出す。図7に示す3
9、40、41、41、37の各矩形は、ステップS1
101の輪郭抽出処理で抽出された、それぞれ、35の
図形と、36の"TEXT"という文字列、32の"Q"と
いう文字、35の“non-text”という手書き文字の輪郭
線に基づいて生成された矩形を示す。即ち、オブジェク
ト32のまわりに矩形37が、オブジェクト34のまわ
りに矩形39が、オブジェクト35のまわりに矩形40
が描かれる。テキストオブジェクト36a,36b,3
6c,36dの対する矩形41a〜41dも同様であ
る。
【0031】ステップS1103では、すべての矩形に
対して木構造における位置づけがなされる。ほとんどの
場合、ステップS1103で得られる木構造は、各オブ
ジェクトに対して、ルートノードに直接リンクする。こ
れは、連結成分の外部輪郭だけが追跡され閉領域の内部
は追跡されないからである。例えば、ステップS110
2で生成された矩形の例である39、40、41、4
1、37のそれぞれは、図8に示すように木構造にリン
クされる。即ち、ルートノードであるROOT(800
0)にリンクされる。このように、矩形37、41c、
41dはページのROOT(8000)に直接リンクさ
れる。しかし、非テキストオブジェクト35を囲む矩形
40やテキストオブジェクト36a,36bを囲む矩形
41a,41bのように完全にその矩形が他の矩形に含
まれてしまう場合は、これらの矩形は、包含する矩形
(この場合、39)の子となる。さらに、矩形39のよ
うな少なくとも一つの子を持つ矩形は、その矩形自身を
“主要な子”とする。図8の例では、矩形39は他の子
矩形40,41a,41bとともに自分自身を主要な子
として含んでいる。
【0032】ステップS1104では、木における第一
レベルのそれぞれの矩形は、テキストユニットか非テキ
ストユニットに分類される。ここで、木における第一レ
ベルとは、ルートノードから第1の距離の矩形、即ち、
図8の破線で示したトリー第一レベル(8001)を意
味する。
【0033】尚、分類過程は次の2つのステップから成
り立つ。
【0034】最初のステップでは、矩形が予め定められ
たサイズと比較される。矩形の高さがフォントサイズの
最大値に対応する予め定めた値を越える場合、あるいは
矩形の幅がページ幅を経験的に決められた一定の値で割
った値より大きい場合は、その連結成分は非テキストユ
ニットと分類され、“非テキスト”の属性がそのユニッ
トに与えられる。
【0035】第2のステップでは、属性の与えられなか
った残りのすべての矩形、すなわち非テキストとして分
類されなかった矩形が、残りすべての矩形から得られる
統計的なサイズに基づいて決められた値と比較される。
統計的サイズの一例として、例えば、非テキストとみな
されなかったすべての矩形の平均高さが用いられる。こ
の平均高さに、ある一定値(一般には2)をかけること
によって適応的なしきい値が得られる。このしきい値よ
り大きいすべての矩形は、非テキストに分類される。一
方、そのしきい値より小さい矩形はテキストの矩形とみ
なす。こうして、各矩形は分類され、適切な属性が与え
られる。以上生成された2つの分類は、さらに以下に示
すいくつかの処理を受ける。
【0036】ツリーの第一レベルのすべての矩形が、テ
キストか非テキストかに分類された後、テキストの矩形
の子は、主要な子(すなわち、自分自身)を含めて、テ
キストとして分類される。非テキストの主要な子は非テ
キストとして残されるが、それ以外の子はテキストとし
て分類される。
【0037】ステップS1105では、最初の矩形を選
択する。
【0038】ステップS1106では、もしその矩形が
テキストユニットであれば、ステップS1107へ進
み、次の矩形が選択される。非テキストユニットが選択
されるまでステップS1106〜ステップS1107の
処理は続き、非テキストユニットが選択されると、ステ
ップS1108へ進む。
【0039】ステップS1108では、非テキストユニ
ットが子を持っているかどうかが調べられる。たとえ
ば、図8の例では、非テキストユニット38は非テキス
トである主要な子39とテキストである40,41a,
41bという子を持つ。そして、子を持っている場合
は、ステップS1109へ進む。
【0040】ステップS1109では、各ユニットが、
ハーフトーン(または、グレースケール)かどうかチェ
ックするためのフィルタリング処理を行う。ハーフトー
ンフィルタリング処理では、その子が調べられ、所定の
“ノイズ”サイズより小さいものの数が数えられる。
“ノイズサイズ”のユニットというのはその高さが入力
イメージデータにおける最小のフォントサイズより小さ
いものである。
【0041】ステップS1110では、ノイズサイズよ
り小さい子の数が、子の総数の半分より大きいかどうか
チェックし、おおきければ、そのユニットはハーフトー
ンイメージと判定し、ステップS1111へ進む。大き
くなければ、即ち、そのユニットがハーフトーンでなけ
れば、ステップS1113へ進む。
【0042】ステップS1111では、そのユニットに
“ハーフトーン”という属性を与える。
【0043】ステップS1112では、ハーフトーンイ
メージの中のテキストが調べられる。すなわち、ハーフ
トーンイメージの子の中でテキストサイズのものは、ハ
ーフトーンイメージの子ではなく、ハーフトーンイメー
ジと同レベルになるように、木構造を修正する。これに
よって、ハーフトーンイメージ中の文字認識も可能にな
る。そして、ステップS1105に戻り、次のユニット
に関する処理が続行される。
【0044】ステップS1113では、そのユニットの
主要な子が後の処理のために選択される。
【0045】ステップS1114では、そのユニットは
フレームフィルタリング処理を受ける。フレームフィル
タリング処理とは、そのユニットがフレーム(枠)であ
るかどうかを判定することである。フレームであると
は、そのユニットを囲むような矩形を構成するほとんど
同じ長さの幅や高さをもった平行な直線が存在するとい
うことである。特に、注目ユニットにおいて、画素単位
で見た時の各行での連結成分の線幅を調べる。例えば、
図9に示す非テキストユニット42がある場合につい
て、この処理の説明を行う。図9で、非テキストユニッ
ト42は、44のような輪郭成分を持つ連結成分43を
含んでいる。この例において、行iにおけるこの連結成
分の線幅はxi、すなわち輪郭線の左端45aから右端
45bまでの距離になる。一方、行jでは連結成分の内
部に2つの線幅が存在する。46a−46bと47a−
47b間である。そして、最も長い線幅である46c−
46d間が、距離xjとして定義される。
【0046】非テキストユニット42におけるすべて行
nにおいて距離xが計算され、その非テキストユニット
がフレームかどうかの判定を次の不等式を用いて行う。 ここで、Xkは上で述べたように、連結成分中の第k行
における最も長い線幅、Wは矩形42の幅、Nは行の数
であり、しきい値はワークが多少傾いていてもワークと
して検知できるように予め計算された値である。1o の
傾きを許すために、 T=sin(1o)×W + const とする。ここで、constは、ステップS1104で計算
された文字の平均高である。
【0047】上記の不等式が満たされると、そのユニッ
トはフレームデータと判定され、フローはステップS1
115からステップS1116へ進み“フレーム”とい
う属性が付加される。こうして、例えば、"フレームで
あり表"、あるいは"フレームでありハーフトーン"のよ
うな判定がフレームに対して可能になる。
【0048】ステップS1116以後の処理では、その
フレームデータが表あるいは表形式のものを含んでいる
可能性を調べる。
【0049】ステップS1117では、連結成分内の白
輪郭を得るための処理が行われる。白輪郭というのは、
ステップS1101で得られた黒の輪郭と基本的には同
じだが、黒画素の変わりに白画素を調べて得られるもの
である。図12に示すように、非テキストユニットの内
部が右下から左上に向かって矢印Bの方向に探索され
る。
【0050】始めて白画素に出会うとその点から近傍の
白画素対して51のような外向き探索が行われる。この
時、51に示す外向き探索においては、D1からD4ま
での方向しか必要ないことに注意すべきである。その結
果、ここでの処理における白輪郭追跡は、4方向探索と
いうことになる。すべての白輪郭が取り出されるまで、
この処理は続けられる。例えば、白輪郭追跡は、黒成分
52,53,54,55で囲まれる輪郭部を取り出すこ
とであり、同様の処理は56のような画素の内部に対し
ても行われる。
【0051】非テキストオブジェクト中のすべての閉じ
た白輪郭が追跡されるまで、上述したスキャン処理が続
けられる。
【0052】ステップS1118では、非テキストユニ
ットの密度が計算される。密度は、連結成分内の黒画素
の数をカウントし、矩形で囲まれた画素の総数により黒
画素の数を割ることにより計算される。
【0053】ステップS1119では、非テキストユニ
ット内の白輪郭の数が計算される。そして、その数が4
以上であるかどうか判定して、その数が4以上であれ
ば、その非テキストイメージは表か、テキストブロック
が表状に並んだものである可能性があり、ステップS1
120へ進む。その数が4以上でなければ、ステップS
1133へ進む。
【0054】ステップS1120では、白輪郭の充填率
が計算される。白輪郭の充填率というのは、非テキスト
イメージ中の白輪郭で囲まれる面積の割合を示すもので
ある。図12の例では、57,59のように完全に白画
素だけで構成される白輪郭もあれば、60,61のよう
に内部に黒画素領域を含む白輪郭も存在する。
【0055】ステップS1121では、充填率と所定の
閾値と比較し、充填率が大きければ、その非テキストイ
メージは表か、テキストブロックが表状に並んだものの
可能性があり、ステップS1122へ進む。充填率が小
さければ、ステップS1133へ戻る。
【0056】ステップS1122では、その推定をより
確実にするために、注目白輪郭に対して水平垂直方向に
格子状の内部構造をもっているかどうかをチェックす
る。水平または垂直方向に少なくとも2つの輪郭線を横
断していないような境界線をもつ白輪郭は、格子状にな
っていないとみなして再結合する。
【0057】例えば、図12の例では、白輪郭59の左
境界62と右境界63は別の白画素60の左境界64と
右境界65と一致するように垂直方向に伸びている。そ
のため、これらの白輪郭は格子状に並んでいると判断さ
れ再結合されることはない。
【0058】同様に、白輪郭63の上境界66と下境界
67は別の白画素70の上境界68と下境界69と一致
するように水平方向に伸びている。その結果、これらの
白輪郭も格子状に並んでいると判定され、再結合されな
い。
【0059】図13〜図15は、白輪郭が結合される場
合を説明する図である。
【0060】図13の、例えば非テキストユニット71
は、ハーフトーンイメージからバイナリイメージまでの
ユニットを含む非テキストユニットの例を表している。
非テキストイメージ71は、黒画素領域72と白画素領
域74,75,76,77,78,79を含んでいる。
このケースでは、この白画素領域の充填率は十分高いの
で、ステップS1121から再結合ステップであるステ
ップS1122へ進む。
【0061】そして、図14に示すように、まず白輪郭
75の上端と下端が白輪郭77の上端・下端と比較され
る。これらの上端および下端は一致しないので75と7
6は結合された新たな白輪郭76’が作り出される。
【0062】つぎに図15において、白輪郭77の左右
の境界が白輪郭78の左右の境界と比較される。これら
の境界は一致しないので、77と79は再結合され新た
な白輪郭77’となる。
【0063】このプロセスは再結合が起こらなくなるま
で、水平および垂直方向に繰り返される。
【0064】以上説明したように、表の白輪郭は結合さ
れにくく、表以外、例えばハーフトーンイメージや線図
形のような表以外のものは結合され易い。
【0065】ステップS1123では、再結合率が計算
される。もし再結合率が高いか再結合処理の後に残った
白輪郭の数が4未満であれば、ステップS1128へ進
み、その非テキストユニットは、以下で詳述するよう
に、ハーフトーンイメージか線図形と判定される。尚、
再結合率は、以下の式で定義する。 再結合率 CR=(BW - AW)/BW ここで、 BW: 結合前の白輪郭の数 AW: 結合後の白輪郭の数 また、再結合率が高くないか、または少なくとも4個以
上の白輪郭が残った場合、ステップS1124へ進む。
【0066】ステップS1124では、結合されたユニ
ットを表と判定し、"表"の属性を付加する。
【0067】ステップS1125では、新たに表と判定
されたものの内部が調べられ、含まれる連結成分の探索
や分類が行われる。
【0068】ステップS1126では、新しい内部連結
成分に従って木構造が更新される。
【0069】ステップS1127では、内部連結成分は
テキストか非テキストとして再び分類され、適切な属性
が付加される。この処理は、すでに説明したステップS
1102からステップS1104の処理と同じである。
ステップS1107へ戻り、次のテキストユニットが選
択される。
【0070】ここで、ステップS1121とステップS
1123のステップの処理に関して話を戻して補足す
る。もし、ステップS1121で充填率が高くないか、
ステップS1123で再結合率が高くない場合、その非
テキスト枠図形はハーフトーンイメージか線図形の可能
性が高い。そして、そのユニットがハーフトーンイメー
ジか線図形かはそのユニット中の黒画素の水平方向のラ
ンレングスの平均、白画素と黒画素の割合、および密度
によって決定される。一般的に、非常に暗いイメージは
ハーフトーンイメージとみなされ、白く明るいイメージ
は線図形と判定される。
【0071】特に、白画素の平均ランレングスがほとん
ど0の場合(ほとんど真黒か、まだら模様のイメージで
ある)で、さらにステップS1118で計算された密度
が白より黒の方が大きい場合、すなわち、密度がしきい
値約0.5(これを1番目のしきい値とする)より大き
いときは、そのフレームユニットはハーフトーンと判定
される。もし、密度が1番目のしきい値よりも大きくな
い場合には、そのユニットは、線図形と決められる。
【0072】また、もし白画素の平均ランレングスがほ
とんど0で、かつ白画素の平均ランレングスが黒画素の
平均ランレングスよりも大きい場合は、そのフレームユ
ニットは線図形と判定される。
【0073】しかし、白画素の平均ランレングスが黒画
素の平均ランレングスより大きくない場合は(すなわ
ち、これも黒が支配的なイメージである)、さらに詳細
な判定手順が必要である。
【0074】特に、黒画素の数が白画素の数よりはるか
に少ないとき、即ち、黒画素の数が白画素の2倍(これ
を2番目のしきい値とする)より小さいとき、このフレ
ームユニットはハーフトーンと判定される。一方、黒画
素の数を白画素の数で割った値が2番目のしきい値より
大きくないが、ステップS1118で計算した密度が1
番目のしきい値より大きい場合は、そのフレームユニッ
トは、ハーフトーンイメージと判定する。そうでなけれ
ば、線図形と判定する。
【0075】ステップS1128では、フレームユニッ
トが線図形と判定されると、ステップS1129へ進
み、“線図形”という属性が付加される。
【0076】ステップS1130では、すべての子が除
去される。特に、あるユニットが、ひとたび線図形と判
定されると、もうそのユニットに対しては文字認識処理
が行われない。その後、処理は、ステップS1107へ
戻り、次のテキストユニットが選択される。
【0077】他方、フレームユニットが線図形と判定さ
れないと、ステップS1131へ進み、“ハーフトー
ン”という属性が付加される。
【0078】ステップS1132では、そのユニットの
子のうち、テキストサイズの子は除去される。テキスト
サイズより大きいすべての子は、フレームハーフトーン
イメージの子として残ることが許される。そして、処理
はステップS1107へ戻り、次のテキストユニットが
選択される。
【0079】ここで、ステップS1119からの処理に
関して補足する。もし白輪郭の数が4より大きくない場
合は、そのフレームユニットは表でないと判断される。
そして、ステップS1133へ進み、ステップS111
8で計算された密度と、所定のしきい値(約0.5)と
が比較される。このしきい値は、フレーム内のテキスト
ユニットや線図形は、全画素の半分より小さいとの想定
の元で選ばれている。もし、密度がこのしきい値より小
さければ、ステップS1134へ進み、フレームユニッ
トの内部構造が調べられる。この処理は、すでに述べた
ように、フレームユニットの内部構造に対するステップ
S1101での処理と同様である。
【0080】他方、ステップS1133で、密度が所定
のしきい値より小さくない場合は、ステップS1142
へ進み、そのフレームユニットが線図形かハーフトーン
イメージのどちらに分類されるか、あるいはそのフレー
ムが、分類不可能(すなわちそのフレームは“未知”)
という判定が行われる。
【0081】次に、ステップS1115からの処理に関
して補足する。ステップS1115では、ステップS1
114におけるフレームフィルタリング処理の結果、非
テキストユニット内にフレームが検知されなかった場
合、ステップS1135へ進み、その非テキストユニッ
トが“線”を含んでいるかどうかが判定される。“線”
はテキストの境界を表すのに有用な非テキストユニット
といえる。しかし、そのような線によって区切られる
(囲まれる)テキストは、その線に非常に近い場合が多
く、接触が起きている可能性がある。その結果、線探索
では、テキストが接触している場合と接触していない場
合の両方を考慮する必要がある。
【0082】接触が起きていない場合の線探索のために
は、非テキストユニットの縦方向のヒストグラムが計算
される。図10は、傾いた線分5000とその線分に関
して、対応するヒストグラム48を示す。線分5000
は、その線幅がほぼ均一であるため、そのヒストグラム
49の高さもほぼ均一の値になり、線分5000の傾き
が小さければ、そのヒストグラム49の高さは、ほぼ線
分5000の線幅に等しい。線分の傾きθS は、元原稿
が入力された時点で発生する。そして、非テキストユニ
ットが線を含んでいるかどうかを判定するためには、ヒ
ストグラム中の各セルkの高さ49を幅Wと比較する。
次式のように、これらの値の差の2乗平均がしきい値と
比較される。 ここで、cellkは、第k番目のセルの高さを意味する。
また、しきい値Tは、非テキスト内の線のねじれ、また
は、傾きθS を許容するように設定される。例えば、1
o のねじれや傾きに対しては、 なるしきい値Tを設定する。
【0083】上述の不等式による判定で、非接触の線が
発見されなかった場合、接触が起きている線が含まれて
いるかどうかの探索を行う。注目している非テキストユ
ニット中、接触している線が含まれているかどうかを調
べるためには、線状のものがユニットの境界線近くに存
在するかどうかを調べる。
【0084】例えば、図11の例のように、ユニットを
囲む矩形の境界線近くに線が存在するとしよう。この場
合、境界線からの距離の2乗和を計算することによって
調べることができる。すなわち、このケースでは、次式
の不等式が計算される。 もし、左辺が予め定めたしきい値Tより小さければ接触
している線が存在していることがわかる。このしきい値
Tは、接触を起こしていない線の場合と同じ値を使えば
よい。
【0085】ステップS1135では、線の検出を行
い、ステップS1136で、線が検出されたかどうかチ
ェックし、線が検出されれば、ステップS2000へ進
み、“線”という属性をその非テキストユニットに付加
する。そして、ステップS1107からの処理へ戻り、
次のユニットが選択される。他方、もしステップS11
35で、線が検出されなかった場合は、ステップS11
37へ進む。
【0086】ステップS1137では、その非テキスト
ユニットのサイズが調べられる。もしそのサイズが、所
定のしきい値より小さければ、その非テキストユニット
の分類は決定することができず、ステップS1138へ
進み、“未知”の属性が付加され、その後、ステップS
1107へ戻り、次のユニットが選択される。他方、非
テキストユニットのサイズの方が大きければ、ステップ
S1139へ進む。尚、そのしきい値は、最大のフォン
トサイズから決定される。例えば、そのしきい値を、最
大フォントサイズの半分の値に設定する。
【0087】ステップS1139〜ステップS1140
では、前述したステップS1117〜ステップS111
9と同様の処理がなされる。即ち、非テキストユニット
の内部領域で、白輪郭の探索が行われ、白輪郭の数が計
算され、密度が計算される。
【0088】ステップS1141では、白輪郭の数が4
以上かどうかチェックし、4以上であれば、ステップS
1142へ進む。他方、白輪郭の数が4以上でなけれ
ば、ステップS1120へ進む。ステップS1142で
は、線図形あるいはハーフトーンイメージとして十分な
大きさをもっているかどうかを確かめるためにサイズが
計算される。サイズの決定には、そのテキストのユニッ
トの高さと幅、および黒画素のランレングスの最大長に
基づいて行われる。その非テキストユニットの高さと幅
が、最大フォントサイズより小さい場合は、そのユニッ
トは線図形やハーフトーンイメージを構成するに十分な
大きさをもっていないと判定され、ステップS1143
へ進み、“未知”の属性が付加される。また、ユニット
の幅は、最大フォントサイズより大きいが、黒画素のラ
ンレングスの最大長が最大フォントサイズより大きくな
いときは、やはりステップS1143へ進み“未知”の
属性が付加される。そして、その後、ステップS110
7へ戻り、新しいユニットが選択される。他方、その非
テキストユニットが、線図形あるいはハーフトーンイメ
ージを構成するのに十分な大きさをもっている場合は、
ステップS1144へ進む。
【0089】ステップS1144では、その非テキスト
ユニットが、線図形かハーフトーンイメージであるかチ
ェックして、線図形であれば、ステップS1145へ進
み、”線”属性を付加し、さらにステップS1146
で、すべての子が除去される。その後、処理は、ステッ
プS1107へ戻り、次のテキストユニットが選択され
る。他方、フレームユニットが線図形と判定されない
と、ステップS1147へ進み、ここで“ハーフトー
ン”という属性が付加され、次に、ステップS1148
で、そのユニットの子のうち、テキストサイズの子は除
去される。テキストサイズより大きいすべての子はフレ
ームハーフトーンイメージの子として残ることが許され
る。そして、処理は、ステップS1107へ戻り、次の
テキストユニットが選択される。
【0090】以上説明したように、図2のステップS1
001の処理に対応する、図3〜図5での処理工程に従
って、入力画像中のすべての連結成分が調べられ分類さ
れると、図16で示されるようなツリーデータ構造が得
られる。図16に示されるように、ルートノードである
ROOT(8000)は、入力画像のページに対応す
る。ルートROOT(8000)の子は、テキストブロ
ックまたは、未知・フレーム・写真(図)・線等からな
る非テキストブロックである。フレームの子は、テキス
トブロック、“未知”の非テキストデータ、テキストブ
ロックを含む表、写真(図)、線である。
【0091】図17は、ピクセルイメージデータを含む
ページの一例を示す図である。ページ90の中には、大
きなフォントサイズのテキスト91、93のようなテキ
ストデータを含む表92、テキストデータ94、水平線
95、別のタイトル96、二つの段落から成るテキスト
データ97、キャプション99をもち枠で囲まれた線図
形98、タイトル100で始まり、テキストデータ10
1へ続く2番目の段組、キャプション103をもち、枠
で囲まれたハーフトーンイメージ102、テキストデー
タ104、水平線105、最終段落106が含まれる。
【0092】図18は、図17のイメージに対して、ス
テップS1001の処理を施したものである。図18か
らかわるように、ページ90中の連結成分は、矩形で切
り出され、その内部は、ステップS1115からステッ
プS1134で示される処理によって、その属性が調べ
られている。
【0093】ステップS1001で得られたすべてのテ
キストユニットは、ツリーのどの位置にあっても、ステ
ップS1002で、垂直方向あるいは水平方向にグルー
プ化される。このグループ化の操作は、各テキストユニ
ットおよびその周囲のユニットのまとまり具合に基づい
ている。また段組を表していると思われるギャップ(空
間スペース)が垂直・水平両方向について検出され、保
持される。ステップS1002の詳細な過程は、図9を
用いて以下で述べる。
【0094】ステップS1501では、非テキストユニ
ットの境界線が、垂直及び水平方向に伸ばされ、ギャッ
プラインマーカーとする。図18で示されるように、垂
直方向のギャップラインマーカー109a,109b
が、テキストあるいは非テキストユニットと交差するま
で(この例ではユニット95)垂直方向に伸ばされる。
同様に、ギャップラインマーカー109c,109d
も、ユニット95と交差するまで伸ばされる。また、水
平方向のギャップラインマーカーについても同様の処理
を行う。ギャップラインマーカーは、ギャップ(空間ス
ペース)を検知するのに有効で、これによって段組を得
ることができる。
【0095】ステップS1502において、図18の1
07のようなテキストユニットの行結合が行われる。こ
こでの結合は、両方向に近接した連結成分間の距離をあ
らかじめ水平・垂直それぞれの方向について調べて、水
平方向の距離が小さい場合には水平方向に、垂直方向の
距離が小さい場合には垂直方向について行われる。この
結合方向は、結合しようとするテキストユニットの組方
向が縦であるか横であるかに対応しているものである。
【0096】さて、これらのテキストユニットは、次の
条件が満たされるとひとつのテキストとして結合され
る。
【0097】(1)その結合によってギャップラインマ
ーカーを越えない。
【0098】(2)そのテキストユニットは、他のテキ
ストユニットと接しているか、一定のしきい値以下の距
離にある。
【0099】尚、このしきい値としては、ステップS1
104で求めたテキストの平均長に実験的に求めたスケ
ールファクター(例えば、1.2)をかけたものでよ
い。
【0100】しかし、結合の前に、テキストユニットが
横組である場合には、テキストユニット間のギャップを
水平に伸ばし、縦組である場合には、垂直の方向に伸ば
すことによって、段組構造を表す方向に伸びたギャップ
が存在するかどうか決定することができる。例えば、図
18の例では、ギャップ108が、ふたつのテキストの
間に存在している。ギャップは、数行にわたって垂直方
向に伸びており、したがって、ステップS1502で
は、テキストユニット間の距離がしきい値以下であって
もギャップとして残される。
【0101】ステップS1503では、ステップS15
02で結合されなかったテキストユニットの組に対し
て、それらのユニットがともに近接する他のテキストユ
ニットによってオーバラップされ、かつ、その結合がギ
ャップラインマーカーを横切らないとき結合が行われ
る。このステップは、段落の構造からくるものではなく
単にテキスト行におけるスペースの関係から発生したも
のを消去するのに効果的である。
【0102】図18の例では、ステップS1502で残
されたギャップ108は、ステップS1503で消去さ
れる。なぜなら、すぐ下の行の文字にオーバラップさ
れ、かつ、ギャップラインマーカーを横切ることもない
からである。
【0103】そして、ステップS1504で、ツリー構
造が更新される。
【0104】図20は、ステップS1002で説明した
グループ化の処理の結果を表す模式図で、図21は、ス
テップS1002の処理によってツリー構造がどのよう
に変わったかを表す図である。図20に示されるよう
に、結合されたテキストユニットはグループ化されて、
110のようなテキスト行にされる。特に、ツリー構造
のどこにあっても、テキストユニットは必ず結合されて
テキスト行になる。例えば、111は、ツリー構造上の
フレームテーブルの下にあるが、やはり結合されてい
る。しかし、ステップS1117からステップS113
9で求めた白輪郭を越えた再グループ化は行われないこ
とに注意されたい。これは、テーブル中の項目をひとつ
の行にしてしまわないためである。左右の段組の間のギ
ャップは、保持される。また、非テキストユニットは、
再グループ化されない。そのため、112や113のよ
うにしきい値以下の距離にあってもグループ化されてい
ない。
【0105】図21では、この新たなグループ化が反映
されたツリー構造になっている。
【0106】図19で述べた処理工程(図2では、ステ
ップS1002)で、テキストユニットが結合されてテ
キスト行になった後、ステップS1003で示されるよ
うに、テキスト行はテキスト行形成時の結合方向とは逆
の方向に結合されて、テキストブロックとなる。
【0107】この処理工程を、図23を用いてより詳細
に説明する。グループ化の過程は、テキスト行ユニット
のまとまり具合と非テキストユニットの位置による。例
えば、間に存在する非テキスト行は境界線として作用
し、反対側にあるテキスト行同志がグループ化し、一つ
のテキストブロックとなるのを防ぐ。ふたつの連続する
非テキスト行ユニットの間にあるすべてのテキスト行
は、同時に処理を受ける。加えて、ステップS1003
では、いくつかのテキストユニットは非テキストユニッ
トと結合されるべきか(たとえば非テキストイメージと
ともに構成されるテキストキャプション)、また、ある
非テキストユニットを他の非テキストユニットと結合す
べきか(例えば、ハーフトーンイメージと関係している
線図形である)が、調べられる。
【0108】図23は、テキスト行をグループ化してテ
キストブロックとする様子を表すフローチャートであ
る。
【0109】ステップS1601では、タイトルブロッ
クが、ステップS1104で非テキストユニットと分類
されたものの中から形成される。その判断基準は、最大
フォントサイズより小さいが平均テキストより大きいと
いうことである。そのような、同じような大きさで近接
している非テキストユニットすべてをグループ化するこ
とによって、タイトルブロックは形成される。そして、
そのブロックには“タイトル”という属性が付加され
る。グループ化できなかった残りの全ての非テキストブ
ロックは、”ピクチャーテキスト”という属性が付加さ
れる。ツリー構造が、これに応じて適当に更新される。
なおタイトルはページの再構成に役立つ。
【0110】ステップS1602では、テキスト行の間
にある非テキストユニットが、検出される。これらの非
テキストユニットは、テキストブロック間の境界線とし
て作用し、テキスト行がひとつのテキストブロックにな
るのを防ぐ。
【0111】ステップS1603では、2つのステップ
からなる処理によって、テキスト行がテキスト行形成時
の結合方向とは逆の方向(以下、これを「ブロック結合
方向」と呼ぶ)にグループ化され、テキストブロックと
なる。最初のステップでは、段組の間のギャップが探索
される。そのためには、たとえば画素のブロック結合方
向のヒストグラムが計算される。2番目のステップで
は、ブロック結合方向に連続するテキスト行同士の距離
が、ステップS1104で計算したテキストの高さより
小さければ、これらのテキスト行は、各段組内において
グループ化される。
【0112】ステップS1603では、図20のテキス
ト行114のような同じ段落に属するテキスト行を結合
する。
【0113】ステップS1604では、垂直方向または
水平方向に近接したテキストブロックが、非テキストユ
ニットによって分離されておらず、前述の処理で得られ
たヒストグラムから発見されたどんなギャップをも破壊
しない場合に、グループ化される。テキストブロックの
グループ化は、ステップS1104で計算した垂直方向
の高さに応じて計算される一定のしきい値より小さいよ
うなブロック間の分離状態に基づいて行われる。
【0114】図20の例で、段落115のテキスト行や
段落116のテキスト行から作られるテキストブロック
をグループ化するのにステップS1604は有効であ
る。しかし、117と118を結合するのには有効でな
い。これらのテキストブロックが、非テキストブロック
119(線)によって分離されているからである。ステ
ップS1605は、あるテキストブロックが非テキスト
ブロックと結合すべきか、あるいはある非テキストブロ
ックが他の非テキストブロックと結合すべきかを決定す
る。テキストブロックは、非テキストタイトルブロッ
ク、非テキストハーフトーンブロック、および、付属物
をもつ非テキストラインと結合することができる。これ
らの結合は次の判断に従って行われる。 (1−a) もし、あるテキストブロックが非テキスト
のタイトルブロックと水平方向に近く、かつ垂直方向に
オーバラップしている場合、そのテキストブロックは非
テキストタイトルブロックに結合される(但し、テキス
トブロック及びタイトルブロックは共に横組であるとす
る)。
【0115】(1−b) もし、あるテキストブロック
が非テキストのタイトルブロックと垂直方向に近く、か
つ水平方向にオーバラップしている場合、そのテキスト
ブロックは非テキストタイトルブロックに結合される
(但し、テキストブロック及びタイトルブロックは共に
縦組であるとする)。
【0116】(2) あるテキストブロックが(水平方
向にも垂直方向にも)ワードサイズのブロックより小さ
く、かつそのテキストブロックが、近接するワードサイ
ズのテキストブロックを持たない場合、このテキストブ
ロックは非テキストハーフトーンイメージブロックの内
部に置かれる。
【0117】(3) 付属物を持つ非テキストラインを
オーバラップするあるテキストブロックに対して、その
付属物を持つラインは、おそらくアンダーライン付きの
テキストなので単にテキストとする。
【0118】また、いくつかの非テキストブロックは、
図25の表に従って他の非テキストブロックと結合され
る。
【0119】この表中で、Testとなっているのは、
それぞれ次のような内容である。 Test #1:ひとつのブロックが、完全に他のブロ
ックに含まれるならば結合する。
【0120】Test #2:ピクチャーテキストの幅
が、ワードサイズブロックの幅より小さいならば結合す
る。
【0121】Test #3:ブロック同士が近接して
いるならば結合する。ステップS1606では、属性が
修正され、これまでに述べた処理によってツリー構造が
更新される。
【0122】図24は、図23の処理で得られるブロッ
ク構造を表しており、図22はツリー構造の例である。
図24中のブロックとしては、タイトルブロック12
0、テキストブロック121、写真(線画)122があ
る。また、フレームデータとしては、表形式になってい
る123、テキストユニット125を内部にもち表構造
になっている124がある。非テキストイメージ127
は、図24中の様々なユニットのセパレータとなってい
る。
【0123】次に、OCR回路6について説明する。
【0124】OCR回路6の動作原理を、図26のフロ
ーチャートに基づいて説明する。
【0125】ステップS101における、文字切り出し
処理では、ブロックセレクション回路4で抜き出された
文字記述画像データに対し、1文字づつの文字画像の外
接矩形を求める。認識処理では、まず位置、傾き、線
幅、濃度等の正規化処理を行い、さらにこの正規化され
た切り出し文字画像データに対して輪郭線特徴などに基
づく特徴ベクトルの抽出を行う。そしてあらかじめ用意
された認識辞書におけるすべての認識対象文字の標準パ
ターンベクトルとのマッチングを取り、最も確からしい
とされた標準パターンに対応する文字コードを認識結果
として出力する。
【0126】ここで認識辞書は日本語要の認識辞書と英
語用の認識辞書の2つが用意されており、判定回路5か
らの指示によりこの2つの辞書を切り換えられる。
【0127】日本語用認識辞書は、ひらがな、カタカ
ナ、漢字、英字、記号、数字等の日本語として用いられ
る文字に関するすべての文字パターンを含んでいる。ま
た、英語用認識辞書は、アルファベット、記号、数字等
の英語として用いられる文字に関するすべての文字パタ
ーンを含んでおり、さらにイタリック文字、飾り文字及
び代表的な英字フォントに対応可能ないくつかの複数フ
ォントに関する文字パターンも併せて持っている。
【0128】次に、判定回路5について説明する。
【0129】判定回路5は、OCR回路6にどちらの認
識辞書を文字認識処理に用いるか指示する。これの動作
原理は、以下に説明する全体の動作原理の中で、図1に
基づいて詳しく説明する。
【0130】スキャナ回路1は、原稿をスキャンして文
書画像情報を読み込む。そして、システム制御回路10
により制御されたメモリコントロール回路2を介して、
その情報がメモリ回路3に記憶される。
【0131】次に、メモリコントロール回路2の制御に
基づいて読み出された画像情報は、ブロックセレクショ
ン回路4に供給される。ブロックセレクション回路4で
は、属性分離を行い、また、読み込まれた文書画像情報
の文字画像部分については、縦書きか横書きかを示す組
方向情報も併せて判定し、この文書画像情報とその組方
向情報とを判定回路5送る。
【0132】判定回路5の処理を、図27を用いて説明
する。
【0133】ブロックセレクション回路4から送られて
きた結果の組方向情報に基づいて、判定部5001で縦
書きか横書きかの判定を行う。そして、縦書きと判定し
たときは、日本語認識辞書を選択する指示をOCR回路
6に送る。また、横書きと判定したときは、文書画像が
日本語か英語かわからないため、判定部5002は、日
本語・英語マッチングテスト回路5000に対し、文書
画像の一部の文字に対し日本語、英語OCRのパターン
マッチングテストを行うように指示する。
【0134】ここで、パターンマッチングテストとは、
日本語認識辞書と英語認識辞書の両方についてパターン
マッチングを行い、その結果を出力する処理である。
【0135】OCR回路6は、日本語・英語マッチング
テスト回路5000の指示により、パターンマッチング
テストを行う。そして、このパターンマッチングテスト
結果を、日本語・英語マッチングテスト回路5000に
戻す。それを、日本語・英語マッチングテスト回路50
00は、判定部5002に送る。判定部5002は、送
られてきたパターンマッチングテスト結果の日本語認識
辞書によるマッチング結果と英語認識辞書によるマッチ
ング結果とを比較し、どちらの結果のマッチング度が高
いかによって、文書画像が日本語か英語かを判定し、そ
の判定結果のあった認識辞書を指示し、この指示をOC
R回路6に送る。OCR回路6は、判定回路5の判定結
果より、7の日本語認識辞書か8の英語認識辞書に切り
換え、さらにその辞書を用いて、文書画像全体に対する
文字認識処理を行い、その結果を結果出力回路9に出力
する。また、ブロックセレクション回路4、OCR回路
6の動作については、既に上述したので省略する。
【0136】尚、本発明は、複数の機器から構成される
システムに適用しても、1つの機器から成る装置に適用
しても良い。また、本発明はシステム或は装置にプログ
ラムを供給することによって達成される場合にも適用で
きることは言うまでもない。
【0137】以上説明したように、読み込まれた文書画
像情報をブロックセレクション回路の処理結果及びOC
R回路のマッチングテスト結果を用いることでOCRの
切り換えを自動で行うため、比較的簡単な構成でしか
も、優れた操作環境を有する画像処理装置を構成でき
る。
【0138】
【発明の効果】以上説明したように本発明によれば、画
像イメージに複数の属性を持つデータが混在していて
も、オペレータのデータの属性毎に対応する認識部の選
択指示が不要で、高速に画像イメージを認識することが
できる。
【0139】
【図面の簡単な説明】
【図1】本実施例の画像処理装置の構成を示すブロック
図である。
【図2】ブロックセレクション処理のフローチャートで
ある。
【図3】ステップS1001の詳細な処理を示すフロー
チャートである。
【図4】ステップS1001の詳細な処理を示すフロー
チャートである。
【図5】ステップS1001の詳細な処理を示すフロー
チャートである。
【図6】画像イメージの輪郭追跡処理を示す図である。
【図7】画像イメージの外接輪郭を示す図である。
【図8】画像イメージを構成する各要素を管理するツリ
ー構造を示す図である。
【図9】抽出された画像イメージの1要素を分析するた
めの主要データを示す図である。
【図10】線探索のために、ヒストグラムを利用する例
を示す図である。
【図11】線探索のために、ヒストグラムを利用する例
を示す図である。
【図12】白輪郭追跡の方法を説明する図である。
【図13】白輪郭が結合される場合の一例を説明する図
である。
【図14】白輪郭が結合される場合の一例を説明する図
である。
【図15】白輪郭が結合される場合の一例を説明する図
である。
【図16】画像中のすべての連結成分のツリーデータ構
造を示す図である。
【図17】あるページのピクセルイメージデータを示す
図である。
【図18】段組のセグメンテーションを行う際、ギャッ
プラインマーカを用いる方法を説明する図である。
【図19】ステップS1002の詳細な処理を示すフロ
ーチャートである。
【図20】グループ化処理結果を示す図である。
【図21】画像中の連結成分のツリーデータ構造を示す
図である。
【図22】画像中の連結成分のツリーデータ構造を示す
図である。
【図23】テキスト行をグループ化してテキストブロッ
クとする処理を示すフローチャートである。
【図24】テキスト行をグループ化してテキストブロッ
クとする処理がなされた結果の一例を示す図である。
【図25】非テキストブロック間の結合ルールを示す図
である。
【図26】OCR回路の動作を説明するフローチャート
である。
【図27】判定回路の動作を説明するフローチャートで
ある。
【符号の説明】
1 スキャナ回路 2 メモリコントロール回路 3 メモリ回路 4 ブロックセレクション回路 5 判定回路 6 OCR回路 7 日本語認識辞書 8 英語認識辞書 9 結果出力回路 10 システム制御回路
───────────────────────────────────────────────────── フロントページの続き (72)発明者 大原 栄治 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】画像イメージ中の同じ属性をもつ要素を連
    結し、同属性のブロックを生成する連結工程と、 前記同属性のブロックの属性に対応する前記要素を認識
    する認識工程と、 前記同属性のブロックの属性に対応する前記認識工程を
    駆動する駆動工程と、を備えることを特徴とする画像処
    理方法。
  2. 【請求項2】 前記属性は、テキスト属性と非テキスト
    属性であることを特徴とする請求項1に記載の画像処理
    方法。
  3. 【請求項3】 前記テキスト属性は、日本語属性と英語
    属性であることを特徴とする請求項2に記載の画像処理
    方法。
  4. 【請求項4】 前記非テキスト属性は、フレーム構造を
    持つデータ属性、ハーフトーンデータ属性、線画属性、
    表形式データ属性であることを特徴とする請求項2に記
    載の画像処理方法。
  5. 【請求項5】画像イメージ中の同じ属性をもつ要素を連
    結し、同属性のブロックを生成する連結手段と、 前記同属性のブロックの属性に対応する前記要素を認識
    する認識手段と、 前記同属性のブロックの属性に対応する前記認識手段を
    駆動する駆動手段と、を備えることを特徴とする画像処
    理装置。
  6. 【請求項6】 前記属性は、テキスト属性と非テキスト
    属性であることを特徴とする請求項5に記載の画像処理
    装置。
  7. 【請求項7】 前記テキスト属性は、日本語属性と英語
    属性であることを特徴とする請求項6に記載の画像処理
    装置。
  8. 【請求項8】 前記非テキスト属性は、フレーム構造を
    持つデータ属性、ハーフトーンデータ属性、線画属性、
    表形式データ属性であることを特徴とする請求項6に記
    載の画像処理装置。
JP6081998A 1994-04-20 1994-04-20 画像処理方法とその装置 Withdrawn JPH07296109A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6081998A JPH07296109A (ja) 1994-04-20 1994-04-20 画像処理方法とその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6081998A JPH07296109A (ja) 1994-04-20 1994-04-20 画像処理方法とその装置

Publications (1)

Publication Number Publication Date
JPH07296109A true JPH07296109A (ja) 1995-11-10

Family

ID=13762150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6081998A Withdrawn JPH07296109A (ja) 1994-04-20 1994-04-20 画像処理方法とその装置

Country Status (1)

Country Link
JP (1) JPH07296109A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023511791A (ja) * 2020-04-10 2023-03-22 キヤノン オイローパ エヌ.ヴェー. テキスト分類

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023511791A (ja) * 2020-04-10 2023-03-22 キヤノン オイローパ エヌ.ヴェー. テキスト分類

Similar Documents

Publication Publication Date Title
JP3359095B2 (ja) 画像処理方法及び装置
EP0660256B1 (en) Method and apparatus for selecting text and/or non-text blocks in a stored document
US6574375B1 (en) Method for detecting inverted text images on a digital scanning device
US5907631A (en) Document image processing method and system having function of determining body text region reading order
US7519226B2 (en) Form search apparatus and method
EP0843276B1 (en) Document analysis
EP0854433A2 (en) Caption and photo extraction from scanned document images
US6711292B2 (en) Block selection of table features
JPH07131641A (ja) 画像処理装置
JP4077904B2 (ja) 情報処理装置およびその方法
EP0785522A2 (en) Method and system for detecting a pattern in an image
JP3837193B2 (ja) 文字行抽出方法および装置
JP2004178562A (ja) グラフによる画像分割
JPH07296109A (ja) 画像処理方法とその装置
JP5794154B2 (ja) 画像処理プログラム、画像処理方法、及び画像処理装置
JP4228592B2 (ja) 文字認識装置
JPH09120443A (ja) 画像処理方法とその装置
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
JPH09114923A (ja) 領域分割装置
JP3402755B2 (ja) 領域分割方法
JPH11316797A (ja) 文書画像の領域識別方法および装置
JPH02138674A (ja) 文書処理方法及び装置
JPH08272987A (ja) 画像処理方法及びその装置
JP2000207491A (ja) 文字列読取方法及び装置
JPH0728934A (ja) 文書画像処理装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20010703