JPH03260787A

JPH03260787A - テキスト又は線図形を識別する方法及びデジタル処理システム

Info

Publication number: JPH03260787A
Application number: JP2322238A
Authority: JP
Inventors: Dan S Bloomberg; エスブルームバーグダン
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1989-12-08
Filing date: 1990-11-26
Publication date: 1991-11-20
Anticipated expiration: 2015-09-11
Also published as: US5202933A; JP3086702B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は画像処理分野に関し、殊に、本発明は、一定の
画像におけるテキストと図形を識別しく又は）分離する
ことに関する。

〔従来の技術〕

多くの文書とその画像はテキストと図形の両方を含んで
いる。これらの文書は、水平線と垂直線とによってテキ
ストが隔たって配置される比較的簡単な文書（例えば用
紙や組織図）から、種々の角度で位置する線図形が種々
の角度で配置されたテキストの間に散在する機械図面の
如き比較的複雑な文書にまで及んでいる。

一定の文書とその画像においてテキストと線図形を識別
しく又は）分離することのできる能力は広範囲の業務用
途において重要である。例えば、テキスト・レコグナイ
ザ（別の場合には光学文字認識又はＯＣＲシステムと称
される）は、文書の画像中に図形が含まれている場合に
は、その性能は劣ることがｔｉｎである。従って、画像
をＯＣＲシステムへ送る前に図形を画像から除去するこ
とが望ましいであろう。反対に、コンパクトで正確な表
現を行うためには図形領域のみをグラフィックレコグナ
イザへ送ることも重要である。

一定の成功は納めたものの、従来のテキストと図形を分
離する方法は今日、種々の制約に遭遇している。即ち、
従来方法には、高価で複雑かつ（又は）信頼性のない装
置を必要とするものがあったり、相当量のコンピュータ
メモリ、計算時間等を要するものがある。また、上記方
法にはテキストと図形を検出し分離する上で信頼性の低
いものがある。従って、文書や画像におけるテキストと
図形を分離する上で改良された方法と装置が求められて
いる所以が理解される。

〔発明が解決しようとする課題及び課題を解決するための手段〕

本発明によれば、一定の文書又はその画像におけるテキ
ストと図形を識別する方法と装置が開示される。上記方
法によれば、比較的限られた量のコンピュータメモリと
処理時間しか要せず、信頼性ある結果を提供し、比較的
安価なハードウェアしか要しない。上記方法と装置は、
例えば２値画像をテキスト領域と図形領域に分割するこ
とによって画像の種々の部分を単一のテキストレコグナ
イザへ送るために使用することができる。その代わり、
同方法と装置は２値画像をテキストと図形に分割するこ
とによって画像の種々の部分をグラフィ・７クレコグナ
イザへ送るようにして使用することもできる。

従って、本発明は、デジタル処理システムにおいて、少
なくともテキストと線図形を含む画像中の線図形領域を
識別する方法を提供するものである。同方法は、テキス
トピクセル近傍のＯＦＦピクセルをＯＮピクセルに変換
し、同ＯＮピクセルの少なくとも一部が隣接テキストピ
クセルを連結することによってＯＮピクセルどうしの合
体領域をつくりだし、上記ＯＮピクセルの合体領域を有
する画像の少なくとも一部を識別し、画像の残りの少な
くとも一部が線図ｋａＭ域より成るようにするステップ
を備えるものである。

もう一つの例によれば、本発明は、デジタル処理システ
ムにおいて、少なくともテキストと線図形を含む画像に
おけるテキスト領域を識別する方法で、テキストピクセ
ルに隣接するＯＦＦピクセルをＯＮピクセルに変換し、
同ＯＮピクセルの少なくとも一部が隣接するテキストピ
クセルを連結することによってＯＮピクセルの合体領域
をつくりだし、上記ＯＮピクセルの合体領域を有する画
像の少なくとも一部を識別し、同画像の少なくとも一部
が上記テキストピクセルより成るようにする方法より構
成される。

本発明の性質と利点は以下の説明と図面を参照すること
によって一層理解することができょう。

〔実施例〕

Ａ、定義と用語本論は２値画像を取り扱う。この文脈において、“画像
”という語はピクセルより構成される２次元データ構造
を表わしたものをいう。２値画像とは、−個の所与ピク
セルが“ＯＮ”が“ＯＦＦ”かの何れかであるような画
像をいう。

２値画像は、一つもしくはそれ以上の原始画像が１つの
目的画像上ヘマッピングされるような一連の処理に従っ
て操作される。かかる処理の結果は、一般に画像と称さ
れる。処理の開始点となる画像は以下、原始画像と称さ
れることもあろう。

ピクセルはもし黒であればＯＮと、白であればＯＦＦと
定義される。黒をＯＮ、白をＯＦＦと命名することは、
問題の文書が大部分、黒の前景と白の背景を有するとい
う事実を反映したものであることに注意されたい。本発
明の手法は陰画像にも等しく適用可能であるが、以下の
論説は白地に黒という場合について行うことにする。一
定の場合には、以下の論説において、ＯＮ又はＯＦＦピ
クセルの何れでもよい“ドント・ケア”ピクセルについ
ても述べる場合がある。

画像の“べた領域”とは多数のピクセルを両次光へ延ば
し、その内部で実質止金てのピクセルがＯＮであるよう
な領域を指すものとする。

画像の“テクスチャ領域”とは相対的に微粒子のパター
ンを含む領域を指すものとする。テクスチャ領域の例は
中間調領域や点描領域である。

ＡＮＤ、ＯＲ，ＸＯＲとは２個の画像の間でピクセル対
ピクセルベースで実行される論理演算である。

ＮＯＴとは単一画像に対してピクセル対ピクセルベース
で実行される論理演算である。

“拡大”とは５ＣＡＬＥ因数Ｎを特徴とし、−個の原始
画像中の各ピクセルが、全て原始ピクセルと同一の値を
有するＮＸＮまず目のピクセルとなるようなスケール処
理である。

“縮小”とは５ＣＡＬＥ因数ＮとスレショルドレベルＭ
を特徴とするスケール処理である。

５ＣＡＬＥ＝Ｎによる縮小は、原始画像をＮＸＮます目
のピクセルに分割し、かかる原始画像内の正方形を各々
目的画像上の単一のピクセルパターングすることを伴う
。上記目的画像中のピクセルの値は、１〜Ｎ２の範囲の
数であるスレショルドＬＥＶＥＬ　　Ｍによって決定さ
れる。もしピクセルます目中のＯＮピクセルの数がＭよ
り大きいかそれと等しければ、目的ピクセルはＯＮ、さ
もなければＯＦＦである。

“サブサンプリングとは原始画像がより小さな（３！！
通、正方形の）エレメントに分割され、原始画像中の各
エレメントが目的画像中の小さなエレメントにマツピン
グされる処理をさす。

各目的画像エレメントのピクセル値は、原始画像エレメ
ントのピクセルの選択された部分集合により規定される
。典型的な場合、サブサンプリングには目的ピクセル値
が原始画像エレメントから選択されたピクセルと同一で
あるように単一のピクセル群にマツピングすることを伴
う。

上記選択は所定のものでも（例えば上部左ピクセル）無
作為なものでもよい。

“４連結領域”とは集合内の各ピクセルが同集合内の他
のピクセルの少なくとも一つに対して側部方向又は垂直
方向に隣接したＯＮピクセルの集合である。

“８連結領域”とは集合内の各ピクセルが同集合内の他
のピクセルの少なくとも一つに対して側部方向、垂直方
向又は対角線方向に隣接するＯＮピクセルの集合をさす
。

“テキスト”とは、表意記号や音節文字の如き非アルフ
ァベット言語文字を含む文字、数字その他の文字を含む
文書や画像の一部をさす。

“線図形゛とは、グラフ、図形；あるいは全体としてテ
キスト内の線と比較して相当なランレングスを有する水
平線、垂直線および斜線より成るテキスト以外の図面よ
り構成される文書又は画像の一部をさす。図形は、例え
ば組織図における水平線や垂直線から、例えば機械図面
におけるより複雑な水平線、垂直線、および斜線にまで
含まれよう。

゛線隣接グラブ（ＬＡＧ）とは全体として３つのレベル
が階層状となった木構造を有する２個画像を表わすデー
タ構造をいう。上記３つのレベル（ｉ）走査線中の隣接
ＯＮピクセルのシンと、（１１）連結ランより構成され
るストロークと、（ｉｉｉ　）連結ストロークより成る
隔離マーク（例えば文字）をいう。

一連の形態素処理は、原始画像を構造化要素（Ｓ　Ｒ）
と称されるピクセルパターンにより規定される規則に従
って等サイズの目的画像上ヘマソビソビングする。ＳＥ
は中心位置と、それぞれが規定値（ＯＮ又は０ＦＦ）を
有する一連のピクセル位置とにより規定される。ＳＥを
規定するピクセルは互いに隣接しているには及ばない。

中心位置はパターンの幾何学的中心にあるには及ばない
。またパターン内側にある必要もない。

“べた”ＳＥはその内部で全てのピクセルがＯＮとなる
周辺部を有するＳＥをさす。例えば、べたの２Ｘ２ＳＥ
はＯＮピクセルの２×２正方形である。べたＳＥは矩形
である必要はない。

“ヒツトミス”ＳＥは、少なくとも１個のＯＮピクセル
と、少なくとも１個のＯＦＦピクセルを指定するＳＥを
さす。

“浸食”とはＳＥ中心を原始画像内の対応するピクセル
位置上へ重ね合わせた結果ＳＥ中のＯＮピクセルとＯＦ
Ｆピクセル全体と原始画像中の下部ピクセルの間がマツ
チする場合、しかもその場合にのみ、目的画像中の所与
の１ピクセルがターンオンする形態素処理をさす。

“膨張”とは原始画像中の所与の１ピクセルがＯＮであ
ることによってＳＥ中心が目的画像中の対応位置に来る
ようにＳＥが目的画像内へ書込まれる形態素処理をさす
。膨張用に使用されるＳＥはＯＦＦピクセルを何ら有し
ないのが９通である。

“オープン処理”とは浸食後に膨張が行われる形態素処
理をさす。その結果、原始画像中の各整合についてＳＥ
が目的画像内にコピーされる。

“クローズ処理”とは膨張後に浸食が行われる形態素処
理をさす。

“８塗りつぶし”とは８連結領域が矩形境界ボックスに
塗りつぶされる画像処理をさす。

“マスク”とは通常、原始画像から導出される画像で原
始画像中の問題領域に対応するＯＮピクセルの実質上べ
た領域を含むものを指す。

上記マスクは問題領域に対応しないＯＮピクセルの領域
を含むこともできる。

以上定義した各種処理は名詞、形容詞、および動詞形で
表現される場合もある。例えば、膨張（名詞形）につい
て述べるとき、画像を膨張するとか、画像が膨張される
（動詞形）とか、画像が膨張処理に付される（形容詞形
）とか表現することができる。その場合、意味の相異は
意図していない。

Ｂ、光貝至微！広範囲の文書はテキストと線図形の両方を含む。かかる
文書はすこぶる簡単な文書（例えば書式や組織図）から
、種々のタイプと角度の線図形が広範囲のタイプのテキ
ストとまじりあった比較的複雑な文書（例えば、機械図
等）にまで及ぶ。

本発明は、画像中のテキストと線図形を識別し、場合に
よって、かかる画像をテキストと図形に分割する形態素
的方法と装置を提供するものである。上記方法は効果的
で相対的に高速かつ計算上効率的である。上記手法は全
体として、画像内に存在するテキストと図形領域を識別
するマスクを形成した後、同画像のテキストと図形部分
を分離することによって操作される。同手法は画像内の
テクスチャその他の差異を強調し、テキストの線の傾き
や接近度等に対して比較的影響を受けることはない。

本発明は画像内のテキストと図形を分離することが望ま
れるような広範囲の用途に使用することができる。−例
を挙げれば、本発明は、通常、図形が画像中に散在する
場合には性能が低いテキストレコグナイザと共に使用す
ることができる。本発明はテキストレコグナイザで処理
する前に図形を画像から除去することによってかかるテ
キストレコグナイザと共に使用されよう。その反対に、
グラフィックレコグナイザは、テキストを提示された場
合、すこぶる非効率に動作する。本発明は処理前にテキ
ストを除去することによってかかるグラフィソクレコグ
ナイザと共に使用されよう。更に、その代わりとして、
本発明は電気複写システム中に使用することによって、
例えば色が異なることを含めた異なるコピー変数によっ
てテキストを図形から別個に印刷することもできる。こ
れらの用途は本発明が応用される専用ハードウェアを例
解したものにすぎないことはいうまでもない。

第１Ａ図は本発明が具体化された画像解析システム１の
ブロックダイアグラムである。システム１の基本的処理
は文書２の一定の特徴部分を抽出もしくは除去すること
である。このために、同システムは文書を１ピクセルベ
ースでデジタル化し合成データ構造を提供するスキャナ
３を備える。用途によって、上記スキャナは２値画像（
ピクセルあたりｌビット）又はグレースケール画像（ピ
クセルあたり複数ピント）を提供することができる。こ
のデータ構造はスキャナの解像度の精度に至るまで文書
の生の内容を含む。このデータ構造は通常、画像と称さ
れるが、メモリ４に送られるか、ファイル記ｔａ装置５
内にファイルとして格納することができる。

上記装置５はディスクやその他の大容量記憶装置とする
ことができる。

プロセッサ６はデータの流れを制御して画像処理を実行
する。プロセッサ６は、汎用コンピュータでも、画像処
理用に最適化された専用コンピュータでも、また、汎用
コンピュータと補助的な専用ハードウェアを組合せたも
のであってもよい。もしファイル記憶装置を使用する場
合には、画像は処理に先立ってメモリ４へ転送される。

また、メモリ４は中間データ構造と、恐らく最終処理デ
ータ構造を格納するためにも使用することができる。

本発明の一部を構成する画像処理の結果は、導出画像、
数値データ（例えば、画像の顕著な特徴の座標値）ある
いはそれらの組合せとなる。

この情報は用途固有のハードウェア８　（プリンタ、デ
イスプレィ、光学文字認識装置、グラフィックレコグナ
イザ、電気複写機等）に送るか、ファイル記憶装置５に
書き戻すことができる。

本発明は特殊な縮小手続と形態素処理を活用して線図形
を除去する一方、テキスト行中におけるピクセルのテク
スチャを変更するようにしてそれらのテクスチャに従っ
て領域を変換しあってテキストエリアが保持され続け、
最終的に、べたもしくは殆んどべたのＯＮピクセルの分
離マスク内へ合体されるようにするようになっている。

かくして、線図形ピクセルは除去される一方で、テキス
トピクセルは合体したＯＮピクセルのべたブロックとし
て保持されることになる。

画像の大きなべたＯＮ領域（例えば、画像内のテキスト
又は図形よりも相当大きな距離にわたってＯＮピクセル
のランレングスを有する領域）と最終的にテクスチャ化
された領域（例えば、中間調や点描部）がまづ画像から
除去されることが望ましい。かかる領域を除去するため
には種々の方法が利用可能であるが、かかる領域は米国
特許筒　　　　　号と　　　　　　号に開示の方法のう
ちの一つに従って除去することが望ましい。残りの画像
部分は、主としてもしくは専ら、テキストと線図形を含
む。ががる除去ステップは、特に処理さるべき画像がべ
たの黒、点描もしくは微細テクスチャ領域を含むことが
予想されない場合には選択による。

第１Ｂ図は上記方法に従って微細テクスチャ領域が除去
された入力２値画像を処理するために使用される場合の
本発明例を示す全体フローダイアグラムである。この場
合使用される特定のテキストテクスチャの性質は、（１
）水平方向テキスト用のピクセルが走査線上に比較的緊
密な間隔をおいて位置する傾きがあり、（２）テキスト
が相当な高さ　（例えば、１ｏもしくはそれ以上のピク
セルだけの高さ）を有する傾きがあり、（３）テキスト
が、その中心がアプリオリには知ることはできないが、
例えば文字の高さのほぼ３倍の固定値より大きくない特
定距離により隔てられるテキスト行中に来る傾きがある
という点である。

画像の図形部分の垂直方向ラン（以下、垂直方向シンと
称する）は、そのうちの若干はテキストに近接すること
ができるが、ステップ１０で除去され、それと同時にテ
キスト領域は確立される。これは若干の実施例ではコン
トラストを強調して縮小し、クローズとオープン処理の
両方を使用することによって行われる。更に縮小する場
合、コントラストを弱めて、更にクローズとオープンの
両方の処理によって、テキスト行の輪郭を一層はっきり
させると同時に、水平罫線と細い水平線をステップ１２
で除去する。

画像は更にコントラスト強調によって縮小され、クロー
ズや塗りつぶしの如き形態素処理を活用してステップ１
４でテキスト領域を矩形マスク内へ固定する。最後の選
択的な小さいオープン処理によって残る図形領域は何れ
も除去される。

高い縮小度でテキストエリアを表わす残りの矩形に塗り
つふされた領域は、その後、ステップ１６で原寸まで拡
大される。その際、一定の縮小ステップ中に僅かな大き
さの浸食を補償する調節がある程度行われる。その結果
、テキスト分離マスクが得られ、ステップエ８において
同マスクから原始画像のテキストと図形の分離が行われ
る。

本発明は縮尺処理が効率的に行えるため、まづ縮尺処理
を例にとって説明したが、縮尺によらずに全体を実寸で
実行することもできることはいうまでもない。

Ｃ９発凱■肛且第２図は第１Ｂ図のステップ１０の一例の詳細を示す。

画像は、ステップ２２と２４において、スレショルドレ
ベル−１（即ち、もし４個のピクセルのうち何れかがＯ
Ｎであれば、目的画像中の縮小ピクセルもＯＮである）
を用いて２分の１に縮小される。同画像は今度はステッ
プ２６においてスケール＝４　（４の線形スケール因子
）に縮小される。

この後、ステップ２８において小さな水平ＳＥ（例えば
３ｈ）によりクローズ処理が行われ文字を各ワード内に
共に結合する。これはステップ　３０に対する準備とし
てのもので、ステップ３０は若干大きな水平ＳＥ（例え
ば４ｈ）によるオープン処理で、垂直方向罫線と図形が
全て除去される。文字はステップ２８のクローズ処理に
よって共に幾分結合されるため、それらはステップ３０
のオープン処理によっては浸食されないのが普通である
。第２Ａ図は例解のため使用される他のＳＥと共に３ｈ
と４ｈのＳＥを示す。矢印はＳＥの原点又は基準点を示
す。但し、ここで使用される処理の大部分はＳＨの原点
とは無関係である。

一連のクローズとオーブン処理でなくスレショルド処理
縮小演算子を使用してこれらテクスチャ強調と区別化を
実行するには２つの利点がある。第１は縮尺での処理が
実寸での処理よりも計算上ずっと高速であることである
。処理時間は線形縮小因数がほぼ３乗の場合逆に変化す
る。そのため、たとえば、スレショルドレベル＝１で縮
小することによって同時にテクスチャを閉じ縮尺で画像
を作ることができる。その場合以後の処理全体はずっと
高速になる。第２の理由はより微妙である。テキストの
大きさはアプリオリには知られないので、ＳＥがクロー
ズ処理でどの程度大きいかはわからない。もしテキスト
領域内の隣接しあう部分をブリッジするには余りに小さ
なＳＥが選ばれた場合には、クローズ処理はこれらのブ
リッジを行うことができず、画像に対しては何らの変更
も行われない。

かくして、クローズ処理を活用することは局部的にはオ
ール・オア・ナソシングである。他方、ＬＥＶＥＬ＝１
での縮小の結果、テクスチャは暗くなり、従ってより効
果的なりローズ処理が行える。

第３図は第１Ｂ図のステップ１２の詳細を示す。目標は
テキスト行に相当するピクセルを更にためて、それらの
うちの幾つかが水平線図形を除去する処理に耐えるよう
にすることである。

このことはスレショルドレベル＝−４を用いて、ステッ
プ３２で更にスケール＝８での縮小を実行することによ
って行い図形を弱める。また、この縮小はテキスト行を
弱める効果をもつため、それらはステップ３４でクロー
ズ処理によって比較的大きな水平方向ＳＥ（例えば、５
ｈ又はより大きな水平方向ＳＥ）によって強められる。

水平方向線図形は２つの異なる方法で除去することがで
きる。画像はステップ３８における如（、小さな垂直Ｓ
Ｅ（例えば、２Ｖ）でオープン処理され、水平方向ライ
ンのうちの細い方が除去されることになろう。その代わ
り、テキストラインの近傍を活用することによって、厚
い方の線図形は、ステップ４０に示すようにクローズを
より大きな垂直ＳＥ（例えば、少なくとも３Ｖ）と組合
せた後、ステップ４２に示すように、垂直オープンと、
また更に大きなＳＥ（例えば、少なくとも４Ｖ）と組合
わせることによって除去することができる。第１の垂直
クローズの結果はテキストラインの幾つかを共に結びつ
けることである。次の垂直オープンはテキスト領域にお
けるピクセルの多くを除去するが、それらが先の垂直ク
ローズにより結びつけられている場合には何れも除去し
ないであろう。

第４図は、ステップ１０および１２の代わりに水平線と
垂直線を画像から除去するために使用されたり、ステッ
プ１０と１２以前に画像を処理するために使用される方
法を示す。この方法は、例えば、垂直罫線を含む白いス
ペースの狭い余白により分離されたテキスト欄を処理す
る際にはよりロバスト（即ち、広範囲の画像を正確に処
理することができる）である。垂直罫線がテキス１ｌｌ
ｊｌに近接すると、垂直罫線がまづ除去されないならば
、分離は困難になる。

垂直線と水平線を除去するために、画像は逐次、水平Ｓ
Ｅと垂直ＳＥによりオープン処理され、２つのオープン
画像の組合せ（水平線と垂直線を構成する）はＸＯＲ処
理により原画像より除去される。ＳＥはテキストの何れ
も除去しないように、テキスト領域中に見出されるもの
よりも長い線を表わす。この予備処理は第４図に略示す
る。殊に、原画像はステップ３５でコピーされ後に使用
される。コピーされた画像は２以上のオンピクセルを有
する水平と垂直方向のＳＥをそれぞれ使用して、ステッ
プ３５でコピーされ、ステップ３９でクローズ処理され
る。

ステップ４１では、ステップ３７と３９からのオープン
画像はＯＲ処理され、ステップ４１からのＯＲ処理され
た画像は、ステップ４３で原画像とＸＯＲ処理される。

結果は、大部分、もしくは全ての水平・垂直線が除去さ
れた画像となる。

水平線と垂直線は、今や、図形の大部分と共に除去され
、テキスト領域は一定のプリンジングを有する密接な間
隔を有する水平線のテクスチャを有する。第５図は第１
Ｂ図のステップ１４の詳細を示し、その場合、テキスト
領域は矩形領域内へ塗りつぶされ、図形領域における残
りのピクセルは除去される。画像はステップ４４で４回
目にハイコントラストレベル−１で５ＣＡＬＥ＝１６に
縮小される。ステップ４６における垂直ＳＥ（例えば３
Ｖ）によるクローズ処理によって隣接しあう線は接続さ
れ、その後、画像内のマークは、選択により、ステップ
４８で塗りつぶし８処理を活用して包囲境界ボックスに
塗りつぶされる。ステップ５０における最終的なオープ
ン処理によって、先の処理後に残った大きな図形マーク
は何れも除去される。

このオープン処理のサイズは多（の用途で重要である。

もしオープン処理が小さな５Ｅ（２Ｘ２）で行われた場
合、大きな図形マークが残される。もし大きなＳＥ　（
４Ｘ４）で行われた場合にも、普通、テキストの単一行
が除去され、多数のテキスト行だけがセーブされること
になろう。

さて、塗りつふされた領域を原始サイズにまで拡大しな
おして画像の残りからテキスト領域を分離するためにマ
スクを形成する処理が残っている。第６図は第１Ｂ図の
ステップ１６の詳細を示す。縮小プロセスにおいて、塗
りつぶされた領域の大きさは若干縮小された。これは、
例えば、ステップ５２で２倍だけ画像を拡大することに
よって補償し・た後、第２Ａ図に示す３Ｘ３ＳＥを使用
してステップ５４で画像を膨張させることができる。中
心がセンターピクセルにある状態で３×３ブロツクＳＨ
によって膨張させると、ＯＮピクセルの各ピクセルの境
界は１ピクセルだけ外部方向に拡大する。画像は今や８
の線形因子により拡大され、実寸（スケール−１）に戻
る。このことによって１つのテキストマスクの抽出は完
了する。同テキストマスクは、先にテキストを含む領域
において合体した大きなＯＮピクセル領域を含むが、線
図形領域にはほとんどもしくは全＜ＯＮピクセルは含ま
ないであろう。ここでは、合体領域によって、先にＯＦ
Ｆピクセルが散在した原始ピクセル中の隣接しあうＯＮ
ピクセルを含む領域は変換され終り、隣接しあうＯＮピ
クセルは今や追加的なＯＮピクセルが点在するようにな
ることが意味されるものとする。

第７図は２個の画像（一つはテキスト用、一つは図形用
）がつくりだされる第１Ｂ図のステップ１８の詳細を示
す。テキスト分離は、ステツブ５８において原始画像を
テキスト分離マスクによりＡＮＤ演算することによって
行われる。

その後、線図形分離は、ステップ６０において原始画像
をテキスト分離でＸＯＲ処理することによって行われる
。

第８図は、ステップ４８に示す塗りつぶし８処理の詳細
を示す。２つの対角線形の構造化要素を使用して浸食と
膨張を繰返すと、８連結領域は全て最小限可能な包囲矩
形に塗りつぶされる。対角線形ＳＥの一つのパターンを
マツチさせる画像の全ての位置について、マツチピクセ
ルは他のＳＥにより膨張させられ、その結果は原始画像
とＯＲ処理される。このプロセスは、空白画像（ＯＮピ
クセル無し）について逐次反復をＸＯＲ演算しテストす
ることによってテストされる際、画像が変化を停止する
まで反復される。

殊に、原始画像はステップ６２でコピーされる。ステッ
プ６４での浸食後に、最初の対角線ＳＥのパターンとマ
ツチする画像中の全てのピクセルについて、マツチピク
セルはステップ６８において原始画像とＯＲ演算される
。この結果得られる画像はステップ７０でコピーされ、
逆処理される。即ち、画像はステップ７２で第２のＳＥ
と共に浸食され、ステップ７４で第１のＳＥと共に膨張
する。その後、ステップ７６において、その結果は第２
のコピーされた画像とＯＲ処理される。その後、その結
果はステップ７８で原始画像とＸＯＲ処理され、同プロ
セスは、画像が変化を停止するまで繰返される。

上記変化の停止はＸＯＲ処理によって隠画になる（即ち
、オンピクセル無し）時に起こる。

Ｄ６代賛尖施■ 第９図は、種画像がつくりだされ境界ボックスに塗りつ
ぶされテキストマスクがつくりだされるようになった本
発明の代替実施例を示す。

第９図に示すステップは実施例によっては第１Ｂ図のス
テップ１４と１６にとって替わり、ノイズの除去効果が
改善されるだろう。

ステップ７９〜８１において、ステップ１２より得られ
る画像は例えばスレショルドレベル＝１を用いて３回縮
小される。場合によっては同画像は、その後、例えば、
べた３Ｘ３ＳＥを使用してステップ８２でクローズ処理
される。

画像はその後、先行するステップ、例えばＬＥＶＥＬ＝
４におけるよりも高いスレショルドレベルを用いてステ
ップ８３で再度縮小される。その後、画像は、ステップ
８４で、例えば６Ｘ３３Ｈによりオープン処理され、残
るノイズを除去し一定の種画像が得られる。

第９図の右手部分は種画像がクリップされるマスクの形
成を示したものである。原始画像はステップ８５〜８７
で、例えばスレショルドレベル−１を用いて４回縮小さ
れる。同画像はその後、小さなＳＥ（例えば、２×２）
により膨張され、ステップ８９で種画像がクリップされ
るマスクが形成される。塗りつぶしクリップ８９の結果
、分離マスクが得られるが、同マスクはステップ１８で
使用されテキストと線図形が分離される。

第１０図は塗りつぶしクリップ処理８９を詳解したもの
である。ステップ９０において、種画像はストアされる
。その後、同画像は、例えば３ｘ３ＳＥを使用してステ
ップ９１で膨張される。その後、ステップ９２の結果は
ステップ８８により得られるマスク画像とＡＮＤ処理さ
れる。ＡＮＤ処理の結果は、ステップ９３でコピーされ
た画像と比較され、もし画像が先の反復から変化してい
なければ、塗りつぶされた種画像がテキストマスクとし
て出力される。もし画像が先の反復からまだ変化中であ
れば、同プロセスは膨張ステップ９１において最終反復
を使用して反復される。

Ｅ３画像の高速スレショルド処理縮小（および拡張）効
率的セグメンテーションの一つの要求条件は、スレショ
ルド処理縮小が迅速に行われなければならないというこ
とである。一定の画像を垂直方向に２倍だけ縮小したい
と仮定する。このことを行う一つの方法は、マスク処理
（ｂｉｔｂｌｔ−ビットブロック転写）を活用して論理
的に奇数行と偶数行を組合わせ、原画像中の各対行につ
いて一行の縮小画像をつくりだすことである。その後、
同じ手続は垂直方向につぶされた画像の列に適用して、
両方向に２倍だけ縮小した画像を与えることができる。

その結果は、然しなから、水平方向と垂直方向における
ラスク処理の論理演算に依存する。

レベル−１又は４の結果を得ることは直接的である。も
しＯＲ処理が両方のラスク処理方向について使用される
場合には、その結果は、もし対応する原画像の２×２ま
ず回内の４個のピクセルの何れかがＯＮであったならば
ＯＮピクセルとなる。これは単にレベル＝１での縮小の
場合にすぎない。同様にして、もし両方のラスク処理方
向についてＡＮＤ演算が使用される場合には、結果は、
レベル−４の縮小となり、その場合、４個のピクセルは
全てＯＮでなければならない。レベル−２又は３による
縮小を行うには幾分異なるアプローチが使用される。水
平方向ＯＲ処理に続いて垂直方向ＡＮＤ処理を行った結
果が縮小画像Ｒ１とし、水平方向ＡＮＤ処理の後に垂直
方向ＯＲを行った結果を画像Ｒ２であると仮定しよう。

レベル＝２による縮小はＲ２とＲ１をＯＲ処理すること
によって行われ、レベル−３での縮小はＲ１をＲ２とＡ
ＮＤ処理することによって行われる。

手続きは以上の如く実行された場合、計算上効率的でな
いかもしれない。サン・ワークステーションの如き一定
のコンピュータではラスク処理はソフトウェアで行われ
る。画像は第１行の画像から初まり、左右へ移動した後
第２行等という具合に−ブロックの順次データとしてス
トアされる。従って、行間のラスク処理は、２ワード中
の１６又は３２ビツトが１処理で結合できるため、高速
である。しかし、列間のラスク処理を実行するためには
、対応するビットを、論理演算が実行できる以前に、−
時に２ビア）（各列から１つずつ）発見しなければなら
ない。

垂直方向ラスク処理を行うためにはピクセルあたりの時
間は水平方向よりも少なくとも２５倍大きいということ
が判る。事実、ラスク処理についてそのアルゴリズムが
全体として実行される場合には、９０％以上の時間が垂
直方向処理にささげられる。

幸いなことに、列間に論理演算を実行するために簡単で
非常に高速な方法がある。列ラスク処理を使用する代わ
りに１行に１６列に相当する１６の順次ビットをとろう
。これらの１６ビツトは短整数としてアクセスすること
ができる。

これら１６ビソトは８ビツトオブジエクトの２′　−大
ロアレイ　（即ち、ルックアンプテーブル）への索引と
して使用される。上記アレイの８ビツトの内容は、索引
の最初のビットを第２、第３、第４番目のビットから第
１５、第１６番目のビットとＯＲ処理した結果を与える
。実際には、１つは８組の隣接する列をＯＲ処理するた
めに、また、一つは列をＡＮＤ処理するために２つのア
レイが必要である。数値例は一例にすぎないことを理解
されたい。同様にしてこれを４ビツトオブジエクトの２
８−人口アレイとして、又は一連の他の方法のうちの何
れか一つを実行することもできる。

列論理処理を実施するためにルックアップテーブルを使
用するとピクセルあたりの速さはサンワークステーショ
ンの行うスク処理とほぼ同一となる。１０００　Ｘ　１
０００のピクセル画像はサン３／２６０に対してレヘル
ー１又は４の何れかで、０．１０秒に５００Ｘ５００ピ
クセル画像に縮小することができる。サン４／３３０に
ついては、同処理はほぼ０．０４秒かかる。

上記した如く、２×２の縮小には行間の最初の論理演算
につづいて列間に、第２の、多分異なる論理演算が必要
となる。更に、スレショルドレベルによっては、２個の
中間縮小画像が結合される必要がある。副演算に対する
テーブル探索手法は、もし非常に広範囲のピクセルワー
ドを有することが望ましい場合には厄介なものとなる虞
れがある。テーブルが巨大なものになるか、広幅のピク
セルワードの一部を多数の平行テーブル内に探索する特
殊な手法が必要になる。後者の方が、明らかに優れてい
るが、実際には、さもなければ必要でないかもしれない
データワードの一部をメモリアドレスとして使用する何
らかの方法が必要となる。

第１１図は垂直方向に隣接する２０ビツトのピクセルワ
ードと、その結果得られる２０ビツトピクセルワード（
ビットＯ〜２Ｑ−１）の封缶のビット縮小との間に論理
演算を実行するための特殊ハードウェアの論理概要であ
る。図面は１６ピクセルワードを示すが、このハードウ
ェアの利点は、ルックアップテーブル技法が厄介になっ
た場合、ずっと長いピクセルワードについて明らかとな
るであろう。−行の画像は数ピクセルワードしか表現し
ないため、５１２ビツトのピクセルワードが想定される
。

２個のピクセルワードの縮小は、２００と２０２の２つ
の段階で行われる。第１の段階では、垂直方向に隣接し
た一対のピクセルワードが第１のメモリ２０３から読取
られ、所望の第１の論理演算がそれらの間で実行される
。その後、所望の第２の論理演算が、結果として得られ
るピクセルワードと、１ビツトだけシフトしたピクセル
ワードのバージョンとの間で実行される。このことによ
って−行おきのビット位置に問題のビット（妥当ビット
）を有する被処理ピクセルワードが得られる。第２の段
階で、被処理ピクセルワード中の妥当ビットは抽出・圧
縮され、結果は第２のメモリ２０４中にスｌ、アされる
。メモリ２０３はピクセルワードサイズに相当するワー
ドサイズで編成されることが望ましい。メモリ２０４も
同様にして編成することができる。

段階２００の製作はインテグレーティソド・デバイス・
テクノロジーから販売のＩＤＴ４９Ｃ４０２プロセッサ
の如きビットスライスプロセッサのアレイであることが
望ましい。この特殊プロセッサはそれぞれ６４のシフト
可能なレジスタを含む１６ビツト幅のデバイスである。

５１２ビツトピクセルワードには３２のかがるデバイス
が好適であろう。簡単にするために、４個のレジスタ２
０５，２０６．２０７．２０８を有する１６ビツトシス
テムを示す。プロセッサの演算中には、第１と第２のレ
ジスタの内容を論理的に組合せその結果を第１のレジス
タ中にストアする処理がある。プロセッサはデータバス
２１７に接続されるデータポート２１５を備える。

第２の段階２０２は、それぞれピクセルワードの半分の
幅の、第１と第２のラッチトランシーバ２２０と２２２
を備える。各トランシーバはトランシーバ２２０につき
２２０ａと２２０ｂの２つのポートと、トランシーバ２
２２にっき２２２ａと２２２ｂの２つのポートを備える
。

各トランシーバはピクセルワードの幅の半分である。ポ
ート２２０ａと２２２ａはそれぞれ問題ビットに相当す
るデータバス２１７の奇数ビットに接続される。ボード
２２０ｂはデータバスのビットＯ〜（Ｑ−１）に連結さ
れる一方、ボード２２２ｂはビットＱ〜（２Ｑ−１）に
接続される。パスラインはレジスタ１２５によりプルア
ップされることによって非駆動ラインはＨレベルヘプル
される。

レベル−２による２×２縮小のケースを考えてみよう。

処理順序は、（ａ）垂直方向に隣接する一対のピクセル
ワードがＡＮＤ処理されて１個の２０ビツトピクセルワ
ードを形成し、隣接しあう数対のビットがＯＲ処理され
てＱビットピクセルワードを形成し、その結果がストア
され、ｆｂ）上記垂直方向に隣接する一対のピクセルワ
ードがＯＲ処理され、その結果として得られるＱビット
のピクセルワードがＡＮＤ処理され、結果として得られ
るＱビットピクセルワードがストアされ、（Ｃ）上記２
個のピクセルワードがＯＲ処理されることが必要である
。

このことを行うには、一対の垂直方向に隣接するピクセ
ルワードが第１のメモリ２０３からデータバス２１７上
へ、更にレジスタ２０５と２０６内へ読込まれる。レジ
スタ２０５と２０６はＡＮＤ処理され、その結果はレジ
スタ２０７と２０８内へストアされる。レジスタ２０８
の内容は１ビツト右ヘシフトされ、レジスタ２０７と２
０８はＯＲ処理され、その結果はレジスタ２０８内ヘス
ドアされる。レジスタ２０５と２０６はＯＲ処理され、
その結果はレジスタ２０６と２０７中ヘスドアされる。

レジスタ２０７の内容は１ビツトだけ右シフトされ、レ
ジスタ２０６と２０７はＡＮＤ処理される。

その結果はレジスタ２０７中ヘスドアされる。

この時点で、レジスタ２０７は、２つのピクセルワード
をＯＲ処理し数対の隣接ビットをＡＮＤ処理した結果を
含む一方、レジスタ２０８はピクセルワードをＡＮＤ処
理し、数対の隣接ビットをＯＲ処理した結果を含んでい
る。

然しなから、レジスタ２０７と２０８は奇数ビット位置
１．３、・・・・　（２Ｑ−１）に妥当ビットを含む。

レベル＝２による縮小の場合、レジスタ２０７と２０８
はＯＲ処理され、その結果はデータバス２１７に接続さ
れるプロセッサデータポート２１５で利用される。

データバスの奇数ビ′ットはポート２２０ａを経てトラ
ンシーバ２２０内ヘラソチされ、妥当ビットが隣接位置
にあるＱビットのピクセルワードが得られる。このＱビ
ットエンティティはバス上へ読み戻され、メモリ２０４
へ転送されるけれども、両方のラッチを使用することが
望ましい。かくして、２つの新たなピクセルワード（最
初の２つに水平方向に隣接する）は上記の如く、段階２
００で処理され、その結果はプロセッサデータポート２
１５で利用され、ポート２２ａを経てトランシーバ２２
２内ヘラツチされる。その後、２つのトランシーバの内
容はポート２２０ｂと２２２ｂを介してデータバス２１
７上へ読出されることによって、４個の２Ｑビツトピク
セルワードの縮小を表現する２Ｑビツトのピクセルワー
ドが得られる。その結果は、第２のメモリ２０４に転送
される。この全体の順序は対行中のピクセルワードが全
て処理され終るまでつづけられる。いったん対行の処理
が完了すると、同様にして後続の対が処理される。

上記の如く、各ビットスライスプロセッサは６４レジス
タを有する。従って、メモリアクセスは１ブロツクモー
ドの方がより効率的であるから、もし８対のピクセルワ
ードがメモリ２０３から１ブロツクの形で読取られ、上
記の如く処理され、プロセッサのレジスタ内にスＩ・ア
され、ブロック形でメモリ２０４へ書込まれるならばよ
り高速の処理が得られそうである。

画像拡大も同様であるが、そのステップは逆の順序で行
われる。まづ、プロセッサはピクセルワードを送り、ト
ランシーバ２２０のポート２２０ｂを経て左半分を送る
。これはポート２２０ａを経てバス上へ読取られる。バ
ス上にその結果得られるワード中の一つおきのピクセル
だけが最初妥当であるから、プロセッサは一連のシフト
と論理演算を活用することによってピクセル全体を妥当
化する必要があろう。レジスタ２２５は駆動されないパ
スラインを全てプルアップするから、それぞれの非駆動
ライン、この場合には偶数ビット全体はｌとなろう。こ
の拡大したピクセルワードは１とピクセルワードが交互
になっているが、２個のレジスタ中へ読込まれる。１つ
のレジスタの内容は１桁シフトし、それらレジスタは論
理的にＡＮＤ処理される。一つの奇数ビットに０が存在
する場合には、一つの偶数／奇数の対中には００が存在
することになろう。他のビットは何れも影響を受けない
。その後、このピクセルワードは拡大画像中の２つの垂
直方向に隣接するワードに書込まれる。このプロセスは
トランシーバ２２２を用いてピクセルワードの右半分に
ついて繰返される。プロセッサは行全体を一時に１ピク
セルワード、また、画像全体を一時に１行拡大する。

Ｆ、夫絡拠■園五第１２Ａ〜１２Ｄ図は本発明の一実施例の動作を示す。

第１２Ａ図は原始画像を実寸で示す。

同画像はテキストと線図形を含み、線図形はそれと関連
する少量のテキストを含む。

第１２Ｂ図は本発明のステップ１４より得られるテキス
トマスクを示す。マスクはテキスト領域のみを形成する
ことが判る。第１２Ｃ図は分離ステップ１８から得られ
るテキスト画像を示す。線図形とそれに関連するテキス
トは全て除去されたが、テキストブロックの全ては残存
していることが判る。逆に、第１２Ｄ図では、テキスト
ブロックの全ては除去されたが線図形とその関連するラ
ベルは残存することが判る。

第１３Ａ図と第１３Ｂ図は同一画像に対する本発明の処
理を、１６分の１倍の縮尺で描いたものである。画像の
個々のピクセルが観察できる。殊に、第１３Ａ図は一連
の縮小後に全部で１６倍の縮小が行われた第１２Ａ図に
示す画像である。第］、　３　Ｂ図は同プロセスより得
られるテキストマスクを示す。マスクを拡大して原始画
像とＡＮＤ処理すると、第１２図に示すものと同一の分
離が行える。

Ｇ、桔−晋本発明は一定画像におけるテキストと線図形を識別する
ための相当改良された方法と装置を提供する。上記解説
は例解的なものであって限定する旨ではないことを理解
されたい。本解説を読むことによって当業者にとって本
発明の多くの変形が明らかであろう。

【図面の簡単な説明】第１Ａおよび１８図は本発明が応用可能なハードウェア
と、本発明のハードウェアにおける動作とをそれぞれ示
す全体ブロック線図、第２図は第１Ｂ図に示すように垂直線を除去するための
縮小とその方法を示す詳細ブロック線図、第２Ａ図は、
他のＳＥと共に第２図の解説のために使用される３ｈと
４　ｈＳＥを示す図、第３図は、第１Ｂ図に示すような
水平線を除去する方法として縮小を示す詳細ブロック線
図、第４図は水平線と垂直線を除去するための代替的方
法を示す図、第５図は第１Ｂ図に示すようにテキスト領域を固め残存
する図形を除去することによって縮小を行う手続を示す
詳細ブロック線図、第６図は原始テキスト領域に合致するようにマスクサイ
ズを調節する詳細を示す詳細ブロック線図、第７図はテキストと図形を分離するための方法を示す詳
細ブロック線図、第８図はマスク内の８連結領域を最小の包囲矩形境界ボ
ックスへ塗りつぶす方法を示す図（２重の矢印は一次画
像の流れを示し、単一の矢印は中間計算を示す。）、第９図はテキストシードからマスクを生成する方法を示
す図、第１０図は塗りふしクリップ処理を示す図、第１１図は
本文の縮小技術を実施するための専用ハードウェアを示
す図、第１２Ａ−１２Ｄ図は本発明の一例の動作を示す図、第１３Ａと１３Ｂ図は本発明の第２例の動作を示す図。図面の１木（内容に変更なし第１Ｂ図第２図面像第２Ａ図第６図テキヌ険酪マスク第４図原始画像第８図第１１図第１２Ｃ図第１２Ｄ図第１３Ｂ図第１３Ａ図手続補正書（方式） ■、小事件表示平成２年特許願第３２２２３８号２、発明の名称画像における線図形識別方法３、補正をする者事件との関係

Claims

【特許請求の範囲】１、デジタル処理システムにおいて少なくともテキスト
と線図形を含む一定画像中の線図形領域を識別する方法
において、ａ）テキストピクセルに隣接するＯＦＦピクセルを、少
なくとも一部が隣接するテキストピクセルを連結してい
るＯＮピクセルに変換して、ＯＮピクセルの合体領域を
つくりだし、ｂ）上記合体されたＯＮピクセル領域を有
する上記画像の少なくとも一部を、その残りの画像の少
なくとも一部が上記線図形領域を含んだ状態で、識別す
る、ステップより成る識別法。