JP2887803B2 - 文書画像処理装置 - Google Patents

文書画像処理装置

Info

Publication number
JP2887803B2
JP2887803B2 JP1080257A JP8025789A JP2887803B2 JP 2887803 B2 JP2887803 B2 JP 2887803B2 JP 1080257 A JP1080257 A JP 1080257A JP 8025789 A JP8025789 A JP 8025789A JP 2887803 B2 JP2887803 B2 JP 2887803B2
Authority
JP
Japan
Prior art keywords
image
input
document
processing step
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1080257A
Other languages
English (en)
Other versions
JPH02263272A (ja
Inventor
勉 倉持
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP1080257A priority Critical patent/JP2887803B2/ja
Publication of JPH02263272A publication Critical patent/JPH02263272A/ja
Application granted granted Critical
Publication of JP2887803B2 publication Critical patent/JP2887803B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は文書画像処理装置に係り、特に領域を統合す
ることにより、容易に領域の切り出しを行う文書画像処
理装置に関する。
(従来技術) 文書画像中の領域を切り出す従来の方式には、文書の
射影を利用するものとして、垂直および水平方向の射影
を求め、画素の各行および各列中の黒画素の有無に着目
する方法(例えば、橋本新一郎編著、電気通信境界発
行、「文字認識概論」P59〜60参照)がある。
例えば、第2図のような文書画像1(斜線は文字等を
表す)では、その射影2により各領域の位置を求められ
る。すなわち、各領域を切り出すことができる。
(発明が解決しようとする課題) しかしながら、第3図のように枠3や段組4を有する
文書画像1′では、それらの枠3および段組4の存在に
より、その射影2から各領域の位置を求めることは困難
である。
本発明は、段組および枠の有無によらず、文書画像中
の領域を統合して、容易に領域を切り出すことのできる
文書画像処理装置を提供することを目的とする。
(課題を解決するための手段) 本発明の文書画像処理装置は、文書を2値画像として
入力する画像入力手段(第1図5)と、入力した画像を
記憶する入力画像記憶手段(6)と、画像を処理した結
果得られる新たな画像を記憶する処理画像記憶手段(7
〜10)と、前記処理画像記憶手段の中で画像を走査して
予め設定した矩形を包含可能な文書画像中の空白領域を
検出する空白領域検出手段(12)と、前記処理画像記憶
手段の中で検出した空白領域に基づき文書画像中の領域
を統合する画像論理演算手段(13)とを備えたことを特
徴とする。
また、本発明の他の態様による文書画像処理装置は、
文書を2値画像として入力する画像入力手段(第2図
5)と、入力した文書画像を記憶する入力画像記憶手段
(6)と、入力画像を処理した結果得られる画像を記憶
する処理画像記憶手段(7,8,91,92,10)と、予め設定し
た値より長い入力文書画像中の白ランを抽出する白ラン
抽出手段(12′)と、第一の設定値(ly1)より長い入
力文書画像中の垂直方向の白ランと第二の設定値(lx
1)より長い水平方向の白ランとの一致する部分、およ
び第三の設定値(ly2)より長い垂直方向の白ランと第
四の設定値(lx2)より長い水平方向の白ランとの一致
する部分、を除く全ての画素を黒にすることにより、入
力文書画像中の領域を統合する画像論理演算手段とを備
えことを特徴とする。
(作用) 本発明の第1の態様の文書画像処理装置は、空白領域
検出手段(12)により、予め設定した矩形を包含可能な
文書画像中の空白領域を検出し、画像論理演算手段によ
り空白領域を除く画素を全て黒にする処理を行うことに
より文書画像中の領域を統合する。この処理により、上
記予め設定した矩形よりも小さい空白領域は空白領域か
ら除外されるので、段組4内の段間の空白は第4図
(b)の破線で示すように無視され、段組の領域は一つ
に統合される。また、枠3は空白領域以外の領域として
残り文字線画素領域等として検出される。このように領
域の統合を行うことにより領域を切り出す処理が容易に
実行可能である。
また、本発明の第2の態様の文書画像処理装置は、画
像の論理積および論理和および白黒反転等の論理演算を
行う画像処理演算手段において、白ラン抽出手段により
抽出した文書画像中の設定値より長い垂直および水平方
向の白ランの一致する部分を除く全ての画素を黒にする
演算を行う。これにより、文書画像中の領域を統合し
て、領域を切り出す処理を容易に実行可能にする。
(実施例の説明) 第1の実施例 第1図は本発明を適用する第1の実施例による文書画
像処理装置の構成を示すブロック構成図であり、この装
置は、文書を2値画像として読み込む画像入力装置5
と、入力した画像を一時的に記憶する画像メモリ6と、
画像メモリ6と同じメモリサイズを有する画像メモリ7
ないし10と、装置全体の制御を行う制御装置11と、予め
設定した値より長いランを抽出するラン抽出手段12およ
び画像の論理演算を行う画像論理演算手段13および画像
の輪郭を追跡する輪郭追跡手段14からなる画像処理装置
15と、コマンド等を入力する入力装置16と、入力装置16
から入力されるコマンド等および画像メモリ6ないし10
に記憶される画像を表示するディスプレイ17と、画像デ
ータを保存するファイル装置18と、画像メモリ6ないし
10に記憶される画像をプリントする画像出力装置19とを
備えている。
次に、上記の装置が入力した文書画像中の領域を統合
し、該領域を切り出す手順の一例について詳細に説明す
る。
第3図に示した文書画像1′の領域切り出しにおい
て、第4図(a)の破線で示したように各領域を完全に
分離して切り出す場合と、同図(b)の破線で示したよ
うに文書の割り付け構造の観点から関係が強いと推定さ
れる複数の領域を1つの領域として切り出す場合があ
る。本発明においては、前記した抽出するランの長さを
変更するだけで、切り出す領域の単位を変更できる。本
実施例においては、第4図(b)のように段組にした領
域を一つの領域に統合する場合を例にして説明する。
第5図(a)(b)(c)は領域を統合するための処
理フローであり、同図中のないしは主要な処理ステ
ップを表す。この処理フローに沿って本発明の第1の実
施例の処理手順を説明する。
処理ステップ:画像入力装置5により文書を2値画
像として入力し、その入力文書画像を画像メモリ6に記
憶する。
処理ステップ:画像メモリ8と画像メモリ9の全て
の画素を白にする。
処理ステップ:画像メモリ7の全ての画素を白にす
る。
処理ステップ:画像メモリ6に記憶されている入力
文書画像を垂直方向に順次走査していく。
処理ステップ:走査中に白ランがあれば、その白ラ
ンの長さと予め設定した値ly1とを比較し、その白ラン
の長さの方が大きければ処理ステップへ進み、他の場
合は処理ステップへ進む。上記のly1は経験的に定め
られる値である。
処理ステップ:処理ステップで抽出した白ランと
同じ位置に相当する画像メモリ7の画素を黒にする。
処理ステップ:処理ステップが終了したかを判定
し、終了であれば処理ステップに進み、他であれば処
理ステップに移る。ここで、終了と判定した時の画像
メモリ7に記憶されている画像は、第6図(a)のよう
になる。
処理ステップ:画像メモリ7に記憶されている画像
を水平方向に走査していく。
処理ステップ:走査中に黒ランがあれば、その黒ラ
ンの長さと予め設定した値lx1とを比較し、その黒ラン
の長さの方が大きければ処理ステップに進み、他の場
合は処理ステップへ進む。上記のlx1は経験的に定め
られる値である。
処理ステップ:処理ステップで抽出した黒ランと
同じ位置に相当する画像メモリ8の画素を黒にする。
処理ステップ:処理ステップが終了したかを判定
し、終了であれば処理ステップに進み、他であれば処
理ステップに移る。ここで、終了と判定した時の画像
メモリ8に記憶されている画像は、第6図(b)のよう
になる。この画像21の黒領域は幅lx1、高さly1の矩形を
包含できる画像メモリ6に格納されている入力文書画像
中の空白領域を示している。本実施例では、縦長の空白
領域を検出するようにな値をlx1およびly1に設定してい
る。
処理ステップ:処理ステップと同様である。
処理ステップ:画像メモリ6に記憶されている入力
文書画像を水平方向に順次走査していく。
処理ステップ:走査中に白ランがあれば、その白ラ
ンの長さと予め設定した値lx2とを比較し、その白ラン
の長さの方が大きければ処理ステップへ進み、他の場
合は処理ステップへ進む。上記のlx2は経験的に定め
られる値である。
→処理ステップ:処理ステップで抽出した白ラン
と同じ位置に相当する画像メモリ7の画素を黒にする。
処理ステップ:処理ステップが終了したかを判定
し、終了であれば処理ステップに進み、他であれば処
理ステップに移る。ここで、終了と判定した時の画像
メモリ7に記憶されている画像は、第6図(c)のよう
になる。
処理ステップ:画像メモリ7に記憶されている画像
を垂直方向に走査していく。
処理ステップ:走査中に黒ランがあれば、その黒ラ
ンの長さと予め設定した値ly2とを比較し、その黒ラン
の長さの方が大きければ処理ステップへ進み、他の場
合は処理ステップへ進む。上記のly2は経験的に定め
られる値である。
処理ステップ:処理ステップで抽出した黒ランと
同じ位置に相当する画像メモリ9の画素を黒にする。
処理ステップ:処理ステップが終了したかを判定
し、終了であれば処理ステップに進み、他であれば処
理ステップに移る。ここで終了と判定した時の画像メ
モリ9に記憶されている画像は第6図(d)のようにな
る。この画像22の黒領域は幅lx2、高さly2の矩形を包含
できる画像メモリ6に格納されている入力文書中の空白
領域を示している。本実施例では、横長の空白領域を検
出するような値をlx2およびly2に設定している。
処理ステップ:画像メモリ8と画像メモリ9の論理
和を求めて得られる画像を白黒反転し、その結果を画像
メモリ10に記憶する。画像メモリ10に記憶される画像は
第6図(e)のようになり、この処理の目的である領域
の統合が達成される。
更に、上記の統合した領域の位置を求める場合は、例
えば、第6図(e)の画像を垂直または水平方向に走査
して、白から黒へ変化する画素を始点として、黒画素連
結成分である統合した領域の輪郭を追跡すればよい。輪
郭追跡の方法は公知の任意の方法を利用でき、例えば、
坂内正夫、大沢裕共著、昭晃堂発行、「画像データベー
ス」、P91ないしP95に詳述されている方法を用いること
ができる。以上で、文書画像中の領域の統合および切り
出しを完了する。
本実施例では、文書の割り付け積構造の観点から関係
が強いと推定される複数の領域を1つの領域として切り
出す場合について説明したが、行間または文字間のよう
な小さい空白領域も検出するように前述の設定値を定め
ることにより、文字列またはサブ文字パターンを黒画素
連結成分とすることができ、実施例で述べたように、そ
の黒画素連結成分の輪郭を追跡することによって文字列
またはサブ文字パターンを同様に切り出すことができ
る。
以上のように本発明によれば、予め設定した矩形を包
含可能な入力文書画像中の空白領域を除き、黒画素の連
結成分とすることにより、入力文書画像中の領域を統合
することができるので、容易に領域を切り出す処理を適
用できる。
第2の実施例 第7図は本発明の第2の実施例の文書画像処理装置の
構成を示すブロック構成図である。なお、第1図に示す
第1の実施例と同一の部分には同じ参照符号を付し、対
応する部分には「′」を付した参照符号を用いている。
この装置は、文書を2値画像として読み込む画像入力装
置5と、入力した画像を一時的に記憶する画像メモリ6
と、画像メモリ6と同じメモリサイズを有する画像メモ
リ7,8,91,92,10と、装置全体の制御を行う制御装置11
と、予め設定した値よ長い白ランを抽出する白ラン抽出
手段12′および画像の論理演算を行う画像論理演算手段
13′および画像の輪郭を追跡する輪郭追跡手段14からな
る画像処理装置15′と、コマンド等を入力する入力装置
16と、入力装置16から入力されるコマンド等および画像
メモリ6,7,8,91,92,10に記憶される画像を表示するディ
スプレイ17と、画像データを保持するファイル装置18
と、画像メモリ6,7,8,91,92,10に記憶される画像をプリ
ントする画像出力装置19とを備えている。
次に、上記の装置が入力した文書画像中の領域を統合
し、その統合した領域を切り出す手順の一例について詳
細に説明する。
第3図に示した文書画像の領域切り出しにおいて、第
4図(a)の破線で示したように各領域を完全に分離し
て切り出す場合と、同図(b)の破線で示したように文
書の割り付け構造の観点から関係が強いと推定される領
域を統合して切り出す場合がある。本発明においては、
前記した抽出する白ランの長さを変更するだけで、切り
出す領域の単位を変更できる。本実施例においては、第
4図(b)の場合を例にして説明する。
第8図(a)(b)は領域を統合するための処理フロ
ーであり、同図中のないしは主要な処理ステップを
表す。この処理フローに沿って本発明の処理手順を説明
する。
処理ステップ:画像入力装置5により文書を2値画
像として入力し、その入力文書画像を画像メモリ6に記
憶する。
処理ステップ:画像メモリ7と画像メモリ8の全て
の画素を白にする。
処理ステップ:画像メモリ6に記憶されている入力
文書画像の全面を垂直方向に順次走査していく。
処理ステップ:走査中に白ランがあれば、その白ラ
ンの長さと予め設定した値ly1とを比較し、その白ラン
の長さの方が大きければ処理ステップへ進み、他の場
合は処理ステップへ進む。上記のly1は経験的に定め
られる値である。(本実施例では、lx1とly1を縦長の空
白領域を抽出するような値としている。) 処理ステップ:処理ステップで抽出した白ランと
同じ位置に相当する画像メモリ7の画素を黒にする。
処理ステップ:処理ステップが終了したかを判定
し、終了であれば処理ステップに進み、他であれば処
理ステップに移る。ここで、終了と判定した時の画像
メモリ7に記憶される画像は、第9図(a)のようにな
る。
処理ステップ:走査中に白ランがあれば、その白ラ
ンの長さと予め設定した値lx1とを比較し、ランの長さ
の方が大きければ処理ステップへ進み、他の場合は処
理ステップへ進む。上記lx1は経験的に定められる値
である。
処理ステップ:処理ステップで抽出した白ランと
同じ位置に相当する画像メモリ8の画素を黒にする。
処理ステップ:処理ステップが終了したかを判定
し、終了であれば処理ステップに進み、他であれば処
理ステップに移る。ここで、終了と判定した時の画像
メモリ8に記憶される画像は、第9図(b)のようにな
る。
処理ステップ:画像メモリ7と画像メモリ8の論理
積を求め、その結果を画像メモリ91に記憶する。画像メ
モリ91に記憶される画像は第9図(c)のようになる。
処理ステップ:設定値ly1をly2に、設定値をlx1をl
x2に各々変更して、処理ステップないしを行う(第
8図の処理フローは簡略的に示してある)。上記の設定
値ly2とlx2は経験的に定められている値である。(本実
施例では、lx2とly2を横長の空白領域を抽出するような
値としている。)この処理ステップが終了した時点で、
画像メモリ7に記憶される画像を第9図(d)に、画像
メモリ8に記憶される画像を同図(e)に示す。
処理ステップ:画像メモリ7と画像メモリ8の論理
積を求め、その結果を画像メモリ92に記憶する。画像メ
モリ92に記憶される画像は第9図(f)のようになる。
処理ステップ:画像メモリ91と画像メモリ92の論理
和を求めて得られる画像を白黒反転し、その結果を画像
メモリ10に記憶する。画像メモリ10に記憶される画像は
第9図(g)のようになり、この処理の目的である領域
の統合が達成される。
更に、上記の統合した領域の位置を求める場合は、例
えば、第9図(g)の画像を垂直または水平方向に走査
して、白から黒へ変化する画素を始点とし、黒画素連結
成分である統合した領域の輪郭を追跡すればよい。
以上で、文書画像中の領域の統合および切り出しを完
了する。
以上のようにこの第2の実施例によれば、入力した文
書画像中の設定値より長い垂直方向との白ランと、設定
値より長い水平方向の白ランとの一致する部分を除き、
黒画素の連結成分とすることにより、文書画像中の1つ
以上の領域を統合することができる。このように領域の
統合ができるので、領域を切り出す処理を容易に行うこ
とができるようになる。
(発明の効果) 本発明によれば、予め設定した矩形を包含可能な入力
文書画像中の空白領域を除き、黒画素の連結成分とする
ことにより、あるいは、入力した文書画像中の設定値よ
り長い垂直方向との白ランと、設定値より長い水平方向
の白ランとの一致する部分を除き、黒画素の連結成分と
することにより、文書画像中の1つ以上の領域を統合す
ることができる。従って、段組や枠等があっても、領域
の適切な判定を行うことができ、また、本発明のこのよ
うな領域の統合により、領域の切り出しを行う際に処理
が容易となる。
【図面の簡単な説明】
第1図は本発明の第1の実施例のブロック構成を示す図
である。 第2図と第3図は文書画像とその射影を示す図である。 第4図(a)と(b)は文書画像中の切り出すべき領域
の例を示す図である。 第5図(a)〜(c)は第1の実施例の処理フローの一
例を示す図である。 第6図(a)ないし(d)は処理途中で生成される画像
の例を示す図、第6図(e)は処理した結果得られる画
像の一例を示す図である。 第7図は本発明の第2の実施例の構成を示すブロック図
である。 第8図は第2の実施例の処理フローの一例を示す図であ
る。 第9図(a)ないし(f)は処理途中で生成される画像
の例を示す図、第9図(g)は処理した結果得られる画
像の一例を示す図である。 1,1′…文書画像、2,2′…射影、3…枠、4…段組、5
…画像入力装置、6〜10,91,92…画像メモリ、11…制御
装置、12…ラン抽出手段、12′…白ラン抽出手段、13,1
3′…画像論理演算出段、14…輪郭追跡手段、15,15′…
画像処理装置、16…入力装置、17…ディスプレイ装置、
18…ファイル装置、19…画像出力装置。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】文書を2値画像として入力する画像入力手
    段と、 入力した画像を記憶する入力画像記憶手段と、 画像を処理した結果得られる新たな画像を記憶する処理
    画像記憶手段と、 前記処理画像記憶手段の中で画像を走査して予め設定し
    た矩形を包含可能な文書画像中の空白領域を検出する空
    白領域検出手段と、 前記処理画像記憶手段の中で検出した空白領域に基づき
    文書画像中の領域を統合する画像論理演算手段と を備えたことを特徴とする文書画像処理装置。
  2. 【請求項2】文書を2値画像として入力する画像入力手
    段と、 入力した文書画像を記憶する入力画像記憶手段と、 入力画像を処理した結果得られる画像を記憶する処理画
    像記憶手段と、 予め設定した値より長い入力文書画像中の白ランを抽出
    する白ラン抽出手段と、 第一の設定値より長い入力文書画像中の垂直方向の白ラ
    ンと第二の設定値より長い水平方向の白ランとの一致す
    る部分、および第三の設定値より長い垂直方向の白ラン
    と第四の設定値より長い水平方向の白ランとの一致する
    部分、を除く全ての画素を黒にすることにより、該入力
    文書画像中の領域を統合する画像論理演算手段と を備えたことを特徴とする文書画像処理装置。
JP1080257A 1989-04-01 1989-04-01 文書画像処理装置 Expired - Fee Related JP2887803B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1080257A JP2887803B2 (ja) 1989-04-01 1989-04-01 文書画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1080257A JP2887803B2 (ja) 1989-04-01 1989-04-01 文書画像処理装置

Publications (2)

Publication Number Publication Date
JPH02263272A JPH02263272A (ja) 1990-10-26
JP2887803B2 true JP2887803B2 (ja) 1999-05-10

Family

ID=13713263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1080257A Expired - Fee Related JP2887803B2 (ja) 1989-04-01 1989-04-01 文書画像処理装置

Country Status (1)

Country Link
JP (1) JP2887803B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4443443B2 (ja) 2005-03-04 2010-03-31 富士通株式会社 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法

Also Published As

Publication number Publication date
JPH02263272A (ja) 1990-10-26

Similar Documents

Publication Publication Date Title
US5048107A (en) Table region identification method
JPH03122773A (ja) 画像形成装置
JP2007148677A (ja) 画像処理装置、画像処理方法
US5291561A (en) Graphics processing device
JP2887803B2 (ja) 文書画像処理装置
JP2890306B2 (ja) 表領域分離装置および表領域分離方法
JPH096901A (ja) 文書読取装置
JP2803736B2 (ja) 文字認識方式
JP4040231B2 (ja) 文字抽出方法及び装置並びに記憶媒体
JP2675303B2 (ja) 文字認識方法
JP2003317107A (ja) 罫線抽出方法及び装置
JP2931041B2 (ja) 表内文字認識方法
JPH03172984A (ja) 表処理方法
JP3566738B2 (ja) 網掛け領域処理方法および網掛け領域処理装置
JP2800205B2 (ja) 画像処理装置
JP2954218B2 (ja) 画像処理方法及び装置
JP3923104B2 (ja) 表処理方法および表処理装置
JPH07120392B2 (ja) 文字パターン切り出し装置
JPH07120386B2 (ja) 文字認識装置
JPH0728934A (ja) 文書画像処理装置
JPH09288714A (ja) 表認識方法および装置
JPH07225809A (ja) 文書読取り枠の自動生成方法
JPH04311283A (ja) 行方向判定装置
JPS63101983A (ja) 文字列抽出方式
JPH11282958A (ja) 文字認識方法及び装置並びに記録媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees