JPH05128305A - 領域分割方法 - Google Patents

領域分割方法

Info

Publication number
JPH05128305A
JPH05128305A JP3291155A JP29115591A JPH05128305A JP H05128305 A JPH05128305 A JP H05128305A JP 3291155 A JP3291155 A JP 3291155A JP 29115591 A JP29115591 A JP 29115591A JP H05128305 A JPH05128305 A JP H05128305A
Authority
JP
Japan
Prior art keywords
horizontal
run length
vertical
circumscribed rectangle
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3291155A
Other languages
English (en)
Inventor
Yumiko Ikemure
由美子 池牟▲れ▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3291155A priority Critical patent/JPH05128305A/ja
Publication of JPH05128305A publication Critical patent/JPH05128305A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 スキャナから取り込んだ低品位文書につい
て、領域を正確に分割する領域分割方法の提供を目的と
する。 【構成】 スキャナで取り込んだ2値データを縮小、縮
小データに対して水平方向/垂直方向のランレングスと
外接矩形を検出、外接矩形の大きさがしきい値以下で他
矩形との距離がしきい値以上あればその矩形はノイズ候
補とし、その外接矩形の座標に対応した水平方向/垂直
方向のランレングスデータの黒ランを白ランに置き換
え、水平/垂直ランレングスから空白ブロックを検出し
て領域の切り出しを行なう構成を有する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字・表図形・写真が
混在する印刷文書を認識する文字認識装置に関し、特に
スキャナ等の光学的手段を用いて文書画像を取り込み、
取り込んだ画像データを文字ブロック・図形ブロック等
に分割する領域分割方法に関する。
【0002】
【従来の技術】従来の領域分割方式について以下説明す
る。
【0003】まず、スキャナによって取り込まれた2値
データから水平方向と垂直方向に対して、黒画素の連続
数(以下、黒ランという)と白画素の連続数(以下、白
ランという)をカウントしたランレングスを検出する。
そして、認識対象情報とは無関係な微小黒点(以下、ノ
イズという)の存在する文書についても領域分割が可能
となるように微小サイズの黒ランを白ランに置き換え
る。次に、水平方向ランレングスからあらかじめ定めら
れたしきい値以上の大きさをもつ水平空白ブロックを検
出する。水平空白ブロックと同様に垂直ランレングスか
らあらかじめ定められたしきい値以上の大きさをもつ垂
直空白ブロックを検出する。これらの検出した水平空白
ブロックと垂直空白ブロックとに囲まれている部分を検
出し、領域として格納する。
【0004】
【発明が解決しようとする課題】上記従来の領域分割方
法では、微小黒ランを白ランに置き換えるので、図3に
おける表の線幅の細い線はノイズとみなされ、線の情報
がなくなってしまう(図10参照)。したがって、従来
の方法によると図3の領域分割結果は図4に示すように
なり、正確な領域分割ができないといった課題を有して
いた。
【0005】本発明は上記課題を解決するもので、ノイ
ズのある文書に対しても正確な領域分割が可能な領域分
割方法を提供することを目的としている。
【0006】
【課題を解決するための手段】本発明は、上記目的を達
成するため、ノイズの大きさに着目した以下に示す手段
を備える。
【0007】スキャナにより取り込んだ2値データに対
して縮小処理を行ない、縮小されたデータに対して、水
平方向/垂直方向のランレングスを検出する。縮小され
たデータに対して黒画素の連結状態を調べ、黒画素が連
結している固まりに外接する矩形の座標を検出し格納す
る。外接矩形の大きさがあらかじめ定められたしきい値
以下の微小矩形であれば、その矩形はノイズ候補とす
る。また、外接矩形の大きさがあらかじめ定められたし
きい値以上であれば、その矩形は表図形あるいは写真候
補とし、残りを文字候補とする。ノイズ候補として検出
された外接矩形の座標に対応した水平方向/垂直方向の
ランレングスデータの黒ランを白ランに置き換える。次
に、水平方向ランレングスからあらかじめ定められたし
きい値以上の大きさをもつ水平空白ブロックを検出す
る。水平空白ブロックと同様に垂直ランレングスからあ
らかじめ定められたしきい値以上の大きさをもつ垂直空
白ブロックを検出する。検出した水平空白ブロックと垂
直空白ブロックとに囲まれている部分を検出し、領域と
して格納する。
【0008】
【作用】本発明は上記した構成によって、ノイズのある
文書についても領域の正確な分割が可能となる。
【0009】
【実施例】本発明の一実施例の領域分割方法について図
面を参照して説明する。図1は本発明の一実施例におけ
る領域分割方法を実行するハードウェアブロックであ
る。図1において、1は領域分割プログラムが格納され
ているROMである。2は領域分割を行なうCPUであ
って、図2に示す画像データ縮小部6、水平/垂直ラン
レングス取得部7、外接矩形取得部8、ノイズ判定部
9、ランレングス変更部10、水平/垂直空白ブロック
検出部11、領域取得部12を有する。3はスキャナ4
によって取り込まれた2値データを格納するRAMであ
る。5はCPU1によって分割された各領域の認識結果
を表示する表示装置である。
【0010】以下、領域分割処理を図3の画像データ
例、図6のフローチャートを参照しながら説明する。
【0011】スキャナ4によって取り込まれた解像度4
00DPIの画像データでは、認識文書中に写真領域が
ある場合、微小点が多数存在するため、400DPIの
原画像データから外接矩形を検出するとその情報量は膨
大となる。そこで、写真領域の微小点を接触させて外接
矩形の情報量を減らすためと、水平/垂直ランレングス
データ量の圧縮のために、画像データ縮小部6では、原
画像データの4分の1に画像を縮小する(面積比で表わ
すと16分の1)。そうして得た画像データが図3であ
る(s1)。
【0012】水平/垂直ランレングス取得部7では、図
3のデータから、水平方向に対して1ラインごとに、黒
ランと白ランを交互に検出する(s2)。黒ランと白ラ
ンの区別をつけるために黒ランにはプラス符号を白ラン
にはマイナス符号を付ける。ランレングスデータの例を
図8に示す。水平ランレングスの1ライン(2ライン
目)は、白ラン3,黒ラン3,白ラン1,黒ラン1,白
ラン1…であるので、ランレングスデータは、−3,
3,−1,1,−1…の値で、RAM2に格納される。
(s2)と同様にして垂直方向のランレングスデータを
検出する(s3)。
【0013】外接矩形取得部8では、黒画素の連結状態
を調べ、黒画素が連結している固まりに外接する矩形を
取得し、その座標をRAM2に格納する(s4)。その
矩形の左上を開始座標として、水平方向の座標をx1、
垂直方向の座標をy1とする。また、矩形の右下を終了
座標として、水平方向の座標をx2、垂直方向の座標を
y2とする。図11の外接矩形は、(x1,y1,x
2,y2)=(7,10,13,16)の値をとる。
【0014】外接矩形取得部8で検出した外接矩形情報
を基に、ノイズ判定部9において、ノイズの判定を行な
う。第1のノイズ特徴として、外接矩形の水平および垂
直方向の長さが1のものを取り出す。図3の例では、句
点とノイズ1,2がこの条件に当てはまる。第2のノイ
ズ特徴として、他の外接矩形との距離が2以上あればそ
の外接矩形はノイズであると判断する。2つの条件を満
たす外接矩形があれば文書画像にノイズが存在するとし
て、ランレングス変更部10へ処理を進める(s5)。
図3の例では、ノイズ1,2の外接矩形がノイズ候補と
して検出される。
【0015】ランレングス変更部10では、ノイズ候補
矩形として検出された外接矩形の座標に対応した水平方
向/垂直方向のランレングスデータの黒ランを白ランに
置き換える(s6)。図9の例では、水平1ライン(2
ライン目)の2番目の黒ランを白ランに置き換えてい
る。変更後のランレングスデータは、−3,3,−1,
−1,−1,…となる。変更後のランレングスデータを
白ラン1、白ラン1、白ラン1(−1,−1,−1)と
して白ラン3(−3)と変更しないのは、ノイズ判定に
誤りがあった場合に、容易に元のデータに戻せるように
するためである。
【0016】以上のようにして得た水平/垂直ランレン
グスデータを基に、水平/垂直空白ブロック検出部11
ではあらかじめ定められたしきい値以上の水平および垂
直方向の長さをもつ空白ブロックを検出する(s7)。
図3の例で水平しきい値3、垂直しきい値25として検
出した結果が図7である。
【0017】領域取得部12において、水平/垂直空白
ブロックより領域を切り出した結果が図5である(s
8)。
【0018】このように本発明の実施例の領域分割方法
によれば、スキャナで取り込んだ画像データを縮小し、
水平および垂直方向のランレングスを検出し、黒ランの
固まりに外接する矩形を求め、外接矩形の大きさと外接
矩形間の距離情報でもってノイズ候補を判定し、ノイズ
候補として検出された外接矩形の座標に対応した水平お
よび垂直ランレングスデータの黒ランを白ランに置換
し、得られた水平垂直ランレングスデータから定めたし
きい値以上の大きさをもつ空白ブロックを検出して領域
を切り出しているので、ノイズのある文書についても正
確な領域分割ができる。
【0019】
【発明の効果】以上の実施例から明らかなように本発明
によれは、ノイズの大きさと文字他との距離に着目して
ノイズ除去処理を行なうため、線幅の細い線の線情報を
消すことなく、文字の句読点程度の大きさのノイズがあ
る文書に対しても正確に領域分割することが可能であ
り、また、ノイズ情報を外接矩形情報で保持した上で、
ランレングスデータに対してノイズ除去処理を行なって
いるので、スキャナ読み取り時の状態の画像データを保
存することが可能な領域分割方法を提供できる。
【図面の簡単な説明】
【図1】本発明の一実施例の領域分割方法を実行するハ
ードウェアブロック図
【図2】同実施例の機能ブロック図
【図3】縮小画像データ例を示す模式図
【図4】従来の方法による領域分割結果を示す模式図
【図5】本発明による領域分割結果を示す模式図
【図6】本発明実施例の処理の流れを示すフローチャー
【図7】本発明によって検出された水平/垂直空白ブロ
ックを示す模式図
【図8】水平ランレングスデータ例を示す模式図
【図9】ノイズを白ランデータに置き換えた例を示す模
式図
【図10】従来の方法によって検出された水平/垂直空
白ブロックを示す模式図
【図11】外接矩形の説明図
【符号の説明】
1 ROM 2 CPU 3 RAM

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 2値化された文字認識対象文書に対し
    て、情報量を圧縮するために2値画像データを縮小する
    手段と、前記縮小データから水平方向のランレングスと
    垂直方向のランレングスと外接矩形を取得する手段と、
    前記外接矩形の大きさと外接矩形間の距離情報から文字
    とは無関係な微小黒点を検出する手段と、前記微小黒点
    検出結果を基にランレングスデータに対して、前記微小
    黒点に対応する黒画素連を白画素連に交換する手段と、
    前記黒白変換したランレングスデータから領域分割する
    手段を備えた領域分割方法。
JP3291155A 1991-11-07 1991-11-07 領域分割方法 Pending JPH05128305A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3291155A JPH05128305A (ja) 1991-11-07 1991-11-07 領域分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3291155A JPH05128305A (ja) 1991-11-07 1991-11-07 領域分割方法

Publications (1)

Publication Number Publication Date
JPH05128305A true JPH05128305A (ja) 1993-05-25

Family

ID=17765160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3291155A Pending JPH05128305A (ja) 1991-11-07 1991-11-07 領域分割方法

Country Status (1)

Country Link
JP (1) JPH05128305A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728940A (ja) * 1993-06-30 1995-01-31 Internatl Business Mach Corp <Ibm> 文書処理のためのイメージ・セグメント化およびイメージ要素分類の方法
JP2007304805A (ja) * 2006-05-10 2007-11-22 Fuji Xerox Co Ltd 画像処理装置およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728940A (ja) * 1993-06-30 1995-01-31 Internatl Business Mach Corp <Ibm> 文書処理のためのイメージ・セグメント化およびイメージ要素分類の方法
JP2007304805A (ja) * 2006-05-10 2007-11-22 Fuji Xerox Co Ltd 画像処理装置およびプログラム

Similar Documents

Publication Publication Date Title
US7054485B2 (en) Image processing method, apparatus and system
JP2940936B2 (ja) 表領域識別方法
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
JPH08287184A (ja) 画像切り出し装置及び文字認識装置
JP4565396B2 (ja) 画像処理装置および画像処理プログラム
US6983071B2 (en) Character segmentation device, character segmentation method used thereby, and program therefor
JPH05128305A (ja) 領域分割方法
JP2868134B2 (ja) 画像処理方法及び装置
JPH07230525A (ja) 罫線認識方法及び表処理方法
JP3095470B2 (ja) 文字認識装置
JPH05151388A (ja) 処理領域及び処理条件の指定方式
JP5146199B2 (ja) 差分抽出装置及び差分抽出プログラム
JPH06215181A (ja) 文字・文字列切り出し方法および文字認識装置
JP3162414B2 (ja) 罫線認識方法及び表処理方法
JP2007328652A (ja) 画像処理装置および画像処理プログラム
JPH056461A (ja) ノイズ除去方式
JP2859307B2 (ja) 文字切出し装置
JP2003259129A (ja) 画像処理方法、画像処理装置、画像処理プログラムおよび画像処理プログラムが格納されたコンピュータ読み取り可能な記憶媒体
JPH04311283A (ja) 行方向判定装置
JP3381803B2 (ja) 傾き角検出装置
JP2931041B2 (ja) 表内文字認識方法
JP2888885B2 (ja) 文字切出し装置
JPH05274472A (ja) 画像認識装置
JPH03160582A (ja) 文書画像データに於ける罫線と文字の分離方法
JPH11175659A (ja) 文字認識装置