JP2558668B2 - 文字パタ−ン抽出方法 - Google Patents

文字パタ−ン抽出方法

Info

Publication number
JP2558668B2
JP2558668B2 JP61305931A JP30593186A JP2558668B2 JP 2558668 B2 JP2558668 B2 JP 2558668B2 JP 61305931 A JP61305931 A JP 61305931A JP 30593186 A JP30593186 A JP 30593186A JP 2558668 B2 JP2558668 B2 JP 2558668B2
Authority
JP
Japan
Prior art keywords
run
runs
short
boundary
character pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61305931A
Other languages
English (en)
Other versions
JPS63157287A (ja
Inventor
彰 桜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61305931A priority Critical patent/JP2558668B2/ja
Publication of JPS63157287A publication Critical patent/JPS63157287A/ja
Application granted granted Critical
Publication of JP2558668B2 publication Critical patent/JP2558668B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 〔技術分野〕 本発明は、罫線などの長い線分と交差した文字のパタ
ーンを、線分と分離して抽出する方法に関する。
〔従来技術〕 ラインプリンタの出力帳票のように、罫線の印刷され
た用紙に文字の印刷された文書では、罫線に文字が交差
してしまうことがある。
このような文書を光学的文字認識装置に読み取らせた
場合、罫線と文字とを分離できないため、正常な文字認
識は期待できない。
こような文書の文字認識を可能にするためには、文字
のパターンを罫線と分離して抽出する前処理を施す必要
がある。しかし、このような分離抽出を適切に行う技術
は知られていない。
なお、パターンの分離抽出に関連する文献として、昭
和58年度電子通信学会総合全国大会予稿集、第5−301
頁に掲載の論文「自由手書き論理回路図の認識」(安居
院猛、他2名)がある。この論文に述べられている技術
を文書画像に適用し、まとまった広さを持つ黒領域を文
字部分として抽出させることも考えられるが、文字と交
差た罫線を適切に分離することは無理である。
〔目 的〕
したがって、本発明の目的は、文字と罫線が交差した
ような文書から、良好な文字パターンを抽出するための
文字パターン抽出方法を提供することにある。
〔構 成〕
この目的を達成するために、本発明においては、文書
の2値画像の黒のランを抽出し、抽出したランをその長
さによって短ランと長ランとに分類する。そして、連結
する短ラン同士に同一ラベルを付すと共に、長ランと連
結する短ランを境界ランとして、接近した境界ラン相互
の間を埋める補間ランを生成し、該補間ランおよび該補
間ランに互いに連結された同一ラベルの付された短ラン
の集合に新たに同一ラベルを付し、該同一ラベルのラン
群を文字パターンとして抽出する。
〔実施例〕
以下図面を参照し、本発明の一実施例について詳細に
説明する。
第1図は、本発明の文字パターン抽出方法によって文
字パターンの抽出処理を行う装置の概略ブロック図であ
る。この図において、10は中央処理装置、12は抽出処理
プログラムやデータなどが格納されるメモリである。14
は図示しないスキャナによって読み取られた文書の2値
画像が書き込まれる画像メモリである。16は各部を接続
するためのバスである。抽出処理は、抽出処理プログラ
ムに従って中央処理装置10により実行される。
第2図および第3図は抽出処理の概略フローチャート
であり、また第4図から第6図は抽出処理の説明図であ
る。以下、これらの図面を用い、本発明よる文字パター
ン抽出処理を説明する。
第2図のステップ1において、画像メモリ14内の2値
画像のラスタースキャンが行われ、白から黒への変化点
と黒から白への変化点が順次検出され、黒のラン(黒画
素連)が抽出される。そして、抽出された各ランの始点
と終点の位置情報がメモリ12上のテーブル16に格納され
る。
第4図の18は抽出されたランであり、その始点(左
端)と終点(右端)のX方向(主走査方向、文字の水平
方向)の位置XS(i)とXE(i)、およびY方向(垂直
方向)の位置YP(i)がテーブル16に格納される。
このようなランの抽出が終わると、ステップ2におい
て、テーブル16から一つのラン(これを注目ランとす
る)のXS(i)、XE(i)が読み出される。そして、ス
テップ4において、この注目ランの長さ(=XE(i)−
XS(i))と閾値LTHとの比較判定が行われる。ここ
で、閾値LTHは文字幅の2倍程度に選ばれる。
ランの長さが閾値LTHより大きい場合は長ラン(罫
線)であり、ステップ5に処理が進む。長さが閾値LTH
以下のランは短ラン(文字部分のラン、またはノイズ)
であり、ステップ8の処理に進む。ランの短長の情報は
テーブル16に格納される。
注目ランが長ランの場合、ステップ5において、前
(上)の走査線に、注目ランと連結するランがあるか調
べられる。このときの連結条件は、現在の注目ランの始
点位置をXS(i)、終点位置をXE(i)、垂直位置をYP
(i)、前の走査線のランの始点位置をXS(j)、終点
位置をXE(j)、その垂直位置をYP(j)とし、 XS(i)≦XS(j)≦XE(i) または XS(i)≦XE(j)≦XE(i) であって、かつ YP(j)−YP(i)≦1 であり、この条件を満足するランを、連結したランと判
定する。このランが存在しない場合はステップ2に戻
り、次のランの処理に進む。
注目ランに連結したランが存在する場合、ステップ6
において、その連結ランが短ランであるか調べられる。
連結ランが長ランの場合はステップ2に戻るが、短ラン
の場合はステップ7において、その短ランを境界ランと
し、該短ランのラベルに、当該短ランが境界ランである
ことを示す属性が付けられ(属性付きラベルはテーブル
16に格納される)、ステップ2に戻る。
一方、注目ランが短ランの場合、ステップ8におい
て、前の走査線に、該注目ランと連結しているランがあ
るか調べられる。このときの連結条件はステップ5と同
じである。
連結ランがない場合、ステップ9において、注目ラン
に新しいラベルが付けられ、ステップ2に戻る。
連結条件を満足するランがあれば、ステップ10におい
て、その連結ランが短ランであるか調べられる。連結ラ
ンが長ランの場合は、ステップ11において、注目ランの
短ランを境界ランとして、境界ランを示す属性の付加さ
れた短ランのラベルが付けられ、連結ランが短ランの場
合は、ステップ12において、その連結ランに付けられた
短ランのラベルと同じラベルが注目ランに付けられ、そ
れぞれステップ2に戻る。
第5図は、ここまでの処理結果の一例を示している。
この図において、数字1と数字3はそれぞれ短ラン20に
付られたラベルであり、符号,,,は境界ラン
21につけられたラベルである。22は長ランであり、ラベ
ルは付けられない。
以上のような処理が最終ランまで終了すると、ステッ
プ3の判定条件が成立し、第3図に示すステップ13の処
理に進む。
第3図のステップ13において、テーブル16を参照して
同一ラベルの付けられた領域が1つ選択され、その高さ
h(同一ラベルの付けられたランの垂直位置の最大値と
最小値の差)が求められる。
ステップ15においては、その高さhと閾値HTHとの比
較判定が行われる。ここでは、HTHは2に選ばれる。h
<THTの場合、現在の同一ラベル付きランの領域はノイ
ズ(罫線のエッジノ凹凸)と判断されるので、ステップ
16において、ラベルが削除され、ステップ13に戻る。h
≧HTHの場合、文字部分の領域と判断されてラベルは保
存され、ステップ13に戻る。
このような処理がすべてのラベルに関してなされる
と、ステップ14において終了判定が成立し、ステップ17
の処理に進む。
ステップ17において、ラベルが削除されずに残ってい
る境界ランが一つ取り出される。ステップ19において
は、この境界ランの近傍に一定の条件を満足する境界ラ
ン(ラベルが付いているもの)があるか調べられる。こ
の判定の条件は、現在の境界ランの始点位置をXS
(i)、終点位置をXE(i)、垂直位置をYP(i)、近
傍の境界ランの始点位置をXS(j)、終点位置をXE
(j)、垂直位置をYP(j)として、 XS(i)≦XS(j)≦XE(i) または XS(i)≦XE(j)≦XE(i) であって、かつ |YP(j)−YP(i)|≦WTH である。ここで、WTHは線分(罫線)の幅に1を加えた
程度の値に選ばれる。この判定条件を満足しない場合
は、ステップ17に戻る。
上記の判定条件を満足した場合、現在の境界ランと近
傍の境界ランとの間で文字が罫線により分断されている
と判断される。この場合、ステップ20において、(XS
(i),YP(i+1))、(XE(i),YP(i+1))、
(XS(j),YP(j−1))、(XE(j),YP(j−
1))の4点で囲まれた領域を埋める補間ランが生成さ
れ、現在の境界ランとそれに連結された短ラン群と同じ
ラベルが、該現在の境界ランの近傍の境界ランとそれに
連結された短ラン群及び補間ランに付けられ、ステップ
21において、現在の境界ラン、近傍の境界ランおよび補
間ランは短ランに分類が変更される。
ラベル付きの境界ランがなくなると、ステップ18にお
いて終了判定がなされ、文字パターンの抽出処理は終了
する。
第5図に説明したような画像の最終的な処理結果を第
6図に示す。この図において、文字のパターンを構成す
る短ランは同一のラベル1が付けられ、同一ラベルが付
けられた補間ラン(斜線部分)23により接続されてい
る。この同一のラベル1がつけられたランの集合が、一
つの文字のパターンとして抽出される。また、第5図に
おいて、ラベルまたはがつけられた境界ランはラベ
ルが削除され、ノイズとして除去されている。
このように、この実施例によれば、罫線(その他の長
い線分)と交差した文字のパターンを、罫線から分離
し、良好な文字パターンとして抽出することができる。
また、一つの文字を構成するランの集合には同一のラベ
ルが付けられるので、その切出しが容易である。
〔効 果〕
以上の説明から明らかなように、本発明によれば、罫
線などの長い線分と交差した文字のパターンを、罫線な
どから分離し、良好な文字パターンとして抽出すること
ができるため、罫線などと交差した文字の認識も可能と
なる。また、本発明ではラン単位で処理を行うため、処
理の高速化が可能となる。さらに、同一文字を構成する
補間ランを含む短ラン群には同一ラベルが付けられるの
で、文字パターンの切出しが容易である。
【図面の簡単な説明】
第1図は本発明を実施するための装置構成の一例を示す
概略ブロック図、第2図は文字パターン抽出処理の前半
を示すフローチャート、第3図は文字パターン抽出処理
の後半を示すフローチャート、第4図はラン抽出を説明
するための図、第5図は文字パターン抽出処理の途中結
果の一例を示す図、第6図は文字パターン抽出処理の結
果の一例を示す図である。 10……中央処理装置、12……メモリ、14……画像メモ
リ、 16……テーブル、20……短ラン、21……境界ラン、 22……長ラン、23……補間ラン。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文書の2値画像の黒のランを抽出し、抽出
    したランをその長さによって短ランと長ランとに分類
    し、連結する短ランに同一ラベルを付すと共に、長ラン
    と連結する短ランを境界ランとして、接近した境界ラン
    相互の間を埋める補間ランを生成し、該補間ランおよび
    該補間ランにより互いに連結される異なるラベルの付与
    された短ランの集合に新たに同一ラベルを付し、該同一
    ラベルの付されたランの集合を文字パターンとして抽出
    することを特徴とする文字パターン抽出方法。
JP61305931A 1986-12-20 1986-12-20 文字パタ−ン抽出方法 Expired - Lifetime JP2558668B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61305931A JP2558668B2 (ja) 1986-12-20 1986-12-20 文字パタ−ン抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61305931A JP2558668B2 (ja) 1986-12-20 1986-12-20 文字パタ−ン抽出方法

Publications (2)

Publication Number Publication Date
JPS63157287A JPS63157287A (ja) 1988-06-30
JP2558668B2 true JP2558668B2 (ja) 1996-11-27

Family

ID=17951020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61305931A Expired - Lifetime JP2558668B2 (ja) 1986-12-20 1986-12-20 文字パタ−ン抽出方法

Country Status (1)

Country Link
JP (1) JP2558668B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0632402B1 (en) * 1993-06-30 2000-09-06 International Business Machines Corporation Method for image segmentation and classification of image elements for document processing
JP4867400B2 (ja) * 2006-03-06 2012-02-01 富士ゼロックス株式会社 画像処理装置及びプログラム
CN115457038B (zh) * 2022-11-11 2023-08-22 北京鹰瞳科技发展股份有限公司 分级预测模型的训练方法、分级预测的方法及相关产品

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55162176A (en) * 1979-05-31 1980-12-17 Matsushita Electric Ind Co Ltd Picture extraction system

Also Published As

Publication number Publication date
JPS63157287A (ja) 1988-06-30

Similar Documents

Publication Publication Date Title
EP1403813B1 (en) Image processing method, image processing apparatus and image processing program for dealing with inverted characters
US6813381B2 (en) Method and apparatus for identification of documents, and computer product
JP2001297303A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
Chhabra et al. Detection of horizontal lines in noisy run length encoded images: The FAST method
JP2558668B2 (ja) 文字パタ−ン抽出方法
JP3858559B2 (ja) 画像処理装置、画像処理方法及び記録媒体
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
JPH0656618B2 (ja) 画像情報の文字・図形分離方法
JP3020662B2 (ja) 文字行切り出し装置及び文字認識装置
JP3187895B2 (ja) 文字領域抽出方法
JPH0452783A (ja) 図面読取装置
JPS64740B2 (ja)
JP2964980B2 (ja) 光学的文字認識における直線成分検出方法及び装置
JPH0728933A (ja) 文字認識装置
JP3045810B2 (ja) 二値画像処理方法および装置
JPH0343879A (ja) 文字認識装置およびその文字領域分離方法
JP3566738B2 (ja) 網掛け領域処理方法および網掛け領域処理装置
JP2771045B2 (ja) 文書画像の領域分割方法
JP2933828B2 (ja) 画像パターン処理装置
JPH0728938A (ja) 文字認識装置
JPH05135204A (ja) 文字認識装置
JPH0743764B2 (ja) 線図形折線化処理装置
JPH0773273A (ja) パターン切出しおよび認識方法とそのシステム
JPH06187490A (ja) 領域分割方法

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term