JPH0343879A - 文字認識装置およびその文字領域分離方法 - Google Patents

文字認識装置およびその文字領域分離方法

Info

Publication number
JPH0343879A
JPH0343879A JP1179529A JP17952989A JPH0343879A JP H0343879 A JPH0343879 A JP H0343879A JP 1179529 A JP1179529 A JP 1179529A JP 17952989 A JP17952989 A JP 17952989A JP H0343879 A JPH0343879 A JP H0343879A
Authority
JP
Japan
Prior art keywords
character
area
rectangular
areas
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1179529A
Other languages
English (en)
Other versions
JP2968284B2 (ja
Inventor
Yutaka Katsuyama
裕 勝山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1179529A priority Critical patent/JP2968284B2/ja
Publication of JPH0343879A publication Critical patent/JPH0343879A/ja
Application granted granted Critical
Publication of JP2968284B2 publication Critical patent/JP2968284B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概 要〕 イメージスキャナその他の光学的読み取り装置で得られ
た二値化画像データから文字の認識を行う文字認識装置
において、文字認識の前処理である文字領域と図形領域
とを分離抽出する文字領域分離方式に関し、 文字領域の正確な分離抽出を可能にするとともに、文字
領域を比較的大きな領域にまとめることを目的とし、 二値化画像データの黒領域の輪郭追跡を行って!!A領
域に接する矩形領域を抽出し、各矩形領域の大きさに応
じて文字領域を分離する文字領域分離手段を備えた文字
認識装置の文字領域分離方式において、文字領域として
分離された各矩形領域に対して、近接する矩形領域を統
合する処理と、統合された各矩形領域の「ネスト」およ
び「重なり」を除去する処理とを繰り返し、所定の大き
さの矩形領域を文字領域として抽出する統合処理手段を
備えて構成する。
〔産業上の利用分野〕
本発明は、イメージスキャナその他の光学的読み取り装
置で得られた二値化画像データ(イメージ情報)から文
字の認識を行う文字認識装置において、文字認識の前処
理である文字領域と図形領域とを分離抽出する文字領域
分離方式に関する。
〔従来の技術〕
二値化画像データから文字を認識する文字認識処理では
、文字領域の画像データから所定の切り出し処理により
個々の文字に対応するイメージ情報(文字イメージ)を
得るが、図形を含む文書の場合にはその前処理として文
字領域と図形領域との分離が不可欠になっている。
従来の文字領域分離方式では、まず二値化(黒と白)画
像データを対象として縦横に交互にヒストグラムをとり
、連続する領域を一つの領域として扱い領域区分を行う
方式がある。しかし、この方式では領域区分に必要な所
定の制限を設け、それを満足するまで同じ処理を繰り返
すので、処理量が多くなるとともに黒領域が多い場合に
は適応が困難になることがあった。
また、多値化画像データを対象にして小領域に分割して
ラベリングする方式があるが、多値化画像データは二値
化画像データに比べて情報量が多く大容量の画像メモリ
が必要になっていた。
また、二値化画像データを対象にして小領域に分割して
ラベリングする方式では、小領域が大きい場合には処理
速度は速いが解像度が悪く、小領域が小さい場合には解
像度は良いが処理速度が遅くなる相反する問題点があっ
た。
ところで、黒領域(黒画素)の輪郭を追跡して黒領域の
存在する領域を割り出し、それを矩形(ボックス)表現
で扱い、その高さをパラメータとして文字領域と図形領
域とを分離する方式が提案されている。この方式は、比
較的短い時間で解像度の高い処理が可能になっている。
〔発明が解決しようとする課題〕
すなわち、この方式は、輪郭の外接矩形領域の大きさ(
閾値)に応じて文字領域と図形領域との分離が容易であ
り、さらに例えば表中の文字のように、図形に囲まれた
文字領域の分離抽出を可能にする優れた能力を有してい
るが、解像度が高くなるに従って各文字領域が細かい領
域に分離される1頃向にあった。
一方、文字認識処理に供される文字領域において、文字
間隔、行間隔その他の文字間の性質を正確に把握し、各
文字対応の切り出し処理を安定して行うためには、領域
内にある程度の数の文字が必要である。
ところが、上述した方式では、分離抽出された文字領域
が小さい場合には、個々の文字イメージを得る切り出し
処理が不安定になり、文字認識率の低下を引き起こすこ
とがあった。
本発明は、文字領域の正確な分離抽出を可能にするとと
もに、文字領域を比較的大きな領域にまとめ、従来の問
題点を回避することができる文字認識装置の文字領域分
離方式を提供することを目的とする。
〔課題を解決するための手段〕
第1図は、本発明の原理ブロック図である。
図において、文字領域分離手段11は、二値化画像デー
タの黒領域の輪郭追跡を行って黒領域に接する矩形領域
を抽出し、各矩形領域の大きさに応じて文字領域を分離
する。
統合処理手段13は、文字領域として分離された各矩形
領域に対して、近接する矩形領域を統合する処理と、統
合された各矩形領域の「ネスト」および「重なり」を除
去する処理とを繰り返し、所定の大きさの矩形領域を文
字領域として抽出する。
また、請求項(2)に対応して、太線化・細線化処理手
段15は、文字領域分離手段11で文字領域として分離
された各矩形領域あるいは統合処理手段13の処理過程
にある各矩形領域の太線化処理および細線化処理を行う
〔作 用〕
請求項(1)に記載の発明では、文字領域として分離さ
れた各矩形領域に対して、統合処理手段13が近接する
矩形領域を統合する処理と、統合された各矩形領域の「
ネスト」および「重なり」を除去する処理とを繰り返す
ことにより、さらに大きな矩形領域にまとめることがで
きる。
したがって、この大きな矩形領域を文字領域として分離
抽出することにより、以後の文字認識処理における切り
出し処理の安定化を図ることが容易になる。
また、請求項(2)に記載の発明では、太線化・細線化
処理手段15が、文字領域分離手段11で文字領域とし
て分離された各矩形領域あるいは統合処理手段13の処
理過程にある各矩形領域の太線化処理および細線化処理
を行うことにより、統合処理効率が大幅に改善される。
〔実施例〕
以下、図面に基づいて本発明の実施例について詳細に説
明する。
第2図は、本発明の文字領域分離方式を実現する装置構
成例を示すブロック図である。
図において、文字認識装置21は、上位装置(パソコン
)23の起動制御に応じてイメージスキャナ25ととも
に起動される。イメージスキャナ25から人力される二
値化画像データ(イメージ情報)は、文字認識装置21
の対応するメモリ(RAM)27に格納される。
文字認識装置21の文字領域分離部28は、イメージメ
モリI、■、■およびテーブルI、IIで構成されるメ
モリ27を用い、文字領域の分離抽出を行う。ここで分
離された文字領域は文字認識処理部29に渡され、その
文字領域から所定の切り出し処理により各文字イメージ
を得て文字認識処理を行い、その認識結果を上位装置2
3に通知する構成である。
第3図は、本発明の文字領域分離方式の実施例手順を示
す流れ図である。第4図は、各処理過程における処理結
果の一例を示す図である。
以下、第2図〜第4図を参照して文字領域の分離抽出処
理の流れについて説明する。
イメージスキャナ25で読み取った二値化画像データ(
イメージ情報)をイメージメモリIに格納する。この画
像データは、既存の縮小アルゴリズムを用いて1/8の
縮小画像(第4図(a) )に変換され、イメージメモ
リHに格納する。
縮小画像(イメージメモリ■)上で、黒点からなる黒領
域の輪郭追跡を行い、黒領域の輪郭上の点の座標の縦横
の最小値および最大値で表される矩形領域(第4図(b
))を抽出し、その座標値データをテーブル■に格納す
る。なお、この処理の作業用にイメージメモリ■を使用
する。
テーブルIに格納された座標値データから各矩形領域の
高さのヒストグラム(第4図(C))を求め、さらにこ
のヒストグラムから図形領域と文字領域とを分ける閾値
(−山越えた所の高さ、第4図(C)の★印)を求め、
テーブル■に格納する。続いて、この闇値より小さい矩
形領域を文字領域として抽出し、テーブルIに格納する
なお、以上の処理は従来方式と同様であり、以下の処理
に本発明方式の特徴がある。
テーブルIに格納されている各矩形領域の中身を塗り潰
しく第4図(d))、イメージメモリ■に格納する。
続いて、近接する矩形領域を連接させるために、イメー
ジメモリ■に格納されている各矩形領域の外側へ2ドツ
トの厚さで太線化処理を行い(第4図(e))、さらに
外側から2ドツト削る細線化処理を行い(第4図(f)
)、イメージメモリ■に格納する。すなわち、太線化処
理および細線化処理を行うことにより、近接する矩形領
域の細かい間隔を埋めることができる。
ここで再び、イメージメモリ■上で黒点からなる黒領域
の輪郭追跡を行い、同様に黒領域に接する矩形領域(第
4図(濁)を抽出し、その座標値データをテーブル■に
格納する。
なお、ここで分離抽出された領域が文字領域であるが、
原稿上では一つの領域のものが別な領域に分離されてい
ることが多いので、さらに相対的に近接している矩形領
域の統合処理を行う。
この近接矩形領域の統合処理では、テーブル■に格納さ
れている各矩形領域の高さのヒストグラムからその最大
値(第4図(C)の☆)を求め、各矩形領域間の距離が
これより小さい二つの矩形領域を統合して一つの矩形領
域とする処理を行い(第4図(ハ))、テーブルIに格
納する。なお、この統合処理では、矩形領域の中に矩形
領域が存在する「ネスト」、あるいは複数の矩形領域が
重なる「重なり」が発生する。
したがって、「ネスト」がある場合には大きい方の矩形
領域を残す処理を行い、「重なり」がある場合にはそれ
らを含む新たな矩形領域を作成して旧矩形領域を削除す
る「ネスト」および「重なり」の除去処理を行い(第4
図(i))、テーブル■に格納する。
以下、近接矩形領域の統合処理と「ネスト」および「重
なり」の除去処理を、テーブルIが定常になる(変化が
なくなる)まで繰り返し、最終的に文字領域を囲む矩形
領域(第4図(j))を決定し、各矩形領域の座標値を
テーブルIに格納して文字領域の分離抽出処理を終了す
る。
以上の処理が本発明方式の特徴とするところであり、こ
こで得られた各文字領域の座標値は文字認識処理に供さ
れ、各文字領域ごとに文字イメージの切り出し処理およ
び認識処理が行われる。
〔発明の効果〕
上述したように、本発明によれば、図形領域と文字領域
との正確な分離が容易で、例えば表中の文字領域の分離
抽出ができ、文字認識処理の全自動処理が可能となる文
字領域分離方式において、分離された各文字領域を大き
な領域にまとめることができるので、その文字領域に対
する各文字対応の切り出し処理の安定化を図ることが容
易になり、文字認識率の向上を図ることができる。
また、統合処理前あるいは統合処理過程において、各文
字領域の太線化処理および細線化処理を行うことにより
、統合処理効率が大幅に改善されるとともに、統合処理
にかかわるメモリ容量の削減を図ることができる。
【図面の簡単な説明】
第1図は本発明の原理ブロック図、 第2図は本発明方式を実現する装置構成例を示すブロッ
ク図、 第3図は本発明方式の実施例手順を示す流れ図、第4図
は各処理過程における処理結果の一例を示す図である。 図において、 11は文字領域分離手段、 13は統合処理手段、 15は太線化・細線化処理手段、 21は文字認識装置、 23は上位装置(パソコン)、 25はイメージスキャナ、 27はメモリ (RAM)、 28は文字領域分離部、 29は文字認識処理部である。 本発明原理ブロック図 第1図 本発明方式を実現する装置構成例を示すブロック図第2
図 本発明方式の実施例手順を示すKれ同 第3図 (a) 第 図 (d) 第 図 −一一一■― (「) 第 図 (h) 第 図

Claims (2)

    【特許請求の範囲】
  1. (1)二値化画像データの黒領域の輪郭追跡を行って黒
    領域に接する矩形領域を抽出し、各矩形領域の大きさに
    応じて文字領域を分離する文字領域分離手段(11)を
    備えた文字認識装置の文字領域分離方式において、 文字領域として分離された各矩形領域に対して、近接す
    る矩形領域を統合する処理と、統合された各矩形領域の
    「ネスト」および「重なり」を除去する処理とを繰り返
    し、所定の大きさの矩形領域を文字領域として抽出する
    統合処理手段(13)を備えた ことを特徴とする文字認識装置の文字領域分離方式。
  2. (2)請求項(1)に記載の文字認識装置の文字領域分
    離方式において、 文字領域分離手段(11)で文字領域として分離された
    各矩形領域あるいは統合処理手段(13)の処理過程に
    ある各矩形領域の太線化処理および細線化処理を行う太
    線化・細線化処理手段(15)を備えた ことを特徴とする文字認識装置の文字領域分離方式。
JP1179529A 1989-07-12 1989-07-12 文字認識装置およびその文字領域分離方法 Expired - Lifetime JP2968284B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1179529A JP2968284B2 (ja) 1989-07-12 1989-07-12 文字認識装置およびその文字領域分離方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1179529A JP2968284B2 (ja) 1989-07-12 1989-07-12 文字認識装置およびその文字領域分離方法

Publications (2)

Publication Number Publication Date
JPH0343879A true JPH0343879A (ja) 1991-02-25
JP2968284B2 JP2968284B2 (ja) 1999-10-25

Family

ID=16067351

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1179529A Expired - Lifetime JP2968284B2 (ja) 1989-07-12 1989-07-12 文字認識装置およびその文字領域分離方法

Country Status (1)

Country Link
JP (1) JP2968284B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09134406A (ja) * 1995-09-06 1997-05-20 Fujitsu Ltd 文書画像からのタイトル抽出装置および方法
US7336396B2 (en) 2003-03-20 2008-02-26 Kabushiki Kaisha Toshiba Image processing apparatus and image processing method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09134406A (ja) * 1995-09-06 1997-05-20 Fujitsu Ltd 文書画像からのタイトル抽出装置および方法
US7336396B2 (en) 2003-03-20 2008-02-26 Kabushiki Kaisha Toshiba Image processing apparatus and image processing method

Also Published As

Publication number Publication date
JP2968284B2 (ja) 1999-10-25

Similar Documents

Publication Publication Date Title
JP2940936B2 (ja) 表領域識別方法
US5465304A (en) Segmentation of text, picture and lines of a document image
US11625871B2 (en) System and method for capturing and interpreting images into triple diagrams
JP2003515230A (ja) ビデオストリームの分類可能な記号の分離方法及びシステム
JPH04104324A (ja) プログラム作成装置
JP4077094B2 (ja) カラー文書画像認識装置
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
JPH07160812A (ja) 画像処理装置及び方法
JPH0343879A (ja) 文字認識装置およびその文字領域分離方法
JP2890306B2 (ja) 表領域分離装置および表領域分離方法
JPH09134404A (ja) 棒グラフ認識装置
JPS615383A (ja) 文字パタ−ン分離装置
JP2789622B2 (ja) 文字/図形領域判定装置
JPH05159062A (ja) 文書認識装置
JP2558668B2 (ja) 文字パタ−ン抽出方法
JP2803735B2 (ja) 罫線を含んだ文字認識装置
JPH0564396B2 (ja)
JPH0728933A (ja) 文字認識装置
JP3199033B2 (ja) 光学式文字読取方法、及び光学式文字読取装置
JPH04130979A (ja) 文字画像切出し方法
JPH0658689B2 (ja) 線図形分離装置
CN113421256A (zh) 一种点阵文本行字符投影分割方法及装置
Strouthopoulos et al. Text identification in color documents
JP2721415B2 (ja) 文字画像抽出方法
JPS6361382A (ja) 線画像からの文字成分除去方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080820

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090820

Year of fee payment: 10

EXPY Cancellation because of completion of term