JPH0548510B2 - - Google Patents

Info

Publication number
JPH0548510B2
JPH0548510B2 JP60031723A JP3172385A JPH0548510B2 JP H0548510 B2 JPH0548510 B2 JP H0548510B2 JP 60031723 A JP60031723 A JP 60031723A JP 3172385 A JP3172385 A JP 3172385A JP H0548510 B2 JPH0548510 B2 JP H0548510B2
Authority
JP
Japan
Prior art keywords
image
character string
straight line
area
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60031723A
Other languages
English (en)
Other versions
JPS61193277A (ja
Inventor
Kazumi Matsura
Yoji Maeda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP60031723A priority Critical patent/JPS61193277A/ja
Publication of JPS61193277A publication Critical patent/JPS61193277A/ja
Publication of JPH0548510B2 publication Critical patent/JPH0548510B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、下線や文字枠等の直線成分を含む
文書から文字列領域を切出し、直線成分の検出と
除去を行つた上で文字パターンの切出しと認識を
行う文書読取装置に関するものである。
〔従来の技術〕
第3図は従来の文書読取装置の全体構成図であ
り、図において、1は文書を光学的に走査し、光
電変換することにより得られる例えば1024画素×
1024画素の2値イメージを記憶するイメージ情報
記憶部、2は上記イメージを圧縮して2値化した
圧縮画像を記憶する圧縮画像記憶部、9は上記圧
縮画像の各画素に対応する上記イメージの各領域
において抽出した特徴を記憶する画素特徴記憶
部、4は上記圧縮画像を文字列方向に走査したと
き値が“0”の画素の連絡が短かい場合、それ等
の画素の値を“1”にする圧縮画像処理部、5は
上記圧縮画像処理部4で処理したた画像におい
て、他が“1”の画素が連結している領域を検出
する領域検出部、6は上記検出した領域が文字例
であるかを検出する文字列検出部、7は上記検出
した領域が文字列である場合、上記2値イメージ
から上記検出した領域に対応する文字列イメージ
を切出して記憶する文字列イメージ記憶部、8は
上記文字列イメージから文字を切出して認識する
文字認識部である。
第4図は、第3図における各処理部の出力画像
を示した図であり、図において、9はイメージ情
報記憶部1に記憶されている文書のイメージ、1
0はイメージ9を圧縮した圧縮画像、11は圧縮
画像の各画素に対応するイメージ9の各小領域に
おいて、横方向の直線が存在する画素を1、存在
しない画素を0とした画素特徴画像、12は圧縮
画像処理部4で処理された処理画像、13は文字
列検出部6で文字列と判定された文字列領域、1
4は文字列イメージ記憶部7でイメージ1より切
出された文字列イメージ、15は文字認識部にお
ける認識結果である。
次に動作について説明する。イメージ情報記憶
部1に記憶しているイメージ9を例えば縦に128
分割、横に32分割して縦が8画素、横が32画素の
小領域を作成する。そして、各小領域において、
値が1の画素の数を計数し、その値5以上のもの
を1、その他のものを0として2値化し、各小領
域を1画素に対応させた縦128画素、横32画素の
圧縮画像10を求め、圧縮画像記憶部2に記憶す
る。
又、上記小領域において、右端から左端まで値
が1の画素が8連結で連結しているとき、小領域
に対応する圧縮画像に対応させて、それを画素特
徴記憶部9に記憶する。全ての小領域で上記処理
を行うことにより、画素特徴画像11を得る。
さらに、圧縮画像処理部4において、圧縮画像
10を文字列の方向である横方向に走査し、値が
0の圧縮画像が何個連結するかを調べ、3個以下
の場合にはこれ等の画素の値を1にして処理画像
12を得る。
しかして、領域検出部5では、処理画像12の
値が1の画素が4連結する領域を検出し、次に、
文字列検出部6において、上記検出した領域毎に
文字列の領域か否かを検出する。即ち、文字列の
形状は横方向の長方形であり、且つ、横方向の長
い直線ではないことが知られていることから、上
記切出した領域の形状と横方向直線の存在を示す
画素特徴画像11の情報により文字列画像13を
検出することが出来る。
さらに、この文字列画像13に対応するイメー
ジを上記イメージ9より切出して文字列イメージ
14を得、文字認識部8において、この文字列イ
メージ14から周知の技術で文字を切出し、認識
結果15を出力する。
〔発明が解決しようとする問題点〕
従来の文書読取装置は以上の様に構成されてい
るので、下線や文字枠等を含む文字列が1つの文
字列領域として切出された場合にも、通常の文字
列領域と同様な処理が行われ、文字切出し及び文
字認識が正しく行われないといつた問題点があつ
た。或いは、濃度特徴画像の連結成分から成る領
域において、直線成分が多い場合は文字列領域と
して切出されないといつた問題点があつた。
この発明は上記の様な問題点を解消する為にな
されたもので、下線や文字枠等を含む文字列を1
つの文字列領域として切出し、その文字列に含ま
れる下線や文字枠等を容易に検出して除去するこ
とが出来る文書読取装置を得ることを目的とす
る。
〔問題点を解決するための手段〕
この発明に係る文書読取装置は、各小領域で直
線特徴を抽出して記憶する直線特徴抽出記憶手段
と、切出した文字列領域に占める直線特徴の割合
から直線成分の有無無を判定する直線成分有無判
定手段と、上記直線特徴抽出記憶手段により記憶
された直線特徴の値に基づいて、上記直線成分が
存在する位置を検出し、上記文字列領域から直線
成分を除去する直線成分除去手段を設けたもので
ある。
〔作用〕
この発明における文書読取装置は、上記直線成
分有無判定手段により、切出された文字列領域に
おける直線成分の有無を判定し、直線成分が存在
すると判定された場合は、上記直線成分除去手段
により、上記文字列領域から上記直線成分を除去
する様にしたものである。
〔実施例〕
以下、この発明の一実施例を図について説明す
る。
第1図は、この発明に係る文書読取装置の全体
構成図である。図中、16は文書を光学的に走査
し、光電変換した電気信号を2値化して得られる
1024画素×1024画素の文書画像を記憶する文書入
力記憶手段、17は上記文字画像を8画素×32画
素の小領域に分割し、各小領域で濃度特徴を抽出
し、これ等を2値の濃度特徴画像として記憶する
濃度特徴抽出記憶手段、18は上記小領域で直線
特徴を抽出し、これ等を2値の直線特徴画像とし
て記憶する直線特徴抽出記憶手段、19は上記記
濃度特徴画像で黒連結成分を求め、上記連結成分
から成る連結領域の形状等から上記連結領域が文
字列領域であると判定した場合、上記連結領域に
対応する上記文書画像のパターンを切出して得ら
れる文字列領域画像を記憶する文字列領域切出し
記憶手段、20は上記文字列領域に対応する上記
直線特徴画像の領域における画素の値から上記文
字列領域における直線成分の有無を判定する直線
成分有無判定手段、21は上記直線成分有無判定
手段20で直線成分が存在すると判定された場
合、上記直線特徴画像の画素の値から上記直線成
分が存在する位置を検出し、上記文字列領域画像
から上記直線成分のパターンを除去する直線成分
除去手段、22は上記文字列領域画像から文字パ
ターンを切出して認識する文字パターン切出し認
識手段である。
第2図は、第1図における各処理手段で記憶し
た画像を示した図である。図中、23は文書入力
記憶手段16で記憶された文書画像、24は濃度
特徴抽出記憶手段17で抽出した濃度特徴画像、
25,26は文字列領域切出し記憶手段19で求
めた黒連結成分から成る連結領域、27は直線特
徴抽出記憶手段18で抽出した直線特徴画像、2
8は上記直線特徴画像27における値が1の画
素、29,30は文字列領域切出し記憶手段19
で切出された文字列領域画像、31は上記文字列
領域30に対して直線成分除去手段21が実行さ
れた後の文字列領域画像、32,33は文字パタ
ーン切出し認識手段22による認識結果である。
上記構成において、文書入力記憶手段16で記
憶した1024画素×1024画素の文書画像23を縦に
128分割、横に32分割して縦が8画素、横が32画
素の小領域を作成する。次に、各小領域において
黒画素数を計数し、その値が閾値5以上のものを
1、その他のものを0として2値化し、各小領域
を1画素に対応させた縦128画素、横32画素の濃
度特徴画像24を得る。一方、上記小領域におい
て右端から左端まで黒画素が8連結で連結してい
るとき1、その他のとき0として2値化し、各小
領域を1画素に対応させた縦128画素、横32画素
の直線特徴画像27を得る。
次に、文字列領域切出し記憶手段19で上記濃
度特徴画像24の値が1の画素が4連結する連結
領域25,26を検出し、上記連結領域25,2
6の形状が横長の長方形であり、且つ、縦方向の
長さが所定の範囲内であることから、上記連結領
域25,26は文字列領域であると判定し、上記
連結領域25,26に対応する文書画像23のパ
ターンを切出して文字列領域画像29,30を得
る。
次に、直線成分有無判定手段20により、上記
文字列領域25,26に対応する直線特徴画像2
7の領域における値が1の画素の割合から、文字
列領域画像29には直線成分が存在せず、文字列
領域画像30には存在すると判定される。そこ
で、文字列領域画像30に対しては、直線成分除
去手段21が実行され、文字列領域26に対応す
る直線特徴画像27の領域における値が1の画素
28の連続性と位置により、文字列領域画像30
から直線成分のパターンを除去して文字列領域画
像31を得る。更に、文字パターン切出し認識手
段22により、文字列領域画像29,31から周
知の技術で文字パターンを切出して認識し、認識
結果32,33を得る。
尚、以上の実施例では、横書き文字列の場合に
ついて説明したが、この発明はこれに限らず、縦
書き文字列の切出しに用いても良い。
又、直線特徴として横方向の直線について説明
したが、この発明はこれに限らず、縦方向の直線
に対する直線特徴を抽出し、縦方向の直線成分の
検出・除去に用いても良い。
更に、文字列領域切出し記憶手段で検出した領
域が文字列である場合について説明したが、この
発明はこれに限らず、表領域を検出して切出し、
表枠を除去する等、文書を構成する領域の切出し
に用いても良い。
〔発明の効果〕
以上の様に、この発明によれば、文書画像を方
向性のある小領域に分割し、各小領域で抽出した
画素特徴を用いているので、切出された文字列領
域に下線や文字枠等の直線成分を含む場合にもこ
れを検出して除去することが容易に出来る。或い
は、直線成分を多く含む文字列領域も文字列領域
として切出すことが出来る。
【図面の簡単な説明】
第1図はこの発明の一実施例による文書読取装
置の全体構成図、第2図は第1図の各処理手段で
記憶した画像を示す概略図、第3図は従来の文書
読取装置の全体構成図、第4図は第3図の各処理
部の出力画像を示す概略図である。 16は文書入力記憶手段、17は濃度特徴抽出
記憶手段、18は直線特徴抽出記憶手段、19は
文字列領域切出し記憶手段、20は直線成分有無
判定手段、21は直線成分除去手段、22は文字
パターン切出し認識手段である。 尚、図中、同一符号は同一、又は相当部分を示
す。

Claims (1)

    【特許請求の範囲】
  1. 1 圧縮画像を用いて、下線や文字枠等の直線成
    分を含む文書から文字を切出して読取る文書読取
    装置において、文書を光学的に走査し、光電変換
    した電気信号を2値化して得られる文書画像を記
    憶する文書入力記憶手段と、上記文書入力記憶手
    段で記憶した文書画像を縦にN分割、横にM分割
    して得られるn画素×m画素の各小領域で計数し
    た黒画素数を所定の閾値で2値化した結果を上記
    各小領域の濃度特徴とし、上記濃度特徴を上記各
    小領域と対応させたN×M画素平面の各画素の値
    とする濃度特徴画像を記憶する濃度特徴抽出記憶
    手段と、上記各小領域で横方向及び縦方向につい
    て黒連結の有無を検出した結果を上記各小領域の
    直線特徴とし、上記直線特徴を上記各小領域と対
    応させたN×M画素平面の各画素の値とする直線
    特徴画像を記憶する直線特徴抽出記憶手段と、上
    記濃度特徴画像で連結成分を求め、その連結部分
    から成る連結領域の形状により上記連結領域が文
    字列を含むと判定した場合に、上記文書画像から
    上記連結領域に対応する領域を切出して得られる
    文字列領域画像を記憶する文字列領域切出し記憶
    手段と、上記連結領域に対応する上記直線特徴画
    像の画素の値に基づいて上記文字列領域画像にお
    ける直線成分の有無を判定する直線成分有無判定
    手段と、上記直線特徴画像の画素の値に基づいて
    上記直線成分が存在する位置を検出し、上記文字
    列領域画像から上記直線成分が成すパターンを除
    去する直線成分除去手段と、上記文字列領域画像
    から文字パターンを切出し、上記文字パターンの
    認識を行う文字パターン切出し認識手段とを備
    え、上記直線特徴抽出記憶手段は、上記直線特徴
    画像を圧縮画像として抽出記憶し、上記文字列領
    域切出し記憶手段により、一旦切り出して記憶し
    た文字列領域画像に対して、上記直線成分有無判
    定手段が圧縮画像として抽出記憶された直線特徴
    画像を用いて上記文字列領域画像における直線成
    分の有無を判定すると共に、上記直線成分有無判
    定手段において上記文字列領域画像に直線成分が
    存在すると判定された場合、上記直線成分除去手
    段によつて、上記文字列領域画像から上記直線成
    分に対応するパターンを除去することを特徴とす
    る文書読取装置。
JP60031723A 1985-02-20 1985-02-20 文書読取装置 Granted JPS61193277A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60031723A JPS61193277A (ja) 1985-02-20 1985-02-20 文書読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60031723A JPS61193277A (ja) 1985-02-20 1985-02-20 文書読取装置

Publications (2)

Publication Number Publication Date
JPS61193277A JPS61193277A (ja) 1986-08-27
JPH0548510B2 true JPH0548510B2 (ja) 1993-07-21

Family

ID=12338961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60031723A Granted JPS61193277A (ja) 1985-02-20 1985-02-20 文書読取装置

Country Status (1)

Country Link
JP (1) JPS61193277A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63182780A (ja) * 1987-01-26 1988-07-28 Fuji Electric Co Ltd 図面読取装置における画像処理方法
JPH0214392A (ja) * 1988-07-01 1990-01-18 Fuji Electric Co Ltd 文書領域解析装置
JPH0256688A (ja) * 1988-08-23 1990-02-26 Toyota Central Res & Dev Lab Inc 文字切出し装置
US5048096A (en) * 1989-12-01 1991-09-10 Eastman Kodak Company Bi-tonal image non-text matter removal with run length and connected component analysis
ES2150926T3 (es) * 1993-06-30 2000-12-16 Ibm Metodo para segmentacion de imagenes y clasificacion de elementos de imagen para tratamiento de documentos.
US7568933B2 (en) 2005-03-10 2009-08-04 Honda Motor Co., Ltd. Connector for providing waterproof connection and method of examining its connection state

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5557973A (en) * 1978-10-24 1980-04-30 Nec Corp Character segmentation device
JPS5851302A (ja) * 1981-09-22 1983-03-26 Matsushita Electric Works Ltd シ−ケンス制御回路
JPS59168762A (ja) * 1983-03-14 1984-09-22 Nippon Telegr & Teleph Corp <Ntt> テキスト・ストラクチヤ−の自動抽出処理方式

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5557973A (en) * 1978-10-24 1980-04-30 Nec Corp Character segmentation device
JPS5851302A (ja) * 1981-09-22 1983-03-26 Matsushita Electric Works Ltd シ−ケンス制御回路
JPS59168762A (ja) * 1983-03-14 1984-09-22 Nippon Telegr & Teleph Corp <Ntt> テキスト・ストラクチヤ−の自動抽出処理方式

Also Published As

Publication number Publication date
JPS61193277A (ja) 1986-08-27

Similar Documents

Publication Publication Date Title
JP2940936B2 (ja) 表領域識別方法
US7170647B2 (en) Document processing apparatus and method
JPH0721310A (ja) 文書認識装置
JPH0548510B2 (ja)
US6983071B2 (en) Character segmentation device, character segmentation method used thereby, and program therefor
JPS61296481A (ja) 文書読取装置
JP2890306B2 (ja) 表領域分離装置および表領域分離方法
JPH0291789A (ja) 文字認識方法
JPH07230525A (ja) 罫線認識方法及び表処理方法
JPH0564396B2 (ja)
JP2590099B2 (ja) 文字読取方式
JPH0373916B2 (ja)
JP3095437B2 (ja) 文字行検出切出装置および文字読取装置
JP2878327B2 (ja) 文字切り出し装置
JPS6254380A (ja) 文字認識装置
JPH02253383A (ja) 画像処理装置
JP2963807B2 (ja) 郵便番号枠検出装置
JP2853140B2 (ja) 画像領域識別装置
JPH02166583A (ja) 文字認識装置
JPH04260181A (ja) 文字読取装置
JPH04167084A (ja) 文字読取装置
JPH04148391A (ja) 光学的文字読取装置
JPS62194590A (ja) 文字認識方式
JPH05135204A (ja) 文字認識装置
JPH04288773A (ja) 属性判別方法

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term