JP2827227B2 - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JP2827227B2
JP2827227B2 JP63254108A JP25410888A JP2827227B2 JP 2827227 B2 JP2827227 B2 JP 2827227B2 JP 63254108 A JP63254108 A JP 63254108A JP 25410888 A JP25410888 A JP 25410888A JP 2827227 B2 JP2827227 B2 JP 2827227B2
Authority
JP
Japan
Prior art keywords
character
feature
square
extracted
vertical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63254108A
Other languages
English (en)
Other versions
JPH02100783A (ja
Inventor
篤 霜山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63254108A priority Critical patent/JP2827227B2/ja
Publication of JPH02100783A publication Critical patent/JPH02100783A/ja
Application granted granted Critical
Publication of JP2827227B2 publication Critical patent/JP2827227B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔目次〕 概要 産業上の利用分野 従来の技術 発明が解決しようとする課題 課題を解決するための手段 作用 実施例 発明の効果 〔概要〕 切出した文字の特徴を抽出して辞書と照合し、相違度
の小さい候補文字を選択する際の処理時間を短縮する文
字認識装置に関し、 文字認識処理効率を高めることを目的とし、 未知の文字列から一文字を切出し、切出した一文字の
領域を走査して特徴を抽出し、所定の大きさの正方形に
内接する文字の特徴を格納する辞書から読出した特徴と
照合し、相違度の小さい辞書内の文字を候補文字として
選択して送出する文字認識装置の処理において、切出し
た一文字の縦方向及び横方向の大きさを正方形の大きさ
と比較し、一文字の縦方向及び/又は横方向の大きさが
正方形より大きい場合、一文字の縦方向又は横方向の大
きい方が正方形に内接するようにした時の縮小率を求
め、一文字を該縮小率で縮小させてから、縮小した文字
の領域を走査して特徴を抽出させ、正方形に対して縮小
した文字により空白となる領域に対応して、縮小した文
字から抽出した特徴に対し位置補正を行い、切出した一
文字の縦方向及び横方向の大きさが正方形より小さい場
合、一文字の領域を走査して特徴を抽出させ、正方形に
対して一文字により空白となる領域に対応して、一文字
から抽出した特徴に対し位置補正を行い、位置補正した
特徴と、辞書から読出した特徴と照合させて候補文字を
選出する構成とする。
〔産業上の利用分野〕
本発明は切出した文字の特徴を抽出して辞書と照合
し、相違度の小さい候補文字を選択する文字認識装置に
係り、特に特徴を抽出する際の処理時間を短縮すること
を可能とする文字認識装置に関する。
情報化社会の発展に伴い、文書を読取って計算機シス
テムに処理させることが盛んとなって来た。このため文
字認識装置が利用されているが、この文字認識装置は読
取った文書から一文字ずつ文字を切出し、この切出した
文字を所定の大きさの枠内に内接するように、拡大/縮
小する正規化を行い、この正規化した文字を走査して特
徴を抽出し、辞書と照合して相違度の小さい文字を認識
結果として計算機システムに送出している。
正規化した文字から特徴を抽出するための走査は、文
字の上下、左右、斜めの方向から何度も行われるため、
走査面積が大きい程時間が必要となるが、文字の大きさ
には何種類もあり、小さな文字や縦方向に長い文字又は
横方向に長い文字の特徴抽出処理時間は短縮されること
が望ましい。
〔従来の技術〕
第7図は従来の技術を説明するブロック図で、第8図
は第7図の動作を説明する図である。
プロセッサ1はプログラムメモリ2からプログラムを
読出して動作し、例えばスキャナ10を制御して文書から
読取った文字列を画像メモリ5に格納させ、文字切出し
部3を制御して、画像メモリ5に格納された文字列か
ら、一文字を切出させて文字画像として画像メモリ5に
格納させる。
正規化部4はプロセッサ1の制御により、画像メモリ
5に格納された文字画像を所定の大きさの枠内に内接す
るように拡大/縮小する正規化処理を行って、画像メモ
リ5に格納する。
即ち、正規化部4は第8図(b)又は(c)に示す如
き文字を正規化して、第8図(a)に示す如き例え
ば、48×48ドットの大きさの正方形の枠に内接する文
字とする。
特徴抽出部6はプロセッサ1の制御に基づき、画像メ
モリ5に格納された第8図(a)の斜線で示す文字を、
図中矢印に示す如く左右に、矢印に示す如く上下
に、矢印に示す如く、斜めの方向から走査し、公知
の方法で、例えば432次元の特徴を抽出して画像メモリ
5に格納する。
照合部7はプロセッサ1の制御に基づき、画像メモリ
5に格納された文字の特徴と、辞書8から読出した文字
に特徴とを照合し、辞書8から読出して最も相違度の小
さい特徴を持つ文字を候補文字として、インタフェース
部9を経て例えば上位装置に送出する。一般に、候補文
字は相違度の小さいものから順に、相違度の大きいもの
を複数選択して送出する。
〔発明が解決しようとする課題〕
上記の如く、従来は正規化部4で文字を正規化する
時、第8図(b)のように、枠より大きな文字は縮小
させ、第8図(c)のように、枠より小さな文字は拡
大して、枠に内接するようにしている。即ち、正方形
の枠の四辺に接するようにしている。
従って、特徴抽出部6は枠の内部領域を総て走査し
て、432次元の特徴を抽出しなければならない。
第9図は正規化部と特徴抽出部が必要とする時間を説
明する図である。
縦軸に時間をとり横軸に走査面積をとると、に示す
正規化に必要な時間は、文字切出し部3が切出した文字
の大きさが、第8図(a)の枠に内接する大きさであ
れば、画像メモリ5の枠内に移動させるのみで良く、
図中移動で示す如く、時間は最小であるが、枠より大
きければ、この文字を走査して縮小する時間は、文字が
大きい程走査時間が必要となり、図中の縮小で示す斜線
の如く文字の大きさに比例して多くなる。
又、枠より小さければ、この文字を走査して拡大す
る時間は、文字が小さい程走査時間が少なくて良いた
め、図中の拡大で示す斜線の如く文字の大きさに比例し
て少なくなる。
に示す特徴抽出に必要な時間は、前記の如く枠の
内部領域を総て走査する必要があり、文字切出し部3が
切出した文字の大きさに関係無く、一定時間となる。
又、特徴抽出を行った後、同一文字は同じ特徴が出る
ように、に示す特徴の補正が行われるが、この時間も
一定である。
従って、点線のに示す如く、総合した時間は切出し
部3が切出した文字の大きさに比例して多くなる。
第10図は文字の大きさの分布を説明する図である。
横軸に文字サイズをとり、縦軸に頻度をとると、文字
認識装置が取り扱う文字の大きさの頻度は、48×48ドッ
トより大きな文字に対し、小さい文字の方が多いことを
示している。
即ち、枠より小さい文字を取り扱うことが多く、枠
より大きい文字も、横方向に大きい文字や、縦方向に
大きい文字があるが、従来は、総て枠の四辺に内接す
るように拡大/縮小が行われるため、特徴抽出時間は一
定であり、拡大する文字の正規化時間は文字の大きさに
比例して多くなるという問題がある。
本発明はこのような問題点に鑑み、枠より小さい文
字は拡大せずに枠の二辺に接するように移動させるこ
とで、枠内で空白となる部分の走査を行わないように
して、正規化する際の拡大に必要な走査時間を不要とす
ると共に、特徴抽出に必要な走査時間も短縮する。又、
枠より大きい文字は横又は縦方向で大きい方が枠の
横又は縦の二辺に接するようにして、空白となる部分の
走査を不要とし、特徴抽出時間を短縮して、文字認識処
理効率を高めることを目的としている。
〔課題を解決するための手段〕
第1図は本発明の構成を示す処理の流れ図である。
第1図は文字認識装置を制御するプロセッサの処理の
流れを示し、11〜19は処理ステップである。
〔作用〕
未知の文字列から一文字を切出し、該切出した一文字
の領域を走査して特徴を抽出し、所定の大きさの正方形
に内接する文字から得られる特徴を格納する辞書から読
出した特徴と照合し、相違度の小さい該辞書内の文字を
候補文字として選択し、該選択した候補文字を認識結果
として送出する文字認識装置のプロセッサは、処理ステ
ップ11で切出した一文字の縦方向と横方向の大きさが、
該正方形より大きいか調べる。
そして、一文字の縦方向及び/又は横方向の大きさ
が、該正方形より大きい場合、ステップ12において、こ
の一文字を該正方形の二辺に横又は縦の大きい方が内接
するように縮小する縮小率を算出する。
そして、ステップ13で算出した縮小率を用いて、一文
字を縮小した後正規化させ、ステップ14で縮小した文字
領域を走査させて、特徴の抽出を行わせる。
第2図は特徴抽出の一例を説明する図である。
例えば、第8図(b)に示す如き文字を縮小した後正
規化して、第2図(a)に示す如き例えば、48×48ド
ットの大きさの正方形の枠に、例えば横が内接する文
字とする。
プロセッサは特徴抽出部を制御して第2図(a)の斜
線で示す文字を、前記同様に走査させるが、この時文字
を枠の内部で移動させて、例えば文字の上部を枠に
内接させ、空白領域を作成し、この空白領域の走査
は行わせない。そして、公知の方法で特徴を抽出させ
る。
プロセッサはステップ15で、正方形に対して縮小した
文字により空白となる領域、即ち、空白領域に対応し
て、抽出された特徴を位置補正する演算を行って補正す
る。
即ち、特徴抽出部が抽出した特徴は、一文字を正規化
する際に、枠の四辺に内接するように縮小していない
ため、枠の空白領域に対応する部分が縮小されたと
同様な文字画像に基づく特徴であるが、辞書には枠の
四辺に内接する文字画像から抽出された特徴が格納され
ているため、特徴が対応するように位置補正する。
次に、プロセッサはステップ18で辞書の特徴と位置補
正した一文字の特徴とを照合させ、ステップ19で候補文
字の選出を行わせる。
又、プロセッサはステップ11で、一文字の縦方向及び
横方向の大きさが正方形より小さい場合、ステップ16で
特徴抽出部を制御して、一文字の領域を走査させて特徴
の抽出を行わせる。
特徴抽出部は第2図(b)の斜線で示す文字を、前記
同様に走査するが、この時文字を枠の内部で移動させ
て、例えば文字の上部と左側を枠に内接させ、空白領
域を作成し、この空白領域の走査は行わない。そし
て、公知の方法で特徴を抽出する。
ここで、プロセッサはステップ17において、正方形に
対して一文字により空白となる領域、即ち、空白領域
に対応して、抽出された特徴を位置補正する演算を行っ
て補正する。
即ち、特徴抽出部が抽出した特徴は、一文字を枠の
四辺に内接するように拡大せず、枠の空白領域に対
応する部分が縮小されたと同様な文字画像に基づく特徴
であるが、辞書には枠の四辺に内接する文字画像から
抽出された特徴が格納されているため、特徴が対応する
ように位置補正する。
次に、プロセッサはステップ18で辞書の特徴と位置補
正した一文字の特徴とを照合させ、ステップ19で候補文
字の選出を行わせる。
以上により、一文字を走査して特徴を抽出する際に、
空白領域又はに対応する領域を、従来のように第8
図(a)に示す如く、左右、上下及び斜めに走査して43
2次元もの特徴を抽出する必要が無く、走査領域が縮小
されるため、特徴抽出処理時間を短縮することが出来
る。
そして、プロセッサは切出した文字の大きさと、枠
の大きさとの比に基づき、特徴抽出部が抽出した特徴の
位置補正を行うが、演算時間は短いため、特徴抽出部の
特徴抽出処理時間の短縮の効果が大きい。
又、正規化する際に、切出された文字が枠より小さ
い場合、拡大する処理を行わないため、正規化時間を短
縮することが可能となる。
従って、文字認識装置の処理効率を高めることが出来
る。
〔実施例〕
第3図は本発明の一実施例を示す回路のブロック図
で、第4図は第3図の動作を説明するフローチャート
で、第5図は第3図の動作を説明する図である。
第7図と同一符号は同一機能のものを示す。プロセッ
サ1はプログラムメモリ2′に格納されているプログラ
ムを読出して動作する。即ち、第4図に示す如く、イ
ンタフェース部9を経て上位装置から文字認識を指示さ
れると、スキャナ10を制御して原稿から1ページ分の文
字列の読取りを行わせ、画像メモリ5のイメージ領域に
格納させると、第5図(a)に示す如く、画像メモリ5
のイメージ領域上における文字位置を検出する。
即ち、第5図(a)の座標値x,yと、文字の高さh及
び幅wを求め、文字切出し部3を制御して、一文字を切
出させて文字画像として画像メモリ5に格納させる。
そして、切出した文字を48ドットと比較する。即ち、
第4図に示す如く、w>48か否かを調べ、次にh>
48か否かを調べる。
w及びhが48ドットより小さければ、第4図に示す
如く、切出した一文字を画像メモリ5の正規化イメージ
領域に移動させるが、w及び/又はhが48ドットより大
きければ、正規化縮小率を求めるため、第4図に示す
如く、w≧hか否かを調べ、w≧hであれば、k=wと
し、w≧hでなければ、k=hとして、p=48/kより縮
小率pを求める。
プロセッサ1は画像メモリ5に格納された一文字領域
を、正規化部4を制御して第5図(b)に示す如く左右
に走査させ、第5図(c)に示す如くテーブルを作成さ
せる。
即ち、例えば、第5図(b)ので示す走査線上の黒
画素の始点と終点の位置a及びb、で示す走査線上の
黒画素の始点と終点の位置c,dとe,f及びg,jを求め、第
5図(c)に示す如くテーブルとする。
次にプロセッサ1は第5図(c)に示すテーブルの各
画素位置に対し、第4図に示す如くpを乗算して変換
テーブルを作成する。即ち、a1=a×p、b1=b×pの
如き演算を行い、第5図(d)に示す如き変換テーブル
を作成する。
次にプロセッサ1は第4図に示す如く、同一データ
の変換処理を行う。これは、線分の多い文字を縮小する
場合、隣接する線分が重畳するようになるが、この重畳
を避けるため、重畳する線分を削除するか、1ドット分
ずらす等の処理を行って、第5図(d)の変換テーブル
の変換処理を行う。
次にプロセッサ1はこの変換テーブルを使用して、変
換テーブルに基づく文字作成を行う。即ち、第5図
(e)に示す如く、例えばw≧hであれば、横幅が48ド
ットで高さがhの文字を作成し、画像メモリ5に格納す
る。そして、この文字を上下に走査して黒画素の始点と
終点の位置を示すテーブルを作成し、このテーブルの各
画素位置に対し、pを乗算して、第5図(f)に示す如
き、横幅が48ドットで、高さがH=h×pとなる文字が
作成される変換テーブルを作成する。
そして、前記同様に同一データの変換処理を行い、こ
の変換テーブルから正規化部4を制御して第5図(f)
に示す如き正規化イメージを作成させ、画像メモリ5の
正規化イメージ領域に格納させる。
次にプロセッサ1は第4図に示す如く、文字の高さ
及び幅の小さい方をH=p×h又はw=p×wにより求
める。そして、特徴抽出部6を制御して、第4図に示
す如く、48×H又は48×Wの範囲内で特徴抽出を行わせ
る。即ち、例えば、横幅が48ドットで高さがHの文字範
囲を走査させ、特徴を抽出させるか、又は、第4図で
正規化イメージ領域に移動した横幅がWで、高さがHの
文字範囲を走査させて特徴を抽出させる。
従って、この場合、第2図(a)及び(b)に示す如
く、空白部又はの領域は走査されない。
プロセッサ1は特徴抽出部6が抽出した特徴を画像メ
モリ5に格納させ、48×48ドットの正方形の枠に内接す
る文字から特徴を抽出して格納している辞書8の特徴と
照合するため、第4図に示す如く、48/H又は48/Wを乗
算する等の位置補正を行い、更に同一文字は同じ特徴が
出るように特徴量の補正も行う。
そして、照合部7を制御して辞書8の特徴と照合さ
せ、候補文字を選択させて画像メモリ5に格納させる。
そして、1ページ分の全文字の選択が終了したか調べ、
終了していなければ、次の一文字切出しを行うルーチン
に戻り、終了していれば、答えをインタフェース部9を
経て上位装置に送出する。
そして、次頁があるか調べ、あればスキャナ10を制御
して原稿から1ページ分の文字列を読取らせるルーチン
に戻り、次頁が無ければ動作を終了する。
第6図は発明の効果を説明する図である。
第9図に比し、で示す正規化に必要な時間では、拡
大に対応する斜線部分が移動のみで良く、時間が短縮さ
れる。そして、で示す特徴抽出に必要な時間は、特徴
抽出に必要な走査範囲が小さくなるため、文字が小さい
程特徴抽出時間が小さくなる。
で示す特徴の補正と位置補正では、第9図に比し、
位置補正する時間が多くなる。従って、に示す如く、
総合した時間は斜線で示す範囲が効果となる。
尚、第6図は切出した文字を縮小した場合に、第2図
に示す空白部分の走査が不要となるために、特徴抽出
に必要な時間が節減されるが、この節減状態は正確に把
握されないため、図示することは省略してある。
〔発明の効果〕
以上説明した如く、本発明は特徴抽出処理時間を短縮
することが可能なため、文字認識装置の文字認識処理効
率を高めることが出来る。
【図面の簡単な説明】 第1図は本発明の構成を示す処理の流れ図、 第2図は特徴抽出の一例を説明する図、 第3図は本発明の一実施例を示す回路のブロック図、 第4図は第3図の動作を説明するフローチャート、 第5図は第3図の動作を説明する図、 第6図は発明の効果を説明する図、 第7図は従来の技術を説明するブロック図、 第8図は第7図の動作を説明する図、 第9図は正規化部と特徴抽出部が必要とする時間を説明
する図、 第10図は文字の大きさの分布を説明する図である。 図において、 1はプロセッサ、2,2′はプログラムメモリ、3は文字
切出し部、4は正規化部、5は画像メモリ、6は特徴抽
出部、7は照合部、8は辞書、9はインタフェース部、
10はスキャナ、11〜19は処理ステップを示す。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06K 9/42 G06K 9/62 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】未知の文字列から一文字を切出し、該切出
    した一文字の領域を走査して特徴を抽出し、所定の大き
    さの正方形に内接する文字から得られる特徴を格納する
    辞書から読出した特徴と照合し、相違度の小さい該辞書
    内の文字を候補文字として選択し、該選択した候補文字
    を認識結果として送出する文字認識装置の処理におい
    て、 該切出した一文字の縦方向及び横方向の大きさを該正方
    形の大きさと比較し、 該一文字の縦方向及び/又は横方向の大きさが該正方形
    より大きい場合、 該一文字の縦方向又は横方向の大きい方が該正方形に内
    接するようにした時の縮小率を求め、 該一文字を該縮小率で縮小させて、該正方形の少なくと
    も縦と横の各一辺に接するように該一文字の位置を移動
    させてから、 該縮小した文字の領域を走査して特徴を抽出させ、 該正方形に対して該縮小した文字により空白となる領域
    に対応して、該縮小した文字から抽出した特徴に対し位
    置補正を行い、 該切出した一文字の縦方向及び横方向の大きさが該正方
    形より小さい場合、 該正方形の少なくとも縦と横の各一辺に接するように該
    一文字の位置を移動させてから、該一文字の領域を走査
    して特徴を抽出させ、 該正方形に対して該一文字により空白となる領域に対応
    して、該一文字から抽出した特徴に対し位置補正を行
    い、 該位置補正した特徴と、前記辞書から読出した特徴とを
    照合させて、候補文字を選出することを特徴とする文字
    認識方法。
JP63254108A 1988-10-07 1988-10-07 文字認識方法 Expired - Lifetime JP2827227B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63254108A JP2827227B2 (ja) 1988-10-07 1988-10-07 文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63254108A JP2827227B2 (ja) 1988-10-07 1988-10-07 文字認識方法

Publications (2)

Publication Number Publication Date
JPH02100783A JPH02100783A (ja) 1990-04-12
JP2827227B2 true JP2827227B2 (ja) 1998-11-25

Family

ID=17260335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63254108A Expired - Lifetime JP2827227B2 (ja) 1988-10-07 1988-10-07 文字認識方法

Country Status (1)

Country Link
JP (1) JP2827227B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1027950A1 (en) 1997-11-28 2000-08-16 Sangadensetsukogyo CO., Ltd. Working tool

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55103680A (en) * 1979-02-02 1980-08-08 Toshiba Corp Character recognition unit
JPH0646402B2 (ja) * 1985-12-26 1994-06-15 松下電器産業株式会社 図形処理装置

Also Published As

Publication number Publication date
JPH02100783A (ja) 1990-04-12

Similar Documents

Publication Publication Date Title
JP4607633B2 (ja) 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
US9805281B2 (en) Model-based dewarping method and apparatus
US5563403A (en) Method and apparatus for detection of a skew angle of a document image using a regression coefficient
JP4065460B2 (ja) 画像処理方法及び装置
US5410611A (en) Method for identifying word bounding boxes in text
US7016536B1 (en) Method and apparatus for automatic cleaning and enhancing of scanned documents
US6208744B1 (en) Document image processor and method for setting a document format conforming to a document image
US6327384B1 (en) Character recognition apparatus and method for recognizing characters
US5191612A (en) Character recognition system
JP3727974B2 (ja) 画像処理装置及び方法
JPH113430A (ja) 入力画像を基準画像に対応付ける方法、そのための装置、及びその方法を実現するプログラムを記憶した記憶媒体
JPH01253077A (ja) 文字列検出方法
US6771842B1 (en) Document image skew detection method
US6175664B1 (en) Optical character reader with tangent detection for detecting tilt of image data
JP2827227B2 (ja) 文字認識方法
JPH08317193A (ja) ディジタル化画像の縦横ラインを検知し修正する方法および装置
EP0457546A2 (en) Image processing method and apparatus
JP2000076378A (ja) 文字認識方法
US20080225340A1 (en) Image processing apparatus, image processing method, and computer program product
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP3566738B2 (ja) 網掛け領域処理方法および網掛け領域処理装置
EP0476852A2 (en) Image processing method and apparatus
JPH0795336B2 (ja) 文字認識方式
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JPH03217993A (ja) 文字サイズ認識装置