JP2612383B2 - 文字認識処理方式 - Google Patents

文字認識処理方式

Info

Publication number
JP2612383B2
JP2612383B2 JP3024369A JP2436991A JP2612383B2 JP 2612383 B2 JP2612383 B2 JP 2612383B2 JP 3024369 A JP3024369 A JP 3024369A JP 2436991 A JP2436991 A JP 2436991A JP 2612383 B2 JP2612383 B2 JP 2612383B2
Authority
JP
Japan
Prior art keywords
character
feature
feature extraction
data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3024369A
Other languages
English (en)
Other versions
JPH04264687A (ja
Inventor
仁司 吉尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP3024369A priority Critical patent/JP2612383B2/ja
Publication of JPH04264687A publication Critical patent/JPH04264687A/ja
Application granted granted Critical
Publication of JP2612383B2 publication Critical patent/JP2612383B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は,文字認識処理方式に関
し,特に,黒画素の密度に応じて特徴抽出観測サイズを
決定する文字認識処理方式に関する。
【0002】文字認識は,通常,2つの観測の段階での
照合によって行なわれる。即ち,文字の全体的な特徴抽
出のための大分類照合と,文字の詳細部分の特徴抽出の
ための詳細分類照合である。この2つを併用することに
より,文字認識率を向上しようとしている。
【0003】
【従来の技術】図4及び図5は,従来の文字認識処理に
ついて示す。あるイメージデータ(入力イメージ)が入
力されると,切り出し部1が,1文字分のイメージ(1
文字イメージ)データを切り出す。このイメージは,ビ
ットマップメモリ上に展開されている。このイメージ
は,例えば,図5に示す,大きな「A」の文字及び小さ
な「A」の文字の如きものである。この切り出したイメ
ージについて,特徴抽出部8が,その特徴データを抽出
する。
【0004】この抽出のために,特徴抽出部8は,図5
に示す如く,各文字領域を所定の大きさの単位領域に分
割する。この特徴抽出用の単位領域の大きさを,特徴抽
出観測サイズという。特徴抽出部8は,どの位置の単位
領域に黒画素が存在するかを調べることによって,当該
文字の特徴を抽出し,特徴データとする。
【0005】次に,この特徴データを用いて,まず,大
分類照合部3が,辞書6との照合を行ない,文字データ
を得る。次に,詳細分類照合部5が,特徴抽出部8から
の特徴データと大分類照合部3からの文字データとを用
いて,辞書7との照合を行ない,最終的な文字データを
得る。
【0006】
【発明が解決しようとする課題】前述の従来技術によれ
ば,図5にも示す如く,特徴抽出観測サイズは固定であ
る。また,図4に示す如く,特徴抽出部8は,大分類照
合部3及び詳細分類照合部5に共通であり,従って,用
いられる特徴データも共通である。このため,以下の問
題を生じていた。
【0007】特徴抽出観測サイズは,通常,詳細分類の
ための特徴を抽出し易いように設定される。このため,
詳細分類の照合では問題ないが,大分類の照合では,対
象であるイメージによっては問題があった。例えば,図
5において,上段の大きな「A」の文字については正し
く特徴を抽出できているので,大分類の照合においても
正しい文字データが得られる可能性が極めて高い。しか
し,下段の小さな「A」の文字については,入力イメー
ジの大きさの影響により,正しく特徴を抽出していると
は言い難い。
【0008】このように,従来は,特に大分類照合時
に,必要な特徴を抽出していないので認識率が低下して
しまうという問題があった。また,これとは逆に,大分
類照合時に,パターン全体にとっては不必要な細かい特
徴を抽出してしまい認識処理の速度が低下してしまうと
いう問題があった。
【0009】本発明は,入力イメージの大きさ等の字形
以外の外乱に影響されずに入力イメージの全体的な特徴
を適確に抽出できる文字認識処理方式を提供することを
目的とする。
【0010】
【課題を解決するための手段】図1は,本発明の原理構
成図であり,本発明によるデータ処理装置又は文字認識
装置を示している。この文字認識装置は,入力イメージ
から1文字分のイメージを切り出す切り出し部1と,切
り出されたイメージについての辞書6を用いた大分類照
合を行なう大分類照合部3と,切り出されたイメージに
ついての辞書7を用いた詳細分類照合を行なう詳細分類
照合部5とを備える。
【0011】また,この文字認識装置は,2つの照合部
3及び5の各々に対応して,切り出されたイメージに応
じた第1の特徴抽出観測サイズにより,切り出されたイ
メージの特徴データを抽出する大分類用特徴抽出部2
と,予め定められた所定の第2の特徴抽出観測サイズに
より,切り出されたイメージの特徴データを抽出する詳
細分類用特徴抽出部4とを備える。
【0012】
【作用】切り出し部1が,入力イメージから1文字分の
イメージを切り出す。この切り出したイメージについ
て,大分類用特徴抽出部2が,切り出したイメージにお
ける黒画素の密度を求め,これに応じた第1の特徴抽出
観測サイズを定め,このサイズを用いて特徴データを抽
出する。そして,大分類照合部3が,この特徴データと
辞書6とを照合することにより,文字データを得る。
【0013】以上によれば,2つの照合部3及び5の各
々に対応して,別個の特徴抽出部2及び4が設けられ,
各々の特徴抽出観測サイズも別々に定められる。特に,
大分類用特徴抽出部2は,自身が用いる当該サイズを,
切り出したイメージにおける黒画素の密度を求めたうえ
でこれに基づいて定める。これにより,大分類用特徴抽
出部2は,固定されたサイズでなく,特徴抽出の対象で
ある切り出したイメージに応じたサイズを用いて,特徴
抽出を行うことができる。従って,必要な特徴の抽出が
行なわれなかったり,必要以上の細かい特徴抽出が行な
われることがない。この結果,認識率の低下や処理速度
の低下を防止することができる。
【0014】
【実施例】図1において,文字認識装置は,cpu(中
央処理装置)とメモリとからなる。メモリは,プログラ
ム格納用,データ格納用及びイメージ伸張のためのビッ
トマップメモリとからなる。切り出し部1乃至詳細分類
照合部5は,プログラム格納用のメモリに格納された各
種のプログラムとcpuとからなる。
【0015】切り出し部1は,入力イメージから1文字
分のイメージを切り出す。入力イメージ及び切り出され
たイメージは,ビットマップメモリに展開される。切り
出されたイメージは,図2に示す如きものである。この
切り出したイメージは,ビットマップメモリ上に,黒画
素により文字「A」を表したものであり,図5と同様
に,大きな文字「A」と小さな文字「A」の2つを示し
ている。なお,実際は,ビットマップメモリ上において
黒画素を「1」,白画素を「0」としたデータを各ドッ
トに対応するビットに書込んだものであることはいうま
でもない。
【0016】2つの特徴抽出部2及び4は,このビット
マップメモリ上の1文字のイメージからその特徴データ
を抽出する。この特徴データは,データ格納用メモリに
格納される。2つの照合部3及び5は,対応する特徴抽
出部2及び4からの特徴データと対応する辞書6及び7
の内容とを照合して,文字データを得る。この文字デー
タは,例えばコードの形でデータ格納用メモリに格納さ
れる。なお,特に,詳細分類用特徴抽出部4は,切り出
されたイメージの他に,図1に示す如く,大分類照合部
3の抽出した文字データをも用いて,特徴データを形成
する。
【0017】大分類用特徴抽出部2は,切り出されたイ
メージについて,特徴抽出観測サイズを定める。このた
めに,切り出されたイメージの(ビットマップメモリ上
の)領域内における黒画素の密度を求める。
【0018】図2において,切り出されたイメージの領
域は,各文字に外接する実線で示される外枠で示され
る。文字「A」が大きい場合,当該領域も大きくなり,
ドット(画素)数も増え,文字「A」が小さい場合,領
域は小さくなり,画素数も少ない。この領域は,長方形
であり,縦のドット(ビット)数×横のドット数でその
大きさが定まる。この領域内が特徴抽出の対象となる。
【0019】密度は,この領域内の黒画素(文字を表示
している画素)の総数を,この領域内の画素の総数で割
ることにより求まる。
【0020】密度が小さい場合,前記サイズは大きくさ
れる。これにより,パターン全体からは不必要な細かい
特徴は除いて,パターン全体から大局的な特徴のみを抽
出することが可能となる。一方,密度が大きい場合,前
記サイズは小さくされる。これにより,必要な特徴を漏
れなく抽出することが可能となる。
【0021】図2において,2つの「A」の文字は,略
同一の線幅で描かれている。従って,上段の方が密度が
小さく,下段の方が密度が大きい。大分類用特徴抽出部
2は,求めた密度を用いて,例えばテーブルを参照する
ことにより,前記サイズを定める。上段の例では,この
サイズは,縦8画素×横8画素の大きさとされ,下段の
例では,このサイズは,縦4画素×横4画素の大きさと
される。テーブルには,密度に対応して予め定められた
サイズが格納されている。このテーブルは,データ格納
用メモリに設けられる。
【0022】図2において,上段の大きな文字「A」
は,8×8という粗いサイズで観測される。即ち,その
観測レベルは,低い(小さい)。一方,下段の小さい文
字「A」は,4×4という細かいサイズで観測される。
即ち,その観測レベルは,高い(大きい)。なお,下段
の文字「A」の観測結果については,比較のために拡大
して示したものであり,イメージの拡大を示したもので
はない。
【0023】観測は,例えば,8×8というサイズで定
まる領域内において,黒画素が所定割合以上又は以下で
あれば,各々,当該領域を全て黒画素又は白画素とする
ことにより行なわれる。この観測により抽出された特徴
データは,図2に示す如く,2つの文字「A」について
かなり近似した結果として得られる。これを図5と比較
すると判るように,入力イメージの形状構造等以外の特
徴による影響が排除され,必要な字形による特徴データ
が抽出されている。
【0024】大分類照合部3は,この特徴データを用い
て辞書6を参照し,特徴の一致する文字データを出力す
る。この文字データは,前述のサイズが8×8又は4×
4という比較的大きく設定されているため,その特徴が
大きく把握されているので,複数抽出される可能性があ
る。
【0025】詳細分類用特徴抽出部4は,切り出された
イメージについて,予め所定の値に定められた特徴抽出
観測サイズにより,特徴抽出を行なう。このサイズは,
固定されたサイズであり,入力イメージに依って変更さ
れることはなく,また,大分類用特徴抽出部2が用いる
観測サイズより小さくされる。例えば,図2に示す2つ
の文字「A」についても,同一の固定サイズとされ,縦
1画素×横1画素(最大の解像度)又は縦2画素×横2
画素と細かく設定される。観測の方法は,前述の場合と
同様である。
【0026】詳細分類用特徴抽出部4は,このようにし
て抽出した特徴データと,大分類照合部3からの文字デ
ータとを対応させて,これを特徴データとする。詳細分
類照合部5は,辞書7を参照して文字データを抽出す
る。この時,例えば,まず,文字データを用いて辞書を
参照し,この参照結果について細分類により抽出された
特徴データを用いて照合し,文字データを特定する。
【0027】図3は,大分類文字認識処理フローを示
す。ステップ1において,文字認識装置におけるビット
マップメモリ上への展開により,あるイメージデータ
(入力イメージデータ)が入力される。ステップ2にお
いて,切り出し部1が,入力イメージから1文字分のイ
メージを処理対象として切り出す。
【0028】大分類用特徴抽出部(以下,抽出部)2
が,ステップ3において,切り出されたイメージの領域
内のドット数を例えば計算により求め,ステップ4にお
いて,当該領域内の黒画素の数をカウントにより求め,
ステップ5において,黒画素数をドット数で割ることに
より黒画素密度を求める。この領域は,切り出されたイ
メージの領域全体でなくてもよく,少なくとも,文字に
外接する長(正)方形の領域であればよい。
【0029】ステップ6において,抽出部2が,黒画素
密度を用いてテーブルを参照し,これに応じた特徴抽出
観測サイズを決定する。ステップ7において,抽出部2
が,このサイズにより,切り出されたイメージについて
の特徴データの抽出を行なう。
【0030】ステップ8において,大分類照合部3が,
得られた特徴データと辞書6とを照合して文字データを
得る大分類認識処理を行なう。ステップ9において,文
字データが詳細分類用特徴抽出部4に送られ,以後,詳
細認識処理が行なわれる。
【0031】
【発明の効果】以上説明したように,本発明によれば,
文字認識処理において,大分類用特徴抽出部が切り出し
たイメージ中の黒画素の密度に応じて特徴観測サイズを
定めてこのサイズを用いて特徴抽出を行うことにより,
必要以上の細かな特徴抽出を行うことなく必要な特徴デ
ータを抽出することができるので,入力イメージの大き
さ等の影響を受けずに入力イメージの全体的特徴を適確
に抽出でき,認識率の低下や処理速度の低下を防止する
ことができる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】大分類文字認識説明図である。
【図3】大分類文字認識処理フローである。
【図4】従来技術説明図である。
【図5】従来技術説明図である。
【符号の説明】
1 切り出し部 2 大分類用特徴抽出部 3 大分類照合部 4 詳細分類用特徴抽出部 5 詳細分類照合部 6 辞書 7 辞書 8 特徴抽出部

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力イメージから1文字分のイメージを
    切り出す切り出し部(1) と,前記切り出されたイメージ
    についての辞書(6) を用いた大分類照合を行なう大分類
    照合部(3) と,前記切り出されたイメージについての辞
    書(7) を用いた詳細分類照合を行なう詳細分類照合部
    (5) とを備えた文字認識装置において,前記切り出され
    たイメージに応じた第1の特徴抽出観測サイズにより前
    記切り出されたイメージの特徴データを抽出する大分類
    用特徴抽出部(2) と,予め定められた所定の第2の特徴
    抽出観測サイズにより前記切り出されたイメージの特徴
    データを抽出する詳細分類用特徴抽出部(4) とを設け,
    前記大分類用特徴抽出部(2) が,前記切り出されたイメ
    ージにおける黒画素の密度を求め,これに応じた前記第
    1の特徴抽出観測サイズを定め,これを用いて前記特徴
    データを抽出し,前記大分類照合部(3) が,この特徴デ
    ータと前記辞書(6) とを照合することにより,文字デー
    タを得ることを特徴とする文字認識処理方式。
  2. 【請求項2】 前記詳細分類用特徴抽出部(4) が,前記
    切り出されたイメージと,前記大分類照合部(3) の抽出
    した文字データとから前記特徴データを形成することを
    特徴とする請求項1に記載の文字認識処理方式。
JP3024369A 1991-02-19 1991-02-19 文字認識処理方式 Expired - Lifetime JP2612383B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3024369A JP2612383B2 (ja) 1991-02-19 1991-02-19 文字認識処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3024369A JP2612383B2 (ja) 1991-02-19 1991-02-19 文字認識処理方式

Publications (2)

Publication Number Publication Date
JPH04264687A JPH04264687A (ja) 1992-09-21
JP2612383B2 true JP2612383B2 (ja) 1997-05-21

Family

ID=12136279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3024369A Expired - Lifetime JP2612383B2 (ja) 1991-02-19 1991-02-19 文字認識処理方式

Country Status (1)

Country Link
JP (1) JP2612383B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7110596B2 (en) 2002-04-25 2006-09-19 Microsoft Corporation System and method facilitating document image compression utilizing a mask

Also Published As

Publication number Publication date
JPH04264687A (ja) 1992-09-21

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
US5539841A (en) Method for comparing image sections to determine similarity therebetween
JP2930460B2 (ja) 手書き及びマシン印字テキストの区分化方法
JP3086702B2 (ja) テキスト又は線図形を識別する方法及びデジタル処理システム
US5570435A (en) Segmentation of text styles
US5212739A (en) Noise tolerant optical character recognition system
JP2940936B2 (ja) 表領域識別方法
US6327384B1 (en) Character recognition apparatus and method for recognizing characters
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
JPH05242292A (ja) 分離方法
US6389166B1 (en) On-line handwritten Chinese character recognition apparatus
US5502777A (en) Method and apparatus for recognizing table and figure having many lateral and longitudinal lines
US5561720A (en) Method for extracting individual characters from raster images of a read-in handwritten or typed character sequence having a free pitch
JP2612383B2 (ja) 文字認識処理方式
JP2788506B2 (ja) 文字認識装置
JP3548234B2 (ja) 文字認識方法及び装置
JPH0728935A (ja) 文書画像処理装置
JP3140079B2 (ja) 罫線認識方法及び表処理方法
JP3121091B2 (ja) 文字認識に於ける文字画像の正規化方法
JP2755299B2 (ja) 画像処理方法
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JP2000187704A (ja) 文字認識装置及びその方法及び記憶媒体
JPH0728934A (ja) 文書画像処理装置
JPH05108882A (ja) 文字認識装置
JPH06215181A (ja) 文字・文字列切り出し方法および文字認識装置