JP2650903B2 - 文字認識装置における標準パターン記憶方法及び装置 - Google Patents

文字認識装置における標準パターン記憶方法及び装置

Info

Publication number
JP2650903B2
JP2650903B2 JP62040238A JP4023887A JP2650903B2 JP 2650903 B2 JP2650903 B2 JP 2650903B2 JP 62040238 A JP62040238 A JP 62040238A JP 4023887 A JP4023887 A JP 4023887A JP 2650903 B2 JP2650903 B2 JP 2650903B2
Authority
JP
Japan
Prior art keywords
pattern
standard pattern
character recognition
character
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62040238A
Other languages
English (en)
Other versions
JPS63208184A (ja
Inventor
康明 中野
浩通 藤澤
歳弘 花野井
彰三 門田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP62040238A priority Critical patent/JP2650903B2/ja
Publication of JPS63208184A publication Critical patent/JPS63208184A/ja
Application granted granted Critical
Publication of JP2650903B2 publication Critical patent/JP2650903B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文字認識方式に係り、特に漢字のように文字
カテゴリーの種類が多いばあいに標準パターンのメモリ
ー容量を減少する目的に好適な文字認識方式に関する。
〔従来の技術〕
従来の文字認識方式の中では、方向性パターン整合法
と呼ばれるものが手書き漢字など多様な変形を有する文
字パターンに対して有望であるとされている。方向性パ
ターン整合法の内容は、例えば安田道夫,藤澤浩道両名
による電子通信学会論文誌、第62-D巻第3号掲載論文
「文字認識のための相関法の一改良」(昭和54年3月)
に記載されているが、文字パターンから垂直、−45°,
水平、+45°の4方向の直線成分を強調した4枚の二次
元パターンを生成し、これら4枚の二次元パターンを用
いたパターン整合によつて未知文字パターンを認識する
ものである。しかし、本手法では標準パターン1個当た
り複数枚の二次元パターンが必要であり、各パターンは
通常の二値パターンではなく多値パターンなので、漢字
のように文字カテゴリーの種類が多数ある場合には、標
準パターンのメモリー容量が増大して装置の高価格化を
招き、また、メモリーアクセス回数が増加するので認識
速度が低下するなどの問題が生じていた。
この標準パターンのメモリー容量増大の問題に対処す
るため、例えば特開昭50-114137において、標準パター
ンまたは入力パターンを圧縮して記憶し、相関演算の際
に原パターンに復元して演算することにより、メモリー
削減を図る方法が提案されている。しかし、この方法は
白黒の二値パターンを前提としているため、方向性パタ
ーン整合法のように多値パターンを用いる場合には適用
できず、方向性パターン整合法の標準パターンメモリー
の圧縮法として有効な方法は知られていなかつた。
〔本発明が解決しようとする問題点〕
本発明の目的は、方向性パターン整合法のように多値
パターンを用いる文字認識方式において、有効に標準パ
ターンメモリーを圧縮することができる標準パターン記
憶方法を提供することである。
〔問題を解決するための手段〕
本発明では上記の問題点を解決するため、方向性パタ
ーン整合法における方向性強調パターンの特性に着目
し、新規なパターン圧縮手法を提案している。すなわち
方向性パターン整合法では、文字パターンから垂直、−
45°、水平、+45°の4方向の直線成分を強調した4枚
の二次元パターンを生成している。以後、本発明ではこ
れらを方向面パターンと呼ぶ。例えば、垂直方向面パタ
ーンでは垂直方向線分が強調されるので、文字パターン
の中で垂直線分の存在する画素では大きな値が連続し、
それ以外ではほとんど0に近い値となる。従つて、各方
向面パターンの中で強調方向にパターンをスキヤンすれ
ば、同一の値が並ぶ割合が大きい。
本発明では、この方向面パターンの特性を利用し、各
方向面パターンを特徴強調方向と一致する方向にスキヤ
ンして、前の画素と同一の値を有する画素では特徴量の
記憶を省略するものである。別に、各画素ごとに特徴量
の記憶を省略の有無を指示する情報を格納したメモリー
(省略マツプ)を設け、この省略マツプを参照すること
により、原パターン情報を復原できる。
〔作用〕
文字、特に漢字は垂直、−45°、水平、+45°の4方
向の直線成分から主として構成されるので、各方向面パ
ターンの中では強調方向に同一の値が並ぶ比率が高く、
大半の画素が省略され、大幅にメモリー容量が削減され
る。一方、新たに省略マツプを追加する必要があるが、
省略マツプのメモリー容量は1画素当たり1ビツトでよ
いので、方向面パターンの必要容量を1画素当たり4ビ
ツトとすれば、追加量は1/4で済み、全体としてはメモ
リー量が削減される。
実施例を説明する前に、本発明の一例によるメモリー
削減の模様を図面により説明する。
第1図は、本発明の標準パターン記憶法による特徴の
省略の模様を示す説明図である。第1図で12は、一つの
方向面パターン11(この場合は水平面)をラスタスキヤ
ンして一次元的に並べたものであり、枠は画素を表し、
枠の中の数値は16進数で特徴を表したものである。すな
わち第1図では、特徴は1画素当たり4ビツトで表現し
ている。また、第1図では、方向面を5×5としている
ので全体で25画素である。
一次元的に表した方向面パターン12をスキヤンし、各
画素の特徴の値が一つ前の画素の特徴の値に等しいと
き、省略マツプ13の中の対応する位置のビツトに‘0'を
書き込む。等しくなるときはこのビツトに値‘1'を書き
込む。ただし、一番最初の画素では一つ前の画素の値と
して‘0'(16進)を用いる。
方向面パターンのうち、対応する省略マツプのビツト
が‘0'である特徴を省略することにより、圧縮パターン
14を得る。標準パターンとしては、圧縮パターン14およ
び省略マツプ13を記憶する。この圧縮パターン14および
省略マツプ13を用いて、原パターン12を復原できること
は明らかである。
第1図の例では、圧縮前は5×5×4ビツト=100ビ
ツトのメモリーを要するが、圧縮後は4ビツト×10=40
ビツトとなり、省略マツプ25ビツトと合計して65ビツト
となり、全体としてメモリーが削減されることが分か
る。
第2図は、本発明の標準パターン記憶法による特徴の
並べ替えの模様を示す説明図である。第2図で21,22,2
3,24は、それぞれ垂直、−45°、水平、+45°の4種類
の方向面パターンを表す。
第2図に示すように、垂直の方向面パターン21は90°
回転して、パターン25とする。−45°方向面パターン22
は、各列ごとに順次シフト量を増すように垂直方向にシ
フトして、パターン26とする。シフトによつて、5×5
の画像エリアからはみ出す部分は循環シフトを行つて、
5×5に収め、パターン27とする。ここで、パターン26
は説明の便宜上仮に設けたものであり、実際には22から
直接27に並べ替えてよい。水平の方向面パターン23はそ
のままとする。+45°方向面パターン24は+45°と同様
に並べ替えるが、シフト量が列ごとに減少するようにし
て、パターン28を経てパターン29を並べ替えする。
このように、並べ替えた4種類の方向面パターンにつ
いて、第1図に示したメモリー圧縮を行えば、パターン
のスキヤン方向と、直線成分の強調方向が一致するの
で、効率のよい圧縮が可能となる。
〔実施例〕
以下、実施例について図面を用いて詳細に説明する。
第3図は、本発明による一実施例を適用した装置の構
成を示すブロツク図である。装置の各部はバス31に接続
され、全体の動作は制御部32により制御される。本シス
テムは文字の認識と学習(辞書の作成)とを行うもので
あるが、以下の説明では主として学習について説明す
る。
全体の処理を操作するためオペレータはコンソール33
を用いて制御部32と対話を行つているが、その内容は公
知の処理であるので、詳細説明は省略する。
学習モードでは、学習用の文字が記載された文書34が
システムに与えられる。文書34上の情報(文書画像)は
光電変換装置35により走査され、デイジタル化され、バ
ス31を介してメモリ36の中に格納される。
上記の文書画像は文字認識プロセツサ37に与えられ
る。37では公知の手法により文書画像から文字パターン
を切り出し、各文字パターンについて特徴抽出を行つて
4種類の方向面パターンを作成する。制御部32はこれら
の方向面パターンを標準パターンとしてフアイル38に格
納する。格納に先立つて、制御部32は各標準パターンに
対応する切り出し文字パターンを表示し、オペレータに
より文字コードを付与させた後、各標準パターンに対す
る格納アドレスを決定している。
認識対象となる文字に対する標準パターンが全てフア
イル38に格納された後、制御部32では各標準パターンに
圧縮処理を施して、圧縮標準パターンをフアイル39に格
納する。
第4図は本実施例における標準パターン圧縮処理の流
れをPAD(Problem Analysis Diagram)図で表したもの
である。
原パターンは、第2図のように並べ替えを行つたもの
とし、第1図のパターン12のように1次元的に格納され
ているとする。並べ替え処理については後述する。パタ
ーン12をM行M列のパターン Pi(n),n=1,2,……,N とする。ここでN=M×Mは、全画素数である。Piは多
値の特徴である。iは標準パターンの番号を示す。第4
図の処理は、第1図のパターン12を圧縮パターン13と省
略マツプ14に変換する圧縮処理である。ここでは、4種
類の方向性パターンの一つについてのみ説明するが、ど
の方向でも同様である。
第4図で401は標準パターンi(i=1〜I)につい
て402〜409の処理を繰り返すループ制御である。ここ
で、Iは標準パターンの総数である。
402は4種類の方向について403〜409の処理を繰り返
すループ制御であり、kは方向の番号を示す。以下の40
3〜408の処理の説明では、一つの方向についてのみ述べ
る。
403は、方向性パターンPi(n)(n=1〜N)をフ
アイル38から読みこむ部分である。
404は、値Qの初期値を0に、また値cの初期値を0
に設定する部分である。ここで、Qは前の画素の特徴の
値を、cは出力特徴のカウンタを表す。
405は画素n(n=1〜N)について406〜408の処理
を繰り返すループである。
406は、画素nの特徴Pi(n)を前の画素の特徴Qと
比較する部分で、この両者が等しければ、407でフラグF
i(n)の値を0とする。Fi(n)(n=1〜N)は特
徴が省略されたか否かを示すフラグエリアである。Pi
(n)≠Qである場合は、408でカウンタcを1だけ増
し、出力バツフアQi(c)にPi(n)を代入する。また
前の画素の特徴の値QをPi(n)とする。またフラグFi
(n)の値を1とする。式で書けば c :=c+1 Qi(c):=Pi(n) Q :=Pi(n) Fi(n):=1 である。
以上の説明から理解されるように、Fi(n)が0の場
合は特徴Pi(n)は省略されており、その値は前の画素
と等しいこと、またFi(n)が1の場合は特徴Pi(n)
は省略されていないことが分かる。
上述したように、405のループが終了したとき、バツ
フアエリアQi(c)(c=1〜C)及びFi(n)(n=
1〜N)には、圧縮された特徴パターン及びフラグパタ
ーンが入つている。ただし、Cはループ終了時のcの値
であり、圧縮後の特徴数を示す。
409は、第k方向の特徴数C、圧縮特徴パターンQi
(c)(c=1〜C)及びフラグパターンFi(n)(n
=1〜N)をフアイル39に出力する部分である。なお、
圧縮特徴Qiは1特徴4ビツトで、フラグFiは1特徴1ビ
ツトで表される。
以上のようにして、圧縮された標準パターンがフアイ
ル39に格納されているが、以上の圧縮処理は例えば工場
などであらかじめ行つておくものとし、圧縮終了後はフ
アイル38は取り外してよい。フアイル38,39としては例
えばフロツピーデイスクなどを用いることができる。
認識モードでは、フアイル39から圧縮された標準パタ
ーンを読みだして、メモリ36に格納する。認識に際し
て、未知パターンと比較すべき標準パターンを原パター
ンに復元する必要があるが、そのための復元処理の流れ
を第5図に示す。
第5図は本実施例における圧縮パターンの復元処理の
流れをPAD図で表したものである。第4図と同様、4種
類の方向性パターンの一つについてのみ説明する。
第5図で、501は復元すべき標準パターンの番号iを
外部の制御ルーチンから受け取る部分である。
502は4種類の方向について503〜508の処理を繰り返
すループ制御であり、kは方向の番号を示す。以下の50
3〜508の処理の説明では、一つの方向についてのみ述べ
る。
503は、第k方向の特徴数C、圧縮特徴パターンQi
(c)(c=1〜C)及びフラグパターンFi(n)(n
=1〜N)をメモリ36から取り出し、文字認識プロセツ
サ37の内部の作業用メモリに複写する部分である。
504は、値Qの初期値を0に、また値cの初期値を0
に設定する部分である。ここで、Qは前の画素の特徴の
値を、cは圧縮特徴のカウンタを表す。
505は画素n(n=1〜N)について506〜508の処理
を繰り返すループである。
506は、画素nの特徴に対応するフラグFi(n)が0
か1かを調べる部分で、このフラグの値が0ならば何も
しない。
Fi(n)が1の場合は、507でカウンタcを1だけ増
し、また前の画素の特徴の値QをQi(c)とする。
508では、画素nの特徴Qi(c)にQを代入する。
以上の説明から理解されるように、フラグFi(n)が
0の場合は特徴Pi(n)は省略されているので、その値
は前の画素の値を採用し、またFi(n)が1の場合は元
来の値Qi(c)を使用することになつていることが分か
る。
次に、実施例の中で説明を省略した方向性パターンの
並べ替え処理について説明する。
第6図,第7図は、それぞれ垂直方向及び−45°方向
の方向性パターンの並べ替え処理の処理の流れをPAD図
で示したものである。ただし、前提として特徴抽出され
た方向性パターンは、第2図21〜24のように横方向にス
キヤンされたラスターで表現されているとする。
第6図について説明する。並べ替えの前後の垂直方向
性パターン(M行M列のパターン、第2図の21)を一次
元的に Ri(n),n=1,2,……,N Pi(n),n=1,2,……,N で表す(N=M×M)。iは標準パターンの番号である
が、ここでは一個の標準パターンについてのみ説明す
る。601は画素n(n=1〜N)について602〜603の処
理を繰り返すループ制御である。602では、画素番号n
から並べ替えの後の画素番号mを次の式によつて計算す
るものである。
y:=〔(n−1)/M〕+1 x:=n−M・(y−1) m:=M・(x−1)+y ここで、x,yは行及び列の番号であり、〔 〕は小数
点以下を切り捨てる演算(いわゆるガウス記号)を表
す。603は、画素nの特徴Ri(n)を並べ替えてPi
(n)に格納する処理である。
第7図について説明する。並べ替えの前後の−45°方
向性パターン(M行M列のパターン、第2図の22)を一
次元的に Ri(n),n=1,2,……,N Pi(n),n=1,2,……,N で表す(N=M×M)。iは標準パターンの番号である
が、ここでは一個の標準パターンについてのみ説明す
る。701は画素n(n=1〜N)について702〜703の処
理を繰り返すループ制御である。702では、画素番号n
から並べ替えの後の画素番号mを次の式によつて計算す
るものである。
y :=〔(n−1)/M〕+1 x :=n−M・(y−1) x′:=mod(y+x−2,M)+1 m :=M・(y−1)+x′ ここで、mod(A,B)はAをBで除した剰余(いわゆる
法演算)を表す。x,yは並べ替える前の行・列の番号で
ある。今、mod演算を無視すれば、x′は第2図26のよ
うに、第i列を縦方向にシフトしたときの行番号を表
す。modは第2図27のように、循環シフトすることを表
す。703は、画素nの特徴Ri(n)を並べ替えてPi
(n)に格納する処理である。
以上、垂直及び−45°方向について方向性パターンの
並べ替えについて説明したが、+45°方向は−45°方向
と同様であり、水平方向は並べ替える必要はない。
以上本発明の一実施例について説明したが、発明の本
質に影響を与えることなく各種の変更を加えることが可
能なことは言うまでもない。例えば、実施例では特徴パ
ターンは横方向にスキヤンするものとしたが、縦方向に
スキヤンした場合も同様にできる。
また、実施例では特徴抽出後に方向性パターンの並べ
替えを行うとしたが、並べ替え処理を特徴抽出の中に含
めて同時に行うようにしてもよい。
また、実施例では垂直方向性パターンの並べ替えは90
°の回転で実現し、−45°及び+45°の方向性パターン
の並べ替えは45°のシフトで実現したが、シフトの代わ
りに座標変換を用いてもよい。また、−45°及び+45°
の方向性パターンについても90°の回転で代用しても、
漢字に対しては実用上差し支えない結果が得られる。
また、実施例では一個の特徴について同じ値が連続す
る場合に省略を行つているが、複数個(例えば2個)の
特徴の組について同一のパターンが連続する場合に省略
するようにしてもよい。この場合には、同一のパターン
の出現確率が減るので省略可能な特徴数は減少するが、
フラグは複数の特徴について1ビツトでよいので、総合
的には有利となる場合もある。
また、以上の説明では主として文字パターンを対象と
したが、文字以外の二次元パターンにも広く適用可能で
ある。
〔発明の効果〕
実施例で述べた手法を、手書き漢字(数字,ローマ
字,平仮名,片仮名,記号を含む)3068文字について作
成した辞書に適用した。この辞書では、4種類の方向性
パターンは16×16画素の分解能を有し、1画素は4ビツ
トの深さを有する。従つて、圧縮前は 16×16×4方向×3068パターン =3,141,632特徴 (12,566,528ビツト) のメモリ容量を有する。上記実施例の手法により、省略
可能な特徴は1,939,564個、圧縮後の特徴は1,202,068個
となつた。このとき、フラグパターン用に3,141,632ビ
ツトが必要となるので、メモリ圧縮率は となり有効性が実証された。さらに分解能を上げて、た
とえば方向性パターンを32×32画素で表現すれば、圧縮
効率はさらによくなる(圧縮率が小さくなる)。
以上の説明から理解されるように、本発明によればパ
ターン認識用辞書のメモリ容量を有効に圧縮できるの
で、装置を低価格化することができ、またメモリのアク
セスが減少するので、認識速度が向上する。
【図面の簡単な説明】
第1図は本発明による特徴の圧縮の模様を示す説明図、
第2図は本発明による特徴の並べ替えの模様を示す説明
図、第3図は本発明の一実施例の構成を示すブロツク
図、第4,5,6,7図は第3図の装置における処理の流れを
示す図である。 11……特徴パターン、12……一次元化した特徴パター
ン、13……フラグパターン、14……圧縮後の特徴パター
ン、21〜24……特徴パターン、25〜29……並べ替え後の
特徴パターン、31……バス、32……制御部、33……コン
ソール、34……文書、35……光電変換装置、36……メモ
リ、37……文字認識プロセツサ、38,39……フアイル。

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】文書を文書画像として入力し、該入力した
    文書画像から文字パターンを切り出し、該文字パターン
    から相互に異なる方向の直線成分を強調した複数の2次
    元多値パターンを生成し、該複数の2次元多値パターン
    を上記文字パターンを同定するための標準パターンとし
    て圧縮して記憶する文字認識装置における標準パターン
    記憶方法において、 上記標準パターンを上記直線成分方向に沿って1次元化
    し、それにより得られた1次元パターンについて圧縮し
    て記憶することを特徴とする文字認識装置における標準
    パターン記憶方法。
  2. 【請求項2】特許請求の範囲第1項記載の文字認識装置
    における標準パターン記憶方法において、 上記標準パターンは、垂直、−45°、水平、+45°の4
    方向の直線成分を強調した2次元多値パターンからなる
    ことを特徴とする文字認識装置における標準パターン記
    憶方法。
  3. 【請求項3】特許請求の範囲第1項記載の文字認識装置
    における標準パターン記憶方法において、 上記標準パターンについて、隣接画素との一致・不一致
    を記憶したマップと隣接画素と不一致である画素の値を
    記憶した圧縮パターンとを生成し、記憶することを特徴
    とする文字認識装置における標準パターン記憶方法。
  4. 【請求項4】文書を画像として入力する画像入力装置
    と、上記画像入力装置から入力した文書画像から文字パ
    ターンを切り出し、相互に異なる方向の直線成分を強調
    した複数の2次元多値パターンを生成する文字認識プロ
    セッサを有し、 上記文字認識プロセッサにより生成された上記複数の2
    次元多値パターンを文字パターンを同定するための標準
    パターンとして上記直線成分方向に沿って1次元化し、
    それにより得られた1次元パターンについて圧縮して記
    憶する記憶ファイルを有することを特徴とする文字認識
    装置における標準パターン記憶装置。
JP62040238A 1987-02-25 1987-02-25 文字認識装置における標準パターン記憶方法及び装置 Expired - Lifetime JP2650903B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62040238A JP2650903B2 (ja) 1987-02-25 1987-02-25 文字認識装置における標準パターン記憶方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62040238A JP2650903B2 (ja) 1987-02-25 1987-02-25 文字認識装置における標準パターン記憶方法及び装置

Publications (2)

Publication Number Publication Date
JPS63208184A JPS63208184A (ja) 1988-08-29
JP2650903B2 true JP2650903B2 (ja) 1997-09-10

Family

ID=12575138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62040238A Expired - Lifetime JP2650903B2 (ja) 1987-02-25 1987-02-25 文字認識装置における標準パターン記憶方法及び装置

Country Status (1)

Country Link
JP (1) JP2650903B2 (ja)

Also Published As

Publication number Publication date
JPS63208184A (ja) 1988-08-29

Similar Documents

Publication Publication Date Title
US5129014A (en) Image registration
Yu et al. A generic system for form dropout
US4653107A (en) On-line recognition method and apparatus for a handwritten pattern
JP2940496B2 (ja) パタンマッチング符号化装置及び方法
JP3086702B2 (ja) テキスト又は線図形を識別する方法及びデジタル処理システム
JPH03119486A (ja) 記入済書式に含まれている情報を記憶または伝送のために圧縮する方法
JP2670273B2 (ja) 画像処理装置
JPH0424781A (ja) 文書処理装置
JP2650903B2 (ja) 文字認識装置における標準パターン記憶方法及び装置
US5307424A (en) Character recognition system
JPH0519194B2 (ja)
EP1010128B1 (en) Method for performing character recognition on a pixel matrix
Jeng Optical Chinese character recognition using accumulated stroke features
Zeki et al. New primitives to reduce the effect of noise for handwritten features extraction
CN116580129B (zh) 基于距离变换的书法字骨架改进方法、装置及存储介质
Agui et al. Method of extracting car number plates by image processing
CN111797843B (zh) 一种激光标刻汉字轮廓的提取方法、系统、存储介质及设备
JPH09120430A (ja) 画像処理装置
Deshpande et al. Handwritten devnagari character recognition using connected segments and minimum edit distance
JPH022189B2 (ja)
JP2561521B2 (ja) スポークレジスタ生成回路
Ablameyko et al. Hierarchical vector representation of document images
JP2875285B2 (ja) 画像正規化方法
JP2002032713A (ja) 文字認識処理方法
Lati Rapid manipulation of images compressed by the ccitt group iii 1-d coding scheme