JPH04142689A

JPH04142689A - 文字認識装置

Info

Publication number: JPH04142689A
Application number: JP2266060A
Authority: JP
Inventors: Hiromi Ishizaki; 寛美石崎
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1990-10-03
Filing date: 1990-10-03
Publication date: 1992-05-15

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、辞書マツチングの処理を高速化した文字認識
装置に関する。

〔従来技術〕

文字認識の認識手法の一つとして、多層方向ヒストグラ
ム法がある。この方法は、文字パターンの輪郭画素に方
向コードを付加し、文字パターン枠の各辺から対向辺に
向かって枠内を走査して白（背景）の次に出現する方向
コードを検出し、走査線上で最初に検出した場合は第１
層、２番目に検出した場合は第２層、というように検出
方向コードを層別する。そして、文字パターン枠内の分
割領域毎に、ある層までの層別の各方向コードのヒスト
グラムを求め、それぞれのヒストグラム値を成分とする
ベクトルを文字パターンの特徴ベクトルとして利用する
ものである。

文字認識を行う場合、このような特徴ベクトルを入力文
字パターンから抽出し、辞書の特徴ベクトルとのマツチ
ングを行うことによって入力文字を認識する。

このような多層方向ヒストグラム法は、手書き漢字のよ
うな変形の大きい文字に対して高い認識率を得ることが
できるものの、その反面特徴ベクトルの次元数が多いと
いう欠点がある。例えば、方向コードとして８種類のコ
ードを付加し、文字パターン枠内を４×４の領域に縦横
に分割し、第２層までの方向コードを抽出した場合、特
徴ベクトルの次元数は２５６　（＝４ｘ４ｘ２ｘ８）と
なる。

このように特徴ベクトルの次元数が多いと、辞書が大容
量になり、また辞書とのマツチング演算量が増加してマ
ツチング時間が長くなるという問題がある。

そこで、本出願人は、２５６次元の特徴ベクトルを非線
形量子化によって６４次元（６４バイト）に特徴ベクト
ルを圧縮することにより、辞書容量を削減した文字認識
装置を提案した（特開昭６４−７１８４号公報）。

〔発明が解決しようとする課題〕

第３図は、１バイトの圧縮データの構成を示し、上位か
らの４ビツト、３ビツト、１ビツトはそれぞれ量子化レ
ベル数を表している。

第４図は、上記１バイトの圧縮データで構成された辞書
と抽出された特徴量とのマツチング距離を演算する従来
の辞書マツチングの構成図である。

また、第５図は、従来の辞書からの読みだし方法を示す
図である。

すなわち、辞書の１文字目を構成する６４バイトのデー
タと６４バイトの特徴量とをそれぞれ図示しないテーブ
ルを参照することによって圧縮前のデータに展開しなが
らマツチング距離を演算し、その距離を累積することに
よって、１文字の距離を算出する。この距離が所定の閾
値内のものについて、距離値の小さい順にｎ個の文字を
認識候補文字として出力する。そして、所定の閾値を超
える文字については、距離演算を中止する。

しかしながら、このような従来の辞書マツチングの方法
によれば、類似していない辞書の文字をアクセスすると
き、重みの小さいデータを読みだしているために多くの
データを読みださなければならず、辞書メモリに対する
アクセス回数が多くなり、マツチング時間が長くなると
いう問題があった。

本発明の目的は、重みの大きいデータを先に読みだすこ
とにより辞書マツチングの処理を高速に行う文字認識装
置を提供することにある。

〔課題を解決するための手段］前記目的を達成するために、本発明では、特徴ベクトル
を圧縮した辞書を有する文字認識装置において、該辞書
の各文字領域を、重みの大きい圧縮データ領域と重みの
小さい圧縮データ領域によって構成し、入力文字の特徴
ベクトルと前記辞書の特徴ベクトルとのマツチング距離
を算出するときに、前記辞書の重みの大きい圧縮データ
を先に読みだすことを特徴としている。

〔作　用〕

本発明によれば、重みの大きな圧縮データから距離演算
を行っているので、類似していない辞書の文字との距離
演算では、従来の方法に比べて速く所定の閾値を超える
ため、演算を中止することができ、従って辞書マツチン
グ時間を従来のものに比べて短縮できる。

［実施例］以下、本発明の一実施例を図面を用いて具体的に説明す
る。

第１図は、本発明の一実施例に係る文字認識装置の具体
的な構成を示す図である。図において、１は特徴量が格
納されている６４バイトの特徴量レジスタ、２は該特徴
量レジスタ１のアドレスが保持される特徴量アドレスレ
ジスタ、３は辞書メモリ、４は辞書メモリ３のアドレス
が保持される辞書アドレスレジスタ、５は特徴量レジス
タ１から読みだされたデータが保持されるレジスタ、６
は辞書メモリから読みだされたデータが保持されるレジ
スタ、７．８はそれぞれレジスタ５．６の上位４ビツト
と下位４ビツトとを選択する選択回路、９１．９２．９
３は圧縮前のデータを生成するためのテーブルメモリ、
１０．１１はテーブルメモリ９１．９２．９３から読み
だされたデータがセットされるレジスタ、１２はレジス
タ１０．１１のデータの差を求める減算器、１３はその
差を累積する累積器である。

第２図は、本発明の辞書メモリの構成を示し、従来の辞
書メモリの構成と相違する点は、重みの大きい（すなわ
ち、情報量が多い）４ビツトを上位と下位に配置するこ
とによって１バイトを構成し、このようなバイト構成の
データを３２バイト分（１文字目のデータの半分）、辞
書メモリの低位のアドレスから記憶する。そして、次の
アドレスから、］文字目の残りのデータ、すなわち重み
の小さいビットのデータが１バイトを構成して３２バイ
ト分記憶される。以下、同様にして２文字目の重みの大
きいデータ（２文字目のデータの半分）、次いで重みの
小さいデータ（２文字目のブタの半分）が記憶され、３
文字目以降も同様である。

従って、辞書メモリの読みたしは、１文字の重みの大き
い３２バイトのデータを読みだし、続いて重みの小さい
３２バイトのデータを読みだすことになる。

以下に、本発明の動作を図面を参照しつつ詳細に説明す
る。

特徴量レジスタ１がらｍ番目の特徴量を読みだし、レジ
スタ５に格納する。辞書メモリ３がらｎ文字目のｍ番目
のデータを読みだして、レジスタ６に格納する。レジス
タ５の上位４ビツトが選択回路７によって選択され、該
上位４ビツトをアドレスとしてテーブルメモリ９１を参
照する。該テブルメモリ９１から読みだされた圧縮前の
データはレジスタ１０に格納される。同様に、レジスタ
６の上位４ビツトが選択回路８によって選択され、メモ
リアドレスとなってテーブルメモリ９１を参照する。該
テーブルメモリ９１がら読みだされたデータはレジスタ
１１に格納される。そして、レジスタ１０．１１の値の
差が減算器１２によって求められ、その結果が累積器１
３に加算される。

次いで、レジスタ５．６の下位４ビツトに対しても前述
したと同様に処理する。

重みの大きいデータが全て読みだされると、続いて、重
みの小さい３２バイトに読みだし処理が移り、前述した
と同様にして処理される。ただし、選択回路７．８はレ
ジスタ５．６の上位４ビツトの内の３ビツトをまず選択
し、該３ビツトでテーブルメモリ９２を参照して、距離
を算出し、続いて上位４ビツトの内の１ビツトを選択し
、該１ビツトでテーブルメモリ９３を参照して、距離を
算出する。下位４ビツトについても同様である。

以上の処理を１テンプレート（辞書の１文字分の特徴量
）に対して行い、辞書の対象文字との距離を累積器１３
に累積し、所定の閾値以下のときその距離を登録する。

従って、辞書の文字と類似していないときは、辞書メモ
リの重みの大きなデータから距離演算を行っているので
、その累積値が所定の閾値を超え、その文字領域へのア
クセスを中止することができる。この結果、従来のアク
セス方法に比べてそのアクセス回数が削減される。

そして、次の文字についても同様の距離演算を実行する
。この動作と平行して距離が所定の閾値以下であって、
距離の小さい順番に候補文字を並べ替える図示しない手
段が機能し、第ｎ候補までを演算し、その第ｎ候補目の
距離を距離演算の打ち切りとして使用する。

［発明の効果］以上、説明したように、本発明によれば、辞書メモリの
重みの大きなデータから距離演算を行っているので、類
似していない辞書の文字との距離演算では所定の閾値を
超えるため、演算を中止することができ、従って辞書マ
ツチング時間を従来のものに比べて短縮することができ
る。

【図面の簡単な説明】

第１図は本発明の一実施例に係る文字認識装置の具体的
な構成を示す図、第２図は本発明の辞書メモリの構成を
示す図、第３図は従来の１バイトの圧縮データの構成を
示す図、第４図は従来の辞書マツチングの構成図、第５
図は従来の辞書からの読みだしを方法を示す図である。１・・・特徴量レジスタ、２・・・特徴量アドレスレジスタ、３・・・辞書メモリ、４・・・辞書アドレスレジスタ、５．６，１０．１１・・・レジスタ、７．８・・・選択回路、９１．９２．９３・・テーブルメモリ、第１図二と胃巳第２図

Claims

【特許請求の範囲】

（１）特徴ベクトルを圧縮した辞書を有する文字認識装
置において、該辞書の各文字領域を、重みの大きい圧縮
データ領域と重みの小さい圧縮データ領域によって構成
し、入力文字の特徴ベクトルと前記辞書の特徴ベクトル
とのマッチング距離を算出するときに、前記辞書の重み
の大きい圧縮データを先に読みだすことを特徴とする文
字認識装置。