JPH0816728A

JPH0816728A - 文字認識装置及び方法

Info

Publication number: JPH0816728A
Application number: JP6146053A
Authority: JP
Inventors: Toru Futaki; 徹二木
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1994-06-28
Filing date: 1994-06-28
Publication date: 1996-01-19
Anticipated expiration: 2019-07-28
Also published as: JP3548233B2

Abstract

(57)【要約】【目的】速度的に問題なく、且つ、認識対象の文字の
取りこぼしの発生を抑制し、高い精度で文字を認識す
る。【構成】画像の読みよりを行って文字の切り出しを行
う（Ｓ２０１、Ｓ２０２）。そして、その切り出した文
字から特徴抽出し、文字サイズに依存しないように正規
化する（Ｓ２０３、２０４）。そして、第１次照合によ
って高速な文字認識を行ない、ベクトルの最も近似して
いる順に１０個の候補文字を抽出する（Ｓ２０５、２０
６）。この後、その抽出された候補文字の中の最も近似
していると思われる文字の類似文字をテーブルを検索す
ることで１０個抽出する（Ｓ２０７）。こうして、高速
文字認識処理及びテーブルから抽出された文字群を、高
精度の文字認識処理における候補群として文字認識を行
い、出力する（Ｓ２０８、２０９）。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は文字認識装置及び方法に
関するものである。

【０００２】

【従来の技術】一般に、文字認識処理にもいくつかある
が、図４に示すような例も有効である。以下、順を追っ
て説明する。

【０００３】先ず、ステップＳ４０１で文書画像のスキ
ャンを行い画像情報を２値のデジタル画像データに変換
する。次のステップＳ４０２では、読み取った画像デー
タに対して、１文字ごとの領域を取り出していく文字切
り出し処理を行い、ステップＳ４０３で予め定められた
アルゴリズムにしたがって特徴抽出を行う。

【０００４】例えば、一文字の画像を８×８の小領域
（計６４個の領域）に分割し、その小領域内で黒画素の
数を集計する。６４個の領域ごとに黒画素の特徴が計算
されるので６４次元の特徴ベクトルが生成されることに
なる。さらに文字の大きさの影響を取り除くためにステ
ップＳ４０４で文字の大きさによって特徴ベクトルを正
規化する。元の特徴ベクトルをＸ、正規化後の特徴ベク
トルをＸ’とすると、Ｘ’＝（ａ／（ｈ×ｗ））Ｘという正規化を行う。ただし、ｈ，ｗはそれぞれ文字の
高さと幅で、ａは定数である。

【０００５】こうして、正規化された特徴ベクトルと認
識辞書の学習パターンを照合し最適な文字種を選び出す
わけだが、ここで認識精度を高めようとして、精度の高
い距離計算を用いて照合を行おうとすると、必然的に計
算量が増大し、処理速度が低下してしまうという問題が
発生し、逆に処理速度を向上させようとする場合には簡
単な距離計算を行うことになるので認識精度が低下する
という問題が発生する。

【０００６】そこで、簡単な距離計算を用いた第一次照
合により文字種を絞り込み、絞り込まれた文字種（候
補）に対してのみ、より精度が高く演算量の多い第二次
照合を行うという処理が考えられる。

【０００７】ステップＳ４０５では、演算量の少ない距
離計算を用いて第一次照合を行う。本例ではシティ・ブ
ロック距離を用いる。そして、個々の正規な文字ｋに対
する平均ベクトルμ（ｋ）（＝μ1 （ｋ），…，μ64
（ｋ））を予め記憶させた辞書を用意しておき、この平
均ベクトルと認識対象の文字から得られた入力特徴ベク
トルＸ（＝ｘ1（ｋ），…，ｘ64（ｋ））との距離ｄc
（ｋ）を下記の式で求める。

【０００８】

【数１】全ての文字種に足してｄC が計算され、ステップＳ４０
６でｄC の小さい方から上位１０個の文字種が選択され
る。こうして選択された上位１０個の文字種に対してス
テップＳ４０７で第二次照合を行う。第二次照合では精
度を重視して、演算量は多いが、精度の高い距離計算と
して次式で与えられるマハラノビス距離を用いる。

【０００９】

【数２】ここで、Ｓ（ｋ）は文字種ｋの共分散行列である。ま
た、右肩の添え字ｔは転置を、−１は逆行列を表す。

【００１０】こうして、ステップＳ４０８において、最
も小さいｄMを与える文字種を最終的な候補と判定しス
テップＳ４０９で出力する。

【００１１】

【発明が解決しようとする課題】上記処理によれば、２
段階で文字を絞り込むという点で、ある面で優れている
が、これは第１次照合で絞られた候補の中に正解となる
文字が含まれるというのが前提である。つまり、もし第
１次照合で得られた候補内に正解となる文字が含まれて
いない場合には、第２次照合の精度にかかわらず正しい
認識結果が得られないという問題がある。

【００１２】

【課題を解決するための手段】本発明は上記問題点に鑑
みなされたものであり、速度的に問題なく、且つ、認識
対象の文字の取りこぼしの発生を抑制し、高い精度で文
字を認識する文字認識装置及び方法を提供しようとする
ものである。

【００１３】この課題を解決するため、例えば本発明の
文字認識装置は以下に示す構成を備える。すなわち、入
力情報から文字を認識する文字認識装置において、文字
と当該文字に対する類似文字群の組みで構成された辞書
と、速度優先の第１の文字認識手段によって候補文字群
を抽出する第１の抽出手段と、抽出された候補文字群中
における類似度の高い所定個数の候補文字それぞれに対
する類似文字群を前記辞書から抽出する第２の抽出手段
と、前記第１、第２の抽出手段で抽出された文字群を候
補範囲とし、精度優先の第２の文字認識手段を実行させ
る制御手段とを備える。

【００１４】ここで本発明の好適な実施態様に従えば、
第２の抽出手段は、第１の抽出手段で得られた候補文字
群の最も類似してる一個の候補文字に対する類似文字群
を前記辞書から抽出することが望ましい。これによっ
て、第２の文字認識手段が処理する対象が多くはなら
ず、高速に文字認識が行える。

【００１５】また、前記第１の文字認識手段は、シティ
・ブロック距離によって文字認識することが望ましい。
これによって、認識対象の候補文字を高速に絞り込むこ
とが可能になる。

【００１６】また、前記第２の文字認識手段は、マハラ
ノビス距離によって文字認識することが望ましい。これ
によって、高精度に文字を認識することが可能になる。

【００１７】また、前記２の抽出手段における類似文字
群を抽出する対象の候補文字の個数（第１の抽出手段で
抽出された候補文字群中の類似度の高い候補文字の個
数）は、変更可能であることが望ましい。これによっ
て、認識しようとするオリジナル文字の品位に応じた高
精度の文字認識が行える。

【００１８】

【作用】かかる本発明において、例えば、第１の抽出手
段は速度優先の第１の文字認識手段を使用して候補文字
群を抽出する。そして、この候補文字群中の類似度の高
い所定個数の文字それぞれに対して類似している文字群
を辞書より第２の抽出手段が抽出する。こうして、第
１、第２の抽出手段で抽出された文字群を精度優先の第
２の文字認識手段の候補範囲として処理を行う。

【００１９】

【実施例】以下、添付図面に従って本発明に係る実施例
を詳細に説明する。

【００２０】本実施例では、ＯＣＲ（光学的文字認識装
置）に適用した場合である。図１は第１の実施例の構成
を表すブロック図である。

【００２１】図１において、１０１は画像原稿に光を照
射し、その反射光を読み取り電気信号に変換するスキャ
ナ、１０２はスキャナ１０１で得られた電気信号を２値
のデジタル電気信号に変換し他の装置構成要素に伝送す
るためのスキャナインターフェース回路、１０３はディ
スプレイのウィンドウ上で所望とする座標を入力するた
めのポインティングデバイス（マウス等）、１０４はポ
インティングデバイス１０３からの信号を受け、それを
他の装置構成要素に伝送するためのインターフェース回
路、１０５は装置全体の制御及び文字切り出し処理や認
識処理を実行するためのＣＰＵ、１０６はＣＰＵ１０５
が実行する制御プログラム、各種処理プログラム、認識
辞書、類似文字種テーブルなどを格納しているＲＯＭ、
１０７は文字画像の展開や文字認識処理のための作業領
域などとして用いられるＲＡＭである。また、１０８は
入力イメージや認識結果を表示するためのディスプレ
イ、１０９はディスプレイインターフェース回路、そし
て１１０は各装置構成要素を接続するバスである。

【００２２】先ず、実施例における類似文字種テーブル
の作成法を説明する。文字同士の近さの度合いを各文字
種の平均特徴ベクトル間の距離で定義する。平均特徴ベ
クトルは同じ文字でもフォントや大きさ印刷状態などの
異なるさまざまな学習データから予め求めておく。本実
施例では距離はユークリッド距離を用いて類似文字種を
定める。すなわち、ある文字種ｍに注目した場合、他の
文字種ｋとの平均ベクトル距離Ｄ（ｍ，ｋ）は次のよう
にする。

【００２３】

【数３】ここで、Ｐは文字種の総数である。そして、すべてのｋ
に対してＤ（ｍ，ｋ）を計算し、距離の小さい方から上
位１０個を類似文字とする。ただし、自分自身はＤ＝０
で最も距離が小さくなるが意味がないので除く。この計
算によりすべての文字種に対する類似文字種が定義され
るのでこれをテーブル状態で予め格納しておく。尚、こ
のテーブルは、実際にはその内容が変更されることはな
いので、実施例ではＲＯＭ１０６に予め書き込んでお
く。但し、ＲＯＭに限定されるものではなく、ハードデ
ィスク装置等の記憶装置に保持させてもよいし、電源投
入時にそれら不揮発性記憶装置からＲＡＭにロードする
ようにしても良い。

【００２４】以上の結果、例えば“間”という文字に着
目したとき、この文字“間”に平均ベクトルの一番小さ
いものから１０個が瞬時に取り出せるようになってい
る。

【００２５】図３は上記類似文字テーブルの構造を模式
的に示したものである。注目文字３００に連続して格納
されている文字がその先頭文字に類似している文字群で
あり、その類似度（平均ベクトル距離の小さい順）に配
置されている。従って、このテーブルには１０文字毎
に、その先頭文字に対して類似している文字が並んでい
るので、テーブルの先頭位置から１０文字間隔で検索す
ることで、注目文字に対する１０個の類似文字を抽出す
ることが可能になっている。従って、文字“間”に着目
した場合には、図示の符号３８０に該当する文字（文字
コード）を検索できるので、その結果、間、問、聞、…
の計１０文字をいっきに抽出できる。

【００２６】尚、図では文字そのもので表しているが、
実際には文字コード（例えば、ＪＩＳコード等）が格納
されている。

【００２７】次に、上記テーブルを備えた装置における
ＣＰＵ１０５の処理内容を図２のフローチャートに従っ
て説明する。尚、同図における処理手順に対応するプロ
グラムはＲＯＭ１０６に格納されているものである。

【００２８】ステップＳ２０１〜Ｓ２０５は従来例のＳ
４０１〜Ｓ４０５と同じであるものとし、説明が重複す
るので簡単に説明する。先ず、原稿画像を読み取り、そ
の読み取った２値画像データを一旦ＲＡＭ１０７の所定
エリアに格納し、文字の切り出しを行う。１つの文字
は、先に説明したのと同じ個数、すなわち、８×８の小
領域（全部で６４個の領域）に分割し、６４次元の特徴
ベクトルを生成する。次いで、文字のサイズによる影響
を除くためにその生成した特徴ベクトルを正規化する
（正規化の原理は先に説明した通り）。こうして、正規
化された特徴ベクトルに基づいて、辞書（ＲＯＭ１０６
に格納されているものとする）を参照する以上がステッ
プＳ２０１〜Ｓ２０５の処理である。

【００２９】さて、辞書を参照することで、正規化され
た特徴ベクトルに近い方から数文字（説明を簡単にする
ためここでも１０文字にする）を選び出す（ステップＳ
２０６）。

【００３０】この結果、例えば以下の文字が選択された
としよう。

【００３１】間問聞開闘閣閉岡向商（１）最も距離の近かった文字は「間」なので、類似文字種テ
ーブル（図３参照）で「間」をキーとして検索する（ス
テップＳ２０７）。図３の類似文字種テーブルにおい
て、テーブルの先頭から１０個おきに照合していくこと
によってキーと３８０のコードが一致する。その結果、
符号３８１の位置から符号３９０の位置まで格納されて
いる１０個の類似文字間問聞開関闘閉閑岡商（２）を得ることができる。（２）と元々の１０個の候補
（１）を合わせ、重複しているものを除くと間問聞開関闘閉閑岡商閣向（３）という１２個の文字が得られる。

【００３２】次に、処理はステップＳ２０８に進んで、
（３）の１２個の文字に対して第二次照合を行う。第二
次照合は、先に説明したのと同じように精度の高いマハ
ラノビス距離を次式で得る。

【００３３】

【数４】ここで、ｋは１２個の文字種を表し、Ｘは認識しようと
している文字イメージから得たベクトルである。

【００３４】そして、最終的に、上記演算のよる１２個
のｄM（ｋ）の中で距離の近い順に並び替え、その先頭
文字を第１候補として出力する（ステップＳ２０９）。
尚、表示画面に表示された第１候補を見た操作者が、キ
ーボードやポインティングデバイスを使用して次候補表
示指示を行った場合には、第２候補以下を表示画面にそ
の順番に表示する。操作者は、この表示された候補の中
から目的の文字を探し出し、選択することになる。

【００３５】尚、ここでは１２個に対してマハラノビス
距離を算出したが、第１次照合と第２時照合とでそれぞ
れ１０個の類似文字を用いるわけであるから、計算する
個数は１０〜２０の範囲である。

【００３６】以上の結果、本実施例によれば、認識対象
の文字イメージに基づいて高速な手法によって先ず所定
数の第１の候補文字（上記実施例では１０文字）を抽出
する。そして、その候補文字群における一番類似してい
る文字そのもの対する類似文字をテーブルから所定数の
第２の候補文字（実施例ではこれも１０文字）を抽出す
る。そして、これら第１の候補文字群と第２の候補文字
群の論理和された結果（重複する文字を除くという意
味）に対して、より高精度の認識処理を行い、その結果
に基づいて候補文字をう。従って、精度が多少落ちるも
のの高速に処理できる認識処理による候補文字群中に目
的の文字がない場合であっても、その候補文字を越える
範囲で、しかも、不要に広範囲にならずに高精度の文字
認識を行えることで、処理速度の高速性を保ちながら、
認識結果のとりこぼしの発生を低く抑えることが可能に
なる。

【００３７】［第２の実施例の説明］上記実施例（第１
の実施例）では、類似文字種の定義として（１）式のよ
うに平均ベクトル同士の距離を用いたが、次式のように
学習サンプルの中で最も近いもの同士の距離によって類
似度を定義してもよい。ある文字ｍ（ｍ＝１，２，…，
Ｐ）に対して、ｉ番目の学習データをａi（ｍ）で表
し、学習データの数をｎとすると

【数５】ここで、１≦ｉ，ｊ≦ｎなるすべてのｉ，ｊを文字種ｍ
と文字種ｋの距離とする。この場合、学習サンプルの分
布も考慮して類似文字種を計算できることになる。

【００３８】［第３の実施例の説明］また、第１の実施
例では第一次照合の結果もっとも距離の小さい文字種の
類似文字種だけをテーブルから抽出し、それらを第２次
照合の対象に追加していたが、第一次照合の結果距離の
小さい方から上位Ｎ個の文字種の類似文字種を第二次照
合の候補に追加してもよい。たとえば、第一次照合の結
果上位３個の文字種が「間」「聞」「開」であった場
合、この上位３個の文字種すべての類似文字種テーブル
を参照することによ次のような類似文字種が得られたと
する。

【００３９】類似文字テーブルからの抽出文字間 → 問聞開関闘閣閉岡向商聞 → 間開問闘関閣閉向闇岡開 → 間問聞関閉闘閣岡閑閥参照された文字種のうち重複するものを除いて、以下の
ものが得られる。

【００４０】関闘閣閉岡向商闇閑閥
そして、この候補文字群を第２次照合の候補として追加
することになる（勿論、第１次照合処理と重複するもの
は追加しない）。

【００４１】尚、上記Ｎは固定であっても良いが、例え
ば認識対象の原稿が鮮明な場合には少ない数を、不鮮明
な場合には大きい数字を与えることで、適宜変更できる
ようにすることが望ましい。尚、ユーザに対しては、Ｎ
がいかなる意味を持つかを意識させないで済むように、
例えば、原稿画像の鮮明度を数段階で指示することで対
処させれば良い。場合によっては、手書き原稿か、ファ
クシミリ受信画像か、プリンタ等で印刷したものか等を
設定しても良い。この場合、Ｎは手書き＞ファクシミリ
受信画像＞プリンタ出力に対応する値を持つことになろ
う。

【００４２】［第４の実施例の説明］また、更に、第１
の実施例においてひとつの文字に対する類似文字種の数
を一定としたが、これは文字種によって可変にしてもよ
い。ある文字種ｍに対して他の文字種ｋの距離をｄ
（ｍ，ｋ）で表すと、ｄ（ｍ，ｋ）＜ｄ0 を満足する文字種ｋを類似文字種とする。距離の定義は
第１の実施例に同じでもよくまたそれ以外の距離の定義
を用いてもよい。ｄ0 は実験的に定めた定数であり、例
えば候補群に目的の文字が含まれる確率に基づくもので
よい。

【００４３】このように類似文字種を定めると、類似文
字種が多くて間違えやすい文字に対して候補字種が増
え、類似文字の少ない文字種に対して必要以上に候補文
字種を増やして速度を低下させることもなく効率よく削
減させることができる。

【００４４】また、第２次照合によって得られる候補群
の数も１０に限定されるものではなく、それぞれの着目
文字によって異なっても良い。

【００４５】このためには、例えば図５に示すように、
テーブルを２つに分け、テーブル５０には文字コードと
その文字コードに対する類似文字群を記憶しているテー
ブルの格納先アドレスを格納しておく。テーブル５０は
例えば文字コード順に並んでいて、尚且つ、１つのレコ
ード（文字コードとアドレスの構造体の大きさ）は固定
であるので、与えられた文字コードからテーブルの位置
は簡単に計算でき、瞬時に目的のアドレスを得ることが
可能になる。そして、そのテーブルの次のレコードのア
ドレスを調べれば目的の類似文字の個数が判別できる。

【００４６】この結果、テーブル５１からその個数分の
候補文字を第２次候群として抽出する。

【００４７】尚、本発明は、活字文字だけでなく手書き
文字にも適用でき、また言語の種類を問わない。

【００４８】また、上記実施例では、第１次照合に文字
イメージを複数領域に分割し、その小領域単位の特徴ベ
クトルでもって第１次候補群を決定し、第２次候補群は
マハラノビス距離で算出し抽出した。しかしながら、本
願発明はこれによって限定されるものではない。

【００４９】要は、第１次照合においては速度優先、第
２次照合には精度優先をその根底の思想とするものだか
らである。従って、この思想の範疇にあるものであれ
ば、本願発明はいかように改良変更しても構わない。

【００５０】また、本発明はスキャナ、ディスプレイ等
の個々の装置を接続したシステムとして説明したが、単
独の装置内にこれらの機能を実現させる場合にも適応で
きることは言うまでもない。また、処理手順（プログラ
ム）はＲＯＭに格納されているものではなく、外部から
供給することで動作する場合にも適応できるのは、上記
実施例からすれば容易に想到できよう。

【００５１】更に、実施例ではスキャナ等の光学機器か
ら原稿を読み取り、文字認識する例を説明したが、フロ
ッピー等の記憶媒体に予め原稿画像を記憶しておいて、
この記憶媒体から画像データを入力し文字認識しても構
わない。また、回線を介して受信した画像（ファクシミ
リ受信画像）から直接文字認識するようにしても良い。

【００５２】

【発明の効果】以上説明したように本発明によれば、少
ない演算量の計算による第１次照合を行い、その結果距
離が近い方から上位Ｎ個の文字に詳細な識別計算による
第２次照合を行う文字認識処理において、第一次照合の
上位Ｍ個（Ｍ≦Ｎ）の認識結果の類似文字種を加えて詳
細な識別計算による第２次照合を行うことによって、正
しい候補が第一次照合でもれてしまった場合でも類似文
字種として復活する可能性が高く、精度の高い文字認識
が実現できる。

【００５３】

【図面の簡単な説明】

【図１】第１の実施例の構成を表すブロック図である。

【図２】第１の実施例のフローチャートである。

【図３】類似文字テーブルの構造を説明するための図で
ある。

【図４】従来例の処理のフローチャートである。

【図５】他の実施例における類似文字検索テーブルの構
造を示す図である。

【符号の説明】

１０１スキャナ１０２スキャナインターフェース回路１０３ポインティングデバイス１０４ポインティングデバイスインターフェース回路１０５ＣＰＵ１０６ＲＯＭ１０７ＲＡＭ１０８ディスプレイ１０９ディスプレイインターフェース回路１１０ＣＰＵバス

Claims

【特許請求の範囲】

【請求項１】入力情報から文字を認識する文字認識装
置において、文字と当該文字に対する類似文字群の組みで構成された
辞書と、速度優先の第１の文字認識手段によって候補文字群を抽
出する第１の抽出手段と、抽出された候補文字群中における類似度の高い所定個数
の候補文字それぞれに対する類似文字群を前記辞書から
抽出する第２の抽出手段と、前記第１、第２の抽出手段で抽出された文字群を候補範
囲とし、精度優先の第２の文字認識手段を実行させる制
御手段とを備えることを特徴とする文字認識装置。
【請求項２】前記第２の抽出手段は、第１の抽出手段
で得られた候補文字群の最も類似してる一個の候補文字
に対する類似文字群を前記辞書から抽出することを特徴
とする請求項第１項に記載の文字認識装置。
【請求項３】前記第１の文字認識手段は、シティ・ブ
ロック距離によって文字認識することを特徴とする請求
項第１項に記載の文字認識装置。
【請求項４】前記第２の文字認識手段は、マハラノビ
ス距離によって文字認識することを特徴とする請求項第
１項に記載の文字認識装置。
【請求項５】前記２の抽出手段における類似文字群を
抽出する対象の候補文字の個数（第１の抽出手段で抽出
された候補文字群中の類似度の高い候補文字の個数）
は、変更可能であることを特徴とする請求項第１項に記
載の文字認識装置。
【請求項６】入力情報から文字を認識する文字認識方
法において、文字と当該文字に対する類似文字群の組みで構成された
辞書と、速度優先の第１の文字認識手段によって候補文字群を抽
出する第１の抽出工程と、抽出された候補文字群中における類似度の高い所定個数
の候補文字それぞれに対する類似文字群を、文字と当該
文字に対する類似文字群の組みで構成された辞書から抽
出する第２の抽出工程と、前記第１、第２の抽出工程で抽出された文字群を候補範
囲とし、精度優先の第２の文字認識手段を実行させる制
御工程とを備えることを特徴とする文字認識装方法。
【請求項７】前記第２の抽出工程は、第１の抽出工程
で得られた候補文字群の最も類似してる一個の候補文字
に対する類似文字群を前記辞書から抽出することを特徴
とする請求項第６項に記載の文字認識方法。
【請求項８】前記第１の文字認識手段は、シティ・ブ
ロック距離によって文字認識することを特徴とする請求
項第６項に記載の文字認識方法。
【請求項９】前記第２の文字認識手段は、マハラノビ
ス距離によって文字認識することを特徴とする請求項第
６項に記載の文字認識方法。
【請求項１０】前記２の抽出工程における類似文字群
を抽出する対象の候補文字の個数（第１の抽出工程で抽
出された候補文字群中の類似度の高い候補文字の個数）
は、変更可能であることを特徴とする請求項第６項に記
載の文字認識方法。