JP2005084765A

JP2005084765A - 文字認識装置及び方法及びそのプログラム

Info

Publication number: JP2005084765A
Application number: JP2003313367A
Authority: JP
Inventors: Ching Y Suen; ワイスウェンチン; Hiroyuki Hase; 博行長谷; Hiroshi Sumiya; 浩角谷
Original assignee: PFU Ltd; University of Fukui NUC
Current assignee: PFU Ltd; University of Fukui NUC
Priority date: 2003-09-05
Filing date: 2003-09-05
Publication date: 2005-03-31
Also published as: US20050053282A1; CA2459478A1

Abstract

【課題】固有空間法を応用して、回転文字をその回転角度を問わずに正確に文字認識する文字認識装置を提供することを目的とする。
【解決手段】文字認識装置は、複数の回転文字画像から作成された固有空間を格納する空間格納部３２と、複数の回転文字画像を対応する固有空間に投影して得た投影点の描く軌跡を格納する軌跡格納部３３と、認識対象文字の画像を入力する入力部１と、認識対象文字の画像を固有空間に投影して得た投影点と複数の文字種についての軌跡の各々との距離を求める距離算出部２７と、前記距離に基づいて認識対象文字の画像の候補を複数の文字種の中から選択する候補選択部２８とを備える。
【選択図】図１

Description

本発明は、文字認識装置及び方法及びそのプログラムに関し、特に、固有空間法を応用して、回転文字をその回転角度を問わずに正確に文字認識する文字認識装置及び方法及びそのプログラムに関する。

カタログ等の印刷された文書では、人々の注意を引くために、文字を歪めたり、傾けたり、回転したり、流行形（例えば、装飾を施した文字等）にしたりする場合がある。このような文書をスキャナにより読み取って、コンピュータで文字認識処理を行って、文字をコード化した電子データを得ることがある。

例えば、回転した文字は、一般には、文字を所定の刻み（例えば、１０度、２０度、・・・）で回転させた画像（パターン）のビットマップデータを辞書として予め用意し、読み取った文字の画像（ビットマップ）と辞書の各パターンとを何らかの手段で比較することにより認識している（例えば、特許文献１参照）。

また、これまでに、いくつかの回転不変の文字認識方法が提案されており、主に３つのアプローチがある。第１は、回転に不変の特徴を抽出する方法である（非特許文献１参照）。第２は、ニューラルネットワークを使う方法である（非特許文献２参照）。第３は、複数のテンプレートを使ったものである。例えば、Ｘｉｅｅｔａｌは違う角度の複数の標準パターンを用意することで回転に不変のシステムを提案している（非特許文献３参照）。また、数学モデルを使って文字並びを推定し文字の向きを正規化して認識する方法が考察されている（非特許文献４参照）。
特開平５−１２４９１号公報 S.X.Liao and M.Pawlak, "On Image Analysis by Moments," IEEE Trans. on PAMI, Vol.18, No.3, pp.254-266, (1996) S.Sato, S.Miyake and H.Aso, "Evaluation of Two Neocognitron-type Models for Recognition of Rotated Patterns," ICONIP 2000, WBP-04, pp.295-299 (2000) Q.Xie, A.Kobayashi, "A Construction of Pattern Recognition System Invariant of Translation, Scale-change and Rotation Transformation of Patterns (in Japanese)," Trans. of The Society of Instrument and Control Engineers, Vol.27, No.10, pp.1167-1174 (1991) H.Hase, M.Yoneda, T.Shinokawa, C.Y. Suen, "Alignment of Free Layout Color Texts for Character Recognition," Proceedings of the 6th International Conference on Document Analysis and Recognition, pp.932-936 (Seatle, USA)

コンピュータによる文字認識は、文字のある程度の変形ならば、手書き文字認識の手法等を使うことにより可能なように思われる。しかし、実際には、傾いたり回転したりしている文字の傾斜（又は、回転）角度を見積もることが難しいため、コンピュータによるこれらの文字認識は一般に困難である。図１８に傾いたり、回転した文字列の一例を示す。図１８（ａ）の例（通常に印刷された例）を除き、図１８（ｂ）〜図１８（ｄ）の例についてのコンピュータによる文字認識は困難である。特に、波うっている図１８（ｃ）の例、傾斜の角度が文字の向きが変わるほどに大きく変化する図１８（ｄ）の例の文字認識は困難である。

これらの文字認識は、裏返した文字や鏡像さえも読むことのできる人間にとっては、極めて容易である。人間は、柔軟な認知能力により、文字の並びと向きを容易に見分け判断しているからである。しかし、これと同じことは、コンピュータには困難である。また、文字認識しないで、文字の整列または文字の向きの規則を見つけることは、コンピュータには困難である。

例えば、前述の辞書を用いる方法においては、読み取った文字の傾斜角度は任意の角度であるため、当該角度が辞書に登録された文字の傾斜の角度に一致することは殆どない。このため、文字認識の精度が低下してしまい、又は、文字を正立させるために当該角度を正確に捕捉することができなかった。

また、前述の回転不変の文字認識方法においては、満足できる文字認識の精度が得られなかったり、適用の範囲が極めて限られ実用化できなかった。例えば、非特許文献３によれば、１０種類の（少数の）数字に対してでさえ、９７％の認識結果しか得られていない。また、非特許文献４によれば、文字列はいつでもそのような数学モデルで並んでいるとは限らない。

そこで、本発明者は、パラメトリック固有空間法（単に固有空間法とも言う）を応用して回転した文字を認識すれば、その認識率が高まるのではないかと考えた。パラメトリック固有空間法は、本来は物体認識に関する技術であり、「村瀬洋，S.K.Nayar ，”２次元照合による３次元物体認識−パラメトリック固有空間法−，”信学論（D-II）号，vol.J77- D-II, no.11, pp.2179-2187, Nov. 1994.」に示されている。本発明者の検討によれば、この文字認識方法を文字認識に適用した場合、認識結果（カテゴリ）と同時に傾斜角度を得ることができる優位性を有すると考えられる。

本発明は、固有空間法を応用して、回転文字をその回転角度を問わずに正確に文字認識する文字認識装置を提供することを目的とする。

また、本発明は、固有空間法を応用して、回転文字をその回転角度を問わずに正確に文字認識する文字認識方法を提供することを目的とする。

また、本発明は、固有空間法を応用して、回転文字をその回転角度を問わずに正確に文字認識する文字認識プログラムを提供することを目的とする。

本発明の文字認識装置は、当該文字種の１文字画像を複数の角度に回転して得た複数の回転文字画像から作成された固有空間を、複数の文字種について格納する空間格納部と、前記複数の回転文字画像を対応する前記固有空間に投影して得た投影点の描く軌跡を、前記複数の文字種について格納する軌跡格納部と、認識対象文字の画像を入力する入力部と、前記認識対象文字の画像を前記固有空間に投影して得た前記認識対象文字の投影点と、前記複数の文字種についての軌跡の各々との距離を求める距離算出部と、前記算出された距離に基づいて、前記認識対象文字の画像の候補を前記複数の文字種の中から選択する候補選択部とを備える。

本発明の文字認識方法は、当該文字種の１文字画像を複数の角度に回転して得た複数の回転文字画像から作成された固有空間を、複数の文字種について用意し、前記複数の回転文字画像を対応する前記固有空間に投影して得た投影点の描く軌跡を、前記複数の文字種について用意し、認識対象文字を入力し、前記認識対象文字の画像を前記固有空間に投影して得た前記認識対象文字の投影点と、前記複数の文字種についての軌跡の各々との距離を求め、前記算出された距離に基づいて、前記認識対象文字の画像の候補を前記複数の文字種の中から選択する。

本発明の文字認識プログラムは、文字認識装置における文字認識方法を実現するプログラムであって、前記プログラムは、コンピュータに、当該文字種の１文字画像を複数の角度に回転して得た複数の回転文字画像から作成された固有空間と、前記複数の回転文字画像を対応する前記固有空間に投影して得た投影点の描く軌跡とを、前記複数の文字種について用意する処理と、認識対象文字の画像を入力する処理と、前記認識対象文字の画像を前記固有空間に投影して得た前記認識対象文字の投影点と、前記複数の文字種についての軌跡の各々との距離を求める処理と、前記算出された距離に基づいて、前記認識対象文字の画像の候補を前記複数の文字種の中から選択する処理とを行わせる。

本発明の文字認識装置及び方法によれば、本来は物体認識に関する技術である固有空間法を応用して、回転した文字を認識する。即ち、十分な数の回転文字画像から共分散行列を計算して各々の文字種（カテゴリ）の固有（部分）空間を作成する。次に、それらの回転文字画像を固有（部分）空間上に投影（及び補間）することにより、その軌跡を得る。各々のカテゴリの固有（部分）空間の上に未知文字（認識対象の文字）が投影され、未知文字の投影点と軌跡の間の距離を計算し、この距離に基づいて認識を行う。

これにより、読み取った文字の傾斜角度が辞書に登録された文字の傾斜の角度に一致しない場合や、読み取った文字の並びが不規則な場合でも、文字認識の精度を低下させることなく極めて広い範囲において実用的に満足できる極めて高い認識結果（例えば、アルファベット２６文字の場合、９９．８９％）を得ることができ、また、文字認識と同時に、当該文字の傾斜角度を正確に得ることができる。

本発明の文字認識プログラムによれば、これをフレキシブルディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ／Ｗ、ＤＶＤ等の媒体に格納すること、又は、インターネット等のネットワークを介してダウンロードすることにより供給することができ、これにより前述の文字認識装置及び方法を容易に実現することができ、正確な文字認識を可能とすることができる。

図１は、文字認識装置構成図であり、本発明の文字認識装置の構成を示す。文字認識装置は、入力部１、文字認識処理部２、記憶部３を備える。文字認識処理部２は、登録処理部２１、認識処理部２６を備える。記憶部３は、画像格納部３１、空間格納部３２、軌跡格納部３３を備える。

入力部１は、例えば周知のスキャナ等の画像読取装置からなり、登録対象又は認識対象として読み取った（１又は複数の）文字の画像（ビットマップデータ）を、文字認識処理部２に入力する。即ち、入力部１は、登録処理部２１（の画像登録部２２）へ登録対象の文字を入力し、認識処理部２６（の距離算出部２７）へ認識対象の文字を入力する。

文字認識処理部２（登録処理部２１及び認識処理部２６）は、コンピュータ（の本体）であり、ＣＰＵ及び主メモリを備え、主メモリ上の登録処理及び認識処理を行うプログラムをＣＰＵ上で実行することにより実現される。

文字認識処理部２は、登録処理部２１において、入力部１から入力された登録対象の文字を用いて、本発明の文字認識処理において使用する辞書である画像格納部３１、空間格納部３２及び軌跡格納部３３を作成し、記憶部３に登録する。登録処理部２１は、画像登録部２２、空間作成部２３、画像投影部２４、軌跡補間部２５を備える。

なお、登録処理部２１は省略しても良い。即ち、辞書である画像格納部３１、空間格納部３２及び軌跡格納部３３は、登録処理部２１により作成することなく、別に予め作成されフレキシブルディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ／Ｗ、ＤＶＤ等の媒体に格納された辞書を、記憶部３に登録することにより、用意するようにしても良い。又は、文字認識処理部２が、他のコンピュータに設けられた登録処理部２１が作成した辞書である画像格納部３１、空間格納部３２及び軌跡格納部３３を、インターネット等のネットワークを介してダウンロードして、記憶部３に格納するようにしても良い。

文字認識処理部２は、認識処理部２６において、入力部１から入力された認識対象の文字について、辞書である空間格納部３２及び軌跡格納部３３を使用して、本発明の文字認識処理を実行し、認識結果を出力する。認識処理部２６は、距離算出部２７、候補選択部２８、候補比較部２９を備える。

画像登録部２２は、入力部１から登録対象の文字（例えば、文字「Ａ」）が入力されると、当該画像を認識して当該文字（画像）を所定の刻み（例えば、１０度）で３６０度回転させる。これにより、画像登録部２２は、当該文字についての複数の回転文字画像を作成する。画像登録部２２は、このような複数の回転文字画像を、複数の文字種（例えば、アルファベットの２６文字種）について作成する。なお、この画像を認識し回転して複数の回転文字画像を作成する処理は、例えば入力部１が行っても良い。画像登録部２２は、複数の文字種について作成した複数の回転文字画像を画像格納部３１に格納する。

例えば、図２に示すように、文字種「Ａ」の１文字画像（Century のフォントの１個の画像）を時計回り（又は、反時計回り）方向に１０度ずつ回転させた文字（回転文字画像）を３６個用意する。これにより、回転の角度として全ての方向即ち３６０度をカバーする。これらの回転文字画像は学習文字（学習サンプル）として使用される。回転文字画像を、

とする。但し、ｋは１からＣの値をとるカテゴリ（即ち、文字の種類（文字種）の）番号（又は、カテゴリ添え字）であり、θ（ｉ）は文字の傾斜角度であり、
θ（ｉ）＝１０×ｉ（ｉ＝０，１，２，・・・，３５）
である。

各々の回転文字画像は、例えば３２画素×３２画素（＝１０２４画素）の大きさであり、全ての画像は正規化されている。画素の値は「０」又は「１」である。従って、この回転文字画像データは１０２４次元ベクトル（１０２４個の固有ベクトル）で記述することができる。

画像格納部３１は、当該文字種の１文字画像（例えば、文字種「Ａ」のCentury のフォントの１個の画像）を複数の角度に回転して得た複数の回転文字画像を、複数の文字種について格納する。具体的には、画像格納部３１は、当該文字を１０度ずつ回転して得た３６個（０度、１０度、２０度、・・・）の回転文字画像を、複数の文字種について格納する。回転文字画像は、後述するように、固有空間に投影して得た回転文字の投影点の描く軌跡を得る（学習する）ための学習サンプル（又は、学習文字）である。回転の角度は、１０度に限らないが、「３６０」の公約数であることが望ましい。即ち、学習サンプルの個数は、１文字当たり３６個に限らない。

空間作成部２３は、画像格納部３１に格納された複数の回転文字画像を使って共分散行列を計算し、固有値と対応した固有ベクトルを計算する。そして、空間作成部２３は、得られた固有ベクトルを固有値の大きい順に並べる。即ち、固有空間を作成し、空間格納部３２に格納する。固有空間は複数の文字種毎に作成される。

空間格納部３２は、空間作成部２３により作成された固有空間を、複数の文字種毎に格納する。即ち、空間格納部３２は、当該文字種の１文字画像を複数の角度に回転して得た複数の回転文字画像から作成された固有空間を、複数の文字種について格納する。

画像投影部２４は、画像格納部３１に格納された複数の回転文字画像（学習サンプル）の各々を、空間格納部３２に格納された当該学習サンプルに対応する固有（部分）空間に投影する。１個の学習サンプルから固有空間における１個の投影点が得られる。投影点は当該学習サンプルに特有の値を取る。これにより、画像投影部２４は、当該固有空間において当該文字の投影点からなる（投影点の描く）軌跡を得る。画像投影部２４は、このような当該文字の固有値の描く軌跡を、複数の文字種について作成し、軌跡格納部３３に格納する。投影点の描く軌跡は、当該文字に特有の（複数次元の）形状を示す。

前述の例によれば、各々のカテゴリ（文字の種類）において、３６個の回転文字画像（の画像データ）を使用して固有空間を作る。各々のカテゴリについて、その共分散行列Σ^(k)( ＝１０２４×１０２４）は、

で計算することができる。但し、ｍ^kはｋ番目のカテゴリの平均ベクトル（平均画像）である。共分散行列は次式を満足する。

Σ^(k)φ＝λφ 式（２）
但し、カテゴリ添え字ｋはλとφに対して省略している。

この例の場合、共分散行列のランクは最大３５であるから、最大３５個の「０」以外の固有値を得ることができる。ここでは、各々の固有値をλ₁,λ₂,・・・, λ₃₅とし、対応する固有ベクトルをφ₁,φ₂,・・・, φ₃₅とする。最初のｎ（ｎ≦３５）個の固有ベクトルを使って、固有（部分）空間Ｕ_n ^(k)＝｛φ₁,φ₂,・・・, φ_n｝を形成する。

次に、Ｕ_n ^(k)上に投影された

の投影点

である。回転角度は前述のように連続的に変化するので、その投影点の集合

は連続な軌跡を描く。

図３は、軌跡Ｌ_n ^(k)の模式図を示す。図３において、ｎ＝３である。即ち、この固有（部分）空間は、カテゴリｋについて、３個の固有ベクトルφ₁,φ₂,φ₃を用いて表した３次元の固有（部分）空間である。また、図３において、「・」が学習文字の投影点であり、これらを結んだ実線が軌跡Ｌ₃ ^(k)であり、未知文字の投影点Ｘと軌跡Ｌ₃ ^(k)とを結ぶ点線（垂線）がこれらの間の最短距離ｄ^k（Ｘ）を示す。垂線と軌跡Ｌ₃ ^(k)との交点の両側に存在する２個の学習文字の投影点（又は、補間した２点）と、投影点Ｘの軌跡上の最短点との間の距離が後述するｌ₁とｌ₂である。

軌跡格納部３３は、当該文字種の１文字画像を複数の角度に回転して得た複数の回転文字画像の各々を、対応する固有空間に投影して得た投影点の描く軌跡を、複数の文字種について格納する。即ち、登録対象の文字毎の投影点の描く軌跡が、辞書として備えられる。従って、文字認識処理において直接に使用される辞書は空間格納部３２と初軌跡格納部３３であり、記憶部３において画像格納部３１を除く空間格納部３２と初軌跡格納部３３が認識処理部２６により参照される。

軌跡補間部２５は、複数の文字種について、前記複数の回転文字画像（学習サンプル）の各々を固有空間に投影して得た学習文字の投影点を、所定の処理により補間する。即ち、補間点を求める。具体的には、軌跡補間部２５は、画像投影部２４が求めた投影点を周知の周期スプラインを用いて補間するスプライン補間を行う。例えば、軌跡補間部２５は、３６個の回転文字画像の各々を固有空間に投影して得た当該文字の３６個の投影点を周期スプラインにより１０００点で補間する。この場合、画像投影部２４が、軌跡補間部２５が求めた投影点を補間する値（補間点）と投影点との描く軌跡を、複数の文字種について軌跡格納部３３に格納する。これにより、学習サンプルの投影点のみでは滑らかな軌跡を描けない場合でも、当該投影点とその補間値とで滑らかな軌跡を得ることができる。また、この軌跡は補間を用いずに全体又は区分的に関数により表現することができる。

なお、軌跡補間部２５は省略しても良い。即ち、学習サンプルの数を、例えば１２０個（３度刻み）、１８０個（２度刻み）等とすれば、比較的滑らかな軌跡が得られる。そこで、このような場合には、軌跡補間部２５は省略しても良い。

距離算出部２７は、入力部１から認識対象の文字（例えば、文字種「Ａ」の１文字画像）が入力されると、辞書である空間格納部３２及び軌跡格納部３３を用いて、当該認識対象の文字を固有空間に投影することにより、当該認識対象文字（未知文字）の投影点を得る。そして、距離算出部２７は、当該未知文字の投影点と、複数の文字種（例えば、アルファベットの文字種）についての軌跡の各々との距離を求める。この距離は、当該文字の投影点から軌跡に対して垂線を引いた場合における当該垂線の長さである。例えば、複数の文字がアルファベットである場合、２６個の距離が算出される。この距離のなかで最小の距離を持つ文字が当該認識対象の文字種である。

即ち、与えられた未知文字画像データｘを、全てのＵ_n ^(k)（ｋ＝１，２，・・・，Ｃ）上に投影する。ｘの投影点Ｘは、

である。投影点Ｘと図３に示す軌跡Ｌ_n ^(k)との最小の距離の点を探すことによって、辞書（軌跡Ｌ_n ^(k)）との照合が行われる。ここで、カテゴリｋ（添え字ｋで表される文字）の最小距離をｄ^k（Ｘ）とすると、認識結果ｋ^*は、

と書くことができる。

一方、未知文字画像（認識対象の文字）の回転角度θは、当該投影点Ｘに最も接近している軌跡Ｌ_n ^(k)上における２つの最も近接している点（学習文字の投影点又は補間した点）を使用することにより算出することができる。例えば、図３に示す例においては、その角度θ^kは、

の２つの点によって補間される。即ち、

とする。但し、ｌ₁とｌ₂は図３に示す長さである。

以上のように、本発明によれば、入力画像（認識対象の文字）の認識結果（文字種即ちカテゴリｋ）と文字の回転角度θとを、同時に得ることができる。図４に認識方法の概略図を示す。図４において、カテゴリｋ＝１の文字の固有空間における軌跡Ｌ₃ ⁽¹⁾が図示のようになり、未知文字ｘが固有空間に投影され、その投影点がＸで示される。この時、両者の間の距離ｄ¹（Ｘ）と入力画像の回転角度θ¹とが、前述のように求められる。同様にして、ｋ＝２〜Ｃの固有空間の各々において、距離ｄ^k（Ｘ）及び角度θ^kが求められる。

候補選択部２８は、算出された距離に基づいて、認識対象文字の（画像の）候補を複数の文字種の中から選択する。具体的には、候補選択部２８は、複数の文字種の中で算出された距離が最も短いものを１個だけ選択し、これを認識対象の文字種（文字の種類）として決定する。また、候補選択部２８は、前述のように、認識対象文字の投影点と、軌跡上の近接する２点を用いた所定の演算により、認識対象文字の回転角度を決定する。例えば、図４に示す例において、距離ｄ¹（Ｘ）が最短であるとすると、カテゴリｋ＝１の文字種（例えば、文字種「Ａ」）が認識対象の文字（未知の文字の入力画像）とされ、また、その回転角度がθ¹とされる。

以上の構成によれば、基本的には、認識対象文字（未知文字）について、その文字種と回転角度とを、高い精度で認識することができる。しかし、更に、文字フォントの変化や文字変形に対応して、文字認識の精度を向上させたい場合には、候補比較部２９を設けるようにしても良い。この場合、候補選択部２８は、複数の文字の中で算出された距離が短いものを複数個選択し、これを認識対象の文字の候補として決定する。候補比較部２９は、候補選択部２８により選択された（複数の）候補を相互に比較して、認識対象の文字を決定する。

具体的には、候補比較部２９は、図５に示すように、認識対象文字（入力された文字）を所定の角度ずつ回転して、複数の回転文字画像を得る。例えば、図５において、入力された文字種は「Ａ」であり（実際には未知である）、これを基準即ち０度（実際には回転しているかもしれない）として１２０度ずつ回転する。これにより、合計で３個の回転文字画像が得られる。この処理は、実際には、入力部１又は画像登録部２２が実行しても良い。

次に、候補比較部２９は、複数の回転文字画像を、候補選択部２８により選択された複数の候補の各々に対応する固有空間に投影して、各々の固有空間における複数の投影点を得る。例えば、図５において、前記候補にカテゴリｋの文字種が含まれているとすると、当該固有空間ｋに前記３個の回転文字画像を投影する。これにより、３個の回転文字画像の投影点が得られ、当該３個の投影点とカテゴリｋの文字種の軌跡との距離ｄ₁ ^k（Ｘ）、ｄ₂ ^k（Ｘ）及びｄ₃ ^k（Ｘ）が得られる（順不動）。他のカテゴリについても同様である。この処理は、実際には、画像投影部２４が実行しても良い。

次に、候補比較部２９は、候補選択部２８により選択された候補の中で、前記複数の投影点に最も近いものを、認識対象文字の文字種とする。例えば、図５において、前述の算出した距離ｄ₁ ^k（Ｘ）、ｄ₂ ^k（Ｘ）及びｄ₃ ^k（Ｘ）の平均値を求めて、これを認識対象文字（未知文字）と当該候補との距離ｄ^k（Ｘ）とする。他のカテゴリ（他の候補）についても同様である。そこで、候補比較部２９は、前記候補の中で、平均距離の最も短いものを、認識対象文字の文字種とする。即ち、前記複数の距離を最小にする軌跡を持つ文字種が当該未知文字の文字種であると推定することができる。これにより、文字フォントの変化や文字変形に強い文字認識を行うことができる。

図６は、文字認識処理フローであり、本発明の図１に示す文字認識処理装置における文字認識処理を示す。

入力部１が読み取った登録対象文字の画像が画像登録部２２に入力されると、画像登録部２２が、当該文字を複数の角度に回転して、複数の回転文字画像（学習サンプル）を作成し、画像格納部３１に登録する（ステップＳ１）。登録対象の複数の文字の各々について、複数の回転文字画像が作成され登録される。

次に、空間作成部２３が、文字種毎に、画像格納部３１から複数の学習サンプルを読み出して、固有空間を作成する（ステップＳ２）。これにより、登録対象の複数の文字種の各々について、複数の学習サンプルに基づく当該文字種の固有空間が得られる。

次に、画像投影部２４が、文字種毎に、画像格納部３１から複数の学習サンプルを読み出して、固有空間へ投影する（ステップＳ３）。これにより、登録対象の複数の文字種の各々について、対応する固有空間における学習サンプルの数の（複数の）投影点が得られ、結果として、これらの描く軌跡（折れ線状の又は荒い軌跡）が得られる。

次に、軌跡補間部２５が、文字種毎に、画像投影部２４が求めた固有値を、周期スプライン等の補間法を用いて補間する（ステップＳ４）。これにより、軌跡補間部２５が求めた投影点を補間する値が得られ、結果として、当該補間値と投影点との描く軌跡（滑らかな軌跡）が得られる。そして、画像投影部２４が、登録対象の複数の文字の各々について、当該滑らかな軌跡を軌跡格納部３３に格納する。

次に、入力部１が読み取った認識対象文字の画像を距離算出部２７に入力すると（ステップＳ５）、距離算出部２７が、認識対象文字（未知文字）を固有空間に投影して当該文字の投影点を得て、当該投影点から複数の文字種についての軌跡の各々への距離（即ち、投影空間における最短距離とその位置）を求める（ステップＳ６）。

次に、候補選択部２８が、算出された距離に基づいて、認識対象の文字の候補を複数の文字種の中から選択する。即ち、文字種及び角度の候補を決定する（ステップＳ７）。

次に、候補比較部２９が、候補を比較して文字種及び角度即ち認識対象の文字を決定する（ステップＳ８）。即ち、候補比較部２９が、認識対象文字を所定の角度ずつ回転して、複数の回転文字画像を得る。前述のように、この処理は画像登録部２２又は入力部１が実行しても良い。次に、候補比較部２９が、複数の回転文字画像を候補選択部２８により選択された候補に対応する固有空間に投影して、複数の投影点を得る。この処理は画像投影部２４が実行しても良い。次に、候補比較部２９が、候補選択部２８により選択された候補の中で、前記複数の投影点に最も近いもの（例えば、平均距離が最も短いもの）を、認識対象文字の文字種とする。

登録対象の文字（カテゴリ）として、英語のアルファベットの２６個のCentury フォントの大文字（Ａ，Ｂ，・・・，Ｚ）を使用した。最初に、各々のカテゴリについて、大きさ３２画素×３２画素の「０度」の文字パターンを作成した。ここで、「０度」とは、文字が正立した状態を言う。次に、「０度」の文字パターンを、例えば「１０度」ずつ回転させて、文字画像の外接領域内で再標本化した。これにより、大きさ３２画素×３２画素の回転文字画像（学習サンプル）を３６個作成した。従って、この時点での特徴次元は１０２４次元である。これらの回転文字から共分散行列を求め、固有値と固有ベクトルを計算する。固有値と固有ベクトルは、例えば数学ソフトウェアMathematica Book（Stephen Wolfram, "Mathematica Book," Wolfram Research, Inc. Vol.4 (2000)）により計算すれば良い。

図７は、文字「Ａ」の固有値の例を示す。３５個の「０」より大きな固有値が得られているのが判る。固有値の大きな順に対応する固有ベクトルを並べ、上位ｎ個の固有ベクトルからｎ次元固有部分空間を構成する。ここで、ｎの値は文字認識についての意味を持つ（即ち、要求される文字認識性能を満足する）十分な数とされる。ｎの値は認識可能の範囲とされた文字種の数等に依存する。従って、候補選択部２８は、複数の回転文字画像の各々を文字認識についての意味を持つ十分な次元の固有空間に投影する。これにより、認識可能の範囲とされた文字種について、少ない次元（計算量）で有効な文字認識を行うことができる。

そこで、紙面上への図示の便宜を考えて、２次元の固有（部分）空間への投影を行った。図８は、全てのカテゴリ（Ｋ＝１〜２６）において、２次元の固有（部分）空間上に投影された３６個の学習サンプルの折れ線の（滑らかでない）軌跡の一例を示す。即ち、文字「Ａ」「Ｂ」「Ｙ」「Ｚ」を示す。これらの軌跡は、全てのカテゴリにおいて固有の形状を有しており、文字自体の形状からは予想できない形をしていることが判る。また、２次元でも十分に当該文字の特徴が現れることが判る。従って、文字認識処理の実際からも、候補選択部２８は、複数の回転文字画像の各々を文字の認識についての意味を持つ次元（まで）の固有空間に投影する。

投影点Ｘから軌跡Ｌ_n ^(k)までの距離は、以下のように計算した。第１に、軌跡Ｌ_n ^(k)において、３６個の学習サンプルの投影点（サンプル投影点）を、周知の補間法、例えば周期スプラインを用いて、例えば１０００点で補間した。これにより、滑らかな軌跡Ｌ_n ^(k)が得られる。各々の投影点Ｘの角度は、前述の式（４）により計算した。図９は周期スプラインにより補間した軌跡Ｌ_n ^(k)の例を示す。第２に、実際には、１０００個の補間した点（補間点）の各々、及び、サンプル投影点（画像投影部２４が求めた複数の投影点）の各々についての座標及び角度を格納するテーブルを作成し、投影点Ｘから軌跡Ｌ_n ^(k)までの距離はこのテーブルを使用して計算した。なお、周知の補間法としては、例えばラグランジェ補間を用いても良い。

一方、未知の文字（認識対象の文字）として、学習サンプルを含まないようにするために、当該文字を「３度」ごとに回転したテストパターンを、テストに用いた。即ち、０度，３度，・・・，３５７度のCentury フォントの大文字（即ち、先のフォントと同一）をテストパターンに使った。従って、各々のカテゴリについて１０８テストサンプル（１２０サンプルから学習サンプルと重なるものを除く）、全てのカテゴリについて見ると２８０８（＝１０８×２６）サンプルを使用した。

図１０は、固有（部分）空間の次元の数に対する文字認識率のグラフである。４次元までで、文字認識率は既に９０％以上に達しているのが判る。１３次元の固有（部分）空間では、最高認識率９９．８９％（３サンプルは失敗した）が得られた。この３サンプルの誤認識の理由は、学習サンプルの数が部分的に十分でなかったこと、又は、１０度ごとの回転が適当でないこと等が考えられる。後者については、更に、不均一な角度での回転が有効であるかもしれないこと、又は、１０度以下の回転が有効であるかもしれないこと等が考えられる。しかし、認識対象文字とされた第１候補〜第３候補との距離は、３つの誤認識したサンプルの全てにおいて極めて小さかった。例えば、後述する図１２のサンプル５（Ｎ（１７７）：文字「Ｎ」を１７７度回転した回転文字画像、以下同じ）では、第１候補（誤認識）の距離は３．４２２であり、第３候補（正解）は３．４４９であった。

このように、本発明においては、入力文字画像についてのカテゴリだけでなく、回転角度も得ることができる。図１１は、回転角度の精度の評価を示す。図１１において、横軸に回転角度の誤差（正解の角度と認識された角度との差）を、縦軸に当該誤差に該当したサンプル数を示す。対称形状の文字で、９０度あるいは１８０度回転して認識されたサンプルは評価対象から除外されている。図１１に示すグラフから、テストサンプルのほとんど全ての回転角度が正確に評価されていることが判る。

次に、具体的ないくつかのサンプルについて示す。図１２は、６個のパターンに対する本発明の文字認識の結果得られた上位の第１候補から第３候補までを示している。最初の３個のサンプル（入力データの＃１，＃２，＃３）は正しく認識したものであり、次の３個のサンプル（入力データの＃４，＃５，＃６）は誤認識したものである。カッコ内の数は角度を表している。図１２から、誤認識したサンプルについても、上位の３候補の中に正解のカテゴリ（文字種）があることが判る。

図１３は、各カテゴリに対する文字認識率を示す。アルファベット文字の中には対称的なパターンがある。例えば、文字「Ｈ」「Ｉ」「Ｎ」「Ｏ」「Ｓ」「Ｘ」「Ｚ」は１８０度回転させた場合、相互に殆ど同じ形状をしている。例えば、図１２の入力データのサンプル＃２と＃３である。図１３のグラフにおいて、「網かけ」により示す領域（correct ）は、正しいカテゴリ及び正しい回転角度が得られた割合を示す。「斜線」により示す領域（upside-down ）は、正しいカテゴリは得られたが、間違った回転角度（およそ１８０度の差）であった割合を示す。従って、図１３から、文字「Ｈ」「Ｉ」「Ｏ」「Ｘ」等は、本来が対称形状であるために、１８０度回転して認識されたことが推測される。なお、正しいカテゴリ及び正しい回転角度が得られなかった割合（error）の領域は殆んど無かった。

登録対象の文字（カテゴリ）として、実施例１と同様のフォント（アルファベットのCentury フォントの大文字、２６個）を使用して、文字の大きさを変えて、文字認識処理を行った。これにより、文字の大きさの変化が文字認識率に与える影響を見た。

即ち、各々のカテゴリについて、大きさ１６画素×１６画素の文字パターンを作成し、実施例１と同様に、本発明による文字認識処理を行った。この場合、特徴次元は２５６（＝１６×１６）次元である。図１４は、固有（部分）空間の次元の各々における文字認識率を示す。図１４から、３２×３２画素の場合に比べて、約１％程度、文字認識率が落ちることが判る。１３次元での文字認識率は９９．０７％であった。また、１４次元の固有（部分）空間で最高認識率９９．１５％（２４サンプルで失敗した）であった。

実施例１と同様の文字種（カテゴリ）と実施例１で作成した軌跡を用い、入力文字のフォントの種類を代えて、文字認識処理を行った。これにより、フォントの種類の変化が文字認識率に与える影響を見た。

即ち、各々のカテゴリについて、実施例１で作成した固有（部分）空間を用いた。そして、図１５に示すCourier フォントとTimes New Roman フォントの２種類を認識対象文字として、本発明の文字認識処理を行った。なお、図１５にCentury フォントを参考に示す。実施例１と同様に、各カテゴリについて１０８テストサンプル（学習サンプルに対応する回転角度のものを除く）、全カテゴリについて２８０８（＝１０８×２６）サンプルを、文字認識処理した。図１６はCourier フォントの場合の固有（部分）空間の次元に対する文字認識率を示し、図１７はTimes New Roman フォントの場合の固有（部分）空間の次元に対する文字認識率を示す。

図１６から判るように、Courier フォントの場合、１３次元で認識率８３．４０％であり、１７次元の固有（部分）空間で最高認識率８４．３３％（４４０サンプル失敗）であった。図１７から判るように、Times New Roman フォントの場合、１３次元で認識率９３６．６３％であり、１６次元の固有（部分）空間で最高認識率９３．９５％（１７０サンプル失敗）であった。Times New Roman フォントは、Century フォントに字形が似ているために、Courier フォントに比べて高い文字認識率が得られたと考えられる。

以上のように、Century フォントを使って固有（部分）空間を作成した場合、同じCentury フォントに対する結果は、非常に高い文字認識の正解率及び文字の回転角度の正解率を示した。３２画素×３２画素に正規化した場合と１６画素×１６画素に正規化した場合とでは、文字認識率において、あまり大きな低下はなかった。また、フォントの種類が異なると、文字認識率は低下するが、ある程度の正解率は得られた。

以上、本発明をその実施の形態に従って説明したが、本発明は、その主旨の範囲内で種々の変形が可能である。

例えば、認識対象の文字（文字種）は、アルファベットに限られず、平仮名、片仮名、漢字、その他種々の言語の文字、数字、記号をも含む。また、認識対象の文字（文字種）は、同一の文字種についての異なるフォントをも含む。更に、複数のフォントの当該文字の平均文字画像を学習文字として用いることにより、複数のフォントに対して高い文字認識率を得ることができる。

以上説明したように、本発明によれば、文字認識装置及び方法において、固有空間法を応用して回転した文字を認識することにより、読み取った文字の傾斜角度が辞書に登録された文字の傾斜角度に一致しない場合や、読み取った文字の並びが不規則な場合でも、文字認識の精度を低下させることなく極めて広い範囲において実用的に満足できる極めて高い認識結果を得ることができ、また、認識と同時に当該文字の傾斜角度を正確に得ることができる。

また、本発明によれば、文字認識装置プログラムを、フレキシブルディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ／Ｗ、ＤＶＤ等の媒体に格納することにより供給することにより、前述の文字認識装置及び方法を容易に実現することができる。

文字認識装置構成図である。文字認識処理説明図である。文字認識処理説明図である。文字認識処理説明図である。文字認識処理説明図である。文字認識処理フローである。文字認識処理説明図である。文字認識処理説明図である。文字認識処理説明図である。文字認識処理説明図である。文字認識処理説明図である。文字認識処理説明図である。文字認識処理説明図である。文字認識処理説明図である。文字認識処理説明図である。文字認識処理説明図である。文字認識処理説明図である。本発明の背景を示す図である。

符号の説明

１入力部
２文字認識処理部
３記憶部
２１登録処理部
２２画像登録部
２３空間作成部
２４画像投影部
２５軌跡補間部
２６認識処理部
２７距離算出部
２８候補選択部
２９候補比較部
３１画像格納部
３２空間格納部
３２軌跡格納部

Claims

当該文字種の１文字画像を複数の角度に回転して得た複数の回転文字画像から作成された固有空間を、複数の文字種について格納する空間格納部と、
前記複数の回転文字画像を対応する前記固有空間に投影して得た投影点の描く軌跡を、前記複数の文字種について格納する軌跡格納部と、
認識対象文字の画像を入力する入力部と、
前記認識対象文字の画像を前記固有空間に投影して得た前記認識対象文字の投影点と、前記複数の文字種についての軌跡の各々との距離を求める距離算出部と、
前記算出された距離に基づいて、前記認識対象文字の画像の候補を前記複数の文字種の中から選択する候補選択部とを備える
ことを特徴とする文字認識装置。
前記候補選択部が、前記算出された距離が最も短いものを１個だけ選択し、これを前記認識対象文字の文字種として決定する
ことを特徴とする請求項１記載の文字認識装置。
前記候補選択部が、前記認識対象文字の回転角度を決定する
ことを特徴とする請求項１記載の文字認識装置。
前記候補選択部が、前記認識対象文字の投影点と前記軌跡上の近接する２点を用いた所定の演算により、前記認識対象文字の回転角度を決定する
ことを特徴とする請求項３記載の文字認識装置。
前記候補選択部が、前記複数の回転文字画像の各々を文字認識についての意味を持つ十分な次元の固有空間に投影する
ことを特徴とする請求項１記載の文字認識装置。
当該文字認識装置が、更に、
当該文字種の１文字画像を複数の角度に回転して得た複数の回転文字画像を、前記複数の文字種について格納する画像格納部と、
前記画像格納部に格納された前記複数の回転文字画像から前記固有空間を、前記複数の文字種について作成し前記空間格納部に格納する空間作成部と、
前記画像格納部に格納された前記複数の回転文字画像を前記空間格納部に格納された当該複数の回転文字画像に対応する前記固有空間に投影して得た複数の投影点からなる軌跡を得て、当該軌跡を前記複数の文字種について前記軌跡格納部に格納する画像投影部とを備える
ことを特徴とする請求項１記載の文字認識装置。
当該文字認識装置が、更に、
前記複数の文字種について、前記画像投影部が求めた複数の投影点を補間する補間点を所定の処理により求める軌跡補間部を備え、
前記画像投影部が、前記軌跡補間部が求めた補間点を含む前記軌跡を、前記複数の文字種について前記軌跡格納部に格納する
ことを特徴とする請求項６記載の文字認識装置。
前記軌跡補間部は、前記画像投影部が求めた複数の投影点を周期スプラインを用いて補間するスプライン補間を行う
ことを特徴とする請求項７記載の文字認識装置。
前記軌跡補間部は、前記画像投影部が求めた複数の投影点及び前記軌跡補間部が求めた補間点についてその座標及び角度を格納するテーブルを備え、当該テーブルを用いて前記距離に加えて前記認識対象文字の回転角度を求める
ことを特徴とする請求項７記載の文字認識装置。
当該文字認識装置が、更に、
前記候補選択部により選択された候補を相互に比較して、前記認識対象文字の文字種を決定する候補比較部を備える
ことを特徴とする請求項１記載の文字認識装置。
前記候補比較部は、前記認識対象文字を所定の角度ずつ回転して複数の回転文字画像を得て、前記複数の回転文字画像を前記候補選択部により選択された候補に対応する固有空間に投影して複数の投影点を得て、前記候補選択部により選択された候補の中で前記複数の投影点に最も近いものを、前記認識対象文字の文字種とする
ことを特徴とする請求項１０記載の文字認識装置。
当該文字種の１文字画像を複数の角度に回転して得た複数の回転文字画像から作成された固有空間を、複数の文字種について用意し、
前記複数の回転文字画像を対応する前記固有空間に投影して得た投影点の描く軌跡を、前記複数の文字種について用意し、
認識対象文字を入力し、
前記認識対象文字の画像を前記固有空間に投影して得た前記認識対象文字の投影点と、前記複数の文字種についての軌跡の各々との距離を求め、
前記算出された距離に基づいて、前記認識対象文字の画像の候補を前記複数の文字種の中から選択する
ことを特徴とする文字認識方法。
文字認識装置における文字認識方法を実現するプログラムであって、
前記プログラムは、コンピュータに、
当該文字種の１文字画像を複数の角度に回転して得た複数の回転文字画像から作成された固有空間と、前記複数の回転文字画像を対応する前記固有空間に投影して得た投影点の描く軌跡とを、前記複数の文字種について用意する処理と、
認識対象文字の画像を入力する処理と、
前記認識対象文字の画像を前記固有空間に投影して得た前記認識対象文字の投影点と、前記複数の文字種についての軌跡の各々との距離を求める処理と、
前記算出された距離に基づいて、前記認識対象文字の画像の候補を前記複数の文字種の中から選択する処理とを行わせる
ことを特徴とする文字認識プログラム。