JP5365065B2

JP5365065B2 - 辞書作成装置

Info

Publication number: JP5365065B2
Application number: JP2008126405A
Authority: JP
Inventors: 悦伸堀田; 克仁藤本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-05-13
Filing date: 2008-05-13
Publication date: 2013-12-11
Anticipated expiration: 2028-05-13
Also published as: JP2009276937A; CN101582118A; US8379983B2; CN101582118B; US20090285490A1

Description

本発明は、辞書作成装置、認識装置、認識方法及び認識プログラムに関する。

近年、カメラ付きの携帯端末の普及とともに、カメラで撮影した画像中の文字を認識、翻訳したり、あるいは文字認識の結果を入力とした情報検索を行いたいというニーズが高まりつつある。

このようなニーズに応える観点から、カメラ付き携帯端末には、文字認識装置（Optical Character Reader：ＯＣＲ）が広く搭載されている。

ところが、ＯＣＲが搭載される携帯端末側から見れば、携帯性が重視される性質上、パーソナルコンピュータ（以下、ＰＣ）などの固定端末とは異なり、端末自体を小型化するためにメモリ及びＣＰＵの基板の小型化を実現する必要性があるため、ＯＣＲを搭載するに際してのハードウェアの性能面で制約が生じる。

このような制約から、携帯端末用ＯＣＲには、簡易な文字認識方式が用いられている。例えば、かかる文字認識方式としては、文字ごとに平均ベクトルを記憶しておき、認識対象として入力された文字の特徴ベクトルと文字認識辞書に記憶した各文字の平均ベクトルとの間で距離を算出し、入力文字の特徴ベクトルとの距離が最も近い平均ベクトルを持つ文字を認識結果とするものが一般的である（例えば、特許文献１参照）。

特開平５−４６８１２号公報

しかしながら、上記の従来技術における文字認識方式（特許文献１）は、文字認識精度におのずから限界があるという問題がある。

すなわち、認識対象として入力される文字フォントは、必ずしも固定種別の文字フォントであるとは限らず、予め学習した文字フォントについては一定の精度で認識することができても、学習していない文字フォントが入力された場合には、十分な文字認識精度を得ることはできない。

また、高精度な文字認識を実現するために、文字の平均ベクトルに加えて共分散行列より定まる固有値及び固有ベクトルを用いて文字認識を行うことも考えられるが、この場合には、固有値及び固有ベクトルを文字毎に保持した文字認識辞書が必要となり、辞書容量が膨大なサイズになる結果、携帯端末への搭載が困難になってしまうという問題がある。

特に、文字が漢字である場合には、辞書登録すべき文字の総数が約４０００にも上るため、このような膨大な数の文字についての固有値及び固有ベクトルを携帯端末用ＯＣＲに辞書登録させるのは現実的とは言えない。

これらのことから、携帯端末に文字認識装置を搭載するに際して、いかにして高精度な文字認識能力を発揮させつつ、辞書容量を削減するかが課題となっている。なお、この課題は、パターン認識として文字認識を行う場合のみならず、カテゴリの確率分布を用いるパターン認識（例えば、顔画像認識など）を行う場合に広く共通するものである。

そこで、本発明は、上述した従来技術による課題（問題点）を解消するためになされたものであり、確率分布を用いた場合のパターン認識と同等の認識能力を発揮させつつ、辞書容量を削減することができる辞書作成装置、認識装置、認識方法及び認識プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、開示の装置は、パターン認識辞書を作成するための学習用データから、認識項目とするカテゴリごとの特徴量を算出する特徴量算出手段と、前記特徴量算出手段によってカテゴリごとに算出された特徴量から各カテゴリの特徴量群の分布形状を算出する分布形状算出手段と、前記分布形状算出手段によってカテゴリごとに算出された特徴量群の分布形状をもとに、各カテゴリ間の分布形状の距離を算出する距離算出手段と、前記距離算出手段によって算出された各カテゴリ間の分布形状の距離に基づいて、クラスタリング対象とする分布形状を決定するクラスタリング対象決定手段と、前記クラスタリング対象決定手段によって決定されたクラスタリング対象の分布形状を代表させる代表分布形状を決定する代表分布形状決定手段と、前記クラスタリング対象決定手段によってクラスタリング対象として決定された各分布形状をクラスタリングするクラスタリング手段と、前記代表分布形状決定手段によって決定された代表分布形状と、前記クラスタリング手段によるクラスタリング後の代表分布形状の要素として含まれるカテゴリとを対応付ける対応付け手段と、前記対応付け手段によって対応付けられた代表分布形状とカテゴリとを所定の辞書記憶手段に辞書登録する辞書登録手段と、を備えたことを要件とする。

開示の装置によれば、確率分布を用いた場合の文字認識と同等の認識能力を発揮させつつ、辞書容量を削減することが可能になる。

以下に添付図面を参照して、この発明に係る辞書作成装置、認識装置、認識方法及び認識プログラムの好適な実施の形態を詳細に説明する。なお、以下の実施例では、パターン辞書をとして文字認識辞書を作成し、該作成した文字認識辞書を用いて文字認識を行う場合について説明する。

まず、実施例１に係る辞書作成装置の概要を説明する。辞書作成装置１０は、パターン認識における文字認識辞書を作成するものであり、とりわけカメラ付きの携帯端末に搭載されることを念頭に置いて文字認識辞書を作成する。

ここで、実施例１に係る辞書作成装置１０は、文字認識辞書を作成する際に、特徴ベクトルの分布形状が類似する複数の文字カテゴリ間では代表の分布形状だけを辞書登録するクラスタリングを行うこととしている。

すなわち、認識対象として入力される文字フォントに左右されずに安定した文字認識能力を発揮するには、平均ベクトルだけでなく分布形状（固有値及び固有ベクトル）を用いて文字認識を行うのが好ましいが、そのために固有値及び固有ベクトルを文字カテゴリごとに辞書登録することとしたのでは辞書容量が膨大なものとなり、携帯端末への搭載には適さない。

このため、辞書作成装置１０では、高水準の文字認識精度を担保するために、平均ベクトル及び共分散行列を含んで構成される確率分布を辞書登録するが、全ての文字カテゴリに各々の固有値及び固有ベクトルを対応付けて辞書登録させることはしない。なお、文字カテゴリとは、文字フォントの種類を問わず同一の文字で包含されるカテゴリを指し、共分散行列とは、特徴ベクトルの広がりを表す尺度を指す。

つまり、辞書作成装置１０は、多数の文字カテゴリでは共分散行列より定まる分布形状が類似のものが存在すると考えられる点に着眼し、文字カテゴリ間で特徴ベクトルが類似する分布形状については複数の分布形状を１つの分布形状に纏めて代表させるとともに、代表させる分布形状と纏めようとする文字カテゴリとを対応付けて辞書登録する。

結果として、上記の従来技術においては、文字カテゴリ数分の分布形状の情報を辞書に持たせていたのに対し、本実施例では、代表的な分布形状のみを辞書に持つことになり、辞書として記憶させる分布形状の絶対数を低減させることができる。

このクラスタリングを図１を用いて説明する。図１は、実施例１に係る辞書作成装置で行うクラスタリングの概念を説明するための概念図である。図１の例では、図１に示すように、文字カテゴリＡ〜文字カテゴリＤの分布形状が分布Ａ〜分布Ｅであり、これら分布Ａ〜分布Ｅそれぞれを１つのクラスタと見做してクラスタリングする例を示している。

図１に示すように、辞書作成装置１０は、文字カテゴリＡ〜文字カテゴリＤの分布形状だけに着目すればよいため、平均ベクトルを考慮せずに各々の分布の中心位置を合せる（１）。

そして、辞書作成装置１０は、全てのクラスタのペア（_５Ｃ_２＝１０組）について分布形状の距離を算出し、分布形状の距離が近いクラスタ同士を統合して各クラスタの分布形状を代表する代表分布形状を決定し（２）、統合後のクラスタの分布形状を代表分布形状で代用する（３）。

図１の例で言えば、分布Ａと分布Ｃ、分布Ｃと分布Ｅ、分布Ｅと分布Ａの組合せで分布形状の距離が近くなるため（類似度が高くなるため）、たとえば分布Ａのクラスタ、分布Ｃのクラスタ及び分布Ｅのクラスタを統合するとともに、３つの統合クラスタの代表分布形状として分布Ａを選択し、文字カテゴリＡ、Ｃ及びＥを含む統合クラスタの分布形状を代表分布形状Ａで代用する。

このように、本実施例によれば、平均ベクトルに加えて特徴ベクトルの分布形状を辞書登録しながらも、特徴ベクトルの分布形状が類似する複数の文字カテゴリ間では代表の分布形状だけを辞書登録するので、確率分布を用いた場合の文字認識と同等の文字認識能力を発揮させつつ、辞書容量を削減することができる。

なお、図１の例では、２次元における分布形状を例示したが、開示の辞書作成装置１０は２次元の分布形状のみに限定適用されるものではなく、３次元以上の任意の次元数であっても同様にクラスタリングを行うことができる。

続いて、実施例１に係る辞書作成装置の構成について説明する。図２は、実施例１に係る辞書作成装置及び文字認識装置の構成を示す機能ブロック図である。

同図に示すように、辞書作成装置１０は、平均ベクトル算出部１１と、分布形状算出部１２と、クラスタリング部１３と、代表分布形状決定部１４と、対応付け部１５と、辞書登録部１６とを有する。

平均ベクトル算出部１１は、各文字カテゴリごとに平均ベクトルを算出する処理部である。具体的には、図示しない記憶部または外部装置から入力された学習用サンプルの文字データから各文字カテゴリの特徴ベクトルを算出し、該算出した特徴ベクトルから各文字カテゴリの平均ベクトルを算出する。

分布形状算出部１２は、各文字カテゴリごとの分布形状を算出する処理部である。詳細は図３を用いて後述するが、概要としては、平均ベクトル算出部１１によって各文字カテゴリごとに算出された特徴ベクトル及び平均ベクトルをもとに共分散行列を算出し、各文字カテゴリごとに算出した共分散行列から固有値及び固有ベクトルを算出する。文字の特徴ベクトルとしては、たとえば“加重方向指数ヒストグラム法による手書き漢字・ひらがな認識”（信学論 D Vol.J70−D No.7 pp.1390−1397 1987年7月）にある加重方向指数ヒストグラム特徴を用いる。

クラスタリング部１３は、クラスタ（分布形状または代表分布形状）を統合する処理部である。例えば、全ての分布形状を要素数１のクラスタと見做した上で、クラスタ間の距離尺度としてKullback-Leibler距離を用いて、全てのクラスタのペア（図１の例で言えば、_５Ｃ_２＝１０組）について分布形状の距離を算出し、全てのクラスタのペアの中で最も距離値の近いクラスタ同士を統合し、このクラスタの統合を目標とする文字認識精度から予め設定されたクラスタ数に収斂するまで繰り返し行う。クラスタリングの手法としては、たとえば階層的クラスタリングを用いる。階層的クラスタリングにおいては最終的なクラスタ数をユーザが（実験的あるいは経験的に）指定し、指定した個数になるまでクラスタリング処理が実行される。

代表分布形状決定部１４は、クラスタリング部１３によって統合されたクラスタの代表分布形状を決定する処理部である。例えば、図１に示す例において文字カテゴリＡのクラスタと文字カテゴリＣのクラスタとが統合される時には、分布Ａまたは分布Ｃのいずれかの分布を代表分布形状として選択してもよいし、また、分布Ａ及び分布Ｃを平均（例えば、相乗平均や加重平均など）したものを代表分布形状として決定してもよい。なお、分布の選択または平均は、認識頻度（照合頻度）が高い文字カテゴリの分布が優先される基準であることが好ましい。

対応付け部１５は、代表分布形状決定部１４によって決定された代表分布形状と、代表分布形状の要素として含まれる文字カテゴリとを対応付ける処理部である。具体的には、各文字カテゴリに分布番号及び平均ベクトルを紐付ける一方で、分布番号に代表分布形状を紐付けることにより（図４参照）、分布番号を通じて、文字カテゴリと代表分布形状（固有値及び固有ベクトル）とを対応付ける。

辞書登録部１６は、対応付け部１５によって対応付けられた各文字カテゴリの平均ベクトル及び代表分布形状を辞書登録する処理部である。具体的には、各文字カテゴリの平均ベクトル及び代表分布形状を携帯端末に搭載される文字認識装置３０の辞書記憶部３１に登録する。なお、辞書作成装置１０と文字認識装置３０との接続関係は、ネットワークの種別や有線または無線を問わず、また、辞書作成装置１０と文字認識装置３０が同一の装置に搭載されてもかまわない。

次に、実施例１に係る辞書作成装置の処理の流れについて詳細に説明する。図３は、実施例１に係る辞書作成処理の手順を示すフローチャートである。

同図に示すように、平均ベクトル算出部１１は、記憶部または外部装置から入力された学習用サンプルの文字データから文字カテゴリの特徴ベクトルを算出し、該算出した特徴ベクトルから文字カテゴリの平均ベクトルを算出する（ステップＳ３０１）。

続いて、分布形状算出部１２は、平均ベクトル算出部１１によって算出された特徴ベクトル及び平均ベクトルをもとに共分散行列を算出する（ステップＳ３０２）。例えば、学習用データをＸ_１、Ｘ_２、…、Ｘ_ｎ、平均ベクトルをμとした時には、共分散行列は、式（１）のように与えられる。

さらに、分布形状算出部１２は、ステップＳ３０２で算出した共分散行列から固有値及び固有ベクトルを算出する（ステップＳ３０３）。

その後、全ての文字カテゴリについて固有値及び固有ベクトルを算出すると（ステップＳ３０４肯定）、クラスタリング部１３は、全てのクラスタのペアについて各カテゴリ間の分布形状の距離を算出する（ステップＳ３０５）。

例えば、クラスタ間の距離尺度としてKullback-Leibler距離を用いる場合、２つのカテゴリの分布ｆ（ｘ）、ｇ（ｘ）がともに正規分布と仮定すると、２つのカテゴリ分布間の距離は式（２）のように表される。

ｆ（ｘ）の平均をμ_１、共分散行列をΣ_１、ｇ（ｘ）の平均をμ_２、共分散行列をΣ_２とした時、上記のKullback-Leibler距離は式（３）のようになる。

ここで、分布形状のみに着目した場合には、μ_１＝μ_２とおけばよいから式（４）のようになる。

このように、２つのカテゴリ分布形状間の距離は共分散行列のみから表される。ここでＩは単位行列である。

図３の説明に戻り、分布形状の距離算出後に、クラスタリング部１３は、全てのクラスタのペアの中で最も距離値の近いクラスタ同士を統合し（ステップＳ３０６）、代表分布形状決定部１４は、クラスタリング部１３によって統合されたクラスタの代表分布形状を決定する（ステップＳ３０７）。

そして、対応付け部１５は、代表分布形状決定部１４によって決定された代表分布形状と、代表分布形状の要素として含まれる文字カテゴリとを対応付ける（ステップＳ３０８）。

例えば、図４の例で言えば、分布番号「１」を通じて、文字カテゴリ「Ａ」、「Ｃ」、及び「Ｅ」と、各次元の固有値「λ_ａ１〜λ_ａｎ」及び固有ベクトル「Ψ_ａ１〜Ψ_ａｎ」とを対応付けている。

そして、クラスタリング部１３によって統合された結果、クラスタ数が所定値（目標とする文字認識精度から予め設定されたクラスタ数）になるまで（ステップＳ３０９否定）、上記したステップＳ３０６〜ステップＳ３０８までの処理を繰り返し行う。

その後、クラスタ数が所定値になった場合（ステップＳ３０９肯定）には、辞書登録部１６は、対応付け部１５によって対応付けられた各文字カテゴリの平均ベクトル及び代表分布形状を文字認識装置３０の辞書記憶部３１に登録し（ステップＳ３１０）、処理を終了する。

このように、実施例１に係る辞書作成装置１０によれば、パターン認識辞書を作成するための学習用データから認識項目とするカテゴリごとの特徴量を算出し、カテゴリごとに算出した特徴量から各カテゴリの特徴量群の分布形状を算出し、カテゴリごとに算出した特徴量群の分布形状をもとに、各カテゴリ間の分布形状の距離を算出し、各カテゴリ間の分布形状の距離に基づいて、クラスタリング対象とする分布形状を決定し、決定したクラスタリング対象の分布形状を代表させる代表分布形状を決定し、クラスタリング対象として決定した各分布形状をクラスタリングし、決定した代表分布形状と、クラスタリング後の代表分布形状の要素として含まれるカテゴリとを対応付け、対応付けた代表分布形状とカテゴリとを辞書記憶部３１に辞書登録するように構成したので、確率分布を用いた場合の文字認識と同等の文字認識能力を発揮させつつ、辞書容量を削減することが可能になる。

かかる辞書容量の削減について具体的に説明すると、日本語の文字カテゴリ数は、約４０００個存在し、統計的な文字認識を行う場合には、文字カテゴリごとに平均ベクトル、固有値及び固有ベクトルを有する。固有値、固有ベクトルについては、最大で特徴次元数分の個数を持つことができるが、実際には認識率に寄与する２０個程度が辞書登録されるケースが多い。

ここで、特徴ベクトルの型をfloat型（＝４byte）、固有値の型をfloat型（＝４byte）、特徴次元数を３００、固有値、固有ベクトルの個数を２０としたときの辞書容量は、（３００次元＊４byte＋（４＋３００次元＊４byte）＊２０個）＊４０００カテゴリ＝１０１．１２Mbyteと計算される。

そして、４０００カテゴリ毎に持っている分布形状を１００個で代表させることができるとすると、そのときの辞書容量は、３００次元＊４byte＊４０００＋（４＋３００次元＊４byte）＊２０＊１００＝７．２Mbyteとなる。

つまり、実施例１に係る辞書作成装置１０により上記の条件下で辞書作成を行った場合、辞書容量はもとの辞書の約７％まで小さくすることが可能になる。

次に、実施例１に係る文字認識装置について説明する。この文字認識装置３０は、携帯端末に搭載されるＯＣＲであり、辞書作成装置１０によって登録された文字認識辞書を有している。

図２に示すように、文字認識装置３０は、辞書記憶部３１と、特徴抽出部３２と、文字認識部３３とを有する。

辞書記憶部３１は、各文字カテゴリごとに平均ベクトル及び代表分布形状を記憶する不揮発性メモリ等の記憶デバイスである。例えば、図４に示すように、各文字カテゴリごとに分布番号及び平均ベクトルを記憶するテーブルと、分布番号ごとに代表分布形状を記憶するテーブルとを内在する。このように、分布番号及び代表分布形状を記憶するテーブルを分ける理由は、分布番号をポインタとして利用して複数の文字カテゴリ間の分布形状を代表管理し、辞書容量を削減するためである。

特徴抽出部３２は、入力文字データから特徴ベクトルを抽出する処理部である。なお、文字データは、イメージスキャナ等によって入力してもよいし、ネットワークを介して外部装置から取得してもよい。

文字認識部３３は、統計分布に基づく文字認識を行う処理部である。詳細は図５を用いて後述するが、概要としては、辞書記憶部３１よって記憶された文字カテゴリの分布形状を用いて、入力文字の特徴ベクトルと文字カテゴリの平均ベクトルとの統計分布に基づく距離を計算し、距離値が最小となる文字カテゴリを入力文字の文字カテゴリと決定する。

次に、実施例１に係る文字認識装置３０の処理の流れについて説明する。図５は、実施例１に係る文字認識処理の手順を示すフローチャートである。

図５に示すように、特徴抽出部３２は、イメージスキャナ等を介して入力された入力文字データから文字カテゴリの特徴ベクトルを抽出する（ステップＳ５０１）。

続いて、文字認識部３３は、辞書記憶部３１を参照して、今回の算出対象となる文字カテゴリの平均ベクトル及び分布番号を読み出すとともに、当該分布番号をもとに代表分布形状を呼び出し、入力文字の特徴ベクトルと文字カテゴリの平均ベクトルとの統計分布に基づく距離を算出する（ステップＳ５０２）。

例えば、統計分布に基づく距離尺度としてマハラノビス距離を用いるとした場合、入力文字の特徴をｘ、ある文字カテゴリの平均ベクトルをμ、共分散行列をΣ_ｉとしたとき、
マハラノビス距離は式（５）で表される。

特徴ベクトルの次元数をｎ、共分散行列のｋ番目の固有値をλ_ｋ、λ_ｋに対応する固有ベクトルをΨ_ｋとしたとき、式（５）は式（６）のように表わされる。

この式（６）を用いて、入力文字の特徴ベクトルと文字カテゴリの平均ベクトルとのマハラノビス距離を計算する。

その後、全ての文字カテゴリについてマハラノビス距離を算出すると（ステップＳ５０３肯定）、文字認識部３３は、距離値が最小となる文字カテゴリを入力文字の文字カテゴリと決定し（ステップＳ５０４）、処理を終了する。

上述してきたように、実施例１に係る文字認識装置３０によれば、分布番号ごとに代表分布形状を対応付けて記憶する一方で、文字カテゴリごとに平均ベクトル及び分布番号対応付けて記憶し、認識対象とする入力文字データから特徴ベクトルを抽出し、距離算出対象とする文字カテゴリに対応する平均ベクトル及び分布番号を抽出するとともに、該分布番号に対応する代表分布形状を抽出し、該抽出した文字カテゴリの代表分布形状を用いて、入力データから抽出した特徴ベクトルと当該文字カテゴリの平均ベクトルとの距離を文字カテゴリごとに算出し、算出した距離が最小となる文字カテゴリを認識結果として採用するように構成したので、複数の文字カテゴリの分布形状が１つの代表分布形状に纏められたパターン辞書を用いて統計的な文字認識を行うことができ、確率分布を用いた場合の文字認識と同等の文字認識能力を発揮するとともに、辞書容量を削減することが可能になる。

さて、上記実施例１では、クラスタリングを行う際に制約を設けずに分布形状をクラスタリングする場合について説明したが、分布形状の距離にかかわらず、クラスタリングを行わない方が得策な文字カテゴリも存在する。

すなわち、文字認識においては、たとえば「玉」と「王」などの類似字形文字に対して誤読が生じやすいという傾向があり、これらの類似字形文字を認識する場合には、文字カテゴリ間での分布形状の微妙な違いが認識に寄与していることが多く、このような類似字形文字の分布形状をクラスタリングしてしまうと、文字認識率が低下する可能性がある。

そこで、実施例２では、誤読率の高い文字の分布形状についてはクラスタリングの対象から除外した上で、分布形状のクラスタリングを行うことで、誤読の生じやすい文字の分布形状については、クラスタリングによって他の分布形状で代用せず、本来の分布形状をそのまま辞書登録することができる辞書作成装置について説明する。

図６は、実施例２に係る辞書作成装置及び文字認識装置の構成を示す機能ブロック図である。図６に示すように、辞書作成装置５０は、実施例１に係る辞書作成装置１０に比較して、文字認識部５１と、誤読組合せ抽出部５２と、誤読対応関係記憶部５３とを新たに有する点が相違する。なお、ここでは、実施例１と同様の機能を発揮するものについてはその説明を省略する。

文字認識部５１は、分布形状算出部１２によって算出された各文字カテゴリの固有値及び固有ベクトルと、テスト用サンプルの文字データとの文字認識を行う処理部であり、文字認識手法としては、たとえば部分空間法などを用いる。なお、必ずしも分布形状算出部１２によって算出された固有値及び固有ベクトルを用いる必要はなく、各文字カテゴリの固有値及び固有ベクトルを記憶する辞書そのものは公知であるため、かかる辞書を用いるようにしてもかまわない。

誤読組合せ抽出部５２は、文字認識部５１の認識結果から、誤認識の割合が閾値より大きい文字カテゴリの組合せを抽出する処理部である。例えば、各々の文字が相互に５回誤認識された場合にクラスタリングから除外するとした時には、文字認識部５１の認識結果が図７に示すものであるならば、文字カテゴリＡの入力時に文字カテゴリＤに１０回誤認識され、また、文字カテゴリＤの入力時に文字カテゴリＡに８回誤認識されており、文字間の相互の誤認識の回数が先の閾値５回を超えるので、文字カテゴリＡ及びＤを誤読組合せとして抽出する。

誤読対応関係記憶部５３は、誤読組合せ抽出部５２によって抽出された誤読組合せを記憶する不揮発性メモリ等の記憶デバイスである。例えば、図８に示すように、誤読組合せ抽出部５２によって誤読組合せとして抽出された文字カテゴリのペアを記憶する。

このように、誤読組合せ抽出部５２によって抽出された誤読組合せを誤読対応関係記憶部５３に記憶しておけば、クラスタリング部５４がクラスタリングを行う前に誤読組合せとして記憶された文字カテゴリのクラスタを除外してクラスタリングを行うことができる。

したがって、実施例２に係る辞書作成装置５０によれば、文字カテゴリごとに算出した特徴ベクトルの分布形状と、テスト用サンプルデータとの間で文字認識を行い、該認識結果のうち、誤認識の割合が相互に所定の閾値より大きい文字カテゴリの組合せを抽出し、抽出したカテゴリの組合せを除外してクラスタリング対象とする分布形状を決定するように構成したので、類似字形文字の分布形状をクラスタリングすることを防止でき、誤認識の可能性を抑制できる結果、文字認識精度が低下することを防止することが可能になる。

なお、上記実施例１及び２では、パターン辞書をとして文字認識辞書を作成し、該作成した文字認識辞書を用いて文字認識を行う場合について説明したが、広くカテゴリの確率分布を用いるパターン認識（例えば、顔画像認識）を行う場合には同様に適用することが可能である。

ところで、上記の実施例１では、文字認識装置について説明したが、文字認識装置が有する構成をソフトウェアによって実現することで、同様の機能を有する文字認識プログラムを得ることができる。そこで、ここでは、文字認識プログラムを実行するコンピュータについて説明する。

図９は、実施例３に係る文字認識プログラムを実行するコンピュータの構成を示す機能ブロック図である。同図に示すように、このコンピュータ３００は、ＲＡＭ３１０と、ＣＰＵ３２０と、ＨＤＤ３３０と、ＬＡＮインタフェース３４０と、入出力インタフェース３５０とを有する。

ＲＡＭ３１０は、プログラムやプログラムの実行途中結果などを記憶するメモリであり、ＣＰＵ３２０は、ＲＡＭ３１０からプログラムを読み出して実行する中央処理装置である。ＨＤＤ３３０は、プログラムやデータを格納するディスク装置であり、ＬＡＮインタフェース３４０は、コンピュータ３００を無線ＬＡＮ経由もしくはＬＡＮケーブルで他のコンピュータに接続するためのインタフェースであり、入出力インタフェース３５０は、ディスプレイなどの入出力装置を接続するためのインタフェースである。

そして、このコンピュータ３００において実行される文字認識プログラム３１１は、ＬＡＮインタフェース３４０を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータ３００にインストールされる。そして、インストールされた文字認識プログラム３１１は、ＨＤＤ３３０に記憶され、ＲＡＭ３１０に読み出されてＣＰＵ３２０によって実行される。

このように文字認識プログラム３１１によって得られた出力結果（文字認識結果）は、ディスプレイに表示、プリンターで印刷、データとして記憶装置に記憶したり、また、ネットワークを通じて他のコンピュータに送信等、有形の結果（tangible result）として出力される。

以上の実施例１〜３を含む実施形態に関し、更に以下の付記を開示する。

（付記１）パターン認識辞書を作成するための学習用データから、認識項目とするカテゴリごとの特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によってカテゴリごとに算出された特徴量から各カテゴリの特徴量群の分布形状を算出する分布形状算出手段と、
前記分布形状算出手段によってカテゴリごとに算出された特徴量群の分布形状をもとに、各カテゴリ間の分布形状の距離を算出する距離算出手段と、
前記距離算出手段によって算出された各カテゴリ間の分布形状の距離に基づいて、クラスタリング対象とする分布形状を決定するクラスタリング対象決定手段と、
前記クラスタリング対象決定手段によって決定されたクラスタリング対象の分布形状を代表させる代表分布形状を決定する代表分布形状決定手段と、
前記クラスタリング対象決定手段によってクラスタリング対象として決定された各分布形状をクラスタリングするクラスタリング手段と、
前記代表分布形状決定手段によって決定された代表分布形状と、前記クラスタリング手段によるクラスタリング後の代表分布形状の要素として含まれるカテゴリとを対応付ける対応付け手段と、
前記対応付け手段によって対応付けられた代表分布形状とカテゴリとを所定の辞書記憶手段に辞書登録する辞書登録手段と、
を備えたことを特徴とする辞書作成装置。

（付記２）前記分布形状算出手段によってカテゴリごとに算出された特徴量群の分布形状と、テスト用サンプルデータとの間で認識を行う認識手段と、
前記認識手段による認識結果のうち、誤認識の割合が相互に所定の閾値より大きいカテゴリの組合せを抽出する組合せ抽出手段と、
前記クラスタリング対象決定手段は、
前記組合せ抽出手段によって抽出されたカテゴリの組合せを除外してクラスタリング対象とする分布形状を決定することを特徴とする付記１に記載の辞書作成装置。

（付記３）パターン認識の認識項目とするカテゴリごとに、当該カテゴリの平均特徴量及び識別情報を対応付けて記憶する第１の辞書記憶手段と、
前記識別情報ごとに、前記カテゴリの平均特徴量群の分布形状を１または複数代表する代表分布形状を対応付けて記憶する第２の辞書記憶手段と、
認識対象とする入力データから特徴量を抽出する特徴量抽出手段と、
距離算出対象とするカテゴリに対応する平均特徴量及び識別情報を第１の辞書記憶手段から抽出するとともに、該識別情報に対応する代表分布形状を前記第２の辞書記憶手段から抽出する抽出手段と、
前記抽出手段によって抽出されたカテゴリの代表分布形状を用いて、前記特徴量抽出手段によって入力データから抽出された特徴量と当該カテゴリの平均特徴量との距離をカテゴリごとに算出する距離算出手段と、
前記距離算出手段によって算出された距離が最小となるカテゴリを認識結果として採用する認識手段と、
を備えたことを特徴とする認識装置。

（付記４）認識対象とする入力データから特徴量を抽出する特徴量抽出工程と、
パターン認識の認識項目とするカテゴリごとに当該カテゴリの平均特徴量及び識別情報を対応付けて記憶する第１の辞書記憶手段から、距離算出対象とするカテゴリに対応する平均特徴量及び識別情報を抽出するとともに、前記識別情報ごとに前記カテゴリの平均特徴量群の分布形状を１または複数代表する代表分布形状を対応付けて記憶する第２の辞書記憶手段から当該識別情報に対応する代表分布形状を抽出する抽出工程と、
前記抽出工程によって抽出されたカテゴリの代表分布形状を用いて、前記特徴量抽出工程によって入力データから抽出された特徴量と当該カテゴリの平均特徴量との距離をカテゴリごとに算出する距離算出工程と、
前記距離算出工程によって算出された距離が最小となるカテゴリを認識結果として採用する認識工程と、
を実行することを特徴とする認識方法。

（付記５）認識対象とする入力データから特徴量を抽出する特徴量抽出手順と、
パターン認識の認識項目とするカテゴリごとに当該カテゴリの平均特徴量及び識別情報を対応付けて記憶する第１の辞書記憶手段から、距離算出対象とするカテゴリに対応する平均特徴量及び識別情報を抽出するとともに、前記識別情報ごとに前記カテゴリの平均特徴量群の分布形状を１または複数代表する代表分布形状を対応付けて記憶する第２の辞書記憶手段から当該識別情報に対応する代表分布形状を抽出する抽出手順と、
前記抽出手順によって抽出されたカテゴリの代表分布形状を用いて、前記特徴量抽出手順によって入力データから抽出された特徴量と当該カテゴリの平均特徴量との距離をカテゴリごとに算出する距離算出手順と、
前記距離算出手順によって算出された距離が最小となるカテゴリを認識結果として採用する認識手順と、
を実行させることを特徴とする認識プログラム。

実施例１に係る辞書作成装置で行うクラスタリングの概念を説明するための概念図である。実施例１に係る辞書作成装置及び文字認識装置の構成を示す機能ブロック図である。実施例１に係る辞書作成処理の手順を示すフローチャートである。対応付け部の処理内容を説明するための説明図である。実施例１に係る文字認識処理の手順を示すフローチャートである。実施例２に係る辞書作成装置及び文字認識装置の構成を示す機能ブロック図である。誤読に対応関係がある文字カテゴリを説明するための説明図である。誤読対応関係記憶部に記憶される情報の構成例を示す図である。実施例３に係る文字認識プログラムを実行するコンピュータの構成を示す機能ブロック図である。

符号の説明

１０辞書作成装置
１１平均ベクトル算出部
１２分布形状算出部
１３クラスタリング部
１４分布形状決定部
１５対応付け部
１６辞書登録部
３０文字認識装置
３１辞書記憶部
３２特徴抽出部
３３文字認識部

Claims

パターン認識辞書を作成するための学習用データから、認識項目とするカテゴリごとの特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によってカテゴリごとに算出された特徴量から各カテゴリの特徴量群の分布形状を算出する分布形状算出手段と、
前記分布形状算出手段によってカテゴリごとに算出された特徴量群の分布形状をもとに、クラスタ間の評価基準としてKullback-Leibler距離を用いて、各カテゴリ間の分布形状の距離を算出する距離算出手段と、
前記距離算出手段によって算出された各カテゴリ間の分布形状の距離に基づいて、クラスタリング対象とする分布形状を決定するクラスタリング対象決定手段と、
前記クラスタリング対象決定手段によって決定されたクラスタリング対象の分布形状を代表させる代表分布形状を決定する代表分布形状決定手段と、
前記分布形状算出手段によってカテゴリごとに算出された特徴量群の分布形状と、テスト用サンプルデータとの間で認識を行う認識手段と、
前記認識手段による認識結果のうち、誤認識の割合が相互に所定の閾値より大きいカテゴリの組合せを抽出する組合せ抽出手段と、
前記クラスタリング対象決定手段によってクラスタリング対象として決定された各分布形状のうち前記組合せ抽出手段によって抽出されたカテゴリの組合せを除外してクラスタリングを行うクラスタリング手段と、
前記代表分布形状決定手段によって決定された代表分布形状と、前記クラスタリング手段によるクラスタリング後の代表分布形状の要素として含まれるカテゴリとを対応付ける対応付け手段と、
前記対応付け手段によって対応付けられた代表分布形状とカテゴリとを所定の辞書記憶手段に辞書登録する辞書登録手段と、
を備えたことを特徴とする辞書作成装置。