JP5365065B2 - 辞書作成装置 - Google Patents

辞書作成装置 Download PDF

Info

Publication number
JP5365065B2
JP5365065B2 JP2008126405A JP2008126405A JP5365065B2 JP 5365065 B2 JP5365065 B2 JP 5365065B2 JP 2008126405 A JP2008126405 A JP 2008126405A JP 2008126405 A JP2008126405 A JP 2008126405A JP 5365065 B2 JP5365065 B2 JP 5365065B2
Authority
JP
Japan
Prior art keywords
distribution shape
category
character
dictionary
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008126405A
Other languages
English (en)
Other versions
JP2009276937A (ja
Inventor
悦伸 堀田
克仁 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008126405A priority Critical patent/JP5365065B2/ja
Priority to US12/385,970 priority patent/US8379983B2/en
Priority to CN2009101384192A priority patent/CN101582118B/zh
Publication of JP2009276937A publication Critical patent/JP2009276937A/ja
Application granted granted Critical
Publication of JP5365065B2 publication Critical patent/JP5365065B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries

Description

本発明は、辞書作成装置、認識装置、認識方法及び認識プログラムに関する。
近年、カメラ付きの携帯端末の普及とともに、カメラで撮影した画像中の文字を認識、翻訳したり、あるいは文字認識の結果を入力とした情報検索を行いたいというニーズが高まりつつある。
このようなニーズに応える観点から、カメラ付き携帯端末には、文字認識装置(Optical Character Reader:OCR)が広く搭載されている。
ところが、OCRが搭載される携帯端末側から見れば、携帯性が重視される性質上、パーソナルコンピュータ(以下、PC)などの固定端末とは異なり、端末自体を小型化するためにメモリ及びCPUの基板の小型化を実現する必要性があるため、OCRを搭載するに際してのハードウェアの性能面で制約が生じる。
このような制約から、携帯端末用OCRには、簡易な文字認識方式が用いられている。例えば、かかる文字認識方式としては、文字ごとに平均ベクトルを記憶しておき、認識対象として入力された文字の特徴ベクトルと文字認識辞書に記憶した各文字の平均ベクトルとの間で距離を算出し、入力文字の特徴ベクトルとの距離が最も近い平均ベクトルを持つ文字を認識結果とするものが一般的である(例えば、特許文献1参照)。
特開平5−46812号公報
しかしながら、上記の従来技術における文字認識方式(特許文献1)は、文字認識精度におのずから限界があるという問題がある。
すなわち、認識対象として入力される文字フォントは、必ずしも固定種別の文字フォントであるとは限らず、予め学習した文字フォントについては一定の精度で認識することができても、学習していない文字フォントが入力された場合には、十分な文字認識精度を得ることはできない。
また、高精度な文字認識を実現するために、文字の平均ベクトルに加えて共分散行列より定まる固有値及び固有ベクトルを用いて文字認識を行うことも考えられるが、この場合には、固有値及び固有ベクトルを文字毎に保持した文字認識辞書が必要となり、辞書容量が膨大なサイズになる結果、携帯端末への搭載が困難になってしまうという問題がある。
特に、文字が漢字である場合には、辞書登録すべき文字の総数が約4000にも上るため、このような膨大な数の文字についての固有値及び固有ベクトルを携帯端末用OCRに辞書登録させるのは現実的とは言えない。
これらのことから、携帯端末に文字認識装置を搭載するに際して、いかにして高精度な文字認識能力を発揮させつつ、辞書容量を削減するかが課題となっている。なお、この課題は、パターン認識として文字認識を行う場合のみならず、カテゴリの確率分布を用いるパターン認識(例えば、顔画像認識など)を行う場合に広く共通するものである。
そこで、本発明は、上述した従来技術による課題(問題点)を解消するためになされたものであり、確率分布を用いた場合のパターン認識と同等の認識能力を発揮させつつ、辞書容量を削減することができる辞書作成装置、認識装置、認識方法及び認識プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、開示の装置は、パターン認識辞書を作成するための学習用データから、認識項目とするカテゴリごとの特徴量を算出する特徴量算出手段と、前記特徴量算出手段によってカテゴリごとに算出された特徴量から各カテゴリの特徴量群の分布形状を算出する分布形状算出手段と、前記分布形状算出手段によってカテゴリごとに算出された特徴量群の分布形状をもとに、各カテゴリ間の分布形状の距離を算出する距離算出手段と、前記距離算出手段によって算出された各カテゴリ間の分布形状の距離に基づいて、クラスタリング対象とする分布形状を決定するクラスタリング対象決定手段と、前記クラスタリング対象決定手段によって決定されたクラスタリング対象の分布形状を代表させる代表分布形状を決定する代表分布形状決定手段と、前記クラスタリング対象決定手段によってクラスタリング対象として決定された各分布形状をクラスタリングするクラスタリング手段と、前記代表分布形状決定手段によって決定された代表分布形状と、前記クラスタリング手段によるクラスタリング後の代表分布形状の要素として含まれるカテゴリとを対応付ける対応付け手段と、前記対応付け手段によって対応付けられた代表分布形状とカテゴリとを所定の辞書記憶手段に辞書登録する辞書登録手段と、を備えたことを要件とする。
開示の装置によれば、確率分布を用いた場合の文字認識と同等の認識能力を発揮させつつ、辞書容量を削減することが可能になる。
以下に添付図面を参照して、この発明に係る辞書作成装置、認識装置、認識方法及び認識プログラムの好適な実施の形態を詳細に説明する。なお、以下の実施例では、パターン辞書をとして文字認識辞書を作成し、該作成した文字認識辞書を用いて文字認識を行う場合について説明する。
まず、実施例1に係る辞書作成装置の概要を説明する。辞書作成装置10は、パターン認識における文字認識辞書を作成するものであり、とりわけカメラ付きの携帯端末に搭載されることを念頭に置いて文字認識辞書を作成する。
ここで、実施例1に係る辞書作成装置10は、文字認識辞書を作成する際に、特徴ベクトルの分布形状が類似する複数の文字カテゴリ間では代表の分布形状だけを辞書登録するクラスタリングを行うこととしている。
すなわち、認識対象として入力される文字フォントに左右されずに安定した文字認識能力を発揮するには、平均ベクトルだけでなく分布形状(固有値及び固有ベクトル)を用いて文字認識を行うのが好ましいが、そのために固有値及び固有ベクトルを文字カテゴリごとに辞書登録することとしたのでは辞書容量が膨大なものとなり、携帯端末への搭載には適さない。
このため、辞書作成装置10では、高水準の文字認識精度を担保するために、平均ベクトル及び共分散行列を含んで構成される確率分布を辞書登録するが、全ての文字カテゴリに各々の固有値及び固有ベクトルを対応付けて辞書登録させることはしない。なお、文字カテゴリとは、文字フォントの種類を問わず同一の文字で包含されるカテゴリを指し、共分散行列とは、特徴ベクトルの広がりを表す尺度を指す。
つまり、辞書作成装置10は、多数の文字カテゴリでは共分散行列より定まる分布形状が類似のものが存在すると考えられる点に着眼し、文字カテゴリ間で特徴ベクトルが類似する分布形状については複数の分布形状を1つの分布形状に纏めて代表させるとともに、代表させる分布形状と纏めようとする文字カテゴリとを対応付けて辞書登録する。
結果として、上記の従来技術においては、文字カテゴリ数分の分布形状の情報を辞書に持たせていたのに対し、本実施例では、代表的な分布形状のみを辞書に持つことになり、辞書として記憶させる分布形状の絶対数を低減させることができる。
このクラスタリングを図1を用いて説明する。図1は、実施例1に係る辞書作成装置で行うクラスタリングの概念を説明するための概念図である。図1の例では、図1に示すように、文字カテゴリA〜文字カテゴリDの分布形状が分布A〜分布Eであり、これら分布A〜分布Eそれぞれを1つのクラスタと見做してクラスタリングする例を示している。
図1に示すように、辞書作成装置10は、文字カテゴリA〜文字カテゴリDの分布形状だけに着目すればよいため、平均ベクトルを考慮せずに各々の分布の中心位置を合せる(1)。
そして、辞書作成装置10は、全てのクラスタのペア(=10組)について分布形状の距離を算出し、分布形状の距離が近いクラスタ同士を統合して各クラスタの分布形状を代表する代表分布形状を決定し(2)、統合後のクラスタの分布形状を代表分布形状で代用する(3)。
図1の例で言えば、分布Aと分布C、分布Cと分布E、分布Eと分布Aの組合せで分布形状の距離が近くなるため(類似度が高くなるため)、たとえば分布Aのクラスタ、分布Cのクラスタ及び分布Eのクラスタを統合するとともに、3つの統合クラスタの代表分布形状として分布Aを選択し、文字カテゴリA、C及びEを含む統合クラスタの分布形状を代表分布形状Aで代用する。
このように、本実施例によれば、平均ベクトルに加えて特徴ベクトルの分布形状を辞書登録しながらも、特徴ベクトルの分布形状が類似する複数の文字カテゴリ間では代表の分布形状だけを辞書登録するので、確率分布を用いた場合の文字認識と同等の文字認識能力を発揮させつつ、辞書容量を削減することができる。
なお、図1の例では、2次元における分布形状を例示したが、開示の辞書作成装置10は2次元の分布形状のみに限定適用されるものではなく、3次元以上の任意の次元数であっても同様にクラスタリングを行うことができる。
続いて、実施例1に係る辞書作成装置の構成について説明する。図2は、実施例1に係る辞書作成装置及び文字認識装置の構成を示す機能ブロック図である。
同図に示すように、辞書作成装置10は、平均ベクトル算出部11と、分布形状算出部12と、クラスタリング部13と、代表分布形状決定部14と、対応付け部15と、辞書登録部16とを有する。
平均ベクトル算出部11は、各文字カテゴリごとに平均ベクトルを算出する処理部である。具体的には、図示しない記憶部または外部装置から入力された学習用サンプルの文字データから各文字カテゴリの特徴ベクトルを算出し、該算出した特徴ベクトルから各文字カテゴリの平均ベクトルを算出する。
分布形状算出部12は、各文字カテゴリごとの分布形状を算出する処理部である。詳細は図3を用いて後述するが、概要としては、平均ベクトル算出部11によって各文字カテゴリごとに算出された特徴ベクトル及び平均ベクトルをもとに共分散行列を算出し、各文字カテゴリごとに算出した共分散行列から固有値及び固有ベクトルを算出する。文字の特徴ベクトルとしては、たとえば“加重方向指数ヒストグラム法による手書き漢字・ひらがな認識”(信学論 D Vol.J70−D No.7 pp.1390−1397 1987年7月)にある加重方向指数ヒストグラム特徴を用いる。
クラスタリング部13は、クラスタ(分布形状または代表分布形状)を統合する処理部である。例えば、全ての分布形状を要素数1のクラスタと見做した上で、クラスタ間の距離尺度としてKullback-Leibler距離を用いて、全てのクラスタのペア(図1の例で言えば、=10組)について分布形状の距離を算出し、全てのクラスタのペアの中で最も距離値の近いクラスタ同士を統合し、このクラスタの統合を目標とする文字認識精度から予め設定されたクラスタ数に収斂するまで繰り返し行う。クラスタリングの手法としては、たとえば階層的クラスタリングを用いる。階層的クラスタリングにおいては最終的なクラスタ数をユーザが(実験的あるいは経験的に)指定し、指定した個数になるまでクラスタリング処理が実行される。
代表分布形状決定部14は、クラスタリング部13によって統合されたクラスタの代表分布形状を決定する処理部である。例えば、図1に示す例において文字カテゴリAのクラスタと文字カテゴリCのクラスタとが統合される時には、分布Aまたは分布Cのいずれかの分布を代表分布形状として選択してもよいし、また、分布A及び分布Cを平均(例えば、相乗平均や加重平均など)したものを代表分布形状として決定してもよい。なお、分布の選択または平均は、認識頻度(照合頻度)が高い文字カテゴリの分布が優先される基準であることが好ましい。
対応付け部15は、代表分布形状決定部14によって決定された代表分布形状と、代表分布形状の要素として含まれる文字カテゴリとを対応付ける処理部である。具体的には、各文字カテゴリに分布番号及び平均ベクトルを紐付ける一方で、分布番号に代表分布形状を紐付けることにより(図4参照)、分布番号を通じて、文字カテゴリと代表分布形状(固有値及び固有ベクトル)とを対応付ける。
辞書登録部16は、対応付け部15によって対応付けられた各文字カテゴリの平均ベクトル及び代表分布形状を辞書登録する処理部である。具体的には、各文字カテゴリの平均ベクトル及び代表分布形状を携帯端末に搭載される文字認識装置30の辞書記憶部31に登録する。なお、辞書作成装置10と文字認識装置30との接続関係は、ネットワークの種別や有線または無線を問わず、また、辞書作成装置10と文字認識装置30が同一の装置に搭載されてもかまわない。
次に、実施例1に係る辞書作成装置の処理の流れについて詳細に説明する。図3は、実施例1に係る辞書作成処理の手順を示すフローチャートである。
同図に示すように、平均ベクトル算出部11は、記憶部または外部装置から入力された学習用サンプルの文字データから文字カテゴリの特徴ベクトルを算出し、該算出した特徴ベクトルから文字カテゴリの平均ベクトルを算出する(ステップS301)。
続いて、分布形状算出部12は、平均ベクトル算出部11によって算出された特徴ベクトル及び平均ベクトルをもとに共分散行列を算出する(ステップS302)。例えば、学習用データをX、X、…、X、平均ベクトルをμとした時には、共分散行列は、式(1)のように与えられる。
Figure 0005365065
さらに、分布形状算出部12は、ステップS302で算出した共分散行列から固有値及び固有ベクトルを算出する(ステップS303)。
その後、全ての文字カテゴリについて固有値及び固有ベクトルを算出すると(ステップS304肯定)、クラスタリング部13は、全てのクラスタのペアについて各カテゴリ間の分布形状の距離を算出する(ステップS305)。
例えば、クラスタ間の距離尺度としてKullback-Leibler距離を用いる場合、2つのカテゴリの分布f(x)、g(x)がともに正規分布と仮定すると、2つのカテゴリ分布間の距離は式(2)のように表される。
Figure 0005365065
f(x)の平均をμ、共分散行列をΣ、g(x)の平均をμ、共分散行列をΣとした時、上記のKullback-Leibler距離は式(3)のようになる。
Figure 0005365065
ここで、分布形状のみに着目した場合には、μ=μとおけばよいから式(4)のようになる。
Figure 0005365065
このように、2つのカテゴリ分布形状間の距離は共分散行列のみから表される。ここでIは単位行列である。
図3の説明に戻り、分布形状の距離算出後に、クラスタリング部13は、全てのクラスタのペアの中で最も距離値の近いクラスタ同士を統合し(ステップS306)、代表分布形状決定部14は、クラスタリング部13によって統合されたクラスタの代表分布形状を決定する(ステップS307)。
そして、対応付け部15は、代表分布形状決定部14によって決定された代表分布形状と、代表分布形状の要素として含まれる文字カテゴリとを対応付ける(ステップS308)。
例えば、図4の例で言えば、分布番号「1」を通じて、文字カテゴリ「A」、「C」、及び「E」と、各次元の固有値「λa1〜λan」及び固有ベクトル「Ψa1〜Ψan」とを対応付けている。
そして、クラスタリング部13によって統合された結果、クラスタ数が所定値(目標とする文字認識精度から予め設定されたクラスタ数)になるまで(ステップS309否定)、上記したステップS306〜ステップS308までの処理を繰り返し行う。
その後、クラスタ数が所定値になった場合(ステップS309肯定)には、辞書登録部16は、対応付け部15によって対応付けられた各文字カテゴリの平均ベクトル及び代表分布形状を文字認識装置30の辞書記憶部31に登録し(ステップS310)、処理を終了する。
このように、実施例1に係る辞書作成装置10によれば、パターン認識辞書を作成するための学習用データから認識項目とするカテゴリごとの特徴量を算出し、カテゴリごとに算出した特徴量から各カテゴリの特徴量群の分布形状を算出し、カテゴリごとに算出した特徴量群の分布形状をもとに、各カテゴリ間の分布形状の距離を算出し、各カテゴリ間の分布形状の距離に基づいて、クラスタリング対象とする分布形状を決定し、決定したクラスタリング対象の分布形状を代表させる代表分布形状を決定し、クラスタリング対象として決定した各分布形状をクラスタリングし、決定した代表分布形状と、クラスタリング後の代表分布形状の要素として含まれるカテゴリとを対応付け、対応付けた代表分布形状とカテゴリとを辞書記憶部31に辞書登録するように構成したので、確率分布を用いた場合の文字認識と同等の文字認識能力を発揮させつつ、辞書容量を削減することが可能になる。
かかる辞書容量の削減について具体的に説明すると、日本語の文字カテゴリ数は、約4000個存在し、統計的な文字認識を行う場合には、文字カテゴリごとに平均ベクトル、固有値及び固有ベクトルを有する。固有値、固有ベクトルについては、最大で特徴次元数分の個数を持つことができるが、実際には認識率に寄与する20個程度が辞書登録されるケースが多い。
ここで、特徴ベクトルの型をfloat型(=4byte)、固有値の型をfloat型(=4byte)、特徴次元数を300、固有値、固有ベクトルの個数を20としたときの辞書容量は、(300次元*4byte+(4+300次元*4byte)*20個)*4000カテゴリ=101.12Mbyteと計算される。
そして、4000カテゴリ毎に持っている分布形状を100個で代表させることができるとすると、そのときの辞書容量は、300次元*4byte*4000+(4+300次元*4byte)*20*100=7.2Mbyteとなる。
つまり、実施例1に係る辞書作成装置10により上記の条件下で辞書作成を行った場合、辞書容量はもとの辞書の約7%まで小さくすることが可能になる。
次に、実施例1に係る文字認識装置について説明する。この文字認識装置30は、携帯端末に搭載されるOCRであり、辞書作成装置10によって登録された文字認識辞書を有している。
図2に示すように、文字認識装置30は、辞書記憶部31と、特徴抽出部32と、文字認識部33とを有する。
辞書記憶部31は、各文字カテゴリごとに平均ベクトル及び代表分布形状を記憶する不揮発性メモリ等の記憶デバイスである。例えば、図4に示すように、各文字カテゴリごとに分布番号及び平均ベクトルを記憶するテーブルと、分布番号ごとに代表分布形状を記憶するテーブルとを内在する。このように、分布番号及び代表分布形状を記憶するテーブルを分ける理由は、分布番号をポインタとして利用して複数の文字カテゴリ間の分布形状を代表管理し、辞書容量を削減するためである。
特徴抽出部32は、入力文字データから特徴ベクトルを抽出する処理部である。なお、文字データは、イメージスキャナ等によって入力してもよいし、ネットワークを介して外部装置から取得してもよい。
文字認識部33は、統計分布に基づく文字認識を行う処理部である。詳細は図5を用いて後述するが、概要としては、辞書記憶部31よって記憶された文字カテゴリの分布形状を用いて、入力文字の特徴ベクトルと文字カテゴリの平均ベクトルとの統計分布に基づく距離を計算し、距離値が最小となる文字カテゴリを入力文字の文字カテゴリと決定する。
次に、実施例1に係る文字認識装置30の処理の流れについて説明する。図5は、実施例1に係る文字認識処理の手順を示すフローチャートである。
図5に示すように、特徴抽出部32は、イメージスキャナ等を介して入力された入力文字データから文字カテゴリの特徴ベクトルを抽出する(ステップS501)。
続いて、文字認識部33は、辞書記憶部31を参照して、今回の算出対象となる文字カテゴリの平均ベクトル及び分布番号を読み出すとともに、当該分布番号をもとに代表分布形状を呼び出し、入力文字の特徴ベクトルと文字カテゴリの平均ベクトルとの統計分布に基づく距離を算出する(ステップS502)。
例えば、統計分布に基づく距離尺度としてマハラノビス距離を用いるとした場合、入力文字の特徴をx、ある文字カテゴリの平均ベクトルをμ、共分散行列をΣとしたとき、
マハラノビス距離は式(5)で表される。
Figure 0005365065
特徴ベクトルの次元数をn、共分散行列のk番目の固有値をλ、λに対応する固有ベクトルをΨとしたとき、式(5)は式(6)のように表わされる。
Figure 0005365065
この式(6)を用いて、入力文字の特徴ベクトルと文字カテゴリの平均ベクトルとのマハラノビス距離を計算する。
その後、全ての文字カテゴリについてマハラノビス距離を算出すると(ステップS503肯定)、文字認識部33は、距離値が最小となる文字カテゴリを入力文字の文字カテゴリと決定し(ステップS504)、処理を終了する。
上述してきたように、実施例1に係る文字認識装置30によれば、分布番号ごとに代表分布形状を対応付けて記憶する一方で、文字カテゴリごとに平均ベクトル及び分布番号対応付けて記憶し、認識対象とする入力文字データから特徴ベクトルを抽出し、距離算出対象とする文字カテゴリに対応する平均ベクトル及び分布番号を抽出するとともに、該分布番号に対応する代表分布形状を抽出し、該抽出した文字カテゴリの代表分布形状を用いて、入力データから抽出した特徴ベクトルと当該文字カテゴリの平均ベクトルとの距離を文字カテゴリごとに算出し、算出した距離が最小となる文字カテゴリを認識結果として採用するように構成したので、複数の文字カテゴリの分布形状が1つの代表分布形状に纏められたパターン辞書を用いて統計的な文字認識を行うことができ、確率分布を用いた場合の文字認識と同等の文字認識能力を発揮するとともに、辞書容量を削減することが可能になる。
さて、上記実施例1では、クラスタリングを行う際に制約を設けずに分布形状をクラスタリングする場合について説明したが、分布形状の距離にかかわらず、クラスタリングを行わない方が得策な文字カテゴリも存在する。
すなわち、文字認識においては、たとえば「玉」と「王」などの類似字形文字に対して誤読が生じやすいという傾向があり、これらの類似字形文字を認識する場合には、文字カテゴリ間での分布形状の微妙な違いが認識に寄与していることが多く、このような類似字形文字の分布形状をクラスタリングしてしまうと、文字認識率が低下する可能性がある。
そこで、実施例2では、誤読率の高い文字の分布形状についてはクラスタリングの対象から除外した上で、分布形状のクラスタリングを行うことで、誤読の生じやすい文字の分布形状については、クラスタリングによって他の分布形状で代用せず、本来の分布形状をそのまま辞書登録することができる辞書作成装置について説明する。
図6は、実施例2に係る辞書作成装置及び文字認識装置の構成を示す機能ブロック図である。図6に示すように、辞書作成装置50は、実施例1に係る辞書作成装置10に比較して、文字認識部51と、誤読組合せ抽出部52と、誤読対応関係記憶部53とを新たに有する点が相違する。なお、ここでは、実施例1と同様の機能を発揮するものについてはその説明を省略する。
文字認識部51は、分布形状算出部12によって算出された各文字カテゴリの固有値及び固有ベクトルと、テスト用サンプルの文字データとの文字認識を行う処理部であり、文字認識手法としては、たとえば部分空間法などを用いる。なお、必ずしも分布形状算出部12によって算出された固有値及び固有ベクトルを用いる必要はなく、各文字カテゴリの固有値及び固有ベクトルを記憶する辞書そのものは公知であるため、かかる辞書を用いるようにしてもかまわない。
誤読組合せ抽出部52は、文字認識部51の認識結果から、誤認識の割合が閾値より大きい文字カテゴリの組合せを抽出する処理部である。例えば、各々の文字が相互に5回誤認識された場合にクラスタリングから除外するとした時には、文字認識部51の認識結果が図7に示すものであるならば、文字カテゴリAの入力時に文字カテゴリDに10回誤認識され、また、文字カテゴリDの入力時に文字カテゴリAに8回誤認識されており、文字間の相互の誤認識の回数が先の閾値5回を超えるので、文字カテゴリA及びDを誤読組合せとして抽出する。
誤読対応関係記憶部53は、誤読組合せ抽出部52によって抽出された誤読組合せを記憶する不揮発性メモリ等の記憶デバイスである。例えば、図8に示すように、誤読組合せ抽出部52によって誤読組合せとして抽出された文字カテゴリのペアを記憶する。
このように、誤読組合せ抽出部52によって抽出された誤読組合せを誤読対応関係記憶部53に記憶しておけば、クラスタリング部54がクラスタリングを行う前に誤読組合せとして記憶された文字カテゴリのクラスタを除外してクラスタリングを行うことができる。
したがって、実施例2に係る辞書作成装置50によれば、文字カテゴリごとに算出した特徴ベクトルの分布形状と、テスト用サンプルデータとの間で文字認識を行い、該認識結果のうち、誤認識の割合が相互に所定の閾値より大きい文字カテゴリの組合せを抽出し、抽出したカテゴリの組合せを除外してクラスタリング対象とする分布形状を決定するように構成したので、類似字形文字の分布形状をクラスタリングすることを防止でき、誤認識の可能性を抑制できる結果、文字認識精度が低下することを防止することが可能になる。
なお、上記実施例1及び2では、パターン辞書をとして文字認識辞書を作成し、該作成した文字認識辞書を用いて文字認識を行う場合について説明したが、広くカテゴリの確率分布を用いるパターン認識(例えば、顔画像認識)を行う場合には同様に適用することが可能である。
ところで、上記の実施例1では、文字認識装置について説明したが、文字認識装置が有する構成をソフトウェアによって実現することで、同様の機能を有する文字認識プログラムを得ることができる。そこで、ここでは、文字認識プログラムを実行するコンピュータについて説明する。
図9は、実施例3に係る文字認識プログラムを実行するコンピュータの構成を示す機能ブロック図である。同図に示すように、このコンピュータ300は、RAM310と、CPU320と、HDD330と、LANインタフェース340と、入出力インタフェース350とを有する。
RAM310は、プログラムやプログラムの実行途中結果などを記憶するメモリであり、CPU320は、RAM310からプログラムを読み出して実行する中央処理装置である。HDD330は、プログラムやデータを格納するディスク装置であり、LANインタフェース340は、コンピュータ300を無線LAN経由もしくはLANケーブルで他のコンピュータに接続するためのインタフェースであり、入出力インタフェース350は、ディスプレイなどの入出力装置を接続するためのインタフェースである。
そして、このコンピュータ300において実行される文字認識プログラム311は、LANインタフェース340を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータ300にインストールされる。そして、インストールされた文字認識プログラム311は、HDD330に記憶され、RAM310に読み出されてCPU320によって実行される。
このように文字認識プログラム311によって得られた出力結果(文字認識結果)は、ディスプレイに表示、プリンターで印刷、データとして記憶装置に記憶したり、また、ネットワークを通じて他のコンピュータに送信等、有形の結果(tangible result)として出力される。
以上の実施例1〜3を含む実施形態に関し、更に以下の付記を開示する。
(付記1)パターン認識辞書を作成するための学習用データから、認識項目とするカテゴリごとの特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によってカテゴリごとに算出された特徴量から各カテゴリの特徴量群の分布形状を算出する分布形状算出手段と、
前記分布形状算出手段によってカテゴリごとに算出された特徴量群の分布形状をもとに、各カテゴリ間の分布形状の距離を算出する距離算出手段と、
前記距離算出手段によって算出された各カテゴリ間の分布形状の距離に基づいて、クラスタリング対象とする分布形状を決定するクラスタリング対象決定手段と、
前記クラスタリング対象決定手段によって決定されたクラスタリング対象の分布形状を代表させる代表分布形状を決定する代表分布形状決定手段と、
前記クラスタリング対象決定手段によってクラスタリング対象として決定された各分布形状をクラスタリングするクラスタリング手段と、
前記代表分布形状決定手段によって決定された代表分布形状と、前記クラスタリング手段によるクラスタリング後の代表分布形状の要素として含まれるカテゴリとを対応付ける対応付け手段と、
前記対応付け手段によって対応付けられた代表分布形状とカテゴリとを所定の辞書記憶手段に辞書登録する辞書登録手段と、
を備えたことを特徴とする辞書作成装置。
(付記2)前記分布形状算出手段によってカテゴリごとに算出された特徴量群の分布形状と、テスト用サンプルデータとの間で認識を行う認識手段と、
前記認識手段による認識結果のうち、誤認識の割合が相互に所定の閾値より大きいカテゴリの組合せを抽出する組合せ抽出手段と、
前記クラスタリング対象決定手段は、
前記組合せ抽出手段によって抽出されたカテゴリの組合せを除外してクラスタリング対象とする分布形状を決定することを特徴とする付記1に記載の辞書作成装置。
(付記3)パターン認識の認識項目とするカテゴリごとに、当該カテゴリの平均特徴量及び識別情報を対応付けて記憶する第1の辞書記憶手段と、
前記識別情報ごとに、前記カテゴリの平均特徴量群の分布形状を1または複数代表する代表分布形状を対応付けて記憶する第2の辞書記憶手段と、
認識対象とする入力データから特徴量を抽出する特徴量抽出手段と、
距離算出対象とするカテゴリに対応する平均特徴量及び識別情報を第1の辞書記憶手段から抽出するとともに、該識別情報に対応する代表分布形状を前記第2の辞書記憶手段から抽出する抽出手段と、
前記抽出手段によって抽出されたカテゴリの代表分布形状を用いて、前記特徴量抽出手段によって入力データから抽出された特徴量と当該カテゴリの平均特徴量との距離をカテゴリごとに算出する距離算出手段と、
前記距離算出手段によって算出された距離が最小となるカテゴリを認識結果として採用する認識手段と、
を備えたことを特徴とする認識装置。
(付記4)認識対象とする入力データから特徴量を抽出する特徴量抽出工程と、
パターン認識の認識項目とするカテゴリごとに当該カテゴリの平均特徴量及び識別情報を対応付けて記憶する第1の辞書記憶手段から、距離算出対象とするカテゴリに対応する平均特徴量及び識別情報を抽出するとともに、前記識別情報ごとに前記カテゴリの平均特徴量群の分布形状を1または複数代表する代表分布形状を対応付けて記憶する第2の辞書記憶手段から当該識別情報に対応する代表分布形状を抽出する抽出工程と、
前記抽出工程によって抽出されたカテゴリの代表分布形状を用いて、前記特徴量抽出工程によって入力データから抽出された特徴量と当該カテゴリの平均特徴量との距離をカテゴリごとに算出する距離算出工程と、
前記距離算出工程によって算出された距離が最小となるカテゴリを認識結果として採用する認識工程と、
を実行することを特徴とする認識方法。
(付記5)認識対象とする入力データから特徴量を抽出する特徴量抽出手順と、
パターン認識の認識項目とするカテゴリごとに当該カテゴリの平均特徴量及び識別情報を対応付けて記憶する第1の辞書記憶手段から、距離算出対象とするカテゴリに対応する平均特徴量及び識別情報を抽出するとともに、前記識別情報ごとに前記カテゴリの平均特徴量群の分布形状を1または複数代表する代表分布形状を対応付けて記憶する第2の辞書記憶手段から当該識別情報に対応する代表分布形状を抽出する抽出手順と、
前記抽出手順によって抽出されたカテゴリの代表分布形状を用いて、前記特徴量抽出手順によって入力データから抽出された特徴量と当該カテゴリの平均特徴量との距離をカテゴリごとに算出する距離算出手順と、
前記距離算出手順によって算出された距離が最小となるカテゴリを認識結果として採用する認識手順と、
を実行させることを特徴とする認識プログラム。
実施例1に係る辞書作成装置で行うクラスタリングの概念を説明するための概念図である。 実施例1に係る辞書作成装置及び文字認識装置の構成を示す機能ブロック図である。 実施例1に係る辞書作成処理の手順を示すフローチャートである。 対応付け部の処理内容を説明するための説明図である。 実施例1に係る文字認識処理の手順を示すフローチャートである。 実施例2に係る辞書作成装置及び文字認識装置の構成を示す機能ブロック図である。 誤読に対応関係がある文字カテゴリを説明するための説明図である。 誤読対応関係記憶部に記憶される情報の構成例を示す図である。 実施例3に係る文字認識プログラムを実行するコンピュータの構成を示す機能ブロック図である。
符号の説明
10 辞書作成装置
11 平均ベクトル算出部
12 分布形状算出部
13 クラスタリング部
14 分布形状決定部
15 対応付け部
16 辞書登録部
30 文字認識装置
31 辞書記憶部
32 特徴抽出部
33 文字認識部

Claims (1)

  1. パターン認識辞書を作成するための学習用データから、認識項目とするカテゴリごとの特徴量を算出する特徴量算出手段と、
    前記特徴量算出手段によってカテゴリごとに算出された特徴量から各カテゴリの特徴量群の分布形状を算出する分布形状算出手段と、
    前記分布形状算出手段によってカテゴリごとに算出された特徴量群の分布形状をもとに、クラスタ間の評価基準としてKullback-Leibler距離を用いて、各カテゴリ間の分布形状の距離を算出する距離算出手段と、
    前記距離算出手段によって算出された各カテゴリ間の分布形状の距離に基づいて、クラスタリング対象とする分布形状を決定するクラスタリング対象決定手段と、
    前記クラスタリング対象決定手段によって決定されたクラスタリング対象の分布形状を代表させる代表分布形状を決定する代表分布形状決定手段と、
    前記分布形状算出手段によってカテゴリごとに算出された特徴量群の分布形状と、テスト用サンプルデータとの間で認識を行う認識手段と、
    前記認識手段による認識結果のうち、誤認識の割合が相互に所定の閾値より大きいカテゴリの組合せを抽出する組合せ抽出手段と、
    前記クラスタリング対象決定手段によってクラスタリング対象として決定された各分布形状のうち前記組合せ抽出手段によって抽出されたカテゴリの組合せを除外してクラスタリングを行うクラスタリング手段と、
    前記代表分布形状決定手段によって決定された代表分布形状と、前記クラスタリング手段によるクラスタリング後の代表分布形状の要素として含まれるカテゴリとを対応付ける対応付け手段と、
    前記対応付け手段によって対応付けられた代表分布形状とカテゴリとを所定の辞書記憶手段に辞書登録する辞書登録手段と、
    を備えたことを特徴とする辞書作成装置。
JP2008126405A 2008-05-13 2008-05-13 辞書作成装置 Expired - Fee Related JP5365065B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008126405A JP5365065B2 (ja) 2008-05-13 2008-05-13 辞書作成装置
US12/385,970 US8379983B2 (en) 2008-05-13 2009-04-24 Dictionary creating apparatus, recognizing apparatus, and recognizing method
CN2009101384192A CN101582118B (zh) 2008-05-13 2009-05-11 字符字典创建装置、字符识别装置及字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008126405A JP5365065B2 (ja) 2008-05-13 2008-05-13 辞書作成装置

Publications (2)

Publication Number Publication Date
JP2009276937A JP2009276937A (ja) 2009-11-26
JP5365065B2 true JP5365065B2 (ja) 2013-12-11

Family

ID=41316238

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008126405A Expired - Fee Related JP5365065B2 (ja) 2008-05-13 2008-05-13 辞書作成装置

Country Status (3)

Country Link
US (1) US8379983B2 (ja)
JP (1) JP5365065B2 (ja)
CN (1) CN101582118B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2450850B1 (en) * 2009-07-01 2020-12-23 Nec Corporation System and method for extracting representative feature
KR101782978B1 (ko) 2010-11-12 2017-09-29 삼성전자주식회사 참조 데이터의 가용성에 기초하여 영상 데이터를 복호화하는 장치 및 방법
CN103559504B (zh) * 2013-11-04 2016-08-31 北京京东尚科信息技术有限公司 图像目标类别识别方法及装置
CN111459395A (zh) * 2020-03-30 2020-07-28 北京集创北方科技股份有限公司 手势识别方法、系统、存储介质、人机交互设备
CN111783126B (zh) * 2020-07-21 2022-04-29 支付宝(杭州)信息技术有限公司 一种隐私数据识别方法、装置、设备和可读介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4308523A (en) * 1980-02-04 1981-12-29 Compuscan, Incorporated Apparatus and method for character recognition
US4658429A (en) * 1983-12-29 1987-04-14 Hitachi, Ltd. System and method for preparing a recognition dictionary
US5142593A (en) * 1986-06-16 1992-08-25 Kabushiki Kaisha Toshiba Apparatus and method for classifying feature data at a high speed
JPH04316183A (ja) * 1991-04-16 1992-11-06 Seiko Epson Corp 文字認識装置
JPH0546812A (ja) 1991-08-20 1993-02-26 Ricoh Co Ltd 文字の大分類認識方法
JPH08137997A (ja) * 1994-11-09 1996-05-31 Seiko Epson Corp 文字認識方法および文字認識装置
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US6345119B1 (en) * 1996-02-19 2002-02-05 Fujitsu Limited Handwritten character recognition apparatus and method using a clustering algorithm
JPH11203413A (ja) * 1998-01-19 1999-07-30 Fuji Xerox Co Ltd 類似カテゴリ識別辞書作成装置および方法
JPH11345338A (ja) * 1998-05-29 1999-12-14 Ricoh Co Ltd パターン辞書作成装置およびパターン辞書作成方法,並びにパターン辞書作成方法をコンピュータに記録した機械読み取り可能な記録媒体
JPH11345337A (ja) * 1998-05-29 1999-12-14 Ricoh Co Ltd パターン辞書作成装置およびパターン辞書作成方法,並びにパターン辞書作成方法をコンピュータに記録した機械読み取り可能な記録媒体
CN1145872C (zh) * 1999-01-13 2004-04-14 国际商业机器公司 手写汉字自动分割和识别方法以及使用该方法的系统
JP2002099723A (ja) * 2000-09-21 2002-04-05 Casio Comput Co Ltd 割引利得の自動積立システム、自動積立方法、および記憶媒体
US20030097196A1 (en) * 2001-11-13 2003-05-22 Koninklijke Philips Electronics N.V. Method and apparatus for generating a stereotypical profile for recommending items of interest using item-based clustering
JP4316183B2 (ja) 2002-03-29 2009-08-19 京セラキンセキ株式会社 単結晶の育成方法
US7620204B2 (en) * 2006-02-09 2009-11-17 Mitsubishi Electric Research Laboratories, Inc. Method for tracking objects in videos using covariance matrices
US8121347B2 (en) * 2006-12-12 2012-02-21 Rutgers, The State University Of New Jersey System and method for detecting and tracking features in images

Also Published As

Publication number Publication date
JP2009276937A (ja) 2009-11-26
CN101582118A (zh) 2009-11-18
US8379983B2 (en) 2013-02-19
CN101582118B (zh) 2012-09-26
US20090285490A1 (en) 2009-11-19

Similar Documents

Publication Publication Date Title
EP2808827B1 (en) System and method for OCR output verification
US8977042B2 (en) Rotation-free recognition of handwritten characters
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
JP5522408B2 (ja) パターン認識装置
US20060050962A1 (en) System, process and software arrangement for recognizing handwritten characters
US20170076152A1 (en) Determining a text string based on visual features of a shred
CN111428557A (zh) 基于神经网络模型的手写签名的自动校验的方法和装置
WO2021042505A1 (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
JP5365065B2 (ja) 辞書作成装置
US7136526B2 (en) Character string recognition apparatus, character string recognizing method, and storage medium therefor
CN112861842A (zh) 基于ocr的案件文本识别方法及电子设备
TW399188B (en) Method and apparatus for recognizing patterns
CN115937873A (zh) 一种基于可辨识单字字符的在线笔迹验证系统及方法
CN110414622B (zh) 基于半监督学习的分类器训练方法及装置
JPH11203415A (ja) 類似パターンカテゴリ識別辞書作成装置および方法
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
US6320985B1 (en) Apparatus and method for augmenting data in handwriting recognition system
CN114299509A (zh) 一种获取信息的方法、装置、设备及介质
US11361529B2 (en) Information processing apparatus and non-transitory computer readable medium
JP5683287B2 (ja) パターン認識装置及びパターン認識方法
CN115346225A (zh) 书写测评方法、装置及设备
JP3180792B2 (ja) 文字認識装置、文字学習装置およびコンピュータ可読記録媒体
JP3280577B2 (ja) 文字認識装置
Zhou et al. Character recognition under severe perspective distortion
CN117037165A (zh) 一种汉字识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130813

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130826

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees