JP4336516B2

JP4336516B2 - 特徴量次元圧縮装置、マッチング装置、プログラム及び記憶媒体

Info

Publication number: JP4336516B2
Application number: JP2003106174A
Authority: JP
Inventors: 秀明山形; 成征大羽; 信石井
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2003-04-10
Filing date: 2003-04-10
Publication date: 2009-09-30
Anticipated expiration: 2023-04-10
Also published as: JP2004310639A

Description

【０００１】
【発明の属する技術分野】
この発明は、特徴量次元圧縮装置、マッチング装置、プログラム及び記憶媒体に関する。
【０００２】
【従来の技術】
文字認識技術については、特許文献１，２に開示されている。また、正準判別分析の技術については、特許文献３に開示されている。
【０００３】
【特許文献１】
特開２００１−５２１１３公報
【特許文献２】
特開平６−２３１３０９号公報
【特許文献３】
特開２００１−５２１１５公報
【０００４】
【発明が解決しようとする課題】
しかしながら、従来の文字認識技術においては、低品質文字に対する認識性能が向上させようとすると、高品質文字に対する認識性能が低下し、あるいは、高品質文字に対する認識性能に悪影響を与えるという不具合があった。
【０００５】
また、文字認識技術などにおいては、画像を読み込むスキャナの特性などを考慮して、低品質な文字画像を認識するためには多くの学習データを収集する必要があった。フォントデータを展開して作成された高品質な文字画像では、データの収集は容易であるが、実際に原稿をスキャンして得られた文字画像にはノイズなどが乗っており、そのような低品質なデータの認識に不具合を生じることがあった。このように、一般的に高品質な（典型的な）データセットは収集することが容易であるが、低品質なデータセットは種類も多く、データを収集することが困難、あるいは作業量が多い。そこで、高品質なデータセットのみを用いて、低品質なデータにも絶えうる文字認識技術が望まれている。
【０００６】
さらに、統計的手法においてはしばしば学習時間が問題となり、正準判別分析も例外ではなく、少しでも学習時間を減らすことが望ましい。
【０００７】
本発明は、高品質データに対する認識性能を保持しつつ、また、高品質データに対する悪影響なしに、低品質データに対する認識性能を向上させることができるようにすることである。
【０００８】
【課題を解決するための手段】
本発明は、クラス内分散、クラス間分散を利用して正準判別分析を用いた特徴量の次元圧縮を行う特徴量次元圧縮装置において、学習データについて誤りを許容しない高品質セットと品質が低いためある程度の誤りを許容する低品質セットとに分類して記憶する記憶手段と、前記高品質セットを用いて前記低品質セットは用いることなくクラス間分散行列を算出するクラス間分散行列算出手段と、前記低品質セットを用いて前記高品質セットは用いることなくクラス内分散行列を算出するクラス内分散行列算出手段と、を備えていることを特徴とする特徴量次元圧縮装置である。
【０００９】
したがって、高品質データに対する認識性能を保持しつつ、また、高品質データに対する悪影響なしに、低品質データに対する認識性能を向上させることができる。
【００１０】
本発明は、クラス内分散、クラス間分散を利用して正準判別分析を用いた特徴量の次元圧縮を行なってパターンマッチングを実行するマッチング装置において、学習データについて誤りを許容しない高品質セットと品質が低いためある程度の誤りを許容する低品質セットとに分類して記憶する記憶手段と、前記高品質セットを用いて前記低品質セットは用いることなくクラス間分散行列を算出するクラス間分散行列算出手段と、前記低品質セットを用いて前記高品質セットは用いることなくクラス内分散行列を算出するクラス内分散行列算出手段と、を備えていることを特徴とするマッチング装置である。
【００１１】
したがって、高品質データに対する認識性能を保持しつつ、また、高品質データに対する悪影響なしに、低品質データに対する認識性能を向上させることができる。
【００１２】
本発明は、前記マッチング装置において、クラス内分散行列算出手段は、前記クラス内分散行列の算出の際に、前記低品質セットの中から一部のカテゴリのデータを選択し、選択されたデータについてクラス内分散を算出すること、を特徴とする。
【００１３】
したがって、低品質セットの中から一部のカテゴリのデータを選択し、選択されたデータについてクラス内分散を算出することで、品質データに対する認識性能を保持しつつ、また、高品質データに対する悪影響なしに、低品質データに対する認識性能を向上させることができる。
【００１４】
請求項４に記載の発明は、請求項２又は３に記載のマッチング装置において、前記特徴量の次元圧縮を多段階に行い、この多段階の各段で分割するクラス数が圧縮次元数よりも多い場合には前記正準判別分析による次元圧縮を用い、それ以外の場合には他の種類の次元圧縮を用いること、を特徴とする。
【００１５】
したがって、正準判別分析による次元圧縮を含めて次元圧縮を多段階に行なうことができる。
【００１６】
請求項５に記載の発明は、前請求項４に記載のマッチング装置において、記他の種類の次元圧縮として主成分分析を用いる次元圧縮を行うこと、を特徴とする。
【００１７】
したがって、正準判別分析による次元圧縮、主成分分析を用いる次元圧縮により、次元圧縮を多段階に行なうことができる。
【００１８】
請求項６に記載の発明は、正準判別分析を用いた特徴量の次元圧縮をコンピュータに実行させるコンピュータに読み取り可能なプログラムにおいて、学習データについて誤りを許容しない高品質セットと品質が低いためある程度の誤りを許容する低品質セットとに分類して記憶する記憶処理と、前記高品質セットを用いて前記低品質セットは用いることなくクラス間分散行列を算出するクラス間分散行列算出処理と、前記低品質セットを用いて前記高品質セットは用いることなくクラス内分散行列を算出するクラス内分散行列算出処理と、をコンピュータに実行させることを特徴とするプログラムである。
【００１９】
したがって、高品質データに対する認識性能を保持しつつ、また、高品質データに対する悪影響なしに、低品質データに対する認識性能を向上させることができる。
【００２０】
請求項７に記載の発明は、クラス内分散、クラス間分散を利用して正準判別分析を用いた特徴量の次元圧縮を行なってパターンマッチングをコンピュータに実行させるコンピュータに読み取り可能なプログラムにおいて、学習データについて誤りを許容しない高品質セットと品質が低いためある程度の誤りを許容する低品質セットとに分類して記憶する記憶手段と、前記高品質セットを用いて前記低品質セットは用いることなくクラス間分散行列を算出するクラス間分散行列算出手段と、前記低品質セットを用いて前記高品質セットは用いることなくクラス内分散行列を算出するクラス内分散行列算出手段と、をコンピュータに実行させるプログラムである。
【００２１】
したがって、高品質データに対する認識性能を保持しつつ、また、高品質データに対する悪影響なしに、低品質データに対する認識性能を向上させることができる。
【００２２】
請求項８に記載の発明は、プログラムを記憶している記憶媒体において、請求項６又は７に記載のプログラムを記憶していること、を特徴とする記憶媒体である。
【００２３】
したがって、記憶しているプログラムにより請求項６又は７に記載の発明と同様の作用、効果を奏することができる。
【００２４】
【発明の実施の形態】
本発明の一実施の形態について説明する。
【００２５】
図１は、本実施の形態の文字認識装置１のハードウエア構成を示す電気的な接続のブロック図である。図１に示すように、文字認識装置１は、本発明の特徴量次元圧縮装置、マッチング装置を実施するものであり、各種演算を行ない、文字認識装置１の各部を集中的に制御するＣＰＵ１１と、各種のＲＯＭ、ＲＡＭからなるメモリ１２とが、バス１３で接続されている。
【００２６】
バス１３には、所定のインターフェイスを介して、ハードディスクなどの磁気記憶装置１４と、マウス、キーボード等により構成される入力装置１５と、表示装置１６と、光ディスクなどの記憶媒体１７を読み取る記憶媒体読取装置１８とが接続され、また、ネットワーク２と通信を行なう所定の通信インターフェイス１９が接続されている。なお、記憶媒体１７としては、ＣＤ，ＤＶＤなどの光ディスク、光磁気ディスク、フレキシブルディスクなどの各種メディアを用いることができる。また、記憶媒体読取装置１８は、具体的には記憶媒体１７の種類に応じて光ディスク装置、光磁気ディスク装置、フレキシブルディスク装置などが用いられる。
【００２７】
文字認識装置１では、この発明の記憶媒体を実施する記憶媒体１７から、この発明のプログラムを実施するプログラム２０を読み取って、磁気記憶装置１４にインストールする。これらのプログラム２０はネットワーク２や、インターネットを介してダウンロードしてインストールするようにしてもよい。このインストールにより、文字認識装置１は、後述の所定の処理の実行が可能な状態となる。なお、プログラム２０は、所定のＯＳ上で動作するものであってもよい。
【００２８】
［射影ベクトルの算出について］
図２は、プログラム２０に基づいて動作する文字認識装置１の射影ベクトルの算出までの処理の機能ブロック図である。また、図３は、文字認識装置１が実行する射影ベクトルの算出までの処理のフローチャートである。図２に示す各部は、図１に例示するハードウエア上でプログラム２０が動作することにより実現する。
【００２９】
ここでは、文字認識装置１により、文字画像から得られた特徴ベクトルの次元圧縮を行う場合について説明する。ユーザはフォント展開文字画像及び図示しないスキャナから読み込んだ文字画像を用意し、適当な手段で「転写紙通過領域でジャムが発生した場合でも転写紙を容易に除去することができ、これにより転写紙の取出し性を一段と向上させることができる」という有利な効果特徴ベクトルに変換する。文字画像からの特徴抽出方法については数多くの方法が提案されており、いかなる手法を用いた場合でも本実施の形態では成立するので、ここでの説明は省略する。
【００３０】
ユーザは収集した学習データを、データ分類部２１に入力する。データ分類部２１においては、フォント展開文字画像から得られた特徴ベクトル、は誤りを許容する高品質セットに、他の特徴ベクトルは、品質が低いためある程度の誤りを許容する低品質セットに分類し（ステップＳ１）、それぞれ高品質保存部２２、低品質保存部２３に保存する（ステップＳ２，Ｓ３）。あるいは、ユーザが他の手法で適宜学習セットを分類して、文字認識装置１に対して高品質セットと低品質セットを別々に入力するように構成してもよい。データ分類部２１、高品質保存部２２、低品質保存部２３により記憶手段を、ステップＳ１〜Ｓ３の処理により記憶処理を、それぞれ実現している。
【００３１】
クラス内分散行列算出手段であるクラス内分散算出部２４においては、低品質保存部２３内の低品質特徴ベクトル群を用いて、高品質保存部２２内の高品質特徴ベクトル群を用いずに、クラス内分散行列を算出する（クラス内分散行列算出処理）（ステップＳ４）。クラス内分散の算出方法については詳細を後述する。クラス内分散行列が算出されたならば、それを固有値／固有ベクトル算出部２５へ送付する。
【００３２】
一方、クラス間分散行列算出手段であるクラス間分散算出部２６においては、高品質保存部２２内の高品質特徴ベクトル群を用いて、低品質保存部２３内の低品質特徴ベクトル群は用いずに、クラス間分散行列を算出する（クラス間分散行列算出処理）（ステップＳ５）。クラス間分散の算出方法については詳細を後述する。クラス間分散行列が算出されたならば、それを固有値／固有ベクトル算出部２５へ送付する。
【００３３】
固有値／固有ベクトル算出部２５では、送られてきたクラス内分散行列と、クラス間分散行列を用いて、後述の（１）式を用いて固有値／固有ベクトルを算出する（ステップＳ６）。
【００３４】
算出された固有値／固有ベクトルは、射影ベクトル算出部へ送付され、射影行列算出部２７では、送られてきた固有値／固有ベクトルを再構成して射影行列を得る（ステップＳ７）。その詳細については後述する。算出された射影行列は、射影行列保存部２８に保存する。
【００３５】
このようにして射影行列を求めることで、高品質文字に対する認識性能を低下させずに、低品質文字に対する認識性能が向上することが実験的に確認できた。
【００３６】
次に、射影ベクトルの算出までの処理の他の例について説明する。この例においても、そのハードウエア構成は図１のものと同様である。図４は、本例における機能ブロック図であり、図５はフローチャートである。図４に示す各部は、図１に例示するハードウエア上でプログラム２０が動作することにより実現する。なお、図２、図３と同一符号の装置、処理は、図２、図３を参照して説明した前述の例と同様であるため、詳細な説明は省略する。
【００３７】
本例でも、文字認識の場合を例にとって説明する。文字認識の場合、クラス内分散は主に原稿をスキャンする際に画像にのるノイズなどに起因して値が変動する場合が多い。したがって、文字が同じであれば、フォントなど字形が少々変化しても大きな変動は生じない場合が多い。その一方で、特定の原稿セットなどを認識する場合には、特定のフォントセットに認識対象を限定して、認識系を再設計（パターン辞書を再作成）する場合も多い。このような場合、毎回低品質データセットを収集するのには非常に労力がかかるため、特注対応による高コスト化が問題となる。
【００３８】
そこで、スキャナ変化などのクラス内分散の要因となる低品質データを収集し、それに対するクラス内分散行列を算出したならば、認識対象フォントなどが代わった場合でも、そのクラス内分散行列を流用する手法が考えられる。
【００３９】
まず、クラス内分散行列については、すでに実施の形態１に示す方法で過去に算出されたものが、クラス内分散保存部３１に保存されているものとする。ユーザは新しい認識対象について、実施の形態１と同様に学習データを収集する。その際、クラス内分散は過去のものを流用するので、高品質なデータセットのみを収集すればよい。
【００４０】
収集したデータは高品質保存部２２に入力しておく。入力されたならば、クラス間分散算出部２６においては、実施の形態１と同様の処理を行う（ステップＳ１１）。
【００４１】
固有値／固有ベクトル算出部２５では、クラス間分散行列が送られてきたならば、クラス内分散保存部３１内のクラス内分散行列を参照して、実施の形態１と同様に固有値／固有ベクトルを算出する（ステップＳ１２）。そして、射影行列算出部２７における処理は実施例１と同様である（ステップＳ１３）。
【００４２】
以上のような処理を実行することにより、低品質データの収集作業から開放されるとともに、高品質画像に対する性能の低下なしに低品質画像に対する性能を向上させることが実験により確認できた。
【００４３】
以上、射影ベクトルの算出までについて説明した。このようにして射影行列を算出することで、特徴量の次元圧縮が可能となり、後段の処理であるマッチング処理の時間を低減することができる。
【００４４】
［多段階認識を用いたマッチングについて］
ここでは、前述のように算出した射影行列を用いて行う、多段階認識を用いたマッチング処理について説明する。
【００４５】
この場合のハードウエア構成は図１のものと同様である。図６は、この場合の処理を実行する際の機能ブロック図であり、図７はフローチャートである。図４に示す各部は、図１に例示するハードウエア上でプログラム２０が動作することにより実現する。なお、図２，図４と同一符号の装置は、図２，図４を参照して説明した前述の説明と同様であるため、詳細な説明は省略する。
【００４６】
射影行列保存部２８には、前述のようにして求められた射影行列が保存されている。また、通常辞書４１には、学習データに対して射影行列を施して得られる次元圧縮された特徴量について、各カテゴリの平均を算出した平均特徴量を保存する。一例として、次元圧縮する前の特徴量ｎは、“ｎ＝２５６次元”、次元圧縮後の特徴量ｎ’は、“ｎ’＝６４次元”であるとする。また、日本語文書を対象とした場合、クラス数は約４０００程度である。
【００４７】
類似文字辞書４２には、特定の２文字の組み合わせについての射影行列と、それぞれの射影行列を施して得られた次元圧縮後の特徴量について、各カテゴリの平均を算出した平均特徴量を保存する。特定の２文字の組み合わせについての射影行列は、前述のような正準判別は用いずに、ここでは主成分分析を用いて算出する。主成分分析については詳細を後述する。ここでも、次元圧縮する前の特徴量ｎは、“ｎ＝２５６次元”、次元圧縮後の特徴量n’は、“n’＝６４次元”であるとする。特定の２文字の組み合わせを対象とするので、クラス数は２となる。
【００４８】
その場合、正準判別分析では、次元圧縮後の次元数は最大でもｎ’＝１となり、十分な識別性能が得られない場合が多い。このような場合には正準判別分析による分類は効果がないばかりか、認識性能が低下するので、他の手法によりマッチング処理を行う。ここでは、一例として主成分分析をあげたが、特徴量の次元圧縮を行わずに、この例の場合には２５６次元の特徴量をそのまま類似文字辞書４２に保存してマッチングする方法などでも構わない。特定の２文字の組み合わせは、正準判別による特徴量次元圧縮を用いた場合に識別困難な組み合わせを予め求めて保存しておく。ここでは、文字「ぱ」と「ば」、「ぴ」と「び」、「ぶ」と「ぷ」、「ぺ」と「べ」、「ぼ」と「ぽ」、の組み合わせについてそれぞれの学習データを用いて主成分分析によって求められた射影行列と、平均特徴量が保存されているものとする。この場合の類似文字辞書４２の登録例を図８に示す。
【００４９】
文字認識装置１の前段には図示しない特徴抽出装置が用意され、前述のように、文字画像からの特徴抽出方法については数多くの方法が提案されており、いかなる手法を用いた場合でも、本実施の形態は成立するので、ここでの説明は省略する。
【００５０】
文字画像から抽出された特徴量が、図６に示す文字認識装置１に入力されると、その特徴量は正準特徴圧縮装置４３と主成分分析特徴圧縮装置４４の両方へ送られる。そしてまず、正準特徴圧縮装置４３において、２５６次元から６４次元に次元圧縮処理を行う（ステップＳ２１）。ここでは学習時に作成されている前述の射影行列を参照して、後述の（２）式を用いて次元圧縮特徴量を算出する。
【００５１】
算出された６４次元の特徴量はマッチング装置４５に送られる。マッチング装置４５では、通常辞書４１に保存されている各クラスの平均特徴量と、送られてきた次元圧縮特徴量のユークリッド距離を算出し、距離の小さい順に候補として類似文字識別装置４６へ送って、マッチングを行う（ステップＳ２２）。ここでは一例として単純なユークリッド距離を用いたマッチング方法を示したが、数多く提案されている他のマッチング方法を用いても構わない。
【００５２】
類似文字識別装置４６では、送られてきた第１候補と第２候補の文字コードを、類似文字辞書４２の文字組レコードと比較し、文字組レコードの中に第１候補と第２候補の組と同じものがあった場合には（ステップＳ２３のＹ）、主成分分析特徴圧縮装置４４を起動（辞書レコード番号を送付）して、文字組に対応した次元圧縮特徴量を得る（ステップＳ２４）。それ以外の場合には（ステップＳ２３のＮ）、送られてきた認識結果をそのまま認識結果として出力する（ステップＳ２６）。例えば、第１候補が「ぴ」、第２候補が「び」の場合には、図８の辞書レコードの番号２が見つかるので、主成分分析特徴圧縮装置４４に辞書レコードの番号２を送付して、主成分分析特徴圧縮装置４４を起動する。また、第１候補が「ぴ」、第２候補が「U」の場合には、主成分分析特徴圧縮装置４４を起動せずに、得られた認識結果を出力する。
【００５３】
主成分分析特徴圧縮装置４４では、類似文字識別装置４６から辞書レコード番号が送付されてきたならば、対応する辞書レコードの射影行列を用いて２５６次元の特徴量を６４次元に次元圧縮する（ステップＳ２４）。そして、得られた次元圧縮特徴量を類似文字識別装置４６に送付する。
【００５４】
類似文字識別装置４６では、次元圧縮特徴量が送られてくると、辞書レコードとして類似文字辞書４２に保存されている２つの平均圧縮特徴量との間でユークリッド距離を算出し、距離の小さい方を第１候補、大きいほうを第２候補として、マッチング装置４５から送られてきた認識結果を修正して（ステップＳ２５）、その認識結果を出力する（ステップＳ２６）。
【００５５】
［正準判別分析について］
正準判別分析について具体的に説明する。
【００５６】
（１）正準判別分析
ある文字種ｃのｎ次元の特徴ベクトルＸ_ｃから正準判別分析によって、ｎ´次元の特徴量ベクトルＹ_ｃを選択する方法を以下に説明する。
【００５７】
まず、次式を満たす固有ベクトル行列Φと固有値行列Λを求める。
【００５８】
Ｓ_ｂΦ＝Ｓ_ｗΦΛ …… （１）
ここで、Ｓ_ｂはクラス間分散行列、Ｓ_ｗはクラス内分散行列であり、Λは固有値λ_ｉ（λ_ｉ≦λ_２≦…≦λ_ｎ）を対角要素とする固有値行列、Φは対応する固有ベクトルΦ_ｉを列ベクトルとする固有ベクトル行列である。
【００５９】
この固有ベクトルを固有値の大きいほうからだけ取った射影行列Ｗ´＝｛Φ_ｉ，…，Φ_ｎ´｝により、ｎ次元特徴量ベクトルＸ_ｃを射影し、新たなｎ´次元の特徴量ベクトルＹ_ｃを、
Ｙ_ｃ＝Ｗ´Ｘ_ｃ …… （２）
として求める。但し、分類するクラス数がｋの場合、ｎ´≦（ｋ−１）である。
【００６０】
（２）主成分分析
ある文字種ｃのｎ次元の特徴ベクトルＸ_ｃから主成分分析によって、ｎ´次元の特徴量ベクトルＹ_ｃを選択する方法を以下に説明する。
【００６１】
まず、次式を満たす固有ベクトル行列Φと固有値行列Λを求める。
【００６２】
Ｓ_ｔΦ＝ΦΛ …… （３）
ここで、Ｓ_ｔは共分散行列、Λは固有値λ_ｉ（λ_ｉ≦λ_２≦…≦λ_ｎ）を対角要素とする固有値行列、Φは対応する固有ベクトルΦ_ｉを列ベクトルとする固有ベクトル行列である。
【００６３】
この固有ベクトルを固有値の大きいほうからだけ取った射影行列Ｗ´＝｛Φ_ｉ，…，Φ_ｎ´｝により、ｎ次元特徴量ベクトルＸ_ｃを射影し、新たなｎ´次元の特徴量ベクトルＹ_ｃを、
Ｙ_ｃ＝Ｗ´Ｘ_ｃ …… （２）
として求める。但し、ｎ´＜ｎである。
【００６４】
［クラス内分散、クラス間分散について］
クラス内分散、クラス間分散について具体的に説明する。
【００６５】
ｎ次元の各データベクトルをｘ、クラスをＭとした場合、各クラス平均と全体平均との差ｖ^ｃ及び各例題とクラス平均との差ｗ（ｔ）を、
【００６６】
【数１】

【００６７】
と定義し、クラス間分散行列Ｂとクラス内分散行列Ｗを、
【００６８】
【数２】

【００６９】
と定義する。
【００７０】
【発明の効果】
請求項１，２，６〜８に記載の発明は、高品質データに対する認識性能を保持しつつ、また、高品質データに対する悪影響なしに、低品質データに対する認識性能を向上させることができる。
【００７１】
請求項３に記載の発明は、請求項２に記載の発明において、低品質セットの中から一部のカテゴリのデータを選択し、選択されたデータについてクラス内分散を算出することで、品質データに対する認識性能を保持しつつ、また、高品質データに対する悪影響なしに、低品質データに対する認識性能を向上させることができる。
【００７２】
請求項４に記載の発明は、請求項２又は３に記載の発明において、正準判別分析による次元圧縮を含めて次元圧縮を多段階に行なうことができる。
【００７３】
請求項５に記載の発明は、前請求項４に記載の発明において、正準判別分析による次元圧縮、主成分分析を用いる次元圧縮により、次元圧縮を多段階に行なうことができる。
【図面の簡単な説明】
【図１】本発明の一実施の形態である文字認識装置のハードウエア構成を示す電気的な接続のブロック図である。
【図２】文字認識装置の射影ベクトルの算出までの処理の機能ブロック図である。
【図３】文字認識装置の射影ベクトルの算出までの処理のフローチャートである。
【図４】文字認識装置の射影ベクトルの算出までの処理に関する他の例の機能ブロック図である。
【図５】文字認識装置の射影ベクトルの算出までの処理に関する他の例のフローチャートである。
【図６】文字認識装置による多段階認識を用いたマッチング処理の機能ブロック図である。
【図７】文字認識装置による多段階認識を用いたマッチング処理のフローチャートである。
【図８】類似文字辞書の登録例を説明する説明図である。
【符号の説明】
１特徴量次元圧縮装置、マッチング装置
２２，２３記憶手段
２４クラス内分散行列算出手段
２６クラス間分散行列算出手段

Claims

クラス内分散、クラス間分散を利用して正準判別分析を用いた特徴量の次元圧縮を行う特徴量次元圧縮装置において、
学習データについて誤りを許容しない高品質セットと品質が低いためある程度の誤りを許容する低品質セットとに分類して記憶する記憶手段と、
前記高品質セットを用いて前記低品質セットは用いることなくクラス間分散行列を算出するクラス間分散行列算出手段と、
前記低品質セットを用いて前記高品質セットは用いることなくクラス内分散行列を算出するクラス内分散行列算出手段と、
を備えていることを特徴とする特徴量次元圧縮装置。
クラス内分散、クラス間分散を利用して正準判別分析を用いた特徴量の次元圧縮を行なってパターンマッチングを実行するマッチング装置において、
学習データについて誤りを許容しない高品質セットと品質が低いためある程度の誤りを許容する低品質セットとに分類して記憶する記憶手段と、
前記高品質セットを用いて前記低品質セットは用いることなくクラス間分散行列を算出するクラス間分散行列算出手段と、
前記低品質セットを用いて前記高品質セットは用いることなくクラス内分散行列を算出するクラス内分散行列算出手段と、
を備えていることを特徴とするマッチング装置。
当該マッチング装置の認識対象のフォントが変更された場合において、
前記記憶手段は、変更されたフォントの学習データについて収集された高品質セットを記憶し、
前記クラス間分散行列算出手段は、前記収集された高品質セットを用いてクラス間分散行列を算出し、
前記クラス内分散行列算出手段は、前記クラス内分散行列の算出の際に、算出結果として、変更される前のフォントの学習データについての低品質セットを用いて前記クラス間分散行列算出手段により既に算出され保存されていたクラス間分散行列を流用すること、
を特徴とする請求項２に記載のマッチング装置
正準判別分析を用いた特徴量の次元圧縮をコンピュータに実行させるコンピュータに読み取り可能なプログラムにおいて、
学習データについて誤りを許容しない高品質セットと品質が低いためある程度の誤りを許容する低品質セットとに分類して記憶する記憶処理と、
前記高品質セットを用いて前記低品質セットは用いることなくクラス間分散行列を算出するクラス間分散行列算出処理と、
前記低品質セットを用いて前記高品質セットは用いることなくクラス内分散行列を算出するクラス内分散行列算出処理と、
をコンピュータに実行させることを特徴とするプログラム。
クラス内分散、クラス間分散を利用して正準判別分析を用いた特徴量の次元圧縮を行なってパターンマッチングをコンピュータに実行させるコンピュータに読み取り可能なプログラムにおいて、
学習データについて誤りを許容しない高品質セットと品質が低いためある程度の誤りを許容する低品質セットとに分類して記憶する記憶手段と、
前記高品質セットを用いて前記低品質セットは用いることなくクラス間分散行列を算出するクラス間分散行列算出手段と、
前記低品質セットを用いて前記高品質セットは用いることなくクラス内分散行列を算出するクラス内分散行列算出手段と、
をコンピュータに実行させるプログラム。
プログラムを記憶している記憶媒体において、
請求項４又は５に記載のプログラムを記憶していること、を特徴とする記憶媒体。