JPH11203413A

JPH11203413A - 類似カテゴリ識別辞書作成装置および方法

Info

Publication number: JPH11203413A
Application number: JP10007396A
Authority: JP
Inventors: Masaharu Ozaki; 正治尾崎
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1998-01-19
Filing date: 1998-01-19
Publication date: 1999-07-30

Abstract

(57)【要約】【課題】速度を低下させることなく識別精度を向上さ
せることができるような類似カテゴリ識別辞書を作成す
ることを目的とする。【解決手段】学習サンプル保持手段１に学習サンプル
を保持しておき、それをもとに、誤認可能性算出手段２
がパターンごとにおよび二つのパターンの組み合わせを
仮に統合した場合の組み合わせごとに誤認の可能性の大
きさを示す指標を算出し、誤認減少判定手段３が二つの
パターンの組み合わせに対し、それらを統合する前後の
誤認可能性の各指標を比較して統合した場合の誤認可能
性の大小を判定する。類似パターン統合手段４は最も類
似しているパターンの組み合わせから順に調べて、誤認
可能性が少なくなると判定された組み合わせを統合す
る。類似パターン統合制御手段５は統合後のパターンで
再度指標の算出から始め、これを統合できるパターンの
組み合わせがなくなるまで繰り返す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は類似カテゴリ識別辞
書作成装置および方法に関し、特に画像特徴上、形状が
類似しているパターンをあらかじめまとめて同一のカテ
ゴリとして分類しておき、未知の文字画像から抽出した
特徴量をこれらの類似パターンカテゴリのいずれに属す
るものであるかを精度よく識別するための類似カテゴリ
識別辞書作成装置および方法に関する。

【０００２】

【従来の技術】パターン認識は、未知のパターンを標準
的に用意されている参照パターンとの類似度を調べ、最
も類似しているものを選び出すプロセスである。このプ
ロセスは用いる特徴量、識別手法によってさまざまな方
法がある。その中で、多次元の特徴量空間における最短
距離識別は、その計算コストの少なさからさまざまな分
野で用いられている。最も顕著な例としては、文字認識
で実用的に用いられていることであろう。この最短距離
識別は他の識別手法と比較して、実装がしやすく、計算
コストも低いという利点を持つとはいえ、多くの文字種
を持つ日本語文字認識などにおいては一般的に、数百次
元の特徴量ベクトルを求め、３，０００文字種以上との
特徴量の照合を行なうため、特徴ベクトルの照合処理に
非常に多大な計算機パワーを必要としていた。これを解
決するため、通常はまず少ない次元数の特徴量を用い
て、総当たりで最短距離識別を実施し（大分類と呼
ぶ）、その類似性の高いものから順にいくつか候補を取
り出し、その絞った候補と高い次元数の特徴量を用いて
詳細識別を実施する（詳細分類と呼ぶ）ということがな
されている。しかしながら、これでも、総字種との距離
計算回数自身が減少しているわけではない。

【０００３】この距離計算回数自身を減らすために、類
似した字種をあらかじめカテゴリとしてまとめておき、
識別時には、まず最も類似しているカテゴリを選び、さ
らにそれに属する字種との距離計算を実施するという階
層的な識別手法が提案されている。このことにより、総
当たりに比較して少ない照合回数で識別を実現すること
ができる。たとえば、特開昭６３−２６３５９０号公報
に開示されている技術では、学習サンプルすべてをクラ
スタリングによって類似した文字カテゴリに階層的に分
類し、それぞれのカテゴリに属する文字の特徴量ベクト
ルの平均を代表ベクトルとして計算しておき、識別の際
には順に階層ごとに最短距離識別を実施し、最終的にど
の文字サンプルに最も類似しているかを判定するもので
ある。この方式では、すべての文字サンプルの特徴量を
保持しておく必要があり、メモリを多く消費してしま
う。

【０００４】また、特開平４−３３７８８８号公報で
は、識別対象字種を二つの群に分割していくことで階層
的識別辞書を構成し、統計的な判別分析を用いて精度よ
く識別することを行っているが、最短距離識別と比較し
て、処理速度・辞書のサイズは大きいものとなる。文献
（伊藤、遠藤他、「階層的印刷漢字システムにおける字
種を複数クラスタに登録する辞書構成法」、電子通信学
会論文誌D-II, Vol.J78-D-II, No.6, pp.896-905, １９
９５年６月）では、各字種ごとにそれに属するサンプル
から代表ベクトルを取り出しておき、その代表ベクトル
のクラスタリングによって類似文字カテゴリを形成し、
階層的な識別辞書を構成している。このような構成をと
った場合、字種のサンプルの分布によっては、必ずしも
すべてのサンプルが対応する類似文字カテゴリの代表ベ
クトルに最短距離にあることは保証されないことがわか
っている。これでは類似文字カテゴリとの識別の際に誤
認が生じ、本来対応すべき字種が得られなくなってしま
う。これを避けるために、誤認が生じるものについては
誤認が生じている複数の類似文字カテゴリに字種を重複
して登録することを行っている。これはパターンに属す
るサンプルの分布をあらかじめ考慮せずに代表ベクトル
のみからクラスタリングを実施したために生じる状況で
あり、文字サンプルの分布が広範囲にわたる場合は、多
くの類似文字カテゴリに重複して登録される場合が生じ
る。その結果として、識別時に照合回数が増加してしま
うことになる。

【０００５】

【発明が解決しようとする課題】以上述べたように、類
似したパターンをあらかじめまとめておき、階層的な識
別辞書を構成する場合において、単に代表パターンのみ
を用いてクラスタリングした結果を用いて識別辞書を構
成しているが、このような識別辞書による最短距離識別
で、サンプルの分布によっては誤認が多く生じてしまう
場合が多く存在するという問題があった。また、これを
解決するために最短距離識別以外の手法を用いると速度
が低下するという問題があった。

【０００６】本発明はこのような点に鑑みてなされたも
のであり、速度を低下させることなく識別精度を向上さ
せることができるような類似カテゴリ識別辞書を作成す
る類似カテゴリ識別辞書作成装置および方法を提供する
ことを目的とする。

【０００７】

【課題を解決するための手段】本発明では上記問題を解
決するために、画像から得られたパターンが特徴量の類
似しているパターンをまとめた類似カテゴリのどのパタ
ーンに類似しているかを識別するときの照合に使用され
る類似カテゴリ識別辞書を作成する類似カテゴリ識別辞
書作成装置において、サンプル画像から特徴量を抽出し
て得られた学習用のサンプルをパターンごとに保持して
おく学習サンプル保持手段と、前記学習サンプル保持手
段に保持されている学習サンプルをもとに、パターンご
とおよび二つのパターンの組み合わせごとに、誤認の可
能性の大きさを示す指標を算出する誤認可能性算出手段
と、前記誤認可能性算出手段によって算出された誤認可
能性の指標について、二つのパターンの組み合わせに対
し、それらを統合する前の誤認可能性の指標と統合した
後の誤認可能性の指標とを比較し、統合した場合の方が
誤認可能性が少なくなるかどうかを判定する誤認減少判
定手段と、各パターンの二つの組み合わせのうち、最も
類似している組み合わせから順に調べて前記誤認減少判
定手段で誤認が少なくなると判定された二つのパターン
の組み合わせを統合する類似パターン統合手段と、前記
二つのパターンの組み合わせを統合した結果にもとづい
て、前記パターンの組み合わせの統合を、統合できる前
記組み合わせがなくなるまで、繰り返すようにする類似
パターン統合制御手段と、を備えていることを特徴とす
る類似カテゴリ識別辞書作成装置が提供される。

【０００８】このような類似カテゴリ識別辞書作成装置
によれば、学習サンプル保持手段に保持しておいた学習
サンプルをもとに、まず、誤認可能性算出手段がパター
ンごとに誤認の可能性の大きさを示す指標を算出し、か
つ、二つのパターンの組み合わせを仮に統合した場合の
誤認の可能性の大きさを示す指標を算出する。このよう
にして算出された誤認可能性の指標について、誤認減少
判定手段は二つのパターンの組み合わせに対し、それら
を統合する前および統合した後の誤認可能性の各指標を
比較し、統合した場合に誤認可能性が少なくなるかどう
かを判定する。ここで、類似パターン統合手段は最も類
似しているパターンの組み合わせから順に調べて、誤認
減少判定手段での判定の結果に従って誤認可能性が少な
くなると判定された組み合わせを統合する。類似パター
ン統合制御手段は統合前の二つのパターンを統合後の類
似パターンに置き換え、そのパターンごとに再度指標の
算出、誤認減少の判定、類似パターンの統合の処理を行
い、その処理を統合できるパターンの組み合わせがなく
なるまで、繰り返す。これにより、画像から得られる、
またはそれに類する多次元特徴量を用いてあらかじめ設
定している複数のパターンのいずれに最も類似している
かを調べる識別処理において、計算速度を上げながら識
別精度を向上させることが可能な、類似カテゴリ識別辞
書を作成することができる。

【０００９】また、本発明では、画像から得られたパタ
ーンが特徴量の類似しているパターンをまとめた類似カ
テゴリのどのパターンに類似しているかを識別するとき
の照合に使用される類似カテゴリ識別辞書を作成する類
似カテゴリ識別辞書作成方法において、サンプル画像か
ら特徴量を抽出して得られた学習サンプルをパターンご
とに保持し、保持されている前記学習サンプルをもと
に、パターンごとおよび二つのパターンの組み合わせご
とに、誤認の可能性の大きさを示す指標を算出し、二つ
のパターンの各組み合わせについて、それらを統合する
以前の各パターンの誤認可能性の指標と組み合わせを一
つに統合した場合のパターンの誤認可能性の指標とを比
較して統合した場合の方が誤認可能性が少なくなるかど
うかの判定をし、各パターンの二つの組み合わせのう
ち、最も類似している組み合わせから順に調べて誤認が
少なくなると判定された二つのパターンを統合する、こ
とを特徴とする類似カテゴリ識別辞書作成方法が提供さ
れる。

【００１０】このような類似カテゴリ識別辞書作成方法
によれば、サンプル画像から特徴量を抽出してパターン
ごとに保持しておいた学習サンプルに対し、パターンご
とおよび二つのパターンの組み合わせごとに、誤認の可
能性の大きさを示す指標を算出する。これにより、二つ
のパターンを統合する前と統合したと仮定した場合との
それぞれの誤認の可能性の大きさを知ることができるの
で、次に、両者の指標の比較から、統合すべきかどうか
を判定する。そして、各パターンの二つの組み合わせの
うち、最も類似している組み合わせから順に、誤認が少
なくなると判定された二つのパターンを統合する。これ
により、最初から誤認が少なくなるように類似したパタ
ーンの統合をしているので、統合した結果、誤認が増え
てしまうようなことはなくなり、精度の高い類似カテゴ
リ識別辞書を作成することができる。

【００１１】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図１は本発明の原理図である。本
発明による類似カテゴリ識別辞書作成装置は、学習サン
プル保持手段１と、誤認可能性算出手段２と、誤認減少
判定手段３と、類似パターン統合手段４と、類似パター
ン統合制御手段５とから構成される。学習サンプル保持
手段１は、サンプル画像から特徴量を抽出して得られた
学習用のサンプルを受けて、その学習サンプルをパター
ンごとに保持する。誤認可能性算出手段２は、学習サン
プル保持手段１に保持されている学習サンプルをもと
に、パターンごとおよび二つのパターンの組み合わせご
とに、誤認の可能性の大きさを示す指標を算出する。こ
の誤認の可能性の大きさを示す指標としては、たとえば
パターンごとにサンプルの分布をもとに得た誤認のサン
プルの数が用いられる。誤認減少判定手段３では、誤認
可能性算出手段２によって算出した誤認可能性の指標に
ついて、二つのパターンの組み合わせに対し、それらを
統合する以前の誤認可能性の指標と、統合した場合の誤
認可能性の指標とを比較し、統合した場合の方が誤認可
能性が少なくなるかどうかを判定する。各パターンの二
つの組み合わせのうち、最も類似している組み合わせか
ら順に調べて誤認減少判定手段３で誤認が少なくなると
判定された場合には、類似パターン統合手段４がその二
つのパターンの組み合わせを統合する。そして、類似パ
ターン統合制御手段５は、二つのパターンの組み合わせ
を統合した結果にもとづいて、再度、パターンの組み合
わせの統合を試み、これ以上統合ができなくなるまで、
統合を繰り返すことによって、類似カテゴリ識別辞書を
構築していく。

【００１２】このようにして作成された類似カテゴリ識
別辞書は、たとえばイメージスキャナなどから入力され
た文書画像から、たとえば文字あるいは単語情報を抽出
するために、画像中の文字の領域を、形状が類似してい
る字種をまとめた類似文字カテゴリに識別する処理に使
用される。

【００１３】次に、類似カテゴリ識別辞書作成装置を文
字認識用の類似文字カテゴリ識別辞書の作成に適用した
場合を例に説明する。図２は本発明を実施するハードウ
ェア構成を示す図である。本発明を実施する装置は、一
般的なパーソナルコンピュータ１０とその周辺機器とか
ら構成されている。パーソナルコンピュータ１０は中央
演算装置（ＣＰＵ）１１と、主記憶メモリ１２と、周辺
機器コントローラ１３とから構成されており、その周辺
機器コントローラ１３には、外部記憶装置１４、ディス
プレイ１５、キーボード１６、マウスなどのポインティ
ングデバイス１７、画像入力装置であるイメージスキャ
ナ１８、およびネットワーク１９が接続されている。

【００１４】本発明装置の処理はすべてソフトウェアで
構成され、外部記憶装置１４に格納されていて、必要に
応じて主記憶メモリ１２にロードされ、随時ＣＰＵによ
って実行される。

【００１５】図３は類似文字カテゴリ識別辞書を作成す
る処理の流れを示すフローチャートである。類似文字カ
テゴリ識別辞書の作成にあたって、まず、イメージスキ
ャナ１８の原稿台の上に置かれた原稿を二値画像として
読み取り、二値画像を文字ごとに切り出し、大きさの正
規化などの前処理を施した後、対応する字種とともに外
部記憶装置１４に格納するという画像入力処理を行う
（ステップＳ１）。次に、外部記憶装置１４に格納され
た学習用の文字画像それぞれについて、特徴量を多次元
のベクトルで表現し、それを外部記憶装置１４に保存す
るという特徴量抽出処理が行われる（ステップＳ２）。
次に、それぞれの字種の学習サンプルすべての特徴量ベ
クトルと、それらの平均である代表ベクトルをもとに、
誤認が少なくなるよう字種をクラスタリング処理によっ
て類似文字カテゴリを作成する（ステップＳ３）。以
下、辞書作成処理を処理の流れに沿ってさらに詳細に説
明する。

【００１６】図４は画像入力処理の流れを示すフローチ
ャートである。まず、イメージスキャナ１８から学習用
の原稿を読み込む（ステップＳ１１）。原稿は文字の書
体、大きさを変化させておくことが幅広いサンプルを入
手するためには望ましい。単純に固定的なしきい値によ
って二値化してもよいし、グレースケールの多値画像と
して取り込み、しきい値処理によって二値化してもよ
い。後者の場合はいくつかの二値化しきい値によって、
つぶれ、かすれのある画像を収集することができるの
で、サンプル数を増やすのには効果的である。本実施の
形態では、しきい値をいくつか変えて異なるサンプル画
像を作成している（ステップＳ１２）。次に、得られた
二値画像から文字ごとに領域を切り出す（ステップＳ１
３）。切り出された文字画像は、そこから文字を構成し
ないと思われる小さな孤立点ノイズの除去が施され（ス
テップＳ１４）、文字の外接矩形をもとに大きさの正規
化が行われる（ステップＳ１５）。ここでは、１文字を
６４×６４画素の画像に大きさに正規化するものとす
る。ノイズ除去、大きさの正規化などは、いくつかの公
知の技術があるので、そのうちの適当なものを利用すれ
ばよい。これらの前処理が施された画像はその対応する
字種を与えて、外部記憶装置１４に格納される（ステッ
プＳ１６）。なお、ステップＳ１４〜Ｓ１６は切り出さ
れた文字画像ごとに繰り返され、ステップＳ１３〜Ｓ１
６は異なるしきい値ごとに繰り返し処理される。

【００１７】次の特徴量抽出の処理は、本実施の形態で
は、次元数の少ないペリフェラル特徴を用いている。こ
のペリフェラル特徴を図５を参照して説明する。図５は
ペリフェラル特徴の説明図である。ペリフェラル特徴
は、外接矩形の各辺から最初に黒画素が現れる所（１次
ペリフェラル）、および一旦白画素になり、再び黒画素
になる所（２次ペリフェラル）までの画素数を特徴量と
するものである。この１次ペリフェラルおよび２次ペリ
フェラルを各辺６４画素それぞれについて調べ、８画素
ずつ平均し、それを特徴量ベクトルの各要素とする。し
たがって、各辺８次元で、２次ペリフェラルまでを取る
とすると、合計６４次元の特徴量ベクトルが得られる。
この特徴量ベクトルを外部記憶装置１４にその字種に対
応させて格納する。この処理によって、準備したすべて
の書体、大きさの学習用の文字画像に対して、特徴量ベ
クトルが計算される。

【００１８】この特徴量抽出の処理が終了すれば、次
に、類似文字カテゴリ生成の処理が起動される。類似文
字カテゴリ生成処理は、まず、外部記憶装置１４から、
字種ごとに学習サンプルすべてを取り出し、それらの平
均ベクトルを計算し、これを字種の代表ベクトルとす
る。これをすべての字種について求めたならば、それら
をクラスタリング処理する。クラスタリングは文献（Du
da, Hart著”Pattern Classification and Scene Analy
sis ”, Wiley-Interscience社刊）に記載されている方
法を用いる。この方法はまず、初めに階層的クラスタリ
ングを施し、これを最初のクラスタとしてクラスタごと
の中心と各学習サンプルの特徴量ベクトルとの自乗誤差
の総和が最小になるように最適化を行なうものである。

【００１９】階層的クラスタリングは、一般には以下の
ようなステップから構成される。（１）所望のクラスタ数をｍ、文字種の総数をｎ、初期
クラスタをＣ＝｛ｃ_1,ｃ_2,ｃ_3,．．．_,ｃ_n｝とし、ｃ_i
は類似している文字種の代表特徴ベクトルである。初期
値としては、各文字種の代表特徴ベクトルが一つずつ入
れられる。

【００２０】（２）もし、現在のクラスタの数がｍに等
しければ、その時点のＣをクラスタリングの結果として
処理を終わる。そうでない場合は次に進む。（３）特徴空間におけるクラスタの距離ｄが最も小さい
二つのクラスタの組を見つけ出し、これを一つのクラス
タに統合し、（２）に戻る。

【００２１】これだけでは代表ベクトルを用いているだ
けであるため、文字サンプルの分布を考慮して誤認を少
なくするようする処理を組み込む。この処理を図６を参
照して説明する。

【００２２】図６は類似文字カテゴリ生成処理の流れを
示すフローチャートである。まず、文字種の総数をｎ、
初期クラスタをＣ＝｛ｃ_1,ｃ_2,ｃ_3,．．．_,ｃ_n｝とし、
最短距離にあるクラスタの組からいくつのクラスタの組
を調べるかを指定する個数をｌとする。初期クラスタに
は、各文字種が１つずつ格納される（ステップＳ２
１）。次に、すべての学習サンプルについて、クラスタ
の代表ベクトルとの最短距離識別を実施し、誤認してい
るサンプルの数ｓを得る（ステップＳ２２）。次に、特
徴空間におけるすべての２クラスタの組み合わせについ
て距離ｄを計算し、小さい順にｌ個の組を取り出し、変
数Ｔに格納する（ステップＳ２３）。ここで、変数Ｔが
空かどうかの判断があり（ステップＳ２４）、変数Ｔに
クラスタの組みがなければ、この処理は終了し、あれ
ば、変数Ｔから距離の最も小さいクラスタの組（ｃ_i，
ｃ_j）を取り出し、仮にそれを一つのクラスタに統合し
た場合のクラスタの代表ベクトルを計算する（ステップ
Ｓ２５）。次に、ｃ_i，ｃ_jの代表ベクトルを除き、代
わりにステップＳ２５で計算した代表ベクトルを加え
て、すべての字種の学習サンプルについて、改めてクラ
スタの代表ベクトルとの最短距離識別を実施し、誤認し
ているサンプルの数ｓ’を得る（ステップＳ２６）。こ
こで、統合前の誤認サンプルの数ｓと統合後の誤認サン
プルの数ｓ’とを比較し（ステップＳ２７）、統合後の
誤認サンプルの数ｓ’が統合前の誤認サンプルの数ｓよ
り減少していれば、誤認が減少する組み合わせとして、
クラスタを統合し、ｓ’をｓに代入し、ステップＳ２３
へ戻る（ステップＳ２８）。もし、統合後の誤認サンプ
ルの数ｓ’が統合前の誤認サンプルの数ｓよりも減少し
ていなければ、変数Ｔから現在注目しているクラスタの
組（ｃ_i，ｃ_j）を取り除き、ステップＳ２４へ戻る
（ステップＳ２９）。ここで、まだ、変数Ｔの中にクラ
スタの組が存在する場合は、別のクラスタの組を統合し
た場合における誤認のサンプル数の増減を調べることに
なる。

【００２３】いくつのクラスタの組を調べるかを指定す
る数ｌは１以上で任意に与えることができる。この処理
の中でクラスタ間の距離ｄの計算方法には種々のものが
考えられるが、ここでは重心法と呼ばれる二つのクラス
タの代表ベクトル間の距離をクラスタの距離ｄとする方
法を用いる。しかし、これに限るものではなく、最大距
離法、最小距離法と呼ばれる、サンプル間の距離の最大
のもの、最小のものをクラスタ間の距離とする方法を用
いても構わない。

【００２４】この一連の処理を実行することで、学習サ
ンプルすべてについて順に誤認が少なくなるようにクラ
スタを統合していくことができる。この得られたクラス
タの代表ベクトルは類似文字カテゴリであり、これらと
の最短距離識別では、誤認が少なくなることになる。

【００２５】なお、これを実施しても誤認がまったくな
くなるわけでがないので、その場合は１つの字種を複数
の類似文字カテゴリに重複して登録しておくことにな
る。しかし、この場合においても、上記のアルゴリズム
によって誤認が少なくなるよう類似文字カテゴリを構築
しているため、単に代表ベクトルのみでクラスタリング
した結果を用いる場合と比較して、その重複は少なくな
る。したがって、識別時の距離計算回数が少なくなり、
識別処理の高速化を図ることができる。

【００２６】このようにして作成された識別辞書を用い
て未知文字を識別するときには、二段階の照合を実施す
る。このときの処理を図７を参照して説明する。図７は
未知文字識別処理の流れを示すフローチャートである。
まず、イメージスキャナから文書画像（二値画像）を入
力する（ステップＳ３１）。次に、入力された画像から
文字ブロックを抽出し、各文字を切り出す（ステップＳ
３２）。文字ブロックの切り出し処理は、文献（秋山、
増田、「周辺分布、線密度、外接矩形特徴を併用した文
書画像の領域分割」電子情報通信学会論文誌 D-II, Vo
l.J69, No.8）などに開示されている周辺分布による領
域分割手法を用いることができる。切り出された文字画
像について、ペリフェラル特徴量ベクトルを計算する
（ステップＳ３３）。この特徴量ベクトルに対して、ま
ず、大分類としてクラスタリングで得られた代表ベクト
ルと最初に照合し、最短距離にあるものを取り出し、そ
のクラスタに属する字種の代表ベクトルを得る（ステッ
プＳ３４）。次に、その字種の代表ベクトルとの照合を
行い、最短距離にあるのものを取り出し（ステップＳ３
５）、それに対応する文字コードを出力する（ステップ
Ｓ３６）。以上のステップＳ３３〜Ｓ３６の処理は、切
り出された文字ごとに順番に文字がなくなるまで繰り返
し実行される。

【００２７】以上の実施の形態では、すべての学習サン
プルについて最短距離識別を実施し、誤認が減少するか
どうかを調べると述べたが、この処理はクラスタの組を
調べる毎に実行され、実際には計算量は膨大なものにな
る。この処理の目的は誤認が減少するかどうか調べるこ
とである。言い換えれば、誤認が発生しやすいサンプル
のみを調べればよいことになる。このため、別の実施の
形態として、ある字種ごとの分布を近似し、誤認が発生
しやすいサンプルを自動的に発生させてそれらを学習サ
ンプルとして調べることを考える。

【００２８】第２の実施の形態では、サンプル分布の近
似方法として、主成分分析を用いる。主成分分析は、多
次元のサンプルの分布を軸の相関がないように直交変換
し、かつ軸の分散の大きさも同時に得るものである。主
成分分析は、学習サンプルに対して分散・共分散行列を
求め、それに対して固有値、固有ベクトルを求めること
に相当する。この主成分分析を用いた誤認しやすい字種
サンプルの生成について説明する。

【００２９】まず、主成分分析をそれぞれの字種につい
て実施し、それぞれの字種の上位ｌ位の主成分に対応す
る固有値、固有ベクトルを保存する。固有値、固有ベク
トルは特徴ベクトルの次元数、または学習サンプルの数
−１の小さいほうだけ得られ、固有ベクトルは固有値の
大きな順に分散が大きな方向を示す。ここでは、次元数
より多くの学習サンプルが得られていると仮定してい
る。ｌは分散の大きな順に主成分軸をいくつ調べるかを
示す定数で、任意に与えられるが、通常、誤認は分散の
大きい軸上で発生すると考えられるので、ｌ＝５くらい
で十分である。

【００３０】次に、前処理が終了したならば、各類似文
字カテゴリごとに、特徴量空間内でｌ個の主成分軸方向
それぞれに中心から最も離れて現れ得る二つのサンプル
端点を計算する。端点ベクトルｐは次式で得られる。

【００３１】

【数１】

【００３２】ただし、ｍはカテゴリの代表ベクトル、ａ
は定数、λ_i、Φ_iはｉ番目の固有値、固有ベクトルで
ある。ａは定数で正の実数である。すなわち、この端点
ベクトルｐは、主成分軸上での最も代表ベクトルから離
れたサンプルの特徴空間内での位置を意味する。この式
の意味を、図８に模式的に２次元の特徴量空間で示す。

【００３３】図８は端点ベクトルの式の特徴量空間での
意味を説明するための図である。図８において、小さな
黒丸は類似文字カテゴリ内のサンプルを表し、その分布
は主成分分析という統計上の処理により楕円になってい
る。この楕円の中心が分布の平均である代表ベクトル
ｍ、長軸上の第１主成分方向に示した矢印が固有ベクト
ルΦ₁、短軸上の第２主成分方向に示した矢印が固有ベ
クトルΦ₂であり、×で示した長軸の両端点が式（１）
で表される端点ベクトルｐである。主成分分析で得られ
た主成分軸は、互いに直交しており、かつ共分散がない
ことが知られている。したがって、各主成分軸では、統
計的に独立に扱うことができる。定数ａはその主成分軸
の標準偏差の何倍までを分布の範囲とみなすかを示す。
正規分布を仮定した場合、ａ＝３．５とすると、９９．
９６％の分布がこの中に含まれることになる。

【００３４】この端点ベクトルｐがｌ個それぞれの主成
分軸上で求まったならば、これらの端点ベクトルを近似
したサンプルとして採用する。すなわち、ｌ＝５の場合
は、１０個のサンプルが得られることになる。これらを
その字種の学習サンプルとして、図６に示した類似文字
カテゴリ生成処理にそのまま適用することにより、計算
コストは実際の学習サンプルを用いるよりも小さくかつ
同等の効果を得ることができる。

【００３５】さらに別の実施の形態として、得られた端
点ベクトルを単に１つのサンプルとして考えるのではな
く、ある重みを与えることも可能である。つまり、主成
分分析の結果の上位の主成分軸で得られた端点ベクトル
は分散が大きい軸上にあるから、その重みを大きくする
ことによって、上位の主成分軸上で仮定したサンプルの
誤認が少なくなれば、その効果は大きいとするものであ
る。重みはたとえば、主成分軸をｌ個取るのであれば、
上から順にｌ，ｌ−１，ｌ−２，．．．１としてもよい
し、あるいは、ｌ個の主成分軸の分散の和に対する個々
の分散の比としてもよい。ここでは、後者を用いること
とする。この重みを用いた場合のクラスタリングの処理
の例を図９を参照して説明する。

【００３６】図９は重みを考慮した類似文字カテゴリ生
成処理の流れを示すフローチャートである。まず、文字
種の総数をｎ、初期クラスタをＣ＝｛ｃ_1,ｃ
_2,ｃ_3,．．．_,ｃ_n｝とし、最短距離にあるクラスタの組
からいくつのクラスタの組を調べるかを指定する個数を
ｌとする。初期クラスタには、各文字種が１つずつ格納
される（ステップＳ４１）。次に、各字種ごとに主成分
分析を実施し、誤認しやすい学習サンプルを作成し、同
時にサンプルそれぞれに重みを与える（ステップＳ４
２）。重みとしては、（サンプルに対応する主成分軸の
分散）／（サンプル作成に用いた全主成分軸の分散の
和）が与えられる。次に、ステップＳ４２で作成された
すべて学習サンプルについて、クラスタの代表ベクトル
との最短距離識別を実施し、誤認しているサンプルを得
て、それぞれに付与されている重みの和ｗを得る（ステ
ップＳ４３）。次に、特徴空間におけるすべての２クラ
スタの組み合わせについて距離ｄを計算し、小さい順に
ｌ個の組を取り出し、変数Ｔに格納する（ステップＳ４
４）。ここで、変数Ｔが空かどうかの判断があり（ステ
ップＳ４５）、変数Ｔにクラスタの組みがなければ、こ
の処理は終了し、あれば、変数Ｔから距離の最も小さい
クラスタの組（ｃ_i，ｃ_j）を取り出し、仮にそれを一
つのクラスタに統合した場合のクラスタの代表ベクトル
を計算する（ステップＳ４６）。次に、ｃ_i，ｃ_jの代
表ベクトルを除き、代わりにステップＳ４６で計算した
代表ベクトルを加えて、すべての字種の学習サンプルに
ついて、改めてクラスタの代表ベクトルとの最短距離識
別を実施し、誤認しているサンプルの重みの和ｗ’を得
る（ステップＳ４７）。ここで、統合前の誤認サンプル
の重みの和ｗと統合後の誤認サンプルの重みの和ｗ’と
を比較し（ステップＳ４８）、統合後の誤認サンプルの
重みの和ｗ’が統合前の誤認サンプルの重みの和ｗより
減少していれば、誤認が減少する組み合わせとして、ク
ラスタを統合し、ｗ’をｗに代入し、ステップＳ４４へ
戻る（ステップＳ４９）。もし、統合後の誤認サンプル
の重みの和ｗ’が統合前の誤認サンプルの重みの和ｗよ
り減少していなければ、変数Ｔから現在注目しているク
ラスタの組（ｃ_i，ｃ_j）を取り除き、ステップＳ４５
へ戻る（ステップＳ５０）。ここで、まだ、変数Ｔの中
にクラスタの組が存在する場合は、別のクラスタの組を
統合した場合における誤認のサンプルの重みの和の増減
を調べることになる。

【００３７】以上のように、本発明では、すべての学習
サンプルを用いることなく、誤認が生じる可能性のある
サンプルを生成し、それをもとに類似文字カテゴリを生
成することによって誤認の少ない識別辞書を少ない計算
コストで構築することができる。

【００３８】

【発明の効果】以上説明したように本発明では、識別辞
書構築時に、パターンのサンプルの分布をもとに類似パ
ターンを統合するとき、統合することによって誤認の可
能性が少なくなるかどうかをあらかじめ判定し、誤認が
少なくなる類似パターンについてこれを統合するよう構
成した。このため、実際の未知サンプルを識別する場合
には、単にパターンの代表ベクトルのみのクラスタリン
グによって構築した類似パターン識別辞書と比較して、
より誤認の少ない識別が可能となる。また、どうしても
誤認が避けられない場合において、一つのパターンを複
数の類似カテゴリに登録することになるが、元々誤認が
少なくなるように識別辞書を構成しているため、その重
複の数はより少なくなり、結果として照合回数が少ない
識別辞書が得られる。

【００３９】なお、本発明の実施の形態では文字認識の
場合を例にとって説明したが、特にこれに限定されるも
のではなく、特徴量空間で非常に多くのパターンとの最
短距離識別を実施するパターン認識処理に一般について
適用できるものである。

【図面の簡単な説明】

【図１】本発明の原理図である。

【図２】本発明を実施するハードウェア構成を示す図で
ある。

【図３】類似文字カテゴリ識別辞書を作成する処理の流
れを示すフローチャートである。

【図４】画像入力処理の流れを示すフローチャートであ
る。

【図５】ペリフェラル特徴の説明図である。

【図６】類似文字カテゴリ生成処理の流れを示すフロー
チャートである。

【図７】未知文字識別処理の流れを示すフローチャート
である。

【図８】端点ベクトルの式の特徴量空間での意味を説明
するための図である。

【図９】重みを考慮した類似文字カテゴリ生成処理の流
れを示すフローチャートである。

【符号の説明】

１学習サンプル保持手段２誤認可能性算出手段３誤認減少判定手段４類似パターン統合手段５類似パターン統合制御手段１０パーソナルコンピュータ１１中央演算装置（ＣＰＵ）１２主記憶メモリ１３周辺機器コントローラ１４外部記憶装置１５ディスプレイ１６キーボード１７ポインティングデバイス１８イメージスキャナ１９ネットワーク

Claims

【特許請求の範囲】

【請求項１】画像から得られたパターンが特徴量の類
似しているパターンをまとめた類似カテゴリのどのパタ
ーンに類似しているかを識別するときの照合に使用され
る類似カテゴリ識別辞書を作成する類似カテゴリ識別辞
書作成装置において、サンプル画像から特徴量を抽出して得られた学習用のサ
ンプルをパターンごとに保持しておく学習サンプル保持
手段と、前記学習サンプル保持手段に保持されている学習サンプ
ルをもとに、パターンごとおよび二つのパターンの組み
合わせごとに、誤認の可能性の大きさを示す指標を算出
する誤認可能性算出手段と、前記誤認可能性算出手段によって算出された誤認可能性
の指標について、二つのパターンの組み合わせに対し、
それらを統合する前の誤認可能性の指標と統合した後の
誤認可能性の指標とを比較し、統合した場合の方が誤認
可能性が少なくなるかどうかを判定する誤認減少判定手
段と、各パターンの二つの組み合わせのうち、最も類似してい
る組み合わせから順に調べて前記誤認減少判定手段で誤
認が少なくなると判定された二つのパターンの組み合わ
せを統合する類似パターン統合手段と、前記二つのパターンの組み合わせを統合した結果にもと
づいて、前記パターンの組み合わせの統合を、統合でき
る前記組み合わせがなくなるまで、繰り返すようにする
類似パターン統合制御手段と、を備えていることを特徴とする類似カテゴリ識別辞書作
成装置。
【請求項２】画像から得られたパターンが特徴量の類
似しているパターンをまとめた類似カテゴリのどのパタ
ーンに類似しているかを識別するときの照合に使用され
る類似カテゴリ識別辞書を作成する類似カテゴリ識別辞
書作成方法において、サンプル画像から特徴量を抽出して得られた学習サンプ
ルをパターンごとに保持し、保持されている前記学習サンプルをもとに、パターンご
とおよび二つのパターンの組み合わせごとに、誤認の可
能性の大きさを示す指標を算出し、二つのパターンの各組み合わせについて、それらを統合
する以前の各パターンの誤認可能性の指標と組み合わせ
を一つに統合した場合のパターンの誤認可能性の指標と
を比較して統合した場合の方が誤認可能性が少なくなる
かどうかの判定をし、各パターンの二つの組み合わせのうち、最も類似してい
る組み合わせから順に調べて誤認が少なくなると判定さ
れた二つのパターンを統合する、ことを特徴とする類似カテゴリ識別辞書作成方法。
【請求項３】前記二つのパターンの組み合わせを統合
した結果にもとづいて、前記パターンの組み合わせの統
合を、統合できる前記組み合わせがなくなるまで、繰り
返すようにしたことを特徴とする請求項２記載の類似カ
テゴリ識別辞書作成方法。
【請求項４】画像から得られたパターンが特徴量の類
似しているパターンをまとめた類似カテゴリのどのパタ
ーンに類似しているかを識別するときの照合に使用され
る類似カテゴリ識別辞書を作成する類似カテゴリ識別辞
書作成方法において、各パターンごとにサンプルの分布を求め、前記分布の端
点を学習サンプルとすることにより誤認しやすいサンプ
ルだけを生成し、サンプル画像から特徴量を抽出して得られた学習サンプ
ルをパターンごとに保持し、保持されている前記学習サンプルをもとに、パターンご
とおよび二つのパターンの組み合わせごとに、誤認の可
能性の大きさを示す指標を算出し、二つのパターンの各組み合わせについて、それらを統合
する以前の各パターンの誤認可能性の指標と組み合わせ
を一つに統合した場合のパターンの誤認可能性の指標と
を比較して統合した場合の方が誤認可能性が少なくなる
かどうかの判定をし、各パターンの二つの組み合わせのうち、最も類似してい
る組み合わせから順に調べて誤認が少なくなると判定さ
れた二つのパターンを統合する、ことを特徴とする類似カテゴリ識別辞書作成方法。
【請求項５】前記二つのパターンの組み合わせを統合
した結果にもとづいて、前記パターンの組み合わせの統
合を、統合できる前記組み合わせがなくなるまで、繰り
返すようにしたことを特徴とする請求項４記載の類似カ
テゴリ識別辞書作成方法。
【請求項６】前記学習サンプルを生成するステップ
は、各パターンのサンプルの分布に対して主成分分析を
行い、複数の上位主成分を取り出し、各主成分軸上で、
その軸に対応する分散に比例する距離だけ、サンプルの
平均から離れた点を学習サンプルとして採用することを
特徴とする請求項４記載の類似カテゴリ識別辞書作成方
法。
【請求項７】前記学習サンプルを生成するステップ
は、各パターンのサンプルの分布に対して主成分分析を
行い、複数の上位主成分を取り出し、各主成分軸上で、
その軸に対応する分散に比例する距離だけ、サンプルの
平均から離れた点を学習サンプルとして採用し、前記学習サンプルを保持するステップは、それぞれの学
習サンプルに上位主成分から得られた学習サンプルの方
により大きい重みを持つよう保持し、前記誤認の可能性の大きさを示す指標を算出するステッ
プは、前記学習サンプルの重みに応じて誤認可能性を算
出する、ことを特徴とする請求項４記載の類似カテゴリ識別辞書
作成方法。