JP3850040B2

JP3850040B2 - 文脈上の相関関係を使用するパターン認識方法及び装置

Info

Publication number: JP3850040B2
Application number: JP50143899A
Authority: JP
Inventors: ヴァン・ダイク，ディルク・エルネスト・マリア
Original assignee: ヴァン・ダイク，ディルク・エルネスト・マリア
Priority date: 1997-06-04
Filing date: 1998-05-20
Publication date: 2006-11-29
Anticipated expiration: 2018-05-20
Also published as: DE69803850T2; US6707941B1; EP0986794B8; ES2169529T3; DE69803850D1; AU8107598A; WO1998055959A1; EP0986794B1; EP0986794A1; JP2002502525A; BE1011191A4

Description

本発明は、そこからあるデータのパターンを認識しなければならないデータセットにおけるデータ量を、関連する情報の損失を最小としながらも、減少させるための方法に関する。
データセットは、そのそれぞれがここで情報値あるいは符号と呼ばれる多数の値を採用できる、イメージのピクセルまたは画素のような要素配列を含むことができる。データセットのパターンを認識することの重要性は大きい。もしデータセットが例えばタイプまたは手書きのテキストのピクセルを含んでいるなら、このテキストの別々の文字はパターン認識によって認識可能である。ノイズが認識イメージの中に存在したとしても、オリジナルパターンを認識することは、なおしばしば可能である。もしデータセットが例えば医療用写真であれば、細胞異常あるいは細胞腫瘍がパターン認識によって早い段階で認識できる。
従来技術においては、多様な方法がデータセットのパターン認識に関して知られている。しかしながら複雑なパターンにおけるつながり（リンク）に関する構造的な情報をあまりうまく処理することができない統計手法がある。例えば、認識パターンの特徴を定義する試みが成される記述的な方法も存在する。しかし、認識パターンが複雑なときには、これらの方法は問題をもたらす。パターンを認識するために、ニューラルネットワークを使用することも可能である。しかしながら、大きなデータセットにおいてこのニューラルネットワークを使用すると、ニューラルネットワークが計算される現在のコンピュータの容量の限界に直面する。
本発明の方法は、トレーニング段階の間に本発明の装置に与えられる既に知られた（アプリオリな；先験的な）パターンのトレーニングセットに存在する統計特性から評価される内部情報コンテクストに基づいて、データセットから関連する情報を抽出する。関連しない、または余分な情報は、本発明の方法によれば無視される。データセットのサイズは、関連する情報の損失を最小としながらも、減じられる。
本発明は、パターン認識の目的のために、データセットにおけるデジタル情報量を減少させる方法および装置に関するものである。その方法は、次のようなステップ、すなわち、
少なくとも一つの既知パターンに関連するデジタルのアプリオリ（先験的）な情報値を決定する決定ステップと、
認識パターンに関連する第１の要素のデジタル情報値を決定する決定ステップと、
二つまたはそれ以上の第１の要素をグループに分けるグループ化ステップと、
前記第１の要素を二つ以上ペアリングさせて第２の要素とし、それによってそれぞれの第２の要素に対するデジタル情報値の数が少なくとも２倍となるようにするペアリング・ステップと、
トレーニング段階で形成されたトレーニングセットからのパターン情報に基づいて、前記第２の要素の各々に対して最低二つのデジタル情報値を併合させて、その情報値の数が削減された、削減された第２の要素にする併合ステップと、を含むことを特徴とする。これらのアプリオリな情報値はパターン認識のその後のステップで使用されるトレーニングセットを形成する。第１の要素は例えば、認識しなければならないイメージのピクセルであり得る。デジタル情報値はそのときは例えばピクセルのグレー階調値またはカラー値である。パターン情報はデジタル情報値が特定のパターンと結び付けられるという確率の統計上の見積もりをベースにして計算される。この統計的評価はトレーニングセットのデータから計算される。
可能な限りほとんどパターン情報が失われないような方法で、最終ステップにおいて関連する情報値の併合が行われる。アプリオリな既知のパターンをベースにして、決められた情報値と決められたパターンが生じる確率の最も良い評価を計算できる。情報値とパターンのすべての可能な組み合わせについて確率の計算された評価をベースにして、併合されるときにパターン情報の最小損失を実現するパターン及び情報の組み合わせをそれによって決定することができる判断基準が定式化される。
以下、本発明の好ましい実施の態様を詳細に説明する。実施態様は、下記の図面を参照して説明される。
図１は、本発明による装置の概略図である。
図２は、認識パターンのイメージの一部を示した図である。
図３は、パターン及びピクセル値の組み合わせが生じる回数のリストを示した図である。
図４は、ピクセルの併合を概略的に示した図である。
図５は、ペアリング後の情報値の符号化の変換を示した図である。
図６は、ペアリングと併合のステップの関数として、全情報の発展をグラフで示した図である。
図１は、本発明に係る装置を示した図である。この装置は、特に、
以下において説明される本発明による方法を実行することができるコンピュータ１と、
デジタル情報値をキーボードを使ってコンピュータ１に入力するための入力端末２と、
コンピュータ１と入力端末２との間、及びコンピュータ１と出力端末４との間をそれぞれ接続して、これらの間におけるデータ伝送を可能ならしめる接続ライン３と、
本発明による方法の結果を出力するための出力端末４と、
を備えている。しかしながら、一般に、入力は、ビデオカメラ、スキャナ等からのピクセルのようなものであり、ビデオカメラ、スキャナ等の如き外部電子装置が発信源である。
図２は、値「１」（＝黒）または値「０」（＝白）を採用することができる９つのピクセルから成るイメージの一例を示している。単純化のために、グレー階調またはグレー色なしの白黒イメージが出発点として採用される。この図では、３つのピクセルがそれぞれＲ、ＳおよびＴで指定される。また、２つのパターン、すなわち「／」と「＼」、がシステムによって見分けられると想定する。まず最初に、いわゆるトレーニング（訓練）段階または準備段階において、ピクセルがパターン「／」を表示するとき、及びピクセルがパターン「＼」を表示するときの、その両方のときに、パターンのすべての値が決定される。トレーニング段階の結果は、ピクセルのパターンαと値ｉのすべての組み合わせを含むリストがピクセル毎に完成されたトレーニングセットを形成する。
図３は、三つのピクセルＲ、ＳおよびＴに対するリストを示している。このリストをベースにして、認識のためのピクセル値及びパターンの組み合わせがトレーニングセットの関連するピクセルに生じる頻度が決定される。
本例では、それぞれのパターンはピクセル値の同じ組み合わせを有する。しかしながら、これは一般に当てはまらない。例えば文字認識では、文字は異なった方法で表現できるために、決定された文字は様々な変形を持つ。それ故に同じパターン（「文字」）を生じさせるピクセル値の異なった組み合わせが可能である。文字は複数の表現を持つことができるけれども、大きな度合いの相互類似性がしかしながら存在する。
図３に示されたリストから、特定のパターンとピクセル値の組み合わせが生じる頻度が決定される。このような組み合わせが生じる回数は「ｎ^R _iα」で記される。ここで、Ｒは関連するピクセル、ｉはデジタルのピクセル値、αは問題のパターンを表す。表１はピクセルＲ、ＳおよびＴに関して、ｎ_iαの対応する値を示す。

すべてのピクセルおよびすべての可能なピクセル値に対して、特定のパターンにこれらが生じる確率Ｐが計算される。この確率は、いわゆるラプラス・サンプルサイズ・コレクタ（Laplace Samplesize Corrector）を使って計算される。

上記表現の仕方を使用すると、３つのピクセルＲ、ＳおよびＴに対して、ピクセル値及びパターン毎の確率が表２で示される。他のピクセルの確率は類似の方法で計算できる。

続いて、ピクセルは、２つのピクセルのグループにグループ化（grouping）される。隣接したピクセルの間の相関は一般に互いに遠くに引き離されたピクセルの間の相関よりも大きいので、隣接するピクセルがグループ化されるのが好ましい。グループ化された１対のピクセルは、その後に、一つの新しいピクセルとして組み合わされる。従って、ピクセルの合計数は半減する。可能なピクセル値の数量は、しかしながら、２倍になる。情報はこれによって失われない。ピクセルのグループ化はこの他多くの異なった方法で挙行できる。例えば、最初は水平線上に配置されたピクセルの間でグループ化され、続いて垂直線上に配置されたピクセルの間でグループ化される。本例では、水平線上に配置されたピクセルＲとＳとが対（ペアリング）にされる。
図４は、ピクセルをペアリングする過程を示している。この図では、番号付けされた平行四辺形はピクセルを表す。一つの層から他の層への各ステップにおいて、この場合には４回のペアリングによって単一のピクセルが残るまで、ピクセル数が半減する。
新しい符号化（coding）がピクセルの可能な組み合わせに使用できる。図５はピクセルＲとＳの異なった組み合わせに対して新しい符号化を与える。２つのピクセルＲとＳを併合した結果、この場合にはピクセル値０，１，２または３の単一ピクセルが得られる。ピクセルＲがピクセル値ｉを持ち、ピクセルＳがピクセル値ｊを持ち、かつパターンがαに等しい確率Ｐ_ijαは逐次代入で決定、または次式で近似できる。

これにより、そして図３からの情報を使って、新しいピクセル値とパターンのそれぞれの組み合わせに対する確率が決定できる。表３は、その結果を示している。

ピクセル数が毎回半減する一方で、ピクセル値の数が２倍になる上記過程は繰り返しができる。
可能なピクセル値の数は、ピクセル対の組み合わせの数と共に増大するため、この数を減らすことが必要である。これは、「枝打ち（pruning）」とも呼ばれる、ピクセル値を一つの新たなピクセル値に併合することによって達成され得る。その結果、初期のピクセル値はもはや区別できず、ピクセル値に含まれる情報が失われることは不可避である。しかし、ピクセル値の数は減少された。ピクセル値の併合による情報の損失を最小にするために、どのピクセル値が併合されるのが好ましいかを決定するための一つの基準が設けられた。
本発明のこの好ましい実施態様の目的はパターン認識であるので、ピクセル値の併合によるパターンに関する情報損失は最小でなければならない。パターン情報は次式のように記述できる。

それ故に情報値ｉとｉ’を併合することによるパターン情報の損失は、結局、以下の式になる。

この情報損失は、特定のピクセルに対する情報値ｉおよびｉ’のすべての組み合わせに対して決定される。表４では、上記例に関して、ピクセルＶのピクセル値のすべての組み合わせに対して決定された情報損失が示されている。

情報の最小損失を持つ情報値の組み合わせのピクセル値は併合のために選択される。この場合、０と１の組み合わせ、または２と３の組み合わせは情報の最小損失をもたらす。０と１の組み合わせが選択されると、その結果、各０は１に、または各１は０になる。２と３の組み合わせが選択されると、その結果、各２は３に、または各３は２になる。
ピクセル値ｉおよびｉ’を併合することによって併合されたピクセルの確率は、Ｐ_i+i',α＝Ｐ_iα＋Ｐ_i'αになる。
イメージ認識の間に最後の段階における併合に関する情報を使用できるようになるために、どのピクセル値が併合されたかを、コードリストまたはコードブックに記録することが必要である。ピクセル値を併合する方法は、一般に、すべてのピクセルに対して個別に実行されなければならない。従って、上記の計算はそれぞれのピクセルに対して実行されなくてはならない。ただし、そこでの結果は、コードブックにピクセル毎に記憶される。
もしピクセル値の数が併合の後もまだ大きすぎるなら、この方法は、ピクセル値の数が十分に減らされるまで、繰り返し可能である。その結果、ピクセルをペアリングして、ピクセル値を可能な限り併合する過程は、やり直しができる。
ピクセルをペアリングして、ピクセル値を併合する方法は、すべてのピクセルが対にされ、ピクセル値の数が受容可能な水準まで減少するまで、必要なだけ繰り返しできる。
図６は、イメージの全パターン情報がピクセルをペアリングし（Ｃで指摘）、ピクセル値を併合または枝打ちする（Ｓで指摘）ステップに対してプロットされたグラフを示している。ピクセルをペアリングする各ステップにおいて、パターン情報は、認識イメージのピクセルの間の強い相関のために増大する。ピクセル値を併合または枝打ちする各ステップにおいて、（僅かな量の）パターン情報が失われる。イメージ全体が処理されるほど頻繁にペアリングと併合が実行された後、認識はほとんど完璧なので、パターン情報の値はゼロに近い値に収束する。パターン情報の最終値（すなわちゼロ値との差）は認識誤差である。この値は、ピクセル値の併合と、トレーニングセットの制限された統計的特徴の結果である固有の曖昧さが原因となったすべての情報損失の累積作用である。
上記好ましい実施態様におけるピクセルのペアリングとピクセル値の併合は、ニューラルネットワークに適した入力が結果として生じるまで、必要なだけ繰り返すことができる。パターン認識は、その後、ニューラルネットワークに引き継がれる。ニューラルネットワークが直に（それ故に上記方法に依ることなく）ピクセルに適用できない理由は、現在のコンピュータ技術では、ニューラルネットワークのノード数があまりにも大きくなるので迅速な方法でパターンを認識できなくなるためである。
イメージのパターンは、ピクセルをペアリングして、ピクセル値を併合することによっても直に認識できる。本発明による方法及び装置の上記好ましい実施態様においては、隣接的かつ近接的に配置された要素の間で各層の相関だけが調べられたが、遠く離れた要素との相関はその後、「もっと深い」層で生じる。本発明によるデータ減少によって階層構造が形成され、そこでは、環境（状況）に応じて要素が組み合わされ、あるいは状況に応じた相関を使用したパターン認識がもたらされる。

Claims

パターン認識の目的のために、データセットにおけるデジタル情報量を減少させるための方法であって、
（ａ）少なくとも一つのアプリオリな既知のパターンに関連し、トレーニング段階の間に前記少なくとも一つのアプリオリな既知のパターンから決定されるデジタルのアプリオリな情報値を提供する提供ステップと、
（ｂ）認識用のパターンに関連する第１の要素のデジタル情報値を決定する決定ステップと、
（ｃ）前記第１の要素を二つ以上ペアリングさせて第２の要素とし、それによってそれぞれの第２の要素に対するデジタル情報値の数が少なくとも２倍とするペアリング・ステップと、
（ｄ）前記第２の要素の各々に対して最低二つのデジタル情報値を併合させて、その情報値の数が削減された、削減された第２の要素とする併合ステップであって、情報値の併合の範囲は前記アプリオリな情報値に基づくことを特徴とする併合ステップと、
を含むことを特徴とするパターン認識方法。
前記併合ステップ（ｄ）が、
少なくとも１つのアプリオリな既知のパターンの情報値から、認識パターンの情報値がアプリオリな既知のパターンに属する確率を決定するステップと、
前記確率から、認識されるべきパターンに含まれる情報を表すパターン情報値を決定するステップと、
情報値の併合の前後のパターン情報値の差異を情報値のすべてのペアリングに対して決定するステップと、
パターン情報内の前記決定された差異に基づいて情報値を併合するステップと、を含むことを特徴とする請求項１に記載のパターン認識方法。
前記併合ステップ（ｄ）において、パターン情報値の最小損失を与えるデジタル情報値が併合されることを特徴とする請求項２に記載のパターン認識方法。
前記ペアリング・ステップ（ｃ）と前記併合ステップ（ｄ）は繰り返されることを特徴とする請求項１に記載のパターン認識方法。
前記確率は、ｎ_iαを情報値ｉ及び既知のパターンαのペアリングの回数、Ｐ_iαを情報値ｉ及び既知のパターンαのペアリングが発生する確率、Ｐ_αを確率Ｐ_iαのすべての情報値についての総和とすると、

で与えられることを特徴とする請求項２に記載のパターン認識方法。
Ｐ_iαを情報値ｉ及び既知のパターンαのペアリングが発生する確率、Ｐ_iをある一つの情報値が生じる確率とすると、パターン情報値は、

によって計算されることを特徴とする請求項５に記載のパターン認識方法。
第１の要素のペアリングは隣接する第１の要素に対して行われることを特徴とする請求項１に記載のパターン認識方法。
前記第１の要素は、一緒にイメージを形成するピクセルによって形成されることを特徴とする請求項１に記載のパターン認識方法。
前記情報値は、前記ピクセルが採用することができるデジタル値によって形成されることを特徴とする請求項１に記載のパターン認識方法。
前記第１の要素はスペクトラムを形成することを特徴とする請求項１に記載のパターン認識方法。
デジタル情報値の併合の後に、残存するデジタル情報値が再編成されることを特徴とする請求項１に記載のパターン認識方法。
前記第２の要素のデジタル情報値がニューラルネットワークの入力値として使用されることを特徴とする請求項１乃至１１の何れか１項に記載のパターン認識方法。
パターン認識の目的のために、データセットにおけるデジタル情報量を減少させるための装置であって、
デジタル情報を記憶するための電子メモリ手段と、
前記電子メモリ手段にデジタル情報値を入力するための入力手段と、
前記第１の要素を二つ以上ペアリングさせて第２の要素とし、それによってそれぞれの第２の要素に対するデジタル情報値の数を少なくとも２倍とするペアリング手段、および、前記第２の要素の各々に対して最低二つのデジタル情報値を併合させて、その情報値の数が削減された、削減された第２の要素とする併合手段であって、情報値の併合の範囲は前記アプリオリな情報値に基づくことを特徴とする併合手段と、をそれぞれ含む計算手段と、
前記計算手段と前記メモリ手段とを接続する接続手段、および、前記計算手段と前記入力手段とを接続する接続手段と、
をそれぞれ備えるパターン認識装置において、
少なくとも一つのアプリオリな既知のパターンに関連し、トレーニング段階の間に前記少なくとも一つのアプリオリな既知のパターンから決定されるデジタルのアプリオリな情報値を決定するための決定手段が備えられ、かつ、前記併合手段は前記デジタルのアプリオリな情報値に基づいて情報値を併合することを特徴とするパターン認識装置。
前記決定手段、前記グループ化手段、前記ペアリング手段、そして前記併合手段は、前記計算手段のソフトウェア制御によって実現されることを特徴とする請求項１３に記載のパターン認識方法。
前記１乃至１１の何れか１項に記載された方法を実行する手段を備えたことを特徴とする請求項１３または１４に記載のパターン認識方法。