JP3682533B2 - Image identification method and image recognition model - Google Patents
Image identification method and image recognition model Download PDFInfo
- Publication number
- JP3682533B2 JP3682533B2 JP2002157559A JP2002157559A JP3682533B2 JP 3682533 B2 JP3682533 B2 JP 3682533B2 JP 2002157559 A JP2002157559 A JP 2002157559A JP 2002157559 A JP2002157559 A JP 2002157559A JP 3682533 B2 JP3682533 B2 JP 3682533B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- layer
- pattern
- input
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Image Analysis (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、一部が欠けたり、ノイズが混入した画像パターンを認識する際に、対象に関して予め有しているカテゴリー知識を用いて、もとの画像パターンを再構成する画像識別方法とそれに用いるニューラルネットワークモデルに関する。
【0002】
【従来の技術】
視覚認識においては、対象の物理的な形態だけでなく、見る側が対象に対して持つ知識も重要な役割を果たしている。
また日常場面においても、よく知っている対象は見慣れない対象に比べてその認識が容易であることなどから、このような対象に対する知識が、視覚処理において機能的に有効な働きを持っていることが考えられる。
【0003】
対象が所定の属性によって分類されるカテゴリーに関するカテゴリー知識を獲得することが、対象の認識の仕方をどのように変化させるかを、類似性評定課題を通じて調べた従来技術はある。そこでは、カテゴリー知識の獲得により、同一カテゴリー対象間の類似性が高まる結果が得られている。また、このようなカテゴリー知識の効果は、カテゴリー内において典型性の高い事例に対してより強く働くことも示されている。
また、カテゴリー知識の獲得による視覚認識の脳内活動の変化を調べた従来技術がある。そこでは、ドットパターンを用いて、カテゴリー知識を持つ対象を見ている時と、持たない対象を見ている時との脳活動の差をfMRIを用いて調べており、カテゴリー知識を持つ対象を見る方が初期視覚野における活性レベルが低くなることが示されている。
【0004】
以上のような人間における視覚認識では、対象に対する視覚入力を、ボトムアップに処理するだけでなく、知識を用いてトップダウンに処理するすることで、画像パターンの認識効率を上昇させていると考えられる。
しかし、従来技術では、画像パターンの識別感度に限界があった。
【0005】
【発明が解決しようとする課題】
そこで、本発明は、人間の視覚認識の様式を応用して、画像パターンを識別する際に、対象に関して予め有しているカテゴリー知識を用いて、画像パターンの識別感度を上昇させる方法とモデルを提供することを課題とする。
【0006】
【課題を解決するための手段】
上記課題を解決するために、本発明の画像識別方法及び画像認識モデルは次の構成を備える。
本発明のモデルは、少なくとも入力層と出力層とその間の隠れ層とを備えた3層以上の階層的構造から成るニューラルネットワークモデルであり、各層のユニットは上下の層と双方向の全結合を持つと共に、同一の層での結合は持たず、また、ボトムアップの結合とトップダウンの結合は、それぞれ異なる値を持つことが可能であることを特徴とする。
【0007】
ネットワークには、事前に、パターンに対するカテゴリー知識を付与するための学習を行っておく。
【0008】
ネットワークの学習アルゴリズムとして、入力があったときに、ネットワークのボトムアップとトップダウンの動作により再び入力値が再構成される尤度を最大化するアルゴリズムを用いて、隠れ層の内部表現の獲得と、入力値から正しいカテゴリーラベルを出力するようにする。
【0009】
【発明の実施の形態】
以下に、本発明の実施形態を図面を用いて説明する。
脳においては多くの部位が相互に結合を持っており、低次の感覚入力の領野からボトムアップに高次の領野へ信号を送るだけでなく、高次の領野から低次の領野へ向けての結合も存在し、ボトムアップとトップダウンの相互の結合によって処理が行われていると考えられる。実際、公知技術では知識からの影響がトップダウンに働いていることが示唆されており、また高次の領野からのトップダウンのカテゴリー情報が存在することも示されている。
本モデルにおいては、カテゴリー情報がトップダウンに働き、ボトムアップの視覚入力とトップダウンの影響の相互の影響過程により内部表現が形成されるネットワークモデルを構築した。
【0010】
このような働きを実現するために、ネットワークモデルには相互の方向に結合を持つ階層的な構造を用いた。
図1にそのネットワークの構造を示す。ネットワークは3層の階層構造を持ち、各層のユニットは上下の層と双方向の全結合を持ち、同一の層での結合は持たない。また、ボトムアップの結合とトップダウンの結合はそれぞれ異なる値を持つことができる。入力層には視覚入力に対応する画像パターンが入力され、カテゴリー学習条件では最上位の第3層にカテゴリーラベルが与えられる。
ネットワークの動作の目標は、隠れ層の内部表現から入力層の画像パターンを再生できるような内部表現を獲得することと、それに加えて、入力パターンから正しいカテゴリーラベルを出力することである。
【0011】
上記のような動作目標を達成するため、ネットワークの学習則にはWake−Sleepアルゴリズムを用いた。Wake−Sleepアルゴリズムはもともと、相互結合を持つ階層的ネットワークの教師なし学習アルゴリズムとして考えられたものであり、入力パターンから自己組織化により、ネットワークに内部モデルを構成するための学習アルゴリズムである。
自己組織化のネットワークにおいては、どのような評価基準で内部表現を形成するかが問題となる。公知技術によれば、Wake−Sleepアルゴリズムは、パターンが入力されたときに、ネットワークのボトムアップとトップダウンの動作により再び入力パターンが再構成される尤度を最大化するような学習アルゴリズムになっている。このような尤度の対数の負値をネットワークのエネルギー関数と考えたときに、Wake−Sleepアルゴリズムはネットワークのヘルムホルツ自由エネルギーを結合荷重に関して最小化する学習アルゴリズムとなっていることから、Wake−Sleepアルゴリズムを用いたニューラルネットワークはヘルムホルツマシンとも呼ばれる。
【0012】
また、Wake−Sleepアルゴリズムは、できるだけ簡潔でありながら、入力パターンをできるだけ正確に再構成できるような内部表現(圧縮表現)を獲得するためのアルゴリズムであることをMDL原理(Rissanen,1989)の観点から説明している公知技術もあり、Wake−Sleepアルゴリズムが入力パターンの再構成が可能な限りにおいて、データの記述長が最小となるようなネットワークの内部表現を近似的に獲得することが示されている。
【0013】
Wake−Sleepアルゴリズムによるネットワークの細かな動作手順は次の通りである。
ネットワークの各ユニットは確率的に活性値0または1をとり、その確率はユニットヘの入力の値により決まる。i層のあるユニットヘの入力xiは以下の式により表される。
【式1】
【0014】
ここで、biはこのユニットのバイアス、Sjはユニットに結合しているj層のユニットの活性値、Wijはその結合荷重である。このxiにより、ユニットの活性が1の値をとる確率piは、
【式2】
により決まる。
【0015】
Wake-Sleepアルゴリズムではネットワークの学習はWakeフェーズとSleepフェーズの2つのフェーズで行われる。ここで同じユニットの活性確率を、ボトムアップによる活性確率qと、トップダウンによる活性確率pとに区別しておく。またボトムアップの結合荷重をφで表し,トップダウンの結合荷重をθで表す(図1)。
まず、Wakeフェーズではボトムアッブの入力から各ユニットの活性確率qと活性値sαを求める.次に上位の層の活性値sαをもとにトップダウンの入力から、ユニットの活性確率pを求める。このように、ネットワークの活性はトップダウンとボトムアップで別々に求められ、双方向結合による活性の反響などは行わない。Wakeフェーズで学習を行うのはトップダウンの結合θのみで、トップダウンの入力により得られる活性値がボトムアップで得られるものに近づくように、以下の式でθを修正し学習を行っていく(∈は学習率)。
【式3】
【0016】
Sleepフェーズではトップダウンの入力から各ユニットの活性確率pと活性値srを求める。次に下位の層の活性値srをもとにボトムアップの入力からユニットの活性確率qを求める。Sleepフェーズで学習を行うのはボトムアップの結合φのみで、ボトムアップの入力により得られる活性値がトップダウンで得られるものに近づくように以下の式でφを修正し学習を行っていく。
【式4】
【0017】
このWakeフェーズとSleepフェーズを1回の学習ごとに行い、入力からボトムアップに内部表現を構成し、内部表現から入力を再構成できるように結合荷重θ,φを修正していく。
【0018】
これを用いて、シミュレーションを次のように行った。
ネットワークヘの入力は図2に示したような10×10のピクセルパターンを図の部分を1、地の部分を0として、100次元の{0,1}のベクトルパターンにして入力パターンとした。よって入力ユニットの数は100個である。入力パターンは2つのカテゴリーからなり、図2に示したものと同様の80個のパターンを用いた。各カテゴリーに属するパターンは40個ずつであった。中間層ユニットは15個とし、出力層のユニットは各カテゴリーに対応するものとして2個を設けた。
【0019】
シミュレーションではネットワークにカテゴリーラベルを与えるカテゴリー学習条件と、カテゴリーラベルを与えない統制条件を行い、両条件の差を比較することで、カテゴリー知識を与えることの有効性を示した。
【0020】
カテゴリー学習条件では、まず80個のパターンをWake−Sleepアルゴリズムにより学習していく。ただしWakeフェーズにおいて出力層のユニットの活性値は、入力パターンが属するカテゴリーに応じて{1 0}または{0 1}の活性値に固定する。またSleepフェーズでは、出力層における始めのトップダウンの活性は、{1 0}か{0 1}が等確率で出現するようにした。
公知技術に、このような教師ありのWake−Sleepアルゴリズムに関して述べられており、カテゴリーラベルの出力を教師として与えることにより、ボトムアップのモデルにおいて入力パターンの特徴fが与えられたときにカテゴリー0を出力する条件付確率P(C|f)を学習し、トップダウンのモデルにおいてカテゴリーCが与えられたときに特徴fを出力する条件付確率P(f|C)を学習できることが示されている。これにより、カテゴリー知識からのトップダウンの影響がP(f|C)に応じてカテゴリーと結びつきの強い特徴に対して与えられることになる。
【0021】
統制条件でも同様に80個のパターンを用いるが、Wakeフェーズにおいて、出力層におけるカテゴリーラベルヘの活性値の固定は行わず、またSleepフェーズでは出力層における始めのトップダウンの活性は、出力ユニットヘのバイアス項の入力のみから活性値を求めた。
【0022】
このようにカテゴリー学習条件、統制条件ともに同じ3層構造のネットワークを用いるが、カテゴリー学習条件では出力層にカテゴリーラベルを与え、入力パターンからカテゴリーラベルを出力できるようにし、さらにカテゴリーラベルから内部表現にトップダウンに影響を与えるようになっているのに対し、統制条件では自己組織化により内部表現を学習するのみとなっている。
いずれの条件においても学習率はE=0.001とし、重みの初期値は全て0とした。各条件で別々のネットワークで学習を行い、80個のパターンをランダムな順序で入力することを1回の学習として、これを100,000回行った。
【0023】
学習が完了したネットワークに対して、ノイズの含まれた入力パターンからネットワークの動作による再構成におけるパターン識別の感度を調べた。ここでは学習時とは異なり、入力パターンからのボトムアッブの活性とボトムアップにより得られた出力層における表現からのトップダウンの活性を同時に行って、双方向の活性サイクルを繰り返し行い、活性パターンの変化が収束した時点での内部表現を入力パターンの内部表現とした。このようにすることで、ボトムアップとトッブダウンの情報の両方の効果を受けた内部表現を求めることができる。双方向の活性サイクルはユニットヘの入力値の変化が全て0.001以下になるまで行った。
【0024】
シミュレーションではまず、図2の5つの図形の劣化していない状態を入力パターンとして入力し、双方向の活性を繰り返して安定状態に達した時点での隠れ層の活性パターンをそれぞれ求めておく。ここでの活性パターンは確率的に求めた{0,1}のパターンではなく、ユニットの活性確率そのものを用いた。
つぎに入力パターンの活性値を弱め、さらにランダムなノイズを加えたものを入力パターンとして、双方向の活性をネットワークの状態変化がほぼなくなるまで繰り返し行う。ネットワークの動作が安定した時点での隠れ層の活性確率のパターンに関して、あらかじめ求めておいた劣化していない状態でのパターンの隠れ層の表現の中から、ユークリッド距離が最も近いパターンを入力されたパターンと判断することで、パターン問の混同行列を求めた。混同行列とは呈示されたパターンに対してどのパターンと答えたかの頻度を、呈示パターン×回答パターンの行列に表したものである。パターンの劣化のレベルは,もとの入力パターンにe-6.5,e-5.5,e-4.5,e-3.5,e-2.5,e-1.5をそれぞれ掛けたものの6段階を用い、ノイズは全ての劣化レベルにおいて平均0,標準偏差0.05の正規乱数を加えることで与えた。ただし値が負になったものは0とした。
このようにしてパターンと劣化レベルごとに、ランダムなノイズを変えて100回のシミュレーションを行い、全体で3000回の試行から混同行列を作成した。
【0025】
学習の結果、ネットワークの学習の進度は、ボトムアップにより形成される各ユニットの活性確率qと、トップダウンにより形成される各ユニットの活性確率ρとの間のKullback−Leibler情報量(KL)を学習誤差として、その大きさにより測られる。ただし、カテゴリー学習条件においては出力層の活性がカテゴリーラベルに固定されるため、KLの値は入力層と隠れ層においてのみ求めた。また統制条件においてもカテゴリー学習条件との比較のため、同様に入力層と隠れ層のみからKLの値を求めた。
図3に学習経過におけるKLの変化を示す。これから100,000回の学習により、どちらの条件でもKLが十分小さくなり、学習がほぼ収束していることが分かる。
【0026】
また内部表現から入力パターンの再構成ができているかを調べるために、入力パターンから隠れ層の活性をボトムアップに求め、得られた隠れ層の活性パターンから入力パターンをトップダウンに再構成し、もとのパターンとの誤差(パターンベクトル間のユークリッド距離)を求めた。
図4に学習経過における誤差の変化を示す。これから,学習により誤差は非常に小さくなり、内部表現からの入力パターンの再構成が問題なくできるようになっていることが分かる。
またカテゴリー学習条件においては、早い段階においてカテゴリー学習を達成し、248回目の学習以降は常に100%の正答率を達成した。
【0027】
次に、シミュレーションの結果を見ていく。ここでは、シミュレーションにより得られた混同行列をもとにネットワークのパターンの識別感度を調べた。混同行列はパターン間の聞違いやすさ、逆にいえばパターン間の識別感度を表すものであり、混同が多いほどそのパターン間の識別が難しく、少ないほど識別が容易であったことを表す。混同行列をパターン間の識別感度に展開するモデルはいくつか提案されているが、ここでは多くの場面においてデータヘの適合が優れているLuceのモデルを用いた。またモデルの適用の手続きは、Gilmoreらと同様にし、パターン間の弁別感度としてLuceのモデルにおけるパターン間の距離dを求めた。
図5に弁別感度の劣化レベルごとの変化を示す。図5にみられるように、パターンの情報が増えるにつれて識別感度は上昇していくのが分かる。またカテゴリー学習条件の方が統制条件に比べ弁別感度が高くなる傾向も見られた。
【0028】
次にネットワークの内部表現(隠れ層ユニットにおける活性パターン)に関して、カテゴリーラベルが与えられた場合と与えられない場合との違いを調べた。ここでも内部表現を求める際には、双方向の活性を繰り返し行って安定状態における隠れ層ユニットの活性確立を求めた。またパターンセットには、カテゴリー学習に用いた80個のパターンを用いた。
【0029】
まず、パターンごとの隠れ層ユニットの活性確率の総和を求めることで、隠れ層の全体としての活性レベルを求めた。カテゴリー学習条件、統制条件のそれぞれで活性レベルのパターンセット全体での平均値を求めたところ、カテゴリー学習条件では6.8584であったのに対し、統制条件では7.5265であった。また、隠れ層のユニットの活性の分布がどのようなものであるかを調べるため、隠れ層ユニットの活性分布のエントロピーHを以下の式で求めた。
【式5】
【0030】
ここでは、隠れ層のユニットjのパターンセット全体に対する平均活性確率を表す。カテゴリー学習条件ではH=5.8945であり,統制条件ではH=9.2258であった。
このようにカテゴリー学習条件においてエントロピーが低く、かつ全体の活性レベルが低い内部表現を用いていることから、内部表現における一つのパターンの表現に関して、統制条件では多くのユニットが中程度ずつ関与するが、カテゴリー学習条件ではより限定された少ないユニット数でパターンを表現するようになっていることがわかる。
【0031】
ここで見られたような、カテゴリー学習条件における活性分布の偏りや活性ユニット数の減少は、カテゴリー知識が与えられたことによる効果であると考えられる。MDL原理に基づいてこのような符号化表現を考えると、まずカテゴリー情報が与えられない場合、パターンを最も効率的に符号化したとして、その平均符号長は、
【式6】
のようになると考えられる。ここで、fjはパターンに含まれる特徴を表し、P(fj)はパターン空間全体におけるその確率分布を表す。
ここでカテゴリー知識が与えられた場合には、カテゴリーごとの特徴の確率分布をもとに符号化を行えば、より効率的な符号化が可能となり、その平均符号長は、
【式7】
となる。
カテゴリー分類が特微空間内で分離できるようにうまく定義できていれば、P(fj|Ck)は、P(fj)よりも分散の小さい偏った分布を取り、そのエントロピーも小さくなることから、式(8)の平均符号長は、式(7)の平均符号長よりも小さな値をとる。Wake−Sleepアルゴリズムは記述長を最小にする内部表現を求めるアルゴリズムになっており、カテゴリー学習条件のネットワークの方が隠れ層の内部表現において、よりエントロピーの低い表現が獲得できたのは、このような効果によるものと考えられる。
【0032】
また実際に、カテゴリー学習条件のネットワークの方が統制条件のネットワークよりもカテゴリーごとに分離した表現を用いていることを確かめるために、隠れ層ユニットの活性確率の分布が、カテゴリーごとにどの程度異なるかを調べた。ここではカテゴリー学習に用いたパターンに関して、カテゴリーごとの隠れ層のユニットの平均発火確率(qj,c1,qj,c2)を求め、以下の式により内部表現のカテゴリー間でのKL情報量を求めた。
【式8】
【0033】
その結果、カテゴリー学習条件ではKL=21.4619であったのに対し、統制条件ではKL=13.4945であり、カテゴリー学習条件のネットワークの方が、内部表現においてカテゴリー間でより分離した表現を用いていることが分かった。
【0034】
シミュレーションの結果、カテゴリー知識を与えることでパターンの識別率が向上することが示された。このことから、カテゴリー知識の対象の識別における有効な働きが、カテゴリー知識からのトップダウンの効果により説明できることがわかった。
【0035】
シミュレーションでは、カテゴリー学習条件の方が統制条件よりも活性レベルが低く、かつエントロピーの低い内部表現を獲得することができ、さらにカテゴリー間で分離した内部表現を獲得していた。これらの結果から、カテゴリー学習条件のネットワークにおいては、カテゴリー知識によりパターンの分布をより限定することで、効率的に入力パターンを表現していると考えられる。このことから、カテゴリー知識の獲得は、単に対象の識別において有効であるだけでなく、その処理の効率化においても有効であると考えられる。
【0036】
本発明では、ボトムアッブとトッブダウンの相互の処理の機能的役割や計算論的意味を特にカテゴリー知識に関して考察したが、このような双方向処理は脳内において大きな役割を果たしていると考えられ、今回調べたような視覚認識におけるカテゴリー知識の影響だけでなく、認識のあらゆる場面に見られるものと考えられる。
【0037】
このような視覚認識は、ロボットやセンサーによる対象の認知や、モンタージュ写真の製作、伝送時に劣化したデータの修復などに活用できる。
【0038】
【発明の効果】
本発明の画像識別の方法は、上述の構成を備えることによって、次の効果を奏する。
画像の識別において、事前に画像に対するカテゴリー知識をニューラルネットワークに学習させておくことで、その後一部が欠けたり劣化したパターンが与えられた時に、そのパターンから自動的に学習したカテゴリーラベルを出力し、その出力をもとにパターンの再構成を行うことで、パターンの識別効率を上昇させることができる。またこのようなカテゴリー知識を用いた効果は、画像認識に限らず、広くパターン認識に応用可能である。
【図面の簡単な説明】
【図1】ネットワークの構造を示す説明図
【図2】入力パターンを示す説明図
【図3】ニューラルネットワークの学習誤差を示すグラフ
【図4】内部表現から入力パターンを再構成する誤差を示すグラフ
【図5】シミュレーションによる図形識別率の変化を示すグラフ[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an image identification method for reconstructing an original image pattern by using category knowledge that is previously stored in an object when recognizing an image pattern that is partially missing or mixed with noise. It relates to a neural network model.
[0002]
[Prior art]
In visual recognition, not only the physical form of the object but also the knowledge that the viewer has for the object plays an important role.
Even in everyday situations, familiar objects are easier to recognize than unfamiliar objects, so knowledge of these objects has a functionally effective function in visual processing. Can be considered.
[0003]
There is a conventional technique in which how to acquire category knowledge about a category in which an object is classified by a predetermined attribute changes how to recognize the object through a similarity assessment task. There, the result that the similarity between subjects of the same category is increased by the acquisition of category knowledge. It has also been shown that the effect of such category knowledge works more strongly for cases with high typicalities within the category.
In addition, there is a conventional technique that examines changes in the brain activity of visual recognition due to the acquisition of category knowledge. There, we use a dot pattern to examine the difference in brain activity when looking at an object with category knowledge and when looking at an object with no category knowledge using fMRI. It has been shown that the viewer has a lower level of activity in the early visual cortex.
[0004]
In human visual recognition as described above, it is thought that the recognition efficiency of image patterns is increased by not only processing the visual input to the target bottom-up, but also processing top-down using knowledge. It is done.
However, the prior art has a limit in image pattern identification sensitivity.
[0005]
[Problems to be solved by the invention]
Therefore, the present invention applies a method of visual recognition of human beings and uses a category knowledge previously possessed with respect to an object when identifying an image pattern to provide a method and model for increasing the identification sensitivity of an image pattern. The issue is to provide.
[0006]
[Means for Solving the Problems]
In order to solve the above problems, an image identification method and an image recognition model of the present invention have the following configuration.
The model of the present invention is a neural network model composed of a hierarchical structure of three or more layers including at least an input layer, an output layer, and a hidden layer therebetween, and each layer unit has a bidirectional total connection with the upper and lower layers. It is characterized in that it does not have coupling in the same layer, and that bottom-up coupling and top-down coupling can have different values.
[0007]
Learning to give category knowledge about patterns is performed in advance on the network.
[0008]
Using an algorithm that maximizes the likelihood that the input value is reconstructed by the bottom-up and top-down operations of the network when there is an input as a learning algorithm for the network. , To output the correct category label from the input value.
[0009]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings.
Many parts of the brain are connected to each other, not only sending signals from lower-order sensory areas to higher-order areas, but also from higher-order areas to lower-order areas. It is considered that processing is performed by mutual coupling of bottom-up and top-down. In fact, the prior art suggests that knowledge influences top-down, and that there is top-down category information from higher territories.
In this model, we constructed a network model in which the category information works top-down and the internal representation is formed by the mutual influence process of bottom-up visual input and top-down influence.
[0010]
In order to realize this function, the network model has a hierarchical structure with connections in the mutual direction.
FIG. 1 shows the structure of the network. The network has a three-layer hierarchical structure, and units in each layer have full bidirectional coupling with upper and lower layers, and do not have coupling in the same layer. Also, bottom-up coupling and top-down coupling can have different values. An image pattern corresponding to visual input is input to the input layer, and a category label is given to the uppermost third layer under category learning conditions.
The goal of the network operation is to obtain an internal representation that can reproduce the image pattern of the input layer from the internal representation of the hidden layer, and in addition to outputting the correct category label from the input pattern.
[0011]
The Wake-Sleep algorithm was used as a learning rule for the network in order to achieve the above operation goals. The Wake-Sleep algorithm was originally considered as an unsupervised learning algorithm for a hierarchical network having mutual connections, and is a learning algorithm for configuring an internal model in a network by self-organization from an input pattern.
In a self-organizing network, the question is what evaluation criteria are used to form internal representations. According to the known technique, the Wake-Sleep algorithm is a learning algorithm that maximizes the likelihood that the input pattern is reconstructed again by the bottom-up and top-down operations of the network when the pattern is input. ing. When considering the negative value of the logarithm of the likelihood as the energy function of the network, the Wake-Sleep algorithm is a learning algorithm that minimizes the network Helmholtz free energy with respect to the coupling weight. A neural network using an algorithm is also called a Helmholtz machine.
[0012]
In addition, the Wake-Sleep algorithm is an algorithm for acquiring an internal representation (compressed representation) that can reconstruct the input pattern as accurately as possible while being as simple as possible. From the viewpoint of the MDL principle (Rissanen, 1989) There is also a well-known technique described in the above, and it is shown that the Wake-Sleep algorithm approximately obtains the internal representation of the network that minimizes the data description length as long as the input pattern can be reconstructed. ing.
[0013]
The detailed network operation procedure by the Wake-Sleep algorithm is as follows.
Each unit of the network takes an
[Formula 1]
[0014]
Here, bi is the bias of this unit, Sj is the activation value of the unit of the j layer coupled to the unit, and Wij is the coupling load. With this xi, the probability pi that the unit activity takes a value of 1 is
[Formula 2]
It depends on.
[0015]
In the Wake-Sleep algorithm, network learning is performed in two phases, the Wake phase and the Sleep phase. Here, the activity probability of the same unit is distinguished into an activity probability q by bottom-up and an activity probability p by top-down. The bottom-up coupling load is represented by φ, and the top-down coupling load is represented by θ (FIG. 1).
First, in the Wake phase, the activation probability q and the activation value sα of each unit are obtained from the bottom-up input. Next, the activation probability p of the unit is obtained from the top-down input based on the activation value sα of the upper layer. In this way, the activity of the network is obtained separately for top-down and bottom-up, and there is no echo of activity due to bidirectional coupling. Learning is performed only in the top-down coupling θ in the Wake phase, and learning is performed by correcting θ with the following formula so that the activity value obtained by top-down input approaches that obtained by bottom-up. (∈ is the learning rate).
[Formula 3]
[0016]
In the sleep phase, the activation probability p and the activation value sr of each unit are obtained from the top-down input. Next, the unit activation probability q is obtained from the bottom-up input based on the lower layer activation value sr. Learning is performed only in the bottom-up coupling φ in the Sleep phase, and learning is performed by correcting φ with the following formula so that the activity value obtained by bottom-up input approaches that obtained in top-down.
[Formula 4]
[0017]
This Wake phase and Sleep phase are performed for each learning, and the internal representation is constructed from the input to the bottom up, and the coupling loads θ and φ are corrected so that the input can be reconstructed from the internal representation.
[0018]
Using this, the simulation was performed as follows.
The input to the network is a 10 × 10 pixel pattern as shown in FIG. 2 where the portion of the figure is 1 and the portion of the ground is 0, and the input pattern is a 100-dimensional {0, 1} vector pattern. Therefore, the number of input units is 100. The input patterns consisted of two categories, and 80 patterns similar to those shown in FIG. 2 were used. There were 40 patterns belonging to each category. There were 15 intermediate layer units, and 2 output layer units corresponding to each category.
[0019]
In the simulation, the effectiveness of giving the category knowledge was shown by comparing the difference between the two conditions, the category learning condition that gives the category label to the network and the control condition that doesn't give the category label.
[0020]
Under the category learning conditions, 80 patterns are first learned by the Wake-Sleep algorithm. However, in the Wake phase, the activation value of the unit in the output layer is fixed to the activation value of {1 0} or {0 1} depending on the category to which the input pattern belongs. In the sleep phase, {1 0} or {0 1} appears at an equal probability in the first top-down activity in the output layer.
In the prior art, such a supervised Wake-Sleep algorithm is described, and
[0021]
Similarly, 80 patterns are used in the control condition. However, in the Wake phase, the activity value is not fixed to the category label in the output layer, and in the Sleep phase, the top-down activity in the output layer at the beginning is applied to the output unit. The activity value was obtained only from the input of the bias term.
[0022]
In this way, a network with the same three-layer structure is used for both the category learning conditions and the control conditions. However, in the category learning conditions, a category label is given to the output layer so that the category label can be output from the input pattern, and from the category label to the internal representation. In contrast to the top-down influence, the control condition only learns internal expressions through self-organization.
Under any condition, the learning rate was E = 0.001, and the initial weight values were all 0. Learning was performed on separate networks under each condition, and inputting 80 patterns in a random order was performed 100,000 times as one learning.
[0023]
We investigated the sensitivity of pattern identification in reconstruction by network operation from a noisy input pattern for a learned network. Here, unlike learning, bottom-up activity from the input pattern and top-down activity from the output layer obtained by bottom-up are performed simultaneously, and a bidirectional activation cycle is repeated to change the activity pattern. The internal representation of the input pattern was taken as the internal representation at the time of convergence. By doing in this way, it is possible to obtain an internal representation that receives the effects of both bottom-up and top-down information. Bidirectional activation cycles were performed until all changes in the input value to the unit were 0.001 or less.
[0024]
In the simulation, first, the undegraded state of the five figures in FIG. 2 is input as an input pattern, and the active pattern of the hidden layer at the time when the bidirectional state is repeated to reach the stable state is obtained. The activity pattern here is not the {0, 1} pattern obtained stochastically but the unit activation probability itself.
Next, the activation value of the input pattern is weakened, and a random noise added is used as an input pattern, and bidirectional activity is repeated until there is almost no change in the state of the network. Regarding the activity probability pattern of the hidden layer when the network operation is stable, the pattern with the closest Euclidean distance is input from the representation of the hidden layer of the pattern that has not been deteriorated. By determining the pattern, a confusion matrix of pattern questions was obtained. The confusion matrix is a frequency of which pattern is answered with respect to the presented pattern in a matrix of presented pattern × answer pattern. There are 6 levels of pattern degradation: the original input pattern multiplied by e −6.5 , e −5.5 , e −4.5 , e −3.5 , e −2.5 , and e −1.5 respectively. It was given by adding normal random numbers with an average of 0 and a standard deviation of 0.05 at the deterioration level. However, a negative value was set to 0.
Thus, for each pattern and deterioration level, random noise was changed, 100 simulations were performed, and a confusion matrix was created from 3000 trials in total.
[0025]
As a result of learning, the learning progress of the network is the Kullback-Leibler information amount (KL) between the activity probability q of each unit formed by bottom-up and the activity probability ρ of each unit formed by top-down. It is measured by its magnitude as a learning error. However, since the activity of the output layer is fixed to the category label under the category learning condition, the value of KL was obtained only in the input layer and the hidden layer. In the control condition, the value of KL was obtained from the input layer and hidden layer for comparison with the category learning condition.
FIG. 3 shows changes in KL over the course of learning. From this, it can be seen that by 100,000 learning, KL becomes sufficiently small under either condition, and learning is almost converged.
[0026]
Also, in order to investigate whether the input pattern is reconstructed from the internal representation, the activity of the hidden layer is obtained from the input pattern from the bottom up, the input pattern is reconstructed from the obtained hidden layer active pattern from the top down, The error from the original pattern (Euclidean distance between pattern vectors) was obtained.
FIG. 4 shows a change in error in the course of learning. From this, it can be seen that the error becomes very small by learning, and the input pattern can be reconstructed from the internal representation without any problem.
In the category learning conditions, category learning was achieved at an early stage, and a correct answer rate of 100% was always achieved after the 248th learning.
[0027]
Next, we will look at the results of the simulation. Here, the identification sensitivity of the network pattern was examined based on the confusion matrix obtained by simulation. The confusion matrix represents the ease of misinterpretation between patterns, and conversely, the discrimination sensitivity between patterns. The greater the confusion, the more difficult the discrimination between the patterns, and the less the easier the discrimination. Several models have been proposed to expand the confusion matrix into the discrimination sensitivity between patterns, but here we used Luce's model, which is excellent in fitting to data in many situations. The model application procedure was the same as Gilmore et al., And the distance d between patterns in the Luce model was obtained as the discrimination sensitivity between patterns.
FIG. 5 shows changes in the discrimination sensitivity for each deterioration level. As can be seen from FIG. 5, the identification sensitivity increases as the pattern information increases. There was also a tendency for category learning conditions to have higher discrimination sensitivity than control conditions.
[0028]
Next, regarding the internal representation of the network (activity pattern in the hidden layer unit), the difference between when the category label was given and when it was not given was examined. Again, when determining the internal representation, the activity of the hidden layer unit was established in a stable state by repeatedly performing bi-directional activity. In addition, 80 patterns used for category learning were used for the pattern set.
[0029]
First, the activity level of the entire hidden layer was determined by calculating the sum of the activation probabilities of the hidden layer units for each pattern. When the average value of the entire pattern set of the activity level was obtained for each of the category learning condition and the control condition, it was 6.8584 for the category learning condition and 7.5265 for the control condition. In addition, in order to investigate what the activity distribution of the hidden layer units is, the entropy H of the activity distribution of the hidden layer units was obtained by the following equation.
[Formula 5]
[0030]
Here, the average activity probability for the entire pattern set of the unit j of the hidden layer is represented. The category learning condition was H = 5.8945, and the control condition was H = 9.2258.
In this way, because the category learning conditions use an internal representation with low entropy and a low overall activity level, many units are involved moderately in the control conditions for the representation of one pattern in the internal representation. In the category learning condition, it can be seen that the pattern is expressed by a limited number of units.
[0031]
The bias in the activity distribution and the decrease in the number of active units under the category learning conditions as seen here are considered to be the effects of the category knowledge. Considering such an encoded representation based on the MDL principle, if category information is not given first, assuming that the pattern is encoded most efficiently, the average code length is
[Formula 6]
It seems that Here, fj represents a feature included in the pattern, and P (fj) represents the probability distribution in the entire pattern space.
If category knowledge is given here, encoding based on the probability distribution of features for each category enables more efficient encoding, and the average code length is
[Formula 7]
It becomes.
If the category classification is well defined so that it can be separated in the micro space, P (fj | Ck) takes a biased distribution with a smaller variance than P (fj), and its entropy is also small. The average code length of Expression (8) takes a value smaller than the average code length of Expression (7). The Wake-Sleep algorithm is an algorithm that seeks an internal representation that minimizes the description length, and this is the reason why the network with categorical learning conditions has obtained a lower entropy representation in the hidden layer internal representation. This is thought to be due to the effects.
[0032]
In fact, the distribution of activity probability of hidden layer units varies from category to category in order to confirm that the category learning condition network uses a separate expression for each category than the control condition network. I investigated. Here, regarding the pattern used for category learning, the average firing probability (qj, c1, qj, c2) of the hidden layer unit for each category was calculated, and the amount of KL information between the internal representation categories was calculated using the following formula: .
[Formula 8]
[0033]
As a result, while KL = 21.4619 in the category learning condition, KL = 13.4945 in the control condition, the network of the category learning condition has a more separated expression between categories in the internal expression. I found out that I was using it.
[0034]
As a result of simulation, it was shown that the recognition rate of the pattern improves by giving category knowledge. From this, it was found that the effective function in identifying the subject of category knowledge can be explained by the top-down effect from category knowledge.
[0035]
In the simulation, the category learning condition was able to acquire an internal expression with a lower activity level and a lower entropy than the control condition, and further acquired an internal expression separated between categories. From these results, in the network of category learning conditions, it is considered that the input pattern is efficiently expressed by further restricting the distribution of patterns by category knowledge. From this, it can be considered that the acquisition of category knowledge is effective not only in the identification of objects but also in the efficiency of the processing.
[0036]
In the present invention, the functional role and computational meaning of the mutual processing of bottom-up and top-down were considered, particularly with respect to category knowledge. Such bidirectional processing is considered to play a major role in the brain, and this time we investigated In addition to the effects of category knowledge on visual recognition, it can be seen in every scene of recognition.
[0037]
Such visual recognition can be used for recognition of objects by robots and sensors, production of montage photos, restoration of data deteriorated during transmission, and the like.
[0038]
【The invention's effect】
The image identification method of the present invention has the following effects by providing the above-described configuration.
For image identification, let the neural network learn the category knowledge about the image in advance, and when a pattern that is partially missing or deteriorated is given, the category label automatically learned from that pattern is output. By reconstructing the pattern based on the output, the pattern identification efficiency can be increased. The effect using such category knowledge is not limited to image recognition but can be widely applied to pattern recognition.
[Brief description of the drawings]
FIG. 1 is an explanatory diagram showing the structure of a network. FIG. 2 is an explanatory diagram showing an input pattern. FIG. 3 is a graph showing a learning error of a neural network. FIG. 4 is a graph showing an error reconstructing an input pattern from an internal representation. FIG. 5 is a graph showing changes in the graphic identification rate by simulation
Claims (2)
少なくとも入力層と出力層とその間の隠れ層とを備えた3層以上の階層的構造から成り、
各層のユニットは上下の層と双方向の全結合を持つと共に、同一の層での結合は持たず、
また、ボトムアップの結合とトップダウンの結合は、それぞれ異なる値を持つことが可能である画像認識モデルを用い、
入力層にノイズの含まれた画像の元信号を入力し、出力層に入力パターンのカテゴリーラベルを与えることによって、
ボトムアップとトップダウンの双方向の動作により、再び入力層に、カテゴリーに関する知識に基づいてノイズが軽減された画像を再構成する
ことを特徴とする画像識別方法。A method of identifying an image pattern by a neural network,
Consists of a hierarchical structure of at least three layers with at least an input layer, an output layer, and a hidden layer therebetween,
Each layer unit has full bi-directional coupling with the upper and lower layers and does not have coupling in the same layer,
Also, bottom-up and top-down combinations use image recognition models that can have different values,
By inputting the original signal of the noisy image in the input layer and giving the input pattern category label in the output layer,
An image identification method comprising reconstructing an image in which noise is reduced based on knowledge about a category again in an input layer by bidirectional operation of bottom-up and top-down.
少なくとも入力層と出力層とその間の隠れ層とを備えた3層以上の階層的構造から成り、
各層のユニットは上下の層と双方向の全結合を持つと共に、同一の層での結合は持たず、
また、ボトムアップの結合とトップダウンの結合は、それぞれ異なる値を持つことが可能であり、
入力層にノイズの含まれた画像の元信号を入力し、出力層に入力パターンのカテゴリーラベルを与えることによって、
ボトムアップとトップダウンの双方向の動作により、再び入力層に、カテゴリーに関する知識に基づいてノイズが軽減された画像が再構成される
ことを特徴とする画像認識モデル。A neural network model for identifying image patterns,
Consists of a hierarchical structure of at least three layers with at least an input layer, an output layer, and a hidden layer therebetween,
Each layer unit has full bi-directional coupling with the upper and lower layers and does not have coupling in the same layer,
In addition, bottom-up coupling and top-down coupling can have different values,
By inputting the original signal of the noisy image in the input layer and giving the input pattern category label in the output layer,
An image recognition model in which an image with reduced noise is reconstructed in the input layer again based on knowledge about the category by bidirectional operation of bottom-up and top-down.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002157559A JP3682533B2 (en) | 2002-05-30 | 2002-05-30 | Image identification method and image recognition model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002157559A JP3682533B2 (en) | 2002-05-30 | 2002-05-30 | Image identification method and image recognition model |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004005021A JP2004005021A (en) | 2004-01-08 |
JP3682533B2 true JP3682533B2 (en) | 2005-08-10 |
Family
ID=30428460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002157559A Expired - Lifetime JP3682533B2 (en) | 2002-05-30 | 2002-05-30 | Image identification method and image recognition model |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3682533B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1894150A2 (en) * | 2005-05-07 | 2008-03-05 | Stephen L. Thaler | Device for the autonomous bootstrapping of useful information |
WO2019051645A1 (en) * | 2017-09-12 | 2019-03-21 | 深圳前海达闼云端智能科技有限公司 | Dynamic learning method and system for robot, robot, and cloud server |
CN111618862B (en) * | 2020-06-12 | 2022-10-14 | 山东大学 | Robot operation skill learning system and method under guidance of priori knowledge |
CN113031437B (en) * | 2021-02-26 | 2022-10-25 | 同济大学 | Water pouring service robot control method based on dynamic model reinforcement learning |
-
2002
- 2002-05-30 JP JP2002157559A patent/JP3682533B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2004005021A (en) | 2004-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Hard negative generation for identity-disentangled facial expression recognition | |
Bauer et al. | Growing a hypercubical output space in a self-organizing feature map | |
Zhu et al. | Multi-view perceptron: a deep model for learning face identity and view representations | |
Erhan et al. | The difficulty of training deep architectures and the effect of unsupervised pre-training | |
Kurtz | The divergent autoencoder (DIVA) model of category learning | |
CN107392865B (en) | Restoration method of face image | |
Robert | A unified account of the effects of caricaturing faces | |
CN107194376A (en) | Mask fraud convolutional neural networks training method and human face in-vivo detection method | |
Araújo et al. | Local adaptive receptive field self-organizing map for image color segmentation | |
CN107463917A (en) | A kind of face feature extraction method merged based on improved LTP with the two-way PCA of two dimension | |
Duin et al. | Open issues in pattern recognition | |
Horvat et al. | Density estimation on low-dimensional manifolds: an inflation-deflation approach | |
Zhang et al. | Occlusion-robust face recognition using iterative stacked denoising autoencoder | |
JP3682533B2 (en) | Image identification method and image recognition model | |
Chen et al. | A convolutional neural network with dynamic correlation pooling | |
Henderson et al. | Spike event based learning in neural networks | |
Johnsson et al. | Associative self-organizing map | |
CN108090460A (en) | Expression recognition feature extraction algorithm based on multi-direction description of weber | |
CN112541530A (en) | Data preprocessing method and device for clustering model | |
Zhang et al. | Deep Learning for EEG-Based Brain–Computer Interfaces: Representations, Algorithms and Applications | |
Orts-Escolano et al. | 3d colour object reconstruction based on growing neural gas | |
Gangloff et al. | A general parametrization framework for pairwise Markov models: An application to unsupervised image segmentation | |
CN114331821B (en) | Image conversion method and system | |
CN112488238B (en) | Hybrid anomaly detection method based on countermeasure self-encoder | |
CN110381313B (en) | Video compression sensing reconstruction method based on LSTM network and image group quality blind evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20040416 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050419 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3682533 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |