JP4083469B2 - 階層ネットワークを用いたパターン認識方法 - Google Patents

階層ネットワークを用いたパターン認識方法 Download PDF

Info

Publication number
JP4083469B2
JP4083469B2 JP2002152756A JP2002152756A JP4083469B2 JP 4083469 B2 JP4083469 B2 JP 4083469B2 JP 2002152756 A JP2002152756 A JP 2002152756A JP 2002152756 A JP2002152756 A JP 2002152756A JP 4083469 B2 JP4083469 B2 JP 4083469B2
Authority
JP
Japan
Prior art keywords
feature
pattern
features
layer
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002152756A
Other languages
English (en)
Other versions
JP2002373333A (ja
Inventor
ハイコ・ヴェージンク
エドガー・ケルナー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Research Institute Europe GmbH
Original Assignee
Honda Research Institute Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Research Institute Europe GmbH filed Critical Honda Research Institute Europe GmbH
Publication of JP2002373333A publication Critical patent/JP2002373333A/ja
Application granted granted Critical
Publication of JP4083469B2 publication Critical patent/JP4083469B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、いくつかの特徴を有するパターンを認識する方法、階層ネットワークを訓練する方法、このような方法を実現するコンピュータ・ソフトウェア・プログラム、階層ネットワークを用いたパターン認識装置、及びパターン認識装置の使用に関する。
【0002】
本発明は、パターン認識の分野において適用可能であり、この場合パターンは、光学、音響または他のデジタル表現可能な方法で与えることができる。
【0003】
【従来の技術】
最初に、処理アーキテクチャの背景について説明する。収束的な階層符号化の概念においては、脳における感覚処理が階層的なステージ状に組織化され、各ステージでは上位のステージからの入力に依存した限定的かつ並列的な動作が実行されると仮定する。収束的な階層処理スキームは、恐らくは特定の視覚条件下において特定の物体が認識されているときにのみ発火する、いわゆる「おばあさん細胞(grandmother cell)」に至るまでに、より複雑化する特徴の組合せを保存する神経表現を形成するために用いられる。この種の階層符号化に対する主な批判は、様々な視覚条件の下で特定の物体を構成する特徴の組合せが非常に多数になるために、表現しなければならない可能性の組合せ爆発を起こしてしまうということである(von der Malsburg, C. (1999), “The what and why of binding: The modeler’s perspective”, Neuron, 24, 95-104)。
【0004】
近年、このような組合せ爆発を回避して不変認識を実現する方法が提案されている。その主な考えは、階層ネットワークにおいて中間ステージを使用して同一の物体に対応する反応に対する高次の不変性を達成し、これによって組合せの複雑性を効率的に削減するというものである。
【0005】
並進不変認識の初期モデルとしてネオコグニトロンを提案した福島の業績以来、階層における二つの主要な処理モードが強調されてきた。特徴選択的なニューロンは、通常局所的な特定の特徴に対して敏感に反応する。また、プーリング(pooling)ニューロンは、不変変換が刺激に適用される場合、連続して活性化される特徴選択的ニューロンに対し空間統合を実行する。Mel, B. W. & Fiser, J. (2000), “Minimizing binding errors using learned conjunctive features”, Neural computation 12(4), 731-762によって最近強調されたように、局所的特徴検出及び空間プーリングの結合ステージは、安定度と選択性のジレンマと呼ぶことのできるものに直面する。過度の空間プーリングは、画像変換の下で非常に安定した応答を持つ複雑な特徴検出器につながる一方、広範にわたる空間プーリングは多くの微弱な証拠を集め過ぎてしまい、偶然に現れる特徴を用いてしまう可能性が増加するので、検出器の選択性は大きく減少する。
【0006】
概念的に魅力的であり神経生物学上も妥当と考えられる階層的なフィードフォワード認識概念の妥当性を示すには、十分に困難な現実世界の三次元不変認識問題への適用を成功させる必要がある。中心的な問題は、特徴検出及びプーリングの結合ステージを最適化する実行可能な学習方法の定式化である。人工的なデータについての見込みのある結果や、手書き文字認識の領域での非常に成功した応用例を除くと、三次元認識問題に対する応用例は例外的である(Lawrence, S., Giles, C. L., Tsoi, A. C., & Back, A. D. (1997), “Face recognition: A convolutional neural-network approach”, IEEE Transactions on Neural Networks 8(1), 98-113)。その理由の1つは、現実世界の画像の処理には、誤差逆伝播法のような標準的な教師あり学習方法の適用が通常不可能になるほどのネットワークサイズが必要となることである。階層における処理ステージは、勝者総取り(Winner-Take-All、以下WTAと呼ぶ)のようなネットワークによる非線形性を含むことができるが、同様の最急降下最適化は不可能である。階層ネットワーク内部の処理で非常に重要なのは、使用する符号化戦略である。重要な原則は、冗長度の低減、すなわち入力ストリームの要素間の統計上の依存性を低減する入力の変換である。V1細胞の受容野に似たウェーブレットのような特徴は、スパースで過完備な(overcomplete)表現を与えることによって(Olshausen, B. A.及びField, D. J. (1997), “Sparse coding with an overcomplete basis set: A strategy employed in V1”, Vision Research, 37, 3311-3325)、あるいは独立成分分析におけるように統計上の独立性を与えることによって(Bell, A. J.及びSejnowski, T. J. (1997), “The ‘independent components’ of natural scenes are edge filters”, Vision Research, 37, 3327-3338)、導出されてきた。これらの細胞は初期の視覚処理を実行するものであり、階層処理の初期ステージとされる。
【0007】
生物学的ビジョンの理解から離れても、これらの機能的な原則は、技術的なコンピュータビジョンの分野に非常に適したものである。視覚における特徴検出について独立成分分析(ICA)が議論されているにもかかわらず、不変物体認識の適用例において有用なものは、わずかしかない。「Bartlett, M. S. & Sejnowski, T. J. (1997), “Viewpoint invariant face recognition using independent component analysis and attractor networks”, In M. C. Mozer, M. I. Jordan」及び、「T. Petsche (Eds.), “Advances in Neural Information Processing Systems”, Volume 9, pp. 817, The MIT Press」は、姿勢不変及び分類性能の点に関しては、顔認識に対する独立成分分析表現は主成分分析(PCA)ベースの表現よりも優位にあることを示した。
【0008】
次に、パターン認識のための階層ネットワークの使用について説明する。
【0009】
認識問題への適用における本質的な問題は、階層において情報変換に使用する符号化原理の選択と、不変性という条件下で物体を表現するのに最適な局所的特徴表現の選択である。この両方の特性は独立してはおらず、所望の目標に到達するためには協調させる必要がある。その概念上の魅力にもかかわらず、深い階層ネットワークにおける学習は、依然としていくつかの主要な欠点をもつ。以下では、これまでに考えられた主要な方法の問題点について述べる。
【0010】
福島による「”Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, Biol. Cyb., 39, 139-202」は、ネオコグニトロンとともに不変認識についての階層的処理の原理を導入した。これは、局所的テンプレートマッチング及び空間的プーリングの連続するステージに基づいている。ネオコグニトロンは教師なし競合学習によって訓練することができるが、手書き数字認識のような適用例では教師ありの手動訓練手順を必要とした。明らかに不利な点は、テンプレート・マッチングのための適当な手動による訓練パターンの選択に決定的に依存していることである(Lovell, D., Downs, T., 及びTsoi, A. (1997), “An evaluation of the neocognitron”, IEEE Trans. Neur. Netw., 8, 1090-1105)。学習ステージにおいて教師介入が必要であるために、今日まで三次元物体認識のようなさらに複雑な認識シナリオの訓練は実行不可能であった。
【0011】
Riesenhuber, M.及びPoggio, T.(1999)による「“Are cortical models really bound by the “binding problem” ?”, Neuron, 24, 87-93」は、適当なプーリング動作を持つ階層ネットワークは組合せ細胞の組合せ爆発を回避できるという点を強調した。彼らは、ネオコグニトロンと同様のマッチングステージ及びプーリングステージを持つ階層モデルを提案した。主な違いは、ネットワークステージ上のフィードフォワード情報の伝送に影響を与える非線形性である。重ね合わせ問題を減らすために、彼らのモデルでは、複雑な細胞は最大の入力を提供するシナプス前細胞の信号のみを入力する。このモデルは、人工的な紙クリップ画像及びコンピュータで描かれた動物や車の物体の認識に適用され(Riesenhuber, M. & Poggio, T. (1999b), “Hierarchical models of object recognition in cortex”, Nature Neuroscience 2(11), 1019-1025)、また中間の組合せ特徴を定義するために局所列挙法を使用する。
【0012】
Y. Le Cunら(”Hand-written digit recognition with back-propagation network”, 1990, in advances in neural information processing systems 2, pp. 396-404)以来、多層ネットワークが知られている。入力画像は局所受容野を有する単一ニューロンを用いて走査され、このニューロンの状態は特徴マップと呼ばれる層の対応する位置に格納される。この操作は、小型カーネルとの畳み込みと等価である。重みベクトルを等しくしたニューロン集合の平面として特徴マップを実現することによって、プロセスを並列的に実行することができる。すなわち、特徴マップのユニットは、画像の異なる部分において同一の操作を実行するようにする。加えて、シフト中の入力としてシステムに存在するあるレベルのシフト不変性は、特徴マップ上の結果をシフトするが、その他の点では結果を変更しない。さらに、同一の画像から異なる特徴を抽出する複数の特徴マップを持つことが提案されている。この局所的な畳み込み特徴マップという最新の考え方は、後続する隠れ層にも同様に適用可能であり、増大する複雑さと抽象化の特徴を抽出する。多層畳み込みネットワークはパターン認識問題に広く適用されており、特に光学文字認識への応用が多い(包括的な調査のために、例えば「LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998), “Gradient-based learning applied to document recognition”, Proceedings of the IEEE, 86, 2278-2324 for a conprehensive review」を見よ)。最適な特徴の学習は、誤差逆伝播法を用いて実行され、この場合、並進不変性の制約は重み配分によって明確に与えられる。しかし最急学習では、その深い階層のために、大きな訓練集合(ensemble)及びネットワーク規模についてかなりの訓練時間がかかる。Lawrence, S., Glies, C. L., Tsoi, A. C., 及びBack, A. D. (1997)らによる「“Face recognition: A convolutional neural-network approach”, IEEE Transactions on Neural Networks 8(1), 98-113」は、次元数を低減するために自己組織化マップに基づいた従来のベクトル量子化で強化された方法を適用し、顔分類構成について改善された性能を報告した。
【0013】
次に、物体の不変認識への階層モデルの適用について簡単に説明する。
【0014】
米国特許第5,058,179号は、文字認識のための階層制約自動学習ネットワークに関する。これによると、局所化された特徴抽出のための制約付き特徴検出を行う複数の層の後に、次元低減のための全結合された複数の層が後に続く、階層化ネットワークによって、非常に正確でかつ信頼できる光学文字認識が提供される。文字分類は、最後の全結合された層において実行される。並列で制約付きの特徴検出を行う各層は、複数の制約付き特徴マップと対応する複数のカーネルから構成され、予め決められたカーネルは単一の制約付き特徴マップに直接関係付けられる。アンダーサンプリングは、層から層まで実行することができる。
【0015】
米国特許第5,067,164号もまた制約付き特徴検出を行う複数の層を有する認識のための階層制約自動学習ニューラルネットワークを開示している。制約付き特徴検出の各層は、複数の制約付き特徴マップと対応する複数の特徴低減マップを含む。各特徴低減マップは、その制約付き特徴マップをアンダーサンプリングする層におけるただ1つの制約付き特徴マップにのみ接続される。第1の制約付き特徴検出層の各制約付き特徴マップにおけるユニットは、対応するカーネルの関数として、及びそのユニットに関連する受容野で得られる文字のピクセル画像の異なる部分の関数として応答する。第2の制約付き特徴検出層の各特徴マップにおけるユニットは、対応するカーネルの関数として、及び個々の特徴低減マップの異なる部分の関数として、あるいはユニットの受容野で得られる第1の制約付き特徴検出層における複数の特徴低減マップの組合せとして、応答する。第2の制約付き特徴検出層の特徴低減マップは、最後の文字分類層の各ユニットに全結合される。カーネルは、ネットワーク初期化または訓練の間、誤差逆伝播法によって自動的に学習される。この方法の問題の1つは、階層の全てのカーネルについて同時に学習を行わなければならないということであり、大規模ネットワークに対しては学習が遅くなりすぎてしまう。これによって、三次元不変物体認識というさらに困難な問題へのこの種の畳み込みネットワークの適用が妨げられてきた。
【0016】
米国特許第6,038,337号は、局所画像サンプリングを示す複合型ニューラルネットワークシステム、次元低減を行う自己組織化マップ・ニューラルネットワーク、及び複合型畳み込みネットワークを使用した物体認識方法及び装置を開示する。複合型畳み込みニューラルネットワークは、並進、回転、拡大縮小及び変形に対して部分的な不変性を提供する。複合型畳み込みネットワークは、階層的な層のセットにおいて連続してより大きな特徴を抽出する。適用例として、正面ビューの顔認識が与えられる。
【0017】
【発明が解決しようとする課題】
上記従来技術に鑑みて、本発明は、符号化効率を改善し、また大規模な階層畳み込みネットワークにおける学習の制約を低減することを目的とする。
【0018】
【課題を解決するための手段】
この目的を達成する基本的な考え方は、新たな特徴検出ステージを(増分的に)学習するため統計的手段を用いた階層ネットワークを訓練するというものである。実用性という点から、二次元物体だけでなく、三次元的な回転、大きさ及び照明条件が変化する三次元物体をも認識することができるような改良がなされなければならない。別の利点として、この学習方法は、階層的畳み込みネットワークにおけるステージの間の任意の非線形性に対して実行可能である。これに対して、上記従来技術は、ネットワークの設計に特定の制約を与える微分可能な非線形性を学習する誤差逆伝播法による学習を実行しているにすぎない。
【0019】
本発明の目的は、独立した請求項により達成される。従属請求項は、本発明の中心概念をさらに発展させる。
【0020】
本発明によると、いくつかの特徴を有するパターン認識方法が提案される。最初に、複数の固定された特徴検出器(以下、固定特徴検出器と呼ぶ)は、検出されるパターン上を走査する局所ウィンドウと畳み込まれ、複数の特徴マップを生成する。続いて、各特徴マップについて任意の非線形関数が別個に適用される。特徴マップの特徴の局所組合せが検出され、最後に、検出された局所組合せに基づいてパターンが分類される(従って認識される)。(ネットワークの中間層に対応する)特徴の局所組合せのための本発明によると、統計的に独立した特徴は予め設定されている。
【0021】
統計的に独立した特徴は、訓練パターンの畳込みの独立成分分析(ICA)によって予め決定することができる。独立成分分析は、データセットの独立成分である新しい特徴の構築手法に属する。独立成分は、入力特徴の線形和から構築される成分の相互情報量を最小にする確率変数である。このような変数が可能な限り独立していることは、情報理論において証明されている。
【0022】
代替的にまたは付加的に、統計的に独立した特徴は、訓練パターンの畳込みの主成分分析(PCA)によって予め決定することができる。主成分分析は、データ・セットの主成分である新しい特徴の構築手法に属する。主成分は、入力特徴の直交線形和から構築される分散を最大にする確率変数である。これは、得られる特徴の非相関性のみを保証するので、独立成分分析の統計的独立よりも弱い概念である。
【0023】
特徴マップを生成するために、WTA及びさらなる非線形関数を畳み込みの結果に適用することができる。上記の統計的学習方法は、結合されたWTA及びさらなる非線形性の性質に関わらず適用することができる。
【0024】
少なくとも一つのプーリングステップを含み、先行するマップの特徴マップを局所的に平均化しサブサンプリングする。プーリングステップは、同一物体に対応する異なるパターンの変換における認識の不変性を付与する。
【0025】
分類ステップは、最急降下法によって訓練される一層のシグモイド関数を用いて実現することができる。統計的に独立した特徴を予め設定するのに古典的な教師あり学習過程は必要でなく、従ってシステムの設定に必要な手間をかなり削減することに注意されたい。代替的に、RBF(radial basis function)ネットワーク、最近傍(Nearest-Neighbor)マッチング法、または多層パーセプトロン・ネットワークによって、分類ステップを実現することもできる。
【0026】
特徴検出ステップ、任意選択のプーリングステップ及びこれらの組合せは、複数回繰り返すことができる。
【0027】
本発明のさらに別の態様によると、いくつかの特徴を有するパターンを認識する方法が提案される。複数の固定特徴検出器は、パターン上を走査する局所ウィンドウと畳み込まれ、複数の特徴マップを生成する。特徴マップの特徴の局所組合せが検出され、検出された局所組合せに基づいてパターンが分類される(従って認識される)。特徴マップを生成するために、WTAが畳込みの結果に適用される。
【0028】
本発明のさらに別の態様によると、階層ネットワークを訓練する方法が提案される。階層ネットワークは、複数の固定特徴検出器をパターン上を走査する局所ウィンドウと畳み込む手段と、各特徴マップに非線形関数を個別に適用する手段と、特徴マップの単純な特徴の局所組合せを検出する中間手段と、検出された局所組合せに基づいてパターンを分類することによってそのパターンを認識する手段を含む。本発明によると、局所組合せを検出する手段は、特徴の局所組合せの統計的な独立を強化するように増分的に訓練される。
【0029】
本発明のさらに別の態様によると、計算装置上で実行されるとき上記の方法を実現するコンピュータ・ソフトウェア・プログラムが提案される。
【0030】
本発明のさらに別の態様によると、階層ネットワークを用いたパターン認識装置が提案される。階層ネットワークは、パターン(すなわち、物体のディジタル写真)を入力する手段を含む。さらに、パターン上を走査する局所ウィンドウを複数の固定特徴検出器と畳み込む手段を備える。中間手段は、特徴マップの特徴の局所組合せを検出する。分類手段は、検出された局所組合せに基づいてパターンを「認識」する。局所組合せを検出する手段は、予め設定した統計的に独立した特徴を使用するよう設計される。
【0031】
本発明のさらに別の態様によると、階層ネットワークを用いたパターン認識装置が提案される。パターン認識装置は、パターンを入力する手段を含む。さらに、パターン上を走査する局所ウィンドウを複数の固定特徴検出器と畳み込み、複数の特徴マップを生成する手段を備える。中間手段は、特徴マップの特徴の局所組合せを検出する。分類手段は、検出された局所組合せに基づいてパターンを認識する。畳み込み手段は、WTAを使用して特徴マップを生成するように設計される。
【0032】
分類手段は、パターンの特定の全体ビューに対して調整される。
【0033】
階層ネットワークは、畳み込み手段によって生成された特徴マップを局所的に平均化しサブサンプリングするプーリング手段を含むことができる。
【0034】
分類手段は、最急降下法によって訓練されるシグモイド関数を使用するように設計することができる。
【0035】
分類手段は、RBFネットワークを使用するよう設計することができる。分類手段は、最近傍マッチング法または多層パーセプトロン・ネットワークに基づくことができる。
【0036】
階層ネットワークは、並列計算ネットワークによって実現することができる。
【0037】
第1の特徴検出手段、任意選択のプーリング手段及び組合せ層のセットは、連鎖状に複数個備えることができる点に注意することが重要である。
【0038】
本発明の更に別の態様によると、上記で定義したパターン認識装置は、光学文字認識や、あるいは特に三次元物体の光学認識のために使用することができる。
【0039】
【発明の実施の形態】
最初に、本発明に従ったネットワークの構成を図1に示すが、これは本発明を実現する技術的手段を説明するのにも役立つ。画像は、ディジタルビデオカメラまたは写真カメラ等のサンプリング装置17によってサンプリングされ、全体を16で示す階層ネットワーク16に供給される。階層ネットワーク16は、単純な特徴検出ステージ18及び組合せ特徴検出ステージ19から成るセットを少なくとも一組以上含む。これらのステージ18、19は、図では20として示すように、ネットワーク16内で複数回繰り返すことができる。ネットワーク16の最終的な出力は分類手段21に供給され、ここで出力を分類することによってサンプリングされた画像を認識する。
【0040】
新規な構成を除くと、本発明は、階層ネットワークを訓練する新しい手法にも関係する。この訓練は、新たな特徴検出ステージ19を(増分的に)学習する統計手段を使用する。増分的な学習は、処理階層のより高いステージにおける増分的な統計的独立特徴の検出に基づいている。この学習は教師なし学習なので、教師信号は不要であり、特定の認識シナリオのために認識アーキテクチャを予め構成することができる。教師あり学習による訓練を要するのは、最後の分類手段21のみであり、これにより認識作業への適用においてかなりの手間を削減する。
【0041】
以下では、図2を参照して本発明による階層モデルのアーキテクチャを詳細に説明する。このモデルは、重み配分(weight-sharing)を持つフィードフォワード・アーキテクチャ、及び一続きの特徴に敏感に反応するマッチングステージ2とプーリングステージ3に基づいている。
【0042】
モデルは3つのステージを処理階層に含む。第1の特徴マッチングステージ2は、符号の影響を受けない線形の受容野加算、同じ位置にある特徴間のWTA、及び最後の非線形閾値関数から構成される。以下では、ベクトルの添え字は、特定の層の特定のプレーン内のニューロンのセット上で実行する表記法を採用する。第1の層2における単一のセルの応答q1 l(x,y) を計算するために、位置(x,y)の特徴タイプlに応答して、第1の画像ベクトルIが受容野の特性を特徴づける重みベクトルw1 l(x,y)と掛け合わせられる。
【0043】
【数1】
Figure 0004083469
【0044】
内積は「*」で表され、すなわち10×10画素の画像I及びw1 l(x,y)は100次元のベクトルである。重みw1 lは正規化されており、視覚野入力層における局所化された受容野を特徴付けている。特徴プレーンlにおける全てのセルは、w1 l(x,y)で与えられる同一の受容野構造を有しているが、古典的な重み配分または畳み込みアーキテクチャにおけるように、シフトされた受容野中心を有している(Fukushima, K. (1980), “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, Biol. Cyb., 39, 139-202; LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998), “Gradient-based learning apprlied to document recognition”, Proceedings of the IEEE, 86, 2278-2324)。
【0045】
第2のステップでは、ソフトウェア的なWTAが次式に従って実行される。
【0046】
【数2】
Figure 0004083469
ここで、M=maxk1 k(x,y) であり γ1 l(x,y)は,最大値以外の(sub-maximal)応答を抑制するWTAの後の応答である。パラメータ0<γ1<1は競争の強度を制御する。この非線形性は、高速の側抑制(lateral inhibition)により遅い応答を抑制する、潜時に基づく競合(latency-based competition)が刺激となっている。
【0047】
活性度は、第1の層2における全てのセルについて共通しきい値θlを有する単純なしきい値関数に渡される。
【0048】
【数3】
Figure 0004083469
ここで、x≧0であればH(x)=1であり、それ以外はH(x)=0である。s1 l(x,y)は、第1の層2の位置(x,y)における特徴lに敏感に反応するニューロンの最終的な活性度である。
【0049】
プーリングセルの層3の活性度は次式によって与えられる。
【0050】
【数4】
Figure 0004083469
ここで、g1(x,y)は、σ1によって特徴付けられる幅を持つ正規化ガウシアン局所化空間プーリングカーネルであり、これは全ての特徴lについて同一である。tanhは双曲線正接シグモイド変換関数である。任意選択のプーリング層3は、同一の物体に対応する異なるパターンの変換下における認識の不変性を付与する。
【0051】
中間層4における特徴は、前の層3(プーリング層がない場合は2)のプレーンにおける特徴12、13の局所組合せ10、11に敏感に反応することであり、従って以下では組合せセルと呼ぶ。前のプレーンに対する組合せ線形加算は、次式によって与えられる。
【0052】
【数5】
Figure 0004083469
ここで、w2 lk(x,y)は、前のプーリング層3のセルのプレーンkへの接続を記述する位置(x,y)で特徴lのプーリングセルの受容野ベクトルである。
【0053】
強度パラメータγ2を有する同じWTAの後、プーリング層3における活性度は、共通のしきい値θ2を有するしきい値関数の適用後に与えられる。
【0054】
【数6】
Figure 0004083469
【0055】
中間組合せ層4から第2のプーリング層5へのステップは式(4)と同一であり、次式によって与えられる。
【0056】
【数7】
Figure 0004083469
ここで、g2(x,y)は、範囲σ2を持つ第2のガウシアン空間プーリングカーネルである。
【0057】
最後の層15では、ニューロンは、Riesenhuber, M.及びPoggio, T.らのRBFタイプの「ビューを(像)調整したユニット」(VTU:view-tuned-unit)6のように、提示された物体の全体像について敏感に反応する(“Are cortical models really bound by the “binding problem” ?”, Neuron, 24, 87-93 )。最急ベースの学習を容易にするために、次式のシグモイド非線形関数を選択する。
【0058】
【数8】
Figure 0004083469
ここで、φ(x)=1+exp(-βx))-1はシグモイドフェルミ変換関数であり、w3 lkは、前の層における全体プレーンkについてのlでインデックス付けされた、単一のビューを調整したセルの接続ベクトルである。より大きな応答の柔軟性を可能にするために、あらゆるセル6は固有のしきい値θ3 lを有する。各VTUセル6は物体の特定のビューを表す。従って、未知の入力刺激の分類は、最後の層15において最も活性しているVTU6を得ることによってなされる。この活性化が一定のしきい値を上回らないときは、未知またはクラッタとしてパターンを棄却することができる。
【0059】
第1の特徴検出層2、任意選択のプーリング層3、及び組合せ層4からなる一組の層を数組み備えることができる点に注意することが重要である。
【0060】
次に、本発明による階層ネットワークの訓練について説明する。訓練は、訓練パターンを有するネットワークを与えることによって実現することができる。一例として、訓練パターンのライブラリは、連続して5度ずつ回転させた72個のビューを撮られた100個の物体から構成される。
【0061】
開始点では、WTAのプーリング範囲σ12、しきい値θ12、及び強度γ12を適当に調整する。これらのパラメータは、ネットワーク非線形性の全体的な質の特徴を描写する。第2のステップでは、非線形性のパラメータを一定に保ち、階層の中間層及び最終層の重み構造を修正する。この例によれば、周知のCOIL−100データベース(Nayar, S. K., Nene, S. A., & Murase, H. (1996), “Real-time 100 object recognition system”, in Proc. Of ARPA Image Understanding Workshop, Palm Springs)の100個の物体の分類作業に基づいて評価が行われる。初めにビューを調整したユニットの訓練のための単純なパラダイムがあり、これはRiesenhuber及びPoggioのRBFタイプの設定と同様である。
【0062】
100個の物体の各々について72のビューが利用可能であり、これらは連続して5度ずつ回転している。0度、120度、及び240度の3つのビューが各物体についての訓練パターン(ビュー)とされ、各ビューについてビューを調整したセルが採用されるので、合計300個のVTUが与えられる。特定のパラメータ設定のために、最後の層15の活性化が記録される。この活性度ベクトルは、高次元空間における最近傍分類のために用いられる。これは、最後の層15のニューラル活性度により拡がる空間におけるテンプレート・マッチングと考えることができる。結果的に、訓練は各々の訓練ビューのためのテンプレートを単に格納することになる。
【0063】
Riesenhuber及びPoggioの業績から離れて、最初に、組合せ層4のセルの接続パターンが考慮される。これは、プーリング層3内の組合せ(中間)層4のセルの受容野中心の4つの隣接したニューロンの局所近傍におけるプーリング層3のただ2つのニューロンの結合に基づいている。対称置換及び構成を除外した後に、2つのプーリングニューロンが異なる方向プレーンにあり同一の受容野位置を占め、120個の異なる組の組合せセルタイプが組合せ層4について求められる。物体当たり3つのVTUという固定された数についてのパラメーター組合せに対する網羅的な格子状の検索において、分類の性能について最適の設定を発見することができる。得られたパラメータは、θ1=0.1、θ2=0.95、σ1=2.5、σ2=2.5、γ1=0.9、γ2=0.0である。
【0064】
得られた最近傍分類は、69%が正しい。この特定のパラメータ設定は、ある符号化戦略を意味している。単純なエッジ検出器12、13の第1の層2は、むしろ低いしきい値を方向間の強い局所的競争と結合させる。その結果は、4つの異なる方向カテゴリのうちの1つへの入力の一種の「セグメント化」である。これらの特徴は、ガボール受容野(層2)の大きさに相当する範囲内でプーリングされる。組みになった組合せセルは高いしきい値を有し、これは両方のシナプス前のセルが強く活性する場合にのみ活性化される。γ2=0なので、高しきい値により既に強いスパース化(sparsification)を生じるので、組合せセルのレベルにおけるさらなるWTAは不必要であると思われる。
【0065】
低い初期しきい値及び強い勝者先取りを有する符号化戦略が最適であると仮定すると、入力画像の集合全体についてのプーリング層3のプレーンの活性度ベクトルの集合を生成することができる。そして、この集合から20000個の5×5のパッチのランダムな選択を考慮することができる。プーリング層3には4つのプレーンがあるので、5×5×4=100次元の活性度ベクトルを構成する。続いて、この局所パッチの集合に対して主成分分析(PCA)と独立成分分析(ICA)の両方を実行することができる。独立成分分析は、例えば高速ICAアルゴリズムを用いて実行することができる(Hyvarinen, A. & Oja, E. (1997), “A fast fixed-point algorithm for independent component Analysis”; Neural Computation 9(7), 1483-1492)。主成分分析及び独立成分分析の両方について、得られる20個または50個の特徴プレーンの接続について重みベクトルとして用いられる20個または50個の成分を代替的に考慮することができる。得られる最近傍分類器の性能を評価した後に、後続する層のパラメータをσ1=1.5、σ2=1.5、θ2=0.5、γ2=0に調節することができ、これは、組合せ層ニューロンのより拡張された5×5受容野への適用を反映している。最近傍分類に基づいた最適化の後、性能ゲインを調べることができるが、これはビューを調整したユニットの応答をシグモイド変換関数を用いて最適に調整することによって求めることができる。
【0066】
最後の層のニューロンの分類器出力に対して最急ベースの教師あり学習を実行することができる。ここで、訓練セットにおける特定のビューiについての目標出力は、次式で与えられている。
【0067】
【数9】
Figure 0004083469
ここで、lは提示されたビューに最も近いVTU6のインデックスであり、同一物体の他のビューについては次式のようになる。
【0068】
【数10】
Figure 0004083469
全ての他のVTU6は、次式の活性化レベルで沈黙していると想定される。
【0069】
【数11】
Figure 0004083469
【0070】
訓練は、以下に示す二次エネルギー関数E上の確率的最急降下によって行うことができる(LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998), “Gradient-based learning apprlied to document recognition”, Proceedings of the IEEE, 86, 2278-2324)。
【0071】
【数12】
Figure 0004083469
ここで、iは訓練画像に対するカウントである。
【0072】
任意の不変認識手法において特に関心のある点は、以前は見ることのできなかった物体のビューの汎化能力である。階層アーキテクチャの背後にある主要な考え方の1つは、物体のビューが変化したときに、後のステージにおける神経活性の不変性の段階的な増加を実現することである。本発明は、階層アーキテクチャから得られるかなりの不変性を提供する。
【0073】
次に、VTU6によって実行することができる最近傍分類法について説明する。画像を表す特徴空間におけるユークリッド距離を用いた最近傍検索を使用するテンプレート・マッチングは、画像分類の直接的な手法である。この単純な手法は、訓練ビューを例えば写真メモリに収集し、画像強度ベクトル全体について最近傍検索を実行するVTU6を使用する。訓練ベクトルの数が増加するにつれて、その性能は明らかに向上すると予想される。主な問題は、物体表現の非効率性であり、物体の数が多くなると膨大な量のデータが必要になる。本発明による階層処理からさらに高次の不変性が予想できるので、層5におけるプールされた組合せセルの活性化に基づいて、テンプレート・マッチングを行うことができる。
【0074】
画像データにテンプレート・マッチングが直接適用されると、分類速度は、利用可能なビューの数と共にわずかにほぼ線形に増加する。反対に、提案した階層の層5の出力に基づいた最近傍分類器を使用すると、訓練データの適切な数について非常に高速の増加が観察され、完全な分類に向かって飽和する。120個の組合せセルの完全なセットを使用すると、分散が最大である50個のセルを使用したときと同様の性能が得られる。特に関心があるのは、組合せセルの独立成分分析ベースの判定がより良い結果を生み、単純な組みで構築された組合せセルを上回る性能を持つことである。
【0075】
以下では、ビューを調整したユニット(VTU)6について説明する。最近傍マッチングは単純な手法であり、重みの追加の適用を必要としないという利点を有する。しかし、追加の最後の層15は、前のプーリング層5における高次元活性化パターンからより多くの情報を引き出すことができなければならない。利用可能なVTU6の数を制限するために、各物体についてわずか3つのVTU6しか利用できない設定を使用することができる。これらVTU6の重み及びしきい値は、確率的最急降下によって最適化することができる。少数のわずか3つのVTU6にもかかわらず、最適化により、利用可能な訓練パターンの数に応じた匹敵する性能が達成される。ここでも、独立成分分析で最適化された特徴が最高の結果を与える。最大分散を有するペア組合せセルの選択よりも一般的な分散ベースの選択方法である主成分分析は、ペア組合せセルを上回る性能を持つが、独立成分分析のレベルには到達しない。
【0076】
認識についての問題の中心は、あらゆる自然の刺激には、背景から孤立して認識される物体だけでなく、大量のクラッタも含まれるということである。より大きな認識についての変換許容範囲を得るためのプーリング範囲の増大能力を制限するのは、主に環境におけるクラッタの量である(Mel, B. W. & Fiser, J. (2000), “Minimizing binding errors using learned conjunctive features”, Neural computation 12(4), 731-762)。
【0077】
クラッタの影響は、ランダムにクラッタをばらまいた背景を人工的に生成し、物体の画像を切り取りこれを4画素のランダムな位置分散を有するように変換したクラッタをばらまいた背景画像上に置くことによって、評価される。この手順により、20個の物体のセットについての画像集合がCOIL−20のデータベースから生成され、これらの画像を用いた訓練及びテストを実行した。集合は、クラッタのみを含む200個のビューによって拡大され、全てのVTU6は沈黙した(すなわち、それらの訓練出力が0.1にセットされた)状態を維持すると予想される。最後のVTUに棄却しきい値0.2を設定すると、クラッタ画像の1%のみが誤って物体と分類される。誤棄却率、すなわち提示された物体がしきい値活性化を超えない割合は、1%未満である。物体当たり3つのVTUを用いると、全体的な分類率は、さらに大きなCOIL−100のセットに匹敵する。これは、従来のセグメント化を必要とすることなく、階層ネットワークの能力を強調し、異なる環境を一般化する。わずか3つの訓練ビューを用いた場合でも、85%を正しく分類することができる。
【0078】
要約すると、現実世界の三次元不変物体認識を実行する階層的ニューラル・フィードフォワード・アーキテクチャの能力についての議論が進行中である。様々な階層的モデルが存在するが、適切な教師あり学習または教師なし学習方法は依然として研究が盛んである案件である。重み配分、プーリングステージ、及びWTAによる非線形性等の要素については先行する方法と同じだが、階層ネットワークの中間ステージにおける最適特徴検出セルを決定する新しい方法に着目した、認識を行うフィードフォワードモデルを提案した。従来ほとんどの初期特徴検出ステージに適用された独立成分分析(ICA)が、中間の複雑な特徴についても優れた認識性能を達成する。独立成分分析により学習された特徴は、以前に提案された発見的な単純特徴の組合せよりも良い結果をもたらす。
【図面の簡単な説明】
【図1】本発明に従ったネットワークの構成を説明する図である。
【図2】本発明に従った階層ネットワークのアーキテクチャを図式的に示す図である。
【符号の説明】
1 パターン表現
2 固定特徴検出器
3 プーリング層、プーリング手段
4 局所組合せ層、局所組合せ手段
6 分類層、分類手段
7 局所ウィンドウ
8 パターン
9 特徴マップ
12 特徴
13 特徴

Claims (10)

  1. 特徴を有するパターンを認識する方法であって、
    a).パターン(8)の表現(1)上を走査する局所ウィンドウ(7)と固定された特徴検出器(2)の畳み込みを行って、前記パターン(8)の表現(1)において単純な特徴(12,13)を検出する複数の特徴マップ(9)を生成するステップと、
    b). 前記特徴マップ(9)のそれぞれに非線形関数を個別に適用するステップと、
    c). 前記ステップ b) の結果における特徴マップ(9)の前記単純な特徴(12,13)に対応する予め設定された局所組合せ(4)が存在するかどうかを検出するステップであって
    前記予め設定された局所組合せ(4)は、統計的に独立した特徴(10,11)を含み、該統計的に独立した特徴(10,11)は、訓練パターンの特徴検出器の畳み込みの独立成分分析によって予め決定されるかまたは訓練パターンの特徴検出器の畳み込みの主成分分析によって予め決定されていること、
    を特徴をと
    d).検出した前記局所組合せ(4)に基づいてパターン(8)を分類することによってパターン(8)を認識するステップと、を含
    パターン認識方法。
  2. 前記特徴マップを生成するために、前記畳み込みの結果に勝者総取り戦略(Winner-Take-All、以下WTAという)が適用されることを特徴とする、請求項1に記載の方法。
  3. 微分不可能な非線形関数が各特徴マップに適用されることを特徴とする、請求項1または2に記載の方法。
  4. 先行するステップの特徴マップの少なくとも1つのプーリングステップが局所的に平均化されサブサンプリングされることを特徴とする、請求項1乃至の何れか1項に記載の方法。
  5. 前記分類ステップが、最急降下法により訓練された1層のシグモイド関数を用いて実現されることを特徴とする、請求項1乃至の何れか1項に記載の方法。
  6. 前記分類ステップが、RBFネットワーク、最近傍マッチング法、または多層パーセプトロン・ネットワークのうち何れか1つを使用して実行されることを特徴とする、請求項1乃至の何れか1項に記載の方法。
  7. ステップ b) の前記特徴マップが、前記特徴マップを生成するステップ及び局所組合せを検出するステップの少なくとも1以上のステージに供給されることを特徴とする、請求項1乃至の何れか1項に記載の方法。
  8. 計算装置上で実行されたときに請求項1乃至の何れか1項に記載の方法を実現することを特徴とする、コンピュータ・ソフトウェア・プログラム製品
  9. 請求項乃至の何れか1項に記載の方法を使用して、ディジタル表現で与えられた文字または物体を光学認識する方法。
  10. 請求項乃至の何れか1項に記載の方法を使用して、手書き数字を光学認識する方法。
JP2002152756A 2001-05-28 2002-05-27 階層ネットワークを用いたパターン認識方法 Expired - Fee Related JP4083469B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01113014A EP1262907B1 (en) 2001-05-28 2001-05-28 Pattern recognition with hierarchical networks
EP01113014.3 2001-05-28

Publications (2)

Publication Number Publication Date
JP2002373333A JP2002373333A (ja) 2002-12-26
JP4083469B2 true JP4083469B2 (ja) 2008-04-30

Family

ID=8177575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002152756A Expired - Fee Related JP4083469B2 (ja) 2001-05-28 2002-05-27 階層ネットワークを用いたパターン認識方法

Country Status (4)

Country Link
US (1) US7308134B2 (ja)
EP (1) EP1262907B1 (ja)
JP (1) JP4083469B2 (ja)
DE (1) DE60130742T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9911067B2 (en) 2014-05-15 2018-03-06 Ricoh Company, Ltd. Image processing apparatus, method of processing image, and program

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374974B2 (en) * 2003-01-06 2013-02-12 Halliburton Energy Services, Inc. Neural network training data selection using memory reduced cluster analysis for field model development
JP4865557B2 (ja) 2003-08-15 2012-02-01 スカーペ テクノロジーズ アクティーゼルスカブ 有界三次元対象物の分類と空間ローカライゼーションのためのコンピュータ視覚システム
US20050058350A1 (en) * 2003-09-15 2005-03-17 Lockheed Martin Corporation System and method for object identification
JP2005352900A (ja) * 2004-06-11 2005-12-22 Canon Inc 情報処理装置、情報処理方法、パターン認識装置、及びパターン認識方法
ITBG20050013A1 (it) * 2005-03-24 2006-09-25 Celin Technology Innovation Srl Metodo per il riconoscimento tra un primo oggetto ed un secondo oggetto rappresentati da immagini.
EP1739594B1 (en) 2005-06-27 2009-10-28 Honda Research Institute Europe GmbH Peripersonal space and object recognition for humanoid robots
US8014590B2 (en) * 2005-12-07 2011-09-06 Drvision Technologies Llc Method of directed pattern enhancement for flexible recognition
US20070192267A1 (en) 2006-02-10 2007-08-16 Numenta, Inc. Architecture of a hierarchical temporal memory based system
US7702145B2 (en) * 2006-06-28 2010-04-20 Microsoft Corporation Adapting a neural network for individual style
US8009900B2 (en) * 2006-09-28 2011-08-30 Siemens Medical Solutions Usa, Inc. System and method for detecting an object in a high dimensional space
JP2008152619A (ja) * 2006-12-19 2008-07-03 Fuji Xerox Co Ltd データ処理装置およびデータ処理プログラム
US8068654B2 (en) * 2007-02-02 2011-11-29 Siemens Akteingesellschaft Method and system for detection and registration of 3D objects using incremental parameter learning
US8065244B2 (en) * 2007-03-14 2011-11-22 Halliburton Energy Services, Inc. Neural-network based surrogate model construction methods and applications thereof
US8117137B2 (en) 2007-04-19 2012-02-14 Microsoft Corporation Field-programmable gate array based accelerator system
US9799098B2 (en) 2007-04-24 2017-10-24 Massachusetts Institute Of Technology Method and apparatus for image processing
JP5184824B2 (ja) * 2007-06-15 2013-04-17 キヤノン株式会社 演算処理装置及び方法
US20090276385A1 (en) * 2008-04-30 2009-11-05 Stanley Hill Artificial-Neural-Networks Training Artificial-Neural-Networks
WO2009149126A2 (en) * 2008-06-02 2009-12-10 New York University Method, system, and computer-accessible medium for classification of at least one ictal state
US9514388B2 (en) * 2008-08-12 2016-12-06 Halliburton Energy Services, Inc. Systems and methods employing cooperative optimization-based dimensionality reduction
WO2010017300A1 (en) * 2008-08-06 2010-02-11 Halliburton Energy Services, Inc. Systems and methods employing cooperative optimization-based dimensionality reduction
TW201013546A (en) * 2008-09-19 2010-04-01 Altek Corp Hierarchical face recognition training method and hierarchical face recognition method thereof
US8131659B2 (en) * 2008-09-25 2012-03-06 Microsoft Corporation Field-programmable gate array based accelerator system
US8301638B2 (en) * 2008-09-25 2012-10-30 Microsoft Corporation Automated feature selection based on rankboost for ranking
US8229209B2 (en) * 2008-12-26 2012-07-24 Five Apes, Inc. Neural network based pattern recognizer
US8290250B2 (en) * 2008-12-26 2012-10-16 Five Apes, Inc. Method and apparatus for creating a pattern recognizer
US8160354B2 (en) * 2008-12-26 2012-04-17 Five Apes, Inc. Multi-stage image pattern recognizer
JP5461064B2 (ja) * 2009-05-21 2014-04-02 日機装株式会社 形状推定システム、形状推定方法、プログラム及び記録媒体
JP2011107648A (ja) * 2009-11-20 2011-06-02 Fujifilm Corp レンズユニット
US9189745B2 (en) * 2010-03-15 2015-11-17 Numenta, Inc. Temporal memory using sparse distributed representation
US11651277B2 (en) 2010-03-15 2023-05-16 Numenta, Inc. Sparse distributed representation for networked processing in predictive system
US8489529B2 (en) 2011-03-31 2013-07-16 Microsoft Corporation Deep convex network with joint use of nonlinear random projection, Restricted Boltzmann Machine and batch-based parallelizable optimization
US8645291B2 (en) 2011-08-25 2014-02-04 Numenta, Inc. Encoding of data for processing in a spatial and temporal memory system
US8825565B2 (en) 2011-08-25 2014-09-02 Numenta, Inc. Assessing performance in a spatial and temporal memory system
US9159021B2 (en) 2012-10-23 2015-10-13 Numenta, Inc. Performing multistep prediction using spatial and temporal memory system
US9811775B2 (en) * 2012-12-24 2017-11-07 Google Inc. Parallelizing neural networks during training
US8873838B2 (en) 2013-03-14 2014-10-28 Google Inc. Method and apparatus for characterizing an image
US9754186B2 (en) * 2014-01-29 2017-09-05 Leidos Innovations Technology, Inc. Visual feature extraction methods and systems
US10198689B2 (en) 2014-01-30 2019-02-05 Hrl Laboratories, Llc Method for object detection in digital image and video using spiking neural networks
US9984326B1 (en) * 2015-04-06 2018-05-29 Hrl Laboratories, Llc Spiking neural network simulator for image and video processing
US10318878B2 (en) 2014-03-19 2019-06-11 Numenta, Inc. Temporal processing scheme and sensorimotor information processing
US9438412B2 (en) * 2014-12-23 2016-09-06 Palo Alto Research Center Incorporated Computer-implemented system and method for multi-party data function computing using discriminative dimensionality-reducing mappings
CN110826420B (zh) * 2015-01-19 2023-05-16 创新先进技术有限公司 人脸识别模型的训练方法及装置
JP6435581B2 (ja) * 2015-01-29 2018-12-12 パナソニックIpマネジメント株式会社 転移学習装置、転移学習システム、転移学習方法およびプログラム
JP6360802B2 (ja) * 2015-02-20 2018-07-18 株式会社デンソーアイティーラボラトリ ニューラルネットワーク処理装置、ニューラルネットワーク処理方法、検出装置、検出方法、および、車両
WO2016141282A1 (en) * 2015-03-04 2016-09-09 The Regents Of The University Of California Convolutional neural network with tree pooling and tree feature map selection
US20180082153A1 (en) * 2015-03-11 2018-03-22 Siemens Aktiengesellschaft Systems and methods for deconvolutional network based classification of cellular images and videos
US11334789B2 (en) * 2015-03-17 2022-05-17 Qualcomm Incorporated Feature selection for retraining classifiers
US9933264B2 (en) 2015-04-06 2018-04-03 Hrl Laboratories, Llc System and method for achieving fast and reliable time-to-contact estimation using vision and range sensor data for autonomous navigation
US9934437B1 (en) 2015-04-06 2018-04-03 Hrl Laboratories, Llc System and method for real-time collision detection
US10417555B2 (en) 2015-05-29 2019-09-17 Samsung Electronics Co., Ltd. Data-optimized neural network traversal
US10460230B2 (en) 2015-06-04 2019-10-29 Samsung Electronics Co., Ltd. Reducing computations in a neural network
US11423311B2 (en) 2015-06-04 2022-08-23 Samsung Electronics Co., Ltd. Automatic tuning of artificial neural networks
US10853738B1 (en) 2015-06-29 2020-12-01 Hrl Laboratories, Llc Inference circuit for improving online learning
CN106485259B (zh) * 2015-08-26 2019-11-15 华东师范大学 一种基于高约束高分散主成分分析网络的图像分类方法
US9424494B1 (en) 2016-01-28 2016-08-23 International Business Machines Corporation Pure convolutional neural network localization
WO2017151926A1 (en) * 2016-03-03 2017-09-08 Google Inc. Deep machine learning methods and apparatus for robotic grasping
EP3742347B1 (en) 2016-03-03 2022-11-02 Google LLC Deep machine learning methods and apparatus for robotic grasping
WO2018076130A1 (zh) * 2016-10-24 2018-05-03 中国科学院自动化研究所 物体识别模型的建立方法及物体识别方法
US10360494B2 (en) * 2016-11-30 2019-07-23 Altumview Systems Inc. Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules
CN107529647B (zh) * 2016-12-02 2021-02-09 南京信息工程大学 一种基于多层无监督稀疏学习网络的云图云量计算方法
JP6214073B2 (ja) * 2017-03-16 2017-10-18 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
CN107316004A (zh) * 2017-06-06 2017-11-03 西北工业大学 基于深度学习的空间目标识别方法
EP3435246A1 (en) 2017-07-24 2019-01-30 Tata Consultancy Services Limited System and method for signal analysis
CN107563414B (zh) * 2017-08-14 2018-05-29 北京航空航天大学 一种基于Kohonen-SVM的复杂设备退化状态识别方法
CN107890348B (zh) * 2017-11-21 2018-12-25 郑州大学 一种基于深度学习法心电节拍特征自动化提取及分类方法
US10713563B2 (en) 2017-11-27 2020-07-14 Technische Universiteit Eindhoven Object recognition using a convolutional neural network trained by principal component analysis and repeated spectral clustering
EP3540610B1 (en) * 2018-03-13 2024-05-01 Ivalua Sas Standardized form recognition method, associated computer program product, processing and learning systems
CN109492671B (zh) * 2018-10-16 2020-08-11 北京理工大学 一种基于lstm的多极化高分辨距离像目标识别方法
CN111860064B (zh) * 2019-04-30 2023-10-20 杭州海康威视数字技术股份有限公司 基于视频的目标检测方法、装置、设备及存储介质
CN110059672B (zh) * 2019-04-30 2022-06-14 福州大学 一种对显微镜细胞图像检测模型进行增类学习的方法
US11681922B2 (en) 2019-11-26 2023-06-20 Numenta, Inc. Performing inference and training using sparse neural network
JP7451384B2 (ja) 2020-01-10 2024-03-18 東レエンジニアリング先端半導体Miテクノロジー株式会社 パターンエッジ検出方法、パターンエッジ検出装置、パターンエッジ検出をコンピュータに実行させるためのプログラムが記録された記録媒体
WO2021140823A1 (ja) * 2020-01-10 2021-07-15 Tasmit株式会社 パターンエッジ検出方法、パターンエッジ検出装置、パターンエッジ検出をコンピュータに実行させるためのプログラムが記録された記録媒体
JP7441312B2 (ja) 2020-06-11 2024-02-29 富士フイルム株式会社 学習装置、学習方法、及びプログラム
CN111814794B (zh) * 2020-09-15 2020-12-04 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及存储介质
CN112215130B (zh) * 2020-10-10 2022-08-16 吉林大学 一种基于2.5d/3d混合卷积模型的人体行为识别方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822742A (en) * 1989-05-17 1998-10-13 The United States Of America As Represented By The Secretary Of Health & Human Services Dynamically stable associative learning neural network system
US5067164A (en) * 1989-11-30 1991-11-19 At&T Bell Laboratories Hierarchical constrained automatic learning neural network for character recognition
US5058179A (en) * 1990-01-31 1991-10-15 At&T Bell Laboratories Hierarchical constrained automatic learning network for character recognition
JP2763398B2 (ja) * 1990-11-20 1998-06-11 キヤノン株式会社 パターン認識装置
US5500905A (en) * 1991-06-12 1996-03-19 Microelectronics And Computer Technology Corporation Pattern recognition neural network with saccade-like operation
US5293456A (en) * 1991-06-28 1994-03-08 E. I. Du Pont De Nemours And Company Object recognition system employing a sparse comparison neural network
US5774586A (en) * 1994-05-04 1998-06-30 Ncr Corporation Method and apparatus for standardization of inputs to word recognition systems
US5497430A (en) * 1994-11-07 1996-03-05 Physical Optics Corporation Method and apparatus for image recognition using invariant feature signals
US6038337A (en) * 1996-03-29 2000-03-14 Nec Research Institute, Inc. Method and apparatus for object recognition
US6105015A (en) * 1997-02-03 2000-08-15 The United States Of America As Represented By The Secretary Of The Navy Wavelet-based hybrid neurosystem for classifying a signal or an image represented by the signal in a data system
CA2199588A1 (en) * 1997-03-10 1998-09-10 Efrem Hoffman Hierarchical data matrix pattern recognition and identification system
US5995644A (en) * 1997-06-30 1999-11-30 Siemens Corporate Research, Inc. Robust and automatic adjustment of display window width and center for MR images
US6728642B2 (en) * 2001-03-29 2004-04-27 E. I. Du Pont De Nemours And Company Method of non-linear analysis of biological sequence data
US7043075B2 (en) * 2001-09-27 2006-05-09 Koninklijke Philips Electronics N.V. Computer vision system and method employing hierarchical object classification scheme

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9911067B2 (en) 2014-05-15 2018-03-06 Ricoh Company, Ltd. Image processing apparatus, method of processing image, and program

Also Published As

Publication number Publication date
US7308134B2 (en) 2007-12-11
DE60130742T2 (de) 2008-07-17
DE60130742D1 (de) 2007-11-15
US20030002731A1 (en) 2003-01-02
EP1262907B1 (en) 2007-10-03
EP1262907A1 (en) 2002-12-04
JP2002373333A (ja) 2002-12-26

Similar Documents

Publication Publication Date Title
JP4083469B2 (ja) 階層ネットワークを用いたパターン認識方法
Zhang et al. Spatial sequential recurrent neural network for hyperspectral image classification
Al-Saffar et al. Review of deep convolution neural network in image classification
Kumar Novel deep learning model for traffic sign detection using capsule networks
Tavanaei et al. Multi-layer unsupervised learning in a spiking convolutional neural network
Alani et al. Hand gesture recognition using an adapted convolutional neural network with data augmentation
LeCun et al. Convolutional networks and applications in vision
Kavukcuoglu et al. Learning invariant features through topographic filter maps
Stuhlsatz et al. Feature extraction with deep neural networks by a generalized discriminant analysis
Teow Understanding convolutional neural networks using a minimal model for handwritten digit recognition
Scherer et al. Evaluation of pooling operations in convolutional architectures for object recognition
KR102224253B1 (ko) 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
JP2005352900A (ja) 情報処理装置、情報処理方法、パターン認識装置、及びパターン認識方法
Zhang et al. Overview of currency recognition using deep learning
Angelov et al. MICE: Multi-layer multi-model images classifier ensemble
Calderon et al. Handwritten digit recognition using convolutional neural networks and gabor filters
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
Bonde et al. Offline signature verification using convolutional neural network
Yadav et al. Design of CNN architecture for Hindi Characters
Kanungo Analysis of Image Classification Deep Learning Algorithm
Zaqout et al. An improved technique for face recognition applications
Batı Deep convolutional neural networks with an application towards geospatial object Recognition
Shouno Recent studies around the neocognitron
Rohil et al. Image Classification using Deep Learning: An Experimental Study on Handwritten Digit Recognition
Paheding Progressively expanded neural network for automatic material identification in hyperspectral imagery

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080213

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4083469

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110222

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120222

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130222

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140222

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees