JP2018500708A - ニューラルネットワーク構造とその方法 - Google Patents

ニューラルネットワーク構造とその方法 Download PDF

Info

Publication number
JP2018500708A
JP2018500708A JP2017547076A JP2017547076A JP2018500708A JP 2018500708 A JP2018500708 A JP 2018500708A JP 2017547076 A JP2017547076 A JP 2017547076A JP 2017547076 A JP2017547076 A JP 2017547076A JP 2018500708 A JP2018500708 A JP 2018500708A
Authority
JP
Japan
Prior art keywords
layer
function
neural network
network structure
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017547076A
Other languages
English (en)
Other versions
JP6564049B2 (ja
Inventor
バルポラ ハッリ
バルポラ ハッリ
Original Assignee
キュリアス アーイー オサケユイチア
キュリアス アーイー オサケユイチア
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キュリアス アーイー オサケユイチア, キュリアス アーイー オサケユイチア filed Critical キュリアス アーイー オサケユイチア
Publication of JP2018500708A publication Critical patent/JP2018500708A/ja
Application granted granted Critical
Publication of JP6564049B2 publication Critical patent/JP6564049B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/02Computing arrangements based on specific mathematical models using fuzzy logic
    • G06N7/04Physical realisation
    • G06N7/046Implementation by means of a neural network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、ネットワークの効率的なトレーニングを可能にするニューラルネットワーク構造及びその方法に関する。この構造は、ラダー型構造であり、1つ又は複数のラテラル(lateral)入力が復号化関数に取り入れられる。構造に属する1つ又は複数のコスト関数を最小化することによって、ニューラルネットワーク構造を効率的にトレーニングすることができる。【選択図】図4

Description

本発明は、一般的にニューラルネットワークの技術分野に関する。特に、本発明は、ネットワークのトレーニングを改善するニューラルネットワーク構造に関する。
機械学習法は、例えば、マシンビジョン、パターン認識、ロボット工学、制御システム、自動化等の現代技術で広く利用されている。このようなアプリケーションでは、機械学習は、入力データを処理するためのシステム又は装置のコンピュータ実装の部分で使用される。
機械学習法の分類の1つは、「教師あり」及び「教師なし」学習に分けることである。教師あり学習は、与えられた入力から所定の出力を生成する方法を見つける、又は「学習する」ことを目的とする、例えば、入力画像のセットを、画像が属するラベル付きカテゴリに正しく分類する。教師なし学習は、多くの場合、特徴を使用して、入力データの構造を表現することを目的とする。得られた特徴は、分類タスクのための入力として、又は、更に教師あり学習のための初期化として使用することができる。
機械学習の分野におけるソリューションを開示する広範囲の先行技術が存在する。例えば、ビンセントらの第25回機械学習に関する国際会議(ICML'2008)における講演において、ノイズ除去オートエンコーダを使用した強力な機能の抽出と作成では、ノイズによってシステム全体の入力を壊すようにノイズ除去オートエンコーダが配置された機械学習ソリューションを紹介している。学習は入力のきれいなバージョンを破損したトップダウンのアクティベーションに一致させる。ボトムアップは、最上位レイヤでトップダウンにコピーされる。
ベンジオの「オートエンコーダがターゲット伝播を介してディープネットワークでクレジット割り当てを行う仕組み(How auto-encoders could provide credit assignment in deep networks via target propagation)」2014は、順々に、ネットワークの多くのレベルにおける複数のコスト関数を開示するが、一貫したコスト関数を持たず、逆方向への誤差を伝播しない。ボトムアップは、最上位レイヤでのみトップダウンにコピーされる。
更に、欧州特許公報第2126801号に記載されている機械学習システムは、情報を選択して学習を誘導する、緊急の注意報のようなプロセスを示す。これに記載された方法の1つの重要な側面は、自動学習プロセスを導くための2次入力情報、すなわち「コンテキスト」の利用である。
しかし、従来技術のソリューションには依然としていくつかの欠点がある。すなわち、特に欧州特許公報第2126801号で導入されたソリューションの観点からの主な問題は、コンテキストが、同じ情報を表すように隣接する処理ユニットを駆動してしまうである。非相関は、単一の処理ユニット内で動作し、これを1つのユニット内で起こらないようにするが、計算上非常に要求が厳しいので、大規模なネットワーク内のすべてのユニット間の非相関は実用的ではない。この問題は、異なる処理ユニットが異なる入力セットを受け取ることを要求することによって軽減することができるが、多くの場合、これは厳しい制限である。
更に、深層ニューラルネットワークにおける教師なし学習のための従来技術のソリューションは、遅れており、特に抽象的な特徴を学習することに挑戦している。更に、そのようなソリューションは教師あり学習とはうまく適合しない。
コンテキスト接続は、(ボトムアップ情報以外の)他のソースからの相関情報を理想的に伝えなければならない。この課題の一つの見方は、どの情報が他のソースから来ているのか、及び、どれがネットワーク内で異なる経路をとったボトムアップ情報の単なるコピーなのかを認識できないことに起因するとするものである。したがって、機械学習ソリューションを開発する必要があり、特に、既存のシステムの前述の欠点を緩和し、ニューラルネットワークのトレーニングを改善するニューラルネットワーク構造を導入する必要がある。
したがって、機械学習ソリューションを開発する必要があり、特に、既存のシステムの前述の欠点を緩和し、ニューラルネットワークのトレーニングを改善するニューラルネットワーク構造を導入する必要がある。
本発明の目的は、改良されたトレーニング可能なニューラルネットワーク構造と、ニューラルネットワーク構造のトレーニングを改良する方法とを提示することである。
本発明の目的は、それぞれの独立請求項によって定義されるニューラルネットワーク構造及び方法によって達成される。
第1の態様によれば、ベースレイヤと第2レイヤとを備えるトレーニング可能なニューラルネットワーク構造が提供され、ベースレイヤは、ニューラルネットワーク構造の入力データを破損(corrupting)するための破損関数(corruption function)、復号化関数(decoding function)、及びコスト関数(cost function)を有し、第2レイヤは、符号化関数(encoding function)と復号化関数を有し、破損した入力データは第2レイヤの符号化関数への入力として供給されるように構成され、符号化された破損した入力データは第2レイヤの復号化関数に入力として供給されるように構成され、ニューラルネットワーク構造の破損した入力データと第2レイヤの復号化関数の出力は、ベースレイヤの復号化関数への入力として供給されるように構成され、ベースレイヤの復号化関数の出力とニューラルネットワークの入力データは、ベースレイヤのコスト関数への入力として供給されるように構成される。
ニューラルネットワーク構造の第2レイヤは、コスト関数を更に有してもよく、第2レイヤのための復号化関数の出力と第2レイヤの符号化関数を用いて符号化されたニューラルネットワーク構造の入力データは、コスト関数への入力として供給されるように構成される。
ニューラルネットワーク構造は、少なくとも1つの追加第2レイヤを更に有し、少なくとも1つの追加第2レイヤのそれぞれは、前の第2レイヤに接続されるように配置され、前の第2レイヤの符号化関数の出力は、少なくとも1つの追加第2レイヤの符号化関数への入力として供給されるように構成され、少なくとも1つの追加第2レイヤの符号化関数の出力と上位レイヤの復号化関数の出力とは、少なくとも1つの追加第2レイヤの復号化関数への入力として供給されるように構成される。
少なくとも1つの追加第2レイヤは、コスト関数を更に有してもよく、同じ少なくとも1つの追加第2レイヤの復号化関数の出力と、問題としている少なくとも1つの追加第2レイヤの前の各レイヤの符号化関数で符号化されたニューラルネットワーク構造の入力データとは、少なくとも1つの追加第2レイヤの少なくとも1つのコスト関数への入力として供給されるように構成される。
第2の形態によれば、上記のようなニューラルネットワーク構造をトレーニングする方法が提供され、該方法は、ニューラルネットワークがトレーニングされるとき、ニューラルネットワーク構造に対して定義されたコスト関数が最小化されるように、少なくとも1つのレイヤの少なくとも1つの少なくとも1つの関数の少なくとも1つのパラメータを調整するステップを含む。
レイヤ固有のコスト関数の入力データが比較されてもよい。
構造に対して定義されるコスト関数は、ニューラルネットワーク構造内の少なくとも1つのレイヤに対して定義されたレイヤ固有のコスト関数の合計であってもよい。
本願に提示された本発明の例示的な実施形態は、添付の特許請求の範囲の適用可能性を制限すると解釈されるべきではない。「含む」という動詞は、本特許出願において、未記載の特徴も存在することを排除しないオープンな制限として使用される。従属請求項に記載された特徴は、他に明白に述べられていない限り、相互に自由に組み合わせ可能である。
本発明の特徴と考えられる新規な特徴は、特に添付の特許請求の範囲に記載されている。しかしながら、本発明自体は、構成及び動作方法の両方に関して、付加的な目的及び利点と共に、添付の図面に関連して読まれる特定の実施形態の以下の説明から最もよく理解されるであろう。
本発明によるニューラルネットワーク構造の第1の例を概略的に示す図である。 本発明によるニューラルネットワーク構造の別の例を概略的に示す図である。 本発明によるニューラルネットワーク構造の更に別の例を概略的に示す図である。 本発明によるニューラルネットワーク構造の基本的な構造を概略的に示す図である。 本発明によるコンピューティングユニットの一例を概略的に示す図である。
本発明は、ニューラルネットワークの効率的なトレーニングを可能にするニューラルネットワーク構造を開示する。図1は、本発明の一実施形態によるニューラルネットワーク構造を概略的に示す。図1に示すように、ニューラルネットワーク構造は、ベースレイヤ10及び第2レイヤ20を含む。ベースレイヤ10は、順に、破損関数110と、復号化関数210と、コスト関数310とを備える。第2レイヤ20は、図1に示すように、符号化関数120及び復号化関数220を含む。入力データはニューラルネットワークに送られる。入力データは、破損関数110に送られる。第2レイヤ20の符号化関数120は、入力として破損した入力データを受け取る。さらに、第2レイヤ20の復号化関数220は、第2レイヤ20の符号化関数120で符号化された破損した入力データを入力として受け取る。第2レイヤ20の復号化関数220の出力は、復号化関数210へのラテラル(lateral)入力となるニューラルネットワーク構造の破損した入力データと共に、ベースレイヤ10の復号化関数210への入力となる。ベースレイヤ10のコスト関数310は、ベースレイヤ10の復号化関数210の出力とニューラルネットワークの入力データとを入力として受け取る。わかりやすくするために、図1に示す構造は、ベースレイヤからの1つのコスト関数項のみを含むコスト関数を含んでもよい。
図1に示すニューラルネットワーク構造は、構造に1つ又は複数の第2レイヤを追加することによって、本発明の思想の範囲内で変更することができる。図2は、本発明の一実施形態によるニューラルネットワーク構造が第1の2レイヤ20に加えて1つの追加第2レイヤ30を含む本発明の実施形態を示す。追加第2レイヤ30は、追加第2レイヤの符号化関数130と、追加第2レイヤの復号化関数230とを含む。追加第2レイヤ30の符号化関数130は、第1の第2レイヤの符号化関数120の出力から入力を受け取る。更に、追加第2レイヤ30の符号化関数130の出力は、追加第2レイヤ30の復号化関数230の入力に送られる。図2の本発明の実施形態では、第1の第2レイヤ20の復号化関数220は、入力として、別の第2レイヤ30の復号化関数230の出力と、復号化関数220へのラテラル入力となる第1の第2レイヤの符号化関数120の出力とを受け取る。
図3に、更なる本発明の実施形態を概略的に示す。この実装では、各第2レイヤ、すなわち、第1の第2レイヤ20及び別の第2レイヤ30について、更にコスト関数320、330が配置される。第1の第2レイヤ20のコスト関数320は、第1の第2レイヤ20の復号化関数220の出力からと、第1の第2レイヤ20の符号化関数120で符号化されたニューラルネットワーク構造の入力から入力を受け取る。同様に、別の第2レイヤ30のコスト関数330は、別の第2レイヤ30の復号化関数230の出力からと、第1の第2レイヤ20の符号化関数120の出力を符号化するように配置された別の第2レイヤ20の符号化関数130の出力とから入力を受け取る。図3に示されているような構造の総コストは、構造内に実装されたレイヤから、コスト関数すなわちレイヤ固有のコスト関数を合計することによって導き出してもよい。
図4は、本発明によるニューラルネットワークの基本的な構造を概略的に示す。原理的には、この構造は4つのブロックからなる。 第1のブロック410は、破損した入力
Figure 2018500708
に所定の符号化関数を実行するように配置された符号化経路である。図4のシンボル
Figure 2018500708
は、符号化関数の出力を参照する。第2のブロック420は、第1のブロック410と前の復号化関数からの入力、すなわちラテラル入力に対して、所定の復号化関数を実行するように配置された復号化経路又は雑音除去経路である。図4のシンボル
Figure 2018500708
は、復号化関数の出力を参照する。第4のブロック440は、ニューラルネットワークの入力x(t)に(すなわちクリーン入力)対して所定の符号化関数を実行するように配置されたもう1つの符号化経路である。図4のシンボルh1(t)−hL(t)は、第4のブロック440の符号化経路における符号化関数の出力を参照する。第3のブロック430は、コスト関数経路を参照し、第2のブロック420及び第4のブロック440から受け取った入力に対して、例えば、比較等の所定の機能を実行するように配置される。図4のシンボル C1−CLは、ニューラルネットワーク構造のコスト関数項を参照する。図4の概略図では、コスト関数がニューラルネットワーク構造の各レイヤに配置されていることが示されている。前述したように、本発明の全ての実装において必ずしもそうであるとは限らないが、第4のブロック440において必要な符号化関数にも影響を及ぼす。いずれにしても、本発明に関する構造に対する(全)コスト関数は、構造に実装されたレイヤからコスト関数項を合計することによって定義することができる。図4に関する議論を要約すると、本発明はラダー(ladder)型ニューラルネットワーク構造を開示する。
上述のように、符号化及び復号化関数は、入力データに所定の操作を実行するように配置されている。より具体的には、符号化関数fは、入力xを取り込み、出力として符号化された入力データを生成する。これは、マッピング(mapping)y=f(x)による「表現」yへの入力xの「マッピング」とも呼ばれる。
このようなマッピングは、例えば、
y=s(Wx+b)
であって、Wとbは符号化関数のパラメータであり、sはシグモイド又は双曲線正接関数等の非線形関数であり、ニューラルネットワークをトレーニングするとき、コスト関数が最小になるようにWとbが求められる。Wとbはコンピュータメモリ又は記憶装置に記憶された数値の行列又はベクトルであり、yの式はコンピュータ上で評価される。
逆に、復号化関数gは、入力yを取り、符号化された入力データ
Figure 2018500708
の「再構成」を出力として生成する同様のマッピングである。このようなマッピングは、例えば、
Figure 2018500708
であって、W´とb´は復号化関数のパラメータであり、sはシグモイド関数又は双曲線正接関数のような非線形関数であり、パラメータはニューラルネットワークのトレーニングにおいて求められる。1つの選択肢は、ある規則で、例えば、W´を常にWの転置行列とすることで、W´の値をWの値に結び付けることである。yはxの「劣化した(lossy)」表現であってもよいので、
Figure 2018500708
も同様に元のデータの正確な再構成でなくともよい。
コスト関数Cは、復号化関数が符号化関数の入力データをいかにうまく再構成できるかを評価するために使用される関数である。コスト関数は、例えば、
Figure 2018500708
である。
ネットワークをトレーニングするとき、符号化及び復号化関数のパラメータは、コスト関数が最小になるまで調整される。パラメータに関してコスト関数を最小化する方法は文献に容易に見いだされ、基本的には非線形共役勾配法又は準ニュートン法等の任意の最適化法を用いることができる。本発明による構造の総コスト関数は、コスト関数が決定される1つ以上のレイヤからのコスト関数項の和として定義されてもよい。
上記の説明から既に明らかになったように、ニューラルネットワーク構造の各レイヤにコスト関数を実装する必要はない。1つのコスト関数のみが構造に配置されていてもよく、又は、コスト関数、すなわちコスト関数項が構造内の各レイヤ又はこれらの2つの間のいずれかに配置されていてもよい。複数レイヤのコスト関数は、ニューラルネットワークがトレーニングされているときに学習をスピードアップするが、より多くのコンピューティングリソースを必要とする可能性がある。本発明によれば、ニューラルネットワーク構造、すなわちその中の関数に対するパラメータを決定するために、各レイヤからコスト関数項を合計し、総コスト関数を最小にすることが有利である。
また、標準的な教師ありコスト関数を最上位レイヤに単に追加して、ターゲット出力との距離を測定してもよい。勾配は符号化経路に沿って後方に伝播するので、この構造は教師あり学習に完全に適合する。この構造のニューラルネットワークは、教師なし方法と教師あり方法の両方でトレーニングされる。
実際には、ニューラルネットワーク構造の記述において上述したような関数と操作の実行は、ニューラルネットワークをトレーニングするように配置された計算ユニットにおいて実行されてもよい。そのような計算ユニット510が図5に示されている。計算ユニット510は、プロセッサ等の1つ又は複数の処理ユニット520と、1つ又は複数のメモリユニット530とを備えることができる。上述の関数と操作は、メモリユニット530に記憶されたコンピュータプログラムコードの一部として定義される。コンピュータプログラムコードの一部が処理ユニット520によって実行されるとき、上述の関数と操作は、レイヤ順等の所定の順序で実行されるように配置される。関数と操作は、一実施形態によれば、1つ又は複数のプロセッサによって実行されてもよい。関数又は操作の結果は、プロセッサ内の次の関数又は操作への入力とみなすことができ、また、複数のプロセッサの場合は、中間結果、つまり関数又は操作の結果が、例えば、メモリを通して直接的又は間接的にプロセッサ間を転送されてもよい。メモリユニット530は、関数と操作の少なくともいくつかの出力を少なくとも一時的に記憶するように構成されてもよいが、総コスト関数の最適解が達成され得るような少なくとも関数のパラメータを記憶するように構成されてもよい。既に述べたように、1つ又は複数のメモリユニット530は、コンピュータプログラムコードの少なくともいくつかの部分がプロセッサ内で実行されるときに、説明したように関数又は操作をプロセッサに実行させるコンピュータプログラムコードの少なくともいくつかの部分を記憶するように有利に配置される。ここでの最適解は、所定の方法で、例えば、復号化ブロックの出力と入力信号との差が所定の制限以下であるように、構造に対して定義された総コスト関数を最小化することを指す。したがって、本発明の結果は、ニューラルネットワーク構造のパラメータが生成され、ひいては、ニューラルネットワークがアプリケーション内で使用されるときに利用され得ることである。計算ユニット510は、トレーニングが実行される所定のタスクを実行するように構成された任意の外部構成要素へ、定義されたパラメータを提供するように、例えば、送信するように構成される。
次に、本発明を、画像分類及び検索アプリケーションとの関連において例示的に説明する。
本実施例では、本発明は、例えば画像データベースから類似の画像を検索するために、デジタル画像を自動的に分類するタスクで使用される。
図3に示す構造を有するニューラルネットワークは、3つのカラーチャネルr、g及びbのピクセルデータからなるデジタル画像を分類するようにトレーニングされる。まず、画像はこの種のタスクのために典型的な方法で前処理される。各画像は、サイズ10×10ピクセルの小さな画像又は「パッチ」に分割される。このような各パッチは、300個の数値(3つの色値×10×10ピクセル)の入力データベクトルを構成する。入力データベクトルは、その値から平均値を差し引いて正規化され、白色化変換を使用して白色化される。
トレーニングされるニューラルネットワークは、図3による構造に設定される。この例では、破損ステップ110は、分散1のガウス雑音を入力データベクトルに加えることによって行われる。
この例では、符号化関数f1 120及びf2 130は、
fi=r(Aixi−bi)
として選択され、rは整流器(rectifier)関数、Aiとbiはパラメータ行列、xiは符号化関数への入力、iはレイヤ数を表し、この例では、ベースレイヤの復号化関数g0は、
g0=B´x´+B0h0+b0
となるように選択され、ここでx´は破損した入力であり、h0はg1の出力であり、B´、B0及びb0はパラメータ行列であり、この例では、追加のレイヤの復号化関数giは、
gi=hi*s(Bixi+bi)
として選択され、ここで、*は要素単位の乗算を示し、Bi及びbiはパラメータ行列を示し、コスト関数Cは、
Figure 2018500708
として選択される。
ネットワークは、コスト関数の合計を最小化することによってトレーニングされる(図3ではそのようなものとしては示されていない)。トレーニングの前に、パラメータ行列とベクトルAi、B´、Bi、biはランダムな値に初期化される。一般的に言えば、パラメータ行列のサイズはアプリケーションに依存する。この例では、A1はサイズ300×400、A2は400×15の行列であって、他の行列の次元を決定する。したがって、ニューラルネットワークの出力は長さ15のベクトルである。
次に、この例では、ネットワークは、最適化されるパラメータとしてのパラメータ行列及びベクトルとトレーニングデータとして前処理された画像パッチとを用いて、ネットワーク内のコスト関数の総和を最小化するように設定された周知の勾配降下法を使用してトレーニングされる。
トレーニングが完了した後、パラメータの最適化された値は、高レベルの特徴を有する画像パッチを表現することを学んだトレーニングされたニューラルネットワークのパラメータを構成する。本発明を明確に実証するために簡略化されているこの例では、符号化関数f1によって生成される特徴は、画像内のエッジ及び他の同様の急峻な遷移に概ね対応し、符号化関数f2によって生成されるより高いレベルの特徴は、画像内のそのような特徴の存在の指示に対応するが、画像中のどこに正確に現れるかについては不変である。これは、構造内のラテラル(lateral)接続がこれらのより位置不変のより高いレベルの特徴を学習することを可能にした点において、本発明の重要な側面を例示するものである。
トレーニングされたニューラルネットワークは、新しい画像を同じ方法で前処理し、これらのパラメータと新しく前処理されたデータを入力として符号化関数を評価することによって、更に新しい画像を分類するために使用されてもよい。同様の画像は同様の出力ベクトルを生成する。構造内のラテラル接続により、ニューラルネットワークは位置不変のより高いレベルの特徴を学習することができているので、わずかに異なる位置にある同じ物体(object)の画像は同様の出力ベクトルを生成し、同様に分類されるので、したがって、例えば、検索アプリケーションで見つけることができる。
この例では、教師なし学習のみを対象としているが、教師あり学習も組み込むことができる。例えば、いくつかの画像パッチがラベル付けされていてもよい。この情報は、最上位レイヤの符号化関数の符号化された出力データと現在の入力データのラベルとを入力として受け取るように、最上位レイヤのコスト関数に平行なコスト関数項Csを追加することによって考慮することができる。入力データがラベル付けされていない場合は、Csの出力を0に設定してもよい。ここで、ニューラルネットワークがトレーニングされるとき、入力画像パッチがラベル付けされている場合には、ネットワークは教師なしの方法でデータから表現を学習し、一方、教師あり学習のコスト関数項Csは、ラベルが付けられた正しい分類に近づける分類結果をもたらす表現に学習を導く。この例では、ラベルは長さ15のベクトル、例えば、15ビットであり、1つのビットは、画像が15のクラスのうちの1つに属するとラベル付けされている場合には1であり、そうでない場合には0である。次に、ニューラルネットワークの出力ベクトルは、例えば、ソフトマックス(softmax)関数により正規化された後、入力画像がこのクラスに属する確率として解釈されてもよく、Csは、例えば出力とラベルのクロスエントロピーとして計算されてもよい。
この例では、単純なMLPスタイルのニューラルネットワークが使用されたが、本発明は他のタイプのニューラルネットワークにも等しく適用可能である。例えば、畳み込みネットワーク(convolutional network)は、この例のような画像処理とパターン認識アプリケーションでの機械学習アプリケーションで広く使用されている。本発明は、パラメータが畳み込みカーネルであり畳み込みとなる符号化関数を選択すること及びネットワークを同様の仕方でトレーニングすることによって、簡単に畳み込みネットワークに適用することができる。
前の例におけるトレーニングされたニューラルネットワークの最後のアプリケーションは、符号化関数fの学習されたパラメータのみを利用したが、復号化関数gの学習されたパラメータもまた、アプリケーションにおいて利用されてもよい。本発明の応用の別の例として、トレーニングされたニューラルネットワークを使用して、「サンプリングする」ことによって入力データ内の欠落したデータを埋めるためのシステムを作成するために本発明を使用することができるアプリケーションを考える。この例では、入力データは写真で構成され、トレーニングされたネットワークは、他の破損した写真の穴を埋めるために使用される。ニューラルネットワークの前処理とトレーニングは、前の例と同様に行うことができるが、破損ステップ110は、破損が破損した写真の破損と類似するように修正される。例えば、ガウス雑音を付加する代わりに写真に小さな穴がある場合、入力データのランダムに選択された範囲はゼロに設定され、すなわち入力データに「穴」が挿入される。あるいは、初期推定が、例えば、後でアプリケーションを高速化することとなる「穴」の「エッジ」でのピクセル値の平均であるデータにより前もって提供されている。トレーニングを受けた、ニューラルネットワークは、破損した入力データの穴を新たに生成されたデータで埋めることを効果的に学習する。ニューラルネットワークはトレーニングされた後ソフトウェアプログラムに組み込まれることができ、ユーザが写真を提供して、この例では、生成されたデータで塗りつぶされるために写真のピクセル領域をマークする。トレーニングされたネットワーク(すなわち、符号化と復号化関数)が、入力データとして提供された写真により評価されると、復号化関数210の出力は、マークされた領域が「サンプリングされた」生成されたデータで満たされたデータのバージョンを生成する。次に、マークされた領域の画素値が復号化関数210の出力から選択されるように、他の領域のピクセル値が元のユーザ提供写真から選択されるように、今度は元のユーザ提供写真と復号化関数210の出力とを組み合わせて破損ステップ110を置き換えることにより、この手順は更に反復される。
本発明によるニューラルネットワーク構造は、ニューラルネットワークのトレーニングを少なくとも改善するという点で、従来技術のソリューションに勝る利点を提供する。これは、上記の画像例の不変特徴等の抽象的特徴の上位レイヤへの学習と教師あり学習ソリューションのコスト関数と共にソリューションの効果的な協力とを可能にする復号化関数へのラテラル入力によって達成される。更に、上位レイヤに配置されたコスト関数項は、ニューラルネットワークの学習を促進し、加速する。したがって、本発明の利点は、従来技術に勝ることは明らかである。
上記説明で説明した特徴は、明示的に説明した組み合わせ以外の組み合わせで使用することができる。関数は特定の特徴を参照して説明されているが、それらの関数は記載されているか否かに関係なく他の関数によっても実行可能である。特徴は、特定の実施形態を参照して記載されているが、記載されているか否かにかかわらず、他の実施形態において表現されていてもよい。

Claims (7)

  1. ベースレイヤと第2レイヤとを有するトレーニング可能なニューラルネットワーク構造であって、
    前記ベースレイヤは、
    前記ニューラルネットワーク構造の入力データを破損するための破損関数と、
    復号化関数と、
    コスト関数と、
    を有し、
    前記第2レイヤは、
    符号化関数と、
    復号化関数と、
    を有し、
    破損した入力データは、前記第2レイヤの前記符号化関数への入力として供給されるように構成され、
    符号化された破損した入力データは、前記第2レイヤの前記復号化関数への入力として供給されるように構成され、
    前記ニューラルネットワーク構造の前記破損した入力データと前記第2レイヤの前記復号化関数の出力とは、前記ベースレイヤの前記復号化関数への入力として供給されるように構成され、
    前記ベースレイヤの前記復号化関数の出力と前記ニューラルネットワーク構造の前記入力データとは、前記ベースレイヤの前記コスト関数への入力として供給されるように構成される、ことを特徴とするニューラルネットワーク構造。
  2. 前記第2レイヤは、コスト関数を更に有し、
    前記第2レイヤの前記復号化関数の出力と前記第2レイヤの前記符号化関数を用いて符号化された前記ニューラルネットワーク構造の前記入力データとは、前記コスト関数への入力として供給されるように構成される、ことを特徴とする請求項1に記載のニューラルネットワーク構造。
  3. 前記ニューラルネットワーク構造は、少なくとも1つの追加第2レイヤを更に有し、
    前記少なくとも1つの追加第2レイヤのそれぞれは、前の前記第2レイヤに接続されるように配置され、
    前の前記第2レイヤの前記符号化関数の出力は、前記少なくとも1つの追加第2レイヤの符号化関数への入力として供給されるように構成され、
    前記少なくとも1つの追加第2レイヤの前記符号化関数の出力と上位レイヤの復号化関数の出力とは、前記少なくとも1つの追加第2レイヤの復号化関数への入力として供給されるように構成される、ことを特徴とする請求項1又は2に記載のニューラルネットワーク構造。
  4. 前記少なくとも1つの追加第2レイヤは、コスト関数を更に有し、
    同じ前記少なくとも1つの追加第2レイヤの前記復号関数の出力と、問題としている前記少なくとも1つの追加第2レイヤの前の各レイヤの符号化関数で符号化された前記ニューラルネットワーク構造の前記入力データとは、 前記少なくとも1つの追加第2レイヤの前記少なくとも1つのコスト関数への入力として供給されるように構成される、ことを特徴とする請求項3に記載のニューラルネットワーク構造。
  5. 請求項1〜4のいずれか1項に記載のニューラルネットワーク構造をトレーニングするための方法であって、
    前記構造に入力データを入力することによって前記ニューラルネットワークがトレーニングされるとき、前記ニューラルネットワーク構造に対して定義されたコスト関数が最小化されるように、少なくとも1つのレイヤの少なくとも1つの関数の少なくとも1つのパラメータを調整するステップ、を有する方法。
  6. レイヤ固有のコスト関数の入力データが比較されること、を特徴とする請求項5に記載の方法。
  7. 前記構造に対して定義されるコスト関数は、ニューラルネットワーク構造内の少なくとも1つのレイヤに対して定義されたレイヤ固有のコスト関数の合計であること、を特徴とする請求項5又は6に記載の方法。
JP2017547076A 2014-11-26 2014-11-26 ニューラルネットワーク構造とその方法 Expired - Fee Related JP6564049B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FI2014/050911 WO2016083657A1 (en) 2014-11-26 2014-11-26 Neural network structure and a method thereto

Publications (2)

Publication Number Publication Date
JP2018500708A true JP2018500708A (ja) 2018-01-11
JP6564049B2 JP6564049B2 (ja) 2019-08-21

Family

ID=52021228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017547076A Expired - Fee Related JP6564049B2 (ja) 2014-11-26 2014-11-26 ニューラルネットワーク構造とその方法

Country Status (6)

Country Link
US (1) US11720795B2 (ja)
EP (1) EP3224767A1 (ja)
JP (1) JP6564049B2 (ja)
KR (1) KR102291454B1 (ja)
CN (1) CN107111782B (ja)
WO (1) WO2016083657A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020005202A (ja) * 2018-06-29 2020-01-09 日本放送協会 映像処理装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769531B2 (en) * 2015-06-05 2020-09-08 Cisco Technology, Inc. Methods and systems for counting people
US11068781B2 (en) * 2016-10-07 2021-07-20 Nvidia Corporation Temporal ensembling for semi-supervised learning
FI20196098A1 (fi) 2017-05-19 2019-12-19 Curious Ai Oy Neuroverkkoon perustuva ratkaisu
KR101992739B1 (ko) * 2017-10-30 2019-06-26 (주)한국플랫폼서비스기술 딥러닝을 이용한 암호화 방법
CN107844828B (zh) * 2017-12-18 2021-07-30 南京地平线机器人技术有限公司 神经网络中的卷积计算方法和电子设备
US11775814B1 (en) 2019-07-31 2023-10-03 Automation Anywhere, Inc. Automated detection of controls in computer applications with region based detectors
US11176443B1 (en) 2017-12-21 2021-11-16 Automation Anywhere, Inc. Application control and text detection from application screen images
US10769427B1 (en) 2018-04-19 2020-09-08 Automation Anywhere, Inc. Detection and definition of virtual objects in remote screens
CN110971915B (zh) * 2018-09-28 2022-07-01 杭州海康威视数字技术股份有限公司 滤波方法和设备
CN109359727B (zh) * 2018-12-07 2022-01-11 北京字节跳动网络技术有限公司 神经网络的结构确定方法、装置、设备及可读介质
WO2020149511A1 (ko) * 2019-01-17 2020-07-23 삼성전자주식회사 전자 장치 및 이의 제어 방법
DE102019201702A1 (de) * 2019-02-11 2020-08-13 Conti Temic Microelectronic Gmbh Modulares inpainting Verfahren
KR102225024B1 (ko) * 2019-10-24 2021-03-08 연세대학교 산학협력단 이미지 채움 장치 및 방법
US11513670B2 (en) 2020-04-27 2022-11-29 Automation Anywhere, Inc. Learning user interface controls via incremental data synthesis

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6560349B1 (en) * 1994-10-21 2003-05-06 Digimarc Corporation Audio monitoring using steganographic information
US6518892B2 (en) * 2000-11-06 2003-02-11 Broadcom Corporation Stopping criteria for iterative decoding
FI20070159A0 (fi) * 2007-02-23 2007-02-23 Teknillinen Korkeakoulu Menetelmä informaation integrointiin, valintaan ja esityksen oppimiseen
US20090110062A1 (en) * 2007-10-30 2009-04-30 The Hong Kong University Of Science And Technology Optimal heegard-berger coding schemes
US8290096B2 (en) * 2008-04-14 2012-10-16 Qualcomm Incorporated Radius adaptive sphere decoding with probabilistic noise constraint
CN101795344B (zh) 2010-03-02 2013-03-27 北京大学 数字全息图像压缩、解码方法及系统、传输方法及系统
CN104050507B (zh) 2014-06-30 2018-03-09 南京理工大学 基于多层神经网络的超光谱图像分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020005202A (ja) * 2018-06-29 2020-01-09 日本放送協会 映像処理装置
JP7202087B2 (ja) 2018-06-29 2023-01-11 日本放送協会 映像処理装置

Also Published As

Publication number Publication date
WO2016083657A1 (en) 2016-06-02
JP6564049B2 (ja) 2019-08-21
KR102291454B1 (ko) 2021-08-19
EP3224767A1 (en) 2017-10-04
US20170330076A1 (en) 2017-11-16
CN107111782B (zh) 2021-05-14
CN107111782A (zh) 2017-08-29
KR20170092595A (ko) 2017-08-11
US11720795B2 (en) 2023-08-08

Similar Documents

Publication Publication Date Title
JP6564049B2 (ja) ニューラルネットワーク構造とその方法
EP3869385B1 (en) Method for extracting structural data from image, apparatus and device
Laishram et al. A novel minimal distortion-based edge adaptive image steganography scheme using local complexity: (BEASS)
US11501108B2 (en) Adding a fingerprint to a machine learning model
KR102287407B1 (ko) 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법
KR102028825B1 (ko) 워터마킹 공격을 식별하는 인공신경망을 이용한 워터마킹을 처리하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
CN112418345B (zh) 细粒度小目标快速识别的方法和装置
KR102127571B1 (ko) 자기회귀 생성모델 기반의 은닉 데이터 제거 방법 및 장치
CN112088378A (zh) 图像隐藏信息检测器
US20210304364A1 (en) Method and system for removing noise in documents for image processing
CN114065771A (zh) 一种预训练语言处理方法及设备
CN112750065B (zh) 载体对象处理和水印嵌入方法、装置及电子设备
KR102612625B1 (ko) 신경망 기반의 특징점 학습 장치 및 방법
US20180359378A1 (en) System, method, and non-transitory computer readable storage medium for image recognition based on convolutional neural networks
KR102028824B1 (ko) 객체를 식별하는 인공신경망을 이용한 워터마킹을 처리하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
CN115034255A (zh) 一种具有注意力机制时间卷积网络的信号调制识别算法
Kartik et al. Decoding of graphically encoded numerical digits using deep learning and edge detection techniques
CN113055546A (zh) 处理图像的系统和方法
KR102322927B1 (ko) 인공신경망을 이용한 진단 영상을 구분하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
CN111275603A (zh) 一种基于风格转换的安全图像隐写方法与电子装置
KR102676919B1 (ko) 인공지능을 이용한 이미지 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN117710763B (zh) 图像噪声识别模型训练方法、图像噪声识别方法及装置
KR102615055B1 (ko) 적대적 이미지 복원 시스템 및 적대적 이미지 복원 방법
KR102045140B1 (ko) 인공신경망을 이용한 워터마킹 공격 기법을 도출하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
Dong et al. Implicit Neural Representation Steganography by Neuron Pruning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171101

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190725

R150 Certificate of patent or registration of utility model

Ref document number: 6564049

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees