JP6877623B2 - コンピュータベースシステム及びコンピュータベース方法 - Google Patents

コンピュータベースシステム及びコンピュータベース方法 Download PDF

Info

Publication number
JP6877623B2
JP6877623B2 JP2020500663A JP2020500663A JP6877623B2 JP 6877623 B2 JP6877623 B2 JP 6877623B2 JP 2020500663 A JP2020500663 A JP 2020500663A JP 2020500663 A JP2020500663 A JP 2020500663A JP 6877623 B2 JP6877623 B2 JP 6877623B2
Authority
JP
Japan
Prior art keywords
layer
neural network
optimization
input
hidden
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020500663A
Other languages
English (en)
Other versions
JP2020526834A (ja
Inventor
ジャン、ジミン
ブランド、マッシュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2020526834A publication Critical patent/JP2020526834A/ja
Application granted granted Critical
Publication of JP6877623B2 publication Critical patent/JP6877623B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Description

本発明は、包括的には、コンピュータサイエンスにおける機械学習に関し、詳細には、機械学習の深層学習の部分領域に関する。
機械学習は、コンピュータに、明示的にプログラミングされることなく特定のタスクを学習して、そのタスクを達成する能力を与える、コンピュータサイエンスの一分野である。例えば、機械学習は、複雑なタスクを、学習されたパラメトリック関数として表すことを可能にし、これにより、そのタスクを達成するのに要するメモリ使用量が削減されるとともに、そのタスクを実行するプロセッサの性能が簡素化される。機械学習は、オブジェクト認識、検証及び検出、画像セグメンテーション、音声処理並びに制御等の多岐にわたる応用において用いられる。
畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)、リカレントニューラルネットワーク(RNN:Recurrent Neural Networks)等の人工ニューラルネットワーク(ANN:Artificial Neural Networks)は、生物学的な神経網(biological neural networks)から着想を得た機械学習フレームワークの一部を形成する。そのようなニューラルネットワークベースシステムは、概してタスク固有のプログラミングを用いることなく、例を検討することによってタスクを行うように学習する。そのような学習プロセスは、通常、トレーニング、すなわち、ニューラルネットワークのトレーニングと称される。例えば、画像認識において、ニューラルネットワークベースシステムは、手作業で「猫」又は「猫ではない」とラベル付け済みの画像例を解析し、その解析結果を用いて他の画像内の猫を識別することによって、猫を含む画像を識別するように学習することができる。
例えば、フィードフォワード深層ニューラルネットワーク(DNN:Deep Neural Networks)は、重み付けされた組み合わせ入力が、全結合(FC)隠れ層のカスケードに編成された非線形活性化関数を通してフィルタリングされる関数近似器(function approximators)である。近年、DNNは、機械翻訳及びコンピュータビジョン等の多くの技術領域にとっての最適な選択肢のツールとなっている。しかしながら、DNNがタスクを達成することができるようになる前に、DNNは、トレーニングされる必要があり、このトレーニングは、長く単調なプロセスとなり得る。
バックプロパゲーションは、人工ニューラルネットワークにおいて、或るデータのバッチが処理された後に各ニューロンの誤差の寄与度を計算するのに用いられる一方法である。これらの誤差は、各ニューロンの重みを調整するのに用いられる。典型的には、バックプロパゲーション法は、ニューラルネットワークの出力とグラウンドトゥルースデータとの間の差を表す損失関数の勾配を計算する。そのために、バックプロパゲーションは、勾配降下最適化を用いることができ、誤差の後方伝播(backward propagation of errors:誤差逆伝播)と称することができる。なぜならば、誤差は、出力において計算され、ネットワークの層を逆向きに通して割り当てられるためである。
不都合なことに、ニューラルネットワークをトレーニングする種々の方法は、ニューラルネットワークのニューロンの重みを最適化することにおいて多くの計算上の困難に直面している。いくつかの状況では、バックプロパゲーションは、ニューラルネットワークについての大域最適解の発見に失敗し、又は、局所最適解でさえ発見に失敗する。例えば、よく知られた問題のうちの1つは、バックプロパゲーション(微分の連鎖律(chain rule differentiation:合成関数の微分))におけるいわゆる勾配消失であり、これはすなわち、隠れ層(及び対応する変数)同士の間の長い依存連鎖が、勾配を、最適解から程遠い0に至らせる傾向があるという問題である。この問題により、モデルパラメータの改善が非常に遅くなり、ネットワークの層が深くなるほど、問題がより深刻になる。
勾配消失問題は、ResNet等の、入力から出力までの経路が短くなるネットワークアーキテクチャによって部分的に改良することができる。しかしながら、入力から出力までの短い経路は、タスクによっては望ましくない可能性がある。したがって、勾配消失問題を被ることのない、ニューラルネットワークのためのトレーニング方法を提供する必要がある。
人工ニューラルネットワークの文脈において、正規化器(rectifier)は、f(x)=x=max(0,x)と定義される活性化関数であり、ここで、xは、ニューラルネットワークの或る層の或るニューロンへの入力である。これは、ランプ関数としても知られており、電気工学分野における半波整流(half-wave rectification)と類似している。正規化器を利用するユニットは、正規化線形ユニット(ReLU:rectified linear unit:正規化線形関数)とも呼ばれる。
正規化関数は、生物学的動機及び数学的正当性を有し、ニューラルネットワークにおいて、広範に用いられているロジスティックシグモイド関数よりも時として効果的に用いることができる。いくつかの実施形態は、正規化関数が、トレーニング中のニューラルネットワークのパラメータの改善を非常に遅くするバックプロパゲーションにおける勾配消失問題を少なくとも部分的に改良するのに役立つという認識に基づいている。しかしながら、いくつかの実施形態は、正規化関数を用いる深層ニューラルネットワークが、それでもなお勾配消失問題を被る可能性があるという認識に基づいている。
いくつかの実施形態は、ニューラルネットワークの全ての層の出力ベクトルが正である場合、入力ベクトルに対する正規化関数の最大化演算を、各層の非負の出力ベクトルと、対応する各層への入力ベクトルとの間の距離の最小化に置き換えることができるという理解に基づいている。このようにして、正規化関数は、最小化演算として定式化することができ、これにより、トレーニング手順を二層最適化問題として定式化することが可能になる。二層最適化問題の第1の層は、ニューラルネットワークの出力と、ニューラルネットワークへの入力のグラウンドトゥルースラベルとの間の差を最小化することを含み、二層最適化問題の第2の層は、各層の非負の出力ベクトルと、対応する各層への入力ベクトルとの間の距離を最小化することを含む。
いくつかの実施形態は、そのような二層最適化問題を、勾配消失問題を被ることのない種々の近似技法を用いて解くことができるという理解に基づいている。例えば、いくつかの実施形態は、第2の層における目的関数を第1の層における目的関数に加算し、第2の層における制約を第1の層における制約と組み合わせることによって二層最適化問題を単一層最適化問題に変換し、この新たな単一層最適化問題を、交互最適化によって解く。
加えて、いくつかの実施形態は、単一層最適化問題において変数置換を実行することによって、この単一層最適化問題をティホノフ正則化に変換することができるという理解に基づいている。そのような再定式化の後、ティホノフ正則化を、ブロック座標降下(block coordinate descent)を用いて解くことができる。ブロック座標降下法は、変数を更新するための閉形式解を有するとともに、理論上の収束の保証も有するので、有利である。経験的に、そのような解法は、最大化演算を実行する正規化関数を用いるバックプロパゲーションと比較して、ニューラルネットワークをトレーニングするために要する計算時間を削減する。
いくつかの実施形態は、ティホノフ正則化が、ネットワーク重みのみではなく、ネットワークアーキテクチャ、例えば、ノード/層の数及び異なる層同士の間の接続性も符号化する行列を定義するという理解に基づいている。この符号化は、本質的には多対1マッピングであり、すなわち、ネットワークの或るアーキテクチャを所与とすると、その適用例についての最適な行列は一意である。数学的に、この行列は、対称であるとともに接続されている(すなわち、行列内の非0のエントリの任意のペアの間に少なくとも1つの経路が存在する)という幾何制約を満たす。
複数の応用において、ネットワークアーキテクチャは、事前定義されており、そのようなアーキテクチャを、ティホノフ正則化によって定義された行列の構造に対する制約として好都合に課すことができる。
付加的に、又は代替的に、いくつかの実施形態は、ティホノフ正則化を用いる最適化は、所与のタスクについての重みだけでなく、ネットワークアーキテクチャも自動的に学習することさえできる。
したがって、1つの実施形態は、ニューラルネットワークへの入力、及び、ニューラルネットワークへの入力のラベルを受信する入力インターフェースと、ニューラルネットワークのパラメータを生成するのに二層最適化を解くプロセッサであって、二層最適化は、第2の層の最適化を条件とする第1の層の最適化を含み、第1の層の最適化は、入力を処理するニューラルネットワークの出力と、ニューラルネットワークへの入力のラベルとの間の差を最小化し、第2の層の最適化は、各層の非負の出力ベクトルと、対応する各層への入力ベクトルとの間の距離を最小化し、目下の層の入力ベクトルは、直前の層の非負の出力ベクトルの線形変換である、プロセッサと、ニューラルネットワークのパラメータを出力する出力インターフェースとを備える、コンピュータベースシステムを開示する。
別の実施形態は、コンピュータベース方法であって、方法は、方法を実施する記憶された命令に結合されたプロセッサを使用し、命令は、プロセッサによって実行されると、方法の少なくともいくつかのステップを実行し、方法は、ニューラルネットワークへの入力のグラウンドトゥルースラベルを受信することと、ニューラルネットワークへの入力を処理するニューラルネットワークの出力と、ニューラルネットワークへの入力のグラウンドトゥルースラベルとの間の差を最小化する二層最適化問題を解いて、ニューラルネットワークのパラメータを生成することであって、差を最小化することは、二層最適化問題の第2の層を形成する、各層の非負の出力ベクトルと、対応する各層への入力ベクトルとの間の距離を最小化することを条件とする二層最適化問題の第1の層であり、目下の層の入力ベクトルは、直前の層の非負の出力ベクトルの線形変換であることと、ニューラルネットワークのパラメータを出力することとを含む、方法を開示する。
更に別の実施形態は、方法を実行するためにプロセッサによって実行可能なプログラムが具現化された非一時的コンピュータ可読ストレージ媒体を開示する。方法は、ニューラルネットワークへの入力のグラウンドトゥルースラベルを受信することと、ニューラルネットワークへの入力を処理するニューラルネットワークの出力と、ニューラルネットワークへの入力のグラウンドトゥルースラベルとの間の差を最小化する二層最適化問題を解いて、ニューラルネットワークのパラメータを生成することであって、差を最小化することは、二層最適化問題の第2の層を形成する、各層の非負の出力ベクトルと、対応する各層への入力ベクトルとの間の距離を最小化することを条件とする二層最適化問題の第1の層であり、目下の層の入力ベクトルは、直前の層の非負の出力ベクトルの線形変換であることと、ニューラルネットワークのパラメータを出力することとを含む。
いくつかの実施形態による、二層最適化を介して深層ニューラルネットワーク(DNN)をトレーニングするコンピュータベース処理システム100のブロック図である。 いくつかの実施形態による、ニューラルネットワークをトレーニングするために二層最適化問題を解く方法のブロック図である。 いくつかの実施形態によって用いられる、DNNをトレーニングするための、1層バックプロパゲーション最適化から二層最適化問題への変換の一例示の概略図である。 いくつかの実施形態による、ティホノフ正則化を用いた、DNNをトレーニングするための二層最適化の緩和の概略図である。 1つの実施形態による、DNNと、ティホノフ正則化項によって定義される行列との間のマッピングの一例を示す図である。 いくつかの実施形態による、制約を条件とするニューラルネットワークをトレーニングする方法の図である。 1つの実施形態による、二層最適化を解く方法599のブロック図である。 1つの実施形態による、ティホノフ正則化DNNをトレーニングするブロック座標降下法を示す図である。 1つの実施形態による、ティホノフ正則化DNNをトレーニングするために改変されたブロック座標降下の方法のブロック図である。 図6Bの方法の例示の実施態様の擬似コードである。 いくつかの実施形態によって利用される原理に従ってトレーニングされた、画像分類についての一例示のニューラルネットワークの図である。 いくつかの実施形態による、画像処理応用及び/又はコンピュータビジョン応用のために構成された一例示のシステムのブロック図である。
図1は、いくつかの実施形態による、二層最適化を介して深層ニューラルネットワーク(DNN)をトレーニングするコンピュータベース処理システム100のブロック図を示している。処理システム100は、記憶された命令を実行するように構成されたプロセッサ102と、このプロセッサによって実行可能な命令を記憶するメモリ104とを備える。プロセッサ102は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成体とすることができる。メモリ104は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。プロセッサ102は、バス106を通じて1つ以上の入力デバイス及び出力デバイスに接続される。
これらの命令は、DNNをトレーニングするために二層最適化ソルバーを実施する。種々の実施形態において、二層最適化ソルバーは、それぞれ異なる応用について適応されたニューラルネットワークの重みを学習する。例えば、1つの実施形態では、ニューラルネットワークは、顔認識及び/又は人物再同定(person re-identification)等の画像処理のためにトレーニングされる。付加的に、又は代替的に、いくつかの実施形態では、ニューラルネットワークは、ビジュアルオドメトリ、3D再構成、オブジェクト検出、オブジェクト認識、センサ融合、及び画像ベースロケーション特定のうちの1つ又は組み合わせ等の、種々のコンピュータビジョンタスクのためにトレーニングされる。
そのために、システム100は、ニューラルネットワークのパラメータを出力デバイス130に出力する出力インターフェース128を備える。出力インターフェース128及び/又は出力デバイス130の例は、非一時的コンピュータ可読ストレージ媒体、有線又は無線通信チャネルを通じて、トレーニングされたDNNを受け入れる受信機、ディスプレイデバイス、及びトレーニングされたDNNを用いてタスクを実行するアプリケーションデバイスを含む。例えば、いくつかの実施形態では、システム100は、アプリケーションインターフェース180を通じてアプリケーションデバイス185に接続される。アプリケーションデバイスの例は、顔認識及び同定システム、位置エンコーダ、センサシステム等とすることができる。
処理システム100は、DNNのトレーニングを実行するように構成される。そのために、処理システム100は、種々の実施形態のいくつかの原理を利用する二層最適化ソルバー131を記憶するように適応されたストレージデバイス108も備えることができる。ストレージデバイス108は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、又はこれらの任意の組み合わせを用いて実装することができる。また、ストレージデバイス108は、DNNをトレーニングするのに必要な情報を記憶することができる。トレーニング情報の例は、ラベル付けされた入力データ、及び/又は、DNNの構成、例えば、DNNの層の数、層間の接続性、及び層のタイプを含む。
そのために、システム100は、ニューラルネットワークへの入力、及び、ニューラルネットワークへの入力のラベル等のトレーニング情報を受信する入力インターフェースも備える。例えば、処理システム100内のヒューマンマシンインターフェース110は、当該システムをキーボード111及びポインティングデバイス112に接続することができ、ポインティングデバイス112は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、又はタッチスクリーンを含むことができる。処理システム100は、当該システム100をディスプレイデバイス150に接続するように適合されたディスプレイインターフェース140にバス106を通じてリンクすることができる。ディスプレイデバイス150は、とりわけ、コンピュータモニタ、カメラ、テレビ、プロジェクタ、又はモバイルデバイスを含むことができる。
付加的に、又は代替的に、ネットワークインターフェースコントローラ160は、処理システム100を、バス106を通じてネットワーク190に接続するように適応される。ネットワーク190及び/又は入力インターフェースの他の実施態様を通じて、記憶及び/又は更なる処理のために、ラベル付けされたトレーニングデータ及び/又はDNNの構成195をダウンロードしてコンピュータストレージシステム108内に記憶することができる。
いくつかの実施形態では、処理システム100は、学習されたネットワーク重みに基づいて動作することができるアプリケーションデバイス185に処理システム100を接続するように適応されたアプリケーションインターフェース180に、バス106を通じて接続される。例えば、デバイス185は、学習されたネットワークに基づいて、ユーザーにデバイス185へのアクセスを許可する保護されたシステムである。
人工ニューラルネットワークの文脈において、正規化器は、f(x)=x=max(0,x)と定義される活性化関数であり、ここで、xは、ニューラルネットワークの或る層の或るニューロンへの入力である。この活性化関数は、ランプ関数と称することができ、電気工学分野における半波整流と類似している。正規化器を利用するユニットは、正規化線形ユニット(ReLU)とも呼ばれる。
正規化関数は、生物学的動機及び数学的正当性を有し、ニューラルネットワークにおいて、広範に用いられているロジスティックシグモイド関数よりも時として効果的に用いることができる。いくつかの実施形態は、正規化関数が、トレーニング中のニューラルネットワークのパラメータの改善を非常に遅くするバックプロパゲーションにおける勾配消失問題を少なくとも部分的に改良するのに役立つという認識に基づいている。しかしながら、いくつかの実施形態は、正規化関数を用いる深層ニューラルネットワークが、それでもなお勾配消失問題を被る可能性があるという認識に基づいている。
いくつかの実施形態は、ニューラルネットワークの全ての層の出力ベクトルが正である場合、入力ベクトルに対する正規化関数の最大化演算を、各層の非負の出力ベクトルと、対応する各層への入力ベクトルとの間の距離の最小化に置き換えることができるという理解に基づいている。このようにして、正規化関数は、最小化演算として定式化することができ、これにより、トレーニング手順を二層最適化問題として定式化することが可能になる。二層最適化問題の第1の層は、ニューラルネットワークの出力と、ニューラルネットワークへの入力のグラウンドトゥルースラベルとの間の差を最小化することを含み、二層最適化問題の第2の層は、各層の非負の出力ベクトルと、対応する各層への入力ベクトルとの間の距離を最小化することを含む。
図2Aは、いくつかの実施形態による、ニューラルネットワークをトレーニングするために二層最適化問題を解く方法のブロック図を示している。この方法は、ニューラルネットワークのパラメータを生成するのに二層最適化を解くソルバー131を実行するプロセッサ102等のプロセッサによって実行することができる。二層最適化は、第2の層250の最適化を条件とする第1の層240の最適化を含む。第1の層240の最適化は、入力を処理するニューラルネットワークの出力と、ニューラルネットワークへの入力のラベルとの間の差を最小化する。第2の層250の最適化は、各層の非負の出力ベクトルと、対応する各層への入力ベクトルとの間の距離を最小化する。とりわけ、目下の層の入力ベクトルは、直前の層の非負の出力ベクトルの線形変換である。
図2Bは、いくつかの実施形態によって用いられる、DNNをトレーニングするための、1層バックプロパゲーション最適化から二層最適化問題への変換の一例示の概略図を示している。1層バックプロパゲーション最適化210において、
Figure 0006877623
は、第iのトレーニングデータであり、y∈Yは、Yのセットからのラベルであり、
Figure 0006877623
は、ニューラルネットワークにおける第nの(1≦n≦N)隠れ層からのxについての出力ベクトルであり、
Figure 0006877623
は、第nの隠れ層と第mの隠れ層との間の重み行列であり、Mは、第nの隠れ層についてのインデックスセットであり、
Figure 0006877623
は、最後の隠れ層とニューラルネットワークの出力層との間の重み行列であり、U、V、Wは、非空の閉凸セットであり、
Figure 0006877623
であり、l(・,・)は、凸損失関数である。一般に、バックプロパゲーションは、ネットワークアーキテクチャに従ってネットワーク重みを学習することによって損失を最小化することを目標とする。
いくつかの実施形態は、ReLU活性化関数の最大化を、最小化演算に置き換えることができるという認識を利用する。また、いくつかの実施態様は、DNNを通じた短い経路を提供するために、複数の直前の層からの出力を自身の入力として取ることができるマルチ入力ReLUユニットを可能にする。例えば、いくつかの実施形態は、ネットワークアーキテクチャ211を有するニューラルネットワークをトレーニングし、このアーキテクチャにおいて、例えば、(ReLU活性化関数を有する)第3の隠れ層は、入力データと、第1の隠れ層及び第2の隠れ層からの出力とを自身の入力として取る。したがって、本発明によるマルチ入力ReLU活性化関数212は、0と、Mと定義される他の結合された層からの重み付けされた入力の総和との間で大きい方の値を出力するように定義される。
同等に、ReLU関数は、凸集合に対する写像として考えることができ、それゆえ、変数に対する非負制約を有する単純な平滑凸最適化問題(smooth convex optimization problem)225として記述し直すことができる。これにより、マルチ入力ReLU関数を第2の層の最適化問題に置き換えることによって、本発明による二層最適化問題220がもたらされる。
いくつかの実施形態は、そのような二層最適化問題を、勾配消失問題を被ることのない種々の近似技法を用いて解くことができるという理解に基づいている。例えば、いくつかの実施形態は、第2の層における目的関数を第1の層における目的関数に加算し、第2の層における制約を第1の層における制約と組み合わせることによって二層最適化問題を単一層最適化問題に変換し、この単一層最適化問題を、交互最適化によって解く。
加えて、いくつかの実施形態は、単一層最適化問題において変数置換を実行することによって、この単一層最適化問題をティホノフ正則化に変換することができるという理解に基づいている。そのような再定式化の後、ティホノフ正則化を、ブロック座標降下を用いて解くことができる。ブロック座標降下法は、変数を更新するための閉形式解を有するとともに、理論上の収束の保証も有するので、有利である。経験的に、そのような解法は、最大化演算を実行する正規化関数を用いるバックプロパゲーションと比較して、ニューラルネットワークをトレーニングするために要する計算時間を削減する。
図3は、いくつかの実施形態による、ティホノフ正則化を用いた、DNNをトレーニングするための二層最適化の緩和の概略図を示している。二層最適化問題220を取り上げて展開することによって、いくつかの実施形態は、緩和問題300を得る。ここで、uは、全ての隠れ出力及び入力データの連結ベクトルを示し、γ311は、損失項及び正則化項の寄与度を制御するトレードオフパラメータであり、
Figure 0006877623
312は、目的関数を再編成することによって導入される半正定値行列を示し、
Figure 0006877623
313は、
Figure 0006877623
となるような
Figure 0006877623
によってもたらされる別の行列を示し、ここで、(・)は、行列転置演算子を示す。γ値が大きくなるほど、ui,nが、第nの隠れ層におけるReLUの出力をより厳密に近似するように強制される。
Figure 0006877623
又は
Figure 0006877623
は、ティホノフ正則化項を定義する。いくつかの実施形態は、緩和された問題300が、ブロックマルチ凸問題であり、これは、ブロック座標降下(BCD)を用いて効率的に解くことができるという理解に基づいている。
具体的に述べると、一般的な座標降下法は、各反復内で、目下の点において1つの座標方向に沿って直線探索を行うことによって関数の極小を発見する、微分を使用しない(derivative-free)最適化を用いる。いくつかの実施形態によって用いられるブロック座標降下は、全てのブロックをまとめて更新する(バッチ更新)のではなく、一度に変数の1つ又は少数のブロックのみを更新する。例えば、1つの実施形態では、ブロック座標降下は、変数のセットを反復して決定すると同時に、反復ごとに、ブロック座標降下は、変数のセットから或る変数を更新する一方で、そのセット内の他の変数を固定する。BCD実施態様のいくつかの例が、以下で提供される。
いくつかの実施形態は、ティホノフ正則化が、ネットワーク重みのみではなく、ネットワークアーキテクチャ、例えば、ノード/層の数及び異なる層同士の間の接続性も符号化する行列を定義するという理解に基づいている。この符号化は、本質的には多対1マッピングであり、すなわち、ネットワークの或るアーキテクチャを所与とすると、その適用例についての最適な行列は一意である。数学的に、この行列は、対称であるとともに接続されている(すなわち、行列内の非0のエントリの任意のペアの間に少なくとも1つの経路が存在する)という幾何制約を満たす。
図4は、1つの実施形態による、DNNと、ティホノフ正則化項によって定義される行列との間のマッピングの一例を示している。ネットワーク内で、各全結合層420は、学習された重みに関連付けられており、情報を直前の(隠れ)層430から次の層に伝播する。隣接していない2つの層のために、情報を、一切変化させることなく直接伝播することを可能にするスキップ層410が存在する。対応する正方行列
Figure 0006877623
440は、ネットワーク内のノードの総数の正方形サイズを有して構築される。この行列は、入力層におけるノードの数に出力層におけるノードの数を乗算した数(又は逆順で乗算した数)に等しいサイズのブロック450に更に分割することができる。例えば、スキップ層410の場合、隠れ層415が入力層であるとともに隠れ層430が出力層であり、これらの対応するブロック460を、定数α1,3に単位行列Iを乗算したものとして記述することができる。
いくつかの実施形態は、そのようなマップが、実際に、ネットワークアーキテクチャと行列との間の多対1マッピングであるという観察に基づいている。これは、(学習された)重みを有するネットワークアーキテクチャを所与とすると、その対応する半正定値行列は一意であることを意味する。しかしながら他方で、半正定値行列を所与とすると、ネットワークのパラメータが非常に多数であることに起因して、多くのネットワークが生成され得る。
図5Aは、いくつかの実施形態による、制約を条件とするニューラルネットワークをトレーニングする方法の図を示している。トレーニングデータ510を所与とした適用例の場合、ネットワークは、層の数及びノードの数等の、ニューラルネットワークのアーキテクチャを規定するアーキテクチャ制約520を用いて学習することができる。付加的に、又は代替的に、ネットワークに対して、ネットワークの層に対する、対称であるとともに接続されているという幾何制約等のアーキテクチャ制約を課すことができる。これらのアーキテクチャ制約は、二層最適化ソルバー530によって用いられ、トレーニングされたネットワークへの「最適」Q行列がもたらされる。Q行列を与えられると、いくつかの実施形態は、重み540、及び、必要な場合にはネットワークのアーキテクチャ550を復元することができる。これは、二次制約付き二次計画(QCQP:quadratic constrained quadratic programs)を解くことによって行うことができる。なぜならば、対称性制約及び接続性制約の双方を二次項として定式化することができ、ここでの目的は、学習された行列と復元された行列との間の最小二乗損失とすることができるためである。
図5Bは、1つの実施形態による、二層最適化を解く方法599のブロック図を示している。この方法は、第2の層における目的関数を第1の層における目的関数に加算し、第2の層における制約を第1の層における制約と組み合わせることによって二層最適化555を単一層最適化565に変換する(560)。方法は、単一層最適化問題において変数置換を実行して、ニューラルネットワークのアーキテクチャ及びパラメータを表す行列を含む、正則化項を有するティホノフ正則化問題575を生成し(570)、このティホノフ正則化問題を、ブロック座標降下を用いて解く(580)。
いくつかの実施態様では、方法599は、ニューラルネットワークのアーキテクチャを示すアーキテクチャ制約を受信し、このアーキテクチャ制約を条件としてティホノフ正則化問題を解く。アーキテクチャ制約は、所定のものとすることができ、及び/又は、入力インターフェースを介して受信することができる。例えば、1つの実施形態は、正則化項をニューラルネットワークの層の数に初期化し、行列のブロックに対する接続性制約及び対称性制約を条件としてティホノフ正則化問題を解く。この実施形態は、入力インターフェースを通じて受信されたアーキテクチャ制約を更新することができる。例えば、ニューラルネットワークの層の数を、入力インターフェースを通じて、例えばネットワーク190を通じて受信することができる。
図6Aは、1つの実施形態による、ティホノフ正則化DNNをトレーニングするブロック座標降下法を示している。この実施形態は、交互最適化601を用いて緩和問題300を最小化し、交互最適化601は、この問題を、以下の3つの凸部分問題、すなわち、ティホノフ正則化逆問題610、学習された特徴を用いる分類620、及び最小二乗回帰630に分解する。3つの部分問題の全てを、これらの凸性に起因して効率的に解くことができる。実際に、逆部分問題は、従来の深層学習における勾配消失問題を軽減する。なぜならば、これらの部分問題は、ティホノフ行列を通じて互いに依存している、各隠れ層の出力特徴の推定解を得るためである。換言すれば、交互最適化は、入力データと出力ラベルとの間の情報を伝播する。
いくつかの実施形態は、交互最適化601が、緩和問題を解くための停留点への収束を保証することができないという認識に基づいている。したがって、いくつかの実施形態は、追加の二次項を各部分問題に加えることによって交互最適化601を改変し、追加の二次項を有する各部分問題を逐次的に解く。これらの追加項及び凸の組合せ規則が、改変された交互最適化の大域的収束を保証する。
図6Bは、1つの実施形態による、ティホノフ正則化DNNをトレーニングするために改変されたブロック座標降下の方法のブロック図を示している。図6Cは、図6Bの方法の例示の実施態様の擬似コードを示している。
この方法は、ティホノフ正則化DNNをトレーニングするために、緩和問題における全てのパラメータを初期化する(640)。例えば、方法は、全てのパラメータをランダムに初期化する(641)。次に、方法は、部分問題611、622、及び633を解いて、逐次的に変数
Figure 0006877623
615、V625、及び
Figure 0006877623
635を更新する。例えば、方法は、更新612を用いて変数
Figure 0006877623
を更新し、更新623を用いて変数Vを更新し、更新624を用いて変数
Figure 0006877623
を更新する。方法は、変数が収束するまで、すなわち終了条件が満たされるまで、反復される(650)。
図7は、いくつかの実施形態によって利用される原理に従ってトレーニングされた、画像分類についての一例示のニューラルネットワークの図を示している。ネットワークは、1つ以上の画像を入力710として取る入力層を含む。この入力層には、畳み込み層及びプーリング層のシーケンス750、760、770、780が後続する。畳み込み層は、自身の入力を畳み込み行列のセットを用いて畳み込む。各畳み込み行列は、特徴マップと多くの場合に呼ばれる異なる出力画像を計算するのに用いられる。畳み込み行列の要素は、トレーニング中に学習される。特徴マップにReLUが適用されて、新たな特徴マップが生成される。プーリング層は、自身の入力をサブサンプリングして、より小さな、サブサンプリングされた特徴マップを出力する。畳み込みニューラルネットワークは、任意の数の畳み込み層又はプーリング層を任意の順序で有することができる。畳み込みニューラルネットワークは、1つ以上の全結合層790、795で終了する場合が多い(常にではない)。全結合層のパラメータも、トレーニング中に学習される。
いくつかの実施形態では、畳み込みニューラルネットワークの最後から2番目の層は、特徴ベクトル730と多くの場合に呼ばれる1次元ベクトルである。いくつかの実施形態では、トレーニング中、畳み込みニューラルネットワークの最後の層740は、入力画像が異なるトレーニングクラスの各々に属する確率を示す複数の確率のベクトルである。この複数の確率のベクトルは、典型的には、計算される数のベクトルのソフトマックス関数を計算することによって、特徴ベクトルの異なる線形結合として生成される。顔認識ネットワークをトレーニングする場合、トレーニングクラスは、顔画像のトレーニングセット内のそれぞれ異なる同一人物のセットである。
いくつかの実施態様では、畳み込みニューラルネットワークは、ユーザーが定義した損失関数を最小化する二層最適化ソルバーを用いてトレーニングされる。例えば、顔認識ネットワークの場合、ユーザーが定義した損失関数は、ネットワークの出力確率と、トレーニング顔画像のグラウンドトゥルース確率との間のユークリッド距離とすることができる。
トレーニング中、最終出力ユニットO742について、O742に接続されるネットワークの最後の全結合層の重みは、人物iの画像についての特徴ベクトルを1にマッピングするとともに、他の全ての人々の画像についての特徴ベクトルを−1にマッピングするように試みる線形関数を学習する。これは、この最後の全結合層の重みが、人物iの画像と他の全ての人々の画像との間の分離超平面を規定することを意味する。これは、ネットワークによって学習される特徴ベクトルが、特定の同一人物の画像についての特徴ベクトルは他の全ての人物の特徴ベクトルとは線形的に分離可能であるという特性を有することも暗に意味している。これらの特徴ベクトルが、特定の同一人物についての特徴ベクトルが全て互いに近いという特性を有するとは限らない。試験中、学習された特徴は、顔検証等のそれぞれ異なる応用に用いることができる。
図8は、いくつかの実施形態による、画像処理応用及び/又はコンピュータビジョン応用のために構成された一例示のシステムのブロック図である。システム800は、カメラ810、慣性測定ユニット(IMU)830、プロセッサ850、メモリ860、送受信機870、及びディスプレイ/スクリーン880のうちの1つ又は組み合わせを備えることができる。これらは、接続820を通じて他の構成要素に動作的に結合することができる。接続820は、バス、ライン、ファイバ、リンク又はそれらの組み合わせを含むことができる。
送受信機870は、例えば、1つ以上のタイプの無線通信ネットワークを通じて1つ以上の信号を送信することを可能にする送信機と、1つ以上のタイプの無線通信ネットワークを通じて送信された1つ以上の信号を受信する受信機とを備えることができる。送受信機870は、様々な技術に基づいて無線ネットワークとの通信を可能にすることができる。これらの技術は、標準規格のIEEE802.11ファミリーに基づくことができるフェムトセル、Wi−Fiネットワーク又は無線ローカルエリアネットワーク(WLAN)、標準規格のIEEE802.15xファミリーに基づくBluetooth(登録商標)、近距離場通信(NFC)、ネットワーク等の無線パーソナルエリアネットワーク(WPAN)、及び/又はLTE、WiMAX等の無線ワイドエリアネットワーク(WWAN)等であるが、これらに限定されるものではない。システム800は、有線ネットワークを通じて通信するための1つ以上のポートを備えることもできる。
いくつかの実施形態では、システム800は、CCDセンサ若しくはCMOSセンサ、レーザ及び/又はカメラ等の画像センサ810を備えることができる。この画像センサは、以下では「センサ810」と呼ばれる。例えば、センサ810は、光画像を電子画像又はデジタル画像に変換することができ、取得された画像をプロセッサ850に送信することができる。付加的又は代替的に、センサ810は、シーン内のターゲット物体から反射された光を検知し、捕捉された光の強度をプロセッサ850にサブミットすることができる。
例えば、センサ810は、「カラー情報」を提供するカラーカメラ又はグレースケールカメラを含むことができる。「カラー情報」という用語は、本明細書において用いられるとき、カラー情報及び/又はグレースケール情報を指す。一般に、カラー画像又はカラー情報は、本明細書において用いられるとき、1〜N個のチャネルを含むものとみなすことができる。ここで、Nは、画像を記憶するのに用いられている色空間に依存する或る整数である。例えば、RGB画像は、3つのチャネルを含み、赤情報、青情報及び緑情報についてそれぞれ1つのチャネルを有する。
例えば、センサ810は、「深度情報」を提供する深度センサを含むことができる。深度情報は、深度センサを用いて様々な方法で取得することができる。「深度センサ」という用語は、深度情報を単独で及び/又は他のいくつかのカメラと併せて取得するのに用いることができる機能ユニットを指すのに用いられる。例えば、いくつかの実施形態では、深度センサ及び光カメラは、センサ810の一部分とすることができる。例えば、いくつかの実施形態では、センサ810はRGBDカメラを備える。このRGBDカメラは、カラー(RGB)画像に加えて、深度センサが有効にされているときはピクセルごとの深度(D)情報を捕捉することができる。
別の例として、いくつかの実施形態では、センサ810は、3D飛行時間(3DTOF)カメラを含むことができる。3DTOFカメラを用いた実施形態では、深度センサは、3DTOFカメラに結合されたストロボライトの形態を取ることができる。このストロボライトは、シーン内の物体を照明することができ、反射された光は、センサ810内のCCD/CMOSセンサが捕捉することができる。深度情報は、光パルスが物体に進んでセンサに戻って来るまでに要する時間を測定することによって取得することができる。
更なる例として、深度センサは、センサ810に結合された光源の形態を取ることができる。1つの実施形態では、この光源は、1つ以上の狭い光の帯を含むことができる構造化された光パターン又はテクスチャー付けされた光パターンをシーン内の物体に投射する。深度情報は、物体の表面形状によって引き起こされる投射パターンの幾何学的歪みを利用することによって取得される。1つの実施形態は、赤外線構造化光プロジェクタと、RGBカメラに位置合わせされた赤外線カメラとの組み合わせ等のステレオセンサから深度情報を求める。
いくつかの実施形態では、センサ810は立体カメラを備える。例えば、深度センサは、2つ以上のカメラを用いてシーンの深度情報を取得することができる受動ステレオビジョンセンサの一部分を成すことができる。捕捉されたシーンにおける双方のカメラに共通の点のピクセル座標を、カメラ姿勢情報及び/又は三角測量技法とともに用いて、ピクセルごとの深度情報を取得することができる。
いくつかの実施形態では、システム800は、デュアルフロントカメラ及び/又は前面カメラ及び背面カメラ等の複数のセンサ810に動作的に接続することができ、これらの複数のセンサは、様々なセンサを組み込むこともできる。いくつかの実施形態では、センサ810は、静止画像及びビデオ画像の双方を捕捉することができる。いくつかの実施形態では、センサ810は、例えば、30フレーム毎秒(fps)で画像を捕捉することが可能なRGBD又は立体ビデオカメラを備えることができる。1つの実施形態では、センサ810によって捕捉された画像は、生の未圧縮フォーマットとすることができ、処理及び/又はメモリ860への記憶の前に圧縮することができる。いくつかの実施形態では、画像圧縮は、プロセッサ850によって可逆圧縮技法又は非可逆圧縮技法を用いて実行することができる。
いくつかの実施形態では、プロセッサ850は、IMU830から入力を受信することもできる。他の実施形態では、IMU830は、3軸加速度計(複数の場合もある)、3軸ジャイロスコープ(複数の場合もある)、及び/又は磁気計(複数の場合もある)を備えることができる。IMU830は、速度、方位、及び/又は他の位置関連情報をプロセッサ850に提供することができる。いくつかの実施形態では、IMU830は、測定情報を、センサ810による各画像フレームの捕捉と同期して出力することができる。いくつかの実施形態では、IMU830の出力は、プロセッサ850がセンサ測定値を融合し及び/又は融合された測定値を更に処理するのに部分的に用いられる。
また、システム800は、カラー画像及び/又は深度画像等の画像をレンダリングするスクリーン又はディスプレイ880を備えることができる。いくつかの実施形態では、ディスプレイ880は、センサ810によって捕捉されたライブ画像、画像等の融合画像、拡張現実(AR)画像、グラフィカルユーザーインターフェース(GUI)、及び他のプログラム出力を表示するのに用いることができる。いくつかの実施形態では、ディスプレイ880は、ユーザーが、仮想キーボード、アイコン、メニュー、又は他のGUI、ユーザージェスチャー及び/又はスタイラス及び他の筆記用具等の入力デバイスの或る組み合わせを介してデータを入力することを可能にするタッチスクリーンを備えることができ及び/又はこのようなタッチスクリーンとともに収容することができる。いくつかの実施形態では、ディスプレイ880は、液晶ディスプレイ(LCD)又は有機LED(OLED)ディスプレイ等の発光ダイオード(LED)ディスプレイを用いて実施することができる。他の実施形態では、ディスプレイ880は、ウェアラブルディスプレイとすることができる。
いくつかの実施形態では、融合の結果をディスプレイ880にレンダリングすることもできるし、システム800の内部又は外部に存在することができる異なるアプリケーションにサブミットすることもできる。例えば、プロセッサ850上で動作するコンピュータビジョン(CV)アプリケーション855は、コンピュータビジョンベースの追跡方法、モデルベースの追跡方法、及び/又は同時ローカライゼーション/マッピング(SLAM)方法を実施及び実行することができる。CVアプリケーション855は、種々の実施形態に従ってトレーニングされたニューラルネットワークを用いて実施される。
例示的なシステム800は、図示した機能ブロックのうちの1つ以上の追加、組み合わせ、又は省略等によって、本開示と整合性を有するように様々な方法で変更することもできる。例えば、いくつかの構成では、システム800は、IMU830又は送受信機870を備えていない。さらに、いくつかの特定の例示の実施態様では、システム800は、周辺光センサ、マイクロフォン、音響センサ、超音波センサ、レーザーレンジファインダー等の様々な他のセンサ(図示せず)を備える。いくつかの実施形態では、システム800のいくつかの部分は、1つ以上のチップセット等の形態を取る。
プロセッサ850は、ハードウェア、ファームウェア及びソフトウェアの組み合わせを用いて実現することができる。プロセッサ850は、センサ融合及び/又は融合した測定値を更に処理する方法に関連付けられる計算手順又はプロセスの少なくとも一部を実行するように構成可能な1つ以上の回路を表すことができる。プロセッサ850は、メモリ860から命令及び/又はデータを引き出す。プロセッサ850は、1つ以上の特定用途向け集積回路(ASIC)、中央及び/又はグラフィカル処理ユニット(CPU及び/又はGPU)、デジタルシグナルプロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ、埋め込みプロセッサコア、電子デバイス、本明細書において記述される機能を実行するように設計された他の電子ユニット、又はその組み合わせを用いて実現することができる。
メモリ860は、プロセッサ850の内部に、及び/又はプロセッサ850の外部に実装することができる。本明細書において使用されるときに、「メモリ」という用語は、任意のタイプの長期、短期、揮発性、不揮発性又は他のメモリを指しており、任意の特定のタイプのメモリ若しくはメモリの数、又はメモリが記憶される物理媒体のタイプに制限されるべきではない。いくつかの実施形態では、メモリ860は、センサ融合及び/又は1つ以上の画像処理を容易にし、プロセッサ850上のCV855によって実行されるSLAM、追跡、3D再構成、及び他のタスクを実行するプログラムコードを保持する。
例えば、メモリ860は、静止画像、深度情報、ビデオフレーム、プログラム結果、並びにIMU830及び他のセンサによって提供されるデータ等のセンサの測定値を記憶することができる。一般に、メモリ860は、任意のデータ記憶機構を表すことができる。メモリ860は、例えば、一次メモリ及び/又は二次メモリを含むことができる。一次メモリは、例えば、ランダムアクセスメモリ、リードオンリーメモリ等を含むことができる。図8においてプロセッサ850とは別であるように示されるが、一次メモリの全て若しくは一部をプロセッサ850内に設けることができるか、又はそうでなくても、プロセッサ850と同一の場所に配置し、及び/又はプロセッサ850に結合することができることは理解されたい。
二次メモリは、例えば、一次メモリと同じ、又は類似のタイプのメモリ、及び/又は例えば、フラッシュ/USBメモリドライブ、メモリカードドライブ、ディスクドライブ、光ディスクドライブ、テープドライブ、ソリッドステートドライブ、ハイブリッドドライブ等の1つ以上のデータ記憶デバイス又はシステムを含むことができる。或る特定の実施態様において、二次メモリは、取外し可能な媒体ドライブ(図示せず)内の非一時的コンピュータ可読媒体に動作的に収容可能であるか、又は別の方法で、動作的に構成可能とすることができる。いくつかの実施形態において、非一時的コンピュータ可読媒体は、メモリ860及び/又はプロセッサ850の一部を形成する。
いくつかの実施形態では、CV855は、様々なコンピュータビジョン方法を実施し及び/又はセンサ810によって捕捉された画像を処理することができる。例えば、CV855は、センサ810によって捕捉された1つ以上の画像を処理して、これらの捕捉された画像に関連付けられた深度情報を用いてモデル化されている環境の再構成を実行するように構成することができる。
深度データに基づいて、再構成中、各ピクセルに3D座標を割り当てることができる。1つの実施形態では、プロセッサ850上のCV855は、単眼(単一カメラ)視覚SLAMシステムを用いて、カメラ810の正確でロバストな6DOF(Degrees Of Freedom)追跡のためのMS周辺の環境の粗いマップを作成することによってカメラ810の位置を追跡する。単眼という用語は、単一の非立体カメラを用いて画像を捕捉すること又は深度情報を伴わずに捕捉された画像を指す。その場合、他の再構成方法は、カメラ姿勢及びピクセルごとの深度情報を用いて、捕捉された画像(複数の場合もある)を視認方向に沿って押し出すことができる。例えば、1つの実施形態では、プロセッサ850は、融合された測定値組を用いてシーン内の物体を追跡するように構成されている。
本発明の上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピュータに設けられるのか又は複数のコンピュータ間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、1つ以上のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。
また、本発明の実施形態は、例が提供された方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で順序付けすることができる。したがって、動作が示したものと異なる順序で実行される実施形態を構築することができ、これには、例示の実施形態では一連の動作として示されたにもかかわらず、いくつかの動作を同時に実行することを含めることもできる。
請求項の要素を修飾する、特許請求の範囲における「第1」、「第2」等の序数の使用は、それ自体で、或る請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する或る請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims (20)

  1. 複数の隠れ層を含むニューラルネットワークへの入力、及び、前記ニューラルネットワークへの前記入力のラベルを受信する入力インターフェースと、
    前記ニューラルネットワークのパラメータを生成するのに、第1の層および第2の層で構成される二層に関する二層最適化を解くプロセッサであって、前記二層最適化は、前記第2の層の最適化を条件とする前記第1の層の最適化を含み、前記第1の層の前記最適化は、前記入力を処理する前記ニューラルネットワークの出力と、前記ニューラルネットワークへの前記入力の前記ラベルとの間の差を最小化し、前記第2の層の前記最適化は、前記入力と前記出力との間における前記複数の隠れ層内の各層の非負の出力ベクトルと、対応する各層への入力ベクトルとの間の距離を最小化し、前記複数の隠れ層内の目下の層の前記入力ベクトルは、前記複数の隠れ層内の前記目下の層の直前の層の前記非負の出力ベクトルの線形変換である、プロセッサと、
    前記ニューラルネットワークの前記パラメータを出力する出力インターフェースと、
    を備える、コンピュータベースシステム。
  2. 前記二層最適化を解くために、前記プロセッサは、
    前記第2の層における目的関数を前記第1の層における目的関数に加算し、前記第2の層における制約を前記第1の層における制約と組み合わせることによって前記二層最適化を単一層最適化問題に変換することと、
    前記単一層最適化問題を、交互最適化(AO)によって解くことと、
    を行うように構成される、請求項1に記載のシステム。
  3. 前記二層最適化を解くために、前記プロセッサは、
    前記第2の層における目的関数を前記第1の層における目的関数に加算し、前記第2の層における制約を前記第1の層における制約と組み合わせることによって前記二層最適化を単一層最適化問題に変換することと、
    前記単一層最適化問題において変数置換を実行して、前記ニューラルネットワークのアーキテクチャ及び前記パラメータを表す行列を含む、正則化項を有するティホノフ正則化問題を生成することと、
    前記ティホノフ正則化問題を、ブロック座標降下を用いて解くことと、
    を行うように構成される、請求項1に記載のシステム。
  4. 前記入力インターフェースは、前記ニューラルネットワークの前記アーキテクチャを示すアーキテクチャ制約を受信し、前記プロセッサは、前記アーキテクチャ制約を条件として前記ティホノフ正則化問題を解く、請求項3に記載のシステム。
  5. 前記プロセッサは、前記正則化項を前記ニューラルネットワークの層の数に初期化し、前記行列のブロックに対する接続性制約及び対称性制約を条件として前記ティホノフ正則化問題を解く、請求項3に記載のシステム。
  6. 前記入力インターフェースは、前記ニューラルネットワークの層の前記数を受信する、請求項5に記載のシステム。
  7. 前記二層最適化は、
    Figure 0006877623
    となるような
    Figure 0006877623
    であり、ここで、
    Figure 0006877623
    は、第iのトレーニングデータであり、y∈Yは、Yのセットからのラベルであり、
    Figure 0006877623
    は、前記ニューラルネットワークにおける第nの(1≦n≦N)隠れ層からのxについての出力ベクトルであり、
    Figure 0006877623
    は、第nの隠れ層と第mの隠れ層との間の重み行列であり、Mは、第nの隠れ層についてのインデックスセットであり、
    Figure 0006877623
    は、最後の隠れ層と前記ニューラルネットワークの出力層との間の重み行列であり、U、V、Wは、非空の閉凸セットであり、
    Figure 0006877623
    であり、l(・,・)は、凸損失関数である、請求項1に記載のシステム。
  8. 前記二層最適化を解くために、前記プロセッサは、
    Figure 0006877623
    となるような
    Figure 0006877623
    に従って、前記二層最適化の問題をティホノフ正則化問題に変換することであって、γ≧0、∀nは、事前定義された正則化定数であることと、
    u項及びγ項を行列Qに配置することによって変数置換を実行して、ティホノフ正則化目的関数を、
    Figure 0006877623
    として定式化することであって、u、∀iは、
    Figure 0006877623
    となるような、隠れ出力と、前記ニューラルネットワークへの前記入力との連結ベクトルを示し、Pは、Pu=ui,N、∀iとなるような、事前定義された定数行列であり、
    Figure 0006877623
    は、前記重み行列セット
    Figure 0006877623
    によって構築された行列であることと、
    前記ティホノフ正則化問題を、ブロック座標降下を用いて解くことと、
    を行うように構成される、請求項7に記載のシステム。
  9. 前記ブロック座標降下を用いる前記プロセッサは、変数のセットを反復して決定し、反復ごとに、前記ブロック座標降下は、前記変数のセットから或る変数を更新する一方で、前記セット内の他の変数を固定する、請求項8に記載のシステム。
  10. 前記ニューラルネットワークを用いてコンピュータベースアプリケーションを実行するアプリケーションインターフェース、
    を更に備える、請求項1に記載のシステム。
  11. コンピュータベース方法であって、この方法は、前記方法を実施する記憶された命令に結合されたプロセッサを使用し、前記命令は、前記プロセッサによって実行されると、前記方法の少なくともいくつかのステップを実行し、前記方法は、
    複数の隠れ層を含むニューラルネットワークへの入力のグラウンドトゥルースラベルを受信することと、
    前記ニューラルネットワークへの前記入力を処理する前記ニューラルネットワークの出力と、前記ニューラルネットワークへの前記入力の前記グラウンドトゥルースラベルとの間の差を最小化する二層最適化問題を解いて、前記ニューラルネットワークのパラメータを生成することであって、第1の層および第2の層で構成される二層に関する前記二層最適化問題は、前記第2の層の最適化を条件とする前記第1の層の最適化を含み、前記第1の層の前記最適化は、前記入力を処理する前記ニューラルネットワークの出力と、前記ニューラルネットワークへの前記入力の前記グラウンドトゥルースラベルとの間の差を最小化し、前記第2の層の前記最適化は、前記入力と前記出力との間における前記複数の隠れ層内の各層の非負の出力ベクトルと、対応する各層への入力ベクトルとの間の距離を最小化し、前記複数の隠れ層内の目下の層の前記入力ベクトルは、前記複数の隠れ層内の前記目下の層の直前の層の前記非負の出力ベクトルの線形変換であることと、
    前記ニューラルネットワークの前記パラメータを出力することと、
    を含む、方法。
  12. 前記解くことは、
    前記第2の層における目的関数を前記第1の層における目的関数に加算し、前記第2の層における制約を前記第1の層における制約と組み合わせることによって前記二層最適化問題を単一層最適化問題に変換することと、
    前記単一層最適化問題を、交互最適化(AO)によって解くことと、
    を含む、請求項11に記載の方法。
  13. 前記第2の層における目的関数を前記第1の層における目的関数に加算し、前記第2の層における制約を前記第1の層における制約と組み合わせることによって前記二層最適化問題を単一層最適化問題に変換することと、
    前記単一層最適化問題において変数置換を実行して、前記ニューラルネットワークのアーキテクチャ及び前記パラメータを表す行列を含む、正則化項を有するティホノフ正則化問題を生成することと、
    前記ティホノフ正則化問題を、ブロック座標降下を用いて解くことと、
    を更に含む、請求項11に記載の方法。
  14. 前記ニューラルネットワークの前記アーキテクチャを示すアーキテクチャ制約を受信することと、
    前記アーキテクチャ制約を条件として前記ティホノフ正則化問題を解くことと、
    を更に含む、請求項13に記載の方法。
  15. 前記正則化項を前記ニューラルネットワークの層の数に初期化することと、
    前記行列のブロックに対する接続性制約及び対称性制約を条件として前記ティホノフ正則化問題を解くことと、
    を更に含む、請求項13に記載の方法。
  16. 前記ニューラルネットワークの層の前記数を受信すること、
    を更に含む、請求項15に記載の方法。
  17. 前記二層最適化問題は、
    Figure 0006877623
    となるような
    Figure 0006877623
    であり、ここで、
    Figure 0006877623
    は、第iのトレーニングデータであり、y∈Yは、Yのセットからのラベルであり、
    Figure 0006877623
    は、前記ニューラルネットワークにおける第nの(1≦n≦N)隠れ層からのxについての出力ベクトルであり、
    Figure 0006877623
    は、第nの隠れ層と第mの隠れ層との間の重み行列であり、Mは、第nの隠れ層についてのインデックスセットであり、
    Figure 0006877623
    は、最後の隠れ層と前記ニューラルネットワークの出力層との間の重み行列であり、U、V、Wは、非空の閉凸セットであり、
    Figure 0006877623
    であり、l(・,・)は、凸損失関数である、請求項11に記載の方法。
  18. Figure 0006877623
    となるような
    Figure 0006877623
    に従って、前記二層最適化問題をティホノフ正則化問題に変換することであって、γ≧0、∀nは、事前定義された正則化定数であることと、
    u項及びγ項を行列Qに配置することによって変数置換を実行して、ティホノフ正則化目的関数を、
    Figure 0006877623
    として定式化することであって、u、∀iは、
    Figure 0006877623
    となるような、隠れ出力と、前記ニューラルネットワークへの前記入力との連結ベクトルを示し、Pは、Pu=ui,N、∀iとなるような、事前定義された定数行列であり、
    Figure 0006877623
    は、前記重み行列セット
    Figure 0006877623
    によって構築された行列であることと、
    前記ティホノフ正則化問題を、ブロック座標降下を用いて解くことと、
    を更に含む、請求項17に記載の方法。
  19. 前記ブロック座標降下を用いて前記解くことは、変数のセットを反復して解き、反復ごとに、前記ブロック座標降下は、前記変数のセットから或る変数を更新する一方で、前記セット内の他の変数を固定し、それにより、前記ブロック座標降下は、大域的に収束することが保証されるとともに、前記二層最適化問題のパラメータの空間における臨界点である解を返すようになっている、請求項18に記載の方法。
  20. 方法を実行するためにプロセッサによって実行可能なプログラムが具現化された非一時的コンピュータ可読ストレージ媒体であって、前記方法は、
    複数の隠れ層を含むニューラルネットワークへの入力のグラウンドトゥルースラベルを受信することと、
    前記ニューラルネットワークへの前記入力を処理する前記ニューラルネットワークの出力と、前記ニューラルネットワークへの前記入力の前記グラウンドトゥルースラベルとの間の差を最小化する二層最適化問題を解いて、前記ニューラルネットワークのパラメータを生成することであって、第1の層および第2の層で構成される二層に関する前記二層最適化問題は、前記第2の層の最適化を条件とする前記第1の層の最適化を含み、前記第1の層の前記最適化は、前記入力を処理する前記ニューラルネットワークの出力と、前記ニューラルネットワークへの前記入力の前記グラウンドトゥルースラベルとの間の差を最小化し、前記第2の層の前記最適化は、前記入力と前記出力との間における前記複数の隠れ層内の各層の非負の出力ベクトルと、対応する各層への入力ベクトルとの間の距離を最小化し、前記複数の隠れ層内の目下の層の前記入力ベクトルは、前記複数の隠れ層内の前記目下の層の直前の層の前記非負の出力ベクトルの線形変換であることと、
    前記ニューラルネットワークの前記パラメータを出力することと、
    を含む、非一時的コンピュータ可読ストレージ媒体。
JP2020500663A 2017-11-16 2018-05-21 コンピュータベースシステム及びコンピュータベース方法 Active JP6877623B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/814,568 2017-11-16
US15/814,568 US11170301B2 (en) 2017-11-16 2017-11-16 Machine learning via double layer optimization
PCT/JP2018/020251 WO2019097749A1 (en) 2017-11-16 2018-05-21 Computer-based system and computer-based method

Publications (2)

Publication Number Publication Date
JP2020526834A JP2020526834A (ja) 2020-08-31
JP6877623B2 true JP6877623B2 (ja) 2021-05-26

Family

ID=62751495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020500663A Active JP6877623B2 (ja) 2017-11-16 2018-05-21 コンピュータベースシステム及びコンピュータベース方法

Country Status (3)

Country Link
US (1) US11170301B2 (ja)
JP (1) JP6877623B2 (ja)
WO (1) WO2019097749A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776856B2 (en) 2018-01-25 2020-09-15 Kraft Foods Group Brands Llc Method and system for improving food-related personalization
US10720235B2 (en) * 2018-01-25 2020-07-21 Kraft Foods Group Brands Llc Method and system for preference-driven food personalization
JP6806107B2 (ja) * 2018-03-20 2021-01-06 日本電気株式会社 障害物認識支援装置、障害物認識支援方法、プログラム
CN108921874B (zh) * 2018-07-04 2020-12-29 百度在线网络技术(北京)有限公司 人体跟踪处理方法、装置及系统
WO2020049565A1 (en) 2018-09-05 2020-03-12 De-Identification Ltd. System and method for performing identity authentication based on de-identified data
EP3671660A1 (en) * 2018-12-20 2020-06-24 Dassault Systèmes Designing a 3d modeled object via user-interaction
US11301718B2 (en) * 2018-12-28 2022-04-12 Vizit Labs, Inc. Systems, methods, and storage media for training a machine learning model
US10467504B1 (en) 2019-02-08 2019-11-05 Adhark, Inc. Systems, methods, and storage media for evaluating digital images
US11531840B2 (en) * 2019-02-08 2022-12-20 Vizit Labs, Inc. Systems, methods, and storage media for training a model for image evaluation
US10992331B2 (en) * 2019-05-15 2021-04-27 Huawei Technologies Co., Ltd. Systems and methods for signaling for AI use by mobile stations in wireless networks
CN110348359B (zh) * 2019-07-04 2022-01-04 北京航空航天大学 手部姿态追踪的方法、装置及系统
US11144818B2 (en) * 2019-07-05 2021-10-12 Toyota Research Institute, Inc. Network architecture for ego-motion estimation
US11430564B2 (en) * 2019-11-27 2022-08-30 Shanghai United Imaging Intelligence Co., Ltd. Personalized patient positioning, verification and treatment
EP3998460B1 (de) * 2019-12-16 2023-01-25 Sick Ag Gebervorrichtung und verfahren zur bestimmung einer kinematischen grösse
CN110874828B (zh) * 2020-01-20 2020-04-21 上海尽星生物科技有限责任公司 神经网络模型及基于神经网络模型的超声波束形成方法
CN111460958B (zh) * 2020-03-26 2023-05-05 暗物智能科技(广州)有限公司 一种物体检测器构建、物体检测方法及系统
CN113673666B (zh) * 2020-05-13 2023-05-23 北京君正集成电路股份有限公司 一种基于宠物检测的二层标注的网络结构的设计方法
US11461948B2 (en) 2020-07-15 2022-10-04 De-Identification Ltd. System and method for voice driven lip syncing and head reenactment
US11276214B2 (en) * 2020-07-15 2022-03-15 De-Ideniification Ltd. System and a method for artificial neural-network based animation
US11436781B2 (en) 2020-07-15 2022-09-06 De-Identification Ltd. System and method for artificial neural-network based animation with three-dimensional rendering
CN112215849B (zh) * 2020-10-31 2023-07-07 郑州航空工业管理学院 一种基于色彩空间的图像无监督分割优化方法
CN114157544B (zh) * 2021-12-07 2023-04-07 中南大学 基于卷积神经网络的帧同步方法、设备及介质
GB2622423A (en) * 2022-09-16 2024-03-20 Continental Automotive Tech Gmbh System and apparatus suitable for utilization of neural network based approach in association with algorithm optimization, and a processing method

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725329B2 (en) * 2004-04-27 2010-05-25 Humana Inc. System and method for automatic generation of a hierarchical tree network and the use of two complementary learning algorithms, optimized for each leaf of the hierarchical tree network
US8977579B2 (en) * 2011-10-11 2015-03-10 Nec Laboratories America, Inc. Latent factor dependency structure determination
US20140006471A1 (en) 2012-06-27 2014-01-02 Horia Margarit Dynamic asynchronous modular feed-forward architecture, system, and method
US9058303B2 (en) * 2012-11-30 2015-06-16 Xerox Corporation Convex collective matrix factorization
US9730643B2 (en) 2013-10-17 2017-08-15 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US9582753B2 (en) * 2014-07-30 2017-02-28 Mitsubishi Electric Research Laboratories, Inc. Neural networks for transforming signals
CN107112005A (zh) * 2015-04-17 2017-08-29 微软技术许可有限责任公司 深度神经支持向量机
US9633306B2 (en) 2015-05-07 2017-04-25 Siemens Healthcare Gmbh Method and system for approximating deep neural networks for anatomical object detection
US9633250B2 (en) * 2015-09-21 2017-04-25 Mitsubishi Electric Research Laboratories, Inc. Method for estimating locations of facial landmarks in an image of a face using globally aligned regression
US10664744B2 (en) 2015-10-13 2020-05-26 Facebook, Inc. End-to-end memory networks
WO2017192629A1 (en) * 2016-05-02 2017-11-09 The Regents Of The University Of California System and method for estimating perfusion parameters using medical imaging
WO2018098230A1 (en) * 2016-11-22 2018-05-31 Massachusetts Institute Of Technology Systems and methods for training neural networks
US10685285B2 (en) * 2016-11-23 2020-06-16 Microsoft Technology Licensing, Llc Mirror deep neural networks that regularize to linear networks
CN107147995B (zh) 2016-12-20 2020-11-20 金陵科技学院 基于Tikhonov规则化的无线定位方法
CN106782511A (zh) 2016-12-22 2017-05-31 太原理工大学 修正线性深度自编码网络语音识别方法
US10521691B2 (en) * 2017-03-31 2019-12-31 Ebay Inc. Saliency-based object counting and localization

Also Published As

Publication number Publication date
JP2020526834A (ja) 2020-08-31
WO2019097749A1 (en) 2019-05-23
US20190147340A1 (en) 2019-05-16
US11170301B2 (en) 2021-11-09

Similar Documents

Publication Publication Date Title
JP6877623B2 (ja) コンピュータベースシステム及びコンピュータベース方法
US12087077B2 (en) Determining associations between objects and persons using machine learning models
CN113168541B (zh) 用于成像系统的深度学习推理系统和方法
EP3755204B1 (en) Eye tracking method and system
US20220392234A1 (en) Training neural networks for vehicle re-identification
US10861225B2 (en) Neural network processing for multi-object 3D modeling
JP6862584B2 (ja) 画像処理システム及び画像処理方法
US20190392587A1 (en) System for predicting articulated object feature location
He et al. Ra-depth: Resolution adaptive self-supervised monocular depth estimation
US20170351935A1 (en) Method and System for Generating Multimodal Digital Images
WO2022179587A1 (zh) 一种特征提取的方法以及装置
US11727576B2 (en) Object segmentation and feature tracking
US11417007B2 (en) Electronic apparatus and method for controlling thereof
US20210011288A1 (en) Systems and methods for distributing a neural network across multiple computing devices
JP7225731B2 (ja) 多変数データシーケンスの画像化
AU2018311661A1 (en) Method and apparatus for distributed edge learning
CN114641799A (zh) 对象检测设备、方法和系统
WO2019137915A1 (en) Generating input data for a convolutional neuronal network
CN116883961A (zh) 一种目标感知方法以及装置
Cereda et al. Improving the generalization capability of dnns for ultra-low power autonomous nano-uavs
US20210345955A1 (en) Portable real-time medical diagnostic device
US10796180B2 (en) Parallel image processing for multiple biometrics capture
RU2817534C1 (ru) Способ автоматического обнаружения объектов с использованием системы технического зрения, установленной на бвс
Whipps A LiDAR and Camera Based Convolutional Neural Network for the Real-Time Identification of Walking Terrain

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210330

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210427

R150 Certificate of patent or registration of utility model

Ref document number: 6877623

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE

Ref document number: 6877623

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250