JP7328993B2 - ニューラルネットワークの勾配型敵対的訓練 - Google Patents

ニューラルネットワークの勾配型敵対的訓練 Download PDF

Info

Publication number
JP7328993B2
JP7328993B2 JP2020563407A JP2020563407A JP7328993B2 JP 7328993 B2 JP7328993 B2 JP 7328993B2 JP 2020563407 A JP2020563407 A JP 2020563407A JP 2020563407 A JP2020563407 A JP 2020563407A JP 7328993 B2 JP7328993 B2 JP 7328993B2
Authority
JP
Japan
Prior art keywords
neural network
gradient
network
primary
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020563407A
Other languages
English (en)
Other versions
JP2021523468A (ja
JPWO2019222401A5 (ja
Inventor
アヤン トゥヒネンドゥ シンハ,
アンドリュー ラビノビッチ,
ジャオ チェン,
ヴィジャイ バドリナラヤナン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of JP2021523468A publication Critical patent/JP2021523468A/ja
Publication of JPWO2019222401A5 publication Critical patent/JPWO2019222401A5/ja
Application granted granted Critical
Publication of JP7328993B2 publication Critical patent/JP7328993B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Feedback Control In General (AREA)
  • Air Conditioning Control Device (AREA)

Description

(著作権表示)
本特許文書の開示の一部分は、著作権保護を受けるべき資料を含有する。本著作権所有者は、本特許文書または本特許開示を誰が複写しても、それが特許商標局の特許ファイルまたは記録に現れる通りである限りでは異議はないが、その他の場合には、いかなる著作権も全て保有する。
(関連出願の相互参照)
本願は、参照することによってその全体として本明細書に組み込まれる、2018年5月17日に出願され、「Gradient Adversarial Training of Neural Networks」と題された、米国特許出願第62/673,116号の優先権の利益を主張する。
(技術分野)
本開示は、概して、機械学習のためのシステムおよび方法に関し、より具体的には、ニューラルネットワークを訓練するためのシステムおよび方法に関する。
深層ニューラルネットワーク(DNN)は、算出機械学習方法である。DNNは、人工ニューラルネットワーク(NN)のクラスに属する。NNでは、生物学的神経網の特徴を模倣する、算出グラフが、構築される。生物学的神経網は、算出に顕著な特徴を含み、そうでなければ他の方法を通して捕捉することが困難であり得る、生物学系の能力の多くに関与する。いくつかの実装では、そのようなネットワークは、接続が一方向性である、シーケンシャル層化構造の中に配列される。例えば、特定の層の人工ニューロンの出力は、後続層の人工ニューロンの入力に接続されることができる。DNNは、多数の層(例えば、数十、数百、以上の層)を伴う、NNであり得る。
異なるNNは、異なる観点において相互に異なる。例えば、異なるNNのトポロジまたはアーキテクチャ(例えば、層の数および層が相互接続される方法)および加重は、異なり得る。加重は、生物学系における神経接続のシナプス強度にほぼ類似し得る。加重は、1つの層から別の層に伝搬される効果の強度に影響を及ぼす。人工ニューロンの出力は、その入力の加重和の非線形関数であり得る。NNの加重は、これらの総和に現れる、加重であり得る。
ニューラルネットワークの勾配型敵対的訓練のためのシステムおよび方法が、開示される。勾配型敵対的訓練の一側面では、補助ニューラルネットワークは、所望のタスク出力を提供する、主要ニューラルネットワーク内の逆伝搬の間に評価される、勾配テンソルを分類するように訓練されることができる。主要ニューラルネットワークは、標準的タスクベースの訓練プロシージャに加え、補助ネットワークに対する敵対者としての役割を果たすことができる。補助ニューラルネットワークは、敵対的勾配信号を主要ニューラルネットワークに返すことができ、これは、本信号を使用して、主要ニューラルネットワーク内の加重テンソルを正則化(regularize)することができる。ニューラルネットワークの勾配型敵対的訓練は、主要ネットワークにおいて改良された勾配テンソルを提供することができる。勾配型敵対的訓練技法は、マルチタスクネットワーク、知識蒸留ネットワーク、敵対的防御ネットワーク、または任意の他のタイプのニューラルネットワークを訓練するために使用されることができる。勾配型敵対的訓練技法は、コンピュータビジョンタスクのためのニューラルネットワークを訓練するために使用されることができ、そのような訓練は、拡張、複合、または仮想現実システムのために有利であり得る。
本発明は、例えば、以下を提供する。
(項目1)
ニューラルネットワークを訓練するためのシステムであって、前記システムは、
非一過性メモリであって、前記非一過性メモリは、
実行可能命令と、
タスクと関連付けられる出力を決定するように構成される主要ニューラルネットワークと、
前記主要ニューラルネットワークと関連付けられる勾配テンソルを訓練するように構成される補助ニューラルネットワークと
を記憶するように構成される、非一過性メモリと、
前記非一過性メモリと通信するハードウェアプロセッサであって、前記ハードウェアプロセッサは、前記実行可能命令によって、
前記主要ニューラルネットワークによって、前記主要ニューラルネットワークによって実施されるべき前記タスクと関連付けられる訓練データを受信することと、
逆伝搬の間、前記主要ニューラルネットワーク内で勾配テンソルを評価することと、
前記補助ニューラルネットワークによって、前記勾配テンソルを受信することと、
補助損失関数を使用して、前記補助ニューラルネットワークを訓練することと、
前記主要ニューラルネットワークに、前記補助ニューラルネットワークによって、敵対的勾配信号を提供することと、
少なくとも部分的に、前記勾配テンソルおよび前記敵対的勾配信号に基づいて、前記主要ニューラルネットワーク内の加重を更新することと、
訓練された主要ネットワークを出力することと
を行うようにプログラムされる、ハードウェアプロセッサと
を備える、システム。
(項目2)
前記訓練データは、画像を備え、前記タスクは、コンピュータビジョンタスクを備える、項目1に記載のシステム。
(項目3)
前記主要ニューラルネットワークは、マルチタスクネットワーク、知識蒸留ネットワーク、または敵対的防御ネットワークを備える、項目1に記載のシステム。
(項目4)
前記勾配テンソルを評価するために、前記ハードウェアプロセッサは、前記実行可能命令によって、前記主要ニューラルネットワークの各層内の加重テンソルに対する主要損失関数の勾配を評価するようにプログラムされる、項目1に記載のシステム。
(項目5)
前記主要ニューラルネットワークに、前記敵対的勾配信号を提供するために、前記ハードウェアプロセッサは、勾配反転を利用するようにプログラムされる、項目1に記載のシステム。
(項目6)
前記主要ニューラルネットワークに、前記敵対的勾配信号を提供するために、前記ハードウェアプロセッサは、少なくとも部分的に、前記主要ニューラルネットワークの先行層内の加重に基づいて、前記主要ニューラルネットワーク内の層のための信号を決定するようにプログラムされる、項目1に記載のシステム。
(項目7)
前記主要ニューラルネットワーク内の加重を更新するために、前記ハードウェアプロセッサは、少なくとも部分的に、前記敵対的勾配信号に基づいて、前記主要ニューラルネットワーク内の加重を正則化するようにプログラムされる、項目1に記載のシステム。
(項目8)
前記主要ニューラルネットワークは、マルチタスクネットワークを備え、前記タスクは、複数のタスクを備え、前記マルチタスクネットワークは、
共有エンコーダと、
前記複数のタスクからの個別のタスクと関連付けられる複数のタスク特有のデコーダと、
複数の勾配整合層(GAL)であって、前記複数のGALの各GALは、前記共有エンコーダの後かつ前記タスク特有のデコーダのうちの少なくとも1つの前に位置する、GALと
を備える、項目1に記載のシステム。
(項目9)
前記ハードウェアプロセッサは、前記補助ニューラルネットワークからの反転された勾配信号を使用して、前記複数のGALの各GALを訓練するようにプログラムされる、項目8に記載のシステム。
(項目10)
前記ハードウェアプロセッサは、前記複数のGALの各GALを訓練し、前記複数のタスク毎の前記勾配テンソルの統計的分布を区別不能にするようにプログラムされる、項目8に記載のシステム。
(項目11)
前記複数のGALは、前記マルチタスクネットワークにおける順推論の間にドロップされる、項目8に記載のシステム。
(項目12)
前記主要ニューラルネットワークは、生徒ネットワークおよび教師ネットワークを備える知識蒸留ネットワークを備え、前記補助損失関数は、(1)前記生徒ネットワークの勾配テンソルと、(2)前記教師ネットワークの勾配テンソルとを判別するように訓練可能なバイナリ分類子を備える、項目1に記載のシステム。
(項目13)
前記ハードウェアプロセッサは、前記補助ネットワークを訓練し、前記生徒ネットワークの勾配テンソルの統計的分布を前記教師ネットワークの勾配テンソルの統計的分布に類似させるようにプログラムされる、項目12に記載のシステム。
(項目14)
前記主要ニューラルネットワークは、画像を分析するように構成されるニューラルネットワークを備え、前記ハードウェアプロセッサは、前記主要ニューラルネットワークのクロスエントロピ損失が、少なくとも部分的に、前記補助ニューラルネットワークからの出力活性化に関して評価されるソフトマックス関数に基づいて修正される修正されたクロスエントロピ損失関数を利用するようにプログラムされる、項目1に記載のシステム。
(項目15)
前記主要ニューラルネットワークは、画像を分析するように構成されるニューラルネットワークを備え、前記ハードウェアプロセッサは、その勾配テンソルが一次クラスの勾配テンソルに類似する負のクラスに加重を追加するように構成される修正されたクロスエントロピ損失関数を利用するようにプログラムされる、項目1に記載のシステム。
(項目16)
タスクと関連付けられる出力を決定するように構成される主要ニューラルネットワークと、前記主要ニューラルネットワークと関連付けられる勾配テンソルを訓練するように構成される補助ニューラルネットワークとを備えるニューラルネットワークを訓練するための方法であって、前記方法は、
前記主要ニューラルネットワークによって、前記主要ニューラルネットワークによって実施されるべき前記タスクと関連付けられる訓練データを受信することと、
逆伝搬の間、前記主要ニューラルネットワーク内で勾配テンソルを評価することと、
前記補助ニューラルネットワークによって、前記勾配テンソルを受信することと、
補助損失関数を使用して、前記補助ニューラルネットワークを訓練することと、
前記主要ニューラルネットワークに、前記補助ニューラルネットワークによって、敵対的勾配信号を提供することと、
少なくとも部分的に、前記勾配テンソルおよび前記敵対的勾配信号に基づいて、前記主要ニューラルネットワーク内の加重を更新することと、
訓練された主要ネットワークを出力することと
を含む、方法。
(項目17)
前記訓練データは、画像を備え、前記タスクは、コンピュータビジョンタスクを備える、項目16に記載の方法。
(項目18)
前記主要ニューラルネットワークは、マルチタスクネットワーク、知識蒸留ネットワーク、または敵対的防御ネットワークを備える、項目16に記載の方法。
(項目19)
前記勾配テンソルを評価することは、前記主要ニューラルネットワークの各層内の加重テンソルに対する主要損失関数の勾配を評価することを含む、項目16に記載の方法。
(項目20)
前記敵対的勾配信号を前記主要ニューラルネットワークに提供することは、勾配反転を利用することを含む、項目16に記載の方法。
(項目21)
前記敵対的勾配信号を提供することは、少なくとも部分的に、前記主要ニューラルネットワークの先行層内の加重に基づいて、前記主要ニューラルネットワーク内の層のための信号を決定することを含む、項目16に記載の方法。
(項目22)
前記主要ニューラルネットワーク内の加重を更新することは、少なくとも部分的に、前記敵対的勾配信号に基づいて、前記主要ニューラルネットワーク内の加重を正則化することを含む、項目16に記載の方法。
(項目23)
頭部搭載型ディスプレイシステムであって、
非一過性メモリであって、前記非一過性メモリは、
実行可能命令と、
前記頭部搭載型ディスプレイシステムと関連付けられるタスク出力を決定するためのニューラルネットワークであって、前記ニューラルネットワークは、
前記ニューラルネットワークの逆伝搬の間に評価される勾配テンソルを受信し、敵対的勾配信号を生成するようにプログラムされる、補助ネットワーク
を使用して訓練され、
前記ニューラルネットワークの加重は、前記補助ネットワークからの前記敵対的勾配信号を使用して更新される、ニューラルネットワークと
を記憶するように構成される、非一過性メモリと、
ディスプレイと、
センサと、
前記非一過性メモリおよび前記ディスプレイと通信するハードウェアプロセッサであって、前記ハードウェアプロセッサは、前記実行可能命令によって、
前記センサによって捕捉されたセンサデータを受信することと、
前記ニューラルネットワークを使用して、入力としての前記センサデータを用いて、タスク出力を決定することと、
前記ディスプレイに、前記決定されたタスク出力に関連する情報を前記頭部搭載型ディスプレイシステムのユーザに示させることと
を行うようにプログラムされる、ハードウェアプロセッサと
を備える、システム。
(項目24)
前記センサは、外向きに向いたカメラを備え、前記タスクは、コンピュータビジョンタスクを備える、項目23に記載のシステム。
(項目25)
前記コンピュータビジョンタスクは、顔認識、視覚的検索、ジェスチャ識別、部屋レイアウト推定、直方体検出、意味論セグメント化、オブジェクト検出、照明検出、同時位置特定およびマッピング、または再位置特定のうちの1つ以上のものを備える、項目24に記載のシステム。
本明細書に説明される主題の1つ以上の実装の詳細は、付随の図面および以下の説明に記載される。他の特徴、側面、および利点が、説明、図面、および請求項から明白となるであろう。本概要または以下の詳細な説明のいずれも、本発明の主題の範囲を定義または限定することを主張するものではない。
図1Aは、主要ネットワークが、標準的逆伝搬を使用して訓練され、また、勾配反転を介して、補助ネットワークに対する敵対者として作用する、勾配型敵対的訓練の一般的方法論(GREAT)の実施例を図示する、ブロック図である。補助ネットワークは、逆伝搬の間に評価される、勾配テンソル上で訓練される。図1Aの左下および右下における(また、図1B-1Dにも示される)凡例は、ネットワーク内の異なる種類の情報フロー(左凡例110)および異なる種類のモジュール(右凡例112)を示す。
図1Bは、敵対的防御のためのGREAT方法の実施例を示す、ブロック図である。補助ネットワークは、入力としての勾配テンソルを用いて、主要ネットワークと同一分類を実施する。
図1Cは、知識蒸留のためのGREAT方法の実施例を示す、ブロック図である。補助ネットワークは、生徒および教師ネットワークからの勾配テンソル上でバイナリ分類を実施する。
図1Dは、マルチタスク学習のためのGREAT方法の実施例を示す、ブロック図である。補助ネットワークは、異なるタスクデコーダからの勾配テンソルを分類し、それらを勾配反転および明示的勾配整合層を通して整合させる。
図2は、勾配型敵対的クロスエントロピ損失(時として、GREACEとも称される)を使用して標的敵対的攻撃のために調整されるGREATの実施形態を示す、ブロック図である。図2の左下および右下における凡例は、ネットワーク内の異なる種類の情報フロー(左凡例210)および異なる種類のモジュール(右凡例212)を示す。
図3は、勾配正規化ネットワークを修正するためのGREATの実施形態を示す、ブロック図である。図3の左下および右下における凡例は、ネットワーク内の異なる種類の情報フロー(左凡例310)および異なる種類のモジュール(右凡例312)を示す。
図4は、GREATを使用してニューラルネットワークを訓練する例示的プロセスのフロー図である。
図5は、GREATを用いて訓練されたニューラルネットワークの実施形態を実装し得る、ウェアラブルディスプレイシステムの実施例を図式的に図示する。
図面全体を通して、参照番号は、参照される要素間の対応を示すために再使用され得る。図面は、本明細書に説明される例示的実施形態を図示するために提供され、本開示の範囲を限定することを意図するものではない。
概要
関数、アルゴリズム、システム、および同等物等のデータ関係およびパターンを表す、モデルは、入力を受け取り、何らかの点で入力に対応する、出力を生産し得る。例えば、モデルは、ニューラルネットワーク(NN)等の機械学習方法として実装されてもよい。実施例は、畳み込みニューラルネットワーク(CNN)または深層ニューラルネットワーク(DNN)を含む。深層学習は、タスク特有方法とは対照的に、学習データ表現の概念に基づく、より広い機械学習方法系の一部であって、拡張現実、複合現実、仮想現実、および機械知能のために有用な視聴覚算出問題を解決する際に優れた有望性を示す。機械学習では、畳み込みニューラルネットワーク(CNNまたはConvNet)は、深層フィードフォワード人工ニューラルネットワークのクラスを含むことができ、CNNは、視覚的画像を分析するために適用されることに成功している。機械学習方法は、眼画像セグメント化、眼追跡、画像分類、マルチタスク学習等を含む、広範な種々の問題に対するロバストかつ正確なソリューションを有効にし得る、方法系を含む。
1つのニューラルネットワークが複数の予測出力を生産する、深層マルチタスクネットワークは、そのシングルタスク対応物より高速かつ優れた性能をもたらし得るが、適切に訓練される必要がある。例えば、深層マルチタスクネットワークは、タスクを横断した共通点および差異を利用しながら、同時に、複数の学習タスクを解決するように訓練または教示されることができる。複数のタスクは、タスク間の共有表現を使用して、並行して学習されることができる。実施例として、マルチタスクニューラルネットワークは、個別のタスク特有の出力層を提供しながら、全てのタスク間の隠れ層を共有することができる(これは、時として、ハードパラメータ共有とも称される)。別のアプローチとして、各タスクは、その独自のパラメータを伴う、その独自のニューラルネットワークを有することができる。正則化制約が、タスク特有のネットワークの層を横断して使用され、パラメータを類似させることができる(これは、時として、ソフトパラメータ共有とも称される)。マルチタスクネットワークの訓練は、下記に説明される。マルチタスクネットワークは、拡張、複合、または仮想現実コンテキストにおいて使用されることができ、タスクは、例えば、身体姿勢(例えば、頭部姿勢)を決定する、ユーザによって行われるジェスチャ(例えば、手のジェスチャ)を決定するために画像を分析する等のコンピュータビジョンタスクを含むことができる。他のタスクは、回帰タスク、分類タスク、またはそれらの組み合わせを含むことができる。複数のタスクは、例えば、顔認識、視覚的検索、ジェスチャ識別または認識、意味論セグメント化、オブジェクト検出、部屋レイアウト推定、直方体検出、照明検出、同時位置特定およびマッピング、オブジェクトまたはアバタの再位置特定等の知覚タスク、または発話認識または自然言語処理等の発話処理タスク、またはそれらの組み合わせを備えることができる。
逆伝搬が、ニューラルネットワークの訓練において使用されることができる。逆伝搬は、ネットワーク内で使用される加重の計算のために使用される、勾配テンソルを計算するために使用されることができる。ある逆伝搬技法では、損失関数の勾配が、ネットワークの各層内の加重テンソルに対して評価され、加重は、学習ルールを使用して更新される。逆伝搬を使用して再帰的に評価される、勾配テンソルは、数百個の層を横断して、数百万個の加重パラメータを用いて、深層ネットワークを正常に訓練することができ、多くのタイプのニューラルネットワークを一般化することができる。逆伝搬を使用して訓練された深層ニューラルネットワークの一般化能力の数学的形式論は、分かりにくいままである。実際、本形式論の欠如は、特に、敵対的例に対するDNNのロバスト性、ドメイン適合、転移学習またはマルチタスク学習、モデル圧縮等、深層学習の新しい分野において革新する必要性を与えている。本明細書に説明されるように、逆伝搬の間に導出される勾配テンソルは、付加的手掛かりを既存または新しいドメイン内の学習に提供することができる。
補助深層学習フレームワークの実施例である、勾配型敵対的訓練(時として、本明細書では、GREATとも称される)は、異なる機械学習問題に適用可能である。勾配型敵対的訓練では、補助ネットワークは、勾配テンソルの原点を分類するように訓練されることができ、主要ネットワークは、標準的タスクベースの訓練プロシージャに加え、補助ネットワークに対する敵対者としての役割を果たすことができる。補助ニューラルネットワークが主要ニューラルネットワークの出力を改良するために使用される、いくつかの技法と対照的に、GREATのいくつかの実施形態では、補助ネットワークは、主要ネットワークの出力ではなく、主要ネットワークの勾配テンソルを改良するために使用される。
勾配型敵対的訓練の種々の実施形態は、有利なこととして、標的敵対的攻撃に対するニューラルネットワークのロバスト性を増加させることができる、ソフト標的と比較して知識を教師ネットワークから生徒ネットワークにより良好に蒸留することが可能であり得る、またはタスク特有損失関数から導出される勾配テンソルを整合させることによってマルチタスク学習を改良することができる。勾配型敵対的訓練は、訓練されたタスクの潜在的情報を明らかにすることができ、補助ネットワークと統合されると、多様な機械学習問題をサポートすることができる。
勾配型敵対的訓練の実施形態は、限定ではないが、(1)敵対的例に対する防御として、勾配型敵対的訓練は、勾配テンソルを分類し、それらをその対応する実施例のクラスに対して非依存型にさせることができ、(2)知識蒸留のために、生徒または教師ネットワークから導出される勾配テンソルのバイナリ分類が、実施され、生徒勾配テンソルを教師の勾配テンソルに模倣させるために使用されることができ、(3)マルチタスク学習のために、異なるタスク損失関数から導出される勾配テンソルは、分類され、統計的に区別不能にされることができることを含む、多くのシナリオにおいて適用されることができる。勾配型敵対的訓練は、敵対的攻撃に対するネットワークのロバスト性を増加させることができ、ソフト標的と比較して、知識を教師ネットワークから生徒ネットワークにより良好に蒸留することが可能であり得、タスク特有損失関数から導出される勾配テンソルを整合させることによって、マルチタスク学習をブーストさせることができる。勾配テンソルは、訓練されているタスクについての潜在的情報を含有し得、補助ネットワークを使用した敵対化を通して誘導されるとき、多様な機械学習問題をサポートすることができる。勾配型敵対的訓練は、訓練されているタスクについての本潜在的情報を明らかにすることができる。
種々の実施形態では、本明細書に開示される勾配型敵対的訓練方法は、コンピュータビジョン、自然言語処理、発話合成、交通予測等のドメイン特有の用途、一般的クロスドメイン用途、カリキュラム学習、マルチタスク学習、知識蒸留、または敵対的防御における用途を有する、ニューラルネットワークを訓練するために使用されることができる。GREATの実施形態は、拡張、複合、または仮想現実のために使用される、ニューラルネットワークを訓練するために適用されることができる(例えば、図5を参照して説明される拡張現実システム参照)。
例示的勾配型敵対的訓練方法
Jacobian Jと称される、入力または中間層に対するスカラー損失関数の勾配テンソルは、高度に有益または弁別的であり得る。逆伝搬の間に導出される勾配テンソルは、これらの新しいドメインにおける学習を補助するための付加的キューとしての役割を果たし得る。これは、パーセプトロンのための逆伝搬の方程式から得られる。
方程式(1a)および(1b)では、δは、勾配テンソルであって、lは、最終層であるLを伴う層であって、∇Cは、最終活性化後のニューラルネットワーク出力aに対する損失関数Cの勾配であって、σは、活性化関数であって、zは、a=σ’(z)を伴う層l後の出力であって、wは、加重行列であって、
は、Hadamard積である。方程式(1a)および(1b)から、任意の層における勾配テンソルは、損失関数および全ての続く加重行列の両方の関数であるということになる。勾配テンソルからの情報は、正則化のため、突極性マップを可視化するため、DNNを解釈するため、敵対的例を生成するため、および弱教師ありオブジェクト位置特定のために採用されることができる。現在のアプローチは、所望の定量的または定質的結果を達成するために、別個のステップにおいて勾配テンソルからの情報を使用し得る。そのような現在のアプローチとは異なり、本明細書に開示されるGREATのある実施形態は、敵対的プロセスを介して、訓練プロシージャの間、勾配テンソルを使用する。
GREATを基礎とするいくつかの実施形態では、利用される勾配テンソルは、ネットワークのタスクに敵対し得る。例えば、図1Aに示されるニューラルネットワーク100では、GREATの実施形態は、最初に、補助ネットワーク内の勾配テンソルを処理し、次いで、勾配反転プロシージャを介して、敵対的勾配信号を主要ネットワークに返すことによって、勾配テンソル内の欠測(missing)または曖昧(dark)情報をヌル化することを目標とする。本敵対的勾配信号は、主要ネットワーク内の加重テンソルを正則化することができる。数学的に、主要ネットワーク内を順方向にフローする敵対的勾配信号
は、以下のように表され得る。
これは、δと類似関数形態であるが、反対符号であって、検討される勾配テンソルの層までの先行加重行列によって影響される。ネットワークは、パラメータの数がデータ点の数を超えるとすぐに、完璧なサンプル表現力を有する傾向にあるため、補助ネットワークによって提供される正則化は、有利なこととして、性能に著しく影響を及ぼさずに、ロバスト性を改良することができる。
本明細書に開示されるものは、3つのシナリオ、すなわち、(1)敵対的例のためのニューラルネットワーク102(図1B参照)、(2)知識蒸留のためのニューラルネットワーク104(図1C参照)、および(3)マルチタスク学習のためのニューラルネットワーク106(図1D参照)における、勾配テンソル内に存在する曖昧情報の説明である。これらの3つのニューラルネットワーク102、104、106は、GREATの用途の例証であるように意図されるが、ニューラルネットワークを訓練するためのGREAT方法の範囲を限定するものではない。
画像を分析するように適合される、ニューラルネットワークのコンテキストでは、敵対的例は、正常画像に適用される、慎重に創出された摂動を含み、これは、通常、人間に知覚不能であるが、最先端深層学習モデルを著しく混乱させ得る。敵対的例生成に対する一般的ステップは、入力に対する目的関数の勾配の計算を含む。目的関数は、タスク損失関数またはそのより高度な導関数のいずれかであってもよい。本勾配テンソルは、オリジナル画像を擾乱させるように処理され、モデルは、摂動された画像を誤分類する。GREATの実施形態は、突極性マップを非有益にし、その結果、標的敵対的例に対するニューラルネットワークの感受性を軽減させる(図1B参照)。
知識蒸留の目的は、複雑かつ煩雑なDNN(教師ネットワーク)またはDNNのアンサンブルの予測挙動をはるかに単純なモデル(生徒ネットワーク)の中に圧縮することである。知識を生徒ネットワークに蒸留することは、通常の教師あり損失関数に加え、ロジットまたは教師ネットワークのクラスにわたるソフト分布を生徒ネットワークの出力に合致させることによって達成されることができる。図1Cに示されるように、GREATは、知識蒸留に対する相補的アプローチを提供し、GREAT方法は、出力分布に合致させる代わりに、補助ネットワークを使用して、生徒ネットワークの勾配テンソルを教師ネットワークに統計的に合致させる。
マルチタスク学習では、単一ネットワークが、複数の関連するが入力に関して異なるタスク出力を達成するために、エンドツーエンドで訓練されることができる。これは、共通エンコーダと、別個のタスク特有デコーダとを有することによって達成されることができる。完璧なマルチタスク学習シナリオでは、エンコーダ内の最後の共有層に対する個々のタスク損失関数の勾配テンソルは、エンコーダ内の全ての共有層をコヒーレントに訓練するように区別不能であり得る。図1Dに示されるように、マルチタスクニューラルネットワーク106の実施形態は、タスク特有の勾配テンソルが補助ネットワークによってほぼ区別不能であるように、逆方向パスで動作する、エンコーダとタスク特有のデコーダとの間の勾配整合層(GAL)を訓練することができる。
敵対的防御のためのGREATの実施例
図2は、GREATを介して訓練され、標的敵対的攻撃を軽減させ得る、ニューラルネットワーク200の実施形態を示す。標的敵対的攻撃は、非標的攻撃より悪意のあるものを含む。例えば、誤って解釈される速度制限標識の画像は、譲れの標識としての画像の解釈とは対照的に、深刻な事故を引き起こし得る。標的および非標的攻撃のロバスト性に関して、(1)勾配型敵対的訓練の実施形態と、(2)勾配型敵対的クロスエントロピ損失(時として、GREACEとも称される)の実施形態との二面防御が、敵対的攻撃に適用されることができる。勾配型敵対的クロスエントロピ損失は、2つのクラス間の勾配テンソルが容易に混乱されるとき、クロスエントロピ損失関数が敵対的となるように適合させる。例えば、補助ネットワークからの出力確率分布が、主要ネットワーク内のロジットに対する損失の勾配に追加され、その勾配テンソルが一次クラスに類似する、負のクラスを分離することに役立つことができる。
敵対的例に対する防御のための一般的目的は、以下である。
方程式(3)では、xは、入力であって、yは、出力であって、θは、ネットワークパラメータであって、Δは、そのp-ノルムがε未満であるように制約される、摂動テンソルであって、Jは、損失関数およびネットワークアーキテクチャを包摂する。非標的攻撃は、例えば、勾配の方向に移動させることによって、x+εf(∇J(θ,x,y))によって計算されることができ、fは、関数、通常、高速勾配符号法(FGSM)における符号関数である。標的攻撃は、例えば、勾配型降下法を使用して、
に関して、
によって計算されることができる。方程式(3)において一次Taylor級数近似を使用することは、以下の等価公式を提供する。
敵対的防御におけるいくつかの試みは、訓練点において||∇J(θ,x+Δ,y)||をローカルで最小限にすることに焦点を当てている。しかしながら、これは、それらの点の近くの損失表面の鋭的曲率につながり、一次近似に違反し得、これは、防御を非効果的にする。
代わりに、GREATプロシージャは、勾配テンソル内に存在するクラス特有の情報を除去することができる。形式上、訓練セット内の全N個のサンプルに関して、以下となる。
クラス特有の情報の不在下、単一ステップ標的攻撃は、摂動テンソルがクラス非依存型であるため困難である。しかしながら、敵対者は、マルチステップ攻撃をマウントする、または普遍的敵対的摂動を評価し得、これは、分類子を騙す場合がある。
故に、二次防御線として、勾配敵対的クロスエントロピ(GREACE)損失が、加えて、または代替として、使用され得る。GREACEは、逆方向の勾配の大きさ、故に、性質上、焦点損失に類似する、その勾配が一次クラスの勾配と容易に混乱される、クラスに割り当てられる損失に上方加重する。これは、その勾配が類似するクラスの観点から、分類子の高次元決定境界を分離することに役立ち得る。
例えば、GREACEは、クロスエントロピ損失関数を、その勾配テンソルが一次クラスのものに類似する負のクラスに加重を追加するように適合させることができる。加重は、主要ネットワークの残りを通して逆伝搬する前に、ソフトマックス活性化から逆方向にフローする、勾配テンソル内の負のクラスに追加されることができる(図2参照)。加重は、一次クラスと負のクラスの勾配テンソルの類似性を示す、補助ネットワークからのソフトマックス分布を使用して評価されることができる。本追加された加重は、勾配の観点からにもかかわらず、性質上、信頼度ペナルティおよび焦点損失に類似する、容易に混乱されるクラス間の高次元決定境界を分離することに役立ち得る。
数学的に、クロスエントロピ損失からの勾配テンソルは、以下のように修正される。
ここでは、
およびCは、それぞれ、GREACEおよびオリジナルクロスエントロピ関数であって、aおよびa´は、それぞれ、主要および補助ネットワークからの出力活性化であって、σは、ソフトマックス関数であって、βは、ペナルティパラメータであって、
は、オリジナルクラスyと等しくない全ての
に関するワンホット関数である。
勾配テンソルは、いくつかの実施形態では、補助ネットワークの中にパスされるべき勾配テンソルを評価するために、主要ネットワーク内のソフトマックス関数∇Cをパス後、マスクされる。これは、補助分類子が他のクラスからの勾配キューに紛らわされることを回避し得、主に、当該クラスに集中させる。他の実施形態では、マスクされない勾配テンソルが、使用されることができる。
いくつかの実施形態では、敵対的防御のための組み合わせられた目的は、以下となる。
式中、
は、GREACEを示し、Jは、標準的クロスエントロピを示し、
は、マスクされたクロスエントロピを示し、αは、補助ネットワークの損失のための加重パラメータである。
GREATおよびGREACEを使用した敵対的例に対する防御のための擬似コードの実施例は、表1に示される。
知識蒸留のためのGREATの実施例
GREATの実施形態は、知識蒸留のために適用されることができる。前述で説明されるように、生徒モデルおよび教師モデルの勾配分布を合致させることは、生徒の出力分布S(x)が教師の出力分布T(x)を模倣するように、ソフト出力分布に合致させるための相補的アプローチである。2つの関数が、平均値定理を使用して、ある間隔において等微分点を有するよう示され得、したがって、それらは、ある定数だけ異なる。これは、∇S(x)=∇T(x)である場合、T(x)-S(x)は、定数であることを含意する。本定数差は、真のラベル上での生徒モデルの教師あり訓練の間、学習されることができる。別の実施例として、GREATは、教師あり損失をともに最小限にし、∇S(x)=∇T(x)が存在する、生徒出力S(x)に関する解を提供することができる。
GREATは、従来的回帰ベースの損失に優る敵対的損失の成功のため、弁別子を使用して、勾配分布に合致させることができる。知識蒸留のためのGREAT実施形態は、勾配型敵対的ネットワーク訓練プロシージャと並列し得る。バイナリ分類子は、生徒および教師モデル勾配を弁別し、実際のおよび偽サンプルを区別する、弁別子に類似する。バイナリ分類子は、図1Cに示されるように、生徒および教師モデル勾配を弁別し、生徒モデルに、教師モデルに類似する勾配テンソル分布を生成させる。
いくつかの実施形態では、最適化されるべき目的は、以下となる。
方程式(8a)および(8b)では、関数fは、パラメータωを伴う、バイナリ分類子であって、sおよびtは、それぞれ、生徒および教師ネットワークからの勾配テンソルであって、Eは、期待値を示し、αは、損失平衡パラメータである。従来の蒸留に優る上記の公式の利点は、設定が難しくあり得る、ロジット分布を滑らかにするために温度パラメータが存在しないことである。しかしながら、GREAT方法は、バイナリ分類子を訓練し得、これは、生徒ネットワークを通した余剰逆方向パスに相当し得る。
GREATを使用した知識分布のための擬似コードの実施例は、表2に示される。
マルチタスク学習のためのGREATの実施例
図3は、勾配正規化ネットワークを修正するためにGREATを利用するニューラルネットワーク300の実施形態を示す、ブロック図である。ネットワーク300内の勾配正規化技法のうちのいくつかは、米国特許公開第2019/0130275号「Gradient Normalization Systems and Methods for Adaptive Loss Balancing in Deep Multitask Networks」(参照することによってその全体として本明細書に組み込まれる)説明されるものに類似してもよい。
図3に図示される実施形態では、(1)勾配は、等ノルムを有するために要求されないが、代わりに、類似統計的分布を有するために要求される。これは、勾配型敵対的ネットワーク設定における弁別子に類似する補助ネットワークによって達成されることができ、(2)タスク加重を割り当てる代わりに、余剰容量が、勾配整合層(GAL)の形態においてネットワークに追加される。これらの層は、共有エンコーダ後かつタスク特有のデコーダのそれぞれの前に設置されることができ、最後の共有特徴テンソルからバッチサイズを差し引いたものと同一寸法を有することができ、逆方向パスの間のみ、活性状態であり得る。N-タスクネットワークに関して、GAL内のN*チャネル*幅*深度パラメータが、他の技法におけるNタスク-加重パラメータをはるかに超えて、タスクのそれぞれから生じる勾配テンソルを適合させることに役立つ。いくつかの実施形態では、GALは、バッチサイズを差し引いた最後の共有特徴テンソルと同一寸法を有し、逆方向パスの間のみ活性状態であって、例えば、GALは、順推論の間、ドロップされる。GALは、補助ネットワークタスク分類子からの反転された勾配を使用して訓練されてもよい。
図3に示されるように、補助ネットワークは、各タスクから勾配テンソルを入力として受信し、タスクに従って、それらを分類する。分類の成功は、勾配テンソルが弁別的であることを含意し、これは、ひいては、勾配が整合されないため、共有エンコーダの訓練を妨害する。最悪の場合のシナリオでは、2つのタスクに関する勾配ベクトルフィールドが、対向方向を指し、学習が、共有エンコーダ内で生じない。GALは、全てのタスクからの勾配テンソルの要素毎スケーリングによって、不整合を軽減させる。これらの層は、補助ネットワークからの反転された勾配信号を使用して訓練され、例えば、GALは、勾配テンソルを区別不能にするように試みる。直感的に、GALは、補助分類子が、勾配テンソルを正常に弁別するようにプロンプトする、統計的不規則性を観察し、次いで、テンソルが、不規則性を除去する、または統計的分布を等化させるように適合させる。タスク損失は、整合層が、グローバル損失スケール整合ではなく、ローカル整合でタスク化されるように、初期損失によって正規化されることに留意されたい。補助ネットワークの分類層内のソフトマックス活性化関数は、勾配を暗示的に正規化する。GAL加重テンソル内の値は、値1で初期化されることができる。値は、収束するように訓練するために、正に制限されることができる。実験では、低学習レートは、GALテンソルの正値性を確実にすることが観察された。
マルチタスク学習のための全体的目的は、以下となる。
式中、Jは、正規化されたタスク損失を示し、J´は、N-クラスクロスエントロピ損失を示し、θ、θ´は、それぞれ、共有エンコーダおよび補助分類子内の学習可能パラメータであって、ω、γ、yは、それぞれ、タスクiのためのデコーダパラメータ、GALパラメータ、およびグラウンドトゥルースタスク出力であって、y´は、タスクラベルを表す。
GAL上でGREATを使用したマルチタスク学習のための擬似コードの実施例は、表3に示される。
結果
ドメイン毎のGREATプロシージャの実施形態の例示的結果が、ここで提示されるであろう。複数のデータセット上でのGREATの実施は、GREAT技法の汎用性を例証するために使用されるであろう。
敵対的防御のためのGREAT
GREAT技法が、CIFAR-10、MNISTデータセット、およびmini-ImageNetデータセットに適用された。mini-ImageNetデータセットは、200クラスを伴い、クラス毎に500個の訓練および50個の試験サンプルを伴う、オリジナルImageNetデータセットのサブセットである。全3つのデータセットに関して、ResNetアーキテクチャが、使用された。ResNetモデルは、GREAT訓練パラダイムにおいて、スキップ接続を伴わないモデルと比較して、より効果的であることが観察された。GREATでは、スキップ接続は、通常の逆方向パスにおいて勾配情報を伝搬し、補助分類子ネットワークからの反転された勾配を主要ネットワークを通して順方向伝搬することに役立ち得る。実験では、補助ネットワークは、主要ネットワークのより浅い層のバージョンであった。ADAM(ネットワーク加重を更新するために適応瞬間推定から導出される確率論的最適化のための方法)が、主要および補助ネットワークの両方を訓練するために、0.001の初期学習レートと併用され、学習レートマルチプライヤである、lrは、以下のように計算された。
式中、e、emaxは、それぞれ、現在のエポックおよび総エポック数である。補助損失加重パラメータαおよびペナルティパラメータβは、(1-lr)およびβmax(1-lr)のレートポリシに従い、例えば、それらは、初期訓練エポックの間、主要分類タスクに干渉しないように、最終値まで徐々に増加する。データセット毎にβmasの異なる値が、使用され、それぞれ、MNIST、CIFAR-10、およびmini-ImageNetのために、20、2、0.1に設定された。これらの値は、オリジナルサンプル上の試験正確度に悪影響を及ぼさずに、敵対的例を最適に防御する。正確なネットワークアーキテクチャおよび付加的パラメータは、付属において議論される。
GREAT方法が、高速勾配型標識方法(FGSM)および10回の反復にわたるその反復バージョン(iFGSM)を使用して、標的および非標的敵対的例に対して評価された。標的攻撃に関して、結果は、ランダム標的クラスおよび最悪(少なくとも確率)標的クラスに対して報告される。GREAT方法は、防御機構を伴わない、敵対的訓練および基本ネットワークと比較される。CIFAR-10に関して、結果は、現在の最先端防御である、高価なロバストな最適化プロシージャに対して報告される。
表4、5、および6は、GREATの実施形態が、全3つのデータセットにおいて、単一ステップ標的および非標的の敵対的例に対するロバスト性を改良することができる一方、GREACEは、単独で、反復標的例に対してロバストであることを実証する。GREACEは、強力な正則化子として作用し得、GREACEおよびGREATの組み合わせは、訓練セットへの過剰適合を防止し得る。GREATおよびGREACEの組み合わせは、全ての敵対的例に対してロバスト性を改良する。また、GREATおよびGREACEに関する突極性マップが、疎隔であって、主に、オブジェクト内で活性化され、故に、敵対的例を軽減することが見出された。
知識分布のためのGREAT
知識蒸留のためのGREATの潜在性が、CIFAR-10およびmini-ImageNetデータセット上で評価された。(a)教師モデルのために使用される全ての訓練例が生徒モデルを訓練するために使用されたシナリオと、(b)オリジナル訓練サンプルの5%のみが、生徒モデルを訓練するために使用されたシナリオとの2つのシナリオが、調査された。
CIFAR-10に関して、5-層CNNおよび事前訓練されたResNet-18ならびにResNet-18および事前訓練されたResNet-29-8が、生徒-教師の組み合わせとして使用された。mini-ImageNetに関して、ResNet-18および事前訓練されたResNet-152が、生徒-教師の組み合わせとして使用された。GREATが、クロスエントロピ損失上のみで訓練されたベースラインモデルおよびクロスエントロピおよび教師なしKullback-Leibler(KL)損失の組み合わせを使用して訓練された蒸留モデルに対して比較された。GREATは、疎隔訓練体系において、一貫して、ベースラインおよび蒸留より良好に性能を発揮し、勾配型敵対的信号によるより良好な正則化を示すことが見出された。GREATは、異なる生徒-教師の組み合わせを横断して稠密および疎隔訓練体系の両方のためにモデルをコヒーレントに蒸留することが可能であった。
マルチタスク学習のためのGREAT
GREATの実施形態が、入力が、雑音グレースケール画像であって、タスクが、(i)分類、(ii)彩色、(iii)縁検出、および(iv)雑音除去された再構成である、CIFAR-10と、タスクが、(i)深度推定、(ii)表面法線推定、および(iii)特徴点推定である、NYUv2データセットとの2つのデータセット上で、マルチタスク学習のために試験された。
GREAT結果が、等加重、勾配正規化、および不確実性ベースの加重のベースラインに対して比較された。全ての方法に関して、同一アーキテクチャ、すなわち、拡張畳み込みバックボーンおよびタスク特有のデコーダを伴うResNet-53が、使用された。表7は、CIFAR-10のマルチタスク学習に関する種々の結果を開示する(RMSEは、二乗平均平方根誤差)。表8は、NYUv2のマルチタスク学習に関する結果を開示する。GREATは、両データセット上において、勾配正規化より良好に性能を発揮することが分かる。不確実性加重は、自動エンコーディング等の容易なタスクにおいてはより良好に性能を発揮するが、GREATは、全てのタスクを横断して優れた性能を発揮する。
結果の概要
勾配型敵対的訓練のためのシステムおよび方法の実施例が、本明細書に説明された。これらの実施例は、限定ではないが、敵対的例に対する防御、知識蒸留、マルチタスク学習を含む、多様なシナリオにおける、GREATの可用性を実証する。GREATの実施形態は、(a)標的および非標的敵対的例の両方に対する強力な防御、(b)著しいパラメータ調整を伴わない異なる教師ネットワークからの容易な知識の蒸留、または(c)勾配整合層を調整することによるマルチタスク学習の補助のうちの1つ以上のものを提供することができる。
種々の実施形態では、GREATと相互依存する、GREACE以外の他の形態の損失関数が、使用されることができ、他の勾配型敵対的ネットワーク(GAN)技法(例えば、漸次的GAN)を使用した生徒ネットワークの漸次的訓練が、教師ネットワークからより良好に学習するために使用されることができ、GAL内の明示的パラメータは、例えば、ADAM内の加重パラメータ毎に、平均値および分散推定値を用いて行われるにつれて、直接、オプティマイザの中に吸収されることができる。敵対的勾配信号を主要ネットワークにパスする、GREATを基礎とする一般的アプローチ(例えば、図1Aに示されるニューラルネットワーク100参照)は、例えば、ドメイン敵対的訓練およびGAN内の弁別子等、本明細書に説明されるもの以外のドメインにも広く適用可能である。直接勾配テンソル評価が、効率のために合成勾配と置換されることができる。勾配分布を理解することは、逆伝搬を使用した深層ニューラルネットワークアーキテクチャの訓練の成功を統制する、下層機構を明らかにすることに役立ち得、勾配型敵対的訓練は、本方向に向けた一歩である。
ニューラルネットワークの勾配型敵対的訓練のためのプロセス
図4は、ニューラルネットワークの勾配型敵対的訓練の例示的プロセス400のフロー図である。プロセス400は、例えば、ローカル処理およびデータモジュール524または遠隔処理モジュール528(図5を参照して下記に説明されるであろう)等のハードウェアプロセッサによって実施されることができる。例示的プロセス400は、図1Aを参照して説明される、ニューラルネットワーク100を参照して説明されるであろう。ニューラルネットワーク100は、タスクを実施するように訓練される、主要ネットワークと、GREAT方法論を介して主要ネットワークの勾配テンソルを改良するために使用される、補助ネットワークとを含む。主要ネットワークは、敵対的防御ネットワーク、知識蒸留ネットワーク、マルチタスクネットワーク、または任意の他のタイプのニューラルネットワーク(DNN、CNN等)を含むことができる。拡張、複合、または仮想現実に関連する、種々の実施形態では、主要ネットワークは、例えば、ユーザの姿勢またはジェスチャの分類、顔または発話認識、オブジェクト検出、部屋レイアウト推定、直方体検出、位置特定およびマッピング等のコンピュータビジョンタスクを実施してもよい。主要ネットワークは、いくつかの実施形態では、知識蒸留または敵対的防御を実施してもよい。
プロセス400は、ブロック404から開始し、主要ニューラルネットワークは、主要ネットワークを訓練し、タスクを実施するために使用される、訓練データを受信する。上記に述べられたように、タスクは、コンピュータビジョンタスク、知識蒸留タスク等を含んでもよい。訓練データは、コンピュータビジョンタスクのための画像を含んでもよい。
ブロック408では、主要ネットワークが、訓練される。訓練は、主要ネットワーク内で使用される加重の計算のために使用される、勾配テンソルを計算するための逆伝搬を含むことができる。ある逆伝搬技法では、損失関数の勾配は、ネットワークの各層内の加重テンソルに対して評価され、加重は、学習ルールを使用して更新される。逆伝搬を使用して再帰的に評価される、勾配テンソルは、数百の層を横断して、数百万個の加重パラメータを用いて、深層ネットワークを正常に訓練することができ、多くの例を一般化することができる。逆伝搬の間、勾配テンソルは、方程式(1a)および(1b)を使用して、計算されることができる。
ブロック412では、補助ネットワークは、主要ネットワークにおいて逆伝搬の間に評価される勾配テンソルを受信する。ブロック416では、補助ネットワークは、補助損失関数を使用して訓練される。訓練は、上記に説明されるように、勾配テンソル内の欠測または曖昧情報をヌル化するために使用されることができる。補助ネットワークは、方程式(2)を介して、敵対的勾配信号を計算することができる。ブロック420では、補助ネットワークは、例えば、勾配反転プロシージャを介して、敵対的勾配信号を主要ネットワークに返す。
ブロック424では、主要ネットワーク内の加重は、少なくとも部分的に、勾配テンソルおよび補助ネットワークから受信された敵対的勾配信号に基づいて更新されることができる。例えば、敵対的勾配信号は、主要ネットワーク内の加重テンソルを正則化するために使用されることができる。ブロック428では、プロセス400は、GREATプロシージャを介して訓練された主要ネットワークを出力することができる。例えば、訓練されたネットワークは、図5を参照して説明されるウェアラブルディスプレイシステム500のローカル処理およびデータモジュール524によって記憶されることができる。
例示的NN層
深層ニューラルネットワーク(DNN)等のニューラルネットワーク(NN)の層は、線形または非線形変換をその入力に適用し、その出力を生成することができる。深層ニューラルネットワーク層は、正規化層、畳み込み層、ソフトサイン層、正規化線形層、連結層、プーリング層、再帰層、インセプション様層、または任意のそれらの組み合わせであることができる。正規化層は、例えば、L2正規化を用いて、その入力の明度を正規化し、その出力を生成することができる。正規化層は、例えば、相互に対して一度に複数の画像の明度を正規化し、複数の正規化された画像をその出力として生成することができる。明度を正規化するための方法の非限定的実施例は、ローカルコントラスト正規化(LCN)またはローカル応答正規化(LRN)を含む。ローカルコントラスト正規化は、平均値ゼロおよび分散1(または他の値の平均値および分散)を有するようにピクセル毎に画像のローカル領域を正規化することによって、画像のコントラストを非線形に正規化することができる。ローカル応答正規化は、平均値ゼロおよび分散1(または他の値の平均値および分散)を有するように、画像をローカル入力領域にわたって正規化することができる。正規化層は、訓練プロセスを加速させ得る。
畳み込み層は、その入力を畳み込み、その出力を生成する、カーネルのセットに適用されることができる。ソフトサイン層は、ソフトサイン関数をその入力に適用することができる。ソフトサイン関数(softsign(x))は、例えば、(x/(1+|x|))であることができる。ソフトサイン層は、要素毎の外れ値の影響を無視し得る。正規化線形層は、正規化線形層単位(ReLU)またはパラメータ化された正規化線形層単位(PReLU)であることができる。ReLU層は、ReLU関数をその入力に適用し、その出力を生成することができる。ReLU関数ReLU(x)は、例えば、max(0,x)であることができる。PReLU層は、PReLU関数をその入力に適用し、その出力を生成することができる。PReLU関数PReLU(x)は、例えば、x≧0の場合はx、およびx<0の場合はaxであることができる(aは、正の数である)。連結層は、その入力を連結し、その出力を生成することができる。例えば、連結層は、4つの5×5画像を連結し、1つの20×20画像を生成することができる。プーリング層は、その入力をダウンサンプリングし、その出力を生成する、プーリング関数を適用することができる。例えば、プーリング層は、20×20画像を10×10画像にダウンサンプリングすることができる。プーリング関数の非限定的実施例は、最大プーリング、平均プーリング、または最小プーリングを含む。
時間点tでは、再帰層は、隠蔽された状態s(t)を算出することができ、再帰接続は、時間tにおける隠蔽された状態s(t)を再帰層に後続時間点t+1における入力として提供することができる。再帰層は、時間tにおける隠蔽された状態s(t)に基づいて、時間t+1におけるその出力を算出することができる。例えば、再帰層は、ソフトサイン関数を時間tにおける隠蔽された状態s(t)に適用し、時間t+1におけるその出力を算出することができる。時間t+1における再帰層の隠蔽された状態は、その入力として、時間tにおける再帰層の隠蔽された状態s(t)を有する。再帰層は、例えば、ReLU関数をその入力に適用することによって、隠蔽された状態s(t+1)を算出することができる。インセプション様層は、正規化層、畳み込み層、ソフトサイン層、ReLU層およびPReLU層等の正規化線形層、連結層、プーリング層、または任意のそれらの組み合わせのうちの1つ以上のものを含むことができる。
NN内の層の数は、異なる実装では異なり得る。例えば、DNN内の層の数は、50、100、200、またはそれを上回り得る。深層ニューラルネットワーク層の入力タイプは、異なる実装では異なり得る。例えば、層は、いくつかの層の出力をその入力として受信することができる。層の入力は、5つの層の出力を含むことができる。別の実施例として、層の入力は、NNの層の1%を含むことができる。層の出力は、いくつかの層の入力であることができる。例えば、層の出力は、5つの層の入力として使用されることができる。別の実施例として、層の出力は、NNの層の1%の入力として使用されることができる。
層の入力サイズまたは出力サイズは、非常に大きくあることができる。層の入力サイズまたは出力サイズは、n×mであることができる(nは、入力または出力の幅を示し、mは、高さを示す)。例えば、nまたはmは、11、21、31、またはそれを上回り得る。層の入力または出力のチャネルサイズは、異なる実装では異なり得る。例えば、層の入力または出力のチャネルサイズは、4、16、32、64、128、またはそれを上回り得る。層のカーネルサイズは、異なる実装では異なり得る。例えば、カーネルサイズは、n×mであることができる(nは、カーネルの幅を示し、mは、高さを示す)。例えば、nまたはmは、5、7、9、またはそれを上回り得る。層のストライドサイズは、異なる実装では異なり得る。例えば、深層ニューラルネットワーク層のストライドサイズは、3、5、7、またはそれを上回り得る。
いくつかの実施形態では、NNは、NNの出力をともに算出する、複数のNNを指し得る。複数のNNの異なるNNは、異なるタスクに関して訓練されることができる。プロセッサ(例えば、図5を参照して説明されるローカルデータ処理モジュール524のプロセッサ)は、複数のNNのNNの出力を算出し、NNの出力を決定することができる。例えば、複数のNNのNNの出力は、尤度スコアを含むことができる。プロセッサは、複数のNNの異なるNNの出力の尤度スコアに基づいて、複数のNNを含む、NNの出力を決定することができる。
例示的ウェアラブルディスプレイシステム
いくつかの実施形態では、ユーザデバイスは、ウェアラブルディスプレイデバイスであり得る、またはウェアラブルディスプレイデバイス内に含まれることができ、これは、有利なこととして、より没入型の仮想現実(VR)、拡張現実(AR)、または複合現実(MR)体験を提供し得、デジタル的に再現された画像またはその一部が、それらが現実のように見える、または現実として知覚され得る様式で装着者に提示される。
理論によって限定されるわけではないが、人間の眼は、典型的には、奥行知覚を提供するために、有限数の深度平面を解釈し得ると考えられる。その結果、知覚される奥行の非常に真実味のあるシミュレーションが、これらの限定された数の深度平面のそれぞれに対応する画像の異なる表現を眼に提供することによって達成され得る。例えば、導波管のスタックを含有するディスプレイが、ユーザまたは視認者の眼の正面に位置付けられて装着されるように構成され得る。導波管のスタックは、複数の導波管を使用し、画像投入デバイス(例えば、1つ以上の光ファイバを介して画像情報を送る、多重化ディスプレイの離散ディスプレイまたは出力端)から、特定の導波管と関連付けられる深度平面に対応する特定の角度(および発散量)において視認者の眼に光を指向させることによって、3次元知覚を眼/脳に提供するために利用され得る。
いくつかの実施形態では、導波管の2つのスタック(視認者の眼毎に1つ)が、異なる画像を各眼に提供するために利用され得る。一実施例として、拡張現実場面は、AR技術の装着者が、人物、木、背景の建物、およびコンクリートプラットフォームを特徴とする現実世界の公園のような設定を見るようなものであり得る。これらのアイテムに加えて、AR技術の装着者はまた、自身が、現実世界プラットフォーム上に立つロボットの像およびマルハナバチの擬人化のように見える飛行する漫画的アバタキャラクタを、そのロボットの像およびマルハナバチが現実世界に存在していないにもかかわらず、「見ている」と知覚し得る。導波管のスタックは、入力画像に対応するライトフィールドを生成するために使用され得、いくつかの実装では、ウェアラブルディスプレイは、ウェアラブルライトフィールドディスプレイを備える。ライトフィールド画像を提供するためのウェアラブルディスプレイデバイスおよび導波管スタックの実施例が、米国特許公開第2015/0016777号(参照することによって、これが含有するあらゆるものに関してその全体として本明細書に組み込まれる)に説明されている。
図5は、VR、AR、またはMR体験をディスプレイシステム装着者または視認者504に提示するために使用され得る、ウェアラブルディスプレイシステム500の実施例を図示する。ウェアラブルディスプレイシステム500は、本明細書に説明される用途または実施形態のいずれかを実施するようにプログラムされてもよい(例えば、CNNの実行、入力アクティブ化マップまたはカーネルの値の並替、眼画像セグメント化、または眼追跡)。ディスプレイシステム500は、ディスプレイ508と、そのディスプレイ508の機能をサポートするための種々の機械的および電子的モジュールおよびシステムとを含む。ディスプレイ508は、ディスプレイシステム装着者または視認者504によって装着可能であって、ディスプレイ508を装着者504の眼の正面に位置付けるように構成される、フレーム512に結合されてもよい。ディスプレイ508は、ライトフィールドディスプレイであってもよい。いくつかの実施形態では、スピーカ516が、フレーム512に結合され、ユーザの外耳道に隣接して位置付けられる。いくつかの実施形態では、示されない別のスピーカが、ユーザの他方の外耳道に隣接して位置付けられ、ステレオ/調節可能音制御を提供する。ディスプレイシステム500は、装着者504の周囲の環境の画像(例えば、静止画像またはビデオ)を取得し得る、外向きに向いた結像システム544(例えば、1つ以上のカメラ)を含むことができる。外向きに向いた結像システム544によって取得される画像は、図4を参照して説明されるメタ学習方法400によって訓練されたニューラルネットワークの実施形態によって分析されることができる。例えば、環境の画像は、複数のコンピュータビジョンタスクのためにGREATを介して訓練されたマルチタスクネットワークによって分析されることができる。
いくつかの実装では、GREATを介して訓練された初期ニューラルネットワークは、ディスプレイシステム500によって実装される(例えば、ネットワークは、処理モジュール524または536によって実施される)。ユーザが、ディスプレイシステム500を利用するにつれて、システム500は、ユーザ特有のデータ(例えば、ユーザの環境の画像)を蓄積することができる。初期ニューラルネットワークは、ユーザ特有のデータを使用して、再訓練されることができ(例えば、GREATを使用して)、これは、有利なこととして、ニューラルネットワークを個人的特質およびユーザの環境にカスタマイズすることができる。再訓練は、クラウド(例えば、遠隔処理モジュール528)にオフロードされ、次いで、再訓練されたネットワークは、少なくとも部分的に、ローカルデータモジュール524内に記憶されることができる。他の場合では、再訓練は、例えば、ユーザがディスプレイシステム500をアクティブに使用していないときのダウンタイムの間、ローカルで(例えば、ローカル処理およびデータモジュール524を介して)実施されてもよい。
ディスプレイ508は、有線導線または無線コネクティビティ等によって、ローカルデータ処理モジュール524に動作可能に結合され520、これは、フレーム512に固定して取り付けられる、ユーザによって装着されるヘルメットまたは帽子に固定して取り付けられる、ヘッドホンに内蔵される、または別様にユーザ504に除去可能に取り付けられる(例えば、リュック式構成において、ベルト結合式構成において)等、種々の構成において搭載され得る。
ローカル処理およびデータモジュール524は、ハードウェアプロセッサおよび不揮発性メモリ(例えば、フラッシュメモリ)等の非一過性デジタルメモリを備えてもよく、その両方とも、データの処理、キャッシュ、および記憶を補助するために利用され得る。データは、(a)画像捕捉デバイス(カメラ等)、マイクロホン、慣性測定ユニット、加速度計、コンパス、GPSユニット、無線デバイス、および/またはジャイロスコープ等のセンサ(例えば、フレーム512に動作可能に結合される、または別様に装着者504に取り付けられ得る)から捕捉されるデータ、および/または(b)場合によっては、処理または読出後にディスプレイ508へのパスのために、遠隔処理モジュール528および/または遠隔データリポジトリ532を使用して入手および/または処理されるデータを含む。ローカル処理およびデータモジュール524は、これらの遠隔モジュール528、532が、相互に動作可能に結合され、ローカル処理およびデータモジュール524へのリソースとして利用可能であるように、有線または無線通信リンク等を介して、通信リンク536、540によって、遠隔処理モジュール528および遠隔データリポジトリ532に動作可能に結合されてもよい。画像捕捉デバイスは、眼画像セグメント化または眼追跡プロシージャにおいて使用される眼画像を捕捉するために使用されることができる。
いくつかの実施形態では、遠隔処理モジュール528は、画像捕捉デバイスによって捕捉されたビデオ情報等のデータおよび/または画像情報を分析および処理するように構成される、1つ以上のプロセッサを備えてもよい。ビデオデータは、ローカル処理およびデータモジュール524および/または遠隔データリポジトリ532内でローカルに記憶されてもよい。いくつかの実施形態では、遠隔データリポジトリ532は、デジタルデータ記憶設備を備え得、これは、インターネットまたは「クラウド」リソース構成における他のネットワーキング構成を通して利用可能であってもよい。いくつかの実施形態では、全てのデータが、記憶され、全ての算出が、ローカル処理およびデータモジュール524において実施され、遠隔モジュールからの完全に自律的な使用を可能にする。
いくつかの実装では、ローカル処理およびデータモジュール524および/または遠隔処理モジュール528は、本明細書に開示される、ニューラルネットワークの実施形態を実施するようにプログラムされる。例えば、ローカル処理およびデータモジュール524および/または遠隔処理モジュール528は、図4を参照して説明されるGREAT方法400の実施形態を使用して訓練されたニューラルネットワークを使用して、タスク予測および決定、知識蒸留、マルチタスク学習、または敵対的防御の実施形態を実施するようにプログラムされることができる。画像捕捉デバイスは、特定の用途(例えば、拡張現実(AR)、人間とコンピュータの相互作用(HCI)、自律車両、ドローン、またはロボット全般)のためのビデオを捕捉することができる。ビデオは、NNを使用して、処理モジュール524、528の一方または両方によって分析されることができる。ある場合には、訓練またはニューラルネットワークモジュールの少なくともいくつかを遠隔処理モジュール(例えば、「クラウド」内の)にオフロードすることは、算出の効率または速度を改良し得る。CNNのパラメータ(例えば、加重、バイアス項、プーリング層のためのサブサンプリング係数、異なる層内のカーネルの数およびサイズ、特徴マップの数等)は、データモジュール524および/または532内に記憶されることができる。
タスク予測または決定の結果(例えば、図4を参照して説明されるメタ学習マルチタスクネットワーク400の出力)は、付加的動作または処理のために、処理モジュール524、528の一方または両方によって使用されることができる。例えば、ウェアラブルディスプレイシステム500の処理モジュール524、528は、GREATを介して訓練されたニューラルネットワークの出力に基づいて、付加的用途(拡張現実、人間とコンピュータの相互作用(HCI)、自律車両、ドローン、またはロボット全般における用途等)を実施するようにプログラムされることができる。
付加的タスク
GREATの実施形態は、ニューラルネットワークが画像または視覚的データ上で訓練される、コンピュータビジョンタスクのためのニューラルネットワークの訓練に限定されない。他の実施形態では、訓練データは、オーディオデータ、加速データ、測位データ、温度データ、無線周波数データ、または光学追跡データ等のセンサによって捕捉された非画像データを含むことができる。センサの実施例は、オーディオセンサ(例えば、マイクロホン)、慣性測定ユニット(IMU)、加速度計、コンパス、ジャイロスコープ、温度センサ、移動センサ、深度センサ、全地球測位システム(GPS)ユニット、および無線デバイスを含む。他の実施形態では、医療関連タスクのための訓練サンプルは、性別、年齢、心拍数、体温、白血球数、疾患状態、疾患進行度、症状、疾患診断等の測定値を含むことができる。
例えば、発話認識または自然言語処理に関連するタスクに関して、訓練サンプルは、オーディオデータセット(またはビデオに添付されるオーディオデータ)または単語、文、段落、またはテキストの電子表現または埋め込み(例えば、n-グラム)を含むことができる。タスクは、例えば、品詞(POS)タグ付け、チャンキング、係り受け解析、意味的関連性、またはテキスト含意を含むことができる。
タスクは、医療的治療または医療上の意思決定に関連することができる。例えば、タスクは、特定の疾患を有し得る患者に実施されるべき実験室試験または患者に関するリスク査定の決定を含むことができる。そのような実施例として、訓練データは、特定の疾患または症状(例えば、肺炎)を患う患者の測定値(例えば、性別、年齢、心拍数、体温、白血球数等)を含むことができる。GREATの実施形態は、患者に関する疾患リスク査定または実験室試験を予測するために、ニューラルネットワークを訓練するために使用されることができる。
したがって、GREATによって使用される訓練データは、個別の訓練ラベル、分類、または信号と関連付けられ得る、画像、ビデオ、オーディオ、電子記録、データベース等を含むことができる。
付加的側面
1.ニューラルネットワークを訓練するためのシステムであって、実行可能命令と、タスクと関連付けられる出力を決定するように構成される、主要ニューラルネットワークと、主要ニューラルネットワークと関連付けられる勾配テンソルを訓練するように構成される、補助ニューラルネットワークとを記憶するように構成される、非一過性メモリと、非一過性メモリと通信する、ハードウェアプロセッサであって、実行可能命令によって、主要ニューラルネットワークによって、主要ニューラルネットワークによって実施されるべきタスクと関連付けられる訓練データを受信し、逆伝搬の間、主要ニューラルネットワーク内で勾配テンソルを評価し、補助ニューラルネットワークによって、勾配テンソルを受信し、補助損失関数を使用して、補助ニューラルネットワークを訓練し、主要ニューラルネットワークに、補助ニューラルネットワークによって、敵対的勾配信号を提供し、少なくとも部分的に、勾配テンソルおよび敵対的勾配信号に基づいて、主要ニューラルネットワーク内の加重を更新し、訓練された主要ネットワークを出力するようにプログラムされる、ハードウェアプロセッサとを備える、システム。
2.訓練データは、画像を備え、タスクは、コンピュータビジョンタスクを備える、側面1に記載のシステム。
3.主要ニューラルネットワークは、マルチタスクネットワーク、知識蒸留ネットワーク、または敵対的防御ネットワークを備える、側面1または側面2に記載のシステム。
4.勾配テンソルを評価するために、ハードウェアプロセッサは、実行可能命令によって、主要ニューラルネットワークの各層内の加重テンソルに対する主要損失関数の勾配を評価するようにプログラムされる、側面1-3のいずれか1項に記載のシステム。
5.主要ニューラルネットワークに、敵対的勾配信号を提供するために、ハードウェアプロセッサは、勾配反転を利用するようにプログラムされる、側面1-4のいずれか1項に記載のシステム。
6.主要ニューラルネットワークに、敵対的勾配信号を提供するために、ハードウェアプロセッサは、少なくとも部分的に、主要ニューラルネットワークの先行層内の加重に基づいて、主要ニューラルネットワーク内の層のための信号を決定するようにプログラムされる、側面1-5のいずれか1項に記載のシステム。
7.主要ニューラルネットワーク内の加重を更新するために、ハードウェアプロセッサは、少なくとも部分的に、敵対的勾配信号に基づいて、主要ニューラルネットワーク内の加重を正則化するようにプログラムされる、側面1-6のいずれか1項に記載のシステム。
8.主要ニューラルネットワークは、マルチタスクネットワークを備え、タスクは、複数のタスクを備え、マルチタスクネットワークは、共有エンコーダと、複数のタスクからの個別のタスクと関連付けられる、複数のタスク特有のデコーダと、複数の勾配整合層(GAL)であって、複数のGALの各GALは、共有エンコーダの後かつタスク特有のデコーダのうちの少なくとも1つの前に位置する、GALとを備える、側面1-7のいずれか1項に記載のシステム。
9.ハードウェアプロセッサは、補助ニューラルネットワークからの反転された勾配信号を使用して、複数のGALの各GALを訓練するようにプログラムされる、側面8に記載のシステム。
10.ハードウェアプロセッサは、複数のGALの各GALを訓練し、複数のタスク毎の勾配テンソルの統計的分布を区別不能にするようにプログラムされる、側面8または側面9に記載のシステム。
11.複数のGALは、マルチタスクネットワークにおける順推論の間にドロップされる、側面8-10のいずれか1項に記載のシステム。
12.主要ニューラルネットワークは、生徒ネットワークおよび教師ネットワークを備える、知識蒸留ネットワークを備え、補助損失関数は、(1)生徒ネットワークの勾配テンソルと(2)教師ネットワークの勾配テンソルを判別するように訓練可能なバイナリ分類子を備える、側面1-11のいずれか1項に記載のシステム。
13.ハードウェアプロセッサは、補助ネットワークを訓練し、生徒ネットワークの勾配テンソルの統計的分布を教師ネットワークの勾配テンソルの統計的分布に類似させるようにプログラムされる、側面12に記載のシステム。
14.主要ニューラルネットワークは、画像を分析するように構成される、ニューラルネットワークを備え、ハードウェアプロセッサは、主要ニューラルネットワークのクロスエントロピ損失が、少なくとも部分的に、補助ニューラルネットワークからの出力活性化に関して評価されるソフトマックス関数に基づいて修正される、修正されたクロスエントロピ損失関数を利用するようにプログラムされる、側面1-13のいずれか1項に記載のシステム。
15.主要ニューラルネットワークは、画像を分析するように構成される、ニューラルネットワークを備え、ハードウェアプロセッサは、その勾配テンソルが一次クラスの勾配テンソルに類似する、負のクラスに、加重を追加するように構成される、修正されたクロスエントロピ損失関数を利用するようにプログラムされる、側面1-14のいずれか1項に記載のシステム。
16.タスクと関連付けられる出力を決定するように構成される、主要ニューラルネットワークと、主要ニューラルネットワークと関連付けられる勾配テンソルを訓練するように構成される、補助ニューラルネットワークとを備える、ニューラルネットワークを訓練するための方法であって、主要ニューラルネットワークによって、主要ニューラルネットワークによって実施されるべきタスクと関連付けられる訓練データを受信するステップと、逆伝搬の間、主要ニューラルネットワーク内で勾配テンソルを評価するステップと、補助ニューラルネットワークによって、勾配テンソルを受信するステップと、補助損失関数を使用して、補助ニューラルネットワークを訓練し、主要ニューラルネットワークに、補助ニューラルネットワークによって、敵対的勾配信号を提供するステップと、少なくとも部分的に、勾配テンソルおよび敵対的勾配信号に基づいて、主要ニューラルネットワーク内の加重を更新するステップと、訓練された主要ネットワークを出力するステップとを含む、方法。
17.訓練データは、画像を備え、タスクは、コンピュータビジョンタスクを備える、側面16に記載の方法。
18.主要ニューラルネットワークは、マルチタスクネットワーク、知識蒸留ネットワーク、または敵対的防御ネットワークを備える、側面16または側面17に記載の方法。
19.勾配テンソルを評価するステップは、主要ニューラルネットワークの各層内の加重テンソルに対する主要損失関数の勾配を評価するステップを含む、側面16-18のいずれか1項に記載の方法。
20.敵対的勾配信号を主要ニューラルネットワークに提供するステップは、勾配反転を利用するステップを含む、側面16-19のいずれか1項に記載の方法。
21.敵対的勾配信号を提供するステップは、少なくとも部分的に、主要ニューラルネットワークの先行層内の加重に基づく、主要ニューラルネットワーク内の層のための信号を決定するステップを含む、側面16-20のいずれか1項に記載の方法。
22.主要ニューラルネットワーク内の加重を更新するステップは、少なくとも部分的に、敵対的勾配信号に基づいて、主要ニューラルネットワーク内の加重を正則化するステップを含む、側面16-21のいずれか1項に記載の方法。
23.頭部搭載型ディスプレイシステムであって、実行可能命令と、頭部搭載型ディスプレイシステムと関連付けられるタスク出力を決定するためのニューラルネットワークであって、ニューラルネットワークは、ニューラルネットワークの逆伝搬の間に評価される勾配テンソルを受信し、敵対的勾配信号を生成するようにプログラムされる、補助ネットワークを使用して訓練され、ニューラルネットワークの加重は、補助ネットワークからの敵対的勾配信号を使用して更新される、ニューラルネットワークとを記憶するように構成される、非一過性メモリと、ディスプレイと、センサと、非一過性メモリおよびディスプレイと通信する、ハードウェアプロセッサであって、ハードウェアプロセッサは、実行可能命令によって、センサによって捕捉されたセンサデータを受信し、ニューラルネットワークを使用して、入力としてのセンサデータを用いて、タスク出力を決定し、ディスプレイに、決定されたタスク出力に関連する情報を頭部搭載型ディスプレイシステムのユーザに示させるようにプログラムされる、ハードウェアプロセッサとを備える、システム。
24.センサは、外向きに向いたカメラを備え、タスクは、コンピュータビジョンタスクを備える、側面23に記載のシステム。
25.コンピュータビジョンタスクは、顔認識、視覚的検索、ジェスチャ識別、部屋レイアウト推定、直方体検出、意味論セグメント化、オブジェクト検出、照明検出、同時位置特定およびマッピング、または再位置特定のうちの1つ以上のものを備える、側面24に記載のシステム。
付加的考慮点
本明細書に説明される、および/または添付される図に描写されるプロセス、方法、およびアルゴリズムはそれぞれ、具体的かつ特定のコンピュータ命令を実行するように構成される、1つ以上の物理的コンピューティングシステム、ハードウェアコンピュータプロセッサ、特定用途向け回路、および/または電子ハードウェアによって実行される、コードモジュールにおいて具現化され、それによって完全または部分的に自動化され得る。例えば、コンピューティングシステムは、具体的コンピュータ命令とともにプログラムされた汎用コンピュータ(例えば、サーバ)または専用コンピュータ、専用回路等を含むことができる。コードモジュールは、実行可能プログラムにコンパイルおよびリンクされる、動的リンクライブラリ内にインストールされ得る、またはインタープリタ型プログラミング言語において書き込まれ得る。いくつかの実装では、特定の動作および方法が、所与の機能に特有の回路によって実施され得る。
さらに、本開示の機能性のある実装は、十分に数学的に、算出上、または技術的に複雑であるため、(適切な特殊化された実行可能命令を利用する)特定用途向けハードウェアまたは1つ以上の物理的コンピューティングデバイスは、例えば、関与する計算の量または複雑性に起因して、または結果を実質的にリアルタイムで提供するために、機能性を実施する必要があり得る。例えば、ビデオは、多くのフレームを含み、各フレームは、数百万のピクセルを有し得、具体的にプログラムされたコンピュータハードウェアは、商業的に妥当な時間量において所望の画像処理タスクまたは用途を提供するようにビデオデータを処理する必要がある。別の実施例として、本明細書に説明されるGREAT方法の実施形態を使用して、ニューラルネットワークを訓練するステップは、算出上困難であって、グラフィカル処理ユニット(GPU)、特定用途向け集積回路(ASIC)、または浮動点ゲートアレイ(FPGA)上に実装されることができる。
コードモジュールまたは任意のタイプのデータは、ハードドライブ、ソリッドステートメモリ、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、光学ディスク、揮発性または不揮発性記憶装置、同一物の組み合わせ、および/または同等物を含む、物理的コンピュータ記憶装置等の任意のタイプの非一過性コンピュータ可読媒体上に記憶されてもよい。本方法およびモジュール(またはデータ)はまた、無線ベースおよび有線/ケーブルベースの媒体を含む、種々のコンピュータ可読伝送媒体上で生成されたデータ信号として(例えば、搬送波または他のアナログまたはデジタル伝搬信号の一部として)伝送されてもよく、種々の形態(例えば、単一または多重化アナログ信号の一部として、または複数の離散デジタルパケットまたはフレームとして)をとってもよい。開示されるプロセスまたはプロセスステップの結果は、任意のタイプの非一過性有形コンピュータ記憶装置内に持続的または別様に記憶されてもよい、またはコンピュータ可読伝送媒体を介して通信されてもよい。
本明細書に説明される、および/または添付される図に描写されるフロー図における任意のプロセス、ブロック、状態、ステップ、または機能性は、プロセスにおいて具体的機能(例えば、論理または算術)またはステップを実装するための1つ以上の実行可能命令を含む、コードモジュール、セグメント、またはコードの一部を潜在的に表すものとして理解されたい。種々のプロセス、ブロック、状態、ステップ、または機能性は、組み合わせられる、再配列される、追加される、削除される、修正される、または別様に本明細書に提供される例証的実施例から変更されることができる。いくつかの実施形態では、付加的または異なるコンピューティングシステムまたはコードモジュールが、本明細書に説明される機能性のいくつかまたは全てを実施し得る。本明細書に説明される方法およびプロセスはまた、任意の特定のシーケンスに限定されず、それに関連するブロック、ステップ、または状態は、適切な他のシーケンスで、例えば、連続して、並行して、またはある他の様式で実施されることができる。タスクまたはイベントが、開示される例示的実施形態に追加される、またはそれから除去されてもよい。また、本明細書に説明される実装における種々のシステムコンポーネントの分離は、例証を目的とし、全ての実装においてそのような分離を要求するものとして理解されるべきではない。説明されるプログラムコンポーネント、方法、およびシステムは、概して、単一のコンピュータ製品においてともに統合される、または複数のコンピュータ製品にパッケージ化され得ることを理解されたい。多くの実装変形例が、可能性として考えられる。
本プロセス、方法、およびシステムは、ネットワーク(または分散)コンピューティング環境において実装され得る。ネットワーク環境は、企業全体コンピュータネットワーク、イントラネット、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、パーソナルエリアネットワーク(PAN)、クラウドコンピューティングネットワーク、クラウドソースコンピューティングネットワーク、インターネット、およびワールドワイドウェブを含む。ネットワークは、有線または無線ネットワークまたは任意の他のタイプの通信ネットワークであってもよい。
本開示のシステムおよび方法は、それぞれ、いくつかの革新的側面を有し、そのうちのいかなるものも、本明細書に開示される望ましい属性に単独で関与しない、またはそのために要求されない。本明細書に説明される種々の特徴およびプロセスは、相互に独立して使用され得る、または種々の方法で組み合わせられ得る。全ての可能な組み合わせおよび副次的組み合わせが、本開示の範囲内に該当することが意図される。本開示に説明される実装の種々の修正が、当業者に容易に明白であり得、本明細書に定義される一般原理は、本開示の精神または範囲から逸脱することなく、他の実装に適用され得る。したがって、請求項は、本明細書に示される実装に限定されることを意図されず、本明細書に開示される開示、原理、および新規の特徴と一貫する最も広い範囲を与えられるべきである。
別個の実装の文脈において本明細書に説明されるある特徴はまた、単一の実装における組み合わせにおいて実装されることができる。逆に、単一の実装の文脈において説明される種々の特徴もまた、複数の実装において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴が、ある組み合わせにおいて作用するものとして上記に説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの1つ以上の特徴は、ある場合では、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。いかなる単一の特徴または特徴の群も、あらゆる実施形態に必要または必須ではない。
とりわけ、「~できる(can)」、「~し得る(could)」、「~し得る(might)」、「~し得る(may)」、「例えば(e.g.,)」、および同等物等、本明細書で使用される条件文は、別様に具体的に記載されない限り、または使用されるような文脈内で別様に理解されない限り、概して、ある実施形態がある特徴、要素、および/またはステップを含む一方、他の実施形態がそれらを含まないことを伝えることが意図される。したがって、そのような条件文は、概して、特徴、要素、および/またはステップが、1つ以上の実施形態に対していかようにも要求されること、または1つ以上の実施形態が、著者の入力または促しの有無を問わず、これらの特徴、要素、および/またはステップが任意の特定の実施形態において含まれる、または実施されるべきかどうかを決定するための論理を必然的に含むことを示唆することを意図されない。用語「~を備える(comprising)」、「~を含む(including)」、「~を有する(having)」、および同等物は、同義語であり、非限定的方式で包括的に使用され、付加的要素、特徴、行為、動作等を除外しない。また、用語「または」は、その包括的意味において使用され(およびその排他的意味において使用されず)、したがって、例えば、要素のリストを接続するために使用されると、用語「または」は、リスト内の要素のうちの1つ、いくつか、または全てを意味する。加えて、本願および添付される請求項で使用されるような冠詞「a」、「an」、および「the」は、別様に規定されない限り、「1つ以上の」または「少なくとも1つ」を意味するように解釈されるべきである。
本明細書で使用されるように、項目のリスト「~のうちの少なくとも1つ」を指す語句は、単一の要素を含む、それらの項目の任意の組み合わせを指す。ある実施例として、「A、B、またはCのうちの少なくとも1つ」は、A、B、C、AおよびB、AおよびC、BおよびC、およびA、B、およびCを網羅することが意図される。語句「X、Y、およびZのうちの少なくとも1つ」等の接続文は、別様に具体的に記載されない限り、概して、項目、用語等がX、Y、またはZのうちの少なくとも1つであり得ることを伝えるために使用されるような文脈で別様に理解される。したがって、そのような接続文は、概して、ある実施形態が、Xのうちの少なくとも1つ、Yのうちの少なくとも1つ、およびZのうちの少なくとも1つがそれぞれ存在するように要求することを示唆することを意図されない。
同様に、動作は、特定の順序で図面に描写され得るが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序で、または連続的順序で実施される、または全ての図示される動作が実施される必要はないと認識されるべきである。さらに、図面は、フローチャートの形態で1つ以上の例示的プロセスを図式的に描写し得る。しかしながら、描写されない他の動作も、図式的に図示される例示的方法およびプロセス内に組み込まれることができる。例えば、1つ以上の付加的動作が、図示される動作のいずれかの前に、その後に、それと同時に、またはその間に実施されることができる。加えて、動作は、他の実装において再配列される、または再順序付けられ得る。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上記に説明される実装における種々のシステムコンポーネントの分離は、全ての実装におけるそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品においてともに統合される、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。加えて、他の実装も、以下の請求項の範囲内である。いくつかの場合では、請求項に列挙されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。

Claims (20)

  1. ニューラルネットワークを訓練するためのシステムであって、前記システムは、
    非一過性メモリであって、前記非一過性メモリは、
    実行可能命令と、
    タスクと関連付けられる出力を決定するように構成される主要ニューラルネットワークと、
    前記主要ニューラルネットワークと関連付けられる勾配テンソルを訓練するように構成される補助ニューラルネットワークと
    を記憶するように構成される、非一過性メモリと、
    前記非一過性メモリと通信するハードウェアプロセッサであって、前記ハードウェアプロセッサは、前記実行可能命令によって、
    前記主要ニューラルネットワークによって、前記主要ニューラルネットワークによって実施されるべき前記タスクと関連付けられる訓練データを受信することと、
    逆伝搬の間、前記主要ニューラルネットワーク内で勾配テンソルを評価することと、
    前記補助ニューラルネットワークによって、前記勾配テンソルを受信することと、
    補助損失関数を使用して、前記補助ニューラルネットワークを訓練することと、
    前記主要ニューラルネットワークに、前記補助ニューラルネットワークによって、敵対的勾配信号を提供することと、
    記勾配テンソルおよび前記敵対的勾配信号に少なくとも部分的に基づいて、前記主要ニューラルネットワーク内の加重を更新することと、
    訓練された主要ネットワークを出力することと
    を行うようにプログラムされる、ハードウェアプロセッサと
    を備える、システム。
  2. 前記訓練データは、画像を備え、前記タスクは、コンピュータビジョンタスクを備える、請求項1に記載のシステム。
  3. 前記主要ニューラルネットワークは、マルチタスクネットワーク、知識蒸留ネットワーク、または敵対的防御ネットワークを備える、請求項1に記載のシステム。
  4. 前記勾配テンソルを評価するために、前記ハードウェアプロセッサは、前記実行可能命令によって、前記主要ニューラルネットワークの各層内の加重テンソルに対する主要損失関数の勾配を評価するようにプログラムされる、請求項1に記載のシステム。
  5. 前記主要ニューラルネットワークに、前記敵対的勾配信号を提供するために、前記ハードウェアプロセッサは、
    勾配反転を利用すること、または
    前記主要ニューラルネットワークの先行層内の加重に少なくとも部分的に基づいて、前記主要ニューラルネットワーク内の層のための信号を決定すること
    を行うようにプログラムされる、請求項1に記載のシステム。
  6. 前記主要ニューラルネットワーク内の加重を更新するために、前記ハードウェアプロセッサは前記敵対的勾配信号に少なくとも部分的に基づいて、前記主要ニューラルネットワーク内の加重を正則化するようにプログラムされる、請求項1に記載のシステム。
  7. 前記主要ニューラルネットワークは、マルチタスクネットワークを備え、前記タスクは、複数のタスクを備え、前記マルチタスクネットワークは、
    共有エンコーダと、
    前記複数のタスクからの個別のタスクと関連付けられる複数のタスク特有のデコーダと、
    複数の勾配整合層(GAL)であって、前記複数のGALの各GALは、前記共有エンコーダの後かつ前記タスク特有のデコーダのうちの少なくとも1つの前に位置する、GALと
    を備える、請求項1に記載のシステム。
  8. 前記ハードウェアプロセッサは、
    前記補助ニューラルネットワークからの反転された勾配信号を使用して、または
    前記複数のタスク毎の前記勾配テンソルの統計的分布を区別不能にするように、
    前記複数のGALの各GALを訓練するようにプログラムされる、請求項に記載のシステム。
  9. 前記複数のGALは、前記マルチタスクネットワークにおける順推論の間にドロップされる、請求項に記載のシステム。
  10. 前記主要ニューラルネットワークは、
    生徒ネットワークおよび教師ネットワークを備える知識蒸留ネットワークであって、前記補助損失関数は、(1)前記生徒ネットワークの勾配テンソルと、(2)前記教師ネットワークの勾配テンソルとを判別するように訓練可能なバイナリ分類子を備える、知識蒸留ネットワーク、
    画像を分析するように構成されるニューラルネットワークであって、前記ハードウェアプロセッサは、前記主要ニューラルネットワークのクロスエントロピ損失が、前記補助ニューラルネットワークからの出力活性化に関して評価されるソフトマックス関数に少なくとも部分的に基づいて修正される修正されたクロスエントロピ損失関数を利用するようにプログラムされる、ニューラルネットワーク、または、
    画像を分析するように構成されるニューラルネットワークであって、前記ハードウェアプロセッサは、その勾配テンソルが一次クラスの勾配テンソルに類似する負のクラスに加重を追加するように構成される修正されたクロスエントロピ損失関数を利用するようにプログラムされる、ニューラルネットワーク
    を備える、請求項1に記載のシステム。
  11. 前記ハードウェアプロセッサは、前記補助ネットワークを訓練し、前記生徒ネットワークの勾配テンソルの統計的分布を前記教師ネットワークの勾配テンソルの統計的分布に類似させるようにプログラムされる、請求項10に記載のシステム。
  12. タスクと関連付けられる出力を決定するように構成される主要ニューラルネットワークと、前記主要ニューラルネットワークと関連付けられる勾配テンソルを訓練するように構成される補助ニューラルネットワークとを備えるニューラルネットワークを訓練するための方法であって、前記方法は、
    前記主要ニューラルネットワークによって、前記主要ニューラルネットワークによって実施されるべき前記タスクと関連付けられる訓練データを受信することと、
    逆伝搬の間、前記主要ニューラルネットワーク内で勾配テンソルを評価することと、
    前記補助ニューラルネットワークによって、前記勾配テンソルを受信することと、
    補助損失関数を使用して、前記補助ニューラルネットワークを訓練することと、
    前記主要ニューラルネットワークに、前記補助ニューラルネットワークによって、敵対的勾配信号を提供することと、
    記勾配テンソルおよび前記敵対的勾配信号に少なくとも部分的に基づいて、前記主要ニューラルネットワーク内の加重を更新することと、
    訓練された主要ネットワークを出力することと
    を含む、方法。
  13. 前記訓練データは、画像を備え、前記タスクは、コンピュータビジョンタスクを備える、請求項12に記載の方法。
  14. 前記主要ニューラルネットワークは、マルチタスクネットワーク、知識蒸留ネットワーク、または敵対的防御ネットワークを備える、請求項12に記載の方法。
  15. 前記勾配テンソルを評価することは、前記主要ニューラルネットワークの各層内の加重テンソルに対する主要損失関数の勾配を評価することを含む、請求項12に記載の方法。
  16. 前記敵対的勾配信号を前記主要ニューラルネットワークに提供することは、
    勾配反転を利用すること、または、
    前記主要ニューラルネットワークの先行層内の加重に少なくとも部分的に基づいて、前記主要ニューラルネットワーク内の層のための信号を決定すること
    を含む、請求項12に記載の方法。
  17. 前記主要ニューラルネットワーク内の加重を更新することは前記敵対的勾配信号に少なくとも部分的に基づいて、前記主要ニューラルネットワーク内の加重を正則化することを含む、請求項16に記載の方法。
  18. 頭部搭載型ディスプレイシステムであって、
    非一過性メモリであって、前記非一過性メモリは、
    実行可能命令と、
    前記頭部搭載型ディスプレイシステムと関連付けられるタスク出力を決定するためのニューラルネットワークであって、前記ニューラルネットワークは、
    前記ニューラルネットワークの逆伝搬の間に評価される勾配テンソルを受信し、敵対的勾配信号を生成するようにプログラムされる、補助ネットワーク
    を使用して訓練され、
    前記ニューラルネットワークの加重は、前記補助ネットワークからの前記敵対的勾配信号を使用して更新される、ニューラルネットワークと
    を記憶するように構成される、非一過性メモリと、
    ディスプレイと、
    センサと、
    前記非一過性メモリおよび前記ディスプレイと通信するハードウェアプロセッサであって、前記ハードウェアプロセッサは、前記実行可能命令によって、
    前記センサによって捕捉されたセンサデータを受信することと、
    前記ニューラルネットワークを使用して、入力としての前記センサデータを用いて、タスク出力を決定することと、
    前記ディスプレイに、前記決定されたタスク出力に関連する情報を前記頭部搭載型ディスプレイシステムのユーザに示させることと
    を行うようにプログラムされる、ハードウェアプロセッサと
    を備える、システム。
  19. 前記センサは、外向きに向いたカメラを備え、前記タスクは、コンピュータビジョンタスクを備える、請求項18に記載のシステム。
  20. 前記コンピュータビジョンタスクは、顔認識、視覚的検索、ジェスチャ識別、部屋レイアウト推定、直方体検出、意味論セグメント化、オブジェクト検出、照明検出、同時位置特定およびマッピング、または再位置特定のうちの1つ以上のものを備える、請求項19に記載のシステム。
JP2020563407A 2018-05-17 2019-05-15 ニューラルネットワークの勾配型敵対的訓練 Active JP7328993B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862673116P 2018-05-17 2018-05-17
US62/673,116 2018-05-17
PCT/US2019/032486 WO2019222401A2 (en) 2018-05-17 2019-05-15 Gradient adversarial training of neural networks

Publications (3)

Publication Number Publication Date
JP2021523468A JP2021523468A (ja) 2021-09-02
JPWO2019222401A5 JPWO2019222401A5 (ja) 2022-05-20
JP7328993B2 true JP7328993B2 (ja) 2023-08-17

Family

ID=68540781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020563407A Active JP7328993B2 (ja) 2018-05-17 2019-05-15 ニューラルネットワークの勾配型敵対的訓練

Country Status (5)

Country Link
US (2) US12020167B2 (ja)
EP (1) EP3794516A4 (ja)
JP (1) JP7328993B2 (ja)
CN (1) CN112368719A (ja)
WO (1) WO2019222401A2 (ja)

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7328993B2 (ja) 2018-05-17 2023-08-17 マジック リープ, インコーポレイテッド ニューラルネットワークの勾配型敵対的訓練
US20210019628A1 (en) * 2018-07-23 2021-01-21 Intel Corporation Methods, systems, articles of manufacture and apparatus to train a neural network
US10748038B1 (en) 2019-03-31 2020-08-18 Cortica Ltd. Efficient calculation of a robust signature of a media unit
US11588499B2 (en) * 2018-11-05 2023-02-21 Samsung Electronics Co., Ltd. Lossless compression of neural network weights
US11694088B2 (en) * 2019-03-13 2023-07-04 Cortica Ltd. Method for object detection using knowledge distillation
WO2020231049A1 (en) * 2019-05-16 2020-11-19 Samsung Electronics Co., Ltd. Neural network model apparatus and compressing method of neural network model
US20210103820A1 (en) * 2019-10-03 2021-04-08 Vathys, Inc. Pipelined backpropagation with minibatch emulation
US11836249B2 (en) * 2019-11-21 2023-12-05 Paypal, Inc. System and method for counteracting adversarial attacks
CN110956259B (zh) * 2019-11-22 2023-05-12 联合微电子中心有限责任公司 一种基于正向传播的光子神经网络训练方法
CN112884143B (zh) * 2019-11-29 2024-05-14 北京四维图新科技股份有限公司 用于训练鲁棒深度神经网络模型的方法
US10944914B1 (en) * 2019-12-02 2021-03-09 Samsung Electronics Co., Ltd. System and method for generating multi-exposure frames from single input
CN111126218B (zh) * 2019-12-12 2023-09-26 北京工业大学 一种基于零样本学习的人体行为识别方法
US11551083B2 (en) 2019-12-17 2023-01-10 Soundhound, Inc. Neural network training from private data
CN111145787B (zh) * 2019-12-26 2023-03-14 太原理工大学 一种基于主辅网络的语音情感特征融合方法及系统
US11593627B2 (en) 2019-12-31 2023-02-28 X Development Llc Artificial neural network architectures based on synaptic connectivity graphs
US11593617B2 (en) 2019-12-31 2023-02-28 X Development Llc Reservoir computing neural networks based on synaptic connectivity graphs
US11568201B2 (en) * 2019-12-31 2023-01-31 X Development Llc Predicting neuron types based on synaptic connectivity graphs
US11631000B2 (en) 2019-12-31 2023-04-18 X Development Llc Training artificial neural networks based on synaptic connectivity graphs
US11625611B2 (en) 2019-12-31 2023-04-11 X Development Llc Training artificial neural networks based on synaptic connectivity graphs
US11620487B2 (en) 2019-12-31 2023-04-04 X Development Llc Neural architecture search based on synaptic connectivity graphs
US11386298B2 (en) * 2020-01-09 2022-07-12 International Business Machines Corporation Uncertainty guided semi-supervised neural network training for image classification
US11972353B2 (en) * 2020-01-22 2024-04-30 Electronic Arts Inc. Character controllers using motion variational autoencoders (MVAEs)
US11580453B2 (en) 2020-02-27 2023-02-14 Omron Corporation Adaptive co-distillation model
US12026613B2 (en) * 2020-03-02 2024-07-02 International Business Machines Corporation Transfer learning across automated machine learning systems
US11648480B2 (en) 2020-04-06 2023-05-16 Electronic Arts Inc. Enhanced pose generation based on generative modeling
WO2021205066A1 (en) * 2020-04-09 2021-10-14 Nokia Technologies Oy Training a data coding system for use with machines
CN111768803B (zh) * 2020-05-15 2024-01-30 天翼安全科技有限公司 基于卷积神经网络和多任务学习的通用音频隐写分析方法
CN111738436B (zh) * 2020-06-28 2023-07-18 电子科技大学中山学院 一种模型蒸馏方法、装置、电子设备及存储介质
US11809908B2 (en) 2020-07-07 2023-11-07 SambaNova Systems, Inc. Runtime virtualization of reconfigurable data flow resources
CN112052948B (zh) * 2020-08-19 2023-11-14 腾讯科技(深圳)有限公司 一种网络模型压缩方法、装置、存储介质和电子设备
CN112037760B (zh) * 2020-08-24 2022-01-07 北京百度网讯科技有限公司 语音频谱生成模型的训练方法、装置及电子设备
CN112367289B (zh) * 2020-09-11 2021-08-06 浙江大学 一种拟态waf构造方法
CN112241532B (zh) * 2020-09-17 2024-02-20 北京科技大学 一种基于雅可比矩阵生成与检测恶性对抗样本的方法
CN112132268B (zh) * 2020-09-25 2024-07-26 交叉信息核心技术研究院(西安)有限公司 任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质
CN112200234B (zh) * 2020-09-30 2022-04-12 支付宝(杭州)信息技术有限公司 模型分类的过程中防止模型窃取的方法及装置
US12049116B2 (en) 2020-09-30 2024-07-30 Autobrains Technologies Ltd Configuring an active suspension
CN112149608B (zh) * 2020-10-09 2024-10-18 腾讯科技(深圳)有限公司 图像识别方法、装置和存储介质
US11948054B2 (en) * 2020-10-29 2024-04-02 Booz Allen Hamilton Inc. Masked projected gradient transfer attacks
US20220188688A1 (en) * 2020-12-10 2022-06-16 Lighton Method and system for distributed training using synthetic gradients
US11392740B2 (en) 2020-12-18 2022-07-19 SambaNova Systems, Inc. Dataflow function offload to reconfigurable processors
US11237880B1 (en) 2020-12-18 2022-02-01 SambaNova Systems, Inc. Dataflow all-reduce for reconfigurable processor systems
US11182221B1 (en) 2020-12-18 2021-11-23 SambaNova Systems, Inc. Inter-node buffer-based streaming for reconfigurable processor-as-a-service (RPaaS)
US20220237890A1 (en) * 2021-01-22 2022-07-28 Samsung Electronics Co., Ltd. Method and apparatus with neural network training
US20220261626A1 (en) * 2021-02-08 2022-08-18 International Business Machines Corporation Distributed Adversarial Training for Robust Deep Neural Networks
US11782760B2 (en) 2021-02-25 2023-10-10 SambaNova Systems, Inc. Time-multiplexed use of reconfigurable hardware
US12051237B2 (en) 2021-03-12 2024-07-30 Samsung Electronics Co., Ltd. Multi-expert adversarial regularization for robust and data-efficient deep supervised learning
US11200096B1 (en) 2021-03-26 2021-12-14 SambaNova Systems, Inc. Resource allocation for reconfigurable processors
CN113204974B (zh) * 2021-05-14 2022-06-17 清华大学 对抗文本的生成方法、装置、设备及存储介质
CN113190872B (zh) * 2021-05-28 2024-08-13 脸萌有限公司 数据保护方法、网络结构训练方法、装置、介质及设备
US11887232B2 (en) 2021-06-10 2024-01-30 Electronic Arts Inc. Enhanced system for generation of facial models and animation
CN113344090B (zh) * 2021-06-18 2022-11-22 成都井之丽科技有限公司 一种用于中间层有目标对抗攻击的图像处理方法
CN113435334B (zh) * 2021-06-28 2024-02-27 中国科学院上海微系统与信息技术研究所 一种基于深度学习的小目标人脸识别方法
CN113436073B (zh) * 2021-06-29 2023-04-07 中山大学 一种基于频域的真实图像超分辨鲁棒方法及装置
CN113554716A (zh) * 2021-07-28 2021-10-26 广东工业大学 基于知识蒸馏的瓷砖色差检测方法及装置
EP4194300A1 (en) 2021-08-05 2023-06-14 Autobrains Technologies LTD. Providing a prediction of a radius of a motorcycle turn
KR102597079B1 (ko) * 2021-09-03 2023-10-31 연세대학교 산학협력단 n차원 텐서 곱 연산을 이용한 합성곱 신경망 압축 방법 및 장치
CN113723358B (zh) * 2021-09-15 2024-07-09 中国电子科技集团公司第三十六研究所 基于生成对抗网络的对抗信号检测方法、装置及电子设备
KR102641500B1 (ko) * 2021-10-06 2024-02-27 서울대학교산학협력단 비지도 도메인 적응 장치 및 방법
CN114022727B (zh) * 2021-10-20 2024-04-26 之江实验室 一种基于图像知识回顾的深度卷积神经网络自蒸馏方法
US11599794B1 (en) 2021-10-20 2023-03-07 Moffett International Co., Limited System and method for training sample generator with few-shot learning
CN114299313B (zh) * 2021-12-24 2022-09-09 北京瑞莱智慧科技有限公司 对抗扰动生成方法、装置及存储介质
CN115082761A (zh) * 2022-01-06 2022-09-20 鸿海精密工业股份有限公司 模型产生装置及方法
CN114708479B (zh) * 2022-03-31 2023-08-29 杭州电子科技大学 一种基于图结构和特征的自适应防御方法
CN114912593A (zh) * 2022-05-06 2022-08-16 上海壁仞智能科技有限公司 用于神经网络中的计算核
CN115115884A (zh) * 2022-06-30 2022-09-27 浪潮(北京)电子信息产业有限公司 对抗样本的检测方法、系统、设备及存储介质
CN115271033B (zh) * 2022-07-05 2023-11-21 西南财经大学 基于联邦知识蒸馏医学图像处理模型构建及其处理方法
CN115481719B (zh) * 2022-09-20 2023-09-15 宁波大学 一种防御基于梯度的对抗攻击的方法
WO2024173179A1 (en) * 2023-02-13 2024-08-22 Essential Knowledge Systems, LLC Methods and apparatus for bounded linear computation outputs
CN116309151B (zh) * 2023-03-06 2024-08-09 腾讯科技(深圳)有限公司 图片去压缩失真网络的参数生成方法、装置和存储介质
CN115935154B (zh) * 2023-03-13 2023-11-24 南京邮电大学 基于稀疏表示与近端算法的射频信号特征遴选与识别方法
CN116030077B (zh) * 2023-03-28 2023-06-06 石家庄铁道大学 基于多数据集协作学习的视频显著性区域检测方法
CN117573908B (zh) * 2024-01-16 2024-03-19 卓世智星(天津)科技有限公司 基于对比学习的大语言模型蒸馏方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170351952A1 (en) 2016-06-01 2017-12-07 Kla-Tencor Corporation Systems and methods incorporating a neural network and a forward physical model for semiconductor applications
WO2018083671A1 (en) 2016-11-04 2018-05-11 Deepmind Technologies Limited Reinforcement learning with auxiliary tasks

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6222525B1 (en) 1992-03-05 2001-04-24 Brad A. Armstrong Image controllers with sheet connected sensors
US5670988A (en) 1995-09-05 1997-09-23 Interlink Electronics, Inc. Trigger operated electronic device
US11428937B2 (en) 2005-10-07 2022-08-30 Percept Technologies Enhanced optical and perceptual digital eyewear
US8696113B2 (en) 2005-10-07 2014-04-15 Percept Technologies Inc. Enhanced optical and perceptual digital eyewear
US20070081123A1 (en) 2005-10-07 2007-04-12 Lewis Scott W Digital eyewear
US9304319B2 (en) 2010-11-18 2016-04-05 Microsoft Technology Licensing, Llc Automatic focus improvement for augmented reality displays
KR101997852B1 (ko) 2010-12-24 2019-10-01 매직 립, 인코포레이티드 인체공학적 머리 장착식 디스플레이 장치 및 광학 시스템
US10156722B2 (en) 2010-12-24 2018-12-18 Magic Leap, Inc. Methods and systems for displaying stereoscopy with a freeform optical system with addressable focus for virtual and augmented reality
CN103635891B (zh) 2011-05-06 2017-10-27 奇跃公司 大量同时远程数字呈现世界
US10795448B2 (en) 2011-09-29 2020-10-06 Magic Leap, Inc. Tactile glove for human-computer interaction
RU2621633C2 (ru) 2011-10-28 2017-06-06 Мэджик Лип, Инк. Система и способ для дополненной и виртуальной реальности
EP2841991B1 (en) 2012-04-05 2020-01-08 Magic Leap, Inc. Wide-field of view (fov) imaging devices with active foveation capability
US9671566B2 (en) 2012-06-11 2017-06-06 Magic Leap, Inc. Planar waveguide apparatus with diffraction element(s) and system employing same
WO2014043196A1 (en) 2012-09-11 2014-03-20 Magic Leap, Inc Ergonomic head mounted display device and optical system
NZ751593A (en) 2013-03-15 2020-01-31 Magic Leap Inc Display system and method
US9874749B2 (en) 2013-11-27 2018-01-23 Magic Leap, Inc. Virtual and augmented reality systems and methods
KR102341870B1 (ko) 2013-10-16 2021-12-20 매직 립, 인코포레이티드 조절가능한 동공간 거리를 가지는 가상 또는 증강 현실 헤드셋들
US9857591B2 (en) 2014-05-30 2018-01-02 Magic Leap, Inc. Methods and system for creating focal planes in virtual and augmented reality
KR102378457B1 (ko) 2013-11-27 2022-03-23 매직 립, 인코포레이티드 가상 및 증강 현실 시스템들 및 방법들
US10203762B2 (en) 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
AU2015255652B2 (en) 2014-05-09 2018-03-29 Google Llc Systems and methods for using eye signals with secure mobile communications
US10521718B1 (en) * 2015-09-28 2019-12-31 Google Llc Adversarial training of neural networks
US20180012411A1 (en) 2016-07-11 2018-01-11 Gravity Jack, Inc. Augmented Reality Methods and Devices
CN115097937A (zh) 2016-11-15 2022-09-23 奇跃公司 用于长方体检测的深度学习系统
KR102302725B1 (ko) 2017-03-17 2021-09-14 매직 립, 인코포레이티드 룸 레이아웃 추정 방법들 및 기술들
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
US10657259B2 (en) * 2017-11-01 2020-05-19 International Business Machines Corporation Protecting cognitive systems from gradient based attacks through the use of deceiving gradients
JP7328993B2 (ja) 2018-05-17 2023-08-17 マジック リープ, インコーポレイテッド ニューラルネットワークの勾配型敵対的訓練

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170351952A1 (en) 2016-06-01 2017-12-07 Kla-Tencor Corporation Systems and methods incorporating a neural network and a forward physical model for semiconductor applications
WO2018083671A1 (en) 2016-11-04 2018-05-11 Deepmind Technologies Limited Reinforcement learning with auxiliary tasks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yaroslav Ganin,Domain-Adversarial Training of Neural Networks,Journal of Machine Learning Research 2016,2016年05月26日,Vol.17,P.1-35

Also Published As

Publication number Publication date
EP3794516A4 (en) 2022-03-16
CN112368719A (zh) 2021-02-12
EP3794516A2 (en) 2021-03-24
US20210192357A1 (en) 2021-06-24
US20240330691A1 (en) 2024-10-03
WO2019222401A2 (en) 2019-11-21
WO2019222401A3 (en) 2020-01-02
JP2021523468A (ja) 2021-09-02
US12020167B2 (en) 2024-06-25

Similar Documents

Publication Publication Date Title
JP7328993B2 (ja) ニューラルネットワークの勾配型敵対的訓練
JP7213241B2 (ja) ニューラルネットワークに関するマルチタスク学習のためのメタ学習
Lemley et al. Deep learning for consumer devices and services: pushing the limits for machine learning, artificial intelligence, and computer vision
CN110309856A (zh) 图像分类方法、神经网络的训练方法及装置
CN111373419A (zh) 用于深度多任务网络中自适应损失平衡的梯度归一化系统和方法
US20180336469A1 (en) Sigma-delta position derivative networks
CN113302620A (zh) 使用机器学习模型确定对象与人之间的关联
Mafeni Mase et al. Benchmarking deep learning models for driver distraction detection
US20220405528A1 (en) Task-based image masking
Singh et al. Shunt connection: An intelligent skipping of contiguous blocks for optimizing MobileNet-V2
EP3591581B1 (en) Method and apparatus for building image model
CN112232355B (zh) 图像分割网络处理、图像分割方法、装置和计算机设备
US10970331B2 (en) Determining contextual confidence of images using associative deep learning
US20230401838A1 (en) Image processing method and related apparatus
US20230351203A1 (en) Method for knowledge distillation and model genertation
Ansar et al. Robust hand gesture tracking and recognition for healthcare via Recurent neural network
Irfan et al. Enhancing learning classifier systems through convolutional autoencoder to classify underwater images
Park et al. A single depth sensor based human activity recognition via convolutional neural network
KR102334666B1 (ko) 얼굴 이미지 생성 방법
Ikram A benchmark for evaluating Deep Learning based Image Analytics
Ferreira et al. Dimensional emotion recognition using visual and textual cues
Elons GPU implementation for arabic sign language real time recognition using multi-level multiplicative neural networks
Sinha et al. Ensemble based feature extraction and deep learning classification model with depth vision
Kondaveeti et al. Lightweight deep learning: Introduction, advancements, and applications
Bhaidasna et al. A Survey on Different Deep Learning Model for Human Activity Recognition Based on Application

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220512

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230804

R150 Certificate of patent or registration of utility model

Ref document number: 7328993

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150