JP7213241B2 - ニューラルネットワークに関するマルチタスク学習のためのメタ学習 - Google Patents

ニューラルネットワークに関するマルチタスク学習のためのメタ学習 Download PDF

Info

Publication number
JP7213241B2
JP7213241B2 JP2020523791A JP2020523791A JP7213241B2 JP 7213241 B2 JP7213241 B2 JP 7213241B2 JP 2020523791 A JP2020523791 A JP 2020523791A JP 2020523791 A JP2020523791 A JP 2020523791A JP 7213241 B2 JP7213241 B2 JP 7213241B2
Authority
JP
Japan
Prior art keywords
network
meta
task
tasks
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020523791A
Other languages
English (en)
Other versions
JP2021503122A5 (ja
JP2021503122A (ja
Inventor
アンドリュー ラビノビッチ,
ヴィジャイ バドリナラヤナン,
スリヴィグネシュ ラジェンドラン,
チェン-ユー リー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of JP2021503122A publication Critical patent/JP2021503122A/ja
Publication of JP2021503122A5 publication Critical patent/JP2021503122A5/ja
Application granted granted Critical
Publication of JP7213241B2 publication Critical patent/JP7213241B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Description

(関連出願の相互参照)
本願は、参照することによってその全体として本明細書に組み込まれる、「Meta Learning for Multi-Task Learning」と題され、2017年11月14日に出願された、米国特許出願第62/586,154号の優先権の利益を主張する。
本開示は、概して、機械学習のためのシステムおよび方法に関し、より具体的には、メタ学習技法を使用する、機械学習モデルの訓練に関する。
深層ニューラルネットワーク(DNN)は、算出機械学習方法である。DNNは、人工ニューラルネットワーク(NN)のクラスに属する。NNでは、生物学的神経網の特徴を模倣する、算出グラフが、構築される。生物学的神経網は、算出に顕著な特徴を含み、そうでなければ他の方法を通して捕捉することが困難であり得る、生物学系の能力の多くに関与する。いくつかの実装では、そのようなネットワークは、接続が一方向性である、シーケンシャル層化構造の中に配列される。例えば、特定の層の人工ニューロンの出力は、後続層の人工ニューロンの入力に接続されることができる。DNNは、多数の層(例えば、数十、数百、またはより多い層)を伴う、NNであり得る。
異なるNNは、異なる観点において相互に異なる。例えば、異なるNNのトポロジまたはアーキテクチャ(例えば、層の数および層が相互接続される方法)および加重は、異なり得る。加重は、生物学系における神経接続のシナプス強度にほぼ類似し得る。加重は、1つの層から別の層に伝搬される効果の強度に影響を及ぼす。人工ニューロンの出力は、その入力の加重和の非線形関数であり得る。NNの加重は、これらの総和に現れる、加重であり得る。
単一のニューラルネットワークを用いた複数のタスクの学習を自動化するための、メタ学習アプローチおよび関連付けられる方法およびシステムが、説明される。タスクがニューラルネットワークによって学習される順序は、ネットワークの性能に影響を及ぼし得、メタ学習アプローチは、マルチタスク訓練のためのタスクレベルのカリキュラムを使用することができる。タスクレベルのカリキュラムは、訓練の間、損失関数の軌跡を監視することによって学習されることができる。メタ学習アプローチは、訓練の間にタスク損失の平衡加重を適応させることを学習し、現実世界のデータセットに関する複数のタスク上での改良された性能を得ることができる。有利なこととして、異なるタスク損失間の加重を動的に平衡させることを学習することは、高価なランダム検索または発見的手法によって決定される、静的加重の使用に優る、優れた性能につながり得る。メタ学習アプローチの実施形態は、コンピュータビジョンタスクまたは自然言語処理タスクのために使用されることができ、訓練されたニューラルネットワークは、拡張または仮想現実デバイスによって使用されることができる。
本明細書に説明される主題の1つ以上の実装の詳細は、付随の図面および以下の説明に記載される。他の特徴、側面、および利点が、説明、図面、および請求項から明白となるであろう。本概要または以下の詳細な説明のいずれも、本発明の主題の範囲を定義または限定することを主張するものではない。
本発明は、例えば、以下を提供する。
(項目1)
メタ学習を使用してマルチタスクニューラルネットワークを訓練するためのシステムであって、前記システムは、
非一過性記憶装置であって、
複数のタスクと関連付けられる出力を決定するように構成されるマルチタスクニューラルネットワークであって、前記複数のタスクの各タスクは、タスク損失関数と関連付けられ、マルチタスク損失関数と関連付けられる前記マルチタスクニューラルネットワークは、前記複数のタスクの各タスクに対するタスク加重および前記タスク損失関数の組み合わせを含む、マルチタスクニューラルネットワークと、
前記複数のタスクのうちのタスクの各々と関連付けられる前記タスク加重を出力するように構成されるメタネットワークであって、メタネットワーク損失関数と関連付けられる前記メタネットワークは、少なくとも部分的に前記マルチタスク損失関数に基づいた予期される損失を含む、メタネットワークと
を記憶するように構成される、非一過性記憶装置と、
前記非一過性記憶装置と通信するハードウェアプロセッサであって、前記ハードウェアプロセッサは、
前記複数のタスクに関する複数の基準タスク出力と関連付けられる訓練データにアクセスすることと、
前記メタネットワーク損失関数を低減または最小限にし、前記複数のタスクのうちのタスクの各々と関連付けられる推定されるタスク加重を決定することと、
少なくとも部分的に前記推定されるタスク加重に基づいて、前記マルチタスク損失関数を低減または最小限にすることと、
訓練されたマルチタスクニューラルネットワークを出力することと
を行うようにプログラムされる、ハードウェアプロセッサと
を備える、システム。
(項目2)
前記マルチタスクニューラルネットワークのタスクは、場面理解と関連付けられる、項目1に記載のシステム。
(項目3)
前記タスクは、意味論セグメント化、深度、または面法線のうちの少なくとも1つを含む、項目2に記載のシステム。
(項目4)
前記マルチタスク損失関数は、前記複数のタスク内のタスクの全てに関して、前記タスク加重×前記タスク損失関数の線形結合を含む、項目1に記載のシステム。
(項目5)
前記メタネットワークは、長・短期記憶(LSTM)モジュールを備える、項目1に記載のシステム。
(項目6)
前記メタネットワーク損失関数は、訓練窓に関する最適化軌跡にわたる前記マルチタスク損失関数の和を含む、項目1に記載のシステム。
(項目7)
前記メタネットワーク損失関数を低減または最小限にするために、前記ハードウェアプロセッサは、適応モーメント推定を使用して、時間を通して誤差逆伝搬法を適用するようにプログラムされる、項目1に記載のシステム。
(項目8)
前記マルチタスク損失関数を低減または最小限にするために、前記ハードウェアプロセッサは、確率勾配降下法を適用するようにプログラムされる、項目1に記載のシステム。
(項目9)
前記マルチタスクニューラルネットワークは、畳み込みニューラルネットワークを含む、項目1に記載のシステム。
(項目10)
前記ハードウェアプロセッサはさらに、
各訓練時間において、前記マルチタスク損失関数および前記メタネットワーク損失関数の値を監視することと、
前記複数のタスクをともに訓練するためのタスクレベルのカリキュラムを決定することと
を行うようにプログラムされる、項目1に記載のシステム。
(項目11)
メタ学習およびメタネットワークを使用し、子ニューラルネットワークを訓練するための方法であって、前記方法は、
子ニューラルネットワークに関する適応加重を出力するように構成されるメタネットワークにアクセスすることと、
少なくとも部分的に、前記子ニューラルネットワークに関する子損失関数に基づいて、前記メタネットワークを訓練することであって、前記子損失関数は、少なくとも部分的に前記適応加重に依存する、ことと、
前記メタネットワークを用いて、更新された適応加重を出力することと、
前記更新された適応加重を使用して、前記子ニューラルネットワークを訓練することと、
訓練された子ネットワークを出力することと
を含む、方法。
(項目12)
前記メタネットワークおよび前記子ネットワークを訓練するための訓練データセットにアクセスすることをさらに含む、項目11に記載の方法。
(項目13)
前記メタネットワークは、再帰ニューラルネットワークを含む、項目12に記載の方法。
(項目14)
前記再帰ニューラルネットワークは、長・短期記憶(LSTM)モジュールを備える、項目13に記載の方法。
(項目15)
前記子ニューラルネットワークは、マルチタスクニューラルネットワークを含む、項目13に記載の方法。
(項目16)
前記マルチタスクニューラルネットワークは、個々のタスクと関連付けられる前記適応加重およびタスク損失関数の組み合わせを含むマルチタスク損失関数を含む、項目15に記載の方法。
(項目17)
前記個々のタスクをともに訓練することと関連付けられるタスクレベルのカリキュラムを決定することをさらに含む、項目16に記載の方法。
(項目18)
前記メタネットワークを訓練することは、訓練窓にわたるメタネットワーク損失関数の軌跡を監視することを含む、項目13に記載の方法。
(項目19)
頭部搭載型ディスプレイシステムであって、
非一過性メモリであって、
実行可能命令と、
複数のタスクと関連付けられる出力を決定するためのマルチタスクネットワークであって、前記マルチタスクネットワークは、
前記マルチタスクネットワークの複数のタスクに関する適応加重を出力するように構成されるメタネットワークと、
マルチタスクニューラルネットワークに関するマルチタスク損失関数であって、前記マルチタスク損失関数は、少なくとも部分的に前記メタネットワークによって学習される前記適応加重に依存する、マルチタスク損失関数と
を使用して訓練される、マルチタスクネットワークと
を記憶するように構成される、非一過性メモリと、
ディスプレイと、
センサと、
前記非一過性メモリおよび前記ディスプレイおよび前記センサと通信するハードウェアプロセッサであって、前記ハードウェアプロセッサは、前記実行可能命令によって、
前記センサによって捕捉されるセンサデータを受信することと、
入力として前記センサデータを伴う前記マルチタスクネットワークを使用して、前記複数のタスクの各タスクに対してタスク出力を決定することと、
前記ディスプレイに、前記頭部搭載型ディスプレイシステムのユーザに、前記決定されたタスク出力に関連する情報を示させることと
を行うようにプログラムされる、ハードウェアプロセッサと
を備える、システム。
(項目20)
前記複数のタスクは、複数の知覚タスクを含む、項目19に記載のシステム。
(項目21)
前記複数の知覚タスクは、顔認識、視覚的検索、ジェスチャ識別、意味論セグメント化、深度推定、面法線推定、場面認識、オブジェクト検出、照明検出、同時位置特定およびマッピング、再位置特定、またはそれらの組み合わせを含む、項目20に記載のシステム。
(項目22)
前記センサは、慣性測定ユニット、外向きに向いたカメラ、深度感知カメラ、マイクロホン、眼結像カメラ、またはそれらの組み合わせを含む、項目21に記載のシステム。
(項目23)
ニューラルネットワークを訓練し、タスクのセットを学習するためのシステムであって、前記システムは、
非一過性メモリであって、
実行可能命令と、
複数のタスクを学習するための子ネットワークであって、前記子ネットワークは、前記複数のタスクに関する損失関数と関連付けられ、タスク加重は、前記複数のタスクの各タスクに割り当てられる、子ネットワークと
を記憶するように構成される、非一過性メモリと、
前記非一過性メモリと通信するハードウェアプロセッサであって、前記ハードウェアプロセッサは、前記実行可能命令によって、
前記子ネットワークの損失関数と関連付けられる第1の子ネットワーク損失を決定することと、
前記第1の子ネットワーク損失に基づいて、前記複数のタスクの各タスクに対して更新されたタスク加重を決定することと、
前記複数のタスクの各タスクに対して前記更新されたタスク加重に基づいて、更新された子ネットワークを決定することと、
前記更新された子ネットワークの損失関数と関連付けられる第2の子ネットワーク損失を決定することと、
少なくとも前記第2の子ネットワーク損失に基づいて、前記複数のタスクの各タスクに対して第2の更新されたタスク加重を決定することと
を行うようにプログラムされる、ハードウェアプロセッサと
を備える、システム。
(項目24)
前記ハードウェアプロセッサはさらに、前記第1および第2の子ネットワーク損失間の関係を学習するようにプログラムされる、項目23に記載のシステム。
(項目25)
前記ハードウェアプロセッサは、少なくとも前記第1および第2の子ネットワーク損失間の前記関係に基づいて、前記第2の更新されたタスク加重を決定するようにプログラムされる、項目24に記載のシステム。
(項目26)
前記複数のタスクは、少なくとも、意味論セグメント化と、深度予測と、面法線推定とを含む、項目23に記載のシステム。
(項目27)
前記複数のタスクは、回帰タスク、分類タスク、またはそれらの組み合わせを含む、項目23に記載のシステム。
(項目28)
前記分類タスクは、知覚、顔認識、視覚的検索、ジェスチャ認識、意味論セグメント化、オブジェクト検出、部屋レイアウト推定、直方体検出、照明検出、同時位置特定およびマッピング、再位置特定、発話処理、発話認識、自然言語処理、または組み合わせを含む、項目27に記載のシステム。
図1A-1から1C-2は、NYUv2データセットに関する1つの深層ニューラルネットワーク内において複数のタスクを異なる順序で訓練するステップからの観察を図示する。タスク1、2、および3は、それぞれ、意味論セグメント化、深度予測、および面法線推定である。図1A-1、1B-1、および1C-1は、訓練の間にタスクに対応するための、平衡加重の実施例(アルファ1、アルファ2、およびアルファ3)を図示する。図1A-2、1B-2、および1C-2は、総訓練損失(上図)および試験訓練損失(下図)の実施例を図示する。 図1A-1から1C-2は、NYUv2データセットに関する1つの深層ニューラルネットワーク内において複数のタスクを異なる順序で訓練するステップからの観察を図示する。タスク1、2、および3は、それぞれ、意味論セグメント化、深度予測、および面法線推定である。図1A-1、1B-1、および1C-1は、訓練の間にタスクに対応するための、平衡加重の実施例(アルファ1、アルファ2、およびアルファ3)を図示する。図1A-2、1B-2、および1C-2は、総訓練損失(上図)および試験訓練損失(下図)の実施例を図示する。 図1A-1から1C-2は、NYUv2データセットに関する1つの深層ニューラルネットワーク内において複数のタスクを異なる順序で訓練するステップからの観察を図示する。タスク1、2、および3は、それぞれ、意味論セグメント化、深度予測、および面法線推定である。図1A-1、1B-1、および1C-1は、訓練の間にタスクに対応するための、平衡加重の実施例(アルファ1、アルファ2、およびアルファ3)を図示する。図1A-2、1B-2、および1C-2は、総訓練損失(上図)および試験訓練損失(下図)の実施例を図示する。 図1A-1から1C-2は、NYUv2データセットに関する1つの深層ニューラルネットワーク内において複数のタスクを異なる順序で訓練するステップからの観察を図示する。タスク1、2、および3は、それぞれ、意味論セグメント化、深度予測、および面法線推定である。図1A-1、1B-1、および1C-1は、訓練の間にタスクに対応するための、平衡加重の実施例(アルファ1、アルファ2、およびアルファ3)を図示する。図1A-2、1B-2、および1C-2は、総訓練損失(上図)および試験訓練損失(下図)の実施例を図示する。 図1A-1から1C-2は、NYUv2データセットに関する1つの深層ニューラルネットワーク内において複数のタスクを異なる順序で訓練するステップからの観察を図示する。タスク1、2、および3は、それぞれ、意味論セグメント化、深度予測、および面法線推定である。図1A-1、1B-1、および1C-1は、訓練の間にタスクに対応するための、平衡加重の実施例(アルファ1、アルファ2、およびアルファ3)を図示する。図1A-2、1B-2、および1C-2は、総訓練損失(上図)および試験訓練損失(下図)の実施例を図示する。 図1A-1から1C-2は、NYUv2データセットに関する1つの深層ニューラルネットワーク内において複数のタスクを異なる順序で訓練するステップからの観察を図示する。タスク1、2、および3は、それぞれ、意味論セグメント化、深度予測、および面法線推定である。図1A-1、1B-1、および1C-1は、訓練の間にタスクに対応するための、平衡加重の実施例(アルファ1、アルファ2、およびアルファ3)を図示する。図1A-2、1B-2、および1C-2は、総訓練損失(上図)および試験訓練損失(下図)の実施例を図示する。
図2は、メタネットワークと、子ネットワークとを含む、例示的メタ学習システムのブロック図である。
図3A-3Fは、グリッド検索と、等加重マルチタスク学習とを伴うメタ学習メタネットワークの実施形態の性能を比較する、数値結果の実施例を図示する。3つのタスクは、場面理解、すなわち、セグメント化、深度、および面法線のためのコンピュータビジョンタスクである。図3Aは、例示的メタ学習軌跡を示し、図3Bは、3つのタスクに関する収束されたタスク加重の実施例を示し、図3C-3Fは、タスク全体(図3C)および各個々のタスク、すなわち、セグメント化(図3D)、深度(図3E)、および面法線(図3F)に関する、訓練損失(上図)および試験損失(下図)の実施例を示す。 図3A-3Fは、グリッド検索と、等加重マルチタスク学習とを伴うメタ学習メタネットワークの実施形態の性能を比較する、数値結果の実施例を図示する。3つのタスクは、場面理解、すなわち、セグメント化、深度、および面法線のためのコンピュータビジョンタスクである。図3Aは、例示的メタ学習軌跡を示し、図3Bは、3つのタスクに関する収束されたタスク加重の実施例を示し、図3C-3Fは、タスク全体(図3C)および各個々のタスク、すなわち、セグメント化(図3D)、深度(図3E)、および面法線(図3F)に関する、訓練損失(上図)および試験損失(下図)の実施例を示す。 図3A-3Fは、グリッド検索と、等加重マルチタスク学習とを伴うメタ学習メタネットワークの実施形態の性能を比較する、数値結果の実施例を図示する。3つのタスクは、場面理解、すなわち、セグメント化、深度、および面法線のためのコンピュータビジョンタスクである。図3Aは、例示的メタ学習軌跡を示し、図3Bは、3つのタスクに関する収束されたタスク加重の実施例を示し、図3C-3Fは、タスク全体(図3C)および各個々のタスク、すなわち、セグメント化(図3D)、深度(図3E)、および面法線(図3F)に関する、訓練損失(上図)および試験損失(下図)の実施例を示す。 図3A-3Fは、グリッド検索と、等加重マルチタスク学習とを伴うメタ学習メタネットワークの実施形態の性能を比較する、数値結果の実施例を図示する。3つのタスクは、場面理解、すなわち、セグメント化、深度、および面法線のためのコンピュータビジョンタスクである。図3Aは、例示的メタ学習軌跡を示し、図3Bは、3つのタスクに関する収束されたタスク加重の実施例を示し、図3C-3Fは、タスク全体(図3C)および各個々のタスク、すなわち、セグメント化(図3D)、深度(図3E)、および面法線(図3F)に関する、訓練損失(上図)および試験損失(下図)の実施例を示す。 図3A-3Fは、グリッド検索と、等加重マルチタスク学習とを伴うメタ学習メタネットワークの実施形態の性能を比較する、数値結果の実施例を図示する。3つのタスクは、場面理解、すなわち、セグメント化、深度、および面法線のためのコンピュータビジョンタスクである。図3Aは、例示的メタ学習軌跡を示し、図3Bは、3つのタスクに関する収束されたタスク加重の実施例を示し、図3C-3Fは、タスク全体(図3C)および各個々のタスク、すなわち、セグメント化(図3D)、深度(図3E)、および面法線(図3F)に関する、訓練損失(上図)および試験損失(下図)の実施例を示す。 図3A-3Fは、グリッド検索と、等加重マルチタスク学習とを伴うメタ学習メタネットワークの実施形態の性能を比較する、数値結果の実施例を図示する。3つのタスクは、場面理解、すなわち、セグメント化、深度、および面法線のためのコンピュータビジョンタスクである。図3Aは、例示的メタ学習軌跡を示し、図3Bは、3つのタスクに関する収束されたタスク加重の実施例を示し、図3C-3Fは、タスク全体(図3C)および各個々のタスク、すなわち、セグメント化(図3D)、深度(図3E)、および面法線(図3F)に関する、訓練損失(上図)および試験損失(下図)の実施例を示す。
図4は、マルチタスク学習に関するメタ学習のための例示的プロセスのフロー図である。
図5は、本明細書に説明されるメタ学習技法を用いて訓練されたマルチタスクネットワークの実施形態を実装し得る、ウェアラブルディスプレイシステムの実施例を図式的に図示する。
図面全体を通して、参照番号は、参照される要素間の対応を示すために再使用され得る。図面は、本明細書に説明される例示的実施形態を図示するために提供され、本開示の範囲を限定することを意図するものではない。
概要
学習するための学習、すなわち、メタ学習は、DNNを訓練するための十分な利点を有し得る。1つの具体的なタスク(例えば、意味論セグメント化)のためにDNNを訓練するステップは、ネットワークアーキテクチャの慎重な設計を通して行われ得る。しかしながら、複数のものを解決するために単一のDNNを訓練するステップは、課題をもたらす。例えば、複数の目的が存在するときに学習目的を平衡させることは、1つのそのような課題である。本多目的問題は、各目的が、異なる性質(例えば、クロスエントロピ、二乗損失、コサイン損失等)であり、種々のスケールを有するときに、より困難なものになり得る。
ある場合には、ネットワークが、1つを上回る目的関数を用いて訓練されている場合、ネットワークは、マルチタスク学習を実施し得る。暗黙的なマルチタスク学習は、領域提案および最終検出目的をともに最適化することによって、Fast/Faster R-CNN等の畳み込みニューラルネットワーク(CNN)において実施されることができる。YOLO/SSD(You Only Look Once/シングルショットマルチボックス検出)等のワンショットオブジェクト検出器アプローチはさらに、領域提案構造を除去し、アンカ分類損失を最適化することによって1つの順方向パス内の場所および境界ボックス出力を直接予測する。これらのタイプのモデルは、最終目標が単一のタスクのみであるにもかかわらず、1つを上回る損失関数を同時に最小限にさせ得る。
暗黙的または明示的なマルチタスク学習のいくつかの実施形態は、訓練の間、異なるタスク間の準最適な平衡加重(比率)のための、手動調整またはグリッド検索を要求する。グリッド検索は、訓練のいくつかの(通常、高価な)反復を実施するステップを伴い得、これは、タスクの数に伴って不適切に増減する。さらに、訓練全体を通して平衡加重を固定することは、いくつかのタスクが、他のものより早く訓練される必要があり得るため、概して、準最適な訓練をもたらす。
故に、本開示は、単一の深層ネットワークを用いた複数のタスクの学習を自動化するための、メタ学習アプローチの種々の実施形態を提供する。学習目的は、タスクの全ておよびそれらの個々の性能の学習効率を増加させる、または最大限にすることであり得る。数値実験は、異なるタスクの試験性能が、タスクが学習された順序によって影響を及ぼされ得ることを示しており(例えば、図1A-1C参照)、故に、改良された、または最適な性能を達成するためには、学習の反復全体を通して、複数の目的を動的に平衡させる必要性があり得る。メタ学習の実施形態は、損失平衡のために正常に活用されることができ、いくつかのそのような実施形態は、発見的手法またはグリッド検索を使用して損失を静的に平衡させるステップより優れ得る。
本明細書で言及されるいくつかの実施形態は、単一のネットワークを使用して複数のタスクをともに訓練するためのタスクレベルのカリキュラムを発見するために、メタネットワークを訓練する。いくつかの実施形態は、マルチタスクネットワークを訓練するために使用される、複数の目的を平衡させる、メタネットワークを訓練することを対象とする。メタネットワークのいくつかの実施形態は、いくつかのタスクが、タスクレベルのカリキュラムの様式におけるように他のものに先立って学習されるように、加重を平衡させることを学習する。
いくつかの実施形態では、メタネットワークは、各訓練反復における損失間の平衡加重を予測する。これらの損失の軌跡を観察することによって、メタネットワークは、単一のネットワークを使用して複数のタスクをともに訓練するための、タスクレベルのカリキュラムを発見することを学習してもよい。タスクレベルのカリキュラムは、タスク間学習の動態に対応することができ、例えば、いくつかのタスクは、他のタスク(例えば、可能性として、より不安定な/バリアントなタスク)より早く学習されるべきである(例えば、可能性として、より安定した/インバリアントなタスク)。
いくつかの実施形態は、グリッド検索アプローチを使用するときに重い、人間の直感またはリソースに基づいて困難である、異なるタスクに関する学習スケジュールを提供する。メタ学習アプローチは、コンピュータビジョン、発話認識、または自然言語処理に関するデータセットを含む、多くの現実世界のデータセットに適用されることができる。実施例として、本明細書に説明されるいくつかのアプリケーションは、部屋レイアウトにおける場面理解(例えば、意味論セグメント化、深度予測、または面法線推定)等のコンピュータビジョンのためのものである。
1つの例示的メタネットワークにおける、意味論セグメント化、深度予測、および面法線推定をともに訓練するステップに関する数値実験は、メタネットワークが、最初に深度を学習し、次いで、面法線の学習に徐々に焦点を合わせ、最後に、意味論セグメント化を学習することを実証する。メタネットワークによって発見された本学習順序は、乳児の視覚皮質系の発達に見出されるパターンに従う。
本出願人は、タスクレベルのカリキュラムが、いくつかの実装におけるマルチタスク学習のために有利であり得ることを発見している。メタネットワークの実施形態は、メタ学習フレームワークにおける本マルチタスク動態を捕捉することが可能であり、人間の直感または包括的グリッド検索アプローチを使用することによって見出され得ない、異なるタスクに関する重要な学習スケジュールを決定することができる。
(タスクレベルのカリキュラム学習)
複数のタスクに関する深層ニューラルネットワークを訓練するための1つの方法は、自動的にタスクのセットを学習するための、手動で設計されるアルゴリズム/ネットワークアーキテクチャを作成することである。しかしながら、人間の体験ベースまたは手動で設計されたアルゴリズムの調整は、あるタスクのためには最適ではない場合がある。人間が設計した学習アルゴリズムの一実施例は、カリキュラム学習である。実施例に関して無作為の順序で訓練するのではなく、カリキュラム学習は、人が設計した難易度メトリックに基づいて、意味のある順序を使用して訓練実施例を再加重することに焦点を置く(例えば、順序は、徐々に、より多くの実施例と、徐々に、より複雑な実施例とに関して訓練する)。継続方法は、非凸基準の最小化に対処するための最適化方略を含む。これらのアプローチは、最初に、容易な訓練実施例を用いてモデルを最適化し、徐々に、困難な訓練実施例に向かって移行することを目的とする。1つの基本的パラダイムは、問題の平滑なバージョンが、大域的な像を明らかにするという直感を用いて、最初に、平滑化された目的を最適化し、徐々に、平滑化を考慮しなくなることである。
タスクレベルのカリキュラム学習と称され得る、別の例示的訓練方法は、タスクがマルチタスクニューラルネットワーク内で学習される順序に対処する。これらのタイプの方法は、より容易なタスクを使用し、サブネットワークを事前訓練してもよく、事前に訓練されたサブネットワーク上で、より困難なタスクを訓練してもよい。
本明細書では、メタネットワークを訓練し、タスクレベルの学習カリキュラムを予測するためのシステムおよび方法が、説明される。いくつかの実施形態では、メタネットワークは、各訓練反復において、損失間の平衡加重を予測する。これらの損失の軌跡を観察することによって、メタネットワークは、単一のネットワークを使用して複数のタスクをともに訓練するための、タスクレベルのカリキュラムを発見することを学習し得る。タスクレベルのカリキュラムは、タスク間の学習動態に対応することができ、例えば、いくつかのタスクは、他のタスク(例えば、可能性として、より不安定な/バリアントなタスク)より早く学習されるべきである(例えば、可能性として、より安定した/インバリアントなタスク)。
(グリッド検索を通した1つのネットワーク内での複数のタスクの訓練)
マルチタスク学習を解決するステップにおいて使用され得る、1つの技法は、グリッド検索を使用することによってK個の異なるタスクに関する最適平衡加重αを発見することによるものである。いったん加重αが、選択されると、加重は、訓練全体を通して定数としてとどまることができる。いくつかの実施形態では、メタネットワークは、最初に、タスクが訓練される順序が重要であるかどうかを確認してもよい。これに対処するために、アブレーション研究が、訓練順序が学習に影響を及ぼす方法を決定するために、タスクが1つの単一ネットワーク内で訓練される順序を並べ替えることによって実施された。
1つの深層ネットワークを使用した異なる順序で訓練される複数のタスクの訓練からの例示的観察が、図1A-1Cに示される。深層ネットワークによって学習される複数のタスクは、タスク1、2、および3として標識され、それぞれ、意味論セグメント化、深度予測、および面法線推定を指す。DNNは、NYUv2データセット(下記に説明される)に関して訓練された。
図1A-1は、訓練の間の対応するタスク1および2に関する、平衡加重アルファ1(α)およびアルファ2(α)を示す。図1A-2は、図1A-1に描写される平衡加重を使用してタスク1および2を訓練するステップからの、総訓練損失および試験損失を示す。図1B-1は、訓練の間の対応するタスク2および3に関する、平衡加重アルファ2(α)およびアルファ3(α)を示す。図1B-2は、図1B-1に描写される平衡加重を使用してタスク2および3を訓練するステップからの、総訓練損失および試験損失を示す。図1C-1は、訓練の間の対応するタスク1および3に関する、平衡加重アルファ1(α)およびアルファ3(α)を示す。図1C-2は、図1C-1に描写される平衡加重を使用してタスク1および3を訓練するステップからの、総訓練損失および試験損失を示す。
図1A-1Cでは、表記「タスクi->タスクj」は、訓練の開始時に高いタスクi加重αでタスクiに関して高い値を割り当て、次いで、徐々に、高いタスクj加重αに変化することを表す。タスク加重は、毎訓練ステップにおいて合計が1になるように制約された。図1A-1、1B-1、および1C-1は、訓練の間に得られる訓練ステップの関数として、加重の変化を図示する。
図1A-1および1A-2に描写されるように、タスク1(セグメント化)からタスク2(深度)、またはタスク2(深度)からタスク1(セグメント化)への訓練のいずれであっても、ネットワークは、同一の訓練損失値にほぼ収束する。しかしながら、試験損失は、劇的に異なる挙動を明らかにし、すなわち、タスク1から訓練するステップは、はるかにより低い全体的試験損失を与える。本タスク順序に特有のネットワーク訓練挙動はまた、図1B-2および1C-2に見られ得る。これらの実験において、本挙動は、同一の訓練時間量下で生じ、タスク加重は、毎訓練ステップにおいて常時、合計が1になることに留意されたい。言い換えると、各タスクは、同一の訓練時間量を受け取る。
手短に言えば、図1A-1Cは、異なるタスクの焦点を伴う訓練間の例示的差異を実証する。例えば、図1A-2、1B-2、および1C-2の各々に対し、ネットワークは、ほぼ同一の訓練損失値に収束する。しかしながら、試験損失は、同一の訓練時間下で、平衡加重が合計1になる状態でも、劇的に異なる挙動を明らかにする。故に、異なるタスクの試験性能は、タスクが訓練される間に学習された順序によって影響を及ぼされ得る。
(メタ学習による例示的マルチタスク学習)
種々の実施形態では、マルチタスク学習が、それらの関連付けられる加重αを伴うK個の異なるタスクに関する、損失関数
Figure 0007213241000001
の加重線形和の形態で実施される。
Figure 0007213241000002
本例示的マルチタスクネットワークは、メタネットワークを使用し、そのような子ネットワークをメタ学習フレームワーク内で学習する方法の導入として、子ネットワークとして示される。
メタ学習のいくつかの実施形態では、目的は、訓練セットχ上のK個のタスクの全てを可能な限り良好に実施することである。本目的は、そのパラメータφを伴うメタネットワーク目的関数
Figure 0007213241000003
によって捕捉されることができる。最適な子ネットワークパラメータ
Figure 0007213241000004
は、メタネットワークパラメータφおよび当該損失関数の関数であることができる。損失関数
Figure 0007213241000005
の分布を前提として、予期される損失を、以下のように定式化することができる。
Figure 0007213241000006
式中、
Figure 0007213241000007
は、子損失関数にわたる期待演算子である。
メタネットワークmは、子ネットワークの現在の損失値およびメタネットワークのパラメータφを前提として、適応加重αを生成する。子ネットワークは、したがって、本更新されたαのセットを用いて、
Figure 0007213241000008
から更新された子ネットワークパラメータθを算出することができる。いくつかの実施形態では、長・短期記憶(LSTM)モジュール等の再帰モデルが、隠蔽された状態がhによって示されるメタネットワークmとして使用されることができる。方程式(2)の出力は、子ネットワークの訓練過程の最後に実際の学習信号を提供し、したがって、T個のステップの訓練窓に関する最適化の軌跡に依存する目的を有することは、便宜的であり得る。
Figure 0007213241000009
式中、以下の通りである。
Figure 0007213241000010
全ての訓練反復tにおいて、メタネットワークmは、最新の学習軌跡
Figure 0007213241000011
およびLSTMの隠蔽された状態hを前提として、平衡加重αk,tの新しいセットを生成する。
いくつかの実施形態では、メタネットワーク損失関数
Figure 0007213241000012
の値は、φに関して勾配降下を使用して、低減される、または最小限にされることができる。人間の直感または発見的手法によって最適なαを検索する代わりに、いくつかの実施形態は、データに基づいた方式で、損失
Figure 0007213241000013
の相対的関係を学習する際に、φに対する本メタ学習目的を低減させる、または最小限にすることができる。メタネットワークは、多くの最適化曲線を消費し、そのパラメータを調節し、動的に全てのタスク間の最適な関係係数αを生成することを学習し得る。本アプローチは、目的関数
Figure 0007213241000014
が、訓練軌跡の履歴へのアクセスを有しておらず、オプティマイザが、現在の目的値に基づいて最良な加重αを見出すことのみを可能にし得るため、加重αに対して
Figure 0007213241000015
を直接最適化するステップとは異なる。
図2は、メタネットワーク204と、子ネットワーク208とを含む、例示的メタ学習システム200のブロック図である。方程式(1)から(4)を参照して説明されるように、メタネットワーク損失関数
Figure 0007213241000016
は、メタネットワークのパラメータφに依存することができ、子ネットワーク損失関数
Figure 0007213241000017
は、子ネットワークのパラメータθに依存することができ、これは、随意に、訓練反復tに依存することができる。メタネットワーク損失関数の値は、低減される、または最小限にされ、子ネットワークに関する適応加重のセットを提供することができる。子ネットワークが、マルチタスクネットワークを含む場合、適応加重は、タスクα毎の加重であることができる。いくつかの実施形態では、メタネットワークは、隠蔽された状態212を含むことができる。メタネットワーク204は、長・短期記憶(LSTM)モジュール等の再帰モデルを含むことができる。子ネットワークは、したがって、本更新された適応加重のセットを用いて、その損失関数
Figure 0007213241000018
から更新された子ネットワークパラメータθを算出することができる。上記に説明されるように、メタ学習システム200は、最適化軌跡にわたって反復し、損失関数を最小限にすることができる。
(例示的メタ学習問題およびメタネットワーク)
コンピュータビジョンにおける最も一般的かつ自然なマルチタスク学習問題の1つは、場面の幾何学形状を捕捉し、場面内のオブジェクトを認識することである。オブジェクト認識は、拡張現実のための、および自律運転に対するオブジェクト間の支援関係を推測するステップのための、リアルタイムの3次元(3D)再構成等の幅広い一連の用途を有する。
方程式(1)から(4)に関して説明されるメタ学習技法のある実施形態が、現実世界の場面理解データセットNYUv2に関して適用された。NYUv2データセットは、640×480分解能の屋内場面における、整合された色(RGB)および深度画像の1,449個の密集して標識された対を含む。子ネットワークおよびメタネットワークは、795個の訓練実施例に関して訓練され、試験結果が、654個の別個の試験実施例に関して計算された。数値実験では、画像は、算出負担を低減させるために128×128分解能までダウンサンプリングされた。
NYUv2データセットは、3つのタスクスイート、すなわち、意味論セグメント化、深度予測、および面法線推定を備え、これらは、マルチタスクメタ学習シナリオに関する良好な候補タスクである。
意味論セグメント化は、ピクセルレベルで画像を理解するステップを含む。メタ学習は、NYUv2データセット内で説明される13個の意味論標識を用いて意味論クラスセットに関して評価された。クロスエントロピ損失関数が、意味論セグメント化のために使用され、ピクセル毎のクラス確率を学習し、Intersection over Unionの平均(mIoU)メトリックを使用して、試験セットの正確度を報告した。
深度予測に関して、L1損失関数が、深度予測のために、ピクセル毎に管理された深度回帰訓練を実施するために使用された。数値実験では、深度が、訓練および試験のためにメートル(0~10メートル)で測定され、グランドトゥルース深度が、RGBDセンサから捕捉された。
面法線訓練に関して、ピクセル毎のコサイン距離(例えば、1-|cosθ|)が、使用された(式中、θは、グランドトゥルース面法線ベクトルと予測される面法線ベクトルとの間の角度を測定する)。各面法線ベクトルは、x、y、およびz方向を表す、3つの成分を含む。NYUv2ツールボックスが、深度グランドトゥルースおよびカメラパラメータから面法線グランドトゥルースを生成するために使用された。
数値実験では、メタネットワークアーキテクチャは、各層内に20個の隠れユニットを伴う、2層LSTMを利用した。メタネットワークの出力は、ソフトマックス関数を通過し、生成された加重αが、合計1になり、ゼロを上回ることを確実にした。メタネットワークは、0.001の学習率を伴うADAM最適化アルゴリズム(適応モーメント推定)を使用して時間を通した逆伝搬(BPTT)によって方程式(3)を最小限にすることによって、訓練された。実験では、1のノルム値における勾配クリッピングが、利用され、訓練を改良した。本方法は、実験全体を通して一定に保持される、隠れユニットの数(20)の影響を比較的に受けないことが見出された。
実験では、マルチタスク子ネットワークは、2のストライドを使用した最初の2つの畳み込み層を除いては、ストライド1を伴う6つの3×3畳み込み層を含む、深層の完全畳み込みネットワークであった。各畳み込み層は、16個のフィルタを有し、全ての非直線性が、正規化線形ユニット(ReLU)のアクティブ化であり、その後にバッチの正規化が、続く。各訓練ステップにおいて、メタネットワークは、訓練された3つのタスク全てに関するタスク平衡加重αの新しいセットを生成した。子ネットワークは、これらの適応加重を使用し、それ自体の子ネットワークパラメータθに対する勾配を算出した。子ネットワークは、0.9の運動量、0.01の学習率、および10のバッチサイズの標準的な確率勾配降下を用いて訓練された。全てのパラメータが、i.i.d.ガウス分布を用いて初期化された。
メタ学習メタネットワークからの結果が、2つの一般的に使用されるマルチタスク学習技法、すなわち、等加重およびグリッド検索と比較された。等加重技法は、3つのタスク全てに関して、0.333の同一のα値を使用した。グリッド検索に関して、各αに対する検索空間からの0.02のステップサイズが、加重が合計で1であり、全て正であるという制約に伴って使用された。1,200回のグリッド検索実行からの最良の結果が、図3A-3Fおよび表1に要約される。
図3Aは、3つのタスクのセット、すなわち、意味論セグメント化(タスク1)、深度検出(タスク2)、および面法線推定(タスク3)を学習する方法を学習する、例示的メタネットワークの学習軌跡の実施例を示す。図3Aは、0回、100回、200回、300回、および400回の訓練反復に関するある損失値に対する学習軌跡の収束を示す。図3Bは、例示的メタネットワークの1つの学習軌跡のための、3つのタスクに関する最終的な収束されたタスク加重値αを示す。
図3C-3Fは、意味論セグメント化(タスク1)、深度検出(タスク2)、および面法線推定(タスク3)を学習する方法を学習するための、等加重、グリッド検索によって制御される、マルチタスク学習と、NYUv2データセットに関するメタ学習メタネットワークのある実施形態との間の比較を示す。図3Cは、3つのタスクの全てに関する、全体的な訓練損失および試験損失を図示する。図3D、3E、3Fは、各個々のタスク、すなわち、セグメント化(図3D)、深度(図3E)、および面法線(図3F)に関する訓練損失および試験損失を図示する。
メタネットワークの実施形態は、訓練の過程全体を通して異なるタスクに関する平衡加重αを動的に調節し、等加重およびグリッド検索アプローチと比較して、より良好な収束率およびより低い試験損失をもたらす。
表1は、等加重およびグリッド検索と比較される、本明細書に説明されるメタ学習技法に関する比較実験結果の要約を示す。表1はまた、ガウス尤度仮定に基づいて各タスクからの出力の等分散的不確実性を算出し、原タスク目的との共同の不確実性タスク平衡加重を学習する、近年開発された不確実性加重アプローチとの比較を示す。
Figure 0007213241000019
表1から理解され得るように、訓練性能は、メタ学習マルチタスク学習技法のある実施形態を用いて訓練すると(例えば、方程式(1)から(4)参照)、単一のタスクモデル、加重損失、グリッド検索、および不確実性加重に優って改良されることができる。
(マルチタスク学習のための例示的メタ学習プロセス)
図4は、メタ学習およびメタネットワークを使用して子ネットワークを訓練するための、例示的プロセス800のフロー図である。子ネットワークは、複数のタスク(例えば、場面理解)と関連付けられた出力を決定するために使用される、マルチタスクネットワークを備えることができる。子ネットワークは、複数の共有層と、複数のタスク特有フィルタを備える、出力層とを備えることができる。非一過性メモリと、ハードウェアプロセッサとを伴う、コンピューティングシステム等のコンピューティングシステムは、プロセス800を実施し、子ネットワークを訓練することができる。コンピューティングシステムの非一過性メモリは、実行可能命令を記憶する、または記憶するように構成されることができる。ハードウェアプロセッサは、非一過性メモリと通信し、実行可能命令によって、プロセス800を実施し、メタ学習の実施形態を使用して、子ネットワークを訓練するようにプログラムされることができる。
ブロック804において、プロセス800は、訓練データにアクセスする。訓練データは、子ネットワークに関する複数の基準タスク出力と関連付けられた訓練画像を含むことができる。複数のタスクは、回帰タスク、分類タスク、またはそれらの組み合わせを含むことができる。複数のタスクは、例えば、顔認識、視覚的検索、ジェスチャ識別または認識、場面理解、意味論セグメント化、深度推定、面法線推定、オブジェクト検出、部屋レイアウト推定、直方体検出、照明検出、同時位置特定およびマッピング、オブジェクトまたはアバタの再位置特定等の知覚タスク、または発話認識または自然言語処理等の発話処理タスク、またはそれらの組み合わせを含むことができる。
ブロック808において、プロセス800は、子ネットワークにアクセスする。子ネットワークは、マルチタスクニューラルネットワークであってもよい。子ネットワークは、子ネットワークのパラメータθに依存し得る、子ネットワーク損失関数と関連付けられることができる。例えば、子ネットワーク損失関数
Figure 0007213241000020
は、それらの関連付けられる加重αを伴う、K個の異なるタスクに関する損失
Figure 0007213241000021
の加重線形結合を含んでもよい(例えば、方程式(1)参照)。子ネットワークパラメータθは、訓練反復時間tに依存することができる。
ブロック812において、プロセス800は、メタネットワークにアクセスする。メタネットワークは、メタネットワークのパラメータφに依存し得る、メタネットワーク損失関数
Figure 0007213241000022
と関連付けられることができる。種々の実施形態では、メタネットワーク損失関数は、方程式(2)または(3)を参照して上記に説明されるように定式化されることができる。
ブロック816において、プロセス800は、メタネットワークを訓練し、子損失関数に関する適応加重を提供する。適応加重は、マルチタスク子ネットワークのタスクと関連付けられる、加重αであることができる。訓練されたメタネットワークは、それによって、子ネットワークの現在の損失値およびメタネットワークのパラメータφを前提として、適応加重αを生成する。メタネットワークは、例えば、長・短期記憶(LSTM)モジュール等の再帰モデルを含むことができる。メタネットワークは、確率勾配降下法によって、またはADAM最適化アルゴリズム(例えば、適応モーメント推定)のある実施形態を使用した時間(BPTT)を通した逆伝搬によって訓練されることができる。プロセス800は、方程式(3)および(4)を使用したT個のステップの訓練窓に関する最適化の軌跡に基づいて、メタネットワークを訓練することができる。いくつかのそのような実施形態では、全ての訓練反復tにおいて、メタネットワークは、子
Figure 0007213241000023
の最新の学習軌跡およびメタネットワークの隠蔽された状態hを前提として、平衡加重の新しいセットを生成する。
ブロック820において、プロセス800は、ブロック816において学習された適応加重に基づいて、子ネットワークを訓練する。例えば、子ネットワークは、これらの適応加重を使用し、例えば、確率勾配降下を介してそれ自体の子ネットワークパラメータθに対する勾配を算出することができる。ブロック816および820は、十分な収束が達成されるまで、反復されることができる。
ブロック824では、プロセス800は、訓練された子ネットワークを出力する。訓練された子ネットワークは、AR、VR、またはMRディスプレイデバイスのメモリ内に記憶され、子ネットワークと関連付けられるタスクを実施するために使用されることができる(例えば、図5を参照して説明される、ウェアラブルシステムと関連付けられる説明参照)。
(例示的NN層)
関数、アルゴリズム、システム、および同等物等のデータ関係およびパターンを表す、モデルは、入力を受け取り、ある方法において、入力に対応する、出力を生産し得る。例えば、モデルは、畳み込みニューラルネットワーク(CNN)または深層ニューラルネットワーク(DNN)等の機械学習方法として実装されてもよい。深層学習は、タスク特有方法とは対照的に、学習データ表現の概念に基づく、より広義の機械学習方法の系統の一部であって、拡張現実(AR)、複合現実(MR)、仮想現実(VR)、および機械知能のために有用な視聴覚算出問題を解決する際の大きな有望性を示す。機械学習では、畳み込みニューラルネットワーク(CNNまたはConvNet)は、あるクラスの深層フィードフォワード人工ニューラルネットワークを含むことができ、CNNは、視覚的画像の分析への適用において成功を収めている。機械学習方法は、眼画像セグメント化または眼追跡を含む、多種多様な問題に対するロバストかつ正確なソリューションを有効にし得る、ある系統の方法を含む。
深層ニューラルネットワーク(DNN)等のニューラルネットワーク(NN)の層は、線形または非線形変換をその入力に適用し、その出力を生成することができる。深層ニューラルネットワーク層は、正規化層、畳み込み層、ソフトサイン層、正規化線形層、連結層、プーリング層、再帰層、インセプション様層、または任意のそれらの組み合わせであることができる。正規化層は、例えば、L2正規化を用いて、その入力の明度を正規化し、その出力を生成することができる。正規化層は、例えば、相互に対して一度に複数の画像の明度を正規化し、複数の正規化された画像をその出力として生成することができる。明度を正規化するための方法の非限定的実施例は、ローカルコントラスト正規化(LCN)またはローカル応答正規化(LRN)を含む。ローカルコントラスト正規化は、平均値ゼロおよび分散1(または他の値の平均値および分散)を有するようにピクセル毎に画像のローカル領域を正規化することによって、画像のコントラストを非線形に正規化することができる。ローカル応答正規化は、平均値ゼロおよび分散1(または他の値の平均値および分散)を有するように、画像をローカル入力領域にわたって正規化することができる。正規化層は、訓練プロセスを加速させ得る。
畳み込み層は、その入力を畳み込み、その出力を生成する、カーネルのセットに適用されることができる。ソフトサイン層は、ソフトサイン関数をその入力に適用することができる。ソフトサイン関数(softsign(x))は、例えば、(x/(1+|x|))であることができる。ソフトサイン層は、要素毎の外れ値の影響を無視し得る。正規化線形層は、正規化線形層単位(ReLU)またはパラメータ化された正規化線形層単位(PReLU)であることができる。ReLU層は、ReLU関数をその入力に適用し、その出力を生成することができる。ReLU関数ReLU(x)は、例えば、max(0,x)であることができる。PReLU層は、PReLU関数をその入力に適用し、その出力を生成することができる。PReLU関数PReLU(x)は、例えば、x≧0の場合はx、およびx<0の場合はaxであることができる(aは、正の数である)。連結層は、その入力を連結し、その出力を生成することができる。例えば、連結層は、4つの5×5画像を連結し、1つの20×20画像を生成することができる。プーリング層は、その入力をダウンサンプリングし、その出力を生成する、プーリング関数を適用することができる。例えば、プーリング層は、20×20画像を10×10画像にダウンサンプリングすることができる。プーリング関数の非限定的実施例は、最大プーリング、平均プーリング、または最小プーリングを含む。
時間点tでは、再帰層は、隠蔽された状態s(t)を算出することができ、再帰接続は、時間tにおける隠蔽された状態s(t)を再帰層に後続時間点t+1における入力として提供することができる。再帰層は、時間tにおける隠蔽された状態s(t)に基づいて、時間t+1におけるその出力を算出することができる。例えば、再帰層は、ソフトサイン関数を時間tにおいて隠蔽された状態s(t)に適用し、時間t+1におけるその出力を算出することができる。時間t+1における再帰層の隠蔽された状態は、その入力として、時間tにおける再帰層の隠蔽された状態s(t)を有する。再帰層は、例えば、ReLU関数をその入力に適用することによって、隠蔽された状態s(t+1)を算出することができる。インセプション様層は、正規化層、畳み込み層、ソフトサイン層、ReLU層およびPReLU層等の正規化線形層、連結層、プーリング層、または任意のそれらの組み合わせのうちの1つ以上のものを含むことができる。
NN内の層の数は、異なる実装では異なり得る。例えば、DNN内の層の数は、50、100、200、またはそれを上回り得る。深層ニューラルネットワーク層の入力タイプは、異なる実装では異なり得る。例えば、層は、いくつかの層の出力をその入力として受信することができる。層の入力は、5つの層の出力を含むことができる。別の実施例として、層の入力は、NNの層の1%を含むことができる。層の出力は、いくつかの層の入力であることができる。例えば、層の出力は、5つの層の入力として使用されることができる。別の実施例として、層の出力は、NNの層の1%の入力として使用されることができる。
層の入力サイズまたは出力サイズは、非常に大きくあることができる。層の入力サイズまたは出力サイズは、n×mであることができる(nは、入力または出力の幅を示し、mは、高さを示す)。例えば、nまたはmは、11、21、31、またはより大きいことができる。層の入力または出力のチャネルサイズは、異なる実装では異なり得る。例えば、層の入力または出力のチャネルサイズは、4、16、32、64、128、またはより大きいことができる。層のカーネルサイズは、異なる実装では異なり得る。例えば、カーネルサイズは、n×mであることができる(nは、カーネルの幅を示し、mは、高さを示す)。例えば、nまたはmは、5、7、9、またはより大きいことができる。層のストライドサイズは、異なる実装では異なり得る。例えば、深層ニューラルネットワーク層のストライドサイズは、3、5、7、またはより大きいことができる。
いくつかの実施形態では、NNは、NNの出力をともに算出する、複数のNNを指し得る。複数のNNの異なるNNは、異なるタスクに関して訓練されることができる。プロセッサ(例えば、図5を参照して説明されるローカルデータ処理モジュール924のプロセッサ)は、複数のNNのNNの出力を算出し、NNの出力を決定することができる。例えば、複数のNNのNNの出力は、尤度スコアを含むことができる。プロセッサは、複数のNNの異なるNNの出力の尤度スコアに基づいて、複数のNNを含む、NNの出力を決定することができる。
(例示的ウェアラブルディスプレイシステム)
いくつかの実施形態では、ユーザデバイスは、ウェアラブルディスプレイデバイスであり得る、またはウェアラブルディスプレイデバイス内に含まれることができ、これは、有利なこととして、より没入型の仮想現実(VR)、拡張現実(AR)、または複合現実(MR)体験を提供し得、デジタル的に再現された画像またはその一部が、それらが現実のように見える、または現実として知覚され得る様式で装着者に提示される。
理論によって限定されるわけではないが、人間の眼は、典型的には、奥行知覚を提供するために、有限数の深度平面を解釈し得ると考えられる。その結果、知覚される奥行の非常に真実味のあるシミュレーションが、これらの限定された数の深度平面のそれぞれに対応する画像の異なる表現を眼に提供することによって達成され得る。例えば、導波管のスタックを含有するディスプレイが、ユーザまたは視認者の眼の正面に位置付けられて装着されるように構成され得る。導波管のスタックは、複数の導波管を使用し、画像投入デバイス(例えば、1つ以上の光ファイバを介して画像情報を送る、多重化ディスプレイの離散ディスプレイまたは出力端)から、特定の導波管と関連付けられる深度平面に対応する特定の角度(および発散量)において視認者の眼に光を指向させることによって、3次元知覚を眼/脳に提供するために利用され得る。
いくつかの実施形態では、導波管の2つのスタック(視認者の眼毎に1つ)が、異なる画像を各眼に提供するために利用され得る。一実施例として、拡張現実場面は、AR技術の装着者が、人物、木、背景の建物、およびコンクリートプラットフォームを特徴とする現実世界の公園のような設定を見るようなものであり得る。これらのアイテムに加えて、AR技術の装着者はまた、自身が、現実世界プラットフォーム上に立つロボットの像およびマルハナバチの擬人化のように見える飛行する漫画的アバタキャラクタを、そのロボットの像およびマルハナバチが現実世界に存在していないにもかかわらず、「見ている」と知覚し得る。導波管のスタックは、入力画像に対応するライトフィールドを生成するために使用され得、いくつかの実装では、ウェアラブルディスプレイは、ウェアラブルライトフィールドディスプレイを備える。ライトフィールド画像を提供するためのウェアラブルディスプレイデバイスおよび導波管スタックの実施例が、米国特許公開第2015/0016777号(参照することによって、これが含有するあらゆるものに関してその全体として本明細書に組み込まれる)に説明されている。
図5は、VR、AR、またはMR体験をディスプレイシステム装着者または視認者904に提示するために使用され得る、ウェアラブルディスプレイシステム900の実施例を図示する。ウェアラブルディスプレイシステム900は、本明細書に説明される用途または実施形態のいずれかを実施するようにプログラムされてもよい(例えば、CNNまたはDNNの実行、入力アクティブ化マップまたはカーネルの値の並替、眼画像セグメント化、または眼追跡)。ディスプレイシステム900は、ディスプレイ908と、そのディスプレイ908の機能をサポートするための種々の機械的および電子的モジュールおよびシステムとを含む。ディスプレイ908は、ディスプレイシステム装着者または視認者904によって装着可能であって、ディスプレイ908を装着者904の眼の正面に位置付けるように構成される、フレーム912に結合されてもよい。ディスプレイ908は、ライトフィールドディスプレイであってもよい。いくつかの実施形態では、スピーカ916が、フレーム912に結合され、ユーザの外耳道に隣接して位置付けられる。いくつかの実施形態では、示されない別のスピーカが、ユーザの他方の外耳道に隣接して位置付けられ、ステレオ/調節可能音制御を提供する。ディスプレイシステム900は、装着者904の周囲の環境の画像(例えば、静止画像またはビデオ)を取得し得る、外向きに向いた結像システム944(例えば、1つ以上のカメラ)を含むことができる。外向きに向いた結像システム944によって取得される画像は、装着者904の周囲の環境内の、図2および4を参照して説明されるメタ学習方法900によって訓練されたマルチタスクネットワークの実施形態によって分析されることができる。
ディスプレイ908は、有線導線または無線コネクティビティ等によって、ローカルデータ処理モジュール924に動作可能に結合され920、これは、フレーム912に固定して取り付けられる、ユーザによって装着されるヘルメットまたは帽子に固定して取り付けられる、ヘッドホンに内蔵される、または別様にユーザ904に除去可能に取り付けられる(例えば、リュック式構成において、ベルト結合式構成において)等、種々の構成において搭載され得る。
ローカル処理およびデータモジュール924は、ハードウェアプロセッサおよび不揮発性メモリ(例えば、フラッシュメモリ)等の非一過性デジタルメモリを備えてもよく、その両方とも、データの処理、キャッシュ、および記憶を補助するために利用され得る。データは、(a)画像捕捉デバイス(カメラ等)、マイクロホン、慣性測定ユニット、加速度計、コンパス、GPSユニット、無線デバイス、および/またはジャイロスコープ等のセンサ(例えば、フレーム912に動作可能に結合され得る、または別様に装着者904に取り付けられ得る)から捕捉されるデータ、および/または(b)場合によっては、そのような処理または読出後にディスプレイ908への通過のために、遠隔処理モジュール928および/または遠隔データリポジトリ932を使用して入手および/または処理されるデータを含む。ローカル処理およびデータモジュール924は、これらの遠隔モジュール928、932が、相互に動作可能に結合され、ローカル処理およびデータモジュール924へのリソースとして利用可能であるように、有線または無線通信リンク等を介して、通信リンク936、940によって、遠隔処理モジュール928および遠隔データリポジトリ932に動作可能に結合されてもよい。画像補足デバイスは、眼画像セグメント化または眼追跡プロシージャにおいて使用される眼画像を捕捉するために使用されることができる。
いくつかの実施形態では、遠隔処理モジュール928は、画像捕捉デバイスによって捕捉されたビデオ情報等のデータおよび/または画像情報を分析および処理するように構成される、1つ以上のプロセッサを備えてもよい。ビデオデータは、ローカル処理およびデータモジュール924および/または遠隔データリポジトリ932内でローカルに記憶されてもよい。いくつかの実施形態では、遠隔データリポジトリ932は、デジタルデータ記憶設備を備え得、これは、インターネットまたは「クラウド」リソース構成における他のネットワーキング構成を通して利用可能であってもよい。いくつかの実施形態では、全てのデータが、記憶され、全ての算出が、ローカル処理およびデータモジュール924において実施され、遠隔モジュールからの完全に自律的な使用を可能にする。
いくつかの実装では、ローカル処理およびデータモジュール924および/または遠隔処理モジュール928は、本明細書に開示される、入力アクティブ化マップまたはカーネルの値の並替、眼画像セグメント化、または眼追跡の実施形態を実施するようにプログラムされる。例えば、ローカル処理およびデータモジュール924および/または遠隔処理モジュール928は、図2および4を参照して説明される方法90を使用して訓練されたマルチタスクネットワークを使用して、タスク予測および決定の実施形態を実施するようにプログラムされることができる。画像捕捉デバイスは、特定の用途(例えば、拡張現実(AR)、人間とコンピュータの相互作用(HCI)、自律車両、ドローン、またはロボット全般)のためのビデオを捕捉することができる。ビデオは、CNNを使用して、処理モジュール924、928の一方または両方によって分析されることができる。ある場合には、入力アクティブ化マップまたはカーネルの値の並替、眼画像セグメント化、または眼追跡の少なくともいくつかを遠隔処理モジュール(例えば、「クラウド」内の)にオフロードすることは、算出の効率または速度を改良し得る。CNNまたはDNNのパラメータ(例えば、加重、バイアス項、プーリング層のためのサブサンプリング係数、異なる層内のカーネルの数およびサイズ、特徴マップの数等)は、データモジュール924および/または932内に記憶されることができる。例えば、データモジュール924、932は、本明細書に説明されるメタ学習およびメタネットワークを使用する訓練から学習されているパラメータを記憶することができる。
タスク予測または決定の結果(例えば、図2および4を参照して説明されるメタ学習マルチタスクネットワーク900の出力)は、付加的動作または処理のために、処理モジュール924、928の一方または両方によって使用されることができる。例えば、ウェアラブルディスプレイシステム900の処理モジュール924、928は、マルチタスクネットワークの出力に基づいて、付加的用途(拡張現実、人間とコンピュータの相互作用(HCI)、自律車両、ドローン、またはロボット全般における用途等)を実施するようにプログラムされることができる。
(付加的タスク)
メタ学習の実施形態は、メタネットワークが画像または視覚的データ上で訓練される、コンピュータビジョンタスクに限定されない。他の実施形態では、訓練サンプルは、オーディオデータ、加速データ、測位データ、温度データ、無線周波数データ、および光学追跡データ等のセンサによって捕捉された非架空データを含むことができる。センサの実施例は、オーディオセンサ(例えば、マイクロホン)、慣性測定ユニット(IMU)、加速度計、コンパス、ジャイロスコープ、温度センサ、移動センサ、深度センサ、全地球測位システム(GPS)ユニット、および無線デバイスを含む。他の実施形態では、訓練サンプルは、性別、年齢、心拍数、体温、白血球数、疾患状態、疾患進行度、症状、疾患診断等の測定値を含むことができる。例えば、発話認識または自然言語処理に関連するタスクに関して、訓練サンプルは、オーディオデータセット(またはビデオに添付されるオーディオデータ)または単語、文、段落、およびテキストの電子表現または埋め込み(例えば、n-グラム)を含むことができる。タスクは、例えば、品詞(POS)タグ付け、チャンキング、係り受け解析、意味的関連性、またはテキスト含意を含むことができる。
マルチネットワークによって学習され得る、タスクは、回帰タスク、分類タスク、またはそれらの組み合わせを含むことができる。タスクは、例えば、顔認識、視覚的検索、ジェスチャ識別または認識、意味論セグメント化、オブジェクト検出、部屋レイアウト推定、直方体検出、照明検出、同時位置特定およびマッピング、オブジェクトまたはアバタの再位置特定等の知覚タスク、または発話認識または自然言語処理等の発話処理タスク、またはそれらの組み合わせを含むことができる。
マルチネットワークによって学習され得る、タスクは、医療的治療または医療上の意思決定に関連することができる。例えば、タスクは、特定の疾患を有し得る患者に実施されるべき実験室試験または患者に関するリスク査定の決定を含むことができる。そのような実施例として、訓練データは、特定の疾患または症状(例えば、肺炎)を患う患者の測定値(例えば、性別、年齢、心拍数、体温、白血球数等)を含むことができる。メタ学習の実施形態は、患者に関するリスク査定または実験室試験を予測するために、マルチタスクネットワークを訓練するために使用されることができる。
したがって、メタ学習によって使用される訓練データは、個別の訓練ラベル、分類、または信号と関連付けられ得る、画像、ビデオ、オーディオ、電子記録、データベース等を含むことができる。
いくつかの実施形態では、本明細書に開示されるメタ学習方法は、コンピュータビジョン、自然言語処理、発話合成、交通予測等のドメイン特有のアプリケーション、一般的クロスドメインアプリケーション、またはカリキュラム学習における用途を有することができる。いくつかの実装では、タスクは、総損失減少等の大域報酬に基づいて、ともに訓練される。メタ学習の実施形態は、拡張、複合、または仮想現実(例えば、コンピュータビジョンまたは言語処理等のAR関連タスクのためのそのようなメタ学習によって訓練されるニューラルネットワークを記憶および利用し得る、例えば、図5を参照して説明される拡張現実システム参照)のために使用される、マルチタスクニューラルネットワークの訓練に適用されることができる。
(付加的側面)
第1の側面では、メタ学習を使用してマルチタスクニューラルネットワークを訓練するためのシステムが、開示される。本システムは、複数のタスクと関連付けられる出力を決定するように構成される、マルチタスクニューラルネットワークであって、複数のタスクの各タスクは、タスク損失関数と関連付けられ、マルチタスク損失関数と関連付けられるマルチタスクニューラルネットワークは、複数のタスクのタスク毎のタスク加重およびタスク損失関数の組み合わせを含む、マルチタスクニューラルネットワークと、複数のタスクのタスクのそれぞれと関連付けられるタスク加重を出力するように構成される、メタネットワークであって、メタネットワーク損失関数と関連付けられるメタネットワークは、少なくとも部分的にマルチタスク損失関数に基づいた、予期される損失を含む、メタネットワークとを記憶するように構成される、非一過性記憶装置と、非一過性記憶装置と通信する、ハードウェアプロセッサであって、複数のタスクに関する複数の基準タスク出力と関連付けられる、訓練データにアクセスし、メタネットワーク損失関数を低減または最小限にし、複数のタスクのタスクのそれぞれと関連付けられる、推定されるタスク加重を決定し、少なくとも部分的に推定されるタスク加重に基づいて、マルチタスク損失関数を低減または最小限にし、訓練されたマルチタスクニューラルネットワークを出力するようにプログラムされる、ハードウェアプロセッサとを備える。
第2の側面では、マルチタスクニューラルネットワークのタスクは、場面理解と関連付けられる、側面1に記載のシステム。
第3の側面では、タスクは、意味論セグメント化、深度、または面法線のうちの少なくとも1つを含む、側面1または2のいずれか1つに記載のシステム。
第4の側面では、マルチタスク損失関数は、複数のタスク内のタスクの全てに関して、タスク加重×タスク損失関数の線形結合を含む、側面1-3のいずれか1項に記載のシステム。
第5の側面では、メタネットワークは、長・短期記憶(LSTM)モジュールを備える、側面1-4のいずれか1項に記載のシステム。
第6の側面では、メタネットワーク損失関数は、訓練窓に関する最適化軌跡にわたる、マルチタスク損失関数の和を含む、側面1-5のいずれか1項に記載のシステム。
第7の側面では、メタネットワーク損失関数を低減または最小限にするために、ハードウェアプロセッサは、適応モーメント推定を使用して、時間を通して誤差逆伝搬法を適用するようにプログラムされる、側面1-6のいずれか1項に記載のシステム。
第8の側面では、マルチタスク損失関数を低減または最小限にするために、ハードウェアプロセッサは、確率勾配降下法を適用するようにプログラムされる、側面1-7のいずれか1項に記載のシステム。
第9の側面では、マルチタスクニューラルネットワークは、畳み込みニューラルネットワークを含む、側面1-8のいずれか1項に記載のシステム。
第10の側面では、ハードウェアプロセッサはさらに、各訓練時間において、マルチタスク損失関数およびメタネットワーク損失関数の値を監視し、複数のタスクをともに訓練するための、タスクレベルのカリキュラムを決定するようにプログラムされる、側面1-9のいずれか1項に記載のシステム。
第11の側面では、メタ学習およびメタネットワークを使用し、子ニューラルネットワークを訓練するための方法が、説明される。本方法は、子ニューラルネットワークに関する適応加重を出力するように構成される、メタネットワークにアクセスするステップと、少なくとも部分的に、子ニューラルネットワークに関する子損失関数に基づいて、メタネットワークを訓練するステップであって、子損失関数は、少なくとも部分的に適応加重に依存する、ステップと、メタネットワークを用いて、更新された適応加重を出力するステップと、更新された適応加重を使用して、子ニューラルネットワークを訓練するステップと、訓練された子ネットワークを出力するステップとを含む。本方法は、ハードウェアプロセッサの制御下で実施されることができる。ハードウェアプロセッサは、メタネットワークおよび子ニューラルネットワークを記憶するように構成される非一過性メモリを通信することができる。
第12の側面では、メタネットワークおよび子ネットワークを訓練するための訓練データセットにアクセスするステップをさらに含む、側面11に記載の方法。
第13の側面では、メタネットワークは、再帰ニューラルネットワークを含む、側面11または12のいずれか1項に記載の方法。
第14の側面では、再帰ニューラルネットワークは、長・短期記憶(LSTM)モジュールを備える、側面13に記載の方法。
第15の側面では、子ニューラルネットワークは、マルチタスクニューラルネットワークを含む、側面11-14のいずれか1項に記載の方法。
第16の側面では、マルチタスクニューラルネットワークは、個々のタスクと関連付けられる、適応加重およびタスク損失関数の組み合わせを含む、マルチタスク損失関数を含む、側面15に記載の方法。
第17の側面では、個々のタスクをともに訓練するステップと関連付けられる、タスクレベルのカリキュラムを決定するステップをさらに含む、側面11-16のいずれか1項に記載の方法。
第18の側面では、メタネットワークを訓練するステップは、訓練窓にわたる、メタネットワーク損失関数の軌跡を監視するステップを含む、側面11-17のいずれか1項に記載の方法。
第19の側面では、頭部搭載型ディスプレイシステムが、説明される。頭部搭載型ディスプレイシステムは、実行可能命令と、複数のタスクと関連付けられる出力を決定するための、マルチタスクネットワークであって、マルチタスクネットワークの複数のタスクに関する適応加重を出力するように構成される、メタネットワークと、マルチタスクニューラルネットワークに関するマルチタスク損失関数であって、少なくとも部分的にメタネットワークによって学習される適応加重に依存する、マルチタスク損失関数とを使用して訓練される、マルチタスクネットワークとを記憶するように構成される、非一過性メモリと、ディスプレイと、センサと、非一過性メモリおよびディスプレイおよびセンサと通信する、ハードウェアプロセッサであって、実行可能命令によって、センサによって捕捉されるセンサデータを受信し、入力としてセンサデータを伴うマルチタスクネットワークを使用して、複数のタスクのタスク毎にタスク出力を決定し、ディスプレイに、頭部搭載型ディスプレイシステムのユーザに、決定されたタスク出力に関連する情報を示させるようにプログラムされる、ハードウェアプロセッサとを備える。
第20の側面では、複数のタスクは、複数の知覚タスクを含む、側面19に記載のシステム。
第21の側面では、複数の知覚タスクは、顔認識、視覚的検索、ジェスチャ識別、意味論セグメント化、深度推定、面法線推定、場面認識、オブジェクト検出、照明検出、同時位置特定およびマッピング、再位置特定、またはそれらの組み合わせを含む、側面20に記載のシステム。
第22の側面では、センサは、慣性測定ユニット、外向きに向いたカメラ、深度感知カメラ、マイクロホン、眼結像カメラ、またはそれらの組み合わせを含む、側面19-21のいずれか1項に記載のシステム。
第23の側面では、ニューラルネットワークを訓練し、タスクのセットを学習するためのシステムが、説明される。本システムは、実行可能命令と、複数のタスクを学習するための子ネットワークであって、複数のタスクに関する損失関数と関連付けられ、タスク加重は、複数のタスクの各タスクに割り当てられる、子ネットワークとを記憶するように構成される、非一過性メモリと、非一過性メモリと通信する、ハードウェアプロセッサであって、実行可能命令によって、子ネットワークの損失関数と関連付けられる、第1の子ネットワーク損失を決定し、第1の子ネットワーク損失に基づいて、複数のタスクのタスク毎に更新されたタスク加重を決定し、複数のタスクのタスク毎に更新されたタスク加重に基づいて、更新された子ネットワークを決定し、更新された子ネットワークの損失関数と関連付けられる、第2の子ネットワーク損失を決定し、少なくとも第2の子ネットワーク損失に基づいて、複数のタスクのタスク毎に第2の更新されたタスク加重を決定するようにプログラムされる、ハードウェアプロセッサとを備える。
第24の側面では、ハードウェアプロセッサはさらに、第1および第2の子ネットワーク損失間の関係を学習するようにプログラムされる、側面23に記載のシステム。
第25の側面では、ハードウェアプロセッサは、少なくとも第1および第2の子ネットワーク損失間の関係に基づいて、第2の更新されたタスク加重を決定するようにプログラムされる、側面23または24のいずれか1項に記載のシステム。
第26の側面では、複数のタスクは、少なくとも、意味論セグメント化と、深度予測と、面法線推定とを含む、側面23-25のいずれか1項に記載のシステム。
第27の側面では、複数のタスクは、回帰タスク、分類タスク、またはそれらの組み合わせを含む、側面23-26のいずれか1項に記載のシステム。
第28の側面では、分類タスクは、知覚、顔認識、視覚的検索、ジェスチャ認識、意味論セグメント化、オブジェクト検出、部屋レイアウト推定、直方体検出、照明検出、同時位置特定およびマッピング、再位置特定、発話処理、発話認識、自然言語処理、またはある組み合わせを含む、側面27に記載のシステム。
付加的考慮事項
本明細書に説明される、および/または添付される図に描写されるプロセス、方法、およびアルゴリズムはそれぞれ、具体的かつ特定のコンピュータ命令を実行するように構成される、1つ以上の物理的コンピューティングシステム、ハードウェアコンピュータプロセッサ、特定用途向け回路、および/または電子ハードウェアによって実行される、コードモジュールにおいて具現化され、それによって完全または部分的に自動化され得る。例えば、コンピューティングシステムは、具体的コンピュータ命令とともにプログラムされた汎用コンピュータ(例えば、サーバ)または専用コンピュータ、専用回路等を含むことができる。コードモジュールは、実行可能プログラムにコンパイルおよびリンクされる、動的リンクライブラリ内にインストールされ得る、またはインタープリタ型プログラミング言語において書き込まれ得る。いくつかの実装では、特定の動作および方法が、所与の機能に特有の回路によって実施され得る。
さらに、本開示の機能性のある実装は、十分に数学的に、算出上、または技術的に複雑であるため、(適切な特殊化された実行可能命令を利用する)特定用途向けハードウェアまたは1つ以上の物理的コンピューティングデバイスは、例えば、関与する計算の量または複雑性に起因して、または結果を実質的にリアルタイムで提供するために、機能性を実施する必要があり得る。例えば、ビデオは、多くのフレームを含み、各フレームは、数百万のピクセルを有し得、具体的にプログラムされたコンピュータハードウェアは、商業的に妥当な時間量において所望の画像処理タスクまたは用途を提供するようにビデオデータを処理する必要がある。別の実施例として、本明細書に説明されるメタ学習方法の実施形態を使用して、深層マルチタスクネットワークを訓練するステップは、算出上困難であって、グラフィカル処理ユニット(GPU)、特定用途向け集積回路(ASIC)、または浮動点ゲートアレイ(FPGA)上に実装されることができる。
コードモジュールまたは任意のタイプのデータは、ハードドライブ、ソリッドステートメモリ、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、光学ディスク、揮発性または不揮発性記憶装置、同一物の組み合わせ、および/または同等物を含む、物理的コンピュータ記憶装置等の任意のタイプの非一過性コンピュータ可読媒体上に記憶されてもよい。本方法およびモジュール(またはデータ)はまた、無線ベースおよび有線/ケーブルベースの媒体を含む、種々のコンピュータ可読伝送媒体上で生成されたデータ信号として(例えば、搬送波または他のアナログまたはデジタル伝搬信号の一部として)伝送されてもよく、種々の形態(例えば、単一または多重化アナログ信号の一部として、または複数の離散デジタルパケットまたはフレームとして)をとってもよい。開示されるプロセスまたはプロセスステップの結果は、任意のタイプの非一過性有形コンピュータ記憶装置内に持続的または別様に記憶されてもよい、またはコンピュータ可読伝送媒体を介して通信されてもよい。
本明細書に説明される、および/または添付される図に描写されるフロー図における任意のプロセス、ブロック、状態、ステップ、または機能性は、プロセスにおいて具体的機能(例えば、論理または算術)またはステップを実装するための1つ以上の実行可能命令を含む、コードモジュール、セグメント、またはコードの一部を潜在的に表すものとして理解されたい。種々のプロセス、ブロック、状態、ステップ、または機能性は、組み合わせられる、再配列される、追加される、削除される、修正される、または別様に本明細書に提供される例証的実施例から変更されることができる。いくつかの実施形態では、付加的または異なるコンピューティングシステムまたはコードモジュールが、本明細書に説明される機能性のいくつかまたは全てを実施し得る。本明細書に説明される方法およびプロセスはまた、任意の特定のシーケンスに限定されず、それに関連するブロック、ステップ、または状態は、適切な他のシーケンスで、例えば、連続して、並行して、またはある他の様式で実施されることができる。タスクまたはイベントが、開示される例示的実施形態に追加される、またはそれから除去されてもよい。また、本明細書に説明される実装における種々のシステムコンポーネントの分離は、例証を目的とし、全ての実装においてそのような分離を要求するものとして理解されるべきではない。説明されるプログラムコンポーネント、方法、およびシステムは、概して、単一のコンピュータ製品においてともに統合される、または複数のコンピュータ製品にパッケージ化され得ることを理解されたい。多くの実装変形例が、可能性として考えられる。
本プロセス、方法、およびシステムは、ネットワーク(または分散)コンピューティング環境において実装され得る。ネットワーク環境は、企業全体コンピュータネットワーク、イントラネット、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、パーソナルエリアネットワーク(PAN)、クラウドコンピューティングネットワーク、クラウドソースコンピューティングネットワーク、インターネット、およびワールドワイドウェブを含む。ネットワークは、有線または無線ネットワークまたは任意の他のタイプの通信ネットワークであってもよい。
本開示のシステムおよび方法は、それぞれ、いくつかの革新的側面を有し、そのうちのいかなるものも、本明細書に開示される望ましい属性に単独で関与しない、またはそのために要求されない。本明細書に説明される種々の特徴およびプロセスは、相互に独立して使用され得る、または種々の方法で組み合わせられ得る。全ての可能な組み合わせおよび副次的組み合わせが、本開示の範囲内に該当することが意図される。本開示に説明される実装の種々の修正が、当業者に容易に明白であり得、本明細書に定義される一般原理は、本開示の精神または範囲から逸脱することなく、他の実装に適用され得る。したがって、請求項は、本明細書に示される実装に限定されることを意図されず、本明細書に開示される開示、原理、および新規の特徴と一貫する最も広い範囲を与えられるべきである。
別個の実装の文脈において本明細書に説明されるある特徴はまた、単一の実装における組み合わせにおいて実装されることができる。逆に、単一の実装の文脈において説明される種々の特徴もまた、複数の実装において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴が、ある組み合わせにおいて作用するものとして上記に説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの1つ以上の特徴は、ある場合では、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。いかなる単一の特徴または特徴の群も、あらゆる実施形態に必要または必須ではない。
とりわけ、「~できる(can)」、「~し得る(could)」、「~し得る(might)」、「~し得る(may)」、「例えば(e.g.,)」、および同等物等、本明細書で使用される条件文は、別様に具体的に記載されない限り、または使用されるような文脈内で別様に理解されない限り、概して、ある実施形態がある特徴、要素、および/またはステップを含む一方、他の実施形態がそれらを含まないことを伝えることが意図される。したがって、そのような条件文は、概して、特徴、要素、および/またはステップが、1つ以上の実施形態に対していかようにも要求されること、または1つ以上の実施形態が、著者の入力または促しの有無を問わず、これらの特徴、要素、および/またはステップが任意の特定の実施形態において含まれる、または実施されるべきかどうかを決定するための論理を必然的に含むことを示唆することを意図されない。用語「~を備える(comprising)」、「~を含む(including)」、「~を有する(having)」、および同等物は、同義語であり、非限定的方式で包括的に使用され、付加的要素、特徴、行為、動作等を除外しない。また、用語「または」は、その包括的意味において使用され(およびその排他的意味において使用されず)、したがって、例えば、要素のリストを接続するために使用されると、用語「または」は、リスト内の要素のうちの1つ、いくつか、または全てを意味する。加えて、本願および添付される請求項で使用されるような冠詞「a」、「an」、および「the」は、別様に規定されない限り、「1つ以上の」または「少なくとも1つ」を意味するように解釈されるべきである。
本明細書で使用されるように、項目のリスト「~のうちの少なくとも1つ」を指す語句は、単一の要素を含む、それらの項目の任意の組み合わせを指す。ある実施例として、「A、B、またはCのうちの少なくとも1つ」は、A、B、C、AおよびB、AおよびC、BおよびC、およびA、B、およびCを網羅することが意図される。語句「X、Y、およびZのうちの少なくとも1つ」等の接続文は、別様に具体的に記載されない限り、概して、項目、用語等がX、Y、またはZのうちの少なくとも1つであり得ることを伝えるために使用されるような文脈で別様に理解される。したがって、そのような接続文は、概して、ある実施形態が、Xのうちの少なくとも1つ、Yのうちの少なくとも1つ、およびZのうちの少なくとも1つがそれぞれ存在するように要求することを示唆することを意図されない。
同様に、動作は、特定の順序で図面に描写され得るが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序で、または連続的順序で実施される、または全ての図示される動作が実施される必要はないと認識されるべきである。さらに、図面は、フローチャートの形態で1つ以上の例示的プロセスを図式的に描写し得る。しかしながら、描写されない他の動作も、図式的に図示される例示的方法およびプロセス内に組み込まれることができる。例えば、1つ以上の付加的動作が、図示される動作のいずれかの前に、その後に、それと同時に、またはその間に実施されることができる。加えて、動作は、他の実装において再配列される、または再順序付けられ得る。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上記に説明される実装における種々のシステムコンポーネントの分離は、全ての実装におけるそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品においてともに統合される、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。加えて、他の実装も、以下の請求項の範囲内である。いくつかの場合では、請求項に列挙されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。

Claims (15)

  1. メタ学習を使用してマルチタスクニューラルネットワークを訓練するためのシステムであって、前記システムは、
    非一過性記憶装置であって、
    複数のタスクと関連付けられる出力を決定するように構成されるマルチタスクニューラルネットワークであって、前記複数のタスクの各タスクは、タスク損失関数と関連付けられ、マルチタスク損失関数と関連付けられる前記マルチタスクニューラルネットワークは、前記複数のタスクの各タスクに対するタスク加重および前記タスク損失関数の組み合わせを含む、マルチタスクニューラルネットワークと、
    前記複数のタスクのうちのタスクの各々と関連付けられる前記タスク加重を出力するように構成されるメタネットワークであって、メタネットワーク損失関数と関連付けられる前記メタネットワークは前記マルチタスク損失関数に少なくとも部分的に基づいた予期される損失を含む、メタネットワークと
    を記憶するように構成される、非一過性記憶装置と、
    前記非一過性記憶装置と通信するハードウェアプロセッサであって、前記ハードウェアプロセッサは、
    前記複数のタスクに関する複数の基準タスク出力と関連付けられる訓練データにアクセスすることと、
    前記メタネットワーク損失関数を低減または最小限にし、前記複数のタスクのうちのタスクの各々と関連付けられる推定されるタスク加重を決定することと、
    記推定されるタスク加重に少なくとも部分的に基づいて、前記マルチタスク損失関数を低減または最小限にすることと、
    訓練されたマルチタスクニューラルネットワークを出力することと
    を行うようにプログラムされる、ハードウェアプロセッサと
    を備える、システム。
  2. 前記マルチタスクニューラルネットワークのタスクは、場面理解と関連付けられる、請求項1に記載のシステム。
  3. 前記タスクは、意味論セグメント化、深度、または面法線のうちの少なくとも1つを含む、請求項2に記載のシステム。
  4. 前記マルチタスク損失関数は、前記複数のタスク内のタスクの全てに関して、前記タスク加重×前記タスク損失関数の線形結合を含む、請求項1に記載のシステム。
  5. 前記メタネットワーク損失関数は、訓練窓に関する最適化軌跡にわたる前記マルチタスク損失関数の和を含む、請求項1に記載のシステム。
  6. 前記メタネットワーク損失関数を低減または最小限にするために、前記ハードウェアプロセッサは、適応モーメント推定を使用して、時間を通して誤差逆伝搬法を適用するようにプログラムされる、請求項1に記載のシステム。
  7. 前記マルチタスクニューラルネットワークは、畳み込みニューラルネットワークを含む、請求項1に記載のシステム。
  8. 前記ハードウェアプロセッサは
    各訓練時間において、前記マルチタスク損失関数および前記メタネットワーク損失関数の値を監視することと、
    前記複数のタスクをともに訓練するためのタスクレベルのカリキュラムを決定することと
    を行うようにさらにプログラムされる、請求項1に記載のシステム。
  9. メタ学習およびメタネットワークを使用し、子ニューラルネットワークを訓練するための方法であって、前記方法は、
    子ニューラルネットワークに関する適応加重を出力するように構成されるメタネットワークにアクセスすることと、
    記子ニューラルネットワークに関する子損失関数に少なくとも部分的に基づいて、前記メタネットワークを訓練することであって、前記子損失関数は、少なくとも部分的に前記適応加重に依存する、ことと、
    前記メタネットワークを用いて、更新された適応加重を出力することと、
    前記更新された適応加重を使用して、前記子ニューラルネットワークを訓練することと、
    訓練された子ネットワークを出力することと
    を含む、方法。
  10. 前記メタネットワークおよび前記子ネットワークを訓練するための訓練データセットにアクセスすることをさらに含む、請求項に記載の方法。
  11. 前記メタネットワークは、再帰ニューラルネットワークを含む、請求項10に記載の方法。
  12. 前記子ニューラルネットワークは、マルチタスクニューラルネットワークを含む、請求項11に記載の方法。
  13. 前記マルチタスクニューラルネットワークは、個々のタスクと関連付けられる前記適応加重およびタスク損失関数の組み合わせを含むマルチタスク損失関数を含む、請求項12に記載の方法。
  14. 前記個々のタスクをともに訓練することと関連付けられるタスクレベルのカリキュラムを決定することをさらに含む、請求項13に記載の方法。
  15. 前記メタネットワークを訓練することは、訓練窓にわたるメタネットワーク損失関数の軌跡を監視することを含む、請求項11に記載の方法。
JP2020523791A 2017-11-14 2018-11-09 ニューラルネットワークに関するマルチタスク学習のためのメタ学習 Active JP7213241B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762586154P 2017-11-14 2017-11-14
US62/586,154 2017-11-14
PCT/US2018/060158 WO2019099305A1 (en) 2017-11-14 2018-11-09 Meta-learning for multi-task learning for neural networks

Publications (3)

Publication Number Publication Date
JP2021503122A JP2021503122A (ja) 2021-02-04
JP2021503122A5 JP2021503122A5 (ja) 2021-12-16
JP7213241B2 true JP7213241B2 (ja) 2023-01-26

Family

ID=66431300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020523791A Active JP7213241B2 (ja) 2017-11-14 2018-11-09 ニューラルネットワークに関するマルチタスク学習のためのメタ学習

Country Status (9)

Country Link
US (2) US11048978B2 (ja)
EP (1) EP3710990A4 (ja)
JP (1) JP7213241B2 (ja)
KR (1) KR20200087780A (ja)
CN (1) CN111328400A (ja)
AU (1) AU2018368279A1 (ja)
CA (1) CA3080005A1 (ja)
IL (1) IL274424B1 (ja)
WO (1) WO2019099305A1 (ja)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3710990A4 (en) 2017-11-14 2021-10-27 Magic Leap, Inc. METALERS FOR MULTITASK LEARNING FOR NEURAL NETWORKS
EP3502978A1 (en) * 2017-12-22 2019-06-26 Siemens Healthcare GmbH Meta-learning system
US10802489B1 (en) 2017-12-29 2020-10-13 Apex Artificial Intelligence Industries, Inc. Apparatus and method for monitoring and controlling of a neural network using another neural network implemented on one or more solid-state chips
US10776581B2 (en) * 2018-02-09 2020-09-15 Salesforce.Com, Inc. Multitask learning as question answering
WO2020064988A1 (en) * 2018-09-27 2020-04-02 Deepmind Technologies Limited Scalable and compressive neural network data storage system
WO2020176112A1 (en) * 2019-02-26 2020-09-03 Google Llc Reinforcement learning techniques for selecting a software policy network and autonomously controlling a corresponding software client based on selected policy network
US11610414B1 (en) * 2019-03-04 2023-03-21 Apple Inc. Temporal and geometric consistency in physical setting understanding
CA3129731A1 (en) * 2019-03-13 2020-09-17 Elliot Meyerson System and method for implementing modular universal reparameterization for deep multi-task learning across diverse domains
EP3948692A4 (en) 2019-03-27 2023-03-29 Cognizant Technology Solutions U.S. Corporation PROCESS AND SYSTEM CONTAINING A SCALABLE SUBSTITUTE-ASSISTED PRESCRIPTIONS OPTIMIZATION ENGINE
CN110298330B (zh) * 2019-07-05 2023-07-18 东北大学 一种输电线路巡检机器人单目检测与定位方法
US11755884B2 (en) * 2019-08-20 2023-09-12 Micron Technology, Inc. Distributed machine learning with privacy protection
US11392796B2 (en) 2019-08-20 2022-07-19 Micron Technology, Inc. Feature dictionary for bandwidth enhancement
CN110580500B (zh) * 2019-08-20 2023-04-18 天津大学 一种面向人物交互的网络权重生成少样本图像分类方法
US11636334B2 (en) 2019-08-20 2023-04-25 Micron Technology, Inc. Machine learning with feature obfuscation
CN110533184B (zh) * 2019-08-31 2023-01-06 南京人工智能高等研究院有限公司 一种网络模型的训练方法及装置
CN110598711B (zh) * 2019-08-31 2022-12-16 华南理工大学 一种结合分类任务的目标分割方法
US11551675B2 (en) 2019-09-03 2023-01-10 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device thereof
CN110705756B (zh) * 2019-09-07 2023-05-12 创新奇智(重庆)科技有限公司 一种基于输入凸神经网络的电力能耗优化控制方法
CN110796260B (zh) * 2019-09-11 2022-04-19 浙江大学 一种基于类扩张学习的神经网络模型优化方法
CN110852447B (zh) * 2019-11-15 2023-11-07 腾讯云计算(北京)有限责任公司 元学习方法和装置、初始化方法、计算设备和存储介质
CN110909885B (zh) * 2019-11-19 2022-09-23 支付宝(杭州)信息技术有限公司 一种平衡多个任务的方法及系统
US10956807B1 (en) 2019-11-26 2021-03-23 Apex Artificial Intelligence Industries, Inc. Adaptive and interchangeable neural networks utilizing predicting information
US11367290B2 (en) 2019-11-26 2022-06-21 Apex Artificial Intelligence Industries, Inc. Group of neural networks ensuring integrity
US10691133B1 (en) * 2019-11-26 2020-06-23 Apex Artificial Intelligence Industries, Inc. Adaptive and interchangeable neural networks
US11366434B2 (en) 2019-11-26 2022-06-21 Apex Artificial Intelligence Industries, Inc. Adaptive and interchangeable neural networks
CN112734798B (zh) * 2019-11-27 2023-11-07 上海联影智能医疗科技有限公司 神经网络的在线自适应系统和方法
CN110929794B (zh) * 2019-11-28 2022-12-13 哈尔滨工程大学 一种基于多任务学习的侧扫声呐图像分类方法
US11348291B2 (en) * 2019-11-29 2022-05-31 Shanghai United Imaging Intelligence Co., Ltd. System and method for reconstructing magnetic resonance images
CN111192248B (zh) * 2019-12-30 2023-05-05 山东大学 一种用于核磁共振成像中的椎体定位、识别和分割的多任务关系学习方法
CN111324695B (zh) * 2020-02-06 2022-12-16 鼎富智能科技有限公司 一种多任务学习方法及装置
CN113365072B (zh) * 2020-03-06 2022-07-01 腾讯美国有限责任公司 特征图压缩方法、装置、计算设备以及存储介质
CN113468924A (zh) * 2020-03-31 2021-10-01 北京沃东天骏信息技术有限公司 关键点检测模型训练方法和装置、关键点检测方法和装置
CN111476292B (zh) * 2020-04-03 2021-02-19 北京全景德康医学影像诊断中心有限公司 医学图像分类处理人工智能的小样本元学习训练方法
KR20210150233A (ko) * 2020-06-03 2021-12-10 삼성전자주식회사 이미지 처리 알고리즘의 최적화 방법 및 이를 구비한 전자 장치
US11586919B2 (en) * 2020-06-12 2023-02-21 International Business Machines Corporation Task-oriented machine learning and a configurable tool thereof on a computing environment
US11775841B2 (en) 2020-06-15 2023-10-03 Cognizant Technology Solutions U.S. Corporation Process and system including explainable prescriptions through surrogate-assisted evolution
CN111860840B (zh) * 2020-07-28 2023-10-17 上海联影医疗科技股份有限公司 深度学习模型训练方法、装置、计算机设备及存储介质
CN111967594A (zh) * 2020-08-06 2020-11-20 苏州浪潮智能科技有限公司 一种神经网络压缩方法、装置、设备及存储介质
CN113743111A (zh) * 2020-08-25 2021-12-03 国家计算机网络与信息安全管理中心 基于文本预训练和多任务学习的金融风险预测方法及装置
KR102397079B1 (ko) * 2020-09-07 2022-05-12 울산과학기술원 단일 뉴럴 네트워크를 이용한 로봇 파지 방법 및 이를 수행하는 장치
EP3965020A1 (en) * 2020-09-07 2022-03-09 Siemens Aktiengesellschaft A model for a rapid continual anomaly detector
CN112116002A (zh) * 2020-09-18 2020-12-22 北京旋极信息技术股份有限公司 一种检测模型的确定方法、验证方法和装置
CN112115265A (zh) * 2020-09-25 2020-12-22 中国科学院计算技术研究所苏州智能计算产业技术研究院 文本分类中的小样本学习方法
CN114248265B (zh) * 2020-09-25 2023-07-07 广州中国科学院先进技术研究所 一种基于元模拟学习的多任务智能机器人学习方法及装置
CN112180726A (zh) * 2020-09-29 2021-01-05 北京航空航天大学 一种基于元学习的航天器相对运动轨迹规划方法
CN112466281A (zh) * 2020-10-13 2021-03-09 讯飞智元信息科技有限公司 有害音频识别解码方法及装置
US20220147767A1 (en) * 2020-11-10 2022-05-12 Nec Laboratories America, Inc. Domain generalized margin via meta-learning for deep face recognition
US11868439B2 (en) 2020-11-13 2024-01-09 Toyota Research Institute, Inc. Mixed-batch training of a multi-task network
CN112561180B (zh) * 2020-12-21 2022-05-17 深圳大学 基于元学习的短期风速预测方法、装置、计算机设备及存储介质
CN112562069B (zh) * 2020-12-24 2023-10-27 北京百度网讯科技有限公司 三维模型的构造方法、装置、设备和存储介质
CN112766323A (zh) * 2020-12-30 2021-05-07 清华大学 一种影像识别方法和装置
KR102639179B1 (ko) * 2020-12-31 2024-02-20 서울과학기술대학교 산학협력단 딥러닝 네트워크의 불확실도 판단방법
CN112328646B (zh) * 2021-01-04 2021-04-06 平安科技(深圳)有限公司 多任务课程推荐方法、装置、计算机设备及存储介质
CN112785005B (zh) * 2021-01-22 2023-02-03 中国平安人寿保险股份有限公司 多目标任务的辅助决策方法、装置、计算机设备及介质
CN113159275A (zh) * 2021-03-05 2021-07-23 深圳市商汤科技有限公司 网络训练方法、图像处理方法、装置、设备及存储介质
CN113128432B (zh) * 2021-04-25 2022-09-06 四川大学 基于演化计算的机器视觉多任务神经网络架构搜索方法
CN113568735B (zh) * 2021-06-17 2024-01-23 阿里巴巴新加坡控股有限公司 数据处理方法及系统
KR102631937B1 (ko) * 2021-12-22 2024-01-30 고려대학교 산학협력단 메타 학습을 통한 삼차원 사람 메쉬 복원 방법 및 장치
CN114037024A (zh) * 2022-01-07 2022-02-11 心鉴智控(深圳)科技有限公司 一种基于多任务神经网络数据识别系统及方法
TWI795173B (zh) * 2022-01-17 2023-03-01 中華電信股份有限公司 多語言語音辨識系統、方法及電腦可讀媒介
DE102022202030A1 (de) 2022-02-28 2023-08-31 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten
CN115984804B (zh) * 2023-03-14 2023-07-07 安徽蔚来智驾科技有限公司 一种基于多任务检测模型的检测方法及车辆
CN117591048B (zh) * 2024-01-18 2024-04-12 中关村科学城城市大脑股份有限公司 任务信息处理方法、装置、电子设备和计算机可读介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160358104A1 (en) 2015-06-02 2016-12-08 Nec Laboratories America, Inc. Annealed Sparsity Via Adaptive and Dynamic Shrinking

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6222525B1 (en) 1992-03-05 2001-04-24 Brad A. Armstrong Image controllers with sheet connected sensors
US5670988A (en) 1995-09-05 1997-09-23 Interlink Electronics, Inc. Trigger operated electronic device
US20070081123A1 (en) 2005-10-07 2007-04-12 Lewis Scott W Digital eyewear
US11428937B2 (en) 2005-10-07 2022-08-30 Percept Technologies Enhanced optical and perceptual digital eyewear
US8696113B2 (en) 2005-10-07 2014-04-15 Percept Technologies Inc. Enhanced optical and perceptual digital eyewear
US9304319B2 (en) 2010-11-18 2016-04-05 Microsoft Technology Licensing, Llc Automatic focus improvement for augmented reality displays
US10156722B2 (en) 2010-12-24 2018-12-18 Magic Leap, Inc. Methods and systems for displaying stereoscopy with a freeform optical system with addressable focus for virtual and augmented reality
JP6185844B2 (ja) 2010-12-24 2017-08-30 マジック リープ, インコーポレイテッド 人間工学的ヘッドマウントディスプレイデバイスおよび光学システム
CN103635891B (zh) 2011-05-06 2017-10-27 奇跃公司 大量同时远程数字呈现世界
EP2760363A4 (en) 2011-09-29 2015-06-24 Magic Leap Inc TACTILE GLOVE FOR HUMAN COMPUTER INTERACTION
BR112014010230A8 (pt) 2011-10-28 2017-06-20 Magic Leap Inc sistema e método para realidade virtual e aumentada
WO2013152205A1 (en) 2012-04-05 2013-10-10 Augmented Vision Inc. Wide-field of view (fov) imaging devices with active foveation capability
US9671566B2 (en) 2012-06-11 2017-06-06 Magic Leap, Inc. Planar waveguide apparatus with diffraction element(s) and system employing same
EP2895910A4 (en) 2012-09-11 2016-04-20 Magic Leap Inc ERGONOMIC HEAD-MOUNTED DISPLAY DEVICE AND OPTICAL SYSTEM
US10151875B2 (en) 2013-01-15 2018-12-11 Magic Leap, Inc. Ultra-high resolution scanning fiber display
KR102387314B1 (ko) 2013-03-11 2022-04-14 매직 립, 인코포레이티드 증강 및 가상 현실을 위한 시스템 및 방법
NZ751602A (en) 2013-03-15 2020-01-31 Magic Leap Inc Display system and method
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US9874749B2 (en) 2013-11-27 2018-01-23 Magic Leap, Inc. Virtual and augmented reality systems and methods
EP3058418B1 (en) 2013-10-16 2023-10-04 Magic Leap, Inc. Virtual or augmented reality headsets having adjustable interpupillary distance
US9730643B2 (en) 2013-10-17 2017-08-15 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
KR102268462B1 (ko) 2013-11-27 2021-06-22 매직 립, 인코포레이티드 가상 및 증강 현실 시스템들 및 방법들
US9857591B2 (en) 2014-05-30 2018-01-02 Magic Leap, Inc. Methods and system for creating focal planes in virtual and augmented reality
EP4071537A1 (en) 2014-01-31 2022-10-12 Magic Leap, Inc. Multi-focal display system
EP3100098B8 (en) 2014-01-31 2022-10-05 Magic Leap, Inc. Multi-focal display system and method
US10203762B2 (en) 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US20150324568A1 (en) 2014-05-09 2015-11-12 Eyefluence, Inc. Systems and methods for using eye signals with secure mobile communications
KR102193052B1 (ko) 2014-05-30 2020-12-18 매직 립, 인코포레이티드 가상 또는 증강 현실 장치로 가상 콘텐츠 디스플레이를 생성하기 위한 방법들 및 시스템들
US9805305B2 (en) 2015-08-07 2017-10-31 Yahoo Holdings, Inc. Boosted deep convolutional neural networks (CNNs)
US10319374B2 (en) 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
US11354565B2 (en) * 2017-03-15 2022-06-07 Salesforce.Com, Inc. Probability-based guider
US11836611B2 (en) * 2017-07-25 2023-12-05 University Of Massachusetts Method for meta-level continual learning
KR102602117B1 (ko) * 2017-10-26 2023-11-13 매직 립, 인코포레이티드 딥 멀티태스크 네트워크들에서 적응적 손실 밸런싱을 위한 그라디언트 정규화 시스템들 및 방법들
EP3710990A4 (en) 2017-11-14 2021-10-27 Magic Leap, Inc. METALERS FOR MULTITASK LEARNING FOR NEURAL NETWORKS
US20200042825A1 (en) * 2018-08-02 2020-02-06 Veritone, Inc. Neural network orchestration

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160358104A1 (en) 2015-06-02 2016-12-08 Nec Laboratories America, Inc. Annealed Sparsity Via Adaptive and Dynamic Shrinking

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN, Zhao, et al.,GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks,arXiv,v1,2017年11月07日,[online] [検索日:2022.12.20] <URL: https://arxiv.org/abs/1711.02257>
GRAVES, Alex, et al.,Automated Curriculum Learning for Neural Networks,arXiv,v1,2017年04月10日,[online] [検索日:2022.12.20] <URL: https://arxiv.org/abs/1704.03003>

Also Published As

Publication number Publication date
AU2018368279A1 (en) 2020-05-14
CA3080005A1 (en) 2019-05-23
EP3710990A1 (en) 2020-09-23
IL274424B1 (en) 2024-03-01
KR20200087780A (ko) 2020-07-21
US20190147298A1 (en) 2019-05-16
JP2021503122A (ja) 2021-02-04
WO2019099305A1 (en) 2019-05-23
US11048978B2 (en) 2021-06-29
US20210406609A1 (en) 2021-12-30
EP3710990A4 (en) 2021-10-27
US11853894B2 (en) 2023-12-26
IL274424A (en) 2020-06-30
CN111328400A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
JP7213241B2 (ja) ニューラルネットワークに関するマルチタスク学習のためのメタ学習
JP7328993B2 (ja) ニューラルネットワークの勾配型敵対的訓練
JP7181928B2 (ja) 深層マルチタスクネットワークにおける適応的損失平衡のための勾配正規化システムおよび方法
JP7305859B2 (ja) 部屋レイアウト推定方法および技法
US20180144185A1 (en) Method and apparatus to perform facial expression recognition and training
US11244671B2 (en) Model training method and apparatus
KR102387305B1 (ko) 멀티모달 데이터 학습 방법 및 장치
KR20180027887A (ko) 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법
KR20200071990A (ko) 전자 장치 및 그의 3d 이미지 표시 방법
JP2017059071A (ja) 最適化装置、最適化方法および最適化プログラム
JP2023513613A (ja) 適応共蒸留モデル
Li et al. Smartphone-sensors based activity recognition using IndRNN
Saurav et al. Dynamic image networks for human fall detection in 360-degree videos
US20220180548A1 (en) Method and apparatus with object pose estimation
CN114254688A (zh) 一种数据处理方法及其设备
Murata et al. Proposal and Evaluation of Multi-Object Recognition Method Inspired by Multimodal Information Processing in the Human Brain
Subbakrishna Adishesha Prediction and Estimation of Human Motion using Generative-Adversarial Network
CN115984963A (zh) 一种动作计数方法及其相关设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221223

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230116

R150 Certificate of patent or registration of utility model

Ref document number: 7213241

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150