JP2021501391A - 深層マルチタスクネットワークにおける適応的損失平衡のための勾配正規化システムおよび方法 - Google Patents

深層マルチタスクネットワークにおける適応的損失平衡のための勾配正規化システムおよび方法 Download PDF

Info

Publication number
JP2021501391A
JP2021501391A JP2020520481A JP2020520481A JP2021501391A JP 2021501391 A JP2021501391 A JP 2021501391A JP 2020520481 A JP2020520481 A JP 2020520481A JP 2020520481 A JP2020520481 A JP 2020520481A JP 2021501391 A JP2021501391 A JP 2021501391A
Authority
JP
Japan
Prior art keywords
task
gradient
tasks
loss
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020520481A
Other languages
English (en)
Other versions
JP7181928B2 (ja
Inventor
ジャオ チェン,
ジャオ チェン,
ヴィジャイ バドリナラヤナン,
ヴィジャイ バドリナラヤナン,
アンドリュー ラビノビッチ,
アンドリュー ラビノビッチ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of JP2021501391A publication Critical patent/JP2021501391A/ja
Application granted granted Critical
Publication of JP7181928B2 publication Critical patent/JP7181928B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Abstract

マルチタスクネットワークを訓練するためのシステムおよび方法が、開示される。一側面では、マルチタスクネットワークを訓練することは、マルチタスクネットワークのネットワーク重みに対する各タスクに関するタスク重みと、タスクに関するシングルタスク損失に基づくタスクに関する相対的訓練レートとによって調節されるシングルタスク損失の勾配ノルムを決定することを含む。続いて、(1)各タスクに関する決定された勾配ノルムと(2)対応する標的勾配ノルムとの間の差異を含む勾配損失関数が、決定され得る。タスクに関する更新されたタスク重みが、タスクに関するタスク重みに対する勾配損失関数の勾配を使用して、決定され、マルチタスクネットワークを訓練することの次の反復において、使用され得る。

Description

(関連出願の相互参照)
本願は、それらの各々が「Gradient Normalization Systems and Methods for Adaptive Loss Balancing in Deep Multitask Networks」と題され、それらの各々の内容が参照することによってその全体として本明細書に組み込まれる2017年10月26日に出願された米国特許第出願第62/577,705号、2017年12月16日に出願された米国特許第出願第62/599,693号、2018年2月8日に出願された米国特許第出願第62/628,266号、および2018年7月9日に出願された米国特許第出願第62/695,356号の優先権の利益を主張する。
(著作権表示)
本特許文書の開示の一部分は、著作権保護を受けるべき材料を含む。本著作権所有者は、本特許文書または本特許開示を誰が複写しても、それが特許商標局の特許ファイルまたは記録に現れる通りである限りでは異議はないが、その他の場合、いかなる著作権もすべて保有する。
(分野)
本開示は、概して、機械学習のためのシステムおよび方法に関し、より具体的には、機械学習モデルを訓練することに関する。
深層ニューラルネットワーク(DNN)は、計算機学習方法である。DNNは、人工ニューラルネットワーク(NN)のクラスに属する。NNでは、生物学的神経網の特徴を模倣する計算グラフが、構築される。生物学的神経網は、計算のために顕著であり、そうでなければ他の方法を通して捕捉することが困難であり得る生物学系の能力の多くに関与する特徴を含む。いくつかの実装では、そのようなネットワークは、接続が一方向性である、シーケンシャル層化構造の中に配列される。例えば、特定の層の人工ニューロンの出力は、後続層の人工ニューロンの入力に接続されることができる。DNNは、多数の層(例えば、数十、数百以上の層)を伴うNNであり得る。
異なるNNは、異なる観点において互いに異なる。例えば、異なるNNのトポロジまたはアーキテクチャ(例えば、層の数および層が相互接続される方法)および重みは、異なり得る。重みは、生物学系における神経接続のシナプス強度にほぼ類似し得る。重みは、1つの層から別の層に伝搬される効果の強度に影響を及ぼす。人工ニューロンの出力は、その入力の加重和の非線形関数であり得る。NNの重みは、これらの総和に現れる重みであり得る。
一例では、マルチタスクネットワークを訓練するためのシステムは、実行可能命令と、複数のタスクに関連付けられた出力を決定するためのマルチタスクネットワークとを記憶するように構成される、非一過性メモリと、非一過性メモリと通信しているハードウェアプロセッサとを含むことができ、ハードウェアプロセッサは、複数のタスクに関する複数の基準タスク出力に関連付けられた訓練画像を受信することと、複数のタスクの各タスクに関して、(1)訓練画像を入力として用いて、マルチタスクネットワークを使用して決定されたタスクに関するタスク出力と、(2)マルチタスクネットワークの複数のネットワーク重みに対するタスクに関するタスク重みによって調節された訓練画像に関連付けられたタスクに関する対応する基準タスク出力とのシングルタスク損失の勾配ノルムを決定することと、タスクに関するシングルタスク損失に基づくタスクに関する相対的訓練レートを決定することと、(1)各タスクに関する決定された勾配ノルムと、(2)(a)複数のタスクの平均勾配ノルムと、(b)タスクに関する相対的訓練レートと、(c)ハイパーパラメータとに基づいて決定された対応する標的勾配ノルムとの間の差異を含む勾配損失関数を決定することと、複数のタスクの各々に関するタスク重みに対する勾配損失関数の勾配を決定することと、タスク重みに対する勾配損失関数の勾配を使用して、複数のタスクの各タスクに関して更新されたタスク重みを決定することとを行うための実行可能命令によってプログラムされる。
別の例では、マルチタスクネットワークを訓練する方法は、各々が複数のタスクに関する複数の基準タスク出力に関連付けられた複数の訓練画像の訓練画像を受信することと、複数のタスクの各タスクに関して、マルチタスクネットワークの複数のネットワーク重みに対するタスクに関するタスク重みによって調節されたシングルタスク損失の勾配ノルムを決定することであって、シングルタスク損失は、(1)訓練画像を入力として用いて、マルチタスクネットワークを使用して決定されたタスクに関するタスク出力のシングルタスク損失と、(2)訓練画像に関連付けられたタスクに関する対応する基準タスク出力のシングルタスク損失とである、ことと、タスクに関するシングルタスク損失に基づくタスクに関する相対的訓練レートを決定することと、(1)各タスクに関する決定された勾配ノルムと、(2)(a)複数のタスクの平均勾配ノルムと、(b)タスクに関する相対的訓練レートとに基づいて決定された対応する標的勾配ノルムとの間の差異を含む勾配損失関数を決定することと、タスク重みに対する勾配損失関数の勾配を使用して、複数のタスクの各々に関する更新されたタスク重みを決定することとを含むことができる。
さらに別の例では、頭部搭載型ディスプレイシステムは、実行可能命令と、複数のタスクに関連付けられた出力を決定するためのマルチタスクネットワークであって、(1)訓練画像を入力として用いて、マルチタスクネットワークを使用して決定される複数のタスクのうちのタスクに関するタスク出力と、(2)マルチタスクネットワークの複数のネットワーク重みに対するタスクに関するタスク重みによって調節された訓練画像に関連付けられたタスクに関する対応する基準タスク出力とのシングルタスク損失の勾配ノルムと、タスクに関するシングルタスク損失に基づいて決定されたタスクに関する相対的訓練レートと、(1)タスクに関する決定された勾配ノルムと、(2)(a)複数のタスクの平均勾配ノルムと、(b)タスクに関する相対的訓練レートと、(c)ハイパーパラメータとに基づいて決定された対応する標的勾配ノルムとの間の差異を含む勾配損失関数と、タスクに関するタスク重みに対する勾配損失関数の勾配を使用してタスクに関して更新されたタスク重みとを使用して訓練されるマルチタスクネットワークとを記憶するように構成される非一過性メモリと、ディスプレイと、センサと、非一過性メモリおよびディスプレイと通信しているハードウェアプロセッサであって、センサ入力によって捕捉されたセンサを受信することと、マルチタスクネットワークを使用して、複数のタスクの各々に関するタスク出力を決定することと、決定されたタスク出力に関連する情報を拡張現実デバイスのユーザに示すことをディスプレイに行わせることとを行うための実行可能命令によってプログラムされるハードウェアプロセッサとを備えていることができる。
本明細書に説明される主題の1つ以上の実装の詳細は、付随の図面および以下の説明に記載される。他の特徴、側面、および利点は、説明、図面、および請求項から明白となるであろう。本概要または以下の発明を実施するための形態のいずれも、本発明の主題の範囲を定義または限定することを主張するものではない。
図1Aは、マルチタスクネットワークを訓練するときのタスクを横断した平衡異常勾配ノルムの例示的略図である。
図1Bは、マルチタスクネットワークを訓練するときのタスクを横断した平衡勾配ノルムの例示的略図である。
図2A−2Fは、同様の損失関数および異なる損失スケールを有する訓練タスクを用いてマルチタスクネットワークを訓練するための例示的結果を示す。図2A−2Cは、2−タスクシステムにおける勾配正規化(GradNorm)の結果を示す。図2D−2Fは、10−タスクシステムにおける勾配正規化の結果を示す。損失スケールを伴うネットワーク構造の略図が、図2Aおよび2Dに示され、訓練中のw(t)のトレースが、図2Bおよび2Eに示され、タスク正規化試験損失曲線が、図2Cおよび2Fに示される。ハイパーパラメータ値α=0.12が、全ての例示的実行のために使用された。 図2A−2Fは、同様の損失関数および異なる損失スケールを有する訓練タスクを用いてマルチタスクネットワークを訓練するための例示的結果を示す。図2A−2Cは、2−タスクシステムにおける勾配正規化(GradNorm)の結果を示す。図2D−2Fは、10−タスクシステムにおける勾配正規化の結果を示す。損失スケールを伴うネットワーク構造の略図が、図2Aおよび2Dに示され、訓練中のw(t)のトレースが、図2Bおよび2Eに示され、タスク正規化試験損失曲線が、図2Cおよび2Fに示される。ハイパーパラメータ値α=0.12が、全ての例示的実行のために使用された。 図2A−2Fは、同様の損失関数および異なる損失スケールを有する訓練タスクを用いてマルチタスクネットワークを訓練するための例示的結果を示す。図2A−2Cは、2−タスクシステムにおける勾配正規化(GradNorm)の結果を示す。図2D−2Fは、10−タスクシステムにおける勾配正規化の結果を示す。損失スケールを伴うネットワーク構造の略図が、図2Aおよび2Dに示され、訓練中のw(t)のトレースが、図2Bおよび2Eに示され、タスク正規化試験損失曲線が、図2Cおよび2Fに示される。ハイパーパラメータ値α=0.12が、全ての例示的実行のために使用された。 図2A−2Fは、同様の損失関数および異なる損失スケールを有する訓練タスクを用いてマルチタスクネットワークを訓練するための例示的結果を示す。図2A−2Cは、2−タスクシステムにおける勾配正規化(GradNorm)の結果を示す。図2D−2Fは、10−タスクシステムにおける勾配正規化の結果を示す。損失スケールを伴うネットワーク構造の略図が、図2Aおよび2Dに示され、訓練中のw(t)のトレースが、図2Bおよび2Eに示され、タスク正規化試験損失曲線が、図2Cおよび2Fに示される。ハイパーパラメータ値α=0.12が、全ての例示的実行のために使用された。
図3A−3Cは、ある大規模データセットにおけるGradNorm(ハイパーパラメータα=1.5)、等重みベースライン、および不確実重み付けに関する例示的試験および訓練損失曲線のプロットである。NYUv2+kpts、VGG16バックボーンが、使用された。 図3A−3Cは、ある大規模データセットにおけるGradNorm(ハイパーパラメータα=1.5)、等重みベースライン、および不確実重み付けに関する例示的試験および訓練損失曲線のプロットである。NYUv2+kpts、VGG16バックボーンが、使用された。 図3A−3Cは、ある大規模データセットにおけるGradNorm(ハイパーパラメータα=1.5)、等重みベースライン、および不確実重み付けに関する例示的試験および訓練損失曲線のプロットである。NYUv2+kpts、VGG16バックボーンが、使用された。
図4は、ランダムタスク重みおよびGradNormに関する例示的グリッド検索性能を示すプロットである。
図5A−5Bは、αのより高い値が、重みw(t)をさらに離れさせる傾向にあり、それは、タスクの影響をより著しく低減させ、過剰適合する、またはあまりにも迅速に学習することを示す例示的プロットである。 図5A−5Bは、αのより高い値が、重みw(t)をさらに離れさせる傾向にあり、それは、タスクの影響をより著しく低減させ、過剰適合する、またはあまりにも迅速に学習することを示す例示的プロットである。
図6は、ハイパーパラメータαの種々の設定に関する性能利得を示す例示的プロットである。
図7A−7Dは、ハイパーパラメータの値が、訓練中、一定であり得る様子(例えば、図7A)、または訓練中、変動し得る様子(例えば、図7B−7D)の例を示すプロットである。
図8は、GradNormを使用してマルチタスクネットワークを訓練する例示的プロセスのフロー図である。
図9は、マルチタスクネットワークの実施形態を実装し得るウェアラブルディスプレイシステムの例を図式的に図示する。
図面全体を通して、参照番号は、参照される要素間の対応を示すために再使用され得る。図面は、本明細書に説明される例示的実施形態を図示するために提供され、本開示の範囲を限定することを意図するものではない。
(概要)
関数、アルゴリズム、システム等のデータ関係およびパターンを表すモデルは、入力を受け取り、ある方法において、入力に対応する出力を生産し得る。例えば、モデルは、畳み込みニューラルネットワーク(CNN)または深層ニューラルネットワーク(DNN)等の機械学習方法として実装され得る。深層学習は、タスク特定の方法とは対照的に、学習データ表現の概念に基づくより広義の機械学習方法の系統の一部であり、拡張現実、複合現実、仮想現実、および機械知能のために有用な視聴覚計算問題を解決することにおける大きな有望性を示す。機械学習では、畳み込みニューラルネットワーク(CNNまたはConvNet)は、あるクラスの深層フィードフォワード人工ニューラルネットワークを含むことができ、CNNは、視覚的画像の分析への適用において成功を収めている。機械学習方法は、眼画像分割または眼追跡を含む様々な問題に対するロバストかつ正確なソリューションを有効にし得るある系統の方法を含む。
マルチタスクネットワークを訓練するためのシステムおよび方法の例が、本明細書において開示される。1つのニューラルネットワークが複数の予測出力を生産する、深層マルチタスクネットワークは、それらのシングルタスク対応物より高速かつより優れた性能をもたらすことができるが、適切に訓練される必要がある。例えば、深層マルチタスクネットワークは、タスクを横断した共通性および差異を利用しながら、複数の学習タスクを同時に解決するように訓練され、または教えられることができる。複数のタスクは、タスク間の共有表現を使用して、並行して学習されることができる。例として、マルチタスクニューラルネットワークは、それぞれのタスク特定の出力層を提供しながら、全てのタスク間で隠れ層を共有し得る(これは、時として、ハードパラメータ共有とも称される)。別のアプローチとして、各タスクは、それ自身のパラメータを伴うそれ自身のニューラルネットワークを有することができる。正則化制約が、タスク特定のネットワークの層を横断して使用され、パラメータが類似するように促すことができる(これは、時として、ソフトパラメータ共有とも称される)。
勾配の規模を動的に調整することによって、深層マルチタスクモデルにおける訓練の平衡を自動的に保つ勾配正規化(GradNorm)方法の例が、本明細書において開示される。種々のネットワークアーキテクチャに関して、回帰タスクおよび分類タスクの両方のために、合成および実際のデータセットの両方において、GradNormは、シングルタスクネットワーク、静的ベースライン、および他の適応マルチタスク損失平衡技法と比較して、複数のタスクを横断して、正確度を改良し、および/または過剰適合を低減させることができる。GradNormは、いくつかの実装が単一の非対称ハイパーパラメータαのみを利用するにもかかわらず、包括的グリッド検索方法の性能に匹敵すること、またはそれを上回ることができる。したがって、GradNormのいくつかの実施形態では、タスクの数に関係なく、少数の訓練実行が、必要とされ得る。勾配操作は、マルチタスクネットワークの訓練動態に対する優れた制御をもたらし得、マルチタスク学習の広い適用を可能にし得る。
コンピュータビジョンにおけるシングルタスク学習は、深層学習において成功を収めており、多くのシングルタスクモデルが、現在、多様なタスクに関して、人間と同程度またはそれを超える正確度で性能を発揮している。しかしながら、完全な場面理解のための最終的な視覚システムは、特に、(スマートフォン、ウェアラブルデバイス(例えば、図9を参照して説明されるウェアラブルディスプレイシステム900)、およびロボットまたはドローン等の)内蔵システムの限定された計算環境内において、多くの多様な知覚タスクを同時かつ効率的に実施することが可能であるべきである。そのようなシステムは、マルチタスク学習によって有効にされることができ、1つのモデルが、複数のタスクを横断して重みを共有し、1つの順方向パスにおいて複数の推定を行う。そのようなネットワークは、スケーラブルであるだけではなく、これらのネットワーク内の共有特徴は、よりロバストな正則化を誘発し、その結果、性能を上昇させ得る。本明細書に開示される方法を使用して訓練されたマルチタスクネットワークは、より効率的であり、より高い性能を有することができる。
マルチタスクネットワークは、訓練することが困難であり得る。すなわち、異なるタスクは、ネットワークパラメータが全てのタスクを横断して有用なロバストな共有特徴に収束するように、適切に平衡を保たれる必要がある。いくつかの方法では、マルチタスク学習における方法は、ネットワークの順方向パスを操作すること(例えば、特徴間の明示的統計的関係を構築すること、またはマルチタスクネットワークアーキテクチャを最適化することを通して)によって、この平衡を見出すことができる。しかしながら、タスク平衡異常は、それらが逆伝搬勾配間の平衡異常として示されるので、適切な訓練を妨害し得る。訓練中にあまりに優勢であるタスクは、例えば、比較的に大きい規模を有する勾配を誘発することによって、その優勢を表すことができる。本明細書に開示される訓練方法は、マルチタスク損失関数の調整を通して勾配の規模を直接修正することによって、それらの根本におけるそのような問題を軽減する。
いくつかの実施形態では、マルチタスク損失関数は、シングルタスク損失の重み付けされた線形結合L,L=Σであり、その和は、全てのTタスクに及ぶ。適応的方法は、本明細書では、1つ以上の訓練ステップまたは反復においてwを変動させる(例えば、各訓練ステップt:w=w(t))ように開示される。損失関数のこの線形形態は、wが、各タスクからの逆伝搬勾配の規模に直接かつ線形に結合するので、勾配平衡を実装するために便利であり得る。本明細書に開示される勾配正規化方法は、改良された(例えば、最適)モデル訓練のために各タスクの寄与の平衡を保つ各訓練ステップtにおける各wのための良好な値(例えば、最良値)を見出すことができる。勾配平衡のための重みw(t)を改良(例えばを最適化する)するために、本明細書に開示される方法は、任意のタスクからの逆伝搬勾配が、大きすぎるとき、または小さすぎるとき、ネットワークにペナルティを科すことができる。正しい平衡は、複数のタスクが同様のレートで訓練しているとき、確定されることができる。例えば、タスクiが、比較的に迅速に訓練している場合、その重みw(t)は、他のタスク重み
に対して減少し、訓練への他のタスクのより多くの影響を可能にすべきである。いくつかの実施形態では、バッチ正規化が、訓練において実装されることができる。勾配正規化方法は、タスクを横断して正規化することと、所望の目標としてレート平衡を使用し、正規化を知らせることとができる。そのような勾配正規化(本明細書では、GradNormと称される)は、過剰適合を大きく削減しながら、ネットワーク性能を上昇させ得る。
いくつかの実施形態では、GradNorm方法は、勾配の規模を直接調整するマルチタスク損失平衡のために効率的であり得る。方法は、非常に高価な包括的グリッド検索プロシージャの性能に匹敵するか、または、それを上回り得るが、それは、いくつかの実装では、単一のハイパーパラメータ、または、いくつかの実施形態では、2つ以上のハイパーパラメータのみの調整を含む。GradNormは、直接勾配相互作用を有効にすることができ、それは、マルチタスク学習を制御する強力な方法であり得る。
いくつかの実施形態では、本明細書に開示される勾配正規化方法は、コンピュータビジョン、自然言語処理、発話合成、ドメイン特定の用途、例えば、交通予測、一般的クロスドメインアプリケーション、カリキュラム学習における用途を有することができる。いくつかの実装では、タスクは、総損失減少等の大域的報酬に基づいて、共同で訓練される。GradNormの実施形態は、拡張、複合、または仮想現実(例えば、図9を参照して説明される拡張現実システム参照)のために使用されるマルチタスクニューラルネットワークの訓練に適用されることができる。
マルチタスク学習は、複数のロバストな予測を行うことが完全な場面理解のために重要であり得るコンピュータビジョンの分野に非常に好適であり得る。深層ネットワークは、3−タスクネットワークからUberNetにおけるようなはるかに大きいサブセットまでの複数の視覚タスクの種々のサブセットを解決するために使用されている。単一コンピュータビジョン問題は、インスタンス分割のためのMask R−CNNまたはオブジェクト検出のためのYOLO−9000におけるようなマルチタスク問題として組み立てられることができる。クラスタ化方法は、深層モデル以上に成功を収めている一方、深層関係ネットワークおよびクロススティッチネットワーク等の構成概念は、深層ネットワークに、タスク間の有意義な関係を検索し、それらの間で共有すべき特徴を学習する能力を与える。ラベル間のグループ化が、学習のための可能なアーキテクチャを通して検索するために使用されることができる。結合尤度公式が、各タスクにおける固有の不確実性に基づいて、タスク重みを導出するために使用されることができる。
(例示的GradNorm方法)
マルチタスク損失関数L(t)=Σw(t)L(t)に関して、関数w(t)は、以下の目的を伴って学習されることができる:(1)異なるタスクに関する勾配ノルムを共通スケール上に設置すること(共通スケールを通してそれらの相対的規模を推測すべき)、(2)異なるタスクが同様のレートで訓練されるように、勾配ノルムを動的に調節すること。関連量が、下で説明され、最初に、操作勾配に関する。
W:GradNormが適用される完全ネットワーク重みのサブセット
Wは、計算コストを節約するために、重みの最後の共有層であり得る。いくつかの実施形態では、Wのこの選択は、GradNormに訓練時間を増加させ得る(例えば、約5%のみだけ)。
:選定された重みWに対する重み付けされたシングルタスク損失w(t)L(t)の勾配のLノルム。
:訓練時間tにおける全てのタスクを横断した平均(または予期される)勾配ノルム。
各タスクiに関する種々の訓練レートが、下で説明される。
:時間tにおけるタスクiに関する損失比率。
は、タスクiの逆数訓練レートの尺度である
(例えば、
のより低い値は、タスクiに関するより高速の訓練レートに対応する)。いくつかの実施形態では、ネットワークは、安定初期化を有することができ、L(0)が、直接使用されることができる。L(0)が、初期化に著しく依存するとき、理論的初期損失が、代わりに使用されることができる。例えば、Lに関して、Cクラスを横断したCE損失L(0)=log(c)。
:タスクiの相対的な逆数訓練レート。
(GradNormを用いで勾配の平衡を保つことの例)
GradNormは、勾配の規模に関する共通スケールを確立することができ、および/または、GradNormは、異なるタスクの訓練レートの平衡を保つことができる。一例では、勾配に関する共通スケールは、平均勾配ノルム、
であることができ、それは、各時間ステップtにおけるベースラインを確立し、それによって、相対的勾配サイズが決定され得る。タスクiの相対的逆数訓練レートr(t)は、勾配のレート平衡を保つために使用されることができる。具体的には、r(t)の値が高いほど、タスクiに関して、勾配の規模がより大きく、タスクをより迅速に訓練するように促し得る。したがって、各タスクiのための勾配ノルムは、以下であり得る:
式中、αは、ハイパーパラメータである。ハイパーパラメータαは、タスクを共通訓練レートに戻す復原力の強度を設定する。タスクがそれらの複雑性において非常に異なり、タスク間の激しく異なる学習動態につながる場合、αのより高い値が、より強力な訓練レート平衡を実施するために使用され得る。タスクが、より対称であるとき、αのより低い値が、適切であり得る。α=0は、各タスクからの逆伝搬勾配のノルムをWにおいて等しくあるように固定しようとすることに留意されたい。ハイパーパラメータαは、訓練中、一定であり得るか(例に関して図7A参照)、または、訓練中、変動し得る(例えば、αは、訓練時間tの関数であり得る)。例えば、αは、正の値(例えば、約1.5であり、それは、図6を参照して説明されるように、有効な値であり得る)として開始し、訓練が進むにつれて、減少され得る(徐々に(例に関して図7B参照)、またはステップ毎方式において(例に関して図7C参照))。このアプローチは、有利には、訓練の開始時、より強力な訓練レート平衡を提供する(例えば、タスクの各々をより迅速に訓練するために)一方、訓練の後半において、訓練レート平衡を緩め得る。ある場合、αは、負であり得(例えば、訓練の少なくとも一部に関して)、例えば、変数αが、正の値から開始し、訓練中、訓練の終わりに向かって、比較的に小さい負の値(例えば、約−0.1)に変化し得る(例に関して図7D参照)。したがって、種々の実装では、ハイパーパラメータαは、−1〜5、−1〜3、0.5〜3の範囲、または他の好適な範囲内であることができる。
式1は、各タスクiの勾配ノルムの標的を与え、損失重みw(t)は、各タスクに関するこの標的に向かって勾配ノルムを移動させるために更新されることができる。いくつかの実施形態では、GradNormは、次いで、全てのタスクにわたって総和される各タスクに関する各時間ステップにおける実際の勾配ノルムと標的勾配ノルムとの間のL損失関数Lgradとして実装されることができる:
総和は、全てのTタスクに及ぶ。この損失Lgradを区別する場合、標的勾配ノルム
が、固定定数として取り扱われ、損失重みw(t)がゼロに向かって擬似的にドリフトすることを防止することができる。そして、Lgradが、w(t)がタスクごとに勾配の規模を直接制御するので、wに関して区別されることができる。そして、計算された勾配∇wigradが、更新ルールを介して適用され、各wを更新することができる。(例えば、図1Bに示されるように)。
以下の例では、タスクは、部屋画像内の深度、面法線、およびキーポイントを識別することを含むコンピュータビジョンタスクであった。以下の例は、例証にすぎず、限定することを意図するものではない。図1Aに示されるように、タスクを横断した平衡異常勾配ノルムは、マルチタスクネットワーク100a内の準最適訓練をもたらし得る。GradNormは、勾配損失Lgradを計算することができ(例えば、図1A参照)、それは、損失重みwを調整し、マルチタスクネットワーク100bを訓練するとき、勾配ノルムにおけるそのような平衡異常を修復する。そのような平衡は、等化された勾配ノルムをもたらし得る。いくつかの実施形態では、比較的に大きいまたは小さい勾配の規模が、より良好な(例えば、最適)訓練のために、いくつかのタスクに関して使用されることができる。
GradNorm方法の実施形態は、表1に要約される。各更新ステップ後、重みw(t)は、勾配正規化を大域的学習レートから結合解除するために、Σ(t)=Tであるように、再正規化され得る。
(例示的擬似コード)
表2は、本明細書に説明される勾配正規化技術の実施形態を実施するために使用され得る例示的擬似コードプログラミング言語を示す。
(同様の損失関数および異なる損失スケールを有する訓練タスクのための例示的訓練)
GradNormを例証するために、マルチタスクネットワークに関する共通シナリオが構築された:同様の損失関数を有するが、異なる損失スケールを有する訓練タスク。そのような状況では、全ての損失重みw(t)に関して、w(t)=1であり、ネットワーク訓練は、より大きい勾配を逆伝搬するより大きい損失スケールを伴うタスクによって支配され得る。GradNormは、この問題を克服することができる。
関数への標準二乗損失を使用して訓練されたT回帰タスクを検討する。
式中、tanh(.)は、要素毎に作用する。入力は、寸法250であり、出力は、寸法100である一方、Bおよびεは、それらの要素を有する定数行列であり、それぞれ、正規分布
および
から生成された。各タスクは、したがって、Bにおける情報を共有するだけでなく、タスク特定の情報εも含む。σは、訓練のための主要パラメータであり得:それらは、固定スカラーであり、それは、出力fのスケールを設定する。fに関するより高いスケールは、そのタスクに関する二乗損失のより高い期待値を誘発する。そのようなタスクは、その応答値におけるより大きい分散に起因して、より学習しにくいが、さらに、それらは、より大きい勾配を逆伝搬する。このシナリオは、より高いσタスクが全てのタスクを横断して訓練で優勢であるとき、準最適訓練動態につながり得る。
このモデルを訓練するために、層あたり100個のニューロンを共通幹として伴う4−層完全結合ReLU−作動ネットワークが、使用された。最終アフィン変換層が、T個の最終予測(T個の異なるタスクに対応する)を生産した。有効な分析を確実にするために、同じランダム値に初期化されたモデルが、使用され、同じ固定ランダムシードから生成されたデータをフィードされた。非対称αは、出力関数fが全て同一関数形態であるように、0.12と低く設定され、したがって、タスク間の非対称は、最小であることが予期された。
この例では、タスク正規化試験時間損失が、試験時間性能を判断するために使用され、それは、各タスクに関する試験損失比率の和Σ(t)/L(0)であった。損失の単純和は、異なる損失スケールが存在するとき、マルチタスクネットワークに関する不適正性能メトリックであり得る:より高い損失スケールタスクは、損失において高度に偏って組み入れられ得る。全てのシナリオにおいてマルチタスク性能の有意義な尺度を与え得る一般的単一スカラーがないということがないこともあるが、この例では、その損失スケールσを除き、統計的に同じであったタスクが存在した。したがって、全体的ネットワーク性能の明確な尺度が存在し、それは、各タスクの分散σ によって正規化された損失の和であったー(スケーリング係数次第で)損失比率の和と同等。
T=2に関して、値(σ,σ)=(1.0,100.0)が、選定された。図2A−2Cは、訓練の結果を示す。等しい重みw=1が、訓練において使用される場合、タスク1は、タスク1のより高い損失スケールに起因して、学習からタスク0を抑制した。しかしながら、勾配正規化は、Tから生じるより大きい勾配に対抗するために、w(t)を増加させ、改良されたタスク平衡は、より良好な試験時間性能をもたらす。
勾配正規化の可能な利点は、タスクの数が増加するとき、さらにより明確となる。T=10に関して、σが、広い正規分布からサンプリングされ、結果が、図2D−2Fに示される。GradNormは、各タスクを同一に単純に重み付けすることよりも試験時間性能を有意に改良した。T=2の場合と同様、T=10に関して、w(t)は、より小さいσタスクに関してより大きく成長した。
T=2およびT=10の両方に関して、GradNormは、より安定し、不確実重み付けより優れている。w(t)≒1/L(t)を強いる不確実重み付けは、各タスクに関する損失が低下すると、重みw(t)を過大かつあまりにも迅速に成長させる傾向にある。そのようなネットワークは、開始時に迅速に訓練されるが、訓練は、すぐに低下する。この問題は、主として、w(t)が制約を伴わずに変化することを不確実重み付けが可能にし(Σw(t)を常に確実にするGradNormと比較して)、それが、ネットワークが訓練されるにつれて、大域的学習レートを急速に上昇させるという事実によって生じる。
単一GradNorm実行中の各w(t)に関するトレースは、安定し、収束することが観察される。下で示されるように、時間平均重みΣ[w(t)]は、最適静的重みに近く、GradNormが冗漫なグリッド検索プロシージャを大幅に簡略化することができることを示唆する。
(より大きいデータセットを用いた例示的訓練)
NYUv2の2つの変形が、主要なデータセットとして使用された。標準NYUv2データセットは、異なる部屋タイプ(洗面所、居間、書斎等)内の種々の屋内場面に関する深度、面法線、および意味的分割ラベル(13個の異なるクラスにクラスタ化される)を伝える。NYUv2は、比較的に小規模(795枚の訓練、654枚の試験画像)であるが、回帰ラベルおよび分類ラベルの両方を含み、それを種々のタスクを横断したGradNormのロバスト性を試験するための良好な選択肢とする。
標準NYUv2深度データセットは、各ビデオからのフリップおよび追加のフレームを用いて拡張され、ピクセル毎の深度、面法線、および部屋キーポイントラベル(分割ラベルは、これらの追加のフレームに関して利用不可能であった)を備えた90,000枚の画像をもたらした。キーポイントラベルは、人間によって注釈が付けられた一方、面法線は、アルゴリズム的に生成された。完全データセットは、次いで、90/10枚の訓練/試験分割のために場面ごとに分割された。これらの2つのデータセットは、本明細書では、それぞれ、NYUv2+segおよびNYUv2+kptsと称される。
全ての入力は、320×320ピクセルにダウンサンプリングされ、出力は、80×80ピクセルにダウンサンプリングされた。これらの分解能は、グラウンドトゥルース出力マップにおける意味的複雑性を損なわせることなく、モデルが比較的に小規模に保たれることを可能にする。VGG式モデルアーキテクチャは、「Room layout estimation methods and techniques」と題された米国特許公開第2018/0268220号(その内容は、参照することによってその全体として本明細書に組み込まれる)から導出された。
(モデルおよび一般的訓練特性)
(1)対称VGG16エンコーダ/デコーダを伴うSegNetネットワークと、(2)修正されたResNet−50エンコーダおよび浅層ResNetデコーダを伴う完全畳み込みネットワーク(FCN)ネットワークの2つの異なるモデルが、調査された。VGG SegNetは、最大プーリングインデックスを再使用し、アップサンプリングを実施した一方、ResNet FCNは、全てのアップサンプリングフィルタを学習した。ResNetアーキテクチャは、より重く、より複雑なVGG SegNetと対照的に、さらに薄層化された(そのフィルタおよび作動の両方において):ストライド−2層は、繰り上げられ、全ての2048−フィルタ層は、1024−フィルタ層によって置換された。最終的に、VGG SegNetは、薄層ResNetに関する15M個に対して、29M個のパラメータを有した。全てのモデルパラメータは、最終層まで、全てのタスク間で共有された。結果は、基本アーキテクチャの選択に対するGradNormのロバスト性を示した。前述の例モデルは、例証のみのためのものであり、限定することを意図するものではない。GradNormは、例えば、「Deep learning system for cuboid detection」と題された米国特許公開第2018/0137642号(その内容は、参照することによってその全体として本明細書に組み込まれる)に説明されるように、例えば、再帰ニューラルネットワークを含む任意の他のタイプのニューラルネットワークに適用されることができる。
標準ピクセル毎損失関数が、各タスクに関して使用された:分割に関するクロスエントロピ、深度に関する二乗損失、および法線に関するコサイン類似。米国特許公開第2018/0268220号におけるように、ガウスヒートマップが、48個の部屋キーポイントタイプの各々のために生成され、これらのヒートマップは、ピクセル毎二乗損失を用いて予測された。全ての回帰タスクは、二次損失であり(面法線予測は、リーディングオーダーの二次のコサイン損失を使用した)、各タスクの相対的逆数訓練レートのための直接プロキシとして各タスクiのためのr(t)の使用を可能にした。
全ての実行は、4つのTitan X GTX 12GB GPUを横断して、24のバッチサイズで訓練され、推定時、単一GPU上において30fpsで実行された。全てのNYUv2実行は、2e−5の学習レートから開始した。NYUv2+kpts実行は、最後の80,000ステップ継続し、学習レートは、25,000ステップ毎に0.2低下した。NYUv2+seg実行は、20,000ステップ継続し、学習レートは、6,000ステップ毎に0.2低下した。w(t)更新は、GradNormおよび不確実重み付けベースラインの両方に関して、0.025の学習レートで実施された。全てのオプティマイザは、Adam(ネットワーク重みを更新するために適応的瞬間推定から導出される確率論的最適化のための方法)であったが、GradNormは、選定されたオプティマイザに対して鈍感であった。GradNormは、TensorFlow v1.2.1を使用して実装された。
(NYUv2に基づく例示的結果)
表3は、NYUv2+segデータセットに基づくGradNormの性能の例を示す。GradNorm α=1.5は、等重みベースライン(全てのt,iに関してw=1)に対して3つのタスク全ての性能を改良し、各タスクに関する単一ネットワークの最良性能を上回ったか、またはそれに匹敵したか(統計的雑音内)のいずれであった。GradNorm静的ネットワークは、GradNorm訓練実行中の各タスクに関する時間平均重みΣ[w(t)]を計算し、それらの値に固定される重みを用いて、ネットワークを再訓練することによって、GradNormネットワークから導出される静的重みを使用した。GradNormはまた、したがって、静的重みのための良好な値を抽出するためにも使用されることができる。下で示されるように、これらの重みは、包括的グリッド検索から抽出された最適重みに非常に近い。
GradNormが、より大きいデータセットの存在下で性能を発揮し得る様子を示すために、広範な実験が、50倍を上回るデータまで拡張されたNYUv2+kptsデータセットにおいて実施された。結果は、表4に示される。NYUv2+seg実行と同様、GradNormネットワークは、他のマルチタスク方法より優れ、シングルタスクネットワークの性能に匹敵するか(雑音内)、またはそれを上回るかのいずれかであった。
図3A−3Cは、VGG SegNetモデルのためのより大きいNYUv2+kptsデータセットにおけるGradNorm(α=1.5)およびベースラインに関する試験および訓練損失曲線の例示的を示す。GradNormは、はるかに高い訓練損失に対する収束にもかかわらず、試験時間深度誤差を約5%改良した。GradNormは、ネットワークを積極的にレートの平衡を保つことによって(高非対称α=1.5によって実施された)、これを達成し、最終的に、深度重みwdepth(t)を0.10より低く抑制した。同一傾向は、キーポイント回帰に関しても認められ、ネットワーク正則化の明確な兆候であった。対照的に、不確実重み付けは、常時、試験および訓練誤差を同一方向に移動させ、したがって、良好な正則化子ではなかった。薄層ResNetFCNの訓練も、同様の結果を生産した。
(勾配正規化は、1回のパスにおいて最適グリッド検索重みを見出す)
VGG SegNetに関して、100個のネットワークが、NYUv2+kptsにおけるランダムタスク重みを用いて最初から訓練された。重みは、均一分布からサンプリングされ、和がT=3であるように再正規化された。計算効率のために、訓練は、通常の80,000回のうちから15,000回の反復を含み、次いで、そのネットワークの性能が、同一15,000ステップにおいて、GradNorm α=1.5 VGG SegNetネットワークと比較された。結果は、図4に示される。図4は、ランダムタスク重み対GradNormのNYUv2+kptsに関するグリッド検索性能を示す。重みw staticを伴う静的マルチタスクネットワークに関する3つのタスクを横断した性能の平均変化が、w staticとGradNormネットワークから導出される静的重みのセットE[w(t)]との間のL距離に対してプロットされた。ゼロ性能変化における基準線が、参照のために示される。全ての比較は、訓練の15,000ステップにおいて行われた。
100個のネットワークが訓練された後でさえ、グリッド検索は、依然として、GradNormネットワークに達しなかった。ネットワーク性能と時間平均GradNorm重みE[w(t)]までのタスク重み距離との間に、強い負の相関が存在した。約3のL距離では、グリッド検索ネットワークは、平均して、我々のGradNormネットワークと比較して、ほぼ2倍のタスクあたり誤差を有していた。GradNormは、したがって、1回の単一訓練実行において、最適グリッド検索重みを見出した。
(非対称αを調整する効果)
これらの例示的数値実験では、方法における唯一のハイパーパラメータは、ハイパーパラメータαであり、それは、本明細書に説明されるように、非対称パラメータとも称される。NYUv2に関するαの最適値は、約α=1.5であった一方、上記の節における高度に対称の例では、α=0.12が、使用された。この観察は、非対称パラメータとしてのαの特徴付けを強化する。
αの調整は、これらの例では、性能利得につながるが、NYUv2に関して、0<α<3のほぼ任意の値が、等重みベースラインよりネットワーク性能を改良することが見出された。図5A−5Bは、NYUv2+kptsの訓練中の重みw(t)を示すプロットである。αの2つの異なる値に関して、タスク重みw(t)が訓練中に変化した様子のトレースが、示される。αのより大きい値は、重みをより遠くに離れさせ、タスク間のより少ない対称につながる。図5A−5Bは、αのより高い値が、重みw(t)をさらに遠くに離れさせる傾向にあることを示し、それは、過剰適合する、またはあまりにも迅速に学習するタスク(この例証では、深度)の影響をより積極的に低減させる。α=1.75(図示せず)では、wdepth(t)は、深度タスクにおけるネットワーク性能への損害のない0.02を下回るまで抑制された。
(例示的定質的結果)
試験セット画像におけるVGG SegNet出力の可視化は、NYUv2+segおよびNYUv2+kptsデータセットの両方に関して、グラウンドトゥルースとともに、Chen et al.,GradNorm:Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks,Proceedings of the 35th International Conferenceon Machine Learning(2018),793−802(以降、「Chen et al.」)(その内容は、参照することによってその全体として本明細書に組み込まれる)の図6に示される。グラウンドトゥルースラベルは、等重みネットワーク、3つの単一ネットワーク、および最良GradNormネットワークからの出力と並べて示されている。いくつかの改良は、漸増であるが、GradNormは、タスクにおいてより優れた視覚的結果を生産し、それに関して、表3および4において、有意な定量的改良が認められている。
Chen et al.の図6は、推定時における例示的可視化を示す。NYUv2+kpts出力は、左に示される一方、NYUv2+seg出力は、右に示されている。示される可視化は、ランダム試験セット画像から生成された。いくつかの改良は、漸増であるが、赤色フレームが、予測の周囲に示され、それは、GradNormによって視覚的により明確に改良された。NYUv2+kpts出力に関して、GradNormは、法線予測において等重みネットワークに優り、キーポイント予測において単一ネットワークに優る改良を示した。NYUv2+segに関して、深度および分割正確度において、単一ネットワークに優る改良が認められた。これらは、表3および4に報告される数値と一致する。
(例示的性能利得対α)
α非対称ハイパーパラメータは、タスク間の対称における種々の異なる初期値のための適応を可能にすることができる。αの低い値は、タスクを横断して同様の規模である勾配ノルムをもたらし、各タスクがほぼ等しい影響を訓練全体を通して訓練動態に及ぼすことを確実にし得る。αの高い値は、損失がよりゆっくりと低下するタスクにより大きい重みをかける代わりに、損失があまりにも迅速に低下するタスクにペナルティを科し得る。
NYUv2実験に関して、α=1.5が、αのための最適値として選定され、αの増加は、タスク重みw(t)をより遠く離れさせ得る。性能における全体的利得は、GradNormが数値的に安定したαのほぼ全ての正の値に関して達成された。これらの結果は、図6に要約される。大きい正の値(NYUv2の場合、≧3に対応)では、いくつかの重みは、ゼロにあまりにも近づけられ、GradNorm更新は、この例示的データセットにおいて不安定となり得る。図6は、αの種々の設定に関するNYUv2+kptsにおける性能利得を示す。αの種々の値に関して、平均性能利得(全てのタスクを横断した等重みベースラインと比較した試験損失のパーセント変化の平均として定義される)が、NYUv2+kptsにおいてプロットされた。VGG16バックボーン(実線)およびResNet50バックボーン(破線)の両方に関する結果が、示される。試験されたαの全ての値における性能利得が、観察されたが、利得は、α=1.5あたりでピークに達すると考えられる。α>2を越える点は、VGG16バックボーンに関してGradNorm重みとして示されていない。しかしながら、それは、GradNormに基づく限定ではない。
図6に示されるように、性能利得は、αのほぼすべての値において達成された。しかしながら、特に、NYUv2+kptsに関して、これらの性能利得は、バックボーンアーキテクチャの両方に関して、α=1.5においてピークに達すると考えられる。さらに、ResNetアーキテクチャは、VGGアーキテクチャよりαに対してよりロバストであると考えられるが、両アーキテクチャは、αの適切な設定を用いて、同様のレベルの利得をもたらした。αの全ての値を横断した一貫して正の性能利得は、任意の種類の勾配平衡(準最適体系においてさえ)が、マルチタスクネットワーク訓練のために有利であり得ることを示唆する。
(マルチタスク顔ランドマークデータセットにおける例示的性能)
追加の実験が、マルチタスク顔ランドマーク(MTFL)データセット上で実施された。このデータセットは、顔の約13,000枚の画像を含み、10,000枚の画像の訓練セットおよび3,000枚の画像の試験セットに分割される。画像の各々は、4つのクラスラベル(性別、笑顔、眼鏡、および姿勢)とともに、5つの顔ランドマーク(左眼、右眼、鼻、左唇、および右唇)の(x,y)座標で分類される。データセットからの例示的ラベルは、(性別:男性、笑顔:真、眼鏡:偽、姿勢:正面)、(性別:女性、笑顔:真、眼鏡:偽、姿勢:左)、および(性別:男性、笑顔:偽、眼鏡:真、姿勢:左)を含む。
MTFLデータセットは、MTFLデータセットが分類タスクと回帰タスクとの豊富な混合であるので、GradNormを試験するための良好な機会を提供する。実験は、2つの異なる画像入力分解能:40×40および160×160において実施された。40×40実験に関して、MTFL2014において使用されたそれと同一アーキテクチャが、公平な比較を確実にするために使用されたが、160×160実験に関して、MTFL2014におけるアーキテクチャのより深層バージョンが、使用された:より深層のモデル層スタックは、[CONV−5−16][POOL−2][CONV−3−32][POOL−2][CONV−3−64][POOL−2][[CONV−3−128][POOL−2]][CONV−3−128][FC−100][FC−18]であり、CONV−X−Fは、フィルタサイズXおよびF個の出力フィルタを伴う畳み込みを示し、POOL−2は、ストライド2を伴う2×2プーリング層を示し、FC−Xは、X個の出力を伴う稠密層である。全てのネットワークは、18個の値を出力する:各分類子に関して、顔ランドマークのための10個の座標、および、4対の2個のソフトマックススコア。
MTFLデータセットにおける結果は、表5に示される。キーポイント誤差は、眼球間距離に正規化された5つ全ての顔ランドマークに関するL距離誤差に対する平均である一方、失敗レートは、キーポイント誤差が10%を上回る画像のパーセントである。両分解能に関して、GradNormは、全てのタスクにおいて、他の方法より優れていた(、眼鏡および姿勢予測を除く、それらの両方は、常に、大多数分類子に迅速に収束し、さらなる訓練を拒否した)。GradNormは、キーポイントにおいても、MTFL2014の性能に匹敵した(後者が、分類子性能を最適化することを試みず、キーポイント正確度にのみ重点を置いたにもかかわらず)。要するに、これらの結果は、GradNormが性別および笑顔における分類正確度を著しく改良した一方、全ての他のタスクにおいて、少なくとも全ての他の方法に匹敵したことを示す。
眼鏡および姿勢分類の両方は、常時、大多数分類子に収束した。訓練中に「スタック」した状態になるそのようなタスクは、いくつかの実施形態では、これらのタスクに関する損失重みを持続的に増加させないことによって、GradNormに関して克服され得る。GradNormは、例えば、病理学的タスクをオンラインで検出し、それらをGradNorm更新式から除去することによって、この問題を緩和し得る。
GradNormは、依然として、このデータセットにおいてより優れた性能を提供した。全ての損失重みは、w(0)=1に初期化された。不確実重み付けは、分類子損失のそれに対して、キーポイントに関して損失重みを増加させる傾向にあったが、GradNormは、相対的キーポイント損失重みを積極的に減少させた。GradNorm訓練実行に関して、wkpt(t)は、値≦0.01に収束し、不確実重み付けまたは等重み方法と比較して、規模が2桁小さい勾配を用いても、キーポイントタスクが正確度の減衰を伴わずに適切に訓練されたことを示した。
GradNormは、MTFLデータセットにおける分類タスクが、比較的に不十分に訓練され、上昇させられる必要があることを正しく識別し得る。対照的に、不確実重み付けは、より多くの相対的焦点をキーポイント回帰に置くことによって、逆の決定を行ない、多くの場合、分類において非常に不良な性能を発揮した(特に、より高い分解能入力のために)。これらの実験は、したがって、訓練中により多くの注意を要求するタスクを識別し、それに恩恵をもたらすGradNormの能力を強調する。
(GradNormに関する追加の観察)
本明細書に説明されるように、勾配正規化は、良好なモデル正則化子として作用し、ネットワーク内の勾配に直接作用することによって、マルチタスクネットワークにおける優れた性能につながることができる。GradNormは、レート平衡の魅力的に単純ヒューリスティックによって駆動されることができ、同一統合モデル内の可変複雑性の問題に適応することができ、いくつかの実施形態では、タスク非対称を表す単一ハイパーパラメータのみを使用する。GradNormネットワークはまた、最適固定タスク重みを迅速に抽出し、タスクの数に伴って指数関数的により高価になる、包括的グリッド検索方法の必要性を除去するために使用されることができる。
GradNormの実施形態は、異なるタスクの訓練レートの平衡を保つことに基づいて、マルチタスク学習設定における損失重みを調整するための効率的方法を提供することができる。合成および実際のデータセットの両方に関して、GradNormは、種々のシナリオにおけるマルチタスク試験時間性能を改良し、ハイパーパラメータαを通して、異なるタスク間の種々のレベルの非対称に適応することができる。結果は、GradNormが、他のマルチタスク適応的重み方法より優れた性能をもたらし、それほど時間集約的ではないにもかかわらず、包括的グリッド検索の性能に匹敵すること、またはそれを上回り得ることを示す。
いくつかの実施形態では、GradNormは、マルチタスク学習以外の用途を有し得る。GradNormは、クラス平衡およびシーケンストゥシーケンスモデル、相反する勾配信号を伴う問題がモデル性能を低下させ得る全ての状況に適用されることができる。GradNormの実施形態は、マルチタスク学習のためのロバストな新しい方法を提供するだけではなく、勾配調整が、有利には、大規模有効モデルを複雑なタスク上で訓練するためにも使用され得ることを示し得る。
(マルチタスクネットワークを訓練する例示的プロセス)
図8は、マルチタスクネットワークを訓練する例示的プロセス800のフロー図である。マルチタスクネットワークは、複数のタスクに関連付けられた出力を決定するために使用されることができる。マルチタスクネットワークは、複数の共有層と、複数のタスク特定のフィルタを備えている出力層とを備えていることができる。マルチタスクネットワークの出力層は、アフィン変換層を備えていることができる。非一過性メモリと、ハードウェアプロセッサとを伴うコンピューティングシステム等のコンピューティングシステムは、プロセス800を実装し、マルチタスクネットワークを訓練することができる。コンピューティングシステムの非一過性メモリは、実行可能命令を記憶すること、または記憶するように構成されることができる。ハードウェアプロセッサは、非一過性メモリと通信し、実行可能命令によって、プロセス800を実施し、GradNormの実施形態を使用して、マルチタスクネットワークを訓練するようにプログラムされることができる。
プロセス800は、ブロック804から開始し、コンピューティングシステムが、複数のタスクに関する複数の基準タスク出力に関連付けられた訓練画像を受信する。複数のタスクは、回帰タスク、分類タスク、またはそれらの組み合わせを備えていることができる。複数のタスクは、例えば、顔認識、視覚的検索、ジェスチャ識別または認識、意味的分割、オブジェクト検出、部屋レイアウト推定、直方体検出、照明検出、同時位置特定およびマッピング、オブジェクトまたはアバタの再位置特定等の知覚タスク、または、発話認識または自然言語処理等の発話処理タスク、または、それらの組み合わせを備えていることができる。
ブロック808では、コンピューティングシステムは、(1)各タスクに関するタスク出力と、(2)タスクに関するタスク重みによって調節された、タスクに関する対応する基準タスク出力とのシングルタスク損失L(t)の勾配ノルム
を決定することができる。勾配ノルムは、マルチタスクネットワークの複数のネットワーク重みに対して決定されることができる。タスクに関する対応する基準タスク出力は、訓練画像に関連付けられることができる。タスク重みによって調節されたシングルタスク損失の勾配ノルムは、タスク重みによって調節されたシングルタスク損失のLノルムであることができる。
コンピューティングシステムは、(1)訓練画像を入力として用いて、マルチタスクネットワークを使用して決定された各タスクに関するタスク出力と、(2)訓練画像に関連付けられたタスクに関する対応するタスク出力とのシングルタスク損失を決定することができる。シングルタスク損失を決定するために、コンピューティングシステムは、タスクに関連付けられた複数の損失関数のうちの損失関数を使用して、(1)訓練画像を入力として用いて、マルチタスクネットワークを使用して決定された各タスクに関するタスク出力と、(2)訓練画像に関連付けられたタスクに関する対応するタスク出力とのシングルタスク損失を決定することができる。コンピューティングシステムは、複数のタスクの勾配ノルムの平均
を平均勾配ノルムとして決定することができる。
ブロック812では、コンピューティングシステムは、タスクに関するシングルタスク損失に基づいて、タスクに関する相対的訓練レートを決定することができる。タスクに関するシングルタスク損失に基づくタスクに関する相対的訓練レートを決定するために、コンピューティングシステムは、タスクに関するシングルタスク損失L(t)とL(0)等のタスクに関する別のシングルタスク損失との損失比率に基づいて、タスクに関する相対的レートの逆数r(t)を決定することができる。タスクに関する相対的レートの逆数を決定するために、コンピューティングシステムは、タスクの損失比率と複数のタスクの損失比率の平均との比率を相対的訓練レートの逆数として決定することができる。
ブロック816では、コンピューティングシステムは、(1)各タスクに関して決定された勾配ノルム
と、(2)対応する標的勾配ノルムとの間の差異を含む勾配損失関数Lgradを決定することができる。対応する標的勾配ノルムは、(a)複数のタスクの平均勾配ノルムと、(b)タスクに関する相対的訓練レートと、(c)
等のハイパーパラメータαとに基づいて決定されることができる。勾配損失関数は、L損失関数であることができる。対応する標的勾配ノルムは、(a)複数のタスクの平均勾配ノルムと、(b)タスクに関する相対的訓練レートの逆数と、(c)ハイパーパラメータとに基づいて、決定されることができる。タスクに関する相対的訓練レートの逆数のハイパーパラメータの累乗よって乗算された複数のタスクの平均勾配ノルムを対応する標的勾配ノルムとして決定する。ハイパーパラメータαは、訓練中、一定であり得る(例証に関して図7A参照)、または訓練中、変動し得る(例証に関して図7B−7D参照)。本明細書に説明されるように、ハイパーパラメータαは、種々の実施形態では、−1〜3、0.5〜3の範囲内、またはある他の範囲であることができる。
ブロック820では、コンピューティングシステムは、複数のタスクの各々に関するタスク重みに対する勾配損失関数の勾配∇wgradを決定することができる。勾配損失関数の勾配を決定するために、コンピューティングシステムは、タスクに関する標的勾配ノルムを一定に保ちながら、複数のタスクの各々に関するタスク重みに対する勾配損失関数の勾配を決定することができる。
ブロック824では、コンピューティングシステムは、タスク重みに対する勾配損失関数の勾配∇wgradを使用して複数のタスクの各タスクに関して更新されたタスク重みw(t+1)を決定することができる。コンピューティングシステムは、複数のタスクに関する更新された重みを正規化することができる。複数のタスクに関する更新された重みを正規化するために、コンピューティングシステムは、複数のタスクに関する更新された重みを複数のタスクの数に対して正規化することができる。
コンピューティングシステムは、各タスクに関するタスク重みによって調節されたシングルタスク損失を含むマルチタスク損失関数を決定し、マルチタスクネットワークの全てのネットワーク重みに対するマルチタスク損失関数の勾配を決定し、マルチタスク損失関数の勾配に基づいて、マルチタスクネットワークの更新されたネットワーク重みを決定することができる。
(例示的NN層)
深層ニューラルネットワーク(DNN)等のニューラルネットワーク(NN)の層は、線形または非線形変換をその入力に適用し、その出力を生成することができる。深層ニューラルネットワーク層は、正規化層、畳み込み層、ソフトサイン層、正規化線形層、連結層、プーリング層、再帰層、インセプション様層、または任意のそれらの組み合わせであることができる。正規化層は、例えば、L2正規化を用いて、その入力の明度を正規化し、その出力を生成することができる。正規化層は、例えば、互いに対して一度に複数の画像の明度を正規化し、複数の正規化された画像をその出力として生成することができる。明度を正規化するための非限定的例示的方法は、ローカルコントラスト正規化(LCN)またはローカル応答正規化(LRN)を含む。ローカルコントラスト正規化は、平均値ゼロおよび分散1(または他の値の平均値および分散)を有するようにピクセル毎に画像のローカル領域を正規化することによって、画像のコントラストを非線形に正規化することができる。ローカル応答正規化は、平均値ゼロおよび分散1(または他の値の平均値および分散)を有するように、画像をローカル入力領域にわたって正規化することができる。正規化層は、訓練プロセスを加速し得る。
畳み込み層は、その入力を畳み込み、その出力を生成するカーネルのセットに適用されることができる。ソフトサイン層は、ソフトサイン関数をその入力に適用することができる。ソフトサイン関数(softsign(x))は、例えば、(x/(1+|x|))であることができる。ソフトサイン層は、要素毎の外れ値の影響を無視し得る。正規化線形層は、正規化線形層ユニット(ReLU)またはパラメータ化された正規化線形層ユニット(PReLU)であることができる。ReLU層は、ReLU関数をその入力に適用し、その出力を生成することができる。ReLU関数ReLU(x)は、例えば、max(0,x)であることができる。PReLU層は、PReLU関数をその入力に適用し、その出力を生成することができる。PReLU関数PReLU(x)は、例えば、x≧0の場合、xでり、x<0の場合、axであることができ、aは、正の数である。連結層は、その入力を連結し、その出力を生成することができる。例えば、連結層は、4つの5×5画像を連結し、1つの20×20画像を生成することができる。プーリング層は、その入力をダウンサンプリングし、その出力を生成するプーリング関数を適用することができる。例えば、プーリング層は、20×20画像を10×10画像にダウンサンプリングすることができる。プーリング関数の非限定的例は、最大プーリング、平均プーリング、または最小プーリングを含む。
時間点tにおいて、再帰層は、隠れ状態s(t)を計算することができ、再帰接続は、時間tにおける隠れ状態s(t)を再帰層に後続時間点t+1における入力として提供することができる。再帰層は、時間tにおける隠れ状態s(t)に基づいて、時間t+1においてその出力を計算することができる。例えば、再帰層は、ソフトサイン関数を時間tにおいて隠れ状態s(t)に適用し、時間t+1におけるその出力を計算することができる。時間t+1における再帰層の隠れ状態は、その入力として、時間tにおける再帰層の隠れ状態s(t)を有する。再帰層は、例えば、ReLU関数をその入力に適用することによって、隠れ状態s(t+1)を計算することができる。インセプション様層は、正規化層、畳み込み層、ソフトサイン層、ReLU層およびPReLU層等の正規化線形層、連結層、プーリング層、または任意のそれらの組み合わせのうちの1つ以上のものを含むことができる。
NNにおける層の数は、異なる実装において異なり得る。例えば、DNNにおける層の数は、50、100、200、またはそれを上回り得る。深層ニューラルネットワーク層の入力タイプは、異なる実装において異なり得る。例えば、層は、いくつかの層の出力をその入力として受信することができる。層の入力は、5つの層の出力を含むことができる。別の例として、層の入力は、NNの層のうちの1%を含むことができる。層の出力は、いくつかの層の入力であることができる。例えば、層の出力は、5つの層の入力として使用されることができる。別の例として、層の出力は、NNの層のうちの1%の入力として使用されることができる。
層の入力サイズまたは出力サイズは、非常に大きくあることができる。層の入力サイズまたは出力サイズは、n×mであることができ、nは、入力または出力の幅を示し、mは、高さを示す。例えば、nまたはmは、11、21、31以上であることができる。層の入力または出力のチャネルサイズは、異なる実装において異なり得る。例えば、層の入力または出力のチャネルサイズは、4、16、32、64、128以上であることができる。層のカーネルサイズは、異なる実装において異なり得る。例えば、カーネルサイズは、n×mであることができ、nは、カーネルの幅を示し、mは、高さを示す。例えば、nまたはmは、5、7、9以上であることができる。層のストライドサイズは、異なる実装において異なり得る。例えば、深層ニューラルネットワーク層のストライドサイズは、3、5、7以上であることができる。
いくつかの実施形態では、NNは、NNの出力を一緒に計算する複数のNNを指し得る。複数のNNのうちの異なるNNは、異なるタスクに関して訓練されることができる。プロセッサ(例えば、図9を参照して説明されるローカルデータ処理モジュール924のプロセッサ)は、複数のNNのうちのNNの出力を計算し、NNの出力を決定することができる。例えば、複数のNNのうちのNNの出力は、尤度スコアを含むことができる。プロセッサは、複数のNNのうちの異なるNNの出力の尤度スコアに基づいて、複数のNNを含むNNの出力を決定することができる。
(例示的ウェアラブルディスプレイシステム)
いくつかの実施形態では、ユーザデバイスは、ウェアラブルディスプレイデバイスであり得るか、または、ウェアラブルディスプレイデバイス内に含まれることができ、それは、有利なこととして、より没入型の仮想現実(VR)、拡張現実(AR)、または複合現実(MR)体験を提供し得、デジタル的に再現された画像またはその一部が、それらが現実のように見える様式、または現実として知覚され得る様式で装着者に提示される。
理論によって限定されるわけではないが、人間の眼は、典型的には、深度知覚を提供するために、有限数の深度平面を解釈し得ると考えられる。その結果、知覚される深度の高度に真実味のあるシミュレーションが、これらの限定された数の深度平面の各々に対応する画像の異なる表現を眼に提供することによって達成され得る。例えば、導波管のスタックを含むディスプレイが、ユーザまたは視認者の眼の正面に位置付けられて装着されるように構成され得る。導波管のスタックは、複数の導波管を使用し、画像投入デバイス(例えば、1つ以上の光ファイバを介して画像情報を送る多重化ディスプレイの別々のディスプレイまたは出力端)から、特定の導波管に関連付けられる深度平面に対応する特定の角度(および発散量)において視認者の眼に光を向けることによって、3次元知覚を眼/脳に提供するために利用され得る。
いくつかの実施形態では、導波管の2つのスタック(視認者の各眼のために1つ)が、異なる画像を各眼に提供するために利用され得る。一例として、拡張現実場面は、AR技術の装着者が、人物、木、背景の建物、およびコンクリートプラットフォームを特徴とする現実世界の公園のような設定を見るようなものであり得る。これらのアイテムに加えて、AR技術の装着者は、現実世界プラットフォーム上に立つロボットの像およびマルハナバチの擬人化のように見える飛行する漫画的アバタキャラクタを、そのロボットの像およびマルハナバチが現実世界に存在していないにもかかわらず、自身が「見ている」と知覚し得る。導波管のスタックは、入力画像に対応する明視野を生成するために使用され得、いくつかの実装では、ウェアラブルディスプレイは、ウェアラブル明視野ディスプレイを備えている。明視野画像を提供するためのウェアラブルディスプレイデバイスおよび導波管スタックの例が、米国特許公開第2015/0016777号(参照することによって、これが含むあらゆるものに関してその全体として本明細書に組み込まれる)に説明されている。
図9は、VR、AR、またはMR体験をディスプレイシステム装着者または視認者904に提示するために使用され得るウェアラブルディスプレイシステム900の例を図示する。ウェアラブルディスプレイシステム900は、本明細書に説明される用途または例のいずれかを実施するようにプログラムされ得る(例えば、CNNの実行、入力作動マップまたはカーネルの値の並び替え、眼画像分割、または眼追跡)。ディスプレイシステム900は、ディスプレイ908と、ディスプレイ908の機能をサポートするための種々の機械的および電子的モジュールおよびシステムとを含む。ディスプレイ908は、ディスプレイシステム装着者または視認者904によって装着可能であり、ディスプレイ908を装着者904の眼の正面に位置付けるように構成されるフレーム912に結合され得る。ディスプレイ908は、明視野ディスプレイであり得る。いくつかの実施形態では、スピーカ916が、フレーム912に結合され、ユーザの外耳道に隣接して位置付けられる。いくつかの実施形態では、示されない別のスピーカが、ユーザの他方の外耳道に隣接して位置付けられ、ステレオ/調節可能音制御を提供する。ディスプレイシステム900は、装着者904の周囲の環境の画像(例えば、静止画像またはビデオ)を取得し得る外向きに面した結像システム944(例えば、1つ以上のカメラ)を含むことができる。装着者904の周囲の環境内の外向きに面した結像システム944によって取得される画像は、図8を参照して説明される方法800によって訓練されたマルチタスクネットワークの実施形態によって分析されることができる。
ディスプレイ908は、有線導線または無線接続性等によって、フレーム912に固定して取り付けられる、ユーザによって装着されるヘルメットまたは帽子に固定して取り付けられる構成、ヘッドホンに内蔵される構成、または別様にユーザ904に除去可能に取り付けられる構成(例えば、リュック式構成において、ベルト結合式構成において)等、種々の構成において搭載され得るローカルデータ処理モジュール924に動作可能に結合される920。
ローカル処理およびデータモジュール924は、ハードウェアプロセッサおよび不揮発性メモリ(例えば、フラッシュメモリ)等の非一過性デジタルメモリを備え得、それらの両方は、データの処理、キャッシュ、および記憶を補助するために利用され得る。データは、(a)センサ(例えば、フレーム912に動作可能に結合される、または別様にユーザ904に取り付けられ得る)、例えば、画像捕捉デバイス(カメラ等)、マイクロホン、慣性測定ユニット、加速度計、コンパス、GPSユニット、無線デバイス、および/またはジャイロスコープから捕捉されるデータ、および/または、(b)可能性として、処理もしくは読み出し後にディスプレイ908への通過のために、遠隔処理モジュール928および/または遠隔データリポジトリ932を使用して入手および/または処理されるデータを含み得る。ローカル処理およびデータモジュール924は、これらの遠隔モジュール928、932が、互いに動作可能に結合され、ローカル処理およびデータモジュール924へのリソースとして利用可能であるように、有線または無線通信リンク等を介して、通信リンク936および/または940によって、遠隔処理モジュール928および/または遠隔データリポジトリ932に動作可能に結合され得る。画像補足デバイスは、眼画像分割または眼追跡プロシージャにおいて使用される眼画像を捕捉するために使用されることができる。
いくつかの実施形態では、遠隔処理モジュール928は、画像捕捉デバイスによって捕捉されたビデオ情報等のデータおよび/または画像情報を分析および処理するように構成される1つ以上のプロセッサを備え得る。ビデオデータは、ローカル処理およびデータモジュール924および/または遠隔データリポジトリ932内でローカルに記憶され得る。いくつかの実施形態では、遠隔データリポジトリ932は、デジタルデータ記憶設備を備え得、それは、インターネットまたは「クラウド」リソース構成における他のネットワーキング構成を通して利用可能であり得る。いくつかの実施形態では、全てのデータが、記憶され、全ての計算が、ローカル処理およびデータモジュール924において実施され、遠隔モジュールからの完全に自律的な使用を可能にする。
いくつかの実装では、ローカル処理およびデータモジュール924および/または遠隔処理モジュール928は、本明細書に開示される入力作動マップまたはカーネルの値の並び替え、眼画像分割、または眼追跡の実施形態を実施するようにプログラムされる。例えば、ローカル処理およびデータモジュール924および/または遠隔処理モジュール928は、図8を参照して説明される方法800を使用して訓練されたマルチタスクネットワークを使用して、タスク予測および決定の実施形態を実施するようにプログラムされることができる。画像捕捉デバイスは、特定の用途(例えば、拡張現実(AR)、人間とコンピュータの相互作用(HCI)、自律車両、ドローン、またはロボット全般)のためのビデオを捕捉することができる。ビデオは、CNNを使用して、処理モジュール924、928の一方または両方によって、分析されることができる。ある場合、入力作動マップまたはカーネルの値の並び替え、眼画像分割、または眼追跡の少なくともいくつかを遠隔処理モジュール(例えば、「クラウド」内の)にオフロードすることは、計算の効率または速度を改良し得る。CNNのパラメータ(例えば、重み、バイアス項、プーリング層のためのサブサンプリング係数、異なる層におけるカーネルの数およびサイズ、特徴マップの数等)は、データモジュール924および/または932内に記憶されることができる。
タスク予測または決定の結果(例えば、図8を参照して説明されるマルチタスクネットワーク800の出力)は、追加の動作または処理のために、処理モジュール924、928の一方または両方によって使用されることができる。例えば、ウェアラブルディスプレイシステム900の処理モジュール924、928は、マルチタスクネットワークの出力に基づいて、追加の用途(拡張現実、人間とコンピュータの相互作用(HCI)、自律車両、ドローン、またはロボット全般における用途等)を実施するようにプログラムされることができる。
(追加のタスク)
GradNormの実施形態は、マルチタスクネットワークが画像または視覚的データ上で訓練されるコンピュータビジョンタスクに限定されない。他の実施形態では、訓練サンプルは、オーディオデータ、加速データ、測位データ、温度データ、無線周波数データ、または光学追跡データ等のセンサによって捕捉された非画像データを含むことができる。センサの例は、オーディオセンサ(例えば、マイクロホン)、慣性測定ユニット(IMUs)、加速度計、コンパス、ジャイロスコープ、温度センサ、移動センサ、深度センサ、全地球測位システム(GPS)ユニット、および無線デバイスを含む。他の実施形態では、医療関連タスクに関する訓練サンプルは、性別、年齢、心拍数、体温、白血球数、疾患状態、疾患進行度、症状、疾患診断等の測定を含むことができる。例えば、発話認識または自然言語処理に関連するタスクに関して、訓練サンプルは、オーディオデータセット(またはビデオに添付されるオーディオデータ)または単語、文、段落、もしくはテキストの電子表現または埋め込み(例えば、n−グラム)を含むことができる。タスクは、例えば、品詞(POS)タグ付け、チャンク化依存性解析、意味的関連性、またはテキスト含意を含むことができる。
タスクは、医療上の治療または医療上の意思決定に関連することができる。例えば、タスクは、特定の疾患を有し得る患者に実施されるべき実験室試験または患者に関するリスク査定の決定を含むことができる。そのような例として、訓練データは、特定の疾患または症状(例えば、肺炎)を患う患者の測定(例えば、性別、年齢、心拍数、体温、白血球数等)を含むことができる。GradNormの実施形態は、患者に関する疾患リスク査定または実験室試験を予測するために、マルチタスクネットワークを訓練するために使用されることができる。
したがって、GradNormによって使用される訓練データは、画像、ビデオ、オーディオ、電子記録、データベース等を含むことができ、それらは、それぞれの訓練ラベル、分類、または信号に関連付けられ得る。
(追加の側面)
第1の側面では、マルチタスクネットワークを訓練するためのシステムが、開示される。システムは、実行可能命令と、複数のタスクに関連付けられた出力を決定するためのマルチタスクネットワークとを記憶するように構成される非一過性メモリと、非一過性メモリと通信しているハードウェアプロセッサとを備え、ハードウェアプロセッサは、複数のタスクに関する複数の基準タスク出力に関連付けられた訓練画像を受信することと、複数のタスクの各タスクに関して、(1)訓練画像を入力として用いて、マルチタスクネットワークを使用して決定されたタスクに関するタスク出力と、(2)マルチタスクネットワークの複数のネットワーク重みに対するタスクに関するタスク重みによって調節された訓練画像に関連付けられたタスクに関する対応する基準タスク出力とのシングルタスク損失の勾配ノルムを決定することと、タスクに関するシングルタスク損失に基づくタスクに関する相対的訓練レートを決定することと、(1)各タスクに関する決定された勾配ノルムと、(2)(a)複数のタスクの平均勾配ノルムと、(b)タスクに関する相対的訓練レートと、(c)ハイパーパラメータとに基づいて決定された対応する標的勾配ノルムとの間の差異を含む勾配損失関数を決定することと、複数のタスクの各々に関するタスク重みに対する勾配損失関数の勾配を決定することと、タスク重みに対する勾配損失関数の勾配を使用して、複数のタスクの各タスクに関して更新されたタスク重みを決定することとを行うための実行可能命令によってプログラムされる。
第2の側面では、ハードウェアプロセッサは、(1)訓練画像を入力として用いて、マルチタスクネットワークを使用して決定された各タスクに関するタスク出力と、(2)訓練画像に関連付けられたタスクに関する対応するタスク出力とのシングルタスク損失を決定するための実行可能命令によってさらにプログラムされている、側面1に記載のシステム。
第3の側面では、非一過性メモリは、複数のタスクに関連付けられた複数の損失関数を記憶するようにさらに構成される、側面2に記載のシステム。
第4の側面では、シングルタスク損失を決定するために、ハードウェアプロセッサは、タスクに関連付けられた複数の損失関数のうちの損失関数を使用して、(1)訓練画像を入力として用いて、マルチタスクネットワークを使用して決定された各タスクに関するタスク出力と、(2)訓練画像に関連付けられたタスクに関する対応するタスク出力とのシングルタスク損失を決定するための実行可能命令によってさらにプログラムされている、側面3に記載のシステム。
第5の側面では、ハードウェアプロセッサは、各タスクに関するタスク重みによって調節されたシングルタスク損失を含むマルチタスク損失関数を決定することと、マルチタスクネットワークの全てのネットワーク重みに対するマルチタスク損失関数の勾配を決定することと、マルチタスク損失関数の勾配に基づいて、マルチタスクネットワークの更新されたネットワーク重みを決定することとを行うための実行可能命令によってさらにプログラムされている、側面1−4のいずれか1項に記載のシステム。
第6の側面では、タスク重みによって調節されたシングルタスク損失の勾配ノルムは、タスク重みによって調節されたシングルタスク損失のLノルムである、側面1−5のいずれか1項に記載のシステム。
第7の側面では、勾配損失関数は、L損失関数である、側面1−6のいずれか1項に記載のシステム。
第8の側面では、ハードウェアプロセッサは、複数のタスクの勾配ノルムの平均を平均勾配ノルムとして決定するための実行可能命令によってさらにプログラムされている、側面1−7のいずれか1項に記載のシステム。
第9の側面では、対応する標的勾配ノルムは、(a)複数のタスクの平均勾配ノルムと、(b)タスクに関する相対的訓練レートの逆数と、(c)ハイパーパラメータとに基づいて決定される、側面1−8のいずれか1項に記載のシステム。
第10の側面では、ハードウェアプロセッサは、タスクに関する相対的訓練レートの逆数のハイパーパラメータの累乗によって乗算された複数のタスクの平均勾配ノルムを対応する標的勾配ノルムとして決定するための実行可能命令によってさらにプログラムされている、側面9に記載のシステム。
第11の側面では、タスクに関するシングルタスク損失に基づくタスクに関する相対的訓練レートを決定するために、ハードウェアプロセッサは、タスクに関するシングルタスク損失とタスクに関する別のシングルタスク損失との損失比率に基づいて、タスクに関する相対的訓練レートの逆数を決定するための実行可能命令によってさらにプログラムされている、側面9−10のいずれか1項に記載のシステム。
第12の側面では、タスクに関する相対的レートの逆数を決定するために、ハードウェアプロセッサは、タスクの損失比率と複数のタスクの損失比率の平均との比率を相対的訓練レートの逆数として決定するための実行可能命令によってさらにプログラムされている、側面11に記載のシステム。
第13の側面では、勾配損失関数の勾配を決定するために、ハードウェアプロセッサは、タスクに関する標的勾配ノルムを一定に保ちながら、複数のタスクの各々に関するタスク重みに対する勾配損失関数の勾配を決定するための実行可能命令によってさらにプログラムされている、側面1−12のいずれか1項に記載のシステム。
第14の側面では、ハードウェアプロセッサは、複数のタスクに関する更新された重みを正規化するように、実行可能命令によってさらにプログラムされている、側面1−13のいずれか1項に記載のシステム。
第15の側面では、複数のタスクに関する更新された重みを正規化するために、ハードウェアプロセッサは、複数のタスクに関する更新された重みを複数のタスクの数に対して正規化するように、実行可能命令によってさらにプログラムされている、側面14に記載のシステム。
第16の側面では、複数のタスクは、回帰タスク、分類タスク、またはそれらの組み合わせを含む、側面1−15のいずれか1項に記載のシステム。
第17の側面では、分類タスクは、知覚、顔認識、視覚的検索、ジェスチャ認識、意味的分割、オブジェクト検出、部屋レイアウト推定、直方体検出、照明検出、同時位置特定およびマッピング、再位置特定、発話処理、発話認識、自然言語処理、またはそれらの組み合わせを含む、側面16に記載のシステム。
第18の側面では、マルチタスクネットワークは、複数の共有層と、複数のタスク特定のフィルタを備えている出力層とを備えている、側面1−17のいずれか1項に記載のシステム。
第19の側面では、マルチタスクネットワークの出力層は、アフィン変換層を備えている、側面18に記載のシステム。
第20の側面では、マルチタスクネットワークを訓練する方法が、開示される。方法は、ハードウェアプロセッサの制御下で、各々が複数のタスクに関する複数の基準タスク出力に関連付けられた複数の訓練データのうちの訓練データを受信することと、複数のタスクの各タスクに関して、マルチタスクネットワークの複数のネットワーク重みに対するタスクに関するタスク重みによって調節されたシングルタスク損失の勾配ノルムを決定することであって、シングルタスク損失は、(1)訓練データを入力として用い、マルチタスクネットワークとを使用して決定されるタスクに関するタスク出力と、(2)訓練データに関連付けられたタスクに関する対応する基準タスク出力とである、ことと、タスクに関するシングルタスク損失に基づくタスクに関する相対的訓練レートを決定することと、(1)各タスクに関する決定された勾配ノルムと、(2)(a)複数のタスクの平均勾配ノルムと、(b)タスクに関する相対的訓練レートとに基づいて決定された対応する標的勾配ノルムとの間の差異を含む勾配損失関数を決定することと、タスク重みに対する勾配損失関数の勾配を使用して、複数のタスクの各々に関する更新されたタスク重みを決定することとを含む。
第21の側面では、複数の訓練データは、複数の訓練画像を備え、複数のタスクは、コンピュータビジョンタスク、発話認識タスク、自然言語処理タスク、医療診断タスク、またはそれらの組み合わせを含む、側面20に記載の方法。
第22の側面では、(1)訓練画像を入力として用いて、マルチタスクネットワークを使用して決定された各タスクに関するタスク出力と、(2)訓練画像に関連付けられたタスクに関する対応するタスク出力とのシングルタスク損失を決定することをさらに含む、側面20−21のいずれか1項に記載の方法。
第23の側面では、シングルタスク損失を決定することは、タスクに関連付けられた複数の損失関数のうちの損失関数を使用して、(1)訓練画像を入力として用いて、マルチタスクネットワークを使用して決定された各タスクに関するタスク出力と、(2)訓練画像に関連付けられたタスクに関する対応するタスク出力とのシングルタスク損失を決定することを含む、側面22に記載の方法。
第24の側面では、各タスクに関するタスク重みによって調節されたシングルタスク損失を含むマルチタスク損失関数を決定することと、マルチタスクネットワークの全てのネットワーク重みに対するマルチタスク損失関数の勾配を決定することと、マルチタスク損失関数の勾配に基づいて、マルチタスクネットワークの更新されたネットワーク重みを決定することとをさらに含む、側面20−23のいずれか1項に記載の方法。
第25の側面では、タスク重みによって調節されたシングルタスク損失の勾配ノルムは、タスク重みによって調節されたシングルタスク損失のLノルムである、側面20−24のいずれか1項に記載の方法。
第26の側面では、勾配損失関数は、L損失関数である、側面20−25のいずれか1項に記載の方法。
第27の側面では、複数のタスクの勾配ノルムの平均を平均勾配ノルムとして決定することをさらに含む、側面20−26のいずれか1項に記載の方法。
第28の側面では、(a)複数のタスクの平均勾配ノルムと、(b)タスクに関する相対的訓練レートと、(c)ハイパーパラメータとに基づいて、対応する標的勾配ノルムを決定することをさらに含む、側面20−27のいずれか1項に記載の方法。
第29の側面では、(a)複数のタスクの平均勾配ノルムと、(b)タスクに関する相対的訓練レートの逆数と、(c)ハイパーパラメータとに基づいて、対応する標的勾配ノルムを決定することをさらに含む、側面20−27のいずれか1項に記載の方法
第30の側面では、タスクに関する相対的訓練レートの逆数のハイパーパラメータの累乗によって乗算された複数のタスクの平均勾配ノルムを対応する標的勾配ノルムとして決定することをさらに含む、側面29に記載の方法。
第31の側面では、タスクに関するシングルタスク損失に基づくタスクに関する相対的訓練レートを決定することは、タスクに関するシングルタスク損失とタスクに関する別のシングルタスク損失との損失比率に基づいて、タスクに関する相対的訓練レートの逆数を決定することを含む、側面29−30のいずれか1項に記載の方法。
第32の側面では、タスクに関する相対的レートの逆数を決定することは、タスクの損失比率と複数のタスクの損失比率の平均との比率を相対的訓練レートの逆数として決定することを含む、側面31に記載の方法。
第33の側面では、複数のタスクの各々に関するタスク重みに対する勾配損失関数の勾配を決定することをさらに含む、側面20−32のいずれか1項に記載の方法。
第34の側面では、勾配損失関数の勾配を決定することは、タスクに関する標的勾配ノルムを一定に保ちながら、複数のタスクの各々に関するタスク重みに対する勾配損失関数の勾配を決定することを含む、側面33に記載の方法。
第35の側面では、複数のタスクに関する更新された重みを正規化することをさらに含む、側面20−34のいずれか1項に記載の方法。
第36の側面では、複数のタスクに関する更新された重みを正規化することは、複数のタスクに関する更新された重みを複数のタスクの数に対して正規化することを含む、側面35に記載の方法。
第37の側面では、複数のタスクは、回帰タスク、分類タスク、またはそれらの組み合わせを含む、側面20−36のいずれか1項に記載の方法。
第38の側面では、分類タスクは、知覚、顔認識、視覚的検索、ジェスチャ認識、意味的分割、オブジェクト検出、部屋レイアウト推定、直方体検出、照明検出、同時位置特定およびマッピング、再位置特定、発話処理、発話認識、自然言語処理、またはそれらの組み合わせを含む、側面37に記載の方法。
第39の側面では、マルチタスクネットワークは、複数の共有層と、複数のタスク特定のフィルタを備えている出力層とを備えている、側面20−38のいずれか1項に記載の方法。
第40の側面では、マルチタスクネットワークの出力層は、アフィン変換層を備えている、側面39に記載の方法。
第41の側面では、頭部搭載型ディスプレイシステムが、開示される。システムは、実行可能命令と、側面1−40のいずれか1項に記載のマルチタスクネットワークとを記憶するように構成された非一過性メモリと、ディスプレイと、センサと、非一過性メモリおよびディスプレイと通信しているハードウェアプロセッサであって、センサによって捕捉されたセンサデータを受信することと、センサデータを入力として用い、マルチタスクネットワークと使用して複数のタスクの各々に関するタスク出力を決定することと、決定されたタスク出力に関連する情報を拡張現実デバイスのユーザに示すことをディスプレイに行わせることとを行うための実行可能命令によってプログラムされるハードウェアプロセッサとを備えている。
第42の側面では、頭部搭載型ディスプレイシステムが、開示される。システムは、実行可能命令と、複数のタスクに関連付けられた出力を決定するためのマルチタスクネットワークであって、(1)訓練データを入力として用い、マルチタスクネットワークとを使用して決定された複数のタスクのうちのタスクに関するタスク出力と、(2)マルチタスクネットワークの複数のネットワーク重みに対するタスクに関するタスク重みによって調節された訓練データに関連付けられたタスクに関する対応する基準タスク出力とのシングルタスク損失の勾配ノルムと、タスクに関するシングルタスク損失に基づいて決定されたタスクに関する相対的訓練レートと、(1)タスクに関する決定された勾配ノルムと、(2)(a)複数のタスクの平均勾配ノルムと、(b)タスクに関する相対的訓練レートと、(c)ハイパーパラメータとに基づいて決定された対応する標的勾配ノルムとの間の差異を含む勾配損失関数と、タスクに関するタスク重みに対する勾配損失関数の勾配を使用したタスクに関して更新されたタスク重みとを使用して訓練されるマルチタスクネットワークとを記憶するように構成された非一過性メモリと、ディスプレイと、センサと、非一過性メモリおよびディスプレイと通信しているハードウェアプロセッサであって、センサによって捕捉されたセンサ入力を受信することと、マルチタスクネットワークを使用して、複数のタスクの各々に関するタスク出力を決定することと、決定されたタスク出力に関連する情報を拡張現実デバイスのユーザに示すことをディスプレイに行わせることとを行うための実行可能命令によってプログラムされたハードウェアプロセッサとを備えている。
第43の側面では、センサは、慣性測定ユニット、外向きに面したカメラ、深度感知カメラ、マイクロホン、眼結像カメラ、またはそれらの組み合わせを含む、側面42に記載のシステム。
第44の側面では、複数のタスクは、1つ以上の知覚タスク、1つ以上の回帰タスク、1つ以上の分類タスク、発話認識タスク、自然言語処理タスク、医療診断タスク、またはそれらの組み合わせを含む、側面42−43のいずれか1項に記載のシステム。
第45の側面では、知覚タスクは、顔認識、視覚的検索、ジェスチャ識別、意味的分割、オブジェクト検出、照明検出、同時位置特定およびマッピング、再位置特定、またはそれらの組み合わせを含む、側面44に記載のシステム。
第46の側面では、分類タスクは、知覚、顔認識、視覚的検索、ジェスチャ認識、意味的分割、オブジェクト検出、部屋レイアウト推定、直方体検出、照明検出、同時位置特定およびマッピング、再位置特定、発話処理、発話認識、自然言語処理、またはそれらの組み合わせを含む、側面44−45のいずれか1項に記載のシステム。
第47の側面では、マルチタスクネットワークは、各々が複数のタスクに関する複数の基準タスク出力に関連付けられた複数の訓練データのうちの訓練データを受信することと、複数のタスクの各タスクに関して、マルチタスクネットワークの複数のネットワーク重みに対するタスクに関するタスク重みによって調節されたシングルタスク損失の勾配ノルムを決定することであって、シングルタスク損失は、(1)訓練データを入力として用い、マルチタスクネットワークとを使用して決定されるタスクに関するタスク出力のシングルタスク損失と、(2)訓練データに関連付けられたタスクに関する対応する基準タスク出力のシングルタスク損失とである、ことと、タスクに関するシングルタスク損失に基づくタスクに関する相対的訓練レートを決定することと、(1)各タスクに関する決定された勾配ノルムと、(2)(a)複数のタスクの平均勾配ノルムと、(b)タスクに関する相対的訓練レートとに基づいて決定された対応する標的勾配ノルムとの間の差異を含む勾配損失関数を決定することと、タスク重みに対する勾配損失関数の勾配を使用して、複数のタスクの各々に関する更新されたタスク重みを決定することとによって、訓練される、側面42−46のいずれか1項に記載のシステム。
第48の側面では、複数の訓練データは、複数の訓練画像を備え、複数のタスクは、コンピュータビジョンタスクを備えている、側面47に記載のシステム。
第49の側面では、マルチタスクネットワークは、(1)訓練画像を入力として用いて、マルチタスクネットワークを使用して決定された各タスクに関するタスク出力と、(2)訓練画像に関連付けられたタスクに関する対応するタスク出力とのシングルタスク損失を決定することによって、訓練される、側面47−48のいずれか1項に記載のシステム。
第50の側面では、シングルタスク損失を決定することは、タスクに関連付けられた複数の損失関数のうちの損失関数を使用して、(1)訓練画像を入力として用いて、マルチタスクネットワークを使用して決定された各タスクに関するタスク出力と、(2)訓練画像に関連付けられたタスクに関する対応するタスク出力とのシングルタスク損失を決定することを含む、側面49に記載のシステム。
第51の側面では、マルチタスクネットワークは、各タスクに関するタスク重みによって調節されたシングルタスク損失を含むマルチタスク損失関数を決定することと、マルチタスクネットワークの全てのネットワーク重みに対するマルチタスク損失関数の勾配を決定することと、マルチタスク損失関数の勾配に基づいて、マルチタスクネットワークの更新されたネットワーク重みを決定することとによって、訓練される、側面47−50のいずれか1項に記載のシステム。
第52の側面では、タスク重みによって調節されたシングルタスク損失の勾配ノルムは、タスク重みによって調節されたシングルタスク損失のLノルムである、側面47−51のいずれか1項に記載のシステム。
第53の側面では、勾配損失関数は、L損失関数である、側面47−52のいずれか1項に記載のシステム。
第54の側面では、マルチタスクネットワークは、複数のタスクの勾配ノルムの平均を平均勾配ノルムとして決定することによって、訓練される、側面47−53のいずれか1項に記載のシステム。
第55の側面では、マルチタスクネットワークは、(a)複数のタスクの平均勾配ノルムと、(b)タスクに関する相対的訓練レートと、(c)ハイパーパラメータとに基づいて、対応する標的勾配ノルムを決定することによって、訓練される、側面47−54のいずれか1項に記載のシステム。
第56の側面では、マルチタスクネットワークは、(a)複数のタスクの平均勾配ノルムと、(b)タスクに関する相対的訓練レートの逆数と、(c)ハイパーパラメータとに基づいて、対応する標的勾配ノルムを決定することによって、訓練される、側面47−54のいずれか1項に記載のシステム。
第57の側面では、マルチタスクネットワークは、タスクに関する相対的訓練レートの逆数のハイパーパラメータの累乗によって乗算された複数のタスクの平均勾配ノルムを対応する標的勾配ノルムとして決定することによって、訓練される、側面56に記載のシステム。
第58の側面では、タスクに関するシングルタスク損失に基づくタスクに関する相対的訓練レートを決定することは、タスクに関するシングルタスク損失とタスクに関する別のシングルタスク損失との損失比率に基づいて、タスクに関する相対的訓練レートの逆数を決定することを含む、側面56−57のいずれか1項に記載のシステム。
第59の側面では、タスクに関する相対的レートの逆数を決定することは、タスクの損失比率と複数のタスクの損失比率の平均との比率を相対的訓練レートの逆数として決定することを含む、側面58に記載のシステム。
第60の側面では、マルチタスクネットワークは、複数のタスクの各々に関するタスク重みに対する勾配損失関数の勾配を決定することによって、訓練される、側面47−59のいずれか1項に記載のシステム。
第61の側面では、勾配損失関数の勾配を決定することは、タスクに関する標的勾配ノルムを一定に保ちながら、複数のタスクの各々に関するタスク重みに対する勾配損失関数の勾配を決定することを含む、側面60に記載のシステム。
第62の側面では、マルチタスクネットワークは、複数のタスクに関する更新された重みを正規化することによって、訓練される、側面47−61のいずれか1項に記載のシステム。
第63の側面では、複数のタスクに関する更新された重みを正規化することは、複数のタスクに関する更新された重みを複数のタスクの数に対して正規化することを含む、側面62に記載のシステム。
第64の側面では、マルチタスクネットワークは、複数の共有層と、複数のタスク特定のフィルタを備えている出力層とを備えている、側面47−63のいずれか1項に記載のシステム。
第65の側面では、マルチタスクネットワークの出力層は、アフィン変換層を備えている、側面64に記載のシステム。
第66の側面では、複数のタスクに関連付けられた出力を決定するためのマルチタスクニューラルネットワークを訓練する方法が、開示される。方法は、ハードウェアプロセッサの制御下で、複数のタスクに関する複数の基準タスク出力に関連付けられた訓練サンプルセットを受信することと、少なくとも部分的にシングルタスク損失関数の重み付けされた組み合わせに基づいて、マルチタスク損失関数を計算することであって、重み付けされたマルチタスク損失関数における重みは、各訓練ステップにおいて変動可能である、ことと、複数のタスクの各タスクが同様のレートで訓練されるように、訓練中、シングルタスク損失関数の各々に関する重みを決定することと、少なくとも部分的に訓練に基づいて、訓練されたマルチタスクニューラルネットワークを出力することとを含む。
第67の側面では、タスクは、コンピュータビジョンタスク、発話認識タスク、自然言語処理タスク、または医療診断タスクを備えている、側面66に記載の方法。
第68の側面では、マルチタスク損失関数は、重みとシングルタスク損失関数の線形組み合わせである、側面66−67のいずれか1項に記載の方法。
第69の側面では、シングルタスク損失関数の各々に関する重みを決定することは、複数のタスクのうちの第1のタスクからの逆伝搬勾配が、複数のタスクのうちの第2のタスクからの逆伝搬勾配と実質的に異なるとき、マルチタスクニューラルネットワークにペナルティを科すことを含む、側面66−68のいずれか1項に記載の方法。
第70の側面では、シングルタスク損失関数の各々に関する重みを決定することは、複数のタスクのうちの第1のタスクに関する第1の訓練レートが、複数のタスクのうちの第2のタスクに関する第2の訓練レートを超えるとき、第2のタスクに関する第2の重みに対して、第1のタスクに関する第1の重みを減少させることを含む、側面66−69のいずれか1項に記載の方法。
第71の側面では、シングルタスク損失関数の各々に関する重みを決定することは、訓練時間における重みに対する複数のタスクの各タスクに関して重み付けされたシングルタスク損失関数の勾配ノルムを評価することと、訓練時間における全てのタスクに対する平均勾配ノルムを評価することと、複数のタスクの各タスクに関して相対的逆数訓練レートを計算することと、少なくとも部分的に重み付けされたシングルタスク損失関数の各々の勾配ノルムと相対的逆数訓練レートの関数によって乗算された平均勾配ノルムとの間の差異に基づいて、勾配損失関数を計算することとを含む、側面66−70のいずれか1項に記載の方法。
第72の側面では、勾配損失関数は、L1損失関数を備えている、側面71に記載の方法。
第73の側面では、相対的逆数訓練レートの関数は、べき法則関数を備えている、側面71−72のいずれか1項に記載の方法。
第74の側面では、べき法則関数は、−1〜3の範囲内のべき法則指数を有する、側面73に記載の方法。
第75の側面では、べき法則関数は、訓練中、変動する、べき法則指数を有する、側面73に記載の方法。
(追加の考慮事項)
本明細書に説明され、および/または添付される図に描写されるプロセス、方法、およびアルゴリズムの各々は、具体的かつ特定のコンピュータ命令を実行するように構成される1つ以上の物理的コンピューティングシステム、ハードウェアコンピュータプロセッサ、特定用途向け回路、および/または電子ハードウェアによって実行されるコードモジュールにおいて具現化され、それによって完全または部分的に自動化され得る。例えば、コンピューティングシステムは、具体的コンピュータ命令でプログラムされた汎用コンピュータ(例えば、サーバ)または専用コンピュータ、専用回路等を含むことができる。コードモジュールは、実行可能プログラムにコンパイルおよびリンクされる動的リンクライブラリ内にインストールされ得るか、またはインタープリタ型プログラミング言語において書き込まれ得る。いくつかの実装では、特定の動作および方法が、所与の機能に特有の回路によって実施され得る。
さらに、本開示の機能性のある実装は、十分にコンピュータ的、計算的、または技術的に複雑であるので、(適切な特殊化された実行可能命令を利用する)特定用途向けハードウェアまたは1つ以上の物理的コンピューティングデバイスは、例えば、関与する計算の量もしくは複雑性に起因して、または結果を実質的にリアルタイムで提供するために、機能性を実施する必要があり得る。例えば、ビデオは、多くのフレームを含み、各フレームは、数百万のピクセルを有し得、具体的にプログラムされたコンピュータハードウェアは、商業的に妥当な時間量において所望の画像処理タスクまたは用途を提供するようにビデオデータを処理する必要がある。別の例として、本明細書に説明されるGradNorm方法の実施形態を使用して、深層マルチタスクネットワークを訓練することは、計算上困難であり、グラフィカル処理ユニット(GPU)、特定用途向け集積回路(ASIC)、または浮動点ゲートアレイ(FPGA)上に実装されることができる。
コードモジュールまたは任意のタイプのデータは、ハードドライブ、ソリッドステートメモリ、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、光学ディスク、揮発性もしくは不揮発性記憶装置、それらの組み合わせ等を含む物理的コンピュータ記憶装置等の任意のタイプの非一過性コンピュータ読み取り可能な媒体上に記憶され得る。方法およびモジュール(またはデータ)は、無線ベースおよび有線/ケーブルベースの媒体を含む種々のコンピュータ読み取り可能な伝送媒体上で生成されたデータ信号として(例えば、搬送波または他のアナログもしくはデジタル伝搬信号の一部として)伝送され得、種々の形態(例えば、単一もしくは多重化アナログ信号の一部として、または複数の別々のデジタルパケットもしくはフレームとして)をとり得る。開示されるプロセスまたはプロセスステップの結果は、任意のタイプの非一過性有形コンピュータ記憶装置内に持続的もしくは別様に記憶され得るか、またはコンピュータ読み取り可能な伝送媒体を介して通信され得る。
本明細書に説明される、および/または添付される図に描写されるフロー図における任意のプロセス、ブロック、状態、ステップ、もしくは機能性は、プロセスにおいて具体的機能(例えば、論理もしくは算術)またはステップを実装するための1つ以上の実行可能命令を含むコードモジュール、セグメント、またはコードの一部を潜在的に表すものとして理解されたい。種々のプロセス、ブロック、状態、ステップ、または機能性は、組み合わせられること、再配列されること、追加されること、削除されること、修正されること、または別様に本明細書に提供される例証的例から変更されることができる。いくつかの実施形態では、追加のまたは異なるコンピューティングシステムもしくはコードモジュールが、本明細書に説明される機能性のいくつかまたは全てを実施し得る。本明細書に説明される方法およびプロセスは、任意の特定のシーケンスに限定されず、それに関連するブロック、ステップ、または状態は、適切な他のシーケンスで、例えば、連続して、並行して、またはある他の様式で実施されることもできる。タスクまたはイベントが、開示される例示的実施形態に追加され、またはそれから除去され得る。さらに、本明細書に説明される実装における種々のシステムコンポーネントの分離は、例証を目的とし、全ての実装においてそのような分離を要求するものとして理解されるべきではない。説明されるプログラムコンポーネント、方法、およびシステムは、概して、単一のコンピュータ製品において一緒に統合されるか、または複数のコンピュータ製品にパッケージ化され得ることを理解されたい。多くの実装変形例が、可能である。
プロセス、方法、およびシステムは、ネットワーク(または分散)コンピューティング環境において実装され得る。ネットワーク環境は、企業全体コンピュータネットワーク、イントラネット、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、パーソナルエリアネットワーク(PAN)、クラウドコンピューティングネットワーク、クラウドソースコンピューティングネットワーク、インターネット、およびワールドワイドウェブを含む。ネットワークは、有線もしくは無線ネットワークまたは任意の他のタイプの通信ネットワークであり得る。
本開示のシステムおよび方法の各々は、いくつかの革新的側面を有し、そのうちのいかなるものも、本明細書に開示される望ましい属性に単独で関与しないか、またはそのために要求されない。本明細書に説明される種々の特徴およびプロセスは、互いに独立して使用され得るか、または種々の方法で組み合わせられ得る。全ての可能な組み合わせおよび副次的組み合わせが、本開示の範囲内に該当することが意図される。本開示に説明される実装の種々の修正が、当業者に容易に明白であり得、本明細書に定義される一般原理は、本開示の精神または範囲から逸脱することなく、他の実装に適用され得る。したがって、請求項は、本明細書に示される実装に限定されることを意図されず、本明細書に開示される本開示、原理、および新規の特徴と一貫する最も広い範囲を与えられるべきである。
別個の実装の文脈において本明細書に説明されるある特徴は、単一の実装における組み合わせにおいて実装されることもできる。逆に、単一の実装の文脈において説明される種々の特徴も、複数の実装において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴が、ある組み合わせにおいて作用するものとして上で説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの1つ以上の特徴は、いくつかの場合、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。いかなる単一の特徴または特徴の群も、あらゆる実施形態に必要もしくは必須ではない。
とりわけ、「〜できる(can)」、「〜し得る(could)」、「〜し得る(might)」、「〜し得る(may)」、「例えば(e.g.,)」等の本明細書で使用される条件文は、別様に具体的に記載されない限り、または使用されるような文脈内で別様に理解されない限り、概して、ある実施形態がある特徴、要素、および/またはステップを含む一方、他の実施形態がそれらを含まないことを伝えることが意図される。したがって、そのような条件文は、概して、特徴、要素、および/またはステップが、1つ以上の実施形態に対していかようにも要求されること、もしくは1つ以上の実施形態が、著者の入力または促しの有無を問わず、これらの特徴、要素、および/またはステップが任意の特定の実施形態において含まれる、もしくは実施されるべきかどうかを決定するための論理を必然的に含むことを示唆することを意図されない。用語「〜を備えている(comprising)」、「〜を含む(including)」、「〜を有する(having)」等は、同義語であり、非限定的方式で包括的に使用され、追加の要素、特徴、行為、動作等を除外しない。用語「または」も、その包括的意味において使用され(およびその排他的意味において使用されず)、したがって、例えば、要素のリストを接続するために使用されると、用語「または」は、リスト内の要素のうちの1つ、いくつか、または全てを意味する。加えて、本願および添付される請求項で使用されるような冠詞「a」、「an」、および「the」は、別様に規定されない限り、「1つ以上の」もしくは「少なくとも1つ」を意味するように解釈されるべきである。
本明細書で使用されるように、項目のリスト「のうちの少なくとも1つ」を指す語句は、単一の要素を含むそれらの項目の任意の組み合わせを指す。ある例として、「A、B、またはCのうちの少なくとも1つ」は、A、B、C、AおよびB、AおよびC、BおよびC、ならびにA、B、およびCを網羅することが意図される。語句「X、Y、およびZのうちの少なくとも1つ」等の接続文は、別様に具体的に記載されない限り、概して、項目、用語等がX、Y、またはZのうちの少なくとも1つであり得ることを伝えるために使用されるような文脈で別様に理解される。したがって、そのような接続文は、概して、ある実施形態が、Xのうちの少なくとも1つ、Yのうちの少なくとも1つ、およびZのうちの少なくとも1つがそれぞれ存在するように要求することを示唆することを意図されない。
同様に、動作は、特定の順序で図面に描写され得るが、それは、望ましい結果を達成するために、そのような動作が示される特定の順序で、もしくは連続的順序で実施される、または全ての図示される動作が実施される必要はないと認識されるべきである。さらに、図面は、フローチャートの形態で1つ以上の例示的プロセスを図式的に描写し得る。しかしながら、描写されない他の動作も、図式的に図示される例示的方法およびプロセス内に組み込まれることができる。例えば、1つ以上の追加の動作が、図示される動作のいずれかの前に、その後に、それと同時、またはその間に実施されることができる。加えて、動作は、他の実装において再配列されるか、または再順序付けられ得る。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上で説明される実装における種々のシステムコンポーネントの分離は、全ての実装におけるそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品において一緒に統合されるか、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。加えて、他の実装も、以下の請求項の範囲内である。いくつかの場合では、請求項に列挙されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。

Claims (37)

  1. マルチタスクネットワークを訓練するためのシステムであって、前記システムは、
    非一過性メモリであって、前記非一過性メモリは、
    実行可能命令と、
    複数のタスクに関連付けられた出力を決定するためのマルチタスクネットワークと
    を記憶するように構成されている、非一過性メモリと、
    前記非一過性メモリと通信しているハードウェアプロセッサと
    を備え、
    前記ハードウェアプロセッサは、前記実行可能命令によってプログラムされており、
    前記命令は、
    前記複数のタスクに関する複数の基準タスク出力に関連付けられた訓練画像を受信することと、
    前記複数のタスクの各タスクに関して、
    (1)前記訓練画像を入力として用い、前記マルチタスクネットワークを使用して決定された前記タスクに関するタスク出力と、(2)前記訓練画像に関連付けられた前記タスクに関する対応する基準タスク出力とのシングルタスク損失の勾配ノルムを決定することであって、前記対応する基準タスク出力は、前記マルチタスクネットワークの複数のネットワーク重みに対する前記タスクに関するタスク重みによって調節されている、ことと、
    前記タスクに関する前記シングルタスク損失に基づいて、前記タスクに関する相対的訓練レートを決定することと
    を行うことと、
    勾配損失関数を決定することであって、前記勾配損失関数は、(1)各タスクに関して決定された前記勾配ノルムと、(2)対応する標的勾配ノルムとの間の差異を含み、前記対応する標的勾配ノルムは、(a)前記複数のタスクの平均勾配ノルムと、(b)前記タスクに関する前記相対的訓練レートと、(c)ハイパーパラメータとに基づいて決定される、ことと、
    前記複数のタスクの各々に関するタスク重みに対する前記勾配損失関数の勾配を決定することと、
    前記タスク重みに対する前記勾配損失関数の前記勾配を使用して、前記複数のタスクの各タスクに関して更新されたタスク重みを決定することと
    を行うためのものである、システム。
  2. 前記ハードウェアプロセッサは、(1)前記訓練画像を入力として用い、前記マルチタスクネットワークを使用して決定された各タスクに関する前記タスク出力と、(2)前記訓練画像に関連付けられた前記タスクに関する前記対応するタスク出力との前記シングルタスク損失を決定するための前記実行可能命令によってさらにプログラムされている、請求項1に記載のシステム。
  3. 前記非一過性メモリは、前記複数のタスクに関連付けられた複数の損失関数をさらに記憶するように構成されている、請求項2に記載のシステム。
  4. 前記シングルタスク損失を決定するために、前記ハードウェアプロセッサは、前記タスクに関連付けられた前記複数の損失関数のうちの損失関数を使用して、(1)前記訓練画像を入力として用い、前記マルチタスクネットワークを使用して決定された各タスクに関する前記タスク出力と、(2)前記訓練画像に関連付けられた前記タスクに関する前記対応するタスク出力との前記シングルタスク損失を決定するための前記実行可能命令によってさらにプログラムされている、請求項3に記載のシステム。
  5. 前記ハードウェアプロセッサは、
    各タスクに関する前記タスク重みによって調節された前記シングルタスク損失を含むマルチタスク損失関数を決定することと、
    前記マルチタスクネットワークの全てのネットワーク重みに対する前記マルチタスク損失関数の勾配を決定することと、
    前記マルチタスク損失関数の前記勾配に基づいて、前記マルチタスクネットワークの更新されたネットワーク重みを決定することと
    を行うための前記実行可能命令によってさらにプログラムされている、請求項1に記載のシステム。
  6. 前記タスク重みによって調節された前記シングルタスク損失の前記勾配ノルムは、前記タスク重みによって調節された前記シングルタスク損失のLノルムである、請求項1に記載のシステム。
  7. 前記勾配損失関数は、L損失関数である、請求項1に記載のシステム。
  8. 前記ハードウェアプロセッサは、前記複数のタスクの前記勾配ノルムの平均を前記平均勾配ノルムとして決定するための前記実行可能命令によってさらにプログラムされている、請求項1に記載のシステム。
  9. 前記対応する標的勾配ノルムは、(a)前記複数のタスクの平均勾配ノルムと、(b)前記タスクに関する相対的訓練レートの逆数と、(c)ハイパーパラメータとに基づいて決定される、請求項1に記載のシステム。
  10. 前記ハードウェアプロセッサは、前記タスクに関する前記相対的訓練レートの逆数の前記ハイパーパラメータの累乗によって乗算された前記複数のタスクの前記平均勾配ノルムを前記対応する標的勾配ノルムとして決定するための前記実行可能命令によってさらにプログラムされている、請求項9に記載のシステム。
  11. 前記タスクに関する前記シングルタスク損失に基づいて前記タスクに関する前記相対的訓練レートを決定するために、前記ハードウェアプロセッサは、前記タスクに関する前記シングルタスク損失と前記タスクに関する別のシングルタスク損失との損失比率に基づいて、前記タスクに関する前記相対的訓練レートの前記逆数を決定するための前記実行可能命令によってさらにプログラムされている、請求項9に記載のシステム。
  12. 前記タスクに関する前記相対的レートの前記逆数を決定するために、前記ハードウェアプロセッサは、前記タスクの前記損失比率と前記複数のタスクの損失比率の平均との比率を前記相対的訓練レートの前記逆数として決定するための前記実行可能命令によってさらにプログラムされている、請求項11に記載のシステム。
  13. 前記勾配損失関数の前記勾配を決定するために、前記ハードウェアプロセッサは、前記タスクに関する前記標的勾配ノルムを一定に保ちながら、前記複数のタスクの各タスクに関する前記タスク重みに対する前記勾配損失関数の前記勾配を決定するための前記実行可能命令によってさらにプログラムされている、請求項1に記載のシステム。
  14. 前記ハードウェアプロセッサは、前記複数のタスクに関する前記更新された重みを正規化するための前記実行可能命令によってさらにプログラムされている、請求項1に記載のシステム。
  15. 前記複数のタスクに関する前記更新された重みを正規化するために、前記ハードウェアプロセッサは、前記複数のタスクに関する前記更新された重みを前記複数のタスクの数に対して正規化するための前記実行可能命令によってさらにプログラムされている、請求項14に記載のシステム。
  16. 前記複数のタスクは、回帰タスク、分類タスク、またはそれらの組み合わせを含む、請求項1に記載のシステム。
  17. 前記分類タスクは、知覚、顔認識、視覚的検索、ジェスチャ認識、意味的分割、オブジェクト検出、部屋レイアウト推定、直方体検出、照明検出、同時位置特定およびマッピング、再位置特定、発話処理、発話認識、自然言語処理、またはそれらの組み合わせを含む、請求項16に記載のシステム。
  18. 前記マルチタスクネットワークは、複数の共有層と、複数のタスク特定のフィルタを備えている出力層とを備えている、請求項1に記載のシステム。
  19. 前記マルチタスクネットワークの出力層は、アフィン変換層を備えている、請求項18に記載のシステム。
  20. マルチタスクネットワークを訓練する方法であって、前記方法は、
    ハードウェアプロセッサの制御下で、
    複数の訓練データのうちの訓練データを受信することであって、前記複数の訓練データの各々は、前記複数のタスクに関する複数の基準タスク出力に関連付けられている、ことと、
    前記複数のタスクの各タスクに関して、
    前記マルチタスクネットワークの複数のネットワーク重みに対する前記タスクに関するタスク重みによって調節されたシングルタスク損失の勾配ノルムを決定することであって、前記シングルタスク損失は、(1)前記訓練データを入力として用い、マルチタスクネットワークを使用して決定された前記タスクに関するタスク出力のシングルタスク損失と、(2)前記訓練データに関連付けられた前記タスクに関する対応する基準タスク出力のシングルタスク損失とである、ことと、
    前記タスクに関する前記シングルタスク損失に基づいて前記タスクに関する相対的訓練レートを決定することと
    を行うことと、
    (1)各タスクに関する前記決定された勾配ノルムと、(2)対応する標的勾配ノルムとの間の差異を含む勾配損失関数を決定することであって、前記対応する標的勾配ノルムは、(a)前記複数のタスクの平均勾配ノルムと、(b)前記タスクに関する前記相対的訓練レートとに基づいて決定される、ことと、
    前記タスク重みに対する勾配損失関数の勾配を使用して、前記複数のタスクの各々に関する更新されたタスク重みを決定することと
    を含む、方法。
  21. 前記対応する標的勾配ノルムは、(a)前記複数のタスクの平均勾配ノルムと、(b)前記タスクに関する前記相対的訓練レートと、(c)ハイパーパラメータとに基づいて決定される、請求項20に記載の方法。
  22. 前記複数のタスクの各タスクに関するタスク重みに対する前記勾配損失関数の前記勾配を決定することをさらに含む、請求項20に記載の方法。
  23. 前記複数の訓練データは、複数の訓練画像を備え、前記複数のタスクは、コンピュータビジョンタスクを備えている、請求項20に記載の方法。
  24. 頭部搭載型ディスプレイシステムであって、前記システムは、
    非一過性メモリであって、前記非一過性メモリは、
    実行可能命令と、
    複数のタスクに関連付けられた出力を決定するためのマルチタスクネットワークと
    を記憶するように構成され、
    前記マルチタスクネットワークは、
    シングルタスク損失の勾配ノルムであって、前記シングルタスク損失の勾配ノルムは、
    (1)前記訓練画像を入力として用いて、マルチタスクネットワークを使用して決定された前記複数のタスクのうちのタスクに関するタスク出力のシングルタスク損失の勾配ノルムと、(2)前記マルチタスクネットワークの複数のネットワーク重みに対する前記タスクに関するタスク重みによって調節された前記訓練画像に関連付けられた前記タスクに関する対応する基準タスク出力のシングルタスク損失の勾配ノルムとである、シングルタスク損失の勾配ノルムと、
    前記タスクに関するシングルタスク損失に基づいて決定された前記タスクに関する相対的訓練レートと、
    勾配損失関数であって、前記勾配損失関数は、
    (1)前記タスクに関する前記決定された勾配ノルムと、(2)対応する標的勾配ノルムとの間の差異を含み、前記対応する標的勾配ノルムは、(a)前記複数のタスクの平均勾配ノルムと、(b)前記タスクに関する前記相対的訓練レートと、(c)ハイパーパラメータとに基づいて決定される、勾配損失関数と、
    前記タスクに関する前記タスク重みに対する前記勾配損失関数の勾配を使用した前記タスクに関する更新されたタスク重みと
    を使用して訓練される、非一過性メモリと、
    ディスプレイと、
    センサと、
    前記非一過性メモリおよび前記ディスプレイと通信しているハードウェアプロセッサと
    を備え、
    前記ハードウェアプロセッサは、
    前記センサによって捕捉されたセンサデータを受信することと、
    前記センサデータを入力として用い、前記マルチタスクネットワークを使用して、前記複数のタスクの各タスクに関するタスク出力を決定することと、
    前記決定されたタスク出力に関連する情報を拡張現実デバイスのユーザに示すことを前記ディスプレイに行わせることと
    を行うための前記実行可能命令によってプログラムされている、システム。
  25. 前記複数のタスクは、複数の知覚タスクを備えている、請求項24に記載のシステム。
  26. 前記複数の知覚タスクは、記顔認識、視覚的検索、ジェスチャ識別、意味的分割、オブジェクト検出、照明検出、同時位置特定およびマッピング、再位置特定、またはそれらの組み合わせを備えている、請求項25に記載のシステム。
  27. 前記センサは、慣性測定ユニット、外向きに面したカメラ、深度感知カメラ、マイクロホン、眼結像カメラ、またはそれらの組み合わせを備えている、請求項24に記載のシステム。
  28. 複数のタスクに関連付けられた出力を決定するためのマルチタスクニューラルネットワークを訓練する方法であって、前記方法は、
    ハードウェアプロセッサの制御下で、
    前記複数のタスクに関する複数の基準タスク出力に関連付けられた訓練サンプルセットを受信することと、
    少なくとも部分的にシングルタスク損失関数の重み付けされた組み合わせに基づいて、マルチタスク損失関数を計算することであって、前記重み付けされたマルチタスク損失関数における重みは、各訓練ステップにおいて変動可能である、ことと、
    前記複数のタスクの各タスクが同様のレートで訓練されるように、前記訓練中、前記シングルタスク損失関数の各々に関する前記重みを決定することと、
    少なくとも部分的に前記訓練に基づいて、訓練されたマルチタスクニューラルネットワークを出力することと
    を含む、方法。
  29. 前記タスクは、コンピュータビジョンタスク、発話認識タスク、自然言語処理タスク、または医療診断タスクを備えている、請求項28に記載の方法。
  30. 前記マルチタスク損失関数は、前記重みと前記シングルタスク損失関数との線形組み合わせである、請求項28に記載の方法。
  31. 前記シングルタスク損失関数の各々に関する前記重みを決定することは、前記複数のタスクのうちの第1のタスクからの逆伝搬勾配が前記複数のタスクのうちの第2のタスクからの逆伝搬勾配と実質的に異なるとき、前記マルチタスクニューラルネットワークにペナルティを科すことを含む、請求項28に記載の方法。
  32. 前記シングルタスク損失関数の各々に関する前記重みを決定することは、前記複数のタスクのうちの第1のタスクに関する第1の訓練レートが、前記複数のタスクのうちの第2のタスクに関する第2の訓練レートを超えるとき、前記第2のタスクに関する第2の重みに対して、前記第1のタスクに関する第1の重みを減少させることを含む、請求項28に記載の方法。
  33. 前記シングルタスク損失関数の各々に関する前記重みを決定することは、
    訓練時間における前記重みに対する前記複数のタスクの各タスクに関する重み付けされたシングルタスク損失関数の勾配ノルムを評価することと、
    前記訓練時間における全てのタスクに対する平均勾配ノルムを評価することと、
    前記複数のタスクの各タスクに関する相対的逆数訓練レートを計算することと、
    少なくとも部分的に前記重み付けされたシングルタスク損失関数の各々に関する前記勾配ノルムと、前記相対的逆数訓練レートの関数によって乗算された平均勾配ノルムとの間の差異に基づいて、勾配損失関数を計算することと
    を含む、請求項28に記載の方法。
  34. 前記勾配損失関数は、L1損失関数を備えている、請求項34に記載の方法。
  35. 前記相対的逆数訓練レートの関数は、べき法則関数を備えている、請求項34に記載の方法。
  36. 前記べき法則関数は、−1〜3の範囲内のべき法則指数を有する、請求項34に記載の方法。
  37. 前記べき法則関数は、前記訓練中、変動するべき法則指数を有する、請求項34に記載の方法。
JP2020520481A 2017-10-26 2018-10-24 深層マルチタスクネットワークにおける適応的損失平衡のための勾配正規化システムおよび方法 Active JP7181928B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201762577705P 2017-10-26 2017-10-26
US62/577,705 2017-10-26
US201762599693P 2017-12-16 2017-12-16
US62/599,693 2017-12-16
US201862628266P 2018-02-08 2018-02-08
US62/628,266 2018-02-08
US201862695356P 2018-07-09 2018-07-09
US62/695,356 2018-07-09
PCT/US2018/057382 WO2019084189A1 (en) 2017-10-26 2018-10-24 SYSTEMS AND METHODS FOR GRADIENT NORMALIZATION FOR ADAPTIVE LOSS BALANCING IN DEEP MULTITASK NETWORKS

Publications (2)

Publication Number Publication Date
JP2021501391A true JP2021501391A (ja) 2021-01-14
JP7181928B2 JP7181928B2 (ja) 2022-12-01

Family

ID=66243069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020520481A Active JP7181928B2 (ja) 2017-10-26 2018-10-24 深層マルチタスクネットワークにおける適応的損失平衡のための勾配正規化システムおよび方法

Country Status (9)

Country Link
US (1) US11537895B2 (ja)
EP (1) EP3704592A4 (ja)
JP (1) JP7181928B2 (ja)
KR (1) KR102602117B1 (ja)
CN (1) CN111373419A (ja)
AU (1) AU2018354257A1 (ja)
CA (1) CA3078530A1 (ja)
IL (1) IL273991B2 (ja)
WO (1) WO2019084189A1 (ja)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2017230184B2 (en) 2016-03-11 2021-10-07 Magic Leap, Inc. Structure learning in convolutional neural networks
IL273991B2 (en) 2017-10-26 2023-11-01 Magic Leap Inc Gradual normalization systems and methods for adaptive loss balancing in deep multitasking networks
AU2018368279A1 (en) * 2017-11-14 2020-05-14 Magic Leap, Inc. Meta-learning for multi-task learning for neural networks
US11810202B1 (en) 2018-10-17 2023-11-07 State Farm Mutual Automobile Insurance Company Method and system for identifying conditions of features represented in a virtual model
US11481611B2 (en) * 2018-11-02 2022-10-25 International Business Machines Corporation RRAM crossbar array structure for multi-task learning
US11250838B2 (en) * 2018-11-16 2022-02-15 Deepmind Technologies Limited Cross-modal sequence distillation
CN109858524B (zh) * 2019-01-04 2020-10-16 北京达佳互联信息技术有限公司 手势识别方法、装置、电子设备及存储介质
US10873724B1 (en) 2019-01-08 2020-12-22 State Farm Mutual Automobile Insurance Company Virtual environment generation for collaborative building assessment
US20200226451A1 (en) * 2019-01-11 2020-07-16 Samsung Electronics Co., Ltd. Method and apparatus with neural network layer contraction
US11610414B1 (en) * 2019-03-04 2023-03-21 Apple Inc. Temporal and geometric consistency in physical setting understanding
US11049072B1 (en) 2019-04-26 2021-06-29 State Farm Mutual Automobile Insurance Company Asynchronous virtual collaboration environments
US11032328B1 (en) 2019-04-29 2021-06-08 State Farm Mutual Automobile Insurance Company Asymmetric collaborative virtual environments
EP3973468A4 (en) * 2019-05-21 2022-09-14 Magic Leap, Inc. HANDPOSITION ESTIMATING
CN110147771B (zh) * 2019-05-23 2020-01-14 南京农业大学 基于母猪关键部位与环境联合分区的母猪侧卧姿态实时检测系统
JP7208528B2 (ja) * 2019-05-23 2023-01-19 富士通株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN110361176B (zh) * 2019-06-05 2021-11-19 华南理工大学 一种基于多任务特征共享神经网络的智能故障诊断方法
CN110298291B (zh) * 2019-06-25 2022-09-23 吉林大学 基于Mask-RCNN的牛脸及牛脸关键点检测方法
JP2021015425A (ja) * 2019-07-11 2021-02-12 富士通株式会社 学習方法、学習プログラム及び学習装置
CN112560541A (zh) * 2019-09-10 2021-03-26 富士通株式会社 目标检测模型的训练装置及方法、电子设备
US11593673B2 (en) 2019-10-07 2023-02-28 Servicenow Canada Inc. Systems and methods for identifying influential training data points
US11450150B2 (en) * 2019-10-28 2022-09-20 Microsoft Technology Licensing, Llc Signature verification
CN111062484B (zh) * 2019-11-19 2023-06-09 鼎富智能科技有限公司 基于多任务学习的数据集选取方法及装置
CN112734798B (zh) * 2019-11-27 2023-11-07 上海联影智能医疗科技有限公司 神经网络的在线自适应系统和方法
CN110929794B (zh) * 2019-11-28 2022-12-13 哈尔滨工程大学 一种基于多任务学习的侧扫声呐图像分类方法
CN111160268B (zh) * 2019-12-30 2024-03-29 北京化工大学 一种基于多任务学习的多角度sar目标识别方法
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
CN111241279B (zh) * 2020-01-07 2020-10-30 华东师范大学 一种基于多任务学习机制的自然语言关系抽取方法
EP4115145A4 (en) 2020-03-05 2023-08-02 Magic Leap, Inc. SYSTEMS AND METHODS FOR DEPTH ESTIMATION BY LEARNING TRIANGULATION AND SPREAD POINT DENSIFICATION FOR MULTIVIEW STEREO
JP7476600B2 (ja) 2020-03-24 2024-05-01 富士フイルムビジネスイノベーション株式会社 情報処理装置、及びコンピュータプログラム
TWI723823B (zh) * 2020-03-30 2021-04-01 聚晶半導體股份有限公司 基於神經網路的物件偵測裝置和物件偵測方法
CN111428689B (zh) * 2020-04-20 2022-07-01 重庆邮电大学 一种多池化信息融合的人脸图像特征提取方法
CN113628124B (zh) * 2020-05-08 2024-01-16 深圳清华大学研究院 Isp与视觉任务联合优化方法、系统、介质和电子设备
US11475304B2 (en) 2020-05-12 2022-10-18 International Business Machines Corporation Variational gradient flow
US11755951B2 (en) * 2020-05-15 2023-09-12 Vmware, Inc. Machine learning with an intelligent continuous learning service in a big data environment
KR20210150233A (ko) * 2020-06-03 2021-12-10 삼성전자주식회사 이미지 처리 알고리즘의 최적화 방법 및 이를 구비한 전자 장치
US11514326B2 (en) * 2020-06-18 2022-11-29 International Business Machines Corporation Drift regularization to counteract variation in drift coefficients for analog accelerators
CN111657926B (zh) * 2020-07-08 2021-04-23 中国科学技术大学 一种基于多导联信息融合的心律失常分类方法
CN111862116A (zh) * 2020-07-15 2020-10-30 完美世界(北京)软件科技发展有限公司 动漫人像的生成方法及装置、存储介质、计算机设备
CN115917535A (zh) * 2020-07-24 2023-04-04 华为技术有限公司 推荐模型的训练方法、推荐方法、装置及计算机可读介质
CN111931929B (zh) * 2020-07-29 2023-06-16 深圳地平线机器人科技有限公司 一种多任务模型的训练方法、装置及存储介质
WO2022039847A1 (en) * 2020-08-21 2022-02-24 Inari Agriculture Technology, Inc. Machine learning-based variant effect assessment and uses thereof
CN112131342A (zh) * 2020-09-07 2020-12-25 北京字节跳动网络技术有限公司 模型训练方法、装置、设备及存储介质
CN114170642A (zh) * 2020-09-09 2022-03-11 成都鼎桥通信技术有限公司 图像检测的处理方法、装置、设备及存储介质
CN112116012B (zh) * 2020-09-23 2024-03-19 大连海事大学 一种基于深度学习的手指静脉即时注册、识别方法及系统
CN116057537A (zh) * 2020-10-02 2023-05-02 华为技术有限公司 多任务模型的变量重要性学习
US20220121953A1 (en) 2020-10-21 2022-04-21 Nec Laboratories America, Inc. Multi-task learning via gradient split for rich human analysis
US11868439B2 (en) 2020-11-13 2024-01-09 Toyota Research Institute, Inc. Mixed-batch training of a multi-task network
CN112447188B (zh) * 2020-11-18 2023-10-20 中国人民解放军陆军工程大学 一种基于改进softmax函数的声学场景分类方法
KR102639179B1 (ko) * 2020-12-31 2024-02-20 서울과학기술대학교 산학협력단 딥러닝 네트워크의 불확실도 판단방법
CN113159275A (zh) * 2021-03-05 2021-07-23 深圳市商汤科技有限公司 网络训练方法、图像处理方法、装置、设备及存储介质
CN112949774A (zh) * 2021-04-13 2021-06-11 Oppo广东移动通信有限公司 神经网络模型的训练方法、装置、计算机设备及存储介质
CN113221837A (zh) * 2021-06-01 2021-08-06 北京金山云网络技术有限公司 对象分割方法、对象分割模型的训练方法和装置
US20220405634A1 (en) * 2021-06-16 2022-12-22 Moxa Inc. Device of Handling Domain-Agnostic Meta-Learning
CN113469243A (zh) * 2021-06-30 2021-10-01 国网浙江宁波市鄞州区供电有限公司 一种极端环境下电缆性能的预测方法
CN113537115A (zh) * 2021-07-26 2021-10-22 东软睿驰汽车技术(沈阳)有限公司 驾驶员的驾驶状态获取方法、装置及电子设备
WO2023085610A1 (ko) * 2021-11-11 2023-05-19 삼성전자 주식회사 멀티-태스크 모델의 학습을 수행하는 방법 및 전자 장치
TWI795173B (zh) * 2022-01-17 2023-03-01 中華電信股份有限公司 多語言語音辨識系統、方法及電腦可讀媒介
CN114913371A (zh) * 2022-05-10 2022-08-16 平安科技(深圳)有限公司 多任务学习模型训练方法、装置、电子设备及存储介质
CN115049108A (zh) * 2022-05-20 2022-09-13 支付宝(杭州)信息技术有限公司 多任务模型训练方法、多任务预测方法、相关装置及介质
CN115019201B (zh) * 2022-05-20 2024-03-05 西北工业大学 一种基于特征精细化深度网络的弱小目标检测方法
CN116028820B (zh) * 2023-03-20 2023-07-04 支付宝(杭州)信息技术有限公司 一种模型训练的方法、装置、存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection

Family Cites Families (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04262453A (ja) * 1991-02-15 1992-09-17 Hitachi Ltd ニュ−ロ学習制御方法及び装置
US5291560A (en) 1991-07-15 1994-03-01 Iri Scan Incorporated Biometric personal identification system based on iris analysis
US6222525B1 (en) 1992-03-05 2001-04-24 Brad A. Armstrong Image controllers with sheet connected sensors
US5583795A (en) 1995-03-17 1996-12-10 The United States Of America As Represented By The Secretary Of The Army Apparatus for measuring eye gaze and fixation duration, and method therefor
US5670988A (en) 1995-09-05 1997-09-23 Interlink Electronics, Inc. Trigger operated electronic device
EP1483909B1 (en) 2002-03-13 2010-04-28 Imax Corporation Systems and methods for digitally re-mastering or otherwise modifying motion pictures or other image sequences data
US8098901B2 (en) 2005-01-26 2012-01-17 Honeywell International Inc. Standoff iris recognition system
KR20050025927A (ko) 2003-09-08 2005-03-14 유웅덕 홍채인식을 위한 동공 검출 방법 및 형상기술자 추출방법과 그를 이용한 홍채 특징 추출 장치 및 그 방법과홍채인식 시스템 및 그 방법
USD514570S1 (en) 2004-06-24 2006-02-07 Microsoft Corporation Region of a fingerprint scanning device with an illuminated ring
EP1784988A1 (en) 2004-08-06 2007-05-16 University of Washington Variable fixation viewing distance scanned light displays
US7248720B2 (en) 2004-10-21 2007-07-24 Retica Systems, Inc. Method and system for generating a combined retina/iris pattern biometric
US20070052672A1 (en) 2005-09-08 2007-03-08 Swisscom Mobile Ag Communication device, system and method
US11428937B2 (en) 2005-10-07 2022-08-30 Percept Technologies Enhanced optical and perceptual digital eyewear
US20070081123A1 (en) 2005-10-07 2007-04-12 Lewis Scott W Digital eyewear
US8696113B2 (en) 2005-10-07 2014-04-15 Percept Technologies Inc. Enhanced optical and perceptual digital eyewear
US7756313B2 (en) * 2005-11-14 2010-07-13 Siemens Medical Solutions Usa, Inc. System and method for computer aided detection via asymmetric cascade of sparse linear classifiers
JP4824420B2 (ja) 2006-02-07 2011-11-30 アイテック株式会社 視線ベクトル検出方法及び同装置
US7970179B2 (en) 2006-09-25 2011-06-28 Identix Incorporated Iris data extraction
US8363783B2 (en) 2007-06-04 2013-01-29 Oraya Therapeutics, Inc. Method and device for ocular alignment and coupling of ocular structures
JP5088024B2 (ja) 2007-07-11 2012-12-05 沖電気工業株式会社 試供品配布システム、試供品配布情報サーバ、試供品配布方法及び試供品配布情報処理プログラム
US20090129591A1 (en) 2007-11-21 2009-05-21 Hayes Gregory A Techniques for Securing Document Content in Print and Electronic Form
US8064653B2 (en) 2007-11-29 2011-11-22 Viewdle, Inc. Method and system of person identification by facial image
US8098891B2 (en) 2007-11-29 2012-01-17 Nec Laboratories America, Inc. Efficient multi-hypothesis multi-human 3D tracking in crowded scenes
US8411910B2 (en) 2008-04-17 2013-04-02 Biometricore, Inc. Computationally efficient feature extraction and matching iris recognition
EP2257636A4 (en) 2008-07-03 2014-10-15 Nec Lab America Inc EPITHELIAL LAYER DETECTOR AND RELATED METHODS
US8957835B2 (en) * 2008-09-30 2015-02-17 Apple Inc. Head-mounted display apparatus for retaining a portable electronic device with display
US8768014B2 (en) 2009-01-14 2014-07-01 Indiana University Research And Technology Corp. System and method for identifying a person with reference to a sclera image
US8374404B2 (en) 2009-02-13 2013-02-12 Raytheon Company Iris recognition using hyper-spectral signatures
US20100232654A1 (en) 2009-03-11 2010-09-16 Harris Corporation Method for reconstructing iris scans through novel inpainting techniques and mosaicing of partial collections
US8340945B2 (en) * 2009-08-24 2012-12-25 International Business Machines Corporation Method for joint modeling of mean and dispersion
CN102811684B (zh) 2010-01-22 2015-09-09 眼科医疗公司 用于自动放置扫描激光撕囊切口的装置
US8345984B2 (en) 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
US20150309316A1 (en) 2011-04-06 2015-10-29 Microsoft Technology Licensing, Llc Ar glasses with predictive control of external device based on event input
US9304319B2 (en) 2010-11-18 2016-04-05 Microsoft Technology Licensing, Llc Automatic focus improvement for augmented reality displays
US9691289B2 (en) 2010-12-22 2017-06-27 Brightstar Learning Monotonous game-like task to promote effortless automatic recognition of sight words
AU2011348122A1 (en) 2010-12-24 2013-07-11 Magic Leap Inc. An ergonomic head mounted display device and optical system
US10156722B2 (en) 2010-12-24 2018-12-18 Magic Leap, Inc. Methods and systems for displaying stereoscopy with a freeform optical system with addressable focus for virtual and augmented reality
RU2621644C2 (ru) 2011-05-06 2017-06-06 Мэджик Лип, Инк. Мир массового одновременного удаленного цифрового присутствия
US9104186B2 (en) * 2012-06-04 2015-08-11 Brain Corporation Stochastic apparatus and methods for implementing generalized learning rules
US10795448B2 (en) 2011-09-29 2020-10-06 Magic Leap, Inc. Tactile glove for human-computer interaction
US20130159939A1 (en) 2011-10-12 2013-06-20 Qualcomm Incorporated Authenticated gesture recognition
WO2013085639A1 (en) 2011-10-28 2013-06-13 Magic Leap, Inc. System and method for augmented and virtual reality
CA2858208C (en) 2011-11-23 2019-01-15 Magic Leap, Inc. Three dimensional virtual and augmented reality display system
KR102028732B1 (ko) 2012-04-05 2019-10-04 매직 립, 인코포레이티드 능동 포비에이션 능력을 갖는 와이드-fov(field of view) 이미지 디바이스들
US9671566B2 (en) 2012-06-11 2017-06-06 Magic Leap, Inc. Planar waveguide apparatus with diffraction element(s) and system employing same
WO2013188464A1 (en) 2012-06-11 2013-12-19 Magic Leap, Inc. Multiple depth plane three-dimensional display using a wave guide reflector array projector
US9141916B1 (en) 2012-06-29 2015-09-22 Google Inc. Using embedding functions with a deep network
WO2014021169A1 (ja) 2012-07-31 2014-02-06 独立行政法人科学技術振興機構 注視点検出装置、注視点検出方法、個人パラメータ算出装置、個人パラメータ算出方法、プログラム、及びコンピュータ読み取り可能な記録媒体
US8369595B1 (en) 2012-08-10 2013-02-05 EyeVerify LLC Texture features for biometric authentication
WO2014043196A1 (en) 2012-09-11 2014-03-20 Magic Leap, Inc Ergonomic head mounted display device and optical system
JP2014092940A (ja) 2012-11-02 2014-05-19 Sony Corp 画像表示装置及び画像表示方法、並びにコンピューター・プログラム
EP2929487A4 (en) 2012-12-10 2016-08-10 Stanford Res Inst Int BIOMETRIC IRIS ADJUSTMENT SYSTEM
KR102507206B1 (ko) 2013-01-15 2023-03-06 매직 립, 인코포레이티드 초고해상도 스캐닝 섬유 디스플레이
KR102516124B1 (ko) 2013-03-11 2023-03-29 매직 립, 인코포레이티드 증강 및 가상 현실을 위한 시스템 및 방법
US9147154B2 (en) 2013-03-13 2015-09-29 Google Inc. Classifying resources using a deep network
NZ751593A (en) 2013-03-15 2020-01-31 Magic Leap Inc Display system and method
WO2014182769A1 (en) 2013-05-07 2014-11-13 The Johns Hopkins University Automated and non-mydriatic fundus-perimetry camera for irreversible eye diseases
US9275308B2 (en) 2013-05-31 2016-03-01 Google Inc. Object detection using deep neural networks
US9874749B2 (en) 2013-11-27 2018-01-23 Magic Leap, Inc. Virtual and augmented reality systems and methods
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US20140380249A1 (en) 2013-06-25 2014-12-25 Apple Inc. Visual recognition of gestures
CN103431840B (zh) 2013-07-31 2016-01-20 北京智谷睿拓技术服务有限公司 眼睛光学参数检测系统及方法
US10025982B2 (en) 2013-10-08 2018-07-17 Princeton Identity, Inc. Collecting and targeting marketing data and information based upon iris identification
KR20150041453A (ko) 2013-10-08 2015-04-16 엘지전자 주식회사 안경형 영상표시장치 및 그것의 제어방법
KR102547756B1 (ko) 2013-10-16 2023-06-23 매직 립, 인코포레이티드 조절가능한 동공간 거리를 가지는 가상 또는 증강 현실 헤드셋들
US9202144B2 (en) 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
US10095917B2 (en) 2013-11-04 2018-10-09 Facebook, Inc. Systems and methods for facial representation
JP6236296B2 (ja) 2013-11-14 2017-11-22 株式会社デンソーアイティーラボラトリ 学習装置、学習プログラム、及び学習方法
KR102493498B1 (ko) 2013-11-27 2023-01-27 매직 립, 인코포레이티드 가상 및 증강 현실 시스템들 및 방법들
US9857591B2 (en) 2014-05-30 2018-01-02 Magic Leap, Inc. Methods and system for creating focal planes in virtual and augmented reality
US9430829B2 (en) 2014-01-30 2016-08-30 Case Western Reserve University Automatic detection of mitosis using handcrafted and convolutional neural network features
KR102177133B1 (ko) 2014-01-31 2020-11-10 매직 립, 인코포레이티드 멀티-포컬 디스플레이 시스템 및 방법
EP4099274B1 (en) 2014-01-31 2024-03-06 Magic Leap, Inc. Multi-focal display system and method
US9158971B2 (en) * 2014-03-03 2015-10-13 Xerox Corporation Self-learning object detectors for unlabeled videos using multi-task learning
US10203762B2 (en) 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
IL231862A (en) 2014-04-01 2015-04-30 Superfish Ltd Image representation using a neural network
WO2015161307A1 (en) 2014-04-18 2015-10-22 Magic Leap, Inc. Systems and methods for augmented and virtual reality
WO2015164807A1 (en) 2014-04-25 2015-10-29 Texas State University Detection of brain injury and subject state with eye movement biometrics
AU2015297035B2 (en) 2014-05-09 2018-06-28 Google Llc Systems and methods for biomechanically-based eye signals for interacting with real and virtual objects
USD759657S1 (en) 2014-05-19 2016-06-21 Microsoft Corporation Connector with illumination region
AU2015266586B2 (en) 2014-05-30 2020-07-23 Magic Leap, Inc. Methods and systems for generating virtual content display with a virtual or augmented reality apparatus
USD752529S1 (en) 2014-06-09 2016-03-29 Comcast Cable Communications, Llc Electronic housing with illuminated region
US9330329B2 (en) 2014-07-09 2016-05-03 Ditto Labs, Inc. Systems, methods, and devices for image matching and object recognition in images using minimal feature points
US20170186236A1 (en) 2014-07-22 2017-06-29 Sony Corporation Image display device, image display method, and computer program
US9536293B2 (en) 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
KR102216126B1 (ko) 2014-07-31 2021-02-16 삼성전자주식회사 정맥 인증을 이용하여 동작하는 웨어러블 디바이스 및 웨어러블 디바이스의 동작 방법
US20160034811A1 (en) 2014-07-31 2016-02-04 Apple Inc. Efficient generation of complementary acoustic models for performing automatic speech recognition system combination
US9659384B2 (en) 2014-10-03 2017-05-23 EyeEm Mobile GmbH. Systems, methods, and computer program products for searching and sorting images by aesthetic quality
EP3204888A4 (en) * 2014-10-09 2017-10-04 Microsoft Technology Licensing, LLC Spatial pyramid pooling networks for image processing
EP3161728B1 (en) 2014-10-10 2023-05-17 Beijing Kuangshi Technology Co., Ltd. Hierarchical interlinked multi-scale convolutional network for image parsing
KR102276339B1 (ko) 2014-12-09 2021-07-12 삼성전자주식회사 Cnn의 근사화를 위한 학습 장치 및 방법
WO2016106238A1 (en) 2014-12-24 2016-06-30 Google Inc. Augmenting neural networks to generate additional outputs
WO2016145379A1 (en) 2015-03-12 2016-09-15 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
US9678664B2 (en) 2015-04-10 2017-06-13 Google Inc. Neural network for keyboard input decoding
EP3295368A1 (en) 2015-05-13 2018-03-21 Google LLC Deepstereo: learning to predict new views from real world imagery
USD758367S1 (en) 2015-05-14 2016-06-07 Magic Leap, Inc. Virtual reality headset
JP6620439B2 (ja) * 2015-07-01 2019-12-18 株式会社リコー 学習方法、プログラム及び学習装置
AU2016310451B2 (en) 2015-08-21 2021-04-22 Magic Leap, Inc. Eyelid shape estimation using eye pose measurement
US9767565B2 (en) 2015-08-26 2017-09-19 Digitalglobe, Inc. Synthesizing training data for broad area geospatial object detection
JP6678930B2 (ja) 2015-08-31 2020-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム
US20170161506A1 (en) 2015-12-07 2017-06-08 Dell Products L.P. Information Handling System Encrypted Image Display Through Secondary Device
US20170236057A1 (en) * 2016-02-16 2017-08-17 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation System and Method for Face Detection and Landmark Localization
USD805734S1 (en) 2016-03-04 2017-12-26 Nike, Inc. Shirt
AU2017230184B2 (en) 2016-03-11 2021-10-07 Magic Leap, Inc. Structure learning in convolutional neural networks
USD794288S1 (en) 2016-03-11 2017-08-15 Nike, Inc. Shoe with illuminable sole light sequence
WO2017166137A1 (zh) * 2016-03-30 2017-10-05 中国科学院自动化研究所 基于多任务深度学习的自然图像美感质量评估方法
US10423830B2 (en) 2016-04-22 2019-09-24 Intel Corporation Eye contact correction in real time using neural network based machine learning
US10032067B2 (en) * 2016-05-28 2018-07-24 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
CN109661194B (zh) 2016-07-14 2022-02-25 奇跃公司 使用角膜曲率的虹膜边界估计
KR102648770B1 (ko) 2016-07-14 2024-03-15 매직 립, 인코포레이티드 홍채 식별을 위한 딥 뉴럴 네트워크
EP3273387B1 (en) * 2016-07-19 2024-05-15 Siemens Healthineers AG Medical image segmentation with a multi-task neural network system
KR102529137B1 (ko) 2016-08-22 2023-05-03 매직 립, 인코포레이티드 딥 러닝 센서들을 갖는 증강 현실 디스플레이 디바이스
US11200483B2 (en) * 2016-08-30 2021-12-14 Lunit Inc. Machine learning method and apparatus based on weakly supervised learning
US20180075347A1 (en) * 2016-09-15 2018-03-15 Microsoft Technology Licensing, Llc Efficient training of neural networks
RU2016138608A (ru) 2016-09-29 2018-03-30 Мэджик Лип, Инк. Нейронная сеть для сегментации изображения глаза и оценки качества изображения
JP6727089B2 (ja) * 2016-09-30 2020-07-22 株式会社日立製作所 マーケティング支援システム
IL293688B2 (en) 2016-10-04 2024-02-01 Magic Leap Inc Efficient data layouts for convolutional neural networks
US11042796B2 (en) * 2016-11-03 2021-06-22 Salesforce.Com, Inc. Training a joint many-task neural network model using successive regularization
US10621747B2 (en) 2016-11-15 2020-04-14 Magic Leap, Inc. Deep learning system for cuboid detection
US10074038B2 (en) * 2016-11-23 2018-09-11 General Electric Company Deep learning medical systems and methods for image reconstruction and quality evaluation
US10360517B2 (en) * 2017-02-22 2019-07-23 Sas Institute Inc. Distributed hyperparameter tuning system for machine learning
US10713794B1 (en) * 2017-03-16 2020-07-14 Facebook, Inc. Method and system for using machine-learning for object instance segmentation
US10657376B2 (en) 2017-03-17 2020-05-19 Magic Leap, Inc. Room layout estimation methods and techniques
US20180349158A1 (en) * 2017-03-22 2018-12-06 Kevin Swersky Bayesian optimization techniques and applications
US11195093B2 (en) * 2017-05-18 2021-12-07 Samsung Electronics Co., Ltd Apparatus and method for student-teacher transfer learning network using knowledge bridge
US10783393B2 (en) * 2017-06-20 2020-09-22 Nvidia Corporation Semi-supervised learning for landmark localization
US10769491B2 (en) * 2017-09-01 2020-09-08 Sri International Machine learning system for generating classification data and part localization data for objects depicted in images
US10762425B2 (en) * 2017-09-26 2020-09-01 Nvidia Corporation Learning affinity via a spatial propagation neural network
IL273991B2 (en) 2017-10-26 2023-11-01 Magic Leap Inc Gradual normalization systems and methods for adaptive loss balancing in deep multitasking networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ROBERTO CIPOLLA;YARIN GAL;ALEX KENDALL: "Multi-task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics", 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6022033644, 19 May 2017 (2017-05-19), pages 7482 - 7491, ISSN: 0004848206 *

Also Published As

Publication number Publication date
IL273991A (en) 2020-05-31
IL273991B2 (en) 2023-11-01
KR102602117B1 (ko) 2023-11-13
CN111373419A (zh) 2020-07-03
WO2019084189A1 (en) 2019-05-02
EP3704592A1 (en) 2020-09-09
KR20200078531A (ko) 2020-07-01
CA3078530A1 (en) 2019-05-02
JP7181928B2 (ja) 2022-12-01
AU2018354257A1 (en) 2020-05-14
US11537895B2 (en) 2022-12-27
US20190130275A1 (en) 2019-05-02
IL273991B1 (en) 2023-07-01
EP3704592A4 (en) 2022-03-16

Similar Documents

Publication Publication Date Title
JP2021501391A (ja) 深層マルチタスクネットワークにおける適応的損失平衡のための勾配正規化システムおよび方法
US11853894B2 (en) Meta-learning for multi-task learning for neural networks
CN112368719A (zh) 神经网络的梯度对抗性训练
JP2021176109A (ja) 部屋レイアウト推定方法および技法
US9613298B2 (en) Tracking using sensor data
US11244671B2 (en) Model training method and apparatus
CN108229280A (zh) 时域动作检测方法和系统、电子设备、计算机存储介质
EP3736745A1 (en) Model training method and apparatus
CN114611720B (zh) 联邦学习模型训练方法、电子设备及存储介质
WO2021076185A1 (en) Joint depth prediction from dual-cameras and dual-pixels
Oniki et al. Training data generation based on observation probability density for human pose refinement
US20230196651A1 (en) Method and apparatus with rendering
CN111611852A (zh) 一种表情识别模型的训练方法、装置及设备
Tran et al. Indoor navigation assistance system for visually impaired with semantic segmentation using edgetpu
Štaka et al. Leaf counting in the presence of occlusion in Arabidopsis thaliana plant using convolutional neural networks
WO2022188086A1 (en) Systems and methods for training models to predict dense correspondences in images using geodesic distances
EP4191526A1 (en) Apparatus and method with object posture estimating
Holmberg Targeting the zebrafish eye using deep learning-based image segmentation
Ambika et al. Optimal Deep Convolutional Neural Network Based Face Detection and Emotion Recognition Model
Nguyen Machine Learning: developing an image recognition program: with Python, Scikit Learn and OpenCV
Yin et al. Exploring the path of environmental visual design based on the perspective of new media

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221118

R150 Certificate of patent or registration of utility model

Ref document number: 7181928

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150