JP7385681B2

JP7385681B2 - 手姿勢推定

Info

Publication number: JP7385681B2
Application number: JP2021568891A
Authority: JP
Inventors: プラジワルチダナンダ，; アヤントゥヒネンドゥシンハ，; アディティアシュリチャランスリニヴァサラオ，; ダグラスバートラムリー，; アンドリューラビノビッチ，
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2019-05-21
Filing date: 2020-05-20
Publication date: 2023-11-22
Anticipated expiration: 2040-05-20
Also published as: US20200372246A1; US11775836B2; EP3973468A1; CN113874883A; JP2022533206A; EP3973468A4; WO2020236993A1

Description

手姿勢推定は、コントローラのない相互作用を可能にするための拡張現実（ＡＲ）／仮想現実（ＶＲ）／複合現実（ＭＲ）／エクステンデッドリアリティ（ＸＲ）用途の重要な構成要素である。手姿勢推定は、（１）単純な離散的姿勢分類、（２）可視の骨格関節位置の２Ｄ（２次元）手特徴点推定、（３）２Ｄ特徴点推定値が、対応する深度値を使用して２．５Ｄに引き上げられる、２．５Ｄ（２．５次元）またはハイブリッド３Ｄ（３次元）手特徴点推定、（４）３Ｄ手特徴点推定、および（５）完全に関節接合された３Ｄ手形状および姿勢追跡等の異なる形態においてもたらされ得る。

意味論的標識を入力画像の各ピクセルに割り当てることに相当する、意味論的セグメンテーションの研究は、コンピュータビジョンにおける基本的タスクである。これは、自律運転およびビデオ監視等の分野に幅広く適用されることができる。これらの用途は、高速の相互作用または応答のための効率的な推論速度に対する高い需要を有する。一方、意味論的セグメンテーションは、多くの場合、訓練および／または深層学習能力を必要とする、ニューラルネットワークを使用し、したがって、広範な量の算出および記憶リソースだけではなく、また、広範な量の算出および記憶リソースの結果としてのより高い電力消費を要求する。結果として、意味論的セグメンテーションは、ＶＲ、ＡＲ、ＭＲ、および／またはＸＲデバイス等のウェアラブルデバイスにおいて、実践的またはさらには所望の用途を有し得る。それにもかかわらず、算出および記憶リソースおよび電力消費の要件のうちのいずれか１つは、ウェアラブルデバイスにとって完全に非実践的ではないにしても、意味論的セグメンテーションを伴うコンピュータビジョンの実践的実装を困難にする。

したがって、深層学習および訓練能力を有するだけではなく、また、ウェアラブルデバイスを含む幅広い分野の用途のために実践的であるニューラルネットワークの必要性が、存在する。

いくつかの実施形態は、モバイル電子デバイスを用いたマシンビジョンのためのマルチタスク深層学習パラダイムにおけるニューラルネットワークを対象とする。ニューラルネットワークは、第１階層と、第２階層と、第３階層とを備える、エンコーダを含み、第１階層は、第１階層ユニットを備え、第１階層ユニットは、１つ以上の第１ユニットブロックを備え、第２階層は、第２階層内の１つ以上の第２階層ユニットにおいて第１階層から第１階層出力を受信し、第２階層ユニットが、１つ以上の第２階層ブロックを備え、第３階層は、第３階層内の１つ以上の第３階層ユニットにおいて第２階層から第２階層出力を受信し、第３階層ユニットが、１つ以上の第３階層ブロックを備える。ニューラルネットワークはさらに、エンコーダからエンコーダ出力を受信するために、エンコーダに動作的に結合される、デコーダ、および深層学習パラダイムにおけるニューラルネットワークの少なくともエンコーダを訓練するために、１つ以上の損失を逆伝搬するように構成される、１つ以上の損失関数層を備えてもよい。

いくつかの実施形態では、第１階層ユニット内の１つ以上の第１ユニットブロックは、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、１つ以上の第１ユニットブロックはさらに、スケール層に論理的に続く、整流線形ユニットを備える。

加えて、または代替では、ニューラルネットワーク内の第２階層は、第１の第２階層ユニットと、第２の第２階層ユニットとを備え、第１の第２階層ユニットは、第１階層から第１階層出力を受信し、第１の第２階層第１ユニットブロックと、第２の第２階層第１ユニットブロックとを備え、第１の第２階層第１ユニットブロックおよび第２の第２階層第１ユニットブロックは両方とも、それぞれ、バッチ正規化層を備え、スケール層が続き、整流線形ユニットがさらに論理的に続き、第１の第２階層第１ユニットブロック内のバッチ正規化層は、第１の畳み込み層に論理的に続き、第２の第２階層第１ユニットブロック内のバッチ正規化層は、第２の畳み込み層に論理的に続き、第１の畳み込み層は、第２の畳み込み層と異なる。

直前の実施形態のうちのいくつかでは、第２の第２階層ユニットは、第２の第２階層第１ユニットブロックおよび第１階層出力から連結された出力を受信する、第１の第２階層第２ユニットブロックと、第２の第２階層第２ユニットブロックと、第３の第２階層第２ユニットブロックとを備え、第１の第２階層第２ユニットブロック、第２の第２階層第２ユニットブロック、および第３の第２階層第２ユニットブロックは、それぞれ、バッチ正規化層を備え、スケール層が続き、整流線形ユニットがさらに論理的に続き、第１の第２階層第２ユニットブロック内のバッチ正規化層は、第２の畳み込み層に論理的に続き、第２の第２階層第２ユニットブロック内のバッチ正規化層は、第１の畳み込み層に論理的に続き、第３の第２階層第２ユニットブロック内のバッチ正規化層は、第２の畳み込み層に論理的に続き、第３の第２階層第２ユニットブロックは、第２階層出力を発生させるように構成される。

いくつかの実施形態では、第１階層によって発生された第１階層出力が、第２階層によって発生された第２階層出力と連結され、第３階層入力として第３階層に提供されてもよく、第３階層は、第１の第３階層ユニットと、第２の第３階層ユニットとを備え、第１の第３階層ユニットは、個別の第１ユニット階層的レベルに位置する、複数の第３階層第１ユニットブロックを備え、複数の第３階層第１ユニットブロックのうちの少なくともいくつかは、１つを上回る第１の拡張係数に対応する、異なる拡張された畳み込み層を備える。

直前の実施形態のうちのいくつかでは、第２の第３階層ユニットは、個別の第２ユニット階層的レベルに位置する、複数の第３階層第２ユニットブロックを備え、複数の第３階層第２ユニットブロックのうちの少なくともいくつかは、１つを上回る第２の拡張係数に対応する、複数の拡張された畳み込み層を備え、複数の第３階層第１ユニットブロックおよび複数の第３階層第２ユニットブロックは、深層学習パラダイムにおけるニューラルネットワークの少なくともエンコーダを訓練するために、少なくとも１つの個別の拡張された畳み込み層と、複数の個別の残差ブロックとを備える。

いくつかの実施形態では、第２階層出力が、第３階層入力として第３階層に提供され、ニューラル出力のための最終連結出力として第３階層によって発生された第３階層出力とさらに連結され、深層学習パラダイムにおけるニューラルネットワークの少なくともエンコーダを訓練するステップは、少なくとも活性化層および交差エントロピ損失を使用して、１つ以上の損失を逆伝搬するステップを含む。

いくつかの実施形態は、モバイル通信デバイスと、マシンビジョンのためのマルチタスク深層学習パラダイムにおけるニューラルネットワークの埋込実装であって、埋込実装におけるニューラルネットワークは、複数のスーパーハイビジョンプロセッサまたはプロセッサコアを有する、ビジョン処理ユニットと、第１階層と、第２階層と、第３階層とを備える、エンコーダであって、第１階層は、第１階層ユニットを備え、第１階層ユニットは、１つ以上の第１ユニットブロックを備え、第２階層は、第２階層内の１つ以上の第２階層ユニットにおいて第１階層から第１階層出力を受信し、第２階層ユニットが、１つ以上の第２階層ブロックを備え、第３階層は、第３階層内の１つ以上の第３階層ユニットにおいて第２階層から第２階層出力を受信し、第３階層ブロックが、１つ以上の第３階層ブロックを備える、エンコーダとを備える、ニューラルネットワークの埋込実装とを備える、ニューラルネットワークの埋込実装を伴うモバイル電子デバイスを対象とする。

これらの実施形態のうちのいくつかでは、第１階層ユニット内の１つ以上の第１ユニットブロックは、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、１つ以上の第１ユニットブロックはさらに、スケール層に論理的に続く、整流線形ユニットを備える。

加えて、または代替では、第２階層出力が、第３階層入力として第３階層に提供され、ニューラル出力のための最終連結出力として第３階層によって発生された第３階層出力とさらに連結され、深層学習パラダイムにおけるニューラルネットワークの少なくともエンコーダを訓練するステップは、少なくとも活性化層および交差エントロピ損失を使用して、１つ以上の損失を逆伝搬するステップを含む。

いくつかの実施形態は、空間パスにおいて入力データセット内の空間情報を保全するように構成される、空間パス層であって、空間パスは、空間情報をエンコードする、空間パス層と、コンテキストパスを使用することによって、ニューラルネットワークの受容フィールドを増加させるように構成される、コンテキストパス層であって、コンテキストパスは、入力データセット内のコンテキスト情報をエンコードする、コンテキストパス層と、空間パス層からの第１の出力およびコンテキストパスからの第２の出力を融合するように構成される、特徴融合層とを備える、マシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークを対象とする。

これらの実施形態のうちのいくつかでは、空間パス層は、第１階層と、第２階層と、第３階層とを備える、エンコーダを備え、第１階層は、第１階層ユニットを備え、第１階層ユニットは、１つ以上の第１ユニットブロックを備え、第２階層は、第２階層内の１つ以上の第２階層ユニットにおいて第１階層から第１階層出力を受信し、第２階層ユニットが、１つ以上の第２階層ブロックを備え、第３階層は、第３階層内の１つ以上の第３階層ユニットにおいて第２階層から第２階層出力を受信し、第３階層ブロックが、１つ以上の第３階層ブロックを備える。

直前の実施形態のうちのいくつかでは、空間パス層はさらに、エンコーダからエンコーダ出力を受信するために、エンコーダに動作的に結合される、デコーダと、深層学習パラダイムにおけるニューラルネットワークの少なくともエンコーダを訓練するために、１つ以上の損失を逆伝搬するように構成される、１つ以上の損失関数層とを備える。

いくつかの実施形態では、第２階層は、第１の第２階層ユニットと、第２の第２階層ユニットとを備え、第１の第２階層ユニットは、第１階層から第１階層出力を受信し、第１の第２階層第１ユニットブロックと、第２の第２階層第１ユニットブロックとを備え、第１の第２階層第１ユニットブロックおよび第２の第２階層第１ユニットブロックは両方とも、それぞれ、バッチ正規化層を備え、スケール層が続き、整流線形ユニットがさらに論理的に続き、第１の第２階層第１ユニットブロック内のバッチ正規化層は、第１の畳み込み層に論理的に続き、第２の第２階層第１ユニットブロック内のバッチ正規化層は、第２の畳み込み層に論理的に続き、第１の畳み込み層は、第２の畳み込み層と異なり、第１階層ユニット内の１つ以上の第１ユニットブロックは、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、１つ以上の第１ユニットブロックはさらに、スケール層に論理的に続く、整流線形ユニットを備える。

いくつかの実施形態では、コンテキストパス層は、少なくとも部分的に、軽量モデルによってニューラルネットワークに提供される受容フィールドに基づいて、入力画像をダウンサンプリングするように構成される、軽量モデルと、軽量モデルに結合され、コンテキスト情報を捕捉するように構成される、畳み込み層が論理的に続く、プーリング層とを備える。

直前の実施形態のうちのいくつかでは、ニューラルネットワークはさらに、複数のプーリング層に動作的に結合され、特徴選択または組み合わせを誘導するための注意ベクトルを決定するように構成される、注意精緻化層と、空間パス層からの空間パス出力およびコンテキストパス層からのコンテキストパス出力を融合するように構成される、特徴融合等と、空間パス層を訓練するように構成される、第１の損失関数と、コンテキストパス層を訓練するように構成される、第２の損失関数とを備える。

本開示の付加的および他の目的、特徴、および利点が、詳細な説明、図、および請求項に説明される。
本発明は、例えば、以下を提供する。
（項目１）
マシンビジョンのためのマルチタスク深層学習パラダイムにおけるニューラルネットワークであって、
エンコーダであって、前記エンコーダは、第１階層と、第２階層と、第３階層とを備え、
前記第１階層は、第１階層ユニットを備え、
前記第１階層ユニットは、１つ以上の第１ユニットブロックを備え、
前記第２階層は、前記第２階層内の１つ以上の第２階層ユニットにおいて前記第１階層から第１階層出力を受信し、
第２階層ユニットが、１つ以上の第２階層ブロックを備え、
前記第３階層は、前記第３階層内の１つ以上の第３階層ユニットにおいて前記第２階層から第２階層出力を受信し、
第３階層ユニットが、１つ以上の第３階層ブロックを備える、
エンコーダと、
デコーダであって、前記デコーダは、前記エンコーダからエンコーダ出力を受信するために、前記エンコーダに動作的に結合される、デコーダと、
１つ以上の損失関数層であって、前記１つ以上の損失関数層は、深層学習パラダイムにおける前記ニューラルネットワークの少なくとも前記エンコーダを訓練するために、１つ以上の損失を逆伝搬するように構成される、１つ以上の損失関数層と
を備える、ニューラルネットワーク。
（項目２）
前記第１階層ユニット内の前記１つ以上の第１ユニットブロックは、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、前記１つ以上の第１ユニットブロックはさらに、前記スケール層に論理的に続く整流線形ユニットを備える、項目１に記載のニューラルネットワーク。
（項目３）
前記第２階層は、第１の第２階層ユニットと、第２の第２階層ユニットとを備え、
前記第１の第２階層ユニットは、前記第１階層から第１階層出力を受信し、第１の第２階層第１ユニットブロックと、第２の第２階層第１ユニットブロックとを備え、
前記第１の第２階層第１ユニットブロックおよび前記第２の第２階層第１ユニットブロックは両方とも、それぞれ、バッチ正規化層を備え、スケール層が続き、整流線形ユニットがさらに論理的に続き、
前記第１の第２階層第１ユニットブロック内の前記バッチ正規化層は、第１の畳み込み層に論理的に続き、
前記第２の第２階層第１ユニットブロック内の前記バッチ正規化層は、第２の畳み込み層に論理的に続き、
前記第１の畳み込み層は、前記第２の畳み込み層と異なる、
項目１に記載のニューラルネットワーク。
（項目４）
前記第２の第２階層ユニットは、前記第２の第２階層第１ユニットブロックおよび前記第１階層出力から連結された出力を受信する第１の第２階層第２ユニットブロックと、第２の第２階層第２ユニットブロックと、第３の第２階層第２ユニットブロックとを備え、
前記第１の第２階層第２ユニットブロック、前記第２の第２階層第２ユニットブロック、および前記第３の第２階層第２ユニットブロックは、それぞれ、前記バッチ正規化層を備え、前記スケール層が続き、前記整流線形ユニットがさらに論理的に続き、前記第１の第２階層第２ユニットブロック内の前記バッチ正規化層は、前記第２の畳み込み層に論理的に続き、
前記第２の第２階層第２ユニットブロック内の前記バッチ正規化層は、前記第１の畳み込み層に論理的に続き、
前記第３の第２階層第２ユニットブロック内の前記バッチ正規化層は、前記第２の畳み込み層に論理的に続き、
前記第３の第２階層第２ユニットブロックは、第２階層出力を発生させるように構成される、
項目３に記載のニューラルネットワーク。
（項目５）
前記第１階層によって発生された第１階層出力が、前記第２階層によって発生された第２階層出力と連結され、第３階層入力として前記第３階層に提供され、
前記第３階層は、第１の第３階層ユニットと、第２の第３階層ユニットとを備え、
前記第１の第３階層ユニットは、個別の第１ユニット階層的レベルに位置する複数の第３階層第１ユニットブロックを備え、
前記複数の第３階層第１ユニットブロックのうちの少なくともいくつかは、１つを上回る第１の拡張係数に対応する異なる拡張された畳み込み層を備える、
項目１に記載のニューラルネットワーク。
（項目６）
前記第２の第３階層ユニットは、個別の第２ユニット階層的レベルに位置する複数の第３階層第２ユニットブロックを備え、前記複数の第３階層第２ユニットブロックのうちの少なくともいくつかは、１つを上回る第２の拡張係数に対応する複数の拡張された畳み込み層を備え、前記複数の第３階層第１ユニットブロックおよび前記複数の第３階層第２ユニットブロックは、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくともエンコーダを訓練するために、少なくとも１つの個別の拡張された畳み込み層と、複数の個別の残差ブロックとを備える、項目５に記載のニューラルネットワーク。
（項目７）
第２階層出力が、第３階層入力として前記第３階層に提供され、前記ニューラル出力のための最終連結出力として前記第３階層によって発生された第３階層出力とさらに連結され、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくともエンコーダを訓練することは、少なくとも活性化層および交差エントロピ損失を使用して、前記１つ以上の損失を逆伝搬することを含む、項目１に記載のニューラルネットワーク。
（項目８）
ニューラルネットワークの埋込実装を伴うモバイル電子デバイスであって、
モバイル通信デバイスと、
マシンビジョンのためのマルチタスク深層学習パラダイムにおけるニューラルネットワークの埋込実装であって、前記埋込実装における前記ニューラルネットワークは、
複数のスーパーハイビジョンプロセッサまたはプロセッサコアを有するビジョン処理ユニットと、
エンコーダであって、前記エンコーダは、第１階層と、第２階層と、第３階層とを備え、
前記第１階層は、第１階層ユニットを備え、
前記第１階層ユニットは、１つ以上の第１ユニットブロックを備え、
前記第２階層は、前記第２階層内の１つ以上の第２階層ユニットにおいて前記第１階層から第１階層出力を受信し、
第２階層ユニットが、１つ以上の第２階層ブロックを備え、
前記第３階層は、前記第３階層内の１つ以上の第３階層ユニットにおいて前記第２階層から第２階層出力を受信し、
第３階層ブロックが、１つ以上の第３階層ブロックを備える、
エンコーダと
を備える、ニューラルネットワークの埋込実装と
を備える、モバイル電子デバイス。
（項目９）
前記埋込実装における前記ニューラルネットワークは、
前記エンコーダからエンコーダ出力を受信するために、前記エンコーダに動作的に結合される可視性デコーダ層と、
前記エンコーダから前記エンコーダ出力を受信するために、前記エンコーダに動作的に結合される特徴姿勢デコーダ層と、
前記エンコーダから前記エンコーダ出力を受信するために、前記エンコーダに動作的に結合される配向デコーダ層と
を備える、項目８に記載のモバイル電子デバイス。
（項目１０）
前記第１階層ユニット内の前記１つ以上の第１ユニットブロックは、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、前記１つ以上の第１ユニットブロックはさらに、前記スケール層に論理的に続く整流線形ユニットを備える、項目８に記載のモバイル電子デバイス。
（項目１１）
前記第２階層は、第１の第２階層ユニットと、第２の第２階層ユニットとを備え、
前記第１の第２階層ユニットは、前記第１階層から第１階層出力を受信し、第１の第２階層第１ユニットブロックと、第２の第２階層第１ユニットブロックとを備え、
前記第１の第２階層第１ユニットブロックおよび前記第２の第２階層第１ユニットブロックは両方とも、それぞれ、バッチ正規化層を備え、スケール層が続き、整流線形ユニットがさらに論理的に続き、
前記第１の第２階層第１ユニットブロック内の前記バッチ正規化層は、第１の畳み込み層に論理的に続き、
前記第２の第２階層第１ユニットブロック内の前記バッチ正規化層は、第２の畳み込み層に論理的に続き、
前記第１の畳み込み層は、前記第２の畳み込み層と異なる、
項目８に記載のモバイル電子デバイス。
（項目１２）
前記第１階層によって発生された第１階層出力が、前記第２階層によって発生された第２階層出力と連結され、第３階層入力として前記第３階層に提供され、
前記第３階層は、第１の第３階層ユニットと、第２の第３階層ユニットとを備え、
前記第１の第３階層ユニットは、個別の第１ユニット階層的レベルに位置する複数の第３階層第１ユニットブロックを備え、
前記複数の第３階層第１ユニットブロックのうちの少なくともいくつかは、１つを上回る第１の拡張係数に対応する異なる拡張された畳み込み層を備える、
項目８に記載のモバイル電子デバイス。
（項目１３）
前記第２の第３階層ユニットは、個別の第２ユニット階層的レベルに位置する複数の第３階層第２ユニットブロックを備え、前記複数の第３階層第２ユニットブロックのうちの少なくともいくつかは、１つを上回る第２の拡張係数に対応する複数の拡張された畳み込み層を備え、前記複数の第３階層第１ユニットブロックおよび前記複数の第３階層第２ユニットブロックは、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくともエンコーダを訓練するために、少なくとも１つの個別の拡張された畳み込み層と、複数の個別の残差ブロックとを備える、項目１２に記載のモバイル電子デバイス。
（項目１４）
第２階層出力が、第３階層入力として前記第３階層に提供され、前記ニューラル出力のための最終連結出力として前記第３階層によって発生された第３階層出力とさらに連結され、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくともエンコーダを訓練することは、少なくとも活性化層および交差エントロピ損失を使用して、１つ以上の損失を逆伝搬することを含む、項目１２に記載のモバイル電子デバイス。
（項目１５）
マシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、
空間パス層であって、前記空間パス層は、空間パスにおいて入力データセット内の空間情報を保全するように構成され、前記空間パスは、前記空間情報をエンコードする、空間パス層と、
コンテキストパス層であって、前記コンテキストパス層は、コンテキストパスを使用することによって、前記ニューラルネットワークの受容フィールドを増加させるように構成され、前記コンテキストパスは、前記入力データセット内のコンテキスト情報をエンコードする、コンテキストパス層と、
特徴融合層であって、前記特徴融合層は、前記空間パス層からの第１の出力および前記コンテキストパスからの第２の出力を融合するように構成される、特徴融合層と
を備える、ニューラルネットワーク。
（項目１６）
項目１５に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、前記空間パス層は、
エンコーダであって、前記エンコーダは、第１階層と、第２階層と、第３階層とを備え、
前記第１階層は、第１階層ユニットを備え、
前記第１階層ユニットは、１つ以上の第１ユニットブロックを備え、
前記第２階層は、前記第２階層内の１つ以上の第２階層ユニットにおいて前記第１階層から第１階層出力を受信し、
第２階層ユニットが、１つ以上の第２階層ブロックを備え、
前記第３階層は、前記第３階層内の１つ以上の第３階層ユニットにおいて前記第２階層から第２階層出力を受信し、
第３階層ブロックが、１つ以上の第３階層ブロックを備える、
エンコーダ
を備える、ニューラルネットワーク。
（項目１７）
項目１６に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、前記空間パス層は、
デコーダであって、前記デコーダは、前記エンコーダからエンコーダ出力を受信するために、前記エンコーダに動作的に結合される、デコーダと、
１つ以上の損失関数層であって、前記１つ以上の損失関数層は、深層学習パラダイムにおける前記ニューラルネットワークの少なくとも前記エンコーダを訓練するために、１つ以上の損失を逆伝搬するように構成される、１つ以上の損失関数層と
を備える、ニューラルネットワーク。
（項目１８）
項目１６に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、前記第２階層は、第１の第２階層ユニットと、第２の第２階層ユニットとを備え、
前記第１の第２階層ユニットは、前記第１階層から第１階層出力を受信し、第１の第２階層第１ユニットブロックと、第２の第２階層第１ユニットブロックとを備え、
前記第１の第２階層第１ユニットブロックおよび前記第２の第２階層第１ユニットブロックは両方とも、それぞれ、バッチ正規化層を備え、スケール層が続き、整流線形ユニットがさらに論理的に続き、
前記第１の第２階層第１ユニットブロック内の前記バッチ正規化層は、第１の畳み込み層に論理的に続き、
前記第２の第２階層第１ユニットブロック内の前記バッチ正規化層は、第２の畳み込み層に論理的に続き、
前記第１の畳み込み層は、前記第２の畳み込み層と異なり、
前記第１階層ユニット内の前記１つ以上の第１ユニットブロックは、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、前記１つ以上の第１ユニットブロックはさらに、前記スケール層に論理的に続く整流線形ユニットを備える、
ニューラルネットワーク。
（項目１９）
項目１６に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、前記コンテキストパス層は、
軽量モデルであって、前記軽量モデルは、少なくとも部分的に、軽量モデルによって前記ニューラルネットワークに提供される受容フィールドに基づいて、入力画像をダウンサンプリングするように構成される、軽量モデルと、
プーリング層であって、前記プーリング層は、前記軽量モデルに結合され、前記コンテキスト情報を捕捉するように構成される畳み込み層が論理的に続く、プーリング層と
を備える、ニューラルネットワーク。
（項目２０）
項目１９に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、
注意精緻化層であって、前記注意精緻化層は、前記複数のプーリング層に動作的に結合され、特徴選択または組み合わせを誘導するための注意ベクトルを決定するように構成される、注意精緻化層と、
特徴融合層であって、前記特徴融合層は、前記空間パス層からの空間パス出力および前記コンテキストパス層からのコンテキストパス出力を融合するように構成される、特徴融合層と、
前記空間パス層を訓練するように構成される第１の損失関数と、
前記コンテキストパス層を訓練するように構成される第２の損失関数と
をさらに備える、ニューラルネットワーク。

図面は、類似する要素が、共通の参照番号によって参照される、本発明の好ましい実施形態の設計および有用性を図示する。本発明の上記に列挙される、および他の利点および目的が取得される方法をより深く理解するために、上記に簡潔に説明された本発明のより具体的な説明が、付随の図面に図示されるその具体的実施形態を参照することによって与えられるであろう。これらの図面が、本発明の典型的実施形態のみを描写し、したがって、その範囲の限定と見なされるものではないことを理解した上で、本発明は、付随の図面の使用を通して付加的具体性および詳細とともに説明および解説されるであろう。

図１は、いくつかの実施形態における、画像内のユーザの左手に関する特徴点の第１のサブセットおよび第２のサブセットの実施例を図示する。

図２は、いくつかの実施形態における、コンピュータビジョンを実装するための処理ブロックの複数の階層を有する、ニューラルネットワークの簡略化実施例を図示する。

図３は、いくつかの実施形態における、例示的ニューラルネットワークの複数の階層内の第１階層の簡略化実施例を図示する。

図４Ａ－４Ｂは、いくつかの実施形態における、例示的ニューラルネットワークの複数の階層内の第２階層の簡略化実施例を図示する。図４Ａ－４Ｂは、いくつかの実施形態における、例示的ニューラルネットワークの複数の階層内の第２階層の簡略化実施例を図示する。

図５Ａ－５Ｆは、いくつかの実施形態における、例示的ニューラルネットワークの複数の階層内の第３階層の簡略化実施例を図示する。図５Ａ－５Ｆは、いくつかの実施形態における、例示的ニューラルネットワークの複数の階層内の第３階層の簡略化実施例を図示する。図５Ａ－５Ｆは、いくつかの実施形態における、例示的ニューラルネットワークの複数の階層内の第３階層の簡略化実施例を図示する。図５Ａ－５Ｆは、いくつかの実施形態における、例示的ニューラルネットワークの複数の階層内の第３階層の簡略化実施例を図示する。図５Ａ－５Ｆは、いくつかの実施形態における、例示的ニューラルネットワークの複数の階層内の第３階層の簡略化実施例を図示する。図５Ａ－５Ｆは、いくつかの実施形態における、例示的ニューラルネットワークの複数の階層内の第３階層の簡略化実施例を図示する。

図６Ａは、いくつかの実施形態における、本明細書に説明されるニューラルネットワーク内で使用され得る、１－３－１畳み込みモジュールまたは層のセットの簡略化実施例を図示する。

図６Ｂは、いくつかの実施形態における、本明細書に説明されるニューラルネットワーク内で使用され得る、１－３－１畳み込みモジュールまたは層のセットを有する、残差ブロックの簡略化実施例を図示する。

図６Ｃは、いくつかの実施形態における、本明細書に説明されるニューラルネットワーク内で使用され得る、図６Ｂに図示される４つの残差モジュールを有するブロックの簡略化実施例を図示する。

図６Ｄは、いくつかの実施形態における、複数のブロックを備えるユニットの簡略化実施例を図示する。

図６Ｅは、いくつかの実施形態における、複数のユニット間で複数の入力および／または出力を連結する簡略化実施例を図示する。

図６Ｆは、いくつかの実施形態における、複数の階層を有する、エンコーダの簡略化概略実施例を図示する。

図６Ｇは、いくつかの実施形態における、それぞれ、１つ以上のブロックの１つ以上のユニットを有する、複数の階層を備える、ネットワークアーキテクチャの簡略化実施例を図示する。

図６Ｈは、いくつかの実施形態における、複数の種々の層を有する、注意ブロックの簡略化実施例を図示する。

図６Ｉは、いくつかの実施形態における、複数のモジュールまたは層を有する、特徴融合ブロックの簡略化実施例を図示する。

図７Ａは、いくつかの実施形態における、空間情報を保全し、コンピュータビジョンのための受容フィールドを強化する間のマルチタスク深層学習およびニューラルネットワークを用いた意味論的セグメンテーションの高レベル概略ブロック図を図示する。

図７Ｂは、いくつかの実施形態における、３×３受容フィールドを有する、１（１）拡張された畳み込みの簡略化実施例を図示する。

図７Ｃは、いくつかの実施形態における、図７Ｂの１拡張された畳み込みから生成され、７×７受容フィールドを有する、２（２）拡張された畳み込みの簡略化実施例を図示する。

図７Ｄは、いくつかの実施形態における、図７Ｃの２拡張された畳み込みから生成され、１１×１１受容フィールドを有する、３（３）拡張された畳み込みの簡略化実施例を図示する。

図７Ｅは、いくつかの実施形態における、図７Ｄの２拡張された畳み込みから生成され、１５×１５受容フィールドを有する、４（４）拡張された畳み込みの簡略化実施例を図示する。

図８Ａは、いくつかの実施形態における、ＸＲ眼鏡の外部にベルトパックを伴うウェアラブルＸＲデバイスの簡略化実施例を図示する。

図８Ｂは、いくつかの実施形態における、図８Ａに図示されるベルトパックを伴うウェアラブルＸＲデバイス上のニューラルネットワークの埋込実装の簡略化実施例を図示する。

図８Ｃは、いくつかの実施形態における、図８Ｂに図示される埋込実装のいくつかの動作の高レベル例示的ブロック図を図示する。

図９Ａは、いくつかの実施形態における、３つの例示的階層を有するニューラルネットワークにおけるいくつかの例示的動作の高レベル例示的ブロック図を図示する。

図９Ｂは、いくつかの実施形態における、ニューラルネットワークにおけるマルチタスク深層学習の高レベル例示的ブロック図を図示する。

図９Ｃは、いくつかの実施形態における、図９Ｂに図示されるニューラルネットワークにおけるマルチタスク深層学習の高レベル例示的ブロック図の一部についてのさらなる詳細を図示する。

図９Ｄは、いくつかの実施形態における、図９Ｂに図示されるニューラルネットワークにおけるマルチタスク深層学習の高レベル例示的ブロック図の一部についてのさらなる詳細を図示する。

図９Ｅは、いくつかの実施形態における、図９Ｄに図示されるニューラルネットワークにおけるマルチタスク深層学習の高レベル例示的ブロック図の一部についてのさらなる詳細を図示する。

図９Ｆは、いくつかの実施形態における、図９Ｂに図示されるニューラルネットワークにおけるマルチタスク深層学習の高レベル例示的ブロック図の別の部分についてのさらなる詳細を図示する。

図１０Ａは、いくつかの実施形態における、空間情報を保全し、コンピュータビジョンのための受容フィールドを強化する間のマルチタスク深層学習および連結拡張ラダー（ＣＤＬ）ニューラルネットワークを用いた意味論の別の高レベル概略ブロック図を図示する。

図１０Ｂは、いくつかの実施形態における、マルチタスク深層学習を用いたニューラルネットワークにおける多階層エンコーダアーキテクチャの別の高レベル概略ブロック図を図示する。

本開示の種々の実施形態は、単一の実施形態において、またはいくつかの実施形態において、空間情報を保全し、コンピュータビジョンのための受容フィールドを強化しながら、マルチタスク深層学習およびニューラルネットワークを用いて意味論的セグメンテーションを実装するための方法、システム、および製造品を対象とする。本発明の他の目的、特徴、および利点が、詳細な説明、図、および請求項に説明される。

種々の実施形態が、ここで、当業者が本発明を実践することを可能にするように、本発明の例証的実施例として提供される、図面を参照して詳細に説明されるであろう。とりわけ、下記の図および実施例は、本発明の範囲を限定することを意味していない。本発明のある要素が、公知のコンポーネント（または方法またはプロセス）を使用して部分的または完全に実装され得る場合、本発明の理解のために必要であるそのような公知のコンポーネント（または方法またはプロセス）のそれらの部分のみが、説明され、そのような公知のコンポーネント（または方法またはプロセス）の他の部分の詳細な説明は、本発明を不明瞭にしないように、省略されるであろう。さらに、種々の実施形態は、例証として本明細書に言及されるコンポーネントの現在および将来公知の均等物を包含する。

以下の説明では、ある具体的詳細が、種々の開示される実施形態の徹底的な理解を提供するために記載される。しかしながら、当業者は、実施形態が、これらの具体的詳細のうちの１つ以上のものを伴わずに、または他の方法、コンポーネント、材料等を用いて実践され得ることを認識するであろう。他のインスタンスでは、仮想および拡張現実システムと関連付けられる周知の構造は、実施形態の説明を不必要に不明瞭にすることを回避するために、詳細に示されていない、または説明されていない。

文脈が別様に要求しない限り、続く本明細書および請求項全体を通して、単語「～を備える（ｃｏｍｐｒｉｓｅ）」および「～を備える（ｃｏｍｐｒｉｓｅｓ）」および「～を備える（ｃｏｍｐｒｉｓｉｎｇ）」等のその変形例は、非制限の包括的意味で、すなわち、「限定ではないが、～を含む（ｉｎｃｌｕｄｉｎｇ，ｂｕｔｎｏｔｌｉｍｉｔｅｄｔｏ）」として解釈されるものである。

本明細書全体を通した「一実施形態（ｏｎｅｅｍｂｏｄｉｍｅｎｔ）」または「ある実施形態（ａｎｅｍｂｏｄｉｍｅｎｔ）」の言及は、実施形態に関連して説明される特定の特徴、構造、または特性が、少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書全体を通した種々の箇所における語句「一実施形態では（ｉｎｏｎｅｅｍｂｏｄｉｍｅｎｔ）」または「ある実施形態では（ｉｎａｎｅｍｂｏｄｉｍｅｎｔ）」の表出は、必ずしも全てが同一の実施形態を指すわけではない。さらに、特定の特徴、構造、または特性は、１つ以上の実施形態において任意の好適な様式で組み合わせられてもよい。

本開示のいくつかの実施形態は、主として、手特徴点推定、ジェスチャ認識等の（３）～２．５Ｄまたはハイブリッド３Ｄ（集合的に、２．５Ｄ）コンピュータビジョンに関するが、同じまたは実質的に類似する技法もまた、３Ｄ手特徴点推定およびコンピュータビジョンに適用されてもよい。本明細書に説明される種々の実施形態のいくつかの利点は、例えば、これがＡＲ／ＶＲ／ＭＲ環境における殆どの手相互作用のために十分であることを含み得る。２．５Ｄ手特徴点推定では、本明細書に開示されるネットワークアーキテクチャは、深度画像へのアクセスを有し、本明細書に開示されるネットワークアーキテクチャは、２Ｄ特徴点推定を実施するために使用され、２Ｄ特徴点推定が実施される点における深度値が、深度画像から抽出されることができる。アルゴリズムの観点から、２Ｄ特徴点を算出／推定することは、はるかに容易である。２．５Ｄ手特徴点推定のいくつかの不利点は、例えば、手の上の特徴点が自己オクルードされ、深度がオクルージョンを無視する手の表面の深度に対応するとき、これが良好に機能しないことを含み得る。

２Ｄ特徴点推定は、例えば、人間の身体および手に関する３Ｄ姿勢推定問題に対する重要な前段階である。２．５Ｄ手姿勢推定は、例えば、ＡＲ／ＶＲ／ＭＲ／ＸＲウェアラブル等の制約されたメモリおよび算出エンベロープを伴う埋込デバイスに対して使用されてもよい。２．５Ｄ手姿勢推定は、深度センサによって捕捉され、対応する深度値を使用して２．５Ｄに引き上げられる（例えば、投影される）、自己画像上の関節位置の２Ｄ特徴点推定から成り得る。本明細書に開示されるネットワークアーキテクチャ内のモジュールは、最新のアーキテクチャと比較したとき、集合的に、３％のフロップカウントおよび２％のパラメータ数につながり得る。補助的マルチタスク訓練方略が、ＭｏｂｉｌｅＮｅｔＶ２に匹敵する性能を達成しながら、本明細書に開示されるネットワークアーキテクチャの小さい容量を補償するために使用されてもよい。いくつかの実施例では、３２ビット訓練モデルが、３００キロバイトを下回るメモリフットプリントを有し、３５ＭＦＬＯＰ（１秒あたりメガ浮動小数点演算）を下回って５０Ｈｚを上回って動作してもよい。

例えば、ＡＲ／ＶＲ／ＭＲ／ＸＲウェアラブルを含む、モバイル電子デバイスのビジョンベースの手追跡システムへの入力は、例えば、単眼赤色－緑色－青色（ＲＧＢ）／グレースケール画像または深度画像のいずれかであってもよい。深度ベースのアプローチは、多くの場合、３Ｄ姿勢推定に関してＲＧＢベースのアプローチよりも優れている。いくつかの実施形態では、深度画像を出力する深度ベースのアプローチは、飛行時間（ＴＯＦ）深度センサを使用してもよい。

グラウンドトゥルース画像が、例えば、Ｍ個の特徴点を用いて、ラベラによって標識化されてもよい。グラウンドトゥルース画像は、全ての可視の特徴点に対応する、可視の特徴点（例えば、グラウンドトゥルース画像において可視である特徴点）を用いて標識化されてもよい。グラウンドトゥルース画像は、（下記に説明される）１つ以上の位相画像／深度画像のヒストグラム等化バージョンであってもよい。いくつかの実施形態では、本明細書に開示されるネットワークアーキテクチャは、Ｎ個の特徴点を予測してもよい。いくつかの実施形態では、Ｎは、Ｍ未満であってもよい。付加的特徴点（例えば、Ｍにはあるが、Ｎにはない特徴点）が、補助的教師としての役割を果たしてもよい。図（ＦＩＧ．）１は、いくつかの実施形態による、手特徴点を図示する。

主要標識は、本明細書に開示されるネットワークアーキテクチャが予測するＮ個の特徴点であり、主要標識および補助標識の組み合わせが、グラウンドトゥルース画像が標識化され得るＭ個の特徴点である。

いくつかの実施形態では、画像は、１７個の特徴点を用いて標識化されてもよく、本明細書に開示されるネットワークアーキテクチャは、８個の特徴点を予測してもよく、付加的特徴点（例えば、１７～８個）が、補助的教師としての役割を果たしてもよい。いくつかの実施形態では、画像は、２７個の特徴点を用いて標識化されてもよく、本明細書に開示されるネットワークアーキテクチャは、１５個の特徴点を予測してもよく、付加的特徴点（例えば、２７～１５個）が、補助的教師としての役割を果たしてもよい。当業者は、標識化される特徴点の数（Ｍ）および予測される特徴点の数（Ｎ）が変動し得ることを理解するであろう。

手の画像はまた、例えば、オーケー、開いた手、つまむこと、Ｃ姿勢、握り拳、Ｌ姿勢、指さし、および親指を立てることを含む、８つの離散的手特徴姿勢クラス、全ての他の特徴姿勢（例えば、非特徴姿勢）を捕捉するダミークラス、および右／左手割当を用いて標識化されてもよい。いくつかの実施形態では、付加的標識は、教師タスクとして作用する。

予測を混乱させる手のような（ディストラクタ）オブジェクトを回避するために、手を含有するグラウンドトゥルース画像は、課題となるディストラクタオブジェクトを含有する変動される背景と合成されてもよい。制御された環境内でデータを収集し、オーギュメンテーションを使用することによって、訓練データは、異なる環境に汎化するように拡大されてもよい。収集されたデータ（例えば、グラウンドトゥルース画像）の大部分は、ユーザが片手での相互作用を実施することに対応するため、スキューが、データセット内に導入され得る。これを軽減するために、左および右手は、異なる画像から合成されてもよい。

図２は、いくつかの実施形態による、例示的ネットワークアーキテクチャを図示する。青色の部分は、訓練および埋込実装において使用される一方、残りの部分は、訓練の間に補助的教師としてのみ使用される。

いくつかの実施形態では、図２の入力画像は、１つ以上の位相画像、１つ以上の深度画像、１つ以上の振幅画像、１つ以上のＲＧＢ画像、１つ以上のグレースケール画像、またはそれらの任意の組み合わせであってもよいが、深度画像が、入力として他のタイプの画像を受信するいくつかの実施形態において改良された性能を示している。振幅画像は、複数の位相画像の組み合わせ（例えば、線形組み合わせ）を含んでもよい。位相画像が使用される実施例では、ＴＯＦ深度センサが、位相画像を捕捉し、これは、後処理を使用して、深度画像に転換されてもよい。

深度画像を計算するために位相画像を後処理するための算出時間が、手追跡に関するエンドツーエンド待ち時間にかなりの部分を追加し得る。いくつかの実施形態では、振幅画像と称され得る、位相画像の線形組み合わせが、２Ｄ特徴点推定を実施し、並行して深度画像処理を実施し、全体的待ち時間を効果的に低減させるために使用されてもよい。本明細書に議論されるように、これは、逐次深度処理の待ち時間を除去しながら、代わりに、並列深度処理を実装することによって、性能を改良し得る。いくつかの実施形態では、入力画像は、修正された入力画像内の行の数が、本明細書に説明されるネットワークアーキテクチャに好都合であるように、例えば、修正された入力画像内の行の数が、４、８、１６等の倍数、または本明細書に開示されるネットワークアーキテクチャのチャネルの数／深度に関連するある他の数になるように修正されてもよい。

「主要エンコーダ：層１」は、「階層１」と称され、「主要エンコーダ：層２」は、「階層２」と称され、「主要エンコーダ：層３」は、「階層３」と称されるであろう。各階層の出力は、活性化マップのセットである。

畳み込み（以降ではＣｏｎｖ）バッチノルム（以降ではバッチ正規化またはＢＮ）スケール（以降ではＳまたはＳＣ）整流線形ユニットは、簡略化のためにＣｏｎｖ－ＢＮ－Ｓ－ＲｅＬＵブロックと称され得、前述の階層（例えば、階層１、階層２、階層３等）において使用されてもよい。いくつかの実施形態では、バッチノルムおよびスケールは、畳み込み層に折畳されてもよい。整流線形ユニットは、正の値のみがブロックから出力されることを確実にする。

図３は、いくつかの実施形態による、例示的ネットワークアーキテクチャの例示的階層１を図示する。階層１（３００）は、単一のＣｏｎｖ－ＢＮ－Ｓ－ＲｅＬＵブロック３０２を含んでもよく、最大プーリング演算（ｔｉｅｒ＿１＿ｐｏｏｌ＿ｏｕｔ）３０２は、３×３畳み込みであってもよい。階層１の入力および出力は、図３に図示される。畳み込み演算は、出力特徴マップをもたらす、より大きい入力へのより小さいフィルタの線形適用である。入力画像または入力特徴マップに適用されるフィルタは、常時、単一の数をもたらす。入力へのフィルタの系統的な左から右および上から下の適用は、２次元特徴マップをもたらす。

フィルタは、入力と同一の深度またはチャネルの数を有するが、入力およびフィルタの深度にかかわらず、結果として生じる出力は、単一の数であり、１つのフィルタは、単一のチャネルを伴う特徴マップを作成する。例えば、入力が、グレースケール画像等の１つのチャネルを有する場合、３×３フィルタが、３×３×１ブロックにおいて適用されるであろう。別の実施例として、入力画像が、赤色、緑色、および青色のための３つのチャネルを有する場合、３×３フィルタが、３×３×３ブロックにおいて適用されるであろう。また別の実施例として、入力が、別の畳み込みまたはプーリング層からの特徴マップのブロックであり、６４の深度を有する場合、３×３フィルタが、３×３×６４ブロックにおいて適用され、単一の値を作成し、単一の出力特徴マップを構成するであろう。畳み込みについてのさらなる詳細が、下記に説明されるであろう。

図４Ａ－４Ｂは、いくつかの実施形態における、例示的ニューラルネットワークの複数の階層内の第２階層の簡略化実施例を図示する。より具体的には、図４Ａは、第２階層の簡略化実施例を図示する。ユニット１（４００Ａ）が、第１のブロック４０２を含む。第１のブロック４０２は、２つのブロックを含み、第１のブロック４０２は、３×３畳み込み層（３×３Ｃｏｎｖ）を含み、バッチ正規化層（ＢＮ）が続き、スケール層（ＳＣ）がさらに続く。整流線形ユニット（ＲｅＬＵ）が、スケール層（ＳＣ）に続く。第１のユニット４００Ａ内の第２のブロック４０４もまた同様に、バッチ正規化層（ＢＮ）を含み、スケール層（ＳＣ）がさらに続く。整流線形ユニット（ＲｅＬＵ）が、スケール層（ＳＣ）に続く。第２のブロック４０４は、３×３畳み込み層を有するのではなく、第２のブロック４０４が、１×１畳み込み層を含み、バッチ正規化層が続く点において、第１のブロック４０２と異なる。

畳み込みは、信号処理、画像処理、および他の工学設計または科学分野において広く使用される技法であり、一方が反転および偏移された後の２つの関数の積の積分として定義される。信号および画像処理における畳み込みは、畳み込みを行う目的が、入力から有用な特徴を抽出することである点において、深層学習およびニューラルネットワークにおける畳み込みに類似する。例えば、画像または信号処理では、畳み込みのために選定し得る広い範囲の異なるフィルタが、存在し、各タイプのフィルタは、入力画像から異なる側面または特徴を抽出することに役立つ。同様に、畳み込みニューラルネットワークでは、異なる特徴が、その加重が訓練の間に自動的に学習されるフィルタを使用して、畳み込みを通して抽出され得、全てのこれらの抽出された特徴は、次いで、決定を行うために「組み合わせ」られ得る。

深層学習における畳み込みは、本質的に、信号または画像処理における交差相関であり、したがって、信号処理における畳み込みとわずかに異なる。より具体的には、畳み込み層におけるフィルタは、反転されず、概して、２つのフィルタ関数のスライディングドット積またはスライディング内積として公知である。すなわち、畳み込みは、深層学習およびニューラルネットワークにおける要素毎の乗算および加算である。

１×１畳み込み層は、いくつかの実施形態では、入力におけるチャネル毎に単一のパラメータまたは加重を有し、任意のフィルタの適用のように、単一の出力値をもたらす。すなわち、１×１畳み込み層は、入力画像におけるいかなる近隣ピクセルも伴わない。１×１畳み込み層によって実施される演算は、したがって、入力の線形加重または投影であり得る。１×１畳み込み層の本構造は、したがって、１×１畳み込み層が、入力における特徴マップのそれぞれを横断する同一の位置からの（例えば、階層１出力３０４からの）入力を用いて単一のニューロンのように作用することを可能にする。本単一のニューロンは、次いで、１（１）のストライドで、例えば、いかなるパディングの必要性も伴わずに、左から右および上から下に系統的に適用され、入力と同一の幅および高さを伴う特徴マップをもたらし得る。結果として、１×１畳み込みは、多くの有用な情報を失わず、その目的を達成するために新しいパラメータを学習する必要性がないように、他の次元を変化させないままで、チャネルの数の方向に沿って次元を低減させ得る。１×１畳み込み層は、したがって、特徴マップの数を制御するために、畳み込みニューラルネットワーク内の任意の点において使用されてもよい。加えて、１×１畳み込みはまた、１×１畳み込みが、別個のチャネルまたは特徴を単一のチャネルまたは特徴の中に埋込する、効率的な低次元埋込または特徴プーリングを提供し得る。

３×３畳み込み層が、３×３行列（例えば、水平線を認識するための［［０，０，０］，［１，１，１］，［０，０，０］］、垂直線を認識するための［［１，０，０］，［１，０，０］，［１，０，０］］等）を入力画像に、例えば、３ピクセル×３ピクセル単位で上から下および左から右様式で適用し、要素毎の乗算および加算（例えば、スライディングドット積）を実施する。単一のチャネル（例えば、グレースケール画像）に関して、これは、１つのチャネルを伴う３×３×１行列をもたらす。３つのチャネルを有する入力画像（例えば、ＲＧＢ画像）に関して、これは、３×３×３行列を有するフィルタをもたらし、３つのチャネルの個別の結果は、要素毎の加算を用いてともに合計され、３×３×３フィルタ行列を使用して入力に畳み込みを適用した結果である１つの単一のチャネル（３×３×１）を形成する。前述の１×１畳み込み層および３×３畳み込み層が、入力画像の２方向（例えば、高さおよび幅）にのみ移動することに留意されたい。３Ｄ画像に関して、本アプローチは、実質的に類似する２方向様式で第１の深度においてフィルタ行列を最初に移動させ、次いで、残りの深度を通して進行し、３Ｄ畳み込みを達成するように容易に拡大され得る。３Ｄ画像に２Ｄフィルタを有する畳み込みを実装する１つの方法は、いくつかの実施形態では、深度方向における１×１畳み込みの適用を含んでもよい。

バッチ正規化層（ＢＮ）または略してバッチノルムが、本明細書に説明されるニューラルネットワーク内の複数の層の更新を協調させるために使用されてもよい。バッチ正規化はまた、コンピュータビジョンにおいて画像に適用されるとき、「ホワイトニング」と称され得る。また、バッチ正規化は、学習プロセスを安定させ、深層ネットワークを訓練するために要求される訓練エポックの数を低減させるように、いくつかの実施形態では、ミニバッチ毎に層への入力を標準化する非常に深層のニューラルネットワークを訓練することに適用される。いくつかの実施形態では、層への入力を正規化することは、ネットワークの訓練に対する効果を及ぼし、要求されるエポックの数を低減させる。バッチ正規化はまた、正則化効果を有し、活性化正則化の使用と同様に、汎化誤差を低減させ得る。さらに、バッチ正規化は、例えば、ミニバッチ毎に層への各入力変数の平均および標準偏差を計算し、これらの統計を使用し、標準化を実施することによって、訓練の間に実装されてもよい。代替では、バッチ正規化は、ミニバッチを横断する平均および標準偏差の移動代表値を維持してもよい。訓練後、層に関する入力の統計（例えば、平均および標準偏差）は、訓練データセットにわたって観察された平均値として設定されてもよい。

ニューラルネットワークでは、活性化関数が、多くの場合、ノードからの合計された加重入力をその入力に関するノードまたは出力の活性化に変換することに関与するために使用される。整流線形活性化関数は、正である場合、入力を直接出力し、そうでなければ、ゼロを出力するであろう、区分的線形関数である。多くの場合、ＲｅＬＵを使用するニューラルネットワークモデルは、訓練することが容易であり、多くの場合、より良好な性能を達成する。本明細書に説明されるニューラルネットワークは、ノードの複数の層を含んでもよく、入力の実施例を出力にマッピングすることを学習する。所与のノードに関して、入力は、ノード内の加重によって乗算され、ともに合計され、ノードの合計された活性化と称され得る値を形成してもよい。合計された活性化は、次いで、活性化関数を介して変換されてもよく、ノードの具体的出力または「活性化」を定義する。単純な活性化関数は、線形活性化と称され、いかなる変換も、全く適用されない。線形活性化関数のみを有するニューラルネットワークは、訓練することが非常に容易であるが、複雑なマッピング関数を学習することができない。いくつかの実施形態では、線形活性化関数が、例えば、数量（例えば、回帰問題）を予測するニューラルネットワークに関する出力層において使用されてもよい。いくつかの他の実施形態は、ノードがデータ内のより複雑な構造を学習することを可能にするために、非線形活性化関数を採用する。

従来的に、２つの広く使用される非線形活性化関数は、シグモイドおよび双曲線正接活性化関数である。ロジスティック関数とも呼ばれる、シグモイド活性化関数は、従来的に、ニューラルネットワークに関する非常に一般的な活性化関数である。関数への入力は、０．０～１．０の値に変換される。１．０よりもはるかに大きい入力が、値１．０に変換され、同様に、０．０よりもはるかに小さい値が、０．０にスナップされる。全ての可能性として考えられる入力に関する関数の形状は、ゼロから上に０．５を通して１．０までＳ形である。シグモイドは、ニューラルネットワーク上で使用されるデフォルト活性化のうちの１つである。双曲線正接関数または略してｔａｎｈは、－１．０～１．０の値を出力する、類似する形状の非線形活性化関数である。

ｔａｎｈ関数は、時として、本ｔａｎｈ活性化関数を使用するニューラルネットワークが、訓練することがより容易であり、多くの場合、より良好な予測性能を提示するため、シグモイド活性化関数に代わって選定されていた。シグモイドおよびｔａｎｈ関数の両方の欠点は、それらが、それぞれ、ｔａｎｈおよびシグモイドに関して、大きい値が１．０にスナップし、小さい値が－１または０にスナップする場所で飽和する傾向があることである。さらに、関数は、多くの場合、シグモイドに関して０．５およびｔａｎｈに関して０．０等のそれらの入力のそれらの中点付近の変化にのみ敏感である。関数の限定された感度および飽和は、入力として提供されたノードからの合計された活性化が有用な情報を含有するかどうかにかかわらず起こる。いったん飽和されると、学習アルゴリズムが、モデルの性能を改良するために加重を適合させ続けることは、困難になる。最後に、ハードウェアの能力が、ＧＰＵを通して増加されたため、シグモイドおよびｔａｎｈ活性化関数を使用した非常に深層のニューラルネットワークは、容易に訓練され得ない。

深層ニューラルネットワークを訓練するために誤差の逆伝搬とともに勾配降下を使用するために、線形関数のように見え、作用するが、実際には、データ内の複雑な関係が学習されることを可能にする非線形関数である、活性化関数が、必要とされる。活性化関数はまた、活性化和入力に対するさらなる感度を提供し、容易な飽和を回避し得る。整流線形活性化関数または略してＲｅＬが、これらの所望の特性を満たす。本活性化関数を実装するノードまたはユニットは、整流線形活性化ユニットまたは略してＲｅＬＵと称される。いくつかの実施形態では、例えば、１つ以上の隠れ層に関する整流線形関数を使用するニューラルネットワークは、整流ネットワークと称され得る。

整流線形活性化関数は、入力として提供される値を直接、または入力が０．０またはそれを下回る場合に値０．０を返す、単純な計算を含む。本単純な計算は、単純なｉｆ文を用いて記述されてもよく、入力＞０である場合、入力を返し、そうでなければ、０を返し、または本関数ｇ（）を数学的に記述し、ｇ（ｚ）＝最大｛０，ｚ｝である。分かり得るように、整流線形関数は、ゼロを上回る値に関して線形である、すなわち、整流線形活性化関数は、逆伝搬を使用してニューラルネットワークを訓練するとき、線形活性化関数の多くの望ましい性質を有する。しかし、整流線形活性化関数は、負の値が、常時、ゼロとして出力されるため、非線形関数である。

スケール層（ＳＣ）は、これらのスケール層が、それぞれ、複数のサンプリングレートおよび有効視野における対応するフィルタを用いて着信する畳み込み特徴層を精査し、したがって、複数のスケールにおいてオブジェクトおよび画像コンテキストを捕捉するように、複数のスケールにおいてオブジェクト（例えば、オブジェクトのセグメンテーション）をロバストに処理するために、空間的にピラミッドのような構造において構造化される。加えて、または代替では、オブジェクトは、複数のスケールにおいて存在し得る。従来のアプローチは、多くの場合、従来のニューラルネットワークに、同一の画像の再スケーリングされたバージョンを提示し、次いで、特徴または特徴マップを集約することによって、複数の異なるスケールから生じる課題に対処する。これらの従来のアプローチは、性能を増加させるが、入力画像の複数のスケーリングされたバージョンに関して全てのニューラルネットワーク層において特徴応答を算出することを犠牲にし得る。これらの従来のアプローチと異なり、いくつかの実施形態は、補完的な有効視野を有する複数のフィルタを用いて元の入力画像を精査し、したがって、複数のスケールにおいてオブジェクトおよび有用な画像コンテキストを捕捉するように、畳み込みに先立って、複数の率において特徴層を再サンプリングする算出的に効率的なスキームを採用する。特徴を実際に再サンプリングするのではなく、これらの実施形態は、異なるサンプリングレートおよび異なるスケールを伴う複数の並列畳み込み層を使用して、本マッピングを効率的に実装する。

ユニット２は、３つのブロック、すなわち、４１２と、４１４と、４１６とを含む。第１のブロック４１２は、１×１畳み込み層（１×１Ｃｏｎｖ）を含み、バッチ正規化層（ＢＮ）が続き、スケール層（ＳＣ）がさらに続く。整流線形ユニットが、第１のブロック４１２内のスケール層に続く。第１のブロック４１２と同様に、第２のブロック４１４もまた、バッチ正規化層（ＢＮ）を含み、スケール層（ＳＣ）がさらに続く。整流線形ユニットが、第１のブロック４１４のスケール層に続く。第１のブロック４１２と第２のブロック４１４との間の差異は、１×１畳み込みを有するのではなく、第２のユニット４１４が、３×３畳み込みを含み、バッチ正規化層が続くことである。第３のブロック４１６Ａは、第２のブロック４１４と同じブロックのセットを含み、したがって、ここでは繰り返し説明されないであろう。

第２階層は、上記に説明されるように、２つのユニット、すなわち、ユニット１（４００Ａ）と、ユニット２（４０８Ａ）とを備える。さらに、ユニット１の出力は、階層２ユニット２連結入力モジュール（４０６Ａ）において階層１出力（３０４）と連結され、入力をユニット２に提供してもよい。また、第２のユニット（４０８Ａ）のプーリング出力４１４は、階層２連結出力モジュール４１０Ａにおいてプーリング出力４１６Ａと連結され、階層３への連結入力としての役割を果たしてもよく、これは、図５Ａ－５Ｆを参照して下記により詳細に説明されるであろう。

図４Ｂは、いくつかの実施形態による、ニューラルネットワークの階層２を図示する。これらの実施形態では、階層２は、２つのユニット（例えば、第１のユニット４０２Ｂおよび第２のユニット４０４Ｂ）を含んでもよい。第１のユニット４０２Ｂは、図４Ａの参照番号４０２および４０４を参照して上記に説明されるもの等の２つのＣｏｎｖ－ＢＮ－ＳＣ－ＲｅＬＵブロックを含んでもよい。

第２のユニット４０４Ｂは、３つのブロック（例えば、図４Ａを参照して上記に説明されるような４１２、４１４、および４１６）を含んでもよい。階層２はさらに、連結演算（ｔｉｅｒ＿ｕｎｉｔ２＿ｃｏｎｃａｔ＿ｉｎ，ｔｉｅｒ＿２＿ｃｏｎｃａｔ＿ｏｕｔ）と、最大プーリング演算（ｔｉｅｒ２＿ｕｎｉｔ２＿ｐｏｏｌ＿ｏｕｔ，ｔｉｅｒ２＿ｕｎｉｔ１＿ｐｏｏｌ＿ｏｕｔ）とを含んでもよい。４０２および４１４は、３×３であってもよく、４０４、４１２、および４１６は、１×１であってもよい。階層２の入力および出力は、図４に図示される。階層２は、４つのグループを含んでもよい。例えば、第１のブロック４０２Ｂの出力は、階層２ユニット２連結入力（４０６Ａ）において階層１のプーリング出力と連結され、第２のユニット４０４Ｂに関する連結入力を提供してもよい。さらに、第１のユニット４０２Ｂのプーリング出力もまた、階層２連結出力４１０Ａにおいて第２のユニット４０４Ｂのプーリング出力と連結されてもよく、これは、次いで、第３階層、すなわち、階層３に関する連結入力として本連結出力（階層２ユニット１および階層２ユニット２から）を提供してもよい。

図５Ａ－５Ｅは、いくつかの実施形態による、ニューラルネットワークの階層３を図示する。階層３は、２つのユニット（例えば、第１のユニットおよび第２のユニット）を含んでもよい。いくつかの実施形態では、階層３は、３つのユニット、すなわち、ユニット１と、ユニット２とを含んでもよい。図５Ａ－５Ｂおよび図５Ｃの一部は、階層３のユニット１の成分を図示する。これらの実施形態では、階層３のユニット１は、ベースブロック５０４Ｆと、第１の残差ブロック５０６Ｆと、第２の残差ブロック５１０Ｆと、第３の残差ブロック５１４Ｆと、第４の残差ブロック５１８Ｆとを含む、複数のブロックを含んでもよい。

階層３内のユニット１のベースブロック５０４Ｆは、３つのサブブロックを含む。第１のサブブロックは、１×１畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。整流線形ユニットが、第１のサブブロック内のスケール層に続く。第１のサブブロックは、階層３内のユニット１のベースブロックの第１のサブブロックへの入力として階層２（４１０Ａ）から連結出力を受信する。階層３内のユニット１のベースブロック内の第２のサブブロックは、３×３畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。別の整流線形ユニットが、第２のサブブロック内のスケール層に続く。第２のサブブロックは、第２のサブブロックへの入力として第１のサブブロックの出力を受信する。階層３内のユニット１の第３のサブブロックは、第３のサブブロック内の１×１畳み込み層を除いて、第２のサブブロックと同一の成分を有し、第３のサブブロックへの入力として第２のサブブロックから出力を受信する。

第１の残差ブロック５０６Ｆもまた、３つのサブブロックを有する。第１のサブブロックは、１×１畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。整流線形ユニットが、第１のサブブロック内のスケール層に続く。ベースブロック５０４Ｆの出力は、入力として第１のサブブロックに提供される。第１のサブブロックは、第１の残差ブロック５０６Ｆの第１のサブブロックへの入力としてベースブロック５０４Ｆの第３のサブブロックから出力を受信する。階層３内のユニット１の第１の残差ブロック５０６Ｆ内の第２のサブブロックは、３×３畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。別の整流線形ユニットが、第２のサブブロック内のスケール層に続く。第１の残差ブロック５０６Ｆ内の第２のサブブロックは、第２のサブブロックへの入力として第１のサブブロックの出力を受信する。階層３内のユニット１の第１の残差ブロック５０６Ｆの第３のサブブロックは、第３のサブブロック内の１×１畳み込み層を除いて、第２のサブブロックと同一の成分を有し、第３のサブブロックへの入力として第２のサブブロックから出力を受信する。

第１の残差ブロック５０６Ｆのプーリング出力は、階層３ユニット１残差１結合（５０８Ｆ）においてベースブロック５０４Ｆのプーリング出力と組み合わせられ、階層３内のユニット１の第２の残差ブロック５１０Ｆに入力を提供してもよい。第２の残差ブロック５１０Ｆもまた、第１の残差ブロックのように、３つのサブブロックを有してもよい。

より具体的には、第１のサブブロックは、１×１畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。整流線形ユニットが、第１のサブブロック内のスケール層に続く。ベースブロック５０４Ｆおよび第１の残差ブロック５０６Ｆの両方から組み合わせられた出力（５０８Ｆ）が、入力として第２の残差ブロックの第１のサブブロックに提供されてもよい。階層３内のユニット１の第２の残差ブロック５１０Ｆ内の第２のサブブロックは、３×３畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。別の整流線形ユニットが、第２のサブブロック内のスケール層に続く。第２の残差ブロック５１０Ｆ内の第２のサブブロックは、第２のサブブロックへの入力として第１のサブブロックの出力を受信する。階層３内のユニット１の第２の残差ブロック５１０Ｆの第３のサブブロックは、第３のサブブロック内の１×１畳み込み層を除いて、第２のサブブロックと同一の成分を有し、第３のサブブロックへの入力として第２のサブブロックから出力を受信する。第２の残差ブロック５１０Ｆの第３のサブブロックのプーリング出力もまた、階層３内のユニット１の第３の残差ブロック５１４Ｆにさらに提供され得る、階層３ユニット１残差２の組み合わせられた出力（５１２Ｆ）として上記に説明される組み合わせられた出力（５０８Ｆ）と組み合わせられてもよい。

第２の残差ブロック５１０Ｆのプーリング出力は、階層３ユニット１残差２の組み合わせられた出力（５１２Ｆ）として組み合わせられた出力（５０８Ｆ）と組み合わせられ、階層３内のユニット１の第３の残差ブロック５１４Ｆに入力を提供してもよい。第３の残差ブロック５１４Ｆもまた、第１および第２の残差ブロックのように、３つのサブブロックを有してもよい。

より具体的には、第１のサブブロックは、１×１畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。整流線形ユニットが、第１のサブブロック内のスケール層に続く。組み合わせられた出力（５０８Ｆ）および第２の残差ブロック５１０Ｆからのプーリング出力の両方から組み合わせられた出力（５１２Ｆ）が、入力として第３の残差ブロック５１４Ｆの第１のサブブロックに提供されてもよい。階層３内のユニット１の第３の残差ブロック５１４Ｆ内の第２のサブブロックは、３×３畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。別の整流線形ユニットが、第２のサブブロック内のスケール層に続く。第３の残差ブロック５１４Ｆ内の第２のサブブロックは、第２のサブブロックへの入力として第１のサブブロックの出力を受信する。階層３内のユニット１の第３の残差ブロック５１４Ｆの第３のサブブロックは、第３のサブブロック内の１×１畳み込み層を除いて、第２のサブブロックと同一の成分を有し、第３のサブブロックへの入力として第２のサブブロックから出力を受信する。第３の残差ブロック５１４Ｆの第３のサブブロックのプーリング出力もまた、階層３内のユニット１の第４の残差ブロック５１８Ｆにさらに提供され得る、階層３ユニット１残差３の組み合わせられた出力（５１６Ｆ）として上記に説明される組み合わせられた出力（５１２Ｆ）と組み合わせられてもよい。

第３の残差ブロック５１４Ｆのプーリング出力は、階層３ユニット１残差３の組み合わせられた出力（５１６Ｆ）として組み合わせられた出力（５１２Ｆ）と組み合わせられ、階層３内のユニット１の第４の残差ブロック５１８Ｆに入力を提供してもよい。第４の残差ブロック５１８Ｆもまた、第１、第２、および第２の残差ブロックのように、３つのサブブロックを有してもよい。

より具体的には、第１のサブブロックは、１×１畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。整流線形ユニットが、第１のサブブロック内のスケール層に続く。組み合わせられた出力（５１２Ｆ）および第３の残差ブロック５１４Ｆからのプーリング出力の両方から組み合わせられた出力（５１６Ｆ）が、入力として第４の残差ブロック５１８Ｆの第１のサブブロックに提供されてもよい。階層３内のユニット１の第４の残差ブロック５１８Ｆ内の第２のサブブロックは、３×３畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。別の整流線形ユニットが、第２のサブブロック内のスケール層に続く。第４の残差ブロック５１８Ｆ内の第２のサブブロックは、第２のサブブロックへの入力として第１のサブブロックの出力を受信する。階層３内のユニット１の第４の残差ブロック５１８Ｆの第３のサブブロックは、第３のサブブロック内の１×１畳み込み層を除いて、第２のサブブロックと同一の成分を有し、第３のサブブロックへの入力として第２のサブブロックから出力を受信する。第４の残差ブロック５１８Ｆの第３のサブブロックのプーリング出力もまた、入力（５２２Ｆ）として階層３内のユニット１にさらに提供され得る、階層３ユニット１残差４の組み合わせられた出力（５２０Ｆ）として上記に説明される組み合わせられた出力（５１６Ｆ）と組み合わせられてもよい。

ユニット１と同様に、ユニット２もまた、第１のベースブロック５５４Ｆと、第１の残差ブロック（５５６Ｆ）と、第２の残差ブロック（５６０Ｆ）と、第３の残差ブロック（５６４Ｆ）と、第４の残差ブロック（５６８Ｆ）とを含む。

階層３内のユニット２のベースブロック５５４Ｆは、３つのサブブロックを含む。第１のサブブロックは、１×１畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。整流線形ユニットが、第１のサブブロック内のスケール層に続く。第１のサブブロックは、階層３内のユニット２のベースブロックの第１のサブブロックへの入力としてユニット１から連結出力（５２２Ｆ）を受信する。階層３内のユニット２のベースブロック内の第２のサブブロックは、３×３畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。別の整流線形ユニットが、第２のサブブロック内のスケール層に続く。第２のサブブロックは、第２のサブブロックへの入力として第１のサブブロックの出力を受信する。階層３内のユニット２の第３のサブブロックは、第３のサブブロック内の１×１畳み込み層を除いて、第２のサブブロックと同一の成分を有し、第３のサブブロックへの入力として第２のサブブロックから出力を受信する。

第１の残差ブロック５５６Ｆもまた、３つのサブブロックを有する。第１のサブブロックは、１×１畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。整流線形ユニットが、第１のサブブロック内のスケール層に続く。ベースブロック５５４Ｆの出力は、入力として第１のサブブロックに提供される。第１のサブブロックは、階層３内のユニット２の第１の残差ブロック５５６Ｆの第１のサブブロックへの入力としてベースブロック５５４Ｆの第３のサブブロックから出力を受信する。階層３内のユニット２の第１の残差ブロック５５６Ｆ内の第２のサブブロックは、３×３畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。別の整流線形ユニットが、第２のサブブロック内のスケール層に続く。階層３内のユニット２の第１の残差ブロック５５６Ｆ内の第２のサブブロックは、第２のサブブロックへの入力として第１のサブブロックの出力を受信する。階層３内のユニット２の第１の残差ブロック５５６Ｆの第３のサブブロックは、第３のサブブロック内の１×１畳み込み層を除いて、第２のサブブロックと同一の成分を有し、第３のサブブロックへの入力として第２のサブブロックから出力を受信する。

第１の残差ブロック５５６Ｆのプーリング出力は、ベースブロック５５４Ｆのプーリング出力と組み合わせられ、階層３ユニット２の組み合わせられた出力（５５８Ｆ）を形成し、階層３内のユニット２の第２の残差ブロック５６０Ｆに入力を提供してもよい。第２の残差ブロック５６０Ｆもまた、第１の残差ブロック（５５６Ｆ）のように、３つのサブブロックを有してもよい。

より具体的には、第１のサブブロックは、１×１畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。整流線形ユニットが、第１のサブブロック内のスケール層に続く。ベースブロック５５４Ｆおよび第１の残差ブロック５５６Ｆの両方から組み合わせられた出力（５５８Ｆ）が、入力として第２の残差ブロックの第１のサブブロックに提供されてもよい。階層３内のユニット２の第２の残差ブロック５６０Ｆ内の第２のサブブロックは、３×３畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。別の整流線形ユニットが、第２のサブブロック内のスケール層に続く。第２の残差ブロック５６０Ｆ内の第２のサブブロックは、第２のサブブロックへの入力として第１のサブブロックの出力を受信する。階層３内のユニット２の第２の残差ブロック５６０Ｆの第３のサブブロックは、第３のサブブロック内の１×１畳み込み層を除いて、第２のサブブロックと同一の成分を有し、第３のサブブロックへの入力として第２のサブブロックから出力を受信する。第２の残差ブロック５６０Ｆの第３のサブブロックのプーリング出力もまた、階層３内のユニット２の第３の残差ブロック５６４Ｆにさらに提供され得る、階層３ユニット２残差２の組み合わせられた出力（５６２Ｆ）を形成するために、上記に説明される組み合わせられた出力（５５８Ｆ）と組み合わせられてもよい。

第２の残差ブロック５１０Ｆのプーリング出力は、階層３ユニット２残差２の組み合わせられた出力（５６２Ｆ）として組み合わせられた出力（５５８Ｆ）と組み合わせられ、階層３内のユニット２の第３の残差ブロック５６４Ｆに入力を提供してもよい。第３の残差ブロック５６４Ｆもまた、第１および第２の残差ブロックのように、３つのサブブロックを有してもよい。

より具体的には、第１のサブブロックは、１×１畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。整流線形ユニットが、第１のサブブロック内のスケール層に続く。組み合わせられた出力（５５８Ｆ）および第２の残差ブロック５６０Ｆからのプーリング出力の両方から組み合わせられた出力（５６２Ｆ）が、入力として第３の残差ブロック５６４Ｆの第１のサブブロックに提供されてもよい。階層３内のユニット１の第３の残差ブロック５６４Ｆ内の第２のサブブロックは、３×３畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。別の整流線形ユニットが、第２のサブブロック内のスケール層に続く。第３の残差ブロック５６４Ｆ内の第２のサブブロックは、第２のサブブロックへの入力として第１のサブブロックの出力を受信する。階層３内のユニット２の第３の残差ブロック５６４Ｆの第３のサブブロックは、第３のサブブロック内の１×１畳み込み層を除いて、第２のサブブロックと同一の成分を有し、第３のサブブロックへの入力として第２のサブブロックから出力を受信する。第３の残差ブロック５６４Ｆの第３のサブブロックのプーリング出力もまた、階層３内のユニット２の第４の残差ブロック５６８Ｆにさらに提供され得る、階層３ユニット２残差３の組み合わせられた出力（５６６Ｆ）として上記に説明される組み合わせられた出力（５６２Ｆ）と組み合わせられてもよい。

第３の残差ブロック５６４Ｆのプーリング出力は、階層３ユニット２残差３の組み合わせられた出力（５６６Ｆ）として組み合わせられた出力（５６２Ｆ）と組み合わせられ、階層３内のユニット２の第４の残差ブロック５６８Ｆに入力を提供してもよい。第４の残差ブロック５６８Ｆもまた、第１、第２、および第２の残差ブロックのように、３つのサブブロックを有してもよい。

より具体的には、第１のサブブロックは、１×１畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。整流線形ユニットが、第１のサブブロック内のスケール層に続く。組み合わせられた出力（５６２Ｆ）および第３の残差ブロック５６４Ｆからのプーリング出力の両方から組み合わせられた出力（５６６Ｆ）が、入力として第４の残差ブロック５６８Ｆの第１のサブブロックに提供されてもよい。階層３内のユニット２の第４の残差ブロック５６８Ｆ内の第２のサブブロックは、３×３畳み込み層を含み、バッチ正規化層が続き、スケール層がさらに続く。別の整流線形ユニットが、第２のサブブロック内のスケール層に続く。第４の残差ブロック５６８Ｆ内の第２のサブブロックは、第２のサブブロックへの入力として第１のサブブロックの出力を受信する。階層３内のユニット１の第４の残差ブロック５６８Ｆの第３のサブブロックは、第３のサブブロック内の１×１畳み込み層を除いて、第２のサブブロックと同一の成分を有し、第３のサブブロックへの入力として第２のサブブロックから出力を受信する。第４の残差ブロック５１８Ｆの第３のサブブロックのプーリング出力もまた、階層３連結出力（５７２Ｆ）を形成するために、階層３ユニット１残差４の組み合わせられた出力（５２０Ｆ）とさらに連結され得る、階層３ユニット１残差４の組み合わせられた出力（５７０Ｆ）として上記に説明される組み合わせられた出力（５６６Ｆ）と組み合わせられてもよい。

上記に説明される図５Ａ－５Ｅから分かり得るように、いくつかの実施形態は、種々のデータを組み合わせ、または連結し、ニューラルネットワーク内の種々のブロックに関する入力テンソルを形成する。いくつかの従来のアプローチと異なり、いくつかの実施形態は、算出を低減させるために、入力テンソルを中間特徴テンソルまたは出力と連結しない。入力テンソルを中間特徴テンソルと連結しない別の理由は、多くの場合では、入力特徴テンソルが、大部分が冗長であり得、したがって、性能利得に寄与しないためである。本側面は、図５Ｆにより明確に図示される。図５Ｆに図示されるように、ユニット内のブロック（図５Ａ－５Ｅを参照して上記に説明されるような複数のサブブロックを含む）は、そのプーリング出力をコンバイナに提供し、また、入力の第１の部分として次のブロックに提供する。コンバイナは、直前のブロックからのプーリング出力および次の先行するブロックからのプーリング出力を組み合わせ、組み合わせられたプーリング出力を形成してもよく、これは、入力の第２の部分として次のブロックにさらに提供される。

例えば、ユニット１ベースブロック５０４Ｆのプーリング出力は、第１の残差ブロック５０６Ｆへの入力の第１の部分として第１の残差ブロック５０６Ｆに、また、階層３ユニット１残差１結合５０８Ｆに提供される。階層３ユニット１残差１結合（５０８Ｆ）は、次いで、第１の残差ブロック５０６Ｆのプーリング出力をユニット１ベースブロック５０４Ｆのプーリング出力と組み合わせる。また、ユニット１の第２の残差ブロック５１０Ｆのプーリング出力は、階層３ユニット１残差２結合（５１２Ｆ）に提供され、これは、順に、第２の残差の組み合わせられた出力として、ユニット１の第２の残差ブロック５１０Ｆのプーリング出力を階層３ユニット１残差１の組み合わせられた出力５０８Ｆと組み合わせる。

５１２Ｆにおける本第２の残差の組み合わせられた出力は、入力として第３の残差ブロック５１４Ｆに、また、階層３ユニット１残差３コンバイナ５１６Ｆに提供され、これは、第３の残差の組み合わせられた出力として、本第２の残差の組み合わせられた出力を階層３内のユニット１の第３の残差ブロック５１４Ｆのプーリング出力と組み合わせる。本第３の残差の組み合わせられた出力（５１６Ｆにおける）は、入力として第４の残差ブロック５１８Ｆに、また、階層３ユニット１残差４コンバイナ５２０Ｆに提供され、これは、第４の残差の組み合わせられた出力として、本第３の残差の組み合わせられた出力を階層３内のユニット１の第４の残差ブロック５１８Ｆのプーリング出力と組み合わせる。本第４の残差の組み合わせられた出力は、次いで、ユニット２への入力として使用され、これは、ユニット１と類似する組み合わせまたは連結を実施し、階層３ユニット２残差４の組み合わせられた出力（５７０Ｆ）を発生させ、これは、次いで、階層２連結出力（４１０Ａ）と連結され、階層３連結出力５７２Ｆを形成する。

図６Ａは、いくつかの実施形態における、本明細書に説明されるニューラルネットワーク内で使用され得る、１－３－１畳み込みモジュール、ブロック、またはサブブロックのセットの簡略化実施例を図示する。いくつかの実施形態では、図６Ａは、１×１畳み込み層６０２Ａを含み、グループ化畳み込み６０４Ａを伴う３×３グループ化畳み込み層（図６ＡのＧ畳み込み）が続き、１×１畳み込み層がさらに続く、ラダー畳み込み構造を図示する。そのような１－３－１畳み込みモジュール、ブロック、またはサブブロックのいくつかの実施例は、図５Ａ－５Ｆを参照して上記に説明される階層３のユニット１またはユニット２内のベースブロックおよび残差ブロックまたは図４Ａ－４Ｂを参照して上記に説明される階層２内のユニット２の第２のユニット４０４Ｂを含んでもよい。

図６Ｂは、いくつかの実施形態における、本明細書に説明されるニューラルネットワーク内で使用され得る、１－３－１畳み込みモジュールまたは層のセットを有する、残差ブロックの簡略化実施例を図示する。より具体的には、図６Ｂは、１×１畳み込み層６０２Ｂを含み、３×３グループ化畳み込み層６０４Ｂが続き、１×１畳み込み層がさらに続く、ラダー残差ブロックまたはサブブロックを図示する。そのような１－３－１残差ブロックまたはサブブロックのいくつかの実施例は、図５Ａ－５Ｆを参照して上記に説明される階層３のユニット１またはユニット２内の残差ブロックを含んでもよい。これらの残差ブロックは、大きい深層学習ネットワークを訓練するためにフィードフォワードニューラルネットワーク内で使用される逆伝搬の間の情報フローを改良するために、階層３内で使用される。より精密には、これらの残差ブロックは、入力を順伝搬し、出力を計算し、誤差または損失を逆伝搬し、ニューラルネットワークを訓練するために使用される。これらの残差ブロックは、階層１の後の並列算出を低減させるために、例えば、６４個のチャネルと協働するように考案される。加えて、または代替では、階層３は、入力内の大きいオブジェクトを捕捉するために、ニューラルネットワークの受容フィールドを増加させるために、異なる拡張係数を伴う拡張された畳み込みを採用する。例えば、ベースブロック、第１の残差ブロック、第２の残差ブロック、第３の残差ブロック、および第４の残差ブロックは、それぞれ、０（ゼロ）、１（１）、２（２）、３（３）、および４（４）の拡張係数に対応してもよい。拡張係数の異なる組み合わせを伴う他の拡張スキームもまた、使用され得ることに留意されたい。

さらに、階層３は、いくつかの実施形態では、算出を低減させるために、グループ化係数を伴うブロック（例えば、図５Ａ－５Ｆを参照して上記に説明されるブロックおよび／またはサブブロック）においてグループ化畳み込みを採用してもよい。階層２もまた、グループ化畳み込みを採用する、これらの実施形態のうちのいくつかでは、階層２のグループ化係数は、階層３のものと異なってもよい。いくつかの実施形態では、階層２は、４のグループ化係数を採用してもよく、階層３は、８のグループ化係数を採用してもよい。いくつかの実施形態では、階層１は、最大プーリング層を採用するが、グループ化畳み込みを採用しない。他のグループ化係数もまた、使用され得ることに留意されたい。

いくつかの実施形態では、グループの数（例えば、グループ化係数によって統御される）は、上記に解説されるような畳み込みが、チャネル毎の演算（例えば、チャネル毎の畳み込み）であるため、チャネルの数に等しくなるように考案される。また、チャネル毎の畳み込み（深度毎の畳み込みとしても公知である）は、チャネル毎の畳み込みが、チャネルの数に等しいグループ化係数を伴うグループ化畳み込みであるため、グループ化畳み込みの特殊なインスタンスである。これらの実施形態では、畳み込み層は、ベクトルレジスタ利用を強化するように、グループあたりのフィルタの数が、レジスタレーンの数の倍数であるようにグループ化されてもよい。グループ化畳み込みが、いくつかの望ましくない効果（例えば、いくつかの特徴点が、訓練することができない）を引き起こす、いくつかの実施形態では、これらの実施形態は、訓練を安定させ、訓練のためのより良好な勾配フローを促進するために、異なる空間分解能を伴う付加的特徴点教師ヘッドを追加してもよい。さらなる詳細が、例えば、図９Ａ－９Ｆを参照して下記に説明されるであろう。

いくつかの実施形態では、ニューラルネットワークは、エンコーダ－デコーダアーキテクチャ（例えば、図６Ｇ）を表し、手が、特徴点のセットを用いて標識化され、ニューラルネットワークは、手姿勢を予測または決定するために、セット内の特徴点の第１のサブセットを予測し、教師を訓練するために、特徴点の第２のサブセット（特徴点のセット内の残りの特徴点）を使用する。例えば、手は、図１に図示されるように、番号１－番号１７の１７（１７）個の特徴点を用いて標識化されてもよい。１７個の特徴点の本セットは、ネットワークが、訓練教師として特徴点の補助的セットを使用しながら、特徴点の主要セットに関する予測を発生させるように、特徴点の主要セット（例えば、影付き標識１、２、４、５、６、７、１０、および１７）および特徴点の補助的セット（例えば、非影付き標識３、８、９、１１、１２、１３、１４、１５、および１６）としてカテゴリ化される。これらの実施形態のうちのいくつかは、浮動的な特徴点、手から飛び出す特徴点等の問題を回避し、エンコーダの後に特徴テンソルを正則化するために、ネットワークのデコーダ部分に関する畳み込みにおいてグループ化を採用しない。

図６Ｃは、いくつかの実施形態における、本明細書に説明されるニューラルネットワーク内で使用され得る、図６Ｂに図示される４つの残差モジュールを有するブロックの簡略化実施例を図示する。より具体的には、図６Ｃは、個別の異なる拡張係数を伴う複数のブロックを有する、例示的な拡張されたラダーユニットを図示する。例えば、拡張されたラダーユニットは、１の拡張係数に対応する第１の１－３－１残差ブロック６０２Ｃと、グループ化畳み込みを有し、２の拡張係数に対応する第２の１－３－１残差ブロック６０４Ｃと、３の拡張係数に対応する第３の１－３－１残差ブロック６０６Ｃと、４の拡張係数に対応する第４の１－３－１残差ブロック６０８Ｃとを含んでもよい。他の拡張係数もまた、いくつかの他の実施形態において使用され得ることに留意されたい。

図６Ｄは、いくつかの実施形態における、複数のブロックを備える、ユニットの簡略化実施例を図示する。図６Ｄは、本開示の名称の使用を提示する。参照して上記にすでに説明されたように、例えば、ネットワークは、複数の階層を含んでもよく、階層は、１つ以上のユニットを含んでもよい。図６Ｄに図示されるように、ユニット６００Ｄは、１つ以上のブロックを含んでもよい。６００Ｄに図示される例示的ユニット６００Ｄでは、本ユニット６００Ｄは、複数のブロック、すなわち、６０２Ｄと、６０４Ｄと、６０６Ｄとを含む。ブロックは、１つ以上のサブブロック、モジュール、または層を含んでもよい。例えば、上記に説明される残差ブロックは、畳み込み層と、バッチ正規化層と、スケール層と、整流線形ユニットとを含んでもよい。いくつかの実施形態では、モデル６０４Ｄは、図６Ａまたは６Ｂを参照して上記に説明されるものと類似する様式でグループ化畳み込みを採用してもよい。

図６Ｅは、いくつかの実施形態における、複数のユニット間で複数の入力および／または出力を連結する簡略化実施例を図示する。より具体的には、図６Ｅは、入力６０２Ｅがユニット１６０４Ｅに提供される実施例を図示する。入力６０２Ｅは、連結モジュール６１２Ｅにおいてユニット１（６０４Ｅ）の出力とさらに連結される。６１２Ｅの後の本連結出力は、ユニット２６０６Ｅへの入力として提供される。同様に、ユニット２（６０６Ｅ）の出力は、例えば、連結モジュール６１４Ｅにおいて入力６０２Ｅおよび／またはユニット１（６０４Ｅ）の出力と連結され、本連結された結果は、ユニット３（６０８Ｅ）への入力として提供され、ユニット３（６０８Ｅ）の出力は、例えば、連結モジュール６１６Ｅにおいて入力６０２Ｅ、ユニット２（６０６Ｅ）の出力、および／またはユニット３（６０８Ｅ）の出力と連結され、３つの例示的ユニットを有する図示されるネットワークに関する出力６１０Ｅを発生させる。

いくつかの他の実施形態では、連結（例えば、６１２Ｅ、６１４Ｅ、または６１６Ｅ等）は、漸進的であってもよい。すなわち、これらの実施形態は、図６Ｅに示されるような二次数の連結モジュールを必要としない。むしろ、ユニット_Ｋ＋１への入力は、ユニット_Ｋの出力と連結されたユニット_Ｋへの以前に連結された入力を含んでもよい。これらの実施形態のうちのいくつかでは、初期入力は、階層の最終出力から隠されてもよい。これらの実施形態では、出力は、初期入力と、ともに、図６Ｅに図示される全てのユニットの出力との連結である出力と異なる。むしろ、初期入力は、連結出力６１０Ｅから隠され、それに寄与しない。また、（ｉ＋１）番目の連結（例えば、６１６Ｅ）は、いくつかの実施形態では、最初から全ての以前の連結を再実施するのではなく、（ｉ）番目の連結（例えば、６１４Ｅ）を拡大する。

いくつかの実施形態では、プーリングが、実施され、次いで、ユニット出力を連結し、プーリングが、チャネル毎に独立して実施され、さらに、プーリングおよび連結が、これらの実施形態では可換であるため、算出をさらに節約し得る。マルチスレッド環境では、連結は、全てのユニットがそれらの個別の処理を完了することを待機するのではなく、任意のユニットがその処理を完了する際、直ちに開始され得る。いくつかの実施形態では、６０２Ｅから生じるデータテンソルの初期部分は、出力を発生させる。

図６Ｆは、いくつかの実施形態における、複数の階層を有する、エンコーダの簡略化概略実施例を図示する。図６Ｅは、本開示の名称の使用を提示する。参照して上記にすでに説明されたように、例えば、ネットワークは、複数の階層を含んでもよく、階層は、１つ以上のユニットを含んでもよい。図６Ｆに図示されるように、エンコーダ６００Ｆは、１つ以上の階層を含んでもよい。６００Ｆに図示される例示的エンコーダ６００Ｆでは、本エンコーダ６００Ｆは、複数の階層、すなわち、６０２Ｆと、６０４Ｆと、６０６Ｆとを含む。階層は、１つ以上のユニットを含んでもよく、ユニットは、１つ以上のブロックを含んでもよく、ブロックは、１つ以上のサブブロック、モジュール、または層を含んでもよい。

図６Ｇは、いくつかの実施形態における、それぞれ、１つ以上のブロックの１つ以上のユニットを有する、複数の階層を備える、ネットワークアーキテクチャの簡略化概略実施例を図示する。より具体的には、図６Ｇは、空間情報を保全し、受容フィールドを強化しながら、コンピュータビジョンのマルチタスク深層学習を伴うニューラルネットワークを用いて入力画像６０２Ｇに関する意味論的セグメンテーションを訓練、検証、および／または試験するためのエンコーダ－デコーダアーキテクチャのネットワーク６００Ｇを図示する。例示的ネットワークアーキテクチャは、例えば、ＶＲ、ＡＲ、ＭＲ、またはＸＲデバイス等のウェアラブルデバイスを含む、モバイル電子デバイス内に埋込され得る、軽量ネットワークである。

本明細書に説明される埋込実装は、より大きいシステム内に専用機能を有する、プロセッサ（例えば、ＶＰＵまたはビジョン処理ユニット）、コンピュータメモリ、および入力／出力デバイスの組み合わせを含む。いくつかの実施形態では、本明細書に説明される埋込実装は、ウェアラブル電子デバイス等のモバイルコンピューティングデバイス内に本明細書に説明されるニューラルネットワークまたはその少なくとも一部の実装を含む。埋込実装は、ある形態のメモリ（例えば、ＥＰＲＯＭ、ＲＡＭ等）において、ＡＳＩＣ（特定用途向け集積回路）、システムオンチップ（ＳｏＣ）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、コンポーネントおよびデバイスを伴う小型コンピュータ基板、またはそれらの任意の組み合わせ等のカスタムＩＣ（集積回路）としてニューラルネットワークの種々のモジュール、層、ブロック等を実装するステップを含んでもよい。

ウェアラブル電子デバイス（例えば、ＭＲまたはＸＲデバイス）に関して、最小化は、従来の実装に対する、克服できないとは言えないまでも、困難な課題に相当する。例えば、深層学習フレームワークは、多くの場合、算出および／または記憶タスクおよび電力消費に関して十分な容量を提供するためのコンポーネントを収容するための限定空間を有するウェアラブル電子デバイスにとって好適ではない、非常にメモリ効率が低い様式で畳み込みを１つ以上の大きい行列乗算に変換する。別の課題は、画像からの入力データテンソルが、多くの場合、ベクトル化のために非効率的であるチャネル平面フォーマットにおいて記憶されることである。また、カーネルサイズは、多くの場合、ベクトル命令幅の倍数ではなく、拡張された畳み込みの既製の実装は、かなりの算出オーバーヘッドを有する。

少なくとも前述の課題に対処するために、本明細書に説明されるいくつかの実施形態は、入力データチャネルを各畳み込み層に再順序付けし、インターリーブし、ベクトル命令順序付けと整合させる。より具体的には、これらの実施形態は、畳み込みがドット積に低減され、出力チャネルが次の層に関してインターリーブされたフォーマットにおいてエンコードされるように、カーネルスタックを同時に再順序付けする。これらの実施形態はさらに、グループあたりのフィルタの数が、レジスタレーンの倍数に等しく、したがって、ベクトルレジスタ利用を最大限にするように、畳み込み層をグループ化する。加えて、または代替では、いくつかの実施形態は、拡張された畳み込みのために櫛型設計を使用し、櫛型設計は、オンチップメモリフットプリントを最小限にする。層が、これの上方または下方の別の層にある逐次的または階層的方法で相互作用する、１つ以上の機能的コンポーネントの別個のセットであることに留意されたい。

いくつかの実施形態では、本例示的ネットワークアーキテクチャ内の全ての層、ブロック、モジュール、コンポーネント等は、例えば、ランタイムにおいて好都合な推論時間を促進するために遠隔コンピューティングデバイス（例えば、クラウドサービス）を利用することと比較したとき、そのような目的のためにコンピューティングデバイス（例えば、ウェアラブルデバイス）内に完全に埋込されてもよい一方、いくつかの他の実施形態では、層、ブロック、モジュール、コンポーネント等のうちの全てではないが、いくつかが、コンピューティングデバイス内に埋込される。短い待ち時間を伴うニューラルネットワークからの好都合な推論時間は、例えば、自動車用途（例えば、自律運転車両）、ＶＲ／ＡＲ／ＭＲ／ＸＲデバイスの手姿勢追跡、推定、予測、および／または認識等におけるコンピュータビジョン用途にとって重要である。

いくつかの実施形態は、コンピューティングデバイス内にニューラルネットワークを訓練することに関連する殆どの層、ブロック、モジュール、コンポーネント等を埋込する。例えば、２の拡張係数を伴う畳み込みが、４つの独立したフィールド毎の算出（例えば、偶数行－偶数列、偶数行－奇数列、奇数行－偶数列、および奇数行－奇数列）に分割されてもよい。これらの４つの独立したフィールド毎の算出は、本明細書に説明される種々の層内に採用される拡張畳み込みが、低減された、最小の、またはさらにはゼロの有効オーバーヘッドにおいて実施され得るように、独立して算出され、出力に応じて再組み合わせされる。

例えば、エンコーダ（主要エンコーダ層１（６０４Ｇ）、主要エンコーダ層２（６０６Ｇ）、および主要エンコーダ層３（６０６Ｇ））、アップサンプラ（６１０Ｇ、６１２Ｇ、および６１４Ｇ）、および１つ以上のデコーダモジュール（例えば、可視性デコーダ６４０Ｇ、特徴姿勢デコーダ６４２Ｇ、および／または配向デコーダ６４４Ｇ）は、コンピューティングデバイス内に埋込されてもよい一方、他のモジュール（例えば、補助的特徴点デコーダ６３８Ｇおよび補助的エンコーダ６３６Ｇ）および損失（例えば、セグメンテーション損失６３０Ｇ、バイナリ交差エントロピ損失６２８Ｇ、補助的特徴点損失６２６Ｇ、深層教師あり損失６１８Ｇ、特徴姿勢分類損失６２２Ｇ、カテゴリ配向損失６２４Ｇ、および加重特徴点およびセグメンテーション損失６２０Ｇ）は、主として、訓練の間に使用されるが、コンピューティングデバイス上に埋込されず、コンピューティングデバイスとともに展開される。参照番号６３２Ｇは、注意精緻化モジュールを表し、参照番号６１６Ｇは、１×１畳み込みを表す。

いくつかの実施形態では、ニューラルネットワークは、推論時間において左および／または右手に関するバイナリセグメンテーションマスクを予測する一方、いくつかの他の実施形態は、推論時間において左および／または右手に関するバイナリセグメンテーションマスクを予測する。これらの後者の実施形態は、左および／または右手に関するバイナリセグメンテーションマスクを予測するために、２つのチャネル（例えば、６１４Ｇにおけるアップサンプリングされた特徴出力の最後の２つのチャネル）を保留してもよい。訓練時間において、セグメンテーションを予測する訓練時間のみの補助的空間ブランチに加えて、セグメンテーション損失がまた、例えば、６１４Ｇの出力のこれらの２つのチャネルに適用されてもよい。すなわち、ランタイムセグメンテーションチャネルが、いくつかの実施形態では、有効にされる、またはいくつかの他の実施形態では、無効にされてもよい。

加えて、または代替では、これらの後者の実施形態は、各チャネルがヒートマップとして解釈され得る、３２個のチャネルを伴うデータテンソルを生成してもよい。例えば、これらの実施形態は、これらの最初の３０個のチャネルを手あたり１５個のチャネル（例えば、左手に関する１５個のチャネルおよび右手に関する１５個のチャネル）に分割し、これらのチャネル毎に独立して空間的ソフトマックスを使用し、特徴点（例えば、チャネル毎に予測された特徴点）がヒートマップとして解釈されるチャネルのａｒｇｍａｘまたは代替として、ｓｏｆｔ－ａｒｇｍａｘであり得ることを予測することを学習してもよい。いくつかの実施形態では、各チャネルは、異なる特徴点に対応してもよい。これらの実施形態では、２つの保留されたチャネルは、それぞれ、左および右手に関する左および右バイナリセグメンテーションマスクに対応してもよい。さらに、補助的空間ブランチと異なり、これらのセグメンテーション予測は、これらのセグメンテーション予測が、モデルのサイズまたは算出のいずれかを殆ど追加し得ないため、ランタイム推論ネットワークのために留保されてもよい。

図６Ｈは、いくつかの実施形態における、複数の種々の層を有する、ブロックの簡略化実施例を図示する。より具体的には、図６Ｈは、図６Ｇの参照番号６３２Ｇとしても参照される、注意精緻化層またはブロック６３２Ｈの実施例を図示する。注意精緻化ブロックは、速度の損失を伴わずに、推論モデルを用いた予測においてより良好な正確度を提供し得る。注意精緻化ブロック６３２Ｈは、プーリング層６０２Ｈ（例えば、グローバル平均プーリング層、最大プーリング層等）において入力を受信し、出力特徴（例えば、エンコーダ層からの出力特徴）を注意ベクトルにエンコードしてもよい。

出力ベクトルは、元の入力が、注意ベクトルによって再加重され得るように、畳み込み層６０４Ｈ（例えば、１×１畳み込み層）、バッチ正規化層６０６Ｈ、および活性化層６０８Ｈ（例えば、整流線形ユニット、シグモイド活性化層、双曲線正接またはｔａｎｈ活性化層等）に提供されてもよい。図６Ｈに図示されるような注意精緻化モジュールは、コンテキスト情報（例えば、グローバルコンテキスト情報）を捕捉し、ニューラルネットワークの予測を精緻化し、複雑なアップサンプリング演算を伴わずに、より正確な意味論的セグメンテーションを提供することを可能にする。図６Ｇに図示される例示的ニューラルネットワーク６００Ｇでは、階層２（主要エンコーダ層２６０６Ｇ）出力および階層３（主要エンコーダ層３６０８Ｇ）出力は、それぞれ、それらの個別の出力を精緻化するために、それらの対応する注意精緻化モジュール６３２Ｇに提供される。６０８Ｈからの精緻化された出力および元の入力は、例えば、乗算器６１０Ｈに提供され、これは、テンソル演算を実施し、最終的に、注意精緻化モジュール６３２Ｈからの出力を提供する。

図６Ｉは、いくつかの実施形態における、複数のモジュールまたは層を有する、特徴融合ブロックの簡略化実施例を図示する。いくつかの実施形態は、空間情報を保全し、コンピュータビジョンのための受容フィールドを増加させるために、空間パスを採用する、意味論的セグメンテーションニューラルネットワークを対象とする。これらの実施形態は、空間パスおよびコンテキストパスの特徴を融合する、特徴融合モジュールを含む。コンテキストパスが、高レベル情報と見なされるコンテキスト情報（例えば、グローバルコンテキスト情報）をエンコードする一方、空間パスが、低レベル情報と見なされる詳細情報をエンコードすることに留意されたい。そのような高レベルコンテキスト情報および低レベル空間情報は、単純にともに合計されることができない。特徴融合モジュールは、空間パスおよびコンテキストパスからの特徴出力を連結し、バッチ正規化を使用し、これらの特徴のスケールを平衡させる。特徴融合モジュールは、次いで、連結された特徴を特徴ベクトルにプールし、加重ベクトルを算出し、特徴選択および組み合わせのために特徴を再加重する。特徴融合モジュールは、空間パスおよびコンテキストパスから特徴または特徴マップを受信し、個別の特徴／特徴マップを連結する（６１６Ｉ）。

空間パスおよびコンテキストパスからの連結出力はまた、畳み込み層を有し、バッチ正規化層が続き、整流線形ユニットがさらに続く、ブロック６１８Ｉに転送される。６１８Ｉにおけるバッチ正規化層は、空間パスおよびコンテキストパスからの特徴のスケールを平衡させる。連結演算６１６Ｉは、特徴マップのサイズが変化すると、実行可能ではない場合がある。いくつかの実施形態では、畳み込みニューラルネットワークの一部は、特徴マップのサイズを変化させるダウンサンプリング層である。ニューラルネットワークアーキテクチャにおけるダウンサンプリングを促進するために、いくつかの実施形態は、ニューラルネットワークを複数の高密度に接続された高密度ブロックに分割する。

より具体的には、空間パスおよびコンテキストパスからの特徴はまた、プーリング層６０２Ｉ（例えば、最大プーリング層、グローバル平均プーリング層、アトラス空間ピラミッドプーリング等）に送信される。プーリング層６０２Ｉ出力は、１×１畳み込み層６０４Ｉに送信され、これは、１×１フィルタを入力に適用する。１×１畳み込み層出力は、整流線形ユニット６０６Ｉに送信され、これは、活性化として整流線形関数を適用する。整流線形ユニット６０６Ｉの出力は、１×１畳み込み層６０８Ｉに転送され、これは、別の１×１フィルタ行列を入力に適用する。

１×１畳み込み層６０４Ｉおよび１×１畳み込み層６０８Ｉにおける１×１フィルタ行列の繰り返される適用は、これらの畳み込み層への入力において検出された特徴の場所および強度を示す、特徴マップとも呼ばれる活性化のマップをもたらす。１×１畳み込み層６０８Ｉの出力は、別の活性化層６１０Ｉに送信される。活性化層において適用される活性化関数は、活性化層６１０Ｉへの入力を、入力に関する出力の活性化に変換する。整流線形関数、双曲線関数（ｔａｎｈ）、シグモイド等の種々の活性化関数が、６１０Ｉにおいて採用されてもよい。活性化層６１０Ｉの出力およびブロック６１９からのものは、６１２Ｉにおいて結合（例えば、ドット積におけるように乗算）され、６１４Ｉにおいて合計される。図６Ｉに図示される特徴融合モジュールでは、コンテキストパスおよび空間パスからの特徴は、特徴ベクトルにさらに処理される連結された特徴に連結され、特徴融合モジュールはさらに、加重ベクトルを算出し、これは、次いで、特徴を再加重するために使用され、これは、特徴選択および組み合わせに相当する。

図７Ａは、いくつかの実施形態における、空間情報を保全し、コンピュータビジョンのための受容フィールドを強化する間のマルチタスク深層学習およびニューラルネットワークを用いた意味論的セグメンテーションの高レベル概略ブロック図を図示する。図７Ａに図示されるニューラルネットワークは、空間パス７５０Ａと、コンテキストパス７５２Ａとを含み、したがって、バイラテラル意味論的セグメンテーションニューラルネットワークと呼ばれ得る。空間パス７５０Ａは、図３、４Ａ－４Ｂ、５Ａ－５Ｆ、および６Ｇに図示されるネットワークによって処理されてもよい。ニューラルネットワークの複雑性に起因して、図７Ａは、単に、３つの階層、すなわち、７０２Ａ、７０４Ａ、および７０６Ａを示す。

これらの３つの階層７０２Ａ、７０４Ａ、および７０６Ａの幅が、個別の空間サイズを示すことに留意されたい。前述のネットワークを用いて発生された空間パスは、豊富な詳細情報をエンコードすることによって空間情報を保全する一方、コンテキストパスは、コンピュータビジョンのための大きいオブジェクトを適応させるための受容フィールドを増加させるために利用される。

いくつかの実施形態では、階層１７０２Ａは、階層１の後の並列算出を低減させるために、１６個のチャネルを使用するが、グループ化畳み込みを採用せず、階層２７０４Ａは、階層２の後の並列算出を低減させるために、３２個のチャネルを使用する。階層２７０４Ａはさらに、算出を低減させるために、グループ化係数を伴うグループ化畳み込みを採用する。いくつかの実施形態では、階層２７０４Ａは、算出を低減させるために、２（２）のグループ化係数を採用する。いくつかの実施形態では、階層３７０６Ａは、並列算出を低減させるために、６４個のチャネルを使用し、また、算出を低減させるために、グループ化係数を伴うグループ化畳み込みを使用する。一実施形態では、階層３７０６Ａは、算出を低減させるために、８（８）のグループ化係数を使用する。

コンテキストパス７５２Ａは、入力７１６Ａを受信し、４分の１ダウンサンプリング（７０８Ａ）を実施する。４分の１ダウンサンプリング（７０８Ａ）の出力は、８分の１ダウンサンプリング（７１０Ａ）に転送され、１２分の１ダウンサンプリング（７１２Ａ）が続く。１６分の１ダウンサンプリング層７１２Ａの出力は、３２分の１ダウンサンプリング（７１４Ａ）および注意精緻化層（７２０Ａ）に提供される。３２分の１ダウンサンプリング層（７１４Ａ）の出力はまた、上記に説明され、図６Ｈに図示される、別の注意精緻化層（７２０Ａ）に提供される。これらの２つの注意精緻化層（７２０Ａ）の出力は、結合され、上記に説明され、図６Ｉに図示されるような特徴融合層（７１６Ａ）に提供され、特徴融合層７１６Ａは、出力７１８Ａを発生させる。

図７Ｂは、いくつかの実施形態における、３×３受容フィールドを有する、１（１）拡張された畳み込みの簡略化実施例を図示する。より具体的には、図７Ｂは、拡張が、分解能または被覆率の損失を伴わずに受容フィールドの指数関数的拡大をサポートすることを図示する。図７Ｂの各要素（円形ドット）は、３×３の受容フィールドを有し、各層と関連付けられるパラメータの数は、１拡張された畳み込みと同じである。

図７Ｃは、いくつかの実施形態における、図７Ｂの１拡張された畳み込みから生成され、２拡張された畳み込みに起因する７×７受容フィールドを有する、２（２）拡張された畳み込みの簡略化実施例を図示する。図７Ｄは、いくつかの実施形態における、図７Ｃの２拡張された畳み込みから生成され、３拡張された畳み込みに起因する１１×１１受容フィールドを有する、３（３）拡張された畳み込みの簡略化実施例を図示する。図７Ｅは、いくつかの実施形態における、図７Ｄの２拡張された畳み込みから生成され、４拡張された畳み込みに起因する１５×１５受容フィールドを有する、４（４）拡張された畳み込みの簡略化実施例を図示する。図７Ｂ－７Ｅから分かり得るように、受容フィールドは、指数関数的に増加するサイズの正方形である。すなわち、各要素の個別のフィールドは、（２^ｉ＋１－１）^２であり、式中、ｉ＝１，２，３，…，ｎであり、ｉは、拡張係数を示す。

図８Ａは、いくつかの実施形態における、ＸＲ眼鏡の外部にベルトパックを伴うウェアラブルＸＲデバイスの簡略化実施例を図示する。より具体的には、図８Ａは、光学サブシステム８０２Ａと、処理サブシステム８０４Ａとを含み、パーソナル拡張現実システムの複数のインスタンス、例えば、ユーザのための個別のパーソナル拡張現実システムを含み得る、ユーザウェアラブルＶＲ／ＡＲ／ＭＲ／ＸＲシステムの簡略化実施例を図示する。本明細書に説明されるニューラルネットワークのうちのいずれかが、ウェアラブルＸＲデバイス内またはその上に全体的または部分的に埋込されてもよい。例えば、本明細書に説明されるニューラルネットワークのうちのいくつかまたは全ておよび他の周辺機器（例えば、ＴｏＦセンサ）が、処理サブシステム８０４Ａのみの上に埋込される、光学サブシステム８０２Ａのみの上に埋込される、または処理サブシステム８０４Ａと光学サブシステム８０２Ａとの間に分散されてもよい。

ＶＲ／ＡＲ／ＭＲ／ＸＲシステムのいくつかの実施形態は、仮想コンテンツをユーザの眼に配信する、光学サブシステム８０２Ａ、および関連する仮想コンテンツをユーザに提示するために多数の処理タスクを実施する、処理サブシステム８０４Ａを備えてもよい。処理サブシステム８０４Ａは、例えば、ベルトパックの形態をとってもよく、これは、使用の間にズボンのベルトまたはベルトラインに便宜的に結合されることができる。代替として、処理サブシステム８０４Ａは、例えば、携帯情報端末またはスマートフォンタイプデバイスの形態をとってもよい。

処理サブシステム８０４Ａは、１つ以上のプロセッサ、例えば、１つ以上のマイクロコントローラ、マイクロプロセッサ、グラフィカル処理ユニット、デジタル信号プロセッサ、特定用途向け集積回路（ＡＳＩＣ）、プログラマブルゲートアレイ、プログラマブル論理回路、または論理を具現化するか、またはソフトウェアまたはファームウェアにおいてエンコードされた命令において具現化される論理を実行することが可能であるかのいずれかである他の回路を含んでもよい。算出コンポーネント８０４Ａは、１つ以上の非一過性コンピュータまたはプロセッサ可読媒体、例えば、揮発性および／または不揮発性メモリ、例えば、読取専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、スタティックＲＡＭ、ダイナミックＲＡＭ、フラッシュメモリ、ＥＥＰＲＯＭ等を含んでもよい。

処理サブシステム８０４Ａは、頭部装着コンポーネントに通信可能に結合されてもよい。例えば、処理サブシステム８０４Ａは、適切なコネクタを伴うケーブルを介して、１つ以上のワイヤまたは光ファイバを介して頭部装着コンポーネントに通信可能に繋留されてもよい。処理サブシステム８０２Ａおよび光学サブシステム８０４Ａは、種々のテザープロトコル、例えば、ＵＢＳ（登録商標）、ＵＳＢ２（登録商標）、ＵＳＢ３（登録商標）、Ｅｔｈｅｒｎｅｔ（登録商標）、Ｔｈｕｎｄｅｒｂｏｌｔ（登録商標）、Ｌｉｇｈｔｎｉｎｇ（登録商標）プロトコルのうちのいずれかに従って通信してもよい。

代替として、または加えて、処理サブシステム８０４Ａは、頭部装着コンポーネントに無線で通信可能に結合されてもよい。例えば、処理サブシステム８０４Ａおよび光学サブシステム８０２Ａは、それぞれ、送信機、受信機、または送受信機（集合的に、無線）、および関連付けられるアンテナを含み、それらの間の無線通信を確立してもよい。無線およびアンテナは、種々の形態をとってもよい。例えば、無線は、短距離通信が可能であってもよく、ＢＬＵＥＴＯＯＴＨ（登録商標）、ＷＩ－ＦＩ（登録商標）、またはあるＩＥＥＥ８０２．１１準拠プロトコル（例えば、ＩＥＥＥ８０２．１１ｎ、ＩＥＥＥ８０２．１１ａ／ｃ）等の通信プロトコルを採用してもよい。

図８Ｂは、いくつかの実施形態における、図８Ａに図示されるベルトパックを伴うウェアラブルＸＲデバイス上のニューラルネットワークの埋込実装の簡略化実施例を図示する。上記に説明されるように、ニューラルネットワークのうちのいずれかが、コンピュータビジョンのための好都合な推論を促進するために、ハードウェアシステム（例えば、ウェアラブル電子システム）上に全体的または部分的に埋込されてもよく、本開示では、埋込実装と称されるであろう。図８Ｂに図示されるこれらの実施形態では、埋込実装は、例えば、１つ以上のアプリケーション８２０Ｂ（例えば、３Ｄブラウザ、ＶＲ／ＡＲ／ＭＲ／ＸＲゲーム、仮想テレビ、仮想メディアプレーヤ、生産性アプリケーション等）と、本開示に説明されるニューラルネットワークのうちのいずれかであり得るニューラルネットワーク８２２Ｂとを含む、アプリケーションホスト８１８Ｂを含んでもよい。

埋込実装はさらに、ビジョン処理ユニット（ＶＰＵ）８０２Ｂを含んでもよい。ＶＰＵは、種々のコンポーネントを含んでもよく、マシンビジョンまたはコンピュータビジョンタスクを高速化するように考案されるマイクロプロセッサである。ＶＰＵ８０２Ｂのこれらの種々のコンポーネントは、例えば、人工知能（ＡＩ）アクセラレータの機能を果たす、ハードウェアアクセラレータ８０４Ｂを含んでもよい。ハードウェアアクセラレータ８０４Ｂは、いくつかの実施形態では、それ自体がコンピュータシステムである、またはいくつかの他の実施形態では、専用ハードウェアアクセラレータであってもよく、ニューラルネットワーク、マシンビジョン、機械学習、または任意の他のセンサ駆動またはデータ集約的タスク等の人工知能アプリケーションを高速化するように設計される。

ハードウェアアクセラレータ８０４Ｂは、１つ以上のＲＩＳＣ（縮小命令セットコンピュータ）プロセッサ８０６Ｂ、レベル２（Ｌ２）キャッシュ８１０Ｂ、メモリ８１４Ｂ（例えば、ＬＰＤＤＲ３または低電力ダブルデータレート同期ダイナミックランダムアクセスメモリ－３）、およびメモリコントローラ８１２Ｂ（例えば、ＤＤＲまたはダブルデータレートメモリコントローラ）等の種々の他のコンポーネントに動作的に結合されてもよい。ビジョン処理ユニット８０２Ｂは、複数のスーパーハイビジョン（ＳＨＶ）プロセッサ８１６Ｂ（図８Ｂに１２個が図示される）を含む。スーパーハイビジョンプロセッサ８１２Ｂは、ＶＬＩＷ（超長命令語）ベクトルプロセッサを含んでもよく、ＶＬＩＷは、命令レベルの並列性（ＩＬＰ）を活用するように設計される、命令セットアーキテクチャを指す。ビジョン処理ユニット８０２Ｂは、したがって、中央処理ユニット（ＣＰＵ）と区別可能であり、中央処理ユニットは、プログラムが、順序通りにのみ実行するように命令を規定することを可能にすることが殆どであるが、ＶＬＩＷプロセッサは、プログラムが、並行して実行するように命令を明示的に規定することを可能にする。複数のＳＨＶは、接続行列（ＣＭＸ）８０８Ｂに動作的に結合され、これは、ＳＨＶと他のハードウェアコンポーネントとの間のシームレスな相互作用を可能にする。

ビジョン処理ユニットが、ＣＮＮ（畳み込みニューラルネットワーク）、ＳＩＦＴ（スケール不変特徴変換）、および類似物等のマシンビジョンアルゴリズムを起動するためのそれらの適合性においてビデオ処理ユニット（ビデオエンコーディングおよびデコーディングのために特殊化される）と明確に異なることに留意されたい。ＶＰＵは、カメラからデータを取り込むための直接インターフェース（いかなるオフチップバッファも迂回する）を含み、メニーコアＤＳＰのように、スクラッチパッドメモリを伴う多くの並列実行ユニットの間のオンチップデータフローをより強調し得る。しかし、ビデオ処理ユニットのように、それらは、画像処理に関して低精度の固定小数点演算に焦点を当て得る。ＶＰＵはまた、ラスタライゼーションおよびテクスチャマッピング（３Ｄグラフィックスに関して）のための専用ハードウェアを含み、そのメモリアーキテクチャが、オフチップメモリ内のビットマップ画像を操作する（ランダムアクセスパターンを用いてテクスチャを読み取り、フレームバッファを修正する）ために最適化される、ＧＰＵ（グラフィック処理ユニット）と明確に異なる。

図８Ｃは、いくつかの実施形態における、図８Ｂに図示される埋込実装のいくつかの動作の高レベル例示的ブロック図を図示する。図８Ｂに図示されるこれらの実施形態では、入力データチャネルは、８０２Ｃにおいて、本明細書に説明されるニューラルネットワーク内の畳み込み層をベクトル命令順序付けと整合させるために、再順序付けされ、インターリーブされてもよい。さらに、畳み込み層は、８０４Ｃにおいて、レジスタレーンの数をフィルタグループの数と相関させるためにグループ化されてもよい。例えば、畳み込み層は、ベクトルレジスタ利用を増加させる、またはさらには最大限にするために、グループあたりのフィルタの数が、レジスタレーンの倍数（例えば、１倍、２倍等）になるようにグループ化されてもよい。

グループ化された畳み込み層を用いて、１つ以上の拡張係数（例えば、１、２、３、４等）における拡張された畳み込みが、８０６Ｃにおいて、メモリフットプリントを強化するために櫛型設計を用いて実施されてもよい。例えば、２（２）の拡張係数を伴う畳み込みが、４つの独立したフィールド毎の算出（例えば、偶数行－偶数列、偶数行－奇数列、奇数行－偶数列、および奇数行－奇数列）に分割されてもよい。これらの４つの独立したフィールド毎の算出は、相互から独立して、または並行して実行されてもよく、それらの個別の出力は、再組み合わせされてもよい。

図９Ａは、いくつかの実施形態における、３つの例示的階層を有するニューラルネットワークにおけるいくつかの例示的動作の高レベル例示的ブロック図を図示する。より具体的には、図９Ａは、ブロックの３つの階層およびニューラルネットワークのマルチタスク深層学習を用いた意味論的セグメンテーションに関する簡略化高レベル例示的ブロック図を図示する。いくつかの実施形態では、入力データセットが、９０２Ａにおいて識別されてもよい。いくつかの実施形態では、１つ以上のグラウンドトゥルース画像もまた、９０２Ａにおいて識別されてもよい。グラウンドトゥルース画像は、位相画像または深度画像のヒストグラム等化バージョンを含み、また、特徴点のセットを用いて標識化されてもよい。入力データセットは、９０４Ａにおいて、少なくとも標識化および／またはオーギュメンテーションによって、変換された入力データセットに変換されてもよい。

いくつかの実施形態では、９０２Ａにおいて識別された入力データセットは、１つ以上の画像を含んでもよく、１つ以上の画像は、例えば、位相画像、深度画像、ＲＧＢ画像、グレースケール画像、振幅画像、またはそれらの任意の組み合わせを含んでもよい。上記に説明されるように、振幅画像は、複数の位相画像の組み合わせ（例えば、線形組み合わせ）を含んでもよい。入力データセットが、位相画像を含む、いくつかの実施形態では、位相画像は、例えば、１つ以上の飛行時間（ＴｏＦ）センサによって捕捉されてもよい。いくつかの実施形態では、９０４Ａにおける入力データセットを変換するステップは、後処理を使用して、および／または入力データセットを標識化して、位相画像を深度画像に転換または変換するステップを含んでもよい。

入力データセットを標識化する理由のうちの１つは、いくつかの実施形態では、標識化データを用いてニューラルネットワークを訓練すること、および／または訓練を監督することであるが、いくつかの他の実施形態がまた、非標識化データセットに対して自己教師あり訓練ヘッドを採用し得ることに留意されたい。また、画像の意味論的セグメンテーションは、概して、その対応するクラスを用いて画像内の各ピクセルを標識化するステップを伴う。逆畳み込みが続く畳み込みを採用する従来のアプローチと異なり、いくつかの実施形態は、したがって、特徴点を標識化し、拡張された畳み込みを適用し、高出力分解能を維持し、ニューラルネットワークからの出力が、アップサンプリングの必要性を回避しながら、入力と同一のサイズであることを確実にする。それらの従来のアプローチにおける逆畳み込みは、より多くのパラメータを導入し、したがって、メモリフットプリントおよび算出を増加させ、したがって、ウェアラブルデバイス上の埋込実装に関して不適当である。また、これらの実施形態は、拡張された畳み込みが、線形パラメータ増大に伴ってネットワークの受容フィールドを指数関数的に増加させる方法であり、したがって、より少ない費用でより広いコンテキストを提供するため、拡張された畳み込みを採用する。

９０４Ａにおける入力データセットを標識化するステップは、例えば、画像を標識化するステップ、画像内の特徴点のセットを標識化するステップ、および／または補助的タスクを標識化するステップを含んでもよい。特徴点は、ニューラルネットワークが予測するための主要特徴点または訓練教師としての役割を果たす補助的特徴点として標識化されてもよい。図１に図示される実施例として、手の画像が、ニューラルネットワークが予測するための主要特徴点のセットと、教師を訓練するために使用される補助的特徴点のセットとを含む、１７個の特徴点を用いて標識化されてもよい。いくつかの実施形態では、主要特徴点のセットは、８（８）つの特徴点を含み、補助的特徴点のセットは、残りの９（９）つの特徴点を含有する。

主要特徴点（例えば、ニューラルネットワークが予測するため）および補助的特徴点（例えば、訓練のため）の他の構成もまた、使用され得ることに留意されたい。例えば、主要特徴点の数は、８（８）個、１５（１５）個、または１つ以上の基準（例えば、算出費用、正確度要件、決定されるべき姿勢の複雑性等）または複数の基準（例えば、前述の基準）の平衡に基づいて決定され得る任意の他の数であってもよい。採用される補助的特徴点の数は、少なくとも部分的に、例えば、手あたりの標識化される特徴点の数およびニューラルネットワークによって予測される特徴点の数に基づいて決定されてもよい。本決定はまた、少なくとも部分的に、直上に説明される１つ以上の基準または複数の基準の平衡に基づいてもよい。いくつかの実施形態では、ニューラルネットワークは、手あたりの主要特徴点の数、手あたりの補助的特徴点の数、および／または手あたりの合計特徴点（主要特徴点＋補助的特徴点）の数を調節するために使用され得る、構成インターフェースを提供する。

手あたりの特徴点の他の数もまた、使用され得、手あたりでより多くの特徴点を使用することが、より多くのコンピューティングリソース消費を犠牲にするが、正確度を増加させる、および／またはより複雑な手姿勢を可能にすることに留意されたい。特徴点は、したがって、（主要特徴点のための）主要標識または（補助的特徴点のための）補助的標識を用いて標識化されてもよい。いくつかの実施形態では、主要特徴点のセットおよびそれに関連する他の情報またはデータは、埋込実装において含まれてもよい一方、補助的特徴点のセットは、基礎となるニューラルネットワークの訓練を監督するために使用されるが、埋込訓練において含まれない、または展開されない。いくつかの実施形態では、ニューラルネットワークを用いて主要特徴点のセットを予測するステップは、本明細書に説明されるようなグループ化畳み込みを採用する。これらの実施形態では、補助的特徴点は、浮動的な特徴点または手から飛び出す特徴点等の問題を回避し、エンコーダの後の特徴テンソルを正則化するために、畳み込みグループ化を採用しない（例えば、図６Ｇ参照）。

画像はまた、いくつかの特徴姿勢クラスのうちの１つを用いて標識化されてもよい。ニューラルネットワークが、手姿勢を予測するために使用され、したがって、入力画像が、片手または両手の画像を成す、いくつかの実施形態では、入力画像は、いくつかの特徴姿勢クラスのうちの１つを用いて標識化されてもよい。これらの特徴姿勢クラスは、例えば、「オーケー」、「開いた手」、「つまむこと」、「Ｃ姿勢」、「握り拳」、「Ｌ姿勢」、「指さし」、「親指を立てること」、および「ダミー」を含んでもよい。「ダミー」クラスは、全ての他の特徴姿勢を捕捉し、１つ以上の新しい特徴姿勢の追加を伴う後続再標識化のために記憶されてもよい。加えて、または代替では、いくつかの実施形態は、手の回外（掌が前方または上向きに向くような前腕および手の回転）および回内（掌が後方または下向きに向くような手および前腕の回転）から生じ得る８（８）つのカテゴリの手配向を標識化する。これらの８つのカテゴリは、近似的であり得、標識は、したがって、例えば、手姿勢予測のためにこれらのタスクを訓練するために、交差エントロピ損失を使用することによって軟化されてもよい。

いくつかの実施形態では、入力データセットは、オーギュメンテーションによって変換されてもよい。オーギュメンテーションは、例えば、合成画像が、両手のジェスチャまたは動作であるように見えるように、左手の画像を右手の別の画像と合成するステップを含んでもよい。オーギュメンテーションはまた、手姿勢推定または予測を複数の異なる環境に汎化するために、訓練データセットを拡大するために、ディストラクタオブジェクトを含む１つを上回る背景画像を有する複数の画像を合成するステップを含んでもよい。変換された入力データセットは、次いで、９０８Ａにおいて、訓練教師および複数の損失関数を用いてマルチタスク学習パラダイムにおけるニューラルネットワークを訓練するために使用されてもよい。ニューラルネットワークを訓練するステップについてのさらなる詳細が、下記に説明されるであろう。

図９Ｂは、いくつかの実施形態における、ニューラルネットワークにおけるマルチタスク深層学習の高レベル例示的ブロック図を図示する。より具体的には、図９Ｂは、ニューラルネットワークを用いた手姿勢追跡および予測に関するブロック図を図示する。これらの実施形態では、入力データセットが、上記の参照番号９０２Ａを参照して説明されるものと実質的に類似する様式で、９０２Ｂにおいて識別されてもよい。特徴点のセットが、９０４Ｂにおいて決定されてもよい。特徴点のセットは、いくつかの実施形態では、特徴点の第１のサブセットと、特徴点の第２のサブセットとを含んでもよく、特徴点の第１のサブセットは、ニューラルネットワークによって予測されるべき特徴点を表し、特徴点の第２のサブセットは、ニューラルネットワークのための訓練教師として使用される特徴点を表す。

９０２Ｂにおいて決定された入力データセットは、上記の参照番号９０４Ａを参照して説明されるものと同じまたは実質的に類似する様式で、９０６Ｂにおいて１つ以上の特徴姿勢クラスを用いて標識化されてもよい。いくつかの実施形態では、１つ以上の特徴姿勢クラスは、例えば、「オーケー」、「開いた手」、「つまむこと」、「Ｃ姿勢」、「握り拳」、「Ｌ姿勢」、「指さし」、「親指を立てること」、および「ダミー」を含んでもよい。「ダミー」クラスは、全ての他の特徴姿勢を捕捉し、１つ以上の新しい特徴姿勢の追加を伴う後続再標識化のために記憶されてもよい。

９０６Ｂにおいて標識化された入力データセットを用いて、手姿勢または特徴姿勢（手姿勢と同義的に使用される）推定または予測が、９０８Ｂにおいて、少なくとも入力データセットを拡大することによって、異なる環境に汎化されてもよい。入力データセットは、例えば、入力データセット内の１つを上回る背景画像内に少なくとも１つのディストラクタオブジェクトを有する複数の画像を、１つ以上の合成された付加的画像に合成することによって拡大されてもよい。１つ以上の補助的タスクが、９１０Ｂにおいて標識化されてもよい。補助的タスクのいくつかの実施例は、離散的手姿勢訓練タスク、カテゴリ配向訓練タスク、補助的エンコーダ層訓練タスク、可視性デコーダ層訓練、補助的特徴点デコーダ訓練タスク等を含む。いくつかの実施形態では、１つ以上の補助的タスクを標識化するステップは、上記に説明される特徴点標識化等の１つ以上の他のプロセスの副次的結果であってもよい。

ニューラルネットワークは、次いで、９１２Ｂにおいて特徴点の第１のサブセット内の特徴点を予測してもよい。ニューラルネットワークは、９１４Ｂにおいて、９１２Ｂにおいて発生された少なくとも複数のネットワーク予測および損失を使用することによって、マルチタスク学習パラダイムにおいて訓練されてもよい。ニューラルネットワークを訓練するステップについてのさらなる詳細が、下記に説明されるであろう。加えて、または代替では、訓練は、９１６Ｂにおいて、いくつかの実施形態では、訓練教師として特徴点の第２のサブセットを使用することによって監督されてもよい。ニューラルネットワークが訓練されると、ニューラルネットワークは、９１８Ａにおいて、少なくとも空間パスおよびコンテキストパスの出力を融合することによって、例えば、画像捕捉デバイス（例えば、カメラ、ＴｏＦセンサ等）によって捕捉された手姿勢に関する予測を発生させるために使用されてもよい。空間パスおよびコンテキストパスについてのさらなる詳細が、図１０Ａ－１０Ｂを参照して下記に説明される。

図９Ｃは、いくつかの実施形態における、図９Ｂに図示されるニューラルネットワークにおけるマルチタスク深層学習の高レベル例示的ブロック図の一部についてのさらなる詳細を図示する。より具体的には、図９Ｃは、図９Ｂの９１４Ｂにおけるニューラルネットワークを訓練するステップについてのさらなる詳細を図示する。いくつかの実施形態では、ニューラルネットワークは、９０２Ｃにおいて、少なくとも損失関数および逆伝搬を使用して、特徴点の第１のサブセット内の特徴点に関する予測を発生させてもよい。いくつかの実施形態では、１ホット標識または標的を伴う交差エントロピ損失が、９０２Ｃにおいて損失関数として使用されてもよい一方、他の実施形態は、平均二乗損失（ＭＳＥ）関数層等の他の損失関数を使用してもよい。

１ホットエンコーディングを伴う交差エントロピは、標的ベクトルが、１（１）を除いて、全てゼロ（０）であることを示唆する。結果として、ゼロエントリは全て、無視され、１（１）を伴うエントリのみが、更新のために使用される。したがって、標識と関連付けられる予測された確率のみが、１ホット標識を伴う交差エントロピ関数を伴う損失の値に影響を及ぼす。交差エントロピ関数は、ニューラルネットワーク予測が、いくつかの実施形態では、相互に排他的な結果にわたる確率ベクトルを備えるため、機能する。したがって、予測ベクトルは、非負の要素を有し、これらの要素は、合計で１になる。言い換えると、予測ベクトルの１つの部分をより大きくすることは、同一の量だけ残りの成分の和が縮小されることをもたらす。さらに、１ホット標識の場合に関して、ソフトマックス関数が、使用されてもよい。また、ソフトマックスは、０および１において漸近線を有し、したがって、特異点は、生じ得ない。一方、オーバーフローが、時折、浮動小数点演算の問題として、ｌｏｇ（１）またはｌｏｇ（０）をもたらし得る。それにもかかわらず、そのようなオーバーフローは、方程式を再配列し、オッズの対数であるｐ／（１－ｐ）を備えるロジット等の異なるスケールで作業することによって回避され得、式中、ｐは、確率である。

いくつかの実施形態は、９０４Ｃにおいて、９０４Ｂにおいて識別された特徴点の第２のサブセットを使用して、訓練を監督する。いくつかの実施形態では、特徴点の第２のサブセット（補助的特徴点のサブセット）ではなく、特徴点の第１のサブセット（主要特徴点のサブセット）が、ニューラルネットワークの最終的な展開モデル内にある。これらの実施形態では、ニューラルネットワークを有するコンピューティングデバイスは、訓練されたニューラルネットワークを埋込されるが、コンピューティングおよび／または記憶リソース利用をさらに節約するために、ニューラルネットワークを訓練することに関連する、またはそれに関与するニューラルネットワークの部分を埋込されない場合がある。加えて、または代替では、特徴点の第２のサブセットに関するデコーダ部分は、浮動的特徴点を回避し、エンコーダの後の特徴テンソルを正則化するために、畳み込みをグループ化しない。

いくつかの実施形態では、可視性マスクが、９０６Ｃにおいて、訓練プロセスを安定させる、推論の間にオクルードされた特徴点および不可視の手を抑制する、および／または推論の間に早期の出力を可能にし、待ち時間を低減させるために適用されてもよい。例えば、いくつかの実施形態は、訓練プロセスを安定させる、推論の間にオクルードされた特徴点および不可視の手を抑制する、および／または推論の間に早期の出力を可能にし、待ち時間を低減させるために、特徴点および手可視性マスクを適用してもよい。いくつかの実施形態では、ニューラルネットワークは、標識化されたデータセットを使用することによって訓練され、これらの実施形態は、画像内の可視の特徴点および手のみを標識化する。結果として、手および特徴点可視性マスクを採用するこれらの実施形態は、早期またはより早期の出力を可能にし、推論時間の間の待ち時間をさらに低減させ得る。

手姿勢に関するいくつかのクラスが、９０８Ｃにおいて決定されてもよい。いくつかの手姿勢クラスは、入力画像から新たに分類される、または既存の分類結果から識別されてもよい。手姿勢クラスのいくつかの実施例は、「オーケー」、「開いた手」、「つまむこと」、「Ｃ姿勢」、「握り拳」、「Ｌ姿勢」、「指さし」、「親指を立てること」、および「ダミー」を含んでもよい。「ダミー」クラスは、全ての他の特徴姿勢を捕捉し、１つ以上の新しい特徴姿勢の追加を伴う後続再標識化のために記憶されてもよい。

ニューラルネットワークは、９１０Ｃにおいて、９０２Ｃにおいて決定された予測および損失を使用して訓練されてもよい。ニューラルネットワークを訓練するために損失の逆伝搬とともに勾配降下を使用するために、線形関数のように見え、作用するが、実際には、データ内の複雑な関係が学習されることを可能にする非線形関数である、活性化関数が、必要とされる。上記に説明されるように、いくつかの実施形態は、ニューラルネットワークを訓練するために交差エントロピ損失および逆伝搬の使用を可能にするために、活性化関数層として整流線形ユニットを使用する。

また、１つ以上の個々のタイプの損失もまた、ニューラルネットワークによって発生された予測のために決定されてもよい。これらの個々のタイプの損失は、例えば、セグメンテーション損失、交差エントロピ損失、補助的特徴点損失、深層教師あり特徴点損失、特徴姿勢分類損失、カテゴリ配向損失等を含んでもよい。セグメンテーション損失は、補助的エンコーダ層（例えば、６３６Ｇ）に対応し、全体的または部分的に補助的エンコーダ層に関連する損失を表す。交差エントロピ損失またはバイナリ交差エントロピ損失は、可視性デコーダ（例えば、６４０Ｇ）に関連し、全体的または部分的に可視性層に関連する損失を表す。補助的特徴点損失は、補助的特徴点デコーダ（例えば、６３８Ｇ）に関連し、全体的または部分的に補助的特徴点層に関連する損失を表す。深層教師あり損失は、主要エンコーダ層（例えば、６０２Ｇ、６０４Ｇ、および６０６Ｇ）および／または畳み込み（例えば、６１６Ｇ）に関連し、全体的または部分的にこれらの層に関連する損失を表す。特徴姿勢分類損失は、特徴姿勢デコーダ層（例えば、６４２Ｇ）に関連し、全体的または部分的に特徴姿勢デコーダ層に関連する損失を表す。カテゴリ配向損失は、カテゴリ配向層（例えば、６４４Ｇ）に関連し、全体的または部分的にカテゴリ配向層に関連する損失を表す。

いくつかの実施形態はさらに、９１２Ｃにおいて、そうでなければ手から飛び出し得る特徴点を正則化する訓練時間アーチファクトとしてコンテキストパスを使用することによって、ニューラルネットワークの訓練を監督する。コンテキストパスについてのさらなる詳細が、本開示の図７Ａおよび１０Ａ－１０Ｂ等の別の場所に説明される。加えて、訓練下のニューラルネットワークはさらに、９１４Ｃにおいて、入力データセットからのいくつかのクラスをセグメント化するために訓練されてもよい。いくつかの実施形態では、いくつかのクラスは、例えば、背景クラス、右手クラス、および左手クラスを含む。加えて、いくつかのクラスは、これらの実施形態のうちのいくつかにおいて、両手クラスを含んでもよい。

異なる空間分解能を有する、１つ以上の付加的特徴点教師ヘッドまたはブランチが、９１６Ｃにおいて、ニューラルネットワークに追加されてもよい。例えば、図３、４、５Ａ－５Ｆ、および６Ｇを参照して上記に説明されるような３階層ニューラルネットワークの実施例では、階層３の出力は、入力画像の全分解能の１／８を有する。第１の付加的特徴点教師ヘッドが、階層３の出力を全分解能の１／４までアップサンプリングするために追加されてもよく、第２の付加的特徴点教師ヘッドが、第１の特徴点教師ヘッドの出力を全分解能の１／２までアップサンプリングするために追加されてもよく、以下同様である。１つ以上の特徴点教師ヘッドを追加することは、ニューラルネットワークの訓練を安定させ、訓練のための改良された勾配フローを促進し、可能性として考えられる消失勾配問題に対処し得る。

いくつかの実施形態は、最初に、ニューラルネットワークの最終層においてのみ教師を伴うニューラルネットワークのための逆伝搬の反復のセットを実施し、中間層の勾配値（例えば、平均勾配値）をプロットすることによって、１つ以上の特徴点教師ブランチを追加するかどうかを決定する。これらの実施形態は、次いで、平均勾配値が消失する、または閾値勾配を下回って下降する層の後に教師ヘッドまたはブランチを追加し、本プロセスを繰り返し、ニューラルネットワークに関する訓練プロセスを減速させ得る、勾配消失問題を低減させる、または排除してもよい。

９１８Ｃにおいて、最終損失が、決定されてもよい。いくつかの実施形態では、最終損失は、少なくとも部分的に、参照番号９１０Ｃを参照して上記に説明される個々の損失のうちの１つ以上のものに基づいて決定されてもよい。いくつかの実施形態では、最終損失または累積損失は、複数の前述の個々の損失の加重和であるように決定されてもよい。いくつかの実施形態では、指先予測の損失に関する個別の加重は、少なくとも部分的に、指先が、他の特徴点と比較したとき、検出することがより困難であるという観察に基づいて、倍増されてもよい。ニューラルネットワークは、９２０Ｃにおいて、少なくとも部分的に、９１８Ｃにおいて決定された最終損失に基づいて調節されてもよい。いくつかの実施形態では、ニューラルネットワークは、より正確な結果を生成するために、勾配降下（例えば、確率的勾配降下またはＳＧＤ）を伴う逆伝搬によって訓練される。

図９Ｄは、いくつかの実施形態における、図９Ｂに図示されるニューラルネットワークにおけるマルチタスク深層学習の高レベル例示的ブロック図の一部についてのさらなる詳細を図示する。これらの実施形態では、１つ以上の入力データセットが、９０２Ｄにおいて識別されてもよい。いくつかの実施形態では、これらの１つ以上の入力データセットは、複数の位相画像の組み合わせ（例えば、線形組み合わせ）である、少なくとも１つの振幅画像を含む。９０４Ｄにおいて、個々の損失のセットの個別の影響が、訓練スキームにおいて評価されてもよい。

上記に説明されるように、個々の損失のセットは、例えば、セグメンテーション損失、交差エントロピ損失、補助的特徴点損失、深層教師あり特徴点損失、特徴姿勢分類損失、カテゴリ配向損失等を含んでもよい。セグメンテーション損失は、補助的エンコーダ層（例えば、６３６Ｇ）に対応し、全体的または部分的に補助的エンコーダ層に関連する損失を表す。交差エントロピ損失またはバイナリ交差エントロピ損失は、可視性デコーダ（例えば、６４０Ｇ）に関連し、全体的または部分的に可視性層に関連する損失を表す。補助的特徴点損失は、補助的特徴点デコーダ（例えば、６３８Ｇ）に関連し、全体的または部分的に補助的特徴点層に関連する損失を表す。深層教師あり損失は、主要エンコーダ層（例えば、６０２Ｇ、６０４Ｇ、および６０６Ｇ）および／または畳み込み（例えば、６１６Ｇ）に関連し、全体的または部分的にこれらの層に関連する損失を表す。特徴姿勢分類損失は、特徴姿勢デコーダ層（例えば、６４２Ｇ）に関連し、全体的または部分的に特徴姿勢デコーダ層に関連する損失を表す。カテゴリ配向損失は、カテゴリ配向層（例えば、６４４Ｇ）に関連し、全体的または部分的にカテゴリ配向層に関連する損失を表す。個々の損失のセットの個別の影響を評価するステップについてのさらなる詳細が、図９Ｅを参照して下記に説明されるであろう。

ニューラルネットワークの性能は、９０６Ｄにおいて、少なくとも部分的に、最新のニューラルネットワークまたは推論モデルのベンチマーク結果に基づいて決定されてもよい。いくつかの実施形態では、ニューラルネットワークの性能は、少なくとも部分的に、例えば、ニューラルネットワーク内のパラメータの合計数、画像の単一のフレームに関する浮動小数点演算の合計数、ニューラルネットワークに関する２Ｄ特徴点誤差、任意の他のメトリック、またはそれらの任意の組み合わせに基づいて、ニューラルネットワークをそれらの最新のニューラルネットワークまたは推論モデルと比較することによって決定されてもよい。９０８Ｄにおいて、ニューラルネットワークは、９０８Ｄにおいて、１つ以上のデータセットの少なくとも一部および上記に説明される１ホット標識または標的を伴う交差エントロピ関数等の損失関数を用いて訓練されてもよい。

図９Ｅは、いくつかの実施形態における、図９Ｄに図示されるニューラルネットワークにおけるマルチタスク深層学習の高レベル例示的ブロック図の一部についてのさらなる詳細を図示する。より具体的には、図９Ｅは、図９Ｄの個々の損失のセットの個別の影響を評価するステップについてのさらなる詳細を図示する。これらの実施形態では、特徴点推定に関するメトリックが、９０２Ｅにおいて決定されてもよい。これらの実施形態のうちのいくつかでは、メトリックは、ピクセルにおいて表される推定された特徴点とグラウンドトゥルースとの間のユークリッド距離を備える。

複数の個々のタイプの損失が、９０４Ｅにおいて、訓練スキームに関して識別または決定されてもよい。いくつかの個々のタイプの損失が、９０６Ｅにおいて決定され、訓練スキームにおいて使用されてもよい。個々のタイプの損失は、例えば、セグメンテーション損失、交差エントロピ損失、補助的特徴点損失、深層教師あり特徴点損失、特徴姿勢分類損失、カテゴリ配向損失等を含む。訓練スキームにおいて使用されるように決定された個々の損失は、逆伝搬によってニューラルネットワークの精緻化にフィードバックされるであろう。いくつかの実施形態では、複数の候補訓練スキームが、個々の損失の個別のセットに対応するように決定されてもよい。

ニューラルネットワークは、９０８Ｅにおいて、オプティマイザを用いてある学習率においていくつかのエポックに関する候補訓練スキームにおける決定された数の個々の損失を用いて訓練されてもよく、結果として生じる訓練されたネットワークの損失もまた、対応する選択された個々のタイプの損失を伴う最終訓練スキームを決定するために決定される。いくつかの実施形態では、ニューラルネットワークは、Ａｄａｍオプティマイザを用いて０．００１の学習率で２０回のエポックにわたって訓練される。

人工ニューラルネットワークの観点では、エポックは、全訓練データセットを通した１サイクルを指す。いくつかの実施形態では、ニューラルネットワークを訓練することは、数回を上回るエポックがかかる。エポックは、多くの場合、反復と混同され得る。反復は、１回のエポックを完了するために必要とされる、訓練データのパーティション化されたパケットを通したバッチまたはステップの数である。ヒューリスティックに、１つの動機は、（特に、大きいが、有限の訓練セットに関して）、これが、ネットワークに、以前のデータを確認し、モデルが訓練の間に最後のいくつかのデータ点に向かって偏倚しないようにモデルパラメータを再調節する機会を与えることである。ニューラルネットワークでは、ニューラルネットワークの目標のうちの１つは、概して、正しいか、または誤っているかのいずれかである資料を分類する、または発生させることである。したがって、単一のタスクに対して多くのアクションを実施する実験的エージェントに関するエポックは、同一の性質の多くのタスクに対して単一のアクションを実施しようとするエージェントに関するエポックと異なり得る。強化学習の専門用語では、これは、より典型的には、エピソードと称される。

深層学習ニューラルネットワークは、勾配降下アルゴリズム（例えば、確率的勾配降下最適化アルゴリズム）を使用して訓練されてもよい。学習率は、ニューラルネットワーク加重が更新される度に、推定された誤差に応答して、ニューラルネットワークを変化させる量を制御するハイパーパラメータである。学習率を選定することは、小さすぎる値が、長い訓練プロセスをもたらし得る一方、大きすぎる値が、最適以下の加重のセットを過剰に速く学習すること、または不安定な訓練プロセスをもたらし得るため、困難であり得る。Ａｄａｍ最適化アルゴリズムは、コンピュータビジョンおよび自然言語処理における深層学習用途のために最近広く採用されている、確率的勾配降下の拡張物である。

プロセスは、個々のタイプの損失の異なるセットを伴う異なる候補訓練スキームを決定するために、９０６Ｅに戻ってもよい。最良の性能（例えば、正確度および／または速度の観点から最良の性能）を有する個々のタイプの損失の対応するセットを伴う候補訓練スキームが、訓練スキームとして選択されるであろう。いくつかの実施形態では、選択された訓練スキームは、上記に説明される個々のタイプの損失の全てを包含する。

図９Ｆは、いくつかの実施形態における、図９Ｂに図示されるニューラルネットワークにおけるマルチタスク深層学習の高レベル例示的ブロック図の別の部分についてのさらなる詳細を図示する。より具体的には、図９Ｆは、図９Ｂの９１６Ｂについてのさらなる詳細を図示する。これらの実施形態では、決定が、９２０Ｆにおいて、１つ以上の特徴点が訓練することができないかどうかを決定するために行われてもよい。上記に説明されるように、いくつかの実施形態は、グループ化畳み込みを使用する。デコーダ層が、グループ化畳み込みを使用する、ある場合には、いくつかの特徴点は、デコーダ層のグループ化構造に起因して、訓練することができない場合がある。９０２Ｆにおいて、１つ以上の特徴点が、訓練することができなかったと決定される場合、９０４Ｂにおいて決定された特徴点の第２のサブセットからの１つ以上の特徴点教師ヘッドまたはブランチが、９０４Ｆにおいて、少なくとも部分的に、１つ以上のルールに基づいて、１つ以上の訓練教師ヘッドまたはブランチとして決定されてもよい。

９０４Ｆにおいて訓練教師として１つ以上の特徴点を追加する本ステップは、９０６Ｆにおいて、少なくともある層において教師を伴うニューラルネットワークに関する逆伝搬の少数の反復を実行することによって、勾配プロット（例えば、平均勾配プロット）を発生させるステップを含んでもよい。いくつかの実施形態では、教師は、ニューラルネットワークの最終層に位置する。ニューラルネットワークを訓練するステップは、勾配降下技法を用いた逆伝搬の使用を伴い得るため、中間層の本勾配プロットは、勾配が消失する、または閾値勾配値を下回って下降するいかなる潜在的勾配消失問題も識別するために使用されてもよい。

教師ヘッドまたはブランチが、９０８Ｆにおいて、勾配が閾値勾配値を下回って下降する層（例えば、元々、訓練教師に対応する中間層）の後に追加されてもよい。ルールが、９１０Ｆにおいて、少なくとも部分的に、中間層の勾配値の結果に基づいて発生されてもよい。９０４Ｆにおいて決定された１つ以上の特徴点教師ヘッドまたはブランチを用いて、複数の空間分解能を伴うこれらの１つ以上の特徴点教師ヘッドまたはブランチは、９１２Ｆにおいて、ニューラルネットワーク内の指定された場所に（例えば、９０８Ｆを参照して上記に説明される中間層の後に）追加されてもよい。

図１０Ａは、いくつかの実施形態における、空間情報を保全し、コンピュータビジョンのための受容フィールドを強化する間のマルチタスク深層学習およびニューラルネットワークを用いた意味論の別の高レベル概略ブロック図を図示する。より具体的には、図１０Ａは、空間情報を保全するための空間パスおよび受容フィールドを増加させるためのコンテキストパスを使用し、さらに、空間パスおよびコンテキストパスの個別の出力を特徴融合層を用いて融合することによる意味論的セグメンテーションを図示する。図１０Ａに図示されるこれらの実施形態では、空間情報を保全するステップは、意味論的セグメンテーションのために１００２Ａにおいて受容フィールドを強化するステップから切り離されてもよい。左側のブロック１００４Ａ、１００６Ａ、および１００８Ａは、空間パス処理に関するいくつかの例示的層を図示し、右側のブロック１０１０Ａ、１０１２Ａ、１０１４Ａ、１０１６Ａ、１０２０Ａ、１０２２Ａ、および１０２４Ａは、コンテキストパス処理に関するいくつかの例示的層を図示する。左下隅におけるブロック１０２６Ａ、１０２８Ａ、１０３０Ａ、および１０３２Ａは、特徴融合に関するいくつかの例示的ブロックを図示する。右下隅におけるブロック１０１６Ａ、１０２０Ａ、１０２２Ａ、および１０２４Ａは、いくつかの例示的注意精緻化層を図示する。

図１０Ａに図示される空間パス処理が、例えば、図３－４および５Ａ－５Ｆおよび／または６Ｇに説明されるニューラルネットワークを使用することによって実施され得ることに留意されたい。空間パスに関して、入力データセットが、１００４Ａにおいて、いくつかの層（例えば、畳み込み－バッチ正規化－スケール－整流線形ユニット）を使用して処理されてもよい。これらの層のそれぞれについてのさらなる詳細が、例えば、図３－４および５Ａ－５Ｆおよび／または６Ｇを参照して上記に説明される。

出力特徴マップまたは特徴が、１００６Ａにおいて、１００４Ａにおける前述の層のうちの１つ以上のものから抽出されてもよく、空間パスが、１００８Ａにおいて、抽出された特徴マップまたは特徴に関連する情報を用いてエンコードされてもよい。空間パスまたはその情報／データは、次いで、特徴融合層の層１０２６Ａに転送されてもよく、そこで、空間パスからの出力は、コンテキストパスからのものと連結される。例えば、図６Ｇに説明されるニューラルネットワークでは、空間パスからの出力は、元の入力画像の１／８に対応する。

コンテキストパスに関して、モデルおよびプーリング層が、１０１０Ａにおいて識別されてもよい。いくつかの実施形態では、モデルは、少なくとも部分的に、モデルによって提供される受容フィールドに基づいて選択されてもよい。例えば、Ｘｃｅｐｔｉｏｎモデル等の軽量モデルが、１０１０Ａにおいて識別されてもよい。いくつかの実施形態では、異なるスケールを有する複数のプーリング層が、１０１０Ａにおいて、コンテキスト情報の適応型フィールドを取得するために、スケール適応型畳み込み層によってネットワークを改良するために、画像のコンテキスト（例えば、グローバルコンテキスト）を捕捉するように識別されてもよい。

コンテキスト情報をエンコードするために使用される受容フィールドが、１０１２Ａにおいて、１０１０Ａにおいて識別されたモデルを使用して、特徴マップをダウンサンプリングすることによって決定されてもよい。受容フィールドは、１０１４Ａにおいて、少なくとも１０１０Ａにおいて識別されたモデルの末端にプーリングを追加することによって、モデルのグローバルコンテキスト情報および特徴を用いて強化（例えば、増加）されてもよい。いくつかの実施形態では、モデルの末端に追加されるプーリング層は、例えば、グローバル平均プーリング層、最大プーリング層、ピラミッドプーリング層、アトラス空間ピラミッドプーリング層等を含んでもよい。追加されるべきプーリング層は、少なくとも部分的に、例えば、コンテキストパスの性能とコンピューティングリソース利用との間の平衡に基づいて決定されてもよい。例えば、ピラミッドプーリング層およびアトラス空間ピラミッドプーリング層は、より多くの算出を要求し、より多くのメモリを消費することが公知であり、したがって、より多くのリソースを消費しながら、算出の速度を低下させ得る。

１つ以上のステージからの特徴は、１０１６Ａにおいて、少なくともコンテキストパスにエンコードされ得るグローバルコンテキスト情報を捕捉するために１つ以上のプーリング層を採用することによって、注意精緻化を用いて精緻化されてもよい。例えば、注意ベクトルが、１０２０Ａにおいて、例えば、図６Ｈを参照して上記に説明されるような特徴学習を誘導するために決定されてもよい。１つ以上の出力特徴が、１０２２Ａにおいて、コンテキストパス内の１つ以上のステージにおいて精緻化されてもよく、コンテキストパス情報は、アップサンプリングを伴わずに、１０２４Ａにおいてコンテキストパス内に統合され、エンコードされてもよい。いくつかの実施形態では、１つ以上の補助的損失関数が、１０３６Ａにおいて、コンテキストパスを訓練するために採用されてもよい。

空間パスに関して、主要損失関数（例えば、参照番号９１８Ｃを参照して上記に説明される最終損失または累積損失）が、空間パスの出力および／または特徴融合層の出力を訓練するために採用されてもよい。すなわち、主要損失関数は、いくつかの実施形態では、図１０Ａに図示されるネットワーク全体の連結出力を訓練するために使用されてもよい。いくつかの実施形態では、空間パスおよびコンテキストパスは、ニューラルネットワークを用いた推論における待ち時間を低減させるために、および／または訓練を促進するために、並行して算出および処理される。

いくつかの実施形態では、損失関数は、ソフトマックス損失であってもよい。これらの実施形態は、パラメータアルファ（例えば、いくつかの実施形態では、アルファ＝１）を使用し、主要損失および補助的損失の加重を平衡させ、結合損失を生成し、これは、モデルを最適化するためにオプティマイザをより快適にし得る。

注意精緻化層の出力（例えば、１０２４Ａから）もまた、特徴融合層に転送されてもよい。１０２６Ａにおいて、空間パスからの出力特徴（例えば、１００８Ａから）およびコンテキストパスからの出力特徴（例えば、１０２４Ａから）は、１０２６Ａにおいて連結されてもよい。本連結出力はさらに、１０２８Ａに提供されてもよく、これは、バッチ正規化層を用いていくつかの特徴の異なるスケールを平衡させる。いくつかの実施形態は、１０３０Ａにおいて、連結された特徴を特徴ベクトル（例えば、図６Ｉを参照して上記に説明される注意ベクトル）にプールし、加重ベクトルを決定し、種々の特徴を加重する。これらの実施形態は、次いで、１０３２Ａにおいて、特徴ベクトルおよび加重ベクトルを用いて特徴選択および特徴組み合わせを誘導してもよい。

本明細書に説明されるニューラルネットワークは、いくつかの最新のネットワークに対してベンチマークされる。ベンチマークでは、データセットが、訓練、検証、および試験間の２８：４：８分割を使用する４０人のユーザを備え、合計で２２５，７３３フレームを伴うユーザあたり５，０００以上のフレームを備える。訓練スキームにおいて使用される全ての損失の個別の影響が、アブレーション研究を用いて評価された。ランタイムにおいて、入力画像に対する２Ｄ予測が、並行して処理される深度画像を使用して、ハイブリッド３Ｄに引き上げられる。深度値は、フィルタリングおよびヒューリスティックを使用して、少なくとも識別された２Ｄ特徴点に関して検証される。本明細書に説明されるニューラルネットワークのランタイム性能は、最新のニューラルネットワーク（例えば、ｍｖテンソル）を用いてベンチマークされ、それらの最新のニューラルネットワークに対して少なくとも１２倍の推論速度の改良である、約１６ミリ秒待ち時間を示す。より重要なこととして、ニューラルネットワークにおける待ち時間は、例えば、ウェアラブル電子デバイスを含むモバイル電子デバイスに関して十分である。

図１０Ｂは、いくつかの実施形態における、マルチタスク深層学習を用いたニューラルネットワークにおける多階層エンコーダアーキテクチャの別の高レベル概略ブロック図を図示する。図１０Ｂに図示されるこれらの実施形態では、エンコーダは、階層のシーケンスを含む。階層は、いくつかの実施形態では、ネットワーク内ネットワークの意味での具体的タイプのモジュールである。階層は、前の階層の、随意に、スケーリングされ得る、特徴テンソルを受信する、または第１階層の場合では、入力画像テンソルを受信してもよい。階層は、ユニットの連結されたシーケンスを含む。階層内のいくつかまたは全てのユニットは、同一の出力空間分解能を有してもよい。いくつかの実施形態では、第１のユニットのみが、随意に、例えば、ストライド畳み込みがプーリングの代わりに使用される場合では、入力からの空間分解能を変化させることを可能にされる。これは、いくつかの実施形態では、第１のブロックの内側にストライド２畳み込みを有することによってそのように行う。

ユニットは、ブロックのシーケンスを含む。第１のブロックは、ベースブロックと称され得、これは、いくつかの実施形態では、入力としていかなる残差スキップ接続も含まない場合がある。例えば、階層１は、ストライド２を伴う３×３畳み込み層を含んでもよい。本実施例では、階層１は、畳み込み層である単一の単純なユニットを含む。いくつかの実施形態は、例えば、５×５および／または７×７畳み込みカーネルと、７×１＋１×７分離可能畳み込みとを含んでもよい。これらの畳み込みカーネルおよび畳み込みは、モデル正確度におけるある程度の利得を提供しながら、付加的複雑性および算出を追加し得る。

いくつかの実施形態では、階層２は、より複雑なユニットを含み、これは、図１０Ｂのベースブロック（Ｂ）を含み、残差ブロック（Ｒ１）が続く。いくつかの実施形態は、２つのそのようなユニット（例えば、ユニット１およびユニット２）を連結するが、いくつかの他の実施形態は、３つ以上のユニットを使用してもよい。ユニットは、前のユニットのうちのいくつかまたは全ての出力とともに、第１のユニットへの入力の連結を入力として受信してもよい。これらの実施形態では、階層全体の出力は、そのユニットの全ての連結出力である。第１のユニットへの入力が、階層内のユニットのそれぞれに可視であり得るが、いくつかの実施形態は、階層の最終出力から入力を隠蔽する。これらの実施形態では、図１０Ｂの２つの別個の連結経路である。随意に、その出力から階層の入力を隠蔽しない、いくつかの実施形態では、次いで、これらの実施形態は、２つではなく、単一の連結経路のみを有するようにこれを簡略化してもよい。入力の隠蔽は、いくつかの実施形態では、前の階層からの特徴を単純に精緻化およびサイズ変更するのではなく、より変換性の高い特徴を生成するように階層を促してもよい。

連結されたユニットは、１つ以上の特徴チャネルを出力データテンソルに追加してもよい。いくつかの実施形態では、畳み込み層内の特徴の数は、依然として、恣意的に多くの特徴チャネルを構築し、算出およびモデルパラメータの線形スケーリングのみを生じさせながら、制限され得る。これは、算出費用およびモデルサイズが、畳み込み層のサイズの二乗に比例し得るためであり得る。いくつかの従来のアプローチ（例えば、ＤｅｎｓｅＮｅｔ）と比較して、高密度ではなく（すなわち、ＤｅｎｓｅＮｅｔが「高密度ブロック」と呼ぶものの中の全ての層間は、本発明者らのユニットにほぼ類似する）、いくつかの実施形態は、はるかにより少ない連結された接続を有し、したがって、算出、メモリ、およびパラメータ費用は、連結された接続が疎ら（すなわち、ユニットレベルでのみ）であるため、はるかに低い。

階層３は、ネットワークが最も複雑なユニットを有する場所である。階層３内のユニットは、ベースブロックに加えて、増加する拡張サイズのｋ個の残差ブロックのシーケンスを含んでもよい。いくつかの実施形態では、ｋ個の残差ブロックのシーケンスは、線形に増加する拡張サイズ（例えば、１、２、３、４…等）を有する。図１０Ｂでは、階層３は、ユニット１と、ユニット２とを含み、ユニット１およびユニット２はそれぞれ、いくつかの実施形態では、ベースブロック（Ｂ）に加えて、残差ブロックのシーケンス（Ｒ１＋Ｒ２＋．．．＋Ｒｋ）を含む。いくつかの実施形態では、階層３は、少なくとも部分的に、例えば、選択された検証データセットに対する経験的評価、またはヒューリスティック等に基づいて、４つの残差ブロックを選定している場合がある。いくつかの実施形態では、階層２のベースブロック（Ｂ）、加えて、残差ブロック（Ｒ１）ユニットは、拡張ラダーがｋ＝１を有する、特殊なインスタンスを表す。

いくつかの実施形態では、出力の特徴次元は、より多くのユニットを連結することによって、広げられる、または増加されてもよい。残差ブロックが、いくつかの実施形態では、同一の入力および出力特徴次元を有することを要求し得ることに留意されたい。これらの実施形態では、残差ブロックは、特徴次元（例えば、出力チャネルの数）を広げない、または増加させない場合がある。これらの残差ブロックのうちのいくつかまたは全ては、いくつかの実施形態では、それらの入力を精緻化し、受容フィールドサイズを増加させてもよい（例えば、ラダー内の増加する拡張に起因して、例えば、受容フィールドサイズを急速に増加させる）。これらの実施形態では、拡張ラダーは、加算的であるため、拡張ラダーは、特徴が異なるスケールにおいてロバストにスケーリングされることを可能にする（例えば、特徴が、オブジェクトの見掛けサイズおよび／または近接性に基づいて、異なるＲｋから強い信号を受信してもよい）。

図１０Ｂに図示されるような連結拡張ラダー（ＣＤＬ）アーキテクチャは、いくつかの実施形態では、ブロック構造に依存しない場合がある。例えば、いくつかの実施形態は、ＶＧＧまたはＲｅｓＮｅｔ－３４の（対合された）３×３ブロック構造またはＲｅｓＮｅｔ－５０／１０１／１５２によって使用される１－３－１ボトルネックブロック構造、およびある形態のＩＩＲＣであるオリジナルネットワーク内ネットワーク（ＮｉＮ）を含む、以前のアーキテクチャを採用してもよい。また、前述の「１－３－１」は、いくつかの実施形態では、（各畳み込み層の後にチャネル毎の様式で適用されるＲｅＬＵ等の活性化関数の有無を問わず）１×１畳み込みを含み、３×３畳み込みが続き、１×１畳み込みが続く。これらの実施形態では、活性化（例えば、ＲｅＬＵ）は、３×３畳み込みの後に適用されてもよい。これらの実施形態のうちのいくつかは、１×１層の後に整流を適用しない。

いくつかの実施形態は、主に、ボトルネック比が１である１－３ｇ－１ボトルネックブロックを使用してもよい。ボトルネック比が、随意に、１を下回る（例えば、「チャネルスクイージング」）、または１を上回り得る（例えば、「反転／チャネル拡大」）ことに留意されたい。前述の「１－３ｇ－１」における「ｇ」は、グループ化係数が、畳み込み層の中へのチャネルの数（Ｃ）をカーネル深度（ｋｄ）で除算したものに設定され得る、「グループ化畳み込み」の略であり、これは、各畳み込みカーネルのカーネル深度が、ｋｄに等しくなることをもたらし、ｋｄは、いくつかの実施形態では、検証モデル性能対算出費用に応じて、１、２、または４のいずれかに設定される。本グループ化は、グループ化が、３×３畳み込み層の費用を、二次的ではなく、いくつかの実施形態では、入力および出力チャネルの数が残差ブロックに関して同一であることに起因して、チャネルの数に対して線形に増大させるため、算出費用およびモデルサイズを制御する際に使用されてもよい。３×３層は、より空間的な受容フィールドおよび／またはモデルパワーが所望されるいくつかの実施形態では、より広いｋ×ｋ（式中、ｋ＞３）畳み込みカーネルに拡大されてもよい。カーネル深度は、ある小さい定数に固定され得るため、畳み込み層を拡大することは、従来のアプローチ（ＶＧＧまたはＲｅｓＮｅｔ－５０／１０１／１５２型式ネットワーク）においてそうであろうように、算出費用またはモデルサイズを劇的に増加させない場合がある。

階層２ユニット１ベースブロック等のある場合には、タイプ３ｇ－１の「半ボトルネックブロック」が、算出費用対全１－３ｇ－１ボトルネックブロックを低減させるために使用されてもよい。半ボトルネックブロックは、タイプ「３ｇ－１」（１×１畳み込みが続く３×３グループ化畳み込み）または「１－３ｇ」（３×３グループ化畳み込みが続く１×１畳み込み）のいずれかを含む。これらの半ボトルネックブロックは、ほんのわずかだけ劣るモデル性能のみを犠牲にして、算出費用、メモリ、およびモデルパラメータを節約し得る。いくつかの実施形態は、訓練後スパース化を適用し（例えば、ネットワークの十分に小さい加重をゼロにし）、例えば、概して、モデル検証性能に悪影響を及ぼさない、５０％スパース化を達成してもよい。これは、いくつかの実施形態では、畳み込み層へのスケールおよびバッチノルム層の折畳およびｆｐ３２からｆｐ１６への加重の変換に加えて実施されてもよい。

プーリング層が、階層の間に採用されてもよい。いくつかの実施形態では、ストライド２最大プーリング層が、階層１と階層２との間に採用されてもよい。いくつかの他の実施形態は、少なくとも部分的に、例えば、プーリング変形の効率的な埋込実装の可用性に基づいて、重複プーリング（例えば、３×３ウィンドウ）または非重複（例えば、２×２ウィンドウ）プーリングのいずれかを採用する。重複（３×３／ｓ２）プーリングは、より正確であるが、わずかにより高価であり得る。

平均プーリング層が、いくつかの実施形態では、階層２と３との間に採用されてもよい。これらの実施形態における平均プーリングの使用は、経験的に見出されるように、ある場合では、優れたモデル性能を生成している。最大プーリングと平均プーリングとの間の選定は、例えば、いくつかの実施形態では、検証データセットに対する評価によって決定されてもよい。

いくつかの他の実施形態では、プーリング層のうちの１つ以上のものが、排除されてもよい。これらの実施形態は、ストライド２畳み込みをその第１のユニットの第１のブロック内の後続階層に適用してもよい。１－３ｇ－１ボトルネックブロックが使用される、いくつかの実施形態では、グループ化３×３畳み込み層が、ストライド２にされてもよい。

いくつかの実施形態では、例えば、前述の図に図示されるように、階層３は、各ユニット内に拡張ラダーを含む。図では、残差１は、１の拡張に対応し、残差２は、２の拡張に対応し、残差３は、３の拡張に対応し、残差４は、４の拡張に対応する。階層３は、８つのグループを含んでもよい。１つ以上のＤｅｎｓｅＮｅｔブロックが、階層２および階層３内で使用されてもよく、２つのＣｏｎｖ－ＢＮ－Ｓ－ＲｅＬＵモデルユニットが、逐次算出を低減させるために、４つの従来のユニットの代わりに使用されてもよい。いくつかの実施形態では、より少ないチャネルが、例えば、階層１の後の１６個のチャネル、階層２の後の３２個のチャネル、および階層３の後の６４個のチャネルを用いて並列算出を低減させるために使用されてもよい。さらに、拡張された畳み込みが、比較的に浅いネットワークの受容フィールドを増加させるために、階層３内で使用されてもよい。当業者は、異なる数のチャネルが、階層（例えば、階層１、階層２、および階層３）のそれぞれの後に使用され得ることを理解するであろう。

これらの実施形態のうちのいくつかでは、１６チャネル出力が、左手特徴点予測のための８チャネルおよび右手特徴点予測のための８チャネルとして分割されてもよい。いくつかの実施形態では、最後の逆畳み込み層は、除去されてもよく、最後の畳み込み層は、１６個のチャネルの代わりに、３２個のチャネルを生成するように構成されてもよく、したがって、最後の層は、ここでは、１６個の出力チャネルではなく、３２個の出力チャネルを有し、出力が、入力画像のものの半分の分解能において生成される。これらの実施形態では、双線形アップサンプリングが、全分解能を復元するために採用されてもよい。双線形アップサンプリングの代替として、いくつかの実施形態は、大まかな特徴点ヒートマップの最も高い応答領域（または１つ以上のより高い応答領域）上に遅延して適用される、学習されたアップサンプリングカーネルを採用してもよい。これらの後者の実施形態のうちのいくつかでは、３２チャネル出力は、左手特徴点のための１５個のチャネル、右手特徴点のための１５個のチャネル、およびランタイムセグメンテーションを有効または無効にするために保留される２つのセグメンテーションチャネルとして分割されてもよい。いくつかの実施形態では、様々な数の標識化された特徴点（例えば、最大２６個の標識化された特徴点）を有するデータの寄せ集めが、これらの付加的特徴点を使用し、補助的特徴点教師を提供するために、ニューラルネットワークに採用されてもよい。

いくつかの実施形態では、グループ化畳み込みが、算出を低減させるように、階層１以外に採用／使用されてもよい。例えば、４のグループ化係数が、階層２内で使用されてもよく、８のグループ化係数が、階層３内で使用されてもよい。いくつかの実施形態では、エンコーダが、性能における利得の大部分に関与してもよく、デコーダを変化させることは、わずかばかりのみ性能に影響を及ぼし得る。いくつかの実施形態では、特徴点デコーダが、非常に少なくてもよく、全ての畳み込みは、チャネル毎である（例えば、グループの数が、チャネルの数に等しくてもよい）。

いかなるグループ化も伴わないと、畳み込み層内のカーネルは、Ｙ×Ｘ×Ｃであり得、式中、Ｃは、チャネルの数を表す。Ｃが３２であり、ＹおよびＺが３である、いくつかの実施形態では、畳み込み層のカーネルは、３×３×３２である。しかしながら、グループ化が、存在し、例えば、８つのグループを伴う場合、畳み込み層のカーネルは、８つのグループを伴うグループあたり３×３×４であり、全ては、並行して行われてもよい。

階層３の出力におけるＣｏｎｖＴアップサンプルは、第１のＣｏｎｖＴアップサンプルと称され得、第１のＣｏｎｖＴアップサンプルの出力におけるＣｏｎｖＴアップサンプルは、第２のＣｏｎｖＴアップサンプルと称され得、第２のＣｏｎｖＴアップサンプルの出力におけるＣｏｎｖＴアップサンプルは、第３のＣｏｎｖＴアップサンプルと称され得る。第３のＣｏｎｖＴアップサンプルの出力は、入力画像または修正された入力画像と同一の分解能である。各ＣｏｎｖＴアップサンプルは、逆畳み込みと、畳み込みと、逆畳み込みとを含んでもよい。各ＣｏｎｖＴアップサンプルは、最大限にグループ化されてもよい。

いくつかの実施形態では、第３のＣｏｎｖＴアップサンプルは、双線形アップサンプルと置換されてもよい。双線形アップサンプルの出力は、入力画像または修正された入力画像と同一の分解能である。訓練実装では、双線形アップサンプルは、全分解能を生成し得るが、しかしながら、これは、埋込実装において必要ではない場合がある。例えば、埋込実装における双線形アップサンプルを用いて、推定された特徴点が存在する部分のみが、アップサンプリングされてもよい。

本明細書に開示されるネットワークアーキテクチャの埋込実装は、算出／メモリオーバーヘッドおよびエネルギー消費を低減させるように慎重に設計されてもよい。例えば、Ｍｙｒｉａｄ２ＶＰＵが、６００ＭＨｚにおいて起動し、ＳＨＶと呼ばれる１２個のＶＬＩＷ算出コアを提供する。典型的な作業負荷下で、Ｍｙｒｉａｄ２チップの合計電力消費は、２Ｗ未満である。各ＳＨＶは、２ＭＢオンチップＳＲＡＭから１２８ＫＢ作業メモリスライスを配分される。いくつかの実施形態では、ジェスチャＤＮＮが、単一のＳＨＶを使用して、リアルタイム４５フレーム毎秒（ＦＰＳ）手追跡およびジェスチャ認識を実施してもよい。

いくつかの実施形態では、従来の実装を使用することは、いくつかの理由、すなわち、（ａ）典型的な深層学習フレームワークが、非常にメモリ効率が低い方法で畳み込みを大きい行列乗算に変換し、（ｂ）入力データテンソルが、典型的には、ベクトル化のために非効率的であるチャネル平面フォーマットにおいて記憶され、（ｃ）カーネルサイズが、多くの場合、ベクトル命令幅の倍数ではなく、（ｄ）拡張された畳み込みの既製の実装が、かなりの算出オーバーヘッドを有するため、これらの最小化を困難にする。

これらの課題に対処するために、畳み込みが、ドット積に低減され、出力チャネルが、次の層／階層に関してインターリーブされたフォーマットにおいて自動的にエンコードされるように、入力データチャネルが、ベクトル命令順序付けと整合するように各畳み込み層に再順序付けされ、インターリーブされてもよく、カーネルスタックが、同時に再順序付けされてもよい。さらに、畳み込み層が、グループあたりのフィルタの数が、レジスタレーンの倍数であり、その結果、ベクトルレジスタ利用を最大限にするように、グループ化されてもよい。またさらに、櫛型設計が、拡張された畳み込みのために使用されてもよく、オンチップメモリフットプリントを最小限にする。例えば、拡張＝２に関して、畳み込みは、４つの独立したフィールド毎の算出（偶数行－偶数列、偶数－奇数等）に分割されてもよく、これは、独立して算出され、出力に応じて再組み合わせされる。拡張された畳み込みは、したがって、ゼロの有効オーバーヘッドにおいて算出されてもよい。

マルチタスク学習パラダイムが、２Ｄ特徴点予測に対する主な焦点を維持しながら、複数のネットワーク予測および損失関数を採用することによって、訓練プロシージャにおいて採用されてもよい。推論時間において、主要エンコーダおよびデコーダのみが、デバイス上で起動するネットワークの部分である。

１ホット標識を伴う交差エントロピが、Ｎ^＊２個の特徴点（手あたりＮ個の特徴点）のそれぞれを予測するために使用されてもよい。初期層における積極的なダウンサンプリングは、低ネットワーク容量と相まって、従来の平均二乗損失（ＭＳＥ）損失を無効にする。交差エントロピは、より強い勾配信号を有し、はるかに効果的である。いくつかの実施形態では、標識平滑化は、観察可能な性能利得につながらない場合がある。

手あたりＭ個の特徴点標識が存在することを前提として、付加的特徴点（Ｍ～Ｎ）が、それらが、最終推論モジュールの一部ではないにもかかわらず、訓練教師として／それにおいて使用されてもよい。デコーダが、完全にグループ化される際、いくつかの特徴点は、全てともに訓練できない場合がある。いくつかの実施形態では、補助的特徴点のためのデコーダは、浮動的特徴点を回避し、エンコーダの後の特徴テンソルを正則化するように、グループ化されない。

いくつかの実施形態では、バイナリ特徴点および手可視性マスクが、３つの目的を果たし、すなわち、訓練を安定させ、推論の間にオクルードされた特徴点および不可視の手を抑制し、推論の間に早期の出力を可能にし、待ち時間を低減させる。バイナリ交差エントロピ損失が、これらのタスクを訓練するために使用されてもよい。

いくつかの実施形態では、収集されたデータ（例えば、訓練データ）が、掌を向けたデータに対して大きく偏り、訓練されたモデルが掌を向けたデータに対して十分に機能しない場合がある。これに対処するために、予測は、カテゴリ手配向損失を使用して正則化されてもよい。手の回外または回内から生じ得る８つのカテゴリの手配向が、標識化されてもよい。カテゴリは、近似的であるため、標識は、軟化されてもよく、交差エントロピ損失が、これらのタスクを訓練するために使用されてもよい。

手姿勢は、９つの離散的クラス、すなわち、オーケー、開いた手、つまむこと、Ｃ姿勢、握り拳、Ｌ姿勢、指さし、親指を立てること、および全ての他の姿勢を捕捉するダミークラスに分類されてもよい。交差エントロピ損失が、離散的手姿勢分類を訓練するために使用されてもよい。

ＢｉｓｅＮｅｔのアーキテクチャを受けて、本明細書に開示されるネットワークアーキテクチャは、コンテキストパスとして使用され、ＢｉｓｅＮｅｔに類似する空間パスを訓練時間アーチファクトとして使用し、手から飛び出す特徴点を正則化する有用な教師を提供してもよい。ネットワークは、ピクセル毎の交差エントロピ損失を使用して、３つのクラス、すなわち、背景、左手、および右手をセグメント化するように訓練されてもよい。

特徴点が、多くの場合、デコーダのグループ化構造に起因して訓練することができないことが観察され得る。以下は、深層教師を用いてより深層の畳み込みネットワークを訓練するステップである。付加的特徴点教師ヘッドが、異なる空間分解能を伴う３つの中間層、すなわち、主要エンコーダの階層３（全分解能の１／８）、第１のアップサンプリングブロック（全分解能の１／４）、第２のアップサンプリングブロック（全分解能の１／２）、および第３のアップサンプリングブロック（全分解能）の後に追加されてもよい。いくつかの実施形態では、これは、訓練を安定させ、訓練のためのより良好な勾配フローを促進する。

最終損失は、全ての個々のタスク損失、すなわち、主要特徴点損失Ｌｋｐ、補助的特徴点損失Ｌａｋｐ、特徴点および手可視性損失Ｌｋｐｈｖ、カテゴリ手配向損失Ｌｃｈｏ、離散的手姿勢損失Ｌｄｈｐ、セグメンテーション損失Ｌｓｅｇ、深層教師損失Ｌｄｓの加重和である。

タスク加重が、予測が、全て同一のスケールであるわけではないため、異なる損失を加重するために使用されてもよい。異なるタスクに関する加重は、ヒューリスティックに導出されたが、勾配正規化を使用する適応的加重と置換されることができる。全てのタスク損失および対応する加重を伴う全訓練損失が、方程式１の実施例に示される。
例えば、方程式１において、ｗｋｐ＝１、ｗａｋｐ＝１、ｗｋｐｈｖ＝２０、ｗｃｈｏ＝２０、ｗｄｈｐ＝１０、ｗｓｅｇ＝５０、ｗｄｓ＝１である。

ネットワークが、他の特徴点と比較したとき、指先を予測することがより困難であると見出すことが、経験的に観察され得る。これは、ＬｋｐおよびＬａｋｐを計算しながら、指先に関する損失を倍増することによって対処されてもよい。

本開示の種々の例示的実施形態が、本明細書に説明される。非限定的な意味で、これらの実施例が、参照される。実施例は、本発明のより広く適用可能な側面を例証するように提供される。種々の変更が、本明細書に説明される種々の実施形態に行われてもよく、均等物が、本発明の真の精神および範囲から逸脱することなく、代用されてもよい。加えて、多くの修正が、特定の状況、材料、物質組成、プロセス、プロセス行為、またはステップを本発明の目的、精神、または範囲に適合させるように行われてもよい。さらに、当業者によって理解されるであろうように、本明細書に説明および例証される個々の変形例はそれぞれ、本発明の範囲または精神から逸脱することなく、他のいくつかの実施形態のうちのいずれかの特徴から容易に分離され、またはそれらと組み合わせられ得る、離散コンポーネントおよび特徴を有する。全てのそのような修正は、本開示と関連付けられる請求項の範囲内にあることを意図している。

本開示は、本主題のデバイスを使用して実施され得る方法を含む。本方法は、そのような好適なデバイスを提供する行為を含んでもよい。そのような提供は、エンドユーザによって実施されてもよい。言い換えると、「提供する」行為は、単に、エンドユーザが、本主題の方法において必須デバイスを提供するように、取得する、アクセスする、接近する、位置付ける、設定する、アクティブ化する、電源を入れる、または別様に作用することを要求する。本明細書に列挙される方法は、論理的に可能である列挙された事象の任意の順序で、および事象の列挙された順序で実行されてもよい。

本発明の例示的側面が、材料選択および製造に関する詳細とともに、上記に記載されている。本発明の他の詳細に関して、これらは、上記に参照された特許および出版物に関連して理解され、加えて、概して、当業者によって把握または理解され得る。一般的または論理的に採用されるような付加的な行為の観点から、本発明の方法ベースの側面に関して、同じことが当てはまり得る。

加えて、本発明は、種々の特徴を随意に組み込むいくつかの実施例を参照して説明されたが、本発明は、本発明の各変形例に関して想定されるように説明される、または示されるものに限定されるものではない。種々の変更が、説明される本発明に行われてもよく、均等物（本明細書に列挙されるか、またはある程度簡潔にするために含まれないかにかかわらず）が、本発明の真の精神および範囲から逸脱することなく、代用されてもよい。加えて、値の範囲が提供される場合、その範囲の上限と下限との間の全ての介在する値、およびその記載される範囲内の任意の他の記載される、または介在する値が、本発明内に包含されることを理解されたい。

また、説明される本発明の変形例の任意の随意の特徴が、独立して、または本明細書に説明される特徴のうちのいずれか１つ以上のものと組み合わせて、記載および請求され得ることが想定される。単数形のアイテムの言及は、複数の同一のアイテムが存在する可能性を含む。より具体的には、本明細書および本明細書に関連付けられる請求項に使用されるように、単数形「ａ」、「ａｎ」、「ｓａｉｄ（該）」、および「ｔｈｅ」は、別様に具体的に記載されない限り、複数指示物を含む。言い換えると、冠詞の使用は、上記の説明および本開示と関連付けられる請求項において、本主題のアイテムの「少なくとも１つ」を可能にする。さらに、そのような請求項が、任意の随意の要素を除外するように起草され得ることに留意されたい。したがって、本文言は、請求項要素の列挙に関連して、「単に」、「のみ」、および同等物等の排他的専門用語の使用、または「否定的」制限の使用のために、先行詞としての機能を果たすことを意図している。

そのような排他的専門用語を使用することなく、本開示と関連付けられる請求項における用語「～を備える」は、所与の数の要素がそのような請求項に列挙されるか、または特徴の追加がそのような請求項に記載される要素の性質の変換として見なされ得るかにかかわらず、任意の付加的な要素の包含を可能にするものとする。本明細書に具体的に定義される場合を除いて、本明細書に使用される全ての技術および科学用語は、請求項の有効性を維持しながら、可能な限り広い一般的に理解される意味を与えられるものである。

本発明の範疇は、提供される実施例および／または本主題の明細書に限定されるものではなく、むしろ、本開示と関連付けられる請求項の言語の範囲のみによって限定されるものである。

例証される実施形態の上記の説明は、排他的であること、または実施形態を開示される精密な形態に限定することを意図していない。具体的実施形態および実施例が、例証目的のために本明細書に説明されるが、種々の同等の修正が、当業者によって認識されるであろうように、本開示の精神および範囲から逸脱することなく、行われることができる。種々の実施形態の本明細書に提供される教示は、必ずしも、概して、上記に説明される例示的ＡＲシステムではなく、仮想またはＡＲまたはハイブリッドシステムを実装する、および／またはユーザインターフェースを採用する、他のデバイスにも適用されることができる。

例えば、前述の詳細な説明は、ブロック図、概略図、および実施例の使用を介して、デバイスおよび／またはプロセスの種々の実施形態を記載している。そのようなブロック図、概略図、および実施例が、１つ以上の機能および／または動作を含有する限り、そのようなブロック図、フローチャート、または実施例内の各機能および／または動作が、個々におよび／または集合的に、広範囲のハードウェア、ソフトウェア、ファームウェア、または事実上任意のそれらの組み合わせによって実装され得ることが、当業者によって理解されるであろう。

一実施形態では、本主題は、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）等を介して実装されてもよい。しかしながら、当業者は、本明細書に開示される実施形態が、全体的または部分的に、１つ以上のコンピュータによって実行される１つ以上のコンピュータプログラムとして（例えば、１つ以上のコンピュータシステム上で起動する１つ以上のプログラムとして）、１つ以上のコントローラ（例えば、マイクロコントローラ）によって実行される１つ以上のプログラムとして、１つ以上のプロセッサ（例えば、マイクロプロセッサ）によって実行される１つ以上のプログラムとして、ファームウェアとして、または事実上任意のそれらの組み合わせとして、標準的集積回路内に同等に実装され得、ソフトウェアおよび／またはファームウェアのための回路の設計および／またはコードの書込が、本開示の教示に照らして、明確に当業者の技能の範囲内にあるであろうことを認識するであろう。

論理が、ソフトウェアとして実装され、メモリ内に記憶されると、論理または情報は、任意のプロセッサ関連システムまたは方法による使用またはそれに関連する使用のために、任意の非一過性コンピュータ可読媒体上に記憶されることができる。本開示の文脈では、メモリは、コンピュータおよび／またはプロセッサプログラムを含有または記憶する、電子、磁気、光学、または他の物理的デバイスまたは手段である、コンピュータ可読媒体である。論理および／または情報は、命令実行システム、装置、またはデバイスから命令をフェッチし、論理および／または情報と関連付けられる命令を実行し得る、コンピュータベースのシステム、プロセッサ含有システム、または他のシステム等の命令実行システム、装置、またはデバイスによる使用またはそれに関連する使用のために、任意のコンピュータ可読媒体において具現化されることができる。

本明細書の文脈では、「非一過性コンピュータ可読媒体」は、命令実行システム、装置、および／またはデバイスによる使用またはそれに関連する使用のために、論理および／または情報と関連付けられるプログラムを記憶し得る、任意の要素であってもよい。コンピュータ可読媒体は、例えば、限定ではないが、電子、磁気、光学、電磁、赤外線、または半導体システム、装置、またはデバイスであり得る。コンピュータ可読媒体のより具体的な実施例（非包括的リスト）は、以下、すなわち、ポータブルコンピュータディスケット（磁気、コンパクトフラッシュカード、セキュアデジタル、または同等物）、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、消去可能プログラマブル読取専用メモリ（ＥＰＲＯＭ、ＥＥＰＲＯＭ、またはフラッシュメモリ）、ポータブルコンパクトディスク読取専用メモリ（ＣＤＲＯＭ）、デジタルテープ、および他の非一過性媒体を含むであろう。

本明細書に説明される方法のうちの多くは、変形例とともに実施されることができる。例えば、本方法のうちの多くは、付加的行為を含む、いくつかの行為を省略する、および／または例証または説明されるものと異なる順序で行為を実施してもよい。上記に説明される種々の実施形態は、さらなる実施形態を提供するために組み合わせられることができる。それらが本明細書の具体的教示および定義と矛盾しない限り、米国特許、米国特許出願公開、米国特許出願、外国特許、外国特許出願、および非特許刊行物は全て、本明細書に言及される、および／または出願データシートに列挙される。実施形態の側面は、必要な場合、またさらなる実施形態を提供するために、種々の特許、出願、および公開のシステム、回路、および概念を採用するために、修正されることができる。

これらおよび他の変更が、上記に詳述される説明に照らして、実施形態に行われることができる。一般に、以下の請求項では、使用される用語は、請求項を、本明細書および請求項に開示される具体的実施形態に限定するように解釈されるべきではなく、そのような請求項が享受する均等物の全範囲とともに、全ての可能性として考えられる実施形態を含むように解釈されるべきである。故に、請求項は、本開示によって限定されない。

また、上記に説明される種々の実施形態は、さらなる実施形態を提供するために組み合わせられることができる。実施形態の側面は、必要である場合、またさらなる実施形態を提供するために、種々の特許、出願、および公開の概念を採用するために、修正されることができる。

Claims

ニューラルネットワークの埋込実装を伴うモバイル電子デバイスであって、
モバイル通信デバイスと、
マシンビジョンのためのマルチタスク深層学習パラダイムにおけるニューラルネットワークの埋込実装と
を備え、
前記埋込実装における前記ニューラルネットワークは、
複数のスーパーハイビジョン（ＳＨＶ）プロセッサまたはプロセッサコアを有するビジョン処理ユニットと、
エンコーダであって、前記エンコーダは、第１階層と、第２階層と、第３階層とを備え、各階層は、個別の数のユニットブロックを備え、各後続の階層は、直前の階層から個別の出力を受信し、前記直前の階層より高いネットワーク複雑性を有する、エンコーダと
を備え、
前記ニューラルネットワークの前記埋込実装は、
前記エンコーダに動作可能に結合される可視性デコーダ層であって、前記可視性デコーダ層は、前記エンコーダから受信されたエンコーダ出力と前記可視性デコーダ層のバイナリ交差エントロピ損失とに少なくとも部分的に基づいて、１つ以上のマスクを決定するために使用される、可視性デコーダ層と、
前記エンコーダに動作可能に結合される特徴姿勢デコーダ層であって、前記特徴姿勢デコーダ層は、前記エンコーダから前記エンコーダ出力を受信するために使用され、前記埋込実装への入力における１つ以上の特徴点から予測される特徴姿勢の分類損失に対応する、特徴姿勢デコーダ層と、
前記エンコーダに動作可能に結合される配向デコーダ層であって、前記配向デコーダ層は、前記エンコーダから受信された前記エンコーダ出力と前記配向デコーダ層のカテゴリ配向損失とに少なくとも部分的に基づいて、前記埋込実装による予測を正則化するために使用される、配向デコーダ層と
を備える、モバイル電子デバイス。
第１階層ユニットは、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、
前記第１階層ユニットは、前記スケール層に論理的に続く整流線形ユニットをさらに備え、
前記第２階層は、グループ化畳み込みを含むボトルネックブロックまたは半ボトルネックブロックを備え、
前記複数のＳＨＶプロセッサまたはプロセッサコアのうちの少なくとも１つは、前記ニューラルネットワークが、複数の命令を明示的に規定し、前記複数の命令を逐次的に実行するのではなく並行して実行することを可能にする、請求項１に記載のモバイル電子デバイス。
前記第２階層は、第１の第２階層ユニットと、第２の第２階層ユニットとを備え、
前記第１階層は、１つ以上の第１階層ユニットブロックをさらに備える第１階層ユニットを備え、
前記第２階層は、第１の第２階層ユニットを備え、
前記第１の第２階層ユニットは、前記第１階層から第１階層出力を受信し、第１の第２階層第１ユニットブロックと、第２の第２階層第１ユニットブロックとを備え、
前記第１の第２階層第１ユニットブロックおよび前記第２の第２階層第１ユニットブロックは両方とも、それぞれ、対応するバッチ正規化層を備え、対応するスケール層が続き、対応する整流線形ユニットがさらに論理的に続き、
前記第１の第２階層第１ユニットブロック内の前記対応するバッチ正規化層は、第１の畳み込み層に論理的に続き、
前記第２の第２階層第１ユニットブロック内の前記対応するバッチ正規化層は、第２の畳み込み層に論理的に続き、
前記第１の畳み込み層は、前記第２の畳み込み層と異なる、請求項１に記載のモバイル電子デバイス。
前記第２の第２階層ユニットは、第２の第２階層第１ユニットブロックおよび第１階層出力から連結出力を受信する第１の第２階層第２ユニットブロックと、第２の第２階層第２ユニットブロックと、第３の第２階層第２ユニットブロックとを備え、
前記第１の第２階層第２ユニットブロック、前記第２の第２階層第２ユニットブロック、および、前記第３の第２階層第２ユニットブロックは、それぞれ、前記バッチ正規化層を備え、前記スケール層が続き、前記整流線形ユニットがさらに論理的に続き、前記第１の第２階層第２ユニットブロック内の前記バッチ正規化層は、前記第２の畳み込み層に論理的に続き、
前記第２の第２階層第２ユニットブロック内の前記バッチ正規化層は、前記第１の畳み込み層に論理的に続き、
前記第３の第２階層第２ユニットブロック内の前記バッチ正規化層は、前記第２の畳み込み層に論理的に続き、
前記第３の第２階層第２ユニットブロックは、第２階層出力を発生させるように構成される、請求項３に記載のモバイル電子デバイス。
少なくとも、１つ以上の第１の係数を用いて前記第２階層を構成することおよび１つ以上の第２の係数を用いて前記ニューラルネットワークの前記第３階層を構成することによって、分解能または被覆率の損失を伴わずに前記ニューラルネットワークの受容フィールドを非線形的に拡大することをさらに含み、
前記１つ以上の第１の係数および前記１つ以上の第２の係数は、前記ニューラルネットワークの前記受容フィールドの拡大の非線形性を共同で定義し、
前記第１階層によって発生された第１階層出力が、前記第２階層によって発生された第２階層出力と連結され、第３階層入力として前記第３階層に提供され、
前記第３階層は、第１の第３階層ユニットと、第２の第３階層ユニットとを備え、
前記第１の第３階層ユニットは、個別の第１ユニット階層的レベルに位置する複数の第３階層第１ユニットブロックを備え、
前記複数の第３階層第１ユニットブロックのうちの少なくともいくつかは、１つを上回る第１の拡張係数に対応する異なる拡張された畳み込み層を備える、請求項１に記載のモバイル電子デバイス。
前記第２の第３階層ユニットは、個別の第２ユニット階層的レベルに位置する複数の第３階層第２ユニットブロックを備え、前記複数の第３階層第２ユニットブロックのうちの少なくともいくつかは、１つを上回る第２の拡張係数にそれぞれ対応する複数の拡張された畳み込み層を備え、前記複数の第３階層第１ユニットブロックおよび前記複数の第３階層第２ユニットブロックは、深層学習パラダイムにおける前記ニューラルネットワークの少なくとも前記エンコーダを訓練するために、少なくとも１つの個別の拡張された畳み込み層と、複数の個別の残差ブロックとを備える、請求項５に記載のモバイル電子デバイス。
第２階層出力が、第３階層入力として前記第３階層に提供され、ニューラル出力のための最終連結出力として前記第３階層によって発生された第３階層出力とさらに連結され、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくとも前記エンコーダを訓練することは、少なくとも活性化層および前記バイナリ交差エントロピ損失を使用して、１つ以上の損失を逆伝搬することを含む、請求項５に記載のモバイル電子デバイス。
前記エンコーダからエンコーダ出力を受信するために、前記エンコーダに動作可能に結合されるデコーダをさらに備え、少なくとも前記埋込実装における前記第２階層および前記第３階層は、前記埋込実装の出力における分解能を維持する一方で逆畳み込み層を含まないように構成される、請求項１に記載のモバイル電子デバイス。
前記埋込実装における前記ニューラルネットワークは、カーネルスタックを同時に再順序付けする、請求項１に記載のモバイル電子デバイス。
前記埋込実装における前記ニューラルネットワークが、前記ニューラルネットワークの複数の畳み込み層を１つ以上のグループに、前記１つ以上のグループのグループにおけるフィルタの数がＳＨＶプロセッサまたはプロセッサコアのレーンの複数の合計数に等しいように、グループ化することをさらに含み、前記ＳＨＶプロセッサまたはプロセッサコアは、プロセッサ命令において１つ以上のデータ要素を処理するために前記レーンの合計数の中で分割されるレジスタの合計数を備える、請求項１に記載のモバイル電子デバイス。
前記埋込実装は、
前記埋込実装の前記ニューラルネットワークにおける低レベル情報またはデータをエンコードするために構成される空間パスと、
前記埋込実装の前記ニューラルネットワークにおける高レベル情報またはデータをエンコードするために構成されるコンテキストパスと
をさらに備え、
前記空間パスは、第１の出力を発生させるように構成され、
前記コンテキストパスは、第２の出力を発生させるように構成され、
前記高レベル情報またはデータは、グローバルコンテキスト情報を備え、
前記低レベル情報またはデータは、前記高レベル情報またはデータよりもさらなる詳細を備える、請求項１に記載のモバイル電子デバイス。
前記埋込実装は、
前記空間パスからの前記第１の出力に関連する第１のデータを前記コンテキストパスからの前記第２の出力に関連する第２のデータと連結し、連結出力にする融合ブロックと、
前記連結出力の連結データにおける複数のスケールを平衡させる正規化ブロックと
をさらに備える、請求項１１に記載のモバイル電子デバイス。
前記埋込実装は、行為のセットを実施するように構成され、前記行為のセットは、
前記空間パスから前記第１の出力を受信することと、
複数のダウンサンプリング層を通して前記空間パスの前記第１の出力を処理し、前記空間パスのためのダウンサンプリングされた出力を生産することと
を含み、
各ダウンサンプリング層は、個別のダウンサンプリング率に対応し、各後続のダウンサンプリング層は、直前のダウンサンプリング層を上回るダウンサンプリング率を有する、請求項１２に記載のモバイル電子デバイス。
前記埋込実装は、行為のセットを実施するようにさらに構成され、前記行為のセットは、
前記複数のダウンサンプリング層の最後のダウンサンプリング層の次からの第１のダウンサンプリングされた出力を最後のダウンサンプリング層および第１の注意層に伝送することと、
前記第１の注意層が、第１の注意層出力を発生させることと、
前記複数のダウンサンプリング層の前記最後のダウンサンプリング層からの第２のダウンサンプリングされた出力を第２の注意層に伝送することと、
前記第２の注意層が、第２の注意層出力を発生させることと、
第１の注意出力および第２の注意出力を連結のために前記融合ブロックに伝送することと
をさらに含む、請求項１３に記載のモバイル電子デバイス。
前記第１および第２の注意層は、それぞれ、アップサンプリングすることなく、コンテキストデータを捕捉し、前記ニューラルネットワークの予測を精緻化する、請求項１４に記載のモバイル電子デバイス。
前記埋込実装は、プーリング層をさらに備え、前記プーリング層は、前記連結出力の前記連結データのための加重ベクトルを決定し、組み合わせられた連結データへの前記連結データのうちの少なくともいくつかの選択および組み合わせのために前記連結データを再加重する、請求項１２に記載のモバイル電子デバイス。
前記埋込実装は、
前記組み合わせられた連結データを入力として受信し、前記入力に少なくとも部分的に基づいて第１の畳み込み出力を発生させるように構成される第１の畳み込み層と、
前記畳み込み層から前記畳み込み出力を受信し、前記空間パスおよび前記コンテキストパスによって発生された前記畳み込み出力からの複数のスケールを平衡させ、正規化された出力を発生させるように構成される正規化層と、
前記正規化層から前記正規化された出力を受信し、活性化された出力を発生させるように構成される活性化関数と、
前記活性化関数から前記活性化された出力を受信し、前記活性化された出力に少なくとも部分的に基づいて第２の畳み込み出力を決定するように構成される第２の畳み込み層と
をさらに備える、請求項１６に記載のモバイル電子デバイス。
グループ化係数および第２の数のチャネルを使用して前記第２階層においてグループ化畳み込みを実施することであって、前記第１階層は、処理するための第１の数のチャネルを採用するが、グループ化畳み込みを実施しない、ことと、
異なるグループ化係数および第３の数のチャネルを使用して前記第３階層において別個のグループ化畳み込みを実施することと
をさらに含む、請求項１に記載のモバイル電子デバイス。
前記第２の数は、前記第１の数を上回り、前記第３の数は、前記第２の数を上回り、前記第３階層のための前記異なるグループ化係数は、前記第２階層のための前記グループ化係数を上回る、請求項１８に記載のモバイル電子デバイス。