JP2024512344A

JP2024512344A - 反復的改良を通した効率的なポーズ推定

Info

Publication number: JP2024512344A
Application number: JP2023553708A
Authority: JP
Inventors: ヤン、ジョン; バルガト、ヤシュ・サンジェイ; ポリクリ、ファティ・ムラート; チャン、シミュン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2021-03-16
Filing date: 2022-03-15
Publication date: 2024-03-19
Also published as: US11908155B2; CN116982059A; WO2022198210A1; BR112023018074A2; US20220301216A1; EP4309081A1; KR20230156330A

Abstract

本開示のいくつかの態様は、特徴マップを生成するために、機械学習モデルの特徴抽出段階で、入力データを処理することと、拡張された特徴マップを生成するために、特徴マップにアテンションマップを適用することと、改良された特徴マップを生成するために、機械学習モデルの改良段階で、拡張された特徴マップを処理することと、多次元タスク出力データを生成するために、機械学習モデルの第１の回帰段階で、改良された特徴マップを処理することと、更新されたアテンションマップを生成するために、機械学習モデルのアテンション段階で、改良された特徴データを処理することと、を含む方法を提供する。【選択図】図１

Description

優先権の主張

関連出願の相互参照
[0001]本出願は、その内容全体が参照により本明細書に組み込まれる、２０２１年３月１６日に出願された米国特許出願第１７／２０３，６０７号の優先権を主張する。

[0002]本開示の態様は機械学習に関し、特に、機械学習モデルを使用したポーズ推定（pose estimation）に関する。

序論
[0003]機械学習は、概して、アプリオリに知られるトレーニｆングデータのセットへの一般化された適合を表す、トレーニングされたモデルを作り出すプロセス（たとえば、人工ニューラルネットワーク）である。トレーニングされたモデルを新しいデータに適用することは、推論を作り出すことを可能にし、これは、新しいデータへのインサイトを得るために使用され得る。

[0004]（たとえば、人間の身体部分の）ポーズ推定は、たいていの対話型拡張現実および仮想現実（まとめて「エクステンデッドリアリティ」）システムの重要な構成要素である。エクステンデッドリアリティ環境における物体との手ベースの対話では、３次元世界座標（ならびに画像平面座標）における手の関節の位置の高度に正確な推定値を取得することが重要である。

[0005]残念ながら、多くの最先端のポーズ推定モデルは、大規模および複雑なモデルアーキテクチャを通して高い正確さを達成し、これは、かなりの算出コストを招く。したがって、そのようなモデルは、概して、モバイルデバイスのような比較的より低い電力のコンピューティングデバイスにとって好適でなく、それらのデバイスは皮肉なことに、能力が最も有用であり得るデバイスである。

[0006]したがって、ポーズ推定のための改善されたモデルアーキテクチャが必要とされる。

[0007]いくつかの態様は、特徴マップを生成するために、機械学習モデルの特徴抽出段階で、入力データを処理することと、拡張された特徴マップ（augmented feature map）を生成するために、特徴マップにアテンションマップ（attention map）を適用することと、改良された特徴マップ（refined feature map）を生成するために、機械学習モデルの改良（refinement）段階で、拡張された特徴マップを処理することと、多次元タスク出力データを生成するために、機械学習モデルの第１の回帰段階で、改良された特徴マップを処理することと、更新されたアテンションマップを生成するために、機械学習モデルのアテンション段階で、改良された特徴データを処理することと、を備える方法を提供する。

[0008]他の態様は、機械学習モデルでトレーニングデータを処理すること、ここにおいて、機械学習モデルは、特徴マップを生成するように構成された特徴抽出段階と、特徴マップおよびアテンションマップに基づいて、拡張された特徴マップを処理することと、改良された特徴マップを生成することとを行うように構成された改良段階と、改良された特徴マップを処理することと、更新されたアテンションマップを生成することとを行うように構成されたアテンション段階と、多次元タスク出力データを生成するために、改良された特徴マップを処理することを行うように構成された第１の回帰段階と、を備える、と、トレーニング損失関数に基づいて、トレーニング損失を決定すること、ここにおいて、トレーニング損失関数は、不確実性損失成分と、タスク損失成分とを備える、と、トレーニング損失に基づいて、機械学習モデルを更新することと、を備える、機械学習モデルをトレーニングする方法を提供する。

[0009]他の態様は、上述の方法ならびに本明細書で説明される方法を実施するように構成された処理システムと、処理システムの１つまたは複数のプロセッサによって実行されたとき、処理システムに上述の方法ならびに本明細書で説明される方法を実施させる命令を備える、非一時的コンピュータ可読媒体と、上述の方法ならびに本明細書でさらに説明される方法を実施するためのコードを備えるコンピュータ可読記憶媒体上で実施されたコンピュータプログラム製品と、上述の方法ならびに本明細書でさらに説明される方法を実施するための手段を備える処理システムと、を提供する。

[0010]以下の説明および関連する図面は、１つまたは複数の態様のいくつかの例示的な特徴を詳細に記載する。

[0011]添付の図は、１つまたは複数の態様のいくつかの態様を示し、したがって、本開示の範囲を限定するものと見なされるべきでない。

[0012]例示的なポーズ推定モデルアーキテクチャを示す図。 [0013]反復的バックボーンネットワークの一例を示す図。 [0014]漸進的トレーニングアルゴリズムの一例を示す図。 [0015]図１および図２に関して説明されるモデルアーキテクチャを用いてなど、ポーズ予測を実施するための例示的な方法を示す図。 [0016]図１および図２に関して説明されるような、ポーズ予測モデルアーキテクチャをトレーニングするための例示的な方法を示す図。 [0017]本明細書で説明される方法を実施するように構成され得る例示的な処理システムを示す図。

[0018]理解を容易にするために、可能な場合、図面に共通である同一の要素を指定するために同一の参照番号が使用されている。一態様の要素および特徴が、さらなる具陳なしに他の態様に有益に組み込まれ得ることが企図される。

[0019]本開示の態様は、機械学習モデルを使用してポーズ推定を実施するための装置、方法、処理システム、および非一時的コンピュータ可読媒体を提供する。特に、本明細書で説明される態様は、２次元入力画像に基づいて、３次元空間における身体要素（たとえば、手）ポーズを効率的に推定するための、機械学習モデルアーキテクチャに関する。

[0020]本明細書で説明されるポーズ推定モデルアーキテクチャは、概して、反復的バックボーンネットワークと、ポーズ予測器と、不確実性推定器と、判定ゲーティング関数とを含み得る。有益には、これらのモデルアーキテクチャは、判定ゲーティング関数がループを終了させるまで、反復的バックボーンネットワークの改良モジュールおよびアテンションマップ生成器の再帰的反復にわたって予測を連続的に改良する。

[0021]本明細書で説明されるポーズ推定モデルアーキテクチャは、さらに、改良モジュールを通して、各反復について異なるバッチ正規化層（batch normalized layer）を使用し得、これは、有益には、トレーニング中の勾配を安定させ、アテンションマップ生成器によって引き起こされるバッチ正規化層における統計的混乱を緩和する。

[0022]本明細書で説明されるポーズ推定モデルアーキテクチャのゲーティング関数は、概して、目的関数を介して個別のゲーティング（discrete gating）を判定するために、ネットワーク自体の推定値（たとえば、不確実性）の信頼性尺度を考慮する。たとえば、ゲーティング関数は、反復的バックボーンネットワークをいつ終了すべきかを決定するために、多次元（たとえば、２次元および３次元）キーポイント予測など、モデル推論の不確実性を推定し得る。

[0023]最後に、本明細書で説明される態様は、より多くのサンプルに、より少ない反復の後に反復的バックボーンネットワークを終了させることによって、推論効率を改善するポーズ推定モデルアーキテクチャについての漸進的トレーニング技法に関する。

[0024]したがって、本明細書で説明されるポーズ推定モデルアーキテクチャは、算出コストとメモリ使用とに関して効率的な推論を生成し、これは、有益には、そのようなモデルアーキテクチャが、モバイルデバイス、常時オンデバイス、モノのインターネットデバイス、エッジ処理デバイスなど、より広範囲のデバイスに展開されることを可能にする。したがって、本明細書で説明される反復的ポーズ推定モデルアーキテクチャは、上記で説明されたような、従来の手法の短所に対する技術的解決策を提供する。
例示的なポーズ推定モデルアーキテクチャ
[0025]図１は、例示的なポーズ推定モデルアーキテクチャ１００を示す。

[0026]概して、モデルアーキテクチャ１００は、モジュラーネットワークを示し、ここにおいて、モデルパラメータが、適応空間スコーピングを通したより正確な予測のために反復的に活用され得る。詳細には、信頼性のあるポーズ予測を生成するために、必要な量の複雑さのみを使用するためのモデルを可能にするゲートルーピング機構（gated looping mechanism）によって、モデルアーキテクチャ１００の適応性質が提供される。

[0027]図示のように、モデルアーキテクチャ１００は、反復的バックボーンネットワーク１０４からなり、反復的バックボーンネットワーク１０４自体は、特徴抽出器１０６と、改良モジュール１０８と、アテンションマップ生成器１１０とを備える。モデルアーキテクチャ１００は、ポーズ予測器１１２をさらに含み、ポーズ予測器１１２は、この例では、手モデル１１８を含むが、他の例では、人間の身体の骨と関節とを含む、完全な人間の身体骨格モデルを含む、他の身体要素モデルを含み得る。モデルアーキテクチャは、不確実性推定器１２４と、判定ゲーティング関数１２８とをさらに含み、これらは、反復的バックボーンネットワーク１０６内のルーピングを制御するように構成され、したがって、モデルアーキテクチャ１００の適応スコーピング態様を可能にする。

[0028]図示された例では、手の単眼画像が、入力データ１０２として特徴抽出器１０６に提供され、特徴抽出器１０６は、入力データに基づく特徴を生成し、それらは、次いで、改良モジュール１０８に提供される。改良モジュール１０８の出力は、次いで、（１）ポーズ予測器１１２、（２）不確実性推定器１２４、および（３）アテンションマップ生成器１１０に提供される。図示された例では、改良モジュール１０８の出力は、あらかじめ定義された不確実性しきい値と比較され得る、ゲーティング関数１２８の判定の出力に基づいて、アテンションマップ生成器１１０に提供されることに留意されたい。いくつかの場合には、あらかじめ定義された不確実性しきい値は、チューニングされるべきハイパーパラメータであり、ここにおいて、このしきい値についての異なる値は、異なる正確さ対効率のトレードオフを与える。したがって、不確実性推定器１２４およびゲーティング関数１２８は、概して、条件が満たされるまで、改良モジュール１０８およびアテンションマップ生成器１１０のルーピングを制御し、次いで、出力１２０および／または１２２が、モデルアーキテクチャ１００の出力として提供される。条件は、たとえば、ゲーティングしきい値が満たされていること、またはループ限度が到達されていることであり得る。

[0029]次に、モデルアーキテクチャ１００の上述の構成要素の各々が、より詳細に説明される。
反復的バックボーンネットワーク
[0030]図示された例では、反復的バックボーンネットワーク１０４は、再帰的推論を実施するように構成された残差ネットワークであり、これは、概して、ネットワークパラメータの容量を活用するために、下位レベル特徴の改良のための上位レベル特徴の使用を可能にする。言い換えれば、反復的バックボーンネットワーク１０４は、低いデフォルト複雑さを有し、これは、（たとえば、各ループにおける）各再帰的使用において増加され得る。これは、有益には、より小さいモデルサイズ（たとえば、より小さいニューラルネットワーク）が、より複雑なモデルと同様の予測正確さを有することを可能にし、これは、メモリ要件を低減し、より多種多様なデバイスへの実装を可能にする。

[0031]特徴抽出器１０６は、概して、入力データ１０２の低レベル画像特徴を符号化するように構成される。いくつかの場合には、特徴抽出器１０６は、畳み込みニューラルネットワークモデルなど、ニューラルネットワークモデル（またはそれの一部分）によって実装され得る。ニューラルネットワークモデルの特徴抽出段階の一例が示され、図２に関してより詳細に説明される。

[0032]特徴抽出器１０６は、改良モジュール１０８およびアテンションマップ生成器１１０と同様に、再帰的に動作されないので、その特徴符号化（feature encoding）は、特徴マップの重いダウンサンプリングを組み込むように構成され得、したがって、それらの再帰的算出はあまりコストがかからない。たとえば、特徴抽出器１０６は、改良モジュール１０８およびアテンションマップ生成器１１０を通した反復をより効率的にするために、画像入力（たとえば、１０２）の空間次元を、たとえば、２２４×２２４ピクセルから２８×２８ピクセルに低減するように構成され得る。これは一例にすぎず、概して、入力サイズおよびダウンサイジング比は、必要に応じて構成され得る。

[0033]推論中に、特徴抽出器１０６からの出力は、反復的バックボーンネットワーク１０４の他の態様の再帰的ループのために何度も生成されないように、メモリ（図示せず）に記憶され得る。これは、モデルアーキテクチャ１００の算出効率をさらに改善する。

[0034]改良モジュール１０８は、概して、再帰的に「ループされる」ように構成され、したがって、あらゆる反復において、アテンションマップ生成器１１０によって生成されたアテンション拡張された特徴マップが、前のループの予測を改良するために使用され得る。特に、このアテンション拡張は、あらゆるループ反復における入力特徴マップの分布を変更し得る。したがって、図２に示されているように、アテンション拡張された入力特徴マップの統計値シフトを考慮するために、あらゆる反復において別個のバッチ正規化層が使用され得る。

[0035]特に、図２は、特徴抽出器２０２と、改良モジュール２０４と、アテンションマップ生成器２０６とを含む、反復的バックボーンネットワーク２００の一例を示す。ｌ（英字のエル）個のバッチ正規化層（ＢＮ₁．．．ＢＮ_l）があり、ここで、ｌは、反復的バックボーンネットワーク２００内で可能にされるループの構成可能な数であることに留意されたい。言い換えれば、算出効率について、過剰なルーピングおよび不要なレイテンシを防ぐために、ループを、４つのループなど、構成可能な数に制限することが望ましいことがある。

[0036]図１に戻ると、アテンションマップ生成器１１０は、いくつかの例では、２の、要素ごとの乗算についての特徴マップの数と同じ数のアテンションマップを出力するアップスケールデコーダとして実装され得る。いくつかの場合には、アテンションマップ生成器１１０によって生成されたアテンションマップは、概して、［０、１］の範囲内の値を含み得、それらは、次いで、「アテンション」機構を可能にするために、改良モジュール１０８によって出力された特徴マップに（要素ごとに）適用され得る。

[0037]いくつかの態様では、算出コストを著しく増加させることなしに、改良モジュール１０８の出力ベクトルを効果的にアップスケールするために、デコーダは、ピクセルシャッフル層に対して構成され得、これは、チャネル特徴を空間特徴にすることによって算出コストを低下させる。概して、アップスケールすることは多くの方法で行われ得、数例を挙げると、二重線形補間（bilinear interpolation）、逆畳み込み（deconvolution）、およびピクセルシャッフル動作を含む。ピクセルシャフルすることは、有益には、他の代替形態よりも多くの情報を保存する。
ポーズ予測器
[0038]概して、ポーズ予測器１１２は、反復的バックボーンネットワーク１０４によって提供された入力特徴マップに基づいて、３次元および／または２次元ポーズ予測（または推定値）を生成するように構成される。

[0039]図示の例の場合のように、ポーズ予測器１１２は、ニューラルネットワークモデルの１つまたは複数の全結合（ＦＣ（fully-connected））層（たとえば、層１１４）を含み得る。そのような例では、ポーズ予測器１１２の全結合層１１４は、手モデル１１８への入力のために使用される多次元出力１１６を生成する。全結合層１１４は、出力が、カテゴリー値の代わりに回帰値（regression values）であるので、いくつかの場合には、回帰段階と呼ばれることがある。

[0040]この例では、多次元出力１１６は、回転行列Ｒと、変換（translation）ｔと、スケーリングファクタｓと、ポーズθと、形状βとを含む、複数のパラメータを含む。概して、ポーズθおよび形状βパラメータは、手モデル１１８を用いた３次元ポーズ予測を生成するために使用され得、これは、この例では、次いで、Ｒ、ｔ、およびｓパラメータを使用して２次元平面に投影され得る。この例では、Ｒ、ｔ、およびｓは、入力データをキャプチャするカメラの外部（extrinsic）パラメータと呼ばれることがある。

[0041]一例では、手モデル１１８は、Ｊ（θ，β）＝Ｒ_θ（Ｊ（β））に従って３次元手メッシュ出力を制御するために、θおよびβについてのパラメータとして入力低次元ベクトルをとるように構成されたＭＡＮＯ手メッシュ変形モデルであり、ここで、Ｊは、身体要素関節位置（body element positions）を予測するための関数である。たとえば、手における２１個の関節のロケーション、この例では、Ｊ（β）は、手の２１個の関節の各々について対応する３次元座標をもつ最終手モデルを取得するために、Ｒ_θとして示されるポーズθに基づいて、グローバルに回転され得る。他の例では、手モデル１１８は、代替の身体要素モデル、さらには完全な骨格モデルと置き換えられ得ることに留意されたい。

[0042]一例では、クロップされた手画像が、データ入力ｘ（１０２）として提供され、特徴抽出器１０８の出力Ｆ（ｘ）が、改良モジュールＲ（１０８）に、各再帰的反復（またはループ）ｌ∈｛１，２，．．．，ｌ_max｝において、アテンションマップ生成器１１０によって生成された、アテンションマップＭ^lとともに提供される。いくつかの例では、クロップされた手画像は、手検出器モデル、画像セグメンテーションモデルなどによって生成され得る。

[0043]ポーズ予測器は、それぞれ、ｌ＝０およびｌ＞０であるとき、Ｒ（Ｆ（ｘ））およびＲ（Ｆ（ｘ），Ｍ^l）を入力としてとり、回転行列Ｒ∈ＳＯ（３）、変換

および、スケーリングファクタ

を、それのポーズθおよび形状βとともに予測する。

ここで、Ψ_pose（・）は、２つの全結合層動作を表す。関節Ｊ（θ、β）の３次元ロケーションが、手モデル１１８によって定義され、検出されたキーポイントが、次いで、式１のＲ、ｔ、およびｓパラメータによってパラメータ化された弱パースペクティブ（weak-perspective）カメラモデルを用いて２次元画像平面に再投影されて、

に従って、推定されたカメラパラメータで２次元ロケーション推定（Ｊ_2D）を取得する。ここで、Πは、正射投影を表す。再投影された２次元関節ロケーション推定では、ネットワークは、２次元ラベルのみがトレーニングセット中に存在するときでも、３次元関節ロケーションを学習することが可能である。

[0044]いくつかの例では、ポーズ予測器１１２をトレーニングするための基準は、予測とグランドトゥルース（ground-truths）との間のＬ１およびＬ２損失である。

[0045]概して、Ｌ₁ノルムまたはＬ₂ノルムのいずれも、損失関数のために使用され得る。２次元予測は、（投影変数による３次元予測と比較して）より多くの変数の関数であるので、Ｌ₁ノルム損失は、２次元推定について、よりロバストな予測を提供し得る。
反復的バックボーンネットワークの動的終了（dynamic exiting）
[0046]モデルアーキテクチャ１００は、反復的バックボーンネットワーク１０４についての複数の終了（exiting）ポリシーを実装し得る。第１の終了ポリシーオプションは、不確実性推定１３０（たとえば、全分散のエリア）に基づいてヒューリスティックである。たとえば、ループは、分散がしきい値よりも小さいとき、終了し得る。そのような例では、不確実性推定１３０がゲーティングのために直接使用されるので、ゲーティング関数１２８は必要とされない。第２の終了ポリシーオプションは、一例では、単一の全結合を備えるゲーティング関数１２８を利用する。有益には、ゲーティング関数１２８は、式１２に関して以下でさらに説明されるように、トレーニング可能である。

[0047]図１に示されている例では、反復的バックボーンネットワーク１０４を用いたループを終了することが、ゲーティング関数１２８を使用して、入力データサンプルごとに適応的に実施される。したがって、モデルアーキテクチャ１００は、適応反復的スコープ（adaptive iterative scope）ネットワークと呼ばれることがある。

[0048]概して、反復的バックボーンネットワーク１０４の再帰的推論の次のループに進むことを判定するために、モデルは、それが、それの現在の予測に関してどれくらい確実であるかに気づいているべきである。この目的で、不確実性推定器１２４は、関節ロケーションのみの代わりに確率分布を推定することによって、２次元／３次元関節ロケーション（たとえば、キーポイント）予測（たとえば、１２０および１２２）についての分散を推定する。一例では、問題を簡略化するために、関節の座標が、単一変量ガウシアン（single variate Gaussian）

を使用するために、独立していると仮定される。ここで、Ｗは、トレーニング可能な重みを指す。関節ロケーションについての座標は、Ｊとして示され、

は、推定された関節ロケーションを表す。標準偏差σが０に近いほど、モデルは、それ自体の推定に、より信頼性をもつ。σ→０のガウス分布としてターゲット関節座標を有すると、それは、Ｊ^gtがグランドトゥルース関節位置を示す、ディラックのデルタ関数

であり、
モデルは、Ｐ_W（Ｊ）とＰ_D（Ｊ）との間のカルバックライブラー（ＫＬ）ダイバージェンスに基づいて、不確実性損失成分（Ｌ_var）を最小限に抑えることと、

に従って信頼性推定を学習することと、を目的とし、
ここで、α＝ｌｏｇ（σ²）であり、これは、モデルアーキテクチャ１００が、不確実性推定１３０として予測するものである。出力として、不確実性推定器１２４は、

に従って、それ自体の２次元／３次元関節予測の分散を予測し、ここで、

は、分散推定の前の全結合層を表す。

[0049]３次元関節予測では、３次元関節位置特定のための分散推定の損失は、

として設定され得る。

[0050]２次元関節ロケーションは、滑らかなＬ₁損失で回帰されるので、２次元関節位置特定についての分散の損失は、

に従って定義され得る。

[0051]式３で算出されたＬ_2D、Ｌ_3Dをもつ２次元／３次元関節位置特定分散についての両方の損失の合計を有すると、

が与えられる。

[0052]したがって、不確実性推定器１２４は、それの関節ロケーション予測のために、ｌ（英字のエル）次元ベクトルとして分散を学習し得る。

[0053]上述の分散は（たとえば、ゲーティング関数１２８を使用する代わりに）終了の判定のために直接利用され得る。たとえば、しきい値τ_varが、現在の関節推定についての平均分散のために設定され得る。平均分散があらかじめ定義されたしきい値よりも大きい場合、改良モジュール１０８およびアテンションマップ生成器１１０の別のループが実施される。
ゲーティング関数
[0054]ループを終了するために使用され得る各ループにおけるヒューリスティック不確実性しきい値に加えて、ゲーティング関数１２８は、モデルアーキテクチャ１００が最適な終了判定を学習することを可能にする。言い換えれば、ゲーティング関数１２８は、不確実性推定１３０に基づくヒューリスティック方法の代わりに学習可能なゲーティング機構を提供する。いくつかの例では、ゲーティング関数１２８は、モデルアーキテクチャ１００など、より大きいモデルの一部であり得る、ニューラルネットワークモデルとして実装され得る。

[0055]たとえば、入力ｘと、ｌ（英字のエル）番目のループＭ^lにおいて生成されたアテンションマップとについて、ゲーティング関数１２８は、以下の、式１１からの報酬信号（reward signal）に基づいてトレーニングされた後に、終了の確率カテゴリー判定（stochastic categorial decision）を出力する。ゲーティング関数Ｇ（１２８）は、不確実性推定器１２４の全結合層１２５からの特徴ベクトル

を入力としてとる。図１に、および式７に示されているように、ｆ（１２６）は、ゲーティング関数１２８への入力として使用される中間特徴出力（たえば、ベクトル）である。

[0056]この目的で、ゲーティング関数Ｇ（Ａ_l｜ｆ_l）は、ループｌ（英文字のエル）における不確実性特徴ベクトルｆ_lに基づいて、２つの可能なカテゴリーアクションＡ_l、終了するか否か、についての強化更新でトレーニングされ得、これは、オンポリシーバニラポリシー勾配（on-policy vanilla policy gradient）（報酬信号に基づいてエージェントをトレーニングするために使用される強化学習アルゴリズム）でトレーニングされる。より多くの反復とともに損失が減少するが、各追加のループについての算出コストを増加させることについてのペナルティを必要とする。損失と算出コストとの間の差は、報酬信号（ｒ_l）によって設定される。

ここで、λがスケール定数を表し、算出コストＣが、一例では、ギガ浮動小数点演算毎秒（ＧＦＬＯＰｓ：giga-floating point operations per second）を指す。そのような報酬を用いて、ポリシーは、最終的に、必要とされる算出コストをも最小限に抑えながら、ポーズ推定の誤差を最小限に抑えることを試みる。ゲーティングポリシー関数の学習勾配が、

として表され得、ここで、ｗは、ゲーティング関数１２８の学習可能なパラメータを表す。

[0057]ゲーティング関数１２８は、不確実性推定器１２４を含むモデルアーキテクチャ１００の残りをトレーニングした後にトレーニングされ得ることに留意されたい。したがって、ゲーティング関数１２８のトレーニング中に、モデルアーキテクチャ１００の他の部分が切り離される。

[0058]一例では、ゲーティング関数１２８は、推論中に、ゲート関数１２８のアクション（たとえば、終了するまたは終了しない）が、ソフトマックス確率分布からサンプリングされるように、強化アルゴリズムを使用してトレーニングされる。したがって、ゲーティング関数１２８の出力は、そのような場合、確率的であり、決定論的ではない。

[0059]学習されたゲーティング関数１２８の場合、温度パラメータτ_gateが、トレーニングの後でもその判定の厳しさ（harshness）のさらなる制御を可能にするために利用され得る。ゲーティング関数１２８は、この例では、カテゴリーソフトマックス関数であるので、算出コストと予測正確さとの間のトレードオフが、テスト中にさらに制御され得る。概して、τ_gateのより高い値が、ソフトマックス関数のよりソフトな分布を生じる。
漸進的トレーニング
[0060]モデルアーキテクチャ１００は、部分的な層をループすることと、各ループにおける推論結果に基づいて損失を計算することとによって、最初にトレーニングされ得る。ループｌ_maxのあらかじめ定義された最大数の場合、モデルアーキテクチャ１００は、したがって、

による、すべてのループからの損失の合計を最小限に抑えることによって、トレーニングされ得、ここで、

は、ハイパーパラメータγ_2Dによって重み付けされた２次元予測損失であり、

は、ハイパーパラメータγ_3Dによって重み付けされた３次元予測損失であり、

は、ハイパーパラメータγ_varによって重み付けされた不確実性損失である。特に、モデルアーキテクチャ１００は、エンドツーエンドまたは漸進的様式のいずれかでトレーニングされ得る。エンドツーエンドトレーニングプロトコルでは、単一のトレーニングが、最大数のループで実施されるが、漸進的トレーニングプロトコルでは、モデルアーキテクチャ１００は、ループ許容差の漸進的インクリメント中に複数回トレーニングされる。

[0061]図３は、漸進的トレーニングアルゴリズム３００の一例を示す。

[0062]概して、アルゴリズム３００による漸進的トレーニング中に、モデルアーキテクチャ１００は、ｌ_max回トレーニングされ、ループｌ_prog∈｛０，１，２，．．．，ｌ_max｝の最大数の各場合においてトレーニングする。したがって、モデルアーキテクチャ１００は、ｌ_prog＝０である場合、ループなしで最初にトレーニングされる。漸進的トレーニングプロトコルのこの初期トレーニングフェーズは、単一の推論経路について改良モジュール１０８の始まりにおいて１つのバッチ正規化層を必要とする。また、ｌ_prog＞０の場合、モデルアーキテクチャ１００は、ｌ_prog＋１個のバッチ正規化層で初期化される。モデルアーキテクチャ１００は、次いで、余剰バッチ正規化層を除いて、ｌ_prog－１の場合にトレーニングされたパラメータで、再初期化される。

[0063]モデルアーキテクチャ１００は、ｌ_prog＝０でトレーニングされるとき、有意味な特徴符号化層を学習するので、特徴抽出器１０６は、ｌ_prog＞０であるとき、さらなる学習から切り離され、学習レートが、

などのファクタで低減される。アテンションマップ生成器１１０は、元のベース学習レートでトレーニングされる。たとえば、トレーニングは、０番目のループについて０．１の学習レートで開始し得る。次いで、第１のループにおいて、特徴抽出器は、トレーニングから切り離され、改良モジュール１０８は、

の学習レートでトレーニングされ、このトレーニングレートは、各反復において、

で、さらに低減される。アテンションマップ生成器は、０．１の元の学習レートでトレーニングされる。

[0064]有益には、漸進的トレーニング方法３００は、各ループの場合において、ネットワークの容量の最大化を確実にすることが経験的に示されており、これは、早期ループの場合における終了のより高いレートと、確認サンプルについてのより低い平均算出コストとを生じる。
ポーズ予測のための例示的な方法
[0065]図４は、図１および図２に関して説明されるモデルアーキテクチャを用いてなど、ポーズ予測を実施するための例示的な方法４００を示す。

[0066]方法４００は、特徴マップを生成するために、機械学習モデルの特徴抽出段階で、入力データを処理することを伴うステップ４０２において始まる。たとえば、特徴抽出段階は、図１の１０６および図２の２０２など、特徴抽出器を備え得る。

[0067]示されていないが、特徴マップは、機械学習モデルの反復的処理中に再使用されるために、ローカルメモリなどのメモリに記憶され得、これは、各反復中の特徴抽出段階で、入力データを再処理することと比較して処理を節約する。

[0068]方法４００は、次いで、拡張された特徴マップを生成するために、特徴マップにアテンションマップを適用することを伴うステップ４０４に進む。いくつかの場合には、拡張された特徴マップは、アテンション拡張された特徴マップと呼ばれることがある。たとえば、図１のアテンションマップ生成器１１０または図２のアテンションマップ生成器２０６が、アテンションマップを提供し得る。

[0069]上記で説明されたように、ステップ４０４は、概して、モデルを通した第１のパスの後に起こることになり、ここで、ループ回数ｌ＞０であるなど、拡張はない。

[0070]方法４００は、次いで、改良された特徴マップを生成するために、機械学習モデルの改良段階で、拡張された特徴マップを処理することを伴うステップ４０６に進む。たとえば、改良段階は、図１中の１０８または図２中の２０４など、改良モジュールを備え得る。

[0071]いくつかの態様では、機械学習モデルの改良段階で、拡張された特徴マップを処理することは、拡張された特徴マップにバッチ正規化層を適用することを備え、バッチ正規化層は、ループ回数に基づいて複数のバッチ正規化層から選択される。

[0072]方法４００は、次いで、多次元タスク出力データ（たとえば、図１中の１１６）を生成するために、機械学習モデルの第１の回帰段階で、改良された特徴マップを処理することを伴うステップ４０８に進む。たとえば、多次元タスク出力データは、上記で説明されたように、回転行列Ｒ、変換ｔ、スケーリングファクタｓ、ポーズθ、および／または形状βを含み得る。一例では、回帰段階は、図１中のポーズ予測器１１２の全結合層１１４など、ポーズ予測器の１つまたは複数の全結合層を備える。

[0073]方法４００は、次いで、更新されたアテンションマップを生成するために、機械学習モデルのアテンション段階で、改良された特徴データを処理することを伴うステップ４１０に進む。

[0074]改良された特徴データは、概して、ステップ４０８において使用されたものと同じであり得ることに留意されたい。様々な段階の並列処理が実装される場合、改良された特徴データは、様々な段階によって一度にアクセスおよび処理されるべき複数のコピーに記憶され得る。

[0075]方法４００は、次いで、図１中の３次元予測１２０など、３次元位置推定値を生成するために、３次元位置生成器で多次元タスク出力データを処理することを伴うステップ４１２に進む。たとえば、３次元位置生成器は、図１の手モデル１１８など、身体要素ポーズモデルであり得、３次元位置推定値は、キーポイント推定値など、３次元空間における１つまたは複数の身体要素関節位置を備える。

[0076]方法４００は、次いで、２次元位置推定値を生成するために、多次元タスク出力データとともに３次元位置推定値を処理することを伴うステップ４１４に進む。

[0077]たとえば、回転行列Ｒ、変換ｔ、およびスケーリングファクタｓは、ポーズθおよび形状βを３次元から２次元に投影するために使用され得、ここで、Ｒ、ｔ、およびｓは、ステップ４０２において使用された入力データをキャプチャするカメラの外部パラメータである。

[0078]いくつかの態様では、２次元位置推定値は、２次元空間における１つまたは複数の身体要素関節位置を備える。

[0079]図４に示されていないが、方法４００は、タスク不確実性推定値を生成するために、機械学習モデルの第２の回帰段階で、改良された特徴マップを処理することをさらに含み得る。たとえば、改良された特徴マップは、図１中の１２４のような不確実性推定器によって、特に、不確実性推定器１２４の全結合層１２５によって処理され得る。

[0080]方法４００は、タスク不確実性推定値に基づいて、３次元位置推定値に関連する不確実性を決定することと、タスク不確実性推定値に基づいて、２次元位置推定値に関連する不確実性を決定することとをさらに含み得る。たとえば、図１の不確実性推定器１２４の全結合層（たとえば、別の回帰段階）は、２次元および３次元位置推定値に関連する不確実性推定（たとえば、分散１３０）を生成し得る。

[0081]方法４００は、ループ判定値を生成するために、機械学習モデルのループ判定段階で、タスク不確実性推定値を処理することと、ループ判定値に基づいて、機械学習モデルの処理を終了すべきかどうかを決定することとをさらに含み得る。一例では、ループ判定段階は、図１のゲーティング関数１２８を備え、ループ判定値が、ソフトマックス値である。上記で説明されたように、いくつかの場合には、ループ判定値は、ソフトマックス確率分布からサンプリングされ得る。

[0082]方法４００は、２次元位置推定値をエクステンデッドリアリティデバイス（extended reality device）のディスプレイスクリーン上に表示することをさらに含み得る。いくつかの場合には、エクステンデッドリアリティデバイスは、スマートフォンなどのモバイルデバイス、あるいは眼鏡またはヘッドセットなどのスマートウェアラブルデバイス、あるいは他のデバイスであり得る。

[0083]方法４００は、１つの例示的な方法であり、他のものが可能であることに留意されたい。特に、他の例は、本明細書で説明される様々な態様に従う方法４００と比較して、より少数の、追加の、および／または代替のステップを含み得る。
ポーズモデルをトレーニングするための例示的な方法
[0084]図５は、図１および図２に関して説明されるような、ポーズ予測モデルアーキテクチャをトレーニングするための例示的な方法５００を示す。

[0085]方法５００は、機械学習モデルでトレーニングデータを処理することを伴う５０２におけるステップにおいて始まる。いくつかの場合には、機械学習モデルは、特徴マップを生成するように構成された特徴抽出段階（たとえば、図１中の特徴抽出器１０６または図２中の特徴抽出器２０２）と、特徴マップおよびアテンションマップに基づいて、拡張された特徴マップを処理することと、改良された特徴マップを生成することとを行うように構成された改良段階（たとえば、図１中の改良モジュール１０８または図２中の改良モジュール２０４）と、改良された特徴マップに基づいて、更新されたアテンションマップを生成するように構成されたアテンション段階（たとえば、図１中のアテンションマップ生成器１１０、図２中のアテンションマップ生成器２０６）と、多次元タスク出力データを生成するために、改良された特徴マップを処理するように構成された第１の回帰段階（たとえば、図１中のポーズ予測器１１２の全結合層１１４）とを備える。

[0086]いくつかの場合には、機械学習モデルの改良段階は、複数のバッチ正規化層を備え、ここにおいて、各それぞれのバッチ正規化層は、ループ回数に関連する。

[0087]方法５００は、次いで、トレーニング損失関数に基づいて、トレーニング損失を決定すること、を伴うステップ５０４に進む。ここにおいて、トレーニング損失関数（たとえば、式１３に関して上記で説明されたＬ_total）は、不確実性損失成分（たとえば、式１０に関して上記で説明されたＬ_var）と、タスク損失成分（たとえば、式１３および図３に関して上記で説明された

および

）と、を備える。

[0088]方法５００は、次いで、図３に関して示されているように、トレーニング損失に基づいて、機械学習モデルを更新することを伴うステップ５０６に進む。

[0089]いくつかの態様では、機械学習モデルは、多次元タスク出力（たとえば、図１中のパラメータ１１６）を処理することと、３次元位置推定値（たとえば、図１中の３次元予測１２０）を生成することとを行うように構成された、３次元位置生成器（たとえば、図１中の手モデル１１８）をさらに備え、タスク損失成分は、３次元位置推定値誤差成分（たとえば、式１３の場合のような

）を備える。

[0090]いくつかの態様では、機械学習モデルは、多次元タスク出力（たとえば、図１中の１１６）とともに３次元位置推定値を処理することと、２次元位置推定値（たとえば、図１中の１２２）を生成することとを行うように構成された、２次元位置生成器をさらに備え、タスク損失成分は、２次元位置推定値誤差成分（たとえば、式１３の場合のような

）を備える。

[0091]いくつかの態様では、３次元位置生成器は、図１中の手モデル１１８など、身体要素ポーズモデルを備える。いくつかの態様では、３次元位置推定値は、３次元空間における１つまたは複数の身体要素関節位置を備え、２次元位置推定値は、２次元空間における１つまたは複数の身体要素関節位置を備え、多次元タスク出力データは、ポーズθおよび形状βを投影する（project）ために使用され得る、回転行列Ｒと、変換ｔと、スケーリングファクタｓとを備える。

[0092]いくつかの態様では、機械学習モデルは、タスク不確実性推定値を生成するように構成された、第２の回帰段階（たとえば、図１中の不確実性推定器１２４の全結合層１２５）をさらに備え、ここにおいて、タスク不確実性推定値は、図１中の不確実性推定１３０など、不確実性損失成分の３次元位置推定値分散成分と、不確実性損失成分の２次元位置推定値分散成分とを備える。

[0093]いくつかの態様では、機械学習モデルは、タスク不確実性推定値を処理することと、ループ判定値を決定することとを行うように構成されたループ判定段階（たとえば、図１のゲーティング関数１２８）をさらに備える。

[0094]方法５００は、１つの例示的な方法であり、他のものが可能であることに留意されたい。特に、他の例は、本明細書で説明される様々な態様に従う方法５００と比較して、より少数の、追加の、および／または代替のステップを含み得る。
例示的な処理システム
[0095]図６は、図３～図５に関してなど、本明細書で説明される方法を実施するように構成され得る例示的な処理システム６００を示す。

[0096]処理システム６００は、いくつかの例ではマルチコアＣＰＵであり得る中央処理ユニット（ＣＰＵ）６０２を含む。ＣＰＵ６０２において実行される命令が、たとえば、ＣＰＵ６０２に関連するプログラムメモリからロードされ得るか、またはメモリ６２４からロードされ得る。

[0097]処理システム６００は、グラフィックス処理ユニット（ＧＰＵ）６０４、デジタル信号プロセッサ（ＤＳＰ）６０６、ニューラル処理ユニット（ＮＰＵ）６０８、マルチメディア処理ユニット６１０、およびワイヤレス接続性構成要素６１２など、特定の機能に適合された追加の処理構成要素をも含む。

[0098]いくつかの態様では、ＣＰＵ６０２、ＧＰＵ６０４、ＤＳＰ６０６、およびＮＰＵ６０８のうちの１つまたは複数は、図３～図５に関して本明細書で説明された方法を実施するように構成され得る。

[0099]６０８など、ＮＰＵは、概して、人工ニューラルネットワーク（ＡＮＮ）、深層ニューラルネットワーク（ＤＮＮ）、ランダムフォレスト（ＲＦ）、カーネル方法などを処理するためのアルゴリズムなど、機械学習アルゴリズムを実行するためのすべての必要な制御および算術論理を実装するために構成された特殊な回路である。ＮＰＵは、代替的に、ニューラル信号プロセッサ（ＮＳＰ）、テンソル処理ユニット（ＴＰＵ）、ニューラルネットワークプロセッサ（ＮＮＰ）、インテリジェンス処理ユニット（ＩＰＵ）、またはビジョン処理ユニット（ＶＰＵ）と呼ばれることがある。

[0100]６０８など、ＮＰＵは、画像分類、機械翻訳、物体検出、および様々な他のタスクなど、一般的な機械学習タスクの性能をアクセラレートするように構成され得る。いくつかの例では、複数のＮＰＵは、システムオンチップ（ＳｏＣ）などの単一のチップ上でインスタンス化され得るが、他の例では、それらは、専用機械学習アクセラレータデバイスの一部であり得る。

[0101]ＮＰＵは、トレーニングまたは推論のために最適化されるか、あるいは、いくつかの場合には、その両方の間の性能のバランスをとるように構成され得る。トレーニングと推論の両方を実施することが可能であるＮＰＵの場合、その２つのタスクは依然として、概して、独立して実施され得る。

[0102]トレーニングをアクセラレートするように設計されたＮＰＵは、概して、モデル性能を改善するために、（しばしばラベル付けまたはタグ付けされた）既存のデータセットを入力することと、そのデータセットにわたって反復することと、次いで、重みおよびバイアスなど、モデルパラメータを調節することとを伴う極めて算出集約的な（compute-intensive）動作である、新しいモデルの最適化をアクセラレートするように構成される。概して、誤った予測に基づいて最適化することは、モデルの層を通して逆伝搬することと、予測誤差を低減するための勾配を決定することとを伴う。

[0103]推論をアクセラレートするように設計されたＮＰＵは、概して、完全なモデル上で動作するように構成される。したがって、そのようなＮＰＵは、モデル出力（たとえば、推論）を生成するために、新しいデータを入力し、すでにトレーニングされたモデルを通してそれを迅速に処理するように構成され得る。

[0104]いくつかの態様では、ＮＰＵ６０８は、ＣＰＵ６０２、ＧＰＵ６０４、および／またはＤＳＰ６０６のうちの１つまたは複数の一部として実装され得る。

[0105]いくつかの態様では、ワイヤレス接続性構成要素６１２は、たとえば、第３世代（３Ｇ）接続性、第４世代（４Ｇ）接続性（たとえば、４ＧＬＴＥ（登録商標））、第５世代接続性（たとえば、５ＧまたはＮＲ）、Ｗｉ－Ｆｉ（登録商標）接続性、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続性、および他のワイヤレスデータ送信規格のための、副構成要素を含み得る。ワイヤレス接続性処理構成要素６１２は、１つまたは複数のアンテナ６１４にさらに接続される。

[0106]処理システム６００は、センサーの任意の様式に関連する１つまたは複数のセンサー処理ユニット６１６、画像センサーの任意の様式に関連する１つまたは複数の画像信号プロセッサ（ＩＳＰ）６１８、および／またはナビゲーションプロセッサ６２０をも含み得、ナビゲーションプロセッサ６２０は、衛星ベース測位システム構成要素（たとえば、ＧＰＳまたはＧＬＯＮＡＳＳ）ならびに慣性測位システム構成要素を含み得る。

[0107]処理システム６００は、スクリーン、（タッチセンシティブディスプレイを含む）タッチセンシティブ表面、物理的ボタン、スピーカー、マイクロフォンなど、１つまたは複数の入力および／または出力デバイス６２２をも含み得る。

[0108]いくつかの例では、処理システム６００のプロセッサのうちの１つまたは複数は、ＡＲＭまたはＲＩＳＣ－Ｖ命令セットに基づき得る。

[0109]処理システム６００は、ダイナミックランダムアクセスメモリ、フラッシュベーススタティックメモリなど、１つまたは複数のスタティックメモリおよび／またはダイナミックメモリを表す、メモリ６２４をも含む。この例では、メモリ６２４は、処理システム６００の上記の構成要素のうちの１つまたは複数によって実行され得るコンピュータ実行可能構成要素を含む。

[0110]特に、この例では、メモリ６２４は、特徴抽出構成要素６２４Ａと、改良構成要素６２４Ｂと、アテンション構成要素６２４Ｃと、ポーズ予測構成要素６２４Ｄと、不確実性推定構成要素６２４Ｅと、ゲーティング構成要素６２６Ｆと、トレーニング構成要素６２４Ｇと、推論構成要素６２４Ｈと、モデルパラメータ６２４Ｉ（たとえば、重み、バイアス、および他の機械学習モデルパラメータ）とを含む。図示された構成要素のうちの１つまたは複数、ならびに図示されていない他の構成要素は、本明細書で説明される方法の様々な態様を実施するように構成され得る。

[0111]一例では、特徴抽出構成要素６２４Ａは、図１中の特徴抽出器１０６と、図２中の特徴抽出器２０２とによって実装され得、改良構成要素６２４Ｂは、図１中の改良モジュール１０８と、図２中の改良モジュール２０４とによって実装され得、アテンション構成要素６２４Ｃは、図１中のアテンションマップ生成器１１０と、図２中のアテンションマップ生成器２０６とによって実装され得、ポーズ予測構成要素６２４Ｄは、図１中のポーズ予測器１１２によって実装され得、不確実性推定構成要素６２４Ｅは、図１中の過小トレーニング推定器１２４によって実装され得、ゲーティング構成要素６２６Ｆは、図１中のゲーティング関数１２８によって実装され得る。さらに、トレーニング構成要素６２４Ｇは、いくつかの例では、アルゴリズム３００を実装し得る。

[0112]概して、処理システム６００および／またはそれの構成要素は、本明細書で説明される方法を実施するように構成され得る。

[0113]特に、他の態様では、処理システム６００の態様は、処理システム６００がサーバコンピュータなどである場合などに省略され得る。たとえば、マルチメディア構成要素６１０、ワイヤレス接続性６１２、センサー６１６、ＩＳＰ６１８、および／またはナビゲーション構成要素６２０は、他の態様では省略され得る。さらに、処理システム６００の態様が分散され得る。

[0114]図６は一例にすぎず、他の例では、より少数の、追加の、および／または代替の構成要素をもつ代替の処理システムが使用され得ることに留意されたい。
例示的な条項
[0115]実装例が、以下の番号付けされた条項において説明される。

[0116]条項１：特徴マップを生成するために、機械学習モデルの特徴抽出段階で、入力データを処理することと、拡張された特徴マップを生成するために、特徴マップにアテンションマップを適用することと、改良された特徴マップを生成するために、機械学習モデルの改良段階で、拡張された特徴マップを処理することと、多次元タスク出力データを生成するために、機械学習モデルの第１の回帰段階で、改良された特徴マップを処理することと、更新されたアテンションマップを生成するために、機械学習モデルのアテンション段階で、改良された特徴データを処理することとを備える、方法。

[0117]条項２：３次元位置推定値を生成するために、３次元位置生成器で多次元タスク出力データを処理することをさらに備える、条項１に記載の方法。

[0118]条項３：２次元位置推定値を生成するために、多次元タスク出力データとともに３次元位置推定値を処理することをさらに備える、条項２に記載の方法。

[0119]条項４：３次元位置生成器が身体要素ポーズモデルを備える、条項３に記載の方法。

[0120]条項５：３次元位置推定値が、３次元空間における１つまたは複数の身体要素関節位置を備え、２次元位置推定値が、２次元空間における１つまたは複数の身体要素関節位置を備え、多次元タスク出力データが、回転推定値、変換推定値、またはスケーリング推定値のうちの１つまたは複数を備える、条項４に記載の方法。

[0121]条項６：身体要素ポーズモデルが手モデルを備える、条項５に記載の方法。

[0122]条項７：タスク不確実性推定値を生成するために、機械学習モデルの第２の回帰段階で、改良された特徴マップを処理することをさらに備える、条項１から６のいずれか一項に記載の方法。

[0123]条項８：タスク不確実性推定値に基づいて、３次元位置推定値に関連する不確実性を決定することと、タスク不確実性推定値に基づいて、２次元位置推定値に関連する不確実性を決定することとをさらに備える、条項７に記載の方法。

[0124]条項９：ループ判定値を生成するために、機械学習モデルのループ判定段階で、タスク不確実性推定値を処理することと、ループ判定値に基づいて、機械学習モデルの処理を終了すべきかどうかを決定することとをさらに備える、条項７から８のいずれか一項に記載の方法。

[0125]条項１０：機械学習モデルの改良段階で、拡張された特徴マップを処理することが、拡張された特徴マップにバッチ正規化層を適用することを備え、バッチ正規化層が、ループ回数に基づいて複数のバッチ正規化層から選択される、条項１から９のいずれか一項に記載の方法。

[0126]条項１１：２次元位置推定値をエクステンデッドリアリティデバイスのディスプレイスクリーン上に表示することをさらに備える、条項５に記載の方法。

[0127]条項１２：ループ判定値に基づいて、機械学習モデルの処理を終了することを決定することをさらに備える、条項９に記載の方法。

[0128]条項１３：ループ判定値に基づいて、機械学習モデルの処理を終了しないことを決定することと、ループ回数に基づいて、機械学習モデルの処理を終了することを決定することとをさらに備える、条項９に記載の方法。

[0129]条項１４：トレーニング損失関数に基づいて、トレーニング損失を決定することと、ここにおいて、トレーニング損失関数が、不確実性損失成分と、タスク損失成分とを備える、トレーニング損失に基づいて、機械学習モデルを更新することとをさらに備える、条項１に記載の方法。

[0130]条項１５：機械学習モデルでトレーニングデータを処理することと、ここにおいて、機械学習モデルは、特徴マップを生成するように構成された特徴抽出段階と、特徴マップおよびアテンションマップに基づいて、拡張された特徴マップを処理することと、改良された特徴マップを生成することとを行うように構成された改良段階と、改良された特徴マップを処理することと、更新されたアテンションマップを生成することとを行うように構成されたアテンション段階と、多次元タスク出力データを生成するために、改良された特徴マップを処理することを行うように構成された第１の回帰段階とを備える、トレーニング損失関数に基づいて、トレーニング損失を決定することと、ここにおいて、トレーニング損失関数は、不確実性損失成分と、タスク損失成分とを備える、トレーニング損失に基づいて、機械学習モデルを更新することとを備える、機械学習モデルをトレーニングする方法。

[0131]条項１６：機械学習モデルが、多次元タスク出力を処理することと、３次元位置推定値を生成することとを行うように構成された、３次元位置生成器をさらに備え、タスク損失成分が、３次元位置推定値誤差成分を備える、条項１５に記載の方法。

[0132]条項１７：機械学習モデルが、多次元タスク出力とともに３次元位置推定値を処理することと、２次元位置推定値を生成することとを行うように構成された、２次元位置生成器をさらに備え、タスク損失成分が、２次元位置推定値誤差成分を備える、条項１５に記載の方法。

[0133]条項１８：３次元位置生成器が身体要素ポーズモデルを備える、条項１７に記載の方法。

[0134]条項１９：３次元位置推定値が、３次元空間における１つまたは複数の身体要素関節位置を備え、２次元位置推定値が、２次元空間における１つまたは複数の身体要素関節位置を備え、多次元タスク出力データが、回転推定値、変換推定値、またはスケーリング推定値のうちの１つまたは複数を備える、条項１８に記載の方法。

[0135]条項２０：身体要素ポーズモデルが手モデルを備える、条項１８から１９のいずれか一項に記載の方法。

[0136]条項２１：機械学習モデルが、タスク不確実性推定値を生成するように構成された第２の回帰段階をさらに備え、ここにおいて、タスク不確実性推定値が、不確実性損失成分の３次元位置推定値分散成分と、不確実性損失成分の２次元位置推定値分散成分とを備える、条項１５から２０のいずれか一項に記載の方法。

[0137]条項２２：機械学習モデルが、タスク不確実性推定値を処理することと、ループ判定値を決定することとを行うように構成されたループ判定段階をさらに備える、条項２１に記載の方法。

[0138]条項２３：機械学習モデルの改良段階が、拡張された特徴マップに基づいてパラメータ化されたバッチ正規化層を備える、条項１５から２２のいずれか一項に記載の方法。

[0139]条項２４：コンピュータ実行可能命令を備えるメモリと、１つまたは複数のプロセッサとを備える処理システムであって、１つまたは複数のプロセッサが、コンピュータ実行可能命令を実行することと、処理システムに、条項１から２３のいずれか一項に記載の方法を実施させることとを行うように構成された、処理システム。

[0140]条項２５：条項１から２３のいずれか一項に記載の方法を実施するための手段を備える、処理システム。

[0141]条項２６：コンピュータ実行可能命令を備える非一時的コンピュータ可読媒体であって、コンピュータ実行可能命令が、処理システムの１つまたは複数のプロセッサによって実行されたとき、処理システムに、条項１から２３のいずれか一項に記載の方法を実施させる、非一時的コンピュータ可読媒体。

[0142]条項２７：条項１から２３のいずれか一項に記載の方法を実施するためのコードを備えるコンピュータ可読記憶媒体上で実施されたコンピュータプログラム製品。
追加の考慮事項
[0143]上記の説明は、当業者が本明細書で説明された様々な実施形態を実施することを可能にするために提供された。本明細書で説明される例は、特許請求の範囲に記載される範囲、適用可能性、または態様を限定するものではない。これらの態様への様々な修正は当業者には容易に明らかであり、本明細書で定義された一般原理は他の態様に適用され得る。たとえば、本開示の範囲から逸脱することなく、説明される要素の機能および構成において変更が行われ得る。様々な例は、適宜に、様々な手順または構成要素を、省略、置換、または追加し得る。たとえば、説明される方法は、説明される順序とは異なる順序で実施され得、様々なステップが追加、省略、または組み合わせられ得る。また、いくつかの例に関して説明される特徴は、いくつかの他の例において組み合わせられ得る。たとえば、本明細書に記載される態様をいくつ使用しても、装置は実装され得、または方法は実施され得る。さらに、本開示の範囲は、本明細書に記載される本開示の様々な態様に加えて、またはそれらの態様以外に、他の構造、機能、または構造および機能を使用して実施されるそのような装置または方法をカバーするものとする。本明細書で開示される開示のいかなる態様も、請求項の１つまたは複数の要素によって実施され得ることを理解されたい。

[0144]本明細書で使用される「例示的」という語は、「例、事例、または例示の働きをすること」を意味する。「例示的」として本明細書で説明されるいかなる態様も、必ずしも他の態様よりも好適または有利であると解釈されるべきであるとは限らない。

[0145]本明細書で使用される、項目のリスト「のうちの少なくとも１つ」を指す句は、単一のメンバーを含む、それらの項目の任意の組合せを指す。一例として、「ａ、ｂ、またはｃのうちの少なくとも１つ」は、ａ、ｂ、ｃ、ａ－ｂ、ａ－ｃ、ｂ－ｃ、およびａ－ｂ－ｃ、ならびに複数の同じ要素をもつ任意の組合せ（たとえば、ａ－ａ、ａ－ａ－ａ、ａ－ａ－ｂ、ａ－ａ－ｃ、ａ－ｂ－ｂ、ａ－ｃ－ｃ、ｂ－ｂ、ｂ－ｂ－ｂ、ｂ－ｂ－ｃ、ｃ－ｃ、およびｃ－ｃ－ｃ、またはａ、ｂ、およびｃの任意の他の順序）を包含するものとする。

[0146]本明細書で使用される「決定すること」という用語は、多種多様なアクションを包含する。たとえば、「決定すること」は、計算すること、算出すること、処理すること、導出すること、調査すること、ルックアップすること（たとえば、テーブル、データベースまたは別のデータ構造においてルックアップすること）、確認することなどを含み得る。また、「決定すること」は、受信すること（たとえば、情報を受信すること）、アクセスすること（たとえば、メモリ中のデータにアクセスすること）などを含み得る。また、「決定すること」は、解決すること、選択すること、選定すること、確立することなどを含み得る。

[0147]本明細書で開示される方法は、方法を達成するための１つまたは複数のステップまたはアクションを備える。本方法のステップおよび／またはアクションは、特許請求の範囲から逸脱することなく互いに交換され得る。言い換えれば、ステップまたはアクションの特定の順序が指定されない限り、特定のステップおよび／またはアクションの順序および／または使用は、特許請求の範囲から逸脱することなく変更され得る。さらに、上記で説明された方法の様々な動作は、対応する機能を実施することが可能な任意の好適な手段によって実施され得る。それらの手段は、限定はしないが、回路、特定用途向け集積回路（ＡＳＩＣ）、またはプロセッサを含む、様々な（１つまたは複数の）ハードウェアおよび／またはソフトウェア構成要素および／またはモジュールを含み得る。概して、図に示されている動作がある場合、それらの動作は、同様の番号をもつ対応するカウンターパートのミーンズプラスファンクション構成要素を有し得る。

[0148]以下の特許請求の範囲は、本明細書で示された態様に限定されるものではなく、特許請求の範囲の文言に矛盾しない全範囲を与えられるべきである。請求項内で、単数形の要素への言及は、そのように明記されていない限り、「唯一無二の」を意味するものではなく、「１つまたは複数の」を意味するものである。別段に明記されていない限り、「いくつかの」という用語は、１つまたは複数を指す。いかなるクレーム要素も、その要素が「ための手段」という句を使用して明確に具陳されていない限り、または方法クレームの場合には、その要素が「ためのステップ」という句を使用して具陳されていない限り、米国特許法第１１２条（ｆ）の規定の下で解釈されるべきではない。当業者に知られている、または後に知られることになる、本開示全体にわたって説明された様々な態様の要素のすべての構造的および機能的等価物は、参照により本明細書に明確に組み込まれ、特許請求の範囲に包含されるものである。さらに、本明細書で開示されるいかなることも、そのような開示が特許請求の範囲に明示的に具陳されているかどうかにかかわらず、公に供するものではない。

Claims

特徴マップを生成するために、機械学習モデルの特徴抽出段階で、入力データを処理することと、
拡張された特徴マップを生成するために、前記特徴マップにアテンションマップを適用することと、
改良された特徴マップを生成するために、前記機械学習モデルの改良段階で、前記拡張された特徴マップを処理することと、
多次元タスク出力データを生成するために、前記機械学習モデルの第１の回帰段階で、前記改良された特徴マップを処理することと、
更新されたアテンションマップを生成するために、前記機械学習モデルのアテンション段階で、前記改良された特徴データを処理することと、
を備える、方法。
３次元位置推定値を生成するために、３次元位置生成器で前記多次元タスク出力データを処理することをさらに備える、請求項１に記載の方法。
２次元位置推定値を生成するために、前記多次元タスク出力データとともに前記３次元位置推定値を処理することをさらに備える、請求項２に記載の方法。
前記３次元位置生成器は身体要素ポーズモデルを備える、請求項３に記載の方法。
前記３次元位置推定値は、３次元空間における１つまたは複数の身体要素関節位置を備え、
前記２次元位置推定値は、２次元空間における前記１つまたは複数の身体要素関節位置を備え、
前記多次元タスク出力データは、
回転推定値、
変換推定値、または
スケーリング推定値
のうちの１つまたは複数を備える、
請求項４に記載の方法。
前記身体要素ポーズモデルは手モデルを備える、請求項５に記載の方法。
タスク不確実性推定値を生成するために、前記機械学習モデルの第２の回帰段階で、前記改良された特徴マップを処理することをさらに備える、請求項５に記載の方法。
前記タスク不確実性推定値に基づいて、前記３次元位置推定値に関連する不確実性を決定することと、
前記タスク不確実性推定値に基づいて、前記２次元位置推定値に関連する不確実性を決定することと、
をさらに備える、請求項７に記載の方法。
ループ判定値を生成するために、前記機械学習モデルのループ判定段階で、前記タスク不確実性推定値を処理することと、
前記ループ判定値に基づいて、前記機械学習モデルの処理を終了すべきかどうかを決定することと、
をさらに備える、請求項７に記載の方法。
前記機械学習モデルの前記改良段階で、前記拡張された特徴マップを処理することは、前記拡張された特徴マップにバッチ正規化層を適用することを備え、
前記バッチ正規化層は、ループ回数に基づいて複数のバッチ正規化層から選択される、
請求項１に記載の方法。
前記２次元位置推定値をエクステンデッドリアリティデバイスのディスプレイスクリーン上に表示することをさらに備える、請求項５に記載の方法。
前記ループ判定値に基づいて、前記機械学習モデルの処理を終了することを決定することをさらに備える、請求項９に記載の方法。
前記ループ判定値に基づいて、前記機械学習モデルの処理を終了しないことを決定することと、
ループ回数に基づいて、前記機械学習モデルの処理を終了することを決定することと、
をさらに備える、請求項９に記載の方法。
トレーニング損失関数に基づいて、トレーニング損失を決定することと、ここにおいて、前記トレーニング損失関数は、
不確実性損失成分と、
タスク損失成分と、を備える、
前記トレーニング損失に基づいて、前記機械学習モデルを更新することと、
をさらに備える、請求項１に記載の方法。
処理システムであって、
コンピュータ実行可能命令を備えるメモリと、
１つまたは複数のプロセッサと、
を備え、前記１つまたは複数のプロセッサは、前記コンピュータ実行可能命令を実行し、前記処理システムに、
特徴マップを生成するために、機械学習モデルの特徴抽出段階で、入力データを処理することと、
拡張された特徴マップを生成するために、前記特徴マップにアテンションマップを適用することと、
改良された特徴マップを生成するために、前記機械学習モデルの改良段階で、前記拡張された特徴マップを処理することと、
多次元タスク出力データを生成するために、前記機械学習モデルの第１の回帰段階で、前記改良された特徴マップを処理することと、
更新されたアテンションマップを生成するために、前記機械学習モデルのアテンション段階で、前記改良された特徴データを処理することと、
を行わせるように構成された、処理システム。
前記１つまたは複数のプロセッサは、前記処理システムに、３次元位置推定値を生成するために、３次元位置生成器で前記多次元タスク出力データを処理することを行わせるようにさらに構成された、請求項１５に記載の処理システム。
前記１つまたは複数のプロセッサは、前記処理システムに、２次元位置推定値を生成するために、前記多次元タスク出力データとともに前記３次元位置推定値を処理することを行わせるようにさらに構成された、請求項１６に記載の処理システム。
前記３次元位置生成器は身体要素ポーズモデルを備える、請求項１７に記載の処理システム。
前記３次元位置推定値は、３次元空間における１つまたは複数の身体要素関節位置を備え、
前記２次元位置推定値は、２次元空間における前記１つまたは複数の身体要素関節位置を備え、
前記多次元タスク出力データは、
回転推定値、
変換推定値、または
スケーリング推定値
のうちの１つまたは複数を備える、
請求項１８に記載の処理システム。
前記身体要素ポーズモデルは手モデルを備える、請求項１９に記載の処理システム。
前記１つまたは複数のプロセッサは、前記処理システムに、タスク不確実性推定値を生成するために、前記機械学習モデルの第２の回帰段階で、前記改良された特徴マップを処理することを行わせるようにさらに構成された、請求項１６に記載の処理システム。
前記１つまたは複数のプロセッサは、前記処理システムに、
前記タスク不確実性推定値に基づいて、前記３次元位置推定値に関連する不確実性を決定することと、
前記タスク不確実性推定値に基づいて、前記２次元位置推定値に関連する不確実性を決定することと、
を行わせるようにさらに構成された、請求項１２に記載の処理システム。
前記１つまたは複数のプロセッサは、前記処理システムに、
ループ判定値を生成するために、前記機械学習モデルのループ判定段階で、前記タスク不確実性推定値を処理することと、
前記ループ判定値に基づいて、前記機械学習モデルの処理を終了すべきかどうかを決定することと、
を行わせるようにさらに構成された、請求項２１に記載の処理システム。
前記機械学習モデルの前記改良段階で、前記拡張された特徴マップを処理するために、前記１つまたは複数のプロセッサは、前記処理システムに、前記拡張された特徴マップにバッチ正規化層を適用することを行わせるようにさらに構成され、
前記バッチ正規化層は、ループ回数に基づいて複数のバッチ正規化層から選択される、
請求項１５に記載の処理システム。
前記１つまたは複数のプロセッサは、前記処理システムに、前記２次元位置推定値をエクステンデッドリアリティデバイスのディスプレイスクリーン上に表示することを行わせるようにさらに構成された、請求項１９に記載の処理システム。
前記１つまたは複数のプロセッサは、前記処理システムに、前記ループ判定値に基づいて、前記機械学習モデルの処理を終了することを決定することを行わせるようにさらに構成された、請求項２３に記載の処理システム。
前記１つまたは複数のプロセッサは、前記処理システムに、
前記ループ判定値に基づいて、前記機械学習モデルの処理を終了しないことを決定することと、
ループ回数に基づいて、前記機械学習モデルの処理を終了することを決定することと、
を行わせるようにさらに構成された、請求項２３に記載の処理システム。
前記１つまたは複数のプロセッサは、前記処理システムに、
トレーニング損失関数に基づいて、トレーニング損失を決定することと、ここにおいて、前記トレーニング損失関数は、
不確実性損失成分と、
タスク損失成分と、を備える、
前記トレーニング損失に基づいて、前記機械学習モデルを更新することと、
を行わせるようにさらに構成された、請求項１５に記載の処理システム。
コンピュータ実行可能命令を備える非一時的コンピュータ可読媒体であって、前記コンピュータ実行可能命令は、処理システムの１つまたは複数のプロセッサによって実行されたとき、前記処理システムに、方法を実施させ、前記方法は、
特徴マップを生成するために、機械学習モデルの特徴抽出段階で、入力データを処理することと、
拡張された特徴マップを生成するために、前記特徴マップにアテンションマップを適用することと、
改良された特徴マップを生成するために、前記機械学習モデルの改良段階で、前記拡張された特徴マップを処理することと、
多次元タスク出力データを生成するために、前記機械学習モデルの第１の回帰段階で、前記改良された特徴マップを処理することと、
更新されたアテンションマップを生成するために、前記機械学習モデルのアテンション段階で、前記改良された特徴データを処理することと、
を備える、非一時的コンピュータ可読媒体。
特徴マップを生成するために、機械学習モデルの特徴抽出段階で、入力データを処理するための手段と、
拡張された特徴マップを生成するために、前記特徴マップにアテンションマップを適用するための手段と、
改良された特徴マップを生成するために、前記機械学習モデルの改良段階で、前記拡張された特徴マップを処理するための手段と、
多次元タスク出力データを生成するために、前記機械学習モデルの第１の回帰段階で、前記改良された特徴マップを処理するための手段と、
更新されたアテンションマップを生成するために、前記機械学習モデルのアテンション段階で、前記改良された特徴データを処理するための手段と、
を備える、処理システム。