JP7328444B2

JP7328444B2 - エンテールメントを用いたキーポイントベースの姿勢追跡

Info

Publication number: JP7328444B2
Application number: JP2022515910A
Authority: JP
Inventors: アシムカダヴ、; ファーレイレイ、; ハンスペーターグラフ、; マイケルスノウワー、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-09-12
Filing date: 2020-09-10
Publication date: 2023-08-16
Anticipated expiration: 2040-09-10
Also published as: DE112020004320T5; US11475590B2; WO2021050773A1; US20210082144A1; JP2022548569A

Description

本開示は、一般にデジタルビデオに関する。より具体的には、一般に「姿勢追跡問題」と呼ばれる、フレーム全体でビデオ内の人物を識別し追跡するための手法について説明する。

近年、デジタルビデオは現代社会において非常に重要であることが証明されている。その結果、膨大な量のビデオが生成され、平凡なものから非常識なものまで全てが記録されている。このような大量のビデオが生成されると、ビデオ内の人々を識別し追跡するための自動化された方法は重要な考慮事項であり、当技術分野ではまだ満たされていない重大な技術的課題を提示する。

当技術分野の進歩は、姿勢追跡問題を解決するシステム、方法及び構成を対象とする本開示の態様によって成される。

従来技術とは対照的に、本開示の態様によるシステム、方法及び構成は、キーポイント推定をフレーミングする新しい方法、すなわち時間的マッチングに関する姿勢エンテールメント（entailment）モデルを伴う、トップダウンアプローチにおけるキーポイントを用いる姿勢エンテールメント問題を導入する。この方法は、新しいバウンディングボックス伝搬法によってさらに改良される。

本開示のより完全な理解は、添付の図面を参照することで実現される。

図１は、一連の要素を示す概略図であり、（ａ）はバウンディングボックス検出においてキーポイントを推定するために使用されるＨＲＮｅｔを示し、（ｂ）は検出エラーによるキーポイント予測を改善するために使用される時間ベースのｏｋｓを示し、（ｃ）は過去の複数のタイムスタンプから収集された姿勢ペアを示す。同じシェーディングを有する特定の姿勢は同じトラックＩＤを有するが、シェーディングのない他の姿勢は未知であることに留意されたい。各ペアは、他のペアとは独立して一度に１つずつトークン化され、（ｄ）はトランスフォーマー（transformer）ベースのネットワークを用いてペア毎に独立して計算された一致スコアを示し、（ｅ）は最大一致スコアを有するペアに対応するトラッキングＩＤを示す。

図２（上）は、トークン化を直感的に説明するための視覚化を示す図である。位置の列では、画像内の空間的な位置が類似しているため、一致する姿勢は一致しない姿勢よりも空間的に近くなる。姿勢画像は幅×高さ＝４３２となるようにダウンサンプリングされるため、軸の制限は４３２である。以下の列では、一致する姿勢が（位置のために）空間的に近いだけでなく、姿勢が同じ向きであるため、それらの輪郭もより類似する。最後の列のセグメント軸は、ペアの時間的距離を表し、各ペアにはその姿勢の間に１つのタイムスタンプがあるため、両方のペアに関してレーム（lame）である。図２（下）は、一連のトランスフォーマー（Ｔｘ）が自己減衰を計算し、ペア間の時間的関係を抽出する。バイナリ分類は以下の通りである。

図３は、本開示の一実施形態による、本発明のアプローチの全体的な概略を示す概略図である。

図４は、本開示の一実施形態による、トランスフォーマーと共に使用される、本発明者らの姿勢符号化スキーム対オリジナルの単語符号化スキームを示す図である。

図５は、トランスフォーマーが解釈できる表現を本開示の一実施形態によって生成される、本発明の姿勢追跡スキームの一連のステップを示す図である。

図６は、従来技術の姿勢追跡の一連のステップを示す図である。

図７は、本開示の一実施形態による、姿勢追跡の一連のステップを示す図である。

例示的な実施形態は、図面及び詳細な説明によってより完全に説明される。しかしながら、本開示による実施形態は、様々な形態で実現されてもよく、図面及び詳細な説明に記載された特定のまたは例示的な実施形態に限定されない。

以下は、単に本開示の原理を例示するものである。したがって、当業者であれば、本明細書で明示的に説明または図示されなくても、本開示の主旨及び範囲に含まれる、本開示の原理を具体化する様々な構成を考え出すことができることを理解されたい。

さらに、本明細書で挙げる全ての実施例及び条件を示す用語は、本開示の原理及び本技術を推進するために本発明者らが提供するコンセプトの理解を助ける教育目的のためだけであることを意味し、具体的に挙げられた実施例及び条件に限定されないと解釈されるべきである。

また、本開示の原理、態様及び実施形態、並びにその特定の実施例で挙げる本明細書の全てのステートメントは、その構成及び機能の均等物の両方を含むことを意味する。さらに、そのような均等物には、現在知られている均等物と、将来開発される均等物、すなわち構成に関係なく同じ機能を実現する、開発された要素の両方を含むことを意味する。

したがって、例えば、本明細書の任意のブロック図は、本開示の原理を実施する回路の実例を示す概念図であることが当業者に理解されよう。

本明細書では、特に明記しない限り、図を含む図面は、正確な縮尺率で描かれていない。

いくつかの追加の背景として、姿勢追跡は人の動作認識とビデオ理解に適用される重要なアプローチであることに留意されたい。通常、複数の人物の姿勢追跡は２つのステップで行われる。第１に、個人のキーポイントを推定する推定ステップ。第２に、追跡ステップでは、個々のキーポイントが一意の人物に割り当てられる。

一般に、現代の姿勢追跡方法は、推定の第１のステップに関して深層畳み込みニューラルネットワークに依存する。多くの場合、追跡ステップの方法はオプティカルフロー（Optical Flow）ベースであり、特徴ベースの類似度の恩恵を受ける。これは、正確ではあるが、計算コストが高くなる。他の方法では、グラフ畳み込みネットワーク（ＧＣＮ）を使用する。これはオプティカルフロー法よりも少ないパラメータを使用するが、畳み込みの精度は高い空間分解能に依存するため、１秒あたりの浮動小数点演算（ＦＬＯＰＳ）の点でコストがかかる。さらに、空間的な一貫性などの非学習ベースの方法は、畳み込みベースの方法よりも高速であるが、それほど正確ではない。

重要なことは、追跡ステップで採用される方法は、キーポイントの関係をトラックに学習する必要があり、これは、時間の経過に伴うオクルージョンや変動のために困難な場合がある。

さらに、これら全ての方法には少なくとも２つの欠点があることに留意されたい。第１に、それらは一般に、高次の時間的な姿勢関係を学習できないために性能が低下する。第２に、それらは計算の点でしばしば高価であり、限られた計算予算では、オンラインでフレームを処理することができない。

上記の欠点に対処するために、時間情報を用いてキーポイント推定を有利に改善し、トランスフォーマービルディングブロックを用いて、特に新しいエンテールメント設定においてキーポイント情報を符号化する効率的な姿勢追跡方法（ＫｅｙＴｒａｃｋ）を開発したので説明する。

大まかに言えば、本発明者らのアプローチは、２つの文が互いに続くか否かを予測するテキストエンテールメントタスクと似ている。そのため、新しい姿勢エンテールメントタスクについて説明する。このタスクでは、モデルは２つのキーポイント姿勢が時間的に互いに続くかエンテールするかを予測することを学習する。したがって、深層ＣＮＮを用いて高次元画像表現から情報を抽出するのではなく、本発明の新しい方法では、姿勢のキーポイントに対応する１５個のトークンの文から情報を抽出する。ＢＥＲＴモデルが文の単語をトークン化するのと同様の方法で、各姿勢の１５個のキーポイントを埋め込み、その後、これらの埋め込みをトランスフォーマーネットワークに供給する。有利なことに、本発明者らの埋め込みには、各キーポイントの空間的な位置を超える情報が含み、非常に低い解像度でもネットワークを成功させることが可能であり、ＧＣＮよりも最大で５％向上する。さらに、これから説明するように、本発明者らの方法及び結果は畳み込みベースの方法と比べて競争力があり、本発明者らの方法は空間分解能に対する感度がはるかに低いため、非常に高速であるという利点がある。

さらに、トランスフォーマーネットワークで使用されるキーポイント推定をさらに改善するために、ＴＯＫＳ（Temporal Object Keypoint Similarity）法と呼ばれる方法を採用する。このＴＯＫＳ法は、学習したパラメータを推定ステップに追加せず、時間的な関連を学習することでキーポイント推定を改善するために多くのトップダウン姿勢追跡法で現在使用されている手法であるバウンディングボックス伝搬よりも優れている。本発明者らが改良したＴＯＫＳ法は、キーポイントを直接操作し、単一の検出器を使用するため、バウンディングボックスの伝搬よりも正確であり、検出アンサンブルよりも高速である。

現時点で、本発明の追跡方法であるＫｅｙＴｒａｃｋは、少なくとも従来技術の現代の方法を上回る以下の利点を提供することに留意されたい。

第１に、ＫｅｙＴｒａｃｋは、異なる時間ステップからの２つの姿勢が同じ人物であるか否かについて分類する姿勢エンテールメントを導入する。さらに、本発明者らのアブレーション研究で示したように、標準画像解像度でＣＮＮと同等の性能を発揮しながら、低解像度でそれを大幅に上回るトークン化スキーム及びトランスフォーマーネットワークを採用した。

第２に、ＫｅｙＴｒａｃｋは、キーポイント推定を改善するための時間的方法であるＴＯＫＳを採用し、ＴＯＫＳは、バウンディングボックスの伝搬よりも正確であり、検出アンサンブルよりも高速であり、学習したパラメータを必要としない。

加えて、本発明者らのアブレーション（abalation）研究において、本開示によるトランスフォーマーは、畳み込み等の視覚的な特徴を使用し、時間依存性を高精度で学習できる代替の先行技術アプローチよりも空間分解能にはるかに依存しないことを示している。

最後に、このような利点を考慮して、新しい姿勢追跡パイプラインを開発したので開示する。このパイプラインは、姿勢追跡テストセットに新しいＳＯＴＡを設定すると同時に、同様の精度の方法よりも効率的である。わずか０．４３Ｍのパラメータで構成されるモデルを用いて、ＰｏｓｅＴｒａｃｋの精度を向上させることができる。さらに、本発明者らのＲＧＢフリー追跡法を用いて、ＵＷＢセンサ等の他のモダリティから得られたキーポイントに対してリアルタイムの複数の人物のキーポイント追跡を提供できる。

本発明者らの研究は、姿勢追跡方法、効率的な姿勢方法に関する関連研究及びビデオ問題に対するトランスフォーマーネットワークの適用に関する最近の研究に触発されている。

（姿勢推定）

個人の姿勢推定に関する初期の研究は、個人の様々な関節間の空間的な相関及び相互作用を学習するグラフィカルモデルに焦点を当ててきた。このようなモデルは、明示的にモデル化する必要があるオクルージョン及び長距離の時間的な関係のために、性能が低下することがよくある。

姿勢推定に関する最近の研究では、畳み込みニューラルネットワーク（ＣＮＮ）を用いて、関節のデカルト座標を直接回帰するか、関節が特定の場所にある確率を示すヒートマップを生成する。

これらの畳み込みアプローチの大部分はトップダウン法とボトムアップ法とに分類することができ、トップダウン法は、人物候補を識別するために個別の検出ステップを使用する。次に、これらの人物候補に対して単一の人物の姿勢推定ステップが実行される。ボトムアップ法では、全ての候補からキーポイントを計算し、これらのキーポイントを個々の人物の関節に相互に関連付ける。この後者のボトムアップ法は、全てのキーポイントが単一のステップで計算されるため、より効率的であるが、オブジェクト検出ステップが回帰境界を制限するため、前者の方法の方がより正確である。それにもかかわらず、トップダウン法は小さなオブジェクトではうまく機能せず、最近の研究（ＨＲＮｅｔなど）では、空間情報の損失を防ぐためにさまざまな解像度の並列ネットワークを使用する。

最後に、姿勢推定は、カスケード予測の恩恵を受けることが示され、姿勢改良方法は、別の後処理ネットワークを用いて前のステージの姿勢推定結果を改良する。その精神において、ＫｅｙＴｒａｃｋは、ＴＯＫＳを用いて信頼性が低いキーポイントを時間的に集約し、抑制することでキーポイントの推定値を改善する。

（姿勢追跡方法）

知られているように、姿勢追跡は、個々の姿勢情報に一意のＩＤを割り当て、それらを、時間を通して一貫して追跡することで、時間を通して姿勢情報を追跡することを含む。これらの方法では、前のサブセクションで説明した推定方法を用いて姿勢情報を計算することが多い。さらに、これらの方法は、畳み込み特徴、オプティカルフロー法またはキーポイント上のグラフ畳み込みネットワークを用いて、時間フレーム全体の時空間関係を学習することで追跡を実行する。他の方法では、グラフ分割ベースのアプローチを使用して時間の経過とともにトラックをグループ化する。姿勢追跡の推定、改良及び追跡ステップに使用されるもう１つの方法は、ビデオのサイクル整合性を用いて自己教師あり方式で姿勢情報を抽出する。別の方法であるＰｏｓｅＦｌｏｗは、データ駆動型アプローチを利用して選択されたハードコード化パラメータを用いたフレーム間／フレーム内姿勢距離を使用し、ＮＭＳを用いてロバストにされた複数のフレームにわたる姿勢フローを構築する。

ＫｅｙＴｒａｃｋは、ｔＯＫＳとトランスフォーマーベースの姿勢エンテールメントアプローチを用いてロバストな検出を取得する。ＬｉｇｈｔＴｒａｃｋは、キーポイントに関するグラフ畳み込みネットワークを使用してキーポイント情報を用いる軽量ソリューションを達成する。比較して、本発明者らの方法は、畳み込みを完全にディスペンス（dispense）し、トランスフォーマーを用いて高次の時間的な関係を学習するため、これらのネットワークよりも優れている。最後に、ＰｏｓｅＷａｒｐｅｒは、ラベル付きフレームとラベル無しフレームのペアを用いて変形可能な畳み込みを利用して姿勢ワーピング（warping）を学習することで人物の姿勢を予測する。代わりに、発明者らのエンテールメントアプローチは、キーポイント情報だけを用いて時間的な姿勢の変化を学習する。

（トランスフォーマーモデル）

最近、畳み込みと再帰に代わる画像とビデオの入力モダリティについて、トランスフォーマーベースのモデルが検討されている。これらの方法は、ペアワイズ法とは異なり、様々なシーン要素間の高次の関係を効率的にモデル化することが示されている。このようなトランスフォーマーモデルは、画像分類、視覚的な質問回答、動作認識、ビデオキャプション及びその他のビデオ問題に適用されてきた。ビデオアクショントランスフォーマーは、ビデオ内の全ての人物に関するコンテキスト及びインターラクションを学習することで、トランスフォーマーを使用して動作のローカライゼーション問題を解決する。

本明細書で開示される本発明の方法ＫｅｙＴｒａｃｋは、キーポイントを用いてビデオ空間の関係を学習する。トランスフォーマーを介してＲＧＢ情報を広範囲に使用する以前の研究とは異なり、本発明者らの方法は、トランスフォーマー内のキーポイント情報を有利に符号化して、ＲＧＢ情報を使用せずに姿勢追跡のための時間情報を効率的に学習する。ＢＥＲＴは、トランスフォーマーを用いて欠落している単語や次の文を予測する教師なしタスクに対してマルチタスク転送学習を実行することでトランスフォーマーネットワークを事前訓練する。

これら他のトランスフォーマーアーキテクチャとは対照的に、ＫｅｙＴｒａｃｋはトランスフォーマーアーキテクチャを用いてキーポイント推定との時間的な追跡関係を学習する。

運用上、ＫｅｙＴｒａｃｋは、ラベル付けされた姿勢データセットを用いて、姿勢エンテールメントを使用して様々なフレームにわたって人物の姿勢情報をマッチングし、トランスフォーマーネットワークが教師あり設定で時間的な関係を学習できるようにする。このモデルへの入力は、姿勢ベースのキーポイント類似度メトリックを使用して改良された人物の姿勢推定キーポイントである。この開示が実施された場合、複数人の姿勢追跡問題に関する姿勢エンテールメント問題をどのように実行するかを説明する。

（ＫｅｙＴｒａｃｋ）

ここで、ＫｅｙＴｒａｃｋシステム及び方法で使用されるキーポイント推定及び追跡アプローチについて説明する。タイムステップのフレーム

に関して、ｉ番目の姿勢

にトラックＩＤを割り当てる。

最初のステップは、各姿勢のキーポイントを検出することである。トップダウンアプローチの特徴であるように、各姿勢の周りにバウンディングボックスをローカライズすることから始める。次に、バウンディングボックス

におけるｊ個のキーポイントをそれぞれ検出する。次に、提案した方法である時間的ＯＫＳ（ＴＯＫＳ）

を用いてキーポイント予測を改善し、キーポイントを取得する。

ここから、現在のタイムステップでｉ番目の姿勢を追跡ＩＤ

（適切なＩＤ）なしで割り当てる。前のタイムステップ

で既にＩＤが割り当てられている姿勢との類似度に基づいてＩＤを選択する。マッチングスコア

は、本明細書に記載された姿勢エンテールメント法を用いて計算される。

偽陰性はキーポイント検出で避けられない問題であり、正しいトラックＩＤの姿勢がビデオに表示されなくなったように見える可能性があるため、下流の追跡ステップに悪影響を与える可能性がある。本発明者らは、前の１つのフレームだけでなく、複数のフレーム

の姿勢に関するマッチングスコアを計算することで、これを軽減する。したがって、各姿勢

を比較する。ここで、

であり、

である。実際には、特定のフレームで比較する姿勢の数を、空間的に最も近いｎ個の姿勢に制限する。これは、以前の方法が、フレーム間のＩｏＵが最も高いバウンディングボックスを使用するだけで成功したためである。したがって、ランタイムは

によって制限される。これは、マッチスコアＭ（｜Ｍ｜＝δｎ）のセットを与える。最大マッチスコアのトラックＩＤに対応する追跡ＩＤ

を姿勢

に割り当てる。

（姿勢エンテールメント）

（テキストエンテールメント）
テキストエンテールメントにおいて、モデルは、前提（premise）文が文のペアの仮説（hypothesis）文を意味するかどうかを分類する。この問題に対する典型的なアプローチは、最初に文のペアを埋め込み空間に投影し、次に文のペアの二項分類を出力するニューラルネットワークを介してそれらを供給することを含む。

（何故、姿勢エンテールメントか？）
キーポイント情報を使用して姿勢エンテールメントを動機付けるために、最初に視覚的な特徴に対するその利点について説明する。視覚的な特徴を使用すると、計算コストが大幅に増加し、ネットワークが照明の変化などの望ましくない変動の影響を受けやすくなる。したがって、追跡ステージでは、検出器によって推定されたキーポイントのみを用いて姿勢を表現する。

姿勢に追跡ＩＤを割り当てるには、それを以前のタイムステップのキーポイントと比較し、それが誰であるかを特定する必要がある。これには、時間的な関係を学習する必要がある。自然言語処理のアーキテクチャは、時間的な関係を学習するために慎重に開発されてきた。画像はテキストシーケンスとは非常に異なる表現であるため、通常、これらを画像関連の問題に使用するのは実用的ではない。但し、ここで示すように、キーポイントを有する

姿勢（この場合、

）を、埋め込み空間に投影し、ＮＬＰのＳＯＴＡビルディングブロックであるトランスフォーマーに供給できる。

したがって、本発明者らは、タイムステップ

における姿勢、すなわち前提と、タイムステップ

における姿勢、すなわち仮定が同じ人物であるかどうかを分類する姿勢エンテールメントについて説明する。図１の（ａ）はバウンディングボックス検出におけるキーポイント推定のために使用されるＨＲＮｅｔを示し、図１の（ｂ）は検出エラーによるキーポイント推定を改善するために使用される時間ベースのｏｋｓを示し、図１の（ｃ）は複数の過去のタイムスタンプから収集された姿勢ペアを示している。同じシェーディングを持つ特定の姿勢は同じトラックＩＤを持ち、シェーディングを持たない他の姿勢は未知であることに留意されたい。各ペアは、他のペアから独立して一度に１つずつトークン化され、（ｄ）はトランスフォーマーベースのネットワークとのペア毎に個別に計算されたマッチスコアを示し、（ｅ）は最大マッチスコアのペアに対応する追跡ＩＤを示す。

（埋め込み姿勢ペア）

引き続き図１を参照すると、まず各キーポイントが３つの異なるタイプのトークンにトークン化されていることに留意されたい。２つの姿勢があるため、タイプ毎に２つの

トークンがある。各トークンは埋め込み

に線形に投影される。ここで、Ｈはトランスフォーマーの隠れサイズである。実際には、埋め込みは学習したルックアップテーブルである。各トークンについては、以下で詳しく説明する。

本明細書の執筆時点で、ＢＥＲＴはテキストエンテールメントのＳＯＴＡベンチマークを保持していることに留意されたい。ＢＥＲＴはテキストエンテールメントに関する新しい埋め込みスキームを提案し、これをガイドに用いて本発明者らの独自の埋め込みスキームを設計した。明確にするために、本発明者らは、本発明者らが使用するトークンと類似する、ＢＥＲＴスキームにおけるトークンについて説明する。

各キーポイントの絶対空間位置は位置トークンρであり、その値は範囲

内にある。実際には、オリジナルのフレームのダウンサンプリングされたバージョンの絶対空間位置が使用される。これは、本発明者らの方法の効率を改善するだけでなく、本発明者らが説明したように、それをより正確にする。ＢＥＲＴにおける位置トークンは、その文中の単語の時間的な位置であり、その値は１から最大シーケンス長までの範囲である。

姿勢

の位置トークンに関する汎用表現は以下である。ここで、

はｐ^tのｊ番目のキーポイントの位置トークンに対応する。

タイプトークンは、キーポイントの固有のタイプ、例えば、頭、左肩、右足首等に対応する。トークンタイプのキーポイントは範囲

内にある。これらは姿勢の向きに関する情報を追加し、キーポイントが同様の空間位置にある場合に、低解像度で高精度を達成するために重要である。ＢＥＲＴでは、このトークンは単にＴｏｋｅｎと呼ばれ、１から語彙サイズまでの語彙内の一意の単語に対応する。

姿勢

のタイプトークンに関する汎用表現は以下の関係（２）で示される。ここで、

は、ｐ^tのｊ番目のキーポイントのタイプトークンに対応する。

セグメントトークンは、姿勢がどのタイムステップからのものであるかを示す。セグメントトークンは範囲

内にある。ここで、δは選択された定数である。（本発明者らの目的のためにδは４に設定される。）これにより、異なる数のタイムステップで分離されたフレームを処理できるため、この方法を不規則なフレームレートに適応させることもできる。

ＢＥＲＴにおいて、この値はバイナリであり、ＢＥＲＴは時間的に隣接する文に対してテキストエンテールメントを実行するだけである。

これらの各トークンを埋め込んだ後、それらは合計され、トランスフォーマーマッチングネットワーク入力が生成される。これらの各トークンを埋め込んだ後、それらは合計され、トランスフォーマーマッチングネットワーク入力が生成される。

（トランスフォーマーマッチングネットワーク）

トランスフォーマーは、一連のクエリ（Ｑ）、キー（Ｋ）及び値（Ｖ）に対してスケーリングされたドットプロダクトアテンションを計算する。アテンション式は以下の通りである。

本発明者らのネットワークにおいて、Ｑ、Ｋ及びＶは隠れ状態の線形投影である。このようにして、他の全てのキーポイントに対する各キーポイントのアテンションが計算される。実際には、マルチヘッドアテンションを使用し、キーポイント毎にアテンションヒートマップを作成する。これを本明細書で表示する。さらに、表示されていないキーポイントを考慮するために、アテンションマスクを使用する。このアテンションマスクは以前とまったく同じように機能するため、表示されていないキーポイントにはアテンションが無い。

本発明者らのネットワークは、一連のスタックされたトランスフォーマーを含む。繰り返すが、ＢＥＲＴと同様に、シーケンスの最初のトークンを選択し、そのトークンを学習した線形射影に入力することで、入力を「プール」するプーラー（Pooler）にこの表現を供給する。これは線形レイヤに供給され、２つの与えられた姿勢マッチの尤度を出力するバイナリ分類器として機能する。

図２（上）はトークン化を直感的に説明するために視覚化して示す。位置の列では、画像内の空間的な位置が類似しているため、一致する姿勢は一致しない姿勢よりも空間的に近くなる。姿勢画像は、その幅×高さ＝４３２となるようにダウンサンプリングされるため、軸の限界は４３２である。次の列では、一致する姿勢が（位置のために）空間的に近いだけでなく、姿勢が同じ向きであるため、それらの輪郭もより似ている。最後の列のセグメント軸は、ペアの時間的距離を表し、各ペアの姿勢間に１つのタイムスタンプがあるため、両方のペアに関してレームである。図２（下）において、一連のトランスフォーマー（Ｔｘ）は自己減衰を計算し、ペア間の時間的な関係を抽出する。二項分類は次のとおりである。

（改良されたマルチフレーム姿勢推定）

キーポイントは、ＨＲＮｅｔを用いて推定される。それらは、時間的ＯＫＳ用いて改善される。ここで、最初にバウンディングボックス伝搬を導入し、本開示の態様による、時間的ＯＫＳがどのように有利な改善を提供するかを説明する。

バウンディングボックス検出器は、オクルージョン、不十分な照明及びその他の変動のために、シーンにおいて、人物を見逃す傾向があることに留意されたい。前のフレーム

のバウンディングボックスを用いてこれらの偽陰性を説明できる。本発明者らのデータセットのように、フレームレートが比較的高い場合、各人物の空間的位置はフレーム毎に劇的に変化しない。したがって、このフレーム

におけるｉ番目の人物のバウンディングボックスをフレーム

における同じ空間的位置に貼り付けることは、人物

に関してバウンディングボックスの適切な近似である。バウンディングボックスは、フレームごとの空間的位置の変化を考慮して小さな係数で拡大され、姿勢推定器に供給される。

からの全ての人物

に対応するボックスは

に伝搬されるため、検出器が

で失敗しない場合は、ｉ番目の人物用に２つのボックスが存在することになる。

本発明者らは、これらを

と称す。ここで、¹はボックスが伝搬されたことを示す。バウンディングボックス伝搬に対する以前のアプローチは、標準的なＮＭＳ（non-maximal suppression）を用いてこれらのボックスのうちのどれを推定器に入力するかを選択する。重要なのは、１回は

で、もう１回は

で姿勢推定器を使用して姿勢を予測することである。次に、オブジェクトキーポイント類似度（ＯＫＳ）を使用して、どの姿勢を保持するかを決定する。これは、バウンディングボックスではなく、キーポイントの信頼度スコアを使用するため、ＮＭＳを使用するよりも正確であるために有利である。
（実験）

（姿勢追跡データセット）

（姿勢トラック２０１７）

訓練、検証及びテストセットには、それぞれ２５０、５０及び２０８の注釈付きビデオが含まれる。ｈｔｅｔｅｓｔセットの注釈は与えられない。各フレームには平均して約５つの姿勢があり、ほとんどのビデオは４１～１５１フレームの範囲である。各訓練ビデオの３０の連続するフレームに注釈が付けられる。３０の連続する注釈付きフレームに加えて、検証及びテストセットには、各ビデオのセクションにまばらにラベルを付けることが可能であり、４番目毎のフレームにこれらのセクションのラベルが付与される。本発明者らは、ＰｏｓｅＴｒａｃｋ２０１７テストセットで評価する。

（ＰｏｓｅＴｒａｃｋＥＣＣＶ２０１８Ｃｈａｌｌｅｎｇｅ）
本発明者らは、ＥＣＣＶＰｏｓｅＴｒａｃｋ２０１８Ｃｈａｌｌｅｎｇｅで使用されたバリデーションセットについて、本発明者らの比較の大部分を実施する。ＰｏｓｅＴｒａｃｋ２０１７のスーパーセットには、５５０の訓練ビデオ、７４の検証ビデオ、３７５のテストビデオがある。

（評価サーバ）
ＰｏｓｅＴｒａｃｋ２０１７のヘルドアウトのテストセットには、ＰｏｓｅＴｒａｃｋ評価サーバを使用する。関節あたりの平均精度（ＡＰ）及びマルチオブジェクト追跡精度（ＭＯＴＡ）の両方が計算される。ＡＰは、正しいキーポイントの頭部の正規化確率（ＰＣＫｈ）に基づいている。ＭＯＴＡは、偽陰性、偽陽性及びＩＤ切替に対してペナルティを課す。

各キーポイントｋＰＫのＭＯＴＡ^kは、

である。

本発明者らの最終的なＭＯＴＡは全てのＭＯＴＡ^kの平均値である。

（時間的ＯＫＳによる検出の改善）

本発明者らは、精度の上限としてグランドトゥルースボックスを使用する。以下の表から明らかなように、バウンディングボックス検出エラーは、姿勢推定精度を著しく妨げる。それは４．７％低下する。続いて、時間的ＯＫＳが姿勢推定を著しく増加させることを示す。これは、存在するが誤った検出を改善するだけでなく、偽陰性を考慮するため、バウンディングボックス伝搬よりも性能が優れている。複数のＯＫＳ値を表示する。

上記の表において、グラウンドトゥルースは、グラウンドトゥルースバウンディングボックスが使用されることを示す。ＨＴＣは、バウンディングボックスがハイブリッドタスクカスケードのオブジェクト検出器で推定されることを示す。

（姿勢エンテールメントよる追跡の改善）

ＭＯＴＡスコアは姿勢推定精度と追跡精度の両方に重みを付けるため、全ての方法に同じキーポイントが与えられている場合、本発明者らの追跡方法を他の方法と比較した。本発明者らの比較は、ＧＣＮとオプティカルフローである。これを実現するために、ＰｏｓｅＴｒａｃｋキーポイントアノテーションから複数のペアを作成する。各ペアは隣接するタイムステップにおける２つの姿勢であり、ペアを一致または不一致として分類する。これは、本質的にＩＤ切替をカウントし、ＩＤＳＷがＣＶＰＲ追跡チャレンジで使用されることを引用する。一致精度は、スイッチされない姿勢の数である。これらは、ＰｏｓｅＴｒａｃｋ２０１８バリデーションセットとＰｏｓｅＴｒａｃｋ２０１７テストセットの両方の上位８の方法で使用される追跡方法である。（ＩｏＵ類似度は２つの連結方法で使用されるが、最近の研究ではＧＣＮとオプティカルフローの両方がより正確であることが分かってきたため、ここではＩｏＵを考慮しない。）但し、両方の唯一の例外は、キーポイント推定及び追跡のステップを絡み合わせるボトムアップ法であり、姿勢エンテールメントとの直接的な比較を困難にする。本発明者らは、オプティカルフローを使用する他の方法も同様に実装し、公知のＧＣＮの実装も採用しているため、オプティカルフローの既知の実装を採用する。

また、各マッチング法の性能が予測されたキーポイントによってどのように影響を受けるかを評価した。この実験を行うために、グラウンドトゥルースバウンディングボックスがＨＲＮｅｔに入力され、各ボックスについて予測が行われる。そして、これらの予測されたキーポイントは、グラウンドトゥルースキーポイントの代わりに使用される。さらに、各マッチング法でＭＯＴＡスコアを評価した。フレームの各ペアの精度は独立して計算されるため、追跡エラーは将来のフレームに伝搬されない。

（様々なフレームレート）
全ての結果を以下の表に示す。

観察されるように、本発明者らの方法は、精度においてＧＣＮを大幅に上回っている。ＧＣＮもキーポイント情報のみを使用している。これは、トークン化スキームとトランスフォーマーネットワークが姿勢間の時間的な関係を学習する能力を向上させることを示している。ＭＯＴＡはキーポイントのしきい値処理に非常に敏感である。キーポイントのしきい値を下げる。ＭＯＴＡのスコアが最大となるようにキーポイントのしきい値を設定する。ＬｉｇｈｔＴｒａｃｋはＩｏＵとＧＣＮのハイブリッドを使用しているが、全てのシナリオで姿勢エンテールメントを使用しており、類似度スコアリングのよりロバストな方法であることを示している。

（様々な空間分解能による精度）
低解像度では、視覚的な特徴の性能が低下する。ＧＣＮはＩｏＵと同様に部分的な空間位置を取ることができるが、本発明者らは空間を離散化する。オプティカルフローは、近くの画素が同様の動きをすると想定する。

（ＳＯＴＡとの追跡パイプライン比較）

ここで、本発明者らの追跡パイプライン全体を、姿勢エンテールメント及びｔＯＫＳの両方の貢献を追加されたものと、他のアプローチのＳＯＴＡとを比較する。以下の表は、ＰｏｓｅＴｒａｃｋの両方のバージョンで本発明者らのネットワークがより高いＭＯＴＡスコアを達成していることを示している。本発明のＦＰＳも高く、アンサンブルを使用しているため、ＭＯＴＡスコアが本発明の近くにある方法の多くはオフラインになっている。（１秒あたりのフレーム数（ＦＰＳ）は、追跡パイプラインによって処理されたフレームの数を、それらを処理するために要した合計実行時間で除算することで計算される。）

この表（上記）は、様々な埋め込み方式に対するマッチ精度を示す。
マッチ精度は、姿勢を一致させる４つのタイムステップにわたる一致精度を決定することで計算される。相対位置埋め込みを使用する埋め込みスキームは、破線で区切られている。相対位置トークンは精度に悪影響を及ぼす。

（姿勢エンテールメントアブレーション学習）

ＭＯＴＡスコアはキーポイント予測の品質に影響されるため、本発明者らは、このセクションで実行される全ての実験にグラウンドトゥルースキーポイントを使用して、変動の原因を制限する。

（様々なトークン化スキーム）

ここでは、最高のパフォーマンスを発揮するトランスフォーマーネットワークアーキテクチャを使用する。マッチングネットワークへの入力は、位置埋め込み、トークン埋め込み及びセグメント埋め込みの合計である。上記表から明らかなように、これらの各々は重要である。セグメント埋め込みは、ネットワークが姿勢を区別することを可能にする。トークン埋め込みは、姿勢の向きに関するネットワーク情報を与え、空間的に近接するキーポイント、すなわち同じまたは類似の位置埋め込みを有するキーポイントを解釈するのを助ける。

また、画像全体のキーポイントの絶対距離ではなく、姿勢の中心からの相対的なキーポイントの距離を使用するモデルを訓練する。この埋め込みにより、マッチ精度が低下する。これは、多くの人物がＰｏｓｅＴｒａｃｋデータセットでランニング等の同じ動作を実行し、ほぼ同じ姿勢をとっていることが原因の可能性が高い。

（自己アテンションの重要性）

本発明者らは、自己アテンションを畳み込み及び線形レイヤに置き換える。

（様々なトランスフォーマーのハイパーパラメータ）

本発明者らは、トランスフォーマーブロックの数、トランスフォーマーブロックの隠れサイズ及びヘッドの数を変更する。トランスフォーマーブロックの数及び隠れサイズを低減すると性能が悪化し、ヘッドの数を増やし過ぎると性能が大きく損なわれる。結果を以下の表に示す。

（時間ステップの数及びその他の要因）

使用するタイムステップの数を減らすと、ＭＯＴＡスコアに悪影響を及ぼす。本発明者らの方法は検出エラーに対するロバスト性が低下するため、０．１から０．５ポイントの間で低下する。また、マッチスコアの最大値を取得するのではなく、他のアルゴリズムも試してみた。先行技術のハンガリーのアルゴリズムを試してみたが、これは性能を損なう。また、全てのタイムステップで各人物の全てのマッチスコアの平均を取り、グローバル最大値ではなく平均値の最大値を使用することを試みた。これは性能を損なう原因となる。これは、トランスフォーマーのマッチ精度が、より遠いタイムステップにおいて悪化するためと考えられる。

当業者には容易に理解されるように、本発明者らは、効率的な複数の人物の姿勢追跡方法を提示した。本発明者らの姿勢エンテールメント法は、オプティカルフローや畳み込みルーチンを必要とせずに、追跡ステップでキーポイント情報のみを使用することにより、ＰｏｓｅＴｒａｃｋデータセットで最先端の性能を実現する。結果として、本発明者らの方法はパラメータ及びＦＬＯＰが少なくなり、より高速なＦＰＳを実現する。本発明者らの姿勢エンテールメント法は、トップダウン法で一般的に使用されるバウンディングボックス伝搬よりも優れたパラメータフリー追跡法の恩恵を受ける。最後に、トークン化と、姿勢ベースの動作認識等の他の姿勢タスクに転用できるトランスフォーマーアーキテクチャへの複数の人物の姿勢キーポイント情報の埋め込みを開示する。

ここで、キーポイント推定、時間マッチング及びＩＤ割り当てへのアプローチの概要を提示する。

人物が写っているビデオが与えられると、本発明者らの独創的な方法は、フレーム全体でビデオ内の人物を明確に識別して追跡する。これは一般的に姿勢追跡として知られている。

一般に、姿勢追跡の問題には、（１）キーポイント推定。（２）時間的マッチング及び（３）ＩＤの割り当ての３つのステップが含まれる。上述したように、現在のキーポイント推定方法では、トップダウンまたはボトムアップアプローチが採用されている。時間的マッチングには、通常、オプティカルフローまたはグラフの畳み込みが使用される。ＩＤの割り当てには、ハンガリーのアプローチ等の欲張りアルゴリズムが採用されている。対照的に、本発明者らの方法では、時間的マッチングのために姿勢エンテールメントモデルを用いたトップダウンアプローチのキーポイントを使用する。新しいバウンディングボックス伝搬方法を使用すると、精度が向上する。

本発明者らの方法は、キーポイント推定タスクを姿勢エンテールメント問題として組み立てる。より具体的には、「ｔ」での姿勢及びｔ－１（または最大４タイムステップ後方からの場合はｔ－４）が与えられると、本発明のシステムはそれらが同じ人物を参照しているか否かを学習する。本発明者らのネットワークは、この表現を学習するにつれて、姿勢追跡問題を解決する能力を獲得し、姿勢情報（キーポイント）に基づいて人物を追跡できる。その結果、本方法は、最後のステップでキーポイントを使用するだけであり、ＲＧＢ情報や特徴を使用しないため、非常に効率的である。

エンテールメントタスクを学習するために、本発明者らのモデルはトランスフォーマービルディングブロックを使用し、姿勢ベースのタスク専用に設計された新しい符号化スキームを使用する。単語に使用される既存のものと比較した姿勢のための新しい符号化スキームを図２で概略的に示す。

さらに、本発明者らは、特定のフレームにおける欠落した検出及びキーポイントを検出する新しいバウンディングボックス伝搬アルゴリズムについて説明する。これは、欠落したフレームのバウンディングボックスを補間し、キーポイントを計算することによって行われる。これに続いて、ｏｋａｙＮＭＳを実行して、過剰なキーポイントを抑制する。

図３は、本発明のアプローチの全体的な概略図を提供する。図示のように、キーポイント推定、時間的マッチング及びＩＤ割り当てを使用する。重要なことは、キーポイント推定の検出プロセスでは、パラメータフリーのバウンディングボックス伝搬を使用して検出を改善する。

時間的マッチングはトランスフォーマーマッチングネットワークを介して実行され、重要なことは、本発明者らの方法は、ＲＧＢを使用せずにキーポイント情報のみを用いてＳＯＴＡ精度を達成し、効率を向上させることができる。特に興味深いことに、本発明者らのネットワークマッチングは、畳み込みがない距離でも、小さな空間解像度でも効果的である。本発明者らのネットワークは、プールされる出力ｏのマルチレイヤー、マルチヘッドネットワークであることが望ましいことに留意されたい。

最後に、ＩＤ割り当ては、現在の姿勢を以前の複数のタイムステップの姿勢と一致させ、これら全てから最大値を選択してＩＤ割り当てを提供する。

図４は、トークン埋め込み、セグメント埋め込み及び位置埋め込みを含む入力姿勢ペアがトランスフォーマー入力として適用される、本開示の一実施形態による、埋め込み及びオリジナルの並置を示している。

図５は、入力トークン埋め込み、位置埋め込み及びセグメント埋め込みが入力としてトランスフォーマーに適用される、トランスフォーマーが解釈できる表現の作成を示す概略図である。

有用な比較のために、図６は、当技術分野で見出され得る姿勢追跡のステップを示す概略図である。図７は、本開示の一実施形態による、姿勢追跡及びＩＤ割り当てのステップを示す概略図である。

ここでは、いくつかの具体的な例を用いて本開示を示したが、当業者であれば本教示がそれらに限定されないことを認識するであろう。したがって、本開示は本明細書に添付される特許請求の範囲によってのみ限定されるべきである。

Claims

ビデオの複数のフレーム内で識別された人物のキーポイント推定と、
前記キーポイントによって識別された姿勢の時間的マッチングと、
他の姿勢に対する現在の姿勢のＩＤ割り当てと、
を有し、前記時間的マッチングが、トランスフォーマーマッチングネットワークによって実行され、前記キーポイントの情報のみを使用し、ＲＧＢ情報を使用せず、前記トランスフォーマーマッチングネットワークは、マルチレイヤーマルチヘッドネットワークである、姿勢追跡方法。
前記キーポイント推定は、パラメータフリーのバウンディングボックス伝搬を使用する、請求項１に記載の方法。
エンテールメントを用いるキーポイントベースの姿勢追跡方法であって、
それぞれが姿勢のキーポイントに対応するトークンの文から情報を抽出することと、
各姿勢の前記キーポイントを埋め込み、トランスフォーマーネットワークに前記埋め込みを供給することと、
現在の姿勢を以前の複数のタイムステップの姿勢にマッチングさせることと、
マッチした姿勢の指標を出力することと、
を有する、姿勢追跡方法。
前記トランスフォーマーネットワークは、マルチレイヤーマルチヘッドネットワークである、請求項３に記載の方法。