JP7328444B2 - エンテールメントを用いたキーポイントベースの姿勢追跡 - Google Patents

エンテールメントを用いたキーポイントベースの姿勢追跡 Download PDF

Info

Publication number
JP7328444B2
JP7328444B2 JP2022515910A JP2022515910A JP7328444B2 JP 7328444 B2 JP7328444 B2 JP 7328444B2 JP 2022515910 A JP2022515910 A JP 2022515910A JP 2022515910 A JP2022515910 A JP 2022515910A JP 7328444 B2 JP7328444 B2 JP 7328444B2
Authority
JP
Japan
Prior art keywords
pose
keypoint
tracking
keypoints
transformer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022515910A
Other languages
English (en)
Other versions
JP2022548569A (ja
Inventor
アシム カダヴ、
ファーレイ レイ、
ハンス ペーター グラフ、
マイケル スノウワー、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2022548569A publication Critical patent/JP2022548569A/ja
Application granted granted Critical
Publication of JP7328444B2 publication Critical patent/JP7328444B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

本開示は、一般にデジタルビデオに関する。より具体的には、一般に「姿勢追跡問題」と呼ばれる、フレーム全体でビデオ内の人物を識別し追跡するための手法について説明する。
近年、デジタルビデオは現代社会において非常に重要であることが証明されている。その結果、膨大な量のビデオが生成され、平凡なものから非常識なものまで全てが記録されている。このような大量のビデオが生成されると、ビデオ内の人々を識別し追跡するための自動化された方法は重要な考慮事項であり、当技術分野ではまだ満たされていない重大な技術的課題を提示する。
当技術分野の進歩は、姿勢追跡問題を解決するシステム、方法及び構成を対象とする本開示の態様によって成される。
従来技術とは対照的に、本開示の態様によるシステム、方法及び構成は、キーポイント推定をフレーミングする新しい方法、すなわち時間的マッチングに関する姿勢エンテールメント(entailment)モデルを伴う、トップダウンアプローチにおけるキーポイントを用いる姿勢エンテールメント問題を導入する。この方法は、新しいバウンディングボックス伝搬法によってさらに改良される。
本開示のより完全な理解は、添付の図面を参照することで実現される。
図1は、一連の要素を示す概略図であり、(a)はバウンディングボックス検出においてキーポイントを推定するために使用されるHRNetを示し、(b)は検出エラーによるキーポイント予測を改善するために使用される時間ベースのoksを示し、(c)は過去の複数のタイムスタンプから収集された姿勢ペアを示す。同じシェーディングを有する特定の姿勢は同じトラックIDを有するが、シェーディングのない他の姿勢は未知であることに留意されたい。各ペアは、他のペアとは独立して一度に1つずつトークン化され、(d)はトランスフォーマー(transformer)ベースのネットワークを用いてペア毎に独立して計算された一致スコアを示し、(e)は最大一致スコアを有するペアに対応するトラッキングIDを示す。
図2(上)は、トークン化を直感的に説明するための視覚化を示す図である。位置の列では、画像内の空間的な位置が類似しているため、一致する姿勢は一致しない姿勢よりも空間的に近くなる。姿勢画像は幅×高さ=432となるようにダウンサンプリングされるため、軸の制限は432である。以下の列では、一致する姿勢が(位置のために)空間的に近いだけでなく、姿勢が同じ向きであるため、それらの輪郭もより類似する。最後の列のセグメント軸は、ペアの時間的距離を表し、各ペアにはその姿勢の間に1つのタイムスタンプがあるため、両方のペアに関してレーム(lame)である。図2(下)は、一連のトランスフォーマー(Tx)が自己減衰を計算し、ペア間の時間的関係を抽出する。バイナリ分類は以下の通りである。
図3は、本開示の一実施形態による、本発明のアプローチの全体的な概略を示す概略図である。
図4は、本開示の一実施形態による、トランスフォーマーと共に使用される、本発明者らの姿勢符号化スキーム対オリジナルの単語符号化スキームを示す図である。
図5は、トランスフォーマーが解釈できる表現を本開示の一実施形態によって生成される、本発明の姿勢追跡スキームの一連のステップを示す図である。
図6は、従来技術の姿勢追跡の一連のステップを示す図である。
図7は、本開示の一実施形態による、姿勢追跡の一連のステップを示す図である。
例示的な実施形態は、図面及び詳細な説明によってより完全に説明される。しかしながら、本開示による実施形態は、様々な形態で実現されてもよく、図面及び詳細な説明に記載された特定のまたは例示的な実施形態に限定されない。
以下は、単に本開示の原理を例示するものである。したがって、当業者であれば、本明細書で明示的に説明または図示されなくても、本開示の主旨及び範囲に含まれる、本開示の原理を具体化する様々な構成を考え出すことができることを理解されたい。
さらに、本明細書で挙げる全ての実施例及び条件を示す用語は、本開示の原理及び本技術を推進するために本発明者らが提供するコンセプトの理解を助ける教育目的のためだけであることを意味し、具体的に挙げられた実施例及び条件に限定されないと解釈されるべきである。
また、本開示の原理、態様及び実施形態、並びにその特定の実施例で挙げる本明細書の全てのステートメントは、その構成及び機能の均等物の両方を含むことを意味する。さらに、そのような均等物には、現在知られている均等物と、将来開発される均等物、すなわち構成に関係なく同じ機能を実現する、開発された要素の両方を含むことを意味する。
したがって、例えば、本明細書の任意のブロック図は、本開示の原理を実施する回路の実例を示す概念図であることが当業者に理解されよう。
本明細書では、特に明記しない限り、図を含む図面は、正確な縮尺率で描かれていない。
いくつかの追加の背景として、姿勢追跡は人の動作認識とビデオ理解に適用される重要なアプローチであることに留意されたい。通常、複数の人物の姿勢追跡は2つのステップで行われる。第1に、個人のキーポイントを推定する推定ステップ。第2に、追跡ステップでは、個々のキーポイントが一意の人物に割り当てられる。
一般に、現代の姿勢追跡方法は、推定の第1のステップに関して深層畳み込みニューラルネットワークに依存する。多くの場合、追跡ステップの方法はオプティカルフロー(Optical Flow)ベースであり、特徴ベースの類似度の恩恵を受ける。これは、正確ではあるが、計算コストが高くなる。他の方法では、グラフ畳み込みネットワーク(GCN)を使用する。これはオプティカルフロー法よりも少ないパラメータを使用するが、畳み込みの精度は高い空間分解能に依存するため、1秒あたりの浮動小数点演算(FLOPS)の点でコストがかかる。さらに、空間的な一貫性などの非学習ベースの方法は、畳み込みベースの方法よりも高速であるが、それほど正確ではない。
重要なことは、追跡ステップで採用される方法は、キーポイントの関係をトラックに学習する必要があり、これは、時間の経過に伴うオクルージョンや変動のために困難な場合がある。
さらに、これら全ての方法には少なくとも2つの欠点があることに留意されたい。第1に、それらは一般に、高次の時間的な姿勢関係を学習できないために性能が低下する。第2に、それらは計算の点でしばしば高価であり、限られた計算予算では、オンラインでフレームを処理することができない。
上記の欠点に対処するために、時間情報を用いてキーポイント推定を有利に改善し、トランスフォーマービルディングブロックを用いて、特に新しいエンテールメント設定においてキーポイント情報を符号化する効率的な姿勢追跡方法(KeyTrack)を開発したので説明する。
大まかに言えば、本発明者らのアプローチは、2つの文が互いに続くか否かを予測するテキストエンテールメントタスクと似ている。そのため、新しい姿勢エンテールメントタスクについて説明する。このタスクでは、モデルは2つのキーポイント姿勢が時間的に互いに続くかエンテールするかを予測することを学習する。したがって、深層CNNを用いて高次元画像表現から情報を抽出するのではなく、本発明の新しい方法では、姿勢のキーポイントに対応する15個のトークンの文から情報を抽出する。BERTモデルが文の単語をトークン化するのと同様の方法で、各姿勢の15個のキーポイントを埋め込み、その後、これらの埋め込みをトランスフォーマーネットワークに供給する。有利なことに、本発明者らの埋め込みには、各キーポイントの空間的な位置を超える情報が含み、非常に低い解像度でもネットワークを成功させることが可能であり、GCNよりも最大で5%向上する。さらに、これから説明するように、本発明者らの方法及び結果は畳み込みベースの方法と比べて競争力があり、本発明者らの方法は空間分解能に対する感度がはるかに低いため、非常に高速であるという利点がある。
さらに、トランスフォーマーネットワークで使用されるキーポイント推定をさらに改善するために、TOKS(Temporal Object Keypoint Similarity)法と呼ばれる方法を採用する。このTOKS法は、学習したパラメータを推定ステップに追加せず、時間的な関連を学習することでキーポイント推定を改善するために多くのトップダウン姿勢追跡法で現在使用されている手法であるバウンディングボックス伝搬よりも優れている。本発明者らが改良したTOKS法は、キーポイントを直接操作し、単一の検出器を使用するため、バウンディングボックスの伝搬よりも正確であり、検出アンサンブルよりも高速である。
現時点で、本発明の追跡方法であるKeyTrackは、少なくとも従来技術の現代の方法を上回る以下の利点を提供することに留意されたい。
第1に、KeyTrackは、異なる時間ステップからの2つの姿勢が同じ人物であるか否かについて分類する姿勢エンテールメントを導入する。さらに、本発明者らのアブレーション研究で示したように、標準画像解像度でCNNと同等の性能を発揮しながら、低解像度でそれを大幅に上回るトークン化スキーム及びトランスフォーマーネットワークを採用した。
第2に、KeyTrackは、キーポイント推定を改善するための時間的方法であるTOKSを採用し、TOKSは、バウンディングボックスの伝搬よりも正確であり、検出アンサンブルよりも高速であり、学習したパラメータを必要としない。
加えて、本発明者らのアブレーション(abalation)研究において、本開示によるトランスフォーマーは、畳み込み等の視覚的な特徴を使用し、時間依存性を高精度で学習できる代替の先行技術アプローチよりも空間分解能にはるかに依存しないことを示している。
最後に、このような利点を考慮して、新しい姿勢追跡パイプラインを開発したので開示する。このパイプラインは、姿勢追跡テストセットに新しいSOTAを設定すると同時に、同様の精度の方法よりも効率的である。わずか0.43Mのパラメータで構成されるモデルを用いて、PoseTrackの精度を向上させることができる。さらに、本発明者らのRGBフリー追跡法を用いて、UWBセンサ等の他のモダリティから得られたキーポイントに対してリアルタイムの複数の人物のキーポイント追跡を提供できる。
本発明者らの研究は、姿勢追跡方法、効率的な姿勢方法に関する関連研究及びビデオ問題に対するトランスフォーマーネットワークの適用に関する最近の研究に触発されている。
(姿勢推定)
個人の姿勢推定に関する初期の研究は、個人の様々な関節間の空間的な相関及び相互作用を学習するグラフィカルモデルに焦点を当ててきた。このようなモデルは、明示的にモデル化する必要があるオクルージョン及び長距離の時間的な関係のために、性能が低下することがよくある。
姿勢推定に関する最近の研究では、畳み込みニューラルネットワーク(CNN)を用いて、関節のデカルト座標を直接回帰するか、関節が特定の場所にある確率を示すヒートマップを生成する。
これらの畳み込みアプローチの大部分はトップダウン法とボトムアップ法とに分類することができ、トップダウン法は、人物候補を識別するために個別の検出ステップを使用する。次に、これらの人物候補に対して単一の人物の姿勢推定ステップが実行される。ボトムアップ法では、全ての候補からキーポイントを計算し、これらのキーポイントを個々の人物の関節に相互に関連付ける。この後者のボトムアップ法は、全てのキーポイントが単一のステップで計算されるため、より効率的であるが、オブジェクト検出ステップが回帰境界を制限するため、前者の方法の方がより正確である。それにもかかわらず、トップダウン法は小さなオブジェクトではうまく機能せず、最近の研究(HRNetなど)では、空間情報の損失を防ぐためにさまざまな解像度の並列ネットワークを使用する。
最後に、姿勢推定は、カスケード予測の恩恵を受けることが示され、姿勢改良方法は、別の後処理ネットワークを用いて前のステージの姿勢推定結果を改良する。その精神において、KeyTrackは、TOKSを用いて信頼性が低いキーポイントを時間的に集約し、抑制することでキーポイントの推定値を改善する。
(姿勢追跡方法)
知られているように、姿勢追跡は、個々の姿勢情報に一意のIDを割り当て、それらを、時間を通して一貫して追跡することで、時間を通して姿勢情報を追跡することを含む。これらの方法では、前のサブセクションで説明した推定方法を用いて姿勢情報を計算することが多い。さらに、これらの方法は、畳み込み特徴、オプティカルフロー法またはキーポイント上のグラフ畳み込みネットワークを用いて、時間フレーム全体の時空間関係を学習することで追跡を実行する。他の方法では、グラフ分割ベースのアプローチを使用して時間の経過とともにトラックをグループ化する。姿勢追跡の推定、改良及び追跡ステップに使用されるもう1つの方法は、ビデオのサイクル整合性を用いて自己教師あり方式で姿勢情報を抽出する。別の方法であるPoseFlowは、データ駆動型アプローチを利用して選択されたハードコード化パラメータを用いたフレーム間/フレーム内姿勢距離を使用し、NMSを用いてロバストにされた複数のフレームにわたる姿勢フローを構築する。
KeyTrackは、tOKSとトランスフォーマーベースの姿勢エンテールメントアプローチを用いてロバストな検出を取得する。LightTrackは、キーポイントに関するグラフ畳み込みネットワークを使用してキーポイント情報を用いる軽量ソリューションを達成する。比較して、本発明者らの方法は、畳み込みを完全にディスペンス(dispense)し、トランスフォーマーを用いて高次の時間的な関係を学習するため、これらのネットワークよりも優れている。最後に、PoseWarperは、ラベル付きフレームとラベル無しフレームのペアを用いて変形可能な畳み込みを利用して姿勢ワーピング(warping)を学習することで人物の姿勢を予測する。代わりに、発明者らのエンテールメントアプローチは、キーポイント情報だけを用いて時間的な姿勢の変化を学習する。
(トランスフォーマーモデル)
最近、畳み込みと再帰に代わる画像とビデオの入力モダリティについて、トランスフォーマーベースのモデルが検討されている。これらの方法は、ペアワイズ法とは異なり、様々なシーン要素間の高次の関係を効率的にモデル化することが示されている。このようなトランスフォーマーモデルは、画像分類、視覚的な質問回答、動作認識、ビデオキャプション及びその他のビデオ問題に適用されてきた。ビデオアクショントランスフォーマーは、ビデオ内の全ての人物に関するコンテキスト及びインターラクションを学習することで、トランスフォーマーを使用して動作のローカライゼーション問題を解決する。
本明細書で開示される本発明の方法KeyTrackは、キーポイントを用いてビデオ空間の関係を学習する。トランスフォーマーを介してRGB情報を広範囲に使用する以前の研究とは異なり、本発明者らの方法は、トランスフォーマー内のキーポイント情報を有利に符号化して、RGB情報を使用せずに姿勢追跡のための時間情報を効率的に学習する。BERTは、トランスフォーマーを用いて欠落している単語や次の文を予測する教師なしタスクに対してマルチタスク転送学習を実行することでトランスフォーマーネットワークを事前訓練する。
これら他のトランスフォーマーアーキテクチャとは対照的に、KeyTrackはトランスフォーマーアーキテクチャを用いてキーポイント推定との時間的な追跡関係を学習する。
運用上、KeyTrackは、ラベル付けされた姿勢データセットを用いて、姿勢エンテールメントを使用して様々なフレームにわたって人物の姿勢情報をマッチングし、トランスフォーマーネットワークが教師あり設定で時間的な関係を学習できるようにする。このモデルへの入力は、姿勢ベースのキーポイント類似度メトリックを使用して改良された人物の姿勢推定キーポイントである。この開示が実施された場合、複数人の姿勢追跡問題に関する姿勢エンテールメント問題をどのように実行するかを説明する。
(KeyTrack)
ここで、KeyTrackシステム及び方法で使用されるキーポイント推定及び追跡アプローチについて説明する。タイムステップのフレーム
Figure 0007328444000001
に関して、i番目の姿勢
Figure 0007328444000002
にトラックIDを割り当てる。
最初のステップは、各姿勢のキーポイントを検出することである。トップダウンアプローチの特徴であるように、各姿勢の周りにバウンディングボックスをローカライズすることから始める。次に、バウンディングボックス
Figure 0007328444000003
におけるj個のキーポイントをそれぞれ検出する。次に、提案した方法である時間的OKS(TOKS)
Figure 0007328444000004
を用いてキーポイント予測を改善し、キーポイントを取得する。
ここから、現在のタイムステップでi番目の姿勢を追跡ID
Figure 0007328444000005
(適切なID)なしで割り当てる。前のタイムステップ
Figure 0007328444000006
で既にIDが割り当てられている姿勢との類似度に基づいてIDを選択する。マッチングスコア
Figure 0007328444000007
は、本明細書に記載された姿勢エンテールメント法を用いて計算される。
偽陰性はキーポイント検出で避けられない問題であり、正しいトラックIDの姿勢がビデオに表示されなくなったように見える可能性があるため、下流の追跡ステップに悪影響を与える可能性がある。本発明者らは、前の1つのフレームだけでなく、複数のフレーム
Figure 0007328444000008
の姿勢に関するマッチングスコアを計算することで、これを軽減する。したがって、各姿勢
Figure 0007328444000009
を比較する。ここで、
Figure 0007328444000010
であり、
Figure 0007328444000011
である。実際には、特定のフレームで比較する姿勢の数を、空間的に最も近いn個の姿勢に制限する。これは、以前の方法が、フレーム間のIoUが最も高いバウンディングボックスを使用するだけで成功したためである。したがって、ランタイムは
Figure 0007328444000012
によって制限される。これは、マッチスコアM(|M|=δn)のセットを与える。最大マッチスコアのトラックIDに対応する追跡ID
Figure 0007328444000013
を姿勢
Figure 0007328444000014
に割り当てる。
(姿勢エンテールメント)
(テキストエンテールメント)
テキストエンテールメントにおいて、モデルは、前提(premise)文が文のペアの仮説(hypothesis)文を意味するかどうかを分類する。この問題に対する典型的なアプローチは、最初に文のペアを埋め込み空間に投影し、次に文のペアの二項分類を出力するニューラルネットワークを介してそれらを供給することを含む。
(何故、姿勢エンテールメントか?)
キーポイント情報を使用して姿勢エンテールメントを動機付けるために、最初に視覚的な特徴に対するその利点について説明する。視覚的な特徴を使用すると、計算コストが大幅に増加し、ネットワークが照明の変化などの望ましくない変動の影響を受けやすくなる。したがって、追跡ステージでは、検出器によって推定されたキーポイントのみを用いて姿勢を表現する。
姿勢に追跡IDを割り当てるには、それを以前のタイムステップのキーポイントと比較し、それが誰であるかを特定する必要がある。これには、時間的な関係を学習する必要がある。自然言語処理のアーキテクチャは、時間的な関係を学習するために慎重に開発されてきた。画像はテキストシーケンスとは非常に異なる表現であるため、通常、これらを画像関連の問題に使用するのは実用的ではない。但し、ここで示すように、キーポイントを有する
Figure 0007328444000015
姿勢(この場合、
Figure 0007328444000016
)を、埋め込み空間に投影し、NLPのSOTAビルディングブロックであるトランスフォーマーに供給できる。
したがって、本発明者らは、タイムステップ
Figure 0007328444000017
における姿勢、すなわち前提と、タイムステップ
Figure 0007328444000018
における姿勢、すなわち仮定が同じ人物であるかどうかを分類する姿勢エンテールメントについて説明する。図1の(a)はバウンディングボックス検出におけるキーポイント推定のために使用されるHRNetを示し、図1の(b)は検出エラーによるキーポイント推定を改善するために使用される時間ベースのoksを示し、図1の(c)は複数の過去のタイムスタンプから収集された姿勢ペアを示している。同じシェーディングを持つ特定の姿勢は同じトラックIDを持ち、シェーディングを持たない他の姿勢は未知であることに留意されたい。各ペアは、他のペアから独立して一度に1つずつトークン化され、(d)はトランスフォーマーベースのネットワークとのペア毎に個別に計算されたマッチスコアを示し、(e)は最大マッチスコアのペアに対応する追跡IDを示す。
(埋め込み姿勢ペア)
引き続き図1を参照すると、まず各キーポイントが3つの異なるタイプのトークンにトークン化されていることに留意されたい。2つの姿勢があるため、タイプ毎に2つの
Figure 0007328444000019
トークンがある。各トークンは埋め込み
Figure 0007328444000020
に線形に投影される。ここで、Hはトランスフォーマーの隠れサイズである。実際には、埋め込みは学習したルックアップテーブルである。各トークンについては、以下で詳しく説明する。
本明細書の執筆時点で、BERTはテキストエンテールメントのSOTAベンチマークを保持していることに留意されたい。BERTはテキストエンテールメントに関する新しい埋め込みスキームを提案し、これをガイドに用いて本発明者らの独自の埋め込みスキームを設計した。明確にするために、本発明者らは、本発明者らが使用するトークンと類似する、BERTスキームにおけるトークンについて説明する。
各キーポイントの絶対空間位置は位置トークンρであり、その値は範囲
Figure 0007328444000021
内にある。実際には、オリジナルのフレームのダウンサンプリングされたバージョンの絶対空間位置が使用される。これは、本発明者らの方法の効率を改善するだけでなく、本発明者らが説明したように、それをより正確にする。BERTにおける位置トークンは、その文中の単語の時間的な位置であり、その値は1から最大シーケンス長までの範囲である。
姿勢
Figure 0007328444000022
の位置トークンに関する汎用表現は以下である。ここで、
Figure 0007328444000023
はptのj番目のキーポイントの位置トークンに対応する。
Figure 0007328444000024
タイプトークンは、キーポイントの固有のタイプ、例えば、頭、左肩、右足首等に対応する。トークンタイプのキーポイントは範囲
Figure 0007328444000025
内にある。これらは姿勢の向きに関する情報を追加し、キーポイントが同様の空間位置にある場合に、低解像度で高精度を達成するために重要である。BERTでは、このトークンは単にTokenと呼ばれ、1から語彙サイズまでの語彙内の一意の単語に対応する。
姿勢
Figure 0007328444000026
のタイプトークンに関する汎用表現は以下の関係(2)で示される。ここで、
Figure 0007328444000027
は、ptのj番目のキーポイントのタイプトークンに対応する。
Figure 0007328444000028
セグメントトークンは、姿勢がどのタイムステップからのものであるかを示す。セグメントトークンは範囲
Figure 0007328444000029
内にある。ここで、δは選択された定数である。(本発明者らの目的のためにδは4に設定される。)これにより、異なる数のタイムステップで分離されたフレームを処理できるため、この方法を不規則なフレームレートに適応させることもできる。
BERTにおいて、この値はバイナリであり、BERTは時間的に隣接する文に対してテキストエンテールメントを実行するだけである。
Figure 0007328444000030
これらの各トークンを埋め込んだ後、それらは合計され、トランスフォーマーマッチングネットワーク入力が生成される。これらの各トークンを埋め込んだ後、それらは合計され、トランスフォーマーマッチングネットワーク入力が生成される。
Figure 0007328444000031
(トランスフォーマーマッチングネットワーク)
トランスフォーマーは、一連のクエリ(Q)、キー(K)及び値(V)に対してスケーリングされたドットプロダクトアテンションを計算する。アテンション式は以下の通りである。
Figure 0007328444000032
本発明者らのネットワークにおいて、Q、K及びVは隠れ状態の線形投影である。このようにして、他の全てのキーポイントに対する各キーポイントのアテンションが計算される。実際には、マルチヘッドアテンションを使用し、キーポイント毎にアテンションヒートマップを作成する。これを本明細書で表示する。さらに、表示されていないキーポイントを考慮するために、アテンションマスクを使用する。このアテンションマスクは以前とまったく同じように機能するため、表示されていないキーポイントにはアテンションが無い。
本発明者らのネットワークは、一連のスタックされたトランスフォーマーを含む。繰り返すが、BERTと同様に、シーケンスの最初のトークンを選択し、そのトークンを学習した線形射影に入力することで、入力を「プール」するプーラー(Pooler)にこの表現を供給する。これは線形レイヤに供給され、2つの与えられた姿勢マッチの尤度を出力するバイナリ分類器として機能する。
図2(上)はトークン化を直感的に説明するために視覚化して示す。位置の列では、画像内の空間的な位置が類似しているため、一致する姿勢は一致しない姿勢よりも空間的に近くなる。姿勢画像は、その幅×高さ=432となるようにダウンサンプリングされるため、軸の限界は432である。次の列では、一致する姿勢が(位置のために)空間的に近いだけでなく、姿勢が同じ向きであるため、それらの輪郭もより似ている。最後の列のセグメント軸は、ペアの時間的距離を表し、各ペアの姿勢間に1つのタイムスタンプがあるため、両方のペアに関してレームである。図2(下)において、一連のトランスフォーマー(Tx)は自己減衰を計算し、ペア間の時間的な関係を抽出する。二項分類は次のとおりである。
(改良されたマルチフレーム姿勢推定)
キーポイントは、HRNetを用いて推定される。それらは、時間的OKS用いて改善される。ここで、最初にバウンディングボックス伝搬を導入し、本開示の態様による、時間的OKSがどのように有利な改善を提供するかを説明する。
バウンディングボックス検出器は、オクルージョン、不十分な照明及びその他の変動のために、シーンにおいて、人物を見逃す傾向があることに留意されたい。前のフレーム
Figure 0007328444000033
のバウンディングボックスを用いてこれらの偽陰性を説明できる。本発明者らのデータセットのように、フレームレートが比較的高い場合、各人物の空間的位置はフレーム毎に劇的に変化しない。したがって、このフレーム
Figure 0007328444000034
におけるi番目の人物のバウンディングボックスをフレーム
Figure 0007328444000035
における同じ空間的位置に貼り付けることは、人物
Figure 0007328444000036
に関してバウンディングボックスの適切な近似である。バウンディングボックスは、フレームごとの空間的位置の変化を考慮して小さな係数で拡大され、姿勢推定器に供給される。
Figure 0007328444000037
からの全ての人物
Figure 0007328444000038
に対応するボックスは
Figure 0007328444000039
に伝搬されるため、検出器が
Figure 0007328444000040
で失敗しない場合は、i番目の人物用に2つのボックスが存在することになる。
本発明者らは、これらを
Figure 0007328444000041
と称す。ここで、1はボックスが伝搬されたことを示す。バウンディングボックス伝搬に対する以前のアプローチは、標準的なNMS(non-maximal suppression)を用いてこれらのボックスのうちのどれを推定器に入力するかを選択する。重要なのは、1回は
Figure 0007328444000042
で、もう1回は
Figure 0007328444000043
で姿勢推定器を使用して姿勢を予測することである。次に、オブジェクトキーポイント類似度(OKS)を使用して、どの姿勢を保持するかを決定する。これは、バウンディングボックスではなく、キーポイントの信頼度スコアを使用するため、NMSを使用するよりも正確であるために有利である。
(実験)
(姿勢追跡データセット)
(姿勢トラック2017)
訓練、検証及びテストセットには、それぞれ250、50及び208の注釈付きビデオが含まれる。ht etestセットの注釈は与えられない。各フレームには平均して約5つの姿勢があり、ほとんどのビデオは41~151フレームの範囲である。各訓練ビデオの30の連続するフレームに注釈が付けられる。30の連続する注釈付きフレームに加えて、検証及びテストセットには、各ビデオのセクションにまばらにラベルを付けることが可能であり、4番目毎のフレームにこれらのセクションのラベルが付与される。本発明者らは、PoseTrack 2017テストセットで評価する。
(PoseTrack ECCV 2018 Challenge)
本発明者らは、ECCV PoseTrack 2018 Challengeで使用されたバリデーションセットについて、本発明者らの比較の大部分を実施する。PoseTrack 2017のスーパーセットには、550の訓練ビデオ、74の検証ビデオ、375のテストビデオがある。
(評価サーバ)
PoseTrack 2017のヘルドアウトのテストセットには、PoseTrack評価サーバを使用する。関節あたりの平均精度(AP)及びマルチオブジェクト追跡精度(MOTA)の両方が計算される。APは、正しいキーポイントの頭部の正規化確率(PCKh)に基づいている。MOTAは、偽陰性、偽陽性及びID切替に対してペナルティを課す。
各キーポイントkPKのMOTAkは、
Figure 0007328444000044
である。
本発明者らの最終的なMOTAは全てのMOTAkの平均値である。
Figure 0007328444000045
(時間的OKSによる検出の改善)
本発明者らは、精度の上限としてグランドトゥルースボックスを使用する。以下の表から明らかなように、バウンディングボックス検出エラーは、姿勢推定精度を著しく妨げる。それは4.7%低下する。続いて、時間的OKSが姿勢推定を著しく増加させることを示す。これは、存在するが誤った検出を改善するだけでなく、偽陰性を考慮するため、バウンディングボックス伝搬よりも性能が優れている。複数のOKS値を表示する。
Figure 0007328444000046
上記の表において、グラウンドトゥルースは、グラウンドトゥルースバウンディングボックスが使用されることを示す。HTCは、バウンディングボックスがハイブリッドタスクカスケードのオブジェクト検出器で推定されることを示す。
(姿勢エンテールメントよる追跡の改善)
MOTAスコアは姿勢推定精度と追跡精度の両方に重みを付けるため、全ての方法に同じキーポイントが与えられている場合、本発明者らの追跡方法を他の方法と比較した。本発明者らの比較は、GCNとオプティカルフローである。これを実現するために、PoseTrackキーポイントアノテーションから複数のペアを作成する。各ペアは隣接するタイムステップにおける2つの姿勢であり、ペアを一致または不一致として分類する。これは、本質的にID切替をカウントし、IDSWがCVPR追跡チャレンジで使用されることを引用する。一致精度は、スイッチされない姿勢の数である。これらは、PoseTrack 2018バリデーションセットとPoseTrack 2017テストセットの両方の上位8の方法で使用される追跡方法である。(IoU類似度は2つの連結方法で使用されるが、最近の研究ではGCNとオプティカルフローの両方がより正確であることが分かってきたため、ここではIoUを考慮しない。)但し、両方の唯一の例外は、キーポイント推定及び追跡のステップを絡み合わせるボトムアップ法であり、姿勢エンテールメントとの直接的な比較を困難にする。本発明者らは、オプティカルフローを使用する他の方法も同様に実装し、公知のGCNの実装も採用しているため、オプティカルフローの既知の実装を採用する。
また、各マッチング法の性能が予測されたキーポイントによってどのように影響を受けるかを評価した。この実験を行うために、グラウンドトゥルースバウンディングボックスがHRNetに入力され、各ボックスについて予測が行われる。そして、これらの予測されたキーポイントは、グラウンドトゥルースキーポイントの代わりに使用される。さらに、各マッチング法でMOTAスコアを評価した。フレームの各ペアの精度は独立して計算されるため、追跡エラーは将来のフレームに伝搬されない。
(様々なフレームレート)
全ての結果を以下の表に示す。
Figure 0007328444000047
観察されるように、本発明者らの方法は、精度においてGCNを大幅に上回っている。GCNもキーポイント情報のみを使用している。これは、トークン化スキームとトランスフォーマーネットワークが姿勢間の時間的な関係を学習する能力を向上させることを示している。MOTAはキーポイントのしきい値処理に非常に敏感である。キーポイントのしきい値を下げる。MOTAのスコアが最大となるようにキーポイントのしきい値を設定する。LightTrackはIoUとGCNのハイブリッドを使用しているが、全てのシナリオで姿勢エンテールメントを使用しており、類似度スコアリングのよりロバストな方法であることを示している。
(様々な空間分解能による精度)
低解像度では、視覚的な特徴の性能が低下する。GCNはIoUと同様に部分的な空間位置を取ることができるが、本発明者らは空間を離散化する。オプティカルフローは、近くの画素が同様の動きをすると想定する。
(SOTAとの追跡パイプライン比較)
ここで、本発明者らの追跡パイプライン全体を、姿勢エンテールメント及びtOKSの両方の貢献を追加されたものと、他のアプローチのSOTAとを比較する。以下の表は、PoseTrackの両方のバージョンで本発明者らのネットワークがより高いMOTAスコアを達成していることを示している。本発明のFPSも高く、アンサンブルを使用しているため、MOTAスコアが本発明の近くにある方法の多くはオフラインになっている。(1秒あたりのフレーム数(FPS)は、追跡パイプラインによって処理されたフレームの数を、それらを処理するために要した合計実行時間で除算することで計算される。)
Figure 0007328444000048
この表(上記)は、様々な埋め込み方式に対するマッチ精度を示す。
マッチ精度は、姿勢を一致させる4つのタイムステップにわたる一致精度を決定することで計算される。相対位置埋め込みを使用する埋め込みスキームは、破線で区切られている。相対位置トークンは精度に悪影響を及ぼす。
(姿勢エンテールメントアブレーション学習)
MOTAスコアはキーポイント予測の品質に影響されるため、本発明者らは、このセクションで実行される全ての実験にグラウンドトゥルースキーポイントを使用して、変動の原因を制限する。
(様々なトークン化スキーム)
ここでは、最高のパフォーマンスを発揮するトランスフォーマーネットワークアーキテクチャを使用する。マッチングネットワークへの入力は、位置埋め込み、トークン埋め込み及びセグメント埋め込みの合計である。上記表から明らかなように、これらの各々は重要である。セグメント埋め込みは、ネットワークが姿勢を区別することを可能にする。トークン埋め込みは、姿勢の向きに関するネットワーク情報を与え、空間的に近接するキーポイント、すなわち同じまたは類似の位置埋め込みを有するキーポイントを解釈するのを助ける。
また、画像全体のキーポイントの絶対距離ではなく、姿勢の中心からの相対的なキーポイントの距離を使用するモデルを訓練する。この埋め込みにより、マッチ精度が低下する。これは、多くの人物がPoseTrackデータセットでランニング等の同じ動作を実行し、ほぼ同じ姿勢をとっていることが原因の可能性が高い。
(自己アテンションの重要性)
本発明者らは、自己アテンションを畳み込み及び線形レイヤに置き換える。
(様々なトランスフォーマーのハイパーパラメータ)
本発明者らは、トランスフォーマーブロックの数、トランスフォーマーブロックの隠れサイズ及びヘッドの数を変更する。トランスフォーマーブロックの数及び隠れサイズを低減すると性能が悪化し、ヘッドの数を増やし過ぎると性能が大きく損なわれる。結果を以下の表に示す。
Figure 0007328444000049
(時間ステップの数及びその他の要因)
使用するタイムステップの数を減らすと、MOTAスコアに悪影響を及ぼす。本発明者らの方法は検出エラーに対するロバスト性が低下するため、0.1から0.5ポイントの間で低下する。また、マッチスコアの最大値を取得するのではなく、他のアルゴリズムも試してみた。先行技術のハンガリーのアルゴリズムを試してみたが、これは性能を損なう。また、全てのタイムステップで各人物の全てのマッチスコアの平均を取り、グローバル最大値ではなく平均値の最大値を使用することを試みた。これは性能を損なう原因となる。これは、トランスフォーマーのマッチ精度が、より遠いタイムステップにおいて悪化するためと考えられる。
当業者には容易に理解されるように、本発明者らは、効率的な複数の人物の姿勢追跡方法を提示した。本発明者らの姿勢エンテールメント法は、オプティカルフローや畳み込みルーチンを必要とせずに、追跡ステップでキーポイント情報のみを使用することにより、PoseTrackデータセットで最先端の性能を実現する。結果として、本発明者らの方法はパラメータ及びFLOPが少なくなり、より高速なFPSを実現する。本発明者らの姿勢エンテールメント法は、トップダウン法で一般的に使用されるバウンディングボックス伝搬よりも優れたパラメータフリー追跡法の恩恵を受ける。最後に、トークン化と、姿勢ベースの動作認識等の他の姿勢タスクに転用できるトランスフォーマーアーキテクチャへの複数の人物の姿勢キーポイント情報の埋め込みを開示する。
ここで、キーポイント推定、時間マッチング及びID割り当てへのアプローチの概要を提示する。
人物が写っているビデオが与えられると、本発明者らの独創的な方法は、フレーム全体でビデオ内の人物を明確に識別して追跡する。これは一般的に姿勢追跡として知られている。
一般に、姿勢追跡の問題には、(1)キーポイント推定。(2)時間的マッチング及び(3)IDの割り当ての3つのステップが含まれる。上述したように、現在のキーポイント推定方法では、トップダウンまたはボトムアップアプローチが採用されている。時間的マッチングには、通常、オプティカルフローまたはグラフの畳み込みが使用される。IDの割り当てには、ハンガリーのアプローチ等の欲張りアルゴリズムが採用されている。対照的に、本発明者らの方法では、時間的マッチングのために姿勢エンテールメントモデルを用いたトップダウンアプローチのキーポイントを使用する。新しいバウンディングボックス伝搬方法を使用すると、精度が向上する。
本発明者らの方法は、キーポイント推定タスクを姿勢エンテールメント問題として組み立てる。より具体的には、「t」での姿勢及びt-1(または最大4タイムステップ後方からの場合はt-4)が与えられると、本発明のシステムはそれらが同じ人物を参照しているか否かを学習する。本発明者らのネットワークは、この表現を学習するにつれて、姿勢追跡問題を解決する能力を獲得し、姿勢情報(キーポイント)に基づいて人物を追跡できる。その結果、本方法は、最後のステップでキーポイントを使用するだけであり、RGB情報や特徴を使用しないため、非常に効率的である。
エンテールメントタスクを学習するために、本発明者らのモデルはトランスフォーマービルディングブロックを使用し、姿勢ベースのタスク専用に設計された新しい符号化スキームを使用する。単語に使用される既存のものと比較した姿勢のための新しい符号化スキームを図2で概略的に示す。
さらに、本発明者らは、特定のフレームにおける欠落した検出及びキーポイントを検出する新しいバウンディングボックス伝搬アルゴリズムについて説明する。これは、欠落したフレームのバウンディングボックスを補間し、キーポイントを計算することによって行われる。これに続いて、okay NMSを実行して、過剰なキーポイントを抑制する。
図3は、本発明のアプローチの全体的な概略図を提供する。図示のように、キーポイント推定、時間的マッチング及びID割り当てを使用する。重要なことは、キーポイント推定の検出プロセスでは、パラメータフリーのバウンディングボックス伝搬を使用して検出を改善する。
時間的マッチングはトランスフォーマーマッチングネットワークを介して実行され、重要なことは、本発明者らの方法は、RGBを使用せずにキーポイント情報のみを用いてSOTA精度を達成し、効率を向上させることができる。特に興味深いことに、本発明者らのネットワークマッチングは、畳み込みがない距離でも、小さな空間解像度でも効果的である。本発明者らのネットワークは、プールされる出力oのマルチレイヤー、マルチヘッドネットワークであることが望ましいことに留意されたい。
最後に、ID割り当ては、現在の姿勢を以前の複数のタイムステップの姿勢と一致させ、これら全てから最大値を選択してID割り当てを提供する。
図4は、トークン埋め込み、セグメント埋め込み及び位置埋め込みを含む入力姿勢ペアがトランスフォーマー入力として適用される、本開示の一実施形態による、埋め込み及びオリジナルの並置を示している。
図5は、入力トークン埋め込み、位置埋め込み及びセグメント埋め込みが入力としてトランスフォーマーに適用される、トランスフォーマーが解釈できる表現の作成を示す概略図である。
有用な比較のために、図6は、当技術分野で見出され得る姿勢追跡のステップを示す概略図である。図7は、本開示の一実施形態による、姿勢追跡及びID割り当てのステップを示す概略図である。
ここでは、いくつかの具体的な例を用いて本開示を示したが、当業者であれば本教示がそれらに限定されないことを認識するであろう。したがって、本開示は本明細書に添付される特許請求の範囲によってのみ限定されるべきである。

Claims (4)

  1. ビデオの複数のフレーム内で識別された人物のキーポイント推定と、
    前記キーポイントによって識別された姿勢の時間的マッチングと、
    他の姿勢に対する現在の姿勢のID割り当てと、
    を有し、前記時間的マッチングが、トランスフォーマーマッチングネットワークによって実行され、前記キーポイントの情報のみを使用し、RGB情報を使用せず、前記トランスフォーマーマッチングネットワークは、マルチレイヤーマルチヘッドネットワークである、姿勢追跡方法。
  2. 前記キーポイント推定は、パラメータフリーのバウンディングボックス伝搬を使用する、請求項に記載の方法。
  3. エンテールメントを用いるキーポイントベースの姿勢追跡方法であって、
    それぞれが姿勢のキーポイントに対応するトークンの文から情報を抽出することと、
    各姿勢の前記キーポイントを埋め込み、トランスフォーマーネットワークに前記埋め込みを供給することと、
    現在の姿勢を以前の複数のタイムステップの姿勢にマッチングさせることと、
    マッチした姿勢の指標を出力することと、
    を有する、姿勢追跡方法。
  4. 前記トランスフォーマーネットワークは、マルチレイヤーマルチヘッドネットワークである、請求項に記載の方法。
JP2022515910A 2019-09-12 2020-09-10 エンテールメントを用いたキーポイントベースの姿勢追跡 Active JP7328444B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201962899390P 2019-09-12 2019-09-12
US62/899,390 2019-09-12
US201962933591P 2019-11-11 2019-11-11
US62/933,591 2019-11-11
US17/016,273 US11475590B2 (en) 2019-09-12 2020-09-09 Keypoint based pose-tracking using entailment
US17/016,273 2020-09-09
PCT/US2020/050255 WO2021050773A1 (en) 2019-09-12 2020-09-10 Keypoint based pose-tracking using entailment

Publications (2)

Publication Number Publication Date
JP2022548569A JP2022548569A (ja) 2022-11-21
JP7328444B2 true JP7328444B2 (ja) 2023-08-16

Family

ID=74866049

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022515910A Active JP7328444B2 (ja) 2019-09-12 2020-09-10 エンテールメントを用いたキーポイントベースの姿勢追跡

Country Status (4)

Country Link
US (1) US11475590B2 (ja)
JP (1) JP7328444B2 (ja)
DE (1) DE112020004320T5 (ja)
WO (1) WO2021050773A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095254B (zh) * 2021-04-20 2022-05-24 清华大学深圳国际研究生院 一种人体部位关键点的定位方法及系统
CN113724325B (zh) * 2021-05-31 2024-05-28 西安理工大学 一种基于图卷积网络的多场景单目相机位姿回归方法
CN113450579B (zh) * 2021-08-30 2021-12-14 腾讯科技(深圳)有限公司 速度信息的获取方法、装置、设备及介质
GB2616733A (en) * 2021-11-15 2023-09-20 Univ Henan Polytechnic Pose estimation-based pedestrian fall action recognition method and device
CN113963445A (zh) * 2021-11-15 2022-01-21 河南理工大学 一种基于姿态估计的行人摔倒动作识别方法及设备
CN114332509B (zh) * 2021-12-29 2023-03-24 阿波罗智能技术(北京)有限公司 图像处理方法、模型训练方法、电子设备及自动驾驶车辆
CN115100442B (zh) * 2022-08-23 2022-11-22 浙江大华技术股份有限公司 目标匹配方法、目标与部位匹配方法及相关设备
CN117423138B (zh) * 2023-12-19 2024-03-15 四川泓宝润业工程技术有限公司 基于多分支结构的人体跌倒检测方法、装置及系统
CN117953015A (zh) * 2024-03-26 2024-04-30 武汉工程大学 基于视频超分辨率多行人跟踪方法、系统、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110081048A1 (en) 2008-07-09 2011-04-07 Gwangju Institute Of Science And Technology Method and apparatus for tracking multiple objects and storage medium
US20140010407A1 (en) 2012-07-09 2014-01-09 Microsoft Corporation Image-based localization

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135514B2 (en) * 2010-05-21 2015-09-15 Qualcomm Incorporated Real time tracking/detection of multiple targets
US10692243B2 (en) * 2017-12-03 2020-06-23 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
US10733431B2 (en) * 2017-12-03 2020-08-04 Facebook, Inc. Systems and methods for optimizing pose estimation
US10796452B2 (en) * 2017-12-03 2020-10-06 Facebook, Inc. Optimizations for structure mapping and up-sampling
CN109918975B (zh) * 2017-12-13 2022-10-21 腾讯科技(深圳)有限公司 一种增强现实的处理方法、对象识别的方法及终端
US20190188533A1 (en) * 2017-12-19 2019-06-20 Massachusetts Institute Of Technology Pose estimation
US10719744B2 (en) * 2017-12-28 2020-07-21 Intel Corporation Automated semantic inference of visual features and scenes
CN110245359B (zh) * 2018-05-18 2024-01-26 谷歌有限责任公司 使用自回归机器学习模型进行并行解码
US11074711B1 (en) * 2018-06-15 2021-07-27 Bertec Corporation System for estimating a pose of one or more persons in a scene
US11238612B2 (en) * 2018-08-28 2022-02-01 Beijing Jingdong Shangke Information Technology Co., Ltd. Device and method of tracking poses of multiple objects based on single-object pose estimator
WO2020176873A1 (en) * 2019-02-28 2020-09-03 Stats Llc System and method for generating trackable video frames from broadcast video
CN112819852A (zh) * 2019-11-15 2021-05-18 微软技术许可有限责任公司 对基于姿态的运动进行评估

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110081048A1 (en) 2008-07-09 2011-04-07 Gwangju Institute Of Science And Technology Method and apparatus for tracking multiple objects and storage medium
US20140010407A1 (en) 2012-07-09 2014-01-09 Microsoft Corporation Image-based localization

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Bin Xiao et al.,Simple Baselines for Human Pose Estimation and Tracking,[online],2018年08月21日, [retrieved on 2023.03.16], Internet, <URL:https://arxiv.org/pdf/1804.06208.pdf>
Hao-Shu Fang et al.,RMPE: Regional Multi-Person Pose Estimation,[online],2018年02月04日,[retrieved on 2023.03.16], Internet, <URL:https://arxiv.org/pdf/1612.00137.pdf>
Ke Sun et al.,Deep High-Resolution Representation Learning for Human Pose Estimation,2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2019年06月20日

Also Published As

Publication number Publication date
DE112020004320T5 (de) 2022-06-30
US11475590B2 (en) 2022-10-18
WO2021050773A1 (en) 2021-03-18
US20210082144A1 (en) 2021-03-18
JP2022548569A (ja) 2022-11-21

Similar Documents

Publication Publication Date Title
JP7328444B2 (ja) エンテールメントを用いたキーポイントベースの姿勢追跡
Peng et al. TPM: Multiple object tracking with tracklet-plane matching
Abu Farha et al. When will you do what?-anticipating temporal occurrences of activities
Suk et al. Hand gesture recognition based on dynamic Bayesian network framework
Xiao et al. Robust facial landmark detection via recurrent attentive-refinement networks
Gaur et al. A “string of feature graphs” model for recognition of complex activities in natural videos
Luo et al. Pseudo-convolutional policy gradient for sequence-to-sequence lip-reading
Wang et al. Split and connect: A universal tracklet booster for multi-object tracking
US11526698B2 (en) Unified referring video object segmentation network
Gupta et al. Nose, eyes and ears: Head pose estimation by locating facial keypoints
WO2022007193A1 (zh) 一种基于迭代学习的弱监督视频行为检测方法及系统
Bouchrika et al. Ordering computers by hand gestures recognition based on wavelet networks
US11501110B2 (en) Descriptor learning method for the detection and location of objects in a video
Yang et al. Coupled grouping and matching for sign and gesture recognition
Ponce-López et al. Multi-modal social signal analysis for predicting agreement in conversation settings
Pramono et al. Relational reasoning for group activity recognition via self-attention augmented conditional random field
Liang et al. Efficient temporal sentence grounding in videos with multi-teacher knowledge distillation
Yang et al. A feature learning approach for face recognition with robustness to noisy label based on top-N prediction
CN113569758A (zh) 基于动作三元组引导的时序动作定位方法、系统、设备及介质
Zhu et al. Multi-sourced knowledge integration for robust self-supervised facial landmark tracking
Goneid et al. Facial feature analysis of spontaneous facial expression
Yang et al. Exploiting semantic-level affinities with a mask-guided network for temporal action proposal in videos
Sim et al. Changepoint detection-assisted nonparametric clustering for unsupervised temporal sign segmentation
Zhang et al. Online social behavior modeling for multi-target tracking
EP4280101A1 (en) Pseudo-ground-truth generation from timestamp supervision

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230803

R150 Certificate of patent or registration of utility model

Ref document number: 7328444

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350