JP2022547687A

JP2022547687A - 時空間オブジェクト追跡を用いた高次の相互作用による動作認識

Info

Publication number: JP2022547687A
Application number: JP2022515921A
Authority: JP
Inventors: ファーレイレイ、; アシムカダヴ、; ジエチェン、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-09-12
Filing date: 2020-09-10
Publication date: 2022-11-15
Anticipated expiration: 2040-09-10
Also published as: DE112020004319T5; WO2021050772A1; US20210081673A1; US11600067B2; JP7253114B2

Abstract

本発明の態様は、時空間オブジェクト追跡との高次の相互作用を伴う動作認識を提供するシステム、方法及び構造を説明する。画像及びオブジェクトの特徴は、トラックに整理される。これは、多くの可能性のある学習可能な埋め込み及びトラック内／トラック間の相互作用を有利に促進する。動作上、本開示によるシステム、方法及び構造は、効率的な高次の相互作用モデルを用いて、ＡＲのための時空間全体の埋め込み及びオブジェクト内／オブジェクト間のトラック相互作用を学習する。各フレームは、オブジェクト検出器によって検出され、視覚的オブジェクトの位置を特定する。これらのオブジェクトは、時間を通してリンクされ、オブジェクトのトラックを形成する。オブジェクトのトラックは整理され、モデルへの入力として埋め込みと組み合わされる。このモデルは、反復処理遅延の無い効率的な行列演算として定式化された高次の相互作用を通じて、代表的な埋め込みと識別可能なビデオの特徴を生成するために訓練される。【選択図】図９

Description

この開示は、一般にデジタルビデオ及びコンピュータ視覚システムに関するものである。より詳細には、本発明は、時空間オブジェクト追跡を用いたビデオの動作認識技術を説明する。

デジタルビデシステム及びコンピュータ視覚システムは、動作認識（ＡＲ：action recognition）等の高レベルビデオを理解するための視覚的オブジェクトを特定するためにオブジェクトを広範囲に利用してきた。残念ながら、オブジェクト検出システムとそのようなシステムで採用されている方法は、一般に静止画像で訓練されており、結果として、動きぼけやカメラの焦点ぼけ等の問題のために、ビデオに適用するとオブジェクトを誤ってまたは偽物を検出する傾向がある。その結果、このようなオブジェクトのＡＲはかなり難しくなる。

当技術分野における進歩は、時空間オブジェクト追跡との高次の相互作用を伴う動作認識を提供するシステム、方法及び構造を対象とする本開示の態様によって成される。

従来技術とは対照的に、本開示の一実施形態によるシステム、方法及び構造は、改善された動作認識（ＡＲ）を提供するために、時空間オブジェクト追跡を用いる高次の相互作用アプローチを導入する。

一態様によれば、本開示の一実施形態によるシステム、方法及び構造は、画像及びオブジェクトの特徴をトラックに整理される。これは、多くの可能性のある学習可能な埋め込み及びトラック内／トラック間の相互作用を有利に促進する。

動作上、本開示によるシステム、方法及び構造は、効率的な高次の相互作用モデルを用いて、ＡＲのための時空間全体の埋め込み及びオブジェクト内／オブジェクト間のトラック相互作用を学習する。各フレームは、オブジェクト検出器によって検出され、視覚的オブジェクトの位置を特定する。これらのオブジェクトは、時間を通してリンクされ、オブジェクトのトラックを形成する。次に、オブジェクトのトラックは整理され、モデルへの入力として埋め込みと組み合わされる。このモデルは、反復処理遅延の無い効率的な行列演算として定式化された高次の相互作用を通じて、代表的な埋め込みと識別可能なビデオの特徴を生成するために訓練される。

他の態様によれば、本開示の態様によるシステム、方法及び構造は、複数のビデオフレームにわたって人「オブジェクト」を追跡し、リアルタイムで該人の行動を有利に検出できる。
本開示のより完全な理解は、添付の図面を参照することで実現される。

図１は、本開示の一実施形態による、Ｔｒａｎｓｆｏｒｍｅｒエンコーダユニットを示す概略図である。

図２は、本開示の一実施形態による、スケーリングされたドットプロダクトアテンションを示す概略図である。

図３は、本開示の一実施形態による、マルチヘッドアテンションを示す概略図である。

図４は、本開示の一実施形態による、フレーム毎の画像特徴のシーケンスを埋め込むためのＴｒａｎｓｆｏｒｍｅｒエンコーダを用いた関係のモデル化のための入力トークン埋め込みの再設計を示す概略図である。

図５は、本開示の一実施形態による、フレーム毎の上位Ｋのオブジェクトの特徴の埋め込みシーケンスのためのＴｒａｎｓｆｏｒｍｅｒエンコーダを用いた関係のモデル化のための入力トークン埋め込みの再設計を示す概略図である。

図６は、本開示の一実施形態による、フレーム毎の画像＋オブジェクトの特徴のシーケンスを埋め込むためのＴｒａｎｓｆｏｒｍｅｒエンコーダを用いた関係のモデル化のための入力トークン埋め込みの再設計を示す概略図である。

図７は、本開示の一実施形態による、ビデオの動作認識パイプラインを示す概略図である。

図８は、ビデオ表現のための追跡不能な動作認識プロセスを示す概略図である。

図９は、本開示の一実施形態による、ビデオ表現のための追跡可能な動作認識プロセスを示す概略図である。

図１０は、本開示の一実施形態による、トラック内及びトラック間のアテンションに対する追跡可能な動作認識プロセスを示す概略図である。

例示的な実施形態は、図面及び詳細な説明によってより完全に説明される。しかしながら、本開示による実施形態は、様々な形態で実現されてもよく、図面及び詳細な説明に記載された特定のまたは例示的な実施形態に限定されない。

以下は、単に本開示の原理を例示するものである。したがって、当業者であれば、本明細書で明示的に説明または図示されなくても、本開示の主旨及び範囲に含まれる、本開示の原理を実現する様々な構成を考え出すことができることを理解されたい。

さらに、本明細書で挙げる全ての実施例及び条件を示す用語は、本開示の原理及び本技術を推進するために本発明者らが提供するコンセプトの理解を助ける教育目的のためだけであることを意味し、具体的に挙げられた実施例及び条件に限定されないと解釈されるべきである。

さらに、本開示の原理、態様及び実施形態、並びにその特定の実施例で挙げる本明細書の全てのステートメントは、その構成及び機能の均等物の両方を含むことを意味する。さらに、そのような均等物には、現在知られている均等物と、将来開発される均等物、すなわち構成に関係なく同じ機能を実現する、開発された要素の両方を含むことを意味する。

したがって、例えば、本明細書の任意のブロック図は、本開示の原理を実施する回路の実例を示す概念図であることが当業者に理解されよう。

本明細書では、特に明記しない限り、図を含む図面は、正確な縮尺率で描かれていない。

いくつかの追加の背景として、豊富なビデオ埋め込みを学習するために高次シーンの相互作用をモデル化するための方法論を設計する際に、自然言語処理の分野、より具体的には、Ｔｒａｎｓｆｏｒｍｅｒアーキテクチャにおける最近の開発から、いくつかのインスピレーションを得たことに留意されたい。

知られているように、Ｔｒａｎｓｆｏｒｍｅｒは、文章を並列に処理することでｓｅｑ２ｓｅｑタスクを処理し、図１で概略的に示すようなエンコーダを用いて、削減された次元埋め込みに至り、その後、デコーダを用いて、より低い次元の埋込みを変換することで出力シーケンスを生成する。図１を参照すると、本開示の一実施形態による、Ｔｒａｎｓｆｏｒｍｅｒエンコーダユニットを示す概略図が示されている。

当業者によって理解されるように、エンコーダ及びデコーダシステムは、一般に、複数の同一のエンコーダ及び／またはデコーダを含み、次から次へと「積み重ねられて／カスケード接続されて」Ｎ回繰り返される。

言語のための文章または段落レベルの埋め込みの学習は、ビデオのスニペットにおける相互作用を表す学習埋め込みに類似していると理論化できる。モダリティ及び情報の程度等の類似点よりも多くの差異があっても、ビデオシーンの相互作用をモデル化するためにＴｒａｎｓｆｏｒｍｅｒアーキテクチャを転用するプロセスでは、Ｔｒａｎｓｆｏｒｍｅｒアーキテクチャ、言語及び画像／ビデオデータの基礎となる構造パターン間のコントラスト、並びに学習及び埋め込みを改善するための可能性のある将来の方向性に関する様々な複雑な観察結果に到達する。

さらに、当技術分野で提案されているいくつかのアテンション層が存在し、そのうちの１つは、この研究にとって特に興味深いものである、すなわちスケーリングされたドットプロダクトアテンションであることに留意されたい。当業者には既知であり、理解されるように、スケーリングされたドットプロダクトアテンション層は、次元ｄ_kのクエリ及びキーと、次元ｄ_vの値とを含む。ドットプロダクトがクエリ間で計算され、プロダクトは、

によってスケーリングされ、ソフトマックス関数を通過して、値に対する重みを取得する。ドットプロダクトアテンションは、高度に最適化された行列乗算コードを用いて実現できるため、加法アテンションと比べて、実際にはるかに速く、より空間効率が良い。

理解できるように、アテンション関数は、行列Ｑ、Ｋ及びＶが一緒に集められた場合、複数のクエリにおいて並列に計算できる。

当業者は、複数のヘッドが、クエリ、キー及び値についてそれぞれ異なる線形投影を学習し、追加の計算なしにアテンション機能を並行に実行できることを理解するであろう（例えば、図２を参照）。

図２は、本開示の一実施形態による、スケーリングされたドットプロダクトアテンションを示す概略図を示す。観察されるように、Ｔｒａｎｓｆｏｒｍｅｒエンコーダは自己アテンション層を含む。ここで、現在の層のキー、クエリ及び値は、（すぐ）前の層の出力符号化の投影である。これらの投影は、Ｑ、Ｋ及びＶを得るために、夫々学習行列Ｗ_q、Ｗ_K及びＷ_vによって入力される符号化を乗算することで得られる。これは、図２で示すように、エンコーダ内の夫々の位置における埋め込みが、該エンコーダの前のレイヤ内の全ての位置に対応できることも意味する。

Ｑ、Ｋ及びＶの様々な平行投影を伴う複数のヘッドは、出力埋め込みサイズまで連結及び投影できる様々な可能性をカバーする出力符号化の複数のバージョンを生成する。

図３は、本開示の一実施形態による、マルチヘッドアテンションを示す概略図である。これらの特性は、入力特徴シーケンス間のより高次の関係をモデル化することを可能にする。

例えば、アテンションの１つの層は、全てのｈ回のペア毎の関係をモデル化し、２つの層は、全てのｈ回のトリプレットの関係等をモデル化する（ここで、ｈは同じ入力符号化の異なるＱ、Ｋ及びＶ投影を有する平行なヘッドの数）。様々な研究は、視覚データ処理におけるアテンション層の性能を調査しており、積み重ねアテンション層は、畳み込みと類似したローカルな挙動と、入力コンテンツに基づくグローバルなアテンションとを組み合わせることを学習すると結論付けている。より一般的には、フルアテンションモデルは、変形可能な畳み込みと同様に、カーネルパターンがフィルタと同時に学習されるＣＮＮの一般化を学習すると思われる。

そのように、アテンション層は、畳み込みによって行われるように、一般化及び／または次元の削減のより広いクラスをカバーし、ビデオのような高次元のデータに関してより関連があるようになる。
（高次シーン相互作用のモデル化）

（シーン埋め込みトークン化）

重要なことは、Ｔｒａｎｓｆｏｒｍｅｒエンコーダを転用して、選択的に時空間次元の削減を実行し、ビデオ埋め込みを生成することである。ビデオフレームからエンコーダに対する入力をモデル化することは、妥当な結果を達成する上で重要となる。

言語タスクでは、最初に単語がトークン化され、次に固定次元の単語埋め込みに変換される。単語埋め込みのこのシーケンスは位置埋め込みで拡張され、並列にＴｒａｎｓｆｏｒｍｅｒエンコーダに供給される。ビデオ埋め込みで同様のことを達成するためには、重要なシーン要素の埋め込みシーケンスを形成する方法が必要である。

（フレーム毎の画像特徴の入力埋め込みシーケンス）
画像特徴抽出器としてしばしば使用されるＲｅｓＮｅｘｔを用いて、フレーム毎の画像／フレームレベルの特徴を抽出することでシーン要素の関係をモデル化することを試みる。これらの画像レベルの特徴は、次の図の左側で示されるように、Ｔｒａｎｓｆｏｒｍｅｒエンコーダに対する入力埋め込みを形成するように一緒に積み重ねられる。図４は、本開示の一実施形態による、フレーム毎の画像特徴のシーケンスを埋め込むためのＴｒａｎｓｆｏｒｍｅｒエンコーダを用いた関係のモデル化のための入力トークン埋め込みの再設計を示す概略図であり、図５は、本開示の一実施形態による、フレーム毎の上位Ｋのオブジェクトの特徴の埋め込みシーケンスのためのＴｒａｎｓｆｏｒｍｅｒエンコーダを用いた関係のモデル化のための入力トークン埋め込みの再設計を示す概略図である。

（フレーム当たりの画像＋オブジェクトの特徴の入力埋め込みシーケンス）
この時点で、画像レベルの特徴だけでなく、シーンにおける個々のオブジェクトの特徴も使用することで、シーケンスにおけるトークンの粒度を高めることに留意されたい。ＲＦＣＮオブジェクト検出器は、まずビデオのスニペットのフレームにおけるオブジェクトの境界ボックスを得るために使用される。そして、ＲｅｘＮｅｘｔは、精度が上位Ｋのオブジェクトに対するより高品質なオブジェクトの特徴を抽出するために使用される。

図６で示すように、各フレームについて、画像レベルの特徴及び上位Ｋのオブジェクトの特徴は、一緒に積み重ねられて、トークン化されたエンコーダ入力を形成する。図６は、本開示の一実施形態による、フレーム当たりの画像＋オブジェクトの特徴のシーケンスの埋め込みのためのＴｒａｎｓｆｏｒｍｅｒエンコーダを用いた関係のモデル化のための、入力トークン埋め込みの再設計を示す概略図である。

入力埋め込みシーケンスにおける異なる種類のトークン埋め込みを分離するために、本発明者らは、１つのフレームの終わりを示すｎｕｌｌとして初期化された、空のセパレータトークンを試行した（図６）。

（１フレーム当たりのオブジェクトの特徴の入力埋め込みシーケンス）
本発明者らは、例えば図５の右の部分で示されるようなトークン化されたエンコーダ入力を形成するために、一緒に積み重ねられたフレーム当たりの上位Ｋのオブジェクトの特徴のみの利用を研究する。

（追加キューによる埋め込みの拡張）

シーン要素がトークン化された時点で、これらの優先順位を強調するために、埋め込みに追加の時空間キューを追加する。言語タスクと同様に、時間、タイプ及び空間符号化は、入力トークンの埋め込みと同じ次元の埋め込みに変換される。これらの埋め込みは、学習したルックアップテーブルである。

全ての学習した埋め込みは、最終的に、入力トークンの埋め込みと一緒に加算される。

ここで、Ｅ_sceneは、モデル化に基づいて、オブジェクトの特徴または画像の特徴の何れかとすることができる。

（時間的な位置（Ｅ位置））
Ｔｒａｎｓｆｏｒｍｅｒがパーミュテーション不変であることに留意することが重要である。学習したビデオ埋め込みにおいて表される時間的な順序キューを持たないことは、Ｋｉｎｅｔｉｃｓ－４００データセットにおける「ドアを開く」対「ドアを閉じる」として分類されるビデオのような特定の動作イベントを区別することを困難にする。

時間的な順序を強調するために、本発明者らは、位置埋め込みを用いる入力埋め込みを付け加えた。これらの位置符号化は、フレーム当たりの時間注釈の順序の増加を意味する。これは、図５及び図６で示したように、入力トークンの埋め込みに時間的な順序キューを組み込む。これらの位置符号化は、フレーム番号と同じくらい単純なシーケンスを用いて訓練中に学習される、入力トークンの埋め込みと同じ次元のものである。

（トークンタイプ（Ｅタイプ））
本発明者らは、異種トークンから作られた入力埋め込みを有する設計を使用する。一部は多くのオブジェクト及び背景情報を含む画像フレーム全体を表し、他は本発明者らの環境において見出される個々の物理的オブジェクトを表す。

異なる粒度のこれらの異種埋め込み全体の関係を学習するため、図６で示すように、入力埋め込みをトークンタイプ埋め込みで拡張し、カテゴリキューを組み込む。これらのカテゴリキューは、画像及びオブジェクトレベルの特徴のために、入力トークンの埋め込みをタイプ１とタイプ２とに区別する。

（空間位置（Ｅ空間））
フルフレームからのオブジェクト周辺の失われた背景情報を補う空間キューをさらに追加するために、各オブジェクトのトークンに空間位置情報を注入する。埋め込みは、各フレームからオブジェクト検出ネットワークによって予測されたオブジェクトの境界ボックス座標（ｘ₁，ｙ₁、ｘ₂、ｙ₂）から学習される。

上述したこれらのアーキテクチャを用いて、ビデオの動作認識タスクを処理するためのシーン要素間のより高次の空間－時間相互作用を学習するためのパイプライン（図７）を構築する。本発明者らは、Ｋｉｎｅｔｉｃｓ－４００データセットで本発明者らのモデルを評価する。

図７は、本開示の一実施形態による、ビデオの動作認識パイプラインを示す概略図であり、バックボーン特徴抽出ネットワークＲｅｓＮｅｘｔ及びオブジェクト検出ＲＦＣＮが特徴抽出のために使用される。ＲｅｓＮｅｘｔ－１０１はフレーム毎の画像レベルの特徴を抽出するために使用され、オブジェクトＲＦＣＮはフレーム毎のオブジェクトを検出のために使用される。上位ＫのオブジェクトのＲＯＩは、ＲＯＩ－Ａｌｉｇｎユニットを用いてシーン画像を切り取ってサイズを変更するために使用され、ＲｅｓＮｅｘｔ－１０１を通過してオブジェクトの特徴を抽出する。これらの特徴は、図７で示すように相互作用モデル化ユニット及び背景モデル化ユニットに入力される。

（相互作用モデル化ユニット）
相互作用モデル化ユニットは、シーン要素全体の時空間の相互作用をモデル化する。最初に、画像とオブジェクトの特徴ベクトルを積み重ねて、入力埋め込みシーケンスを形成する。続いて、時間的、空間的及びタイプの埋め込みが入力埋め込みに追加され、最終的な埋め込みシーケンスが形成される。この埋め込みシーケンスは、２層マルチヘッドＴｒａｎｓｆｏｒｍｅｒエンコーダに通される。詳細なバージョンは、図３で概略的に示されている。

（背景モデル化ユニット）
フレームレベルの特徴は、単一のスケーリングされたドットプロダクトアテンション層を通過する。ここで、Ｑ、Ｋ及びＶは、ＭＬＰを介した入力ベクトルシーケンスの３つの異なる投影にすぎない。最後に、背景及び相互作用埋め込みは、一緒に連結され、動作カテゴリに切り取られたビデオを分類する分類器に供給される。
（性能分析）

（Ｋｉｎｅｔｉｃｓ－４００の精度）

上述したように、本発明者らは、１ＦＰＳでＫｉｎｅｔｉｃｓ－４００データセットの相互作用モデル化ユニットに基づくＴｒａｎｓｆｏｒｍｅｒを用いて動作認識パイプラインを訓練した。

オブジェクト検出畳み込みニューラルネットワークＲＦＣＮは、最初に、ＭＳＣＯＣＯデータセットで訓練される。特徴抽出ネットワークに関して、１０００のＩｍａｇｅＮｅｔ１Ｋのシンセットと一致する１．５Ｋハッシュタグを有する９億４０００万の公開画像で弱い教師ありの手法で事前に訓練されたＲｅｓＮｅｘｔモデルを使用し、その後、ＩｍａｇｅＮｅｔ１Ｋデータセットで微調整する。結果は、多くの重要な視覚タスクで改善された性能を示す。

本発明者らは、この新しい大規模に事前訓練されたＲｅｓＮｅｘｔネットワークを用いて、高品質な画像及びオブジェクトの特徴を抽出した。次元２０４８のベクトルのオブジェクトと画像の特徴を抽出し、Ｔｒａｎｓｆｏｒｍｅｒエンコーダの様々な数の層とヘッドを試し、エンコーダの出力の第１の隠れ層の分類を推し進め、最後に相互作用埋め込みとシーン埋め込みを連結して、４００Ｋｉｎｅｔｉｃｓクラスレスの一つに分類される４０９６次元の特徴ベクトルを形成した。Ａｄａｍ最適化装置は、学習速度の低下と共に使用される。タスクは、クロスエントロピー損失を有するマルチクラス分類としてモデル化される。モデルは、ＮＶＩＤＩＡ－ＧＴＸ１０８０ｔｉＧＰＵで訓練される。

本発明者らは、２つの平行ヘッドを有する２層のＴｒａｎｓｆｏｒｍｅｒエンコーダを有する、位置埋め込みによるＴｒａｎｓｆｏｒｍｅｒベースの相互作用モデル化ユニットにおいて、フレーム当たり上位１５のオブジェクトのみを使用しながら、最良の結果を達成した。これらの結果は、Ｋｉｎｅｔｉｃｓ－４００データセットのＳＩＮｅｔ及びＩ３Ｄ等の他のアーキテクチャよりも性能が優れている。

表１Ｋｉｎｅｔｉｃｓ－４００動作認識

（ＳＩＮｅｔとの性能比較）

当業者には容易に理解されるように、本発明者らのモデルは、ＳＩＮｅｔについて報告された精度を３パーセント改善する。

この特定のアーキテクチャは、シーン要素相互作用をモデル化も選択するため、特に比較のために選択するが、シーケンシャルＬＳＴＭベースの回帰ユニットを用いて選択されることに留意されたい。表２は、Ｋｉｎｅｔｉｃｓ－４００と他のアーキテクチャとの性能比較を示している。アーキテクチャ'Ｉｍｇ＋１５Ｏｂｊ’ベースの本発明者らのＴｒａｎｓｆｏｒｍｅｒに関して、本発明者らは、シーン毎に上位１５のオブジェクトの特徴を持つ画像特徴を用いていることを意味し、'２Ｈ２ＬはＴｒａｎｓｆｏｒｍｅｒエンコーダが２つの平行ヘッドと２つのレイヤで構成されていることを意味する。

（新しいＲｅｓＮｅｘｔ－１０１バックボーンを使用したＳＩＮｅｔの再訓練）

コンピュータビジョン分野の研究は、急速に発展し、新しい発見が公表されるにつれて、結果は時代遅れになっている。著者ＫａｉｍｉｎｇＨｅらによってリリースされたＲｅｓＮｅｘｔモデルは、ネットワークがより小さいデータセットで事前に訓練された、より古いＲｅｓＮｅｘｔモデルを使用したため、ＳＩＮｅｔによって報告された結果は古いままである。本発明者らは、ＲｅｓＮｅｘｔ－１０１３４－８ｄから、新しい高品質の画像及びオブジェクトの特徴を用いてＳＩＮｅｔの性能を再訓練することでＳＩＮｅｔの性能を再評価することにした。その結果を表３に示す

表２Ｋｉｎｅｔｉｃｓ－４００動作認識：ＳＩＮｅｔとの性能比較

表３Ｋｉｎｅｔｉｃｓ－４００動作認識：ＳＩＮｅｔ再訓練後の性能比較

再訓練は、ＳＩＮｅｔの精度を７７パーセントに向上させ、これは本発明者らの結果と同様である。ＳＩＮｅｔの性能は、本発明者らの結果に匹敵するようになるため、どのアーキテクチャが他のアーキテクチャより好ましいかを指摘することは困難である。本発明者らは、本発明者らのモデルが上位１クラスの精度でＳＩＮｅｔよりも０.１パーセント先んじているとしても、上位５クラスの精度でＳＩＮｅｔよりも１．２パーセント悪い性能であることに注目する。

（トークン埋め込み設計比較）

表４において、Ｔｒａｎｓｆｏｒｍｅｒエンコーダユニットの様々なトークン埋め込み設計の比較結果を示す。Ｔｒａｎｓｆｏｒｍｅｒエンコーダは、均一なトークン埋め込み全体の関係をより適切にモデル化するように観察できる。この場合、オブジェクトの特徴のみから構成されるシーケンスは、最良の７７．５パーセントを実行する。

表４Ｋｉｎｅｔｉｃｓ－４００動作認識：トークン埋め込み設計比較

表５Ｋｉｎｅｔｉｃｓ－４００動作認識：順序を強調する時間的な位置キューは性能を改善する

言語タスクにおいて、単語埋め込みは良好に区別され、各トークン埋め込みに均一な量の情報を含む、すなわち各トークンは、単に一意にハッシュされ学習されたルックアップテーブルにマップされた単語である。フル画像シーンの特徴と個々のオブジェクトを表す特徴を１つのシーケンスに結合してＴｒａｎｓｆｏｒｍｅｒエンコーダに供給すると、ビデオを理解する場合、データが不均一になり、Ｔｒａｎｓｆｏｒｍｅｒエンコーダがシーケンス全体の関係を計算することが困難になると推測される。

位置キューを追加することが全体的な性能を向上させることを表５で示す。同じことは、トークン型埋め込みまたは空間位置埋め込みに関して、肯定的に言うことはできない。

（Ｔｒａｎｓｆｏｒｍｅｒエンコーダのヘッドと層の比較）

表６に、様々な数のヘッド及び層を用いた結果を示す。

表６Ｋｉｎｅｔｉｃｓ－４００動作認識：Ｔｒａｎｓｆｏｒｍｅｒエンコーダヘッド対層

表７性能比較：ＳＩＮｅｔ相互作用モデル化ユニット・１秒当たりの浮動小数点演算

ヘッドの数が少ないほど、動作認識の積み重ねにおいて、よりよい性能を与えることが分かる。性能は類似しているが、２ヘッドで最大である。本発明者らは、多数の層を評価し、レイヤ数が２以上に増加しても性能に改善がないことも発見した。

（１秒あたりの浮動小数点演算の計算）

本発明者らは、表７及び表８で示すように、Ｔｒａｎｓｆｏｒｍｅｒ相互作用モデル化ユニット（２ヘッド、２層）で実行される１秒当たりの浮動小数点演算を計算し、それをＳｉＮｅｔのＨＯＩユニット（順序：Ｋ=３）と比較した。両方のアーキテクチャは、ＲｅｓＮｅｘｔ－１０１とＲＦＣＮの夫々に対して１６Ｇフロップと５３Ｇフロップを有する共通バックボーンで評価した。この計算は、Ｔｒａｎｓｆｏｒｍｅｒに対して不正確であるように見えることに留意する。

表８性能比較：Ｔｒａｎｓｆｏｒｍｅｒ相互作用モデル化ユニット－１秒当たりの浮動小数点演算

（Ｋｉｎｅｔｉｃｓ－４００の上位製品）

本発明者らは、Ｋｉｎｅｔｉｃｓ４００の上位ランクのモデルが、アーキテクチャ設計にあまり焦点を当てておらず、大規模な半教師あり事前訓練に対してより焦点を当てており、それぞれ８２.８パーセント及び８３.６パーセントを達成していることに注目する。

（ビデオの理解を改善するための時間的な事前学習）

本発明者らは、現在のアーキテクチャは、Ｔｒａｎｓｆｏｒｍｅｒの事前訓練の利点を取り入れていないことに留意する。ＢＥＲＴと同様に、Ｔｒａｎｓｆｏｒｍｅｒ符号化が、動作中のフレームの順序付けなどの時間的な事前訓練を自己教師あり手法で事前に訓練している場合、動作分類等の下流のタスクの性能は、イベントの順序に大いに依存するクラスに対して改善できる。

（より細かい相互作用モデル化のためのオブジェクトベースの語彙構築）

オブジェクトの特徴を様々なクラスカテゴリに正確にマッピングするために、自然言語処理における単語について現在存在するものと同様の辞書ルックアップテーブルを構築する能力に留意されたい。このオブジェクトの一般的な語彙が構築されている場合、オブジェクト検出のタスクがより単純になり、動作認識パイプラインを改善できる。

（オブジェクトベースのスーパービジョン？）

オブジェクト検出器は、本発明者らのビデオの理解のパイプラインにおける計算の大部分を要するため、オブジェクト検出ベースの計算を削除し、キーシーン要素の特徴（必ずしもオブジェクトではない）を暗黙のうちに学習し、それに基づいてビデオクリップを分類するエンドツーエンドモデルを構築すると、性能のさらなる向上が実現される可能性がある。

（オブジェクト認識データセット及びビデオの理解）

ビデオは、多くの絡み合った複雑なイベントの集合である傾向があるため、より良いビデオの理解を取得するためにどれくらいのスーパービジョンで十分であるかは未知のままである。興味深い動作認識データセットには、より洗練された動作認識技術を構築し、ビデオの理解を向上させるのに役立つ、細かい複合動作として分類されたラベルが含まれている場合がある。

当業者であれば、細かい動作は短期間であり、人間中心であり、動詞のようなものであることを理解するのであろう。例えば、ピッキング、ドロップ、ホールド、掘削、ウェービング、立つ、座る、瞬きをする、歩く、移動する、読む等である。これらの細かい動作は、フレームのより小さいウィンドウに割り当てることができる。複合動作は、通常、細かい動作と、動作を支援する補完的なオブジェクトの組み合わせである。これらの複合動作は、長いビデオクリップを分類するためのより良い方法である。

例えば、お茶の準備には、注ぐ、かき混ぜる、お湯を沸かす、浸すなどを含む。同様に、サルサダンスには、人の動き、サルサの服装、ステージ／フロアを含む。最後に、窃盗には、ピッキング、ランニング、プッシュ等が含まれる場合がある。

様々な時間スケール及び他のスケールで暗黙のうちに動作する作業と同様に、ビデオ理解システムは、ビデオの数フレーム当たりのこれらの細かい動作を識別し、過去のＫフレームにわたる複合動作分類の移動平均を示す能力を有する。

（クラス毎の性能比較）

再訓練されたＳＩＮＥＴのクラス毎の精度をＲｅｓＮｅｔ－１０１３２－８ｄ及びＴｒａｎｓｆｏｒｍｅｒベースのアーキテクチャと比較すると、多くの場合、本発明者らのモデルは、例えば、側転、くしゃみ、足を振る、拍手する、握手する、バスケットボールをダンクする等の高速に変化するシーンにおいてより良好に実行することに気付く。また、例えば、休日に木を飾り付ける、ハンバーガーを食べる、製本する、バイオリンを演奏する、ホイールを交換するなど、多くの空間クラスで精度が低下していることにも留意されたい。

表Ａ１最良の性能クラス

表Ａ２最悪の性能クラス
（有効な動作認識の追跡）

図８は、ビデオのための追跡不能な動作認識プロセスを示す概略図である。対照的に、図９は、本開示の一実施形態による、ビデオ表現のための追跡可能な動作認識プロセスを示す概略図である。この図を参照すると、一連のフレーム・・・、フレーム１、フレーム２及びフレーム３が観察され、それらは複数のオブジェクトをさらに含む画像を含むいくつかの要素を含む。この実例では、各フレームに３つのオブジェクトがある。

各フレームは、オブジェクト検出器によって検出され、任意の視覚的要素の位置が特定される。これらのオブジェクトは、時間を通してリンクされ、オブジェクトのトラックを形成する。

図から分かるように、各要素は、トラックによって順序付けられている。図示されているように、トラック０は、各フレームからの画像要素を含む。トラック１は、各フレームからの第１のオブジェクト要素を含む。トラック２は、各フレームからの第２のオブジェクト要素を含む。最後に、トラック３は、各フレームからの第３のオブジェクトを含む。

オブジェクトのトラックが順序付けられ／整理されたセットは、さらに整理され、本発明者らのモデルに入力される。このモデルは、反復処理遅延の無い効率的な行列演算として定式化された高次の相互作用を用いて、代表的な埋め込みと識別可能なビデオの特徴を生成するために訓練される。

図１０は、本開示の一実施形態による、トラック内及びトラック間アテンションに対する追跡可能な動作認識プロセスを示す概略図である。図から分かるように、そのように生成されたビデオ表現は、運用上の分類を生成する本発明者らのトラックレットのＴｒａｎｓｆｏｒｍｅｒに入力される。

ここでは、いくつかの具体的な例を用いて本開示を示したが、当業者であれば本教示がそれらに限定されないことを認識するであろう。したがって、本開示は本明細書に添付される特許請求の範囲によってのみ限定されるべきである。

Claims

時空間オブジェクト追跡を用いたビデオのフレームにおける動作認識を特定するための方法であって、
前記ビデオのフレームにおける視覚的オブジェクトを検出することと、
オブジェクトのトラックを形成するために、時間を通して同じ視覚的オブジェクトをリンクすることと、
前記オブジェクトのトラックを整理し埋め込みと組み合わせることと、
前記整理され組み合わされたオブジェクトのトラックをニューラルネットワークモデルに供給することと、
を含み、
前記モデルは、反復処理遅延の無い行列演算として定式化された高次の相互作用を用いて、代表的な埋め込み及び識別可能なビデオの特徴を生成するために訓練される、方法。
前記ニューラルネットワークモデルは、Ｔｒａｎｓｆｏｒｍｅｒである、請求項１に記載の方法。