JP2022547687A - 時空間オブジェクト追跡を用いた高次の相互作用による動作認識 - Google Patents

時空間オブジェクト追跡を用いた高次の相互作用による動作認識 Download PDF

Info

Publication number
JP2022547687A
JP2022547687A JP2022515921A JP2022515921A JP2022547687A JP 2022547687 A JP2022547687 A JP 2022547687A JP 2022515921 A JP2022515921 A JP 2022515921A JP 2022515921 A JP2022515921 A JP 2022515921A JP 2022547687 A JP2022547687 A JP 2022547687A
Authority
JP
Japan
Prior art keywords
embeddings
objects
video
track
interactions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022515921A
Other languages
English (en)
Other versions
JP7253114B2 (ja
Inventor
ファーレイ レイ、
アシム カダヴ、
ジエ チェン、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2022547687A publication Critical patent/JP2022547687A/ja
Application granted granted Critical
Publication of JP7253114B2 publication Critical patent/JP7253114B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本発明の態様は、時空間オブジェクト追跡との高次の相互作用を伴う動作認識を提供するシステム、方法及び構造を説明する。画像及びオブジェクトの特徴は、トラックに整理される。これは、多くの可能性のある学習可能な埋め込み及びトラック内/トラック間の相互作用を有利に促進する。動作上、本開示によるシステム、方法及び構造は、効率的な高次の相互作用モデルを用いて、ARのための時空間全体の埋め込み及びオブジェクト内/オブジェクト間のトラック相互作用を学習する。各フレームは、オブジェクト検出器によって検出され、視覚的オブジェクトの位置を特定する。これらのオブジェクトは、時間を通してリンクされ、オブジェクトのトラックを形成する。オブジェクトのトラックは整理され、モデルへの入力として埋め込みと組み合わされる。このモデルは、反復処理遅延の無い効率的な行列演算として定式化された高次の相互作用を通じて、代表的な埋め込みと識別可能なビデオの特徴を生成するために訓練される。【選択図】図9

Description

この開示は、一般にデジタルビデオ及びコンピュータ視覚システムに関するものである。より詳細には、本発明は、時空間オブジェクト追跡を用いたビデオの動作認識技術を説明する。
デジタルビデシステム及びコンピュータ視覚システムは、動作認識(AR:action recognition)等の高レベルビデオを理解するための視覚的オブジェクトを特定するためにオブジェクトを広範囲に利用してきた。残念ながら、オブジェクト検出システムとそのようなシステムで採用されている方法は、一般に静止画像で訓練されており、結果として、動きぼけやカメラの焦点ぼけ等の問題のために、ビデオに適用するとオブジェクトを誤ってまたは偽物を検出する傾向がある。その結果、このようなオブジェクトのARはかなり難しくなる。
当技術分野における進歩は、時空間オブジェクト追跡との高次の相互作用を伴う動作認識を提供するシステム、方法及び構造を対象とする本開示の態様によって成される。
従来技術とは対照的に、本開示の一実施形態によるシステム、方法及び構造は、改善された動作認識(AR)を提供するために、時空間オブジェクト追跡を用いる高次の相互作用アプローチを導入する。
一態様によれば、本開示の一実施形態によるシステム、方法及び構造は、画像及びオブジェクトの特徴をトラックに整理される。これは、多くの可能性のある学習可能な埋め込み及びトラック内/トラック間の相互作用を有利に促進する。
動作上、本開示によるシステム、方法及び構造は、効率的な高次の相互作用モデルを用いて、ARのための時空間全体の埋め込み及びオブジェクト内/オブジェクト間のトラック相互作用を学習する。各フレームは、オブジェクト検出器によって検出され、視覚的オブジェクトの位置を特定する。これらのオブジェクトは、時間を通してリンクされ、オブジェクトのトラックを形成する。次に、オブジェクトのトラックは整理され、モデルへの入力として埋め込みと組み合わされる。このモデルは、反復処理遅延の無い効率的な行列演算として定式化された高次の相互作用を通じて、代表的な埋め込みと識別可能なビデオの特徴を生成するために訓練される。
他の態様によれば、本開示の態様によるシステム、方法及び構造は、複数のビデオフレームにわたって人「オブジェクト」を追跡し、リアルタイムで該人の行動を有利に検出できる。
本開示のより完全な理解は、添付の図面を参照することで実現される。
図1は、本開示の一実施形態による、Transformerエンコーダユニットを示す概略図である。
図2は、本開示の一実施形態による、スケーリングされたドットプロダクトアテンションを示す概略図である。
図3は、本開示の一実施形態による、マルチヘッドアテンションを示す概略図である。
図4は、本開示の一実施形態による、フレーム毎の画像特徴のシーケンスを埋め込むためのTransformerエンコーダを用いた関係のモデル化のための入力トークン埋め込みの再設計を示す概略図である。
図5は、本開示の一実施形態による、フレーム毎の上位Kのオブジェクトの特徴の埋め込みシーケンスのためのTransformerエンコーダを用いた関係のモデル化のための入力トークン埋め込みの再設計を示す概略図である。
図6は、本開示の一実施形態による、フレーム毎の画像+オブジェクトの特徴のシーケンスを埋め込むためのTransformerエンコーダを用いた関係のモデル化のための入力トークン埋め込みの再設計を示す概略図である。
図7は、本開示の一実施形態による、ビデオの動作認識パイプラインを示す概略図である。
図8は、ビデオ表現のための追跡不能な動作認識プロセスを示す概略図である。
図9は、本開示の一実施形態による、ビデオ表現のための追跡可能な動作認識プロセスを示す概略図である。
図10は、本開示の一実施形態による、トラック内及びトラック間のアテンションに対する追跡可能な動作認識プロセスを示す概略図である。
例示的な実施形態は、図面及び詳細な説明によってより完全に説明される。しかしながら、本開示による実施形態は、様々な形態で実現されてもよく、図面及び詳細な説明に記載された特定のまたは例示的な実施形態に限定されない。
以下は、単に本開示の原理を例示するものである。したがって、当業者であれば、本明細書で明示的に説明または図示されなくても、本開示の主旨及び範囲に含まれる、本開示の原理を実現する様々な構成を考え出すことができることを理解されたい。
さらに、本明細書で挙げる全ての実施例及び条件を示す用語は、本開示の原理及び本技術を推進するために本発明者らが提供するコンセプトの理解を助ける教育目的のためだけであることを意味し、具体的に挙げられた実施例及び条件に限定されないと解釈されるべきである。
さらに、本開示の原理、態様及び実施形態、並びにその特定の実施例で挙げる本明細書の全てのステートメントは、その構成及び機能の均等物の両方を含むことを意味する。さらに、そのような均等物には、現在知られている均等物と、将来開発される均等物、すなわち構成に関係なく同じ機能を実現する、開発された要素の両方を含むことを意味する。
したがって、例えば、本明細書の任意のブロック図は、本開示の原理を実施する回路の実例を示す概念図であることが当業者に理解されよう。
本明細書では、特に明記しない限り、図を含む図面は、正確な縮尺率で描かれていない。
いくつかの追加の背景として、豊富なビデオ埋め込みを学習するために高次シーンの相互作用をモデル化するための方法論を設計する際に、自然言語処理の分野、より具体的には、Transformerアーキテクチャにおける最近の開発から、いくつかのインスピレーションを得たことに留意されたい。
知られているように、Transformerは、文章を並列に処理することでseq2seqタスクを処理し、図1で概略的に示すようなエンコーダを用いて、削減された次元埋め込みに至り、その後、デコーダを用いて、より低い次元の埋込みを変換することで出力シーケンスを生成する。図1を参照すると、本開示の一実施形態による、Transformerエンコーダユニットを示す概略図が示されている。
当業者によって理解されるように、エンコーダ及びデコーダシステムは、一般に、複数の同一のエンコーダ及び/またはデコーダを含み、次から次へと「積み重ねられて/カスケード接続されて」N回繰り返される。
言語のための文章または段落レベルの埋め込みの学習は、ビデオのスニペットにおける相互作用を表す学習埋め込みに類似していると理論化できる。モダリティ及び情報の程度等の類似点よりも多くの差異があっても、ビデオシーンの相互作用をモデル化するためにTransformerアーキテクチャを転用するプロセスでは、Transformerアーキテクチャ、言語及び画像/ビデオデータの基礎となる構造パターン間のコントラスト、並びに学習及び埋め込みを改善するための可能性のある将来の方向性に関する様々な複雑な観察結果に到達する。
さらに、当技術分野で提案されているいくつかのアテンション層が存在し、そのうちの1つは、この研究にとって特に興味深いものである、すなわちスケーリングされたドットプロダクトアテンションであることに留意されたい。当業者には既知であり、理解されるように、スケーリングされたドットプロダクトアテンション層は、次元dkのクエリ及びキーと、次元dvの値とを含む。ドットプロダクトがクエリ間で計算され、プロダクトは、
Figure 2022547687000002
によってスケーリングされ、ソフトマックス関数を通過して、値に対する重みを取得する。ドットプロダクトアテンションは、高度に最適化された行列乗算コードを用いて実現できるため、加法アテンションと比べて、実際にはるかに速く、より空間効率が良い。
理解できるように、アテンション関数は、行列Q、K及びVが一緒に集められた場合、複数のクエリにおいて並列に計算できる。
Figure 2022547687000003
当業者は、複数のヘッドが、クエリ、キー及び値についてそれぞれ異なる線形投影を学習し、追加の計算なしにアテンション機能を並行に実行できることを理解するであろう(例えば、図2を参照)。
図2は、本開示の一実施形態による、スケーリングされたドットプロダクトアテンションを示す概略図を示す。観察されるように、Transformerエンコーダは自己アテンション層を含む。ここで、現在の層のキー、クエリ及び値は、(すぐ)前の層の出力符号化の投影である。これらの投影は、Q、K及びVを得るために、夫々学習行列Wq、WK及びWvによって入力される符号化を乗算することで得られる。これは、図2で示すように、エンコーダ内の夫々の位置における埋め込みが、該エンコーダの前のレイヤ内の全ての位置に対応できることも意味する。
Q、K及びVの様々な平行投影を伴う複数のヘッドは、出力埋め込みサイズまで連結及び投影できる様々な可能性をカバーする出力符号化の複数のバージョンを生成する。
図3は、本開示の一実施形態による、マルチヘッドアテンションを示す概略図である。これらの特性は、入力特徴シーケンス間のより高次の関係をモデル化することを可能にする。
例えば、アテンションの1つの層は、全てのh回のペア毎の関係をモデル化し、2つの層は、全てのh回のトリプレットの関係等をモデル化する(ここで、hは同じ入力符号化の異なるQ、K及びV投影を有する平行なヘッドの数)。様々な研究は、視覚データ処理におけるアテンション層の性能を調査しており、積み重ねアテンション層は、畳み込みと類似したローカルな挙動と、入力コンテンツに基づくグローバルなアテンションとを組み合わせることを学習すると結論付けている。より一般的には、フルアテンションモデルは、変形可能な畳み込みと同様に、カーネルパターンがフィルタと同時に学習されるCNNの一般化を学習すると思われる。
そのように、アテンション層は、畳み込みによって行われるように、一般化及び/または次元の削減のより広いクラスをカバーし、ビデオのような高次元のデータに関してより関連があるようになる。
(高次シーン相互作用のモデル化)
(シーン埋め込みトークン化)
重要なことは、Transformerエンコーダを転用して、選択的に時空間次元の削減を実行し、ビデオ埋め込みを生成することである。ビデオフレームからエンコーダに対する入力をモデル化することは、妥当な結果を達成する上で重要となる。
言語タスクでは、最初に単語がトークン化され、次に固定次元の単語埋め込みに変換される。単語埋め込みのこのシーケンスは位置埋め込みで拡張され、並列にTransformerエンコーダに供給される。ビデオ埋め込みで同様のことを達成するためには、重要なシーン要素の埋め込みシーケンスを形成する方法が必要である。
(フレーム毎の画像特徴の入力埋め込みシーケンス)
画像特徴抽出器としてしばしば使用されるResNextを用いて、フレーム毎の画像/フレームレベルの特徴を抽出することでシーン要素の関係をモデル化することを試みる。これらの画像レベルの特徴は、次の図の左側で示されるように、Transformerエンコーダに対する入力埋め込みを形成するように一緒に積み重ねられる。図4は、本開示の一実施形態による、フレーム毎の画像特徴のシーケンスを埋め込むためのTransformerエンコーダを用いた関係のモデル化のための入力トークン埋め込みの再設計を示す概略図であり、図5は、本開示の一実施形態による、フレーム毎の上位Kのオブジェクトの特徴の埋め込みシーケンスのためのTransformerエンコーダを用いた関係のモデル化のための入力トークン埋め込みの再設計を示す概略図である。
(フレーム当たりの画像+オブジェクトの特徴の入力埋め込みシーケンス)
この時点で、画像レベルの特徴だけでなく、シーンにおける個々のオブジェクトの特徴も使用することで、シーケンスにおけるトークンの粒度を高めることに留意されたい。RFCNオブジェクト検出器は、まずビデオのスニペットのフレームにおけるオブジェクトの境界ボックスを得るために使用される。そして、RexNextは、精度が上位Kのオブジェクトに対するより高品質なオブジェクトの特徴を抽出するために使用される。
図6で示すように、各フレームについて、画像レベルの特徴及び上位Kのオブジェクトの特徴は、一緒に積み重ねられて、トークン化されたエンコーダ入力を形成する。図6は、本開示の一実施形態による、フレーム当たりの画像+オブジェクトの特徴のシーケンスの埋め込みのためのTransformerエンコーダを用いた関係のモデル化のための、入力トークン埋め込みの再設計を示す概略図である。
入力埋め込みシーケンスにおける異なる種類のトークン埋め込みを分離するために、本発明者らは、1つのフレームの終わりを示すnullとして初期化された、空のセパレータトークンを試行した(図6)。
(1フレーム当たりのオブジェクトの特徴の入力埋め込みシーケンス)
本発明者らは、例えば図5の右の部分で示されるようなトークン化されたエンコーダ入力を形成するために、一緒に積み重ねられたフレーム当たりの上位Kのオブジェクトの特徴のみの利用を研究する。
(追加キューによる埋め込みの拡張)
シーン要素がトークン化された時点で、これらの優先順位を強調するために、埋め込みに追加の時空間キューを追加する。言語タスクと同様に、時間、タイプ及び空間符号化は、入力トークンの埋め込みと同じ次元の埋め込みに変換される。これらの埋め込みは、学習したルックアップテーブルである。
全ての学習した埋め込みは、最終的に、入力トークンの埋め込みと一緒に加算される。
Figure 2022547687000004
ここで、Esceneは、モデル化に基づいて、オブジェクトの特徴または画像の特徴の何れかとすることができる。
(時間的な位置(E位置))
Transformerがパーミュテーション不変であることに留意することが重要である。学習したビデオ埋め込みにおいて表される時間的な順序キューを持たないことは、Kinetics-400データセットにおける「ドアを開く」対「ドアを閉じる」として分類されるビデオのような特定の動作イベントを区別することを困難にする。
時間的な順序を強調するために、本発明者らは、位置埋め込みを用いる入力埋め込みを付け加えた。これらの位置符号化は、フレーム当たりの時間注釈の順序の増加を意味する。これは、図5及び図6で示したように、入力トークンの埋め込みに時間的な順序キューを組み込む。これらの位置符号化は、フレーム番号と同じくらい単純なシーケンスを用いて訓練中に学習される、入力トークンの埋め込みと同じ次元のものである。
(トークンタイプ(Eタイプ))
本発明者らは、異種トークンから作られた入力埋め込みを有する設計を使用する。一部は多くのオブジェクト及び背景情報を含む画像フレーム全体を表し、他は本発明者らの環境において見出される個々の物理的オブジェクトを表す。
異なる粒度のこれらの異種埋め込み全体の関係を学習するため、図6で示すように、入力埋め込みをトークンタイプ埋め込みで拡張し、カテゴリキューを組み込む。これらのカテゴリキューは、画像及びオブジェクトレベルの特徴のために、入力トークンの埋め込みをタイプ1とタイプ2とに区別する。
(空間位置(E空間))
フルフレームからのオブジェクト周辺の失われた背景情報を補う空間キューをさらに追加するために、各オブジェクトのトークンに空間位置情報を注入する。埋め込みは、各フレームからオブジェクト検出ネットワークによって予測されたオブジェクトの境界ボックス座標(x1,y1、x2、y2)から学習される。
上述したこれらのアーキテクチャを用いて、ビデオの動作認識タスクを処理するためのシーン要素間のより高次の空間-時間相互作用を学習するためのパイプライン(図7)を構築する。本発明者らは、Kinetics-400データセットで本発明者らのモデルを評価する。
図7は、本開示の一実施形態による、ビデオの動作認識パイプラインを示す概略図であり、バックボーン特徴抽出ネットワークResNext及びオブジェクト検出RFCNが特徴抽出のために使用される。ResNext-101はフレーム毎の画像レベルの特徴を抽出するために使用され、オブジェクトRFCNはフレーム毎のオブジェクトを検出のために使用される。上位KのオブジェクトのROIは、ROI-Alignユニットを用いてシーン画像を切り取ってサイズを変更するために使用され、ResNext-101を通過してオブジェクトの特徴を抽出する。これらの特徴は、図7で示すように相互作用モデル化ユニット及び背景モデル化ユニットに入力される。
(相互作用モデル化ユニット)
相互作用モデル化ユニットは、シーン要素全体の時空間の相互作用をモデル化する。最初に、画像とオブジェクトの特徴ベクトルを積み重ねて、入力埋め込みシーケンスを形成する。続いて、時間的、空間的及びタイプの埋め込みが入力埋め込みに追加され、最終的な埋め込みシーケンスが形成される。この埋め込みシーケンスは、2層マルチヘッドTransformerエンコーダに通される。詳細なバージョンは、図3で概略的に示されている。
(背景モデル化ユニット)
フレームレベルの特徴は、単一のスケーリングされたドットプロダクトアテンション層を通過する。ここで、Q、K及びVは、MLPを介した入力ベクトルシーケンスの3つの異なる投影にすぎない。最後に、背景及び相互作用埋め込みは、一緒に連結され、動作カテゴリに切り取られたビデオを分類する分類器に供給される。
(性能分析)
(Kinetics-400の精度)
上述したように、本発明者らは、1FPSでKinetics-400データセットの相互作用モデル化ユニットに基づくTransformerを用いて動作認識パイプラインを訓練した。
オブジェクト検出畳み込みニューラルネットワークRFCNは、最初に、MS COCOデータセットで訓練される。特徴抽出ネットワークに関して、1000のImageNet1Kのシンセットと一致する1.5Kハッシュタグを有する9億4000万の公開画像で弱い教師ありの手法で事前に訓練されたResNextモデルを使用し、その後、ImageNet1Kデータセットで微調整する。結果は、多くの重要な視覚タスクで改善された性能を示す。
本発明者らは、この新しい大規模に事前訓練されたResNextネットワークを用いて、高品質な画像及びオブジェクトの特徴を抽出した。次元2048のベクトルのオブジェクトと画像の特徴を抽出し、Transformerエンコーダの様々な数の層とヘッドを試し、エンコーダの出力の第1の隠れ層の分類を推し進め、最後に相互作用埋め込みとシーン埋め込みを連結して、400 Kineticsクラスレスの一つに分類される4096次元の特徴ベクトルを形成した。Adam最適化装置は、学習速度の低下と共に使用される。タスクは、クロスエントロピー損失を有するマルチクラス分類としてモデル化される。モデルは、NVIDIA-GTX 1080ti GPUで訓練される。
本発明者らは、2つの平行ヘッドを有する2層のTransformerエンコーダを有する、位置埋め込みによるTransformerベースの相互作用モデル化ユニットにおいて、フレーム当たり上位15のオブジェクトのみを使用しながら、最良の結果を達成した。これらの結果は、Kinetics-400データセットのSINet及びI3D等の他のアーキテクチャよりも性能が優れている。
Figure 2022547687000005
表1 Kinetics-400動作認識
(SINetとの性能比較)
当業者には容易に理解されるように、本発明者らのモデルは、SINetについて報告された精度を3パーセント改善する。
この特定のアーキテクチャは、シーン要素相互作用をモデル化も選択するため、特に比較のために選択するが、シーケンシャルLSTMベースの回帰ユニットを用いて選択されることに留意されたい。表2は、Kinetics-400と他のアーキテクチャとの性能比較を示している。アーキテクチャ'Img+15 Obj’ベースの本発明者らのTransformerに関して、本発明者らは、シーン毎に上位15のオブジェクトの特徴を持つ画像特徴を用いていることを意味し、'2H2LはTransformerエンコーダが2つの平行ヘッドと2つのレイヤで構成されていることを意味する。
(新しいResNext-101バックボーンを使用したSINetの再訓練)
コンピュータビジョン分野の研究は、急速に発展し、新しい発見が公表されるにつれて、結果は時代遅れになっている。著者Kaiming HeらによってリリースされたResNextモデルは、ネットワークがより小さいデータセットで事前に訓練された、より古いResNextモデルを使用したため、SINetによって報告された結果は古いままである。本発明者らは、ResNext-101 34-8dから、新しい高品質の画像及びオブジェクトの特徴を用いてSINetの性能を再訓練することでSINetの性能を再評価することにした。その結果を表3に示す
Figure 2022547687000006
表2 Kinetics-400動作認識:SINetとの性能比較
Figure 2022547687000007
表3 Kinetics-400動作認識:SINet再訓練後の性能比較
再訓練は、SINetの精度を77パーセントに向上させ、これは本発明者らの結果と同様である。SINetの性能は、本発明者らの結果に匹敵するようになるため、どのアーキテクチャが他のアーキテクチャより好ましいかを指摘することは困難である。本発明者らは、本発明者らのモデルが上位1クラスの精度でSINetよりも0.1パーセント先んじているとしても、上位5クラスの精度でSINetよりも1.2パーセント悪い性能であることに注目する。
(トークン埋め込み設計比較)
表4において、Transformerエンコーダユニットの様々なトークン埋め込み設計の比較結果を示す。Transformerエンコーダは、均一なトークン埋め込み全体の関係をより適切にモデル化するように観察できる。この場合、オブジェクトの特徴のみから構成されるシーケンスは、最良の77.5パーセントを実行する。
Figure 2022547687000008
表4 Kinetics-400動作認識:トークン埋め込み設計比較
Figure 2022547687000009
表5 Kinetics-400動作認識:順序を強調する時間的な位置キューは性能を改善する
言語タスクにおいて、単語埋め込みは良好に区別され、各トークン埋め込みに均一な量の情報を含む、すなわち各トークンは、単に一意にハッシュされ学習されたルックアップテーブルにマップされた単語である。フル画像シーンの特徴と個々のオブジェクトを表す特徴を1つのシーケンスに結合してTransformerエンコーダに供給すると、ビデオを理解する場合、データが不均一になり、Transformerエンコーダがシーケンス全体の関係を計算することが困難になると推測される。
位置キューを追加することが全体的な性能を向上させることを表5で示す。同じことは、トークン型埋め込みまたは空間位置埋め込みに関して、肯定的に言うことはできない。
(Transformerエンコーダのヘッドと層の比較)
表6に、様々な数のヘッド及び層を用いた結果を示す。
Figure 2022547687000010
表6 Kinetics-400動作認識:Transformerエンコーダヘッド対層
Figure 2022547687000011
表7 性能比較:SINet相互作用モデル化ユニット・1秒当たりの浮動小数点演算
ヘッドの数が少ないほど、動作認識の積み重ねにおいて、よりよい性能を与えることが分かる。性能は類似しているが、2ヘッドで最大である。本発明者らは、多数の層を評価し、レイヤ数が2以上に増加しても性能に改善がないことも発見した。
(1秒あたりの浮動小数点演算の計算)
本発明者らは、表7及び表8で示すように、Transformer相互作用モデル化ユニット(2ヘッド、2層)で実行される1秒当たりの浮動小数点演算を計算し、それをSiNetのHOIユニット(順序:K=3)と比較した。両方のアーキテクチャは、ResNext-101とRFCNの夫々に対して16Gフロップと53Gフロップを有する共通バックボーンで評価した。この計算は、Transformerに対して不正確であるように見えることに留意する。
Figure 2022547687000012
表8 性能比較:Transformer相互作用モデル化ユニット-1秒当たりの浮動小数点演算
(Kinetics-400の上位製品)
本発明者らは、Kinetics400の上位ランクのモデルが、アーキテクチャ設計にあまり焦点を当てておらず、大規模な半教師あり事前訓練に対してより焦点を当てており、それぞれ82.8パーセント及び83.6パーセントを達成していることに注目する。
(ビデオの理解を改善するための時間的な事前学習)
本発明者らは、現在のアーキテクチャは、Transformerの事前訓練の利点を取り入れていないことに留意する。BERTと同様に、Transformer符号化が、動作中のフレームの順序付けなどの時間的な事前訓練を自己教師あり手法で事前に訓練している場合、動作分類等の下流のタスクの性能は、イベントの順序に大いに依存するクラスに対して改善できる。
(より細かい相互作用モデル化のためのオブジェクトベースの語彙構築)
オブジェクトの特徴を様々なクラスカテゴリに正確にマッピングするために、自然言語処理における単語について現在存在するものと同様の辞書ルックアップテーブルを構築する能力に留意されたい。このオブジェクトの一般的な語彙が構築されている場合、オブジェクト検出のタスクがより単純になり、動作認識パイプラインを改善できる。
(オブジェクトベースのスーパービジョン?)
オブジェクト検出器は、本発明者らのビデオの理解のパイプラインにおける計算の大部分を要するため、オブジェクト検出ベースの計算を削除し、キーシーン要素の特徴(必ずしもオブジェクトではない)を暗黙のうちに学習し、それに基づいてビデオクリップを分類するエンドツーエンドモデルを構築すると、性能のさらなる向上が実現される可能性がある。
(オブジェクト認識データセット及びビデオの理解)
ビデオは、多くの絡み合った複雑なイベントの集合である傾向があるため、より良いビデオの理解を取得するためにどれくらいのスーパービジョンで十分であるかは未知のままである。興味深い動作認識データセットには、より洗練された動作認識技術を構築し、ビデオの理解を向上させるのに役立つ、細かい複合動作として分類されたラベルが含まれている場合がある。
当業者であれば、細かい動作は短期間であり、人間中心であり、動詞のようなものであることを理解するのであろう。例えば、ピッキング、ドロップ、ホールド、掘削、ウェービング、立つ、座る、瞬きをする、歩く、移動する、読む等である。これらの細かい動作は、フレームのより小さいウィンドウに割り当てることができる。複合動作は、通常、細かい動作と、動作を支援する補完的なオブジェクトの組み合わせである。これらの複合動作は、長いビデオクリップを分類するためのより良い方法である。
例えば、お茶の準備には、注ぐ、かき混ぜる、お湯を沸かす、浸すなどを含む。同様に、サルサダンスには、人の動き、サルサの服装、ステージ/フロアを含む。最後に、窃盗には、ピッキング、ランニング、プッシュ等が含まれる場合がある。
様々な時間スケール及び他のスケールで暗黙のうちに動作する作業と同様に、ビデオ理解システムは、ビデオの数フレーム当たりのこれらの細かい動作を識別し、過去のKフレームにわたる複合動作分類の移動平均を示す能力を有する。
(クラス毎の性能比較)
再訓練されたSINETのクラス毎の精度をResNet-101 32-8d及びTransformerベースのアーキテクチャと比較すると、多くの場合、本発明者らのモデルは、例えば、側転、くしゃみ、足を振る、拍手する、握手する、バスケットボールをダンクする等の高速に変化するシーンにおいてより良好に実行することに気付く。また、例えば、休日に木を飾り付ける、ハンバーガーを食べる、製本する、バイオリンを演奏する、ホイールを交換するなど、多くの空間クラスで精度が低下していることにも留意されたい。
Figure 2022547687000013
表A1 最良の性能クラス
Figure 2022547687000014
表A2 最悪の性能クラス
(有効な動作認識の追跡)
図8は、ビデオのための追跡不能な動作認識プロセスを示す概略図である。対照的に、図9は、本開示の一実施形態による、ビデオ表現のための追跡可能な動作認識プロセスを示す概略図である。この図を参照すると、一連のフレーム・・・、フレーム1、フレーム2及びフレーム3が観察され、それらは複数のオブジェクトをさらに含む画像を含むいくつかの要素を含む。この実例では、各フレームに3つのオブジェクトがある。
各フレームは、オブジェクト検出器によって検出され、任意の視覚的要素の位置が特定される。これらのオブジェクトは、時間を通してリンクされ、オブジェクトのトラックを形成する。
図から分かるように、各要素は、トラックによって順序付けられている。図示されているように、トラック0は、各フレームからの画像要素を含む。トラック1は、各フレームからの第1のオブジェクト要素を含む。トラック2は、各フレームからの第2のオブジェクト要素を含む。最後に、トラック3は、各フレームからの第3のオブジェクトを含む。
オブジェクトのトラックが順序付けられ/整理されたセットは、さらに整理され、本発明者らのモデルに入力される。このモデルは、反復処理遅延の無い効率的な行列演算として定式化された高次の相互作用を用いて、代表的な埋め込みと識別可能なビデオの特徴を生成するために訓練される。
図10は、本開示の一実施形態による、トラック内及びトラック間アテンションに対する追跡可能な動作認識プロセスを示す概略図である。図から分かるように、そのように生成されたビデオ表現は、運用上の分類を生成する本発明者らのトラックレットのTransformerに入力される。
ここでは、いくつかの具体的な例を用いて本開示を示したが、当業者であれば本教示がそれらに限定されないことを認識するであろう。したがって、本開示は本明細書に添付される特許請求の範囲によってのみ限定されるべきである。

Claims (2)

  1. 時空間オブジェクト追跡を用いたビデオのフレームにおける動作認識を特定するための方法であって、
    前記ビデオのフレームにおける視覚的オブジェクトを検出することと、
    オブジェクトのトラックを形成するために、時間を通して同じ視覚的オブジェクトをリンクすることと、
    前記オブジェクトのトラックを整理し埋め込みと組み合わせることと、
    前記整理され組み合わされたオブジェクトのトラックをニューラルネットワークモデルに供給することと、
    を含み、
    前記モデルは、反復処理遅延の無い行列演算として定式化された高次の相互作用を用いて、代表的な埋め込み及び識別可能なビデオの特徴を生成するために訓練される、方法。
  2. 前記ニューラルネットワークモデルは、Transformerである、請求項1に記載の方法。
JP2022515921A 2019-09-12 2020-09-10 時空間オブジェクト追跡を用いた高次の相互作用による動作認識 Active JP7253114B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962899341P 2019-09-12 2019-09-12
US62/899,341 2019-09-12
US17/016,260 2020-09-09
US17/016,260 US11600067B2 (en) 2019-09-12 2020-09-09 Action recognition with high-order interaction through spatial-temporal object tracking
PCT/US2020/050254 WO2021050772A1 (en) 2019-09-12 2020-09-10 Action recognition with high-order interaction through spatial-temporal object tracking

Publications (2)

Publication Number Publication Date
JP2022547687A true JP2022547687A (ja) 2022-11-15
JP7253114B2 JP7253114B2 (ja) 2023-04-05

Family

ID=74865600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022515921A Active JP7253114B2 (ja) 2019-09-12 2020-09-10 時空間オブジェクト追跡を用いた高次の相互作用による動作認識

Country Status (4)

Country Link
US (1) US11600067B2 (ja)
JP (1) JP7253114B2 (ja)
DE (1) DE112020004319T5 (ja)
WO (1) WO2021050772A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11227160B2 (en) * 2019-11-15 2022-01-18 International Business Machines Corporation Detecting scene transitions in video footage
US11593961B2 (en) * 2020-12-14 2023-02-28 International Business Machines Corporation Difference-guided video analysis
US11954910B2 (en) * 2020-12-26 2024-04-09 International Business Machines Corporation Dynamic multi-resolution processing for video classification
CN113139467B (zh) * 2021-04-23 2023-04-25 西安交通大学 基于分级式结构的细粒度视频动作识别方法
CN113392728B (zh) * 2021-05-28 2022-06-10 杭州电子科技大学 一种基于ssa锐化注意机制的目标检测方法
KR20230032317A (ko) * 2021-08-30 2023-03-07 한국전자통신연구원 비디오 의미 구간 검출 방법 및 시스템
CN114241191A (zh) * 2021-12-19 2022-03-25 西北工业大学 一种基于跨模态自注意力的无候选框指代表达理解方法
CN114581971A (zh) * 2022-01-28 2022-06-03 北京深睿博联科技有限责任公司 一种基于面部动作组合检测的情绪识别方法及装置
CN114821669B (zh) * 2022-05-26 2024-05-31 重庆大学 一种基于深度学习的细粒度行为识别方法
WO2024102510A1 (en) * 2022-11-11 2024-05-16 Qualcomm Technologies, Inc. Processing images using temporally-propagated cluster maps
CN116030097B (zh) * 2023-02-28 2023-05-30 南昌工程学院 基于双重注意力特征融合网络的目标跟踪方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170293838A1 (en) * 2016-04-06 2017-10-12 Nec Laboratories America, Inc. Deep high-order exemplar learning for hashing and fast information retrieval
US20180183650A1 (en) * 2012-12-05 2018-06-28 Origin Wireless, Inc. Method, apparatus, and system for object tracking and navigation
US20180341860A1 (en) * 2017-05-23 2018-11-29 Google Llc Attention-based sequence transduction neural networks
US20190073565A1 (en) * 2017-09-05 2019-03-07 Sentient Technologies (Barbados) Limited Automated and unsupervised generation of real-world training data
US20190251431A1 (en) * 2018-02-09 2019-08-15 Salesforce.Com, Inc. Multitask Learning As Question Answering

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832057B2 (en) * 2014-02-28 2020-11-10 Second Spectrum, Inc. Methods, systems, and user interface navigation of video content based spatiotemporal pattern recognition
US10534965B2 (en) * 2017-11-22 2020-01-14 Amazon Technologies, Inc. Analysis of video content
US11242144B2 (en) * 2018-02-09 2022-02-08 Skydio, Inc. Aerial vehicle smart landing
US11200424B2 (en) * 2018-10-12 2021-12-14 Adobe Inc. Space-time memory network for locating target object in video content
US11354906B2 (en) * 2020-04-13 2022-06-07 Adobe Inc. Temporally distributed neural networks for video semantic segmentation
US20210342686A1 (en) * 2020-04-30 2021-11-04 Nvidia Corporation Content management using one or more neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180183650A1 (en) * 2012-12-05 2018-06-28 Origin Wireless, Inc. Method, apparatus, and system for object tracking and navigation
US20170293838A1 (en) * 2016-04-06 2017-10-12 Nec Laboratories America, Inc. Deep high-order exemplar learning for hashing and fast information retrieval
US20180341860A1 (en) * 2017-05-23 2018-11-29 Google Llc Attention-based sequence transduction neural networks
US20190073565A1 (en) * 2017-09-05 2019-03-07 Sentient Technologies (Barbados) Limited Automated and unsupervised generation of real-world training data
US20190251431A1 (en) * 2018-02-09 2019-08-15 Salesforce.Com, Inc. Multitask Learning As Question Answering

Also Published As

Publication number Publication date
DE112020004319T5 (de) 2022-06-09
WO2021050772A1 (en) 2021-03-18
US20210081673A1 (en) 2021-03-18
US11600067B2 (en) 2023-03-07
JP7253114B2 (ja) 2023-04-05

Similar Documents

Publication Publication Date Title
JP7253114B2 (ja) 時空間オブジェクト追跡を用いた高次の相互作用による動作認識
Khan et al. Transformers in vision: A survey
Dong et al. A survey on deep learning and its applications
US11657230B2 (en) Referring image segmentation
Zhu et al. From handcrafted to learned representations for human action recognition: A survey
JP2022547163A (ja) ビデオ理解のための時空間交互作用
Tanberk et al. A hybrid deep model using deep learning and dense optical flow approaches for human activity recognition
Malgireddy et al. Language-motivated approaches to action recognition
Kadu et al. Automatic human mocap data classification
Xu et al. Fine-grained visual classification via internal ensemble learning transformer
Pham et al. Video-based human action recognition using deep learning: a review
CN112686153B (zh) 一种用于人体行为识别的三维骨架关键帧选择方法
Wang et al. Human action recognition with depth cameras
Wang et al. A deep clustering via automatic feature embedded learning for human activity recognition
Biswas et al. Recognizing activities with multiple cues
Dastbaravardeh et al. Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames
Liu et al. Simple primitives with feasibility-and contextuality-dependence for open-world compositional zero-shot learning
Soltanian et al. Spatio-temporal VLAD encoding of visual events using temporal ordering of the mid-level deep semantics
Guo Deep learning for visual understanding
Karim et al. Understanding video transformers for segmentation: A survey of application and interpretability
Deng et al. Provable hierarchical lifelong learning with a sketch-based modular architecture
van de Sande et al. Automated Recognition of Grooming Behavior in Wild Chimpanzees
Huang Spatio-Temporal Modeling for Action Recognition in Videos
Piergiovanni Learning from Videos
Richard Temporal Segmentation of Human Actions in Videos

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230324

R150 Certificate of patent or registration of utility model

Ref document number: 7253114

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350