JP2023549582A - ビデオ行動認識のための多重解像度アテンション・ネットワーク - Google Patents

ビデオ行動認識のための多重解像度アテンション・ネットワーク Download PDF

Info

Publication number
JP2023549582A
JP2023549582A JP2023553165A JP2023553165A JP2023549582A JP 2023549582 A JP2023549582 A JP 2023549582A JP 2023553165 A JP2023553165 A JP 2023553165A JP 2023553165 A JP2023553165 A JP 2023553165A JP 2023549582 A JP2023549582 A JP 2023549582A
Authority
JP
Japan
Prior art keywords
resolution
tensor
clip
attention
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023553165A
Other languages
English (en)
Inventor
アール. カルバリョ、シューベルト
フォルクマン、タイラー
レイ バトラー、リチャード
Original Assignee
ベン グループ、インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベン グループ、インコーポレイテッド filed Critical ベン グループ、インコーポレイテッド
Publication of JP2023549582A publication Critical patent/JP2023549582A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本発明は、解析のためのビデオ・クリップを受け取ることと、クリップ内のフレームに畳み込みニューラル・ネットワーク・メカニズムCNNを適用して、クリップ内の各フレームに対して4D埋め込みテンソルを生成することと、クリップ内のフレームのそれぞれに多重解像度畳み込みニューラル・ネットワーク・メカニズムCNNを適用して、削減解像度ブロックのシーケンスを生成することと、ブロック内の動作の量を推定する運動学アテンション重みを計算することと、クリップ内の各フレームに対して埋め込みテンソルにアテンション重みを適用して、解像度におけるクリップ内のすべてのフレームを表す重み付けられた埋め込みテンソル、すなわち、コンテキストを生成することと、すべての解像度にわたるコンテキストを結合して、多重解像度コンテキストを生成することと、3Dプーリングを実行して、1D特徴ベクトルを取得することと、特徴ベクトルに基づいてビデオ・クリップの一次行動を分類することとを行うことにより、ビデオ・クリップ内に現れる行動を分類する。

Description

様々な実施例は、一般に多重解像度アテンション・ネットワークを使用してビデオ内の行動を分類するための方法及びシステムに関する。
近年、ビデオ・クリップからのビデオベースの人物行動認識(VHAR:video-based human action recognition)のエンドツーエンド深層学習が注目されるようになってきている。保安、ゲーム、及びエンターテインメントなど、多岐にわたる分野で応用例が確認されている。しかしながら、ビデオ由来の人物行動認識は、深刻な課題を持つ。例えば、ビデオ行動認識アーキテクチャを構築することは、フレーム間の拡張された時空間コンテキストを捕捉することを伴い、多大な計算リソースを必要とし、このことが、行動認識の産業応用のスピード感と有用性を制限し得る。ロバストな空間物体検出モデルを有すること、又は姿勢モデルにシーン内の物体間の相互作用を学習させることは、人間の作業者が、画像内の物体を手動で特定する必要があるため、高度にドメイン固有のデータを作成する可能性があり、処理するのに時間及びコストがかかり得る。
Srivastava et al., "Dropout: A Simple Way to Prevent Neural Networks From Overfitting", J. of Machine Learning Research 15 (2014)
アテンション・モデルは、計算コストが高い明示的な回帰モデルを使用する必要性をなくすことができるため、魅力的である。また、アテンション・メカニズムは、HARタスク中の空間及び時間の両方において、ネットワークによって使用される画像領域を視覚化することによって、解釈可能な深層学習モデルの基礎となり得る。HARのための現行のアテンション・アーキテクチャは、回帰モデル又はオプティカル・フロー特徴量に依拠するため、モデル訓練に多大な計算リソースを必要とし得る(例えば、最大64GPU必要となることもある)。これは、一般に、小規模の企業や大学が直面している問題である。他のアテンション・モデルは、人の手による(hand-crafted)解決策を使用する。すなわち、パラメータのうちのいくつかは、専門家によって事前定義される(スケルトン・パーツ、人物姿勢、又はバウンディング・ボックス)。人の手によるパラメータは、人間の労力及びドメイン専門知識を必要とするため、扱いにくく、このことは、新しいデータセットに対する解決策のスケーラブル性を低下させ得る。これは、一般に、産業応用において直面される問題である。空間的アテンション・メカニズムは、人間の介入や専門知識を必要とせずに、シーン内の物体を自動的に局所化することを目的とする。しかしながら、従来技術のアテンション・メカニズムは、異なるフレーム間の時間的関係を考慮しないため、長期にわたる時間的関係を学習するのが困難となり得る。
したがって、本発明は、これらの考慮事項などを鑑みてなされたものである。
本発明は、ビデオ・クリップ内で生じる人物行動を分類(認識)する(VHAR)ための新規なエンドツーエンド深層学習アーキテクチャを提供する。本発明は、ストリーム・ネットワーク、キーフレーム学習、及び多重解像度解析などの2D畳み込みニューラル・ネットワーク(2D-CNN:2D convolutional neural network)によって提供されるメカニズムを、統一的枠組みにおいて組み合わせた、本明細書で多重解像度アテンション・ネットワーク(MRANET:Multi-Resolution Attention Network)と呼ばれるアーキテクチャを導入する。
高度な計算性能を実現するために、MRANETは、2次元(2D:two-dimensional)畳み込みニューラル・ネットワーク(2D-CNN)を使用してシーンの多重解像度(MR:multi-resolution)分解を構成する。従来技術の方法とは異なり、本手法は、ビデオ内の物体及び行動を認識するために、バウンディング・ボックス又は姿勢モデリングを必要としない。複数の解像度におけるビデオ・フレーム、すなわち、画像の詳細は、MR空間における異なるサイズ(周波数)及び配向を持つ別個の物理的構造を共通に特徴付ける。
MRANETの核となるのは、再帰的に計算されるアテンション重みのベクトルを計算するアテンション・メカニズムである。すなわち、時間tにおけるフレームの重みは、時間t-1における前のフレームの関数である。特定の実施例では、回帰的アテンション重みは、行動が生じるフレームのシーケンスに対して1階有限差分導関数(速度)及び2階有限差分導関数(加速度)を用いて計算される。
一実施例では、MRANETは、解析のためのビデオ・クリップを受け取ることと、クリップ内のフレームに畳み込みニューラル・ネットワーク・メカニズム(CNN:convolutional neural network)を適用して、クリップ内の各フレームに対して4D埋め込みテンソルを生成することと、クリップ内のフレームのそれぞれに多重解像度畳み込みニューラル・ネットワーク・メカニズム(CNN)を適用して、削減解像度ブロックのシーケンスを生成することと、ブロック内の動作の量を推定する運動学アテンション重みを計算することと、クリップ内の各フレームに対して埋め込みテンソルにアテンション重みを適用して、解像度におけるクリップ内のすべてのフレームを表す重み付けられた埋め込みテンソル、すなわち、コンテキストを生成することと、すべての解像度にわたるコンテキストを結合して、多重解像度コンテキストを生成することと、3Dプーリングを実行して、1D特徴ベクトルを取得することと、特徴ベクトルに基づいてビデオ・クリップの一次行動を分類することとを行うことにより、ビデオ・クリップ内に現れる行動を分類する。
本発明の非限定的且つ非網羅的な実施例は、以下の図面を参照して説明される。図面において、同様の参照符号は、特に指定されない限り様々な図面を通して同様の部分を指す。
本発明をより良く理解するために、添付の図面と関連付けて読まれるべきである、以下の発明を実施するための形態を参照されたい。
ビデオ・クリップ内に現れる行動を解析及び分類する多重解像度アテンション・ネットワーク(MRANET)の一般化ブロック図である。 画像、及び4つの連続的な低解像度バージョンにおけるその特徴表現の一実例を提供する図である。MRANETを使用してビデオ・クリップ内の行動を分類する方法の一実施例を示す図である。 MRANETによって実行される全体的なアーキテクチャ及び処理ステップを示す図である。 MRANETによって生成される、ブロックと呼ばれる多重解像度表現を示す図である。 各削減解像度表現に関して最終的なコンテキスト(アテンション重み)を生成するために、多重解像度アテンション・メカニズムによって実行される処理を説明する図である。
図面は、例示の目的で本発明の実施例を示しているに過ぎない。当業者は、本明細書で示される構造及び方法の代替実施例が、本明細書で説明される本発明の原理から逸脱することなく採用され得ることを、以下の説明から容易に理解するであろう。
本発明は、ここで、本明細書の一部を形成し、例示のために、本発明が実行され得る特定の例示的な実施例を示す、添付の図面を参照して以下でより完全に説明される。しかしながら、本発明は、多くの異なる形態で具現化されてよく、本明細書に記載の実施例を限定するものとして解釈されるべきではない。むしろ、これらの実施例は、本開示が徹底的且つ完全となり、本発明の範囲を当業者に完全に伝えるように提供される。とりわけ、本発明は、方法、プロセス、システム、ビジネス方法又はデバイスとして具現化され得る。したがって、本発明は、完全にハードウェアである実施例、完全にソフトウェアである実施例、又はソフトウェアの態様とハードウェアの態様とを組み合わせた実施例の形態を取ることができる。したがって、以下の詳細な説明は、限定的な意味で取られるべきではない。
本明細書で使用される場合、次の用語は、以下で与えられる意味を有する。
ビデオ・クリップ、クリップ、又はビデオ-複数のフレームを含むビデオのセグメントを指す。本明細書で使用される場合、ビデオは、一次行動を含む。
対象者-ビデオ・クリップ内で捕捉される行動を実行する人を指す。
人物行動又は行動-人によるビデオ・クリップ内の動きを指す。本発明は、人物行動に焦点を当てているが、本発明は、そのように限定されておらず、動物、及び自動車、ボールなどの無生物物体にも適用され得る。
姿勢又は人物姿勢-ビデオ・フレーム内の対象者の身体を指す。姿勢は、身体全体、又は、例えば、頭部のみなどの部分的身体を含んでもよい。
VHAR-ビデオ内で実行される行動に基づいて人物行動を認識又は分類することを目的とする、コンピュータ・ビジョンにおける基本タスクである、ビデオ人物行動認識を指す。
機械学習モデル-構造化及び/又は非構造化データ入力を取り、予測又は結果を生成する、アルゴリズム又はアルゴリズムの集合を指す。予測は、典型的には、値、又は値のセットである。機械学習モデルは、やり取りを行い結果を生み出す、1つ又は複数のコンポーネント・モデルをそれ自体が含んでもよい。本明細書で使用される場合、機械学習モデルは、ビデオ・クリップを入力データとして受け取り、既知の検証データ・セットに対する推定値又は予測を生成する、畳み込みニューラル・ネットワーク又は別のタイプの機械学習メカニズムを含む、ニューラル・ネットワークを指す。典型的には、モデルは、モデルの連続的な実行を通して訓練される。典型的には、モデルは、訓練段階中は連続的に実行され、成功裏に訓練された後は、新規のデータを評価し、予測を行うために、操作上で使用される。この訓練段階は、成功指標を予測できる許容可能なモデルを得るために、数千回実行され得るということを強調しておかねばならない。また、モデルは、数千、又は数万にも上る特徴量を発見する場合がある。そして、これらの特徴量の多くは、入力データとして提供される特徴量とは全く異なり得る。したがって、モデルは、事前に知られておらず、精神的努力のみで算出を行うことは不可能である。
予測-本明細書では、ビデオ・クリップ内の行動が特定の行動クラス又は行動のカテゴリに属する、統計的推定値、すなわち、推定確率を指す。予測はまた、多くの個々のクラスを含む分類システム内の各クラス又はカテゴリに割り当てられた推定値又は確率を指してもよい。例えば、DeepMind社のデータ・セットであるKinetics400は、それぞれが、行動分類、又は行動分類セットと呼ばれる、400の異なる人物行動又は行動クラスのセットに分類される、最大650,000のビデオ・クリップを提供する、一般的に使用される訓練用データセットである。
一般化された操作
本発明のいくつかの態様の操作が、図1~図3に関して以下に説明される。
図1は、ビデオ・クリップ内の行動を解析及び分類する多重解像度アテンション・ネットワーク(MRANET)システム100の一般化ブロック図である。MRANETサーバ120は、MRANET125とも呼ばれる、MRANET機械学習アーキテクチャ125をコンピュータ操作又は実行する。MRANETサーバ120は、解析のために、本明細書ではxとして参照される、ビデオ・クリップを提供するデータ・ソース130にアクセスする。ビデオ・クリップは、モデルの訓練中に使用されてもよいし、解析及び分類のために操作上で使用されてもよい。例えば、GOOGLE社によって運営されるウェブサイトであるYOUTUBE(登録商標).COMが、データ・ソース130のうちの1つであってもよい。他のデータ・ソース130は、テレビ・チャンネル、映画、及びビデオ・アーカイブを含んでもよい。典型的には、MRANETサーバ120は、ネットワーク140にわたるデータ・ソース130からのビデオ・クリップにアクセスする。
ユーザは、MRANETアーキテクチャ125を訓練するために、MRANETサーバ120とやり取りを行い訓練用ビデオ・クリップを特定及び提供する。典型的には、ユーザは、ユーザ・コンピュータ110上で実行するユーザ・アプリケーション115とやり取りを行う。ユーザ・アプリケーション115は、ネイティブ・アプリケーション、MOZILLA社のFIREFOX若しくはGOOGLE社のCHROMEなどのウェブ・ブラウザ内で動作するウェブ・アプリケーション、又はスマートフォンなどのモバイル・デバイス内で実行するアプリであってもよい。
ユーザ・コンピュータ110は、ラップトップ・コンピュータ、デスクトップ・パーソナル・コンピュータ、スマートフォンなどのモバイル・デバイス、又はMRANETサーバ120にアクセスするために、ネットワーク140上でやり取りを行うことができるプログラムを実行する任意の他のコンピュータであってもよい。一般に、ユーザ・コンピュータ110は、スマート・フォン、パーソナル・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、又は、プロセッサ、プログラム命令及びデータを記憶するための非一時的メモリ、ディスプレイ、並びにキーボード及びマウスなどの対話型装置を備えた他のコンピュータ・システムであってもよい。
MRANET125は、典型的には、データを記憶し、図2及び図3A~図3Bを参照して以下に説明するMRANET法を実行する。MRANETサーバ120は、単一のサーバ・コンピュータによって、協働して機能する複数のサーバ・コンピュータによって、又はネットワーク・サービス、若しくはクラウド・サービス・プロバイダによって提供される「クラウド」サービスによって実装されてもよい。MRANETサーバ120として動作し得るデバイスは、限定されないが、パーソナル・コンピュータ、デスクトップ・コンピュータ、マルチプロセッサ・システム、マイクロプロセッサベースの又はプログラム可能な家電製品、ネットワークPC、サーバ、ネットワーク機器などを含む。
ネットワーク140は、ユーザ・コンピュータ110及びMRANETサーバ120がデータ及びメッセージを交換することを可能にする。ネットワーク140は、ローカル・エリア・ネットワーク(LAN:local area network)、ワイド・エリア・ネットワーク(WAN:wide area network)、直接接続、それらの組合せなどに加えて、インターネットを含んでもよい。
多重解像度アテンション・ネットワーク
教師あり機械学習モデルは、分類セットにおける各クラスに関してスコア又は確率推定値を提供する。スコア(確率)は、ビデオ・クリップがクラス・メンバによって表される行動を含む尤度を示す。最も高いスコアを持つクラスは、単一の予測が必要とされる場合に選択され得る。このクラスは、対象者によって実行される、ビデオ・クリップ内で発生した可能性が最も高い行動を表すとみなされる。各クリップに対して一次クラスが分かっているビデオ・クリップの検証データセットは、データセットからの異なるクリップによって連続的にモデルを操作し、各連続モデル実行によってモデルを調整して誤差を最小限に抑えることによってモデルを訓練するために使用される。
MRANETは、ビデオベースの人物行動認識(VHAR)のための深層エンドツーエンド多重解像度アテンション・ネットワーク・アーキテクチャである。図3は、MRANET100によって実行される全体的なアーキテクチャ及び処理ステップを示す図である。第1の学習ステップにおいて、MRANET100は、ビデオ・クリップのフレーム単位での解析を実行して空間行動表現をカプセル化する。特定の実施例では、畳み込みニューラル・ネットワーク(CNN)モデル又はメカニズムが埋め込みモデルとして使用され、このモデルは、ビデオ・フレームを処理して特徴量を抽出する。特定の実施例では、CNN実装である、ResNet、すなわち残差ネットワーク(residual network)が使用される。ResNetは、画像認識及び分類に有効であることが確認されている。しかしながら、様々な市販のCNNモデル、バックボーン・アーキテクチャ、又は画像分類に逐次的に使用され得る画像特徴量を抽出する他の処理システムが使用されてもよい。特定の実施例では、ImageNetデータセットに対して事前訓練されたResNetモデルが埋め込みモデル(EM:embedding model)として使用される。クリップ内のT個のフレームのそれぞれが、特徴量抽出のためにCNN302にサブミットされる。典型的には、CNN302は、ResNet18などの市販のCNNモデルである。CNN302は、ビデオ・クリップx内のt個のフレームのそれぞれを逐次的又は並列に処理し、各フレームの出力として埋め込みテンソルeを生成する。
一例として、平均プーリングの前にResNet CNNによって生成された最後の畳み込み層が、出力埋め込みテンソルeとして使用され、その後さらなる処理のために使用されてもよい。形式的には、EMは、ビデオ・クリップの行動力学を、特徴ボリューム又は4D埋め込みテンソル(E)で表し、Eは、式1において次のように定義される。
E=[e,…,e,…,e] 式1
ここで、Eは形状E∈RT×g・F・N×Mを有し、Tはクリップ内のフレーム数であり、Fは埋め込みテンソルにおけるチャネル又は特徴量の数であり、N×Mは切り取られた画像寸法(次元)(image dimensions)、すなわち、空間サイズであり、gはResNetモデルのチャネルの総数を増加させるスケール因子である。一般に、画像寸法(次元)は、N×M、すなわち、幅N、及び高さMの画像として表される。したがって、[e,…,e,…,e]のそれぞれは、その次元が、(N×M)フレームにおける幅及び高さの値として指定される空間ロケーション、並びにF個のチャネルのそれぞれに関して1つの値を持つ特徴量の値のセットである、3Dテンソルである。
行動表現の第2のステップは、図4を参照してさらに詳細に説明される、多重解像度モデル(MRM:multi-resolution model)アーキテクチャを使用して、シーンの精細-粗(fine-to-coarse)表現を生成する。複数の解像度における画像の詳細は、MR空間内の異なるサイズ又は周波数及び配向における別個の物理的構造を特徴付ける。例えば、粗い解像度(この実例ではW)において、低周波数は、大きい物体構造に対応し、画像の「コンテキスト」を提供する。代替として、よりきめ細かいレベルのモデルの解像度層(W、W、W)は、小さい物体構造(詳細部)から学習する。MRMの利点は、シーン内の物体を検出するために、バウンディング・ボックスも人物姿勢モデルも必要としないことである。
図2は、画像、及び4つの連続的な低解像度バージョンにおけるその特徴表現の一実例を提供する。表現Aは、初期の入力画像を示す。表現Bは、最も高い解像度における画像の、すなわち、最高解像度の特徴表現Wを示す。表現Cは、1/2の解像度の画像における特徴表現Wを示す。表現Dは、初期画像の1/4の解像度の特徴表現Wを示す。そして、表現Eは、初期画像表現の1/8における特徴表現Wを示す。これらの表現は、本質的には、CNNモデルの中間層であり、B~Eに示される抽出特徴量は、通常、実世界の特徴量に対応しないことが諒解され得る。
本明細書では、多重解像度アテンション(MRA:multi-resolution attention)と呼ばれる、時空間アテンション・メカニズムは、運動学モデルを使用して運動学アテンション重みのベクトルを計算する。運動学アテンション重みは、アテンション・メカニズムに時間回帰計算を追加し、長さのある逐次モデリングを可能にする。これは、時間tにおいて記録された画像について計算された重みが、時間t-1において記録された重み及び/又は画像に基づいて計算されることを意味する。MRAは、多重解像度コンテキストにおける各人物行動をカプセル化する。最後に、行動認識ステップでコンテキストをスタックし、それらを分類器にかけて最終的な予測を行う。モデル全体が微分可能であり、したがって、標準的なバックプロパゲーションを使用してエンドツーエンドでモデルを訓練することが可能であることに留意されたい。新規性の1つの領域は、アテンション重みの多重解像度空間における回帰の使用である。
行動のパラメータ化
行動のパラメータ化は、ビデオ・クリップ内の対象者によって実行される行動をモデル化、すなわち、特定する。図3に戻ると、モデルは、生の入力ビデオ・クリップが、

として参照されるT個のビデオ・フレームのシーケンスを生成するために、前処理されていると仮定する。クリップのそれぞれは、CNN302及び多重解像度モジュール(MRM:multi-resolution module)304に提供される。
形式的には、ビデオ・クリップは、4Dテンソルxによって以下のように説明される。

ここで、x∈RT×3×W×Hは、シーン内の運動力学をカプセル化するビデオ・クリップであり、Tはフレーム数、すなわち、クリップ内の2D画像の数であり、Wはピクセルにおけるフレーム幅、すなわち、別の次元を指し、Hはフレーム高さを指し、3の値は、各ピクセルに対し、赤、緑、及び青の値があるRGBなどの3値色空間を指す。また、x ∈R3×W×Hは、ビデオ・クリップにおけるt番目のフレームである。各フレームは、主行動cを含み、ここで、cはフレームのクラス、すなわち、フレームが、分類器によってどのように分類されるのか、又は訓練セットによってどのようにラベル付けされるのかを指し、Cはクラスの数である、と仮定する。式2の右辺は、平均フレーム(

)を表す。バッチ・サイズは、表記を簡略化するために省略されている。MRA300の結果は、行動分類である、ロジットとしても知られる

として参照される、推定値又は予測された行動クラス・スコアである。
空間解析のための多重解像度モデル
図3を再び参照すると、多重解像度モデル(MRM)304は、ResNetモデルを実装して、xの各フレームの精細-粗MR表現{W},{j=0,1,2,…,S-1}を構成し、ここでSはMR空間の削減像度表現の数、すなわち、次元を表す。本質的には、式3は、各クリップのフレーム単位でのMR分解を再帰的に計算する。そのため、Wは、MR空間におけるクリップ表現である、

として記述することができ、ここで

である。したがって、各Wは、画像を表す3Dテンソルであり、Wは、T個の画像のクリップを表す4Dテンソルである。
図4は、MRM304によって生成される、ブロックと呼ばれる多重解像度表現を示す。これは、それぞれが、典型的にCNNモデルとして実装される、4つの別個のモデルが示されている。クリップxのビデオ・フレーム

から始めて、第1のモデル402はフル解像度表現ブロックWを作成する。第2のモデル404は、Wに基づいて、1/2解像度ブロックWを生成する。第3のモデル406は、W、Wに基づいて、1/4解像度ブロックWを生成する。第4のモデル408は、W、W、Wに基づいて、1/8解像度ブロックWを生成する。図3ではMRM304の処理が4つの連続した削減解像度ブロックを生成するように示されているが、本発明はそのように限定されておらず、MRMモデルは、任意の数の削減解像度を生成するように適合され得る。また、連続した削減は、前の解像度の1/2であることに限定されていない。例えば、表現は、前の表現の1/3又は1/8の解像度であってもよい。
以下の表1は、評価済みの複数のMRMアーキテクチャを示す。表1によって定義されるMRブロック[W0,W1,W2,W3]は、事前活性化ResNet18モデルを使用して生成されてもよい。ただし、Conv1層は、ResNetモデルによって使用される標準カーネルである(7×7)の代わりに、k=(3×3)を使用するという違いがある。
削減解像度ブロックを計算するためにResNet CNNを使用することに加えて、平均化、補間、及びサブサンプリングなどの他の技法が使用されてもよい。
出力フレーム・サイズ(N×M)は、それぞれの連続解像度Wにおいて1/2だけ削減される。したがって、表1の実例において、入力データxのフレーム・サイズが、V=112×112のとき、Wのフレーム・サイズは56×56、Wは28×28、などとなる。
モデルのアーキテクチャは、事前活性化ResNet18からヒントを得ている。ただし、1つ違いがあり、初期Conv層(前処理入力)は、k=(7×7)の代わりに、カーネルk=(3×3)を使用する。アーキテクチャの構造の残りの部分は、チャネル及びブロックの数以外は、ResNet18モデルと同様である。チャネル及びブロックの数は、元のResNet18の実装と目標性能(乗算及び加算演算が少ないためより高速の計算)又は精度に対して異なり得る。例えば、ResNet18アーキテクチャを使用して、よりチャネル数が少なく、したがって乗算及び加算演算の量を低減する浅いモデルを構築してもよい。
上では、MRブロック[W,W,W,W]を作成するためのCNNネットワーク・アーキテクチャを中心に論じているが、W0を作成するために使用するアーキテクチャと同一のCNNネットワーク・アーキテクチャが、埋め込み出力[e,…e]を生成するために使用されてもよい。すなわち、類似又は同一の事前活性化及び畳み込みステップが使用されてもよい。
時間モデリング
MR処理の後、4DテンソルWは、アテンション・モデルにかけられる。学習の第1のステップとして、アテンション・モデルは、アテンション重みのベクトルを計算する。これらのアテンション重みは、クリップにおけるフレーム間の動作を反映するため、運動学アテンション重みとも呼ばれ得る。まず、このメカニズムは、ドット積類似度、及びそれに続く2Dプーリング演算を使用してR3D=>Rの高次元削減を実行する。次に、メカニズムは、(例えば、ソフトマックス関数を使用して)正規化を実行して範囲[0,1]に重みを強制する。最後に、アテンション・モデルは、正規化重みとモデルの埋め込みEとの間で線形結合又は重み結合を実行し、コンテキストを計算して最終的な予測を行う。
運動学アテンション重み
埋め込みモデル出力Eのフレームに適用され得るアテンション重みを計算するために、様々な代替手法が使用されてもよい。以下に、アテンション重みを計算するための4つの代替公式、すなわち、(1)前進速度、(2)後退速度、(3)、後退加速度、及び(4)絶対位置を提示する。
動作クリップが与えられると、回帰計算を使用して、時間t+1の姿勢が、前の時間フレームtにおける姿勢に対して感受性を持つようにすることで人物ポスチャの時間依存性をモデル化することができる。これを達成するために、速度又は加速度の推定値を使用して、有限差分導関数を用いて運動学アテンション重みを算出してもよい。追加のモデルが、速度又は加速度が必要とされない位置的アテンション重みを計算する。運動学アテンション重みにより、モデルが、前のフレームにおける姿勢を追跡しながら、時間tにおける姿勢に注目することを学習することが可能となる。
数学的には、時間tにおける運動学アテンション重みは、前進及び後退速度とも呼ばれ得るその1階有限導関数、並びに後退加速度とも呼ばれ得るその2階有限導関数から以下のように推定されてもよい。

絶対値

において、tは、ビデオ・クリップ内のフレームのインデックスである。ビデオ・クリップは、時間次元における固定グリッド間隔を有する、すなわち、Δt=1、すなわち、(Δt=t+1-t=1)であると仮定されるため、時間t-1、t、及びt+1は、クリップからの3つのフレームの時系列を指す。同様に、2階導関数は、その前進及び中心バージョンによって表現される。オンライン計算に非常に好適であるため、2階導関数の後退表現が使用される。実際、時間tにおける行動を予測するために、これは過去の情報のみを使用する。時間tにおけるポスチャは、前の時間ステップにおけるポスチャに対して計算されるため、式4、式5及び式6はそれぞれ、相対位置におけるビデオ・フレームのシーケンス内のポスチャ又は行動を追跡する。
一方、下の式7は、以下のように、絶対位置に基づいてポスチャを追跡する。
1階近似の1つの潜在的な副作用は、ストライド-畳み込み演算によって増幅され、精度の劣化をもたらし得る、エイリアシング(高周波数)の加算である。任意の入力信号におけるアンチエイリアシングに対するよく知られた解決策は、そのダウンサンプリング前のローパス・フィルタリングである。この操作は、勾配演算子に対して、又はストライド畳み込み演算に対して、のいずれかで実行され得る。一実施例では、ローパス・フィルタリングは、中心差分導関数の1階近似を使用して勾配演算子に対して実行される。一様グリッドに対して、またテイラー展開を使用して、以下の式8において与えられるように、前進-後退導関数(式4及び式5)を合計することにより、中心導関数を解析的に計算することができる。
式4、式5、及び式8は、2つの時点のみにおける情報を使用するが、式8は、二次収束を提供する。実際には、式8は、前進又は後退差分よりも高い精度の結果をもたらす。また、式7は、非時間依存的な特性を持つ(すなわち、シーケンスの順序に関する情報を提供しない)ことも観測され得る。したがって、式7を使う場合、アテンション・メカニズムは、長い範囲にわたるシーケンスをモデル化するのが困難である場合がある。したがって、フレーム間に相対的な順序を課すために、基準フレームが追加されてもよい。特定のフレームを使用する代わりに、以下の式9を使用してアテンション重みが中心化されてもよい。

ここで、

は、平均フレームを中心とした整列モデル

である。また、以下の式10、式11及び式12を使用して速度及び加速度も整列される。

ここで、

である。空間解像度の特徴量のトレードオフは、ResNet CNNモデルの標準に従うことに留意されたい。
式4~式7に提示される非中心化アテンション重みモデルは、多くの場合、許容可能な結果をもたらし得るが、式9~式12において提示されるこれらの式の再整列バージョンは、より高い精度をもたらすことが示されている。再整列の結果として、アテンション重みは、平均からの短い動作変位に対して小さくなり、より長い変位に対して大きくなる。言い換えれば、モデルは、フレーム単位での戦略を使用して、クリップの最も有益な情報部分に注意を払うと共に、フレームに対応する動きの変動性(量)を反映した、各フレームに対する重みを割り当てることを、自動的に学習する。
したがって、図3を再び参照すると、運動学テンソルとも呼ばれる、MRM304からのテンソル出力である、j=0,…,S-1に対するMR分解

の生成で使用するために、式9~式12のいずれかが選択され得る。代替として、式9~式12によって表される公式のうちの1つを選択するのではなく、これらを組み合わせてテンソル出力Wが生成されてもよい。例えば、式のそれぞれからの結果は、加算、平均化、又はスタックされて、線形CNN層を通されてもよい。
図5は、各解像度に対して最終コンテキストctx又はアテンション重みを生成するために、MRA310、312、314及び316によって実行される処理を説明する。
ステップ504では、MRM304によって生成された運動学テンソルをスタックしてブロックを作成する。同様に、ステップ502では、以下でステップ510に関して説明するように、CNN302の埋め込み出力が、後の使用のためにスタックされる。
次に、ステップ506では、3Dプーリングを用いて、以下の式13を使用して運動学テンソルの次元を削減する。


は、時間t及び解像度jにおけるフレームに対するアテンション重みである。

は、アテンション重みのどの公式化が使用されているかによって異なる、相対又は絶対的なフレーム単位の運動学テンソルである。3Dプーリング(平均化)は、2D空間次元(N×M)並びに特徴量次元(F)を排除する(縮小する)。
ステップ508において、アテンション重み

を正規化して正規化されたアテンション・ベクトル

を作成する。これを達成するために、ソフトマックス及びベクトル・ノルムを適用して

のように最終的な運動学アテンション重みを計算する。ここで

は、ソフト運動学アテンション・ベクトルであり、構成上、各解像度jに対して

である。|・|は絶対値を表し、||・||はベクトル・ノルム演算を示す。

は、単一の運動学アテンション重みベクトルであり、これは、アテンション・メカニズムが行動コンテキストを計算するときにモデル出力にエネルギー(スケーリング)が加算されないことを意味する。正の重みは、同様の変位を伴う左右の行動に対して並進不変性を強制することに留意されたい。一般に、ソフト運動学アテンション・ベクトル

(又は単にアテンション・ベクトル)は、各フレームtに対して、特定の解像度jにおけるT個のフレームを持つクリップ内のフレームの相対寄与度又は重要度を指定するアテンション重みを提供する。
他の次元削減法も存在し、式14において示した重みを計算するために使用されてもよい。例えば、フィルタの次元を削除すると共に、(N×M)空間ロケーションに対して2階統計量(平均プーリング)を適用するために、ドット積類似度(w^ w^ が使用されてもよい。別の解決策としては、全結合層を使用して一連の線形変換を適用してテンソルの次元(w^)を削減すると共に、ソフトマックス関数を使用して重みを正規化するものがあり、これはドット積の解決策と類似している。
ソフト・アテンション及び残差アテンション
式15において以下に与えられるように、アテンション・ベクトル

と、EM、すなわち、CNN302、E=[e,…,e,…,e]によって生成される埋め込みテンソルとの間の線形結合を計算することにより、言語モデルを使用した古典的な決定論的アテンション・メカニズムを適合してフレーム依存性をモデル化することが可能である。


は、解像度jにおけるソフト・アテンションと呼ばれる。前述したgは、埋め込みモデル(EM)がResNet18か、ResNet34のいずれかである場合、g=1であり、そうでない場合、g=4であるようなスケール因子である。ソフト・アテンションは、解像度jにおけるビデオ・クリップ行動のコンテキストをカプセル化する。すなわち、式15は、T個のフレームから、様々なフレームがアテンション重みによって重み付けられた単一のフレームに埋め込みを削減する。したがって、式15は、各解像度jに対して、アテンション重みが適用された、次元F×N×Mを持つ、単一の重み付けられた3Dテンソルを生成する。本発明は、埋め込みテンソルにアテンション重みを適用する方法として、線形結合を使用することに限定されておらず、他の数学的公式化が使用されてもよい。
式14において上で計算されたアテンション重みベクトル

は、単一であるが、重みは、常に1つに合計されるとは限らない。

となる平均からの小さい動作変位に関して、勾配の消失を誘発するという潜在的な欠点が現れる。このため、式15のソフト・アテンション・メカニズムは、学習中に勾配不安定性を導入してもよい。この問題は、残差学習技法を使用して対処される。
残差アテンション・メカニズムは、式15に埋め込み特徴量を追加することによって構成される。式15におけるソフト・アテンションと同様に、式16における残差アテンションは、まず、式13を使用して、3Dプーリングを用いて運動学テンソルの次元を削減し、次いで、式14を使用してアテンション重みを正規化する。数学的には、これは、

によって与えられ、これは、

と等価である。ここで

のとき、

が埋め込みeを近似する。言い換えれば、運動学アテンション・ベクトルが同一マッピング

を実行するとき、MRAモデルの性能は、アテンションなしのモデルと比較して悪くなく、これは、埋め込みモデルのみを使用した場合(図3)と同等である。
スケーリングされた残差アテンション(SRA:Scaled Residual Attention)と呼ばれる、最終的なアテンションは、1/Tだけスケーリングされ、コンテキストをクリップに対して不変にする。SRAは、

によって与えられ、ここで、各eは、3Dテンソルe∈Rg・F・N×Mである。
式15及び式16はそれぞれ、各解像度jに対して、次元F×N×Mの単一の3Dテンソルを計算する。これらは、コンテキストctxと呼ばれるものの代替的公式化である。再び図3を参照すると、ctxは、MRA310、312、314、316の出力である。
多重解像度アテンション
図3に戻ると、ステップ320において、コンテキスト(ctx,ctx,…,ctx)は、解像度に対してスタックされる。したがって、それぞれが次元FNMのテンソルであるS個の解像度があるため、スタックされたコンテキストは、次元SFNMのブロックを生ずる。
次いで、ステップ322において、精細-粗コンテキストctxを利用する、多重解像度アテンションが計算される。最終的な多重解像度アテンション(MRA)は、以下のように計算される。

ここで、ctxは、式16によって計算される

か、又は式15によって計算される

のいずれかとすることができる。mrattは、次元Rg・F・N×Mを持つ3Dテンソルであることに留意されたい。
MRAは、マルチヘッド・アテンションに類似しているが、2つの主な違いがある。第1に、解像度を連結する代わりに、多重解像度は、滑らかな特徴量を有するようにスタック及び平均化される。第2に、多重解像度表現は、シーンを異なる物理的構造として見る。この精細-粗表現により、アテンション・モデルが、まず、最高解像度表現における画像詳細部(小さい物体)に焦点を当て、次いで、漸進的により粗くなる(より低解像度の)各表現において、様々なスケールにわたって残るより大きい構造に焦点を当てることを、自動的に学習することが可能となる。
従来のアテンション重みモデリングとは異なり、MRA310、312、314及び316を実施する方法500は、様々な解像度におけるクリップ内の画像の特徴表現に基づいてアテンション重みを生成する。したがって、最終的なコンテキストを生成する際に、特定の解像度では明らかとなり得るが、他の解像度ではそうでないことがある特徴量が考慮される。
次に、ステップ324において、時間及び空間次元を平均化する、すなわちN×M×Tを削減する、3Dプーリング演算が実行される。このステップは、式13を使用して実行され得る。時間(T)及び空間(N×M)次元を縮小することにより、要素がF個の特徴量のそれぞれに対して正規化され、重み付けられた値又はスコアである、単一の1×F特徴ベクトルが得られる。
特定の実施例では、1×F特徴ベクトルに対してドロップアウト326の操作が実行される。例えば、特徴量の数に対して訓練データが比較的少量であるため、モデルのオーバーフィッティングが考慮事項となる場合、ドロップアウト326が実行されてもよい。ドロップアウト326は、例えば、訓練中にモデルが実行される度に適用され得る。一般に、ドロップアウト326は、推定値を生成するのに十分なデータがない場合に特徴量を排除する。ドロップを実行する1つの方法が、非特許文献1に記載されている。
最後のステップは、分類328と呼ばれる。すなわち、クラスのセットからの単一のクラスが、特徴ベクトルに基づいて入力ビデオxの一次行動として選択される。分類セットにおけるクラスの数は、特徴量の数と等しくない場合があるため、分類セットにおける各クラスに対してスコアを持つ分類ベクトルを生成する、線形変換がこのステップにおいて実行される。このステップは、線形変換を使用して実行されるため、線形化とも呼ばれ得る。典型的には、

とも呼ばれ得る最も高い値又はスコアを持つクラスが、推定値又は選択されたクラスである。
行動認識-モデル訓練
多重解像度アテンションが計算を終えると、MRAネットワークは、行動のコンテキストから人物行動を認識することを学習する。ロジットは、

としてモデルのフォワード・パスから計算される生の非正規化モデル予測のベクトルである(ここで、θはニューラル・ネットワーク・パラメータ(すなわち、重み)を表し、x∈Xである)ため、モデルは、負のクロスエントロピー・ログ損失を最小限に抑えることによって訓練される。モデルの重みを反復的に学習するために、以下で式18に与えられるように、SGDMと呼ばれる、モメンタム(momentum)を伴う確率的勾配降下法(SGD:stochastic gradient descent)などの方法が適用される。また、AdamやRMSPropなどのアダプティブ法を含む、他の方法が適用されてもよい。
θi+1=θ-λ(βv+∇θL(θ)) 式18
ここで、β∈[0,1]はモメンタムであり、λは、学習率であり、vは、0に初期化される。SGDの1つの欠点は、すべての方向で勾配スケーリングが一様であり、学習率のチューニングに困難を呈することである。本明細書では線形学習率(LLR:linear learning rate)更新と呼ばれる新規な解決策が以下に提示される。
LLRは、学習率を初期化し(例えば、λ=10-2)、いくつかのエポック後にそれを10分の1に下げる。一般に超収束と呼ばれる、別の実施例では、循環学習率(CLR:cyclical learning rate)更新を用い、これは、訓練を高速化し、モデルを正則化する。
上記の明細書、実例、及びデータは、本発明の構成物の製造及び使用の完全な詳細を提供する。本発明の精神及び範囲から逸脱することなく本発明の多くの実施例がなされ得るため、本発明は、以下に添付される特許請求の範囲に存在する。

Claims (20)

  1. ビデオ・クリップ内に現れる行動を分類するためのコンピュータ実施方法であって、
    解析のためのビデオ・クリップを受け取るステップであって、前記ビデオ・クリップが時系列のビデオ・フレームを含む、ステップと、
    前記クリップ内の前記フレームに畳み込みニューラル・ネットワーク・メカニズム(CNN)を適用して前記クリップ内の各フレームに対して4D埋め込みテンソルを生成するステップであって、4つの次元が、前記クリップ内のビデオ・フレームのシーケンスによって表される時間、特徴量、画像幅及び画像高さである、ステップと、
    前記クリップ内の前記フレームのそれぞれに多重解像度畳み込みニューラル・ネットワーク・メカニズム(CNN)を適用して削減解像度運動学テンソルのシーケンスを生成するステップであって、各運動学テンソルが削減解像度のうちの1つにおけるフレームを表す、ステップと、
    各削減解像度運動学テンソルに対して、前記削減解像度における対応するビデオ・クリップ内の動作の量を推定する運動学アテンション重みを計算するステップと、
    各解像度に対して、クリップ内の各フレームに対する前記埋め込みテンソルに前記アテンション重みを適用して、前記解像度における前記クリップ内のすべての前記フレームを表す、コンテキストと呼ばれる、重み付けられた埋め込みテンソルを生成するステップと、
    すべての解像度にわたる前記コンテキストを結合して多重解像度コンテキストを生成するステップと、
    多重解像度アテンションの3Dプーリングを実行して1D特徴ベクトルを取得するステップであって、前記特徴ベクトルにおける各値が、対応する特徴量の相対的重要度を示す、ステップと、
    前記特徴ベクトルに基づいて前記ビデオ・クリップの一次行動を分類するステップと
    を含む、コンピュータ実施方法。
  2. 前記特徴ベクトルに基づいて前記ビデオ・クリップを分類するステップが、行動分類セットにおける各行動クラスに対する確率を計算するステップを含み、行動クラス確率が、対応する行動が前記ビデオ・クリップ内で発生した尤度を指定する、請求項1に記載の方法。
  3. 各行動クラスに対する確率を計算するステップが、前記1D特徴ベクトルと、前記行動分類セットを表す1D行動クラス・ベクトルとの間に線形変換を実行して、前記行動分類セットにおける各クラスに対する確率を得るステップを含む、請求項2に記載の方法。
  4. 1つ又は複数の特徴量を排除するドロップアウト・メカニズムを前記特徴ベクトルに適用するステップをさらに含む、請求項1に記載の方法。
  5. それぞれの連続する削減解像度埋め込みテンソルが、前の削減解像度埋め込みテンソルの1/2の解像度である、請求項1に記載の方法。
  6. 前記削減解像度運動学テンソルに多重解像度アテンション・メカニズムを適用するステップが、
    前記対応するビデオ・フレーム内の各空間ロケーションにおける前記動作を表す各解像度の各フレームに対するテンソルを計算するステップと、
    前記幅、高さ及び特徴量の次元を縮小する、3Dプーリング演算を実行して、各解像度における各フレームに対するスカラー・アテンション重みを得るステップと
    を含む、請求項1に記載の方法。
  7. 多重解像度アテンションの3Dプーリングを実行するステップが、前記幅、高さ及び特徴量の次元における前記運動学テンソルを平均化するステップを含む、請求項1に記載の方法。
  8. 削減解像度運動学テンソルのシーケンスを生成するステップが、
    畳み込みニューラル・ネットワーク演算を実行して新規畳み込み層を生成するステップと、
    双線形補間、平均化、重み付け、サブサンプリング又は2Dプーリング関数の適用から成る群から選択された技法を使用して、前記新規畳み込み層の前記解像度を削減するステップと
    を含む、請求項1に記載の方法。
  9. 前記ビデオ内の動作の量を推定する運動学アテンション重みを計算するステップが、
    時間tに基づく、1階有限導関数、2階有限導関数及び絶対位置から成る群から選択される方法を使用して時間tにおけるビデオ・フレームのテンソル表現を生成するステップと、
    平均フレーム値を中心として前記テンソル表現を中心化するステップと
    を含む、請求項1に記載の方法。
  10. すべての解像度にわたる前記コンテキストを結合するステップが、
    各解像度に対する前記コンテキストをスタックするステップと、
    各2D空間ロケーションに対して特徴量の値を有する単一の3Dテンソルを計算するステップと
    を含む、請求項1に記載の方法。
  11. サーバ・コンピュータであって、
    プロセッサと、
    前記プロセッサと通信状態にある通信インタフェースと、
    ビデオ・クリップを記憶するためのデータ・ストレージと、
    前記プロセッサと通信状態にある、命令を記憶するためのメモリであって、前記命令が、前記プロセッサによって実行されると、前記サーバに、
    解析のためのビデオ・クリップを受け取るステップであって、前記ビデオ・クリップが時系列のビデオ・フレームを含む、ステップと、
    前記クリップ内の前記フレームに畳み込みニューラル・ネットワーク・メカニズム(CNN)を適用して前記クリップ内の各フレームに対して4D埋め込みテンソルを生成するステップであって、4つの次元が、前記クリップ内のビデオ・フレームのシーケンスによって表される時間、特徴量、画像幅及び画像高さである、ステップと、
    前記クリップ内の前記フレームのそれぞれに多重解像度畳み込みニューラル・ネットワーク・メカニズム(CNN)を適用して削減解像度運動学テンソルのシーケンスを生成するステップであって、各運動学テンソルが削減解像度のうちの1つにおけるフレームを表す、ステップと、
    各削減解像度運動学テンソルに対して、前記削減解像度における対応するビデオ・クリップ内の動作の量を推定する運動学アテンション重みを計算するステップと、
    各解像度に対して、クリップ内の各フレームに対する前記埋め込みテンソルに前記アテンション重みを適用して、前記解像度における前記クリップ内のすべての前記フレームを表す、コンテキストと呼ばれる、重み付けられた埋め込みテンソルを生成するステップと、
    すべての解像度にわたる前記コンテキストを結合して多重解像度コンテキストを生成するステップと、
    多重解像度アテンションの3Dプーリングを実行して1D特徴ベクトルを取得するステップであって、前記特徴ベクトルにおける各値が、対応する特徴量の相対的重要度を示す、ステップと、
    前記特徴ベクトルに基づいて前記ビデオ・クリップの一次行動を分類するステップと
    を行わせる、メモリと
    を備える、サーバ・コンピュータ。
  12. 前記特徴ベクトルに基づいて前記ビデオ・クリップを分類するステップが、行動分類セットにおける各行動クラスに対する確率を計算するステップを含み、行動クラス確率が、対応する行動が前記ビデオ・クリップ内で発生した尤度を指定する、請求項11に記載のサーバ・コンピュータ。
  13. 各行動クラスに対する確率を計算するステップが、前記1D特徴ベクトルと、前記行動分類セットを表す1D行動クラス・ベクトルとの間に線形変換を実行して、前記行動分類セットにおける各クラスに対する確率を得るステップを含む、請求項12に記載のサーバ・コンピュータ。
  14. 前記メモリが、前記サーバに
    1つ又は複数の特徴量を排除するドロップアウト・メカニズムを前記特徴ベクトルに適用するステップ
    をさらに行わせる、請求項11に記載のサーバ・コンピュータ。
  15. それぞれの連続する削減解像度埋め込みテンソルが、前の削減解像度埋め込みテンソルの1/2の解像度である、請求項11に記載のサーバ・コンピュータ。
  16. 前記削減解像度運動学テンソルに多重解像度アテンション・メカニズムを適用するステップが、
    前記対応するビデオ・フレーム内の各空間ロケーションにおける前記動作を表す各解像度の各フレームに対するテンソルを計算するステップと、
    前記幅、高さ及び特徴量の次元を縮小する、3Dプーリング演算を実行して、各解像度における各フレームに対するスカラー・アテンション重みを得るステップと
    を含む、請求項11に記載のサーバ・コンピュータ。
  17. 多重解像度アテンションの3Dプーリングを実行するステップが、前記幅、高さ及び特徴量の次元における前記運動学テンソルを平均化するステップを含む、請求項11に記載のサーバ・コンピュータ。
  18. 削減解像度運動学テンソルのシーケンスを生成するステップが、
    畳み込みニューラル・ネットワーク演算を実行して新規畳み込み層を生成するステップと、
    双線形補間、平均化、重み付け、サブサンプリング又は2Dプーリング関数の適用から成る群から選択された技法を使用して、前記新規畳み込み層の前記解像度を削減するステップと
    を含む、請求項11に記載のサーバ・コンピュータ。
  19. 前記ビデオ内の動作の量を推定する運動学アテンション重みを計算するステップが、
    時間tに基づく、1階有限導関数、2階有限導関数及び絶対位置から成る群から選択される方法を使用して時間tにおけるビデオ・フレームのテンソル表現を生成するステップと、
    平均フレーム値を中心として前記テンソル表現を中心化するステップと
    を含む、請求項11に記載のサーバ・コンピュータ。
  20. すべての解像度にわたる前記コンテキストを結合するステップが、
    各解像度に対する前記コンテキストをスタックするステップと、
    各2D空間ロケーションに対して特徴量の値を有する単一の3Dテンソルを計算するステップと
    を含む、請求項11に記載のサーバ・コンピュータ。
JP2023553165A 2020-11-16 2021-11-16 ビデオ行動認識のための多重解像度アテンション・ネットワーク Pending JP2023549582A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063114344P 2020-11-16 2020-11-16
US63/114,344 2020-11-16
PCT/US2021/059568 WO2022104281A1 (en) 2020-11-16 2021-11-16 A multi-resolution attention network for video action recognition

Publications (1)

Publication Number Publication Date
JP2023549582A true JP2023549582A (ja) 2023-11-27

Family

ID=80473483

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2023553162A Pending JP2023549579A (ja) 2020-11-16 2021-11-15 ビデオ行動認識のための時間ボトルネック・アテンション・アーキテクチャ
JP2023553165A Pending JP2023549582A (ja) 2020-11-16 2021-11-16 ビデオ行動認識のための多重解像度アテンション・ネットワーク

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2023553162A Pending JP2023549579A (ja) 2020-11-16 2021-11-15 ビデオ行動認識のための時間ボトルネック・アテンション・アーキテクチャ

Country Status (10)

Country Link
US (2) US11270124B1 (ja)
EP (2) EP4244762A1 (ja)
JP (2) JP2023549579A (ja)
KR (2) KR20230104738A (ja)
CN (2) CN116686017A (ja)
AU (2) AU2021379758A1 (ja)
CA (2) CA3197846A1 (ja)
GB (2) GB2617710A (ja)
MX (2) MX2023005637A (ja)
WO (2) WO2022104202A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230169794A1 (en) * 2021-11-30 2023-06-01 Irina Kezele Method, device, and medium for adaptive inference in compressed video domain
CN114783053A (zh) * 2022-03-24 2022-07-22 武汉工程大学 基于空间注意力和分组卷积的行为识别方法及系统
CN115063833B (zh) * 2022-05-16 2024-05-14 国网冀北电力有限公司信息通信分公司 一种基于图像分层视觉的机房人员检测方法
WO2023226951A1 (en) * 2022-05-23 2023-11-30 Beijing Bytedance Network Technology Co., Ltd. Method, apparatus, and medium for video processing
TWI812255B (zh) * 2022-06-01 2023-08-11 大陸商星宸科技股份有限公司 智慧處理單元與三維池化運算方法
CN114818989B (zh) * 2022-06-21 2022-11-08 中山大学深圳研究院 基于步态的行为识别方法、装置、终端设备及存储介质
CN114783003B (zh) 2022-06-23 2022-09-20 之江实验室 一种基于局部特征注意力的行人重识别方法和装置
CN115240249B (zh) * 2022-07-07 2023-06-06 湖北大学 人脸识别的特征提取分类度量学习方法、系统及存储介质
CN115880647A (zh) * 2023-02-22 2023-03-31 山东山大鸥玛软件股份有限公司 一种考生考场异常行为分析方法、系统、设备及存储介质
CN116758621B (zh) * 2023-08-21 2023-12-05 宁波沃尔斯软件有限公司 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050238102A1 (en) * 2004-04-23 2005-10-27 Samsung Electronics Co., Ltd. Hierarchical motion estimation apparatus and method
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
US10628675B2 (en) * 2017-02-07 2020-04-21 Fyusion, Inc. Skeleton detection and tracking via client-server communication
CN110622169A (zh) * 2017-05-15 2019-12-27 渊慧科技有限公司 用于视频中的动作识别的神经网络系统
CA3016953A1 (en) * 2017-09-07 2019-03-07 Comcast Cable Communications, Llc Relevant motion detection in video
CN111666960B (zh) * 2019-03-06 2024-01-19 南京地平线机器人技术有限公司 图像识别方法、装置、电子设备及可读存储介质
US10885345B2 (en) * 2019-04-29 2021-01-05 Tencent America LLC End-to-end video captioning with multi-task reinforcement learning
US11669743B2 (en) * 2019-05-15 2023-06-06 Huawei Technologies Co., Ltd. Adaptive action recognizer for video
US11126855B2 (en) * 2019-08-08 2021-09-21 Robert Bosch Gmbh Artificial-intelligence powered ground truth generation for object detection and tracking on image sequences
US10713493B1 (en) * 2020-02-06 2020-07-14 Shenzhen Malong Technologies Co., Ltd. 4D convolutional neural networks for video recognition

Also Published As

Publication number Publication date
KR20230104737A (ko) 2023-07-10
GB202308248D0 (en) 2023-07-19
AU2021379758A1 (en) 2023-06-22
US11270124B1 (en) 2022-03-08
CA3197846A1 (en) 2022-05-19
GB2616167A (en) 2023-08-30
WO2022104202A1 (en) 2022-05-19
CN116686017A (zh) 2023-09-01
KR20230104738A (ko) 2023-07-10
GB2617710A (en) 2023-10-18
MX2023005637A (es) 2023-07-31
CA3197841A1 (en) 2022-05-19
EP4244762A1 (en) 2023-09-20
JP2023549579A (ja) 2023-11-27
EP4244763A1 (en) 2023-09-20
GB202308247D0 (en) 2023-07-19
US11842541B1 (en) 2023-12-12
AU2021377335A1 (en) 2023-06-22
MX2023005638A (es) 2023-07-31
WO2022104281A1 (en) 2022-05-19
GB2617710A8 (en) 2023-11-08
CN117256019A (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
US11842541B1 (en) Multi-resolution attention network for video action recognition
Qiao et al. Micro-batch training with batch-channel normalization and weight standardization
KR102302725B1 (ko) 룸 레이아웃 추정 방법들 및 기술들
Zhao et al. Learning deep facial expression features from image and optical flow sequences using 3D CNN
US9852326B2 (en) Facial expression capture for character animation
Luc et al. Transformation-based adversarial video prediction on large-scale data
Cheung et al. Discovering hidden factors of variation in deep networks
CN111310707A (zh) 基于骨骼的图注意力网络动作识别方法及系统
US9697614B2 (en) Method for segmenting and tracking content in videos using low-dimensional subspaces and sparse vectors
Wen et al. VIDOSAT: High-dimensional sparsifying transform learning for online video denoising
AU2021379758A9 (en) A temporal bottleneck attention architecture for video action recognition
Savran et al. Non-rigid registration based model-free 3D facial expression recognition
EP4099213A1 (en) A method for training a convolutional neural network to deliver an identifier of a person visible on an image, using a graph convolutional neural network
Fan et al. Expectation propagation learning of a Dirichlet process mixture of Beta-Liouville distributions for proportional data clustering
Krebs et al. Learning a generative motion model from image sequences based on a latent motion matrix
Zhao et al. Towards image-to-video translation: A structure-aware approach via multi-stage generative adversarial networks
CN110580456A (zh) 基于相干约束图长短时记忆网络的群体活动识别方法
Tu et al. The complex action recognition via the correlated topic model
Liu Robust visual tracking via smooth manifold kernel sparse learning
Wei et al. An adaptive dictionary learning approach for modeling dynamical textures
Zhang et al. Mask encoding: A general instance mask representation for object segmentation
Naveen Occlusion-aware facial expression recognition: A deep learning approach
CN112232261A (zh) 图像序列融合的方法及设备
Chen Robust Structure-aware Semi-supervised Learning
Housni Bidirectional convolutional lstm autoencoder for risk detection