JP2023549582A

JP2023549582A - ビデオ行動認識のための多重解像度アテンション・ネットワーク

Info

Publication number: JP2023549582A
Application number: JP2023553165A
Authority: JP
Inventors: アール．カルバリョ、シューベルト; フォルクマン、タイラー; レイバトラー、リチャード
Original assignee: ベングループ、インコーポレイテッド
Priority date: 2020-11-16
Filing date: 2021-11-16
Publication date: 2023-11-27
Also published as: KR20230104737A; GB202308248D0; AU2021379758A1; US11270124B1; CA3197846A1; GB2616167A; WO2022104202A1; CN116686017A; KR20230104738A; GB2617710A; MX2023005637A; CA3197841A1; EP4244762A1; JP2023549579A; EP4244763A1; GB202308247D0; US11842541B1; AU2021377335A1; MX2023005638A; WO2022104281A1

Abstract

本発明は、解析のためのビデオ・クリップを受け取ることと、クリップ内のフレームに畳み込みニューラル・ネットワーク・メカニズムＣＮＮを適用して、クリップ内の各フレームに対して４Ｄ埋め込みテンソルを生成することと、クリップ内のフレームのそれぞれに多重解像度畳み込みニューラル・ネットワーク・メカニズムＣＮＮを適用して、削減解像度ブロックのシーケンスを生成することと、ブロック内の動作の量を推定する運動学アテンション重みを計算することと、クリップ内の各フレームに対して埋め込みテンソルにアテンション重みを適用して、解像度におけるクリップ内のすべてのフレームを表す重み付けられた埋め込みテンソル、すなわち、コンテキストを生成することと、すべての解像度にわたるコンテキストを結合して、多重解像度コンテキストを生成することと、３Ｄプーリングを実行して、１Ｄ特徴ベクトルを取得することと、特徴ベクトルに基づいてビデオ・クリップの一次行動を分類することとを行うことにより、ビデオ・クリップ内に現れる行動を分類する。

Description

様々な実施例は、一般に多重解像度アテンション・ネットワークを使用してビデオ内の行動を分類するための方法及びシステムに関する。

近年、ビデオ・クリップからのビデオベースの人物行動認識（ＶＨＡＲ：ｖｉｄｅｏ－ｂａｓｅｄｈｕｍａｎａｃｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ）のエンドツーエンド深層学習が注目されるようになってきている。保安、ゲーム、及びエンターテインメントなど、多岐にわたる分野で応用例が確認されている。しかしながら、ビデオ由来の人物行動認識は、深刻な課題を持つ。例えば、ビデオ行動認識アーキテクチャを構築することは、フレーム間の拡張された時空間コンテキストを捕捉することを伴い、多大な計算リソースを必要とし、このことが、行動認識の産業応用のスピード感と有用性を制限し得る。ロバストな空間物体検出モデルを有すること、又は姿勢モデルにシーン内の物体間の相互作用を学習させることは、人間の作業者が、画像内の物体を手動で特定する必要があるため、高度にドメイン固有のデータを作成する可能性があり、処理するのに時間及びコストがかかり得る。

Srivastava et al., "Dropout: A Simple Way to Prevent Neural Networks From Overfitting", J. of Machine Learning Research 15 (2014)

アテンション・モデルは、計算コストが高い明示的な回帰モデルを使用する必要性をなくすことができるため、魅力的である。また、アテンション・メカニズムは、ＨＡＲタスク中の空間及び時間の両方において、ネットワークによって使用される画像領域を視覚化することによって、解釈可能な深層学習モデルの基礎となり得る。ＨＡＲのための現行のアテンション・アーキテクチャは、回帰モデル又はオプティカル・フロー特徴量に依拠するため、モデル訓練に多大な計算リソースを必要とし得る（例えば、最大６４ＧＰＵ必要となることもある）。これは、一般に、小規模の企業や大学が直面している問題である。他のアテンション・モデルは、人の手による（ｈａｎｄ－ｃｒａｆｔｅｄ）解決策を使用する。すなわち、パラメータのうちのいくつかは、専門家によって事前定義される（スケルトン・パーツ、人物姿勢、又はバウンディング・ボックス）。人の手によるパラメータは、人間の労力及びドメイン専門知識を必要とするため、扱いにくく、このことは、新しいデータセットに対する解決策のスケーラブル性を低下させ得る。これは、一般に、産業応用において直面される問題である。空間的アテンション・メカニズムは、人間の介入や専門知識を必要とせずに、シーン内の物体を自動的に局所化することを目的とする。しかしながら、従来技術のアテンション・メカニズムは、異なるフレーム間の時間的関係を考慮しないため、長期にわたる時間的関係を学習するのが困難となり得る。

したがって、本発明は、これらの考慮事項などを鑑みてなされたものである。

本発明は、ビデオ・クリップ内で生じる人物行動を分類（認識）する（ＶＨＡＲ）ための新規なエンドツーエンド深層学習アーキテクチャを提供する。本発明は、ストリーム・ネットワーク、キーフレーム学習、及び多重解像度解析などの２Ｄ畳み込みニューラル・ネットワーク（２Ｄ－ＣＮＮ：２Ｄｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）によって提供されるメカニズムを、統一的枠組みにおいて組み合わせた、本明細書で多重解像度アテンション・ネットワーク（ＭＲＡＮＥＴ：Ｍｕｌｔｉ－ＲｅｓｏｌｕｔｉｏｎＡｔｔｅｎｔｉｏｎＮｅｔｗｏｒｋ）と呼ばれるアーキテクチャを導入する。

高度な計算性能を実現するために、ＭＲＡＮＥＴは、２次元（２Ｄ：ｔｗｏ－ｄｉｍｅｎｓｉｏｎａｌ）畳み込みニューラル・ネットワーク（２Ｄ－ＣＮＮ）を使用してシーンの多重解像度（ＭＲ：ｍｕｌｔｉ－ｒｅｓｏｌｕｔｉｏｎ）分解を構成する。従来技術の方法とは異なり、本手法は、ビデオ内の物体及び行動を認識するために、バウンディング・ボックス又は姿勢モデリングを必要としない。複数の解像度におけるビデオ・フレーム、すなわち、画像の詳細は、ＭＲ空間における異なるサイズ（周波数）及び配向を持つ別個の物理的構造を共通に特徴付ける。

ＭＲＡＮＥＴの核となるのは、再帰的に計算されるアテンション重みのベクトルを計算するアテンション・メカニズムである。すなわち、時間ｔにおけるフレームの重みは、時間ｔ－１における前のフレームの関数である。特定の実施例では、回帰的アテンション重みは、行動が生じるフレームのシーケンスに対して１階有限差分導関数（速度）及び２階有限差分導関数（加速度）を用いて計算される。

一実施例では、ＭＲＡＮＥＴは、解析のためのビデオ・クリップを受け取ることと、クリップ内のフレームに畳み込みニューラル・ネットワーク・メカニズム（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を適用して、クリップ内の各フレームに対して４Ｄ埋め込みテンソルを生成することと、クリップ内のフレームのそれぞれに多重解像度畳み込みニューラル・ネットワーク・メカニズム（ＣＮＮ）を適用して、削減解像度ブロックのシーケンスを生成することと、ブロック内の動作の量を推定する運動学アテンション重みを計算することと、クリップ内の各フレームに対して埋め込みテンソルにアテンション重みを適用して、解像度におけるクリップ内のすべてのフレームを表す重み付けられた埋め込みテンソル、すなわち、コンテキストを生成することと、すべての解像度にわたるコンテキストを結合して、多重解像度コンテキストを生成することと、３Ｄプーリングを実行して、１Ｄ特徴ベクトルを取得することと、特徴ベクトルに基づいてビデオ・クリップの一次行動を分類することとを行うことにより、ビデオ・クリップ内に現れる行動を分類する。

本発明の非限定的且つ非網羅的な実施例は、以下の図面を参照して説明される。図面において、同様の参照符号は、特に指定されない限り様々な図面を通して同様の部分を指す。

本発明をより良く理解するために、添付の図面と関連付けて読まれるべきである、以下の発明を実施するための形態を参照されたい。

ビデオ・クリップ内に現れる行動を解析及び分類する多重解像度アテンション・ネットワーク（ＭＲＡＮＥＴ）の一般化ブロック図である。画像、及び４つの連続的な低解像度バージョンにおけるその特徴表現の一実例を提供する図である。ＭＲＡＮＥＴを使用してビデオ・クリップ内の行動を分類する方法の一実施例を示す図である。ＭＲＡＮＥＴによって実行される全体的なアーキテクチャ及び処理ステップを示す図である。ＭＲＡＮＥＴによって生成される、ブロックと呼ばれる多重解像度表現を示す図である。各削減解像度表現に関して最終的なコンテキスト（アテンション重み）を生成するために、多重解像度アテンション・メカニズムによって実行される処理を説明する図である。

図面は、例示の目的で本発明の実施例を示しているに過ぎない。当業者は、本明細書で示される構造及び方法の代替実施例が、本明細書で説明される本発明の原理から逸脱することなく採用され得ることを、以下の説明から容易に理解するであろう。

本発明は、ここで、本明細書の一部を形成し、例示のために、本発明が実行され得る特定の例示的な実施例を示す、添付の図面を参照して以下でより完全に説明される。しかしながら、本発明は、多くの異なる形態で具現化されてよく、本明細書に記載の実施例を限定するものとして解釈されるべきではない。むしろ、これらの実施例は、本開示が徹底的且つ完全となり、本発明の範囲を当業者に完全に伝えるように提供される。とりわけ、本発明は、方法、プロセス、システム、ビジネス方法又はデバイスとして具現化され得る。したがって、本発明は、完全にハードウェアである実施例、完全にソフトウェアである実施例、又はソフトウェアの態様とハードウェアの態様とを組み合わせた実施例の形態を取ることができる。したがって、以下の詳細な説明は、限定的な意味で取られるべきではない。

本明細書で使用される場合、次の用語は、以下で与えられる意味を有する。

ビデオ・クリップ、クリップ、又はビデオ－複数のフレームを含むビデオのセグメントを指す。本明細書で使用される場合、ビデオは、一次行動を含む。

対象者－ビデオ・クリップ内で捕捉される行動を実行する人を指す。

人物行動又は行動－人によるビデオ・クリップ内の動きを指す。本発明は、人物行動に焦点を当てているが、本発明は、そのように限定されておらず、動物、及び自動車、ボールなどの無生物物体にも適用され得る。

姿勢又は人物姿勢－ビデオ・フレーム内の対象者の身体を指す。姿勢は、身体全体、又は、例えば、頭部のみなどの部分的身体を含んでもよい。

ＶＨＡＲ－ビデオ内で実行される行動に基づいて人物行動を認識又は分類することを目的とする、コンピュータ・ビジョンにおける基本タスクである、ビデオ人物行動認識を指す。

機械学習モデル－構造化及び／又は非構造化データ入力を取り、予測又は結果を生成する、アルゴリズム又はアルゴリズムの集合を指す。予測は、典型的には、値、又は値のセットである。機械学習モデルは、やり取りを行い結果を生み出す、１つ又は複数のコンポーネント・モデルをそれ自体が含んでもよい。本明細書で使用される場合、機械学習モデルは、ビデオ・クリップを入力データとして受け取り、既知の検証データ・セットに対する推定値又は予測を生成する、畳み込みニューラル・ネットワーク又は別のタイプの機械学習メカニズムを含む、ニューラル・ネットワークを指す。典型的には、モデルは、モデルの連続的な実行を通して訓練される。典型的には、モデルは、訓練段階中は連続的に実行され、成功裏に訓練された後は、新規のデータを評価し、予測を行うために、操作上で使用される。この訓練段階は、成功指標を予測できる許容可能なモデルを得るために、数千回実行され得るということを強調しておかねばならない。また、モデルは、数千、又は数万にも上る特徴量を発見する場合がある。そして、これらの特徴量の多くは、入力データとして提供される特徴量とは全く異なり得る。したがって、モデルは、事前に知られておらず、精神的努力のみで算出を行うことは不可能である。

予測－本明細書では、ビデオ・クリップ内の行動が特定の行動クラス又は行動のカテゴリに属する、統計的推定値、すなわち、推定確率を指す。予測はまた、多くの個々のクラスを含む分類システム内の各クラス又はカテゴリに割り当てられた推定値又は確率を指してもよい。例えば、ＤｅｅｐＭｉｎｄ社のデータ・セットであるＫｉｎｅｔｉｃｓ４００は、それぞれが、行動分類、又は行動分類セットと呼ばれる、４００の異なる人物行動又は行動クラスのセットに分類される、最大６５０，０００のビデオ・クリップを提供する、一般的に使用される訓練用データセットである。

一般化された操作
本発明のいくつかの態様の操作が、図１～図３に関して以下に説明される。

図１は、ビデオ・クリップ内の行動を解析及び分類する多重解像度アテンション・ネットワーク（ＭＲＡＮＥＴ）システム１００の一般化ブロック図である。ＭＲＡＮＥＴサーバ１２０は、ＭＲＡＮＥＴ１２５とも呼ばれる、ＭＲＡＮＥＴ機械学習アーキテクチャ１２５をコンピュータ操作又は実行する。ＭＲＡＮＥＴサーバ１２０は、解析のために、本明細書ではｘ^ｃとして参照される、ビデオ・クリップを提供するデータ・ソース１３０にアクセスする。ビデオ・クリップは、モデルの訓練中に使用されてもよいし、解析及び分類のために操作上で使用されてもよい。例えば、ＧＯＯＧＬＥ社によって運営されるウェブサイトであるＹＯＵＴＵＢＥ（登録商標）．ＣＯＭが、データ・ソース１３０のうちの１つであってもよい。他のデータ・ソース１３０は、テレビ・チャンネル、映画、及びビデオ・アーカイブを含んでもよい。典型的には、ＭＲＡＮＥＴサーバ１２０は、ネットワーク１４０にわたるデータ・ソース１３０からのビデオ・クリップにアクセスする。

ユーザは、ＭＲＡＮＥＴアーキテクチャ１２５を訓練するために、ＭＲＡＮＥＴサーバ１２０とやり取りを行い訓練用ビデオ・クリップを特定及び提供する。典型的には、ユーザは、ユーザ・コンピュータ１１０上で実行するユーザ・アプリケーション１１５とやり取りを行う。ユーザ・アプリケーション１１５は、ネイティブ・アプリケーション、ＭＯＺＩＬＬＡ社のＦＩＲＥＦＯＸ若しくはＧＯＯＧＬＥ社のＣＨＲＯＭＥなどのウェブ・ブラウザ内で動作するウェブ・アプリケーション、又はスマートフォンなどのモバイル・デバイス内で実行するアプリであってもよい。

ユーザ・コンピュータ１１０は、ラップトップ・コンピュータ、デスクトップ・パーソナル・コンピュータ、スマートフォンなどのモバイル・デバイス、又はＭＲＡＮＥＴサーバ１２０にアクセスするために、ネットワーク１４０上でやり取りを行うことができるプログラムを実行する任意の他のコンピュータであってもよい。一般に、ユーザ・コンピュータ１１０は、スマート・フォン、パーソナル・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、又は、プロセッサ、プログラム命令及びデータを記憶するための非一時的メモリ、ディスプレイ、並びにキーボード及びマウスなどの対話型装置を備えた他のコンピュータ・システムであってもよい。

ＭＲＡＮＥＴ１２５は、典型的には、データを記憶し、図２及び図３Ａ～図３Ｂを参照して以下に説明するＭＲＡＮＥＴ法を実行する。ＭＲＡＮＥＴサーバ１２０は、単一のサーバ・コンピュータによって、協働して機能する複数のサーバ・コンピュータによって、又はネットワーク・サービス、若しくはクラウド・サービス・プロバイダによって提供される「クラウド」サービスによって実装されてもよい。ＭＲＡＮＥＴサーバ１２０として動作し得るデバイスは、限定されないが、パーソナル・コンピュータ、デスクトップ・コンピュータ、マルチプロセッサ・システム、マイクロプロセッサベースの又はプログラム可能な家電製品、ネットワークＰＣ、サーバ、ネットワーク機器などを含む。

ネットワーク１４０は、ユーザ・コンピュータ１１０及びＭＲＡＮＥＴサーバ１２０がデータ及びメッセージを交換することを可能にする。ネットワーク１４０は、ローカル・エリア・ネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ワイド・エリア・ネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、直接接続、それらの組合せなどに加えて、インターネットを含んでもよい。

多重解像度アテンション・ネットワーク
教師あり機械学習モデルは、分類セットにおける各クラスに関してスコア又は確率推定値を提供する。スコア（確率）は、ビデオ・クリップがクラス・メンバによって表される行動を含む尤度を示す。最も高いスコアを持つクラスは、単一の予測が必要とされる場合に選択され得る。このクラスは、対象者によって実行される、ビデオ・クリップ内で発生した可能性が最も高い行動を表すとみなされる。各クリップに対して一次クラスが分かっているビデオ・クリップの検証データセットは、データセットからの異なるクリップによって連続的にモデルを操作し、各連続モデル実行によってモデルを調整して誤差を最小限に抑えることによってモデルを訓練するために使用される。

ＭＲＡＮＥＴは、ビデオベースの人物行動認識（ＶＨＡＲ）のための深層エンドツーエンド多重解像度アテンション・ネットワーク・アーキテクチャである。図３は、ＭＲＡＮＥＴ１００によって実行される全体的なアーキテクチャ及び処理ステップを示す図である。第１の学習ステップにおいて、ＭＲＡＮＥＴ１００は、ビデオ・クリップのフレーム単位での解析を実行して空間行動表現をカプセル化する。特定の実施例では、畳み込みニューラル・ネットワーク（ＣＮＮ）モデル又はメカニズムが埋め込みモデルとして使用され、このモデルは、ビデオ・フレームを処理して特徴量を抽出する。特定の実施例では、ＣＮＮ実装である、ＲｅｓＮｅｔ、すなわち残差ネットワーク（ｒｅｓｉｄｕａｌｎｅｔｗｏｒｋ）が使用される。ＲｅｓＮｅｔは、画像認識及び分類に有効であることが確認されている。しかしながら、様々な市販のＣＮＮモデル、バックボーン・アーキテクチャ、又は画像分類に逐次的に使用され得る画像特徴量を抽出する他の処理システムが使用されてもよい。特定の実施例では、ＩｍａｇｅＮｅｔデータセットに対して事前訓練されたＲｅｓＮｅｔモデルが埋め込みモデル（ＥＭ：ｅｍｂｅｄｄｉｎｇｍｏｄｅｌ）として使用される。クリップ内のＴ個のフレームのそれぞれが、特徴量抽出のためにＣＮＮ３０２にサブミットされる。典型的には、ＣＮＮ３０２は、ＲｅｓＮｅｔ１８などの市販のＣＮＮモデルである。ＣＮＮ３０２は、ビデオ・クリップｘ^ｃ内のｔ個のフレームのそれぞれを逐次的又は並列に処理し、各フレームの出力として埋め込みテンソルｅ_ｔを生成する。

一例として、平均プーリングの前にＲｅｓＮｅｔＣＮＮによって生成された最後の畳み込み層が、出力埋め込みテンソルｅ_ｔとして使用され、その後さらなる処理のために使用されてもよい。形式的には、ＥＭは、ビデオ・クリップの行動力学を、特徴ボリューム又は４Ｄ埋め込みテンソル（Ｅ）で表し、Ｅは、式１において次のように定義される。
Ｅ＝［ｅ_１，…，ｅ_ｔ，…，ｅ_Ｔ］式１
ここで、Ｅは形状Ｅ∈Ｒ^{Ｔ×ｇ・Ｆ・Ｎ×Ｍ}を有し、Ｔはクリップ内のフレーム数であり、Ｆは埋め込みテンソルにおけるチャネル又は特徴量の数であり、Ｎ×Ｍは切り取られた画像寸法（次元）（ｉｍａｇｅｄｉｍｅｎｓｉｏｎｓ）、すなわち、空間サイズであり、ｇはＲｅｓＮｅｔモデルのチャネルの総数を増加させるスケール因子である。一般に、画像寸法（次元）は、Ｎ×Ｍ、すなわち、幅Ｎ、及び高さＭの画像として表される。したがって、［ｅ_１，…，ｅ_ｔ，…，ｅ_Ｔ］のそれぞれは、その次元が、（Ｎ×Ｍ）フレームにおける幅及び高さの値として指定される空間ロケーション、並びにＦ個のチャネルのそれぞれに関して１つの値を持つ特徴量の値のセットである、３Ｄテンソルである。

行動表現の第２のステップは、図４を参照してさらに詳細に説明される、多重解像度モデル（ＭＲＭ：ｍｕｌｔｉ－ｒｅｓｏｌｕｔｉｏｎｍｏｄｅｌ）アーキテクチャを使用して、シーンの精細－粗（ｆｉｎｅ－ｔｏ－ｃｏａｒｓｅ）表現を生成する。複数の解像度における画像の詳細は、ＭＲ空間内の異なるサイズ又は周波数及び配向における別個の物理的構造を特徴付ける。例えば、粗い解像度（この実例ではＷ^３）において、低周波数は、大きい物体構造に対応し、画像の「コンテキスト」を提供する。代替として、よりきめ細かいレベルのモデルの解像度層（Ｗ^０、Ｗ^１、Ｗ^２）は、小さい物体構造（詳細部）から学習する。ＭＲＭの利点は、シーン内の物体を検出するために、バウンディング・ボックスも人物姿勢モデルも必要としないことである。

図２は、画像、及び４つの連続的な低解像度バージョンにおけるその特徴表現の一実例を提供する。表現Ａは、初期の入力画像を示す。表現Ｂは、最も高い解像度における画像の、すなわち、最高解像度の特徴表現Ｗ^０を示す。表現Ｃは、１／２の解像度の画像における特徴表現Ｗ^１を示す。表現Ｄは、初期画像の１／４の解像度の特徴表現Ｗ^２を示す。そして、表現Ｅは、初期画像表現の１／８における特徴表現Ｗ^３を示す。これらの表現は、本質的には、ＣＮＮモデルの中間層であり、Ｂ～Ｅに示される抽出特徴量は、通常、実世界の特徴量に対応しないことが諒解され得る。

本明細書では、多重解像度アテンション（ＭＲＡ：ｍｕｌｔｉ－ｒｅｓｏｌｕｔｉｏｎａｔｔｅｎｔｉｏｎ）と呼ばれる、時空間アテンション・メカニズムは、運動学モデルを使用して運動学アテンション重みのベクトルを計算する。運動学アテンション重みは、アテンション・メカニズムに時間回帰計算を追加し、長さのある逐次モデリングを可能にする。これは、時間ｔにおいて記録された画像について計算された重みが、時間ｔ－１において記録された重み及び／又は画像に基づいて計算されることを意味する。ＭＲＡは、多重解像度コンテキストにおける各人物行動をカプセル化する。最後に、行動認識ステップでコンテキストをスタックし、それらを分類器にかけて最終的な予測を行う。モデル全体が微分可能であり、したがって、標準的なバックプロパゲーションを使用してエンドツーエンドでモデルを訓練することが可能であることに留意されたい。新規性の１つの領域は、アテンション重みの多重解像度空間における回帰の使用である。

行動のパラメータ化
行動のパラメータ化は、ビデオ・クリップ内の対象者によって実行される行動をモデル化、すなわち、特定する。図３に戻ると、モデルは、生の入力ビデオ・クリップが、

として参照されるＴ個のビデオ・フレームのシーケンスを生成するために、前処理されていると仮定する。クリップのそれぞれは、ＣＮＮ３０２及び多重解像度モジュール（ＭＲＭ：ｍｕｌｔｉ－ｒｅｓｏｌｕｔｉｏｎｍｏｄｕｌｅ）３０４に提供される。

形式的には、ビデオ・クリップは、４Ｄテンソルｘ^ｃによって以下のように説明される。

ここで、ｘ^ｃ∈Ｒ^{Ｔ×３×Ｗ×Ｈ}は、シーン内の運動力学をカプセル化するビデオ・クリップであり、Ｔはフレーム数、すなわち、クリップ内の２Ｄ画像の数であり、Ｗはピクセルにおけるフレーム幅、すなわち、別の次元を指し、Ｈはフレーム高さを指し、３の値は、各ピクセルに対し、赤、緑、及び青の値があるＲＧＢなどの３値色空間を指す。また、ｘ^ｃ _ｔ∈Ｒ^{３×Ｗ×Ｈ}は、ビデオ・クリップにおけるｔ番目のフレームである。各フレームは、主行動ｃを含み、ここで、ｃはフレームのクラス、すなわち、フレームが、分類器によってどのように分類されるのか、又は訓練セットによってどのようにラベル付けされるのかを指し、Ｃはクラスの数である、と仮定する。式２の右辺は、平均フレーム（

）を表す。バッチ・サイズは、表記を簡略化するために省略されている。ＭＲＡ３００の結果は、行動分類である、ロジットとしても知られる

として参照される、推定値又は予測された行動クラス・スコアである。

空間解析のための多重解像度モデル
図３を再び参照すると、多重解像度モデル（ＭＲＭ）３０４は、ＲｅｓＮｅｔモデルを実装して、ｘ^ｃの各フレームの精細－粗ＭＲ表現｛Ｗ^ｊ｝，｛ｊ＝０，１，２，…，Ｓ－１｝を構成し、ここでＳはＭＲ空間の削減像度表現の数、すなわち、次元を表す。本質的には、式３は、各クリップのフレーム単位でのＭＲ分解を再帰的に計算する。そのため、Ｗ^ｊは、ＭＲ空間におけるクリップ表現である、

として記述することができ、ここで

である。したがって、各Ｗ^ｊは、画像を表す３Ｄテンソルであり、Ｗは、Ｔ個の画像のクリップを表す４Ｄテンソルである。

図４は、ＭＲＭ３０４によって生成される、ブロックと呼ばれる多重解像度表現を示す。これは、それぞれが、典型的にＣＮＮモデルとして実装される、４つの別個のモデルが示されている。クリップｘ^ｃのビデオ・フレーム

から始めて、第１のモデル４０２はフル解像度表現ブロックＷ^０を作成する。第２のモデル４０４は、Ｗ^０に基づいて、１／２解像度ブロックＷ^１を生成する。第３のモデル４０６は、Ｗ^１、Ｗ^０に基づいて、１／４解像度ブロックＷ^２を生成する。第４のモデル４０８は、Ｗ^２、Ｗ^１、Ｗ^０に基づいて、１／８解像度ブロックＷ^３を生成する。図３ではＭＲＭ３０４の処理が４つの連続した削減解像度ブロックを生成するように示されているが、本発明はそのように限定されておらず、ＭＲＭモデルは、任意の数の削減解像度を生成するように適合され得る。また、連続した削減は、前の解像度の１／２であることに限定されていない。例えば、表現は、前の表現の１／３又は１／８の解像度であってもよい。

以下の表１は、評価済みの複数のＭＲＭアーキテクチャを示す。表１によって定義されるＭＲブロック［Ｗ０，Ｗ１，Ｗ２，Ｗ３］は、事前活性化ＲｅｓＮｅｔ１８モデルを使用して生成されてもよい。ただし、Ｃｏｎｖ１層は、ＲｅｓＮｅｔモデルによって使用される標準カーネルである（７×７）の代わりに、ｋ＝（３×３）を使用するという違いがある。

削減解像度ブロックを計算するためにＲｅｓＮｅｔＣＮＮを使用することに加えて、平均化、補間、及びサブサンプリングなどの他の技法が使用されてもよい。

出力フレーム・サイズ（Ｎ×Ｍ）は、それぞれの連続解像度Ｗ^ｊにおいて１／２だけ削減される。したがって、表１の実例において、入力データｘ^ｃのフレーム・サイズが、Ｖ^０＝１１２×１１２のとき、Ｗ^０のフレーム・サイズは５６×５６、Ｗ^１は２８×２８、などとなる。

モデルのアーキテクチャは、事前活性化ＲｅｓＮｅｔ１８からヒントを得ている。ただし、１つ違いがあり、初期Ｃｏｎｖ層（前処理入力）は、ｋ＝（７×７）の代わりに、カーネルｋ＝（３×３）を使用する。アーキテクチャの構造の残りの部分は、チャネル及びブロックの数以外は、ＲｅｓＮｅｔ１８モデルと同様である。チャネル及びブロックの数は、元のＲｅｓＮｅｔ１８の実装と目標性能（乗算及び加算演算が少ないためより高速の計算）又は精度に対して異なり得る。例えば、ＲｅｓＮｅｔ１８アーキテクチャを使用して、よりチャネル数が少なく、したがって乗算及び加算演算の量を低減する浅いモデルを構築してもよい。

上では、ＭＲブロック［Ｗ_０，Ｗ_１，Ｗ_２，Ｗ_３］を作成するためのＣＮＮネットワーク・アーキテクチャを中心に論じているが、Ｗ０を作成するために使用するアーキテクチャと同一のＣＮＮネットワーク・アーキテクチャが、埋め込み出力［ｅ_１，…ｅ_Ｔ］を生成するために使用されてもよい。すなわち、類似又は同一の事前活性化及び畳み込みステップが使用されてもよい。

時間モデリング
ＭＲ処理の後、４ＤテンソルＷは、アテンション・モデルにかけられる。学習の第１のステップとして、アテンション・モデルは、アテンション重みのベクトルを計算する。これらのアテンション重みは、クリップにおけるフレーム間の動作を反映するため、運動学アテンション重みとも呼ばれ得る。まず、このメカニズムは、ドット積類似度、及びそれに続く２Ｄプーリング演算を使用してＲ^３Ｄ＝＞Ｒの高次元削減を実行する。次に、メカニズムは、（例えば、ソフトマックス関数を使用して）正規化を実行して範囲［０，１］に重みを強制する。最後に、アテンション・モデルは、正規化重みとモデルの埋め込みＥとの間で線形結合又は重み結合を実行し、コンテキストを計算して最終的な予測を行う。

運動学アテンション重み
埋め込みモデル出力Ｅのフレームに適用され得るアテンション重みを計算するために、様々な代替手法が使用されてもよい。以下に、アテンション重みを計算するための４つの代替公式、すなわち、（１）前進速度、（２）後退速度、（３）、後退加速度、及び（４）絶対位置を提示する。

動作クリップが与えられると、回帰計算を使用して、時間ｔ＋１の姿勢が、前の時間フレームｔにおける姿勢に対して感受性を持つようにすることで人物ポスチャの時間依存性をモデル化することができる。これを達成するために、速度又は加速度の推定値を使用して、有限差分導関数を用いて運動学アテンション重みを算出してもよい。追加のモデルが、速度又は加速度が必要とされない位置的アテンション重みを計算する。運動学アテンション重みにより、モデルが、前のフレームにおける姿勢を追跡しながら、時間ｔにおける姿勢に注目することを学習することが可能となる。

数学的には、時間ｔにおける運動学アテンション重みは、前進及び後退速度とも呼ばれ得るその１階有限導関数、並びに後退加速度とも呼ばれ得るその２階有限導関数から以下のように推定されてもよい。

絶対値

において、ｔは、ビデオ・クリップ内のフレームのインデックスである。ビデオ・クリップは、時間次元における固定グリッド間隔を有する、すなわち、Δｔ＝１、すなわち、（Δｔ＝ｔ＋１－ｔ＝１）であると仮定されるため、時間ｔ－１、ｔ、及びｔ＋１は、クリップからの３つのフレームの時系列を指す。同様に、２階導関数は、その前進及び中心バージョンによって表現される。オンライン計算に非常に好適であるため、２階導関数の後退表現が使用される。実際、時間ｔにおける行動を予測するために、これは過去の情報のみを使用する。時間ｔにおけるポスチャは、前の時間ステップにおけるポスチャに対して計算されるため、式４、式５及び式６はそれぞれ、相対位置におけるビデオ・フレームのシーケンス内のポスチャ又は行動を追跡する。

一方、下の式７は、以下のように、絶対位置に基づいてポスチャを追跡する。

１階近似の１つの潜在的な副作用は、ストライド－畳み込み演算によって増幅され、精度の劣化をもたらし得る、エイリアシング（高周波数）の加算である。任意の入力信号におけるアンチエイリアシングに対するよく知られた解決策は、そのダウンサンプリング前のローパス・フィルタリングである。この操作は、勾配演算子に対して、又はストライド畳み込み演算に対して、のいずれかで実行され得る。一実施例では、ローパス・フィルタリングは、中心差分導関数の１階近似を使用して勾配演算子に対して実行される。一様グリッドに対して、またテイラー展開を使用して、以下の式８において与えられるように、前進－後退導関数（式４及び式５）を合計することにより、中心導関数を解析的に計算することができる。

式４、式５、及び式８は、２つの時点のみにおける情報を使用するが、式８は、二次収束を提供する。実際には、式８は、前進又は後退差分よりも高い精度の結果をもたらす。また、式７は、非時間依存的な特性を持つ（すなわち、シーケンスの順序に関する情報を提供しない）ことも観測され得る。したがって、式７を使う場合、アテンション・メカニズムは、長い範囲にわたるシーケンスをモデル化するのが困難である場合がある。したがって、フレーム間に相対的な順序を課すために、基準フレームが追加されてもよい。特定のフレームを使用する代わりに、以下の式９を使用してアテンション重みが中心化されてもよい。

ここで、

は、平均フレームを中心とした整列モデル

である。また、以下の式１０、式１１及び式１２を使用して速度及び加速度も整列される。

ここで、

である。空間解像度の特徴量のトレードオフは、ＲｅｓＮｅｔＣＮＮモデルの標準に従うことに留意されたい。

式４～式７に提示される非中心化アテンション重みモデルは、多くの場合、許容可能な結果をもたらし得るが、式９～式１２において提示されるこれらの式の再整列バージョンは、より高い精度をもたらすことが示されている。再整列の結果として、アテンション重みは、平均からの短い動作変位に対して小さくなり、より長い変位に対して大きくなる。言い換えれば、モデルは、フレーム単位での戦略を使用して、クリップの最も有益な情報部分に注意を払うと共に、フレームに対応する動きの変動性（量）を反映した、各フレームに対する重みを割り当てることを、自動的に学習する。

したがって、図３を再び参照すると、運動学テンソルとも呼ばれる、ＭＲＭ３０４からのテンソル出力である、ｊ＝０，…，Ｓ－１に対するＭＲ分解

の生成で使用するために、式９～式１２のいずれかが選択され得る。代替として、式９～式１２によって表される公式のうちの１つを選択するのではなく、これらを組み合わせてテンソル出力Ｗ^ｊが生成されてもよい。例えば、式のそれぞれからの結果は、加算、平均化、又はスタックされて、線形ＣＮＮ層を通されてもよい。

図５は、各解像度に対して最終コンテキストｃｔｘ又はアテンション重みを生成するために、ＭＲＡ３１０、３１２、３１４及び３１６によって実行される処理を説明する。

ステップ５０４では、ＭＲＭ３０４によって生成された運動学テンソルをスタックしてブロックを作成する。同様に、ステップ５０２では、以下でステップ５１０に関して説明するように、ＣＮＮ３０２の埋め込み出力が、後の使用のためにスタックされる。

次に、ステップ５０６では、３Ｄプーリングを用いて、以下の式１３を使用して運動学テンソルの次元を削減する。

は、時間ｔ及び解像度ｊにおけるフレームに対するアテンション重みである。

は、アテンション重みのどの公式化が使用されているかによって異なる、相対又は絶対的なフレーム単位の運動学テンソルである。３Ｄプーリング（平均化）は、２Ｄ空間次元（Ｎ×Ｍ）並びに特徴量次元（Ｆ）を排除する（縮小する）。

ステップ５０８において、アテンション重み

を正規化して正規化されたアテンション・ベクトル

を作成する。これを達成するために、ソフトマックス及びベクトル・ノルムを適用して

のように最終的な運動学アテンション重みを計算する。ここで

は、ソフト運動学アテンション・ベクトルであり、構成上、各解像度ｊに対して

である。｜・｜は絶対値を表し、｜｜・｜｜はベクトル・ノルム演算を示す。

は、単一の運動学アテンション重みベクトルであり、これは、アテンション・メカニズムが行動コンテキストを計算するときにモデル出力にエネルギー（スケーリング）が加算されないことを意味する。正の重みは、同様の変位を伴う左右の行動に対して並進不変性を強制することに留意されたい。一般に、ソフト運動学アテンション・ベクトル

（又は単にアテンション・ベクトル）は、各フレームｔに対して、特定の解像度ｊにおけるＴ個のフレームを持つクリップ内のフレームの相対寄与度又は重要度を指定するアテンション重みを提供する。

他の次元削減法も存在し、式１４において示した重みを計算するために使用されてもよい。例えば、フィルタの次元を削除すると共に、（Ｎ×Ｍ）空間ロケーションに対して２階統計量（平均プーリング）を適用するために、ドット積類似度（ｗ＾_ｔ ^ｊ）^＞ｗ＾_ｔ ^ｊが使用されてもよい。別の解決策としては、全結合層を使用して一連の線形変換を適用してテンソルの次元（ｗ＾^ｊ）を削減すると共に、ソフトマックス関数を使用して重みを正規化するものがあり、これはドット積の解決策と類似している。

ソフト・アテンション及び残差アテンション
式１５において以下に与えられるように、アテンション・ベクトル

と、ＥＭ、すなわち、ＣＮＮ３０２、Ｅ＝［ｅ_１，…，ｅ_ｔ，…，ｅ_Ｔ］によって生成される埋め込みテンソルとの間の線形結合を計算することにより、言語モデルを使用した古典的な決定論的アテンション・メカニズムを適合してフレーム依存性をモデル化することが可能である。

は、解像度ｊにおけるソフト・アテンションと呼ばれる。前述したｇは、埋め込みモデル（ＥＭ）がＲｅｓＮｅｔ１８か、ＲｅｓＮｅｔ３４のいずれかである場合、ｇ＝１であり、そうでない場合、ｇ＝４であるようなスケール因子である。ソフト・アテンションは、解像度ｊにおけるビデオ・クリップ行動のコンテキストをカプセル化する。すなわち、式１５は、Ｔ個のフレームから、様々なフレームがアテンション重みによって重み付けられた単一のフレームに埋め込みを削減する。したがって、式１５は、各解像度ｊに対して、アテンション重みが適用された、次元Ｆ×Ｎ×Ｍを持つ、単一の重み付けられた３Ｄテンソルを生成する。本発明は、埋め込みテンソルにアテンション重みを適用する方法として、線形結合を使用することに限定されておらず、他の数学的公式化が使用されてもよい。

式１４において上で計算されたアテンション重みベクトル

は、単一であるが、重みは、常に１つに合計されるとは限らない。

となる平均からの小さい動作変位に関して、勾配の消失を誘発するという潜在的な欠点が現れる。このため、式１５のソフト・アテンション・メカニズムは、学習中に勾配不安定性を導入してもよい。この問題は、残差学習技法を使用して対処される。

残差アテンション・メカニズムは、式１５に埋め込み特徴量を追加することによって構成される。式１５におけるソフト・アテンションと同様に、式１６における残差アテンションは、まず、式１３を使用して、３Ｄプーリングを用いて運動学テンソルの次元を削減し、次いで、式１４を使用してアテンション重みを正規化する。数学的には、これは、

によって与えられ、これは、

と等価である。ここで

のとき、

が埋め込みｅを近似する。言い換えれば、運動学アテンション・ベクトルが同一マッピング

を実行するとき、ＭＲＡモデルの性能は、アテンションなしのモデルと比較して悪くなく、これは、埋め込みモデルのみを使用した場合（図３）と同等である。

スケーリングされた残差アテンション（ＳＲＡ：ＳｃａｌｅｄＲｅｓｉｄｕａｌＡｔｔｅｎｔｉｏｎ）と呼ばれる、最終的なアテンションは、１／Ｔだけスケーリングされ、コンテキストをクリップに対して不変にする。ＳＲＡは、

によって与えられ、ここで、各ｅ_ｔは、３Ｄテンソルｅ_ｔ∈Ｒ^{ｇ・Ｆ・Ｎ×Ｍ}である。

式１５及び式１６はそれぞれ、各解像度ｊに対して、次元Ｆ×Ｎ×Ｍの単一の３Ｄテンソルを計算する。これらは、コンテキストｃｔｘ^ｊと呼ばれるものの代替的公式化である。再び図３を参照すると、ｃｔｘ^ｊは、ＭＲＡ３１０、３１２、３１４、３１６の出力である。

多重解像度アテンション
図３に戻ると、ステップ３２０において、コンテキスト（ｃｔｘ^０，ｃｔｘ^１，…，ｃｔｘ^Ｓ）は、解像度に対してスタックされる。したがって、それぞれが次元ＦＮＭのテンソルであるＳ個の解像度があるため、スタックされたコンテキストは、次元ＳＦＮＭのブロックを生ずる。

次いで、ステップ３２２において、精細－粗コンテキストｃｔｘ^ｊを利用する、多重解像度アテンションが計算される。最終的な多重解像度アテンション（ＭＲＡ）は、以下のように計算される。

ここで、ｃｔｘ^ｊは、式１６によって計算される

か、又は式１５によって計算される

のいずれかとすることができる。ｍｒ_ａｔｔは、次元Ｒ^{ｇ・Ｆ・Ｎ×Ｍ}を持つ３Ｄテンソルであることに留意されたい。

ＭＲＡは、マルチヘッド・アテンションに類似しているが、２つの主な違いがある。第１に、解像度を連結する代わりに、多重解像度は、滑らかな特徴量を有するようにスタック及び平均化される。第２に、多重解像度表現は、シーンを異なる物理的構造として見る。この精細－粗表現により、アテンション・モデルが、まず、最高解像度表現における画像詳細部（小さい物体）に焦点を当て、次いで、漸進的により粗くなる（より低解像度の）各表現において、様々なスケールにわたって残るより大きい構造に焦点を当てることを、自動的に学習することが可能となる。

従来のアテンション重みモデリングとは異なり、ＭＲＡ３１０、３１２、３１４及び３１６を実施する方法５００は、様々な解像度におけるクリップ内の画像の特徴表現に基づいてアテンション重みを生成する。したがって、最終的なコンテキストを生成する際に、特定の解像度では明らかとなり得るが、他の解像度ではそうでないことがある特徴量が考慮される。

次に、ステップ３２４において、時間及び空間次元を平均化する、すなわちＮ×Ｍ×Ｔを削減する、３Ｄプーリング演算が実行される。このステップは、式１３を使用して実行され得る。時間（Ｔ）及び空間（Ｎ×Ｍ）次元を縮小することにより、要素がＦ個の特徴量のそれぞれに対して正規化され、重み付けられた値又はスコアである、単一の１×Ｆ特徴ベクトルが得られる。

特定の実施例では、１×Ｆ特徴ベクトルに対してドロップアウト３２６の操作が実行される。例えば、特徴量の数に対して訓練データが比較的少量であるため、モデルのオーバーフィッティングが考慮事項となる場合、ドロップアウト３２６が実行されてもよい。ドロップアウト３２６は、例えば、訓練中にモデルが実行される度に適用され得る。一般に、ドロップアウト３２６は、推定値を生成するのに十分なデータがない場合に特徴量を排除する。ドロップを実行する１つの方法が、非特許文献１に記載されている。

最後のステップは、分類３２８と呼ばれる。すなわち、クラスのセットからの単一のクラスが、特徴ベクトルに基づいて入力ビデオｘ^ｃの一次行動として選択される。分類セットにおけるクラスの数は、特徴量の数と等しくない場合があるため、分類セットにおける各クラスに対してスコアを持つ分類ベクトルを生成する、線形変換がこのステップにおいて実行される。このステップは、線形変換を使用して実行されるため、線形化とも呼ばれ得る。典型的には、

とも呼ばれ得る最も高い値又はスコアを持つクラスが、推定値又は選択されたクラスである。

行動認識－モデル訓練
多重解像度アテンションが計算を終えると、ＭＲＡネットワークは、行動のコンテキストから人物行動を認識することを学習する。ロジットは、

としてモデルのフォワード・パスから計算される生の非正規化モデル予測のベクトルである（ここで、θはニューラル・ネットワーク・パラメータ（すなわち、重み）を表し、ｘ∈Ｘである）ため、モデルは、負のクロスエントロピー・ログ損失を最小限に抑えることによって訓練される。モデルの重みを反復的に学習するために、以下で式１８に与えられるように、ＳＧＤＭと呼ばれる、モメンタム（ｍｏｍｅｎｔｕｍ）を伴う確率的勾配降下法（ＳＧＤ：ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）などの方法が適用される。また、ＡｄａｍやＲＭＳＰｒｏｐなどのアダプティブ法を含む、他の方法が適用されてもよい。
θ_ｉ＋１＝θ_ｉ－λ（βｖ_ｔ＋∇_θＬ（θ_ｉ））式１８
ここで、β∈［０，１］はモメンタムであり、λは、学習率であり、ｖ_０は、０に初期化される。ＳＧＤの１つの欠点は、すべての方向で勾配スケーリングが一様であり、学習率のチューニングに困難を呈することである。本明細書では線形学習率（ＬＬＲ：ｌｉｎｅａｒｌｅａｒｎｉｎｇｒａｔｅ）更新と呼ばれる新規な解決策が以下に提示される。

ＬＬＲは、学習率を初期化し（例えば、λ＝１０^－２）、いくつかのエポック後にそれを１０分の１に下げる。一般に超収束と呼ばれる、別の実施例では、循環学習率（ＣＬＲ：ｃｙｃｌｉｃａｌｌｅａｒｎｉｎｇｒａｔｅ）更新を用い、これは、訓練を高速化し、モデルを正則化する。

上記の明細書、実例、及びデータは、本発明の構成物の製造及び使用の完全な詳細を提供する。本発明の精神及び範囲から逸脱することなく本発明の多くの実施例がなされ得るため、本発明は、以下に添付される特許請求の範囲に存在する。

Claims

ビデオ・クリップ内に現れる行動を分類するためのコンピュータ実施方法であって、
解析のためのビデオ・クリップを受け取るステップであって、前記ビデオ・クリップが時系列のビデオ・フレームを含む、ステップと、
前記クリップ内の前記フレームに畳み込みニューラル・ネットワーク・メカニズム（ＣＮＮ）を適用して前記クリップ内の各フレームに対して４Ｄ埋め込みテンソルを生成するステップであって、４つの次元が、前記クリップ内のビデオ・フレームのシーケンスによって表される時間、特徴量、画像幅及び画像高さである、ステップと、
前記クリップ内の前記フレームのそれぞれに多重解像度畳み込みニューラル・ネットワーク・メカニズム（ＣＮＮ）を適用して削減解像度運動学テンソルのシーケンスを生成するステップであって、各運動学テンソルが削減解像度のうちの１つにおけるフレームを表す、ステップと、
各削減解像度運動学テンソルに対して、前記削減解像度における対応するビデオ・クリップ内の動作の量を推定する運動学アテンション重みを計算するステップと、
各解像度に対して、クリップ内の各フレームに対する前記埋め込みテンソルに前記アテンション重みを適用して、前記解像度における前記クリップ内のすべての前記フレームを表す、コンテキストと呼ばれる、重み付けられた埋め込みテンソルを生成するステップと、
すべての解像度にわたる前記コンテキストを結合して多重解像度コンテキストを生成するステップと、
多重解像度アテンションの３Ｄプーリングを実行して１Ｄ特徴ベクトルを取得するステップであって、前記特徴ベクトルにおける各値が、対応する特徴量の相対的重要度を示す、ステップと、
前記特徴ベクトルに基づいて前記ビデオ・クリップの一次行動を分類するステップと
を含む、コンピュータ実施方法。
前記特徴ベクトルに基づいて前記ビデオ・クリップを分類するステップが、行動分類セットにおける各行動クラスに対する確率を計算するステップを含み、行動クラス確率が、対応する行動が前記ビデオ・クリップ内で発生した尤度を指定する、請求項１に記載の方法。
各行動クラスに対する確率を計算するステップが、前記１Ｄ特徴ベクトルと、前記行動分類セットを表す１Ｄ行動クラス・ベクトルとの間に線形変換を実行して、前記行動分類セットにおける各クラスに対する確率を得るステップを含む、請求項２に記載の方法。
１つ又は複数の特徴量を排除するドロップアウト・メカニズムを前記特徴ベクトルに適用するステップをさらに含む、請求項１に記載の方法。
それぞれの連続する削減解像度埋め込みテンソルが、前の削減解像度埋め込みテンソルの１／２の解像度である、請求項１に記載の方法。
前記削減解像度運動学テンソルに多重解像度アテンション・メカニズムを適用するステップが、
前記対応するビデオ・フレーム内の各空間ロケーションにおける前記動作を表す各解像度の各フレームに対するテンソルを計算するステップと、
前記幅、高さ及び特徴量の次元を縮小する、３Ｄプーリング演算を実行して、各解像度における各フレームに対するスカラー・アテンション重みを得るステップと
を含む、請求項１に記載の方法。
多重解像度アテンションの３Ｄプーリングを実行するステップが、前記幅、高さ及び特徴量の次元における前記運動学テンソルを平均化するステップを含む、請求項１に記載の方法。
削減解像度運動学テンソルのシーケンスを生成するステップが、
畳み込みニューラル・ネットワーク演算を実行して新規畳み込み層を生成するステップと、
双線形補間、平均化、重み付け、サブサンプリング又は２Ｄプーリング関数の適用から成る群から選択された技法を使用して、前記新規畳み込み層の前記解像度を削減するステップと
を含む、請求項１に記載の方法。
前記ビデオ内の動作の量を推定する運動学アテンション重みを計算するステップが、
時間ｔに基づく、１階有限導関数、２階有限導関数及び絶対位置から成る群から選択される方法を使用して時間ｔにおけるビデオ・フレームのテンソル表現を生成するステップと、
平均フレーム値を中心として前記テンソル表現を中心化するステップと
を含む、請求項１に記載の方法。
すべての解像度にわたる前記コンテキストを結合するステップが、
各解像度に対する前記コンテキストをスタックするステップと、
各２Ｄ空間ロケーションに対して特徴量の値を有する単一の３Ｄテンソルを計算するステップと
を含む、請求項１に記載の方法。
サーバ・コンピュータであって、
プロセッサと、
前記プロセッサと通信状態にある通信インタフェースと、
ビデオ・クリップを記憶するためのデータ・ストレージと、
前記プロセッサと通信状態にある、命令を記憶するためのメモリであって、前記命令が、前記プロセッサによって実行されると、前記サーバに、
解析のためのビデオ・クリップを受け取るステップであって、前記ビデオ・クリップが時系列のビデオ・フレームを含む、ステップと、
前記クリップ内の前記フレームに畳み込みニューラル・ネットワーク・メカニズム（ＣＮＮ）を適用して前記クリップ内の各フレームに対して４Ｄ埋め込みテンソルを生成するステップであって、４つの次元が、前記クリップ内のビデオ・フレームのシーケンスによって表される時間、特徴量、画像幅及び画像高さである、ステップと、
前記クリップ内の前記フレームのそれぞれに多重解像度畳み込みニューラル・ネットワーク・メカニズム（ＣＮＮ）を適用して削減解像度運動学テンソルのシーケンスを生成するステップであって、各運動学テンソルが削減解像度のうちの１つにおけるフレームを表す、ステップと、
各削減解像度運動学テンソルに対して、前記削減解像度における対応するビデオ・クリップ内の動作の量を推定する運動学アテンション重みを計算するステップと、
各解像度に対して、クリップ内の各フレームに対する前記埋め込みテンソルに前記アテンション重みを適用して、前記解像度における前記クリップ内のすべての前記フレームを表す、コンテキストと呼ばれる、重み付けられた埋め込みテンソルを生成するステップと、
すべての解像度にわたる前記コンテキストを結合して多重解像度コンテキストを生成するステップと、
多重解像度アテンションの３Ｄプーリングを実行して１Ｄ特徴ベクトルを取得するステップであって、前記特徴ベクトルにおける各値が、対応する特徴量の相対的重要度を示す、ステップと、
前記特徴ベクトルに基づいて前記ビデオ・クリップの一次行動を分類するステップと
を行わせる、メモリと
を備える、サーバ・コンピュータ。
前記特徴ベクトルに基づいて前記ビデオ・クリップを分類するステップが、行動分類セットにおける各行動クラスに対する確率を計算するステップを含み、行動クラス確率が、対応する行動が前記ビデオ・クリップ内で発生した尤度を指定する、請求項１１に記載のサーバ・コンピュータ。
各行動クラスに対する確率を計算するステップが、前記１Ｄ特徴ベクトルと、前記行動分類セットを表す１Ｄ行動クラス・ベクトルとの間に線形変換を実行して、前記行動分類セットにおける各クラスに対する確率を得るステップを含む、請求項１２に記載のサーバ・コンピュータ。
前記メモリが、前記サーバに
１つ又は複数の特徴量を排除するドロップアウト・メカニズムを前記特徴ベクトルに適用するステップ
をさらに行わせる、請求項１１に記載のサーバ・コンピュータ。
それぞれの連続する削減解像度埋め込みテンソルが、前の削減解像度埋め込みテンソルの１／２の解像度である、請求項１１に記載のサーバ・コンピュータ。
前記削減解像度運動学テンソルに多重解像度アテンション・メカニズムを適用するステップが、
前記対応するビデオ・フレーム内の各空間ロケーションにおける前記動作を表す各解像度の各フレームに対するテンソルを計算するステップと、
前記幅、高さ及び特徴量の次元を縮小する、３Ｄプーリング演算を実行して、各解像度における各フレームに対するスカラー・アテンション重みを得るステップと
を含む、請求項１１に記載のサーバ・コンピュータ。
多重解像度アテンションの３Ｄプーリングを実行するステップが、前記幅、高さ及び特徴量の次元における前記運動学テンソルを平均化するステップを含む、請求項１１に記載のサーバ・コンピュータ。
削減解像度運動学テンソルのシーケンスを生成するステップが、
畳み込みニューラル・ネットワーク演算を実行して新規畳み込み層を生成するステップと、
双線形補間、平均化、重み付け、サブサンプリング又は２Ｄプーリング関数の適用から成る群から選択された技法を使用して、前記新規畳み込み層の前記解像度を削減するステップと
を含む、請求項１１に記載のサーバ・コンピュータ。
前記ビデオ内の動作の量を推定する運動学アテンション重みを計算するステップが、
時間ｔに基づく、１階有限導関数、２階有限導関数及び絶対位置から成る群から選択される方法を使用して時間ｔにおけるビデオ・フレームのテンソル表現を生成するステップと、
平均フレーム値を中心として前記テンソル表現を中心化するステップと
を含む、請求項１１に記載のサーバ・コンピュータ。
すべての解像度にわたる前記コンテキストを結合するステップが、
各解像度に対する前記コンテキストをスタックするステップと、
各２Ｄ空間ロケーションに対して特徴量の値を有する単一の３Ｄテンソルを計算するステップと
を含む、請求項１１に記載のサーバ・コンピュータ。