JP2018538631A

JP2018538631A - シーン内のオブジェクトのアクションを検出する方法及びシステム

Info

Publication number: JP2018538631A
Application number: JP2018532185A
Authority: JP
Inventors: ジョーンズ、マイケル・ジェイ; マークス、ティム; チュゼル、オンセル; シン、バラト
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-03-02
Filing date: 2017-01-24
Publication date: 2018-12-27
Anticipated expiration: 2037-01-24
Also published as: US20170255832A1; JP6625220B2; US10242266B2; WO2017150032A1

Abstract

方法及びシステムが、まず、シーンのビデオを画像のシーケンスとして取得することによって、シーン内のオブジェクトのアクションを検出する。各画像はピクセルを含み、ビデオはチャンクに分割される。ビデオ内のオブジェクトが追跡される。ビデオの各オブジェクト及び各チャンクについて、オブジェクトにわたって位置するバウンディングボックス内のピクセルの軌道が追跡され、バウンディングボックスを用いて、チャンク内の１つ以上の画像についてクロップされた軌道及びクロップされた画像が生成される。次に、クロップされた軌道及びクロップされた画像が、各対象アクションの相対スコアを出力するリカレントニューラルネットワーク（ＲＮＮ）に渡される。

Description

本発明は、包括的には、コンピュータービジョン及びカメラ監視用途に関し、より詳細には、ビデオ内の或る特定の関心アクションを行う、人等のオブジェクトのインスタンスを検出することに関する。

コンピュータービジョン及びカメラ監視用途において、頻繁に生じる問題は、人、機械、車両、ロボット等のオブジェクトによって行われる或る特定のアクションを認識及び検出することである。ビデオ内のアクションを解析する一般問題に対するかなりの量の取り組みが行われてきたが、従来技術のほとんどは、アクション検出ではなくアクション認識に焦点を当ててきた。

アクション認識とは、アクションの始まりにおいて又はその付近で開始し、アクションの終了時に又はその付近で終了するように時間的にトリミングされたビデオセグメントにおいて、いずれのアクションが行われているかを分類する、すなわち認識することを指す。時間的にトリミングされたという用語を用いて、そのようなビデオセグメントを指す。アクション検出とは、長い、すなわち時間的にトリミングされていないビデオシーケンスにおいて生じる、アクションクラスの既知の組からの各アクションの全ての発生を、時間的に又は時空間的にロケーション特定することを指す。

アクション検出に対する早期の取り組みは、外観及び運動パターンを解析することによって歩行者を検出する方法を含む。時空間関心点、マルチインスタンス学習、又はパーツベースのモデルを用いてアクションを検出するためのいくつかの方法が既知である。

アクション認識には、アクティビティ認識のタスクが関連している。アクティビティ認識タスクにおいて、プレイ中の特定のスポーツ等のアクティビティを描写するビデオセグメントが解析され、目標は、いずれのアクティビティ（例えば、いずれのスポーツ）がビデオ内に描写されているかを判断することである。

精密アクション検出とは、検出されるアクションのクラス間の差異が小さいアクション検出を指す。例えば、料理のシナリオにおいて、みじん切り、すりおろし、及び皮むき等の類似したアクションを含む組からアクションを検出することが、精密アクション検出の一例である。

アクション認識、イベント検出、及びビデオ検索等のビデオ解析タスクのための従来の方法は、通常、勾配方向ヒストグラム（ＨＯＧ）、運動境界ヒストグラム（ＭＢＨ）、及びオプティカルフローヒストグラム（ＨＯＦ）等の、人が設計した特徴を用いる。１つの方法は、各入力ビデオにおける改善密度軌道（ＩＤＴ：Improved Dense Trajectories）を計算し、次に、ビデオのためのフィッシャーベクトルを計算し、サポートベクターマシン（ＳＶＭ）を用いて分類を行う。実際には、フィッシャーベクトルを用いた浅いアーキテクチャーにより、アクション及びアクティビティ認識のための良好な結果が得られる。

結果は、上述した特徴等の人が設計した特徴が、ニューラルネットワークによって決定される「深い」特徴と置き換えられるときに改善することができる。ニューラルネットワークへの入力は、軌道に沿った画像及びスタックオプティカルフローを含むことができる。１つの方法は、２ストリームネットワークを用い、このネットワークにおいて、画像（第１のストリーム）と、僅かな数の画像にわたって決定されるスタックオプティカルフローフィールド（第２のストリーム）とが、アクション認識のために深層ニューラルネットワークに入力される。類似のアーキテクチャーを用いて、空間的ロケーション特定を、時間的にトリミングされたビデオにおけるアクション認識のタスクに組み込むことができる。しかしながら、これらのネットワークは、ビデオからの長期シーケンス情報を学習しない。

リカレントニューラルネットワーク
リカレントニューラルネットワーク（ＲＮＮ）は、データ駆動方式で長期シーケンス情報を学習することができるため、ＲＮＮは、アクション認識に用いられてきた。長期短期記憶（ＬＳＴＭ）分類器が後続する３Ｄ畳み込みニューラルネットワークを、アクション認識に用いることができる。ＬＳＴＭは、アクション認識のために、２ストリームネットワークを上回って性能を改善することができる。３次元人体関節座標のシーケンスからアクションを認識するのに、双方向ＬＳＴＭが用いられてきた。

アクション認識の場合、アクション認識のために深層ニューラルネットワーク及びＬＳＴＭを用いる方法は、人が設計した特徴から生成された浅いフィッシャーベクトルを用いる方法よりも僅かにしか良好に機能しない。

アクション認識においてかなりの進歩がなされてきたが、時間的にトリミングされていないより長いビデオにおけるアクション検出、すなわち、アクションの時間的又は時空間的ロケーション特定に対しては、それほど多くの取り組みが行われていない。スポーツビデオにおけるアクションの空間的ロケーション特定に役立つように追跡が用いられてきた。追跡では、提案される軌道が生成され、次に、軌道にわたって、人が設計した特徴が決定される。

インタラクトされているオブジェクトの注釈を用いるか、又は行われている高レベルのアクティビティに対し文法を強制することは、通常有用であるが、これらの技法は、オブジェクトの追加の検出器を学習し、高レベルのアクティビティに関する事前知識を有することを必要とする可能性がある。

精密アクション検出の場合、対象の時空間領域から密な軌道を抽出すること、又は人物の手の軌道を用いることにより、性能を大幅に改善することができる。

ビデオ内のアクションの自動解析のための従来技術による方法の主要な欠点のうちの１つは、アクション検出に焦点を当てていないことである。代わりに、ほとんどの従来技術による方法は、アクション認識に焦点を当て、これは、ほとんどの方法が、アクションを時間的に又は時空間的にロケーション特定することができないことを意味する。これは、アクション認識が、アクション検出よりも容易な問題であることに起因する場合がある。

しかしながら、アクション認識は、アクション検出よりもはるかに実用的価値が低い。なぜなら、単一のアクションのみを含むようにビデオセグメントを時間的にトリミングすることがアクション認識に必須であるが、これを行うために、ビデオがトリミングされる前にアクションが既に検出されていなくてはならないためである。現実の用途において、時間的にトリミングされていないビデオが、はるかに一般的である。

アクション検出のための従来技術の方法の別の欠点は、相対的に低い精度である。すなわち、従来技術のアクション検出方法の性能は、ほとんどのコンピュータービジョン用途にとって十分良好でない。

本発明の実施形態は、ビデオにおけるオブジェクトのアクションを検出する方法及びシステムを提供する。ここで、オブジェクトは、人、動物、機械、車両、ロボット等とすることができる。例えば、オブジェクトは、工場設定における人物又は産業ロボットであり得る。本発明によって対処される主要な問題は、時間的にトリミングされていないビデオにおいて生じるオブジェクトのアクションについて、より正確なアクション検出を提供することである。

実施形態は、リカレント接続を有する深層ニューラルネットワークを用い、追跡されるオブジェクトの周りのバウンディングボックスを用いてクロップされたクロップ画像、及び複数のビデオフレームにわたって追跡されるクロップ画像内の運動を特徴付けるクロップされたオプティカルフローフィールドのシーケンスを入力としてとる、ビデオにおけるアクション検出の方法を提供する。

ここで、取得されるビデオを、画像のシーケンスとみなす。いくつかの実施形態では、ビデオを、最初に、何らかの他の形態で取得し、その後、画像のシーケンスに変換することができる。場合によっては、ビデオを、ビデオシーケンス又は画像シーケンスと呼ぶ。ビデオを構成する画像を、ビデオ画像若しくはビデオフレーム、又はより簡単に、画像若しくはフレームと呼ぶ。

本方法の特徴
本方法の様々な実施形態に含まれる特徴は、以下を含む。

ビデオ画像内でアクションが生じる場所を空間的にロケーション特定するオブジェクトトラッカー（例えば、人物トラッカー）。ほとんどの従来技術による方法は、画像の全空間範囲にわたって運動及び外観を解析する。これは多くの場合に、ロケーション特定されたアクションと無関係の過度に多くの情報を含む。

ピクセル軌道。これは、シーン点がビデオ内で動いている（例えば、人物の可動部）場合であっても、複数のフレームにわたって各シーン点の変位が同じ画像ロケーションに表される、運動情報の表現である。ピクセル軌道は、ビデオ画像にわたる点対応を直接表す。対照的に、ほとんどの従来技術による方法は、単純なスタックオプティカルフローを用いて運動情報を表し、これは、画像にわたる点対応を表さない。

異なるアクションを検出するのに役立つ多くのビデオ画像にわたる重要な時間的動力学を学習するリカレントニューラルネットワーク（ＲＮＮ）。

マルチストリーム畳み込みニューラルネットワーク。これは、オブジェクトトラッカーからの出力に基づいて各画像においてクロップされたビデオについての（第１のストリームにおける）運動の重要な特徴及び（第２のストリームにおける）外観の特徴を計算することに加えて、ビデオ画像の全空間範囲、すなわちクロップされていない画像を含むビデオフレームについての（第３のストリームにおける）運動の特徴及び（第４のストリームにおける）外観の特徴も計算する。ここで、マルチストリームは、４つのストリーム、すなわち、追跡されるオブジェクトのロケーションの周りでクロップされたビデオの運動ストリーム及び外観ストリーム、並びにフル画像ビデオの運動ストリーム及び外観ストリームを指す。

従来のＲＮＮを用いて学習することができるものよりも長い持続時間を有するパターンを学習することができる、ＲＮＮの１つ以上の層として含まれる長期短期記憶（ＬＳＴＭ）ネットワーク。本方法は、双方向ＬＳＴＭを用いたより良好な性能を提供することができ、これは、方法が、過去のビデオフレーム及び未来のビデオフレームからの情報を用いてアクションを検出することを意味する。

本発明の実施形態による、初期層としてのマルチストリーム畳み込みニューラルネットワーク（ＣＮＮ）と、単数又は複数の最終層としての長期短期記憶（ＬＳＴＭ）ネットワークとを含むリカレントニューラルネットワーク（ＲＮＮ）の概略図である。本発明の実施形態による、従来のスタックオプティカルフローと比較した本方法のピクセル軌道を比較する概略図である。本発明の実施形態によるＬＳＴＭセルの概略図である。本発明の実施形態によるオブジェクトのアクションを検出する方法及びシステムの概略図である。

本発明の実施形態は、ビデオ内のオブジェクトのアクションを検出する方法及びシステムを提供する。

本方法は、トレーニング段階と試験段階とを含む。いくつかの実施形態は、試験段階のみを含む。例えば、以前にトレーニングされたＲＮＮを利用する、試験段階のみを有する方法が小型デバイスに埋め込まれ得る。

トレーニング段階中、図１に示すような、４つの独立した畳み込みニューラルネットワーク（ＣＮＮ）１２０をトレーニングする。各ＣＮＮは、４つのストリーム１１０、すなわち、追跡されるオブジェクトのロケーションの周りでクロップされたビデオ画像の運動ストリーム１１１及び外観ストリーム１１２、並びにフルフレーム（空間的にクロップされていない）ビデオ画像の運動ストリーム１１３及び外観ストリーム１１４のうちの１つを処理する。いくつかの実施形態は、２つのストリーム、すなわち、追跡されるオブジェクトのロケーションの周りでクロップされたビデオ画像の運動ストリーム１１１及び外観ストリーム１１２のみを有する。これは、例えば、背景シーンが、ノイズを多く含むか、特徴がないか、又はそうでない場合オブジェクトによって行われているアクションに無関係である事例に有用であり得る。

好ましい実施形態では、各畳み込みネットワーク（ＣＮＮ）は、ＶＧＧ（ビジュアルジオメトリグループ）アーキテクチャーを用いる。これについては、Simonyan他「Two-stream convolutional networks for action recognition in videos」Advances in Neural Information Processing Systems, pages 568-576, 2014を参照されたい。しかしながら、各ストリームについて、ＡｌｅｘＮｅｔアーキテクチャー等の他のＣＮＮアーキテクチャーも用いられ得る。これについては、Krizhevsky他「ImageNet Classification with Deep Convolutional Neural Networks」Advances in Neural Information Processing Systems, 2012を参照されたい。

４つのネットワークは、ビデオ１００の連続した小さなチャンク１０１に対し、アクション分類のタスクを行う。例えば、各チャンクは、６つの連続ビデオフレームからなり得る。ＣＮＮの後に、投影層１３０が続く。この投影層は、全てのストリームのＣＮＮの出力を、単一の空間及び長期短期記憶（ＬＳＴＭ）セル１４０内に投影する。各チャンクの出力は、Ｎ個のアクションクラスＡ_１，Ａ_２，．．．，Ａ_Ｎの組からの検出されたアクションクラス１５０である。

それぞれ画像及び運動に１つずつの２つの畳み込みニューラルネットワーク（ＣＮＮ）が、追跡されるオブジェクトのバウンディングボックスにクロップされたビデオフレームからなるチャンクに対しトレーニングされる。クロップされたフレームは、アクションの近傍に制限されたバウンディングボックスをアクションに提供し、これは、アクションの分類に役立つ。いくつかの実施形態では、このバウンディングボックスは、ピクセル単位の固定サイズを有し、これは、アクションの複数の実行にわたってオブジェクトをアラインするのに役立つ。

いくつかの好ましい実施形態において、それぞれ画像及び運動に１つずつの２つの追加のＣＮＮが、空間的にクロップされていないビデオフレームからなるチャンクに対しトレーニングされる。すなわち、各フレームはビデオのフルフレームであり、このため、シーン内で行われているアクションの空間コンテキストが保持される。ネットワークを、マルチストリームニューラルネットワークと呼ぶ。なぜなら、このネットワークは、各々がビデオからの異なる情報ストリームを保有する複数の（例えば、４つの）ＣＮＮを有するためである。

これらの４つのネットワーク１２０がトレーニングされた後、４つのネットワークのｆｃ７層出力の上の、完全に連結された投影層１３０を学習し、これらの独立したストリームの共同表現を生成する。ｆｃ７層は、ＶＧＧネットワークにおける最後の完全に連結された層である。マルチストリームネットワークに、チャンク１０１の時系列として配列されたフルレングスビデオ１００が提供され、次に、投影層の出力の対応する時系列が、２つの方向で機能する長期短期記憶（ＬＳＴＭ）ネットワーク１４０内に供給される。すなわち、ＬＳＴＭネットワークは、双方向性である。

双方向ＬＳＴＭネットワークは、２つの指向性ＬＳＴＭネットワーク（一方は時間において前方に連結され、他方は時間において後方に連結される）からなる。いくつかの実施形態では、２つの指向性ＬＳＴＭネットワークの各々の後に、明確にするために図１には示されていない、各指向性ＬＳＴＭネットワークの隠れ状態の各々の上の完全に連結された層が続き、その後にｓｏｆｔｍａｘ層が続き、各アクションに対応する中間スコアが得られる。最終的に、２つの指向性ＬＳＴＭのスコアが組み合わされ、例えば平均され、各特定のアクションのスコアが得られる。

アクション検出パイプラインにおいて、良好な性能を達成するのに重要な複数のコンポーネントが存在する。このタスクにおいて、ビデオ内に存在する空間情報及び長期時間情報を特徴付けるモデルを用いる。

バウンディングボックスを用いて決定されたオブジェクト軌道は、入力表現からロケーション変動を取り除くことによって多くのアクションの学習を容易にする基準画像を提供する。しかしながら、いくつかのアクションは、ロケーションに依拠する。静的ビデオカメラを用いて取得されるシーンの場合、これらのアクションは、常に、同じ画像ロケーションにおいて生じる。例えば、洗浄及びゆすぎは、ほとんど常にシンクの付近で行われ、ドアの開放は、冷蔵庫又は食器棚の付近で行われる可能性が最も高い。これらの理由により、ピクセル軌道及びビデオフレームのクロップされたチャンク及びクロップされていないチャンクにおいて２つの別個の深層ネットワークをトレーニングする。

最初の２つのＣＮＮが、オブジェクトトラッカーからのボックスを用いてクロップされたクロップ画像に対しトレーニングされ、背景ノイズが低減され、軌道及び画像領域のためのオブジェクト中心基準画像が提供される。他の２つのＣＮＮは、大域空間コンテキストを保持するために全体（空間的にフルフレームの）画像に対しトレーニングされる。

図２に示されるように、ピクセル軌道２１０を用いた短期運動情報を表す。ここで、各移動シーン点は、いくつかの画像２２０にわたって、当該移動シーン点自体に位置的に対応する。このアライメントは、ピクセル軌道が、従来のスタックオプティカルフローフィールド２３０よりもはるかに豊富な運動情報を特徴付けることを可能にする。

検出されるアクションは、多岐にわたる持続時間を有することができるので、本方法は、ＬＳＴＭ１４０を用いて、データ駆動形の方式でアクションの持続時間及び長期時間コンテキストを学習する。結果は、ＬＳＴＭが、精密アクション検出のために長期時間コンテキストを学習する際に極めて効果的であることを実証する。

精密アクション検出のための追跡
ロケーションに無関係の独立した（クロップされた）外観及び運動ストリームのためにオブジェクトの周りのバウンディングボックスを提供するために、任意のオブジェクト追跡方法が用いられ得る。好ましい実施形態では、状態ベースのトラッカーを用いて、ビデオ内のアクションを空間的にロケーション特定する。追跡されるバウンディングボックスのサイズを固定したままにして、バウンディングボックスの位置を更新し、バウンディングボックス内のオプティカルフローの大きさが最大になるようにする。オプティカルフローの大きさが閾値を超える場合、バウンディングボックスのロケーションが、オプティカルフローの大きさを最大にするロケーションに一致するように更新される。そうでない場合、オブジェクトは、低速に動いているか又は全く動いていない。オブジェクトが過度に低速に動いているか又は動いていないとき、前のチャンクからのバウンディングボックスが用いられる。バウンディングボックスのロケーションは、チャンク１０１（例えば、６つの画像）が処理され、チャンクに対するフロー及び外観特徴が決定され、バウンディングボックスがチャンク内の全ての画像にわたって静止していることを確実にした後に初めて更新される。

本発明の追跡方法は、カメラが静止しており、オブジェクトのサイズに関する妥当な推定値を有するときに効果的に適用することができる。これは、小売店、個人の自宅、又は精密アクション検出が用いられる可能性が高い監視設定において撮影される多くのビデオにとって実用的な仮定である。より難解な追跡状況では、より高度なトラッカーを用いることができる。

好ましい実施形態では、バウンディングボックスは、オブジェクトを含む矩形領域であるが、バウンディングボックスは矩形である必要はない。より一般的には、バウンディングボックスは、追跡されているオブジェクトを含むか又はその大部分を含み、さらに、オブジェクトの周りの小さな領域を含む場合もある任意の形状の領域である。

ピクセル軌道
オプティカルフローを深層ネットワークへの入力としてスタックすることが、運動ベースのネットワークをトレーニングするための従来の慣例であった。しかしながら、スタックオプティカルフローにおいて、シーン内の特定の移動点、例えば、指の先端に対応する運動ベクトルは、ピクセルロケーションを１つの画像から次の画像に変更する。このため、畳み込みニューラルネットワークは、アクションを分類するために、オプティカルフローの空間的動きを学習する必要がある。完全な運動情報は、より高次の層においてネットワークによって学習され得るが、これにはより多くのパラメーター及びデータを学習する必要がある。

図２に示されているように、（例えば、チャンクにおける）画像２２０のシーケンスにおける運動の表現は、中心画像Ｉ_ｔからＫ個の前の画像及びＫ個の後続の画像（例えば、Ｋ＝３）の各々へのオプティカルフローを決定することである。運動のこの表現を、ピクセル軌道２１０と呼ぶ。ピクセル軌道の２Ｋ個全ての画像において、各ピクセルから画像Ｉ_ｔ内の対応するピクセルへのフロー値が、全て画像Ｉ_ｔ内のピクセルのロケーションに位置する。ピクセル軌道２１０において、オプティカルフロー画像（垂直方向におけるオプティカルフローの大きさを表す）の強度のみが変化するのに対し、空間レイアウトは固定である。しかしながら、スタックオプティカルフロー２３０において、ピクセル間の空間対応が失われる。例えば、後頭部（シルエットの最も低い点）が後続のピクセル軌道画像において同じロケーションに留まるが、後続のスタックオプティカルフロー画像において、左上に動く。このため、ネットワークは、スタックオプティカルフローフィールドを用いて可能であるよりも容易に、ピクセル軌道から各ピクセルの時間フィルターを学習することができる。

画像Ｉ_ｔ内の各ピクセルについて、短い時間間隔にわたる完全な運動情報を有する。各ピクセルの運動パターンを決定するために、ピクセル軌道における１×２Ｋの畳み込みカーネルが、各ピクセルの移動のための特徴マップを生成することができる。対照的に、例えば、スタックオプティカルフローにおける３×３×２Ｋのカーネルを用いてスタックオプティカルフローを入力するネットワーク層は、２Ｋ個の画像にわたって３個を超えるピクセルの変位を有するピクセルについて第１の畳み込み層を用いて運動パターンを学習することができない。静止カメラを用いた精密アクション検出について、ピクセル軌道が、スタックオプティカルフローよりも良好に機能することを実証した。

双方向ＬＳＴＭネットワークを用いた長いシーケンスにおけるアクション検出
ここで、リカレントニューラルネットワーク（ＲＮＮ）及び長期短期記憶（ＬＳＴＭ）セルの簡単な説明を与える。入力シーケンスｘ＝（ｘ_１，．．．，ｘ_Ｔ）を所与として、ＲＮＮは、隠れ状態表現ｈ＝（ｈ_１，．．．，ｈ_Ｔ）を用い、ＲＮＮが入力ｘを出力シーケンスｙ＝（ｙ_１，．．．，ｙ_Ｔ）にマッピングできるようにする。

この表現を求めるために、ＲＮＮは、以下の再帰方程式を反復する。

ここで、ｇは、活性化関数であり、Ｗ_ｘｈは、入力を隠れ状態にマッピングする重み行列であり、Ｗ_ｈｈは、２つの隣接する時間ステップにおける隠れ状態間の遷移行列であり、Ｗ_ｈｙは、隠れ状態ｈを出力ｙにマッピングする行列であり、ｂ_ｈ及びｂ_ｚは、バイアス項である。

離散隠れ状態表現を用いる隠れマルコフモデル（ＨＭＭ）と異なり、リカレントニューラルネットワークは、隠れ状態のための連続空間表現を用いる。しかしながら、トレーニングは、時間を通じた後方伝播を用いてネットワークをアンロールすることによって行われるため、長期シーケンス情報を学習するようにＲＮＮをトレーニングすることは困難である。この結果、勾配消失問題又は勾配爆発問題が生じる。

図３に示すように、この問題を回避するために、ＬＳＴＭセルは、メモリセルｃ_ｔと、ＬＳＴＭがいつ前の状態を保持し、いつその状態を忘却するかを学習するのに役立つ忘却ゲートｆ_ｔとを有する。これによって、ＬＳＴＭネットワークは、長期時間情報を学習することが可能になる。ＬＳＴＭセルのための重み更新方程式は以下のとおりである。

ここで、σは、シグモイド関数であり、ｔａｎｈは、双曲線正接関数であり、ｉ_ｔ、ｆ_ｔ、ｏ_ｔ、及びｃ_ｔはそれぞれ、入力ゲート、忘却ゲート、出力ゲート、及びメモリセル活性化ベクトルである。

忘却ゲートｆ_ｔは、いつ（及びどの）情報がメモリセルｃ_ｔからクリアされるかを判定する。入力ゲートｉ_ｔは、いつ（及びどの）新たな情報がメモリに組み込まれるかを判定する。ｔａｎｈ層ｇ_ｔは、入力ゲートによって許可されるときにメモリセルに追加される値の候補組を生成する。

忘却ゲートｆ_ｔ、入力ゲートｉ_ｔ及び新たな候補値ｇ_ｔの出力に基づいて、メモリセルｃ_ｔが更新される。出力ゲートｏ_ｔは、メモリセル内のいずれの情報が、隠れ状態のための表現として用いられるかを制御する。隠れ状態は、メモリセル状態の関数と出力ゲートとの積として表される。

ＲＮＮのためのＬＳＴＭアーキテクチャーは、画像、ビデオからテキストへの文作成のために、及び音声認識において用いられることに成功している。しかしながら、アクション認識のタスクの場合、ＬＳＴＭネットワークの性能は、依然として、改善された密な軌道にわたって生成されたフィッシャーベクトルに基づく分類器の性能に近い。これは、ＬＳＴＭを用いるＲＮＮがビデオからのアクション検出に用いられていない、ビデオからのアクション認識における精彩を欠いた性能に依拠する場合がある。

一般的に用いられるアクション認識データセットにおいて、ビデオは、各アクションの開始時点及び終了時点において又はその付近で開始及び終了するようにトリミングされる。時間的にトリミングされたビデオは、通常、長さが短く、例えば、２秒〜２０秒である。このため、アクション認識タスクにおいて、データ駆動方式で学習されるのに十分な長期コンテキストが存在しない。この長期コンテキストは、アクションの予測持続時間、いずれのアクションが別のアクションに後続又は先行するか、及び時間的にアクション境界を越えて延在する他の長期運動パターン等の特性を含むことができる。

このため、アクション認識タスクにおいて、ＬＳＴＭネットワークは、長期時間コンテキストにほとんどアクセスを有していない。しかしながら、精密アクション検出において、ビデオは通常、約数分又は数時間である。このため、ＬＳＴＭは、シーケンスにおいて長期時間動力学をモデル化するので、ＬＳＴＭネットワークは、（以前に適用されていた）アクション認識よりも（本発明において適用する）アクション検出により適しているという重要な洞察が得られた。

双方向ＬＳＴＭネットワークは、未来のチャンク及び過去のチャンクの双方からの情報を統合して、ビデオシーケンスにおける各チャンクの予測を行う。したがって、双方向ＬＳＴＭネットワークが、アクションの時間的境界（すなわち、開始及び終了）の予測において、単方向ＬＳＴＭよりも良好であることを予測した。

本明細書に記載されるように、前方ＬＳＴＭネットワーク及び後方ＬＳＴＭネットワークは、各々、全てのアクションクラスのためのｓｏｆｔｍａｘスコアを生成し、２つのＬＳＴＭネットワークのｓｏｆｔｍａｘスコアを平均して、各アクションのスコア（確率）を得る。

長いシーケンスにおいてＬＳＴＭネットワークをトレーニングする間、時間を通じた後方伝播は、チャンクの短いシーケンスを用いて、固定ステップ数までのみ行うことができる。長期コンテキストを保持するために、後続のシーケンスにおいてトレーニングする際に、前のシーケンスにおける最後の要素の隠れ状態を保持する。

方法及びシステムの概観
上記で説明したように、方法のトレーニング段階は、リカレントニューラルネットワーク（ＲＮＮ）のトレーニングを含む。試験段階、すなわち、アクション検出において、オブジェクトのアクションを検出するために、既にトレーニングされたＲＮＮが用いられる。

図４は、特定のアクションを行うシーン内の人の検出等、オブジェクトのアクションを検出するための方法及びシステムの基本的動作を示す。ビデオ４０１は、画像４１５のシーケンスとしてシーン４０２から取得され（４１０）、各画像はピクセルを含む。シーンは、アクションを行う１つ以上のオブジェクト４０３、例えば、階段を駆け上がる人物を含むことができる。オブジェクトのうちの１つ以上が追跡され（４２０）、追跡されるオブジェクトのバウンディングボックス４２５が、ビデオ画像の各チャンク内で推定される。例えば、チャンクは、一連の６つの画像とすることができる。

画像は、バウンディングボックスの範囲までクロップされ、バウンディングボックス内でピクセル軌道が計算される（４３０）。結果として得られるクロップされた軌道及びクロップされた画像４４０は、各対象アクションの相対スコア４６０を出力するようにトレーニングされたリカレントニューラルネットワーク（ＲＮＮ）４５０に渡される。

ステップは、当該技術分野において既知のメモリ、カメラ及び入出力インタフェースに接続されたプロセッサ１００において行うことができる。

Claims

シーン内のオブジェクトのアクションを検出する方法であって、
前記シーンのビデオを画像のシーケンスとして取得するステップであって、各画像はピクセルを含み、前記ビデオはチャンクに分割される、ステップと、
前記ビデオ内の前記オブジェクトを追跡するステップであって、前記ビデオの各オブジェクト及び各チャンクについて、
前記オブジェクトにわたって位置するバウンディングボックス内の前記ピクセルの軌道を決定するステップと、
前記バウンディングボックスを用いて、前記チャンク内の１つ以上の画像についてクロップされた軌道及びクロップされた画像を生成するステップと、
前記クロップされた軌道及び前記クロップされた画像を、各対象アクションの相対スコアを出力するリカレントニューラルネットワーク（ＲＮＮ）に渡すステップと、
を更に含む、ステップと、
を含み、前記ステップはプロセッサにおいて実行される、方法。
前記ＲＮＮは、畳み込みニューラルネットワーク層及び１つ以上のリカレントニューラルネットワーク層を含む、請求項１に記載の方法。
前記畳み込みニューラルネットワーク層は、前記クロップされた軌道及び前記クロップされた画像、並びに前記ビデオの全空間範囲を有する軌道及び画像を含む複数のストリームに対し動作する、請求項２に記載の方法。
前記リカレントニューラルネットワーク層は、長期短期記憶（ＬＳＴＭ）セルを含む、請求項２に記載の方法。
前記リカレントニューラルネットワーク層は、双方向長期短期記憶（ＬＳＴＭ）セルを含む、請求項３に記載の方法。
前記軌道は、ピクセル軌道として符号化される、請求項１に記載の方法。
前記軌道は、スタックオプティカルフローとして符号化される、請求項１に記載の方法。
前記追跡するステップは、前記バウンディングボックス内部の前記スタックオプティカルフローの大きさを最大にするバウンディングボックスを選択するステップを含む、請求項１に記載の方法。
前記追跡するステップは、
前記バウンディングボックス内部の前記スタックオプティカルフローの大きさが閾値よりも大きい場合、前記バウンディングボックスのロケーションを更新するステップを更に含む、請求項８に記載の方法。
前記ピクセルの前記軌道は、前記チャンク内の中央画像から、Ｋ個の前の画像及びＫ個の後続の画像の各々まで決定される、請求項１に記載の方法。
Ｋは３である、請求項１０に記載の方法。
各ピクセルの運動パターンが１×２Ｋ畳み込みカーネルを用いて決定される、請求項１０に記載の方法。
前記方法は、前記ビデオにおける精密アクション検出のために用いられる、請求項１に記載の方法。
前記方法は、前記検出するステップの前に前記ＲＮＮをトレーニングするステップを含む、請求項１に記載の方法。
前記ＲＮＮは、以前にトレーニングされている、請求項１に記載の方法。
前記検出するステップは、時間的アクション検出を含む、請求項１に記載の方法。
前記検出するステップは、時空間的アクション検出を含む、請求項１に記載の方法。
前記ビデオは、画像のシーケンス以外の何らかの形態で初期に取得され、画像のシーケンスに変換される、請求項１に記載の方法。
前記オブジェクトは、人物である、請求項１に記載の方法。
前記オブジェクトは、ロボットである、請求項１に記載の方法。
前記オブジェクトは、産業ロボットである、請求項１に記載の方法。
シーン内のオブジェクトのアクションを検出するシステムであって、
前記シーンのビデオを画像のシーケンスとして取得する手段であって、各画像はピクセルを含み、前記ビデオはチャンクに分割される、手段と、
前記ビデオ内の前記オブジェクトを追跡するように構成されるプロセッサであって、前記ビデオの各オブジェクト及び各チャンクについて、前記プロセッサは、前記ビデオの各オブジェクト及び各チャンクについて、前記オブジェクトにわたって位置するバウンディングボックス内の前記ピクセルの軌道を決定し、前記バウンディングボックスを用いて、前記チャンク内の１つ以上の画像についてクロップされた軌道及びクロップされた画像を生成し、前記クロップされた軌道及び前記クロップされた画像を、各対象アクションの相対スコアを出力するリカレントニューラルネットワーク（ＲＮＮ）に渡すように更に構成される、プロセッサと、
を備える、システム。