JP6877630B2

JP6877630B2 - アクションを検出する方法及びシステム

Info

Publication number: JP6877630B2
Application number: JP2020506281A
Authority: JP
Inventors: ジョーンズ、マイケル; マークス、ティム; クルカーニ、クルディープ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-08-07
Filing date: 2018-06-18
Publication date: 2021-05-26
Anticipated expiration: 2038-06-18
Also published as: CN110998594A; EP3665613A1; CN110998594B; WO2019031083A1; US20190042850A1; US10210391B1; JP2020530162A

Description

本開示は、包括的には、コンピュータービジョン及びカメラ監視用途に関し、より詳細には、ビデオシーケンスのフレームから計算された輪郭画像のシーケンスを用いて運動情報を表すことによって、ビデオ内の或る特定の関心アクションを行う、人物等のオブジェクトのインスタンスを検出することに関する。

コンピュータービジョン及びカメラ監視用途において、頻繁に生じる問題は、人物、機械、車両、ロボット等のオブジェクトによって行われる或る特定のアクションを認識及び検出することである。ビデオ内のアクションを解析する一般問題に対するかなりの量の取り組みが行われてきたが、従来技術のほとんどは、アクション検出ではなくアクション認識に焦点を当ててきた。

アクション認識とは、アクションの始まりにおいて又はその付近で開始し、アクションの終了時に又はその付近で終了するように時間的にトリミングされたビデオセグメントにおいて、いずれのアクションが行われているかを分類する、すなわち認識することを指す。時間的にトリミングされたという用語を用いて、そのようなビデオセグメントを指す。アクション検出とは、長い、すなわち時間的にトリミングされていないビデオシーケンスにおいて生じる、アクションクラスの既知の組からの各アクションの全ての発生を、時間的に又は時空間的にロケーション特定することを指す。

アクション認識には、アクティビティ認識のタスクが関連している。アクティビティ認識タスクにおいて、プレイ中の特定のスポーツ等のアクティビティを描写するビデオセグメントが解析され、目標は、いずれのアクティビティ（例えば、いずれのスポーツ）がビデオ内に描写されているかを判断することである。

精密アクション検出（fine-grained action detection）とは、検出されるアクションのクラス間の差異が小さいアクション検出を指す。例えば、料理のシナリオにおいて、みじん切り、すりおろし、及び皮むき等の類似したアクションを含む組からアクションを検出することが、精密アクション検出の一例である。しかしながら、アクション検出のための従来技術による方法の少なくとも１つの欠点は、それらの精度が比較的低いことである。すなわち、従来技術によるアクション検出方法の性能は、数ある用途の中でも、ほとんどのコンピュータービジョン用途にとって十分良好でない。

アクション認識、イベント検出及びビデオ検索等のほとんどのビデオ解析タスクのための標準的なパイプラインは、勾配方向ヒストグラム（ＨＯＧ）、運動境界ヒストグラム（ＭＢＨ）、及びオプティカルフローヒストグラム（ＨＯＦ）等の、人が設計した（hand-crafted）特徴を計算することであった。従来の手法は、改善密度軌道又は密なオプティカルフロー等の計算コストの高い入力表現に依拠し、ビデオクリップごとにフィッシャーベクトルを作成し、次に、サポートベクトルマシンを用いて分類を実行する。しかしながら、アクション検出／認識に対する上記の以前の手法の数多くの欠点の中でも少なくとも１つの主要な欠点は、これらの手法が入力表現及び中間表現に依拠し、これらは計算するのに非常に時間がかかり、記憶するのに大量のメモリを必要とすることである。これにより、そのような従来の方法は、現実世界のアクション検出用途にとって非実用的なものとなる。

したがって、時間及びメモリ要件の双方の観点から、ビデオ内のアクションを効率的に検出することができるアクション検出方法を開発することが必要とされている。

本開示は、アクション認識、イベント検出及びビデオ検索等のビデオ解析タスクの問題を克服する方法及びシステムを提供する。これらのビデオ解析タスクは、入力表現及び中間表現に依拠し、これらは計算するのに非常に時間がかかり、また、記憶するのに大量のメモリを必要とする。特に、本開示は、時間のかかる計算の最小化及びメモリストレージ／要件の低減の双方の観点から、ビデオ内のアクションを効率的に検出することができるアクション検出方法及びシステムを記載する。

特に、本開示は、ビデオシーケンスのフレームから計算された輪郭画像のシーケンスを用いて運動情報を表すことにより、数ある中でも、ビデオ内のアクションの高速でメモリ効率の良い検出器を提供することができるという認識に基づく。例えば、本開示は、特定のアクションの出現の、時間におけるロケーション特定（ビデオのいずれのフレームか）及び空間におけるロケーション特定（各フレームのどこか）に基づいて、ビデオ内のアクション検出に対処する。実験を通じて、人物等の追跡されるオブジェクトの周りのクロップされた画像、及び複数のフレームにわたるクロップされた領域内の運動を表す輪郭画像のシーケンスを入力としてとる、リカレント接続を有する深層ニューラルネットワークを用いて、ビデオ内のアクションを検出することができることを認識した。オプティカルフローに基づく表現を用いる従来の手法から、そのような手法の計算コストが高く、すなわち、時間のかかる計算及び大量のメモリ及びストレージを必要とすることがわかった。これによって、これらの従来のアクション検出手法は、現実世界の用途にとって非実用的になっている。

本開示は、ビデオフレーム内でアクションが生じる場所を空間的にロケーション特定することができるオブジェクト／人物トラッカーを更に含む。実験を通じて、トラッカーを使用せず、代わりにフレーム全体にわたって運動及び外観を解析するのみの従来の手法は、関心アクションに無関係の大量の情報を用いることがわかった。また、そのような手法は、タスクにとって最も重要な領域からの十分詳細な情報を有していない。

さらに、本開示は、運動及び外観の双方の重要な態様を表す特徴を学習し、多くのビデオフレームにわたって、異なるアクションを区別する重要な時間的力学を学習するマルチストリームリカレントニューラルネットワーク（ＲＮＮ）も用いる。例えば、方法及びシステムは、ビデオ内のオブジェクトのアクションを検出するのに用いることができ、ここで、オブジェクトは、人物、動物、機械、車両、ロボット、工場設定における産業ロボット等とすることができる。本開示は、時間的にトリミングされていないビデオ内で生じるオブジェクトのアクションについて、より正確なアクション検出を提供する。

本開示の別の態様は、従来のＲＮＮを用いて学習することができるものよりも長い持続時間を有するパターンを学習することができる、ＲＮＮの１つ以上の層として含まれる長期短期記憶（ＬＳＴＭ）ネットワークの使用を含む。本開示は、双方向ＬＳＴＭを用いてより良好な性能を提供することができ、これは、本開示が、過去のビデオフレーム及び未来のビデオフレームからの情報を用いてアクションを検出することができることを意味する。

本開示を更に理解するのに役立つように、シーンのビデオからシーン内のオブジェクトのアクションを検出することを含む少なくとも１つの方法のステップを提供した。ビデオは、ビデオデバイスによって撮影することができ、ビデオ自体は、複数のチャンクに分割されたビデオシーケンスとすることができ、各チャンクが連続ビデオフレームを含むことができる。

本開示の方法は、例えば、シーンのビデオを取得するステップを含むことができ、ビデオは画像のシーケンスを含む。ビデオをプロセッサによってメモリにダウンロードしておくことができ、プロセッサがメモリにアクセスしてビデオを取得することが可能である。次のステップは、ビデオ内のオブジェクトを追跡することを含むことができ、ビデオの各オブジェクト及び各チャンクについて、本方法は、ビデオシーケンスのビデオフレームから、オブジェクトの周りに位置するバウンディングボックス内の運動データを表す輪郭画像のシーケンスを決定するステップを更に含むことができる。次のステップは、バウンディングボックスを用いて、各チャンク内の１つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成することであり得る。最後に、最終ステップは、クロップされた輪郭画像及びクロップされた画像を、各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク（ＲＮＮ）に渡すことであり得る。

出力インターフェースをプロセッサに接続することができ、シーンのビデオからシーン内のオブジェクトのアクションを検出することに関連するいくつかのデータ又は全てのデータを出力することができることが予期される。

本開示の１つの実施の形態は、シーンのビデオから該シーン内のオブジェクトのアクションを検出する方法である。ビデオは、複数のチャンクに分割されたシーンのビデオシーケンスとすることができ、各チャンクは連続ビデオフレームを含む。本方法は、以下のステップを含む。シーンからビデオを取得すること。ここで、ビデオは画像のシーケンスを含む。ビデオ内のオブジェクトを追跡すること。そして、ビデオの各オブジェクト及び各チャンクについて、本方法は以下のステップを更に含む。ビデオシーケンスのビデオフレームから、オブジェクトの周りに位置するバウンディングボックス内の運動データを表す輪郭画像のシーケンスを決定すること。バウンディングボックスを用いて、各チャンク内の１つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成すること。クロップされた輪郭画像及びクロップされた画像を、各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク（ＲＮＮ）に渡すこと。

本開示の１つの実施の形態は、シーンのビデオから該シーン内のオブジェクトの関心アクションを検出するシステムである。ビデオは、複数のチャンクに分割されたシーンのビデオシーケンスであり、各チャンクは連続ビデオフレームを含む。本システムは、シーンからビデオを取得するプロセッサを備え、ビデオは画像のシーケンスを含む。プロセッサは、ビデオ内のオブジェクトを追跡するように構成され、ビデオの各オブジェクト及び各チャンクについて、本方法は以下のステップを含む。ビデオシーケンスのビデオフレームから、オブジェクトの周りに位置するバウンディングボックス内の運動情報を表す輪郭画像のシーケンスを決定する。バウンディングボックスを用いて、各チャンク内の１つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成する。クロップされた輪郭画像及びクロップされた画像を、各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク（ＲＮＮ）に渡す。

本開示の１つの実施の形態は、シーンのビデオからシーン内のオブジェクトの関心アクションを検出する方法を実行する、コンピューターによって実行可能なプログラムが具現化された非一時的コンピューター可読ストレージ媒体である。ビデオは、複数のチャンクに分割されたシーンのビデオシーケンスとすることができ、各チャンクは連続ビデオフレームを含む。本方法は、プロセッサによってシーンからビデオを取得することを含み、ビデオは画像のシーケンスを含むことができる。プロセッサによってビデオ内のオブジェクトを追跡する。ビデオの各オブジェクト及び各チャンクについて、プロセッサは、ビデオシーケンスのビデオフレームから、オブジェクトの周りに位置するバウンディングボックス内の輪郭画像のシーケンスを決定し、バウンディングボックスを用いて、各チャンク内の１つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成し、クロップされた輪郭画像及びクロップされた画像を、プロセッサと通信する出力インターフェースを介して各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク（ＲＮＮ）に渡すように構成される。

ここに開示されている実施の形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、その代わり、一般的に、ここに開示されている実施の形態の原理を示すことに強調が置かれている。

本開示の１つの実施の形態による、シーンのビデオからシーン内のオブジェクトのアクションを検出する方法のブロック図を示す。本開示のいくつかの実施の形態による、シーンのビデオからシーン内のオブジェクトのアクションを検出する図１Ａの方法のいくつかの構成要素を示す概略図である。本開示のいくつかの実施の形態による、初期層としてのマルチストリーム畳み込みニューラルネットワーク（ＣＮＮ）と、単数又は複数の最終層としての長期短期記憶（ＬＳＴＭ）ネットワークとを含むリカレントニューラルネットワーク（ＲＮＮ）を示す概略図である。本開示のいくつかの実施の形態による、画像のシーケンスから入力画像を示すことによって輪郭画像の例を与える図である。本開示のいくつかの実施の形態による、入力画像から決定された輪郭画像を示すことによって輪郭画像の例を与える図である。本開示のいくつかの実施の形態によるＬＳＴＭセルを示す概略図である。本開示の実施の形態による、オブジェクトのアクションを検出する少なくとも１つの方法及びシステムの概略図である。本開示の実施の形態による、代替的なコンピューター又はプロセッサ構成を用いて実施することができる、図１Ａの方法を示すブロック図である。

上記で明らかにされた図面は、ここに開示されている実施の形態を記載しているが、この論述において言及されるように、他の実施の形態も意図されている。この開示は、限定ではなく代表例として例示の実施の形態を提示している。ここに開示されている実施の形態の原理の範囲及び趣旨に含まれる非常に多くの他の変更及び実施の形態を当業者は考案することができる。

以下の説明は、例示的な実施の形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施の形態の以下の説明は、１つ以上の例示的な実施の形態を実施することを可能にする説明を当業者に提供する。添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。以下の説明では、実施の形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施の形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施の形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、よく知られたプロセス、構造、及び技法は、実施の形態を不明瞭にしないように不必要な詳細なしで示される場合がある。さらに、様々な図面における同様の参照符号及び名称は、同様の要素を示す。

また、個々の実施の形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施の形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。

さらに、開示された主題の実施の形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、マシン可読媒体に記憶することができる。プロセッサ（複数の場合もある）が、それらの必要なタスクを実行することができる。

概説
本開示は、包括的には、コンピュータービジョン及びカメラ監視用途に関し、より詳細には、ビデオシーケンスのフレームから計算された輪郭画像のシーケンスを用いて運動情報を表すことによって、ビデオ内の或る特定の関心アクションを行う、人物等のオブジェクトのインスタンスを検出することに関する。

本開示は、アクション認識、イベント検出及びビデオ検索等のビデオ解析タスクの問題を克服する方法及びシステムを提供する。これらのビデオ解析タスクは、入力表現及び中間表現に依拠し、これらは計算するのに非常に時間がかかり、記憶するのに大量のメモリを必要とする。特に、本開示は、時間のかかる計算の最小化及びメモリストレージ／要件の低減の双方の観点から、ビデオ内のアクションを効率的に検出することができるアクション検出方法及びシステムを記載する。

特に、本開示は、ビデオシーケンスのフレームから計算された輪郭画像のシーケンスを用いて運動情報を表すことにより、数ある中でも、ビデオ内のアクションの高速でメモリ効率の良い検出器を提供することができるという認識に基づく。例えば、本開示は、特定のアクションの出現の、時間におけるロケーション特定（ビデオのいずれのフレームか）及び空間におけるロケーション特定（各フレームのどこか）に基づいて、ビデオにおけるアクション検出に対処する。実験を通じて、人物等の追跡されるオブジェクトの周りのクロップされた画像、及び複数のフレームにわたるクロップされた領域内の運動を表す輪郭画像のシーケンスを入力としてとる、リカレント接続を有する深層ニューラルネットワークを用いて、ビデオ内のアクションを検出することができることを認識した。オプティカルフローに基づく表現を用いる従来の手法から、そのような手法の計算コストが高く、すなわち、時間のかかる計算及び大量のメモリ及びストレージを必要とすることがわかった。これによって、これらの従来のアクション検出手法は、現実世界の用途にとって非実用的になっている。

本開示の別の態様は、従来のＲＮＮを用いて学習することができるものよりも長い持続時間を有するパターンを学習することができる、ＲＮＮの１つ以上の層として含まれる長期短期記憶（ＬＳＴＭ）ネットワークの使用を含む。本開示は、双方向ＬＳＴＭを用いたより良好な性能を提供することができ、これは、本開示が、過去のビデオフレーム及び未来のビデオフレームからの情報を用いてアクションを検出することができることを意味する。

方法及びシステム
図１Ａは、本開示の１つの実施の形態による、シーンのビデオからシーン内のオブジェクトのアクションを検出する方法１００のブロック図を示す。ビデオは、複数のチャンクに分割されたビデオシーケンスとすることができ、各チャンクは、連続ビデオフレームを含む。初期ステップ１２０は、プロセッサ１１０によってシーンからビデオを取得することを含み、ビデオは画像のシーケンスを含む。

ステップ１２２は、ビデオ内のオブジェクトを追跡することを含み、ビデオの各オブジェクト及び各チャンクについて、このステップは、ビデオシーケンスのビデオフレームから、オブジェクトの周りに位置するバウンディングボックス内の運動データを表す輪郭画像のシーケンスを決定するステップ１２５と、バウンディングボックスを用いて、各チャンク内の１つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成するステップ１２７とを更に含む。

最後に、ステップ１２８は、クロップされた輪郭画像及びクロップされた画像を、各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク（ＲＮＮ）に渡すことを含む。

図１Ｂは、本開示の１つの実施の形態による、シーンのビデオからシーン内のオブジェクトのアクションを検出する図１Ａの方法１００の構成要素を示す概略図である。特に、図１Ｂは、特定のアクションを行うシーン内の人物を検出する等、シーン１０５内のオブジェクト（複数の場合もある）１０７のアクションを検出する方法１００の基本動作を示す。ビデオカメラ１０４からのビデオデータ１０８が、画像のシーケンス１１５としてシーン１０５から取得され（１２０）、各画像はピクセルを含む。シーンは、アクションを行う１つ以上のオブジェクト１０７、例えば、階段を駆け上る人物又は何らかの他のアクションを含むことができる。ビデオデータは、プロセッサ１１０によって取得される。さらに、オブジェクト１０７のうちの１つ以上が追跡され（１２２）、各追跡されるオブジェクト１０７のバウンディングボックス１２３がビデオ画像の各チャンクにおいて推定される。例えば、チャンクは、６つの連続画像、５つ以下の画像、又は７つ以上の画像のシーケンスとすることができる。

画像は、バウンディングボックス１２３の範囲までクロップされ、輪郭画像のシーケンスが計算され（１２５）、バウンディングボックス１２３の範囲までクロップされる。結果として得られるクロップされた輪郭画像及びクロップされた画像１２７は、各関心アクションについて相対スコア１４０を出力するようにトレーニングされたリカレントニューラルネットワーク（ＲＮＮ）１３０に渡される。ステップは、メモリ（図示せず）に接続されたプロセッサ１１０において実行することができる。

本開示の実施の形態は、上記で開示されたような、ビデオ内のオブジェクトのアクションを検出する方法及びシステムを提供する。いくつかの実施の形態は、トレーニング段階及び試験段階を含み、トレーニング段階は、トレーニングデータからＲＮＮのパラメータを学習することを伴う。いくつかの実施の形態は、試験段階のみを含むことができる。例えば、以前にトレーニングされたＲＮＮを利用する、試験段階のみを有する方法が小型デバイスに埋め込まれ得る。

図２は、本開示の実施の形態による、初期層としてのマルチストリーム畳み込みニューラルネットワーク（ＣＮＮ）と、単数又は複数の最終層としての長期短期記憶（ＬＳＴＭ）ネットワークとを含むリカレントニューラルネットワーク（ＲＮＮ）を示す概略図である。

例えば、トレーニング段階中、図２に示すような、４つの独立した畳み込みニューラルネットワーク（ＣＮＮ）２２０をトレーニングする。各ＣＮＮは、４つのストリーム２１０、すなわち、追跡されるオブジェクトのロケーションの周りでクロップされたビデオ画像の運動ストリーム２１１及び外観ストリーム２１２、並びにフルフレーム（空間的にクロップされていない）ビデオ画像の運動ストリーム２１３及び外観ストリーム２１４のうちの１つを処理する。いくつかの実施の形態は、２つのストリーム、すなわち、追跡されるオブジェクトのロケーションの周りでクロップされたビデオ画像の運動ストリーム２１１及び外観ストリーム２１２のみを有する。これは、例えば、背景シーンが、ノイズを多く含むか、特徴がないか、又はそうでない場合、オブジェクトによって行われているアクションに無関係である事例に有用であり得る。

図２を更に参照すると、いくつかの実施の形態では、各畳み込みネットワーク（ＣＮＮ）は、ＶＧＧ（ビジュアルジオメトリグループ）アーキテクチャーを用いる。しかしながら、各ストリームについて、ＡｌｅｘＮｅｔアーキテクチャー又はＲｅｓＮｅｔアーキテクチャー等の他のＣＮＮアーキテクチャーも用いられ得る。

４つのネットワークは、ビデオ２００の連続した小さなチャンク２０１に対し、アクション分類のタスクを行う。例えば、各チャンクは、６つの連続ビデオフレームからなり得る。ＣＮＮの後に、投影層２３０が続く。この投影層は、全てのストリームのＣＮＮの出力を、単一の空間及び長期短期記憶（ＬＳＴＭ）セル２４０内に投影する。各チャンクの出力は、Ｎ個のアクションクラスＡ_１，Ａ_２，．．．，Ａ_Ｎの組からの検出されたアクションクラス２５０である。

それぞれ画像及び運動に１つずつの２つの畳み込みニューラルネットワーク（ＣＮＮ）が、追跡されるオブジェクトのバウンディングボックスにクロップされたビデオフレームからなるチャンクに対しトレーニングされる。クロップされたフレームは、アクションの近傍に制限されたバウンディングボックスをアクションに提供し、これは、アクションの分類に役立つ。いくつかの実施の形態では、このバウンディングボックスは、ピクセル単位の固定サイズを有し、これは、アクションの複数の実行にわたってオブジェクトをアラインするのに役立つ。

図２を更に参照すると、いくつかの好ましい実施の形態において、それぞれ画像及び運動に１つずつの２つの追加のＣＮＮが、空間的にクロップされていないビデオフレームからなるチャンクに対しトレーニングされる。すなわち、各フレームはビデオのフルフレームであり、このため、シーン内で行われているアクションの空間コンテキストが保持される。ネットワークを、マルチストリームニューラルネットワークと呼ぶ。なぜなら、このネットワークは、各々がビデオからの異なる情報ストリームを処理する複数の（例えば、４つの）ＣＮＮを有するためである。

これらの４つのネットワーク２２０がトレーニングされた後、４つのネットワークの出力の上の、全結合投影層２３０を学習し、これらの独立したストリームの共同表現を生成する。ＣＮＮがＶＧＧアーキテクチャーを用いるいくつかの実施の形態では、ネットワークの出力は、それらのｆｃ７層出力であり、ｆｃ７層は、ＶＧＧネットワークにおける最後の全結合層である。マルチストリームネットワークに、チャンク２０１の時系列として配列されたフルレングスビデオ２００が提供され、次に、投影層の出力の対応する時系列が、長期短期記憶（ＬＳＴＭ）ネットワーク２４０内に供給される。いくつかの実施の形態では、ＬＳＴＭネットワークは２つの方向に流れる、すなわち、ＬＳＴＭネットワークは、双方向性である。

双方向ＬＳＴＭネットワークは、２つの指向性ＬＳＴＭネットワーク（一方は時間において前方に連結され、他方は時間において後方に連結される）からなる。いくつかの実施の形態では、２つの指向性ＬＳＴＭネットワークの各々の後に、明確にするために図２には示されていない、各指向性ＬＳＴＭネットワークの隠れ状態の各々の上の全結合層が続き、その後にｓｏｆｔｍａｘ層が続き、各アクションに対応する中間スコアが得られる。最終的に、２つの指向性ＬＳＴＭのスコアが組み合わされ、例えば平均され、各特定のアクションのスコアが得られる。

図２を更に参照すると、アクション検出パイプラインにおいて、良好な性能を達成するのに重要な複数のコンポーネントが存在する。このタスクにおいて、ビデオ内に存在する空間情報及び長期時間情報を特徴付けるモデルを用いる。

バウンディングボックスを用いて決定された輪郭画像は、入力表現からロケーション変動を取り除くことによって多くのアクションの学習を容易にする基準画像を提供する。しかしながら、いくつかのアクションは、ロケーションに依拠する。静的ビデオカメラを用いて取得されるシーンの場合、これらのアクションは、常に、同じ画像ロケーションにおいて生じる。例えば、料理のビデオにおいて、洗浄及びゆすぎは、ほとんど常にシンクの付近で行われ、ドアの開放は、冷蔵庫又は食器棚の付近で行われる可能性が最も高い。これらの理由により、輪郭画像及びビデオフレームのクロップされたチャンク及びクロップされていないチャンクにおいて２つの別個の深層ネットワークをトレーニングする。

最初の２つのＣＮＮが、オブジェクトトラッカーからのボックスを用いてクロップされたクロップ画像に対しトレーニングされ、背景ノイズが低減され、輪郭画像及び画像領域のためのオブジェクト中心基準画像が提供される。他の２つのＣＮＮは、大域空間コンテキストを保持するために全体（空間的にフルフレームの）画像に対しトレーニングされる。

図３Ａ及び図３Ｂは、入力画像から決定された輪郭画像を示す。入力画像は、画像シーケンスからの画像を表す。輪郭画像は、深層ニューラルネットワークを用いてオブジェクト輪郭を決定する画像処理アルゴリズム等の画像処理アルゴリズムを用いて入力画像から決定することができる。

輪郭画像は、入力画像から自動的に計算することができ、画像内の各オブジェクトの境界に沿ったエッジを表す。さらに、輪郭画像は、入力画像内の色及びテクスチャを表さず、オブジェクトの境界のみを表す。輪郭画像のシーケンスは、対応する画像シーケンス内のオブジェクトの動きに関する最も関連した情報、すなわちオブジェクト輪郭のみを含む。

検出されるアクションは、多岐にわたる持続時間を有することができるので、本方法は、ＬＳＴＭネットワーク２４０を用いて、データ駆動形の方式でアクションの持続時間及び長期時間コンテキストを学習する。結果は、ＬＳＴＭが、精密アクション検出のために長期時間コンテキストを学習する際に効果的であることを実証する。

精密アクション検出のための追跡
ロケーションに無関係の独立した（クロップされた）外観及び運動ストリームのためにオブジェクトの周りのバウンディングボックスを提供するために、任意のオブジェクト追跡方法が用いられ得る。好ましい実施の形態では、状態ベースのトラッカーを用いて、ビデオ内のアクションを空間的にロケーション特定する。追跡されるバウンディングボックスのサイズを固定したままにして、バウンディングボックスの位置を更新し、バウンディングボックス内の差分画像エネルギーの大きさが最大になるようにする。差分画像エネルギーの大きさが閾値を超える場合、バウンディングボックスのロケーションが、差分画像エネルギーの大きさを最大にするロケーションであるように更新される。そうでない場合、オブジェクトは、低速に動いているか又は全く動いていない。オブジェクトが過度に低速に動いているか又は動いていないとき、前のチャンクからのバウンディングボックスが用いられ、すなわち、バウンディングボックスは更新されない。バウンディングボックスのロケーションは、チャンク１０１（例えば、６つの画像）が処理され、チャンクに対する運動及び外観特徴が決定され、バウンディングボックスがチャンク内の全ての画像にわたって静止していることを確実にした後に初めて更新される。

本発明の追跡方法は、カメラが静止しており、オブジェクトのサイズに関する妥当な推定値を有するときに効果的に適用することができる。これは、小売店、個人の自宅、又は精密アクション検出が用いられる可能性が高い監視設定において撮影される多くのビデオにとって実用的な仮定である。より難解な追跡状況では、より高度なトラッカーを用いることができる。

好ましい実施の形態では、バウンディングボックスは、オブジェクトを含む矩形領域であるが、バウンディングボックスは矩形である必要はない。より一般的には、バウンディングボックスは、追跡されているオブジェクトを含むか又はその大部分を含み、さらに、オブジェクトの周りの小さな領域を含む場合もある任意の形状の領域である。

双方向ＬＳＴＭネットワークを用いた長いシーケンスにおけるアクション検出
図４は、本開示のいくつかの実施の形態による、ＬＳＴＭセルを示す概略図である。ここで、リカレントニューラルネットワーク（ＲＮＮ）及び長期短期記憶（ＬＳＴＭ）セルの簡単な説明を与える。入力シーケンスｘ＝（ｘ_１，．．．，ｘ_Ｔ）を所与として、ＲＮＮは、隠れ状態表現ｈ＝（ｈ_１，．．．，ｈ_Ｔ）を用い、ＲＮＮが入力ｘを出力シーケンスｙ＝（ｙ_１，．．．，ｙ_Ｔ）にマッピングできるようにする。

この表現を求めるために、ＲＮＮは、以下の再帰方程式を反復する。

ここで、ｇは、活性化関数であり、Ｗ_ｘｈは、入力を隠れ状態にマッピングする重み行列であり、Ｗ_ｈｈは、２つの隣接する時間ステップにおける隠れ状態間の遷移行列であり、Ｗ_ｈｙは、隠れ状態ｈを出力ｙにマッピングする行列であり、ｂ_ｈ及びｂ_ｚは、バイアス項である。

図４を更に参照すると、離散隠れ状態表現を用いる隠れマルコフモデル（ＨＭＭ）と異なり、リカレントニューラルネットワークは、隠れ状態のための連続空間表現を用いる。しかしながら、トレーニングは、時間を通じた後方伝播を用いてネットワークをアンロールすることによって行われるため、長期シーケンス情報を学習するようにＲＮＮをトレーニングすることは困難である。この結果、勾配消失問題又は勾配爆発問題が生じる。

図４に示すように、この問題を回避するために、ＬＳＴＭセルは、ＬＳＴＭがいつ前の状態を保持し、いつその状態を忘却するかを学習するのに役立つ、メモリセルｃ_ｔ及び忘却ゲートｆ_ｔを有する。これによって、ＬＳＴＭネットワークは、長期時間情報を学習することが可能になる。ＬＳＴＭセルのための重み更新方程式は以下のとおりである。

ここで、σは、シグモイド関数であり、ｔａｎｈは、双曲線正接関数であり、ｉ_ｔ、ｆ_ｔ、ｏ_ｔ、及びｃ_ｔはそれぞれ、入力ゲート、忘却ゲート、出力ゲート、及びメモリセル活性化ベクトルである。

忘却ゲートｆ_ｔは、いつ（及びどの）情報がメモリセルｃ_ｔからクリアされるかを判定する。入力ゲートｉ_ｔは、いつ（及びどの）新たな情報がメモリに組み込まれるかを判定する。ｔａｎｈ層ｇ_ｔは、入力ゲートによって許可されるときにメモリセルに追加される値の候補組を生成する。

図４を更に参照すると、忘却ゲートｆ_ｔ、入力ゲートｉ_ｔ及び新たな候補値ｇ_ｔの出力に基づいて、メモリセルｃ_ｔが更新される。出力ゲートｏ_ｔは、メモリセル内のいずれの情報が、隠れ状態のための表現として用いられるかを制御する。隠れ状態は、メモリセル状態の関数と出力ゲートとの積として表される。

ＲＮＮのためのＬＳＴＭアーキテクチャーは、画像からの文作成、ビデオからのテキストビデオ記述のために、及び音声認識において用いられることに成功している。しかしながら、アクション認識のタスクの場合、ＬＳＴＭネットワークの性能は、依然として、改善された密な軌道にわたって生成されたフィッシャーベクトルに基づく分類器の性能に近い。ビデオからのアクション認識における精彩を欠いた性能に起因して、ＬＳＴＭを用いるＲＮＮがビデオからのアクション検出に用いられてこなかったおそれがある。アクション検出は、本開示の焦点である。

一般的に用いられるアクション認識データセットにおいて、ビデオは、各アクションの開始時点及び終了時点において又はその付近で開始及び終了するように時間的にトリミングされる。時間的にトリミングされたビデオは、通常、長さが短く、例えば、２秒〜２０秒である。このため、アクション認識タスクにおいて、データ駆動方式で学習されるのに十分な長期コンテキストが存在しない。この長期コンテキストは、アクションの予測持続時間、いずれのアクションが別のアクションに後続又は先行するか、及び時間的にアクション境界を越えて延在する他の長期運動パターン等の特性を含むことができる。

図４を更に参照すると、アクション認識タスクにおいて、ＬＳＴＭネットワークは、長期時間コンテキストにほとんどアクセスを有していない。しかしながら、精密アクション検出において、ビデオ持続時間は通常、約数分又は数時間である。このため、ＬＳＴＭは、シーケンスにおいて長期時間的力学をモデル化するので、ＬＳＴＭネットワークは、（以前に適用されていた）アクション認識よりも（本発明において適用する）アクション検出により適しているという重要な洞察が得られた。

双方向ＬＳＴＭネットワークは、未来のチャンク及び過去のチャンクの双方からの情報を統合して、ビデオシーケンスにおける各チャンクの予測を行う。したがって、双方向ＬＳＴＭネットワークが、アクションの時間的境界（すなわち、開始及び終了）の予測において、単方向ＬＳＴＭよりも良好であることを予測した。

本明細書に記載されるように、前方ＬＳＴＭネットワーク及び後方ＬＳＴＭネットワークは、各々、全てのアクションクラスのためのｓｏｆｔｍａｘスコアを生成し、２つのＬＳＴＭネットワークのｓｏｆｔｍａｘスコアを平均して、各アクションのスコア（確率）を得る。

長いシーケンスにおいてＬＳＴＭネットワークをトレーニングする間、時間を通じた後方伝播は、チャンクの短いシーケンスを用いて、固定ステップ数までのみ行うことができる。長期コンテキストを保持するために、チャンクの後続のシーケンスにおいてトレーニングする際に、チャンクの前のシーケンスにおける最後の要素の隠れ状態を保持する。

図５は、本開示の実施の形態による、オブジェクトのアクションを検出する少なくとも１つの方法及びシステムの概略図である。例えば、上記で説明したように、本方法のトレーニング段階は、リカレントニューラルネットワーク（ＲＮＮ）のトレーニングを含む。試験段階、すなわち、アクション検出において、オブジェクトのアクションを検出するために、既にトレーニングされたＲＮＮが用いられる。

図５は、特定のアクションを行うシーン内の人物の検出等、オブジェクトのアクションを検出するための方法及びシステム５００の基本動作を示す。例えば、方法５００は、シーン５０５の入力ビデオデータを生成する少なくとも１つのセンサー５０４を含むことができる。センサー５０４は、ビデオカメラ、又は入力ビデオデータを生成する何らかの他のデバイスとすることができる。センサー５０４は、時間、温度、及びシーン５０５に関する他のデータ等の他のデータを収集し得ることが予期される。

コンピューター５１４のコンピューター可読メモリ５１２は、センサー５０４によって生成された入力ビデオデータ５０１を記憶及び／又は提供することができる。センサー（複数の場合もある）５０４は、シーン５０５の入力ビデオデータ５０１を収集する。この入力ビデオデータ５０１は、任意選択で外部メモリ５０６に記憶されてもよく、又は入力インターフェース／プリプロセッサ５１１に直接送信され、次にプロセッサ５１０に送信されてもよい。

さらに、ビデオ５０１がシーン５０５から画像のシーケンス５１５として取得される（５２０）。ここで、各画像はピクセルを含む。シーン５０５は、アクションを行う１つ以上のオブジェクト５０７、例えば、階段を駆け上る人物を含むことができる。任意選択で、入力インターフェース／プリプロセッサ５１１に接続された外部メモリ５０６が存在してもよく、入力インターフェース／プリプロセッサ５１１はメモリ５１２に接続され、メモリ５１２は、上述したようなビデオの取得５２０に接続される。

さらに、オブジェクトのうちの１つ以上が追跡され（５２２）、追跡されるオブジェクトのバウンディングボックス５２３が、ビデオ画像の各チャンク内で推定される。例えば、非限定的な例として、チャンクは、６つの画像のシーケンスとすることができる。

画像は、バウンディングボックスの範囲までクロップされ、バウンディングボックス内で輪郭画像が計算される（５２５）。結果として得られるクロップされた輪郭画像及びクロップされた画像５２７は、各関心アクションについての相対スコア５６０を出力するようにトレーニングされたリカレントニューラルネットワーク（ＲＮＮ）５５０に渡される。

各関心アクションについての相対スコア５６０の出力時に、相対スコア５６０の出力は、メモリ５１２に記憶するか、又は出力インターフェース５６１を介して出力することができる。処理中、プロセッサ５１０は、記憶された命令、又は処理に関する他のデータを記憶又は検索するためにメモリ５１２と通信することができる。

図６は、本開示の実施の形態による、図１Ａの方法を示すブロック図であり、その方法は代替のコンピューター又はプロセッサ構成を用いて実施することができる。コンピューター／コントローラー６１１は、プロセッサ６４０、コンピューター可読メモリ６１２、ストレージ６５８、並びにディスプレイ６５２及びキーボード６５１を備えたユーザーインターフェース６４９を含み、それらは、バス６５６を通して接続されている。例えば、プロセッサ６４０及びコンピューター可読メモリ６１２と通信するユーザーインターフェース６４９は、ユーザーによるユーザーインターフェース６５７の面、すなわちキーボード面からの入力を受け取ると、データを取得し、コンピューター可読メモリ６１２内にデータを記憶する。

メモリ６１２は、プロセッサによって実行可能な命令、履歴データ、及び本開示の方法及びシステムによって利用することができる任意のデータを記憶することができることが企図される。プロセッサ６４０は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成とすることができる。プロセッサ６４０は、バス６５６により、１つ以上の入力デバイス及び出力デバイスに接続することができる。メモリ６１２としては、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、フラッシュメモリ、又は他の任意の好適なメモリシステムを挙げることができる。

図６を更に参照すると、記憶デバイス６５８は、プロセッサによって使用される補足データ及び／又はソフトウェアモジュールを記憶するように適合させることができる。例えば、記憶デバイス６５８は、本開示に関して上述したように、履歴データ及び他の関連データを記憶することができる。さらに又は代替的に、記憶デバイス６５８は、本開示に関して上述したようなデータと同様の履歴データを記憶することができる。記憶デバイス６５８としては、ハードドライブ、光ドライブ、サムドライブ、ドライブのアレイ又はそれらの任意の組み合わせを挙げることができる。

システムは、バス６５６を通して、システムをディスプレイデバイス（図示せず）に接続するように適合されたディスプレイインターフェース（図示せず）に任意選択的に連結することができ、ディスプレイデバイスとしては、特に、コンピューターモニター、カメラ、テレビ受像機、プロジェクター、又はモバイルデバイスを挙げることができる。

コントローラー６１１は、電源６５４を含むことができ、応用に応じて、電源６５４は、任意選択的にコントローラー６１１の外部に位置することができる。バス６５６を通して、ディスプレイデバイス６４８に接続するように適合されたユーザー入力インターフェース６５７を連結することができ、ディスプレイデバイス６４８としては、特に、コンピューターモニター、カメラ、テレビ受像機、プロジェクター、又はモバイルデバイスを挙げることができる。プリンターインターフェース６５９もまた、バス６５６を通して接続し、印刷デバイス６３２に接続するように適合させることができ、印刷デバイス６３２としては、特に、液体インクジェットプリンター、固体インクプリンター、大型商用プリンター、サーマルプリンター、ＵＶプリンター又は昇華型プリンターを挙げることができる。ネットワークインターフェースコントローラー（ＮＩＣ）６３４が、バス６５６を通してネットワーク６３６に接続するように適合され、特に、何らかのデータは、コントローラー６１１の外部のサードパーティディスプレイデバイス、サードパーティ撮像デバイス及び／又はサードパーティ印刷デバイスにおいてレンダリングすることができる。

図６を更に参照すると、特に、何らかのデータは、ネットワーク６３６の通信チャネルを介して送信し、及び／又は記憶及び／又は更なる処理のために記憶システム６５８内に記憶することができる。さらに、何らかのデータは、受信機６４６（又は外部受信機６３８）から無線で若しくは配線により受信し、又は送信機６４７（又は外部送信機６３９）を介して無線で若しくは配線により送信することができ、受信機６４６及び送信機６４７両方が、バス６５６を通して接続される。さらに、バス６５６を介してコントローラー６１１にＧＰＳ６０１を接続することができる。コントローラー６１１は、入力インターフェース６０８を介して外部検知デバイス６４４及び外部入出力デバイス６４１に接続することができる。コントローラー６１１は、他の外部コンピューター６４２に接続することができる。出力インターフェース６０９を使用して、プロセッサ６４０から処理済みデータを出力することができる。

本開示の態様は、条件に基づいて経時的に記憶データを管理する双方向長期短期記憶ＬＳＴＭネットワークを更に含むことができる。条件は、経時的変化に基づいて記憶データを管理するための入力ゲート、忘却ゲート及び出力ゲートを含む。経時的な記憶データは、関心アクションに関連するデータに類似しており、この記憶データは、関心アクションの予測持続時間の特性の履歴、関心アクションに後続又は先行する関心アクションタイプの履歴、及び関心アクションのバウンディングボックス境界を越えて延びる長期運動パターンの履歴を含む。

上述した本開示の実施の形態は、数多くの方法のうちの任意のもので実施することができる。例えば、実施の形態は、ハードウェア、ソフトウェア、又はそれらの組み合わせを用いて実施することができる。請求項の要素を修飾する、特許請求の範囲における「第１」、「第２」等の序数の使用は、それ自体で、１つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する１つの請求項の要素を、同じ（序数の用語の使用を除く）名称を有する別の要素と区別するラベルとして用いられているにすぎない。

また、本開示の実施の形態は方法として具現することができ、その一例が提供されてきた。その方法の一部として実行される動作は、任意の適切な方法において順序化することができる。したがって、例示的な実施の形態において順次の動作として示される場合であっても、例示されるのとは異なる順序において動作が実行される実施の形態を構成することもでき、異なる順序は、いくつかの動作を同時に実行することを含むことができる。

Claims

シーンのビデオから該シーン内のオブジェクトのアクションを検出する方法であって、前記ビデオは、複数のチャンクに分割された前記シーンのビデオシーケンスであり、各チャンクは連続ビデオフレームを含み、該方法は、
プロセッサによって前記シーンから前記ビデオを取得することであって、前記ビデオは画像のシーケンスを含むことと、
前記プロセッサによって前記ビデオ内の前記オブジェクトを追跡することであって、前記ビデオの各オブジェクト及び各チャンクについて、
前記オブジェクトの周りに位置するバウンディングボックス内において、前記ビデオシーケンスのビデオフレームから輪郭画像のシーケンスを決定すること、および畳み込みニューラルネットワーク層によって運動データを表すことと、
前記バウンディングボックスを用いて、各チャンク内の１つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成することと、
を更に含むことと、
前記クロップされた輪郭画像及び前記クロップされた画像を、各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク（ＲＮＮ）層に渡すことと、
を含む、方法。
前記畳み込みニューラルネットワーク層は、前記クロップされた輪郭画像のシーケンス及び前記クロップされた画像を含む複数のストリームに対し動作する、請求項１に記載の方法。
前記畳み込みニューラルネットワーク層は、前記クロップされた輪郭画像のシーケンス及び前記クロップされた画像、並びに前記ビデオフレームの空間範囲全体を有する輪郭画像及び画像を含む複数のストリームに対し動作する、請求項１に記載の方法。
前記リカレントニューラルネットワーク層は、長期短期記憶（ＬＳＴＭ）セルを含む、請求項１に記載の方法。
前記リカレントニューラルネットワーク層は、双方向長期短期記憶（ＬＳＴＭ）セルを含む、請求項４に記載の方法。
前記オブジェクトは、人物、ロボット又は産業ロボットのうちの１つである、請求項１に記載の方法。
人物検出器及び人物トラッカーを更に含む、請求項６に記載の方法。
前記人物トラッカーは、前記ビデオ内の各人物の周りの少なくとも１つのバウンディングボックスを特定する、請求項７に記載の方法。
前記オブジェクトの運動データを表す前記ビデオシーケンスの前記ビデオフレームは、経時的に、前記オブジェクトの周りに位置する複数のバウンディングボックス内にある、請求項８に記載の方法。
前記バウンディングボックスは、追跡されている前記オブジェクトの少なくとも一部分又は全ての部分を含む形状を有する領域である、請求項１に記載の方法。
前記ビデオは、最初に、画像のシーケンス以外の形態で取得され、画像のシーケンスに変換される、請求項１に記載の方法。
前記方法は、前記ビデオにおける精密アクション検出のために用いられる、請求項１に記載の方法。
前記方法は、前記検出の前に前記ＲＮＮをトレーニングすること、又は前記ＲＮＮが、前記シーンの前記ビデオを取得する前に予めトレーニングされていることを含む、請求項１に記載の方法。
前記検出は、時間的アクション検出又は時空間的アクション検出の一方を含む、請求項１に記載の方法。
シーンのビデオから該シーン内のオブジェクトの関心アクションを検出するシステムであって、前記ビデオは、複数のチャンクに分割された前記シーンのビデオシーケンスであり、各チャンクは連続ビデオフレームを含み、該システムは、
前記シーンから前記ビデオを取得するプロセッサを備え、前記ビデオは画像のシーケンスを含み、前記プロセッサは、
前記ビデオ内の前記オブジェクトを追跡し、前記ビデオの各オブジェクト及び各チャンクについて、
前記オブジェクトの周りに位置するバウンディングボックス内において、前記ビデオシーケンスのビデオフレームから輪郭画像のシーケンスを決定し、畳み込みニューラルネットワーク層によって運動データを表し、
前記バウンディングボックスを用いて、各チャンク内の１つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成し、
前記クロップされた輪郭画像及び前記クロップされた画像を、各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク（ＲＮＮ）層に渡す、
ように構成される、システム。
方法を実行する、コンピューターによって実行可能なプログラムが具現化された非一時的コンピューター可読ストレージ媒体であって、前記方法は、シーンのビデオから該シーン内のオブジェクトの関心アクションを検出し、前記ビデオは、複数のチャンクに分割された前記シーンのビデオシーケンスであり、各チャンクは連続ビデオフレームを含み、前記方法は、
プロセッサによって前記シーンから前記ビデオを取得するステップであって、前記ビデオは画像のシーケンスを含む、ステップと、
前記プロセッサによって前記ビデオ内の前記オブジェクトを追跡するステップであって、前記ビデオの各オブジェクト及び各チャンクについて、前記プロセッサは、
前記オブジェクトの周りに位置するバウンディングボックス内において、前記ビデオシーケンスのビデオフレームから輪郭画像のシーケンスを決定し、
畳み込みニューラルネットワーク層によって運動データを表し、
前記バウンディングボックスを用いて、各チャンク内の１つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成する、
ように構成される、ステップと、
前記クロップされた輪郭画像及び前記クロップされた画像を、前記プロセッサと通信する出力インターフェースを介して各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク（ＲＮＮ）層に渡すステップと、
を含む、非一時的コンピューター可読ストレージ媒体。