JP2018125841A

JP2018125841A - ビデオシーケンスにおける動作認識

Info

Publication number: JP2018125841A
Application number: JP2017212552A
Authority: JP
Inventors: ニクラスダニエルソン，; Danielsson Niclas; サイモンモリン，; Molin Simon
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2016-11-14
Filing date: 2017-11-02
Publication date: 2018-08-09
Anticipated expiration: 2037-11-02
Also published as: US20180137362A1; EP3321844B1; TWI706377B; US10691949B2; KR20180054453A; TW201820264A; JP6963467B2; KR102156818B1; CN108073890A; CN108073890B; EP3321844A1

Abstract

【課題】ビデオシーケンスにおける動作認識のためのシステムを提供する。【解決手段】デジタルネットワークカメラ１００は、ビデオシーケンスの物体画像フレーム内の対象物体を特定するように構成された物体識別器１２４、第１の動作認識アルゴリズムを物体画像フレームに適用し、動作候補の存在を検出するように構成された、動作候補認識器１２６、ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの動作画像フレームを生成し、生成された動作ビデオシーケンスをサーバへ転送するように構成されたネットワークインターフェース１３０を備える。サーバ２００は、第２の動作認識アルゴリズムを動作ビデオシーケンスに適用し、それによって、動作候補が動作であることを確認又は拒否するように構成された、動作確認器２１０を備える。【選択図】図１

Description

本発明は、ビデオシーケンスにおける動作認識に関する。

ビデオシーケンスにおける動作認識は、ビデオシーケンス内の特定の予め規定された動作を検出する作業である。検出されるべき動作の例は、例えば、闘っている、走っている、食べている、スポーツの試合を行っている人々であり得る。通常、動作認識は、ビデオシーケンスをキャプチャしたデジタルビデオカメラで実行することが不適切な、過剰な処理パワーを必要とする。代わりに、動作認識は、通常、必要とされる処理パワーを有するサーバによって実行される。しかし、デジタルネットワークを介して大量のビデオを送信することは、大きなバンド幅を必要とする。

したがって、ビデオシーケンスにおける改良された動作認識が必要である。

上記に照らしてみると、本発明の目的は、ビデオシーケンスにおける改良された動作認識を提供することである。

第１の態様によれば、カメラによってキャプチャされたビデオシーケンスにおける動作認識のための方法が提供される。該方法は、カメラの電気回路によって、ビデオシーケンスの物体画像フレーム内の対象物体を特定すること、第１の動作認識アルゴリズムを物体画像フレームに適用し、それによって、動作候補の存在を検出すること、ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの動作画像フレームを生成することであって、そこからビデオデータが抽出されるところの複数の画像フレームのうちの１以上が、対象物体を含む、生成すること、及び、動作認識を実行するように構成されたサーバに動作ビデオシーケンスを転送すること、並びに、サーバの電気回路によって、第２の動作認識アルゴリズムを動作ビデオシーケンスに適用し、それによって、動作候補が予め規定された種類の動作であることを確認又は拒否することを含む。

動作認識における本アプローチは、有益である。何故ならば、それは、カメラとサーバとの間の通信において大き過ぎるバンド幅を使用するという問題なしに、動作認識のために必要とされる処理パワーが、２つの異なるデバイスにわたり分散されることを可能にするからである。更に、動作認識における本アプローチは、カメラのプロセッサに過剰にローディングすることなしに、同時に、全体のビデオシーケンスを常にサーバにストリームする必要なしに、プロセッサ集中（intense）動作認識を実行することを可能にする。したがって、本アプローチは、より少ない処理を要求する第１の種類の動作認識アルゴリズムを局所的にカメラで使用し、より多い処理を要求する第２の種類の動作認識アルゴリズムをサーバで使用することを可能にする。常にビデオをストリームするよりもむしろ、動作ビデオシーケンスを抽出し動作ビデオシーケンスのみを送信することによって、バンド幅が節約され得る。動作認識における本アプローチによれば、候補動作がカメラで検出され得る。候補動作が、動作ビデオシーケンスのサーバへの転送をトリガし、サーバで、より進化した動作認識解析が実行される。したがって、カメラでの動作認識の目的は、動作候補の検出をトリガすることである。動作候補の検出が、更なる解析のために、動作ビデオシーケンスのサーバへの転送をトリガし、動作候補が実際の動作であることを確認又は拒否する。

第１の動作認識アルゴリズムは、主として、物体画像フレーム内の文脈的及び／又は空間的情報を使用する文脈的及び／又は空間的動作認識に基づき得る。文脈的及び／又は空間的動作認識アルゴリズムは、通常、過剰な処理パワーを要求しない。したがって、その種のアルゴリズムを使用する動作認識は、より容易にカメラで局所的に行うことが可能である。

第２の動作認識アルゴリズムは、主として、動作ビデオシーケンスの複数の画像フレームの時間的情報を使用する時間的動作認識アルゴリズムに基づき得る。時間的動作認識アルゴリズムは、通常、動作を認識することにおいてより正確である。したがって、より正確な動作認識が実行され得る。

対象物体を含む動作画像フレームが、対象物体の少なくとも一部分を含むように、動作画像フレームを生成する動作は、ビデオシーケンスの複数の画像フレームをトリミングすることを含み得る。これは、カメラとサーバとの間のバンド幅を節約し得る。

対象物体を含む動作画像フレームが、対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、動作画像フレームを生成する動作は、ビデオシーケンスの複数の画像フレームをトリミングすることを含み得る。対象物体を少なくとも部分的に取り囲む背景を組み込むことによって、動作ビデオシーケンスの時間的だけではなく文脈的及び／又は空間的解析も実行され得る。

動作ビデオシーケンスを転送する動作は、対象物体に対する動作ビデオシーケンス内の座標を転送することを含み得る。座標は、どの１以上の画像フレームが対象物体を含むか、及び／又は、それぞれの画像フレーム内で対象物体がどこに配置されているかを指し示し得る。

該方法は、カメラの電気回路によって、ビデオシーケンス内の対象物体を検出することを更に含み得る。動作画像フレームを生成する動作は、対象物体が検出される前のある時点に関連するビデオシーケンスの第１の所定の数の画像フレームに関するビデオデータを抽出することを含み得る。動作画像フレームを生成する動作は、対象物体が検出された後のある時点に関連するビデオシーケンスの第２の所定の数の画像フレームに関するビデオデータを抽出することを含み得る。これは、動作がサーバにおいて認識されるための正しい時間的ウインドウが、サーバに送信されるチャンスを改良することができる。

カメラとサーバは、互いから距離を置いて配置された個別の物理的エンティティーであり得る。カメラとサーバは、デジタルネットワークを介して互いに通信するように構成され得る。

第２の態様によれば、ビデオシーケンスにおける動作認識のためのシステムが提供される。該システムは、ビデオシーケンスをキャプチャするように構成されたカメラと、動作認識を実行するように構成されたサーバとを備える。カメラは、ビデオシーケンスの物体画像フレーム内の対象物体を特定するように構成された物体識別器、第１の動作認識アルゴリズムを物体画像フレームに適用し、それによって、動作候補の存在を検出するように構成された、動作候補認識器、ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの動作画像フレームを生成するように構成された、ビデオ抽出器であって、そこからビデオデータが抽出されるところの複数の画像フレームのうちの１以上が、対象物体を含む、ビデオ抽出器、及び、動作ビデオシーケンスをサーバへ転送するように構成されたネットワークインターフェースを備える。サーバは、第２の動作認識アルゴリズムを動作ビデオシーケンスに適用し、それによって、動作候補が予め規定された種類の動作であることを確認又は拒否するように構成された、動作確認器を備える。

対象物体を含む動作画像フレームが、対象物体の少なくとも一部分を含むように、ビデオ抽出器は、ビデオシーケンスの複数の画像フレームをトリミングするように更に構成され得る。

対象物体を含む動作画像フレームが、対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、ビデオ抽出器は、ビデオシーケンスの複数の画像フレームをトリミングするように更に構成され得る。

物体識別器は、ビデオシーケンス内の対象物体を検出するように更に構成され得る。ビデオ抽出器は、対象物体が検出される前のある時点に関連するビデオシーケンスの第１の所定の数の画像フレームに関するビデオデータを抽出するように更に構成され得る。ビデオ抽出器は、対象物体が検出された後のある時点に関連するビデオシーケンスの第２の所定の数の画像フレームに関するビデオデータを抽出するように更に構成され得る。

上述した方法の特徴は、可能な場合にはこの第２の態様にも適用される。無用な繰り返しを避けるため、上述を参照すべし。

本発明の適用性の更なる範囲は、以下の詳細な説明から明らかになるであろう。しかし、この詳細な説明によって本発明の範囲内の様々な変更及び修正が当業者に明らかとなるため、詳細な説明及び具体例は、本発明の好適な実施形態を示しながらも単なる例として提示されることを理解されたい。

したがって、記載のデバイス及び記載の方法は異なる場合があるため、この発明は、記載のデバイスの特定の構成要素部品又は記載の方法の工程に限定されないことを理解されたい。また、本明細書で使用される用語は、特定の実施形態だけを説明することを目的としており、限定的であることを意図していないということも理解されるべきである。明細書及び添付の特許請求の範囲で使用されるように、冠詞「１つの（「ａ」、「ａｎ」）」、及び「前記（「ｔｈｅ」、「ｓａｉｄ」）」は、文脈が明らかにそうでないことを示さない限り、要素のうちの一又は複数が存在することを意味すると意図している点に留意しなければならない。従って、例えば、「部」（ａｕｎｉｔ）又は「当該部」（ｔｈｅｕｎｉｔ）に言及した場合、これは幾つかのデバイスなどを含んでもよい。更に、用語「含む（「ｃｏｍｐｒｉｓｉｎｇ」、「ｉｎｃｌｕｄｉｎｇ」、「ｃｏｎｔａｉｎｉｎｇ」）及び類似の表現は、他の要素又はステップを除外しない。

本発明の上記の態様及びその他の態様を、本発明の実施形態を示す添付の図面を参照しながら更に詳細に説明する。図面は発明を具体的な実施形態へと限定するものでなく、本発明の説明及び理解のためのものである。

図面に示すように、レイヤーと領域のサイズは図示目的のために誇張され、本発明の実施形態の一般構造を示すために提供されている。類似の参照番号は、全体を通して類似の要素を指す。

ビデオシーケンスにおける動作認識のためのシステムを示す。ビデオシーケンスにおける動作認識のための方法のブロックスキームである。

これより、本発明の現時点で好ましい実施形態を示す添付図面を参照して、本発明を以下により詳細に説明する。しかしながら本発明は多くの異なる形態で実施されることができ、本明細書で説明される実施形態に限定されるものと解釈されるべきではなく、これらの実施形態はむしろ、本開示が包括的で完全となるように提供されており、当業者に本発明の範囲を十分に伝えるためのものである。

図１は、ビデオシーケンスにおける動作認識のためのシステムを示している。該システムは、デジタルネットワークカメラ１００とサーバ２００を備える。デジタルネットワークカメラ１００は、デジタルネットワーク３００を介してサーバ２００に接続されている。デジタルネットワークカメラ１００とサーバ２００は、互いから距離を置いて配置された個別の物理的エンティティーであり、デジタルネットワーク３００を介して互いと通信するように構成されている。

デジタルネットワーク３００は、デジタルネットワーク３００に接続されたデバイス、例えば、デジタルネットワークカメラ１００とサーバ２００が、デジタルデータを交換することを可能にするネットワークに関する。デジタルネットワーク３００に接続されたデバイス間の接続は、ケーブル又は無線の何れかを使用して確立される。デジタルネットワークの非限定的な例は、インターネット、イントラネット、ローカルエリアネットワーク、及びセルラーネットワークである。デジタルネットワークの部分は、プライベートデジタルネットワークであってもよい。デジタルネットワークの部分は、パブリックデジタルネットワークであってもよい。プライベートデジタルネットワークは、（図示せぬ）ネットワークアクセス制限デバイスによって、パブリックデジタルネットワークに接続され得る。ネットワークアクセス制限デバイスは、プライベートデジタルネットワークを保護するためにインストールされたファイアウォールであってもよい。ネットワークアクセス制限デバイスは、ネットワークアドレス変換、ＮＡＴ、を実行するデバイスであってもよい。

デジタルネットワークカメラ１００は、情景を描くビデオシーケンスをキャプチャするように配置されている。デジタルネットワークカメラ１００は、ハウジング１１２、レンズ１１４、及び電気回路１０２を備える。デジタルネットワークカメラ１００は、ビデオシーケンスをキャプチャし処理する（そして、恐らく記憶もする）ように構成されている。電気回路１０２は、画像センサ１１６、画像処理ユニット１１８、物体識別器１２４、動作候補認識器１２６、ビデオ抽出器１２７、及びネットワークインターフェース１３０を備える。電気回路１０２は、中央処理装置（ＣＰＵ）１２０、デジタルデータ記憶媒体（メモリ）１２２、及びエンコーディングユニット１２８のうちの１以上を更に備え得る。画像処理ユニット１１８、物体識別器１２４、動作候補認識器１２６、ビデオ抽出器１２７、及び／又はエンコーディングユニット１２８のうちの何れか１つは、専用ハードウェア電気回路及び／又はソフトウェアモジュールとして実装され得る。ソフトウェアが実装される場合には、そのソフトウェアがＣＰＵ１２０で実行され得る。ＣＰＵ１２０は、デジタルデータ処理を実行するための任意の適切なＣＰＵであり得る。任意の専用ハードウェア電気回路が、専用プロセッサ又はＣＰＵ１２０で実行されるソフトウェア部分を部分的に備え得ることも留意されたい。

メモリ１２２は、任意の種類の揮発性又は不揮発性メモリであり得る。更に、メモリ１２２は、複数のメモリユニットを備え得る。複数のメモリユニットのうちの少なくとも１つは、例えば、ビデオシーケンスのコンテンツを処理する間にデータをバッファリングするためのバッファメモリとして使用され得る。

デジタルネットワークカメラ１００は、ネットワークインターフェース１３０を介してデジタルネットワーク３００と接続されるように配置されている。デジタルネットワークとの接続は、有線又は無線であり得る。したがって、ネットワークインターフェース１３０は、モジュラーコネクタ、例えば、ＲＪ４５コネクタを受け入れるように構成された、イーサネットポート、モジュラーポートなどの、１０／１００／１０００Ｍｂｐｓデータトラフィックに適合されたネットワークポートであり得る。通常は、（例えば、ｃａｔ５、ｃａｔ５ｅ、又はｃａｔ６の）ツイストペアケーブルなどの、ネットワークケーブルを受け入れるように、そのようなＲＪ４５コネクタポートが配置されている。代替的に、ネットワークポートのＩ／Ｏ手段は、モバイルインターネット通信標準（例えば、１Ｇ、２Ｇ、２．５Ｇ、２．７５Ｇ、３Ｇ、３．５Ｇ、３．７５Ｇ、３．９Ｇ、４Ｇ，５Ｇ）を使用する又はＷｉＦｉを使用する、無線Ｉ／Ｏ手段であり得る。

カメラの構成要素、すなわち、レンズ１１４と画像センサ１１６は、生画像をキャプチャするように配置され得る。各生画像は、異なる波長の光として表され得る。それらの光は異なる物体及び物体の部分から発している。これらの生画像は、その後、アナログからデジタルフォーマットへ変換され、画像処理ユニット１１８へ転送される。本実施形態によれば、デジタルネットワークカメラ１００は、写真画像をキャプチャするように構成されたカメラである。代替的に、又は組み合わされて、デジタルネットワークカメラ１００の画像センサ１１６は、熱画像をキャプチャするように構成され得る。更に代替的に、又は組み合わされて、デジタルネットワークカメラ１００の画像センサ１１６は、レーダー画像をキャプチャするように構成され得る。したがって、デジタルネットワークカメラ１００によってキャプチャされたビデオシーケンスは、写真画像の表示、熱画像の表示、レーダー画像の表示、又はそれらの組み合わせであり得る。

物体識別器１２４は、カメラ１００によってキャプチャされたビデオシーケンス内の対象物体を検出するように構成されている。対象物体は、例えば、人間、顔、輸送体、コンベヤベルト上の製品、動物、地形構成要素、武器などであり得る。物体識別器１２４は、検出された対象物体を分類するように更に構成され得る。対象物体は、例えば、特定の種類の物体に属するように分類され得る。特定の種類の物体の例は、特定の種類の、人間、顔、輸送体、製品である。物体識別器１２４は、対象物体が最初に検出されたところの、ビデオシーケンス内のある時点を特定するように更に構成され得る。これに関連して、メモリ１２２は、所定の数の画像フレームを記憶するように構成された、画像フレームバッファとして更に使用され得る。したがって、対象物体が最初に検出されたところの、ビデオシーケンス内のある時点に先立つ画像フレームを表す画像フレームは、画像フレームバッファとして働くメモリ１２２内に記憶され得る。

物体識別器１２４は、ビデオシーケンスの１以上の画像フレーム内の対象物体を特定するように更に構成されている。対象物体が特定された画像フレームは、本明細書において物体画像フレームと称されることになる。

ビデオシーケンスにおける動作認識は、ビデオシーケンス内の１以上の予め規定された種類の動作を検出する作業である。予め規定された種類の動作の例は、闘っている、走っている、食べている、特定の試合を行っている人間などである。予め規定された種類の動作の他の例は、酒気帯び運転の検出、ジャンプの検出、怒りの検出、笑いの検出、手信号の検出、落下の検出、徘徊の検出、歩き方の検出、威嚇行為の検出、疑わしい挙動の検出（例えば、異常な又は普通でない挙動の検出）である。

動作認識は、静止画像の文脈的及び／若しくは空間的解析又は時間的解析（又は２つの組み合わせ）によって実行され得る。文脈的及び／又は空間的動作認識アルゴリズムは、静止画像、例えば、ビデオシーケンスの単一の画像フレームで実行される。時間的動作認識アルゴリズムは、ビデオシーケンスの複数の画像フレームで実行される。

文脈的動作認識アルゴリズムの一実施例は、Georgia Gkioxari, Ross Girshick and Jitendra Malikによって「Contextual Action Recognition with R*CNN」; arXiv: 1505.01197内で開示されている。文脈的及び／又は空間的動作認識アルゴリズムと時間的動作認識アルゴリズムの両方の動作認識アルゴリズムの更なる実施例は、例えば、CN102855462、CN103106394内で、及び、Karen Simonyan and Andrew Zissermanによって「Two-Stream Convolutional Networks for Action Recognition in Videos」; arXiv: 1406.2199内で説明されている。

したがって、動作認識は、２つの主たるアプローチ、すなわち、静止画像の文脈的及び／又は空間的解析と時間的解析とを有する。最も有望なアプローチが、基本的な動作認識アルゴリズムとして時間的解析を使用する一方で、静止画像のアプローチは、ある場合にはかなり良く働く。しかし、時間的動作認識は、難しく、例えば、リカレントニューラルネットワークを使用する、非常に処理が集中するアルゴリズムを含む。これは、そのような時間的動作認識アルゴリズムが、デジタルネットワークカメラ１００などの組み込みデバイスで実行されるのを不適当なものとする。

本発明は、しばしば、穏当に処理が集中する文脈的及び／又は空間的動作認識アルゴリズムと、処理が集中する時間的動作認識アルゴリズムとの間の、相乗効果を使用することを対象としている。第１の動作認識アルゴリズムは、動作候補を見つけるためにデジタルネットワークカメラ１００で実行され、第２の動作認識アルゴリズムは、動作候補が実際の動作であることを確認又は拒否するためにサーバ２００で実行される。第２の動作認識アルゴリズムは、第１の動作認識アルゴリズムよりも多い処理を要求する。第１の動作認識アルゴリズムは、主として、文脈的及び／又は空間的動作認識に基づいている。非限定的な例として、第１の動作認識アルゴリズムは、文脈的及び／又は空間的動作認識アルゴリズムのみに基づき得る。第２の動作認識アルゴリズムは、主として、時間的動作認識に基づいている。しかし、第２の動作認識アルゴリズムは、文脈的及び／又は空間的動作認識の要素を含み得る。

動作候補認識器１２６は、第１の動作認識アルゴリズムを、物体識別器１２４によって特定された物体画像フレームのうちの少なくとも１つへ適用するように構成されている。第１の動作認識アルゴリズムを適用することによって、動作候補の存在が検出される。動作候補認識器１２６によって実行される第１の動作認識アルゴリズム解析は、動作の種類を検出する必要はない。それは、無印の（generic）動作候補を検出することを必要とするだけである。しかし、第１の動作認識アルゴリズムは、異なる種類の動作についてフィルタリングするように構成されてもよい。したがって、第１の動作認識アルゴリズムを適用することによって、所定の種類の動作の動作候補の存在が検出され得る。

第１の動作認識アルゴリズムを適用することによって、動作候補認識器１２６は、動作を示すように見える普通ではない姿勢を検出するように構成され得る。したがって、動作に対する動作候補を見つけることができる。更に、動作候補認識器１２６は、予め規定された種類の動作に対する動作候補を見つけるために、検出された姿勢をフィルタリングするように構成され得る。第１の動作認識アルゴリズムは、比較的軽いアルゴリズムである。ある程度まで誤検出が許容される。動作候補の検出は、第２の動作認識アルゴリズムを使用する、より進化した動作認識解析を動機付ける。したがって、動作候補認識器１２６は、動作の可能性があるものについてトリガし、又は動作候補を本明細書で言及されているようにトリガするように構成される。

動作候補を検出することは、動作候補を含むビデオシーケンスの一部分である動作ビデオシーケンスをサーバ２００へ送信することをトリガする。それは、第２の動作認識アルゴリズムを動作ビデオシーケンスに適用することによって、動作候補が実際の動作であるか否かを判定するためである。

ビデオ抽出器１２７は、動作ビデオシーケンスの動作画像フレームを生成するように構成されている。動作ビデオシーケンスは、動作候補を含むビデオシーケンスの一部分である。動作ビデオシーケンスは、ビデオシーケンスと同じフレーム速度を有し得る。動作ビデオシーケンスは、ビデオシーケンスのフレーム速度よりも小さいフレーム速度を有してもよい。すなわち、動作ビデオシーケンスは、ビデオシーケンスよりも低い秒当たりのフレーム数、ｆｐｓ、を有するフレーム速度を有する。例えば、ビデオシーケンスのフレーム速度は６０ｆｐｓであり、動作ビデオシーケンスのフレーム速度は３０ｆｐｓであり得る。

本明細書で動作画像フレームと呼ばれる、動作ビデオシーケンスの画像フレームは、ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって生成される。そこからビデオデータが抽出されるところの、複数の画像フレームのうちの１以上が、対象物体を含むように、ビデオ抽出器１２７は構成されている。したがって、複数の動作画像フレームのうちの少なくとも１以上は、（１以上の）物体画像フレームである。

ビデオ抽出器１２７は、対象物体が検出されたビデオシーケンス内の特定されたある時点よりも前のある時点に関連するビデオシーケンスの第１の所定の数の画像フレームに関するビデオデータを抽出するように更に構成され得る。したがって、ビデオシーケンスの画像フレームは、動作ビデオシーケンスにおける後の使用のためにメモリ１２２内へキャッシュされ得る。これは、第１の動作認識アルゴリズムの実行をトリガする対象物体を含む物体画像フレームと、動作ビデオシーケンス内に含まれる物体画像フレームに先立つ（１以上の）画像フレームと、の両方を含むことを可能にする。これは、動作ビデオシーケンスの時間的ウインドウが、対象物体によって実行される動作に関する全ての関連情報を含むチャンスを向上させる。非限定的な実施例として、画像フレームの第１の所定の数が、対象物体の種類又は動作候補の動作の種類のうちの１以上に応じて設定され得る。更に、更なる非限定的な実施例として、物体及び潜在的にその周囲の運動解析が使用されて、動作候補が開始したところの、より早い画像フレームを明らかにし得る。これによって、相対的に大きいプリバッファから、第２の動作認識に対して実際に関連するような画像フレームのみを抽出することを可能にする。したがって、画像フレームの第１の所定の数は、動的に設定され得る。

ビデオ抽出器１２７は、対象物体が検出されたビデオシーケンス内の特定されたある時点よりも後のある時点に関連するビデオシーケンスの第２の所定の数の画像フレームに関するビデオデータを抽出するように更に構成され得る。これは、第１の動作認識アルゴリズムの実行をトリガする対象物体を含む物体画像フレームと、動作ビデオシーケンス内に含まれる物体画像フレームに続く（１以上の）画像フレームと、の両方を含むことを可能にする。これは、動作ビデオシーケンスの時間的ウインドウが、対象物体によって実行される動作に関する全ての関連情報を含むチャンスを向上させる。画像フレームの第２の所定の数が、対象物体の種類又は動作候補の動作の種類のうちの１以上に応じて設定され得る。更に、更なる非限定的な実施例として、物体及び潜在的にその周囲の運動解析が使用されて、動作候補が終了したところの、画像フレームを明らかにし得る。これによって、第２の動作認識に対して実際に関連するような画像フレームのみを抽出することを可能にする。したがって、画像フレームの第２の所定の数は、動的に設定され得る。

ビデオ抽出器１２７は、対象物体に対する動作ビデオシーケンス内の座標に関する情報を抽出するように更に構成され得る。座標は、どの１以上の画像フレームが対象物体を含むか、及び／又は、それぞれの画像フレーム内で対象物体がどこに配置されているかを指し示し得る。これらの座標は、動作ビデオシーケンスと共にサーバへ転送され得る。

ビデオ抽出器１２７は、動作画像フレームを生成するときに、複数の画像フレームのビデオデータをトリミングするように更に構成され得る。対象物体を含む動作画像フレームが、対象物体の少なくとも一部分を含むように、複数の画像フレームのビデオデータはトリミングされ得る。更に、対象物体を含む動作画像フレームが、対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、複数の画像フレームのビデオデータはトリミングされ得る。対象物体を少なくとも部分的に取り囲む背景を組み込むことによって、動作ビデオシーケンスの時間的だけではなく文脈的及び／又は空間的解析も実行され得る。

エンコーディングユニット１２８は、ビデオエンコーディングを使用してビデオシーケンスのデジタルビデオデータをエンコードするように構成されている。ビデオエンコーディングの非限定的な実施例は、ＩＳＯ／ＭＰＥＧ又はＩＴＵ‐Ｈ．２６Ｘ群のビデオエンコーディング標準である。エンコーディングユニット１２８は、これ以降、エンコードされたデジタルビデオデータと称される、デジタルビデオデータの画像をエンコードするように構成されている。エンコードされたデジタルビデオデータは、ネットワークインターフェース１３０を介して、デジタルネットワーク３００を通して直接的に転送され得る。代替的に、エンコードされたデジタルビデオデータは、ネットワークインターフェース１３０を介した、デジタルネットワーク３００を通る、後の送信のためにメモリ１２２内に記憶され得る。エンコーディングユニット１２８は、動作ビデオシーケンスがサーバ２００へ転送される前に、動作ビデオシーケンスをエンコードするように構成され得る。

ネットワークインターフェース１３０は、動作ビデオシーケンスをサーバ２００へ転送するように構成されている。

サーバ２００は、動作確認器２１０を備えた電気回路２０１を備える。電気回路２０１は、ネットワークインターフェース２０２、デコーディングユニット２０４、中央処理装置（ＣＰＵ）２０６、及びデジタルデータ記憶媒体（メモリ）２０８のうちの１以上を更に備え得る。デコーディングユニット２０４及び／又は動作確認器２１０のうちの何れか１つは、専用ハードウェア電気回路及び／又はソフトウェアモジュールとして実装され得る。ソフトウェアが実装される場合には、そのソフトウェアがＣＰＵ２０６で実行され得る。ＣＰＵ２０６は、デジタルデータ処理を実行するための任意の適切なＣＰＵであり得る。任意の専用ハードウェア電気回路が、専用プロセッサ又はＣＰＵ２０６で実行されるソフトウェア部分を部分的に備え得ることも留意されたい。

サーバ２００は、ネットワークインターフェース２０２を介してデジタルネットワーク３００と接続されるように配置されている。デジタルネットワークとの接続は、有線又は無線であり得る。したがって、ネットワークインターフェース２０２は、モジュラーコネクタ、例えば、ＲＪ４５コネクタを受け入れるように構成された、イーサネットポート、モジュラーポートなどの、１０／１００／１０００Ｍｂｐｓデータトラフィックに適合されたネットワークポートであり得る。通常は、（例えば、ｃａｔ５、ｃａｔ５ｅ、又はｃａｔ６の）ツイストペアケーブルなどの、ネットワークケーブルを受け入れるように、そのようなＲＪ４５コネクタポートが配置される。代替的に、ネットワークポートのＩ／Ｏ手段は、モバイルインターネット通信標準（例えば、１Ｇ、２Ｇ、２．５Ｇ、２．７５Ｇ、３Ｇ、３．５Ｇ、３．７５Ｇ、３．９Ｇ、４Ｇ，５Ｇ）又はＷｉＦｉを使用する、無線Ｉ／Ｏ手段であり得る。

動作ビデオシーケンスがエンコードされている場合には、デコーディングユニット２０４が、エンコードされたビデオシーケンスをデコードするように構成される。したがって、デコーディングユニット２０４は、ビデオデコーディングを使用してビデオシーケンスのデジタルビデオデータをデコードするように構成されている。

メモリ１２２は、任意の種類の揮発性又は不揮発性メモリであり得る。更に、メモリ１２２は、複数のメモリユニットを備え得る。複数のメモリユニットのうちの少なくとも１つは、例えば、動作ビデオシーケンスを処理する間にデータをバッファリングするためのバッファメモリとして使用され得る。メモリ１２２は、動作ビデオシーケンスの全部又は一部を更に記憶し得る。

動作確認器２１０は、第２の動作認識アルゴリズムを動作ビデオシーケンスへ適用するように構成されている。それによって、動作候補が実際の動作であることが確認又は拒否され得る。特に、動作候補が予め規定された種類の動作であることが確認又は拒否され得る。動作確認器２１０によって実行される動作認識は、必ずしもリアルタイムで実行される必要はない。動作は、常に進行中であるよりもむしろ短い時間のイベントなので、重要なことは、特定の種類の動作に対する警報が挙げられるべきか否かを判断することである。

図２を参照すると、カメラ１００によってキャプチャされたビデオシーケンスにおける動作認識のための方法が示されている。該方法は、カメラ（１００）の電気回路１０２によって、
ビデオシーケンスの物体画像フレーム内の対象物体を特定すること（Ｓ５０１）、
第１の動作認識アルゴリズムを物体画像フレームに適用し（Ｓ５０２）、それによって、動作候補の存在を検出すること、
ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの動作画像フレームを生成すること（Ｓ５０４）であって、そこからビデオデータが抽出されるところの複数の画像フレームのうちの１以上が、対象物体を含む、生成すること、及び
動作ビデオシーケンスをサーバ２００へ転送すること（Ｓ５０６）を含む。

該方法は、サーバ２００の電気回路２０１によって、第２の動作認識アルゴリズムを動作ビデオシーケンスに適用し（Ｓ５０８）、それによって、動作候補が予め規定された種類の動作であることを確認又は拒否することを更に含む。

対象物体を含む動作画像フレームが、対象物体の少なくとも一部分を含むように、動作画像フレームを生成する動作（Ｓ５０４）は、ビデオシーケンスの複数の画像フレームをトリミングすることを含み得る。

対象物体を含む動作画像フレームが、対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、動作画像フレームを生成する動作（Ｓ５０４）は、ビデオシーケンスの複数の画像フレームをトリミングすることを含み得る。

動作ビデオシーケンスを転送する動作（５０６）は、対象物体に対する動作ビデオシーケンス内の座標を転送することを含み得る。座標は、どの１以上の画像フレームが対象物体を含むか、及び／又は、それぞれの画像フレーム内で対象物体がどこに配置されているかを指し示し得る。

該方法は、カメラ１００の電気回路１０２によって、ビデオシーケンス内の対象物体を検出すること（Ｓ５００）を更に含み得る。動作画像フレームを生成する動作（Ｓ５０４）は、対象物体が検出される前のある時点に関連するビデオシーケンスの第１の所定の数の画像フレームに関するビデオデータを抽出することを含み得る。動作画像フレームを生成する動作（Ｓ５０４）は、対象物体が検出された後のある時点に関連するビデオシーケンスの第２の所定の数の画像フレームに関するビデオデータを抽出することを含み得る。

当業者は、本発明が如何なる意味においても、上述した好ましい実施形態に限定されないことを理解するであろう。むしろ、添付の特許請求項の範囲内で多くの修正例及び変形例が可能である。

例えば、動作候補が実際の動作であることを確認した後で、サーバ２００は、警報トリガを送信するように構成され得る。警報トリガは、デジタルネットワークカメラ１００内での更なる処理のために、デジタルネットワークカメラ１００へ送信され得る。例えば、デジタルネットワークカメラ１００は、警報トリガを受信した後で、カメラの設定を変更するように構成され得る。変更され得るカメラの設定の非限定的な例は、フレーム速度、解像度、光感受性、ＨＤＲへのスイッチ、標準メッセージを用いてカメラに接続されたスピーカーをトリガする、対象物体のＰＴＺ追跡を開始する、検出された物体が幾つかのカメラで追跡され得るように検出された物体のための進化した外観モデルの生成をトリガする、レーダー追跡を開始する、熱モードへのスイッチ、更なる動作認識のための閾値を変更する、又は関連した種類のフォローアップ動作をチェックする（例えば、人が倒れたならば、「再度立ち上がる」動作の検索を開始する、及び、彼が特定期間の閾値内に立ち上がらなければ警報をトリガする）ことである。

代替的に、又は組み合わされて、警報トリガが、ビデオ管理センター（ＶＭＳ）へ送信され得る。警報トリガは、予め規定された種類の動作が生じたという通知を送信するためにＶＭＳで使用され得る。

更に、サーバ２００は、様々な種類のデバイス内に実装され得る。サーバ２００として実装されているデバイスの非限定的な例は、専用コンピュータ、別のカメラデバイス、ビデオ管理システム、クラウドサーバ、カメラの近くのアナリティクスボックス（analytics box）、アクセス制御ユニット、計算能力を有するＩｏＴデバイスである。更に、サーバの機能が、種々のデバイスへ分散され得る。複数のプロセッサで実行されるソフトウェアコード部分として少なくとも部分的に実装された動作確認器２１０の場合では、特に、そうである。

更に、対象物体は、ビデオシーケンスの複数の物体画像フレーム内で特定され得る。第１の動作認識アルゴリズムは、その後、複数の物体画像フレームの各々に個別に適用され得る。第１の動作認識アルゴリズムの個別の適用の結果は、その後、動作候補を見つけるために使用され得る。例えば、複数の画像の個別の解析は、ある人の脚が常に異なる角度にあることを明らかにし得る。これは、その人が歩いており又は走っていることさえ示す。動作ビデオシーケンスの動作画像フレームは、その後、ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって生成される。そこからビデオデータが抽出されるところの、複数の画像フレームのうちの１以上は、対象物体を含む。

加えて、当業者は、特許請求される本発明を実施する際に、図面、開示内容、及び添付の特許請求項を精査することにより、開示された実施形態の変形例を理解し実行することが可能である。

Claims

カメラ（１００）によってキャプチャされたビデオシーケンスにおける動作認識のための方法であって、
前記カメラ（１００）の電気回路（１０２）によって、
前記ビデオシーケンスの画像フレーム内の対象物体を特定すること、
第１の動作認識アルゴリズムを前記対象物体が特定された前記画像フレームに適用して、動作候補の存在を検出することであって、前記第１の動作認識アルゴリズムが主として前記ビデオシーケンスの単一の画像フレーム内の文脈的及び／又は空間的情報を使用する静止画像の文脈的及び／又は空間的動作認識アルゴリズムに基づき、前記単一の画像フレームが前記対象物体を含む、検出すること、
前記ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの画像フレームを生成することであって、前記ビデオデータが抽出されるところの前記複数の画像フレームのうちの１以上が、前記対象物体を含む、生成すること、及び
動作認識を実行するように構成されたサーバ（２００）へ前記動作ビデオシーケンスを転送すること、並びに
前記サーバの電気回路（２０１）によって、
第２の動作認識アルゴリズムを前記動作ビデオシーケンスに適用して、前記動作候補が予め規定された種類の動作であることを確認又は拒否することを含む、方法。
前記第２の動作認識アルゴリズムが、主として、前記動作ビデオシーケンスの複数の画像フレームの時間的情報を使用する時間的動作認識アルゴリズムに基づく、請求項１に記載の方法。
前記対象物体を含む前記画像フレームが、前記対象物体の少なくとも一部分を含むように、前記動作ビデオシーケンスの前記画像フレームを生成する動作が、前記ビデオシーケンスの前記複数の画像フレームをトリミングすることを含む、請求項２に記載の方法。
前記対象物体を含む前記動作ビデオシーケンスの前記画像フレームが、前記対象物体を少なくとも部分的に取り囲む背景の一部分を含む、請求項３に記載の方法。
前記動作ビデオシーケンスを転送する動作が、前記対象物体に対する前記動作ビデオシーケンス内の座標を転送することを含む、請求項１から４のいずれか一項に記載の方法。
前記カメラの前記電気回路によって、
前記ビデオシーケンス内の対象物体を検出することを更に含み、
前記動作ビデオシーケンスの前記画像フレームを生成する動作が、前記対象物体が検出される前のある時点に関連する前記ビデオシーケンスの第１の所定の数の画像フレームに関するビデオデータを抽出することを含む、請求項１から５のいずれか一項に記載の方法。
前記カメラの前記電気回路によって、
前記ビデオシーケンス内の対象物体を検出することを更に含み、
前記動作ビデオシーケンスの前記画像フレームを生成する動作が、前記対象物体が検出された後のある時点に関連する前記ビデオシーケンスの第２の所定の数の画像フレームに関するビデオデータを抽出することを含む、請求項１から６のいずれか一項に記載の方法。
前記カメラと前記サーバが、互いから距離を置いて配置された個別の物理的エンティティーであり、デジタルネットワーク（３００）を介して互いと通信するように構成されている、請求項１から７のいずれか一項に記載の方法。
ビデオシーケンスにおける動作認識のためのシステムであって、
前記ビデオシーケンスをキャプチャするように構成されたカメラ（１００）と、動作認識を実行するように構成されたサーバ（２００）とを備え、
前記カメラが、
前記ビデオシーケンスの画像フレーム内の対象物体を特定するように構成された、物体識別器（１２４）、
第１の動作認識アルゴリズムを前記対象物体が特定された前記画像フレームに適用して、動作候補の存在を検出するように構成された動作候補認識器（１２６）であって、前記第１の動作認識アルゴリズムが主として前記ビデオシーケンスの単一の画像フレーム内の文脈的及び／又は空間的情報を使用する静止画像の文脈的及び／又は空間的動作認識アルゴリズムに基づき、前記単一の画像フレームが前記対象物体を含む、動作候補認識器、
前記ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの画像フレームを生成するように構成された、ビデオ抽出器（１２７）であって、前記ビデオデータが抽出されるところの前記複数の画像フレームのうちの１以上が、前記対象物体を含む、ビデオ抽出器、及び
前記動作ビデオシーケンスを前記サーバへ転送するように構成された、ネットワークインターフェース（１３０）を備え、
前記サーバが、
第２の動作認識アルゴリズムを前記動作ビデオシーケンスに適用して、前記動作候補が予め規定された種類の動作であることを確認又は拒否するように構成された、動作確認器（２１０）を備える、システム。
前記対象物体を含む前記ビデオシーケンスの前記画像フレームが、前記対象物体の少なくとも一部分を含むように、前記ビデオ抽出器（１２７）が、前記ビデオシーケンスの前記複数の画像フレームをトリミングするように更に構成されている、請求項９に記載のシステム。
前記対象物体を含む前記ビデオシーケンスの前記画像フレームが、前記対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、前記ビデオ抽出器（１２７）が、前記ビデオシーケンスの前記複数の画像フレームをトリミングするように更に構成されている、請求項９又は１０に記載のシステム。
前記物体識別器（１２４）が、前記ビデオシーケンス内の対象物体を検出するように更に構成され、前記ビデオ抽出器（１２７）が、前記対象物体が検出される前のある時点に関連する前記ビデオシーケンスの第１の所定の数の画像フレームに関するビデオデータを抽出するように更に構成されている、請求項９から１１のいずれか一項に記載のシステム。
前記物体識別器（１２４）が、前記ビデオシーケンス内の対象物体を検出するように更に構成され、前記ビデオ抽出器（１２７）が、前記対象物体が検出された後のある時点に関連する前記ビデオシーケンスの第２の所定の数の画像フレームに関するビデオデータを抽出するように更に構成されている、請求項９から１２のいずれか一項に記載のシステム。
前記第２の動作認識アルゴリズムが、主として、前記動作ビデオシーケンスの複数の画像フレームの時間的情報を使用する時間的動作認識アルゴリズムに基づく、請求項９から１３のいずれか一項に記載のシステム。