JP2018125841A - ビデオシーケンスにおける動作認識 - Google Patents

ビデオシーケンスにおける動作認識 Download PDF

Info

Publication number
JP2018125841A
JP2018125841A JP2017212552A JP2017212552A JP2018125841A JP 2018125841 A JP2018125841 A JP 2018125841A JP 2017212552 A JP2017212552 A JP 2017212552A JP 2017212552 A JP2017212552 A JP 2017212552A JP 2018125841 A JP2018125841 A JP 2018125841A
Authority
JP
Japan
Prior art keywords
motion
video sequence
target object
video
image frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017212552A
Other languages
English (en)
Other versions
JP6963467B2 (ja
JP2018125841A5 (ja
Inventor
ニクラス ダニエルソン,
Danielsson Niclas
ニクラス ダニエルソン,
サイモン モリン,
Molin Simon
サイモン モリン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Axis AB
Original Assignee
Axis AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Axis AB filed Critical Axis AB
Publication of JP2018125841A publication Critical patent/JP2018125841A/ja
Publication of JP2018125841A5 publication Critical patent/JP2018125841A5/ja
Application granted granted Critical
Publication of JP6963467B2 publication Critical patent/JP6963467B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Abstract

【課題】ビデオシーケンスにおける動作認識のためのシステムを提供する。【解決手段】デジタルネットワークカメラ100は、ビデオシーケンスの物体画像フレーム内の対象物体を特定するように構成された物体識別器124、第1の動作認識アルゴリズムを物体画像フレームに適用し、動作候補の存在を検出するように構成された、動作候補認識器126、ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの動作画像フレームを生成し、生成された動作ビデオシーケンスをサーバへ転送するように構成されたネットワークインターフェース130を備える。サーバ200は、第2の動作認識アルゴリズムを動作ビデオシーケンスに適用し、それによって、動作候補が動作であることを確認又は拒否するように構成された、動作確認器210を備える。【選択図】図1

Description

本発明は、ビデオシーケンスにおける動作認識に関する。
ビデオシーケンスにおける動作認識は、ビデオシーケンス内の特定の予め規定された動作を検出する作業である。検出されるべき動作の例は、例えば、闘っている、走っている、食べている、スポーツの試合を行っている人々であり得る。通常、動作認識は、ビデオシーケンスをキャプチャしたデジタルビデオカメラで実行することが不適切な、過剰な処理パワーを必要とする。代わりに、動作認識は、通常、必要とされる処理パワーを有するサーバによって実行される。しかし、デジタルネットワークを介して大量のビデオを送信することは、大きなバンド幅を必要とする。
したがって、ビデオシーケンスにおける改良された動作認識が必要である。
上記に照らしてみると、本発明の目的は、ビデオシーケンスにおける改良された動作認識を提供することである。
第1の態様によれば、カメラによってキャプチャされたビデオシーケンスにおける動作認識のための方法が提供される。該方法は、カメラの電気回路によって、ビデオシーケンスの物体画像フレーム内の対象物体を特定すること、第1の動作認識アルゴリズムを物体画像フレームに適用し、それによって、動作候補の存在を検出すること、ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの動作画像フレームを生成することであって、そこからビデオデータが抽出されるところの複数の画像フレームのうちの1以上が、対象物体を含む、生成すること、及び、動作認識を実行するように構成されたサーバに動作ビデオシーケンスを転送すること、並びに、サーバの電気回路によって、第2の動作認識アルゴリズムを動作ビデオシーケンスに適用し、それによって、動作候補が予め規定された種類の動作であることを確認又は拒否することを含む。
動作認識における本アプローチは、有益である。何故ならば、それは、カメラとサーバとの間の通信において大き過ぎるバンド幅を使用するという問題なしに、動作認識のために必要とされる処理パワーが、2つの異なるデバイスにわたり分散されることを可能にするからである。更に、動作認識における本アプローチは、カメラのプロセッサに過剰にローディングすることなしに、同時に、全体のビデオシーケンスを常にサーバにストリームする必要なしに、プロセッサ集中(intense)動作認識を実行することを可能にする。したがって、本アプローチは、より少ない処理を要求する第1の種類の動作認識アルゴリズムを局所的にカメラで使用し、より多い処理を要求する第2の種類の動作認識アルゴリズムをサーバで使用することを可能にする。常にビデオをストリームするよりもむしろ、動作ビデオシーケンスを抽出し動作ビデオシーケンスのみを送信することによって、バンド幅が節約され得る。動作認識における本アプローチによれば、候補動作がカメラで検出され得る。候補動作が、動作ビデオシーケンスのサーバへの転送をトリガし、サーバで、より進化した動作認識解析が実行される。したがって、カメラでの動作認識の目的は、動作候補の検出をトリガすることである。動作候補の検出が、更なる解析のために、動作ビデオシーケンスのサーバへの転送をトリガし、動作候補が実際の動作であることを確認又は拒否する。
第1の動作認識アルゴリズムは、主として、物体画像フレーム内の文脈的及び/又は空間的情報を使用する文脈的及び/又は空間的動作認識に基づき得る。文脈的及び/又は空間的動作認識アルゴリズムは、通常、過剰な処理パワーを要求しない。したがって、その種のアルゴリズムを使用する動作認識は、より容易にカメラで局所的に行うことが可能である。
第2の動作認識アルゴリズムは、主として、動作ビデオシーケンスの複数の画像フレームの時間的情報を使用する時間的動作認識アルゴリズムに基づき得る。時間的動作認識アルゴリズムは、通常、動作を認識することにおいてより正確である。したがって、より正確な動作認識が実行され得る。
対象物体を含む動作画像フレームが、対象物体の少なくとも一部分を含むように、動作画像フレームを生成する動作は、ビデオシーケンスの複数の画像フレームをトリミングすることを含み得る。これは、カメラとサーバとの間のバンド幅を節約し得る。
対象物体を含む動作画像フレームが、対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、動作画像フレームを生成する動作は、ビデオシーケンスの複数の画像フレームをトリミングすることを含み得る。対象物体を少なくとも部分的に取り囲む背景を組み込むことによって、動作ビデオシーケンスの時間的だけではなく文脈的及び/又は空間的解析も実行され得る。
動作ビデオシーケンスを転送する動作は、対象物体に対する動作ビデオシーケンス内の座標を転送することを含み得る。座標は、どの1以上の画像フレームが対象物体を含むか、及び/又は、それぞれの画像フレーム内で対象物体がどこに配置されているかを指し示し得る。
該方法は、カメラの電気回路によって、ビデオシーケンス内の対象物体を検出することを更に含み得る。動作画像フレームを生成する動作は、対象物体が検出される前のある時点に関連するビデオシーケンスの第1の所定の数の画像フレームに関するビデオデータを抽出することを含み得る。動作画像フレームを生成する動作は、対象物体が検出された後のある時点に関連するビデオシーケンスの第2の所定の数の画像フレームに関するビデオデータを抽出することを含み得る。これは、動作がサーバにおいて認識されるための正しい時間的ウインドウが、サーバに送信されるチャンスを改良することができる。
カメラとサーバは、互いから距離を置いて配置された個別の物理的エンティティーであり得る。カメラとサーバは、デジタルネットワークを介して互いに通信するように構成され得る。
第2の態様によれば、ビデオシーケンスにおける動作認識のためのシステムが提供される。該システムは、ビデオシーケンスをキャプチャするように構成されたカメラと、動作認識を実行するように構成されたサーバとを備える。カメラは、ビデオシーケンスの物体画像フレーム内の対象物体を特定するように構成された物体識別器、第1の動作認識アルゴリズムを物体画像フレームに適用し、それによって、動作候補の存在を検出するように構成された、動作候補認識器、ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの動作画像フレームを生成するように構成された、ビデオ抽出器であって、そこからビデオデータが抽出されるところの複数の画像フレームのうちの1以上が、対象物体を含む、ビデオ抽出器、及び、動作ビデオシーケンスをサーバへ転送するように構成されたネットワークインターフェースを備える。サーバは、第2の動作認識アルゴリズムを動作ビデオシーケンスに適用し、それによって、動作候補が予め規定された種類の動作であることを確認又は拒否するように構成された、動作確認器を備える。
対象物体を含む動作画像フレームが、対象物体の少なくとも一部分を含むように、ビデオ抽出器は、ビデオシーケンスの複数の画像フレームをトリミングするように更に構成され得る。
対象物体を含む動作画像フレームが、対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、ビデオ抽出器は、ビデオシーケンスの複数の画像フレームをトリミングするように更に構成され得る。
物体識別器は、ビデオシーケンス内の対象物体を検出するように更に構成され得る。ビデオ抽出器は、対象物体が検出される前のある時点に関連するビデオシーケンスの第1の所定の数の画像フレームに関するビデオデータを抽出するように更に構成され得る。ビデオ抽出器は、対象物体が検出された後のある時点に関連するビデオシーケンスの第2の所定の数の画像フレームに関するビデオデータを抽出するように更に構成され得る。
上述した方法の特徴は、可能な場合にはこの第2の態様にも適用される。無用な繰り返しを避けるため、上述を参照すべし。
本発明の適用性の更なる範囲は、以下の詳細な説明から明らかになるであろう。しかし、この詳細な説明によって本発明の範囲内の様々な変更及び修正が当業者に明らかとなるため、詳細な説明及び具体例は、本発明の好適な実施形態を示しながらも単なる例として提示されることを理解されたい。
したがって、記載のデバイス及び記載の方法は異なる場合があるため、この発明は、記載のデバイスの特定の構成要素部品又は記載の方法の工程に限定されないことを理解されたい。また、本明細書で使用される用語は、特定の実施形態だけを説明することを目的としており、限定的であることを意図していないということも理解されるべきである。明細書及び添付の特許請求の範囲で使用されるように、冠詞「1つの(「a」、「an」)」、及び「前記(「the」、「said」)」は、文脈が明らかにそうでないことを示さない限り、要素のうちの一又は複数が存在することを意味すると意図している点に留意しなければならない。従って、例えば、「部」(a unit)又は「当該部」(the unit)に言及した場合、これは幾つかのデバイスなどを含んでもよい。更に、用語「含む(「comprising」、「including」、「containing」)及び類似の表現は、他の要素又はステップを除外しない。
本発明の上記の態様及びその他の態様を、本発明の実施形態を示す添付の図面を参照しながら更に詳細に説明する。図面は発明を具体的な実施形態へと限定するものでなく、本発明の説明及び理解のためのものである。
図面に示すように、レイヤーと領域のサイズは図示目的のために誇張され、本発明の実施形態の一般構造を示すために提供されている。類似の参照番号は、全体を通して類似の要素を指す。
ビデオシーケンスにおける動作認識のためのシステムを示す。 ビデオシーケンスにおける動作認識のための方法のブロックスキームである。
これより、本発明の現時点で好ましい実施形態を示す添付図面を参照して、本発明を以下により詳細に説明する。しかしながら本発明は多くの異なる形態で実施されることができ、本明細書で説明される実施形態に限定されるものと解釈されるべきではなく、これらの実施形態はむしろ、本開示が包括的で完全となるように提供されており、当業者に本発明の範囲を十分に伝えるためのものである。
図1は、ビデオシーケンスにおける動作認識のためのシステムを示している。該システムは、デジタルネットワークカメラ100とサーバ200を備える。デジタルネットワークカメラ100は、デジタルネットワーク300を介してサーバ200に接続されている。デジタルネットワークカメラ100とサーバ200は、互いから距離を置いて配置された個別の物理的エンティティーであり、デジタルネットワーク300を介して互いと通信するように構成されている。
デジタルネットワーク300は、デジタルネットワーク300に接続されたデバイス、例えば、デジタルネットワークカメラ100とサーバ200が、デジタルデータを交換することを可能にするネットワークに関する。デジタルネットワーク300に接続されたデバイス間の接続は、ケーブル又は無線の何れかを使用して確立される。デジタルネットワークの非限定的な例は、インターネット、イントラネット、ローカルエリアネットワーク、及びセルラーネットワークである。デジタルネットワークの部分は、プライベートデジタルネットワークであってもよい。デジタルネットワークの部分は、パブリックデジタルネットワークであってもよい。プライベートデジタルネットワークは、(図示せぬ)ネットワークアクセス制限デバイスによって、パブリックデジタルネットワークに接続され得る。ネットワークアクセス制限デバイスは、プライベートデジタルネットワークを保護するためにインストールされたファイアウォールであってもよい。ネットワークアクセス制限デバイスは、ネットワークアドレス変換、NAT、を実行するデバイスであってもよい。
デジタルネットワークカメラ100は、情景を描くビデオシーケンスをキャプチャするように配置されている。デジタルネットワークカメラ100は、ハウジング112、レンズ114、及び電気回路102を備える。デジタルネットワークカメラ100は、ビデオシーケンスをキャプチャし処理する(そして、恐らく記憶もする)ように構成されている。電気回路102は、画像センサ116、画像処理ユニット118、物体識別器124、動作候補認識器126、ビデオ抽出器127、及びネットワークインターフェース130を備える。電気回路102は、中央処理装置(CPU)120、デジタルデータ記憶媒体(メモリ)122、及びエンコーディングユニット128のうちの1以上を更に備え得る。画像処理ユニット118、物体識別器124、動作候補認識器126、ビデオ抽出器127、及び/又はエンコーディングユニット128のうちの何れか1つは、専用ハードウェア電気回路及び/又はソフトウェアモジュールとして実装され得る。ソフトウェアが実装される場合には、そのソフトウェアがCPU120で実行され得る。CPU120は、デジタルデータ処理を実行するための任意の適切なCPUであり得る。任意の専用ハードウェア電気回路が、専用プロセッサ又はCPU120で実行されるソフトウェア部分を部分的に備え得ることも留意されたい。
メモリ122は、任意の種類の揮発性又は不揮発性メモリであり得る。更に、メモリ122は、複数のメモリユニットを備え得る。複数のメモリユニットのうちの少なくとも1つは、例えば、ビデオシーケンスのコンテンツを処理する間にデータをバッファリングするためのバッファメモリとして使用され得る。
デジタルネットワークカメラ100は、ネットワークインターフェース130を介してデジタルネットワーク300と接続されるように配置されている。デジタルネットワークとの接続は、有線又は無線であり得る。したがって、ネットワークインターフェース130は、モジュラーコネクタ、例えば、RJ45コネクタを受け入れるように構成された、イーサネットポート、モジュラーポートなどの、10/100/1000Mbpsデータトラフィックに適合されたネットワークポートであり得る。通常は、(例えば、cat5、cat5e、又はcat6の)ツイストペアケーブルなどの、ネットワークケーブルを受け入れるように、そのようなRJ45コネクタポートが配置されている。代替的に、ネットワークポートのI/O手段は、モバイルインターネット通信標準(例えば、1G、2G、2.5G、2.75G、3G、3.5G、3.75G、3.9G、4G,5G)を使用する又はWiFiを使用する、無線I/O手段であり得る。
カメラの構成要素、すなわち、レンズ114と画像センサ116は、生画像をキャプチャするように配置され得る。各生画像は、異なる波長の光として表され得る。それらの光は異なる物体及び物体の部分から発している。これらの生画像は、その後、アナログからデジタルフォーマットへ変換され、画像処理ユニット118へ転送される。本実施形態によれば、デジタルネットワークカメラ100は、写真画像をキャプチャするように構成されたカメラである。代替的に、又は組み合わされて、デジタルネットワークカメラ100の画像センサ116は、熱画像をキャプチャするように構成され得る。更に代替的に、又は組み合わされて、デジタルネットワークカメラ100の画像センサ116は、レーダー画像をキャプチャするように構成され得る。したがって、デジタルネットワークカメラ100によってキャプチャされたビデオシーケンスは、写真画像の表示、熱画像の表示、レーダー画像の表示、又はそれらの組み合わせであり得る。
物体識別器124は、カメラ100によってキャプチャされたビデオシーケンス内の対象物体を検出するように構成されている。対象物体は、例えば、人間、顔、輸送体、コンベヤベルト上の製品、動物、地形構成要素、武器などであり得る。物体識別器124は、検出された対象物体を分類するように更に構成され得る。対象物体は、例えば、特定の種類の物体に属するように分類され得る。特定の種類の物体の例は、特定の種類の、人間、顔、輸送体、製品である。物体識別器124は、対象物体が最初に検出されたところの、ビデオシーケンス内のある時点を特定するように更に構成され得る。これに関連して、メモリ122は、所定の数の画像フレームを記憶するように構成された、画像フレームバッファとして更に使用され得る。したがって、対象物体が最初に検出されたところの、ビデオシーケンス内のある時点に先立つ画像フレームを表す画像フレームは、画像フレームバッファとして働くメモリ122内に記憶され得る。
物体識別器124は、ビデオシーケンスの1以上の画像フレーム内の対象物体を特定するように更に構成されている。対象物体が特定された画像フレームは、本明細書において物体画像フレームと称されることになる。
ビデオシーケンスにおける動作認識は、ビデオシーケンス内の1以上の予め規定された種類の動作を検出する作業である。予め規定された種類の動作の例は、闘っている、走っている、食べている、特定の試合を行っている人間などである。予め規定された種類の動作の他の例は、酒気帯び運転の検出、ジャンプの検出、怒りの検出、笑いの検出、手信号の検出、落下の検出、徘徊の検出、歩き方の検出、威嚇行為の検出、疑わしい挙動の検出(例えば、異常な又は普通でない挙動の検出)である。
動作認識は、静止画像の文脈的及び/若しくは空間的解析又は時間的解析(又は2つの組み合わせ)によって実行され得る。文脈的及び/又は空間的動作認識アルゴリズムは、静止画像、例えば、ビデオシーケンスの単一の画像フレームで実行される。時間的動作認識アルゴリズムは、ビデオシーケンスの複数の画像フレームで実行される。
文脈的動作認識アルゴリズムの一実施例は、Georgia Gkioxari, Ross Girshick and Jitendra Malikによって「Contextual Action Recognition with R*CNN」; arXiv: 1505.01197内で開示されている。文脈的及び/又は空間的動作認識アルゴリズムと時間的動作認識アルゴリズムの両方の動作認識アルゴリズムの更なる実施例は、例えば、CN102855462、CN103106394内で、及び、Karen Simonyan and Andrew Zissermanによって「Two-Stream Convolutional Networks for Action Recognition in Videos」; arXiv: 1406.2199内で説明されている。
したがって、動作認識は、2つの主たるアプローチ、すなわち、静止画像の文脈的及び/又は空間的解析と時間的解析とを有する。最も有望なアプローチが、基本的な動作認識アルゴリズムとして時間的解析を使用する一方で、静止画像のアプローチは、ある場合にはかなり良く働く。しかし、時間的動作認識は、難しく、例えば、リカレントニューラルネットワークを使用する、非常に処理が集中するアルゴリズムを含む。これは、そのような時間的動作認識アルゴリズムが、デジタルネットワークカメラ100などの組み込みデバイスで実行されるのを不適当なものとする。
本発明は、しばしば、穏当に処理が集中する文脈的及び/又は空間的動作認識アルゴリズムと、処理が集中する時間的動作認識アルゴリズムとの間の、相乗効果を使用することを対象としている。第1の動作認識アルゴリズムは、動作候補を見つけるためにデジタルネットワークカメラ100で実行され、第2の動作認識アルゴリズムは、動作候補が実際の動作であることを確認又は拒否するためにサーバ200で実行される。第2の動作認識アルゴリズムは、第1の動作認識アルゴリズムよりも多い処理を要求する。第1の動作認識アルゴリズムは、主として、文脈的及び/又は空間的動作認識に基づいている。非限定的な例として、第1の動作認識アルゴリズムは、文脈的及び/又は空間的動作認識アルゴリズムのみに基づき得る。第2の動作認識アルゴリズムは、主として、時間的動作認識に基づいている。しかし、第2の動作認識アルゴリズムは、文脈的及び/又は空間的動作認識の要素を含み得る。
動作候補認識器126は、第1の動作認識アルゴリズムを、物体識別器124によって特定された物体画像フレームのうちの少なくとも1つへ適用するように構成されている。第1の動作認識アルゴリズムを適用することによって、動作候補の存在が検出される。動作候補認識器126によって実行される第1の動作認識アルゴリズム解析は、動作の種類を検出する必要はない。それは、無印の(generic)動作候補を検出することを必要とするだけである。しかし、第1の動作認識アルゴリズムは、異なる種類の動作についてフィルタリングするように構成されてもよい。したがって、第1の動作認識アルゴリズムを適用することによって、所定の種類の動作の動作候補の存在が検出され得る。
第1の動作認識アルゴリズムを適用することによって、動作候補認識器126は、動作を示すように見える普通ではない姿勢を検出するように構成され得る。したがって、動作に対する動作候補を見つけることができる。更に、動作候補認識器126は、予め規定された種類の動作に対する動作候補を見つけるために、検出された姿勢をフィルタリングするように構成され得る。第1の動作認識アルゴリズムは、比較的軽いアルゴリズムである。ある程度まで誤検出が許容される。動作候補の検出は、第2の動作認識アルゴリズムを使用する、より進化した動作認識解析を動機付ける。したがって、動作候補認識器126は、動作の可能性があるものについてトリガし、又は動作候補を本明細書で言及されているようにトリガするように構成される。
動作候補を検出することは、動作候補を含むビデオシーケンスの一部分である動作ビデオシーケンスをサーバ200へ送信することをトリガする。それは、第2の動作認識アルゴリズムを動作ビデオシーケンスに適用することによって、動作候補が実際の動作であるか否かを判定するためである。
ビデオ抽出器127は、動作ビデオシーケンスの動作画像フレームを生成するように構成されている。動作ビデオシーケンスは、動作候補を含むビデオシーケンスの一部分である。動作ビデオシーケンスは、ビデオシーケンスと同じフレーム速度を有し得る。動作ビデオシーケンスは、ビデオシーケンスのフレーム速度よりも小さいフレーム速度を有してもよい。すなわち、動作ビデオシーケンスは、ビデオシーケンスよりも低い秒当たりのフレーム数、fps、を有するフレーム速度を有する。例えば、ビデオシーケンスのフレーム速度は60fpsであり、動作ビデオシーケンスのフレーム速度は30fpsであり得る。
本明細書で動作画像フレームと呼ばれる、動作ビデオシーケンスの画像フレームは、ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって生成される。そこからビデオデータが抽出されるところの、複数の画像フレームのうちの1以上が、対象物体を含むように、ビデオ抽出器127は構成されている。したがって、複数の動作画像フレームのうちの少なくとも1以上は、(1以上の)物体画像フレームである。
ビデオ抽出器127は、対象物体が検出されたビデオシーケンス内の特定されたある時点よりも前のある時点に関連するビデオシーケンスの第1の所定の数の画像フレームに関するビデオデータを抽出するように更に構成され得る。したがって、ビデオシーケンスの画像フレームは、動作ビデオシーケンスにおける後の使用のためにメモリ122内へキャッシュされ得る。これは、第1の動作認識アルゴリズムの実行をトリガする対象物体を含む物体画像フレームと、動作ビデオシーケンス内に含まれる物体画像フレームに先立つ(1以上の)画像フレームと、の両方を含むことを可能にする。これは、動作ビデオシーケンスの時間的ウインドウが、対象物体によって実行される動作に関する全ての関連情報を含むチャンスを向上させる。非限定的な実施例として、画像フレームの第1の所定の数が、対象物体の種類又は動作候補の動作の種類のうちの1以上に応じて設定され得る。更に、更なる非限定的な実施例として、物体及び潜在的にその周囲の運動解析が使用されて、動作候補が開始したところの、より早い画像フレームを明らかにし得る。これによって、相対的に大きいプリバッファから、第2の動作認識に対して実際に関連するような画像フレームのみを抽出することを可能にする。したがって、画像フレームの第1の所定の数は、動的に設定され得る。
ビデオ抽出器127は、対象物体が検出されたビデオシーケンス内の特定されたある時点よりも後のある時点に関連するビデオシーケンスの第2の所定の数の画像フレームに関するビデオデータを抽出するように更に構成され得る。これは、第1の動作認識アルゴリズムの実行をトリガする対象物体を含む物体画像フレームと、動作ビデオシーケンス内に含まれる物体画像フレームに続く(1以上の)画像フレームと、の両方を含むことを可能にする。これは、動作ビデオシーケンスの時間的ウインドウが、対象物体によって実行される動作に関する全ての関連情報を含むチャンスを向上させる。画像フレームの第2の所定の数が、対象物体の種類又は動作候補の動作の種類のうちの1以上に応じて設定され得る。更に、更なる非限定的な実施例として、物体及び潜在的にその周囲の運動解析が使用されて、動作候補が終了したところの、画像フレームを明らかにし得る。これによって、第2の動作認識に対して実際に関連するような画像フレームのみを抽出することを可能にする。したがって、画像フレームの第2の所定の数は、動的に設定され得る。
ビデオ抽出器127は、対象物体に対する動作ビデオシーケンス内の座標に関する情報を抽出するように更に構成され得る。座標は、どの1以上の画像フレームが対象物体を含むか、及び/又は、それぞれの画像フレーム内で対象物体がどこに配置されているかを指し示し得る。これらの座標は、動作ビデオシーケンスと共にサーバへ転送され得る。
ビデオ抽出器127は、動作画像フレームを生成するときに、複数の画像フレームのビデオデータをトリミングするように更に構成され得る。対象物体を含む動作画像フレームが、対象物体の少なくとも一部分を含むように、複数の画像フレームのビデオデータはトリミングされ得る。更に、対象物体を含む動作画像フレームが、対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、複数の画像フレームのビデオデータはトリミングされ得る。対象物体を少なくとも部分的に取り囲む背景を組み込むことによって、動作ビデオシーケンスの時間的だけではなく文脈的及び/又は空間的解析も実行され得る。
エンコーディングユニット128は、ビデオエンコーディングを使用してビデオシーケンスのデジタルビデオデータをエンコードするように構成されている。ビデオエンコーディングの非限定的な実施例は、ISO/MPEG又はITU‐H.26X群のビデオエンコーディング標準である。エンコーディングユニット128は、これ以降、エンコードされたデジタルビデオデータと称される、デジタルビデオデータの画像をエンコードするように構成されている。エンコードされたデジタルビデオデータは、ネットワークインターフェース130を介して、デジタルネットワーク300を通して直接的に転送され得る。代替的に、エンコードされたデジタルビデオデータは、ネットワークインターフェース130を介した、デジタルネットワーク300を通る、後の送信のためにメモリ122内に記憶され得る。エンコーディングユニット128は、動作ビデオシーケンスがサーバ200へ転送される前に、動作ビデオシーケンスをエンコードするように構成され得る。
ネットワークインターフェース130は、動作ビデオシーケンスをサーバ200へ転送するように構成されている。
サーバ200は、動作確認器210を備えた電気回路201を備える。電気回路201は、ネットワークインターフェース202、デコーディングユニット204、中央処理装置(CPU)206、及びデジタルデータ記憶媒体(メモリ)208のうちの1以上を更に備え得る。デコーディングユニット204及び/又は動作確認器210のうちの何れか1つは、専用ハードウェア電気回路及び/又はソフトウェアモジュールとして実装され得る。ソフトウェアが実装される場合には、そのソフトウェアがCPU206で実行され得る。CPU206は、デジタルデータ処理を実行するための任意の適切なCPUであり得る。任意の専用ハードウェア電気回路が、専用プロセッサ又はCPU206で実行されるソフトウェア部分を部分的に備え得ることも留意されたい。
サーバ200は、ネットワークインターフェース202を介してデジタルネットワーク300と接続されるように配置されている。デジタルネットワークとの接続は、有線又は無線であり得る。したがって、ネットワークインターフェース202は、モジュラーコネクタ、例えば、RJ45コネクタを受け入れるように構成された、イーサネットポート、モジュラーポートなどの、10/100/1000Mbpsデータトラフィックに適合されたネットワークポートであり得る。通常は、(例えば、cat5、cat5e、又はcat6の)ツイストペアケーブルなどの、ネットワークケーブルを受け入れるように、そのようなRJ45コネクタポートが配置される。代替的に、ネットワークポートのI/O手段は、モバイルインターネット通信標準(例えば、1G、2G、2.5G、2.75G、3G、3.5G、3.75G、3.9G、4G,5G)又はWiFiを使用する、無線I/O手段であり得る。
動作ビデオシーケンスがエンコードされている場合には、デコーディングユニット204が、エンコードされたビデオシーケンスをデコードするように構成される。したがって、デコーディングユニット204は、ビデオデコーディングを使用してビデオシーケンスのデジタルビデオデータをデコードするように構成されている。
メモリ122は、任意の種類の揮発性又は不揮発性メモリであり得る。更に、メモリ122は、複数のメモリユニットを備え得る。複数のメモリユニットのうちの少なくとも1つは、例えば、動作ビデオシーケンスを処理する間にデータをバッファリングするためのバッファメモリとして使用され得る。メモリ122は、動作ビデオシーケンスの全部又は一部を更に記憶し得る。
動作確認器210は、第2の動作認識アルゴリズムを動作ビデオシーケンスへ適用するように構成されている。それによって、動作候補が実際の動作であることが確認又は拒否され得る。特に、動作候補が予め規定された種類の動作であることが確認又は拒否され得る。動作確認器210によって実行される動作認識は、必ずしもリアルタイムで実行される必要はない。動作は、常に進行中であるよりもむしろ短い時間のイベントなので、重要なことは、特定の種類の動作に対する警報が挙げられるべきか否かを判断することである。
図2を参照すると、カメラ100によってキャプチャされたビデオシーケンスにおける動作認識のための方法が示されている。該方法は、カメラ(100)の電気回路102によって、
ビデオシーケンスの物体画像フレーム内の対象物体を特定すること(S501)、
第1の動作認識アルゴリズムを物体画像フレームに適用し(S502)、それによって、動作候補の存在を検出すること、
ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの動作画像フレームを生成すること(S504)であって、そこからビデオデータが抽出されるところの複数の画像フレームのうちの1以上が、対象物体を含む、生成すること、及び
動作ビデオシーケンスをサーバ200へ転送すること(S506)を含む。
該方法は、サーバ200の電気回路201によって、第2の動作認識アルゴリズムを動作ビデオシーケンスに適用し(S508)、それによって、動作候補が予め規定された種類の動作であることを確認又は拒否することを更に含む。
対象物体を含む動作画像フレームが、対象物体の少なくとも一部分を含むように、動作画像フレームを生成する動作(S504)は、ビデオシーケンスの複数の画像フレームをトリミングすることを含み得る。
対象物体を含む動作画像フレームが、対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、動作画像フレームを生成する動作(S504)は、ビデオシーケンスの複数の画像フレームをトリミングすることを含み得る。
動作ビデオシーケンスを転送する動作(506)は、対象物体に対する動作ビデオシーケンス内の座標を転送することを含み得る。座標は、どの1以上の画像フレームが対象物体を含むか、及び/又は、それぞれの画像フレーム内で対象物体がどこに配置されているかを指し示し得る。
該方法は、カメラ100の電気回路102によって、ビデオシーケンス内の対象物体を検出すること(S500)を更に含み得る。動作画像フレームを生成する動作(S504)は、対象物体が検出される前のある時点に関連するビデオシーケンスの第1の所定の数の画像フレームに関するビデオデータを抽出することを含み得る。動作画像フレームを生成する動作(S504)は、対象物体が検出された後のある時点に関連するビデオシーケンスの第2の所定の数の画像フレームに関するビデオデータを抽出することを含み得る。
当業者は、本発明が如何なる意味においても、上述した好ましい実施形態に限定されないことを理解するであろう。むしろ、添付の特許請求項の範囲内で多くの修正例及び変形例が可能である。
例えば、動作候補が実際の動作であることを確認した後で、サーバ200は、警報トリガを送信するように構成され得る。警報トリガは、デジタルネットワークカメラ100内での更なる処理のために、デジタルネットワークカメラ100へ送信され得る。例えば、デジタルネットワークカメラ100は、警報トリガを受信した後で、カメラの設定を変更するように構成され得る。変更され得るカメラの設定の非限定的な例は、フレーム速度、解像度、光感受性、HDRへのスイッチ、標準メッセージを用いてカメラに接続されたスピーカーをトリガする、対象物体のPTZ追跡を開始する、検出された物体が幾つかのカメラで追跡され得るように検出された物体のための進化した外観モデルの生成をトリガする、レーダー追跡を開始する、熱モードへのスイッチ、更なる動作認識のための閾値を変更する、又は関連した種類のフォローアップ動作をチェックする(例えば、人が倒れたならば、「再度立ち上がる」動作の検索を開始する、及び、彼が特定期間の閾値内に立ち上がらなければ警報をトリガする)ことである。
代替的に、又は組み合わされて、警報トリガが、ビデオ管理センター(VMS)へ送信され得る。警報トリガは、予め規定された種類の動作が生じたという通知を送信するためにVMSで使用され得る。
更に、サーバ200は、様々な種類のデバイス内に実装され得る。サーバ200として実装されているデバイスの非限定的な例は、専用コンピュータ、別のカメラデバイス、ビデオ管理システム、クラウドサーバ、カメラの近くのアナリティクスボックス(analytics box)、アクセス制御ユニット、計算能力を有するIoTデバイスである。更に、サーバの機能が、種々のデバイスへ分散され得る。複数のプロセッサで実行されるソフトウェアコード部分として少なくとも部分的に実装された動作確認器210の場合では、特に、そうである。
更に、対象物体は、ビデオシーケンスの複数の物体画像フレーム内で特定され得る。第1の動作認識アルゴリズムは、その後、複数の物体画像フレームの各々に個別に適用され得る。第1の動作認識アルゴリズムの個別の適用の結果は、その後、動作候補を見つけるために使用され得る。例えば、複数の画像の個別の解析は、ある人の脚が常に異なる角度にあることを明らかにし得る。これは、その人が歩いており又は走っていることさえ示す。動作ビデオシーケンスの動作画像フレームは、その後、ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって生成される。そこからビデオデータが抽出されるところの、複数の画像フレームのうちの1以上は、対象物体を含む。
加えて、当業者は、特許請求される本発明を実施する際に、図面、開示内容、及び添付の特許請求項を精査することにより、開示された実施形態の変形例を理解し実行することが可能である。

Claims (14)

  1. カメラ(100)によってキャプチャされたビデオシーケンスにおける動作認識のための方法であって、
    前記カメラ(100)の電気回路(102)によって、
    前記ビデオシーケンスの画像フレーム内の対象物体を特定すること、
    第1の動作認識アルゴリズムを前記対象物体が特定された前記画像フレームに適用して、動作候補の存在を検出することであって、前記第1の動作認識アルゴリズムが主として前記ビデオシーケンスの単一の画像フレーム内の文脈的及び/又は空間的情報を使用する静止画像の文脈的及び/又は空間的動作認識アルゴリズムに基づき、前記単一の画像フレームが前記対象物体を含む、検出すること、
    前記ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの画像フレームを生成することであって、前記ビデオデータが抽出されるところの前記複数の画像フレームのうちの1以上が、前記対象物体を含む、生成すること、及び
    動作認識を実行するように構成されたサーバ(200)へ前記動作ビデオシーケンスを転送すること、並びに
    前記サーバの電気回路(201)によって、
    第2の動作認識アルゴリズムを前記動作ビデオシーケンスに適用して、前記動作候補が予め規定された種類の動作であることを確認又は拒否することを含む、方法。
  2. 前記第2の動作認識アルゴリズムが、主として、前記動作ビデオシーケンスの複数の画像フレームの時間的情報を使用する時間的動作認識アルゴリズムに基づく、請求項1に記載の方法。
  3. 前記対象物体を含む前記画像フレームが、前記対象物体の少なくとも一部分を含むように、前記動作ビデオシーケンスの前記画像フレームを生成する動作が、前記ビデオシーケンスの前記複数の画像フレームをトリミングすることを含む、請求項2に記載の方法。
  4. 前記対象物体を含む前記動作ビデオシーケンスの前記画像フレームが、前記対象物体を少なくとも部分的に取り囲む背景の一部分を含む、請求項3に記載の方法。
  5. 前記動作ビデオシーケンスを転送する動作が、前記対象物体に対する前記動作ビデオシーケンス内の座標を転送することを含む、請求項1から4のいずれか一項に記載の方法。
  6. 前記カメラの前記電気回路によって、
    前記ビデオシーケンス内の対象物体を検出することを更に含み、
    前記動作ビデオシーケンスの前記画像フレームを生成する動作が、前記対象物体が検出される前のある時点に関連する前記ビデオシーケンスの第1の所定の数の画像フレームに関するビデオデータを抽出することを含む、請求項1から5のいずれか一項に記載の方法。
  7. 前記カメラの前記電気回路によって、
    前記ビデオシーケンス内の対象物体を検出することを更に含み、
    前記動作ビデオシーケンスの前記画像フレームを生成する動作が、前記対象物体が検出された後のある時点に関連する前記ビデオシーケンスの第2の所定の数の画像フレームに関するビデオデータを抽出することを含む、請求項1から6のいずれか一項に記載の方法。
  8. 前記カメラと前記サーバが、互いから距離を置いて配置された個別の物理的エンティティーであり、デジタルネットワーク(300)を介して互いと通信するように構成されている、請求項1から7のいずれか一項に記載の方法。
  9. ビデオシーケンスにおける動作認識のためのシステムであって、
    前記ビデオシーケンスをキャプチャするように構成されたカメラ(100)と、動作認識を実行するように構成されたサーバ(200)とを備え、
    前記カメラが、
    前記ビデオシーケンスの画像フレーム内の対象物体を特定するように構成された、物体識別器(124)、
    第1の動作認識アルゴリズムを前記対象物体が特定された前記画像フレームに適用して、動作候補の存在を検出するように構成された動作候補認識器(126)であって、前記第1の動作認識アルゴリズムが主として前記ビデオシーケンスの単一の画像フレーム内の文脈的及び/又は空間的情報を使用する静止画像の文脈的及び/又は空間的動作認識アルゴリズムに基づき、前記単一の画像フレームが前記対象物体を含む、動作候補認識器、
    前記ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの画像フレームを生成するように構成された、ビデオ抽出器(127)であって、前記ビデオデータが抽出されるところの前記複数の画像フレームのうちの1以上が、前記対象物体を含む、ビデオ抽出器、及び
    前記動作ビデオシーケンスを前記サーバへ転送するように構成された、ネットワークインターフェース(130)を備え、
    前記サーバが、
    第2の動作認識アルゴリズムを前記動作ビデオシーケンスに適用して、前記動作候補が予め規定された種類の動作であることを確認又は拒否するように構成された、動作確認器(210)を備える、システム。
  10. 前記対象物体を含む前記ビデオシーケンスの前記画像フレームが、前記対象物体の少なくとも一部分を含むように、前記ビデオ抽出器(127)が、前記ビデオシーケンスの前記複数の画像フレームをトリミングするように更に構成されている、請求項9に記載のシステム。
  11. 前記対象物体を含む前記ビデオシーケンスの前記画像フレームが、前記対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、前記ビデオ抽出器(127)が、前記ビデオシーケンスの前記複数の画像フレームをトリミングするように更に構成されている、請求項9又は10に記載のシステム。
  12. 前記物体識別器(124)が、前記ビデオシーケンス内の対象物体を検出するように更に構成され、前記ビデオ抽出器(127)が、前記対象物体が検出される前のある時点に関連する前記ビデオシーケンスの第1の所定の数の画像フレームに関するビデオデータを抽出するように更に構成されている、請求項9から11のいずれか一項に記載のシステム。
  13. 前記物体識別器(124)が、前記ビデオシーケンス内の対象物体を検出するように更に構成され、前記ビデオ抽出器(127)が、前記対象物体が検出された後のある時点に関連する前記ビデオシーケンスの第2の所定の数の画像フレームに関するビデオデータを抽出するように更に構成されている、請求項9から12のいずれか一項に記載のシステム。
  14. 前記第2の動作認識アルゴリズムが、主として、前記動作ビデオシーケンスの複数の画像フレームの時間的情報を使用する時間的動作認識アルゴリズムに基づく、請求項9から13のいずれか一項に記載のシステム。
JP2017212552A 2016-11-14 2017-11-02 ビデオシーケンスにおける動作認識 Active JP6963467B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16198678.1 2016-11-14
EP16198678.1A EP3321844B1 (en) 2016-11-14 2016-11-14 Action recognition in a video sequence

Publications (3)

Publication Number Publication Date
JP2018125841A true JP2018125841A (ja) 2018-08-09
JP2018125841A5 JP2018125841A5 (ja) 2020-11-19
JP6963467B2 JP6963467B2 (ja) 2021-11-10

Family

ID=57326219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017212552A Active JP6963467B2 (ja) 2016-11-14 2017-11-02 ビデオシーケンスにおける動作認識

Country Status (6)

Country Link
US (1) US10691949B2 (ja)
EP (1) EP3321844B1 (ja)
JP (1) JP6963467B2 (ja)
KR (1) KR102156818B1 (ja)
CN (1) CN108073890B (ja)
TW (1) TWI706377B (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107820010B (zh) * 2017-11-17 2020-11-06 英业达科技有限公司 摄影计数装置
KR102323609B1 (ko) 2018-04-30 2021-11-09 이휘원 웨어러블 기기를 이용하여 객체의 이벤트를 자동으로 감지하는 방법 및 이를 운용하는 관리 서버
CN109344770B (zh) * 2018-09-30 2020-10-09 新华三大数据技术有限公司 资源分配方法及装置
GB2611949B (en) * 2018-10-01 2023-08-09 Digital Barriers Services Ltd Video surveillance and object recognition
GB2577689B (en) * 2018-10-01 2023-03-22 Digital Barriers Services Ltd Video surveillance and object recognition
EP3667557B1 (en) * 2018-12-13 2021-06-16 Axis AB Method and device for tracking an object
CN111866575B (zh) * 2019-04-24 2022-02-01 北京力动科技有限公司 一种实时动作视频智能捕捉与反馈方法及系统
WO2020226431A1 (ko) 2019-05-07 2020-11-12 인핸드플러스 주식회사 카메라 모듈 및 무선통신 장치를 활용하여 이벤트 감지를 수행하는 웨어러블 기기
CN110362715B (zh) * 2019-06-28 2021-11-19 西安交通大学 一种基于图卷积网络的未剪辑视频动作时序定位方法
CN110633630B (zh) * 2019-08-05 2022-02-01 中国科学院深圳先进技术研究院 一种行为识别方法、装置及终端设备
US10997730B2 (en) 2019-08-21 2021-05-04 XNOR.ai, Inc. Detection of moment of perception
CN111062355A (zh) * 2019-12-25 2020-04-24 神思电子技术股份有限公司 一种人体动作识别方法
JP7355674B2 (ja) * 2020-02-18 2023-10-03 株式会社日立製作所 映像監視システムおよび映像監視方法
KR102344338B1 (ko) 2020-08-19 2021-12-29 인핸드플러스 주식회사 약물 이행 모니터링 시스템 및 이를 이용하는 장치
US20220083781A1 (en) * 2020-09-17 2022-03-17 Nec Laboratories America, Inc. Rule enabled compositional reasoning system
KR20230040708A (ko) 2021-09-16 2023-03-23 현대자동차주식회사 행위 인식 장치 및 방법
KR102616236B1 (ko) 2021-10-25 2023-12-21 연세대학교 산학협력단 모방 학습을 이용한 실시간 비디오 동작 검출 장치 및 방법
JP2024032618A (ja) * 2022-08-29 2024-03-12 富士通株式会社 異常送信プログラム、異常送信方法および情報処理装置
CN116071825B (zh) * 2023-01-31 2024-04-19 天翼爱音乐文化科技有限公司 一种动作行为识别方法、系统、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032766A (ja) * 2000-07-18 2002-01-31 Matsushita Electric Ind Co Ltd 画像認識装置及びその方法
JP2003216955A (ja) * 2002-01-23 2003-07-31 Sharp Corp ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体
JP2009538558A (ja) * 2006-05-22 2009-11-05 アクシス アクチボラグ ビデオ監視カメラが検出した対象物の特性を識別する方法および機器
JP2012524343A (ja) * 2009-04-14 2012-10-11 クアルコム,インコーポレイテッド モバイル機器を使用する画像認識のためのシステムおよび方法
JP2013016171A (ja) * 2011-07-01 2013-01-24 Fujitsu Ltd 人体動作周期の特定と人体動作の認識の方法、装置、及びプログラム
JP2014157452A (ja) * 2013-02-15 2014-08-28 Omron Corp 画像処理装置、画像処理方法、および画像処理プログラム
WO2014147917A1 (ja) * 2013-03-19 2014-09-25 日本電気株式会社 処理装置、処理装置のデータ処理方法、およびプログラム
US9158974B1 (en) * 2014-07-07 2015-10-13 Google Inc. Method and system for motion vector-based video monitoring and event categorization

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999007153A1 (en) * 1997-07-31 1999-02-11 Reality Fusion, Inc. Systems and methods for software control through analysis and interpretation of video information
US20100002070A1 (en) * 2004-04-30 2010-01-07 Grandeye Ltd. Method and System of Simultaneously Displaying Multiple Views for Video Surveillance
US9318012B2 (en) * 2003-12-12 2016-04-19 Steve Gail Johnson Noise correcting patient fall risk state system and method for predicting patient falls
US8675059B2 (en) * 2010-07-29 2014-03-18 Careview Communications, Inc. System and method for using a video monitoring system to prevent and manage decubitus ulcers in patients
US8295597B1 (en) * 2007-03-14 2012-10-23 Videomining Corporation Method and system for segmenting people in a physical space based on automatic behavior analysis
US20170155877A1 (en) * 2008-05-06 2017-06-01 Careview Communications, Inc. System and method for predicting patient falls
JP2011170856A (ja) * 2010-02-22 2011-09-01 Ailive Inc 複数の検出ストリームを用いたモーション認識用システム及び方法
TWI545947B (zh) * 2011-04-08 2016-08-11 南昌歐菲光電技術有限公司 具有影像擷取及分析模組之顯示裝置
US8643746B2 (en) * 2011-05-18 2014-02-04 Intellectual Ventures Fund 83 Llc Video summary including a particular person
US8665345B2 (en) * 2011-05-18 2014-03-04 Intellectual Ventures Fund 83 Llc Video summary including a feature of interest
CN102855462A (zh) 2011-07-01 2013-01-02 富士通株式会社 确定人体动作周期及识别人体动作的方法和装置
EP2795538A4 (en) * 2011-12-21 2016-01-27 Nokia Technologies Oy PROCESS, DEVICE AND COMPUTER SOFTWARE FOR CONTEX IDENTIFICATION
CN103106394A (zh) 2012-12-24 2013-05-15 厦门大学深圳研究院 一种视频监控中的人体行为识别方法
US10136119B2 (en) * 2013-01-10 2018-11-20 Qualcomm Incoporated View synthesis in 3D video
JP6171374B2 (ja) * 2013-02-06 2017-08-02 ソニー株式会社 情報処理装置、情報処理方法、プログラム、及び情報処理システム
CN104112112A (zh) * 2013-04-19 2014-10-22 华为技术有限公司 识别动作的方法及其装置
EP2838268B1 (en) * 2013-07-31 2019-02-20 Axis AB Method, device and system for producing a merged digital video sequence
US9672728B2 (en) * 2014-04-07 2017-06-06 Google Inc. Smart hazard detector drills
US20160042621A1 (en) * 2014-06-13 2016-02-11 William Daylesford Hogg Video Motion Detection Method and Alert Management
CN104298974B (zh) * 2014-10-10 2018-03-09 北京工业大学 一种基于深度视频序列的人体行为识别方法
US10110858B2 (en) * 2015-02-06 2018-10-23 Conduent Business Services, Llc Computer-vision based process recognition of activity workflow of human performer
CN104766051B (zh) * 2015-03-20 2018-08-31 北京交通大学 基于结构化的特征图的人体行为识别方法
US10984355B2 (en) * 2015-04-17 2021-04-20 Xerox Corporation Employee task verification to video system
US10643442B2 (en) * 2015-06-05 2020-05-05 Withings Video monitoring system
US9626849B2 (en) * 2015-06-12 2017-04-18 Google Inc. Using scene information from a security camera to reduce false security alerts
CN204791482U (zh) * 2015-07-11 2015-11-18 新疆东正科技发展有限公司 视频监控设备检测管理无线传输报警系统
US10296793B2 (en) * 2016-04-06 2019-05-21 Nec Corporation Deep 3D attention long short-term memory for video-based action recognition
US10410086B2 (en) * 2017-05-30 2019-09-10 Google Llc Systems and methods of person recognition in video streams

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032766A (ja) * 2000-07-18 2002-01-31 Matsushita Electric Ind Co Ltd 画像認識装置及びその方法
JP2003216955A (ja) * 2002-01-23 2003-07-31 Sharp Corp ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体
JP2009538558A (ja) * 2006-05-22 2009-11-05 アクシス アクチボラグ ビデオ監視カメラが検出した対象物の特性を識別する方法および機器
JP2012524343A (ja) * 2009-04-14 2012-10-11 クアルコム,インコーポレイテッド モバイル機器を使用する画像認識のためのシステムおよび方法
JP2013016171A (ja) * 2011-07-01 2013-01-24 Fujitsu Ltd 人体動作周期の特定と人体動作の認識の方法、装置、及びプログラム
JP2014157452A (ja) * 2013-02-15 2014-08-28 Omron Corp 画像処理装置、画像処理方法、および画像処理プログラム
WO2014147917A1 (ja) * 2013-03-19 2014-09-25 日本電気株式会社 処理装置、処理装置のデータ処理方法、およびプログラム
US9158974B1 (en) * 2014-07-07 2015-10-13 Google Inc. Method and system for motion vector-based video monitoring and event categorization

Also Published As

Publication number Publication date
US20180137362A1 (en) 2018-05-17
EP3321844B1 (en) 2021-04-14
TWI706377B (zh) 2020-10-01
US10691949B2 (en) 2020-06-23
KR20180054453A (ko) 2018-05-24
TW201820264A (zh) 2018-06-01
JP6963467B2 (ja) 2021-11-10
KR102156818B1 (ko) 2020-09-16
CN108073890A (zh) 2018-05-25
CN108073890B (zh) 2023-01-24
EP3321844A1 (en) 2018-05-16

Similar Documents

Publication Publication Date Title
JP6963467B2 (ja) ビデオシーケンスにおける動作認識
JP7472362B2 (ja) 受信方法、端末及びプログラム
CN109040709B (zh) 视频监控方法及装置、监控服务器及视频监控系统
US20170213091A1 (en) Video processing
US10769531B2 (en) Methods and systems for counting people
WO2018031099A1 (en) Methods and systems of performing lighting condition change compensation in video analytics
US10223590B2 (en) Methods and systems of performing adaptive morphology operations in video analytics
US20180047173A1 (en) Methods and systems of performing content-adaptive object tracking in video analytics
US11594254B2 (en) Event/object-of-interest centric timelapse video generation on camera device with the assistance of neural network input
US11200683B2 (en) Image processing device and image processing method
US20220058394A1 (en) Person-of-interest centric timelapse video with ai input on home security camera to protect privacy
WO2018031096A1 (en) Methods and systems of performing blob filtering in video analytics
CN109564686B (zh) 在视频分析中更新用于对象追踪器的运动模型的方法和系统
WO2018031104A1 (en) Methods and systems of maintaining object trackers in video analytics
WO2018031105A1 (en) Methods and systems of maintaining lost object trackers in video analytics
CN111126317A (zh) 一种图像处理方法、装置、服务器及存储介质
Nassi et al. Game of drones-detecting streamed POI from encrypted FPV channel
US11706389B2 (en) Data transmission method, camera and electronic device
CN111542858B (zh) 动态图像解析装置、系统、方法、以及存储介质
Nassi et al. Game of Drones-Detecting Spying Drones Using Time Domain Analysis
WO2017204897A1 (en) Methods and systems of determining costs for object tracking in video analytics
JP2016021716A (ja) 追尾装置及びその制御方法
KR20210077178A (ko) 깊이 추정을 이용한 영상 관리 장치 및 방법
JP2015226260A (ja) 映像処理装置及び映像処理方法
JP2022552389A (ja) 対象者が未承認である可能性が高いことを示すアラートを生成するためのイベントを管理する方法、装置、システム及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201008

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201008

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210316

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211015

R150 Certificate of patent or registration of utility model

Ref document number: 6963467

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150