JP2018538631A - シーン内のオブジェクトのアクションを検出する方法及びシステム - Google Patents

シーン内のオブジェクトのアクションを検出する方法及びシステム Download PDF

Info

Publication number
JP2018538631A
JP2018538631A JP2018532185A JP2018532185A JP2018538631A JP 2018538631 A JP2018538631 A JP 2018538631A JP 2018532185 A JP2018532185 A JP 2018532185A JP 2018532185 A JP2018532185 A JP 2018532185A JP 2018538631 A JP2018538631 A JP 2018538631A
Authority
JP
Japan
Prior art keywords
video
trajectory
cropped
action
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018532185A
Other languages
English (en)
Other versions
JP6625220B2 (ja
Inventor
ジョーンズ、マイケル・ジェイ
マークス、ティム
チュゼル、オンセル
シン、バラト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2018538631A publication Critical patent/JP2018538631A/ja
Application granted granted Critical
Publication of JP6625220B2 publication Critical patent/JP6625220B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

方法及びシステムが、まず、シーンのビデオを画像のシーケンスとして取得することによって、シーン内のオブジェクトのアクションを検出する。各画像はピクセルを含み、ビデオはチャンクに分割される。ビデオ内のオブジェクトが追跡される。ビデオの各オブジェクト及び各チャンクについて、オブジェクトにわたって位置するバウンディングボックス内のピクセルの軌道が追跡され、バウンディングボックスを用いて、チャンク内の1つ以上の画像についてクロップされた軌道及びクロップされた画像が生成される。次に、クロップされた軌道及びクロップされた画像が、各対象アクションの相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡される。

Description

本発明は、包括的には、コンピュータービジョン及びカメラ監視用途に関し、より詳細には、ビデオ内の或る特定の関心アクションを行う、人等のオブジェクトのインスタンスを検出することに関する。
コンピュータービジョン及びカメラ監視用途において、頻繁に生じる問題は、人、機械、車両、ロボット等のオブジェクトによって行われる或る特定のアクションを認識及び検出することである。ビデオ内のアクションを解析する一般問題に対するかなりの量の取り組みが行われてきたが、従来技術のほとんどは、アクション検出ではなくアクション認識に焦点を当ててきた。
アクション認識とは、アクションの始まりにおいて又はその付近で開始し、アクションの終了時に又はその付近で終了するように時間的にトリミングされたビデオセグメントにおいて、いずれのアクションが行われているかを分類する、すなわち認識することを指す。時間的にトリミングされたという用語を用いて、そのようなビデオセグメントを指す。アクション検出とは、長い、すなわち時間的にトリミングされていないビデオシーケンスにおいて生じる、アクションクラスの既知の組からの各アクションの全ての発生を、時間的に又は時空間的にロケーション特定することを指す。
アクション検出に対する早期の取り組みは、外観及び運動パターンを解析することによって歩行者を検出する方法を含む。時空間関心点、マルチインスタンス学習、又はパーツベースのモデルを用いてアクションを検出するためのいくつかの方法が既知である。
アクション認識には、アクティビティ認識のタスクが関連している。アクティビティ認識タスクにおいて、プレイ中の特定のスポーツ等のアクティビティを描写するビデオセグメントが解析され、目標は、いずれのアクティビティ(例えば、いずれのスポーツ)がビデオ内に描写されているかを判断することである。
精密アクション検出とは、検出されるアクションのクラス間の差異が小さいアクション検出を指す。例えば、料理のシナリオにおいて、みじん切り、すりおろし、及び皮むき等の類似したアクションを含む組からアクションを検出することが、精密アクション検出の一例である。
アクション認識、イベント検出、及びビデオ検索等のビデオ解析タスクのための従来の方法は、通常、勾配方向ヒストグラム(HOG)、運動境界ヒストグラム(MBH)、及びオプティカルフローヒストグラム(HOF)等の、人が設計した特徴を用いる。1つの方法は、各入力ビデオにおける改善密度軌道(IDT:Improved Dense Trajectories)を計算し、次に、ビデオのためのフィッシャーベクトルを計算し、サポートベクターマシン(SVM)を用いて分類を行う。実際には、フィッシャーベクトルを用いた浅いアーキテクチャーにより、アクション及びアクティビティ認識のための良好な結果が得られる。
結果は、上述した特徴等の人が設計した特徴が、ニューラルネットワークによって決定される「深い」特徴と置き換えられるときに改善することができる。ニューラルネットワークへの入力は、軌道に沿った画像及びスタックオプティカルフローを含むことができる。1つの方法は、2ストリームネットワークを用い、このネットワークにおいて、画像(第1のストリーム)と、僅かな数の画像にわたって決定されるスタックオプティカルフローフィールド(第2のストリーム)とが、アクション認識のために深層ニューラルネットワークに入力される。類似のアーキテクチャーを用いて、空間的ロケーション特定を、時間的にトリミングされたビデオにおけるアクション認識のタスクに組み込むことができる。しかしながら、これらのネットワークは、ビデオからの長期シーケンス情報を学習しない。
リカレントニューラルネットワーク
リカレントニューラルネットワーク(RNN)は、データ駆動方式で長期シーケンス情報を学習することができるため、RNNは、アクション認識に用いられてきた。長期短期記憶(LSTM)分類器が後続する3D畳み込みニューラルネットワークを、アクション認識に用いることができる。LSTMは、アクション認識のために、2ストリームネットワークを上回って性能を改善することができる。3次元人体関節座標のシーケンスからアクションを認識するのに、双方向LSTMが用いられてきた。
アクション認識の場合、アクション認識のために深層ニューラルネットワーク及びLSTMを用いる方法は、人が設計した特徴から生成された浅いフィッシャーベクトルを用いる方法よりも僅かにしか良好に機能しない。
アクション認識においてかなりの進歩がなされてきたが、時間的にトリミングされていないより長いビデオにおけるアクション検出、すなわち、アクションの時間的又は時空間的ロケーション特定に対しては、それほど多くの取り組みが行われていない。スポーツビデオにおけるアクションの空間的ロケーション特定に役立つように追跡が用いられてきた。追跡では、提案される軌道が生成され、次に、軌道にわたって、人が設計した特徴が決定される。
インタラクトされているオブジェクトの注釈を用いるか、又は行われている高レベルのアクティビティに対し文法を強制することは、通常有用であるが、これらの技法は、オブジェクトの追加の検出器を学習し、高レベルのアクティビティに関する事前知識を有することを必要とする可能性がある。
精密アクション検出の場合、対象の時空間領域から密な軌道を抽出すること、又は人物の手の軌道を用いることにより、性能を大幅に改善することができる。
ビデオ内のアクションの自動解析のための従来技術による方法の主要な欠点のうちの1つは、アクション検出に焦点を当てていないことである。代わりに、ほとんどの従来技術による方法は、アクション認識に焦点を当て、これは、ほとんどの方法が、アクションを時間的に又は時空間的にロケーション特定することができないことを意味する。これは、アクション認識が、アクション検出よりも容易な問題であることに起因する場合がある。
しかしながら、アクション認識は、アクション検出よりもはるかに実用的価値が低い。なぜなら、単一のアクションのみを含むようにビデオセグメントを時間的にトリミングすることがアクション認識に必須であるが、これを行うために、ビデオがトリミングされる前にアクションが既に検出されていなくてはならないためである。現実の用途において、時間的にトリミングされていないビデオが、はるかに一般的である。
アクション検出のための従来技術の方法の別の欠点は、相対的に低い精度である。すなわち、従来技術のアクション検出方法の性能は、ほとんどのコンピュータービジョン用途にとって十分良好でない。
本発明の実施形態は、ビデオにおけるオブジェクトのアクションを検出する方法及びシステムを提供する。ここで、オブジェクトは、人、動物、機械、車両、ロボット等とすることができる。例えば、オブジェクトは、工場設定における人物又は産業ロボットであり得る。本発明によって対処される主要な問題は、時間的にトリミングされていないビデオにおいて生じるオブジェクトのアクションについて、より正確なアクション検出を提供することである。
実施形態は、リカレント接続を有する深層ニューラルネットワークを用い、追跡されるオブジェクトの周りのバウンディングボックスを用いてクロップされたクロップ画像、及び複数のビデオフレームにわたって追跡されるクロップ画像内の運動を特徴付けるクロップされたオプティカルフローフィールドのシーケンスを入力としてとる、ビデオにおけるアクション検出の方法を提供する。
ここで、取得されるビデオを、画像のシーケンスとみなす。いくつかの実施形態では、ビデオを、最初に、何らかの他の形態で取得し、その後、画像のシーケンスに変換することができる。場合によっては、ビデオを、ビデオシーケンス又は画像シーケンスと呼ぶ。ビデオを構成する画像を、ビデオ画像若しくはビデオフレーム、又はより簡単に、画像若しくはフレームと呼ぶ。
本方法の特徴
本方法の様々な実施形態に含まれる特徴は、以下を含む。
ビデオ画像内でアクションが生じる場所を空間的にロケーション特定するオブジェクトトラッカー(例えば、人物トラッカー)。ほとんどの従来技術による方法は、画像の全空間範囲にわたって運動及び外観を解析する。これは多くの場合に、ロケーション特定されたアクションと無関係の過度に多くの情報を含む。
ピクセル軌道。これは、シーン点がビデオ内で動いている(例えば、人物の可動部)場合であっても、複数のフレームにわたって各シーン点の変位が同じ画像ロケーションに表される、運動情報の表現である。ピクセル軌道は、ビデオ画像にわたる点対応を直接表す。対照的に、ほとんどの従来技術による方法は、単純なスタックオプティカルフローを用いて運動情報を表し、これは、画像にわたる点対応を表さない。
異なるアクションを検出するのに役立つ多くのビデオ画像にわたる重要な時間的動力学を学習するリカレントニューラルネットワーク(RNN)。
マルチストリーム畳み込みニューラルネットワーク。これは、オブジェクトトラッカーからの出力に基づいて各画像においてクロップされたビデオについての(第1のストリームにおける)運動の重要な特徴及び(第2のストリームにおける)外観の特徴を計算することに加えて、ビデオ画像の全空間範囲、すなわちクロップされていない画像を含むビデオフレームについての(第3のストリームにおける)運動の特徴及び(第4のストリームにおける)外観の特徴も計算する。ここで、マルチストリームは、4つのストリーム、すなわち、追跡されるオブジェクトのロケーションの周りでクロップされたビデオの運動ストリーム及び外観ストリーム、並びにフル画像ビデオの運動ストリーム及び外観ストリームを指す。
従来のRNNを用いて学習することができるものよりも長い持続時間を有するパターンを学習することができる、RNNの1つ以上の層として含まれる長期短期記憶(LSTM)ネットワーク。本方法は、双方向LSTMを用いたより良好な性能を提供することができ、これは、方法が、過去のビデオフレーム及び未来のビデオフレームからの情報を用いてアクションを検出することを意味する。
本発明の実施形態による、初期層としてのマルチストリーム畳み込みニューラルネットワーク(CNN)と、単数又は複数の最終層としての長期短期記憶(LSTM)ネットワークとを含むリカレントニューラルネットワーク(RNN)の概略図である。 本発明の実施形態による、従来のスタックオプティカルフローと比較した本方法のピクセル軌道を比較する概略図である。 本発明の実施形態によるLSTMセルの概略図である。 本発明の実施形態によるオブジェクトのアクションを検出する方法及びシステムの概略図である。
本発明の実施形態は、ビデオ内のオブジェクトのアクションを検出する方法及びシステムを提供する。
本方法は、トレーニング段階と試験段階とを含む。いくつかの実施形態は、試験段階のみを含む。例えば、以前にトレーニングされたRNNを利用する、試験段階のみを有する方法が小型デバイスに埋め込まれ得る。
トレーニング段階中、図1に示すような、4つの独立した畳み込みニューラルネットワーク(CNN)120をトレーニングする。各CNNは、4つのストリーム110、すなわち、追跡されるオブジェクトのロケーションの周りでクロップされたビデオ画像の運動ストリーム111及び外観ストリーム112、並びにフルフレーム(空間的にクロップされていない)ビデオ画像の運動ストリーム113及び外観ストリーム114のうちの1つを処理する。いくつかの実施形態は、2つのストリーム、すなわち、追跡されるオブジェクトのロケーションの周りでクロップされたビデオ画像の運動ストリーム111及び外観ストリーム112のみを有する。これは、例えば、背景シーンが、ノイズを多く含むか、特徴がないか、又はそうでない場合オブジェクトによって行われているアクションに無関係である事例に有用であり得る。
好ましい実施形態では、各畳み込みネットワーク(CNN)は、VGG(ビジュアルジオメトリグループ)アーキテクチャーを用いる。これについては、Simonyan他「Two-stream convolutional networks for action recognition in videos」Advances in Neural Information Processing Systems, pages 568-576, 2014を参照されたい。しかしながら、各ストリームについて、AlexNetアーキテクチャー等の他のCNNアーキテクチャーも用いられ得る。これについては、Krizhevsky他「ImageNet Classification with Deep Convolutional Neural Networks」Advances in Neural Information Processing Systems, 2012を参照されたい。
4つのネットワークは、ビデオ100の連続した小さなチャンク101に対し、アクション分類のタスクを行う。例えば、各チャンクは、6つの連続ビデオフレームからなり得る。CNNの後に、投影層130が続く。この投影層は、全てのストリームのCNNの出力を、単一の空間及び長期短期記憶(LSTM)セル140内に投影する。各チャンクの出力は、N個のアクションクラスA,A,...,Aの組からの検出されたアクションクラス150である。
それぞれ画像及び運動に1つずつの2つの畳み込みニューラルネットワーク(CNN)が、追跡されるオブジェクトのバウンディングボックスにクロップされたビデオフレームからなるチャンクに対しトレーニングされる。クロップされたフレームは、アクションの近傍に制限されたバウンディングボックスをアクションに提供し、これは、アクションの分類に役立つ。いくつかの実施形態では、このバウンディングボックスは、ピクセル単位の固定サイズを有し、これは、アクションの複数の実行にわたってオブジェクトをアラインするのに役立つ。
いくつかの好ましい実施形態において、それぞれ画像及び運動に1つずつの2つの追加のCNNが、空間的にクロップされていないビデオフレームからなるチャンクに対しトレーニングされる。すなわち、各フレームはビデオのフルフレームであり、このため、シーン内で行われているアクションの空間コンテキストが保持される。ネットワークを、マルチストリームニューラルネットワークと呼ぶ。なぜなら、このネットワークは、各々がビデオからの異なる情報ストリームを保有する複数の(例えば、4つの)CNNを有するためである。
これらの4つのネットワーク120がトレーニングされた後、4つのネットワークのfc7層出力の上の、完全に連結された投影層130を学習し、これらの独立したストリームの共同表現を生成する。fc7層は、VGGネットワークにおける最後の完全に連結された層である。マルチストリームネットワークに、チャンク101の時系列として配列されたフルレングスビデオ100が提供され、次に、投影層の出力の対応する時系列が、2つの方向で機能する長期短期記憶(LSTM)ネットワーク140内に供給される。すなわち、LSTMネットワークは、双方向性である。
双方向LSTMネットワークは、2つの指向性LSTMネットワーク(一方は時間において前方に連結され、他方は時間において後方に連結される)からなる。いくつかの実施形態では、2つの指向性LSTMネットワークの各々の後に、明確にするために図1には示されていない、各指向性LSTMネットワークの隠れ状態の各々の上の完全に連結された層が続き、その後にsoftmax層が続き、各アクションに対応する中間スコアが得られる。最終的に、2つの指向性LSTMのスコアが組み合わされ、例えば平均され、各特定のアクションのスコアが得られる。
アクション検出パイプラインにおいて、良好な性能を達成するのに重要な複数のコンポーネントが存在する。このタスクにおいて、ビデオ内に存在する空間情報及び長期時間情報を特徴付けるモデルを用いる。
バウンディングボックスを用いて決定されたオブジェクト軌道は、入力表現からロケーション変動を取り除くことによって多くのアクションの学習を容易にする基準画像を提供する。しかしながら、いくつかのアクションは、ロケーションに依拠する。静的ビデオカメラを用いて取得されるシーンの場合、これらのアクションは、常に、同じ画像ロケーションにおいて生じる。例えば、洗浄及びゆすぎは、ほとんど常にシンクの付近で行われ、ドアの開放は、冷蔵庫又は食器棚の付近で行われる可能性が最も高い。これらの理由により、ピクセル軌道及びビデオフレームのクロップされたチャンク及びクロップされていないチャンクにおいて2つの別個の深層ネットワークをトレーニングする。
最初の2つのCNNが、オブジェクトトラッカーからのボックスを用いてクロップされたクロップ画像に対しトレーニングされ、背景ノイズが低減され、軌道及び画像領域のためのオブジェクト中心基準画像が提供される。他の2つのCNNは、大域空間コンテキストを保持するために全体(空間的にフルフレームの)画像に対しトレーニングされる。
図2に示されるように、ピクセル軌道210を用いた短期運動情報を表す。ここで、各移動シーン点は、いくつかの画像220にわたって、当該移動シーン点自体に位置的に対応する。このアライメントは、ピクセル軌道が、従来のスタックオプティカルフローフィールド230よりもはるかに豊富な運動情報を特徴付けることを可能にする。
検出されるアクションは、多岐にわたる持続時間を有することができるので、本方法は、LSTM140を用いて、データ駆動形の方式でアクションの持続時間及び長期時間コンテキストを学習する。結果は、LSTMが、精密アクション検出のために長期時間コンテキストを学習する際に極めて効果的であることを実証する。
精密アクション検出のための追跡
ロケーションに無関係の独立した(クロップされた)外観及び運動ストリームのためにオブジェクトの周りのバウンディングボックスを提供するために、任意のオブジェクト追跡方法が用いられ得る。好ましい実施形態では、状態ベースのトラッカーを用いて、ビデオ内のアクションを空間的にロケーション特定する。追跡されるバウンディングボックスのサイズを固定したままにして、バウンディングボックスの位置を更新し、バウンディングボックス内のオプティカルフローの大きさが最大になるようにする。オプティカルフローの大きさが閾値を超える場合、バウンディングボックスのロケーションが、オプティカルフローの大きさを最大にするロケーションに一致するように更新される。そうでない場合、オブジェクトは、低速に動いているか又は全く動いていない。オブジェクトが過度に低速に動いているか又は動いていないとき、前のチャンクからのバウンディングボックスが用いられる。バウンディングボックスのロケーションは、チャンク101(例えば、6つの画像)が処理され、チャンクに対するフロー及び外観特徴が決定され、バウンディングボックスがチャンク内の全ての画像にわたって静止していることを確実にした後に初めて更新される。
本発明の追跡方法は、カメラが静止しており、オブジェクトのサイズに関する妥当な推定値を有するときに効果的に適用することができる。これは、小売店、個人の自宅、又は精密アクション検出が用いられる可能性が高い監視設定において撮影される多くのビデオにとって実用的な仮定である。より難解な追跡状況では、より高度なトラッカーを用いることができる。
好ましい実施形態では、バウンディングボックスは、オブジェクトを含む矩形領域であるが、バウンディングボックスは矩形である必要はない。より一般的には、バウンディングボックスは、追跡されているオブジェクトを含むか又はその大部分を含み、さらに、オブジェクトの周りの小さな領域を含む場合もある任意の形状の領域である。
ピクセル軌道
オプティカルフローを深層ネットワークへの入力としてスタックすることが、運動ベースのネットワークをトレーニングするための従来の慣例であった。しかしながら、スタックオプティカルフローにおいて、シーン内の特定の移動点、例えば、指の先端に対応する運動ベクトルは、ピクセルロケーションを1つの画像から次の画像に変更する。このため、畳み込みニューラルネットワークは、アクションを分類するために、オプティカルフローの空間的動きを学習する必要がある。完全な運動情報は、より高次の層においてネットワークによって学習され得るが、これにはより多くのパラメーター及びデータを学習する必要がある。
図2に示されているように、(例えば、チャンクにおける)画像220のシーケンスにおける運動の表現は、中心画像IからK個の前の画像及びK個の後続の画像(例えば、K=3)の各々へのオプティカルフローを決定することである。運動のこの表現を、ピクセル軌道210と呼ぶ。ピクセル軌道の2K個全ての画像において、各ピクセルから画像I内の対応するピクセルへのフロー値が、全て画像I内のピクセルのロケーションに位置する。ピクセル軌道210において、オプティカルフロー画像(垂直方向におけるオプティカルフローの大きさを表す)の強度のみが変化するのに対し、空間レイアウトは固定である。しかしながら、スタックオプティカルフロー230において、ピクセル間の空間対応が失われる。例えば、後頭部(シルエットの最も低い点)が後続のピクセル軌道画像において同じロケーションに留まるが、後続のスタックオプティカルフロー画像において、左上に動く。このため、ネットワークは、スタックオプティカルフローフィールドを用いて可能であるよりも容易に、ピクセル軌道から各ピクセルの時間フィルターを学習することができる。
画像I内の各ピクセルについて、短い時間間隔にわたる完全な運動情報を有する。各ピクセルの運動パターンを決定するために、ピクセル軌道における1×2Kの畳み込みカーネルが、各ピクセルの移動のための特徴マップを生成することができる。対照的に、例えば、スタックオプティカルフローにおける3×3×2Kのカーネルを用いてスタックオプティカルフローを入力するネットワーク層は、2K個の画像にわたって3個を超えるピクセルの変位を有するピクセルについて第1の畳み込み層を用いて運動パターンを学習することができない。静止カメラを用いた精密アクション検出について、ピクセル軌道が、スタックオプティカルフローよりも良好に機能することを実証した。
双方向LSTMネットワークを用いた長いシーケンスにおけるアクション検出
ここで、リカレントニューラルネットワーク(RNN)及び長期短期記憶(LSTM)セルの簡単な説明を与える。入力シーケンスx=(x,...,x)を所与として、RNNは、隠れ状態表現h=(h,...,h)を用い、RNNが入力xを出力シーケンスy=(y,...,y)にマッピングできるようにする。
この表現を求めるために、RNNは、以下の再帰方程式を反復する。
Figure 2018538631
ここで、gは、活性化関数であり、Wxhは、入力を隠れ状態にマッピングする重み行列であり、Whhは、2つの隣接する時間ステップにおける隠れ状態間の遷移行列であり、Whyは、隠れ状態hを出力yにマッピングする行列であり、b及びbは、バイアス項である。
離散隠れ状態表現を用いる隠れマルコフモデル(HMM)と異なり、リカレントニューラルネットワークは、隠れ状態のための連続空間表現を用いる。しかしながら、トレーニングは、時間を通じた後方伝播を用いてネットワークをアンロールすることによって行われるため、長期シーケンス情報を学習するようにRNNをトレーニングすることは困難である。この結果、勾配消失問題又は勾配爆発問題が生じる。
図3に示すように、この問題を回避するために、LSTMセルは、メモリセルcと、LSTMがいつ前の状態を保持し、いつその状態を忘却するかを学習するのに役立つ忘却ゲートfとを有する。これによって、LSTMネットワークは、長期時間情報を学習することが可能になる。LSTMセルのための重み更新方程式は以下のとおりである。
Figure 2018538631
ここで、σは、シグモイド関数であり、tanhは、双曲線正接関数であり、i、f、o、及びcはそれぞれ、入力ゲート、忘却ゲート、出力ゲート、及びメモリセル活性化ベクトルである。
忘却ゲートfは、いつ(及びどの)情報がメモリセルcからクリアされるかを判定する。入力ゲートiは、いつ(及びどの)新たな情報がメモリに組み込まれるかを判定する。tanh層gは、入力ゲートによって許可されるときにメモリセルに追加される値の候補組を生成する。
忘却ゲートf、入力ゲートi及び新たな候補値gの出力に基づいて、メモリセルcが更新される。出力ゲートoは、メモリセル内のいずれの情報が、隠れ状態のための表現として用いられるかを制御する。隠れ状態は、メモリセル状態の関数と出力ゲートとの積として表される。
RNNのためのLSTMアーキテクチャーは、画像、ビデオからテキストへの文作成のために、及び音声認識において用いられることに成功している。しかしながら、アクション認識のタスクの場合、LSTMネットワークの性能は、依然として、改善された密な軌道にわたって生成されたフィッシャーベクトルに基づく分類器の性能に近い。これは、LSTMを用いるRNNがビデオからのアクション検出に用いられていない、ビデオからのアクション認識における精彩を欠いた性能に依拠する場合がある。
一般的に用いられるアクション認識データセットにおいて、ビデオは、各アクションの開始時点及び終了時点において又はその付近で開始及び終了するようにトリミングされる。時間的にトリミングされたビデオは、通常、長さが短く、例えば、2秒〜20秒である。このため、アクション認識タスクにおいて、データ駆動方式で学習されるのに十分な長期コンテキストが存在しない。この長期コンテキストは、アクションの予測持続時間、いずれのアクションが別のアクションに後続又は先行するか、及び時間的にアクション境界を越えて延在する他の長期運動パターン等の特性を含むことができる。
このため、アクション認識タスクにおいて、LSTMネットワークは、長期時間コンテキストにほとんどアクセスを有していない。しかしながら、精密アクション検出において、ビデオは通常、約数分又は数時間である。このため、LSTMは、シーケンスにおいて長期時間動力学をモデル化するので、LSTMネットワークは、(以前に適用されていた)アクション認識よりも(本発明において適用する)アクション検出により適しているという重要な洞察が得られた。
双方向LSTMネットワークは、未来のチャンク及び過去のチャンクの双方からの情報を統合して、ビデオシーケンスにおける各チャンクの予測を行う。したがって、双方向LSTMネットワークが、アクションの時間的境界(すなわち、開始及び終了)の予測において、単方向LSTMよりも良好であることを予測した。
本明細書に記載されるように、前方LSTMネットワーク及び後方LSTMネットワークは、各々、全てのアクションクラスのためのsoftmaxスコアを生成し、2つのLSTMネットワークのsoftmaxスコアを平均して、各アクションのスコア(確率)を得る。
長いシーケンスにおいてLSTMネットワークをトレーニングする間、時間を通じた後方伝播は、チャンクの短いシーケンスを用いて、固定ステップ数までのみ行うことができる。長期コンテキストを保持するために、後続のシーケンスにおいてトレーニングする際に、前のシーケンスにおける最後の要素の隠れ状態を保持する。
方法及びシステムの概観
上記で説明したように、方法のトレーニング段階は、リカレントニューラルネットワーク(RNN)のトレーニングを含む。試験段階、すなわち、アクション検出において、オブジェクトのアクションを検出するために、既にトレーニングされたRNNが用いられる。
図4は、特定のアクションを行うシーン内の人の検出等、オブジェクトのアクションを検出するための方法及びシステムの基本的動作を示す。ビデオ401は、画像415のシーケンスとしてシーン402から取得され(410)、各画像はピクセルを含む。シーンは、アクションを行う1つ以上のオブジェクト403、例えば、階段を駆け上がる人物を含むことができる。オブジェクトのうちの1つ以上が追跡され(420)、追跡されるオブジェクトのバウンディングボックス425が、ビデオ画像の各チャンク内で推定される。例えば、チャンクは、一連の6つの画像とすることができる。
画像は、バウンディングボックスの範囲までクロップされ、バウンディングボックス内でピクセル軌道が計算される(430)。結果として得られるクロップされた軌道及びクロップされた画像440は、各対象アクションの相対スコア460を出力するようにトレーニングされたリカレントニューラルネットワーク(RNN)450に渡される。
ステップは、当該技術分野において既知のメモリ、カメラ及び入出力インタフェースに接続されたプロセッサ100において行うことができる。

Claims (22)

  1. シーン内のオブジェクトのアクションを検出する方法であって、
    前記シーンのビデオを画像のシーケンスとして取得するステップであって、各画像はピクセルを含み、前記ビデオはチャンクに分割される、ステップと、
    前記ビデオ内の前記オブジェクトを追跡するステップであって、前記ビデオの各オブジェクト及び各チャンクについて、
    前記オブジェクトにわたって位置するバウンディングボックス内の前記ピクセルの軌道を決定するステップと、
    前記バウンディングボックスを用いて、前記チャンク内の1つ以上の画像についてクロップされた軌道及びクロップされた画像を生成するステップと、
    前記クロップされた軌道及び前記クロップされた画像を、各対象アクションの相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡すステップと、
    を更に含む、ステップと、
    を含み、前記ステップはプロセッサにおいて実行される、方法。
  2. 前記RNNは、畳み込みニューラルネットワーク層及び1つ以上のリカレントニューラルネットワーク層を含む、請求項1に記載の方法。
  3. 前記畳み込みニューラルネットワーク層は、前記クロップされた軌道及び前記クロップされた画像、並びに前記ビデオの全空間範囲を有する軌道及び画像を含む複数のストリームに対し動作する、請求項2に記載の方法。
  4. 前記リカレントニューラルネットワーク層は、長期短期記憶(LSTM)セルを含む、請求項2に記載の方法。
  5. 前記リカレントニューラルネットワーク層は、双方向長期短期記憶(LSTM)セルを含む、請求項3に記載の方法。
  6. 前記軌道は、ピクセル軌道として符号化される、請求項1に記載の方法。
  7. 前記軌道は、スタックオプティカルフローとして符号化される、請求項1に記載の方法。
  8. 前記追跡するステップは、前記バウンディングボックス内部の前記スタックオプティカルフローの大きさを最大にするバウンディングボックスを選択するステップを含む、請求項1に記載の方法。
  9. 前記追跡するステップは、
    前記バウンディングボックス内部の前記スタックオプティカルフローの大きさが閾値よりも大きい場合、前記バウンディングボックスのロケーションを更新するステップを更に含む、請求項8に記載の方法。
  10. 前記ピクセルの前記軌道は、前記チャンク内の中央画像から、K個の前の画像及びK個の後続の画像の各々まで決定される、請求項1に記載の方法。
  11. Kは3である、請求項10に記載の方法。
  12. 各ピクセルの運動パターンが1×2K畳み込みカーネルを用いて決定される、請求項10に記載の方法。
  13. 前記方法は、前記ビデオにおける精密アクション検出のために用いられる、請求項1に記載の方法。
  14. 前記方法は、前記検出するステップの前に前記RNNをトレーニングするステップを含む、請求項1に記載の方法。
  15. 前記RNNは、以前にトレーニングされている、請求項1に記載の方法。
  16. 前記検出するステップは、時間的アクション検出を含む、請求項1に記載の方法。
  17. 前記検出するステップは、時空間的アクション検出を含む、請求項1に記載の方法。
  18. 前記ビデオは、画像のシーケンス以外の何らかの形態で初期に取得され、画像のシーケンスに変換される、請求項1に記載の方法。
  19. 前記オブジェクトは、人物である、請求項1に記載の方法。
  20. 前記オブジェクトは、ロボットである、請求項1に記載の方法。
  21. 前記オブジェクトは、産業ロボットである、請求項1に記載の方法。
  22. シーン内のオブジェクトのアクションを検出するシステムであって、
    前記シーンのビデオを画像のシーケンスとして取得する手段であって、各画像はピクセルを含み、前記ビデオはチャンクに分割される、手段と、
    前記ビデオ内の前記オブジェクトを追跡するように構成されるプロセッサであって、前記ビデオの各オブジェクト及び各チャンクについて、前記プロセッサは、前記ビデオの各オブジェクト及び各チャンクについて、前記オブジェクトにわたって位置するバウンディングボックス内の前記ピクセルの軌道を決定し、前記バウンディングボックスを用いて、前記チャンク内の1つ以上の画像についてクロップされた軌道及びクロップされた画像を生成し、前記クロップされた軌道及び前記クロップされた画像を、各対象アクションの相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡すように更に構成される、プロセッサと、
    を備える、システム。
JP2018532185A 2016-03-02 2017-01-24 シーン内のオブジェクトのアクションを検出する方法及びシステム Active JP6625220B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/058,264 US10242266B2 (en) 2016-03-02 2016-03-02 Method and system for detecting actions in videos
US15/058,264 2016-03-02
PCT/JP2017/003079 WO2017150032A1 (en) 2016-03-02 2017-01-24 Method and system for detecting actions of object in scene

Publications (2)

Publication Number Publication Date
JP2018538631A true JP2018538631A (ja) 2018-12-27
JP6625220B2 JP6625220B2 (ja) 2019-12-25

Family

ID=58228512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018532185A Active JP6625220B2 (ja) 2016-03-02 2017-01-24 シーン内のオブジェクトのアクションを検出する方法及びシステム

Country Status (3)

Country Link
US (1) US10242266B2 (ja)
JP (1) JP6625220B2 (ja)
WO (1) WO2017150032A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11514605B2 (en) 2020-09-29 2022-11-29 International Business Machines Corporation Computer automated interactive activity recognition based on keypoint detection

Families Citing this family (125)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769453B2 (en) * 2017-05-16 2020-09-08 Samsung Electronics Co., Ltd. Electronic device and method of controlling operation of vehicle
CN110443351B (zh) 2014-11-14 2021-05-28 谷歌有限责任公司 生成映像的自然语言描述
US10013640B1 (en) * 2015-12-21 2018-07-03 Google Llc Object recognition from videos using recurrent neural networks
US9928875B2 (en) * 2016-03-22 2018-03-27 Nec Corporation Efficient video annotation with optical flow based estimation and suggestion
US10007867B2 (en) * 2016-04-04 2018-06-26 Google Llc Systems and methods for identifying entities directly from imagery
US20170294091A1 (en) * 2016-04-06 2017-10-12 Nec Laboratories America, Inc. Video-based action recognition security system
US11055537B2 (en) * 2016-04-26 2021-07-06 Disney Enterprises, Inc. Systems and methods for determining actions depicted in media contents based on attention weights of media content frames
WO2017201023A1 (en) * 2016-05-20 2017-11-23 Google Llc Machine learning methods and apparatus related to predicting motion(s) of object(s) in a robot's environment based on image(s) capturing the object(s) and based on parameter(s) for future robot movement in the environment
US10019629B2 (en) * 2016-05-31 2018-07-10 Microsoft Technology Licensing, Llc Skeleton-based action detection using recurrent neural network
WO2017212459A1 (en) * 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms
CN106210808B (zh) * 2016-08-08 2019-04-16 腾讯科技(深圳)有限公司 媒体信息投放方法、终端、服务器及系统
US10902343B2 (en) * 2016-09-30 2021-01-26 Disney Enterprises, Inc. Deep-learning motion priors for full-body performance capture in real-time
US20180101726A1 (en) * 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
US10366292B2 (en) * 2016-11-03 2019-07-30 Nec Corporation Translating video to language using adaptive spatiotemporal convolution feature representation with dynamic abstraction
US10467274B1 (en) 2016-11-10 2019-11-05 Snap Inc. Deep reinforcement learning-based captioning with embedding reward
US10198671B1 (en) * 2016-11-10 2019-02-05 Snap Inc. Dense captioning with joint interference and visual context
US10176388B1 (en) 2016-11-14 2019-01-08 Zoox, Inc. Spatial and temporal information for semantic segmentation
US10855550B2 (en) * 2016-11-16 2020-12-01 Cisco Technology, Inc. Network traffic prediction using long short term memory neural networks
EP3340103A1 (en) * 2016-12-21 2018-06-27 Axis AB Method for identifying events in a motion video
US11423548B2 (en) * 2017-01-06 2022-08-23 Board Of Regents, The University Of Texas System Segmenting generic foreground objects in images and videos
US10803323B2 (en) * 2017-05-16 2020-10-13 Samsung Electronics Co., Ltd. Electronic device and method of detecting driving event of vehicle
US11126854B1 (en) * 2017-06-02 2021-09-21 Amazon Technologies, Inc. Efficient identification of objects in videos using motion information
US10853951B2 (en) 2017-08-04 2020-12-01 Intel Corporation Methods and apparatus to generate temporal representations for action recognition systems
US10592786B2 (en) * 2017-08-14 2020-03-17 Huawei Technologies Co., Ltd. Generating labeled data for deep object tracking
US10755144B2 (en) 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US10755142B2 (en) 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US10452954B2 (en) * 2017-09-14 2019-10-22 Google Llc Object detection and representation in images
CN107644217B (zh) * 2017-09-29 2020-06-26 中国科学技术大学 基于卷积神经网络和相关滤波器的目标跟踪方法
CN107807971A (zh) * 2017-10-18 2018-03-16 北京信息科技大学 一种自动图像语义描述方法
US10762637B2 (en) * 2017-10-27 2020-09-01 Siemens Healthcare Gmbh Vascular segmentation using fully convolutional and recurrent neural networks
CN107679522B (zh) * 2017-10-31 2020-10-13 内江师范学院 基于多流lstm的动作识别方法
CN107909014A (zh) * 2017-10-31 2018-04-13 天津大学 一种基于深度学习的视频理解方法
DE102017219673A1 (de) * 2017-11-06 2019-05-09 Robert Bosch Gmbh Verfahren, Vorrichtung und Computerprogram zur Detektion eines Objektes
CN108205655B (zh) * 2017-11-07 2020-08-11 北京市商汤科技开发有限公司 一种关键点预测方法、装置、电子设备及存储介质
CN107885853A (zh) * 2017-11-14 2018-04-06 同济大学 一种基于深度学习的组合式文本分类方法
CN107993255B (zh) * 2017-11-29 2021-11-19 哈尔滨工程大学 一种基于卷积神经网络的稠密光流估计方法
EP3495988A1 (en) 2017-12-05 2019-06-12 Aptiv Technologies Limited Method of processing image data in a connectionist network
CN108062561B (zh) * 2017-12-05 2020-01-14 华南理工大学 一种基于长短时记忆网络模型的短时数据流预测方法
US10373332B2 (en) 2017-12-08 2019-08-06 Nvidia Corporation Systems and methods for dynamic facial analysis using a recurrent neural network
CN107909602A (zh) * 2017-12-08 2018-04-13 长沙全度影像科技有限公司 一种基于深度学习的运动边界估计方法
CN107967695B (zh) * 2017-12-25 2018-11-13 北京航空航天大学 一种基于深度光流和形态学方法的运动目标检测方法
CN108288032B (zh) * 2018-01-08 2020-11-10 深圳市腾讯计算机系统有限公司 动作特征获取方法、装置及存储介质
CN108154191B (zh) * 2018-01-12 2021-08-10 北京经舆典网络科技有限公司 文档图像的识别方法和系统
CN108279692B (zh) * 2018-01-17 2020-12-22 哈尔滨工程大学 一种基于lstm-rnn的uuv动态规划方法
CN110084356B (zh) * 2018-01-26 2021-02-02 赛灵思电子科技(北京)有限公司 一种深度神经网络数据处理方法和装置
US10296102B1 (en) * 2018-01-31 2019-05-21 Piccolo Labs Inc. Gesture and motion recognition using skeleton tracking
US10241588B1 (en) 2018-01-31 2019-03-26 Piccolo Labs Inc. System for localizing devices in a room
CN108446594B (zh) * 2018-02-11 2021-08-06 四川省北青数据技术有限公司 基于动作识别的应急反应能力测评方法
US10304208B1 (en) 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks
US10346198B1 (en) 2018-02-12 2019-07-09 Avodah Labs, Inc. Data processing architecture for improved data flow
WO2019157344A1 (en) 2018-02-12 2019-08-15 Avodah Labs, Inc. Real-time gesture recognition method and apparatus
US10489639B2 (en) 2018-02-12 2019-11-26 Avodah Labs, Inc. Automated sign language translation and communication using multiple input and output modalities
US10289903B1 (en) 2018-02-12 2019-05-14 Avodah Labs, Inc. Visual sign language translation training device and method
CN108537818B (zh) * 2018-03-07 2020-08-14 上海交通大学 基于集群压力lstm的人群轨迹预测方法
GB201804400D0 (en) * 2018-03-20 2018-05-02 Univ Of Essex Enterprise Limited Localisation, mapping and network training
CN108257158B (zh) * 2018-03-27 2021-11-30 福州大学 一种基于循环神经网络的目标预测与跟踪方法
CN108573496B (zh) * 2018-03-29 2020-08-11 淮阴工学院 基于lstm网络和深度增强学习的多目标跟踪方法
EP3547211B1 (en) 2018-03-30 2021-11-17 Naver Corporation Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn
CN108520530B (zh) * 2018-04-12 2020-01-14 厦门大学 基于长短时记忆网络的目标跟踪方法
US11967127B2 (en) * 2018-04-18 2024-04-23 Sony Interactive Entertainment Inc. Context embedding for capturing image dynamics
EP3561726A1 (en) 2018-04-23 2019-10-30 Aptiv Technologies Limited A device and a method for processing data sequences using a convolutional neural network
EP3561727A1 (en) * 2018-04-23 2019-10-30 Aptiv Technologies Limited A device and a method for extracting dynamic information on a scene using a convolutional neural network
CN108647625A (zh) * 2018-05-04 2018-10-12 北京邮电大学 一种表情识别方法及装置
CN108710904A (zh) * 2018-05-10 2018-10-26 上海交通大学 基于递归神经网络的图像匹配方法及系统
US11521044B2 (en) 2018-05-17 2022-12-06 International Business Machines Corporation Action detection by exploiting motion in receptive fields
CN108710865B (zh) * 2018-05-28 2022-04-22 电子科技大学 一种基于神经网络的司机异常行为检测方法
CN108921042B (zh) * 2018-06-06 2019-08-23 四川大学 一种基于深度学习的人脸序列表情识别方法
US20190392591A1 (en) * 2018-06-25 2019-12-26 Electronics And Telecommunications Research Institute Apparatus and method for detecting moving object using optical flow prediction
CN109033971A (zh) * 2018-06-27 2018-12-18 中国石油大学(华东) 一种基于残差网络思想的高效行人重识别方法
CN108960139A (zh) * 2018-07-03 2018-12-07 百度在线网络技术(北京)有限公司 人物行为识别方法、装置及存储介质
CN109104620B (zh) * 2018-07-26 2020-05-19 腾讯科技(深圳)有限公司 一种短视频推荐方法、装置和可读介质
CN109190479A (zh) * 2018-08-04 2019-01-11 台州学院 一种基于混合深度学习的视频序列表情识别方法
EP3608844A1 (en) * 2018-08-10 2020-02-12 Naver Corporation Methods for training a crnn and for semantic segmentation of an inputted video using said crnn
KR102235745B1 (ko) * 2018-08-10 2021-04-02 네이버 주식회사 컨볼루션 순환 신경망을 훈련시키는 방법 및 훈련된 컨볼루션 순환 신경망을 사용하는 입력된 비디오의 의미적 세그먼트화 방법
CN109064507B (zh) * 2018-08-21 2021-06-22 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
US11017296B2 (en) 2018-08-22 2021-05-25 Ford Global Technologies, Llc Classifying time series image data
CN109272493A (zh) * 2018-08-28 2019-01-25 中国人民解放军火箭军工程大学 一种基于递归卷积神经网络的单目视觉里程计方法
CN109344960A (zh) * 2018-09-01 2019-02-15 哈尔滨工程大学 一种防止数据信息丢失的dgru神经网络及其预测模型建立方法
CN109255351B (zh) * 2018-09-05 2020-08-18 华南理工大学 基于三维卷积神经网络的边界框回归方法、系统、设备及介质
CN109325430B (zh) * 2018-09-11 2021-08-20 苏州飞搜科技有限公司 实时行为识别方法及系统
CN109559332B (zh) * 2018-10-31 2021-06-18 浙江工业大学 一种结合双向LSTM和Itracker的视线跟踪方法
CN109447164B (zh) 2018-11-01 2019-07-19 厦门大学 一种运动行为模式分类方法、系统以及装置
CN111209774B (zh) * 2018-11-21 2024-03-26 杭州海康威视数字技术股份有限公司 目标行为识别及显示方法、装置、设备、可读介质
US20200196028A1 (en) * 2018-12-13 2020-06-18 FocusVision Worldwide, Inc. Video highlight recognition and extraction tool
CN109714322B (zh) * 2018-12-14 2020-04-24 中国科学院声学研究所 一种检测网络异常流量的方法及其系统
CN109858514A (zh) * 2018-12-20 2019-06-07 北京以萨技术股份有限公司 一种基于神经网络的视频行为分类方法
CN109753897B (zh) * 2018-12-21 2022-05-27 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN109726672B (zh) * 2018-12-27 2020-08-04 哈尔滨工业大学 一种基于人体骨架序列和卷积神经网络的摔倒检测方法
CN109807887B (zh) * 2019-01-18 2020-09-15 上海交通大学 基于深度神经网络的柔性臂智能感知与控制方法和系统
CN109784295B (zh) * 2019-01-25 2020-12-25 佳都新太科技股份有限公司 视频流特征识别方法、装置、设备及存储介质
USD912139S1 (en) 2019-01-28 2021-03-02 Avodah, Inc. Integrated dual display sensor
CN109886206B (zh) * 2019-02-21 2021-09-14 电子科技大学中山学院 一种三维物体识别方法及设备
US11094070B2 (en) * 2019-04-23 2021-08-17 Jiangnan University Visual multi-object tracking based on multi-Bernoulli filter with YOLOv3 detection
CN110084831B (zh) * 2019-04-23 2021-08-24 江南大学 基于YOLOv3多伯努利视频多目标检测跟踪方法
CN110135352B (zh) * 2019-05-16 2023-05-12 南京砺剑光电技术研究院有限公司 一种基于深度学习的战术动作评估方法
CN110110812B (zh) * 2019-05-20 2022-08-19 江西理工大学 一种用于视频动作识别的串流深度网络模型构建方法
EP3792821A1 (en) * 2019-09-11 2021-03-17 Naver Corporation Action recognition using implicit pose representations
CN110223316B (zh) * 2019-06-13 2021-01-29 哈尔滨工业大学 基于循环回归网络的快速目标跟踪方法
CN110414326B (zh) * 2019-06-18 2024-05-07 平安科技(深圳)有限公司 样本数据处理方法、装置、计算机装置及存储介质
RU196355U1 (ru) * 2019-06-26 2020-02-26 Леся Николаевна Анищенко Устройство для автоматизированного распознавания поведения с целью выявления агрессии
US11151412B2 (en) * 2019-07-01 2021-10-19 Everseen Limited Systems and methods for determining actions performed by objects within images
CN110334654A (zh) * 2019-07-08 2019-10-15 北京地平线机器人技术研发有限公司 视频预测方法和装置、视频预测模型的训练方法及车辆
CN110390294B (zh) * 2019-07-19 2021-03-09 中国人民解放军国防科技大学 一种基于双向长短期记忆神经网络的目标跟踪方法
CN110555387B (zh) * 2019-08-02 2022-07-19 华侨大学 骨架序列中基于局部关节点轨迹时空卷的行为识别方法
CN110472729B (zh) * 2019-08-02 2020-05-26 中南大学 基于综合cnn-lstm的岩爆状态预测方法
US11113822B2 (en) 2019-08-14 2021-09-07 International Business Machines Corporation Moving object identification from a video stream
CN111027448B (zh) * 2019-12-04 2023-05-05 成都考拉悠然科技有限公司 一种基于时域推理图的视频行为类别识别方法
CN111008596B (zh) * 2019-12-05 2020-12-25 西安科技大学 基于特征期望子图校正分类的异常视频清洗方法
CN111027461B (zh) * 2019-12-06 2022-04-29 长安大学 基于多维单步lstm网络的车辆轨迹预测方法
CN111046808B (zh) * 2019-12-13 2024-03-22 江苏大学 采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的分析方法
CN111079655B (zh) * 2019-12-18 2022-08-16 航天物联网技术有限公司 一种基于融合神经网络的视频中人体行为识别方法
CN111191630B (zh) * 2020-01-07 2024-01-09 中国传媒大学 适用于智能交互观演场景的演艺动作识别方法
WO2021201774A1 (en) * 2020-03-31 2021-10-07 Agency For Science, Technology And Research Method and system for determining a trajectory of a target object
CN111680543B (zh) * 2020-04-23 2023-08-29 北京迈格威科技有限公司 动作识别方法、装置及电子设备
CN111428066B (zh) * 2020-04-24 2021-08-24 南京图格医疗科技有限公司 一种基于卷积神经网络的病变图像的分类和分割方法
CN111524132B (zh) * 2020-05-09 2022-10-18 腾讯医疗健康(深圳)有限公司 识别待检测样本中异常细胞的方法、装置和存储介质
CN111709301B (zh) * 2020-05-21 2023-04-28 哈尔滨工业大学 一种冰壶球运动状态估计方法
CN111915573A (zh) * 2020-07-14 2020-11-10 武汉楚精灵医疗科技有限公司 一种基于时序特征学习的消化内镜下病灶跟踪方法
EP3968281A1 (en) * 2020-09-09 2022-03-16 Tata Consultancy Services Limited System and method for forecasting location of target in monocular first person view
CN112347879B (zh) * 2020-10-27 2021-06-29 中国搜索信息科技股份有限公司 一种针对视频运动目标的主题挖掘及行为分析方法
CN112633327B (zh) * 2020-12-02 2023-06-30 西安电子科技大学 分阶段金属表面缺陷检测方法、系统、介质、设备及应用
CN112733595A (zh) * 2020-12-02 2021-04-30 国网湖南省电力有限公司 一种基于时间分段网络的视频动作识别方法及存储介质
US20220351392A1 (en) * 2021-04-30 2022-11-03 Nvidia Corporation Object tracking using optical flow
US20220361834A1 (en) * 2021-05-12 2022-11-17 Angiowave Imaging, Llc Motion-compensated wavelet angiography
CN114022827B (zh) * 2022-01-05 2022-06-17 阿里巴巴(中国)有限公司 产线作业管理与视频处理方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4481663B2 (ja) 2004-01-15 2010-06-16 キヤノン株式会社 動作認識装置、動作認識方法、機器制御装置及びコンピュータプログラム
US8345984B2 (en) 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
CN103593661B (zh) 2013-11-27 2016-09-28 天津大学 一种基于排序方法的人体动作识别方法
US10706310B2 (en) * 2016-02-29 2020-07-07 Nec Corporation Video camera device and system using recursive neural networks for future event prediction

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11514605B2 (en) 2020-09-29 2022-11-29 International Business Machines Corporation Computer automated interactive activity recognition based on keypoint detection

Also Published As

Publication number Publication date
US20170255832A1 (en) 2017-09-07
JP6625220B2 (ja) 2019-12-25
US10242266B2 (en) 2019-03-26
WO2017150032A1 (en) 2017-09-08

Similar Documents

Publication Publication Date Title
JP6625220B2 (ja) シーン内のオブジェクトのアクションを検出する方法及びシステム
JP6877630B2 (ja) アクションを検出する方法及びシステム
Girdhar et al. Detect-and-track: Efficient pose estimation in videos
Bera et al. Realtime anomaly detection using trajectory-level crowd behavior learning
Li et al. Tracking in low frame rate video: A cascade particle filter with discriminative observers of different life spans
JP6018674B2 (ja) 被写体再識別のためのシステム及び方法
Ramanan et al. Tracking people by learning their appearance
Kelley et al. Understanding human intentions via hidden markov models in autonomous mobile robots
JP4208898B2 (ja) 対象物追跡装置および対象物追跡方法
Xu et al. Deepmot: A differentiable framework for training multiple object trackers
CN110765906A (zh) 一种基于关键点的行人检测算法
US20100316298A1 (en) Multiple view face tracking
Li et al. Robust multiperson detection and tracking for mobile service and social robots
Manikandan et al. Human object detection and tracking using background subtraction for sports applications
Hammam et al. Real-time multiple spatiotemporal action localization and prediction approach using deep learning
CN113869274B (zh) 基于城市管理的无人机智能跟踪监控方法及系统
Pervaiz et al. Artificial neural network for human object interaction system over Aerial images
Serpush et al. Complex human action recognition in live videos using hybrid FR-DL method
JP7488674B2 (ja) 物体認識装置、物体認識方法及び物体認識プログラム
Nikpour et al. Deep reinforcement learning in human activity recognition: A survey
Mishra et al. Automated detection of fighting styles using localized action features
Gonzàlez et al. Hermes: A research project on human sequence evaluation
Lao et al. Fast detection and modeling of human-body parts from monocular video
Ji et al. Visual-based view-invariant human motion analysis: A review
Chuang et al. Human Body Part Segmentation of Interacting People by Learning Blob Models

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180618

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191126

R150 Certificate of patent or registration of utility model

Ref document number: 6625220

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250