JP6045549B2 - 感情および行動を認識するための方法およびシステム - Google Patents

感情および行動を認識するための方法およびシステム Download PDF

Info

Publication number
JP6045549B2
JP6045549B2 JP2014230124A JP2014230124A JP6045549B2 JP 6045549 B2 JP6045549 B2 JP 6045549B2 JP 2014230124 A JP2014230124 A JP 2014230124A JP 2014230124 A JP2014230124 A JP 2014230124A JP 6045549 B2 JP6045549 B2 JP 6045549B2
Authority
JP
Japan
Prior art keywords
frame
junction
bins
gradient
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014230124A
Other languages
English (en)
Other versions
JP2015130151A (ja
Inventor
カオ チェン
カオ チェン
ツァン ヨンミャン
ツァン ヨンミャン
グ ハイソン
グ ハイソン
Original Assignee
コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド, コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド filed Critical コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
Publication of JP2015130151A publication Critical patent/JP2015130151A/ja
Application granted granted Critical
Publication of JP6045549B2 publication Critical patent/JP6045549B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/426Graphical representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Description

発明の分野
本開示は、感情および行動を認識するための方法およびシステムであって、感情の検出を含み、人間の感情および行動をリアルタイムでモニターすることに適用することができるもの、に関する。
背景
顔の表情および人間の動作が、感情および行動の検出のために利用されることができる。動作の認識はまた、人間の動作の自動的な認識および/またはビデオ監視、人間とコンピュータの相互作用、および感情検出のような様々な実用的応用のための感情の検出のために利用されることができる。3Dセンサーおよび姿勢の推定といった新たな技術により、伝統的なカラービデオベースの方法に代替可能な、深さおよび骨格の情報に基づく動作認識アプローチを行うことができる。
概要
上述の点を考慮すると、計算時間を削減するとともに身体接合情報に依存可能な、身振り検出の方法およびシステムを利用して、感情および行動を検出する方法およびシステムを有することが望ましい。
実施形態の例として、行動を認識する方法が開示される。当該方法は、一以上の被検者について、少なくとも一つのビデオデータストリームをキャプチャーする段階と、少なくとも一つのビデオデータストリームから身体の骨格データを抽出する段階と、抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する段階と、複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する段階と、時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する段階と、方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する段階と、行動および/または感情として単一の列ベクトルを分類する段階と、を有する。
実施形態の例として、行動を認識するシステムが開示される。当該システムは、一以上の被検者について、少なくとも一つのビデオデータストリームをキャプチャーするように構成されたビデオカメラと、少なくとも一つのビデオデータストリームから身体の骨格データを抽出し、抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算し、複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成し、時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成し、方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して単一の列ベクトルを生成し、および行動および/または感情として単一の列ベクトルを分類する、ための実行可能命令を有する、一以上のモジュールと、を有する。
実施形態の例として、行動の認識のためのコンピュータ読み取り可能なコードを有するプログラムが開示される。当該コードは、少なくとも一つのビデオデータストリームから身体の骨格データを抽出する手順と、抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する手順と、複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する手順と、時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する手順と、方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する手順と、行動および/または感情として単一の列ベクトルを分類する手順と、を有する。
図面の簡単な説明
添付の図面は発明のさらなる理解を提供するために含まれており、また、組み込まれて本明細書の一部を構成する。図面は発明の実施形態を図示しており、明細書とともに発明の本質を説明することに寄与する。図面においては、
図1は、実施形態の例による、行動の検出のためのシステムを示す。 図2は、実施形態の例による、システムのフローチャートを示す。 図3は、実施形態の例による、3Dセンサーにより得られた、15個の接合部を有する人体であって、各点に対し三次元位置(X,Y,D)が得られるものを示す。 図4は、実施形態の例により、ビデオ入力からどのように姿勢、速度、および動作の特徴を抽出できるかを表わすチャートを示す。 図5は、実施形態の例による、一組の接合部の同心球ビン(concentric spherical bin)の表現を示す。 図6は、実施形態の例による、ヒストグラムシーケンスのエネルギーギャップの表現であって、X軸はフレーム長、Y軸は基本的特徴から計算された方位のビンである。 図7は、実施形態の例による、例としての感情および/または行動のデータセットにおけるサンプルプロファイルを示す。
詳細な説明
本発明の実施形態についてここに詳細に言及される。実施形態の例が添付された図面により示されている。同じまたは類似の部分を指すために、図面および明細書において可能な限り同じ参照番号が使用されている。
実施形態の例により、身振りおよび動作による感情および行動の検出のための方法およびシステムが開示される。方法およびシステムは、三次元(3D)空間における身体関節の対応する動きと組み合わされる身振りの検出に基づいて感情および行動を検出するために使用される。
実施形態の例によれば、一以上の被検者が一連の動きを行う際、身体動作を記録するために、3Dセンサー/ビデオカメラまたはビデオ入力を使用することができる。例えば、身体関節は、図3に示すように、15個の身体関節(またはポイント)から構成されることができ、それらは、センサーの機能としての3Dビデオの各フレームから推定することができる。実施形態の例によれば、姿勢、速度、および動きのような基本的な特徴は、被検者の動きを描写するために、フレームごとに抽出されることができる。それらの抽出された特徴(例えば、姿勢、速度、および動き)は、一以上の関節の組合せの大きさおよび位置から算出することができる。ヒストグラムのシーケンスは、抽出された特徴の統計的投射として形成されることができ、方向づけられた勾配のヒストグラムのアルゴリズム(HOG)が、ビデオにおいて検出された感情および行動に対応し、またはこれらを描写するベクトルディスクリプターを得るシーケンスに採用されることができる。リニアSVMのような分類エンジンが、生成されたベクトルディスクリプターを感情および/または動作として分類するために使用されることができる。
実施形態の例によれば、本開示は、身体関節の組合せに対応する動きの検出に基づいて感情および行動を認識するシステムおよび方法に関する。行動認識システム100は、例えば、ビデオプロセスモジュール112、行動認識モジュール114、オフライン分析モジュール116、および分類データベースモジュール118を含む処理モジュールまたはシステム110を含むことができる。各モジュール112、114、116、118は、メモリー、プロセッサー、オペレーティングシステム、および/またはソフトウェアおよび/または光グラフィカルユーザーインターフェース(GUI)および/またはディスプレイを有する一以上のコンピュータまたは処理デバイスを含むことができる。例えば、各モジュール112、114、116、118は、例えばスタンドアロンのコンピュータといった一つのコンピュータデバイスに組み込まれることができ、または、一つ以上のコンピュータデバイスであってそれぞれメモリー、プロセッサー、オペレーティングシステム、および/またはソフトウェア、およびグラフィカルユーザーインターフェース(GUI)またはディスプレイを有するものの中に含まれることができる。
図1に示すように、処理モジュールまたはシステム110は、オンラインビデオ処理モジュール112、行動認識モジュール114、オフライン分析モジュール116、およびデータベースモジュール118を含む。実施形態の例によれば、オンラインビデオ処理モジュール112は、ビデオカメラ120から受信されるビデオストリーム122から受信されるビデオフレームから、身体骨格関節データ(図3)をモニターし、キャプチャーし、抽出するために使用されることができる。オフライン分析モジュール116は、キャプチャーされた骨格フレームを一以上のファイルに保存し、行動分類データベースモジュール118を管理するためのデータベースマネージメントインターフェースを提供する。実施形態の例によれば、オンラインビデオ処理モジュール112は、一以上の被検者710(図7)を描写する当初のビデオストリーム122から受信された未処理の入力データから行動の特徴を抽出する。抽出された行動の特徴は、行動認識モジュール114に入力されることができ、行動認識モジュール114は、基本的な特徴抽出240(図4)、球ビン投射250(図5)、方向づけられたヒストグラムシーケンス260(図6)、および、単一の列ベクトルまたはディスクリプターを得るための、方向づけられた勾配のヒストグラム(HOG)の方向づけられたヒストグラムシーケンス260への適用を行う。被検者710のビデオ入力122と関連する感情または行動の認識または検出のために、単一の列ベクトルまたはディスクリプターは、機械学習分類器に入力(すなわち、それにより解析)される。実施形態の例によれば、機械学習分類器は、データベースモジュール118内で提供されることができる。
実施形態の例によれば、オフライン分析モジュール116は、行動分類データベースモジュール118を手動で登録および管理するためのユーザーインターフェースを提供することができる。行動分類データベースモジュール118は、例えば、分類された行動および/または感情と関連させることができる単一の列ベクトルまたはディスクリプターといった特定可能な特徴のデータベースを含んで構成されることができる。例えば、実施形態の例によれば、システム100は、例えば、医療における検出および予防のために使用できる、転倒のような行動および/または全体的な雰囲気または感情の検出が可能な、可変環境人間行動検出システムとして使用されることができる。
実施形態の例によれば、当初のビデオストリームまたはビデオ入力122は、ビデオカメラ120と例えば組み合わされる、一以上の動きおよび/または深さセンサー、および/または他の既知の動きおよび深さセンサーおよび/またはデバイスを使用して生成されることができる。実施形態の例によれば、ビデオカメラと組み合わされた単体の動きおよび深さセンサーよりもむしろ、3D(三次元の)ビデオカメラ技術を使用して、当初のビデオストリーム122を得ることができる。当初のビデオストリーム120から抽出されたデータはファイルに保存されることができ、および/または3Dビデオカメラ120からビデオ処理モジュール112および/または行動認識モジュール114へ直接入力されることができる。
図2は、実施形態の例による、感情の検出を含む行動を検出するための、行動認識システム200のフローチャートである。図2に示すように、システム200は、被検者710(図7)の行動、感情、および/または動作210を含むビデオ入力またはビデオストリーム122を含む。被検者710は、例えば、人間、動物、および/または他の生き物であることができる。
実施形態の例によれば、ビデオ入力122は、ビデオ入力122を処理してキャプチャーされたデータ220にするビデオ処理モジュール112に入力される。キャプチャーされたデータ220は、行動認識モジュール116に送信222されることができる。行動認識モジュール116は、キャプチャーされたデータから、各フレームに関する身体関節フレーム230、および、身体関節310(図3)の一以上の組合せの姿勢、速度、および動きを含む基本的な特徴240を抽出することができる一以上のモジュールを含むことができる。
実施形態の例によれば、姿勢、速度、および動きを含む基本的な特徴240の抽出の後、基本的な特徴240のそれぞれのために、球ビン投射ユニット250を使用して、オリジナルのデカルト座標から抽出された各特徴に関するデルタユニット(すなわち、三次元位置(X,Y,D)における変化)が球座標に投射される。各球ビン投射は、次に、方向づけされたヒストグラムシーケンスユニット260を使用してエネルギーマップ600(図6)に変換される。ヒストグラムシーケンスはエネルギーマップ600として動作し、方向を動かす関節と、動作の時間的変化とを表示する。
方向づけられた勾配のヒストグラム(HOG)のアルゴリズム262は、次に、複数のエネルギーマップ600に適用されることで、単一の列ベクトル(またはディスクリプターベクトル)270を得ることができる。単一の列ベクトルまたはディスクリプターベクトル270は、動作の分類の学習および認識のために、分類データベースモジュール118内で例えば提供されることができる機械学習アルゴリズム(学習分類器)280に入力されることができる。実施形態の例によれば、機械学習アルゴリズム280は、ベクトル270を認識し、動作または感情210を分類する。
図3は、実施例による、センサーおよび/またはビデオカメラまたは3Dセンサー/カメラ122と向かい合う典型的なユーザーの例についての骨格表現300を図示する。図3に示すように、人間の骨格は、人体の頭、肩、手足を表わす、15個の接合(またはポイント)310および11の対応する線分320から構成されることができる。図3に示すように、線分320は接合310により互いに接続され、一方の線分320は他方により動きが制約され得る。さらに、例えば、他方が頭の動きのように比較的固定のままである一方で、いくつかの部分または線分320は独立の動きを行い得る。実施形態の例によれば、例えば、胸の胴(中央ポイント)は、ここに記載されるように、方法および工程の基準点として使用されることができる。人間以外の動物の検知または認識のために、例えば犬または猫の類似の骨格を生成し得ることは理解できる。
実施形態の例によれば、3Dにおける各身体関節の相対的な位置を特定可能な、3Dセンサーまたはビデオ入力を使用して、人間の動作または感情をキャプチャーすることができる。例えば、実施形態の例によれば、15個の各接合310および対応する線分320は、動作の各フレームについてキャプチャーされることができる。加えて、各接合310について、三次元位置(X,Y,D)を得ることができる。実施形態の例によれば、各接合310の三次元位置は、デカルト座標系の(X,Y,D)として記述されることができる。
図4は、実施形態の例による、姿勢、速度、および動きの特徴をどのように抽出するかを表示するチャートを示す。図4に示すように、T個のフレームと各フレームのN個の接合を伴うアクションビデオは、下記式(数1)として記載される一組の3Dポイントのシーケンスとして表現されることができる。
実施形態の例によれば、例えば、15個の接合(またはポイント)310および11個の対応する線分320から構成される人間の骨格により、システム100は、N=15、および各異なるシーケンスで変化するTを含むことができる。人間の骨格は、15個の接合310および11個の対応する線分320より多いまたは少ない接合310および線分320を含んでもよく、対応する計算は、接合310の数および対応する線分320の数に基づいて変更および/または調整されることができると考えられる。
実施形態の例によれば、特徴の抽出の第一段階は、一つのフレームにおける各接合の姿勢、速度、および動きの情報を表現する、各フレームにおける基本的特徴を演算することである。
実施形態の例によれば、例えば、下記式(数2)の姿勢の特徴41は、接合nと各フレームtにおける各他の接合との間の相対的位置を、下記式(数3)のように記述することができる。
例えば、各N接合について、フレームごとに、(N−1)の寸法要素(減算結果)を伴うT長のシーケンスが存在する。姿勢の特徴は、各フレームにおける身体の姿勢をキャプチャーできる。
実施形態の例によれば、下記式(数4)の速度の特徴420は、フレームtにおける接合と先行するフレーム(t−k)における各接合との間の相対的位置を表現することができる。ここで、kは、速度推定ステップサイズのパラメータである。
このパラメーターは、記録されたアクションビデオのフレームレートに依存することができ、かつ、その間に著しい動作があった場合に、接合nについて明らかな動きを示すための、フレーム(t−k)とフレームtとの間の最小のギャップであり得る。実施形態の例によれば、速度の特徴は、下記式(式5)のように記載できる。
その名前が暗示するように、速度の特徴420は、各フレームにおいてどのくらい速く身体が動いているかという情報を供給する。
実施形態の例によれば、下記式(数6)の動きの特徴430は、フレームtにおける接合nと最初のフレームにおける各接合との間の相対的位置を表現することができる。
動きの特徴430は、下記式のように記述できる。
例えば、十分にセグメント化またはアライメントされたアクションビデオについては、開始のフレームは、最初は静止していること、すなわち、動きのないという特徴であることが望ましい。実施形態の例によれば、動きの特徴430は、最初の状態と比較された各フレームにおける身体の動きをキャプチャーすることができる。
実施形態の例によれば、各接合が3D座標情報(X,Y,D)を含むため、下記式(数8)のすべての減算単位もまた、三次元のデルタユニット(ΔX,ΔY,ΔD)という結果となることができる。
基本的特徴の抽出後、当初のデカルト座標からの各デルタユニットは、例えば、(ΔX,ΔY,ΔZ)→(r,θ,φ)というように、球座標に投影されることができ、ビンヒストグラムがこれらの球面角を表現するために使用されることができる。図5は、実施形態の例による、一組の接合510、512の同心球ビン500の表現を示す。図5に示すように、各ポイント(または小さい円)510、512は接合を示し、線520はこれらを接続するリンクを示す。例えば、一方の接合510は、球を形成するための原点(または基点)として設定されることができ、他方の接合512は、座標値(r,θ,φ)をもつことができる。
実施形態の例によれば、球500は、経度と緯度の両方の角度により、32個の等しいビン530に切り分けられることができる。球500は、例えば、2、4、8、16、32、62、128など、2のべき乗としていくらにでも切り分けられることができると理解される。実施形態の例によれば、例えば、一組の接合510、512は、これらのビン530の一つ以上に配置されることができる。さらに、小さなムーブメントノイズを除外するために、33番目のビン540が半径Rの内部のボールまたは球として追加されることができる。線長r<Rの場合、状態は、2つの接合間で「隣接」と称する。これは、32個の方位ビン以外の独立状態である。パラメータRはビンの分配と釣り合うように設定される。例えば、基本的特徴からのサンプルの3D値は、データの1/33が「隣接」のビンとなるようにRが設定される。
図6は、30個のフレームをもつサンプルビデオからのこれらのヒストグラムシーケンス600のうちの一つを示す。実施形態の例によれば、ヒストグラムの統計値は、各フレームtにおける各参照ポイント(原点としてとられる)nとともに下記式に基づくことができる。
例えば、アクションビデオについて、長さTの3Nヒストグラムシーケンスを、システムはそれぞれもつことができる。
実施形態の例によれば、ヒストグラムシーケンスは、方向を動かす接合、および動作の時間的変化を表示するためのエネルギーマップ600として機能する。実施形態の例によれば、機械学習のためのより簡明な時空間ディスクリプターをさらに抽象化するために、方向づけられた勾配のヒストグラム(HOG)のアルゴリズム262がマップに採用されて、単一の列ベクトル270を得ることができる。実施形態の例によれば、マップ600は、数個の50%重複領域(すなわち、「セル」)に均等に分割されることができる。セル内の各ポイントについて、Y−勾配はY軸において隣接する上と下との差であることができ、X−勾配はX軸において隣接する右と左との差であることができる。Y−勾配/X−勾配によるタンジェント角度が演算され、セル内にヒストグラムを形成するためにいくつかのビンに投射される。HOGディスクリプターは、すべてのセルについてのヒストグラムの連結であることができる。
例えば、アクションビデオについて、3Nヒストグラムシーケンスは3NのHOG表現という結果となるであろう。ここで、Nは検出された接合の数である。実施形態の例によれば、例えば、機械学習アルゴリズムを使用する動作の分類のための最終的なビデオディスクリプターとして単一の列ベクトルを形成するために、複数のHOG表現が連結されることができる。実施形態の例によれば、線形SVMが、動作分類の学習および認識のための機械学習アルゴリズムとして採用されることができる。トレーニング/テスティングセットにおける全部のVビデオのうちのビデオvについて、開示された方法により演算されたディスクリプターはdνであり、カテゴリーラベルはc=1ポジティブおよびc=−1ネガティブである。実施形態の例によれば、システムの目的は、すべてのポジティブのラベルが付されたデータについてw・dν>0で、かつすべてのネガティブのラベルが付されたデータについてw・dν<0である線形分類器wを、下記式を最適化することにより、見出すことであり得る。
全部でC個のカテゴリーがある場合、1−対−全部(1−vs−all)戦略を通じて、下記式のトレーニングされたC分類が存在することになるであろう。
認識の決定のルールは、下記式にdνが属することである。
実施形態の例によれば、例えば、ここに開示される方法およびシステムにおいて、シーケンスごとに平均50個のフレームをもち、方法およびシステムに関する各フレームにおける接合の数が15である、1000個のビデオシーケンス(接合の位置はすでに評価されている)についての開示された特徴抽出方法のランニングタイムの推定ができる。例えば、2.5GHzのCPUおよび6GBメモリのPC上でC++コードの実行によれば、特徴抽出時間は、シーケンスごとに43.07ミリ秒であり得る。このように、実施形態の例によれば、ここに開示された方法およびシステムは、リアルタイムの動作認識システムとして使用されることができる。
図7は、実施形態の例による、例としての感情および/または行動のデータセット700におけるサンプルプロファイルを示す。実施形態の例によれば、3Dセンサーを通じての人間の感情の状態の認識に注目したデータセットが集められた。6人の被検者710が感情動作を行うように依頼され、一人の被検者は、一つの動作を二回行うように依頼され、その結果、132の動作シーケンスとなった。開始のフレームと終了のフレームに手動でラベルを付すことにより、各動作の有効なシーケンスが得られた。有効なシーケンスの平均の長さは、データセットについて動作ごとに約86フレームだった。
実施形態の例によれば、6個の感情状態に属する11個の動作を集めた。心理学的研究の要素に基づいて、これらの状態は一様に文化を超えて認識されることができ、それゆえに被検者の感情を解析しようとする際に非常に有益である。データセットの詳細な情報は、表1に示されている。図7は、我々のデータセットにおける感情状態のプロファイル画像をさらに示す。
実施形態の例によれば、我々のデータセットの感情検出のタスクのための線形SVMの例が提案される。このデータセットの動作の種類により、leave−one−out cross subject試験が行われた。例えば、5人の被検者がトレーニングに使用され、残りが試験に使用されることができる。実施形態の例によれば、すべての可能なトレーニング/試験を分けて平均を計算する。認識率の平均は73.5%である。
実施形態の例によれば、一般的な動作認識のための最も評判のよい公共のデータセットにおける認識の正確性、および本願における最先端の提案との比較が評価された。
実施形態の例によれば、MSRアクション3Dデータセットは、各フレームにおいて20個の接合をもつ10人の被検者により行われた20個の動作を有した。20個の動作は、動作認識の3個のタスクのために、3個のサブセットに分割された。各タスクについては、半分の被検者がトレーニングに使用され、他の半分が試験に使用された。計算結果は表2に示されている。
実施形態の例によれば、行動の認識のためのコンピュータ読み取り可能なコードを有するコンピュータプログラムを含むコンピュータ読み取り可能な記憶媒体が開示される。コンピュータプログラムは、少なくとも一つのビデオデータストリームから身体の骨格データを抽出する段階と、抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する段階と、複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する段階と、時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する段階と、方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する段階と、行動および/または感情として単一の列ベクトルを分類する段階と、を有する。
実施形態の例によれば、コンピュータ読み取り可能な記憶媒体は磁気記録媒体、光磁気記録媒体、または将来開発されるであろう他の記録媒体であることができ、これらのすべては、本発明をすべて同様な方法で適用できると考えられる。
そのような媒体の、最初のおよび二次的な複製製品その他を含む複製物は上記媒体と同等と考えられることは疑いもない。さらに、本発明の実施形態がソフトウェアとハードウェアとの組合せである場合でも、本発明の概念から全く逸脱しない。本発明は、そのソフトウェア部分が事前に記録媒体に記載されることにより実装されることができ、作業において要求されるときに読み出される。
ここに開示された行動認識のための方法およびシステムは、ハードウェア、ソフトウェア、またはその組合せを使用して実行されることができる。加えて、ここに開示された行動認識のための方法およびシステムは、一以上のコンピュータシステムまたは他の処理システムに実装されることができ、または個人用デジタル補助装置(PDA)のような処理システムにおいて部分的に実行されることができる。さらに他の実施形態においては、本発明はハードウェアおよびソフトウェアの組合せを使用して実行される。
当業者であれば、本発明の範囲および精神から逸脱せずに本発明の構成に対して多様な変更および変形が可能であることは明らかであろう。上記観点から、本発明は、本発明の変更および変更が以下のクレームおよびその均等物の範囲内に含まれている限り、それらの発明をも包含することが意図されている。

Claims (21)

  1. 行動を認識する方法であって、
    一以上の被検者について、少なくとも一つのビデオデータストリームをキャプチャーする段階と、
    少なくとも一つのビデオデータストリームから身体の骨格データを抽出する段階と、
    抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する段階と、
    複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する段階と、
    時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する段階と、
    方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する段階と、
    行動および/または感情として単一の列ベクトルを分類する段階と、
    を有する方法。
  2. 抽出された身体の骨格データについて特徴の抽出を演算する段階は、抽出された身体の骨格データの各フレームについて、姿勢の特徴、速度の特徴、および動作の特徴を演算する、請求項1に記載の方法。
  3. 姿勢の特徴は、各フレームtにおける接合nと他の接合との間の相対的位置を表現する、請求項2に記載の方法。
  4. 速度の特徴は、フレームtにおける接合nと、先行するフレーム(t−k)における各接合との間の相対的位置を表現し、kは速度推定ステップサイズのパラメータである、請求項2または3に記載の方法。
  5. パラメータは記録されたアクションビデオのフレームレートに依存し、かつ、期間内に顕著な動作を有する場合に、接合nについての明確な動作を示すために、フレーム(t−k)とフレームtとの間の最小のギャップである、請求項4に記載の方法。
  6. 動作の特徴は、フレームtにおける接合nと、最初のフレームにおける各接合との間の相対的な位置を表現する、請求項2〜5のいずれか一つに記載の方法。
  7. 複数の球ビンは、複数の等しいビンに分割される、請求項1〜6のいずれか一項に記載の方法。
  8. 複数の等しいビンから離隔されている内部球ビンを追加することにより動作ノイズを除外する段階を有する、請求項7に記載の方法。
  9. エネルギーマップを複数の重複領域に等しく分割する段階であって、重複領域における各ポイントは、Y−勾配はY軸において隣接する上と下で異なり、X−勾配はX軸において隣接する右と左で異なる、段階と、
    Y−勾配/X−勾配によるタンジェント角度を演算し、タンジェント角度をいくつかのビンに投射して重複領域内にヒストグラムを形成する段階と、
    を有する請求項1〜8のいずれか一項に記載の方法。
  10. 重複領域内に各ヒストグラムを結び付けることにより単一の列ベクトルを得る段階を有する請求項9に記載の方法。
  11. 行動を認識するシステムであって、
    一以上の被検者について、少なくとも一つのビデオデータストリームをキャプチャーするように構成されたビデオカメラと、
    少なくとも一つのビデオデータストリームから身体の骨格データを抽出し、
    抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算し、
    複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成し、
    時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成し、
    方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成し、
    行動および/または感情として単一の列ベクトルを分類する、ための実行可能命令を有する、一以上のモジュールと、を有するシステム。
  12. 抽出された身体の骨格データについて特徴の抽出を演算する段階は、抽出された身体の骨格データの各フレームについて、姿勢の特徴、速度の特徴、および動作の特徴を演算する、請求項11に記載のシステム。
  13. 姿勢の特徴は、各フレームtにおける接合nと他の接合のそれぞれとの間の相対的位置を表現し、
    速度の特徴は、フレームtにおける接合nと、先行するフレーム(t−k)における各接合との間の相対的位置を表現し、kは速度推定ステップサイズのパラメータであり、
    動作の特徴は、フレームtにおける接合nと、最初のフレームにおける各接合との間の相対的な位置を表現する、請求項12に記載のシステム。
  14. パラメータは記録されたアクションビデオのフレームレートに依存し、かつ、期間内に顕著な動作を有する場合に、接合nについての明確な動作を示すために、フレーム(t−k)とフレームtとの間の最小のギャップである、請求項13に記載のシステム。
  15. 複数の球ビンは、複数の等しいビンに分割され、
    複数の等しいビンから離隔されている内部球ビンを追加することにより動作ノイズを除外する、請求項11〜14のいずれか一項に記載のシステム。
  16. エネルギーマップを複数の重複領域に等しく分割し、重複領域における各ポイントは、Y−勾配はY軸において隣接する上と下で異なり、X−勾配はX軸において隣接する右と左で異なり、
    Y−勾配/X−勾配によるタンジェント角度を演算し、タンジェント角度をいくつかのビンに投射して重複領域内にヒストグラムを形成する、
    請求項11〜15のいずれか一項に記載のシステム。
  17. 行動を認識するためのコンピュータ読み取り可能なコードを有するプログラムであって、前記コードは、
    少なくとも一つのビデオデータストリームから身体の骨格データを抽出する手順と、
    抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する手順と、
    複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する手順と、
    時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する手順と、
    方向づけられた勾配のヒストグラム(HOG)のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する手順と、
    行動および/または感情として単一の列ベクトルを分類する手順と、
    を有するプログラム。
  18. 抽出された身体の骨格データについて特徴の抽出を演算する手順は、抽出された身体の骨格データの各フレームについて、姿勢の特徴、速度の特徴、および動作の特徴を演算し、
    姿勢の特徴は、各フレームtにおける接合nと他の接合のそれぞれとの間の相対的位置を表現し、
    速度の特徴は、フレームtにおける接合nと、先行するフレーム(t−k)における各接合との間の相対的位置を表現し、kは速度推定ステップサイズのパラメータであり、
    動作の特徴は、フレームtにおける接合nと、最初のフレームにおける各接合との間の相対的な位置を表現し、
    パラメータは記録されたアクションビデオのフレームレートに依存し、かつ、期間内に顕著な動作を有する場合に、接合nについての明確な動作を示すために、パラメータはフレーム(t−k)とフレームtとの間の最小のギャップである、請求項17に記載のプログラム。
  19. 複数の球ビンは、複数の等しいビンに分割され、
    複数の等しいビンから離隔されている内部球ビンを追加することにより動作ノイズを除外する手順を有する、請求項17または18に記載のプログラム。
  20. エネルギーマップを複数の重複領域に等しく分割する手順であって、重複領域における各ポイントは、Y−勾配はY軸において隣接する上と下で異なり、X−勾配はX軸において隣接する右と左で異なる、手順と、
    Y−勾配/X−勾配によるタンジェント角度を演算し、タンジェント角度をいくつかのビンに投射して重複領域内にヒストグラムを形成する手順と、
    を有する請求項17〜19のいずれか一項に記載のプログラム。
  21. 請求項17〜20のいずれか一項に記載のプログラムを記録したコンピュータ読取可能な記録媒体。
JP2014230124A 2013-12-31 2014-11-12 感情および行動を認識するための方法およびシステム Active JP6045549B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/145132 2013-12-31
US14/145,132 US9489570B2 (en) 2013-12-31 2013-12-31 Method and system for emotion and behavior recognition

Publications (2)

Publication Number Publication Date
JP2015130151A JP2015130151A (ja) 2015-07-16
JP6045549B2 true JP6045549B2 (ja) 2016-12-14

Family

ID=51951668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014230124A Active JP6045549B2 (ja) 2013-12-31 2014-11-12 感情および行動を認識するための方法およびシステム

Country Status (3)

Country Link
US (1) US9489570B2 (ja)
EP (1) EP2889805A3 (ja)
JP (1) JP6045549B2 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9710716B2 (en) * 2014-12-16 2017-07-18 Sighthound, Inc. Computer vision pipeline and methods for detection of specified moving objects
US10104345B2 (en) 2014-12-16 2018-10-16 Sighthound, Inc. Data-enhanced video viewing system and methods for computer vision processing
CN106803056B (zh) * 2015-11-26 2020-11-06 华为技术有限公司 一种肢体关系的估计方法及装置
US10002313B2 (en) 2015-12-15 2018-06-19 Sighthound, Inc. Deeply learned convolutional neural networks (CNNS) for object localization and classification
CN105631420A (zh) * 2015-12-23 2016-06-01 武汉工程大学 一种基于3d骨架的多视角室内人体行为识别方法
KR102321354B1 (ko) * 2016-01-07 2021-11-03 삼성전자주식회사 서비스를 제공하기 위한 방법 및 그 전자 장치
CN105678284B (zh) * 2016-02-18 2019-03-29 浙江博天科技有限公司 一种固定位人体行为分析方法
CN107194967B (zh) * 2017-06-09 2021-04-06 南昌大学 基于Kinect深度图像的人体摔倒检测方法及装置
CN107578469A (zh) * 2017-09-08 2018-01-12 明利 一种基于单张照片的3d人体建模方法及装置
KR101969230B1 (ko) * 2017-10-20 2019-04-15 연세대학교 산학협력단 학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체
CN107832713B (zh) * 2017-11-13 2021-11-16 南京邮电大学 一种基于OptiTrack的人体姿态识别方法
CN108446583A (zh) * 2018-01-26 2018-08-24 西安电子科技大学昆山创新研究院 基于姿态估计的人体行为识别方法
CN108491754B (zh) * 2018-02-02 2020-09-15 泉州装备制造研究所 一种基于骨骼特征的动态表示和匹配的人体行为识别方法
CN108596056A (zh) * 2018-04-10 2018-09-28 武汉斑马快跑科技有限公司 一种出租车运营行为动作识别方法及系统
WO2019229818A1 (ja) * 2018-05-28 2019-12-05 富士通株式会社 表示方法、表示プログラムおよび情報処理装置
CN108846348B (zh) * 2018-06-07 2022-02-11 四川大学 一种基于三维骨骼特征的人体行为识别方法
CN109086659B (zh) * 2018-06-13 2023-01-31 深圳市感动智能科技有限公司 一种基于多模道特征融合的人体行为识别方法和装置
CN109710802B (zh) * 2018-12-20 2021-11-02 百度在线网络技术(北京)有限公司 视频分类方法及其装置
CN109919132B (zh) * 2019-03-22 2021-04-23 广东省智能制造研究所 一种基于骨架检测的行人跌倒识别方法
US11222428B2 (en) * 2019-04-08 2022-01-11 Sony Group Corporation Determining golf swing characteristics
CN110688969A (zh) * 2019-09-30 2020-01-14 上海依图网络科技有限公司 视频帧人体行为识别方法
CN110929637B (zh) * 2019-11-20 2023-05-16 中国科学院上海微系统与信息技术研究所 一种图像识别方法、装置、电子设备及存储介质
CN114402369A (zh) * 2019-11-21 2022-04-26 深圳市欢太科技有限公司 人体姿态的识别方法、装置、存储介质及电子设备
CN111028339B (zh) * 2019-12-06 2024-03-29 国网浙江省电力有限公司培训中心 一种行为动作建模方法、装置、电子设备和存储介质
JP7413836B2 (ja) 2020-02-28 2024-01-16 富士通株式会社 行動認識方法、行動認識プログラム及び行動認識装置
CN111353447B (zh) * 2020-03-05 2023-07-04 辽宁石油化工大学 一种基于图卷积网络的人体骨架行为识别方法
CN111368806B (zh) * 2020-04-01 2023-06-13 大连理工大学 一种基于人工智能的工人施工状态监测方法
US20220012525A1 (en) * 2020-07-10 2022-01-13 International Business Machines Corporation Histogram generation
CN116507276A (zh) * 2020-09-11 2023-07-28 爱荷华大学研究基金会 用于机器学习以从图像分析肌肉骨骼康复的方法和设备
CN112464808B (zh) * 2020-11-26 2022-12-16 成都睿码科技有限责任公司 一种基于计算机视觉的跳绳姿态及个数识别方法
KR20220158322A (ko) * 2021-05-24 2022-12-01 주식회사우경정보기술 치매 환자 추적 장치 및 방법
CN113920568B (zh) * 2021-11-02 2024-07-02 中电万维信息技术有限责任公司 基于视频图像的人脸和人体姿态情绪识别方法
JP2024049970A (ja) * 2022-09-29 2024-04-10 株式会社日立製作所 仮想三次元空間共有システム、仮想三次元空間共有方法、及び仮想三次元空間共有サーバ
CN116434339B (zh) * 2023-04-13 2023-10-27 江南大学 基于骨架数据时空特征差异性和相关性的行为识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070237387A1 (en) * 2006-04-11 2007-10-11 Shmuel Avidan Method for detecting humans in images
US8594425B2 (en) * 2010-05-31 2013-11-26 Primesense Ltd. Analysis of three-dimensional scenes
US9448636B2 (en) * 2012-04-18 2016-09-20 Arb Labs Inc. Identifying gestures using gesture data compressed by PCA, principal joint variable analysis, and compressed feature matrices
US20150092980A1 (en) * 2012-08-23 2015-04-02 Eelke Folmer Tracking program and method
US8929600B2 (en) * 2012-12-19 2015-01-06 Microsoft Corporation Action recognition based on depth maps
US9639748B2 (en) * 2013-05-20 2017-05-02 Mitsubishi Electric Research Laboratories, Inc. Method for detecting persons using 1D depths and 2D texture

Also Published As

Publication number Publication date
US20150186713A1 (en) 2015-07-02
EP2889805A3 (en) 2015-07-15
EP2889805A2 (en) 2015-07-01
US9489570B2 (en) 2016-11-08
JP2015130151A (ja) 2015-07-16

Similar Documents

Publication Publication Date Title
JP6045549B2 (ja) 感情および行動を認識するための方法およびシステム
Li et al. Nus-pro: A new visual tracking challenge
Marks et al. Deep-learning-based identification, tracking, pose estimation and behaviour classification of interacting primates and mice in complex environments
US10614289B2 (en) Facial tracking with classifiers
Hoiem et al. Diagnosing error in object detectors
Yun et al. Automatic recognition of children engagement from facial video using convolutional neural networks
JP6161257B2 (ja) イベント検出装置及びその方法、動作認識装置及びその方法、プログラム
Shreve et al. Automatic expression spotting in videos
Wan et al. 3D SMoSIFT: three-dimensional sparse motion scale invariant feature transform for activity recognition from RGB-D videos
Daoudi et al. Emotion recognition by body movement representation on the manifold of symmetric positive definite matrices
Min et al. A scene recognition and semantic analysis approach to unhealthy sitting posture detection during screen-reading
Tian et al. Free-view gait recognition
CN107330363B (zh) 一种快速的互联网广告牌检测方法
Li et al. Human action recognition based on 3D body mask and depth spatial-temporal maps
Mazzamuto et al. Weakly supervised attended object detection using gaze data as annotations
Wu et al. Human behavior recognition based on 3D features and hidden markov models
Perveen et al. Configural Representation of Facial Action Units for Spontaneous Facial Expression Recognition in the Wild.
Sree et al. An evolutionary computing approach to solve object identification problem for fall detection in computer vision-based video surveillance applications
Zhang et al. Fuzzy segmentation and recognition of continuous human activities
Bâce et al. How far are we from quantifying visual attention in mobile HCI?
Alashkar et al. Spontaneous expression detection from 3D dynamic sequences by analyzing trajectories on Grassmann manifolds
Klempous et al. Review of algorithms for tag detection in video sequences
Vaish et al. A Novel Approach for Pain Intensity Detection by KAZE Features
Chong et al. Modeling video-based anomaly detection using deep architectures: Challenges and possibilities
Chen et al. Performance evaluation of edge computing-based deep learning object detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161115

R150 Certificate of patent or registration of utility model

Ref document number: 6045549

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150