JP2016099982A

JP2016099982A - 行動認識装置、行動学習装置、方法、及びプログラム

Info

Publication number: JP2016099982A
Application number: JP2014239329A
Authority: JP
Inventors: 悠米本; Haruka Yonemoto; 和彦村崎; Kazuhiko Murazaki; 達哉大澤; Tatsuya Osawa; 恭子数藤; Kyoko Sudo; 潤島村; Jun Shimamura; 行信谷口; Yukinobu Taniguchi
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-11-26
Filing date: 2014-11-26
Publication date: 2016-05-30

Abstract

【課題】視点や撮影者の体格の違いよる動作の見えの違いに対して頑健に、撮影者の行動を認識できるようにする。【解決手段】カメラ位置姿勢推定部２２によって、三次元画像データに基づいて、カメラの位置姿勢を推定し、骨格姿勢抽出部２３によって、体型パラメータを用いて、撮影者の骨格姿勢パラメータを抽出する。姿勢特徴量抽出部２６によって、抽出された骨格姿勢パラメータに基づいて、撮影者の姿勢特徴量を抽出し、画像特徴量抽出部２７によって、二次元画像データに基づいて、画像特徴量を抽出する。行動認識部２８によって、抽出された姿勢特徴量及び画像特徴量と、識別器パラメータとに基づいて、撮影者の行動を認識する。【選択図】図３

Description

本発明は、行動認識装置、行動学習装置、方法、及びプログラムに係り、特に、カメラの撮影者の行動を認識するための行動認識装置、行動学習装置、方法、及びプログラムに関する。

近年、産業分野では、ハンズフリーで作業が可能なことから、頭部装着型カメラの活用への関心が高まっている。現状では、記録や作業現場共有などの用途が主であるが、今後は作業者の置かれている環境や作業者自身の行動を自動認識し、適切な指示を出すことによって作業を効率化することが望まれる。

コンピュータビジョン分野では、頭部に装着されたカメラから得られる映像を用いて、撮影者の行動や状況を理解する研究がなされており、例えば、次のような研究成果が報告されている。

撮影者の手の動きの特徴量を、画像上の二次元的な動きを取得し、それをテンプレートとして学習することで、撮影者の行動を認識するという方法が提案されている（例えば、非特許文献1参照）。

また、従来から多く行われている固定カメラを用いる行動認識では、深度センサーからの入力を用いて推定された全身骨格姿勢から、姿勢特徴量を算出し、行動を認識するという方法が提案されている(例えば、非特許文献2参照)。

S.Sundaram " High level activity recognition using low resolution wearable vision" IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, 2009. L.Xia "View Invariant Human Action Recognition Using Histograms of 3D Joints" CVPRW, 2012.

上記の非特許文献１のような、撮影者の二次元的な手の動きに注目した方法では、視点の違いや撮影者間の体格の違いによる動作の見えの違いに対応することが難しい。例えば、全く同じ様に手を動作させていたとしても、見る角度が変わることで、同じ動きに関して全く異なる特徴が得られてしまうため、わずかな学習データセットしか期待できない場合、人間の多種多様な行動を認識することができないという問題を有している。

一方で、上記の非特許文献２のように撮影向きや体格に依存しない特徴量として骨格姿勢を取得する場合、前記のような課題を解決することが可能である。非特許文献２中で用いられている姿勢推定では、まず初期処理として、得られる3次元入力画像から全身の構造をとらえて被写体の身体の部位検出を行い、それらの部位の位置情報を用いて、尤もらしい全身骨格姿勢を推定するという手法がとられている。そのため、全身が隠れず写っている場合には姿勢推定が可能であるが、本発明で想定しているような、カメラが頭部に装着されており、動作者(撮影者)の体が部分的にしか見えないような状況では、同様の方法では部位の検出をすることができず、また、部分的な関節位置のみからでは頑健な骨格姿勢を推定することが困難である。

本発明は、上述のような従来技術の問題点を解決するためになされたものであって、撮影者の体の一部分しか映りこんでいない映像からであっても、視点や撮影者の体格の違いよる動作の見えの違いに対して頑健に、撮影者の行動を認識することができる行動認識装置、方法、およびプログラムを提供することを目的とする。

また、撮影者の体の一部分しか映りこんでいない映像からであっても、視点や撮影者の体格の違いよる動作の見えの違いに対して頑健に、撮影者の行動を認識するための識別器パラメータを学習することができる行動学習装置、方法、およびプログラムを提供することを目的とする。

上記目的を達成するために、本発明の行動認識装置は、撮影者側からカメラにより撮影した三次元画像データ及び二次元画像データのペアを受け付ける入力部と、前記三次元画像データに基づいて、前記カメラの位置姿勢を推定するカメラ位置姿勢推定部と、前記カメラ位置姿勢推定部によって推定された前記カメラの位置姿勢と、予め求められた前記撮影者の体型を表す体型パラメータと、前記三次元画像データとに基づいて、前記撮影者の骨格姿勢を表す骨格姿勢パラメータを抽出する骨格姿勢抽出部と、前記骨格姿勢抽出部によって抽出された前記骨格姿勢パラメータに基づいて、前記撮影者の姿勢特徴量を抽出する姿勢特徴量抽出部と、前記二次元画像データに基づいて、画像特徴量を抽出する画像特徴量抽出部と、前記姿勢特徴量抽出部によって抽出された前記姿勢特徴量及び前記画像特徴量抽出部によって抽出された前記画像特徴量と、前記撮影者の行動を識別するための予め学習された識別器パラメータとに基づいて、前記撮影者の行動を認識する行動認識部と、を含んで構成されている。

本発明に係る行動認識方法は、入力部によって、撮影者側からカメラにより撮影した三次元画像データ及び二次元画像データのペアを受け付け、カメラ位置姿勢推定部によって、前記三次元画像データに基づいて、前記カメラの位置姿勢を推定し、骨格姿勢抽出部によって、前記カメラ位置姿勢推定部によって推定された前記カメラの位置姿勢と、予め求められた前記撮影者の体型を表す体型パラメータと、前記三次元画像データとに基づいて、前記撮影者の骨格姿勢を表す骨格姿勢パラメータを抽出し、姿勢特徴量抽出部によって、前記骨格姿勢抽出部によって抽出された前記骨格姿勢パラメータに基づいて、前記撮影者の姿勢特徴量を抽出し、画像特徴量抽出部によって、前記二次元画像データに基づいて、画像特徴量を抽出し、行動認識部によって、前記姿勢特徴量抽出部によって抽出された前記姿勢特徴量及び前記画像特徴量抽出部によって抽出された前記画像特徴量と、前記撮影者の行動を識別するための予め学習された識別器パラメータとに基づいて、前記撮影者の行動を認識する。

本発明に係る行動学習装置は、行動ラベルが予め付与された、撮影者側からカメラにより撮影した三次元画像データ及び二次元画像データのペアを受け付ける入力部と、前記三次元画像データに基づいて、前記カメラの位置姿勢を推定するカメラ位置姿勢推定部と、前記カメラ位置姿勢推定部によって推定された前記カメラの位置姿勢と、予め求められた前記撮影者の体型を表す体型パラメータと、前記三次元画像データとに基づいて、前記撮影者の骨格姿勢を表す骨格姿勢パラメータを抽出する骨格姿勢抽出部と、前記骨格姿勢抽出部によって抽出された前記骨格姿勢パラメータに基づいて、前記撮影者の姿勢特徴量を抽出する姿勢特徴量抽出部と、前記二次元画像データに基づいて、画像特徴量を抽出する画像特徴量抽出部と、前記姿勢特徴量抽出部によって抽出された前記姿勢特徴量及び前記画像特徴量抽出部によって抽出された前記画像特徴量と、前記行動ラベルとに基づいて、前記撮影者の行動を識別するための識別器パラメータを学習する識別器パラメータ学習部と、を含んで構成されている。

本発明に係る行動学習方法は、入力部によって、行動ラベルが予め付与された、撮影者側からカメラにより撮影した三次元画像データ及び二次元画像データのペアを受け付け、カメラ位置姿勢推定部によって、前記三次元画像データに基づいて、前記カメラの位置姿勢を推定し、骨格姿勢抽出部によって、前記カメラ位置姿勢推定部によって推定された前記カメラの位置姿勢と、予め求められた前記撮影者の体型を表す体型パラメータと、前記三次元画像データとに基づいて、前記撮影者の骨格姿勢を表す骨格姿勢パラメータを抽出し、姿勢特徴量抽出部によって、前記骨格姿勢抽出部によって抽出された前記骨格姿勢パラメータに基づいて、前記撮影者の姿勢特徴量を抽出し、画像特徴量抽出部によって、前記二次元画像データに基づいて、画像特徴量を抽出し、識別器パラメータ学習部によって、前記姿勢特徴量抽出部によって抽出された前記姿勢特徴量及び前記画像特徴量抽出部によって抽出された前記画像特徴量と、前記行動ラベルとに基づいて、前記撮影者の行動を識別するための識別器パラメータを学習する。

また、本発明のプログラムは、コンピュータを、上記の行動認識装置、又は上記の行動学習装置の各部として機能させるためのプログラムである。

以上説明したように、本発明の行動認識装置、方法、及びプログラムによれば、推定されたカメラの位置姿勢と、撮影者の体型パラメータと、三次元画像データとに基づいて、撮影者の骨格姿勢パラメータを抽出して、撮影者の姿勢特徴量を抽出し、二次元画像データに基づいて、画像特徴量を抽出し、抽出された姿勢特徴量及び画像特徴量と、識別器パラメータとに基づいて、撮影者の行動を認識することにより、撮影者の体の一部分しか映りこんでいない映像からであっても、視点や撮影者の体格の違いよる動作の見えの違いに対して頑健に、撮影者の行動を認識することができる、という効果が得られる。

本発明の行動学習装置、方法、及びプログラムによれば、推定されたカメラの位置姿勢と、撮影者の体型パラメータと、三次元画像データとに基づいて、撮影者の骨格姿勢パラメータを抽出して、撮影者の姿勢特徴量を抽出し、二次元画像データに基づいて、画像特徴量を抽出し、抽出された姿勢特徴量及び画像特徴量と、行動ラベルとに基づいて、識別器パラメータを学習することにより、撮影者の体の一部分しか映りこんでいない映像からであっても、視点や撮影者の体格の違いよる動作の見えの違いに対して頑健に、撮影者の行動を認識するための識別器パラメータを学習することができる、という効果が得られる。

本発明の実施の形態の行動学習装置の機能構成を示すブロック図である。行動ラベルデータの一例を示す図である。本発明の実施の形態の行動認識装置の機能構成を示すブロック図である。本発明の実施の形態の行動学習装置における行動学習処理ルーチンの内容を示すフローチャートである。本発明の実施の形態の行動学習装置における骨格姿勢パラメータを抽出する処理ルーチンの内容を示すフローチャートである。本発明の実施の形態の行動認識装置における行動学習処理ルーチンの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本実施の形態の概要＞
本発明の実施の形態では、撮影者側から撮影した一人称三次元映像から適切な特徴を抽出し、それらの特徴を用いて撮影者の行動を学習し、新たに入力のあった映像に対して撮影者の行動を認識する。

視点や撮影者の体格の違いによる動作の見えの違いに頑健な行動認識をするための手段として、体の一部分のみしか映りこんでいない映像から骨格姿勢を取得し、姿勢特徴量を用いて行動認識を行うことを特徴とする。姿勢特徴は、見る方向によらず、同じ動作について同じ特徴量を取得することが可能であり、撮影視点が大きく変化する一人称映像において、頑健に行動認識を行うことを可能にする。

撮影者の体の一部分のみしか映っていない映像から、頑健に骨格情報を取得する手段として、あらかじめ取得した撮影者の体型パラメータと、カメラ位置姿勢情報を事前知識とした骨格姿勢推定を行うことを特徴とする。体型パラメータは、各関節間の長さや、腕の太さといったパラメータで、あらかじめこれらを取得しておくことで推定対象となる可能な姿勢のバリエーションを制限し、より精度の高い姿勢追跡を可能にする。また、カメラの位置姿勢情報を取得することで、骨格姿勢追跡時に前時刻からのカメラ運動を考慮しなくてよいため、カメラ運動と姿勢変化を同時に考慮して姿勢追跡する場合に比べ、頑健な追跡が可能となる。

本発明の実施の形態では、行動認識における学習のフェーズに対応する行動学習装置と、認識のフェーズに対応する行動認識装置との2つに分かれている。

＜行動学習装置の構成＞
本実施の形態の行動学習装置１００は、ＣＰＵと、ＲＡＭと、後述する行動学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。この行動学習装置１００は、機能的には、図１に示すように、入力部１０と、演算部２０と、出力部３０とを備えている。

入力部１０は、撮影者側からカメラにより撮影された各時刻の三次元画像データ及び二次元画像データを受け付ける。例えば、ステレオカメラにより撮影された各時刻の三次元画像データ及び二次元画像データを受け付ける。また、各時刻の三次元画像データには、図２に示すように、各時刻の撮影者の行動ラベルが予め対応付けられている。入力部１０で受け付けたラベル付きの各時刻の三次元画像データ及び二次元画像データは、三次元映像ラベルデータ記憶部２１に記憶される。

演算部２０は、三次元映像ラベルデータ記憶部２１、カメラ位置姿勢推定部２２、骨格姿勢抽出部２３、骨格姿勢パラメータ記憶部２４、フレーム分割部２５、姿勢特徴量抽出部２６、画像特徴量抽出部２７、及び識別器パラメータ学習部２８を備えている。

カメラ位置姿勢推定部２２は、三次元映像ラベルデータ記憶部２１に記憶された各時刻の三次元画像データに基づいて、例えば、非特許文献3のようなICPアルゴリズムを用いて、各時刻でのカメラ位置姿勢を推定する。

[非特許文献3]：R.A. Newcombe, S.Izadi, O.Hilliges, D.Molyneux, D.Kim, A.J. Davison, P.Kohli, J.Shotton, S.Hodges and A. Fitxgibbon “Kinect Fusion: Real-time Dense Surface Mapping and Tracking”, Proc. IEEE Int. Symp. Mixed and Augmented Reality (ISMAR), 2011.

骨格姿勢抽出部２３は、カメラ位置姿勢推定部２２で推定されたカメラ位置と、予め取得した骨格モデル及び撮影者の体型を表す体型パラメータと、三次元映像ラベルデータ記憶部２１に記憶された各時刻の三次元画像データに基づいて、各時刻の撮影者の骨格姿勢を表す骨格姿勢パラメータを抽出し、骨格姿勢パラメータ記憶部２４に格納する。

フレーム分割部２５は、各時刻の三次元画像データ及び二次元画像データの連続するフレームを、行動認識用の識別器への入力単位である識別単位ごとに分割する。

姿勢特徴量抽出部２６は、骨格姿勢抽出部２３で抽出された各時刻の骨格姿勢パラメータに基づいて、例えば、上記の非特許文献２に記載の方法と同様の方法を用いて、識別単位ごとに、HOJ3Dなどの姿勢特徴量を抽出する。

画像特徴量抽出部２７は、識別単位ごとに分割された各時刻の二次元画像データに基づいて、例えば、非特許文献4の方法でSIFT特徴量などの画像特徴量を抽出し、非特許文献5のような方法で量子化することにより、識別単位ごとに、画像特徴量を抽出する。

[非特許文献4]：D. G. Lowe "Object recognition from local scale-invariant features" The Proceedings of the Seventh IEEE International Conference on Computer Vision, 1999.

[非特許文献5]： Chih-Fong Tsai “Bag-of-Words Representation in Image Annotation: A Review” ISRN Artificial Intelligence, 2012

識別器パラメータ学習部２８は、姿勢特徴量抽出部２６によって抽出された識別単位毎の姿勢特徴量、及び画像特徴量抽出部２７によって抽出された識別単位毎の画像特徴量を連結して、識別単位毎の特徴量ベクトルを生成し、識別単位毎の特徴量ベクトルと、三次元映像ラベルデータ記憶部２１に記憶されている各時刻の行動ラベルから得られる、識別単位に対応する行動ラベルの情報とに基づいて、撮影者の行動認識をするための識別器のパラメータを学習する。学習された識別器のパラメータは、出力部３０により出力され、行動認識装置２００の識別器パラメータ記憶部１２７に記憶する。

＜行動認識装置の構成＞
本実施の形態の行動認識装置２００は、ＣＰＵと、ＲＡＭと、後述する行動認識処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。この行動認識装置２００は、機能的には、図３に示すように、入力部１１０と、演算部１２０と、出力部１３０とを備えている。

入力部１１０は、撮影者側からカメラにより撮影された各時刻の三次元画像データ及び二次元画像データを受け付ける。例えば、撮影者の頭部に装着されたステレオカメラ等の画像センサーにより撮影された各時刻の三次元画像データ及び二次元画像データを受け付ける。あるいは、撮影者の頭部に装着された深度カメラにより撮影された各時刻の三次元画像データ、及び撮影者の頭部に装着されたカメラにより撮影された各時刻の二次元画像データを受け付ける。

演算部１２０は、カメラ位置姿勢推定部１２１、骨格姿勢抽出部１２２、骨格姿勢パラメータ記憶部１２３、フレーム分割部１２４、姿勢特徴量抽出部１２５、画像特徴量抽出部１２６、識別器パラメータ記憶部１２７、及び行動認識部１２８を備えている。

カメラ位置姿勢推定部１２１は、入力部１１０により受け付けた各時刻の三次元画像データから、各時刻でのカメラの位置姿勢を推定する。

骨格姿勢抽出部１２２は、カメラ位置姿勢推定部１２１によって推定されたカメラ位置姿勢と、予め取得した骨格モデル及び撮影者の体型パラメータと、入力部１１０により受け付けた各時刻の三次元画像データとに基づいて、各時刻の撮影者の骨格姿勢パラメータを推定する。

フレーム分割部１２４は、フレーム分割部２５と同様に、入力部１１０により受け付けた各時刻の三次元画像データ及び二次元画像データの連続するフレームを、識別単位ごとに分割する。

姿勢特徴量抽出部１２５は、姿勢特徴量抽出部２６と同様に、骨格姿勢抽出部１２２で抽出された骨格姿勢パラメータに基づいて、例えば、上記の非特許文献２に記載の方法と同様の方法を用いて、識別単位ごとに、HOJ3Dなどの姿勢特徴量を抽出する。

画像特徴量抽出部１２６は、画像特徴量抽出部２７と同様に、識別単位ごとに分割された各時刻の二次元画像データに基づいて、例えば、非特許文献4の方法でSIFT特徴量などの画像特徴量を抽出し、非特許文献5のような方法で量子化することにより、識別単位ごとに、画像特徴量を抽出する。

行動認識部１２８は、姿勢特徴量抽出部２６によって抽出された識別単位毎の姿勢特徴量、及び画像特徴量抽出部２７によって抽出された識別単位毎の画像特徴量を連結して、識別単位毎の特徴量ベクトルを生成し、識別単位毎の特徴量ベクトルと、識別器パラメータ記憶部１２７に記憶された識別器パラメータとに基づいて、識別単位毎に、撮影者の行動認識を行う。

＜行動学習装置の作用＞
次に、本発明の実施形態に係る行動学習装置１００の作用の一例を詳細に説明する。本発明の実施の形態の目的は、一人称映像から撮影者の行動を推定することである。

本実施形態では、カメラ内部パラメータ(焦点距離や投影中心といった、個々のカメラに特有のパラメータ)は事前にキャリブレーション済みであるとする。また、本実施形態では、一例として、カメラ位置姿勢推定部２２、１２１において、ICPアルゴリズムを用いる場合について説明を行う。

本実施形態では、骨格モデルは、木構造であらわされるものとし、頭部をすべての関節の親ノード(ルート)とする。また、頭部装着型カメラの多くが個人専用デバイスを想定して作られていることから、影者の腕の長さや太さといった体型パラメータはあらかじめ得られているものとする。

本実施形態では、姿勢特徴量としてHOJ3Dを、識別単位ごとの画像特徴量としてSIFT特徴量を用いて説明を行う。

まず、各時刻の行動ラベル付きの学習用三次元画像データ及び学習用二次元画像データが行動学習装置１００に入力されると、行動学習装置１００は、各時刻の行動ラベル付きの学習用三次元画像データ及び学習用二次元画像データを、三次元映像ラベルデータ記憶部２１に格納する。そして、行動学習装置１００のＲＯＭに記憶された行動学習プログラムを、ＣＰＵが実行することにより、図４に示す行動学習処理ルーチンが実行される。

まず、ステップＳ３０１において、三次元映像ラベルデータ記憶部２１から、学習用二次元画像データＩ_t（ｔ＝１，２，３、・・・、Ｔ）と学習用三次元画像データＤ_t（ｔ＝１，２，３、・・・、Ｔ）を取得する。ここで、tはフレーム番号であり、時刻に対応している。各時刻の画像データには、上記図２に示すような行動に関するラベルが付与されている。ここで、行動の集合をＡとしたとき、撮影者の行動をa∈Ａと表す。

次に、ステップＳ３０２において、カメラ位置姿勢推定部２２により、各時刻ｔについて、学習用三次元画像データＤ_tから、カメラの位置姿勢を推定する。初期時刻ｔ＝０の場合は、カメラ位置を原点とし、ｘ、ｙ、ｚ軸についての回転角をそれぞれ0とする。以後のカメラの位置姿勢はｔ＝０のカメラ位置からの相対的な位置姿勢として推定される。これらのパラメータは、本実施形態では、上記の非特許文献3のようなICPアルゴリズムを用いて求める。

次に、ステップＳ３０３において、骨格姿勢抽出部２３により、各時刻ｔについて、撮影者の骨格姿勢パラメータを抽出する。

ステップＳ３０３は、図５に示す処理ルーチンにより実現される。

まず、ステップＳ４０１において、三次元画像データＤ_tが読み込まれる。骨格姿勢パラメータは、

と表す。ここで、ｊは各関節のインデックスである。θ_t ^jは、x軸、y軸、z軸についての回転角度を表し、全関節の親となる関節(ルート)のみ三次元座標位置とx軸、y軸、z軸についての回転角を持つものとする。

ステップＳ４０２では、ルートの骨格姿勢パラメータを、上記ステップＳ３０２で得られたカメラ位置姿勢のパラメータをもとに計算する。本実施の形態では、カメラ位置をルート位置に補正するパラメータＣを用いて、

とする。パラメータＣは、あらかじめカメラ装着位置から算出されているものとする。

ステップＳ４０３では、ｔ＝０であるか否かを判定する。ｔ＝０である場合には、ステップＳ４０５において、骨格姿勢パラメータのルート以外のθ_tを初期化して、骨格姿勢パラメータの候補を生成する。本実施形態では、決められたポーズを表すθ_initで置き換える。

ｔ≠０の場合には、ステップＳ４０４において、骨格姿勢パラメータ記憶部２４に記憶されているｔ−１フレームでの骨格姿勢パラメータを用いて、骨格姿勢パラメータのルート以外のθ_tを更新して、骨格姿勢パラメータの候補を生成する。本実施形態では、例えば、パーティクルフィルタを用いて以下の式に従って更新する。

ここで、ｖ_tは、平均０で共分散がΣ₂となる３次元正規分布に従うシステムノイズである。本実施形態では、パーティクルフィルタを用いたが、前時刻の状態から現時刻の状態を推定する非特許文献7のような他の時系列フィルタを用いることができるのは当然である。

[非特許文献6]：K.Erleben, J.Sporring, K.Henriksen and H.Dohlmann “Phisics-Based Animation” Cengage Learning, Chap3, 2005.

[非特許文献7]：Iason Oikonomidis, Nikolaos Kyriazis, Antonis Argyros “Efficient Model-based 3D Tracking of Hand Articulations using Kinect” Proc. the British Machine Vision Conference(BMVC), 2011.

ステップＳ４０６では、骨格モデル、体型パラメータ、及び上記ステップＳ４０４又はＳ４０５で得られた骨格姿勢パラメータの候補から、撮影者の体積をボクセルで表現する。体型パラメータは、撮影者の各関節位置の長さや腕等の太さを表すパラメータである。骨格姿勢パラメータの候補θ_tと各関節の長さのパラメータから例えば非特許文献6のフォワードキネマティクスを用いて関節位置Ｐ_tを算出する。さらに腕等の太さを表すパラメータと各関節位置Ｐ_tを用いて、各関節位置周辺をボクセル化する。

次に、ステップＳ４０７では、上記ステップＳ４０６で得られた各ボクセルの中心を、カメラの内部パラメータと、上記ステップ３０２で推定されたカメラの位置姿勢のパラメータから取得されるカメラ外部パラメータとから、二次元画像データ上に投影する。このとき、カメラのカメラ座標系におけるz座標と各ボクセルの中心位置のz座標からカメラからの距離を計算し、距離に応じた濃淡情報で表されているＤ_tと同様の三次元画像データＲ_tを得る。

ステップＳ４０８では、上記ステップＳ４０１で読み込んだ三次元画像データＤ_tから動物体の領域のみを切り出す。例えば、上記非特許文献3のようなKinect Fusionといった手法を用いて三次元の背景マップを構築し、ルート位置(カメラ位置)から投影される背景マップの三次元画像データと三次元画像データＤ_tとの差分をとることで、背景に属さない動物体のみを切り出す。切り出された動物体を含む三次元画像データをＤ_t’とする。

ステップＳ４０９では、上記ステップＳ４０７で得られた三次元画像データＲ_tと上記ステップＳ４０８で得られた三次元画像データＤ_t’との一致度を計算することにより、実際の姿勢と、推定された姿勢の一致度を計算する。本実施形態では、入力画像Ｉ_t、動物体のみ含まれる三次元画像データＤ_t’、ボクセル中心を投影することで得られた三次元画像データＲ_tから、上記の非特許文献7と同様の評価式を用いて、一致度を計算する。

ステップＳ４１０では、パラメータ更新を続けるかどうかの判定を行う。上記ステップＳ４０９での評価式の値があらかじめ決められた閾値εより小さいか、もしくは、三次元画像データＤ_tに対する骨格姿勢パラメータθ_tの更新回数が、あらかじめ決められた最大更新回数Ｍより大きければ、ステップＳ４１１において、現時点の骨格姿勢パラメータの候補を、時刻ｔの骨格姿勢パラメータとして保存し、一方、条件を満たさない場合は、上記ステップＳ４０４へ戻る。

ステップＳ４１２では、次フレームがあるかどうかを判定する。次フレームがある場合には、上記ステップＳ４０１へ戻り処理を続け、ない場合には処理を終了する。

次に、上記図４のステップＳ３０４では、フレーム分割部２５が、三次元画像データ及び二次元画像データの連続するフレームを、識別器入力単位である識別単位に分割する。本実施の形態では、あるフレームtから固定長Ｌフレームの部分ｔ＋Ｌフレームで分割し、識別単位として扱う。

そして、ステップＳ３０５では、上記ステップＳ３０３で得られた各時刻の骨格姿勢パラメータから、識別単位毎に、上記ステップＳ３０４で分割された各フレームに対して姿勢特徴量を取得する。本実施形態では、上記非特許文献2のような方法を用いて、HOJ3D特徴量を計算する。

次のステップＳ３０６では、上記ステップＳ３０１で読み込んだ各時刻の二次元画像データに基づいて、識別単位毎に、上記ステップＳ３０４で分割された各フレームに対して画像特徴量を抽出する。本実施形態では、非特許文献3のような方法でSIFT特徴量を各フレームで計算し、非特許文献4のような方法を用いて、量子化を行った後画像特徴量とする。これらの画像特徴量として、例えば非特許文献8のような方法で、STIPといった別の特徴量を用いることができることは当然である。

［非特許文献8］：I.Laptev et al. ”Local Descriptors for Spatio-temporal Recognition” Spatial Coherence for Visual Motion Analysis Lecture Notes in Computer Science Volume 3667, 2006, pp 91-103.

ステップＳ３０７では、上記ステップＳ３０５で得られた識別単位毎の姿勢特徴量と、上記ステップＳ３０６で得られた識別単位毎の画像特徴量と、三次元映像ラベルデータ記憶部２１に記憶された各時刻の行動ラベルデータａとに基づいて、識別器パラメータの学習を行う。本実施形態では、ナイーブベイズ分類器により、各識別単位の特徴量ベクトルから行動ラベルを予測する。つまり、ある識別単位における姿勢特徴量と画像特徴量を合わせた特徴ベクトルをｄ、行動ラベルをａとしたとき、Ｐ（ａ｜ｄ）（ａ∈Ａ）を最大化するようなａを出力する。

ここで、Ｐ（ａ）に一様分布、Ｐ（ｄ｜ａ）には、例えば正規分布を仮定し、対数尤度

を最大化するような、正規分布のパラメータ(平均、分散)を求めればよい。ここでＤａｔａは、Ｄａｔａ＝｛（ｄ₁、ａ₁）、（ｄ₂、ａ₂）、…、（ｄ_l、ａ_l）；ａ_l∈Ａ｝であらわされる学習データで、ａ_lは、ｌ番目の識別単位における行動ラベルで、識別単位に含まれる各時刻の行動ラベルのうち、最も多いラベルを取るものとする。学習されたパラメータは、行動認識装置２００に入力され、識別器パラメータ記憶部１２７に記憶される。本実施形態にはナイーブベイズ分類器を用いたが、HMMや対数線形モデルといった他の分類器を用いることができるのは当然である。

＜行動認識装置の作用＞
次に、本発明の実施形態に係る行動認識装置２００の作用の一例を詳細に説明する。

まず、各時刻の三次元画像データ及び二次元画像データが行動認識装置２００に入力されると、行動認識装置２００のＲＯＭに記憶された行動認識プログラムを、ＣＰＵが実行することにより、図６に示す行動認識処理ルーチンが実行される。

まず、ステップＳ５０１において、二次元画像データＩ_t（ｔ＝１，２，３、・・・、Ｔ）と三次元画像データＤ_t（ｔ＝１，２，３、・・・、Ｔ）を取得する。

ステップＳ５０２では、上記ステップＳ３０２と同様に、カメラ位置姿勢推定部１２１により、各時刻ｔについて、三次元画像データＤ_tから、ICPアルゴリズムを用いて、カメラ位置姿勢を推定する。

次に、ステップＳ５０３において、骨格姿勢抽出部１２２により、上記図５に示す処理ルーチンと同じ処理ルーチンを実行することにより、各時刻ｔについて、撮影者の骨格姿勢パラメータを抽出する。

次に、ステップＳ５０４では、フレーム分割部１２４が、三次元画像データ及び二次元画像データの連続するフレームを、識別器入力単位である識別単位に分割する。本実施の形態では、あるフレームtから固定長Ｌフレームの部分ｔ＋Ｌフレームで分割し、識別単位として扱う。

ステップＳ５０５では、上記ステップＳ５０３で得られた各時刻の骨格姿勢パラメータから、識別単位毎に、上記ステップＳ５０４で分割された各フレームに対して姿勢特徴量を取得する。本実施形態では、上記非特許文献2のような方法を用いて、HOJ3D特徴量を計算する。

次のステップＳ５０６では、上記ステップＳ５０１で読み込んだ各時刻の二次元画像データに基づいて、識別単位毎に、上記ステップＳ５０４で分割された各フレームに対して画像特徴量を抽出する。本実施形態では、上記ステップ３０６で抽出した画像特徴量と同じものを用い、量子化されたSIFT特徴量を用いる。

ステップＳ５０７では、上記ステップＳ５０５で得られた識別単位毎の姿勢特徴量と、上記ステップＳ５０６で得られた識別単位毎の画像特徴量と、識別器パラメータ記憶部１２７に記憶された識別器のパラメータとに基づいて、識別単位毎に、撮影者の行動ラベルを予測する。つまり、

を得る。

ステップＳ５０８では、処理の終了判定を行う。次の時刻の三次元画像データ及び二次元画像データがあれば、上記ステップＳ５０１へ戻って処理を続ける。次の時刻の三次元画像データ及び二次元画像データがない場合、処理を終了する。

以上説明したように、本実施の形態に係る行動認識装置によれば、推定された各時刻のカメラの位置姿勢と、撮影者の体型パラメータと、各時刻の三次元画像データとに基づいて、各時刻の撮影者の骨格姿勢パラメータを抽出して、各識別単位の撮影者の姿勢特徴量を抽出し、各時刻の二次元画像データに基づいて、各識別単位の画像特徴量を抽出し、抽出された姿勢特徴量及び画像特徴量と、識別器パラメータとに基づいて、撮影者の行動を認識することにより、撮影者の体の一部分しか映りこんでいない映像からであっても、頭部装着型の三次元映像入力装置(例えば、ステレオカメラ等)を用いて撮影した映像から、視点や撮影者の体格の違いよる動作の見えの違いに対して頑健に、撮影者の行動を認識することができる。

また、本実施の形態に係る行動学習装置によれば、推定された各時刻のカメラの位置姿勢と、撮影者の体型パラメータと、各時刻の三次元画像データとに基づいて、各時刻の撮影者の骨格姿勢パラメータを抽出して、識別単位の撮影者の姿勢特徴量を抽出し、各時刻の二次元画像データに基づいて、識別単位の画像特徴量を抽出し、抽出された姿勢特徴量及び画像特徴量と、行動ラベルとに基づいて、識別器パラメータを学習することにより、撮影者の体の一部分しか映りこんでいない映像からであっても、視点や撮影者の体格の違いよる動作の見えの違いに対して頑健に、撮影者の行動を認識するための識別器パラメータを学習することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、行動学習装置と行動認識装置とを一つの装置として実装するようにしてもよい。

また、上記図1で示した装置における各部の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、図４、図５、図６で示した処理の手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFDや、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。

１０、１１０入力部
２０、１２０演算部
２１三次元映像ラベルデータ記憶部
２２、１２１カメラ位置姿勢推定部
２３、１２２骨格姿勢抽出部
２４、１２３骨格姿勢パラメータ記憶部
２５、１２４フレーム分割部
２６、１２５姿勢特徴量抽出部
２７、１２６画像特徴量抽出部
２８識別器パラメータ学習部
３０、１３０出力部
１００行動学習装置
１２７識別器パラメータ記憶部
１２８行動認識部
２００行動認識装置

Claims

撮影者側からカメラにより撮影した三次元画像データ及び二次元画像データのペアを受け付ける入力部と、
前記三次元画像データに基づいて、前記カメラの位置姿勢を推定するカメラ位置姿勢推定部と、
前記カメラ位置姿勢推定部によって推定された前記カメラの位置姿勢と、予め求められた前記撮影者の体型を表す体型パラメータと、前記三次元画像データとに基づいて、前記撮影者の骨格姿勢を表す骨格姿勢パラメータを抽出する骨格姿勢抽出部と、
前記骨格姿勢抽出部によって抽出された前記骨格姿勢パラメータに基づいて、前記撮影者の姿勢特徴量を抽出する姿勢特徴量抽出部と、
前記二次元画像データに基づいて、画像特徴量を抽出する画像特徴量抽出部と、
前記姿勢特徴量抽出部によって抽出された前記姿勢特徴量及び前記画像特徴量抽出部によって抽出された前記画像特徴量と、前記撮影者の行動を識別するための予め学習された識別器パラメータとに基づいて、前記撮影者の行動を認識する行動認識部と、
を含む行動認識装置。
前記入力部は、各時刻の三次元画像データ及び二次元画像データのペアを受け付け、
前記カメラ位置姿勢推定部は、各時刻の前記三次元画像データに基づいて、各時刻の前記カメラの位置姿勢を推定し、
前記姿勢特徴量抽出部は、前記カメラ位置姿勢推定部によって推定された各時刻の前記カメラの位置姿勢と、前記体型パラメータと、各時刻の前記三次元画像データとに基づいて、各時刻の前記撮影者の骨格姿勢パラメータを抽出し、
前記姿勢特徴量抽出部は、前記骨格姿勢抽出部によって抽出された各時刻の前記骨格姿勢パラメータに基づいて、識別単位の各々の前記撮影者の姿勢特徴量を抽出し、
前記画像特徴量抽出部は、各時刻の前記二次元画像データに基づいて、識別単位の各々の画像特徴量を抽出し、
前記行動認識部は、識別単位の各々について、前記識別単位の姿勢特徴量、及び前記識別単位の画像特徴量と、前記識別器パラメータとに基づいて、前記識別単位の前記撮影者の行動を認識する
請求項１記載の行動認識装置。
前記骨格姿勢抽出部は、
一時刻前の前記撮影者の骨格姿勢を表す骨格姿勢パラメータに基づいて、抽出対象時刻の骨格姿勢パラメータの候補を複数生成し、
生成された複数の骨格姿勢パラメータの候補の各々について、前記骨格姿勢パラメータの候補と前記抽出対象時刻の前記カメラの位置姿勢とに基づいて、前記撮影者を表す三次元画像データを生成し、
生成された複数の骨格姿勢パラメータの候補の各々について、前記骨格姿勢パラメータの候補に基づいて生成された前記撮影者を表す三次元画像データと、前記抽出対象時刻の三次元画像データから抽出された動物体領域の三次元画像データとの一致度を計算し、
生成された複数の骨格姿勢パラメータの候補の各々について計算された一致度に基づいて、前記抽出対象時刻の骨格姿勢パラメータを抽出する請求項２記載の行動認識装置。
行動ラベルが予め付与された、撮影者側からカメラにより撮影した三次元画像データ及び二次元画像データのペアを受け付ける入力部と、
前記三次元画像データに基づいて、前記カメラの位置姿勢を推定するカメラ位置姿勢推定部と、
前記カメラ位置姿勢推定部によって推定された前記カメラの位置姿勢と、予め求められた前記撮影者の体型を表す体型パラメータと、前記三次元画像データとに基づいて、前記撮影者の骨格姿勢を表す骨格姿勢パラメータを抽出する骨格姿勢抽出部と、
前記骨格姿勢抽出部によって抽出された前記骨格姿勢パラメータに基づいて、前記撮影者の姿勢特徴量を抽出する姿勢特徴量抽出部と、
前記二次元画像データに基づいて、画像特徴量を抽出する画像特徴量抽出部と、
前記姿勢特徴量抽出部によって抽出された前記姿勢特徴量及び前記画像特徴量抽出部によって抽出された前記画像特徴量と、前記行動ラベルとに基づいて、前記撮影者の行動を識別するための識別器パラメータを学習する識別器パラメータ学習部と、
を含む行動学習装置。
前記入力部は、各時刻の行動ラベルが予め付与された各時刻の三次元画像データ及び二次元画像データのペアを受け付け、
前記カメラ位置姿勢推定部は、各時刻の前記三次元画像データに基づいて、各時刻の前記カメラの位置姿勢を推定し、
前記姿勢特徴量抽出部は、前記カメラ位置姿勢推定部によって推定された各時刻の前記カメラの位置姿勢と、前記体型パラメータと、各時刻の前記三次元画像データとに基づいて、各時刻の前記撮影者の骨格姿勢パラメータを抽出し、
前記姿勢特徴量抽出部は、前記骨格姿勢抽出部によって抽出された各時刻の前記骨格姿勢パラメータに基づいて、識別単位の各々の前記撮影者の姿勢特徴量を抽出し、
前記画像特徴量抽出部は、各時刻の前記二次元画像データに基づいて、識別単位の各々の画像特徴量を抽出し、
前記行動認識部は、識別単位の各々についての、前記識別単位の姿勢特徴量、及び前記識別単位の画像特徴量と、前記識別単位に対応する各時刻の行動ラベルとに基づいて、前記識別器パラメータを学習する
請求項４記載の行動学習装置。
入力部によって、撮影者側からカメラにより撮影した三次元画像データ及び二次元画像データのペアを受け付け、
カメラ位置姿勢推定部によって、前記三次元画像データに基づいて、前記カメラの位置姿勢を推定し、
骨格姿勢抽出部によって、前記カメラ位置姿勢推定部によって推定された前記カメラの位置姿勢と、予め求められた前記撮影者の体型を表す体型パラメータと、前記三次元画像データとに基づいて、前記撮影者の骨格姿勢を表す骨格姿勢パラメータを抽出し、
姿勢特徴量抽出部によって、前記骨格姿勢抽出部によって抽出された前記骨格姿勢パラメータに基づいて、前記撮影者の姿勢特徴量を抽出し、
画像特徴量抽出部によって、前記二次元画像データに基づいて、画像特徴量を抽出し、
行動認識部によって、前記姿勢特徴量抽出部によって抽出された前記姿勢特徴量及び前記画像特徴量抽出部によって抽出された前記画像特徴量と、前記撮影者の行動を識別するための予め学習された識別器パラメータとに基づいて、前記撮影者の行動を認識する
行動認識方法。
入力部によって、行動ラベルが予め付与された、撮影者側からカメラにより撮影した三次元画像データ及び二次元画像データのペアを受け付け、
カメラ位置姿勢推定部によって、前記三次元画像データに基づいて、前記カメラの位置姿勢を推定し、
骨格姿勢抽出部によって、前記カメラ位置姿勢推定部によって推定された前記カメラの位置姿勢と、予め求められた前記撮影者の体型を表す体型パラメータと、前記三次元画像データとに基づいて、前記撮影者の骨格姿勢を表す骨格姿勢パラメータを抽出し、
姿勢特徴量抽出部によって、前記骨格姿勢抽出部によって抽出された前記骨格姿勢パラメータに基づいて、前記撮影者の姿勢特徴量を抽出し、
画像特徴量抽出部によって、前記二次元画像データに基づいて、画像特徴量を抽出し、
識別器パラメータ学習部によって、前記姿勢特徴量抽出部によって抽出された前記姿勢特徴量及び前記画像特徴量抽出部によって抽出された前記画像特徴量と、前記行動ラベルとに基づいて、前記撮影者の行動を識別するための識別器パラメータを学習する
行動学習方法。
コンピュータを、請求項１〜請求項３の何れか１項記載の行動認識装置、又は請求項４もしくは５記載の行動学習装置の各部として機能させるためのプログラム。