JP2019071008A

JP2019071008A - 検出装置および検出方法

Info

Publication number: JP2019071008A
Application number: JP2017197694A
Authority: JP
Inventors: 青野　雅樹; Masaki Aono; 雅樹青野; 幸秀高垣; Yukihide Takagaki
Original assignee: Toyohashi University of Technology NUC
Current assignee: Toyohashi University of Technology NUC
Priority date: 2017-10-11
Filing date: 2017-10-11
Publication date: 2019-05-09

Abstract

【課題】画像または動画像データならびに３次元距離データにおいて、対象物の骨格データを用いて高精度に対象物の検出を行う検出装置および検出方法を提供すること【解決手段】本発明に係る検出装置は、画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行うものであって、画像または動画像データならびに３次元距離データの時空間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、当該ニューラルネットワークによって時空間上の畳み込み処理を行うことを特徴とする。【選択図】図２

Description

本発明は、対象物の骨格データを用いる検出装置および検出方法に関するものである。とくに、事前に骨格データを学習した深層学習器により人物の動作等を検出するものである。

画像または動画像データ（以下単に、ビデオ画像ということがある。）に対して、特定の処理を行うことにより人物等の対象物を検出あるいは抽出する画像処理装置が、例えば、特許文献１に開示されている。当該画像処理技術は、利用者の接近情報を検出するものであって、複数の画像を順次に撮像する撮像手段と、前記順次に撮像された複数の画像に含まれる移動体の動作に係る動作情報を抽出する抽出手段と、前記抽出された動作情報と、予め記憶された人物の接近動作を示す接近動作情報とに基づいて、利用者の接近を判断することに特徴がある。

また、ビデオ画像に対する先行技術には、非特許文献１がその例であるが、すべてのデータは基本的に２次元データのため人物等の動作が他のオブジェクトに隠蔽される場合があること、高速な動作に係るビデオ画像データにはブラー（いわゆるピンボケ）などが入り込むこと、人物の同定が背景の影響を受けること、認識精度が照明の影響を受けること、衣服などの色の影響を受けること、など課題が多い。

一方、骨格データ（以下、スケルトンデータということがある。）に基づく人物に対する動作認識に関する先行技術では、スケルトンデータからハンドクラフトな特徴量（手作り特徴量ともいう。）を計算する手法などがあるが、近年の計測機器の高性能化に伴い、スケルトンデータをある画像に変換し、CNN(畳み込みニューラルネットワーク：Convolutional Neural Network)の入力データとする手法や、スケルトンデータを時系列順にRNN(Recurrent Neural Network)の入力データとする手法などが多く提示されている。

CNNを用いた手法として、スケルトンデータとある行列との行列積を計算し、計算結果をCNNの入力とする手法（例えば、非特許文献２を参照）や、ある時刻の関節位置と異なる時刻の関節位置との位置関係を画像化し、CNNの入力とする手法（例えば、非特許文献３を参照）が提示されている。

非特許文献２の手法では、スケルトンデータの行列積を求めたあと、データを画像化して、畳み込みネットワークで動作判定する手法であるが、その場合、スケルトンの中身である関節データの出現順序は変化しないので、相関のない関節同士の畳み込みをしてしまう課題がある。また、非特許文献３の手法は、４点の関節とその他の関節との位置関係から画像を生成するが、当該４点の関節が最適とは限らない。

RNNを用いた手法として、スケルトンデータの腕、脚などの各部位ごとにRNNに入力し、出力を連結する手法（例えば、非特許文献４を参照）や、スケルトンデータをRNNに入力しフレーム毎の所属確率をSoftmax関数より得て、その各フレームの所属確率を用いて動作の開始時刻、終了時刻の回帰を行うニューラルネットワーク（例えば、非特許文献５を参照）などが提示されている。

非特許文献４および５の手法は、RNNにおいて時系列データとしての深層学習を行うため、時間軸方向の特徴は捉えやすいが、空間軸方向の特徴を捉えにくいという課題がある。

特開2016-066975号公報

Wang et al., "Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors," in Proc. CVPR, 2015. Li et al. "Skeleton-based Action Recognition with Convolutional Neural Networks," arXiv:1704.07595. Ke et al. "A New Representation of Skeleton Sequences for 3D Action Recognition," in Proc. CVPR, 2017. Wang et al. "Modeling Temporal Dynamics and Spatial Configurations of Actions Using Two-Stream Recurrent Neural Networks," arXiv:1704.02581. Li et al., "Online Human Action Detection using Joint Classification-Regression Recurrent Neural Networks," in Proc. ICCV, 2016.

本発明は上記先行技術の課題を鑑みてなされたものであり、解決しようとする課題は、画像または動画像データならびに３次元距離データにおいて、対象物の骨格データを用いて高精度に対象物の検出を行う検出装置およびその検出方法を提供することである。

本発明に係る第１の検出装置は、画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データならびに３次元距離データの時空間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって時空間上の畳み込み処理を行うことを特徴とする。

本発明に係る第２の検出装置は、画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データの時間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって時間上の畳み込み処理を行うことを特徴とする。

本発明に係る第３の検出装置は、画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データの空間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって空間上の畳み込み処理を行うことを特徴とする。

本発明に係る第４の検出装置は、画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行う前記第２の検出装置であって、
画像または動画像データの時間上のデータ変化を学習しかつ判定するニューラルネットワークと、
骨格データを画像に変換する画像化変換手段と、を備え、
前記画像化変換手段は、当該ニューラルネットワークによって時間上の畳み込み処理の前工程として、前記骨格データに含まれる関節の位置データについて画像化を行い、骨格のすべての関節データに関する相関を求めることを特徴とする。

本発明に係る第５の検出装置は、画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行う前記第３の検出装置であって、
画像または動画像データの空間上のデータ変化を学習しかつ判定するニューラルネットワークと、
骨格データを画像に変換する画像化変換手段と、を備え、
前記画像化変換手段は、当該ニューラルネットワークによって空間上の畳み込み処理の前工程として前記骨格データに含まれる関節の位置データについて画像化を行い、骨格のすべての関節データに関する相関を求めることを特徴とする。

本発明に係る第６の検出装置は、画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行う前記第１から５の検出装置であって、
画像または動画像データのデータ変化を学習しかつ判定するニューラルネットワークと、
該ニューラルネットワークの出力を分割する分割手段と、を備え、
前記分割手段は、当該ニューラルネットワークによって畳み込み処理の後工程として当該画像または動画像のフレーム数分だけ当該ニューラルネットワークの出力を分割することを特徴とする。

本発明に係る第７の検出装置は、画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行う前記第１から６の検出装置であって、
画像または動画像データのデータ変化を学習しかつ判定するニューラルネットワークと、
平均フィルタと、を備え、
前記平均フィルタは、同時刻のフレームの所属動作確率を平均化するものであり、検出処理を行う前工程として平均化処理を２回以上行うことを特徴とする。

本発明に係る対象物の検出方法は、前記第１から７のいずれかに記載の検出装置を使用する対象物の検出方法であって、対象物の３次元骨格データに対して、該３次元骨格データに前記時空間上、前記時間上、前記空間上の畳み込み処理を行うニューラルネットワークを単独もしくは二つ以上を組み合わせることを特徴とする。

本発明に係る検出装置および検出方法により３次元骨格データからロバストで高精度に対象物の動作を検出し判定できるようになる。

本発明に係る学習時の処理フローを表す流れ図である。本発明に係る学習時のニューラルネットワーク部分の手法の構成を表すブロック図である。本発明に係る、未知な動作時系列データからの動作検出推定時の処理フローを表す流れ図である。本発明に係る、未知な動作時系列データからの動作検出推定時のニューラルネットワーク部分の構成を表すブロック図である。本図では、三つの処理を最後で集めてN種類の動作の判定を行う。学習済みの全結合ネットワーク（FC-11）を用いる11種類の動作判定の場合の実装としている。本発明に係るフレーム間の差分を示す模式図である。本発明に係る空間変換Spatial Transform(FC-256部分はF(F=16)入力で共有する)に関する模式図である。本発明に係る時間変換Temporal Transform(FC-256部分はF(F=16)入力で共有する)に関する模式図である。本発明に係るフレーム単位の全結合回路Frame-wise FCの内部構造に関する模式図である。本発明に係るニューラルネットワークの詳細を示すブロック図である。本発明に係るフレームオーバーラップの模式図である。本発明の実施に係る平均フィルタを適用した時の判定精度の推移を示すグラフである。

本発明を実施するための形態について、図および表などを参照しながら以下に説明する。
まず、本発明に係る検出装置の構成、またはアルゴリズムを詳述する。なお、当該アルゴリズムは、プログラム言語を用いて構築され、ＣＰＵ、メモリ、外部記憶機器、表示機器および入出力機器が電気的に接続されてなり動作する計算機ハードウェアを、適宜、稼働させて実行される。また、本発明に係る検出装置は、教師あり機械学習手法に大別され、学習段階の構成と未知な動作時系列データからの動作の検出推定段階の構成からなる。以下に学習時（以下、訓練時ということがある。図２を参照）と未知な動作時系列データからの動作の検出推定時（以下、テスト時ということがある。図４を参照）を示す。学習時の処理は以下のような流れである（図１を参照）。

未知な動作時系列データからの動作の検出推定時のモデルの学習の流れを図１に示す。Fフレームから成るスケルトンデータ群を用いてモデルに入力することでモデルのパラメータを決定する。処理L2では入力されたスケルトンデータ群を用いてSpatial Stream、Temporal Streamの二つのモデルのパラメータを決定する。処理L3では学習済みのSpatial StreamとTemporal Streamにスケルトンデータ群を入力し、処理L4でSpatial StreamとTemporal Streamの中間層（両モデルの最初のMax-Pooling層）から出力されるデータを連結する。処理L5では連結されたデータをSpatio-Temporal Streamに入力することでSpatio-Temporal Streamのパラメータを決定する。

本発明係る「スケルトンデータ群を用いてパラメータを決定するモデル」のブロック図を図２に示す。

当該モデルは三つ検出器からなり、空間軸検出器（Spatial Stream）、時間軸検出器（Temporal Stream）、時空間軸検出器（Spatial Temporal Stream）は独立に学習を行う。各検出器では、スケルトンデータとスケルトンデータのフレーム間差分を取ったデータに対して全結合層(Spatial Transform, Temporal Transform)を用いて空間面及び時間面に対して画像化する。画像データに対して畳み込み層を用いて特徴抽出を行う。抽出された特徴に対し、フレーム単位の全結合回路Frame wise FCを適用することで入力データの各フレームの所属動作確率を推定可能なモデルを構築する。

未知な動作時系列データからの対象物の動作検出推定時の流れ（図３）は以下の通りである。

処理T1では動作が未知なスケルトンデータストリーム（図１０入力データ）を入力する。処理T2ではスケルトンデータストリームをFフレーム幅でF-1フレームオーバーラップさせながらモデルへの入力するデータを作成する。処理T3ではFフレームのデータをモデルへ順次入力し、各フレームの所属動作確率を推定する。処理T4ではオーバーラップしているフレームの所属動作確率の和を取り、新たな所属動作確率を計算する。処理T5では新たな所属動作確率に対し時間方向に平均フィルタを複数回適用し、最終的な各フレームの所属動作確率を計算する。処理T6では平均フィルタを適用した所属動作確率に基づいて各フレームの所属動作を推定する。

処理T2から訓練済みのネットワークを扱い処理T3までの出力部分を詳述したのが図４である。対象物の動作検出推定時には、数1により三つのStreamの出力統合処理を行う。

三つのStreamの出力統合処理は以下の式で行う。

＜入力データ＞
入力データにはS箇所（実装例ではS=25箇所）の関節の位置データ（スケルトンデータ）を入力とする。関節の位置データは三次元のデカルト座標系（3次元の(x, y, z)の座標値）で表現され、入力フレーム数はFフレーム（実装例ではF=16フレーム）とする。従って、入力データはF×S×3となる。実装例では、16（フレーム）×25（箇所）×3（x, y, z座標）=1200（次元）を入力とする。

＜フレーム間差分＞
入力データは、学習時も未知な動作時系列データからの動作検出推定時も、図２および４に示すように、フレーム間の差分計算をまず行う。これは、S個の関節（スケルトン）がどの程度、フレーム間で移動したかを計算するためである。F個のフレームの隣り合うフレームの差分をとると、F-1フレームになるが、最後のフレームはゼロ埋め(zero padding)を行い、差分をとったフレーム数もFフレームとする。

図１および２にある「フレーム間差分」を具体化したのが、以下の図５のような回路（アルゴリズム）である。フレーム間差分は、隣り合うフレームにおいて各関節がどの程度移動したかを表現するために隣り合うフレーム同士の差分を計算する。フレーム間差分によりフレーム数はF-1フレームになるため最終フレームをゼロ埋めしFフレームにする。

＜空間変換（Spatial Transform）＞
Spatial Transformは、図２および４のSpatial Streamとある空間軸でのデータ処理部分の最初の処理に相当する部分である。スケルトンデータをそのまま畳み込む場合、隣り合う関節データには相関がない場合がある。そのためスケルトンデータを畳み込み処理の前に、全結合層により画像化変換し畳み込み処理を行う。図６に示すようにSpatial Transformでは各フレームのスケルトンデータを画像化する。まず、スケルトンデータをフレームごとに全結合層(256ユニット、バイアス無)に入力し、出力された256個のデータを16×16にReshapeすることで画像化データとする。また、フレーム間の変化を残すために各全結合層の重みは共有重みとしている。

＜時間変換（Temporal Transform）＞
Temporal Transformでは、図7のような回路で、関節（スケルトン）の位置データを画像化する（ここでは、それぞれ16x16のサイズの画像）。この処理により関節の変化の画像化を行う。全結合層の設定についてはSpatial Transformと同様である。スケルトンデータの各フレームの同関節ごとに全結合層(256ユニット、バイアス無)に入力し、出力された256個のデータを16×16にReshapeすることで画像化データとする。

＜畳み込み層＞
図２および４で示したように、画像化したデータをそれぞれ３次元の畳み込み層に入力する。畳み込みは、以下のような３層を準備する。なお、実装で用いた入出力次元を付与する。

なお、この層のSpatialとTemporalの出力を連結させて、以降、Spatio-temporal（時空間軸）の畳み込みを構築する。Temporalの25はスケルトンの箇所(S)に対応する。

なお、各畳み込み層の後には、Max Poolingを置き、最大値で平滑化する。Max PoolingについてはTemporal Streamの1番目のMax Poolingのプーリング領域のサイズは2×3×2、それ以外のMax Poolingは2×2×2とした。ニューラルネットの出力調整に必要な活性化関数には、全ての畳み込み層においてReLU (Rectified Linear Unit：インプットXがマイナスの間、不活性[出力Y=ゼロ]、Xが正のとき、Y=Xの値をとる関数)を用いる。また、畳み込み層後に過学習を回避するため、全結合のうちランダムに50%は無視する回路であるDropout回路をおき、閾値を50%に設定する。

＜フレーム単位の全結合回路（Frame wise FC）＞
図２および４に示すように、畳み込み層の出力を全結合層(FC-1024(1024ユニット)、活性化関数：ReLU)の入力とする。さらに図８に示すように、得られる1024個のデータを入力フレーム数分（図では16個）に分割し、その分割データを全結合層2層FC-256(256ユニット、活性化関数：ReLU)およびFC-11(11ユニット、活性化関数：Softmax)に入力することで各フレームの人物動作の識別を行う。最終出力はFC-N (P-numbered unit of Fully Connected)でN個の出力を準備する。実装ではN=11としている。

＜フレームオーバーラップ処理：処理T2およびT4の詳細＞
処理T2およびT4は以下の図１０のように行う。処理T2ではスケルトンデータストリーム（図１０入力データ）をFフレーム幅でF-1フレームオーバーラップさせながらモデルへの入力するデータ(X₁, X₂, …)を作成する。処理T3でFフレームのデータをモデルへ順次入力し、各フレームの所属動作確率(Y₁, Y₂, …)が推定される。処理T4ではオーバーラップしている同じ時刻のフレームの所属動作確率((Y_1,2, Y_2,1), (Y_1,3, Y_2,3, Y_3,1), …)の和を取り、各フレームの所属動作確率を計算する。

＜同時刻の確率の和：処理T4の詳細＞
処理T4の出力は以下の式で表現される。F=16（フレーム）で実装している。処理T4ではオーバーラップしている同じ時刻のフレームの所属動作確率((Y_1,2, Y_2,1), (Y_1,3,Y_2,3,Y_3,1), …)の和を取り、各フレームの所属動作確率(p₁, p₂, …)=(Y_1,2+Y_2,1, Y_1,3+Y_2,3+Y_3,1, …)を計算する。

＜平均フィルタ：処理T5の詳細＞
処理T5は以下のように行う。平均フィルタは局所的な誤検出を抑制するために導入する。補正を行うフレームとその周囲のフレーム（周囲(s-1)/2フレーム（s：フィルタサイズ））（実施例ではs=3）の所属動作確率の平均値を計算する。この平均値を第１フレームから最終フレームまで計算する。この処理を複数回（実施例では30回）適用することで各フレームの所属動作確率の補正を行う。

＜実施例のデータセット＞
実施例として、Online Action Detection Dataset（http://www.icst.pku.edu.cn/struct/Projects/oad.htmlを参照）を用いる。これは、人物動作に関するデータセットであり、1920×1080のRGB画像、514×424のDepth画像、25箇所のスケルトンデータから成るデータセットである。本発明に係る実施例ではスケルトンデータのみを用いる。学習データには30本、未知な動作時系列データからの動作検出推定には20本の時系列データを用いる。クラス数は10クラスである。本実施例では、10クラスに無動作を加えた11クラスの分類問題とする。

＜三つのニューラルネットワークの設定＞
図１および２、さらに図９に示すニューラルネットワークの構成図において、学習時には、Spatial Stream、Temporal Stream、Spatio-Temporal Streamの三つのニューラルネットワークそれぞれを個別に学習を行う。未知な動作時系列データからの動作の検出推定時には、それぞれのStreamの出力値の和を最終的な予測値とする。

学習時の損失関数には、数９のクロスエントロピーを用いる。また、最適化手法にはAdadeltaを用いる。

＜評価＞
F1スコアで評価を行う。評価を行う際は動作区間がIntersection over Union (IoU)60％以上かつ予測クラスが正解のものをTrue、それ以外の予測をFalseとした。

＜実験結果＞
本発明に係る提案手法に対し、平均フィルタを適用した時の精度の推移を図１１に示す。図１１よりフィルタサイズ3、適用回数30回のときが最も良い精度が得られているのが分かる。

また表1に、スケルトンデータをRNNに入力し動作の開始時刻および終了時刻の回帰を行うネットワークを用いる先行技術[4]（非特許文献５）、スケルトンデータを時間方向に1次微分さらに2次微分した特徴量とDepth画像とRGB画像のCNN特徴量および動作の出現位置を用いてRandom Forestを学習する先行技術[5]（Baek et al., “Real-time Online Action Detection Forests using Spatio-temporal Contexts,” in Proc. WACV, 2017.）、Random Forestに時間変化情報を与え、スケルトンデータの遷移を学習させ、フレーム単位でクラス分類する先行技術[6]（Hernando et al., “Transition Forests: Learning Discriminative Temporal Transitions for Action Recognition and Detection,” in Proc. CVPR, 2017.）との比較結果を示す。

表１より、平均フィルタ無の場合には、本発明に係る提案手法は、ほとんどのクラスで従来技術を下回っているが、平均フィルタを適用することで（表１中、平均フィルタ有）、ほとんどのクラスにおいて従来技術を上回っていることが分かる。

Claims

画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データならびに３次元距離データの時空間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって時空間上の畳み込み処理を行うことを特徴とする検出装置。
画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データの時間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって時間上の畳み込み処理を行うことを特徴とする検出装置。
画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データの空間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって空間上の畳み込み処理を行うことを特徴とする検出装置。
画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データの時間上のデータ変化を学習しかつ判定するニューラルネットワークと、
骨格データを画像に変換する画像化変換手段と、を備え、
前記画像化変換手段は、当該ニューラルネットワークによって時間上の畳み込み処理の前工程として、前記骨格データに含まれる関節の位置データについて画像化を行い、骨格のすべての関節データに関する相関を求めることを特徴とする請求項２に記載の検出装置。
画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データの空間上のデータ変化を学習しかつ判定するニューラルネットワークと、
骨格データを画像に変換する画像化変換手段と、を備え、
前記画像化変換手段は、当該ニューラルネットワークによって空間上の畳み込み処理の前工程として、前記骨格データに含まれる関節の位置データについて画像化を行い、骨格のすべての関節データに関する相関を求めることを特徴とする請求項３に記載の検出装置。
画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データのデータ変化を学習しかつ判定するニューラルネットワークと、
該ニューラルネットワークの出力を分割する分割手段と、を備え、
前記分割手段は、当該ニューラルネットワークによって畳み込み処理の後工程として当該画像または動画像のフレーム数分だけ当該ニューラルネットワークの出力を分割することを特徴とする請求項１から５に記載の検出装置。
画像または動画像データならびに３次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データのデータ変化を学習しかつ判定するニューラルネットワークと、
平均フィルタと、を備え、
前記平均フィルタは、同時刻のフレームの所属動作確率を平均化するものであり、検出処理を行う前工程として平均化処理を２回以上行うことを特徴とする請求項１から６に記載の検出装置。
請求項１から７のいずれかに記載の検出装置を使用する対象物の検出方法であって、対象物の３次元骨格データに対して、該３次元骨格データに前記時空間上、前記時間上、前記空間上の畳み込み処理を行うニューラルネットワークを単独もしくは二つ以上を組み合わせることを特徴とする対象物の検出方法。