JP2019071008A - 検出装置および検出方法 - Google Patents
検出装置および検出方法 Download PDFInfo
- Publication number
- JP2019071008A JP2019071008A JP2017197694A JP2017197694A JP2019071008A JP 2019071008 A JP2019071008 A JP 2019071008A JP 2017197694 A JP2017197694 A JP 2017197694A JP 2017197694 A JP2017197694 A JP 2017197694A JP 2019071008 A JP2019071008 A JP 2019071008A
- Authority
- JP
- Japan
- Prior art keywords
- data
- neural network
- image
- skeleton
- moving image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】画像または動画像データならびに3次元距離データにおいて、対象物の骨格データを用いて高精度に対象物の検出を行う検出装置および検出方法を提供すること【解決手段】本発明に係る検出装置は、画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行うものであって、画像または動画像データならびに3次元距離データの時空間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、当該ニューラルネットワークによって時空間上の畳み込み処理を行うことを特徴とする。【選択図】図2
Description
本発明は、対象物の骨格データを用いる検出装置および検出方法に関するものである。とくに、事前に骨格データを学習した深層学習器により人物の動作等を検出するものである。
画像または動画像データ(以下単に、ビデオ画像ということがある。)に対して、特定の処理を行うことにより人物等の対象物を検出あるいは抽出する画像処理装置が、例えば、特許文献1に開示されている。当該画像処理技術は、利用者の接近情報を検出するものであって、複数の画像を順次に撮像する撮像手段と、前記順次に撮像された複数の画像に含まれる移動体の動作に係る動作情報を抽出する抽出手段と、前記抽出された動作情報と、予め記憶された人物の接近動作を示す接近動作情報とに基づいて、利用者の接近を判断することに特徴がある。
また、ビデオ画像に対する先行技術には、非特許文献1がその例であるが、すべてのデータは基本的に2次元データのため人物等の動作が他のオブジェクトに隠蔽される場合があること、高速な動作に係るビデオ画像データにはブラー(いわゆるピンボケ)などが入り込むこと、人物の同定が背景の影響を受けること、認識精度が照明の影響を受けること、衣服などの色の影響を受けること、など課題が多い。
一方、骨格データ(以下、スケルトンデータということがある。)に基づく人物に対する動作認識に関する先行技術では、スケルトンデータからハンドクラフトな特徴量(手作り特徴量ともいう。)を計算する手法などがあるが、近年の計測機器の高性能化に伴い、スケルトンデータをある画像に変換し、CNN(畳み込みニューラルネットワーク:Convolutional Neural Network)の入力データとする手法や、スケルトンデータを時系列順にRNN(Recurrent Neural Network)の入力データとする手法などが多く提示されている。
CNNを用いた手法として、スケルトンデータとある行列との行列積を計算し、計算結果をCNNの入力とする手法(例えば、非特許文献2を参照)や、ある時刻の関節位置と異なる時刻の関節位置との位置関係を画像化し、CNNの入力とする手法(例えば、非特許文献3を参照)が提示されている。
非特許文献2の手法では、スケルトンデータの行列積を求めたあと、データを画像化して、畳み込みネットワークで動作判定する手法であるが、その場合、スケルトンの中身である関節データの出現順序は変化しないので、相関のない関節同士の畳み込みをしてしまう課題がある。また、非特許文献3の手法は、4点の関節とその他の関節との位置関係から画像を生成するが、当該4点の関節が最適とは限らない。
RNNを用いた手法として、スケルトンデータの腕、脚などの各部位ごとにRNNに入力し、出力を連結する手法(例えば、非特許文献4を参照)や、スケルトンデータをRNNに入力しフレーム毎の所属確率をSoftmax関数より得て、その各フレームの所属確率を用いて動作の開始時刻、終了時刻の回帰を行うニューラルネットワーク(例えば、非特許文献5を参照)などが提示されている。
非特許文献4および5の手法は、RNNにおいて時系列データとしての深層学習を行うため、時間軸方向の特徴は捉えやすいが、空間軸方向の特徴を捉えにくいという課題がある。
Wang et al., "Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors," in Proc. CVPR, 2015.
Li et al. "Skeleton-based Action Recognition with Convolutional Neural Networks," arXiv:1704.07595.
Ke et al. "A New Representation of Skeleton Sequences for 3D Action Recognition," in Proc. CVPR, 2017.
Wang et al. "Modeling Temporal Dynamics and Spatial Configurations of Actions Using Two-Stream Recurrent Neural Networks," arXiv:1704.02581.
Li et al., "Online Human Action Detection using Joint Classification-Regression Recurrent Neural Networks," in Proc. ICCV, 2016.
本発明は上記先行技術の課題を鑑みてなされたものであり、解決しようとする課題は、画像または動画像データならびに3次元距離データにおいて、対象物の骨格データを用いて高精度に対象物の検出を行う検出装置およびその検出方法を提供することである。
本発明に係る第1の検出装置は、画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データならびに3次元距離データの時空間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって時空間上の畳み込み処理を行うことを特徴とする。
画像または動画像データならびに3次元距離データの時空間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって時空間上の畳み込み処理を行うことを特徴とする。
本発明に係る第2の検出装置は、画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データの時間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって時間上の畳み込み処理を行うことを特徴とする。
画像または動画像データの時間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって時間上の畳み込み処理を行うことを特徴とする。
本発明に係る第3の検出装置は、画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データの空間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって空間上の畳み込み処理を行うことを特徴とする。
画像または動画像データの空間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって空間上の畳み込み処理を行うことを特徴とする。
本発明に係る第4の検出装置は、画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行う前記第2の検出装置であって、
画像または動画像データの時間上のデータ変化を学習しかつ判定するニューラルネットワークと、
骨格データを画像に変換する画像化変換手段と、を備え、
前記画像化変換手段は、当該ニューラルネットワークによって時間上の畳み込み処理の前工程として、前記骨格データに含まれる関節の位置データについて画像化を行い、骨格のすべての関節データに関する相関を求めることを特徴とする。
画像または動画像データの時間上のデータ変化を学習しかつ判定するニューラルネットワークと、
骨格データを画像に変換する画像化変換手段と、を備え、
前記画像化変換手段は、当該ニューラルネットワークによって時間上の畳み込み処理の前工程として、前記骨格データに含まれる関節の位置データについて画像化を行い、骨格のすべての関節データに関する相関を求めることを特徴とする。
本発明に係る第5の検出装置は、画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行う前記第3の検出装置であって、
画像または動画像データの空間上のデータ変化を学習しかつ判定するニューラルネットワークと、
骨格データを画像に変換する画像化変換手段と、を備え、
前記画像化変換手段は、当該ニューラルネットワークによって空間上の畳み込み処理の前工程として前記骨格データに含まれる関節の位置データについて画像化を行い、骨格のすべての関節データに関する相関を求めることを特徴とする。
画像または動画像データの空間上のデータ変化を学習しかつ判定するニューラルネットワークと、
骨格データを画像に変換する画像化変換手段と、を備え、
前記画像化変換手段は、当該ニューラルネットワークによって空間上の畳み込み処理の前工程として前記骨格データに含まれる関節の位置データについて画像化を行い、骨格のすべての関節データに関する相関を求めることを特徴とする。
本発明に係る第6の検出装置は、画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行う前記第1から5の検出装置であって、
画像または動画像データのデータ変化を学習しかつ判定するニューラルネットワークと、
該ニューラルネットワークの出力を分割する分割手段と、を備え、
前記分割手段は、当該ニューラルネットワークによって畳み込み処理の後工程として当該画像または動画像のフレーム数分だけ当該ニューラルネットワークの出力を分割することを特徴とする。
画像または動画像データのデータ変化を学習しかつ判定するニューラルネットワークと、
該ニューラルネットワークの出力を分割する分割手段と、を備え、
前記分割手段は、当該ニューラルネットワークによって畳み込み処理の後工程として当該画像または動画像のフレーム数分だけ当該ニューラルネットワークの出力を分割することを特徴とする。
本発明に係る第7の検出装置は、画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行う前記第1から6の検出装置であって、
画像または動画像データのデータ変化を学習しかつ判定するニューラルネットワークと、
平均フィルタと、を備え、
前記平均フィルタは、同時刻のフレームの所属動作確率を平均化するものであり、検出処理を行う前工程として平均化処理を2回以上行うことを特徴とする。
画像または動画像データのデータ変化を学習しかつ判定するニューラルネットワークと、
平均フィルタと、を備え、
前記平均フィルタは、同時刻のフレームの所属動作確率を平均化するものであり、検出処理を行う前工程として平均化処理を2回以上行うことを特徴とする。
本発明に係る対象物の検出方法は、前記第1から7のいずれかに記載の検出装置を使用する対象物の検出方法であって、対象物の3次元骨格データに対して、該3次元骨格データに前記時空間上、前記時間上、前記空間上の畳み込み処理を行うニューラルネットワークを単独もしくは二つ以上を組み合わせることを特徴とする。
本発明に係る検出装置および検出方法により3次元骨格データからロバストで高精度に対象物の動作を検出し判定できるようになる。
本発明を実施するための形態について、図および表などを参照しながら以下に説明する。
まず、本発明に係る検出装置の構成、またはアルゴリズムを詳述する。なお、当該アルゴリズムは、プログラム言語を用いて構築され、CPU、メモリ、外部記憶機器、表示機器および入出力機器が電気的に接続されてなり動作する計算機ハードウェアを、適宜、稼働させて実行される。また、本発明に係る検出装置は、教師あり機械学習手法に大別され、学習段階の構成と未知な動作時系列データからの動作の検出推定段階の構成からなる。以下に学習時(以下、訓練時ということがある。図2を参照)と未知な動作時系列データからの動作の検出推定時(以下、テスト時ということがある。図4を参照)を示す。学習時の処理は以下のような流れである(図1を参照)。
まず、本発明に係る検出装置の構成、またはアルゴリズムを詳述する。なお、当該アルゴリズムは、プログラム言語を用いて構築され、CPU、メモリ、外部記憶機器、表示機器および入出力機器が電気的に接続されてなり動作する計算機ハードウェアを、適宜、稼働させて実行される。また、本発明に係る検出装置は、教師あり機械学習手法に大別され、学習段階の構成と未知な動作時系列データからの動作の検出推定段階の構成からなる。以下に学習時(以下、訓練時ということがある。図2を参照)と未知な動作時系列データからの動作の検出推定時(以下、テスト時ということがある。図4を参照)を示す。学習時の処理は以下のような流れである(図1を参照)。
未知な動作時系列データからの動作の検出推定時のモデルの学習の流れを図1に示す。Fフレームから成るスケルトンデータ群を用いてモデルに入力することでモデルのパラメータを決定する。処理L2では入力されたスケルトンデータ群を用いてSpatial Stream、Temporal Streamの二つのモデルのパラメータを決定する。処理L3では学習済みのSpatial StreamとTemporal Streamにスケルトンデータ群を入力し、処理L4でSpatial StreamとTemporal Streamの中間層(両モデルの最初のMax-Pooling層)から出力されるデータを連結する。処理L5では連結されたデータをSpatio-Temporal Streamに入力することでSpatio-Temporal Streamのパラメータを決定する。
本発明係る「スケルトンデータ群を用いてパラメータを決定するモデル」のブロック図を図2に示す。
当該モデルは三つ検出器からなり、空間軸検出器(Spatial Stream)、時間軸検出器(Temporal Stream)、時空間軸検出器(Spatial Temporal Stream)は独立に学習を行う。各検出器では、スケルトンデータとスケルトンデータのフレーム間差分を取ったデータに対して全結合層(Spatial Transform, Temporal Transform)を用いて空間面及び時間面に対して画像化する。画像データに対して畳み込み層を用いて特徴抽出を行う。抽出された特徴に対し、フレーム単位の全結合回路Frame wise FCを適用することで入力データの各フレームの所属動作確率を推定可能なモデルを構築する。
未知な動作時系列データからの対象物の動作検出推定時の流れ(図3)は以下の通りである。
処理T1では動作が未知なスケルトンデータストリーム(図10入力データ)を入力する。処理T2ではスケルトンデータストリームをFフレーム幅でF-1フレームオーバーラップさせながらモデルへの入力するデータを作成する。処理T3ではFフレームのデータをモデルへ順次入力し、各フレームの所属動作確率を推定する。処理T4ではオーバーラップしているフレームの所属動作確率の和を取り、新たな所属動作確率を計算する。処理T5では新たな所属動作確率に対し時間方向に平均フィルタを複数回適用し、最終的な各フレームの所属動作確率を計算する。処理T6では平均フィルタを適用した所属動作確率に基づいて各フレームの所属動作を推定する。
処理T2から訓練済みのネットワークを扱い処理T3までの出力部分を詳述したのが図4である。対象物の動作検出推定時には、数1により三つのStreamの出力統合処理を行う。
三つのStreamの出力統合処理は以下の式で行う。
<入力データ>
入力データにはS箇所(実装例ではS=25箇所)の関節の位置データ(スケルトンデータ)を入力とする。関節の位置データは三次元のデカルト座標系(3次元の(x, y, z)の座標値)で表現され、入力フレーム数はFフレーム(実装例ではF=16フレーム)とする。従って、入力データはF×S×3となる。実装例では、16(フレーム)×25(箇所)×3(x, y, z座標)=1200(次元)を入力とする。
入力データにはS箇所(実装例ではS=25箇所)の関節の位置データ(スケルトンデータ)を入力とする。関節の位置データは三次元のデカルト座標系(3次元の(x, y, z)の座標値)で表現され、入力フレーム数はFフレーム(実装例ではF=16フレーム)とする。従って、入力データはF×S×3となる。実装例では、16(フレーム)×25(箇所)×3(x, y, z座標)=1200(次元)を入力とする。
<フレーム間差分>
入力データは、学習時も未知な動作時系列データからの動作検出推定時も、図2および4に示すように、フレーム間の差分計算をまず行う。これは、S個の関節(スケルトン)がどの程度、フレーム間で移動したかを計算するためである。F個のフレームの隣り合うフレームの差分をとると、F-1フレームになるが、最後のフレームはゼロ埋め(zero padding)を行い、差分をとったフレーム数もFフレームとする。
入力データは、学習時も未知な動作時系列データからの動作検出推定時も、図2および4に示すように、フレーム間の差分計算をまず行う。これは、S個の関節(スケルトン)がどの程度、フレーム間で移動したかを計算するためである。F個のフレームの隣り合うフレームの差分をとると、F-1フレームになるが、最後のフレームはゼロ埋め(zero padding)を行い、差分をとったフレーム数もFフレームとする。
図1および2にある「フレーム間差分」を具体化したのが、以下の図5のような回路(アルゴリズム)である。フレーム間差分は、隣り合うフレームにおいて各関節がどの程度移動したかを表現するために隣り合うフレーム同士の差分を計算する。フレーム間差分によりフレーム数はF-1フレームになるため最終フレームをゼロ埋めしFフレームにする。
<空間変換(Spatial Transform)>
Spatial Transformは、図2および4のSpatial Streamとある空間軸でのデータ処理部分の最初の処理に相当する部分である。スケルトンデータをそのまま畳み込む場合、隣り合う関節データには相関がない場合がある。そのためスケルトンデータを畳み込み処理の前に、全結合層により画像化変換し畳み込み処理を行う。図6に示すようにSpatial Transformでは各フレームのスケルトンデータを画像化する。まず、スケルトンデータをフレームごとに全結合層(256ユニット、バイアス無)に入力し、出力された256個のデータを16×16にReshapeすることで画像化データとする。また、フレーム間の変化を残すために各全結合層の重みは共有重みとしている。
Spatial Transformは、図2および4のSpatial Streamとある空間軸でのデータ処理部分の最初の処理に相当する部分である。スケルトンデータをそのまま畳み込む場合、隣り合う関節データには相関がない場合がある。そのためスケルトンデータを畳み込み処理の前に、全結合層により画像化変換し畳み込み処理を行う。図6に示すようにSpatial Transformでは各フレームのスケルトンデータを画像化する。まず、スケルトンデータをフレームごとに全結合層(256ユニット、バイアス無)に入力し、出力された256個のデータを16×16にReshapeすることで画像化データとする。また、フレーム間の変化を残すために各全結合層の重みは共有重みとしている。
<時間変換(Temporal Transform)>
Temporal Transformでは、図7のような回路で、関節(スケルトン)の位置データを画像化する(ここでは、それぞれ16x16のサイズの画像)。この処理により関節の変化の画像化を行う。全結合層の設定についてはSpatial Transformと同様である。スケルトンデータの各フレームの同関節ごとに全結合層(256ユニット、バイアス無)に入力し、出力された256個のデータを16×16にReshapeすることで画像化データとする。
Temporal Transformでは、図7のような回路で、関節(スケルトン)の位置データを画像化する(ここでは、それぞれ16x16のサイズの画像)。この処理により関節の変化の画像化を行う。全結合層の設定についてはSpatial Transformと同様である。スケルトンデータの各フレームの同関節ごとに全結合層(256ユニット、バイアス無)に入力し、出力された256個のデータを16×16にReshapeすることで画像化データとする。
<畳み込み層>
図2および4で示したように、画像化したデータをそれぞれ3次元の畳み込み層に入力する。畳み込みは、以下のような3層を準備する。なお、実装で用いた入出力次元を付与する。
図2および4で示したように、画像化したデータをそれぞれ3次元の畳み込み層に入力する。畳み込みは、以下のような3層を準備する。なお、実装で用いた入出力次元を付与する。
なお、この層のSpatialとTemporalの出力を連結させて、以降、Spatio-temporal(時空間軸)の畳み込みを構築する。Temporalの25はスケルトンの箇所(S)に対応する。
なお、各畳み込み層の後には、Max Poolingを置き、最大値で平滑化する。Max PoolingについてはTemporal Streamの1番目のMax Poolingのプーリング領域のサイズは2×3×2、それ以外のMax Poolingは2×2×2とした。ニューラルネットの出力調整に必要な活性化関数には、全ての畳み込み層においてReLU (Rectified Linear Unit:インプットXがマイナスの間、不活性[出力Y=ゼロ]、Xが正のとき、Y=Xの値をとる関数)を用いる。また、畳み込み層後に過学習を回避するため、全結合のうちランダムに50%は無視する回路であるDropout回路をおき、閾値を50%に設定する。
<フレーム単位の全結合回路(Frame wise FC)>
図2および4に示すように、畳み込み層の出力を全結合層(FC-1024(1024ユニット)、活性化関数:ReLU)の入力とする。さらに図8に示すように、得られる1024個のデータを入力フレーム数分(図では16個)に分割し、その分割データを全結合層2層FC-256(256ユニット、活性化関数:ReLU)およびFC-11(11ユニット、活性化関数:Softmax)に入力することで各フレームの人物動作の識別を行う。最終出力はFC-N (P-numbered unit of Fully Connected)でN個の出力を準備する。実装ではN=11としている。
図2および4に示すように、畳み込み層の出力を全結合層(FC-1024(1024ユニット)、活性化関数:ReLU)の入力とする。さらに図8に示すように、得られる1024個のデータを入力フレーム数分(図では16個)に分割し、その分割データを全結合層2層FC-256(256ユニット、活性化関数:ReLU)およびFC-11(11ユニット、活性化関数:Softmax)に入力することで各フレームの人物動作の識別を行う。最終出力はFC-N (P-numbered unit of Fully Connected)でN個の出力を準備する。実装ではN=11としている。
<フレームオーバーラップ処理:処理T2およびT4の詳細>
処理T2およびT4は以下の図10のように行う。処理T2ではスケルトンデータストリーム(図10入力データ)をFフレーム幅でF-1フレームオーバーラップさせながらモデルへの入力するデータ(X1, X2, …)を作成する。処理T3でFフレームのデータをモデルへ順次入力し、各フレームの所属動作確率(Y1, Y2, …)が推定される。処理T4ではオーバーラップしている同じ時刻のフレームの所属動作確率((Y1,2, Y2,1), (Y1,3, Y2,3, Y3,1), …)の和を取り、各フレームの所属動作確率を計算する。
処理T2およびT4は以下の図10のように行う。処理T2ではスケルトンデータストリーム(図10入力データ)をFフレーム幅でF-1フレームオーバーラップさせながらモデルへの入力するデータ(X1, X2, …)を作成する。処理T3でFフレームのデータをモデルへ順次入力し、各フレームの所属動作確率(Y1, Y2, …)が推定される。処理T4ではオーバーラップしている同じ時刻のフレームの所属動作確率((Y1,2, Y2,1), (Y1,3, Y2,3, Y3,1), …)の和を取り、各フレームの所属動作確率を計算する。
<同時刻の確率の和:処理T4の詳細>
処理T4の出力は以下の式で表現される。F=16(フレーム)で実装している。処理T4ではオーバーラップしている同じ時刻のフレームの所属動作確率((Y1,2, Y2,1), (Y1,3,Y2,3,Y3,1), …)の和を取り、各フレームの所属動作確率(p1, p2, …)=(Y1,2+Y2,1, Y1,3+Y2,3+Y3,1, …)を計算する。
処理T4の出力は以下の式で表現される。F=16(フレーム)で実装している。処理T4ではオーバーラップしている同じ時刻のフレームの所属動作確率((Y1,2, Y2,1), (Y1,3,Y2,3,Y3,1), …)の和を取り、各フレームの所属動作確率(p1, p2, …)=(Y1,2+Y2,1, Y1,3+Y2,3+Y3,1, …)を計算する。
<平均フィルタ:処理T5の詳細>
処理T5は以下のように行う。平均フィルタは局所的な誤検出を抑制するために導入する。補正を行うフレームとその周囲のフレーム(周囲(s-1)/2フレーム(s:フィルタサイズ))(実施例ではs=3)の所属動作確率の平均値を計算する。この平均値を第1フレームから最終フレームまで計算する。この処理を複数回(実施例では30回)適用することで各フレームの所属動作確率の補正を行う。
処理T5は以下のように行う。平均フィルタは局所的な誤検出を抑制するために導入する。補正を行うフレームとその周囲のフレーム(周囲(s-1)/2フレーム(s:フィルタサイズ))(実施例ではs=3)の所属動作確率の平均値を計算する。この平均値を第1フレームから最終フレームまで計算する。この処理を複数回(実施例では30回)適用することで各フレームの所属動作確率の補正を行う。
<実施例のデータセット>
実施例として、Online Action Detection Dataset(http://www.icst.pku.edu.cn/struct/Projects/oad.htmlを参照)を用いる。これは、人物動作に関するデータセットであり、1920×1080のRGB画像、514×424のDepth画像、25箇所のスケルトンデータから成るデータセットである。本発明に係る実施例ではスケルトンデータのみを用いる。学習データには30本、未知な動作時系列データからの動作検出推定には20本の時系列データを用いる。クラス数は10クラスである。本実施例では、10クラスに無動作を加えた11クラスの分類問題とする。
実施例として、Online Action Detection Dataset(http://www.icst.pku.edu.cn/struct/Projects/oad.htmlを参照)を用いる。これは、人物動作に関するデータセットであり、1920×1080のRGB画像、514×424のDepth画像、25箇所のスケルトンデータから成るデータセットである。本発明に係る実施例ではスケルトンデータのみを用いる。学習データには30本、未知な動作時系列データからの動作検出推定には20本の時系列データを用いる。クラス数は10クラスである。本実施例では、10クラスに無動作を加えた11クラスの分類問題とする。
<三つのニューラルネットワークの設定>
図1および2、さらに図9に示すニューラルネットワークの構成図において、学習時には、Spatial Stream、Temporal Stream、Spatio-Temporal Streamの三つのニューラルネットワークそれぞれを個別に学習を行う。未知な動作時系列データからの動作の検出推定時には、それぞれのStreamの出力値の和を最終的な予測値とする。
図1および2、さらに図9に示すニューラルネットワークの構成図において、学習時には、Spatial Stream、Temporal Stream、Spatio-Temporal Streamの三つのニューラルネットワークそれぞれを個別に学習を行う。未知な動作時系列データからの動作の検出推定時には、それぞれのStreamの出力値の和を最終的な予測値とする。
学習時の損失関数には、数9のクロスエントロピーを用いる。また、最適化手法にはAdadeltaを用いる。
<評価>
F1スコアで評価を行う。評価を行う際は動作区間がIntersection over Union (IoU)60%以上かつ予測クラスが正解のものをTrue、それ以外の予測をFalseとした。
F1スコアで評価を行う。評価を行う際は動作区間がIntersection over Union (IoU)60%以上かつ予測クラスが正解のものをTrue、それ以外の予測をFalseとした。
<実験結果>
本発明に係る提案手法に対し、平均フィルタを適用した時の精度の推移を図11に示す。図11よりフィルタサイズ3、適用回数30回のときが最も良い精度が得られているのが分かる。
本発明に係る提案手法に対し、平均フィルタを適用した時の精度の推移を図11に示す。図11よりフィルタサイズ3、適用回数30回のときが最も良い精度が得られているのが分かる。
また表1に、スケルトンデータをRNNに入力し動作の開始時刻および終了時刻の回帰を行うネットワークを用いる先行技術[4](非特許文献5)、スケルトンデータを時間方向に1次微分さらに2次微分した特徴量とDepth画像とRGB画像のCNN特徴量および動作の出現位置を用いてRandom Forestを学習する先行技術[5](Baek et al., “Real-time Online Action Detection Forests using Spatio-temporal Contexts,” in Proc. WACV, 2017.)、Random Forestに時間変化情報を与え、スケルトンデータの遷移を学習させ、フレーム単位でクラス分類する先行技術[6](Hernando et al., “Transition Forests: Learning Discriminative Temporal Transitions for Action Recognition and Detection,” in Proc. CVPR, 2017.)との比較結果を示す。
表1より、平均フィルタ無の場合には、本発明に係る提案手法は、ほとんどのクラスで従来技術を下回っているが、平均フィルタを適用することで(表1中、平均フィルタ有)、ほとんどのクラスにおいて従来技術を上回っていることが分かる。
Claims (8)
- 画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データならびに3次元距離データの時空間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって時空間上の畳み込み処理を行うことを特徴とする検出装置。 - 画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データの時間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって時間上の畳み込み処理を行うことを特徴とする検出装置。 - 画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データの空間上のデータ変化を学習しかつ判定するニューラルネットワークを備え、
当該ニューラルネットワークによって空間上の畳み込み処理を行うことを特徴とする検出装置。 - 画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データの時間上のデータ変化を学習しかつ判定するニューラルネットワークと、
骨格データを画像に変換する画像化変換手段と、を備え、
前記画像化変換手段は、当該ニューラルネットワークによって時間上の畳み込み処理の前工程として、前記骨格データに含まれる関節の位置データについて画像化を行い、骨格のすべての関節データに関する相関を求めることを特徴とする請求項2に記載の検出装置。 - 画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データの空間上のデータ変化を学習しかつ判定するニューラルネットワークと、
骨格データを画像に変換する画像化変換手段と、を備え、
前記画像化変換手段は、当該ニューラルネットワークによって空間上の畳み込み処理の前工程として、前記骨格データに含まれる関節の位置データについて画像化を行い、骨格のすべての関節データに関する相関を求めることを特徴とする請求項3に記載の検出装置。 - 画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データのデータ変化を学習しかつ判定するニューラルネットワークと、
該ニューラルネットワークの出力を分割する分割手段と、を備え、
前記分割手段は、当該ニューラルネットワークによって畳み込み処理の後工程として当該画像または動画像のフレーム数分だけ当該ニューラルネットワークの出力を分割することを特徴とする請求項1から5に記載の検出装置。 - 画像または動画像データならびに3次元距離データにおいて、骨格データを用いて対象物の検出を行う検出装置であって、
画像または動画像データのデータ変化を学習しかつ判定するニューラルネットワークと、
平均フィルタと、を備え、
前記平均フィルタは、同時刻のフレームの所属動作確率を平均化するものであり、検出処理を行う前工程として平均化処理を2回以上行うことを特徴とする請求項1から6に記載の検出装置。 - 請求項1から7のいずれかに記載の検出装置を使用する対象物の検出方法であって、対象物の3次元骨格データに対して、該3次元骨格データに前記時空間上、前記時間上、前記空間上の畳み込み処理を行うニューラルネットワークを単独もしくは二つ以上を組み合わせることを特徴とする対象物の検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017197694A JP2019071008A (ja) | 2017-10-11 | 2017-10-11 | 検出装置および検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017197694A JP2019071008A (ja) | 2017-10-11 | 2017-10-11 | 検出装置および検出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019071008A true JP2019071008A (ja) | 2019-05-09 |
Family
ID=66441909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017197694A Pending JP2019071008A (ja) | 2017-10-11 | 2017-10-11 | 検出装置および検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019071008A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110336991A (zh) * | 2019-06-28 | 2019-10-15 | 深圳数位传媒科技有限公司 | 一种基于双目相机的环境提示方法及装置 |
WO2023181410A1 (ja) * | 2022-03-25 | 2023-09-28 | 三菱電機株式会社 | 作業推定装置、作業推定方法、及び作業推定プログラム |
-
2017
- 2017-10-11 JP JP2017197694A patent/JP2019071008A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110336991A (zh) * | 2019-06-28 | 2019-10-15 | 深圳数位传媒科技有限公司 | 一种基于双目相机的环境提示方法及装置 |
CN110336991B (zh) * | 2019-06-28 | 2021-07-13 | 深圳数位传媒科技有限公司 | 一种基于双目相机的环境提示方法及装置 |
WO2023181410A1 (ja) * | 2022-03-25 | 2023-09-28 | 三菱電機株式会社 | 作業推定装置、作業推定方法、及び作業推定プログラム |
JP7408035B1 (ja) | 2022-03-25 | 2024-01-04 | 三菱電機株式会社 | 作業推定装置、作業推定方法、及び作業推定プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11222239B2 (en) | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium | |
US11790682B2 (en) | Image analysis using neural networks for pose and action identification | |
Islam et al. | Multi-gat: A graphical attention-based hierarchical multimodal representation learning approach for human activity recognition | |
JP7392348B2 (ja) | カメラシステムを使用した、ユーザの身体部分によって実行されるタスクの完了の評価のための方法、プログラム、及びシステム | |
Chaudhary et al. | Deep network for human action recognition using Weber motion | |
CN108960192A (zh) | 动作识别方法及其神经网络生成方法、装置和电子设备 | |
CN108875482B (zh) | 物体检测方法和装置、神经网络训练方法和装置 | |
JP7149202B2 (ja) | 行動分析装置および行動分析方法 | |
Bultmann et al. | Real-time multi-view 3D human pose estimation using semantic feedback to smart edge sensors | |
JP2019071008A (ja) | 検出装置および検出方法 | |
Aftab et al. | A boosting framework for human posture recognition using spatio-temporal features along with radon transform | |
Chaudhary et al. | A vision-based method to find fingertips in a closed hand | |
Farzad et al. | Recognition and classification of human behavior in Intelligent surveillance systems using Hidden Markov Model | |
Nie et al. | A child caring robot for the dangerous behavior detection based on the object recognition and human action recognition | |
Yoo et al. | Deep Learning-Based Action Classification Using One-Shot Object Detection. | |
JP2022097461A (ja) | コンピュータにより実現されるプロセス監視方法、装置、システム、コンピュータプログラム、および記録媒体 | |
JP2022006708A (ja) | 動作認識システム、方法及びプログラム | |
JP2022006885A (ja) | 動作認識装置、動作認識方法及び動作認識プログラム | |
Jha et al. | Real Time Hand Gesture Recognition for Robotic Control | |
GB2603640A (en) | Action identification using neural networks | |
US20240078784A1 (en) | Method and system for processing image data | |
JP2022006919A (ja) | 動作認識システム、方法及びプログラム | |
Kherwa et al. | Articulated human pose estimation using greedy approach | |
Bao | Intelligent Motion Capture Technology of Dance Pose Analysis Using Target Deduction and Gaussian Mixture Model | |
Siow et al. | Graph Neural Network for Human Body Orientation Estimation by 2D Skeleton |