JP2019144830A - 複数の認識エンジンを用いて人物の行動を認識するプログラム、装置及び方法 - Google Patents

複数の認識エンジンを用いて人物の行動を認識するプログラム、装置及び方法 Download PDF

Info

Publication number
JP2019144830A
JP2019144830A JP2018028219A JP2018028219A JP2019144830A JP 2019144830 A JP2019144830 A JP 2019144830A JP 2018028219 A JP2018028219 A JP 2018028219A JP 2018028219 A JP2018028219 A JP 2018028219A JP 2019144830 A JP2019144830 A JP 2019144830A
Authority
JP
Japan
Prior art keywords
action
joint
recognition engine
video data
skeleton information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018028219A
Other languages
English (en)
Other versions
JP6904651B2 (ja
Inventor
建鋒 徐
Kenho Jo
建鋒 徐
和之 田坂
Kazuyuki Tasaka
和之 田坂
柳原 広昌
Hiromasa Yanagihara
広昌 柳原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2018028219A priority Critical patent/JP6904651B2/ja
Publication of JP2019144830A publication Critical patent/JP2019144830A/ja
Application granted granted Critical
Publication of JP6904651B2 publication Critical patent/JP6904651B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】映像データに対して、人物以外の映像領域の影響を受けることなく、複数の認識エンジンのスコアに基づく総合的な観点から、行動(コンテキスト)の認識精度を高めることができるプログラム、装置及び方法を提供する。【解決手段】人物が映り込む映像データから行動を認識するようにコンピュータを機能させる行動認識プログラムであって、映像データから、人物の関節に基づくスケルトン情報を時系列に抽出するスケルトン情報抽出手段と、映像データのスケルトン情報から、行動を認識する関節認識エンジンと、映像データから、スケルトン情報の囲み領域を抽出する領域切出し手段と、映像データの囲み領域から、行動を認識する動体認識エンジンと、行動毎に、関節認識エンジン及び動体認識エンジンそれぞれのスコアを統合した統合スコアを出力するスコア統合手段として機能させる。【選択図】図2

Description

本発明は、映像データから、人物の行動を認識する技術に関する。
近年、ディープラーニングを用いることによって、人物の行動認識における認識精度が飛躍的に向上してきている。
従来、移動特徴量(オプティカルフロー)から物体の動きを検出する動体認識の技術がある(例えば非特許文献1参照)。例えばTwo-stream ConvNetsによれば、空間方向のCNN(Spatial stream ConvNet)と時系列方向のCNN(Temporal stream ConvNet)とを用いて、画像中の物体や背景のアピアランス特徴と、オプティカルフローの水平方向成分及び垂直方向成分の系列における動き特徴とを抽出する。これら両方の特徴を統合することによって、行動を高精度に認識する。
また、64フレームのセグメントを処理単位として、3D−CNNによって行動を認識する技術もある(例えば非特許文献2参照)。この技術によれば、非特許文献1の技術に対して、時間軸情報を含む3D convolutionを適用し。深い深層モデルに大量の教師データを学習させている。
更に、映像データをN(=3)等分にセグメント化して、各セグメントのスコアを統合する技術もある(例えば非特許文献3参照)。この技術によれば、非特許文献1の技術に対して、長い時間軸情報を適用し、深い深層モデルに大量の教師データを学習させている。
一方で、一般的なWebカメラによって撮影された映像データから、人物の骨格の2次元関節データを推定する技術もある。この技術によれば、3次元関節までは推定できないが、例えばKinect(登録商標)のようなデプスセンサを必要としない。
図1は、認識装置を有するシステム構成図である。
図1のシステムによれば、認識装置1は、例えばインターネットに接続されたサーバとして機能している。認識装置1は、教師データによって予め学習モデルを構築した認識エンジンを有する。認識エンジンが、人物の行動を認識するものである場合、教師データは、人の行動が映り込む映像データと、その行動対象(コンテキスト)とが予め対応付けられたものである。
端末2はそれぞれ、カメラを搭載しており、人の行動を撮影した映像データを、認識装置1へ送信する。端末2は、各ユーザによって所持されるスマートフォンや携帯端末であって、携帯電話網又は無線LANのようなアクセスネットワークに接続する。
勿論、端末2は、スマートフォン等に限られず、例えば宅内に設置されたWebカメラであってもよい。また、Webカメラによって撮影された映像データがSDカードに記録され、その記録された映像データが認識装置1へ入力されるものであってもよい。
具体的には、例えばユーザに、自らのスマートフォンのカメラで、自らの行動を撮影してもらう。そのスマートフォンは、その映像データを、認識装置1へ送信する。認識装置1は、その映像データから人の行動を推定し、その推定結果を様々なアプリケーションで利用する。
尚、認識装置1の各機能が端末2に組み込まれたものであってもよい。
Karen Simonyan and Andrew Zisserman, "Two-Stream Convolutional Networks for Action Recognition in Videos," in NIPS 2014、[online]、[平成30年1月24日検索]、インターネット<URL:https://arxiv.org/abs/1406.2199.pdf> Joao Carreira, Andrew Zisserman. " Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset." CVPR2017(2017)、[online]、[平成30年1月24日検索]、インターネット<URL: https://arxiv.org/abs/1705.07750> Wang, Limin, et al. "Temporal segment networks: Towards good practices for deep action recognition." European Conference on Computer Vision. Springer International Publishing, 2016、[online]、[平成30年1月24日検索]、インターネット<URL:http://www.eccv2016.org/files/posters/P-3B-42.pdf> Cao, Zhe, et al. "Realtime multi-person 2d pose estimation using part affinity fields." CVPR2017(2017)、[online]、[平成30年1月24日検索]、インターネット<URL:https://arxiv.org/abs/1611.08050> Soo Kim, Tae & Reiter, Austin. "Interpretable 3D Human Action Analysis with Temporal Convolutional Networks." CVPRW 2017、[online]、[平成30年1月24日検索]、インターネット<URL:http://ieeexplore.ieee.org/document/8014941/?reload=true> Gunnar Farneback, "Two-Frame Motion Estimation Based on Polynomial Expansion, Image Analysis," Volume 2749 of the series Lecture Notes in Computer Science, pp 363-370, June 2003、[online]、[平成30年1月24日検索]、インターネット<http://liu.diva-portal.org/smash/record.jsf?pid=diva2%3A269471&dswid=-8845> OpenPose、[online]、[平成30年1月24日検索]、インターネット<URL:https://github.com/CMU-Perceptual-Computing-Lab/openpose> 「動画や写真からボーンが検出できる OpenPoseを試してみた」、[online]、[平成30年1月24日検索]、インターネット<URL:http://hackist.jp/?p=8285> 「OpenPoseがどんどんバージョンアップして3d pose estimationも試せるようになっている」、[online]、[平成30年1月24日検索]、インターネット<URL: http://izm-11.hatenablog.com/entry/2017/08/01/140945>
人物の行動を認識する認識エンジンは、人物が映り込む映像データを教師データとして学習し、推定すべき映像データから、高精度に行動を推定するように調整されている。
しかしながら、実際の環境下では、人物以外の映像領域の影響によって、コンテキストの認識精度が低下する場合がある。
また、認識エンジンの認識精度は、高い方から順に、関節認識->動体認識->物体認識となるのが一般的である。
しかしながら、撮影角度や照度、オクルージョン、解像度などの影響から、必ずしも関節認識の精度が高いとは限らない。即ち、最適に学習された認識エンジンを用いたとしても、撮影環境によっては、異なる種別の認識エンジンを用いた方が、認識精度が高まる場合もある。
更に、認識エンジンは、クラス分類に基づくものであって、推定すべき映像データに「行動」(クラス)を付与する機械学習エンジンである。
しかしながら、認識エンジンからのスコアが高ければ、認識精度が必ずしも高いというわけではない。
似て非なる物体の動きを検出した場合、認識精度が高いがために、スコアが比較的中程度となる一方で、認識精度が低いがために、スコアが極端に高くなる場合もある。
例えば、同一の行動を認識したとしても、認識精度が比較的高い動体認識エンジンでは、比較的中程度のスコアを算出したとしても、認識精度が比較的低い物体認識エンジンでは、比較的高いスコアを出力する場合がある。
そのように考えると、個別の認識エンジンによって算出されたスコアをそのまま、その行動の認識精度と考えることはできない。
そこで、本発明は、映像データに対して、人物以外の映像領域の影響を受けることなく、複数の認識エンジンのスコアに基づく総合的な観点から、行動(コンテキスト)の認識精度を高めることができるプログラム、装置及び方法を提供することを目的とする。
本発明によれば、人物が映り込む映像データから行動を認識するようにコンピュータを機能させる行動認識プログラムであって、
映像データから、人物の関節に基づくスケルトン情報を時系列に抽出するスケルトン情報抽出手段と、
映像データのスケルトン情報から、行動を認識する関節認識エンジンと、
映像データから、スケルトン情報の囲み領域を抽出する領域切出し手段と、
映像データの囲み領域から、行動を認識する動体認識エンジンと、
行動毎に、関節認識エンジン及び動体認識エンジンそれぞれのスコアを統合した統合スコアを出力するスコア統合手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、人物が映り込む映像データから行動を認識するようにコンピュータを機能させる行動認識プログラムであって、
映像データから、人物の関節に基づくスケルトン情報を時系列に抽出するスケルトン情報抽出手段と、
映像データのスケルトン情報から、行動を認識する関節認識エンジンと、
関節認識エンジンによって算出された行動のスコアが、所定条件を満たすか否かを判定する関節行動判定手段と、
関節行動判定手段によって真と判定された際に、映像データから、スケルトン情報の囲み領域を抽出する領域切出し手段と、
映像データの囲み領域から、行動を認識する動体認識エンジンと、
行動毎に、関節認識エンジン及び動体認識エンジンそれぞれのスコアを統合した統合スコアを出力するスコア統合手段と
してコンピュータを機能させることを特徴とする。
本発明の行動認識プログラムにおける他の実施形態によれば、
関節行動判定手段は、所定条件として、複数の行動における最大値又は平均値のスコアが、所定閾値以下か否かを判定する
ようにコンピュータを機能させることも好ましい。
本発明の行動認識プログラムにおける他の実施形態によれば、
関節行動判定手段は、所定条件として、最大値のスコアとなる行動が、所定目的行動であるか否かを判定する
ようにコンピュータを機能させることも好ましい。
本発明の行動認識プログラムにおける他の実施形態によれば、
関節認識エンジンは、所定条件を満たす重要関節部位を更に出力するものであり、
領域切出し手段は、関節認識エンジンから出力された重要関節部位を含む囲み領域を抽出する
ようにコンピュータを機能させることも好ましい。
本発明の行動認識プログラムにおける他の実施形態によれば、
スコア統合手段は、認識エンジンそれぞれのスコアに、当該認識エンジンに対応する重みを付けて統合する
ようにコンピュータを機能させることも好ましい。
本発明の行動認識プログラムにおける他の実施形態によれば、
異なる行動に基づく複数の訓練データを入力し、認識エンジン毎に、スコアの統計値を算出し、スコアの統計値が低いほど、大きな値の「重み」を付与する重み算出手段と
してコンピュータを機能させることも好ましい。
本発明の行動認識プログラムにおける他の実施形態によれば、
重み算出手段は、スコアの統計値の逆数値(全ての認識エンジンの逆数値の和が1となる)を、「重み」とする
ようにコンピュータを機能させることも好ましい。
本発明の行動認識プログラムにおける他の実施形態によれば、
異なる行動に基づく複数の訓練データを入力し、認識エンジン毎に、スコアの統計値の逆数値(全ての認識エンジンの逆数値の和が1となる)を、重みとする重み算出手段と
してコンピュータを機能させることも好ましい。
本発明の行動認識プログラムにおける他の実施形態によれば、
動体認識エンジンは、オプティカルフローに基づくものである
ようにコンピュータを機能させることも好ましい。
本発明の行動認識プログラムにおける他の実施形態によれば、
動体認識エンジンは、RGB画像に基づく物体認識エンジンと、オプティカルフローに基づく動体認識エンジンとからなり、
スコア統合手段は、行動毎に、関節認識エンジン、動体認識エンジン及び物体認識エンジンそれぞれのスコアを統合する
ようにコンピュータを機能させることも好ましい。
本発明の行動認識プログラムにおける他の実施形態によれば、
スケルトン情報を、時系列の座標系に対してシフト・伸縮させることによって正規化するスケルトン情報正規化手段を更に有し、
領域切出し手段は、正規化されたスケルトン情報を囲む最小領域を、囲み領域として抽出する
ようにコンピュータを機能させることも好ましい。
本発明によれば、人物が映り込む映像データから行動を認識する装置であって、
映像データから、人物の関節に基づくスケルトン情報を時系列に抽出するスケルトン情報抽出手段と、
映像データのスケルトン情報から、行動を認識する関節認識エンジンと、
映像データから、スケルトン情報の囲み領域を抽出する領域切出し手段と、
映像データの囲み領域から、行動を認識する動体認識エンジンと、
行動毎に、関節認識エンジン及び動体認識エンジンそれぞれのスコアを統合した統合スコアを出力するスコア統合手段と
を有することを特徴とする。
本発明によれば、人物が映り込む映像データから行動を認識する装置であって、
映像データから、人物の関節に基づくスケルトン情報を時系列に抽出するスケルトン情報抽出手段と、
映像データのスケルトン情報から、行動を認識する関節認識エンジンと、
関節認識エンジンによって認識された行動が、所定目的行動である場合、映像データから、スケルトン情報の囲み領域を抽出する領域切出し手段と、
映像データの囲み領域から、行動を認識する動体認識エンジンと、
行動毎に、関節認識エンジン及び動体認識エンジンそれぞれのスコアを統合した統合スコアを出力するスコア統合手段と
を有することを特徴とする。
本発明によれば、人物が映り込む映像データから行動を認識する装置の認識方法であって、
装置は、
映像データから、人物の関節に基づくスケルトン情報を時系列に抽出する第1のステップと、
映像データのスケルトン情報から、行動を関節認識する第2のステップと、
映像データから、スケルトン情報の囲み領域を抽出する第3のステップと、
映像データの囲み領域から、行動を動体認識する第4のステップと、
行動毎に、関節認識及び動体認識それぞれのスコアを統合した統合スコアを出力する第5のステップと
を実行することを特徴とする。
本発明によれば、人物が映り込む映像データから行動を認識する装置の認識方法であって、
装置は、
映像データから、人物の関節に基づくスケルトン情報を時系列に抽出する第1のステップと、
映像データのスケルトン情報から、行動を関節認識する第2のステップと、
関節認識エンジンによって認識された行動が、所定目的行動である場合、映像データから、スケルトン情報の囲み領域を抽出する第3のステップと、
映像データの囲み領域から、行動を動体認識する第4のステップと、
行動毎に、関節認識エンジン及び動体認識エンジンそれぞれのスコアを統合した統合スコアを出力する第5のステップと
を実行することを特徴とする。
本発明のプログラム、装置及び方法によれば、映像データに対して、人物以外の映像領域の影響を受けることなく、複数の認識エンジンのスコアに基づく総合的な観点から、行動(コンテキスト)の認識精度を高めることができる。
認識装置を有するシステム構成図である。 本発明における認識装置の第1の機能構成図である。 スケルトン情報と囲み領域とを表す第1のイメージ図である。 囲み領域を表す第2のイメージ図である。 複数の動体認識エンジンによって構成した、図2に基づく第1の機能構成図である。 本発明における認識装置の第2の機能構成図である。 複数の動体認識エンジンによって構成した、図6に基づく第2の機能構成図である。 囲み領域を表す第3のイメージ図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図2は、本発明における認識装置の第1の機能構成図である。
認識装置1は、複数の認識エンジンを用いて、人物が映り込む映像データから、人物の行動(コンテキスト)を推定する。
図2によれば、認識装置1は、スケルトン情報抽出部11と、関節認識エンジン12と、領域切出し部131と、動体認識エンジン132と、スコア統合部14と、重み算出部15とを有する。また、オプション的に、スケルトン情報正規化部111も有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、映像データに対する行動(コンテキスト)の認識方法としても理解できる。
[スケルトン情報抽出部11]
スケルトン情報抽出部11は、映像データから、人物の関節に基づく「スケルトン情報」を時系列に抽出する(例えば非特許文献4参照)。スケルトン情報とは、関節毎に信頼度(0〜1)が付与された2次元骨格の関節データをいう。関節データは、2次元に基づくものであるために、一般的なWebカメラで撮影した映像データから抽出される。
具体的にはOpenPose(登録商標)のようなスケルトンモデルを用いて、人の関節の特徴点を抽出する(例えば非特許文献7〜9参照)。OpenPoseとは、画像から複数の人間の体/手/顔のキーポイントをリアルタイムに検出可能なソフトウェアであって、GitHubによって公開されている。撮影映像に映る人の身体全体であれば、例えば15点のキーポイントを検出できる。
図3は、スケルトン情報と囲み領域とを表す第1のイメージ図である。
図3によれば、映像データに1人の人物が映り込んでいる。各関節(Nose, Neck, RShoulder, RElbow,・・・)に対して、信頼度(0〜9)が算出される。スケルトン情報とは、18個の各関節の2次元座標点とその信頼度とを、各フレームで結び付けた情報をいう。
導出されたスケルトン情報は、関節認識エンジン12及び領域切出し部131へ出力される。
尚、スケルトン情報は、オプション的に、スケルトン情報正規化部111を介して、関節認識エンジン12及び領域切出し部131へ出力するものであってもよい。
[スケルトン情報正規化部111](オプション)
スケルトン情報正規化部111は、スケルトン情報を、時系列の座標系に対してシフト・伸縮させることによって正規化する。
正規化したスケルトン情報は、関節認識エンジン12及び領域切出し部131へ出力される。
(S1)基準フレームに基づいて、原点座標と伸縮スケールとを算出する。
基準フレームとは、映像データに映り込む人物から同時に検出された「Neck」「LHip」「RHip」について、信頼度が一定以上になった最初のフレームをいう。
原点座標は、基準フレームにおける人物iのNeck関節の座標pi(Neck)をいう。
伸縮スケールscaleiは、NeckとLHipとの間の距離と、NeckとRHipとの間の距離との平均値を100にしたものであって、以下のように算出される。
scalei=200/(||pi(Neck)−pi(LHip)||+||pi(Neck)−pi(RHip)||)
scalei:人物iのスケール
i():人物iの2次元座標
(S2)伸縮スケールscaleiを用いて、各フレームにおいて検出した人物毎にスケルトンを、以下のようにシフト・伸縮させる。
npi t(j)=scalei*(pi t(j)−pi(Neck))
t:フレーム番号
j:関節番号
i t(j):第tフレームで人物iの関節jの座標
npi t(j):第tフレームで人物iの関節jの正規化座標
尚、前述の実施形態によれば、基準フレームの抽出について、相対的な位置関係が変わり難い関節である「Neck」「LHip」「RHip」を用いているが、それらに代えて、「Neck」「LShoulder」「RShoulder」を用いるものであってもよい。
[関節認識エンジン12]
関節認識エンジン12は、映像データのスケルトン情報(正規化されたスケルトン情報)に「行動」を対応付けた教師データに基づいて、深層学習の学習モデルを予め構築したものである。
そして、関節認識エンジン12は、学習モデルを用いて、映像データのスケルトン情報(正規化されたスケルトン情報)から、「行動」を認識する(例えば非特許文献5参照)。関節認識エンジン12は、クラス分類に基づくものであって、クラス(推定可能な行動(コンテキスト))毎に、スコアを算出する。
関節認識エンジン12は、例えば「飲む」「食べる」「走る」「畳む」のような人物の行動を、人物の関節の角度や位置から認識する。
そして、行動毎のスコアが、スコア統合部14へ出力される。
[領域切出し部131]
領域切出し部131は、映像データから、スケルトン情報の「囲み領域」を抽出する。囲み領域は、スケルトン情報(正規化されたスケルトン情報)を囲む最小領域をいう。このように、人物が映り込む囲み領域のみを、後段の動体認識エンジン132へ入力することによって、認識処理を高速化すると共に、行動認識の精度を高めることができる。
前述した図3によれば、最初に、全ての関節の座標点(18個)を含むように最小の矩形となる「関節のバウンディングボックス」を算出する(短破線)。そして、関節のバウンディングボックスから、所定比率で拡大した拡大ボックスを「囲み領域」として導出する(長破線)。
図4は、囲み領域を表す第2のイメージ図である。
図4によれば、映像データに2人の人物が映り込んでいる。
最初に、全ての関節の座標点を含むように最小の矩形となる「関節のバウンディングボックス」を算出する。次に、関節を結ぶフレームの接続構成から、人物毎に、関節データを区分する。
そして、人物毎に、関節のバウンディングボックスから、所定比率で拡大した拡大ボックスを「囲み領域」として導出する。
また、図4について、画像領域の範囲内で、2人の人物の囲み領域を包含するような1つの領域を、「囲み領域」として再導出してもよい。
[動体認識エンジン132]
動体認識エンジン132も、映像データに「行動」を対応付けた教師データに基づいて、深層学習の学習モデルを予め構築したものである。
そして、動体認識エンジン132は、学習モデルを用いて、映像データの囲み領域から、「行動」を認識する。動体認識エンジン132も、クラス分類に基づくものであって、クラス(推定可能な行動(コンテキスト))毎に、スコアを算出する。
そして、各動体認識エンジン132によって算出された行動毎のスコアは、スコア統合部14へ出力される。
図5は、複数の動体認識エンジンによって構成した、図2に基づく第1の機能構成図である。
動体認識エンジン132は、以下のように2つの認識エンジンによって構成されるものであってもよい。
(1)RGB画像に基づく物体認識エンジン
(2)オプティカルフローに基づく動体認識エンジン
勿論、動体認識エンジン132に含まれる認識エンジンは、2つに限られず、3つ以上の異なる種類の認識エンジンを組み合わせるものであってもよい。
尚、コンテキスト「行動」の種類としては、後段のスコア統合部14で統合するためにも、同一であることが好ましい。
(1)RGB認識に基づく物体認識エンジンは、具体的にはCNN(Convolutional Neural Network)のようなニューラルネットワークを用いて、撮影映像に映り込むオブジェクト(対象物)を推定する(例えば非特許文献2参照)。
(2)オプティカルフローに基づく動体認識エンジンは、フレーム間で同一の特徴点が動いている箇所を抽出し、映像データ内の物体の動きを「ベクトル」で表すものである(例えば非特許文献6参照)。
オプティカルフローに基づく動体認識エンジンは、映像データ(RGB画像)における2枚の隣接フレームを入力すると、同解像度の2枚のオプティカルフローを算出する。以下の式によって、RGB画像を輝度画像Yに変換する。
Y=0.299×R+0.587×G+0.114×B
Y:ピクセルの輝度値
R,G,B:ピクセルのR,G,B値
非特許文献6の技術によれば、第1フレームの小さい領域の中に、任意のピクセルのY成分が、以下の式のようにquadratic polynomial basisで表現できる。
1(x)=x1x+b1 x+c1
1(x):対象ピクセルのY成分
x:第1フレームにおけるY成分の対象ピクセルの位置座標
1,b1,c1:その領域で算出する係数
同様に、第2フレームの対応領域は、以下の式になる。
2(x)=f1(x−d)
=(x−d)1(x−d)+b1 (x−d)+c1
=x1x+(b1−2A1d)x+d1d−b1 d+c1
=x2x+b2 x+c2
d:対象ピクセルxのオプティカルフロー(位置座標の差分)
2,b2,c2:その領域で算出する係数
これによって、オプティカルフローdは、以下の式で算出される。
d=−1/2A1 -1(b2−b1)
[スコア統合部14]
スコア統合部14は、図2のように、「行動」毎に、関節認識エンジン131及び動体認識エンジン132それぞれのスコアの統計値を統合した「統合スコア」を出力する。
スコアの統計値とは、複数の行動におけるスコアの最大値又は平均値であってもよい。
また、図5のように、動体認識エンジンが、物体認識エンジン1321及び動体認識エンジン1322から構成される場合、スコア統合部14は、行動毎に、関節認識エンジン131、物体認識エンジン1321及び動体認識エンジン1322それぞれのスコアを統合する。
ここで、スコア統合部14は、認識エンジン13それぞれのスコアに、当該認識エンジンに対応する「重み」を付けて、行動actに対する統合スコアSAall(act)を算出する。
SARGB(act):物体認識エンジン(RGB画像)のスコア
SAflow(act):動体認識エンジン(オプティカルフロー画像)のスコア
SAskeleton(act):関節認識エンジン(スケルトン情報)のスコア
skeleton:関節認識エンジンのスコアに対する重み
RGB:物体認識エンジンのスコアに対する重み
flow:動体認識エンジンのスコアに対する重み
SAall(act)=wskeletonSAskeleton(act)+wRGBSARGB(act)+wflowSAflow(act)
そして、以下の式によって、映像データの行動を推定する。
bestact=arg maxact(SAall(act))
このように、認識エンジンに応じて異なる「重み」を付けることによって、「認識エンジンからのスコアが高ければ、認識精度が必ずしも高いというわけではない」とする不公平さを回避することができる。
[重み算出部15]
重み算出部15は、異なる行動に基づく複数の訓練データを入力し、認識エンジン毎に、スコアの統計値を算出し、スコアの統計値が低いほど、大きな値の「重み」を付与する。具体的には、、スコアの統計値(例えば平均値)の逆数値(全ての認識エンジンの逆数値の和が1となる)を、「重み」とするものであってもよい。「重み」は、例えば以下のように算出される。
MSAskeleton=max act(SAskeleton(act))
MSARGB=max act(SARGB(act))
MSAflo w=max act(SAflow(act))
skeleton=e-MSAskeleton/(e-MSAskeleton+e-MSARGB+e-MSAflow)
RGB=e-MSARGB/(e-MSAskeleton+e-MSARGB+e-MSAflow)
flow=e-MSAflow/(e-MSAskeleton+e-MSARGB+e-MSAflow)
max:最大値(統計値)
具体的に、関節認識エンジン131と動体認識エンジン132(RGB画像認識及びオプティカルフロー画像認識)とによって算出されたスコアを補完的に且つ公平的に組み合わせる。即ち、各認識エンジンのスコア間のスケールを正規化するために、各識別器のスコア(例えば平均値)の逆数を設定する。
結果として、全体的にスコアを高く算出する傾向のある認識エンジンと、全体的にスコアを低く出力する傾向のある認識エンジンとを組み合わせて、その傾向に応じた比率でスコアを統合することができる。
例えば、入力された映像データについて、オプティカルフロー認識エンジン1322の認識精度は、RGB認識エンジン1321の認識精度よりも高い。一方で、オプティカルフロー認識エンジン1322における行動の統計値のスコアは、RGB認識エンジン1321における行動の統計値のスコアよりも低い。その場合、オプティカルフロー認識エンジン1322のスコアに対する重みを高くし、RGB認識エンジン1321のスコアに対する重みを低くする。特に、低いスコアに対する「重み」を、非線形に高くすることが、有効である。
図6は、本発明における認識装置の第2の機能構成図である。
図6によれば、図2と比較して、スケルトン情報(正規化されたスケルトン情報)を、関節認識エンジン12のみへ入力し、関節認識エンジン12の行動毎のスコアに応じて、関節行動判定部16が実行されている。
[関節行動判定部16]
関節行動判定部16は、関節認識エンジン12によって算出された行動のスコアが、所定条件を満たすか否かを判定する。
これに対して、領域切出し部131は、関節行動判定部16によって真と判定された際に、映像データから、スケルトン情報の囲み領域を抽出する。
関節行動判定部16は、所定条件として、以下の2つの実施形態のいずれかを実行する。
(判定1)関節行動判定部16は、所定条件として、複数の行動における最大値又は平均値のスコアが、所定閾値以下か否かを判定する。これは、関節認識エンジン12のスコアが低い場合のみ、後段の動体認識エンジン132を機能させることを意味する。
(判定2)関節行動判定部16は、所定条件として、最大値のスコアとなる行動が、所定目的行動であるか否かを判定する。これは、関節認識エンジン12の行動が所定目的行動である場合にのみ、後段の動体認識エンジン132を機能させることを意味する。
所定目的行動は、例えば「読んでいる」「書いている」「タイピングをしている」のように、関節認識エンジン12によって認識可能なものである。
関節行動判定部16は、判定1又は判定2によって真と判定した場合、映像データを、領域切出し部131へ出力する。一方で、偽と判定した場合、関節認識エンジン12の行動毎のスコアをスコア統合部14へ出力する。
領域切出し部131は、関節行動判定部16によって真と判定された場合にのみ、映像データから、スケルトン情報の囲み領域を抽出する。
図7は、複数の動体認識エンジンによって構成した、図6に基づく第2の機能構成図である。
図5と同様に、動体認識エンジン132は、RGB画像に基づく物体認識エンジン1321と、オプティカルフローに基づく動体認識エンジン1322とによって構成されている。この場合、領域切出し部131は、両方の認識エンジン132へ、映像データの囲み領域を入力する。
図8は、囲み領域を表す第3のイメージ図である。
図8によれば、関節認識エンジン12は、所定条件を満たす重要関節部位を出力するものである。関節認識エンジン12を最初に機能させることよって、どのような行動であるか、を大まかに認識することができる
重要関節部位としては、「手」「頭部」「上半身」「下半身」「全身」に分類する(図8(a)参照)。ここで、分類された関節部位の中で、単位時間における変位量及び/又は変位回数が大きいほど、重要関節部位であると判定される。
これに対し、領域切出し部131は、関節認識エンジン12から出力された重要関節部位を含む囲み領域を抽出する。
重要関節部位「手」である場合、図8(b)のように、スケルトン情報における関節「手」「肘」を含む最小の矩形となるバウンディングボックス(短破線)を抽出する。そして、そのバウンディングボックスから、所定比率で拡大した拡大ボックス(長破線)を「囲み領域」として導出する。
また、重要関節部位「手」について、手を円心にして、一定の半径の円を作り、その縁に基づくバウンディングボックスを算出するものであってもよい。
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、映像データに対して、人物以外の領域の影響を受けることなく、複数の認識エンジンに基づく総合的な観点から、行動(コンテキスト)の認識精度を高めることができる。
特に、本発明によれば、推定すべき映像データの人物領域についてのみ行動を認識するので、コンテキストの認識精度が高まる。
また、異なる種別の複数の認識エンジンを用いることによって、様々な撮影環境の中でも、特定の認識エンジンの推定結果に依存することなく、認識精度を高めることができる。
更に、異なる種別の認識エンジンにおけるスコアと認識精度との違いは、認識エンジン毎に、スコアの統計値に応じた「重み」を付与することによって、解消することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 認識装置
11 スケルトン情報抽出部
111 スケルトン情報正規化部
12 関節認識エンジン
131 領域切出し部
132 動体認識エンジン
1321 RGB認識エンジン
1322 オプティカルフロー認識エンジン
14 スコア統合部
15 重み算出部
16 関節行動判定部
2 端末

Claims (15)

  1. 人物が映り込む映像データから行動を認識するようにコンピュータを機能させる行動認識プログラムであって、
    前記映像データから、人物の関節に基づくスケルトン情報を時系列に抽出するスケルトン情報抽出手段と、
    前記映像データの前記スケルトン情報から、行動を認識する関節認識エンジンと、
    前記映像データから、前記スケルトン情報の囲み領域を抽出する領域切出し手段と、
    前記映像データの前記囲み領域から、行動を認識する動体認識エンジンと、
    行動毎に、前記関節認識エンジン及び前記動体認識エンジンそれぞれのスコアを統合した統合スコアを出力するスコア統合手段と
    してコンピュータを機能させることを特徴とする行動認識プログラム。
  2. 人物が映り込む映像データから行動を認識するようにコンピュータを機能させる行動認識プログラムであって、
    前記映像データから、人物の関節に基づくスケルトン情報を時系列に抽出するスケルトン情報抽出手段と、
    前記映像データの前記スケルトン情報から、行動を認識する関節認識エンジンと、
    前記関節認識エンジンによって算出された行動のスコアが、所定条件を満たすか否かを判定する関節行動判定手段と、
    前記関節行動判定手段によって真と判定された際に、前記映像データから、前記スケルトン情報の囲み領域を抽出する領域切出し手段と、
    前記映像データの前記囲み領域から、行動を認識する動体認識エンジンと、
    行動毎に、前記関節認識エンジン及び前記動体認識エンジンそれぞれのスコアを統合した統合スコアを出力するスコア統合手段と
    してコンピュータを機能させることを特徴とする行動認識プログラム。
  3. 前記関節行動判定手段は、前記所定条件として、複数の行動における最大値又は平均値のスコアが、所定閾値以下か否かを判定する
    ようにコンピュータを機能させることを特徴とする請求項2に記載の行動認識プログラム。
  4. 前記関節行動判定手段は、前記所定条件として、最大値のスコアとなる行動が、所定目的行動であるか否かを判定する
    ようにコンピュータを機能させることを特徴とする請求項2に記載の行動認識プログラム。
  5. 前記関節認識エンジンは、所定条件を満たす重要関節部位を更に出力するものであり、
    前記領域切出し手段は、前記関節認識エンジンから出力された前記重要関節部位を含む囲み領域を抽出する
    ようにコンピュータを機能させることを特徴とする請求項2から4のいずれか1項に記載の行動認識プログラム。
  6. 前記スコア統合手段は、認識エンジンそれぞれのスコアに、当該認識エンジンに対応する重みを付けて統合する
    ようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載の行動認識プログラム。
  7. 異なる行動に基づく複数の訓練データを入力し、認識エンジン毎に、スコアの統計値を算出し、前記スコアの統計値が低いほど、大きな値の「重み」を付与する前記重み算出手段と
    してコンピュータを機能させることを特徴とする請求項6に記載の行動認識プログラム。
  8. 前記重み算出手段は、前記スコアの統計値の逆数値(全ての認識エンジンの逆数値の和が1となる)を、「重み」とする
    ようにコンピュータを機能させることを特徴とする請求項7に記載の行動認識プログラム。
  9. 前記動体認識エンジンは、オプティカルフローに基づくものである
    ようにコンピュータを機能させることを特徴とする請求項1から8のいずれか1項に記載の行動認識プログラム。
  10. 前記動体認識エンジンは、RGB画像に基づく物体認識エンジンと、オプティカルフローに基づく動体認識エンジンとからなり、
    前記スコア統合手段は、行動毎に、前記関節認識エンジン、前記動体認識エンジン及び前記物体認識エンジンそれぞれのスコアを統合する
    ようにコンピュータを機能させることを特徴とする請求項1から8のいずれか1項に記載の行動認識プログラム。
  11. 前記スケルトン情報を、時系列の座標系に対してシフト・伸縮させることによって正規化するスケルトン情報正規化手段を更に有し、
    前記領域切出し手段は、正規化されたスケルトン情報を囲む最小領域を、前記囲み領域として抽出する
    ようにコンピュータを機能させることを特徴とする請求項1から10のいずれか1項に記載の行動認識プログラム。
  12. 人物が映り込む映像データから行動を認識する装置であって、
    前記映像データから、人物の関節に基づくスケルトン情報を時系列に抽出するスケルトン情報抽出手段と、
    前記映像データの前記スケルトン情報から、行動を認識する関節認識エンジンと、
    前記映像データから、前記スケルトン情報の囲み領域を抽出する領域切出し手段と、
    前記映像データの前記囲み領域から、行動を認識する動体認識エンジンと、
    行動毎に、前記関節認識エンジン及び前記動体認識エンジンそれぞれのスコアを統合した統合スコアを出力するスコア統合手段と
    を有することを特徴とする装置。
  13. 人物が映り込む映像データから行動を認識する装置であって、
    前記映像データから、人物の関節に基づくスケルトン情報を時系列に抽出するスケルトン情報抽出手段と、
    前記映像データの前記スケルトン情報から、行動を認識する関節認識エンジンと、
    前記関節認識エンジンによって認識された行動が、所定目的行動である場合、前記映像データから、前記スケルトン情報の囲み領域を抽出する領域切出し手段と、
    前記映像データの前記囲み領域から、行動を認識する動体認識エンジンと、
    行動毎に、前記関節認識エンジン及び前記動体認識エンジンそれぞれのスコアを統合した統合スコアを出力するスコア統合手段と
    を有することを特徴とする装置。
  14. 人物が映り込む映像データから行動を認識する装置の認識方法であって、
    前記装置は、
    前記映像データから、人物の関節に基づくスケルトン情報を時系列に抽出する第1のステップと、
    前記映像データの前記スケルトン情報から、行動を関節認識する第2のステップと、
    前記映像データから、前記スケルトン情報の囲み領域を抽出する第3のステップと、
    前記映像データの前記囲み領域から、行動を動体認識する第4のステップと、
    行動毎に、関節認識及び動体認識それぞれのスコアを統合した統合スコアを出力する第5のステップと
    を実行することを特徴とする装置の認識方法。
  15. 人物が映り込む映像データから行動を認識する装置の認識方法であって、
    前記装置は、
    前記映像データから、人物の関節に基づくスケルトン情報を時系列に抽出する第1のステップと、
    前記映像データの前記スケルトン情報から、行動を関節認識する第2のステップと、
    前記関節認識エンジンによって認識された行動が、所定目的行動である場合、前記映像データから、前記スケルトン情報の囲み領域を抽出する第3のステップと、
    前記映像データの前記囲み領域から、行動を動体認識する第4のステップと、
    行動毎に、前記関節認識エンジン及び前記動体認識エンジンそれぞれのスコアを統合した統合スコアを出力する第5のステップと
    を実行することを特徴とする装置の認識方法。

JP2018028219A 2018-02-20 2018-02-20 複数の認識エンジンを用いて人物の行動を認識するプログラム、装置及び方法 Active JP6904651B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018028219A JP6904651B2 (ja) 2018-02-20 2018-02-20 複数の認識エンジンを用いて人物の行動を認識するプログラム、装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018028219A JP6904651B2 (ja) 2018-02-20 2018-02-20 複数の認識エンジンを用いて人物の行動を認識するプログラム、装置及び方法

Publications (2)

Publication Number Publication Date
JP2019144830A true JP2019144830A (ja) 2019-08-29
JP6904651B2 JP6904651B2 (ja) 2021-07-21

Family

ID=67773789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018028219A Active JP6904651B2 (ja) 2018-02-20 2018-02-20 複数の認識エンジンを用いて人物の行動を認識するプログラム、装置及び方法

Country Status (1)

Country Link
JP (1) JP6904651B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021089615A (ja) * 2019-12-05 2021-06-10 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP2021114288A (ja) * 2020-01-13 2021-08-05 ターゲット インフォメーション カンパニー リミテッド 深層学習に基づく馬速計算システム及び方法
JP2022536439A (ja) * 2020-06-01 2022-08-17 深▲せん▼華鵲景医療科技有限公司 上肢機能評価装置と方法及び上肢リハビリトレーニングシステムと方法
WO2023089691A1 (ja) * 2021-11-17 2023-05-25 日本電気株式会社 行動分類装置、行動分類方法、およびプログラム
WO2023112128A1 (ja) * 2021-12-14 2023-06-22 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
WO2023243398A1 (ja) * 2022-06-13 2023-12-21 コニカミノルタ株式会社 例外行動判別方法、例外行動判別プログラムおよび例外行動判別装置
JP7467300B2 (ja) 2020-09-17 2024-04-15 京セラ株式会社 システム、電子機器、電子機器の制御方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086901A (ja) * 2007-09-28 2009-04-23 Nec Soft Ltd 年齢推定システム及び年齢推定方法
JP2015049702A (ja) * 2013-09-02 2015-03-16 日本電気株式会社 対象認識装置、対象認識方法、およびプログラム
JP2018026131A (ja) * 2016-08-09 2018-02-15 ダンロップスポーツ株式会社 動作解析装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086901A (ja) * 2007-09-28 2009-04-23 Nec Soft Ltd 年齢推定システム及び年齢推定方法
JP2015049702A (ja) * 2013-09-02 2015-03-16 日本電気株式会社 対象認識装置、対象認識方法、およびプログラム
JP2018026131A (ja) * 2016-08-09 2018-02-15 ダンロップスポーツ株式会社 動作解析装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AN TRAN, ET AL.: "Two-Stream Flow-Guided Convolutional Attention Networks for Action Recognition", 2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS (ICCVW), JPN6021001249, 2017, pages 3110 - 3119, XP033303795, ISSN: 0004458369, DOI: 10.1109/ICCVW.2017.368 *
FARHAD KHEZELI, ET AL.: "Real-time human action recognition with Extreme Learning Machine", 2017 10TH IRANIAN CONFERENCE ON MACHINE VISION AND IMAGE PROCESSING, JPN6021001248, 2017, pages 159 - 163, XP033334137, ISSN: 0004458368, DOI: 10.1109/IranianMVIP.2017.8342341 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021089615A (ja) * 2019-12-05 2021-06-10 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP2021114288A (ja) * 2020-01-13 2021-08-05 ターゲット インフォメーション カンパニー リミテッド 深層学習に基づく馬速計算システム及び方法
JP7168153B2 (ja) 2020-01-13 2022-11-09 ターゲット インフォメーション カンパニー リミテッド 深層学習に基づく馬速計算システム及び方法
JP2022536439A (ja) * 2020-06-01 2022-08-17 深▲せん▼華鵲景医療科技有限公司 上肢機能評価装置と方法及び上肢リハビリトレーニングシステムと方法
JP7382415B2 (ja) 2020-06-01 2023-11-16 深▲せん▼華鵲景医療科技有限公司 上肢機能評価装置と方法及び上肢リハビリトレーニングシステムと方法
JP7467300B2 (ja) 2020-09-17 2024-04-15 京セラ株式会社 システム、電子機器、電子機器の制御方法、及びプログラム
WO2023089691A1 (ja) * 2021-11-17 2023-05-25 日本電気株式会社 行動分類装置、行動分類方法、およびプログラム
WO2023112128A1 (ja) * 2021-12-14 2023-06-22 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
WO2023243398A1 (ja) * 2022-06-13 2023-12-21 コニカミノルタ株式会社 例外行動判別方法、例外行動判別プログラムおよび例外行動判別装置

Also Published As

Publication number Publication date
JP6904651B2 (ja) 2021-07-21

Similar Documents

Publication Publication Date Title
JP6904651B2 (ja) 複数の認識エンジンを用いて人物の行動を認識するプログラム、装置及び方法
US8542928B2 (en) Information processing apparatus and control method therefor
JP5554984B2 (ja) パターン認識方法およびパターン認識装置
WO2018025831A1 (ja) 人流推定装置、表示制御装置、人流推定方法および記録媒体
CN108292362A (zh) 用于光标控制的手势识别
CN110688929B (zh) 一种人体骨架关节点定位方法及装置
KR102338486B1 (ko) 3d 골격 정보를 이용한 사용자 동작 인식 방법 및 시스템
KR100988326B1 (ko) 사용자 맞춤형 표정 인식 방법 및 장치
JP2009140009A (ja) 情報処理装置および情報処理方法、プログラム、並びに記録媒体
US9036920B2 (en) Method of detecting feature points of an object in a system for motion detection
JP6906273B2 (ja) 映像データから人の骨格位置の変位の軌跡を描写するプログラム、装置及び方法
JP7416252B2 (ja) 画像処理装置、画像処理方法、及びプログラム
Tian et al. Free-view gait recognition
Amrutha et al. Human Body Pose Estimation and Applications
JP6875058B2 (ja) 複数の認識エンジンを用いてコンテキストを推定するプログラム、装置及び方法
JP2006146413A (ja) 対象追従装置
KR100899804B1 (ko) 2차원 정준상관 분석법을 이용한 얼굴 인식 방법
JP6305856B2 (ja) 画像処理装置、画像処理方法、およびプログラム
WO2020068104A1 (en) Generating spatial gradient maps for a person in an image
KR102187926B1 (ko) 볼류메트릭 비디오 생성 방법, 장치 및 컴퓨터 판독가능 매체
JP2017033556A (ja) 画像処理方法及び電子機器
Shen et al. Action recognition based on homography constraints
JP7326965B2 (ja) 画像処理装置、画像処理プログラム、及び画像処理方法
JP6836985B2 (ja) 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法
Tapu et al. Face recognition in video streams for mobile assistive devices dedicated to visually impaired

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210623

R150 Certificate of patent or registration of utility model

Ref document number: 6904651

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150