JP6658331B2 - 行動認識装置及び行動認識プログラム - Google Patents

行動認識装置及び行動認識プログラム Download PDF

Info

Publication number
JP6658331B2
JP6658331B2 JP2016124033A JP2016124033A JP6658331B2 JP 6658331 B2 JP6658331 B2 JP 6658331B2 JP 2016124033 A JP2016124033 A JP 2016124033A JP 2016124033 A JP2016124033 A JP 2016124033A JP 6658331 B2 JP6658331 B2 JP 6658331B2
Authority
JP
Japan
Prior art keywords
action
behavior
likelihood
feature amount
body part
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016124033A
Other languages
English (en)
Other versions
JP2017228100A (ja
Inventor
宏 大和
宏 大和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2016124033A priority Critical patent/JP6658331B2/ja
Publication of JP2017228100A publication Critical patent/JP2017228100A/ja
Application granted granted Critical
Publication of JP6658331B2 publication Critical patent/JP6658331B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、機械学習に係り、対象の行動を学習し認識する分野に関する。
従来、コンピューターに明示的にプログラミングすることなく行動させるようにする機械学習が研究されている。予測する目標の値が訓練データに含まれている教師あり学習には、クラスを予測する識別(分類)問題などがある。信頼性の向上、処理の高速化等が課題となっている。また、人等の監視動画を入力データとし、人等の行動を認識する分野がある。この場合、連続する画像フレームを解析することとなる。あるフレーム列から行動が認識されると、その後のフレーム列における行動(現認識時点の行動)を認識するにあたり、現認識時点の行動の前の行動を考慮することができる。
非特許文献1に記載の発明は、Trancated BPTT:LSTM等でもちいられる学習テクニックであり、学習時に、所定のフレームよりも前の特徴は参照しないようにする。基本的に一定の時間(フレーム数)で行動認識に用いるデータ量を決める。
特許文献1に記載の発明は、ジェスチャ認識においてジェスチャの始点を明示的に与える代わりに、現フレームを終点として固定長分の観測信号を生成し、HMMモデルデータベースに入力し各ジェスチャの尤度を求める。同発明も、基本的に一定の時間(フレーム数)で行動認識に用いるデータ量を決める。
特開2007−87089号公報
David Zipser(Department of Cognitive Science,University of California, San Diego,La Jolla, CA 92093) Subgrouping reduces complexity and speeds up learning in recurrent networks Graves, Alan, Abdel-rahman Mohamed, and Geoffrey Hinton. "Speech recognition with deep recurrent neural networks." Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013. Hochreiter, Sepp, and Jurgen Schmidhuber. "Long short-term memory." Neural computation 9.8 (1997): 1735-1780.
ところで、行動観察される人の運動機能の低下、回復により、同じ行動でもその行動、動作に劣化、回復が生じるが、従来技術は、対象の行動の劣化、回復など行動の質の変化の指標を算出し、行動の質の変化を観察できるようにすることができない。
本発明は、対象の行動の劣化、回復など行動の質の変化の指標を算出し、行動の質の変化を観察できるようにすることを課題とする。
以上の課題を解決するための請求項1記載の発明は、対象の行動の特徴量の時系列データに基づき行動を学習し、学習結果に基づき行動を認識する行動認識装置において、
対象の行動が時系列に記録された入力データから行動の特徴量の時系列データを抽出する行動特徴量算出手段と、
前記行動特徴量算出手段により得られた行動の特徴量の時系列データと、予め学習した行動の特徴量の時系列データとに基づいて、前記入力データに係る行動を認識し、行動認識結果と尤度を出力する行動認識手段と、
前記行動認識結果が示す行動と同一行動に関し、予め学習した行動又は既に認識した過去の行動と、前記入力データに係る行動との尤度差を算出する行動尤度差算出手段と、
を備える行動認識装置である。
請求項2記載の発明は、前記行動尤度差算出手段が算出する尤度差が所定の閾値以上の場合に、前記行動認識結果が示す行動において生じる体部位の動作に関し、前記入力データから抽出した体部位の特徴量の時系列データと、予め学習した体部位の特徴量の時系列データとに基づいて、尤度を出力する体部位動作尤度算出手段を備える請求項1に記載の行動認識装置である。
請求項3記載の発明は、前記行動尤度差算出手段が、前記行動認識結果が示す行動と同一行動に関し、少なくとも前回認識した前回の行動と、前記入力データに係る今回の行動との尤度差を算出し、
前記体部位動作尤度算出手段は、前記行動尤度差算出手段が算出する前回の行動と今回の行動との尤度差が所定の閾値以上の場合に起動して前記尤度を出力することを特徴とする請求項2に記載の行動認識装置である。
請求項4記載の発明は、前記行動の特徴量の時系列データは、全身の関節点で規定され、前記体部位の特徴量の時系列データは、当該体部位に係る関節点で規定されていることを特徴とする請求項2又は請求項3に記載の行動認識装置である。
請求項5載の発明は、対象の行動の特徴量の時系列データに基づき行動を学習し、学習結果に基づき行動を認識する行動認識装置としてコンピューターを機能させるための行動認識プログラムであって、
対象の行動が時系列に記録された入力データから行動の特徴量の時系列データを抽出する行動特徴量算出手段と、
前記行動特徴量算出手段により得られた行動の特徴量の時系列データと、予め学習した行動の特徴量の時系列データとに基づいて、前記入力データに係る行動を認識し、行動認識結果と尤度を出力する行動認識手段と、
前記行動認識結果が示す行動と同一行動に関し、予め学習した行動又は既に認識した過去の行動と、前記入力データに係る行動との尤度差を算出する行動尤度差算出手段として前記コンピューターを機能させるための行動認識プログラムである。
請求項6記載の発明は、前記行動尤度差算出手段が算出する尤度差が所定の閾値以上の場合に、前記行動認識結果が示す行動において生じる体部位の動作に関し、前記入力データから抽出した体部位の特徴量の時系列データと、予め学習した体部位の特徴量の時系列データとに基づいて、尤度を出力する体部位動作尤度算出手段として前記コンピューターを機能させるための請求項5に記載の行動認識プログラムである。
請求項7記載の発明は、前記行動尤度差算出手段が、前記行動認識結果が示す行動と同一行動に関し、少なくとも前回認識した前回の行動と、前記入力データに係る今回の行動との尤度差を算出し、
前記体部位動作尤度算出手段は、前記行動尤度差算出手段が算出する前回の行動と今回の行動との尤度差が所定の閾値以上の場合に起動して前記尤度を出力することを特徴とする請求項6に記載の行動認識プログラムである。
請求項8記載の発明は、前記行動の特徴量の時系列データは、全身の関節点で規定され、前記体部位の特徴量の時系列データは、当該体部位に係る関節点で規定されていることを特徴とする請求項6又は請求項7に記載の行動認識プログラムである。
本発明によれば、行動認識結果が示す行動と同一行動に関し、予め学習した行動又は既に認識した過去の行動と、入力データに係る今回の行動との尤度差を算出するので、これを対象の行動の劣化、回復など行動の質の変化の指標として、行動の質の変化が観察できるようになる。
本発明の一実施形態に係る行動認識装置を構成する手段と、辞書と、処理の流れが記載されたシステム概念図である。 本発明の一実施形態に係る行動認識のアルゴリズムの概要を示す概念図である。 本発明の一実施形態における行動認識によりフレームごとに算出される尤度の推移グラフの一例である。 本発明の一実施形態における体部位動作尤度算出によりフレームごとに算出される体部位動作の尤度の推移グラフの一例である。 行動認識手段が行動認識のために用いる長さの特徴量列を示した概念図であり、(a)は全フレームとする場合の比較例を示し、(b)は本発明例を示す。 行動認識手段が行動認識のために用いる長さの特徴量列を枠で示した概念図であり、(a)は枠の長さを一定のフレーム数で固定とした比較例を示し、(b)は本発明例を示す。 Recurrent Neural Networkの概要図である。 Long-Short Term Memoryの概要図である。 本発明の一実施形態に係る行動境界判定の一例を説明するための尤度遷移図である。 本発明の一実施形態に係る行動境界判定の他の一例を説明するための尤度遷移図である。 行動認識手段が行動認識のために用いる長さの特徴量列を枠で示した概念図であり、(a)はある一つの行動境界判定前の枠を、(b)はその一つの行動境界判定後の枠を示す。
以下に本発明の一実施形態につき図面を参照して説明する。以下は本発明の一実施形態であって本発明を限定するものではない。
〔システム概要〕
図1に、本実施形態の行動認識装置を構成する手段と、辞書と、処理の流れが記載されたシステム概念図を示す。コンピューターを以下の各手段として機能させるための行動認識プログラムをコンピューターにインストールすることで本行動認識装置が構成される。本実施形態において、対象は人間であり、「対象の行動が時系列に記録されたデータ」は動画像データである。
図1に示すように本実施形態の行動認識装置は、動画像取得手段1と、行動特徴量算出手段2と、行動認識手段3と、行動尤度差算出手段4と、動画像取得手段5と、体部位特徴量算出手段6と、体部位動作尤度算出手段7とを備え、辞書A及び辞書Bを保持する。
動画像取得手段1及び動画像取得手段5は、動画撮影用のカメラであるか、又はカメラをシステム外と捉える場合は、カメラから動画像データの入力を受ける入力インターフェースである。動画像取得手段1が取得する動画像に、観察者の全身が含まれるようにカメラを配備する。
行動特徴量算出手段2は、動画像取得手段1を介して入力された入力データから行動の特徴量の時系列データを抽出する。行動の特徴量の時系列データは、全身の関節点で規定されるものとする。なお、簡単のため「特徴量の時系列データ」を「特徴量列」と呼ぶ。
行動認識手段3は、行動特徴量算出手段2により得られた行動の特徴量列と、辞書Aに収められた予め学習した行動の特徴量列とに基づいて、入力データに係る行動を認識し、行動認識結果8と尤度9を出力する。
行動尤度差算出手段4は、行動認識結果8が示す行動と同一行動に関し、予め学習した行動又は既に認識した過去の行動と、入力データに係る行動との尤度差を算出する。すなわち、行動尤度差算出手段4は、今回の入力データに係る行動に関して行動認識手段3が出力した尤度9と、辞書Aを入力とした場合の尤度との差、又は、過去に認識した同一の行動(行動認識結果8が同一となる行動)において行動認識手段3が出力した尤度との差を算出する。
これにより辞書Aに特徴が記録される行動に対する今回の行動の質の変化や、過去の行動に対する今回の行動の質の変化を観察することができる。
例えば、辞書Aに、運動機能が正常なときの行動の特徴が記録されていれば、正常に対する質の劣化の度合いがわかる。運動機能に異常が発生した時、運動機能の回復があった時は、いずれも、行動尤度差算出手段4が算出する尤度差に表れるから、この尤度差を指標にして行動の質の変化を観察することができる。
体部位特徴量算出手段6は、各体部位の動作に限定した特徴量列を抽出する。そのために動画像取得手段5が取得する動画像に、当該特徴量を抽出する体部位が含まれるようにカメラを配備する。簡素な構成としては、全身を撮影するカメラを一台設けて、動画像取得手段1及び動画像取得手段5を共通として実施してもよい。体部位の特徴量列は、当該体部位に係る関節点で規定されるものとする。
体部位動作尤度算出手段7は、どの体部位で変化が顕著か認識するため、行動尤度差算出手段4が算出する尤度差が所定の閾値以上の場合に、行動認識結果8が示す行動において生じる体部位の動作に関し、体部位特徴量算出手段6が入力データから抽出した体部位の特徴量列と、辞書Bに収められた予め学習した体部位の特徴量列とに基づいて、体部位動作の尤度10を出力する。したがって、体部位動作の尤度10は体部位ごとに算出される。
行動尤度差算出手段4が、行動認識結果8が示す行動と同一行動に関し、少なくとも前回認識した前回の行動と、入力データに係る今回の行動との尤度差を算出し、体部位動作尤度算出手段7は、行動尤度差算出手段4が算出する前回の行動と今回の行動との尤度差が所定の閾値以上の場合に起動して体部位動作の尤度10を出力することとしてもよい。これにより、行動の質に変化があった時のみ体部位動作尤度算出手段7を稼働させて、計算負荷を低減することができる。
次フレームの動画像を取得して以上の処理を繰り返す。
〔例示説明〕
さらに具体的適用例を挙げつつ説明を加える。
人の日常の生活行動を認識、評価することによって老化、日常生活行動の低下を検出することに利用する。
図2は、本実施形態の行動認識のアルゴリズムの概要を示している。図2に示すように人の行動認識は、人検知51、姿勢検知52、行動認識53の過程でなされる。そこで、正解ラベルとして、人ラベル・姿勢ラベル・行動認識ラベルをつけ、このラベルを学習させる。
人検知51では、動画像データ54から人領域55を検出する。
人検知の学習方法は、一般的な機械学習法(support vector machine:SVM、Random Forest、Fast R-CNN(http://arxiv.org/abs/1504.08083 ICCV 2015(2015.12)))、Faster R-CNN(http://arxiv.org/abs/1506.01497 NIPS 2015(2015.12))など)を使用する。また学習せずに、一般的な手法(背景差分法・時間差分法)でも良い。
その機械学習法としては、人候補領域を学習、学習の際に人領域(ポジティブ領域)と非人領域(ネガティブ領域)を学習する。
SVM、Random Forestのような手法は、候補領域の特徴量を学習、候補領域の特徴量としてはHOG特徴量などが一般的である。局所特徴量と統計学習手法による物体検出(http://www.vision.cs.chubu.ac.jp/JointHOG/)の手法が利用できる。
Fast R-CNN、Faster R-CNNは、Deep Learningの手法の1つで、一般物体認識を行うものである。画像そのものを入力、入力画像の候補領域を算出する際に、selective searchを使用して候補領域を出すものがFast R-CNN、候補領域そのものも学習で算出させるのがFaster R-CNN、その候補領域が何なのかをDeep Learningで学習させる。
画像そのものを入力し、候補領域、候補領域の種類(人・猫・犬など)を出力させ、その中から人領域だけ抽出できるように学習させる。
selective searchは、画像中に似た領域をひとつの物体として認識して、物体の候補を提案するアルゴリズムである。
非機械学習法としては、ある基準画像と比較画像に差がある領域を人候補領域として算出する方法が適用できる。人が全く映っていない画像を基準とする背景差分法や、数フレーム前の画像との差を取る時間差分法が適用できる。動いているものを人候補領域として検出する。
OpenCVで背景差分(http://whoopsidaisies.hatenablog.com/entry/2013/12/18/092142)の手法が利用できる。
姿勢検知52では、人領域55の画像に基づき関節人モデル56を構成する。
姿勢検知にあっては、詳細に状態を見る為に、関節位置を正確に算出することが好ましい。その算出方法としてDeepPose(http://www.slideshare.net/mitmul/deeppose-human-pose-estimation-via-deep-neural-networks)のような手法を用いることで、関節点を学習する。
行動認識の学習は、Long short-term memory(LSTM http://qiita.com/t_Signull/items/21b82be280b46f467d1b)のような手法を用いることが好ましい。関節点の時系列情報を学習する。
便利上、姿勢検知と行動認識を分離して説明しているが、1つにまとめるようにしても良い。
行動認識53としては、例えば、図2に示す「座る」という行動を認識する場合を考える。その他に歩く・寝る・ドアを開けるなどの日常生活における行動がある。座る行動セット57、寝る行動セット58など、辞書は行動認識ラベルごとに設けられる。
行動特徴量算出手段2により全身の関節点を認識する姿勢検知を行った上で、行動認識手段3がLSTMによる行動認識を行い、行動認識結果8と尤度9を出力する。図3に示すようにフレームごとに尤度が出力され推移する。図3に示す例では、1−6フレームでは、行動Aの尤度が行動B,Cの尤度に勝っているとともに閾値102を単独で超えており、行動Aが行動認識結果となる。7−10フレームでは、行動Aの尤度が低下し行動Cが他に勝っているとともに単独で閾値102を超えており、行動Cが行動認識結果となる。例えば、行動Aが「座る」で、行動Bが「歩く」、行動Cが「寝る」のごとくである。行動A1を前回の行動A、行動A2を今回の行動Aとする。差101は、行動A1の尤度と行動A2の尤度との差であり、これを行動尤度差算出手段4が算出する。差101は、最大差、総和・平均値のいずれでもよい。閾値102は行動として判定する閾値である。
さらに「座る」ときの体部位動作の尤度算出が行われる。
体部位特徴量算出手段6により2関節点を認識する姿勢検知を行った上で、体部位動作尤度算出手段7が尤度10を出力する。体部位動作尤度算出手段7は、各体部位についてそれぞれ尤度を算出する。体部位毎の尤度算出59の過程として、図4に示すように関節点間A、関節点間B、関節点間C、関節点間D・・・のそれぞれの尤度をフレームごとに算出する。図4に示す例では、関節点間Cの尤度のみが低下しているので、行動の劣化が関節点間Cに現れていることがわかる。例えば、図3の行動Aが「座る」で、差101が所定の閾値以上であったため、体部位動作尤度算出手段7が図4に示すように各関節点間の体部位の尤度を算出し、関節点間Cの尤度のみが健常時より低下したとする。この場合、座るときに関節点間Cの体部位に健常時にはない異常動作があったこととなる。このように体部位動作尤度算出手段7によりどの体部位に健常時と異なる動作があったかを検出できる。
学習に使用するデータは、本人の動画像のみを使用してもよいし、一般的な健康な人の動画像を用いてもよい。
学習は、Reccurent Neural Network(以下RNN)にLong-Short Term Memoryを組み合わせた手法を使用して行う。
認識時は、学習で作成された辞書により行動の動画を認識する。座るという行動動画を入力した結果、行動認識手段3が行動認識結果8と尤度9を算出する。この時、行動認識結果8が「座る」であり、尤度9が所定の閾値以上の場合、定常の行動と変わらないと判断する。しかし、尤度9が所定の閾値以下となった場合、いつもの日常生活との差が見られる。そこで、何が問題でその様な結果となったのか体部位動作尤度算出手段7により詳細解析を行う。
なお、閾値は、(1)予め決めておいた尤度そのものの値に対する閾値でもよいが、(2)前回算出した尤度と今回算出した尤度との差(両者は同じ行動のもの、図3に示す差101)を見るようにしても良い。体部位に分解して詳細に個人の姿勢変化を捉える場合、(2)で実施するほうが望ましい。学習データも本人のものが好ましい。
体部位に分解した詳細解析は、上記で算出された行動認識結果8(行動認識結果8が「座る」なら「座る」)だけで学習された行動と今回入力された画像との差を見る。なお、辞書Bを作成するための、行動認識結果8(行動認識結果8が「座る」なら「座る」)だけでの学習は、部分ごとに行う。つまり複数の関節点から、人体の骨格をなす2つ関節点毎に学習する。例えば、左足先から左膝の関節点間の体部位だけで「座る」の行動における動作の学習、左膝から左股関節の関節点間の体部位だけで「座る」の行動における動作の学習のように辞書Bを用意しておく。それぞれの結果を算出&比較することで変化量を見る。
〔特徴量列の長さについて〕
本実施形態で採用する特徴量列の長さの決定方法につき説明する。
従来の手法としては、通常、特徴量は現認識時点のフレームを起点として過去10フレーム分の特徴量をまとめて与えるなど、固定長の値を与えるか、過去の情報から切れ目なく全フレーム与える様な形が多かった。かかる手法を本発明に適用して実施してもよい。
しかし、本実施形態では同じ行動が連続したフレームは常に同じ行動をしている=1行動として、学習・認識対象のフレームの行動を起点とした所定の行動数N分のフレームの特徴量を与える方法を採用する。行動数Nには、現認識時点の行動も含まれるので、遡る過去の行動数としては(N−1)である。
例えば、高齢者介護見守りの現場において、高齢者の生活状況や事故を認識する仕組みを考える。
この場合、認識する対象は高齢者やその介助者の行動である。具体的に認識する高齢者の行動としては、”就寝”、”起床”、”離床”、”座る”、”しゃがむ”, ”歩行”、”食事”、”トイレ”、”外出”,”モノを取る”の様な日常生活における基本的な行動や転倒、転落などの事故時に起きる行動が対象となる。介助者の行動としては”歩行”などの基本的な行動の他、”支える”、”抱える”,”食べさせる”などの介助動作も対象となる。また、複数人による行動である”会話”等も考えられる。
これらの行動の内、多くの行動はその前に強く関係がある。例えば“就寝”という行動はベッドに歩いて近づき、横たわった後に発生することが考えられるが、歩行中突然就寝状態になる事は考えにくい。このことは、前の行動は現在の行動を決定する上で非常に重要な情報であることを示している。そのため、行動認識において過去の情報を使うことは精度の向上のために非常に重要である。
従来は、過去10フレーム分の特徴量を認識に用いる、という様に、固定時間分の情報を認識に用いる場合が多かったが、人によって行動の速度は異なり、また同一人物でも繰り返しバラつきがあり、固定時間を設定するのは難しかった。本方法は、そうした問題に対応するための提案である。
行動数のカウント方法を、上述した”座る” ”歩行” ”食事”を例にして説明する。”歩行”を区別しない同一行動とする場合は、”歩行”が数フレームに亘って連続しても、1行動としてカウントする。また、”食事”を区別しない同一行動とする場合は、”食事” が数フレームに亘って連続しても、1行動としてカウントする。しかし、”食事”を例えば”手に持った食器から食物を取り上げて口に運ぶ行動(行動A)”と ”テーブル上の食器から食物を取り上げて口に運ぶ行動(行動B)”とに細分化して行動ラベルを定義する場合には、行動Aの連続は1行動としてカウントし、行動Bの連続は1行動としてカウントする一方で、これら2つの行動が、例えば行動A、行動Bと連続すれば、2行動とカウントする。”歩行”及び ”座る”のそれぞれを区別しない同一行動とする場合は、”歩行” ”座る” ”歩行”と連続すれば3行動とカウントする。
図5は、行動認識手段3が行動認識のために用いる長さの特徴量列を示した概念図であり、図5(a)は全フレームとする場合の比較例を示し、図5(b)はN=3とする場合の本発明例を示す。図中の数字は各行動ラベルを示し、数値を囲む矩形はその行動が連続する長さを示す。
図6は、行動認識手段3が行動認識のために用いる長さの特徴量列を枠で示した概念図であり、図6(a)は枠301の長さを一定のフレーム数で固定とした比較例を示し、図6(b)はN=3とする場合の本発明例におけるフレーム数可変の枠302,303を示す。
図1に示すように本行動認識装置に行動境界判定手段18、位置検出手段21が設けられる。
行動認識手段3は、行動境界判定手段18が出力した境界点19を基準に、所定の行動数前に遡った時点(図5(b),図6(b)の例で2つ遡る)から現認識時点までの時系列に並ぶ複数の行動に相当する特徴量列に基づき、現認識時点の行動を認識する。
図6(a)の比較例の場合のように行動認識手段が行動認識に用いる特徴量列が時間(フレーム数)で固定長の場合、人によって行動の速度は異なるため、人によって固定長の範囲内に行動を特定するのに有効な前行動情報が含まれない場合が考えられるが、図6(b)の本発明例のように行動数を基準にし、行動認識手段3が行動認識に用いる特徴量列のフレーム数を可変にすることで、現認識時点の行動につながる過去の行動の情報を十分に得ることが可能となる。
現認識時点の行動は過去の行動と強く関連付けられているといっても時間的に離れた情報は相対的に関係性が薄いと考えられ、図5(a)の比較例のように全フレームを使った場合多くのノイズが含まれてしまい、ノイズ比の大きい過大なデータ量による負荷、認識精度の低下が懸念される。見るべき行動数をある程度限定することで、現認識時点の行動を推定するのに重要な情報のみを選択的に扱うことが可能になり、行動認識の高精度化及び効率化を図ることができる。
図5,図6のように、N=3として、3行動分の特徴量列が得られるのは、時系列に並ぶ所定の行動数(図5(b),図6(b)の例で2つ)の認識が終わった後である。
動画の最初のフレームが入力されている時など行動数Nに入力フレーム数が満たない時のために、行動認識手段3は、時系列に並ぶ所定の行動数(図5(b),図6(b)の例で2つ)の認識が終わる前は、現認識時点までの全ての特徴量列に基づき、現認識時点の行動を認識する。
本発明においてどの様に特徴量を用いて行動を認識するかは、機械学習手法の一種である、図7に概要図を示すRecurrent Neural Network(RNN)に図8に概要図を示すLong-Short Term Memory (LSTM)を組み合わせた思想に基づく。RNNはDeep Learningで用いられるニューラルネットワークベースの1手法であり、過去の入力による行動認識の結果を内部状態として保持することが可能であり、そのため前後の入力で関連がある言語音声分野や動画像解析で多く使われている手法である。ただしRNNではニューラルネットワークにおける勾配消失問題から直近の情報しか保持できないため、LSTMを組み合わせる形を採用する。LSTMは過去の情報をより長期間保持することが可能な技術であり、両者を組み合わせることで長期間の過去のデータを現在の入力の学習・認識に生かすことが可能となる。(RNNの詳細は非特許文献2を、LSTMの詳細は非特許文献3を参照。)
また、RNN+LSTMは内部状態をフラグによりリセットすることが可能である。リセットしない場合、それまでの全フレームの情報が内部的に保持される形となるが、リセットすると内部状態は初期化されるため、過去の入力はないものと扱われる。そのため、本実施形態では、行動境界判定手段18の判定に基づき、この内部状態をリセットし再度特徴量を入力する処理が学習認識に用いる行動をリセットする処理として用いられる。
機械学習手法を用いているため、行動認識手段3は認識の前に学習を行う必要がある。学習は正解行動が既知の動画像データを入力として、各行動を区別するために有効な特徴量が何かを学習していく。認識時は学習によって作られた処理に基づいて認識を行う。
行動数に応じた入力について、学習時は行動の境界が既知であるため行動数に応じてリセットを行えばよいが、認識時は事前に行動が未知であり同様のことができないため、行動境界判定手段18が必要となる。
なお、認識に用いる手法はLSTMに限定されない。
行動認識手段3は、対象の各行動の尤度を出力する。たとえば10種の行動を認識する場合、10個の行動それぞれについて、尤度が算出され、最も尤度が高い行動を行動認識結果8として出力する。体部位動作尤度算出手段7は、行動認識結果8が示す行動中の各体部位の動作の尤度10を出力する。
一方、行動境界判定手段18は、認識中の行動の切れ目となる境界点を判定し、行動認識手段3へ入力する。一般的には行動認識結果8が異なる行動に変わった場合(1位の入れ替わりがあった場合)、そこを境界点とすれば良いと考えられるが、その場合、行動認識結果8が異なる行動に変わった後に初めて境界点の判定が行われるため判定が遅れてしまう。特に行動間の境界がわかりにくい場合、判定の遅れはより大きくなることが予想される。これらの事象を押さえる手として、行動認識の各行動の尤度情報を用いる方法が考えられる。
ひとつには、行動の認識結果の最大尤度とそれ以外の尤度との差が所定の値よりも小さい場合に行動終了と判定する方法が考えられる。最大尤度と他の尤度の差が縮んだり最大尤度が低下したりしているということは行動の移り変わりが発生している可能性が高いため、こうした判定は有効である。
例えば、行動境界判定手段18は、図9に示すように尤度が高い順位が1位と2位の差601が所定の閾値以下となった時点を境界点と判定する。すなわち、図9において、1−6フレームで行動0が1位であるが、1位が行動0から行動2に切り替わる7フレーム目やそれ以降で判定せず、6フレーム目の1位と2位の差601が所定の閾値以下となった時点で判定を下すことで早期に判定する。これにより、7フレーム目では、行動認識手段3は認識に用いる特徴量列を新たな境界点から遡った行動数の範囲に更新し、行動認識の精度を向上する。
また、行動の認識結果には、ある程度の誤判定やノイズが混じることが予想され、認識結果の1つの瞬間値に基づき境界判定を行った場合、図10に示すように連続行動中に1フレームだけ別の行動が誤認識されただけで観測された行動数が1から3に大きく変化してしまう。すなわち、図10において、1−10フレームの行動0と、12−30フレームの行動0との間に11フレーム目で行動1が1位になっただけで、3行動がカウントされてしまう。この場合、11フレーム目の行動1はノイズとしてカットし、行動0が続いていると判定すべきである。
こうした場合に対応するため、行動境界判定手段18は、現認識時点のフレームを起点に所定の範囲の各行動尤度値の平均や中央値などの統計量に基づき、この平均や中央値などの統計量が入れ替わった段階で行動が切り替わったと判定する方法が考えられる。また、最大尤度を示す行動が変化した後所定の時間(フレーム数)内で最大尤度を示す行動が変化しなかった場合行動終了と判定する方法も考えられる。この場合は統計量として「最頻値」を用いれば実施できる。
また、尤度を使わない場合も考えられる。例えば寝るという行為は一般にベッド上で行われる。そのため、ベッドから離れた瞬間のように、位置情報に基づき異なる行動に切り替わる行動の境界点を判定する。例えば、浴室になどの特定の範囲に入った/出たという位置情報に基づき異なる行動に切り替わる行動の境界点を判定する。
この位置情報は、動画像取得手段1等で取得する動画像を解析して得られる対象の位置情報としてもよいし、別途、位置検出手段21から入力されるものとしてもよい。位置検出手段21は、動画像に基づくものではなく、対象の位置を検出するセンシングシステムと連携するものである。これにより、入浴などの行動を行う場所が限定されている場合に認識精度を向上することができる。
尤度を使わない別の例としては、所定のフレーム数以上同じ行動が続いた場合に境界点があったと判定する方法も考えられる。これは、あまりに長い期間同じ行動が続いている場合、その前の行動と次の行動の関連性は弱まっていると考えられるためである。
図11に、行動認識手段3が用いる長さの特徴量列を枠801、803で示し、現認識時点を指針802,804で示す。
図11(a)に示す現認識時点802で行動境界判定手段18が行動の境界を判定した場合、次の行動の認識(図11(b)に示す現認識時点804における認識)では、行動認識手段3は図11(b)に示す枠803のように認識に用いる過去の行動を1行動分ずらして認識を行う。
1 動画像取得手段
2 行動特徴量算出手段
3 行動認識手段
4 行動尤度差算出手段
5 動画像取得手段
6 体部位特徴量算出手段
7 体部位動作尤度算出手段
8 行動認識結果
9 尤度
10 体部位動作の尤度
18 行動境界判定手段
19 境界点
21 位置検出手段

Claims (8)

  1. 対象の行動の特徴量の時系列データに基づき行動を学習し、学習結果に基づき行動を認識する行動認識装置において、
    対象の行動が時系列に記録された入力データから行動の特徴量の時系列データを抽出する行動特徴量算出手段と、
    前記行動特徴量算出手段により得られた行動の特徴量の時系列データと、予め学習した行動の特徴量の時系列データとに基づいて、前記入力データに係る行動を認識し、行動認識結果と尤度を出力する行動認識手段と、
    前記行動認識結果が示す行動と同一行動に関し、予め学習した行動又は既に認識した過去の行動と、前記入力データに係る行動との尤度差を算出する行動尤度差算出手段と、
    を備える行動認識装置。
  2. 前記行動尤度差算出手段が算出する尤度差が所定の閾値以上の場合に、前記行動認識結果が示す行動において生じる体部位の動作に関し、前記入力データから抽出した体部位の特徴量の時系列データと、予め学習した体部位の特徴量の時系列データとに基づいて、尤度を出力する体部位動作尤度算出手段を備える請求項1に記載の行動認識装置。
  3. 前記行動尤度差算出手段が、前記行動認識結果が示す行動と同一行動に関し、少なくとも前回認識した前回の行動と、前記入力データに係る今回の行動との尤度差を算出し、
    前記体部位動作尤度算出手段は、前記行動尤度差算出手段が算出する前回の行動と今回の行動との尤度差が所定の閾値以上の場合に起動して前記尤度を出力することを特徴とする請求項2に記載の行動認識装置。
  4. 前記行動の特徴量の時系列データは、全身の関節点で規定され、前記体部位の特徴量の時系列データは、当該体部位に係る関節点で規定されていることを特徴とする請求項2又は請求項3に記載の行動認識装置。
  5. 対象の行動の特徴量の時系列データに基づき行動を学習し、学習結果に基づき行動を認識する行動認識装置としてコンピューターを機能させるための行動認識プログラムであって、
    対象の行動が時系列に記録された入力データから行動の特徴量の時系列データを抽出する行動特徴量算出手段と、
    前記行動特徴量算出手段により得られた行動の特徴量の時系列データと、予め学習した行動の特徴量の時系列データとに基づいて、前記入力データに係る行動を認識し、行動認識結果と尤度を出力する行動認識手段と、
    前記行動認識結果が示す行動と同一行動に関し、予め学習した行動又は既に認識した過去の行動と、前記入力データに係る行動との尤度差を算出する行動尤度差算出手段として前記コンピューターを機能させるための行動認識プログラム。
  6. 前記行動尤度差算出手段が算出する尤度差が所定の閾値以上の場合に、前記行動認識結果が示す行動において生じる体部位の動作に関し、前記入力データから抽出した体部位の特徴量の時系列データと、予め学習した体部位の特徴量の時系列データとに基づいて、尤度を出力する体部位動作尤度算出手段として前記コンピューターを機能させるための請求項5に記載の行動認識プログラム。
  7. 前記行動尤度差算出手段が、前記行動認識結果が示す行動と同一行動に関し、少なくとも前回認識した前回の行動と、前記入力データに係る今回の行動との尤度差を算出し、
    前記体部位動作尤度算出手段は、前記行動尤度差算出手段が算出する前回の行動と今回の行動との尤度差が所定の閾値以上の場合に起動して前記尤度を出力することを特徴とする請求項6に記載の行動認識プログラム。
  8. 前記行動の特徴量の時系列データは、全身の関節点で規定され、前記体部位の特徴量の時系列データは、当該体部位に係る関節点で規定されていることを特徴とする請求項6又は請求項7に記載の行動認識プログラム。
JP2016124033A 2016-06-23 2016-06-23 行動認識装置及び行動認識プログラム Active JP6658331B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016124033A JP6658331B2 (ja) 2016-06-23 2016-06-23 行動認識装置及び行動認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016124033A JP6658331B2 (ja) 2016-06-23 2016-06-23 行動認識装置及び行動認識プログラム

Publications (2)

Publication Number Publication Date
JP2017228100A JP2017228100A (ja) 2017-12-28
JP6658331B2 true JP6658331B2 (ja) 2020-03-04

Family

ID=60891687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016124033A Active JP6658331B2 (ja) 2016-06-23 2016-06-23 行動認識装置及び行動認識プログラム

Country Status (1)

Country Link
JP (1) JP6658331B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003900B2 (en) * 2018-02-20 2021-05-11 Uplift Labs, Inc. Identifying movements and generating prescriptive analytics using movement intelligence
JP7098972B2 (ja) * 2018-03-12 2022-07-12 株式会社リコー 行動認識装置、行動認識システム、行動認識方法およびプログラム
JP6946231B2 (ja) * 2018-04-04 2021-10-06 Kddi株式会社 物体追跡装置及び物体追跡方法
JP6525181B1 (ja) 2018-05-27 2019-06-05 株式会社アジラ 行動推定装置
CN109508698B (zh) * 2018-12-19 2023-01-10 中山大学 一种基于二叉树的人体行为识别方法
JP7458635B2 (ja) 2020-08-28 2024-04-01 地方独立行政法人東京都立産業技術研究センター 行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007213528A (ja) * 2006-02-13 2007-08-23 Sanyo Electric Co Ltd 行動認識システム
JP2007249922A (ja) * 2006-03-20 2007-09-27 Sanyo Electric Co Ltd 非日常行動検知システム
JP2008140267A (ja) * 2006-12-04 2008-06-19 National Institute Of Advanced Industrial & Technology 動作認識装置および動作認識処理方法
JP6214424B2 (ja) * 2014-02-20 2017-10-18 アイホン株式会社 特定動作検出装置

Also Published As

Publication number Publication date
JP2017228100A (ja) 2017-12-28

Similar Documents

Publication Publication Date Title
JP6658331B2 (ja) 行動認識装置及び行動認識プログラム
WO2017150211A1 (ja) 行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム
Aminikhanghahi et al. Using change point detection to automate daily activity segmentation
Deep et al. A survey on anomalous behavior detection for elderly care using dense-sensing networks
JP5675229B2 (ja) 画像処理装置及び画像処理方法
Feng et al. Deep learning for posture analysis in fall detection
JP5359414B2 (ja) 行動認識方法、装置及びプログラム
JP2017111660A (ja) 映像パターン学習装置、方法、及びプログラム
CN110197235B (zh) 一种基于独特性注意力机制的人体活动识别方法
WO2018163555A1 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
WO2021227874A1 (zh) 一种跌倒行为的检测方法和设备
JP2007249953A5 (ja)
CN112801000B (zh) 一种基于多特征融合的居家老人摔倒检测方法及系统
Gatt et al. Detecting human abnormal behaviour through a video generated model
EP3193317A1 (en) Activity classification from audio
Mokhtari et al. Fall detection in smart home environments using UWB sensors and unsupervised change detection
Bhogal et al. Corona virus disinfectant tunnel using face mask detection and temperature monitoring
Tham et al. Automatic identification of drinking activities at home using depth data from RGB-D camera
JP6458387B2 (ja) 生体電気ノイズ同定システム及び生体電気ノイズ除去システム
Noor et al. Dynamic sliding window method for physical activity recognition using a single tri-axial accelerometer
US10902247B1 (en) Quantized transition change detection for activity recognition
CN109620241B (zh) 一种可穿戴设备及基于其的动作监测方法
JP6214424B2 (ja) 特定動作検出装置
Mahmood et al. Contextual Anomaly Detection Based Video Surveillance System
Paul Ijjina Human fall detection in depth-videos using temporal templates and convolutional neural networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200120

R150 Certificate of patent or registration of utility model

Ref document number: 6658331

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150