JP6836985B2 - 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 - Google Patents

撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 Download PDF

Info

Publication number
JP6836985B2
JP6836985B2 JP2017227483A JP2017227483A JP6836985B2 JP 6836985 B2 JP6836985 B2 JP 6836985B2 JP 2017227483 A JP2017227483 A JP 2017227483A JP 2017227483 A JP2017227483 A JP 2017227483A JP 6836985 B2 JP6836985 B2 JP 6836985B2
Authority
JP
Japan
Prior art keywords
context
recognition
recognition engine
engine
captured image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017227483A
Other languages
English (en)
Other versions
JP2019096252A (ja
Inventor
和之 田坂
和之 田坂
柳原 広昌
広昌 柳原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2017227483A priority Critical patent/JP6836985B2/ja
Publication of JP2019096252A publication Critical patent/JP2019096252A/ja
Application granted granted Critical
Publication of JP6836985B2 publication Critical patent/JP6836985B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、深層学習の学習モデルを用いて、撮影映像から、人の行動を表すコンテキストを推定する技術に関する。
図1は、行動推定装置を有するシステム構成図である。
図1のシステムによれば、行動推定装置1は、インターネットに接続されたサーバとして機能する。行動推定装置1は、予め学習映像によって学習モデルを構築した行動推定エンジンを有する。学習映像は、人の行動が映り込む撮影映像と、その行動対象とが予め対応付けられたものである。
端末2はそれぞれ、カメラを搭載しており、人の行動を撮影した撮影映像を、行動推定装置1へ送信する。端末2は、各ユーザによって所持されるスマートフォンや携帯端末であって、携帯電話網又は無線LANのようなアクセスネットワークに接続する。
勿論、端末2は、スマートフォン等に限られず、例えば宅内に設置されたWebカメラであってもよい。また、Webカメラによって撮影された映像データがSDカードに記録され、その記録された映像データが行動推定装置1へ入力されるものであってもよい。
実運用としては、例えばモニターテストに参加したユーザに、自らのスマートフォンのカメラで、自らの行動を撮影してもらう。そのスマートフォンは、その映像を、行動推定装置1へ送信する。行動推定装置1は、その映像から人の行動を推定し、その推定結果を様々なアプリケーションで利用する。
行動推定装置1における行動推定エンジンとしては、様々な方式のものを実装することができる。
従来、撮影映像から動体の移動を認識するために、RGB画像に加えて、移動の特徴量(オプティカルフロー)を用いた技術がある(例えば非特許文献1参照)。例えばTwo-stream ConvNetsによれば、空間方向のCNN(Spatial stream ConvNet)と時系列方向のCNN(Temporal stream ConvNet)とを用いて、画像中の物体や背景のアピアランスの特徴と、オプティカルフローの水平方向成分と垂直成分の系列における動きの特徴との両方を抽出する。
また、人の行動をするために、人の関節とその連携部分のスケルトン情報を抽出する技術もある(例えば非特許文献2参照)。
一方で、認識処理を高速化するために、対象画像から候補領域を切り出して対象物を判定する技術もある(例えば特許文献1参照)。この技術によれば、複数の画像サイズの対象画像の中から、学習モデルの生成の際に統一されたサイズに最も近くなる画像サイズの対象画像を選択する。
また、人が特定の行動タイプをとる可能性を予測する予測器モデルを生成する技術もある(例えば特許文献2参照)。この技術によれば、行動タイプの成功したインスタンスと失敗したインスタンスとを含むデータを収集する。これらデータから、異なるタイプの複数の予測器が生成され、その性能に基づいて予測器が選択される。
特開2017−146840号公報 特表2016−510441号公報
Karen Simonyan and Andrew Zisserman, "Two-Stream Convolutional Networks for Action Recognition in Videos," in NIPS 2014、[online]、[平成29年11月13日検索]、インターネット<URL:https://arxiv.org/abs/1406.2199.pdf> Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields.、[online]、[平成29年11月13日検索]、インターネット<https://arxiv.org/pdf/1611.08050.pdf> 「スコアの統合」、[online]、[平成29年11月13日検索]、インターネット<https://image.slidesharecdn.com/170121stairlabslideshare-170119103908/95/-54-638.jpg?cb=1484822888> OpenPose、[online]、[平成29年10月19日検索]、インターネット<URL:https://github.com/CMU-Perceptual-Computing-Lab/openpose> 「動画や写真からボーンが検出できる OpenPose を試してみた」、[online]、[平成29年10月19日検索]、インターネット<URL:http://hackist.jp/?p=8285> 「OpenPoseがどんどんバージョンアップして3d pose estimationも試せるようになっている」、[online]、[平成29年10月19日検索]、インターネット<URL: http://izm-11.hatenablog.com/entry/2017/08/01/140945>
前述した従来技術によれば、人の行動が映り込む撮影映像の内容に応じて、高速に且つ高精度に認識する学習モデルを予め決定しておく必要がある。具体的には、「飲む」「食べる」「走る」のようなコンテキスト(人の行動)は、物体認識、動体認識、人物の関節領域認識のいずれであっても認識することができる。
しかしながら、物体認識の場合、計算リソース(処理計算量)は比較的少なくても、物体の存在のみからコンテキストを認識するために、認識精度は低くならざるを得ない。一方で、動体認識や関節領域認識の場合、コンテキストの認識精度は高いが、計算リソースが大きくならざるを得ない。コンテキスト認識結果は、撮影映像に対してリアルタイムに出力する必要があるために、計算リソースの大きさが問題となる。
そこで、本発明は、撮影映像の内容に基づいて、人の行動を表すコンテキストを、できる限り高速且つ高精度に推定するプログラム、装置及び方法を提供することを目的とする。
本発明によれば、撮影映像からコンテキストを推定するようにコンピュータを機能させるコンテキスト推定プログラムであって、
撮影映像からンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のコンテキスト認識エンジンと、
第1のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第1の認識判定手段と、
第1の認識判定手段によって真と判定された際に、撮影映像からンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第2のコンテキスト認識エンジンと、
第1の認識判定手段によって真と判定された際に少なくとも2のコンテキスト認識エンジンによって認識されたコンテキストを出力する推定コンテキスト出力手段と
して機能させ、
第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンによって認識される複数のコンテキストの候補は同じものである
ようにコンピュータを機能させることを特徴とする。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1の認識判定手段は、第1のコンテキスト認識エンジンによって認識された上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する
ようにコンピュータを機能させることも好ましい。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンは、異なった認識処理を行うと共に、
第1のコンテキスト認識エンジンの認識処理の演算量は、第2のコンテキスト認識エンジンの認識処理の演算量より少なく、
第1のコンテキスト認識エンジンの認識処理の認識精度は、第2のコンテキスト認識エンジンの認識処理の認識精度より低くなる
ようにコンピュータを機能させることも好ましい。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1のコンテキスト認識エンジンは、撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定する
ようにコンピュータを機能させることも好ましい。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1のコンテキスト認識エンジンは、撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることも好ましい。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1のコンテキスト認識エンジンは、撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることも好ましい。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
推定コンテキスト出力手段は、コンテキスト毎に、複数のコンテキスト認識エンジンによって認識された複数のスコアにおける加算値又は平均値に基づいて、最も高いスコアとなるコンテキストを出力する
ようにコンピュータを機能させることも好ましい。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
撮影映像は、所定単位時間に区分されており、
所定単位時間毎に、当該所定単位時間の初期段階で第1のコンテキスト認識エンジン及び第1の認識判定手段を実行し、第1の認識判定手段の判定に基づいて、その後に第2のコンテキスト認識エンジンを実行するか否かを決定する
ようにコンピュータを機能させることも好ましい。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第2のコンテキスト認識エンジンは、処理時間又は処理時間割合(単位時間当たりの当該処理時間の割合)を計測し、
第1の認識判定手段は、処理時間が所定閾値以上、又は、処理時間割合が所定閾値以上となる場合に、第1のコンテキスト認識エンジンのコンテキストを推定コンテキスト出力手段へ出力すると共に、第2のコンテキスト認識エンジンを実行する
してコンピュータを更に機能させることも好ましい。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1の認識判定手段によって偽と判定された際に、第2のコンテキスト認識エンジンを実行し、
第1の認識判定手段によって真と判定された際に、撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第3のコンテキスト認識エンジンとして更に機能させ、
推定コンテキスト出力手段は、第1の認識判定手段によって真と判定された際に、第2のコンテキスト認識エンジンのコンテキストの出力に代えて、少なくとも第3のコンテキスト認識エンジンのコンテキストを出力す
ようにコンピュータを機能させることも好ましい。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第2のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第2の認識判定手段と、
第2の認識判定手段によって真と判定された際に、撮影映像からコンテキストを認識する第3のコンテキスト認識エンジンと
して更に機能させ、
推定コンテキスト出力手段は、第2の認識判定手段によって真と判定された際に、第2のコンテキスト認識エンジンのコンテキストの出力に代えて、少なくとも第3のコンテキスト認識エンジンのコンテキストを出力する
ようにコンピュータを機能させることも好ましい。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1のコンテキスト認識エンジンは、撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定し、
第3のコンテキスト認識エンジンは、撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることも好ましい。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
推定コンテキスト出力手段は、コンテキスト毎に、複数のコンテキスト認識エンジンによって認識された複数のスコアにおける加算値又は平均値に基づいて、最も高いスコアとなるコンテキストを出力する
ようにコンピュータを機能させることも好ましい。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第2のコンテキスト認識エンジン及び/又は第3のコンテキスト認識エンジンは、処理時間又は処理時間割合(単位時間当たりの当該処理時間の割合)を計測し、
第1の認識判定手段は、処理時間が所定閾値以上、又は、処理時間割合が所定閾値以上となる場合に、第1のコンテキスト認識エンジンのコンテキストを推定コンテキスト出力手段へ出力すると共に、第2のコンテキスト認識エンジン及び/又は第3のコンテキスト認識エンジンを実行する
ようにコンピュータを更に機能させることも好ましい。
本発明によれば、撮影映像からコンテキストを推定するコンテキスト推定装置であって、
撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のコンテキスト認識エンジンと、
第1のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第1の認識判定手段と、
第1の認識判定手段によって真と判定された際に、撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第2のコンテキスト認識エンジンと、
第1の認識判定手段によって真と判定された際に、少なくとも2のコンテキスト認識エンジンによって認識されたコンテキストを出力する推定コンテキスト出力手段と
を有し、
第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンによって認識される複数のコンテキストの候補は同じものである
ことを特徴とする。
本発明によれば、撮影映像からコンテキストを推定する装置のコンテキスト推定方法であって、
装置は、
撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のステップと、
第1のステップによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第2のステップと、
第2のステップによって真と判定された際に、撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第3のステップと、
第2のステップによって真と判定された際に、少なくとも第3のステップによって認識されたコンテキストを出力する第4のステップと
を実行し、
第1のステップ及び第3のステップによって認識される複数のコンテキストの候補は同じものである
ことを特徴とする。
本発明のプログラム、装置及び方法によれば、撮影映像の内容に基づいて、人の行動を表すコンテキストを、できる限り高速且つ高精度に推定することができる。具体的には、学習モデルとしてのコンテキスト認識エンジンを、撮影映像の内容に基づいて自動的に選択することができる。
行動推定装置を有するシステム構成図である。 2つのコンテキスト認識エンジンを有する行動推定装置の機能構成図である。 図2におけるコンテキストの推定を表すフロー図である。 撮影映像に対する推定タイミングを表す説明図である。 2つのコンテキスト認識エンジンの組み合わせを表すフローチャートである。 3つのコンテキスト認識エンジンを有する行動推定装置の機能構成図である。 3つのコンテキスト認識エンジンの組み合わせを表すフローチャートである。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図2は、2つのコンテキスト認識エンジンを有する行動推定装置の機能構成図である。
図3は、図2におけるコンテキストの推定を表すフロー図である。
行動推定装置1は、人の行動が映り込む撮影映像を入力し、コンテキストを推定する。図2によれば、行動推定装置1は、主な構成として、第1のコンテキスト認識エンジン11と、第1の認識判定部12と、第2のコンテキスト認識エンジン13と、推定コンテキスト出力部14とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置の行動推定方法としても理解できる。
行動推定装置1は、異なる種類の複数のコンテキスト認識エンジンを有し、撮影映像を区分した所定期間毎に、高速で且つ高精度のコンテキスト認識エンジンを自動的に選択するように機能する。
[第1のコンテキスト認識エンジン11]
第1のコンテキスト認識エンジン11は、撮影映像から、第1のコンテキストを認識し、第1のコンテキストと第1のスコア(コンテキスト認識精度)とを対応付けて出力する。第1のコンテキスト認識エンジン11は、例えば「飲む」「食べる」「走る」のような人の行動を表すコンテキストを予め学習しているとする。
具体的には、撮影映像から以下のように第1のコンテキストを認識したとする。
[第1のコンテキスト]:[第1のスコア]
飲む : 0.3
食べる : 0.2
走る : 0.1
認識結果となる第1のコンテキスト及び第1のスコアは、第1の認識判定部12へ出力される。
[第1の認識判定部12]
第1の認識判定部12は、最初にオプション的に、第1のコンテキスト認識エンジン11で認識された最上位の第1のコンテキストについて、そのスコアが所定閾値(例えば90%)以上のように極めて高い場合、第2のコンテキスト認識エンジン13を実行することなく、その第1のコンテキストのみを推定コンテキスト出力部14へ出力するものであってもよい。
本発明によれば、第1の認識判定部12は、第1のコンテキスト認識エンジン11によって認識された複数のコンテキストにおける第1のスコアの差が所定閾値以下であるか否かを判定する。
具体的には、第1の認識判定部12は、第1のコンテキスト認識エンジン11によって認識された上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
スコアの差が大きいほど、1位のスコアのコンテキストにほぼ断定することができる。その場合、第1のコンテキスト認識エンジン11のみで推定した第1のコンテキストを出力することが好ましい。
一方で、スコアの差が小さいほど、上位2つのコンテキストが紛らわしいと判断される。その場合、別の種類のコンテキスト認識エンジンを更に実行し、そのコンテキストも用いて判断することが好ましい。
尚、所定閾値は、オペレータによって設定可能なものである。認識したいコンテキストが動きに基づくものである場合、所定閾値(スコアの差)を大きく設定することが好ましい。
前述した第1のコンテキストの例によれば、上位2つの認識結果とのスコアの差は、0.1である。ここで、所定閾値=0.2とした場合、上位2つのコンテキストにおけるスコアの差が所定閾値以下となり、「真」と判定される。
[第1のコンテキスト]:[第1のスコア]
(上位1位)飲む : 0.3
(上位2位)食べる : 0.2(※スコア差0.1=0.3−0.2)
第1の認識判定部12は、真と判定した場合、撮影映像を、第2のコンテキスト認識エンジン13へ出力する。一方で、偽と判定した場合、第1のコンテキストを、推定コンテキスト出力部14へ出力する。
[第2のコンテキスト認識エンジン13]
第2のコンテキスト認識エンジン13は、第1の認識判定部12によって真と判定された際に、撮影映像から、第2のコンテキストを認識し、第2のコンテキストと第2のスコアとを対応付けて出力する。第2のコンテキスト認識エンジン13も、例えば「飲む」「食べる」「走る」のような人の行動を表すコンテキストを予め学習しているとする。
具体的には、撮影映像から以下のように第2のコンテキストを認識したとする。
[第2のコンテキスト]:[第2のスコア]
飲む : 0.5
食べる : 0.2
走る : 0.0
認識結果となる第2のコンテキスト及び第2のスコアは、推定コンテキスト出力部14へ出力される。
[推定コンテキスト出力部14]
推定コンテキスト出力部14は、第1の認識判定部12によって真と判定された場合、第2のコンテキストを出力する。一方で、第1の認識判定部12によって偽と判定された場合、第1のコンテキストを出力する。
また、他の実施形態として、推定コンテキスト出力部14は、複数の第1のコンテキストそれぞれの第1のスコアと、複数の第2のコンテキストそれぞれの第2のスコアとの加算値又は平均値に基づいて、最も高いスコア(スコアの統合値)となるコンテキストを出力することも好ましい。
具体的には、以下のように推定コンテキストを出力する。
[コンテキスト]:[スコア(平均)]
飲む :(0.3+0.5)/2=0.40
食べる :(0.2+0.2)/2=0.20
走る :(0.1+0.0)/2=0.05
この場合、最終的に、コンテキスト「飲む」が、アプリケーションへ出力される。
尚、スコアの統合については、単純平均のみならず、加重平均であってよいし、サポートベクタマシンを用いたものであってもよい(例えば非特許文献3参照)。
尚、推定コンテキスト出力部14は、第1のコンテキストのスコア、第2のコンテキストのスコア、又は、第1及び第2のコンテキストのスコアの統合値(加算値又は平均値)が、所定閾値以下である場合、コンテキストの認識不可を出力する。
図4は、撮影映像に対する推定タイミングを表す説明図である。
撮影映像は、所定単位時間に区分されている。ここで、所定単位時間の中で、1行動当たりの認識に要する初期段階で、その後に使用すべきコンテキスト認識エンジンを自動的に選択する。即ち、所定単位時間毎に、第2のコンテキスト認識エンジン13を実行するか否かが決定されていく。
当該所定単位時間の初期段階で、第1のコンテキスト認識エンジン11及び第1の認識判定部12を実行し、第1の認識判定部12の判定に基づいて、その後に第2のコンテキスト認識エンジン13を実行するか否かを決定する。第1の認識判定部12によって「真」と判定された場合、その後の所定時間内では、第1のコンテキスト認識エンジン11及び第2のコンテキスト認識エンジン13の両方が実行される。両方が実行される場合、推定コンテキスト出力部14は、両方のスコアを統合(加算値又は平均値)してコンテキストを決定する。
一方で、当該所定単位時間の初期段階で、第1の認識判定部12によって「偽」と判定された場合、その後の所定時間内では、第1のコンテキスト認識エンジン11のみが実行される。
図2によれば、オプション的な構成として、第2のコンテキスト認識エンジン13は、処理時間又は処理時間割合を計測する。
このとき、第1の認識判定部12は、処理時間が所定閾値以上、又は、処理時間割合(単位時間当たりの第2のコンテキスト認識エンジンの処理時間の割合)が所定閾値以上となる場合に、第1のコンテキストを推定コンテキスト出力部14へ出力すると共に、第2のコンテキスト認識エンジンを実行する。第2のコンテキスト認識エンジン13における処理時間又は処理時間割合が長いということは、第1のコンテキストのみでは足りず、第2のコンテキストも必要としていることを意味する。この場合、第1の認識判定部12は、第1のコンテキスト及び第2のコンテキストの両方を、推定コンテキスト出力部14へ出力するように制御する。
図2によれば、例えば以下のような3つの種別のコンテキスト認識エンジンを備えており、これらを組み合わせて利用する。
RGB認識に基づく物体認識エンジン
オプティカルフローに基づく動体認識エンジン
スケルトン情報に基づく人物の関節領域認識エンジン
これらコンテキスト認識エンジンは、撮影映像から人の行動を推定するために、大量の学習映像から学習モデルを予め生成したものである。
RGB認識に基づく物体認識エンジンは、具体的にはCNN(Convolutional Neural Network)のようなニューラルネットワークを用いて、撮影映像に映り込むオブジェクト(対象物)を推定する。
オプティカルフローに基づく動体認識エンジンは、フレーム間で同一の特徴点が動いている箇所を抽出し、撮影映像の中の物体の動きを「ベクトル」で表すものである。
スケルトン情報に基づく人物の関節領域認識エンジンは、具体的にはOpenPose(登録商標)のようなスケルトンモデルを用いて、人の関節の特徴点を抽出するものである(例えば非特許文献7〜9参照)。OpenPoseとは、画像から複数の人間の体/手/顔のキーポイントをリアルタイムに検出可能なソフトウェアであって、GitHubによって公開されている。撮影映像に映る人の身体全体であれば、例えば15点のキーポイントを検出できる。
各コンテキスト認識エンジンは、以下のように特性が異なる。
[演算量][認識精度]
RGB認識に基づく物体認識エンジン : 小 低
オプティカルフローに基づく動体認識エンジン : 中 中
スケルトン情報に基づく人物の関節領域認識エンジン: 大 高
尚、物体認識、動体認識、関節領域認識では、一般に、人の行動を表すコンテキスト自体が異なる。本発明によれば、認識されるコンテキストを共通化している。
例えば物体認識によって「ペットボトル」「人物」を認識した上で、そのペットボトルと人物の口との位置から、コンテキスト「飲む」を認識する。
また、動体認識によってペットボトルが人物の口へ向かう動きから、コンテキスト「飲む」を認識する。
更に、関節領域認識によって人物の腕の角度とペットボトルとの位置から、コンテキスト「飲む」を認識する。
このように、同じコンテキストを認識する場合であっても、認識エンジンの種類によっては判断要素が異なっている。この場合でも、物体認識よりも、動体認識及び関節領域認識の方が、それら認識精度は高い。また、動体認識よりも、関節領域認識の方が、それら認識精度は高い。
図5は、2つのコンテキスト認識エンジンの組み合わせを表すフローチャートである。
[1]RGB認識+オプティカルフロー認識
[2]オプティカルフロー認識+スケルトン情報認識
[3]RGB認識+スケルトン情報認識
[1]RGB認識+オプティカルフロー認識(図5(a))
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、RGB画像に基づく物体認識によって、対象物としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S13)S12の判定が真である場合、第2のコンテキスト認識エンジン13が、撮影映像から、オプティカルフローに基づく動体認識によって、動体対象としての第2のコンテキストを推定する。
(S14)そして、S11及びS13の2つのコンテキストを統合した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
[2]オプティカルフロー認識+スケルトン情報認識(図5(b))
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、オプティカルフローに基づく動体認識によって、動体対象としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S13)S12の判定が真である場合、第2のコンテキスト認識エンジン13が、撮影映像から、スケルトン情報に基づく人物の関節領域認識によって、人物の関節領域としての第2のコンテキストを推定する。
(S14)そして、S11及びS13の2つのコンテキストを統合)した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
[3]RGB認識+スケルトン情報認識(図5(c))
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、RGB画像に基づく物体認識によって、対象物としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S13)S12の判定が真である場合、第2のコンテキスト認識エンジン13が、撮影映像から、スケルトン情報に基づく人物の関節領域認識によって、人物の関節領域としての第2のコンテキストを推定する。
(S14)そして、S11及びS13の2つのコンテキストを統合した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
図6は、3つのコンテキスト認識エンジンを有する本発明の行動推定装置の機能構成図である。
図6(a)によれば、第1の認識判定部12が、真(上位2つのスコアの差が所定閾値以下)と判定した場合、撮影映像を、第3のコンテキスト認識エンジン16へ出力する。一方で、偽と判定した場合、撮影映像を、第2のコンテキスト認識エンジン13へ出力する。この場合、第1のコンテキスト認識エンジン11は、第2のコンテキスト認識エンジン13と第3のコンテキスト認識エンジン16との切り替えのみのために用いられる。
スコアの差が小さいほど、上位2つのコンテキストが紛らわしいと判断される。その場合、認識処理が比較的低速でも、認識精度が比較的高い第3のコンテキスト認識エンジン16を使用する。
一方で、スコアの差が大きいほど、1位のスコアのコンテキストにほぼ断定することができる。その場合、認識精度が比較的低くても、認識処理が比較的高速な第2のコンテキスト認識エンジン13を使用する。
図6(b)によれば、第1の認識判定部12が、真(上位2つのスコアの差が所定閾値以下)と判定した場合、撮影映像を、第2のコンテキスト認識エンジン13へ出力する。一方で、偽と判定した場合、第1のコンテキスト認識エンジン11によって認識された第1のコンテキストを、推定コンテキスト出力部14へ出力する。これについては、前述した図2と同様である。
そして、第2のコンテキスト認識エンジン13は、認識した第2のコンテキストを、更に第2の認識判定部15へ出力する。
第2の認識判定部15は、第2のコンテキスト認識エンジン13によって認識された複数のコンテキストにおける第2のスコアの差が所定閾値以下であるか否かを判定する。
具体的には、第2の認識判定部15は、第2のコンテキスト認識エンジン13によって認識された上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
スコアの差が大きいほど、1位のスコアのコンテキストにほぼ断定することができる。その場合、第2のコンテキスト認識エンジン13のみで推定した第2のコンテキストを出力することが好ましい。
一方で、スコアの差が小さいほど、上位2つのコンテキストが紛らわしいと判断される。その場合、更に第3のコンテキスト認識エンジン16へ撮影映像を出力し、その第3のコンテキストも用いて判断することが好ましい。
推定コンテキスト出力部14は、第2の認識判定部15によって真と判定された場合、第3のコンテキストを出力し、偽と判定された場合、第2のコンテキストを出力する。尚、図2と同様に、第1の認識判定部12によって偽と判定された場合、第1のコンテキストを出力する。
また、他の実施形態として、推定コンテキスト出力部14は、複数の第1のコンテキストそれぞれの第1のスコアと、複数の第2のコンテキストそれぞれの第2のスコアと、複数の第3のコンテキストそれぞれの第3のスコアの加算値又は平均値に基づいて、最も高いスコア(スコアの統合値)となるコンテキストを出力することも好ましい。
更に、他の実施形態として、前述した図2と同様に、第2のコンテキスト認識エンジン13及び/又は第3のコンテキスト認識エンジン16は、処理時間又は処理時間割合(単位時間当たりの当該処理時間の割合)を計測するものであってもよい。
その場合、第2の認識判定部15は、処理時間が所定閾値以上、又は、処理時間割合が所定閾値以上となる場合に、第1のコンテキストを推定コンテキスト出力部14へ出力すると共に、第2のコンテキスト認識エンジン13及び/又は第3のコンテキスト認識エンジン16を実行する。前述と同様に、第2のコンテキスト認識エンジン13及び/又は第3のコンテキスト認識エンジン16における処理時間又は処理時間割合が長いということは、第1のコンテキストのみでは足りず、第2のコンテキスト及び/又は第3のコンテキストも必要としていることを意味する。この場合、第2の認識判定部15は、第2のコンテキスト及び/又は第3のコンテキストの両方を、推定コンテキスト出力部14へ出力するように制御する。
図7は、3つのコンテキスト認識エンジンの組み合わせを表すフローチャートである。
[4]RGB認識+オプティカルフロー認識orスケルトン情報認識
[5]RGB認識+オプティカルフロー認識+スケルトン情報認識
[4]RGB認識+オプティカルフロー認識orスケルトン情報認識(図6(a)、図7(a))
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、RGB画像に基づく物体認識によって、対象物としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S131)S12の判定が偽である場合、第2のコンテキスト認識エンジン13が、撮影映像から、オプティカルフローに基づく動体認識によって、動体対象としての第2のコンテキストを推定する。
(S132))S12の判定が真である場合、第3のコンテキスト認識エンジン16が、スケルトン情報に基づく人物の関節領域認識によって、人物の関節領域としての第3のコンテキストを推定する。
(S14)そして、S11、S131及びS132の2つのコンテキストを統合した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
[5]RGB認識+オプティカルフロー認識+スケルトン情報認識(図6(b)、図7(b))
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、RGB画像に基づく物体認識によって、対象物としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S131)S12の判定が真である場合、第2のコンテキスト認識エンジン13が、撮影映像から、オプティカルフローに基づく動体認識によって、動体対象としての第2のコンテキストを推定する。
(S132)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S133)S132の判定が真である場合、第3のコンテキスト認識エンジン16が、スケルトン情報に基づく人物の関節領域認識によって、人物の関節領域としての第3のコンテキストを推定する。
(S14)そして、S11、S131及びS133の2つのコンテキストを統合した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
本発明によれば、撮影映像に映り込む人の行動の変化が大きいほど、RGB認識のみならず、動体認識や人物の関節領域認識が実行される。
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、撮影映像の内容に基づいて、人の行動を表すコンテキストを、できる限り高速且つ高精度に推定することができる。具体的には、学習モデルとしてのコンテキスト認識エンジンを、撮影映像の内容に基づいて自動的に選択することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 行動推定装置
11 第1のコンテキスト認識エンジン
12 第1の認識判定部
13 第2のコンテキスト認識エンジン
14 推定コンテキスト出力部
15 第2の認識判定部
16 第3のコンテキスト認識エンジン
2 端末

Claims (16)

  1. 撮影映像からコンテキストを推定するようにコンピュータを機能させるコンテキスト推定プログラムであって、
    前記撮影映像からンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のコンテキスト認識エンジンと、
    第1のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第1の認識判定手段と、
    第1の認識判定手段によって真と判定された際に、前記撮影映像からンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第2のコンテキスト認識エンジンと、
    第1の認識判定手段によって真と判定された際に少なくとも2のコンテキスト認識エンジンによって認識されたコンテキストを出力する推定コンテキスト出力手段と
    して機能させ、
    第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンによって認識される複数のコンテキストの候補は同じものである
    ようにコンピュータを機能させることを特徴とするコンテキスト推定プログラム。
  2. 第1の認識判定手段は、第1のコンテキスト認識エンジンによって認識された上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する
    ようにコンピュータを機能させることを特徴とする請求項1に記載のコンテキスト推定プログラム。
  3. 第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンは、異なった認識処理を行うと共に、
    第1のコンテキスト認識エンジンの認識処理の演算量は、第2のコンテキスト認識エンジンの認識処理の演算量より少なく、
    第1のコンテキスト認識エンジンの認識処理の認識精度は、第2のコンテキスト認識エンジンの認識処理の認識精度より低くなる
    ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のコンテキスト推定プログラム。
  4. 第1のコンテキスト認識エンジンは、前記撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
    第2のコンテキスト認識エンジンは、前記撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定する
    ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のコンテキスト推定プログラム。
  5. 第1のコンテキスト認識エンジンは、前記撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定し、
    第2のコンテキスト認識エンジンは、前記撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
    ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のコンテキスト推定プログラム。
  6. 第1のコンテキスト認識エンジンは、前記撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
    第2のコンテキスト認識エンジンは、前記撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
    ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のコンテキスト推定プログラム。
  7. 前記推定コンテキスト出力手段は、コンテキスト毎に、複数のコンテキスト認識エンジンによって認識された複数のスコアにおける加算値又は平均値に基づいて、最も高いスコアとなるコンテキストを出力する
    ようにコンピュータを機能させることを特徴とする請求項1からのいずれか1項に記載のコンテキスト推定プログラム。
  8. 前記撮影映像は、所定単位時間に区分されており、
    所定単位時間毎に、当該所定単位時間の初期段階で第1のコンテキスト認識エンジン及び第1の認識判定手段を実行し、第1の認識判定手段の判定に基づいて、その後に第2のコンテキスト認識エンジンを実行するか否かを決定する
    ようにコンピュータを機能させることを特徴とする請求項1からのいずれか1項に記載のコンテキスト推定プログラム。
  9. 第2のコンテキスト認識エンジンは、処理時間又は処理時間割合(単位時間当たりの当該処理時間の割合)を計測し、
    第1の認識判定手段は、前記処理時間が所定閾値以上、又は、前記処理時間割合が所定閾値以上となる場合に、第1のコンテキスト認識エンジンのコンテキストを前記推定コンテキスト出力手段へ出力すると共に、第2のコンテキスト認識エンジンを実行する
    ようにコンピュータを更に機能させることを特徴とする請求項1からのいずれか1項に記載のコンテキスト推定プログラム。
  10. 第1の認識判定手段によって偽と判定された際に、第2のコンテキスト認識エンジンを実行し、
    第1の認識判定手段によって真と判定された際に、前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第3のコンテキスト認識エンジンとして更に機能させ、
    前記推定コンテキスト出力手段は、第1の認識判定手段によって真と判定された際に、第2のコンテキスト認識エンジンのコンテキストの出力に代えて、少なくとも第3のコンテキスト認識エンジンのコンテキストを出力す
    ようにコンピュータを機能させることを特徴とする請求項1からのいずれか1項に記載のコンテキスト推定プログラム。
  11. 第2のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第2の認識判定手段と、
    第2の認識判定手段によって真と判定された際に、前記撮影映像からコンテキストを認識する第3のコンテキスト認識エンジンと
    として更に機能させ、
    前記推定コンテキスト出力手段は、第2の認識判定手段によって真と判定された際に、第2のコンテキスト認識エンジンのコンテキストの出力に代えて、少なくとも第3のコンテキスト認識エンジンのコンテキストを出力する
    ようにコンピュータを機能させることを特徴とする請求項1からのいずれか1項に記載のコンテキスト推定プログラム。
  12. 第1のコンテキスト認識エンジンは、前記撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
    第2のコンテキスト認識エンジンは、前記撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定し、
    第3のコンテキスト認識エンジンは、前記撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
    ようにコンピュータを機能させることを特徴とする請求項10又は11に記載のコンテキスト推定プログラム。
  13. 前記推定コンテキスト出力手段は、コンテキスト毎に、複数のコンテキスト認識エンジンによって認識された複数のスコアにおける加算値又は平均値に基づいて、最も高いスコアとなるコンテキストを出力する
    ようにコンピュータを機能させることを特徴とする請求項10から12のいずれか1項に記載のコンテキスト推定プログラム。
  14. 第2のコンテキスト認識エンジン及び/又は第3のコンテキスト認識エンジンは、処理時間又は処理時間割合(単位時間当たりの当該処理時間の割合)を計測し、
    第1の認識判定手段は、前記処理時間が所定閾値以上、又は、前記処理時間割合が所定閾値以上となる場合に、第1のコンテキスト認識エンジンのコンテキストを前記推定コンテキスト出力手段へ出力すると共に、第2のコンテキスト認識エンジン及び/又は第3のコンテキスト認識エンジンを実行する
    ようにコンピュータを更に機能させることを特徴とする請求項10から13のいずれか1項に記載のコンテキスト推定プログラム。
  15. 撮影映像からコンテキストを推定するコンテキスト推定装置であって、
    前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のコンテキスト認識エンジンと、
    第1のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第1の認識判定手段と、
    第1の認識判定手段によって真と判定された際に、前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第2のコンテキスト認識エンジンと、
    第1の認識判定手段によって真と判定された際に、少なくとも2のコンテキスト認識エンジンによって認識されたコンテキストを出力する推定コンテキスト出力手段と
    を有し、
    第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンによって認識される複数のコンテキストの候補は同じものである
    ことを特徴とするコンテキスト推定装置。
  16. 撮影映像からコンテキストを推定する装置のコンテキスト推定方法であって、
    前記装置は、
    前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のステップと、
    第1のステップによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第2のステップと、
    第2のステップによって真と判定された際に、前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第3のステップと、
    第2のステップによって真と判定された際に、少なくとも第3のステップによって認識されたコンテキストを出力する第4のステップと
    を実行し、
    第1のステップ及び第3のステップによって認識される複数のコンテキストの候補は同じものである
    ことを特徴とする装置のコンテキスト推定方法。
JP2017227483A 2017-11-28 2017-11-28 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 Active JP6836985B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017227483A JP6836985B2 (ja) 2017-11-28 2017-11-28 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017227483A JP6836985B2 (ja) 2017-11-28 2017-11-28 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法

Publications (2)

Publication Number Publication Date
JP2019096252A JP2019096252A (ja) 2019-06-20
JP6836985B2 true JP6836985B2 (ja) 2021-03-03

Family

ID=66973027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017227483A Active JP6836985B2 (ja) 2017-11-28 2017-11-28 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法

Country Status (1)

Country Link
JP (1) JP6836985B2 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242566A (ja) * 2004-02-25 2005-09-08 Canon Inc 画像合成装置及び方法
JP4811255B2 (ja) * 2006-12-04 2011-11-09 トヨタ自動車株式会社 状態推定装置
JP2011215968A (ja) * 2010-03-31 2011-10-27 Namco Bandai Games Inc プログラム、情報記憶媒体及び物体認識システム
JP2013210875A (ja) * 2012-03-30 2013-10-10 Sony Corp 情報入力装置及び情報入力方法、並びにコンピューター・プログラム
JP6019947B2 (ja) * 2012-08-31 2016-11-02 オムロン株式会社 ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム
JP2015043141A (ja) * 2013-08-26 2015-03-05 キヤノン株式会社 ジェスチャ認識装置および制御プログラム
JPWO2017150211A1 (ja) * 2016-03-03 2018-12-27 コニカミノルタ株式会社 行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム

Also Published As

Publication number Publication date
JP2019096252A (ja) 2019-06-20

Similar Documents

Publication Publication Date Title
EP3418944B1 (en) Information processing apparatus, information processing method, and program
KR102364993B1 (ko) 제스처 인식 방법, 장치 및 디바이스
WO2016074128A1 (en) Image capturing apparatus and method
JP6904651B2 (ja) 複数の認識エンジンを用いて人物の行動を認識するプログラム、装置及び方法
WO2018025831A1 (ja) 人流推定装置、表示制御装置、人流推定方法および記録媒体
US8938092B2 (en) Image processing system, image capture apparatus, image processing apparatus, control method therefor, and program
CN109727275B (zh) 目标检测方法、装置、系统和计算机可读存储介质
CN107430687A (zh) 视频流的基于实体的时间分割
JP7093427B2 (ja) オブジェクト追跡方法および装置、電子設備並びに記憶媒体
JP6362085B2 (ja) 画像認識システム、画像認識方法およびプログラム
JP2016085487A (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
TWI489326B (zh) 操作區的決定方法與系統
CN109086725B (zh) 手部跟踪方法及机器可读存储介质
JP6906273B2 (ja) 映像データから人の骨格位置の変位の軌跡を描写するプログラム、装置及び方法
JP2007052609A (ja) 手領域検出装置及び手領域検出方法、並びにプログラム
JP6875058B2 (ja) 複数の認識エンジンを用いてコンテキストを推定するプログラム、装置及び方法
JP6103765B2 (ja) 行動認識装置、方法及びプログラム並びに認識器構築装置
JP2016099643A (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN111986229A (zh) 视频目标检测方法、装置及计算机系统
JP6836985B2 (ja) 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法
US11314968B2 (en) Information processing apparatus, control method, and program
US20220122341A1 (en) Target detection method and apparatus, electronic device, and computer storage medium
KR101909326B1 (ko) 얼굴 모션 변화에 따른 삼각 매쉬 모델을 활용하는 사용자 인터페이스 제어 방법 및 시스템
JP5128454B2 (ja) 瞼検出装置、瞼検出方法及びプログラム
CN112784813A (zh) 基于图像检测的动作识别数据集生成方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210208

R150 Certificate of patent or registration of utility model

Ref document number: 6836985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150