JP6836985B2 - 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 - Google Patents
撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 Download PDFInfo
- Publication number
- JP6836985B2 JP6836985B2 JP2017227483A JP2017227483A JP6836985B2 JP 6836985 B2 JP6836985 B2 JP 6836985B2 JP 2017227483 A JP2017227483 A JP 2017227483A JP 2017227483 A JP2017227483 A JP 2017227483A JP 6836985 B2 JP6836985 B2 JP 6836985B2
- Authority
- JP
- Japan
- Prior art keywords
- context
- recognition
- recognition engine
- engine
- captured image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
勿論、端末2は、スマートフォン等に限られず、例えば宅内に設置されたWebカメラであってもよい。また、Webカメラによって撮影された映像データがSDカードに記録され、その記録された映像データが行動推定装置1へ入力されるものであってもよい。
また、人の行動をするために、人の関節とその連携部分のスケルトン情報を抽出する技術もある(例えば非特許文献2参照)。
また、人が特定の行動タイプをとる可能性を予測する予測器モデルを生成する技術もある(例えば特許文献2参照)。この技術によれば、行動タイプの成功したインスタンスと失敗したインスタンスとを含むデータを収集する。これらデータから、異なるタイプの複数の予測器が生成され、その性能に基づいて予測器が選択される。
撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のコンテキスト認識エンジンと、
第1のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第1の認識判定手段と、
第1の認識判定手段によって真と判定された際に、撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第2のコンテキスト認識エンジンと、
第1の認識判定手段によって真と判定された際に、少なくとも第2のコンテキスト認識エンジンによって認識されたコンテキストを出力する推定コンテキスト出力手段と
して機能させ、
第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンによって認識される複数のコンテキストの候補は同じものである
ようにコンピュータを機能させることを特徴とする。
第1の認識判定手段は、第1のコンテキスト認識エンジンによって認識された上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する
ようにコンピュータを機能させることも好ましい。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンは、異なった認識処理を行うと共に、
第1のコンテキスト認識エンジンの認識処理の演算量は、第2のコンテキスト認識エンジンの認識処理の演算量より少なく、
第1のコンテキスト認識エンジンの認識処理の認識精度は、第2のコンテキスト認識エンジンの認識処理の認識精度より低くなる
ようにコンピュータを機能させることも好ましい。
第1のコンテキスト認識エンジンは、撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定する
ようにコンピュータを機能させることも好ましい。
第1のコンテキスト認識エンジンは、撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることも好ましい。
第1のコンテキスト認識エンジンは、撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることも好ましい。
推定コンテキスト出力手段は、コンテキスト毎に、複数のコンテキスト認識エンジンによって認識された複数のスコアにおける加算値又は平均値に基づいて、最も高いスコアとなるコンテキストを出力する
ようにコンピュータを機能させることも好ましい。
撮影映像は、所定単位時間に区分されており、
所定単位時間毎に、当該所定単位時間の初期段階で第1のコンテキスト認識エンジン及び第1の認識判定手段を実行し、第1の認識判定手段の判定に基づいて、その後に第2のコンテキスト認識エンジンを実行するか否かを決定する
ようにコンピュータを機能させることも好ましい。
第2のコンテキスト認識エンジンは、処理時間又は処理時間割合(単位時間当たりの当該処理時間の割合)を計測し、
第1の認識判定手段は、処理時間が所定閾値以上、又は、処理時間割合が所定閾値以上となる場合に、第1のコンテキスト認識エンジンのコンテキストを推定コンテキスト出力手段へ出力すると共に、第2のコンテキスト認識エンジンを実行する
してコンピュータを更に機能させることも好ましい。
第1の認識判定手段によって偽と判定された際に、第2のコンテキスト認識エンジンを実行し、
第1の認識判定手段によって真と判定された際に、撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第3のコンテキスト認識エンジンとして更に機能させ、
推定コンテキスト出力手段は、第1の認識判定手段によって真と判定された際に、第2のコンテキスト認識エンジンのコンテキストの出力に代えて、少なくとも第3のコンテキスト認識エンジンのコンテキストを出力する
ようにコンピュータを機能させることも好ましい。
第2のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第2の認識判定手段と、
第2の認識判定手段によって真と判定された際に、撮影映像からコンテキストを認識する第3のコンテキスト認識エンジンと
して更に機能させ、
推定コンテキスト出力手段は、第2の認識判定手段によって真と判定された際に、第2のコンテキスト認識エンジンのコンテキストの出力に代えて、少なくとも第3のコンテキスト認識エンジンのコンテキストを出力する
ようにコンピュータを機能させることも好ましい。
第1のコンテキスト認識エンジンは、撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定し、
第3のコンテキスト認識エンジンは、撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることも好ましい。
推定コンテキスト出力手段は、コンテキスト毎に、複数のコンテキスト認識エンジンによって認識された複数のスコアにおける加算値又は平均値に基づいて、最も高いスコアとなるコンテキストを出力する
ようにコンピュータを機能させることも好ましい。
第2のコンテキスト認識エンジン及び/又は第3のコンテキスト認識エンジンは、処理時間又は処理時間割合(単位時間当たりの当該処理時間の割合)を計測し、
第1の認識判定手段は、処理時間が所定閾値以上、又は、処理時間割合が所定閾値以上となる場合に、第1のコンテキスト認識エンジンのコンテキストを推定コンテキスト出力手段へ出力すると共に、第2のコンテキスト認識エンジン及び/又は第3のコンテキスト認識エンジンを実行する
ようにコンピュータを更に機能させることも好ましい。
撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のコンテキスト認識エンジンと、
第1のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第1の認識判定手段と、
第1の認識判定手段によって真と判定された際に、撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第2のコンテキスト認識エンジンと、
第1の認識判定手段によって真と判定された際に、少なくとも第2のコンテキスト認識エンジンによって認識されたコンテキストを出力する推定コンテキスト出力手段と
を有し、
第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンによって認識される複数のコンテキストの候補は同じものである
ことを特徴とする。
装置は、
撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のステップと、
第1のステップによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第2のステップと、
第2のステップによって真と判定された際に、撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第3のステップと、
第2のステップによって真と判定された際に、少なくとも第3のステップによって認識されたコンテキストを出力する第4のステップと
を実行し、
第1のステップ及び第3のステップによって認識される複数のコンテキストの候補は同じものである
ことを特徴とする。
図3は、図2におけるコンテキストの推定を表すフロー図である。
第1のコンテキスト認識エンジン11は、撮影映像から、第1のコンテキストを認識し、第1のコンテキストと第1のスコア(コンテキスト認識精度)とを対応付けて出力する。第1のコンテキスト認識エンジン11は、例えば「飲む」「食べる」「走る」のような人の行動を表すコンテキストを予め学習しているとする。
具体的には、撮影映像から以下のように第1のコンテキストを認識したとする。
[第1のコンテキスト]:[第1のスコア]
飲む : 0.3
食べる : 0.2
走る : 0.1
認識結果となる第1のコンテキスト及び第1のスコアは、第1の認識判定部12へ出力される。
第1の認識判定部12は、最初にオプション的に、第1のコンテキスト認識エンジン11で認識された最上位の第1のコンテキストについて、そのスコアが所定閾値(例えば90%)以上のように極めて高い場合、第2のコンテキスト認識エンジン13を実行することなく、その第1のコンテキストのみを推定コンテキスト出力部14へ出力するものであってもよい。
具体的には、第1の認識判定部12は、第1のコンテキスト認識エンジン11によって認識された上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
スコアの差が大きいほど、1位のスコアのコンテキストにほぼ断定することができる。その場合、第1のコンテキスト認識エンジン11のみで推定した第1のコンテキストを出力することが好ましい。
一方で、スコアの差が小さいほど、上位2つのコンテキストが紛らわしいと判断される。その場合、別の種類のコンテキスト認識エンジンを更に実行し、そのコンテキストも用いて判断することが好ましい。
尚、所定閾値は、オペレータによって設定可能なものである。認識したいコンテキストが動きに基づくものである場合、所定閾値(スコアの差)を大きく設定することが好ましい。
[第1のコンテキスト]:[第1のスコア]
(上位1位)飲む : 0.3
(上位2位)食べる : 0.2(※スコア差0.1=0.3−0.2)
第1の認識判定部12は、真と判定した場合、撮影映像を、第2のコンテキスト認識エンジン13へ出力する。一方で、偽と判定した場合、第1のコンテキストを、推定コンテキスト出力部14へ出力する。
第2のコンテキスト認識エンジン13は、第1の認識判定部12によって真と判定された際に、撮影映像から、第2のコンテキストを認識し、第2のコンテキストと第2のスコアとを対応付けて出力する。第2のコンテキスト認識エンジン13も、例えば「飲む」「食べる」「走る」のような人の行動を表すコンテキストを予め学習しているとする。
具体的には、撮影映像から以下のように第2のコンテキストを認識したとする。
[第2のコンテキスト]:[第2のスコア]
飲む : 0.5
食べる : 0.2
走る : 0.0
認識結果となる第2のコンテキスト及び第2のスコアは、推定コンテキスト出力部14へ出力される。
推定コンテキスト出力部14は、第1の認識判定部12によって真と判定された場合、第2のコンテキストを出力する。一方で、第1の認識判定部12によって偽と判定された場合、第1のコンテキストを出力する。
具体的には、以下のように推定コンテキストを出力する。
[コンテキスト]:[スコア(平均)]
飲む :(0.3+0.5)/2=0.40
食べる :(0.2+0.2)/2=0.20
走る :(0.1+0.0)/2=0.05
この場合、最終的に、コンテキスト「飲む」が、アプリケーションへ出力される。
尚、スコアの統合については、単純平均のみならず、加重平均であってよいし、サポートベクタマシンを用いたものであってもよい(例えば非特許文献3参照)。
一方で、当該所定単位時間の初期段階で、第1の認識判定部12によって「偽」と判定された場合、その後の所定時間内では、第1のコンテキスト認識エンジン11のみが実行される。
RGB認識に基づく物体認識エンジン
オプティカルフローに基づく動体認識エンジン
スケルトン情報に基づく人物の関節領域認識エンジン
これらコンテキスト認識エンジンは、撮影映像から人の行動を推定するために、大量の学習映像から学習モデルを予め生成したものである。
オプティカルフローに基づく動体認識エンジンは、フレーム間で同一の特徴点が動いている箇所を抽出し、撮影映像の中の物体の動きを「ベクトル」で表すものである。
スケルトン情報に基づく人物の関節領域認識エンジンは、具体的にはOpenPose(登録商標)のようなスケルトンモデルを用いて、人の関節の特徴点を抽出するものである(例えば非特許文献7〜9参照)。OpenPoseとは、画像から複数の人間の体/手/顔のキーポイントをリアルタイムに検出可能なソフトウェアであって、GitHubによって公開されている。撮影映像に映る人の身体全体であれば、例えば15点のキーポイントを検出できる。
[演算量][認識精度]
RGB認識に基づく物体認識エンジン : 小 低
オプティカルフローに基づく動体認識エンジン : 中 中
スケルトン情報に基づく人物の関節領域認識エンジン: 大 高
例えば物体認識によって「ペットボトル」「人物」を認識した上で、そのペットボトルと人物の口との位置から、コンテキスト「飲む」を認識する。
また、動体認識によってペットボトルが人物の口へ向かう動きから、コンテキスト「飲む」を認識する。
更に、関節領域認識によって人物の腕の角度とペットボトルとの位置から、コンテキスト「飲む」を認識する。
このように、同じコンテキストを認識する場合であっても、認識エンジンの種類によっては判断要素が異なっている。この場合でも、物体認識よりも、動体認識及び関節領域認識の方が、それら認識精度は高い。また、動体認識よりも、関節領域認識の方が、それら認識精度は高い。
[1]RGB認識+オプティカルフロー認識
[2]オプティカルフロー認識+スケルトン情報認識
[3]RGB認識+スケルトン情報認識
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、RGB画像に基づく物体認識によって、対象物としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S13)S12の判定が真である場合、第2のコンテキスト認識エンジン13が、撮影映像から、オプティカルフローに基づく動体認識によって、動体対象としての第2のコンテキストを推定する。
(S14)そして、S11及びS13の2つのコンテキストを統合した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、オプティカルフローに基づく動体認識によって、動体対象としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S13)S12の判定が真である場合、第2のコンテキスト認識エンジン13が、撮影映像から、スケルトン情報に基づく人物の関節領域認識によって、人物の関節領域としての第2のコンテキストを推定する。
(S14)そして、S11及びS13の2つのコンテキストを統合)した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、RGB画像に基づく物体認識によって、対象物としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S13)S12の判定が真である場合、第2のコンテキスト認識エンジン13が、撮影映像から、スケルトン情報に基づく人物の関節領域認識によって、人物の関節領域としての第2のコンテキストを推定する。
(S14)そして、S11及びS13の2つのコンテキストを統合した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
一方で、スコアの差が大きいほど、1位のスコアのコンテキストにほぼ断定することができる。その場合、認識精度が比較的低くても、認識処理が比較的高速な第2のコンテキスト認識エンジン13を使用する。
そして、第2のコンテキスト認識エンジン13は、認識した第2のコンテキストを、更に第2の認識判定部15へ出力する。
具体的には、第2の認識判定部15は、第2のコンテキスト認識エンジン13によって認識された上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
スコアの差が大きいほど、1位のスコアのコンテキストにほぼ断定することができる。その場合、第2のコンテキスト認識エンジン13のみで推定した第2のコンテキストを出力することが好ましい。
一方で、スコアの差が小さいほど、上位2つのコンテキストが紛らわしいと判断される。その場合、更に第3のコンテキスト認識エンジン16へ撮影映像を出力し、その第3のコンテキストも用いて判断することが好ましい。
その場合、第2の認識判定部15は、処理時間が所定閾値以上、又は、処理時間割合が所定閾値以上となる場合に、第1のコンテキストを推定コンテキスト出力部14へ出力すると共に、第2のコンテキスト認識エンジン13及び/又は第3のコンテキスト認識エンジン16を実行する。前述と同様に、第2のコンテキスト認識エンジン13及び/又は第3のコンテキスト認識エンジン16における処理時間又は処理時間割合が長いということは、第1のコンテキストのみでは足りず、第2のコンテキスト及び/又は第3のコンテキストも必要としていることを意味する。この場合、第2の認識判定部15は、第2のコンテキスト及び/又は第3のコンテキストの両方を、推定コンテキスト出力部14へ出力するように制御する。
[4]RGB認識+オプティカルフロー認識orスケルトン情報認識
[5]RGB認識+オプティカルフロー認識+スケルトン情報認識
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、RGB画像に基づく物体認識によって、対象物としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S131)S12の判定が偽である場合、第2のコンテキスト認識エンジン13が、撮影映像から、オプティカルフローに基づく動体認識によって、動体対象としての第2のコンテキストを推定する。
(S132))S12の判定が真である場合、第3のコンテキスト認識エンジン16が、スケルトン情報に基づく人物の関節領域認識によって、人物の関節領域としての第3のコンテキストを推定する。
(S14)そして、S11、S131及びS132の2つのコンテキストを統合した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、RGB画像に基づく物体認識によって、対象物としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S131)S12の判定が真である場合、第2のコンテキスト認識エンジン13が、撮影映像から、オプティカルフローに基づく動体認識によって、動体対象としての第2のコンテキストを推定する。
(S132)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S133)S132の判定が真である場合、第3のコンテキスト認識エンジン16が、スケルトン情報に基づく人物の関節領域認識によって、人物の関節領域としての第3のコンテキストを推定する。
(S14)そして、S11、S131及びS133の2つのコンテキストを統合した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
11 第1のコンテキスト認識エンジン
12 第1の認識判定部
13 第2のコンテキスト認識エンジン
14 推定コンテキスト出力部
15 第2の認識判定部
16 第3のコンテキスト認識エンジン
2 端末
Claims (16)
- 撮影映像からコンテキストを推定するようにコンピュータを機能させるコンテキスト推定プログラムであって、
前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のコンテキスト認識エンジンと、
第1のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第1の認識判定手段と、
第1の認識判定手段によって真と判定された際に、前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第2のコンテキスト認識エンジンと、
第1の認識判定手段によって真と判定された際に、少なくとも第2のコンテキスト認識エンジンによって認識されたコンテキストを出力する推定コンテキスト出力手段と
して機能させ、
第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンによって認識される複数のコンテキストの候補は同じものである
ようにコンピュータを機能させることを特徴とするコンテキスト推定プログラム。 - 第1の認識判定手段は、第1のコンテキスト認識エンジンによって認識された上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する
ようにコンピュータを機能させることを特徴とする請求項1に記載のコンテキスト推定プログラム。 - 第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンは、異なった認識処理を行うと共に、
第1のコンテキスト認識エンジンの認識処理の演算量は、第2のコンテキスト認識エンジンの認識処理の演算量より少なく、
第1のコンテキスト認識エンジンの認識処理の認識精度は、第2のコンテキスト認識エンジンの認識処理の認識精度より低くなる
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のコンテキスト推定プログラム。 - 第1のコンテキスト認識エンジンは、前記撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、前記撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のコンテキスト推定プログラム。 - 第1のコンテキスト認識エンジンは、前記撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、前記撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のコンテキスト推定プログラム。 - 第1のコンテキスト認識エンジンは、前記撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、前記撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のコンテキスト推定プログラム。 - 前記推定コンテキスト出力手段は、コンテキスト毎に、複数のコンテキスト認識エンジンによって認識された複数のスコアにおける加算値又は平均値に基づいて、最も高いスコアとなるコンテキストを出力する
ようにコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載のコンテキスト推定プログラム。 - 前記撮影映像は、所定単位時間に区分されており、
所定単位時間毎に、当該所定単位時間の初期段階で第1のコンテキスト認識エンジン及び第1の認識判定手段を実行し、第1の認識判定手段の判定に基づいて、その後に第2のコンテキスト認識エンジンを実行するか否かを決定する
ようにコンピュータを機能させることを特徴とする請求項1から7のいずれか1項に記載のコンテキスト推定プログラム。 - 第2のコンテキスト認識エンジンは、処理時間又は処理時間割合(単位時間当たりの当該処理時間の割合)を計測し、
第1の認識判定手段は、前記処理時間が所定閾値以上、又は、前記処理時間割合が所定閾値以上となる場合に、第1のコンテキスト認識エンジンのコンテキストを前記推定コンテキスト出力手段へ出力すると共に、第2のコンテキスト認識エンジンを実行する
ようにコンピュータを更に機能させることを特徴とする請求項1から8のいずれか1項に記載のコンテキスト推定プログラム。 - 第1の認識判定手段によって偽と判定された際に、第2のコンテキスト認識エンジンを実行し、
第1の認識判定手段によって真と判定された際に、前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第3のコンテキスト認識エンジンとして更に機能させ、
前記推定コンテキスト出力手段は、第1の認識判定手段によって真と判定された際に、第2のコンテキスト認識エンジンのコンテキストの出力に代えて、少なくとも第3のコンテキスト認識エンジンのコンテキストを出力する
ようにコンピュータを機能させることを特徴とする請求項1から9のいずれか1項に記載のコンテキスト推定プログラム。 - 第2のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第2の認識判定手段と、
第2の認識判定手段によって真と判定された際に、前記撮影映像からコンテキストを認識する第3のコンテキスト認識エンジンと
として更に機能させ、
前記推定コンテキスト出力手段は、第2の認識判定手段によって真と判定された際に、第2のコンテキスト認識エンジンのコンテキストの出力に代えて、少なくとも第3のコンテキスト認識エンジンのコンテキストを出力する
ようにコンピュータを機能させることを特徴とする請求項1から9のいずれか1項に記載のコンテキスト推定プログラム。 - 第1のコンテキスト認識エンジンは、前記撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、前記撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定し、
第3のコンテキスト認識エンジンは、前記撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることを特徴とする請求項10又は11に記載のコンテキスト推定プログラム。 - 前記推定コンテキスト出力手段は、コンテキスト毎に、複数のコンテキスト認識エンジンによって認識された複数のスコアにおける加算値又は平均値に基づいて、最も高いスコアとなるコンテキストを出力する
ようにコンピュータを機能させることを特徴とする請求項10から12のいずれか1項に記載のコンテキスト推定プログラム。 - 第2のコンテキスト認識エンジン及び/又は第3のコンテキスト認識エンジンは、処理時間又は処理時間割合(単位時間当たりの当該処理時間の割合)を計測し、
第1の認識判定手段は、前記処理時間が所定閾値以上、又は、前記処理時間割合が所定閾値以上となる場合に、第1のコンテキスト認識エンジンのコンテキストを前記推定コンテキスト出力手段へ出力すると共に、第2のコンテキスト認識エンジン及び/又は第3のコンテキスト認識エンジンを実行する
ようにコンピュータを更に機能させることを特徴とする請求項10から13のいずれか1項に記載のコンテキスト推定プログラム。 - 撮影映像からコンテキストを推定するコンテキスト推定装置であって、
前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のコンテキスト認識エンジンと、
第1のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第1の認識判定手段と、
第1の認識判定手段によって真と判定された際に、前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第2のコンテキスト認識エンジンと、
第1の認識判定手段によって真と判定された際に、少なくとも第2のコンテキスト認識エンジンによって認識されたコンテキストを出力する推定コンテキスト出力手段と
を有し、
第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンによって認識される複数のコンテキストの候補は同じものである
ことを特徴とするコンテキスト推定装置。 - 撮影映像からコンテキストを推定する装置のコンテキスト推定方法であって、
前記装置は、
前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のステップと、
第1のステップによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第2のステップと、
第2のステップによって真と判定された際に、前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第3のステップと、
第2のステップによって真と判定された際に、少なくとも第3のステップによって認識されたコンテキストを出力する第4のステップと
を実行し、
第1のステップ及び第3のステップによって認識される複数のコンテキストの候補は同じものである
ことを特徴とする装置のコンテキスト推定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017227483A JP6836985B2 (ja) | 2017-11-28 | 2017-11-28 | 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017227483A JP6836985B2 (ja) | 2017-11-28 | 2017-11-28 | 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019096252A JP2019096252A (ja) | 2019-06-20 |
JP6836985B2 true JP6836985B2 (ja) | 2021-03-03 |
Family
ID=66973027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017227483A Active JP6836985B2 (ja) | 2017-11-28 | 2017-11-28 | 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6836985B2 (ja) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005242566A (ja) * | 2004-02-25 | 2005-09-08 | Canon Inc | 画像合成装置及び方法 |
JP4811255B2 (ja) * | 2006-12-04 | 2011-11-09 | トヨタ自動車株式会社 | 状態推定装置 |
JP2011215968A (ja) * | 2010-03-31 | 2011-10-27 | Namco Bandai Games Inc | プログラム、情報記憶媒体及び物体認識システム |
JP2013210875A (ja) * | 2012-03-30 | 2013-10-10 | Sony Corp | 情報入力装置及び情報入力方法、並びにコンピューター・プログラム |
JP6019947B2 (ja) * | 2012-08-31 | 2016-11-02 | オムロン株式会社 | ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム |
JP2015043141A (ja) * | 2013-08-26 | 2015-03-05 | キヤノン株式会社 | ジェスチャ認識装置および制御プログラム |
JPWO2017150211A1 (ja) * | 2016-03-03 | 2018-12-27 | コニカミノルタ株式会社 | 行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム |
-
2017
- 2017-11-28 JP JP2017227483A patent/JP6836985B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019096252A (ja) | 2019-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3418944B1 (en) | Information processing apparatus, information processing method, and program | |
KR102364993B1 (ko) | 제스처 인식 방법, 장치 및 디바이스 | |
WO2016074128A1 (en) | Image capturing apparatus and method | |
JP6904651B2 (ja) | 複数の認識エンジンを用いて人物の行動を認識するプログラム、装置及び方法 | |
WO2018025831A1 (ja) | 人流推定装置、表示制御装置、人流推定方法および記録媒体 | |
US8938092B2 (en) | Image processing system, image capture apparatus, image processing apparatus, control method therefor, and program | |
CN109727275B (zh) | 目标检测方法、装置、系统和计算机可读存储介质 | |
CN107430687A (zh) | 视频流的基于实体的时间分割 | |
JP7093427B2 (ja) | オブジェクト追跡方法および装置、電子設備並びに記憶媒体 | |
JP6362085B2 (ja) | 画像認識システム、画像認識方法およびプログラム | |
JP2016085487A (ja) | 情報処理装置、情報処理方法及びコンピュータプログラム | |
TWI489326B (zh) | 操作區的決定方法與系統 | |
CN109086725B (zh) | 手部跟踪方法及机器可读存储介质 | |
JP6906273B2 (ja) | 映像データから人の骨格位置の変位の軌跡を描写するプログラム、装置及び方法 | |
JP2007052609A (ja) | 手領域検出装置及び手領域検出方法、並びにプログラム | |
JP6875058B2 (ja) | 複数の認識エンジンを用いてコンテキストを推定するプログラム、装置及び方法 | |
JP6103765B2 (ja) | 行動認識装置、方法及びプログラム並びに認識器構築装置 | |
JP2016099643A (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
CN111986229A (zh) | 视频目标检测方法、装置及计算机系统 | |
JP6836985B2 (ja) | 撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 | |
US11314968B2 (en) | Information processing apparatus, control method, and program | |
US20220122341A1 (en) | Target detection method and apparatus, electronic device, and computer storage medium | |
KR101909326B1 (ko) | 얼굴 모션 변화에 따른 삼각 매쉬 모델을 활용하는 사용자 인터페이스 제어 방법 및 시스템 | |
JP5128454B2 (ja) | 瞼検出装置、瞼検出方法及びプログラム | |
CN112784813A (zh) | 基于图像检测的动作识别数据集生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210104 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6836985 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |