JP2019079357A

JP2019079357A - 所定画像領域をマスクした撮影映像を学習映像として選択する学習映像選択装置、プログラム及び方法

Info

Publication number: JP2019079357A
Application number: JP2017206712A
Authority: JP
Inventors: 和之田坂; Kazuyuki Tasaka; 柳原　広昌; Hiromasa Yanagihara; 広昌柳原
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2019-05-23
Anticipated expiration: 2037-10-26
Also published as: JP6789601B2

Abstract

【課題】撮影映像の中から所定画像領域をマスクすると共に、その撮影映像を学習映像として利用可能か否かを選択する学習映像選択装置等を提供する。【解決手段】学習映像選択装置は、撮影映像について、第１のコンテキストを認識可能か否かを判定する第１のコンテキスト認識手段と、第１のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段とを有する。そして、第１のコンテキスト認識手段は、マスク済み撮影映像を再帰的に入力し、第１のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する。【選択図】図２

Description

本発明は、学習モデルを構築する際に、学習映像として適した撮影映像を収集する技術に関する。

従来、深層学習技術に基づく学習モデルを用いて、撮影映像から人や物体を認識する技術がある。ここで、学習モデルを構築するために使用する学習映像に、個人を特定可能な顔画像や、様々なプライバシ画像が含まれることが好ましくないとする問題がある。そのために、学習映像には、全て公開可能であって且つ顔画像やプライバシ画像を含まない撮影映像を用いることが一般的となっている。

例えば、検索者に応じて、顔画像を加工した撮影映像を検索可能とする技術がある（例えば特許文献１参照）。この技術によれば、検索者の本人確認を実行した後、検索者が予め許可を得た人物の顔画像を検索キーとして登録する。そして、登録された人物以外の顔画像には、プライバシ保護の加工を施す。

更に、被写体を赤外線で撮影することによって、プライバシ画像に配慮する技術もある（例えば特許文献２参照）。この技術によれば、赤外線によって被写体を撮影した撮影データと、予め記憶された被写体の外形データとを比較する。外形データには提示情報が対応付けられており、撮影データと一致した外形データの提示情報が出力される。

更に、不特定多数の第三者に公開すべき撮影映像に対して、画像品質を損なうことなく、プライバシや肖像権を保護するべく編集する技術もある（例えば特許文献３参照）。この技術によれば、動画ストリームから特定の被写体を抽出し、その被写体の画像に対してマスク処理を施す。このとき、特定の被写体に対して、動画ストリームの解像度に基づく出力条件に応じて、マスク処理を施すか否かを判定する。

図１は、行動分析装置を有するシステム構成図である。

図１のシステムによれば、行動分析装置は、カメラの撮影映像に映り込む人の行動を分析するものであって、インターネットに接続することによってサーバとして機能する。行動分析装置は、例えば行動推定エンジンを有し、この学習モデルは、学習映像蓄積部に蓄積された学習映像によって構築されたものである。学習映像は、人の行動が映り込む撮影映像と、その行動対象とが対応付けられたものである。

行動推定エンジンは、例えば深層学習技術を用いたActivityNetであってもよい（例えば非特許文献１参照）。この技術によれば、多種多様な人の行動（例えば「歩く」「話す」「持つ」）が映り込む学習映像から作成された学習モデルを用いて、撮影映像に映り込む人の「行動対象」を分析することができる。
また、行動推定エンジンは、例えばTwo-stream ConvNetsであってもよい（例えば非特許文献２参照）。この技術によれば、空間方向のＣＮＮ(Spatial stream ConvNet)と時系列方向のＣＮＮ(Temporal stream ConvNet)とを用いて、画像中の物体や背景のアピアランスの特徴と、オプティカルフローの水平方向成分と垂直成分の系列における動きの特徴との両方を抽出することによって、高精度に行動を認識する。

図１のシステムによれば、端末はそれぞれ、カメラを搭載しており、人の行動を撮影した撮影映像を、行動分析装置１へ送信する。端末は、各ユーザによって所持されるスマートフォンや携帯端末であって、携帯電話網又は無線ＬＡＮのようなアクセスネットワークに接続する。
勿論、端末は、スマートフォン等に限られず、例えば宅内に設置されたＷｅｂカメラであってもよい。また、Ｗｅｂカメラによって撮影された映像データがＳＤカードに記録され、その記録された映像データが行動分析装置１に入力されるものであってもよい。

実運用としては、例えばモニターテストに参加したユーザに、自らのスマートフォンのカメラで、自らの行動を撮影してもらう。そのスマートフォンは、その映像を、行動分析装置へ送信する。行動分析装置は、その映像からユーザの行動を推定し、その推定結果を様々なアプリケーションで利用する。

特開２０１４−８９６２５号公報特開２０１６−１６９９９０号公報特開２０１４−４２２３４号公報

Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem and Juan Carlos Niebles, "ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding," CVPR2015.、[online]、［平成２９年１０月１９日検索］、インターネット＜URL: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Heilbron_ActivityNet_A_Large-Scale_2015_CVPR_paper.pdf＞ Karen Simonyan and Andrew Zisserman, "Two-Stream Convolutional Networks for Action Recognition in Videos," in NIPS 2014、[online]、［平成２９年１０月１９日検索］、インターネット＜URL:https://arxiv.org/abs/1406.2199＞ FaceNet: A Unified Embedding for Face Recognition and Clustering、[online]、［平成２９年１０月１９日検索］、インターネット＜URL:https://arxiv.org/abs/1503.03832＞「AIを使って顔画像から「常連さん」を判定しよう！」、[online]、［平成２９年１０月１９日検索］、インターネット＜URL:https://future-architect.github.io/articles/20170526/＞「どこまで見分ける!? デジカメ顔認識対決」、[online]、［平成２９年１０月１９日検索］、インターネット＜URL:http://news.mynavi.jp/articles/2007/08/07/face/001.html＞「世界が認めるNECの顔認証技術」、[online]、［平成２９年１０月１９日検索］、インターネット＜URL:http://jpn.nec.com/rd/research/DataAcquition/face.html＞ OpenPose、[online]、［平成２９年１０月１９日検索］、インターネット＜URL:https://github.com/CMU-Perceptual-Computing-Lab/openpose＞「動画や写真からボーンが検出できる OpenPose を試してみた」、[online]、［平成２９年１０月１９日検索］、インターネット＜URL:http://hackist.jp/?p=8285＞「OpenPoseがどんどんバージョンアップして3d pose estimationも試せるようになっている」、[online]、［平成２９年１０月１９日検索］、インターネット＜URL: http://izm-11.hatenablog.com/entry/2017/08/01/140945＞

行動分析装置は、学習モデルを構築するための適切な学習映像として、前述した特許文献１〜３によってプライバシ画像を除去した大量の撮影映像を用いることが好ましい。
しかしながら、当初の撮影映像からは、学習モデルにおけるコンテキスト（例えば人や物）を推定できていたにも拘わらず、その撮影映像からプライバシ画像を除去したことによって、コンテキストを推定できなくなる場合も多い。そのような撮影映像を学習映像として用いた場合、その学習映像に基づく学習モデルの認識精度を低下させることとなる。

また、学習モデルの認識精度を向上させるために、大量の撮影映像を必要とするが、プライバシ問題をクリアした撮影映像のみを収集することは、コストと技術的な手間とを要する。

そこで、本発明は、所定画像領域をマスクした撮影映像を、学習映像として利用可能か否かを選択することができる学習映像選択装置、プログラム及び方法を提供することを目的とする。

本発明によれば、撮影映像を入力し、第１のコンテキストを認識可能とする学習映像を選択する学習映像選択装置であって、
撮影映像について、第１のコンテキストを認識可能か否かを判定する第１のコンテキスト認識手段と、
第１のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と
を有し、
第１のコンテキスト認識手段は、マスク済み撮影映像を再帰的に入力し、第１のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
ことを特徴とする。

本発明の学習映像選択装置における他の実施形態によれば、
第１のコンテキスト認識手段は、人の行動対象を逐次に推定するものであることも好ましい。

本発明によれば、撮影映像を入力し、第１のコンテキストを認識可能とする学習映像を選択する学習映像選択装置であって、
撮影映像について、第１のコンテキストを認識可能か否かを判定する第１のコンテキスト認識手段と、
第１のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と、
マスク済み撮影映像について、第２のコンテキストを認識可能か否かを判定する第２のコンテキスト認識手段と
を有し、
第１のコンテキスト認識手段は、第２のコンテキスト認識手段によって真と判定されたマスク済み撮影映像を再帰的に入力し、第１のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
ことを特徴とする。

本発明の学習映像選択装置における他の実施形態によれば、
第１のコンテキスト認識手段は、人の行動対象を逐次に推定するものであり、
第２のコンテキスト認識手段は、人の関節領域を逐次に推定するもの、及び／又は、対象物を逐次に推定するものである
ことも好ましい。

本発明の学習映像選択装置における他の実施形態によれば、
撮影映像マスク手段は、マスクすべき画像領域を矩形領域で表し、当該矩形領域の外枠辺それぞれから当該撮影映像の外枠辺に向けて、マスクされてない上側、下側、左側及び右側に区分された各撮影映像を出力することも好ましい。

本発明の学習映像選択装置における他の実施形態によれば、
第１のコンテキスト認識手段は、偽と判定した撮影映像を、撮影映像マスク手段へ再帰的に入力し、
撮影映像マスク手段は、マスクする画像領域を所定条件下で狭める
ことも好ましい。

本発明の学習映像選択装置における他の実施形態によれば、
撮影映像マスク手段は、撮影映像から、顔検出に基づく画像領域をマスクする
ことも好ましい。

本発明の学習映像選択装置における他の実施形態によれば、
撮影映像マスク手段は、プライバシ画像を予め記憶しており、撮影映像から、当該プライバシ画像に所定条件以上で類似する画像領域をマスクする
ことも好ましい。

本発明によれば、撮影映像を入力し、第１のコンテキストを認識可能とする学習映像を選択する装置に搭載されたコンピュータを機能させる学習映像選択プログラムであって、
撮影映像について、第１のコンテキストを認識可能か否かを判定する第１のコンテキスト認識手段と、
第１のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と
してコンピュータを機能させ、
第１のコンテキスト認識手段は、マスク済み撮影映像を再帰的に入力し、第１のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
ようにコンピュータに機能させることを特徴とする。

本発明によれば、撮影映像を入力し、第１のコンテキストを認識可能とする学習映像を選択する装置に搭載されたコンピュータを機能させる学習映像選択プログラムであって、
撮影映像について、第１のコンテキストを認識可能か否かを判定する第１のコンテキスト認識手段と、
第１のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と、
マスク済み撮影映像について、第２のコンテキストを認識可能か否かを判定する第２のコンテキスト認識手段と
してコンピュータを機能させ、
第１のコンテキスト認識手段は、第２のコンテキスト認識手段によって真と判定されたマスク済み撮影映像を再帰的に入力し、第１のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
ようにコンピュータに機能させることを特徴とする。

本発明によれば、撮影映像を入力し、第１のコンテキストを認識可能とする学習映像を選択する装置の学習映像選択方法であって、
装置は、
撮影映像について、第１のコンテキストを認識可能か否かを判定する第１のステップと、
第１のステップによって真と判定された撮影映像について、所定画像領域をマスクする第２のステップと、
第２のステップにおけるマスク済み撮影映像について再帰的に、第１のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する第３のステップと
を実行することを特徴とする。

本発明によれば、撮影映像を入力し、第１のコンテキストを認識可能とする学習映像を選択する装置の学習映像選択方法であって、
装置は、
撮影映像について、第１のコンテキストを認識可能か否かを判定する第１のステップと、
第１のステップによって真と判定された撮影映像について、所定画像領域をマスクする第２のステップと、
マスク済み撮影映像について、第２のコンテキストを認識可能か否かを判定する第３のステップと、
第３のステップによって真と判定されたマスク済み撮影映像について再帰的に、第１のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する第４のステップと
を実行することを特徴とする。

本発明の学習映像選択装置、プログラム及び方法によれば、所定画像領域をマスクした撮影映像を、学習映像として利用可能か否かを選択することができる。

行動分析装置を有するシステム構成図である。本発明における学習映像選択装置の第１の機能構成図である。撮影映像に対する図１の各機能の処理を表す説明図である。本発明における学習映像選択装置の第２の機能構成図である。第２のコンテキスト認識部によって認識されるコンテキストを表す説明図である。撮影映像マスク部によってマスク領域が狭められた撮影映像を表す説明図である。撮影映像マスク部によってマスク領域で区分された複数の撮影映像を表す説明図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図２は、本発明における学習映像選択装置の第１の機能構成図である。
図３は、撮影映像に対する図１の各機能の処理を表す説明図である。

前述した図１の行動分析装置は、撮影映像から人の行動を推定する前提として、大量の学習映像から学習モデルを予め生成している。
ここで、本発明の行動分析装置は、学習映像に適した大量の学習映像を選択する学習映像選択機能（装置）を有する。学習映像選択機能は、撮影映像蓄積部１０１から撮影映像を入力し、選択された学習映像を学習映像蓄積部１０２へ出力する。これによって、学習映像蓄積部１０２は、学習映像選択機能によって選択された学習映像のみを蓄積する。
そして、既存の行動推定エンジンは、学習映像蓄積部１０２に蓄積された学習映像によって、学習モデルを構築する。
尚、撮影映像蓄積部１０１は、人の行動が映り込む大量の撮影映像を予め、通信ネットワークを介して端末から取得して蓄積したものであってもよい。

図２によれば、行動分析装置１の学習映像選択機能は、第１のコンテキスト認識部１１と、撮影映像マスク部１２とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置の学習映像選択方法としても理解できる。

［第１のコンテキスト認識部１１］
第１のコンテキスト認識部１１は、撮影映像について、第１のコンテキストを認識可能か否かを判定する。認識可能（真）と判定された撮影映像は、撮影映像マスク部１２へ出力され、認識不可（偽）と判定された撮影映像は、破棄される。
ここで、第１のコンテキスト認識部１１は、前述した行動推定エンジンと同じものである。具体的には、前述したように人の行動対象を逐次に推定するActivityNetやTwo-stream ConvNetsであってもよい。また、動いている領域抽出には、フレーム間で同一の特徴点が動いている箇所を抽出し、撮影映像の中の物体の動きを「ベクトル」で表すオプティカルフローであってもよい。

図３（ａ）によれば、第１のコンテキスト認識部１１に入力された撮影映像が表されている。
図３（ｂ）によれば、図３（ａ）の撮影映像から、人の行動が推定されている。ここでは、具体的に「洗濯物を畳む」という行動が推定されている。

また、第１のコンテキスト認識部１１は、再帰的に、後述する撮影映像マスク部１２からマスク済み撮影映像を再帰的に入力し、第１のコンテキストを認識可能か否かを判定する。そして、認識可能（真）と判定された撮影映像は、学習映像蓄積部１０２へ出力され、認識不可（偽）と判定された撮影映像は、破棄される。即ち、撮影映像について、所定画像領域をマスクすることによって、第１のコンテキストが認識できない場合、その撮影映像は学習映像として利用しないようにする。

［撮影映像マスク部１２］
撮影映像マスク部１２は、第１のコンテキスト認識部１１によって認識可能（真）と判定された撮影映像について、所定画像領域をマスクする。

ここで、所定画像領域とは、顔領域であってもよい。顔検出技術としては、例えばGoogle（登録商標）のFacenet（例えば非特許文献３及び４参照）や、デジタルカメラの顔検出機能（例えば非特許文献５参照）、ＮＥＣ（登録商標）の顔検出機能（例えば非特許文献６参照）がある。顔検出には、最少分類誤りに基づく一般化学習ベクトル量子化法を用いて、撮影映像の端から順に矩形領域を探索することによって、顔と合致する矩形領域を抽出する。

勿論、本発明によってマスクすべき画像領域は、顔検出に限られるものではない。例えば車のナンバープレートや表札などのプライバシ領域であってもよい。
撮影映像マスク部１２は、マスクすべき所定画像領域を、参照画像の局所特徴量として予め記憶しておき、その参照画像と類似する画像領域を抽出する。具体的には、ＳＩＦＴ(Scale-Invariant Feature Transform)やＳＵＲＦ(Speeded Up Robust Features)のようなアルゴリズムを用いることもできる。ここで抽出された画像領域を、撮影映像の中でマスクする。

マスクとは、その領域を、所定色（例えば黒）や不透明パターン等で塗りつぶすことを意味する。このマスク処理により、個人特定が不可能となる等、プライバシが保護されることとなる。

図３（ｃ）によれば、撮影映像マスク部１２によって検出された顔領域が表されている。
図３（ｄ）によれば、撮影映像の中で、検出された顔領域がマスクされている。

そして、撮影映像マスク部１２は、マスク済み撮影映像を、第１のコンテキスト認識部１１（行動推定エンジン）へフィードバックする。

尚、前述した図２によれば、学習映像選択機能は、第１のコンテキスト認識部１１へ試験映像を入力する試験映像蓄積部１０３と、その試験映像に対する推定結果を判定する推定結果判定部１４とを更に有する。
ここで、データセットとして、行動対象が予め付与された撮影映像は、学習映像（学習用データ）と試験映像（試験用データ）とに分類される。例えば、９割の撮影映像を学習映像として選択すると共に、残り１割の撮影映像を試験映像に割り当てる。推定結果判定部１４は、試験映像に対する行動推定結果と、その試験映像に付与された行動対象とを比較し、正否を判定する。多数の試験映像を入力することによって、当該学習モデルに基づく第１のコンテキスト認識部１１の認識精度を算出することができる。

図４は、本発明における学習映像選択装置の第２の機能構成図である。
図５は、第２のコンテキスト認識部によって認識されるコンテキストを表す説明図である。

図４によれば、図２と比較して、学習映像選択装置は更に、第２のコンテキスト認識部１３を有する。

［第２のコンテキスト認識部１３］
第２のコンテキスト認識部１３は、撮影映像マスク部１２から出力されたマスク済み撮影映像について、第２のコンテキストを認識可能か否かを判定する。第２のコンテキスト認識部１３は、第１のコンテキスト認識部１１とは異なるコンテキストを認識する。例えば以下のように異なる。
第１のコンテキスト認識部１１＝「人の行動対象」を逐次に推定するもの
第２のコンテキスト認識部１３＝「人の関節領域」を逐次に推定するもの、
及び／又は「対象物」を逐次に推定するもの

＜人の関節領域の推定＞
第２のコンテキスト認識部１３は、具体的にはOpenPose（登録商標）のようなスケルトンモデルを用いて、人の関節の特徴点を抽出する（例えば非特許文献７〜９参照）。
OpenPoseとは、画像から複数の人間の体／手／顔のキーポイントをリアルタイムに検出可能なソフトウェアであって、GitHubによって公開されている。撮影映像に映る人の身体全体であれば、例えば１５点のキーポイントを検出できる。
図５（ａ）によれば、撮影映像から人の関節領域が推定されている。

＜対象物領域の推定＞
第２のコンテキスト認識部１３は、具体的にはＣＮＮ(Convolutional Neural Network)のようなニューラルネットワークを用いて、撮影映像に映り込む対象物を推定することができる。
図５（ｂ）によれば、撮影映像から対象物が推定されている。具体的には「タオル」が物体認識されている。

そして、第２のコンテキスト認識部１３は、マスク済み撮影映像について、第２のコンテキストの認識結果（認識可能／認識不可）を、第１のコンテキスト認識部１１へフィードバックする。

図４によれば、第１のコンテキスト認識部１１は、第２のコンテキスト認識部１３によって真（第２のコンテキストの認識可能）と判定されたマスク済み撮影映像は、再帰的に、第１のコンテキストを認識可能か否かを判定する。そして、第１のコンテキストの認識可能（真）と判定された撮影映像のみを、学習映像として、学習映像蓄積部１０２へ出力する。

＜マスク済み撮影映像に対するコンテキストの認識の再帰的な繰り返し＞
図６は、撮影映像マスク部によってマスク領域が狭められた撮影映像を表す説明図である。
前述した図２及び図４の実施形態について、第１のコンテキスト認識部１１は、撮影映像マスク部１２から入力したマスク済み撮影映像について、偽（第１のコンテキストの認識不可）と判定した場合、再帰的に、撮影映像マスク部１２へ、そのマスク済み撮影映像を出力するものであってもよい。
ここで、撮影映像マスク部１２は、マスクする画像領域を所定条件下で狭める。この所定条件とは、具体的には、マスクする画像領域の矩形範囲を所定割合狭めるものである。即ち、コンテキストを認識すべき領域を拡大する。マスクの画像領域を狭めた場合であっても、個人特定が不可能となる等、プライバシが保護される必要はある。
撮影映像マスク部１２によってマスク領域が狭められたマスク済み撮影映像は、図２の場合には、第１のコンテキスト認識部１１へ再帰的に入力される。

＜撮影映像マスク部１２における他の実施形態のマスク方法＞
図７は、撮影映像マスク部によってマスク領域で区分された複数の撮影映像を表す説明図である。
前述した図３（ｄ）の実施形態によれば、撮影映像から所定画像領域を、例えば黒塗りとして単にマスクすることで説明した。
ここで、図７によれば、撮影映像マスク部１２は、マスクすべき画像領域を矩形領域で表し、当該矩形領域の外枠辺それぞれから当該撮影映像の外枠辺に向けて、マスクされてない上側、下側、左側及び右側に区分された各撮影映像を出力する。これら撮影画像はそれぞれ、図２の場合には第１のコンテキスト認識部１１へ、図４の場合には第２のコンテキスト認識部１３へ入力される。結果的に、第１のコンテキスト認識部１１でコンテキストが認識されたマスク済み撮影映像のみが、学習映像蓄積部１０２へ蓄積される。

以上、詳細に説明したように、本発明の学習映像選択装置、プログラム及び方法によれば、撮影映像の中から所定画像領域をマスクすると共に、その撮影映像を学習映像として利用可能か否かを選択することができる。
特に、本発明によれば、撮影映像から顔領域やプライバシ領域を除去したとしても、当初の撮影映像によって本来認識できていたコンテキストの認識を維持することができる。特に、深層学習のために認識可能なラベル化された行動対象に基づく撮影画像について、コンテキストが認識不可とならず、認識精度を向上させるために再学習を可能とする。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１行動分析装置
１０１撮影映像蓄積部
１０２学習映像蓄積部
１０３試験映像蓄積部
１１第１のコンテキスト認識部
１２撮影映像マスク部
１３第２のコンテキスト認識部
１４推定結果判定部

Claims

撮影映像を入力し、第１のコンテキストを認識可能とする学習映像を選択する学習映像選択装置であって、
前記撮影映像について、第１のコンテキストを認識可能か否かを判定する第１のコンテキスト認識手段と、
第１のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と
を有し、
第１のコンテキスト認識手段は、マスク済み撮影映像を再帰的に入力し、第１のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
ことを特徴とする学習映像選択装置。
第１のコンテキスト認識手段は、人の行動対象を逐次に推定するものである
ことを特徴とする請求項１に記載の学習映像選択装置。
撮影映像を入力し、第１のコンテキストを認識可能とする学習映像を選択する学習映像選択装置であって、
前記撮影映像について、第１のコンテキストを認識可能か否かを判定する第１のコンテキスト認識手段と、
第１のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と、
マスク済み撮影映像について、第２のコンテキストを認識可能か否かを判定する第２のコンテキスト認識手段と
を有し、
第１のコンテキスト認識手段は、第２のコンテキスト認識手段によって真と判定されたマスク済み撮影映像を再帰的に入力し、第１のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
ことを特徴とする学習映像選択装置。
第１のコンテキスト認識手段は、人の行動対象を逐次に推定するものであり、
第２のコンテキスト認識手段は、人の関節領域を逐次に推定するもの、及び／又は、対象物を逐次に推定するものである
ことを特徴とする請求項３に記載の学習映像選択装置。
前記撮影映像マスク手段は、マスクすべき画像領域を矩形領域で表し、当該矩形領域の外枠辺それぞれから当該撮影映像の外枠辺に向けて、マスクされてない上側、下側、左側及び右側に区分された各撮影映像を出力する
ことを特徴とする請求項１から４のいずれか１項に記載の学習映像選択装置。
第１のコンテキスト認識手段は、偽と判定した撮影映像を、前記撮影映像マスク手段へ再帰的に入力し、
前記撮影映像マスク手段は、マスクする画像領域を所定条件下で狭める
ことを特徴とする請求項１から５のいずれか１項に記載の学習映像選択装置。
前記撮影映像マスク手段は、撮影映像から、顔検出に基づく画像領域をマスクする
ことを特徴とする請求項１から６のいずれか１項に記載の学習映像選択装置。
前記撮影映像マスク手段は、プライバシ画像を予め記憶しており、撮影映像から、当該プライバシ画像に所定条件以上で類似する画像領域をマスクする
ことを特徴とする請求項１から７のいずれか１項に記載の学習映像選択装置。
撮影映像を入力し、第１のコンテキストを認識可能とする学習映像を選択する装置に搭載されたコンピュータを機能させる学習映像選択プログラムであって、
前記撮影映像について、第１のコンテキストを認識可能か否かを判定する第１のコンテキスト認識手段と、
第１のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と
してコンピュータを機能させ、
第１のコンテキスト認識手段は、マスク済み撮影映像を再帰的に入力し、第１のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
ようにコンピュータに機能させることを特徴とする学習映像選択プログラム。
撮影映像を入力し、第１のコンテキストを認識可能とする学習映像を選択する装置に搭載されたコンピュータを機能させる学習映像選択プログラムであって、
前記撮影映像について、第１のコンテキストを認識可能か否かを判定する第１のコンテキスト認識手段と、
第１のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と、
マスク済み撮影映像について、第２のコンテキストを認識可能か否かを判定する第２のコンテキスト認識手段と
してコンピュータを機能させ、
第１のコンテキスト認識手段は、第２のコンテキスト認識手段によって真と判定されたマスク済み撮影映像を再帰的に入力し、第１のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
ようにコンピュータに機能させることを特徴とする学習映像選択プログラム。
撮影映像を入力し、第１のコンテキストを認識可能とする学習映像を選択する装置の学習映像選択方法であって、
前記装置は、
前記撮影映像について、第１のコンテキストを認識可能か否かを判定する第１のステップと、
第１のステップによって真と判定された撮影映像について、所定画像領域をマスクする第２のステップと、
第２のステップにおけるマスク済み撮影映像について再帰的に、第１のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する第３のステップと
を実行することを特徴とする装置の学習映像選択方法。
撮影映像を入力し、第１のコンテキストを認識可能とする学習映像を選択する装置の学習映像選択方法であって、
前記装置は、
前記撮影映像について、第１のコンテキストを認識可能か否かを判定する第１のステップと、
第１のステップによって真と判定された撮影映像について、所定画像領域をマスクする第２のステップと、
マスク済み撮影映像について、第２のコンテキストを認識可能か否かを判定する第３のステップと、
第３のステップによって真と判定されたマスク済み撮影映像について再帰的に、第１のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する第４のステップと
を実行することを特徴とする装置の学習映像選択方法。