JP2019079357A - 所定画像領域をマスクした撮影映像を学習映像として選択する学習映像選択装置、プログラム及び方法 - Google Patents

所定画像領域をマスクした撮影映像を学習映像として選択する学習映像選択装置、プログラム及び方法 Download PDF

Info

Publication number
JP2019079357A
JP2019079357A JP2017206712A JP2017206712A JP2019079357A JP 2019079357 A JP2019079357 A JP 2019079357A JP 2017206712 A JP2017206712 A JP 2017206712A JP 2017206712 A JP2017206712 A JP 2017206712A JP 2019079357 A JP2019079357 A JP 2019079357A
Authority
JP
Japan
Prior art keywords
video
context
learning
photographed
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017206712A
Other languages
English (en)
Other versions
JP6789601B2 (ja
Inventor
和之 田坂
Kazuyuki Tasaka
和之 田坂
柳原 広昌
Hiromasa Yanagihara
広昌 柳原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2017206712A priority Critical patent/JP6789601B2/ja
Publication of JP2019079357A publication Critical patent/JP2019079357A/ja
Application granted granted Critical
Publication of JP6789601B2 publication Critical patent/JP6789601B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】撮影映像の中から所定画像領域をマスクすると共に、その撮影映像を学習映像として利用可能か否かを選択する学習映像選択装置等を提供する。【解決手段】学習映像選択装置は、撮影映像について、第1のコンテキストを認識可能か否かを判定する第1のコンテキスト認識手段と、第1のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段とを有する。そして、第1のコンテキスト認識手段は、マスク済み撮影映像を再帰的に入力し、第1のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する。【選択図】図2

Description

本発明は、学習モデルを構築する際に、学習映像として適した撮影映像を収集する技術に関する。
従来、深層学習技術に基づく学習モデルを用いて、撮影映像から人や物体を認識する技術がある。ここで、学習モデルを構築するために使用する学習映像に、個人を特定可能な顔画像や、様々なプライバシ画像が含まれることが好ましくないとする問題がある。そのために、学習映像には、全て公開可能であって且つ顔画像やプライバシ画像を含まない撮影映像を用いることが一般的となっている。
例えば、検索者に応じて、顔画像を加工した撮影映像を検索可能とする技術がある(例えば特許文献1参照)。この技術によれば、検索者の本人確認を実行した後、検索者が予め許可を得た人物の顔画像を検索キーとして登録する。そして、登録された人物以外の顔画像には、プライバシ保護の加工を施す。
更に、被写体を赤外線で撮影することによって、プライバシ画像に配慮する技術もある(例えば特許文献2参照)。この技術によれば、赤外線によって被写体を撮影した撮影データと、予め記憶された被写体の外形データとを比較する。外形データには提示情報が対応付けられており、撮影データと一致した外形データの提示情報が出力される。
更に、不特定多数の第三者に公開すべき撮影映像に対して、画像品質を損なうことなく、プライバシや肖像権を保護するべく編集する技術もある(例えば特許文献3参照)。この技術によれば、動画ストリームから特定の被写体を抽出し、その被写体の画像に対してマスク処理を施す。このとき、特定の被写体に対して、動画ストリームの解像度に基づく出力条件に応じて、マスク処理を施すか否かを判定する。
図1は、行動分析装置を有するシステム構成図である。
図1のシステムによれば、行動分析装置は、カメラの撮影映像に映り込む人の行動を分析するものであって、インターネットに接続することによってサーバとして機能する。行動分析装置は、例えば行動推定エンジンを有し、この学習モデルは、学習映像蓄積部に蓄積された学習映像によって構築されたものである。学習映像は、人の行動が映り込む撮影映像と、その行動対象とが対応付けられたものである。
行動推定エンジンは、例えば深層学習技術を用いたActivityNetであってもよい(例えば非特許文献1参照)。この技術によれば、多種多様な人の行動(例えば「歩く」「話す」「持つ」)が映り込む学習映像から作成された学習モデルを用いて、撮影映像に映り込む人の「行動対象」を分析することができる。
また、行動推定エンジンは、例えばTwo-stream ConvNetsであってもよい(例えば非特許文献2参照)。この技術によれば、空間方向のCNN(Spatial stream ConvNet)と時系列方向のCNN(Temporal stream ConvNet)とを用いて、画像中の物体や背景のアピアランスの特徴と、オプティカルフローの水平方向成分と垂直成分の系列における動きの特徴との両方を抽出することによって、高精度に行動を認識する。
図1のシステムによれば、端末はそれぞれ、カメラを搭載しており、人の行動を撮影した撮影映像を、行動分析装置1へ送信する。端末は、各ユーザによって所持されるスマートフォンや携帯端末であって、携帯電話網又は無線LANのようなアクセスネットワークに接続する。
勿論、端末は、スマートフォン等に限られず、例えば宅内に設置されたWebカメラであってもよい。また、Webカメラによって撮影された映像データがSDカードに記録され、その記録された映像データが行動分析装置1に入力されるものであってもよい。
実運用としては、例えばモニターテストに参加したユーザに、自らのスマートフォンのカメラで、自らの行動を撮影してもらう。そのスマートフォンは、その映像を、行動分析装置へ送信する。行動分析装置は、その映像からユーザの行動を推定し、その推定結果を様々なアプリケーションで利用する。
特開2014−89625号公報 特開2016−169990号公報 特開2014−42234号公報
Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem and Juan Carlos Niebles, "ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding," CVPR2015.、[online]、[平成29年10月19日検索]、インターネット<URL: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Heilbron_ActivityNet_A_Large-Scale_2015_CVPR_paper.pdf> Karen Simonyan and Andrew Zisserman, "Two-Stream Convolutional Networks for Action Recognition in Videos," in NIPS 2014、[online]、[平成29年10月19日検索]、インターネット<URL:https://arxiv.org/abs/1406.2199> FaceNet: A Unified Embedding for Face Recognition and Clustering、[online]、[平成29年10月19日検索]、インターネット<URL:https://arxiv.org/abs/1503.03832> 「AIを使って顔画像から「常連さん」を判定しよう!」、[online]、[平成29年10月19日検索]、インターネット<URL:https://future-architect.github.io/articles/20170526/> 「どこまで見分ける!? デジカメ顔認識対決」、[online]、[平成29年10月19日検索]、インターネット<URL:http://news.mynavi.jp/articles/2007/08/07/face/001.html> 「世界が認めるNECの顔認証技術」、[online]、[平成29年10月19日検索]、インターネット<URL:http://jpn.nec.com/rd/research/DataAcquition/face.html> OpenPose、[online]、[平成29年10月19日検索]、インターネット<URL:https://github.com/CMU-Perceptual-Computing-Lab/openpose> 「動画や写真からボーンが検出できる OpenPose を試してみた」、[online]、[平成29年10月19日検索]、インターネット<URL:http://hackist.jp/?p=8285> 「OpenPoseがどんどんバージョンアップして3d pose estimationも試せるようになっている」、[online]、[平成29年10月19日検索]、インターネット<URL: http://izm-11.hatenablog.com/entry/2017/08/01/140945>
行動分析装置は、学習モデルを構築するための適切な学習映像として、前述した特許文献1〜3によってプライバシ画像を除去した大量の撮影映像を用いることが好ましい。
しかしながら、当初の撮影映像からは、学習モデルにおけるコンテキスト(例えば人や物)を推定できていたにも拘わらず、その撮影映像からプライバシ画像を除去したことによって、コンテキストを推定できなくなる場合も多い。そのような撮影映像を学習映像として用いた場合、その学習映像に基づく学習モデルの認識精度を低下させることとなる。
また、学習モデルの認識精度を向上させるために、大量の撮影映像を必要とするが、プライバシ問題をクリアした撮影映像のみを収集することは、コストと技術的な手間とを要する。
そこで、本発明は、所定画像領域をマスクした撮影映像を、学習映像として利用可能か否かを選択することができる学習映像選択装置、プログラム及び方法を提供することを目的とする。
本発明によれば、撮影映像を入力し、第1のコンテキストを認識可能とする学習映像を選択する学習映像選択装置であって、
撮影映像について、第1のコンテキストを認識可能か否かを判定する第1のコンテキスト認識手段と、
第1のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と
を有し、
第1のコンテキスト認識手段は、マスク済み撮影映像を再帰的に入力し、第1のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
ことを特徴とする。
本発明の学習映像選択装置における他の実施形態によれば、
第1のコンテキスト認識手段は、人の行動対象を逐次に推定するものであることも好ましい。
本発明によれば、撮影映像を入力し、第1のコンテキストを認識可能とする学習映像を選択する学習映像選択装置であって、
撮影映像について、第1のコンテキストを認識可能か否かを判定する第1のコンテキスト認識手段と、
第1のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と、
マスク済み撮影映像について、第2のコンテキストを認識可能か否かを判定する第2のコンテキスト認識手段と
を有し、
第1のコンテキスト認識手段は、第2のコンテキスト認識手段によって真と判定されたマスク済み撮影映像を再帰的に入力し、第1のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
ことを特徴とする。
本発明の学習映像選択装置における他の実施形態によれば、
第1のコンテキスト認識手段は、人の行動対象を逐次に推定するものであり、
第2のコンテキスト認識手段は、人の関節領域を逐次に推定するもの、及び/又は、対象物を逐次に推定するものである
ことも好ましい。
本発明の学習映像選択装置における他の実施形態によれば、
撮影映像マスク手段は、マスクすべき画像領域を矩形領域で表し、当該矩形領域の外枠辺それぞれから当該撮影映像の外枠辺に向けて、マスクされてない上側、下側、左側及び右側に区分された各撮影映像を出力することも好ましい。
本発明の学習映像選択装置における他の実施形態によれば、
第1のコンテキスト認識手段は、偽と判定した撮影映像を、撮影映像マスク手段へ再帰的に入力し、
撮影映像マスク手段は、マスクする画像領域を所定条件下で狭める
ことも好ましい。
本発明の学習映像選択装置における他の実施形態によれば、
撮影映像マスク手段は、撮影映像から、顔検出に基づく画像領域をマスクする
ことも好ましい。
本発明の学習映像選択装置における他の実施形態によれば、
撮影映像マスク手段は、プライバシ画像を予め記憶しており、撮影映像から、当該プライバシ画像に所定条件以上で類似する画像領域をマスクする
ことも好ましい。
本発明によれば、撮影映像を入力し、第1のコンテキストを認識可能とする学習映像を選択する装置に搭載されたコンピュータを機能させる学習映像選択プログラムであって、
撮影映像について、第1のコンテキストを認識可能か否かを判定する第1のコンテキスト認識手段と、
第1のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と
してコンピュータを機能させ、
第1のコンテキスト認識手段は、マスク済み撮影映像を再帰的に入力し、第1のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
ようにコンピュータに機能させることを特徴とする。
本発明によれば、撮影映像を入力し、第1のコンテキストを認識可能とする学習映像を選択する装置に搭載されたコンピュータを機能させる学習映像選択プログラムであって、
撮影映像について、第1のコンテキストを認識可能か否かを判定する第1のコンテキスト認識手段と、
第1のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と、
マスク済み撮影映像について、第2のコンテキストを認識可能か否かを判定する第2のコンテキスト認識手段と
してコンピュータを機能させ、
第1のコンテキスト認識手段は、第2のコンテキスト認識手段によって真と判定されたマスク済み撮影映像を再帰的に入力し、第1のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
ようにコンピュータに機能させることを特徴とする。
本発明によれば、撮影映像を入力し、第1のコンテキストを認識可能とする学習映像を選択する装置の学習映像選択方法であって、
装置は、
撮影映像について、第1のコンテキストを認識可能か否かを判定する第1のステップと、
第1のステップによって真と判定された撮影映像について、所定画像領域をマスクする第2のステップと、
第2のステップにおけるマスク済み撮影映像について再帰的に、第1のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する第3のステップと
を実行することを特徴とする。
本発明によれば、撮影映像を入力し、第1のコンテキストを認識可能とする学習映像を選択する装置の学習映像選択方法であって、
装置は、
撮影映像について、第1のコンテキストを認識可能か否かを判定する第1のステップと、
第1のステップによって真と判定された撮影映像について、所定画像領域をマスクする第2のステップと、
マスク済み撮影映像について、第2のコンテキストを認識可能か否かを判定する第3のステップと、
第3のステップによって真と判定されたマスク済み撮影映像について再帰的に、第1のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する第4のステップと
を実行することを特徴とする。
本発明の学習映像選択装置、プログラム及び方法によれば、所定画像領域をマスクした撮影映像を、学習映像として利用可能か否かを選択することができる。
行動分析装置を有するシステム構成図である。 本発明における学習映像選択装置の第1の機能構成図である。 撮影映像に対する図1の各機能の処理を表す説明図である。 本発明における学習映像選択装置の第2の機能構成図である。 第2のコンテキスト認識部によって認識されるコンテキストを表す説明図である。 撮影映像マスク部によってマスク領域が狭められた撮影映像を表す説明図である。 撮影映像マスク部によってマスク領域で区分された複数の撮影映像を表す説明図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図2は、本発明における学習映像選択装置の第1の機能構成図である。
図3は、撮影映像に対する図1の各機能の処理を表す説明図である。
前述した図1の行動分析装置は、撮影映像から人の行動を推定する前提として、大量の学習映像から学習モデルを予め生成している。
ここで、本発明の行動分析装置は、学習映像に適した大量の学習映像を選択する学習映像選択機能(装置)を有する。学習映像選択機能は、撮影映像蓄積部101から撮影映像を入力し、選択された学習映像を学習映像蓄積部102へ出力する。これによって、学習映像蓄積部102は、学習映像選択機能によって選択された学習映像のみを蓄積する。
そして、既存の行動推定エンジンは、学習映像蓄積部102に蓄積された学習映像によって、学習モデルを構築する。
尚、撮影映像蓄積部101は、人の行動が映り込む大量の撮影映像を予め、通信ネットワークを介して端末から取得して蓄積したものであってもよい。
図2によれば、行動分析装置1の学習映像選択機能は、第1のコンテキスト認識部11と、撮影映像マスク部12とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置の学習映像選択方法としても理解できる。
[第1のコンテキスト認識部11]
第1のコンテキスト認識部11は、撮影映像について、第1のコンテキストを認識可能か否かを判定する。認識可能(真)と判定された撮影映像は、撮影映像マスク部12へ出力され、認識不可(偽)と判定された撮影映像は、破棄される。
ここで、第1のコンテキスト認識部11は、前述した行動推定エンジンと同じものである。具体的には、前述したように人の行動対象を逐次に推定するActivityNetやTwo-stream ConvNetsであってもよい。また、動いている領域抽出には、フレーム間で同一の特徴点が動いている箇所を抽出し、撮影映像の中の物体の動きを「ベクトル」で表すオプティカルフローであってもよい。
図3(a)によれば、第1のコンテキスト認識部11に入力された撮影映像が表されている。
図3(b)によれば、図3(a)の撮影映像から、人の行動が推定されている。ここでは、具体的に「洗濯物を畳む」という行動が推定されている。
また、第1のコンテキスト認識部11は、再帰的に、後述する撮影映像マスク部12からマスク済み撮影映像を再帰的に入力し、第1のコンテキストを認識可能か否かを判定する。そして、認識可能(真)と判定された撮影映像は、学習映像蓄積部102へ出力され、認識不可(偽)と判定された撮影映像は、破棄される。即ち、撮影映像について、所定画像領域をマスクすることによって、第1のコンテキストが認識できない場合、その撮影映像は学習映像として利用しないようにする。
[撮影映像マスク部12]
撮影映像マスク部12は、第1のコンテキスト認識部11によって認識可能(真)と判定された撮影映像について、所定画像領域をマスクする。
ここで、所定画像領域とは、顔領域であってもよい。顔検出技術としては、例えばGoogle(登録商標)のFacenet(例えば非特許文献3及び4参照)や、デジタルカメラの顔検出機能(例えば非特許文献5参照)、NEC(登録商標)の顔検出機能(例えば非特許文献6参照)がある。顔検出には、最少分類誤りに基づく一般化学習ベクトル量子化法を用いて、撮影映像の端から順に矩形領域を探索することによって、顔と合致する矩形領域を抽出する。
勿論、本発明によってマスクすべき画像領域は、顔検出に限られるものではない。例えば車のナンバープレートや表札などのプライバシ領域であってもよい。
撮影映像マスク部12は、マスクすべき所定画像領域を、参照画像の局所特徴量として予め記憶しておき、その参照画像と類似する画像領域を抽出する。具体的には、SIFT(Scale-Invariant Feature Transform)やSURF(Speeded Up Robust Features)のようなアルゴリズムを用いることもできる。ここで抽出された画像領域を、撮影映像の中でマスクする。
マスクとは、その領域を、所定色(例えば黒)や不透明パターン等で塗りつぶすことを意味する。このマスク処理により、個人特定が不可能となる等、プライバシが保護されることとなる。
図3(c)によれば、撮影映像マスク部12によって検出された顔領域が表されている。
図3(d)によれば、撮影映像の中で、検出された顔領域がマスクされている。
そして、撮影映像マスク部12は、マスク済み撮影映像を、第1のコンテキスト認識部11(行動推定エンジン)へフィードバックする。
尚、前述した図2によれば、学習映像選択機能は、第1のコンテキスト認識部11へ試験映像を入力する試験映像蓄積部103と、その試験映像に対する推定結果を判定する推定結果判定部14とを更に有する。
ここで、データセットとして、行動対象が予め付与された撮影映像は、学習映像(学習用データ)と試験映像(試験用データ)とに分類される。例えば、9割の撮影映像を学習映像として選択すると共に、残り1割の撮影映像を試験映像に割り当てる。推定結果判定部14は、試験映像に対する行動推定結果と、その試験映像に付与された行動対象とを比較し、正否を判定する。多数の試験映像を入力することによって、当該学習モデルに基づく第1のコンテキスト認識部11の認識精度を算出することができる。
図4は、本発明における学習映像選択装置の第2の機能構成図である。
図5は、第2のコンテキスト認識部によって認識されるコンテキストを表す説明図である。
図4によれば、図2と比較して、学習映像選択装置は更に、第2のコンテキスト認識部13を有する。
[第2のコンテキスト認識部13]
第2のコンテキスト認識部13は、撮影映像マスク部12から出力されたマスク済み撮影映像について、第2のコンテキストを認識可能か否かを判定する。第2のコンテキスト認識部13は、第1のコンテキスト認識部11とは異なるコンテキストを認識する。例えば以下のように異なる。
第1のコンテキスト認識部11=「人の行動対象」を逐次に推定するもの
第2のコンテキスト認識部13=「人の関節領域」を逐次に推定するもの、
及び/又は「対象物」を逐次に推定するもの
<人の関節領域の推定>
第2のコンテキスト認識部13は、具体的にはOpenPose(登録商標)のようなスケルトンモデルを用いて、人の関節の特徴点を抽出する(例えば非特許文献7〜9参照)。
OpenPoseとは、画像から複数の人間の体/手/顔のキーポイントをリアルタイムに検出可能なソフトウェアであって、GitHubによって公開されている。撮影映像に映る人の身体全体であれば、例えば15点のキーポイントを検出できる。
図5(a)によれば、撮影映像から人の関節領域が推定されている。
<対象物領域の推定>
第2のコンテキスト認識部13は、具体的にはCNN(Convolutional Neural Network)のようなニューラルネットワークを用いて、撮影映像に映り込む対象物を推定することができる。
図5(b)によれば、撮影映像から対象物が推定されている。具体的には「タオル」が物体認識されている。
そして、第2のコンテキスト認識部13は、マスク済み撮影映像について、第2のコンテキストの認識結果(認識可能/認識不可)を、第1のコンテキスト認識部11へフィードバックする。
図4によれば、第1のコンテキスト認識部11は、第2のコンテキスト認識部13によって真(第2のコンテキストの認識可能)と判定されたマスク済み撮影映像は、再帰的に、第1のコンテキストを認識可能か否かを判定する。そして、第1のコンテキストの認識可能(真)と判定された撮影映像のみを、学習映像として、学習映像蓄積部102へ出力する。
<マスク済み撮影映像に対するコンテキストの認識の再帰的な繰り返し>
図6は、撮影映像マスク部によってマスク領域が狭められた撮影映像を表す説明図である。
前述した図2及び図4の実施形態について、第1のコンテキスト認識部11は、撮影映像マスク部12から入力したマスク済み撮影映像について、偽(第1のコンテキストの認識不可)と判定した場合、再帰的に、撮影映像マスク部12へ、そのマスク済み撮影映像を出力するものであってもよい。
ここで、撮影映像マスク部12は、マスクする画像領域を所定条件下で狭める。この所定条件とは、具体的には、マスクする画像領域の矩形範囲を所定割合狭めるものである。即ち、コンテキストを認識すべき領域を拡大する。マスクの画像領域を狭めた場合であっても、個人特定が不可能となる等、プライバシが保護される必要はある。
撮影映像マスク部12によってマスク領域が狭められたマスク済み撮影映像は、図2の場合には、第1のコンテキスト認識部11へ再帰的に入力される。
<撮影映像マスク部12における他の実施形態のマスク方法>
図7は、撮影映像マスク部によってマスク領域で区分された複数の撮影映像を表す説明図である。
前述した図3(d)の実施形態によれば、撮影映像から所定画像領域を、例えば黒塗りとして単にマスクすることで説明した。
ここで、図7によれば、撮影映像マスク部12は、マスクすべき画像領域を矩形領域で表し、当該矩形領域の外枠辺それぞれから当該撮影映像の外枠辺に向けて、マスクされてない上側、下側、左側及び右側に区分された各撮影映像を出力する。これら撮影画像はそれぞれ、図2の場合には第1のコンテキスト認識部11へ、図4の場合には第2のコンテキスト認識部13へ入力される。結果的に、第1のコンテキスト認識部11でコンテキストが認識されたマスク済み撮影映像のみが、学習映像蓄積部102へ蓄積される。
以上、詳細に説明したように、本発明の学習映像選択装置、プログラム及び方法によれば、撮影映像の中から所定画像領域をマスクすると共に、その撮影映像を学習映像として利用可能か否かを選択することができる。
特に、本発明によれば、撮影映像から顔領域やプライバシ領域を除去したとしても、当初の撮影映像によって本来認識できていたコンテキストの認識を維持することができる。特に、深層学習のために認識可能なラベル化された行動対象に基づく撮影画像について、コンテキストが認識不可とならず、認識精度を向上させるために再学習を可能とする。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 行動分析装置
101 撮影映像蓄積部
102 学習映像蓄積部
103 試験映像蓄積部
11 第1のコンテキスト認識部
12 撮影映像マスク部
13 第2のコンテキスト認識部
14 推定結果判定部

Claims (12)

  1. 撮影映像を入力し、第1のコンテキストを認識可能とする学習映像を選択する学習映像選択装置であって、
    前記撮影映像について、第1のコンテキストを認識可能か否かを判定する第1のコンテキスト認識手段と、
    第1のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と
    を有し、
    第1のコンテキスト認識手段は、マスク済み撮影映像を再帰的に入力し、第1のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
    ことを特徴とする学習映像選択装置。
  2. 第1のコンテキスト認識手段は、人の行動対象を逐次に推定するものである
    ことを特徴とする請求項1に記載の学習映像選択装置。
  3. 撮影映像を入力し、第1のコンテキストを認識可能とする学習映像を選択する学習映像選択装置であって、
    前記撮影映像について、第1のコンテキストを認識可能か否かを判定する第1のコンテキスト認識手段と、
    第1のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と、
    マスク済み撮影映像について、第2のコンテキストを認識可能か否かを判定する第2のコンテキスト認識手段と
    を有し、
    第1のコンテキスト認識手段は、第2のコンテキスト認識手段によって真と判定されたマスク済み撮影映像を再帰的に入力し、第1のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
    ことを特徴とする学習映像選択装置。
  4. 第1のコンテキスト認識手段は、人の行動対象を逐次に推定するものであり、
    第2のコンテキスト認識手段は、人の関節領域を逐次に推定するもの、及び/又は、対象物を逐次に推定するものである
    ことを特徴とする請求項3に記載の学習映像選択装置。
  5. 前記撮影映像マスク手段は、マスクすべき画像領域を矩形領域で表し、当該矩形領域の外枠辺それぞれから当該撮影映像の外枠辺に向けて、マスクされてない上側、下側、左側及び右側に区分された各撮影映像を出力する
    ことを特徴とする請求項1から4のいずれか1項に記載の学習映像選択装置。
  6. 第1のコンテキスト認識手段は、偽と判定した撮影映像を、前記撮影映像マスク手段へ再帰的に入力し、
    前記撮影映像マスク手段は、マスクする画像領域を所定条件下で狭める
    ことを特徴とする請求項1から5のいずれか1項に記載の学習映像選択装置。
  7. 前記撮影映像マスク手段は、撮影映像から、顔検出に基づく画像領域をマスクする
    ことを特徴とする請求項1から6のいずれか1項に記載の学習映像選択装置。
  8. 前記撮影映像マスク手段は、プライバシ画像を予め記憶しており、撮影映像から、当該プライバシ画像に所定条件以上で類似する画像領域をマスクする
    ことを特徴とする請求項1から7のいずれか1項に記載の学習映像選択装置。
  9. 撮影映像を入力し、第1のコンテキストを認識可能とする学習映像を選択する装置に搭載されたコンピュータを機能させる学習映像選択プログラムであって、
    前記撮影映像について、第1のコンテキストを認識可能か否かを判定する第1のコンテキスト認識手段と、
    第1のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と
    してコンピュータを機能させ、
    第1のコンテキスト認識手段は、マスク済み撮影映像を再帰的に入力し、第1のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
    ようにコンピュータに機能させることを特徴とする学習映像選択プログラム。
  10. 撮影映像を入力し、第1のコンテキストを認識可能とする学習映像を選択する装置に搭載されたコンピュータを機能させる学習映像選択プログラムであって、
    前記撮影映像について、第1のコンテキストを認識可能か否かを判定する第1のコンテキスト認識手段と、
    第1のコンテキスト認識手段によって真と判定された撮影映像について、所定画像領域をマスクする撮影映像マスク手段と、
    マスク済み撮影映像について、第2のコンテキストを認識可能か否かを判定する第2のコンテキスト認識手段と
    してコンピュータを機能させ、
    第1のコンテキスト認識手段は、第2のコンテキスト認識手段によって真と判定されたマスク済み撮影映像を再帰的に入力し、第1のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する
    ようにコンピュータに機能させることを特徴とする学習映像選択プログラム。
  11. 撮影映像を入力し、第1のコンテキストを認識可能とする学習映像を選択する装置の学習映像選択方法であって、
    前記装置は、
    前記撮影映像について、第1のコンテキストを認識可能か否かを判定する第1のステップと、
    第1のステップによって真と判定された撮影映像について、所定画像領域をマスクする第2のステップと、
    第2のステップにおけるマスク済み撮影映像について再帰的に、第1のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する第3のステップと
    を実行することを特徴とする装置の学習映像選択方法。
  12. 撮影映像を入力し、第1のコンテキストを認識可能とする学習映像を選択する装置の学習映像選択方法であって、
    前記装置は、
    前記撮影映像について、第1のコンテキストを認識可能か否かを判定する第1のステップと、
    第1のステップによって真と判定された撮影映像について、所定画像領域をマスクする第2のステップと、
    マスク済み撮影映像について、第2のコンテキストを認識可能か否かを判定する第3のステップと、
    第3のステップによって真と判定されたマスク済み撮影映像について再帰的に、第1のコンテキストを認識可能か否かを判定し、真と判定された撮影映像のみを、学習映像として選択する第4のステップと
    を実行することを特徴とする装置の学習映像選択方法。
JP2017206712A 2017-10-26 2017-10-26 所定画像領域をマスクした撮影映像を学習映像として選択する学習映像選択装置、プログラム及び方法 Active JP6789601B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017206712A JP6789601B2 (ja) 2017-10-26 2017-10-26 所定画像領域をマスクした撮影映像を学習映像として選択する学習映像選択装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017206712A JP6789601B2 (ja) 2017-10-26 2017-10-26 所定画像領域をマスクした撮影映像を学習映像として選択する学習映像選択装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2019079357A true JP2019079357A (ja) 2019-05-23
JP6789601B2 JP6789601B2 (ja) 2020-11-25

Family

ID=66627906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017206712A Active JP6789601B2 (ja) 2017-10-26 2017-10-26 所定画像領域をマスクした撮影映像を学習映像として選択する学習映像選択装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP6789601B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395208A (zh) * 2021-01-19 2021-02-23 珠海亿智电子科技有限公司 Ai识别装置的自动测试方法、装置、设备及存储介质
JP2021189792A (ja) * 2020-05-29 2021-12-13 楽天グループ株式会社 学習装置、認識装置、学習方法、認識方法、プログラム、及び再帰型ニューラルネットワーク
JP2022018095A (ja) * 2020-07-14 2022-01-26 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体
JP2022101645A (ja) * 2021-09-17 2022-07-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 暗号化マスク確定方法、画像認識方法、モデルトレーニング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
WO2023112128A1 (ja) * 2021-12-14 2023-06-22 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
JP7299542B1 (ja) 2022-05-18 2023-06-28 キヤノンマーケティングジャパン株式会社 情報処理システム及びその制御方法、プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011130203A (ja) * 2009-12-17 2011-06-30 Canon Inc 映像情報処理方法及びその装置
US20170220816A1 (en) * 2016-01-29 2017-08-03 Kiwisecurity Software Gmbh Methods and apparatus for using video analytics to detect regions for privacy protection within images from moving cameras
JP2017187850A (ja) * 2016-04-01 2017-10-12 株式会社リコー 画像処理システム、情報処理装置、プログラム
JP2017188771A (ja) * 2016-04-05 2017-10-12 株式会社東芝 撮影システムおよび画像や映像の表示方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011130203A (ja) * 2009-12-17 2011-06-30 Canon Inc 映像情報処理方法及びその装置
US20170220816A1 (en) * 2016-01-29 2017-08-03 Kiwisecurity Software Gmbh Methods and apparatus for using video analytics to detect regions for privacy protection within images from moving cameras
JP2017187850A (ja) * 2016-04-01 2017-10-12 株式会社リコー 画像処理システム、情報処理装置、プログラム
JP2017188771A (ja) * 2016-04-05 2017-10-12 株式会社東芝 撮影システムおよび画像や映像の表示方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021189792A (ja) * 2020-05-29 2021-12-13 楽天グループ株式会社 学習装置、認識装置、学習方法、認識方法、プログラム、及び再帰型ニューラルネットワーク
JP2022018095A (ja) * 2020-07-14 2022-01-26 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体
US11928432B2 (en) 2020-07-14 2024-03-12 Beijing Baidu Netcom Science And Technology Co., Ltd. Multi-modal pre-training model acquisition method, electronic device and storage medium
CN112395208A (zh) * 2021-01-19 2021-02-23 珠海亿智电子科技有限公司 Ai识别装置的自动测试方法、装置、设备及存储介质
JP2022101645A (ja) * 2021-09-17 2022-07-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 暗号化マスク確定方法、画像認識方法、モデルトレーニング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7282474B2 (ja) 2021-09-17 2023-05-29 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 暗号化マスク確定方法、暗号化マスク確定装置、電子機器、記憶媒体およびコンピュータプログラム
WO2023112128A1 (ja) * 2021-12-14 2023-06-22 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
JP7299542B1 (ja) 2022-05-18 2023-06-28 キヤノンマーケティングジャパン株式会社 情報処理システム及びその制御方法、プログラム
JP2023169922A (ja) * 2022-05-18 2023-12-01 キヤノンマーケティングジャパン株式会社 情報処理システム及びその制御方法、プログラム

Also Published As

Publication number Publication date
JP6789601B2 (ja) 2020-11-25

Similar Documents

Publication Publication Date Title
JP6789601B2 (ja) 所定画像領域をマスクした撮影映像を学習映像として選択する学習映像選択装置、プログラム及び方法
CN104919794B (zh) 用于从主从式相机跟踪系统提取元数据的方法和系统
Pang et al. Classifying discriminative features for blur detection
KR20190001066A (ko) 얼굴 인증 방법 및 장치
WO2019071664A1 (zh) 结合深度信息的人脸识别方法、装置及存储介质
CN110287776B (zh) 一种人脸识别的方法、装置以及计算机可读存储介质
KR20190069920A (ko) 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
JP2007317062A (ja) 人物認識装置及びその方法
JP2009211311A (ja) 画像処理装置及び方法
JP6904651B2 (ja) 複数の認識エンジンを用いて人物の行動を認識するプログラム、装置及び方法
KR102223478B1 (ko) 눈 상태 검출에 딥러닝 모델을 이용하는 눈 상태 검출 시스템 및 그 작동 방법
KR20190118619A (ko) 보행자 추적 방법 및 전자 디바이스
JP7419080B2 (ja) コンピュータシステムおよびプログラム
KR20170077366A (ko) 얼굴 인식 시스템 및 방법
CN108875500B (zh) 行人再识别方法、装置、系统及存储介质
CN109697389B (zh) 身份识别方法与装置
JPWO2008035411A1 (ja) 移動体情報検出装置、移動体情報検出方法および移動体情報検出プログラム
JP4728795B2 (ja) 人物オブジェクト判定装置及び人物オブジェクト判定プログラム
US20230222842A1 (en) Improved face liveness detection using background/foreground motion analysis
CA3057939A1 (en) Method that redacts zones of interest in an audio file using computer vision and machine learning
Badale et al. Deep fake detection using neural networks
Liu Face liveness detection using analysis of Fourier spectra based on hair
WO2020115910A1 (ja) 情報処理システム、情報処理装置、情報処理方法、およびプログラム
US10140503B2 (en) Subject tracking apparatus, control method, image processing apparatus, and image pickup apparatus
Abdelouahed et al. A comparative study of anti-spoofing detection based on deep learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201102

R150 Certificate of patent or registration of utility model

Ref document number: 6789601

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150