JP5810948B2 - 画像処理装置、画像処理方法、画像処理プログラム - Google Patents

画像処理装置、画像処理方法、画像処理プログラム Download PDF

Info

Publication number
JP5810948B2
JP5810948B2 JP2012019187A JP2012019187A JP5810948B2 JP 5810948 B2 JP5810948 B2 JP 5810948B2 JP 2012019187 A JP2012019187 A JP 2012019187A JP 2012019187 A JP2012019187 A JP 2012019187A JP 5810948 B2 JP5810948 B2 JP 5810948B2
Authority
JP
Japan
Prior art keywords
mask
similarity
area
region
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012019187A
Other languages
English (en)
Other versions
JP2013118606A (ja
Inventor
佐藤 貴之
貴之 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2012019187A priority Critical patent/JP5810948B2/ja
Publication of JP2013118606A publication Critical patent/JP2013118606A/ja
Application granted granted Critical
Publication of JP5810948B2 publication Critical patent/JP5810948B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Description

本発明は、画像処理装置、画像処理方法、及び画像処理プログラムに関する。本発明は、例えば、特定人物の顔などプライバシー保護に係るものが映っている画像領域に自動的にマスク処理を施すための画像処理装置等に関する。
近年、個人が撮影した動画像を各個人のパソコン端末や携帯端末からインターネットを介して簡単に公開できるようになってきた。しかし、動画像には、人物や、車両、撮像された地域を示す地名や住所など、個人を特定できる情報が含まれていることがある。そのような情報が含まれる動画像がそのまま公開されてしまうことは、プライバシー保護の観点から望ましくない。
そこで、動画像中の特定人物やナンバープレートに対して自動的にモザイクを施す処理を行う方法が提案されている(例えば、特許文献1、特許文献2)。
特許文献1及び特許文献2に開示される方法では、まず、モザイクを施す処理が必要になる人物の顔情報を参照情報として予め用意しておく。そして、参照情報と画像中の顔とが一致した場合には、その顔部分にモザイクを施す処理を行う。
この方法であれば、確かに特定人物の顔にモザイクを施す処理を行うことができるものの、画像中の顔が参照情報に一致する前の画像にはモザイクを施せないことになる。
例えば、モザイクを施す処理の対象となる人物がゆっくりと画面内にスライドインしてきた場合、その顔が画面内に完全に収まってはじめてモザイクを施す処理が開始されるので、それまではスライドイン途中の顔が一部ではあるものの画面に曝されることとなってしまう。
上記問題に対し、特許文献3(特開2010−233133号公報)では次の方法を提案している。
特許文献3では、ビデオバッファを用意しておき、動画像を数フレーム遡れるように前記ビデオバッファに一時的に溜めておく。そして、モザイクを施す対象、つまりマスク対象が検出された場合には、ビデオバッファ内にあるフレームを順番に遡ってマスク対象に関連する部分が無いかを改めて検索する。これにより、マスク対象が完全に画面内に入る前であってもマスク対象が部分的に映っている領域にマスクを掛ける、つまりモザイクを施すことができる。
特開2001−086407号公報 特開2004−062560号公報 特開2010−233133号公報
しかしながら、ビデオバッファの容量にも限界がある。30フレーム/秒の動画像であるとして、長くても10秒分ぐらいを溜めておけるのが最大限である(特許文献3の段落0056)。従って、カメラを横にゆっくり振りながら撮影したり、あるいは、固定カメラの前を人がゆっくりと通り過ぎるような場合、マスク処理が必要な人物が画面内にスライドインしてくる時間がビデオバッファの容量よりも長くなるという事態が起こりえる。すると、ビデオバッファによる保持時間を超えてビデオバッファから吐き出されてしまったフレームについては、マスク処理が不十分なままで公開されてしまうことになる。
なお、単純にビデオバッファの容量を大きくすることが考えられるが、どれほど容量を大きくしても動画像を一時的にバッファできる容量(時間)には限界がある。また、マスク対象を一旦検出したあとで、再び最初のフレームから検索し直してマスク対象に関連する部分をピックアップするという方法も考えられるが、時間と手間が掛かり過ぎる。
そこで、本発明の目的は、マスク処理が必要な被写体がフレームインしてくる場合など、マスク対象かどうかの判定までに時間を要するような場合であっても、それまでの間にマスク対象が映っている領域に確実にマスクを掛けることができる画像処理装置、画像処理方法および画像処理プログラムを提供することにある。
そこで、本発明は、
動画データからマスク処理すべき画像領域を検索してそれらにマスクを付加する画像処理装置(100)であって、
予め登録された切出参照リストに基づいて、前記動画データの画像フレームのなかからマスク対象になり得る領域をマスク候補領域として切り出すマスク候補切出部(222)と、
前記切り出されたマスク候補領域を切り出し元のフレームの情報と合わせて保持するマスク候補バッファ(223)と、
予め登録されたマスク対象参照リストに基づいて、最新の前記マスク候補領域を前記マスク対象参照リストと対比して両者の類似度を算出する類似度算出部(233)と、
前記算出された類似度を所定閾値と対比して、前記類似度が所定閾値以上である場合にはそのマスク候補領域をマスク対象として確定させる類似判定部(234)と、
マスク対象として確定した領域に関連するマスク候補領域を少なくともそのマスク候補領域の座標情報に基づいて前記マスク候補バッファに格納されている過去のデータから拾集する関連領域拾集部(236)と、
前記類似判定部(233)による判定によってマスク対象に確定した領域に加えて前記関連領域拾集部(236)で拾集されたマスク候補領域に対してマスクを付与するマスク付与部(237、250)と、を備える
ことを特徴とする画像処理装置を提供する。
上記画像処理装置(100)において、
前記類似判定部(310)には、前記マスク候補領域をマスク対象として確定させるための確定閾値(312)に加えて、前記確定閾値(312)よりも低い予見閾値(311)が設定されており、
前記類似判定部(310)は、前記類似度が、予見閾値(311)未満であるか、予見閾値(311)以上かつ確定閾値(312)未満であるか、または、確定閾値(312)以上であるか、を判定し、
当該画像処理装置(100)は、
さらに、類似度が前記予見閾値(311)以上であるマスク候補領域が出現した場合にその領域が属するフレームよりも時間的に後のフレームを順番通りではなく途中の数コマをスキップして検索する先読み検索を指示する先読み検索指示部(320)をさらに備える
ようにしても良い。
また、上記画像処理装置(100)において、
予見閾値(311)以上かつ確定閾値(312)未満である類似度を持つ領域が一つでもある場合には、前記先読み検索指示部(320)は先読み検索を継続させる
ようにしても良い。
また、上記画像処理装置(100)において、
前記動画データを取り込んで復号化するデータ入力部を備え、
前記データ入力部(210)は、前記先読み検索指示部(320)により先読み検索が指示されている場合、解像度を下げる、輝度信号だけを取り出す、および、類似度が予見閾値(311)以上となった領域が示す座標に関連する領域を優先的に復号化する、のいずれか一つ以上を実行する
ようにしても良い。
また、上記画像処理装置(100)において、
前記先読み検索指示部(320)は、前記先読み動作中に前記データ入力部(210)から前記マスク候補切出部(222)に出力した画像フレームまたは領域データに対し検索済みを示す検索済みフラグを付す
ようにしても良い。
さらに、本発明は、
動画データからマスク処理すべき画像領域を検索してそれらにマスクを付加する画像処理方法であって、
予め登録された切出参照リストに基づいて、前記動画データの画像フレームのなかからマスク対象になり得る領域をマスク候補領域として切り出すマスク候補切出工程(ST103、ST104)と、
前記切り出されたマスク候補領域を切り出し元のフレームの情報と合わせてマスク候補バッファ(223)に保持するマスク候補保持工程(ST105)と、
予め登録されたマスク対象参照リストに基づいて、最新の前記マスク候補領域を前記マスク対象参照リストと対比して両者の類似度を算出する類似度算出工程(ST107)と、
前記算出された類似度を所定閾値と対比して、前記類似度が所定閾値以上である場合にはそのマスク候補領域をマスク対象として確定させる類似判定工程(ST108)と、
マスク対象として確定した領域に関連するマスク候補領域を少なくともそのマスク候補領域の座標情報に基づいて前記マスク候補バッファ(223)に格納されている過去のデータから拾集する関連領域拾集工程(ST109)と、
前記類似判定工程(ST108)による判定によってマスク対象に確定した領域に加えて前記関連領域拾集工程(ST109)で拾集されたマスク候補領域に対してマスクを付与するマスク付与工程(ST110、ST50)と、を備える
ことを特徴とする画像処理方法を提供する。
上記画像処理方法において、
前記類似判定工程には、前記マスク候補領域をマスク対象として確定させるための確定閾値(312)を用いた類似判定の前に、前記確定閾値(312)よりも低い予見閾値(311)を用いた類似判定を行い、
類似度が前記予見閾値(311)以上であるマスク候補領域が出現した場合にその領域が属するフレームよりも時間的に後のフレームを順番通りではなく途中の数コマをスキップして取得する先読み検索を実行する
ようにしても良い。
さらに、本発明は、
動画データからマスク処理すべき画像領域を検索してそれらにマスクを付加する画像処理プログラムであって、

予め登録された切出参照リストに基づいて、前記動画データの画像フレームのなかからマスク対象になり得る領域をマスク候補領域として切り出し、前記切り出したマスク候補領域を切り出し元のフレームの情報と合わせてマスク候補バッファ(223)に保持させるマスク候補切出部(222)と、
予め登録されたマスク対象参照リストに基づいて、最新の前記マスク候補領域を前記マスク対象参照リストと対比して両者の類似度を算出する類似度算出部(223)と、
前記算出された類似度を所定閾値と対比して、前記類似度が所定閾値以上である場合にはそのマスク候補領域をマスク対象として確定させる類似判定部(234)と、
マスク対象として確定した領域に関連するマスク候補領域を少なくともそのマスク候補領域の座標情報に基づいて前記マスク候補バッファ(223)に格納されている過去のデータから拾集する関連領域拾集部(236)と、
前記類似判定部(234)による判定によってマスク対象に確定した領域に加えて前記関連領域拾集部(236)で拾集されたマスク候補領域に対してマスクを付与するマスク付与部(237、250)と、して機能させることを特徴とする画像処理プログラムを提供する。
本発明が想定する動画像データ記録再生システムの一例を示す図。 第1実施形態において、マスク処理部の機能ブロック図。 第1実施形態において、マスク処理の全体動作フローを示すフローチャート。 動画を撮影する様子の一例を示す図。 撮影した動画の一例を示す図。 第1実施形態において、マスク処理用メタファイルを作成する動作手順を示すフローチャート。 第1実施形態において、マスク候補領域を切り出して処理する様子を示す図。 第1実施形態において、関連領域を拾集してそれらにマスクフラグを付す様子を示す図。 第1実施形態において、マスクを掛けた動画の一例を示す図。 第2実施形態において、マスク処理部の機能ブロック図。 第2実施形態において、マスク用メタファイルを作成する工程の手順を表すフローチャート。 第2実施形態において、先読み検索の動作手順を示すフローチャート。 第2実施形態において、マスク候補領域を切り出して処理する様子を示す図。 第2実施形態において、動作例2を説明するための動画例を示す図。 第2実施形態の動作例2において、マスク候補領域を切り出して処理する様子を示す図。 第2実施形態の動作例2において、マスク候補領域を切り出して処理する様子を示す図。 変形例4を説明するための図。 変形例4を説明するための図。
以下、図面を参照して本発明の実施の形態について説明する。
(第1実施形態)
図1は、本発明が想定する動画像データ記録再生システム900の一例である。各個人はおのおの好きな被写体をビデオカメラ100で撮像する。例えば、戸外に出て街の様子を撮影したり、家族が公園で遊んでいる光景を撮影したりしてもよい。このようにして撮影された動画像データはビデオカメラ100に内蔵された動画メモリ120に蓄積されていく。
撮影者は家に帰ると、ビデオカメラ100をパソコン910に接続し、撮影した動画像データをパソコン910経由でインターネット920上のサーバ930に送る。すると、このサーバ930に動画像データが保存され、第三者もインターネット920を利用して動画像を見られるようになる。
しかし、このようにして撮影された動画像には公開しては不都合な画像が含まれていることがある。
例えば、家族の顔や、意図せずに映り込んでしまった通行人の顔、個人を特定する情報、例えば、氏名、電話番号、車のナンバープレートなどが映り込んでいる可能性がある。
これらの個人情報に関連する画像をそのままインターネット上に公開してしまうとプライバシー保護の観点からみて問題が生じる恐れがある。
従って、プラバシーに関わる画像部分にはマスク処理を施すことが必要になる。
(第1実施形態の構成)
図2は、マスク処理部200の機能ブロック図であり、あわせて、ビデオカメラ100の主要要素を示す。
本実施形態ではマスク処理部200がビデオカメラ100に内蔵されている場合を想定しているが、パソコン910の一機能としてマスク処理部が設けられてもよい。
ビデオカメラ100の撮像部110で撮像された動画データは、一旦動画メモリ120に蓄積される。
ここで、ビデオカメラ100の撮像部110は、レンズユニットやCCD(光電変換素子)回路、所定のロジック回路で構成され、被写体を撮影した動画(映像)信号から動画データ(フレーム)を生成する。
動画データには輝度データや色データが含まれる。動画メモリ120としては、例えば、フラッシュメモリが利用できる。
マスク処理部200は、データ入力部210と、マスク候補取得部220と、マスク対象決定部230と、メタファイル作成部240と、マスク付加部250と、データ出力部260と、を備える。
データ入力部210は、動画メモリ120に蓄積された動画データを読み込んで後段に出力する。データ入力部210は、復号化部211を有し、動画データを復号化した画像フレームを出力する。
ここで、動画を視聴することを目的とせずにマスク処理だけを目的とする場合、すべての画像フレームが必要になるわけではない。従って、Iピクチャや、Pピクチャ、Bピクチャなどがあるなかで、処理の目的に応じたフレームだけがデータ入力部210から後段回路に提供されるようにしてもよい。例えば、マスク処理にはIピクチャとPピクチャとだけを使用するようにしてもよい。もちろん、全てのフレームを使用してマスク処理を行ってもよい。
マスク候補取得部220は、プラバシーマスクを必要とする可能性がある画像領域だけを切出して(抽出して)蓄積していく。
例えば、特定人物であるAさんの顔にマスクを掛ける必要があるとする。
カメラを横に振りながら撮影した画像フレームに肌色の領域が出現してきた場合、それは、人の肌である可能性があり、さらに、(Aさんとは限らないが)人の顔の一部である可能性があり、そしてさらに、Aさんの顔の一部である可能性がある。
フレームに出現した肌色領域がAさんの顔の一部であると最終的に特定できた段階で、最初に出現した肌色の領域にまで時間的に画像フレームを遡ってプライバシーマスクを掛けることになる。
そこで、本実施形態では、肌色が所定面積以上である領域は人の顔の可能性がある、つまり、マスク付加対象の有力候補であるとして、そのような領域を切り出してバッファに蓄積しておく。
マスク候補取得部220は、切出参照リスト格納部221と、マスク候補切出部222と、マスク候補バッファ223と、を備える。
切出参照リスト格納部221は、マスク候補として切出し対象になる領域を検出するための切出参照リストを格納している。
切出参照リストは、プリセットされていてもよく、マスク対象の特徴から自動的に生成されるようにしてもよく、あるいは、ユーザが設定入力してもよい。切出参照リストとしては、所定面積以上の肌色領域や、文字及び数字のリストデータなどがあげられる。
文字及び数字のリストデータを切出参照リストとして持つ意味を補足しておく。
プライバシーに関するものとしては、顔の他にも、氏名、団体名(会社名や学校名)、住所表示、電話番号、車のナンバーなどがある。従って、090−XXXX−XXXXといった電話番号にはプライバシーマスクを掛ける必要がある。そこで、画像フレーム中に"0"といった数字や後述するように何らかの文字が現れれば、それらをマスク対象の候補として切り出しておく必要がある。そして、最終的に、"090−"のように数字が並べばこの数字列にマスク処理を施すことになるし、単に"0"だけ、もしくは"0"のように見える模様であった場合にはマスク処理は必要ないことになる。
もう一例あげると、最終的に"横浜"や"横浜市XXX区"、"横X学園XX学校"といったように文字が並べばこれらにマスク処理を施すことになるし、単に、"横"という字が一文字だけであれば、プライバシーに何ら関係がないので、マスク処理は必要ないことになる。
文字としては、外国語にも対応できるように、アルファベットや、ハングル、中国語の略字も切出参照リストに加えておくとよい。
マスク候補切出部222は、データ入力部210から順次入力される画像フレームを検索し、切出参照リスト格納部221に格納された切出参照リストに合致するものがあるか否かを探す。そして、切出参照リストに合致するものが画像フレーム中に存在している場合、その領域部分を切り出してマスク候補領域としてマスク候補バッファ223に送る。
このとき、切り出されたマスク候補領域は、もとのフレームに関連付けられる情報を保持するものとする。フレームに関連付けられる情報とは、例えば、切出し元のフレーム番号およびそのフレーム内での座標位置などである。
マスク候補バッファ223は、マスク候補切出部222から送られてくるマスク候補領域の画像データを一時的に蓄積する。
マスク候補バッファ223の容量としては、大きいに越したことはないが、例えば、特開2010−233133号公報のバッファと同じ程度であってもよい。本実施形態では、動画像データの全フレームを順番にバッファに格納していくわけではなく、また、1フレーム分全部を格納するのでもなく、フレーム中の一部分であるマスク候補領域をマスク候補バッファ223に格納していく。
このように本実施形態では、マスク候補切出部222によってマスク候補領域をあらかじめ選別し、マスク付加処理の対象になる候補だけをマスク候補バッファ223に格納するようにしている。仮に、特開2010−233133号公報のバッファと同じ程度のサイズであったとしたならば、相当長い時間分(数分分)のフレームに関してマスク候補をバッファできることになる。従って、マスク対象の存在が確定した後に遡及的にマスク処理を行うとしても、必要な分だけ充分に時間を遡ることができる。
なお、マスク候補バッファ223は、容量が一杯になったらFIFO(First In, First Out)で古いデータから消去していくようにすればよい。
次に、マスク対象決定部230は、マスク候補取得部220で取得されたマスク候補の領域に対し、真にマスク対象であるか否かを検証する。マスク対象決定部230は、特徴量算出部231と、マスク対象参照リスト格納部232と、類似度算出部233と、類似判定部234と、マスク設定部235とを備える。
特徴量算出部231は、マスク候補バッファ223に格納された最新のマスク候補に対して特徴量を算出する。特徴量とは、対象画像の特徴を表わす各種指標値の組み合わせであり、対象画像の特徴点を表わす指標値や、特徴点同士の距離関係を表わす指標値、特徴部分の大きさを表わす指標値、対象画像の輪郭を表わす指標値、輝度を表わす指標値、色を表わす指標値などからなる。
特徴量算出部231は、算出した特徴量を類似度算出部233に送る。
マスク対象参照リスト格納部232は、マスク対象になる領域を検出するための参照情報を格納している。マスク対象参照リスト格納部232に格納されている参照情報としては、プライバシーマスクが必要な特定人物の顔(Aさんの顔、Bさんの顔・・・)、電話番号や車両番号であることを特定するための数字列、氏名・団体名(会社名や学校名)・住所表示であることを特定するための文字列、などが挙げられる。これらの参照情報がそれぞれの特徴量とセットになって格納されている。
類似度算出部233は、特徴量算出部231で算出された特徴量をマスク対象参照リスト格納部232に格納された特徴量と比較し、類似度を算出する。類似度の算出にあたっては、マスク候補の指標値とマスク対象参照リストの指標値とで互いに対応するもの同士をつきあわせ、両者の類似度合いを総合的に評価して類似度を求める。
なお、マスク候補が肌色領域であって人の顔である可能性がある場合に、これを電話番号の特徴量と対比して類似度を算出しても意味のないことなのであり、マスク候補が肌色領域である場合に突き合わされる参照情報は特定人物の顔である。
類似度の算出に当たって適切な参照情報を選ばせる方法は各種考えられるが、例えば、色や輝度で判断してもよく、あるいは、総ての参照情報と突き合わせた上で最も類似度が高くなるものを選んでもよい。
類似判定部234は、類似度算出部233で算出された類似度を所定の閾値と比較する。そして、類似度が閾値を超えている場合、そのマスク候補領域がマスク対象であることが確定する。類似度が閾値を超えた場合には、その旨をマスク設定部235に通知する。
マスク設定部235は、マスク対象にマスクフラグを設定する。マスク設定部235は、関連領域拾集部236と、マスクフラグ付与部237と、を備える。マスク対象にマスクフラグを設定するにあっては、類似判定部234による判定によってマスク対象であることが確定したマスク候補の領域、すなわち、閾値を越えたマスク候補にマスクフラグを付与することはもちろんである。さらに、マスク候補バッファ223に蓄積されているマスク候補を遡ってマスクフラグを付与することが必要である。
すなわち、関連領域拾集部236は、マスク対象であると確定した領域のフレーム番号および座標値の情報に基づいて、関連する過去のマスク候補をマスク候補バッファ223から拾集する。
マスク対象がゆっくりとフレーム内にスライドインしてくるとすれば、時間的に隣同士のフレーム間ではマスク対象は大体同じような位置に映っているはずである。したがって、マスク候補の座標情報を辿っていくことによって同じマスク対象が映り込んでいる領域を収拾することができる。
なお、関連領域を収拾するにあたっては、座標情報の他、色、輝度、動きベクトルなどの情報を合わせて利用してもよく、具体的な例は後述する。
これら拾集した過去のマスク候補に対しマスクフラグ付与部237によってマスクフラグを付与する。
これにより、例えば特定人物Aさんの顔がマスク対象であるとすると、Aさんの顔の一部分でもフレーム内に映り込んだときに遡ってプライバシーマスクが掛けられることになる。
マスクフラグを付与する領域についての情報はマスクフラグ付与部237からメタファイル作成部240に送られる。例えば、マスク対象となる領域のフレーム番号、座標、範囲といった情報がメタファイル作成部240に送られる。
メタファイル作成部240は、マスク対象となる領域のフレーム番号、座標、範囲に対してマスク処理を命令するメタファイルを作成する。メタファイルはマスク付加部250に出力される。
マスク付加部250は、メタファイルのマスク処理命令に従って動画データにマスクを掛けていく。このとき、動画メモリ120に蓄積された総ての動画データに関するメタファイルが作成されるのを待ってからマスク付加部250でのマスク処理を開始してもよい。すなわち、メタファイル作成のための復号処理をしたあと、あらためての動画メモリ120から動画データを取り出して復号化する。このときはマスク候補取得部220やマスク対象決定部230を起動させる必要はなく、復号化された画像データはマスク付加部250に送られ、そこでメタファイルに従ったマスク付加を行う。
あるいは、メタファイルの作成から所定の時間遅れをもたせてマスク処理を進行させてもよい。例えば、マスク候補切出部222が処理中であるフレームのタイムスタンプに対し、数分分の遅れを持たせていれば前記フレームに対するマスク処理の要否は確定されている。
マスク付加部250でマスク付加された動画データはデータ出力部260から出力される。そして、例えば、パソコンのハードディスクなどに一旦保存されたあと、インターネット上のサーバに送られることになる。
(第1実施形態の動作)
続いて、第1実施形態の動作を説明する。ユーザによる動画撮影(ST10)からマスク付加されたデータの出力(ST60)までの流れは、図3に示すように、撮影(ST10)、動画データの保存(ST20)、マスク処理の事前準備(ST30)、マスク処理用メタファイルの作成(ST40)、マスク付加(ST50)、データ出力(ST60)の順で進む。
ここで、動画撮影の例として、図4のように特定人物である子供CAの様子を撮影する様子を説明する。
このとき撮影者Pは、ビデオカメラ100を右から左にゆっくりと向きを変えるように動かし、子供CAがフレームのなかにゆっくりとフレームインするように撮影するとする。
すると、例えば、図5のように、フレームの左から子供CAが徐々にフレームインしてくる動画が撮影されるであろう。
なお、全てのフレームは図面に描ききれないので、途中の数十あるいは数百のフレームは省略してある。
そして、撮影者Pは、この動画をインターネットに公開したいが、ただし、子供CAの顔までは公開したくないとする。
単純に従来技術を適用するならば、フレームF40のように子供CAの顔がはっきり特定できるようになるまでマスク処理が掛からないであろう。
あるいは、特開2010−233133号公報の技術を用いたとしても、フレームF30からフレームF40までの間に10秒以上の間隔があるとすると、フレームF40で子供の顔が特定されてからバッファ内のデータを時間的に遡ったとしてもフレームF30までは遡れない。
結果として、フレームF30のように顔のほぼ半分が映っており、人が視れば子供CAの顔(顔の特徴)を充分に認識できる画像がマスク処理なしで短い時間とはいえども公開されてしまうことになる。
本第1実施形態に係るマスク処理部200の動作を図6のフローチャートを参照しながら説明する。
なお、マスク処理の事前準備(ST30)として、ユーザはマスク対象に関する情報をマスク対象参照リスト格納部232に格納しておく必要がある。
本例でいえば、子供CAの顔の特徴量をマスク対象参照リスト格納部に格納しておく必要がある。子供CAの顔の特徴量をマスク対象参照リスト格納部232に格納するにあたっては、例えば、別途に撮影した子供CAの顔のデータをビデオカメラ100にセットしてもよい。或は今回撮影した動画のなかから子供CAの顔が映っている領域を指定して、これをマスク対象としてビデオカメラ100にセットしてもよい。ビデオカメラ100は、マスク対象としてセットされた領域から自動的に特徴量を算出してマスク対象参照リスト格納部に格納する。
これに合わせて切出参照リスト格納部221に切出参照リストを登録しておく必要がある。これについてはマスク対象参照リスト格納部232の情報からビデオカメラ100が自動的に切出参照リストを生成するようにしてもよい。或は、人物の顔がマスク対象に設定されたならば、自動的に所定面積以上の肌色領域が切出参照リストに加えられるようにしてもよい。
このような事前準備(ST30)が終わったところで、マスク処理部200を起動してマスク処理用メタファイルの作成(ST40)を実行する。撮影された動画データは動画メモリ120に蓄積された後、データ入力部210からマスク処理部200に入力される(ST101)。
データ入力部210の復号化部211において動画データが復号化され(ST102)、画像フレームが順次マスク候補切出部222に送られる。
マスク候補切出部222は、画像フレーム中に切出参照リストに合致するマスク候補領域があるか否かを探索する。フレームF00の段階では、肌色の領域はないのであるからマスク候補となる領域はない(ST130でNO)。マスク候補の領域がなければ、次の画像フレームに探索対象を移していく。
フレームF00からフレームF10に移行するにつれて徐々に子供CAの手がフレームに入ってくる。子供CAの手は顔と同じ肌色である。従って、子供CAの手が所定面積を超えてフレームに入ってくれば、これは切出参照リストに合致することになる(ST103でYES)。例えばフレームF10で肌色面積が所定値を超えたとする。すると、マスク候補切出部222は、所定面積以上の肌色領域R10をマスク候補として切り出す(ST104)(図7参照)。このとき、前述したように、切り出された領域(R10)のデータには、切出し元のフレームF10のフレーム番号およびこのフレームF10中での座標が付加されている。このように切り出されたマスク候補領域(R10)は、マスク候補バッファ223に送られて蓄積される(ST105)。
切り出された領域がマスク候補バッファ223に格納されると、この領域(R10)に対して特徴量算出部231により特徴量が算出される(ST106)。算出された特徴量は類似度算出部233に送られ、そこでマスク対象参照リストとの比較に基づいた類似度が求められる(ST107)。
算出された類似度は類似判定部234において閾値と対比される。領域R10については、子供CAの顔の特徴量と類似する点はないので、類似度が閾値Thを超えることはない(ST108でNO)。この場合、領域R10はマスク候補としてマスク候補バッファに格納されたままとして、次ぎの画像フレームの処理に進む。
フレームF10からフレームF30に移るにつれて、手の領域が徐々に大きくなっていくので肌色領域はすべてマスク候補として切出しの対象となり(ST103でYES)、切り出された領域R20及びR30はマスク候補バッファ223に蓄積されていく(ST105)。その一方、手は顔と類似しないので類似判定(ST108)において類似度が閾値Thを超えることはない(ST108でNO)。
ここで、フレームF30では領域R30において顔の半分がフレーム内に入っている。しかし、半顔の領域R30を対象にした類似判定(ST107、ST108)では、顔の一部であることまでは判定できるかもしれないが、人物を区別するまでには至らない。従って、フレームF30の領域R30に対しては、マスク候補としてマスク候補バッファに格納されるが(ST103、ST104、ST105)、類似判定で閾値を超えるには至らない(ST108でNO)。
フレームF30からさらに進んでフレームF40が処理対象のフレームになった時点を考える。フレームF40では領域R40において顔の80%程度がフレーム内に入っている状態である。領域R40は、所定面積以上の肌色領域であるのでマスク候補としてマスク候補切出部222によって切り出され(ST104)、マスク候補バッファ223に格納される(ST105)。さらに、特徴量算出部231において領域R40の特徴量が算出され(ST106)、マスク対象参照リストとの対比に基づいて類似度算出部233により類似度が求められる(ST107)。
領域R40では、子供CAの顔の80%程度が映っているので、マスク対象参照リストにある指標(子供の顔の特徴量)と複数点で相関が高く、類似度としては大きな値が算出される。したがって、R40について求められた類似度S40は、閾値Th以上になる(ST108でYES)。
このように類似度S40が閾値Th以上になった場合、類似判定部234は、閾値Th以上の類似度Sをもつ領域が出現したことをマスク設定部235に通知する。すると、類似度が閾値以上となった領域R40に関連する領域が関連領域拾集部236により拾集される(ST109)。マスク候補バッファ223には、これまでにマスク候補として切り出された領域(R10・・・R20・・・R30)が格納されている(図7参照)。従って、関連領域拾集部236は、マスク候補バッファ223から領域R40に関連する領域を拾集する(ST109)(図8参照)。
関連領域拾集部236は、領域R40に関連する領域を拾集するにあたり、領域R40が属していたフレームよりも時間的に前のフレームに属する領域であってマスク候補バッファ223に格納されているものを検索する。そして、領域R40の座標(フレームF40内における位置)に基づいて同じ対象物が映っている領域を辿って拾集する。
図8は、マスク候補バッファに格納されたデータを遡って関連領域を拾集する様子を模式的に示す図である。
30フレーム/秒のフレームレートであれば、よほどの高速移動でもない限り前後のフレームにおいて同じ対象物は同じような座標(位置)に映っているはずである。
従って、領域R40からマスク候補の領域(R10・・・R20・・・R30)を時間的に順に遡り、前後で座標が近似していれば同一対象物を映した関連領域であるとして拾集していく(ST109)。
関連領域を収拾するにあたっては、必要に応じて色や輝度、大きさ、動きベクトルなど関連性を判断するファクタを加えることもできる。
例えば、色に基づいて関連領域を収拾する場合、マスク対象として確定した領域およびマスク候補領域の色度を求めておき、互いに色度が近いものを収拾すればよい。
マスク対象としては、人物の顔やナンバープレート、表札など様々なものが挙げられるが、マスク対象の色が短い時間で極端に変化することはあまり考えにくい。したがって、マスク対象が特定人物の顔であれば、その人物の肌色が映っている領域を色度に基づいて辿っていけばよい。これにより、その人物の顔が一部分でもフレームインしたときにまで遡って関連領域を収拾することができる。これはマスク対象がナンバープレートであったり表札であったりしても同じことである。
なお、領域の色度を表すにあたっては、その領域の色度を代表させる値を適宜用いればよく、例えば、平均値や中間値、モードなどの他、各種統計的代表値を用いればよい。色度を表す表色系についても特に限定されず、ビデオカメラ100の仕様に従えば良いのはもちろんである。また、色度が近いかどうかについては各種の統計的距離(マハラノビス距離等)や、相関係数を用いて判断するようにすればよい。
また、関連領域拾集部236が拾集するのは、領域の画像データそのものではなく、各領域が属していたフレームの番号、領域の座標および範囲である。
このようにして拾集した領域がマスク対象である。従って、拾集した領域に対しマスクフラグ付与部237によりマスクフラグを付与する(ST110)(図8参照)。
マスクフラグを付与されたマスク対象データがメタファイル作成部240に送られ、マスク処理を命令するメタファイルが作成される(ST111)。
動画メモリ120に蓄積された動画データの全フレームを検証して(ST112でYES)、マスク処理用のメタファイルが完成する。
このように作成されたメタファイルに従って動画データにマスク処理を施す。すなわち、マスク付加部250は、復号化された動画フレームデータに対しメタファイルに指定された領域にマスクを掛けていく(ST50)。すると、図9に示すように、子供がフレームに映り始めたところからマスク処理が掛かり、子供のプライバシーを保護することができる。
このような構成を備える第1実施形態によれば次の効果を奏することができる。
(1)マスク候補切出部222によってマスク候補となる領域だけを切り出し、このように切り出した領域だけをマスク候補バッファ223に格納していく。マスク候補バッファ223は、マスク候補だけを格納すればよいので、相当長い時間分(数分分)のフレームに関してマスク候補をバッファできる。従って、マスク候補の類似度が閾値以上となってマスク対象が確定した後からでも十分に時間を遡って必要箇所にマスクを掛けることができる。
(2)マスク候補切出部222により、マスクが必要になりそうな箇所は切り出してマスク候補バッファ223に蓄積してある。そして、マスク候補切出部222によってマスク候補を切り出す際には、座標の情報等を付加している。したがって、関連領域拾集部236はマスク対象として確定した領域の座標とマスク候補バッファ223に格納されているマスク候補領域の座標とを対比することでマスク処理が必要な箇所の情報を時間的に遡って簡単に集めることができる。
(変形例1)
上記第1実施形態を説明するにあたって、マスク候補切出部222は所定面積以上の肌色領域を切り出すとした。これはマスク候補を切り出す基準としてはかなり緩いものである。マスク候補を切出す基準を緩くしておくことで必要な箇所には漏れなく確実にマスクできるという利点がある。その一方、顔の他に手や首、場合によっては脚など、プライバシーマスクが必要ではない箇所にもマスクが掛かってしまうということが生じうる。
そこで、マスク候補を切り出す基準を切出参照リストにさらに付加して、マスク候補を絞る精度を高くしてもよい。加える基準としては次のようなものが挙げられる。
例えば、顔と推定される部分画像の付近に首や胴体、下半身等の画像を検出できるか。検出した人物の画像中における身長が、画面内の他の人物の身長と比較して極端に大きすぎまたは小さすぎないか。さらに顔かどうかを判断するにあたって、肌の色や髪の色の評価値に重み付けをしてもよい。
上記に加えて、顔(または顔の一部)と推定される部分以外の領域も参照して総合的に評価、判断できるようにし、顔の部分と推定される部分だけを切り出す精度を引き上げることができる。
これによれば、例えば手や脚に関係する領域についてはマスク候補として切り出されなくなる。
また、知られた技術として、個人を顔で特定する顔認証技術と、個人を特定することはしないが顔であることを検出する顔検出技術と、がある。顔認証ができない程度の画像であっても顔検出に成功することはある。個人を特定しない顔検出の方が少ない情報で顔であることを検出できるからである。したがって、マスク候補切出部222としては顔検出技術を適用し、類似判定部としては顔認証技術を適用してもよい。
切出参照リストにどのような基準を加味するかはユーザが調整できるようになっていてもよい。例えばプライバシー保護レベルを高から低まで段階的に選べるようにしておいてもよい。
(第2実施形態)
次に本発明の第2実施形態を説明する。
上記第1実施形態では、切り出したマスク候補を総てマスク候補バッファに格納し、マスク対象が確定した場合にはマスク候補バッファに蓄積されていたすべての関連領域を遡ってマスク付与対象とした。
比較的簡便な構成でありながらも必要な箇所には漏れなく確実にマスクできるという利点があるが、マスク対象が完全に確定するまで画像フレームを順に検証していく作業には時間が掛かり、処理負荷も大きい。また、マスク候補だけを切り出してマスク候補バッファに格納するとはいっても、バッファ容量にはやはり限界がある。
上記第1実施形態では、画面の端に掛かるか掛からないかの位置に立ち止まっている人がいたり、多くの人(マスク対象)が同時に画面に入ったり出たりしていると、マスク対象かどうか確定する前にバッファがあふれてしまう可能性はある。
そこで、第2実施形態においては、マスク対象を確定させる閾値(確定閾値ThD)の手前にそれよりも一段緩い中間的な閾値(予見閾値ThP)を設け、この中間的な閾値(予見閾値ThP)を超える類似度が出現した場合には、それがマスク対象であるかどうかを先読み検索によって早期に確定させる処理を行うことを特徴とする。
図10は第2実施形態に係るマスク処理部300の構成を示す図である。
図10において、類似判定部310には、二つの閾値が設定されている。確定閾値ThDは、マスク候補がマスク対象であることを確定させるための閾値であり、第1実施形態で用いた閾値と同じである。すなわち、ある領域について算出された類似度が確定閾値ThD以上になると、その領域には特定人物の顔や電話番号が映っていることが確定し、その領域はマスク対象となる。
一方、予見閾値ThPは、確定閾値ThDよりも一段緩い閾値である。
予見閾値ThPは、マスク対象に類似している可能性があると判定できる程度の閾値レベルに設定されている。予見閾値ThP以上の領域が出現したということは、その後にマスク対象になる可能性があるということである。
予見閾値ThPとしては、特定人物の顔がマスク対象であるとした場合、その特定人物の顔かどうかまでは確定しないが領域に映っているのが少なくとも人間の顔であることが判定できるレベルにすることが例として挙げられる。ここでは、顔が半分映っていればその領域に関する類似度が予見閾値ThP以上になるとする。
第2実施形態においては、マスク処理部300は先読み検索指示部320を備えている。先読み検索指示部320は、類似判定部310における閾値判定において予見閾値ThP以上の領域が出現したときに起動される。先読み検索指示部320は、予見閾値ThP以上の領域(マスク可能性領域)が出現した場合、その領域が属するフレームよりも時間的に後のフレームに対して積極的にマスク対象を検索する指示を行う。
先読み検索指示部320がデータ入力部210に対して先読み検索を指示した場合、データ入力部210は、タイムスタンプを見て、マスク可能性領域が出現したフレームよりも時間的に後のフレームを動画メモリ120から選択して取得する。このとき、すべてのフレームを順番に取得するのではなく、Iピクチャだけ、あるいは、IピクチャとPピクチャとだけを取り出すようにしてもよい。あるいは、時間的に1秒ごとや2秒ごとのフレームデータを取得するようにしてもよい。また、あるいは、マスク可能性領域(類似度が予見閾値ThP以上の領域)の座標および動きベクトルなどから取り込み対象となるフレームを判断してもよい。
そして、復号化部211で動画データを復号化するにあたっては、先読み検索に用いるフレームの情報量を最適化してもよい。例えば、スケーラによって解像度を下げるスケーリング処理を行ってもよい。また、輝度信号のみを取り出すようにしてもよい。これにより、データ演算量およびデータ転送量が削減され、演算処理およびデータ転送速度が向上する。そして、メモリ使用量が削減され、消費電力も削減される。
さらに、類似度が予見閾値ThP以上となった領域(マスク可能性領域と呼ぶ)が示す座標に関連する領域を優先的に復号化するようにしてもよい。30フレーム/秒のフレームレートであれば、よほどの高速移動でもない限り前後のフレームにおいて同じ対象物は同じような座標(位置)に映っていると考えられるからである。
なお、先読み検索では数フレームを飛ばして先に検索してしまうので、後から先読み検索ではない順番通りの検索で同じフレームに対し二度目の検索をしてしまうことになる。そこで、検索済みのフレームや領域に対して同じ検証(マスク候補の切り出しや類似判定)を行わないようにするため、先読み検索したフレームまたは領域に対しては検索済みフラグを付与する。検索済みフラグは、動画メモリ120のなかで動画データと合わせて格納してもよく、あるいは、先読み検索指示部320内の所定のレジスタに格納するようにしておいてもよい。
(第2実施形態の動作例1)
第2実施形態の動作をフローチャートを参照しながら説明する。
図11は、第2実施形態において、マスク用メタファイルを作成する工程の手順を表すフローチャートである。マスク処理を行う対象となる動画データとしては第1実施形態と同じもの(図5)を使用する。図11においてST101からST107は第1実施形態(図6)と同じである。すなわち、動画メモリ120から動画データを順に取得し、復号化部211で復号する。そして、マスク候補があれば、それをマスク候補切出部222によって切出し、マスク候補バッファ223に蓄積していく。図5の例でいえば、フレームF10の領域R10がマスク候補として切り出される。この領域R10に対して特徴量を算出し(ST106)、この算出された特徴量をマスク対象参照リストの特徴量と対比して両者の類似度を算出する(ST107)。
ST107において類似度が算出されると、次に類似判定部310においてこの算出された類似度が予見閾値ThP以上であるか否かを判定する(ST201)。
類似度が予見閾値ThPを下回っていれば(ST201でNO)、この領域についてはマスク対象になるようなものは無いということになるので、ST101に戻って次ぎのフレームの検証を行う。図5の例でいうと、フレームF10、フレームF20までは類似度が予見閾値ThP以上になることはない。
フレームF30になったところで子供の顔の半分がフレーム内に入ってくる。このフレームF30のなかの領域R30について類似度を算出すると、この類似度は予見閾値ThP以上になる(ST201でYES)。すなわち、フレームF30では、子供の顔の半分がフレームに入っており、マスク対象である特定人物の顔であることまでは確定できないが、人物の顔の一部である(もしくは特定人物の顔の特徴をある程度備えている)ことは判定できるという状態である。
領域R30のように予見閾値ThP以上になるものが現れた場合、次にこの類似度が確定閾値ThD以上であるかどうかを判定する(ST202)。類似度が確定閾値ThD以上になっていれば(ST202でYES)、それはマスク対象であることが確定する(ST203)。しかし、類似度が確定閾値ThD未満であれば(ST202でNO)、マスク対象かどうかは現状では確定できない。すなわち、予見閾値ThP以上であるので(ST201でYES)その映っている対象物(被写体)はマスク対象である可能性が高いが、マスク対象であるとまでは確定できない状態にある(ST202でNO)。
そこで、この場合には先読み検索(ST204)を行って、領域R30に映っているものがマスク対象であるか否かを時間的に後のフレームを先読みして検証する。先読み検索の動作手順を図12のフローチャートを参照しながら説明する。先読み検索においては、フレームF30の後、フレームF30よりも時間的に後のフレームを取得する(ST211)。
この場合には、前述したように、フレームF30の直ぐ後のフレーム(例えばフレームF31)ではなく、Iピクチャだけ、もしくは、IピクチャとPピクチャとだけ、もしくは、1秒後や2秒後の画像フレームなど、フレームF30から少し先に飛んだフレームを取得する。本例においては、図13に例示するように、フレームF30の後、フレームF31でなくフレームF35を読み出すとする。
このように取得したフレームデータに対し、復号を行う(ST212)。この復号(ST212)では、解像度を下げたり、輝度信号だけを抜き出すなど、対象物に応じて類似度判定に必要なデータだけを復号するようにしてもよい。
このように得られた画像フレームデータに対し、マスク候補切出部222によってマスク候補の切り出しを行い、切り出した領域をマスク候補バッファ223に格納する(ST214)。そして、切り出した領域に対し、特徴量算出および類似度算出を行う(ST215、ST216)。これにより、フレームF35のなかから領域R35が切り出され、領域R35の類似度が算出される。
このように算出した類似度を閾値と対比するのであるが、先読み検索においては、まずは、類似度が予見閾値ThPと確定閾値ThDとの間に入っているかどうかを判定する(ST217)。
類似度が予見閾値ThPと確定閾値ThDとの間に入っているものがあるということは(ST217でYES)、マスク対象であるかどうか確定しないものがあるということである。この場合には先読み検索を継続することになる(ST219)。例えば、領域R35については子供の顔が半分以上映ってはいるが、確定閾値ThD以上になるほどではないので、先読み検索を継続することになる(ST219)。
ただし、先読み検索の継続(ST219)にあたって、類似度が確定閾値ThD以上のものがあれば、それはマスク対象であることを記録しておく(ST218)。この工程の作用効果については後述する動作例2によって明らかになる。
フレームF35の次にフレームF40を先読み検索で検証する。すると、フレームF40においては領域R40において子供の顔が80%程度映っていることから、領域R40の類似度S40は確定閾値ThD以上になる。
ST217における類似度判定において類似度が予見閾値ThPと確定閾値ThDとの間にはない場合(ST217でNO)、これはつまり、類似度が確定閾値ThD以上であるか、もしくは、類似度が予見閾値ThPを下回ったか、のどちらかである。領域R40の類似度S40は確定閾値ThD以上になっているので、ST217における類似度判定において"NO"に進む。
次に、ST220において、類似度が確定閾値ThDを超えるものがあったか否かを判断する。これは、ST218で記録したものを含めて類似度が確定閾値ThD以上のものがあったかどうかということを判断する。類似度が確定閾値ThD以上になったものがあれば、マスク対象が映っていることが確定する(ST221)。
一方、先読み検索をした結果、類似度が確定閾値ThD以上になるものがなければ、現在のところマスク対象は無い、ということになる(ST222)。
例えば、類似度が予見閾値ThP以上になるものが存在はしたが、結局、マスク対象として確かめられるほどフレームインする前にフレームアウトしてしまったか、マスク対象に似た何か別のものであってマスク対象ではなかった、ということである。
このようにして先読み検索でマスク対象があることが判れば(ST205でYES)、マスク対象に関連する領域を拾集し(ST109)、それらにマスクフラグを付与する(ST110)。
なお、領域R40に映っている被写体(対象物)がマスク対象であることが判明したので、フレームF31からフレームF39で領域R40(又は領域R30)に関連する領域にはマスクフラグが付与されるのは当然である。この際には、動きベクトルや座標の情報を基にして被写体(対象物)を追跡すればよい。さらには、フレームF40以降についても同様にマスク対象である被写体(対象物)を追跡してマスクフラグを付与してもよい。このようにしてマスク処理用メタファイルが作成される(ST111)。
このあとの処理については、図3で説明した通りであり、マスク用メタファイルに従ってマスク対象にマスクを付加しながらデータ出力という運びになる。
(第2実施形態の動作例2)
第2実施形態の動作例をもう一つ説明する。
第2実施形態の動作例2として、例えば、撮影した動画が図14のようになったとする。図14において、フレームF100においては背景だけが映っているが、次のフレームF100においてフレームの左側から一人目の人物PAがフレームインしてきている。フレームF120においては、人物PAに加えて、フレームの右側から二人目の人物PBがフレームインしてきている。さらに、フレームF130において、人物PAについては顔を特定できる程度に映っている一方、人物PBについては顔の半分程度が映っている状態である。そして、フレームF140において、人物PAも人物PBも十分に特定できる程度に顔がフレーム内に映っている。
この図14のような動画データに対して図11、図12の動作フローを適用する。
まず、順番に動画フレームを取得して、復号したフレームからマスク候補を切り出し、切り出した領域の類似度を算出する(ST101からST107)(図15参照)。フレームF110では、領域R110において一人目の人物PAの顔が半分ほどフレームに入っている。
したがって、領域R110の類似度は予見閾値ThPと確定閾値ThDとの間に入り(ST201でYES、ST202でNO)、動作フローは先読み検索(ST204)に移行する。先読み検索において、フレームF110から所定コマ数先に進んだフレームF120を取得(ST211)して検証する。
フレームF120においては、領域R120Aと領域R120Bとがマスク候補として切り出される。領域R120Aの類似度S120Aは予見閾値ThPと確定閾値ThDとの間にあるので(ST217でYES)、先読み検索を継続する(ST219)。
次に、フレームF130を検証する。
フレームF130からマスク候補の切り出しを行うと、一人目の人物PAが映っている領域R130Aと、二人目の人物PBが映っている領域R130Bと、がマスク候補として切り出し対象になる。領域R130Aについて類似度S130Aを算出すると、この類似度S130Aは予見閾値ThP以上であり、さらには、確定閾値ThD以上でもあるのだが、一方、領域R130Bについてはその類似度S130Bが予見閾値ThPと確定閾値ThDとの間にある。
従って、ST217の判定では、予見閾値ThPと確定閾値ThDとの間の類似度が存在していることになる(ST217でYES)。この場合、領域R130Aについては類似度S130Aが確定閾値ThD以上になったことを記録しておいて(ST218)、先読み検索を継続する(ST219)。
フレームF130よりさらに所定コマ数先のフレームであるフレームF140を検証する。フレームF140において領域R140Aと領域R140Bとに人物の顔が映っており、これらがマスク候補として切り出される。そして、両領域R140A、R140Bの類似度S140A、S140Bを閾値判定すると、領域R140Aについても領域R140Bについても類似度S140A、S140Bが確定閾値ThD以上になる。すなわち、フレームF140には、予見閾値ThPと確定閾値ThDとの間に入る類似度をもつ領域は存在しないということになる(ST217でNO)。
このように予見閾値ThPと確定閾値ThDとの間に入る類似度が無くなった場合(ST217でNO)、先読み検索は終了する。なお、領域R130A(または領域140A)および領域140Bが確定閾値ThD以上になったことから、これらがマスク対象であることが確定する(ST221)。
このようにしてマスク対象が二つあったということになるので(ST205でYES)、マスク候補バッファ223から関連するマスク候補を拾集し、これらにマスクを掛けるようにマスクフラグの付与およびメタファイルの作成を行う。
ここで一方、図16に示すように、フレームF120で領域R120Bの類似度が予見閾値ThP以上になったあとで、先読み検索を継続した結果、人物PBについてはフレームF140'のように確定閾値ThDを一度も超えないまま予見閾値ThP未満になってしまったとする。
この場合、領域120Bおよび領域R140B'に映っている被写体はマスク対象であるとは認定できなかったことになる。したがって、領域120Bおよび領域R140B'に関連する領域はマスク対象とはならず、確定閾値ThD以上となった領域R130A(または領域140A)に関連する領域がマスク対象ということになる。
このような構成を備える第2実施形態によれば、上記第1実施形態の効果に加えて、次の効果を奏することができる。
(3)第2実施形態では、確定閾値ThDよりも一段低い予見閾値ThPを設けている。そして、この予見閾値ThP以上になるものがあれば、先読み検索を行ってマスク可能性領域が真にマスク対象であるかどうかを積極的に検索し、早期に確定させる。
これにより、マスク候補バッファ223で蓄積すべきマスク候補の容量を少なくすることができる。すなわち、マスク対象の被写体がフレームインし始めてから予見閾値ThPに達するまでのマスク候補が保存できていれば、予見閾値ThP以上になってからは先読み検索によって早期にマスク対象であるかどうかが確定できる。従って、マスク対象であることが確定した後にマスク候補バッファを遡れば、そのマスク対象(被写体)がフレームインし始めたところから確実にマスクを付加することができる。例えば、確定閾値ThD以上になるまでの時間が長かったり、さらに、マスク対象が同時にいくつもあったりする場合に大きな利点がある。
(4)第2実施形態では、フレーム内に複数の被写体が映っている場合において、一つでも類似度が予見閾値ThPと確定閾値ThDとの間に入るものがあれば先読み検索を継続する。
仮に、他にマスク可能性領域が存在しているにも関わらず、確定閾値ThD以上になるものがある度に先読み検索を終了してマスク候補バッファを検索してしまうと、次に前記マスク可能性領域が確定閾値ThD以上になったときに再びマスク候補バッファを検索することになってしまう。複数のマスク対象が同時にフレームに映っている場合には何度もマスク候補バッファをサーチする手間が生じる。この点、本第2実施形態では、類似度が予見閾値ThPと確定閾値ThDとの間にあるものが一つでも存在している場合(ST217でYES)には、確定閾値ThD以上になったものを記録するにとどめ、先読み検索を継続することとしている(ST219)。そして、マスク可能性領域がなくなったところ、すなわち、マスク対象であるか否かが総て確定したところでまとめてマスク候補バッファを遡って関連領域を検索する。これにより、マスク候補バッファ223を遡って検索する回数が少なくなり、処理負荷の軽減および処理スピードの向上に効果がある。
(変形例2)
上記第2実施形態においてマスク対象が人物の顔である場合を例に説明したが、マスク対象がナンバープレートや、電話番号、団体名、住所表示である場合でも予見閾値ThPをトリガとする先読み検索を適用できるのはもちろんである。
例えば、日本の例では、電話番号やナンバープレートなど個人情報に関係する番号は数字とハイフンとが結合したものが多い。従って、マスク対象参照リストに電話番号やナンバープレートの例を登録しておけば、数字が二つ以上連続していたり、複数の数字とハイフンとが結合したものが映っている領域は予見閾値ThP以上の類似度になる可能性が高い。そして、このように予見閾値ThP以上の類似度になる数字列が出現した場合には先読み検索を行って、それがマスク対象であるかどうかを早期に確定させることができる。これにより、プライバイシーに関係する数字がフレームインした時点から確実にこの数字にマスクを掛けることができる。
(変形例3)
先読み検索で検索済みのフレームまたは領域に対して検索済みフラグを付与してもよいことは既に述べた。検索済みのフレームまたは領域については再度検証する必要はないので、そのようなデータはマスク候補切出部222に出力する必要はない。従って、データ入力部からマスク候補切出部222に画像データを出力する前に、その動画データに検索済みフラグが付与されているかどうかを前置判定してもよい。これによれば、同じフレームまたは領域を繰り返し検証する無駄は削除できる。
(変形例4)
上記第1実施形態および第2実施形態においては、マスク対象(例えば子供CA)がゆっくりとスライドインしてくることが原因で、マスク対象を確定させるまでに時間を要する場合を例示した。
本発明としては、この他にもマスク対象を確定させるまでに時間がかかるような動画に対して適切にマスクを掛けることができるのは当然である。
一例として、焦点外(ピンぼけ)を要因とする例が挙げられる。
例えば、当初はマスク対象人物ではなく別のもの(遠くの風景や別の人物)を撮影していたが、次第にゆっくりとマスク対象人物の方にフォーカスを移していく場合がある。あるいは、マスク対象人物がカメラに近づいてくる結果、マスク対象人物の顔が焦点内に入ってくることがある。
この場合、例えば、図17のような動画が撮影される。図17において、フレームF200ではピンぼけ状態で人物の顔が映っている。そして、フレームF210で人物の顔にピントが合ったとする。この場合、フレームF210以前の動画では人物の顔が映ってはいるが、ピンぼけであるためにマスク対象として確定できない状態が続くことになる。
このような動画であっても、フレームF200において、所定面積以上の肌色であるなどの理由で顔らしき領域R200をマスク候補として切り出す。切り出した領域はマスク候補バッファ223に格納していく。そして、フレームF210において、領域R210にはピントがあった顔が映っているので特徴量S210が閾値Th以上になる。これにより、フレームF210で領域R210がマスク対象であると確定する。すると、マスク候補バッファ223を辿ってこの領域R210に関連する領域(R200等)にはマスクが掛けられることになる。
このように、理由の如何に関わらず、マスク対象かどうかの判定までに時間を要するような場合であっても、それまでの間にマスク対象が映っている領域に確実にマスクを掛けることができる。
なお、本発明は上記実施形態および変形例に限られず、本発明の趣旨を逸脱しない範囲で適宜変更することが可能である。
上記実施形態においては、特定人物の顔にプライバシーマスクを掛ける場合を説明したが、逆に、特定人物にはマスクを掛けず、その他のたまたま映ってしまった一般の人の顔にプライバシーマスクを掛けるようにしてもよいことはもちろんである。この場合、被写体が、「人の顔ではあるが特定人物の顔ではない」ということを閾値判定で判断すればよいのであり、このような判定のためにマスク対象参照リストや類似判定部を改変することは当業者には明らかであろう。
「肌色」というのは人種によって異なるのであるから、マスク対象の人種を考慮して解釈されるべきである。例えば、ビデオカメラが使用される国がアジア圏であれば、肌色とは例えばモンゴロイドの肌の色、すなわち、淡黄色を意味する。被写体がコーカソイドやニグロイドであれば当然ながら肌色は白色であったり黄褐色であったりする。
上記実施形態では撮影が終了した後でマスク処理部を起動してマスク処理を行う例を説明したが、撮影しながら並行してマスク処理を実行してもよい。
CPUやメモリを配置してコンピュータとして機能できるように構成し、このメモリに所定の制御プログラムをインターネット等の通信手段や、CD−ROM、メモリカード等の記録媒体を介してインストールし、このインストールされたプログラムでCPU等を動作させて、上記実施形態で説明した各機能部としての機能を実現してもよい。
100…ビデオカメラ、110…ビデオカメラの撮像部、120…動画メモリ、200…マスク処理部、210…データ入力部。211…復号化部、220…マスク候補取得部、221…切出参照リスト格納部、222…マスク候補切出部、223…マスク候補バッファ、230…マスク対象決定部、231…特徴量算出部、232…マスク対象参照リスト格納部、233…類似度算出部、234…類似判定部、235…マスク設定部、236…関連領域拾集部、237…マスクフラグ付与部、240…メタファイル作成部、250…マスク付加部、260…データ出力部、300…マスク処理部、310…類似判定部、320…先読み検索指示部、900…動画像データ記録再生システム、910…パソコン、920…インターネット、930…サーバ。

Claims (8)

  1. 動画データからマスク処理すべき画像領域を検索してそれらにマスクを付加する画像処理装置であって、
    予め登録された切出参照リストに基づいて、前記動画データの画像フレームのなかからマスク対象になり得る領域をマスク候補領域として切り出すマスク候補切出部と、
    前記切り出されたマスク候補領域を切り出し元のフレームの情報と合わせて保持するマスク候補バッファと、
    予め登録されたマスク対象参照リストに基づいて、最新の前記マスク候補領域を前記マスク対象参照リストと対比して両者の類似度を算出する類似度算出部と、
    前記算出された類似度を所定閾値と対比して、前記類似度が所定閾値以上である場合にはそのマスク候補領域をマスク対象として確定させる類似判定部と、
    マスク対象として確定した領域に関連するマスク候補領域を少なくともそのマスク候補領域の座標情報に基づいて前記マスク候補バッファに格納されている過去のデータから拾集する関連領域拾集部と、
    前記類似判定部による判定によってマスク対象に確定した領域に加えて前記関連領域拾集部で拾集されたマスク候補領域に対してマスクを付与するマスク付与部と、を備えることを特徴とする画像処理装置。
  2. 前記類似判定部には、前記マスク候補領域をマスク対象として確定させるための確定閾値に加えて、前記確定閾値よりも低い予見閾値が設定されており、
    前記類似判定部は、前記類似度が、予見閾値未満であるか、予見閾値以上かつ確定閾値未満であるか、または、確定閾値以上であるか、を判定し、
    当該画像処理装置は、
    さらに、類似度が前記予見閾値以上であるマスク候補領域が出現した場合にその領域が属するフレームよりも時間的に後のフレームを順番通りではなく途中の数コマをスキップして検索する先読み検索を指示する先読み検索指示部をさらに備える
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 予見閾値以上かつ確定閾値未満である類似度を持つ領域が一つでもある場合には、前記先読み検索指示部は先読み検索を継続させる
    ことを特徴とする請求項2に記載の画像処理装置。
  4. 前記動画データを取り込んで復号化するデータ入力部を備え、
    前記データ入力部は、前記先読み検索指示部により先読み検索が指示されている場合、解像度を下げる、輝度信号だけを取り出す、および、類似度が予見閾値以上となった領域が示す座標に関連する領域を優先的に復号化する、のいずれか一つ以上を実行する
    ことを特徴とする請求項2または請求項3に記載の画像処理装置。
  5. 前記先読み検索指示部は、前記先読み動作中に前記データ入力部から前記マスク候補切出部に出力した画像フレームまたは領域データに対し検索済みを示す検索済みフラグを付す
    ことを特徴とする請求項4に記載の画像処理装置。
  6. 動画データからマスク処理すべき画像領域を検索してそれらにマスクを付加する画像処理方法であって
    め登録された切出参照リストに基づいて、前記動画データの画像フレームのなかからマスク対象になり得る領域をマスク候補領域として切り出すマスク候補切出工程と、
    前記切り出されたマスク候補領域を切り出し元のフレームの情報と合わせてマスク候補バッファに保持するマスク候補保持工程と、
    予め登録されたマスク対象参照リストに基づいて、最新の前記マスク候補領域を前記マスク対象参照リストと対比して両者の類似度を算出する類似度算出工程と、
    前記算出された類似度を所定閾値と対比して、前記類似度が所定閾値以上である場合にはそのマスク候補領域をマスク対象として確定させる類似判定工程と、
    マスク対象として確定した領域に関連するマスク候補領域を少なくともそのマスク候補領域の座標情報に基づいて前記マスク候補バッファに格納されている過去のデータから拾集する関連領域拾集工程と、
    前記類似判定工程による判定によってマスク対象に確定した領域に加えて前記関連領域拾集工程で拾集されたマスク候補領域に対してマスクを付与するマスク付与工程と、を備える
    ことを特徴とする画像処理方法。
  7. 前記類似判定工程には、前記マスク候補領域をマスク対象として確定させるための確定閾値を用いた類似判定の前に、前記確定閾値よりも低い予見閾値を用いた類似判定を行い、
    類似度が前記予見閾値以上であるマスク候補領域が出現した場合にその領域が属するフレームよりも時間的に後のフレームを順番通りではなく途中の数コマをスキップして取得する先読み検索を実行する
    ことを特徴とする請求項6に記載の画像処理方法。
  8. 動画データからマスク処理すべき画像領域を検索してそれらにマスクを付加する画像処理プログラムであって、
    予め登録された切出参照リストに基づいて、前記動画データの画像フレームのなかからマスク対象になり得る領域をマスク候補領域として切り出し、前記切り出したマスク候補領域を切り出し元のフレームの情報と合わせてマスク候補バッファに保持させるマスク候補切出部と、
    予め登録されたマスク対象参照リストに基づいて、最新の前記マスク候補領域を前記マスク対象参照リストと対比して両者の類似度を算出する類似度算出部と、
    前記算出された類似度を所定閾値と対比して、前記類似度が所定閾値以上である場合にはそのマスク候補領域をマスク対象として確定させる類似判定部と、
    マスク対象として確定した領域に関連するマスク候補領域を少なくともそのマスク候補領域の座標情報に基づいて前記マスク候補バッファに格納されている過去のデータから拾集する関連領域拾集部と、
    前記類似判定部による判定によってマスク対象に確定した領域に加えて前記関連領域拾集部で拾集されたマスク候補領域に対してマスクを付与するマスク付与部と、して機能させるための画像処理プログラム。
JP2012019187A 2011-10-31 2012-01-31 画像処理装置、画像処理方法、画像処理プログラム Active JP5810948B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012019187A JP5810948B2 (ja) 2011-10-31 2012-01-31 画像処理装置、画像処理方法、画像処理プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011239764 2011-10-31
JP2011239764 2011-10-31
JP2012019187A JP5810948B2 (ja) 2011-10-31 2012-01-31 画像処理装置、画像処理方法、画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2013118606A JP2013118606A (ja) 2013-06-13
JP5810948B2 true JP5810948B2 (ja) 2015-11-11

Family

ID=48712853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012019187A Active JP5810948B2 (ja) 2011-10-31 2012-01-31 画像処理装置、画像処理方法、画像処理プログラム

Country Status (1)

Country Link
JP (1) JP5810948B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6211125B2 (ja) * 2016-03-31 2017-10-11 株式会社Medi Plus 画像処理システム
JP6659495B2 (ja) * 2016-08-19 2020-03-04 株式会社東芝 撮像装置および送信方法
JP2020156033A (ja) * 2019-03-22 2020-09-24 日産自動車株式会社 情報処理装置及び情報処理方法
CN111160155A (zh) * 2019-12-17 2020-05-15 北京文安智能技术股份有限公司 一种积水检测方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4650579B2 (ja) * 2009-03-30 2011-03-16 日本ビクター株式会社 ビデオデータ記録装置、ビデオデータ再生装置、およびビデオデータ記録方法、ビデオデータ再生方法
JP5274369B2 (ja) * 2009-05-12 2013-08-28 キヤノン株式会社 画像処理装置及び画像処理方法

Also Published As

Publication number Publication date
JP2013118606A (ja) 2013-06-13

Similar Documents

Publication Publication Date Title
JP4506801B2 (ja) 画像認識装置、画像認識方法、画像認識プログラム
JP4274233B2 (ja) 撮影装置、画像処理装置、および、これらにおける画像処理方法ならびに当該方法をコンピュータに実行させるプログラム
US8526742B2 (en) Image processing apparatus, method, and program that classifies data of images
JP5612310B2 (ja) 顔認識のためのユーザーインターフェース
US8762659B2 (en) Storage apparatus and method, program, and playback apparatus and method
JP5825121B2 (ja) 画像処理装置、画像処理方法、画像処理プログラム
JP4650579B2 (ja) ビデオデータ記録装置、ビデオデータ再生装置、およびビデオデータ記録方法、ビデオデータ再生方法
US20080260255A1 (en) Image processing apparatus, imaging apparatus, image processing method, and computer program
JP5810948B2 (ja) 画像処理装置、画像処理方法、画像処理プログラム
JP5963525B2 (ja) 認識装置、その制御方法、および制御プログラム、並びに撮像装置および表示装置
JP2011244043A (ja) 映像記録再生装置
JP4866396B2 (ja) タグ情報付加装置、タグ情報付加方法及びコンピュータプログラム
JP5712898B2 (ja) 画像処理装置、画像処理方法、画像処理プログラム
JP2007179224A (ja) 情報処理装置および方法、並びにプログラム
US20130328767A1 (en) Information processing apparatus, conference system, and information processing method
JP2010178259A (ja) デジタルカメラ
JP2010219607A (ja) ターゲットフレーム抽出装置、撮像装置およびデジタルカメラ
JP5267136B2 (ja) 電子カメラ
JP4781248B2 (ja) 撮像装置、撮像装置の制御方法、プログラム及び記録媒体
JP2009212935A (ja) 画像処理装置および方法、並びにプログラム
JP5995610B2 (ja) 被写体認識装置及びその制御方法、撮像装置、表示装置、並びにプログラム
JP5293422B2 (ja) 画像特定装置及び画像特定プログラム
KR101297725B1 (ko) 얼굴 검색을 이용한 추가 데이터베이스화 방법
JP2010193183A (ja) 画像表示装置、画像表示プログラム及び記憶媒体
CN114758274A (zh) 一种空镜素材识别方法、装置、终端及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150623

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150818

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150831

R150 Certificate of patent or registration of utility model

Ref document number: 5810948

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150