JP5810948B2

JP5810948B2 - 画像処理装置、画像処理方法、画像処理プログラム

Info

Publication number: JP5810948B2
Application number: JP2012019187A
Authority: JP
Inventors: 佐藤　貴之; 貴之佐藤
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2011-10-31
Filing date: 2012-01-31
Publication date: 2015-11-11
Anticipated expiration: 2032-01-31
Also published as: JP2013118606A

Description

本発明は、画像処理装置、画像処理方法、及び画像処理プログラムに関する。本発明は、例えば、特定人物の顔などプライバシー保護に係るものが映っている画像領域に自動的にマスク処理を施すための画像処理装置等に関する。

近年、個人が撮影した動画像を各個人のパソコン端末や携帯端末からインターネットを介して簡単に公開できるようになってきた。しかし、動画像には、人物や、車両、撮像された地域を示す地名や住所など、個人を特定できる情報が含まれていることがある。そのような情報が含まれる動画像がそのまま公開されてしまうことは、プライバシー保護の観点から望ましくない。

そこで、動画像中の特定人物やナンバープレートに対して自動的にモザイクを施す処理を行う方法が提案されている（例えば、特許文献１、特許文献２）。
特許文献１及び特許文献２に開示される方法では、まず、モザイクを施す処理が必要になる人物の顔情報を参照情報として予め用意しておく。そして、参照情報と画像中の顔とが一致した場合には、その顔部分にモザイクを施す処理を行う。

この方法であれば、確かに特定人物の顔にモザイクを施す処理を行うことができるものの、画像中の顔が参照情報に一致する前の画像にはモザイクを施せないことになる。
例えば、モザイクを施す処理の対象となる人物がゆっくりと画面内にスライドインしてきた場合、その顔が画面内に完全に収まってはじめてモザイクを施す処理が開始されるので、それまではスライドイン途中の顔が一部ではあるものの画面に曝されることとなってしまう。

上記問題に対し、特許文献３（特開２０１０−２３３１３３号公報）では次の方法を提案している。
特許文献３では、ビデオバッファを用意しておき、動画像を数フレーム遡れるように前記ビデオバッファに一時的に溜めておく。そして、モザイクを施す対象、つまりマスク対象が検出された場合には、ビデオバッファ内にあるフレームを順番に遡ってマスク対象に関連する部分が無いかを改めて検索する。これにより、マスク対象が完全に画面内に入る前であってもマスク対象が部分的に映っている領域にマスクを掛ける、つまりモザイクを施すことができる。

特開２００１−０８６４０７号公報特開２００４−０６２５６０号公報特開２０１０−２３３１３３号公報

しかしながら、ビデオバッファの容量にも限界がある。３０フレーム/秒の動画像であるとして、長くても１０秒分ぐらいを溜めておけるのが最大限である（特許文献３の段落0056）。従って、カメラを横にゆっくり振りながら撮影したり、あるいは、固定カメラの前を人がゆっくりと通り過ぎるような場合、マスク処理が必要な人物が画面内にスライドインしてくる時間がビデオバッファの容量よりも長くなるという事態が起こりえる。すると、ビデオバッファによる保持時間を超えてビデオバッファから吐き出されてしまったフレームについては、マスク処理が不十分なままで公開されてしまうことになる。

なお、単純にビデオバッファの容量を大きくすることが考えられるが、どれほど容量を大きくしても動画像を一時的にバッファできる容量（時間）には限界がある。また、マスク対象を一旦検出したあとで、再び最初のフレームから検索し直してマスク対象に関連する部分をピックアップするという方法も考えられるが、時間と手間が掛かり過ぎる。

そこで、本発明の目的は、マスク処理が必要な被写体がフレームインしてくる場合など、マスク対象かどうかの判定までに時間を要するような場合であっても、それまでの間にマスク対象が映っている領域に確実にマスクを掛けることができる画像処理装置、画像処理方法および画像処理プログラムを提供することにある。

そこで、本発明は、
動画データからマスク処理すべき画像領域を検索してそれらにマスクを付加する画像処理装置（１００）であって、
予め登録された切出参照リストに基づいて、前記動画データの画像フレームのなかからマスク対象になり得る領域をマスク候補領域として切り出すマスク候補切出部（２２２）と、
前記切り出されたマスク候補領域を切り出し元のフレームの情報と合わせて保持するマスク候補バッファ（２２３）と、
予め登録されたマスク対象参照リストに基づいて、最新の前記マスク候補領域を前記マスク対象参照リストと対比して両者の類似度を算出する類似度算出部（２３３）と、
前記算出された類似度を所定閾値と対比して、前記類似度が所定閾値以上である場合にはそのマスク候補領域をマスク対象として確定させる類似判定部（２３４）と、
マスク対象として確定した領域に関連するマスク候補領域を少なくともそのマスク候補領域の座標情報に基づいて前記マスク候補バッファに格納されている過去のデータから拾集する関連領域拾集部（２３６）と、
前記類似判定部（２３３）による判定によってマスク対象に確定した領域に加えて前記関連領域拾集部（２３６）で拾集されたマスク候補領域に対してマスクを付与するマスク付与部（２３７、２５０）と、を備える
ことを特徴とする画像処理装置を提供する。

上記画像処理装置（１００）において、
前記類似判定部（３１０）には、前記マスク候補領域をマスク対象として確定させるための確定閾値（３１２）に加えて、前記確定閾値（３１２）よりも低い予見閾値（３１１）が設定されており、
前記類似判定部（３１０）は、前記類似度が、予見閾値（３１１）未満であるか、予見閾値（３１１）以上かつ確定閾値（３１２）未満であるか、または、確定閾値（３１２）以上であるか、を判定し、
当該画像処理装置（１００）は、
さらに、類似度が前記予見閾値（３１１）以上であるマスク候補領域が出現した場合にその領域が属するフレームよりも時間的に後のフレームを順番通りではなく途中の数コマをスキップして検索する先読み検索を指示する先読み検索指示部（３２０）をさらに備える
ようにしても良い。

また、上記画像処理装置（１００）において、
予見閾値（３１１）以上かつ確定閾値（３１２）未満である類似度を持つ領域が一つでもある場合には、前記先読み検索指示部（３２０）は先読み検索を継続させる
ようにしても良い。

また、上記画像処理装置（１００）において、
前記動画データを取り込んで復号化するデータ入力部を備え、
前記データ入力部（２１０）は、前記先読み検索指示部（３２０）により先読み検索が指示されている場合、解像度を下げる、輝度信号だけを取り出す、および、類似度が予見閾値（３１１）以上となった領域が示す座標に関連する領域を優先的に復号化する、のいずれか一つ以上を実行する
ようにしても良い。

また、上記画像処理装置（１００）において、
前記先読み検索指示部（３２０）は、前記先読み動作中に前記データ入力部（２１０）から前記マスク候補切出部（２２２）に出力した画像フレームまたは領域データに対し検索済みを示す検索済みフラグを付す
ようにしても良い。

さらに、本発明は、
動画データからマスク処理すべき画像領域を検索してそれらにマスクを付加する画像処理方法であって、
予め登録された切出参照リストに基づいて、前記動画データの画像フレームのなかからマスク対象になり得る領域をマスク候補領域として切り出すマスク候補切出工程（ＳＴ１０３、ＳＴ１０４）と、
前記切り出されたマスク候補領域を切り出し元のフレームの情報と合わせてマスク候補バッファ（２２３）に保持するマスク候補保持工程（ＳＴ１０５）と、
予め登録されたマスク対象参照リストに基づいて、最新の前記マスク候補領域を前記マスク対象参照リストと対比して両者の類似度を算出する類似度算出工程（ＳＴ１０７）と、
前記算出された類似度を所定閾値と対比して、前記類似度が所定閾値以上である場合にはそのマスク候補領域をマスク対象として確定させる類似判定工程（ＳＴ１０８）と、
マスク対象として確定した領域に関連するマスク候補領域を少なくともそのマスク候補領域の座標情報に基づいて前記マスク候補バッファ（２２３）に格納されている過去のデータから拾集する関連領域拾集工程（ＳＴ１０９）と、
前記類似判定工程（ＳＴ１０８）による判定によってマスク対象に確定した領域に加えて前記関連領域拾集工程（ＳＴ１０９）で拾集されたマスク候補領域に対してマスクを付与するマスク付与工程（ＳＴ１１０、ＳＴ５０）と、を備える
ことを特徴とする画像処理方法を提供する。

上記画像処理方法において、
前記類似判定工程には、前記マスク候補領域をマスク対象として確定させるための確定閾値（３１２）を用いた類似判定の前に、前記確定閾値（３１２）よりも低い予見閾値（３１１）を用いた類似判定を行い、
類似度が前記予見閾値（３１１）以上であるマスク候補領域が出現した場合にその領域が属するフレームよりも時間的に後のフレームを順番通りではなく途中の数コマをスキップして取得する先読み検索を実行する
ようにしても良い。

さらに、本発明は、
動画データからマスク処理すべき画像領域を検索してそれらにマスクを付加する画像処理プログラムであって、

予め登録された切出参照リストに基づいて、前記動画データの画像フレームのなかからマスク対象になり得る領域をマスク候補領域として切り出し、前記切り出したマスク候補領域を切り出し元のフレームの情報と合わせてマスク候補バッファ（２２３）に保持させるマスク候補切出部（２２２）と、
予め登録されたマスク対象参照リストに基づいて、最新の前記マスク候補領域を前記マスク対象参照リストと対比して両者の類似度を算出する類似度算出部（２２３）と、
前記算出された類似度を所定閾値と対比して、前記類似度が所定閾値以上である場合にはそのマスク候補領域をマスク対象として確定させる類似判定部（２３４）と、
マスク対象として確定した領域に関連するマスク候補領域を少なくともそのマスク候補領域の座標情報に基づいて前記マスク候補バッファ（２２３）に格納されている過去のデータから拾集する関連領域拾集部（２３６）と、
前記類似判定部（２３４）による判定によってマスク対象に確定した領域に加えて前記関連領域拾集部（２３６）で拾集されたマスク候補領域に対してマスクを付与するマスク付与部（２３７、２５０）と、して機能させることを特徴とする画像処理プログラムを提供する。

本発明が想定する動画像データ記録再生システムの一例を示す図。第１実施形態において、マスク処理部の機能ブロック図。第１実施形態において、マスク処理の全体動作フローを示すフローチャート。動画を撮影する様子の一例を示す図。撮影した動画の一例を示す図。第１実施形態において、マスク処理用メタファイルを作成する動作手順を示すフローチャート。第１実施形態において、マスク候補領域を切り出して処理する様子を示す図。第１実施形態において、関連領域を拾集してそれらにマスクフラグを付す様子を示す図。第１実施形態において、マスクを掛けた動画の一例を示す図。第２実施形態において、マスク処理部の機能ブロック図。第２実施形態において、マスク用メタファイルを作成する工程の手順を表すフローチャート。第２実施形態において、先読み検索の動作手順を示すフローチャート。第２実施形態において、マスク候補領域を切り出して処理する様子を示す図。第２実施形態において、動作例2を説明するための動画例を示す図。第２実施形態の動作例２において、マスク候補領域を切り出して処理する様子を示す図。第２実施形態の動作例２において、マスク候補領域を切り出して処理する様子を示す図。変形例４を説明するための図。変形例４を説明するための図。

以下、図面を参照して本発明の実施の形態について説明する。
（第１実施形態）
図１は、本発明が想定する動画像データ記録再生システム９００の一例である。各個人はおのおの好きな被写体をビデオカメラ１００で撮像する。例えば、戸外に出て街の様子を撮影したり、家族が公園で遊んでいる光景を撮影したりしてもよい。このようにして撮影された動画像データはビデオカメラ１００に内蔵された動画メモリ１２０に蓄積されていく。

撮影者は家に帰ると、ビデオカメラ１００をパソコン９１０に接続し、撮影した動画像データをパソコン９１０経由でインターネット９２０上のサーバ９３０に送る。すると、このサーバ９３０に動画像データが保存され、第三者もインターネット９２０を利用して動画像を見られるようになる。

しかし、このようにして撮影された動画像には公開しては不都合な画像が含まれていることがある。
例えば、家族の顔や、意図せずに映り込んでしまった通行人の顔、個人を特定する情報、例えば、氏名、電話番号、車のナンバープレートなどが映り込んでいる可能性がある。
これらの個人情報に関連する画像をそのままインターネット上に公開してしまうとプライバシー保護の観点からみて問題が生じる恐れがある。
従って、プラバシーに関わる画像部分にはマスク処理を施すことが必要になる。

（第１実施形態の構成）
図２は、マスク処理部２００の機能ブロック図であり、あわせて、ビデオカメラ１００の主要要素を示す。
本実施形態ではマスク処理部２００がビデオカメラ１００に内蔵されている場合を想定しているが、パソコン９１０の一機能としてマスク処理部が設けられてもよい。
ビデオカメラ１００の撮像部１１０で撮像された動画データは、一旦動画メモリ１２０に蓄積される。
ここで、ビデオカメラ１００の撮像部１１０は、レンズユニットやＣＣＤ（光電変換素子）回路、所定のロジック回路で構成され、被写体を撮影した動画（映像）信号から動画データ（フレーム）を生成する。
動画データには輝度データや色データが含まれる。動画メモリ１２０としては、例えば、フラッシュメモリが利用できる。

マスク処理部２００は、データ入力部２１０と、マスク候補取得部２２０と、マスク対象決定部２３０と、メタファイル作成部２４０と、マスク付加部２５０と、データ出力部２６０と、を備える。

データ入力部２１０は、動画メモリ１２０に蓄積された動画データを読み込んで後段に出力する。データ入力部２１０は、復号化部２１１を有し、動画データを復号化した画像フレームを出力する。

ここで、動画を視聴することを目的とせずにマスク処理だけを目的とする場合、すべての画像フレームが必要になるわけではない。従って、Ｉピクチャや、Ｐピクチャ、Ｂピクチャなどがあるなかで、処理の目的に応じたフレームだけがデータ入力部２１０から後段回路に提供されるようにしてもよい。例えば、マスク処理にはＩピクチャとＰピクチャとだけを使用するようにしてもよい。もちろん、全てのフレームを使用してマスク処理を行ってもよい。

マスク候補取得部２２０は、プラバシーマスクを必要とする可能性がある画像領域だけを切出して（抽出して）蓄積していく。
例えば、特定人物であるＡさんの顔にマスクを掛ける必要があるとする。
カメラを横に振りながら撮影した画像フレームに肌色の領域が出現してきた場合、それは、人の肌である可能性があり、さらに、（Ａさんとは限らないが）人の顔の一部である可能性があり、そしてさらに、Ａさんの顔の一部である可能性がある。
フレームに出現した肌色領域がＡさんの顔の一部であると最終的に特定できた段階で、最初に出現した肌色の領域にまで時間的に画像フレームを遡ってプライバシーマスクを掛けることになる。
そこで、本実施形態では、肌色が所定面積以上である領域は人の顔の可能性がある、つまり、マスク付加対象の有力候補であるとして、そのような領域を切り出してバッファに蓄積しておく。

マスク候補取得部２２０は、切出参照リスト格納部２２１と、マスク候補切出部２２２と、マスク候補バッファ２２３と、を備える。

切出参照リスト格納部２２１は、マスク候補として切出し対象になる領域を検出するための切出参照リストを格納している。
切出参照リストは、プリセットされていてもよく、マスク対象の特徴から自動的に生成されるようにしてもよく、あるいは、ユーザが設定入力してもよい。切出参照リストとしては、所定面積以上の肌色領域や、文字及び数字のリストデータなどがあげられる。

文字及び数字のリストデータを切出参照リストとして持つ意味を補足しておく。
プライバシーに関するものとしては、顔の他にも、氏名、団体名（会社名や学校名）、住所表示、電話番号、車のナンバーなどがある。従って、０９０−ＸＸＸＸ−ＸＸＸＸといった電話番号にはプライバシーマスクを掛ける必要がある。そこで、画像フレーム中に"０"といった数字や後述するように何らかの文字が現れれば、それらをマスク対象の候補として切り出しておく必要がある。そして、最終的に、"０９０−"のように数字が並べばこの数字列にマスク処理を施すことになるし、単に"０"だけ、もしくは"０"のように見える模様であった場合にはマスク処理は必要ないことになる。

もう一例あげると、最終的に"横浜"や"横浜市ＸＸＸ区"、"横Ｘ学園ＸＸ学校"といったように文字が並べばこれらにマスク処理を施すことになるし、単に、"横"という字が一文字だけであれば、プライバシーに何ら関係がないので、マスク処理は必要ないことになる。
文字としては、外国語にも対応できるように、アルファベットや、ハングル、中国語の略字も切出参照リストに加えておくとよい。

マスク候補切出部２２２は、データ入力部２１０から順次入力される画像フレームを検索し、切出参照リスト格納部２２１に格納された切出参照リストに合致するものがあるか否かを探す。そして、切出参照リストに合致するものが画像フレーム中に存在している場合、その領域部分を切り出してマスク候補領域としてマスク候補バッファ２２３に送る。
このとき、切り出されたマスク候補領域は、もとのフレームに関連付けられる情報を保持するものとする。フレームに関連付けられる情報とは、例えば、切出し元のフレーム番号およびそのフレーム内での座標位置などである。

マスク候補バッファ２２３は、マスク候補切出部２２２から送られてくるマスク候補領域の画像データを一時的に蓄積する。
マスク候補バッファ２２３の容量としては、大きいに越したことはないが、例えば、特開２０１０−２３３１３３号公報のバッファと同じ程度であってもよい。本実施形態では、動画像データの全フレームを順番にバッファに格納していくわけではなく、また、１フレーム分全部を格納するのでもなく、フレーム中の一部分であるマスク候補領域をマスク候補バッファ２２３に格納していく。

このように本実施形態では、マスク候補切出部２２２によってマスク候補領域をあらかじめ選別し、マスク付加処理の対象になる候補だけをマスク候補バッファ２２３に格納するようにしている。仮に、特開２０１０−２３３１３３号公報のバッファと同じ程度のサイズであったとしたならば、相当長い時間分（数分分）のフレームに関してマスク候補をバッファできることになる。従って、マスク対象の存在が確定した後に遡及的にマスク処理を行うとしても、必要な分だけ充分に時間を遡ることができる。

なお、マスク候補バッファ２２３は、容量が一杯になったらＦＩＦＯ（First In, First Out）で古いデータから消去していくようにすればよい。

次に、マスク対象決定部２３０は、マスク候補取得部２２０で取得されたマスク候補の領域に対し、真にマスク対象であるか否かを検証する。マスク対象決定部２３０は、特徴量算出部２３１と、マスク対象参照リスト格納部２３２と、類似度算出部２３３と、類似判定部２３４と、マスク設定部２３５とを備える。

特徴量算出部２３１は、マスク候補バッファ２２３に格納された最新のマスク候補に対して特徴量を算出する。特徴量とは、対象画像の特徴を表わす各種指標値の組み合わせであり、対象画像の特徴点を表わす指標値や、特徴点同士の距離関係を表わす指標値、特徴部分の大きさを表わす指標値、対象画像の輪郭を表わす指標値、輝度を表わす指標値、色を表わす指標値などからなる。
特徴量算出部２３１は、算出した特徴量を類似度算出部２３３に送る。

マスク対象参照リスト格納部２３２は、マスク対象になる領域を検出するための参照情報を格納している。マスク対象参照リスト格納部２３２に格納されている参照情報としては、プライバシーマスクが必要な特定人物の顔（Ａさんの顔、Ｂさんの顔・・・）、電話番号や車両番号であることを特定するための数字列、氏名・団体名（会社名や学校名）・住所表示であることを特定するための文字列、などが挙げられる。これらの参照情報がそれぞれの特徴量とセットになって格納されている。

類似度算出部２３３は、特徴量算出部２３１で算出された特徴量をマスク対象参照リスト格納部２３２に格納された特徴量と比較し、類似度を算出する。類似度の算出にあたっては、マスク候補の指標値とマスク対象参照リストの指標値とで互いに対応するもの同士をつきあわせ、両者の類似度合いを総合的に評価して類似度を求める。

なお、マスク候補が肌色領域であって人の顔である可能性がある場合に、これを電話番号の特徴量と対比して類似度を算出しても意味のないことなのであり、マスク候補が肌色領域である場合に突き合わされる参照情報は特定人物の顔である。
類似度の算出に当たって適切な参照情報を選ばせる方法は各種考えられるが、例えば、色や輝度で判断してもよく、あるいは、総ての参照情報と突き合わせた上で最も類似度が高くなるものを選んでもよい。

類似判定部２３４は、類似度算出部２３３で算出された類似度を所定の閾値と比較する。そして、類似度が閾値を超えている場合、そのマスク候補領域がマスク対象であることが確定する。類似度が閾値を超えた場合には、その旨をマスク設定部２３５に通知する。

マスク設定部２３５は、マスク対象にマスクフラグを設定する。マスク設定部２３５は、関連領域拾集部２３６と、マスクフラグ付与部２３７と、を備える。マスク対象にマスクフラグを設定するにあっては、類似判定部２３４による判定によってマスク対象であることが確定したマスク候補の領域、すなわち、閾値を越えたマスク候補にマスクフラグを付与することはもちろんである。さらに、マスク候補バッファ２２３に蓄積されているマスク候補を遡ってマスクフラグを付与することが必要である。

すなわち、関連領域拾集部２３６は、マスク対象であると確定した領域のフレーム番号および座標値の情報に基づいて、関連する過去のマスク候補をマスク候補バッファ２２３から拾集する。
マスク対象がゆっくりとフレーム内にスライドインしてくるとすれば、時間的に隣同士のフレーム間ではマスク対象は大体同じような位置に映っているはずである。したがって、マスク候補の座標情報を辿っていくことによって同じマスク対象が映り込んでいる領域を収拾することができる。
なお、関連領域を収拾するにあたっては、座標情報の他、色、輝度、動きベクトルなどの情報を合わせて利用してもよく、具体的な例は後述する。

これら拾集した過去のマスク候補に対しマスクフラグ付与部２３７によってマスクフラグを付与する。
これにより、例えば特定人物Ａさんの顔がマスク対象であるとすると、Ａさんの顔の一部分でもフレーム内に映り込んだときに遡ってプライバシーマスクが掛けられることになる。

マスクフラグを付与する領域についての情報はマスクフラグ付与部２３７からメタファイル作成部２４０に送られる。例えば、マスク対象となる領域のフレーム番号、座標、範囲といった情報がメタファイル作成部２４０に送られる。

メタファイル作成部２４０は、マスク対象となる領域のフレーム番号、座標、範囲に対してマスク処理を命令するメタファイルを作成する。メタファイルはマスク付加部２５０に出力される。

マスク付加部２５０は、メタファイルのマスク処理命令に従って動画データにマスクを掛けていく。このとき、動画メモリ１２０に蓄積された総ての動画データに関するメタファイルが作成されるのを待ってからマスク付加部250でのマスク処理を開始してもよい。すなわち、メタファイル作成のための復号処理をしたあと、あらためての動画メモリ１２０から動画データを取り出して復号化する。このときはマスク候補取得部２２０やマスク対象決定部２３０を起動させる必要はなく、復号化された画像データはマスク付加部２５０に送られ、そこでメタファイルに従ったマスク付加を行う。

あるいは、メタファイルの作成から所定の時間遅れをもたせてマスク処理を進行させてもよい。例えば、マスク候補切出部２２２が処理中であるフレームのタイムスタンプに対し、数分分の遅れを持たせていれば前記フレームに対するマスク処理の要否は確定されている。

マスク付加部２５０でマスク付加された動画データはデータ出力部２６０から出力される。そして、例えば、パソコンのハードディスクなどに一旦保存されたあと、インターネット上のサーバに送られることになる。

（第1実施形態の動作）
続いて、第1実施形態の動作を説明する。ユーザによる動画撮影（ＳＴ１０）からマスク付加されたデータの出力（ＳＴ６０）までの流れは、図３に示すように、撮影（ＳＴ１０）、動画データの保存（ＳＴ２０）、マスク処理の事前準備（ＳＴ３０）、マスク処理用メタファイルの作成（ＳＴ４０）、マスク付加（ＳＴ５０）、データ出力（ＳＴ６０）の順で進む。

ここで、動画撮影の例として、図４のように特定人物である子供ＣＡの様子を撮影する様子を説明する。
このとき撮影者Ｐは、ビデオカメラ１００を右から左にゆっくりと向きを変えるように動かし、子供ＣＡがフレームのなかにゆっくりとフレームインするように撮影するとする。
すると、例えば、図５のように、フレームの左から子供ＣＡが徐々にフレームインしてくる動画が撮影されるであろう。
なお、全てのフレームは図面に描ききれないので、途中の数十あるいは数百のフレームは省略してある。
そして、撮影者Ｐは、この動画をインターネットに公開したいが、ただし、子供ＣＡの顔までは公開したくないとする。

単純に従来技術を適用するならば、フレームＦ４０のように子供ＣＡの顔がはっきり特定できるようになるまでマスク処理が掛からないであろう。
あるいは、特開２０１０−２３３１３３号公報の技術を用いたとしても、フレームＦ３０からフレームＦ４０までの間に１０秒以上の間隔があるとすると、フレームＦ４０で子供の顔が特定されてからバッファ内のデータを時間的に遡ったとしてもフレームＦ３０までは遡れない。
結果として、フレームＦ３０のように顔のほぼ半分が映っており、人が視れば子供ＣＡの顔（顔の特徴）を充分に認識できる画像がマスク処理なしで短い時間とはいえども公開されてしまうことになる。

本第１実施形態に係るマスク処理部２００の動作を図６のフローチャートを参照しながら説明する。
なお、マスク処理の事前準備（ＳＴ３０）として、ユーザはマスク対象に関する情報をマスク対象参照リスト格納部２３２に格納しておく必要がある。
本例でいえば、子供ＣＡの顔の特徴量をマスク対象参照リスト格納部に格納しておく必要がある。子供ＣＡの顔の特徴量をマスク対象参照リスト格納部２３２に格納するにあたっては、例えば、別途に撮影した子供ＣＡの顔のデータをビデオカメラ１００にセットしてもよい。或は今回撮影した動画のなかから子供ＣＡの顔が映っている領域を指定して、これをマスク対象としてビデオカメラ１００にセットしてもよい。ビデオカメラ１００は、マスク対象としてセットされた領域から自動的に特徴量を算出してマスク対象参照リスト格納部に格納する。

これに合わせて切出参照リスト格納部２２１に切出参照リストを登録しておく必要がある。これについてはマスク対象参照リスト格納部２３２の情報からビデオカメラ１００が自動的に切出参照リストを生成するようにしてもよい。或は、人物の顔がマスク対象に設定されたならば、自動的に所定面積以上の肌色領域が切出参照リストに加えられるようにしてもよい。

このような事前準備（ＳＴ３０）が終わったところで、マスク処理部２００を起動してマスク処理用メタファイルの作成（ＳＴ４０）を実行する。撮影された動画データは動画メモリ１２０に蓄積された後、データ入力部２１０からマスク処理部２００に入力される（ＳＴ１０１）。
データ入力部２１０の復号化部２１１において動画データが復号化され（ＳＴ１０２）、画像フレームが順次マスク候補切出部２２２に送られる。

マスク候補切出部２２２は、画像フレーム中に切出参照リストに合致するマスク候補領域があるか否かを探索する。フレームＦ００の段階では、肌色の領域はないのであるからマスク候補となる領域はない（ＳＴ１３０でＮＯ）。マスク候補の領域がなければ、次の画像フレームに探索対象を移していく。

フレームＦ００からフレームＦ１０に移行するにつれて徐々に子供ＣＡの手がフレームに入ってくる。子供ＣＡの手は顔と同じ肌色である。従って、子供ＣＡの手が所定面積を超えてフレームに入ってくれば、これは切出参照リストに合致することになる（ＳＴ１０３でＹＥＳ）。例えばフレームＦ１０で肌色面積が所定値を超えたとする。すると、マスク候補切出部２２２は、所定面積以上の肌色領域Ｒ１０をマスク候補として切り出す（ＳＴ１０４）（図７参照）。このとき、前述したように、切り出された領域（Ｒ１０）のデータには、切出し元のフレームＦ１０のフレーム番号およびこのフレームＦ１０中での座標が付加されている。このように切り出されたマスク候補領域（Ｒ１０）は、マスク候補バッファ２２３に送られて蓄積される（ＳＴ１０５）。

切り出された領域がマスク候補バッファ２２３に格納されると、この領域（Ｒ１０）に対して特徴量算出部２３１により特徴量が算出される（ＳＴ１０６）。算出された特徴量は類似度算出部２３３に送られ、そこでマスク対象参照リストとの比較に基づいた類似度が求められる（ＳＴ１０７）。

算出された類似度は類似判定部２３４において閾値と対比される。領域Ｒ１０については、子供ＣＡの顔の特徴量と類似する点はないので、類似度が閾値Ｔｈを超えることはない（ＳＴ１０８でＮＯ）。この場合、領域Ｒ１０はマスク候補としてマスク候補バッファに格納されたままとして、次ぎの画像フレームの処理に進む。

フレームＦ１０からフレームＦ３０に移るにつれて、手の領域が徐々に大きくなっていくので肌色領域はすべてマスク候補として切出しの対象となり（ＳＴ１０３でＹＥＳ）、切り出された領域Ｒ２０及びＲ３０はマスク候補バッファ２２３に蓄積されていく（ＳＴ１０５）。その一方、手は顔と類似しないので類似判定（ＳＴ１０８）において類似度が閾値Ｔｈを超えることはない（ＳＴ１０８でＮＯ）。

ここで、フレームＦ３０では領域Ｒ３０において顔の半分がフレーム内に入っている。しかし、半顔の領域Ｒ３０を対象にした類似判定（ＳＴ１０７、ＳＴ１０８）では、顔の一部であることまでは判定できるかもしれないが、人物を区別するまでには至らない。従って、フレームＦ３０の領域Ｒ３０に対しては、マスク候補としてマスク候補バッファに格納されるが（ＳＴ１０３、ＳＴ１０４、ＳＴ１０５）、類似判定で閾値を超えるには至らない（ＳＴ１０８でＮＯ）。

フレームＦ３０からさらに進んでフレームＦ４０が処理対象のフレームになった時点を考える。フレームＦ４０では領域Ｒ４０において顔の８０％程度がフレーム内に入っている状態である。領域Ｒ４０は、所定面積以上の肌色領域であるのでマスク候補としてマスク候補切出部２２２によって切り出され（ＳＴ１０４）、マスク候補バッファ２２３に格納される（ＳＴ１０５）。さらに、特徴量算出部２３１において領域Ｒ４０の特徴量が算出され（ＳＴ１０６）、マスク対象参照リストとの対比に基づいて類似度算出部２３３により類似度が求められる（ＳＴ１０７）。

領域Ｒ４０では、子供ＣＡの顔の８０％程度が映っているので、マスク対象参照リストにある指標（子供の顔の特徴量）と複数点で相関が高く、類似度としては大きな値が算出される。したがって、Ｒ４０について求められた類似度Ｓ４０は、閾値Ｔｈ以上になる（ＳＴ１０８でＹＥＳ）。

このように類似度Ｓ４０が閾値Ｔｈ以上になった場合、類似判定部２３４は、閾値Ｔｈ以上の類似度Ｓをもつ領域が出現したことをマスク設定部２３５に通知する。すると、類似度が閾値以上となった領域Ｒ４０に関連する領域が関連領域拾集部２３６により拾集される（ＳＴ１０９）。マスク候補バッファ２２３には、これまでにマスク候補として切り出された領域（Ｒ１０・・・Ｒ２０・・・Ｒ３０）が格納されている（図７参照）。従って、関連領域拾集部２３６は、マスク候補バッファ２２３から領域Ｒ４０に関連する領域を拾集する（ＳＴ１０９）（図８参照）。

関連領域拾集部２３６は、領域Ｒ４０に関連する領域を拾集するにあたり、領域Ｒ４０が属していたフレームよりも時間的に前のフレームに属する領域であってマスク候補バッファ２２３に格納されているものを検索する。そして、領域Ｒ４０の座標（フレームＦ４０内における位置）に基づいて同じ対象物が映っている領域を辿って拾集する。
図８は、マスク候補バッファに格納されたデータを遡って関連領域を拾集する様子を模式的に示す図である。
３０フレーム/秒のフレームレートであれば、よほどの高速移動でもない限り前後のフレームにおいて同じ対象物は同じような座標（位置）に映っているはずである。
従って、領域Ｒ４０からマスク候補の領域（Ｒ１０・・・Ｒ２０・・・Ｒ３０）を時間的に順に遡り、前後で座標が近似していれば同一対象物を映した関連領域であるとして拾集していく（ＳＴ１０９）。

関連領域を収拾するにあたっては、必要に応じて色や輝度、大きさ、動きベクトルなど関連性を判断するファクタを加えることもできる。
例えば、色に基づいて関連領域を収拾する場合、マスク対象として確定した領域およびマスク候補領域の色度を求めておき、互いに色度が近いものを収拾すればよい。
マスク対象としては、人物の顔やナンバープレート、表札など様々なものが挙げられるが、マスク対象の色が短い時間で極端に変化することはあまり考えにくい。したがって、マスク対象が特定人物の顔であれば、その人物の肌色が映っている領域を色度に基づいて辿っていけばよい。これにより、その人物の顔が一部分でもフレームインしたときにまで遡って関連領域を収拾することができる。これはマスク対象がナンバープレートであったり表札であったりしても同じことである。
なお、領域の色度を表すにあたっては、その領域の色度を代表させる値を適宜用いればよく、例えば、平均値や中間値、モードなどの他、各種統計的代表値を用いればよい。色度を表す表色系についても特に限定されず、ビデオカメラ１００の仕様に従えば良いのはもちろんである。また、色度が近いかどうかについては各種の統計的距離（マハラノビス距離等）や、相関係数を用いて判断するようにすればよい。

また、関連領域拾集部２３６が拾集するのは、領域の画像データそのものではなく、各領域が属していたフレームの番号、領域の座標および範囲である。

このようにして拾集した領域がマスク対象である。従って、拾集した領域に対しマスクフラグ付与部２３７によりマスクフラグを付与する（ＳＴ１１０）（図８参照）。

マスクフラグを付与されたマスク対象データがメタファイル作成部２４０に送られ、マスク処理を命令するメタファイルが作成される（ＳＴ１１１）。

動画メモリ１２０に蓄積された動画データの全フレームを検証して（ＳＴ１１２でＹＥＳ）、マスク処理用のメタファイルが完成する。

このように作成されたメタファイルに従って動画データにマスク処理を施す。すなわち、マスク付加部２５０は、復号化された動画フレームデータに対しメタファイルに指定された領域にマスクを掛けていく（ＳＴ５０）。すると、図９に示すように、子供がフレームに映り始めたところからマスク処理が掛かり、子供のプライバシーを保護することができる。

このような構成を備える第１実施形態によれば次の効果を奏することができる。
（１）マスク候補切出部２２２によってマスク候補となる領域だけを切り出し、このように切り出した領域だけをマスク候補バッファ２２３に格納していく。マスク候補バッファ２２３は、マスク候補だけを格納すればよいので、相当長い時間分（数分分）のフレームに関してマスク候補をバッファできる。従って、マスク候補の類似度が閾値以上となってマスク対象が確定した後からでも十分に時間を遡って必要箇所にマスクを掛けることができる。

（２）マスク候補切出部２２２により、マスクが必要になりそうな箇所は切り出してマスク候補バッファ２２３に蓄積してある。そして、マスク候補切出部２２２によってマスク候補を切り出す際には、座標の情報等を付加している。したがって、関連領域拾集部２３６はマスク対象として確定した領域の座標とマスク候補バッファ２２３に格納されているマスク候補領域の座標とを対比することでマスク処理が必要な箇所の情報を時間的に遡って簡単に集めることができる。

（変形例1）
上記第1実施形態を説明するにあたって、マスク候補切出部２２２は所定面積以上の肌色領域を切り出すとした。これはマスク候補を切り出す基準としてはかなり緩いものである。マスク候補を切出す基準を緩くしておくことで必要な箇所には漏れなく確実にマスクできるという利点がある。その一方、顔の他に手や首、場合によっては脚など、プライバシーマスクが必要ではない箇所にもマスクが掛かってしまうということが生じうる。

そこで、マスク候補を切り出す基準を切出参照リストにさらに付加して、マスク候補を絞る精度を高くしてもよい。加える基準としては次のようなものが挙げられる。
例えば、顔と推定される部分画像の付近に首や胴体、下半身等の画像を検出できるか。検出した人物の画像中における身長が、画面内の他の人物の身長と比較して極端に大きすぎまたは小さすぎないか。さらに顔かどうかを判断するにあたって、肌の色や髪の色の評価値に重み付けをしてもよい。

上記に加えて、顔（または顔の一部）と推定される部分以外の領域も参照して総合的に評価、判断できるようにし、顔の部分と推定される部分だけを切り出す精度を引き上げることができる。
これによれば、例えば手や脚に関係する領域についてはマスク候補として切り出されなくなる。

また、知られた技術として、個人を顔で特定する顔認証技術と、個人を特定することはしないが顔であることを検出する顔検出技術と、がある。顔認証ができない程度の画像であっても顔検出に成功することはある。個人を特定しない顔検出の方が少ない情報で顔であることを検出できるからである。したがって、マスク候補切出部２２２としては顔検出技術を適用し、類似判定部としては顔認証技術を適用してもよい。

切出参照リストにどのような基準を加味するかはユーザが調整できるようになっていてもよい。例えばプライバシー保護レベルを高から低まで段階的に選べるようにしておいてもよい。

（第２実施形態）
次に本発明の第２実施形態を説明する。
上記第１実施形態では、切り出したマスク候補を総てマスク候補バッファに格納し、マスク対象が確定した場合にはマスク候補バッファに蓄積されていたすべての関連領域を遡ってマスク付与対象とした。
比較的簡便な構成でありながらも必要な箇所には漏れなく確実にマスクできるという利点があるが、マスク対象が完全に確定するまで画像フレームを順に検証していく作業には時間が掛かり、処理負荷も大きい。また、マスク候補だけを切り出してマスク候補バッファに格納するとはいっても、バッファ容量にはやはり限界がある。

上記第１実施形態では、画面の端に掛かるか掛からないかの位置に立ち止まっている人がいたり、多くの人（マスク対象）が同時に画面に入ったり出たりしていると、マスク対象かどうか確定する前にバッファがあふれてしまう可能性はある。
そこで、第２実施形態においては、マスク対象を確定させる閾値（確定閾値ＴｈＤ）の手前にそれよりも一段緩い中間的な閾値（予見閾値ＴｈＰ）を設け、この中間的な閾値（予見閾値ＴｈＰ）を超える類似度が出現した場合には、それがマスク対象であるかどうかを先読み検索によって早期に確定させる処理を行うことを特徴とする。

図１０は第２実施形態に係るマスク処理部３００の構成を示す図である。
図１０において、類似判定部３１０には、二つの閾値が設定されている。確定閾値ＴｈＤは、マスク候補がマスク対象であることを確定させるための閾値であり、第１実施形態で用いた閾値と同じである。すなわち、ある領域について算出された類似度が確定閾値ＴｈＤ以上になると、その領域には特定人物の顔や電話番号が映っていることが確定し、その領域はマスク対象となる。

一方、予見閾値ＴｈＰは、確定閾値ＴｈＤよりも一段緩い閾値である。
予見閾値ＴｈＰは、マスク対象に類似している可能性があると判定できる程度の閾値レベルに設定されている。予見閾値ＴｈＰ以上の領域が出現したということは、その後にマスク対象になる可能性があるということである。
予見閾値ＴｈＰとしては、特定人物の顔がマスク対象であるとした場合、その特定人物の顔かどうかまでは確定しないが領域に映っているのが少なくとも人間の顔であることが判定できるレベルにすることが例として挙げられる。ここでは、顔が半分映っていればその領域に関する類似度が予見閾値ＴｈＰ以上になるとする。

第２実施形態においては、マスク処理部３００は先読み検索指示部３２０を備えている。先読み検索指示部３２０は、類似判定部３１０における閾値判定において予見閾値ＴｈＰ以上の領域が出現したときに起動される。先読み検索指示部３２０は、予見閾値ＴｈＰ以上の領域（マスク可能性領域）が出現した場合、その領域が属するフレームよりも時間的に後のフレームに対して積極的にマスク対象を検索する指示を行う。

先読み検索指示部３２０がデータ入力部２１０に対して先読み検索を指示した場合、データ入力部２１０は、タイムスタンプを見て、マスク可能性領域が出現したフレームよりも時間的に後のフレームを動画メモリ１２０から選択して取得する。このとき、すべてのフレームを順番に取得するのではなく、Ｉピクチャだけ、あるいは、ＩピクチャとＰピクチャとだけを取り出すようにしてもよい。あるいは、時間的に１秒ごとや２秒ごとのフレームデータを取得するようにしてもよい。また、あるいは、マスク可能性領域（類似度が予見閾値ＴｈＰ以上の領域）の座標および動きベクトルなどから取り込み対象となるフレームを判断してもよい。

そして、復号化部２１１で動画データを復号化するにあたっては、先読み検索に用いるフレームの情報量を最適化してもよい。例えば、スケーラによって解像度を下げるスケーリング処理を行ってもよい。また、輝度信号のみを取り出すようにしてもよい。これにより、データ演算量およびデータ転送量が削減され、演算処理およびデータ転送速度が向上する。そして、メモリ使用量が削減され、消費電力も削減される。

さらに、類似度が予見閾値ＴｈＰ以上となった領域（マスク可能性領域と呼ぶ）が示す座標に関連する領域を優先的に復号化するようにしてもよい。３０フレーム/秒のフレームレートであれば、よほどの高速移動でもない限り前後のフレームにおいて同じ対象物は同じような座標（位置）に映っていると考えられるからである。

なお、先読み検索では数フレームを飛ばして先に検索してしまうので、後から先読み検索ではない順番通りの検索で同じフレームに対し二度目の検索をしてしまうことになる。そこで、検索済みのフレームや領域に対して同じ検証（マスク候補の切り出しや類似判定）を行わないようにするため、先読み検索したフレームまたは領域に対しては検索済みフラグを付与する。検索済みフラグは、動画メモリ１２０のなかで動画データと合わせて格納してもよく、あるいは、先読み検索指示部３２０内の所定のレジスタに格納するようにしておいてもよい。

（第２実施形態の動作例１）
第２実施形態の動作をフローチャートを参照しながら説明する。
図１１は、第２実施形態において、マスク用メタファイルを作成する工程の手順を表すフローチャートである。マスク処理を行う対象となる動画データとしては第１実施形態と同じもの（図５）を使用する。図１１においてＳＴ１０１からＳＴ１０７は第１実施形態（図６）と同じである。すなわち、動画メモリ１２０から動画データを順に取得し、復号化部２１１で復号する。そして、マスク候補があれば、それをマスク候補切出部２２２によって切出し、マスク候補バッファ２２３に蓄積していく。図５の例でいえば、フレームＦ１０の領域Ｒ１０がマスク候補として切り出される。この領域Ｒ１０に対して特徴量を算出し（ＳＴ１０６）、この算出された特徴量をマスク対象参照リストの特徴量と対比して両者の類似度を算出する（ＳＴ１０７）。

ＳＴ１０７において類似度が算出されると、次に類似判定部３１０においてこの算出された類似度が予見閾値ＴｈＰ以上であるか否かを判定する（ＳＴ２０１）。
類似度が予見閾値ＴｈＰを下回っていれば（ＳＴ２０１でＮＯ）、この領域についてはマスク対象になるようなものは無いということになるので、ＳＴ１０１に戻って次ぎのフレームの検証を行う。図５の例でいうと、フレームＦ１０、フレームＦ２０までは類似度が予見閾値ＴｈＰ以上になることはない。

フレームＦ３０になったところで子供の顔の半分がフレーム内に入ってくる。このフレームＦ３０のなかの領域Ｒ３０について類似度を算出すると、この類似度は予見閾値ＴｈＰ以上になる（ＳＴ２０１でＹＥＳ）。すなわち、フレームＦ３０では、子供の顔の半分がフレームに入っており、マスク対象である特定人物の顔であることまでは確定できないが、人物の顔の一部である（もしくは特定人物の顔の特徴をある程度備えている）ことは判定できるという状態である。

領域Ｒ３０のように予見閾値ＴｈＰ以上になるものが現れた場合、次にこの類似度が確定閾値ＴｈＤ以上であるかどうかを判定する（ＳＴ２０２）。類似度が確定閾値ＴｈＤ以上になっていれば（ＳＴ２０２でＹＥＳ）、それはマスク対象であることが確定する（ＳＴ２０３）。しかし、類似度が確定閾値ＴｈＤ未満であれば（ＳＴ２０２でＮＯ）、マスク対象かどうかは現状では確定できない。すなわち、予見閾値ＴｈＰ以上であるので（ＳＴ２０１でＹＥＳ）その映っている対象物（被写体）はマスク対象である可能性が高いが、マスク対象であるとまでは確定できない状態にある（ＳＴ２０２でＮＯ）。

そこで、この場合には先読み検索（ＳＴ２０４）を行って、領域Ｒ３０に映っているものがマスク対象であるか否かを時間的に後のフレームを先読みして検証する。先読み検索の動作手順を図１２のフローチャートを参照しながら説明する。先読み検索においては、フレームＦ３０の後、フレームＦ３０よりも時間的に後のフレームを取得する（ＳＴ２１１）。
この場合には、前述したように、フレームＦ３０の直ぐ後のフレーム（例えばフレームＦ３１）ではなく、Ｉピクチャだけ、もしくは、ＩピクチャとＰピクチャとだけ、もしくは、１秒後や２秒後の画像フレームなど、フレームＦ３０から少し先に飛んだフレームを取得する。本例においては、図１３に例示するように、フレームＦ３０の後、フレームＦ３１でなくフレームＦ３５を読み出すとする。

このように取得したフレームデータに対し、復号を行う（ＳＴ２１２）。この復号（ＳＴ２１２）では、解像度を下げたり、輝度信号だけを抜き出すなど、対象物に応じて類似度判定に必要なデータだけを復号するようにしてもよい。

このように得られた画像フレームデータに対し、マスク候補切出部２２２によってマスク候補の切り出しを行い、切り出した領域をマスク候補バッファ２２３に格納する（ＳＴ２１４）。そして、切り出した領域に対し、特徴量算出および類似度算出を行う（ＳＴ２１５、ＳＴ２１６）。これにより、フレームＦ３５のなかから領域Ｒ３５が切り出され、領域Ｒ３５の類似度が算出される。

このように算出した類似度を閾値と対比するのであるが、先読み検索においては、まずは、類似度が予見閾値ＴｈＰと確定閾値ＴｈＤとの間に入っているかどうかを判定する（ＳＴ２１７）。
類似度が予見閾値ＴｈＰと確定閾値ＴｈＤとの間に入っているものがあるということは（ＳＴ２１７でＹＥＳ）、マスク対象であるかどうか確定しないものがあるということである。この場合には先読み検索を継続することになる（ＳＴ２１９）。例えば、領域Ｒ３５については子供の顔が半分以上映ってはいるが、確定閾値ＴｈＤ以上になるほどではないので、先読み検索を継続することになる（ＳＴ２１９）。

ただし、先読み検索の継続（ＳＴ２１９）にあたって、類似度が確定閾値ＴｈＤ以上のものがあれば、それはマスク対象であることを記録しておく（ＳＴ２１８）。この工程の作用効果については後述する動作例２によって明らかになる。

フレームＦ３５の次にフレームＦ４０を先読み検索で検証する。すると、フレームＦ４０においては領域Ｒ４０において子供の顔が８０％程度映っていることから、領域Ｒ４０の類似度Ｓ４０は確定閾値ＴｈＤ以上になる。
ＳＴ２１７における類似度判定において類似度が予見閾値ＴｈＰと確定閾値ＴｈＤとの間にはない場合（ＳＴ２１７でＮＯ）、これはつまり、類似度が確定閾値ＴｈＤ以上であるか、もしくは、類似度が予見閾値ＴｈＰを下回ったか、のどちらかである。領域Ｒ４０の類似度Ｓ４０は確定閾値ＴｈＤ以上になっているので、ＳＴ２１７における類似度判定において"ＮＯ"に進む。

次に、ＳＴ２２０において、類似度が確定閾値ＴｈＤを超えるものがあったか否かを判断する。これは、ＳＴ２１８で記録したものを含めて類似度が確定閾値ＴｈＤ以上のものがあったかどうかということを判断する。類似度が確定閾値ＴｈＤ以上になったものがあれば、マスク対象が映っていることが確定する（ＳＴ２２１）。

一方、先読み検索をした結果、類似度が確定閾値ＴｈＤ以上になるものがなければ、現在のところマスク対象は無い、ということになる（ＳＴ２２２）。
例えば、類似度が予見閾値ＴｈＰ以上になるものが存在はしたが、結局、マスク対象として確かめられるほどフレームインする前にフレームアウトしてしまったか、マスク対象に似た何か別のものであってマスク対象ではなかった、ということである。

このようにして先読み検索でマスク対象があることが判れば（ＳＴ２０５でＹＥＳ）、マスク対象に関連する領域を拾集し（ＳＴ１０９）、それらにマスクフラグを付与する（ＳＴ１１０）。
なお、領域Ｒ４０に映っている被写体（対象物）がマスク対象であることが判明したので、フレームＦ３１からフレームＦ３９で領域Ｒ４０（又は領域Ｒ３０）に関連する領域にはマスクフラグが付与されるのは当然である。この際には、動きベクトルや座標の情報を基にして被写体（対象物）を追跡すればよい。さらには、フレームＦ４０以降についても同様にマスク対象である被写体（対象物）を追跡してマスクフラグを付与してもよい。このようにしてマスク処理用メタファイルが作成される（ＳＴ１１１）。

このあとの処理については、図３で説明した通りであり、マスク用メタファイルに従ってマスク対象にマスクを付加しながらデータ出力という運びになる。

（第２実施形態の動作例２）
第２実施形態の動作例をもう一つ説明する。
第２実施形態の動作例２として、例えば、撮影した動画が図１４のようになったとする。図１４において、フレームＦ１００においては背景だけが映っているが、次のフレームＦ１００においてフレームの左側から一人目の人物ＰＡがフレームインしてきている。フレームＦ１２０においては、人物ＰＡに加えて、フレームの右側から二人目の人物ＰＢがフレームインしてきている。さらに、フレームＦ１３０において、人物ＰＡについては顔を特定できる程度に映っている一方、人物ＰＢについては顔の半分程度が映っている状態である。そして、フレームＦ１４０において、人物ＰＡも人物ＰＢも十分に特定できる程度に顔がフレーム内に映っている。

この図１４のような動画データに対して図１１、図１２の動作フローを適用する。
まず、順番に動画フレームを取得して、復号したフレームからマスク候補を切り出し、切り出した領域の類似度を算出する（ＳＴ１０１からＳＴ１０７）（図１５参照）。フレームＦ１１０では、領域Ｒ１１０において一人目の人物ＰＡの顔が半分ほどフレームに入っている。

したがって、領域Ｒ１１０の類似度は予見閾値ＴｈＰと確定閾値ＴｈＤとの間に入り（ＳＴ２０１でＹＥＳ、ＳＴ２０２でＮＯ）、動作フローは先読み検索（ＳＴ２０４）に移行する。先読み検索において、フレームＦ１１０から所定コマ数先に進んだフレームＦ１２０を取得（ＳＴ２１１）して検証する。
フレームＦ１２０においては、領域Ｒ１２０Ａと領域Ｒ１２０Ｂとがマスク候補として切り出される。領域Ｒ１２０Ａの類似度Ｓ１２０Ａは予見閾値ＴｈＰと確定閾値ＴｈＤとの間にあるので（ＳＴ２１７でＹＥＳ）、先読み検索を継続する（ＳＴ２１９）。

次に、フレームＦ１３０を検証する。
フレームＦ１３０からマスク候補の切り出しを行うと、一人目の人物ＰＡが映っている領域Ｒ１３０Ａと、二人目の人物ＰＢが映っている領域Ｒ１３０Ｂと、がマスク候補として切り出し対象になる。領域Ｒ１３０Ａについて類似度Ｓ１３０Ａを算出すると、この類似度Ｓ１３０Ａは予見閾値ＴｈＰ以上であり、さらには、確定閾値ＴｈＤ以上でもあるのだが、一方、領域Ｒ１３０Ｂについてはその類似度Ｓ１３０Ｂが予見閾値ＴｈＰと確定閾値ＴｈＤとの間にある。

従って、ＳＴ２１７の判定では、予見閾値ＴｈＰと確定閾値ＴｈＤとの間の類似度が存在していることになる（ＳＴ２１７でＹＥＳ）。この場合、領域Ｒ１３０Ａについては類似度Ｓ１３０Ａが確定閾値ＴｈＤ以上になったことを記録しておいて（ＳＴ２１８）、先読み検索を継続する（ＳＴ２１９）。

フレームＦ１３０よりさらに所定コマ数先のフレームであるフレームＦ１４０を検証する。フレームＦ１４０において領域Ｒ１４０Ａと領域Ｒ１４０Ｂとに人物の顔が映っており、これらがマスク候補として切り出される。そして、両領域Ｒ１４０Ａ、Ｒ１４０Ｂの類似度Ｓ１４０Ａ、Ｓ１４０Ｂを閾値判定すると、領域Ｒ１４０Ａについても領域Ｒ１４０Ｂについても類似度Ｓ１４０Ａ、Ｓ１４０Ｂが確定閾値ＴｈＤ以上になる。すなわち、フレームＦ１４０には、予見閾値ＴｈＰと確定閾値ＴｈＤとの間に入る類似度をもつ領域は存在しないということになる（ＳＴ２１７でＮＯ）。

このように予見閾値ＴｈＰと確定閾値ＴｈＤとの間に入る類似度が無くなった場合（ＳＴ２１７でＮＯ）、先読み検索は終了する。なお、領域Ｒ１３０Ａ（または領域１４０Ａ）および領域１４０Ｂが確定閾値ＴｈＤ以上になったことから、これらがマスク対象であることが確定する（ＳＴ２２１）。

このようにしてマスク対象が二つあったということになるので（ＳＴ２０５でＹＥＳ）、マスク候補バッファ２２３から関連するマスク候補を拾集し、これらにマスクを掛けるようにマスクフラグの付与およびメタファイルの作成を行う。

ここで一方、図１６に示すように、フレームＦ１２０で領域Ｒ１２０Ｂの類似度が予見閾値ＴｈＰ以上になったあとで、先読み検索を継続した結果、人物ＰＢについてはフレームＦ１４０'のように確定閾値ＴｈＤを一度も超えないまま予見閾値ＴｈＰ未満になってしまったとする。
この場合、領域１２０Ｂおよび領域Ｒ１４０Ｂ'に映っている被写体はマスク対象であるとは認定できなかったことになる。したがって、領域１２０Ｂおよび領域Ｒ１４０Ｂ'に関連する領域はマスク対象とはならず、確定閾値ＴｈＤ以上となった領域Ｒ１３０Ａ（または領域１４０Ａ）に関連する領域がマスク対象ということになる。

このような構成を備える第２実施形態によれば、上記第１実施形態の効果に加えて、次の効果を奏することができる。
（３）第２実施形態では、確定閾値ＴｈＤよりも一段低い予見閾値ＴｈＰを設けている。そして、この予見閾値ＴｈＰ以上になるものがあれば、先読み検索を行ってマスク可能性領域が真にマスク対象であるかどうかを積極的に検索し、早期に確定させる。
これにより、マスク候補バッファ２２３で蓄積すべきマスク候補の容量を少なくすることができる。すなわち、マスク対象の被写体がフレームインし始めてから予見閾値ＴｈＰに達するまでのマスク候補が保存できていれば、予見閾値ＴｈＰ以上になってからは先読み検索によって早期にマスク対象であるかどうかが確定できる。従って、マスク対象であることが確定した後にマスク候補バッファを遡れば、そのマスク対象（被写体）がフレームインし始めたところから確実にマスクを付加することができる。例えば、確定閾値ＴｈＤ以上になるまでの時間が長かったり、さらに、マスク対象が同時にいくつもあったりする場合に大きな利点がある。

（４）第２実施形態では、フレーム内に複数の被写体が映っている場合において、一つでも類似度が予見閾値ＴｈＰと確定閾値ＴｈＤとの間に入るものがあれば先読み検索を継続する。
仮に、他にマスク可能性領域が存在しているにも関わらず、確定閾値ＴｈＤ以上になるものがある度に先読み検索を終了してマスク候補バッファを検索してしまうと、次に前記マスク可能性領域が確定閾値ＴｈＤ以上になったときに再びマスク候補バッファを検索することになってしまう。複数のマスク対象が同時にフレームに映っている場合には何度もマスク候補バッファをサーチする手間が生じる。この点、本第２実施形態では、類似度が予見閾値ＴｈＰと確定閾値ＴｈＤとの間にあるものが一つでも存在している場合（ＳＴ２１７でＹＥＳ）には、確定閾値ＴｈＤ以上になったものを記録するにとどめ、先読み検索を継続することとしている（ＳＴ２１９）。そして、マスク可能性領域がなくなったところ、すなわち、マスク対象であるか否かが総て確定したところでまとめてマスク候補バッファを遡って関連領域を検索する。これにより、マスク候補バッファ２２３を遡って検索する回数が少なくなり、処理負荷の軽減および処理スピードの向上に効果がある。

（変形例２）
上記第２実施形態においてマスク対象が人物の顔である場合を例に説明したが、マスク対象がナンバープレートや、電話番号、団体名、住所表示である場合でも予見閾値ＴｈＰをトリガとする先読み検索を適用できるのはもちろんである。
例えば、日本の例では、電話番号やナンバープレートなど個人情報に関係する番号は数字とハイフンとが結合したものが多い。従って、マスク対象参照リストに電話番号やナンバープレートの例を登録しておけば、数字が二つ以上連続していたり、複数の数字とハイフンとが結合したものが映っている領域は予見閾値ＴｈＰ以上の類似度になる可能性が高い。そして、このように予見閾値ＴｈＰ以上の類似度になる数字列が出現した場合には先読み検索を行って、それがマスク対象であるかどうかを早期に確定させることができる。これにより、プライバイシーに関係する数字がフレームインした時点から確実にこの数字にマスクを掛けることができる。

（変形例３）
先読み検索で検索済みのフレームまたは領域に対して検索済みフラグを付与してもよいことは既に述べた。検索済みのフレームまたは領域については再度検証する必要はないので、そのようなデータはマスク候補切出部２２２に出力する必要はない。従って、データ入力部からマスク候補切出部２２２に画像データを出力する前に、その動画データに検索済みフラグが付与されているかどうかを前置判定してもよい。これによれば、同じフレームまたは領域を繰り返し検証する無駄は削除できる。

（変形例４）
上記第１実施形態および第２実施形態においては、マスク対象（例えば子供ＣＡ）がゆっくりとスライドインしてくることが原因で、マスク対象を確定させるまでに時間を要する場合を例示した。
本発明としては、この他にもマスク対象を確定させるまでに時間がかかるような動画に対して適切にマスクを掛けることができるのは当然である。
一例として、焦点外（ピンぼけ）を要因とする例が挙げられる。
例えば、当初はマスク対象人物ではなく別のもの（遠くの風景や別の人物）を撮影していたが、次第にゆっくりとマスク対象人物の方にフォーカスを移していく場合がある。あるいは、マスク対象人物がカメラに近づいてくる結果、マスク対象人物の顔が焦点内に入ってくることがある。

この場合、例えば、図１７のような動画が撮影される。図１７において、フレームＦ２００ではピンぼけ状態で人物の顔が映っている。そして、フレームＦ２１０で人物の顔にピントが合ったとする。この場合、フレームＦ２１０以前の動画では人物の顔が映ってはいるが、ピンぼけであるためにマスク対象として確定できない状態が続くことになる。

このような動画であっても、フレームＦ２００において、所定面積以上の肌色であるなどの理由で顔らしき領域Ｒ２００をマスク候補として切り出す。切り出した領域はマスク候補バッファ２２３に格納していく。そして、フレームＦ２１０において、領域Ｒ２１０にはピントがあった顔が映っているので特徴量Ｓ２１０が閾値Ｔｈ以上になる。これにより、フレームＦ２１０で領域Ｒ２１０がマスク対象であると確定する。すると、マスク候補バッファ２２３を辿ってこの領域Ｒ２１０に関連する領域（Ｒ２００等）にはマスクが掛けられることになる。

このように、理由の如何に関わらず、マスク対象かどうかの判定までに時間を要するような場合であっても、それまでの間にマスク対象が映っている領域に確実にマスクを掛けることができる。

なお、本発明は上記実施形態および変形例に限られず、本発明の趣旨を逸脱しない範囲で適宜変更することが可能である。
上記実施形態においては、特定人物の顔にプライバシーマスクを掛ける場合を説明したが、逆に、特定人物にはマスクを掛けず、その他のたまたま映ってしまった一般の人の顔にプライバシーマスクを掛けるようにしてもよいことはもちろんである。この場合、被写体が、「人の顔ではあるが特定人物の顔ではない」ということを閾値判定で判断すればよいのであり、このような判定のためにマスク対象参照リストや類似判定部を改変することは当業者には明らかであろう。

「肌色」というのは人種によって異なるのであるから、マスク対象の人種を考慮して解釈されるべきである。例えば、ビデオカメラが使用される国がアジア圏であれば、肌色とは例えばモンゴロイドの肌の色、すなわち、淡黄色を意味する。被写体がコーカソイドやニグロイドであれば当然ながら肌色は白色であったり黄褐色であったりする。

上記実施形態では撮影が終了した後でマスク処理部を起動してマスク処理を行う例を説明したが、撮影しながら並行してマスク処理を実行してもよい。

ＣＰＵやメモリを配置してコンピュータとして機能できるように構成し、このメモリに所定の制御プログラムをインターネット等の通信手段や、ＣＤ−ＲＯＭ、メモリカード等の記録媒体を介してインストールし、このインストールされたプログラムでＣＰＵ等を動作させて、上記実施形態で説明した各機能部としての機能を実現してもよい。

１００…ビデオカメラ、１１０…ビデオカメラの撮像部、１２０…動画メモリ、２００…マスク処理部、２１０…データ入力部。２１１…復号化部、２２０…マスク候補取得部、２２１…切出参照リスト格納部、２２２…マスク候補切出部、２２３…マスク候補バッファ、２３０…マスク対象決定部、２３１…特徴量算出部、２３２…マスク対象参照リスト格納部、２３３…類似度算出部、２３４…類似判定部、２３５…マスク設定部、２３６…関連領域拾集部、２３７…マスクフラグ付与部、２４０…メタファイル作成部、２５０…マスク付加部、２６０…データ出力部、３００…マスク処理部、３１０…類似判定部、３２０…先読み検索指示部、９００…動画像データ記録再生システム、９１０…パソコン、９２０…インターネット、９３０…サーバ。

Claims

動画データからマスク処理すべき画像領域を検索してそれらにマスクを付加する画像処理装置であって、
予め登録された切出参照リストに基づいて、前記動画データの画像フレームのなかからマスク対象になり得る領域をマスク候補領域として切り出すマスク候補切出部と、
前記切り出されたマスク候補領域を切り出し元のフレームの情報と合わせて保持するマスク候補バッファと、
予め登録されたマスク対象参照リストに基づいて、最新の前記マスク候補領域を前記マスク対象参照リストと対比して両者の類似度を算出する類似度算出部と、
前記算出された類似度を所定閾値と対比して、前記類似度が所定閾値以上である場合にはそのマスク候補領域をマスク対象として確定させる類似判定部と、
マスク対象として確定した領域に関連するマスク候補領域を少なくともそのマスク候補領域の座標情報に基づいて前記マスク候補バッファに格納されている過去のデータから拾集する関連領域拾集部と、
前記類似判定部による判定によってマスク対象に確定した領域に加えて前記関連領域拾集部で拾集されたマスク候補領域に対してマスクを付与するマスク付与部と、を備えることを特徴とする画像処理装置。
前記類似判定部には、前記マスク候補領域をマスク対象として確定させるための確定閾値に加えて、前記確定閾値よりも低い予見閾値が設定されており、
前記類似判定部は、前記類似度が、予見閾値未満であるか、予見閾値以上かつ確定閾値未満であるか、または、確定閾値以上であるか、を判定し、
当該画像処理装置は、
さらに、類似度が前記予見閾値以上であるマスク候補領域が出現した場合にその領域が属するフレームよりも時間的に後のフレームを順番通りではなく途中の数コマをスキップして検索する先読み検索を指示する先読み検索指示部をさらに備える
ことを特徴とする請求項１に記載の画像処理装置。
予見閾値以上かつ確定閾値未満である類似度を持つ領域が一つでもある場合には、前記先読み検索指示部は先読み検索を継続させる
ことを特徴とする請求項２に記載の画像処理装置。
前記動画データを取り込んで復号化するデータ入力部を備え、
前記データ入力部は、前記先読み検索指示部により先読み検索が指示されている場合、解像度を下げる、輝度信号だけを取り出す、および、類似度が予見閾値以上となった領域が示す座標に関連する領域を優先的に復号化する、のいずれか一つ以上を実行する
ことを特徴とする請求項２または請求項３に記載の画像処理装置。
前記先読み検索指示部は、前記先読み動作中に前記データ入力部から前記マスク候補切出部に出力した画像フレームまたは領域データに対し検索済みを示す検索済みフラグを付す
ことを特徴とする請求項４に記載の画像処理装置。
動画データからマスク処理すべき画像領域を検索してそれらにマスクを付加する画像処理方法であって、
予め登録された切出参照リストに基づいて、前記動画データの画像フレームのなかからマスク対象になり得る領域をマスク候補領域として切り出すマスク候補切出工程と、
前記切り出されたマスク候補領域を切り出し元のフレームの情報と合わせてマスク候補バッファに保持するマスク候補保持工程と、
予め登録されたマスク対象参照リストに基づいて、最新の前記マスク候補領域を前記マスク対象参照リストと対比して両者の類似度を算出する類似度算出工程と、
前記算出された類似度を所定閾値と対比して、前記類似度が所定閾値以上である場合にはそのマスク候補領域をマスク対象として確定させる類似判定工程と、
マスク対象として確定した領域に関連するマスク候補領域を少なくともそのマスク候補領域の座標情報に基づいて前記マスク候補バッファに格納されている過去のデータから拾集する関連領域拾集工程と、
前記類似判定工程による判定によってマスク対象に確定した領域に加えて前記関連領域拾集工程で拾集されたマスク候補領域に対してマスクを付与するマスク付与工程と、を備える
ことを特徴とする画像処理方法。
前記類似判定工程には、前記マスク候補領域をマスク対象として確定させるための確定閾値を用いた類似判定の前に、前記確定閾値よりも低い予見閾値を用いた類似判定を行い、
類似度が前記予見閾値以上であるマスク候補領域が出現した場合にその領域が属するフレームよりも時間的に後のフレームを順番通りではなく途中の数コマをスキップして取得する先読み検索を実行する
ことを特徴とする請求項６に記載の画像処理方法。
動画データからマスク処理すべき画像領域を検索してそれらにマスクを付加する画像処理プログラムであって、
予め登録された切出参照リストに基づいて、前記動画データの画像フレームのなかからマスク対象になり得る領域をマスク候補領域として切り出し、前記切り出したマスク候補領域を切り出し元のフレームの情報と合わせてマスク候補バッファに保持させるマスク候補切出部と、
予め登録されたマスク対象参照リストに基づいて、最新の前記マスク候補領域を前記マスク対象参照リストと対比して両者の類似度を算出する類似度算出部と、
前記算出された類似度を所定閾値と対比して、前記類似度が所定閾値以上である場合にはそのマスク候補領域をマスク対象として確定させる類似判定部と、
マスク対象として確定した領域に関連するマスク候補領域を少なくともそのマスク候補領域の座標情報に基づいて前記マスク候補バッファに格納されている過去のデータから拾集する関連領域拾集部と、
前記類似判定部による判定によってマスク対象に確定した領域に加えて前記関連領域拾集部で拾集されたマスク候補領域に対してマスクを付与するマスク付与部と、して機能させるための画像処理プログラム。