(第1の実施形態の内容に至る経緯)
警察官がウェアラブルカメラで記録した映像に対し、全てのフレームを1枚ずつ確認してモザイク処理を施すことは効率的でなく、警察官であるユーザに長時間の作業を強いていた。
また、上述した専用の画像処理ソフトを用いて自動でモザイク処理を施す場合においても、ユーザは予め必要なオブジェクトを全て特定して選択する必要があった。例えば街中等で撮像された映像には、多くの人物の顔の数が含まれており、画像処理ソフトを用いてひとつずつ選択する作業に長時間かかっていた。また、多くの人物の顔の数が含まれている場合には、自動で処理される場合においてもオブジェクトを誤認識し易く、誤認識によりマスク処理の対象とはしたくない箇所にもモザイク処理が施されることがあった。このような場合、ユーザがこの箇所のモザイク処理を外さなくてはならず、その作業にも時間がかかっていた。不要なモザイク処理を外さない場合、映像の視認性を劣化させるばかりでなく、裁判所に映像が提出された場合、映像の証拠能力を下げることに繋がった。
また、特許文献1に記載の構成を用いても、上述した撮像映像データのどこにマスク無効領域を設定するか、また、各人物がどのような移動パターンで動くかは、撮像映像データ毎に異なり予め予測することができない。このため、撮像映像データに現れる複数の人物に対してフレキシブルにマスク処理を施すことは難しいという課題が残った。
そこで、以下の第1の実施形態では、映像に現れるオブジェクトをフレキシブルにマスク処理してそのオブジェクトのプライバシー保護を遵守しつつ、マスク処理の作業負荷軽減を支援する監視映像解析システムの例を説明する。
以下、適宜図面を参照しながら、本発明に係る監視映像解析システム及び監視映像解析方法を具体的に開示した各実施形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。また、以下の説明において、映像は、複数のフレーム画像(フレームと略記することもある)が時系列に並べられて構成されるものとして説明する。
(各実施形態の共通事項)
図1は、各実施形態の監視映像解析システム5の概要の一例を示す図である。監視映像解析システム5は、パトカー(つまり、パトロールカーの略称であるパトカー7)に搭載された車載カメラシステム(ICV:In Car Videoシステム)30、警察官3の制服に装着又は保持されたウェアラブルカメラ(BWC:Body-Worn Camera)10、及び警察署4内に設置された署内システム8を含む構成である。
車載カメラシステム30は、1つ又は複数の車載カメラ31、車載PC(Personal Computer)32及び車載レコーダ33を有し、パトカー7で走行中に遭遇する事件等の撮像画像に基づく監視映像を撮像して記録する。1つ又は複数の車載カメラ31は、例えばパトカー7の前方を撮像するように設置されたカメラ、パトカーの左側、右側、後方を撮像するように設置されたそれぞれのカメラのうち、1つ又は複数を含む。車載PC32は、警察官3が操作する指示に従い、車載カメラ31及び車載レコーダ33の動作を制御する。車載レコーダ33は、複数の車載カメラ31でそれぞれ撮像された監視映像のデータを時系列に記録する。
車載カメラシステム30は、署内システム8内の無線LANアクセスポイント63Pを介して、署内システム8内のバックエンドサーバ(BES:Back End Server)50と無線接続される。車載カメラシステム30は、車載レコーダ33に記録された監視映像のデータの中から特定の監視映像データを選択して、無線LANアクセスポイント63Pを介してバックエンドサーバ50に送信可能である。また、車載カメラシステム30は、ウェアラブルカメラ10と通信可能に接続され、ウェアラブルカメラ10で撮像された監視映像のデータ及び収音された音声のデータを車載レコーダ33に記録する。以下の説明において、音声のデータには、例えばパトロール中(巡視中)や事件若しくは事故の現場に被疑者、犯人が所持している拳銃が発砲した時の銃声も含まれるとする。
ウェアラブルカメラ10は、ユーザである警察官3の制服に装着又は保持され、警察官の前方の雰囲気を被写体として撮像し、撮像された監視映像のデータ及び収音された音声のデータを車載カメラシステム30に送信する。この場合、ウェアラブルカメラ10は、撮像したシーンの映像を、複数の映像のデータファイル(映像データファイル)に分割して、メモリに記憶する。つまり、ウェアラブルカメラ10は、一定時間毎に撮像して複数の映像データファイルを時系列に記録する。本実施形態では、映像のデータファイルには、インターネット等の動画配信に適したMP4(Mpeg4)のファイル形式が用いられる。なお、ファイル形式としては、MP4に限らず、AVI(Audio Video Interleave),QuickTime,WMV(Windows Media Video),FLV(Flash Video)等であってもよい。
以下、ウェアラブルカメラ10や車載カメラ31の撮像対象となる被写体には、単に人物だけではなく、事件若しくは事故の現場の情景、現場の近くに群がる群衆(いわゆる、野次馬)、更に、撮像位置の周囲の雰囲気も含まれるとする。また、警察官3は、指令システム90からの指令を受信する無線通信端末の一例としての警察無線端末35を所持する。通常、警察官3は、パトロール中や事件発生時に現場に急行する場合など、警察署外での活動の際に、警察無線端末35を現場に携行している。また、警察官3は、ウェアラブルカメラ10と通信可能な通信端末の一例としてのスマートフォン40を所持する場合もある。スマートフォン40は、電話機能及び無線通信機能を有し、例えば警察署4からの緊急連絡又は警察署への緊急連絡時に使用され、汎用的に使用されている携帯端末の一例として挙げられる。
ウェアラブルカメラ10は、車載カメラシステム30を介して、直接に、或いはスマートフォン40又は無線LAN(Local Area Network)アクセスポイント45を介して、バックエンドサーバ50と接続されることで、監視映像のデータ及び音声のデータをバックエンドサーバ50に送信可能である。スマートフォン40は、モバイル通信ネットワーク又はインターネット網を経由してバックエンドサーバ50と接続される。無線LANアクセスポイント45は、有線又は無線のネットワーク(インターネット網など)を経由してバックエンドサーバ50と接続される。また、ウェアラブルカメラ10は、手動で後述する集合充電台68に取り付けられることで、映像データ及び音声データをバックエンドサーバ50に送信可能である。
署内システム8は、警察署4の内部に設置された、バックエンドサーバ50、バックエンドストリーミングサーバ(BSS:Back End Streaming Server)65、バックエンドクライアント(BEC:Back End Client)70、無線LANアクセスポイント63、集合充電台68、及び指令システム90を含む構成である。
バックエンドサーバ50は、コンピュータ及びストレージを有して構成され、事件の証拠映像(監視映像)のデータを管理する。バックエンドサーバ50は、例えばウェアラブルカメラ10や車載カメラ31により撮像された監視映像を構成する画像フレーム中の顔を認識する顔認識機能や、ウェアラブルカメラ10や車載カメラシステム30から送信された切出しデータ(後述参照)に含まれる音声データを認識する音声認識機能を有する。また、バックエンドサーバ50は、パトロール又は事件若しくは事故に関する既定の音声のデータ(つまり、パトロール中や事件若しくは事故の現場において発生する可能性の高い音声のデータ)が登録された音声データベース(不図示)を有する。パトロール又は事件に関する既定の音声のデータは、例えば被疑者や警察官が発砲した時の銃声、パトロールや事件の際に身の危険を感じた時に発するように予め指導等された警察官が発した音声、警察官が地面等に倒れた時の音(例えば「ドサッ」)等の音声データが含まれる。バックエンドサーバ50は、車載カメラシステム30或いはウェアラブルカメラ10から送信される切出しデータ(後述参照)に含まれる音声データに対して音声認識を行い、音声認識により得られた音声と音声データベースに登録された音声とを照合する。なお、音声データベースを記憶するストレージは、バックエンドサーバ50がアクセス可能である限り、警察署4の内部に設置されてもよいし、警察署4の外部に設置されてよい。
バックエンドストリーミングサーバ60は、ウェアラブルカメラ10からストリーミング配信される映像データを受信し、バックエンドサーバ50に転送する。また、バックエンドストリーミングサーバ60は、車載カメラシステム30からストリーミング配信される映像データを受信し、バックエンドサーバ50に転送してもよい。
バックエンドクライアント70は、例えばPCにより構成され、バックエンドサーバ50の不審人物データベース(不図示)にアクセスし、犯罪者等の事件に関する情報を検索してその検索結果をディスプレイデバイス(例えばバックエンドクライアント70に予め備え付けのLCD(Liquid Crystal Display))上に表示可能なブラウザ又は専用アプリケーションを有する。不審人物データベースには、例えば指名手配中の人物や過去の犯罪者等が事件を識別する情報(例えば事件番号)に対応付けて予め登録されている。また、バックエンドクライアント70は、バックエンドサーバ50の音声データベースにアクセスし、犯罪者等の事件に関する情報を検索可能である。なお、バックエンドクライアント70は、警察署4の内部に設置されるだけでなく、警察署4の外部に設置されたものでもよい。また、バックエンドクライアント70は、シンクライアントPC或いはリッチクライアントPCのいずれであってもよい。
無線LANアクセスポイント63は、車載カメラシステム30及びウェアラブルカメラ10と無線LAN(W−LAN)によって無線接続し、車載カメラシステム30に記録された監視映像のデータ及び音声のデータと、ウェアラブルカメラ10に記録された監視映像のデータ及び音声のデータをバックエンドサーバ50に転送する。
集合充電台68は、複数の警察官3がそれぞれ装着又は所持するウェアラブルカメラ10を装着可能であり、装着された個々のウェアラブルカメラ10の電源を充電するとともに、ウェアラブルカメラ10との間で有線通信を行い、ウェアラブルカメラ10に記憶された監視映像のデータ及び音声のデータをバックエンドサーバ50に送信する機能を有する。また、集合充電台68は、USB(Universal Serial Bus)ケーブルを介してバックエンドサーバ50に有線接続される。
指令システム90は、無線通信装置の一例としての警察無線基地局装置(不図示)を有し、バックエンドサーバ50と接続され、警察署4が管轄する各所に指令を送信する。警察署4には、各警察官に指令を伝達するための警察無線システムが設置されている。指令システム90は、事件が発生した場合に、例えばバックエンドサーバ50からの指示に従い、事件の現場への派遣対象となる警察官が乗車するパトカー7又は警察官が所持する警察無線端末35に対し、現場急行や、現場確保、被疑者確保、現場に到着した警察官の応援等の各種の出動指令を無線で送信する。なお、指令システム90は、警察官が入力操作する指示に従い、事件の現場に派遣する警察官に指令を出してもよい。また、指令システム90は、バックエンドサーバ50と直接に接続されていなくてもよく、事件が発生した場合に、バックエンドサーバ50とは独立して、警察無線基地局装置から、事件の現場への派遣対象となるパトカー7又は警察無線端末35に対し、上述各種の出動指令を無線で送信してもよい。
監視映像解析システム5において、車載カメラシステム30を使用する場合、ウェアラブルカメラ10は、近距離無線通信、又はUSB等の信号ケーブルを用いた有線通信によって、車載カメラシステム30とデータ転送可能に接続される。ウェアラブルカメラ10で撮像された監視映像のデータ及び収音された音声のデータは、車載カメラシステム30に転送され、車載カメラシステム30で再生或いは録画、録音され、また、バックエンドサーバ50に送信される。
車載カメラシステム30は、車載カメラ31で撮像された監視映像のデータ及びウェアラブルカメラ10で撮像された監視映像のデータ及び音声のデータを車載レコーダ33に記録し、ウェアラブルカメラ10により収音された音声の区間を切り出し、切り出された音声を含む切出しデータを、無線LANを経由してバックエンドサーバ50に送信する。音声区間の切り出しは、突発的に大音量の音声が現れた場合、その音声を含むように行われる。なお、音声区間の切り出しは、一定の周期で一定区間サンプリングするように行われてもよい。この場合、突発的な音声が現れていない区間では、周囲の小さな音量の音声だけが切り出される。
また、監視映像解析システム5において、ウェアラブルカメラ10を直接ネットワークに接続して使用する場合、ウェアラブルカメラ10は、無線LANアクセスポイント45又はスマートフォン40とデータ転送可能に接続される。ウェアラブルカメラ10とスマートフォン40との接続は、例えば、BLE(Bluetooth(登録商標) Low Energy)等の近距離無線通信、或いは、ウェアラブルカメラ10又はスマートフォン40の一方を無線LANアクセスポイントとして機能させるテザリングによる無線LAN通信が用いられる。ウェアラブルカメラ10は、記録された映像データ及び音声データを無線LANアクセスポイント45又はスマートフォン40を経由してバックエンドサーバ50に送信する。
また、警察官3は、警察署4に戻り、集合充電台68にウェアラブルカメラ10を装着することで、集合充電台68は、ウェアラブルカメラ10を充電するとともに、USBケーブルを介してウェアラブルカメラ10に記録された監視映像のデータ及び音声のデータをバックエンドサーバ50に送信可能である。
バックエンドサーバ50は、バックエンドストリーミングサーバ60を経由して、或いはウェアラブルカメラ10又は車載カメラシステム30から直接、監視映像のデータを受信すると、伝送された監視映像のデータをストレージに記録して蓄積する。また、バックエンドサーバ50は、車載カメラシステム30及びウェアラブルカメラ10から切出しデータを受信すると、切出しデータに含まれる音声を認識し、パトロール又は事件に関する既定の音声データが予め登録された音声データベースに登録された音声との照合を行い、照合の結果を、車載カメラシステム30及びウェアラブルカメラ10に通知する。
また、警察官3がバックエンドクライアント70を操作してバックエンドサーバ50に対し事件に関連する音声を探索する等の処理を要求すると、バックエンドサーバ50は、バックエンドクライアント70からの要求に応じ、音声データベースに登録された音声の照会等を行う。
(第1の実施形態)
図2は、各実施形態のバックエンドサーバ50の内部構成の一例を詳細に示すブロック図である。サーバの一例としてのバックエンドサーバ50は、プロセッサPRCと、I/Oインターフェースと、ユーザインターフェース(UI)と、メモリ59とを備える。各実施形態では、バックエンドサーバ50上でマスキング処理を行うものとして説明するが、例えばバックエンドサーバ50から必要な動画をバックエンドクライアント70にエクスポートし、バックエンドクライアント70上でマスキング処理を行っても構わない。従って、図2の内部構成は全てバックエンドクライアント70(いわゆるPC)に構成されても構わない。なお、図2において、モニタ52は、バックエンドサーバ50の内部に含まれる構成として示してあるが、バックエンドサーバ50の外部に設けられても構わない。
プロセッサPRCは、メディア処理部55と、再生制御部56と、トラッキング部57と、マスク制御部58とを含む。プロセッサPRCは、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)又はDSP(Digital Signal Processor )を用いて構成される。メディア処理部55は、バックエンドサーバ50にインポートされた監視映像(例えばウェアラブルカメラ10又は車載カメラ31により撮像された監視映像)のデータに対し、伸張処理や圧縮処理、動画形式の変換処理、マスク処理等を行うものであり、エンコーダ551、デコーダ552、マルチプレクサ553、デマルチプレクサ554、マスキング部555を含む。
デマルチプレクサ554は、データ入力部53から入力される、例えばMP4(mpeg4)のファイル形式の動画像データファイルを入力し、MP4の動画像データファイルからH.264のコーデック形式で保存された圧縮済み映像データとAACのコーデック形式で保存された圧縮済み音声データを取り出す。
デコーダ552は、H.264の圧縮済みデータを非圧縮データ(いわゆる、RAWデータ)に伸張する。伸張された非圧縮データは、YUVデータあるいはRGBデータである。
エンコーダ551は、YUVデータあるいはRGBデータの非圧縮データをH.264の圧縮データに圧縮する。なお、デコーダ552で伸張され、エンコーダ551で圧縮される非圧縮データとして、YCbCrデータやYPbPrデータ等を用いてもよい。
マルチプレクサ553は、H.264の圧縮映像データをAACの圧縮音声データとともにMP4の動画像データファイルに変換して生成する。マルチプレクサ553で生成された動画像データファイルは、データ出力部54から出力され、SDカード等のバックエンドサーバ50において読取可能な記録媒体に記憶され、又は通信装置(不図示)を介してバックエンドクライアント70等に送信される。
マスキング部555は、監視映像のデータを構成する個々のフレーム(フレーム画像)に現れる少なくとも1つのオブジェクトの位置(例えば座標値)を表すトラッキング情報59a(メタデータ)を基に、マスク処理の一例として、モザイク処理を該当するフレーム上のオブジェクトに施す。以下の説明において、オブジェクトは、例えば人物、人物の顔、又は人物や人物の顔に近い形状やパターンを有する有形物を指す。各実施形態において、広義のマスク処理としてモザイク処理を施す場合を示したが、モザイク処理に限らず、塗り潰し処理、アニメ画像や既定の代替画像等への代替処理、渦巻き、ぼかし等の画像変形処理等を行ってもよい。つまり、マスク処理とは、監視映像のフレーム画像において、マスク処理の対象となるオブジェクトが映る該当部分の視認性を犠牲にしてでも、そのオブジェクトのプライバシー等の保護のために、マスク処理の対象となるオブジェクトが具体的に何であるかの特定が不能となるように画像処理を施すことを意味する。
再生制御部56は、映像データファイルの再生動作を制御する。例えば後述するように、トラッキングスタートボタンIC1が押下された場合には、再生制御部56は、その旨の情報をモニタ52(例えばタッチパネル付きのディスプレイ)から取得し、トラッキング部57の動作と同期するように、再生対象となる監視映像のデータを構成する各フレームの繰り下げ(再生)を行う。なお、トラッキングスタートボタンIC1が押下された旨の情報は、モニタ52(例えばタッチパネル付きのディスプレイ)から再生制御部56及びトラッキング部57に通知される。
マスク制御部58は、トラッキング部57によって自動抽出されたオブジェクトに対し、ユーザ(例えばバックエンドサーバ50を操作する警察官3)の指示に応じて、マスク処理を施すか否かのオン/オフ動作を制御する。また、マスク制御部58は、上述したユーザの操作による指示がなくても、トラッキング部57によって自動抽出されたオブジェクトを、デフォルトとしてマスク処理を施すと判断してよい。
トラッキング部57は、監視映像(動画)のデータファイルに対し、再生制御部56により順に行われるフレームを繰り下げに同期して、メモリ59に読み出された個々のフレームに現れるオブジェクトを探索し、探索されたオブジェクトの該当フレーム内における位置を検知してトラッキング情報59a(メタデータ)に追加する。この時、トラッキング部57は、フレーム画像又はフレーム画像の識別情報と対応付けて、オブジェクトの位置情報(例えば座標情報)及びオブジェクトの通し番号(オブジェクトID)をトラッキング情報59aとしてメモリ59に登録する。つまり、トラッキングとは、前述したように、監視映像(動画)のデータファイルのフレームを順に繰り下げに同期して、個々のフレーム内に現れるオブジェクトの有無とオブジェクトが同一のものであるかどうかを検知し、検知した場合にそのフレーム上のオブジェクトの位置情報及びオブジェクトの通し番号(例えばオブジェクトID)を取得する動作である。
I/Oインターフェースは、データ入力部53と、データ出力部54とを含む。データ入力部53は、ウェアラブルカメラ10や車載カメラ31で撮像された映像の映像データファイルを入力(インポート)する。本実施形態では、前述したように、MP4の映像データファイルが用いられる。
データ出力部54は、MP4の映像データファイルをSDカード等の記録媒体に記憶し、通信装置を介してバックエンドクライアント70等に送信する。
ユーザインターフェース(UI)は、ユーザへの情報を表示し、また、ユーザによる入力操作を受け付けるものであり、モニタ52と入力部51とを含む。UIは、例えばモニタ52と入力部51とが重ね合わされ、1つの筐体に収容されたタッチパネル付きディスプレイで構成されてもよいし、モニタ52と入力部51とが別々の筐体として構成されてもよい。モニタには、液晶ディスプレイ(LCD)、有機EL、プラズマディスプレイ、LED等が用いられる。入力部51には、タッチパッド、マウス、キーボード等が用いられる。
メモリ59は、大量の映像データファイルを保存し、また、トラッキング情報59a等を保持する。トラッキング情報59aには、映像データファイルのフレーム毎にモザイク処理を行うオブジェクトの位置とオブジェクトの通し番号(例えばオブジェクトID)が登録されている。
図3は、第1の実施形態のバックエンドサーバ50がインポートしたウェアラブルカメラ10の監視映像を構成するフレームG01の一例を示す図である。ウェアラブルカメラ10で撮像されたシーンの監視映像を構成する複数の映像データファイルは、インポート時に一括してデータ入力部53に入力される。図3に示す監視映像のフレームG01は、同一の撮像エリア(例えば事件若しくは事故の現場、或いは巡視中の場所。以下同様。)において撮像された監視映像の、例えば先頭フレームである。監視映像のフレームG01には、街中を歩行する多くの人物が映っている。このフレームG01は、バックエンドサーバ50のトラッキング部57の顔認識機能によるオブジェクトの自動抽出が行われる前のフレームであるので、フレームG01には、オブジェクトである人物の顔を囲む枠は描画されていない。
図4は、図3のフレームG01に対し、本実施形態のバックエンドサーバ50によりオブジェクトが自動抽出された後のフレームG01aの一例を示す図である。ここでは、バックエンドサーバ50のトラッキング部57の顔認識機能により、オブジェクトである8個の顔f1〜f8が認識された。ただし、顔f4は、誤って人物の顔として認識された対象(オブジェクト)である。フレームG01aには、認識された8個の顔f1〜f8をそれぞれ囲むように、8個の実線の枠wk1〜wk8がトラッキング部57により実線で描画される。なお、自動抽出後のフレームG01aは、枠内の顔にマスキング部555によって具体的にマスク処理が施されて表示されてもよいし、枠の代わりにマスク処理だけを施して表示してもよい。これにより、ユーザは、実際にマスク処理が施された時のイメージを具体的に把握できる。このとき、マスキング部555は、例えばマスク制御部58の設定情報を基に、顔だけをマスク処理してもよいし、枠全体をマスク処理してもどちらでもよい。顔だけをマスク処理するか、顔を含む枠内全体をマスク処理するかを示す設定情報は、マスク制御部58において予め保持されている。但し、この設定情報は、ユーザ操作により、適宜変更設定されても構わないことは言うまでもない。
上述構成を有する監視映像解析システム5における画像解析動作を示す。
図5は、第1の実施形態のバックエンドサーバにおける前処理、中処理、後処理の各動作手順の一例を詳細に説明するフローチャートである。図5において、前処理はステップS1〜ステップS2の各処理を指し、中処理はステップS3〜ステップS4の各処理を指し、後処理はステップS5〜ステップS10の各処理を指す。
図5において、データ入力部53は、ウェアラブルカメラ10から映像データファイルを一括で入力(インポート)する(S1)。デマルチプレクサ554は、データ入力部53から入力された、MP4の動画像データファイルからH.264の圧縮済みデータを取り出す。デコーダ552は、H.264の圧縮データをYUVデータあるいはRGBデータの非圧縮データに伸張し、映像データとして作業用メモリ(図示なし)に一時的に読み出して展開する。
トラッキング部57は、再生制御部56による再生(つまり、動画データファイルを構成する複数のフレームを順に繰り下げること)に同期して、非圧縮データである映像データの各フレームに対し、マスク処理の対象となるオブジェクトを自動抽出してモニタ52に表示する(S2)。ステップS2の処理の詳細については後述する、ステップS2ではマスク処理の対象となるオブジェクトが動画データの個々のフレームに対して自動抽出され、自動抽出されたオブジェクトの通し番号(例えばオブジェクトID)とフレームにおける位置情報(例えば座標情報)とが対応付けられたトラッキング情報59aが生成される。
マスク制御部58は、入力部51(例えばマウス、キーボード等)を介して行われるユーザ(例えばバックエンドサーバ50の使用者である警察官)の操作を受け付け、マスク処理不要なオブジェクトを除外する指定を行う(S3)。具体的には、ステップS2で自動抽出された複数のオブジェクトは、初期設定にて全てマスク処理が「オン」(つまり、マスク処理する対象である)となっているため、ステップS3では、ユーザ操作に基づく個別のオン指定又はオフ指定が行われる。「オフ」とは、ユーザ操作によってマスク処理が不要であると指定されたオブジェクトであり、「オン」とは、同様にユーザ操作によってマスク処理が必要であると指定されたオブジェクトである。このとき、オフ指定においてマスク処理を除外するように指定された少なくとも1つのオブジェクトは、後述するステップS8で行われるマスク処理の対象外となる。つまり、オブジェクトが人の顔である場合には、その人の顔にモザイク処理は施されず、明らかにされる。なお、オン・オフ指定は全てのフレーム上に存在する全てのオブジェクトに対して指定する必要はなく、オブジェクトの通し番号(例えばオブジェクトID)に連動して同一のオブジェクトに対して一括してオン・オフの指定が可能である。また、動画データの各フレームでは、ステップS3においてマスク処理が不要と判断されたオブジェクト(例えば人物の顔)を囲む枠は、例えば実線の枠から点線の枠に切り替わって区別して表示される(図7参照)。これにより、ユーザは、マスク処理が不要なオブジェクトを、マスク処理が必要なオブジェクトと視覚的に明確に区別して認識できる。
マスク制御部58は、例えば入力部51を介して行われるユーザ(バックエンドサーバ50の使用者である警察官)の操作を受け付け、マスク処理の候補となるオブジェクトを追加する(S4)。ステップS4の処理の詳細については後述する。動画データの各フレームでは、マスク処理の候補として追加されたオブジェクト(人物の顔)を囲む枠は、自動抽出されたオブジェクトの実線の枠とは異なる表示態様の枠で表示されてもよく、この場合には、ユーザは、マスク処理の対象として追加されたマスク処理の候補となるオブジェクトを、マスク処理が不要なオブジェクトと視覚的に明確に区別して認識できる。
マスク制御部58は、ユーザ(例えばバックエンドサーバ50の使用者である警察官)の操作により、マスク処理が不要なオブジェクトあるいはマスク処理の候補として追加されたオブジェクトを、全シーンの動画データのフレームにおいて確認し、マスク処理を行うオブジェクトに過不足が生じないように、オン・オフ指定を修正する(S5)。
メディア処理部55は、ユーザ操作により不要なフレームとして指定されたフレームを一括で削除する(S6)。例えば10秒間の動画像データがあった場合に、ユーザ操作により2秒目のフレームがイン(必要)と設定され、更に、ユーザ操作により9秒目のフレームがアウト(不要)と設定される。この場合、メディア処理部55は、不要な動画像を構成するフレームを削除し、結果的に2秒目〜8秒目までの動画像データに圧縮する。このとき、削除されたフレームにおける各オブジェクトの位置情報であるメタデータも併せて消去される。これにより、メディア処理部55は、ステップS2においてトラッキング部57によって生成されたトラッキング情報59aを必要に応じて更新する。
マスキング部555は、ユーザ操作によるオン・オフ指定の有無に基づき、動画データファイルに対してマスク処理が指示されたか否かを判別する(S7)。マスク処理が指示されていない場合(S7、NO)、マスク処理が指示されるまでマスキング部555は処理待機する。なお、ステップS7においてマスク処理が指示されていない場合には、バックエンドサーバ50の処理はステップS1に戻ってもよい。
一方、動画データファイルに対してマスク処理が指示された場合(S7、YES)、マスキング部555は、トラッキング情報59aを基に、トラッキング情報59aにおいて規定されるフレーム毎のメタデータ(位置情報)で示されるオブジェクトに対し、モザイク処理等のマスク処理を行う(S8)。これにより、一般市民等が撮像映像に映ってしまうことを回避できる。
エンコーダ551は、モザイク処理等のマスク処理が施された映像データ(YUVデータあるいはRGBデータの非圧縮データ)をH.264の圧縮データに圧縮する。さらに、マルチプレクサ553は、H.264の圧縮データを元にMP4の動画像データファイルを生成してメモリ59に記憶する(S9)。
データ出力部54は、マルチプレクサ553で生成された動画像データファイルをSDカード等の記録媒体に書き出す処理を行う(S10)。この後、バックエンドサーバ50は、本動作を終了する。
図6は、第1の実施形態のバックエンドサーバ50における前処理のステップS2の動作手順の詳細を説明するフローチャートである。トラッキング部57は、少なくとも1つの動画データファイルを読み出して、メモリ59に展開し、オブジェクトを自動判別(自動抽出)する(S2−1)。
トラッキング部57は、少なくとも1つの動画データファイルについて、再生制御部56によるフレームの順次繰り下げに同期して、動画データファイルを構成する個々のフレームをメモリ59に展開し、そのフレームにおけるオブジェクトを自動判別する(S2−2)。トラッキング部57は、少なくとも1つの動画データファイルについて、フレーム毎に判別されたオブジェクトの位置を示す座標値をオブジェクトの通し番号(例えばオブジェクトID)とともにトラッキング情報59a(メタデータ)としてメモリ59に保存する(S2−3)。トラッキング情報59aは、映像データのヘッダ部にその一部として付加されてもよいし、動画像データファイルに紐付けて別ファイルとして保存されてもよい。この後、バックエンドサーバ50は、ステップS3の処理に復帰する。
図7は、図4のフレームG01aに対し、ユーザ操作に基づいて本実施形態のバックエンドサーバ50により複数のオブジェクトがマスク処理の対象外として指定された後のフレームG01bの一例を示す図である。バックエンドサーバ50の使用者(ユーザ)である警察官3が入力部51(マウス等)を操作し、モニタ52に表示されたカーソルKrでオブジェクトを選択すると、選択されたオブジェクトの指定が解除される。フレームG01bでは、顔f4が誤って自動抽出されたとして、このオブジェクトの指定が解除される。この場合、実線の枠wk4は点線の枠に切り替わる。また、顔f3は、警察官3の主観によってマスク処理が不要であると判断されたオブジェクト(例えばプライバシー保護が必要でない公人(例えば市長)の顔、又は事件に関する被疑者等)であり、このオブジェクトの指定が解除される。この場合も、実線の枠wk3は点線の枠に切り替わる。この場合には、顔f3はモザイク処理の対象とはならない。
以上により、第1の実施形態の監視映像解析システム5は、ユーザにより使用されるウェアラブルカメラ10(カメラ)と、ウェアラブルカメラ10で撮像された映像の映像データファイルを入力するバックエンドサーバ50(サーバ)と、を備える。バックエンドサーバ50は、入力された映像データファイルを構成するそれぞれのフレーム(フレーム画像)に現れる少なくとも1つのオブジェクトをフレーム毎に検知する。バックエンドサーバ50は、検知されたフレーム毎(フレーム画像毎)の少なくとも1つのオブジェクトの位置とオブジェクトの通し番号(例えばオブジェクトID)をオブジェクト毎にトラッキング情報59a(メタデータ)としてメモリ59に保存する。バックエンドサーバ50は、検知されたフレーム毎の少なくとも1つのオブジェクトを識別可能な実線の枠wk1(第1表示態様)でモニタ52に表示する。
このように、モニタ52に表示されたオブジェクトが実線の枠で識別可能となる。従って、バックエンドサーバ50は、ユーザがマスク処理すべきオブジェクトを容易に認識してマスク処理を指示できる。これにより、映像に現れるオブジェクトをフレキシブルにマスク処理してそのオブジェクトのプライバシー保護を遵守しつつ、マスク処理の作業負荷軽減を支援することができる。
また、バックエンドサーバ50は、モニタ52に表示されたいずれかのオブジェクトの指定に応じて、指定されたオブジェクトを識別可能な点線の枠wk4(第2表示態様)で表示する。
このように、指定されたオブジェクトが点線の枠で表示されるので、バックエンドサーバ50は、例えば誤って認識されたオブジェクトやプライバシー保護が不必要なオブジェクト等、ユーザ操作によってマスク処理が不要であると指定したオブジェクトを、マスク処理が必要なオブジェクトと区別できる。従って、ユーザは、マスク処理が必要なオブジェクトに対してだけ、容易にマスク処理を指示できる。また、マスク処理が不要なオブジェクトをマスク処理することによる、必要な情報の隠蔽やマスク処理の作業負荷増加を回避できる。
また、バックエンドサーバ50は、実線の枠で表示されたフレーム毎の少なくとも1つのオブジェクトの位置情報を用いて、実線の枠で表示されたオブジェクトを判別不能にマスク処理する。
このように、バックエンドサーバ50は、実線の枠でオブジェクトを識別可能に表示する際に保存されたオフジェクトの位置情報を用いて、オブジェクトをマスク処理するので、マスク処理を施す際、新たにオブジェクトの位置を求めなくてよい。従って、バックエンドサーバ50は、マスク処理の高速化やマスク処理の負荷軽減を図ることができる。
また、バックエンドサーバ50は、点線の枠wk4で表示されたオブジェクトを判別不能とするマスク処理を実行しない。
このように、バックエンドサーバ50は、例えばユーザ操作によってマスク処理が不要であると指定されたオブジェクトを、マスク処理が必要なオブジェクトと区別することができる。また、バックエンドサーバ50は、マスク処理が不要なオブジェクトをマスク処理することによる、必要な情報の隠蔽やマスク処理の負荷増加を回避できる。
(第2の実施形態の内容に至る経緯)
ここで、例えば街中の防犯カメラや警察官等の装着したウェアラブルカメラ等の撮像装置により撮像された監視映像に、事件や事故等のインシデントに直接関係しない一般市民等の多くの人物が映ることがある。プライバシー保護のため、これらの人物が誰であるかの特定が困難になるように1人1人の人物の顔にマスク処理等の画像処理を施す必要がある。
ところが、上述したマスク処理等の画像処理を施すにあたり、特許文献1の構成を用いても、上述した映像内のどこにマスク無効領域を設定すれば良いかや、各人物がどのような移動パターンで動くかは監視映像毎に異なり、マスク無効領域の一様な設定や移動パターンの判別はできない。このため、監視映像に現れる一般市民等の複数の人物に対し、マスク処理を施す対象としての追加や削除をフレキシブルに設定することは困難であった。
そこで、第2の実施形態では、ウェアラブルカメラ10や車載カメラ31等の撮像装置により撮像された監視映像に現れる個々の人物に対し、マスク処理の対象としての追加や削除をフレキシブルに設定し、監視映像中における個々の人物のプライバシー保護を支援する監視映像解析システムの例を説明する。
(第2の実施形態)
第2の実施形態の監視映像解析システム5のバックエンドサーバ50の内部構成は第1の実施形態の監視映像解析システム5のバックエンドサーバ50の内部構成と同一であり、同一の符号を参照して説明する。
図8は、第2の実施形態のバックエンドサーバ50によりマスク処理の対象としてのオブジェクトが追加される時のフレーム画像の表示遷移例を示す図である。例えばウェアラブルカメラ10により撮像された監視映像のデータに対し、バックエンドサーバ50のユーザ操作により再生操作がなされたとする。監視映像のデータは、データ入力部53を介してバックエンドサーバ50にインポートされ、デマルチプレクサ554によりMP4形式のデータから例えばH.264形式の圧縮済みデータに変換される。H.264形式の圧縮済みデータは、デコーダ552によりYUV又はRGB形式の非圧縮データに変換され、ワークメモリ等のRAM(不図示)に読み出され、再生制御部56により再生されてモニタ52に表示される。なお、バックエンドサーバ50のユーザ操作により再生操作がなされる監視映像のデータは、第1の実施形態においてマスク処理の対象として1つ以上のオブジェクトが設定された監視映像のデータでもよい。
再生が開始した後、バックエンドサーバ50のユーザ操作により一時停止操作がなされたとする。その後、バックエンドサーバ50のユーザ操作により、監視映像のデータを構成する複数のフレーム画像のうち先頭のフレーム画像FR1(第1フレーム画像)に対し、ユーザがマスク処理の対象として追加したい複数のオブジェクトOB1,OB2が選択される。オブジェクトOB1は看板であり、オブジェクトOB2は車両のナンバープレートである。この選択により、マスク制御部58により、オブジェクトOB1,OB2はマスク処理の対象として設定される。なお図8以降の図面では、ユーザ操作の一例としてユーザの指FGによる選択が示されているが、マウス又はキーボード等による選択でもよいことは言うまでもない。
トラッキング部57は、複数のオブジェクトOB1,OB2を識別可能な表示態様の一例として、個々のオブジェクトOB1,OB2の周囲に二重枠WK1s,WK2sをフレーム画像FR1上に重畳してモニタ52に表示する。また、トラッキング部57は、マスク処理の対象として追加したオブジェクトOB1,OB2の選択に伴ってトラッキングスタートボタンIC1を、UI(User Interface)画面の一部としてフレーム画像FR1の紙面下側に表示する。なお、トラッキングスタートボタンIC1は、監視映像の再生が一時停止中の時だけ表示されても構わない。
バックエンドサーバ50のユーザ操作(例えばユーザの指FGによる選択)により、トラッキングスタートボタンIC1が押下されると、トラッキング部57は、一時停止中であった監視映像の再生(言い換えると、フレーム画像FR1から順に後続するフレーム画像に繰り下げて表示すること)の再開を再生制御部56に指示する。これにより、再生制御部56は、監視映像の再生を再開できる。また、トラッキング部57は、再生制御部56による監視映像の再生に合わせて、フレーム画像FR1に後続するフレーム画像FR2において、フレーム画像FR1において選択された複数のオブジェクトOB1,OB2を自動検知して識別可能な表示態様の一例として、個々のオブジェクトOB1,OB2の周囲に一重枠WK1m,WK2mをフレーム画像FR2上に重畳してモニタ52に表示する。
再生制御部56による監視映像の再生が進み、例えばオブジェクトOB2がフレーム画像内に現れなくなった(言い換えると、オブジェクトOB2を自動検知しなくなった)フレーム画像FR3では、トラッキング部57は、オブジェクトOB2の一重枠WK2mを非表示するが、その一方で、フレーム画像FR3ではオブジェクトOB1は出現している(言い換えると、オブジェクトOB1を自動検知している)のでオブジェクトOB1の一重枠WK1mの表示を継続する。
なお、メディア処理部55のマスキング部555は、再生制御部56による監視映像の再生に合わせて、マスク処理の対象として選択されたオブジェクトOB1,OB2を個々のフレーム画像FR1,FR2,FR3,…においてマスク処理を施してモニタ52に表示しても構わない。これにより、バックエンドサーバ50のユーザは、監視映像の再生中に、自己の選択したオブジェクトがマスク処理された状況を具体的に確認でき、そのオブジェクトをマスク処理の対象として含めるべきか否かを適正に判断できる。
また、監視映像を構成する複数のフレーム画像のうち先頭のフレーム画像FR1において選択されたオブジェクトOB1,OB2には二重枠WK1s,WK2sが表示され、先頭ではないフレーム画像FR2,FR3,…において選択されたオブジェクトOB1,OB2には一重枠WK1m,WK2mが表示される。これは、マスク処理の対象として追加したオブジェクトを削除する際に、二重枠WK1s,WK2sが表示されたオブジェクトに対して削除操作がなされた場合には全フレーム画像において削除でき、一重枠WK1m,WK2mが表示されたオブジェクトに対して削除操作がなされた場合には当該フレーム画像における削除のみを有効とすることで、削除するフレーム画像の数を区別するためであり、以下同様である。
図9は、第2の実施形態のバックエンドサーバ50によりマスク処理の対象としてのオブジェクトが一時削除される時のフレーム画像の表示遷移例を示す図である。例えば第1の実施形態においてマスク処理の対象として1つ以上のオブジェクトが設定された監視映像のデータ又は図8の方法で1つ以上のオブジェクトがマスク処理の対象として設定された監視映像のデータに対し、バックエンドサーバ50のユーザ操作により再生操作がなされたとする。監視映像のデータは、図8を参照して説明したように、YUV又はRGB形式の非圧縮データに変換され、ワークメモリ等のRAM(不図示)に読み出され、再生制御部56により再生されてモニタ52に表示される。
再生が開始した後、バックエンドサーバ50のユーザ操作により一時停止操作がなされたとする。その後、バックエンドサーバ50のユーザ操作(例えばユーザの指FGによる選択操作)により、監視映像のデータを構成する複数のフレーム画像のうち先頭のフレーム画像FR11(第2フレーム画像)において、マスク処理の対象として既に設定されたオブジェクトOB1が、ユーザがマスク処理の対象から一時的に削除したいオブジェクトとして選択される。この選択により、マスク制御部58により、オブジェクトOB1はマスク処理の対象から一時的に削除されるものとして設定される。以下、「一時的」とは、監視映像の再生に伴い、例えばユーザ操作によりオブジェクトが選択された時のフレーム画像(例えば監視映像を構成する複数のフレーム画像のうち先頭のフレーム画像)から、そのオブジェクトが現れなくなるフレーム画像までの時間的な幅(期間)をいう。
トラッキング部57は、マスク処理の対象から一時的に削除するオブジェクトOB1を識別可能な表示態様の一例として、オブジェクトOB1の周囲に重畳表示していた二重枠WK1sを点線二重枠WK1stに置き換えてモニタ52に表示する。一方、トラッキング部57は、マスク処理の対象として既に設定されたオブジェクトOB2を識別可能な表示態様の一例として、オブジェクトOB2の周囲の二重枠WK2kの重畳表示を継続する。また、トラッキング部57は、トラッキングスタートボタンIC1を、UI(User Interface)画面の一部として、マスク処理の対象から一時的に削除したいオブジェクトOB1の選択に伴ってフレーム画像FR11の紙面下側に表示する。
バックエンドサーバ50のユーザ操作(例えばユーザの指FGによる選択)により、トラッキングスタートボタンIC1が押下されると、トラッキング部57は、一時停止中であった監視映像の再生(言い換えると、フレーム画像FR11から順に後続するフレーム画像に繰り下げて表示すること)の再開を再生制御部56に指示する。これにより、再生制御部56は、監視映像の再生を再開できる。また、トラッキング部57は、再生制御部56による監視映像の再生に合わせて、フレーム画像FR11に後続するフレーム画像FR12において、フレーム画像FR11においてマスク処理の対象から一時的に削除するオブジェクトとして選択されたオブジェクトOB1を自動検知して識別可能な表示態様の一例として、オブジェクトOB1の周囲に点線一重枠WK1etをフレーム画像FR12上に重畳してモニタ52に表示する。
再生制御部56による監視映像の再生が進み、例えばオブジェクトOB1がフレーム画像内に現れなくなった(言い換えると、オブジェクトOB1を自動検知しなくなった)フレーム画像(不図示)では、トラッキング部57は、オブジェクトOB1の一重枠WK1eを非表示する。つまり、ユーザ操作により選択されたオブジェクトOB1がフレーム画像から現れなくなるまで、オブジェクトOB1はマスク処理の対象から一時的に削除される。
なお、メディア処理部55のマスキング部555は、再生制御部56による監視映像の再生に合わせて、マスク処理の対象から一時的に削除するオブジェクトOB1を個々のフレーム画像FR11,FR12,…においてマスク処理を施さず、かつマスク処理の対象として既に設定されたオブジェクトOB2を個々のフレーム画像FR11,FR12,…においてマスク処理を施してモニタ52に表示しても構わない。これにより、バックエンドサーバ50のユーザは、監視映像の再生中に、自己の選択したオブジェクトのマスク処理された状況とマスク処理されていない状況との両方を具体的に確認でき、そのオブジェクトをマスク処理の対象として含めるべきか否か、削除するべきか否かを適正に判断できる。なお、先頭のフレーム画像FR11以外のフレーム画像(例えばフレーム画像FR12)において、一重枠が周囲に表示されたオブジェクトが選択された場合には、そのフレームだけがマスク処理の一時的な削除の対象と設定される。
図10は、第2の実施形態のバックエンドサーバ50によりマスク処理の対象としてのオブジェクトが完全削除される時のフレーム画像の表示遷移例を示す図である。例えば第1の実施形態においてマスク処理の対象として1つ以上のオブジェクトが設定された監視映像のデータ又は図8の方法で1つ以上のオブジェクトがマスク処理の対象として設定された監視映像のデータに対し、バックエンドサーバ50のユーザ操作により再生操作がなされたとする。監視映像のデータは、図8を参照して説明したように、YUV又はRGB形式の非圧縮データに変換され、ワークメモリ等のRAMに読み出され、再生制御部56により再生されてモニタ52に表示される。
再生が開始した後、バックエンドサーバ50のユーザ操作により一時停止操作がなされたとする。その後、バックエンドサーバ50のユーザ操作(例えばユーザの指FGによる選択操作)により、監視映像のデータを構成する複数のフレーム画像のうち先頭のフレーム画像FR11(第3フレーム画像)において、マスク処理の対象として既に設定されたオブジェクトOB1が、ユーザがマスク処理の対象から完全に削除したいオブジェクトとして選択される。完全に削除されるとは、そのオブジェクトが全フレーム画像においてマスク処理の対象として削除されることを意味する。この選択により、マスク制御部58により、オブジェクトOB1はマスク処理の対象から完全に削除されるものとして設定される。このとき、トラッキング情報59aからはオブジェクトOB1の通し番号(例えばオブジェクトID)とフレームにおける位置情報(例えば座標情報)を削除する。
トラッキング部57は、マスク処理の対象から完全に削除するオブジェクトOB1を識別可能な表示態様の一例として、オブジェクトOB1の周囲に重畳表示していた二重枠WK1sをモニタ52において非表示する(つまり、二重枠WK1sの表示を削除する。トラッキング情報から位置情報を削除するため、自然と表示できなくなる。)。一方、トラッキング部57は、マスク処理の対象として既に設定されたオブジェクトOB2を識別可能な表示態様の一例として、オブジェクトOB2の周囲の二重枠WK2sの重畳表示を継続する。
図11は、図8に対応するオブジェクトOB1,OB2の追加時のバックエンドサーバ50の動作手順の一例を詳細に説明するフローチャートである。例えばウェアラブルカメラ10により撮像された監視映像のデータに対し、バックエンドサーバ50のユーザ操作により再生操作がなされたとする。
図11において、再生が開始した後、バックエンドサーバ50のユーザ操作により一時停止操作がなされたとする。一時停止中に、監視映像を構成する複数のフレーム画像のうち先頭のフレーム画像(例えばフレーム画像FR1)が表示された画面上にて、トラッキング部57は、ユーザ操作によりダブルクリックを検知したとする(S11)。このダブルクリックにより、ユーザがマスク処理の対象として追加したいオブジェクトが選択される。なお、ダブルクリックではなく、図8に示す指FGによるダブルタップでもよい。
ダブルクリックの検知位置の周囲にオブジェクトがない(つまり、トラッキング部57がオブジェクトを自動検知しない)場合には(S12、NO)、図11に示す処理は終了する。一方、ダブルクリックの検知位置の周囲にオブジェクトがある(つまり、トラッキング部57がオブジェクトを自動検知できた)場合には(S12、YES)、トラッキング部57は、ダブルクリックの検知位置の周囲のオブジェクトを識別可能な表示態様の一例として、オブジェクトの周囲に外枠(例えば二重枠WK1s)を表示(描画)する(S13)。トラッキング部57は、外枠のフレーム画像における位置を示す座標をフレーム画像の識別情報と対応付けたトラッキング情報59aとしてメモリ59に保存する(S14)。また、トラッキング部57は、そのオブジェクトに対するマスク処理フラグをオンにしてトラッキング情報59aを更新する(S15)。なお、ステップS15の処理は、マスク制御部58により行われてもよい。
ここで、図8を参照して説明したように、バックエンドサーバ50のユーザ操作によりトラッキングスタートボタンIC1が押下されたとする。トラッキング部57は、ユーザ操作によりトラッキングスタートボタンIC1の押下を検知したとする(S16)。トラッキング部57は、一時停止中であった監視映像の再生(言い換えると、フレーム画像から順に後続するフレーム画像に繰り下げて表示すること)の再開を再生制御部56に指示する。これにより、再生制御部56は、監視映像の再生(つまり、次のフレーム画像をモニタ52に表示(描画))を再開できる(S17)。ステップS17の後、バックエンドサーバ50の処理はステップS12に戻る。そして、ステップS17において描画された後続するフレーム画像の中で、ステップS11においてダブルクリックされた位置の周囲のオブジェクトが現れなくなる(つまり、トラッキング部57がステップS11においてダブルクリックされた位置の周囲のオブジェクトを自動検知しなくなる)まで、ステップS13〜ステップS17の処理が繰り返される。
図12Aは、図9に対応するオブジェクトの一時削除時のバックエンドサーバの動作手順の一例を詳細に説明するフローチャートである。例えば図8の方法で1つ以上のオブジェクトがマスク処理の対象として設定された監視映像のデータに対し、バックエンドサーバ50のユーザ操作により再生操作がなされたとする。また、図12Aの説明において、図11の処理と同一の処理については同一のステップ番号を付与して説明を簡略化又は省略し、異なる内容について説明する。
図12Aにおいて、再生が開始した後、バックエンドサーバ50のユーザ操作により一時停止操作がなされたとする。一時停止中に、監視映像を構成する複数のフレーム画像のうち先頭のフレーム画像(例えばフレーム画像FR11)が表示された画面上にて、トラッキング部57は、ユーザ操作によりクリックを検知したとする(S21)。このクリックにより、ユーザがマスク処理の対象から一時的に削除したいオブジェクトが選択される。なお、クリックではなく、図9に示す指FGによるタッチ又はタップでもよい。
クリックの検知位置の周囲にオブジェクトがない(つまり、トラッキング部57がオブジェクトを自動検知しない)場合には(S12、NO)、図12Aに示す処理は終了する。一方、クリックの検知位置の周囲にオブジェクトがある(つまり、トラッキング部57がオブジェクトを自動検知できた)場合には(S12、YES)、トラッキング部57は、クリックの検知位置の周囲のオブジェクトを識別可能な表示態様の一例として、オブジェクトの周囲に重畳表示していた外枠(例えば二重枠WK1s)を点線二重枠WK1stに置き換えて表示(描画)する(S22)。トラッキング部57は、そのオブジェクトに対するマスク処理フラグを一時的にオフにしてトラッキング情報59aを更新する(S23)。なお、ステップS23の処理は、マスク制御部58により行われてもよい。
ここで、図11と同様に、ステップS16及びステップS17の各処理が順に行われ、ステップS17の後、バックエンドサーバ50の処理はステップS12に戻る。そして、ステップS17において描画された後続するフレーム画像の中で、ステップS11においてクリックされた位置の周囲にオブジェクトが現れなくなる(つまり、トラッキング部57がステップS11においてクリックされた位置の周囲のオブジェクトを自動検知しなくなる)まで、ステップS22→ステップS23→ステップS16→ステップS17の処理が繰り返される。なお、ステップS16及びステップS17の各処理は省略されても構わない。つまり、フレーム画像の繰り下げは無くても構わない。
図12Bは、図10に対応するオブジェクトの完全削除時のバックエンドサーバの動作手順の一例を詳細に説明するフローチャートである。例えば図8の方法で1つ以上のオブジェクトがマスク処理の対象として設定された監視映像のデータに対し、バックエンドサーバ50のユーザ操作により再生操作がなされたとする。また、図12Bの説明において、図11の処理と同一の処理については同一のステップ番号を付与して説明を簡略化又は省略し、異なる内容について説明する。
図12Bにおいて、再生が開始した後、バックエンドサーバ50のユーザ操作により一時停止操作がなされたとする。一時停止中に、監視映像を構成する複数のフレーム画像のうち先頭のフレーム画像(例えばフレーム画像FR11)が表示された画面上にて、トラッキング部57は、ユーザ操作によりダブルクリックを検知したとする(S11)。このダブルクリックにより、ユーザがマスク処理の対象から完全に削除したいオブジェクトが選択される。なお、ダブルクリックではなく、図10に示す指FGによるダブルタップでもよい。
ダブルクリックの検知位置の周囲にオブジェクトがない(つまり、トラッキング部57がオブジェクトを自動検知しない)場合には(S12、NO)、図12Bに示す処理は終了する。一方、ダブルクリックの検知位置の周囲にオブジェクトがある(つまり、トラッキング部57がオブジェクトを自動検知できた)場合には(S12、YES)、トラッキング部57は、ダブルクリックの検知位置のオブジェクトの周囲に表示していた外枠(例えば二重枠WK1s)の表示を削除する(非表示)する(S31)。トラッキング部57は、削除した外枠のオブジェクトに対応する、フレーム画像における位置を示す座標及びマスク対象フラグをトラッキング情報59aから削除し、更に、監視映像を構成する他のフレーム画像における、当該オブジェクトの座標及びマスク対象フラグも全てトラッキング情報59aから削除する(S32)。なお、ステップS32の処理は、マスク制御部58により行われてもよい。
以上により、第2の実施形態の監視映像解析システム5では、ウェアラブルカメラ10や車載カメラ31等のカメラは、インシデント(例えば事件若しくは事故)に関する監視映像を撮像する。バックエンドサーバ50は、カメラにより撮像された監視映像をモニタ52に表示して再生する。バックエンドサーバ50は、監視映像の再生後の一時停止中に、監視映像を構成する複数のフレーム画像のうちの第1フレーム画像(例えば先頭のフレーム画像FR1)に現れるオブジェクトOB1の指定操作(選択操作)に応じて、指定(選択)されたオブジェクトOB1をマスク処理の対象として識別可能な表示態様(例えば二重枠WK1s)で表示し、指定(選択)されたオブジェクトOB1の位置情報を第1フレーム画像と対応付けてメモリ59に保存する。バックエンドサーバ50は、監視映像の再生操作(例えばトラッキングスタートボタンIC1の押下操作)に応じて、第1フレーム画像から後続するフレーム画像毎に、指定(選択)されたオブジェクトOB1をマスク処理の対象として識別可能な表示態様(例えば一重枠WK1m)で表示し、かつ指定(選択)されたオブジェクトOB1の位置情報を個々のフレーム画像と対応付けてメモリ59に保存する。バックエンドサーバ50は、監視映像の再生に伴って指定(選択)されたオブジェクトOB1がフレーム画像内に現れなくなるまで、監視映像の再生と指定(選択)されたオブジェクトOB1の位置情報のメモリ59への保存とを継続する。
これにより、監視映像解析システム5は、カメラにより撮像された監視映像に現れる個々の人物に対し、マスク処理の対象としての追加をフレキシブルに設定でき、かつ監視映像中における個々の人物のプライバシー保護を支援できる。また、監視映像解析システム5は、トラッキングスタートボタンIC1の押下操作により監視映像を再生するので、ユーザ操作により指定(選択)されたオブジェクト(例えば人物の顔)がフレーム画像内に現れなくなるまでオブジェクトの移動状況をユーザに明確に目視させることができ、マスク処理の対象として追加していいかどうかを適正に判断させることができる。
また、バックエンドサーバ50は、監視映像の一時停止中に、監視映像を構成する複数のフレーム画像のうちの第2フレーム画像(例えば先頭のフレーム画像FR11)に現れるオブジェクトOB1の指定操作(選択操作)に応じて、指定(選択)されたオブジェクトOB1をマスク処理の一時的な対象外として識別可能な表示態様(例えば点線二重枠WK1st)で表示する。バックエンドサーバ50は、監視映像の再生操作(例えばトラッキングスタートボタンIC1の押下操作)に応じて、第2フレーム画像から後続するフレーム画像毎に、指定(選択)されたオブジェクトOB1をマスク処理の一時的な対象外として識別可能な表示態様で表示する。バックエンドサーバ50は、監視映像の再生に伴って指定(選択)されたオブジェクトOB1がフレーム画像内に現れなくなるまで、指定(選択)されたオブジェクトをマスク処理の一時的な対象外として識別可能な表示態様での表示を継続する。
これにより、監視映像解析システム5は、一旦マスク処理の対象として追加するとして設定されたオブジェクト(例えば人物の顔)に対し、そのオブジェクトがフレーム画像内に現れなくなるまでの一時的な期間において監視映像を再生することで、その再生中のオブジェクトの移動状況をユーザに目視させながら、マスク処理の対象から削除するか否かをユーザに適正に判断させることができる。
また、バックエンドサーバ50は、監視映像の一時停止中に、監視映像を構成する複数のフレーム画像のうちの第3フレーム画像(例えば先頭のフレーム画像FR11)に現れるオブジェクトの指定操作(選択操作)に応じて、指定(選択)されたオブジェクトに対応する全フレーム画像における位置情報を削除する。これにより、監視映像解析システム5は、一旦マスク処理の対象として追加するとして設定された監視映像内のオブジェクト(例えば看板)がマスク処理の対象とする必要が無いとユーザにより判断された場合に、そのオブジェクトの全フレームにおける位置情報を削除することで、その監視映像の再生中に無用にマスク処理を施す必要が無く、監視映像の視認性の劣化を抑制できる。
また、バックエンドサーバ50は、監視映像の再生操作に応じて、監視映像を構成する個々のフレーム画像中の指定(選択)されたオブジェクトOB1に対してマスク処理を施してモニタ52に表示する。これにより、バックエンドサーバ50のユーザは、監視映像の再生中に、自己の選択したオブジェクトがマスク処理された状況を具体的に確認でき、そのオブジェクトをマスク処理の対象として含めるべきか否か、又は削除するべきか否かを適正に判断できる。
(第3の実施形態の内容に至る経緯)
ここで、例えば街中の防犯カメラや警察官等の装着したウェアラブルカメラ等の撮像装置により撮像された監視映像に、事件や事故等のインシデントに直接関係しない一般市民等の多くの人物が映ることがある。プライバシー保護のため、これらの人物が誰であるかの特定が困難になるように1人1人の人物の顔にマスク処理等の画像処理を施す必要がある。
ところが、上述したマスク処理等の画像処理を施すにあたり、特許文献1の構成を用いても、上述した映像内のどこにマスク無効領域を設定すれば良いかや、各人物がどのような移動パターンで動くかは監視映像毎に異なり、マスク無効領域の一様な設定や移動パターンの判別はできない。このため、監視映像に現れる一般市民等の複数の人物に対し、マスク処理を施す対象としての追加をフレキシブルに設定することは困難であった。
そこで、第3の実施形態では、ウェアラブルカメラ10や車載カメラ31等の撮像装置により撮像された監視映像に現れる個々の人物に対し、マスク処理の対象としての追加をフレキシブルに設定し、監視映像中における個々の人物のプライバシー保護を支援する監視映像解析システムの例を説明する。
(第3の実施形態)
第3の実施形態の監視映像解析システム5のバックエンドサーバ50の内部構成は第1の実施形態の監視映像解析システム5のバックエンドサーバ50の内部構成と同一であり、同一の符号を参照して説明する。
図13は、第3の実施形態のバックエンドサーバ50によりマスク処理の対象としてのオブジェクトが追加される時のフレーム画像の表示遷移例を示す図である。例えばウェアラブルカメラ10により撮像された監視映像のデータに対し、バックエンドサーバ50のユーザ操作により再生操作がなされたとする。監視映像のデータは、データ入力部53を介してバックエンドサーバ50にインポートされ、デマルチプレクサ554によりMP4形式のデータから例えばH.264形式の圧縮済みデータに展開される。H.264形式の圧縮済みデータは、デコーダ552によりYUV又はRGB形式の非圧縮データに変換され、ワークメモリ等のRAM(不図示)に読み出され、再生制御部56により再生されてモニタ52に表示される。なお、バックエンドサーバ50のユーザ操作により再生操作がなされる監視映像のデータは、第1の実施形態又は第2の実施形態においてマスク処理の対象として1つ以上のオブジェクトが設定された監視映像のデータでもよい。
再生が開始した後、バックエンドサーバ50のユーザ操作により一時停止操作がなされたとする。その後、バックエンドサーバ50のユーザ操作(例えばユーザの指FGによる長押し操作)により、監視映像のデータを構成する複数のフレーム画像のうち先頭のフレーム画像FR21(第1フレーム画像)に対し、ユーザがマスク処理の対象として追加したい単一のオブジェクトOB3が選択される。オブジェクトOB3は人物である。この選択により、マスク制御部58により、単一のオブジェクトはマスク処理の対象として設定される。
トラッキング部57は、単一のオブジェクトを識別可能な表示態様の一例として、オブジェクトOB3の周囲に外枠(例えば一重枠WK3s)をフレーム画像FR21上に重畳してモニタ52に表示する。なお、外枠のサイズは固定でも良いし、バックエンドサーバ50のユーザ操作(例えばユーザの指2による上下左右へのスライド操作)により、その場で変更できても良い。一重枠WK3sの周囲には、先頭のフレーム画像FR21に重畳して表示されたことを示すために、「s」の文字が表示される。また、ユーザ操作によりオブジェクトOB3が選択された状態(つまり、長押し状態)が継続されると、第2の実施形態におけるトラッキングスタートボタンIC1が押下された時と同様に、トラッキング部57は、一時停止中であった監視映像の再生(言い換えると、フレーム画像FR21から順に後続するフレーム画像に繰り下げて表示すること)の再開を再生制御部56に指示する。これにより、再生制御部56は、監視映像の再生を再開できる。つまり、再生制御部56により、監視映像を構成するフレーム画像の繰り下げが自動的に順次行われてモニタ52に表示されていく。
監視映像の再生再開により、オブジェクトOB3は例えば紙面左方向に進んでいく。この場合、トラッキング部57は、先頭のフレーム画像ではないフレーム画像(例えばフレーム画像FR21に後続するフレーム画像FR22)において単一のオブジェクトの周囲に同様の一重枠WK3mを表示する。フレーム画像FR22は先頭のフレーム画像FR21ではないため、一重枠WK3mの周囲には「s」の文字は表示されない。また、フレーム画像FR22では、オブジェクトOB3の位置と一重枠WK3mとの位置がずれている(図13の第1段目の紙面最右図の一つ左隣りの図参照)。これは、フレーム画像FR21において単一のオブジェクトOB3に対して長押し操作が継続されたことでフレーム画像の繰り下げ(再生)が再開したことで、オブジェクトOB3が紙面左方向に移動したためである。
ユーザ操作(例えばユーザの指FGのドラッグ操作)により、一重枠WK3mが単一のオブジェクトOB3を囲むように移動される(図13の第1段目の紙面最右図参照)。トラッキング部57は、ユーザ操作(例えばユーザの指FGのドラッグ操作)によって、一重枠WK3mが単一のオブジェクトOB3からずれた位置から単一のオブジェクトOB3を囲むように移動されるまでの間、フレーム画像の繰り下げ(再生)を一時的に中断する。
ユーザ操作(例えばユーザの指FGのドラッグ操作)の操作先(ドラッグ操作先)で、その操作が止まると(つまり、ユーザの指FGの移動が停止すると)、トラッキング部57は、一時的に中断していたフレーム画像の繰り下げ(再生)を再開する。これにより、フレーム画像FR23に示すように、単一のオブジェクトOB3は更に紙面左方向に進んでいくため、ドラッグ操作が停止した時の一重枠WK3mの位置と単一のオブジェクトOB3の位置とが再度ずれる(図13の第2段の最左図参照)。
同様に、ユーザ操作(例えばユーザの指FGのドラッグ操作)により、一重枠WK3mが単一のオブジェクトOB3を囲むように移動される(図13の第2段目の紙面最左図の1つ右隣りの図参照)。トラッキング部57は、ユーザ操作(例えばユーザの指FGのドラッグ操作)によって、一重枠WK3mが単一のオブジェクトOB3からずれた位置から単一のオブジェクトOB3を囲むように移動されるまでの間、フレーム画像の繰り下げ(再生)を一時的に中断する。
ユーザ操作(例えばユーザの指FGの長押し操作)が完了すると、トラッキング部57は、一時的に中断していたフレーム画像の繰り下げ(再生)を完全に終了し、単一のオブジェクトOB3を識別可能な表示態様の一例として、オブジェクトOB3の周囲に外枠(例えば一重枠WK3e)をフレーム画像FR23上に重畳してモニタ52に表示する。一重枠WK3eの周囲には、単一のオブジェクトOB3がフレーム画像内に出現する最終のフレーム画像FR23に重畳して表示されたことを示すために、「e」の文字が表示される。
なお、フレーム画像FR23は、単一のオブジェクトOB3がフレーム画像内に出現する最終のフレーム画像であるかどうかは分かり難い場合がある。例えば、図13の第3段目に示すように、その直前の状態(具体的には、図13の第2段の紙面最左図の1つ右隣りの図の状態)でユーザ操作(つまり、ユーザの指FGのドラッグ操作)が停止していると、トラッキング部57によりフレーム画像の繰り下げが再開される。このため、単一のオブジェクトOB3がフレーム画像FR24に示すように、フレーム画像FR24では出現しなくなることが考えられる。この場合には、ユーザ操作(つまり、ユーザの指FGの長押し操作)が終わるか、又は長押し操作を継続したままフレーム画像FR24の画面外に移動操作(例えばドラッグ操作)すると、トラッキング部57は、自動的に1つ直前のフレーム画像FR23をモニタ52に表示し、フレーム画像FR23における単一のオブジェクトOB3の位置に一重枠WK3eを表示してフレーム画像の繰り下げ(再生)を完全に終了する。
なお、ユーザ操作(例えばユーザの指FGのドラッグ操作)の操作先(ドラッグ操作先)で、その操作が止まる(つまり、ユーザの指FGの移動が停止する)のを自動検知して一時的に中断していたフレーム画像の繰り下げ(再生)を再開するようにしているが、自動検知の代わりに別のユーザ操作(例えばユーザの指FG2によるタップ操作)で一時的に中断していたフレーム画像の繰り下げ(再生)を再開するようにしても良い。
図14は、図13に対応するオブジェクトの追加時のバックエンドサーバ50の動作手順の一例を詳細に説明するフローチャートである。例えばウェアラブルカメラ10により撮像された監視映像のデータに対し、バックエンドサーバ50のユーザ操作により再生操作がなされたとする。
図14において、再生が開始した後、バックエンドサーバ50のユーザ操作により一時停止操作がなされたとする。一時停止中に、監視映像を構成する複数のフレーム画像のうち先頭のフレーム画像(例えばフレーム画像FR21)が表示された画面上にて、トラッキング部57は、ユーザ操作により長押し操作を検知したとする(S41)。この長押し操作により、ユーザがマスク処理の対象として追加したい単一のオブジェクトが選択される。
トラッキング部57は、長押し状態で指定(選択)された単一のオブジェクトを識別可能な表示態様の一例として、オブジェクト(例えばオブジェクトOB3)の周囲に外枠(例えば一重枠WK3s)をフレーム画像FR21上に重畳してモニタ52に表示(描画)する(S42)。トラッキング部57は、外枠のフレーム画像における位置を示す座標をフレーム画像の識別情報と対応付けたトラッキング情報59aとしてメモリ59に保存する(S14)。また、トラッキング部57は、そのオブジェクトに対するマスク処理フラグをオンにしてトラッキング情報59aを更新する(S15)。なお、ステップS15の処理は、マスク制御部58により行われてもよい。
ユーザ操作によりオブジェクトOB3が長押しされた状態が継続されると、トラッキング部57は、一時停止中であった監視映像の再生(言い換えると、フレーム画像FR21から順に後続するフレーム画像に繰り下げて表示すること)の再開を再生制御部56に指示する。これにより、再生制御部56は、監視映像の再生を再開できる。つまり、再生制御部56により、監視映像を構成するフレーム画像の繰り下げが自動的に順次行われてモニタ52に表示されていく(S17)。フレーム画像の繰り下げによって移動した単一のオブジェクトOB3を囲むように、ユーザ操作(例えばユーザの指FGのドラッグ操作)により外枠(例えば一重枠WK3m)が移動される。トラッキング部57は、ユーザ操作(例えばユーザの指FGのドラッグ操作)を検知する(S43)。トラッキング部57は、フレーム画像の繰り下げによって移動した単一のオブジェクトOB3を囲むように一重枠WK3mがドラッグ操作によって移動されるまでの間、フレーム画像の繰り下げ(再生)を一時的に中断する(S44)。
トラッキング部57は、ステップS44の後、ステップS43において検知されるドラッグ操作の開始時における外枠(例えば一重枠WK3m)のフレーム画像における位置を示す座標をフレーム画像の識別情報と対応付けたトラッキング情報59aとしてメモリ59に保存する(S45)。また、トラッキング部57は、そのオブジェクトに対するマスク処理フラグをオンにしてトラッキング情報59aを更新する(S46)。なお、ステップS46の処理は、マスク制御部58により行われてもよい。
トラッキング部57は、ステップS46の後、ユーザ操作(つまり、ドラッグ操作からホールド操作)を検知すると(S47)、ステップS44において一旦停止していたフレーム画像の繰り下げ(再生)の再開を再生制御部56に指示する。これにより、再生制御部56は、監視映像の再生を再開できる。つまり、再生制御部56により、監視映像を構成するフレーム画像の繰り下げが自動的に順次行われてモニタ52に表示されていく(S48)。ステップS48の後、ユーザ操作(つまり、マウスアップ操作)がトラッキング部57により検知された場合には(S49、YES)、図14に示すバックエンドサーバ50の処理は終了する。一方、ユーザ操作(つまり、マウスアップ操作)がトラッキング部57により検知されない場合には(S49、NO)、バックエンドサーバ50の処理はステップS43に戻り、ユーザ操作(つまり、マウスアップ操作)がトラッキング部57により検知されるまで、ステップS43〜ステップS49の処理が繰り返される。マウスアップ操作は、例えばユーザが指定した単一のオブジェクトをマスク処理の対象として追加することの処理をユーザが止める場合に行われる処理の一例である。
以上により、第3の実施形態の監視映像解析システム5では、ウェアラブルカメラ10や車載カメラ31等のカメラは、インシデント(例えば事件若しくは事故)に関する監視映像を撮像する。バックエンドサーバ50は、カメラにより撮像された監視映像をモニタ52に表示して再生する。バックエンドサーバ50は、監視映像の再生後の一時停止中に、監視映像を構成する複数のフレーム画像のうちの第1フレーム画像(例えば先頭のフレーム画像FR21)に現れる単一のオブジェクトOB3の指定操作(選択操作)に応じて、指定(選択)された単一のオブジェクトOB3をマスク処理の対象として識別可能な表示態様(例えば一重枠WK3s)で表示し、指定(選択)された単一のオブジェクトOB3の位置情報を第1フレーム画像と対応付けてメモリ59に保存し、かつ監視映像の再生を開始する。バックエンドサーバ50は、監視映像の再生に伴って第1フレーム画像から後続するフレーム画像毎に、指定(選択)された単一のオブジェクトOBの指定操作(選択操作)により、指定(選択)された単一のオブジェクトOB3をマスク処理の対象として識別可能な表示態様(例えば一重枠WK3m)で表示し、かつ指定(選択)された単一のオブジェクトOB3の位置情報を個々のフレーム画像と対応付けてメモリ59に保存する。バックエンドサーバ50は、監視映像の再生に伴って指定(選択)された単一のオブジェクトOB3がフレーム画像内に現れなくなるまで、監視映像の再生と指定(選択)された単一のオブジェクトOB3の位置情報のメモリ59への保存とを継続する。
これにより、監視映像解析システム5は、カメラにより撮像された監視映像に現れる個々の人物に対し、マスク処理の対象としての追加をフレキシブルに設定でき、かつ監視映像中における個々の人物のプライバシー保護を支援できる。また、監視映像解析システム5は、一時停止中のフレーム画像に現れるオブジェクト(例えば人物)を長押し操作によって指定(選択)し続けることで監視映像の再生を開始できるので、長押し操作により指定(選択)されたオブジェクト(例えば人物の顔)がフレーム画像内に現れなくなるまでオブジェクトの移動状況をユーザに明確に目視させることができ、マスク処理の対象として追加していいかどうかを適正に判断させることができる。
また、バックエンドサーバ50は、第1フレーム画像に現れる単一のオブジェクト(例えばオブジェクトOB3)の指定位置から、監視映像の再生の開始に伴って指定(選択)された単一のオブジェクトが移動した位置まで、指定位置(選択位置)における指定状態が継続したまま移動する(例えば単一のオブジェクトOB3が指定された位置からフレーム画像の繰り下げによって移動した単一のオブジェクトOB3の位置までのドラッグ操作がなされる)まで、監視映像の再生を一時中断する。これにより、監視映像解析システム5は、フレーム画像の繰り下げによって移動した単一のオブジェクトの位置まで素早くかつ正確にドラッグ操作できるので、その単一のオブジェクトをマスク処理の対象として追加するための処理を時間的に無駄なく早期に行える。
また、バックエンドサーバ50は、監視映像の再生中に、監視映像を構成する個々のフレーム画像中の指定(選択)された単一のオブジェクト(例えばオブジェクトOB3)に対してマスク処理を施してモニタ52に表示する。これにより、バックエンドサーバ50のユーザは、監視映像の再生中に、自己の選択した単一のオブジェクトOB3がマスク処理された状況を具体的に確認でき、その単一のオブジェクトOB3をマスク処理の対象として含めるべきか否かを適正に判断できる。
(第3の実施形態の変形例)
第3の実施形態では、撮像映像の中からユーザがマスク処理の対象として追加する単一のオブジェクトを指定(選択)する例について説明した。第3の実施形態の変形例では、第3の実施形態とは逆で、予め全てのフレーム画像全域がマスク処理された撮像映像の中からユーザがマスク処理の対象外として追加する単一のオブジェクトを指定(選択)する例について説明する。第3の実施形態の変形例の監視映像解析システム5のバックエンドサーバ50の内部構成は第1の実施形態の監視映像解析システム5のバックエンドサーバ50の内部構成と同一であり、同一の符号を参照して説明する。
図15は、第3の実施形態の変形例のバックエンドサーバ50によりマスク処理の対象外としてのオブジェクトが追加される時のフレーム画像の表示遷移例を示す図である。例えばウェアラブルカメラ10により撮像された監視映像のデータは、データ入力部53を介してバックエンドサーバ50にインポートされ、デマルチプレクサ554によりMP4形式のデータから例えばH.264形式の圧縮済みデータに展開される。H.264形式の圧縮済みデータは、デコーダ552によりYUV又はRGB形式の非圧縮データに変換され、ワークメモリ等のRAM(不図示)に読み出される。ここで、監視映像を構成する全てのフレーム画像全域のデータに対し、バックエンドサーバ50のマスキング部555により、マスク処理が施される。マスク処理が施された監視映像のデータに対し、バックエンドサーバ50のユーザ操作により再生操作がなされると、再生制御部56により再生されてモニタ52に表示される。なお、バックエンドサーバ50のユーザ操作により再生操作がなされる監視映像のデータは、第1の実施形態〜第3の実施形態においてマスク処理の対象として1つ以上のオブジェクトが設定された監視映像のデータでもよい。
監視映像を構成する全てのフレーム画像に対して予めマスク処理が施された監視映像のデータの再生が開始した後、バックエンドサーバ50のユーザ操作により一時停止操作がなされたとする。その後、バックエンドサーバ50のユーザ操作(例えばユーザの指FGによるタップ)により、監視映像のデータを構成する複数のフレーム画像のうち先頭のフレーム画像FR31(第1フレーム画像)に対し、ユーザがマスク処理の対象外として追加したい(言い換えると、ユーザがマスク処理の対象から削除したい)単一のオブジェクトOB7が選択される。オブジェクトOB7は人物である。この選択により、マスク制御部58により、単一のオブジェクトはマスク処理の対象として設定される。
トラッキング部57は、単一のオブジェクトを識別可能な表示態様の一例として、オブジェクトOB7の周囲に外枠(例えば一重枠WK7)をフレーム画像FR31上に重畳してモニタ52に表示する。また、ユーザ操作によりオブジェクトOB7が選択された状態(つまり、長押し状態)が継続されると、第2の実施形態におけるトラッキングスタートボタンIC1が押下された時と同様に、トラッキング部57は、一時停止中であった監視映像の再生(言い換えると、フレーム画像FR31から順に後続するフレーム画像に繰り下げて表示すること)の再開を再生制御部56に指示する。これにより、再生制御部56は、監視映像の再生を再開できる。つまり、再生制御部56により、監視映像を構成するフレーム画像の繰り下げが自動的に順次行われてモニタ52に表示されていく。
監視映像の再生再開により、オブジェクトOB7は移動する。ユーザ操作(例えばユーザの指FGのドラッグ操作)により、一重枠WK7が単一のオブジェクトOB7を囲むように移動される(フレーム画像FR32参照)。トラッキング部57は、ユーザ操作(例えばユーザの指FGのドラッグ操作)によって指定(選択)された単一のオブジェクトOB7を識別可能な表示態様の一例として、オブジェクトOB7の周囲に外枠(例えば一重枠WK7)をフレーム画像FR32上に重畳してモニタ52に表示する。更に、マスク制御部58は、オブジェクトOB7をマスク処理の対象外として追加する(言い換えると、マスク処理の対象から削除する)として、オブジェクトOB7に対して施したマスク処理を解除する処理を行う。これにより、フレーム画像FR32では、オブジェクトOB7はオブジェクトOB7nとなり、鮮明な人物の画像として得られる。
図16は、図15に対応するオブジェクトの追加時のバックエンドサーバ50の動作手順の一例を詳細に説明するフローチャートである。図16の説明の前提として、監視映像を構成する全てのフレーム画像全域のデータに対し、バックエンドサーバ50のマスキング部555により、マスク処理が施される。マスク処理が施された監視映像のデータに対し、バックエンドサーバ50のユーザ操作により再生操作がなされると、再生制御部56により再生されてモニタ52に表示される。
図16において、再生が開始した後、バックエンドサーバ50のユーザ操作により一時停止操作がなされたとする。一時停止中に、監視映像を構成する複数のフレーム画像のうち先頭のフレーム画像(例えばフレーム画像FR31)が表示された画面上にて、トラッキング部57は、ユーザ操作により長押し操作を検知したとする(S41)。この長押し操作により、ユーザがマスク処理の対象外として追加したい(言い換えると、マスク処理の対象から削除する)単一のオブジェクトOB7が選択される。
トラッキング部57は、長押し状態で指定(選択)された単一のオブジェクトを識別可能な表示態様の一例として、オブジェクト(例えばオブジェクトOB7)の周囲に外枠(例えば一重枠WK7)をフレーム画像FR31上に重畳してモニタ52に表示(描画)する(S42)。トラッキング部57は、外枠のフレーム画像における位置を示す座標をフレーム画像の識別情報と対応付けたトラッキング情報59aとしてメモリ59に保存する(S14)。また、トラッキング部57は、そのオブジェクトに対するマスク処理フラグをオフにしてトラッキング情報59aを更新する(S15A)。なお、ステップS15Aの処理は、マスク制御部58により行われてもよい。第3の実施形態の変形例では、第3の実施形態の「マスク処理フラグをオン」を「マスク処理除外フラグをオン」と読み替え、「マスク処理フラグをオフ」を「マスク処理除外フラグをオフ」と読み替えることができる。
ユーザ操作によりオブジェクトOB7が長押しされた状態が継続されると、トラッキング部57は、一時停止中であった監視映像の再生(言い換えると、フレーム画像FR31から順に後続するフレーム画像に繰り下げて表示すること)の再開を再生制御部56に指示する。これにより、再生制御部56は、監視映像の再生を再開できる。つまり、再生制御部56により、監視映像を構成するマスク処理済みのフレーム画像の繰り下げが自動的に順次行われてモニタ52に表示されていく(S17A)。マスク処理済みのフレーム画像の繰り下げによって移動した単一のオブジェクトOB7を囲むように、ユーザ操作(例えばユーザの指FGのドラッグ操作)により外枠(例えば一重枠WK7)が移動される。トラッキング部57は、ユーザ操作(例えばユーザの指FGのドラッグ操作)を検知する(S43)。トラッキング部57は、マスク処理済みのフレーム画像の繰り下げによって移動した単一のオブジェクトOB7を囲むように一重枠WK7がドラッグ操作によって移動されるまでの間、マスク処理済みのフレーム画像の繰り下げ(再生)を一時的に中断する(S44)。
トラッキング部57は、ステップS44の後、ステップS43において検知されるドラッグ操作の開始時における外枠(例えば一重枠WK7)のフレーム画像における位置を示す座標をフレーム画像の識別情報と対応付けたトラッキング情報59aとしてメモリ59に保存する(S45)。また、トラッキング部57は、そのオブジェクトに対するマスク処理フラグをオフにしてトラッキング情報59aを更新する(S46A)。なお、ステップS46Aの処理は、マスク制御部58により行われてもよい。
トラッキング部57は、ステップS46Aの後、ユーザ操作(つまり、ドラッグ操作からホールド操作)を検知すると(S47)、ステップS44において一旦停止していたマスク処理済みのフレーム画像の繰り下げ(再生)の再開を再生制御部56に指示する。これにより、再生制御部56は、監視映像の再生を再開できる。つまり、再生制御部56により、監視映像を構成するマスク処理済みのフレーム画像の繰り下げが自動的に順次行われてモニタ52に表示されていく(S48A)。ステップS48Aの後、ユーザ操作(つまり、マウスアップ操作)がトラッキング部57により検知された場合には(S49、YES)、図16に示すバックエンドサーバ50の処理は終了する。一方、ユーザ操作(つまり、マウスアップ操作)がトラッキング部57により検知されない場合には(S49、NO)、バックエンドサーバ50の処理はステップS43に戻り、ユーザ操作(つまり、マウスアップ操作)がトラッキング部57により検知されるまで、ステップS43〜ステップS49の処理が繰り返される。
以上により、第3の実施形態の変形例の監視映像解析システム5では、ウェアラブルカメラ10や車載カメラ31等のカメラは、インシデント(例えば事件若しくは事故)に関する監視映像を撮像する。バックエンドサーバ50は、カメラにより撮像された監視映像を構成する個々のフレーム画像全域にマスク処理を施してモニタ52に表示して再生する。バックエンドサーバ50は、監視映像の一時停止中に、監視映像を構成する複数のフレーム画像のうちの第1フレーム画像(例えばフレーム画像FR31)に現れる単一のオブジェクト(例えばオブジェクトOB7)の指定操作(選択操作)に応じて、指定(選択)された単一のオブジェクトOB7をマスク処理の対象外として識別可能な表示態様で表示し、指定(選択)された単一のオブジェクトOB7の位置情報を第1フレーム画像と対応付けてメモリ59に保存し、かつ監視映像の再生を開始する。バックエンドサーバ50は、監視映像の再生に伴って第1フレーム画像から後続するフレーム画像毎に、指定(選択)された単一のオブジェクトの指定操作(選択操作)により、指定(選択)された単一のオブジェクトをマスク処理の対象外として識別可能な表示態様で表示し、かつ指定(選択)された単一のオブジェクトの位置情報を個々のフレーム画像と対応付けてメモリ59に保存する。バックエンドサーバ50は、監視映像の再生に伴って指定(選択)された単一のオブジェクトがフレーム画像内に現れなくなるまで、監視映像の再生と指定(選択)された単一のオブジェクトの位置情報のメモリ59への保存とを継続する。
これにより、監視映像解析システム5は、カメラにより撮像された監視映像に対してマスク処理が施されたフレーム画像に現れる人物を明らかにしておく必要がある場合に、マスク処理の対象外としての追加をフレキシブルに設定でき、かつ監視映像中における注目人物の所作を明らかにできて映像解析を支援できる。また、監視映像解析システム5は、一時停止中のフレーム画像に現れるオブジェクト(例えば人物)を長押し操作によって指定(選択)し続けることで監視映像の再生を開始できるので、長押し操作により指定(選択)されたオブジェクト(例えば人物)がフレーム画像内に現れなくなるまでオブジェクトの移動状況をユーザに明確に目視させることができ、マスク処理の対象外として追加していいかどうかを適正に判断させることができる。
また、バックエンドサーバ50は、第1フレーム画像に現れる単一のオブジェクト(例えばオブジェクトOB7)の指定位置から、監視映像の再生の開始に伴って指定(選択)された単一のオブジェクトが移動した位置まで、指定位置(選択位置)における指定状態が継続したまま移動する(例えば単一のオブジェクトOB7が指定された位置からフレーム画像の繰り下げによって移動した単一のオブジェクトOB3の位置までのドラッグ操作がなされる)まで、監視映像の再生を一時中断する。これにより、監視映像解析システム5は、フレーム画像の繰り下げによって移動した単一のオブジェクトの位置まで素早くかつ正確にドラッグ操作できるので、その単一のオブジェクトをマスク処理の対象として追加するための処理を時間的に無駄なく早期に行える。
また、バックエンドサーバ50は、監視映像の再生中に、監視映像を構成する個々のフレーム画像中の指定(選択)された単一のオブジェクトに対して非マスク処理を施してモニタ52に表示する。これにより、バックエンドサーバ50のユーザは、予めマスク処理が施された監視映像の再生中に、自己の選択した単一のオブジェクトOB7が非マスク処理された状況(言い換えると、単一のオブジェクトOB7が鮮明な画像となった状況)を具体的に確認でき、その単一のオブジェクトOB7をマスク処理の対象外として含めるべきか否かを適正に判断できる。
以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上記実施形態における各構成要素を任意に組み合わせてもよい。
例えば、上述第1の実施形態では、警察官によってマスク処理が不要であると判別されたオブジェクトを囲む枠は、点線の枠で示され、自動抽出されたオブジェクトを囲む実線の枠とは異なる表示態様であった。これらの表示態様は、一例であり、種々設定可能である。例えば、太い点線の枠や細い点線の枠、一点鎖線枠や二点鎖線枠、赤枠や青枠等のカラー枠、等が設定されてもよい。また、ユーザによって新たに追加されたマスク処理の候補となるオブジェクトを囲む枠も、自動抽出されたオブジェクトを囲む枠とは異なる表示態様で表示してもよい。
また、上述第1の実施形態では、バックエンドサーバが撮像された映像の中から人物の顔を認識する顔認識機能を有する場合を示したが、ウェアラブルカメラが顔認識機能を有してもよく、映像データファイルに顔認識された情報を付加してもよい。
また、上述第1の実施形態では、オブジェクトが複数であり、複数のオブジェクトの少なくとも1人が映っている映像をトラッキングする場合を示したが、全員が映っている映像をトラッキングしてもよいし、ユーザにより選択された特定のオブジェクトが少なくとも映っている映像をトラッキングしてもよい。
また、上述第1の実施形態では、オブジェクトが顔である場合を示したが、顔以外にも、人物の容姿、看板、車両、ナンバープレート等であってもよい。この場合、バックエンドサーバ50は、フレーム上において、これらのオブジェクトを認識する機能を有する。
また、上述第1の実施形態では、オブジェクトを囲む枠の大きさは、顔の大きさに合わせて変更されたが、一定の大きさであってもよく、処理の負荷を軽減できる。この場合、複数のオブジェクトが近接していると、これらの枠は一部重複して表示されることもある。
また、上述第1の実施形態では、警察官が装着あるいは所持するウェアラブルカメラで撮像する場合を示したが、パトカーに搭載された車載カメラシステム(ICV:In Car Videoシステム)で撮像する場合も、本発明は同様に適用可能である。