JP6817602B2

JP6817602B2 - 監視映像解析システム、監視映像解析方法及び監視映像解析プログラム

Info

Publication number: JP6817602B2
Application number: JP2016199561A
Authority: JP
Inventors: 若子　武士; 武士若子; 蓬田　康雄; 康雄蓬田; 陽平小出
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-10-07
Filing date: 2016-10-07
Publication date: 2021-01-20
Anticipated expiration: 2036-10-07
Also published as: JP2018061214A; US20180101723A1; US10984230B2

Description

本発明は、撮像装置により撮像された監視映像を解析する監視映像解析システム、監視映像解析方法及び監視映像解析プログラムに関する。

近年、例えば警察官にウェラブルカメラを装着させて、巡視（巡回）中に撮像された映像をウェアラブルカメラ内のメモリに記録する運用が着実に推進されている。特に、米国においては、単独で巡視することがある警察官により引き起こされた事件発生により、ウェアラブルカメラの装着率が急激に増加している。ウェアラブルカメラにより撮像された映像に被疑者が映っている場合、その映像は、裁判所又は検察庁に提出され、被疑者の行動を把握させるための証拠として用いられることがある。

証拠として提出される映像に一般市民が映っている場合、プライバシー保護が守れないことから、米国では、ウェアラブルカメラで撮像された映像に、一般市民が映らないように運用することが義務付けられている。

このため、警察官は、ウェアラブルカメラで撮像した映像の全フレームに対し、一般市民が映っていない否かを目視で確認し、映っている場合には、専用の画像処理ソフトを使ってその部分にマスク処理（例えばモザイク処理）を施している。

また、別の専用画像処理ソフトでは、ユーザが予めモザイク処理をかけたいオブジェクト（例えば、人物の顔）を選択し、映像の全てのフレームに対し、選択されたオブジェクトのモザイク処理を自動で施すことが行われる。

また、画像にマスク処理を施す先行技術として、マスク無効領域内に位置する動体が予め設定された移動パターンと一致する場合に、その動体の画像領域をマスク処理の対象外とし、予め設定された移動パターンと一致しない場合に、その動体の画像領域をマスク処理の対象とする処理が行われることが提案されている（例えば特許文献１参照）。

特開２０１６−１５８１５６号公報

しかしながら、警察官がウェアラブルカメラで記録した映像に対し、全てのフレームを１枚ずつ確認してモザイク処理を施すことは効率的でなく、警察官であるユーザに長時間の作業を強いていた。

また、上述した専用の画像処理ソフトを用いて自動でモザイク処理を施す場合においても、ユーザは予め必要なオブジェクトを全て特定して選択する必要があった。例えば街中等で撮像された映像には、多くの人物の顔の数が含まれているため、画像処理ソフトを用いてひとつずつ選択する作業に長時間かかっていた。また、多くの人物の顔の数が含まれている場合には、自動で処理される場合においてもオブジェクトを誤認識し易く、誤認識によりマスク処理の対象とはしたくない箇所にもモザイク処理が施されることがあった。このような場合、ユーザがこの箇所のモザイク処理を外さなくてはならず、その作業にも時間がかかっていた。不要なモザイク処理を外さない場合、映像の視認性を劣化させるばかりでなく、裁判所に映像が提出された場合、映像の証拠能力を下げることに繋がった。

また、特許文献１に記載の構成を用いても、上述した撮像映像データのどこにマスク無効領域を設定するか、また、各人物がどのような移動パターンで動くかは、撮像映像データ毎に異なり予め予測することができない。このため、撮像映像データに現れる複数の人物に対してフレキシブルにマスク処理を施すことは難しいという課題が残った。

本発明は、上述した従来の事情に鑑みて案出され、映像に現れるオブジェクトをフレキシブルにマスク処理してそのオブジェクトのプライバシー保護を遵守しつつ、マスク処理の作業負荷軽減を支援する監視映像解析システム、監視映像解析方法及び監視映像解析プログラムを提供することを目的とする。

本発明は、カメラと、前記カメラで撮像された映像を入力するサーバと、を備え、前記サーバは、前記入力された映像を構成するそれぞれのフレーム画像に現れる少なくとも１つのオブジェクトを前記フレーム画像毎に検知し、検知された少なくとも１つのオブジェクトの前記フレーム画像における位置情報を前記フレーム画像と対応づけてトラッキング情報として登録し、前記フレーム画像をモニタに表示させるとともに、前記フレーム画像内において検知された少なくとも１つのオブジェクトを囲う枠をモニタに表示させ、前記モニタからのユーザ操作により指定されたオブジェクトについては、全フレーム画像における位置情報をトラッキング情報から削除し、他の前記フレーム画像をモニタに表示させる際に前記枠を表示させない、監視映像解析システムを提供する。

また、本発明は、カメラと、前記カメラで撮像された映像を入力するサーバと、を備える監視映像解析システムにおける監視映像解析方法であって、前記サーバは、前記カメラで撮像された映像を入力し、前記入力された映像を構成するそれぞれのフレーム画像に現れる少なくとも１つのオブジェクトを前記フレーム画像毎に検知し、検知された少なくとも１つのオブジェクトの前記フレーム画像における位置情報を前記フレーム画像と対応づけてトラッキング情報として登録し、前記フレーム画像をモニタに表示させるとともに、前記フレーム画像内において検知された少なくとも１つのオブジェクトを囲う枠をモニタに表示させ、前記モニタからのユーザ操作により指定されたオブジェクトについては、全フレーム画像における位置情報をトラッキング情報から削除し、他の前記フレーム画像をモニタに表示させる際に前記枠を表示させない、監視映像解析方法を提供する。

本発明によれば、映像に現れるオブジェクトをフレキシブルにマスク処理してそのオブジェクトのプライバシー保護を遵守しつつ、マスク処理の作業負荷軽減を支援できる。

各実施形態の監視映像解析システムの概要の一例を示す説明図各実施形態のバックエンドサーバの内部構成の一例を詳細に示すブロック図第１の実施形態のバックエンドサーバがインポートしたウェアラブルカメラの監視映像を構成するフレームの一例を示す図図３のフレームに対し、本実施形態のバックエンドサーバによりオブジェクトが自動抽出された後のフレームの一例を示す図第１の実施形態のバックエンドサーバにおける前処理、中処理、後処理の各動作手順の一例を詳細に説明するフローチャート第１の実施形態のバックエンドサーバにおける前処理のステップＳ２の動作手順の詳細を説明するフローチャート図４のフレームに対し、ユーザ操作に基づいて本実施形態のバックエンドサーバにより複数のオブジェクトがマスク処理の対象外として指定された後のフレームの一例を示す図第２の実施形態のバックエンドサーバによりマスク処理の対象としてのオブジェクトが追加される時のフレーム画像の表示遷移例を示す図第２の実施形態のバックエンドサーバによりマスク処理の対象としてのオブジェクトが一時削除される時のフレーム画像の表示遷移例を示す図第２の実施形態のバックエンドサーバによりマスク処理の対象としてのオブジェクトが完全削除される時のフレーム画像の表示遷移例を示す図図８に対応するオブジェクトの追加時のバックエンドサーバの動作手順の一例を詳細に説明するフローチャート図９に対応するオブジェクトの一時削除時のバックエンドサーバの動作手順の一例を詳細に説明するフローチャート図１０に対応するオブジェクトの完全削除時のバックエンドサーバの動作手順の一例を詳細に説明するフローチャート第３の実施形態のバックエンドサーバによりマスク処理の対象としてのオブジェクトが追加される時のフレーム画像の表示遷移例を示す図図１３に対応するオブジェクトの追加時のバックエンドサーバの動作手順の一例を詳細に説明するフローチャート第３の実施形態の変形例のバックエンドサーバによりマスク処理の対象外としてのオブジェクトが追加される時のフレーム画像の表示遷移例を示す図図１５に対応するオブジェクトの追加時のバックエンドサーバの動作手順の一例を詳細に説明するフローチャート

（第１の実施形態の内容に至る経緯）
警察官がウェアラブルカメラで記録した映像に対し、全てのフレームを１枚ずつ確認してモザイク処理を施すことは効率的でなく、警察官であるユーザに長時間の作業を強いていた。

また、上述した専用の画像処理ソフトを用いて自動でモザイク処理を施す場合においても、ユーザは予め必要なオブジェクトを全て特定して選択する必要があった。例えば街中等で撮像された映像には、多くの人物の顔の数が含まれており、画像処理ソフトを用いてひとつずつ選択する作業に長時間かかっていた。また、多くの人物の顔の数が含まれている場合には、自動で処理される場合においてもオブジェクトを誤認識し易く、誤認識によりマスク処理の対象とはしたくない箇所にもモザイク処理が施されることがあった。このような場合、ユーザがこの箇所のモザイク処理を外さなくてはならず、その作業にも時間がかかっていた。不要なモザイク処理を外さない場合、映像の視認性を劣化させるばかりでなく、裁判所に映像が提出された場合、映像の証拠能力を下げることに繋がった。

そこで、以下の第１の実施形態では、映像に現れるオブジェクトをフレキシブルにマスク処理してそのオブジェクトのプライバシー保護を遵守しつつ、マスク処理の作業負荷軽減を支援する監視映像解析システムの例を説明する。

以下、適宜図面を参照しながら、本発明に係る監視映像解析システム及び監視映像解析方法を具体的に開示した各実施形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。また、以下の説明において、映像は、複数のフレーム画像（フレームと略記することもある）が時系列に並べられて構成されるものとして説明する。

（各実施形態の共通事項）
図１は、各実施形態の監視映像解析システム５の概要の一例を示す図である。監視映像解析システム５は、パトカー（つまり、パトロールカーの略称であるパトカー７）に搭載された車載カメラシステム（ＩＣＶ：In Car Videoシステム）３０、警察官３の制服に装着又は保持されたウェアラブルカメラ（ＢＷＣ：Body-Worn Camera）１０、及び警察署４内に設置された署内システム８を含む構成である。

車載カメラシステム３０は、１つ又は複数の車載カメラ３１、車載ＰＣ（Personal Computer）３２及び車載レコーダ３３を有し、パトカー７で走行中に遭遇する事件等の撮像画像に基づく監視映像を撮像して記録する。１つ又は複数の車載カメラ３１は、例えばパトカー７の前方を撮像するように設置されたカメラ、パトカーの左側、右側、後方を撮像するように設置されたそれぞれのカメラのうち、１つ又は複数を含む。車載ＰＣ３２は、警察官３が操作する指示に従い、車載カメラ３１及び車載レコーダ３３の動作を制御する。車載レコーダ３３は、複数の車載カメラ３１でそれぞれ撮像された監視映像のデータを時系列に記録する。

車載カメラシステム３０は、署内システム８内の無線ＬＡＮアクセスポイント６３Ｐを介して、署内システム８内のバックエンドサーバ（ＢＥＳ：Back End Server）５０と無線接続される。車載カメラシステム３０は、車載レコーダ３３に記録された監視映像のデータの中から特定の監視映像データを選択して、無線ＬＡＮアクセスポイント６３Ｐを介してバックエンドサーバ５０に送信可能である。また、車載カメラシステム３０は、ウェアラブルカメラ１０と通信可能に接続され、ウェアラブルカメラ１０で撮像された監視映像のデータ及び収音された音声のデータを車載レコーダ３３に記録する。以下の説明において、音声のデータには、例えばパトロール中（巡視中）や事件若しくは事故の現場に被疑者、犯人が所持している拳銃が発砲した時の銃声も含まれるとする。

ウェアラブルカメラ１０は、ユーザである警察官３の制服に装着又は保持され、警察官の前方の雰囲気を被写体として撮像し、撮像された監視映像のデータ及び収音された音声のデータを車載カメラシステム３０に送信する。この場合、ウェアラブルカメラ１０は、撮像したシーンの映像を、複数の映像のデータファイル（映像データファイル）に分割して、メモリに記憶する。つまり、ウェアラブルカメラ１０は、一定時間毎に撮像して複数の映像データファイルを時系列に記録する。本実施形態では、映像のデータファイルには、インターネット等の動画配信に適したＭＰ４（Mpeg4）のファイル形式が用いられる。なお、ファイル形式としては、ＭＰ４に限らず、ＡＶＩ(Audio Video Interleave)，ＱｕｉｃｋＴｉｍｅ，ＷＭＶ(Windows Media Video)，ＦＬＶ(Flash Video)等であってもよい。

以下、ウェアラブルカメラ１０や車載カメラ３１の撮像対象となる被写体には、単に人物だけではなく、事件若しくは事故の現場の情景、現場の近くに群がる群衆（いわゆる、野次馬）、更に、撮像位置の周囲の雰囲気も含まれるとする。また、警察官３は、指令システム９０からの指令を受信する無線通信端末の一例としての警察無線端末３５を所持する。通常、警察官３は、パトロール中や事件発生時に現場に急行する場合など、警察署外での活動の際に、警察無線端末３５を現場に携行している。また、警察官３は、ウェアラブルカメラ１０と通信可能な通信端末の一例としてのスマートフォン４０を所持する場合もある。スマートフォン４０は、電話機能及び無線通信機能を有し、例えば警察署４からの緊急連絡又は警察署への緊急連絡時に使用され、汎用的に使用されている携帯端末の一例として挙げられる。

ウェアラブルカメラ１０は、車載カメラシステム３０を介して、直接に、或いはスマートフォン４０又は無線ＬＡＮ（Local Area Network）アクセスポイント４５を介して、バックエンドサーバ５０と接続されることで、監視映像のデータ及び音声のデータをバックエンドサーバ５０に送信可能である。スマートフォン４０は、モバイル通信ネットワーク又はインターネット網を経由してバックエンドサーバ５０と接続される。無線ＬＡＮアクセスポイント４５は、有線又は無線のネットワーク（インターネット網など）を経由してバックエンドサーバ５０と接続される。また、ウェアラブルカメラ１０は、手動で後述する集合充電台６８に取り付けられることで、映像データ及び音声データをバックエンドサーバ５０に送信可能である。

署内システム８は、警察署４の内部に設置された、バックエンドサーバ５０、バックエンドストリーミングサーバ（ＢＳＳ：Back End Streaming Server）６５、バックエンドクライアント（ＢＥＣ：Back End Client）７０、無線ＬＡＮアクセスポイント６３、集合充電台６８、及び指令システム９０を含む構成である。

バックエンドサーバ５０は、コンピュータ及びストレージを有して構成され、事件の証拠映像（監視映像）のデータを管理する。バックエンドサーバ５０は、例えばウェアラブルカメラ１０や車載カメラ３１により撮像された監視映像を構成する画像フレーム中の顔を認識する顔認識機能や、ウェアラブルカメラ１０や車載カメラシステム３０から送信された切出しデータ（後述参照）に含まれる音声データを認識する音声認識機能を有する。また、バックエンドサーバ５０は、パトロール又は事件若しくは事故に関する既定の音声のデータ（つまり、パトロール中や事件若しくは事故の現場において発生する可能性の高い音声のデータ）が登録された音声データベース（不図示）を有する。パトロール又は事件に関する既定の音声のデータは、例えば被疑者や警察官が発砲した時の銃声、パトロールや事件の際に身の危険を感じた時に発するように予め指導等された警察官が発した音声、警察官が地面等に倒れた時の音（例えば「ドサッ」）等の音声データが含まれる。バックエンドサーバ５０は、車載カメラシステム３０或いはウェアラブルカメラ１０から送信される切出しデータ（後述参照）に含まれる音声データに対して音声認識を行い、音声認識により得られた音声と音声データベースに登録された音声とを照合する。なお、音声データベースを記憶するストレージは、バックエンドサーバ５０がアクセス可能である限り、警察署４の内部に設置されてもよいし、警察署４の外部に設置されてよい。

バックエンドストリーミングサーバ６０は、ウェアラブルカメラ１０からストリーミング配信される映像データを受信し、バックエンドサーバ５０に転送する。また、バックエンドストリーミングサーバ６０は、車載カメラシステム３０からストリーミング配信される映像データを受信し、バックエンドサーバ５０に転送してもよい。

バックエンドクライアント７０は、例えばＰＣにより構成され、バックエンドサーバ５０の不審人物データベース（不図示）にアクセスし、犯罪者等の事件に関する情報を検索してその検索結果をディスプレイデバイス（例えばバックエンドクライアント７０に予め備え付けのＬＣＤ（Liquid Crystal Display））上に表示可能なブラウザ又は専用アプリケーションを有する。不審人物データベースには、例えば指名手配中の人物や過去の犯罪者等が事件を識別する情報（例えば事件番号）に対応付けて予め登録されている。また、バックエンドクライアント７０は、バックエンドサーバ５０の音声データベースにアクセスし、犯罪者等の事件に関する情報を検索可能である。なお、バックエンドクライアント７０は、警察署４の内部に設置されるだけでなく、警察署４の外部に設置されたものでもよい。また、バックエンドクライアント７０は、シンクライアントＰＣ或いはリッチクライアントＰＣのいずれであってもよい。

無線ＬＡＮアクセスポイント６３は、車載カメラシステム３０及びウェアラブルカメラ１０と無線ＬＡＮ（Ｗ−ＬＡＮ）によって無線接続し、車載カメラシステム３０に記録された監視映像のデータ及び音声のデータと、ウェアラブルカメラ１０に記録された監視映像のデータ及び音声のデータをバックエンドサーバ５０に転送する。

集合充電台６８は、複数の警察官３がそれぞれ装着又は所持するウェアラブルカメラ１０を装着可能であり、装着された個々のウェアラブルカメラ１０の電源を充電するとともに、ウェアラブルカメラ１０との間で有線通信を行い、ウェアラブルカメラ１０に記憶された監視映像のデータ及び音声のデータをバックエンドサーバ５０に送信する機能を有する。また、集合充電台６８は、ＵＳＢ（Universal Serial Bus）ケーブルを介してバックエンドサーバ５０に有線接続される。

指令システム９０は、無線通信装置の一例としての警察無線基地局装置（不図示）を有し、バックエンドサーバ５０と接続され、警察署４が管轄する各所に指令を送信する。警察署４には、各警察官に指令を伝達するための警察無線システムが設置されている。指令システム９０は、事件が発生した場合に、例えばバックエンドサーバ５０からの指示に従い、事件の現場への派遣対象となる警察官が乗車するパトカー７又は警察官が所持する警察無線端末３５に対し、現場急行や、現場確保、被疑者確保、現場に到着した警察官の応援等の各種の出動指令を無線で送信する。なお、指令システム９０は、警察官が入力操作する指示に従い、事件の現場に派遣する警察官に指令を出してもよい。また、指令システム９０は、バックエンドサーバ５０と直接に接続されていなくてもよく、事件が発生した場合に、バックエンドサーバ５０とは独立して、警察無線基地局装置から、事件の現場への派遣対象となるパトカー７又は警察無線端末３５に対し、上述各種の出動指令を無線で送信してもよい。

監視映像解析システム５において、車載カメラシステム３０を使用する場合、ウェアラブルカメラ１０は、近距離無線通信、又はＵＳＢ等の信号ケーブルを用いた有線通信によって、車載カメラシステム３０とデータ転送可能に接続される。ウェアラブルカメラ１０で撮像された監視映像のデータ及び収音された音声のデータは、車載カメラシステム３０に転送され、車載カメラシステム３０で再生或いは録画、録音され、また、バックエンドサーバ５０に送信される。

車載カメラシステム３０は、車載カメラ３１で撮像された監視映像のデータ及びウェアラブルカメラ１０で撮像された監視映像のデータ及び音声のデータを車載レコーダ３３に記録し、ウェアラブルカメラ１０により収音された音声の区間を切り出し、切り出された音声を含む切出しデータを、無線ＬＡＮを経由してバックエンドサーバ５０に送信する。音声区間の切り出しは、突発的に大音量の音声が現れた場合、その音声を含むように行われる。なお、音声区間の切り出しは、一定の周期で一定区間サンプリングするように行われてもよい。この場合、突発的な音声が現れていない区間では、周囲の小さな音量の音声だけが切り出される。

また、監視映像解析システム５において、ウェアラブルカメラ１０を直接ネットワークに接続して使用する場合、ウェアラブルカメラ１０は、無線ＬＡＮアクセスポイント４５又はスマートフォン４０とデータ転送可能に接続される。ウェアラブルカメラ１０とスマートフォン４０との接続は、例えば、ＢＬＥ（Bluetooth（登録商標） Low Energy）等の近距離無線通信、或いは、ウェアラブルカメラ１０又はスマートフォン４０の一方を無線ＬＡＮアクセスポイントとして機能させるテザリングによる無線ＬＡＮ通信が用いられる。ウェアラブルカメラ１０は、記録された映像データ及び音声データを無線ＬＡＮアクセスポイント４５又はスマートフォン４０を経由してバックエンドサーバ５０に送信する。

また、警察官３は、警察署４に戻り、集合充電台６８にウェアラブルカメラ１０を装着することで、集合充電台６８は、ウェアラブルカメラ１０を充電するとともに、ＵＳＢケーブルを介してウェアラブルカメラ１０に記録された監視映像のデータ及び音声のデータをバックエンドサーバ５０に送信可能である。

バックエンドサーバ５０は、バックエンドストリーミングサーバ６０を経由して、或いはウェアラブルカメラ１０又は車載カメラシステム３０から直接、監視映像のデータを受信すると、伝送された監視映像のデータをストレージに記録して蓄積する。また、バックエンドサーバ５０は、車載カメラシステム３０及びウェアラブルカメラ１０から切出しデータを受信すると、切出しデータに含まれる音声を認識し、パトロール又は事件に関する既定の音声データが予め登録された音声データベースに登録された音声との照合を行い、照合の結果を、車載カメラシステム３０及びウェアラブルカメラ１０に通知する。

また、警察官３がバックエンドクライアント７０を操作してバックエンドサーバ５０に対し事件に関連する音声を探索する等の処理を要求すると、バックエンドサーバ５０は、バックエンドクライアント７０からの要求に応じ、音声データベースに登録された音声の照会等を行う。

（第１の実施形態）
図２は、各実施形態のバックエンドサーバ５０の内部構成の一例を詳細に示すブロック図である。サーバの一例としてのバックエンドサーバ５０は、プロセッサＰＲＣと、Ｉ／Ｏインターフェースと、ユーザインターフェース（ＵＩ）と、メモリ５９とを備える。各実施形態では、バックエンドサーバ５０上でマスキング処理を行うものとして説明するが、例えばバックエンドサーバ５０から必要な動画をバックエンドクライアント７０にエクスポートし、バックエンドクライアント７０上でマスキング処理を行っても構わない。従って、図２の内部構成は全てバックエンドクライアント７０（いわゆるＰＣ）に構成されても構わない。なお、図２において、モニタ５２は、バックエンドサーバ５０の内部に含まれる構成として示してあるが、バックエンドサーバ５０の外部に設けられても構わない。

プロセッサＰＲＣは、メディア処理部５５と、再生制御部５６と、トラッキング部５７と、マスク制御部５８とを含む。プロセッサＰＲＣは、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）又はＤＳＰ（Digital Signal Processor ）を用いて構成される。メディア処理部５５は、バックエンドサーバ５０にインポートされた監視映像（例えばウェアラブルカメラ１０又は車載カメラ３１により撮像された監視映像）のデータに対し、伸張処理や圧縮処理、動画形式の変換処理、マスク処理等を行うものであり、エンコーダ５５１、デコーダ５５２、マルチプレクサ５５３、デマルチプレクサ５５４、マスキング部５５５を含む。

デマルチプレクサ５５４は、データ入力部５３から入力される、例えばＭＰ４（mpeg4）のファイル形式の動画像データファイルを入力し、ＭＰ４の動画像データファイルからＨ．２６４のコーデック形式で保存された圧縮済み映像データとＡＡＣのコーデック形式で保存された圧縮済み音声データを取り出す。

デコーダ５５２は、Ｈ．２６４の圧縮済みデータを非圧縮データ（いわゆる、ＲＡＷデータ）に伸張する。伸張された非圧縮データは、ＹＵＶデータあるいはＲＧＢデータである。

エンコーダ５５１は、ＹＵＶデータあるいはＲＧＢデータの非圧縮データをＨ．２６４の圧縮データに圧縮する。なお、デコーダ５５２で伸張され、エンコーダ５５１で圧縮される非圧縮データとして、ＹＣｂＣｒデータやＹＰｂＰｒデータ等を用いてもよい。

マルチプレクサ５５３は、Ｈ．２６４の圧縮映像データをＡＡＣの圧縮音声データとともにＭＰ４の動画像データファイルに変換して生成する。マルチプレクサ５５３で生成された動画像データファイルは、データ出力部５４から出力され、ＳＤカード等のバックエンドサーバ５０において読取可能な記録媒体に記憶され、又は通信装置（不図示）を介してバックエンドクライアント７０等に送信される。

マスキング部５５５は、監視映像のデータを構成する個々のフレーム（フレーム画像）に現れる少なくとも１つのオブジェクトの位置（例えば座標値）を表すトラッキング情報５９ａ（メタデータ）を基に、マスク処理の一例として、モザイク処理を該当するフレーム上のオブジェクトに施す。以下の説明において、オブジェクトは、例えば人物、人物の顔、又は人物や人物の顔に近い形状やパターンを有する有形物を指す。各実施形態において、広義のマスク処理としてモザイク処理を施す場合を示したが、モザイク処理に限らず、塗り潰し処理、アニメ画像や既定の代替画像等への代替処理、渦巻き、ぼかし等の画像変形処理等を行ってもよい。つまり、マスク処理とは、監視映像のフレーム画像において、マスク処理の対象となるオブジェクトが映る該当部分の視認性を犠牲にしてでも、そのオブジェクトのプライバシー等の保護のために、マスク処理の対象となるオブジェクトが具体的に何であるかの特定が不能となるように画像処理を施すことを意味する。

再生制御部５６は、映像データファイルの再生動作を制御する。例えば後述するように、トラッキングスタートボタンＩＣ１が押下された場合には、再生制御部５６は、その旨の情報をモニタ５２（例えばタッチパネル付きのディスプレイ）から取得し、トラッキング部５７の動作と同期するように、再生対象となる監視映像のデータを構成する各フレームの繰り下げ（再生）を行う。なお、トラッキングスタートボタンＩＣ１が押下された旨の情報は、モニタ５２（例えばタッチパネル付きのディスプレイ）から再生制御部５６及びトラッキング部５７に通知される。

マスク制御部５８は、トラッキング部５７によって自動抽出されたオブジェクトに対し、ユーザ（例えばバックエンドサーバ５０を操作する警察官３）の指示に応じて、マスク処理を施すか否かのオン／オフ動作を制御する。また、マスク制御部５８は、上述したユーザの操作による指示がなくても、トラッキング部５７によって自動抽出されたオブジェクトを、デフォルトとしてマスク処理を施すと判断してよい。

トラッキング部５７は、監視映像（動画）のデータファイルに対し、再生制御部５６により順に行われるフレームを繰り下げに同期して、メモリ５９に読み出された個々のフレームに現れるオブジェクトを探索し、探索されたオブジェクトの該当フレーム内における位置を検知してトラッキング情報５９ａ（メタデータ）に追加する。この時、トラッキング部５７は、フレーム画像又はフレーム画像の識別情報と対応付けて、オブジェクトの位置情報（例えば座標情報）及びオブジェクトの通し番号（オブジェクトＩＤ）をトラッキング情報５９ａとしてメモリ５９に登録する。つまり、トラッキングとは、前述したように、監視映像（動画）のデータファイルのフレームを順に繰り下げに同期して、個々のフレーム内に現れるオブジェクトの有無とオブジェクトが同一のものであるかどうかを検知し、検知した場合にそのフレーム上のオブジェクトの位置情報及びオブジェクトの通し番号（例えばオブジェクトＩＤ）を取得する動作である。

Ｉ／Ｏインターフェースは、データ入力部５３と、データ出力部５４とを含む。データ入力部５３は、ウェアラブルカメラ１０や車載カメラ３１で撮像された映像の映像データファイルを入力（インポート）する。本実施形態では、前述したように、ＭＰ４の映像データファイルが用いられる。

データ出力部５４は、ＭＰ４の映像データファイルをＳＤカード等の記録媒体に記憶し、通信装置を介してバックエンドクライアント７０等に送信する。

ユーザインターフェース（ＵＩ）は、ユーザへの情報を表示し、また、ユーザによる入力操作を受け付けるものであり、モニタ５２と入力部５１とを含む。ＵＩは、例えばモニタ５２と入力部５１とが重ね合わされ、１つの筐体に収容されたタッチパネル付きディスプレイで構成されてもよいし、モニタ５２と入力部５１とが別々の筐体として構成されてもよい。モニタには、液晶ディスプレイ（ＬＣＤ）、有機ＥＬ、プラズマディスプレイ、ＬＥＤ等が用いられる。入力部５１には、タッチパッド、マウス、キーボード等が用いられる。

メモリ５９は、大量の映像データファイルを保存し、また、トラッキング情報５９ａ等を保持する。トラッキング情報５９ａには、映像データファイルのフレーム毎にモザイク処理を行うオブジェクトの位置とオブジェクトの通し番号（例えばオブジェクトＩＤ）が登録されている。

図３は、第１の実施形態のバックエンドサーバ５０がインポートしたウェアラブルカメラ１０の監視映像を構成するフレームＧ０１の一例を示す図である。ウェアラブルカメラ１０で撮像されたシーンの監視映像を構成する複数の映像データファイルは、インポート時に一括してデータ入力部５３に入力される。図３に示す監視映像のフレームＧ０１は、同一の撮像エリア（例えば事件若しくは事故の現場、或いは巡視中の場所。以下同様。）において撮像された監視映像の、例えば先頭フレームである。監視映像のフレームＧ０１には、街中を歩行する多くの人物が映っている。このフレームＧ０１は、バックエンドサーバ５０のトラッキング部５７の顔認識機能によるオブジェクトの自動抽出が行われる前のフレームであるので、フレームＧ０１には、オブジェクトである人物の顔を囲む枠は描画されていない。

図４は、図３のフレームＧ０１に対し、本実施形態のバックエンドサーバ５０によりオブジェクトが自動抽出された後のフレームＧ０１ａの一例を示す図である。ここでは、バックエンドサーバ５０のトラッキング部５７の顔認識機能により、オブジェクトである８個の顔ｆ１〜ｆ８が認識された。ただし、顔ｆ４は、誤って人物の顔として認識された対象（オブジェクト）である。フレームＧ０１ａには、認識された８個の顔ｆ１〜ｆ８をそれぞれ囲むように、８個の実線の枠ｗｋ１〜ｗｋ８がトラッキング部５７により実線で描画される。なお、自動抽出後のフレームＧ０１ａは、枠内の顔にマスキング部５５５によって具体的にマスク処理が施されて表示されてもよいし、枠の代わりにマスク処理だけを施して表示してもよい。これにより、ユーザは、実際にマスク処理が施された時のイメージを具体的に把握できる。このとき、マスキング部５５５は、例えばマスク制御部５８の設定情報を基に、顔だけをマスク処理してもよいし、枠全体をマスク処理してもどちらでもよい。顔だけをマスク処理するか、顔を含む枠内全体をマスク処理するかを示す設定情報は、マスク制御部５８において予め保持されている。但し、この設定情報は、ユーザ操作により、適宜変更設定されても構わないことは言うまでもない。

上述構成を有する監視映像解析システム５における画像解析動作を示す。

図５は、第１の実施形態のバックエンドサーバにおける前処理、中処理、後処理の各動作手順の一例を詳細に説明するフローチャートである。図５において、前処理はステップＳ１〜ステップＳ２の各処理を指し、中処理はステップＳ３〜ステップＳ４の各処理を指し、後処理はステップＳ５〜ステップＳ１０の各処理を指す。

図５において、データ入力部５３は、ウェアラブルカメラ１０から映像データファイルを一括で入力（インポート）する（Ｓ１）。デマルチプレクサ５５４は、データ入力部５３から入力された、ＭＰ４の動画像データファイルからＨ．２６４の圧縮済みデータを取り出す。デコーダ５５２は、Ｈ．２６４の圧縮データをＹＵＶデータあるいはＲＧＢデータの非圧縮データに伸張し、映像データとして作業用メモリ（図示なし）に一時的に読み出して展開する。

トラッキング部５７は、再生制御部５６による再生（つまり、動画データファイルを構成する複数のフレームを順に繰り下げること）に同期して、非圧縮データである映像データの各フレームに対し、マスク処理の対象となるオブジェクトを自動抽出してモニタ５２に表示する（Ｓ２）。ステップＳ２の処理の詳細については後述する、ステップＳ２ではマスク処理の対象となるオブジェクトが動画データの個々のフレームに対して自動抽出され、自動抽出されたオブジェクトの通し番号（例えばオブジェクトＩＤ）とフレームにおける位置情報（例えば座標情報）とが対応付けられたトラッキング情報５９ａが生成される。

マスク制御部５８は、入力部５１（例えばマウス、キーボード等）を介して行われるユーザ（例えばバックエンドサーバ５０の使用者である警察官）の操作を受け付け、マスク処理不要なオブジェクトを除外する指定を行う（Ｓ３）。具体的には、ステップＳ２で自動抽出された複数のオブジェクトは、初期設定にて全てマスク処理が「オン」（つまり、マスク処理する対象である）となっているため、ステップＳ３では、ユーザ操作に基づく個別のオン指定又はオフ指定が行われる。「オフ」とは、ユーザ操作によってマスク処理が不要であると指定されたオブジェクトであり、「オン」とは、同様にユーザ操作によってマスク処理が必要であると指定されたオブジェクトである。このとき、オフ指定においてマスク処理を除外するように指定された少なくとも１つのオブジェクトは、後述するステップＳ８で行われるマスク処理の対象外となる。つまり、オブジェクトが人の顔である場合には、その人の顔にモザイク処理は施されず、明らかにされる。なお、オン・オフ指定は全てのフレーム上に存在する全てのオブジェクトに対して指定する必要はなく、オブジェクトの通し番号（例えばオブジェクトＩＤ）に連動して同一のオブジェクトに対して一括してオン・オフの指定が可能である。また、動画データの各フレームでは、ステップＳ３においてマスク処理が不要と判断されたオブジェクト（例えば人物の顔）を囲む枠は、例えば実線の枠から点線の枠に切り替わって区別して表示される（図７参照）。これにより、ユーザは、マスク処理が不要なオブジェクトを、マスク処理が必要なオブジェクトと視覚的に明確に区別して認識できる。

マスク制御部５８は、例えば入力部５１を介して行われるユーザ（バックエンドサーバ５０の使用者である警察官）の操作を受け付け、マスク処理の候補となるオブジェクトを追加する（Ｓ４）。ステップＳ４の処理の詳細については後述する。動画データの各フレームでは、マスク処理の候補として追加されたオブジェクト（人物の顔）を囲む枠は、自動抽出されたオブジェクトの実線の枠とは異なる表示態様の枠で表示されてもよく、この場合には、ユーザは、マスク処理の対象として追加されたマスク処理の候補となるオブジェクトを、マスク処理が不要なオブジェクトと視覚的に明確に区別して認識できる。

マスク制御部５８は、ユーザ（例えばバックエンドサーバ５０の使用者である警察官）の操作により、マスク処理が不要なオブジェクトあるいはマスク処理の候補として追加されたオブジェクトを、全シーンの動画データのフレームにおいて確認し、マスク処理を行うオブジェクトに過不足が生じないように、オン・オフ指定を修正する（Ｓ５）。

メディア処理部５５は、ユーザ操作により不要なフレームとして指定されたフレームを一括で削除する（Ｓ６）。例えば１０秒間の動画像データがあった場合に、ユーザ操作により２秒目のフレームがイン（必要）と設定され、更に、ユーザ操作により９秒目のフレームがアウト（不要）と設定される。この場合、メディア処理部５５は、不要な動画像を構成するフレームを削除し、結果的に２秒目〜８秒目までの動画像データに圧縮する。このとき、削除されたフレームにおける各オブジェクトの位置情報であるメタデータも併せて消去される。これにより、メディア処理部５５は、ステップＳ２においてトラッキング部５７によって生成されたトラッキング情報５９ａを必要に応じて更新する。

マスキング部５５５は、ユーザ操作によるオン・オフ指定の有無に基づき、動画データファイルに対してマスク処理が指示されたか否かを判別する（Ｓ７）。マスク処理が指示されていない場合（Ｓ７、ＮＯ）、マスク処理が指示されるまでマスキング部５５５は処理待機する。なお、ステップＳ７においてマスク処理が指示されていない場合には、バックエンドサーバ５０の処理はステップＳ１に戻ってもよい。

一方、動画データファイルに対してマスク処理が指示された場合（Ｓ７、ＹＥＳ）、マスキング部５５５は、トラッキング情報５９ａを基に、トラッキング情報５９ａにおいて規定されるフレーム毎のメタデータ（位置情報）で示されるオブジェクトに対し、モザイク処理等のマスク処理を行う（Ｓ８）。これにより、一般市民等が撮像映像に映ってしまうことを回避できる。

エンコーダ５５１は、モザイク処理等のマスク処理が施された映像データ（ＹＵＶデータあるいはＲＧＢデータの非圧縮データ）をＨ．２６４の圧縮データに圧縮する。さらに、マルチプレクサ５５３は、Ｈ．２６４の圧縮データを元にＭＰ４の動画像データファイルを生成してメモリ５９に記憶する（Ｓ９）。

データ出力部５４は、マルチプレクサ５５３で生成された動画像データファイルをＳＤカード等の記録媒体に書き出す処理を行う（Ｓ１０）。この後、バックエンドサーバ５０は、本動作を終了する。

図６は、第１の実施形態のバックエンドサーバ５０における前処理のステップＳ２の動作手順の詳細を説明するフローチャートである。トラッキング部５７は、少なくとも１つの動画データファイルを読み出して、メモリ５９に展開し、オブジェクトを自動判別（自動抽出）する（Ｓ２−１）。

トラッキング部５７は、少なくとも１つの動画データファイルについて、再生制御部５６によるフレームの順次繰り下げに同期して、動画データファイルを構成する個々のフレームをメモリ５９に展開し、そのフレームにおけるオブジェクトを自動判別する（Ｓ２−２）。トラッキング部５７は、少なくとも１つの動画データファイルについて、フレーム毎に判別されたオブジェクトの位置を示す座標値をオブジェクトの通し番号（例えばオブジェクトＩＤ）とともにトラッキング情報５９ａ（メタデータ）としてメモリ５９に保存する（Ｓ２−３）。トラッキング情報５９ａは、映像データのヘッダ部にその一部として付加されてもよいし、動画像データファイルに紐付けて別ファイルとして保存されてもよい。この後、バックエンドサーバ５０は、ステップＳ３の処理に復帰する。

図７は、図４のフレームＧ０１ａに対し、ユーザ操作に基づいて本実施形態のバックエンドサーバ５０により複数のオブジェクトがマスク処理の対象外として指定された後のフレームＧ０１ｂの一例を示す図である。バックエンドサーバ５０の使用者（ユーザ）である警察官３が入力部５１（マウス等）を操作し、モニタ５２に表示されたカーソルＫｒでオブジェクトを選択すると、選択されたオブジェクトの指定が解除される。フレームＧ０１ｂでは、顔ｆ４が誤って自動抽出されたとして、このオブジェクトの指定が解除される。この場合、実線の枠ｗｋ４は点線の枠に切り替わる。また、顔ｆ３は、警察官３の主観によってマスク処理が不要であると判断されたオブジェクト（例えばプライバシー保護が必要でない公人（例えば市長）の顔、又は事件に関する被疑者等）であり、このオブジェクトの指定が解除される。この場合も、実線の枠ｗｋ３は点線の枠に切り替わる。この場合には、顔ｆ３はモザイク処理の対象とはならない。

以上により、第１の実施形態の監視映像解析システム５は、ユーザにより使用されるウェアラブルカメラ１０（カメラ）と、ウェアラブルカメラ１０で撮像された映像の映像データファイルを入力するバックエンドサーバ５０（サーバ）と、を備える。バックエンドサーバ５０は、入力された映像データファイルを構成するそれぞれのフレーム（フレーム画像）に現れる少なくとも１つのオブジェクトをフレーム毎に検知する。バックエンドサーバ５０は、検知されたフレーム毎（フレーム画像毎）の少なくとも１つのオブジェクトの位置とオブジェクトの通し番号（例えばオブジェクトＩＤ）をオブジェクト毎にトラッキング情報５９ａ（メタデータ）としてメモリ５９に保存する。バックエンドサーバ５０は、検知されたフレーム毎の少なくとも１つのオブジェクトを識別可能な実線の枠ｗｋ１（第１表示態様）でモニタ５２に表示する。

このように、モニタ５２に表示されたオブジェクトが実線の枠で識別可能となる。従って、バックエンドサーバ５０は、ユーザがマスク処理すべきオブジェクトを容易に認識してマスク処理を指示できる。これにより、映像に現れるオブジェクトをフレキシブルにマスク処理してそのオブジェクトのプライバシー保護を遵守しつつ、マスク処理の作業負荷軽減を支援することができる。

また、バックエンドサーバ５０は、モニタ５２に表示されたいずれかのオブジェクトの指定に応じて、指定されたオブジェクトを識別可能な点線の枠ｗｋ４（第２表示態様）で表示する。

このように、指定されたオブジェクトが点線の枠で表示されるので、バックエンドサーバ５０は、例えば誤って認識されたオブジェクトやプライバシー保護が不必要なオブジェクト等、ユーザ操作によってマスク処理が不要であると指定したオブジェクトを、マスク処理が必要なオブジェクトと区別できる。従って、ユーザは、マスク処理が必要なオブジェクトに対してだけ、容易にマスク処理を指示できる。また、マスク処理が不要なオブジェクトをマスク処理することによる、必要な情報の隠蔽やマスク処理の作業負荷増加を回避できる。

また、バックエンドサーバ５０は、実線の枠で表示されたフレーム毎の少なくとも１つのオブジェクトの位置情報を用いて、実線の枠で表示されたオブジェクトを判別不能にマスク処理する。

このように、バックエンドサーバ５０は、実線の枠でオブジェクトを識別可能に表示する際に保存されたオフジェクトの位置情報を用いて、オブジェクトをマスク処理するので、マスク処理を施す際、新たにオブジェクトの位置を求めなくてよい。従って、バックエンドサーバ５０は、マスク処理の高速化やマスク処理の負荷軽減を図ることができる。

また、バックエンドサーバ５０は、点線の枠ｗｋ４で表示されたオブジェクトを判別不能とするマスク処理を実行しない。

このように、バックエンドサーバ５０は、例えばユーザ操作によってマスク処理が不要であると指定されたオブジェクトを、マスク処理が必要なオブジェクトと区別することができる。また、バックエンドサーバ５０は、マスク処理が不要なオブジェクトをマスク処理することによる、必要な情報の隠蔽やマスク処理の負荷増加を回避できる。

（第２の実施形態の内容に至る経緯）
ここで、例えば街中の防犯カメラや警察官等の装着したウェアラブルカメラ等の撮像装置により撮像された監視映像に、事件や事故等のインシデントに直接関係しない一般市民等の多くの人物が映ることがある。プライバシー保護のため、これらの人物が誰であるかの特定が困難になるように１人１人の人物の顔にマスク処理等の画像処理を施す必要がある。

ところが、上述したマスク処理等の画像処理を施すにあたり、特許文献１の構成を用いても、上述した映像内のどこにマスク無効領域を設定すれば良いかや、各人物がどのような移動パターンで動くかは監視映像毎に異なり、マスク無効領域の一様な設定や移動パターンの判別はできない。このため、監視映像に現れる一般市民等の複数の人物に対し、マスク処理を施す対象としての追加や削除をフレキシブルに設定することは困難であった。

そこで、第２の実施形態では、ウェアラブルカメラ１０や車載カメラ３１等の撮像装置により撮像された監視映像に現れる個々の人物に対し、マスク処理の対象としての追加や削除をフレキシブルに設定し、監視映像中における個々の人物のプライバシー保護を支援する監視映像解析システムの例を説明する。

（第２の実施形態）
第２の実施形態の監視映像解析システム５のバックエンドサーバ５０の内部構成は第１の実施形態の監視映像解析システム５のバックエンドサーバ５０の内部構成と同一であり、同一の符号を参照して説明する。

図８は、第２の実施形態のバックエンドサーバ５０によりマスク処理の対象としてのオブジェクトが追加される時のフレーム画像の表示遷移例を示す図である。例えばウェアラブルカメラ１０により撮像された監視映像のデータに対し、バックエンドサーバ５０のユーザ操作により再生操作がなされたとする。監視映像のデータは、データ入力部５３を介してバックエンドサーバ５０にインポートされ、デマルチプレクサ５５４によりＭＰ４形式のデータから例えばＨ．２６４形式の圧縮済みデータに変換される。Ｈ．２６４形式の圧縮済みデータは、デコーダ５５２によりＹＵＶ又はＲＧＢ形式の非圧縮データに変換され、ワークメモリ等のＲＡＭ（不図示）に読み出され、再生制御部５６により再生されてモニタ５２に表示される。なお、バックエンドサーバ５０のユーザ操作により再生操作がなされる監視映像のデータは、第１の実施形態においてマスク処理の対象として１つ以上のオブジェクトが設定された監視映像のデータでもよい。

再生が開始した後、バックエンドサーバ５０のユーザ操作により一時停止操作がなされたとする。その後、バックエンドサーバ５０のユーザ操作により、監視映像のデータを構成する複数のフレーム画像のうち先頭のフレーム画像ＦＲ１（第１フレーム画像）に対し、ユーザがマスク処理の対象として追加したい複数のオブジェクトＯＢ１，ＯＢ２が選択される。オブジェクトＯＢ１は看板であり、オブジェクトＯＢ２は車両のナンバープレートである。この選択により、マスク制御部５８により、オブジェクトＯＢ１，ＯＢ２はマスク処理の対象として設定される。なお図８以降の図面では、ユーザ操作の一例としてユーザの指ＦＧによる選択が示されているが、マウス又はキーボード等による選択でもよいことは言うまでもない。

トラッキング部５７は、複数のオブジェクトＯＢ１，ＯＢ２を識別可能な表示態様の一例として、個々のオブジェクトＯＢ１，ＯＢ２の周囲に二重枠ＷＫ１ｓ，ＷＫ２ｓをフレーム画像ＦＲ１上に重畳してモニタ５２に表示する。また、トラッキング部５７は、マスク処理の対象として追加したオブジェクトＯＢ１，ＯＢ２の選択に伴ってトラッキングスタートボタンＩＣ１を、ＵＩ（User Interface）画面の一部としてフレーム画像ＦＲ１の紙面下側に表示する。なお、トラッキングスタートボタンＩＣ１は、監視映像の再生が一時停止中の時だけ表示されても構わない。

バックエンドサーバ５０のユーザ操作（例えばユーザの指ＦＧによる選択）により、トラッキングスタートボタンＩＣ１が押下されると、トラッキング部５７は、一時停止中であった監視映像の再生（言い換えると、フレーム画像ＦＲ１から順に後続するフレーム画像に繰り下げて表示すること）の再開を再生制御部５６に指示する。これにより、再生制御部５６は、監視映像の再生を再開できる。また、トラッキング部５７は、再生制御部５６による監視映像の再生に合わせて、フレーム画像ＦＲ１に後続するフレーム画像ＦＲ２において、フレーム画像ＦＲ１において選択された複数のオブジェクトＯＢ１，ＯＢ２を自動検知して識別可能な表示態様の一例として、個々のオブジェクトＯＢ１，ＯＢ２の周囲に一重枠ＷＫ１ｍ，ＷＫ２ｍをフレーム画像ＦＲ２上に重畳してモニタ５２に表示する。

再生制御部５６による監視映像の再生が進み、例えばオブジェクトＯＢ２がフレーム画像内に現れなくなった（言い換えると、オブジェクトＯＢ２を自動検知しなくなった）フレーム画像ＦＲ３では、トラッキング部５７は、オブジェクトＯＢ２の一重枠ＷＫ２ｍを非表示するが、その一方で、フレーム画像ＦＲ３ではオブジェクトＯＢ１は出現している（言い換えると、オブジェクトＯＢ１を自動検知している）のでオブジェクトＯＢ１の一重枠ＷＫ１ｍの表示を継続する。

なお、メディア処理部５５のマスキング部５５５は、再生制御部５６による監視映像の再生に合わせて、マスク処理の対象として選択されたオブジェクトＯＢ１，ＯＢ２を個々のフレーム画像ＦＲ１，ＦＲ２，ＦＲ３，…においてマスク処理を施してモニタ５２に表示しても構わない。これにより、バックエンドサーバ５０のユーザは、監視映像の再生中に、自己の選択したオブジェクトがマスク処理された状況を具体的に確認でき、そのオブジェクトをマスク処理の対象として含めるべきか否かを適正に判断できる。

また、監視映像を構成する複数のフレーム画像のうち先頭のフレーム画像ＦＲ１において選択されたオブジェクトＯＢ１，ＯＢ２には二重枠ＷＫ１ｓ，ＷＫ２ｓが表示され、先頭ではないフレーム画像ＦＲ２，ＦＲ３，…において選択されたオブジェクトＯＢ１，ＯＢ２には一重枠ＷＫ１ｍ，ＷＫ２ｍが表示される。これは、マスク処理の対象として追加したオブジェクトを削除する際に、二重枠ＷＫ１ｓ，ＷＫ２ｓが表示されたオブジェクトに対して削除操作がなされた場合には全フレーム画像において削除でき、一重枠ＷＫ１ｍ，ＷＫ２ｍが表示されたオブジェクトに対して削除操作がなされた場合には当該フレーム画像における削除のみを有効とすることで、削除するフレーム画像の数を区別するためであり、以下同様である。

図９は、第２の実施形態のバックエンドサーバ５０によりマスク処理の対象としてのオブジェクトが一時削除される時のフレーム画像の表示遷移例を示す図である。例えば第１の実施形態においてマスク処理の対象として１つ以上のオブジェクトが設定された監視映像のデータ又は図８の方法で１つ以上のオブジェクトがマスク処理の対象として設定された監視映像のデータに対し、バックエンドサーバ５０のユーザ操作により再生操作がなされたとする。監視映像のデータは、図８を参照して説明したように、ＹＵＶ又はＲＧＢ形式の非圧縮データに変換され、ワークメモリ等のＲＡＭ（不図示）に読み出され、再生制御部５６により再生されてモニタ５２に表示される。

再生が開始した後、バックエンドサーバ５０のユーザ操作により一時停止操作がなされたとする。その後、バックエンドサーバ５０のユーザ操作（例えばユーザの指ＦＧによる選択操作）により、監視映像のデータを構成する複数のフレーム画像のうち先頭のフレーム画像ＦＲ１１（第２フレーム画像）において、マスク処理の対象として既に設定されたオブジェクトＯＢ１が、ユーザがマスク処理の対象から一時的に削除したいオブジェクトとして選択される。この選択により、マスク制御部５８により、オブジェクトＯＢ１はマスク処理の対象から一時的に削除されるものとして設定される。以下、「一時的」とは、監視映像の再生に伴い、例えばユーザ操作によりオブジェクトが選択された時のフレーム画像（例えば監視映像を構成する複数のフレーム画像のうち先頭のフレーム画像）から、そのオブジェクトが現れなくなるフレーム画像までの時間的な幅（期間）をいう。

トラッキング部５７は、マスク処理の対象から一時的に削除するオブジェクトＯＢ１を識別可能な表示態様の一例として、オブジェクトＯＢ１の周囲に重畳表示していた二重枠ＷＫ１ｓを点線二重枠ＷＫ１ｓｔに置き換えてモニタ５２に表示する。一方、トラッキング部５７は、マスク処理の対象として既に設定されたオブジェクトＯＢ２を識別可能な表示態様の一例として、オブジェクトＯＢ２の周囲の二重枠ＷＫ２ｋの重畳表示を継続する。また、トラッキング部５７は、トラッキングスタートボタンＩＣ１を、ＵＩ（User Interface）画面の一部として、マスク処理の対象から一時的に削除したいオブジェクトＯＢ１の選択に伴ってフレーム画像ＦＲ１１の紙面下側に表示する。

バックエンドサーバ５０のユーザ操作（例えばユーザの指ＦＧによる選択）により、トラッキングスタートボタンＩＣ１が押下されると、トラッキング部５７は、一時停止中であった監視映像の再生（言い換えると、フレーム画像ＦＲ１１から順に後続するフレーム画像に繰り下げて表示すること）の再開を再生制御部５６に指示する。これにより、再生制御部５６は、監視映像の再生を再開できる。また、トラッキング部５７は、再生制御部５６による監視映像の再生に合わせて、フレーム画像ＦＲ１１に後続するフレーム画像ＦＲ１２において、フレーム画像ＦＲ１１においてマスク処理の対象から一時的に削除するオブジェクトとして選択されたオブジェクトＯＢ１を自動検知して識別可能な表示態様の一例として、オブジェクトＯＢ１の周囲に点線一重枠ＷＫ１ｅｔをフレーム画像ＦＲ１２上に重畳してモニタ５２に表示する。

再生制御部５６による監視映像の再生が進み、例えばオブジェクトＯＢ１がフレーム画像内に現れなくなった（言い換えると、オブジェクトＯＢ１を自動検知しなくなった）フレーム画像（不図示）では、トラッキング部５７は、オブジェクトＯＢ１の一重枠ＷＫ１ｅを非表示する。つまり、ユーザ操作により選択されたオブジェクトＯＢ１がフレーム画像から現れなくなるまで、オブジェクトＯＢ１はマスク処理の対象から一時的に削除される。

なお、メディア処理部５５のマスキング部５５５は、再生制御部５６による監視映像の再生に合わせて、マスク処理の対象から一時的に削除するオブジェクトＯＢ１を個々のフレーム画像ＦＲ１１，ＦＲ１２，…においてマスク処理を施さず、かつマスク処理の対象として既に設定されたオブジェクトＯＢ２を個々のフレーム画像ＦＲ１１，ＦＲ１２，…においてマスク処理を施してモニタ５２に表示しても構わない。これにより、バックエンドサーバ５０のユーザは、監視映像の再生中に、自己の選択したオブジェクトのマスク処理された状況とマスク処理されていない状況との両方を具体的に確認でき、そのオブジェクトをマスク処理の対象として含めるべきか否か、削除するべきか否かを適正に判断できる。なお、先頭のフレーム画像ＦＲ１１以外のフレーム画像（例えばフレーム画像ＦＲ１２）において、一重枠が周囲に表示されたオブジェクトが選択された場合には、そのフレームだけがマスク処理の一時的な削除の対象と設定される。

図１０は、第２の実施形態のバックエンドサーバ５０によりマスク処理の対象としてのオブジェクトが完全削除される時のフレーム画像の表示遷移例を示す図である。例えば第１の実施形態においてマスク処理の対象として１つ以上のオブジェクトが設定された監視映像のデータ又は図８の方法で１つ以上のオブジェクトがマスク処理の対象として設定された監視映像のデータに対し、バックエンドサーバ５０のユーザ操作により再生操作がなされたとする。監視映像のデータは、図８を参照して説明したように、ＹＵＶ又はＲＧＢ形式の非圧縮データに変換され、ワークメモリ等のＲＡＭに読み出され、再生制御部５６により再生されてモニタ５２に表示される。

再生が開始した後、バックエンドサーバ５０のユーザ操作により一時停止操作がなされたとする。その後、バックエンドサーバ５０のユーザ操作（例えばユーザの指ＦＧによる選択操作）により、監視映像のデータを構成する複数のフレーム画像のうち先頭のフレーム画像ＦＲ１１（第３フレーム画像）において、マスク処理の対象として既に設定されたオブジェクトＯＢ１が、ユーザがマスク処理の対象から完全に削除したいオブジェクトとして選択される。完全に削除されるとは、そのオブジェクトが全フレーム画像においてマスク処理の対象として削除されることを意味する。この選択により、マスク制御部５８により、オブジェクトＯＢ１はマスク処理の対象から完全に削除されるものとして設定される。このとき、トラッキング情報５９ａからはオブジェクトＯＢ１の通し番号（例えばオブジェクトＩＤ）とフレームにおける位置情報（例えば座標情報）を削除する。

トラッキング部５７は、マスク処理の対象から完全に削除するオブジェクトＯＢ１を識別可能な表示態様の一例として、オブジェクトＯＢ１の周囲に重畳表示していた二重枠ＷＫ１ｓをモニタ５２において非表示する（つまり、二重枠ＷＫ１ｓの表示を削除する。トラッキング情報から位置情報を削除するため、自然と表示できなくなる。）。一方、トラッキング部５７は、マスク処理の対象として既に設定されたオブジェクトＯＢ２を識別可能な表示態様の一例として、オブジェクトＯＢ２の周囲の二重枠ＷＫ２ｓの重畳表示を継続する。

図１１は、図８に対応するオブジェクトＯＢ１，ＯＢ２の追加時のバックエンドサーバ５０の動作手順の一例を詳細に説明するフローチャートである。例えばウェアラブルカメラ１０により撮像された監視映像のデータに対し、バックエンドサーバ５０のユーザ操作により再生操作がなされたとする。

図１１において、再生が開始した後、バックエンドサーバ５０のユーザ操作により一時停止操作がなされたとする。一時停止中に、監視映像を構成する複数のフレーム画像のうち先頭のフレーム画像（例えばフレーム画像ＦＲ１）が表示された画面上にて、トラッキング部５７は、ユーザ操作によりダブルクリックを検知したとする（Ｓ１１）。このダブルクリックにより、ユーザがマスク処理の対象として追加したいオブジェクトが選択される。なお、ダブルクリックではなく、図８に示す指ＦＧによるダブルタップでもよい。

ダブルクリックの検知位置の周囲にオブジェクトがない（つまり、トラッキング部５７がオブジェクトを自動検知しない）場合には（Ｓ１２、ＮＯ）、図１１に示す処理は終了する。一方、ダブルクリックの検知位置の周囲にオブジェクトがある（つまり、トラッキング部５７がオブジェクトを自動検知できた）場合には（Ｓ１２、ＹＥＳ）、トラッキング部５７は、ダブルクリックの検知位置の周囲のオブジェクトを識別可能な表示態様の一例として、オブジェクトの周囲に外枠（例えば二重枠ＷＫ１ｓ）を表示（描画）する（Ｓ１３）。トラッキング部５７は、外枠のフレーム画像における位置を示す座標をフレーム画像の識別情報と対応付けたトラッキング情報５９ａとしてメモリ５９に保存する（Ｓ１４）。また、トラッキング部５７は、そのオブジェクトに対するマスク処理フラグをオンにしてトラッキング情報５９ａを更新する（Ｓ１５）。なお、ステップＳ１５の処理は、マスク制御部５８により行われてもよい。

ここで、図８を参照して説明したように、バックエンドサーバ５０のユーザ操作によりトラッキングスタートボタンＩＣ１が押下されたとする。トラッキング部５７は、ユーザ操作によりトラッキングスタートボタンＩＣ１の押下を検知したとする（Ｓ１６）。トラッキング部５７は、一時停止中であった監視映像の再生（言い換えると、フレーム画像から順に後続するフレーム画像に繰り下げて表示すること）の再開を再生制御部５６に指示する。これにより、再生制御部５６は、監視映像の再生（つまり、次のフレーム画像をモニタ５２に表示（描画））を再開できる（Ｓ１７）。ステップＳ１７の後、バックエンドサーバ５０の処理はステップＳ１２に戻る。そして、ステップＳ１７において描画された後続するフレーム画像の中で、ステップＳ１１においてダブルクリックされた位置の周囲のオブジェクトが現れなくなる（つまり、トラッキング部５７がステップＳ１１においてダブルクリックされた位置の周囲のオブジェクトを自動検知しなくなる）まで、ステップＳ１３〜ステップＳ１７の処理が繰り返される。

図１２Ａは、図９に対応するオブジェクトの一時削除時のバックエンドサーバの動作手順の一例を詳細に説明するフローチャートである。例えば図８の方法で１つ以上のオブジェクトがマスク処理の対象として設定された監視映像のデータに対し、バックエンドサーバ５０のユーザ操作により再生操作がなされたとする。また、図１２Ａの説明において、図１１の処理と同一の処理については同一のステップ番号を付与して説明を簡略化又は省略し、異なる内容について説明する。

図１２Ａにおいて、再生が開始した後、バックエンドサーバ５０のユーザ操作により一時停止操作がなされたとする。一時停止中に、監視映像を構成する複数のフレーム画像のうち先頭のフレーム画像（例えばフレーム画像ＦＲ１１）が表示された画面上にて、トラッキング部５７は、ユーザ操作によりクリックを検知したとする（Ｓ２１）。このクリックにより、ユーザがマスク処理の対象から一時的に削除したいオブジェクトが選択される。なお、クリックではなく、図９に示す指ＦＧによるタッチ又はタップでもよい。

クリックの検知位置の周囲にオブジェクトがない（つまり、トラッキング部５７がオブジェクトを自動検知しない）場合には（Ｓ１２、ＮＯ）、図１２Ａに示す処理は終了する。一方、クリックの検知位置の周囲にオブジェクトがある（つまり、トラッキング部５７がオブジェクトを自動検知できた）場合には（Ｓ１２、ＹＥＳ）、トラッキング部５７は、クリックの検知位置の周囲のオブジェクトを識別可能な表示態様の一例として、オブジェクトの周囲に重畳表示していた外枠（例えば二重枠ＷＫ１ｓ）を点線二重枠ＷＫ１ｓｔに置き換えて表示（描画）する（Ｓ２２）。トラッキング部５７は、そのオブジェクトに対するマスク処理フラグを一時的にオフにしてトラッキング情報５９ａを更新する（Ｓ２３）。なお、ステップＳ２３の処理は、マスク制御部５８により行われてもよい。

ここで、図１１と同様に、ステップＳ１６及びステップＳ１７の各処理が順に行われ、ステップＳ１７の後、バックエンドサーバ５０の処理はステップＳ１２に戻る。そして、ステップＳ１７において描画された後続するフレーム画像の中で、ステップＳ１１においてクリックされた位置の周囲にオブジェクトが現れなくなる（つまり、トラッキング部５７がステップＳ１１においてクリックされた位置の周囲のオブジェクトを自動検知しなくなる）まで、ステップＳ２２→ステップＳ２３→ステップＳ１６→ステップＳ１７の処理が繰り返される。なお、ステップＳ１６及びステップＳ１７の各処理は省略されても構わない。つまり、フレーム画像の繰り下げは無くても構わない。

図１２Ｂは、図１０に対応するオブジェクトの完全削除時のバックエンドサーバの動作手順の一例を詳細に説明するフローチャートである。例えば図８の方法で１つ以上のオブジェクトがマスク処理の対象として設定された監視映像のデータに対し、バックエンドサーバ５０のユーザ操作により再生操作がなされたとする。また、図１２Ｂの説明において、図１１の処理と同一の処理については同一のステップ番号を付与して説明を簡略化又は省略し、異なる内容について説明する。

図１２Ｂにおいて、再生が開始した後、バックエンドサーバ５０のユーザ操作により一時停止操作がなされたとする。一時停止中に、監視映像を構成する複数のフレーム画像のうち先頭のフレーム画像（例えばフレーム画像ＦＲ１１）が表示された画面上にて、トラッキング部５７は、ユーザ操作によりダブルクリックを検知したとする（Ｓ１１）。このダブルクリックにより、ユーザがマスク処理の対象から完全に削除したいオブジェクトが選択される。なお、ダブルクリックではなく、図１０に示す指ＦＧによるダブルタップでもよい。

ダブルクリックの検知位置の周囲にオブジェクトがない（つまり、トラッキング部５７がオブジェクトを自動検知しない）場合には（Ｓ１２、ＮＯ）、図１２Ｂに示す処理は終了する。一方、ダブルクリックの検知位置の周囲にオブジェクトがある（つまり、トラッキング部５７がオブジェクトを自動検知できた）場合には（Ｓ１２、ＹＥＳ）、トラッキング部５７は、ダブルクリックの検知位置のオブジェクトの周囲に表示していた外枠（例えば二重枠ＷＫ１ｓ）の表示を削除する（非表示）する（Ｓ３１）。トラッキング部５７は、削除した外枠のオブジェクトに対応する、フレーム画像における位置を示す座標及びマスク対象フラグをトラッキング情報５９ａから削除し、更に、監視映像を構成する他のフレーム画像における、当該オブジェクトの座標及びマスク対象フラグも全てトラッキング情報５９ａから削除する（Ｓ３２）。なお、ステップＳ３２の処理は、マスク制御部５８により行われてもよい。

以上により、第２の実施形態の監視映像解析システム５では、ウェアラブルカメラ１０や車載カメラ３１等のカメラは、インシデント（例えば事件若しくは事故）に関する監視映像を撮像する。バックエンドサーバ５０は、カメラにより撮像された監視映像をモニタ５２に表示して再生する。バックエンドサーバ５０は、監視映像の再生後の一時停止中に、監視映像を構成する複数のフレーム画像のうちの第１フレーム画像（例えば先頭のフレーム画像ＦＲ１）に現れるオブジェクトＯＢ１の指定操作（選択操作）に応じて、指定（選択）されたオブジェクトＯＢ１をマスク処理の対象として識別可能な表示態様（例えば二重枠ＷＫ１ｓ）で表示し、指定（選択）されたオブジェクトＯＢ１の位置情報を第１フレーム画像と対応付けてメモリ５９に保存する。バックエンドサーバ５０は、監視映像の再生操作（例えばトラッキングスタートボタンＩＣ１の押下操作）に応じて、第１フレーム画像から後続するフレーム画像毎に、指定（選択）されたオブジェクトＯＢ１をマスク処理の対象として識別可能な表示態様（例えば一重枠ＷＫ１ｍ）で表示し、かつ指定（選択）されたオブジェクトＯＢ１の位置情報を個々のフレーム画像と対応付けてメモリ５９に保存する。バックエンドサーバ５０は、監視映像の再生に伴って指定（選択）されたオブジェクトＯＢ１がフレーム画像内に現れなくなるまで、監視映像の再生と指定（選択）されたオブジェクトＯＢ１の位置情報のメモリ５９への保存とを継続する。

これにより、監視映像解析システム５は、カメラにより撮像された監視映像に現れる個々の人物に対し、マスク処理の対象としての追加をフレキシブルに設定でき、かつ監視映像中における個々の人物のプライバシー保護を支援できる。また、監視映像解析システム５は、トラッキングスタートボタンＩＣ１の押下操作により監視映像を再生するので、ユーザ操作により指定（選択）されたオブジェクト（例えば人物の顔）がフレーム画像内に現れなくなるまでオブジェクトの移動状況をユーザに明確に目視させることができ、マスク処理の対象として追加していいかどうかを適正に判断させることができる。

また、バックエンドサーバ５０は、監視映像の一時停止中に、監視映像を構成する複数のフレーム画像のうちの第２フレーム画像（例えば先頭のフレーム画像ＦＲ１１）に現れるオブジェクトＯＢ１の指定操作（選択操作）に応じて、指定（選択）されたオブジェクトＯＢ１をマスク処理の一時的な対象外として識別可能な表示態様（例えば点線二重枠ＷＫ１ｓｔ）で表示する。バックエンドサーバ５０は、監視映像の再生操作（例えばトラッキングスタートボタンＩＣ１の押下操作）に応じて、第２フレーム画像から後続するフレーム画像毎に、指定（選択）されたオブジェクトＯＢ１をマスク処理の一時的な対象外として識別可能な表示態様で表示する。バックエンドサーバ５０は、監視映像の再生に伴って指定（選択）されたオブジェクトＯＢ１がフレーム画像内に現れなくなるまで、指定（選択）されたオブジェクトをマスク処理の一時的な対象外として識別可能な表示態様での表示を継続する。

これにより、監視映像解析システム５は、一旦マスク処理の対象として追加するとして設定されたオブジェクト（例えば人物の顔）に対し、そのオブジェクトがフレーム画像内に現れなくなるまでの一時的な期間において監視映像を再生することで、その再生中のオブジェクトの移動状況をユーザに目視させながら、マスク処理の対象から削除するか否かをユーザに適正に判断させることができる。

また、バックエンドサーバ５０は、監視映像の一時停止中に、監視映像を構成する複数のフレーム画像のうちの第３フレーム画像（例えば先頭のフレーム画像ＦＲ１１）に現れるオブジェクトの指定操作（選択操作）に応じて、指定（選択）されたオブジェクトに対応する全フレーム画像における位置情報を削除する。これにより、監視映像解析システム５は、一旦マスク処理の対象として追加するとして設定された監視映像内のオブジェクト（例えば看板）がマスク処理の対象とする必要が無いとユーザにより判断された場合に、そのオブジェクトの全フレームにおける位置情報を削除することで、その監視映像の再生中に無用にマスク処理を施す必要が無く、監視映像の視認性の劣化を抑制できる。

また、バックエンドサーバ５０は、監視映像の再生操作に応じて、監視映像を構成する個々のフレーム画像中の指定（選択）されたオブジェクトＯＢ１に対してマスク処理を施してモニタ５２に表示する。これにより、バックエンドサーバ５０のユーザは、監視映像の再生中に、自己の選択したオブジェクトがマスク処理された状況を具体的に確認でき、そのオブジェクトをマスク処理の対象として含めるべきか否か、又は削除するべきか否かを適正に判断できる。

（第３の実施形態の内容に至る経緯）
ここで、例えば街中の防犯カメラや警察官等の装着したウェアラブルカメラ等の撮像装置により撮像された監視映像に、事件や事故等のインシデントに直接関係しない一般市民等の多くの人物が映ることがある。プライバシー保護のため、これらの人物が誰であるかの特定が困難になるように１人１人の人物の顔にマスク処理等の画像処理を施す必要がある。

ところが、上述したマスク処理等の画像処理を施すにあたり、特許文献１の構成を用いても、上述した映像内のどこにマスク無効領域を設定すれば良いかや、各人物がどのような移動パターンで動くかは監視映像毎に異なり、マスク無効領域の一様な設定や移動パターンの判別はできない。このため、監視映像に現れる一般市民等の複数の人物に対し、マスク処理を施す対象としての追加をフレキシブルに設定することは困難であった。

そこで、第３の実施形態では、ウェアラブルカメラ１０や車載カメラ３１等の撮像装置により撮像された監視映像に現れる個々の人物に対し、マスク処理の対象としての追加をフレキシブルに設定し、監視映像中における個々の人物のプライバシー保護を支援する監視映像解析システムの例を説明する。

（第３の実施形態）
第３の実施形態の監視映像解析システム５のバックエンドサーバ５０の内部構成は第１の実施形態の監視映像解析システム５のバックエンドサーバ５０の内部構成と同一であり、同一の符号を参照して説明する。

図１３は、第３の実施形態のバックエンドサーバ５０によりマスク処理の対象としてのオブジェクトが追加される時のフレーム画像の表示遷移例を示す図である。例えばウェアラブルカメラ１０により撮像された監視映像のデータに対し、バックエンドサーバ５０のユーザ操作により再生操作がなされたとする。監視映像のデータは、データ入力部５３を介してバックエンドサーバ５０にインポートされ、デマルチプレクサ５５４によりＭＰ４形式のデータから例えばＨ．２６４形式の圧縮済みデータに展開される。Ｈ．２６４形式の圧縮済みデータは、デコーダ５５２によりＹＵＶ又はＲＧＢ形式の非圧縮データに変換され、ワークメモリ等のＲＡＭ（不図示）に読み出され、再生制御部５６により再生されてモニタ５２に表示される。なお、バックエンドサーバ５０のユーザ操作により再生操作がなされる監視映像のデータは、第１の実施形態又は第２の実施形態においてマスク処理の対象として１つ以上のオブジェクトが設定された監視映像のデータでもよい。

再生が開始した後、バックエンドサーバ５０のユーザ操作により一時停止操作がなされたとする。その後、バックエンドサーバ５０のユーザ操作（例えばユーザの指ＦＧによる長押し操作）により、監視映像のデータを構成する複数のフレーム画像のうち先頭のフレーム画像ＦＲ２１（第１フレーム画像）に対し、ユーザがマスク処理の対象として追加したい単一のオブジェクトＯＢ３が選択される。オブジェクトＯＢ３は人物である。この選択により、マスク制御部５８により、単一のオブジェクトはマスク処理の対象として設定される。

トラッキング部５７は、単一のオブジェクトを識別可能な表示態様の一例として、オブジェクトＯＢ３の周囲に外枠（例えば一重枠ＷＫ３ｓ）をフレーム画像ＦＲ２１上に重畳してモニタ５２に表示する。なお、外枠のサイズは固定でも良いし、バックエンドサーバ５０のユーザ操作（例えばユーザの指２による上下左右へのスライド操作）により、その場で変更できても良い。一重枠ＷＫ３ｓの周囲には、先頭のフレーム画像ＦＲ２１に重畳して表示されたことを示すために、「ｓ」の文字が表示される。また、ユーザ操作によりオブジェクトＯＢ３が選択された状態（つまり、長押し状態）が継続されると、第２の実施形態におけるトラッキングスタートボタンＩＣ１が押下された時と同様に、トラッキング部５７は、一時停止中であった監視映像の再生（言い換えると、フレーム画像ＦＲ２１から順に後続するフレーム画像に繰り下げて表示すること）の再開を再生制御部５６に指示する。これにより、再生制御部５６は、監視映像の再生を再開できる。つまり、再生制御部５６により、監視映像を構成するフレーム画像の繰り下げが自動的に順次行われてモニタ５２に表示されていく。

監視映像の再生再開により、オブジェクトＯＢ３は例えば紙面左方向に進んでいく。この場合、トラッキング部５７は、先頭のフレーム画像ではないフレーム画像（例えばフレーム画像ＦＲ２１に後続するフレーム画像ＦＲ２２）において単一のオブジェクトの周囲に同様の一重枠ＷＫ３ｍを表示する。フレーム画像ＦＲ２２は先頭のフレーム画像ＦＲ２１ではないため、一重枠ＷＫ３ｍの周囲には「ｓ」の文字は表示されない。また、フレーム画像ＦＲ２２では、オブジェクトＯＢ３の位置と一重枠ＷＫ３ｍとの位置がずれている（図１３の第１段目の紙面最右図の一つ左隣りの図参照）。これは、フレーム画像ＦＲ２１において単一のオブジェクトＯＢ３に対して長押し操作が継続されたことでフレーム画像の繰り下げ（再生）が再開したことで、オブジェクトＯＢ３が紙面左方向に移動したためである。

ユーザ操作（例えばユーザの指ＦＧのドラッグ操作）により、一重枠ＷＫ３ｍが単一のオブジェクトＯＢ３を囲むように移動される（図１３の第１段目の紙面最右図参照）。トラッキング部５７は、ユーザ操作（例えばユーザの指ＦＧのドラッグ操作）によって、一重枠ＷＫ３ｍが単一のオブジェクトＯＢ３からずれた位置から単一のオブジェクトＯＢ３を囲むように移動されるまでの間、フレーム画像の繰り下げ（再生）を一時的に中断する。

ユーザ操作（例えばユーザの指ＦＧのドラッグ操作）の操作先（ドラッグ操作先）で、その操作が止まると（つまり、ユーザの指ＦＧの移動が停止すると）、トラッキング部５７は、一時的に中断していたフレーム画像の繰り下げ（再生）を再開する。これにより、フレーム画像ＦＲ２３に示すように、単一のオブジェクトＯＢ３は更に紙面左方向に進んでいくため、ドラッグ操作が停止した時の一重枠ＷＫ３ｍの位置と単一のオブジェクトＯＢ３の位置とが再度ずれる（図１３の第２段の最左図参照）。

同様に、ユーザ操作（例えばユーザの指ＦＧのドラッグ操作）により、一重枠ＷＫ３ｍが単一のオブジェクトＯＢ３を囲むように移動される（図１３の第２段目の紙面最左図の１つ右隣りの図参照）。トラッキング部５７は、ユーザ操作（例えばユーザの指ＦＧのドラッグ操作）によって、一重枠ＷＫ３ｍが単一のオブジェクトＯＢ３からずれた位置から単一のオブジェクトＯＢ３を囲むように移動されるまでの間、フレーム画像の繰り下げ（再生）を一時的に中断する。

ユーザ操作（例えばユーザの指ＦＧの長押し操作）が完了すると、トラッキング部５７は、一時的に中断していたフレーム画像の繰り下げ（再生）を完全に終了し、単一のオブジェクトＯＢ３を識別可能な表示態様の一例として、オブジェクトＯＢ３の周囲に外枠（例えば一重枠ＷＫ３ｅ）をフレーム画像ＦＲ２３上に重畳してモニタ５２に表示する。一重枠ＷＫ３ｅの周囲には、単一のオブジェクトＯＢ３がフレーム画像内に出現する最終のフレーム画像ＦＲ２３に重畳して表示されたことを示すために、「ｅ」の文字が表示される。

なお、フレーム画像ＦＲ２３は、単一のオブジェクトＯＢ３がフレーム画像内に出現する最終のフレーム画像であるかどうかは分かり難い場合がある。例えば、図１３の第３段目に示すように、その直前の状態（具体的には、図１３の第２段の紙面最左図の１つ右隣りの図の状態）でユーザ操作（つまり、ユーザの指ＦＧのドラッグ操作）が停止していると、トラッキング部５７によりフレーム画像の繰り下げが再開される。このため、単一のオブジェクトＯＢ３がフレーム画像ＦＲ２４に示すように、フレーム画像ＦＲ２４では出現しなくなることが考えられる。この場合には、ユーザ操作（つまり、ユーザの指ＦＧの長押し操作）が終わるか、又は長押し操作を継続したままフレーム画像ＦＲ２４の画面外に移動操作（例えばドラッグ操作）すると、トラッキング部５７は、自動的に１つ直前のフレーム画像ＦＲ２３をモニタ５２に表示し、フレーム画像ＦＲ２３における単一のオブジェクトＯＢ３の位置に一重枠ＷＫ３ｅを表示してフレーム画像の繰り下げ（再生）を完全に終了する。

なお、ユーザ操作（例えばユーザの指ＦＧのドラッグ操作）の操作先（ドラッグ操作先）で、その操作が止まる（つまり、ユーザの指ＦＧの移動が停止する）のを自動検知して一時的に中断していたフレーム画像の繰り下げ（再生）を再開するようにしているが、自動検知の代わりに別のユーザ操作（例えばユーザの指ＦＧ２によるタップ操作）で一時的に中断していたフレーム画像の繰り下げ（再生）を再開するようにしても良い。

図１４は、図１３に対応するオブジェクトの追加時のバックエンドサーバ５０の動作手順の一例を詳細に説明するフローチャートである。例えばウェアラブルカメラ１０により撮像された監視映像のデータに対し、バックエンドサーバ５０のユーザ操作により再生操作がなされたとする。

図１４において、再生が開始した後、バックエンドサーバ５０のユーザ操作により一時停止操作がなされたとする。一時停止中に、監視映像を構成する複数のフレーム画像のうち先頭のフレーム画像（例えばフレーム画像ＦＲ２１）が表示された画面上にて、トラッキング部５７は、ユーザ操作により長押し操作を検知したとする（Ｓ４１）。この長押し操作により、ユーザがマスク処理の対象として追加したい単一のオブジェクトが選択される。

トラッキング部５７は、長押し状態で指定（選択）された単一のオブジェクトを識別可能な表示態様の一例として、オブジェクト（例えばオブジェクトＯＢ３）の周囲に外枠（例えば一重枠ＷＫ３ｓ）をフレーム画像ＦＲ２１上に重畳してモニタ５２に表示（描画）する（Ｓ４２）。トラッキング部５７は、外枠のフレーム画像における位置を示す座標をフレーム画像の識別情報と対応付けたトラッキング情報５９ａとしてメモリ５９に保存する（Ｓ１４）。また、トラッキング部５７は、そのオブジェクトに対するマスク処理フラグをオンにしてトラッキング情報５９ａを更新する（Ｓ１５）。なお、ステップＳ１５の処理は、マスク制御部５８により行われてもよい。

ユーザ操作によりオブジェクトＯＢ３が長押しされた状態が継続されると、トラッキング部５７は、一時停止中であった監視映像の再生（言い換えると、フレーム画像ＦＲ２１から順に後続するフレーム画像に繰り下げて表示すること）の再開を再生制御部５６に指示する。これにより、再生制御部５６は、監視映像の再生を再開できる。つまり、再生制御部５６により、監視映像を構成するフレーム画像の繰り下げが自動的に順次行われてモニタ５２に表示されていく（Ｓ１７）。フレーム画像の繰り下げによって移動した単一のオブジェクトＯＢ３を囲むように、ユーザ操作（例えばユーザの指ＦＧのドラッグ操作）により外枠（例えば一重枠ＷＫ３ｍ）が移動される。トラッキング部５７は、ユーザ操作（例えばユーザの指ＦＧのドラッグ操作）を検知する（Ｓ４３）。トラッキング部５７は、フレーム画像の繰り下げによって移動した単一のオブジェクトＯＢ３を囲むように一重枠ＷＫ３ｍがドラッグ操作によって移動されるまでの間、フレーム画像の繰り下げ（再生）を一時的に中断する（Ｓ４４）。

トラッキング部５７は、ステップＳ４４の後、ステップＳ４３において検知されるドラッグ操作の開始時における外枠（例えば一重枠ＷＫ３ｍ）のフレーム画像における位置を示す座標をフレーム画像の識別情報と対応付けたトラッキング情報５９ａとしてメモリ５９に保存する（Ｓ４５）。また、トラッキング部５７は、そのオブジェクトに対するマスク処理フラグをオンにしてトラッキング情報５９ａを更新する（Ｓ４６）。なお、ステップＳ４６の処理は、マスク制御部５８により行われてもよい。

トラッキング部５７は、ステップＳ４６の後、ユーザ操作（つまり、ドラッグ操作からホールド操作）を検知すると（Ｓ４７）、ステップＳ４４において一旦停止していたフレーム画像の繰り下げ（再生）の再開を再生制御部５６に指示する。これにより、再生制御部５６は、監視映像の再生を再開できる。つまり、再生制御部５６により、監視映像を構成するフレーム画像の繰り下げが自動的に順次行われてモニタ５２に表示されていく（Ｓ４８）。ステップＳ４８の後、ユーザ操作（つまり、マウスアップ操作）がトラッキング部５７により検知された場合には（Ｓ４９、ＹＥＳ）、図１４に示すバックエンドサーバ５０の処理は終了する。一方、ユーザ操作（つまり、マウスアップ操作）がトラッキング部５７により検知されない場合には（Ｓ４９、ＮＯ）、バックエンドサーバ５０の処理はステップＳ４３に戻り、ユーザ操作（つまり、マウスアップ操作）がトラッキング部５７により検知されるまで、ステップＳ４３〜ステップＳ４９の処理が繰り返される。マウスアップ操作は、例えばユーザが指定した単一のオブジェクトをマスク処理の対象として追加することの処理をユーザが止める場合に行われる処理の一例である。

以上により、第３の実施形態の監視映像解析システム５では、ウェアラブルカメラ１０や車載カメラ３１等のカメラは、インシデント（例えば事件若しくは事故）に関する監視映像を撮像する。バックエンドサーバ５０は、カメラにより撮像された監視映像をモニタ５２に表示して再生する。バックエンドサーバ５０は、監視映像の再生後の一時停止中に、監視映像を構成する複数のフレーム画像のうちの第１フレーム画像（例えば先頭のフレーム画像ＦＲ２１）に現れる単一のオブジェクトＯＢ３の指定操作（選択操作）に応じて、指定（選択）された単一のオブジェクトＯＢ３をマスク処理の対象として識別可能な表示態様（例えば一重枠ＷＫ３ｓ）で表示し、指定（選択）された単一のオブジェクトＯＢ３の位置情報を第１フレーム画像と対応付けてメモリ５９に保存し、かつ監視映像の再生を開始する。バックエンドサーバ５０は、監視映像の再生に伴って第１フレーム画像から後続するフレーム画像毎に、指定（選択）された単一のオブジェクトＯＢの指定操作（選択操作）により、指定（選択）された単一のオブジェクトＯＢ３をマスク処理の対象として識別可能な表示態様（例えば一重枠ＷＫ３ｍ）で表示し、かつ指定（選択）された単一のオブジェクトＯＢ３の位置情報を個々のフレーム画像と対応付けてメモリ５９に保存する。バックエンドサーバ５０は、監視映像の再生に伴って指定（選択）された単一のオブジェクトＯＢ３がフレーム画像内に現れなくなるまで、監視映像の再生と指定（選択）された単一のオブジェクトＯＢ３の位置情報のメモリ５９への保存とを継続する。

これにより、監視映像解析システム５は、カメラにより撮像された監視映像に現れる個々の人物に対し、マスク処理の対象としての追加をフレキシブルに設定でき、かつ監視映像中における個々の人物のプライバシー保護を支援できる。また、監視映像解析システム５は、一時停止中のフレーム画像に現れるオブジェクト（例えば人物）を長押し操作によって指定（選択）し続けることで監視映像の再生を開始できるので、長押し操作により指定（選択）されたオブジェクト（例えば人物の顔）がフレーム画像内に現れなくなるまでオブジェクトの移動状況をユーザに明確に目視させることができ、マスク処理の対象として追加していいかどうかを適正に判断させることができる。

また、バックエンドサーバ５０は、第１フレーム画像に現れる単一のオブジェクト（例えばオブジェクトＯＢ３）の指定位置から、監視映像の再生の開始に伴って指定（選択）された単一のオブジェクトが移動した位置まで、指定位置（選択位置）における指定状態が継続したまま移動する（例えば単一のオブジェクトＯＢ３が指定された位置からフレーム画像の繰り下げによって移動した単一のオブジェクトＯＢ３の位置までのドラッグ操作がなされる）まで、監視映像の再生を一時中断する。これにより、監視映像解析システム５は、フレーム画像の繰り下げによって移動した単一のオブジェクトの位置まで素早くかつ正確にドラッグ操作できるので、その単一のオブジェクトをマスク処理の対象として追加するための処理を時間的に無駄なく早期に行える。

また、バックエンドサーバ５０は、監視映像の再生中に、監視映像を構成する個々のフレーム画像中の指定（選択）された単一のオブジェクト（例えばオブジェクトＯＢ３）に対してマスク処理を施してモニタ５２に表示する。これにより、バックエンドサーバ５０のユーザは、監視映像の再生中に、自己の選択した単一のオブジェクトＯＢ３がマスク処理された状況を具体的に確認でき、その単一のオブジェクトＯＢ３をマスク処理の対象として含めるべきか否かを適正に判断できる。

（第３の実施形態の変形例）
第３の実施形態では、撮像映像の中からユーザがマスク処理の対象として追加する単一のオブジェクトを指定（選択）する例について説明した。第３の実施形態の変形例では、第３の実施形態とは逆で、予め全てのフレーム画像全域がマスク処理された撮像映像の中からユーザがマスク処理の対象外として追加する単一のオブジェクトを指定（選択）する例について説明する。第３の実施形態の変形例の監視映像解析システム５のバックエンドサーバ５０の内部構成は第１の実施形態の監視映像解析システム５のバックエンドサーバ５０の内部構成と同一であり、同一の符号を参照して説明する。

図１５は、第３の実施形態の変形例のバックエンドサーバ５０によりマスク処理の対象外としてのオブジェクトが追加される時のフレーム画像の表示遷移例を示す図である。例えばウェアラブルカメラ１０により撮像された監視映像のデータは、データ入力部５３を介してバックエンドサーバ５０にインポートされ、デマルチプレクサ５５４によりＭＰ４形式のデータから例えばＨ．２６４形式の圧縮済みデータに展開される。Ｈ．２６４形式の圧縮済みデータは、デコーダ５５２によりＹＵＶ又はＲＧＢ形式の非圧縮データに変換され、ワークメモリ等のＲＡＭ（不図示）に読み出される。ここで、監視映像を構成する全てのフレーム画像全域のデータに対し、バックエンドサーバ５０のマスキング部５５５により、マスク処理が施される。マスク処理が施された監視映像のデータに対し、バックエンドサーバ５０のユーザ操作により再生操作がなされると、再生制御部５６により再生されてモニタ５２に表示される。なお、バックエンドサーバ５０のユーザ操作により再生操作がなされる監視映像のデータは、第１の実施形態〜第３の実施形態においてマスク処理の対象として１つ以上のオブジェクトが設定された監視映像のデータでもよい。

監視映像を構成する全てのフレーム画像に対して予めマスク処理が施された監視映像のデータの再生が開始した後、バックエンドサーバ５０のユーザ操作により一時停止操作がなされたとする。その後、バックエンドサーバ５０のユーザ操作（例えばユーザの指ＦＧによるタップ）により、監視映像のデータを構成する複数のフレーム画像のうち先頭のフレーム画像ＦＲ３１（第１フレーム画像）に対し、ユーザがマスク処理の対象外として追加したい（言い換えると、ユーザがマスク処理の対象から削除したい）単一のオブジェクトＯＢ７が選択される。オブジェクトＯＢ７は人物である。この選択により、マスク制御部５８により、単一のオブジェクトはマスク処理の対象として設定される。

トラッキング部５７は、単一のオブジェクトを識別可能な表示態様の一例として、オブジェクトＯＢ７の周囲に外枠（例えば一重枠ＷＫ７）をフレーム画像ＦＲ３１上に重畳してモニタ５２に表示する。また、ユーザ操作によりオブジェクトＯＢ７が選択された状態（つまり、長押し状態）が継続されると、第２の実施形態におけるトラッキングスタートボタンＩＣ１が押下された時と同様に、トラッキング部５７は、一時停止中であった監視映像の再生（言い換えると、フレーム画像ＦＲ３１から順に後続するフレーム画像に繰り下げて表示すること）の再開を再生制御部５６に指示する。これにより、再生制御部５６は、監視映像の再生を再開できる。つまり、再生制御部５６により、監視映像を構成するフレーム画像の繰り下げが自動的に順次行われてモニタ５２に表示されていく。

監視映像の再生再開により、オブジェクトＯＢ７は移動する。ユーザ操作（例えばユーザの指ＦＧのドラッグ操作）により、一重枠ＷＫ７が単一のオブジェクトＯＢ７を囲むように移動される（フレーム画像ＦＲ３２参照）。トラッキング部５７は、ユーザ操作（例えばユーザの指ＦＧのドラッグ操作）によって指定（選択）された単一のオブジェクトＯＢ７を識別可能な表示態様の一例として、オブジェクトＯＢ７の周囲に外枠（例えば一重枠ＷＫ７）をフレーム画像ＦＲ３２上に重畳してモニタ５２に表示する。更に、マスク制御部５８は、オブジェクトＯＢ７をマスク処理の対象外として追加する（言い換えると、マスク処理の対象から削除する）として、オブジェクトＯＢ７に対して施したマスク処理を解除する処理を行う。これにより、フレーム画像ＦＲ３２では、オブジェクトＯＢ７はオブジェクトＯＢ７ｎとなり、鮮明な人物の画像として得られる。

図１６は、図１５に対応するオブジェクトの追加時のバックエンドサーバ５０の動作手順の一例を詳細に説明するフローチャートである。図１６の説明の前提として、監視映像を構成する全てのフレーム画像全域のデータに対し、バックエンドサーバ５０のマスキング部５５５により、マスク処理が施される。マスク処理が施された監視映像のデータに対し、バックエンドサーバ５０のユーザ操作により再生操作がなされると、再生制御部５６により再生されてモニタ５２に表示される。

図１６において、再生が開始した後、バックエンドサーバ５０のユーザ操作により一時停止操作がなされたとする。一時停止中に、監視映像を構成する複数のフレーム画像のうち先頭のフレーム画像（例えばフレーム画像ＦＲ３１）が表示された画面上にて、トラッキング部５７は、ユーザ操作により長押し操作を検知したとする（Ｓ４１）。この長押し操作により、ユーザがマスク処理の対象外として追加したい（言い換えると、マスク処理の対象から削除する）単一のオブジェクトＯＢ７が選択される。

トラッキング部５７は、長押し状態で指定（選択）された単一のオブジェクトを識別可能な表示態様の一例として、オブジェクト（例えばオブジェクトＯＢ７）の周囲に外枠（例えば一重枠ＷＫ７）をフレーム画像ＦＲ３１上に重畳してモニタ５２に表示（描画）する（Ｓ４２）。トラッキング部５７は、外枠のフレーム画像における位置を示す座標をフレーム画像の識別情報と対応付けたトラッキング情報５９ａとしてメモリ５９に保存する（Ｓ１４）。また、トラッキング部５７は、そのオブジェクトに対するマスク処理フラグをオフにしてトラッキング情報５９ａを更新する（Ｓ１５Ａ）。なお、ステップＳ１５Ａの処理は、マスク制御部５８により行われてもよい。第３の実施形態の変形例では、第３の実施形態の「マスク処理フラグをオン」を「マスク処理除外フラグをオン」と読み替え、「マスク処理フラグをオフ」を「マスク処理除外フラグをオフ」と読み替えることができる。

ユーザ操作によりオブジェクトＯＢ７が長押しされた状態が継続されると、トラッキング部５７は、一時停止中であった監視映像の再生（言い換えると、フレーム画像ＦＲ３１から順に後続するフレーム画像に繰り下げて表示すること）の再開を再生制御部５６に指示する。これにより、再生制御部５６は、監視映像の再生を再開できる。つまり、再生制御部５６により、監視映像を構成するマスク処理済みのフレーム画像の繰り下げが自動的に順次行われてモニタ５２に表示されていく（Ｓ１７Ａ）。マスク処理済みのフレーム画像の繰り下げによって移動した単一のオブジェクトＯＢ７を囲むように、ユーザ操作（例えばユーザの指ＦＧのドラッグ操作）により外枠（例えば一重枠ＷＫ７）が移動される。トラッキング部５７は、ユーザ操作（例えばユーザの指ＦＧのドラッグ操作）を検知する（Ｓ４３）。トラッキング部５７は、マスク処理済みのフレーム画像の繰り下げによって移動した単一のオブジェクトＯＢ７を囲むように一重枠ＷＫ７がドラッグ操作によって移動されるまでの間、マスク処理済みのフレーム画像の繰り下げ（再生）を一時的に中断する（Ｓ４４）。

トラッキング部５７は、ステップＳ４４の後、ステップＳ４３において検知されるドラッグ操作の開始時における外枠（例えば一重枠ＷＫ７）のフレーム画像における位置を示す座標をフレーム画像の識別情報と対応付けたトラッキング情報５９ａとしてメモリ５９に保存する（Ｓ４５）。また、トラッキング部５７は、そのオブジェクトに対するマスク処理フラグをオフにしてトラッキング情報５９ａを更新する（Ｓ４６Ａ）。なお、ステップＳ４６Ａの処理は、マスク制御部５８により行われてもよい。

トラッキング部５７は、ステップＳ４６Ａの後、ユーザ操作（つまり、ドラッグ操作からホールド操作）を検知すると（Ｓ４７）、ステップＳ４４において一旦停止していたマスク処理済みのフレーム画像の繰り下げ（再生）の再開を再生制御部５６に指示する。これにより、再生制御部５６は、監視映像の再生を再開できる。つまり、再生制御部５６により、監視映像を構成するマスク処理済みのフレーム画像の繰り下げが自動的に順次行われてモニタ５２に表示されていく（Ｓ４８Ａ）。ステップＳ４８Ａの後、ユーザ操作（つまり、マウスアップ操作）がトラッキング部５７により検知された場合には（Ｓ４９、ＹＥＳ）、図１６に示すバックエンドサーバ５０の処理は終了する。一方、ユーザ操作（つまり、マウスアップ操作）がトラッキング部５７により検知されない場合には（Ｓ４９、ＮＯ）、バックエンドサーバ５０の処理はステップＳ４３に戻り、ユーザ操作（つまり、マウスアップ操作）がトラッキング部５７により検知されるまで、ステップＳ４３〜ステップＳ４９の処理が繰り返される。

以上により、第３の実施形態の変形例の監視映像解析システム５では、ウェアラブルカメラ１０や車載カメラ３１等のカメラは、インシデント（例えば事件若しくは事故）に関する監視映像を撮像する。バックエンドサーバ５０は、カメラにより撮像された監視映像を構成する個々のフレーム画像全域にマスク処理を施してモニタ５２に表示して再生する。バックエンドサーバ５０は、監視映像の一時停止中に、監視映像を構成する複数のフレーム画像のうちの第１フレーム画像（例えばフレーム画像ＦＲ３１）に現れる単一のオブジェクト（例えばオブジェクトＯＢ７）の指定操作（選択操作）に応じて、指定（選択）された単一のオブジェクトＯＢ７をマスク処理の対象外として識別可能な表示態様で表示し、指定（選択）された単一のオブジェクトＯＢ７の位置情報を第１フレーム画像と対応付けてメモリ５９に保存し、かつ監視映像の再生を開始する。バックエンドサーバ５０は、監視映像の再生に伴って第１フレーム画像から後続するフレーム画像毎に、指定（選択）された単一のオブジェクトの指定操作（選択操作）により、指定（選択）された単一のオブジェクトをマスク処理の対象外として識別可能な表示態様で表示し、かつ指定（選択）された単一のオブジェクトの位置情報を個々のフレーム画像と対応付けてメモリ５９に保存する。バックエンドサーバ５０は、監視映像の再生に伴って指定（選択）された単一のオブジェクトがフレーム画像内に現れなくなるまで、監視映像の再生と指定（選択）された単一のオブジェクトの位置情報のメモリ５９への保存とを継続する。

これにより、監視映像解析システム５は、カメラにより撮像された監視映像に対してマスク処理が施されたフレーム画像に現れる人物を明らかにしておく必要がある場合に、マスク処理の対象外としての追加をフレキシブルに設定でき、かつ監視映像中における注目人物の所作を明らかにできて映像解析を支援できる。また、監視映像解析システム５は、一時停止中のフレーム画像に現れるオブジェクト（例えば人物）を長押し操作によって指定（選択）し続けることで監視映像の再生を開始できるので、長押し操作により指定（選択）されたオブジェクト（例えば人物）がフレーム画像内に現れなくなるまでオブジェクトの移動状況をユーザに明確に目視させることができ、マスク処理の対象外として追加していいかどうかを適正に判断させることができる。

また、バックエンドサーバ５０は、第１フレーム画像に現れる単一のオブジェクト（例えばオブジェクトＯＢ７）の指定位置から、監視映像の再生の開始に伴って指定（選択）された単一のオブジェクトが移動した位置まで、指定位置（選択位置）における指定状態が継続したまま移動する（例えば単一のオブジェクトＯＢ７が指定された位置からフレーム画像の繰り下げによって移動した単一のオブジェクトＯＢ３の位置までのドラッグ操作がなされる）まで、監視映像の再生を一時中断する。これにより、監視映像解析システム５は、フレーム画像の繰り下げによって移動した単一のオブジェクトの位置まで素早くかつ正確にドラッグ操作できるので、その単一のオブジェクトをマスク処理の対象として追加するための処理を時間的に無駄なく早期に行える。

また、バックエンドサーバ５０は、監視映像の再生中に、監視映像を構成する個々のフレーム画像中の指定（選択）された単一のオブジェクトに対して非マスク処理を施してモニタ５２に表示する。これにより、バックエンドサーバ５０のユーザは、予めマスク処理が施された監視映像の再生中に、自己の選択した単一のオブジェクトＯＢ７が非マスク処理された状況（言い換えると、単一のオブジェクトＯＢ７が鮮明な画像となった状況）を具体的に確認でき、その単一のオブジェクトＯＢ７をマスク処理の対象外として含めるべきか否かを適正に判断できる。

以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上記実施形態における各構成要素を任意に組み合わせてもよい。

例えば、上述第１の実施形態では、警察官によってマスク処理が不要であると判別されたオブジェクトを囲む枠は、点線の枠で示され、自動抽出されたオブジェクトを囲む実線の枠とは異なる表示態様であった。これらの表示態様は、一例であり、種々設定可能である。例えば、太い点線の枠や細い点線の枠、一点鎖線枠や二点鎖線枠、赤枠や青枠等のカラー枠、等が設定されてもよい。また、ユーザによって新たに追加されたマスク処理の候補となるオブジェクトを囲む枠も、自動抽出されたオブジェクトを囲む枠とは異なる表示態様で表示してもよい。

また、上述第１の実施形態では、バックエンドサーバが撮像された映像の中から人物の顔を認識する顔認識機能を有する場合を示したが、ウェアラブルカメラが顔認識機能を有してもよく、映像データファイルに顔認識された情報を付加してもよい。

また、上述第１の実施形態では、オブジェクトが複数であり、複数のオブジェクトの少なくとも１人が映っている映像をトラッキングする場合を示したが、全員が映っている映像をトラッキングしてもよいし、ユーザにより選択された特定のオブジェクトが少なくとも映っている映像をトラッキングしてもよい。

また、上述第１の実施形態では、オブジェクトが顔である場合を示したが、顔以外にも、人物の容姿、看板、車両、ナンバープレート等であってもよい。この場合、バックエンドサーバ５０は、フレーム上において、これらのオブジェクトを認識する機能を有する。

また、上述第１の実施形態では、オブジェクトを囲む枠の大きさは、顔の大きさに合わせて変更されたが、一定の大きさであってもよく、処理の負荷を軽減できる。この場合、複数のオブジェクトが近接していると、これらの枠は一部重複して表示されることもある。

また、上述第１の実施形態では、警察官が装着あるいは所持するウェアラブルカメラで撮像する場合を示したが、パトカーに搭載された車載カメラシステム（ＩＣＶ：In Car Videoシステム）で撮像する場合も、本発明は同様に適用可能である。

本発明は、映像に現れるオブジェクトをフレキシブルにマスク処理してそのオブジェクトのプライバシー保護を遵守しつつ、マスク処理の作業負荷軽減を支援する監視映像解析システム、監視映像解析方法及び監視映像解析プログラムとして有用である。

３警察官
５監視映像解析システム
１０ウェアラブルカメラ
５０バックエンドサーバ
５１入力部
５２モニタ
５３データ入力部
５４データ出力部
５６再生制御部
５７トラッキング部
５８マスク制御部
５９メモリ
５９ａトラッキング情報
５５１エンコーダ
５５２デコーダ
５５３マルチプレクサ
５５４デマルチプレクサ
５５５マスキング部
ＰＲＣプロセッサ

Claims

カメラと、前記カメラで撮像された映像を入力するサーバと、を備え、
前記サーバは、前記入力された映像を構成するそれぞれのフレーム画像に現れる少なくとも１つのオブジェクトを前記フレーム画像毎に検知し、
検知された少なくとも１つのオブジェクトの前記フレーム画像における位置情報を前記フレーム画像と対応づけてトラッキング情報として登録し、
前記フレーム画像をモニタに表示させるとともに、前記フレーム画像内において検知された少なくとも１つのオブジェクトを囲う枠をモニタに表示させ、
前記モニタからのユーザ操作により指定されたオブジェクトについては、全フレーム画像における位置情報をトラッキング情報から削除し、他の前記フレーム画像をモニタに表示させる際に前記枠を表示させない、
監視映像解析システム。
カメラと、前記カメラで撮像された映像を入力するサーバと、を備える監視映像解析システムにおける監視映像解析方法であって、
前記サーバは、
前記カメラで撮像された映像を入力し、
前記入力された映像を構成するそれぞれのフレーム画像に現れる少なくとも１つのオブジェクトを前記フレーム画像毎に検知し、
検知された少なくとも１つのオブジェクトの前記フレーム画像における位置情報を前記フレーム画像と対応づけてトラッキング情報として登録し、
前記フレーム画像をモニタに表示させるとともに、前記フレーム画像内において検知された少なくとも１つのオブジェクトを囲う枠をモニタに表示させ、
前記モニタからのユーザ操作により指定されたオブジェクトについては、全フレーム画像における位置情報をトラッキング情報から削除し、他の前記フレーム画像をモニタに表示させる際に前記枠を表示させない、
監視映像解析方法。
カメラと、前記カメラで撮像された映像を入力するサーバと、を備える監視映像解析システムにおいて、コンピュータである前記サーバに、
前記カメラで撮像された映像を入力するステップと、
前記入力された映像を構成するそれぞれのフレーム画像に現れる少なくとも１つのオブジェクトを前記フレーム画像毎に検知するステップと、
検知された少なくとも１つのオブジェクトの前記フレーム画像における位置情報を前記フレーム画像と対応づけてトラッキング情報として登録するステップと、
前記フレーム画像をモニタに表示させるとともに、前記フレーム画像内において検知された少なくとも１つのオブジェクトを囲う枠をモニタに表示させるステップと、
前記モニタからのユーザ操作により指定されたオブジェクトについては、全フレーム画像における位置情報をトラッキング情報から削除し、他の前記フレーム画像をモニタに表示させる際に前記枠を表示させないステップと、を実行させるための、
監視映像解析プログラム。