(第1の実施形態)
以下、本発明における第1の実施形態について、図面を参照しながら説明する。
本実施形態は、複数のネットワークカメラおよびネットワークカメラと対応するマイクをはじめとするセンサで構成される情報処理システムに関するものである。ネットワークカメラと対応するマイクは、例えばネットワークカメラに内蔵したマイクである。以後、ネットワークカメラのことをカメラと記述する。
カメラと対応するマイクから取得した音声情報に対して、検知対象となる音を、特定音と記述する。特定音は複数の方法で定義することが可能である。例えば、特定音は音の種類で定義する方法がある。本実施形態では特定音の種類が人の発する悲鳴である場合を例に説明するが、特定音はこれに限定されるものではない。また、特定音を定義する別の方法として、検知しない音を指定する方法がある。この方法を使用することで検知しない音に指定した音以外の音を特定音として検知することが可能となる。
また、設定した条件のもとで、マイクからの音声情報をもとに行う特定音の検知や、カメラからの映像情報をもとに行う動作する物体の検知などの処理を行った結果、特定音などを検知した場合に、イベントが発生する。また、検知対象となる特定音などを検知してその結果を出力することを、イベントを出力すると記述する。本実施形態では、出力されたイベントにより取得できる情報には、特定音の検知時間や検知場所などが含まれるが、これに限定されるものではない。
本実施形態では、ある事象の発生に伴って発生した特定の音(特定音)を検知する手段としてマイクを使用し、検知結果から取得できる音響特徴量を用いて映像を表示する際の優先度を決定する場合について説明する。
図1は、本実施形態の情報処理システムの構成を示すブロック図である。
本実施形態の情報処理システムには複数台のカメラ10a〜10cが含まれる。複数台のカメラ10a〜10cは、それぞれのカメラの設定に応じて画像情報や映像情報を取得し、取得した画像情報や映像情報と画角範囲などのカメラ本体情報とをサーバー50に送信することができる。また、それぞれのカメラは、簡易な画像処理であれば、画像内の特定の物体の検知や、動作の検出を行うことも可能である。複数台のカメラ10a〜10cの取得した画像情報や映像情報及び本体情報などは、後述するサーバー50に送信される。
本実施形態の情報処理システムには、複数台のマイク20a〜20cが含まれる。複数台のマイク20a〜20cは、それぞれのマイクの設定に応じてマイク周囲の音声情報を取得することができる。また、それぞれのマイクは、ノイズ除去やゲイン制御などの簡単な処理を行うことが可能である。複数台のマイク20a〜20cの取得した音声情報は、後述するサーバー50に送信される。本実施形態では各マイクがカメラと一対一対応しており、かつカメラ本体にマイクを装着(内蔵)して使用する場合を想定するが、これに限定するものではない。
サーバー50は、カメラやマイク、ディスプレイ30やスピーカー40などと接続される。サーバー50は、カメラやマイクから取得した画像情報や映像情報と音声情報とをもとに、特定音の検知や特定音を検知した時点の映像の認識、特定音を検知した時点の映像の優先度の決定などを行うことが可能である。本実施形態の情報処理装置は、少なくともサーバー50及びディスプレイ30を含む。
ディスプレイ30は、ディスプレイ30の設定に応じて複数のカメラの映像を同時に再生することが可能である。ディスプレイ30は、サーバー50から送信される映像を再生することができる。
スピーカー40は、スピーカー40の設定に応じて特定のマイクで取得した音声を再生することが可能である。また、スピーカー40は、ディスプレイ30の映像再生と同期して音声を再生することも可能である。
図2は、情報処理システムのハードウェア構成を示すブロック図である。
本実施形態では、情報処理システムが、図2に示すように5つのブロックに分かれているが、これに限定されるものではない。図2に示すように5つのブロックのうちのいくつかが1つのブロックで構成される場合も考えられる。
カメラ10は、図1の複数台のカメラ10a〜10cの何れか一つである。カメラ10の通信部11は、後述する映像取得部15が取得したデータをサーバーに送信する際に使用される。
カメラ10のCPU12は、メモリ13や記憶装置14に格納されているコンピュータプログラムやデータを用いてノイズ除去や画素補間などの各種処理を行う。
カメラ10のメモリ13は、後述する映像取得部15が取得したデータを、一時的に保持するためのワークエリアを有する。また、メモリ13は、CPU12が処理を行う際に必要なワークエリアも有する。
カメラ10の記憶装置14は、各種処理を行うためのコンピュータプログラムや、カメラの設定項目等を保持する。
カメラ10の映像取得部15は、例えばレンズや画像センサなどである。ユーザーは映像取得部15を用いることにより、視覚情報を映像データとして取得することができる。
マイク20は、図1の複数台のマイク20a〜20cの何れか一つである。マイク20の通信部21は、後述する音声取得部22が取得した音声データをサーバー50に送信する際に使用される。
マイク20の音声取得部22は、マイク周辺の音声や物音を取得することができる。必要に応じてノイズ除去など簡単な処理を実行することも可能である。マイク20が指向性を持つ場合もあり、この場合は、音声取得部22は、特定の方向や範囲からの音の取得が容易になる。マイク20が指向性を持つ場合、マイク20に対応するカメラ10の撮像方向や撮像範囲となるべく一致する方向や範囲から音声情報を取得することが望ましい。
ディスプレイ30の通信部31は、サーバー50から画像データを受信する際に使用される。
ディスプレイ30の映像表示部32は、通信部31を経由して取得したカメラの画像データをユーザーの目に見えるように表示する。
スピーカー40の通信部41は、サーバー50から音声データを受信する際に使用される。
スピーカー40の音声再生部42は、サーバーから受信した音声データを再生することができる。
サーバー50の通信部51は、カメラ10やマイク20が取得したデータの受信や、ディスプレイ30やスピーカー40へのデータの送信を行う際に使用される。
サーバー50のCPU52はメモリ53や記憶装置54に格納されているコンピュータプログラムやデータを用いて、カメラなどサーバーに接続している機器のCPUでは実行できない、若しくは各機器が各々持つ情報のみでは実行できない処理の実行を行う。例えば、CPU52は検知した特定音の発生位置がカメラの画角範囲内か否かを判定する処理や、複数のマイクで同一の特定音を検知した場合に特定音の発生位置を特定する処理などを実行する。
サーバー50のメモリ53は、サーバーに接続している機器から取得したデータや送信するデータを、一時的に保持するためのワークエリアを有する。また、メモリ53はCPU52が処理を行う際に必要なワークエリアも有する。
サーバー50の記憶装置54は、各種処理を行うためのコンピュータプログラムや、サーバーの設定項目等を保持する。
図3は、情報処理システムの機能構成を示すブロック図である。
カメラ10のカメラ制御部3101は、カメラ10が映像取得、物体認識などを滞りなく行うよう、タスクの管理を行う。
カメラ10の映像情報取得部3102は、映像取得部15を用いて、設定した条件下での映像情報を取得し、サーバー50の映像音声情報受信部3503に送信することができる。また、映像情報取得部3102は、映像取得部15を用いて、必要に応じて赤外像など可視光範囲外の映像の取得や、ノイズ除去や画素補間などの簡単な処理が実行された画像の取得を行うことも可能である。
マイク20のマイク制御部3201は、マイク20が音声取得、ノイズ除去などの各種前処理などを滞りなく行うよう、タスクの管理を行う。
マイク20の音声情報取得部3202は、音声取得部22を用いて、設定した条件下での音声情報を取得し、サーバー50の映像音声情報受信部3503に送信することができる。
本実施形態では、音声情報は映像情報と同期が可能な形でサーバー50の情報記憶部3504に記憶される。同期可能にするには、それぞれのファイルに時間情報を付与する方法や、同時に取得した音声情報と映像情報を1つのファイルで記憶する方法が考えられるが、これらの方法に限定されるものではない。
ディスプレイ30のディスプレイ制御部3301は、ディスプレイ30が、受信した情報の表示などを滞りなく行うよう、タスクの管理を行う。
ディスプレイ30の映像情報再生部3302は、映像表示部32を用いて、サーバーから受信した映像情報を設定した条件のもとで再生することができる。映像情報再生部3302による映像情報の再生は、例えば以下のような方法で実施される。すなわち、再生する映像が複数存在する場合、1つずつのカメラの映像を定期的に切り替えて表示する方法や、複数のカメラの映像を並列して表示する方法や、これらを組み合わせて表示する方法が考えられる。また、本実施形態で決定された映像の優先度に基づき、複数の映像を切替えて表示する場合は、優先度の高い映像を先に再生し、優先度の高い映像の再生時間を長く設定する方法が考えられる。また、表示画面を分割して複数の映像を表示する場合は、優先度の高い映像の再生時の表示領域を大きく設定する方法が考えられる。なお、映像の優先度に基づく映像の再生方法は、これらに限定されるものではない。
スピーカー40のスピーカー制御部3401は、スピーカー40が、受信した音声の再生を滞りなく行うよう、タスクの管理を行う。
スピーカー40の音声情報再生部3402は、音声再生部42を用いて、設定した条件下で音声情報を再生することができる。例えば、ディスプレイ30の映像情報再生部3302が映像情報を再生している場合に、スピーカー40の音声情報再生部3402は、再生中の映像情報を取得したカメラと対応するマイクから取得した音声情報を再生することも可能である。
サーバー50のサーバー制御部3501は、サーバー50が特定音を検知し、特定音の音源位置を推定し、映像の優先度を決定する処理などを滞りなく行うよう、タスクの管理を行う。
サーバー50のパラメータ設定部3502は、検知する特定音の種類や検知する条件などの指定、また、優先度を決定する際に用いる項目等の指定を行うことが可能である。また、パラメータ設定部3502は、サーバー50に接続したカメラやマイクなどの設定を行い、各機器に設定情報を送信することも可能である。それにより直接操作できない機器の設定や、複数の機器を一括で設定することが可能になる。
サーバー50の映像音声情報受信部3503は、カメラ10が出力する映像情報や画角情報、およびマイク20が出力する音声情報を受信することができる。また、映像音声情報受信部3503が受信した情報は、情報記憶部3504で作成したそれぞれのデータベースで管理される。映像情報は、一定時間ごとにファイル出力される。映像情報を含む出力ファイル(以降、映像情報ファイル)は、当該映像情報ファイルを出力したカメラのカメラID、および映像情報の取得期間と関連付けてデータベースで管理される。以降、映像情報を管理するデータベースを映像情報データベースと呼称する。音声情報は、画像情報(映像情報)と同様、一定時間ごとにファイルに出力される。音声情報を含む出力ファイル(以降、音声情報ファイル)は、当該音声情報を取得したマイクのマイクID、および音声情報の取得期間と関連付けてデータベースで管理される。以降、音声情報を管理するデータベースを音声情報データベースと呼称する。
サーバー50の情報記憶部3504は、映像音声情報受信部3503が受信した映像情報及び音声情報で作成された映像情報データベース及び音声情報データベースを記憶する。さらに、情報記憶部3504は、後述する特定音検知部3505で作成するイベント情報データベースを記憶する。本実施形態では、情報記憶部3504、複数のデータベースを記憶しているが、これに限定されるものではない。
サーバー50の特定音検知部3505は、パラメータ設定部3502で設定した特定音検知に関するパラメータに基づき、マイクが取得した音声情報から音響特徴量を抽出し、音響モデルとのマッチングによって特定音を検知する。特定音検知部3505は、特定音を検知した場合にイベントの出力などを行う。特定音を検知するためのパラメータは例えば、検知する特定音の種類や、検知の条件などを指定するものである。特定音の種類は、例えば、人間の悲鳴やガラスが割れる音など音の種類である。検知の条件は、特定音の開始もしくは終了を検知した場合などである。
特定音検知部3505から出力されるイベントには、例えば、イベントID、マイクID、検知した特定音の種類、イベントの種類、特定音を検知した時刻、検知した特定音の音声情報に関する音響特徴量が含まれる。イベントIDとはイベントを識別するためにイベント毎に付与されるIDのことである。マイクIDとは検知した音声を取得したマイクを識別するために付与されるIDのことである。イベントの種類とはイベントが出力される際に満たした条件のことで、例えば、特定音の開始もしくは終了などである。特定音には悲鳴や罵声、銃の発砲音、ガラスが割れる時の破壊音などが挙げられる。また、本実施形態ではサーバー50の特定音検知部3505が特定音を検知する処理を行っているが、これに限定するものではない。また、本実施形態では音響特徴量として音量を使用する場合を例に説明する。特定音検知部3505から出力されたイベントは、データベースで管理される。イベント情報を管理するデータベースをイベント情報データベースと呼称する。
サーバー50の優先度決定部3506では、パラメータ設定部で指定した優先度決定に関する項目に基づき、特定音を検知した結果を用いて、設定された項目の優先度を決定する。優先度を決定するためにパラメータ設定部が指定する項目は、優先度決定時に使用する情報の種類である。すなわち、映像情報や音声情報などのうち、いずれの情報を使用して優先度を決定するかを指定する。また、映像情報や音声情報などで優先度を決定できなかった場合に、優先度を決定するために使用する他の情報を指定する。本実施形態では音声情報、とくに音声情報の音響特徴量として音量を使用して、音声情報の優先度を決定する場合について記述する。また、音響特徴量だけで優先度を決定できない場合は、さらにカメラIDにより優先度を決定する方法について記述する。本実施形態ではここで記載した項目を指定する場合について記載するが、この方法に限定するものではない。詳細な優先度決定方法については、図5を用いて説明する。また、本実施形態では、マイクを内蔵した複数のカメラによって情報処理システムが構成されているので、それぞれのマイクによって取得された音声情報に対応する映像情報は、そのマイクを内蔵したカメラが音声情報に同期して撮像した映像である。そこで、音声情報の優先度は、その音声情報に対応する映像情報の優先度になるので、音声情報の優先度を決定することによって、映像情報の優先度を決定することができる。
映像音声情報送信部3507は、優先度決定部3506が決定した優先度に基づき、ディスプレイ30やスピーカー40で再生する映像情報や音声情報を送信することができる。
図4は、情報処理システムにおける映像の優先度決定手順を示すフローチャートである。以下、フローチャートは、CPU52が制御プログラムを実行することにより実現されるものとする。
ステップS401では、サーバー50のパラメータ設定部3502において、ユーザーの操作に基づき、検知する特定音の種類や検知する条件の指定や、映像の優先度を決定する際に考慮する項目等の指定を行う。例えば、検知する条件の指定においては特定音の開始もしくは終了を検知した場合などに特定音の検知を行うように設定することができる。
ステップS402では、カメラ10の映像情報取得部3102が映像情報を取得する。また、カメラと対応しているマイクの音声情報取得部3202が音声情報を取得する。取得された映像情報及び音声情報はサーバーに送信される。サーバー50の映像音声情報受信部3503が受信した映像情報及び音声情報は、情報記憶部3504にある画像情報データベース、音声情報データベースにそれぞれ保存される。
ステップS403では、音声情報データベースに保存された音声情報に対して、パラメータ設定部3502で設定したパラメータに基づき、サーバー50の特定音検知部3505が特定音の検知処理を実施する。検知処理の結果、特定音が検知された場合はイベント情報を出力する。出力されたイベント情報は、情報記憶部3504にあるイベント情報データベースに保存される。本実施形態では、それぞれがマイクを内蔵する複数のカメラが設定された場所において、特定音の種類として人の悲鳴が設定された場合に、特定音検知部3505が複数のカメラに内蔵された複数マイクの音声情報から特定音である人の悲鳴を検出したとする。特定音検知部3505が複数マイクの音声情報から特定音を検出したことに対応して、複数のイベント情報を出力し、イベント情報データベースに保存する。ここで保存されるイベント情報は同一事象に関するものであるとする。
ステップS404では、優先度決定部3506は、情報記憶部3504にある同一事象に関するイベント情報データベースのイベント情報を用いて、同一事象を検知した一連のイベントに対応する映像情報や音声情報の優先度を決定する処理を実施する。優先度決定部3506が優先度を決定する処理の詳細については、図5を用いて説明する。
図5は、情報処理システムにおいて、音響特徴量で映像優先度を決定する手順を示すフローチャートである。
ステップS501では、優先度決定部3506は、イベント情報データベースに保存されている複数のイベント情報から、1つのイベント情報を選択する。優先度決定部3506は、イベント情報を選択することにより、イベントIDや当該イベントを出力したマイクと対応するカメラのカメラIDなどのイベント情報を取得することができる。
ステップS502では、優先度決定部3506は、取得したイベント情報から、イベントが検出された時刻に、マイクが取得した音声情報の音響特徴量を取得する。本実施形態では音響特徴量として音量を使用した例を記述する。
ステップS503では、優先度決定部3506は、選択中のイベントの他に、既に優先度を決定したイベントが他に存在するか否かを判定する。優先度を決定したイベントが他に存在する場合はステップS504に進み、存在しない場合はステップS505に進む。
ステップS504では、優先度決定部3506は、選択中のイベントが検出された時刻の音量と、既に優先度が決定している他のイベントが検出された時刻の音量と比較して、優先度を再度決定する。このステップでは、優先度決定部3506は、音量がより大きい方のイベントの優先度を高く、音量がより小さい方のイベントの優先度を低くするように再決定する。ここで、イベントの優先度を高くすることは、特定音が検出された際のイベントに対応する音声情報の優先度を高くし、音声情報に対応する映像情報の優先度を高くすることになる。
ステップS505では、優先度決定部3506は、現在選択中のイベントに対して、優先度を最も高く設定する。ここでも、同様に、イベントの優先度を高くすることは、特定音が検出された際のイベントに対応する音声情報の優先度を高くし、音声情報に対応する映像情報の優先度を高くすることになる。
ステップS506では、選択中のイベントと音量が同じイベントが存在するか否かを判定する。音量が同じイベントが存在する場合はステップS507に進み、存在しない場合はステップS508に進む。
ステップS507では、パラメータ設定部3502で指定した優先度決定に関する項目に基づき、イベントの優先度を決定する。優先度を決定する基準は例えば、カメラIDの順番などが挙げられる。
ステップS508では、優先度決定部3506は、イベント群に含まれる全てのイベントに対して、優先度を決定したか否かを判定する。全てのイベントに対して優先度が決定している場合は、イベントに対応する音声情報やその音声情報に対応する映像情報の優先度の決定処理が終了し、優先度が決定していないイベントがある場合は、ステップS501の処理に戻る。
図5で説明した処理では、優先度決定部3506は、音声情報から特定音を検知した時に出力したイベントの優先度を決定し、イベントに対応する音声情報やその音声情報に対応する映像情報の優先度を決定する。映像情報や音声情報の優先度を決定する方法は、図5の説明に限らない。例えば、優先度決定部3506は、特定音を検知した音声情報から音響特徴量である音量に関する情報を取得し、音量の大きさに基づいて、直接に音声情報及びその音声情報に対応する映像情報の優先度を決定してもよい。
本実施形態における映像情報の表示方法の一例を説明する。図19(a)に、ディスプレイ30がカメラA〜カメラIのそれぞれが撮像した映像情報を一覧表示する画面を示す。これらの映像情報の表示中に、カメラA〜カメラCに対応するマイクの取得した音声情報から悲鳴が特定音として検出され、カメラG〜カメラIに対応するマイクの取得した音声情報から銃声が特定音として検出されたとする。ここで、監視者の指定により、又はデフォルトの設定により、カメラA〜カメラCが撮像した映像情報が、図19(b)に示すように切り替えて表示される。即ち、ディスプレイ30が、優先度決定部3506が決定した優先度に基づいて、カメラA〜カメラCが撮像した映像情報を切替えて表示する。これにより、ディスプレイ30が、監視者に優先して確認すべき映像を提示することができる。
(第2の実施形態)
第1の実施形態では、映像情報の優先度を決定する際に音響特徴量の一つである音量を用いた。第1の実施形態の方法では、特定音の音源付近が撮影範囲ではないカメラ、例えば、特定音の音源の真上に設置され、音源付近が撮影の死角であるカメラの映像の優先度が高くなる場合が発生する可能性がある。このようなカメラの映像の優先度が高くなる場合、音源付近が撮影されている本来優先度が高くなるべきカメラで撮像した映像の優先度が低くなってしまう。第2の実施形態では、優先度を決定する際に音響特徴量とカメラの向きに関する情報を用いる例を図6〜図9を用いて説明する。第2の実施形態の情報処理システムのハードウェア構成は、第1の実施形態のハードウェア構成と同じであるので、その説明を省略する。
図6は、本実施形態の情報処理システムにおいて、カメラで撮像した映像の優先度を音声情報とカメラの撮像範囲情報を用いて決定する場合のカメラおよびサーバーの機能構成を示すブロック図である。本実施形態は、第1の実施形態の図3に示す一部の機能ブロックと同様の機能ブロックを有するので、図6では、機能が異なるブロックもしくは追加されたブロックについてのみ記載し、図3の機能ブロックと同じ機能ブロックの記載は省略する。
カメラ10のカメラ制御部6101の画角方向取得部6103は、カメラ10の記憶装置14に格納されているカメラの画角に関する情報(以降、画角情報と呼称)を、所定の頻度で取得することができる。また、カメラ制御部6101は、画角方向取得部6103が画角情報を取得する頻度を設定することもできる。画角情報とは、取得時点でのカメラの設置箇所、初期設定時の基準方向、初期設定時の基準方向に対する左右方向と上下方向の現時点での回転角度、さらに現時点での拡大倍率である。画角方向取得部6103の取得した画角情報により、カメラ制御部6101は、カメラが映像情報を取得している撮像範囲を変更又は指定することができる。また、画角情報は、画角方向取得部6103から設定した時間間隔でサーバー50に出力される。出力された画角情報は、この画角情報を出力したカメラ10のID、および画角情報の出力時間と関連付けてサーバー50の情報記憶部6504にあるデータベースで管理される。以降、このデータベースを画角情報データベースと呼称する。
サーバー50の情報記憶部6504は、画角情報データベース、および後述する音源位置推定部6506で作成する音源位置データベースを保存する。
音源位置推定部6506は、イベントの情報および、画角情報データベースに含まれる同イベント情報を出力したカメラの画角情報を用いて、検知した音の発生位置を推定する。音源位置を推定する方法には、マイクアレイを使用する方法や、同期している複数のマイクを用いた音源定位法がある。これは、配置位置が明らかである複数のマイクにおいて、特定の音のマイクへの到達時間差および、音量を取得することにより音源位置を推定する方法である。本実施形態では、イベントの種類、検知した特定音の種類が同じでかつイベント発生時間が所定の範囲内のイベントを出力した複数のマイクにおいて、マイク間の距離、イベントの出力時間差、検知した特定音の音量を用いることにより音源位置を推定する。本実施形態では以上の手法で音源位置を推定するが、これらの方法に限定するものではない。例えば、指向性を持つマイクの使用により音源位置を推定する方法などが存在する。音源位置を推定した結果、音源位置の推定に使用した全てのマイクに対して、マイクの設置位置から音源位置までの距離と方向を取得することができる。また、推定した音源位置や音源位置の推定に使用したイベントに関する情報は音源IDで管理される。すなわち音源IDは、音源位置推定に使用したイベントのイベントID、各イベントを出力したマイクから音源までの距離情報や方向情報と関連付けることにより、データベースで管理される。以降、このデータベースを音源位置データベースと呼称する。
サーバー50の判定部6507は、特定音検知時に、検知した音の音源位置が各イベントを出力したマイクと関連付けられているカメラの画角内(撮像範囲)であるか否かを判定する。判定は、パラメータ設定部6502で設定した画角内判定に関するパラメータに基づき、音源位置とカメラの画角情報を用いて実行される。音源位置は、音源位置推定部6506で取得した音源位置データベースの情報から取得できる。カメラの画角情報は、画角情報データベースに含まれる同イベント情報を出力したカメラの画角情報から取得できる。音源位置が各カメラの画角内であるか否かの判定結果は、イベントID毎に付与され、音源位置データベースで管理される。画角内判定を行うために設定されたパラメータは、例えばカメラから推定した音源位置までの、画角内と判定するために隔ててよい距離の上限値や、画角内と判定しない画像周辺部の画素数などである。画角内と判定しない画像周辺部の画素数とは、推定した音源位置が画像内に存在しても画角内と判定しない領域の大きさを決定する画素数のことである。画角内と判定しない領域とは、画像の上下左右の端部から指定した画素数分の辺縁領域のことである。推定した音源位置が、各ネットワークカメラの画角内か否かの判定方法の詳細については、図9を用いて説明する。本実施形態では、推定した音源位置と音源位置がイベントを出力したマイクと関連付けられているカメラの画角内に存在するか否かの判定結果を用いて映像の優先度を決定しているが、この方法に限定するものではない。例えば音源位置に近いカメラの映像ほど優先度を高くするなど、音源位置の情報のみで優先度を決定することも可能である。
サーバー50の優先度決定部6508では、パラメータ設定部6502で指定した優先度決定に関する項目に基づき、特定音を検知した結果と、音源位置データベースの情報を用いて映像情報の優先度を決定する。優先度を決定するために指定する項目は、優先度決定時に使用する情報の種類である。すなわち、音声情報において、いずれの情報を使用して優先度を決定するかを指定する。本実施形態では音響特徴量として音量を使用する場合について記述する。また、音声情報でその音声情報に対応する映像情報の優先度を決定できなかった場合に、優先度を決定するために使用する情報の種類をさらに指定する。例えば、音響特徴量(音量)で映像情報の優先度を決定できない場合、カメラIDにより映像情報の優先度を決定する。
図7は、情報処理システムにおいてカメラで撮像した映像情報の優先度を音声情報とカメラの撮像範囲情報を用いて決定する場合の優先度決定手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第1の実施形態の図4に示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。なお、図7のステップS701、ステップS702及びステップS704の処理内容は、それぞれ図4のステップS401、ステップS402及びステップS403の処理内容と同じであるので、その説明を省略する。
ステップS703では、カメラ10の画角方向取得部6103は、カメラの画角情報を取得する。取得された情報はサーバー50に送信される。サーバー50の映像音声情報受信部6503が受信した情報は、情報記憶部6504にある画角情報データベースに保存される。
ステップS705では、サーバー50の音源位置推定部6506は、イベント情報とカメラの画角情報を用いて、パラメータ設定部6502で設定したパラメータに基づき、検知した音声の音源位置を推定する。特定音検知部6505が特定音を検知して出力したイベント情報は情報記憶部6504のイベント情報データベースに保存されている。カメラの画角情報は画角情報データベースに保存されている。音源位置推定部6506が音源位置の推定処理を実行して取得した音源位置推定結果は、情報記憶部6504にある音源位置データベースに保存される。
ステップS706では、優先度決定部6508は、情報記憶部6504のイベント情報データベースの情報を用いて、パラメータ設定部6502で指定した優先度決定に関する項目に基づき、映像情報の優先度を決定する。即ち、優先度決定部6508は、特定音を検知した結果と、音源位置データベースの情報を用いて映像情報の優先度を決定する。優先度決定部6508が映像情報の優先度を決定する処理の詳細については、図8を用いて説明する。
図8は、情報処理システムにおいて音響特徴量とカメラの撮像範囲情報を用いて映像優先度を決定する手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第1の実施形態の図5に示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。なお、図8のステップS801及びステップS802の処理内容は、それぞれ図5のステップS501及びステップS502の処理内容と同じであるので、その説明を省略する。
ステップS803では、判定部6507は、音源位置の情報とカメラの画角情報を用いて、特定音検知時に、検知した音の音源位置が各イベントを出力したマイクと対応するカメラの画角内(撮像範囲内)であるか否かを判定する。判定は、パラメータ設定部6502で設定したパラメータに基づいて実行される。また音源位置の情報は、情報記憶部6504にある音源位置データベースに保存されている情報を使用する。カメラの画角情報は、画角情報データベースに保存されている情報を使用する。判定部6507が実行した判定処理の判定結果は、イベント情報データベースに保存される。判定部6507の判定処理の具体的な手順は、図9を用いて説明する。なお、本実施形態では、推定した音源位置と音源位置がイベントを出力したマイクと関連付けられているカメラの画角内に存在するか否かの判定結果を用いて映像の優先度を決定している。従って、ステップS803において音源位置がカメラの画角内であるか否かの判定処理を行っている。なお、カメラの画角情報を用いないでカメラの撮像した映像の優先度を決定する場合は、イベントを出力したマイクと関連付けられているカメラの設置位置と音源位置の間の距離を用いる方法も考えられる。
ステップS804では、取得した音響特徴量およびカメラの画角内判定結果を、それぞれに応じた基準に基づいて評価値に変換する。なお、音源位置が画角内に存在するか否かの判定結果を使用しない場合は、音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離を、評価値に変換する。本実施形態では音響特徴量を0から5の整数の評価値に変換する。音響特徴量から評価値に変換するための対応表の例を図16に載せる。例えば、音響特徴量が音量である場合、パラメータ設定部6502で設定した基準音量に対する比率を用いて評価値に変換する。基準音量に対する比率が0.8以上1.0未満の場合、評価値は3となる。
ステップS805で、それぞれのマイクから取得した音声情報に基づいて特定音検知部6505が検出した複数のイベント(特定音)から、優先度決定部6508は、選択しているイベントについてステップS804で得られた評価値を基にスコアを算出する。スコアとは有効な評価値の総和である。本実施形態では、音響特徴量とカメラの向きに関する評価値を使用してスコアを算出する。
ステップS806の処理内容は、ステップS503の処理内容と同じである。優先度を決定したイベントが他に存在する場合はステップS807に進み、存在しない場合はステップS808に進む。
ステップS807では、選択中のイベントが検出された時刻のスコアを、既に優先度が決定している他のイベントが検出された時刻のスコアと比較して優先度を再度決定する。優先度決定部6508は、スコアを比較した結果、スコアが大きい方の優先度を高く、小さい方の優先度を低くする。
ステップS809では、選択中のイベントとスコアが同じイベントが存在するか否かを判定する。スコアが同じイベントが存在する場合はステップS810に進み、存在しない場合はステップS815に進む。
ステップS810では、優先度決定部6508は、選択中のイベントとスコアが同じイベントとの優先度を決定する場合である。優先度決定部6508は、選択中のイベント検出時のカメラの向きに関する評価値を、既に優先度が決定している他のイベント検出時のカメラの向きに関する評価値と比較して優先度を決定する。優先度決定部6508は、評価値の和が大きい方の映像の優先度を高く、小さい方の映像の優先度を低くする。なお、優先度決定部6508は、音源位置が画角内に存在するか否かの判定結果を使用しない場合は、音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離に関する評価値を使用する。この場合、例えば、音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離が小さいほど評価値が高く、優先度決定部6508は、対応する映像の優先度を高くする。
ステップS811では、選択中のイベントとカメラの向きに関する評価値が同じイベントが存在するか否かを判定する。なお、カメラの向きに関する評価値を使用しない場合は、音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離が同じイベントが存在するか否かを判定する。カメラの向きに関する評価値もしくは音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離が同じイベントが存在する場合はステップS812に進み、存在しない場合はステップS815に進む。
ステップS813の処理は、ステップS506の処理と同じである。音響特徴量に関する評価値の和が同じイベントが存在する場合はステップS814に進み、存在しない場合はステップS815に進む。ここで、ステップS814及びステップS815の処理は、それぞれ図5のステップS507及びステップS508の処理と同じであるので、その説明を省略する。
図9は、情報処理システムにおける推定した音源位置の画角内含有判定手順を示すフローチャートである。
ステップS901では、判定部6507は、音源位置データベースから、既に選択済みのイベントのイベントIDと関連付けられている音源IDを取得する。
ステップS902では、判定部6507は、取得した音源IDと関連付けられており、かつ音源位置を推定する際に使用したイベントのイベントIDを用いて、当該イベントを出力したマイクと対応するカメラの画角情報を1つ取得する。イベント情報データベースを用いることで、イベントIDから当該イベントを出力したカメラのIDを取得することが可能である。さらに、画角情報データベースを用いることで、カメラIDから当該カメラの任意の時刻の撮影方向およびズーム倍率を取得することが可能である。判定部6507は、撮影方向とズーム倍率から画角情報を取得することが可能である。
ステップS903では、判定部6507は、特定音を検知した時刻において、音源位置が選択したカメラの撮影範囲内に含まれるか否かを判定する。カメラの撮影範囲は、ステップS902で取得したカメラの画角情報と、パラメータ設定部6502で設定した画角内と判定しない画像周辺部の画素数から算出できる。パラメータで設定する上記画素数は、カメラの倍率が初期設置時の値である場合に撮影される画像に対して適用する値である。またカメラの撮影範囲は角度のみで決定できる領域で、距離による制限はない。音源位置は、ステップS901で取得した音源IDと関連付けられている、各イベントを出力したマイクから音源への方向情報および距離情報と、画角情報データベースから取得できる各マイクの設置場所の情報から算出できる。音源位置が選択したカメラの撮影範囲内に含まれる場合はステップS904に進み、含まれない場合はステップS906に進む。
ステップS904では、特定音を検知した時刻において、音源位置から選択したカメラまでの距離が、パラメータ設定部6502で設定した画角内と判定するために隔ててよい距離の上限値以下であるか否かを判定する。選択したカメラから推定した音源までの距離が、パラメータ設定部6502で設定した距離の上限値以下であれば、ステップS905に進み、上限値以上であれば、ステップS906に進む。
ステップS905では、判定部6507は、選択したカメラの画角内に、音源位置が含まれると判定する。
ステップS906では、判定部6507は、選択したカメラの画角内に、音源位置は含まれないと判定する。
ステップS907では、選択中のイベント群に含まれるイベントを検出した全てのカメラに対して、判定部6507は、推定した音源位置が選択したカメラの画角内に含まれるか否かの判定を実施したか否かを判定する。音源位置がカメラの画角内にあるか否かの判定を全てのカメラで実施した場合、推定した音源位置の画角内含有判定処理を終了し、全てのカメラで実施していない場合はステップS902に戻る。
本実施形態の処理によって、特定音の音源位置がカメラに近いが、特定音の音源位置がそのカメラの撮影の死角にあるために、特定音の音源位置を映っていないカメラの映像を表示する優先度を高くすることを防止することができる。
(第3の実施形態)
第2の実施形態では、映像の優先度を決定する際に音響特徴量の一つである音量と、検知した特定音の音源位置情報を用いた例を記載し、音源位置が画角内に存在するカメラの映像の再生が優先される。一方、第3の実施形態では、第2の実施形態の情報処理システムの構成に加えて、映像の優先度を決定する際に映像情報から取得できる特徴量を用いる例を図10〜図12を用いて説明する。また、第3の実施形態の情報処理システムのハードウェア構成は、第1の実施形態のハードウェア構成と同じであるので、その説明を省略する。
図10は、情報処理システムにおいてカメラで撮像した映像の優先度を音声情報と映像情報とカメラの撮像範囲情報を用いて決定する場合のサーバーの機能ブロック図である。本実施形態は、第2の実施形態の図6に示す一部の機能ブロックと同様の機能ブロックを有するので、図10では、機能が異なるブロックもしくは追加されたブロックについてのみ記述し、図6の機能ブロックと同じ機能ブロックの記載は省略する。
サーバー50の映像特徴量抽出部10508は、映像情報に対して動体検知などの映像認識を行い、特定音を検知した時刻にカメラが撮像した映像から映像特徴量を抽出する。映像から映像特徴量を抽出するにあたり、映像特徴量抽出部10508は、映像情報データベース、画角情報データベース、音源位置データベースの情報を使用する。映像情報は、特定音の検知時刻に音源位置が画角内に存在する映像を使用する。例えば、映像特徴量抽出部10508は、映像情報から動体検知を実施する場合、抽出する映像特徴量は、動体の検知時間や動体の最大サイズである。これらの特徴量はイベントIDと関連付けられる。本実施形態では、第1の実施形態と同様に、特定音は人の悲鳴であると定義し、動体は人体である。即ち、映像特徴量抽出部10508は、映像情報から動体検知を実施する場合、抽出する映像特徴量は、人体の検知時間や人体の最大サイズである。
優先度決定部10509では、特定音を検知した時刻にカメラが撮像した映像から取得した映像特徴量と、音源位置データベースの情報と、イベント情報データベースの情報を用いて、映像の優先度を決定する。優先度の決定は、パラメータ設定部10502で指定した優先度決定に関する項目に基づいて実行される。優先度決定部10509が映像の優先度を決定するために、パラメータ設定部10502が指定する項目は、優先度決定時に使用する情報の種類である。すなわち、映像情報や音声情報などのうち、いずれの情報を使用して優先度を決定するかを指定する。本実施形態では映像情報と音声情報の両方を使用して映像の優先度を決定する場合について記述する。また、映像情報や音声情報などで映像の優先度を決定できなかった場合に、優先度を決定するために使用する情報を指定する。本実施形態ではカメラIDにより、カメラの撮像した映像の優先度を決定する場合について記述するが、この方法に限定するものではない。詳細な優先度決定方法については、図12を用いて説明する。
図11は、情報処理システムにおいてカメラで撮像した映像の優先度を音声情報と映像情報とカメラの撮像範囲情報を用いて決定する場合の優先度決定手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第2の実施形態の図7のフローチャートに示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。なお、図11のステップS1101〜ステップS1105の処理内容は、それぞれ図7のステップS701〜ステップS705の処理内容と同じであるので、その説明を省略する。
ステップS1106では、映像特徴量抽出部10508は、映像情報データベースと画角情報データベース、音源位置データベースの情報を用いることにより、特定音を検知した時刻近傍の映像から特徴量を抽出する。本実施形態では映像特徴量として、人体の検知時間や人体の最大サイズを抽出した。
ステップS1107では、情報記憶部10504の音源位置データベースおよびイベント情報データベースの情報を用いて、パラメータ設定部10502で指定した優先度決定に関する項目に基づき、優先度決定部10509が映像の優先度を決定する。映像の優先度を決定する処理の詳細については、図12を用いて説明する。
図12は、情報処理システムにおいて、優先度決定部10509が音響特徴量と映像特徴量で映像優先度を決定する手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第2の実施形態の図8のフローチャートに示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。
ステップS1203では、映像特徴量抽出部10508は、推定した音源位置が画角内に存在する映像情報に対して人体検知などの映像認識を行い、特定音を検知した時刻にカメラの撮像した映像から映像特徴量を抽出する。映像特徴量の抽出には、音源位置の情報とカメラの画角情報、特定音を検知した時点を含む所定時間の映像情報が使用される。音源位置の情報は、情報記憶部10504にある音源位置データベースに保存されている。カメラの画角情報は、画角情報データベースに保存されている。特定音を検知した時点を含む所定時間の映像情報は、映像情報データベースに保存されている。特徴量の抽出はパラメータ設定部10502で設定したパラメータに基づいて実行される。
ステップS1205では、選択しているイベントについてステップS1204で得られた評価値を基にスコアを算出する。スコアとは有効な評価値の総和である。本実施形態では、音響特徴量として音量に関する評価値と、カメラの向きとして音源位置に関する評価値と、映像特徴量として人体検知時間と検知した人体のサイズに関する評価値を使用する。
ステップS1211では、優先度決定部10509が選択中のイベントに関する特定の評価値の和を、既に優先度が決定している他のイベントに関する特定の評価値の和と比較して映像の優先度を決定する。スコアが同じイベントの間で優先度を決定する場合、優先度決定部10509が特定の評価値の和を比較することで映像の優先度を決定する。特定の評価値とはイベント検出時のカメラの向きに関する評価値と、人体検知時間に関する評価値と、検知した人体サイズに関する評価値である。優先度決定部10509は、評価値の和が大きい方の優先度を高く、小さい方の優先度を低くする。
ステップS1212では、優先度決定部10509は、選択中のイベントとカメラの向きに関する評価値および人体検知時間と検知した人体サイズに関する評価値の和が、同じであるイベントが存在するか否かを判定する。カメラの向きに関する評価値および人体検知時間と検知した人体サイズに関する評価値の和が同じイベントが存在する場合はステップS1213に進み、存在しない場合はステップS1216に進む。ここで、ステップS1213〜ステップS1216の処理は、それぞれ図8のステップS812及びステップS815の処理と同じであるので、その説明を省略する。
本実施形態の処理によって、映像特徴量として抽出した人体のサイズが大きいほど、悲鳴発声者により近いネットカメラの撮像した映像であると推定し、その映像を表示する優先度を高くすることができる。
(第4の実施形態)
第1の実施形態から第3の実施形態までは、一つの地点で特定音(例えば、人の悲鳴)が複数のカメラに内蔵されたマイクの音声情報から検知した場合に対する情報処理システムの処理について説明した。第4の実施形態では、情報処理システムは、複数の地点で同じ種類の特定音(例えば、人の悲鳴)を検知した場合、それぞれの複数の地点における特定音の検知結果を区別して、複数のカメラで撮像した映像の優先度を決定する場合について説明する。複数の地点で検知された特定音の区別が行われない場合、映像の優先度に従って映像を確認する際に、確認したい場所とは異なる場所の映像が混在し、確認の効率が低下する可能性がある。第4の実施形態では、映像の優先度を決定する際に、同一の事象と考えられる検知結果に対して優先度決定処理を実施する。さらに同一事象を検知した複数の結果から、提示する映像を選択する処理を実行する。すなわち、本実施形態では、情報処理システムがカメラ監視者に提示する映像を選択する例を図13〜図15を用いて説明する。
なお、複数の検知結果をもとに提示する映像を選択する処理は、複数の検知結果が同一事象を検知した結果でない場合でも適用可能である。すなわち、本実施形態だけでなく、他の実施形態に適用可能である。しかし、提示する映像を選択する処理の効果が最も発揮される場合が、本実施形態で想定するような同一事象に対する検知結果が複数存在する場合であると考えられるため、本実施形態で説明する。
図13は、情報処理システムにおいてカメラで撮像した映像の優先度を同一事象に対するイベントに関する音声情報と映像情報とカメラの撮像範囲情報を用いて決定し、優先度をもとに映像を表示する場合のサーバーの機能ブロック図である。本実施形態は、第3の実施形態の図10に示す一部の機能ブロックと同様の機能ブロックを有するので、図13では、機能が異なるブロックもしくは追加されたブロックについてのみ記述し、図10の機能ブロックと同じ機能ブロックの記載は省略するする。
同一事象イベント抽出部13506では、パラメータ設定部13502で設定したパラメータに基づき、イベント情報データベース内のイベントに対して、検知した事象を区別する。本実施形態では、同一事象に対するイベントであると判断するパラメータは、検知した特定音の種類、イベントの種類、他のイベントとの検知時間差の最大値、そして他のマイクとの距離の最大値である。
特定音の種類とは、例えば、悲鳴や罵声、銃の発砲音、ガラスが割れる時の破壊音などである。また、イベントの種類とは、イベントが出力される際に満たした条件のことで、例えば、特定音の開始もしくは終了などである。
他のイベントとの検知時間差の最大値とは、同一事象に対するイベントであるか否かを判定する時間的な条件である。あるイベントに対して判定を行う場合、当該イベント発生時刻から、設定した最大値まで遡った時刻の間に検知されたイベントに対して判定処理を行う。即ち、所定時間内にイベント(特定音)が複数回検知された場合、これらのイベントは同一事象に対するものと判定される。例えば、検知時間差の最大値の所定時間を0.5秒と設定した場合、同一事象に対するイベントであるか否かを判定したいイベントの検知時刻から0.5秒以前に検知したイベントに対して、上記の判定を行う。
また、他のマイクとの距離の最大値とは、同一事象に対するイベントであるか否かを判定する空間的な条件である。あるイベントに対して判定を行う場合、当該イベント発生場所から、設定した最大値まで離れた場所の間で検知されたイベントに対して判定処理を行う。即ち、所定範囲内に複数のイベント(特定音)が検知された場合、これらのイベントは同一事象に対するものと判定される。例えば、検知距離の最大値の所定範囲を10メートルと設定した場合、同一事象に対するイベントであるか否かを判定したいイベントの検知場所から10メートル以内の別の検知場所で検知したイベントに対して、上記の判定を行う。
なお、本実施形態では、同一事象に対するイベントであるか否かを判定する空間的な条件として、イベントを検知したマイク間の距離を使用しているが、このほかにも推定した音源位置を使用する方法も考えられる。この場合、設定するパラメータは、音源位置が同一であると判断できる最大の誤差となる。すなわち、誤差の最大値を1メートルと設定した場合、それぞれのイベント情報から推定した音源位置の差が1メートル以内である場合は、同一事象を検知した結果であると判定する。なお、空間的な条件を規定する方法はこれに限定されない。同一の事象を検知したイベントであるか否かは、以上の条件を満たすか否かで判定する。パラメータが複数設定される場合は、全ての条件を満たすイベントが存在する場合、当該イベントはすべての条件を満たすイベントが検知した事象と同一の事象を検知したと判定する。同一事象に対するイベントであるか否かを判断する方法として、本実施形態では以下の手順を用いる。
まず、いずれの事象を検知したイベントであるかを判定したいイベントに対して、所定の時間範囲内に特定音を検知した他のイベントが存在するか否か判定する。条件を満たすイベントが存在する場合、検知した特定音の種類を比較し、同一であるか否かを判定する。その後、検知した時刻差が所定の範囲内である場合、イベントの種類を比較して、同一の事象を検知した結果であるか否か判定する。なぜなら、イベントの種類が混在すると、映像を確認する効率が低下すると考えられるためである。例えば、イベントの種類に特定音の開始と終了がある場合、特定音が発生した時点の映像を確認する場合には、特定音が終了する時点の映像は不要である。このような場合を避けるために、イベントを検知した時刻とイベントの種類で分類することが必要である。
最後に、検知した場所を比較し、所定の範囲内で検知された結果であるか否か判定する。判定対象となるイベントの特定音の種類・検知時刻・イベントの種類・検知場所が比較対象であるイベントの結果と同じである場合、判定対象となるイベントを比較対象となるイベントと同じ事象を検知したと判断する。
提示情報選択部13511は、優先度決定結果に基づき、同一の特定音を検知した複数の検知結果からカメラ監視者に提示する検知結果を選択する。提示する検知結果の数および提示する映像の条件は、パラメータ設定部で指定することができる。提示する映像の条件とは、例えば提示する映像を音源位置が画角内に存在する映像に限定する、というものである。提示する映像情報は、パラメータ設定部で指定した条件に基づき映像優先度決定部で決定された優先度が高い映像から選択される。
以上の過程を経る事により、同時に複数の箇所で同じ特定音が発生した場合でも、複数の箇所の映像を混同することなく、特定音の発生場所ごとに映像を分類して再生することが可能となる。さらに、監視者に提示する映像の再生条件を指定することにより、多くの検知結果が存在する場合でも、監視者が効率的に映像の確認を行うことが可能となる。本実施形態では、以上の手順を用いることにより、検知した音の種類と音源の位置が同じであるイベントが複数存在する場合、映像の優先度と監視者に提示する映像を決定する条件に従って選択したカメラの映像を、カメラ監視者に提示することができる。これによりカメラ監視者は、優先度が高いカメラの映像のみを確認することができるため、特定音を検知したカメラの確認処理を効率的に行うことができる。ただし、適用する分類条件の数や、分類の順序は本実施形態に記載した内容に限定されるものではない。詳細な分類方法については、図15を用いて説明する。また、同一事象イベント抽出部13506において、同一事象に対するイベントであると判断された一連のイベントは、事象ごとにデータベースで管理される。以降、このデータベースを同一事象イベント情報データベースと呼称する。同一事象イベント情報データベースは、事象ごとに作成される。
図14は、情報処理システムにおいてカメラで撮像した映像の優先度を同一事象に対するイベントに関する音声情報と映像情報とカメラの撮像範囲情報を用いて決定する場合の優先度決定手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第3の実施形態の図11のフローチャートに示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。
ステップS1405では、同一事象イベント抽出部13506は、イベント情報データベースのイベント情報を用いることにより、同一事象に対するイベントを抽出する。本実施形態では、同一事象のイベントである条件として、イベント検知時間が設定値以下であること、かつイベント検知場所間の距離が一定値以下であること、かつイベントの種類および検知した特定音の種類が同一であることを選定した。抽出されたイベントの情報は、情報記憶部13504の同一事象イベント情報データベースに保存される。
図15は、情報処理システムにおいて、同一事象イベント抽出部13506が同一事象に対するイベントを推定する手順を示すフローチャートである。
ステップS1501では、同一事象イベント抽出部13506は、イベント情報をイベント情報データベースから取得する。ここで情報を取得するイベントをイベントAとする。
ステップS1502では、同一事象イベント抽出部13506は、イベントAの検知時刻以前に、パラメータ設定部で設定したイベント検知時間差の最大値の範囲内で、イベントA以外のイベント(以降、イベントBと呼称)が存在するか否かを判定する。例えば、パラメータ設定部においてイベント検知時間差の最大値を0.5秒と設定した場合、同一事象イベント抽出部13506は、イベントAの検知時刻の0.5秒前までの間に他のイベントが存在するか否かを判定する。イベントBが存在する場合はステップS1503に進み、存在しない場合はステップS1508に進む。
ステップS1503では、同一事象イベント抽出部13506は、条件を満たすイベントBの内から1つを選択する。
ステップS1504では、イベントAとイベントBの間で特定音の種類を比較する。特定音の種類とは例えば悲鳴や罵声、銃の発砲音、ガラスが割れる時の破壊音などである。イベントAとイベントBで特定音の種類が同じ場合はS1505に進み、同じでない場合はS1508に進む。
ステップS1505では、同一事象イベント抽出部13506は、イベントAとイベントBの間でイベントの種類を比較する。イベントの種類とはイベントが出力される際に満たした条件のことで、例えば、特定音の開始もしくは終了である。イベントAとイベントBでイベントの種類が同じである場合はステップS1506に進み、同じでない場合はステップS1508に進む。
ステップS1506では、同一事象イベント抽出部13506は、イベントAとイベントBの検知場所を比較し、同地域内で発生したイベントか否かを判定する。同地域内であるか否かは、イベントAとイベントBを検知したそれぞれの場所の間の距離が、パラメータ設定部で設定したイベント検知場所間の距離の最大値以下であるか否かで判定する。例えば、パラメータ設定部においてイベント検知場所間の距離の最大値を10メートルと設定した場合、イベントAとイベントBを検出したそれぞれの場所の間の距離が10メートル以下であるか否かを判定する。各イベント検出場所間の距離が設定値以下である場合は、同一事象イベント抽出部13506は、2つのイベントは同地域で発生したとみなし、ステップS1507に進む。設定値以上である場合は、ステップS1508に進む。
ステップS1507では、同一事象イベント抽出部13506は、イベントAを、イベントBが属するイベント群Pに追加し、イベント推定処理を終了する。イベント群Pは同一事象に対するイベントの集合である。すなわち、イベントの種類、検知した特定音の種類が同じで、一定時間内に出力されたイベントであり、出力された場所もお互いに近傍である。
ステップS1508では、イベントBが複数存在する場合、同一事象イベント抽出部13506は、イベントAを全てのイベントBと比較したか否かを判定する。全てのイベントBとの比較を実施した場合はステップS1510に進み、比較を実施していないイベントBが残っている場合はステップS1503に進む。
ステップS1509では、同一事象イベント抽出部13506は、イベントAの検知時刻以前に作成され、イベントの追加が行われる可能性のあった全イベント群について、イベント群に属するイベントを確定させる。イベント群に属するイベントの確定後は、イベント群にはイベントの追加が行われることはない。
ステップS1510では、同一事象イベント抽出部13506は、イベントAが属するイベント群Qを新たに作成し、イベント推定処理を終了する。
本実施形態の処理によって、特定音が異なる場所で発生した場合でも、特定音の発生場所ごとに、映像を表示する優先度を決定することができる。
(評価結果)
図16は、情報処理システムにおいて、優先度決定部が各特徴量から評価値に変換するための対応表の例である。横方向が特徴量の種類、縦方向が評価値となっている。本実施形態では特徴量として以下の値を採用した。音響特徴量としては、イベント検出時の音量、イベント検出時に特定音と推定した尤度を採用し、さらに推定した音源位置が画角内に存在するか否かの判定結果を採用したのである。映像特徴量は、動体の検知時間、検知した動体の最大サイズである。表を用いると、特徴量がある値を取る場合に、該当範囲にある行の評価値に変換することができる。例えば、音量の場合、優先度決定部は、パラメータ設定部で設定した基準音量に対する比率を用いて音量の評価値に変換する。基準音量に対する比率が0.8以上1.0未満の場合、評価値は3となる。「−」部は特徴量から評価値への変換に対応できないことを示している。音源位置に関する「○」「×」とは、判定部が音源位置が画角内に存在するか否かを判定した結果である。動体検知時間の単位は秒、検知動体サイズの単位はピクセルである。検知動体サイズのピクセル数は、カメラの倍率が初期設置時の値である場合に撮影される画像での値に変換した数値である。
図17は、特定音が同時に一箇所で発生した場合に、本発明の実施形態と従来技術とで映像の優先度を決定した結果の比較である。
図17(a)は、ネットワークカメラで特定音(ここでは悲鳴を想定)を検知した場合の概略図を示したものである。場所は通路の交差点(十字路)を想定したもので図ではネットワークカメラは3台設置されている。ネットワークカメラから延びる三角形の影は各カメラの画角を表現したものである。交差点中央付近の×印の地点で悲鳴が発生し、3台全てのネットワークカメラが同時に悲鳴を検知したものとする。図中には検知した時点での各カメラにおける録画映像のイメージ図を添付した。吹き出しは検知した音声を表現したもので、実際に録画画面上に吹き出しが表示されるものではない。また、図中の人型は音源付近で映像から人物が検知されたことを意味している。
図17(b)は、各ネットワークカメラにおける音響特徴量、映像特徴量から取得した評価値の一覧である。特徴量から取得した評価値だけでなく、評価値から算出したスコアも記載されている。ここでは音声特徴量としてイベント検知時の音量を、カメラの位置として推定した音源の位置が画角内に存在するか否かの判定結果を用いている。映像特徴量としては動体の検知時間や検知した動体のサイズを用いている。また、参考として、各カメラと対応するマイクがイベントを出力した時刻も記述する。
図17(c)は、評価値に基づき優先度を決定した結果を示したものである。優先度が高い順に並べている。まず、特定音を検知したイベントに基づいて確認する映像の優先度を決定する場合、特定音の発生している場所が撮影されている映像から確認することを最も優先して行う必要がある。今回の状況では、カメラB、A、Cの順に優先度が決定されることが望ましいと考えられる。
図17(b)の評価値の結果一覧によると、イベント検知時刻の早い方からカメラC、A,Bの順にイベントが検知されたことが分かる。従来の方法では、例えば、イベントが検知された時刻が早いほど映像の優先度を高くする手法を使用する場合、映像の優先度は高い順にC、A,Bとなる。この方法で映像の優先度を決定する場合、映像情報および音声映像のいずれの特徴も使用していないため、特に優先すべきカメラBの映像の優先度が低くなっている。また、優先する必要の無いカメラCの映像の優先度が高くなっている。
次に、第1の実施形態のように音声情報を用いて確認する映像の優先度を決定した結果を見る。図17(b)の結果より、音量から取得した評価値による判定結果は、評価値の和が大きい順にカメラC、B、Aとなっている。音声は一般に距離が離れることにより音量が小さくなる。従って、音量が大きいカメラで撮像した映像の優先度を高くすることにより、悲鳴発生箇所近傍のカメラで撮像した映像の優先度を高くすることができる。
次に、第2の実施形態のように音声情報及びカメラの向きに関する情報を用いて、確認する映像の優先度を決定した結果を見る。図17(b)の結果より、2つの評価値の和による判定結果は、評価値の和が大きい順にカメラB、C、Aとなっている。判定に使用した2つの評価値とは、以下に示す値である。1つは音量から取得した評価値である。もう1つは音源位置がカメラの画角内に存在するか否かの判定結果から取得した評価値である。従来の方法に比べると、最も優先して確認すべきカメラBの映像は優先度を最も高く設定できているが、次に優先度を高くするべき映像の優先度が最も低く設定されている。これは複数の映像を確認して悲鳴発生時点の状況を確認したい場合、優先度の低い映像の確認を行う必要が生じて状況の把握が遅くなる可能性があることを意味している。
次に、第3の実施形態のように音声情報とカメラの向き、および映像情報を用いて、確認する映像の優先度を決定した結果を見る。図17(b)の結果より、3つの評価値の和による判定結果によると、評価値の和はカメラB,A,Cの順で大きくなっている。判定に使用した3つの評価値とは、以下に示す値である。1つ目は音量から取得した評価値である。2つ目は音源位置がカメラの画角内に存在するか否かの判定結果から取得した評価値である。3つ目は映像認識結果から取得可能な動体撮影時間や動体のサイズから取得可能な評価値である。
音声情報だけで、悲鳴発生箇所が映っている可能性の高い映像の優先度を決定するより、画像情報を基に悲鳴発生箇所と推定できる地点を撮影しているか否かの判定などを実施する方が、正しく悲鳴発生箇所を映っているか否かを判定できる。音声情報および画像情報から取得できる評価値の和で映像の優先度を決定する場合、優先度は高い順にB、A、Cとなる。この方法を使用することにより、最も優先度が高く設定されるべきカメラの映像だけでなく、次に優先度を高くするべきカメラの映像についても優先度が適切に付与される。
図18は、特定音が同時に複数箇所で発生した場合に、本発明の実施形態と従来技術とで映像の優先度を決定した結果の比較である。
図18(a)は、ネットワークカメラで特定音(ここでは悲鳴を想定)を検知した場合の概略図を示したものである。図17(a)との違いは、悲鳴がほぼ同じ時刻に複数の場所で発生している点である。また、図中のカメラAからカメラFまではいずれもどちらか一方の特定音しか検知していないとする。図18(b)は、各ネットワークカメラにおける音響特徴量の一覧である。ここでは、音声特徴量としてイベント検知時の音量を用いている。また、参考として、各カメラと対応するマイクがイベントを出力した時刻も記述する。図18(c)は、特徴量の大小関係に基づき、映像の優先度を決定した結果を示したものである。映像の優先度が高い順に並べている。
図18(b)の評価値の結果一覧によると、イベント検知時刻からカメラC、F、A,D,B、Eの順にイベントが検知されたことが分かる。例えば、イベントが検知された時刻が早いほど優先度を高くする従来の手法で映像の優先度を決定すると、映像の優先度は高い順にC、F、A,D,B、Eとなる。この方法で優先度を決定する場合、検知したイベントに関係する音声情報や映像情報のいずれの特徴も使用していないため、優先すべき映像の優先度が低くなっている場合が発生する可能性がある。次に、検知したイベントを同一事象に対して出力されたイベントごとに抽出した結果を用いて優先度を決定した結果について確認する。6つのイベントを抽出した結果、2つの事象が発生しており、それぞれの事象に3つずつのイベントが検知されていることが分かる。それぞれの事象について事象毎に優先度を決定した結果、B,A,Cの順およびE,D,Fの順の2つのグループの映像の優先度が決定された。これにより異なる事象の映像が混在して優先度を決定することが減り、確認したい事象の映像のみを確認できるようになったと考えられる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。