JP6980379B2

JP6980379B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP6980379B2
Application number: JP2016247185A
Authority: JP
Inventors: 晋太郎石田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2021-12-15
Anticipated expiration: 2036-12-20
Also published as: JP2018101916A

Description

本発明は、音声情報に基づいて、映像情報の優先度を決定する情報処理装置、情報処理方法およびプログラムに関する。

近年、音声認識技術が様々な製品に搭載され、普及が進んでいる。その技術の一つが特定音認識技術である。特定音認識技術とは、人間の悲鳴や罵声をはじめ、銃の発砲音やガラスが割れる音など、特定の事象が発生した場合に生じる音（特定音）を認識する技術である。この技術を使用しているユースケースの一つに、ネットワークカメラを用いた監視活動の補助がある。通常、ネットワークカメラを用いて監視活動を行う場合、監視対象エリア内に設置されたネットワークカメラなどから映像などの情報を取得する。取得した情報を用いて特定の事象の発生を認識した場合、監視者に通知を行う。監視者は通知を確認することにより、特定の事象が発生した時刻や場所等を知ることが可能になる。特許文献１では、センサを用いて特定の事象を検出した場合、検出した特定の事象の内容を、当該センサと関連付けられているネットワークカメラで取得した映像情報の表示に重畳させている。具体的には、特許文献１では、温度センサや圧力センサにより取得した温度や圧力の値に基づいて異常もしくは事象を検出した時、映像を出力するモニタ上に重畳表示するアラーム等のテキストを作成し、表示している。

特開平１１−１８４４４８

しかしながら、ある事象の検出に音声情報を使用する場合、音は広範囲に等方的に伝わるため検出の対象である特定音を検出するネットワークカメラが１台であるとは限らない。例えば、比較的に遠方に設置されているネットワークカメラでも検出の対象である特定音を検出する場合が考えられる。

特許文献１の方法では、特定の音を検知した複数のマイクに対応する複数のネットワークカメラの映像を表示するモニタ上にアラーム等を重畳して表示をすると、監視者はどの映像を優先して確認すべきかを判断することが困難である。監視者がモニタ上に順番に再生する複数の映像から、又はモニタ上に同時に表示される複数の映像から特定音の発生場所の映像を速やかに特定し、確認することはできないという課題が発生する。

本発明は上記の課題に鑑みてなされたものであり、検知した特定音の特徴量に基づいて映像の優先度を決定することによって、優先して確認すべき映像を容易に特定する情報処理装置を提供することを目的とする。また、その情報処理装置の情報処理方法およびプログラムを提供することを目的とする。

かかる課題を解決するため情報処理装置は、以下の構成を有する。すなわち、複数の撮像装置から、前記複数の撮像装置のそれぞれが撮像した映像情報と前記撮像装置の画角情報とを取得する映像取得手段と、前記複数の撮像装置のそれぞれに対応するマイクから、該撮像装置の撮像した映像情報と関連付けて音声情報を取得する音声取得手段と、前記音声取得手段によって取得された複数の前記音声情報から特定音を検知する検知手段と、前記音声取得手段によって取得された前記音声情報に基づいて、検知された前記特定音の音源位置を推定する推定手段と、前記音源位置を推定した音声情報と関連付いている映像情報を撮像した撮像装置の前記画角情報を用いて、前記音源位置が当該撮像装置の画角内に含まれるかを判定する判定手段と、前記特定音の音声情報に関連付けられた複数の前記映像情報を表示する優先度を、前記特定音の音声情報の特徴量と前記判定手段による判定結果とに基づいて決定する決定手段と、前記特定音の音声情報に関連付けられた複数の前記映像情報を前記優先度に基づいて表示する表示手段と、を有し、前記決定手段では、前記判定手段により前記音源位置が当該撮像装置の画角内に含まれると判定された場合に、当該撮像装置が撮像した映像情報を表示する前記優先度を高くする。

本発明の情報処理装置によれば、検知した特定音の特徴量に基づいて映像の優先度を決定することによって、優先して確認すべき映像を容易に特定することができる。

第１の実施形態の情報処理システムの構成を示すブロック図である。第１の実施形態の情報処理システムのハードウェア構成を示すブロック図である。第１の実施形態の情報処理システムの機能構成を示すブロック図である。第１の実施形態の情報処理システムにおける映像の優先度決定手順を示すフローチャートである。第１の実施形態の情報処理システムにおいて音響特徴量で映像優先度を決定する手順を示すフローチャートである。第２の実施形態の情報処理システムの機能構成を示すブロック図である。第２の実施形態の情報処理システムにおける映像の優先度決定手順を示すフローチャートである。第２の実施形態の情報処理システムにおいて音響特徴量とカメラの撮像範囲情報とを用いて映像優先度を決定する手順を示すフローチャートである。第２の実施形態の情報処理システムにおいて音源位置の画角内含有判定手順を示すフローチャートである。第３の実施形態の情報処理システムの機能構成を示すブロック図である。第３の実施形態の情報処理システムにおける映像の優先度決定手順を示すフローチャートである。第３の実施形態の情報処理システムにおいて音響特徴量と映像特徴量とを用いて映像優先度を決定する手順を示すフローチャートである。第４の実施形態の情報処理システムの機能構成を示すブロック図である。第４の実施形態の情報処理システムにおける映像の優先度決定手順を示すフローチャートである。第４の実施形態の情報処理システムにおいて同一事象に対するイベントを推定する手順を示すフローチャートである。各実施形態の情報処理システムにおいて各特徴量から評価値に変換するための対応表の例である。特定音が一つの地点で発生した場合における優先度決定結果である。特定音が同時に複数の地点で発生した場合における優先度決定結果である。（ａ）複数の映像情報を一覧表示する例である。（ｂ）複数の映像情報を切り替えて表示する例である。

（第１の実施形態）
以下、本発明における第１の実施形態について、図面を参照しながら説明する。

本実施形態は、複数のネットワークカメラおよびネットワークカメラと対応するマイクをはじめとするセンサで構成される情報処理システムに関するものである。ネットワークカメラと対応するマイクは、例えばネットワークカメラに内蔵したマイクである。以後、ネットワークカメラのことをカメラと記述する。

カメラと対応するマイクから取得した音声情報に対して、検知対象となる音を、特定音と記述する。特定音は複数の方法で定義することが可能である。例えば、特定音は音の種類で定義する方法がある。本実施形態では特定音の種類が人の発する悲鳴である場合を例に説明するが、特定音はこれに限定されるものではない。また、特定音を定義する別の方法として、検知しない音を指定する方法がある。この方法を使用することで検知しない音に指定した音以外の音を特定音として検知することが可能となる。

また、設定した条件のもとで、マイクからの音声情報をもとに行う特定音の検知や、カメラからの映像情報をもとに行う動作する物体の検知などの処理を行った結果、特定音などを検知した場合に、イベントが発生する。また、検知対象となる特定音などを検知してその結果を出力することを、イベントを出力すると記述する。本実施形態では、出力されたイベントにより取得できる情報には、特定音の検知時間や検知場所などが含まれるが、これに限定されるものではない。

本実施形態では、ある事象の発生に伴って発生した特定の音（特定音）を検知する手段としてマイクを使用し、検知結果から取得できる音響特徴量を用いて映像を表示する際の優先度を決定する場合について説明する。

図１は、本実施形態の情報処理システムの構成を示すブロック図である。

本実施形態の情報処理システムには複数台のカメラ１０ａ〜１０ｃが含まれる。複数台のカメラ１０ａ〜１０ｃは、それぞれのカメラの設定に応じて画像情報や映像情報を取得し、取得した画像情報や映像情報と画角範囲などのカメラ本体情報とをサーバー５０に送信することができる。また、それぞれのカメラは、簡易な画像処理であれば、画像内の特定の物体の検知や、動作の検出を行うことも可能である。複数台のカメラ１０ａ〜１０ｃの取得した画像情報や映像情報及び本体情報などは、後述するサーバー５０に送信される。

本実施形態の情報処理システムには、複数台のマイク２０ａ〜２０ｃが含まれる。複数台のマイク２０ａ〜２０ｃは、それぞれのマイクの設定に応じてマイク周囲の音声情報を取得することができる。また、それぞれのマイクは、ノイズ除去やゲイン制御などの簡単な処理を行うことが可能である。複数台のマイク２０ａ〜２０ｃの取得した音声情報は、後述するサーバー５０に送信される。本実施形態では各マイクがカメラと一対一対応しており、かつカメラ本体にマイクを装着（内蔵）して使用する場合を想定するが、これに限定するものではない。

サーバー５０は、カメラやマイク、ディスプレイ３０やスピーカー４０などと接続される。サーバー５０は、カメラやマイクから取得した画像情報や映像情報と音声情報とをもとに、特定音の検知や特定音を検知した時点の映像の認識、特定音を検知した時点の映像の優先度の決定などを行うことが可能である。本実施形態の情報処理装置は、少なくともサーバー５０及びディスプレイ３０を含む。

ディスプレイ３０は、ディスプレイ３０の設定に応じて複数のカメラの映像を同時に再生することが可能である。ディスプレイ３０は、サーバー５０から送信される映像を再生することができる。

スピーカー４０は、スピーカー４０の設定に応じて特定のマイクで取得した音声を再生することが可能である。また、スピーカー４０は、ディスプレイ３０の映像再生と同期して音声を再生することも可能である。

図２は、情報処理システムのハードウェア構成を示すブロック図である。

本実施形態では、情報処理システムが、図２に示すように５つのブロックに分かれているが、これに限定されるものではない。図２に示すように５つのブロックのうちのいくつかが１つのブロックで構成される場合も考えられる。

カメラ１０は、図１の複数台のカメラ１０ａ〜１０ｃの何れか一つである。カメラ１０の通信部１１は、後述する映像取得部１５が取得したデータをサーバーに送信する際に使用される。

カメラ１０のＣＰＵ１２は、メモリ１３や記憶装置１４に格納されているコンピュータプログラムやデータを用いてノイズ除去や画素補間などの各種処理を行う。

カメラ１０のメモリ１３は、後述する映像取得部１５が取得したデータを、一時的に保持するためのワークエリアを有する。また、メモリ１３は、ＣＰＵ１２が処理を行う際に必要なワークエリアも有する。

カメラ１０の記憶装置１４は、各種処理を行うためのコンピュータプログラムや、カメラの設定項目等を保持する。

カメラ１０の映像取得部１５は、例えばレンズや画像センサなどである。ユーザーは映像取得部１５を用いることにより、視覚情報を映像データとして取得することができる。

マイク２０は、図１の複数台のマイク２０ａ〜２０ｃの何れか一つである。マイク２０の通信部２１は、後述する音声取得部２２が取得した音声データをサーバー５０に送信する際に使用される。

マイク２０の音声取得部２２は、マイク周辺の音声や物音を取得することができる。必要に応じてノイズ除去など簡単な処理を実行することも可能である。マイク２０が指向性を持つ場合もあり、この場合は、音声取得部２２は、特定の方向や範囲からの音の取得が容易になる。マイク２０が指向性を持つ場合、マイク２０に対応するカメラ１０の撮像方向や撮像範囲となるべく一致する方向や範囲から音声情報を取得することが望ましい。

ディスプレイ３０の通信部３１は、サーバー５０から画像データを受信する際に使用される。

ディスプレイ３０の映像表示部３２は、通信部３１を経由して取得したカメラの画像データをユーザーの目に見えるように表示する。

スピーカー４０の通信部４１は、サーバー５０から音声データを受信する際に使用される。

スピーカー４０の音声再生部４２は、サーバーから受信した音声データを再生することができる。

サーバー５０の通信部５１は、カメラ１０やマイク２０が取得したデータの受信や、ディスプレイ３０やスピーカー４０へのデータの送信を行う際に使用される。

サーバー５０のＣＰＵ５２はメモリ５３や記憶装置５４に格納されているコンピュータプログラムやデータを用いて、カメラなどサーバーに接続している機器のＣＰＵでは実行できない、若しくは各機器が各々持つ情報のみでは実行できない処理の実行を行う。例えば、ＣＰＵ５２は検知した特定音の発生位置がカメラの画角範囲内か否かを判定する処理や、複数のマイクで同一の特定音を検知した場合に特定音の発生位置を特定する処理などを実行する。

サーバー５０のメモリ５３は、サーバーに接続している機器から取得したデータや送信するデータを、一時的に保持するためのワークエリアを有する。また、メモリ５３はＣＰＵ５２が処理を行う際に必要なワークエリアも有する。

サーバー５０の記憶装置５４は、各種処理を行うためのコンピュータプログラムや、サーバーの設定項目等を保持する。

図３は、情報処理システムの機能構成を示すブロック図である。

カメラ１０のカメラ制御部３１０１は、カメラ１０が映像取得、物体認識などを滞りなく行うよう、タスクの管理を行う。

カメラ１０の映像情報取得部３１０２は、映像取得部１５を用いて、設定した条件下での映像情報を取得し、サーバー５０の映像音声情報受信部３５０３に送信することができる。また、映像情報取得部３１０２は、映像取得部１５を用いて、必要に応じて赤外像など可視光範囲外の映像の取得や、ノイズ除去や画素補間などの簡単な処理が実行された画像の取得を行うことも可能である。

マイク２０のマイク制御部３２０１は、マイク２０が音声取得、ノイズ除去などの各種前処理などを滞りなく行うよう、タスクの管理を行う。

マイク２０の音声情報取得部３２０２は、音声取得部２２を用いて、設定した条件下での音声情報を取得し、サーバー５０の映像音声情報受信部３５０３に送信することができる。

本実施形態では、音声情報は映像情報と同期が可能な形でサーバー５０の情報記憶部３５０４に記憶される。同期可能にするには、それぞれのファイルに時間情報を付与する方法や、同時に取得した音声情報と映像情報を１つのファイルで記憶する方法が考えられるが、これらの方法に限定されるものではない。

ディスプレイ３０のディスプレイ制御部３３０１は、ディスプレイ３０が、受信した情報の表示などを滞りなく行うよう、タスクの管理を行う。

ディスプレイ３０の映像情報再生部３３０２は、映像表示部３２を用いて、サーバーから受信した映像情報を設定した条件のもとで再生することができる。映像情報再生部３３０２による映像情報の再生は、例えば以下のような方法で実施される。すなわち、再生する映像が複数存在する場合、１つずつのカメラの映像を定期的に切り替えて表示する方法や、複数のカメラの映像を並列して表示する方法や、これらを組み合わせて表示する方法が考えられる。また、本実施形態で決定された映像の優先度に基づき、複数の映像を切替えて表示する場合は、優先度の高い映像を先に再生し、優先度の高い映像の再生時間を長く設定する方法が考えられる。また、表示画面を分割して複数の映像を表示する場合は、優先度の高い映像の再生時の表示領域を大きく設定する方法が考えられる。なお、映像の優先度に基づく映像の再生方法は、これらに限定されるものではない。

スピーカー４０のスピーカー制御部３４０１は、スピーカー４０が、受信した音声の再生を滞りなく行うよう、タスクの管理を行う。

スピーカー４０の音声情報再生部３４０２は、音声再生部４２を用いて、設定した条件下で音声情報を再生することができる。例えば、ディスプレイ３０の映像情報再生部３３０２が映像情報を再生している場合に、スピーカー４０の音声情報再生部３４０２は、再生中の映像情報を取得したカメラと対応するマイクから取得した音声情報を再生することも可能である。

サーバー５０のサーバー制御部３５０１は、サーバー５０が特定音を検知し、特定音の音源位置を推定し、映像の優先度を決定する処理などを滞りなく行うよう、タスクの管理を行う。

サーバー５０のパラメータ設定部３５０２は、検知する特定音の種類や検知する条件などの指定、また、優先度を決定する際に用いる項目等の指定を行うことが可能である。また、パラメータ設定部３５０２は、サーバー５０に接続したカメラやマイクなどの設定を行い、各機器に設定情報を送信することも可能である。それにより直接操作できない機器の設定や、複数の機器を一括で設定することが可能になる。

サーバー５０の映像音声情報受信部３５０３は、カメラ１０が出力する映像情報や画角情報、およびマイク２０が出力する音声情報を受信することができる。また、映像音声情報受信部３５０３が受信した情報は、情報記憶部３５０４で作成したそれぞれのデータベースで管理される。映像情報は、一定時間ごとにファイル出力される。映像情報を含む出力ファイル（以降、映像情報ファイル）は、当該映像情報ファイルを出力したカメラのカメラＩＤ、および映像情報の取得期間と関連付けてデータベースで管理される。以降、映像情報を管理するデータベースを映像情報データベースと呼称する。音声情報は、画像情報（映像情報）と同様、一定時間ごとにファイルに出力される。音声情報を含む出力ファイル（以降、音声情報ファイル）は、当該音声情報を取得したマイクのマイクＩＤ、および音声情報の取得期間と関連付けてデータベースで管理される。以降、音声情報を管理するデータベースを音声情報データベースと呼称する。

サーバー５０の情報記憶部３５０４は、映像音声情報受信部３５０３が受信した映像情報及び音声情報で作成された映像情報データベース及び音声情報データベースを記憶する。さらに、情報記憶部３５０４は、後述する特定音検知部３５０５で作成するイベント情報データベースを記憶する。本実施形態では、情報記憶部３５０４、複数のデータベースを記憶しているが、これに限定されるものではない。

サーバー５０の特定音検知部３５０５は、パラメータ設定部３５０２で設定した特定音検知に関するパラメータに基づき、マイクが取得した音声情報から音響特徴量を抽出し、音響モデルとのマッチングによって特定音を検知する。特定音検知部３５０５は、特定音を検知した場合にイベントの出力などを行う。特定音を検知するためのパラメータは例えば、検知する特定音の種類や、検知の条件などを指定するものである。特定音の種類は、例えば、人間の悲鳴やガラスが割れる音など音の種類である。検知の条件は、特定音の開始もしくは終了を検知した場合などである。

特定音検知部３５０５から出力されるイベントには、例えば、イベントＩＤ、マイクＩＤ、検知した特定音の種類、イベントの種類、特定音を検知した時刻、検知した特定音の音声情報に関する音響特徴量が含まれる。イベントＩＤとはイベントを識別するためにイベント毎に付与されるＩＤのことである。マイクＩＤとは検知した音声を取得したマイクを識別するために付与されるＩＤのことである。イベントの種類とはイベントが出力される際に満たした条件のことで、例えば、特定音の開始もしくは終了などである。特定音には悲鳴や罵声、銃の発砲音、ガラスが割れる時の破壊音などが挙げられる。また、本実施形態ではサーバー５０の特定音検知部３５０５が特定音を検知する処理を行っているが、これに限定するものではない。また、本実施形態では音響特徴量として音量を使用する場合を例に説明する。特定音検知部３５０５から出力されたイベントは、データベースで管理される。イベント情報を管理するデータベースをイベント情報データベースと呼称する。

サーバー５０の優先度決定部３５０６では、パラメータ設定部で指定した優先度決定に関する項目に基づき、特定音を検知した結果を用いて、設定された項目の優先度を決定する。優先度を決定するためにパラメータ設定部が指定する項目は、優先度決定時に使用する情報の種類である。すなわち、映像情報や音声情報などのうち、いずれの情報を使用して優先度を決定するかを指定する。また、映像情報や音声情報などで優先度を決定できなかった場合に、優先度を決定するために使用する他の情報を指定する。本実施形態では音声情報、とくに音声情報の音響特徴量として音量を使用して、音声情報の優先度を決定する場合について記述する。また、音響特徴量だけで優先度を決定できない場合は、さらにカメラＩＤにより優先度を決定する方法について記述する。本実施形態ではここで記載した項目を指定する場合について記載するが、この方法に限定するものではない。詳細な優先度決定方法については、図５を用いて説明する。また、本実施形態では、マイクを内蔵した複数のカメラによって情報処理システムが構成されているので、それぞれのマイクによって取得された音声情報に対応する映像情報は、そのマイクを内蔵したカメラが音声情報に同期して撮像した映像である。そこで、音声情報の優先度は、その音声情報に対応する映像情報の優先度になるので、音声情報の優先度を決定することによって、映像情報の優先度を決定することができる。

映像音声情報送信部３５０７は、優先度決定部３５０６が決定した優先度に基づき、ディスプレイ３０やスピーカー４０で再生する映像情報や音声情報を送信することができる。

図４は、情報処理システムにおける映像の優先度決定手順を示すフローチャートである。以下、フローチャートは、ＣＰＵ５２が制御プログラムを実行することにより実現されるものとする。

ステップＳ４０１では、サーバー５０のパラメータ設定部３５０２において、ユーザーの操作に基づき、検知する特定音の種類や検知する条件の指定や、映像の優先度を決定する際に考慮する項目等の指定を行う。例えば、検知する条件の指定においては特定音の開始もしくは終了を検知した場合などに特定音の検知を行うように設定することができる。

ステップＳ４０２では、カメラ１０の映像情報取得部３１０２が映像情報を取得する。また、カメラと対応しているマイクの音声情報取得部３２０２が音声情報を取得する。取得された映像情報及び音声情報はサーバーに送信される。サーバー５０の映像音声情報受信部３５０３が受信した映像情報及び音声情報は、情報記憶部３５０４にある画像情報データベース、音声情報データベースにそれぞれ保存される。

ステップＳ４０３では、音声情報データベースに保存された音声情報に対して、パラメータ設定部３５０２で設定したパラメータに基づき、サーバー５０の特定音検知部３５０５が特定音の検知処理を実施する。検知処理の結果、特定音が検知された場合はイベント情報を出力する。出力されたイベント情報は、情報記憶部３５０４にあるイベント情報データベースに保存される。本実施形態では、それぞれがマイクを内蔵する複数のカメラが設定された場所において、特定音の種類として人の悲鳴が設定された場合に、特定音検知部３５０５が複数のカメラに内蔵された複数マイクの音声情報から特定音である人の悲鳴を検出したとする。特定音検知部３５０５が複数マイクの音声情報から特定音を検出したことに対応して、複数のイベント情報を出力し、イベント情報データベースに保存する。ここで保存されるイベント情報は同一事象に関するものであるとする。

ステップＳ４０４では、優先度決定部３５０６は、情報記憶部３５０４にある同一事象に関するイベント情報データベースのイベント情報を用いて、同一事象を検知した一連のイベントに対応する映像情報や音声情報の優先度を決定する処理を実施する。優先度決定部３５０６が優先度を決定する処理の詳細については、図５を用いて説明する。

図５は、情報処理システムにおいて、音響特徴量で映像優先度を決定する手順を示すフローチャートである。

ステップＳ５０１では、優先度決定部３５０６は、イベント情報データベースに保存されている複数のイベント情報から、１つのイベント情報を選択する。優先度決定部３５０６は、イベント情報を選択することにより、イベントＩＤや当該イベントを出力したマイクと対応するカメラのカメラＩＤなどのイベント情報を取得することができる。

ステップＳ５０２では、優先度決定部３５０６は、取得したイベント情報から、イベントが検出された時刻に、マイクが取得した音声情報の音響特徴量を取得する。本実施形態では音響特徴量として音量を使用した例を記述する。

ステップＳ５０３では、優先度決定部３５０６は、選択中のイベントの他に、既に優先度を決定したイベントが他に存在するか否かを判定する。優先度を決定したイベントが他に存在する場合はステップＳ５０４に進み、存在しない場合はステップＳ５０５に進む。

ステップＳ５０４では、優先度決定部３５０６は、選択中のイベントが検出された時刻の音量と、既に優先度が決定している他のイベントが検出された時刻の音量と比較して、優先度を再度決定する。このステップでは、優先度決定部３５０６は、音量がより大きい方のイベントの優先度を高く、音量がより小さい方のイベントの優先度を低くするように再決定する。ここで、イベントの優先度を高くすることは、特定音が検出された際のイベントに対応する音声情報の優先度を高くし、音声情報に対応する映像情報の優先度を高くすることになる。

ステップＳ５０５では、優先度決定部３５０６は、現在選択中のイベントに対して、優先度を最も高く設定する。ここでも、同様に、イベントの優先度を高くすることは、特定音が検出された際のイベントに対応する音声情報の優先度を高くし、音声情報に対応する映像情報の優先度を高くすることになる。

ステップＳ５０６では、選択中のイベントと音量が同じイベントが存在するか否かを判定する。音量が同じイベントが存在する場合はステップＳ５０７に進み、存在しない場合はステップＳ５０８に進む。

ステップＳ５０７では、パラメータ設定部３５０２で指定した優先度決定に関する項目に基づき、イベントの優先度を決定する。優先度を決定する基準は例えば、カメラＩＤの順番などが挙げられる。

ステップＳ５０８では、優先度決定部３５０６は、イベント群に含まれる全てのイベントに対して、優先度を決定したか否かを判定する。全てのイベントに対して優先度が決定している場合は、イベントに対応する音声情報やその音声情報に対応する映像情報の優先度の決定処理が終了し、優先度が決定していないイベントがある場合は、ステップＳ５０１の処理に戻る。

図５で説明した処理では、優先度決定部３５０６は、音声情報から特定音を検知した時に出力したイベントの優先度を決定し、イベントに対応する音声情報やその音声情報に対応する映像情報の優先度を決定する。映像情報や音声情報の優先度を決定する方法は、図５の説明に限らない。例えば、優先度決定部３５０６は、特定音を検知した音声情報から音響特徴量である音量に関する情報を取得し、音量の大きさに基づいて、直接に音声情報及びその音声情報に対応する映像情報の優先度を決定してもよい。

本実施形態における映像情報の表示方法の一例を説明する。図１９（ａ）に、ディスプレイ３０がカメラＡ〜カメラＩのそれぞれが撮像した映像情報を一覧表示する画面を示す。これらの映像情報の表示中に、カメラＡ〜カメラＣに対応するマイクの取得した音声情報から悲鳴が特定音として検出され、カメラＧ〜カメラＩに対応するマイクの取得した音声情報から銃声が特定音として検出されたとする。ここで、監視者の指定により、又はデフォルトの設定により、カメラＡ〜カメラＣが撮像した映像情報が、図１９（ｂ）に示すように切り替えて表示される。即ち、ディスプレイ３０が、優先度決定部３５０６が決定した優先度に基づいて、カメラＡ〜カメラＣが撮像した映像情報を切替えて表示する。これにより、ディスプレイ３０が、監視者に優先して確認すべき映像を提示することができる。

（第２の実施形態）
第１の実施形態では、映像情報の優先度を決定する際に音響特徴量の一つである音量を用いた。第１の実施形態の方法では、特定音の音源付近が撮影範囲ではないカメラ、例えば、特定音の音源の真上に設置され、音源付近が撮影の死角であるカメラの映像の優先度が高くなる場合が発生する可能性がある。このようなカメラの映像の優先度が高くなる場合、音源付近が撮影されている本来優先度が高くなるべきカメラで撮像した映像の優先度が低くなってしまう。第２の実施形態では、優先度を決定する際に音響特徴量とカメラの向きに関する情報を用いる例を図６〜図９を用いて説明する。第２の実施形態の情報処理システムのハードウェア構成は、第１の実施形態のハードウェア構成と同じであるので、その説明を省略する。

図６は、本実施形態の情報処理システムにおいて、カメラで撮像した映像の優先度を音声情報とカメラの撮像範囲情報を用いて決定する場合のカメラおよびサーバーの機能構成を示すブロック図である。本実施形態は、第１の実施形態の図３に示す一部の機能ブロックと同様の機能ブロックを有するので、図６では、機能が異なるブロックもしくは追加されたブロックについてのみ記載し、図３の機能ブロックと同じ機能ブロックの記載は省略する。

カメラ１０のカメラ制御部６１０１の画角方向取得部６１０３は、カメラ１０の記憶装置１４に格納されているカメラの画角に関する情報（以降、画角情報と呼称）を、所定の頻度で取得することができる。また、カメラ制御部６１０１は、画角方向取得部６１０３が画角情報を取得する頻度を設定することもできる。画角情報とは、取得時点でのカメラの設置箇所、初期設定時の基準方向、初期設定時の基準方向に対する左右方向と上下方向の現時点での回転角度、さらに現時点での拡大倍率である。画角方向取得部６１０３の取得した画角情報により、カメラ制御部６１０１は、カメラが映像情報を取得している撮像範囲を変更又は指定することができる。また、画角情報は、画角方向取得部６１０３から設定した時間間隔でサーバー５０に出力される。出力された画角情報は、この画角情報を出力したカメラ１０のＩＤ、および画角情報の出力時間と関連付けてサーバー５０の情報記憶部６５０４にあるデータベースで管理される。以降、このデータベースを画角情報データベースと呼称する。

サーバー５０の情報記憶部６５０４は、画角情報データベース、および後述する音源位置推定部６５０６で作成する音源位置データベースを保存する。

音源位置推定部６５０６は、イベントの情報および、画角情報データベースに含まれる同イベント情報を出力したカメラの画角情報を用いて、検知した音の発生位置を推定する。音源位置を推定する方法には、マイクアレイを使用する方法や、同期している複数のマイクを用いた音源定位法がある。これは、配置位置が明らかである複数のマイクにおいて、特定の音のマイクへの到達時間差および、音量を取得することにより音源位置を推定する方法である。本実施形態では、イベントの種類、検知した特定音の種類が同じでかつイベント発生時間が所定の範囲内のイベントを出力した複数のマイクにおいて、マイク間の距離、イベントの出力時間差、検知した特定音の音量を用いることにより音源位置を推定する。本実施形態では以上の手法で音源位置を推定するが、これらの方法に限定するものではない。例えば、指向性を持つマイクの使用により音源位置を推定する方法などが存在する。音源位置を推定した結果、音源位置の推定に使用した全てのマイクに対して、マイクの設置位置から音源位置までの距離と方向を取得することができる。また、推定した音源位置や音源位置の推定に使用したイベントに関する情報は音源ＩＤで管理される。すなわち音源ＩＤは、音源位置推定に使用したイベントのイベントＩＤ、各イベントを出力したマイクから音源までの距離情報や方向情報と関連付けることにより、データベースで管理される。以降、このデータベースを音源位置データベースと呼称する。

サーバー５０の判定部６５０７は、特定音検知時に、検知した音の音源位置が各イベントを出力したマイクと関連付けられているカメラの画角内（撮像範囲）であるか否かを判定する。判定は、パラメータ設定部６５０２で設定した画角内判定に関するパラメータに基づき、音源位置とカメラの画角情報を用いて実行される。音源位置は、音源位置推定部６５０６で取得した音源位置データベースの情報から取得できる。カメラの画角情報は、画角情報データベースに含まれる同イベント情報を出力したカメラの画角情報から取得できる。音源位置が各カメラの画角内であるか否かの判定結果は、イベントＩＤ毎に付与され、音源位置データベースで管理される。画角内判定を行うために設定されたパラメータは、例えばカメラから推定した音源位置までの、画角内と判定するために隔ててよい距離の上限値や、画角内と判定しない画像周辺部の画素数などである。画角内と判定しない画像周辺部の画素数とは、推定した音源位置が画像内に存在しても画角内と判定しない領域の大きさを決定する画素数のことである。画角内と判定しない領域とは、画像の上下左右の端部から指定した画素数分の辺縁領域のことである。推定した音源位置が、各ネットワークカメラの画角内か否かの判定方法の詳細については、図９を用いて説明する。本実施形態では、推定した音源位置と音源位置がイベントを出力したマイクと関連付けられているカメラの画角内に存在するか否かの判定結果を用いて映像の優先度を決定しているが、この方法に限定するものではない。例えば音源位置に近いカメラの映像ほど優先度を高くするなど、音源位置の情報のみで優先度を決定することも可能である。

サーバー５０の優先度決定部６５０８では、パラメータ設定部６５０２で指定した優先度決定に関する項目に基づき、特定音を検知した結果と、音源位置データベースの情報を用いて映像情報の優先度を決定する。優先度を決定するために指定する項目は、優先度決定時に使用する情報の種類である。すなわち、音声情報において、いずれの情報を使用して優先度を決定するかを指定する。本実施形態では音響特徴量として音量を使用する場合について記述する。また、音声情報でその音声情報に対応する映像情報の優先度を決定できなかった場合に、優先度を決定するために使用する情報の種類をさらに指定する。例えば、音響特徴量（音量）で映像情報の優先度を決定できない場合、カメラＩＤにより映像情報の優先度を決定する。

図７は、情報処理システムにおいてカメラで撮像した映像情報の優先度を音声情報とカメラの撮像範囲情報を用いて決定する場合の優先度決定手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第１の実施形態の図４に示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。なお、図７のステップＳ７０１、ステップＳ７０２及びステップＳ７０４の処理内容は、それぞれ図４のステップＳ４０１、ステップＳ４０２及びステップＳ４０３の処理内容と同じであるので、その説明を省略する。

ステップＳ７０３では、カメラ１０の画角方向取得部６１０３は、カメラの画角情報を取得する。取得された情報はサーバー５０に送信される。サーバー５０の映像音声情報受信部６５０３が受信した情報は、情報記憶部６５０４にある画角情報データベースに保存される。

ステップＳ７０５では、サーバー５０の音源位置推定部６５０６は、イベント情報とカメラの画角情報を用いて、パラメータ設定部６５０２で設定したパラメータに基づき、検知した音声の音源位置を推定する。特定音検知部６５０５が特定音を検知して出力したイベント情報は情報記憶部６５０４のイベント情報データベースに保存されている。カメラの画角情報は画角情報データベースに保存されている。音源位置推定部６５０６が音源位置の推定処理を実行して取得した音源位置推定結果は、情報記憶部６５０４にある音源位置データベースに保存される。

ステップＳ７０６では、優先度決定部６５０８は、情報記憶部６５０４のイベント情報データベースの情報を用いて、パラメータ設定部６５０２で指定した優先度決定に関する項目に基づき、映像情報の優先度を決定する。即ち、優先度決定部６５０８は、特定音を検知した結果と、音源位置データベースの情報を用いて映像情報の優先度を決定する。優先度決定部６５０８が映像情報の優先度を決定する処理の詳細については、図８を用いて説明する。

図８は、情報処理システムにおいて音響特徴量とカメラの撮像範囲情報を用いて映像優先度を決定する手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第１の実施形態の図５に示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。なお、図８のステップＳ８０１及びステップＳ８０２の処理内容は、それぞれ図５のステップＳ５０１及びステップＳ５０２の処理内容と同じであるので、その説明を省略する。

ステップＳ８０３では、判定部６５０７は、音源位置の情報とカメラの画角情報を用いて、特定音検知時に、検知した音の音源位置が各イベントを出力したマイクと対応するカメラの画角内（撮像範囲内）であるか否かを判定する。判定は、パラメータ設定部６５０２で設定したパラメータに基づいて実行される。また音源位置の情報は、情報記憶部６５０４にある音源位置データベースに保存されている情報を使用する。カメラの画角情報は、画角情報データベースに保存されている情報を使用する。判定部６５０７が実行した判定処理の判定結果は、イベント情報データベースに保存される。判定部６５０７の判定処理の具体的な手順は、図９を用いて説明する。なお、本実施形態では、推定した音源位置と音源位置がイベントを出力したマイクと関連付けられているカメラの画角内に存在するか否かの判定結果を用いて映像の優先度を決定している。従って、ステップＳ８０３において音源位置がカメラの画角内であるか否かの判定処理を行っている。なお、カメラの画角情報を用いないでカメラの撮像した映像の優先度を決定する場合は、イベントを出力したマイクと関連付けられているカメラの設置位置と音源位置の間の距離を用いる方法も考えられる。

ステップＳ８０４では、取得した音響特徴量およびカメラの画角内判定結果を、それぞれに応じた基準に基づいて評価値に変換する。なお、音源位置が画角内に存在するか否かの判定結果を使用しない場合は、音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離を、評価値に変換する。本実施形態では音響特徴量を０から５の整数の評価値に変換する。音響特徴量から評価値に変換するための対応表の例を図１６に載せる。例えば、音響特徴量が音量である場合、パラメータ設定部６５０２で設定した基準音量に対する比率を用いて評価値に変換する。基準音量に対する比率が０．８以上１．０未満の場合、評価値は３となる。

ステップＳ８０５で、それぞれのマイクから取得した音声情報に基づいて特定音検知部６５０５が検出した複数のイベント（特定音）から、優先度決定部６５０８は、選択しているイベントについてステップＳ８０４で得られた評価値を基にスコアを算出する。スコアとは有効な評価値の総和である。本実施形態では、音響特徴量とカメラの向きに関する評価値を使用してスコアを算出する。

ステップＳ８０６の処理内容は、ステップＳ５０３の処理内容と同じである。優先度を決定したイベントが他に存在する場合はステップＳ８０７に進み、存在しない場合はステップＳ８０８に進む。

ステップＳ８０７では、選択中のイベントが検出された時刻のスコアを、既に優先度が決定している他のイベントが検出された時刻のスコアと比較して優先度を再度決定する。優先度決定部６５０８は、スコアを比較した結果、スコアが大きい方の優先度を高く、小さい方の優先度を低くする。

ステップＳ８０９では、選択中のイベントとスコアが同じイベントが存在するか否かを判定する。スコアが同じイベントが存在する場合はステップＳ８１０に進み、存在しない場合はステップＳ８１５に進む。

ステップＳ８１０では、優先度決定部６５０８は、選択中のイベントとスコアが同じイベントとの優先度を決定する場合である。優先度決定部６５０８は、選択中のイベント検出時のカメラの向きに関する評価値を、既に優先度が決定している他のイベント検出時のカメラの向きに関する評価値と比較して優先度を決定する。優先度決定部６５０８は、評価値の和が大きい方の映像の優先度を高く、小さい方の映像の優先度を低くする。なお、優先度決定部６５０８は、音源位置が画角内に存在するか否かの判定結果を使用しない場合は、音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離に関する評価値を使用する。この場合、例えば、音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離が小さいほど評価値が高く、優先度決定部６５０８は、対応する映像の優先度を高くする。

ステップＳ８１１では、選択中のイベントとカメラの向きに関する評価値が同じイベントが存在するか否かを判定する。なお、カメラの向きに関する評価値を使用しない場合は、音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離が同じイベントが存在するか否かを判定する。カメラの向きに関する評価値もしくは音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離が同じイベントが存在する場合はステップＳ８１２に進み、存在しない場合はステップＳ８１５に進む。

ステップＳ８１３の処理は、ステップＳ５０６の処理と同じである。音響特徴量に関する評価値の和が同じイベントが存在する場合はステップＳ８１４に進み、存在しない場合はステップＳ８１５に進む。ここで、ステップＳ８１４及びステップＳ８１５の処理は、それぞれ図５のステップＳ５０７及びステップＳ５０８の処理と同じであるので、その説明を省略する。

図９は、情報処理システムにおける推定した音源位置の画角内含有判定手順を示すフローチャートである。

ステップＳ９０１では、判定部６５０７は、音源位置データベースから、既に選択済みのイベントのイベントＩＤと関連付けられている音源ＩＤを取得する。

ステップＳ９０２では、判定部６５０７は、取得した音源ＩＤと関連付けられており、かつ音源位置を推定する際に使用したイベントのイベントＩＤを用いて、当該イベントを出力したマイクと対応するカメラの画角情報を１つ取得する。イベント情報データベースを用いることで、イベントＩＤから当該イベントを出力したカメラのＩＤを取得することが可能である。さらに、画角情報データベースを用いることで、カメラＩＤから当該カメラの任意の時刻の撮影方向およびズーム倍率を取得することが可能である。判定部６５０７は、撮影方向とズーム倍率から画角情報を取得することが可能である。

ステップＳ９０３では、判定部６５０７は、特定音を検知した時刻において、音源位置が選択したカメラの撮影範囲内に含まれるか否かを判定する。カメラの撮影範囲は、ステップＳ９０２で取得したカメラの画角情報と、パラメータ設定部６５０２で設定した画角内と判定しない画像周辺部の画素数から算出できる。パラメータで設定する上記画素数は、カメラの倍率が初期設置時の値である場合に撮影される画像に対して適用する値である。またカメラの撮影範囲は角度のみで決定できる領域で、距離による制限はない。音源位置は、ステップＳ９０１で取得した音源ＩＤと関連付けられている、各イベントを出力したマイクから音源への方向情報および距離情報と、画角情報データベースから取得できる各マイクの設置場所の情報から算出できる。音源位置が選択したカメラの撮影範囲内に含まれる場合はステップＳ９０４に進み、含まれない場合はステップＳ９０６に進む。

ステップＳ９０４では、特定音を検知した時刻において、音源位置から選択したカメラまでの距離が、パラメータ設定部６５０２で設定した画角内と判定するために隔ててよい距離の上限値以下であるか否かを判定する。選択したカメラから推定した音源までの距離が、パラメータ設定部６５０２で設定した距離の上限値以下であれば、ステップＳ９０５に進み、上限値以上であれば、ステップＳ９０６に進む。

ステップＳ９０５では、判定部６５０７は、選択したカメラの画角内に、音源位置が含まれると判定する。

ステップＳ９０６では、判定部６５０７は、選択したカメラの画角内に、音源位置は含まれないと判定する。

ステップＳ９０７では、選択中のイベント群に含まれるイベントを検出した全てのカメラに対して、判定部６５０７は、推定した音源位置が選択したカメラの画角内に含まれるか否かの判定を実施したか否かを判定する。音源位置がカメラの画角内にあるか否かの判定を全てのカメラで実施した場合、推定した音源位置の画角内含有判定処理を終了し、全てのカメラで実施していない場合はステップＳ９０２に戻る。

本実施形態の処理によって、特定音の音源位置がカメラに近いが、特定音の音源位置がそのカメラの撮影の死角にあるために、特定音の音源位置を映っていないカメラの映像を表示する優先度を高くすることを防止することができる。

（第３の実施形態）
第２の実施形態では、映像の優先度を決定する際に音響特徴量の一つである音量と、検知した特定音の音源位置情報を用いた例を記載し、音源位置が画角内に存在するカメラの映像の再生が優先される。一方、第３の実施形態では、第２の実施形態の情報処理システムの構成に加えて、映像の優先度を決定する際に映像情報から取得できる特徴量を用いる例を図１０〜図１２を用いて説明する。また、第３の実施形態の情報処理システムのハードウェア構成は、第１の実施形態のハードウェア構成と同じであるので、その説明を省略する。

図１０は、情報処理システムにおいてカメラで撮像した映像の優先度を音声情報と映像情報とカメラの撮像範囲情報を用いて決定する場合のサーバーの機能ブロック図である。本実施形態は、第２の実施形態の図６に示す一部の機能ブロックと同様の機能ブロックを有するので、図１０では、機能が異なるブロックもしくは追加されたブロックについてのみ記述し、図６の機能ブロックと同じ機能ブロックの記載は省略する。

サーバー５０の映像特徴量抽出部１０５０８は、映像情報に対して動体検知などの映像認識を行い、特定音を検知した時刻にカメラが撮像した映像から映像特徴量を抽出する。映像から映像特徴量を抽出するにあたり、映像特徴量抽出部１０５０８は、映像情報データベース、画角情報データベース、音源位置データベースの情報を使用する。映像情報は、特定音の検知時刻に音源位置が画角内に存在する映像を使用する。例えば、映像特徴量抽出部１０５０８は、映像情報から動体検知を実施する場合、抽出する映像特徴量は、動体の検知時間や動体の最大サイズである。これらの特徴量はイベントＩＤと関連付けられる。本実施形態では、第１の実施形態と同様に、特定音は人の悲鳴であると定義し、動体は人体である。即ち、映像特徴量抽出部１０５０８は、映像情報から動体検知を実施する場合、抽出する映像特徴量は、人体の検知時間や人体の最大サイズである。

優先度決定部１０５０９では、特定音を検知した時刻にカメラが撮像した映像から取得した映像特徴量と、音源位置データベースの情報と、イベント情報データベースの情報を用いて、映像の優先度を決定する。優先度の決定は、パラメータ設定部１０５０２で指定した優先度決定に関する項目に基づいて実行される。優先度決定部１０５０９が映像の優先度を決定するために、パラメータ設定部１０５０２が指定する項目は、優先度決定時に使用する情報の種類である。すなわち、映像情報や音声情報などのうち、いずれの情報を使用して優先度を決定するかを指定する。本実施形態では映像情報と音声情報の両方を使用して映像の優先度を決定する場合について記述する。また、映像情報や音声情報などで映像の優先度を決定できなかった場合に、優先度を決定するために使用する情報を指定する。本実施形態ではカメラＩＤにより、カメラの撮像した映像の優先度を決定する場合について記述するが、この方法に限定するものではない。詳細な優先度決定方法については、図１２を用いて説明する。

図１１は、情報処理システムにおいてカメラで撮像した映像の優先度を音声情報と映像情報とカメラの撮像範囲情報を用いて決定する場合の優先度決定手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第２の実施形態の図７のフローチャートに示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。なお、図１１のステップＳ１１０１〜ステップＳ１１０５の処理内容は、それぞれ図７のステップＳ７０１〜ステップＳ７０５の処理内容と同じであるので、その説明を省略する。

ステップＳ１１０６では、映像特徴量抽出部１０５０８は、映像情報データベースと画角情報データベース、音源位置データベースの情報を用いることにより、特定音を検知した時刻近傍の映像から特徴量を抽出する。本実施形態では映像特徴量として、人体の検知時間や人体の最大サイズを抽出した。

ステップＳ１１０７では、情報記憶部１０５０４の音源位置データベースおよびイベント情報データベースの情報を用いて、パラメータ設定部１０５０２で指定した優先度決定に関する項目に基づき、優先度決定部１０５０９が映像の優先度を決定する。映像の優先度を決定する処理の詳細については、図１２を用いて説明する。

図１２は、情報処理システムにおいて、優先度決定部１０５０９が音響特徴量と映像特徴量で映像優先度を決定する手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第２の実施形態の図８のフローチャートに示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。

ステップＳ１２０３では、映像特徴量抽出部１０５０８は、推定した音源位置が画角内に存在する映像情報に対して人体検知などの映像認識を行い、特定音を検知した時刻にカメラの撮像した映像から映像特徴量を抽出する。映像特徴量の抽出には、音源位置の情報とカメラの画角情報、特定音を検知した時点を含む所定時間の映像情報が使用される。音源位置の情報は、情報記憶部１０５０４にある音源位置データベースに保存されている。カメラの画角情報は、画角情報データベースに保存されている。特定音を検知した時点を含む所定時間の映像情報は、映像情報データベースに保存されている。特徴量の抽出はパラメータ設定部１０５０２で設定したパラメータに基づいて実行される。

ステップＳ１２０５では、選択しているイベントについてステップＳ１２０４で得られた評価値を基にスコアを算出する。スコアとは有効な評価値の総和である。本実施形態では、音響特徴量として音量に関する評価値と、カメラの向きとして音源位置に関する評価値と、映像特徴量として人体検知時間と検知した人体のサイズに関する評価値を使用する。

ステップＳ１２１１では、優先度決定部１０５０９が選択中のイベントに関する特定の評価値の和を、既に優先度が決定している他のイベントに関する特定の評価値の和と比較して映像の優先度を決定する。スコアが同じイベントの間で優先度を決定する場合、優先度決定部１０５０９が特定の評価値の和を比較することで映像の優先度を決定する。特定の評価値とはイベント検出時のカメラの向きに関する評価値と、人体検知時間に関する評価値と、検知した人体サイズに関する評価値である。優先度決定部１０５０９は、評価値の和が大きい方の優先度を高く、小さい方の優先度を低くする。

ステップＳ１２１２では、優先度決定部１０５０９は、選択中のイベントとカメラの向きに関する評価値および人体検知時間と検知した人体サイズに関する評価値の和が、同じであるイベントが存在するか否かを判定する。カメラの向きに関する評価値および人体検知時間と検知した人体サイズに関する評価値の和が同じイベントが存在する場合はステップＳ１２１３に進み、存在しない場合はステップＳ１２１６に進む。ここで、ステップＳ１２１３〜ステップＳ１２１６の処理は、それぞれ図８のステップＳ８１２及びステップＳ８１５の処理と同じであるので、その説明を省略する。

本実施形態の処理によって、映像特徴量として抽出した人体のサイズが大きいほど、悲鳴発声者により近いネットカメラの撮像した映像であると推定し、その映像を表示する優先度を高くすることができる。

（第４の実施形態）
第１の実施形態から第３の実施形態までは、一つの地点で特定音（例えば、人の悲鳴）が複数のカメラに内蔵されたマイクの音声情報から検知した場合に対する情報処理システムの処理について説明した。第４の実施形態では、情報処理システムは、複数の地点で同じ種類の特定音（例えば、人の悲鳴）を検知した場合、それぞれの複数の地点における特定音の検知結果を区別して、複数のカメラで撮像した映像の優先度を決定する場合について説明する。複数の地点で検知された特定音の区別が行われない場合、映像の優先度に従って映像を確認する際に、確認したい場所とは異なる場所の映像が混在し、確認の効率が低下する可能性がある。第４の実施形態では、映像の優先度を決定する際に、同一の事象と考えられる検知結果に対して優先度決定処理を実施する。さらに同一事象を検知した複数の結果から、提示する映像を選択する処理を実行する。すなわち、本実施形態では、情報処理システムがカメラ監視者に提示する映像を選択する例を図１３〜図１５を用いて説明する。

なお、複数の検知結果をもとに提示する映像を選択する処理は、複数の検知結果が同一事象を検知した結果でない場合でも適用可能である。すなわち、本実施形態だけでなく、他の実施形態に適用可能である。しかし、提示する映像を選択する処理の効果が最も発揮される場合が、本実施形態で想定するような同一事象に対する検知結果が複数存在する場合であると考えられるため、本実施形態で説明する。

図１３は、情報処理システムにおいてカメラで撮像した映像の優先度を同一事象に対するイベントに関する音声情報と映像情報とカメラの撮像範囲情報を用いて決定し、優先度をもとに映像を表示する場合のサーバーの機能ブロック図である。本実施形態は、第３の実施形態の図１０に示す一部の機能ブロックと同様の機能ブロックを有するので、図１３では、機能が異なるブロックもしくは追加されたブロックについてのみ記述し、図１０の機能ブロックと同じ機能ブロックの記載は省略するする。

同一事象イベント抽出部１３５０６では、パラメータ設定部１３５０２で設定したパラメータに基づき、イベント情報データベース内のイベントに対して、検知した事象を区別する。本実施形態では、同一事象に対するイベントであると判断するパラメータは、検知した特定音の種類、イベントの種類、他のイベントとの検知時間差の最大値、そして他のマイクとの距離の最大値である。

特定音の種類とは、例えば、悲鳴や罵声、銃の発砲音、ガラスが割れる時の破壊音などである。また、イベントの種類とは、イベントが出力される際に満たした条件のことで、例えば、特定音の開始もしくは終了などである。

他のイベントとの検知時間差の最大値とは、同一事象に対するイベントであるか否かを判定する時間的な条件である。あるイベントに対して判定を行う場合、当該イベント発生時刻から、設定した最大値まで遡った時刻の間に検知されたイベントに対して判定処理を行う。即ち、所定時間内にイベント（特定音）が複数回検知された場合、これらのイベントは同一事象に対するものと判定される。例えば、検知時間差の最大値の所定時間を０．５秒と設定した場合、同一事象に対するイベントであるか否かを判定したいイベントの検知時刻から０．５秒以前に検知したイベントに対して、上記の判定を行う。

また、他のマイクとの距離の最大値とは、同一事象に対するイベントであるか否かを判定する空間的な条件である。あるイベントに対して判定を行う場合、当該イベント発生場所から、設定した最大値まで離れた場所の間で検知されたイベントに対して判定処理を行う。即ち、所定範囲内に複数のイベント（特定音）が検知された場合、これらのイベントは同一事象に対するものと判定される。例えば、検知距離の最大値の所定範囲を１０メートルと設定した場合、同一事象に対するイベントであるか否かを判定したいイベントの検知場所から１０メートル以内の別の検知場所で検知したイベントに対して、上記の判定を行う。

なお、本実施形態では、同一事象に対するイベントであるか否かを判定する空間的な条件として、イベントを検知したマイク間の距離を使用しているが、このほかにも推定した音源位置を使用する方法も考えられる。この場合、設定するパラメータは、音源位置が同一であると判断できる最大の誤差となる。すなわち、誤差の最大値を１メートルと設定した場合、それぞれのイベント情報から推定した音源位置の差が１メートル以内である場合は、同一事象を検知した結果であると判定する。なお、空間的な条件を規定する方法はこれに限定されない。同一の事象を検知したイベントであるか否かは、以上の条件を満たすか否かで判定する。パラメータが複数設定される場合は、全ての条件を満たすイベントが存在する場合、当該イベントはすべての条件を満たすイベントが検知した事象と同一の事象を検知したと判定する。同一事象に対するイベントであるか否かを判断する方法として、本実施形態では以下の手順を用いる。

まず、いずれの事象を検知したイベントであるかを判定したいイベントに対して、所定の時間範囲内に特定音を検知した他のイベントが存在するか否か判定する。条件を満たすイベントが存在する場合、検知した特定音の種類を比較し、同一であるか否かを判定する。その後、検知した時刻差が所定の範囲内である場合、イベントの種類を比較して、同一の事象を検知した結果であるか否か判定する。なぜなら、イベントの種類が混在すると、映像を確認する効率が低下すると考えられるためである。例えば、イベントの種類に特定音の開始と終了がある場合、特定音が発生した時点の映像を確認する場合には、特定音が終了する時点の映像は不要である。このような場合を避けるために、イベントを検知した時刻とイベントの種類で分類することが必要である。

最後に、検知した場所を比較し、所定の範囲内で検知された結果であるか否か判定する。判定対象となるイベントの特定音の種類・検知時刻・イベントの種類・検知場所が比較対象であるイベントの結果と同じである場合、判定対象となるイベントを比較対象となるイベントと同じ事象を検知したと判断する。

提示情報選択部１３５１１は、優先度決定結果に基づき、同一の特定音を検知した複数の検知結果からカメラ監視者に提示する検知結果を選択する。提示する検知結果の数および提示する映像の条件は、パラメータ設定部で指定することができる。提示する映像の条件とは、例えば提示する映像を音源位置が画角内に存在する映像に限定する、というものである。提示する映像情報は、パラメータ設定部で指定した条件に基づき映像優先度決定部で決定された優先度が高い映像から選択される。

以上の過程を経る事により、同時に複数の箇所で同じ特定音が発生した場合でも、複数の箇所の映像を混同することなく、特定音の発生場所ごとに映像を分類して再生することが可能となる。さらに、監視者に提示する映像の再生条件を指定することにより、多くの検知結果が存在する場合でも、監視者が効率的に映像の確認を行うことが可能となる。本実施形態では、以上の手順を用いることにより、検知した音の種類と音源の位置が同じであるイベントが複数存在する場合、映像の優先度と監視者に提示する映像を決定する条件に従って選択したカメラの映像を、カメラ監視者に提示することができる。これによりカメラ監視者は、優先度が高いカメラの映像のみを確認することができるため、特定音を検知したカメラの確認処理を効率的に行うことができる。ただし、適用する分類条件の数や、分類の順序は本実施形態に記載した内容に限定されるものではない。詳細な分類方法については、図１５を用いて説明する。また、同一事象イベント抽出部１３５０６において、同一事象に対するイベントであると判断された一連のイベントは、事象ごとにデータベースで管理される。以降、このデータベースを同一事象イベント情報データベースと呼称する。同一事象イベント情報データベースは、事象ごとに作成される。

図１４は、情報処理システムにおいてカメラで撮像した映像の優先度を同一事象に対するイベントに関する音声情報と映像情報とカメラの撮像範囲情報を用いて決定する場合の優先度決定手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第３の実施形態の図１１のフローチャートに示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。

ステップＳ１４０５では、同一事象イベント抽出部１３５０６は、イベント情報データベースのイベント情報を用いることにより、同一事象に対するイベントを抽出する。本実施形態では、同一事象のイベントである条件として、イベント検知時間が設定値以下であること、かつイベント検知場所間の距離が一定値以下であること、かつイベントの種類および検知した特定音の種類が同一であることを選定した。抽出されたイベントの情報は、情報記憶部１３５０４の同一事象イベント情報データベースに保存される。

図１５は、情報処理システムにおいて、同一事象イベント抽出部１３５０６が同一事象に対するイベントを推定する手順を示すフローチャートである。

ステップＳ１５０１では、同一事象イベント抽出部１３５０６は、イベント情報をイベント情報データベースから取得する。ここで情報を取得するイベントをイベントＡとする。

ステップＳ１５０２では、同一事象イベント抽出部１３５０６は、イベントＡの検知時刻以前に、パラメータ設定部で設定したイベント検知時間差の最大値の範囲内で、イベントＡ以外のイベント（以降、イベントＢと呼称）が存在するか否かを判定する。例えば、パラメータ設定部においてイベント検知時間差の最大値を０．５秒と設定した場合、同一事象イベント抽出部１３５０６は、イベントＡの検知時刻の０．５秒前までの間に他のイベントが存在するか否かを判定する。イベントＢが存在する場合はステップＳ１５０３に進み、存在しない場合はステップＳ１５０８に進む。

ステップＳ１５０３では、同一事象イベント抽出部１３５０６は、条件を満たすイベントＢの内から１つを選択する。

ステップＳ１５０４では、イベントＡとイベントＢの間で特定音の種類を比較する。特定音の種類とは例えば悲鳴や罵声、銃の発砲音、ガラスが割れる時の破壊音などである。イベントＡとイベントＢで特定音の種類が同じ場合はＳ１５０５に進み、同じでない場合はＳ１５０８に進む。

ステップＳ１５０５では、同一事象イベント抽出部１３５０６は、イベントＡとイベントＢの間でイベントの種類を比較する。イベントの種類とはイベントが出力される際に満たした条件のことで、例えば、特定音の開始もしくは終了である。イベントＡとイベントＢでイベントの種類が同じである場合はステップＳ１５０６に進み、同じでない場合はステップＳ１５０８に進む。

ステップＳ１５０６では、同一事象イベント抽出部１３５０６は、イベントＡとイベントＢの検知場所を比較し、同地域内で発生したイベントか否かを判定する。同地域内であるか否かは、イベントＡとイベントＢを検知したそれぞれの場所の間の距離が、パラメータ設定部で設定したイベント検知場所間の距離の最大値以下であるか否かで判定する。例えば、パラメータ設定部においてイベント検知場所間の距離の最大値を１０メートルと設定した場合、イベントＡとイベントＢを検出したそれぞれの場所の間の距離が１０メートル以下であるか否かを判定する。各イベント検出場所間の距離が設定値以下である場合は、同一事象イベント抽出部１３５０６は、２つのイベントは同地域で発生したとみなし、ステップＳ１５０７に進む。設定値以上である場合は、ステップＳ１５０８に進む。

ステップＳ１５０７では、同一事象イベント抽出部１３５０６は、イベントＡを、イベントＢが属するイベント群Ｐに追加し、イベント推定処理を終了する。イベント群Ｐは同一事象に対するイベントの集合である。すなわち、イベントの種類、検知した特定音の種類が同じで、一定時間内に出力されたイベントであり、出力された場所もお互いに近傍である。

ステップＳ１５０８では、イベントＢが複数存在する場合、同一事象イベント抽出部１３５０６は、イベントＡを全てのイベントＢと比較したか否かを判定する。全てのイベントＢとの比較を実施した場合はステップＳ１５１０に進み、比較を実施していないイベントＢが残っている場合はステップＳ１５０３に進む。

ステップＳ１５０９では、同一事象イベント抽出部１３５０６は、イベントＡの検知時刻以前に作成され、イベントの追加が行われる可能性のあった全イベント群について、イベント群に属するイベントを確定させる。イベント群に属するイベントの確定後は、イベント群にはイベントの追加が行われることはない。
ステップＳ１５１０では、同一事象イベント抽出部１３５０６は、イベントＡが属するイベント群Ｑを新たに作成し、イベント推定処理を終了する。

本実施形態の処理によって、特定音が異なる場所で発生した場合でも、特定音の発生場所ごとに、映像を表示する優先度を決定することができる。

（評価結果）
図１６は、情報処理システムにおいて、優先度決定部が各特徴量から評価値に変換するための対応表の例である。横方向が特徴量の種類、縦方向が評価値となっている。本実施形態では特徴量として以下の値を採用した。音響特徴量としては、イベント検出時の音量、イベント検出時に特定音と推定した尤度を採用し、さらに推定した音源位置が画角内に存在するか否かの判定結果を採用したのである。映像特徴量は、動体の検知時間、検知した動体の最大サイズである。表を用いると、特徴量がある値を取る場合に、該当範囲にある行の評価値に変換することができる。例えば、音量の場合、優先度決定部は、パラメータ設定部で設定した基準音量に対する比率を用いて音量の評価値に変換する。基準音量に対する比率が０．８以上１．０未満の場合、評価値は３となる。「−」部は特徴量から評価値への変換に対応できないことを示している。音源位置に関する「○」「×」とは、判定部が音源位置が画角内に存在するか否かを判定した結果である。動体検知時間の単位は秒、検知動体サイズの単位はピクセルである。検知動体サイズのピクセル数は、カメラの倍率が初期設置時の値である場合に撮影される画像での値に変換した数値である。

図１７は、特定音が同時に一箇所で発生した場合に、本発明の実施形態と従来技術とで映像の優先度を決定した結果の比較である。

図１７（ａ）は、ネットワークカメラで特定音（ここでは悲鳴を想定）を検知した場合の概略図を示したものである。場所は通路の交差点（十字路）を想定したもので図ではネットワークカメラは３台設置されている。ネットワークカメラから延びる三角形の影は各カメラの画角を表現したものである。交差点中央付近の×印の地点で悲鳴が発生し、３台全てのネットワークカメラが同時に悲鳴を検知したものとする。図中には検知した時点での各カメラにおける録画映像のイメージ図を添付した。吹き出しは検知した音声を表現したもので、実際に録画画面上に吹き出しが表示されるものではない。また、図中の人型は音源付近で映像から人物が検知されたことを意味している。

図１７（ｂ）は、各ネットワークカメラにおける音響特徴量、映像特徴量から取得した評価値の一覧である。特徴量から取得した評価値だけでなく、評価値から算出したスコアも記載されている。ここでは音声特徴量としてイベント検知時の音量を、カメラの位置として推定した音源の位置が画角内に存在するか否かの判定結果を用いている。映像特徴量としては動体の検知時間や検知した動体のサイズを用いている。また、参考として、各カメラと対応するマイクがイベントを出力した時刻も記述する。

図１７（ｃ）は、評価値に基づき優先度を決定した結果を示したものである。優先度が高い順に並べている。まず、特定音を検知したイベントに基づいて確認する映像の優先度を決定する場合、特定音の発生している場所が撮影されている映像から確認することを最も優先して行う必要がある。今回の状況では、カメラＢ、Ａ、Ｃの順に優先度が決定されることが望ましいと考えられる。

図１７（ｂ）の評価値の結果一覧によると、イベント検知時刻の早い方からカメラＣ、Ａ，Ｂの順にイベントが検知されたことが分かる。従来の方法では、例えば、イベントが検知された時刻が早いほど映像の優先度を高くする手法を使用する場合、映像の優先度は高い順にＣ、Ａ，Ｂとなる。この方法で映像の優先度を決定する場合、映像情報および音声映像のいずれの特徴も使用していないため、特に優先すべきカメラＢの映像の優先度が低くなっている。また、優先する必要の無いカメラＣの映像の優先度が高くなっている。

次に、第１の実施形態のように音声情報を用いて確認する映像の優先度を決定した結果を見る。図１７（ｂ）の結果より、音量から取得した評価値による判定結果は、評価値の和が大きい順にカメラＣ、Ｂ、Ａとなっている。音声は一般に距離が離れることにより音量が小さくなる。従って、音量が大きいカメラで撮像した映像の優先度を高くすることにより、悲鳴発生箇所近傍のカメラで撮像した映像の優先度を高くすることができる。

次に、第２の実施形態のように音声情報及びカメラの向きに関する情報を用いて、確認する映像の優先度を決定した結果を見る。図１７（ｂ）の結果より、２つの評価値の和による判定結果は、評価値の和が大きい順にカメラＢ、Ｃ、Ａとなっている。判定に使用した２つの評価値とは、以下に示す値である。１つは音量から取得した評価値である。もう１つは音源位置がカメラの画角内に存在するか否かの判定結果から取得した評価値である。従来の方法に比べると、最も優先して確認すべきカメラＢの映像は優先度を最も高く設定できているが、次に優先度を高くするべき映像の優先度が最も低く設定されている。これは複数の映像を確認して悲鳴発生時点の状況を確認したい場合、優先度の低い映像の確認を行う必要が生じて状況の把握が遅くなる可能性があることを意味している。

次に、第３の実施形態のように音声情報とカメラの向き、および映像情報を用いて、確認する映像の優先度を決定した結果を見る。図１７（ｂ）の結果より、３つの評価値の和による判定結果によると、評価値の和はカメラＢ，Ａ，Ｃの順で大きくなっている。判定に使用した３つの評価値とは、以下に示す値である。１つ目は音量から取得した評価値である。２つ目は音源位置がカメラの画角内に存在するか否かの判定結果から取得した評価値である。３つ目は映像認識結果から取得可能な動体撮影時間や動体のサイズから取得可能な評価値である。

音声情報だけで、悲鳴発生箇所が映っている可能性の高い映像の優先度を決定するより、画像情報を基に悲鳴発生箇所と推定できる地点を撮影しているか否かの判定などを実施する方が、正しく悲鳴発生箇所を映っているか否かを判定できる。音声情報および画像情報から取得できる評価値の和で映像の優先度を決定する場合、優先度は高い順にＢ、Ａ、Ｃとなる。この方法を使用することにより、最も優先度が高く設定されるべきカメラの映像だけでなく、次に優先度を高くするべきカメラの映像についても優先度が適切に付与される。

図１８は、特定音が同時に複数箇所で発生した場合に、本発明の実施形態と従来技術とで映像の優先度を決定した結果の比較である。

図１８（ａ）は、ネットワークカメラで特定音（ここでは悲鳴を想定）を検知した場合の概略図を示したものである。図１７（ａ）との違いは、悲鳴がほぼ同じ時刻に複数の場所で発生している点である。また、図中のカメラＡからカメラＦまではいずれもどちらか一方の特定音しか検知していないとする。図１８（ｂ）は、各ネットワークカメラにおける音響特徴量の一覧である。ここでは、音声特徴量としてイベント検知時の音量を用いている。また、参考として、各カメラと対応するマイクがイベントを出力した時刻も記述する。図１８（ｃ）は、特徴量の大小関係に基づき、映像の優先度を決定した結果を示したものである。映像の優先度が高い順に並べている。

図１８（ｂ）の評価値の結果一覧によると、イベント検知時刻からカメラＣ、Ｆ、Ａ，Ｄ，Ｂ、Ｅの順にイベントが検知されたことが分かる。例えば、イベントが検知された時刻が早いほど優先度を高くする従来の手法で映像の優先度を決定すると、映像の優先度は高い順にＣ、Ｆ、Ａ，Ｄ，Ｂ、Ｅとなる。この方法で優先度を決定する場合、検知したイベントに関係する音声情報や映像情報のいずれの特徴も使用していないため、優先すべき映像の優先度が低くなっている場合が発生する可能性がある。次に、検知したイベントを同一事象に対して出力されたイベントごとに抽出した結果を用いて優先度を決定した結果について確認する。６つのイベントを抽出した結果、２つの事象が発生しており、それぞれの事象に３つずつのイベントが検知されていることが分かる。それぞれの事象について事象毎に優先度を決定した結果、Ｂ，Ａ，Ｃの順およびＥ，Ｄ，Ｆの順の２つのグループの映像の優先度が決定された。これにより異なる事象の映像が混在して優先度を決定することが減り、確認したい事象の映像のみを確認できるようになったと考えられる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０カメラ
２０マイク
３０ディスプレイ
４０スピーカー
５０サーバー

Claims

複数の撮像装置から、前記複数の撮像装置のそれぞれが撮像した映像情報と前記撮像装置の画角情報とを取得する映像取得手段と、
前記複数の撮像装置のそれぞれに対応するマイクから、該撮像装置の撮像した映像情報と関連付けて音声情報を取得する音声取得手段と、
前記音声取得手段によって取得された複数の前記音声情報から特定音を検知する検知手段と、
前記音声取得手段によって取得された前記音声情報に基づいて、検知された前記特定音の音源位置を推定する推定手段と、
前記音源位置を推定した音声情報と関連付いている映像情報を撮像した撮像装置の前記画角情報を用いて、前記音源位置が当該撮像装置の画角内に含まれるかを判定する判定手段と、
前記特定音が検知された音声情報に関連付けられた複数の前記映像情報を表示する優先度を、前記特定音の音声情報の特徴量と前記判定手段による判定結果とに基づいて決定する決定手段と、
前記特定音の音声情報に関連付けられた複数の前記映像情報を前記優先度に基づいて表示する表示手段と、
を有し、
前記決定手段では、前記判定手段により前記音源位置が当該撮像装置の画角内に含まれると判定された場合に、当該撮像装置が撮像した映像情報を表示する前記優先度を高くすることを特徴とする情報処理装置。
前記特定音の音声情報の特徴量は、前記特定音の音量又は尤度であって、前記決定手段は、前記音量又は尤度の大きさに基づいて、前記映像情報を表示する優先度を決定することを特徴とする請求項１に記載の情報処理装置。
前記複数の撮像装置のそれぞれに対応する前記マイクは、前記複数の撮像装置のそれぞれの撮像方向と一致する方向から音声情報を取得することを特徴とする請求項１又は２に記載の情報処理装置。
前記特定音の音声情報に関連付けられた少なくとも一つの前記映像情報から動体が検知し、前記動体の検知時間又は検知された前記動体の最大サイズを、映像特徴量として抽出する抽出手段をさらに有し、
前記決定手段は、前記抽出手段によって抽出された前記映像特徴量に基づいて、前記映像情報を表示する優先度を決定することを特徴とする請求項１乃至３のいずれか１項に記載の情報処理装置。
前記表示手段は、前記特定音の音声情報に関連付けられた複数の前記映像情報を切替えて表示し、前記優先度の高い該映像情報を、前記優先度の低い該映像情報より先に表示することを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
前記検知手段によって前記特定音が所定時間内に複数回検知された場合、前記決定手段は、前記所定時間内に複数回検知された前記特定音の音声情報に関連付けられた複数の前記映像情報を表示する優先度を決定することを特徴とする請求項５に記載の情報処理装置。
前記検知手段によって前記特定音が複数回検知され、前記推定手段によって推定された複数回検知された前記特定音の音源位置が所定範囲内にある場合、前記決定手段は、複数回検知された前記特定音の音声情報に関連付けられた複数の前記映像情報を表示する優先度を決定することを特徴とする請求項６に記載の情報処理装置。
前記特定音は、人間の悲鳴、人間の罵声、銃の発砲音及びガラスが割れる音の少なくとも一つの種類に属することを特徴とする請求項１乃至７のいずれか１項に記載の情報処理装置。
前記決定手段は、複数の地点に分けて配置された前記複数の撮像装置のそれぞれに対応するマイクから取得される音声情報から、同じ種類の特定音が検知された場合、前記複数の地点で発生した事象ごとに前記特定音の検知結果を区別して、前記複数の撮像装置で撮像された複数の前記映像情報を表示する優先度を決定することを特徴とする請求項８に記載の情報処理装置。
前記決定手段は、前記特定音が検知された音声情報を取得した複数の前記マイク間の距離に基づいて、同一の事象に関して検知された前記特定音を区別することを特徴とする請求項９に記載の情報処理装置。
前記決定手段は、推定される前記特定音の音源位置に基づいて、同一の事象に関して検知された前記特定音を区別することを特徴とする請求項９に記載の情報処理装置。
請求項１乃至１１のいずれか１項に記載の情報処理装置と、前記複数の撮像装置と、前記複数のマイクと、を有することを特徴とする情報処理システム。
複数の撮像装置から、前記複数の撮像装置のそれぞれが撮像した映像情報と前記撮像装置の画角情報とを取得する映像取得工程と、
前記複数の撮像装置のそれぞれに対応するマイクから、該撮像装置の撮像した映像情報と関連付けて音声情報を取得する音声取得工程と、
前記音声取得工程で取得された複数の前記音声情報から特定音を検知する検知工程と、
前記音声取得工程で取得された前記音声情報に基づいて、検知された前記特定音の音源位置を推定する推定工程と、
前記音源位置を推定した音声情報と関連付いている映像情報を撮像した撮像装置の前記画角情報を用いて、前記音源位置が当該撮像装置の画角内に含まれるかを判定する判定工程と、
前記特定音が検知された音声情報に関連付けられた複数の前記映像情報を表示する優先度を、前記特定音の音声情報の特徴量と前記判定工程での判定結果とに基づいて決定する決定工程と、
前記特定音の音声情報に関連付けられた複数の前記映像情報を前記優先度に基づいて表示手段に表示させる表示工程と、
を有し、
前記決定工程では、前記判定工程により前記音源位置が当該撮像装置の画角内に含まれると判定された場合に、当該撮像装置が撮像した映像情報を表示する前記優先度を高くすることを特徴とする情報処理方法。
コンピュータに読み込ませ実行させることによって、前記コンピュータに、
複数の撮像装置から、前記複数の撮像装置のそれぞれが撮像した映像情報と前記撮像装置の画角情報とを取得する映像取得ステップと、
前記複数の撮像装置のそれぞれに対応するマイクから、該撮像装置の撮像した映像情報と関連付けて音声情報を取得する音声取得ステップと、
前記音声取得ステップで取得された複数の前記音声情報から特定音を検知する検知ステップと、
前記音声取得ステップで取得された前記音声情報に基づいて、検知された前記特定音の音源位置を推定する推定ステップと、
前記音源位置を推定した音声情報と関連付いている映像情報を撮像した撮像装置の前記画角情報を用いて、前記音源位置が当該撮像装置の画角内に含まれるかを判定する判定ステップと、
前記特定音が検知された音声情報に関連付けられた複数の前記映像情報を表示する優先度を、前記特定音の音声情報の特徴量と前記判定ステップでの判定結果とに基づいて決定する決定ステップと、
前記特定音の音声情報に関連付けられた複数の前記映像情報を前記優先度に基づいて表示手段に表示させる表示ステップと、
を実行させ、前記決定ステップでは、前記判定ステップで前記音源位置が当該撮像装置の画角内に含まれると判定された場合に、当該撮像装置が撮像した映像情報を表示する優先度を高くすることを特徴とするプログラム。