JP6980379B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP6980379B2
JP6980379B2 JP2016247185A JP2016247185A JP6980379B2 JP 6980379 B2 JP6980379 B2 JP 6980379B2 JP 2016247185 A JP2016247185 A JP 2016247185A JP 2016247185 A JP2016247185 A JP 2016247185A JP 6980379 B2 JP6980379 B2 JP 6980379B2
Authority
JP
Japan
Prior art keywords
information
priority
event
specific sound
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016247185A
Other languages
English (en)
Other versions
JP2018101916A5 (ja
JP2018101916A (ja
Inventor
晋太郎 石田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016247185A priority Critical patent/JP6980379B2/ja
Publication of JP2018101916A publication Critical patent/JP2018101916A/ja
Publication of JP2018101916A5 publication Critical patent/JP2018101916A5/ja
Application granted granted Critical
Publication of JP6980379B2 publication Critical patent/JP6980379B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Alarm Systems (AREA)
  • Studio Devices (AREA)

Description

本発明は、音声情報に基づいて、映像情報の優先度を決定する情報処理装置、情報処理方法およびプログラムに関する。
近年、音声認識技術が様々な製品に搭載され、普及が進んでいる。その技術の一つが特定音認識技術である。特定音認識技術とは、人間の悲鳴や罵声をはじめ、銃の発砲音やガラスが割れる音など、特定の事象が発生した場合に生じる音(特定音)を認識する技術である。この技術を使用しているユースケースの一つに、ネットワークカメラを用いた監視活動の補助がある。通常、ネットワークカメラを用いて監視活動を行う場合、監視対象エリア内に設置されたネットワークカメラなどから映像などの情報を取得する。取得した情報を用いて特定の事象の発生を認識した場合、監視者に通知を行う。監視者は通知を確認することにより、特定の事象が発生した時刻や場所等を知ることが可能になる。特許文献1では、センサを用いて特定の事象を検出した場合、検出した特定の事象の内容を、当該センサと関連付けられているネットワークカメラで取得した映像情報の表示に重畳させている。具体的には、特許文献1では、温度センサや圧力センサにより取得した温度や圧力の値に基づいて異常もしくは事象を検出した時、映像を出力するモニタ上に重畳表示するアラーム等のテキストを作成し、表示している。
特開平11−184448
しかしながら、ある事象の検出に音声情報を使用する場合、音は広範囲に等方的に伝わるため検出の対象である特定音を検出するネットワークカメラが1台であるとは限らない。例えば、比較的に遠方に設置されているネットワークカメラでも検出の対象である特定音を検出する場合が考えられる。
特許文献1の方法では、特定の音を検知した複数のマイクに対応する複数のネットワークカメラの映像を表示するモニタ上にアラーム等を重畳して表示をすると、監視者はどの映像を優先して確認すべきかを判断することが困難である。監視者がモニタ上に順番に再生する複数の映像から、又はモニタ上に同時に表示される複数の映像から特定音の発生場所の映像を速やかに特定し、確認することはできないという課題が発生する。
本発明は上記の課題に鑑みてなされたものであり、検知した特定音の特徴量に基づいて映像の優先度を決定することによって、優先して確認すべき映像を容易に特定する情報処理装置を提供することを目的とする。また、その情報処理装置の情報処理方法およびプログラムを提供することを目的とする。
かかる課題を解決するため情報処理装置は、以下の構成を有する。すなわち、複数の撮像装置から、前記複数の撮像装置のそれぞれが撮像した映像情報と前記撮像装置の画角情報とを取得する映像取得手段と、前記複数の撮像装置のそれぞれに対応するマイクから、該撮像装置の撮像した映像情報と関連付けて音声情報を取得する音声取得手段と、前記音声取得手段によって取得された複数の前記音声情報から特定音を検知する検知手段と、前記音声取得手段によって取得された前記音声情報に基づいて、検知された前記特定音の音源位置を推定する推定手段と、前記音源位置を推定した音声情報と関連付いている映像情報を撮像した撮像装置の前記画角情報を用いて、前記音源位置が当該撮像装置の画角内に含まれるかを判定する判定手段と、前記特定音の音声情報に関連付けられた複数の前記映像情報を表示する優先度を、前記特定音の音声情報の特徴量と前記判定手段による判定結果とに基づいて決定する決定手段と、前記特定音の音声情報に関連付けられた複数の前記映像情報を前記優先度に基づいて表示する表示手段と、を有し、前記決定手段では、前記判定手段により前記音源位置が当該撮像装置の画角内に含まれると判定された場合に、当該撮像装置が撮像した映像情報を表示する前記優先度を高くする。
本発明の情報処理装置によれば、検知した特定音の特徴量に基づいて映像の優先度を決定することによって、優先して確認すべき映像を容易に特定することができる。
第1の実施形態の情報処理システムの構成を示すブロック図である。 第1の実施形態の情報処理システムのハードウェア構成を示すブロック図である。 第1の実施形態の情報処理システムの機能構成を示すブロック図である。 第1の実施形態の情報処理システムにおける映像の優先度決定手順を示すフローチャートである。 第1の実施形態の情報処理システムにおいて音響特徴量で映像優先度を決定する手順を示すフローチャートである。 第2の実施形態の情報処理システムの機能構成を示すブロック図である。 第2の実施形態の情報処理システムにおける映像の優先度決定手順を示すフローチャートである。 第2の実施形態の情報処理システムにおいて音響特徴量とカメラの撮像範囲情報とを用いて映像優先度を決定する手順を示すフローチャートである。 第2の実施形態の情報処理システムにおいて音源位置の画角内含有判定手順を示すフローチャートである。 第3の実施形態の情報処理システムの機能構成を示すブロック図である。 第3の実施形態の情報処理システムにおける映像の優先度決定手順を示すフローチャートである。 第3の実施形態の情報処理システムにおいて音響特徴量と映像特徴量とを用いて映像優先度を決定する手順を示すフローチャートである。 第4の実施形態の情報処理システムの機能構成を示すブロック図である。 第4の実施形態の情報処理システムにおける映像の優先度決定手順を示すフローチャートである。 第4の実施形態の情報処理システムにおいて同一事象に対するイベントを推定する手順を示すフローチャートである。 各実施形態の情報処理システムにおいて各特徴量から評価値に変換するための対応表の例である。 特定音が一つの地点で発生した場合における優先度決定結果である。 特定音が同時に複数の地点で発生した場合における優先度決定結果である。 (a)複数の映像情報を一覧表示する例である。(b)複数の映像情報を切り替えて表示する例である。
(第1の実施形態)
以下、本発明における第1の実施形態について、図面を参照しながら説明する。
本実施形態は、複数のネットワークカメラおよびネットワークカメラと対応するマイクをはじめとするセンサで構成される情報処理システムに関するものである。ネットワークカメラと対応するマイクは、例えばネットワークカメラに内蔵したマイクである。以後、ネットワークカメラのことをカメラと記述する。
カメラと対応するマイクから取得した音声情報に対して、検知対象となる音を、特定音と記述する。特定音は複数の方法で定義することが可能である。例えば、特定音は音の種類で定義する方法がある。本実施形態では特定音の種類が人の発する悲鳴である場合を例に説明するが、特定音はこれに限定されるものではない。また、特定音を定義する別の方法として、検知しない音を指定する方法がある。この方法を使用することで検知しない音に指定した音以外の音を特定音として検知することが可能となる。
また、設定した条件のもとで、マイクからの音声情報をもとに行う特定音の検知や、カメラからの映像情報をもとに行う動作する物体の検知などの処理を行った結果、特定音などを検知した場合に、イベントが発生する。また、検知対象となる特定音などを検知してその結果を出力することを、イベントを出力すると記述する。本実施形態では、出力されたイベントにより取得できる情報には、特定音の検知時間や検知場所などが含まれるが、これに限定されるものではない。
本実施形態では、ある事象の発生に伴って発生した特定の音(特定音)を検知する手段としてマイクを使用し、検知結果から取得できる音響特徴量を用いて映像を表示する際の優先度を決定する場合について説明する。
図1は、本実施形態の情報処理システムの構成を示すブロック図である。
本実施形態の情報処理システムには複数台のカメラ10a〜10cが含まれる。複数台のカメラ10a〜10cは、それぞれのカメラの設定に応じて画像情報や映像情報を取得し、取得した画像情報や映像情報と画角範囲などのカメラ本体情報とをサーバー50に送信することができる。また、それぞれのカメラは、簡易な画像処理であれば、画像内の特定の物体の検知や、動作の検出を行うことも可能である。複数台のカメラ10a〜10cの取得した画像情報や映像情報及び本体情報などは、後述するサーバー50に送信される。
本実施形態の情報処理システムには、複数台のマイク20a〜20cが含まれる。複数台のマイク20a〜20cは、それぞれのマイクの設定に応じてマイク周囲の音声情報を取得することができる。また、それぞれのマイクは、ノイズ除去やゲイン制御などの簡単な処理を行うことが可能である。複数台のマイク20a〜20cの取得した音声情報は、後述するサーバー50に送信される。本実施形態では各マイクがカメラと一対一対応しており、かつカメラ本体にマイクを装着(内蔵)して使用する場合を想定するが、これに限定するものではない。
サーバー50は、カメラやマイク、ディスプレイ30やスピーカー40などと接続される。サーバー50は、カメラやマイクから取得した画像情報や映像情報と音声情報とをもとに、特定音の検知や特定音を検知した時点の映像の認識、特定音を検知した時点の映像の優先度の決定などを行うことが可能である。本実施形態の情報処理装置は、少なくともサーバー50及びディスプレイ30を含む。
ディスプレイ30は、ディスプレイ30の設定に応じて複数のカメラの映像を同時に再生することが可能である。ディスプレイ30は、サーバー50から送信される映像を再生することができる。
スピーカー40は、スピーカー40の設定に応じて特定のマイクで取得した音声を再生することが可能である。また、スピーカー40は、ディスプレイ30の映像再生と同期して音声を再生することも可能である。
図2は、情報処理システムのハードウェア構成を示すブロック図である。
本実施形態では、情報処理システムが、図2に示すように5つのブロックに分かれているが、これに限定されるものではない。図2に示すように5つのブロックのうちのいくつかが1つのブロックで構成される場合も考えられる。
カメラ10は、図1の複数台のカメラ10a〜10cの何れか一つである。カメラ10の通信部11は、後述する映像取得部15が取得したデータをサーバーに送信する際に使用される。
カメラ10のCPU12は、メモリ13や記憶装置14に格納されているコンピュータプログラムやデータを用いてノイズ除去や画素補間などの各種処理を行う。
カメラ10のメモリ13は、後述する映像取得部15が取得したデータを、一時的に保持するためのワークエリアを有する。また、メモリ13は、CPU12が処理を行う際に必要なワークエリアも有する。
カメラ10の記憶装置14は、各種処理を行うためのコンピュータプログラムや、カメラの設定項目等を保持する。
カメラ10の映像取得部15は、例えばレンズや画像センサなどである。ユーザーは映像取得部15を用いることにより、視覚情報を映像データとして取得することができる。
マイク20は、図1の複数台のマイク20a〜20cの何れか一つである。マイク20の通信部21は、後述する音声取得部22が取得した音声データをサーバー50に送信する際に使用される。
マイク20の音声取得部22は、マイク周辺の音声や物音を取得することができる。必要に応じてノイズ除去など簡単な処理を実行することも可能である。マイク20が指向性を持つ場合もあり、この場合は、音声取得部22は、特定の方向や範囲からの音の取得が容易になる。マイク20が指向性を持つ場合、マイク20に対応するカメラ10の撮像方向や撮像範囲となるべく一致する方向や範囲から音声情報を取得することが望ましい。
ディスプレイ30の通信部31は、サーバー50から画像データを受信する際に使用される。
ディスプレイ30の映像表示部32は、通信部31を経由して取得したカメラの画像データをユーザーの目に見えるように表示する。
スピーカー40の通信部41は、サーバー50から音声データを受信する際に使用される。
スピーカー40の音声再生部42は、サーバーから受信した音声データを再生することができる。
サーバー50の通信部51は、カメラ10やマイク20が取得したデータの受信や、ディスプレイ30やスピーカー40へのデータの送信を行う際に使用される。
サーバー50のCPU52はメモリ53や記憶装置54に格納されているコンピュータプログラムやデータを用いて、カメラなどサーバーに接続している機器のCPUでは実行できない、若しくは各機器が各々持つ情報のみでは実行できない処理の実行を行う。例えば、CPU52は検知した特定音の発生位置がカメラの画角範囲内か否かを判定する処理や、複数のマイクで同一の特定音を検知した場合に特定音の発生位置を特定する処理などを実行する。
サーバー50のメモリ53は、サーバーに接続している機器から取得したデータや送信するデータを、一時的に保持するためのワークエリアを有する。また、メモリ53はCPU52が処理を行う際に必要なワークエリアも有する。
サーバー50の記憶装置54は、各種処理を行うためのコンピュータプログラムや、サーバーの設定項目等を保持する。
図3は、情報処理システムの機能構成を示すブロック図である。
カメラ10のカメラ制御部3101は、カメラ10が映像取得、物体認識などを滞りなく行うよう、タスクの管理を行う。
カメラ10の映像情報取得部3102は、映像取得部15を用いて、設定した条件下での映像情報を取得し、サーバー50の映像音声情報受信部3503に送信することができる。また、映像情報取得部3102は、映像取得部15を用いて、必要に応じて赤外像など可視光範囲外の映像の取得や、ノイズ除去や画素補間などの簡単な処理が実行された画像の取得を行うことも可能である。
マイク20のマイク制御部3201は、マイク20が音声取得、ノイズ除去などの各種前処理などを滞りなく行うよう、タスクの管理を行う。
マイク20の音声情報取得部3202は、音声取得部22を用いて、設定した条件下での音声情報を取得し、サーバー50の映像音声情報受信部3503に送信することができる。
本実施形態では、音声情報は映像情報と同期が可能な形でサーバー50の情報記憶部3504に記憶される。同期可能にするには、それぞれのファイルに時間情報を付与する方法や、同時に取得した音声情報と映像情報を1つのファイルで記憶する方法が考えられるが、これらの方法に限定されるものではない。
ディスプレイ30のディスプレイ制御部3301は、ディスプレイ30が、受信した情報の表示などを滞りなく行うよう、タスクの管理を行う。
ディスプレイ30の映像情報再生部3302は、映像表示部32を用いて、サーバーから受信した映像情報を設定した条件のもとで再生することができる。映像情報再生部3302による映像情報の再生は、例えば以下のような方法で実施される。すなわち、再生する映像が複数存在する場合、1つずつのカメラの映像を定期的に切り替えて表示する方法や、複数のカメラの映像を並列して表示する方法や、これらを組み合わせて表示する方法が考えられる。また、本実施形態で決定された映像の優先度に基づき、複数の映像を切替えて表示する場合は、優先度の高い映像を先に再生し、優先度の高い映像の再生時間を長く設定する方法が考えられる。また、表示画面を分割して複数の映像を表示する場合は、優先度の高い映像の再生時の表示領域を大きく設定する方法が考えられる。なお、映像の優先度に基づく映像の再生方法は、これらに限定されるものではない。
スピーカー40のスピーカー制御部3401は、スピーカー40が、受信した音声の再生を滞りなく行うよう、タスクの管理を行う。
スピーカー40の音声情報再生部3402は、音声再生部42を用いて、設定した条件下で音声情報を再生することができる。例えば、ディスプレイ30の映像情報再生部3302が映像情報を再生している場合に、スピーカー40の音声情報再生部3402は、再生中の映像情報を取得したカメラと対応するマイクから取得した音声情報を再生することも可能である。
サーバー50のサーバー制御部3501は、サーバー50が特定音を検知し、特定音の音源位置を推定し、映像の優先度を決定する処理などを滞りなく行うよう、タスクの管理を行う。
サーバー50のパラメータ設定部3502は、検知する特定音の種類や検知する条件などの指定、また、優先度を決定する際に用いる項目等の指定を行うことが可能である。また、パラメータ設定部3502は、サーバー50に接続したカメラやマイクなどの設定を行い、各機器に設定情報を送信することも可能である。それにより直接操作できない機器の設定や、複数の機器を一括で設定することが可能になる。
サーバー50の映像音声情報受信部3503は、カメラ10が出力する映像情報や画角情報、およびマイク20が出力する音声情報を受信することができる。また、映像音声情報受信部3503が受信した情報は、情報記憶部3504で作成したそれぞれのデータベースで管理される。映像情報は、一定時間ごとにファイル出力される。映像情報を含む出力ファイル(以降、映像情報ファイル)は、当該映像情報ファイルを出力したカメラのカメラID、および映像情報の取得期間と関連付けてデータベースで管理される。以降、映像情報を管理するデータベースを映像情報データベースと呼称する。音声情報は、画像情報(映像情報)と同様、一定時間ごとにファイルに出力される。音声情報を含む出力ファイル(以降、音声情報ファイル)は、当該音声情報を取得したマイクのマイクID、および音声情報の取得期間と関連付けてデータベースで管理される。以降、音声情報を管理するデータベースを音声情報データベースと呼称する。
サーバー50の情報記憶部3504は、映像音声情報受信部3503が受信した映像情報及び音声情報で作成された映像情報データベース及び音声情報データベースを記憶する。さらに、情報記憶部3504は、後述する特定音検知部3505で作成するイベント情報データベースを記憶する。本実施形態では、情報記憶部3504、複数のデータベースを記憶しているが、これに限定されるものではない。
サーバー50の特定音検知部3505は、パラメータ設定部3502で設定した特定音検知に関するパラメータに基づき、マイクが取得した音声情報から音響特徴量を抽出し、音響モデルとのマッチングによって特定音を検知する。特定音検知部3505は、特定音を検知した場合にイベントの出力などを行う。特定音を検知するためのパラメータは例えば、検知する特定音の種類や、検知の条件などを指定するものである。特定音の種類は、例えば、人間の悲鳴やガラスが割れる音など音の種類である。検知の条件は、特定音の開始もしくは終了を検知した場合などである。
特定音検知部3505から出力されるイベントには、例えば、イベントID、マイクID、検知した特定音の種類、イベントの種類、特定音を検知した時刻、検知した特定音の音声情報に関する音響特徴量が含まれる。イベントIDとはイベントを識別するためにイベント毎に付与されるIDのことである。マイクIDとは検知した音声を取得したマイクを識別するために付与されるIDのことである。イベントの種類とはイベントが出力される際に満たした条件のことで、例えば、特定音の開始もしくは終了などである。特定音には悲鳴や罵声、銃の発砲音、ガラスが割れる時の破壊音などが挙げられる。また、本実施形態ではサーバー50の特定音検知部3505が特定音を検知する処理を行っているが、これに限定するものではない。また、本実施形態では音響特徴量として音量を使用する場合を例に説明する。特定音検知部3505から出力されたイベントは、データベースで管理される。イベント情報を管理するデータベースをイベント情報データベースと呼称する。
サーバー50の優先度決定部3506では、パラメータ設定部で指定した優先度決定に関する項目に基づき、特定音を検知した結果を用いて、設定された項目の優先度を決定する。優先度を決定するためにパラメータ設定部が指定する項目は、優先度決定時に使用する情報の種類である。すなわち、映像情報や音声情報などのうち、いずれの情報を使用して優先度を決定するかを指定する。また、映像情報や音声情報などで優先度を決定できなかった場合に、優先度を決定するために使用する他の情報を指定する。本実施形態では音声情報、とくに音声情報の音響特徴量として音量を使用して、音声情報の優先度を決定する場合について記述する。また、音響特徴量だけで優先度を決定できない場合は、さらにカメラIDにより優先度を決定する方法について記述する。本実施形態ではここで記載した項目を指定する場合について記載するが、この方法に限定するものではない。詳細な優先度決定方法については、図5を用いて説明する。また、本実施形態では、マイクを内蔵した複数のカメラによって情報処理システムが構成されているので、それぞれのマイクによって取得された音声情報に対応する映像情報は、そのマイクを内蔵したカメラが音声情報に同期して撮像した映像である。そこで、音声情報の優先度は、その音声情報に対応する映像情報の優先度になるので、音声情報の優先度を決定することによって、映像情報の優先度を決定することができる。
映像音声情報送信部3507は、優先度決定部3506が決定した優先度に基づき、ディスプレイ30やスピーカー40で再生する映像情報や音声情報を送信することができる。
図4は、情報処理システムにおける映像の優先度決定手順を示すフローチャートである。以下、フローチャートは、CPU52が制御プログラムを実行することにより実現されるものとする。
ステップS401では、サーバー50のパラメータ設定部3502において、ユーザーの操作に基づき、検知する特定音の種類や検知する条件の指定や、映像の優先度を決定する際に考慮する項目等の指定を行う。例えば、検知する条件の指定においては特定音の開始もしくは終了を検知した場合などに特定音の検知を行うように設定することができる。
ステップS402では、カメラ10の映像情報取得部3102が映像情報を取得する。また、カメラと対応しているマイクの音声情報取得部3202が音声情報を取得する。取得された映像情報及び音声情報はサーバーに送信される。サーバー50の映像音声情報受信部3503が受信した映像情報及び音声情報は、情報記憶部3504にある画像情報データベース、音声情報データベースにそれぞれ保存される。
ステップS403では、音声情報データベースに保存された音声情報に対して、パラメータ設定部3502で設定したパラメータに基づき、サーバー50の特定音検知部3505が特定音の検知処理を実施する。検知処理の結果、特定音が検知された場合はイベント情報を出力する。出力されたイベント情報は、情報記憶部3504にあるイベント情報データベースに保存される。本実施形態では、それぞれがマイクを内蔵する複数のカメラが設定された場所において、特定音の種類として人の悲鳴が設定された場合に、特定音検知部3505が複数のカメラに内蔵された複数マイクの音声情報から特定音である人の悲鳴を検出したとする。特定音検知部3505が複数マイクの音声情報から特定音を検出したことに対応して、複数のイベント情報を出力し、イベント情報データベースに保存する。ここで保存されるイベント情報は同一事象に関するものであるとする。
ステップS404では、優先度決定部3506は、情報記憶部3504にある同一事象に関するイベント情報データベースのイベント情報を用いて、同一事象を検知した一連のイベントに対応する映像情報や音声情報の優先度を決定する処理を実施する。優先度決定部3506が優先度を決定する処理の詳細については、図5を用いて説明する。
図5は、情報処理システムにおいて、音響特徴量で映像優先度を決定する手順を示すフローチャートである。
ステップS501では、優先度決定部3506は、イベント情報データベースに保存されている複数のイベント情報から、1つのイベント情報を選択する。優先度決定部3506は、イベント情報を選択することにより、イベントIDや当該イベントを出力したマイクと対応するカメラのカメラIDなどのイベント情報を取得することができる。
ステップS502では、優先度決定部3506は、取得したイベント情報から、イベントが検出された時刻に、マイクが取得した音声情報の音響特徴量を取得する。本実施形態では音響特徴量として音量を使用した例を記述する。
ステップS503では、優先度決定部3506は、選択中のイベントの他に、既に優先度を決定したイベントが他に存在するか否かを判定する。優先度を決定したイベントが他に存在する場合はステップS504に進み、存在しない場合はステップS505に進む。
ステップS504では、優先度決定部3506は、選択中のイベントが検出された時刻の音量と、既に優先度が決定している他のイベントが検出された時刻の音量と比較して、優先度を再度決定する。このステップでは、優先度決定部3506は、音量がより大きい方のイベントの優先度を高く、音量がより小さい方のイベントの優先度を低くするように再決定する。ここで、イベントの優先度を高くすることは、特定音が検出された際のイベントに対応する音声情報の優先度を高くし、音声情報に対応する映像情報の優先度を高くすることになる。
ステップS505では、優先度決定部3506は、現在選択中のイベントに対して、優先度を最も高く設定する。ここでも、同様に、イベントの優先度を高くすることは、特定音が検出された際のイベントに対応する音声情報の優先度を高くし、音声情報に対応する映像情報の優先度を高くすることになる。
ステップS506では、選択中のイベントと音量が同じイベントが存在するか否かを判定する。音量が同じイベントが存在する場合はステップS507に進み、存在しない場合はステップS508に進む。
ステップS507では、パラメータ設定部3502で指定した優先度決定に関する項目に基づき、イベントの優先度を決定する。優先度を決定する基準は例えば、カメラIDの順番などが挙げられる。
ステップS508では、優先度決定部3506は、イベント群に含まれる全てのイベントに対して、優先度を決定したか否かを判定する。全てのイベントに対して優先度が決定している場合は、イベントに対応する音声情報やその音声情報に対応する映像情報の優先度の決定処理が終了し、優先度が決定していないイベントがある場合は、ステップS501の処理に戻る。
図5で説明した処理では、優先度決定部3506は、音声情報から特定音を検知した時に出力したイベントの優先度を決定し、イベントに対応する音声情報やその音声情報に対応する映像情報の優先度を決定する。映像情報や音声情報の優先度を決定する方法は、図5の説明に限らない。例えば、優先度決定部3506は、特定音を検知した音声情報から音響特徴量である音量に関する情報を取得し、音量の大きさに基づいて、直接に音声情報及びその音声情報に対応する映像情報の優先度を決定してもよい。
本実施形態における映像情報の表示方法の一例を説明する。図19(a)に、ディスプレイ30がカメラA〜カメラIのそれぞれが撮像した映像情報を一覧表示する画面を示す。これらの映像情報の表示中に、カメラA〜カメラCに対応するマイクの取得した音声情報から悲鳴が特定音として検出され、カメラG〜カメラIに対応するマイクの取得した音声情報から銃声が特定音として検出されたとする。ここで、監視者の指定により、又はデフォルトの設定により、カメラA〜カメラCが撮像した映像情報が、図19(b)に示すように切り替えて表示される。即ち、ディスプレイ30が、優先度決定部3506が決定した優先度に基づいて、カメラA〜カメラCが撮像した映像情報を切替えて表示する。これにより、ディスプレイ30が、監視者に優先して確認すべき映像を提示することができる。
(第2の実施形態)
第1の実施形態では、映像情報の優先度を決定する際に音響特徴量の一つである音量を用いた。第1の実施形態の方法では、特定音の音源付近が撮影範囲ではないカメラ、例えば、特定音の音源の真上に設置され、音源付近が撮影の死角であるカメラの映像の優先度が高くなる場合が発生する可能性がある。このようなカメラの映像の優先度が高くなる場合、音源付近が撮影されている本来優先度が高くなるべきカメラで撮像した映像の優先度が低くなってしまう。第2の実施形態では、優先度を決定する際に音響特徴量とカメラの向きに関する情報を用いる例を図6〜図9を用いて説明する。第2の実施形態の情報処理システムのハードウェア構成は、第1の実施形態のハードウェア構成と同じであるので、その説明を省略する。
図6は、本実施形態の情報処理システムにおいて、カメラで撮像した映像の優先度を音声情報とカメラの撮像範囲情報を用いて決定する場合のカメラおよびサーバーの機能構成を示すブロック図である。本実施形態は、第1の実施形態の図3に示す一部の機能ブロックと同様の機能ブロックを有するので、図6では、機能が異なるブロックもしくは追加されたブロックについてのみ記載し、図3の機能ブロックと同じ機能ブロックの記載は省略する。
カメラ10のカメラ制御部6101の画角方向取得部6103は、カメラ10の記憶装置14に格納されているカメラの画角に関する情報(以降、画角情報と呼称)を、所定の頻度で取得することができる。また、カメラ制御部6101は、画角方向取得部6103が画角情報を取得する頻度を設定することもできる。画角情報とは、取得時点でのカメラの設置箇所、初期設定時の基準方向、初期設定時の基準方向に対する左右方向と上下方向の現時点での回転角度、さらに現時点での拡大倍率である。画角方向取得部6103の取得した画角情報により、カメラ制御部6101は、カメラが映像情報を取得している撮像範囲を変更又は指定することができる。また、画角情報は、画角方向取得部6103から設定した時間間隔でサーバー50に出力される。出力された画角情報は、この画角情報を出力したカメラ10のID、および画角情報の出力時間と関連付けてサーバー50の情報記憶部6504にあるデータベースで管理される。以降、このデータベースを画角情報データベースと呼称する。
サーバー50の情報記憶部6504は、画角情報データベース、および後述する音源位置推定部6506で作成する音源位置データベースを保存する。
音源位置推定部6506は、イベントの情報および、画角情報データベースに含まれる同イベント情報を出力したカメラの画角情報を用いて、検知した音の発生位置を推定する。音源位置を推定する方法には、マイクアレイを使用する方法や、同期している複数のマイクを用いた音源定位法がある。これは、配置位置が明らかである複数のマイクにおいて、特定の音のマイクへの到達時間差および、音量を取得することにより音源位置を推定する方法である。本実施形態では、イベントの種類、検知した特定音の種類が同じでかつイベント発生時間が所定の範囲内のイベントを出力した複数のマイクにおいて、マイク間の距離、イベントの出力時間差、検知した特定音の音量を用いることにより音源位置を推定する。本実施形態では以上の手法で音源位置を推定するが、これらの方法に限定するものではない。例えば、指向性を持つマイクの使用により音源位置を推定する方法などが存在する。音源位置を推定した結果、音源位置の推定に使用した全てのマイクに対して、マイクの設置位置から音源位置までの距離と方向を取得することができる。また、推定した音源位置や音源位置の推定に使用したイベントに関する情報は音源IDで管理される。すなわち音源IDは、音源位置推定に使用したイベントのイベントID、各イベントを出力したマイクから音源までの距離情報や方向情報と関連付けることにより、データベースで管理される。以降、このデータベースを音源位置データベースと呼称する。
サーバー50の判定部6507は、特定音検知時に、検知した音の音源位置が各イベントを出力したマイクと関連付けられているカメラの画角内(撮像範囲)であるか否かを判定する。判定は、パラメータ設定部6502で設定した画角内判定に関するパラメータに基づき、音源位置とカメラの画角情報を用いて実行される。音源位置は、音源位置推定部6506で取得した音源位置データベースの情報から取得できる。カメラの画角情報は、画角情報データベースに含まれる同イベント情報を出力したカメラの画角情報から取得できる。音源位置が各カメラの画角内であるか否かの判定結果は、イベントID毎に付与され、音源位置データベースで管理される。画角内判定を行うために設定されたパラメータは、例えばカメラから推定した音源位置までの、画角内と判定するために隔ててよい距離の上限値や、画角内と判定しない画像周辺部の画素数などである。画角内と判定しない画像周辺部の画素数とは、推定した音源位置が画像内に存在しても画角内と判定しない領域の大きさを決定する画素数のことである。画角内と判定しない領域とは、画像の上下左右の端部から指定した画素数分の辺縁領域のことである。推定した音源位置が、各ネットワークカメラの画角内か否かの判定方法の詳細については、図9を用いて説明する。本実施形態では、推定した音源位置と音源位置がイベントを出力したマイクと関連付けられているカメラの画角内に存在するか否かの判定結果を用いて映像の優先度を決定しているが、この方法に限定するものではない。例えば音源位置に近いカメラの映像ほど優先度を高くするなど、音源位置の情報のみで優先度を決定することも可能である。
サーバー50の優先度決定部6508では、パラメータ設定部6502で指定した優先度決定に関する項目に基づき、特定音を検知した結果と、音源位置データベースの情報を用いて映像情報の優先度を決定する。優先度を決定するために指定する項目は、優先度決定時に使用する情報の種類である。すなわち、音声情報において、いずれの情報を使用して優先度を決定するかを指定する。本実施形態では音響特徴量として音量を使用する場合について記述する。また、音声情報でその音声情報に対応する映像情報の優先度を決定できなかった場合に、優先度を決定するために使用する情報の種類をさらに指定する。例えば、音響特徴量(音量)で映像情報の優先度を決定できない場合、カメラIDにより映像情報の優先度を決定する。
図7は、情報処理システムにおいてカメラで撮像した映像情報の優先度を音声情報とカメラの撮像範囲情報を用いて決定する場合の優先度決定手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第1の実施形態の図4に示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。なお、図7のステップS701、ステップS702及びステップS704の処理内容は、それぞれ図4のステップS401、ステップS402及びステップS403の処理内容と同じであるので、その説明を省略する。
ステップS703では、カメラ10の画角方向取得部6103は、カメラの画角情報を取得する。取得された情報はサーバー50に送信される。サーバー50の映像音声情報受信部6503が受信した情報は、情報記憶部6504にある画角情報データベースに保存される。
ステップS705では、サーバー50の音源位置推定部6506は、イベント情報とカメラの画角情報を用いて、パラメータ設定部6502で設定したパラメータに基づき、検知した音声の音源位置を推定する。特定音検知部6505が特定音を検知して出力したイベント情報は情報記憶部6504のイベント情報データベースに保存されている。カメラの画角情報は画角情報データベースに保存されている。音源位置推定部6506が音源位置の推定処理を実行して取得した音源位置推定結果は、情報記憶部6504にある音源位置データベースに保存される。
ステップS706では、優先度決定部6508は、情報記憶部6504のイベント情報データベースの情報を用いて、パラメータ設定部6502で指定した優先度決定に関する項目に基づき、映像情報の優先度を決定する。即ち、優先度決定部6508は、特定音を検知した結果と、音源位置データベースの情報を用いて映像情報の優先度を決定する。優先度決定部6508が映像情報の優先度を決定する処理の詳細については、図8を用いて説明する。
図8は、情報処理システムにおいて音響特徴量とカメラの撮像範囲情報を用いて映像優先度を決定する手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第1の実施形態の図5に示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。なお、図8のステップS801及びステップS802の処理内容は、それぞれ図5のステップS501及びステップS502の処理内容と同じであるので、その説明を省略する。
ステップS803では、判定部6507は、音源位置の情報とカメラの画角情報を用いて、特定音検知時に、検知した音の音源位置が各イベントを出力したマイクと対応するカメラの画角内(撮像範囲内)であるか否かを判定する。判定は、パラメータ設定部6502で設定したパラメータに基づいて実行される。また音源位置の情報は、情報記憶部6504にある音源位置データベースに保存されている情報を使用する。カメラの画角情報は、画角情報データベースに保存されている情報を使用する。判定部6507が実行した判定処理の判定結果は、イベント情報データベースに保存される。判定部6507の判定処理の具体的な手順は、図9を用いて説明する。なお、本実施形態では、推定した音源位置と音源位置がイベントを出力したマイクと関連付けられているカメラの画角内に存在するか否かの判定結果を用いて映像の優先度を決定している。従って、ステップS803において音源位置がカメラの画角内であるか否かの判定処理を行っている。なお、カメラの画角情報を用いないでカメラの撮像した映像の優先度を決定する場合は、イベントを出力したマイクと関連付けられているカメラの設置位置と音源位置の間の距離を用いる方法も考えられる。
ステップS804では、取得した音響特徴量およびカメラの画角内判定結果を、それぞれに応じた基準に基づいて評価値に変換する。なお、音源位置が画角内に存在するか否かの判定結果を使用しない場合は、音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離を、評価値に変換する。本実施形態では音響特徴量を0から5の整数の評価値に変換する。音響特徴量から評価値に変換するための対応表の例を図16に載せる。例えば、音響特徴量が音量である場合、パラメータ設定部6502で設定した基準音量に対する比率を用いて評価値に変換する。基準音量に対する比率が0.8以上1.0未満の場合、評価値は3となる。
ステップS805で、それぞれのマイクから取得した音声情報に基づいて特定音検知部6505が検出した複数のイベント(特定音)から、優先度決定部6508は、選択しているイベントについてステップS804で得られた評価値を基にスコアを算出する。スコアとは有効な評価値の総和である。本実施形態では、音響特徴量とカメラの向きに関する評価値を使用してスコアを算出する。
ステップS806の処理内容は、ステップS503の処理内容と同じである。優先度を決定したイベントが他に存在する場合はステップS807に進み、存在しない場合はステップS808に進む。
ステップS807では、選択中のイベントが検出された時刻のスコアを、既に優先度が決定している他のイベントが検出された時刻のスコアと比較して優先度を再度決定する。優先度決定部6508は、スコアを比較した結果、スコアが大きい方の優先度を高く、小さい方の優先度を低くする。
ステップS809では、選択中のイベントとスコアが同じイベントが存在するか否かを判定する。スコアが同じイベントが存在する場合はステップS810に進み、存在しない場合はステップS815に進む。
ステップS810では、優先度決定部6508は、選択中のイベントとスコアが同じイベントとの優先度を決定する場合である。優先度決定部6508は、選択中のイベント検出時のカメラの向きに関する評価値を、既に優先度が決定している他のイベント検出時のカメラの向きに関する評価値と比較して優先度を決定する。優先度決定部6508は、評価値の和が大きい方の映像の優先度を高く、小さい方の映像の優先度を低くする。なお、優先度決定部6508は、音源位置が画角内に存在するか否かの判定結果を使用しない場合は、音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離に関する評価値を使用する。この場合、例えば、音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離が小さいほど評価値が高く、優先度決定部6508は、対応する映像の優先度を高くする。
ステップS811では、選択中のイベントとカメラの向きに関する評価値が同じイベントが存在するか否かを判定する。なお、カメラの向きに関する評価値を使用しない場合は、音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離が同じイベントが存在するか否かを判定する。カメラの向きに関する評価値もしくは音源位置とイベントを出力したマイクと関連付けられているカメラの間の距離が同じイベントが存在する場合はステップS812に進み、存在しない場合はステップS815に進む。
ステップS813の処理は、ステップS506の処理と同じである。音響特徴量に関する評価値の和が同じイベントが存在する場合はステップS814に進み、存在しない場合はステップS815に進む。ここで、ステップS814及びステップS815の処理は、それぞれ図5のステップS507及びステップS508の処理と同じであるので、その説明を省略する。
図9は、情報処理システムにおける推定した音源位置の画角内含有判定手順を示すフローチャートである。
ステップS901では、判定部6507は、音源位置データベースから、既に選択済みのイベントのイベントIDと関連付けられている音源IDを取得する。
ステップS902では、判定部6507は、取得した音源IDと関連付けられており、かつ音源位置を推定する際に使用したイベントのイベントIDを用いて、当該イベントを出力したマイクと対応するカメラの画角情報を1つ取得する。イベント情報データベースを用いることで、イベントIDから当該イベントを出力したカメラのIDを取得することが可能である。さらに、画角情報データベースを用いることで、カメラIDから当該カメラの任意の時刻の撮影方向およびズーム倍率を取得することが可能である。判定部6507は、撮影方向とズーム倍率から画角情報を取得することが可能である。
ステップS903では、判定部6507は、特定音を検知した時刻において、音源位置が選択したカメラの撮影範囲内に含まれるか否かを判定する。カメラの撮影範囲は、ステップS902で取得したカメラの画角情報と、パラメータ設定部6502で設定した画角内と判定しない画像周辺部の画素数から算出できる。パラメータで設定する上記画素数は、カメラの倍率が初期設置時の値である場合に撮影される画像に対して適用する値である。またカメラの撮影範囲は角度のみで決定できる領域で、距離による制限はない。音源位置は、ステップS901で取得した音源IDと関連付けられている、各イベントを出力したマイクから音源への方向情報および距離情報と、画角情報データベースから取得できる各マイクの設置場所の情報から算出できる。音源位置が選択したカメラの撮影範囲内に含まれる場合はステップS904に進み、含まれない場合はステップS906に進む。
ステップS904では、特定音を検知した時刻において、音源位置から選択したカメラまでの距離が、パラメータ設定部6502で設定した画角内と判定するために隔ててよい距離の上限値以下であるか否かを判定する。選択したカメラから推定した音源までの距離が、パラメータ設定部6502で設定した距離の上限値以下であれば、ステップS905に進み、上限値以上であれば、ステップS906に進む。
ステップS905では、判定部6507は、選択したカメラの画角内に、音源位置が含まれると判定する。
ステップS906では、判定部6507は、選択したカメラの画角内に、音源位置は含まれないと判定する。
ステップS907では、選択中のイベント群に含まれるイベントを検出した全てのカメラに対して、判定部6507は、推定した音源位置が選択したカメラの画角内に含まれるか否かの判定を実施したか否かを判定する。音源位置がカメラの画角内にあるか否かの判定を全てのカメラで実施した場合、推定した音源位置の画角内含有判定処理を終了し、全てのカメラで実施していない場合はステップS902に戻る。
本実施形態の処理によって、特定音の音源位置がカメラに近いが、特定音の音源位置がそのカメラの撮影の死角にあるために、特定音の音源位置を映っていないカメラの映像を表示する優先度を高くすることを防止することができる。
(第3の実施形態)
第2の実施形態では、映像の優先度を決定する際に音響特徴量の一つである音量と、検知した特定音の音源位置情報を用いた例を記載し、音源位置が画角内に存在するカメラの映像の再生が優先される。一方、第3の実施形態では、第2の実施形態の情報処理システムの構成に加えて、映像の優先度を決定する際に映像情報から取得できる特徴量を用いる例を図10〜図12を用いて説明する。また、第3の実施形態の情報処理システムのハードウェア構成は、第1の実施形態のハードウェア構成と同じであるので、その説明を省略する。
図10は、情報処理システムにおいてカメラで撮像した映像の優先度を音声情報と映像情報とカメラの撮像範囲情報を用いて決定する場合のサーバーの機能ブロック図である。本実施形態は、第2の実施形態の図6に示す一部の機能ブロックと同様の機能ブロックを有するので、図10では、機能が異なるブロックもしくは追加されたブロックについてのみ記述し、図6の機能ブロックと同じ機能ブロックの記載は省略する。
サーバー50の映像特徴量抽出部10508は、映像情報に対して動体検知などの映像認識を行い、特定音を検知した時刻にカメラが撮像した映像から映像特徴量を抽出する。映像から映像特徴量を抽出するにあたり、映像特徴量抽出部10508は、映像情報データベース、画角情報データベース、音源位置データベースの情報を使用する。映像情報は、特定音の検知時刻に音源位置が画角内に存在する映像を使用する。例えば、映像特徴量抽出部10508は、映像情報から動体検知を実施する場合、抽出する映像特徴量は、動体の検知時間や動体の最大サイズである。これらの特徴量はイベントIDと関連付けられる。本実施形態では、第1の実施形態と同様に、特定音は人の悲鳴であると定義し、動体は人体である。即ち、映像特徴量抽出部10508は、映像情報から動体検知を実施する場合、抽出する映像特徴量は、人体の検知時間や人体の最大サイズである。
優先度決定部10509では、特定音を検知した時刻にカメラが撮像した映像から取得した映像特徴量と、音源位置データベースの情報と、イベント情報データベースの情報を用いて、映像の優先度を決定する。優先度の決定は、パラメータ設定部10502で指定した優先度決定に関する項目に基づいて実行される。優先度決定部10509が映像の優先度を決定するために、パラメータ設定部10502が指定する項目は、優先度決定時に使用する情報の種類である。すなわち、映像情報や音声情報などのうち、いずれの情報を使用して優先度を決定するかを指定する。本実施形態では映像情報と音声情報の両方を使用して映像の優先度を決定する場合について記述する。また、映像情報や音声情報などで映像の優先度を決定できなかった場合に、優先度を決定するために使用する情報を指定する。本実施形態ではカメラIDにより、カメラの撮像した映像の優先度を決定する場合について記述するが、この方法に限定するものではない。詳細な優先度決定方法については、図12を用いて説明する。
図11は、情報処理システムにおいてカメラで撮像した映像の優先度を音声情報と映像情報とカメラの撮像範囲情報を用いて決定する場合の優先度決定手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第2の実施形態の図7のフローチャートに示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。なお、図11のステップS1101〜ステップS1105の処理内容は、それぞれ図7のステップS701〜ステップS705の処理内容と同じであるので、その説明を省略する。
ステップS1106では、映像特徴量抽出部10508は、映像情報データベースと画角情報データベース、音源位置データベースの情報を用いることにより、特定音を検知した時刻近傍の映像から特徴量を抽出する。本実施形態では映像特徴量として、人体の検知時間や人体の最大サイズを抽出した。
ステップS1107では、情報記憶部10504の音源位置データベースおよびイベント情報データベースの情報を用いて、パラメータ設定部10502で指定した優先度決定に関する項目に基づき、優先度決定部10509が映像の優先度を決定する。映像の優先度を決定する処理の詳細については、図12を用いて説明する。
図12は、情報処理システムにおいて、優先度決定部10509が音響特徴量と映像特徴量で映像優先度を決定する手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第2の実施形態の図8のフローチャートに示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。
ステップS1203では、映像特徴量抽出部10508は、推定した音源位置が画角内に存在する映像情報に対して人体検知などの映像認識を行い、特定音を検知した時刻にカメラの撮像した映像から映像特徴量を抽出する。映像特徴量の抽出には、音源位置の情報とカメラの画角情報、特定音を検知した時点を含む所定時間の映像情報が使用される。音源位置の情報は、情報記憶部10504にある音源位置データベースに保存されている。カメラの画角情報は、画角情報データベースに保存されている。特定音を検知した時点を含む所定時間の映像情報は、映像情報データベースに保存されている。特徴量の抽出はパラメータ設定部10502で設定したパラメータに基づいて実行される。
ステップS1205では、選択しているイベントについてステップS1204で得られた評価値を基にスコアを算出する。スコアとは有効な評価値の総和である。本実施形態では、音響特徴量として音量に関する評価値と、カメラの向きとして音源位置に関する評価値と、映像特徴量として人体検知時間と検知した人体のサイズに関する評価値を使用する。
ステップS1211では、優先度決定部10509が選択中のイベントに関する特定の評価値の和を、既に優先度が決定している他のイベントに関する特定の評価値の和と比較して映像の優先度を決定する。スコアが同じイベントの間で優先度を決定する場合、優先度決定部10509が特定の評価値の和を比較することで映像の優先度を決定する。特定の評価値とはイベント検出時のカメラの向きに関する評価値と、人体検知時間に関する評価値と、検知した人体サイズに関する評価値である。優先度決定部10509は、評価値の和が大きい方の優先度を高く、小さい方の優先度を低くする。
ステップS1212では、優先度決定部10509は、選択中のイベントとカメラの向きに関する評価値および人体検知時間と検知した人体サイズに関する評価値の和が、同じであるイベントが存在するか否かを判定する。カメラの向きに関する評価値および人体検知時間と検知した人体サイズに関する評価値の和が同じイベントが存在する場合はステップS1213に進み、存在しない場合はステップS1216に進む。ここで、ステップS1213〜ステップS1216の処理は、それぞれ図8のステップS812及びステップS815の処理と同じであるので、その説明を省略する。
本実施形態の処理によって、映像特徴量として抽出した人体のサイズが大きいほど、悲鳴発声者により近いネットカメラの撮像した映像であると推定し、その映像を表示する優先度を高くすることができる。
(第4の実施形態)
第1の実施形態から第3の実施形態までは、一つの地点で特定音(例えば、人の悲鳴)が複数のカメラに内蔵されたマイクの音声情報から検知した場合に対する情報処理システムの処理について説明した。第4の実施形態では、情報処理システムは、複数の地点で同じ種類の特定音(例えば、人の悲鳴)を検知した場合、それぞれの複数の地点における特定音の検知結果を区別して、複数のカメラで撮像した映像の優先度を決定する場合について説明する。複数の地点で検知された特定音の区別が行われない場合、映像の優先度に従って映像を確認する際に、確認したい場所とは異なる場所の映像が混在し、確認の効率が低下する可能性がある。第4の実施形態では、映像の優先度を決定する際に、同一の事象と考えられる検知結果に対して優先度決定処理を実施する。さらに同一事象を検知した複数の結果から、提示する映像を選択する処理を実行する。すなわち、本実施形態では、情報処理システムがカメラ監視者に提示する映像を選択する例を図13〜図15を用いて説明する。
なお、複数の検知結果をもとに提示する映像を選択する処理は、複数の検知結果が同一事象を検知した結果でない場合でも適用可能である。すなわち、本実施形態だけでなく、他の実施形態に適用可能である。しかし、提示する映像を選択する処理の効果が最も発揮される場合が、本実施形態で想定するような同一事象に対する検知結果が複数存在する場合であると考えられるため、本実施形態で説明する。
図13は、情報処理システムにおいてカメラで撮像した映像の優先度を同一事象に対するイベントに関する音声情報と映像情報とカメラの撮像範囲情報を用いて決定し、優先度をもとに映像を表示する場合のサーバーの機能ブロック図である。本実施形態は、第3の実施形態の図10に示す一部の機能ブロックと同様の機能ブロックを有するので、図13では、機能が異なるブロックもしくは追加されたブロックについてのみ記述し、図10の機能ブロックと同じ機能ブロックの記載は省略するする。
同一事象イベント抽出部13506では、パラメータ設定部13502で設定したパラメータに基づき、イベント情報データベース内のイベントに対して、検知した事象を区別する。本実施形態では、同一事象に対するイベントであると判断するパラメータは、検知した特定音の種類、イベントの種類、他のイベントとの検知時間差の最大値、そして他のマイクとの距離の最大値である。
特定音の種類とは、例えば、悲鳴や罵声、銃の発砲音、ガラスが割れる時の破壊音などである。また、イベントの種類とは、イベントが出力される際に満たした条件のことで、例えば、特定音の開始もしくは終了などである。
他のイベントとの検知時間差の最大値とは、同一事象に対するイベントであるか否かを判定する時間的な条件である。あるイベントに対して判定を行う場合、当該イベント発生時刻から、設定した最大値まで遡った時刻の間に検知されたイベントに対して判定処理を行う。即ち、所定時間内にイベント(特定音)が複数回検知された場合、これらのイベントは同一事象に対するものと判定される。例えば、検知時間差の最大値の所定時間を0.5秒と設定した場合、同一事象に対するイベントであるか否かを判定したいイベントの検知時刻から0.5秒以前に検知したイベントに対して、上記の判定を行う。
また、他のマイクとの距離の最大値とは、同一事象に対するイベントであるか否かを判定する空間的な条件である。あるイベントに対して判定を行う場合、当該イベント発生場所から、設定した最大値まで離れた場所の間で検知されたイベントに対して判定処理を行う。即ち、所定範囲内に複数のイベント(特定音)が検知された場合、これらのイベントは同一事象に対するものと判定される。例えば、検知距離の最大値の所定範囲を10メートルと設定した場合、同一事象に対するイベントであるか否かを判定したいイベントの検知場所から10メートル以内の別の検知場所で検知したイベントに対して、上記の判定を行う。
なお、本実施形態では、同一事象に対するイベントであるか否かを判定する空間的な条件として、イベントを検知したマイク間の距離を使用しているが、このほかにも推定した音源位置を使用する方法も考えられる。この場合、設定するパラメータは、音源位置が同一であると判断できる最大の誤差となる。すなわち、誤差の最大値を1メートルと設定した場合、それぞれのイベント情報から推定した音源位置の差が1メートル以内である場合は、同一事象を検知した結果であると判定する。なお、空間的な条件を規定する方法はこれに限定されない。同一の事象を検知したイベントであるか否かは、以上の条件を満たすか否かで判定する。パラメータが複数設定される場合は、全ての条件を満たすイベントが存在する場合、当該イベントはすべての条件を満たすイベントが検知した事象と同一の事象を検知したと判定する。同一事象に対するイベントであるか否かを判断する方法として、本実施形態では以下の手順を用いる。
まず、いずれの事象を検知したイベントであるかを判定したいイベントに対して、所定の時間範囲内に特定音を検知した他のイベントが存在するか否か判定する。条件を満たすイベントが存在する場合、検知した特定音の種類を比較し、同一であるか否かを判定する。その後、検知した時刻差が所定の範囲内である場合、イベントの種類を比較して、同一の事象を検知した結果であるか否か判定する。なぜなら、イベントの種類が混在すると、映像を確認する効率が低下すると考えられるためである。例えば、イベントの種類に特定音の開始と終了がある場合、特定音が発生した時点の映像を確認する場合には、特定音が終了する時点の映像は不要である。このような場合を避けるために、イベントを検知した時刻とイベントの種類で分類することが必要である。
最後に、検知した場所を比較し、所定の範囲内で検知された結果であるか否か判定する。判定対象となるイベントの特定音の種類・検知時刻・イベントの種類・検知場所が比較対象であるイベントの結果と同じである場合、判定対象となるイベントを比較対象となるイベントと同じ事象を検知したと判断する。
提示情報選択部13511は、優先度決定結果に基づき、同一の特定音を検知した複数の検知結果からカメラ監視者に提示する検知結果を選択する。提示する検知結果の数および提示する映像の条件は、パラメータ設定部で指定することができる。提示する映像の条件とは、例えば提示する映像を音源位置が画角内に存在する映像に限定する、というものである。提示する映像情報は、パラメータ設定部で指定した条件に基づき映像優先度決定部で決定された優先度が高い映像から選択される。
以上の過程を経る事により、同時に複数の箇所で同じ特定音が発生した場合でも、複数の箇所の映像を混同することなく、特定音の発生場所ごとに映像を分類して再生することが可能となる。さらに、監視者に提示する映像の再生条件を指定することにより、多くの検知結果が存在する場合でも、監視者が効率的に映像の確認を行うことが可能となる。本実施形態では、以上の手順を用いることにより、検知した音の種類と音源の位置が同じであるイベントが複数存在する場合、映像の優先度と監視者に提示する映像を決定する条件に従って選択したカメラの映像を、カメラ監視者に提示することができる。これによりカメラ監視者は、優先度が高いカメラの映像のみを確認することができるため、特定音を検知したカメラの確認処理を効率的に行うことができる。ただし、適用する分類条件の数や、分類の順序は本実施形態に記載した内容に限定されるものではない。詳細な分類方法については、図15を用いて説明する。また、同一事象イベント抽出部13506において、同一事象に対するイベントであると判断された一連のイベントは、事象ごとにデータベースで管理される。以降、このデータベースを同一事象イベント情報データベースと呼称する。同一事象イベント情報データベースは、事象ごとに作成される。
図14は、情報処理システムにおいてカメラで撮像した映像の優先度を同一事象に対するイベントに関する音声情報と映像情報とカメラの撮像範囲情報を用いて決定する場合の優先度決定手順を示すフローチャートである。本実施形態の一部のプロセスもしくは処理内容は、第3の実施形態の図11のフローチャートに示すものと同様であるので、追加されたプロセスもしくは処理内容が異なるプロセスについてのみ記述する。
ステップS1405では、同一事象イベント抽出部13506は、イベント情報データベースのイベント情報を用いることにより、同一事象に対するイベントを抽出する。本実施形態では、同一事象のイベントである条件として、イベント検知時間が設定値以下であること、かつイベント検知場所間の距離が一定値以下であること、かつイベントの種類および検知した特定音の種類が同一であることを選定した。抽出されたイベントの情報は、情報記憶部13504の同一事象イベント情報データベースに保存される。
図15は、情報処理システムにおいて、同一事象イベント抽出部13506が同一事象に対するイベントを推定する手順を示すフローチャートである。
ステップS1501では、同一事象イベント抽出部13506は、イベント情報をイベント情報データベースから取得する。ここで情報を取得するイベントをイベントAとする。
ステップS1502では、同一事象イベント抽出部13506は、イベントAの検知時刻以前に、パラメータ設定部で設定したイベント検知時間差の最大値の範囲内で、イベントA以外のイベント(以降、イベントBと呼称)が存在するか否かを判定する。例えば、パラメータ設定部においてイベント検知時間差の最大値を0.5秒と設定した場合、同一事象イベント抽出部13506は、イベントAの検知時刻の0.5秒前までの間に他のイベントが存在するか否かを判定する。イベントBが存在する場合はステップS1503に進み、存在しない場合はステップS1508に進む。
ステップS1503では、同一事象イベント抽出部13506は、条件を満たすイベントBの内から1つを選択する。
ステップS1504では、イベントAとイベントBの間で特定音の種類を比較する。特定音の種類とは例えば悲鳴や罵声、銃の発砲音、ガラスが割れる時の破壊音などである。イベントAとイベントBで特定音の種類が同じ場合はS1505に進み、同じでない場合はS1508に進む。
ステップS1505では、同一事象イベント抽出部13506は、イベントAとイベントBの間でイベントの種類を比較する。イベントの種類とはイベントが出力される際に満たした条件のことで、例えば、特定音の開始もしくは終了である。イベントAとイベントBでイベントの種類が同じである場合はステップS1506に進み、同じでない場合はステップS1508に進む。
ステップS1506では、同一事象イベント抽出部13506は、イベントAとイベントBの検知場所を比較し、同地域内で発生したイベントか否かを判定する。同地域内であるか否かは、イベントAとイベントBを検知したそれぞれの場所の間の距離が、パラメータ設定部で設定したイベント検知場所間の距離の最大値以下であるか否かで判定する。例えば、パラメータ設定部においてイベント検知場所間の距離の最大値を10メートルと設定した場合、イベントAとイベントBを検出したそれぞれの場所の間の距離が10メートル以下であるか否かを判定する。各イベント検出場所間の距離が設定値以下である場合は、同一事象イベント抽出部13506は、2つのイベントは同地域で発生したとみなし、ステップS1507に進む。設定値以上である場合は、ステップS1508に進む。
ステップS1507では、同一事象イベント抽出部13506は、イベントAを、イベントBが属するイベント群Pに追加し、イベント推定処理を終了する。イベント群Pは同一事象に対するイベントの集合である。すなわち、イベントの種類、検知した特定音の種類が同じで、一定時間内に出力されたイベントであり、出力された場所もお互いに近傍である。
ステップS1508では、イベントBが複数存在する場合、同一事象イベント抽出部13506は、イベントAを全てのイベントBと比較したか否かを判定する。全てのイベントBとの比較を実施した場合はステップS1510に進み、比較を実施していないイベントBが残っている場合はステップS1503に進む。
ステップS1509では、同一事象イベント抽出部13506は、イベントAの検知時刻以前に作成され、イベントの追加が行われる可能性のあった全イベント群について、イベント群に属するイベントを確定させる。イベント群に属するイベントの確定後は、イベント群にはイベントの追加が行われることはない。
ステップS1510では、同一事象イベント抽出部13506は、イベントAが属するイベント群Qを新たに作成し、イベント推定処理を終了する。
本実施形態の処理によって、特定音が異なる場所で発生した場合でも、特定音の発生場所ごとに、映像を表示する優先度を決定することができる。
(評価結果)
図16は、情報処理システムにおいて、優先度決定部が各特徴量から評価値に変換するための対応表の例である。横方向が特徴量の種類、縦方向が評価値となっている。本実施形態では特徴量として以下の値を採用した。音響特徴量としては、イベント検出時の音量、イベント検出時に特定音と推定した尤度を採用し、さらに推定した音源位置が画角内に存在するか否かの判定結果を採用したのである。映像特徴量は、動体の検知時間、検知した動体の最大サイズである。表を用いると、特徴量がある値を取る場合に、該当範囲にある行の評価値に変換することができる。例えば、音量の場合、優先度決定部は、パラメータ設定部で設定した基準音量に対する比率を用いて音量の評価値に変換する。基準音量に対する比率が0.8以上1.0未満の場合、評価値は3となる。「−」部は特徴量から評価値への変換に対応できないことを示している。音源位置に関する「○」「×」とは、判定部が音源位置が画角内に存在するか否かを判定した結果である。動体検知時間の単位は秒、検知動体サイズの単位はピクセルである。検知動体サイズのピクセル数は、カメラの倍率が初期設置時の値である場合に撮影される画像での値に変換した数値である。
図17は、特定音が同時に一箇所で発生した場合に、本発明の実施形態と従来技術とで映像の優先度を決定した結果の比較である。
図17(a)は、ネットワークカメラで特定音(ここでは悲鳴を想定)を検知した場合の概略図を示したものである。場所は通路の交差点(十字路)を想定したもので図ではネットワークカメラは3台設置されている。ネットワークカメラから延びる三角形の影は各カメラの画角を表現したものである。交差点中央付近の×印の地点で悲鳴が発生し、3台全てのネットワークカメラが同時に悲鳴を検知したものとする。図中には検知した時点での各カメラにおける録画映像のイメージ図を添付した。吹き出しは検知した音声を表現したもので、実際に録画画面上に吹き出しが表示されるものではない。また、図中の人型は音源付近で映像から人物が検知されたことを意味している。
図17(b)は、各ネットワークカメラにおける音響特徴量、映像特徴量から取得した評価値の一覧である。特徴量から取得した評価値だけでなく、評価値から算出したスコアも記載されている。ここでは音声特徴量としてイベント検知時の音量を、カメラの位置として推定した音源の位置が画角内に存在するか否かの判定結果を用いている。映像特徴量としては動体の検知時間や検知した動体のサイズを用いている。また、参考として、各カメラと対応するマイクがイベントを出力した時刻も記述する。
図17(c)は、評価値に基づき優先度を決定した結果を示したものである。優先度が高い順に並べている。まず、特定音を検知したイベントに基づいて確認する映像の優先度を決定する場合、特定音の発生している場所が撮影されている映像から確認することを最も優先して行う必要がある。今回の状況では、カメラB、A、Cの順に優先度が決定されることが望ましいと考えられる。
図17(b)の評価値の結果一覧によると、イベント検知時刻の早い方からカメラC、A,Bの順にイベントが検知されたことが分かる。従来の方法では、例えば、イベントが検知された時刻が早いほど映像の優先度を高くする手法を使用する場合、映像の優先度は高い順にC、A,Bとなる。この方法で映像の優先度を決定する場合、映像情報および音声映像のいずれの特徴も使用していないため、特に優先すべきカメラBの映像の優先度が低くなっている。また、優先する必要の無いカメラCの映像の優先度が高くなっている。
次に、第1の実施形態のように音声情報を用いて確認する映像の優先度を決定した結果を見る。図17(b)の結果より、音量から取得した評価値による判定結果は、評価値の和が大きい順にカメラC、B、Aとなっている。音声は一般に距離が離れることにより音量が小さくなる。従って、音量が大きいカメラで撮像した映像の優先度を高くすることにより、悲鳴発生箇所近傍のカメラで撮像した映像の優先度を高くすることができる。
次に、第2の実施形態のように音声情報及びカメラの向きに関する情報を用いて、確認する映像の優先度を決定した結果を見る。図17(b)の結果より、2つの評価値の和による判定結果は、評価値の和が大きい順にカメラB、C、Aとなっている。判定に使用した2つの評価値とは、以下に示す値である。1つは音量から取得した評価値である。もう1つは音源位置がカメラの画角内に存在するか否かの判定結果から取得した評価値である。従来の方法に比べると、最も優先して確認すべきカメラBの映像は優先度を最も高く設定できているが、次に優先度を高くするべき映像の優先度が最も低く設定されている。これは複数の映像を確認して悲鳴発生時点の状況を確認したい場合、優先度の低い映像の確認を行う必要が生じて状況の把握が遅くなる可能性があることを意味している。
次に、第3の実施形態のように音声情報とカメラの向き、および映像情報を用いて、確認する映像の優先度を決定した結果を見る。図17(b)の結果より、3つの評価値の和による判定結果によると、評価値の和はカメラB,A,Cの順で大きくなっている。判定に使用した3つの評価値とは、以下に示す値である。1つ目は音量から取得した評価値である。2つ目は音源位置がカメラの画角内に存在するか否かの判定結果から取得した評価値である。3つ目は映像認識結果から取得可能な動体撮影時間や動体のサイズから取得可能な評価値である。
音声情報だけで、悲鳴発生箇所が映っている可能性の高い映像の優先度を決定するより、画像情報を基に悲鳴発生箇所と推定できる地点を撮影しているか否かの判定などを実施する方が、正しく悲鳴発生箇所を映っているか否かを判定できる。音声情報および画像情報から取得できる評価値の和で映像の優先度を決定する場合、優先度は高い順にB、A、Cとなる。この方法を使用することにより、最も優先度が高く設定されるべきカメラの映像だけでなく、次に優先度を高くするべきカメラの映像についても優先度が適切に付与される。
図18は、特定音が同時に複数箇所で発生した場合に、本発明の実施形態と従来技術とで映像の優先度を決定した結果の比較である。
図18(a)は、ネットワークカメラで特定音(ここでは悲鳴を想定)を検知した場合の概略図を示したものである。図17(a)との違いは、悲鳴がほぼ同じ時刻に複数の場所で発生している点である。また、図中のカメラAからカメラFまではいずれもどちらか一方の特定音しか検知していないとする。図18(b)は、各ネットワークカメラにおける音響特徴量の一覧である。ここでは、音声特徴量としてイベント検知時の音量を用いている。また、参考として、各カメラと対応するマイクがイベントを出力した時刻も記述する。図18(c)は、特徴量の大小関係に基づき、映像の優先度を決定した結果を示したものである。映像の優先度が高い順に並べている。
図18(b)の評価値の結果一覧によると、イベント検知時刻からカメラC、F、A,D,B、Eの順にイベントが検知されたことが分かる。例えば、イベントが検知された時刻が早いほど優先度を高くする従来の手法で映像の優先度を決定すると、映像の優先度は高い順にC、F、A,D,B、Eとなる。この方法で優先度を決定する場合、検知したイベントに関係する音声情報や映像情報のいずれの特徴も使用していないため、優先すべき映像の優先度が低くなっている場合が発生する可能性がある。次に、検知したイベントを同一事象に対して出力されたイベントごとに抽出した結果を用いて優先度を決定した結果について確認する。6つのイベントを抽出した結果、2つの事象が発生しており、それぞれの事象に3つずつのイベントが検知されていることが分かる。それぞれの事象について事象毎に優先度を決定した結果、B,A,Cの順およびE,D,Fの順の2つのグループの映像の優先度が決定された。これにより異なる事象の映像が混在して優先度を決定することが減り、確認したい事象の映像のみを確認できるようになったと考えられる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
10 カメラ
20 マイク
30 ディスプレイ
40 スピーカー
50 サーバー

Claims (14)

  1. 複数の撮像装置から、前記複数の撮像装置のそれぞれが撮像した映像情報と前記撮像装置の画角情報とを取得する映像取得手段と、
    前記複数の撮像装置のそれぞれに対応するマイクから、該撮像装置の撮像した映像情報と関連付けて音声情報を取得する音声取得手段と、
    前記音声取得手段によって取得された複数の前記音声情報から特定音を検知する検知手段と、
    前記音声取得手段によって取得された前記音声情報に基づいて、検知された前記特定音の音源位置を推定する推定手段と、
    前記音源位置を推定した音声情報と関連付いている映像情報を撮像した撮像装置の前記画角情報を用いて、前記音源位置が当該撮像装置の画角内に含まれるかを判定する判定手段と、
    前記特定音が検知された音声情報に関連付けられた複数の前記映像情報を表示する優先度を、前記特定音の音声情報の特徴量と前記判定手段による判定結果とに基づいて決定する決定手段と、
    前記特定音の音声情報に関連付けられた複数の前記映像情報を前記優先度に基づいて表示する表示手段と、
    を有し、
    前記決定手段では、前記判定手段により前記音源位置が当該撮像装置の画角内に含まれると判定された場合に、当該撮像装置が撮像した映像情報を表示する前記優先度を高くすることを特徴とする情報処理装置。
  2. 前記特定音の音声情報の特徴量は、前記特定音の音量又は尤度であって、前記決定手段は、前記音量又は尤度の大きさに基づいて、前記映像情報を表示する優先度を決定することを特徴とする請求項1に記載の情報処理装置。
  3. 前記複数の撮像装置のそれぞれに対応する前記マイクは、前記複数の撮像装置のそれぞれの撮像方向と一致する方向から音声情報を取得することを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記特定音の音声情報に関連付けられた少なくとも一つの前記映像情報から動体が検知し、前記動体の検知時間又は検知された前記動体の最大サイズを、映像特徴量として抽出する抽出手段をさらに有し、
    前記決定手段は、前記抽出手段によって抽出された前記映像特徴量に基づいて、前記映像情報を表示する優先度を決定することを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 前記表示手段は、前記特定音の音声情報に関連付けられた複数の前記映像情報を切替えて表示し、前記優先度の高い該映像情報を、前記優先度の低い該映像情報より先に表示することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記検知手段によって前記特定音が所定時間内に複数回検知された場合、前記決定手段は、前記所定時間内に複数回検知された前記特定音の音声情報に関連付けられた複数の前記映像情報を表示する優先度を決定することを特徴とする請求項5に記載の情報処理装置。
  7. 前記検知手段によって前記特定音が複数回検知され、前記推定手段によって推定された複数回検知された前記特定音の音源位置が所定範囲内にある場合、前記決定手段は、複数回検知された前記特定音の音声情報に関連付けられた複数の前記映像情報を表示する優先度を決定することを特徴とする請求項6に記載の情報処理装置。
  8. 前記特定音は、人間の悲鳴、人間の罵声、銃の発砲音及びガラスが割れる音の少なくとも一つの種類に属することを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
  9. 前記決定手段は、複数の地点に分けて配置された前記複数の撮像装置のそれぞれに対応するマイクから取得される音声情報から、同じ種類の特定音が検知された場合、前記複数の地点で発生した事象ごとに前記特定音の検知結果を区別して、前記複数の撮像装置で撮像された複数の前記映像情報を表示する優先度を決定することを特徴とする請求項8に記載の情報処理装置。
  10. 前記決定手段は、前記特定音が検知された音声情報を取得した複数の前記マイク間の距離に基づいて、同一の事象に関して検知された前記特定音を区別することを特徴とする請求項9に記載の情報処理装置。
  11. 前記決定手段は、推定される前記特定音の音源位置に基づいて、同一の事象に関して検知された前記特定音を区別することを特徴とする請求項9に記載の情報処理装置。
  12. 請求項1乃至11のいずれか1項に記載の情報処理装置と、前記複数の撮像装置と、前記複数のマイクと、を有することを特徴とする情報処理システム。
  13. 複数の撮像装置から、前記複数の撮像装置のそれぞれが撮像した映像情報と前記撮像装置の画角情報とを取得する映像取得工程と、
    前記複数の撮像装置のそれぞれに対応するマイクから、該撮像装置の撮像した映像情報と関連付けて音声情報を取得する音声取得工程と、
    前記音声取得工程で取得された複数の前記音声情報から特定音を検知する検知工程と、
    前記音声取得工程で取得された前記音声情報に基づいて、検知された前記特定音の音源位置を推定する推定工程と、
    前記音源位置を推定した音声情報と関連付いている映像情報を撮像した撮像装置の前記画角情報を用いて、前記音源位置が当該撮像装置の画角内に含まれるかを判定する判定工程と、
    前記特定音が検知された音声情報に関連付けられた複数の前記映像情報を表示する優先度を、前記特定音の音声情報の特徴量と前記判定工程での判定結果とに基づいて決定する決定工程と、
    前記特定音の音声情報に関連付けられた複数の前記映像情報を前記優先度に基づいて表示手段に表示させる表示工程と、
    を有し、
    前記決定工程では、前記判定工程により前記音源位置が当該撮像装置の画角内に含まれると判定された場合に、当該撮像装置が撮像した映像情報を表示する前記優先度を高くすることを特徴とする情報処理方法。
  14. コンピュータに読み込ませ実行させることによって、前記コンピュータに、
    複数の撮像装置から、前記複数の撮像装置のそれぞれが撮像した映像情報と前記撮像装置の画角情報とを取得する映像取得ステップと、
    前記複数の撮像装置のそれぞれに対応するマイクから、該撮像装置の撮像した映像情報と関連付けて音声情報を取得する音声取得ステップと、
    前記音声取得ステップで取得された複数の前記音声情報から特定音を検知する検知ステップと、
    前記音声取得ステップで取得された前記音声情報に基づいて、検知された前記特定音の音源位置を推定する推定ステップと、
    前記音源位置を推定した音声情報と関連付いている映像情報を撮像した撮像装置の前記画角情報を用いて、前記音源位置が当該撮像装置の画角内に含まれるかを判定する判定ステップと、
    前記特定音が検知された音声情報に関連付けられた複数の前記映像情報を表示する優先度を、前記特定音の音声情報の特徴量と前記判定ステップでの判定結果とに基づいて決定する決定ステップと、
    前記特定音の音声情報に関連付けられた複数の前記映像情報を前記優先度に基づいて表示手段に表示させる表示ステップと、
    を実行させ、前記決定ステップでは、前記判定ステップで前記音源位置が当該撮像装置の画角内に含まれると判定された場合に、当該撮像装置が撮像した映像情報を表示する優先度を高くすることを特徴とするプログラム。
JP2016247185A 2016-12-20 2016-12-20 情報処理装置、情報処理方法およびプログラム Active JP6980379B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016247185A JP6980379B2 (ja) 2016-12-20 2016-12-20 情報処理装置、情報処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016247185A JP6980379B2 (ja) 2016-12-20 2016-12-20 情報処理装置、情報処理方法およびプログラム

Publications (3)

Publication Number Publication Date
JP2018101916A JP2018101916A (ja) 2018-06-28
JP2018101916A5 JP2018101916A5 (ja) 2020-01-30
JP6980379B2 true JP6980379B2 (ja) 2021-12-15

Family

ID=62714575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016247185A Active JP6980379B2 (ja) 2016-12-20 2016-12-20 情報処理装置、情報処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6980379B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7358919B2 (ja) 2019-11-07 2023-10-11 ソニーグループ株式会社 情報処理装置、情報処理方法、及び、プログラム
WO2022153496A1 (ja) * 2021-01-15 2022-07-21 日本電気株式会社 情報処理装置、情報処理方法、およびプログラム
WO2023148796A1 (ja) * 2022-02-01 2023-08-10 日本電気株式会社 情報処理装置、情報処理方法、情報処理システム、及びコンピュータ可読媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11191190A (ja) * 1997-12-25 1999-07-13 Mitsubishi Electric Corp 異常監視システム
JP2009290501A (ja) * 2008-05-29 2009-12-10 Funai Electric Co Ltd 監視カメラ及び監視システム
JP5192414B2 (ja) * 2009-02-06 2013-05-08 株式会社日立製作所 音声情報表示システム
JP6055823B2 (ja) * 2012-05-30 2016-12-27 株式会社日立製作所 監視カメラ制御装置及び映像監視システム
JP6074750B2 (ja) * 2014-05-23 2017-02-08 パナソニックIpマネジメント株式会社 画像切替装置、画像切替システム、及び画像切替方法

Also Published As

Publication number Publication date
JP2018101916A (ja) 2018-06-28

Similar Documents

Publication Publication Date Title
US11972036B2 (en) Scene-based sensor networks
US10708673B2 (en) Systems and methods for video processing
KR102025334B1 (ko) 검출된 물리적 표시를 통한 사용자 관심 결정
US10182280B2 (en) Sound processing apparatus, sound processing system and sound processing method
WO2016147770A1 (ja) 監視システム及び監視方法
JP5088507B2 (ja) 同一性判定装置、同一性判定方法および同一性判定用プログラム
US10043079B2 (en) Method and apparatus for providing multi-video summary
JP7162412B2 (ja) 検知認識システム
EP2860968B1 (en) Information processing device, information processing method, and program
JP6980379B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2008035095A (ja) 監視装置、監視システム、監視方法及びプログラム
JP6758918B2 (ja) 画像出力装置、画像出力方法及びプログラム
JP4722537B2 (ja) 監視装置
US10341616B2 (en) Surveillance system and method of controlling the same
US10834477B2 (en) Information processing apparatus and control method thereof
KR101791553B1 (ko) Cctv 영상에 대한 실시간 얼굴 인식 시스템 및 방법
KR101212082B1 (ko) 영상인식장치 및 그 영상 감시방법
JP4872490B2 (ja) 監視装置、監視システム及び監視方法
JP5195156B2 (ja) 監視装置、監視システム及びフィルタ設定方法
WO2017026154A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP2016009896A (ja) 映像監視システム及び映像監視システムの映像検索方法
JP6261191B2 (ja) 表示制御装置、表示制御方法、プログラム
JP2017028688A (ja) 画像管理装置、画像管理方法及びプログラム
KR101698864B1 (ko) 메타 데이터를 이용한 영상 검출 방법을 실행시키는 프로그램이 기록된 기록 매체
JP2020129763A (ja) 動画再生装置、動画再生方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191211

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200923

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211117

R151 Written notification of patent or utility model registration

Ref document number: 6980379

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151