JP2020086034A

JP2020086034A - 情報処理装置、情報処理装置およびプログラム

Info

Publication number: JP2020086034A
Application number: JP2018217499A
Authority: JP
Inventors: 水谷　孝一; Koichi Mizutani; 孝一水谷
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2020-06-04

Abstract

【課題】悲鳴などの異常音を短い処理時間で精度良く検知する。【解決手段】情報処理装置は、撮像画像を取得する第１の取得手段と、撮像画像に対応する入力音声を取得する第２の取得手段と、第１の取得手段により取得された撮像画像から被写体の特徴量を抽出する第１の抽出手段と、第１の抽出手段により抽出された被写体の特徴量に基づいて、当該被写体が発する音声の特徴量を推定する推定手段と、複数種類の異常音の音響モデルの中から、推定手段により推定された音声の特徴量に適合した音響モデルを選択する選択手段と、第２の取得手段により取得された入力音声の特徴量を抽出する第２の抽出手段と、選択手段により選択された音響モデルと、第２の抽出手段により抽出された入力音声の特徴量とを比較し、入力音声が異常音であるか否かを判定する判定手段と、を備える。【選択図】図３

Description

本発明は、情報処理装置、情報処理装置およびプログラムに関する。

近年、監視カメラは、カメラ周辺の悲鳴などの異常音を検知する音声検知機能を有する。このような監視カメラでは、マイクロホン（以下、単に「マイク」という。）により収音した音声の特徴と、予め収集した悲鳴音から特徴を抽出し統計学習してモデル化した音響モデルとの類似度（尤度）を計算し、類似度が高いときに悲鳴検知と判断する。
特許文献１には、音響モデルとして多数のスペクトル分布について類似度（尤度）を計算する技術が開示されている。

特開２０００−１９４３９２号公報

監視カメラは、様々な環境に設置され、様々な被写体を撮像する。そのため、監視カメラに設けられたマイクに入力される音声は一様ではない。
また、人物の音声は、性別、身長といった属性により特徴が異なる。そのため、悲鳴検知を高精度に行うためには、特徴の異なる悲鳴音にそれぞれ対応する大量の音響モデルを蓄積しておき、入力した音声に対して、蓄積している大量の音響モデルとの類似度を計算する必要があり、検知処理に時間を要する。
そこで、本発明は、悲鳴などの異常音を短い処理時間で精度良く検知することを課題としている。

上記課題を解決するために、本発明に係る情報処理装置の一態様は、撮像画像を取得する第１の取得手段と、前記撮像画像に対応する入力音声を取得する第２の取得手段と、前記第１の取得手段により取得された撮像画像から被写体の特徴量を抽出する第１の抽出手段と、前記第１の抽出手段により抽出された前記被写体の特徴量に基づいて、当該被写体が発する音声の特徴量を推定する推定手段と、複数種類の異常音の音響モデルの中から、前記推定手段により推定された音声の特徴量に適合した音響モデルを選択する選択手段と、前記第２の取得手段により取得された入力音声の特徴量を抽出する第２の抽出手段と、前記選択手段により選択された音響モデルと、前記第２の抽出手段により抽出された入力音声の特徴量とを比較し、前記入力音声が異常音であるか否かを判定する判定手段と、を備える。

本発明によれば、悲鳴などの異常音を短い処理時間で精度良く検知することができる。

本実施形態におけるネットワークカメラシステムを示す図である。ネットワークカメラのハードウェア構成例である。制御部の構成を示すブロック図である。音声特徴量テーブルの一例である。音声特徴量を説明する図である。悲鳴モデル音テーブルの一例である。ネットワークカメラの動作を説明するフローチャートである。人物検知のＵＩ表示の一例である。悲鳴検知のＵＩ表示の一例である。

以下、添付図面を参照して、本発明を実施するための形態について詳細に説明する。
なお、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。

図１は、本実施形態におけるネットワークカメラシステム１０００の構成を示す図である。
ネットワークカメラシステム１０００は、ネットワークカメラ（以下、単に「カメラ」という。）１００と、クライアント装置２００と、を備える。カメラ１００とクライアント装置２００とは、ネットワーク３００を介して相互に通信可能に接続されている。
ネットワーク３００は、例えば、Ｅｔｈｅｒｎｅｔ（登録商標）の通信規格に準拠する複数のルータ、スイッチ、ケーブル等から構成される。なお、ネットワーク３００は、カメラ１００とクライアント装置２００との間で通信可能な構成であれば、その通信規格、規模および構成は問わない。ネットワーク３００は、インターネットや有線ＬＡＮ（Local Area Network）、無線ＬＡＮ（Wireless LAN）、ＷＡＮ（Wide Area Network）、若しくはこれらの複合により実現してもよい。また、カメラ１００およびクライアント装置２００がネットワーク３００に接続される台数は、図１に示す数に限定されない。

カメラ１００は、被写体４００を撮像する撮像装置である。カメラ１００は、被写体４００を撮像した撮像画像をネットワーク３００経由でクライアント装置２００に送信可能である。カメラ１００は、クライアント装置２００から受信したコマンドに応じて、画像信号をネットワーク信号、例えばＥｔｈｅｒｎｅｔ信号に変換し、ネットワーク３００を介してクライアント装置２００に送信することができる。なお、カメラ１００は、クライアント装置２００から受信したコマンドに応じて、撮像方向および撮像画角を変更可能であってもよい。

クライアント装置２００は、パーソナルコンピュータ（ＰＣ）やスマートフォン、タブレット型ＰＣといった端末装置により構成することができる。クライアント装置２００は、カメラ１００が送信したネットワーク信号を、ネットワーク３００を介して受信し、受信したネットワーク信号を画像信号に復元してＵＩ（ユーザインタフェース）２１０に表示する表示制御を行うことができる。また、クライアント装置２００は、ＵＩ２１０を介して、カメラ１００に対して各種コマンドを送信可能であってもよい。カメラ１００に対して送信するコマンドには、画像の送信を開始させるためのコマンド、カメラ１００の撮像方向および撮像画角を変更するためのコマンド、撮像パラメータを変更するためのコマンド、画像処理に関するコマンド等を含むことができる。

以下、カメラ１００の構成および各部の機能について具体的に説明する。
カメラ１００は、図１に示すように、制御部１と、撮像部２と、画像処理部３と、マイク（マイクロホン）４と、音声処理部５と、ネットワーク処理部６と、を備える。
撮像部２は、レンズおよびＣＭＯＳ（Complementary Metal Oxide Semiconductor）、ＣＣＤ（Charge Coupled Device）等の撮像素子を備え、被写体４００の撮像を行う。また、撮像部２は、撮像面に結像された光像を光電変換によりデジタル電気信号に変換する処理を行う。画像処理部３は、撮像部２において光電変換された信号に対して所定の画像処理を行い、撮像画像を生成する。そして、画像処理部３は、生成した撮像画像を制御部１に出力する。また、画像処理部３は、制御部１へ、撮像画像とともに撮像条件（絞り値、ホワイトバランス、シャッター速度、合焦距離など）を伝達してもよい。

マイク４は、カメラ１００の外部に存在する音声５００を収音し、電気信号へ変換する。音声５００は、カメラ１００の周囲の環境音、人物の会話音、動物の声といったマイク４によって収音可能な種々の音一般を含む。なお、マイク４が指向性を有する場合、カメラ１００の撮像方向に一致または略一致する方向から音声５００を取得するようにしてもよい。
音声処理部５は、マイク４によって電気信号へ変換された音声信号に対して、増幅、帯域制限、アナログ−デジタル変換といった各処理を施し、デジタル音声信号を生成する。そして、音声処理部５は、生成した音声信号を入力音声として制御部１に出力する。

制御部１は、画像処理部３から出力された撮像画像をネットワーク処理部６へ出力し、ネットワーク３００を経由して撮像画像をクライアント装置２００へ送信するよう指示する。また、制御部１は、画像処理部３から出力された撮像画像と、音声処理部５から出力された音声信号とに基づいて、特定の異常音を検知する異常音検知処理を実行する。そして、制御部１は、異常音検知処理により特定の異常音を検知した場合、イベントが発生したとして、その結果を出力する。本実施形態では、異常音として、人物の悲鳴音を検知する場合について説明する。悲鳴音検知処理の詳細については後述する。
ネットワーク処理部６は、制御部１からの指示に従って、撮像画像をネットワーク信号に変換し、ネットワーク３００を介してクライアント装置２００へ送信する。

図２は、カメラ１００のハードウェア構成例である。
カメラ１００は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、外部メモリ１４、撮像部１５、入力部１６および通信Ｉ／Ｆ１７を備える。ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、外部メモリ１４、撮像部１５、入力部１６および通信Ｉ／Ｆ１７は、内部バス１８に接続されている。
ＣＰＵ１１は、カメラ１００における動作を統括的に制御する。ＲＯＭ１１は、ＣＰＵ１１が処理を実行するために必要なプログラムやデータを記憶する不揮発性メモリである。ＲＡＭ１３は、ＣＰＵ１１の主メモリ、ワークエリア等として機能する。ＣＰＵ１１は、処理の実行に際してＲＯＭ１２から必要なプログラム等をＲＡＭ１３にロードし、当該プログラム等を実行することで各種の機能動作を実現する。

外部メモリ１４は、例えば、ＣＰＵ１１がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、外部メモリ１４には、例えば、ＣＰＵ１１がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。撮像部１５は、図１の撮像部２に対応する。入力部１６は、電源ボタンや各種設定ボタン等を含む。通信Ｉ／Ｆ１７は、ネットワーク３００を介して外部装置（図１ではクライアント装置２００）との間でデータの送受信を行う。
図１に示すカメラ１００の各要素の一部の機能は、ＣＰＵ１１がプログラムを実行することで実現することができる。ただし、図１に示すカメラ１００の各要素のうち少なくとも一部が専用のハードウェアとして動作するようにしてもよい。この場合、専用のハードウェアは、ＣＰＵ１１の制御に基づいて動作する。
なお、クライアント装置２００の場合は、ハードウェア構成として、図２の撮像部１５に替えて表示部を具備する。ここで、表示部は、ＵＩ２１０として液晶ディスプレイ（ＬＣＤ）等のモニタを備える。また、クライアント装置２００の場合は、入力部１６として、キーボードやマウス等のポインティングデバイスを具備する。

次に制御部１の具体的構成について説明する。
制御部１は、画像処理部３から撮像画像を取得し、音声処理部５から入力音声を取得し、取得された撮像画像および入力音声に基づいて悲鳴音検知処理を実行する。具体的には、制御部１は、取得された撮像画像から被写体（本実施形態では、人物）の特徴量を抽出し、抽出された特徴量に基づいて、被写体が発する音声の特徴量を推定する。また、制御部１は、複数種類の悲鳴音の音響モデルの中から、推定された被写体の音声の特徴量に適合する音響モデルを選択する。そして、制御部１は、選択した音響モデルと、入力音声の特徴量とを比較し、入力音声が悲鳴音であるか否かを判定する。

図３は、制御部１の構成を示すブロック図である。
制御部１は、図３に示すように、人物検知部１０１、画像特徴抽出部１０２、音声特徴推定部１０３、モデル選択部１０４、音響モデル蓄積部１０５、音声特徴抽出部１０６、類似度計算部１０７および悲鳴音判定部１０８を備える。
人物検知部１０１は、図１の画像処理部３から出力された撮像画像を取得し、取得された撮像画像から被写体である人物を検知する人物検知処理を行う。人物検知部１０１は、所定のアルゴリズムにより撮像画像における背景との境界の形状や器官の形状の検知などを行うことで、人物を検知することができる。
画像特徴抽出部１０２は、撮像画像から被写体の特徴を抽出する。具体的には、画像特徴抽出部１０２は、人物検知部１０１により検知された人物の画像から、当該人物の特徴量を抽出する。以下、画像から抽出される被写体の特徴量を、画像特徴量という。画像特徴量の例としては、性別、年齢、身長といった人物の属性が挙げられる。

音声特徴推定部１０３は、画像特徴抽出部１０２により抽出された画像特徴量に基づいて、被写体が発する音声の特徴量（音声特徴量）を推定する。音声特徴量の例としては、音声のフォルマントの周波数、フォルマントの振幅、基本周波数が挙げられる。音声特徴推定部１０３は、画像特徴量と音声特徴量とが対応付けられたデータベース（音声特徴量テーブル）を用いて、人物検知処理により検知された人物の画像特徴量から当該人物が発する音声の音声特徴量を推定する。音声特徴量テーブルは、予めメモリ等に格納しておくことができる。音声特徴量テーブルの一例を図４に示す。
図４に示すように、音声特徴量テーブル６１０では、複数種類の画像特徴量（人物の属性）に対して、それぞれ音声特徴量が対応付けられている。具体的には、音声特徴量は、基本周波数（ピッチｐ）、第１フォルマントの周波数（Ｆ１周波数）、第１フォルマントの振幅（Ｆ１振幅）、第２フォルマントの周波数（Ｆ２周波数）、第２フォルマントの振幅（Ｆ２振幅）、…を含む。

フォルマントとは、音声を特徴付ける周波数成分であり、図５（ａ）に示す振幅スペクトルのピークに相当する。周波数の低い方から順に、第１フォルマント（Ｆ１）、第２フォルマント（Ｆ２）、第３フォルマント（Ｆ３）、第４フォルマント（Ｆ４）という。
図５（ｂ）は、日本語母音のフォルマント分布図である。この図５（ｂ）において、横軸はＦ１周波数、縦軸はＦ２周波数である。例えば「あ（／ａ／）」はＦ１周波数が高くＦ２周波数が低い音、「い（／ｉ／）」はＦ１周波数が低くＦ２周波数が高い音、といえる。そして、一般に、成人男声は成人女声に比べてＦ１周波数、Ｆ２周波数ともに低い。
また、図５（ｃ）に示すように、身長が高いほど音声の基本周波数（ピッチ）は低いことも知られている。
このように、人物の属性によって、音声のフォルマント（周波数、振幅）および基本周波数といった音声特徴量は異なる。したがって、人物の属性から音声特徴量を推定することが可能である。

図３に戻って、モデル選択部１０４は、複数種類の異常音の音響モデルの中から、音声特徴推定部１０３により推定された音声特徴量に適合した音響モデルを選択する。具体的には、モデル選択部１０４は、音声特徴推定部１０３により推定された音声特徴量と一致または略一致する音声特徴量を有する音響モデルを、音響モデル蓄積部１０５に蓄積された複数種類の音響モデルの中から選択する。ここで、上記音響モデルは、音の特徴量が既知である悲鳴音をモデル化した悲鳴モデル音である。

音響モデル蓄積部１０５は、例えば図６に示すように、悲鳴モデル音と音声特徴量とが対応付けられたデータベース（悲鳴モデル音テーブル６２０）を保持している。モデル選択部１０４は、音響モデル蓄積部１０５が有する悲鳴モデル音テーブル６２０を用いて、人物検知処理により検知された人物の音声特徴量と同様の音声特徴量を有する悲鳴モデル音を選択する。
図６に示すように、悲鳴モデル音テーブル６２０では、複数種類の悲鳴モデル音に対して、それぞれ音声特徴量が対応付けられている。具体的には、音声特徴量は、基本周波数（ピッチｐ）、第１フォルマントの周波数（Ｆ１周波数）、第１フォルマントの振幅（Ｆ１振幅）、第２フォルマントの周波数（Ｆ２周波数）、第２フォルマントの振幅（Ｆ２振幅）、…を含む。

図３に戻って、音声特徴抽出部１０６は、図１の音声処理部５から出力された音声信号（入力音声）を取得し、取得された入力音声の音声特徴量として、音声のフォルマントおよび基本周波数を抽出する。ここで、音声特徴抽出部１０６は、ケプストラム分析法、線形予測分析法などの方法により音声特徴量を抽出することができる。
類似度計算部１０７は、モデル選択部１０４により選択された悲鳴モデル音を基準値とし、音声特徴抽出部１０６により抽出された入力音声の音声特徴量（入力値）とを比較し、類似度を計算する。ここで、類似度計算部１０７は、最尤推定法などの所定の手法により類似度を計算することができる。
悲鳴音判定部１０８は、類似度計算部１０７により計算された類似度の大きさに基づいて、入力音声が悲鳴音であるか否かの判定を行う。そして、悲鳴音判定部１０８は、入力音声が悲鳴音であると判定した場合はイベント発生部（図示せず）へ通知を行う。

なお、本実施形態では、収音機能を有するカメラ１００が、撮像画像と入力音声とに基づいて異常音検知処理（悲鳴音検知処理）を行う情報処理装置として動作する場合について説明する。ただし、クライアント装置２００や一般のＰＣ、他の機器等が上記の情報処理装置として動作してもよい。この場合、情報処理装置は、カメラ１００により撮像された撮像画像と当該撮像画像に対応する入力音声とを取得して、異常音検知処理（悲鳴音検知処理）を行う。

次に、本実施形態におけるカメラ１００の動作について、図７のフローチャートを用いて説明する。
図７は、カメラ１００が実行する悲鳴音検知処理手順を示すフローチャートである。この図７の処理は、例えば所望の場所に設置されたカメラ１００の電源が投入されたタイミングタイミングで開始される。ただし、図７の処理の開始タイミングは、上記のタイミングに限らない。カメラ１００は、ＣＰＵ１１が必要なプログラムを読み出して実行することにより、図７に示す処理を実現することができる。以降、アルファベットＳはフローチャートにおけるステップを意味するものとする。

まずＳ１において、カメラ１００は、ネットワーク３００を介してクライアント装置２００のＵＩ２１０に初期画面を表示させる表示制御を行う。次にＳ２において、カメラ１００は、画像を撮像し、撮像画像をクライアント装置２００のＵＩ２１０に表示させる。なお、カメラ１００は、ユーザがＵＩ２１０に表示された初期画面からビューワを選択したことを検出した場合に、撮像画像をＵＩ２１０に表示させるようにしてもよい。
次にＳ３において、カメラ１００は、撮像画像から人物を検知する人物検知処理を行い、人物が検知されない場合にはそのまま人物検知処理を継続して行い、人物が検知された場合にはＳ４に移行する。

Ｓ４では、カメラ１００は、ＵＩ２１０に人物検知処理の検知結果を表示する。カメラ１００は、例えば図８に示すように、検知された人物４０１を囲む矩形図形２１１を、ＵＩ２１０上の撮像画像に重畳表示させることで、ユーザに人物４０１の検知を通知することができる。なお、人物検知処理において複数の人物が検知された場合には、検知された複数の人物をそれぞれ囲む矩形図形を表示させてもよい。ただし、人物検知結果の表示方法は上記に限定されるものではない。
次にＳ５では、カメラ１００は、Ｓ３において検知された人物４０１の画像から、当該人物４０１の特徴（属性）を抽出し、画像特徴量として取得する。そして、カメラ１００は、抽出された人物４０１の特徴をＵＩ２１０に表示させる。このとき、人物４０１の特徴として、性別：男性、年齢：２０代、身長：１７０ｃｍといった特徴量が抽出されたものとする。この場合、カメラ１００は、例えば図８に示すように、ＵＩ２１０上において、人物４０１の近傍に当該人物４０１の特徴２１２を表示させることができる。

次にＳ６では、カメラ１００は、Ｓ５において抽出された人物４０１の画像特徴量に基づいて、図４に示すような音声特徴量テーブル６１０を用いて、当該人物４０１の音声特徴量を推定する。人物４０１の特徴が、上記のように性別：男性、年齢：２０代、身長：１７０ｃｍである場合、カメラ１００は、図４の破線丸印で示すように音声特徴量を推定する。つまり、人物４０１の画像特徴量に対応する音声特徴量は、基本周波数（ピッチｐ）：１４０Ｈｚ、Ｆ１周波数：４２０Ｈｚ、Ｆ１振幅：７ｄＢ、Ｆ２周波数：９５０Ｈｚ、Ｆ２振幅：７ｄＢ、…と推定される。

次にＳ７では、カメラ１００は、図６に示すような悲鳴モデル音テーブル６２０を用いて、Ｓ６において推定された人物４０１の音声特徴量と一致または最も類似する特徴量を有する悲鳴モデル音を選択する。人物４０１の音声特徴量が、上記のように基本周波数（ピッチｐ）：１４０Ｈｚ、Ｆ１周波数：４２０Ｈｚ、Ｆ１振幅：７ｄＢ、Ｆ２周波数：９５０Ｈｚ、Ｆ２振幅：７ｄＢ、…である場合、図６の破線丸印で示すように悲鳴モデル音として悲鳴２が選択される。つまり、カメラ１００は、基本周波数：１４０Ｈｚ、Ｆ１周波数：４２０Ｈｚ、Ｆ１振幅：６ｄＢ、Ｆ２周波数：９８０Ｈｚ、Ｆ２振幅：７ｄＢ、Ｆ３周波数：１７５０Ｈｚ、Ｆ３振幅：６ｄＢ、…といった音声特徴量を有する悲鳴モデル音を選択する。

次にＳ８では、カメラ１００は、マイク４により収音され音声処理部５によりデジタル処理が施された音声信号（入力音声）から、音声特徴量としてフォルマントおよび基本周波数を抽出する。
次にＳ９では、カメラ１００は、Ｓ７において選択された悲鳴モデル音と、Ｓ８において抽出された入力音声の音声特徴量とを比較し、類似度を計算する。ここで、類似度計算に用いる悲鳴モデル音は、人物４０１の属性に基づいて推定された人物４０１が発する音声の特徴に類似した特徴を有する。そのため、入力音声が人物４０１の悲鳴音である場合、Ｓ８において抽出された入力音声の音声特徴量は、Ｓ７において選択された悲鳴モデル音と類似性を有する。したがって、この場合の類似度計算の演算量を削減することができ、また、検知精度を向上させることができる。

Ｓ１０では、カメラ１００は、Ｓ９における類似度の計算結果をもとに、入力音声が悲鳴音であるか否かを判定する。具体的には、カメラ１００は、Ｓ９において計算された類似度が予め設定された判定閾値よりも高い場合、入力音声が悲鳴音であると判定する。そして、カメラ１００は、入力音声が悲鳴音ではないと判定した場合はＳ８に戻り、入力音声が悲鳴音であると判定した場合は、Ｓ１１に移行する。
Ｓ１１では、カメラ１００は、イベントが発生したと判断して当該イベントをＵＩ２１０に表示させる。具体的には、カメラ１００は、ＵＩ２１０上において、悲鳴音を発した人物の画像を表示させる表示制御を行う。例えば図９に示すように、ＵＩ２１０上の撮像画像に、悲鳴音を発した人物４０１を囲む矩形図形２２１を重畳表示させるとともに、「！！悲鳴音検知！！」などのコメント２２２を表示させるようにしてもよい。
なお、矩形図形２２１は、図８に示す矩形図形２１１と同じであってもよいし、異なっていてもよい。矩形図形２２１を矩形図形２１１とは異なる形態で表示する場合、例えば、人物４０１を強調表示（明示的に表示）するために、矩形図形２２１を点滅させたりハイライト表示させたりしてもよい。

以上説明したように、本実施形態におけるカメラ１００は、撮像画像と、当該撮像画像に対応する入力音声とを取得する。また、カメラ１００は、撮像画像から被写体の特徴量を抽出し、抽出された被写体の特徴量に基づいて、当該被写体が発する音声の特徴量を推定し、複数種類の異常音の音響モデルの中から、音声の特徴量に適合した音響モデルを選択する。具体的には、カメラ１００は、それぞれ音の特徴量が既知である複数種類の異常音の音響モデルを保持しておき、保持された音響モデルの中から、被写体の音声の特徴量と一致または略一致する特徴量を有する音響モデルを選択することができる。そして、カメラ１００は、選択された音響モデルと入力音声の特徴量とを比較し、入力音声が異常音であるか否かを判定する。

本実施形態において、被写体は人物であり、検知対象の異常音は、人物の悲鳴音とすることができる。また、被写体の特徴量は、人物の性別、年齢および身長とすることができる。さらに、音声の特徴量は、フォルマントの周波数、フォルマントの振幅および基本周波数とすることができる。
このように、カメラ１００は、被写体画像の特徴から被写体である人物の音声特徴を推定し、推定された音声特徴量に適合した音響モデルを用いて、入力音声が悲鳴音であるか否かを判定する。したがって、精度良く悲鳴検知を行うことができる。また、悲鳴検知の際に、入力音声に対して大量の音響モデルとの比較を行う必要がないため、検知処理時間を短縮することができる。

また、カメラ１００は、性別、年齢、身長といった人物の属性によって、音声のフォルマントおよび基本周波数が異なることを利用し、撮像画像から画像特徴量として人物の性別、年齢および身長を抽出する。そして、これらの画像特徴量に基づいて、被写体である人物が発する音声の特徴量としてフォルマントの周波数、フォルマントの振幅および基本周波数を推定する。したがって、様々な環境に設置され、入力音声が一様ではない場合であっても、適切に画像の特徴に適合した音響モデルを選択することができ、悲鳴検知の処理時間の短縮と悲鳴検知精度の向上とを実現することができる。
ここで、カメラ１００は、被写体の特徴量と音の特徴量とを対応付けた音声特徴量テーブル６１０を用いて、被写体である人物が発する音声の特徴量を推定することができる。したがって、容易かつ適切に被写体の音声特徴量を推定することができる。

さらに、カメラ１００は、悲鳴検知に際し、選択された音響モデルと入力音声の特徴量との類似度を判定し、判定された類似度の大きさに基づいて、入力音声が異常音であるか否かを判定することができる。このように、入力音声の特徴量を抽出して音響モデルとの類似度（尤度）を計算するので、適切に悲鳴音を検知することができる。
また、カメラ１００は、悲鳴音を検知した場合、当該悲鳴音を発した人物の画像をＵＩ２１０に表示させる表示制御を行うことができる。このとき、カメラ１００は、悲鳴音を発した人物をＵＩ２１０に表示した撮像画像上において強調表示してもよい。これにより、ユーザ（監視員など）は、ＵＩ２１０に表示された画像を確認することで、異常が発生している状況を容易に把握することができる。

（変形例）
上記実施形態では、図７のＳ７において、カメラ１００は悲鳴モデル音を１つのみ選択する場合について説明したが、複数の悲鳴モデル音を選択してもよい。この場合、カメラ１００は、選択された複数の悲鳴モデル音と入力音声の特徴量とをそれぞれ比較して類似度を計算し、入力音声が悲鳴音であるか否かを判定する。このとき、カメラ１００は、推定された人物４０１の音声の特徴量との差異が小さい悲鳴モデル音から順に類似度を計算し、入力音声が悲鳴音であるか否かの判定を行うようにしてもよい。
このように、複数種類の悲鳴モデル音を選択し、それぞれについて悲鳴音の判定を行うことにより、悲鳴検知の精度を向上させることができる。また、推定された人物４０１の音声の特徴量との差異が小さい悲鳴モデル音から順に悲鳴音の判定に用いるので、悲鳴検知の処理時間を短縮することができる。

また、上記実施形態では、画像の特徴量が、人物の性別、年齢および身長である場合について説明したが、画像の特徴量は、性別、年齢および身長の少なくとも１つであってもよい。また、画像の特徴量は、人物の体型（痩せ型、肥満型）を含んでいてもよい。
さらに、上記実施形態では、音の特徴量がフォルマントおよび基本周波数である場合について説明したが、音の特徴量は、フォルマントおよび基本周波数の少なくとも一方であってもよい。また、音の特徴量は、例えば音量や音韻継続長、音の揺らぎを含んでいてもよい。
また、上記実施形態では、異常音が人物の悲鳴音である場合について説明したが、異常音は、例えば人物の罵声音や物体の破壊音、衝突音などであってもよい。つまり、撮像画像から抽出された被写体の特徴（画像特徴量）に基づいて音声特徴量を推定可能な音声であれば、検知対象の異常音として適用することができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００…ネットワークカメラ、１０１…人物検知部、１０２…画像特徴抽出部、１０３…音声特徴推定部、１０４…モデル選択部、１０５…音響モデル蓄積部、１０６…音声特徴抽出部、１０７…類似度計算部、１０８…悲鳴音判定部、２００…クライアント装置、３００…ネットワーク、４００…被写体、５００…音声

Claims

撮像画像を取得する第１の取得手段と、
前記撮像画像に対応する入力音声を取得する第２の取得手段と、
前記第１の取得手段により取得された撮像画像から被写体の特徴量を抽出する第１の抽出手段と、
前記第１の抽出手段により抽出された前記被写体の特徴量に基づいて、当該被写体が発する音声の特徴量を推定する推定手段と、
複数種類の異常音の音響モデルの中から、前記推定手段により推定された音声の特徴量に適合した音響モデルを選択する選択手段と、
前記第２の取得手段により取得された入力音声の特徴量を抽出する第２の抽出手段と、
前記選択手段により選択された音響モデルと、前記第２の抽出手段により抽出された入力音声の特徴量とを比較し、前記入力音声が異常音であるか否かを判定する判定手段と、を備えることを特徴とする情報処理装置。
前記音声の特徴量は、フォルマントの周波数、フォルマントの振幅および基本周波数の少なくとも１つを含むことを特徴とする請求項１に記載の情報処理装置。
それぞれ音の特徴量が既知である前記複数種類の異常音の音響モデルを保持する保持手段をさらに備え、
前記選択手段は、
前記保持手段により保持された音響モデルの中から、前記推定手段により推定された音声の特徴量と一致または略一致する特徴量を有する音響モデルを選択することを特徴とする請求項１または２に記載の情報処理装置。
前記選択手段は、複数の前記音響モデルを選択し、
前記判定手段は、
前記選択手段により選択された複数の音響モデルと、前記第２の抽出手段により抽出された入力音声の特徴量とをそれぞれ比較し、前記入力音声が異常音であるか否かを判定することを特徴とする請求項１から３のいずれか１項に記載の情報処理装置。
前記判定手段は、
前記選択手段により選択された複数の音響モデルのうち、前記推定手段により推定された音声の特徴量との差異が小さい音響モデルから順に、前記第２の抽出手段により抽出された入力音声の特徴量と比較し、前記入力音声が異常音であるか否かを判定することを特徴とする請求項４に記載の情報処理装置。
前記判定手段は、
前記選択手段により選択された音響モデルと、前記第２の抽出手段により抽出された入力音声の特徴量との類似度を判定する第１の判定手段と、
前記第１の判定手段により判定された類似度の大きさに基づいて、前記入力音声が異常音であるか否かを判定する第２の判定手段と、を備えることを特徴とする請求項１から５のいずれか１項に記載の情報処理装置。
前記推定手段は、
前記第１の抽出手段により抽出された前記被写体の特徴量に基づいて、前記被写体の特徴量と音の特徴量とを対応付けたテーブルを用いて、前記被写体が発する音声の特徴量を推定することを特徴とする請求項１から６のいずれか１項に記載の情報処理装置。
前記第１の抽出手段は、
前記第１の取得手段により取得された撮像画像から人物を検知し、前記被写体の特徴量として、人物の性別、年齢および身長の少なくとも１つを抽出することを特徴とする請求項１から７のいずれか１項に記載の情報処理装置。
前記異常音は、前記人物の悲鳴音であることを特徴とする請求項８に記載の情報処理装置。
前記判定手段により前記入力音声が異常音であると判定された場合、前記異常音を発した前記被写体の画像を表示させる表示制御手段をさらに備えることを特徴とする請求項１から９のいずれか１項に記載の情報処理装置。
請求項１から１０のいずれか１項に記載の情報処理装置と、
前記撮像画像を撮像する撮像手段と、
前記入力音声を収音する収音手段と、を備えることを特徴とする撮像装置。
撮像画像を取得するステップと、
前記撮像画像に対応する入力音声を取得するステップと、
前記撮像画像から被写体の特徴量を抽出するステップと、
抽出された前記被写体の特徴量に基づいて、当該被写体が発する音声の特徴量を推定するステップと、
複数種類の異常音の音響モデルの中から、前記音声の特徴量に適合した音響モデルを選択するステップと、
前記入力音声の特徴量を抽出するステップと、
選択された前記音響モデルと、抽出された前記入力音声の特徴量とを比較し、前記入力音声が異常音であるか否かを判定するステップと、を含むことを特徴とする情報処理方法。
コンピュータを、請求項１から１０のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。