JP2020086034A - 情報処理装置、情報処理装置およびプログラム - Google Patents
情報処理装置、情報処理装置およびプログラム Download PDFInfo
- Publication number
- JP2020086034A JP2020086034A JP2018217499A JP2018217499A JP2020086034A JP 2020086034 A JP2020086034 A JP 2020086034A JP 2018217499 A JP2018217499 A JP 2018217499A JP 2018217499 A JP2018217499 A JP 2018217499A JP 2020086034 A JP2020086034 A JP 2020086034A
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- sound
- voice
- unit
- input voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Alarm Systems (AREA)
- Closed-Circuit Television Systems (AREA)
- Emergency Alarm Devices (AREA)
Abstract
【課題】悲鳴などの異常音を短い処理時間で精度良く検知する。【解決手段】情報処理装置は、撮像画像を取得する第1の取得手段と、撮像画像に対応する入力音声を取得する第2の取得手段と、第1の取得手段により取得された撮像画像から被写体の特徴量を抽出する第1の抽出手段と、第1の抽出手段により抽出された被写体の特徴量に基づいて、当該被写体が発する音声の特徴量を推定する推定手段と、複数種類の異常音の音響モデルの中から、推定手段により推定された音声の特徴量に適合した音響モデルを選択する選択手段と、第2の取得手段により取得された入力音声の特徴量を抽出する第2の抽出手段と、選択手段により選択された音響モデルと、第2の抽出手段により抽出された入力音声の特徴量とを比較し、入力音声が異常音であるか否かを判定する判定手段と、を備える。【選択図】 図3
Description
本発明は、情報処理装置、情報処理装置およびプログラムに関する。
近年、監視カメラは、カメラ周辺の悲鳴などの異常音を検知する音声検知機能を有する。このような監視カメラでは、マイクロホン(以下、単に「マイク」という。)により収音した音声の特徴と、予め収集した悲鳴音から特徴を抽出し統計学習してモデル化した音響モデルとの類似度(尤度)を計算し、類似度が高いときに悲鳴検知と判断する。
特許文献1には、音響モデルとして多数のスペクトル分布について類似度(尤度)を計算する技術が開示されている。
特許文献1には、音響モデルとして多数のスペクトル分布について類似度(尤度)を計算する技術が開示されている。
監視カメラは、様々な環境に設置され、様々な被写体を撮像する。そのため、監視カメラに設けられたマイクに入力される音声は一様ではない。
また、人物の音声は、性別、身長といった属性により特徴が異なる。そのため、悲鳴検知を高精度に行うためには、特徴の異なる悲鳴音にそれぞれ対応する大量の音響モデルを蓄積しておき、入力した音声に対して、蓄積している大量の音響モデルとの類似度を計算する必要があり、検知処理に時間を要する。
そこで、本発明は、悲鳴などの異常音を短い処理時間で精度良く検知することを課題としている。
また、人物の音声は、性別、身長といった属性により特徴が異なる。そのため、悲鳴検知を高精度に行うためには、特徴の異なる悲鳴音にそれぞれ対応する大量の音響モデルを蓄積しておき、入力した音声に対して、蓄積している大量の音響モデルとの類似度を計算する必要があり、検知処理に時間を要する。
そこで、本発明は、悲鳴などの異常音を短い処理時間で精度良く検知することを課題としている。
上記課題を解決するために、本発明に係る情報処理装置の一態様は、撮像画像を取得する第1の取得手段と、前記撮像画像に対応する入力音声を取得する第2の取得手段と、前記第1の取得手段により取得された撮像画像から被写体の特徴量を抽出する第1の抽出手段と、前記第1の抽出手段により抽出された前記被写体の特徴量に基づいて、当該被写体が発する音声の特徴量を推定する推定手段と、複数種類の異常音の音響モデルの中から、前記推定手段により推定された音声の特徴量に適合した音響モデルを選択する選択手段と、前記第2の取得手段により取得された入力音声の特徴量を抽出する第2の抽出手段と、前記選択手段により選択された音響モデルと、前記第2の抽出手段により抽出された入力音声の特徴量とを比較し、前記入力音声が異常音であるか否かを判定する判定手段と、を備える。
本発明によれば、悲鳴などの異常音を短い処理時間で精度良く検知することができる。
以下、添付図面を参照して、本発明を実施するための形態について詳細に説明する。
なお、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。
なお、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。
図1は、本実施形態におけるネットワークカメラシステム1000の構成を示す図である。
ネットワークカメラシステム1000は、ネットワークカメラ(以下、単に「カメラ」という。)100と、クライアント装置200と、を備える。カメラ100とクライアント装置200とは、ネットワーク300を介して相互に通信可能に接続されている。
ネットワーク300は、例えば、Ethernet(登録商標)の通信規格に準拠する複数のルータ、スイッチ、ケーブル等から構成される。なお、ネットワーク300は、カメラ100とクライアント装置200との間で通信可能な構成であれば、その通信規格、規模および構成は問わない。ネットワーク300は、インターネットや有線LAN(Local Area Network)、無線LAN(Wireless LAN)、WAN(Wide Area Network)、若しくはこれらの複合により実現してもよい。また、カメラ100およびクライアント装置200がネットワーク300に接続される台数は、図1に示す数に限定されない。
ネットワークカメラシステム1000は、ネットワークカメラ(以下、単に「カメラ」という。)100と、クライアント装置200と、を備える。カメラ100とクライアント装置200とは、ネットワーク300を介して相互に通信可能に接続されている。
ネットワーク300は、例えば、Ethernet(登録商標)の通信規格に準拠する複数のルータ、スイッチ、ケーブル等から構成される。なお、ネットワーク300は、カメラ100とクライアント装置200との間で通信可能な構成であれば、その通信規格、規模および構成は問わない。ネットワーク300は、インターネットや有線LAN(Local Area Network)、無線LAN(Wireless LAN)、WAN(Wide Area Network)、若しくはこれらの複合により実現してもよい。また、カメラ100およびクライアント装置200がネットワーク300に接続される台数は、図1に示す数に限定されない。
カメラ100は、被写体400を撮像する撮像装置である。カメラ100は、被写体400を撮像した撮像画像をネットワーク300経由でクライアント装置200に送信可能である。カメラ100は、クライアント装置200から受信したコマンドに応じて、画像信号をネットワーク信号、例えばEthernet信号に変換し、ネットワーク300を介してクライアント装置200に送信することができる。なお、カメラ100は、クライアント装置200から受信したコマンドに応じて、撮像方向および撮像画角を変更可能であってもよい。
クライアント装置200は、パーソナルコンピュータ(PC)やスマートフォン、タブレット型PCといった端末装置により構成することができる。クライアント装置200は、カメラ100が送信したネットワーク信号を、ネットワーク300を介して受信し、受信したネットワーク信号を画像信号に復元してUI(ユーザインタフェース)210に表示する表示制御を行うことができる。また、クライアント装置200は、UI210を介して、カメラ100に対して各種コマンドを送信可能であってもよい。カメラ100に対して送信するコマンドには、画像の送信を開始させるためのコマンド、カメラ100の撮像方向および撮像画角を変更するためのコマンド、撮像パラメータを変更するためのコマンド、画像処理に関するコマンド等を含むことができる。
以下、カメラ100の構成および各部の機能について具体的に説明する。
カメラ100は、図1に示すように、制御部1と、撮像部2と、画像処理部3と、マイク(マイクロホン)4と、音声処理部5と、ネットワーク処理部6と、を備える。
撮像部2は、レンズおよびCMOS(Complementary Metal Oxide Semiconductor)、CCD(Charge Coupled Device)等の撮像素子を備え、被写体400の撮像を行う。また、撮像部2は、撮像面に結像された光像を光電変換によりデジタル電気信号に変換する処理を行う。画像処理部3は、撮像部2において光電変換された信号に対して所定の画像処理を行い、撮像画像を生成する。そして、画像処理部3は、生成した撮像画像を制御部1に出力する。また、画像処理部3は、制御部1へ、撮像画像とともに撮像条件(絞り値、ホワイトバランス、シャッター速度、合焦距離など)を伝達してもよい。
カメラ100は、図1に示すように、制御部1と、撮像部2と、画像処理部3と、マイク(マイクロホン)4と、音声処理部5と、ネットワーク処理部6と、を備える。
撮像部2は、レンズおよびCMOS(Complementary Metal Oxide Semiconductor)、CCD(Charge Coupled Device)等の撮像素子を備え、被写体400の撮像を行う。また、撮像部2は、撮像面に結像された光像を光電変換によりデジタル電気信号に変換する処理を行う。画像処理部3は、撮像部2において光電変換された信号に対して所定の画像処理を行い、撮像画像を生成する。そして、画像処理部3は、生成した撮像画像を制御部1に出力する。また、画像処理部3は、制御部1へ、撮像画像とともに撮像条件(絞り値、ホワイトバランス、シャッター速度、合焦距離など)を伝達してもよい。
マイク4は、カメラ100の外部に存在する音声500を収音し、電気信号へ変換する。音声500は、カメラ100の周囲の環境音、人物の会話音、動物の声といったマイク4によって収音可能な種々の音一般を含む。なお、マイク4が指向性を有する場合、カメラ100の撮像方向に一致または略一致する方向から音声500を取得するようにしてもよい。
音声処理部5は、マイク4によって電気信号へ変換された音声信号に対して、増幅、帯域制限、アナログ−デジタル変換といった各処理を施し、デジタル音声信号を生成する。そして、音声処理部5は、生成した音声信号を入力音声として制御部1に出力する。
音声処理部5は、マイク4によって電気信号へ変換された音声信号に対して、増幅、帯域制限、アナログ−デジタル変換といった各処理を施し、デジタル音声信号を生成する。そして、音声処理部5は、生成した音声信号を入力音声として制御部1に出力する。
制御部1は、画像処理部3から出力された撮像画像をネットワーク処理部6へ出力し、ネットワーク300を経由して撮像画像をクライアント装置200へ送信するよう指示する。また、制御部1は、画像処理部3から出力された撮像画像と、音声処理部5から出力された音声信号とに基づいて、特定の異常音を検知する異常音検知処理を実行する。そして、制御部1は、異常音検知処理により特定の異常音を検知した場合、イベントが発生したとして、その結果を出力する。本実施形態では、異常音として、人物の悲鳴音を検知する場合について説明する。悲鳴音検知処理の詳細については後述する。
ネットワーク処理部6は、制御部1からの指示に従って、撮像画像をネットワーク信号に変換し、ネットワーク300を介してクライアント装置200へ送信する。
ネットワーク処理部6は、制御部1からの指示に従って、撮像画像をネットワーク信号に変換し、ネットワーク300を介してクライアント装置200へ送信する。
図2は、カメラ100のハードウェア構成例である。
カメラ100は、CPU11、ROM12、RAM13、外部メモリ14、撮像部15、入力部16および通信I/F17を備える。CPU11、ROM12、RAM13、外部メモリ14、撮像部15、入力部16および通信I/F17は、内部バス18に接続されている。
CPU11は、カメラ100における動作を統括的に制御する。ROM11は、CPU11が処理を実行するために必要なプログラムやデータを記憶する不揮発性メモリである。RAM13は、CPU11の主メモリ、ワークエリア等として機能する。CPU11は、処理の実行に際してROM12から必要なプログラム等をRAM13にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
カメラ100は、CPU11、ROM12、RAM13、外部メモリ14、撮像部15、入力部16および通信I/F17を備える。CPU11、ROM12、RAM13、外部メモリ14、撮像部15、入力部16および通信I/F17は、内部バス18に接続されている。
CPU11は、カメラ100における動作を統括的に制御する。ROM11は、CPU11が処理を実行するために必要なプログラムやデータを記憶する不揮発性メモリである。RAM13は、CPU11の主メモリ、ワークエリア等として機能する。CPU11は、処理の実行に際してROM12から必要なプログラム等をRAM13にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
外部メモリ14は、例えば、CPU11がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、外部メモリ14には、例えば、CPU11がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。撮像部15は、図1の撮像部2に対応する。入力部16は、電源ボタンや各種設定ボタン等を含む。通信I/F17は、ネットワーク300を介して外部装置(図1ではクライアント装置200)との間でデータの送受信を行う。
図1に示すカメラ100の各要素の一部の機能は、CPU11がプログラムを実行することで実現することができる。ただし、図1に示すカメラ100の各要素のうち少なくとも一部が専用のハードウェアとして動作するようにしてもよい。この場合、専用のハードウェアは、CPU11の制御に基づいて動作する。
なお、クライアント装置200の場合は、ハードウェア構成として、図2の撮像部15に替えて表示部を具備する。ここで、表示部は、UI210として液晶ディスプレイ(LCD)等のモニタを備える。また、クライアント装置200の場合は、入力部16として、キーボードやマウス等のポインティングデバイスを具備する。
図1に示すカメラ100の各要素の一部の機能は、CPU11がプログラムを実行することで実現することができる。ただし、図1に示すカメラ100の各要素のうち少なくとも一部が専用のハードウェアとして動作するようにしてもよい。この場合、専用のハードウェアは、CPU11の制御に基づいて動作する。
なお、クライアント装置200の場合は、ハードウェア構成として、図2の撮像部15に替えて表示部を具備する。ここで、表示部は、UI210として液晶ディスプレイ(LCD)等のモニタを備える。また、クライアント装置200の場合は、入力部16として、キーボードやマウス等のポインティングデバイスを具備する。
次に制御部1の具体的構成について説明する。
制御部1は、画像処理部3から撮像画像を取得し、音声処理部5から入力音声を取得し、取得された撮像画像および入力音声に基づいて悲鳴音検知処理を実行する。具体的には、制御部1は、取得された撮像画像から被写体(本実施形態では、人物)の特徴量を抽出し、抽出された特徴量に基づいて、被写体が発する音声の特徴量を推定する。また、制御部1は、複数種類の悲鳴音の音響モデルの中から、推定された被写体の音声の特徴量に適合する音響モデルを選択する。そして、制御部1は、選択した音響モデルと、入力音声の特徴量とを比較し、入力音声が悲鳴音であるか否かを判定する。
制御部1は、画像処理部3から撮像画像を取得し、音声処理部5から入力音声を取得し、取得された撮像画像および入力音声に基づいて悲鳴音検知処理を実行する。具体的には、制御部1は、取得された撮像画像から被写体(本実施形態では、人物)の特徴量を抽出し、抽出された特徴量に基づいて、被写体が発する音声の特徴量を推定する。また、制御部1は、複数種類の悲鳴音の音響モデルの中から、推定された被写体の音声の特徴量に適合する音響モデルを選択する。そして、制御部1は、選択した音響モデルと、入力音声の特徴量とを比較し、入力音声が悲鳴音であるか否かを判定する。
図3は、制御部1の構成を示すブロック図である。
制御部1は、図3に示すように、人物検知部101、画像特徴抽出部102、音声特徴推定部103、モデル選択部104、音響モデル蓄積部105、音声特徴抽出部106、類似度計算部107および悲鳴音判定部108を備える。
人物検知部101は、図1の画像処理部3から出力された撮像画像を取得し、取得された撮像画像から被写体である人物を検知する人物検知処理を行う。人物検知部101は、所定のアルゴリズムにより撮像画像における背景との境界の形状や器官の形状の検知などを行うことで、人物を検知することができる。
画像特徴抽出部102は、撮像画像から被写体の特徴を抽出する。具体的には、画像特徴抽出部102は、人物検知部101により検知された人物の画像から、当該人物の特徴量を抽出する。以下、画像から抽出される被写体の特徴量を、画像特徴量という。画像特徴量の例としては、性別、年齢、身長といった人物の属性が挙げられる。
制御部1は、図3に示すように、人物検知部101、画像特徴抽出部102、音声特徴推定部103、モデル選択部104、音響モデル蓄積部105、音声特徴抽出部106、類似度計算部107および悲鳴音判定部108を備える。
人物検知部101は、図1の画像処理部3から出力された撮像画像を取得し、取得された撮像画像から被写体である人物を検知する人物検知処理を行う。人物検知部101は、所定のアルゴリズムにより撮像画像における背景との境界の形状や器官の形状の検知などを行うことで、人物を検知することができる。
画像特徴抽出部102は、撮像画像から被写体の特徴を抽出する。具体的には、画像特徴抽出部102は、人物検知部101により検知された人物の画像から、当該人物の特徴量を抽出する。以下、画像から抽出される被写体の特徴量を、画像特徴量という。画像特徴量の例としては、性別、年齢、身長といった人物の属性が挙げられる。
音声特徴推定部103は、画像特徴抽出部102により抽出された画像特徴量に基づいて、被写体が発する音声の特徴量(音声特徴量)を推定する。音声特徴量の例としては、音声のフォルマントの周波数、フォルマントの振幅、基本周波数が挙げられる。音声特徴推定部103は、画像特徴量と音声特徴量とが対応付けられたデータベース(音声特徴量テーブル)を用いて、人物検知処理により検知された人物の画像特徴量から当該人物が発する音声の音声特徴量を推定する。音声特徴量テーブルは、予めメモリ等に格納しておくことができる。音声特徴量テーブルの一例を図4に示す。
図4に示すように、音声特徴量テーブル610では、複数種類の画像特徴量(人物の属性)に対して、それぞれ音声特徴量が対応付けられている。具体的には、音声特徴量は、基本周波数(ピッチp)、第1フォルマントの周波数(F1周波数)、第1フォルマントの振幅(F1振幅)、第2フォルマントの周波数(F2周波数)、第2フォルマントの振幅(F2振幅)、…を含む。
図4に示すように、音声特徴量テーブル610では、複数種類の画像特徴量(人物の属性)に対して、それぞれ音声特徴量が対応付けられている。具体的には、音声特徴量は、基本周波数(ピッチp)、第1フォルマントの周波数(F1周波数)、第1フォルマントの振幅(F1振幅)、第2フォルマントの周波数(F2周波数)、第2フォルマントの振幅(F2振幅)、…を含む。
フォルマントとは、音声を特徴付ける周波数成分であり、図5(a)に示す振幅スペクトルのピークに相当する。周波数の低い方から順に、第1フォルマント(F1)、第2フォルマント(F2)、第3フォルマント(F3)、第4フォルマント(F4)という。
図5(b)は、日本語母音のフォルマント分布図である。この図5(b)において、横軸はF1周波数、縦軸はF2周波数である。例えば「あ(/a/)」はF1周波数が高くF2周波数が低い音、「い(/i/)」はF1周波数が低くF2周波数が高い音、といえる。そして、一般に、成人男声は成人女声に比べてF1周波数、F2周波数ともに低い。
また、図5(c)に示すように、身長が高いほど音声の基本周波数(ピッチ)は低いことも知られている。
このように、人物の属性によって、音声のフォルマント(周波数、振幅)および基本周波数といった音声特徴量は異なる。したがって、人物の属性から音声特徴量を推定することが可能である。
図5(b)は、日本語母音のフォルマント分布図である。この図5(b)において、横軸はF1周波数、縦軸はF2周波数である。例えば「あ(/a/)」はF1周波数が高くF2周波数が低い音、「い(/i/)」はF1周波数が低くF2周波数が高い音、といえる。そして、一般に、成人男声は成人女声に比べてF1周波数、F2周波数ともに低い。
また、図5(c)に示すように、身長が高いほど音声の基本周波数(ピッチ)は低いことも知られている。
このように、人物の属性によって、音声のフォルマント(周波数、振幅)および基本周波数といった音声特徴量は異なる。したがって、人物の属性から音声特徴量を推定することが可能である。
図3に戻って、モデル選択部104は、複数種類の異常音の音響モデルの中から、音声特徴推定部103により推定された音声特徴量に適合した音響モデルを選択する。具体的には、モデル選択部104は、音声特徴推定部103により推定された音声特徴量と一致または略一致する音声特徴量を有する音響モデルを、音響モデル蓄積部105に蓄積された複数種類の音響モデルの中から選択する。ここで、上記音響モデルは、音の特徴量が既知である悲鳴音をモデル化した悲鳴モデル音である。
音響モデル蓄積部105は、例えば図6に示すように、悲鳴モデル音と音声特徴量とが対応付けられたデータベース(悲鳴モデル音テーブル620)を保持している。モデル選択部104は、音響モデル蓄積部105が有する悲鳴モデル音テーブル620を用いて、人物検知処理により検知された人物の音声特徴量と同様の音声特徴量を有する悲鳴モデル音を選択する。
図6に示すように、悲鳴モデル音テーブル620では、複数種類の悲鳴モデル音に対して、それぞれ音声特徴量が対応付けられている。具体的には、音声特徴量は、基本周波数(ピッチp)、第1フォルマントの周波数(F1周波数)、第1フォルマントの振幅(F1振幅)、第2フォルマントの周波数(F2周波数)、第2フォルマントの振幅(F2振幅)、…を含む。
図6に示すように、悲鳴モデル音テーブル620では、複数種類の悲鳴モデル音に対して、それぞれ音声特徴量が対応付けられている。具体的には、音声特徴量は、基本周波数(ピッチp)、第1フォルマントの周波数(F1周波数)、第1フォルマントの振幅(F1振幅)、第2フォルマントの周波数(F2周波数)、第2フォルマントの振幅(F2振幅)、…を含む。
図3に戻って、音声特徴抽出部106は、図1の音声処理部5から出力された音声信号(入力音声)を取得し、取得された入力音声の音声特徴量として、音声のフォルマントおよび基本周波数を抽出する。ここで、音声特徴抽出部106は、ケプストラム分析法、線形予測分析法などの方法により音声特徴量を抽出することができる。
類似度計算部107は、モデル選択部104により選択された悲鳴モデル音を基準値とし、音声特徴抽出部106により抽出された入力音声の音声特徴量(入力値)とを比較し、類似度を計算する。ここで、類似度計算部107は、最尤推定法などの所定の手法により類似度を計算することができる。
悲鳴音判定部108は、類似度計算部107により計算された類似度の大きさに基づいて、入力音声が悲鳴音であるか否かの判定を行う。そして、悲鳴音判定部108は、入力音声が悲鳴音であると判定した場合はイベント発生部(図示せず)へ通知を行う。
類似度計算部107は、モデル選択部104により選択された悲鳴モデル音を基準値とし、音声特徴抽出部106により抽出された入力音声の音声特徴量(入力値)とを比較し、類似度を計算する。ここで、類似度計算部107は、最尤推定法などの所定の手法により類似度を計算することができる。
悲鳴音判定部108は、類似度計算部107により計算された類似度の大きさに基づいて、入力音声が悲鳴音であるか否かの判定を行う。そして、悲鳴音判定部108は、入力音声が悲鳴音であると判定した場合はイベント発生部(図示せず)へ通知を行う。
なお、本実施形態では、収音機能を有するカメラ100が、撮像画像と入力音声とに基づいて異常音検知処理(悲鳴音検知処理)を行う情報処理装置として動作する場合について説明する。ただし、クライアント装置200や一般のPC、他の機器等が上記の情報処理装置として動作してもよい。この場合、情報処理装置は、カメラ100により撮像された撮像画像と当該撮像画像に対応する入力音声とを取得して、異常音検知処理(悲鳴音検知処理)を行う。
次に、本実施形態におけるカメラ100の動作について、図7のフローチャートを用いて説明する。
図7は、カメラ100が実行する悲鳴音検知処理手順を示すフローチャートである。この図7の処理は、例えば所望の場所に設置されたカメラ100の電源が投入されたタイミングタイミングで開始される。ただし、図7の処理の開始タイミングは、上記のタイミングに限らない。カメラ100は、CPU11が必要なプログラムを読み出して実行することにより、図7に示す処理を実現することができる。以降、アルファベットSはフローチャートにおけるステップを意味するものとする。
図7は、カメラ100が実行する悲鳴音検知処理手順を示すフローチャートである。この図7の処理は、例えば所望の場所に設置されたカメラ100の電源が投入されたタイミングタイミングで開始される。ただし、図7の処理の開始タイミングは、上記のタイミングに限らない。カメラ100は、CPU11が必要なプログラムを読み出して実行することにより、図7に示す処理を実現することができる。以降、アルファベットSはフローチャートにおけるステップを意味するものとする。
まずS1において、カメラ100は、ネットワーク300を介してクライアント装置200のUI210に初期画面を表示させる表示制御を行う。次にS2において、カメラ100は、画像を撮像し、撮像画像をクライアント装置200のUI210に表示させる。なお、カメラ100は、ユーザがUI210に表示された初期画面からビューワを選択したことを検出した場合に、撮像画像をUI210に表示させるようにしてもよい。
次にS3において、カメラ100は、撮像画像から人物を検知する人物検知処理を行い、人物が検知されない場合にはそのまま人物検知処理を継続して行い、人物が検知された場合にはS4に移行する。
次にS3において、カメラ100は、撮像画像から人物を検知する人物検知処理を行い、人物が検知されない場合にはそのまま人物検知処理を継続して行い、人物が検知された場合にはS4に移行する。
S4では、カメラ100は、UI210に人物検知処理の検知結果を表示する。カメラ100は、例えば図8に示すように、検知された人物401を囲む矩形図形211を、UI210上の撮像画像に重畳表示させることで、ユーザに人物401の検知を通知することができる。なお、人物検知処理において複数の人物が検知された場合には、検知された複数の人物をそれぞれ囲む矩形図形を表示させてもよい。ただし、人物検知結果の表示方法は上記に限定されるものではない。
次にS5では、カメラ100は、S3において検知された人物401の画像から、当該人物401の特徴(属性)を抽出し、画像特徴量として取得する。そして、カメラ100は、抽出された人物401の特徴をUI210に表示させる。このとき、人物401の特徴として、性別:男性、年齢:20代、身長:170cmといった特徴量が抽出されたものとする。この場合、カメラ100は、例えば図8に示すように、UI210上において、人物401の近傍に当該人物401の特徴212を表示させることができる。
次にS5では、カメラ100は、S3において検知された人物401の画像から、当該人物401の特徴(属性)を抽出し、画像特徴量として取得する。そして、カメラ100は、抽出された人物401の特徴をUI210に表示させる。このとき、人物401の特徴として、性別:男性、年齢:20代、身長:170cmといった特徴量が抽出されたものとする。この場合、カメラ100は、例えば図8に示すように、UI210上において、人物401の近傍に当該人物401の特徴212を表示させることができる。
次にS6では、カメラ100は、S5において抽出された人物401の画像特徴量に基づいて、図4に示すような音声特徴量テーブル610を用いて、当該人物401の音声特徴量を推定する。人物401の特徴が、上記のように性別:男性、年齢:20代、身長:170cmである場合、カメラ100は、図4の破線丸印で示すように音声特徴量を推定する。つまり、人物401の画像特徴量に対応する音声特徴量は、基本周波数(ピッチp):140Hz、F1周波数:420Hz、F1振幅:7dB、F2周波数:950Hz、F2振幅:7dB、…と推定される。
次にS7では、カメラ100は、図6に示すような悲鳴モデル音テーブル620を用いて、S6において推定された人物401の音声特徴量と一致または最も類似する特徴量を有する悲鳴モデル音を選択する。人物401の音声特徴量が、上記のように基本周波数(ピッチp):140Hz、F1周波数:420Hz、F1振幅:7dB、F2周波数:950Hz、F2振幅:7dB、…である場合、図6の破線丸印で示すように悲鳴モデル音として悲鳴2が選択される。つまり、カメラ100は、基本周波数:140Hz、F1周波数:420Hz、F1振幅:6dB、F2周波数:980Hz、F2振幅:7dB、F3周波数:1750Hz、F3振幅:6dB、…といった音声特徴量を有する悲鳴モデル音を選択する。
次にS8では、カメラ100は、マイク4により収音され音声処理部5によりデジタル処理が施された音声信号(入力音声)から、音声特徴量としてフォルマントおよび基本周波数を抽出する。
次にS9では、カメラ100は、S7において選択された悲鳴モデル音と、S8において抽出された入力音声の音声特徴量とを比較し、類似度を計算する。ここで、類似度計算に用いる悲鳴モデル音は、人物401の属性に基づいて推定された人物401が発する音声の特徴に類似した特徴を有する。そのため、入力音声が人物401の悲鳴音である場合、S8において抽出された入力音声の音声特徴量は、S7において選択された悲鳴モデル音と類似性を有する。したがって、この場合の類似度計算の演算量を削減することができ、また、検知精度を向上させることができる。
次にS9では、カメラ100は、S7において選択された悲鳴モデル音と、S8において抽出された入力音声の音声特徴量とを比較し、類似度を計算する。ここで、類似度計算に用いる悲鳴モデル音は、人物401の属性に基づいて推定された人物401が発する音声の特徴に類似した特徴を有する。そのため、入力音声が人物401の悲鳴音である場合、S8において抽出された入力音声の音声特徴量は、S7において選択された悲鳴モデル音と類似性を有する。したがって、この場合の類似度計算の演算量を削減することができ、また、検知精度を向上させることができる。
S10では、カメラ100は、S9における類似度の計算結果をもとに、入力音声が悲鳴音であるか否かを判定する。具体的には、カメラ100は、S9において計算された類似度が予め設定された判定閾値よりも高い場合、入力音声が悲鳴音であると判定する。そして、カメラ100は、入力音声が悲鳴音ではないと判定した場合はS8に戻り、入力音声が悲鳴音であると判定した場合は、S11に移行する。
S11では、カメラ100は、イベントが発生したと判断して当該イベントをUI210に表示させる。具体的には、カメラ100は、UI210上において、悲鳴音を発した人物の画像を表示させる表示制御を行う。例えば図9に示すように、UI210上の撮像画像に、悲鳴音を発した人物401を囲む矩形図形221を重畳表示させるとともに、「!!悲鳴音検知!!」などのコメント222を表示させるようにしてもよい。
なお、矩形図形221は、図8に示す矩形図形211と同じであってもよいし、異なっていてもよい。矩形図形221を矩形図形211とは異なる形態で表示する場合、例えば、人物401を強調表示(明示的に表示)するために、矩形図形221を点滅させたりハイライト表示させたりしてもよい。
S11では、カメラ100は、イベントが発生したと判断して当該イベントをUI210に表示させる。具体的には、カメラ100は、UI210上において、悲鳴音を発した人物の画像を表示させる表示制御を行う。例えば図9に示すように、UI210上の撮像画像に、悲鳴音を発した人物401を囲む矩形図形221を重畳表示させるとともに、「!!悲鳴音検知!!」などのコメント222を表示させるようにしてもよい。
なお、矩形図形221は、図8に示す矩形図形211と同じであってもよいし、異なっていてもよい。矩形図形221を矩形図形211とは異なる形態で表示する場合、例えば、人物401を強調表示(明示的に表示)するために、矩形図形221を点滅させたりハイライト表示させたりしてもよい。
以上説明したように、本実施形態におけるカメラ100は、撮像画像と、当該撮像画像に対応する入力音声とを取得する。また、カメラ100は、撮像画像から被写体の特徴量を抽出し、抽出された被写体の特徴量に基づいて、当該被写体が発する音声の特徴量を推定し、複数種類の異常音の音響モデルの中から、音声の特徴量に適合した音響モデルを選択する。具体的には、カメラ100は、それぞれ音の特徴量が既知である複数種類の異常音の音響モデルを保持しておき、保持された音響モデルの中から、被写体の音声の特徴量と一致または略一致する特徴量を有する音響モデルを選択することができる。そして、カメラ100は、選択された音響モデルと入力音声の特徴量とを比較し、入力音声が異常音であるか否かを判定する。
本実施形態において、被写体は人物であり、検知対象の異常音は、人物の悲鳴音とすることができる。また、被写体の特徴量は、人物の性別、年齢および身長とすることができる。さらに、音声の特徴量は、フォルマントの周波数、フォルマントの振幅および基本周波数とすることができる。
このように、カメラ100は、被写体画像の特徴から被写体である人物の音声特徴を推定し、推定された音声特徴量に適合した音響モデルを用いて、入力音声が悲鳴音であるか否かを判定する。したがって、精度良く悲鳴検知を行うことができる。また、悲鳴検知の際に、入力音声に対して大量の音響モデルとの比較を行う必要がないため、検知処理時間を短縮することができる。
このように、カメラ100は、被写体画像の特徴から被写体である人物の音声特徴を推定し、推定された音声特徴量に適合した音響モデルを用いて、入力音声が悲鳴音であるか否かを判定する。したがって、精度良く悲鳴検知を行うことができる。また、悲鳴検知の際に、入力音声に対して大量の音響モデルとの比較を行う必要がないため、検知処理時間を短縮することができる。
また、カメラ100は、性別、年齢、身長といった人物の属性によって、音声のフォルマントおよび基本周波数が異なることを利用し、撮像画像から画像特徴量として人物の性別、年齢および身長を抽出する。そして、これらの画像特徴量に基づいて、被写体である人物が発する音声の特徴量としてフォルマントの周波数、フォルマントの振幅および基本周波数を推定する。したがって、様々な環境に設置され、入力音声が一様ではない場合であっても、適切に画像の特徴に適合した音響モデルを選択することができ、悲鳴検知の処理時間の短縮と悲鳴検知精度の向上とを実現することができる。
ここで、カメラ100は、被写体の特徴量と音の特徴量とを対応付けた音声特徴量テーブル610を用いて、被写体である人物が発する音声の特徴量を推定することができる。したがって、容易かつ適切に被写体の音声特徴量を推定することができる。
ここで、カメラ100は、被写体の特徴量と音の特徴量とを対応付けた音声特徴量テーブル610を用いて、被写体である人物が発する音声の特徴量を推定することができる。したがって、容易かつ適切に被写体の音声特徴量を推定することができる。
さらに、カメラ100は、悲鳴検知に際し、選択された音響モデルと入力音声の特徴量との類似度を判定し、判定された類似度の大きさに基づいて、入力音声が異常音であるか否かを判定することができる。このように、入力音声の特徴量を抽出して音響モデルとの類似度(尤度)を計算するので、適切に悲鳴音を検知することができる。
また、カメラ100は、悲鳴音を検知した場合、当該悲鳴音を発した人物の画像をUI210に表示させる表示制御を行うことができる。このとき、カメラ100は、悲鳴音を発した人物をUI210に表示した撮像画像上において強調表示してもよい。これにより、ユーザ(監視員など)は、UI210に表示された画像を確認することで、異常が発生している状況を容易に把握することができる。
また、カメラ100は、悲鳴音を検知した場合、当該悲鳴音を発した人物の画像をUI210に表示させる表示制御を行うことができる。このとき、カメラ100は、悲鳴音を発した人物をUI210に表示した撮像画像上において強調表示してもよい。これにより、ユーザ(監視員など)は、UI210に表示された画像を確認することで、異常が発生している状況を容易に把握することができる。
(変形例)
上記実施形態では、図7のS7において、カメラ100は悲鳴モデル音を1つのみ選択する場合について説明したが、複数の悲鳴モデル音を選択してもよい。この場合、カメラ100は、選択された複数の悲鳴モデル音と入力音声の特徴量とをそれぞれ比較して類似度を計算し、入力音声が悲鳴音であるか否かを判定する。このとき、カメラ100は、推定された人物401の音声の特徴量との差異が小さい悲鳴モデル音から順に類似度を計算し、入力音声が悲鳴音であるか否かの判定を行うようにしてもよい。
このように、複数種類の悲鳴モデル音を選択し、それぞれについて悲鳴音の判定を行うことにより、悲鳴検知の精度を向上させることができる。また、推定された人物401の音声の特徴量との差異が小さい悲鳴モデル音から順に悲鳴音の判定に用いるので、悲鳴検知の処理時間を短縮することができる。
上記実施形態では、図7のS7において、カメラ100は悲鳴モデル音を1つのみ選択する場合について説明したが、複数の悲鳴モデル音を選択してもよい。この場合、カメラ100は、選択された複数の悲鳴モデル音と入力音声の特徴量とをそれぞれ比較して類似度を計算し、入力音声が悲鳴音であるか否かを判定する。このとき、カメラ100は、推定された人物401の音声の特徴量との差異が小さい悲鳴モデル音から順に類似度を計算し、入力音声が悲鳴音であるか否かの判定を行うようにしてもよい。
このように、複数種類の悲鳴モデル音を選択し、それぞれについて悲鳴音の判定を行うことにより、悲鳴検知の精度を向上させることができる。また、推定された人物401の音声の特徴量との差異が小さい悲鳴モデル音から順に悲鳴音の判定に用いるので、悲鳴検知の処理時間を短縮することができる。
また、上記実施形態では、画像の特徴量が、人物の性別、年齢および身長である場合について説明したが、画像の特徴量は、性別、年齢および身長の少なくとも1つであってもよい。また、画像の特徴量は、人物の体型(痩せ型、肥満型)を含んでいてもよい。
さらに、上記実施形態では、音の特徴量がフォルマントおよび基本周波数である場合について説明したが、音の特徴量は、フォルマントおよび基本周波数の少なくとも一方であってもよい。また、音の特徴量は、例えば音量や音韻継続長、音の揺らぎを含んでいてもよい。
また、上記実施形態では、異常音が人物の悲鳴音である場合について説明したが、異常音は、例えば人物の罵声音や物体の破壊音、衝突音などであってもよい。つまり、撮像画像から抽出された被写体の特徴(画像特徴量)に基づいて音声特徴量を推定可能な音声であれば、検知対象の異常音として適用することができる。
さらに、上記実施形態では、音の特徴量がフォルマントおよび基本周波数である場合について説明したが、音の特徴量は、フォルマントおよび基本周波数の少なくとも一方であってもよい。また、音の特徴量は、例えば音量や音韻継続長、音の揺らぎを含んでいてもよい。
また、上記実施形態では、異常音が人物の悲鳴音である場合について説明したが、異常音は、例えば人物の罵声音や物体の破壊音、衝突音などであってもよい。つまり、撮像画像から抽出された被写体の特徴(画像特徴量)に基づいて音声特徴量を推定可能な音声であれば、検知対象の異常音として適用することができる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100…ネットワークカメラ、101…人物検知部、102…画像特徴抽出部、103…音声特徴推定部、104…モデル選択部、105…音響モデル蓄積部、106…音声特徴抽出部、107…類似度計算部、108…悲鳴音判定部、200…クライアント装置、300…ネットワーク、400…被写体、500…音声
Claims (13)
- 撮像画像を取得する第1の取得手段と、
前記撮像画像に対応する入力音声を取得する第2の取得手段と、
前記第1の取得手段により取得された撮像画像から被写体の特徴量を抽出する第1の抽出手段と、
前記第1の抽出手段により抽出された前記被写体の特徴量に基づいて、当該被写体が発する音声の特徴量を推定する推定手段と、
複数種類の異常音の音響モデルの中から、前記推定手段により推定された音声の特徴量に適合した音響モデルを選択する選択手段と、
前記第2の取得手段により取得された入力音声の特徴量を抽出する第2の抽出手段と、
前記選択手段により選択された音響モデルと、前記第2の抽出手段により抽出された入力音声の特徴量とを比較し、前記入力音声が異常音であるか否かを判定する判定手段と、を備えることを特徴とする情報処理装置。 - 前記音声の特徴量は、フォルマントの周波数、フォルマントの振幅および基本周波数の少なくとも1つを含むことを特徴とする請求項1に記載の情報処理装置。
- それぞれ音の特徴量が既知である前記複数種類の異常音の音響モデルを保持する保持手段をさらに備え、
前記選択手段は、
前記保持手段により保持された音響モデルの中から、前記推定手段により推定された音声の特徴量と一致または略一致する特徴量を有する音響モデルを選択することを特徴とする請求項1または2に記載の情報処理装置。 - 前記選択手段は、複数の前記音響モデルを選択し、
前記判定手段は、
前記選択手段により選択された複数の音響モデルと、前記第2の抽出手段により抽出された入力音声の特徴量とをそれぞれ比較し、前記入力音声が異常音であるか否かを判定することを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。 - 前記判定手段は、
前記選択手段により選択された複数の音響モデルのうち、前記推定手段により推定された音声の特徴量との差異が小さい音響モデルから順に、前記第2の抽出手段により抽出された入力音声の特徴量と比較し、前記入力音声が異常音であるか否かを判定することを特徴とする請求項4に記載の情報処理装置。 - 前記判定手段は、
前記選択手段により選択された音響モデルと、前記第2の抽出手段により抽出された入力音声の特徴量との類似度を判定する第1の判定手段と、
前記第1の判定手段により判定された類似度の大きさに基づいて、前記入力音声が異常音であるか否かを判定する第2の判定手段と、を備えることを特徴とする請求項1から5のいずれか1項に記載の情報処理装置。 - 前記推定手段は、
前記第1の抽出手段により抽出された前記被写体の特徴量に基づいて、前記被写体の特徴量と音の特徴量とを対応付けたテーブルを用いて、前記被写体が発する音声の特徴量を推定することを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。 - 前記第1の抽出手段は、
前記第1の取得手段により取得された撮像画像から人物を検知し、前記被写体の特徴量として、人物の性別、年齢および身長の少なくとも1つを抽出することを特徴とする請求項1から7のいずれか1項に記載の情報処理装置。 - 前記異常音は、前記人物の悲鳴音であることを特徴とする請求項8に記載の情報処理装置。
- 前記判定手段により前記入力音声が異常音であると判定された場合、前記異常音を発した前記被写体の画像を表示させる表示制御手段をさらに備えることを特徴とする請求項1から9のいずれか1項に記載の情報処理装置。
- 請求項1から10のいずれか1項に記載の情報処理装置と、
前記撮像画像を撮像する撮像手段と、
前記入力音声を収音する収音手段と、を備えることを特徴とする撮像装置。 - 撮像画像を取得するステップと、
前記撮像画像に対応する入力音声を取得するステップと、
前記撮像画像から被写体の特徴量を抽出するステップと、
抽出された前記被写体の特徴量に基づいて、当該被写体が発する音声の特徴量を推定するステップと、
複数種類の異常音の音響モデルの中から、前記音声の特徴量に適合した音響モデルを選択するステップと、
前記入力音声の特徴量を抽出するステップと、
選択された前記音響モデルと、抽出された前記入力音声の特徴量とを比較し、前記入力音声が異常音であるか否かを判定するステップと、を含むことを特徴とする情報処理方法。 - コンピュータを、請求項1から10のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018217499A JP2020086034A (ja) | 2018-11-20 | 2018-11-20 | 情報処理装置、情報処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018217499A JP2020086034A (ja) | 2018-11-20 | 2018-11-20 | 情報処理装置、情報処理装置およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020086034A true JP2020086034A (ja) | 2020-06-04 |
Family
ID=70907742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018217499A Pending JP2020086034A (ja) | 2018-11-20 | 2018-11-20 | 情報処理装置、情報処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020086034A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220189463A1 (en) * | 2020-12-16 | 2022-06-16 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
-
2018
- 2018-11-20 JP JP2018217499A patent/JP2020086034A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220189463A1 (en) * | 2020-12-16 | 2022-06-16 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3678385B1 (en) | Sound pickup device, sound pickup method, and program | |
US8155968B2 (en) | Voice recognition apparatus and method for performing voice recognition comprising calculating a recommended distance range between a user and an audio input module based on the S/N ratio | |
US11941968B2 (en) | Systems and methods for identifying an acoustic source based on observed sound | |
JP6705656B2 (ja) | 視覚補助装置及びオブジェクトの分類の検出方法 | |
CN110992989B (zh) | 语音采集方法、装置及计算机可读存储介质 | |
EP3177040A2 (en) | Information processing apparatus, information processing method, and program | |
JP7194897B2 (ja) | 信号処理装置及び信号処理方法 | |
JP6713057B2 (ja) | 移動体制御装置および移動体制御プログラム | |
CN112331193A (zh) | 语音交互方法及相关装置 | |
CN111654622B (zh) | 拍摄对焦方法、装置、电子设备及存储介质 | |
JP2012103859A (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
JP2020086034A (ja) | 情報処理装置、情報処理装置およびプログラム | |
US20140176689A1 (en) | Apparatus and method for assisting the visually impaired in object recognition | |
JP6427807B2 (ja) | 物体認証装置および物体認証方法 | |
US20220215852A1 (en) | Sound pickup device and sound pickup method | |
JP7217471B2 (ja) | 撮像装置 | |
JP2005199373A (ja) | コミュニケーション装置及びコミュニケーション方法 | |
JP2022136115A (ja) | ビデオ会議システム、ビデオ会議方法、およびプログラム | |
EP3709215A1 (en) | Imaging apparatus | |
KR101520446B1 (ko) | 구타 및 가혹행위 방지를 위한 감시 시스템 | |
CN112013947A (zh) | 马达异响检测方法及其装置、系统 | |
JP5465166B2 (ja) | 発声内容認識装置および発声内容認識方法 | |
JP2019121987A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP6565084B2 (ja) | 物体認証装置および物体認証方法 | |
CN114647829A (zh) | 一种身份验证的方法、装置、存储介质和电子设备 |