JP5652945B2 - 音検出装置および音検出方法 - Google Patents

音検出装置および音検出方法 Download PDF

Info

Publication number
JP5652945B2
JP5652945B2 JP2010277461A JP2010277461A JP5652945B2 JP 5652945 B2 JP5652945 B2 JP 5652945B2 JP 2010277461 A JP2010277461 A JP 2010277461A JP 2010277461 A JP2010277461 A JP 2010277461A JP 5652945 B2 JP5652945 B2 JP 5652945B2
Authority
JP
Japan
Prior art keywords
sound
score
value
data
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010277461A
Other languages
English (en)
Other versions
JP2012127701A (ja
Inventor
晃 佐宗
晃 佐宗
康貴 田中
康貴 田中
田中 伸一
伸一 田中
益巳 谷本
益巳 谷本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SOHGO SECURITY SERVICES CO.,LTD.
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
SOHGO SECURITY SERVICES CO.,LTD.
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SOHGO SECURITY SERVICES CO.,LTD., National Institute of Advanced Industrial Science and Technology AIST filed Critical SOHGO SECURITY SERVICES CO.,LTD.
Priority to JP2010277461A priority Critical patent/JP5652945B2/ja
Publication of JP2012127701A publication Critical patent/JP2012127701A/ja
Application granted granted Critical
Publication of JP5652945B2 publication Critical patent/JP5652945B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Burglar Alarm Systems (AREA)

Description

本発明は、特定の種類の音を検出する音検出装置および音検出方法に関する。
従来から、警備において、特定の音に注目して異常事態の発生を検出することが行われている。例えば、監視エリア内でガラスの破壊音などの異常音を検知した際には、異常事態が発生したと判断することができる。また、異常音とは断定されないが、不審な物音などを検知した場合には、異常事態の発生か否かを判断する必要がある。このような特定の音を自動的に検知するためには、監視エリア内で観測される全ての観測音から、異常音や不審音そのもの、または、異常音や不審音の発生区間を検出する必要がある。以下では、特に記載のない限り、異常音および不審音を纏めて不審音と呼ぶ。
環境音などを含む音から特定音を検出する技術は、従来から提案されている。例えば、特許文献1には、音の信号パワーを用いて音声の発生区間を検出する技術が開示されている。特許文献1では、信号パワーに対して適切に閾値を設定することで、所定の音の発生区間を検出している。また例えば、特許文献2には、音信号のゼロクロス数を用いて特定の音の区間を検出する方法が開示されている。
さらに例えば、特に音声に対して用いられる手法として、音を複数の周波数帯域に分割し、各帯域で求めた信号パワーに閾値を設定することで、所定の音の発生区間を検出する方法が知られている。この方法は、人間の声などの、特徴的な周波数帯域が予め分かっている音を抽出する場合に好適である。
さらにまた、不審音の検出において、発生区間の検出を行わず、一定時間に採取される全ての音に対して音声認識処理を行う方法も考えられる。この方法では、例えば、採取された音信号に対する音声認識処理の開始および終了点を、ユーザが指定する。処理装置は、転送された音信号の、ユーザが指定した開始および終了点の間に対して音声認識処理を行い、ユーザは、音声認識処理の結果を用いて不審音の検出を行う。
特許第2521425号公報 特許第2944098号公報
ところで、上述の特許文献1の技術を不審音の検出に用いた場合、集音された環境騒音および音声の信号に対して雑音(例えば工事の騒音など)が重畳されると、不審音の信号パワーに対して雑音の信号パワーが重畳されることになる。この場合には、不審音の検出漏れを起こしたり、不審音の発生区間を正しく検出できないおそれがあるという問題点があった。また、上述の特許文献2の技術に関しては、ゼロクロス数は雑音に影響され易く、環境音に対して雑音が重畳された場合、不審音の特徴を適切に捉えることが困難になるという問題点があった。
さらに、音を複数の周波数帯域に分割する方法では、検出対象とする音の信号パワーが特定の周波数帯域に集中していれば、雑音環境下での所定音の発生区間の検出に有効である。しかしながら、不審音は、実質的には物音であって、音の信号パワーが特定の周波数帯域に集中しているとは限らず、不審音の区間の検出には、必ずしも有効ではないという問題点があった。
さらにまた、一定時間に採取される全ての音に対して音声認識処理を行う方法では、音声認識処理そのものによって異常音や不審音が検出できる訳ではないという問題点があった。例えば、この方法では、音声認識処理の結果で得られたパラメータの変化などをユーザが観察して、不審音といった特定の物音の検出を行う。
また、この方法を監視装置に適用する場合、例えば8時間〜10時間という長時間に亘り、監視中の全ての観測音に対して音声認識処理を施す必要があり、音声認識処理に対する計算コストの面から考えて、現実的ではないという問題点があった。
これに対し、複数の監視対象に対して1台の処理装置(サーバ)を設置することにより計算コストを抑えることも考えられる。しかしながら、この場合においても、複数の監視ポイントで採取された観測音のデータそれぞれを、常時、サーバに転送し続ける必要があり、通信コストの面から現実的ではないという問題点があった。
本発明は、上記に鑑みてなされたものであって、雑音環境下においても、容易且つ高精度に特定音を検出することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、学習データにおける物音と、音入力装置から入力された音データに含まれる物音との類似性が高い音を検出する音検出装置であって、音入力装置から入力された音データの特徴を示す特徴値を時系列に沿って算出する特徴値算出手段と、学習データから時系列に沿って予め求めた特徴値の頻度に基づき算出した期待値と、特徴値算出手段で算出された音データの特徴値との差分に基づいて音データを評価するスコアを算出するスコア算出手段と、スコアの極大値の位置と極小値の位置とを検出し、極大値の位置および極小値の位置に基づき音データ中の特定音発生区間を検出する検出手段とを備えることを特徴とする。
また、本発明は、学習データにおける物音と、音入力装置から入力された音データに含まれる物音との類似性が高い音を検出する音検出方法であって、特徴値算出手段が、音入力装置から入力された音データの特徴を示す特徴値を時系列に沿って算出する特徴値算出ステップと、スコア算出手段が、学習データから時系列に沿って予め求めた特徴値の頻度に基づき算出した期待値と、特徴値算出ステップで算出された音データの特徴値との差分に基づいて音データを評価するスコアを算出するスコア算出ステップと、スコアの極大値の位置と極小値の位置とを検出し、極大値の位置および極小値の位置に基づき音データ中の特定音発生区間を検出する検出ステップとを備えることを特徴とする。
本発明によれば、雑音環境下においても、容易且つ高精度に特定音を検出することができるという効果を奏する。
図1は、本発明の実施形態に適用可能な音検出装置の一例の構成を概略的に示すブロック図である。 図2は、音検出装置の機能をより詳細に説明するための一例の機能ブロック図である。 図3は、スコアパラメータの算出方法についてより詳細に説明するための略線図である。 図4は、学習データとしてガラス打撃音の音響データを用いた場合の、各フレームに関する信号パワー時系列の傾きの分布の例を示すヒストグラムである。 図5は、各フレームに関する信号パワー時系列の傾きの分布に基づき算出した、各フレームの期待値μおよび分散値σ2の例を示す略線図である。 図6は、信号パワーyLP(i)、信号パワー時系列の傾きyGLP(i)およびスコアS(i)を、入力音響データの各フレームiについて求めた値の例を示す略線図である。 図7は、学習データの各フレームkのそれぞれについて求めた期待値μkおよび分散値σ2 kの例を示す略線図である。 図8は、信号パワー、信号パワー時系列の傾きおよびスコアを、フレーム番号に対してプロットしたグラフである。 図9は、観測音に雑音が少ない場合の不審音発生区間の例を示す略線図である。 図10は、観測音に雑音が多い場合の不審音発生区間の例を示す略線図である。 図11は、算出されたスコアの遅延を説明するための略線図である。 図12は、スコアの遅延の補正について説明するための略線図である。 図13は、本実施形態による不審音発生区間の検出処理を示す一例のフローチャートである。 図14は、物音による学習データに対し、略ランダムな音響データが入力された場合の、信号パワー、信号パワー時系列の傾きおよびスコアの例を示す略線図である。 図15は、物音による学習データに対し、略ランダムな音響データが入力された場合の、信号パワー、信号パワー時系列の傾きおよびスコアを、フレーム番号に対してプロットしたグラフである。
以下に添付図面を参照して、本発明に係る音検出装置の一実施形態を詳細に説明する。本発明の実施形態では、監視エリア内の音を観測し、観測された観測音の音響信号から不審音や異常音と見做される特定音の発生区間を検出する。そして、観測音の音響信号から、検出された特定音発生区間の音響信号を切り取って出力する。
検出対象となる特定音は、人が発する音声とは異なる所謂物音であり、観測音に含まれる環境音と似ている。そのため、本実施形態では、概略的には、検出対象となる特定音と同種類の音の音響データによる学習データについて、予め特徴値の期待値を求め、求めた期待値と、観測音の時系列上の特徴値との差分を用いて算出したスコアに基づき特定音の発生区間を検出する。
ここで、観測音、環境音、不審音および異常音について定義する。観測音とは、監視エリア内で集音される全ての物音をいう。異常音は、侵入行動などが原因で発生した、警報出力すべき物音をいう。異常音の代表的な例としては、ガラスなどが破壊された際に発生する破壊音が挙げられる。不審音は、異常音と断定はされないが、監視エリア内で集音された怪しい物音をいう。不審音の例としては、打撃音などが考えられる。環境音は、観測音に含まれる、不審音および異常音以外の音をいう。環境音の例としては、風など自然現象に起因する音や、自動車、電車の音などが考えられる。
図1は、本発明の実施形態に適用可能な音検出装置の一例の構成を概略的に示す。図1において、音検出装置100は、A/D変換部11、演算部12および記憶部13を含む。例えば監視エリアにおいてマイクロフォン10で集音された観測音は、A/D変換部11でディジタルデータに変換され、入力音響データ20として演算部12に供給される。
演算部12は、例えばCPU(Central Processing Unit)、マイクロプロセッサ、あるいは、DSP(Digital Signal Processor)などを含む。また、記憶部13は、例えば半導体メモリやHDD(ハードディスクドライブ)などからなり、入力音響データ20が記憶されると共に、学習データに基づき作成された、入力音響データ20を評価するスコアを算出するためのスコアパラメータが予め記憶されている。学習データは、検出したい不審音や異常音と同種類であって、異なる複数の音の音響データを用いる。記憶部13は、また、演算部12の作業領域としても用いることができる。
演算部12は、入力音響データ20の特徴値を時系列上で算出し、算出された時系列上での特徴値を、記憶部13に記憶されるスコアパラメータを用いて評価して、検出対象の不審音や異常音の発生区間を検出する。演算部12は、入力音響データ20から検出対象の不審音や異常音の発生区間を検出した場合、検出された不審音や異常音の発生区間を当該入力音響データ20から切り取り、不審音発生区間の出力音響データ21として出力する。出力音響データ21は、例えば通信ネットワークを介して、監視サーバなどに送信される。
本実施形態では、音響データの特徴値として、音響データの信号パワーの時系列での傾きを用いる。なお、これはこの例に限定されず、特徴値は、音響データの特徴を示す値であれば、他の値を用いてもよい。例えば、音響データ信号パワーそのものや、所定区間におけるゼロクロス数などを特徴値として用いてもよい。
図2は、音検出装置100の機能をより詳細に説明するための一例の機能ブロック図である。なお、図2において、上述の図1と共通する部分には同一の符号を付して、詳細な説明を省略する。また、本実施形態では、上述した不審音および異常音を共に検出対象としている。そのため、以下では、特に記載の無い限り、不審音と異常音とを纏めて不審音として記述する。
図2において、信号パワー算出部101、傾き算出部102、スコア算出部103および発生区間検出部104は、演算部12に含まれる。スコアパラメータ111は、学習データに基づき予め作成されて記憶部13に記憶される。また、記憶部110は、例えば上述の記憶部13内の領域であって、観測音がA/D変換部11でディジタルデータに変換された入力音響データ20が一時的に記憶されると共に、後述するスコアや遅延時間補正量など、不審音発生区間を検出するために用いるデータが記憶される。
信号パワー算出部101は、A/D変換部11から供給された入力音響データ20の信号パワーを、時系列上で算出する。より具体的には、信号パワー算出部101は、入力音響データ20の時系列上で連続する所定数のサンプルを単位として、信号パワーを算出する。ここで、信号パワーを算出する単位をフレームと呼び、フレームに含まれるサンプル数がフレーム幅となる。
入力音響データ20のi番目のフレームの信号パワーyLP(i)は、フレーム幅をW、フレーム内のn番目の波形データ(サンプル値)を値x(n)として、例えば次式(1)により算出される。
Figure 0005652945
なお、信号パワーyLP(i)を算出するフレームは、直前のフレームと一部のサンプルが重複するように、フレームの先頭を基準とした所定サンプル数のフレーム間隔D毎に、用いるサンプルをずらして設定する。一例として、フレーム幅W=160サンプルであって、m番目のフレームmが第1サンプル〜第160サンプルで構成されるものとして、m+1番目のフレーム(m+1)は、第81サンプル〜第240サンプルで構成され、m+2番目のフレーム(m+2)は、第161サンプル〜第320サンプルで構成される。この場合、フレーム間隔D=80サンプルとなる。なお、この例では、フレームの重複部分の長さをフレーム幅W/2としたが、これはこの例に限定されない。
傾き検出部102は、信号パワー算出部101で算出されたフレーム毎の信号パワーyLP(i)の、時系列上での傾き(信号パワー時系列の傾きと呼ぶ)yGLP(i)を算出する。フレームiの信号パワー時系列の傾きyGLP(i)は、例えばフレームiと、既に信号パワーを算出済みのフレーム(i−4)、フレーム(i−3)およびフレーム(i−1)の、対象フレームiに対して4フレーム分遡ったフレーム(i−4)のうち、4フレーム分の信号パワーを用いて、次式(2)により算出できる。
Figure 0005652945
なお、式(2)では、対象フレームiに対して4フレーム前から4フレーム分の信号パワーを用いて傾きyGLP(i)を算出しているが、これはこの例に限定されない。すなわち、対象フレームiから何フレーム分遡ったフレームからデータを用いるかは、信号パワー時系列の傾きyGLP(i)を求める式の構成に応じて決められる。また、各定数の値も、この例に用いた値に限定されない。
スコア算出部103は、傾き算出部102で入力音響データ20について算出された信号パワー時系列の傾きyGLP(i)と、学習データを用いて予め作成され例えば記憶部13に記憶されたスコアパラメータ111とに基づき、入力音響データ20を評価するためのスコアを算出する。スコアパラメータ111は、予め用意された学習データに基づき作成された、検出対象となる不審音に対する期待値を含む。そして、算出されたスコアの時系列的な変化に基づき不審音発生区間の検出を行う。
スコアパラメータ111は、下記のようにして作成する。先ず、検出対象となる不審音と種類が同じであって、互いに音が異なる複数の音響データをそれぞれ学習データとして用意する。例えば、検出対象となる不審音がガラスの破壊音である場合、異なるサイズ、厚み、材質など様々な条件でガラスを破壊した際の破壊音を集音した各音響データを、それぞれ学習データとして用いる。
この学習データのそれぞれについて、上述したようにして、フレーム毎に信号パワーを求め、求めた信号パワーを用いて信号パワー時系列の傾きを算出する。そして、複数の学習データの、互いに対応するフレームkの信号パワー時系列の傾きの期待値μkおよび分散値σ2 kを算出する。算出された期待値μkおよび分散値σ2 kを、フレームkのスコアパラメータ111として、記憶部13に記憶する。
図3を用いて、スコアパラメータ111の算出方法についてより詳細に説明する。先ず、学習データに対してフレームを設定する。フレーム幅Wおよびフレーム間隔Dは、上述の信号パワー算出部101で入力音響データ20に対して設定したフレームと同一とする。なお、信号パワー時系列の傾きの算出は、上述した式(2)に従い、対象フレームiから4フレーム分遡ったフレームからの信号パワー値を用いて行うものとする。
なお、以下では、不審音発生区間の開始位置を含むフレームから、当該フレームの信号パワー時系列の傾きを算出するために必要なフレーム分を遡ったときの先頭のフレームを、1番目のフレーム(フレーム#1)とする。
学習データの波形の立ち上がり時刻、すなわち不審音発生区間の開始位置に係るフレーム(図3の例ではフレーム#5)を設定する。そして、このフレーム#5から学習データの波形の減衰方向(不審音発生区間の終了位置方向)に向けて、フレーム間隔Dで順次フレームを設定する(フレーム#6〜#8)。また、不審音発生区間の開始位置に係るフレームについて信号パワー時系列の傾きを算出する場合、この例では当該フレームに対して4フレーム分遡った位置からフレームが必要となるので、これらのフレームも設定する。図3の例では、フレーム#5から時系列を遡った方向に、フレーム#4〜#1が設定される。なお、不審音発生区間の開始位置に係るフレーム(フレーム#5)は、フレームの略中央が当該開始位置になるように設定すると好ましい。
音が異なる複数の学習データのそれぞれに対して、同様にして、波形の立ち上がり時刻を基準として各フレームが設定される。
なお、この例では、信号パワー時系列の傾きを算出するために用いるフレーム数を4フレームとし、学習データからスコアパラメータ111を算出するために用いる総フレーム数を8フレームとしているが、これはこの例に限定されず、例えばさらに多くのフレームを用いてもよい。また、学習データの波形の立ち上がり時刻に対して中央を揃えるフレームを、5番目のフレームとしているが、これはこの例に限定されず、スコアパラメータ111を算出するために用いる総フレーム数に合わせて別のフレームを用いてもよい。さらに、学習データにおいては、波形の立ち上がり時刻より前のデータが存在しない場合が考えられる。この場合には、値「0」のデータ(無音データ)が存在するものと見做してフレームの設定を行う。
次に、上述のようにして各学習データに対して設定されたフレーム毎に信号パワーを算出し、各学習データについて、信号パワー時系列の傾きを算出する。そして、各学習データの対応するフレームkにおける信号パワー時系列の傾きの期待値μkおよび分散値σ2 kを算出する。
一例として、波形の立ち上がり部分を含むフレーム#5を基点とし、フレーム#5〜フレーム#8のそれぞれについて、各学習データに基づき信号パワー時系列の傾きに関するヒストグラムを作成する。図4は、学習データとしてガラス打撃音の音響データを用いた場合の、フレーム#5〜フレーム#8それぞれに関する、信号パワー時系列の傾きの分布(ヒストグラム)の例を示す。図4(a)はフレーム#5の例、図4(b)はフレーム#6の例、図4(c)はフレーム#7の例、図4(d)はフレーム#8の例である。図4(a)、図4(b)、図4(c)および図4(d)において、横軸が信号パワー時系列の傾きの階級、縦軸が頻度を示す。
これら図4(a)〜図4(d)のヒストグラムに基づき、フレーム#5〜フレーム#8それぞれについて、期待値μおよび分散値σ2を求めることができる。なお、期待値μkおよび分散値σ2 kの算出は、周知の方法を用いることができるので、ここでの説明を省略する。図5は、図4(a)〜図4(d)のヒストグラムに基づき算出した、フレーム#5〜フレーム#8それぞれの期待値μおよび分散値σ2の例を示す。各フレームkに対して、それぞれ期待値μkおよび分散値σ2 kが算出される。算出されたこれら各フレームkの期待値μkおよび分散値σ2 kは、スコアパラメータ111として記憶部13に記憶される。
スコア算出部103は、こうして算出し記憶部13にスコアパラメータ111として記憶された各フレームkの期待値μkおよび分散値σ2 kを用いて、次式(3)に例示される、入力音響データ20のフレームiにおけるスコアS(i)を算出するスコア算出式を得る。このスコア算出式で算出されたスコアS(i)により、入力音響データ20におけるフレームiを評価することができる。
Figure 0005652945
なお、式(3)において、傾きyGLP(i+k−8)に含まれる値「8」および総和の終了を示す値「8」は、学習データからスコアパラメータ111を算出するために用いた総フレーム数である。また、総和の開始を示す値「5」は、不審音発生区間の開始位置を含むフレーム番号の、学習データからスコアパラメータ111を算出するために用いる先頭のフレームから数えたフレーム番号である。これらの値は、信号パワー時系列の傾きyGLP(i)を求める式の構成などに応じて決められる。さらに、式(3)において、スコアの最大値を「0」にするために、右辺の全体に負符号が付されている。
すなわち、式(3)は、入力音響データ20におけるスコア算出の対象となるフレームiの信号パワー時系列の傾きと期待値との差分の二乗を、学習データにおいて不審音発生区間の開始位置から4フレーム分順次フレームをずらして求めた総和に基づき、フレームiのスコアを算出している。分散値は、分子の値を正規化する。なお、式(3)では、信号パワー時系列の傾きと期待値との差分の二乗を用いているが、これはこの例に限定されず、例えば差分の絶対値を用いてもよい。
スコア算出部103は、傾き算出部102で入力音響データ20の各フレームiについて算出された、信号パワー時系列の傾きyGLP(i)を式(3)に順次適用して、各フレームiのスコアS(i)を算出する。
発生区間検出部104は、スコア算出部103で算出された入力音響データ20のフレームiのスコアS(i)から、フレームiのスコア時系列の傾きGS(i)を算出する。この例では、スコア時系列の傾きGS(i)は、上述した信号パワー時系列の傾きの算出と同様に、対象となるフレームiに対して4フレーム分遡ったフレーム(i−4)から4個のスコアS(i−4)、スコアS(i−3)、スコアS(i−1)およびスコアS(i)を用いて、例えば次式(4)を用いて算出される。
Figure 0005652945
なお、ここでは、スコア時系列の傾きGS(i)を算出するために、4個のスコアを用いたが、これはこの例に限定されない。また、スコア時系列の傾きは、スコア算出部103で算出してもよい。
発生区間検出部104は、算出されたスコア時系列の傾きGS(i)に基づき、スコアS(i)が極大値または極小値であるか否かを判定する。すなわち、スコア時系列の傾きGS(i)が下記の条件(A)を満たすとき、スコアS(i)は極大値を取る。
GS(i−1)>0 且つ GS(i)≦0 …(A)
同様に、スコア時系列の傾きGS(i)が下記の条件(B)を満たすとき、スコアS(i)は極小値を取る。
GS(i−1)<0 且つ GS(i)≧0 …(B)
発生区間検出部104は、スコアS(i)が極大値であった場合、当該スコアS(i)が閾値を超えているか否かを判定し、超えていれば、当該スコアS(i)に対応するフレームiが波形の立ち上がり位置を含むものと判定する。閾値は、予め実験的手法などにより求めて、記憶部13に記憶しておく。ここで、学習データにおいて、波形の立ち上がり位置に係るフレーム(例えばフレーム#5)の略中央が当該開始位置になるように設定されている場合、当該フレームiの略中央の位置が波形の立ち上がり位置とされる。
一方、発生区間検出部104は、波形の立ち上がり位置を含むフレームを検出した後に最初に極小値をとったスコアS(i)について、当該スコアS(i)に対応するフレーム(i)が波形の立ち下がり位置を含むものと判定する。この場合も、学習データにおいて、波形の立ち上がり位置に係るフレーム(例えばフレーム#5)の略中央が当該立ち上がり位置になるように設定されている場合、当該フレームiの略中央の位置が波形の立ち下がり位置とされる。
発生区間検出部104は、波形の立ち上がり位置および立ち下がり位置が検出されると、検出された波形の立ち上がり位置を不審音発生区間の開始位置とし、立ち下がり位置を当該不審音発生区間の終了位置とする。これにより、不審音発生区間が検出される。
ここで、式(3)に示すスコア算出式の意味について説明する。スコア算出式である式(3)に用いられる信号パワー時系列の傾きyGLP(i)は、上述の式(2)で算出され、式(2)に用いられる信号パワーyLP(i)は、上述の式(1)で算出される。図6は、こうして求めた信号パワーyLP(i)、信号パワー時系列の傾きyGLP(i)およびスコアS(i)を、入力音響データ20の各フレームiについて求めた値の例を示す。
学習データに基づく特徴値の期待値μおよび分散値σ2は、学習データにおける物音(不審音)の波形の立ち上がりを含むフレームおよび当該フレームから所定数のフレーム(上述の例では4フレーム)のそれぞれについて算出された値である。図7は、学習データの各フレームkのそれぞれについて求めた期待値μkおよび分散値σ2 kの例を示す。
図8は、図6に示す信号パワー、信号パワー時系列の傾きおよびスコアを、フレーム番号に対してプロットしたグラフを示す。なお、このグラフは、後述するスコア算出に伴う遅延の補正がなされていない。図8の例では、スコアのプロットは、信号パワーのプロットに対して、3フレーム分遅延している。
学習データにおける物音と、入力音響データ20に含まれる物音との類似性が高い位置、すなわち、物音の立ち上がり位置で、期待値μと入力音響データ20の特徴値との差分に基づくスコアは、最大値を取る(スコアのプロットにおけるフレーム#9の位置)。そこで、式(3)のΣ部分を参照し、所定フレーム数分の総和が最も大きな値を取る点でスコアは極大値を取り、そのフレームを物音の発生区間の開始位置を含むフレームとする。
物音の発生区間の開始位置以降、入力音響データ20の信号パワーは減衰する(信号パワーのプロットにおけるフレーム番号#7〜#10)。それに伴い、入力音響データ20の信号パワー時系列の傾きが負値を取る(信号パワー時系列の傾きのプロットにおけるフレーム#8、#9)。したがって、式(3)における「yGLP(i+k−8)−μk」の二乗の値が大きくなり、この二乗値の4フレーム分の総和に負符号が付されたスコアS(i)は、小さな値となる(スコアのプロットにおけるフレーム#12、#13)。スコアS(i)の値が最も小さくなるとき、スコアS(i)が極小値を取り(スコアのプロットにおけるフレーム#13)、この極小値を取ったフレームを物音の発生区間の終了位置を含むフレームと見做すことができる。
図9および図10は、上述のようにして検出された不審音発生区間の例を示す。図9は、観測音に雑音(環境音)が少ない場合の例であり、図10は、観測音に雑音が多い場合の例である。図9および図10では、それぞれ同一のスコアパラメータ111と不審音発生区間の検出のための閾値とを用いて、不審音発生区間の検出を行っている。
図9および図10それぞれにおいて、上側のグラフは入力音響データ20を示し、下側のグラフは入力音響データ20に対するスコアと、スコアに基づき検出された不審音発生区間とを示す。不審音発生区間は、値がHighレベルで不審音発生区間を示す。なお、図9および図10では、スコアのグラフにおいて、後述するスコア算出に係る遅延が補正されている。
図9において、上側の入力音響データ20のグラフに、時刻「3000」付近で不審音が発生し、この不審音が時間「200」程度で急激に減衰している様子が示されている。一方、下側のグラフにおいて、上述した条件(A)に従い、スコアは、時刻「3000」付近で大きな極大値を取り、時刻「5500」付近でやや大きな極大値を取っている。この例では、時刻「3000」付近のスコアの極大値が閾値を超えており、時刻「5500」付近のスコアの極大値は、閾値を超えていないものとする。さらに、スコアは、上述した条件(B)に従い、閾値を超える時刻「3000」付近の極大値の後、時刻「3300」付近で極小値を取っている。したがって、時刻「3000」付近から時刻「3300」付近が不審音発生区間と判断することができる。
また、図10の観測音に雑音が多い場合についても、図9の観測音に雑音が少ない場合と同様の結果が得られることが分かる。これにより、本実施形態の音検出装置を用いることで、雑音環境下であっても不審音発生区間を容易に検出可能であることが分かる。
ところで、既に述べたように、スコア算出の際には、入力音響データ20の対象となるフレームの前後のフレームを用いる。そのため、図11に示されるように、算出されたスコアに基づき求めた入力音響データ20における不審音による波形の立ち上がり位置および立ち下がり位置は、実際の入力音響データ20における波形の立ち上がり位置および立ち下がり位置に対して遅延を有する。そのため、入力音響データ20から不審音発生区間を切り取るためには、この遅延の補正を行う必要がある。
遅延を補正する遅延補正量は、入力音響データ20のサンプリング周波数、フレーム幅Wおよびフレーム間隔Dに依存する。すなわち、スコア算出にフレーム#1〜フレーム#8の8フレームを用い、学習データにおける波形の立ち上がり位置にフレーム#5を対応させる上述の例では、図12に例示されるように、入力音響データ20について、信号パワーを算出するために1フレーム幅Wの時間を要し、各フレームの信号パワーは、フレーム間隔D毎に算出される。また、信号パワー時系列の傾きの算出には、5フレーム後、すなわち1フレーム幅W+4フレーム間隔Dを要する。さらに、スコアを算出するために、4フレーム分を用いるため、4フレーム間隔Dを要する。したがって、フレームiのスコアを算出するために、1フレーム幅W+7フレーム間隔D=9フレーム間隔Dを要することになる。
より具体的な例として、入力音響データ20のサンプリング周波数が16kHz(キロヘルツ)、1フレーム幅Wのサンプル数が160サンプル、1フレーム間隔Dのサンプル数80サンプルの例では、遅延補正量は、80サンプル×9=720サンプル分となる。この遅延補正量は、時間に換算すると、720サンプル×(1/16000)=0.045sec(45ミリ秒)となる。
発生区間検出部104は、検出された不審音発生区間の開始位置および終了位置の時刻から、この遅延補正量を差し引いた値を、補正済み不審音発生区間の開始位置および終了位置の時刻とする。そして、記憶部13に記憶された入力音響データ20から、この補正済み不審音発生区間のデータを切り取り、出力音響データ21として出力する。
図13は、本実施形態による不審音発生区間の検出処理を示す一例のフローチャートである。このフローチャートによる各処理は、例えば演算部12が含む図示されないCPUにより、例えば記憶部13に予め記憶されるプログラムに従って実行される。プログラムは、例えば、信号パワー算出部101、傾き算出部102、スコア算出部103および発生区間検出部104をそれぞれ実現するモジュールを含み、CPUにより実行されると、図示されない主記憶上にこれら各部のモジュールを展開し、実行する。
これに限らず、演算部12に含まれる信号パワー算出部101、傾き算出部102、スコア算出部103および発生区間検出部104をそれぞれ別個のハードウェアによって構成し、各部が協働してフローチャートにおける各処理を実行してもよい。
図13において、ステップS100で、マイクロフォン10から、集音された観測音に従ったアナログ音声信号が出力される。このアナログ音声信号は、A/D変換部11でディジタル音声信号に変換され、入力音響データ20として信号パワー算出部101に供給される。入力音響データ20は、記憶部110にも供給され、記憶される。
信号パワー算出部101は、入力された入力音響データ20に対してフレームiを設定し、上述した式(1)に従い、設定されたフレームiの信号パワーyLP(i)を算出する(ステップS101)。算出された信号パワーyLP(i)の値は、例えば記憶部110に一時的に保持される。次のステップS102で、傾き算出部102は、既に算出された所定数の信号パワーの値を記憶部110から取り出し、上述した式(2)に従い信号パワー時系列の傾きyGLP(i)を算出する。算出された信号パワー時系列の傾きyGLP(i)は、記憶部110に保持される。
次にステップS103で、スコア算出部103は、既に算出された信号パワー時系列の傾きyGLP(i)の値と、学習データに基づき予め算出されたスコアパラメータ111とを、記憶部110から取り出し、上述した式(3)に従いフレームiのスコアS(i)を算出する。算出されたスコアS(i)は、記憶部110に保持される。次のステップS104で、発生区間検出部104は、既に算出されたスコアの値を記憶部110から取り出し、上述した式(4)に従いスコア時系列の傾きGS(i)を算出する。
次のステップS105で、発生区間検出部104は、上述した条件(A)を参照し、算出されたスコア時系列の傾きGS(i)が極大値であるか否かを判定する。若し、スコアS(i)が極大値であると判定したら、処理をステップS106に移行させ、極大値であるスコアS(i)が予め決められた閾値を超えているか否かを判定する。若し、超えていないと判定したら、処理をステップS100に戻す。
一方、ステップS106で、スコアS(i)が当該閾値を超えていると判定したら、処理はステップS107に移行され、フレームiの略中央に不審音の波形の立ち上がりが検出されたものとする。そして、処理をステップS100に戻す。
上述のステップS105で、スコアS(i)が極大値ではないと判定されたら、処理はステップS108に移行される。ステップS108で、発生区間検出部104は、上述した条件(B)を参照し、当該スコアS(i)が極小値であるか否かを判定する。若し、極小値ではないと判定したら、処理をステップS100に戻す。
一方、ステップS108で、スコアS(i)が極小値であると判定したら、処理をステップS109に移行させる。ステップS109で、発生区間検出部104は、この極小値が、上述のステップS106で極大値が検出されてから初回に検出された極小値であるか否かを判定する。若し、極大値の検出後の初回に検出された極小値ではないと判定したら、処理をステップS100に戻す。
ステップS108で、発生区間検出部104は、スコアS(i)がステップS106で極大値が検出されてから初回に検出された極小値であると判定したら、処理をステップS110に移行させ、フレームiの略中央に不審音の波形の立ち下がりが検出されたものと見做す。このステップS110と、上述したステップS107とで不審音の波形の立ち上がりおよび立ち下がりが検出されたことになる。
次のステップS111で、発生区間検出部104は、入力音響データ20のサンプリング周波数、フレーム幅Wおよびフレーム間隔Dと、学習データについて信号パワー時系列の傾きを算出する際に用いたフレーム数とに基づき算出される遅延補正量を用いて、不審音の波形の立ち上がり位置および立ち下がり位置を補正する。この補正された立ち下がり位置および立ち下がり位置が、不審音発生区間の開始位置および終了位置とされ、不審音発生区間が検出される(ステップS112)。
上述したように、本実施形態によれば、集音された観測音に基づく入力音響データから特徴値の時系列データを抽出し、抽出された特徴値と、予め学習データを用いて算出された特徴値の期待値とを比較してスコアを求め、このスコアの時系列上での変化に基づき不審音発生区間を検出している。そのため、雑音環境下においても、容易に不審音発生区間の検出を行うことができる。
本実施形態では、不審音を検出するための閾値を、入力音響データの特徴値から算出したスコアに対して適用している。このスコアは、雑音環境下の観測音においても略一定の値を取る。そのため、監視エリアの環境に応じて閾値を変更する必要が無い。それと共に、本実施形態では、雑音に影響されにくい性質の値であるスコアを不審音の検出に用いているので、雑音に対して頑健な検出が可能で、雑音環境下や、雑音レベルの変化する環境下においても安定的に不審音発生区間の検出を行うことができる。
ここで、本実施形態による不審音発生区間の検出方法が、雑音環境に対して頑健であることについて説明する。
本実施形態において、式(3)により算出されるスコアは、学習データと、入力音響データ20との類似性が高い場合に大きな値を取る性質がある。一方、雑音(雑音の音響データ)と学習データとでは類似性が低いため、スコアは、略一定の値を取り大きく変化しない。したがって、スコアに対して閾値を設定し、スコアが閾値を超えたか否かを判定することで、従来の、例えば信号パワーに対して閾値を設定する音検出方法と比べて、より確実に物音の発生区間を検出することが可能となる。
すなわち、不審音による音響データが入力された場合、入力された音響データにおける不審音発生区間の波形は、学習データによる波形に対する類似性が高いため、不審音発生区間の先頭でスコアが大きく変化する。本実施形態では、このスコアと閾値とを比較して、スコアが閾値を超えている場合に、不審音発生区間が検出されたものと判定する。
一方、雑音による音響データが入力された場合、雑音による波形は、学習データによる波形に対する類似性が小さいため、スコアの変化が極めて小さい。そのため、スコアが閾値を超える可能性が小さく、誤検出の発生が抑制される。
図14は、学習データが物音(検出対象の不審音)を集音した音響データである場合に、略ランダムな音響データ(雑音による音響データ)が入力された際の、信号パワー、信号パワー時系列の傾きおよびスコアの例を示し、図15は、図14に例示した各項目の値をフレーム番号に対してプロットしたグラフを示す。学習データの期待値μkおよび分散値σ2は、上述した図7に示す値と同一とする。
なお、図15に例示されるグラフは、後述するスコア算出に伴う遅延の補正がなされておらず、スコアのプロットは、信号パワーのプロットに対して、3フレーム分遅延している。
図15に例示されるように、雑音による音響データは、信号パワーが比較的大きく変化する。そのため、従来のように信号パワーに対して閾値200を設定した場合、フレーム番号#3、#16、#18および#19などが誤検出されてしまう。一方、波形が学習データと大きく異なる音響データが入力された場合、スコアは大きく変化しない。そのため、本実施形態によりスコアに対して閾値を設定した場合、スコアが当該閾値を超えてしまう可能性が低く、雑音環境下においても特定の物音の発生区間を正確に検出することができる。
また、本実施形態は、不審音の特徴を抽出することで、不審音発生区間の検出を行っている。そのため、音声のみならず、様々な物音を不審音発生区間の検出対象とすることができる。
さらに、本実施形態を適用することで、不審音の発生区間を精度よく検出することができる。これにより、検出された不審音発生区間の音響データに対する音認識処理における精度の向上が期待できる。また、不審音発生区間の検出を音認識処理に対して事前に行うことにより、システムは、検出された不審音発生区間の音響データのみに対して認識処理を行えばよく、音認識システム全体の計算コストや音響データの通信を行うための通信コストを抑えることができる。
本実施形態の音検出装置を、監視領域内で不審者を検出した場合に警報を出力する警備装置に設けたり、本実施形態の音検出装置からの出力を上記警備装置に入力するように構成することができる。これにより、監視領域内での不審音を容易かつ高精度に検出できるので、警備装置による誤報を防止することが可能となる。
10 マイクロフォン
11 A/D変換部
12 演算部
13 記憶部
20 入力音響データ
21 出力音響データ
100 音検出装置
101 信号パワー算出部
102 傾き算出部
103 スコア算出部
104 発生区間検出部
111 スコアパラメータ

Claims (8)

  1. 学習データにおける物音と、音入力装置から入力された音データに含まれる物音との類似性が高い音を検出する音検出装置であって、
    前記音入力装置から入力された音データの特徴を示す特徴値を時系列に沿って算出する特徴値算出手段と、
    前記学習データから時系列に沿って予め求めた特徴値の頻度に基づき算出した期待値と、前記特徴値算出手段で算出された前記音データの特徴値との差分に基づいて前記音データを評価するスコアを算出するスコア算出手段と、
    前記スコアの極大値の位置と極小値の位置とを検出し、該極大値の位置および極小値の位置に基づき前記音データ中の特定音発生区間を検出する検出手段と
    を備える
    ことを特徴とする音検出装置。
  2. 前記検出手段は、
    前記極大値が閾値を超える場合に該極大値の位置を前記特定音発生区間の開始位置と判定し、
    該開始位置の後に最初に現れる前記極小値の位置を該特定音発生区間の終了位置と判定する
    ことを特徴とする請求項1に記載の音検出装置。
  3. 記期待値は、種類が同じで音が異なる複数の音データを前記学習データとして用いて求めた
    ことを特徴とする請求項1または請求項2に記載の音検出装置。
  4. 記期待値は、学習データの、一部が重複しつつ時系列順に並んだ複数の所定範囲それぞれについて求められ、
    前記特徴値算出手段は、
    前記音データの、一部が重複しつつ時系列順に並んだ所定範囲に対して前記特徴値を算出し、
    前記スコア算出手段は、
    前記音データの複数の所定範囲の特徴値と、前記学習データについて求められた複数の所定範囲の前記期待値とのそれぞれの差分の和に基づき前記スコアを算出する
    ことを特徴とする請求項1乃至請求項3の何れか1項に記載の音検出装置。
  5. 前記スコア算出手段は、
    学習データからさらに予め求めた特徴値の分散値を用いて前記差分を正規化して、前記スコアを算出する
    ことを特徴とする請求項4に記載の音検出装置。
  6. 前記特徴値は、音データの信号パワー時系列の傾きである
    ことを特徴とする請求項1乃至請求項5の何れか1項に記載の音検出装置。
  7. 前記検出手段で検出された前記特定音発生区間に対して、前記スコア算出手段により前記スコアを算出した際に発生した遅延を補正する遅延補正手段をさらに備える
    ことを特徴とする請求項1乃至請求項6の何れか1項に記載の音検出装置。
  8. 学習データにおける物音と、音入力装置から入力された音データに含まれる物音との類似性が高い音を検出する音検出方法であって、
    特徴値算出手段が、前記音入力装置から入力された音データの特徴を示す特徴値を時系列に沿って算出する特徴値算出ステップと、
    スコア算出手段が、前記学習データから時系列に沿って予め求めた特徴値の頻度に基づき算出した期待値と、前記特徴値算出ステップで算出された前記音データの特徴値との差分に基づいて前記音データを評価するスコアを算出するスコア算出ステップと、
    前記スコアの極大値の位置と極小値の位置とを検出し、該極大値の位置および極小値の位置に基づき前記音データ中の特定音発生区間を検出する検出ステップと
    を備える
    ことを特徴とする音検出方法。
JP2010277461A 2010-12-13 2010-12-13 音検出装置および音検出方法 Active JP5652945B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010277461A JP5652945B2 (ja) 2010-12-13 2010-12-13 音検出装置および音検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010277461A JP5652945B2 (ja) 2010-12-13 2010-12-13 音検出装置および音検出方法

Publications (2)

Publication Number Publication Date
JP2012127701A JP2012127701A (ja) 2012-07-05
JP5652945B2 true JP5652945B2 (ja) 2015-01-14

Family

ID=46644928

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010277461A Active JP5652945B2 (ja) 2010-12-13 2010-12-13 音検出装置および音検出方法

Country Status (1)

Country Link
JP (1) JP5652945B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016203753A1 (ja) * 2015-06-16 2016-12-22 日本電気株式会社 雑音検出装置、雑音抑圧装置、雑音検出方法、雑音抑圧方法、および、記録媒体
JP6527768B2 (ja) * 2015-07-07 2019-06-05 株式会社アニモ 情報処理方法及び装置
KR102374144B1 (ko) * 2020-03-27 2022-03-15 아이브스 주식회사 인공지능 기반의 이상음원 인식 장치, 그 방법 및 이를 이용한 관제시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09297892A (ja) * 1996-03-08 1997-11-18 Denso Corp ガラス割れ検出装置
JP2001314534A (ja) * 2000-05-02 2001-11-13 Kagawa Prefecture ゴルフクラブの評価試験方法
JP4359463B2 (ja) * 2003-07-23 2009-11-04 セコム株式会社 ガラス破損検出装置
JP5105943B2 (ja) * 2007-04-13 2012-12-26 日本放送協会 発話評価装置及び発話評価プログラム

Also Published As

Publication number Publication date
JP2012127701A (ja) 2012-07-05

Similar Documents

Publication Publication Date Title
US9536523B2 (en) Method and system for identification of speech segments
US20130331723A1 (en) Respiration monitoring method and system
JP5494813B2 (ja) 呼吸検出装置および呼吸検出方法
EP2465437A2 (en) Respiratory signal processing apparatus, respiratory signal processing method, and program
US20160196175A1 (en) Information processing system, information processing method, and program
US8050910B2 (en) Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency
JP6922708B2 (ja) 異常検出用コンピュータプログラム、異常検出装置及び異常検出方法
JP5652945B2 (ja) 音検出装置および音検出方法
JP2010122912A (ja) 異常判定装置、方法、及びプログラム
US20220276400A1 (en) Seismic observation device, seismic observation method, and recording medium on which seismic observation program is recorded
Duan et al. Acoustic component detection for automatic species recognition in environmental monitoring
JP6148150B2 (ja) 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法
JP6056527B2 (ja) 侵入物体検知装置
JP5599064B2 (ja) 音認識装置および音認識方法
KR101768714B1 (ko) 트리거된 관측소의 아웃라이어 제거를 통하여 정확도가 향상된 진앙위치 결정방법
WO2013190551A1 (en) Method of classifying glass break sounds in an audio signal
US20160120479A1 (en) Respiration Monitoring Method and Device with Context-Aware Event Classification
CN107548007B (zh) 一种音频信号采集设备的检测方法及装置
JP2012024527A (ja) 腹式呼吸習熟度判定装置
JP2016120061A (ja) 眠気推定装置及び眠気推定プログラム
JP2007064672A (ja) 樹幹の空洞状況推定方法及びその装置並びにプログラム
JP7000963B2 (ja) ソーナー装置、音響信号判別法、及びプログラム
CN105258791A (zh) 应用于atm机的被砸检测方法及系统
JP2021071332A (ja) 地震動の到達判定方法、地震動の到達判定システム
KR102179511B1 (ko) 연하 진단 장치 및 프로그램

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20131017

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141028

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141117

R150 Certificate of patent or registration of utility model

Ref document number: 5652945

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250