JP5652945B2

JP5652945B2 - 音検出装置および音検出方法

Info

Publication number: JP5652945B2
Application number: JP2010277461A
Authority: JP
Inventors: 晃佐宗; 康貴田中; 田中　伸一; 伸一田中; 益巳谷本
Original assignee: SOHGO SECURITY SERVICES CO.,LTD.; National Institute of Advanced Industrial Science and Technology AIST
Current assignee: SOHGO SECURITY SERVICES CO.,LTD.; National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2010-12-13
Filing date: 2010-12-13
Publication date: 2015-01-14
Anticipated expiration: 2030-12-13
Also published as: JP2012127701A

Description

本発明は、特定の種類の音を検出する音検出装置および音検出方法に関する。

従来から、警備において、特定の音に注目して異常事態の発生を検出することが行われている。例えば、監視エリア内でガラスの破壊音などの異常音を検知した際には、異常事態が発生したと判断することができる。また、異常音とは断定されないが、不審な物音などを検知した場合には、異常事態の発生か否かを判断する必要がある。このような特定の音を自動的に検知するためには、監視エリア内で観測される全ての観測音から、異常音や不審音そのもの、または、異常音や不審音の発生区間を検出する必要がある。以下では、特に記載のない限り、異常音および不審音を纏めて不審音と呼ぶ。

環境音などを含む音から特定音を検出する技術は、従来から提案されている。例えば、特許文献１には、音の信号パワーを用いて音声の発生区間を検出する技術が開示されている。特許文献１では、信号パワーに対して適切に閾値を設定することで、所定の音の発生区間を検出している。また例えば、特許文献２には、音信号のゼロクロス数を用いて特定の音の区間を検出する方法が開示されている。

さらに例えば、特に音声に対して用いられる手法として、音を複数の周波数帯域に分割し、各帯域で求めた信号パワーに閾値を設定することで、所定の音の発生区間を検出する方法が知られている。この方法は、人間の声などの、特徴的な周波数帯域が予め分かっている音を抽出する場合に好適である。

さらにまた、不審音の検出において、発生区間の検出を行わず、一定時間に採取される全ての音に対して音声認識処理を行う方法も考えられる。この方法では、例えば、採取された音信号に対する音声認識処理の開始および終了点を、ユーザが指定する。処理装置は、転送された音信号の、ユーザが指定した開始および終了点の間に対して音声認識処理を行い、ユーザは、音声認識処理の結果を用いて不審音の検出を行う。

特許第２５２１４２５号公報特許第２９４４０９８号公報

ところで、上述の特許文献１の技術を不審音の検出に用いた場合、集音された環境騒音および音声の信号に対して雑音（例えば工事の騒音など）が重畳されると、不審音の信号パワーに対して雑音の信号パワーが重畳されることになる。この場合には、不審音の検出漏れを起こしたり、不審音の発生区間を正しく検出できないおそれがあるという問題点があった。また、上述の特許文献２の技術に関しては、ゼロクロス数は雑音に影響され易く、環境音に対して雑音が重畳された場合、不審音の特徴を適切に捉えることが困難になるという問題点があった。

さらに、音を複数の周波数帯域に分割する方法では、検出対象とする音の信号パワーが特定の周波数帯域に集中していれば、雑音環境下での所定音の発生区間の検出に有効である。しかしながら、不審音は、実質的には物音であって、音の信号パワーが特定の周波数帯域に集中しているとは限らず、不審音の区間の検出には、必ずしも有効ではないという問題点があった。

さらにまた、一定時間に採取される全ての音に対して音声認識処理を行う方法では、音声認識処理そのものによって異常音や不審音が検出できる訳ではないという問題点があった。例えば、この方法では、音声認識処理の結果で得られたパラメータの変化などをユーザが観察して、不審音といった特定の物音の検出を行う。

また、この方法を監視装置に適用する場合、例えば８時間〜１０時間という長時間に亘り、監視中の全ての観測音に対して音声認識処理を施す必要があり、音声認識処理に対する計算コストの面から考えて、現実的ではないという問題点があった。

これに対し、複数の監視対象に対して１台の処理装置（サーバ）を設置することにより計算コストを抑えることも考えられる。しかしながら、この場合においても、複数の監視ポイントで採取された観測音のデータそれぞれを、常時、サーバに転送し続ける必要があり、通信コストの面から現実的ではないという問題点があった。

本発明は、上記に鑑みてなされたものであって、雑音環境下においても、容易且つ高精度に特定音を検出することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、学習データにおける物音と、音入力装置から入力された音データに含まれる物音との類似性が高い音を検出する音検出装置であって、音入力装置から入力された音データの特徴を示す特徴値を時系列に沿って算出する特徴値算出手段と、学習データから時系列に沿って予め求めた特徴値の頻度に基づき算出した期待値と、特徴値算出手段で算出された音データの特徴値との差分に基づいて音データを評価するスコアを算出するスコア算出手段と、スコアの極大値の位置と極小値の位置とを検出し、極大値の位置および極小値の位置に基づき音データ中の特定音発生区間を検出する検出手段とを備えることを特徴とする。

また、本発明は、学習データにおける物音と、音入力装置から入力された音データに含まれる物音との類似性が高い音を検出する音検出方法であって、特徴値算出手段が、音入力装置から入力された音データの特徴を示す特徴値を時系列に沿って算出する特徴値算出ステップと、スコア算出手段が、学習データから時系列に沿って予め求めた特徴値の頻度に基づき算出した期待値と、特徴値算出ステップで算出された音データの特徴値との差分に基づいて音データを評価するスコアを算出するスコア算出ステップと、スコアの極大値の位置と極小値の位置とを検出し、極大値の位置および極小値の位置に基づき音データ中の特定音発生区間を検出する検出ステップとを備えることを特徴とする。

本発明によれば、雑音環境下においても、容易且つ高精度に特定音を検出することができるという効果を奏する。

図１は、本発明の実施形態に適用可能な音検出装置の一例の構成を概略的に示すブロック図である。図２は、音検出装置の機能をより詳細に説明するための一例の機能ブロック図である。図３は、スコアパラメータの算出方法についてより詳細に説明するための略線図である。図４は、学習データとしてガラス打撃音の音響データを用いた場合の、各フレームに関する信号パワー時系列の傾きの分布の例を示すヒストグラムである。図５は、各フレームに関する信号パワー時系列の傾きの分布に基づき算出した、各フレームの期待値μおよび分散値σ²の例を示す略線図である。図６は、信号パワーｙ_LP(ｉ)、信号パワー時系列の傾きｙ_GLP(ｉ)およびスコアＳ(ｉ)を、入力音響データの各フレームｉについて求めた値の例を示す略線図である。図７は、学習データの各フレームｋのそれぞれについて求めた期待値μ_kおよび分散値σ² _kの例を示す略線図である。図８は、信号パワー、信号パワー時系列の傾きおよびスコアを、フレーム番号に対してプロットしたグラフである。図９は、観測音に雑音が少ない場合の不審音発生区間の例を示す略線図である。図１０は、観測音に雑音が多い場合の不審音発生区間の例を示す略線図である。図１１は、算出されたスコアの遅延を説明するための略線図である。図１２は、スコアの遅延の補正について説明するための略線図である。図１３は、本実施形態による不審音発生区間の検出処理を示す一例のフローチャートである。図１４は、物音による学習データに対し、略ランダムな音響データが入力された場合の、信号パワー、信号パワー時系列の傾きおよびスコアの例を示す略線図である。図１５は、物音による学習データに対し、略ランダムな音響データが入力された場合の、信号パワー、信号パワー時系列の傾きおよびスコアを、フレーム番号に対してプロットしたグラフである。

以下に添付図面を参照して、本発明に係る音検出装置の一実施形態を詳細に説明する。本発明の実施形態では、監視エリア内の音を観測し、観測された観測音の音響信号から不審音や異常音と見做される特定音の発生区間を検出する。そして、観測音の音響信号から、検出された特定音発生区間の音響信号を切り取って出力する。

検出対象となる特定音は、人が発する音声とは異なる所謂物音であり、観測音に含まれる環境音と似ている。そのため、本実施形態では、概略的には、検出対象となる特定音と同種類の音の音響データによる学習データについて、予め特徴値の期待値を求め、求めた期待値と、観測音の時系列上の特徴値との差分を用いて算出したスコアに基づき特定音の発生区間を検出する。

ここで、観測音、環境音、不審音および異常音について定義する。観測音とは、監視エリア内で集音される全ての物音をいう。異常音は、侵入行動などが原因で発生した、警報出力すべき物音をいう。異常音の代表的な例としては、ガラスなどが破壊された際に発生する破壊音が挙げられる。不審音は、異常音と断定はされないが、監視エリア内で集音された怪しい物音をいう。不審音の例としては、打撃音などが考えられる。環境音は、観測音に含まれる、不審音および異常音以外の音をいう。環境音の例としては、風など自然現象に起因する音や、自動車、電車の音などが考えられる。

図１は、本発明の実施形態に適用可能な音検出装置の一例の構成を概略的に示す。図１において、音検出装置１００は、Ａ／Ｄ変換部１１、演算部１２および記憶部１３を含む。例えば監視エリアにおいてマイクロフォン１０で集音された観測音は、Ａ／Ｄ変換部１１でディジタルデータに変換され、入力音響データ２０として演算部１２に供給される。

演算部１２は、例えばＣＰＵ(Central Processing Unit)、マイクロプロセッサ、あるいは、ＤＳＰ(Digital Signal Processor)などを含む。また、記憶部１３は、例えば半導体メモリやＨＤＤ（ハードディスクドライブ）などからなり、入力音響データ２０が記憶されると共に、学習データに基づき作成された、入力音響データ２０を評価するスコアを算出するためのスコアパラメータが予め記憶されている。学習データは、検出したい不審音や異常音と同種類であって、異なる複数の音の音響データを用いる。記憶部１３は、また、演算部１２の作業領域としても用いることができる。

演算部１２は、入力音響データ２０の特徴値を時系列上で算出し、算出された時系列上での特徴値を、記憶部１３に記憶されるスコアパラメータを用いて評価して、検出対象の不審音や異常音の発生区間を検出する。演算部１２は、入力音響データ２０から検出対象の不審音や異常音の発生区間を検出した場合、検出された不審音や異常音の発生区間を当該入力音響データ２０から切り取り、不審音発生区間の出力音響データ２１として出力する。出力音響データ２１は、例えば通信ネットワークを介して、監視サーバなどに送信される。

本実施形態では、音響データの特徴値として、音響データの信号パワーの時系列での傾きを用いる。なお、これはこの例に限定されず、特徴値は、音響データの特徴を示す値であれば、他の値を用いてもよい。例えば、音響データ信号パワーそのものや、所定区間におけるゼロクロス数などを特徴値として用いてもよい。

図２は、音検出装置１００の機能をより詳細に説明するための一例の機能ブロック図である。なお、図２において、上述の図１と共通する部分には同一の符号を付して、詳細な説明を省略する。また、本実施形態では、上述した不審音および異常音を共に検出対象としている。そのため、以下では、特に記載の無い限り、不審音と異常音とを纏めて不審音として記述する。

図２において、信号パワー算出部１０１、傾き算出部１０２、スコア算出部１０３および発生区間検出部１０４は、演算部１２に含まれる。スコアパラメータ１１１は、学習データに基づき予め作成されて記憶部１３に記憶される。また、記憶部１１０は、例えば上述の記憶部１３内の領域であって、観測音がＡ／Ｄ変換部１１でディジタルデータに変換された入力音響データ２０が一時的に記憶されると共に、後述するスコアや遅延時間補正量など、不審音発生区間を検出するために用いるデータが記憶される。

信号パワー算出部１０１は、Ａ／Ｄ変換部１１から供給された入力音響データ２０の信号パワーを、時系列上で算出する。より具体的には、信号パワー算出部１０１は、入力音響データ２０の時系列上で連続する所定数のサンプルを単位として、信号パワーを算出する。ここで、信号パワーを算出する単位をフレームと呼び、フレームに含まれるサンプル数がフレーム幅となる。

入力音響データ２０のｉ番目のフレームの信号パワーｙ_LP(ｉ)は、フレーム幅をＷ、フレーム内のｎ番目の波形データ（サンプル値）を値ｘ(ｎ)として、例えば次式（１）により算出される。

なお、信号パワーｙ_LP(ｉ)を算出するフレームは、直前のフレームと一部のサンプルが重複するように、フレームの先頭を基準とした所定サンプル数のフレーム間隔Ｄ毎に、用いるサンプルをずらして設定する。一例として、フレーム幅Ｗ＝１６０サンプルであって、ｍ番目のフレームｍが第１サンプル〜第１６０サンプルで構成されるものとして、ｍ＋１番目のフレーム（ｍ＋１）は、第８１サンプル〜第２４０サンプルで構成され、ｍ＋２番目のフレーム（ｍ＋２）は、第１６１サンプル〜第３２０サンプルで構成される。この場合、フレーム間隔Ｄ＝８０サンプルとなる。なお、この例では、フレームの重複部分の長さをフレーム幅Ｗ／２としたが、これはこの例に限定されない。

傾き検出部１０２は、信号パワー算出部１０１で算出されたフレーム毎の信号パワーｙ_LP(ｉ)の、時系列上での傾き（信号パワー時系列の傾きと呼ぶ）ｙ_GLP(ｉ)を算出する。フレームｉの信号パワー時系列の傾きｙ_GLP(ｉ)は、例えばフレームｉと、既に信号パワーを算出済みのフレーム（ｉ−４）、フレーム（ｉ−３）およびフレーム（ｉ−１）の、対象フレームｉに対して４フレーム分遡ったフレーム（ｉ−４）のうち、４フレーム分の信号パワーを用いて、次式（２）により算出できる。

なお、式（２）では、対象フレームｉに対して４フレーム前から４フレーム分の信号パワーを用いて傾きｙ_GLP(ｉ)を算出しているが、これはこの例に限定されない。すなわち、対象フレームｉから何フレーム分遡ったフレームからデータを用いるかは、信号パワー時系列の傾きｙ_GLP(ｉ)を求める式の構成に応じて決められる。また、各定数の値も、この例に用いた値に限定されない。

スコア算出部１０３は、傾き算出部１０２で入力音響データ２０について算出された信号パワー時系列の傾きｙ_GLP(ｉ)と、学習データを用いて予め作成され例えば記憶部１３に記憶されたスコアパラメータ１１１とに基づき、入力音響データ２０を評価するためのスコアを算出する。スコアパラメータ１１１は、予め用意された学習データに基づき作成された、検出対象となる不審音に対する期待値を含む。そして、算出されたスコアの時系列的な変化に基づき不審音発生区間の検出を行う。

スコアパラメータ１１１は、下記のようにして作成する。先ず、検出対象となる不審音と種類が同じであって、互いに音が異なる複数の音響データをそれぞれ学習データとして用意する。例えば、検出対象となる不審音がガラスの破壊音である場合、異なるサイズ、厚み、材質など様々な条件でガラスを破壊した際の破壊音を集音した各音響データを、それぞれ学習データとして用いる。

この学習データのそれぞれについて、上述したようにして、フレーム毎に信号パワーを求め、求めた信号パワーを用いて信号パワー時系列の傾きを算出する。そして、複数の学習データの、互いに対応するフレームｋの信号パワー時系列の傾きの期待値μ_kおよび分散値σ² _kを算出する。算出された期待値μ_kおよび分散値σ² _kを、フレームｋのスコアパラメータ１１１として、記憶部１３に記憶する。

図３を用いて、スコアパラメータ１１１の算出方法についてより詳細に説明する。先ず、学習データに対してフレームを設定する。フレーム幅Ｗおよびフレーム間隔Ｄは、上述の信号パワー算出部１０１で入力音響データ２０に対して設定したフレームと同一とする。なお、信号パワー時系列の傾きの算出は、上述した式（２）に従い、対象フレームｉから４フレーム分遡ったフレームからの信号パワー値を用いて行うものとする。

なお、以下では、不審音発生区間の開始位置を含むフレームから、当該フレームの信号パワー時系列の傾きを算出するために必要なフレーム分を遡ったときの先頭のフレームを、１番目のフレーム（フレーム＃１）とする。

学習データの波形の立ち上がり時刻、すなわち不審音発生区間の開始位置に係るフレーム（図３の例ではフレーム＃５）を設定する。そして、このフレーム＃５から学習データの波形の減衰方向（不審音発生区間の終了位置方向）に向けて、フレーム間隔Ｄで順次フレームを設定する（フレーム＃６〜＃８）。また、不審音発生区間の開始位置に係るフレームについて信号パワー時系列の傾きを算出する場合、この例では当該フレームに対して４フレーム分遡った位置からフレームが必要となるので、これらのフレームも設定する。図３の例では、フレーム＃５から時系列を遡った方向に、フレーム＃４〜＃１が設定される。なお、不審音発生区間の開始位置に係るフレーム（フレーム＃５）は、フレームの略中央が当該開始位置になるように設定すると好ましい。

音が異なる複数の学習データのそれぞれに対して、同様にして、波形の立ち上がり時刻を基準として各フレームが設定される。

なお、この例では、信号パワー時系列の傾きを算出するために用いるフレーム数を４フレームとし、学習データからスコアパラメータ１１１を算出するために用いる総フレーム数を８フレームとしているが、これはこの例に限定されず、例えばさらに多くのフレームを用いてもよい。また、学習データの波形の立ち上がり時刻に対して中央を揃えるフレームを、５番目のフレームとしているが、これはこの例に限定されず、スコアパラメータ１１１を算出するために用いる総フレーム数に合わせて別のフレームを用いてもよい。さらに、学習データにおいては、波形の立ち上がり時刻より前のデータが存在しない場合が考えられる。この場合には、値「０」のデータ（無音データ）が存在するものと見做してフレームの設定を行う。

次に、上述のようにして各学習データに対して設定されたフレーム毎に信号パワーを算出し、各学習データについて、信号パワー時系列の傾きを算出する。そして、各学習データの対応するフレームｋにおける信号パワー時系列の傾きの期待値μ_kおよび分散値σ² _kを算出する。

一例として、波形の立ち上がり部分を含むフレーム＃５を基点とし、フレーム＃５〜フレーム＃８のそれぞれについて、各学習データに基づき信号パワー時系列の傾きに関するヒストグラムを作成する。図４は、学習データとしてガラス打撃音の音響データを用いた場合の、フレーム＃５〜フレーム＃８それぞれに関する、信号パワー時系列の傾きの分布（ヒストグラム）の例を示す。図４（ａ）はフレーム＃５の例、図４（ｂ）はフレーム＃６の例、図４（ｃ）はフレーム＃７の例、図４（ｄ）はフレーム＃８の例である。図４（ａ）、図４（ｂ）、図４（ｃ）および図４（ｄ）において、横軸が信号パワー時系列の傾きの階級、縦軸が頻度を示す。

これら図４（ａ）〜図４（ｄ）のヒストグラムに基づき、フレーム＃５〜フレーム＃８それぞれについて、期待値μおよび分散値σ²を求めることができる。なお、期待値μ_kおよび分散値σ² _kの算出は、周知の方法を用いることができるので、ここでの説明を省略する。図５は、図４（ａ）〜図４（ｄ）のヒストグラムに基づき算出した、フレーム＃５〜フレーム＃８それぞれの期待値μおよび分散値σ²の例を示す。各フレームｋに対して、それぞれ期待値μ_kおよび分散値σ² _kが算出される。算出されたこれら各フレームｋの期待値μ_kおよび分散値σ² _kは、スコアパラメータ１１１として記憶部１３に記憶される。

スコア算出部１０３は、こうして算出し記憶部１３にスコアパラメータ１１１として記憶された各フレームｋの期待値μ_kおよび分散値σ² _kを用いて、次式（３）に例示される、入力音響データ２０のフレームｉにおけるスコアＳ(ｉ)を算出するスコア算出式を得る。このスコア算出式で算出されたスコアＳ(ｉ)により、入力音響データ２０におけるフレームｉを評価することができる。

なお、式（３）において、傾きｙ_GLP(ｉ＋ｋ−８)に含まれる値「８」および総和の終了を示す値「８」は、学習データからスコアパラメータ１１１を算出するために用いた総フレーム数である。また、総和の開始を示す値「５」は、不審音発生区間の開始位置を含むフレーム番号の、学習データからスコアパラメータ１１１を算出するために用いる先頭のフレームから数えたフレーム番号である。これらの値は、信号パワー時系列の傾きｙ_GLP(ｉ)を求める式の構成などに応じて決められる。さらに、式（３）において、スコアの最大値を「０」にするために、右辺の全体に負符号が付されている。

すなわち、式（３）は、入力音響データ２０におけるスコア算出の対象となるフレームｉの信号パワー時系列の傾きと期待値との差分の二乗を、学習データにおいて不審音発生区間の開始位置から４フレーム分順次フレームをずらして求めた総和に基づき、フレームｉのスコアを算出している。分散値は、分子の値を正規化する。なお、式（３）では、信号パワー時系列の傾きと期待値との差分の二乗を用いているが、これはこの例に限定されず、例えば差分の絶対値を用いてもよい。

スコア算出部１０３は、傾き算出部１０２で入力音響データ２０の各フレームｉについて算出された、信号パワー時系列の傾きｙ_GLP(ｉ)を式（３）に順次適用して、各フレームｉのスコアＳ(ｉ)を算出する。

発生区間検出部１０４は、スコア算出部１０３で算出された入力音響データ２０のフレームｉのスコアＳ(ｉ)から、フレームｉのスコア時系列の傾きＧＳ(ｉ)を算出する。この例では、スコア時系列の傾きＧＳ(ｉ)は、上述した信号パワー時系列の傾きの算出と同様に、対象となるフレームｉに対して４フレーム分遡ったフレーム（ｉ−４）から４個のスコアＳ（ｉ−４）、スコアＳ（ｉ−３）、スコアＳ（ｉ−１）およびスコアＳ(ｉ)を用いて、例えば次式（４）を用いて算出される。

なお、ここでは、スコア時系列の傾きＧＳ(ｉ)を算出するために、４個のスコアを用いたが、これはこの例に限定されない。また、スコア時系列の傾きは、スコア算出部１０３で算出してもよい。

発生区間検出部１０４は、算出されたスコア時系列の傾きＧＳ(ｉ)に基づき、スコアＳ(ｉ)が極大値または極小値であるか否かを判定する。すなわち、スコア時系列の傾きＧＳ(ｉ)が下記の条件（Ａ）を満たすとき、スコアＳ(ｉ)は極大値を取る。
ＧＳ(ｉ−１)＞０且つＧＳ(ｉ)≦０ …（Ａ）

同様に、スコア時系列の傾きＧＳ(ｉ)が下記の条件（Ｂ）を満たすとき、スコアＳ(ｉ)は極小値を取る。
ＧＳ(ｉ−１)＜０且つＧＳ(ｉ)≧０ …（Ｂ）

発生区間検出部１０４は、スコアＳ(ｉ)が極大値であった場合、当該スコアＳ(ｉ)が閾値を超えているか否かを判定し、超えていれば、当該スコアＳ(ｉ)に対応するフレームｉが波形の立ち上がり位置を含むものと判定する。閾値は、予め実験的手法などにより求めて、記憶部１３に記憶しておく。ここで、学習データにおいて、波形の立ち上がり位置に係るフレーム（例えばフレーム＃５）の略中央が当該開始位置になるように設定されている場合、当該フレームｉの略中央の位置が波形の立ち上がり位置とされる。

一方、発生区間検出部１０４は、波形の立ち上がり位置を含むフレームを検出した後に最初に極小値をとったスコアＳ(ｉ)について、当該スコアＳ(ｉ)に対応するフレーム(ｉ)が波形の立ち下がり位置を含むものと判定する。この場合も、学習データにおいて、波形の立ち上がり位置に係るフレーム（例えばフレーム＃５）の略中央が当該立ち上がり位置になるように設定されている場合、当該フレームｉの略中央の位置が波形の立ち下がり位置とされる。

発生区間検出部１０４は、波形の立ち上がり位置および立ち下がり位置が検出されると、検出された波形の立ち上がり位置を不審音発生区間の開始位置とし、立ち下がり位置を当該不審音発生区間の終了位置とする。これにより、不審音発生区間が検出される。

ここで、式（３）に示すスコア算出式の意味について説明する。スコア算出式である式（３）に用いられる信号パワー時系列の傾きｙ_GLP(ｉ)は、上述の式（２）で算出され、式（２）に用いられる信号パワーｙ_LP(ｉ)は、上述の式（１）で算出される。図６は、こうして求めた信号パワーｙ_LP(ｉ)、信号パワー時系列の傾きｙ_GLP(ｉ)およびスコアＳ(ｉ)を、入力音響データ２０の各フレームｉについて求めた値の例を示す。

学習データに基づく特徴値の期待値μおよび分散値σ²は、学習データにおける物音（不審音）の波形の立ち上がりを含むフレームおよび当該フレームから所定数のフレーム（上述の例では４フレーム）のそれぞれについて算出された値である。図７は、学習データの各フレームｋのそれぞれについて求めた期待値μ_kおよび分散値σ² _kの例を示す。

図８は、図６に示す信号パワー、信号パワー時系列の傾きおよびスコアを、フレーム番号に対してプロットしたグラフを示す。なお、このグラフは、後述するスコア算出に伴う遅延の補正がなされていない。図８の例では、スコアのプロットは、信号パワーのプロットに対して、３フレーム分遅延している。

学習データにおける物音と、入力音響データ２０に含まれる物音との類似性が高い位置、すなわち、物音の立ち上がり位置で、期待値μと入力音響データ２０の特徴値との差分に基づくスコアは、最大値を取る（スコアのプロットにおけるフレーム＃９の位置）。そこで、式（３）のΣ部分を参照し、所定フレーム数分の総和が最も大きな値を取る点でスコアは極大値を取り、そのフレームを物音の発生区間の開始位置を含むフレームとする。

物音の発生区間の開始位置以降、入力音響データ２０の信号パワーは減衰する（信号パワーのプロットにおけるフレーム番号＃７〜＃１０）。それに伴い、入力音響データ２０の信号パワー時系列の傾きが負値を取る（信号パワー時系列の傾きのプロットにおけるフレーム＃８、＃９）。したがって、式（３）における「ｙ_GLP(ｉ＋ｋ−８)−μ_k」の二乗の値が大きくなり、この二乗値の４フレーム分の総和に負符号が付されたスコアＳ(ｉ)は、小さな値となる（スコアのプロットにおけるフレーム＃１２、＃１３）。スコアＳ(ｉ)の値が最も小さくなるとき、スコアＳ(ｉ)が極小値を取り（スコアのプロットにおけるフレーム＃１３）、この極小値を取ったフレームを物音の発生区間の終了位置を含むフレームと見做すことができる。

図９および図１０は、上述のようにして検出された不審音発生区間の例を示す。図９は、観測音に雑音（環境音）が少ない場合の例であり、図１０は、観測音に雑音が多い場合の例である。図９および図１０では、それぞれ同一のスコアパラメータ１１１と不審音発生区間の検出のための閾値とを用いて、不審音発生区間の検出を行っている。

図９および図１０それぞれにおいて、上側のグラフは入力音響データ２０を示し、下側のグラフは入力音響データ２０に対するスコアと、スコアに基づき検出された不審音発生区間とを示す。不審音発生区間は、値がＨｉｇｈレベルで不審音発生区間を示す。なお、図９および図１０では、スコアのグラフにおいて、後述するスコア算出に係る遅延が補正されている。

図９において、上側の入力音響データ２０のグラフに、時刻「３０００」付近で不審音が発生し、この不審音が時間「２００」程度で急激に減衰している様子が示されている。一方、下側のグラフにおいて、上述した条件（Ａ）に従い、スコアは、時刻「３０００」付近で大きな極大値を取り、時刻「５５００」付近でやや大きな極大値を取っている。この例では、時刻「３０００」付近のスコアの極大値が閾値を超えており、時刻「５５００」付近のスコアの極大値は、閾値を超えていないものとする。さらに、スコアは、上述した条件（Ｂ）に従い、閾値を超える時刻「３０００」付近の極大値の後、時刻「３３００」付近で極小値を取っている。したがって、時刻「３０００」付近から時刻「３３００」付近が不審音発生区間と判断することができる。

また、図１０の観測音に雑音が多い場合についても、図９の観測音に雑音が少ない場合と同様の結果が得られることが分かる。これにより、本実施形態の音検出装置を用いることで、雑音環境下であっても不審音発生区間を容易に検出可能であることが分かる。

ところで、既に述べたように、スコア算出の際には、入力音響データ２０の対象となるフレームの前後のフレームを用いる。そのため、図１１に示されるように、算出されたスコアに基づき求めた入力音響データ２０における不審音による波形の立ち上がり位置および立ち下がり位置は、実際の入力音響データ２０における波形の立ち上がり位置および立ち下がり位置に対して遅延を有する。そのため、入力音響データ２０から不審音発生区間を切り取るためには、この遅延の補正を行う必要がある。

遅延を補正する遅延補正量は、入力音響データ２０のサンプリング周波数、フレーム幅Ｗおよびフレーム間隔Ｄに依存する。すなわち、スコア算出にフレーム＃１〜フレーム＃８の８フレームを用い、学習データにおける波形の立ち上がり位置にフレーム＃５を対応させる上述の例では、図１２に例示されるように、入力音響データ２０について、信号パワーを算出するために１フレーム幅Ｗの時間を要し、各フレームの信号パワーは、フレーム間隔Ｄ毎に算出される。また、信号パワー時系列の傾きの算出には、５フレーム後、すなわち１フレーム幅Ｗ＋４フレーム間隔Ｄを要する。さらに、スコアを算出するために、４フレーム分を用いるため、４フレーム間隔Ｄを要する。したがって、フレームｉのスコアを算出するために、１フレーム幅Ｗ＋７フレーム間隔Ｄ＝９フレーム間隔Ｄを要することになる。

より具体的な例として、入力音響データ２０のサンプリング周波数が１６ｋＨｚ（キロヘルツ）、１フレーム幅Ｗのサンプル数が１６０サンプル、１フレーム間隔Ｄのサンプル数８０サンプルの例では、遅延補正量は、８０サンプル×９＝７２０サンプル分となる。この遅延補正量は、時間に換算すると、７２０サンプル×(１／１６０００)＝０．０４５ｓｅｃ（４５ミリ秒）となる。

発生区間検出部１０４は、検出された不審音発生区間の開始位置および終了位置の時刻から、この遅延補正量を差し引いた値を、補正済み不審音発生区間の開始位置および終了位置の時刻とする。そして、記憶部１３に記憶された入力音響データ２０から、この補正済み不審音発生区間のデータを切り取り、出力音響データ２１として出力する。

図１３は、本実施形態による不審音発生区間の検出処理を示す一例のフローチャートである。このフローチャートによる各処理は、例えば演算部１２が含む図示されないＣＰＵにより、例えば記憶部１３に予め記憶されるプログラムに従って実行される。プログラムは、例えば、信号パワー算出部１０１、傾き算出部１０２、スコア算出部１０３および発生区間検出部１０４をそれぞれ実現するモジュールを含み、ＣＰＵにより実行されると、図示されない主記憶上にこれら各部のモジュールを展開し、実行する。

これに限らず、演算部１２に含まれる信号パワー算出部１０１、傾き算出部１０２、スコア算出部１０３および発生区間検出部１０４をそれぞれ別個のハードウェアによって構成し、各部が協働してフローチャートにおける各処理を実行してもよい。

図１３において、ステップＳ１００で、マイクロフォン１０から、集音された観測音に従ったアナログ音声信号が出力される。このアナログ音声信号は、Ａ／Ｄ変換部１１でディジタル音声信号に変換され、入力音響データ２０として信号パワー算出部１０１に供給される。入力音響データ２０は、記憶部１１０にも供給され、記憶される。

信号パワー算出部１０１は、入力された入力音響データ２０に対してフレームｉを設定し、上述した式（１）に従い、設定されたフレームｉの信号パワーｙ_LP(ｉ)を算出する（ステップＳ１０１）。算出された信号パワーｙ_LP(ｉ)の値は、例えば記憶部１１０に一時的に保持される。次のステップＳ１０２で、傾き算出部１０２は、既に算出された所定数の信号パワーの値を記憶部１１０から取り出し、上述した式（２）に従い信号パワー時系列の傾きｙ_GLP(ｉ)を算出する。算出された信号パワー時系列の傾きｙ_GLP(ｉ)は、記憶部１１０に保持される。

次にステップＳ１０３で、スコア算出部１０３は、既に算出された信号パワー時系列の傾きｙ_GLP(ｉ)の値と、学習データに基づき予め算出されたスコアパラメータ１１１とを、記憶部１１０から取り出し、上述した式（３）に従いフレームｉのスコアＳ(ｉ)を算出する。算出されたスコアＳ(ｉ)は、記憶部１１０に保持される。次のステップＳ１０４で、発生区間検出部１０４は、既に算出されたスコアの値を記憶部１１０から取り出し、上述した式（４）に従いスコア時系列の傾きＧＳ(ｉ)を算出する。

次のステップＳ１０５で、発生区間検出部１０４は、上述した条件（Ａ）を参照し、算出されたスコア時系列の傾きＧＳ(ｉ)が極大値であるか否かを判定する。若し、スコアＳ(ｉ)が極大値であると判定したら、処理をステップＳ１０６に移行させ、極大値であるスコアＳ(ｉ)が予め決められた閾値を超えているか否かを判定する。若し、超えていないと判定したら、処理をステップＳ１００に戻す。

一方、ステップＳ１０６で、スコアＳ(ｉ)が当該閾値を超えていると判定したら、処理はステップＳ１０７に移行され、フレームｉの略中央に不審音の波形の立ち上がりが検出されたものとする。そして、処理をステップＳ１００に戻す。

上述のステップＳ１０５で、スコアＳ(ｉ)が極大値ではないと判定されたら、処理はステップＳ１０８に移行される。ステップＳ１０８で、発生区間検出部１０４は、上述した条件（Ｂ）を参照し、当該スコアＳ(ｉ)が極小値であるか否かを判定する。若し、極小値ではないと判定したら、処理をステップＳ１００に戻す。

一方、ステップＳ１０８で、スコアＳ(ｉ)が極小値であると判定したら、処理をステップＳ１０９に移行させる。ステップＳ１０９で、発生区間検出部１０４は、この極小値が、上述のステップＳ１０６で極大値が検出されてから初回に検出された極小値であるか否かを判定する。若し、極大値の検出後の初回に検出された極小値ではないと判定したら、処理をステップＳ１００に戻す。

ステップＳ１０８で、発生区間検出部１０４は、スコアＳ(ｉ)がステップＳ１０６で極大値が検出されてから初回に検出された極小値であると判定したら、処理をステップＳ１１０に移行させ、フレームｉの略中央に不審音の波形の立ち下がりが検出されたものと見做す。このステップＳ１１０と、上述したステップＳ１０７とで不審音の波形の立ち上がりおよび立ち下がりが検出されたことになる。

次のステップＳ１１１で、発生区間検出部１０４は、入力音響データ２０のサンプリング周波数、フレーム幅Ｗおよびフレーム間隔Ｄと、学習データについて信号パワー時系列の傾きを算出する際に用いたフレーム数とに基づき算出される遅延補正量を用いて、不審音の波形の立ち上がり位置および立ち下がり位置を補正する。この補正された立ち下がり位置および立ち下がり位置が、不審音発生区間の開始位置および終了位置とされ、不審音発生区間が検出される（ステップＳ１１２）。

上述したように、本実施形態によれば、集音された観測音に基づく入力音響データから特徴値の時系列データを抽出し、抽出された特徴値と、予め学習データを用いて算出された特徴値の期待値とを比較してスコアを求め、このスコアの時系列上での変化に基づき不審音発生区間を検出している。そのため、雑音環境下においても、容易に不審音発生区間の検出を行うことができる。

本実施形態では、不審音を検出するための閾値を、入力音響データの特徴値から算出したスコアに対して適用している。このスコアは、雑音環境下の観測音においても略一定の値を取る。そのため、監視エリアの環境に応じて閾値を変更する必要が無い。それと共に、本実施形態では、雑音に影響されにくい性質の値であるスコアを不審音の検出に用いているので、雑音に対して頑健な検出が可能で、雑音環境下や、雑音レベルの変化する環境下においても安定的に不審音発生区間の検出を行うことができる。

ここで、本実施形態による不審音発生区間の検出方法が、雑音環境に対して頑健であることについて説明する。

本実施形態において、式（３）により算出されるスコアは、学習データと、入力音響データ２０との類似性が高い場合に大きな値を取る性質がある。一方、雑音（雑音の音響データ）と学習データとでは類似性が低いため、スコアは、略一定の値を取り大きく変化しない。したがって、スコアに対して閾値を設定し、スコアが閾値を超えたか否かを判定することで、従来の、例えば信号パワーに対して閾値を設定する音検出方法と比べて、より確実に物音の発生区間を検出することが可能となる。

すなわち、不審音による音響データが入力された場合、入力された音響データにおける不審音発生区間の波形は、学習データによる波形に対する類似性が高いため、不審音発生区間の先頭でスコアが大きく変化する。本実施形態では、このスコアと閾値とを比較して、スコアが閾値を超えている場合に、不審音発生区間が検出されたものと判定する。

一方、雑音による音響データが入力された場合、雑音による波形は、学習データによる波形に対する類似性が小さいため、スコアの変化が極めて小さい。そのため、スコアが閾値を超える可能性が小さく、誤検出の発生が抑制される。

図１４は、学習データが物音（検出対象の不審音）を集音した音響データである場合に、略ランダムな音響データ（雑音による音響データ）が入力された際の、信号パワー、信号パワー時系列の傾きおよびスコアの例を示し、図１５は、図１４に例示した各項目の値をフレーム番号に対してプロットしたグラフを示す。学習データの期待値μ_kおよび分散値σ²は、上述した図７に示す値と同一とする。

なお、図１５に例示されるグラフは、後述するスコア算出に伴う遅延の補正がなされておらず、スコアのプロットは、信号パワーのプロットに対して、３フレーム分遅延している。

図１５に例示されるように、雑音による音響データは、信号パワーが比較的大きく変化する。そのため、従来のように信号パワーに対して閾値２００を設定した場合、フレーム番号＃３、＃１６、＃１８および＃１９などが誤検出されてしまう。一方、波形が学習データと大きく異なる音響データが入力された場合、スコアは大きく変化しない。そのため、本実施形態によりスコアに対して閾値を設定した場合、スコアが当該閾値を超えてしまう可能性が低く、雑音環境下においても特定の物音の発生区間を正確に検出することができる。

また、本実施形態は、不審音の特徴を抽出することで、不審音発生区間の検出を行っている。そのため、音声のみならず、様々な物音を不審音発生区間の検出対象とすることができる。

さらに、本実施形態を適用することで、不審音の発生区間を精度よく検出することができる。これにより、検出された不審音発生区間の音響データに対する音認識処理における精度の向上が期待できる。また、不審音発生区間の検出を音認識処理に対して事前に行うことにより、システムは、検出された不審音発生区間の音響データのみに対して認識処理を行えばよく、音認識システム全体の計算コストや音響データの通信を行うための通信コストを抑えることができる。

本実施形態の音検出装置を、監視領域内で不審者を検出した場合に警報を出力する警備装置に設けたり、本実施形態の音検出装置からの出力を上記警備装置に入力するように構成することができる。これにより、監視領域内での不審音を容易かつ高精度に検出できるので、警備装置による誤報を防止することが可能となる。

１０マイクロフォン
１１Ａ／Ｄ変換部
１２演算部
１３記憶部
２０入力音響データ
２１出力音響データ
１００音検出装置
１０１信号パワー算出部
１０２傾き算出部
１０３スコア算出部
１０４発生区間検出部
１１１スコアパラメータ

Claims

学習データにおける物音と、音入力装置から入力された音データに含まれる物音との類似性が高い音を検出する音検出装置であって、
前記音入力装置から入力された音データの特徴を示す特徴値を時系列に沿って算出する特徴値算出手段と、
前記学習データから時系列に沿って予め求めた特徴値の頻度に基づき算出した期待値と、前記特徴値算出手段で算出された前記音データの特徴値との差分に基づいて前記音データを評価するスコアを算出するスコア算出手段と、
前記スコアの極大値の位置と極小値の位置とを検出し、該極大値の位置および極小値の位置に基づき前記音データ中の特定音発生区間を検出する検出手段と
を備える
ことを特徴とする音検出装置。
前記検出手段は、
前記極大値が閾値を超える場合に該極大値の位置を前記特定音発生区間の開始位置と判定し、
該開始位置の後に最初に現れる前記極小値の位置を該特定音発生区間の終了位置と判定する
ことを特徴とする請求項１に記載の音検出装置。
前記期待値は、種類が同じで音が異なる複数の音データを前記学習データとして用いて求めた
ことを特徴とする請求項１または請求項２に記載の音検出装置。
前記期待値は、学習データの、一部が重複しつつ時系列順に並んだ複数の所定範囲それぞれについて求められ、
前記特徴値算出手段は、
前記音データの、一部が重複しつつ時系列順に並んだ所定範囲に対して前記特徴値を算出し、
前記スコア算出手段は、
前記音データの複数の所定範囲の特徴値と、前記学習データについて求められた複数の所定範囲の前記期待値とのそれぞれの差分の和に基づき前記スコアを算出する
ことを特徴とする請求項１乃至請求項３の何れか１項に記載の音検出装置。
前記スコア算出手段は、
学習データからさらに予め求めた特徴値の分散値を用いて前記差分を正規化して、前記スコアを算出する
ことを特徴とする請求項４に記載の音検出装置。
前記特徴値は、音データの信号パワー時系列の傾きである
ことを特徴とする請求項１乃至請求項５の何れか１項に記載の音検出装置。
前記検出手段で検出された前記特定音発生区間に対して、前記スコア算出手段により前記スコアを算出した際に発生した遅延を補正する遅延補正手段をさらに備える
ことを特徴とする請求項１乃至請求項６の何れか１項に記載の音検出装置。
学習データにおける物音と、音入力装置から入力された音データに含まれる物音との類似性が高い音を検出する音検出方法であって、
特徴値算出手段が、前記音入力装置から入力された音データの特徴を示す特徴値を時系列に沿って算出する特徴値算出ステップと、
スコア算出手段が、前記学習データから時系列に沿って予め求めた特徴値の頻度に基づき算出した期待値と、前記特徴値算出ステップで算出された前記音データの特徴値との差分に基づいて前記音データを評価するスコアを算出するスコア算出ステップと、
前記スコアの極大値の位置と極小値の位置とを検出し、該極大値の位置および極小値の位置に基づき前記音データ中の特定音発生区間を検出する検出ステップと
を備える
ことを特徴とする音検出方法。