以下、本発明の構成を図面に示す実施の形態の一例に基づいて詳細に説明する。
図1及び図2に、本発明の音源位置の推定方法、推定装置及び推定プログラムの実施形態の一例を示す。
本実施形態の音源位置の推定方法は、図1に示すように、収音手段1によって採取された音の音圧信号がA/D変換されて一対の音圧データが作成されるステップ(S1)と、一対の音圧データのそれぞれに対して短時間フーリエ変換処理が施されて時刻t,周波数f〔Hz〕における周波数強度PA(f,t)とPB(f,t)とが計算されるステップ(S2)と、周波数強度PA(f,t)とPB(f,t)とのそれぞれの中から検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータが抽出されるステップ(S3)と、抽出された周波数強度PA(f,t)とPB(f,t)とのそれぞれが正規化されて正規化後周波数強度PSA(f,t)とPSB(f,t)とが算出されるステップ(S4)と、正規化後周波数強度PSA(f,t)とPSB(f,t)とのそれぞれについて短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分が計算されて正規化後周波数強度の差分PdSA(f,t)とPdSB(f,t)とが算出されるステップ(S5)と、正規化後周波数強度の差分PdSA(f,t)とPdSB(f,t)との時間方向の相互相関の値が最大になる相互相関最大時刻が求められるステップ(S6)と、正規化後周波数強度の差分PdSA(f,t)若しくはPdSB(f,t)の自己相関の値が最大になる自己相関最大時刻が求められるステップ(S7)と、自己相関最大時刻と相互相関最大時刻との時間差に音速を掛け合わせて音源位置から一対の音圧データそれぞれの元の音の採取位置までの距離差が算出されるステップ(S8)とを有する。
また、本実施形態の音源位置の推定装置は、収音手段1によって採取された音の音圧信号がA/D変換されて作成された一対の音圧データを記憶装置としてのデータサーバ(2)から読み込む手段(11a)と、一対の音圧データのそれぞれに対して短時間フーリエ変換処理を施して時刻t,周波数f〔Hz〕における周波数強度PA(f,t)とPB(f,t)とを計算する手段(11b)と、周波数強度PA(f,t)とPB(f,t)とのそれぞれの中から検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータを抽出する手段(11c)と、抽出された周波数強度PA(f,t)とPB(f,t)とのそれぞれを正規化して正規化後周波数強度PSA(f,t)とPSB(f,t)とを算出する手段(11d)と、正規化後周波数強度PSA(f,t)とPSB(f,t)とのそれぞれについて短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分を計算して正規化後周波数強度の差分PdSA(f,t)とPdSB(f,t)とを算出する手段(11e)と、正規化後周波数強度の差分PdSA(f,t)とPdSB(f,t)との時間方向の相互相関の値が最大になる相互相関最大時刻を求める手段(11f)と、正規化後周波数強度の差分PdSA(f,t)若しくはPdSB(f,t)の自己相関の値が最大になる自己相関最大時刻を求める手段(11g)と、自己相関最大時刻と相互相関最大時刻との時間差に音速を掛け合わせて音源位置から一対の音圧データそれぞれの元の音の採取位置までの距離差を算出する手段(11h)とを有する。
さらに、本実施形態の音源位置の推定プログラムは、収音手段1によって採取された音の音圧信号がA/D変換されて作成された一対の音圧データを記憶装置としてのデータサーバ(2)から読み込む手段(11a)、一対の音圧データのそれぞれに対して短時間フーリエ変換処理を施して時刻t,周波数f〔Hz〕における周波数強度PA(f,t)とPB(f,t)とを計算する手段(11b)、周波数強度PA(f,t)とPB(f,t)とのそれぞれの中から検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータを抽出する手段(11c)、抽出された周波数強度PA(f,t)とPB(f,t)とのそれぞれを正規化して正規化後周波数強度PSA(f,t)とPSB(f,t)とを算出する手段(11d)、正規化後周波数強度PSA(f,t)とPSB(f,t)とのそれぞれについて短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分を計算して正規化後周波数強度の差分PdSA(f,t)とPdSB(f,t)とを算出する手段(11e)、正規化後周波数強度の差分PdSA(f,t)とPdSB(f,t)との時間方向の相互相関の値が最大になる相互相関最大時刻を求める手段(11f)、正規化後周波数強度の差分PdSA(f,t)若しくはPdSB(f,t)の自己相関の値が最大になる自己相関最大時刻を求める手段(11g)、自己相関最大時刻と相互相関最大時刻との時間差に音速を掛け合わせて音源位置から一対の音圧データそれぞれの元の音の採取位置までの距離差を算出する手段(11h)としてコンピュータを機能させる。
そして、音源位置の推定方法の実行にあたっては、まず、収音手段1によって対象箇所・地域における音の採取が行われると共に、採取された音の音圧信号がA/D変換されて音圧データが作成される(S1)。
収音手段1は、特定の音(検知対象音と呼ぶ)の発生位置が調査される対象箇所・地域に設置され、当該箇所・地域における音を採取(言い換えると、音の音圧信号を採取、或いは、音の音圧レベルを測定)するものである。収音手段1は、特定の機器に限定されるものではなく、既存の機器でも新規の機器でも良い。具体的には例えばマイクロフォンが収音手段1として用いられる。
本発明では、対象箇所・地域において離間した位置で取得された二つの音データ(音圧信号,音圧レベル)が用いられる。二つの音データは、例えば、一つの収音手段1が水平方向において左右に離間したチャンネルR(右)とチャンネルL(左)との二つのチャンネル(具体的には例えば二つのマイクロフォン)を備えてこれら二つのチャンネルのそれぞれによって取得されるようにしても良いし、水平方向において左右に離間して設置された二つの収音手段1のそれぞれによって取得されるようにしても良い。なお、二つの音データは、収音手段1が備える時計機能によってチャンネルRとチャンネルLとの二つの音データに同じ実際の時刻や同じ経過時間(収音開始からの経過時間)が付与されたり、或いは、二つの収音手段1の時計機能が予め時刻同期されて収音手段1毎の二つの音データに同期された実際の時刻が付与されたり、または、二つの収音手段1の収音開始が同期されて(即ち、収音が同時に開始されて)収音手段1毎の二つの音データに同期された経過時間が付与されたりなどすることにより、収音時刻や収音経過時間が同期される。
なお、二つの音データのもとになるそれぞれの音が採取される位置を音採取位置A及び音採取位置Bと呼ぶ。
本実施形態では、収音手段1は、自身が設置されたポイントにおいて採取した音の音圧信号(測定された音の音圧レベル)をデジタル信号に変換するA/D変換機能を更に備えるようにし、A/D変換された音圧信号を音圧波形データとして外部に出力する。ただし、収音手段1が音採取機能とA/D変換機能と外部出力機能とを一体的な構成として(言い換えると、一体の機器・装置として)備えることは必須の要件ではなく、音採取機能を有する機器・装置とA/D変換機能を有する機器・装置と外部出力機能を有する機器・装置との集まり・組み合わせとして収音手段1が構成されるようにしても良い。
なお、収音手段1が音圧信号をA/D変換して音圧波形データとして出力する際の量子化ビット数(ビット深度)やサンプリングレート(サンプリング周波数)の値は、特定の値に限定されるものではなく、収音手段1の仕様によって特定されたり、検知対象である音の特性に合わせるなどして適宜選択されたりする。
そして、収音手段1は、例えば数時間から24時間程度の所定の時間分の音圧信号をA/D変換した音圧波形データ(音圧データと呼ぶ)を一時的に保存した上で音ファイルとしてデータサーバ2に対して出力する。なお、収音手段1とデータサーバ2との間のデータ送信は、有線若しくは無線によって行われても良いし、適当な記憶媒体を介して行われても良い(図2に示す例では、有線によって行われる)。
データサーバ2では、収音手段1から出力された音ファイルが蓄積される。具体的には、データサーバ2には、或る時間帯について、一つの収音手段1の二つのチャンネル分の音ファイル(一つの音ファイル又は二つの音ファイル(収音時刻・収音経過時間が同期されている))、或いは、二つの収音手段1のそれぞれに対応する二つの音ファイル(収音時刻・収音経過時間が同期されている)が蓄積される。すなわち、データサーバ2には、対象箇所・地域における音を離間した位置で同時に採取して得られた一対の音圧データ(収音時刻・収音経過時間が同期されている)が蓄積される。
次に、S1の処理によって得られた一対の音圧データのそれぞれに対して短時間フーリエ変換処理が施されて周波数強度PA,PBが計算される(S2)。
ここで、本発明の音源位置の推定方法におけるS2以降の処理は本発明の音源位置の推定装置によって実行され得る。
そして、本発明の音源位置の推定方法におけるS2以降の処理及びこれら処理を実行する音源位置の推定装置は、本発明の音源位置の推定プログラムをコンピュータ上で実行することによっても実現され得る。本明細書では、音源位置の推定方法プログラムをコンピュータ上で実行することによってS2以降の処理を実行する音源位置の推定装置が実現されると共に音源位置の推定方法におけるS2以降の処理が実行される場合を説明する。
音源位置の推定プログラム17を実行するためのコンピュータ10(本実施形態では、音源位置の推定装置10でもある)の全体構成を図2に示す。このコンピュータ10(音源位置の推定装置10)は、制御部11,記憶部12,入力部13,表示部14,メモリ15を備え相互にバス等の信号回線によって接続されている。また、コンピュータ10には記憶装置としてのデータサーバ2がバス等の信号回線によって接続されており、その信号回線を介してデータや制御指令等の信号の送受信(即ち出入力)が相互に行われる。
制御部11は、記憶部12に記憶されている音源位置の推定プログラム17によってコンピュータ10全体の制御並びに音源位置の推定に係る演算を行うものであり、例えばCPU(中央演算処理装置)である。
記憶部12は、少なくともデータやプログラムを記憶可能な装置であり、例えばハードディスクである。
メモリ15は、制御部11が種々の制御や演算を実行する際の作業領域であるメモリ空間となるものであり、例えばRAM(Random Access Memory の略)である。
入力部13は、少なくとも作業者の命令を制御部11に与えるためのインターフェイスであり、例えばキーボードである。
表示部14は、制御部11の制御によって文字や図形等の描画・表示を行うものであり、例えばディスプレイである。
そして、本実施形態では、上述のS1の処理によって得られた一対の音圧データが、音ファイル18(単数若しくは複数)としてデータサーバ2に格納(保存)される。
また、後述する処理において算出される計算値を適宜記録(保存)しておくための計算値データファイル19が、記憶部12若しくはデータサーバ2或いは他の適当な記憶装置・記憶媒体に格納(保存)される(図2に示す例では記憶部12に格納)。
そして、コンピュータ10(本実施形態では、音源位置の推定装置10でもある)の制御部11には、音源位置の推定プログラム17が実行されることにより、S1の処理において収音手段1によって採取された音の音圧信号がA/D変換されて作成された一対の音圧データを記憶装置としてのデータサーバ2から読み込む処理を行うデータ読込部11aと、一対の音圧データのそれぞれに対して短時間フーリエ変換処理を施して時刻t,周波数f〔Hz〕における周波数強度PA(f,t)とPB(f,t)とを計算する処理を行うフーリエ変換部11bと、周波数強度PA(f,t)とPB(f,t)とのそれぞれの中から検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータを抽出する処理を行う領域抽出部11cと、抽出された周波数強度PA(f,t)とPB(f,t)とのそれぞれを正規化して正規化後周波数強度PSA(f,t)とPSB(f,t)とを算出する処理を行う正規化部11dと、正規化後周波数強度PSA(f,t)とPSB(f,t)とのそれぞれについて短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分を計算して正規化後周波数強度の差分PdSA(f,t)とPdSB(f,t)とを算出する処理を行う差分算出部11eと、正規化後周波数強度の差分PdSA(f,t)とPdSB(f,t)との時間方向の相互相関の値が最大になる相互相関最大時刻を求める処理を行う相互相関計算部11fと、正規化後周波数強度の差分PdSA(f,t)若しくはPdSB(f,t)の自己相関の値が最大になる自己相関最大時刻を求める処理を行う自己相関計算部11gと、自己相関最大時刻と相互相関最大時刻との時間差に音速を掛け合わせて音源位置から一対の音圧データそれぞれの元の音の採取位置までの距離差を算出する処理を行う距離差算出部11hとが構成される。
音源位置の推定プログラム17が実行されることによる具体的な処理としては、まず、コンピュータ10(音源位置の推定装置10)の制御部11に構成されたデータ読込部11aにより、一対の音圧データが読み込まれる(S2−1)。
具体的には、データ読込部11aにより、S1の処理において作成されてデータサーバ2に格納(保存)されている音ファイル18(単数若しくは複数)に記録されている一対の音圧データが読み込まれる。
そして、データ読込部11aにより、読み込まれた一対の音圧データがメモリ15に記憶させられる。
続いて、制御部11のフーリエ変換部11bにより、一対の音圧データのそれぞれに対して短時間フーリエ変換処理が施されて周波数強度PA,PBが計算される(S2−2)。
具体的には、フーリエ変換部11bにより、S2−1の処理においてメモリ15に記憶された一対の音圧データ(以下、音採取位置Aで採取された音に基づく音圧データを音圧データAとし、音採取位置Bで採取された音に基づく音圧データを音圧データBとする)が読み込まれ、これら音圧データA,音圧データBのそれぞれに対して短時間フーリエ変換処理が施されて時刻t,周波数f〔Hz〕における周波数強度PA(f,t),PB(f,t)が計算される。
時刻tとしては、収音手段1から音圧データが出力される際に実際の時刻が付与されるなどしている場合にはこの実際の時刻が用いられることが考えられ、一方、実際の時刻と関連づけられていない場合には、収音開始からの(言い換えると、音ファイルの再生開始からの)経過時間が用いられることが考えられる。ここでの説明では、便宜上、実際の時刻も収音(再生)経過時間もどちらも時刻tとして扱う。
なお、短時間フーリエ変換を行う際の窓関数やFFTフレーム長や時間領域のずれ量dtは、特定の関数や長さや量に限定されるものではなく、適宜調整され設定される。
そして、フーリエ変換部11bにより、計算された周波数強度PA(f,t),PB(f,t)が、時刻t・周波数fとの組み合わせデータとして、計算値データファイル19に記録させられる(言い換えると、書き込まれる)。
次に、制御部11の領域抽出部11cにより、S2の処理によって計算された周波数強度PA(f,t)とPB(f,t)とのそれぞれの中から、検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータが抽出される(S3)。
具体的には、領域抽出部11cにより、S2−2の処理において計算値データファイル19に記録された周波数強度PA(f,t)及びPB(f,t)のデータ(具体的には、周波数強度PA(f,t),PB(f,t)の値と時刻t・周波数fとの組み合わせデータ)のそれぞれの中から、検知対象音が発生・継続している時間帯における検知対象音の周波数帯域の周波数強度PA(f,t),PB(f,t)の値が読み込まれる。
検知対象音が発生・継続している時間帯は、予め、例えば、音ファイルを再生して作業者・操作者によって手作業的に特定されたり、音ファイルを用いて既存の若しくは新規の適当な方法によって機械的に特定されたりする。ここでは、音圧データAにおいて検知対象音が発生・継続している時間帯の開始時刻がt1とされると共に終了時刻がt2(=t1+T)とされ、音圧データBにおいて検知対象音が発生・継続している時間帯の開始時刻がt3とされると共に終了時刻がt4(=t3+T)とされる。なお、具体的には例えば、音圧データAと音圧データBとのうちで、検知対象音発生の開始時刻の早い方に合わせてt1=t3とされると共に、検知対象音発生・継続の終了時刻の遅い方に合わせてt2=t4とされる。
また、検知対象音の周波数帯域は、特定の帯域に限定されるものではなく、例えば検知対象音の周波数帯が含まれるように、検知対象音に合わせて適宜設定される。検知対象音の周波数帯域は、予め、例えば、検知対象音が発生・継続している時間帯のスペクトログラムに基づいて特定される。ここでは、音圧データAにおける検知対象音の周波数帯域の下限周波数がf1とされると共に上限周波数がf2とされ、音圧データBにおける検知対象音の周波数帯域の下限周波数がf3とされると共に上限周波数がf4とされる。なお、f1=f3でもf1≠f3でも良く、f2=f4でもf2≠f4でも良い。
したがって、計算値データファイル19に記録された周波数強度PA(f,t)のデータの中から、時刻tがt1からt2まで(即ち、t1≦t≦t2)の範囲を少なくとも含む時間帯における、周波数fがf1からf2まで(即ち、f1≦f≦f2)の範囲の周波数強度PA(f,t)の値が読み込まれ、また、周波数強度PB(f,t)のデータの中から、時刻tがt3からt4まで(即ち、t3≦t≦t4)の範囲を少なくとも含む時間帯における、周波数fがf3からf4まで(即ち、f3≦f≦f4)の範囲の周波数強度PB(f,t)の値が読み込まれる。
そして、領域抽出部11cにより、抽出された周波数強度PA(f,t)の値(ただし、t1≦t≦t2(或いは、t1≦t≦t2を含む時間帯;以下同じ) 且つ f1≦f≦f2)及び PB(f,t)の値(ただし、t3≦t≦t4(或いは、t3≦t≦t4を含む時間帯;以下同じ) 且つ f3≦f≦f4)が、時刻t・周波数fとの組み合わせデータとしてメモリ15に記憶させられる。
次に、制御部11の正規化部11dにより、S3の処理によって抽出された周波数強度PA(f,t)とPB(f,t)とのそれぞれが正規化される(S4)。
具体的には、正規化部11dにより、S3の処理においてメモリ15に記憶された周波数強度PA(f,t)の値(ただし、t1≦t≦t2 且つ f1≦f≦f2)及び PB(f,t)の値(ただし、t3≦t≦t4 且つ f3≦f≦f4)が読み込まれ、これら周波数強度PA(f,t)及びPB(f,t)の最大値及び最小値が求められると共に、例えば最大1,最小0になるように周波数強度PA(f,t)及びPB(f,t)のそれぞれが正規化される。
すなわち、周波数強度PA(f,t)(t1≦t≦t2,f1≦f≦f2)及びPB(f,t)(t3≦t≦t4,f3≦f≦f4)の、最大値をmaxとすると共に、最小値をminとすると、周波数強度PA(f,t)の正規化後の値PSA(f,t)は数式1aによって算出され、周波数強度PB(f,t)の正規化後の値PSB(f,t)は数式1bによって算出される。
(数1a) PSA(f,t)=[PA(f,t)−min]/[max−min]
(数1b) PSB(f,t)=[PB(f,t)−min]/[max−min]
そして、正規化部11dにより、算出された正規化後周波数強度PSA(f,t)の値及びPSB(f,t)の値が、時刻t・周波数fとの組み合わせデータとしてメモリ15に記憶させられる。
さらに、正規化部11dにより、周波数強度の最大値maxの値が周波数強度PA(f,t)とPB(f,t)とのどちらに属しているかが判断され、その情報(言い換えると、判断結果)が周波数強度最大値情報としてメモリ15に記憶させられる。
次に、制御部11の差分算出部11eにより、S4の処理によって算出された正規化後周波数強度PSA(f,t)とPSB(f,t)とのそれぞれについて、時刻t別のPSA(f,t),PSB(f,t)毎に、短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量dt前の値との差分が算出される(S5)。
具体的には、差分算出部11eにより、S4の処理においてメモリ15に記憶された正規化後周波数強度PSA(f,t)の値及びPSB(f,t)の値が読み込まれ、数式2a,2bによって差分PdSA(f,t),PdSB(f,t)が算出される。
(数2a) PdSA(f,t)=PSA(f,t)−PSA(f,t−dt)
(数2b) PdSB(f,t)=PSB(f,t)−PSB(f,t−dt)
なお、数式2aについては、tが[t1+dt]からt2までの範囲で算出される。また、数式2bについては、tが[t3+dt]からt4までの範囲で算出される。
そして、差分算出部11eにより、算出された正規化後周波数強度の差分PdSA(f,t)の値及びPdSB(f,t)の値が、時刻t・周波数fとの組み合わせデータとしてメモリ15に記憶させられる。
次に、制御部11の相互相関計算部11fにより、S5の処理によって算出された正規化後周波数強度の差分PdSA(f,t)及びPdSB(f,t)を用い、PdSA(f,t)とPdSB(f,t)との時間方向の相互相関の値が最大になる時刻が求められる(S6)。
具体的には、相互相関計算部11fにより、S5の処理においてメモリ15に記憶された正規化後周波数強度の差分PdSA(f,t)の値及びPdSB(f,t)の値が読み込まれ、両データの時間方向の相互相関rdSAB(f,t)が計算される。
さらに、相互相関計算部11fにより、計算された相互相関rdSAB(f,t)の値が最大である要素の時刻trAB_max(相互相関最大時刻trAB_maxと呼ぶ)が求められる。
そして、相互相関計算部11fにより、求められた相互相関最大時刻trAB_maxがメモリ15に記憶させられる。
次に、制御部11の自己相関計算部11gにより、S5の処理によって算出された正規化後周波数強度の差分PdSA(f,t)若しくはPdSB(f,t)を用い、PdSA(f,t)若しくはPdSB(f,t)の自己相関の値が最大になる時刻が求められる(S7)。
具体的には、自己相関計算部11gにより、S5の処理においてメモリ15に記憶された正規化後周波数強度の差分PdSA(f,t)の値が読み込まれ、時間方向の自己相関rdSA(f,t)が計算される。
あるいは、自己相関計算部11gにより、S5の処理においてメモリ15に記憶された正規化後周波数強度の差分PdSB(f,t)の値が読み込まれ、時間方向の自己相関rdSB(f,t)が計算される。
さらに、自己相関計算部11gにより、計算された自己相関rdSA(f,t)の値が最大である要素の時刻trA_max(自己相関最大時刻trA_maxと呼ぶ)若しくは自己相関rdSB(f,t)の値が最大である要素の時刻trB_max(自己相関最大時刻trB_maxと呼ぶ)が求められる。なお、自己相関最大時刻であるtrA_maxとtrB_maxとは同じ値になる。したがって、自己相関であるrdSA(f,t)とrdSB(f,t)とのどちらが計算されて自己相関最大時刻であるtrA_maxとtrB_maxとのどちらが求められても良い。
そして、自己相関計算部11gにより、求められた自己相関最大時刻trA_max若しくはtrB_maxがメモリ15に記憶させられる。
次に、制御部11の距離差算出部11hにより、S6の処理によって求められた相互相関最大時刻trAB_max、及び、S7の処理によって求められた自己相関最大時刻trA_max若しくはtrB_maxを用い、音源位置と各音採取位置A,Bとの距離差が算出される(S8)。
具体的には、距離差算出部11hにより、S6の処理においてメモリ15に記憶された相互相関最大時刻trAB_maxが読み込まれると共に、S7の処理においてメモリ15に記憶された自己相関最大時刻trA_max若しくはtrB_maxが読み込まれる。
そして、距離差算出部11hにより、自己相関最大時刻と相互相関最大時刻との時間差Δt=|trA_max−trAB_max|若しくはΔt=|trB_max−trAB_max|が算出される。
上述の処理で算出される時間差Δtは、対象箇所・地域において離間した位置(具体的には、音採取位置A,音採取位置B)で取得された一対の音圧データにおける時間方向のずれ量である。
さらに、距離差算出部11hにより、時間差Δtと音速とをかけ合わせて、音源位置から音採取位置Aまでと音源位置から音採取位置Bまでとの距離差Δxが算出される。
なお、S4の処理においてメモリ15に記憶されてS7の処理において読み込まれた周波数強度最大値情報が、周波数強度の最大値maxの値が周波数強度PA(f,t)に属しているとの内容である場合には音源位置は音採取位置Aの方に近いと判断され、一方、周波数強度の最大値maxの値が周波数強度PB(f,t)に属しているとの内容である場合には音源位置は音採取位置Bの方に近いと判断される。
そして、距離差算出部11hにより、音源位置から音採取位置Aまでと音源位置から音採取位置Bまでとの距離差Δxの値がメモリ15に記憶させられる。
以上により、音源位置が音採取位置Aと音採取位置Bとのどちらに近いかが求められると共に音源位置から音採取位置Aまでと音源位置から音採取位置Bまでとの距離差Δxが求められる。これにより、音採取位置Aと音採取位置Bとの間の距離は既知であることも考慮すると、所定の間隔(既知)である音採取位置Aと音採取位置Bとのうちの一方に近く且つこれら音採取位置A,Bからの距離の差が一定であるという条件式(音源位置条件式と呼ぶ)を満たす点として音源位置が特定される。
そこで、例えば、対象箇所・地域が適当な大きさの矩形のブロックに分割され、検知対象音が発生する可能性があるか否かの情報(言い換えると、検知対象音の音源位置になり得るか否かの情報)が合わせて考慮されて音源位置がブロックレベルで特定されるようにしても良い。
あるいは、同一平面内の離間した位置で二つの音データを取得する上述の仕組みが対象箇所・地域に対して複数設置され、仕組み毎に算出される距離差Δxに基づいて導出される複数の音源位置条件式を満たす点として音源位置が特定されるようにしても良い。なお、複数の音源位置条件式を満たす点として条件式の交点が複数求められた場合には、これら複数の交点の重心位置が音源位置とされるなどのように複数の情報に基づいて尤もらしい音源位置が推定される。なお、この場合には、各仕組みの内部での二つの音データに係る実際の時刻や収音開始からの経過時間は同期される必要があるものの、複数の仕組みの間での音データに係る実際の時刻や収音開始からの経過時間が同期される必要はない(すなわち、複数の仕組みの間で、同じ鳴き声の対応がとれれば良い)。
あるいは、同一平面内の離間した位置に設置された三つ以上の例えばマイクロフォンによって三つ以上の音データが取得され、これら音データの中から二つが選択されて一対の音データの組み合わせ毎に上述の処理が繰り返し実行され、一対の音データ毎に算出される距離差Δxに基づいて導出される複数の音源位置条件式を満たす点として音源位置が特定されるようにしても良い。なお、この場合には、全ての音データの間で、実際の時刻や収音開始からの経過時間が同期される必要がある。
なお、検知対象音が継続している場合に、上述の処理が繰り返し行われることによって、距離差Δxが一定であるか変化しているかにより、音源位置が、即ち、検知対象音を発生させているものが、移動しているか停止しているかの判断が可能である。
以上のように構成された本発明の音源位置の推定方法、推定装置及び推定プログラムによれば、正規化後周波数強度PSAとPSBとのそれぞれについて短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量dt前の値との差分PdSAとPdSBとを計算してからこれら差分PdSA,PdSBに関する自己相関最大時刻trA_max,trB_maxと相互相関最大時刻trAB_maxとの時間差に音速を掛け合わせるようにしているので、自己相関最大時刻及び相互相関最大時刻を顕著・明瞭に現させることができる。このため、それらの時間差Δtを正確に算出することができるので、音源位置の推定精度の向上を図ることが可能になる。
なお、上述の形態は本発明の好適な実施の形態の一例ではあるものの本発明の具体的な実施の形態が上述の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変形実施可能である。例えば、上述の実施形態ではデータサーバ2と音源位置の推定装置10との各々を独立した装置として有するようにして収音手段1からデータサーバ2を経由して音源位置の推定装置10に音圧データが入力されるようにしているが、これに限られず、収音手段1から音源位置の推定装置10に音圧データが直接入力される(言い換えると、データサーバ2と音源位置の推定装置10とを一体の装置で構成する。具体的には、音源位置の推定装置10の記憶部12を、収音手段1から出力された音圧データを蓄積する記憶装置として利用する)ようにしても良い。さらに言えば、収音手段1から出力された音圧データは、音源位置の推定装置10に入力されるのであれば、どのような経路・装置・媒体を経由しても構わない。
また、上述の実施形態では周波数強度PA(f,t),PB(f,t)のデータが記憶部12若しくはデータサーバ2或いは他の適当な記憶装置・記憶媒体に格納(保存)された計算値データファイル19に記録(保存)されるようにしているが、これに限られず、メモリ15に記録(保存)されるようにしても良い。また、上述の実施形態では種々の算出結果がメモリ15に記憶されて適宜読み込まれるようにしているが、これに限られず、記憶部12若しくはデータサーバ2或いは他の適当な記憶装置・記憶媒体に格納(保存)されたデータファイルに記録(保存)されて適宜読み込まれるようにしても良い。
また、上述の実施形態では、S4の処理における周波数強度の最大値maxの値が周波数強度PA(f,t)とPB(f,t)とのどちらに属しているかの判断に基づいて音源位置が音採取位置Aと音採取位置Bとのどちらの方に近いか判断するようにしているが、音源位置が音採取位置のどちらに近いかの判断方法はこれに限定されるものではなく、音採取位置Aと音採取位置Bとのどちらに先に音が到達したかに基づいて判断するようにしても良い。具体的には、S3の処理において用いられる音圧データAにおける検知対象音発生・継続時間帯の開始時刻t1と音圧データBにおける検知対象音発生・継続時間帯の開始時刻t3とのどちらが先かによって音源位置が音採取位置Aと音採取位置Bとのどちらの方に近いかを判断したり、チャンネル別の音圧波形データにおいてどちらのチャンネルが先に音圧レベルが高くなっているかによって音源位置が音採取位置Aと音採取位置Bとのどちらの方に近いかを判断したり、自己相関最大時刻tr_max(=trA_max=trB_max)における自己相関rdSA(f,tr_max)とrdSB(f,tr_max)とのどちらが大きいかによって音源位置が音採取位置Aと音採取位置Bとのどちらの方に近いかを判断したりするようにしても良い。
また、上述の実施形態では、水平方向において離間した音採取位置Aと音採取位置Bとにおいて音を採取するようにしているが、複数の音採取位置の位置関係はこれに限定されるものではなく、例えば検知対象音の発生位置が調査される対象箇所・地域の状況や検知対象音の発生可能性(言い換えると、音源位置の可能性)などを考慮して複数の音採取位置が垂直方向において上下に離間しているようにしても良い。さらに言えば、水平方向において離間した複数の音採取位置と垂直方向において離間した複数の音採取位置とを組み合わせるようにしても良く、この場合には立体空間に於ける音源位置を特定することができる。なお、水平方向離間の音採取位置と垂直方向離間の音採取位置とを組み合わる場合には、一部の音採取位置を水平方向離間の音採取位置と垂直方向離間の音採取位置とに共通するものとして用いられるようにしても良い。
ここで、上述の実施形態では、S3の処理において、周波数強度PA(f,t)及びPB(f,t)のデータのそれぞれの中から検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータが抽出される際に、検知対象音が発生・継続している時間帯が、予め、例えば、音ファイルを再生して作業者・操作者によって手作業的に特定されたり、音ファイルを用いて既存の若しくは新規の適当な方法によって機械的に特定されたりするようにしている。以下に、検知対象音が発生・継続している時間帯を機械的に特定する方法の一例について説明する。
<検知対象音発生・継続時間帯の機械的特定方法について>
検知対象音発生・継続時間帯を機械的に特定する場合の音源位置の推定方法は、図3に示すように、図1に示される音源位置の推定方法における検知対象音の周波数強度データの抽出(S3)の処理として、音採取位置Aで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度PA(f,t)及び音採取位置Bで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度PB(f,t)が用いられて、時刻t0におけるターゲット周波数帯域の周波数強度PA(f,t0),PB(f,t0)それぞれの平均値であるターゲット平均周波数強度PtA(t0),PtB(t0)が算出されるステップ(S3−1)と、時刻t0における対照周波数帯域の周波数強度PA(f,t0),PB(f,t0)それぞれの平均値である対照平均周波数強度PcA(t0),PcB(t0)が算出されるステップ(S3−2)と、ターゲット平均周波数強度PtA(t0),PtB(t0)それぞれが第一の閾値T1と比較されると共に、対照平均周波数強度PcA(t0)に対するターゲット平均周波数強度PtA(t0)の比及び対照平均周波数強度PcB(t0)に対するターゲット平均周波数強度PtB(t0)の比が第二の閾値T2と比較され、PtA(t0)>T1 且つ PtA(t0)/PcA(t0)>T2 であるときに時刻t0において音採取位置Aで検知対象音が採取されたと判断されると共に PtB(t0)>T1 且つ PtB(t0)/PcB(t0)>T2 であるときに時刻t0において音採取位置Bで検知対象音が採取されたと判断されるステップ(S3−3)とを有する。
また、検知対象音発生・継続時間帯を機械的に特定する場合の音源位置の推定装置は、図2に示される音源位置の推定装置の構成に加え、音採取位置Aで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度PA(f,t)及び音採取位置Bで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度PB(f,t)を用いて、時刻t0におけるターゲット周波数帯域の周波数強度PA(f,t0),PB(f,t0)それぞれの平均値であるターゲット平均周波数強度PtA(t0),PtB(t0)を算出する手段(11i)と、時刻t0における対照周波数帯域の周波数強度PA(f,t0),PB(f,t0)それぞれの平均値である対照平均周波数強度PcA(t0),PcB(t0)を算出する手段(11j)と、ターゲット平均周波数強度PtA(t0),PtB(t0)それぞれを第一の閾値T1と比較すると共に、対照平均周波数強度PcA(t0)に対するターゲット平均周波数強度PtA(t0)の比及び対照平均周波数強度PcB(t0)に対するターゲット平均周波数強度PtB(t0)の比を第二の閾値T2と比較し、PtA(t0)>T1 且つ PtA(t0)/PcA(t0)>T2 であるときに時刻t0において音採取位置Aで検知対象音が採取されたと判断すると共に PtB(t0)>T1 且つ PtB(t0)/PcB(t0)>T2 であるときに時刻t0において音採取位置Bで検知対象音が採取されたと判断する手段(11k)とを更に有する。
さらに、検知対象音発生・継続時間帯を機械的に特定する場合の音源位置の推定プログラムは、上述の実施形態の音源位置の推定プログラムの機能に加え、コンピュータを、音採取位置Aで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度PA(f,t)及び音採取位置Bで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度PB(f,t)を用いて、時刻t0におけるターゲット周波数帯域の周波数強度PA(f,t0),PB(f,t0)それぞれの平均値であるターゲット平均周波数強度PtA(t0),PtB(t0)を算出する手段(11i)、時刻t0における対照周波数帯域の周波数強度PA(f,t0),PB(f,t0)それぞれの平均値である対照平均周波数強度PcA(t0),PcB(t0)を算出する手段(11j)、ターゲット平均周波数強度PtA(t0),PtB(t0)それぞれを第一の閾値T1と比較すると共に、対照平均周波数強度PcA(t0)に対するターゲット平均周波数強度PtA(t0)の比及び対照平均周波数強度PcB(t0)に対するターゲット平均周波数強度PtB(t0)の比を第二の閾値T2と比較し、PtA(t0)>T1 且つ PtA(t0)/PcA(t0)>T2 であるときに時刻t0において音採取位置Aで検知対象音が採取されたと判断すると共に PtB(t0)>T1 且つ PtB(t0)/PcB(t0)>T2 であるときに時刻t0において音採取位置Bで検知対象音が採取されたと判断する手段(11k)として更に機能させる。
そして、検知対象音発生・継続時間帯を機械的に特定する場合のコンピュータ10(音源位置の推定装置10)の制御部11には、図4に示すように、音源位置の推定プログラム17が実行されることにより、図2に示す構成に加え、音採取位置Aで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度PA(f,t)及び音採取位置Bで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度PB(f,t)を用いて、時刻t0におけるターゲット周波数帯域の周波数強度PA(f,t0),PB(f,t0)それぞれの平均値であるターゲット平均周波数強度PtA(t0),PtB(t0)を算出する処理を行うターゲット平均値算出部11iと、時刻t0における対照周波数帯域の周波数強度PA(f,t0),PB(f,t0)それぞれの平均値である対照平均周波数強度PcA(t0),PcB(t0)を算出する処理を行う対照平均値算出部11jと、ターゲット平均周波数強度PtA(t0),PtB(t0)それぞれを第一の閾値T1と比較すると共に、対照平均周波数強度PcA(t0)に対するターゲット平均周波数強度PtA(t0)の比及び対照平均周波数強度PcB(t0)に対するターゲット平均周波数強度PtB(t0)の比を第二の閾値T2と比較し、PtA(t0)>T1 且つ PtA(t0)/PcA(t0)>T2 であるときに時刻t0において音採取位置Aで検知対象音が採取されたと判断すると共に PtB(t0)>T1 且つ PtB(t0)/PcB(t0)>T2 であるときに時刻t0において音採取位置Bで検知対象音が採取されたと判断する処理を行う判定部11kとが更に構成される。
検知対象音発生・継続時間帯を機械的に特定する場合の、音源位置の推定プログラム17が実行されることによる、検知対象音の周波数強度データの抽出(S3)の具体的な処理としては、まず、制御部11のターゲット平均値算出部11iにより、S2の処理によって計算された周波数強度PA(f,t),PB(f,t)が用いられて、時刻t0におけるターゲット周波数帯域の周波数強度PA(f,t0),PB(f,t0)それぞれの平均値であるターゲット平均周波数強度PtA(t0),PtB(t0)が算出される(S3−1)。
ここで、以降のS3−1からS3−3までの処理の説明では或る時刻t0に関する処理として説明するが、実際の適用に際しては時刻を変えながら(ずらしながら)S3−1からS3−3までの処理が繰り返される。
ターゲット平均値算出部11iにより、S2−2の処理において計算値データファイル19に記録された周波数強度PA(f,t),PB(f,t)のそれぞれのデータ(具体的には、周波数強度PA(f,t),PB(f,t)の値と時刻t・周波数fとの組み合わせデータ)の中から、時刻t0におけるターゲット周波数帯域の周波数強度PA(f,t0),PB(f,t0)の値が読み込まれる。
ターゲット周波数帯域は検知対象音が含まれると想定される周波数帯域のことであり、言い換えると検知対象音の周波数強度が現れる周波数帯域のことであり、その範囲(即ち、下限周波数及び上限周波数)は検知対象音に合わせて適宜設定される。ここでは、上述の実施形態と同様に、音圧データAにおけるターゲット周波数帯域の下限周波数がf1とされると共に上限周波数がf2とされ、音圧データBにおけるターゲット周波数帯域の下限周波数がf3とされると共に上限周波数がf4とされる。
したがって、計算値データファイル19に記録された周波数強度PA(f,t)のデータの中から、時刻t0における、周波数fがf1からf2まで(即ち、f1≦f≦f2)の範囲の周波数強度PA(f,t0)の値が読み込まれ、また、周波数強度PB(f,t)のデータの中から、時刻t0における、周波数fがf3からf4まで(即ち、f3≦f≦f4)の範囲の周波数強度PB(f,t0)の値が読み込まれる。
ターゲット周波数帯域の下限周波数f1,f3及び上限周波数f2,f4は、特定の値に限定されるものではなく、例えば検知対象音の周波数帯が含まれるように、検知対象音に合わせて適宜設定される。
そして、ターゲット平均値算出部11iにより、数式3によって、時刻t0における周波数強度PA(f,t0)(ただし、f1≦f≦f2)の平均値であるターゲット平均周波数強度PtA(t0)が算出されると共に、数式4によって、時刻t0における周波数強度PB(f,t0)(ただし、f3≦f≦f4)の平均値であるターゲット平均周波数強度PtB(t0)が算出される。
なお、数式3,4中のNA,NBは、kの個数であり、すなわち、NAは周波数がf1からf2までの周波数強度PA(f,t0)の個数であり、NBは周波数がf3からf4までの周波数強度PB(f,t0)の個数である。この周波数強度PA(f,t0),PB(f,t0)それぞれの個数は、収音手段1によるサンプリングレート(サンプリング周波数)及び短時間フーリエ変換を行う際のFFTフレーム長によって決まり、時刻t0における周波数がf1からf2までのデータとして計算値データファイル19から抽出される周波数強度PA(f,t)の個数であり、或いは、時刻t0における周波数がf3からf4までのデータとして計算値データファイル19から抽出される周波数強度PB(f,t)の個数である。ただし、収音手段1によって採取されて計算値データファイル19に記録された周波数強度PA(f,t),PB(f,t)のデータを間引いて用いるようにしても良く、その場合には実際に抽出された周波数強度PA(f,t),PB(f,t)それぞれの個数である。
そして、ターゲット平均値算出部11iにより、算出されたターゲット平均周波数強度PtA(t0),PtB(t0)の値が、時刻t0との組み合わせデータとしてメモリ15に記憶させられる。
次に、制御部11の対照平均値算出部11jにより、S2の処理によって計算された周波数強度PA(f,t),PB(f,t)が用いられて、時刻t0における対照周波数帯域の周波数強度PA(f,t0),PB(f,t0)それぞれの平均値である対照平均周波数強度PcA(t0),PcB(t0)が算出される(S3−2)。
具体的には、対照平均値算出部11jにより、S2−2の処理において計算値データファイル19に記録された周波数強度PA(f,t),PB(f,t)のそれぞれのデータの中から、時刻t0における対照周波数帯域の周波数強度PA(f,t0),PB(f,t0)の値が読み込まれる。
対照周波数帯域は検知対象音が含まれない(その一方で、検知対象音以外の音が含まれる)と想定される周波数帯域のことであり、言い換えると検知対象音の周波数強度は現れない一方で検知対象音以外の音の周波数強度は現れる周波数帯域のことであり、その範囲(即ち、下限周波数及び上限周波数)は検知対象音に合わせて適宜設定される。ここでは、音圧データAにおける対照周波数帯域の下限周波数がf5とされると共に上限周波数がf6とされ、音圧データBにおける対照周波数帯域の下限周波数がf7とされると共に上限周波数がf8とされる。
したがって、計算値データファイル19に記録された周波数強度PA(f,t)のデータの中から、時刻t0における、周波数fがf5からf6まで(即ち、f5≦f≦f6)の範囲の周波数強度PA(f,t0)の値が読み込まれ、また、周波数強度PB(f,t)のデータの中から、時刻t0における、周波数fがf7からf8まで(即ち、f7≦f≦f8)の範囲の周波数強度PB(f,t0)の値が読み込まれる。
対照周波数帯域の下限周波数f5,f7及び上限周波数f6,f8は、特定の値に限定されるものではなく、例えば検知対象音の周波数帯が含まれないように、検知対象音に合わせて適宜設定される。なお、ターゲット周波数帯域と対照周波数帯域とのそれぞれの考え方から明らかなように、音圧データA,B毎のターゲット周波数帯域と対照周波数帯域とは重複しない(具体的には、周波数f1〜f2と周波数f3〜f4とは重複せず、周波数f5〜f6と周波数f7〜f8とは重複しない)範囲で設定される。
そして、対照平均値算出部11jにより、数式5によって、時刻t0における周波数強度PA(f,t0)(ただし、f5≦f≦f6)の平均値である対照平均周波数強度PcA(t0)が算出されると共に、数式6によって、時刻t0における周波数強度PB(f,t0)(ただし、f7≦f≦f8)の平均値である対照平均周波数強度PcB(t0)が算出される。
なお、数式5,6中のMA,MBは、lの個数であり、すなわち、MAは周波数がf5からf6までの周波数強度PA(f,t0)の個数であり、MBは周波数がf7からf8までの周波数強度PB(f,t0)の個数である。この周波数強度PA(f,t0),PB(f,t0)それぞれの個数は、収音手段1によるサンプリングレート(サンプリング周波数)及び短時間フーリエ変換を行う際のFFTフレーム長によって決まり、時刻t0における周波数がf5からf6までのデータとして計算値データファイル19から抽出される周波数強度PA(f,t)の個数であり、或いは、時刻t0における周波数がf7からf8までのデータとして計算値データファイル19から抽出される周波数強度PB(f,t)の個数である。ただし、収音手段1によって採取されて計算値データファイル19に記録された周波数強度PA(f,t),PB(f,t)のデータを間引いて用いるようにしても良く、その場合には実際に抽出された周波数強度PA(f,t),PB(f,t)それぞれの個数である。
そして、対照平均値算出部11jにより、算出された対照平均周波数強度PcA(t0),PcB(t0)の値が、時刻t0との組み合わせデータとしてメモリ15に記憶させられる。
次に、制御部11の判定部11kにより、S3−1の処理によって算出された時刻t0におけるターゲット平均周波数強度PtA(t0),PtB(t0)及びS3−2の処理によって算出された時刻t0における対照平均周波数強度PcA(t0),PcB(t0)が用いられて、ターゲット平均周波数強度PtA(t0),PtB(t0)それぞれが第一の閾値と比較されると共に、対照平均周波数強度PcA(t0)に対するターゲット平均周波数強度PtA(t0)の比及び対照平均周波数強度PcB(t0)に対するターゲット平均周波数強度PtB(t0)の比が第二の閾値T2と比較され、時刻t0において検知対象音が採取されたか否かが判断される(S3−3)。
具体的には、判定部11kにより、S3−1の処理においてメモリ15に記憶された時刻t0におけるターゲット平均周波数強度PtA(t0),PtB(t0)の値が読み込まれると共に、S3−2の処理においてメモリ15に記憶された時刻t0における対照平均周波数強度PcA(t0),PcB(t0)の値が読み込まれる。
そして、まず、判定部11kにより、ターゲット平均周波数強度PtA(t0),PtB(t0)の値それぞれと第一の閾値T1とが比較され、PtA(t0)>T1,PtB(t0)>T1であるか否かが判断される。
第一の閾値T1は、ターゲット周波数帯域に関する周波数強度Pの値は検知対象音が発生しているときには検知対象音が発生していないときと比べて大きくなっているとの考えの下、ターゲット平均周波数強度PtA,PtBの値が或る程度よりも大きくなっているか否かを判断するための閾値である。
第一の閾値T1は、特定の値に限定されるものではなく、例えばターゲット周波数帯域に関する検知対象音が発生していない時の周波数強度Pの値(即ち、背景音の周波数強度)や検知対象音の音圧(検知対象音自体の周波数強度)などを考慮して検知対象音に合わせて適宜設定される。具体的には、あくまで一例として挙げると、検知対象音が発生していない時のターゲット周波数帯域の周波数強度Pの平均値にされたり、検知対象音が発生していない時のターゲット周波数帯域の周波数強度Pの平均値と検知対象音が発生している時のターゲット周波数帯域の周波数強度Pの平均値との中間の値にされたりすることが考えられる。
続いて、判定部11kにより、対照平均周波数強度PcA(t0)の値に対するターゲット平均周波数強度PtA(t0)の値の比と第二の閾値T2とが比較されてPtA(t0)/PcA(t0)>T2であるか否かが判断され、また、対照平均周波数強度PcB(t0)の値に対するターゲット平均周波数強度PtB(t0)の値の比と第二の閾値T2とが比較されてPtB(t0)/PcB(t0)>T2であるか否かが判断される。
第二の閾値T2は、検知対象音が発生しているときのターゲット周波数帯域における周波数強度Pの値は他の周波数帯域(即ち、対照周波数帯域)における周波数強度Pの値と比べて大きくなっているとの考えの下、対照平均周波数強度PcA,PcBの値に対するターゲット平均周波数強度PtA,PtBの値の比が一定の大きさ以上になっているか否かを判断するための閾値である。
第二の閾値T2は、特定の値に限定されるものではなく、例えば、検知対象音が発生している時のターゲット周波数帯域の周波数強度Pの値とその時の対照周波数帯域の周波数強度Pの値とを考慮して検知対象音に合わせて適宜設定される。具体的には、あくまで一例として挙げると、1.2〜5程度の範囲で設定されることが考えられる。
そして、判定部11kにより、PtA(t0)>T1 且つ PtA(t0)/PcA(t0)>T2 であるときに時刻t0において音採取位置Aで検知対象音が採取されたと判断され、また、PtB(t0)>T1 且つ PtB(t0)/PcB(t0)>T2 であるときに時刻t0において音採取位置Bで検知対象音が採取されたと判断される。
以上によって時刻t0に関する処理が終了し、S2−2の処理において計算値データファイル19に記録された分の他の時刻についてS3−1からS3−3までの処理が繰り返される。
そして、他の時刻についてS3−1からS3−3までの処理が繰り返されて時刻毎に検知対象音が採取されたか否かが判断されることにより、検知対象音が採取された(言い換えると、検知対象音が発生していた)時間帯が特定される。すなわち、音圧データAにおいて検知対象音が発生・継続している時間帯の開始時刻t1及び終了時刻t2、並びに、音圧データBにおいて検知対象音が発生・継続している時間帯の開始時刻t3及び終了時刻t4が特定される。
なお、検知対象音が採取された時間帯を特定する際には、検知対象音が例えば1/100秒といった非常に短時間だけ発生する或いは1/100秒のみ発生しないというようなことは起きないとみなすことができる場合には、多少の時間的余裕を考慮し、判別式では検知対象音が採取されていないと判断される場合でも、前後の時間で判別式を満たしていれば検知対象音が採取されていると判断するようにしても良い。具体的には例えば、Δtは十分に小さいとし、以下の条件1及び条件2が満たされていれば(なお、PtA,PtBのことを単にPtと表し、PcA,PcBのことを単にPcと表す)、時刻(t0−Δt)から(t0+Δt)に亘って検知対象音が採取されたと判断するようにしても良い。
〈条件1〉Pt(t0−Δt)>T1,Pt(t0)>T1,Pt(t0+Δt)>T1)
〈条件2〉Pt(t0)/Pc(t0−Δt)>T2 又は Pt(t0)/Pc(t0)>T2 又は Pt(t0)/Pc(t0+Δt)>T2
上述の検知対象音発生・継続時間帯の機械的特定方法によれば、検知対象音が含まれると想定される周波数帯域であるターゲット周波数帯域における平均周波数強度PtA(t0),PtB(t0)に加えて検知対象音が含まれないと想定される周波数帯域である対照周波数帯域における平均周波数強度PcA(t0),PcB(t0)も用いるようにしているので、具体的には、PtA(t0)/PcA(t0),PtB(t0)/PcB(t0)も判断の指標として用いるようにしているので、検知対象音以外の音を検知対象音であると誤って判断することを防止することができ、種々の背景音が発生している状況においても検知対象音の検知を適確に行うことが可能になる。
上述の検知対象音発生・継続時間帯の機械的特定方法によれば、また、検知対象音の特性に合わせてターゲット周波数帯域及び対照周波数帯域を設定することにより、様々な用途に適用することが可能である。具体的には例えば、あくまで一例として挙げれば、野鳥の鳴き声を検知対象音とし、色々な場面で実施される環境影響評価(環境アセスメント)における鳥類生態調査に適用したり、或いは、機器・設備の異音(断続的・間欠的に発生する異音)を検知対象音とし、機器・設備の状態監視や診断に適用したりすることなどが考えられる。
本発明者の検討によれば、検知対象音を烏の鳴き声にした場合には、ターゲット周波数帯域を500〔Hz〕〜15〔kHz〕の範囲の一部若しくは全体にすると共に対照周波数帯域を1〜1000〔Hz〕の範囲の一部若しくは全体にする(ただし、ターゲット周波数帯域と対照周波数帯域とは重複しない範囲で設定される)ことが好ましく、ターゲット周波数帯域を1040〜1356〔Hz〕にすると共に対照周波数帯域を148〜676〔Hz〕の範囲の一部若しくは全体にすることがより一層好ましく、ターゲット周波数帯域を1040〜1356にすると共に対照周波数帯域を480〜676〔Hz〕にすることが最も好ましい。
なお、上述の説明ではターゲット周波数帯域と対照周波数帯域とが一つずつ設定されるようにしているが、これら周波数帯域の設定数は一つに限られるものではなく、検知対象音の特性に合わせてターゲット周波数帯域や対照周波数帯域を複数設定するようにしても良い。具体的には例えば、検知対象音の特徴として周波数強度のピークが複数の周波数帯域で出現する場合にはターゲット周波数帯域を複数設定するようにしても良い。また、ターゲット周波数帯域を一つ設定する場合には当該ターゲット周波数帯域よりも周波数の高い帯域と低い帯域とのそれぞれに対照周波数帯域を設定するようにしても良いし、或いは、ターゲット周波数帯域を複数設定する場合にはこれらターゲット周波数帯域よりも周波数の高い帯域と低い帯域とに加えてこれらターゲット周波数帯域に挟まれる帯域のそれぞれに対照周波数帯域を設定するようにしても良い。
本発明の音源位置の推定方法を烏の鳴き声の発生位置の特定に適用した実施例を図5乃至図10を用いて説明する。
本実施例では、或る調査地点において、一つの収音手段1のチャンネルR(右)とチャンネルL(左)との二つのチャンネル(具体的には、左右に離間する二つのマイクロフォン;チャンネルRのマイクロフォンの位置を音採取位置Aとし、チャンネルLのマイクロフォンの位置を音採取位置Bとする)で採取されてチャンネル別に得られた二つの音ファイルに記録された一対の音圧データが用いられた(S1;図5)。なお、図5は、縦軸が音圧レベル、横軸が時刻tである。
そして、本実施例では、音源位置の推定プログラムがコンピュータ上で実行されて音源位置の推定装置が実現されて音源位置の推定方法におけるS2以降の処理が実行された。
まず、音源位置の推定装置により、二つの音ファイルに記録されている一対の音圧データが読み込まれると共に、当該一対の音圧データのそれぞれに対して短時間フーリエ変換処理が施されて周波数強度PA,PBが計算された(S2)。
具体的には、短時間フーリエ変換処理が施されスペクトログラムが計算されてチャンネルR・L別に図6に示す結果が得られた。なお、図6は、縦軸が周波数f、横軸が時刻t、領域内の色分けが周波数強度PA(f,t),PB(f,t)の値である。
次に、音源位置の推定装置により、S2の処理で計算された周波数強度PA(f,t)とPB(f,t)とのそれぞれの中から、烏の鳴き声が発生・継続している時間帯における烏の鳴き声の周波数帯域のデータが抽出された(S3)。
本実施例では、烏の鳴き声が採取された時間帯が予め特定され、1.2秒間分の周波数強度PA(f,t),PB(f,t)それぞれのデータが抽出された。
また、本実施例では、烏の鳴き声の周波数帯域として844〜1040〔Hz〕の範囲が予め特定され、この範囲の周波数強度PA(f,t),PB(f,t)それぞれのデータが抽出された。
具体的には、烏の鳴き声が採取された時間帯としての1.2秒間の、烏の鳴き声の周波数帯域としての844〜1040〔Hz〕の範囲の、チャンネルR・L別のスペクトログラムを図7に示す。なお、図7は、縦軸が周波数f、横軸が時刻t、領域内の色分けが周波数強度PA(f,t),PB(f,t)の値であり、領域内の色が濃い部分は周波数強度PA(f,t),PB(f,t)の値が大きい(即ち、周波数強度が強い)ことを表す。
次に、音源位置の推定装置により、S3の処理で抽出された周波数強度PA(f,t)とPB(f,t)とのそれぞれが正規化された(S4)。
具体的には、S3の処理で抽出された周波数強度PA(f,t)及びPB(f,t)が正規化されてチャンネルR・L別に図8に示す結果が得られた。なお、図8は、縦軸が周波数f、横軸が時刻t、領域内の色分けが正規化後周波数強度PSA(f,t),PSB(f,t)の値であり、領域内の色が濃い部分は正規化後周波数強度PSA(f,t),PSB(f,t)の値が大きい(即ち、周波数強度が強い)ことを表す。
また、本実施例では、周波数強度の最大値maxの値が周波数強度PB(f,t)に属していた。
次に、音源位置の推定装置により、S4の処理で算出された正規化後周波数強度PSA(f,t)とPSB(f,t)とのそれぞれについて、時刻t別のPSA(f,t),PSB(f,t)毎に、短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量dt前の値との差分が算出された(S5)。
具体的には、S4の処理で算出された正規化後周波数強度PSA(f,t)及びPSB(f,t)を用いて、チャンネルR・L別に図9に示す結果が得られた。なお、図9は、縦軸が周波数f、横軸が時刻t、領域内の色分けが正規化後周波数強度の差分PdSA(f,t),PdSB(f,t)の値である。
次に、音源位置の推定装置により、S5の処理で算出された正規化後周波数強度の差分PdSA(f,t)とPdSB(f,t)との時間方向の相互相関の値が最大になる時刻が求められた(S6)。
具体的には、まず、S5の処理で算出された正規化後周波数強度の差分PdSA(f,t)とPdSB(f,t)との時間方向の相互相関rdSAB(f,t)が計算されて図10に示す結果が得られた。
そして、計算された相互相関rdSAB(f,t)の値が最大である要素の時刻として相互相関最大時刻trAB_maxが求められた。
次に、音源位置の推定装置により、S5の処理で算出された正規化後周波数強度の差分PdSB(f,t)の自己相関の値が最大になる時刻が求められた(S7)。
具体的には、まず、S5の処理で算出された正規化後周波数強度の差分PdSB(f,t)の自己相関rdSB(f,t)が計算されて図10に示す結果が得られた。
そして、計算された自己相関rdSB(f,t)の値が最大である要素の時刻として自己相関最大時刻trB_maxが求められた。
次に、音源位置の推定装置により、S6の処理で求められた相互相関最大時刻trAB_max、及び、S7の処理で求められた自己相関最大時刻trB_maxを用い、烏の鳴き声発生位置からチャンネルRのマイクロフォンまでと烏の鳴き声発生位置からチャンネルLのマイクロフォンまでとの距離差が算出された(S8)。
具体的には、まず、自己相関最大時刻と相互相関最大時刻との時間差Δt=|trB_max−trAB_max|が算出された(図10参照)。
そして、時間差Δtと音速とを掛け合わせて、烏の鳴き声発生位置から音採取位置Aまでと烏の鳴き声発生位置から音採取位置Bまでとの距離差Δxが算出された。
この結果から、本発明の音源位置の推定方法は、検知対象音(本実施例では烏の鳴き声)の音源位置を特定する(言い換えると、絞り込む)ことができ、有用性を有していることが確認された。