JP6165046B2

JP6165046B2 - 音源位置の推定方法、推定装置及び推定プログラム

Info

Publication number: JP6165046B2
Application number: JP2013261414A
Authority: JP
Inventors: 伊藤　憲彦; 憲彦伊藤
Original assignee: Central Research Institute of Electric Power Industry
Current assignee: Central Research Institute of Electric Power Industry
Priority date: 2013-12-18
Filing date: 2013-12-18
Publication date: 2017-07-19
Anticipated expiration: 2033-12-18
Also published as: JP2015118004A

Description

本発明は、音源位置の推定方法、推定装置及び推定プログラムに関する。

音を検知する従来のシステムとして、室内に設置される親機と当該親機と離れた箇所に設置される子機とからなるインターホンシステムであり、親機は、室内の音声を音声信号として入力する室内音声入力手段と、当該室内音声入力手段が入力した音声信号と予め定められた特定の音声信号とを照合検知する特定音声検知手段とを有し、特定音声検知手段が特定の音声信号を検知した場合に、予め登録されている緊急メッセージ情報または室内音声入力手段が入力した音声情報を所定の通知先に送信し、外部にいても室内の異常事態を知ることができるようにしたものがある（特許文献１）。

特開２０１１−１５３７５号

しかしながら、特許文献１のインターホンシステムは、音声を検知した場合にその音声が発せられた位置を特定する仕組みを備えていない。また、室内における特定の音声信号を検知するものであり、種々の背景音が発生する(発生している)屋外や工場などの屋内において背景音の中に紛れ込んでいる特定の音(特定の音の音圧信号)を検知することを想定しているものではなく、このため、種々の背景音が発生している場合でも特定の音(特定の音の音圧信号)を検知するための仕組みを備えていない。したがって、音声の発生位置を特定することはできないという問題があり、また、種々の背景音に紛れている特定の音(特定の音の音圧信号)の検出の精度が高いとは言えないという問題がある。

そこで、本発明は、検知対象の音の発生位置を特定することができる音源位置の推定方法、推定装置及び推定プログラムを提供することを目的とする。本発明は、また、種々の背景音が発生していてその背景音に検知対象の特定の音が紛れている場合でも種々の背景音の中から検知対象の特定の音を検出して当該特定の音の発生位置を特定することができる音源位置の推定方法、推定装置及び推定プログラムを提供することを目的とする。

かかる目的を達成するため、本発明の音源位置の推定方法は、収音手段によって採取された音の音圧信号がＡ／Ｄ変換されて一対の音圧データが作成されるステップと、一対の音圧データのそれぞれに対して短時間フーリエ変換処理が施されて時刻ｔ，周波数ｆ〔Hz〕における周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とが計算されるステップと、周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれの中から検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータが抽出されるステップと、抽出された周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれが正規化されて正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とが算出されるステップと、正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とのそれぞれについて短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分が計算されて正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)とが算出されるステップと、正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)との時間方向の相互相関の値が最大になる相互相関最大時刻が求められるステップと、正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)若しくはＰ_dSB(ｆ，ｔ)の自己相関の値が最大になる自己相関最大時刻が求められるステップと、自己相関最大時刻と相互相関最大時刻との時間差に音速を掛け合わせて音源位置から一対の音圧データそれぞれの元の音の採取位置までの距離差が算出されるステップとを有するようにしている。

また、本発明の音源位置の推定装置は、収音手段によって採取された音の音圧信号がＡ／Ｄ変換されて作成された一対の音圧データを記憶装置から読み込む手段と、一対の音圧データのそれぞれに対して短時間フーリエ変換処理を施して時刻ｔ，周波数ｆ〔Hz〕における周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とを計算する手段と、周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれの中から検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータを抽出する手段と、抽出された周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれを正規化して正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とを算出する手段と、正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とのそれぞれについて短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分を計算して正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)とを算出する手段と、正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)との時間方向の相互相関の値が最大になる相互相関最大時刻を求める手段と、正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)若しくはＰ_dSB(ｆ，ｔ)の自己相関の値が最大になる自己相関最大時刻を求める手段と、自己相関最大時刻と相互相関最大時刻との時間差に音速を掛け合わせて音源位置から一対の音圧データそれぞれの元の音の採取位置までの距離差を算出する手段とを有するようにしている。

また、本発明の音源位置の推定プログラムは、収音手段によって採取された音の音圧信号がＡ／Ｄ変換されて作成された一対の音圧データを記憶装置から読み込む手段、一対の音圧データのそれぞれに対して短時間フーリエ変換処理を施して時刻ｔ，周波数ｆ〔Hz〕における周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とを計算する手段、周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれの中から検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータを抽出する手段、抽出された周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれを正規化して正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とを算出する手段、正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とのそれぞれについて短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分を計算して正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)とを算出する手段、正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)との時間方向の相互相関の値が最大になる相互相関最大時刻を求める手段、正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)若しくはＰ_dSB(ｆ，ｔ)の自己相関の値が最大になる自己相関最大時刻を求める手段、自己相関最大時刻と相互相関最大時刻との時間差に音速を掛け合わせて音源位置から一対の音圧データそれぞれの元の音の採取位置までの距離差を算出する手段としてコンピュータを機能させるようにしている。

したがって、これらの音源位置の推定方法、推定装置及び推定プログラムによると、正規化後周波数強度Ｐ_SAとＰ_SBとのそれぞれについて短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分Ｐ_dSAとＰ_dSBとを計算してからこれら差分Ｐ_dSA，Ｐ_dSBに関する自己相関最大時刻と相互相関最大時刻との時間差に音速を掛け合わせるようにしているので、自己相関最大時刻及び相互相関最大時刻が顕著・明瞭に現れるようになり、それらの時間差が正確に算出される。

また、本発明の音源位置の推定方法、推定装置及び推定プログラムは、検知対象音が烏の鳴き声であり、検知対象音の周波数帯域が５００〔Hz〕〜１５〔kHz〕の範囲の一部若しくは全体であるようにしても良く、この場合には、種々の背景音が発生している状況においても烏の鳴き声の検知が適確に行われる。

本発明の音源位置の推定方法、推定装置及び推定プログラムによると、自己相関最大時刻及び相互相関最大時刻を顕著・明瞭に現させることができ、それらの時間差を正確に算出することができるので、音源位置の推定精度の向上を図ることが可能になる。

また、検知対象音が烏の鳴き声であり、検知対象音の周波数帯域が５００〔Hz〕〜１５〔kHz〕の範囲の一部若しくは全体であるようにした場合には、種々の背景音が発生している状況においても烏の鳴き声の検知を適確に行うことが可能になる。

本発明の音源位置の推定方法の実施形態の一例を説明するフローチャートである。実施形態の音源位置の推定方法を音源位置の推定プログラムを用いて実施する場合の当該プログラムによって実現される音源位置の推定装置の機能ブロック図である。本発明の音源位置の推定方法の他の実施形態の一例を説明するフローチャートである。他の実施形態の音源位置の推定方法を音源位置の推定プログラムを用いて実施する場合の当該プログラムによって実現される音源位置の推定装置の機能ブロック図である。実施例１の音圧データのチャンネル別の波形グラフを示す図である。実施例１の音圧データのチャンネル別のスペクトログラムの計算結果を示す図である。図６のチャンネル別スペクトログラムのうち烏の鳴き声が発生・継続している時間帯における烏の鳴き声の周波数帯域の範囲のスペクトログラムを示す図である。図７のチャンネル別スペクトログラムの正規化の結果を示す図である。図８のチャンネル別正規化後スペクトログラムの時間領域のずれ量前の値との差分の結果を示す図である。図９のチャンネル別正規化後周波数強度の差分についての時間方向の相互相関の結果を示す図である。

以下、本発明の構成を図面に示す実施の形態の一例に基づいて詳細に説明する。

図１及び図２に、本発明の音源位置の推定方法、推定装置及び推定プログラムの実施形態の一例を示す。

本実施形態の音源位置の推定方法は、図１に示すように、収音手段１によって採取された音の音圧信号がＡ／Ｄ変換されて一対の音圧データが作成されるステップ（Ｓ１）と、一対の音圧データのそれぞれに対して短時間フーリエ変換処理が施されて時刻ｔ，周波数ｆ〔Hz〕における周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とが計算されるステップ（Ｓ２）と、周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれの中から検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータが抽出されるステップ（Ｓ３）と、抽出された周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれが正規化されて正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とが算出されるステップ（Ｓ４）と、正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とのそれぞれについて短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分が計算されて正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)とが算出されるステップ（Ｓ５）と、正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)との時間方向の相互相関の値が最大になる相互相関最大時刻が求められるステップ（Ｓ６）と、正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)若しくはＰ_dSB(ｆ，ｔ)の自己相関の値が最大になる自己相関最大時刻が求められるステップ（Ｓ７）と、自己相関最大時刻と相互相関最大時刻との時間差に音速を掛け合わせて音源位置から一対の音圧データそれぞれの元の音の採取位置までの距離差が算出されるステップ（Ｓ８）とを有する。

また、本実施形態の音源位置の推定装置は、収音手段１によって採取された音の音圧信号がＡ／Ｄ変換されて作成された一対の音圧データを記憶装置としてのデータサーバ(２)から読み込む手段(１１ａ)と、一対の音圧データのそれぞれに対して短時間フーリエ変換処理を施して時刻ｔ，周波数ｆ〔Hz〕における周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とを計算する手段(１１ｂ)と、周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれの中から検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータを抽出する手段(１１ｃ)と、抽出された周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれを正規化して正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とを算出する手段(１１ｄ)と、正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とのそれぞれについて短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分を計算して正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)とを算出する手段(１１ｅ)と、正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)との時間方向の相互相関の値が最大になる相互相関最大時刻を求める手段(１１ｆ)と、正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)若しくはＰ_dSB(ｆ，ｔ)の自己相関の値が最大になる自己相関最大時刻を求める手段(１１ｇ)と、自己相関最大時刻と相互相関最大時刻との時間差に音速を掛け合わせて音源位置から一対の音圧データそれぞれの元の音の採取位置までの距離差を算出する手段(１１ｈ)とを有する。

さらに、本実施形態の音源位置の推定プログラムは、収音手段１によって採取された音の音圧信号がＡ／Ｄ変換されて作成された一対の音圧データを記憶装置としてのデータサーバ(２)から読み込む手段(１１ａ)、一対の音圧データのそれぞれに対して短時間フーリエ変換処理を施して時刻ｔ，周波数ｆ〔Hz〕における周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とを計算する手段(１１ｂ)、周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれの中から検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータを抽出する手段(１１ｃ)、抽出された周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれを正規化して正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とを算出する手段(１１ｄ)、正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とのそれぞれについて短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分を計算して正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)とを算出する手段(１１ｅ)、正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)との時間方向の相互相関の値が最大になる相互相関最大時刻を求める手段(１１ｆ)、正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)若しくはＰ_dSB(ｆ，ｔ)の自己相関の値が最大になる自己相関最大時刻を求める手段(１１ｇ)、自己相関最大時刻と相互相関最大時刻との時間差に音速を掛け合わせて音源位置から一対の音圧データそれぞれの元の音の採取位置までの距離差を算出する手段(１１ｈ)としてコンピュータを機能させる。

そして、音源位置の推定方法の実行にあたっては、まず、収音手段１によって対象箇所・地域における音の採取が行われると共に、採取された音の音圧信号がＡ／Ｄ変換されて音圧データが作成される（Ｓ１）。

収音手段１は、特定の音（検知対象音と呼ぶ）の発生位置が調査される対象箇所・地域に設置され、当該箇所・地域における音を採取（言い換えると、音の音圧信号を採取、或いは、音の音圧レベルを測定）するものである。収音手段１は、特定の機器に限定されるものではなく、既存の機器でも新規の機器でも良い。具体的には例えばマイクロフォンが収音手段１として用いられる。

本発明では、対象箇所・地域において離間した位置で取得された二つの音データ（音圧信号，音圧レベル）が用いられる。二つの音データは、例えば、一つの収音手段１が水平方向において左右に離間したチャンネルＲ(右)とチャンネルＬ(左)との二つのチャンネル（具体的には例えば二つのマイクロフォン）を備えてこれら二つのチャンネルのそれぞれによって取得されるようにしても良いし、水平方向において左右に離間して設置された二つの収音手段１のそれぞれによって取得されるようにしても良い。なお、二つの音データは、収音手段１が備える時計機能によってチャンネルＲとチャンネルＬとの二つの音データに同じ実際の時刻や同じ経過時間（収音開始からの経過時間）が付与されたり、或いは、二つの収音手段１の時計機能が予め時刻同期されて収音手段１毎の二つの音データに同期された実際の時刻が付与されたり、または、二つの収音手段１の収音開始が同期されて（即ち、収音が同時に開始されて）収音手段１毎の二つの音データに同期された経過時間が付与されたりなどすることにより、収音時刻や収音経過時間が同期される。

なお、二つの音データのもとになるそれぞれの音が採取される位置を音採取位置Ａ及び音採取位置Ｂと呼ぶ。

本実施形態では、収音手段１は、自身が設置されたポイントにおいて採取した音の音圧信号（測定された音の音圧レベル）をデジタル信号に変換するＡ／Ｄ変換機能を更に備えるようにし、Ａ／Ｄ変換された音圧信号を音圧波形データとして外部に出力する。ただし、収音手段１が音採取機能とＡ／Ｄ変換機能と外部出力機能とを一体的な構成として（言い換えると、一体の機器・装置として）備えることは必須の要件ではなく、音採取機能を有する機器・装置とＡ／Ｄ変換機能を有する機器・装置と外部出力機能を有する機器・装置との集まり・組み合わせとして収音手段１が構成されるようにしても良い。

なお、収音手段１が音圧信号をＡ／Ｄ変換して音圧波形データとして出力する際の量子化ビット数（ビット深度）やサンプリングレート（サンプリング周波数）の値は、特定の値に限定されるものではなく、収音手段１の仕様によって特定されたり、検知対象である音の特性に合わせるなどして適宜選択されたりする。

そして、収音手段１は、例えば数時間から２４時間程度の所定の時間分の音圧信号をＡ／Ｄ変換した音圧波形データ（音圧データと呼ぶ）を一時的に保存した上で音ファイルとしてデータサーバ２に対して出力する。なお、収音手段１とデータサーバ２との間のデータ送信は、有線若しくは無線によって行われても良いし、適当な記憶媒体を介して行われても良い（図２に示す例では、有線によって行われる）。

データサーバ２では、収音手段１から出力された音ファイルが蓄積される。具体的には、データサーバ２には、或る時間帯について、一つの収音手段１の二つのチャンネル分の音ファイル（一つの音ファイル又は二つの音ファイル（収音時刻・収音経過時間が同期されている））、或いは、二つの収音手段１のそれぞれに対応する二つの音ファイル（収音時刻・収音経過時間が同期されている）が蓄積される。すなわち、データサーバ２には、対象箇所・地域における音を離間した位置で同時に採取して得られた一対の音圧データ（収音時刻・収音経過時間が同期されている）が蓄積される。

次に、Ｓ１の処理によって得られた一対の音圧データのそれぞれに対して短時間フーリエ変換処理が施されて周波数強度Ｐ_A，Ｐ_Bが計算される（Ｓ２）。

ここで、本発明の音源位置の推定方法におけるＳ２以降の処理は本発明の音源位置の推定装置によって実行され得る。

そして、本発明の音源位置の推定方法におけるＳ２以降の処理及びこれら処理を実行する音源位置の推定装置は、本発明の音源位置の推定プログラムをコンピュータ上で実行することによっても実現され得る。本明細書では、音源位置の推定方法プログラムをコンピュータ上で実行することによってＳ２以降の処理を実行する音源位置の推定装置が実現されると共に音源位置の推定方法におけるＳ２以降の処理が実行される場合を説明する。

音源位置の推定プログラム１７を実行するためのコンピュータ１０（本実施形態では、音源位置の推定装置１０でもある）の全体構成を図２に示す。このコンピュータ１０（音源位置の推定装置１０）は、制御部１１，記憶部１２，入力部１３，表示部１４，メモリ１５を備え相互にバス等の信号回線によって接続されている。また、コンピュータ１０には記憶装置としてのデータサーバ２がバス等の信号回線によって接続されており、その信号回線を介してデータや制御指令等の信号の送受信（即ち出入力）が相互に行われる。

制御部１１は、記憶部１２に記憶されている音源位置の推定プログラム１７によってコンピュータ１０全体の制御並びに音源位置の推定に係る演算を行うものであり、例えばＣＰＵ（中央演算処理装置）である。

記憶部１２は、少なくともデータやプログラムを記憶可能な装置であり、例えばハードディスクである。

メモリ１５は、制御部１１が種々の制御や演算を実行する際の作業領域であるメモリ空間となるものであり、例えばＲＡＭ(Ｒandom Ａccess Ｍemory の略)である。

入力部１３は、少なくとも作業者の命令を制御部１１に与えるためのインターフェイスであり、例えばキーボードである。

表示部１４は、制御部１１の制御によって文字や図形等の描画・表示を行うものであり、例えばディスプレイである。

そして、本実施形態では、上述のＳ１の処理によって得られた一対の音圧データが、音ファイル１８（単数若しくは複数）としてデータサーバ２に格納(保存)される。

また、後述する処理において算出される計算値を適宜記録(保存)しておくための計算値データファイル１９が、記憶部１２若しくはデータサーバ２或いは他の適当な記憶装置・記憶媒体に格納(保存)される（図２に示す例では記憶部１２に格納）。

そして、コンピュータ１０（本実施形態では、音源位置の推定装置１０でもある）の制御部１１には、音源位置の推定プログラム１７が実行されることにより、Ｓ１の処理において収音手段１によって採取された音の音圧信号がＡ／Ｄ変換されて作成された一対の音圧データを記憶装置としてのデータサーバ２から読み込む処理を行うデータ読込部１１ａと、一対の音圧データのそれぞれに対して短時間フーリエ変換処理を施して時刻ｔ，周波数ｆ〔Hz〕における周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とを計算する処理を行うフーリエ変換部１１ｂと、周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれの中から検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータを抽出する処理を行う領域抽出部１１ｃと、抽出された周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれを正規化して正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とを算出する処理を行う正規化部１１ｄと、正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とのそれぞれについて短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分を計算して正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)とを算出する処理を行う差分算出部１１ｅと、正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)との時間方向の相互相関の値が最大になる相互相関最大時刻を求める処理を行う相互相関計算部１１ｆと、正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)若しくはＰ_dSB(ｆ，ｔ)の自己相関の値が最大になる自己相関最大時刻を求める処理を行う自己相関計算部１１ｇと、自己相関最大時刻と相互相関最大時刻との時間差に音速を掛け合わせて音源位置から一対の音圧データそれぞれの元の音の採取位置までの距離差を算出する処理を行う距離差算出部１１ｈとが構成される。

音源位置の推定プログラム１７が実行されることによる具体的な処理としては、まず、コンピュータ１０（音源位置の推定装置１０）の制御部１１に構成されたデータ読込部１１ａにより、一対の音圧データが読み込まれる（Ｓ２−１）。

具体的には、データ読込部１１ａにより、Ｓ１の処理において作成されてデータサーバ２に格納(保存)されている音ファイル１８（単数若しくは複数）に記録されている一対の音圧データが読み込まれる。

そして、データ読込部１１ａにより、読み込まれた一対の音圧データがメモリ１５に記憶させられる。

続いて、制御部１１のフーリエ変換部１１ｂにより、一対の音圧データのそれぞれに対して短時間フーリエ変換処理が施されて周波数強度Ｐ_A，Ｐ_Bが計算される（Ｓ２−２）。

具体的には、フーリエ変換部１１ｂにより、Ｓ２−１の処理においてメモリ１５に記憶された一対の音圧データ（以下、音採取位置Ａで採取された音に基づく音圧データを音圧データＡとし、音採取位置Ｂで採取された音に基づく音圧データを音圧データＢとする）が読み込まれ、これら音圧データＡ，音圧データＢのそれぞれに対して短時間フーリエ変換処理が施されて時刻ｔ，周波数ｆ〔Hz〕における周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)が計算される。

時刻ｔとしては、収音手段１から音圧データが出力される際に実際の時刻が付与されるなどしている場合にはこの実際の時刻が用いられることが考えられ、一方、実際の時刻と関連づけられていない場合には、収音開始からの（言い換えると、音ファイルの再生開始からの）経過時間が用いられることが考えられる。ここでの説明では、便宜上、実際の時刻も収音(再生)経過時間もどちらも時刻ｔとして扱う。

なお、短時間フーリエ変換を行う際の窓関数やＦＦＴフレーム長や時間領域のずれ量dtは、特定の関数や長さや量に限定されるものではなく、適宜調整され設定される。

そして、フーリエ変換部１１ｂにより、計算された周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)が、時刻ｔ・周波数ｆとの組み合わせデータとして、計算値データファイル１９に記録させられる（言い換えると、書き込まれる）。

次に、制御部１１の領域抽出部１１ｃにより、Ｓ２の処理によって計算された周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれの中から、検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータが抽出される（Ｓ３）。

具体的には、領域抽出部１１ｃにより、Ｓ２−２の処理において計算値データファイル１９に記録された周波数強度Ｐ_A(ｆ，ｔ)及びＰ_B(ｆ，ｔ)のデータ（具体的には、周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)の値と時刻ｔ・周波数ｆとの組み合わせデータ）のそれぞれの中から、検知対象音が発生・継続している時間帯における検知対象音の周波数帯域の周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)の値が読み込まれる。

検知対象音が発生・継続している時間帯は、予め、例えば、音ファイルを再生して作業者・操作者によって手作業的に特定されたり、音ファイルを用いて既存の若しくは新規の適当な方法によって機械的に特定されたりする。ここでは、音圧データＡにおいて検知対象音が発生・継続している時間帯の開始時刻がｔ1とされると共に終了時刻がｔ2(＝ｔ1＋Ｔ)とされ、音圧データＢにおいて検知対象音が発生・継続している時間帯の開始時刻がｔ3とされると共に終了時刻がｔ4(＝ｔ3＋Ｔ)とされる。なお、具体的には例えば、音圧データＡと音圧データＢとのうちで、検知対象音発生の開始時刻の早い方に合わせてｔ1＝ｔ3とされると共に、検知対象音発生・継続の終了時刻の遅い方に合わせてｔ2＝ｔ4とされる。

また、検知対象音の周波数帯域は、特定の帯域に限定されるものではなく、例えば検知対象音の周波数帯が含まれるように、検知対象音に合わせて適宜設定される。検知対象音の周波数帯域は、予め、例えば、検知対象音が発生・継続している時間帯のスペクトログラムに基づいて特定される。ここでは、音圧データＡにおける検知対象音の周波数帯域の下限周波数がｆ1とされると共に上限周波数がｆ2とされ、音圧データＢにおける検知対象音の周波数帯域の下限周波数がｆ3とされると共に上限周波数がｆ4とされる。なお、ｆ1＝ｆ3でもｆ1≠ｆ3でも良く、ｆ2＝ｆ4でもｆ2≠ｆ4でも良い。

したがって、計算値データファイル１９に記録された周波数強度Ｐ_A(ｆ，ｔ)のデータの中から、時刻ｔがｔ1からｔ2まで（即ち、ｔ1≦ｔ≦ｔ2）の範囲を少なくとも含む時間帯における、周波数ｆがｆ1からｆ2まで（即ち、ｆ1≦ｆ≦ｆ2）の範囲の周波数強度Ｐ_A(ｆ，ｔ)の値が読み込まれ、また、周波数強度Ｐ_B(ｆ，ｔ)のデータの中から、時刻ｔがｔ3からｔ4まで（即ち、ｔ3≦ｔ≦ｔ4）の範囲を少なくとも含む時間帯における、周波数ｆがｆ3からｆ4まで（即ち、ｆ3≦ｆ≦ｆ4）の範囲の周波数強度Ｐ_B(ｆ，ｔ)の値が読み込まれる。

そして、領域抽出部１１ｃにより、抽出された周波数強度Ｐ_A(ｆ，ｔ)の値（ただし、ｔ1≦ｔ≦ｔ2（或いは、ｔ1≦ｔ≦ｔ2を含む時間帯；以下同じ）且つｆ1≦ｆ≦ｆ2）及びＰ_B(ｆ，ｔ)の値（ただし、ｔ3≦ｔ≦ｔ4（或いは、ｔ3≦ｔ≦ｔ4を含む時間帯；以下同じ）且つｆ3≦ｆ≦ｆ4）が、時刻ｔ・周波数ｆとの組み合わせデータとしてメモリ１５に記憶させられる。

次に、制御部１１の正規化部１１ｄにより、Ｓ３の処理によって抽出された周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれが正規化される（Ｓ４）。

具体的には、正規化部１１ｄにより、Ｓ３の処理においてメモリ１５に記憶された周波数強度Ｐ_A(ｆ，ｔ)の値（ただし、ｔ1≦ｔ≦ｔ2 且つｆ1≦ｆ≦ｆ2）及びＰ_B(ｆ，ｔ)の値（ただし、ｔ3≦ｔ≦ｔ4 且つｆ3≦ｆ≦ｆ4）が読み込まれ、これら周波数強度Ｐ_A(ｆ，ｔ)及びＰ_B(ｆ，ｔ)の最大値及び最小値が求められると共に、例えば最大１，最小０になるように周波数強度Ｐ_A(ｆ，ｔ)及びＰ_B(ｆ，ｔ)のそれぞれが正規化される。

すなわち、周波数強度Ｐ_A(ｆ，ｔ)（ｔ1≦ｔ≦ｔ2，ｆ1≦ｆ≦ｆ2）及びＰ_B(ｆ，ｔ)（ｔ3≦ｔ≦ｔ4，ｆ3≦ｆ≦ｆ4）の、最大値をｍａｘとすると共に、最小値をｍｉｎとすると、周波数強度Ｐ_A(ｆ，ｔ)の正規化後の値Ｐ_SA(ｆ，ｔ)は数式１ａによって算出され、周波数強度Ｐ_B(ｆ，ｔ)の正規化後の値Ｐ_SB(ｆ，ｔ)は数式１ｂによって算出される。

（数１ａ）Ｐ_SA(ｆ，ｔ)＝[Ｐ_A(ｆ，ｔ)−ｍｉｎ]／[ｍａｘ−ｍｉｎ]
（数１ｂ）Ｐ_SB(ｆ，ｔ)＝[Ｐ_B(ｆ，ｔ)−ｍｉｎ]／[ｍａｘ−ｍｉｎ]

そして、正規化部１１ｄにより、算出された正規化後周波数強度Ｐ_SA(ｆ，ｔ)の値及びＰ_SB(ｆ，ｔ)の値が、時刻ｔ・周波数ｆとの組み合わせデータとしてメモリ１５に記憶させられる。

さらに、正規化部１１ｄにより、周波数強度の最大値ｍａｘの値が周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのどちらに属しているかが判断され、その情報（言い換えると、判断結果）が周波数強度最大値情報としてメモリ１５に記憶させられる。

次に、制御部１１の差分算出部１１ｅにより、Ｓ４の処理によって算出された正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とのそれぞれについて、時刻ｔ別のＰ_SA(ｆ，ｔ)，Ｐ_SB(ｆ，ｔ)毎に、短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量dt前の値との差分が算出される（Ｓ５）。

具体的には、差分算出部１１ｅにより、Ｓ４の処理においてメモリ１５に記憶された正規化後周波数強度Ｐ_SA(ｆ，ｔ)の値及びＰ_SB(ｆ，ｔ)の値が読み込まれ、数式２ａ，２ｂによって差分Ｐ_dSA(ｆ，ｔ)，Ｐ_dSB(ｆ，ｔ)が算出される。

（数２ａ）Ｐ_dSA(ｆ，ｔ)＝Ｐ_SA(ｆ，ｔ)−Ｐ_SA(ｆ，ｔ−dt)
（数２ｂ）Ｐ_dSB(ｆ，ｔ)＝Ｐ_SB(ｆ，ｔ)−Ｐ_SB(ｆ，ｔ−dt)

なお、数式２ａについては、ｔが[ｔ1＋dt]からｔ2までの範囲で算出される。また、数式２ｂについては、ｔが[ｔ3＋dt]からｔ4までの範囲で算出される。

そして、差分算出部１１ｅにより、算出された正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)の値及びＰ_dSB(ｆ，ｔ)の値が、時刻ｔ・周波数ｆとの組み合わせデータとしてメモリ１５に記憶させられる。

次に、制御部１１の相互相関計算部１１ｆにより、Ｓ５の処理によって算出された正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)及びＰ_dSB(ｆ，ｔ)を用い、Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)との時間方向の相互相関の値が最大になる時刻が求められる（Ｓ６）。

具体的には、相互相関計算部１１ｆにより、Ｓ５の処理においてメモリ１５に記憶された正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)の値及びＰ_dSB(ｆ，ｔ)の値が読み込まれ、両データの時間方向の相互相関ｒ_dSAB(ｆ，ｔ)が計算される。

さらに、相互相関計算部１１ｆにより、計算された相互相関ｒ_dSAB(ｆ，ｔ)の値が最大である要素の時刻ｔ_{rAB_max}（相互相関最大時刻ｔ_{rAB_max}と呼ぶ）が求められる。

そして、相互相関計算部１１ｆにより、求められた相互相関最大時刻ｔ_{rAB_max}がメモリ１５に記憶させられる。

次に、制御部１１の自己相関計算部１１ｇにより、Ｓ５の処理によって算出された正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)若しくはＰ_dSB(ｆ，ｔ)を用い、Ｐ_dSA(ｆ，ｔ)若しくはＰ_dSB(ｆ，ｔ)の自己相関の値が最大になる時刻が求められる（Ｓ７）。

具体的には、自己相関計算部１１ｇにより、Ｓ５の処理においてメモリ１５に記憶された正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)の値が読み込まれ、時間方向の自己相関ｒ_dSA(ｆ，ｔ)が計算される。

あるいは、自己相関計算部１１ｇにより、Ｓ５の処理においてメモリ１５に記憶された正規化後周波数強度の差分Ｐ_dSB(ｆ，ｔ)の値が読み込まれ、時間方向の自己相関ｒ_dSB(ｆ，ｔ)が計算される。

さらに、自己相関計算部１１ｇにより、計算された自己相関ｒ_dSA(ｆ，ｔ)の値が最大である要素の時刻ｔ_{rA_max}（自己相関最大時刻ｔ_{rA_max}と呼ぶ）若しくは自己相関ｒ_dSB(ｆ，ｔ)の値が最大である要素の時刻ｔ_{rB_max}（自己相関最大時刻ｔ_{rB_max}と呼ぶ）が求められる。なお、自己相関最大時刻であるｔ_{rA_max}とｔ_{rB_max}とは同じ値になる。したがって、自己相関であるｒ_dSA(ｆ，ｔ)とｒ_dSB(ｆ，ｔ)とのどちらが計算されて自己相関最大時刻であるｔ_{rA_max}とｔ_{rB_max}とのどちらが求められても良い。

そして、自己相関計算部１１ｇにより、求められた自己相関最大時刻ｔ_{rA_max}若しくはｔ_{rB_max}がメモリ１５に記憶させられる。

次に、制御部１１の距離差算出部１１ｈにより、Ｓ６の処理によって求められた相互相関最大時刻ｔ_{rAB_max}、及び、Ｓ７の処理によって求められた自己相関最大時刻ｔ_{rA_max}若しくはｔ_{rB_max}を用い、音源位置と各音採取位置Ａ，Ｂとの距離差が算出される（Ｓ８）。

具体的には、距離差算出部１１ｈにより、Ｓ６の処理においてメモリ１５に記憶された相互相関最大時刻ｔ_{rAB_max}が読み込まれると共に、Ｓ７の処理においてメモリ１５に記憶された自己相関最大時刻ｔ_{rA_max}若しくはｔ_{rB_max}が読み込まれる。

そして、距離差算出部１１ｈにより、自己相関最大時刻と相互相関最大時刻との時間差Δｔ＝｜ｔ_{rA_max}−ｔ_{rAB_max}｜若しくはΔｔ＝｜ｔ_{rB_max}−ｔ_{rAB_max}｜が算出される。

上述の処理で算出される時間差Δｔは、対象箇所・地域において離間した位置（具体的には、音採取位置Ａ，音採取位置Ｂ）で取得された一対の音圧データにおける時間方向のずれ量である。

さらに、距離差算出部１１ｈにより、時間差Δｔと音速とをかけ合わせて、音源位置から音採取位置Ａまでと音源位置から音採取位置Ｂまでとの距離差Δｘが算出される。

なお、Ｓ４の処理においてメモリ１５に記憶されてＳ７の処理において読み込まれた周波数強度最大値情報が、周波数強度の最大値ｍａｘの値が周波数強度Ｐ_A(ｆ，ｔ)に属しているとの内容である場合には音源位置は音採取位置Ａの方に近いと判断され、一方、周波数強度の最大値ｍａｘの値が周波数強度Ｐ_B(ｆ，ｔ)に属しているとの内容である場合には音源位置は音採取位置Ｂの方に近いと判断される。

そして、距離差算出部１１ｈにより、音源位置から音採取位置Ａまでと音源位置から音採取位置Ｂまでとの距離差Δｘの値がメモリ１５に記憶させられる。

以上により、音源位置が音採取位置Ａと音採取位置Ｂとのどちらに近いかが求められると共に音源位置から音採取位置Ａまでと音源位置から音採取位置Ｂまでとの距離差Δｘが求められる。これにより、音採取位置Ａと音採取位置Ｂとの間の距離は既知であることも考慮すると、所定の間隔（既知）である音採取位置Ａと音採取位置Ｂとのうちの一方に近く且つこれら音採取位置Ａ，Ｂからの距離の差が一定であるという条件式（音源位置条件式と呼ぶ）を満たす点として音源位置が特定される。

そこで、例えば、対象箇所・地域が適当な大きさの矩形のブロックに分割され、検知対象音が発生する可能性があるか否かの情報（言い換えると、検知対象音の音源位置になり得るか否かの情報）が合わせて考慮されて音源位置がブロックレベルで特定されるようにしても良い。

あるいは、同一平面内の離間した位置で二つの音データを取得する上述の仕組みが対象箇所・地域に対して複数設置され、仕組み毎に算出される距離差Δｘに基づいて導出される複数の音源位置条件式を満たす点として音源位置が特定されるようにしても良い。なお、複数の音源位置条件式を満たす点として条件式の交点が複数求められた場合には、これら複数の交点の重心位置が音源位置とされるなどのように複数の情報に基づいて尤もらしい音源位置が推定される。なお、この場合には、各仕組みの内部での二つの音データに係る実際の時刻や収音開始からの経過時間は同期される必要があるものの、複数の仕組みの間での音データに係る実際の時刻や収音開始からの経過時間が同期される必要はない（すなわち、複数の仕組みの間で、同じ鳴き声の対応がとれれば良い）。

あるいは、同一平面内の離間した位置に設置された三つ以上の例えばマイクロフォンによって三つ以上の音データが取得され、これら音データの中から二つが選択されて一対の音データの組み合わせ毎に上述の処理が繰り返し実行され、一対の音データ毎に算出される距離差Δｘに基づいて導出される複数の音源位置条件式を満たす点として音源位置が特定されるようにしても良い。なお、この場合には、全ての音データの間で、実際の時刻や収音開始からの経過時間が同期される必要がある。

なお、検知対象音が継続している場合に、上述の処理が繰り返し行われることによって、距離差Δｘが一定であるか変化しているかにより、音源位置が、即ち、検知対象音を発生させているものが、移動しているか停止しているかの判断が可能である。

以上のように構成された本発明の音源位置の推定方法、推定装置及び推定プログラムによれば、正規化後周波数強度Ｐ_SAとＰ_SBとのそれぞれについて短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量dt前の値との差分Ｐ_dSAとＰ_dSBとを計算してからこれら差分Ｐ_dSA，Ｐ_dSBに関する自己相関最大時刻ｔ_{rA_max}，ｔ_{rB_max}と相互相関最大時刻ｔ_{rAB_max}との時間差に音速を掛け合わせるようにしているので、自己相関最大時刻及び相互相関最大時刻を顕著・明瞭に現させることができる。このため、それらの時間差Δｔを正確に算出することができるので、音源位置の推定精度の向上を図ることが可能になる。

なお、上述の形態は本発明の好適な実施の形態の一例ではあるものの本発明の具体的な実施の形態が上述の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変形実施可能である。例えば、上述の実施形態ではデータサーバ２と音源位置の推定装置１０との各々を独立した装置として有するようにして収音手段１からデータサーバ２を経由して音源位置の推定装置１０に音圧データが入力されるようにしているが、これに限られず、収音手段１から音源位置の推定装置１０に音圧データが直接入力される（言い換えると、データサーバ２と音源位置の推定装置１０とを一体の装置で構成する。具体的には、音源位置の推定装置１０の記憶部１２を、収音手段１から出力された音圧データを蓄積する記憶装置として利用する）ようにしても良い。さらに言えば、収音手段１から出力された音圧データは、音源位置の推定装置１０に入力されるのであれば、どのような経路・装置・媒体を経由しても構わない。

また、上述の実施形態では周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)のデータが記憶部１２若しくはデータサーバ２或いは他の適当な記憶装置・記憶媒体に格納(保存)された計算値データファイル１９に記録(保存)されるようにしているが、これに限られず、メモリ１５に記録(保存)されるようにしても良い。また、上述の実施形態では種々の算出結果がメモリ１５に記憶されて適宜読み込まれるようにしているが、これに限られず、記憶部１２若しくはデータサーバ２或いは他の適当な記憶装置・記憶媒体に格納(保存)されたデータファイルに記録(保存)されて適宜読み込まれるようにしても良い。

また、上述の実施形態では、Ｓ４の処理における周波数強度の最大値ｍａｘの値が周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのどちらに属しているかの判断に基づいて音源位置が音採取位置Ａと音採取位置Ｂとのどちらの方に近いか判断するようにしているが、音源位置が音採取位置のどちらに近いかの判断方法はこれに限定されるものではなく、音採取位置Ａと音採取位置Ｂとのどちらに先に音が到達したかに基づいて判断するようにしても良い。具体的には、Ｓ３の処理において用いられる音圧データＡにおける検知対象音発生・継続時間帯の開始時刻ｔ1と音圧データＢにおける検知対象音発生・継続時間帯の開始時刻ｔ3とのどちらが先かによって音源位置が音採取位置Ａと音採取位置Ｂとのどちらの方に近いかを判断したり、チャンネル別の音圧波形データにおいてどちらのチャンネルが先に音圧レベルが高くなっているかによって音源位置が音採取位置Ａと音採取位置Ｂとのどちらの方に近いかを判断したり、自己相関最大時刻ｔ_{r_max}（＝ｔ_{rA_max}＝ｔ_{rB_max}）における自己相関ｒ_dSA(ｆ，ｔ_{r_max})とｒ_dSB(ｆ，ｔ_{r_max})とのどちらが大きいかによって音源位置が音採取位置Ａと音採取位置Ｂとのどちらの方に近いかを判断したりするようにしても良い。

また、上述の実施形態では、水平方向において離間した音採取位置Ａと音採取位置Ｂとにおいて音を採取するようにしているが、複数の音採取位置の位置関係はこれに限定されるものではなく、例えば検知対象音の発生位置が調査される対象箇所・地域の状況や検知対象音の発生可能性（言い換えると、音源位置の可能性）などを考慮して複数の音採取位置が垂直方向において上下に離間しているようにしても良い。さらに言えば、水平方向において離間した複数の音採取位置と垂直方向において離間した複数の音採取位置とを組み合わせるようにしても良く、この場合には立体空間に於ける音源位置を特定することができる。なお、水平方向離間の音採取位置と垂直方向離間の音採取位置とを組み合わる場合には、一部の音採取位置を水平方向離間の音採取位置と垂直方向離間の音採取位置とに共通するものとして用いられるようにしても良い。

ここで、上述の実施形態では、Ｓ３の処理において、周波数強度Ｐ_A(ｆ，ｔ)及びＰ_B(ｆ，ｔ)のデータのそれぞれの中から検知対象音が発生・継続している時間帯における検知対象音の周波数帯域のデータが抽出される際に、検知対象音が発生・継続している時間帯が、予め、例えば、音ファイルを再生して作業者・操作者によって手作業的に特定されたり、音ファイルを用いて既存の若しくは新規の適当な方法によって機械的に特定されたりするようにしている。以下に、検知対象音が発生・継続している時間帯を機械的に特定する方法の一例について説明する。

＜検知対象音発生・継続時間帯の機械的特定方法について＞
検知対象音発生・継続時間帯を機械的に特定する場合の音源位置の推定方法は、図３に示すように、図１に示される音源位置の推定方法における検知対象音の周波数強度データの抽出（Ｓ３）の処理として、音採取位置Ａで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度Ｐ_A(ｆ，ｔ)及び音採取位置Ｂで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度Ｐ_B(ｆ，ｔ)が用いられて、時刻ｔ₀におけるターゲット周波数帯域の周波数強度Ｐ_A(ｆ，ｔ₀)，Ｐ_B(ｆ，ｔ₀)それぞれの平均値であるターゲット平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)が算出されるステップ（Ｓ３−１）と、時刻ｔ₀における対照周波数帯域の周波数強度Ｐ_A(ｆ，ｔ₀)，Ｐ_B(ｆ，ｔ₀)それぞれの平均値である対照平均周波数強度Ｐc_A(ｔ₀)，Ｐc_B(ｔ₀)が算出されるステップ（Ｓ３−２）と、ターゲット平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)それぞれが第一の閾値Ｔ1と比較されると共に、対照平均周波数強度Ｐc_A(ｔ₀)に対するターゲット平均周波数強度Ｐt_A(ｔ₀)の比及び対照平均周波数強度Ｐc_B(ｔ₀)に対するターゲット平均周波数強度Ｐt_B(ｔ₀)の比が第二の閾値Ｔ2と比較され、Ｐt_A(ｔ₀)＞Ｔ1 且つＰt_A(ｔ₀)／Ｐc_A(ｔ₀)＞Ｔ2 であるときに時刻ｔ₀において音採取位置Ａで検知対象音が採取されたと判断されると共にＰt_B(ｔ₀)＞Ｔ1 且つＰt_B(ｔ₀)／Ｐc_B(ｔ₀)＞Ｔ2 であるときに時刻ｔ₀において音採取位置Ｂで検知対象音が採取されたと判断されるステップ（Ｓ３−３）とを有する。

また、検知対象音発生・継続時間帯を機械的に特定する場合の音源位置の推定装置は、図２に示される音源位置の推定装置の構成に加え、音採取位置Ａで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度Ｐ_A(ｆ，ｔ)及び音採取位置Ｂで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度Ｐ_B(ｆ，ｔ)を用いて、時刻ｔ₀におけるターゲット周波数帯域の周波数強度Ｐ_A(ｆ，ｔ₀)，Ｐ_B(ｆ，ｔ₀)それぞれの平均値であるターゲット平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)を算出する手段(１１ｉ)と、時刻ｔ₀における対照周波数帯域の周波数強度Ｐ_A(ｆ，ｔ₀)，Ｐ_B(ｆ，ｔ₀)それぞれの平均値である対照平均周波数強度Ｐc_A(ｔ₀)，Ｐc_B(ｔ₀)を算出する手段(１１ｊ)と、ターゲット平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)それぞれを第一の閾値Ｔ1と比較すると共に、対照平均周波数強度Ｐc_A(ｔ₀)に対するターゲット平均周波数強度Ｐt_A(ｔ₀)の比及び対照平均周波数強度Ｐc_B(ｔ₀)に対するターゲット平均周波数強度Ｐt_B(ｔ₀)の比を第二の閾値Ｔ2と比較し、Ｐt_A(ｔ₀)＞Ｔ1 且つＰt_A(ｔ₀)／Ｐc_A(ｔ₀)＞Ｔ2 であるときに時刻ｔ₀において音採取位置Ａで検知対象音が採取されたと判断すると共にＰt_B(ｔ₀)＞Ｔ1 且つＰt_B(ｔ₀)／Ｐc_B(ｔ₀)＞Ｔ2 であるときに時刻ｔ₀において音採取位置Ｂで検知対象音が採取されたと判断する手段(１１ｋ)とを更に有する。

さらに、検知対象音発生・継続時間帯を機械的に特定する場合の音源位置の推定プログラムは、上述の実施形態の音源位置の推定プログラムの機能に加え、コンピュータを、音採取位置Ａで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度Ｐ_A(ｆ，ｔ)及び音採取位置Ｂで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度Ｐ_B(ｆ，ｔ)を用いて、時刻ｔ₀におけるターゲット周波数帯域の周波数強度Ｐ_A(ｆ，ｔ₀)，Ｐ_B(ｆ，ｔ₀)それぞれの平均値であるターゲット平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)を算出する手段(１１ｉ)、時刻ｔ₀における対照周波数帯域の周波数強度Ｐ_A(ｆ，ｔ₀)，Ｐ_B(ｆ，ｔ₀)それぞれの平均値である対照平均周波数強度Ｐc_A(ｔ₀)，Ｐc_B(ｔ₀)を算出する手段(１１ｊ)、ターゲット平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)それぞれを第一の閾値Ｔ1と比較すると共に、対照平均周波数強度Ｐc_A(ｔ₀)に対するターゲット平均周波数強度Ｐt_A(ｔ₀)の比及び対照平均周波数強度Ｐc_B(ｔ₀)に対するターゲット平均周波数強度Ｐt_B(ｔ₀)の比を第二の閾値Ｔ2と比較し、Ｐt_A(ｔ₀)＞Ｔ1 且つＰt_A(ｔ₀)／Ｐc_A(ｔ₀)＞Ｔ2 であるときに時刻ｔ₀において音採取位置Ａで検知対象音が採取されたと判断すると共にＰt_B(ｔ₀)＞Ｔ1 且つＰt_B(ｔ₀)／Ｐc_B(ｔ₀)＞Ｔ2 であるときに時刻ｔ₀において音採取位置Ｂで検知対象音が採取されたと判断する手段(１１ｋ)として更に機能させる。

そして、検知対象音発生・継続時間帯を機械的に特定する場合のコンピュータ１０（音源位置の推定装置１０）の制御部１１には、図４に示すように、音源位置の推定プログラム１７が実行されることにより、図２に示す構成に加え、音採取位置Ａで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度Ｐ_A(ｆ，ｔ)及び音採取位置Ｂで採取された音の音圧データに対して短時間フーリエ変換処理が施されて計算された周波数強度Ｐ_B(ｆ，ｔ)を用いて、時刻ｔ₀におけるターゲット周波数帯域の周波数強度Ｐ_A(ｆ，ｔ₀)，Ｐ_B(ｆ，ｔ₀)それぞれの平均値であるターゲット平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)を算出する処理を行うターゲット平均値算出部１１ｉと、時刻ｔ₀における対照周波数帯域の周波数強度Ｐ_A(ｆ，ｔ₀)，Ｐ_B(ｆ，ｔ₀)それぞれの平均値である対照平均周波数強度Ｐc_A(ｔ₀)，Ｐc_B(ｔ₀)を算出する処理を行う対照平均値算出部１１ｊと、ターゲット平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)それぞれを第一の閾値Ｔ1と比較すると共に、対照平均周波数強度Ｐc_A(ｔ₀)に対するターゲット平均周波数強度Ｐt_A(ｔ₀)の比及び対照平均周波数強度Ｐc_B(ｔ₀)に対するターゲット平均周波数強度Ｐt_B(ｔ₀)の比を第二の閾値Ｔ2と比較し、Ｐt_A(ｔ₀)＞Ｔ1 且つＰt_A(ｔ₀)／Ｐc_A(ｔ₀)＞Ｔ2 であるときに時刻ｔ₀において音採取位置Ａで検知対象音が採取されたと判断すると共にＰt_B(ｔ₀)＞Ｔ1 且つＰt_B(ｔ₀)／Ｐc_B(ｔ₀)＞Ｔ2 であるときに時刻ｔ₀において音採取位置Ｂで検知対象音が採取されたと判断する処理を行う判定部１１ｋとが更に構成される。

検知対象音発生・継続時間帯を機械的に特定する場合の、音源位置の推定プログラム１７が実行されることによる、検知対象音の周波数強度データの抽出（Ｓ３）の具体的な処理としては、まず、制御部１１のターゲット平均値算出部１１ｉにより、Ｓ２の処理によって計算された周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)が用いられて、時刻ｔ₀におけるターゲット周波数帯域の周波数強度Ｐ_A(ｆ，ｔ₀)，Ｐ_B(ｆ，ｔ₀)それぞれの平均値であるターゲット平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)が算出される（Ｓ３−１）。

ここで、以降のＳ３−１からＳ３−３までの処理の説明では或る時刻ｔ₀に関する処理として説明するが、実際の適用に際しては時刻を変えながら（ずらしながら）Ｓ３−１からＳ３−３までの処理が繰り返される。

ターゲット平均値算出部１１ｉにより、Ｓ２−２の処理において計算値データファイル１９に記録された周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)のそれぞれのデータ（具体的には、周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)の値と時刻ｔ・周波数ｆとの組み合わせデータ）の中から、時刻ｔ₀におけるターゲット周波数帯域の周波数強度Ｐ_A(ｆ，ｔ₀)，Ｐ_B(ｆ，ｔ₀)の値が読み込まれる。

ターゲット周波数帯域は検知対象音が含まれると想定される周波数帯域のことであり、言い換えると検知対象音の周波数強度が現れる周波数帯域のことであり、その範囲（即ち、下限周波数及び上限周波数）は検知対象音に合わせて適宜設定される。ここでは、上述の実施形態と同様に、音圧データＡにおけるターゲット周波数帯域の下限周波数がｆ1とされると共に上限周波数がｆ2とされ、音圧データＢにおけるターゲット周波数帯域の下限周波数がｆ3とされると共に上限周波数がｆ4とされる。

したがって、計算値データファイル１９に記録された周波数強度Ｐ_A(ｆ，ｔ)のデータの中から、時刻ｔ₀における、周波数ｆがｆ1からｆ2まで（即ち、ｆ1≦ｆ≦ｆ2）の範囲の周波数強度Ｐ_A(ｆ，ｔ₀)の値が読み込まれ、また、周波数強度Ｐ_B(ｆ，ｔ)のデータの中から、時刻ｔ₀における、周波数ｆがｆ3からｆ4まで（即ち、ｆ3≦ｆ≦ｆ4）の範囲の周波数強度Ｐ_B(ｆ，ｔ₀)の値が読み込まれる。

ターゲット周波数帯域の下限周波数ｆ1，ｆ3及び上限周波数ｆ2，ｆ4は、特定の値に限定されるものではなく、例えば検知対象音の周波数帯が含まれるように、検知対象音に合わせて適宜設定される。

そして、ターゲット平均値算出部１１ｉにより、数式３によって、時刻ｔ₀における周波数強度Ｐ_A(ｆ，ｔ₀)（ただし、ｆ1≦ｆ≦ｆ2）の平均値であるターゲット平均周波数強度Ｐt_A(ｔ₀)が算出されると共に、数式４によって、時刻ｔ₀における周波数強度Ｐ_B(ｆ，ｔ₀)（ただし、ｆ3≦ｆ≦ｆ4）の平均値であるターゲット平均周波数強度Ｐt_B(ｔ₀)が算出される。

なお、数式３，４中のＮ_A，Ｎ_Bは、ｋの個数であり、すなわち、Ｎ_Aは周波数がｆ1からｆ2までの周波数強度Ｐ_A(ｆ，ｔ₀)の個数であり、Ｎ_Bは周波数がｆ3からｆ4までの周波数強度Ｐ_B(ｆ，ｔ₀)の個数である。この周波数強度Ｐ_A(ｆ，ｔ₀)，Ｐ_B(ｆ，ｔ₀)それぞれの個数は、収音手段１によるサンプリングレート（サンプリング周波数）及び短時間フーリエ変換を行う際のＦＦＴフレーム長によって決まり、時刻ｔ₀における周波数がｆ1からｆ2までのデータとして計算値データファイル１９から抽出される周波数強度Ｐ_A(ｆ，ｔ)の個数であり、或いは、時刻ｔ₀における周波数がｆ3からｆ4までのデータとして計算値データファイル１９から抽出される周波数強度Ｐ_B(ｆ，ｔ)の個数である。ただし、収音手段１によって採取されて計算値データファイル１９に記録された周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)のデータを間引いて用いるようにしても良く、その場合には実際に抽出された周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)それぞれの個数である。

そして、ターゲット平均値算出部１１ｉにより、算出されたターゲット平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)の値が、時刻ｔ₀との組み合わせデータとしてメモリ１５に記憶させられる。

次に、制御部１１の対照平均値算出部１１ｊにより、Ｓ２の処理によって計算された周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)が用いられて、時刻ｔ₀における対照周波数帯域の周波数強度Ｐ_A(ｆ，ｔ₀)，Ｐ_B(ｆ，ｔ₀)それぞれの平均値である対照平均周波数強度Ｐc_A(ｔ₀)，Ｐc_B(ｔ₀)が算出される（Ｓ３−２）。

具体的には、対照平均値算出部１１ｊにより、Ｓ２−２の処理において計算値データファイル１９に記録された周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)のそれぞれのデータの中から、時刻ｔ₀における対照周波数帯域の周波数強度Ｐ_A(ｆ，ｔ₀)，Ｐ_B(ｆ，ｔ₀)の値が読み込まれる。

対照周波数帯域は検知対象音が含まれない（その一方で、検知対象音以外の音が含まれる）と想定される周波数帯域のことであり、言い換えると検知対象音の周波数強度は現れない一方で検知対象音以外の音の周波数強度は現れる周波数帯域のことであり、その範囲（即ち、下限周波数及び上限周波数）は検知対象音に合わせて適宜設定される。ここでは、音圧データＡにおける対照周波数帯域の下限周波数がｆ5とされると共に上限周波数がｆ6とされ、音圧データＢにおける対照周波数帯域の下限周波数がｆ7とされると共に上限周波数がｆ8とされる。

したがって、計算値データファイル１９に記録された周波数強度Ｐ_A(ｆ，ｔ)のデータの中から、時刻ｔ₀における、周波数ｆがｆ5からｆ6まで（即ち、ｆ5≦ｆ≦ｆ6）の範囲の周波数強度Ｐ_A(ｆ，ｔ₀)の値が読み込まれ、また、周波数強度Ｐ_B(ｆ，ｔ)のデータの中から、時刻ｔ₀における、周波数ｆがｆ7からｆ8まで（即ち、ｆ7≦ｆ≦ｆ8）の範囲の周波数強度Ｐ_B(ｆ，ｔ₀)の値が読み込まれる。

対照周波数帯域の下限周波数ｆ5，ｆ7及び上限周波数ｆ6，ｆ8は、特定の値に限定されるものではなく、例えば検知対象音の周波数帯が含まれないように、検知対象音に合わせて適宜設定される。なお、ターゲット周波数帯域と対照周波数帯域とのそれぞれの考え方から明らかなように、音圧データＡ，Ｂ毎のターゲット周波数帯域と対照周波数帯域とは重複しない（具体的には、周波数ｆ1〜ｆ2と周波数ｆ3〜ｆ4とは重複せず、周波数ｆ5〜ｆ6と周波数ｆ7〜ｆ8とは重複しない）範囲で設定される。

そして、対照平均値算出部１１ｊにより、数式５によって、時刻ｔ₀における周波数強度Ｐ_A(ｆ，ｔ₀)（ただし、ｆ5≦ｆ≦ｆ6）の平均値である対照平均周波数強度Ｐc_A(ｔ₀)が算出されると共に、数式６によって、時刻ｔ₀における周波数強度Ｐ_B(ｆ，ｔ₀)（ただし、ｆ7≦ｆ≦ｆ8）の平均値である対照平均周波数強度Ｐc_B(ｔ₀)が算出される。

なお、数式５，６中のＭ_A，Ｍ_Bは、ｌの個数であり、すなわち、Ｍ_Aは周波数がｆ5からｆ6までの周波数強度Ｐ_A(ｆ，ｔ₀)の個数であり、Ｍ_Bは周波数がｆ7からｆ8までの周波数強度Ｐ_B(ｆ，ｔ₀)の個数である。この周波数強度Ｐ_A(ｆ，ｔ₀)，Ｐ_B(ｆ，ｔ₀)それぞれの個数は、収音手段１によるサンプリングレート（サンプリング周波数）及び短時間フーリエ変換を行う際のＦＦＴフレーム長によって決まり、時刻ｔ₀における周波数がｆ5からｆ6までのデータとして計算値データファイル１９から抽出される周波数強度Ｐ_A(ｆ，ｔ)の個数であり、或いは、時刻ｔ₀における周波数がｆ7からｆ8までのデータとして計算値データファイル１９から抽出される周波数強度Ｐ_B(ｆ，ｔ)の個数である。ただし、収音手段１によって採取されて計算値データファイル１９に記録された周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)のデータを間引いて用いるようにしても良く、その場合には実際に抽出された周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)それぞれの個数である。

そして、対照平均値算出部１１ｊにより、算出された対照平均周波数強度Ｐc_A(ｔ₀)，Ｐc_B(ｔ₀)の値が、時刻ｔ₀との組み合わせデータとしてメモリ１５に記憶させられる。

次に、制御部１１の判定部１１ｋにより、Ｓ３−１の処理によって算出された時刻ｔ₀におけるターゲット平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)及びＳ３−２の処理によって算出された時刻ｔ₀における対照平均周波数強度Ｐc_A(ｔ₀)，Ｐc_B(ｔ₀)が用いられて、ターゲット平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)それぞれが第一の閾値と比較されると共に、対照平均周波数強度Ｐc_A(ｔ₀)に対するターゲット平均周波数強度Ｐt_A(ｔ₀)の比及び対照平均周波数強度Ｐc_B(ｔ₀)に対するターゲット平均周波数強度Ｐt_B(ｔ₀)の比が第二の閾値Ｔ2と比較され、時刻ｔ₀において検知対象音が採取されたか否かが判断される（Ｓ３−３）。

具体的には、判定部１１ｋにより、Ｓ３−１の処理においてメモリ１５に記憶された時刻ｔ₀におけるターゲット平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)の値が読み込まれると共に、Ｓ３−２の処理においてメモリ１５に記憶された時刻ｔ₀における対照平均周波数強度Ｐc_A(ｔ₀)，Ｐc_B(ｔ₀)の値が読み込まれる。

そして、まず、判定部１１ｋにより、ターゲット平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)の値それぞれと第一の閾値Ｔ1とが比較され、Ｐt_A(ｔ₀)＞Ｔ1，Ｐt_B(ｔ₀)＞Ｔ1であるか否かが判断される。

第一の閾値Ｔ1は、ターゲット周波数帯域に関する周波数強度Ｐの値は検知対象音が発生しているときには検知対象音が発生していないときと比べて大きくなっているとの考えの下、ターゲット平均周波数強度Ｐt_A，Ｐt_Bの値が或る程度よりも大きくなっているか否かを判断するための閾値である。

第一の閾値Ｔ1は、特定の値に限定されるものではなく、例えばターゲット周波数帯域に関する検知対象音が発生していない時の周波数強度Ｐの値（即ち、背景音の周波数強度）や検知対象音の音圧（検知対象音自体の周波数強度）などを考慮して検知対象音に合わせて適宜設定される。具体的には、あくまで一例として挙げると、検知対象音が発生していない時のターゲット周波数帯域の周波数強度Ｐの平均値にされたり、検知対象音が発生していない時のターゲット周波数帯域の周波数強度Ｐの平均値と検知対象音が発生している時のターゲット周波数帯域の周波数強度Ｐの平均値との中間の値にされたりすることが考えられる。

続いて、判定部１１ｋにより、対照平均周波数強度Ｐc_A(ｔ₀)の値に対するターゲット平均周波数強度Ｐt_A(ｔ₀)の値の比と第二の閾値Ｔ2とが比較されてＰt_A(ｔ₀)／Ｐc_A(ｔ₀)＞Ｔ2であるか否かが判断され、また、対照平均周波数強度Ｐc_B(ｔ₀)の値に対するターゲット平均周波数強度Ｐt_B(ｔ₀)の値の比と第二の閾値Ｔ2とが比較されてＰt_B(ｔ₀)／Ｐc_B(ｔ₀)＞Ｔ2であるか否かが判断される。

第二の閾値Ｔ2は、検知対象音が発生しているときのターゲット周波数帯域における周波数強度Ｐの値は他の周波数帯域（即ち、対照周波数帯域）における周波数強度Ｐの値と比べて大きくなっているとの考えの下、対照平均周波数強度Ｐc_A，Ｐc_Bの値に対するターゲット平均周波数強度Ｐt_A，Ｐt_Bの値の比が一定の大きさ以上になっているか否かを判断するための閾値である。

第二の閾値Ｔ2は、特定の値に限定されるものではなく、例えば、検知対象音が発生している時のターゲット周波数帯域の周波数強度Ｐの値とその時の対照周波数帯域の周波数強度Ｐの値とを考慮して検知対象音に合わせて適宜設定される。具体的には、あくまで一例として挙げると、１．２〜５程度の範囲で設定されることが考えられる。

そして、判定部１１ｋにより、Ｐt_A(ｔ₀)＞Ｔ1 且つＰt_A(ｔ₀)／Ｐc_A(ｔ₀)＞Ｔ2 であるときに時刻ｔ₀において音採取位置Ａで検知対象音が採取されたと判断され、また、Ｐt_B(ｔ₀)＞Ｔ1 且つＰt_B(ｔ₀)／Ｐc_B(ｔ₀)＞Ｔ2 であるときに時刻ｔ₀において音採取位置Ｂで検知対象音が採取されたと判断される。

以上によって時刻ｔ₀に関する処理が終了し、Ｓ２−２の処理において計算値データファイル１９に記録された分の他の時刻についてＳ３−１からＳ３−３までの処理が繰り返される。

そして、他の時刻についてＳ３−１からＳ３−３までの処理が繰り返されて時刻毎に検知対象音が採取されたか否かが判断されることにより、検知対象音が採取された（言い換えると、検知対象音が発生していた）時間帯が特定される。すなわち、音圧データＡにおいて検知対象音が発生・継続している時間帯の開始時刻ｔ1及び終了時刻ｔ2、並びに、音圧データＢにおいて検知対象音が発生・継続している時間帯の開始時刻ｔ3及び終了時刻ｔ4が特定される。

なお、検知対象音が採取された時間帯を特定する際には、検知対象音が例えば１／１００秒といった非常に短時間だけ発生する或いは１／１００秒のみ発生しないというようなことは起きないとみなすことができる場合には、多少の時間的余裕を考慮し、判別式では検知対象音が採取されていないと判断される場合でも、前後の時間で判別式を満たしていれば検知対象音が採取されていると判断するようにしても良い。具体的には例えば、Δｔは十分に小さいとし、以下の条件１及び条件２が満たされていれば（なお、Ｐt_A，Ｐt_Bのことを単にＰtと表し、Ｐc_A，Ｐc_Bのことを単にＰcと表す）、時刻(ｔ₀−Δｔ)から(ｔ₀＋Δｔ)に亘って検知対象音が採取されたと判断するようにしても良い。
〈条件１〉Ｐt(ｔ₀−Δｔ)＞Ｔ1，Ｐt(ｔ₀)＞Ｔ1，Ｐt(ｔ₀＋Δｔ)＞Ｔ1）
〈条件２〉Ｐt(ｔ₀)／Ｐc(ｔ₀−Δｔ)＞Ｔ2 又はＰt(ｔ₀)／Ｐc(ｔ₀)＞Ｔ2 又はＰt(ｔ₀)／Ｐc(ｔ₀＋Δｔ)＞Ｔ2

上述の検知対象音発生・継続時間帯の機械的特定方法によれば、検知対象音が含まれると想定される周波数帯域であるターゲット周波数帯域における平均周波数強度Ｐt_A(ｔ₀)，Ｐt_B(ｔ₀)に加えて検知対象音が含まれないと想定される周波数帯域である対照周波数帯域における平均周波数強度Ｐc_A(ｔ₀)，Ｐc_B(ｔ₀)も用いるようにしているので、具体的には、Ｐt_A(ｔ₀)／Ｐc_A(ｔ₀)，Ｐt_B(ｔ₀)／Ｐc_B(ｔ₀)も判断の指標として用いるようにしているので、検知対象音以外の音を検知対象音であると誤って判断することを防止することができ、種々の背景音が発生している状況においても検知対象音の検知を適確に行うことが可能になる。

上述の検知対象音発生・継続時間帯の機械的特定方法によれば、また、検知対象音の特性に合わせてターゲット周波数帯域及び対照周波数帯域を設定することにより、様々な用途に適用することが可能である。具体的には例えば、あくまで一例として挙げれば、野鳥の鳴き声を検知対象音とし、色々な場面で実施される環境影響評価（環境アセスメント）における鳥類生態調査に適用したり、或いは、機器・設備の異音（断続的・間欠的に発生する異音）を検知対象音とし、機器・設備の状態監視や診断に適用したりすることなどが考えられる。

本発明者の検討によれば、検知対象音を烏の鳴き声にした場合には、ターゲット周波数帯域を５００〔Hz〕〜１５〔kHz〕の範囲の一部若しくは全体にすると共に対照周波数帯域を１〜１０００〔Hz〕の範囲の一部若しくは全体にする（ただし、ターゲット周波数帯域と対照周波数帯域とは重複しない範囲で設定される）ことが好ましく、ターゲット周波数帯域を１０４０〜１３５６〔Hz〕にすると共に対照周波数帯域を１４８〜６７６〔Hz〕の範囲の一部若しくは全体にすることがより一層好ましく、ターゲット周波数帯域を１０４０〜１３５６にすると共に対照周波数帯域を４８０〜６７６〔Hz〕にすることが最も好ましい。

なお、上述の説明ではターゲット周波数帯域と対照周波数帯域とが一つずつ設定されるようにしているが、これら周波数帯域の設定数は一つに限られるものではなく、検知対象音の特性に合わせてターゲット周波数帯域や対照周波数帯域を複数設定するようにしても良い。具体的には例えば、検知対象音の特徴として周波数強度のピークが複数の周波数帯域で出現する場合にはターゲット周波数帯域を複数設定するようにしても良い。また、ターゲット周波数帯域を一つ設定する場合には当該ターゲット周波数帯域よりも周波数の高い帯域と低い帯域とのそれぞれに対照周波数帯域を設定するようにしても良いし、或いは、ターゲット周波数帯域を複数設定する場合にはこれらターゲット周波数帯域よりも周波数の高い帯域と低い帯域とに加えてこれらターゲット周波数帯域に挟まれる帯域のそれぞれに対照周波数帯域を設定するようにしても良い。

本発明の音源位置の推定方法を烏の鳴き声の発生位置の特定に適用した実施例を図５乃至図１０を用いて説明する。

本実施例では、或る調査地点において、一つの収音手段１のチャンネルＲ(右)とチャンネルＬ(左)との二つのチャンネル（具体的には、左右に離間する二つのマイクロフォン；チャンネルＲのマイクロフォンの位置を音採取位置Ａとし、チャンネルＬのマイクロフォンの位置を音採取位置Ｂとする）で採取されてチャンネル別に得られた二つの音ファイルに記録された一対の音圧データが用いられた（Ｓ１；図５）。なお、図５は、縦軸が音圧レベル、横軸が時刻ｔである。

そして、本実施例では、音源位置の推定プログラムがコンピュータ上で実行されて音源位置の推定装置が実現されて音源位置の推定方法におけるＳ２以降の処理が実行された。

まず、音源位置の推定装置により、二つの音ファイルに記録されている一対の音圧データが読み込まれると共に、当該一対の音圧データのそれぞれに対して短時間フーリエ変換処理が施されて周波数強度Ｐ_A，Ｐ_Bが計算された（Ｓ２）。

具体的には、短時間フーリエ変換処理が施されスペクトログラムが計算されてチャンネルＲ・Ｌ別に図６に示す結果が得られた。なお、図６は、縦軸が周波数ｆ、横軸が時刻ｔ、領域内の色分けが周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)の値である。

次に、音源位置の推定装置により、Ｓ２の処理で計算された周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれの中から、烏の鳴き声が発生・継続している時間帯における烏の鳴き声の周波数帯域のデータが抽出された（Ｓ３）。

本実施例では、烏の鳴き声が採取された時間帯が予め特定され、１．２秒間分の周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)それぞれのデータが抽出された。

また、本実施例では、烏の鳴き声の周波数帯域として８４４〜１０４０〔Hz〕の範囲が予め特定され、この範囲の周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)それぞれのデータが抽出された。

具体的には、烏の鳴き声が採取された時間帯としての１．２秒間の、烏の鳴き声の周波数帯域としての８４４〜１０４０〔Hz〕の範囲の、チャンネルＲ・Ｌ別のスペクトログラムを図７に示す。なお、図７は、縦軸が周波数ｆ、横軸が時刻ｔ、領域内の色分けが周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)の値であり、領域内の色が濃い部分は周波数強度Ｐ_A(ｆ，ｔ)，Ｐ_B(ｆ，ｔ)の値が大きい（即ち、周波数強度が強い）ことを表す。

次に、音源位置の推定装置により、Ｓ３の処理で抽出された周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれが正規化された（Ｓ４）。

具体的には、Ｓ３の処理で抽出された周波数強度Ｐ_A(ｆ，ｔ)及びＰ_B(ｆ，ｔ)が正規化されてチャンネルＲ・Ｌ別に図８に示す結果が得られた。なお、図８は、縦軸が周波数ｆ、横軸が時刻ｔ、領域内の色分けが正規化後周波数強度Ｐ_SA(ｆ，ｔ)，Ｐ_SB(ｆ，ｔ)の値であり、領域内の色が濃い部分は正規化後周波数強度Ｐ_SA(ｆ，ｔ)，Ｐ_SB(ｆ，ｔ)の値が大きい（即ち、周波数強度が強い）ことを表す。

また、本実施例では、周波数強度の最大値ｍａｘの値が周波数強度Ｐ_B(ｆ，ｔ)に属していた。

次に、音源位置の推定装置により、Ｓ４の処理で算出された正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とのそれぞれについて、時刻ｔ別のＰ_SA(ｆ，ｔ)，Ｐ_SB(ｆ，ｔ)毎に、短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量dt前の値との差分が算出された（Ｓ５）。

具体的には、Ｓ４の処理で算出された正規化後周波数強度Ｐ_SA(ｆ，ｔ)及びＰ_SB(ｆ，ｔ)を用いて、チャンネルＲ・Ｌ別に図９に示す結果が得られた。なお、図９は、縦軸が周波数ｆ、横軸が時刻ｔ、領域内の色分けが正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)，Ｐ_dSB(ｆ，ｔ)の値である。

次に、音源位置の推定装置により、Ｓ５の処理で算出された正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)との時間方向の相互相関の値が最大になる時刻が求められた（Ｓ６）。

具体的には、まず、Ｓ５の処理で算出された正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)との時間方向の相互相関ｒ_dSAB(ｆ，ｔ)が計算されて図１０に示す結果が得られた。

そして、計算された相互相関ｒ_dSAB(ｆ，ｔ)の値が最大である要素の時刻として相互相関最大時刻ｔ_{rAB_max}が求められた。

次に、音源位置の推定装置により、Ｓ５の処理で算出された正規化後周波数強度の差分Ｐ_dSB(ｆ，ｔ)の自己相関の値が最大になる時刻が求められた（Ｓ７）。

具体的には、まず、Ｓ５の処理で算出された正規化後周波数強度の差分Ｐ_dSB(ｆ，ｔ)の自己相関ｒ_dSB(ｆ，ｔ)が計算されて図１０に示す結果が得られた。

そして、計算された自己相関ｒ_dSB(ｆ，ｔ)の値が最大である要素の時刻として自己相関最大時刻ｔ_{rB_max}が求められた。

次に、音源位置の推定装置により、Ｓ６の処理で求められた相互相関最大時刻ｔ_{rAB_max}、及び、Ｓ７の処理で求められた自己相関最大時刻ｔ_{rB_max}を用い、烏の鳴き声発生位置からチャンネルＲのマイクロフォンまでと烏の鳴き声発生位置からチャンネルＬのマイクロフォンまでとの距離差が算出された（Ｓ８）。

具体的には、まず、自己相関最大時刻と相互相関最大時刻との時間差Δｔ＝｜ｔ_{rB_max}−ｔ_{rAB_max}｜が算出された（図１０参照）。

そして、時間差Δｔと音速とを掛け合わせて、烏の鳴き声発生位置から音採取位置Ａまでと烏の鳴き声発生位置から音採取位置Ｂまでとの距離差Δｘが算出された。

この結果から、本発明の音源位置の推定方法は、検知対象音（本実施例では烏の鳴き声）の音源位置を特定する（言い換えると、絞り込む）ことができ、有用性を有していることが確認された。

１収音手段
２データサーバ
１０音源位置の推定装置

Claims

収音手段によって採取された音の音圧信号がＡ／Ｄ変換されて一対の音圧データが作成されるステップと、前記一対の音圧データのそれぞれに対して短時間フーリエ変換処理が施されて時刻ｔ，周波数ｆ〔Hz〕における周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とが計算されるステップと、前記周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれの中から検知対象音が発生・継続している時間帯における前記検知対象音の周波数帯域のデータが抽出されるステップと、抽出された前記周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれが正規化されて正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とが算出されるステップと、前記正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とのそれぞれについて前記短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分が計算されて正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)とが算出されるステップと、前記正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)との時間方向の相互相関の値が最大になる相互相関最大時刻が求められるステップと、前記正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)若しくはＰ_dSB(ｆ，ｔ)の自己相関の値が最大になる自己相関最大時刻が求められるステップと、前記自己相関最大時刻と前記相互相関最大時刻との時間差に音速を掛け合わせて音源位置から前記一対の音圧データそれぞれの元の音の採取位置までの距離差が算出されるステップとを有することを特徴とする音源位置の推定方法。
前記検知対象音が烏の鳴き声であり、前記検知対象音の周波数帯域が５００〔Hz〕〜１５〔kHz〕の範囲の一部若しくは全体であることを特徴とする請求項１記載の音源位置の推定方法。
収音手段によって採取された音の音圧信号がＡ／Ｄ変換されて作成された一対の音圧データを記憶装置から読み込む手段と、前記一対の音圧データのそれぞれに対して短時間フーリエ変換処理を施して時刻ｔ，周波数ｆ〔Hz〕における周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とを計算する手段と、前記周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれの中から検知対象音が発生・継続している時間帯における前記検知対象音の周波数帯域のデータを抽出する手段と、抽出された前記周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれを正規化して正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とを算出する手段と、前記正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とのそれぞれについて前記短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分を計算して正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)とを算出する手段と、前記正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)との時間方向の相互相関の値が最大になる相互相関最大時刻を求める手段と、前記正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)若しくはＰ_dSB(ｆ，ｔ)の自己相関の値が最大になる自己相関最大時刻を求める手段と、前記自己相関最大時刻と前記相互相関最大時刻との時間差に音速を掛け合わせて音源位置から前記一対の音圧データそれぞれの元の音の採取位置までの距離差を算出する手段とを有することを特徴とする音源位置の推定装置。
前記検知対象音が烏の鳴き声であり、前記検知対象音の周波数帯域が５００〔Hz〕〜１５〔kHz〕の範囲の一部若しくは全体であることを特徴とする請求項３記載の音源位置の推定装置。
収音手段によって採取された音の音圧信号がＡ／Ｄ変換されて作成された一対の音圧データを記憶装置から読み込む手段、前記一対の音圧データのそれぞれに対して短時間フーリエ変換処理を施して時刻ｔ，周波数ｆ〔Hz〕における周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とを計算する手段、前記周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれの中から検知対象音が発生・継続している時間帯における前記検知対象音の周波数帯域のデータを抽出する手段、抽出された前記周波数強度Ｐ_A(ｆ，ｔ)とＰ_B(ｆ，ｔ)とのそれぞれを正規化して正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とを算出する手段、前記正規化後周波数強度Ｐ_SA(ｆ，ｔ)とＰ_SB(ｆ，ｔ)とのそれぞれについて前記短時間フーリエ変換処理が施される際に用いられた時間領域のずれ量前の値との差分を計算して正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)とを算出する手段、前記正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)とＰ_dSB(ｆ，ｔ)との時間方向の相互相関の値が最大になる相互相関最大時刻を求める手段、前記正規化後周波数強度の差分Ｐ_dSA(ｆ，ｔ)若しくはＰ_dSB(ｆ，ｔ)の自己相関の値が最大になる自己相関最大時刻を求める手段、前記自己相関最大時刻と前記相互相関最大時刻との時間差に音速を掛け合わせて音源位置から前記一対の音圧データそれぞれの元の音の採取位置までの距離差を算出する手段としてコンピュータを機能させるための音源位置の推定プログラム。
前記検知対象音が烏の鳴き声であり、前記検知対象音の周波数帯域が５００〔Hz〕〜１５〔kHz〕の範囲の一部若しくは全体であることを特徴とする請求項５記載の音源位置の推定プログラム。