JP2020043456A - 音響処理装置、音響処理方法およびプログラム - Google Patents

音響処理装置、音響処理方法およびプログラム Download PDF

Info

Publication number
JP2020043456A
JP2020043456A JP2018168968A JP2018168968A JP2020043456A JP 2020043456 A JP2020043456 A JP 2020043456A JP 2018168968 A JP2018168968 A JP 2018168968A JP 2018168968 A JP2018168968 A JP 2018168968A JP 2020043456 A JP2020043456 A JP 2020043456A
Authority
JP
Japan
Prior art keywords
sound
time
sound source
arrival time
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018168968A
Other languages
English (en)
Other versions
JP6974279B2 (ja
Inventor
圭佑 中村
Keisuke Nakamura
圭佑 中村
ランディ ゴメス
Gomez Randy
ランディ ゴメス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2018168968A priority Critical patent/JP6974279B2/ja
Publication of JP2020043456A publication Critical patent/JP2020043456A/ja
Application granted granted Critical
Publication of JP6974279B2 publication Critical patent/JP6974279B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音源を移動させなくてもマイクロホンアレイを校正することができる音響処理装置、音響処理方法およびプログラムを提供する。【解決手段】収音位置推定部は、N(Nは、3以上の整数)個の基準音源のそれぞれから収音素子までの基準音の到達時間である第1時間を前記収音素子が収音した収音信号を用いて定め、前記N個の基準音源のそれぞれから前記収音素子の位置の候補である候補位置までの前記基準音の到達時間である第2時間を取得し、前記第1時間と前記第2時間との差が小さいほど高い確率を与える確率関数を用いて、前記候補位置が収音素子の位置である可能性を示す尤度を算出し、前記尤度を最大化する候補位置を、前記収音素子の位置として定める。【選択図】図3

Description

本発明は、音響処理装置、音響処理方法およびプログラムに関する。
マイクロホンアレイは、複数のマイクロホンを備え、音源から到来した音を収音するとともに、音質の補正、雑音抑圧、音源方向の推定などの処理(以下、アレイ処理と呼ぶ)に用いられる。アレイ処理では、音源から個々のマイクロホンに到来するまでの音の伝達特性を示す伝達関数が用いられる。一般に、伝達関数は、個々のマイクロホンの位置に依存する。
しかしながら、マイクロホンの位置は常に一定とは限らない。例えば、特許文献1には、音源から個々のマイクロホンまでの伝達関数を測定用の音源を用いずに算出する音響処理装置について記載されている。この音響処理装置では、複数のマイクロホンが人型ロボットの頭部に固定されている。また、非特許文献1には、複数のマイクロホンが分散配置された細長のホースの形状を有する柔構造ロボットについて記載されている。いずれも複数のマイクロホンの位置が可変であり、マイクロホンアレイの校正において個々のマイクロホンの位置を知得することが重要となる。
特開2015−154207号公報
Y.Bando,T.Otsuka,K.Itoyama et al."Posture estimation of hose−shaped robot by using active microphone array",Advanced Robotics,2015,Taylor & Francis,Vol.29,No.1,p.35−49,http://dx.doi.org/10.1080/01691864.2014.981291
マイクロホンアレイの校正では、例えば、次の措置がなされる。(a)各方向に設置された音源から特定の測定用の信号に基づく音を提示し、個々のマイクロホンで収音して得られる収音信号を記録したうえで解析する。(b)非特許文献1に記載の柔構造ロボットでは、個々のマイクロホンの位置を予め定め、その位置にマイクロホンを設置もしくは調整する。(c)特許文献1の音響処理装置では、伝達関数の算出のために動く音源を用いる。
しかしながら、(a)では、収音、記録の際に音源方向を与える必要がある。また、記録や解析のために多くの時間を要する。(b)では、非特許文献1に記載の柔構造ロボットのように複雑な形状を有し、その配置が可変な環境では、予め定めた位置にマイクロホンを設置すること自体が困難である。(c)では、音源が移動するとは限らないため、常に伝達関数を取得することができない。
本発明は上記の点に鑑みてなされたものであり、音源を移動させなくても確実にマイクロホンアレイを校正することができる音響処理装置、音響処理方法およびプログラムを提供することである。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、N(Nは、3以上の整数)個の基準音源のそれぞれから収音素子までの基準音の到達時間である第1時間を前記収音素子が収音した収音信号を用いて定め、前記N個の基準音源のそれぞれから前記収音素子の位置の候補である候補位置までの前記基準音の到達時間である第2時間を取得し、前記第1時間と前記第2時間との差が小さいほど高い確率を与える確率関数を用いて、前記候補位置が収音素子の位置である可能性を示す尤度を算出し、前記尤度を最大化する候補位置を、前記収音素子の位置として定める収音位置推定部を備える音響処理装置である。
(2)本発明の他の態様は、(1)の音響処理装置であって、前記収音位置推定部は、前記基準音を示す基準音信号と前記収音素子が収音した収音信号との相互相関関数に基づいて前記第1時間を算出する。
(3)本発明の他の態様は、(2)の音響処理装置であって、前記収音位置推定部は、離散時刻ごとに算出した前記相互相関関数を所定の連続関数で補間して得られる関数値を最大化する時刻に基づいて前記第1時間を算出する。
(4)本発明の他の態様は、(2)の音響処理装置であって、前記収音位置推定部は、前記相互相関関数の周波数領域における変換係数の位相成分を算出し、前記位相成分を時間領域に逆変換して得られる離散時刻ごとの逆変換関数値を所定の連続関数で補間して得られる関数値を最大化する時刻までの期間を、前記第1時間として算出する。
(5)本発明の他の態様は、(1)から(4)のいずれかの音響処理装置であって、前記基準音は、可聴帯域よりも高い周波数の成分からなる。
(6)本発明の他の態様は、(1)から(5)のいずれかの音響処理装置であって、所定の収音素子が収音した基準チャネルの収音信号と他の収音素子が収音した他チャネルの収音信号との到達時間差を要素とする到達時間差ベクトルを所定期間ごとに生成し、前記到達時間差ベクトルをクラスタごとに分類し、前記基準音源とは別個の音源に対応するクラスタを代表する到達時間差ベクトルに基づいて第1ステアリングベクトルを定める音源推定部と、前記第1ステアリングベクトルに基づく相関行列を固有値展開して固有ベクトルを算出し、音源方向に対応する応答係数を要素として有する第2ステアリングベクトルを生成し、前記第2ステアリングベクトルの各要素の二乗和を、2次以上の各次の前記固有ベクトルと前記第2ステアリングベクトルとの内積の総和で正規化した空間スペクトルを最大化する音源方向を定める音源方向推定部と、をさらに備える。
(7)本発明の他の態様は、音声処理装置における音声処理方法であって、音響処理装置における音響処理方法であって、N(Nは、3以上の整数)個の基準音源のそれぞれから収音素子までの基準音の到達時間である第1時間を前記収音素子が収音した収音信号を用いて定め、前記N個の基準音源のそれぞれから前記収音素子の位置の候補である候補位置までの前記基準音の到達時間である第2時間を取得し、前記第1時間と前記第2時間との差が小さいほど高い確率を与える確率関数を用いて、前記候補位置が収音素子の位置である可能性を示す尤度を算出し、前記尤度を最大化する候補位置を、前記収音素子の位置として定める収音位置推定ステップを有する音響処理方法である。
(8)本発明の他の態様は、音響処理装置のコンピュータに、N(Nは、3以上の整数)個の基準音源のそれぞれから収音素子までの基準音の到達時間である第1時間を前記収音素子が収音した収音信号を用いて定め、前記N個の基準音源のそれぞれから前記収音素子の位置の候補である候補位置までの前記基準音の到達時間である第2時間を取得し、前記第1時間と前記第2時間との差が小さいほど高い確率を与える確率関数を用いて、前記候補位置が収音素子の位置である可能性を示す尤度を算出し、前記尤度を最大化する候補位置を、前記収音素子の位置として定める収音位置推定手順を実行させるためのプログラムである。
上述の(1)、(7)または(8)の構成によれば、3個以上の基準音源のそれぞれから収音素子までの基準音の到達時間と、基準音源のそれぞれから候補位置までの到達時間により、それぞれの候補位置が収音素子の位置である確率を用いて尤度が算出される。そして、尤度が最大となる候補位置が収音素子の位置として定まる。そのため、3個以上の基準音源を用いて候補位置が収音素子の位置となる可能性が総合的に評価される。よって、到達時間に誤差が含まれていても、基準音源が移動しているか否かに関わらず、より確実に収音位置を定めることができる。
また、(2)の構成によれば、相互相関関数により基準音信号と収音信号との相関性を定量的に評価して、基準音の再生から収音までの第1時間を定めることができる。
また、(3)の構成によれば、離散時刻ごとに相互相関関数を定め、相互に隣接する2つの離散時刻間の時刻に対する相互相関関数を推定し、推定された相互相関関数が最大となる時刻が基準音の再生から収音までの第1時間として定められる。そのため、時間離散化による第1時間の推定誤差、ひいては収音位置の推定誤差を低減することができる。
また、(4)の構成によれば、相互相関関数の周波数領域における変換係数の振幅成分が除去されるので、相互相関関数の振幅の周波数依存性が解消される。そして、相互相関関数の振幅成分を除去して得られる時間領域の逆変換関数値が相互に隣接する2つの離散時刻間で補間される。そのため、時間離散化に加え、基準音信号の振幅の周波数特性による第1時間、ひいては収音位置の推定誤差を低減することができる。
また、(5)の特徴により、収音位置の推定に可聴帯域の音声よりも波長が短い超音波が用いられるので、第1時間の推定誤差、ひいては収音位置の推定誤差を低減することができる。また、基準音は人間に知覚されないため、人間に対する受聴環境が害されない。
また、(6)の構成によれば、Mチャネルの収音信号から個々の音源に対応する第1ステアリングベクトルが定まり、第1ステアリングベクトルに基づく相関行列に対するM個の固有ベクトルが算出される、そのうち、第1固有ベクトルは、基準音源とは別個の目的音源に対するステアリングベクトルが張られる信号部分空間の基底ベクトルとなり、第2固有ベクトルから第M固有ベクトルのいずれとも直交する。音源方向に対応する第2ステアリングベクトルと第2固有ベクトルないし第M固有ベクトルとの内積の値が最も小さくなるので、音源方向に対する値が最大となる空間スペクトルが算出される。そのため、音源数が未知であっても、位置が可変な収音素子で収音される収音信号を用いて、個々の音源の音源方向を正確に推定することができる。
本実施形態に係る音響処理システムの構成例を示す概略ブロック図である。 本実施形態に係るクラスタリング処理の例を示すフローチャートである。 本実施形態に係る収音位置推定処理の例を示すフローチャートである。 本実施形態に係る音源方向推定処理の例を示すフローチャートである。 本実施形態に係る音響処理システムの外観構成例を示す平面図である。 本実施形態に係る基準音源と収音素子の配置例を示す平面図である。 本実施形態による収音位置の推定結果の第1の例を示す表である。 本実施形態による収音位置の推定結果の第2の例を示す表である。 本実施形態による収音位置の推定結果の第3の例を示す表である。 本実施形態による収音位置の推定結果の第4の例を示す表である。 本実施形態に係る収音位置算出部により算出される尤度の分布例を示す平面図である。 本実施形態に係る音響処理システムと話者の配置例を示す平面図である。 本実施形態による音源数の推定結果の例を示す表である。 本実施形態による音源方向の推定結果の例を示す表である。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音響処理システム1の構成例を示す概略ブロック図である。
音響処理システム1は、音響処理装置10、音源部20および収音部30を含んで構成される。音源部20は、N個の基準音源20−1〜20−N(Nは、3以上の整数)を備える。収音部30は、M個の収音素子30−1〜30−M(Mは、2以上の整数)を備える。
音響処理装置10は、Nチャネルの基準音信号を生成し、生成した基準音信号をそれぞれのチャネルに対応する基準音源20−1〜20−Nに出力し、基準音を発生させる。
音響処理装置10には、収音素子30−1〜30−MからMチャネルの音響信号が入力される。音響処理装置10は、出力した基準音信号と入力された音響信号に基づいて基準音源20−1〜20−Nのそれぞれから放射された時刻から収音素子30−1〜30−Mのそれぞれまで到達する基準音の到達時間を第1時間として算出する。他方、音響処理装置10は、各基準音源について候補位置までの基準音の到達時間を第2時間として算出する。候補位置は、収音素子の位置の候補である。音響処理装置10は、第1時間と第2時間との時間差が小さいほど高い確率を与える確率関数を用いて、候補位置が収音素子の位置である可能性を示す尤度を算出する。そして、音響処理装置10は、尤度を最大化する候補位置を、収音素子の位置として定める。
なお、本実施形態では、「Aを最大化するB」とは、ある条件のもとで、できるだけ大きいAを与えるBを意味し、Aが絶対的に最大になることを意味するとは限らない。例えば、Bを求める過程において、より小さいAを与えるBが求まることや、異なる条件のもとでAを最大化するBとして異なるBが求まることもありうる。
音源部20は、基準音を発する音源である。基準音は、収音素子30−1〜30−Mのそれぞれの位置を定めるために用いる音である。基準音源20−1〜20−Nは、音響処理装置10から入力される基準音信号に基づいて基準音を発する。基準音は、必ずしも可聴帯域(例えば、20Hz−20kHz)の成分を含んでいなくてもよい。基準音は、可聴帯域よりも周波数が高い成分からなる超音波であってもよい。基準音源20−1〜20−Nは、例えば、超音波エミッタ、圧電アクチュエータなどの電気音響変換器である。基準音源20−1〜20−Nの位置は、それぞれ固定されていてもよい。
収音部30は、収音素子30−1〜30−Mを含んで構成される。収音素子30−1〜30−Mは、それぞれ自部に到来する音を収音する。収音素子30−1〜30−Mは、例えば、MEMS(Micro−electro−mechanical Systems)マイクロホン、コンデンサマイクロホン、などのいずれでもよい。基準音源20−1〜20−Nが超音波を発する場合には、収音素子30−1〜30−Mは、可聴帯域の音波とより周波数が高い周波数帯域の超音波の両者を収音できればよい。収音素子30−1〜30−Mは、それぞれ収音した音波の波形を示す各チャネルの音響信号として収音信号を生成し、生成したMチャネルの収音信号を音響処理装置10に出力する。収音素子30−1〜30−Mの位置は、それぞれ可変である。収音部30の構成例については、後述する。
次に、音響処理装置10の構成例について説明する。音響処理装置10は、入出力部11と、収音位置推定部12と、音源推定部13と、音源方向推定部14と、を含んで構成される。
入出力部11には、収音位置推定部12の基準音源制御部121からNチャネルの基準音信号が入力される。入出力部11は、入力されたNチャネルの基準音信号を、それぞれのチャネルに対応する基準音源20−1〜20−Nに出力する。
入出力部11には、Mチャネルの収音信号が収音素子30−1〜30−Mから入力される。入出力部11は、入力されたMチャネルの収音信号を収音位置推定部12と音源推定部13にそれぞれ出力する。入出力部11は、例えば、入出力インタフェースである。
収音位置推定部12は、基準音源制御部121と、到達時間算出部122と、候補位置情報記憶部123と、収音位置算出部124と、を含んで構成される。
基準音源制御部121は、基準音を再生させる基準音源(以下、再生音源と呼ぶ)を選択し、その再生タイミングを制御する。基準音として出力する音響信号は、特性が既知の音響信号であればよい。かかる音響信号として、例えば、スイープ正弦波のパルス(pulse of swept sinusoid)、ガウシアンパルス、M系列などのいずれが用いられてもよい。基準音源制御部121は、例えば、所定の再生周期ごとに再生音源を巡回的に切り替える。基準音源制御部121は、切り替えにより選択される再生音源に対応する第n(nは、1からNまでのいずれかの整数)チャネルの基準音信号として所定の波形を示す音響信号を割り当て、その他の基準音源に対するチャネルには音響信号を割り当てない。基準音源制御部121は、Nチャネルの基準音信号を、入出力部11を経由して基準音源20−1〜20−Nに出力するとともに到達時間算出部122に出力する。よって、再生音源である基準音源20−nは再生音源として基準音を放射し、再生音源以外の基準音源は基準音を放射しない。
到達時間算出部122は、収音素子30−1〜30−Mから入力されるMチャネルの収音信号と、基準音源制御部121から入力されるNチャネルの基準音信号のうち第nチャネルの基準音信号を用いて、再生音源である基準音源20−nが発する基準音の収音素子30−1〜30−Mのそれぞれに伝搬するまでの到達時間(ToA:Time of Arrival)τmn(mは、収音素子30−mを示すインデックス、即ち、1からMまでのいずれかの整数)を算出する。到達時間算出部122は、算出した到達時間τmnを収音位置算出部124に出力する。
到達時間算出部122は、例えば、第mチャネルの収音信号x(t)と第nチャネルの基準音信号e(t)との相互相関関数を算出し、基準音の放射が開始される時刻から、相互相関関数が極大となる時刻tまでの期間を到達時間τmnとして定める。
より具体的には、到達時間算出部122は、式(1)に示す関係を用いて到達時間τmn[j]を定める。
但し、(1)に示す関係は、再生音源が再生周期ごとに巡回的に選択され、各再生周期に1つの観測期間が設定される場合を前提としている。式(1)において、jは、第j再生周期を示すインデックスである。arg maxtn[j]≦t≦tn[j]+tr(…)は、時刻tn[j]から時刻tn[j]+trまでの観測期間のうち、…を最大とする時刻tを示す。tn[j]は、第j再生周期の開始時の時刻を示す。基準音としてパルス(上記のスイープ正弦波のパルス、ガウシアンパルスが該当)が用いられる場合には、到達時間算出部122は、時刻tn[j]として、パルスの波形の立ち上がり時刻(オンセット時刻)を用いてもよい。また、到達時間算出部122は、この時刻tn[j]を基準時刻0としてもよい。tは、最大到達時間を示す。最大到達時間tは、測定可能とする到達時間の最大値に相当する。従って、最大到達時間tを、測定する空間の大きさに応じて予め到達時間算出部122に設定しておけばよい。例えば、収音素子30−1〜30−Mがいずれも1個の第1の部材に設置され、基準音源20−1〜20−Nがいずれも1個の第2の部材に設置され、第2の部材が第1の部材に空間的に接している場合には、最大到達時間tは、アレイ長と配置距離の総和に対応する音波の到達時間よりも大きければよい。アレイ長は、第1の部材において収音素子30−1〜30−Mが配置されている領域の大きさの特徴量である。配置距離は、第2の部材において基準音源20−1〜20−Nが配置されている領域の大きさの特徴量である。
なお、以下の説明では、基準音源20−nから収音素子30−mに基準音が到着する時点までの到達時間を第1時間と呼ぶ。到達時間算出部122は、算出した第1時間を示す第1時間情報を収音位置算出部124に出力する。
なお、式(1)に示す関係を用いて算出した到達時間τmn[j]の精度は、収音信号x(t)と基準音信号e(t)のサンプリング周期よりも高くすることができない。サンプリング周期は、サンプリング周波数の逆数に相当し、相互相関はサンプリング周期ごとに離散化された時刻tごとに算出される。現実の到達時間が、サンプリング周期の整数倍とならなければ、算出される到達時間との誤差が生じる。
そこで、到達時間算出部122は、収音信号x(t)と基準音信号e(t)の相互相関を複数の離散化された時刻間で補間し、補間により得られる相互相関関数が極大となる時刻tを到達時間τmn[j]として定める。
より具体的には、到達時間算出部122は、式(2)に示すようにGCC−PHAT(Generalized Cross−Correlation Phase Transform;一般化相互相関関数位相変換)に基づいて到達時間τmn[j]を定めてもよい。
式(2)において、E(ω)、X(ω)は、それぞれ基準音信号e(t)、収音信号x(t)に対して短時間フーリエ変換(STFT:Short Time Fourier Transform)を行って得られる周波数領域の変換係数を示す。…*は、…の複素共役を示す。F−1[…]は、…に対する短時間フーリエ変換の逆変換を示す。T[…]は、…に対する時間領域における補間を示す。補間において、後述の包絡関数が利用可能である。即ち、式(2)は、基準音信号e(t)と収音信号x(t)の相互相関関数の周波数領域の変換係数を、その絶対値で除算し、その変換係数の位相成分を算出するステップと、算出した位相成分に対して短時間フーリエ逆変換を行って時間領域における逆変換信号を算出するステップと、算出された逆変換信号を構成する離散化時刻ごとの逆変換信号値を補間して得られる補間値の最大値を到達時間τmn[j]として定めるステップを示す。算出された逆変換信号は、相互相関関数の位相の変動として表れる振幅の変動成分を示す。位相成分は、絶対値が1に正規化された複素数であり、ejφ(φは、位相)と表される。従って、基準音の振幅の周波数依存性による影響が排除される。絶対値で除算して振幅による影響を除去して位相成分を取得することは、白色化(whitening)とも呼ばれる。なお、逆変換信号値の補間において、後述の包絡関数を用いることが可能である。
また、到達時間算出部122は、式(3)に示すように離散化された時刻ごとの相互相関関数の絶対値を複数の時刻間で補間して得られる補間値が極大となる時刻tを到達時間τmn[j]として定めてもよい。
式(3)において、env(…)は、…の包絡関数(Envelope Function)を示す。包絡関数は、時刻tの連続関数であって、複数の離散化された時刻のそれぞれに対する関数値として相互相関関数の絶対値|(e*x)(t)|を補間するために用いられる。包絡関数として、例えば、時刻tに対するp次関数(pは、2以上の整数、例えば、8)を用いることができる。到達時間算出部122は、包絡関数として、例えば、時刻tn[j]を基準時とし、(t−tn[j])のp’乗(p’は、0からpまでの整数)をそれぞれ所定の係数cで乗じて得られる乗算値の総和を算出する。
基準音として、超音波が用いられる場合には、到達時間算出部122は、相互相関関数を算出する前に、第mチャネルの収音信号x(t)に対して高域通過フィルタリングを行って、可聴帯域よりも周波数が高い成分である高域成分を抽出してもよい。基準音信号e(t)との相互相関関数を算出する際、到達時間算出部122は、抽出された高域成分を用いればよい。これにより、可聴帯域の音波が提示されている状況でも、式(1)〜(3)のいずれかに示す相互相関関数もしくはその位相成分への可聴帯域の成分による影響が排除される。
候補位置情報記憶部123には、予め候補位置情報を記憶させておく。候補位置情報は、収音素子30−1〜30−Mの位置の候補である候補位置を示す情報である。候補位置と情報として、例えば、グリッドマップ(Grid Map)が利用可能である。グリッドマップとは、二次元平面上に離散化して配置された複数の候補位置を示す情報である。グリッドマップでは、複数の候補位置が格子点上に配置される。格子点は、一般に互いに直交する2つの座標軸方向のそれぞれに等間隔に分布する。また、音響処理システム1が設置されるロボットの自律移動に用いられるSLAM(Simultaneous Localization and Mapping;同時自己位置推定地図生成)方式を実行して生成されたグリッドマップが適用されてもよい。SLAMは、レーダセンサ等の検出部を用いて、その時点における障害物までの方向と距離を検出し、候補位置ごとに障害物の存否もしくは存在確率を候補位置情報として定める手法である。
収音位置算出部124は、候補位置情報記憶部123に記憶された候補位置情報を参照し、基準音源20−nから各候補位置に基準音が伝搬するまでの到達時間を算出する。以下の説明では、基準音源20−nから各候補位置に基準音が伝搬する到達時間を第2時間と呼ぶ。なお、基準音源20−nの位置が固定されている場合には、さらに基準音源20−nごとの第2時間を含み、これらが候補位置ごとに対応付けて候補位置情報が構成されてもよい。収音位置算出部124は、逐次に第2時間を算出することなく、候補位置情報を参照して注目する候補位置に対応する第2時間を取得することができる。
収音位置算出部124は、到達時間算出部122から入力される第1時間情報が示す基準音源20−nと収音素子30−mの組ごとの第1時間と、基準音源20−nと収音素子30−mの候補位置の組ごとの第2時間に対する尤度を最大化する収音素子30−mの位置を収音位置ξMmとして定める。収音位置算出部124は、この尤度を、基準音源20−nの位置がその候補位置である可能性の度合いを示す指標として算出する。収音位置算出部124は、例えば、式(4)に示す関係を満たす収音位置ξMmを定める。
式(4)において、σは、予め定められた標準偏差を示す。τGnは、基準音源20−nからいずれかの候補位置ξまで基準音が伝搬する第2時間を示す。つまり、基準音源20−nならびに収音素子30−mに対する第2時間τGnから第1時間τmn[j]の差分の確率分布が、その差分に対するガウス関数(正規分布)となることが仮定されている。よって、式(4)は、収音位置算出部124が、収音素子30−mの候補位置ξの尤度として、第2時間τGnから第1時間τmn[j]の差分の確率分布の基準音源20−n間、ならびに観測対象とする再生周期j間の積を算出するステップと、尤度を最大とする候補位置ξを収音素子30−mの収音位置ξMmとして定めるステップを有することを示す。
収音位置算出部124は、収音素子30−mそれぞれの収音位置ξMmを示す収音位置情報を音源推定部13と音源方向推定部14に出力する。
なお、式(4)において標準偏差σとして、例えば、基準音源20−nの位置の測定誤差を音速cで除算して得られる誤差時間が用いられてもよい。式(4)は、第2時間τGnから第1時間τmn[j]の差分の基準音源20−n間の二乗和が大きいほど、尤度が低くなることを示す。これにより、第2時間τGnから第1時間τmn[j]の差分の大きさが基準音源20−n間で総合して評価でき、評価された差分が大きいほど低くなるように尤度が与えられる。
なお、第2時間τGnから第1時間τmn[j]の差分の確率分布を示す確率密度関数は、ガウス関数に限られない。第2時間τGnから第1時間τmn[j]の差分の大きさが基準音源20−n間で総合して評価でき、評価された差分が大きいほど低くなるように尤度が算出される関数であればよい。より具体的には、第2時間τGnから第1時間τmn[j]の差分の絶対値が0のときに関数値が最大となり、その差分の絶対値が大きいほど0に漸近するように関数値が減少する連続関数であればよい。例えば、ガウス関数に代えて、ロジスティック分布、双曲線正割分布、ラプラス分布などが用いられてもよい。また、尤度を算出する際、収音位置算出部124は、必ずしも複数の再生周期j間で確率分布の積を算出しなくてもよく、1つの再生周期で基準音源20−nごとに算出した確率分布の基準音源20−nの積を尤度として採用してもよい。
音源推定部13は、到達時間差ベクトル生成部131と、音源特定部132と、を含んで構成される。
到達時間差ベクトル生成部131は、収音素子30−1〜30−Mから入出力部11を経由して入力されるMチャネルの収音信号を用いて、所定期間ごとに到達時間差ベクトルを生成する。
より具体的には、到達時間差ベクトル生成部131は、到達時間差(TDOA:Time Difference of Arrival)をチャネルmごとに算出する。TDOAは、所定の収音素子(以下の例では、収音素子30−1)に基準音源20−1〜20−Nとは別個の音源からの音波が到来する時刻と他の収音素子30−mにその音源からの音波が到来する時刻との時間差である。基準音源20−1〜20−Nとは別個の音源は、アレイ処理の目的とする音源、例えば、発話音声、楽音、動作音などアレイ処理の目的とする音源である。
到達時間差ベクトル生成部131は、例えば、式(5)に示すようにGCC−PHATに基づいて第mチャネルにおける第fフレームのTDOA τ(f)を算出することができる。
式(5)において、ω、ωは、それぞれTDOAの算出に係る周波数帯域の最低周波数(例えば、20〜100Hz)、最高周波数(例えば、4kHz〜20kHz)を示す。基準音として超音波が用いられる場合には、ωは、基準音の周波数帯域の下限よりも低い周波数であってもよい。X(ω,f)は、フレームfにおける第mチャネルの収音信号x(t,f)の周波数領域の変換係数を示す。即ち、式(5)は、フレームfにおける第1チャネルの収音信号x(t,f)と第mチャネルの収音信号x(t,f)との相互相関関数の周波数領域の変換係数X(ω,f)X (ω,f)を、その変換係数の絶対値で正規化するステップと、正規化して得られる変換係数の位相成分に対して逆フーリエ変換するステップと、逆フーリエ変換により得られる白色化された時間領域の相互相関関数の値が最大となる時刻τをTDOA τ(f)として定めるステップを含む。但し、τは、−D/cからD/cまでの範囲内の値に制限される。D、cは、それぞれアレイ長、音速を示す。この制限により、TDOA τ(f)は、収音素子30−1〜30−mの実現可能な分布のもとで実現可能とする値の範囲内に制限される。
そして、到達時間差ベクトル生成部131は、第1チャネルを除く、第2〜第Mチャネルのそれぞれについて算出したTDOA τ(f)を要素とするベクトル[τ(f),…,τ(f)]を到達時間差ベクトルとして定める。よって、各1個の到達時間差ベクトルは、M−1次元のベクトルとなる。到達時間差ベクトル生成部131は、生成した到達時間差ベクトルを音源特定部132に出力する。
なお、式(5)において、各チャネルの変換係数X(ω,f)、X(ω,f)に代えて、その時点までのFフレーム間(つまり、第f−F+1フレームから第fフレーム)の時間平均値<X(ω,f)>、<X(ω,f)>が用いられてもよい。
また、音源から到達する音のレベルが低い場合には、収音信号x(t,f)に含まれるノイズが相対的に顕著になる。そこで、到達時間差ベクトル生成部131は、収音部30で収音される収音信号全体の強度の尺度として収音レベルE(f)を算出し、収音レベルE(f)が所定の収音レベルの閾値T以上であるフレームfにおいて到達時間差ベクトルを生成すると判定し、収音レベルE(f)か閾値T未満となるフレームfにおいて到達時間差ベクトルを生成しないと判定してもよい。
到達時間差ベクトル生成部131は、例えば、式(6)に示すように、各チャネルの収音信号x(t,f)から収音レベルE(f)を算出することができる。
式(6)において、X(ω,f)は、各チャネルmに対する変換係数X(ω,f)を要素とするM次元のベクトル[X(ω,f),…,X(ω,f)]である。つまり、各チャネルmに対する変換係数X(ω,f)の絶対値のチャネル間の二乗和の周波数ωからωまでの帯域間の平均値が収音レベルE(f)として算出される。よって、収音レベルE(f)が高いフレームからノイズの影響が少ない到達時間差ベクトルが取得される。
音源特定部132は、到達時間差ベクトル生成部131から入力される到達時間差ベクトルを収集する。音源特定部132は、十分に多数(少なくともMより多い。典型的には、100〜1000個)の到達時間差ベクトルを分類(クラスタリング)する。音源特定部132は、クラスタリング手法として、予めクラスタ数を指定せずに実行可能な手法を用いる。クラスタリングにより得られるクラスタが音源に対応付けるため、音源数に相当するクラスタ数Cが未知である場合にも適用できるためである。
音源特定部132は、クラスタリング手法として、例えば、Affinity Propagation(AP法;親和性伝搬法)を用いる。AP法は、到達時間差ベクトルvに対して初期値に依存せず一意にクラスタを定めることができる。ノイズや残響が多い環境や、同時発話が生じる場合など、音響環境が劣悪な場合においても、ノイズ、残響なども個々の音源とするクラスタが期待される。
AP法は、各クラスタを代表するexamplar(代表ベクトル)を再帰的に求める手法である。AP法は、図2に示すように次のステップを有するクラスタリング手法である。
図2は、AP法に基づくクラスタリング手法の一例を示すフローチャートである。
(ステップS102)音源特定部132は、クラスタリング対象とする多数の到達時間差ベクトルのうち、各2つの到達時間ベクトルからなるデータペアごとに、2つの到達時間差ベクトルv,v間の類似度s(v,v)を算出する。類似度s(v,v)として、到達時間差ベクトルv,v間の負のユークリッド距離が適用可能である。負のユークリッド距離とは、通常のユークリッド距離に対して正負を反転して算出される。
なお、図2に示す例では、1つのデータペアを構成する2つの到達時間差ベクトルv,vが共通(つまり、i=j)となることがある。その場合、類似度s(v,v)は、最大値0となる。その後、ステップS104の処理に進む。
(ステップS104)音源特定部132は、データペアごとにresponsibility(適切性)r(v,v)とavailability(可用性)a(v,v)の初期値を、それぞれ0と設定する。
responsibility r(v,v)は、到達時間差ベクトルvが到達時間差ベクトルvのexamplarとして適切な度合いを示す数値である。
availability a(v,v)は、到達時間差ベクトルvが到達時間差ベクトルvのexamplarとして選択することの適切な度合いを示す数値である。その後、ステップS106の処理に進む。
(ステップS106)音源特定部132は、データペアごとに式(7)、(8)に示す関係を用いて、responsibility r(v,v)とavailability a(v,v)を算出する。
式(7)、(8)において、λは、ダンピングファクタを示す。ダンピングファクタλは、算出されるresponsibility r(v,v)やavailability a(v,v)の振動を防止もしくは緩和するためのパラメータである。振動は、ステップS106の処理の繰り返しにより発生することがある。ダンピングファクタλは、0より大きく、1より小さい所定の実数である。一般に、λの値が大きいほど振動が緩和されるが、responsibility r(v,v)やavailability a(v,v)の収束に要する計算回数が多くなる。
ρ(v,v)、α(v,v)は、それぞれresponsibility r(v,v)、availability a(v,v)の伝搬値を示す。
音源特定部132は、式(9)、(10)に示す関係を用いて伝搬値ρ(v,v)、α(v,v)を算出することができる。その後、ステップS108の処理に進む。
(ステップS108)音源特定部132は、responsibility r(v,v)とavailability a(v,v)が収束したか否かを判定する。音源特定部132は、例えば、今回のresponsibility r(v,v)と前回のresponsibility r(v,v)との差分のデータペア間の二乗和を第1判定パラメータとして算出し、今回のavailability a(v,v)と前回のavailability a(v,v)との差分のデータペア間の二乗和を第2判定パラメータとして算出する。音源特定部132は、算出した第1判定パラメータが予め設定された第1判定パラメータの閾値よりも小さく、かつ、算出した第2判定パラメータが予め設定された第2判定パラメータの閾値よりも小さいとき、responsibility r(v,v)とavailability a(v,v)が収束したと判定する。音源特定部132は、算出した第1判定パラメータが予め設定された第1判定パラメータの閾値以上、または、算出した第2判定パラメータが予め設定された第2判定パラメータの閾値以上であるとき、responsibility r(v,v)とavailability a(v,v)が収束していないと判定する。音源特定部132は、収束していないと判定するとき、ステップS106の処理を繰り返し、収束したと判定するとき、ステップS110の処理に進む。
(ステップS110)音源特定部132は、到達時間差ベクトルvのexamplarとして、responsibility r(v,v)とavailability a(v,v)との和が最大となる到達時間差ベクトルvを選択する。音源特定部132は、ある1つのexamplarを共通とする到達時間差ベクトルv同士が、そのexamplarを代表とする各1つのクラスタに属すると判定する。このようにして、音源特定部132は、クラスタごとにexamplarとそのクラスタに属する到達時間差ベクトルvを特定することができる。音源特定部132は、互いに異なるexamplarの数をクラスタ数Cとして計数し、各クラスタに属する到達時間差ベクトルvの数をクラスタサイズとして算出することができる。その後、図2に示す処理を終了する。
なお、上記ではクラスタリング手法がAP法である場合を例にしたが、これには限られない。音源特定部132は、到達時間差ベクトルのクラスタリングにおいて、予めクラスタ数を定めずに実現できるクラスタリング手法を利用することができる。かかるクラスタリング手法として、例えば、階層型クラスタリングを利用することができる。階層型クラスタリングとは、1個もしくは複数の到達時間差ベクトルからなる各2つのクラスタ同士の距離を評価し、最も距離が小さい2つのクラスタ同士を1つのクラスタに統合する処理を順次実行する手法である。階層型クラスタリングにおけるクラスタ間の距離の評価方法として、ウォード法、群平均法、最短距離法、最長距離法など、いずれの手法も利用することができる。
音源特定部132は、生成したC個のクラスタのうち、クラスタサイズが所定のクラスタサイズの閾値以上となるクラスタを採用し、その閾値よりも少ないクラスタを棄却してもよい。
より具体的には、音源特定部132は、生成したC個のクラスタをクラスタサイズN[i](1≦i≦C)の昇順にソートし、クラスタサイズN[i]がその閾値T(例えば、80〜200)以上となるC’個のクラスタiを採用し、閾値T未満となるクラスタiを棄却する。そして、音源特定部132は、より順位が低い隣接クラスタi−1のクラスタサイズN[i−1]に対する注目クラスタiのクラスタサイズN[i]との比を隣接クラスタサイズ比N’[i]として算出する。そして、音源特定部132は、隣接クラスタサイズ比N’[i]が所定の隣接クラスタサイズ比の閾値T(Tは、1よりも有意に大きい実数、例えば、1.3〜1.7)よりも高くなるクラスタi’を特定する。そして、音源特定部132は、第i’クラスタ〜第Cクラスタを採用し、第1クラスタ〜第i’−1クラスタを棄却する。音源特定部132は、採用されたクラスタの個数を音源数NSS(Number of Sound Source)をC’−i’+1個として推定することができる。これにより、ノイズ源、残響、同時発話などにより形成される小規模なクラスタが除去される。
音源特定部132は、採用したクラスタiごとにexamplarとなる到達時間差ベクトルvに基づいてステアリングベクトルA[i](ω)を生成する。ステアリングベクトルは、式(11)に示すように第mチャネルと第1チャネルとの間のTDOA τ’[i]mによる位相差に基づく応答係数ejωτ’[i]mを第m次元の要素とするM次元のベクトルである。但し、第1次元の要素を1とする。
音源特定部132は、ステアリングベクトルA[i](ω)に基づいて音源活性期間(SSAP:Sound Source Activity Period)を定めてもよい。SSAPは、有効な音源が提示されている期間である。音源特定部132は、所定の長さの観測区間であるウィンドウwごとに、収音信号x(t)と音源iに係るステアリングベクトルA[i,w](ω)を用いて各フレームfについてMUSIC(Multiple Signal Classification)空間スペクトルP[i,w](f)を算出する。但し、1つのウィンドウは、1個以上のフレームからなる。1つのウィンドウが複数のフレームからなる場合には、隣接するウィンドウに共通のフレームが含まれてもよい。音源特定部132は、MUSIC空間スペクトルP[i,w](f)(単に、空間スペクトルとも呼ばれる)を式(12)に示す関係を用いて算出することができる。
式(12)において、[…]は、ベクトル又は行列…の共役転置を示す。e(ω)は、相関行列R(ω)の第m固有ベクトルを示す。相関行列R(ω)は、第m行第n列の要素として、第mチャネルの収音信号x(t)と第nチャネルの収音信号x(t)の相互相関係数の周波数領域の変換係数を有する。即ち、音源特定部132は、収音信号x(t)の周波数領域の変換係数X(ω)を要素とする収音ベクトルX(ω)=[X(ω),…,X(ω)]から式(13)に示す関係を用いて相関行列R(ω)を算出することができる。
式(13)において、E[…]は、…の期待値を示す。
そして、音源特定部132は、その時点までのF個のフレームの期間内のMUSIC空間スペクトルP[i,w](f)のヒストグラムを、各音源iについて生成する。音源特定部132は、フレームごとのMUSIC空間スペクトルPが、所定数(例えば、10〜20)の階級のうちいずれの階級の値であるかを判定し、MUSIC空間スペクトルPがそれぞれの階級内の値をとるフレームの数を度数として示すデータをヒストグラムとして定める。所定数の階級は、MUSIC空間スペクトルPとして取りうる値域を細分化した値の区間である。音源特定部132は、MUSIC空間スペクトルPが0となるフレームを計数対象のフレームから除外してもよい。
音源特定部132は、生成したヒストグラムを構成するフレームごとの階級についてクラスタリングを行って、閾値TよりもMUSIC空間スペクトルPの値が大きい活性領域と、閾値TよりもMUSIC空間スペクトルPの値が小さい不活性領域とに分類する。音源特定部132は、クラスタリングにおいて、生成されるクラスタ数をパラメータとして2に設定可能とする手法、例えば、k−means法を用いる。音源特定部132は、活性領域に対する階級の最小値を閾値Tとして定める。音源特定部132は、活性領域に分類されたフレームをSSAPと判定し、それ以外のフレームをSSAPではないと判定することができる。なお、音源特定部132は、複数のMUSIC空間スペクトルPを活性領域と不活性領域に分類できる手法としてクラスタリング以外の手法、例えば、サポートベクターマシンを用いてもよい。
そして、音源特定部132は、音源iと音源i’のそれぞれについて、各フレームがSSAPであるか否かを示すSSAPパターンを形成する。
次に、音源特定部132は、音源iと音源i’(但し、i≠i’)の組ごとにSSAPパターンの類似性を評価する。音源特定部132は、類似性の尺度として、例えば、F値(F−measure)を用いることができる。F値FMは、式(14)に示すように適合率(Presicion Rate)PRと再現率(Recall Rate)RRとの調和平均として算出される。
再現率RRは、音源iに係るSSAPのフレーム数に対する音源i、i’の両者についてSSAPと判定されたフレームの数の割合として定義される。適合率PRは、音源i’に係るSSAPのフレーム数に対する音源i、i’の両者についてSSAPと判定されたフレームの数の割合として定義される。F値FMは0以上1以下の値をとりうる。F値FMが0とは、音源iに係るSSAPパターンと音源i’に係るSSAPパターンとが異なることを意味する。F値FMが1とは、音源iに係るSSAPパターンと音源i’に係るSSAPパターンが同様であることを示す。そこで、音源特定部132は、F値FMが所定のF値の閾値TFM(例えば、0.4〜0.6)よりも大きい場合、音源iに係るSSAPパターンと音源i’に係るSSAPパターンが類似し、F値FMが所定のF値の閾値TFM以下であるとき、音源iに係るSSAPパターンと音源i’に係るSSAPパターンが類似しないと判定することができる。
なお、類似性の尺度として、F値以外にも相関係数などが利用可能である。音源特定部132は、例えば、音源ごとに所定の評価区間内の各フレームについてSSAPで否かにより、1か0の値を要素として含むSSAPパターンベクトルを生成する。そして、音源特定部132は、SSAPパターンベクトル間の内積を相関係数として算出する。音源特定部132は、算出した相関係数の値が所定の閾値よりも大きいか否かにより、対応するSSAPパターンが類似するか否かを判定することができる。
そして、音源特定部132は、音源iと音源i’とでSSAPパターンが類似すると判定するとき、音源iと音源i’のいずれか一方の音源とその一方の音源に係るステアリングベクトルを棄却し、残った音源とその残った音源に係るステアリングベクトルを採用する。音源特定部132は、例えば、音源iと音源i’のそれぞれに対応するクラスタのクラスタサイズを比較し、クラスタサイズが大きい方のクラスタに対応する音源を採用すればよい。音源特定部132は、既に算出した音源数から棄却した音源の数を差し引く。
音源特定部132は、採用した音源iごとのステアリングベクトルA[i](ω)を音源方向推定部14に出力する。
一般に各1つの音源は1または複数の周波数成分を含む音を提示するが、複数の周波数成分の音が同時に提示されるとき、周波数成分間でSSAPパターンも互いに類似するはずである。他方、到達時間差ベクトルのクラスタリングを周波数ごとに実行すると、複数の周波数成分のそれぞれについて異なるクラスタが得られるため、共通の音源から発されたにも関わらず、それぞれ別個の音源として検出される可能性がある。上記のようにSSAPパターンを評価して、互いに類似する複数のSSAPパターンにそれぞれ対応する音源を共通の音源と判定し、いずれか一方の音源を棄却することで、過不足なく音源を検出することができる。
音源方向推定部14は、収音位置算出部124から入力される収音位置ξMmと音源特定部132から入力されるステアリングベクトルA[i](ω)に基づいて、音源iの方向θ[i]を推定する。
より具体的には、音源方向推定部14は、音源iに係るステアリングベクトルA[i](ω)の共役転置A [i](ω)にステアリングベクトルA[i](ω)を乗算して相関行列R[i](ω)を算出する。音源方向推定部14は、相関行列R[i](ω)に対して固有値展開を行って、M個の固有値と、それぞれに対応する固有ベクトルを算出する。音源方向推定部14は、固有ベクトルv[i]m(ω)の順序mは、対応する固有値λの絶対値の降順に定める。
音源方向推定部14は、水平面内の方向θのそれぞれについて収音位置ξMmに対するステアリングベクトルAξ(ω,θ)を生成する。音源方向推定部14は、ステアリングベクトルAξ(ω,θ)の第m次元の要素値である応答係数として、収音位置ξMm、ξM1間のTDOA τ(ξMm,ξM1,θ)に基づく位相成分ejω(τ(ξMm,ξM1,θ))を定める。但し、TDOAを算出する際、収音素子30−1〜30−Mに方向θから平面波が到来することを仮定する。この仮定では、収音位置ξMm、ξM1間のTDOA τ(ξMm,ξM1,θ)は、{(ξMm,x−ξM1,x)cosθ+(ξMm,y−ξM1,y)sinθ}/cとなる。ここで、ξMm,x、ξMm,yは、それぞれ収音位置ξMmのξ座標、ξ座標を示す。ξM1,x、ξM1,yは、それぞれ収音位置ξM1のξ座標、ξ座標を示す。ξ座標、ξ座標は、2次元直交座標系を構成する互いに直交するξ、ξ方向の座標値である。また、方向θは、ξ方向を基準方向(0°)としてなす右回りの角度がθとなる方向である。
そして、音源方向推定部14は、ステアリングベクトルAξ(ω,θ)と第2固有ベクトルv[i]2(ω)から第M固有ベクトルv[i]M(ω)を用いて、式(15)に示す関係を用いて音源iの音源方向θ[i]を定めることができる。
式(15)の右辺のカッコ内で表される部分は、MUSIC空間スペクトルを示す。式(15)は、ステアリングベクトルAξ(ω,θ)の各要素の二乗和を、ステアリングベクトルAξ(ω,θ)と第m固有ベクトルv[i]m(ω)との内積の絶対値の第2固有ベクトルv[i]2(ω)から第M固有ベクトルv[i]M(ω)までの総和で正規化するステップと、正規化して得られる値をさらに周波数ω間で累積してMUSIC空間スペクトルを算出するステップと、MUSIC空間スペクトルが最大となるθを音源iの方向θ[i]として定めるステップを示す。
この手法において、第1固有ベクトルv[i]M(ω)は、音源iに対するステアリングベクトルが張られる信号部分空間の基底ベクトルとなり、第2固有ベクトルv[i]2(ω)から第M固有ベクトルv[i]M(ω)のいずれとも直交する。方向θが音源iの方向θ[i]となるとき、ステアリングベクトルAξ(ω,θ)と第m固有ベクトルv[i]m(ω)(mは、2以上)との内積の値が最も小さくなるので、MUSIC空間スペクトルは、方向θが音源iの方向θ[i]となるとき最大となることが期待される。これにより、推定された音源ごとに、位置が可変な収音素子30−mで収音される収音信号x(t)を用いて音源方向が推定される。
なお、音源方向推定部14は、音源方向θ[i]に代えて、音源iに対する音源位置ξ[i]を定めてもよい。但し、音源方向推定部14は、候補位置ξのそれぞれについて収音位置ξMmに対するステアリングベクトルAξ(ω,ξ)を生成する。音源方向推定部14は、ステアリングベクトルAξ(ω,ξ)の第m次元の要素値として収音位置ξMm、ξM1間のTDOAに基づく位相成分ejω(τ(ξMm,ξG)−τ(ξM1,ξG))に定める際、音源位置ξから収音位置ξMmに球面波が到来することを仮定してもよい。即ち、音源方向推定部14は、音源位置ξから収音素子30−mの収音位置ξMmまでの距離dを音速cで除算して到来時刻τ(ξMm,ξ)を算出する。また、第m次元の要素値を定める際、音源位置ξから収音位置ξMmへの距離減衰をさらに考慮してもよい。即ち、音源方向推定部14は、ステアリングベクトルAξ(ω,ξ)の第m次元の要素値を、上記の位相成分ejω(τ(ξMm,ξG)−τ(ξM1,ξG))にさらに距離dに対する距離dの比d/dで除算して得られる値に定める。
そして、音源方向推定部14は、ステアリングベクトルAξ(ω,ξ)と第2固有ベクトルv[i]2(ω)から第M固有ベクトルv[i]M(ω)を用いて、式(16)に示す関係を用いて音源iの音源位置ξ[i]を定めることができる。
式(16)の右辺のカッコ内で表される部分は、MUSIC空間スペクトルを示す。式(16)は、ステアリングベクトルAξ(ω,ξ)の各要素の二乗和を、ステアリングベクトルAξ(ω,ξ)と第m固有ベクトルv[i]m(ω)との内積の絶対値の第2固有ベクトルv[i]2(ω)から第M固有ベクトルv[i]M(ω)までの総和で正規化するステップと、正規化して得られる値をさらに周波数ω間で累積してMUSIC空間スペクトルを算出するステップと、MUSIC空間スペクトルが最大となるξを音源iの位置ξ[i]として定めるステップを示す。
この手法により、候補位置ξに仮想的に設置された音源からの音波の拡散による到来方向や音量の収音素子30−1〜30−m間の差異を考慮してステアリングベクトルAξ(ω,ξ)が算出される。そのため、音源が収音素子30−1〜30−mに比較的近接している環境下であっても、その音源位置を正確に特定することができる。
(収音位置推定処理)
次に、本実施形態に係る収音位置推定処理について説明する。図3は、本実施形態に係る収音位置推定処理の例を示すフローチャートである。
(ステップS112)到達時間算出部122は、到達時間算出部122は、第mチャネルの収音信号x(t)と第nチャネルの基準音信号e(t)との相互相関関数を算出する。その後、ステップS114の処理に進む。
(ステップS114)到達時間算出部122は、式(1)〜(3)のいずれかに示す関係に従って、相互相関関数もしくはその時間領域の位相成分が極大となる時刻tを算出する。到達時間算出部122は、基準音源20−nから基準音が放射される時刻から算出した時刻までの期間を到達時間τmn[j](第1時間)として定める。その後、ステップS116の処理に進む。
(ステップS116)収音位置算出部124は、第1時間である到達時間τmn[j]と候補位置情報が示す候補位置ξのそれぞれに対応する第2時間である到達時間τに基づいて、その候補位置ξが収音位置ξMmとなる可能性を示す尤度を式(4)に基づいて算出する。その後、ステップS118の処理に進む。
(ステップS118)収音位置算出部124は、算出した尤度を最大化する候補位置ξを収音位置ξMmとして定める。その後、図3に示す処理を終了する。
(音源方向推定処理)
次に、本実施形態に係る音源方向推定処理について説明する。図4は、本実施形態に係る音源方向推定処理の例を示すフローチャートである。
(ステップS122)収音位置算出部124は、図3に示す処理を実行して収音位置ξMmを推定する。その後、ステップS124の処理に進む。
(ステップS124)到達時間差ベクトル生成部131は、Mチャネルの収音信号x〜xを用いて、所定の期間ごとに第mチャネルと第1チャネルとのTDOAを要素とする到達時間差ベクトルを生成する。その後、ステップS126の処理に進む。
(ステップS126)音源特定部132は、到達時間差ベクトルに対してクラスタリング処理を行い、クラスタとクラスタごとの代表ベクトル(examplar)を定める。その後、ステップS128の処理に進む。
(ステップS128)音源特定部132は、定めたクラスタの全部または一部のそれぞれを音源に対応するクラスタとして定める。音源特定部132は、定めたクラスタの代表ベクトルの要素に基づいて応答係数を算出し、算出した応答係数を要素として有するステアリングベクトルを式(11)に従って音源に対応するステアリングベクトルとして生成する。その後、ステップS130の処理に進む。
(ステップS130)音源方向推定部14は、ステップS128で生成されたステアリングベクトルに基づいて相関行列を算出し、算出した相関行列に対して固有値展開を行って、第1固有ベクトルから第M固有ベクトルを算出する。音源方向推定部14は、音源方向に対応する別個のステアリングベクトルを生成し、別個に生成したステアリングベクトルと第1固有ベクトルから第M固有ベクトルを用いて、式(15)に示す空間スペクトルを算出する。その後、ステップS132の処理に進む。
(ステップS132)音源方向推定部14は、算出した空間スペクトルを最大化する音源方向を、ステップS128で生成されたステアリングベクトルに対応する音源の音源方向として特定する。その後、図4に示す処理を終了する。
(外観構成)
次に、本実施形態に係る音響処理システム1の外観構成例について説明する。図5は、本実施形態に係る音響処理システム1の外観構成例を示す平面図である。
図5は、柔構造ロボットに設置されている音響処理システム1を例示する。
音響処理装置10は、円盤状の筐体内に格納されている。基準音源の個数、収音素子の個数は、それぞれ3、5である。基準音源20−1〜20−3は、それぞれ筐体表面の外周部に設置されている。収音素子30−1〜30−5は、それぞれ柔構造ロボットの管部(ホース)の長手方向にほぼ等間隔に設置されている。管部の長さ、筐体の直径が、それぞれアレイ長、配置距離に相当する。柔構造ロボットの一端は、音響処理装置10を格納する筐体に接続されている。柔構造ロボットは、管部の形状を変えながら平面上を爬行可能としている。そのため、収音素子30−1〜30−5全体の位置も、収音素子30−1〜30−5の相互間の相対的な位置関係も可変である。
(評価実験)
上記の実施形態で実行される音響処理方法の有効性を検証するため、出願人は、次に説明する評価実験を行った。評価実験を行った実験室の内面は、グラスウォールで覆われ、残響時間の尺度であるRT20が0.4〜0.5[s]である。縦、横の寸法は、それぞれ4[m]、7.5[m]である。その環境における、平均S/N比は、10−15[dB]である。
評価実験は、図5に示す外観構成を有する音響処理システム1を用い、図6に示す基準音源20−1〜20−3と収音素子30−1〜30−5の配置のもとで行われた。基準音源20−1〜20−3は、原点Oを中心とする半径dの円周上に等角度(120°)間隔で配置された。半径dは、0.04[m]である。収音素子30−1、30−2、30−3は、原点からの距離を特性長dとし、それぞれ2次元直交座標系のξ方向(横方向)とは逆方向に、原点からξ方向(縦方向)に、原点からξ方向とは逆方向に離れた位置に配置された。収音素子30−4、30−5は、それぞれ座標[d,d/2]、座標[d,−d/2]の位置に配置された。但し、収音部30の特性長dを、0.04[m]、0.08[m]、0.12[m]の3通りとした。
基準音信号、収音信号のサンプリング周波数をそれぞれ192[kHz]とし、サンプルごとの信号値のビットサイズを16ビットとした。但し、音源推定部13、音源方向推定部14は、収音信号のサンプリング周波数を16[kHz]にダウンサンプリングして、それぞれの処理を実行した。また、フレーム長、シフト長を、それぞれ512[サンプル]、160[サンプル]とした。
評価実験は、第1の実験と、第2の実験とを含む。第1の実験では、収音位置推定部12により推定された収音位置の精度を評価した。
ここで、基準音の周波数帯域を、20−40[kHz]、30−50[kHz]、40−60[kHz]の3通りとし、基準音信号としてスイープ正弦波のパルスを用いた。基準音信号の信号長tを、64[サンプル]、128[サンプル]、256[サンプル]、512[サンプル]、1024[サンプル]、2048[サンプル]の6通りとした。また、最大到達時間tを、4096[サンプル]とした。
候補位置の集合であるグリッドマップとして、縦、横の大きさが、それぞれ1[m]の2次元のマップを用いた。但し、グリッドマップの中心を原点Oにおいた。
収音位置の算出に用いる到達時間τmn[j]を定める際、式(1)〜(3)の3通りの手法を用い、それぞれについて30回試行した。但し、到達時間τmn[j]を定めるための基準音の再生周期jは、各1周期のみとした。そして、推定された収音位置ξMmのx座標ξMm,x、y座標ξMm,yの少なくともいずれか一方が−0.3[m]未満もしくは0.3[m]より大きい試行を無効な試行として判定し、ξMm,x、ξMm,yがそれぞれ−0.3[m]以上0.3[m]以下となる試行を有効な試行として判定する。そして、無効な試行の回数の全試行回数に対する割合を、失敗率(FR:Failure Rate)として定めた。
図7、図8、図9は、それぞれ式(1)、(2)、(3)に示す手法を用いて算出した到達時間τmn[j]に基づいて推定された収音位置ξMmの推定結果を示す。但し、いずれも特性長dMを0.12[m]とした。
各行は基準音の信号長tを示し、各列は基準音の周波数帯域を示す。各条件での推定結果は、誤差の平均値、標準偏差、失敗率を含む。誤差として、推定された収音位置ξMmと現実の収音素子30−mの位置との間のユークリッド距離を用いた。平均値、標準偏差、失敗率は、それぞれ±記号の左隣、±記号の右隣、カッコ内に示されている。平均値、標準偏差、失敗率は、それぞれ各条件での複数の試行ならびに収音素子間で算出される。
図7−図9に示す推定結果を周波数帯域間で比較すると、30−50[kHz]の帯域に係る推定結果が最も良好となる傾向が認められる。図9の第6行に示す例では、20−40[kHz]、30−50[kHz]、40−60[kHz]の帯域のそれぞれについて、平均値は17.0、11.9、13.3[mm]となった。
図7−図9に示す推定結果を信号長t間で比較すると、信号長t間が長いほど推定結果が良好になる傾向が認められる。図8の第3列に示す例では、64、128、256、512、1024、2048[サンプル]の信号長tのそれぞれについて、平均値は、15.0、15.5、14.6、14.9、14.9、13.7[mm]となった。
図7に示す推定結果では、第6行第3列に示すように、信号長tが1024[サンプル]、周波数帯域が30−50[kHz]となる基準音に係る推定結果が最良と判断される。図8に示す推定結果では、第7行第3列に示すように、信号長tが2048[サンプル]、周波数帯域が30−50[kHz]となる基準音に係る推定結果が最良と判断される。図9に示す推定結果では、第7行第3列に示すように、信号長tが2048[サンプル]、周波数帯域が30−50[kHz]となる基準音に係る推定結果が最良と判断される。
図7−図9間で推定結果を比較すると、図8、図9に示す推定結果は、図7に示す推定結果よりも良好となる傾向がある。このことは、式(1)に示す手法よりも、式(2)、(3)に示す手法を用いた方が収音位置ξMmの推定精度が向上することを示す。
なお、図7−図9に示す推定結果のうち、失敗率が有意に0%よりも高くなるケースは、信号長tが64[サンプル]、周波数帯域が40−60[kHz]である場合だけであって、その他のケースでは、いずれも失敗率は0%となった。
図10は、収音位置の推定結果の到達時間τmn[j]の算出手法と特性長dMの依存性の例を示す。
図10は、各行に到達時間τmn[j]の算出手法を示し、各列に特性長dMを示す。到達時間τmn[j]の算出手法間で推定結果を比較すると、式(3)に示す手法に基づく推定結果が、他の手法に基づく推定結果よりも良好である。例えば、特性長dMが0.12[m]である場合、式(1)、(2)、(3)のそれぞれについて平均値は、15.9[mm]、13.7[mm]、11.4[mm]となった。また、特性長dMが大きくなるほど、誤差も増加する傾向がある。例えば、式(3)に手法に基づく手法では、特性長dMが0.04[m]、0.08[m]、0.12[m]のそれぞれについて平均値は、7.2[mm]、10.4[mm]、11.4[mm]となった。
なお、図6に示す円C1、C2、C3は、特性長dMが0.12[m]であって式(3)を用いて算出された到達時間τ13、τ23、τ33にそれぞれ対応する距離c・τ13、c・τ23、c・τ33をそれぞれ半径とし、収音素子30−1、30−2、30−3の収音位置を中心とする円である。2次元平面においては、少なくとも2個の到達時間を知得できれば、その到達時間に基づく円の交点に相当する位置が収音位置として推定されるはずである。しかしながら、算出される到達時間には誤差が含まれるため、2つの円、例えば、円C1、C2の交点の位置は、現実の収音位置、例えば、収音素子30−3の位置から離れてしまう。また、各2つの円の交点は、必ずしも収音素子30−3の近傍に存在するとは限らない。図6に示す例でも、むしろ他の収音素子に近接する交点や、収音素子が配置されている領域外に所在する交点も存在する。上述のように、収音位置算出部124は、式(4)に示す関係を用いて収音素子30−mが存在する可能性の度合いを示す尤度を算出することにより、算出した尤度に基づいて確からしい収音位置ξMmを定めることができる。
図11は、半径dが0.04[m]である場合に、図6に示す基準音源20−1〜20−3ならびに収音素子30−1〜30−3のもとで得られた到達時間τ13、τ23、τ33を用いて算出される尤度の分布を示す。濃淡は尤度を示し、明るい部分ほど尤度が高く、暗い部分ほど尤度が低いことを示す。この例では、収音素子30−3の近傍において尤度が最も高くなる。このことは、式(4)に示す関係を用いて収音位置ξMmを正確に定めることができることを裏付ける。
第2の実験では、音源方向推定部14により式(15)に示す関係を用いて推定された音源方向の精度を評価した。但し、図12に示すように基準音源20−1〜20−3からなる音源部20の中心と、収音素子30−1〜30−5からなる収音部30の中心を原点に配置した。また、6名の話者Sp01−Sp06を音源として参加させ、それぞれ原点Oの方向に向けて配置させた。話者Sp01、Sp03、Sp04、Sp06の位置を、矩形の領域の各頂点に配置し、話者Sp02、Sp05の位置を、原点Oからそれぞれξ方向、ξ方向の逆方向に0.7[m]離れた位置に配置した。矩形の領域は、ξ方向の座標ξが−0.7[m]以上0.7[m]以下であって、ξ方向の座標ξが−0.7[m]以上0.8[m]以下となる領域である。また、話者Sp01−Sp06の高さを、いずれも原点Oから0.4[m]高い位置とした。
まず、音源数L、すなわち6名の話者のうち現実に発話する話者の数として、2、3、4、5、6の5通りについて、音源推定部13が推定した音源数を評価した。発話音声として、ATR(Advanced Telecommunication Research;国際電気通信基礎技術研究所)デジタル音声データベースの216単語セットのうち最初の10単語の音声を用いた。当該データベースは、音声学的にバランスが取れた日本語の複数の単語からなる。各話者位置について、6個の単語セットを用いた。6個の単語セットは全60単語からなり、6個のうち3個の単語セットは、女性の発話であり、残りの3個の単語セットは男性の発話である。そして、各話者の10単語の発話を音源数の推定ならびに式(11)に示すステアリングベクトルの生成に用いた。
図13は、音源推定部13により推定された音源数を推定結果として示す。図13の各行は、話者数、つまり現実の音源数を示し、各列は、特性長dを示す。各行各列の推定結果は、SSAPパターンに基づく共通と判定される音源の棄却前の音源数と棄却後の音源数をその順序で示す。各条件ともに音源数が概ね話者数と一致し、音源数が適切に推定されることが示される。特性長dが0.04[m]であって、話者数が2、3である場合には、推定された音源数である2.4、3.1と差が生じるが、その差は0.4以下となる。また、SSAPパターンによる音源の棄却により、推定される音源数2、3が発話者数にそれぞれ一致することは、その処理により余分に検出された音源が棄却され、より正確に音源数が推定されることを示す。
また、特性長dが0.12[m]である場合には、音源数が正確に推定される。このことは、柔構造ロボットに設置され、配置が可変なマイクロホンアレイでも、その大きさを拡張すれば音源数をより正確に推定できることを示す。
図14は、音源方向推定部14により式(15)に示す関係を用いて推定された音源方向を推定結果として示す。図14は、各行に到達時間τmn[j]の算出手法を示し、各列に特性長dMを示す。各列各行に推定誤差の平均値、標準偏差を、それぞれ±記号の左隣、右隣に示す。推定誤差は、現実の音源方向と推定された音源方向θ[i]との差である。特性長dM間で推定結果を比較すると、特性長dMが大きくなるほど、推定誤差が小さくなる傾向が認められる。また、式(3)の手法に基づく到達時間τmn[j]に基づく音源方向が最も推定結果が良好となる。例えば、特性長dMが0.12[m]であり、式(3)の手法を用いる場合には、推定誤差の平均値、標準偏差は、それぞれ5.65°、3.77°となった。図14に示す推定結果も、マイクロホンアレイの大きさを拡張すれば音源方向をより正確に推定できることを示す。
以上に説明したように、本実施形態に係る音響処理装置10は、収音位置推定部12を備える。収音位置推定部12は、基準音源20−1〜20−N(Nは3以上)のそれぞれから収音素子30−mまでの基準音の到達時間τmn[j]である第1時間を収音素子30−mが収音した収音信号を用いて定める。そして、収音位置推定部12は、基準音源20−1〜20−Nのそれぞれから収音素子30−mの位置の候補である候補位置ξまでの基準音の到達時間τである第2時間を算出する。その後、収音位置推定部12は、第1時間と第2時間との差が小さいほど高い確率を与える確率関数を用いて、候補位置が収音素子の位置である可能性を示す尤度を算出し、当該尤度を最大化する候補位置ξを、収音素子30−mの位置ξMmとして定める。
この構成によれば、3個以上の基準音源20−1〜20−Nから収音素子30−mまでの基準音の到達時間τmn[j]と基準音源20−1〜20−Nから候補位置ξまでの到達時間τにより候補位置ξが収音素子30−mの位置である確率を用いて尤度が算出される。そして、尤度が最大となる候補位置ξが収音素子30−mの位置ξMmとして定まる。そのため、3個以上の基準音源20−1〜20−Nを用いて候補位置ξが収音素子30−mの位置ξMmとなる可能性が総合的に評価されるので、到達時間τmn[j]に誤差が含まれていても、基準音源20−1〜20−Nが移動しているか否かに関わらず、より確実に収音素子30−mの位置ξMmを定めることができる。
また、収音位置推定部12は、基準音を示す基準音信号と収音素子30−mが収音した収音信号x(t)との相互相関関数に基づいて第1時間を算出する。
この構成によれば、相互相関関数により基準音信号と収音信号x(t)との相関性を定量的に評価して、基準音の再生から収音までの第1時間を定めることができる。
また、収音位置推定部12は、離散時刻ごとに算出した相互相関関数を所定の連続関数で補間して得られる関数値を最大化する時刻に基づいて第1時間を算出する。
この構成によれば、離散時刻ごとに相互相関関数を定め、相互に隣接する2つの離散時刻間の時刻に対する相互相関関数を推定し、推定された相互相関関数が最大となる時刻が基準音の再生から収音までの第1時間として定められる。そのため、時間離散化による第1時間の推定誤差、ひいては収音位置ξMmの推定誤差を低減することができる。
また、音響処理装置10は、相互相関関数の周波数領域における変換係数の位相成分を算出する。そして、位相成分を時間領域に逆変換して得られる離散時刻ごとの逆変換関数値を所定の連続関数で補間して得られる関数値を最大化する時刻までの期間を第1時間として算出する。
この構成によれば、相互相関関数の周波数領域における変換係数の振幅成分が除去されるので、相互相関関数の振幅の周波数依存性が解消される。そして、相互相関関数の振幅成分を除去して得られる時間領域の逆変換関数値が相互に隣接する2つの離散時刻間で補間される。そのため、時間離散化に加え、基準音信号の振幅の周波数特性による第1時間、ひいては収音位置ξMmの推定誤差を低減することができる。
また、基準音は可聴帯域よりも高い成分の成分からなる超音波である。
そのため、収音位置ξMmの推定に可聴帯域の音声よりも波長が短い超音波が用いられるので、第1時間の推定誤差、ひいては収音位置ξMmの推定誤差を低減することができる。また、基準音は人間に知覚されないため、人間に対する受聴環境が害されない。
また、収音位置推定部12は、音源推定部13と、音源方向推定部14とを備える。
音源推定部13は、所定の収音素子が収音した基準チャネルの収音信号と他の収音素子が収音した他チャネルの収音信号との到達時間差を要素とする到達時間差ベクトルを所定期間ごとに生成する。そして、音源推定部13は、到達時間差ベクトルをクラスタごとに分類し、基準音源とは別個の音源に対応するクラスタを代表する到達時間差ベクトルに基づいて第1ステアリングベクトルを定める。
音源方向推定部14は、第1ステアリングベクトルに基づく相関行列を固有値展開して固有ベクトルを算出し、音源方向に対応する応答係数を要素として有する第2ステアリングベクトルを生成し、第2ステアリングベクトルの各要素の二乗和を、2次以上の各次の前記固有ベクトルと前記第2ステアリングベクトルとの内積の総和で正規化した空間スペクトルを最大化する音源方向を定める。
この構成によれば、Mチャネルの収音信号x(t)から個々の音源に対応する第1ステアリングベクトルが定まり、第1ステアリングベクトルに基づく相関行列に対するM個の固有ベクトルが算出される、そのうち、第1固有ベクトルは、基準音源とは別個の目的音源に対するステアリングベクトルが張られる信号部分空間の基底ベクトルとなり、第2固有ベクトルから第M固有ベクトルのいずれとも直交する。音源方向θに対応する第2ステアリングベクトルと第m固有ベクトルとの内積の値が最も小さくなるので、音源方向に対する値が最大となるように空間スペクトルが算出される。そのため、音源数が未知であっても、位置が可変な収音素子30−mで収音される収音信号xを用いて、個々の音源の音源方向を正確に推定することができる。
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、上述の音響処理システム1において、音響処理装置10と音源部20が別体である場合を例にしたが、これには限られない。音響処理装置10は、音源部20と一体に構成されてもよい。
また、収音素子30−1〜30−Mは、必ずしも柔構造ロボットに設置されていなくてもよい。収音素子30−1〜30−Mは、1個もしくは複数の他の物体、例えば、車両模型、内視鏡装置、ドローンなどの移動体、通信機器、計測器、その他、収音を主用途としない機器に設置されてもよい。
入出力部11と、基準音源20−1〜20−Nならびに収音素子30−1〜30−Mとの間の各種の信号の入出力は、有線でもよいし、無線でもよい。
上述の実施形態に係る音響処理装置10は、2次元空間における収音素子30−1〜30−Mもしくはその他の音源の方向もしくは位置の推定を実行する場合を例にしたが、これには限られない。音響処理装置10は、3次元空間における収音素子30−1〜30−Mもしくはその他の音源の方向もしくは位置の推定を実行する場合に応用されてもよい。
音響処理装置10は、少なくとも収音位置推定部12を備えていればよい。音響処理装置10は、収音位置推定部12が推定した収音位置を用いて、収音素子30−1〜30−Mで取得される収音信号に対するその他のアレイ処理を実行するアレイ処理部を備えてもよい。その場合、音源推定部13と音源方向推定部14が省略されてもよい。アレイ処理部は、例えば、音源方向推定部14とは別個の方式(例えば、MUSIC法)を用いた音源方向推定、雑音抑圧、音源分離などのいずれかの処理、もしくはそれらの処理の任意の組み合わせを実行してもよい。
なお、上述の実施形態における音響処理装置10の一部、例えば、収音位置推定部12、音源推定部13および音源方向推定部14の全部または一部をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音響処理装置10に内蔵されたコンピュータシステムであって、CPU(Central Processing Unit)などの1個以上のプロセッサの他、OS(Operating System)や周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD−ROM(Compact Compact Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態及び変形例における音響処理装置10の一部、例えば、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音響処理装置10の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
1…音響処理システム、10…音響処理装置、11…入出力部、12…収音位置推定部、13…音源推定部、14…音源方向推定部、20…音源部、20−1〜20−N…基準音源、30…収音部、30−1〜30−M…収音素子、121…基準音源制御部、122…到達時間算出部、123…候補位置情報記憶部、124…収音位置算出部、131…到達時間差ベクトル生成部、132…音源特定部

Claims (8)

  1. N(Nは、3以上の整数)個の基準音源のそれぞれから収音素子までの基準音の到達時間である第1時間を前記収音素子が収音した収音信号を用いて定め、
    前記N個の基準音源のそれぞれから前記収音素子の位置の候補である候補位置までの前記基準音の到達時間である第2時間を取得し、
    前記第1時間と前記第2時間との差が小さいほど高い確率を与える確率関数を用いて、前記候補位置が収音素子の位置である可能性を示す尤度を算出し、前記尤度を最大化する候補位置を、前記収音素子の位置として定める収音位置推定部
    を備える音響処理装置。
  2. 前記収音位置推定部は、
    前記基準音を示す基準音信号と前記収音素子が収音した収音信号との相互相関関数に基づいて前記第1時間を算出する
    請求項1に記載の音響処理装置。
  3. 前記収音位置推定部は、
    離散時刻ごとに算出した前記相互相関関数を所定の連続関数で補間して得られる関数値を最大化する時刻に基づいて前記第1時間を算出する
    請求項2に記載の音響処理装置。
  4. 前記収音位置推定部は、
    前記相互相関関数の周波数領域における変換係数の位相成分を算出し、前記位相成分を時間領域に逆変換して得られる離散時刻ごとの逆変換関数値を所定の連続関数で補間して得られる関数値を最大化する時刻までの期間を、
    前記第1時間として算出する
    請求項2に記載の音響処理装置。
  5. 前記基準音は、可聴帯域よりも高い周波数の成分からなる
    請求項1から請求項4のいずれか一項に記載の音響処理装置。
  6. 所定の収音素子が収音した基準チャネルの収音信号と他の収音素子が収音した他チャネルの収音信号との到達時間差を要素とする到達時間差ベクトルを所定期間ごとに生成し、
    前記到達時間差ベクトルをクラスタごとに分類し、前記基準音源とは別個の音源に対応するクラスタを代表する到達時間差ベクトルに基づいて第1ステアリングベクトルを定める音源推定部と、
    前記第1ステアリングベクトルに基づく相関行列を固有値展開して固有ベクトルを算出し、
    音源方向に対応する応答係数を要素として有する第2ステアリングベクトルを生成し、
    前記第2ステアリングベクトルの各要素の二乗和を、2次以上の各次の前記固有ベクトルと前記第2ステアリングベクトルとの内積の総和で正規化した空間スペクトルを最大化する音源方向を定める音源方向推定部と、
    をさらに備える請求項1から請求項5のいずれか一項に記載の音響処理装置。
  7. 音響処理装置における音響処理方法であって、
    N(Nは、3以上の整数)個の基準音源のそれぞれから収音素子までの基準音の到達時間である第1時間を前記収音素子が収音した収音信号を用いて定め、
    前記N個の基準音源のそれぞれから前記収音素子の位置の候補である候補位置までの前記基準音の到達時間である第2時間を取得し、
    前記第1時間と前記第2時間との差が小さいほど高い確率を与える確率関数を用いて、前記候補位置が収音素子の位置である可能性を示す尤度を算出し、前記尤度を最大化する候補位置を、前記収音素子の位置として定める収音位置推定ステップ
    を有する音響処理方法。
  8. 音響処理装置のコンピュータに、
    N(Nは、3以上の整数)個の基準音源のそれぞれから収音素子までの基準音の到達時間である第1時間を前記収音素子が収音した収音信号を用いて定め、
    前記N個の基準音源のそれぞれから前記収音素子の位置の候補である候補位置までの前記基準音の到達時間である第2時間を取得し、
    前記第1時間と前記第2時間との差が小さいほど高い確率を与える確率関数を用いて、前記候補位置が収音素子の位置である可能性を示す尤度を算出し、前記尤度を最大化する候補位置を、前記収音素子の位置として定める収音位置推定手順
    を実行させるためのプログラム。
JP2018168968A 2018-09-10 2018-09-10 音響処理装置、音響処理方法およびプログラム Active JP6974279B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018168968A JP6974279B2 (ja) 2018-09-10 2018-09-10 音響処理装置、音響処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018168968A JP6974279B2 (ja) 2018-09-10 2018-09-10 音響処理装置、音響処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2020043456A true JP2020043456A (ja) 2020-03-19
JP6974279B2 JP6974279B2 (ja) 2021-12-01

Family

ID=69798834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018168968A Active JP6974279B2 (ja) 2018-09-10 2018-09-10 音響処理装置、音響処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6974279B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024039892A1 (en) * 2022-08-19 2024-02-22 Shure Acquisition Holdings, Inc. System and method for camera motion stabilization using audio localization

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11205890A (ja) * 1998-01-09 1999-07-30 Victor Co Of Japan Ltd エコーキャンセル装置
JP2005323381A (ja) * 2004-05-07 2005-11-17 Fuji Xerox Co Ltd マイクロホンの位置確認のためのシステム、方法、及びプログラム
JP2007081455A (ja) * 2005-09-09 2007-03-29 Nippon Telegr & Teleph Corp <Ntt> 音源位置・受音位置推定方法、その装置、そのプログラム、およびその記録媒体
JP2010212818A (ja) * 2009-03-08 2010-09-24 Univ Of Tokyo 複数のマイクロフォンにより受信された多チャンネル信号の処理方法
JP2015154207A (ja) * 2014-02-13 2015-08-24 本田技研工業株式会社 音響処理装置、及び音響処理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11205890A (ja) * 1998-01-09 1999-07-30 Victor Co Of Japan Ltd エコーキャンセル装置
JP2005323381A (ja) * 2004-05-07 2005-11-17 Fuji Xerox Co Ltd マイクロホンの位置確認のためのシステム、方法、及びプログラム
JP2007081455A (ja) * 2005-09-09 2007-03-29 Nippon Telegr & Teleph Corp <Ntt> 音源位置・受音位置推定方法、その装置、そのプログラム、およびその記録媒体
JP2010212818A (ja) * 2009-03-08 2010-09-24 Univ Of Tokyo 複数のマイクロフォンにより受信された多チャンネル信号の処理方法
JP2015154207A (ja) * 2014-02-13 2015-08-24 本田技研工業株式会社 音響処理装置、及び音響処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024039892A1 (en) * 2022-08-19 2024-02-22 Shure Acquisition Holdings, Inc. System and method for camera motion stabilization using audio localization

Also Published As

Publication number Publication date
JP6974279B2 (ja) 2021-12-01

Similar Documents

Publication Publication Date Title
Evers et al. The LOCATA challenge: Acoustic source localization and tracking
US10901063B2 (en) Localization algorithm for sound sources with known statistics
JP6311197B2 (ja) 音響処理装置、及び音響処理方法
JP4248445B2 (ja) マイクロホンアレイ方法及びシステム、並びにこれを用いた音声認識方法及び装置
EP2530484B1 (en) Sound source localization apparatus and method
JP6225118B2 (ja) 音源位置推定
JP6467736B2 (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
JP2014098568A (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
Traa et al. Multichannel source separation and tracking with RANSAC and directional statistics
JP2007033445A (ja) 信号源の軌跡をモデル化する方法及びシステム
Grobler et al. Sound based localization and identification in industrial environments
Ishi et al. Using multiple microphone arrays and reflections for 3D localization of sound sources
JP2010175431A (ja) 音源方向推定装置とその方法と、プログラム
JP6606784B2 (ja) 音声処理装置および音声処理方法
JP6974279B2 (ja) 音響処理装置、音響処理方法およびプログラム
KR20090128221A (ko) 음원 위치 추정 방법 및 그 방법에 따른 시스템
Ding et al. DOA estimation of multiple speech sources by selecting reliable local sound intensity estimates
ÇATALBAŞ et al. 3D moving sound source localization via conventional microphones
WO2014020921A1 (ja) 物体配置推定装置
Bu et al. TDOA estimation of speech source in noisy reverberant environments
Bai et al. Acoustic source localization and deconvolution-based separation
Nakamura et al. Blind spatial sound source clustering and activity detection using uncalibrated microphone array
Sledevič et al. An evaluation of hardware-software design for sound source localization based on SoC
JP5345748B1 (ja) 物体配置推定装置
Remaggi et al. Source, sensor and reflector position estimation from acoustical room impulse responses

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211104

R150 Certificate of patent or registration of utility model

Ref document number: 6974279

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150