JP7001566B2 - 音響処理装置、音響処理方法、およびプログラム - Google Patents
音響処理装置、音響処理方法、およびプログラム Download PDFInfo
- Publication number
- JP7001566B2 JP7001566B2 JP2018165365A JP2018165365A JP7001566B2 JP 7001566 B2 JP7001566 B2 JP 7001566B2 JP 2018165365 A JP2018165365 A JP 2018165365A JP 2018165365 A JP2018165365 A JP 2018165365A JP 7001566 B2 JP7001566 B2 JP 7001566B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- estimated
- sound
- unit
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/8006—Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/803—Systems for determining direction or deviation from predetermined direction using amplitude comparison of signals derived from receiving transducers or transducer systems having differently-oriented directivity characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Algebra (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
このため、非特許文献1には、方位角データを用いて二次元音源位置を得るための三角測量手法が開示されている。
位置の関数が、それぞれ形状パラメータ、平均ならびに分散といった少数のパラメータで
表される。そのため、推定音源位置の調整に係る計算負荷がさらに低減する。
そのため、互いに異なる音源の推定音源方向の中間点に基づいて推定音源位置が虚像として誤って選択される可能性を低くすることができる。
ここで、二次元配置のマイクロホンによるマイクロホンアレイを用いた音源定位の問題点を説明する。
二次元の位置推定を行うマイクロホンアレイでは、マイクロホン同士の仰角に差が無い水平方向に複数のマイクロホンが配置されている。
このようなマイクロホンアレイを用いた収音した場合は、音源の高さ方向の情報を取得できない。
図1は、本実施形態に係る音響処理システムS1の構成を示すブロック図である。図1に示すように、音響処理システムS1は、音響処理装置1と、M個の収音部20と、を含んで構成される。また、収音部20は、収音部20-1,20-2,・・・20-Mを備えている。
なお、以下の説明において、収音する音響信号の対象は野鳥の鳴き声であり、収音場所が野外であるとする。なお、本実施形態の高さ方向も含む位置推定を三次元位置推定という。
なお、収音部20をマイクロホンアレイmと呼ぶことがある。また、個々のマイクロホンアレイmを、マイクロホンアレイmk等と、インデックスk等を付して区別することがある。
図2は、マイクロホンアレイ(収音部20)の外形例を示す図である。
図2に示すマイクロホンアレイは、例えば外形が球状であり、16個のマイクロホン201を球体の側面上に備えている。なお、マイクロホン201は、二次元方向の音源方向推定に用いられる従来の水平方向に加え、垂直方向にも配置されている。
次に、音響処理装置1の構成例について説明する。
図1に示すように、音響処理装置1は、入力部10、初期処理部12、音源位置推定部14、音源特定部16、出力部18、および記憶部19を備えている。
初期処理部12は、音源定位部120、音源分離部122、および周波数分析部124を備えている。
音源位置推定部14は、初期値設定部130、および音源位置更新部142を備える。
音源特定部16は、分散算出部160、スコア算出部162、および音源選択部164を備える。
音源定位部120は、空間スペクトルに基づいて音源ごとの音源方向を定める。音源定位部120は、マイクロホンアレイmごとに定めた各音源の音源方向を示す音源方向情報と、そのマイクロホンアレイmが取得したQチャネルの音響信号を対応付けて音源分離部122に出力する。MUSIC法については、後述する。
周波数分析部124は、音源ごとのスペクトルを行間で統合して次式(1)に示すマイクロホンアレイmごとのスペクトル行列[Fm](mは、1からMまでの間の整数)を構成する。周波数分析部124は、構成したスペクトル行列[F1]、[F2]、~[FM]を、さらに行間で統合して次式(2)に示すスペクトル行列[F]を構成する。周波数分析部124は、構成したスペクトル行列[F]と、各音源の定位音源方向を示す音源方向情報とを対応付けて音源特定部16に出力する。
音源位置更新部142は、音源候補ごとの推定音源位置の初期値として、初期値設定部140から入力される初期推定音源位置情報が示す推定音源位置の初期値を用いる。音源位置更新部142は、推定音源位置もしくは推定音源方向の更新量が所定の更新量の閾値未満となったとき、推定音源位置もしくは推定音源方向の変化が収束したと判定し、推定音源位置の更新を停止する。音源位置更新部142は、音源候補ごとの推定音源位置を示す推定音源位置情報を音源特定部16に出力する。更新量が所定の更新量の閾値以上であるとき、音源位置更新部142は、音源候補ごとの推定音源位置を更新する処理を継続する。推定音源位置の更新処理の例については、後述する。
分散算出部160には、周波数分析部124からスペクトル行列[F]と音源方向情報が入力され、音源位置推定部14から推定音源位置情報が入力される。
分散算出部160は、次に説明する処理を所定の回数繰り返す。繰り返し回数Rは、予め分散算出部160に設定しておく。
分散算出部160は、第2クラスタごとの各繰り返し回数のスコアと推定音源位置を示すスコア算出情報をスコア算出部162に出力する。
ここで、音源定位の一手法であるMUSIC法について説明する。
MUSIC法は、以下に説明する空間スペクトルのパワーPext(ψ)が極大であって、所定のレベルよりも高い方向ψを定位音源方向として定める手法である。音源定位部120が備える記憶部19には、予め所定の間隔(例えば、5°)で分布した方向ψごとの伝達関数を記憶させておく。本実施形態では、次に説明する処理をマイクロホンアレイm毎に実行する。
音源定位部120は、各チャネルqの音響信号ξqを所定の要素数からなるフレームごとに周波数領域に変換することによって変換係数ξq(ω)を算出する。音源定位部120は、算出した変換係数を要素として含む入力ベクトル[ξ(ω)]から次式(3)に示す入力相関行列[Rξξ]を算出する。
音源定位部120は、入力相関行列[Rξξ]の固有値δp及び固有ベクトル[εp]を算出する。入力相関行列[Rξξ]、固有値δp、及び固有ベクトル[ξp]は、次式(4)に示す関係を有する。
音源定位部120は、伝達関数ベクトル[D(ψ)]と算出した固有ベクトル[εp]に基づいて、次式(5)に示す周波数別空間スペクトルのパワーPsp(ψ)を算出する。
音源定位部120は、S/N比が予め定めた閾値(例えば、20dB)よりも大きい周波数帯域における空間スペクトルPsp(ψ)の総和を全帯域の空間スペクトルのパワーPext(ψ)として算出する。
次に、音源分離の一手法であるGHDSS法について説明する。
GHDSS法は、2つのコスト関数(cost function)として、分離尖鋭度(Separation Sharpness)JSS([V(ω)])と幾何制約度(Geometric Constraint)JGC([V(ω)])が、それぞれ減少するように分離行列[V(ω)]を適応的に算出する方法である。本実施形態では、各マイクロホンアレイmが取得した音響信号のそれぞれから音源別音響信号を分離する。
次に、マイクロホンアレイによる中間点(含む交点)について説明する。
まず、二次元空間におけるマイクロホンアレイによる交点について説明する。
図3は、二次元空間における2つのマイクロホンアレイそれぞれによって定位された音源方向を示す図である。図3において、横方向をx軸方向、縦方向をy軸方向とする。なお、xy平面は、例えば地面に水平な平面である。
この例では、マイクロホンアレイMA1とMA2の位置を通り、それぞれのマイクロホンアレイが取得した音響信号に基づいて推定された定位音源方向への半直線が定められる。これらの2本の半直線は、音源Sの位置において一点に交わる。
図4は、三次元空間における2つのマイクロホンアレイそれぞれによって定位された音源方向を示す図である。図4において、横方向をx軸方向、縦方向をy軸方向、高さ方向をz軸方向とする。なお、xy平面は、例えば地面に水平な水平平面である。
この例では、マイクロホンアレイMA1とMA2の位置を通り、それぞれのマイクロホンアレイが取得した音響信号に基づいて推定された定位音源方向への半直線が定められる。これらの2本の半直線は、三次元空間において、1点に交わらず互いに平行な場合がある。しかしながら、実際の環境で収音された音響信号を用いて解析する場合は、ある時間に単一の音源を示す全ての方向が互いに歪んだ線である仮定することができる。
このため、本実施形態では、推定音源位置を最短距離dの中点Pを交点とみなす。
式(9)と式(10)を用いて、点Pと点Qとのベクトルは、次式(11)のように表される。
そして、mj、mk、aj、akの値は既知であるので、距離rjとrkは、次式(12)のように、PQベクトルを用いて両方の線の方向ベクトルの内積を計算することで求めることができる。
推定音源位置は、複数のマイクロホンアレイのペアの点Pと点Qを通る2つの線の間において最も距離が短い垂線の中間点の重心となる。このため、各ペアのPとQの中間点と、中間点の重心を次式(13)によって計算する。
次に、初期値設定部140(図1)が行う初期値の設定の例について説明する。各2個のマイクロホンアレイmに基づいて定められる中間点(含む交点)は、理想的には各音源の音源位置と等しくなるはずである。図6を参照して、互いに異なる位置に設置されたマイクロホンアレイMA1、MA2、MA3のそれぞれが取得した音響信号に基づいて音源Sの定位音源方向が推定される場合を例にする。図6は、マイクロホンアレイの配置と推定される音源方向の一例を示す図である。この例では、マイクロホンアレイMA1、MA2、MA3の位置を通り、それぞれのマイクロホンアレイが取得した音響信号に基づいて推定された定位音源方向への半直線が定められる。これらの3本の半直線は、理想的には音源Sの位置において一点に交わる。
上述したように、音源定位部120は、各マイクロホンアレイMAmが取得したQチャネルの音響信号から、それぞれ最大Dm個の定位音源方向d’m(1),d’m(2),…,d’m(Dm)をフレームごとに定める。定位音源方向d’m(1),d’m(2),…,d’m(Dm)を要素とするベクトル[d’]は、次式(15)で表わされる。
図8は、本実施形態に係る音源位置の推定の初期設定処理の一例を示すフローチャートである。
(ステップS101)初期値設定部140は、三角分割法においてM個のマイクロホンアレイから互いに異なる3個のマイクロホンアレイm1、m2、m3の組(triplet)を選択する。処理後、ステップS102の処理に進む。
算出した距離L12、L23、L13がいずれも閾値θ1以下となる場合、初期値設定部140は、3個の中間点P1、P2、P3の組み合わせを、音源候補nに係る組み合わせとして選択する。その場合、初期値設定部140は、次式(17)に示すように、中間点P1、P2、P3の重心を音源候補nの音源推定位置の初期値xnとして定める。
他方、距離L12、L23、L13の少なくともいずれか1つが閾値θ1より大きいとなる場合、初期値設定部140は、これらの中間点の組み合わせを棄却し、初期値xnを定めない。式(17)において、φは空集合を示す。その後、図6に示す処理を終了する。
また、初期値設定部140は、M個のマイクロホンアレイのうち、3個のマイクロホンアレイの組ごとに、ステップS101~S103の処理を実行してもよい。これにより、音源の候補nの検出漏れを少なくすることができる。
次に、推定音源位置の更新処理について説明する。音源定位により推定される音源方向は誤差を含むため、音源方向間の中間点から推定される候補音源ごとの推定音源位置も誤差を含む。これらの誤差がランダムであれば、推定音源位置ならびに中間点は、各音源の真の音源位置の周囲に分布することが期待される。そこで、本実施形態に係る音源位置更新部142は、各2個のマイクロホンアレイ、推定音源方向間の中間点についてクラスタリングを行い、これらの中間点の分布を複数のクラスタに分類する。ここで、推定音源方向とは、推定音源位置の方向を意味する。クラスタリングの手法として、音源位置更新部142は、例えば、k-平均法を用いる。音源位置更新部142は、音源候補ごとの推定音源位置がそれぞれの音源候補に対応するクラスタに分類される可能性の度合いである推定確率が高くなるように、その推定音源位置を更新する。
推定音源位置を算出する際、音源位置更新部142は、三角分割法に基づく確率モデルを用いる。この確率モデルでは、音源候補ごとの推定音源位置がそれぞれの音源候補に対応するクラスタに分類される推定確率が、第1確率と、第2確率と、第3確率と、をそれぞれ因子とする積で表されるように分解されるように近似できるものと仮定する。第1確率は、音源定位により定位音源方向が定められるとき、その音源に対応する音源候補の推定音源位置の方向である推定音源方向が得られる確率である。第2確率は、2つのマイクロホンアレイそれぞれの位置からその推定音源方向への半直線の中間点が定められるとき、その推定音源位置が得られる確率である。第3確率は、その中間点の分類されるクラスタへの出現確率である。
従って、音源位置更新部142は、音源定位により得られた定位音源方向d’mj、d’mkに基づいて、音源候補の推定音源方向を与える中間点sj,kの座標が、中間点sj,kの分布を近似する多次元ガウス関数の平均値μcj,kに極力近づくように推定音源方向dmj、dmkを推定する。
各クラスタと音源を対応付けるため、音源位置更新部142は、音源候補ごとの推定音源位置xnの初期値について、初期クラスタリング(initial clustering)を行ってクラスタの個数Cを定める。
また、確率モデルでは、マイクロホンアレイmj、mk、推定音源方向dmj、dmk間の中間点sj,kが得られるとき、その中間点sj,kが分類されるクラスタcj,kに対応する推定音源位置が得られる第2確率p(sj,k|cj,k)が、次式(22)に示す多変量ガウス分布N(sj,k;μcj,k,Σcj,k)に従うことを仮定する。μcj,k、Σcj,kは、それぞれ多変量ガウス分布の平均、分散を示す。この平均は、推定音源位置の分布の大きさや偏りを示す。中間点sj,kは、上述したように、マイクロホンアレイmj、mkそれぞれの位置uj、ukと、推定音源方向dmj、dmkとから定まる関数である。以下の説明では、中間点の位置を、g(dmj、dmk)と示すことがある。確率モデルでは、平均μcj,k、分散Σcj,kをモデルパラメータの一部とする。
次に、上述した確率モデルを用いた音源位置の更新処理について説明する。
音源位置更新部142は、音源定位により定位音源方向[d’]が得られるとき、音源候補ごとの推定音源位置[d]がそれぞれの音源候補に対応するクラスタ[c]に分類される推定確率p([c],[d],[d’])が高くなるように、推定音源位置[d]を再帰的に更新する。音源位置更新部142は、各2つのマイクロホンアレイ、推定音源方向間の中間点の分布についてクラスタリングを行ってクラスタ[c]に分類する。
推定音源位置[d]を更新するため、音源位置更新部142は、ビタビ学習法(Viterbi Training)を応用した手法を用いる。
式(25)の右辺は、次式(26)、(27)に示すようにクラスタcj,kの関数と音源方向[d]の関数に分解される。従って、クラスタcj,kと推定音源方向[d]は、個々に更新可能となる。
階層クラスタリングは、各2つのクラスタ間の距離を算出し、最も距離が小さい2つのクラスタを併合して新たなクラスタを生成する処理を逐次に繰り返す手法である。このとき、音源位置更新部142は、2つのクラスタ間の距離として、一方のクラスタに分類される中間点g(d* mj,d* mk)と他方のクラスタcj’,k’の中心である平均μcj’,k’との間の距離のうち最も小さい距離を用いる。
(c1)音源定位により推定された定位音源方向[d’]のそれぞれが、それぞれ対応する真の音源方向[d]に近似している。
(c2)推定音源位置に相当する平均μcj,kが、直前に更新された推定音源方向d* mj、d* mk、d* miに基づく3つの中間点Pj、Pk、Piを頂点とする三角形の領域内にある。但し、マイクロホンアレイmiは、マイクロホンアレイmj、mkとは別個のマイクロホンアレイである。
図12は、本実施形態に係る音源位置更新処理の一例を示すフローチャートである。
次に、本実施形態に係る音源特定部16の処理について説明する。音源位置更新部142は、3個のマイクロホンアレイのうち、各2つのマイクロホンアレイにより取得された音源方向の3つの中間点に基づいて、推定音源位置を定めていた。しかしながら、各マイクロホンアレイから取得されて音響信号により独立に音源方向が推定されうる。そのため、音源位置更新部142は、2個のマイクロホンアレイのそれぞれについて、互いに異なる音源の音源方向同士で中間点を定めてしまうことがある。その中間点は、音源が実在している位置とは異なる位置に生じるため、いわゆるゴースト(虚像)として検出されることがある。例えば、図13に示す例では、マイクロホンアレイMA1、MA2、MA3により、それぞれ音源S1、S2、S1の方向に音源方向が推定される。図13は、虚像の検出例を示す図である。この場合、マイクロホンアレイMA1、MA3による中間点P3は、いずれも音源S1の方向に基づいて定められるため、音源S1の位置に近似する。しかしながら、マイクロホンアレイMA2、MA3による中間点P2は、それぞれ音源S2、S1の方向に基づいて定められるため、音源S1、S2のいずれの位置からも離れた位置となる。
周波数分析部124は、音源ごとに分離された音源別音響信号について周波数分析を行う。図14は、本実施形態に係る周波数分析処理の一例を示すフローチャートである。
音源特定部16の分散算出部160とスコア算出部162は、次に例示するスコア算出処理を行う。
図15は、本実施形態に係るスコア算出処理の一例を示すフローチャートである。
分散算出部160は、例えば、クラスタ行列において音源識別情報が示すマイクロホンアレイの列と音源列のうち、クラスタ行列に含まれるマイクロホンアレイの列と音源の行に配置された、インデックスが示す第2クラスタを特定することができる。
分散算出部160は、第2クラスタに対応する音源候補ごとの推定音源位置の分散Vx*nを算出する。その後、ステップS224の処理に進む。
スコア算出部162は、座標値xnが相互に所定の範囲内にある推定音源位置xiにそれぞれ対応する第2クラスタiの存在度数aiの総和a’nを算出する。その後、ステップS240の処理に進む。
音源選択部164は、次に例示する音源選択処理を行う。
図16は、本実施形態に係る音源選択処理の一例を示すフローチャートである。
音響処理装置1は、全体として次に例示する音響処理を行う。
図17は、本実施形態に係る音響処理の一例を示すフローチャートである。
音響処理システムS1は、記憶部19を備え、図17に示す音響処理を行う前に、各マイクロホンアレイが収音した音響信号を記憶しておいてもよい。記憶部19は、音響処理装置1の一部として構成されてもよいし、音響処理装置1とは別個の外部機器に設置されてもよい。音響処理装置1は、記憶部から読み出した音響信号を用いて図17に示す音響処理を行ってもよい(バッチ処理)。
そこで、オンライン処理において、初期処理部12によるステップS12、S14、S20の処理が、音源位置推定部14と音源特定部16によるステップS16、S18、S22、S24の処理と並列に行われてもよい。但し、ステップS12~S14、S20の処理において、現時点t0までの第1区間内の音響信号もしくは音響信号から導出された各種のデータを処理対象とする。ステップS12、S14、S20の処理において、現時点t0までの第1区間内の音響信号もしくは音響信号から導出された各種のデータを処理対象とする。ステップS16、S18、S22、S24の処理において、第1区間よりも過去の第2区間内の音響信号もしくは各種のデータを処理対象とする。
図18において、左右方向は時刻を示す。右上のt0は、現時点を示す。wlは、個々のフレームw1、w2、…のフレーム長を示す。音響処理装置1の入力部10には、フレームごとに最新の音響信号が入力され、音響処理装置1の記憶部19は、期間がne・wlの音響信号と導出されるデータを記憶する。そして、記憶部は、フレームごとに最も過去の音響信号とデータを棄却する。neは、記憶される全データのフレーム数を示す。初期処理部12は、全データのうち最新の第1区間内のデータを用いて、ステップS12~S14、S20の処理を行う。第1区間の長さが、初期処理長nt・wlに相当する。ntは、予め定めた初期処理長のフレーム数を示す。音源位置推定部14と音源特定部16は、全データのうち第1区間の終期よりも後の第2区間のデータを用いて、ステップS16、S18、S22、S24の処理を行う。第2区間の長さが、バッチ長nb・wlに相当する。nbは、予め定めたバッチ長のフレーム数を示す。第1区間、第2区間には、フレームごとに、それぞれ最新のフレームの音響信号、第nt+1フレームの音響信号と導出されるデータが加入される。他方、第1区間、第2区間には、フレームごとに第ntフレームの音響信号とその音響信号から導出されるデータと、第neフレームの音響信号と導出されるデータが棄却される。このように、初期処理部12と、音源位置推定部14ならびに音源特定部16は、それぞれ第1区間内のデータと、第2区間内のデータとを使い分けることで、出力がフレーム間で継続するように図13に示す音響処理がオンラインで実行可能となる。
この構成により、それぞれ異なる収音部からの定位音源方向による半直線が交差しなくても半直線双方に対して垂直となる線分の中間点(含む交点)によって定まる点を推定音源位置として推定することができる。
この構成により、それぞれ異なる収音部20からの定位音源方向により定まる中間点が分類されるクラスタの範囲内に、対応する音源の推定音源位置が分類される可能性が高くなるように推定音源位置が調整される。クラスタの範囲内には音源が存在する可能性が高くなるため、調整される推定音源位置がより正確な音源位置として得られる。
一般に、定位音源方向、推定音源位置及び中間点は相互に依存するが、音源位置推定部14は、第1確率、第2確率及び第3確率をそれぞれ独立な推定確率の因子として推定音源位置を定めることができる。そのため、推定音源位置の調整に係る計算負荷が低減する。
この構成により、第1確率の推定音源方向の関数、第2確率の推定音源位置の関数が、それぞれ形状パラメータ、平均ならびに分散といった少数のパラメータで表される。そのため、推定音源位置の調整に係る計算負荷がさらに低減する。
この構成により、推定音源位置の初期値を、音源が存在する可能性が高い3個の中間点をそれぞれ頂点とする三角形の領域内に設定することができる。そのため、調整による推定音源位置の変化が収束するまでの計算負荷が低減する。
この構成により、スペクトルに基づいて同一と判定されなかった音源の定位音源方向の中間点に基づいて推定された推定音源位置が棄却される可能性が高くなる。そのため、互いに異なる音源の推定音源方向の中間点に基づいて推定音源位置が虚像(ゴースト)として誤って選択される可能性を低くすることができる。
この構成により、推定音源位置が定常的な音源のスペクトルが分類される第2クラスタに対応する音源の推定音源位置が選択される可能性が高くなる。即ち、推定音源位置が選択される第2クラスタには、偶発的に互いに異なる音源の推定音源方向の中間点に基づいて推定される推定音源位置が含まれる可能性が低くなる。そのため、互いに異なる音源の推定音源方向の中間点に基づいて推定音源位置が虚像として誤って選択される可能性をさらに低くすることができる。
次に、本実施形態の音響処理装置1を用いて測定した結果例を説明する。
まず、マイクアレイの配置例を説明する。
図19は、マイクロホンアレイの配置例を示す図である。図19において、符号m1,m2,m3,m4それぞれがマイクロホンアレイである。
また、符号g11が示す画像は、実空間におけるマイクロホンアレイm1,m2,m3,m4の配置を示す図である。また、符号g12は、xy平面におけるマイクロホンアレイ設置座標を示す図である。なお、図19において、水平方向・北向きにx軸、垂直方向・西向きにy軸、鉛直方向上向きにz軸を取る。また、原点はマイクロホンアレイm4の位置とする。高さzについて、x,yにかかわらず常にT1の位置の地表面を基準(z=0)とする。また、北をxy平面における方位の0度方向とする。また、各マイクロホンアレイの地上高さは1.3mである。また、使用したマイクロホンアレイそれぞれは、16個のマイクロホンがデバイスの表面上の異なる垂直および水平位置に分散されて配置されている。この環境で数時間の鳥の歌を録音した。
図20に示すように、このデータは、4つの大きな鳴き声イベントから構成され、通過する車や鳥が遠くで鳴くなどのノイズなどが含まれている。
マイクロホンアレイm4では、いくつかの主要イベントが省略されたが、他の3つのマイクロホンアレイからの情報を使用してローカライズを実行することができる。
図22において、符号g31はXY平面における推定位置であり、横軸がX(m)軸、縦軸がY(m)軸である。符号g32はXZ平面における推定位置であり、横軸がX(m)軸、縦軸がZ(m)軸である。符号g33はYZ平面における推定位置であり、横軸がY(m)軸、縦軸がZ(m)軸である。
また丸印は、正常値である。バツ印は、異常値である。三角印は、マイクロホンアレイの位置を表す。
図23は、第2の音響信号(不図示)から推定した鳥の位置を示す例である。
図23において、符号g41は、本実施形態の3次元位置推定によるXY平面における推定位置であり、横軸がX(m)軸、縦軸がY(m)軸である。符号g42は、本実施形態の3次元位置推定によるXZ平面における推定位置であり、横軸がX(m)軸、縦軸がZ(m)軸である。符号g43は、本実施形態の3次元位置推定によるYZ平面における推定位置であり、横軸がY(m)軸、縦軸がZ(m)軸である。符号g44は、従来技術による2次元位置推定結果と本実施形態の3次元位置推定結果を比較したものであり、横軸がX(m)軸、縦軸がY(m)軸である。
また、符号g41~g43において、丸印は正常値であり、バツ印は異常値であり、三角印はマイクロホンアレイの位置を表す。
符号g44において、丸印は従来技術による2次元位置推定結果であり、バツ印は本実施形態の3次元位置推定結果であり、三角印はマイクロホンアレイの位置を表す。
符号g51は、XY平面における従来技術による2次元位置推定結果であり、横軸がX(m)、縦軸がY(m)である。符号g41とg42は、図23と同じである。符号g51において、丸印は正常値であり、バツ印は異常値であり、三角印はマイクロホンアレイの位置を表す。
符号g51と符号g41を重ねた結果が図23の符号g44の図である。符号g51と符号g41のように、上から見ると(XY平面)、鳥の推定位置は同じように見える。しかしながら、符号g42のように、違う高さで鳥が鳴いていることがわかる。
また、ほとんどの場合、情報は記録されたデータの主な音響信号のイベントと同時に取得される。
また、音響処理装置1において、周波数分析部124と音源特定部16が省略されてもよい。その場合、音源位置更新部142は、音源候補ごとの推定音源位置を示す推定音源位置情報を出力部18に出力する。
収音部20の数Mは、3個に限られず4個以上であってもよい。また、収音部20ごとに収音可能とする音響信号のチャネル数が異なってもよいし、それぞれの音響信号から推定可能な音源数が異なってもよい。
第1確率が従う確率分布は、フォン・ミーゼス分布に限られず、ロジスティック関数の導関数など、1次元空間内のある基準値に対する最大値を与える1次元の確率分布であればよい。
第2確率が従う確率分布は、多次元ガウス関数に限られず、多次元ロジスティック関数の一次導関数など、多次元空間内のある基準値に対する最大値を与える多次元の確率分布であればよい。
Claims (7)
- 位置が異なるM(Mは、3以上の整数)個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて各音源の音源の方向である定位音源方向を定める音源定位部と、
2個の前記収音部の組ごとに当該収音部のそれぞれから前記音源に対応する音源候補の推定音源位置への方向である推定音源方向への半直線双方に対して垂直となる線分の中間点を前記推定音源位置として推定する音源位置推定部と、
を備え、
前記音源位置推定部は、
前記中間点の分布を複数のクラスタに分類し、前記音源候補ごとの前記推定音源位置が前記音源候補に対応する前記クラスタに分類される可能性のある確率である推定確率が高くなるように前記推定音源位置を更新する、音響処理装置。 - 前記推定確率は、前記定位音源方向が定められるとき前記推定音源方向が得られる確率である第1確率と、前記中間点が定められるとき前記推定音源位置が得られる確率である第2確率と、前記中間点が分類されるクラスタの出現確率である第3確率と、をそれぞれ因子とする積である、請求項1に記載の音響処理装置。
- 前記第1確率は、前記定位音源方向を基準とするフォン・ミーゼス分布に従い、前記第2確率は、前記中間点の位置を基準とする多次元ガウス関数に従い、
前記音源位置推定部は、
前記推定確率が高くなるように、前記フォン・ミーゼス分布の形状パラメータと、前記多次元ガウス関数の平均ならびに分散と、を更新する、請求項2に記載の音響処理装置。 - 前記複数チャネルの音響信号から音源ごとの音源別信号に分離する音源分離部と、
前記音源別信号のスペクトルを算出する周波数分析部と、
前記スペクトルを複数の第2クラスタに分類し、前記第2クラスタのそれぞれに分類される各スペクトルに係る音源が同一であるか否かを判定し、
同一と判定した音源の前記推定音源位置を、同一でないと判定した音源よりも優先して選択する音源特定部と、
を備える請求項1から請求項3のいずれか一項に記載の音響処理装置。 - 前記音源特定部は、
前記第2クラスタのそれぞれに分類されるスペクトルに係る音源の前記推定音源位置の分散に基づいて当該第2クラスタの安定性を評価し、
前記安定性が高い第2クラスタほど当該第2クラスタにスペクトルが分類される音源の前記推定音源位置を優先して選択する、請求項4に記載の音響処理装置。 - 音響処理装置における音響処理方法であって、
前記音響処理装置が、
位置が異なるM(Mは、3以上の整数)個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位過程と、
2個の前記収音部の組ごとに当該収音部のそれぞれから前記音源の推定音源位置への方向である推定音源方向への半直線双方に対して垂直となる線分の中間点を前記推定音源位置として推定する音源位置推定過程と、
を有し、
前記音源位置推定過程は、前記中間点の分布を複数のクラスタに分類し、前記音源候補ごとの前記推定音源位置が前記音源候補に対応する前記クラスタに分類される可能性のある確率である推定確率が高くなるように前記推定音源位置を更新する、音響処理方法。 - 音響処理装置のコンピュータに、
位置が異なるM(Mは、3以上の整数)個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位手順と、
2個の前記収音部の組ごとに当該収音部のそれぞれから前記音源の推定音源位置への方向である推定音源方向への半直線双方に対して垂直となる線分の中間点を音源位置推定手順と、
前記中間点の分布を複数のクラスタに分類し、前記音源候補ごとの前記推定音源位置が前記音源候補に対応する前記クラスタに分類される可能性のある確率である推定確率が高くなるように前記推定音源位置を更新する手順と、
を実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018165365A JP7001566B2 (ja) | 2018-09-04 | 2018-09-04 | 音響処理装置、音響処理方法、およびプログラム |
US16/548,288 US10869148B2 (en) | 2018-09-04 | 2019-08-22 | Audio processing device, audio processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018165365A JP7001566B2 (ja) | 2018-09-04 | 2018-09-04 | 音響処理装置、音響処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020038123A JP2020038123A (ja) | 2020-03-12 |
JP7001566B2 true JP7001566B2 (ja) | 2022-02-04 |
Family
ID=69640565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018165365A Active JP7001566B2 (ja) | 2018-09-04 | 2018-09-04 | 音響処理装置、音響処理方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10869148B2 (ja) |
JP (1) | JP7001566B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3709194A1 (en) * | 2019-03-15 | 2020-09-16 | Spotify AB | Ensemble-based data comparison |
US11094319B2 (en) | 2019-08-30 | 2021-08-17 | Spotify Ab | Systems and methods for generating a cleaned version of ambient sound |
US11308959B2 (en) | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
US20220172073A1 (en) * | 2020-11-26 | 2022-06-02 | Zecang Gu | Simulated deep learning method based on sdl model |
CN113314127B (zh) * | 2021-04-23 | 2023-10-10 | 广州大学 | 基于空间方位的鸟鸣识别方法、系统、计算机设备与介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012247300A (ja) | 2011-05-27 | 2012-12-13 | Handotai Rikougaku Kenkyu Center:Kk | 位置測定システム |
JP2016050872A (ja) | 2014-09-01 | 2016-04-11 | 株式会社国際電気通信基礎技術研究所 | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム |
JP2018040848A (ja) | 2016-09-05 | 2018-03-15 | 本田技研工業株式会社 | 音響処理装置および音響処理方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE509328C2 (sv) * | 1997-02-27 | 1999-01-11 | Celsiustech Syst Ab | Förfarande för spårinitiering vid multimålsspårning med hjälp av åtminstone två passiva sensorer |
JP2009246827A (ja) * | 2008-03-31 | 2009-10-22 | Nippon Hoso Kyokai <Nhk> | 音源及び仮想音源の位置特定装置、方法及びプログラム |
EP2600637A1 (en) * | 2011-12-02 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for microphone positioning based on a spatial power density |
-
2018
- 2018-09-04 JP JP2018165365A patent/JP7001566B2/ja active Active
-
2019
- 2019-08-22 US US16/548,288 patent/US10869148B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012247300A (ja) | 2011-05-27 | 2012-12-13 | Handotai Rikougaku Kenkyu Center:Kk | 位置測定システム |
JP2016050872A (ja) | 2014-09-01 | 2016-04-11 | 株式会社国際電気通信基礎技術研究所 | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム |
JP2018040848A (ja) | 2016-09-05 | 2018-03-15 | 本田技研工業株式会社 | 音響処理装置および音響処理方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200077218A1 (en) | 2020-03-05 |
US10869148B2 (en) | 2020-12-15 |
JP2020038123A (ja) | 2020-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7001566B2 (ja) | 音響処理装置、音響処理方法、およびプログラム | |
JP6859235B2 (ja) | 音響処理装置、音響処理方法及びプログラム | |
JP6543844B2 (ja) | 音源同定装置および音源同定方法 | |
CN106093921B (zh) | 基于稀疏分解理论的声矢量阵宽带测向方法 | |
JP6723120B2 (ja) | 音響処理装置および音響処理方法 | |
EP1662485A1 (en) | Signal separation method, signal separation device, signal separation program, and recording medium | |
CN111599346B (zh) | 一种说话人聚类方法、装置、设备及存储介质 | |
US20200275224A1 (en) | Microphone array position estimation device, microphone array position estimation method, and program | |
Guo et al. | Localising speech, footsteps and other sounds using resource-constrained devices | |
CN110709929B (zh) | 处理声音数据以分离多声道信号中的声源 | |
CN117727307B (zh) | 基于特征融合的鸟类声音智能识别方法 | |
CN110675892A (zh) | 多位置语音分离方法和装置、存储介质、电子设备 | |
CN109034238A (zh) | 一种基于信息熵的聚类划分方法 | |
JP2018032001A (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
CN111352075B (zh) | 一种基于深度学习的水下多声源定位方法及系统 | |
US20200077185A1 (en) | Transfer function generation apparatus, transfer function generation method, and program | |
Durofchalk et al. | Data driven source localization using a library of nearby shipping sources of opportunity | |
CN116559778B (zh) | 一种基于深度学习的车辆鸣笛定位方法及系统 | |
US11322169B2 (en) | Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program | |
CN111239685A (zh) | 基于均匀设计和自组织特征映射神经网络的声源定位方法 | |
CN113869289B (zh) | 基于熵的多通道舰船辐射噪声特征提取方法 | |
US20240028971A1 (en) | Machine Learning of Probability Distributions Through a Generalization Error | |
JP2020150490A (ja) | 音源定位装置、音源定位方法、およびプログラム | |
JP7024615B2 (ja) | 音響信号分離装置、学習装置、それらの方法、およびプログラム | |
JP2014112190A (ja) | 信号区間分類装置、信号区間分類方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210928 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7001566 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |