JP6859235B2 - 音響処理装置、音響処理方法及びプログラム - Google Patents
音響処理装置、音響処理方法及びプログラム Download PDFInfo
- Publication number
- JP6859235B2 JP6859235B2 JP2017172452A JP2017172452A JP6859235B2 JP 6859235 B2 JP6859235 B2 JP 6859235B2 JP 2017172452 A JP2017172452 A JP 2017172452A JP 2017172452 A JP2017172452 A JP 2017172452A JP 6859235 B2 JP6859235 B2 JP 6859235B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- estimated
- sound
- probability
- source position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 97
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims description 123
- 230000004807 localization Effects 0.000 claims description 95
- 238000001228 spectrum Methods 0.000 claims description 63
- 238000009826 distribution Methods 0.000 claims description 42
- 238000004458 analytical method Methods 0.000 claims description 32
- 238000000926 separation method Methods 0.000 claims description 24
- 230000005236 sound signal Effects 0.000 claims description 21
- 230000005484 gravity Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 description 83
- 230000006870 function Effects 0.000 description 40
- 238000003491 array Methods 0.000 description 38
- 239000011159 matrix material Substances 0.000 description 32
- 239000013598 vector Substances 0.000 description 16
- 238000003860 storage Methods 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000000610 breath-figure templating Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/027—Spatial or constructional arrangements of microphones, e.g. in dummy heads
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
図1は、本実施形態に係る音響処理システムS1の構成を示すブロック図である。
音響処理システムS1は、音響処理装置1と、M個の収音部20と、を含んで構成される。図1において、収音部20−1、20−2、…、20−Mは、個々の収音部20を示す。
なお、収音部20をマイクロホンアレイmと呼ぶことがある。また、個々のマイクロホンアレイmを、マイクロホンアレイmk等と、インデックスk等を付して区別することがある。
次に、音響処理装置1の構成例について説明する。
音響処理装置1は、入力部10、初期処理部12、音源位置推定部14、音源特定部16及び出力部18を含んで構成される。
入力部10は、各マイクロホンアレイmから入力されるQチャネルの音響信号を初期処理部12に出力する。入力部10は、例えば、入出力インタフェースを含んで構成される。
入力部10には、マイクロホンアレイmは別個の機器、例えば、録音機などの記憶媒体、コンテンツ編集装置、電子計算機などの機器を備え、これらのいずれかの機器から各マイクロホンアレイmが取得したQチャネルの音響信号が入力されてもよい。その場合には、音響処理システムS1においてマイクロホンアレイmが省略されてもよい。
音源定位部120は、入力部10から入力され、各マイクロホンアレイmkから取得されたQチャネルの音響信号に基づいて音源定位を行って、各音源の方向を予め定めた長さのフレーム(例えば、100ms)ごとに推定する。音源定位部120は、音源定位において、例えば、MUSIC(Multiple Signal Classification;多重信号分類)法を用いて方向ごとのパワーを示す空間スペクトルを算出する。音源定位部120は、空間スペクトルに基づいて音源ごとの音源方向を定める。音源定位部120は、マイクロホンアレイmごとに定めた各音源の音源方向を示す音源方向情報と、そのマイクロホンアレイmが取得したQチャネルの音響信号を対応付けて音源分離部122に出力する。MUSIC法については、後述する。
初期値設定部140は、音源分離部122から入力されるマイクロホンアレイmごとの音源方向情報に基づいて三角分割法(triangulation)を用いて音源の候補として推定される位置である推定音源位置の初期値を定める。三角分割法は、M個のうち3個のマイクロホンアレイの組から定められ、ある音源の候補に係る3個の交点(intersection)の重心を、その音源の推定音源位置の初期値として定める手法である。以下の説明では、音源の候補を音源候補と呼ぶ。交点は、3個のマイクロホンアレイmのうち2個のマイクロホンアレイmの組ごとに、各マイクロホンアレイmの位置を通り、そのマイクロホンアレイmが取得された音響信号に基づいて推定された定位音源方向への直線が交わる点である。初期値設定部140は、音源候補ごとの推定音源位置の初期値を示す初期推定音源位置情報を音源位置更新部142に出力する。初期値設定処理の例については、後述する。
分散算出部160には、周波数分析部124からスペクトル行列[F]と音源方向情報が入力され、音源位置推定部14から推定音源位置情報が入力される。
分散算出部160は、次に説明する処理を所定の回数繰り返す。繰り返し回数Rは、予め分散算出部160に設定しておく。
分散算出部160は、第2クラスタごとの各繰り返し回数のスコアと推定音源位置を示すスコア算出情報をスコア算出部162に出力する。
次に、音源定位の一手法であるMUSIC法について説明する。
MUSIC法は、以下に説明する空間スペクトルのパワーPext(ψ)が極大であって、所定のレベルよりも高い方向ψを定位音源方向として定める手法である。音源定位部120が備える記憶部には、予め所定の間隔(例えば、5°)で分布した方向ψごとの伝達関数を記憶させておく。本実施形態では、次に説明する処理をマイクロホンアレイmごとに実行する。
音源定位部120は、各チャネルqの音響信号ξqを所定の要素数からなるフレームごとに周波数領域に変換することによって変換係数ξq(ω)を算出する。音源定位部120は、算出した変換係数を要素として含む入力ベクトル[ξ(ω)]から式(3)に示す入力相関行列[Rξξ]を算出する。
音源定位部120は、入力相関行列[Rξξ]の固有値δp及び固有ベクトル[εp]を算出する。入力相関行列[Rξξ]、固有値δp、及び固有ベクトル[ξp]は、式(4)に示す関係を有する。
音源定位部120は、伝達関数ベクトル[D(ψ)]と算出した固有ベクトル[εp]に基づいて、式(5)に示す周波数別空間スペクトルのパワーPsp(ψ)を算出する。
音源定位部120は、S/N比が予め定めた閾値(例えば、20dB)よりも大きい周波数帯域における空間スペクトルPsp(ψ)の総和を全帯域の空間スペクトルのパワーPext(ψ)として算出する。
次に、音源分離の一手法であるGHDSS法について説明する。
GHDSS法は、2つのコスト関数(cost function)として、分離尖鋭度(Separation Sharpness)JSS([V(ω)])と幾何制約度(Geometric Constraint)JGC([V(ω)])が、それぞれ減少するように分離行列[V(ω)]を適応的に算出する方法である。本実施形態では、各マイクロホンアレイmが取得した音響信号のそれぞれから音源別音響信号を分離する。
次に、初期値の設定の例について説明する。各2個のマイクロホンアレイmに基づいて定められる交点は、理想的には各音源の音源位置と等しくなるはずである。図2は、互いに異なる位置に設置されたマイクロホンアレイMA1、MA2、MA3のそれぞれが取得した音響信号に基づいて音源Sの定位音源方向が推定される場合を例にする。この例では、マイクロホンアレイMA1、MA2、MA3の位置を通り、それぞれのマイクロホンアレイが取得した音響信号に基づいて推定された定位音源方向への直線が定められる。これらの3本の直線は、音源Sの位置において一点に交わる。
上述したように、音源定位部120は、各マイクロホンアレイMAmが取得したQチャネルの音響信号から、それぞれ最大Dm個の定位音源方向d’m(1),d’m(2),…,d’m(Dm)をフレームごとに定める。定位音源方向d’m(1),d’m(2),…,d’m(Dm)を要素とするベクトル[d’]は、式(10)で表わされる。
図4は、本実施形態に係る初期値設定処理の一例を示すフローチャートである。
(ステップS162)初期値設定部140は、三角分割法においてM個のマイクホンアレイから互いに異なる3個のマイクロホンアレイm1、m2、m3の組(triplet)を選択する。その後、ステップS164の処理に進む。
(ステップS164)初期値設定部140は、選択した3個の組のマイクロホンアレイm1、m2、m3のそれぞれについて、それぞれのマイクロホンアレイが取得した音響信号に基づいて推定された最大Dm個の音源から各1個の音源δ1、δ2、δ3の定位音源方向d’m1(δ1)、d’m2(δ2)、d’m3(δ3)を選択する。選択された3個の定位音源方向d’m1(δ1)、d’m2(δ2)、d’m3(δ3)を要素とする方向ベクトル[d”]は、式(11)で表される。なお、δ1、δ2、δ3は、それぞれ1からDmの間の整数である。
算出した距離L12、L23、L13がいずれも閾値θ1以下となる場合、初期値設定部140は、3個の交点の組み合わせを、音源候補nに係る組み合わせとして選択する。その場合、初期値設定部140は、式(13)に示すように、交点P1、P2、P3の重心を音源候補nの音源推定位置の初期値xnとして定める。
他方、距離L12、L23、L13の少なくともいずれか1つが閾値θ1より大きいとなる場合、初期値設定部140は、これらの交点の組み合わせを棄却し、初期値xnを定めない。式(13)において、φは空集合を示す。その後、図4に示す処理を終了する。
また、初期値設定部140は、M個のマイクロホンアレイのうち、3個のマイクロホンアレイの組ごとに、ステップS162〜S166の処理を実行してもよい。これにより、音源の候補nの検出漏れを少なくすることができる。
次に、推定音源位置の更新処理について説明する。音源定位により推定される音源方向は誤差を含むため、音源方向間の交点から推定される候補音源ごとの推定音源位置も誤差を含む。これらの誤差がランダムであれば、推定音源位置ならびに交点は、各音源の真の音源位置の周囲に分布することが期待される。そこで、本実施形態に係る音源位置更新部142は、各2個のマイクロホンアレイ、推定音源方向間の交点についてクラスタリングを行い、これらの交点の分布を複数のクラスタに分類する。ここで、推定音源方向とは、推定音源位置の方向を意味する。クラスタリングの手法として、音源位置更新部142は、例えば、k−平均法を用いる。音源位置更新部142は、音源候補ごとの推定音源位置がそれぞれの音源候補に対応するクラスタに分類される可能性の度合いである推定確率が高くなるように、その推定音源位置を更新する。
推定音源位置を算出する際、音源位置更新部142は、三角分割法に基づく確率モデルを用いる。この確率モデルでは、音源候補ごとの推定音源位置がそれぞれの音源候補に対応するクラスタに分類される推定確率が、第1確率と、第2確率と、第3確率と、をそれぞれ因子とする積で表されるように分解されるように近似できるものと仮定する。第1確率は、音源定位により定位音源方向が定められるとき、その音源に対応する音源候補の推定音源位置の方向である推定音源方向が得られる確率である。第2確率は、2つのマイクロホンアレイそれぞれの位置からその推定音源方向への直線の交点が定められるとき、その推定音源位置が得られる確率である。第3確率は、その交点の分類されるクラスタへの出現確率である。
従って、音源位置更新部142は、音源定位により得られた定位音源方向d’mj、d’mkに基づいて、音源候補の推定音源方向を与える交点sj,kの座標が、交点sj,kの分布を近似する多次元ガウス関数の平均値μcj,kに極力近づくように推定音源方向dmj、dmkを推定する。
各クラスタと音源を対応付けるため、音源位置更新部142は、音源候補ごとの推定音源位置xnの初期値について、初期クラスタリング(initial clustering)を行ってクラスタの個数Cを定める。
また、確率モデルでは、マイクロホンアレイmj、mk、推定音源方向dmj、dmk間の交点sj,kが得られるとき、その交点sj,kが分類されるクラスタcj,kに対応する推定音源位置が得られる第2確率p(sj,k|cj,k)が、式(17)に示す多変量ガウス分布N(sj,k;μcj,k,Σcj,k)に従うことを仮定する。μcj,k、Σcj,kは、それぞれ多変量ガウス分布の平均、分散を示す。この平均は、推定音源位置、推定音源位置の分布の大きさや偏りを示す。交点sj,kは、上述したように、マイクロホンアレイmj、mkそれぞれの位置uj、ukと、推定音源方向dmj、dmkとから定まる関数である。以下の説明では、交点の位置を、g(dmj、dmk)と示すことがある。確率モデルでは、平均μcj,k、分散Σcj,kをモデルパラメータの一部とする。
次に、上述した確率モデルを用いた音源位置の更新処理について説明する。
音源位置更新部142は、音源定位により定位音源方向[d’]が得られるとき、音源候補ごとの推定音源位置[d]がそれぞれの音源候補に対応するクラスタ[c]に分類される推定確率p([c],[d],[d’])が高くなるように、推定音源位置[d]を再帰的に更新する。音源位置更新部142は、各2つのマイクロホンアレイ、推定音源方向間の交点の分布についてクラスタリングを行ってクラスタ[c]に分類する。
推定音源位置[d]を更新するため、音源位置更新部142は、ビタビ学習法(Viterbi Training)を応用した手法を用いる。
式(21)の右辺は、式(22)、(23)に示すようにクラスタcj,kの関数と音源方向[d]の関数に分解される。従って、クラスタcj,kと推定音源方向[d]は、個々に更新可能となる。
音源位置更新部142は、クラスタc* j,kを定める際、階層クラスタリングを行う。階層クラスタリングは、各2つのクラスタ間の距離を算出し、最も距離が小さい2つのクラスタを併合して新たなクラスタを生成する処理を逐次に繰り返す手法である。このとき、音源位置更新部142は、2つのクラスタ間の距離として、一方のクラスタに分類される交点g(d* mj,d* mk)と他方のクラスタcj’,k’の中心である平均μcj’,k’との間の距離のうち最も小さい距離を用いる。
(c1)音源定位により推定された定位音源方向[d’]のそれぞれが、それぞれ対応する真の音源方向[d]に近似している。
(c2)推定音源位置に相当する平均μcj,kが、直前に更新された推定音源方向d* mj、d* mk、d* miに基づく3つの交点Pj、Pk、Piを頂点とする三角形の領域内にある。但し、マイクロホンアレイmiは、マイクロホンアレイmj、mkとは別個のマイクロホンアレイである。
図8は、本実施形態に係る音源位置更新処理の一例を示すフローチャートである。
(ステップS182)音源位置更新部142は、更新処理に係る各種の初期値を設定する。音源位置更新部142は、初期値設定部140から入力された初期推定音源位置情報が示す音源候補ごとの推定音源位置の初期値を設定する。また、音源位置更新部142は、推定音源位置の初期値[d]、クラスタの初期値[c]、出現確率の初期値π* c、平均の初期値μ* c、分散の初期値Σ* c、形状パラメータの初期値β* m、を、それぞれ式(27)に示すように設定する。推定音源方向の初期値[d]として、定位音源方向[d’]が設定される。クラスタの初期値cj,kとして、音源推定位置の初期値xnが属するクラスタcnが設定される。出現確率の初期値π* cとして、クラスタ数Cの逆数が設定される。平均の初期値μ* cとして、クラスタcに属する音源推定位置の初期値xnの平均値が設定される。分散の初期値Σ* cとして、単位行列が設定される。形状パラメータの初期値β* mとして、1が設定される。その後、ステップS184の処理に進む。
(ステップS186)音源位置更新部142は、式(26)に示す関係を用いて各クラスタcの出現確率π* c、平均μ* c、分散Σ* cと各マイクロホンアレイmの形状パラメータβ* mを算出する。その後、ステップS188の処理に進む。
次に、本実施形態に係る音源特定部16の処理について説明する。音源位置更新部142は、3個のマイクロホンアレイのうち、各2つのマイクロホンアレイにより取得された音源方向の3つの交点に基づいて、推定音源位置を定めていた。しかしながら、各マイクロホンアレイから取得されて音響信号により独立に音源方向が推定されうる。そのため、音源位置更新部142は、2個のマイクロホンアレイのそれぞれについて、互いに異なる音源の音源方向同士で交点を定めてしまうことがある。その交点は、音源が実在している位置とは異なる位置に生じるため、いわゆるゴースト(虚像)として検出されることがある。例えば、図9に示す例では、マイクロホンアレイMA1、MA2、MA3により、それぞれ音源S1、S2、S1の方向に音源方向が推定される。その場合、マイクロホンアレイMA1、MA3による交点P3は、いずれも音源S1の方向に基づいて定められるため、音源S1の位置に近似する。しかしながら、マイクロホンアレイMA2、MA3による交点P2は、それぞれ音源S2、S1の方向に基づいて定められるため、音源S1、S2のいずれの位置からも離れた位置となる。
周波数分析部124は、音源ごとに分離された音源別音響信号について周波数分析を行う。図10は、本実施形態に係る周波数分析処理の一例を示すフローチャートである。
(ステップS202)周波数分析部124は、各マイクロホンアレイmで取得された音響信号から分離された各音源の音源別音響信号をフレームごとに短時間フーリエ変換を行ってスペクトル[Fm,1]、[Fm,2]〜[Fm,sm]を算出する。その後、ステップS204の処理に進む。
(ステップS204)周波数分析部124は、音源ごとに算出した周波数スペクトルをマイクロホンアレイmごとに行間で統合して、スペクトル行列[Fm]を構成する。周波数分析部124は、マイクロホンアレイmごとのスペクトル行列[Fm]を行間で統合してスペクトル行列[F]を構成する。周波数分析部124は、構成したスペクトル行列[F]と音源方向情報とを対応付けて音源特定部16に出力する。その後、図10に示す処理を終了する。
音源特定部16の分散算出部160とスコア算出部162は、次に例示するスコア算出処理を行う。
図11は、本実施形態に係るスコア算出処理の一例を示すフローチャートである。
(ステップS222)分散算出部160は、周波数分析部124から入力されるスペクトル行列[F]が示すマイクロホンアレイmならびに音源の組ごとのスペクトルについてk−平均法を用いてクラスタリングを行い、複数の第2クラスタに分類する。クラスタ数Kは、予め分散算出部160に設定しておく。但し、分散算出部160は、スペクトルごとのクラスタの初期値を、繰り返し回数rごとに変更する。クラスタ数Kは、音源候補数Nと等しくしてもよい。分散算出部160は、スペクトルごとに分類される第2クラスタのインデックスci,x*nを要素として含むクラスタ行列[c*]を構成する。クラスタ行列[c*]の各列、各行は、それぞれマイクロホンアレイi、音源x* nに対応付けられる。マイクロホンアレイの数Mが3である場合、クラスタ行列[c*]は、式(28)に示すように、N行3列の行列となる。
分散算出部160は、第2クラスタに対応する音源候補ごとの推定音源位置の分散Vx*nを算出する。その後、ステップS224の処理に進む。
分類された複数のスペクトルに係る音源が互いに同一の音源であるか否かを判定する。分散算出部160は、例えば、複数のスペクトルのうち、各2つのスペクトル間の類似度を示す指標が示す類似度が、いずれも所定の類似度よりも高いとき、同一の音源であると判定する。分散算出部160は、少なくとも1組のスペクトル間の類似度を示す指標が所定の類似度以下となるとき、同一の音源ではないと判定する。類似度の指標として、例えば、内積、ユークリッド距離、などを用いることができる。内積は、その値が大きいほど類似度が高いことを示す。ユークリッド距離は、その値が小さいほど類似度が低いことを示す。なお、分散算出部160は、複数のスペクトルの類似度の指標として、それらの分散を算出してもよい。分散算出部160は、分散が所定の分散の閾値よりも小さいとき、同一の音源であると判定し、分散がその閾値以上であるとき、同一の音源ではないと判定してもよい。同一の音源であると判定する場合(ステップS224 YES)、ステップS226の処理に進む。同一の音源ではないと判定する場合(ステップS224 NO)、ステップS228の処理に進む。
(ステップS230)分散算出部160は、現在の繰り返し回数rの第2クラスタcx*nのスコアen,rを0とする。その後、ステップS234の処理に進む。
(ステップS232)分散算出部160は、現在の繰り返し回数rの第2クラスタcx*nのスコアen,rをεとする。その後、ステップS234の処理に進む。
(ステップS236)分散算出部160は、現在の繰り返し回数rを、1増加させる。その後、ステップS222の処理に戻る。
スコア算出部162は、座標値xnが相互に所定の範囲内にある推定音源位置xiにそれぞれ対応する第2クラスタiの存在度数aiの総和a’nを算出する。その後、ステップS240の処理に進む。
音源選択部164は、次に例示する音源選択処理を行う。
図12は、本実施形態に係る音源選択処理の一例を示すフローチャートである。
(ステップS242)音源選択部164は、スコア算出部162から入力された最終スコア情報が示す音源候補の最終スコアe* nが所定の最終スコアの閾値θ2以上であるか否かを判定する。閾値θ2以上と判定する場合(ステップS242 YES)、ステップS244の処理に進む。閾値θ2未満と判定する場合(ステップS242 NO)、ステップS246の処理に進む。
(ステップS246)音源選択部164は、最終スコアe* nが異常値(Outlier)と判定し、対応する音源候補を音源として選択せずに棄却する。その後、図12に示す処理を終了する。
音響処理装置1は、全体として次に例示する音響処理を行う。
図13は、本実施形態に係る音響処理の一例を示すフローチャートである。
(ステップS12)音源定位部120は、入力部10から入力され、各マイクロホンアレイから取得された複数チャネルの音響信号に基づいて各音源の定位音源方向を予め定めた長さのフレームごとに推定する(音源定位)。音源定位部120は、音源定位において、例えば、MUSIC法を用いる。その後、ステップS14の処理に進む。
(ステップS14)音源分離部122は、音源ごとの定位音源方向に基づいて、各マイクロホンアレイから取得された音響信号を音源ごとの音源別音響信号に分離する。音源分離部122は、音源分離部において、例えば、GHDSS法を用いる。その後、ステップS16の処理に進む。
(ステップS18)音源位置更新部142は、各2個のマイクロホンアレイの組ごとに推定音源方向に基づいて定められる交点の分布を複数のクラスタに分類する。音源位置更新部142は、音源候補ごとの推定音源位置が、それぞれの音源候補に対応するクラスタに属する確率が高くなるように推定音源位置を更新する。ここで、音源位置更新部142は、上述の音源位置更新処理を行う。その後、ステップS20の処理に進む。
(ステップS22)分散算出部160は、算出したスペクトルを複数の第2クラスタに分類し、分類した第2クラスタに属するスペクトルに係る音源が相互に同一であるか否かを判定する。分散算出部160は、第2クラスタに属するスペクトルに係る音源候補ごとの推定音源位置の分散を算出する。スコア算出部162は、同一と判定された音源に係る第2クラスタを、同一でないと判定した音源に係る第2クラスタよりも大きくなるように第2クラスタごとの最終スコアを定める。スコア算出部162は、クラスタの安定性として、繰り返しごとの推定音源位置の分散の増加が稀な第2クラスタほど大きくなるように最終スコアを定める。ここで、分散算出部160とスコア算出部162は、上述のスコア算出処理を行う。その後、ステップS24の処理に進む。
(ステップS24)音源選択部164は、最終スコアが、所定の最終スコアの閾値以上となる第2クラスタに対応する音源候補を音源として選択し、最終スコアの閾値未満となる第2クラスタに対応する音源候補を棄却する。音源選択部164は、選択した音源に係る推定音源位置を出力する。その後、図13に示す処理を終了する。
音響処理システムS1は、記憶部(図示せず)を備え、図13に示す音響処理を行う前に、各マイクロホンアレイが収音した音響信号を記憶しておいてもよい。記憶部は、音響処理装置1の一部として構成されてもよいし、音響処理装置1とは別個の外部機器に設置されてもよい。音響処理装置1は、記憶部から読み出した音響信号を用いて図13に示す音響処理を行ってもよい(バッチ処理)。
そこで、オンライン処理において、初期処理部12によるステップS12、S14、S20の処理が、音源位置推定部14と音源特定部16によるステップS16、S18、S22、S24の処理と並列に行われてもよい。但し、ステップS12〜S14、S20の処理において、現時点t0までの第1区間内の音響信号もしくは音響信号から導出された各種のデータを処理対象とする。ステップS12、S14、S20の処理において、現時点t0までの第1区間内の音響信号もしくは音響信号から導出された各種のデータを処理対象とする。ステップS16、S18、S22、S24の処理において、第1区間よりも過去の第2区間内の音響信号もしくは各種のデータを処理対象とする。
図14において、左右方向は時刻を示す。右上のt0は、現時点を示す。wlは、個々のフレームw1、w2、…のフレーム長を示す。音響処理装置1の入力部10には、フレームごとに最新の音響信号が入力され、音響処理装置1の記憶部(図示せず)は、期間がne・wlの音響信号と導出されるデータを記憶する。そして、記憶部は、フレームごとに最も過去の音響信号とデータを棄却する。neは、記憶される全データのフレーム数を示す。初期処理部12は、全データのうち最新の第1区間内のデータを用いて、ステップS12〜S14、S20の処理を行う。第1区間の長さが、初期処理長nt・wlに相当する。ntは、予め定めた初期処理長のフレーム数を示す。音源位置推定部14と音源特定部16は、全データのうち第1区間の終期よりも後の第2区間のデータを用いて、ステップS16、S18、S22、S24の処理を行う。第2区間の長さが、バッチ長nb・wlに相当する。nbは、予め定めたバッチ長のフレーム数を示す。第1区間、第2区間には、フレームごとに、それぞれ最新のフレームの音響信号、第nt+1フレームの音響信号と導出されるデータが加入される。他方、第1区間、第2区間には、フレームごとに第ntフレームの音響信号とその音響信号から導出されるデータと、第neフレームの音響信号と導出されるデータが棄却される。このように、初期処理部12と、音源位置推定部14ならびに音源特定部16は、それぞれ第1区間内のデータと、第2区間内のデータとを使い分けることで、出力がフレーム間で継続するように図13に示す音響処理がオンラインで実行可能となる。
この構成により、それぞれ異なる収音部20からの定位音源方向により定まる交点が分類されるクラスタの範囲内に、対応する音源の推定音源位置が分類される可能性が高くなるように推定音源位置が調整される。クラスタの範囲内には音源が存在する可能性が高くなるため、調整される推定音源位置がより正確な音源位置として得られる。
一般に、定位音源方向、推定音源位置及び交点は相互に依存するが、音源位置推定部14は、第1確率、第2確率及び第3確率をそれぞれ独立な推定確率の因子として推定音源位置を定めることができる。そのため、推定音源位置の調整に係る計算負荷が低減する。
この構成により、第1確率の推定音源方向の関数、第2確率の推定音源位置の関数が、それぞれ形状パラメータ、平均ならびに分散といった少数のパラメータで表される。そのため、推定音源位置の調整に係る計算負荷がさらに低減する。
この構成により、推定音源位置の初期値を、音源が存在する可能性が高い3個の交点をそれぞれ頂点とする三角形の領域内に設定することができる。そのため、調整による推定音源位置の変化が収束するまでの計算負荷が低減する。
この構成により、スペクトルに基づいて同一と判定されなかった音源の定位音源方向の交点に基づいて推定された推定音源位置が棄却される可能性が高くなる。そのため、互いに異なる音源の推定音源方向の交点に基づいて推定音源位置が虚像(ゴースト)として誤って選択される可能性を低くすることができる。
この構成により、推定音源位置が定常的な音源のスペクトルが分類される第2クラスタに対応する音源の推定音源位置が選択される可能性が高くなる。即ち、推定音源位置が選択される第2クラスタには、偶発的に互いに異なる音源の推定音源方向の交点に基づいて推定される推定音源位置が含まれる可能性が低くなる。そのため、互いに異なる音源の推定音源方向の交点に基づいて推定音源位置が虚像として誤って選択される可能性をさらに低くすることができる。
また、音響処理装置1において、周波数分析部124と音源特定部16が省略されてもよい。その場合、音源位置更新部142は、音源候補ごとの推定音源位置を示す推定音源位置情報を出力部18に出力する。
収音部20の数Mは、3個に限られず4個以上であってもよい。また、収音部20ごとに収音可能とする音響信号のチャネル数が異なってもよいし、それぞれの音響信号から推定可能な音源数が異なってもよい。
第1確率が従う確率分布は、フォン・ミーゼス分布に限られず、ロジスティック関数の導関数など、1次元空間内のある基準値に対する最大値を与える1次元の確率分布であればよい。
第2確率が従う確率分布は、多次元ガウス関数に限られず、多次元ロジスティック関数の一次導関数など、多次元空間内のある基準値に対する最大値を与える多次元の確率分布であればよい。
また、上述した実施形態及び変形例における音響処理装置1の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音響処理装置1の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
Claims (7)
- 位置が異なるM(Mは、3以上の整数)個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位部と、
3個の前記収音部の組のうち2個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、
前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、
前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルのモデルパラメータを更新する処理と、
前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定部と、
を備える音響処理装置。 - 前記推定確率は、前記定位音源方向が定められるとき前記推定音源方向が得られる確率である第1確率と、前記交点が定められるとき前記推定音源位置が得られる確率である第2確率と、前記交点が分類されるクラスタの出現確率である第3確率と、をそれぞれ因子とする積である
請求項1に記載の音響処理装置。 - 前記第1確率は、前記定位音源方向を基準とするフォン・ミーゼス分布に従い、前記第2確率は、前記交点の位置を基準とする多次元ガウス関数に従い、
前記音源位置推定部は、
前記推定確率がより高くなるように、前記フォン・ミーゼス分布の形状パラメータと、前記多次元ガウス関数の平均ならびに分散と、を更新する
請求項2に記載の音響処理装置。 - 前記複数チャネルの音響信号から音源ごとの音源別信号に分離する音源分離部と、
前記音源別信号のスペクトルを算出する周波数分析部と、
前記スペクトルを複数の第2クラスタに分類し、前記第2クラスタのそれぞれに分類される各スペクトルに係る音源が同一であるか否かを判定し、
同一と判定した音源の前記推定音源位置を、同一でないと判定した音源の前記推定音源位置よりも優先して選択する音源特定部と、
を備える請求項1から請求項3のいずれか一項に記載の音響処理装置。 - 前記音源特定部は、
前記第2クラスタのそれぞれに分類されるスペクトルに係る音源の前記推定音源位置の分散に基づいて当該第2クラスタの安定性を評価し、
前記安定性が高い第2クラスタほど当該第2クラスタにスペクトルが分類される音源の前記推定音源位置を優先して選択する
請求項4に記載の音響処理装置。 - 音響処理装置における音響処理方法であって、
前記音響処理装置が、
位置が異なるM(Mは、3以上の整数)個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位過程と、
3個の前記収音部の組のうち2個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、
前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、
前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルのモデルパラメータを更新する処理と、
前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定過程と、
を有する音響処理方法。 - 位置が異なるM(Mは、3以上の整数)個の収音部のそれぞれから取得した複数チャネルの音響信号に基づいて音源の方向である定位音源方向を定める音源定位手順と、
3個の前記収音部の組のうち2個の前記収音部の対ごとに当該収音部のそれぞれから前記定位音源方向への直線の交点を定め、それぞれ定めた交点の重心を音源の位置の推定値である推定音源位置の初期値として定め、
前記収音部の対ごとに当該収音部のそれぞれから前記推定音源位置への方向である推定音源方向への直線の交点を定め、前記交点の分布を複数のクラスタに分類し、
前記推定音源位置が前記音源に対応するクラスタに分類される確率である推定確率がより高くなるように、前記推定音源位置と前記クラスタを一定にして当該推定確率が従う確率モデルのモデルパラメータを更新する処理と、
前記推定確率がより高くなるように、前記モデルパラメータを一定にして前記推定音源位置と前記クラスタを更新する処理と、を行う音源位置推定手順と、
を実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017172452A JP6859235B2 (ja) | 2017-09-07 | 2017-09-07 | 音響処理装置、音響処理方法及びプログラム |
US16/120,751 US10356520B2 (en) | 2017-09-07 | 2018-09-04 | Acoustic processing device, acoustic processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017172452A JP6859235B2 (ja) | 2017-09-07 | 2017-09-07 | 音響処理装置、音響処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019049414A JP2019049414A (ja) | 2019-03-28 |
JP6859235B2 true JP6859235B2 (ja) | 2021-04-14 |
Family
ID=65518425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017172452A Active JP6859235B2 (ja) | 2017-09-07 | 2017-09-07 | 音響処理装置、音響処理方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10356520B2 (ja) |
JP (1) | JP6859235B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020194717A1 (ja) * | 2019-03-28 | 2020-10-01 | 日本電気株式会社 | 音響認識装置、音響認識方法、及び、プログラムが格納された非一時的なコンピュータ可読媒体 |
CN110111808B (zh) * | 2019-04-30 | 2021-06-15 | 华为技术有限公司 | 音频信号处理方法及相关产品 |
CN110673125B (zh) * | 2019-09-04 | 2020-12-25 | 珠海格力电器股份有限公司 | 一种基于毫米波雷达的声源定位方法、装置、设备以及存储介质 |
CN111106866B (zh) * | 2019-12-13 | 2021-09-21 | 南京理工大学 | 基于海森矩阵预估计的星载ais/ads-b碰撞信号分离方法 |
CN113009414B (zh) * | 2019-12-20 | 2024-03-19 | 中移(成都)信息通信科技有限公司 | 信号源位置确定方法、装置、电子设备及计算机存储介质 |
CN112946578B (zh) * | 2021-02-02 | 2023-04-21 | 上海头趣科技有限公司 | 双耳定位方法 |
CN113138363A (zh) * | 2021-04-22 | 2021-07-20 | 苏州臻迪智能科技有限公司 | 一种声源定位方法、装置、存储介质和电子设备 |
JPWO2023286119A1 (ja) * | 2021-07-12 | 2023-01-19 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5829534B2 (ja) | 1974-12-17 | 1983-06-23 | 松下電器産業株式会社 | フカクドウソウチ |
JP4767247B2 (ja) * | 2005-02-25 | 2011-09-07 | パイオニア株式会社 | 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体 |
US7372773B2 (en) * | 2005-04-08 | 2008-05-13 | Honeywell International, Inc. | Method and system of providing clustered networks of bearing-measuring sensors |
US8155331B2 (en) | 2006-05-10 | 2012-04-10 | Honda Motor Co., Ltd. | Sound source tracking system, method and robot |
US20110317522A1 (en) * | 2010-06-28 | 2011-12-29 | Microsoft Corporation | Sound source localization based on reflections and room estimation |
JP5412470B2 (ja) * | 2011-05-27 | 2014-02-12 | 株式会社半導体理工学研究センター | 位置測定システム |
US9989626B2 (en) * | 2013-04-12 | 2018-06-05 | Hitachi, Ltd. | Mobile robot and sound source position estimation system |
JP6059072B2 (ja) * | 2013-04-24 | 2017-01-11 | 日本電信電話株式会社 | モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム |
US9429432B2 (en) * | 2013-06-06 | 2016-08-30 | Duke University | Systems and methods for defining a geographic position of an object or event based on a geographic position of a computing device and a user gesture |
US20170009228A1 (en) * | 2014-01-13 | 2017-01-12 | Imperial Innovations Limited | Biological materials and therapeutic uses thereof |
US10370840B2 (en) * | 2014-07-11 | 2019-08-06 | The Drain Company, Llc | Drain and drain leveling mechanism |
JP6467736B2 (ja) * | 2014-09-01 | 2019-02-13 | 株式会社国際電気通信基礎技術研究所 | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム |
US9972315B2 (en) * | 2015-01-14 | 2018-05-15 | Honda Motor Co., Ltd. | Speech processing device, speech processing method, and speech processing system |
JP6606784B2 (ja) * | 2015-09-29 | 2019-11-20 | 本田技研工業株式会社 | 音声処理装置および音声処理方法 |
-
2017
- 2017-09-07 JP JP2017172452A patent/JP6859235B2/ja active Active
-
2018
- 2018-09-04 US US16/120,751 patent/US10356520B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10356520B2 (en) | 2019-07-16 |
JP2019049414A (ja) | 2019-03-28 |
US20190075393A1 (en) | 2019-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6859235B2 (ja) | 音響処理装置、音響処理方法及びプログラム | |
JP7001566B2 (ja) | 音響処理装置、音響処理方法、およびプログラム | |
JP3949150B2 (ja) | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 | |
EP2123116B1 (en) | Multi-sensor sound source localization | |
US9971012B2 (en) | Sound direction estimation device, sound direction estimation method, and sound direction estimation program | |
US10390130B2 (en) | Sound processing apparatus and sound processing method | |
JP2017044916A (ja) | 音源同定装置および音源同定方法 | |
US20140072142A1 (en) | Sound direction estimation device, sound processing system, sound direction estimation method, and sound direction estimation program | |
Guo et al. | Localising speech, footsteps and other sounds using resource-constrained devices | |
JP7235534B2 (ja) | マイクロホンアレイ位置推定装置、マイクロホンアレイ位置推定方法、およびプログラム | |
US11081126B2 (en) | Processing of sound data for separating sound sources in a multichannel signal | |
US11120819B2 (en) | Voice extraction device, voice extraction method, and non-transitory computer readable storage medium | |
JP2019066339A (ja) | 音による診断装置、診断方法、および診断システム | |
US10674261B2 (en) | Transfer function generation apparatus, transfer function generation method, and program | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
US11322169B2 (en) | Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program | |
JP5705190B2 (ja) | 音響信号強調装置、音響信号強調方法、およびプログラム | |
JP5414160B2 (ja) | 感性評価装置及び方法 | |
JP7024615B2 (ja) | 音響信号分離装置、学習装置、それらの方法、およびプログラム | |
JP6974279B2 (ja) | 音響処理装置、音響処理方法およびプログラム | |
Yen et al. | Noise power spectral density scaled SNR response estimation with restricted range search for sound source localisation using unmanned aerial vehicles | |
Joya et al. | Design of Room-Layout Estimator Using Smart Speaker | |
JP2016065764A (ja) | 推定システムおよび推定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201215 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210316 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6859235 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |