JP5629249B2 - 音源定位システム及び音源定位方法 - Google Patents

音源定位システム及び音源定位方法 Download PDF

Info

Publication number
JP5629249B2
JP5629249B2 JP2011182774A JP2011182774A JP5629249B2 JP 5629249 B2 JP5629249 B2 JP 5629249B2 JP 2011182774 A JP2011182774 A JP 2011182774A JP 2011182774 A JP2011182774 A JP 2011182774A JP 5629249 B2 JP5629249 B2 JP 5629249B2
Authority
JP
Japan
Prior art keywords
sound source
model
source localization
sound
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011182774A
Other languages
English (en)
Other versions
JP2013044950A (ja
Inventor
一博 中臺
一博 中臺
博 奥乃
博 奥乃
琢馬 大塚
琢馬 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2011182774A priority Critical patent/JP5629249B2/ja
Priority to US13/590,624 priority patent/US20130051569A1/en
Publication of JP2013044950A publication Critical patent/JP2013044950A/ja
Application granted granted Critical
Publication of JP5629249B2 publication Critical patent/JP5629249B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、音源定位システム及び音源定位方法に関する。
音源定位は、マイクロフォンアレイを使用した同時発話混合音声の分離、遠隔ロボットのオペレータへの音源方向提示、移動ロボットによる音源検出と位置推定などに使用される重要な要素技術である。
マイクロフォンアレイを使用した音源定位法には、ビームフォーミングに基づく方法とMUltiple SIgnal Classification(MUSIC)に基づく方法がある。これらのうち、MUSICに基づくMUSIC法は、雑音に対してロバストであり、音源数がマイクロフォンの数未満という条件下では、比較的安定して複数音源の定位を行うことができる(たとえば、特許文献1)。
通常のMUSIC法では、MUSICスペクトルと呼ばれる音源到来評価関数に対して閾値を設定して、音源がある方向に存在するかどうか判定する。適切な閾値を定めるには、環境中の音源数や残響時間などを考慮する必要がある。したがって、動的に音環境が変化する状況において音源定位を行うには、従来技術においては、閾値を手動で設定する必要があった。換言すれば、動的に音環境が変化する状況において、MUSICスペクトルの閾値を自動的に定めることのできる音源定位システム及び音源定位方法は開発されていなかった。
特許4095348号
したがって、動的に音環境が変化する状況において、MUSICスペクトルの閾値を自動的に定めることのできる音源定位システム及び音源定位方法に対するニーズがある。
本発明の第1の態様による音源定位システムは、音データを検出する音検出部と、検出された音データに基づいて、方向及び時間ごとのMUSICスペクトルを演算するMUSICスペクトル演算部と、を備えている。本システムは、各方向の音源の有無による状態、状態の遷移を記述する状態遷移モデル、及び音源有りの状態及び音源無しの状態に観測されるMUSICスペクトルを記述する観測モデルを定め、MUSICスペクトルの時系列データに基づいて、前記観測モデル及び前記状態遷移モデルのモデルパラメータの事後分布を推定する、モデルパラメータ推定部と、推定されたモデルパラメータの事後分布に基づいて、方向及び時間ごとの音源存在事後確率のパーティクルをサンプルすることによって、音源定位を行う音源定位部と、をさらに備えている。
本態様の音源定位システムによれば、観測モデル及び状態遷移モデルのモデルパラメータの事後分布を推定し、推定されたモデルパラメータの事後分布に基づいて音源定位を行うので、動的に音環境が変化する状況においても、手動で閾値を設定する必要なく、ロバストに音源定位を行うことができる。
本発明の第1の態様の第1の実施形態による音源定位システムは、前記観測モデルとしてガウス混合モデルを使用する。
本実施形態によれば、ガウス分布を使用することで解析的な計算が可能となる。
本発明の第2の態様による音源定位システムは、音データを検出するステップと、検出された音データに基づいて、方向及び時間ごとのMUSICスペクトルを演算するステップと、を含む。本方法は、各方向の音源の有無による状態、状態の遷移を記述する状態遷移モデル、及び音源有りの状態及び音源無しの状態に観測されるMUSICスペクトルを記述する観測モデルを定め、MUSICスペクトルの時系列データに基づいて、前記観測モデル及び前記状態遷移モデルのモデルパラメータの事後分布を推定するステップと、 推定されたモデルパラメータの事後分布に基づいて、方向及び時間ごとの音源存在事後確率のパーティクルをサンプルすることによって、音源定位を行うステップと、をさらに含む。
本態様の音源定位方法によれば、観測モデル及び状態遷移モデルのモデルパラメータの事後分布を推定し、推定されたモデルパラメータの事後分布に基づいて音源定位を行うので、動的に音環境が変化する状況においても、手動で閾値を設定する必要なく、ロバストに音源定位を行うことができる。
本発明の第2の態様の第1の実施形態による音源定位方法は、前記観測モデルとしてガウス混合モデルを使用する。
本実施形態によれば、ガウス分布を使用することで解析的な計算が可能となる。
本発明の第2の態様の第2の実施形態による音源定位方法において、音源定位を行うステップは、P個のパーティクルをサンプルするステップと、各パーティクルについて重みを計算するステップと、各パーティクルの重みを正規化するステップと、各パーティクルの重みを使用してリサンプリングを行うステップと、を含む。
本実施形態によれば、推定されたモデルパラメータの分布に基づいてパーティクルをサンプルすることによって、方向及び時間ごとの音源事後確率のパーティクルを簡単な手順で求めることができる。
本発明の一実施形態による音源定位システムの構成を示す図である。 M個のマイクロフォンからなるマイクロフォンアレイの構成を示す図である。 対数スケールのMUSICスペクトルの分布を示す図である。 VB−HMMの確率変数間の条件付き独立性を示すグラフィカルモデルを示す図である。 モデルパラメータ推定部による、モデルパラメータの分布を推定する手順を示す流れ図である。 音源定位部が、各方向ビンにおける音源存在事後確率を表す、P 個のパーティクルを求める手順を示す流れ図である。 オンラインの音源定位実験に使用した音源の配置を示す図である。 従来の音源定位システムによるオンライン音源定位の結果を示す図である。 本実施形態の音源定位システムによるオンライン音源定位の結果を示す図である。
図1は、本発明の一実施形態による音源定位システム100の構成を示す図である。音源定位システム100は、音検出部101と、MUSICスペクトル演算部103と、モデルパラメータ推定部105と、音源定位部107とを含む。
音検出部101は、M個のマイクロフォンからなるマイクロフォンアレイであってもよい。
図2は、M個のマイクロフォン1011からなるマイクロフォンアレイ101の構成を示す図である。図2において、M=8である。一例として、8個のマイクロフォン1011は水平面上に配置されており、音源定位システム100は、音源が、水平面上のどの方向に存在するかを定める。一例として、方向の解像度は5°であり、360°/5°=72のいずれかの方向を定める。
たとえば、音検出部であるマイクロフォンアレイによって、Mチャネルの音響信号が得られる。また、周波数ビンごとに水平面上のD方向(D=72)からの伝達関数が与えられているとする。音源定位システム100は、N個の音源方向を定める。ただし、同時に定位可能な最大音源数Nmaxは、マイクロフォンの数未満である。
N≦Nmax<M
MUSICスペクトル演算部103におけるMUSIC(Multiple Signal Classification)スペクトルの算出方法について説明する。より詳細は、文献[R. O. Schmidt, “Multiple Emitter Location and Signal Parameter Estimation,” IEEE Trans. on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986; P. Dan`es and J. Bonnal, “Information-Theoretic Detection of Broadband Sources in a Coherent Beamspace MUSIC Scheme,” in Proc. of IROS-2010, 2011, pp. 1976-1981.]に記載されている。MUSIC法は、時間周波数領域において適用される。具体的には、サンプリング周波数16000[Hz]で、窓長12[pt]、シフト幅160[pt]の短時間フーリエ変換を行っている。
Figure 0005629249
をMチャネル音響信号の時間フレームτ、周波数ビンωにおける入力Mチャネル音響信号の複素振幅ベクトルとする。各周波数ビンω、ΔT[sec]間隔の時刻tに対して、
(1)入力信号の自己相関行列
Figure 0005629249
の計算、
Figure 0005629249
の固有値分解、
(3)固有ベクトルと伝達関数を用いたMUSICスペクトルの計算を行う。
上記の(1)乃至(3)について以下に説明する。
(1)入力信号の自己相関行列の計算
入力信号の自己相関行列は、時間ΔTで観測したサンプル値の相関として計算する。
Figure 0005629249
ただし、
Figure 0005629249
はエルミート転置、
Figure 0005629249
は時刻tにおける時間フレームを表す。入力ベクトル
Figure 0005629249
のM個の要素は各チャネルに対応する。
(2)固有値分解
Figure 0005629249
を次のように固有値分解する。
Figure 0005629249
ここで、
Figure 0005629249
は固有ベクトル、
Figure 0005629249
は固有値からなる対角行列である。
Figure 0005629249
は、
Figure 0005629249

Figure 0005629249
のM個の固有ベクトルで表せ、
Figure 0005629249
となる。固有値
Figure 0005629249
は降順に並べられているものとする。
入力信号にN個の音源が含まれる場合、固有値
Figure 0005629249
から
Figure 0005629249
までが、音源のエネルギに対応する大きな値を有する。それに対し、残りの固有値
Figure 0005629249
から
Figure 0005629249
まではマイクロフォンの観測ノイズなどに対応する小さな値を有する。ここで、重要な点は、
Figure 0005629249
から
Figure 0005629249
のノイズに対応する固有ベクトルは、音源方向に対応する伝達関数ベクトルと直交するという点である[R. O. Schmidt, “Multiple Emitter Location and Signal Parameter Estimation,” IEEE Trans. on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986.]。
(3)固有ベクトルと伝達関数を用いたMUSICスペクトルの計算
MUSICスペクトルは以下の式にしたがって計算する。
Figure 0005629249
ただし、
Figure 0005629249
は方向d、周波数ビンωに対応するM次元の伝達関数ベクトルである。これらの伝達関数は、マイクロフォンアレイを使用して事前に測定したものである。ここで、観測されうる最大の音源数はNmaxである。そのため、
Figure 0005629249
から
Figure 0005629249
までの固有ベクトルは、音源方向dに対応する伝達関数
Figure 0005629249
と直交する。したがって、式(3)の分母は音源方向のdに対して0となる。すなわち、式(3)のMUSICスペクトル
Figure 0005629249
は発散する。ただし、実際には、壁からの反射音などの影響でMUSICスペクトルは発散せず鋭いピークとして観測されることが多い。
つぎに、周波数ビンごとのMUSICスペクトルを以下の式にしたがって合算する。
Figure 0005629249
ここで、
Figure 0005629249
は、周波数ビンωにおける最大固有値である。本実施形態では、音声信号を対象とするため、
Figure 0005629249
とした。
つぎに、モデルパラメータ推定部105の機能について説明する。モデルパラメータ推定部105は、変分ベイズ隠れマルコフモデル(VB−HMM)を使用する。
状態ベクトルとしてD次元の2値ベクトルを使用する。各次元のベクトル値は、その方向に音源が存在するか否かを示す。
また、MUSICスペクトルがガウス分布にしたがう観測値であるとみなし、音源有りの場合及び音源無しの場合に対応するガウス分布からなるガウス混合分布を観測モデルとする。ガウス分布を使用する理由は、複数の周波数ビンの値を加算して対数とったMUSICスペクトルが近似的にガウス分布とみなせることと、ガウス分布を使用することで解析的な計算が可能となることである。
図3は、対数スケールのMUSICスペクトルの分布を示す図である。図3の横軸は、対数スケールのMUSICスペクトルを示す。対数スケールのMUSICスペクトルは、以下の式によって求める。
Figure 0005629249
図3の縦軸は、観測数を表す。図3に点線で示す音源が存在しない(オフ)のときのガウス分布は、狭くかつ値の小さなMUSICスペクトルの領域に形成され、図3に実線で示す音源が存在する(オン)ときのガウス分布は、広くかつ値の大きなMUSICスペクトルの領域を覆っている。
モデルパラメータ推定部105で使用される観測モデルは以下の式で表せる。
Figure 0005629249
ただし、
Figure 0005629249
はx=yのとき
Figure 0005629249
そうでなければ、
Figure 0005629249
を表す。また、
Figure 0005629249
は、平均μ、精度λの正規分布の確率密度関数を表す。パラメータμとλには、正規・ガンマ分布を使用する。
Figure 0005629249
ただし,N(・|m,L-1)は平均 m, 精度L (分散 1/L)の正規分布であり、以下の式で表せる。
Figure 0005629249
G(・|a,b)は形状a, 尺度b のガンマ分布であり、以下の式で表せる。
Figure 0005629249
正規分布のβ、 ガンマ分布のa は事前分布の影響の大きさ(事前に観測したとみなす観測数)を表す。本実施形態では、事前情報よりも学習時に観測されるデータを重視するため、
Figure 0005629249
に設定する。
m0 は平均パラメータμの事前情報で与えられた平均値を示す。本実施形態では、およそ25程度が適している。あるいは、VB−HMMの学習に用いる観測値のサンプル平均でも問題ない。
b0 は精度パラメータλの事前情報で与えられた「ばらけ具合」を示す。実験的に500に設定している。あるいは、VB−HMMの学習に用いる観測値のサンプル分散程度でも問題ない。
図4は、VB−HMMの確率変数間の条件付き独立性を示すグラフィカルモデルを示す図である。VB−HMMは、状態遷移確率のパラメータθkや、観測確率のパラメータμ、λが数値ではなく、確率変数として扱われる点が通常のHMMと異なる。モデルパラメータ推定部105は、これらのパラメータの確率分布を学習する。
モデルパラメータ推定部105で使用される状態遷移モデルは基本的に、各方向ビンd について、 前状態で音源がない場合
Figure 0005629249
と音源がある場合
Figure 0005629249
から、次状態で音源が出現する、継続する、消滅するといった遷移を考える。本実施形態においては、移動する音源についても考慮するために、以下の表1に示すように前状態の組み合わせから成る四つの場合を考える。すなわち、前時刻の同方向ビン
Figure 0005629249
に音源が存在するかどうかと, 前時刻の隣接方向ビン
Figure 0005629249
のいずれかに音源が存在するかによって分類する。たとえば、θ1 は前時刻に当該方向d及び隣接ビンd±1 に音源が存在しない状態から音源が出現する確率、θ2 は、前時刻に方向d に音源が存在しないが、隣接ビンd±1 には音源が存在したため、その音源が方向d に移動してきて
Figure 0005629249
となる確率を表す。
Figure 0005629249
状態遷移確率は、以下の式によって表せる。
Figure 0005629249
ここで、
Figure 0005629249
は表1 に従って、 方向ビンd の周りの前状態の値
Figure 0005629249
によって条件k に合致するときに
Figure 0005629249
その他の場合は0 を返す条件識別関数である。 初期状態としては、 音源は存在しない、すなわちすべてのd に対して
Figure 0005629249
とする。
状態遷移パラメータである
Figure 0005629249
には、式(8)の共役事前分布としてベータ分布を用いる。
Figure 0005629249
ただし
Figure 0005629249
はパラメータc、dを持つβ分布の確率密度関数である。
モデルパラメータ推定部105におけるVB−HMMの学習は、事後分布
Figure 0005629249
を以下のように因数分解可能な分布に近似して推定する。
Figure 0005629249
(・)1:T は、 時刻1 からT までの確率変数の集合を表す。一般的なVB−HMM の推論については、文献[M. J. Beal, “Variational Algorithms for Approximate Bayesian Inference,”Ph.D. dissertation, Gatsby Computational Neuroscience Unit, University Colledge London, 2003.] に記載されている。
Figure 0005629249
はそれぞれのk に対し、式(11)に示すパラメータ
Figure 0005629249
を持つベータ分布となり、
Figure 0005629249
は、 式(12), (13) で表されるパラメータ
Figure 0005629249
を持つ正規ガウス分布となる。
Figure 0005629249
ただし、 変数st,d,j は, st,d = 0 のとき、st,d,0 = 1 、また、st,d =1 のとき, st,d,1 =1 となる変数である。 式(12)、(13)に用いられる正規分布の十分統計量は
Figure 0005629249
と定義する。 また、
Figure 0005629249
は式(10) の分布による期待値演算子である。各時刻の状態変数と状態遷移の期待値
Figure 0005629249
は次のように計算する。
Figure 0005629249
ただし、α(st,d,j)とβ(st,d,j)はそれぞれ前向き、後ろ向き再帰式により計算される。
Figure 0005629249
ここで、
Figure 0005629249
である。遷移、観測確率の幾何平均は以下の式で表せる。
Figure 0005629249
ここで、
Figure 0005629249
は、以下の式で定義されるディガンマ関数である。
Figure 0005629249
式(14)及び(15)は、ともに添え字j、kを動かしたとき総和が1になるように正規化されている。
Figure 0005629249
は、状態遷移の条件kに関する前向き確率である。
図5は、モデルパラメータ推定部105による、モデルパラメータの分布を推定する手順を示す流れ図である。
図5のステップS1010において、モデルパラメータ推定部105は、初期値を定める。初期値は、式(14)及び式(15)の値に対して、たとえば、以下手順によって定めることができる。
式(14) の左辺 <st,d,j> は、時刻t、方向ビンd において音源が存在しない場合は st,d,0= 1かつst,d,1=0 、音源が存在する場合は st,d,0=0 かつ st,d,1=1 となる2値変数の期待値である。観測値xt,dが適当な閾値 (たとえば、m0の値)を超える場合は、たとえば、
<st,d,1> = 0.8, <st,d,0> = 1-0.8=0.2
のように設定する。0.8の代わりに1にしてもほぼ同様に動作する。
式(15) の左辺 <st,d,jfk(st,d)> も、xt,dが閾値を超えるか否かに従って算出する。この値は、st,d,1=0,1 の2通りと、k=1〜4のいずれかでfk(st,d)=1となる4通りの組み合わせで、計8通りの組み合わせが存在する。xt,dの閾値処理と、前時刻のxt-1,dの閾値処理、前時刻・近傍方向のxt-1,d±1の閾値処理結果から、表1を参照して、該当する k の値を求める。たとえば、前時刻xt-1,dは閾値以下だが、隣接ビンのxt-1,d+1では閾値を超えた場合は k = 2 にあたる。xt,dが閾値を超えた場合、<st,d,1f2(st,d)> = 0.8、その他の7通りの組み合わせでは、<st,d,jfk(st,d)>=(1-0.8)/7 のように設定する。
図5のステップS1020において、モデルパラメータ推定部105は、式(18)及び式(19)を使用して、遷移、観測確率の幾何平均を求める。
図5のステップS1030において、モデルパラメータ推定部105は、ステップS1020で求めた遷移、観測確率の幾何平均、式(16)及び式(17)を使用して、α(st,d,j)とβ(st,d,j)を計算する。
図5のステップS1040において、モデルパラメータ推定部105は、ステップS1030で求めたα(st,d,j)とβ(st,d,j)、式(14)及び式(15)を使用して、各時刻の状態変数と状態遷移の期待値を求める。
図5のステップS1050において、モデルパラメータ推定部105は、ステップS1040で求めた各時刻の状態変数と状態遷移の期待値、式(11)から式(13)を使用して、モデルパラメータの事後分布を推定する。
図5のステップS1060において、モデルパラメータ推定部105は、収束判定を行う。具体的に、式(12), (13) で算出されるパラメータβ, m, a, b の値の変動がなくなることによって収束判定を行う。収束していないと判断されれば、ステップS1020に戻る。収束していると判断されれば、処理を終了する。
つぎに、音源定位部107の機能について説明する。音源定位部107は、モデルパラメータ推定部105が推定した、モデルパラメータの事後分布に基づいて、パーティクルフィルタを使用して、複数音源の存在事後確率計算を行う。パーティクルフィルタの推定対象は, MUSICスペクトルの時系列データが与えられたときの、各方向ビンにおける音源存在事後確率である。この分布を、P 個のパーティクルを用いて以下のように近似計算する。
Figure 0005629249
ただし,
Figure 0005629249
はパーティクルp の重み、
Figure 0005629249
は状態ベクトルの値である。
図6は、音源定位部107が、各方向ビンにおける音源存在事後確率を表す、P個のパーティクルを求める手順を示す流れ図である。
図6のステップS2010において、音源定位部107は、P個のパーティクルをサンプルする。
Pは以下のように定める。Pが大きいほど式(20)の近似は正確になるが、Pの大きさに比例した計算時間がかかる。そこで、Pを決める一般的な手続きとしては、実用的な近似を得るほど十分大きなPを与え、このようなPの処理時間が大きすぎる場合は、Pの大きさを適宜縮小する。本実施形態においては、近似結果が収束し、理速度も十分高速な値として、P=500とした。
P個のパーティクルのサンプルは、以下の式で表せる分布を使用して行う。
Figure 0005629249
ただし、xt,dが極大値をとるdのとき、C(xt,d)=1でその他の場合は、C(xt,d)=0となる。上記の分布の重みには、以下の式で表せるマハラノビス距離を使用する。
Figure 0005629249
時刻t において,式(22)で計算される分布q は、計D個のビンに対してオン
Figure 0005629249
であるか、またはオフ
Figure 0005629249
であるかの確率を与える。サンプル方法としては、各dについて
a) C(xt,d)=0 の場合、j=0 とする。つまり
Figure 0005629249
b) C(xt,d)=1の場合、j=0,1 それぞれの場合の分布qの確率を参照する。たとえば、
Figure 0005629249
の場合、0〜1の区間から一様乱数を生成し、その値が0.8以下の場合は、
Figure 0005629249
、0.8を超えた場合は
Figure 0005629249
のように値を決定する。
図6のステップS2020において、音源定位部107は、以下の式にしたがって、各パーティクルについて重みwp を算出する。
Figure 0005629249
式(24)及び式(25)の状態遷移、観測確率は、モデルパラメータ推定部105で使用された式(6)及び式(8)の事後分布で積分消去することで計算することができる。分布の共役性を用いると, この積分計算は、次のように解析的に求まる。
Figure 0005629249
ただし、
Figure 0005629249
は、平均m, 精度l , 自由度n のStudent t-分布である。さらに、最大の音源数をNmax に抑えるため、状態ベクトル
Figure 0005629249
に存在する音源数がNmax を超える場合には観測確率は
Figure 0005629249
とする。
図6のステップS2030において、音源定位部107は、各パーティクルの重みwp
Figure 0005629249
となるよう正規化する。
図6のステップS2040において、処理を終了するかどうか判断する。たとえば、スイッチの状態によって処理を終了するかどうか判断してもよい。処理を終了しないと判断した場合には、ステップS2050に進む。そうでなければ処理を終了する。
図6のステップS2050において、音源定位部107は、リサンプリングを行う。リサンプリングは、パーティクルp が持つ値
Figure 0005629249
を、そのパーティクルの重み
Figure 0005629249
に比例した確率で複製することによって行う。方法の一例としては、以下の処理を p’=1 〜 P まで繰り返す。
a) 0〜1 区間から一様乱数を生成 rp’とする。
b) p=1〜P まで
i. rp’← rp’-wp
ii. rp’< 0 になったら、
Figure 0005629249
として,p のループを抜ける。
iii.wp’← 1/P (リサンプル後の重みは全てのパーティクルで等しい)
c) a) に戻る。
つぎに、評価実験について説明する。評価実験は、本実施形態による音源定位システム及び固定閾値を使用する従来の音源定位システムの性能を比較した。モデルパラメータ推定部105による、オフラインでのVB−HMMでの学習は、一人の話者がマイクロフォンの周囲を発話しながら動く音響信号で行った。
図7は、オンラインの音源定位実験に使用した音源の配置を示す図である。二人の話者301及び303が、マイクロフォンアレイ101の周囲を移動しながら発話し、固定されたスピーカ201から音楽が再生されている。 オフライン及びオンラインで用いられた信号の長さはともに20 [sec] である。
パラメータの設定は以下のとおりである。
Nmax = 3, α0 = [1,1], β0 =1, a0 = 1, b0 = 500
また、パーティクル数はP=500 とした。実験で使用した室内の残響時間はRT20 = 840 [msec] であった。
図8は、従来の音源定位システムによるオンライン音源定位の結果を示す図である。図の横軸は秒単位の時間を示し、図の縦軸は度単位の方向を示す。従来の音源定位システムの閾値はPthres = 23,25,27 に設定されている。図8(a)、(b)、(c)は、それぞれ、閾値が23,25,27の場合の音源定位の結果を示す。図8(a)、(b)、(c)においては、閾値を超えるビンを、音源が存在するとして黒く表示している。図8(a)、(b)、(c)において、固定されたスピーカ及び移動する話者が黒で表示されている。しかし、図8(a)、(b)の実線の囲みで示すように、閾値を低く設定した場合は音源の誤検出が頻発する。
図9は、本実施形態の音源定位システムによるオンライン音源定位の結果を示す図である。図の横軸は秒単位の時間を示し、図の縦軸は度単位の方向を示す。本実施形態の音源定位システムの初期値はm0 = 23,25,27 に設定されている。図9(a)、(b)、(c)は、それぞれ、初期値が23,25,27の場合の音源定位の結果を示す。図9(a)、(b)、(c)においては、事後分布の音源存在確率が0.95 以上のビンを、音源が存在するとして黒く表示している。図9(a)、(b)、(c)において、固定されたスピーカ及び移動する話者が黒で表示されている。図8(a)、(b)の実線の囲みの位置に対応する、図9(a)、(b)の点線の囲みの位置において音源の誤検出は少ない。このことは、本実施形態の音源定位システムにおいて、学習の初期値にかかわらず音源の誤検出が少ないことを意味する。また、本実施形態の音源定位システムにおいて音源存在確率の閾値を0.95から1.00 まで動かして結果を検証し、これらの閾値に対してもロバストに同様の結果を示すことを確認した。この結果から、本実施形態の音源定位システムのモデルパラメータ推定部105によるオフライン学習及び音源定位部107によるオンライン定位の枠組みが、自動的に音源定位に適したパラメータに収束することが確認できた。さらに、今回の実験条件から、本実施形態の音源定位方法は、1音源のみで学習した場合であっても、複数音源に対して安定した音源定位結果をもたらすことが実証された。
101…音検出部、103…MUSICスペクトル演算部、105…モデルパラメータ推定部、107…音源定位部

Claims (5)

  1. 音データを検出する音検出部と、
    検出された音データに基づいて、方向及び時間ごとのMUSICスペクトルを演算するMUSICスペクトル演算部と、
    各方向の音源の有無による状態、状態の遷移を記述する状態遷移モデル、及び音源有りの状態及び音源無しの状態に観測されるMUSICスペクトルを記述する観測モデルを定め、MUSICスペクトルの時系列データに基づいて、前記観測モデル及び前記状態遷移モデルのモデルパラメータの事後分布を推定する、モデルパラメータ推定部と、
    推定されたモデルパラメータの事後分布に基づいて、方向及び時間ごとの音源存在事後確率のパーティクルをサンプルすることによって、音源定位を行う音源定位部と、を備えた音源定位システム。
  2. 前記観測モデルとしてガウス混合モデルを使用する請求項1に記載の音源定位システム。
  3. 音データを検出するステップと、
    検出された音データに基づいて、方向及び時間ごとのMUSICスペクトルを演算するステップと、
    各方向の音源の有無による状態、状態の遷移を記述する状態遷移モデル、及び音源有りの状態及び音源無しの状態に観測されるMUSICスペクトルを記述する観測モデルを定め、MUSICスペクトルの時系列データに基づいて、前記観測モデル及び前記状態遷移モデルのモデルパラメータの事後分布を推定するステップと、
    推定されたモデルパラメータの事後分布に基づいて、方向及び時間ごとの音源存在事後確率のパーティクルをサンプルすることによって、音源定位を行うステップと、を含む音源定位方法。
  4. 前記観測モデルとしてガウス混合モデルを使用する請求項3に記載の音源定位方法。
  5. 音源定位を行うステップは、P個のパーティクルをサンプルするステップと、各パーティクルについて重みを計算するステップと、各パーティクルの重みを正規化するステップと、各パーティクルの重みを使用してリサンプリングを行うステップと、を含む請求項3または4に記載の音源定位方法。
JP2011182774A 2011-08-24 2011-08-24 音源定位システム及び音源定位方法 Active JP5629249B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011182774A JP5629249B2 (ja) 2011-08-24 2011-08-24 音源定位システム及び音源定位方法
US13/590,624 US20130051569A1 (en) 2011-08-24 2012-08-21 System and a method for determining a position of a sound source

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011182774A JP5629249B2 (ja) 2011-08-24 2011-08-24 音源定位システム及び音源定位方法

Publications (2)

Publication Number Publication Date
JP2013044950A JP2013044950A (ja) 2013-03-04
JP5629249B2 true JP5629249B2 (ja) 2014-11-19

Family

ID=47743763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011182774A Active JP5629249B2 (ja) 2011-08-24 2011-08-24 音源定位システム及び音源定位方法

Country Status (2)

Country Link
US (1) US20130051569A1 (ja)
JP (1) JP5629249B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105336335B (zh) * 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
JP6603919B2 (ja) * 2015-06-18 2019-11-13 本田技研工業株式会社 音声認識装置、および音声認識方法
WO2017108097A1 (en) * 2015-12-22 2017-06-29 Huawei Technologies Duesseldorf Gmbh Localization algorithm for sound sources with known statistics
JP6538624B2 (ja) * 2016-08-26 2019-07-03 日本電信電話株式会社 信号処理装置、信号処理方法および信号処理プログラム
JP6982966B2 (ja) * 2017-03-14 2021-12-17 大成建設株式会社 音源探査装置
CN108564171A (zh) * 2018-03-30 2018-09-21 北京理工大学 一种基于快速全局k均值聚类的神经网络声源角度估计方法
CN117496997B (zh) * 2023-12-27 2024-04-05 湘江实验室 基于惩罚机制的声源检测方法、装置及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
EP1473964A3 (en) * 2003-05-02 2006-08-09 Samsung Electronics Co., Ltd. Microphone array, method to process signals from this microphone array and speech recognition method and system using the same
KR100586893B1 (ko) * 2004-06-28 2006-06-08 삼성전자주식회사 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
US8275148B2 (en) * 2009-07-28 2012-09-25 Fortemedia, Inc. Audio processing apparatus and method

Also Published As

Publication number Publication date
JP2013044950A (ja) 2013-03-04
US20130051569A1 (en) 2013-02-28

Similar Documents

Publication Publication Date Title
JP5629249B2 (ja) 音源定位システム及び音源定位方法
US7626889B2 (en) Sensor array post-filter for tracking spatial distributions of signals and noise
KR100486736B1 (ko) 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
JP4912778B2 (ja) 信号源の軌跡をモデル化する方法及びシステム
Vu et al. Blind speech separation employing directional statistics in an expectation maximization framework
JP4248445B2 (ja) マイクロホンアレイ方法及びシステム、並びにこれを用いた音声認識方法及び装置
US7583808B2 (en) Locating and tracking acoustic sources with microphone arrays
EP2530484B1 (en) Sound source localization apparatus and method
JP3812887B2 (ja) 信号処理システムおよび方法
Taseska et al. Blind source separation of moving sources using sparsity-based source detection and tracking
Varzandeh et al. Exploiting periodicity features for joint detection and DOA estimation of speech sources using convolutional neural networks
Traa et al. Multichannel source separation and tracking with RANSAC and directional statistics
Brutti et al. Tracking of multidimensional TDOA for multiple sources with distributed microphone pairs
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
Hadad et al. Multi-speaker direction of arrival estimation using SRP-PHAT algorithm with a weighted histogram
CN114616483A (zh) 声源定位设备、声源定位方法和程序
CN116106826A (zh) 声源定位方法、相关装置和介质
Zhagyparova et al. Supervised learning-based sound source distance estimation using multivariate features
JP2019184747A (ja) 信号分析装置、信号分析方法および信号分析プログラム
Zaken et al. Neural-Network-Based Direction-of-Arrival Estimation for Reverberant Speech-the Importance of Energetic, Temporal and Spatial Information
Sun et al. Indoor sound source localization and number estimation using infinite Gaussian mixture models
Li et al. Robust speech dereverberation based on wpe and deep learning
US11425495B1 (en) Sound source localization using wave decomposition
Nagira et al. Complex extension of infinite sparse factor analysis for blind speech separation
JP6082679B2 (ja) 信号源数推定装置、信号源数推定方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141003

R150 Certificate of patent or registration of utility model

Ref document number: 5629249

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250