JP2010212818A - 複数のマイクロフォンにより受信された多チャンネル信号の処理方法 - Google Patents

複数のマイクロフォンにより受信された多チャンネル信号の処理方法 Download PDF

Info

Publication number
JP2010212818A
JP2010212818A JP2009054316A JP2009054316A JP2010212818A JP 2010212818 A JP2010212818 A JP 2010212818A JP 2009054316 A JP2009054316 A JP 2009054316A JP 2009054316 A JP2009054316 A JP 2009054316A JP 2010212818 A JP2010212818 A JP 2010212818A
Authority
JP
Japan
Prior art keywords
sound source
time difference
microphone
time
recording start
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009054316A
Other languages
English (en)
Inventor
Junki Ono
順貴 小野
Shigeki Sagayama
茂樹 嵯峨山
Hitoshi Kono
仁 河野
Yasuhiro Mochida
康弘 持田
Nobutaka Ito
信貴 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Priority to JP2009054316A priority Critical patent/JP2010212818A/ja
Publication of JP2010212818A publication Critical patent/JP2010212818A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

【課題】
音源とマイクロフォンの空間位置、及び各受信信号の時間原点が未知の状態から、観測信号のみを用いてそれらのパラメータを推定する。
【解決手段】
複数のマイクロフォンで受信された録音開始時間が未知の多チャンネル信号の処理方法であって、各マイクロフォンで受信された多チャンネル信号の仮同期を取るステップと、仮同期された複数の受信信号において、2チャンネル間の受信信号の時間差を検出するステップと、検出された時間差と、音源位置、マイクロフォン位置、録音開始時刻から理論的に導かれる時間差の推定値と、の誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定するステップと、からなる信号処理方法。
【選択図】図1

Description

本発明は、マイクロフォンアレイ信号処理に関するものである。
複数のマイクロフォンを空間的に配置し、複数のマイクロフォンによって受信された複数の受信信号を処理することによって、音源定位や音源分離、雑音抑制などを行うマイクロフォンアレイ信号処理においては、通常、各マイクロフォンの位置が既知であり、かつ各受信信号が時間的に同期している必要がある。そのため、従来は、マイクロフォンをフレームやマウントに固定し、各受信信号をA/D変換器により同期させたシステムを用いるのが一般的であった。
一方で、我々の身の回りにはPCや携帯電話内蔵のマイクロフォンやICレコーダなどの録音機器が多数存在する。このような分散した録音機器を用いてアレイを構成することが可能になれば、アレイ信号処理技術の応用範囲が格段に広がると考えられる。
しかしながら、このような独立した録音機器を使用する場合、互いの位置関係は未知であるし、時間軸での同期も取れていないのが普通である。
これに対して、小林らは、マイクロフォン位置が未知であっても、観測信号からマイクロフォンと音源の空間位置を同時推定する手法を提案した(特許文献1、特許文献2、非特許文献1)。
より具体的には、例えば特許文献1には、複数のチャネルの受音信号から、前記複数のチャネルのうち2チャネル間のチャネル間受音時間差の実測値を求めるチャネル間時間差推定段階と、推定音源位置と推定受音位置から求められるチャネル間受音時間差の推定値と、前記チャネル間受音時間差の実測値間の誤差を最小化することで、音源位置と受音位置を推定する位置推定段階とを有する音源受音位置推定方法、が開示されている。
しかしながら、各録音機器における受信信号は同期が取られていると仮定していた。
すなわち、音源の位置情報の取得や混合音の分離を目的として、アレイ信号処理は盛んに研究され、また実用化もされつつある技術であるが、音源の定位においても分離においてもチャネル間の時間差が重要な情報であり、これを精度よく取得するために、従来の技術においては多チャネル信号の録音開始時間が同期していることが必要であった。
特許第3720795号 特開2007−81455号
小林和則、古家賢一、片岡章俊、"位置が未知である複数マイクロホンを用いたブラインド音源位置推定"、電子情報通信学会論文誌、Vol. 86, No. 6, pp.619−627, 2003.
本発明は、観測された多チャンネル信号の録音開始時間が未知であっても、観測信号のみから音源位置、マイクロフォンの位置、録音開始時間のうちの未知数を推定することを目的とするものである。
本発明の1つの実施形態の目的は、多チャンネル信号の録音開始時間が未知であっても、観測信号のみから音源位置、マイクロフォンの位置、録音開始時間を推定することにある。
本発明が採用した技術手段は、
複数のマイクロフォンで受信された録音開始時間が未知の多チャンネル信号の処理方法であって、
各マイクロフォンで受信された多チャンネル信号の仮同期を取るステップと、
仮同期された複数の受信信号において、2チャンネル間の受信信号の時間差を検出するステップと、
検出された時間差と、音源位置、マイクロフォン位置、録音開始時刻から理論的に導かれる時間差の推定値と、の誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定するステップと、
からなる信号処理方法、である。
1つの態様では、録音開始時刻、音源位置、マイクロフォン位置の全てが未知数であり、観測信号のみを用いて音源位置、マイクロフォンの位置、録音開始時間を同時に推定する。
「多チャンネル信号の仮同期を取る」とは、同じ音源から到来してきた音成分を多チャンネル信号間で対応付けることを可能にする程度に、多チャンネル信号の録音開始時刻の差を小さくする操作を意味する。仮同期を取るステップの目的は、観測信号間の録音開始時刻の差を大まかに補償し、次の時間差検出ステップにおいて、同じ音源から到来してきた音を観測信号間で対応づけることができるようにすることである。すなわち、仮同期を取るステップは、各マイクロフォンで受信された多チャンネル信号の録音開始時刻の差を小さくし、同じ音源から到来してきた音成分を多チャンネル信号間で対応付けることを可能にするステップであり、時間差を検出するステップは、対応付けられた音成分に関して、2チャンネル間の時間差を検出するステップである。
1つの態様では、仮同期は、相互相関関数のピークから取得する時間差(平均的時間差と言う)を用いて信号の時間軸をずらし、観測信号間の時間原点を大まかに揃える操作によって行われ、本明細書では、これを平均的時間同期と称する。すなわち、1つの態様では、同期を取るステップは、相互相関関数のピーク検出により、各受信信号間の平均的な時間差を求め、この平均時間差が0になるように各受信信号を時間軸上でシフトすることにより時間同期をとるものである。
同期を取るステップにおいて、相互相関関数の計算に必要な要件は、「相互相関関数のピークが明確に現れるために、十分に長く、かつ、意味のある音源信号が含まれているような(無音区間であればいくら長く含まれていても意味がない)時間区間であること」である。この時間区間は、必ずしも全時間区間である必要はなく、また、録音開始時刻を含む必要もなく、また、全ての音源信号を含む必要もない。
仮同期を取るステップの態様については、時間信号波形の相互相関ピークを検出する以外にも、信号の包絡線(エンベロープ)間の相互相関のピーク検出、スペクトログラム間の相互相関のピーク検出等によることが可能であることは当業者に理解される。また、仮同期を取る手段は相互相関関数を用いるものに限定されるものではないことも当業者に理解される。
1つの態様では、前記時間差を検出するステップは、
受信信号を短時間のフレームに分割し、単一音源の信号のみが観測できると思われるフレームを選択し、フレーム毎に受信信号間の時間差を検出する。
フレーム毎に時間差を求める場合には、1つの態様では、ある時間フレームで全ての周波数の情報を用いて1つの時間差を求めるが、別の態様では、ある時間フレーム、ある周波数の成分1つから、1個の時間差を推定する、「時間周波数毎」に時間差を検出してもよい。
すなわち、1つの、もしくは複数の時間周波数成分毎に時間差を求める、というやり方でよく、複数のとり方が1つの時間フレームで全周波数成分、となったのが「フレーム毎」で、他の複数の取り方でもよい。
本発明に用いられる相互相関関数としては、通常の相互相関関数に限定されるものではなく、例えば、フィルタリングした相互相関関数のピークを求める「一般化相互相関法」でもよい。
また、時間差を求める手段は相互相関関数を用いるものに限定されるものではなく、周波数成分毎に位相差から時間差の候補値を求め、それらのヒストグラムをつくって最も大きな票を獲得した値を時間差とする「投票法」、観測信号に含まれる誤差の確率モデルを仮定し最も確からしい時間差を尤度という評価基準を最大化することにより求める「最尤推定法」などが適用され得ることが当業者に理解される。ここでの相互相関関数を用いない時間差を求める手段は、時間差検出ステップのみならず、仮同期を取るステップにも適用し得る。
1つの態様では、未知数を推定するステップは、前記誤差を規定する評価関数J(Θ)を用意し、最適化手段によって評価関数J(Θ)を最小化するパラメータを推定することによって行なわれる。
1つの態様では、前記誤差は、
である。
ここで、
εimn:検出された時間差と時間差の推定値との誤差、
s:音源の位置ベクトル、
r:マイクロフォンの位置ベクトル、
t:マイクロフォンの時間原点(録音開始時刻)、
i:音源の序数、
m,n:マイクロフォンの序数、
τimn:音源iから到来する信号をマイクロフォンm、nで観測し、信号間の時間差を検出したと仮定した場合に、n番目の信号を基準にしたときのm番目の信号時間遅れ、
c:音速、
である。
1つの態様では、評価関数
を最適化計算によって最小化することにより、未知パラメータΘを決定する。
ここで、
K:音源数、
L:マイクロフォン数、である。
1つの態様では、第3ステップを実行するために用いられる最適化計算としては、いわゆる補助関数法が用いられる。
前記評価関数に対して、補助関数
を適用し、
前記補助関数から導出される以下の更新式
によってパラメータを反復的に推定する。
ここで、
μ、e:補助変数、である。
補助関数法を用いることで、未知パラメータsi,rj,tjについて効率的に解くことができるが、本発明において用いられる最適化計算は、補助関数法を用いる手法に限定されるものではない。例えば、勾配法(共役勾配法、最急降下法を含む)、ニュートン法、準ニュートン法、あるいはこれらの近似手法や変形手法、あるいはその他の最適化アルゴリズムを用いて評価関数J(Θ)を減少させるパラメータΘを反復的に求めてもよい。
本発明は、複数のマイクロフォンで受信された録音開始時間が未知の多チャンネル信号の処理装置としても提供され、
各マイクロフォンで受信された多チャンネル信号の仮同期を取る手段と、
仮同期された複数の受信信号において、2チャンネル間の受信信号の時間差を検出する手段と、
検出された時間差と、音源位置、マイクロフォン位置、録音開始時刻から理論的に導かれる時間差の推定値と、の誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定する手段と、
からなる信号処理方法、である。
本発明の各ステップや各手段を実行するハードウエア構成としては、パーソナルコンピュータ等のコンピュータ(具体的には、入力部、出力部(表示部を含んでいても良い)、CPU、記憶装置(ROM、RAM等)、これらを接続するバス等、を備えている。)から構成することができる。
したがって、本発明は、
複数のマイクロフォンで受信された録音開始時間が未知の多チャンネル信号から、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定するためにコンピュータを、
各マイクロフォンで受信された多チャンネル信号の仮同期を取る手段と、
仮同期された複数の受信信号において、2チャンネル間の受信信号の時間差を検出する手段と、
検出された時間差と、音源位置、マイクロフォン位置、録音開始時刻から理論的に導かれる時間差の推定値と、の誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定する手段と、
して実行させるためのコンピュータプログラムとしても提供される。
本発明によれば、多チャンネル信号の録音開始時間が未知であっても、観測信号のみから音源位置、マイクロフォンの位置、録音開始時間を同時推定することができる。
音源定位や音源分離、ロボット聴覚など、潜在的な応用が多数あるが、いままでは時間同期した多チャンネル信号を取得することが前提であったため、マイクロフォンアレイには大きな制約があった。本発明は、PC内蔵マイクロフォン、ICレコーダなど、個々に独立している録音機器をマイクロフォンアレイとして構成するための基礎技術であり、マイクロフォンアレイによる音源定位や音源分離の適用範囲を格段に広げるほか、ネットワーク化と結びついた音によるセキュリティやモニタリングなどの新しい応用にもつながるものである。
本発明の概要を示す図である。 時間原点と各マイクロフォンの時間軸の対応を示す図である。 マイクロフォンの観測信号1を示す図である。 マイクロフォンの観測信号2を示す図である。 時間原点のずれた観測信号を示す図である。 平均的時間同期の取れた観測信号を示す図である。 フレーム分割された観測信号を示す図である。 単一音フレームの正規化相互相関関数を示す図である。 図4から選択されたあるフレームを拡大して示す図である。 左図は、正規化相互相関関数のピーク近傍3点を示し、右図は、補間されたピークを示す。 補助関数法の原理図である。 マイクロフォン位置の推定結果を示す図である。 音源位置の推定結果を示す図である。
本発明の1つの実施形態では、音源とマイクロフォンの空間位置、各録音機器の録音時間原点が全て未知の状態から、観測信号のみを用いてこれらを同時推定する。
本実施形態では、以下の3段階により、音源位置、マイクロフォンの位置、録音開始時刻の同時推定を実現する。
(1)観測信号の平均時間同期
相互相関関数のピーク検出により、各観測信号間の平均的な時間差を求め、この平均時間差が0になるように信号を時間軸上でシフトすることにより時間同期をとる。
(2)フレーム毎の単一音源検出と時間差検出
観測信号を短時間のフレームに分割し、単一音源の信号のみが観測できると思われるフレームを選択し、フレーム毎に観測信号間の時間差を検出する。
(3)未知数の反復推定
検出された時間差が、理論式を満たすように、音源位置、マイクロフォン位置、録音開始時刻を反復的に推定する。
以下に、本実施形態について詳細に説明する。
[A]本実施形態のアプローチ
以下では、K個の音源からの音響信号をL個のマイクロフォンで観測するものとし、音源、マイクロフォンの位置をそれぞれsi=(xi yi zi)t(1≦i≦K),rn=(un vn wn)t(1≦n≦L)で表す。ただしtは転置を表す。またtnは、ある規準時計で測ったn番目のマイクロフォンの録音開始時刻(時間原点)とし、各録音機器での時刻の進み方は等しいことを仮定する。
si,rn,tnがすべて未知の状況から、各マイクロフォンの観測信号のみを用いて、これらのすべてのパラメータを推定することが目的である。
音源やマイクロフォンの位置推定においては、観測信号間の時到来間差を取得することが重要である。いま、音源iから到来する信号をマイクロフォンm,nで観測し、それぞれのマイクロフォンの時間軸における到来時間を、図1Aに示すように、tm i,tn iとする。tm i,tn iは観測可能な量であり、これらの差を取ることにより、音源iに関して、n番目の信号を基準にしたときのm番目の信号の見かけの時間遅れ、すなわち観測信号間の時間差τimnが次のように求まる。
観測量τimnを既に定義したパラメータsi,rn,tnを用いて表すことを考える。基準時計で測った、マイクロフォンm,nにおける音源iからの信号の到来時間はそれぞれ(tm+tm i),(tn+tn i)となるので、cを音速として
従って
と表わされる。式(3)の右辺は理論的な式であり、右辺の第1項が真の時間差、第2項が録音開始時刻のずれを意味している。
各観測信号が同期しており、式(3)の第2項が0の場合には、この時間差の整合性がとれるようにすることで音源位置とマイクロフォン位置を同時推定する手法が提案されている(特許文献1、2、非特許文献1)。しかしながら観測信号から求めた時間差に未知の録音開始時刻の差も含まれる場合には一見、有効な情報は得られないようにも思われる。よってここではまず、解が求まりうる条件として、観測量の数と未知数の関係について述べる。
観測量は各観測信号間の時間差τimnであり、1つの音源に対しL−1個の時間差が独立な観測量となる。一方未知数は、音源とマイクロフォンの3次元位置(xi,yi,zi)、(un,vn,zn)と録音開始時刻tn(ただし1≦i≦K,1≦n≦L)であるが、時間差に基づく推定の場合にはいずれも相対的にしか決まらず、基準時計の選び方の1自由度と絶対座標系の選び方の並進と回転の6自由度は決まらないことに注意すると、観測量からこれらの未知数が決定されるためには少なくとも以下を満たす必要がある。
整理すると、
となる。
[B]観測量の取得
式(3)に示したように、検出される時間差には、
1)録音開始時刻の相違による時間差
2)音源信号とマイクロフォンの位置関係による到来時間差
の2つが含まれている。
1)に関してはどの程度の値になるのか、事前に予測することが難しい。一方、2)は音源ごとに異なる値を取り、音源とマイクロフォン間の最大距離をDとすると、その絶対値は高々D/cを超えない。たとえば会議室などで、ディスカッションの内容を録音する場合、D=10[m]とすれば十分で、このときD/c=3.0×10-2[s]である。それに対し、録音開始時間は数秒から数分のずれが予想されるので、1)と2)はオーダーが異なると考えてよい。
従って、効率的に時間差を検出するために、まず1)を大まかに補償し、観測信号の大まかなアラインメントを取った後、2)を求める事を考える。2)を求める際には、観測信号をフレームに分割するのが有効であると考えられる。また、音源位置、マイクロフォン位置、時間原点を推定する上では、1)は後で補償すればよく、2)を観測量として用いれば十分である。よって本実施態様では、以下のような時間差検出アルゴリズムを用いる。
ステップ1:観測信号の平均的時間同期
ある1つの観測信号と、他の全ての観測信号との相互相関関数を全時間区間を用いて計算し、そのピークから求まる平均的時間差に基づき、観測信号間の大まかなアラインメントをとる。
ステップ2:観測信号のフレーム分割
D/cに対して十分大きいフレーム長を選び、観測信号をフレーム分割する。
ステップ3:フレームごとの単一音検出と時間差検出
フレーム毎に観測信号間で正規化した相互相関関数を計算し、そのピーク値がある閾値を超えていたら、有意な単一音が含まれているフレームと判断し、そのピーク位置から観測信号間時間差を検出する。
各ステップについて詳細を述べる。
[B−1]観測信号の平均的時間同期
観測信号として、図2A、図2B・・・のような波形がL個得られたとして、それらをwi(n)(1≦i≦L)とする。またそれぞれの観測信号のサンプリング周波数をfiとし、各観測信号の末尾に0を付加するなどしてあらかじめ、サンプル点数はNとしておくものとする。これらを重ねてプロットすると図3Aのようになり、各観測信号間で、各音源からの信号の対応を知ることは不可能に近い。
そこで観測信号間の相互相関関数を利用することを考える。wi(n)とwj(n)の相互相関関数を次のように定義する。
w1(n)を基準観測信号とし、w1(n)とwj(n)(1≦j≦L)の相互相関関数Rj1(m)(1≦j≦L)を計算する。
とすれば、(mj−N−1)/fjがw1(n)に対するwj(n)の平均的な時間差である。これをもとに観測信号の大まかなアラインメントを取る。すると図3Bのようになり、観測信号間での各音源空の信号の対応が明らかとなる。
[B−2]観測信号のフレーム分割
次に音源ごとにマイクロフォン間での時間差を検出するために、図3Bをフレームに等分割する。前述のようにマイクロフォンと音源の最大距離をDとすると、ある音源を2つのマイクロフォン間で観測した場合の、到来時間差はD/cを超えない。従ってフレーム長はD/cよりも大きい必要がある。この事に注意してフレーム長を選択し、フレームに等分割を行ったものが図4である。各観測信号をQ個のフレームに分割したとして、wi(n)のq(1≦q≦Q)番目のフレームをwi (q)(n)としておく。
[B−3]フレームごとの単一音検出と時間差検出
単一音のみを含むフレームを検出するために、各フレームにおいて、すべての観測信号のペアについて正規化相互相関関数を計算する。すなわちq=1,2 ・・・,Qに対して、wi(q)(n)の平均をw(バー)i (q)で表すと、
を計算する。
もしwi (q)(n),wj (q)(n)が単一音のみを含んでいるならばRij (q)(m)は図5のように鋭いピークを持ち、逆に単一音を含まない、もしくは複数音を含んでいるような場合は、鈍いピークを持つ。従って単一音を含むフレームを検出するには、そのピーク値で判断することは妥当である。
として、ピーク値に関する閾値I(0<I<1)を設定する。そして任意のi,jについてpij (q)>Iならば、q番目のフレームは単一音のみを含むフレームとして検出することにする。
次に単一音が検出されたフレームについて、時間差を検出することを考える。より精度よく時間差を検出するために、Rij (q)(m)のピーク近傍3点を見てみると、一般的に図7左図のようになっていると考えられる。近傍ではTaylor展開の2次の項までで近似すれば十分なので図7右図のように、これら3点を通る2次関数fij (q)(m)でフィッティングを行い、
とすれば、それがRij (q)(m)のピークを与える真のmの推定値であり、(mij (q)−N/Q−1)/fiがq番目のフレームに含まれる音源に関して、マイクロフォンjに対するマイクロフォンiでの到来時間差である。従ってこれをτqijとして、時間差を検出できたことになる。
[C]反復解法の導出
[C−1]評価関数の設定
理論式である式(3)の二乗誤差:
を最小化することにより、未知パラメータΘ={si,rn,tn|1≦i≦K,1≦n≦L}を決定することを考える。
すなわち、観測量τimn(音源iに関する、マイクロフォンnに対するmの到来時間差)を用いて、未知数である音源の位置ベクトルs、マイクロフォンの位置ベクトルr、マイクロフォンの時間原点(録音開始時間)t、を推定する。
[C−2]補助関数法
本実施形態では、式(11)を最小化する解を効率的に求めるために補助関数法と呼ばれる最適化手法を用いる。
評価関数J(Θ)に対して、
が成立するとき、J+(Θ,Θ+)をJ(Θ)の補助関数、Θ+を補助変数と定義する。すると次が成り立つ。
(定理1)
補助関数J+(Θ,Θ+)を、Θ+に関して最小化するステップ、Θに関して最小化するステップを繰り返すことで、評価関数J(Θ)を単調減少させることができる(図8参照)。
補助関数法の詳細については、例えば、下記文献を参照することができる。
H. Kameoka, N. Ono, and S. Sagayama, “Auxiliary
functional approach to parameter estimation of constrained sinusoidal model for
monaural speech separation,” Proc. ICASSP, pp. 29-32,2008.
[C−3]補助関数法による未知数の分解
εimnはrn,tnに関して異なる添え字の項を含んでいる。これらを分解するために次の定理を用いる。
(定理2)
Σn=1 Nan=Bの下では、
である。また、等号は、
の場合に成り立つ。
ここで、
とおけば、定理1より、
であり、J(Θ)の補助関数として次を考える。
J≦Jであり、等号は次のとき成立する。
ここでさらに、
とすると、
とかける。μimn m,μimn nは、いわば、次の更新時における|si−rm|,|si−rn|の目標値であり、現在の推定に含まれる誤差εimnを等分割してこれらの値を修正しようとしていることに相当する。なおこの場合の等号成立は次である。
[C−4]絶対値関数の補助関数
J1はtnについては解析的に解けるが、si,rnについては未だ絶対値記号を含んでいるため難しい。そこでこれを微分しやすい形で置き換えるため、次の定理に着目する。
(定理3)
任意のベクトルxと単位ベクトルe、任意の非負の実数aに対して
が成り立つ。等号成立条件はa=0もしくはe=x/|x|である。
これを用いると、式(25)の右辺に関して、
が成り立つので、J1(Θ,μ)の補助関数として、
を考えることができる。J1≦J2であり、等号は次のとき成立する。
J2はsi,rnについても解析的に解けるので、所望のJの補助関数J2を得ることができた。
[C−5]反復解法式の導出
si,rnについて、J2を偏微分して更新式を導出する。
すなわち、
すなわち、
tnについては、J1の式(20)の表現を偏微分することにより、
すなわち、
ここで式(23)と式(24)の辺々を加えて、
以上で、各パラメータsi,rn,tnの反復解法式を得た。
ここで、p回目の反復後の各パラメータsi,rn,tnを、si (p),rn (p),tn (p)とすると、上述の議論で得た反復解法式は、まとめると次である。
[C−6]パラメータ推定アルゴリズム
パラメータの計算の順序に関しては、1)補助変数μを計算、2)tの更新、3)補助変数eを計算、4)s,rの更新、を繰り返し、反復を行う。
より具体的には、パラメータ推定の計算については以下の順序で行う。
(p)はsやrを繰り返し計算するうちのp番目の計算結果を示している。
Step1:εimn (p)を式(47)によって計算する。
Step2:μimn m(p),μimn n(p)を式(45)、式(46)によって計算する。
Step3:tn (p+1)を式(43)によって更新する。
Step4:eim (p),ein (p)を式(44)によって計算する。
Step5:si (p+1)を式(41)によって更新する。
Step6:rn(p+1)を式(42)によって更新する。
Step7:Step1に戻る。
[D]評価実験
[D−1]
式(11)を最小化することで、音源位置、マイクロフォン位置、時間原点の同時推定が可能であるかどうか検証するために行った、基礎実験の結果を示す。10×10×10[m3]の室内を想定し、ほぼ無響環境の球面波伝播を計算機上でシミュレーションした。音源数は8、マイクロフォン数は9とし、位置は乱数で決定した。各音源信号は1回の拍手の音を録音したものを用い、互いに重ならず、単一音源が観測できる条件を仮定した。サンプリング周波数は44100[Hz]、信号長は5.0[s]とし、時間原点のずれとして、1.0[s]以内のランダムな時間差を各観測信号に与えた。シミュレーションで得られた観測信号に対し、大まかなアラインメントを求めた後、フレーム長100[ms](>D/c≒50[ms])のフレームに分割し、有意な音響信号が含まれているフレームから時間差を検出し、各パラメータの初期値を乱数で与えて、反復解法による推定を行った。反復回数は60000回とした。
[D−2]
マイクロフォン、音源の位置推定に関して、xy座標をプロットしたものをそれぞれ図9、図10に示す。時間原点が未知の観測信号から、ほぼ正しくマイクロフォン位置、音源位置が推定されていることがわかる。また、時間原点の推定誤差の標準偏差は1.0[ms]であり、こちらもほぼ正しく推定されていることを確認した。
[E]音源数とマイクロフォン数との関係についての考察
上記実施形態では、音源とマイクロフォンの空間位置、各録音機器の録音時間原点が全て未知の状態から、観測信号のみを用いてこれらを同時推定することを論じた。実際の環境では、これらの未知数のうちの一部の値が既知の場合もあり得ることであり、以下場合を分けて本発明の推定における必要条件について論じる。
[E−1]場合分け1(音源、マイクの高さによるもの)
音源、マイクの高さ情報による場合分けを考える。会議などの場では音源やマイクの高さがそろっている場合は十分考えられるので有効な場合分けだと考えられる。
K:音源数、L:マイク数、である。
以下にまとめる。
[E−2]場合分け2(ステレオマイクを用いる場合)
ICレコーダなどのステレオマイクを1組以上用いるものについても検討する。ICレコーダやPC内蔵マイクロフォンはほとんどがステレオマイクであり、この場合分けは非常に実用的であると考えられ、また条件を大幅に緩和できる。
q組のステレオマイクを用いている場合には、ICレコーダなどのステレオマイクは、2つのマイクロフォン間の距離を事前に知ることができ、また2つのマイクロフォン間で時間同期であることから、1組につき自由度を2減らすことができるので上記のようになる。
以下にまとめる。
本発明は、PC内蔵マイクロフォン、ICレコーダなど、個々に独立している録音機器をマイクロフォンアレイとして構成するための基礎技術として利用することができる。より具体的には、マイクロフォンアレイによる音源定位、音源分離、雑音抑制に適用され得る。本発明は、また、ネットワーク化と結びついた音によるセキュリティやモニタリングなどの新しい応用にもつながる。より具体的には、音源定位を利用してGPSのようなシステム、銃声や爆発音などの定位を例示することができる。

Claims (11)

  1. 複数のマイクロフォンで受信された録音開始時間が未知の多チャンネル信号の処理方法であって、
    各マイクロフォンで受信された多チャンネル信号の仮同期を取るステップと、
    仮同期された複数の受信信号において、2チャンネル間の受信信号の時間差を検出するステップと、
    検出された時間差と、音源位置、マイクロフォン位置、録音開始時刻から理論的に導かれる時間差の推定値と、の誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定するステップと、
    からなる信号処理方法。
  2. 録音開始時刻、音源位置、マイクロフォン位置の全てが未知数であり、音源位置、マイクロフォンの位置、録音開始時間を同時に推定する、請求項1に記載の信号処理方法。
  3. 前記仮同期を取るステップは、
    相互相関関数のピーク検出により、各受信信号間の平均的な時間差を求め、この平均時間差が0になるように各受信信号を時間軸上でシフトすることにより時間同期をとる、
    請求項1、2いずれかに記載の信号処理方法。
  4. 前記時間差を検出するステップは、
    受信信号を短時間のフレームに分割し、単一音源の信号のみが観測できると思われるフレームを選択し、フレーム毎に受信信号間の時間差を検出する、
    請求項1乃至3いずれかに記載の信号処理方法。
  5. 前記未知数を推定するステップは、前記誤差を規定する評価関数を用意し、最適化手段によって前記評価関数を最小化するパラメータを推定することによって行なわれ、
    前記最適化手段は、補助関数法、勾配法(共役勾配法、最急降下法を含む)、ニュートン法、準ニュートン法からなる群から選択されたいずれかの手段である、
    請求項1乃至4いずれかに記載の信号処理方法。
  6. 前記誤差は、
    である、請求項1乃至5いずれかに記載の信号処理方法。
    ここで、
    εimn:検出された時間差と時間差の推定値との誤差、
    s:音源の位置ベクトル、
    r:マイクロフォンの位置ベクトル、
    t:マイクロフォンの時間原点(録音開始時刻)、
    i:音源の序数、
    m,n:マイクロフォンの序数、
    τimn:音源iから到来する信号をマイクロフォンm、nで観測し、信号間の時間差を検出したと仮定した場合に、n番目の信号を基準にしたときのm番目の信号時間遅れ、
    c:音速、
    である。
  7. 評価関数
    を最適化計算によって最小化することにより、未知パラメータΘを決定する、請求項6に記載の信号処理方法。
    ここで、
    K:音源数、
    L:マイクロフォン数、である。
  8. 前記評価関数に対して、補助関数
    を適用し、
    前記補助関数から導出される以下の更新式
    によってパラメータを反復的に推定する、請求項7に記載の信号処理方法。
    ここで、
    μ、e:補助変数、である。
  9. 複数のマイクロフォンで受信された録音開始時間が未知の多チャンネル信号の処理装置であって、
    各マイクロフォンで受信された多チャンネル信号の仮同期を取る手段と、
    仮同期された複数の受信信号において、2チャンネル間の受信信号の時間差を検出する手段と、
    検出された時間差と、音源位置、マイクロフォン位置、録音開始時刻から理論的に導かれる時間差の推定値と、の誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定する手段と、
    からなる信号処理方法。
  10. 複数のマイクロフォンで受信された録音開始時間が未知の多チャンネル信号から、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定するためにコンピュータを、
    各マイクロフォンで受信された多チャンネル信号の仮同期を取る手段と、
    仮同期された複数の受信信号において、2チャンネル間の受信信号の時間差を検出する手段と、
    検出された時間差と、音源位置、マイクロフォン位置、録音開始時刻から理論的に導かれる時間差の推定値と、の誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定する手段と、
    して実行させるためのコンピュータプログラム。
  11. 時間差の観測値と時間差の推定値との誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定する方法であって、
    前記推定は、評価関数
    を最適化計算によって最小化することにより、未知パラメータΘを決定するものであり、
    前記評価関数に対して、補助関数
    を適用し、
    前記補助関数から導出される以下の更新式
    によってパラメータを反復的に推定する、信号処理方法。
    ここで、
    s:音源の位置ベクトル、
    r:マイクロフォンの位置ベクトル、
    t:マイクロフォンの時間原点(録音開始時刻)、
    i:音源の序数、
    m,n:マイクロフォンの序数、
    τimn:音源iから到来する信号をマイクロフォンm、nで観測し、信号間の時間差を検出したと仮定した場合に、n番目の信号を基準にしたときのm番目の信号時間遅れ、
    c:音速、
    K:音源数、
    L:マイクロフォン数
    εimn:検出された時間差と時間差の推定値との誤差、
    μ、e:補助変数、
    である。
JP2009054316A 2009-03-08 2009-03-08 複数のマイクロフォンにより受信された多チャンネル信号の処理方法 Pending JP2010212818A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009054316A JP2010212818A (ja) 2009-03-08 2009-03-08 複数のマイクロフォンにより受信された多チャンネル信号の処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009054316A JP2010212818A (ja) 2009-03-08 2009-03-08 複数のマイクロフォンにより受信された多チャンネル信号の処理方法

Publications (1)

Publication Number Publication Date
JP2010212818A true JP2010212818A (ja) 2010-09-24

Family

ID=42972579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009054316A Pending JP2010212818A (ja) 2009-03-08 2009-03-08 複数のマイクロフォンにより受信された多チャンネル信号の処理方法

Country Status (1)

Country Link
JP (1) JP2010212818A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103698748A (zh) * 2013-12-16 2014-04-02 南京航空航天大学 复合材料中基于信号波速与衰减补偿的2d-music冲击定位方法
JP2014174393A (ja) * 2013-03-11 2014-09-22 Research Organization Of Information & Systems 音声信号処理装置及び方法
JP2016532105A (ja) * 2013-07-22 2016-10-13 ブリュール アンド ケーア サウンド アンド バイブレーション メジャーメント アクティーゼルスカブ 広周波数帯域音響ホログラフィ
JP2017067948A (ja) * 2015-09-29 2017-04-06 本田技研工業株式会社 音声処理装置および音声処理方法
WO2017061023A1 (ja) * 2015-10-09 2017-04-13 株式会社日立製作所 音声信号処理方法および装置
JP2019004465A (ja) * 2017-06-12 2019-01-10 ヤマハ・ユニファイド・コミュニケーションズ 収音装置、及び収音方法
JP2020043456A (ja) * 2018-09-10 2020-03-19 本田技研工業株式会社 音響処理装置、音響処理方法およびプログラム
JP2020141232A (ja) * 2019-02-27 2020-09-03 本田技研工業株式会社 マイクロホンアレイ位置推定装置、マイクロホンアレイ位置推定方法、およびプログラム
CN116184318A (zh) * 2023-05-04 2023-05-30 苏州大学 一种基于瞬态双时间序列触发法的实时声源定位方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014174393A (ja) * 2013-03-11 2014-09-22 Research Organization Of Information & Systems 音声信号処理装置及び方法
JP2016532105A (ja) * 2013-07-22 2016-10-13 ブリュール アンド ケーア サウンド アンド バイブレーション メジャーメント アクティーゼルスカブ 広周波数帯域音響ホログラフィ
CN103698748A (zh) * 2013-12-16 2014-04-02 南京航空航天大学 复合材料中基于信号波速与衰减补偿的2d-music冲击定位方法
JP2017067948A (ja) * 2015-09-29 2017-04-06 本田技研工業株式会社 音声処理装置および音声処理方法
US20190035418A1 (en) * 2015-10-09 2019-01-31 Hitachi, Ltd. Sound signal processing method and device
WO2017061023A1 (ja) * 2015-10-09 2017-04-13 株式会社日立製作所 音声信号処理方法および装置
US10629222B2 (en) 2015-10-09 2020-04-21 Hitachi, Ltd. Sound signal procession method and device
JP2019004465A (ja) * 2017-06-12 2019-01-10 ヤマハ・ユニファイド・コミュニケーションズ 収音装置、及び収音方法
JP7214379B2 (ja) 2017-06-12 2023-01-30 ヤマハ・ユニファイド・コミュニケーションズ 収音装置、収音方法及びプログラム
JP2020043456A (ja) * 2018-09-10 2020-03-19 本田技研工業株式会社 音響処理装置、音響処理方法およびプログラム
JP2020141232A (ja) * 2019-02-27 2020-09-03 本田技研工業株式会社 マイクロホンアレイ位置推定装置、マイクロホンアレイ位置推定方法、およびプログラム
JP7235534B2 (ja) 2019-02-27 2023-03-08 本田技研工業株式会社 マイクロホンアレイ位置推定装置、マイクロホンアレイ位置推定方法、およびプログラム
JP7235534B6 (ja) 2019-02-27 2024-02-08 本田技研工業株式会社 マイクロホンアレイ位置推定装置、マイクロホンアレイ位置推定方法、およびプログラム
CN116184318A (zh) * 2023-05-04 2023-05-30 苏州大学 一种基于瞬态双时间序列触发法的实时声源定位方法

Similar Documents

Publication Publication Date Title
JP2010212818A (ja) 複数のマイクロフォンにより受信された多チャンネル信号の処理方法
EP3090275B1 (en) Microphone autolocalization using moving acoustic source
US9706298B2 (en) Method and apparatus for localization of an acoustic source and acoustic beamforming
Talmon et al. Supervised source localization using diffusion kernels
Ajdler et al. Acoustic source localization in distributed sensor networks
EP2810453B1 (en) Audio source position estimation
CN102455421B (zh) 无需时间同步的声音定位系统及方法
Tervo et al. Acoustic reflection localization from room impulse responses
JP2006194700A (ja) 音源方向推定システム、音源方向推定方法及び音源方向推定プログラム
CN103688187B (zh) 使用相位谱的声音源定位
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
Pertilä et al. Passive self-localization of microphones using ambient sounds
JP2007327873A (ja) 地震記録データの同期化処理方法
EP3232219B1 (en) Sound source detection apparatus, method for detecting sound source, and program
US8416642B2 (en) Signal processing apparatus and method for removing reflected wave generated by robot platform
JP4652191B2 (ja) 複数音源の分離方法
JP2020141232A (ja) マイクロホンアレイ位置推定装置、マイクロホンアレイ位置推定方法、およびプログラム
JP5929393B2 (ja) 位置推定方法、装置及びプログラム
Ceolini et al. Evaluating multi-channel multi-device speech separation algorithms in the wild: a hardware-software solution
Sekiguchi et al. Online simultaneous localization and mapping of multiple sound sources and asynchronous microphone arrays
KR20090128221A (ko) 음원 위치 추정 방법 및 그 방법에 따른 시스템
JP7266433B2 (ja) 音源定位装置、音源定位方法、およびプログラム
EP3182734A2 (en) Method for using a mobile device equipped with at least two microphones for determining the direction of loudspeakers in a setup of a surround sound system
Di Carlo et al. dEchorate: a calibrated room impulse response database for echo-aware signal processing
JP6650245B2 (ja) インパルス応答生成装置及びプログラム