JP2010212818A

JP2010212818A - 複数のマイクロフォンにより受信された多チャンネル信号の処理方法

Info

Publication number: JP2010212818A
Application number: JP2009054316A
Authority: JP
Inventors: Junki Ono; 順貴小野; Shigeki Sagayama; 茂樹嵯峨山; Hitoshi Kono; 仁河野; Yasuhiro Mochida; 康弘持田; Nobutaka Ito; 信貴伊藤
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2009-03-08
Filing date: 2009-03-08
Publication date: 2010-09-24

Abstract

【課題】
音源とマイクロフォンの空間位置、及び各受信信号の時間原点が未知の状態から、観測信号のみを用いてそれらのパラメータを推定する。
【解決手段】
複数のマイクロフォンで受信された録音開始時間が未知の多チャンネル信号の処理方法であって、各マイクロフォンで受信された多チャンネル信号の仮同期を取るステップと、仮同期された複数の受信信号において、２チャンネル間の受信信号の時間差を検出するステップと、検出された時間差と、音源位置、マイクロフォン位置、録音開始時刻から理論的に導かれる時間差の推定値と、の誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定するステップと、からなる信号処理方法。
【選択図】図１

Description

本発明は、マイクロフォンアレイ信号処理に関するものである。

複数のマイクロフォンを空間的に配置し、複数のマイクロフォンによって受信された複数の受信信号を処理することによって、音源定位や音源分離、雑音抑制などを行うマイクロフォンアレイ信号処理においては、通常、各マイクロフォンの位置が既知であり、かつ各受信信号が時間的に同期している必要がある。そのため、従来は、マイクロフォンをフレームやマウントに固定し、各受信信号をA/D変換器により同期させたシステムを用いるのが一般的であった。

一方で、我々の身の回りにはPCや携帯電話内蔵のマイクロフォンやICレコーダなどの録音機器が多数存在する。このような分散した録音機器を用いてアレイを構成することが可能になれば、アレイ信号処理技術の応用範囲が格段に広がると考えられる。
しかしながら、このような独立した録音機器を使用する場合、互いの位置関係は未知であるし、時間軸での同期も取れていないのが普通である。

これに対して、小林らは、マイクロフォン位置が未知であっても、観測信号からマイクロフォンと音源の空間位置を同時推定する手法を提案した（特許文献１、特許文献２、非特許文献１）。
より具体的には、例えば特許文献１には、複数のチャネルの受音信号から、前記複数のチャネルのうち２チャネル間のチャネル間受音時間差の実測値を求めるチャネル間時間差推定段階と、推定音源位置と推定受音位置から求められるチャネル間受音時間差の推定値と、前記チャネル間受音時間差の実測値間の誤差を最小化することで、音源位置と受音位置を推定する位置推定段階とを有する音源受音位置推定方法、が開示されている。
しかしながら、各録音機器における受信信号は同期が取られていると仮定していた。

すなわち、音源の位置情報の取得や混合音の分離を目的として、アレイ信号処理は盛んに研究され、また実用化もされつつある技術であるが、音源の定位においても分離においてもチャネル間の時間差が重要な情報であり、これを精度よく取得するために、従来の技術においては多チャネル信号の録音開始時間が同期していることが必要であった。

特許第３７２０７９５号特開２００７−８１４５５号

小林和則、古家賢一、片岡章俊、"位置が未知である複数マイクロホンを用いたブラインド音源位置推定"、電子情報通信学会論文誌、Vol. 86, No. 6, pp.619−627, 2003.

本発明は、観測された多チャンネル信号の録音開始時間が未知であっても、観測信号のみから音源位置、マイクロフォンの位置、録音開始時間のうちの未知数を推定することを目的とするものである。
本発明の１つの実施形態の目的は、多チャンネル信号の録音開始時間が未知であっても、観測信号のみから音源位置、マイクロフォンの位置、録音開始時間を推定することにある。

本発明が採用した技術手段は、
複数のマイクロフォンで受信された録音開始時間が未知の多チャンネル信号の処理方法であって、
各マイクロフォンで受信された多チャンネル信号の仮同期を取るステップと、
仮同期された複数の受信信号において、２チャンネル間の受信信号の時間差を検出するステップと、
検出された時間差と、音源位置、マイクロフォン位置、録音開始時刻から理論的に導かれる時間差の推定値と、の誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定するステップと、
からなる信号処理方法、である。

１つの態様では、録音開始時刻、音源位置、マイクロフォン位置の全てが未知数であり、観測信号のみを用いて音源位置、マイクロフォンの位置、録音開始時間を同時に推定する。

「多チャンネル信号の仮同期を取る」とは、同じ音源から到来してきた音成分を多チャンネル信号間で対応付けることを可能にする程度に、多チャンネル信号の録音開始時刻の差を小さくする操作を意味する。仮同期を取るステップの目的は、観測信号間の録音開始時刻の差を大まかに補償し、次の時間差検出ステップにおいて、同じ音源から到来してきた音を観測信号間で対応づけることができるようにすることである。すなわち、仮同期を取るステップは、各マイクロフォンで受信された多チャンネル信号の録音開始時刻の差を小さくし、同じ音源から到来してきた音成分を多チャンネル信号間で対応付けることを可能にするステップであり、時間差を検出するステップは、対応付けられた音成分に関して、２チャンネル間の時間差を検出するステップである。
１つの態様では、仮同期は、相互相関関数のピークから取得する時間差（平均的時間差と言う）を用いて信号の時間軸をずらし、観測信号間の時間原点を大まかに揃える操作によって行われ、本明細書では、これを平均的時間同期と称する。すなわち、１つの態様では、同期を取るステップは、相互相関関数のピーク検出により、各受信信号間の平均的な時間差を求め、この平均時間差が０になるように各受信信号を時間軸上でシフトすることにより時間同期をとるものである。
同期を取るステップにおいて、相互相関関数の計算に必要な要件は、「相互相関関数のピークが明確に現れるために、十分に長く、かつ、意味のある音源信号が含まれているような（無音区間であればいくら長く含まれていても意味がない）時間区間であること」である。この時間区間は、必ずしも全時間区間である必要はなく、また、録音開始時刻を含む必要もなく、また、全ての音源信号を含む必要もない。
仮同期を取るステップの態様については、時間信号波形の相互相関ピークを検出する以外にも、信号の包絡線（エンベロープ）間の相互相関のピーク検出、スペクトログラム間の相互相関のピーク検出等によることが可能であることは当業者に理解される。また、仮同期を取る手段は相互相関関数を用いるものに限定されるものではないことも当業者に理解される。

１つの態様では、前記時間差を検出するステップは、
受信信号を短時間のフレームに分割し、単一音源の信号のみが観測できると思われるフレームを選択し、フレーム毎に受信信号間の時間差を検出する。
フレーム毎に時間差を求める場合には、１つの態様では、ある時間フレームで全ての周波数の情報を用いて１つの時間差を求めるが、別の態様では、ある時間フレーム、ある周波数の成分１つから、１個の時間差を推定する、「時間周波数毎」に時間差を検出してもよい。
すなわち、１つの、もしくは複数の時間周波数成分毎に時間差を求める、というやり方でよく、複数のとり方が１つの時間フレームで全周波数成分、となったのが「フレーム毎」で、他の複数の取り方でもよい。

本発明に用いられる相互相関関数としては、通常の相互相関関数に限定されるものではなく、例えば、フィルタリングした相互相関関数のピークを求める「一般化相互相関法」でもよい。
また、時間差を求める手段は相互相関関数を用いるものに限定されるものではなく、周波数成分毎に位相差から時間差の候補値を求め、それらのヒストグラムをつくって最も大きな票を獲得した値を時間差とする「投票法」、観測信号に含まれる誤差の確率モデルを仮定し最も確からしい時間差を尤度という評価基準を最大化することにより求める「最尤推定法」などが適用され得ることが当業者に理解される。ここでの相互相関関数を用いない時間差を求める手段は、時間差検出ステップのみならず、仮同期を取るステップにも適用し得る。

１つの態様では、未知数を推定するステップは、前記誤差を規定する評価関数J(Θ)を用意し、最適化手段によって評価関数J(Θ)を最小化するパラメータを推定することによって行なわれる。
１つの態様では、前記誤差は、
である。
ここで、
ε_imn：検出された時間差と時間差の推定値との誤差、
s：音源の位置ベクトル、
r：マイクロフォンの位置ベクトル、
t：マイクロフォンの時間原点（録音開始時刻）、
i：音源の序数、
m,n：マイクロフォンの序数、
τ_imn：音源iから到来する信号をマイクロフォンm、nで観測し、信号間の時間差を検出したと仮定した場合に、n番目の信号を基準にしたときのm番目の信号時間遅れ、
c：音速、
である。

１つの態様では、評価関数
を最適化計算によって最小化することにより、未知パラメータΘを決定する。
ここで、
K：音源数、
L：マイクロフォン数、である。

１つの態様では、第３ステップを実行するために用いられる最適化計算としては、いわゆる補助関数法が用いられる。
前記評価関数に対して、補助関数
を適用し、
前記補助関数から導出される以下の更新式
によってパラメータを反復的に推定する。
ここで、
μ、e：補助変数、である。

補助関数法を用いることで、未知パラメータs_i，r_j，t_jについて効率的に解くことができるが、本発明において用いられる最適化計算は、補助関数法を用いる手法に限定されるものではない。例えば、勾配法（共役勾配法、最急降下法を含む）、ニュートン法、準ニュートン法、あるいはこれらの近似手法や変形手法、あるいはその他の最適化アルゴリズムを用いて評価関数J(Θ)を減少させるパラメータΘを反復的に求めてもよい。

本発明は、複数のマイクロフォンで受信された録音開始時間が未知の多チャンネル信号の処理装置としても提供され、
各マイクロフォンで受信された多チャンネル信号の仮同期を取る手段と、
仮同期された複数の受信信号において、２チャンネル間の受信信号の時間差を検出する手段と、
検出された時間差と、音源位置、マイクロフォン位置、録音開始時刻から理論的に導かれる時間差の推定値と、の誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定する手段と、
からなる信号処理方法、である。
本発明の各ステップや各手段を実行するハードウエア構成としては、パーソナルコンピュータ等のコンピュータ（具体的には、入力部、出力部（表示部を含んでいても良い）、ＣＰＵ、記憶装置（ＲＯＭ、ＲＡＭ等）、これらを接続するバス等、を備えている。）から構成することができる。
したがって、本発明は、
複数のマイクロフォンで受信された録音開始時間が未知の多チャンネル信号から、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定するためにコンピュータを、
各マイクロフォンで受信された多チャンネル信号の仮同期を取る手段と、
仮同期された複数の受信信号において、２チャンネル間の受信信号の時間差を検出する手段と、
検出された時間差と、音源位置、マイクロフォン位置、録音開始時刻から理論的に導かれる時間差の推定値と、の誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定する手段と、
して実行させるためのコンピュータプログラムとしても提供される。

本発明によれば、多チャンネル信号の録音開始時間が未知であっても、観測信号のみから音源位置、マイクロフォンの位置、録音開始時間を同時推定することができる。
音源定位や音源分離、ロボット聴覚など、潜在的な応用が多数あるが、いままでは時間同期した多チャンネル信号を取得することが前提であったため、マイクロフォンアレイには大きな制約があった。本発明は、PC内蔵マイクロフォン、ICレコーダなど、個々に独立している録音機器をマイクロフォンアレイとして構成するための基礎技術であり、マイクロフォンアレイによる音源定位や音源分離の適用範囲を格段に広げるほか、ネットワーク化と結びついた音によるセキュリティやモニタリングなどの新しい応用にもつながるものである。

本発明の概要を示す図である。時間原点と各マイクロフォンの時間軸の対応を示す図である。マイクロフォンの観測信号１を示す図である。マイクロフォンの観測信号２を示す図である。時間原点のずれた観測信号を示す図である。平均的時間同期の取れた観測信号を示す図である。フレーム分割された観測信号を示す図である。単一音フレームの正規化相互相関関数を示す図である。図４から選択されたあるフレームを拡大して示す図である。左図は、正規化相互相関関数のピーク近傍３点を示し、右図は、補間されたピークを示す。補助関数法の原理図である。マイクロフォン位置の推定結果を示す図である。音源位置の推定結果を示す図である。

本発明の１つの実施形態では、音源とマイクロフォンの空間位置、各録音機器の録音時間原点が全て未知の状態から、観測信号のみを用いてこれらを同時推定する。
本実施形態では、以下の３段階により、音源位置、マイクロフォンの位置、録音開始時刻の同時推定を実現する。
（１）観測信号の平均時間同期
相互相関関数のピーク検出により、各観測信号間の平均的な時間差を求め、この平均時間差が０になるように信号を時間軸上でシフトすることにより時間同期をとる。
（２）フレーム毎の単一音源検出と時間差検出
観測信号を短時間のフレームに分割し、単一音源の信号のみが観測できると思われるフレームを選択し、フレーム毎に観測信号間の時間差を検出する。
（３）未知数の反復推定
検出された時間差が、理論式を満たすように、音源位置、マイクロフォン位置、録音開始時刻を反復的に推定する。
以下に、本実施形態について詳細に説明する。

［Ａ］本実施形態のアプローチ
以下では、K個の音源からの音響信号をL個のマイクロフォンで観測するものとし、音源、マイクロフォンの位置をそれぞれs_i＝(x_i y_i z_i)^t(1≦i≦K)，r_n＝(u_n v_n w_n)^t(1≦n≦L)で表す。ただしtは転置を表す。またt_nは、ある規準時計で測ったn番目のマイクロフォンの録音開始時刻(時間原点)とし、各録音機器での時刻の進み方は等しいことを仮定する。
s_i,r_n,t_nがすべて未知の状況から、各マイクロフォンの観測信号のみを用いて、これらのすべてのパラメータを推定することが目的である。

音源やマイクロフォンの位置推定においては、観測信号間の時到来間差を取得することが重要である。いま、音源iから到来する信号をマイクロフォンm，nで観測し、それぞれのマイクロフォンの時間軸における到来時間を、図１Ａに示すように、t^m _i,tⁿ _iとする。t^m _i,tⁿ _iは観測可能な量であり、これらの差を取ることにより、音源iに関して、n番目の信号を基準にしたときのm番目の信号の見かけの時間遅れ、すなわち観測信号間の時間差τ_imnが次のように求まる。
観測量τ_imnを既に定義したパラメータs_i,r_n,t_nを用いて表すことを考える。基準時計で測った、マイクロフォンm,nにおける音源iからの信号の到来時間はそれぞれ(t_m＋t^m _i),(t_n＋tⁿ _i)となるので、cを音速として
従って
と表わされる。式(3)の右辺は理論的な式であり、右辺の第1項が真の時間差、第2項が録音開始時刻のずれを意味している。

各観測信号が同期しており、式(3)の第2項が0の場合には、この時間差の整合性がとれるようにすることで音源位置とマイクロフォン位置を同時推定する手法が提案されている（特許文献１、２、非特許文献１）。しかしながら観測信号から求めた時間差に未知の録音開始時刻の差も含まれる場合には一見、有効な情報は得られないようにも思われる。よってここではまず、解が求まりうる条件として、観測量の数と未知数の関係について述べる。

観測量は各観測信号間の時間差τ_imnであり、1つの音源に対しL−1個の時間差が独立な観測量となる。一方未知数は、音源とマイクロフォンの３次元位置（x_i,y_i,z_i）、（u_n,v_n,z_n）と録音開始時刻t_n(ただし1≦i≦K，1≦n≦L)であるが、時間差に基づく推定の場合にはいずれも相対的にしか決まらず、基準時計の選び方の1自由度と絶対座標系の選び方の並進と回転の6自由度は決まらないことに注意すると、観測量からこれらの未知数が決定されるためには少なくとも以下を満たす必要がある。
整理すると、
となる。

［Ｂ］観測量の取得
式(3)に示したように、検出される時間差には、
1)録音開始時刻の相違による時間差
2)音源信号とマイクロフォンの位置関係による到来時間差
の2つが含まれている。

1)に関してはどの程度の値になるのか、事前に予測することが難しい。一方、2)は音源ごとに異なる値を取り、音源とマイクロフォン間の最大距離をDとすると、その絶対値は高々D/cを超えない。たとえば会議室などで、ディスカッションの内容を録音する場合、D＝10[m]とすれば十分で、このときD/c＝3.0×10^-2[s]である。それに対し、録音開始時間は数秒から数分のずれが予想されるので、1)と2)はオーダーが異なると考えてよい。
従って、効率的に時間差を検出するために、まず1)を大まかに補償し、観測信号の大まかなアラインメントを取った後、2)を求める事を考える。2)を求める際には、観測信号をフレームに分割するのが有効であると考えられる。また、音源位置、マイクロフォン位置、時間原点を推定する上では、1)は後で補償すればよく、2)を観測量として用いれば十分である。よって本実施態様では、以下のような時間差検出アルゴリズムを用いる。

ステップ1：観測信号の平均的時間同期
ある1つの観測信号と、他の全ての観測信号との相互相関関数を全時間区間を用いて計算し、そのピークから求まる平均的時間差に基づき、観測信号間の大まかなアラインメントをとる。
ステップ2：観測信号のフレーム分割
D/cに対して十分大きいフレーム長を選び、観測信号をフレーム分割する。
ステップ3：フレームごとの単一音検出と時間差検出
フレーム毎に観測信号間で正規化した相互相関関数を計算し、そのピーク値がある閾値を超えていたら、有意な単一音が含まれているフレームと判断し、そのピーク位置から観測信号間時間差を検出する。
各ステップについて詳細を述べる。

［Ｂ−１］観測信号の平均的時間同期
観測信号として、図２Ａ、図２Ｂ・・・のような波形がL個得られたとして、それらをw_i(n)(1≦i≦L)とする。またそれぞれの観測信号のサンプリング周波数をf_iとし、各観測信号の末尾に0を付加するなどしてあらかじめ、サンプル点数はNとしておくものとする。これらを重ねてプロットすると図３Ａのようになり、各観測信号間で、各音源からの信号の対応を知ることは不可能に近い。
そこで観測信号間の相互相関関数を利用することを考える。w_i(n)とw_j(n)の相互相関関数を次のように定義する。
w₁(n)を基準観測信号とし、w₁(n)とw_j(n)(1≦j≦L)の相互相関関数R_j1(m)(1≦j≦L)を計算する。
とすれば、(m_j−N−1)/f_jがw₁(n)に対するw_j(n)の平均的な時間差である。これをもとに観測信号の大まかなアラインメントを取る。すると図３Ｂのようになり、観測信号間での各音源空の信号の対応が明らかとなる。

［Ｂ−２］観測信号のフレーム分割
次に音源ごとにマイクロフォン間での時間差を検出するために、図３Ｂをフレームに等分割する。前述のようにマイクロフォンと音源の最大距離をDとすると、ある音源を2つのマイクロフォン間で観測した場合の、到来時間差はD/cを超えない。従ってフレーム長はD/cよりも大きい必要がある。この事に注意してフレーム長を選択し、フレームに等分割を行ったものが図４である。各観測信号をQ個のフレームに分割したとして、w_i(n)のq(1≦q≦Q)番目のフレームをw_i ^(q)(n)としておく。

［Ｂ−３］フレームごとの単一音検出と時間差検出
単一音のみを含むフレームを検出するために、各フレームにおいて、すべての観測信号のペアについて正規化相互相関関数を計算する。すなわちq＝1,2 ・・・，Qに対して、wi^(q)(n)の平均をw（バー）_i ^(q)で表すと、
を計算する。

もしw_i ^(q)(n),w_j ^(q)(n)が単一音のみを含んでいるならばR_ij ^(q)(m)は図５のように鋭いピークを持ち、逆に単一音を含まない、もしくは複数音を含んでいるような場合は、鈍いピークを持つ。従って単一音を含むフレームを検出するには、そのピーク値で判断することは妥当である。
として、ピーク値に関する閾値I(0<I<1)を設定する。そして任意のi,jについてp_ij ^(q)>Iならば、q番目のフレームは単一音のみを含むフレームとして検出することにする。

次に単一音が検出されたフレームについて、時間差を検出することを考える。より精度よく時間差を検出するために、R_ij ^(q)(m)のピーク近傍3点を見てみると、一般的に図７左図のようになっていると考えられる。近傍ではTaylor展開の2次の項までで近似すれば十分なので図７右図のように、これら3点を通る2次関数f_ij ^(q)(m)でフィッティングを行い、
とすれば、それがR_ij ^(q)(m)のピークを与える真のｍの推定値であり、(m_ij ^(q)−N/Q−1)/f_iがq番目のフレームに含まれる音源に関して、マイクロフォンjに対するマイクロフォンiでの到来時間差である。従ってこれをτ_qijとして、時間差を検出できたことになる。

［Ｃ］反復解法の導出
［Ｃ−１］評価関数の設定
理論式である式(3)の二乗誤差：
を最小化することにより、未知パラメータΘ＝{s_i,r_n,t_n｜１≦i≦K，１≦n≦L}を決定することを考える。
すなわち、観測量τ_imn（音源iに関する、マイクロフォンnに対するmの到来時間差）を用いて、未知数である音源の位置ベクトルｓ、マイクロフォンの位置ベクトルｒ、マイクロフォンの時間原点（録音開始時間）ｔ、を推定する。

［Ｃ−２］補助関数法
本実施形態では、式(11)を最小化する解を効率的に求めるために補助関数法と呼ばれる最適化手法を用いる。
評価関数J(Θ)に対して、
が成立するとき、J+(Θ,Θ+)をJ(Θ)の補助関数、Θ+を補助変数と定義する。すると次が成り立つ。
（定理1)
補助関数J+(Θ,Θ+)を、Θ+に関して最小化するステップ、Θに関して最小化するステップを繰り返すことで、評価関数J(Θ)を単調減少させることができる（図８参照）。
補助関数法の詳細については、例えば、下記文献を参照することができる。
H. Kameoka, N. Ono, and S. Sagayama, “Auxiliary
functional approach to parameter estimation of constrained sinusoidal model for
monaural speech separation,” Proc. ICASSP, pp. 29-32,2008.

［Ｃ−３］補助関数法による未知数の分解
εimnはr_n，t_nに関して異なる添え字の項を含んでいる。これらを分解するために次の定理を用いる。
（定理２）
Σ_n=1 ^Na_n＝Bの下では、
である。また、等号は、
の場合に成り立つ。
ここで、
とおけば、定理１より、
であり、J（Θ）の補助関数として次を考える。
J≦J_１であり、等号は次のとき成立する。
ここでさらに、
とすると、
とかける。μ_imn ^m，μ_imn ⁿは、いわば、次の更新時における|si−rm|，|si−rn|の目標値であり、現在の推定に含まれる誤差ε_imnを等分割してこれらの値を修正しようとしていることに相当する。なおこの場合の等号成立は次である。

［Ｃ−４］絶対値関数の補助関数
J₁はt_nについては解析的に解けるが、s_i，r_nについては未だ絶対値記号を含んでいるため難しい。そこでこれを微分しやすい形で置き換えるため、次の定理に着目する。
（定理３）
任意のベクトルxと単位ベクトルe、任意の非負の実数aに対して
が成り立つ。等号成立条件はa＝0もしくはe＝x/|x|である。
これを用いると、式(25)の右辺に関して、
が成り立つので、J₁(Θ，μ)の補助関数として、
を考えることができる。J₁≦J₂であり、等号は次のとき成立する。
J₂はs_i,r_nについても解析的に解けるので、所望のJの補助関数J₂を得ることができた。

［Ｃ−５］反復解法式の導出
s_i,r_nについて、J₂を偏微分して更新式を導出する。
すなわち、
すなわち、

t_nについては、J₁の式(20)の表現を偏微分することにより、
すなわち、
ここで式(23)と式(24)の辺々を加えて、
以上で、各パラメータs_i,r_n,t_nの反復解法式を得た。

ここで、p回目の反復後の各パラメータs_i,r_n,t_nを、s_i ^(p),r_n ^(p),t_n ^(p)とすると、上述の議論で得た反復解法式は、まとめると次である。

［Ｃ−６］パラメータ推定アルゴリズム
パラメータの計算の順序に関しては、1)補助変数μを計算、2)tの更新、3)補助変数eを計算、4)s,rの更新、を繰り返し、反復を行う。
より具体的には、パラメータ推定の計算については以下の順序で行う。
^(p)はsやrを繰り返し計算するうちのp番目の計算結果を示している。
Step1：ε_imn ^（p）を式(47)によって計算する。
Step2：μ_imn ^m(p)，μ_imn ^n(p)を式（45）、式(46)によって計算する。
Step3：t_n ^(p+1)を式(43)によって更新する。
Step4：e_im ^(p)，e_in ^(p)を式(44)によって計算する。
Step5：s_i ^(p+1)を式(41)によって更新する。
Step6：r_n(p+1)を式(42)によって更新する。
Step7：Step1に戻る。

［Ｄ］評価実験
［Ｄ−１］
式(11)を最小化することで、音源位置、マイクロフォン位置、時間原点の同時推定が可能であるかどうか検証するために行った、基礎実験の結果を示す。10×10×10[m3]の室内を想定し、ほぼ無響環境の球面波伝播を計算機上でシミュレーションした。音源数は8、マイクロフォン数は9とし、位置は乱数で決定した。各音源信号は1回の拍手の音を録音したものを用い、互いに重ならず、単一音源が観測できる条件を仮定した。サンプリング周波数は44100[Hz]、信号長は5.0[s]とし、時間原点のずれとして、1.0[s]以内のランダムな時間差を各観測信号に与えた。シミュレーションで得られた観測信号に対し、大まかなアラインメントを求めた後、フレーム長100[ms](>D/c≒50[ms])のフレームに分割し、有意な音響信号が含まれているフレームから時間差を検出し、各パラメータの初期値を乱数で与えて、反復解法による推定を行った。反復回数は60000回とした。

［Ｄ−２］
マイクロフォン、音源の位置推定に関して、xy座標をプロットしたものをそれぞれ図９、図１０に示す。時間原点が未知の観測信号から、ほぼ正しくマイクロフォン位置、音源位置が推定されていることがわかる。また、時間原点の推定誤差の標準偏差は1.0[ms]であり、こちらもほぼ正しく推定されていることを確認した。

［Ｅ］音源数とマイクロフォン数との関係についての考察
上記実施形態では、音源とマイクロフォンの空間位置、各録音機器の録音時間原点が全て未知の状態から、観測信号のみを用いてこれらを同時推定することを論じた。実際の環境では、これらの未知数のうちの一部の値が既知の場合もあり得ることであり、以下場合を分けて本発明の推定における必要条件について論じる。

［Ｅ−１］場合分け1（音源、マイクの高さによるもの）
音源、マイクの高さ情報による場合分けを考える。会議などの場では音源やマイクの高さがそろっている場合は十分考えられるので有効な場合分けだと考えられる。
K：音源数、L：マイク数、である。
以下にまとめる。

［Ｅ−２］場合分け2（ステレオマイクを用いる場合）
ICレコーダなどのステレオマイクを1組以上用いるものについても検討する。ICレコーダやPC内蔵マイクロフォンはほとんどがステレオマイクであり、この場合分けは非常に実用的であると考えられ、また条件を大幅に緩和できる。
q組のステレオマイクを用いている場合には、ICレコーダなどのステレオマイクは、2つのマイクロフォン間の距離を事前に知ることができ、また2つのマイクロフォン間で時間同期であることから、1組につき自由度を2減らすことができるので上記のようになる。
以下にまとめる。

本発明は、PC内蔵マイクロフォン、ICレコーダなど、個々に独立している録音機器をマイクロフォンアレイとして構成するための基礎技術として利用することができる。より具体的には、マイクロフォンアレイによる音源定位、音源分離、雑音抑制に適用され得る。本発明は、また、ネットワーク化と結びついた音によるセキュリティやモニタリングなどの新しい応用にもつながる。より具体的には、音源定位を利用してGPSのようなシステム、銃声や爆発音などの定位を例示することができる。

Claims

複数のマイクロフォンで受信された録音開始時間が未知の多チャンネル信号の処理方法であって、
各マイクロフォンで受信された多チャンネル信号の仮同期を取るステップと、
仮同期された複数の受信信号において、２チャンネル間の受信信号の時間差を検出するステップと、
検出された時間差と、音源位置、マイクロフォン位置、録音開始時刻から理論的に導かれる時間差の推定値と、の誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定するステップと、
からなる信号処理方法。
録音開始時刻、音源位置、マイクロフォン位置の全てが未知数であり、音源位置、マイクロフォンの位置、録音開始時間を同時に推定する、請求項１に記載の信号処理方法。
前記仮同期を取るステップは、
相互相関関数のピーク検出により、各受信信号間の平均的な時間差を求め、この平均時間差が０になるように各受信信号を時間軸上でシフトすることにより時間同期をとる、
請求項１、２いずれかに記載の信号処理方法。
前記時間差を検出するステップは、
受信信号を短時間のフレームに分割し、単一音源の信号のみが観測できると思われるフレームを選択し、フレーム毎に受信信号間の時間差を検出する、
請求項１乃至３いずれかに記載の信号処理方法。
前記未知数を推定するステップは、前記誤差を規定する評価関数を用意し、最適化手段によって前記評価関数を最小化するパラメータを推定することによって行なわれ、
前記最適化手段は、補助関数法、勾配法（共役勾配法、最急降下法を含む）、ニュートン法、準ニュートン法からなる群から選択されたいずれかの手段である、
請求項１乃至４いずれかに記載の信号処理方法。
前記誤差は、
である、請求項１乃至５いずれかに記載の信号処理方法。
ここで、
ε_imn：検出された時間差と時間差の推定値との誤差、
s：音源の位置ベクトル、
r：マイクロフォンの位置ベクトル、
t：マイクロフォンの時間原点（録音開始時刻）、
i：音源の序数、
m,n：マイクロフォンの序数、
τ_imn：音源iから到来する信号をマイクロフォンm、nで観測し、信号間の時間差を検出したと仮定した場合に、n番目の信号を基準にしたときのm番目の信号時間遅れ、
c：音速、
である。
評価関数
を最適化計算によって最小化することにより、未知パラメータΘを決定する、請求項６に記載の信号処理方法。
ここで、
K：音源数、
L：マイクロフォン数、である。
前記評価関数に対して、補助関数
を適用し、
前記補助関数から導出される以下の更新式
によってパラメータを反復的に推定する、請求項７に記載の信号処理方法。
ここで、
μ、e：補助変数、である。
複数のマイクロフォンで受信された録音開始時間が未知の多チャンネル信号の処理装置であって、
各マイクロフォンで受信された多チャンネル信号の仮同期を取る手段と、
仮同期された複数の受信信号において、２チャンネル間の受信信号の時間差を検出する手段と、
検出された時間差と、音源位置、マイクロフォン位置、録音開始時刻から理論的に導かれる時間差の推定値と、の誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定する手段と、
からなる信号処理方法。
複数のマイクロフォンで受信された録音開始時間が未知の多チャンネル信号から、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定するためにコンピュータを、
各マイクロフォンで受信された多チャンネル信号の仮同期を取る手段と、
仮同期された複数の受信信号において、２チャンネル間の受信信号の時間差を検出する手段と、
検出された時間差と、音源位置、マイクロフォン位置、録音開始時刻から理論的に導かれる時間差の推定値と、の誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定する手段と、
して実行させるためのコンピュータプログラム。
時間差の観測値と時間差の推定値との誤差を最小化するように、録音開始時刻、音源位置、マイクロフォン位置のうちの未知数を推定する方法であって、
前記推定は、評価関数
を最適化計算によって最小化することにより、未知パラメータΘを決定するものであり、
前記評価関数に対して、補助関数
を適用し、
前記補助関数から導出される以下の更新式
によってパラメータを反復的に推定する、信号処理方法。
ここで、
s：音源の位置ベクトル、
r：マイクロフォンの位置ベクトル、
t：マイクロフォンの時間原点（録音開始時刻）、
i：音源の序数、
m,n：マイクロフォンの序数、
τ_imn：音源iから到来する信号をマイクロフォンm、nで観測し、信号間の時間差を検出したと仮定した場合に、n番目の信号を基準にしたときのm番目の信号時間遅れ、
c：音速、
K：音源数、
L：マイクロフォン数
ε_imn：検出された時間差と時間差の推定値との誤差、
μ、e：補助変数、
である。