JP3720795B2 - 音源受音位置推定方法、装置、およびプログラム - Google Patents

音源受音位置推定方法、装置、およびプログラム Download PDF

Info

Publication number
JP3720795B2
JP3720795B2 JP2002223923A JP2002223923A JP3720795B2 JP 3720795 B2 JP3720795 B2 JP 3720795B2 JP 2002223923 A JP2002223923 A JP 2002223923A JP 2002223923 A JP2002223923 A JP 2002223923A JP 3720795 B2 JP3720795 B2 JP 3720795B2
Authority
JP
Japan
Prior art keywords
sound
sound source
time difference
estimated
source position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002223923A
Other languages
English (en)
Other versions
JP2004064697A (ja
Inventor
和則 小林
賢一 古家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002223923A priority Critical patent/JP3720795B2/ja
Publication of JP2004064697A publication Critical patent/JP2004064697A/ja
Application granted granted Critical
Publication of JP3720795B2 publication Critical patent/JP3720795B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は音源位置および受音位置を推定する音源位置・受音位置を推定する方法および装置に関する。
【0002】
【従来の技術】
図14は従来の音源位置推定装置のブロック図である。この従来の音源位置推定装置はマイクロホン111〜11Mと受音位置設定部166と指向性走査部167と遅延器1611〜161Mとゲイン1621〜1622と加算器163とパワー計算部164と最大パワー位置検出部165とで構成される。
【0003】
指向性走査部167は、受音位置設定部166で設定されている受音位置と、走査位置から、走査位置に鋭い指向性が形成されるような遅延di(x,y,z)とゲインgi(x,y,z)を計算し、位置が既知である複数のマイクロホン111〜11Mに接続されている遅延器1611〜161Mとゲイン1621〜162Mに設定する。走査位置は、音源が存在可能な範囲で走査する。走査位置ごとに加算器163の出力信号のパワーをパワー計算部164で求め、そのパワーのうち最大値を取る走査位置を推定音源位置として最大パワー位置検出部165で検出する。
【0004】
走査位置(x,y,z)の場合に、i番目のマイクロホン11iに与えられる遅延量di(x,y,z)は、走査位置(x,y,z)から発せられた音が同位相となるように、走査位置(x,y,z)とi番目のマイクロホン位置(xi,yi,zi)と音速cより、式(1)および式(2)を用いて求められる。
【0005】
【数1】
Figure 0003720795
【0006】
ただし、Dは固定遅延量であり、信号を進ませることができないという因果性を満足させるために、di(x,y,z)が必ず正となるように与えられる定数であり、ri(x,y,z)は、走査位置(x,y,z)とi番目のマイクロホン位置(xi,yi,zi)間の距離である。
【0007】
また、走査位置(x,y,z)の場合に、i番目のマイクロホン11iに与えられるゲインgi(x,y,z)は、信号対雑音比が最大となり、各走査位置に対する利得が一定となるように、式(3)で与えられる。
【0008】
【数2】
Figure 0003720795
【0009】
ただし、Vは部屋の体積(m3)であり、TRは残響時間(s)である。
【0010】
走査位置(x,y,z)に対し得られる加算器163の出力y(t,x,y,z)は、各マイクロホンで受音された信号xi(t)に、遅延di(x,y,z)とゲインgi(x,y,z)を与え加算した信号であり、式(4)で表される。
【0011】
【数3】
Figure 0003720795
【0012】
ただし、xi(t)はi番目マイクロホンで受音された信号であり、tは時刻である。
【0013】
次に、パワー計算部164は加算器163の出力信号y(t,x,y,z)の短時間平均パワーを、走査位置ごとに計算する。走査位置ごとに計算されたパワーP(x,y,z)(パワー分布)は、式(5)で表される。
【0014】
【数4】
Figure 0003720795
【0015】
ただし、Tは、短時間平均パワーを求めるための平均時間であり0.1〜1s程度の値である。
【0016】
式(5)のパワー分布は、走査位置に鋭い指向性を向けた場合に収音された音のパワーであるので、その位置にある音源のパワーの推定値となっている。すなわち、パワー分布のうち、大きいパワーを有する位置には音源があり、大きいパワーの位置を検出することにより話者位置の推定が可能となる。最大パワー位置検出部165では、最大パワーを持つ走査位置を検出し、最も大きい音を発する音源位置を検出する。以上の方法により、話者位置の検出が可能となる。
【0017】
【発明が解決しようとする課題】
話者を自動的にズームアップするビデオカメラ制御や、話者に自動的に追従してスポット収音を行う雑音抑圧において、上記従来技術の音源位置推定方法では、あらかじめ受音位置を計測しておかなければ音源位置を推定することはできなく、マイクロホンの自由な配置ができないということや、マイクロホンの設置、移動に多大な労力が必要となるという問題がある。
【0018】
本発明の目的は、受音位置が未知であっても、音源位置および受音位置の推定を可能とし、マイクロホンの自由な配置と、設置、移動を簡易にする音源受音位置推定方法、装置、およびプログラムを提供することにある。
【0019】
【課題を解決するための手段】
本発明の音源受音位置推定方法は、
複数チャネルの受音信号から、前記複数のチャネルのうち2チャネル間のチャネル間受音時間差の実測値を求めるチャネル間時間差推定段階と、
推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値と、前記チャンネル間受音時間差の実測値間の誤差を最小化することで、音源位置と受音位置を推定する位置推定段階とを有する。
【0020】
本発明は、受音信号のチャネル間における遅延時間差に基づく受音位置間距離と推定音源位置から各推定音源位置までの距離差に基づく誤差を最小にするという条件のもとに、推定音源位置と推定受音位置を同時に適応的に求めるものである。
【0021】
本発明の実施態様では、
現在のチャネル間時間差と、過去のチャネル間時間差の実測値を用いて、音源位置移動を検出する音源位置移動検出段階と、
音源位置移動が検出された場合、検出の直前のチャネル間時間差を記憶するチャネル間時間差記憶段階とをさらに有し、
位置推定段階は、前記チャンネル間時間差として記憶されたチャンネル間時間差の実測値と、推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値間の誤差を最小化することで、音源位置と受音位置を推定する。
【0022】
【発明の実施の形態】
次に、本発明の実施形態について図面を参照して説明する。
【0023】
第1の実施形態
図1は本発明の第1の実施形態の音源位置・受音位置推定装置のブロック図であり、図2は、本発明の本実施形態の音源位置・受音位置推定装置の動作を示すフローチャートである。
【0024】
本実施形態の音源位置・受音位置推定装置はマイクロホン111〜11Mと受音信号間遅延時間差推定部12と音源位置移動検出部13と受音信号間遅延時間差記憶部14と音源位置・受音位置推定部15により構成される。
【0025】
受音信号間遅延時間差推定部12は任意位置に配置され、位置が未知であるマイクロホン111〜11Mの各々で受音された受音信号から、各々のマイクロホン対ごとに受音信号間の遅延時間差を求める。音源位置移動検出部13は受音信号間遅延時間差と、直前に記憶された受音信号間遅延時間差を比較し、音源位置の移動を検出する。受音信号間遅延時間差記憶部14は、音源位置移動検出部13により音源位置の移動が検出された場合に、受音信号間遅延時間差を記憶する。音源位置・受音位置推定部15は受音信号間遅延時間差記憶部14に記憶されている複数の音源位置に対する受音信号間遅延時間差を用いて、音源位置および受音位置を推定する。
【0026】
本実施形態は、位置が分からない音源から発せられた音を、位置がわからない複数のマイクロホン111〜11Mにより受音し、その信号から受音信号間の遅延時間差を求め、その遅延時間差を複数の音源分保存し、それらの遅延時間差から、音源位置、受音位置の両方を同時に推定するものである。
【0027】
想定する適用例は、会議のように、複数の人が順に発音していく場合であり、発話者が変わるごとに、受音信号間の遅延時間差を保存していき、位置推定に必要な音源数分の受音信号間の遅延時間差が保存された時点で、受音位置と音源位置を推定する。それ以降は、必ず位置推定に必要な音源数分の受音信号間の遅延時間差が保存されているので、発話者が変わるごとに、受音信号間の遅延時間差の保存と受音位置と音源位置の推定を行う。
【0028】
次に、本実施形態の動作を図2のフローチャートにより説明する。
【0029】
まず、話者数、推定可能話者数、最大話者数、音源位置、受音位置を初期設定する(ステップ201)。
【0030】
受音信号間遅延時間差は、受音信号間遅延時間差推定部12で、マイクロホン111〜11Mで受音された信号の相互相関をとり、そのピークを検出することで求めることができる(ステップ202)。この受音信号間遅延時間差は、直前に保存されている受音信号間遅延時間差と音源位置移動検出部13で比較され(ステップ203,204)、その差があらかじめ設定した閾値を超える場合に音源移動ありとして検出される。
【0031】
音源位置移動が検出された場合、受音信号間遅延時間差は受音信号間遅延時間差記憶部14に記憶される。このとき、すでに同じ位置の音源に対する受音信号間遅延時間差が記憶されている場合には、そのデータを上書きし(ステップ206,207)、ない場合には新たに記憶し、受音信号間遅延時間差記憶数(記憶音源数)に1を加算する(ステップ210,211)。また、記憶音源数があらかじめ設定した最大記憶音源数を超えた場合には、最も過去に記憶された受音信号間遅延時間差を破棄し、記憶音源数は最大記憶音源数に固定する(ステップ209)。
【0032】
次に、記憶音源数が、推定可能記憶音源数以上になった場合には、音源位置・受音位置推定部15により、音源位置、受音位置の両方を同時に推定する(ステップ212,213)。推定可能話者数の条件は、表1に示すとおりである。
【0033】
【表1】
Figure 0003720795
【0034】
これ以降は、位置推定に必要な音源数分の受音信号間の遅延時間差が必ず保存されているので、発話者が変わるごとに、受音信号間の遅延時間差の保存と受音位置と音源位置の推定を行う。
【0035】
以下に音源位置・受音位置推定の方法を示す。
【0036】
M個のマイクロホンがあり、ある時点では1つの音源から音が発せられていると想定する。この音源が移動するか、別の音源からの発音に切り替るなどして、N個の音源位置に対する受音信号間遅延時間差が計測、記憶されているとする。マイクロホン数Mは既知であり、受音信号間遅延時間差の記憶個数(記憶音源数)Nは、随時カウントされているので既知である。まず、k番目の音源から音が発せられている場合に、i番目マイクロホンとj番目マイクロホンで受音された信号より求められる受音信号間遅延時間差をτijkとする。次に、m番目の推定受音位置を
【0037】
【外1】
Figure 0003720795
【0038】
n番目の推定音源位置を
【0039】
【外2】
Figure 0003720795
【0040】
と表す。ただし、受音位置および音源位置の全てが未知であるので、位置を推定する前に、座標の基準位置を設ける必要がある。ここでは、1番目受音位置を原点として、2番目受音位置と3番目受音位置とを通る平面をx−y平面として座標を定義する。このようにすれば、
【0041】
【外3】
Figure 0003720795
【0042】
となり、これらは定数となる。
これらの位置から求められる推定受音信号間遅延時間差
【0043】
【外4】
Figure 0003720795
【0044】
は式(6)で表される。
【0045】
【数5】
Figure 0003720795
【0046】
ただし、cは音速である。
【0047】
次に、受音信号間遅延時間差
【0048】
【外5】
Figure 0003720795
【0049】
に音速cを乗じ距離に換算したものを、それぞれ受音位置間距離差
【0050】
【外6】
Figure 0003720795
【0051】
とし、測定値
【0052】
【外7】
Figure 0003720795
【0053】
と推定値
【0054】
【外8】
Figure 0003720795
【0055】
の二乗平均誤差
【0056】
【外9】
Figure 0003720795
【0057】
を求めれば、式(7)となる。
【0058】
【数6】
Figure 0003720795
【0059】
ただし、
【0060】
【外10】
Figure 0003720795
【0061】
であり、3M+3N−6個の要素を持つベクトルを表す。
【0062】
式(7)の二乗平均誤差
【0063】
【外11】
Figure 0003720795
【0064】
を最小化する解を求めれば、受音信号間遅延時間差の測定値と推定値の誤差が最小となる推定受音位置、推定音源位置を求めることができる。ただし、式(7)は非線形方程式となっており、式(7)の最小化問題を解析的に解くことは困難であり、ここでは、逐次修正を用いた数値解析により求めることとする。
【0065】
式(7)を最小化する推定受音位置
【0066】
【外12】
Figure 0003720795
【0067】
と、推定音源位置
【0068】
【外13】
Figure 0003720795
【0069】
を求めるには、ある点における勾配を求め、誤差が小さくなる方向に、推定受音位置、推定音源位置を修正していき、勾配が0となる点を求めればよいので、修正式は式(8)のようになる。
【0070】
【数7】
Figure 0003720795
【0071】
ただし、αは修正のステップサイズ、
【0072】
【外14】
Figure 0003720795
【0073】
は、u回修正後の
【0074】
【外15】
Figure 0003720795
【0075】
を表し、gradは勾配を表し、
【0076】
【外16】
Figure 0003720795
【0077】
は、
【0078】
【外17】
Figure 0003720795
【0079】
の勾配を求め、変数
【0080】
【外18】
Figure 0003720795
【0081】
に、値
【0082】
【外19】
Figure 0003720795
【0083】
を代入することを表す。
【0084】
【外20】
Figure 0003720795
【0085】
の勾配は、式(9)〜(16)で表される。
【0086】
【数8】
Figure 0003720795
【0087】
初期位置を設定し、式(8)の修正式を用いて繰り返し計算をすることにより、推定受音位置、推定音源位置を求めることができる。
【0088】
次に、マイクロホン位置と音源位置を正確に求めるための条件について検討する。
【0089】
まず、マイクロホン間距離差の測定値dijkに誤差がないものと仮定する。この場合、式(17)に示す連立方程式の解が推定マイクロホン位置、推定音源位置となり、式(17)の解が求められるための条件は、独立な式の数が未知変数の数よりも大きくなることである。
【0090】
【数9】
Figure 0003720795
【0091】
ただし、i=1,...,M−1 j=1,...,M(j>i) k=1,...,Nである。
【0092】
式(17)の式の数はN・M(M−1)/2であるが、d13k=d12k+d23kのようにiとjが連続していない式は、全て独立ではないので、独立な式の数は、最大でN・(M−1)となる。
【0093】
マイクロホン位置、音源位置が全く未知の場合、未知変数の数は、3M+3N−6であるので、独立な式の数が未知変数の数よりも大きくなる条件は式(18)となる。式(18)に、あらかじめ決まっているマイクロホン数Mを代入することで、受音位置・音源位置を正確に推定するのに最低限必要な音源数Nを求めることができる。
【0094】
【数10】
Figure 0003720795
【0095】
この条件は、マイクロホンの高さが既知の場合、未知変数の数が2M+3N−3となるので、式(19)となる。式(19)に、あらかじめ決まっているマイクロホン数Mを代入することで、受音位置・音源位置を正確に推定するのに最低限必要な音源数Nを求めることができる。
【0096】
【数11】
Figure 0003720795
【0097】
さらに、マイクロホンの高さおよび音源の高さが既知の場合、未知変数の数が2M+2N−3となるので、式(20)となる。式(20)に、あらかじめ決まっているマイクロホン数Mを代入することで、受音位置・音源位置を正確に推定するのに最低限必要な音源数Nを求めることができる。
【0098】
【数12】
Figure 0003720795
【0099】
式(18)〜(20)を表にまとめれば、表1となる。
【0100】
以上により、マイクロホン位置、音源位置を推定する方法と、推定するためのマイクロホン数、記憶音源数の条件を示した。
【0101】
次に、本実施形態の効果を示すために、シミュレーションの結果を示す。
【0102】
図10にマイクロホンおよび音源の配置を示す。マイクロホンは直径1.5mの円周上に配置され、その高さは0〜0.5m(ただし、マイクロホンの高さ、音源の高さが既知の場合は0m固定)とした。音源は、直径2.5mの円周上に配置し、その高さは、0.5m〜1.0m(ただし、マイクロホンの高さ、音源の高さが既知の場合は0.5m固定)とした。
【0103】
この条件で、マイクロホン数と記憶音源数を変化させ位置推定を行った。マイクロホン、音源の初期位置はランダムとして10回位置推定を行い、その位置推定誤差の平均を求めた。この結果を図11〜13に示す。
【0104】
これら図と、表1に示した推定に必要なマイクロホン数、記憶音源数の関係を比較する。表1に示した推定に必要なマイクロホン数、記憶音源数を満たす場合の大半において、図11〜13の位置推定誤差は1cm未満であり、精度よく推定が行えていることが確認できる。ただし、推定に必要な最小の記憶音源数では、位置推定誤差が10cm程度となる場合もある。この原因は、式(17)において従属な式が存在し、独立な式の数がN・(M−1)よりも減ったためと考えられる。
【0105】
以上より、本実施形態では、受音位置、音源位置が未知であっても、受音位置、音源位置の両方を精度よく推定することが可能であることが確認された。
【0106】
第2の実施形態
図3は本発明の第2の実施形態の音源位置・受音位置推定装置のブロック図である。本実施形態は、第1の実施形態の音源位置移動検出部13を取り除いた構成である。
【0107】
受音信号間遅延時間差記憶部14は、受音信号間遅延時間差推定部12で受音信号間遅延時間差が推定されるごとに、受音信号間遅延時間差を記憶し、保存音源数に1を加算する。また、記憶音源数があらかじめ設定した最大記憶音源数を超えた場合には、最も過去に記憶された受音信号間遅延時間差を破棄し、記憶音源数を最大記憶音源数に固定する。
【0108】
音源が常に移動している場合や、発音する音源が常に切り替っている場合など、受音信号間遅延時間差推定部12で受音信号間遅延時間差が推定されるごとに、音源位置が移動している場合には、第1の実施形態のように音源位置移動検出部13を設ける必要がない。本実施形態は、このような条件のときに適用できる第1の実施形態の構成を簡略化したものである。
【0109】
これら以外の部分に関しては、第1の実施形態と同じであるので、説明を省略する。
【0110】
第3の実施形態
図4は本発明の第3の実施形態の音源位置・受音位置推定装置のブロック図であり、図5は、本発明の第3の実施形態の音源位置・受音位置推定装置のフローチャートである。本実施形態は、第1の実施形態に、受音位置記憶部31と音源位置推定部32と音源位置記憶部33を追加した構成である。
【0111】
受音位置記憶部31は、音源位置・受音位置推定部15で推定された受音位置を記憶する(ステップ217)。音源位置推定部32は、受音位置記憶部31に記憶されている受音位置と、受音信号間遅延時間差推定部12により推定された受音信号間遅延時間差とから、音源位置を推定する(ステップ215)。また、音源位置推定部32の動作は、音源位置・受音位置推定部15の前に行われる。音源位置記憶部33は、音源位置・受音位置推定部15が実行される前に音源位置推定部32で推定された音源位置を記憶する(ステップ216)。音源位置・受音位置推定部15は、音源位置記憶部33に記憶されている音源位置と、受音位置記憶部31に記憶されている受音位置を初期値とし、音源位置・受音位置の推定を行う(ステップ213)。
【0112】
音源位置推定方法を以下に述べる。
【0113】
M個のマイクロホンがあると想定し、i番目のマイクロホンとj番目のマイクロホンで受音された信号より求められる受音信号間遅延時間差をτijとする。次に、m番目の受音位置を(xm,ym,zm)、推定音源位置を
【0114】
【外21】
Figure 0003720795
【0115】
と表す。これらの位置から求められる推定受音信号間遅延時間差
【0116】
【外22】
Figure 0003720795
【0117】
は式(21)で表される。
【0118】
【数13】
Figure 0003720795
【0119】
ただし、cは音速である。
【0120】
次に、受音信号間遅延時間差
【0121】
【外23】
Figure 0003720795
【0122】
に音速cを乗じ距離に換算したものを、それぞれ受音位置間距離差
【0123】
【外24】
Figure 0003720795
【0124】
とし、測定値
【0125】
【外25】
Figure 0003720795
【0126】
と推定値
【0127】
【外26】
Figure 0003720795
【0128】
の二乗平均誤差
【0129】
【外27】
Figure 0003720795
【0130】
を求めれば式(22)となる。
【0131】
【数14】
Figure 0003720795
【0132】
式(22)の二乗平均誤差
【0133】
【外28】
Figure 0003720795
【0134】
を最小化する解を求めれば、受音信号間遅延時間差の測定値と推定値の誤差が最小となる推定音源位置を求めることができる。ただし、式(22)は非線形方程式であり、式(22)の最小化問題を解析的に解くことは困難であり、ここでは、逐次修正を用いた数値解析により求めることとする。
【0135】
式(22)を最小化する推定音源位置
【0136】
【外29】
Figure 0003720795
【0137】
を求めるには、ある点における勾配を求め、誤差が小さくなる方向に、推定音源位置を修正していき、勾配が0となる点を求めればよいので、修正式は式(23)のようになる。
【0138】
【数15】
Figure 0003720795
【0139】
ただし、αは修正のステップサイズ、
【0140】
【外30】
Figure 0003720795
【0141】
は、u回修正後の
【0142】
【外31】
Figure 0003720795
【0143】
を表し、gradは勾配を表し、
【0144】
【外32】
Figure 0003720795
【0145】
は、
【0146】
【外33】
Figure 0003720795
【0147】
の勾配を求め、変数
【0148】
【外34】
Figure 0003720795
【0149】
に、値
【0150】
【外35】
Figure 0003720795
【0151】
を代入することを表す。
【0152】
【外36】
Figure 0003720795
【0153】
の勾配は、式(24)〜式(28)で表わされる。
【0154】
【数16】
Figure 0003720795
【0155】
式(23)の音源位置推定の修正式は、式(8)の音源位置・受音位置の修正式に比べ未知変数が大幅に少ないので、高速に収束する。
【0156】
したがって、受音位置推定が行われた後からは、音源位置を高速に推定することが可能となる。
【0157】
さらに、その後に実行される音源位置・受音位置推定では、すべての未知変数の初期位置と収束位置がほぼ同じ位置となり、逐次修正の収束が高速化される。
【0158】
これら以外の部分に関しては、第1の実施形態と同じであるので、説明を省略する。
【0159】
第4の実施形態
図6は本発明の第4の実施形態の音源位置・受音位置推定装置のブロック図である。本実施形態は、第1の実施形態または第2の実施形態または第3の実施形態において、受音信号間遅延時間差推定部12を有音検出部121とスイッチ1221とFFT(Fast Fourier Transformation)部1261〜126Mと白色化部1271〜127Mと乗算部128とスイッチ1222と雑音クロススペクトル記憶部123と減算部124とIFFT(Inverse Fast Fourier Transformation)部125と最大ピーク検出部120とで構成している。
【0160】
まず、有音検出部121は、マイクロホン111〜11Mで受音した信号のパワーから有音、無音を検出し、スイッチ1222の切替を行う。
【0161】
FFT部1261〜126Mは、受音信号を周波数領域に変換する。このとき、矩形ウインドウ、ハミングウインドウ、ハニングウインドウなどの窓関数が乗算されたから、周波数領域に変換される。白色化部1271〜127Mは、周波数領域に変換された信号を、周波数スペクトルで白色化(フラット)にする。このとき、低周波成分、高周波成分を除くバンドパスフィルタ処理もする。次に、スイッチ1221は、白色化部1271〜127Mの出力信号のうち2つを選択する。このとき、すべてのマイクロホンペアの組み合わせについて以下の処理が実施されるようスイッチの切替が行われる。乗算部128はスイッチ1221により選ばれた信号のうち一方だけ共役をとり、2つの信号を周波数成分ごとに乗算し、クロススペクトルを求める。
【0162】
次に、有音検出部121により無音が検出された場合には、乗算部128の出力のクロススペクトルを雑音のクロススペクトルであるとし、雑音クロススペクトル記憶部123に記憶する。
【0163】
有音検出部121により有音が検出された場合には、減算部124で、乗算部128の出力のクロススペクトルから、雑音クロススペクトル記憶部123に記憶されている雑音クロススペクトルを減算する。これにより、雑音成分が除去され、位置を求めたい音源の信号成分だけとなり、雑音による誤検出を防ぐことができる。次に、減算部124の出力信号をIFFT部125により時間領域に変換し、相互相関を求める。IFFT部125では、推定精度向上のため内挿を行うこともできる。次に、最大ピーク検出部120で、IFFT部125の出力の相互相関の最大ピークを検出し、その最大ピークの地点を受音信号間遅延時間差として出力する。
【0164】
この第4の実施形態では、周波数領域に変換して、相互相関を求めているので、時間領域での相互相関の計算よりも計算量が少なく、高速な計算が可能となり、雑音のクロススペクトルの減算により、耐騒音性能が向上している。
【0165】
受音信号間遅延時間差推定部12以外に関しては、第1の実施形態または第2の実施形態または第3の実施形態と同じであるので、説明を省略する。
【0166】
第5の実施形態
図7は本発明の第5の実施形態の音源位置・受音位置推定装置のブロック図である。本実施形態は、第1の実施形態または第3の実施形態または第4の実施形態において、音源位置移動検出部13を減算部131と二乗平均部132と閾値比較部133とで構成している。
【0167】
減算部131は、受音信号間遅延時間差推定部12の出力である現在の受音信号間遅延時間差と、受音信号間遅延時間差記憶部14に記憶されている過去の受音信号間遅延時間差を減算する。二乗平均部132は減算部131の出力を二乗平均する。次に、閾値比較部133は、二乗平均部132の出力が閾値以上である場合に、音源位置が移動したとして検出する。
【0168】
i番目のマイクロホンとj番目のマイクロホン間の現在の受音信号間遅延時間差を
【0169】
【外37】
Figure 0003720795
【0170】
とし、過去の受音信号時間遅延差を
【0171】
【外38】
Figure 0003720795
【0172】
とし、マイクロホン数がMだった場合、二乗平均部132の出力は式(29)で表される。
【0173】
【数17】
Figure 0003720795
【0174】
現在の音源位置と過去の音源位置がほぼ同じであれば、式(29)はほぼ0となり、現在の音源位置と過去の音源位置が異なれば、式(29)は正の大きな値をとる。したがって、式(29)を閾値と比較することにより、音源の移動が検出できる。
【0175】
これら以外の部分に関しては、第1の実施形態または第3の実施形態または第4の実施形態と同じであるので、説明を省略する。
【0176】
第6の実施形態
図8は本発明の第6の実施形態の音源位置・受音位置推定装置のブロック図である。本実施形態は、第1の実施形態または第2の実施形態または第3の実施形態または第4の実施形態または第5の実施形態において、音源位置・受音位置推定部15を、受音信号間遅延時間差読み込み部141と音源位置・受音位置推定済み判定部142と初期音源位置・受音位置設定部143と初期音源位置・受音位置推定値設定部144と音源位置・受音位置推定アルゴリズム部145と収束判定部146と音源位置・受音位置出力部147とで構成している。
【0177】
受音信号間遅延時間差読み込み部141は、受音信号間遅延時間差記憶部14に記憶されている音信号間遅延時間差を読み込む。音源位置・受音位置推定済み判定部142は、以前に音源位置、受音位置が推定済みであるかを判別する。音源位置・受音位置推定済み判定部142で推定済みと判別された場合には、初期音源位置・受音位置推定値設定部144で、推定済みの音源位置、受音位置を音源位置・受音位置推定アルゴリズムの初期値に設定する。音源位置・受音位置推定済み判定部142で推定済みと判別されない場合には、初期音源位置・受音位置設定部143で、音源位置・受音位置推定アルゴリズムの初期値をランダムに設定する。
【0178】
初期音源位置・受音位置推定値設定部144または初期音源位置・受音位置設定部143で初期値が設定された後に、音源位置・受音位置推定アルゴリズム部145では、式(8)で示した位置推定誤差最小化の繰り返し計算により音源位置、受音位置を推定する。収束判定部146では、音源位置・受音位置推定アルゴリズム部145の位置推定誤差が閾値未満の場合に、音源位置・受音位置推定アルゴリズムが収束したとし、それ以外を収束していないと判別し、収束していない場合は、初期音源位置・受音位置設定部143からの処理を繰り返す。
【0179】
収束判定部146の判定が収束であった場合には、音源位置・受音位置出力部147で推定音源位置・受音位置を出力し、処理を終了する。
【0180】
以上の方法により、音源位置・受音位置推定アルゴリズムが収束するまで処理が繰り返され、正確な推定音源位置・受音位置を得ることができる。
【0181】
これら以外の部分に関しては、第1の実施形態または第2の実施形態または第3の実施形態または第4の実施形態または第5の実施形態と同じであるので、説明を省略する。
【0182】
第7の実施形態
図9は本発明の第7の実施形態の音源位置・受音位置推定装置のブロック図である。第7の実施形態は、第1の実施形態または第2の実施形態または第3の実施形態または第4の実施形態または第5の実施形態において、音源位置・受音位置推定部15を、受音信号間遅延時間差読み込み部141と音源位置・受音位置推定済み判定部142と過去推定誤差初期設定部151と初期音源位置・受音位置設定部143と音源位置・受音位置推定アルゴリズム(短時間)部152と推定誤差比較部153と過去推定誤差設定部154と繰り返し部155と初期音源位置・受音位置繰返し値設置部156と初期音源位置・受音位置推定値設定部144と音源位置・受音位置推定アルゴリズム(長時間)部145と収束判定部146と音源位置・受音位置出力部147とで構成している。
【0183】
受音信号間遅延時間差読み込み部141は、受音信号間遅延時間差記憶部14に記憶されている音信号間遅延時間差を読み込む。音源位置・受音位置推定済み判定部142は、以前に音源位置、受音位置が推定済みであるかを判別する。音源位置・受音位置推定済み判定部142で推定済みと判別された場合には、初期音源位置・受音位置推定値設定部144で、推定済みの音源位置、受音位置を音源位置・受音位置推定アルゴリズムの初期値に設定する。音源位置・受音位置推定済み判定部142で推定済みと判別されない場合には、過去推定誤差初期設定部151で過去推定誤差を十分に大きい値に設定し、初期音源位置・受音位置設定部143で音源位置・受音位置推定アルゴリズム(短時間)の初期値をランダムに設定する。そして、音源位置・受音位置推定アルゴリズム(短時間)部152で、式(8)で示した位置推定誤差最小化の繰り返し計算により音源位置、受音位置を推定する。ここでの繰返し回数は少ない回数であり、計算量は少ないものとする。次に、推定誤差比較部153で、音源位置・受音位置推定アルゴリズム(短時間)部152の推定誤差を過去推定誤差と比較し、推定誤差が過去推定誤差未満であった場合には、過去推定誤差設定部154で過去推定誤差を推定誤差で書き換え、そのときの推定音源位置、受音位置を記憶する。繰り返し部155では、初期音源位置・受音位置設定部143から推定誤差比較部153、過去推定誤差設定部154までの処理を設定回数繰り返す制御を行う。
【0184】
この繰り返し部155の制御による繰返しが終了したら、初期音源位置・受音位置繰返し値設定部156では、過去推定誤差設定部154で記憶されている推定音源位置、受音位置を音源位置・受音位置推定アルゴリズム(長時間)の初期値に設定する。
【0185】
初期音源位置・受音位置推定値設定部144または初期音源位置・受音位置繰返し値設定部156で初期値が設定された後に、音源位置・受音位置推定アルゴリズム(長時間)部145では、式(8)で示した位置推定誤差最小化の繰り返し計算により音源位置、受音位置を推定する。収束判定部146では、音源位置・受音位置推定アルゴリズム(長時間)部145の位置推定誤差が閾値未満の場合に、音源位置・受音位置推定アルゴリズムが収束したとし、それ以外を収束していないと判別し、収束していない場合は、過去推定誤差初期設定部151からの処理を繰り返す。
【0186】
収束判定部146の判定が収束であった場合には、推定音源位置・受音位置出力部147で推定音源位置・受音位置を出力し、処理を終了する。
【0187】
以上の方法により、音源位置・受音位置推定アルゴリズムが収束するまで処理が繰り返され、正確な推定音源位置・受音位置を得ることができる。また、音源位置・受音位置推定アルゴリズム(短時間)部152を複数回実行し、最も推定誤差が小さくなる場合の推定音源位置、受音位置を初期値に設定し、音源位置・受音位置推定アルゴリズム(長時間)部145でさらに繰返し計算させることにより、収束の速い初期値から繰返し計算させることができ、収束までの時間を短縮することができる。
【0188】
これら以外の部分に関しては、第1の実施形態または第2の実施形態または第3の実施形態または第4の実施形態または第5の実施形態と同じであるので、説明を省略する。
【0189】
なお、以上説明した音源および受音位置推定方法は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【0190】
【発明の効果】
以上説明したように、本発明によれば、自由配置で位置が未知である複数の収音手段を用いて、音源位置の推定と、受音位置の推定をすることが可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図2】第1の実施形態の音源位置・受音位置推定装置の処理を示すフローチャートである。
【図3】本発明の第2の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図4】本発明の第3の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図5】第3の実施形態の音源位置・受音位置推定装置の処理を示すフローチャートである。
【図6】本発明の第4の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図7】本発明の第5の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図8】本発明の第6の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図9】本発明の第7の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図10】シミュレーションにおける音源位置、受音位置を示す図である。
【図11】音源の高さが未知で、マイクロホンの高さが未知の場合の位置推定誤差のグラフである。
【図12】音源の高さが未知で、マイクロホンの高さが既知の場合の位置推定誤差のグラフである。
【図13】音源の高さが既知で、マイクロホンの高さが既知の場合の位置推定誤差のグラフである。
【図14】従来の音源位置推定装置を示すブロック図である。
【符号の説明】
111〜11M マイクロホン
12 受音信号間遅延時間差推定部
13 音源位置移動検出部
14 受音信号間遅延時間差記憶部
15 音源位置・受音位置推定部
31 受音位置記憶部
32 音源位置推定部
33 音源位置記憶部
61 話者数追加部
62 新たに受音信号間遅延時間差を記憶する部
63 話者数比較部
64 音源位置、受音位置推定部
71 受音位置推定済み判定部
72 音源位置推定部
73 受音位置記憶部
120 最大ピーク検出部
121 有音検出部
1221,1222 スイッチ
123 雑音クロススペクトル記憶部
124 減算部
125 IFFT
1261〜126M FFT
1271〜127M 白色化部
128 乗算部
131 減算部
132 二乗平均部
133 閾値比較部
141 受音信号間遅延時間差読み込み部
142 音源位置・受音位置推定済み判定部
143 初期音源位置・受音位置設定部
144 初期音源位置・受音位置推定値設定部
145 音源位置・受音位置推定アルゴリズム部
146 収束判定部
147 音源位置・受音位置出力部
151 過去推定誤差初期設定部
152 音源位置・受音位置推定アルゴリズム(短時間)部
153 推定誤差比較部
154 過去推定誤差設定部
155 繰り返し部
156 初期音源位置・受音位置繰返し値設定部
1611〜161M 遅延器
1621〜162M ゲイン
163 加算器
164 パワー計算部
165 最大パワー位置検出部
166 受音位置設定部
167 指向性走査部
201〜217 ステップ

Claims (5)

  1. 複数チャネルの受音信号から、前記複数のチャネルのうち2チャネル間のチャネル間受音時間差の実測値を求めるチャネル間時間差推定段階と、
    推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値と、前記チャンネル間受音時間差の実測値間の誤差を最小化することで、音源位置と受音位置を推定する位置推定段階とを有する音源受音位置推定方法。
  2. 現在のチャネル間時間差と、過去のチャネル間時間差の実測値を用いて、音源位置移動を検出する音源位置移動検出段階と、
    音源位置移動が検出された場合、検出の直前のチャネル間時間差を記憶するチャネル間時間差記憶段階とをさらに有し、
    前記位置推定段階は、前記チャネル間時間差として記憶されたチャネル間時間差の実測値と、推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値間の誤差を最小化することで、音源位置と受音位置を推定する請求項1に記載の音源受音位置推定方法。
  3. 複数チャネルの受音信号から、前記複数のチャネルのうち2チャネル間のチャネル間受音時間差の実測値を求めるチャネル間時間差推定手段と、
    推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値と、前記チャンネル間受音時間差の実測値間の誤差を最小化することで、音源位置と受音位置を推定する位置推定手段とを有する音源受音位置推定装置。
  4. 現在のチャネル間時間差と、過去のチャネル間時間差の実測値を用いて、音源位置移動を検出する音源位置移動検出手段と、
    音源位置移動が検出された場合、検出の直前のチャネル間時間差を記憶するチャネル間時間差記憶手段とを有し、
    前記位置推定手段は、前記チャネル間時間差として記憶されたチャネル間時間差の実測値と、推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値間の誤差を最小化することで、音源位置と受音位置を推定する、請求項3に記載の音源受音位置推定装置。
  5. 請求項1または2に記載の方法をコンピュータに実行させるための音源受音位置推定プログラム。
JP2002223923A 2002-07-31 2002-07-31 音源受音位置推定方法、装置、およびプログラム Expired - Fee Related JP3720795B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002223923A JP3720795B2 (ja) 2002-07-31 2002-07-31 音源受音位置推定方法、装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002223923A JP3720795B2 (ja) 2002-07-31 2002-07-31 音源受音位置推定方法、装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2004064697A JP2004064697A (ja) 2004-02-26
JP3720795B2 true JP3720795B2 (ja) 2005-11-30

Family

ID=31943555

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002223923A Expired - Fee Related JP3720795B2 (ja) 2002-07-31 2002-07-31 音源受音位置推定方法、装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP3720795B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10645493B2 (en) 2018-08-21 2020-05-05 Samsung Electronics Co., Ltd. Sound direction detection sensor and electronic apparatus including the same

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4116600B2 (ja) * 2004-08-24 2008-07-09 日本電信電話株式会社 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体
JP4873913B2 (ja) * 2004-12-17 2012-02-08 学校法人早稲田大学 音源分離システムおよび音源分離方法、並びに音響信号取得装置
US7403157B2 (en) * 2006-09-13 2008-07-22 Mitsubishi Electric Research Laboratories, Inc. Radio ranging using sequential time-difference-of-arrival estimation
KR101438389B1 (ko) * 2007-11-15 2014-09-05 삼성전자주식회사 오디오 매트릭스 디코딩 방법 및 장치
JP5654980B2 (ja) * 2011-01-28 2015-01-14 本田技研工業株式会社 音源位置推定装置、音源位置推定方法、及び音源位置推定プログラム
JP6311197B2 (ja) 2014-02-13 2018-04-18 本田技研工業株式会社 音響処理装置、及び音響処理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3285070B2 (ja) * 1994-09-14 2002-05-27 日本電信電話株式会社 受音方法及びその装置
JPH10332807A (ja) * 1997-06-05 1998-12-18 Fujitsu Ltd 音源方向検出装置
JP3332144B2 (ja) * 1997-06-23 2002-10-07 日本電信電話株式会社 目的音源領域検出方法およびその装置
JP2000004495A (ja) * 1998-06-16 2000-01-07 Oki Electric Ind Co Ltd 複数マイク自由配置による複数話者位置推定方法
EP1081985A3 (en) * 1999-09-01 2006-03-22 Northrop Grumman Corporation Microphone array processing system for noisy multipath environments
JP3548706B2 (ja) * 2000-01-18 2004-07-28 日本電信電話株式会社 ゾーン別収音装置
JP3582712B2 (ja) * 2000-04-19 2004-10-27 日本電信電話株式会社 収音方法および収音装置
JP2003270034A (ja) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 音情報解析方法、装置、プログラム、および記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10645493B2 (en) 2018-08-21 2020-05-05 Samsung Electronics Co., Ltd. Sound direction detection sensor and electronic apparatus including the same
US10873808B2 (en) 2018-08-21 2020-12-22 Samsung Electronics Co., Ltd. Sound direction detection sensor and electronic apparatus including the same

Also Published As

Publication number Publication date
JP2004064697A (ja) 2004-02-26

Similar Documents

Publication Publication Date Title
EP3703052B1 (en) Echo cancellation method and apparatus based on time delay estimation
JP7158806B2 (ja) オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
CN110082725B (zh) 基于麦克风阵列的声源定位时延估计方法、声源定位系统
EP3468162B1 (en) Method and device for tracking echo delay
EP1887831B1 (en) Method, apparatus and program for estimating the direction of a sound source
RU2635286C2 (ru) Способ и устройство для определения позиции микрофона
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
JP6028502B2 (ja) 音声信号処理装置、方法及びプログラム
JP3582712B2 (ja) 収音方法および収音装置
JP2015535962A (ja) オーディオ干渉推定のための方法及び装置
JP2013061421A (ja) 音声信号処理装置、方法及びプログラム
JP5079761B2 (ja) 直間比推定装置、音源距離測定装置、雑音除去装置、各装置の方法と、装置プログラム
JP5838861B2 (ja) 音声信号処理装置、方法及びプログラム
US20090232318A1 (en) Output correcting device and method, and loudspeaker output correcting device and method
JP4422662B2 (ja) 音源位置・受音位置推定方法、その装置、そのプログラム、およびその記録媒体
JP3720795B2 (ja) 音源受音位置推定方法、装置、およびプログラム
JP2021522550A (ja) ギャップ信頼度を用いた背景雑音推定
KR101733231B1 (ko) 음원의 3차원 위치 파악 방법 및 그 장치와, 음원의 3차원 위치를 이용한 음질 개선 방법 및 그 장치
JP3878892B2 (ja) 収音方法、収音装置、および収音プログラム
JP2014194437A (ja) 音声処理装置、音声処理方法および音声処理プログラム
CN116106826A (zh) 声源定位方法、相关装置和介质
JP6711205B2 (ja) 音響信号処理装置、プログラム及び方法
JP5683140B2 (ja) 耐雑音直間比推定装置、干渉雑音除去装置、遠近判定装置、音源距離測定装置と、各装置の方法と、装置プログラム
JP5700850B2 (ja) 遅延推定方法とその方法を用いたエコー消去方法と、それらの装置とプログラムとその記録媒体
WO2021070278A1 (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040729

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040729

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040729

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050908

R150 Certificate of patent (=grant) or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080916

Year of fee payment: 3

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100916

Year of fee payment: 5

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100916

Year of fee payment: 5

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110916

Year of fee payment: 6

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120916

Year of fee payment: 7

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130916

Year of fee payment: 8

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees