JP3720795B2 - 音源受音位置推定方法、装置、およびプログラム - Google Patents
音源受音位置推定方法、装置、およびプログラム Download PDFInfo
- Publication number
- JP3720795B2 JP3720795B2 JP2002223923A JP2002223923A JP3720795B2 JP 3720795 B2 JP3720795 B2 JP 3720795B2 JP 2002223923 A JP2002223923 A JP 2002223923A JP 2002223923 A JP2002223923 A JP 2002223923A JP 3720795 B2 JP3720795 B2 JP 3720795B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound source
- time difference
- estimated
- source position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は音源位置および受音位置を推定する音源位置・受音位置を推定する方法および装置に関する。
【0002】
【従来の技術】
図14は従来の音源位置推定装置のブロック図である。この従来の音源位置推定装置はマイクロホン111〜11Mと受音位置設定部166と指向性走査部167と遅延器1611〜161Mとゲイン1621〜1622と加算器163とパワー計算部164と最大パワー位置検出部165とで構成される。
【0003】
指向性走査部167は、受音位置設定部166で設定されている受音位置と、走査位置から、走査位置に鋭い指向性が形成されるような遅延di(x,y,z)とゲインgi(x,y,z)を計算し、位置が既知である複数のマイクロホン111〜11Mに接続されている遅延器1611〜161Mとゲイン1621〜162Mに設定する。走査位置は、音源が存在可能な範囲で走査する。走査位置ごとに加算器163の出力信号のパワーをパワー計算部164で求め、そのパワーのうち最大値を取る走査位置を推定音源位置として最大パワー位置検出部165で検出する。
【0004】
走査位置(x,y,z)の場合に、i番目のマイクロホン11iに与えられる遅延量di(x,y,z)は、走査位置(x,y,z)から発せられた音が同位相となるように、走査位置(x,y,z)とi番目のマイクロホン位置(xi,yi,zi)と音速cより、式(1)および式(2)を用いて求められる。
【0005】
【数1】
【0006】
ただし、Dは固定遅延量であり、信号を進ませることができないという因果性を満足させるために、di(x,y,z)が必ず正となるように与えられる定数であり、ri(x,y,z)は、走査位置(x,y,z)とi番目のマイクロホン位置(xi,yi,zi)間の距離である。
【0007】
また、走査位置(x,y,z)の場合に、i番目のマイクロホン11iに与えられるゲインgi(x,y,z)は、信号対雑音比が最大となり、各走査位置に対する利得が一定となるように、式(3)で与えられる。
【0008】
【数2】
【0009】
ただし、Vは部屋の体積(m3)であり、TRは残響時間(s)である。
【0010】
走査位置(x,y,z)に対し得られる加算器163の出力y(t,x,y,z)は、各マイクロホンで受音された信号xi(t)に、遅延di(x,y,z)とゲインgi(x,y,z)を与え加算した信号であり、式(4)で表される。
【0011】
【数3】
【0012】
ただし、xi(t)はi番目マイクロホンで受音された信号であり、tは時刻である。
【0013】
次に、パワー計算部164は加算器163の出力信号y(t,x,y,z)の短時間平均パワーを、走査位置ごとに計算する。走査位置ごとに計算されたパワーP(x,y,z)(パワー分布)は、式(5)で表される。
【0014】
【数4】
【0015】
ただし、Tは、短時間平均パワーを求めるための平均時間であり0.1〜1s程度の値である。
【0016】
式(5)のパワー分布は、走査位置に鋭い指向性を向けた場合に収音された音のパワーであるので、その位置にある音源のパワーの推定値となっている。すなわち、パワー分布のうち、大きいパワーを有する位置には音源があり、大きいパワーの位置を検出することにより話者位置の推定が可能となる。最大パワー位置検出部165では、最大パワーを持つ走査位置を検出し、最も大きい音を発する音源位置を検出する。以上の方法により、話者位置の検出が可能となる。
【0017】
【発明が解決しようとする課題】
話者を自動的にズームアップするビデオカメラ制御や、話者に自動的に追従してスポット収音を行う雑音抑圧において、上記従来技術の音源位置推定方法では、あらかじめ受音位置を計測しておかなければ音源位置を推定することはできなく、マイクロホンの自由な配置ができないということや、マイクロホンの設置、移動に多大な労力が必要となるという問題がある。
【0018】
本発明の目的は、受音位置が未知であっても、音源位置および受音位置の推定を可能とし、マイクロホンの自由な配置と、設置、移動を簡易にする音源受音位置推定方法、装置、およびプログラムを提供することにある。
【0019】
【課題を解決するための手段】
本発明の音源受音位置推定方法は、
複数チャネルの受音信号から、前記複数のチャネルのうち2チャネル間のチャネル間受音時間差の実測値を求めるチャネル間時間差推定段階と、
推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値と、前記チャンネル間受音時間差の実測値間の誤差を最小化することで、音源位置と受音位置を推定する位置推定段階とを有する。
【0020】
本発明は、受音信号のチャネル間における遅延時間差に基づく受音位置間距離と推定音源位置から各推定音源位置までの距離差に基づく誤差を最小にするという条件のもとに、推定音源位置と推定受音位置を同時に適応的に求めるものである。
【0021】
本発明の実施態様では、
現在のチャネル間時間差と、過去のチャネル間時間差の実測値を用いて、音源位置移動を検出する音源位置移動検出段階と、
音源位置移動が検出された場合、検出の直前のチャネル間時間差を記憶するチャネル間時間差記憶段階とをさらに有し、
位置推定段階は、前記チャンネル間時間差として記憶されたチャンネル間時間差の実測値と、推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値間の誤差を最小化することで、音源位置と受音位置を推定する。
【0022】
【発明の実施の形態】
次に、本発明の実施形態について図面を参照して説明する。
【0023】
第1の実施形態
図1は本発明の第1の実施形態の音源位置・受音位置推定装置のブロック図であり、図2は、本発明の本実施形態の音源位置・受音位置推定装置の動作を示すフローチャートである。
【0024】
本実施形態の音源位置・受音位置推定装置はマイクロホン111〜11Mと受音信号間遅延時間差推定部12と音源位置移動検出部13と受音信号間遅延時間差記憶部14と音源位置・受音位置推定部15により構成される。
【0025】
受音信号間遅延時間差推定部12は任意位置に配置され、位置が未知であるマイクロホン111〜11Mの各々で受音された受音信号から、各々のマイクロホン対ごとに受音信号間の遅延時間差を求める。音源位置移動検出部13は受音信号間遅延時間差と、直前に記憶された受音信号間遅延時間差を比較し、音源位置の移動を検出する。受音信号間遅延時間差記憶部14は、音源位置移動検出部13により音源位置の移動が検出された場合に、受音信号間遅延時間差を記憶する。音源位置・受音位置推定部15は受音信号間遅延時間差記憶部14に記憶されている複数の音源位置に対する受音信号間遅延時間差を用いて、音源位置および受音位置を推定する。
【0026】
本実施形態は、位置が分からない音源から発せられた音を、位置がわからない複数のマイクロホン111〜11Mにより受音し、その信号から受音信号間の遅延時間差を求め、その遅延時間差を複数の音源分保存し、それらの遅延時間差から、音源位置、受音位置の両方を同時に推定するものである。
【0027】
想定する適用例は、会議のように、複数の人が順に発音していく場合であり、発話者が変わるごとに、受音信号間の遅延時間差を保存していき、位置推定に必要な音源数分の受音信号間の遅延時間差が保存された時点で、受音位置と音源位置を推定する。それ以降は、必ず位置推定に必要な音源数分の受音信号間の遅延時間差が保存されているので、発話者が変わるごとに、受音信号間の遅延時間差の保存と受音位置と音源位置の推定を行う。
【0028】
次に、本実施形態の動作を図2のフローチャートにより説明する。
【0029】
まず、話者数、推定可能話者数、最大話者数、音源位置、受音位置を初期設定する(ステップ201)。
【0030】
受音信号間遅延時間差は、受音信号間遅延時間差推定部12で、マイクロホン111〜11Mで受音された信号の相互相関をとり、そのピークを検出することで求めることができる(ステップ202)。この受音信号間遅延時間差は、直前に保存されている受音信号間遅延時間差と音源位置移動検出部13で比較され(ステップ203,204)、その差があらかじめ設定した閾値を超える場合に音源移動ありとして検出される。
【0031】
音源位置移動が検出された場合、受音信号間遅延時間差は受音信号間遅延時間差記憶部14に記憶される。このとき、すでに同じ位置の音源に対する受音信号間遅延時間差が記憶されている場合には、そのデータを上書きし(ステップ206,207)、ない場合には新たに記憶し、受音信号間遅延時間差記憶数(記憶音源数)に1を加算する(ステップ210,211)。また、記憶音源数があらかじめ設定した最大記憶音源数を超えた場合には、最も過去に記憶された受音信号間遅延時間差を破棄し、記憶音源数は最大記憶音源数に固定する(ステップ209)。
【0032】
次に、記憶音源数が、推定可能記憶音源数以上になった場合には、音源位置・受音位置推定部15により、音源位置、受音位置の両方を同時に推定する(ステップ212,213)。推定可能話者数の条件は、表1に示すとおりである。
【0033】
【表1】
【0034】
これ以降は、位置推定に必要な音源数分の受音信号間の遅延時間差が必ず保存されているので、発話者が変わるごとに、受音信号間の遅延時間差の保存と受音位置と音源位置の推定を行う。
【0035】
以下に音源位置・受音位置推定の方法を示す。
【0036】
M個のマイクロホンがあり、ある時点では1つの音源から音が発せられていると想定する。この音源が移動するか、別の音源からの発音に切り替るなどして、N個の音源位置に対する受音信号間遅延時間差が計測、記憶されているとする。マイクロホン数Mは既知であり、受音信号間遅延時間差の記憶個数(記憶音源数)Nは、随時カウントされているので既知である。まず、k番目の音源から音が発せられている場合に、i番目マイクロホンとj番目マイクロホンで受音された信号より求められる受音信号間遅延時間差をτijkとする。次に、m番目の推定受音位置を
【0037】
【外1】
【0038】
n番目の推定音源位置を
【0039】
【外2】
【0040】
と表す。ただし、受音位置および音源位置の全てが未知であるので、位置を推定する前に、座標の基準位置を設ける必要がある。ここでは、1番目受音位置を原点として、2番目受音位置と3番目受音位置とを通る平面をx−y平面として座標を定義する。このようにすれば、
【0041】
【外3】
【0042】
となり、これらは定数となる。
これらの位置から求められる推定受音信号間遅延時間差
【0043】
【外4】
【0044】
は式(6)で表される。
【0045】
【数5】
【0046】
ただし、cは音速である。
【0047】
次に、受音信号間遅延時間差
【0048】
【外5】
【0049】
に音速cを乗じ距離に換算したものを、それぞれ受音位置間距離差
【0050】
【外6】
【0051】
とし、測定値
【0052】
【外7】
【0053】
と推定値
【0054】
【外8】
【0055】
の二乗平均誤差
【0056】
【外9】
【0057】
を求めれば、式(7)となる。
【0058】
【数6】
【0059】
ただし、
【0060】
【外10】
【0061】
であり、3M+3N−6個の要素を持つベクトルを表す。
【0062】
式(7)の二乗平均誤差
【0063】
【外11】
【0064】
を最小化する解を求めれば、受音信号間遅延時間差の測定値と推定値の誤差が最小となる推定受音位置、推定音源位置を求めることができる。ただし、式(7)は非線形方程式となっており、式(7)の最小化問題を解析的に解くことは困難であり、ここでは、逐次修正を用いた数値解析により求めることとする。
【0065】
式(7)を最小化する推定受音位置
【0066】
【外12】
【0067】
と、推定音源位置
【0068】
【外13】
【0069】
を求めるには、ある点における勾配を求め、誤差が小さくなる方向に、推定受音位置、推定音源位置を修正していき、勾配が0となる点を求めればよいので、修正式は式(8)のようになる。
【0070】
【数7】
【0071】
ただし、αは修正のステップサイズ、
【0072】
【外14】
【0073】
は、u回修正後の
【0074】
【外15】
【0075】
を表し、gradは勾配を表し、
【0076】
【外16】
【0077】
は、
【0078】
【外17】
【0079】
の勾配を求め、変数
【0080】
【外18】
【0081】
に、値
【0082】
【外19】
【0083】
を代入することを表す。
【0084】
【外20】
【0085】
の勾配は、式(9)〜(16)で表される。
【0086】
【数8】
【0087】
初期位置を設定し、式(8)の修正式を用いて繰り返し計算をすることにより、推定受音位置、推定音源位置を求めることができる。
【0088】
次に、マイクロホン位置と音源位置を正確に求めるための条件について検討する。
【0089】
まず、マイクロホン間距離差の測定値dijkに誤差がないものと仮定する。この場合、式(17)に示す連立方程式の解が推定マイクロホン位置、推定音源位置となり、式(17)の解が求められるための条件は、独立な式の数が未知変数の数よりも大きくなることである。
【0090】
【数9】
【0091】
ただし、i=1,...,M−1 j=1,...,M(j>i) k=1,...,Nである。
【0092】
式(17)の式の数はN・M(M−1)/2であるが、d13k=d12k+d23kのようにiとjが連続していない式は、全て独立ではないので、独立な式の数は、最大でN・(M−1)となる。
【0093】
マイクロホン位置、音源位置が全く未知の場合、未知変数の数は、3M+3N−6であるので、独立な式の数が未知変数の数よりも大きくなる条件は式(18)となる。式(18)に、あらかじめ決まっているマイクロホン数Mを代入することで、受音位置・音源位置を正確に推定するのに最低限必要な音源数Nを求めることができる。
【0094】
【数10】
【0095】
この条件は、マイクロホンの高さが既知の場合、未知変数の数が2M+3N−3となるので、式(19)となる。式(19)に、あらかじめ決まっているマイクロホン数Mを代入することで、受音位置・音源位置を正確に推定するのに最低限必要な音源数Nを求めることができる。
【0096】
【数11】
【0097】
さらに、マイクロホンの高さおよび音源の高さが既知の場合、未知変数の数が2M+2N−3となるので、式(20)となる。式(20)に、あらかじめ決まっているマイクロホン数Mを代入することで、受音位置・音源位置を正確に推定するのに最低限必要な音源数Nを求めることができる。
【0098】
【数12】
【0099】
式(18)〜(20)を表にまとめれば、表1となる。
【0100】
以上により、マイクロホン位置、音源位置を推定する方法と、推定するためのマイクロホン数、記憶音源数の条件を示した。
【0101】
次に、本実施形態の効果を示すために、シミュレーションの結果を示す。
【0102】
図10にマイクロホンおよび音源の配置を示す。マイクロホンは直径1.5mの円周上に配置され、その高さは0〜0.5m(ただし、マイクロホンの高さ、音源の高さが既知の場合は0m固定)とした。音源は、直径2.5mの円周上に配置し、その高さは、0.5m〜1.0m(ただし、マイクロホンの高さ、音源の高さが既知の場合は0.5m固定)とした。
【0103】
この条件で、マイクロホン数と記憶音源数を変化させ位置推定を行った。マイクロホン、音源の初期位置はランダムとして10回位置推定を行い、その位置推定誤差の平均を求めた。この結果を図11〜13に示す。
【0104】
これら図と、表1に示した推定に必要なマイクロホン数、記憶音源数の関係を比較する。表1に示した推定に必要なマイクロホン数、記憶音源数を満たす場合の大半において、図11〜13の位置推定誤差は1cm未満であり、精度よく推定が行えていることが確認できる。ただし、推定に必要な最小の記憶音源数では、位置推定誤差が10cm程度となる場合もある。この原因は、式(17)において従属な式が存在し、独立な式の数がN・(M−1)よりも減ったためと考えられる。
【0105】
以上より、本実施形態では、受音位置、音源位置が未知であっても、受音位置、音源位置の両方を精度よく推定することが可能であることが確認された。
【0106】
第2の実施形態
図3は本発明の第2の実施形態の音源位置・受音位置推定装置のブロック図である。本実施形態は、第1の実施形態の音源位置移動検出部13を取り除いた構成である。
【0107】
受音信号間遅延時間差記憶部14は、受音信号間遅延時間差推定部12で受音信号間遅延時間差が推定されるごとに、受音信号間遅延時間差を記憶し、保存音源数に1を加算する。また、記憶音源数があらかじめ設定した最大記憶音源数を超えた場合には、最も過去に記憶された受音信号間遅延時間差を破棄し、記憶音源数を最大記憶音源数に固定する。
【0108】
音源が常に移動している場合や、発音する音源が常に切り替っている場合など、受音信号間遅延時間差推定部12で受音信号間遅延時間差が推定されるごとに、音源位置が移動している場合には、第1の実施形態のように音源位置移動検出部13を設ける必要がない。本実施形態は、このような条件のときに適用できる第1の実施形態の構成を簡略化したものである。
【0109】
これら以外の部分に関しては、第1の実施形態と同じであるので、説明を省略する。
【0110】
第3の実施形態
図4は本発明の第3の実施形態の音源位置・受音位置推定装置のブロック図であり、図5は、本発明の第3の実施形態の音源位置・受音位置推定装置のフローチャートである。本実施形態は、第1の実施形態に、受音位置記憶部31と音源位置推定部32と音源位置記憶部33を追加した構成である。
【0111】
受音位置記憶部31は、音源位置・受音位置推定部15で推定された受音位置を記憶する(ステップ217)。音源位置推定部32は、受音位置記憶部31に記憶されている受音位置と、受音信号間遅延時間差推定部12により推定された受音信号間遅延時間差とから、音源位置を推定する(ステップ215)。また、音源位置推定部32の動作は、音源位置・受音位置推定部15の前に行われる。音源位置記憶部33は、音源位置・受音位置推定部15が実行される前に音源位置推定部32で推定された音源位置を記憶する(ステップ216)。音源位置・受音位置推定部15は、音源位置記憶部33に記憶されている音源位置と、受音位置記憶部31に記憶されている受音位置を初期値とし、音源位置・受音位置の推定を行う(ステップ213)。
【0112】
音源位置推定方法を以下に述べる。
【0113】
M個のマイクロホンがあると想定し、i番目のマイクロホンとj番目のマイクロホンで受音された信号より求められる受音信号間遅延時間差をτijとする。次に、m番目の受音位置を(xm,ym,zm)、推定音源位置を
【0114】
【外21】
【0115】
と表す。これらの位置から求められる推定受音信号間遅延時間差
【0116】
【外22】
【0117】
は式(21)で表される。
【0118】
【数13】
【0119】
ただし、cは音速である。
【0120】
次に、受音信号間遅延時間差
【0121】
【外23】
【0122】
に音速cを乗じ距離に換算したものを、それぞれ受音位置間距離差
【0123】
【外24】
【0124】
とし、測定値
【0125】
【外25】
【0126】
と推定値
【0127】
【外26】
【0128】
の二乗平均誤差
【0129】
【外27】
【0130】
を求めれば式(22)となる。
【0131】
【数14】
【0132】
式(22)の二乗平均誤差
【0133】
【外28】
【0134】
を最小化する解を求めれば、受音信号間遅延時間差の測定値と推定値の誤差が最小となる推定音源位置を求めることができる。ただし、式(22)は非線形方程式であり、式(22)の最小化問題を解析的に解くことは困難であり、ここでは、逐次修正を用いた数値解析により求めることとする。
【0135】
式(22)を最小化する推定音源位置
【0136】
【外29】
【0137】
を求めるには、ある点における勾配を求め、誤差が小さくなる方向に、推定音源位置を修正していき、勾配が0となる点を求めればよいので、修正式は式(23)のようになる。
【0138】
【数15】
【0139】
ただし、αは修正のステップサイズ、
【0140】
【外30】
【0141】
は、u回修正後の
【0142】
【外31】
【0143】
を表し、gradは勾配を表し、
【0144】
【外32】
【0145】
は、
【0146】
【外33】
【0147】
の勾配を求め、変数
【0148】
【外34】
【0149】
に、値
【0150】
【外35】
【0151】
を代入することを表す。
【0152】
【外36】
【0153】
の勾配は、式(24)〜式(28)で表わされる。
【0154】
【数16】
【0155】
式(23)の音源位置推定の修正式は、式(8)の音源位置・受音位置の修正式に比べ未知変数が大幅に少ないので、高速に収束する。
【0156】
したがって、受音位置推定が行われた後からは、音源位置を高速に推定することが可能となる。
【0157】
さらに、その後に実行される音源位置・受音位置推定では、すべての未知変数の初期位置と収束位置がほぼ同じ位置となり、逐次修正の収束が高速化される。
【0158】
これら以外の部分に関しては、第1の実施形態と同じであるので、説明を省略する。
【0159】
第4の実施形態
図6は本発明の第4の実施形態の音源位置・受音位置推定装置のブロック図である。本実施形態は、第1の実施形態または第2の実施形態または第3の実施形態において、受音信号間遅延時間差推定部12を有音検出部121とスイッチ1221とFFT(Fast Fourier Transformation)部1261〜126Mと白色化部1271〜127Mと乗算部128とスイッチ1222と雑音クロススペクトル記憶部123と減算部124とIFFT(Inverse Fast Fourier Transformation)部125と最大ピーク検出部120とで構成している。
【0160】
まず、有音検出部121は、マイクロホン111〜11Mで受音した信号のパワーから有音、無音を検出し、スイッチ1222の切替を行う。
【0161】
FFT部1261〜126Mは、受音信号を周波数領域に変換する。このとき、矩形ウインドウ、ハミングウインドウ、ハニングウインドウなどの窓関数が乗算されたから、周波数領域に変換される。白色化部1271〜127Mは、周波数領域に変換された信号を、周波数スペクトルで白色化(フラット)にする。このとき、低周波成分、高周波成分を除くバンドパスフィルタ処理もする。次に、スイッチ1221は、白色化部1271〜127Mの出力信号のうち2つを選択する。このとき、すべてのマイクロホンペアの組み合わせについて以下の処理が実施されるようスイッチの切替が行われる。乗算部128はスイッチ1221により選ばれた信号のうち一方だけ共役をとり、2つの信号を周波数成分ごとに乗算し、クロススペクトルを求める。
【0162】
次に、有音検出部121により無音が検出された場合には、乗算部128の出力のクロススペクトルを雑音のクロススペクトルであるとし、雑音クロススペクトル記憶部123に記憶する。
【0163】
有音検出部121により有音が検出された場合には、減算部124で、乗算部128の出力のクロススペクトルから、雑音クロススペクトル記憶部123に記憶されている雑音クロススペクトルを減算する。これにより、雑音成分が除去され、位置を求めたい音源の信号成分だけとなり、雑音による誤検出を防ぐことができる。次に、減算部124の出力信号をIFFT部125により時間領域に変換し、相互相関を求める。IFFT部125では、推定精度向上のため内挿を行うこともできる。次に、最大ピーク検出部120で、IFFT部125の出力の相互相関の最大ピークを検出し、その最大ピークの地点を受音信号間遅延時間差として出力する。
【0164】
この第4の実施形態では、周波数領域に変換して、相互相関を求めているので、時間領域での相互相関の計算よりも計算量が少なく、高速な計算が可能となり、雑音のクロススペクトルの減算により、耐騒音性能が向上している。
【0165】
受音信号間遅延時間差推定部12以外に関しては、第1の実施形態または第2の実施形態または第3の実施形態と同じであるので、説明を省略する。
【0166】
第5の実施形態
図7は本発明の第5の実施形態の音源位置・受音位置推定装置のブロック図である。本実施形態は、第1の実施形態または第3の実施形態または第4の実施形態において、音源位置移動検出部13を減算部131と二乗平均部132と閾値比較部133とで構成している。
【0167】
減算部131は、受音信号間遅延時間差推定部12の出力である現在の受音信号間遅延時間差と、受音信号間遅延時間差記憶部14に記憶されている過去の受音信号間遅延時間差を減算する。二乗平均部132は減算部131の出力を二乗平均する。次に、閾値比較部133は、二乗平均部132の出力が閾値以上である場合に、音源位置が移動したとして検出する。
【0168】
i番目のマイクロホンとj番目のマイクロホン間の現在の受音信号間遅延時間差を
【0169】
【外37】
【0170】
とし、過去の受音信号時間遅延差を
【0171】
【外38】
【0172】
とし、マイクロホン数がMだった場合、二乗平均部132の出力は式(29)で表される。
【0173】
【数17】
【0174】
現在の音源位置と過去の音源位置がほぼ同じであれば、式(29)はほぼ0となり、現在の音源位置と過去の音源位置が異なれば、式(29)は正の大きな値をとる。したがって、式(29)を閾値と比較することにより、音源の移動が検出できる。
【0175】
これら以外の部分に関しては、第1の実施形態または第3の実施形態または第4の実施形態と同じであるので、説明を省略する。
【0176】
第6の実施形態
図8は本発明の第6の実施形態の音源位置・受音位置推定装置のブロック図である。本実施形態は、第1の実施形態または第2の実施形態または第3の実施形態または第4の実施形態または第5の実施形態において、音源位置・受音位置推定部15を、受音信号間遅延時間差読み込み部141と音源位置・受音位置推定済み判定部142と初期音源位置・受音位置設定部143と初期音源位置・受音位置推定値設定部144と音源位置・受音位置推定アルゴリズム部145と収束判定部146と音源位置・受音位置出力部147とで構成している。
【0177】
受音信号間遅延時間差読み込み部141は、受音信号間遅延時間差記憶部14に記憶されている音信号間遅延時間差を読み込む。音源位置・受音位置推定済み判定部142は、以前に音源位置、受音位置が推定済みであるかを判別する。音源位置・受音位置推定済み判定部142で推定済みと判別された場合には、初期音源位置・受音位置推定値設定部144で、推定済みの音源位置、受音位置を音源位置・受音位置推定アルゴリズムの初期値に設定する。音源位置・受音位置推定済み判定部142で推定済みと判別されない場合には、初期音源位置・受音位置設定部143で、音源位置・受音位置推定アルゴリズムの初期値をランダムに設定する。
【0178】
初期音源位置・受音位置推定値設定部144または初期音源位置・受音位置設定部143で初期値が設定された後に、音源位置・受音位置推定アルゴリズム部145では、式(8)で示した位置推定誤差最小化の繰り返し計算により音源位置、受音位置を推定する。収束判定部146では、音源位置・受音位置推定アルゴリズム部145の位置推定誤差が閾値未満の場合に、音源位置・受音位置推定アルゴリズムが収束したとし、それ以外を収束していないと判別し、収束していない場合は、初期音源位置・受音位置設定部143からの処理を繰り返す。
【0179】
収束判定部146の判定が収束であった場合には、音源位置・受音位置出力部147で推定音源位置・受音位置を出力し、処理を終了する。
【0180】
以上の方法により、音源位置・受音位置推定アルゴリズムが収束するまで処理が繰り返され、正確な推定音源位置・受音位置を得ることができる。
【0181】
これら以外の部分に関しては、第1の実施形態または第2の実施形態または第3の実施形態または第4の実施形態または第5の実施形態と同じであるので、説明を省略する。
【0182】
第7の実施形態
図9は本発明の第7の実施形態の音源位置・受音位置推定装置のブロック図である。第7の実施形態は、第1の実施形態または第2の実施形態または第3の実施形態または第4の実施形態または第5の実施形態において、音源位置・受音位置推定部15を、受音信号間遅延時間差読み込み部141と音源位置・受音位置推定済み判定部142と過去推定誤差初期設定部151と初期音源位置・受音位置設定部143と音源位置・受音位置推定アルゴリズム(短時間)部152と推定誤差比較部153と過去推定誤差設定部154と繰り返し部155と初期音源位置・受音位置繰返し値設置部156と初期音源位置・受音位置推定値設定部144と音源位置・受音位置推定アルゴリズム(長時間)部145と収束判定部146と音源位置・受音位置出力部147とで構成している。
【0183】
受音信号間遅延時間差読み込み部141は、受音信号間遅延時間差記憶部14に記憶されている音信号間遅延時間差を読み込む。音源位置・受音位置推定済み判定部142は、以前に音源位置、受音位置が推定済みであるかを判別する。音源位置・受音位置推定済み判定部142で推定済みと判別された場合には、初期音源位置・受音位置推定値設定部144で、推定済みの音源位置、受音位置を音源位置・受音位置推定アルゴリズムの初期値に設定する。音源位置・受音位置推定済み判定部142で推定済みと判別されない場合には、過去推定誤差初期設定部151で過去推定誤差を十分に大きい値に設定し、初期音源位置・受音位置設定部143で音源位置・受音位置推定アルゴリズム(短時間)の初期値をランダムに設定する。そして、音源位置・受音位置推定アルゴリズム(短時間)部152で、式(8)で示した位置推定誤差最小化の繰り返し計算により音源位置、受音位置を推定する。ここでの繰返し回数は少ない回数であり、計算量は少ないものとする。次に、推定誤差比較部153で、音源位置・受音位置推定アルゴリズム(短時間)部152の推定誤差を過去推定誤差と比較し、推定誤差が過去推定誤差未満であった場合には、過去推定誤差設定部154で過去推定誤差を推定誤差で書き換え、そのときの推定音源位置、受音位置を記憶する。繰り返し部155では、初期音源位置・受音位置設定部143から推定誤差比較部153、過去推定誤差設定部154までの処理を設定回数繰り返す制御を行う。
【0184】
この繰り返し部155の制御による繰返しが終了したら、初期音源位置・受音位置繰返し値設定部156では、過去推定誤差設定部154で記憶されている推定音源位置、受音位置を音源位置・受音位置推定アルゴリズム(長時間)の初期値に設定する。
【0185】
初期音源位置・受音位置推定値設定部144または初期音源位置・受音位置繰返し値設定部156で初期値が設定された後に、音源位置・受音位置推定アルゴリズム(長時間)部145では、式(8)で示した位置推定誤差最小化の繰り返し計算により音源位置、受音位置を推定する。収束判定部146では、音源位置・受音位置推定アルゴリズム(長時間)部145の位置推定誤差が閾値未満の場合に、音源位置・受音位置推定アルゴリズムが収束したとし、それ以外を収束していないと判別し、収束していない場合は、過去推定誤差初期設定部151からの処理を繰り返す。
【0186】
収束判定部146の判定が収束であった場合には、推定音源位置・受音位置出力部147で推定音源位置・受音位置を出力し、処理を終了する。
【0187】
以上の方法により、音源位置・受音位置推定アルゴリズムが収束するまで処理が繰り返され、正確な推定音源位置・受音位置を得ることができる。また、音源位置・受音位置推定アルゴリズム(短時間)部152を複数回実行し、最も推定誤差が小さくなる場合の推定音源位置、受音位置を初期値に設定し、音源位置・受音位置推定アルゴリズム(長時間)部145でさらに繰返し計算させることにより、収束の速い初期値から繰返し計算させることができ、収束までの時間を短縮することができる。
【0188】
これら以外の部分に関しては、第1の実施形態または第2の実施形態または第3の実施形態または第4の実施形態または第5の実施形態と同じであるので、説明を省略する。
【0189】
なお、以上説明した音源および受音位置推定方法は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【0190】
【発明の効果】
以上説明したように、本発明によれば、自由配置で位置が未知である複数の収音手段を用いて、音源位置の推定と、受音位置の推定をすることが可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図2】第1の実施形態の音源位置・受音位置推定装置の処理を示すフローチャートである。
【図3】本発明の第2の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図4】本発明の第3の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図5】第3の実施形態の音源位置・受音位置推定装置の処理を示すフローチャートである。
【図6】本発明の第4の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図7】本発明の第5の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図8】本発明の第6の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図9】本発明の第7の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図10】シミュレーションにおける音源位置、受音位置を示す図である。
【図11】音源の高さが未知で、マイクロホンの高さが未知の場合の位置推定誤差のグラフである。
【図12】音源の高さが未知で、マイクロホンの高さが既知の場合の位置推定誤差のグラフである。
【図13】音源の高さが既知で、マイクロホンの高さが既知の場合の位置推定誤差のグラフである。
【図14】従来の音源位置推定装置を示すブロック図である。
【符号の説明】
111〜11M マイクロホン
12 受音信号間遅延時間差推定部
13 音源位置移動検出部
14 受音信号間遅延時間差記憶部
15 音源位置・受音位置推定部
31 受音位置記憶部
32 音源位置推定部
33 音源位置記憶部
61 話者数追加部
62 新たに受音信号間遅延時間差を記憶する部
63 話者数比較部
64 音源位置、受音位置推定部
71 受音位置推定済み判定部
72 音源位置推定部
73 受音位置記憶部
120 最大ピーク検出部
121 有音検出部
1221,1222 スイッチ
123 雑音クロススペクトル記憶部
124 減算部
125 IFFT
1261〜126M FFT
1271〜127M 白色化部
128 乗算部
131 減算部
132 二乗平均部
133 閾値比較部
141 受音信号間遅延時間差読み込み部
142 音源位置・受音位置推定済み判定部
143 初期音源位置・受音位置設定部
144 初期音源位置・受音位置推定値設定部
145 音源位置・受音位置推定アルゴリズム部
146 収束判定部
147 音源位置・受音位置出力部
151 過去推定誤差初期設定部
152 音源位置・受音位置推定アルゴリズム(短時間)部
153 推定誤差比較部
154 過去推定誤差設定部
155 繰り返し部
156 初期音源位置・受音位置繰返し値設定部
1611〜161M 遅延器
1621〜162M ゲイン
163 加算器
164 パワー計算部
165 最大パワー位置検出部
166 受音位置設定部
167 指向性走査部
201〜217 ステップ
Claims (5)
- 複数チャネルの受音信号から、前記複数のチャネルのうち2チャネル間のチャネル間受音時間差の実測値を求めるチャネル間時間差推定段階と、
推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値と、前記チャンネル間受音時間差の実測値間の誤差を最小化することで、音源位置と受音位置を推定する位置推定段階とを有する音源受音位置推定方法。 - 現在のチャネル間時間差と、過去のチャネル間時間差の実測値を用いて、音源位置移動を検出する音源位置移動検出段階と、
音源位置移動が検出された場合、検出の直前のチャネル間時間差を記憶するチャネル間時間差記憶段階とをさらに有し、
前記位置推定段階は、前記チャネル間時間差として記憶されたチャネル間時間差の実測値と、推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値間の誤差を最小化することで、音源位置と受音位置を推定する請求項1に記載の音源受音位置推定方法。 - 複数チャネルの受音信号から、前記複数のチャネルのうち2チャネル間のチャネル間受音時間差の実測値を求めるチャネル間時間差推定手段と、
推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値と、前記チャンネル間受音時間差の実測値間の誤差を最小化することで、音源位置と受音位置を推定する位置推定手段とを有する音源受音位置推定装置。 - 現在のチャネル間時間差と、過去のチャネル間時間差の実測値を用いて、音源位置移動を検出する音源位置移動検出手段と、
音源位置移動が検出された場合、検出の直前のチャネル間時間差を記憶するチャネル間時間差記憶手段とを有し、
前記位置推定手段は、前記チャネル間時間差として記憶されたチャネル間時間差の実測値と、推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値間の誤差を最小化することで、音源位置と受音位置を推定する、請求項3に記載の音源受音位置推定装置。 - 請求項1または2に記載の方法をコンピュータに実行させるための音源受音位置推定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002223923A JP3720795B2 (ja) | 2002-07-31 | 2002-07-31 | 音源受音位置推定方法、装置、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002223923A JP3720795B2 (ja) | 2002-07-31 | 2002-07-31 | 音源受音位置推定方法、装置、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004064697A JP2004064697A (ja) | 2004-02-26 |
JP3720795B2 true JP3720795B2 (ja) | 2005-11-30 |
Family
ID=31943555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002223923A Expired - Fee Related JP3720795B2 (ja) | 2002-07-31 | 2002-07-31 | 音源受音位置推定方法、装置、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3720795B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10645493B2 (en) | 2018-08-21 | 2020-05-05 | Samsung Electronics Co., Ltd. | Sound direction detection sensor and electronic apparatus including the same |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4116600B2 (ja) * | 2004-08-24 | 2008-07-09 | 日本電信電話株式会社 | 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体 |
JP4873913B2 (ja) * | 2004-12-17 | 2012-02-08 | 学校法人早稲田大学 | 音源分離システムおよび音源分離方法、並びに音響信号取得装置 |
US7403157B2 (en) * | 2006-09-13 | 2008-07-22 | Mitsubishi Electric Research Laboratories, Inc. | Radio ranging using sequential time-difference-of-arrival estimation |
KR101438389B1 (ko) * | 2007-11-15 | 2014-09-05 | 삼성전자주식회사 | 오디오 매트릭스 디코딩 방법 및 장치 |
JP5654980B2 (ja) * | 2011-01-28 | 2015-01-14 | 本田技研工業株式会社 | 音源位置推定装置、音源位置推定方法、及び音源位置推定プログラム |
JP6311197B2 (ja) | 2014-02-13 | 2018-04-18 | 本田技研工業株式会社 | 音響処理装置、及び音響処理方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3285070B2 (ja) * | 1994-09-14 | 2002-05-27 | 日本電信電話株式会社 | 受音方法及びその装置 |
JPH10332807A (ja) * | 1997-06-05 | 1998-12-18 | Fujitsu Ltd | 音源方向検出装置 |
JP3332144B2 (ja) * | 1997-06-23 | 2002-10-07 | 日本電信電話株式会社 | 目的音源領域検出方法およびその装置 |
JP2000004495A (ja) * | 1998-06-16 | 2000-01-07 | Oki Electric Ind Co Ltd | 複数マイク自由配置による複数話者位置推定方法 |
EP1081985A3 (en) * | 1999-09-01 | 2006-03-22 | Northrop Grumman Corporation | Microphone array processing system for noisy multipath environments |
JP3548706B2 (ja) * | 2000-01-18 | 2004-07-28 | 日本電信電話株式会社 | ゾーン別収音装置 |
JP3582712B2 (ja) * | 2000-04-19 | 2004-10-27 | 日本電信電話株式会社 | 収音方法および収音装置 |
JP2003270034A (ja) * | 2002-03-15 | 2003-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音情報解析方法、装置、プログラム、および記録媒体 |
-
2002
- 2002-07-31 JP JP2002223923A patent/JP3720795B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10645493B2 (en) | 2018-08-21 | 2020-05-05 | Samsung Electronics Co., Ltd. | Sound direction detection sensor and electronic apparatus including the same |
US10873808B2 (en) | 2018-08-21 | 2020-12-22 | Samsung Electronics Co., Ltd. | Sound direction detection sensor and electronic apparatus including the same |
Also Published As
Publication number | Publication date |
---|---|
JP2004064697A (ja) | 2004-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3703052B1 (en) | Echo cancellation method and apparatus based on time delay estimation | |
JP7158806B2 (ja) | オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム | |
CN110082725B (zh) | 基于麦克风阵列的声源定位时延估计方法、声源定位系统 | |
EP3468162B1 (en) | Method and device for tracking echo delay | |
EP1887831B1 (en) | Method, apparatus and program for estimating the direction of a sound source | |
RU2635286C2 (ru) | Способ и устройство для определения позиции микрофона | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
JP6028502B2 (ja) | 音声信号処理装置、方法及びプログラム | |
JP3582712B2 (ja) | 収音方法および収音装置 | |
JP2015535962A (ja) | オーディオ干渉推定のための方法及び装置 | |
JP2013061421A (ja) | 音声信号処理装置、方法及びプログラム | |
JP5079761B2 (ja) | 直間比推定装置、音源距離測定装置、雑音除去装置、各装置の方法と、装置プログラム | |
JP5838861B2 (ja) | 音声信号処理装置、方法及びプログラム | |
US20090232318A1 (en) | Output correcting device and method, and loudspeaker output correcting device and method | |
JP4422662B2 (ja) | 音源位置・受音位置推定方法、その装置、そのプログラム、およびその記録媒体 | |
JP3720795B2 (ja) | 音源受音位置推定方法、装置、およびプログラム | |
JP2021522550A (ja) | ギャップ信頼度を用いた背景雑音推定 | |
KR101733231B1 (ko) | 음원의 3차원 위치 파악 방법 및 그 장치와, 음원의 3차원 위치를 이용한 음질 개선 방법 및 그 장치 | |
JP3878892B2 (ja) | 収音方法、収音装置、および収音プログラム | |
JP2014194437A (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
CN116106826A (zh) | 声源定位方法、相关装置和介质 | |
JP6711205B2 (ja) | 音響信号処理装置、プログラム及び方法 | |
JP5683140B2 (ja) | 耐雑音直間比推定装置、干渉雑音除去装置、遠近判定装置、音源距離測定装置と、各装置の方法と、装置プログラム | |
JP5700850B2 (ja) | 遅延推定方法とその方法を用いたエコー消去方法と、それらの装置とプログラムとその記録媒体 | |
WO2021070278A1 (ja) | 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040729 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040729 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040729 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050831 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050908 |
|
R150 | Certificate of patent (=grant) or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080916 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090916 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090916 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100916 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100916 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110916 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120916 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130916 Year of fee payment: 8 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |