JP4051325B2 - 話者位置検出方法、装置、プログラム、および記録媒体 - Google Patents

話者位置検出方法、装置、プログラム、および記録媒体 Download PDF

Info

Publication number
JP4051325B2
JP4051325B2 JP2003295279A JP2003295279A JP4051325B2 JP 4051325 B2 JP4051325 B2 JP 4051325B2 JP 2003295279 A JP2003295279 A JP 2003295279A JP 2003295279 A JP2003295279 A JP 2003295279A JP 4051325 B2 JP4051325 B2 JP 4051325B2
Authority
JP
Japan
Prior art keywords
covariance matrix
speaker position
power
sound
position detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003295279A
Other languages
English (en)
Other versions
JP2005062096A (ja
Inventor
和則 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003295279A priority Critical patent/JP4051325B2/ja
Publication of JP2005062096A publication Critical patent/JP2005062096A/ja
Application granted granted Critical
Publication of JP4051325B2 publication Critical patent/JP4051325B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は話者位置検出方法および装置に関する。
図6は従来技術の話者位置検出装置のブロック図である。この従来技術の話者位置検出装置はマイクロホン111〜11Mと指向性走査部56と遅延器511〜51Mとゲイン521〜52Mと加算器53とパワー計算部54と最大パワー位置検出部55とで構成される。
指向性走査部56は、受音位置と走査位置から、走査位置に鋭い指向性が形成されるような遅延di(x,y,z)とゲインgi(x,y,z)を計算し、位置が既知である複数のマイクロホン111〜11Mにそれぞれ接続されている遅延器511〜51Mとゲイン521〜52Mに遅延di(x,y,z),ゲインgi(x,y,z)を設定する。走査位置は、話者が存在可能な範囲である。走査位置ごとに加算器53の出力信号のパワーをパワー計算部54で求め、そのパワーのうち最大値を取る走査位置を推定音源位置として最大パワー位置検出部55で検出する。
走査位置(x,y,z)の場合に、i番目のマイクロホン11iに与えられる遅延量di(x,y,z)は、走査位置(x,y,z)から発せられた音が同位相となるように、走査位置(x,y,z)とi番目のマイクロホン位置(xi,yi,zi)と音速cより、式(1)および式(2)を用いて求められる。
Figure 0004051325
ただし、Dは固定遅延量であり、信号を進ませることができないという因果性を満足させるために、di(x,y,z)が必ず正となるように与えられる定数であり、ri(x,y,z)は、走査位置(x,y,z)とi番目のマイクロホン位置(xi,yi,zi)間の距離である。
また、走査位置(x,y,z)の場合に、i番目のマイクロホン11iに与えられるゲインgi(x,y,z)は、信号対雑音比が最大となり、各走査位置に対する利得が一定となるように、式(3)で与えられる。
Figure 0004051325
ただし、Vは部屋の体積(m3)であり、TKは残響時間(s)である。
走査位置(x,y,z)に対し得られる加算器53の出力y(t,x,y,z)は、各マイクロホン11iで受音された信号xi(t)に、遅延di(x,y,z)とゲインgi(x,y,z)を与え加算した信号であり、式(4)で表される。
Figure 0004051325
ただし、tは時刻である。
次に、パワー計算部54は加算器53の出力信号y(t,x,y,z)の短時間平均パワーを、走査位置(x,y,z)ごとに計算する。走査位置ごとに計算されたパワーP(x,y,z)(パワー分布)は、式(5)で表される。
Figure 0004051325
ただし、Tは、短時間平均パワーを求めるための平均時間であり、0.1〜1s程度の値である。
式(5)のパワー分布は、走査位置に鋭い指向性を向けた場合に収音された音のパワーであるので、その位置にある音源のパワーの推定値となっている。すなわち、パワー分布のうち、大きいパワーを有する位置には音源があり、大きいパワーの位置を検出することにより話者位置の推定が可能となる。最大パワー位置検出部55は、最大パワーを持つ走査位置を検出し、最も大きい音を発する話者位置を検出する。以上の方法により、話者位置の検出が可能となる。
特開平9−261792号公報
しかし、この従来技術では、遅延を実現するためのFIRフィルタの畳込み演算が膨大に必要(1秒あたり、FIRフィルタタップ数×マイクロホン数×走査位置数×サンプリング周波数の積和演算が必要)であり、演算量が多いという問題がある。このため、話者位置検出装置に低価格の演算ユニットを実装するのが難しい。
本発明の目的は、演算量を削減した話者位置検出方法、装置、プログラム、および記録媒体を提供することである。
本発明の他の目的は、高精度な話者位置推定を実現する話者位置検出方法、装置、プログラム、および記録媒体を提供することである。
本発明の第1の態様の話者位置検出方法は、
数の収音手段の各々で受音された受音信号からチャネル間の共分散を求め、共分散行列を作成する共分散行列計算段階と、
前記共分散行列に、各走査位置に対応した遅延とゲインをもったステアリングベクトルを各々乗じ、各走査位置の音声パワーを推定する音声パワー推定段階と、
前記各走査位置の音声パワーのうち最大値を話者位置として検出する最大パワー位置検出段階とを有する話者位置検出方法であって、
前記共分散行列計算段階が、
前記複数の収音手段の各々で受音された受音信号をFFTにより周波数領域に変換するFFT段階と、
FFT出力の周波数帯域のうち、パワーの小さい帯域以外の帯域の成分だけを取り出すバンドパスフィルタ段階と、
バンドパスフィルタ出力信号をチャネル間で周波数成分ごとに乗算し、前記取り出した帯域のみの共分散行列を求めるスペクトル乗算段階とを含む
前記共分散行列計算段階が、
前記共分散行列のうち対角成分で最もパワーの大きい成分、または前記共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを共分散行列に乗算する白色化段階を含む。
本発明は、パワーの小さい周波数帯域を除外した共分散行列を使って話者位置検出を行うことで、低演算量かつ高精度な話者位置検出を実現する。また、本発明で計算された共分散行列は、雑音を抑圧した収音を行うマイクロホンアレイ技術にも用いることができ、本発明とマイクロホンアレイ技術を組み合わせて使う場合には、さらに低演算量化が実現する。
請求項1〜14の発明は、共分散行列を用いた演算方法により、従来技術に比べ少ない演算量で話者位置検出が可能である。請求項4,6,10,12の発明は白色化やゲインの乗算により、高精度な話者位置検出を実現できる。請求項2,8の発明は、雑音の共分散行列の減算により、耐雑音性能を向上し、高精度で話者位置推定を実現できる。請求項3,9の発明は、バンドパスフィルタによる帯域制限により、請求項1,7に比べさらに低演算量を実現する。
(第1の実施形態)
図1は本発明の第1の実施形態の話者位置検出装置のブロック図である。
本実施形態の話者位置検出装置はマイクロホン111〜11Mと共分散行列計算部12と音声パワー推定部13と最大パワー位置検出部14とにより構成される。
共分散行列計算部12は、マイクロホン111〜11Mで受音された受音信号間の共分散を求め、それを共分散行列にする。音声パワー推定部13は、各走査位置に対応したステアリングベクトルを共分散行列に乗じ、走査位置ごとに音声パワーを推定する。最大パワー位置検出部14は、走査位置ごとの音声パワーの最大値を検出し、その走査位置を推定話者位置として検出する。
以下に、その詳細を数式を用いて説明する。
共分散行列計算部12は、マイクロホン111〜11Mで受音された受音信号の共分散を求め、それを行列にする。以下にその行列の求め方を示す。
まず、i番目マイクロホン11iで受音された信号をxi(t)とし、それを周波数領域に変換したものをXi(ω)とし、i番目マイクロホン11iで受音された信号とj番目マイクロホン11jで受音された信号の共分散
Figure 0004051325
を求めれば、式(6)となる。
Figure 0004051325
次に、共分散行列
Figure 0004051325
は式(7)で表わされる。
Figure 0004051325
次に、音声パワー推定部13で用いるステアリングベクトルについて述べる。ステアリングベクトルは走査位置から到来した音が同位相となるように設定する。このようなステアリングベクトルを用いることで、同位相になった信号(走査位置で発生した音)のみが強調され、走査位置に鋭い指向性が形成される。
まず、走査位置(x,y,z)の場合に、i番目のマイクロホン11iに与える遅延量di(x,y,z)は、走査位置(x,y,z)から発せられた音が同位相となるように、走査位置(x,y,z)とi番目のマイクロホン位置(xi,yi,zi)と音速cより、式(8)および式(9)を用いて求められる。
Figure 0004051325
式(8)を周波数領域に変換した式が式(10)となり、これをベクトルとしたものがステアリングベクトルであり、式(11)となる。
Figure 0004051325
このステアリングベクトル
Figure 0004051325
を共分散行列に乗じ、周波数について積分すれば、各走査位置に対応する音声パワーの推定値
Figure 0004051325
が求められる。これは式(12)で表わされる。
Figure 0004051325
ステアリングベクトル
Figure 0004051325
は走査位置(x,y,z)で発生した音のみを同位相にし強調しているので、音声パワーの推定値
Figure 0004051325
は、走査位置に音源があった場合のみ大きな値となる。したがって、
Figure 0004051325
のうち最大パワーの走査位置(xm,ym,zm)を検出すれば、話者位置を推定可能である。
最大パワー位置検出部14は、走査位置ごとの音声パワー
Figure 0004051325
の最大値を検出し、その走査位置を話者位置として検出する。
このように、本実施形態により、話者位置の推定が可能となる。
次に、従来技術と本実施形態の演算量を比較する。
まず、従来技術の演算量は遅延器部分が支配的であるので、この部分の演算量で評価する。従来技術の遅延器部分の1秒間あたりの演算は、遅延を実現するためのFIRフィルタタップ数×マイクロホン数×走査位置数×サンプリング周波数の積和演算である。フィルタタップ数を32とし、マイクロホン数4とし、走査位置数を16とし、サンプリング周波数を16000Hzとすれば、式(13)に示す計算により、1秒間あたり約32.768×106回の積和演算が必要となる。
32×4×16×16000=32.768×106 (13)
これに対し、本発明では、まず周波数領域に変換するFFT演算(FFTのフレームサイズ=N)で、4(複素数演算)×N×log2N×サンプリング周波数/N回の演算が必要である。FFTのフレームサイズを256とすれば、式(14)に示す計算により、1秒間あたり1.024×106回の積和演算が必要となる。
4×256×16×16000/256=1.024×106 (14)
次に、共分散行列を求める演算は、4(複素数演算)×マイクロホン数×マイクロホン数×N/2×サンプリング周波数/N回となり、式(15)に示す計算により、1秒間あたり0.512×106回の積和演算が必要となる。
4×4×4×256/2×16000/256=0.512×106 (15)
ステアリングベクトルの演算は、4(複素数演算)×マイクロホン数×(マイクロホン数+1)×N/2×サンプリング周波数/N回となり、式(16)に示す計算により、1秒間あたり0.640×106回の積和演算が必要となる。
4×4×(4+1)×256/2×16000/256=0.640×106 (16)
最大パワー位置検出部14の演算量は、上記に比べて微小であるので省略する。
以上の演算を加算し、本実施形態全体の演算量を計算すれば、約2.176×106回の積和演算/1秒となり、従来技術の約1/15の演算量で話者位置を推定可能であることが分かる。
さらに、本発明で用いている共分散行列は、雑音を抑圧した収音を行うマイクロホンアレイ技術と共用することができる。図2に本発明とマイクロホンアレイ技術を組み合わせて使う場合の構成図を示す。マイクロホンアレイ処理部65は有音・無音検出部16と共分散行列計算部12と共分散行列記憶部62とフィルタ計算部63とフィルタ部611〜61Mと加算器64とにより構成される。話者位置検出部66は音声パワー推定部13と最大パワー位置検出部14だけから構成される。
まず、マイクロホンアレイ処理部65について説明する。有音・無音検出部16は、マイクロホン111〜11Mで受音された信号から有音、無音を検出する。共分散行列計算部12は、有音の場合には話者音声に対する共分散行列を計算し、無音の場合には雑音に対する共分散行列を計算する。共分散行列記憶部62は、雑音に対する共分散行列を時間平均して保存し、話者音声に対する共分散行列を話者位置検出部66で検出された話者位置ごとに時間平均して保存する。フィルタ計算部63は、話者音声を収音し雑音を抑圧するフィルタ係数を、保存されている共分散行列から計算し、フィルタ611〜61Mにコピーする。マイクロホン111〜11Mで受音された信号はフィルタ611〜61Mで各々フィルタリングされ、フィルタ611〜61Mの出力信号を加算器64で加算した信号が出力信号となる。
次に、話者位置推定部66は、マイクロホンアレイ部65で計算されている共分散行列から、音声パワー推定部13で、各走査位置に対応する音声パワーを計算し、最大パワー位置検出部14で最大パワー位置を話者位置として検出する。
このように、この構成では、話者位置検出を行うために新たに追加する処理部分は、マイクロホンアレイ処理部65に加え、音声パワー推定部13と最大パワー位置検出部14だけであり、話者位置検出部の1秒間の演算量は約0.640×106回の積和演算である。
以上のように、本実施形態は共分散行列に基づく演算手法により低演算量で話者位置推定が可能である。
(第2の実施形態)
図3は本発明の第2の実施形態の話者位置検出装置のブロック図である。
第2の実施形態の話者位置検出装置は、第1の実施形態の話者位置検出装置に有音・無音検出部15を追加した例である。
有音・無音検出部15は、マイクロホン111〜11Mで受音された受音信号のパワーから有音区間、無音区間を検出する。例えば、それぞれの受音信号について、短時間平均パワー(0.1〜1s程度)と、長時間平均パワー(1s〜100s程度)を求め、短時間平均パワーと長時間平均パワーの比が有音の閾値を超える場合に有音と判定し、無音の閾値未満の場合に無音と判定し、その判定結果が、すべての受音信号について有音であった場合を有音と判定し、すべて無音であった場合を無音と判定する。
次に、共分散行列計算部12は、有音・無音検出部15の判定結果が有音であった場合に音声に対する共分散行列の計算を行い、無音の場合には雑音に対する共分散行列の計算を行う。次に、音声に対する共分散行列から雑音に対する共分散行列を減じて、話者位置推定をするための共分散行列を求める。このようにすることにより、雑音成分が混合した共分散行列から雑音成分を取り除くことができ、空調やパソコンなどから発生する雑音による誤検出を防ぐことができる。
これら以外の部分に関しては、第1の実施形態と同じであるので、説明を省略する。
(第3の実施形態)
図4は本発明の第3の実施形態の話者位置検出装置の共分散行列計算部のブロック図である。第3の実施形態の話者位置検出装置は、第1の実施形態または第2の実施形態の話者位置検出装置において、共分散行列計算部12がFFT部1211〜121Mとバンドパスフィルタ(BPF)部1221〜122Mとスペクトル乗算部123とにより実現された例である。
FFT部1211〜121Mは、マイクロホン111〜11Mにより受音された信号を各々周波数領域に変換する。バンドパスフィルタ(BPF)部1221〜122Mは、周波数領域に変換された受音信号のうち、あらかじめ設定した帯域の成分だけ取り出す。スペクトル乗算部123は、バンドパスフィルタ出力信号をチャネル間で乗算し、共分散行列を求める。ただし、第2の実施形態の場合は、有音・無音検出部15の検出結果に基づいて、雑音に対する共分散行列と、話者音声に対する共分散行列を求める。以上により共分散行列を求めることができる。
この第3の実施形態では、バンドパスフィルタ1221〜122Mにより帯域制限しているので、第1の実施形態、第2の実施形態に比べ、共分散行列を演算する帯域数が少なく、低演算量である。また、共分散行列を記憶するメモリの量も少なくなる。さらに、音声パワーの小さい周波数帯域を演算から除外することで、音声対雑音のパワー比が大きい帯域だけを使用することができ、雑音耐性が向上し、高精度な話者位置検出が実現される。
これら以外の部分に関しては、第1の実施形態または第2の実施形態と同じであるので、説明を省略する。
(第4の実施形態)
図5は本発明の第4の実施形態である話者位置検出装置の共分散行列計算部のブロック図である。第4の実施形態の話者位置検出装置は、第1の実施形態または第2の実施形態または第3の実施形態の話者位置検出装置において、共分散行列計算部12がFFT部1211〜121Mとバンドパスフィルタ(BPF)部1221〜122Mとスペクトル乗算部123と白色化部124により実現された例である。
FFT部1211〜121Mとバンドパスフィルタ(BPF)部1221〜122Mとスペクトル乗算部123に関しては、第3の実施形態と同様の機能であるので、その説明を省略する。
白色化部124は、共分散行列
Figure 0004051325
を周波数領域で白色化(平坦な周波数特性)する。白色化は、共分散行列の対角成分のうち最もパワーの大きい
Figure 0004051325
を平滑化する白色化ゲイン
Figure 0004051325
を乗算するか、共分散行列の対角成分の平均パワーを平滑化する白色化ゲイン
Figure 0004051325
を乗算をすることで行う。これらは、それぞれ式(17)と式(18)により表される。
Figure 0004051325
ただし、βは白色化の度合いを調整する係数であり、1となれば完全な白色化となり、0となれば白色化は行われなくなる。
この白色化により、音声信号の周期性(自己相関)が取り除かれ、より高精度な話者位置推定が実現する。
これら以外の部分に関しては、第1の実施形態または第2の実施形態または第3の実施形態と同じであるので、説明を省略する。
(第5の実施形態)
次に、本発明の第5の実施形態である話者位置検出装置について説明する。第5の実施形態は、第1〜4の実施形態において、音声パワー推定手段のステアリングベクトルが、各走査位置からの音声信号を各々同位相とし、各々異なるゲイン
Figure 0004051325
をマイクロホン受音信号に乗じるベクトル
Figure 0004051325
となっている。これを式で表わせば、式(10)と式(11)となる。
Figure 0004051325
ゲイン
Figure 0004051325
は、各走査位置から各マイクロホン111〜11Mまでの距離およびマイクロホンの指向特性による受音音声パワーの予測値により事前に設定される。受音音声パワーが大きいと予測されるマイクロホンに対しては大きい値のゲインを設定し、受音信号パワーが小さいと予測されるマイクロホンに対しては小さいゲインを設定する。これにより、信号対雑音比の大きい信号を使うことができ、高精度での話者位置推定が実現する。
これら以外の部分に関しては、第1〜4の実施形態と同じであるので、説明を省略する。
なお、本発明の収音方法は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピー(登録商標)ディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
本発明の話者位置検出装置は、カメラを自動的に話者方向に向けるシステムや、話者音声をクリアに収音する収音システムに利用することができる。このようなシステムは、TV会議、音声会議、遠隔講義、講義録作成、セキュリティ分野に用いることができる。
本発明の第1の実施形態の話者位置検出装置を示すブロック図である。 本発明とマイクロホンアレイ技術を組み合わせた収音装置を示すブロック図である。 本発明の第2の実施形態の話者位置検出装置を示すブロック図である。 本発明の第3の実施形態の話者位置検出装置の共分散行列計算部を示すブロック図である。 本発明の第4の実施形態の話者位置検出装置の共分散行列計算部を示すブロック図である。 従来例の話者位置検出装置を示すブロック図である。
符号の説明
111〜11M マイクロホン
12 共分散行列計算部
13 音声パワー推定部
14 最大パワー位置検出部
15 有音・無音検出部
1211〜121M FFT部
1221〜122M バンドパスフィルタ部
123 スペクトル乗算部
124 白色化部
134 雑音共分散記憶部
135 減算部
511〜51M 遅延器
521〜52M ゲイン
53 加算器
54 パワー計算部
55 最大パワー位置検出部
56 指向性走査部
611〜61M フィルタ部
62 共分散行列記憶部
63 フィルタ計算部
64 加算器
65 マイクロホンアレイ処理部
66 話者位置検出部

Claims (10)

  1. 数の収音手段の各々で受音された受音信号からチャネル間の共分散を求め、共分散行列を作成する共分散行列計算段階と、
    前記共分散行列に、各走査位置に対応した遅延とゲインをもったステアリングベクトルを各々乗じ、各走査位置の音声パワーを推定する音声パワー推定段階と、
    前記各走査位置の音声パワーのうち最大値を話者位置として検出する最大パワー位置検出段階とを有する話者位置検出方法であって、
    前記共分散行列計算段階が、
    前記複数の収音手段の各々で受音された受音信号をFFTにより周波数領域に変換するFFT段階と、
    FFT出力の周波数帯域のうち、パワーの小さい帯域以外の帯域の成分だけを取り出すバンドパスフィルタ段階と、
    バンドパスフィルタ出力信号をチャネル間で周波数成分ごとに乗算し、前記取り出した帯域のみの共分散行列を求めるスペクトル乗算段階とを含む、話者位置検出方法
  2. 前記共分散行列計算段階が、
    前記共分散行列のうち対角成分で最もパワーの大きい成分、または前記共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを共分散行列に乗算する白色化段階を含む、請求項に記載の話者位置検出方法。
  3. 前記白色化段階は、
    前記共分散行列のうち対角成分で最もパワーの大きい成分を
    Figure 0004051325
    とし、白色化の度合いを調整する係数をβとしたとき、
    前記共分散行列に
    Figure 0004051325
    を乗算する、請求項2に記載の話者位置検出方法。
  4. 前記白色化段階は、
    前記共分散行列の対角成分をR 11 〜R MM (Mはマイクロホン数)とし、白色化の度合いを調整する係数をβとしたとき、
    前記共分散行列に
    Figure 0004051325
    を乗算する、請求項2に記載の話者位置検出方法。
  5. 数の収音手段の各々で受音された受音信号からチャネル間の共分散を求め、共分散行列を作成する共分散行列計算手段と、
    前記共分散行列に、各走査位置に対応した遅延とゲインをもったステアリングベクトルを各々乗じ、各走査位置の音声パワーを推定する音声パワー推定手段と、
    前記各走査位置の音声パワーのうち最大値を話者位置として検出する最大パワー位置検出手段とを有する話者位置検出装置であって、
    前記共分散行列計算手段が、
    前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT手段と、
    前記FFT手段の出力の周波数帯域のうち、パワーの小さい帯域以外の帯域の成分だけを取り出すバンドパスフィルタ手段と、
    前記バンドパスフィルタ手段の出力信号をチャネル間で周波数成分ごとに乗算し、前記取り出した帯域のみの共分散行列を求めるスペクトル乗算手段とを含む、話者位置検出装置
  6. 前記共分散行列計算手段が、
    前記共分散行列のうち対角成分で最もパワーの大きい成分、または前記共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、共分散行列に乗算する白色化手段を含む、請求項に記載の話者位置検出装置。
  7. 前記白色化手段は、
    前記共分散行列のうち対角成分で最もパワーの大きい成分を
    Figure 0004051325
    とし、白色化の度合いを調整する係数をβとしたとき、
    前記共分散行列に
    Figure 0004051325
    を乗算する、請求項6に記載の話者位置検出装置。
  8. 前記白色化手段は、
    前記共分散行列の対角成分をR 11 〜R MM (Mはマイクロホン数)とし、白色化の度合いを調整する係数をβとしたとき、
    前記共分散行列に
    Figure 0004051325
    を乗算する、請求項6に記載の話者位置検出装置。
  9. 請求項1からのいずれかに記載の話者位置検出方法をコンピュータに実行させるための話者位置検出プログラム。
  10. 請求項に記載の話者位置検出プログラムを記録した、コンピュータ読取り可能な記録媒体。
JP2003295279A 2003-08-19 2003-08-19 話者位置検出方法、装置、プログラム、および記録媒体 Expired - Lifetime JP4051325B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003295279A JP4051325B2 (ja) 2003-08-19 2003-08-19 話者位置検出方法、装置、プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003295279A JP4051325B2 (ja) 2003-08-19 2003-08-19 話者位置検出方法、装置、プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2005062096A JP2005062096A (ja) 2005-03-10
JP4051325B2 true JP4051325B2 (ja) 2008-02-20

Family

ID=34371578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003295279A Expired - Lifetime JP4051325B2 (ja) 2003-08-19 2003-08-19 話者位置検出方法、装置、プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP4051325B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4650163B2 (ja) * 2005-08-25 2011-03-16 パナソニック電工株式会社 拡声通話装置
NO328582B1 (no) * 2006-12-29 2010-03-22 Tandberg Telecom As Mikrofon for lydkildesporing
CN101762806B (zh) * 2010-01-27 2013-03-13 华为终端有限公司 声源定位方法和装置
KR101673464B1 (ko) * 2015-03-13 2016-11-17 한화시스템 주식회사 변형 반복 백색화 투영 통계 기법을 이용한 불균일 클러터 환경의 다중 표적 탐지 장치
KR101673458B1 (ko) * 2015-11-30 2016-11-07 한화시스템 주식회사 변형 반복 백색화 투영 통계 기법을 이용한 불균일 클러터 환경의 다중 표적 탐지 방법
JP6871718B6 (ja) * 2016-02-25 2021-06-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音源探査装置、音源探査方法およびそのプログラム
WO2020059977A1 (ko) * 2018-09-21 2020-03-26 엘지전자 주식회사 연속적으로 스티어링 가능한 2차 디퍼런셜 마이크로폰 어레이 및 그것을 구성하는 방법

Also Published As

Publication number Publication date
JP2005062096A (ja) 2005-03-10

Similar Documents

Publication Publication Date Title
US7113605B2 (en) System and process for time delay estimation in the presence of correlated noise and reverberation
US8238569B2 (en) Method, medium, and apparatus for extracting target sound from mixed sound
KR101449433B1 (ko) 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
EP3189521B1 (en) Method and apparatus for enhancing sound sources
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
US20120163622A1 (en) Noise detection and reduction in audio devices
JP6019969B2 (ja) 音響処理装置
JP2003534570A (ja) 適応ビームフォーマーにおいてノイズを抑制する方法
JP2002062348A (ja) 信号処理装置及び信号処理方法
CN112309417B (zh) 风噪抑制的音频信号处理方法、装置、系统和可读介质
KR101581885B1 (ko) 복소 스펙트럼 잡음 제거 장치 및 방법
JP2019004465A (ja) 収音装置、及び収音方法
JP5016581B2 (ja) エコー抑圧装置、エコー抑圧方法、エコー抑圧プログラム、記録媒体
JP4051325B2 (ja) 話者位置検出方法、装置、プログラム、および記録媒体
JP2836271B2 (ja) 雑音除去装置
JP4568193B2 (ja) 収音装置とその方法とそのプログラムとその記録媒体
JP2004078021A (ja) 収音方法、収音装置、および収音プログラム
JP4473829B2 (ja) 収音装置、プログラム及びこれを記録した記録媒体
US20230360662A1 (en) Method and device for processing a binaural recording
JP2006178333A (ja) 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体
JP5044594B2 (ja) 多チャネルエコー消去装置とその方法、そのプログラム
JP5826465B2 (ja) 瞬時直間比推定装置、雑音除去装置、遠近判定装置、音源距離測定装置と、各装置の方法と、装置プログラム
JP4249697B2 (ja) 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
CN115665606B (zh) 基于四麦克风的收音方法和收音装置
CN116504264B (zh) 音频处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050621

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050721

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050721

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071203

R150 Certificate of patent or registration of utility model

Ref document number: 4051325

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131207

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term