JP5022461B2 - マイクアレイ・ネットワークシステムおよび該システムを用いた音源定位方法 - Google Patents

マイクアレイ・ネットワークシステムおよび該システムを用いた音源定位方法 Download PDF

Info

Publication number
JP5022461B2
JP5022461B2 JP2010056796A JP2010056796A JP5022461B2 JP 5022461 B2 JP5022461 B2 JP 5022461B2 JP 2010056796 A JP2010056796 A JP 2010056796A JP 2010056796 A JP2010056796 A JP 2010056796A JP 5022461 B2 JP5022461 B2 JP 5022461B2
Authority
JP
Japan
Prior art keywords
sound source
microphone array
source position
nodes
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010056796A
Other languages
English (en)
Other versions
JP2011193176A (ja
Inventor
博 川口
雅彦 吉本
紘希 野口
智也 高木
耕史 久賀田
Original Assignee
株式会社半導体理工学研究センター
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社半導体理工学研究センター filed Critical 株式会社半導体理工学研究センター
Priority to JP2010056796A priority Critical patent/JP5022461B2/ja
Publication of JP2011193176A publication Critical patent/JP2011193176A/ja
Application granted granted Critical
Publication of JP5022461B2 publication Critical patent/JP5022461B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、高音質な音声取得を目的とするマイクアレイ・ネットワークシステムならびにマイクアレイ・ネットワークシステムを用いた音源定位方法に関する技術である。
従来、音声を利用するアプリケーションシステム(例えば、複数台のマイクを接続するような音声会議システム、音声認識するロボットシステム、各種音声インタフェースを備えたシステム等)では、高音質な音声を利用するために、音源定位、音源分離、雑音除去、エコーキャンセル等の様々な音声処理を行っている。
特に、高音質な音声取得を目的として、音源定位や音源分離を主な処理とするマイクアレイが広く研究されている。ここで、音源定位とは音の到達時間差などから音源の方向・位置を特定することであり、また音源分離は音源定位の結果を利用して雑音となる音源を消去し特定方向にある特定音源の抽出を行うことである。
マイクアレイを用いた音声処理は、通常、マイク数が多いほど雑音処理などの音声処理性能が向上することが知られている。また、そのような音声処理では、音源の位置情報を用いる音源定位の手法が多く存在している(例えば、非特許文献1を参照。)。音源定位の結果が正確であるほど音声処理が有効に働くことになる。すなわち、マイク数を増加して音源定位の高精度化と高音質のための雑音除去を同時に図ることが必要とされている。
従来の大規模マイクアレイを用いた音源定位の場合、図10に示すように、音源の位置範囲を網目状に分割し、各区間に対して音源位置を確率的に求める。この計算には、全音声データをワークステーションなどの一箇所の音声処理サーバに収集し、全音声データを一括処理して音源の位置を推定していた(例えば、非特許文献2を参照。)。このような全音声データの一括処理の場合には、音声収集のためのマイクと音声処理サーバ間の信号配線長、通信量や音声処理サーバでの演算量が膨大となっていた。配線長、通信量、音声処理サーバでの演算量の増大、また音声処理サーバ一箇所に多数のA/Dコンバータを配置できないという物理的な制限によって、マイク数を増やせないという問題がある。また、信号配線長が長くなることによるノイズの発生の問題もある。そのため、高音質を追求するためのマイク数の増加が困難であるという問題が生じていた。
かかる問題を改善する方法として、複数のマイクを小アレイに分割し、それを統合するマイクアレイによる音声処理システムが知られている(例えば、非特許文献3を参照。)。
しかしながら、かかる音声処理システムの場合でも、小アレイで取得した全てのマイクの音声データを、ネットワークを介して一箇所の音声サーバに統合することから、ネットワークの通信トラフィックの増加の問題がある。また、通信データ量や通信トラフィック量の増加に伴う音声処理の遅延が生じるという問題がある。
また今後、ユビキタス・システムにおける収音やテレビ会議システムなどの要求に応えるためには、より多くのマイクが必要となってくる(例えば、特許文献1を参照。)。しかしながら、上述の通り、現状のマイクアレイのネットワークシステムでは、マイクアレイで得られた音声データをそのままサーバに転送しているに過ぎない。マイクアレイの各ノードが相互に音源の位置情報を交換して、システム全体の計算量の低減ならびにネットワークの通信量の低減を図るシステムは見当たらない。
従って、マイクアレイのネットワークシステムの大規模化を想定し、システム全体の計算量の低減ならびにネットワークの通信量を抑えるようなシステムアーキテクチャーが重要となる。
特開2008−113164号公報
R.O. Schmidt, "Multipleemitter location and signal parameter estimation," In Proc. of the RADCSpectrum Estimation Workshop, pp.243-248, Oct.1979. E. Weinstein, K. Steele, A. Agarwal, and J. Glass, "Loud: A 1020-nodemodular microphone array and beamformer for intelligent computing spaces," MIT,MIT/LCS Technical Memo MIT-LCS-TM-642, Apr. 2004. A. Brutti, M. Omologo, P. Svaizer, C. Zieger, "Classification ofAcoustic Maps to Determine Speaker Position and Orientation from a DistributedMicrophone Network," In Proc. of ICASSP, vol. IV, pp. 493-496, Apr. 2007.
上述したように、音声処理サーバにおける通信量と演算量を抑えながら、数多くのマイクアレイを用いて音源定位精度を高め、雑音除去などの音声処理を有効に行わせることが求められている。
上記状況に鑑みて、本発明は、マイクアレイのノード数やノード内のマイク数を増加して音声処理性能を向上させた場合でも、ネットワークの通信量を抑えて、音源定位の高精度化を図ることが可能なマイクアレイ・ネットワークシステムならびに音源定位方法を提供することを目的とする。
上記目的を達成すべく、本発明の第1の観点のマイクアレイ・ネットワークシステムは、マイクアレイを備えた複数のノードが相互にネットワークで接続されたマイクアレイ・ネットワークシステムであって、
各ノードは、複数のマイクをアレイ状に配列して構成されたマイクアレイと、マイクアレイの収音信号を入力し、音源方向の推定を行う収音処理部と、音源方向推定結果および最大応答強度に関して、他ノードの収音処理部とデータ通信を行うデータ通信部と、を備える構成とされ、収音処理部は、自ノードを含む複数のノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出し、音源位置推定を行うことを特徴とする。
本発明の第1の観点のマイクアレイ・ネットワークシステムによれば、各ノードで、マイクアレイの収音信号処理から音源の方向を推定することで、音源定位処理の分散化を行うことができる。そして、ノード間でデータ通信を行って、ノードの音源定位推定結果をデータ交換し、音源定位推定結果を基に音源の位置を推定できる。従って、ノード内で音声定位推定を行って、音源定位推定結果をノード間でデータ交換することにより、システム全体の計算量の低減およびネットワークの通信量を抑えることが可能となる。
ここで、音源方向推定方法は、例えば、MUSIC(Multiple signal classification)法などの従来から知られた音源定位方法を用いて行う。また、最大応答強度は、各方向に関してMUSIC法による応答を求めたものの最大値であり、推定された音源方向から到達する音声信号の応答強度である。
また、本発明の第2の観点のマイクアレイ・ネットワークシステムは、マイクアレイを備えた複数のノードと音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムであって、
1)各ノードは、複数のマイクをアレイ状に配列して構成されたマイクアレイと、マイクアレイの収音信号を入力し、音源方向の推定を行う収音処理部と、音源方向推定結果、最大応答強度、音声データを音声処理サーバにデータ送信を行うデータ通信部と、を備え、
2)音声処理サーバは、各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出し、音源位置推定を行うことを特徴とするものである。
本発明の第2の観点のマイクアレイ・ネットワークシステムによれば、第1の観点と同様に、各ノードで、マイクアレイの収音信号処理から音源の方向を推定することで、音源定位処理の分散化を行うことができる。そして、音声処理サーバに対してデータ通信を行って、ノードの音源定位推定結果を送信する。音声処理サーバは、各ノードの音源定位推定結果の集約情報を基にして、音源の位置を推定する。従って、ノード内で音声定位推定を行って、音声処理サーバに対して音源定位推定結果をデータ交換することにより、音声処理サーバにおける計算量の低減およびネットワークの通信量を抑えることが可能となる。
また、本発明の第3の観点のマイクアレイ・ネットワークシステムは、マイクアレイを備えた複数のノードと音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムであって、
1)各ノードは、複数のマイクをアレイ状に配列して構成されたマイクアレイと、マイクアレイの収音信号を入力し、音源方向の推定を行う収音処理部と、音源方向推定結果、最大応答強度、音声データを音声処理サーバにデータ送信を行うデータ通信部と、を備え、
2)音声処理サーバは、各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出し、音源位置推定を行い、これに基づいて特定ノードから音声データを取り込むことを特徴とするものである。
本発明の第3の観点のマイクアレイ・ネットワークシステムによれば、第1の観点と同様に、各ノードで、マイクアレイの収音信号処理から音源の方向を推定することで、音源定位処理の分散化を行うことができる。そして、音声処理サーバに対してデータ通信を行って、ノードの音源定位推定結果を送信する。音声処理サーバは、各ノードの音源定位推定結果の集約情報を基にして、音源の位置を推定する。従って、ノード内で音声定位推定を行って、音声処理サーバに対して音源定位推定結果をデータ交換することで、ネットワークの通信量が抑えることが可能となる。
さらに、音源位置推定結果に基づいて特定ノードから音声データを取り込むことにより、全ノードの全音声データをネットワーク上で通信する必要はない。特定ノードから音声データのデータ交換を行うことにより、システム全体の計算量の低減およびネットワークの通信量を更に抑えることが可能となる。
ここで、上記のネットワークは、好ましくは、マルチホップ伝送ネットワークである。
マルチホップ伝送ネットワークを用いることで、マイクアレイから取り込まれた音声データは、音声処理サーバとつながっているノードからしか送られてくるものでなくとも構わない。マルチホップ伝送ネットワークによれば、複数のネットワークをホッピングする形で、マイクアレイを有するノードの音声データが音声処理サーバに到達できることになる。
また中継ノードにおいて、音源位置推定結果に基づいて、音声データを集約(雑音除去)することにより、音声データの圧縮も可能である。
ここで、上記の音源位置候補算出は、2つのノードの音源方向推定結果の交点、若しくは、2つのノードの音源方向推定結果の2直線を最短で結ぶ線分上に存在する仮想交点を算出する。
具体的に、2次元の定位の場合は、2つのノードの音源方向推定結果の交点を算出し、各交点に対して最大応答強度に基づく重み付けを行い、音源位置候補を求める。また、3次元の定位の場合は、2次元の定位のように必ずしも交点が得られないことから、2つのノードの音源方向推定結果の2直線を最短で結ぶ線分上に存在する仮想交点を算出し、最短で結ぶ線分の長さと2つのノードの最大応答強度とを用いて、音源位置候補を求める。
また、上記の音源位置推定は、複数の音源位置候補に対して最大応答強度と最短で結ぶ線分の長さに基づく重み付けを行い、複数の音源位置候補の重心を算出することにより位置推定する。
すなわち、各ノードで音源方向を推定し、その音源方向推定結果をデータ交換により特定ノードもしくは音声処理サーバに集約する。特定ノードもしくは音声処理サーバでは、各ノードで推定した音源方向推定結果の交点を算出して求めた複数の音源位置候補に対して、最終的に、最大応答強度と最短で結ぶ線分の長さに基づく重み付けを行う。特定ノードもしくは音声処理サーバには、複数の音源位置候補の重心を算出して、音源位置を推定するのである。
次に、本発明のマイクアレイ・ネットワークシステムにおける第1の観点の音源定位方法は、複数のマイクをアレイ状に配列して構成されたマイクアレイと、該マイクアレイの収音信号を入力し音源方向の推定を行う収音処理部と、他ノードの収音処理部とデータ通信を行うデータ通信部と、を備えた複数のノードが相互にネットワークで接続されたマイクアレイ・ネットワークシステムを用いる音源定位方法であって、
各ノードにおいて、以下のa)〜c)の工程を備えたことを特徴とする。
a)音源方向推定結果および最大応答強度を算出する音源方向推定工程
b)自ノードを含む複数のノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出する音源位置候補算出工程
c)音源位置候補算出工程により算出した音源位置候補から音源位置推定を行う音源位置推定工程
本発明の第1の観点の音源定位方法によれば、各ノードで、音源方向推定工程により、マイクアレイの収音信号処理から音源の方向を推定することで、音源定位処理の分散化を行うことができる。そして、音源位置候補算出工程と音源位置推定工程により、ノード間でデータ通信を行って、ノードの音源定位推定結果をデータ交換し、音源定位推定結果を基に音源の位置を推定できる。ノード内で音源定位推定を行って、ノード間で音源定位推定結果をデータ交換することにより、システム全体の計算量の低減およびネットワークの通信量が抑えることが可能となる。
ここで、音源方向推定工程は、例えば、MUSIC(Multiple signal classification)法などの従来から知られた音源定位方法を用いて行う。また、最大応答強度は、各方向に関してMUSIC法による応答を求めたものの最大値であり、推定された音源方向から到達する音声信号の応答強度である。
また、本発明のマイクアレイ・ネットワークシステムにおける第2の観点の音源定位方法は、複数のマイクをアレイ状に配列して構成されたマイクアレイと、該マイクアレイの収音信号を入力し音源方向の推定を行う収音処理部と、音声処理サーバとデータ通信を行うデータ通信部と、を備えた複数のノードおよび前記音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムを用いる音源定位方法であって、
1)各ノードにおいて、
a)音源方向推定結果および最大応答強度を算出する音源方向推定工程と、
2)音声処理サーバにおいて、
b)各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出する音源位置候補算出工程と、
c)音源位置候補算出工程により算出した音源位置候補から音源位置推定を行う音源位置推定工程と、
を備えたことを特徴とする。
本発明の第2の観点の音源定位方法によれば、第1の観点の音源定位方法と同様に、各ノードで、音源方向推定工程により、マイクアレイの収音信号処理から音源の方向を推定することで、音源定位処理の分散化を行うことができる。そして、音声処理サーバに対してデータ通信を行って、ノードの音源定位推定結果を送信する。
音声処理サーバは、音源位置候補算出工程と音源位置候補算出工程により、各ノードの音源定位推定結果の集約情報を基にして、音源の位置を推定する。従って、ノード内で音声定位推定を行って、音声処理サーバに対して音源定位推定結果をデータ交換することにより、音声処理サーバにおける計算量の低減およびネットワークの通信量を抑えることが可能となる。
また、本発明のマイクアレイ・ネットワークシステムにおける第3の観点の音源定位方法は、複数のマイクをアレイ状に配列して構成されたマイクアレイと、該マイクアレイの収音信号を入力し音源方向の推定を行う収音処理部と、音声処理サーバとデータ通信を行うデータ通信部と、を備えた複数のノードおよび音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムを用いる音源定位方法であって、
1)各ノードにおいて、
a)音源方向推定結果および最大応答強度を算出する音源方向推定工程と、
2)音声処理サーバにおいて、
b)各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出する音源位置候補算出工程と、
c)音源位置候補算出工程により算出した音源位置候補から音源位置推定を行う音源位置推定工程と、
d)音源位置推定工程に基づいて特定ノードから音声データを取り込む音声データ取得工程と、
を備えたことを特徴とする。
本発明の第3の観点の音源定位方法によれば、第1の観点の音源定位方法と同様に、各ノードで、音源方向推定工程により、マイクアレイの収音信号処理から音源の方向を推定することで、音源定位処理の分散化を行うことができる。そして、音声処理サーバに対してデータ通信を行って、ノードの音源定位推定結果を送信する。
音声処理サーバは、音源位置候補算出工程と音源位置推定工程により、各ノードの音源定位推定結果の集約情報を基にして、音源の位置を推定する。従って、ノード内で音声定位推定を行って、音声処理サーバに対して音源定位推定結果をデータ交換することで、通信量が抑えることが可能となる。
さらに、音声処理サーバは、音声データ取得工程により、音源位置推定に基づいて特定ノードから音声データを取り込むことにより、全ノードの全音声データをネットワーク上で通信する必要はない。特定ノードから音声データのデータ交換を行うことにより、計算量の低減およびネットワークの通信量を更に抑えることが可能となる。
ここで、上記のネットワークは、好ましくは、マルチホップ伝送ネットワークである。
マルチホップ伝送ネットワークを用いることで、マイクアレイから取り込まれた音声データは、音声処理サーバとつながっているノードからしか送られてくるものでなくとも構わない。マルチホップ伝送ネットワークによれば、複数のネットワークをホッピングする形で、マイクアレイを有するノードの音声データが音声処理サーバに到達できることになる。
また中継ノードにおいて、音源位置推定結果に基づいて、音声データを集約(雑音除去)することにより、音声データの圧縮も可能である。
また、上記の音源位置候補算出工程は、2つのノードの音源方向推定結果の交点、若しくは、2つのノードの音源方向推定結果の2直線を最短で結ぶ線分上に存在する仮想交点を算出する。
この音源位置候補算出工程において、2次元の定位の場合は、2つのノードの音源方向推定結果の交点を算出し、各交点に対して最大応答強度に基づく重み付けを行い、音源位置候補を求める。3次元の定位の場合は、2次元の定位のように必ずしも交点が得られないことから、2つのノードの音源方向推定結果の2直線を最短で結ぶ線分上に存在する仮想交点を算出し、最短で結ぶ線分の長さと2つのノードの最大応答強度とを用いて、音源位置候補を求める。
また、上記の音源位置候補算出工程において、2つのノードは、最大応答強度が所定閾値以上を有するノードの全組合せであることが好ましい。
2つのノードは、ノードの全組合せに対するものでも構わないが、最大応答強度が所定閾値以上を有するノードの全組合せにすることで、システム全体の計算量をより低減することができる。
また、上記の音源位置候補算出工程において、2つのノードは、ノード中からランダムに抽出されたものであることが好ましい。
2つのノードは、ノードの全組合せからランダムに抽出されたものでも構わないが、ノード中からランダムに抽出されたものにすることで、システム全体の計算量をより低減することができる。
また、上記の音源位置候補算出工程において、2つのノードは、ノード中から精度が得られやすくなるような所定のルールに従い抽出されたものであることが好ましい。
ここで、所定のルールとは、ノード間距離が所定の範囲にあるノードを組み合わせる場合、精度が得られやすいとするルールが挙げられる。遠くのノード同士や、近接しすぎたノード同士では精度が得られないと予測される。
また、上記の音源位置推定工程は、複数の音源位置候補に対して最大応答強度と最短で結ぶ線分の長さに基づく重み付けを行い、複数の音源位置候補の重心を算出することにより位置推定するものである。
すなわち、各ノードで音源方向を推定し、その音源方向推定結果をデータ交換により特定ノードもしくは音声処理サーバに集約する。特定ノードもしくは音声処理サーバでは、各ノードで推定した音源方向推定結果の交点を算出して求めた複数の音源位置候補に対して、最終的に、最大応答強度と最短で結ぶ線分の長さに基づく重み付けを行う。特定ノードもしくは音声処理サーバには、複数の音源位置候補の重心を算出して、音源位置を推定するのである。
本発明によれば、マイクアレイのノード数やノード内のマイク数を増加して音声処理性能を向上させた場合でも、ネットワークの通信量を抑え、音源定位の高精度化を図れるといった効果がある。
また、本発明によれば、マイクアレイのノード毎に音声データの分散処理を行うことにより、ネットワークの通信量やマイクサーバでの演算量を抑えることができるといった効果がある。
本発明の音源定位の説明図 2次元の音源定位の説明図 3次元の音源定位の説明図 実施例1のマイクアレイ・ネットワークシステムの構成図 実施例1のマイクアレイを備えたノードの構成図 実施例1のマイクアレイ・ネットワークシステムの機能図 3次元の音源定位精度の実験説明図 3次元の音源定位精度向上を示す測定結果 実施例2のマイクアレイ・ネットワークシステムの構成図 従来の音源定位の説明図
以下、本発明の実施形態について、図面を参照しながら詳細に説明していく。なお、本発明の範囲は、以下の実施例や図示例に限定されるものではなく、幾多の変更及び変形が可能である。
図1は、本発明の音源定位の説明図を示している。図1に示すように、マイクアレイを備えた6つのノードと1つの音声処理サーバ20がネットワーク10で接続されている。複数のマイクをアレイ状に配列して構成されたマイクアレイを備える6つのノードは、室内の四方の壁面に存在し、それぞれのノード内に存在する収音処理用のプロセッサで音源方向の推定を行い、その結果を音声処理サーバに統合することで音源の位置を特定する。各ノードでデータの処理を行うために、ネットワークの通信量が削減でき、ノード間で演算量が分散されるものである。
以下では、2次元の音源定位の場合と3次元の音源定位の場合に分けて詳細に説明する。先ず、本発明の2次元の音源定位方法について図2を参照しながら説明する。図2は2次元の音源定位方法を説明している。図2に示すように、ノード1〜ノード3は、それぞれのマイクアレイから収音した収音信号から音源方向を推定する。各ノードは、各方向に対して、MUSIC法の応答強度を計算して、その最大値をとる方向を音源方向と推定している。図2では、ノード1がマイクアレイの配列面の垂線方向(正面方向)を0°とし、−90°〜90°までの方向に対して、応答強度を計算し、Θ=−30°の方向を音源方向と推定する場合を示している。ノード2やノード3も同様に各方向に対して、応答強度を計算して、その最大値をとる方向を音源方向と推定する。
そして、ノード1とノード2、或いは、ノード1とノード3というように、2つのノードの音源方向推定結果の交点に対して、重み付けを行っていく。ここで、重みは、各ノードのMUSIC法の最大応答強度に基づいて決定している(例えば2つのノードの最大応答強度の積とする)。図2では、重みのスケールを交点部分の丸印の径で表現している。
得られた複数の重みを示す丸印(位置とスケール)は音源位置候補となる。そして、得られた複数の音源位置候補の重心を求めることで音源位置を推定する。図2の場合、複数の音源位置候補の重心を求めるとは、複数の重みを示す丸印(位置とスケール)の重み付き重心を求めることである。
次に、本発明の3次元の音源定位方法について図3を参照しながら説明する。図3は3次元の音源定位方法を説明している。図3に示すように、ノード1〜ノード3は、それぞれのマイクアレイから収音した収音信号から音源方向を推定する。各ノードは、3次元方向に対して、MUSIC法の応答強度を計算して、その最大値をとる方向を音源方向と推定している。図3は、ノード1がマイクアレイの配列面の垂線方向(正面方向)の回転座標系の方向に対して、応答強度を計算し、強度が大きな方向を音源方向と推定する場合を示している。ノード2やノード3も同様に各方向に対して、応答強度を計算して、その最大値をとる方向を音源方向と推定する。
そして、ノード1とノード2、或いは、ノード1とノード3というように、2つのノードの音源方向推定結果の交点に対して、重みを求めていくのであるが、3次元の場合には交点が得られないことが多い。そのため、2つのノードの音源方向推定結果の直線を最短で結ぶ線分上に仮想的に交点を求めることにしている。なお、重みは、2次元と同様に、各ノードのMUSIC法の最大応答強度に基づいて決定している(例えば2つのノードの最大応答強度の積とする)。図3では、図2と同様に、重みのスケールを交点部分の丸印の径で表現している。
得られた複数の重みを示す丸印(位置とスケール)は音源位置候補となる。そして、得られた複数の音源位置候補の重心を求めることで音源位置を推定する。図3の場合、複数の音源位置候補の重心を求めるとは、複数の重みを示す丸印(位置とスケール)の重み付き重心を求めることである。
本発明の一実施形態について説明する。図4は、実施例1のマイクアレイ・ネットワークシステムの構成図を示している。図4は、16個のマイクがアレイ状に配列されたマイクアレイ備えたノード(1a,1b,・・・,1n)と1つの音声処理サーバ20がネットワーク10で接続されたシステム構成を示している。それぞれのノードは、図5に示すように、16個のアレイ状に配列されたマイク(m11,m12,・・・,m43,m44)の信号線が収音処理部2のI/O部3に接続されており、マイクから収音された信号が収音処理部2のプロセッサ4に入力される。収音処理部2のプロセッサ4は、入力した収音信号を用いて、MUSIC法のアルゴリズムの処理を行って音源方向の推定を行う。
そして、収音処理部2のプロセッサ4は、図4で示される音声処理サーバ20に対して、音源方向推定結果と最大応答強度を送信する。
このように、各ノード内で分散して音声定位を行い、その結果を音声処理サーバに統合し、上述の2次元定位や3次元定位の処理を行い、音源の位置を推定する。
図6は、実施例1のマイクアレイ・ネットワークシステムの機能図を示している。
マイクアレイを備えるノードは、マイクアレイからの信号をA/D変換し(ステップS11)、各マイクの収音信号を入力する(ステップS13)。各マイクから収音した信号を用いて、ノートに搭載されているプロセッサが収音処理部として音源方向を推定する(ステップS15)。
収音処理部は、図6に示すグラフのように、マイクアレイの正面(垂線方向)を0°とし、その左右−90°〜90°までの方向について、MUSIC法の応答強度を算出する。そして、応答強度が強い方向を音源方向と推定する。その収音処理部は、図示しないネットワークを介して音声処理サーバと接続されており、ノード内で音源方向推定結果(A)と最大応答強度(B)をデータ交換している(ステップS17)。音源方向推定結果(A)と最大応答強度(B)は、音声処理サーバに送られる。
音声処理サーバでは、各ノードから送られてくるデータを受信する(ステップS21)。各ノードの最大応答強度から複数の音源位置候補を算出する(ステップS23)。そして、音源方向推定結果(A)と最大応答強度(B)に基づいて音源の位置を推定する(ステップS25)。
以下では、3次元の音源定位精度を説明する。図7は3次元の音源定位精度の実験の様子を模式図で示したものである。床面積が12m×12mで高さが3mの部屋を想定している。16個のマイクをアレイ状に配列したマイクアレイを床面の四方に等間隔で並べた16のサブアレイを想定した(16サブアレイのケースA)。また、マイクアレイを床面の四方に16個および天井面の四方に16個のマイクアレイを等間隔で並べ、更に、床面に等間隔に9つのマイクアレイを配置した41のサブアレイを想定した(41サブアレイのケースB)。また、マイクアレイを床面の四方に32個および天井面の四方に32個のマイクアレイを等間隔で並べ、更に、床面に等間隔に9つのマイクアレイを配置した73のサブアレイを想定した(73サブアレイのケースC)。
この3つのケースA〜Cを用いて、ノード数と各ノードの音源方向推定の誤差ばらつきを変更し、3次元位置推定の結果を比較した。3次元位置推定は、各ノードが通信相手をひとつランダムに選び、仮想交点を求めている。
測定した結果を図8に示す。図8の横軸は、方向推定誤差のはらつき(標準偏差)を示しており、縦軸は、位置推定誤差を示している。
図8の結果から、音源方向の推定精度が悪くても、ノード数を増やすことで、3次元位置推定の精度を向上させられることがわかる。
本発明の他の実施形態について説明する。図9は、実施例2のマイクアレイ・ネットワークシステムの構成図を示している。図9は、16個のマイクがアレイ状に配列されたマイクアレイ備えたノード(1a,1b,1c)がネットワーク(11,12)で接続されたシステム構成を示している。実施例2のシステムの場合、実施例1のシステム構成と異なり、音声処理サーバが存在しない。また、それぞれのノードは、実施例1と同様に、図5に示すように、16個のアレイ状に配列されたマイク(m11,m12,・・・,m43,m44)の信号線が収音処理部2のI/O部3に接続されており、マイクから収音された信号が収音処理部2のプロセッサ4に入力される。収音処理部2のプロセッサ4は、入力した収音信号を用いて、MUSIC法のアルゴリズムの処理を行って音源方向の推定を行う。
そして、収音処理部2のプロセッサ4は、隣接するノードや他のノードとの間で、音源方向推定結果をデータ交換する。収音処理部2のプロセッサ4は、自ノードを含む複数のノードの音源方向推定結果および最大応答強度から、上述の2次元定位や3次元定位の処理を行い、音源の位置を推定する。
本発明は、マイクアレイを採用する音声会議システム、音声を用いる情報家電など、今後ユビキタスの採用により大規模化が必須の音声処理システムに有用である。
1,m11,m12,・・・,m43,m44 マイク
1a,1b,1c,・・・,1n マイクアレイ
2,2a,2b,2c,・・・,2n 収音処理部
3 I/O部
4 プロセッサ
10,11,12 ネットワーク
20 音声処理サーバ
30,30a,30b,30c ノード

Claims (15)

  1. マイクアレイを備えた複数のノードが相互にネットワークで接続されたマイクアレイ・ネットワークシステムであって、
    各ノードは、
    複数のマイクをアレイ状に配列して構成されたマイクアレイと、
    マイクアレイの収音信号を入力し、音源方向の推定を行う収音処理部と、
    音源方向推定結果および最大応答強度に関して、他ノードの収音処理部とデータ通信を行うデータ通信部と、
    を備え、
    前記収音処理部は、自ノードを含む複数のノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出し、音源位置推定を行うことを特徴とするマイクアレイ・ネットワークシステム。
  2. マイクアレイを備えた複数のノードと音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムであって、
    各ノードは、
    複数のマイクをアレイ状に配列して構成されたマイクアレイと、
    マイクアレイの収音信号を入力し、音源方向の推定を行う収音処理部と、
    音源方向推定結果、最大応答強度、音声データを前記音声処理サーバにデータ送信を行うデータ通信部と、
    を備え、
    前記音声処理サーバは、
    各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出し、音源位置推定を行うことを特徴とするマイクアレイ・ネットワークシステム。
  3. マイクアレイを備えた複数のノードと音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムであって、
    各ノードは、
    複数のマイクをアレイ状に配列して構成されたマイクアレイと、
    マイクアレイの収音信号を入力し、音源方向の推定を行う収音処理部と、
    音源方向推定結果、最大応答強度、音声データを前記音声処理サーバにデータ送信を行うデータ通信部と、
    を備え、
    前記音声処理サーバは、
    各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出し、音源位置推定を行い、
    前記音源位置推定に基づいて特定ノードから音声データを取り込むことを特徴とするマイクアレイ・ネットワークシステム。
  4. 前記ネットワークがマルチホップ伝送ネットワークであることを特徴とする請求項1〜3のいずれかに記載のマイクアレイ・ネットワークシステム。
  5. 前記音源位置候補算出は、2つのノードの前記音源方向推定結果の交点、若しくは、2つのノードの前記音源方向推定結果の2直線を最短で結ぶ線分上に存在する仮想交点を算出することを特徴とする請求項1〜4のいずれかに記載のマイクアレイ・ネットワークシステム。
  6. 前記音源位置推定は、前記複数の音源位置候補に対して前記最大応答強度および前記最短で結ぶ線分の長さに基づく重み付けを行い、前記複数の音源位置候補の重心を算出することにより位置推定することを特徴とする請求項1〜4のいずれかに記載のマイクアレイ・ネットワークシステム。
  7. 複数のマイクをアレイ状に配列して構成されたマイクアレイと、
    該マイクアレイの収音信号を入力し音源方向の推定を行う収音処理部と、
    他ノードの収音処理部とデータ通信を行うデータ通信部と、
    を備えた複数のノードが相互にネットワークで接続されたマイクアレイ・ネットワークシステムを用いる音源定位方法であって、
    各ノードにおいて、
    音源方向推定結果および最大応答強度を算出する音源方向推定工程と、
    自ノードを含む複数のノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出する音源位置候補算出工程と、
    前記音源位置候補算出工程により算出した音源位置候補から音源位置推定を行う音源位置推定工程と、
    を備えたことを特徴とするマイクアレイ・ネットワークシステムにおける音源定位方法。
  8. 複数のマイクをアレイ状に配列して構成されたマイクアレイと、
    該マイクアレイの収音信号を入力し音源方向の推定を行う収音処理部と、
    音声処理サーバとデータ通信を行うデータ通信部と、
    を備えた複数のノードおよび前記音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムを用いる音源定位方法であって、
    各ノードにおいて、
    音源方向推定結果および最大応答強度を算出する音源方向推定工程と、
    前記音声処理サーバにおいて、
    各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出する音源位置候補算出工程と、
    前記音源位置候補算出工程により算出した音源位置候補から音源位置推定を行う音源位置推定工程と、
    を備えたことを特徴とするマイクアレイ・ネットワークシステムにおける音源定位方法。
  9. 複数のマイクをアレイ状に配列して構成されたマイクアレイと、
    該マイクアレイの収音信号を入力し音源方向の推定を行う収音処理部と、
    音声処理サーバとデータ通信を行うデータ通信部と、
    を備えた複数のノードおよび前記音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムを用いる音源定位方法であって、
    各ノードにおいて、
    音源方向推定結果および最大応答強度を算出する音源方向推定工程と、
    前記音声処理サーバにおいて、
    各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出する音源位置候補算出工程と、
    前記音源位置候補算出工程により算出した音源位置候補から音源位置推定を行う音源位置推定工程と、
    前記音源位置推定工程に基づいて特定ノードから音声データを取り込む音声データ取得工程と、
    を備えたことを特徴とするマイクアレイ・ネットワークシステムにおける音源定位方法。
  10. 前記ネットワークがマルチホップ伝送ネットワークであることを特徴とする請求項7〜9のいずれかに記載のマイクアレイ・ネットワークシステムにおける音源定位方法。
  11. 前記音源位置候補算出工程は、2つのノードの前記音源方向推定結果の交点、若しくは、2つのノードの前記音源方向推定結果の2直線を最短で結ぶ線分上に存在する仮想交点を算出することを特徴とする請求項7〜10のいずれかに記載のマイクアレイ・ネットワークシステムにおける音源定位方法。
  12. 前記音源位置推定工程は、前記複数の音源位置候補に対して前記最大応答強度および2つのノードの前記音源方向推定結果の2直線を最短で結ぶ線分の長さに基づく重み付けを行い、前記複数の音源位置候補の重心を算出することにより位置推定することを特徴とする請求項7〜10のいずれかに記載のマイクアレイ・ネットワークシステムにおける音源定位方法。
  13. 請求項11に記載の音源位置候補算出工程において、前記2つのノードは、前記最大応答強度が所定閾値以上を有するノードの全組合せであること。
  14. 請求項11に記載の音源位置候補算出工程において、前記2つのノードは、ノード中からランダムに抽出されたものであること。
  15. 請求項11に記載の音源位置候補算出工程において、前記2つのノードは、該2つのノード間距離が所定範囲内のものであること。
JP2010056796A 2010-03-12 2010-03-12 マイクアレイ・ネットワークシステムおよび該システムを用いた音源定位方法 Expired - Fee Related JP5022461B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010056796A JP5022461B2 (ja) 2010-03-12 2010-03-12 マイクアレイ・ネットワークシステムおよび該システムを用いた音源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010056796A JP5022461B2 (ja) 2010-03-12 2010-03-12 マイクアレイ・ネットワークシステムおよび該システムを用いた音源定位方法

Publications (2)

Publication Number Publication Date
JP2011193176A JP2011193176A (ja) 2011-09-29
JP5022461B2 true JP5022461B2 (ja) 2012-09-12

Family

ID=44797660

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010056796A Expired - Fee Related JP5022461B2 (ja) 2010-03-12 2010-03-12 マイクアレイ・ネットワークシステムおよび該システムを用いた音源定位方法

Country Status (1)

Country Link
JP (1) JP5022461B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11908464B2 (en) 2018-12-19 2024-02-20 Samsung Electronics Co., Ltd. Electronic device and method for controlling same

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014087495A1 (ja) * 2012-12-05 2014-06-12 株式会社日立製作所 音声対話ロボット、音声対話ロボットシステム
JP6250297B2 (ja) * 2013-04-15 2017-12-20 シャープ株式会社 音声入力装置、および画像表示装置
JP7051876B6 (ja) * 2017-01-27 2023-08-18 シュアー アクイジッション ホールディングス インコーポレイテッド アレイマイクロホンモジュール及びシステム
KR102395445B1 (ko) * 2018-03-26 2022-05-11 한국전자통신연구원 음원의 위치를 추정하기 위한 전자 장치
CN110297215B (zh) * 2019-06-19 2023-01-31 东北电力大学 一种圆阵列声源定位可视化系统及方法
JP7250281B2 (ja) * 2019-12-12 2023-04-03 本田技研工業株式会社 三次元構造復元装置、三次元構造復元方法、およびプログラム
CN113376578A (zh) * 2021-06-07 2021-09-10 上海数川数据科技有限公司 一种基于到达角度和声音强度匹配的声源定位方法及系统
CN114720943B (zh) * 2022-06-06 2022-09-02 深圳市景创科技电子股份有限公司 多声道声源定位方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007074317A (ja) * 2005-09-06 2007-03-22 Fuji Xerox Co Ltd 情報処理装置および情報処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11908464B2 (en) 2018-12-19 2024-02-20 Samsung Electronics Co., Ltd. Electronic device and method for controlling same

Also Published As

Publication number Publication date
JP2011193176A (ja) 2011-09-29

Similar Documents

Publication Publication Date Title
JP5022461B2 (ja) マイクアレイ・ネットワークシステムおよび該システムを用いた音源定位方法
JP5289517B2 (ja) センサネットワークシステムとその通信方法
JP4675381B2 (ja) 音源特性推定装置
CN103308889B (zh) 复杂环境下被动声源二维doa估计方法
JP6467736B2 (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
JP2015154207A (ja) 音響処理装置、及び音響処理方法
CN109901112B (zh) 基于多通道声获取的声学同时定位与建图方法
CN105388459A (zh) 分布式麦克风阵列网络的鲁棒声源空间定位方法
JP5412470B2 (ja) 位置測定システム
KR101767928B1 (ko) 음원 위치 추정 장치 및 방법
JP2019062435A (ja) 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム
JP5361008B2 (ja) パーティクルフィルターに基づく音響センサーを利用した3次元空間での客体追跡方法
TWI429885B (zh) 迴響環境之聲源能量分佈可視化的方法
KR20090128221A (ko) 음원 위치 추정 방법 및 그 방법에 따른 시스템
Cobos et al. Wireless acoustic sensor networks and applications
JP2011033369A (ja) 会議装置
Takagi et al. Microphone array network for ubiquitous sound acquisition
Astapov et al. Simplified acoustic localization by linear arrays for wireless sensor networks
Zhu et al. WIFI fingerprinting indoor localization system based on spatio-temporal (ST) metrics
JP6650245B2 (ja) インパルス応答生成装置及びプログラム
Farmani et al. TDOA-based self-calibration of dual-microphone arrays
JP6415975B2 (ja) 音源方向推定装置
CN111289947B (zh) 信息处理方法、装置以及设备
KR101483271B1 (ko) 음원 위치 추정에 있어 대표 점 선정 방법 및 그 방법을이용한 음원 위치 추정 시스템
Pasha et al. Forming ad-hoc microphone arrays through clustering of acoustic room impulse responses

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120615

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees