JP5022461B2

JP5022461B2 - マイクアレイ・ネットワークシステムおよび該システムを用いた音源定位方法

Info

Publication number: JP5022461B2
Application number: JP2010056796A
Authority: JP
Inventors: 博川口; 雅彦吉本; 紘希野口; 智也高木; 耕史久賀田
Original assignee: 株式会社半導体理工学研究センター
Priority date: 2010-03-12
Filing date: 2010-03-12
Publication date: 2012-09-12
Anticipated expiration: 2030-03-12
Also published as: JP2011193176A

Description

本発明は、高音質な音声取得を目的とするマイクアレイ・ネットワークシステムならびにマイクアレイ・ネットワークシステムを用いた音源定位方法に関する技術である。

従来、音声を利用するアプリケーションシステム（例えば、複数台のマイクを接続するような音声会議システム、音声認識するロボットシステム、各種音声インタフェースを備えたシステム等）では、高音質な音声を利用するために、音源定位、音源分離、雑音除去、エコーキャンセル等の様々な音声処理を行っている。
特に、高音質な音声取得を目的として、音源定位や音源分離を主な処理とするマイクアレイが広く研究されている。ここで、音源定位とは音の到達時間差などから音源の方向・位置を特定することであり、また音源分離は音源定位の結果を利用して雑音となる音源を消去し特定方向にある特定音源の抽出を行うことである。

マイクアレイを用いた音声処理は、通常、マイク数が多いほど雑音処理などの音声処理性能が向上することが知られている。また、そのような音声処理では、音源の位置情報を用いる音源定位の手法が多く存在している（例えば、非特許文献１を参照。）。音源定位の結果が正確であるほど音声処理が有効に働くことになる。すなわち、マイク数を増加して音源定位の高精度化と高音質のための雑音除去を同時に図ることが必要とされている。

従来の大規模マイクアレイを用いた音源定位の場合、図１０に示すように、音源の位置範囲を網目状に分割し、各区間に対して音源位置を確率的に求める。この計算には、全音声データをワークステーションなどの一箇所の音声処理サーバに収集し、全音声データを一括処理して音源の位置を推定していた（例えば、非特許文献２を参照。）。このような全音声データの一括処理の場合には、音声収集のためのマイクと音声処理サーバ間の信号配線長、通信量や音声処理サーバでの演算量が膨大となっていた。配線長、通信量、音声処理サーバでの演算量の増大、また音声処理サーバ一箇所に多数のＡ／Ｄコンバータを配置できないという物理的な制限によって、マイク数を増やせないという問題がある。また、信号配線長が長くなることによるノイズの発生の問題もある。そのため、高音質を追求するためのマイク数の増加が困難であるという問題が生じていた。

かかる問題を改善する方法として、複数のマイクを小アレイに分割し、それを統合するマイクアレイによる音声処理システムが知られている（例えば、非特許文献３を参照。）。
しかしながら、かかる音声処理システムの場合でも、小アレイで取得した全てのマイクの音声データを、ネットワークを介して一箇所の音声サーバに統合することから、ネットワークの通信トラフィックの増加の問題がある。また、通信データ量や通信トラフィック量の増加に伴う音声処理の遅延が生じるという問題がある。

また今後、ユビキタス・システムにおける収音やテレビ会議システムなどの要求に応えるためには、より多くのマイクが必要となってくる（例えば、特許文献１を参照。）。しかしながら、上述の通り、現状のマイクアレイのネットワークシステムでは、マイクアレイで得られた音声データをそのままサーバに転送しているに過ぎない。マイクアレイの各ノードが相互に音源の位置情報を交換して、システム全体の計算量の低減ならびにネットワークの通信量の低減を図るシステムは見当たらない。
従って、マイクアレイのネットワークシステムの大規模化を想定し、システム全体の計算量の低減ならびにネットワークの通信量を抑えるようなシステムアーキテクチャーが重要となる。

特開２００８−１１３１６４号公報

R.O. Schmidt, "Multipleemitter location and signal parameter estimation," In Proc. of the RADCSpectrum Estimation Workshop, pp.243-248, Oct.1979. E. Weinstein, K. Steele, A. Agarwal, and J. Glass, "Loud: A 1020-nodemodular microphone array and beamformer for intelligent computing spaces," MIT,MIT/LCS Technical Memo MIT-LCS-TM-642, Apr. 2004. A. Brutti, M. Omologo, P. Svaizer, C. Zieger, "Classification ofAcoustic Maps to Determine Speaker Position and Orientation from a DistributedMicrophone Network," In Proc. of ICASSP, vol. IV, pp. 493-496, Apr. 2007.

上述したように、音声処理サーバにおける通信量と演算量を抑えながら、数多くのマイクアレイを用いて音源定位精度を高め、雑音除去などの音声処理を有効に行わせることが求められている。

上記状況に鑑みて、本発明は、マイクアレイのノード数やノード内のマイク数を増加して音声処理性能を向上させた場合でも、ネットワークの通信量を抑えて、音源定位の高精度化を図ることが可能なマイクアレイ・ネットワークシステムならびに音源定位方法を提供することを目的とする。

上記目的を達成すべく、本発明の第１の観点のマイクアレイ・ネットワークシステムは、マイクアレイを備えた複数のノードが相互にネットワークで接続されたマイクアレイ・ネットワークシステムであって、
各ノードは、複数のマイクをアレイ状に配列して構成されたマイクアレイと、マイクアレイの収音信号を入力し、音源方向の推定を行う収音処理部と、音源方向推定結果および最大応答強度に関して、他ノードの収音処理部とデータ通信を行うデータ通信部と、を備える構成とされ、収音処理部は、自ノードを含む複数のノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出し、音源位置推定を行うことを特徴とする。

本発明の第１の観点のマイクアレイ・ネットワークシステムによれば、各ノードで、マイクアレイの収音信号処理から音源の方向を推定することで、音源定位処理の分散化を行うことができる。そして、ノード間でデータ通信を行って、ノードの音源定位推定結果をデータ交換し、音源定位推定結果を基に音源の位置を推定できる。従って、ノード内で音声定位推定を行って、音源定位推定結果をノード間でデータ交換することにより、システム全体の計算量の低減およびネットワークの通信量を抑えることが可能となる。
ここで、音源方向推定方法は、例えば、ＭＵＳＩＣ（Ｍｕｌｔｉｐｌｅｓｉｇｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ）法などの従来から知られた音源定位方法を用いて行う。また、最大応答強度は、各方向に関してＭＵＳＩＣ法による応答を求めたものの最大値であり、推定された音源方向から到達する音声信号の応答強度である。

また、本発明の第２の観点のマイクアレイ・ネットワークシステムは、マイクアレイを備えた複数のノードと音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムであって、
１）各ノードは、複数のマイクをアレイ状に配列して構成されたマイクアレイと、マイクアレイの収音信号を入力し、音源方向の推定を行う収音処理部と、音源方向推定結果、最大応答強度、音声データを音声処理サーバにデータ送信を行うデータ通信部と、を備え、
２）音声処理サーバは、各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出し、音源位置推定を行うことを特徴とするものである。

本発明の第２の観点のマイクアレイ・ネットワークシステムによれば、第１の観点と同様に、各ノードで、マイクアレイの収音信号処理から音源の方向を推定することで、音源定位処理の分散化を行うことができる。そして、音声処理サーバに対してデータ通信を行って、ノードの音源定位推定結果を送信する。音声処理サーバは、各ノードの音源定位推定結果の集約情報を基にして、音源の位置を推定する。従って、ノード内で音声定位推定を行って、音声処理サーバに対して音源定位推定結果をデータ交換することにより、音声処理サーバにおける計算量の低減およびネットワークの通信量を抑えることが可能となる。

また、本発明の第３の観点のマイクアレイ・ネットワークシステムは、マイクアレイを備えた複数のノードと音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムであって、
１）各ノードは、複数のマイクをアレイ状に配列して構成されたマイクアレイと、マイクアレイの収音信号を入力し、音源方向の推定を行う収音処理部と、音源方向推定結果、最大応答強度、音声データを音声処理サーバにデータ送信を行うデータ通信部と、を備え、
２）音声処理サーバは、各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出し、音源位置推定を行い、これに基づいて特定ノードから音声データを取り込むことを特徴とするものである。

本発明の第３の観点のマイクアレイ・ネットワークシステムによれば、第１の観点と同様に、各ノードで、マイクアレイの収音信号処理から音源の方向を推定することで、音源定位処理の分散化を行うことができる。そして、音声処理サーバに対してデータ通信を行って、ノードの音源定位推定結果を送信する。音声処理サーバは、各ノードの音源定位推定結果の集約情報を基にして、音源の位置を推定する。従って、ノード内で音声定位推定を行って、音声処理サーバに対して音源定位推定結果をデータ交換することで、ネットワークの通信量が抑えることが可能となる。
さらに、音源位置推定結果に基づいて特定ノードから音声データを取り込むことにより、全ノードの全音声データをネットワーク上で通信する必要はない。特定ノードから音声データのデータ交換を行うことにより、システム全体の計算量の低減およびネットワークの通信量を更に抑えることが可能となる。

ここで、上記のネットワークは、好ましくは、マルチホップ伝送ネットワークである。
マルチホップ伝送ネットワークを用いることで、マイクアレイから取り込まれた音声データは、音声処理サーバとつながっているノードからしか送られてくるものでなくとも構わない。マルチホップ伝送ネットワークによれば、複数のネットワークをホッピングする形で、マイクアレイを有するノードの音声データが音声処理サーバに到達できることになる。
また中継ノードにおいて、音源位置推定結果に基づいて、音声データを集約（雑音除去）することにより、音声データの圧縮も可能である。

ここで、上記の音源位置候補算出は、２つのノードの音源方向推定結果の交点、若しくは、２つのノードの音源方向推定結果の２直線を最短で結ぶ線分上に存在する仮想交点を算出する。
具体的に、２次元の定位の場合は、２つのノードの音源方向推定結果の交点を算出し、各交点に対して最大応答強度に基づく重み付けを行い、音源位置候補を求める。また、３次元の定位の場合は、２次元の定位のように必ずしも交点が得られないことから、２つのノードの音源方向推定結果の２直線を最短で結ぶ線分上に存在する仮想交点を算出し、最短で結ぶ線分の長さと２つのノードの最大応答強度とを用いて、音源位置候補を求める。

また、上記の音源位置推定は、複数の音源位置候補に対して最大応答強度と最短で結ぶ線分の長さに基づく重み付けを行い、複数の音源位置候補の重心を算出することにより位置推定する。

すなわち、各ノードで音源方向を推定し、その音源方向推定結果をデータ交換により特定ノードもしくは音声処理サーバに集約する。特定ノードもしくは音声処理サーバでは、各ノードで推定した音源方向推定結果の交点を算出して求めた複数の音源位置候補に対して、最終的に、最大応答強度と最短で結ぶ線分の長さに基づく重み付けを行う。特定ノードもしくは音声処理サーバには、複数の音源位置候補の重心を算出して、音源位置を推定するのである。

次に、本発明のマイクアレイ・ネットワークシステムにおける第１の観点の音源定位方法は、複数のマイクをアレイ状に配列して構成されたマイクアレイと、該マイクアレイの収音信号を入力し音源方向の推定を行う収音処理部と、他ノードの収音処理部とデータ通信を行うデータ通信部と、を備えた複数のノードが相互にネットワークで接続されたマイクアレイ・ネットワークシステムを用いる音源定位方法であって、
各ノードにおいて、以下のａ）〜ｃ）の工程を備えたことを特徴とする。
ａ）音源方向推定結果および最大応答強度を算出する音源方向推定工程
ｂ）自ノードを含む複数のノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出する音源位置候補算出工程
ｃ）音源位置候補算出工程により算出した音源位置候補から音源位置推定を行う音源位置推定工程

本発明の第１の観点の音源定位方法によれば、各ノードで、音源方向推定工程により、マイクアレイの収音信号処理から音源の方向を推定することで、音源定位処理の分散化を行うことができる。そして、音源位置候補算出工程と音源位置推定工程により、ノード間でデータ通信を行って、ノードの音源定位推定結果をデータ交換し、音源定位推定結果を基に音源の位置を推定できる。ノード内で音源定位推定を行って、ノード間で音源定位推定結果をデータ交換することにより、システム全体の計算量の低減およびネットワークの通信量が抑えることが可能となる。
ここで、音源方向推定工程は、例えば、ＭＵＳＩＣ（Ｍｕｌｔｉｐｌｅｓｉｇｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ）法などの従来から知られた音源定位方法を用いて行う。また、最大応答強度は、各方向に関してＭＵＳＩＣ法による応答を求めたものの最大値であり、推定された音源方向から到達する音声信号の応答強度である。

また、本発明のマイクアレイ・ネットワークシステムにおける第２の観点の音源定位方法は、複数のマイクをアレイ状に配列して構成されたマイクアレイと、該マイクアレイの収音信号を入力し音源方向の推定を行う収音処理部と、音声処理サーバとデータ通信を行うデータ通信部と、を備えた複数のノードおよび前記音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムを用いる音源定位方法であって、
１）各ノードにおいて、
ａ）音源方向推定結果および最大応答強度を算出する音源方向推定工程と、
２）音声処理サーバにおいて、
ｂ）各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出する音源位置候補算出工程と、
ｃ）音源位置候補算出工程により算出した音源位置候補から音源位置推定を行う音源位置推定工程と、
を備えたことを特徴とする。

本発明の第２の観点の音源定位方法によれば、第１の観点の音源定位方法と同様に、各ノードで、音源方向推定工程により、マイクアレイの収音信号処理から音源の方向を推定することで、音源定位処理の分散化を行うことができる。そして、音声処理サーバに対してデータ通信を行って、ノードの音源定位推定結果を送信する。
音声処理サーバは、音源位置候補算出工程と音源位置候補算出工程により、各ノードの音源定位推定結果の集約情報を基にして、音源の位置を推定する。従って、ノード内で音声定位推定を行って、音声処理サーバに対して音源定位推定結果をデータ交換することにより、音声処理サーバにおける計算量の低減およびネットワークの通信量を抑えることが可能となる。

また、本発明のマイクアレイ・ネットワークシステムにおける第３の観点の音源定位方法は、複数のマイクをアレイ状に配列して構成されたマイクアレイと、該マイクアレイの収音信号を入力し音源方向の推定を行う収音処理部と、音声処理サーバとデータ通信を行うデータ通信部と、を備えた複数のノードおよび音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムを用いる音源定位方法であって、
１）各ノードにおいて、
ａ）音源方向推定結果および最大応答強度を算出する音源方向推定工程と、
２）音声処理サーバにおいて、
ｂ）各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出する音源位置候補算出工程と、
ｃ）音源位置候補算出工程により算出した音源位置候補から音源位置推定を行う音源位置推定工程と、
ｄ）音源位置推定工程に基づいて特定ノードから音声データを取り込む音声データ取得工程と、
を備えたことを特徴とする。

本発明の第３の観点の音源定位方法によれば、第１の観点の音源定位方法と同様に、各ノードで、音源方向推定工程により、マイクアレイの収音信号処理から音源の方向を推定することで、音源定位処理の分散化を行うことができる。そして、音声処理サーバに対してデータ通信を行って、ノードの音源定位推定結果を送信する。
音声処理サーバは、音源位置候補算出工程と音源位置推定工程により、各ノードの音源定位推定結果の集約情報を基にして、音源の位置を推定する。従って、ノード内で音声定位推定を行って、音声処理サーバに対して音源定位推定結果をデータ交換することで、通信量が抑えることが可能となる。
さらに、音声処理サーバは、音声データ取得工程により、音源位置推定に基づいて特定ノードから音声データを取り込むことにより、全ノードの全音声データをネットワーク上で通信する必要はない。特定ノードから音声データのデータ交換を行うことにより、計算量の低減およびネットワークの通信量を更に抑えることが可能となる。

また、上記の音源位置候補算出工程は、２つのノードの音源方向推定結果の交点、若しくは、２つのノードの音源方向推定結果の２直線を最短で結ぶ線分上に存在する仮想交点を算出する。
この音源位置候補算出工程において、２次元の定位の場合は、２つのノードの音源方向推定結果の交点を算出し、各交点に対して最大応答強度に基づく重み付けを行い、音源位置候補を求める。３次元の定位の場合は、２次元の定位のように必ずしも交点が得られないことから、２つのノードの音源方向推定結果の２直線を最短で結ぶ線分上に存在する仮想交点を算出し、最短で結ぶ線分の長さと２つのノードの最大応答強度とを用いて、音源位置候補を求める。

また、上記の音源位置候補算出工程において、２つのノードは、最大応答強度が所定閾値以上を有するノードの全組合せであることが好ましい。

２つのノードは、ノードの全組合せに対するものでも構わないが、最大応答強度が所定閾値以上を有するノードの全組合せにすることで、システム全体の計算量をより低減することができる。

また、上記の音源位置候補算出工程において、２つのノードは、ノード中からランダムに抽出されたものであることが好ましい。

２つのノードは、ノードの全組合せからランダムに抽出されたものでも構わないが、ノード中からランダムに抽出されたものにすることで、システム全体の計算量をより低減することができる。

また、上記の音源位置候補算出工程において、２つのノードは、ノード中から精度が得られやすくなるような所定のルールに従い抽出されたものであることが好ましい。
ここで、所定のルールとは、ノード間距離が所定の範囲にあるノードを組み合わせる場合、精度が得られやすいとするルールが挙げられる。遠くのノード同士や、近接しすぎたノード同士では精度が得られないと予測される。

また、上記の音源位置推定工程は、複数の音源位置候補に対して最大応答強度と最短で結ぶ線分の長さに基づく重み付けを行い、複数の音源位置候補の重心を算出することにより位置推定するものである。

本発明によれば、マイクアレイのノード数やノード内のマイク数を増加して音声処理性能を向上させた場合でも、ネットワークの通信量を抑え、音源定位の高精度化を図れるといった効果がある。
また、本発明によれば、マイクアレイのノード毎に音声データの分散処理を行うことにより、ネットワークの通信量やマイクサーバでの演算量を抑えることができるといった効果がある。

本発明の音源定位の説明図２次元の音源定位の説明図３次元の音源定位の説明図実施例１のマイクアレイ・ネットワークシステムの構成図実施例１のマイクアレイを備えたノードの構成図実施例１のマイクアレイ・ネットワークシステムの機能図３次元の音源定位精度の実験説明図３次元の音源定位精度向上を示す測定結果実施例２のマイクアレイ・ネットワークシステムの構成図従来の音源定位の説明図

以下、本発明の実施形態について、図面を参照しながら詳細に説明していく。なお、本発明の範囲は、以下の実施例や図示例に限定されるものではなく、幾多の変更及び変形が可能である。

図１は、本発明の音源定位の説明図を示している。図１に示すように、マイクアレイを備えた６つのノードと１つの音声処理サーバ２０がネットワーク１０で接続されている。複数のマイクをアレイ状に配列して構成されたマイクアレイを備える６つのノードは、室内の四方の壁面に存在し、それぞれのノード内に存在する収音処理用のプロセッサで音源方向の推定を行い、その結果を音声処理サーバに統合することで音源の位置を特定する。各ノードでデータの処理を行うために、ネットワークの通信量が削減でき、ノード間で演算量が分散されるものである。

以下では、２次元の音源定位の場合と３次元の音源定位の場合に分けて詳細に説明する。先ず、本発明の２次元の音源定位方法について図２を参照しながら説明する。図２は２次元の音源定位方法を説明している。図２に示すように、ノード１〜ノード３は、それぞれのマイクアレイから収音した収音信号から音源方向を推定する。各ノードは、各方向に対して、ＭＵＳＩＣ法の応答強度を計算して、その最大値をとる方向を音源方向と推定している。図２では、ノード１がマイクアレイの配列面の垂線方向（正面方向）を０°とし、−９０°〜９０°までの方向に対して、応答強度を計算し、Θ_１＝−３０°の方向を音源方向と推定する場合を示している。ノード２やノード３も同様に各方向に対して、応答強度を計算して、その最大値をとる方向を音源方向と推定する。

そして、ノード１とノード２、或いは、ノード１とノード３というように、２つのノードの音源方向推定結果の交点に対して、重み付けを行っていく。ここで、重みは、各ノードのＭＵＳＩＣ法の最大応答強度に基づいて決定している（例えば２つのノードの最大応答強度の積とする）。図２では、重みのスケールを交点部分の丸印の径で表現している。
得られた複数の重みを示す丸印（位置とスケール）は音源位置候補となる。そして、得られた複数の音源位置候補の重心を求めることで音源位置を推定する。図２の場合、複数の音源位置候補の重心を求めるとは、複数の重みを示す丸印（位置とスケール）の重み付き重心を求めることである。

次に、本発明の３次元の音源定位方法について図３を参照しながら説明する。図３は３次元の音源定位方法を説明している。図３に示すように、ノード１〜ノード３は、それぞれのマイクアレイから収音した収音信号から音源方向を推定する。各ノードは、３次元方向に対して、ＭＵＳＩＣ法の応答強度を計算して、その最大値をとる方向を音源方向と推定している。図３は、ノード１がマイクアレイの配列面の垂線方向（正面方向）の回転座標系の方向に対して、応答強度を計算し、強度が大きな方向を音源方向と推定する場合を示している。ノード２やノード３も同様に各方向に対して、応答強度を計算して、その最大値をとる方向を音源方向と推定する。

そして、ノード１とノード２、或いは、ノード１とノード３というように、２つのノードの音源方向推定結果の交点に対して、重みを求めていくのであるが、３次元の場合には交点が得られないことが多い。そのため、２つのノードの音源方向推定結果の直線を最短で結ぶ線分上に仮想的に交点を求めることにしている。なお、重みは、２次元と同様に、各ノードのＭＵＳＩＣ法の最大応答強度に基づいて決定している（例えば２つのノードの最大応答強度の積とする）。図３では、図２と同様に、重みのスケールを交点部分の丸印の径で表現している。
得られた複数の重みを示す丸印（位置とスケール）は音源位置候補となる。そして、得られた複数の音源位置候補の重心を求めることで音源位置を推定する。図３の場合、複数の音源位置候補の重心を求めるとは、複数の重みを示す丸印（位置とスケール）の重み付き重心を求めることである。

本発明の一実施形態について説明する。図４は、実施例１のマイクアレイ・ネットワークシステムの構成図を示している。図４は、１６個のマイクがアレイ状に配列されたマイクアレイ備えたノード（１ａ，１ｂ，・・・，１ｎ）と１つの音声処理サーバ２０がネットワーク１０で接続されたシステム構成を示している。それぞれのノードは、図５に示すように、１６個のアレイ状に配列されたマイク（ｍ１１，ｍ１２，・・・，ｍ４３，ｍ４４）の信号線が収音処理部２のＩ／Ｏ部３に接続されており、マイクから収音された信号が収音処理部２のプロセッサ４に入力される。収音処理部２のプロセッサ４は、入力した収音信号を用いて、ＭＵＳＩＣ法のアルゴリズムの処理を行って音源方向の推定を行う。

そして、収音処理部２のプロセッサ４は、図４で示される音声処理サーバ２０に対して、音源方向推定結果と最大応答強度を送信する。
このように、各ノード内で分散して音声定位を行い、その結果を音声処理サーバに統合し、上述の２次元定位や３次元定位の処理を行い、音源の位置を推定する。

図６は、実施例１のマイクアレイ・ネットワークシステムの機能図を示している。
マイクアレイを備えるノードは、マイクアレイからの信号をＡ／Ｄ変換し（ステップＳ１１）、各マイクの収音信号を入力する（ステップＳ１３）。各マイクから収音した信号を用いて、ノートに搭載されているプロセッサが収音処理部として音源方向を推定する（ステップＳ１５）。
収音処理部は、図６に示すグラフのように、マイクアレイの正面（垂線方向）を０°とし、その左右−９０°〜９０°までの方向について、ＭＵＳＩＣ法の応答強度を算出する。そして、応答強度が強い方向を音源方向と推定する。その収音処理部は、図示しないネットワークを介して音声処理サーバと接続されており、ノード内で音源方向推定結果（Ａ）と最大応答強度（Ｂ）をデータ交換している（ステップＳ１７）。音源方向推定結果（Ａ）と最大応答強度（Ｂ）は、音声処理サーバに送られる。
音声処理サーバでは、各ノードから送られてくるデータを受信する（ステップＳ２１）。各ノードの最大応答強度から複数の音源位置候補を算出する（ステップＳ２３）。そして、音源方向推定結果（Ａ）と最大応答強度（Ｂ）に基づいて音源の位置を推定する（ステップＳ２５）。

以下では、３次元の音源定位精度を説明する。図７は３次元の音源定位精度の実験の様子を模式図で示したものである。床面積が１２ｍ×１２ｍで高さが３ｍの部屋を想定している。１６個のマイクをアレイ状に配列したマイクアレイを床面の四方に等間隔で並べた１６のサブアレイを想定した（１６サブアレイのケースＡ）。また、マイクアレイを床面の四方に１６個および天井面の四方に１６個のマイクアレイを等間隔で並べ、更に、床面に等間隔に９つのマイクアレイを配置した４１のサブアレイを想定した（４１サブアレイのケースＢ）。また、マイクアレイを床面の四方に３２個および天井面の四方に３２個のマイクアレイを等間隔で並べ、更に、床面に等間隔に９つのマイクアレイを配置した７３のサブアレイを想定した（７３サブアレイのケースＣ）。
この３つのケースＡ〜Ｃを用いて、ノード数と各ノードの音源方向推定の誤差ばらつきを変更し、３次元位置推定の結果を比較した。３次元位置推定は、各ノードが通信相手をひとつランダムに選び、仮想交点を求めている。

測定した結果を図８に示す。図８の横軸は、方向推定誤差のはらつき（標準偏差）を示しており、縦軸は、位置推定誤差を示している。
図８の結果から、音源方向の推定精度が悪くても、ノード数を増やすことで、３次元位置推定の精度を向上させられることがわかる。

本発明の他の実施形態について説明する。図９は、実施例２のマイクアレイ・ネットワークシステムの構成図を示している。図９は、１６個のマイクがアレイ状に配列されたマイクアレイ備えたノード（１ａ，１ｂ，１ｃ）がネットワーク（１１，１２）で接続されたシステム構成を示している。実施例２のシステムの場合、実施例１のシステム構成と異なり、音声処理サーバが存在しない。また、それぞれのノードは、実施例１と同様に、図５に示すように、１６個のアレイ状に配列されたマイク（ｍ１１，ｍ１２，・・・，ｍ４３，ｍ４４）の信号線が収音処理部２のＩ／Ｏ部３に接続されており、マイクから収音された信号が収音処理部２のプロセッサ４に入力される。収音処理部２のプロセッサ４は、入力した収音信号を用いて、ＭＵＳＩＣ法のアルゴリズムの処理を行って音源方向の推定を行う。

そして、収音処理部２のプロセッサ４は、隣接するノードや他のノードとの間で、音源方向推定結果をデータ交換する。収音処理部２のプロセッサ４は、自ノードを含む複数のノードの音源方向推定結果および最大応答強度から、上述の２次元定位や３次元定位の処理を行い、音源の位置を推定する。

本発明は、マイクアレイを採用する音声会議システム、音声を用いる情報家電など、今後ユビキタスの採用により大規模化が必須の音声処理システムに有用である。

１，ｍ１１，ｍ１２，・・・，ｍ４３，ｍ４４マイク
１ａ，１ｂ，１ｃ，・・・，１ｎマイクアレイ
２，２ａ，２ｂ，２ｃ，・・・，２ｎ収音処理部
３Ｉ／Ｏ部
４プロセッサ
１０，１１，１２ネットワーク
２０音声処理サーバ
３０，３０ａ，３０ｂ，３０ｃノード

Claims

マイクアレイを備えた複数のノードが相互にネットワークで接続されたマイクアレイ・ネットワークシステムであって、
各ノードは、
複数のマイクをアレイ状に配列して構成されたマイクアレイと、
マイクアレイの収音信号を入力し、音源方向の推定を行う収音処理部と、
音源方向推定結果および最大応答強度に関して、他ノードの収音処理部とデータ通信を行うデータ通信部と、
を備え、
前記収音処理部は、自ノードを含む複数のノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出し、音源位置推定を行うことを特徴とするマイクアレイ・ネットワークシステム。
マイクアレイを備えた複数のノードと音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムであって、
各ノードは、
複数のマイクをアレイ状に配列して構成されたマイクアレイと、
マイクアレイの収音信号を入力し、音源方向の推定を行う収音処理部と、
音源方向推定結果、最大応答強度、音声データを前記音声処理サーバにデータ送信を行うデータ通信部と、
を備え、
前記音声処理サーバは、
各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出し、音源位置推定を行うことを特徴とするマイクアレイ・ネットワークシステム。
マイクアレイを備えた複数のノードと音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムであって、
各ノードは、
複数のマイクをアレイ状に配列して構成されたマイクアレイと、
マイクアレイの収音信号を入力し、音源方向の推定を行う収音処理部と、
音源方向推定結果、最大応答強度、音声データを前記音声処理サーバにデータ送信を行うデータ通信部と、
を備え、
前記音声処理サーバは、
各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出し、音源位置推定を行い、
前記音源位置推定に基づいて特定ノードから音声データを取り込むことを特徴とするマイクアレイ・ネットワークシステム。
前記ネットワークがマルチホップ伝送ネットワークであることを特徴とする請求項１〜３のいずれかに記載のマイクアレイ・ネットワークシステム。
前記音源位置候補算出は、２つのノードの前記音源方向推定結果の交点、若しくは、２つのノードの前記音源方向推定結果の２直線を最短で結ぶ線分上に存在する仮想交点を算出することを特徴とする請求項１〜４のいずれかに記載のマイクアレイ・ネットワークシステム。
前記音源位置推定は、前記複数の音源位置候補に対して前記最大応答強度および前記最短で結ぶ線分の長さに基づく重み付けを行い、前記複数の音源位置候補の重心を算出することにより位置推定することを特徴とする請求項１〜４のいずれかに記載のマイクアレイ・ネットワークシステム。
複数のマイクをアレイ状に配列して構成されたマイクアレイと、
該マイクアレイの収音信号を入力し音源方向の推定を行う収音処理部と、
他ノードの収音処理部とデータ通信を行うデータ通信部と、
を備えた複数のノードが相互にネットワークで接続されたマイクアレイ・ネットワークシステムを用いる音源定位方法であって、
各ノードにおいて、
音源方向推定結果および最大応答強度を算出する音源方向推定工程と、
自ノードを含む複数のノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出する音源位置候補算出工程と、
前記音源位置候補算出工程により算出した音源位置候補から音源位置推定を行う音源位置推定工程と、
を備えたことを特徴とするマイクアレイ・ネットワークシステムにおける音源定位方法。
複数のマイクをアレイ状に配列して構成されたマイクアレイと、
該マイクアレイの収音信号を入力し音源方向の推定を行う収音処理部と、
音声処理サーバとデータ通信を行うデータ通信部と、
を備えた複数のノードおよび前記音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムを用いる音源定位方法であって、
各ノードにおいて、
音源方向推定結果および最大応答強度を算出する音源方向推定工程と、
前記音声処理サーバにおいて、
各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出する音源位置候補算出工程と、
前記音源位置候補算出工程により算出した音源位置候補から音源位置推定を行う音源位置推定工程と、
を備えたことを特徴とするマイクアレイ・ネットワークシステムにおける音源定位方法。
複数のマイクをアレイ状に配列して構成されたマイクアレイと、
該マイクアレイの収音信号を入力し音源方向の推定を行う収音処理部と、
音声処理サーバとデータ通信を行うデータ通信部と、
を備えた複数のノードおよび前記音声処理サーバがネットワークで接続されたマイクアレイ・ネットワークシステムを用いる音源定位方法であって、
各ノードにおいて、
音源方向推定結果および最大応答強度を算出する音源方向推定工程と、
前記音声処理サーバにおいて、
各ノードの音源方向推定結果および最大応答強度から、複数の音源位置候補を算出する音源位置候補算出工程と、
前記音源位置候補算出工程により算出した音源位置候補から音源位置推定を行う音源位置推定工程と、
前記音源位置推定工程に基づいて特定ノードから音声データを取り込む音声データ取得工程と、
を備えたことを特徴とするマイクアレイ・ネットワークシステムにおける音源定位方法。
前記ネットワークがマルチホップ伝送ネットワークであることを特徴とする請求項７〜９のいずれかに記載のマイクアレイ・ネットワークシステムにおける音源定位方法。
前記音源位置候補算出工程は、２つのノードの前記音源方向推定結果の交点、若しくは、２つのノードの前記音源方向推定結果の２直線を最短で結ぶ線分上に存在する仮想交点を算出することを特徴とする請求項７〜１０のいずれかに記載のマイクアレイ・ネットワークシステムにおける音源定位方法。
前記音源位置推定工程は、前記複数の音源位置候補に対して前記最大応答強度および２つのノードの前記音源方向推定結果の２直線を最短で結ぶ線分の長さに基づく重み付けを行い、前記複数の音源位置候補の重心を算出することにより位置推定することを特徴とする請求項７〜１０のいずれかに記載のマイクアレイ・ネットワークシステムにおける音源定位方法。
請求項１１に記載の音源位置候補算出工程において、前記２つのノードは、前記最大応答強度が所定閾値以上を有するノードの全組合せであること。
請求項１１に記載の音源位置候補算出工程において、前記２つのノードは、ノード中からランダムに抽出されたものであること。
請求項１１に記載の音源位置候補算出工程において、前記２つのノードは、該２つのノード間距離が所定範囲内のものであること。