JP2013030946A

JP2013030946A - センサネットワークシステムとその通信方法

Info

Publication number: JP2013030946A
Application number: JP2011164986A
Authority: JP
Inventors: Hiroshi Kawaguchi; 博川口; Masahiko Yoshimoto; 雅彦吉本; Shintaro Izumi; 慎太郎和泉
Original assignee: Semiconductor Technology Academic Research Center
Current assignee: Semiconductor Technology Academic Research Center
Priority date: 2011-07-28
Filing date: 2011-07-28
Publication date: 2013-02-07
Anticipated expiration: 2031-07-28
Also published as: JP5289517B2; US20130029684A1; US8600443B2

Abstract

【課題】センサネットワークシステムにおいてデータ集約を効率的に行うことができ、ネットワークトラフィックを大幅に削減する。
【解決手段】既知の位置情報を有する複数のノードが相互に伝搬経路を介するネットワーク上で接続されかつ時間同期されたセンサネットワークシステムを用いて、各ノードで測定されたデータを１つの基地局に集約するように収集するセンサネットワークシステムにおいて、基地局は各ノードからの信号の角度推定値と各ノードの位置情報とに基づいて、信号源の位置を計算し、信号源に最も近いノードをクラスタヘッドノードに指定し、信号源の位置とクラスタヘッドノードの情報とを各ノードに送信して各クラスタヘッドノードからホップ数内に位置する各ノードを各クラスタに所属するノードとしてクラスタリングし、指定されたクラスタに属する各ノード毎に、センサアレイで受信した信号に対して強調処理して基地局に送信する。
【選択図】図２５

Description

本発明は、高音質な音声取得を目的とするマイクロホンアレイ・ネットワークシステムなどのセンサネットワークシステムとその通信方法に関する。

従来、音声を利用するアプリケーションシステム（例えば、複数台のマイクロホンを接続するような音声会議システム、音声認識するロボットシステム、各種音声インタフェースを備えたシステム等）では、高音質な音声を利用するために、音源定位、音源分離、雑音除去、エコーキャンセル等の様々な音声処理を行っている。特に、高音質な音声取得を目的として、音源定位や音源分離を主な処理とするマイクロホンアレイが広く研究されている。ここで、音源定位とは音の到達時間差などから音源の方向・位置を特定することであり、また音源分離は音源定位の結果を利用して雑音となる音源を消去し特定方向にある特定音源の抽出を行うことである。

マイクロホンアレイを用いた音声処理は、通常、マイクロホン数が多いほど雑音処理などの音声処理性能が向上することが知られている。また、そのような音声処理では、音源の位置情報を用いる音源定位の手法が多く存在している（例えば、非特許文献１を参照。）。音源定位の結果が正確であるほど音声処理が有効に働くことになる。すなわち、マイクロホン数を増加して音源定位の高精度化と高音質のための雑音除去を同時に図ることが必要とされている。

従来の大規模マイクロホンアレイを用いた音源定位の場合、音源の位置範囲を網目状に分割し、各区間に対して音源位置を確率的に求める。この計算には、全音声データをワークステーションなどの一箇所の音声処理サーバに収集し、全音声データを一括処理して音源の位置を推定していた（例えば、非特許文献２を参照。）。このような全音声データの一括処理の場合には、音声収集のためのマイクロホンと音声処理サーバ間の信号配線長、通信量や音声処理サーバでの演算量が膨大となっていた。配線長、通信量、音声処理サーバでの演算量の増大、また音声処理サーバ一箇所に多数のＡ／Ｄコンバータを配置できないという物理的な制限によって、マイクロホン数を増やせないという問題がある。また、信号配線長が長くなることによるノイズの発生の問題もある。そのため、高音質を追求するためのマイクロホン数の増加が困難であるという問題が生じていた。

かかる問題を改善する方法として、複数のマイクロホンを小アレイに分割し、それを統合するマイクロホンアレイによる音声処理システムが知られている（例えば、非特許文献３を参照。）。しかしながら、かかる音声処理システムの場合でも、小アレイで取得したすべてのマイクロホンの音声データを、ネットワークを介して一箇所の音声サーバに統合することから、ネットワークの通信トラフィックの増加の問題がある。また、通信データ量や通信トラフィック量の増加に伴う音声処理の遅延が生じるという問題がある。

また、今後、ユビキタス・システムにおける収音やテレビ会議システムなどの要求に応えるためには、より多くのマイクロホンが必要となってくる（例えば、特許文献１を参照。）。しかしながら、上述の通り、現状のマイクロホンアレイのネットワークシステムでは、マイクロホンアレイで得られた音声データをそのままサーバに転送しているに過ぎない。マイクロホンアレイの各ノードが相互に音源の位置情報を交換して、システム全体の計算量の低減並びにネットワークの通信量の低減を図るシステムは見当たらない。従って、マイクロホンアレイのネットワークシステムの大規模化を想定し、システム全体の計算量の低減並びにネットワークの通信量を抑えるようなシステムアーキテクチャーが重要となる。

上述したように、音声処理サーバにおける通信量と演算量を抑えながら、数多くのマイクロホンアレイを用いて音源定位精度を高め、雑音除去などの音声処理を有効に行わせることが求められている。また、昨今、音源を用いた位置測定システムが提案されている。例えば、特許文献２では、超音波タグとマイクロホンアレイとを用いて超音波タグを算定することが開示されている。さらに、特許文献３では、マイクロホンアレイを用いて収音を行うことが開示されている。

特開２００８−１１３１６４号公報国際公開第２００８／０２６４６３号パンフレット特開２００８−０５８３４２号公報特開２００８−０９９０７５号公報

R.O. Schmidt, "Multiple emitter location and signal parameter estimation", In Proceedings of the RADC Spectrum Estimation Workshop, pp.243-248, October 1979. E. Weinstein et al., "Loud: A 1020-node modular microphone array and beamformer for intelligent computing spaces", MIT, MIT/LCS Technical Memo MIT-LCS-TM-642, April 2004. A. Brutti et al., "Classification of Acoustic Maps to Determine Speaker Position and Orientation from a Distributed Microphone Network", In Proceedings of ICASSP, Vol. IV, pp. 493-496, April. 2007. Wendi Rabiner Heinzelman et al., "Energy-Efficient Communication Protocol for Wireless Microsensor Networks", Proceedings of the 33rd Hawaii International Conference on System Sciences, 2000, Vol. 8, pp.1-10, January 2000. Vivek Katiyar et al., "A Survey on Clustering Algorithms for Heterogeneous Wireless Sensor Networks", International Journal of Advanced Netwoking and Applications, Vol. 02, Issue 04, pp. 745-754, 2011. J. Benesty et al., "Handbook of Speech Processing", Springer, 2007. F. Asano et al., "Sound Source Localization and Signal Separation for Office Robot (Jijo-2)", Proceedings of IEEE MFI, pp. 243-248, 1999. M. Maroti et al., "The Flooding Time Synchronization Protocol", Proceedings of 2nd ACM SenSys, pp. 39-49, 2004. T. Takeuchi et al., "Cross-Layer Design for Low-Power Wireless Sensor Node Using Wave Clock", IEICE Transactions on Communications, Vol. E91-B, No. 11, pp. 3480-3488, November 2008. Maleq Khan et al., "Distributed Algorithms for Constructing Approximate Minimum Spanning Trees in Wireless Networks", IEEE Transactions on Parallel and Distributed Systems, Vol. 20, No 1, pp. 124-139, January 2009. W. Ye et al., "Medium Access Control With Coordinated Adaptive Sleeping for Wireless Sensor Networks", IEEE/ACM Transactions on Networking, Vol. 12, No. 3, pp. 493-506, 2004.

しかしながら、多くのモバイル端末に搭載されているＧＰＳシステムやＷｉＦｉシステムの位置測定機能では、地図上のおおまかな位置を取得できても、数十ｃｍといった近距離での端末間の位置関係を取得できないという問題点があった。

例えば、非特許文献４においては、無線センサネットワークにおいて、伝送エネルギーを効率的に使用して無線通信を行う通信プロトコルが開示されている。また、非特許文献５においては、無線センサネットワークにおいて、消費エネルギーを減少させるための方法として、センサネットワークの寿命を長くするために、クラスタリング技術を用いることが開示されている。

しかしながら、従来技術に係るクラスタリング手法はネットワーク層に限定された手法であり、センシング対象（アプリケーション層）やノードのハードウェア構成を考慮していない。このため、従来手法は、現実の物理的な信号源位置に基づいた経路構築が必要となるアプリケーションには適応しないという問題点があった。

本発明の目的は以上の問題点を解決し、例えばマイクロホンアレイ・ネットワークシステムなどのセンサネットワークシステムにおいて、従来技術に比較してデータ集約を効率的に行うことができ、ネットワークトラフィックを大幅に削減できかつセンサノードの消費電力を低減できるセンサネットワークシステムとその通信方法を提供することにある。

本発明に係るセンサネットワークシステムは、それぞれセンサアレイを備え、既知の位置情報を有する複数のノードが所定の通信プロトコルを用いて相互に所定の伝搬経路を介するネットワーク上で接続され、かつ時間同期されたセンサネットワークシステムを用いて、上記各ノードで測定されたデータを１つの基地局に集約するように収集するセンサネットワークシステムであって、
上記各ノードは、
複数のセンサをアレイ状に配列して構成されたセンサアレイと、
上記センサアレイで受信した所定の信号源からの信号に基づいて上記信号の検出をしたときに、検出メッセージを基地局に送信するとともに、上記信号の到来方向の角度を推定して角度推定値を上記基地局に送信し、もしくは、他のノードから所定のホップ数で受信した信号検出時の起動メッセージに応答して、起動して上記信号の到来方向の角度を推定して角度推定値を上記基地局に送信する方向推定処理部と、
上記音源に対応して上記基地局から指定されたクラスタに属する各ノード毎に、上記センサアレイで受信した所定の信号源からの信号に対して強調処理し、当該強調処理された信号を基地局に送信する通信処理部とを備え、
上記基地局は、上記各ノードからの上記信号の角度推定値と上記各ノードの位置情報とに基づいて、上記信号源の位置を計算するとともに、上記信号源に最も近いノードをクラスタヘッドノードに指定し、上記信号源の位置と上記指定されたクラスタヘッドノードの情報とを上記各ノードに送信することにより、上記各クラスタヘッドノードから上記ホップ数内に位置する各ノードを各クラスタに所属するノードとしてクラスタリングし、
上記各ノードは、上記音源に対応して上記基地局から指定されたクラスタに属する各ノード毎に、上記センサアレイで受信した所定の信号源からの信号に対して強調処理し、当該強調処理された信号を基地局に送信することを特徴とする。

また、上記センサネットワークシステムにおいて、上記各ノードは、上記信号を検出する前、もしくは、上記起動メッセージを受信する前は、スリープモードに設定されて、上記信号を検出する回路及び上記起動メッセージを受信する回路以外の回路に対する電源供給を停止することを特徴とする。

さらに、上記センサネットワークシステムにおいて、上記センサは、音声を検出するマイクロホンであることを特徴とする。

本発明に係るセンサネットワークシステムの通信方法は、それぞれセンサアレイを備え、既知の位置情報を有する複数のノードが所定の通信プロトコルを用いて相互に所定の伝搬経路を介するネットワーク上で接続され、かつ時間同期されたセンサネットワークシステムを用いて、上記各ノードで測定されたデータを１つの基地局に集約するように収集するセンサネットワークシステムの通信方法であって、
上記各ノードは、
複数のセンサをアレイ状に配列して構成されたセンサアレイと、
上記センサアレイで受信した所定の信号源からの信号に基づいて上記信号の検出をしたときに、検出メッセージを基地局に送信するとともに、上記信号の到来方向の角度を推定して角度推定値を上記基地局に送信し、もしくは、他のノードから所定のホップ数で受信した信号検出時の起動メッセージに応答して、起動して上記信号の到来方向の角度を推定して角度推定値を上記基地局に送信する方向推定処理部と、
上記音源に対応して上記基地局から指定されたクラスタに属する各ノード毎に、上記センサアレイで受信した所定の信号源からの信号に対して強調処理し、当該強調処理された信号を基地局に送信する通信処理部とを備え、
上記通信方法は、
上記基地局が、上記各ノードからの上記信号の角度推定値と上記各ノードの位置情報とに基づいて、上記信号源の位置を計算するとともに、上記信号源に最も近いノードをクラスタヘッドノードに指定し、上記信号源の位置と上記指定されたクラスタヘッドノードの情報とを上記各ノードに送信することにより、上記各クラスタヘッドノードから上記ホップ数内に位置する各ノードを各クラスタに所属するノードとしてクラスタリングするステップと、
上記各ノードが、上記音源に対応して上記基地局から指定されたクラスタに属する各ノード毎に、上記センサアレイで受信した所定の信号源からの信号に対して強調処理し、当該強調処理された信号を基地局に送信するステップとを含むことを特徴とする。

また、上記センサネットワークシステムの通信方法において、上記各ノードが、上記信号を検出する前、もしくは、上記起動メッセージを受信する前は、スリープモードに設定されて、上記信号を検出する回路及び上記起動メッセージを受信する回路以外の回路に対する電源供給を停止するステップをさらに含むことを特徴とする。

さらに、上記センサネットワークシステムの通信方法において、上記センサは、音声を検出するマイクロホンであることを特徴とする。

従って、本発明に係るセンサネットワークシステムとその通信方法によれば、センサネットワーク上でのクラスタリング、クラスタヘッド決定、ルーティングのために、センシング対象となる信号を利用し、複数の信号源の物理配置に対応し、データ集約に特化したネットワーク経路を構築することで、冗長な経路を削減し、同時にデータ集約の効率を高めることができる。また、経路構築のための通信オーバーヘッドが少ないため、ネットワークトラフィックが削減され、消費電力の大きい通信回路の稼働時間を減らすことができる。それ故、センサネットワークシステムにおいて、従来技術に比較してデータ集約を効率的に行うことができ、ネットワークトラフィックを大幅に削減できかつセンサノードの消費電力を低減できる。

本発明の第１の実施形態に係る音源定位システム及び第２の実施形態に係る位置測定システムで用いるノードの詳細構成を示すブロック図である。図１のシステムで用いるマイクロホンアレイ・ネットワークシステムにおける処理を示すフローチャートである。図１のシステムで用いるゼロクロス点による音声アクティビティの検出（ＶＡＤ）を示す波形図である。図１のシステムで用いる遅延和回路部の詳細を示すブロック図である。分散配置された複数の図４の遅延和回路部の基本原理を示す平面図である。図５のシステムにおける動作を示す音源からの時間遅延を示すグラフである。第１の実施形態に係る音源定位システムの構成を示す説明図である。図７の音源定位システムにおける２次元の音源定位を説明する説明図である。図７の音源定位システムにおける３次元の音源定位を説明する説明図である。本発明の実施例１に係るマイクロホンアレイ・ネットワークシステムの構成を示す構成図である。図１０のマイクロホンアレイを備えたノードの構成を示す構成図である。図７のマイクロホンアレイ・ネットワークシステムの機能を示す機能図である。図７のマイクロホンアレイ・ネットワークシステムにおける３次元の音源定位精度の実験を説明する説明図である。図７のマイクロホンアレイ・ネットワークシステムにおける３次元の音源定位精度向上を示す測定結果を示すグラフである。本発明の実施例２に係るマイクロホンアレイ・ネットワークシステムの構成を示す構成図である。図１５の実施例２に係る音源定位システムを説明する説明図である。本発明の第２の実施形態に係る位置測定システムで用いるネットワークの構成を示すブロック図である。（ａ）は図１７の位置測定システムで用いるフラディング時間同期プロトコル（Flooding Time Synchronization Protocol（ＦＴＳＰ））の方法を示す斜視図であり、（ｂ）はその方法を示すデータ伝搬の状況を示すタイミングチャートである。図１７の位置測定システムで用いる線形補間付き時間同期を示すグラフである。図１７の位置測定システムにおける各タブレット間の信号伝送手順及び各タブレットで実行される各処理を示すタイミングチャートの第１の部分である。図１７の位置測定システムにおける各タブレット間の信号伝送手順及び各タブレットで実行される各処理を示すタイミングチャートの第２の部分である。図１７の位置測定システムの各タブレットで測定された角度情報から各タブレット間の距離を測定する方法を示す平面図である。本発明の第３の実施形態に係るマイクロホンアレイ・ネットワークシステムのためのデータ集約システムのノードの構成を示すブロック図である。図２２のデータ通信部５７ａの詳細構成を示すブロック図である。図２３のパラメータメモリ５７ｂ内のテーブルメモリの詳細構成を示す表である。図２２のデータ集約システムの処理動作を示す模式平面図であって、（ａ）は基地局からのＦＴＳＰの処理及びルーティング（Ｔ１１）を示す模式平面図であり、（ｂ）は音声アクティビティ検出（ＶＡＤ）及び検出メッセージ送信（Ｔ１２）を示す模式平面図であり、（ｃ）はウェイクアップメッセージ及びクラスタリング（Ｔ１３）を示す模式平面図であり、（ｄ）はクラスタを選択して遅延和処理（Ｔ１４）を示す模式平面図である。図２２のデータ集約システムの処理動作の第１の部分を示すタイミングチャートである。図２２のデータ集約システムの処理動作の第２の部分を示すタイミングチャートである。図２２のデータ集約システムの実施例の構成を示す平面図である。

以下、本発明に係る実施形態について図面を参照して説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。

従来技術において説明したように、多数のノードから構成されるセンサネットワークにおいて、自立分散型のルーティングアルゴリズムは必要不可欠である。センシング対象となる信号の発生源がセンシングエリアに複数存在し、それらに対して最適な経路を構築するためには、クラスタリングを用いたルーティングが有効である。本発明に係る実施形態では、高音質な音声取得を目的とするマイクロホンアレイ・ネットワークシステムに係るセンサネットワークシステムにおいて、音源定位システムを用いて効率的にデータ集約を行うことができるセンサネットワークシステムとその通信方法について以下に説明する。

（第１の実施形態）
図１は本発明の第１の実施形態に係る音源定位システムで用いるノードの詳細構成を示すブロック図であり、第２の実施形態に係る位置測定システムでも用いる。本実施形態に係る音源定位システムは、例えばユビキタスネットワークシステム（ＵＮＳ）を用いて構築され、例えば１６個のマイクロホンを有する小規模なマイクロホンアレイ（センサノード）を所定のネットワークで結ぶことで、全体として大規模なマイクロホンアレイ音声処理システムを構築することにより、音源定位システムを構成する。ここで、センサノードにはそれぞれマイクロホンロプロセッサを搭載し、分散・協調し合って音声処理を行う。

各センサノードは、図１に示すように、
（１）収音する複数のマイクロホン１に接続されたＡＤ変換回路５１と、
（２）ＡＤ変換回路５１に接続され音声信号を検知するための発話推定処理部（Voice Activity Detection：以下、ＶＡＤ処理部という。また、ＶＡＤを音声アクティビティ検出という。）５２と、
（３）ＡＤ変換回路５１によりＡＤ変換された音声信号又はサウンド信号を含む音声信号等（ここで、サウンド信号は、例えば、５００Ｈｚなどの可聴周波数の信号もしくは超音波信号をいう。）を一時的に記憶するＳＲＡＭ（Static Random Access Memory）５４と、
（４）ＳＲＡＭ５４から出力される音声信号等のディジタルデータに対して音源の位置を推定する音源定位（Sound Source Localization）処理を実行してその結果をＳＳＳ処理部５６に出力するＳＳＬ処理部５５と、
（５）ＳＲＡＭ５４及びＳＳＬ処理部５５から出力される音声信号等のディジタルデータに対して、特定の音源を抽出する音源分離（Sound Source Separation）処理を実行して、それらの処理の結果として得られたＳＮＲの高い音声データを他のノードと、ネットワークインターフェース回路５７を介して送受信することにより収集するＳＳＳ処理部５６と、
（６）他の周囲センサノードＮｎ（ｎ＝１，２，…，Ｎ）と接続され、音声データを送受信するデータ通信部を構成するネットワークインターフェース回路５７とを備えて構成される。

各センサノードＮｎ（ｎ＝０，１，２，…，Ｎ）は互いに同様の構成を有するが、基地局のセンサノードＮ０では、上記音声データをネットワーク上で集約することで、さらにＳＮＲが高められた音声データが得られる。なお、ＶＡＤ処理部５２及び電源管理部５３は第１の実施形態の音源定位において用いるが、第２の実施形態の位置推定では、原則として用いない。また、後述する距離推定は、例えばＳＳＬ処理部５５で実行される。

以上のように構成されたシステムにおいて、１６個のマイクロホン１からの入力音声データはＡＤ変換回路５１によりデジタル化され、音声データの情報はＳＲＡＭ５４に格納される。その後、情報は、音源定位と音源分離のために使用される。それらを含む音声処理は、待機電力を節約する電力管理部５３ジャ及びＶＡＤ処理部５２よって実行される。音声がマイクロホンアレイの周囲に存在しない場合は、音声処理部はオフになっており、使用していない場合は多数のマイクロホン１がはるかに電力を浪費するために、電源管理は基本的に必要である。

図２は図１のシステムで用いるマイクロホンアレイ・ネットワークシステムにおける処理を示すフローチャートである。

図２において、１つのマイクロホン１からの音声を入力し（Ｓ１）、音声アクティビティ（ＶＡ）の検出処理（Ｓ２）を実行する。ここでは、ゼロクロス点を計数し（Ｓ２ａ）、音声アクティビティ（発話推定）を検出したか否かを判断し（Ｓ２ｂ）、検出したら周囲のサブアレイをウエイクアップモードにし（Ｓ３）、すべてのマイクロホン１の音声を入力する（Ｓ４）。そして、音源の定位処理（Ｓ５）では、サブアレイ内の方向推定（Ｓ５ａ）、位置情報の通信（Ｓ５ｂ）及び音源の定位処理（Ｓ５ｃ）を行った後、音源の分離処理（Ｓ６）を行う。ここでは、サブアレイ内の分離（Ｓ６ａ）、音声データの通信（Ｓ６ｂ）及びさらなる音源の分離（Ｓ６ｃ）を実行し、音声データを出力する（Ｓ７）。

当該システムの顕著な特徴は以下の通りである。
（１）全体のノードを活性化するには、低電力の音声アクティビティ検出を行っている。
（２）音源定位のために、音源の局在化（定位化）を行っている。
（３）音の騒音レベルを低減するために音源分離処理を行っている。
また、サブアレイの各ノードは相互通信をサポートするために互いに接続されている。従って、各ノードで得られる音声データはさらに音源のＳＮＲを改善するために収集できる。当該システムは、周囲のノードとの相互作用を介して多数のマイクロホンアレイを構成している。従って、計算はノード間で分散できる。当該システムは、マイクロホンの数の面でスケーラビリティ（拡張性）を有している。また、各ノードは捕捉された音声データに対して前置処理を実行している。

図３は図１のシステムで用いるゼロクロス点による音声アクティビティの検出（ＶＡＤ：発話推定の検出）を示す波形図である。

本実施形態に係るマイクロホンアレイのネットワークは、その電力消費が容易に多大になる多数のマイクロホンで構成されている。本実施形態に係るインテリジェントマイクロホンアレイシステムは、可能な限り電力を節約するために限られたエネルギー源で動作する必要がある。周囲が静かなときでも音声処理ユニットとマイクアンプはある程度の電力を消費するので、電力を節約する音声処理が効果的である。本発明者らの以前の装置では、サブアレイの待機電力を削減する低消費電力ＶＡＤハードウェア実装を提案したが、本実施形態では、ＶＡＤのためのゼロクロスアルゴリズムを使用する。図３から明らかなように、音声信号は高トリガー値又は低トリガー値であるトリガーラインを交差した後、ゼロクロス点は、入力信号とオフセットラインとの最初の交差に存在する。音声信号と非音声信号との間で、このゼロクロス点の存在比率は大幅に異なります。ゼロクロスＶＡＤは、この違いを検出し、音声区間の最初のポイントとの終点を出力することにより、音声を検出する。唯一の要件は、トリガーラインとオフセットラインとにわたってクロス点を捕捉することである。このとき、詳細な音声信号の検出は不要であり、その結果、サンプリング周波数とビット数を減らすことができます。

本発明者らのＶＡＤでは、サンプリング周波数を２ｋＨｚに低減することができ、サンプルあたりのビット数が１０ビットに設定することができる。単一のマイクロホンは、信号を検出するのに十分であり、残りの１５個のマイクロホンも同様にオフになっています。これらの値は人間の言葉を検出するのに十分であり、この場合において、ただ３．４９μＷの電力が０．１８−μｍＣＭＯＳプロセスで消費されている。

音声処理部からの低電力ＶＡＤ処理部５２を分離することで、電力管理部５３を使用して音声処理部（ＳＳＬ処理部５５及びＳＳＳ処理部５６など）をオフにすることができます。さらに、すべてのノードですべてのＶＡＤ処理部５２を動作させる必要がある。ＶＡＤ処理部５２は、単にシステム内のノードの限られた数で活性化され、ＶＡＤ処理部５２は、音声信号を検出すると、主信号に係るプロセッサが実行を開始し、サンプリング周波数とビット数が十分な値まで増加されている。なお、ＡＤ変換回路５１の仕様にアナログを決定するこれらのパラメータは、システムに統合されている特定のアプリケーションに応じて変更することができる。

次いで、分散配置された音声捕捉処理について以下に説明する。図４は図１のシステムで用いる遅延和回路部の詳細を示すブロック図である。高いＳＮＲの音声データを取得するには、主要な音源を向上させる方法の以下の２つのタイプが提案されている。
（１）幾何学的位置情報を用いる手法、及び
（２）位置情報を使用しない統計的手法。

本実施形態に係るシステムでは、ネットワーク内のノードの位置がわかっていることを前提としているため、幾何学的方法に分類されているアルゴリズム（例えば、非特許文献６参照、図４）を形成する遅延和ビームを選択した。この方法は、統計的手法に比べ少ない歪みが得られる。幸いなことに、それは計算のわずかな量を必要とし、それが簡単に分散処理に適用可能である。分散ノードから音声データを収集するためのキーポイントは、隣接ノード間での音声の位相を並置させることであり、ここで、位相不整合（＝時間遅延）は各ノードへの音源からの距離の違いによって発生する。

図５は分散配置された複数の図４の遅延和回路部の基本原理を示す平面図であり、図６は図５のシステムにおける動作を示す音源からの時間遅延を示すグラフである。本実施形態では、図５に示すように形成する分散遅延和ビームを実現するために、二層のアルゴリズムを導入する。ローカル層では、各ノードは、ノードの原点からローカルな遅れを有する１６チャンネルの音声を収集してから、拡張された単一の音は、基本的な遅延和のアルゴリズムを使用して、ノード内に取得される。次に、加算アレイの位置で計算できる一定のグローバルな遅延で強調された音声データは、グローバル層の隣接ノードへ送信され、最後に、高いＳＮＲを有する音声データに集約される。音声パケットは、タイムスタンプと、６４個のサンプルの音声データを含む。ここで、タイムスタンプは、Ｔ_{Ｐａｃｋｅｔ}＝Ｔ_ＲＥＣ−Ｄ_{ｓｅｎｄｅｒ}で与えられる。ここで、Ｔ_ＲＥＣは、パケット内の音声データが記録されたときにおける送信側ノードでのタイマー値を表し、Ｄ_{Ｓｅｎｄｅｒ}は送信側ノードの原点でグローバルな遅延を示す。受信側ノードでは、受信したタイムスタンプがＴ_{Ｐａｃｋｅｔ}にそのグローバルな遅延（Ｄ_{Ｒｅｃｅｉｖｅｒ}）を追加することで調整し、音声データは遅延和の形で集約される（図６）。各ノードは、単一チャンネルの音声データを送信するものの、その結果、高いＳＮＲの音声データは基地局で取得することができる。

図７は、本発明の音源定位の説明図を示している。図７に示すように、マイクロホンアレイを備えた６つのノードと１つの音声処理サーバ２０がネットワーク１０で接続されている。複数のマイクロホンをアレイ状に配列して構成されたマイクロホンアレイを備える６つのノードは、室内の四方の壁面に存在し、それぞれのノード内に存在する収音処理用のプロセッサで音源方向の推定を行い、その結果を音声処理サーバに統合することで音源の位置を特定する。各ノードでデータの処理を行うために、ネットワークの通信量が削減でき、ノード間で演算量が分散されるものである。

以下では、２次元の音源定位の場合と３次元の音源定位の場合に分けて詳細に説明する。まず、本発明の２次元の音源定位方法について図８を参照しながら説明する。図８は２次元の音源定位方法を説明している。図８に示すように、ノード１〜ノード３は、それぞれのマイクロホンアレイから収音した収音信号から音源方向を推定する。各ノードは、各方向に対して、ＭＵＳＩＣ法の応答強度を計算して、その最大値をとる方向を音源方向と推定している。図８では、ノード１がマイクロホンアレイの配列面の垂線方向（正面方向）を０°とし、−９０°〜９０°までの方向に対して、応答強度を計算し、θ１＝−３０°の方向を音源方向と推定する場合を示している。ノード２やノード３も同様に各方向に対して、応答強度を計算して、その最大値をとる方向を音源方向と推定する。

そして、ノード１とノード２、或いは、ノード１とノード３というように、２つのノードの音源方向推定結果の交点に対して、重み付けを行っていく。ここで、重みは、各ノードのＭＵＳＩＣ法の最大応答強度に基づいて決定している（例えば２つのノードの最大応答強度の積とする）。図８では、重みのスケールを交点部分の丸印の径で表現している。
得られた複数の重みを示す丸印（位置とスケール）は音源位置候補となる。そして、得られた複数の音源位置候補の重心を求めることで音源位置を推定する。図８の場合、複数の音源位置候補の重心を求めるとは、複数の重みを示す丸印（位置とスケール）の重み付き重心を求めることである。

次に、本発明の３次元の音源定位方法について図９を参照しながら説明する。図９は３次元の音源定位方法を説明している。図９に示すように、ノード１〜ノード３は、それぞれのマイクロホンアレイから収音した収音信号から音源方向を推定する。各ノードは、３次元方向に対して、ＭＵＳＩＣ法の応答強度を計算して、その最大値をとる方向を音源方向と推定している。図９は、ノード１がマイクロホンアレイの配列面の垂線方向（正面方向）の回転座標系の方向に対して、応答強度を計算し、強度が大きな方向を音源方向と推定する場合を示している。ノード２やノード３も同様に各方向に対して、応答強度を計算して、その最大値をとる方向を音源方向と推定する。

そして、ノード１とノード２、或いは、ノード１とノード３というように、２つのノードの音源方向推定結果の交点に対して、重みを求めていくのであるが、３次元の場合には交点が得られないことが多い。そのため、２つのノードの音源方向推定結果の直線を最短で結ぶ線分上に仮想的に交点を求めることにしている。なお、重みは、２次元と同様に、各ノードのＭＵＳＩＣ法の最大応答強度に基づいて決定している（例えば２つのノードの最大応答強度の積とする）。図９では、図８と同様に、重みのスケールを交点部分の丸印の径で表現している。

得られた複数の重みを示す丸印（位置とスケール）は音源位置候補となる。そして、得られた複数の音源位置候補の重心を求めることで音源位置を推定する。図９の場合、複数の音源位置候補の重心を求めるとは、複数の重みを示す丸印（位置とスケール）の重み付き重心を求めることである。

本発明の一実施形態について説明する。図１０は、実施例１のマイクロホンアレイ・ネットワークシステムの構成図を示している。図１０は、１６個のマイクロホンがアレイ状に配列されたマイクロホンアレイ備えたノード（１ａ，１ｂ，…，１ｎ）と１つの音声処理サーバ２０がネットワーク１０で接続されたシステム構成を示している。それぞれのノードは、図１１に示すように、１６個のアレイ状に配列されたマイクロホン（ｍ１１，ｍ１２，…，ｍ４３，ｍ４４）の信号線が収音処理部２の入出力部（Ｉ／Ｏ部）３に接続されており、マイクロホンから収音された信号が収音処理部２のプロセッサ４に入力される。収音処理部２のプロセッサ４は、入力した収音信号を用いて、ＭＵＳＩＣ法のアルゴリズムの処理を行って音源方向の推定を行う。

そして、収音処理部２のプロセッサ４は、図７で示される音声処理サーバ２０に対して、音源方向推定結果と最大応答強度を送信する。

このように、各ノード内で分散して音声定位を行い、その結果を音声処理サーバに統合し、上述の２次元定位や３次元定位の処理を行い、音源の位置を推定する。

図１２は、実施例１のマイクロホンアレイ・ネットワークシステムの機能図を示している。

マイクロホンアレイを備えるノードは、マイクロホンアレイからの信号をＡ／Ｄ変換し（ステップＳ１１）、各マイクロホンの収音信号を入力する（ステップＳ１３）。各マイクロホンから収音した信号を用いて、ノートに搭載されているプロセッサが収音処理部として音源方向を推定する（ステップＳ１５）。

収音処理部は、図１２に示すグラフのように、マイクロホンアレイの正面（垂線方向）を０°とし、その左右−９０°〜９０°までの方向について、ＭＵＳＩＣ法の応答強度を算出する。そして、応答強度が強い方向を音源方向と推定する。その収音処理部は、図示しないネットワークを介して音声処理サーバと接続されており、ノード内で音源方向推定結果（Ａ）と最大応答強度（Ｂ）をデータ交換している（ステップＳ１７）。音源方向推定結果（Ａ）と最大応答強度（Ｂ）は、音声処理サーバに送られる。

音声処理サーバでは、各ノードから送られてくるデータを受信する（ステップＳ２１）。各ノードの最大応答強度から複数の音源位置候補を算出する（ステップＳ２３）。そして、音源方向推定結果（Ａ）と最大応答強度（Ｂ）に基づいて音源の位置を推定する（ステップＳ２５）。

以下では、３次元の音源定位精度を説明する。図１３は３次元の音源定位精度の実験の様子を模式図で示したものである。床面積が１２ｍ×１２ｍで高さが３ｍの部屋を想定している。１６個のマイクロホンをアレイ状に配列したマイクロホンアレイを床面の四方に等間隔で並べた１６のサブアレイを想定した（１６サブアレイのケースＡ）。また、マイクロホンアレイを床面の四方に１６個及び天井面の四方に１６個のマイクロホンアレイを等間隔で並べ、更に、床面に等間隔に９つのマイクロホンアレイを配置した４１のサブアレイを想定した（４１サブアレイのケースＢ）。また、マイクロホンアレイを床面の四方に３２個及び天井面の四方に３２個のマイクロホンアレイを等間隔で並べ、更に、床面に等間隔に９つのマイクロホンアレイを配置した７３のサブアレイを想定した（７３サブアレイのケースＣ）。

この３つのケースＡ〜Ｃを用いて、ノード数と各ノードの音源方向推定の誤差ばらつきを変更し、３次元位置推定の結果を比較した。３次元位置推定は、各ノードが通信相手をひとつランダムに選び、仮想交点を求めている。

測定した結果を図１４に示す。図１４の横軸は、方向推定誤差のばらつき（標準偏差）を示しており、縦軸は、位置推定誤差を示している。図１４の結果から、音源方向の推定精度が悪くても、ノード数を増やすことで、３次元位置推定の精度を向上させられることがわかる。

本発明の他の実施形態について説明する。図１６は、実施例２のマイクロホンアレイ・ネットワークシステムの構成図を示している。図１７は、１６個のマイクロホンがアレイ状に配列されたマイクロホンアレイ備えたノード（１ａ，１ｂ，１ｃ）がネットワーク（１１，１２）で接続されたシステム構成を示している。実施例２のシステムの場合、実施例１のシステム構成と異なり、音声処理サーバが存在しない。また、それぞれのノードは、実施例１と同様に、図１１に示すように、１６個のアレイ状に配列されたマイクロホン（ｍ１１，ｍ１２，…，ｍ４３，ｍ４４）の信号線が収音処理部２のＩ／Ｏ部３に接続されており、マイクロホンから収音された信号が収音処理部２のプロセッサ４に入力される。収音処理部２のプロセッサ４は、入力した収音信号を用いて、ＭＵＳＩＣ法のアルゴリズムの処理を行って音源方向の推定を行う。

そして、収音処理部２のプロセッサ４は、隣接するノードや他のノードとの間で、音源方向推定結果をデータ交換する。収音処理部２のプロセッサ４は、自ノードを含む複数のノードの音源方向推定結果及び最大応答強度から、上述の２次元定位や３次元定位の処理を行い、音源の位置を推定する。

（第２の実施形態）
図１は、本発明の第２の実施形態に係る位置測定システムで用いるノードの詳細構成を示すブロック図である。第２の実施形態に係る位置測定システムは、第１の実施形態に係る音源定位システムを用いて、従来技術に比較して高精度で端末の位置を測定することを特徴としている。本実施形態に係る位置測定システムは、例えばユビキタスネットワークシステム（ＵＮＳ）を用いて構築され、例えば１６個のマイクロホンを有する小規模なマイクロホンアレイ（センサノード）を所定のネットワークで結ぶことで、全体として大規模なマイクロホンアレイ音声処理システムを構築することにより、位置測定システムを構成する。ここで、センサノードにはそれぞれマイクロホンロプロセッサを搭載し、分散・協調し合って音声処理を行う。

センサノードは図１の構成を有し、ここで、各センサノードでの処理の一例について以下に説明する。まず、初期段階ではすべてのセンサノードはスリープ状態にあり、ある程度距離の離れた幾つかのセンサノードは、例えば１つのセンサノードはサウンド信号を所定時間（例えば、３秒間）送信し、当該サウンド信号を検知したセンサノードは、多チャンネル入力による音源方向推定を開始する。同時にウエイクアップメッセージを周辺に存在する他のセンサノードにブロードキャストし、受け取ったセンサノードも即座に音源方向推定を開始する。各センサノードは、音源方向推定完了後、推定結果を基地局（サーバ装置に接続されたセンサノード）へ向けて送信する。基地局は収集した各センサノードの方向推定結果を用いて音源位置の推定を行い、音源方向推定を行ったすべてのセンサノードに向けて結果をブロードキャストする。次に、各センサノードは基地局から受け取った位置推定結果を用いて音源分離を行う。音源分離も音源定位と同様に、センサノード内とセンサノード間の２段階に分けて実行される。各センサノードで得られた音声データは、再びネットワークを介して基地局へ集約される。最終的に得られたＳＮＲの高い音声信号は基地局からサーバ装置に転送され、サーバ装置上で所定のアプリケーションに用いられる。

図１７は本実施形態の位置測定システムで用いるネットワークの構成（具体例）を示すブロック図である。また、図１８（ａ）は図１７の位置測定システムで用いるフラディング時間同期プロトコル（Flooding Time Synchronization Protocol（ＦＴＳＰ））の方法を示す斜視図であり、図１８（ｂ）はその方法を示すデータ伝搬の状況を示すタイミングチャートである。さらに、図１９は図１２の位置測定システムで用いる線形補間付き時間同期を示すグラフである。

図１７において、サーバ装置ＳＶを含むセンサノードＮ０〜Ｎ２間は例えばＵＴＰケーブル６０で接続され、１０ＢＡＳＥ−Ｔのイーサネット（登録商標）を用いて通信を行う。本実施例では、各センサノードＮ０〜Ｎ２は直線トポロジーで接続され、そのうち１つのセンサノードＮ０が基地局として動作して、例えばパーソナルコンピュータにてなるサーバ装置ＳＶに接続されている。当該通信システムのデータリンク層には低消費電力化のために公知の低電力リスニング法（Low Power Listening）を使用し、ネットワーク層における経路構築には公知のタイニー・ディフュージョン法（Tiny Diffusion）を用いる。

本実施例において、センサノードＮ０〜Ｎ２間で音声データの集約を行うためには、ネットワーク上のすべてのセンサノードで時刻（タイマーの値）を同期する必要がある。本実施例では、公知のフラディングタイム同期プロトコル（Flooding Time Synchronization Protocol（ＦＴＳＰ））に線形補間を加えた同期手法を用いる。ＦＴＳＰは一方向の簡略な通信のみによって高精度の同期を実現するものである。ＦＴＳＰによる同期の精度は隣接センサノード間で１マイクロ秒以下だが、各センサノードが持つ水晶発振器にはばらつきがあり、図１９のように同期処理後は時間と共に時刻ずれが生じてしまう。このずれは１秒間で数マイクロ秒から数十マイクロ秒であり、これでは音源分離の性能を低下させてしまうおそれがある。

図１８（ａ）は図１７の位置測定システムで用いるフラディング時間同期プロトコル（Flooding Time Synchronization Protocol（ＦＴＳＰ）；例えば、非特許文献８参照）の方法を示す斜視図であり、図１８（ｂ）はその方法を示すデータ伝搬の状況を示すタイミングチャートである。

提案する本実施例のシステムでは、ＦＴＳＰによる時刻同期時にセンサノード間の時刻ずれを記憶し、線形補間によってタイマーの進み方を調整する。１度目の同期時の受信タイムスタンプを、２度目の同期時のタイムスタンプを、受信側のタイマ値をとすると、の期間にだけのタイマーの進み方を調節することで、発振周波数のずれを補正することができる。これにより、同期完了後の時刻ずれを１秒間で０．１７マイクロ秒以内に抑えることができる。ＦＴＳＰによる時刻同期が１分に１度であったとしても、線形補間を行うことによりセンサノード間の時刻ずれは、１０マイクロ秒以内に抑えられ、音源分離の性能を維持することが可能となる。

各センサノードにおいて相対時刻（例えば、最初のセンサノードがオンされた時刻を０として経過時間を相対時刻として定義する。）又は絶対時刻（例えば、暦の日時分秒を時刻とする。）を記憶しておいて、各センサノード間で時刻同期を上述の方法で行う。この時刻同期は、後述するようにセンサノード間の正確な距離を測定するために用いる。

図２０Ａ及び図２０Ｂは、第２の実施形態に係る位置測定システムにおける各タブレットＴ１〜Ｔ４間の信号伝送手順及び各タブレットＴ１〜Ｔ４で実行される各処理を示すタイミングチャートである。ここで、例えば図１の構成を有する各タブレットＴ１〜Ｔ４は上記センサノードを備えて構成される。以下の説明では、タブレットＴ１をマスターとし、タブレットＴ２〜Ｔ４をスレーブとした場合の一例について説明するが、タブレットの数や、マスターはいずれのタブレットを使用してもよい。また、サウンド信号は可聴音波又は可聴域の周波数を越える超音波などであってもよい。ここで、サウンド信号は例えばＡＤ変換回路５１はＤＡ変換回路も備えてＳＳＬ処理部５５の指示に応答して１つのマイクロホン１から、例えば無指向性サウンド信号を発生し、もしくは、超音波発生素子を備えてＳＳＬ処理部５５の指示に応答して超音波の無指向性サウンド信号を発生してもよい。さらに、図２０Ａ及び図２０ＢにおいてＳＳＳ処理は実行しなくてもよい。

図２０Ａにおいて、まず、ステップＳ３１では、タブレットＴ１は、タブレットＴ２〜Ｔ４に対して、「サウンド信号をマイクロホン１で受信する準備を行いかつサウンド信号に応答してＳＳＬ処理を実行することを指示するＳＳＬ指示信号」を送信した後、所定時間後、サウンド信号を例えば３秒間などの所定時間送信する。ＳＳＬ指示信号には、サウンド信号の送信時刻情報が含まれており、各タブレットＴ２〜Ｔ４は、サウンド信号を受信した時刻と、上記送信時刻情報の差分、すなわち、サウンド信号の伝送時間を計算し、公知の音波又は超音波の速度に上記計算された伝送時間を乗算することにより、タブレットＴ１と自分のタブレットとの間の距離を計算して内蔵メモリに記憶する。また、各タブレットＴ２〜Ｔ４は、受信したサウンド信号に基づいて、第１実施形態で詳細説明したＭＵＳＩＣ法（例えば、非特許文献７参照。）を用いて音源定位の処理を行うことによりサウンド信号の到来方向を推定計算して内蔵メモリに記憶する。すなわち、各タブレットＴ２〜Ｔ４のＳＳＬ処理では、タブレットＴ１から自分のタブレットまでの距離と、タブレットＴ１に対する角度を推定計算して記憶する。

次いで、ステップＳ３２では、タブレットＴ１は、タブレットＴ３，Ｔ４に対して、「マイクロホン１で受信する準備を行いかつサウンド信号に応答してＳＳＬ処理を実行することを指示するＳＳＬ指示信号」を送信した後、所定時間後、タブレットＴ２に対して、サウンド信号を発生することを指示するサウンド発生信号を送信する。ここで、タブレットＴ１もサウンド信号の待機状態となる。タブレットＴ２は、サウンド発生信号に応答して、サウンド信号を発生してタブレットＴ１，Ｔ３，Ｔ４に送信する。各タブレットＴ１，Ｔ３，Ｔ４は、受信したサウンド信号に基づいて、第１実施形態で詳細説明したＭＵＳＩＣ法を用いて音源定位の処理を行うことによりサウンド信号の到来方向を推定計算して内蔵メモリに記憶する。すなわち、各タブレットＴ１，Ｔ３，Ｔ４のＳＳＬ処理では、タブレットＴ２に対する角度を推定計算して記憶する。

さらに、ステップＳ３３では、タブレットＴ１は、タブレットＴ２，Ｔ４に対して、「マイクロホン１で受信する準備を行いかつサウンド信号に応答してＳＳＬ処理を実行することを指示するＳＳＬ指示信号」を送信した後、所定時間後、タブレットＴ３に対して、サウンド信号を発生することを指示するサウンド発生信号を送信する。ここで、タブレットＴ１もサウンド信号の待機状態となる。タブレットＴ３は、サウンド発生信号に応答して、サウンド信号を発生してタブレットＴ１，Ｔ２，Ｔ４に送信する。各タブレットＴ１，Ｔ２，Ｔ４は、受信したサウンド信号に基づいて、第１実施形態で詳細説明したＭＵＳＩＣ法を用いて音源定位の処理を行うことによりサウンド信号の到来方向を推定計算して内蔵メモリに記憶する。すなわち、各タブレットＴ１，Ｔ２，Ｔ４のＳＳＬ処理では、タブレットＴ３に対する角度を推定計算して記憶する。

またさらに、ステップＳ３４では、タブレットＴ１は、タブレットＴ２，Ｔ３に対して、「マイクロホン１で受信する準備を行いかつサウンド信号に応答してＳＳＬ処理を実行することを指示するＳＳＬ指示信号」を送信した後、所定時間後、タブレットＴ４に対して、サウンド信号を発生することを指示するサウンド発生信号を送信する。ここで、タブレットＴ１もサウンド信号の待機状態となる。タブレットＴ４は、サウンド発生信号に応答して、サウンド信号を発生してタブレットＴ１，Ｔ２，Ｔ３に送信する。各タブレットＴ１，Ｔ２，Ｔ３は、受信したサウンド信号に基づいて、第１実施形態で詳細説明したＭＵＳＩＣ法を用いて音源定位の処理を行うことによりサウンド信号の到来方向を推定計算して内蔵メモリに記憶する。すなわち、各タブレットＴ１，Ｔ２，Ｔ３のＳＳＬ処理では、タブレットＴ４に対する角度を推定計算して記憶する。

次いで、データ通信を行うステップＳ３５では、タブレットＴ１はタブレットＴ２に対して情報返信指示信号を送信する。これに応答して、タブレットＴ２は、ステップＳ３１で計算されたタブレットＴ１とＴ２間の距離と、ステップＳ３１〜Ｓ３４で計算された、タブレットＴ２から各タブレットＴ１，Ｔ３，Ｔ４を見たときの角度とを含む情報返信信号をタブレットＴ１に返信する。また、タブレットＴ１はタブレットＴ３に対して情報返信指示信号を送信する。これに応答して、タブレットＴ３は、ステップＳ３１で計算されたタブレットＴ１とＴ３間の距離と、ステップＳ３１〜Ｓ３４で計算された、タブレットＴ３から各タブレットＴ１，Ｔ２，Ｔ４を見たときの角度とを含む情報返信信号をタブレットＴ１に返信する。さらに、タブレットＴ１はタブレットＴ４に対して情報返信指示信号を送信する。これに応答して、タブレットＴ４は、ステップＳ３１で計算されたタブレットＴ１とＴ４間の距離と、ステップＳ３１〜Ｓ３４で計算された、タブレットＴ４から各タブレットＴ１，Ｔ２，Ｔ３を見たときの角度とを含む情報返信信号をタブレットＴ１に返信する。

タブレットＴ１のＳＳＬ全体処理においては、以上のように収集された情報に基づいて、タブレットＴ１は、図２１を参照して説明するように以下のようにして各タブレット間の距離を計算し、また、各タブレットＴ１〜Ｔ４での他のタブレットを見た角度情報に基づいて、例えば、タブレットＴ１（図２１のＡ）をＸＹ座標の原点としたときの、他のタブレットＴ２〜Ｔ４のＸＹ座標を公知の三角関数の定義式を用いて計算することにより、
すべてのタブレットＴ１〜Ｔ４の座標値を求めることができる。当該座標値は、ディスプレイに表示してもいいし、プリンタに出力して印字してもよい。また、上記座標値を用いて、例えば詳細後述する所定のアプリケーションを実行してもよい。

なお、タブレットＴ１のＳＳＬ全体処理については、マスターであるタブレットＴ１のみが行ってもよいし、すべてのタブレットＴ１〜Ｔ４で行ってもよい。すなわち、少なくとも１つのタブレット又はサーバ装置（例えば、図１７のＳＶ）が実行すればよい。また、上記ＳＳＬ処理及び上記ＳＳＬ全体処理は、制御部である例えばＳＳＬ処理部５５により実行される。

図２１は第２の実施形態に係る位置測定システムの各タブレットＴ１〜Ｔ４（図２１におけるＡ，Ｂ，Ｃ，Ｄに対応する。）で測定された角度情報から各タブレット間の距離を測定する方法を示す平面図である。サーバ装置は、すべてのタブレットが角度情報を取得した後、全員分の距離情報を計算する。距離情報の計算では、図２１に示すように、１２個の角度の値とどれか１辺の長さを用いて、正弦定理によりすべての辺の長さを求める。ＡＢの長さをｄとすると、ＡＣの長さは次式で求められる。

他の辺の長さも同様に、１２個の角度と上記長さｄを用いて求めることができる。各センサノードが上述の時刻同期を行うことができれば、上記の計算法を用いずに、各センサノードが発音開始時間と到達時間の差から距離を求めることができる。図２１のノード数を４としたが、本発明はこれに限らず、ノード数を２以上でノード数に関わらずノード間距離を求めることができる。

以上の第２の実施形態では、２次元の位置を推定したが、本発明はこれに限らず、同様の数式を用いて３次元の位置を推定してもよい。

さらに、センサノードの移動端末への実装について以下に説明する。当該ネットワークシステムの実用化に際しては、センサノードを壁や天井に固定して使用するだけでなく、ロボットのような移動する端末に実装することも考えられる。被認識者の位置が推定できれば、より解像度な画像の収集や高精度な音声認識のために、ロボットを被認識者に近づけるといった操作が可能となる。また、近年急速に普及が進んでいるスマートフォン等のモバイル端末は、ＧＰＳ機能を用いて自身の現在位置を取得することができるが、近距離での端末同士の位置関係を取得することは難しい。しかし、当該ネットワークシステムのセンサノードをモバイル端末に実装すれば、端末から音声を発して互いを音源定位することで、ＧＰＳ機能等では判別できない近距離における端末同士の位置関係の取得が可能となる。本実施形態では、端末同士の位置関係を利用するアプリケーションとして、メッセージ交換システムと多人数ホッケーゲームシステムの２種類を、プログラミング言語ｊａｖａを用いて実装した。

本実施例では、アプリケーションを実行するタブレットパーソナルコンピュータと、プロトタイプセンサノードとを接続した。タブレットパーソナルコンピュータのＯＳとしては汎用のＯＳが搭載されており、２か所のＵＳＢ２．０ポートやＩＥＥＥ８０２．１ｂ／ｇ／ｎ準拠の無線ＬＡＮ機能を有して無線ネットワークを構成する。このタブレットパーソナルコンピュータの４辺に、プロトタイプセンサノードのマイクロホンを５ｃｍ間隔で配置し、センサノード（ＦＰＧＡで構成される）では音源定位モジュールが稼動しており、定位結果をタブレットパーソナルコンピュータに出力するように構成した。本実施例における位置推定精度は数ｃｍ程度であり、従来技術に比較して大幅に高精度になる。

（第３の実施形態）
図２２は本発明の第３の実施形態に係るマイクロホンアレイ・ネットワークシステムのためのデータ集約システムのノードの構成を示すブロック図であり、図２３は図２２のデータ通信部５７ａの詳細構成を示すブロック図である。また、図２４は図２３のパラメータメモリ５７ｂ内のテーブルメモリの詳細構成を示す表である。第３の実施形態に係るデータ集約システムは、第１の実施形態に係る音源定位システムと、第２の実施形態に係る音源位置測定システムとを用いて、音声データを効率的に集約するデータ集約システムを構成したことを特徴とする。具体的には、本実施形態に係るデータ集約システムの通信方法を、複数の音源に対応するマイクアレイネットワークシステムのための経路構築手法として用いる。マイクアレイネットワークとは、複数のマイクロホンを用いてＳＮＲの高い音声信号を得る技術である。これにデータ処理、通信機能を持たせてネットワークを構築することで、広範囲の、ＳＮＲの高い音声データを集めることができる。本実施形態では、マイクアレイネットワークに適用することで、複数の音源位置に対して最適な経路を構築し、各音源からの音声を同時に収集することができる。これにより、例えば複数話者に対応した音声会議システムなどが実現できる。

各センサノードは、図２２に示すように、
（１）収音する複数のマイクロホン１に接続されたＡＤ変換回路５１と、
（２）ＡＤ変換回路５１に接続され音声信号を検知するためのＶＡＤ処理部５２と、
（３）ＡＤ変換回路５１によりＡＤ変換された音声信号又はサウンド信号を含む音声信号等の音声データを一時的に記憶するＳＲＡＭ５４と、
（４）ＳＲＡＭ５４に記憶された音声データに対して遅延和処理を実行する遅延和回路部５８と、
（５）ＳＲＡＭ５４から出力される音声データに対して音源の位置を推定する音源定位（Sound Source Localization）処理を実行してその結果を音源分離処理（ＳＳＳ処理）及びその他の処理を実行して、それらの処理の結果として得られたＳＮＲの高い音声データを他のノードと、データ通信部５７ａを介して送受信することにより収集するマイクロプロセッサユニット（ＭＰＵ）５０と、
（６）データ通信部５７ａ及びＭＰＵ５０と接続され、時間同期処理のためのタイマーと、データ通信のためのパラメータを記憶するパラメータメモリとを含むタイマー及びパラメータメモリ５７ｂと、
（７）他の周囲センサノードＮｎ（ｎ＝１，２，…，Ｎ）と接続され、音声データ及び制御パケット等を送受信するネットワークインターフェース回路を構成するデータ通信部５７ａとを備えて構成される。

各センサノードＮｎ（ｎ＝０，１，２，…，Ｎ）は互いに同様の構成を有するが、基地局のセンサノードＮ０では、上記音声データをネットワーク上で集約することで、さらにＳＮＲが高められた音声データが得られる。

図２３のデータ通信部５７ａは、図２３に示すように、
（１）他の周囲センサノードＮｎ（ｎ＝１，２，…，Ｎ）と接続され、音声データ及び制御パケット等を送受信する物理層回路部６１と、
（２）物理層回路部６１及び時間同期部６３に接続され、音声データ及び制御パケット等に関するメディアアクセス制御処理を実行するＭＡＣ処理部６２と、
（３）ＭＡＣ処理部６２、並びにタイマー及びパラメータメモリ５７ｂに接続され、他のノードとの時間同期処理を実行する時間同期部６３と、
（４）ＭＡＣ処理部６２により抽出した音声データ又は制御パケットなどのデータを一時的に記憶してヘッダーアナライザ６６に出力する受信バッファ６４と、
（５）パケット発生部６８により発生された音声データ又は制御パケットなどのパケットを一時的に記憶してＭＡＣ処理部６２に出力する送信バッファ６５と、
（６）受信バッファ６４に記憶されたパケットを受けとり、そのパケットのヘッダーを解析してその結果をルーティング処理部６７又はＶＡＤ処理部５０、遅延和回路部５２及びＭＰＵ５９に出力するヘッダーアナライザ６６と、
（７）ヘッダーアナライザ６６からの解析結果に基づいてパケットをどのノードに送信するようにルーティングするかを決定してその結果をパケット発生部６８に出力するルーティング処理部６７と、
（８）遅延和回路部５２からの音声データ又はＭＰＵ５９からの制御データを受けとり、ルーティング処理部６７からのルーティング指示に基づいて所定のパケットを発生して送信バッファ６５を会してＭＡＣ処理部６２に出力するパケット発生部６８と、
を備えて構成される。

また、パラメータメモリ５７ｂ内のテーブルメモリは、図２４に示すように、
（１）予め決定されて記憶される自ノード情報（ノードＩＤ及び自ノードのＸＹ座標）と、
（２）時間期間Ｔ１１で取得される経路情報（その１）（基地局方向への送信先ノードＩＤ）と、
（３）時間期間Ｔ１２で取得される経路情報（その２）（クラスタＣＬ１の送信先ノードＩＤ、クラスタＣＬ２の送信先ノードＩＤ、…、クラスタＣＬＮの送信先ノードＩＤ）と、
（４）時間期間Ｔ１３及びＴ１４で取得されるクラスタ情報（クラスタヘッドノードＩＤ（クラスタＣＬ１）、音源ＳＳ１のＸＹ座標、クラスタヘッドノードＩＤ（クラスタＣＬ２）、音源ＳＳ２のＸＹ座標、…、クラスタヘッドノードＩＤ（クラスタＣＬＮ）、音源ＳＳＮのＸＹ座標）とを記憶する。
なお、各ノードＮｎ（ｎ＝１，２，…，Ｎ）は、平面上で位置し、所定のＸＹ座標系の座標（既知）を有するものとし、各音源の位置は位置測定処理により測定される。

図２５は図２２のデータ集約システムの処理動作を示す模式平面図であって、図２５（ａ）は基地局からのＦＴＳＰの処理及びルーティング（Ｔ１１）を示す模式平面図であり、図２５（ｂ）は音声アクティビティ検出（ＶＡＤ）及び検出メッセージ送信（Ｔ１２）を示す模式平面図であり、図２５（ｃ）はウェイクアップメッセージ及びクラスタリング（Ｔ１３）を示す模式平面図であり、図２５（ｄ）はクラスタを選択して遅延和処理（Ｔ１４）を示す模式平面図である。また、図２６Ａ及び図２６Ｂは図２２のデータ集約システムの処理動作を示すタイミングチャートである。

図２５、図２６Ａ及び図２６Ｂの動作例では、２つの音源ＳＳＡ，ＳＳＢに対してそれぞれ１ホップのクラスタを構築し、右下の基地局（複数のノードのうちの１つのノードであり、正方形の中に丸を有する記号で示す。）Ｎ０へ音声データを集約・強調しつつ収集する例を示している。まず、マイクアレイセンサノードの基地局Ｎ０は、例えば３０分などの一定時間毎に、所定のＦＴＳＰ及びＮＮＴ（Nearest Neighbor Tree；最隣接木）プロトコルを用いて同時に、制御パケットＣＰ（白抜きの矢印）を用いて、ノード間の時間同期と基地局までのスパニング木による収集経路構築のためのブロードキャストを行う（図２５（ａ）、図２６ＡのＴ１１）。基地局以外の各ノード（Ｎ１乃至Ｎ８）は、その後低消費電力化のために、音声入力が検知されるまでスリープモードとなる。スリープモードでは、図２２のＡＤ変換回路５１及びＶＡＤ処理部５２を含む回路、ウェイクアップメッセージを受信するための回路（データ通信部５７ａのうちの物理層回路部６１及びＭＡＣ処理部６２、並びにタイマー及びパラメータメモリ５７ｂ）以外の回路は電源供給がされず、消費電力を大幅に減少できる。

次いで、上記２つの音源ＳＳＡ，ＳＳＢからそれぞれ音声信号を発生したとき、音声信号を（すなわち発話を）検知してＶＡＤ処理部５２が反応したノード（図２５及び図２６Ａにおいて●で示すノードＮ４乃至Ｎ７）は、検出メッセージを制御パケットＣＰを用いて基地局Ｎ０に向けて検出メッセージをＴ１１で構築したスパニング木の経路を使って基地局Ｎ０へ送信する（図２５（ｂ）及び図２６ＡのＴ１２）とともに、起動を指示するウェイクアップメッセージ（起動メッセージ）を制御パケットＣＰを用いてブロードキャストする（図２５（ｃ）及び図２６ＡのＴ１３）。ただし、このときブロードキャストする範囲は、構築するクラスタ距離と同じホップ数だけである（図２５の動作例の場合は１ホップ）。このウェイクアップメッセージによって周辺のスリープしているノード（Ｎ１乃至Ｎ３，Ｎ８）を起動し、同時にＶＡＤ処理部５２の反応したノードを中心としたクラスタを形成する。

次に、ＶＡＤ処理部５２が反応したノードと、ウェイクアップメッセージによって起動したノードは（動作例では、基地局Ｎ０以外のノードＮ１乃至Ｎ８）、マイクアレイネットワークシステムを用いて音源の方向を推定し、その結果を基地局Ｎ０へ送信する。このとき使用する経路は図２５（ａ）で構築したスパニング木による経路である。基地局Ｎ０は各ノードの音源方向推定結果及び各ノードの既知位置に基づいて、上述の第２の実施形態に係る位置測定システムの方法を用いて幾何学的に各音源の絶対位置を推定する。さらに、基地局Ｎ０は、検出メッセージの送信元ノードのうち最も音源に近いノードをクラスタヘッドノードに指定し、推定された音源の絶対位置と併せてネットワーク全体の各ノード（Ｎ１乃至Ｎ８）にブロードキャストする。もし複数の音源ＳＳＡ，ＳＳＢが推定された場合は、音源の数と同数のクラスタヘッドノードを指定する。これによって、音源の物理的な位置に対応したクラスタが形成され、各クラスタヘッドノードから基地局Ｎ０までの経路が構築される（図２５（ｄ）及び図２６ＢのＴ１４）。図２５の動作例では、音源ＳＳＡのクラスタヘッドノードとして、ノードＮ６（図２６（ｄ）において◎で図示されている）が指定され、そのクラスタに属するノードは、Ｎ６から１ホップ内のＮ３、Ｎ６、Ｎ７である。また、音源ＳＳＢのクラスタヘッドノードとして、ノードＮ４（図２６（ｄ）において◎で図示されている）が指定され、そのクラスタに属するノードは、Ｎ４から１ホップ内のＮ１、Ｎ３、Ｎ４、Ｎ５、Ｎ７である。すなわち、上記各クラスタヘッドノードＮ６，Ｎ４から上記ホップ数内に位置する各ノードを各クラスタに所属するノードとしてクラスタリングされる。そして、各クラスタに属する各ノードで測定された音声データに基づいて強調処理を行って、強調処理後の音声データを基地局Ｎ０に送信される。これにより、各音源ＳＳＡ，ＳＳＢに対応するクラスタ毎に強調処理された音声データがパケットＥＳＡ，ＥＳＢを用いて基地局Ｎ０に送信される。ここで、パケットＥＳＡは音源ＳＳＡからの音声データを強調処理してなる音声データを伝送するパケットであり、パケットＥＳＢは音源ＳＳＢからの音声データを強調処理してなる音声データを伝送するパケットである。

図２７は図２２のデータ集約システムの実施例の構成を示す平面図である。発明者らは、本実施形態に係るマイクロホンアレイのネットワークを評価するために、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）ボードを使用して試作装置を作成した。試作装置は、ＶＡＤ処理部、音源定位、音源分離、及び有線データ通信モジュールの機能を備える。試作装置のＦＰＧＡボードは、１６チャンネルのマイクロホン１を備えて構成され、１６チャンネルのマイクロホン１は、７．５センチ間隔のグリッド状に配置されている。このシステムの目標は３０Ｈｚから８ｋＨｚの周波数範囲を持っている人間の音声なので、サンプリング周波数は１６ｋＨｚに設定されている。

ここで、各サブアレイは、ＵＴＰケーブルを使用して接続される。１０ＢＡＳＥ−Ｔイーサネット（登録商標）プロトコルは、物理層として使用される。データリンク層では、ＬＰＬ（リスニング低消費電力）を採用するプロトコル（例えば、非特許文献１１参照。）の消費電力を削減する。

提案システムの性能を確認するに、本発明者らは図２７の３つのサブアレイで実験を行った。図２７に示すように、３つのサブアレイが配置され、中心部に位置する１つのサブアレイ１は、基地局としてサーバＰＣに接続されている。ここで、ネットワークトポロジは、マルチホップ環境を評価するために、２つのホップ線形トポロジーを用いた。

時間同期処理後の測定された信号波形から、ＦＴＳＰ同期処理が完了した直後において、サブアレイ間で最大のタイムラグは１μｓであって、線形補間ありと線形補間無しとにおけるサブアレイ間の最大タイムラグは、それぞれ毎分１０マイクロ秒と、毎分９００マイクロ秒であった。

次に、本発明者らは、分散遅延和回路部のアルゴリズムを使用して音声のデータ捕捉を評価した。ここで、図２７に示すように、５００Ｈｚの正弦波の信号源と、雑音源（３００Ｈｚ、７００ＨＺ、及び１３００Ｈｚの正弦波）を使用した。実験結果からは、音声信号が強化され、雑音が減少され、マイクロホンの数が増加するにつれてＳＮＲが改善されている。また、４８チャンネルの条件で、３００Ｈｚ及び１３００Ｈｚの雑音が劇的に信号源（５００Ｈｚ）を劣化させずに、２０デシベルだけ抑圧されていることがわかった。一方、７００Ｈｚの雑音が若干抑制されている。これは、信号源と雑音源の位置によって干渉が発生したためであると考えられる。また、他の実験では、４８チャンネルの場合であっても、雑音源の位置の周りで、７００Ｈｚの雑音源が抑圧ほとんど抑圧されていないということがわかった、この問題は、ノード数を増やすことで回避できると考えられる。さらに、本発明者らはまた、３つのサブアレイを使用して音声の捕捉をリアルタイムで動作できることを確認した。

以上説明したように、従来技術に係るクラスタベースルーティングでは、ネットワーク層の情報のみに基づいてクラスタリングを行っていた。一方、大規模センサネットワークでセンシング対象となる信号源が複数存在するような環境において、それぞれの信号源に最適化した経路を構築するためには、センシング情報に基づいたセンサノードのクラスタリング技術が必要であった。そこで、本発明に係る手法では、クラスタヘッドの選定とクラスタの構築にセンシングした信号情報（アプリケーション層の情報）を用いることで、よりアプリケーションに特化した経路構築を実現した。また、マイクアレイネットワークにおけるＶＡＤ処理部５２のようなウェイクアップ機構（ハードウェア）と組み合わせることで、より低消費電力性能を高めることが可能となる。

以上の実施形態においては、高音質な音声取得を目的とするマイクロホンアレイ・ネットワークシステムに係るセンサネットワークシステムについて説明したが、本発明はこれに限らず、温度、湿度、人検出、動物検出、応力検出、光検出などの種々のセンサに係るセンサネットワークシステムに適用できる。

以上詳述したように、本発明に係るセンサネットワークシステムとその通信方法によれば、センサネットワーク上でのクラスタリング、クラスタヘッド決定、ルーティングのために、センシング対象となる信号を利用し、複数の信号源の物理配置に対応し、データ集約に特化したネットワーク経路を構築することで、冗長な経路を削減し、同時にデータ集約の効率を高めることができる。また、経路構築のための通信オーバーヘッドが少ないため、ネットワークトラフィックが削減され、消費電力の大きい通信回路の稼働時間を減らすことができる。それ故、センサネットワークシステムにおいて、従来技術に比較してデータ集約を効率的に行うことができ、ネットワークトラフィックを大幅に削減できかつセンサノードの消費電力を低減できる。

１，ｍ１１，ｍ１２，…，ｍ４３，ｍ４４…マイクロホン、
１ａ，１ｂ，１ｃ，…，１ｎ…マイクロホンアレイ、
２，２ａ，２ｂ，２ｃ，…，２ｎ…収音処理部、
３…入出力部（Ｉ／Ｏ部）、
４…プロセッサ、
１０，１１，１２…ネットワーク、
２０…音声処理サーバ、
３０，３０ａ，３０ｂ，３０ｃ…ノード、
５０…ＭＰＵ、
５１…ＡＤ変換回路、
５２…ＶＡＤ処理部、
５３…電源管理部、
５４…ＳＲＡＭ、
５５…ＳＳＬ処理部、
５６…ＳＳＳ処理部、
５７…ネットワークインターフェース回路、
５７ａ…データ通信部、
５７ｂ…タイマー及びパラメータメモリ、
５８…遅延和回路部、
６１…物理層回路部、
６２…ＭＡＣ処理部、
６３…時間同期部、
６４…受信バッファ、
６５…送信バッファ、
６６…ヘッダーアナライザ、
６７…ルーティング処理部、
６７ｍ…テーブルメモリ、
６８…パケット発生部、
Ｎ０〜ＮＮ…センサノード（ノード）、
ＳＶ…サーバ装置、
Ｔ１〜Ｔ４…タブレット。

Claims

それぞれセンサアレイを備え、既知の位置情報を有する複数のノードが所定の通信プロトコルを用いて相互に所定の伝搬経路を介するネットワーク上で接続され、かつ時間同期されたセンサネットワークシステムを用いて、上記各ノードで測定されたデータを１つの基地局に集約するように収集するセンサネットワークシステムであって、
上記各ノードは、
複数のセンサをアレイ状に配列して構成されたセンサアレイと、
上記センサアレイで受信した所定の信号源からの信号に基づいて上記信号の検出をしたときに、検出メッセージを基地局に送信するとともに、上記信号の到来方向の角度を推定して角度推定値を上記基地局に送信し、もしくは、他のノードから所定のホップ数で受信した信号検出時の起動メッセージに応答して、起動して上記信号の到来方向の角度を推定して角度推定値を上記基地局に送信する方向推定処理部と、
上記音源に対応して上記基地局から指定されたクラスタに属する各ノード毎に、上記センサアレイで受信した所定の信号源からの信号に対して強調処理し、当該強調処理された信号を基地局に送信する通信処理部とを備え、
上記基地局は、上記各ノードからの上記信号の角度推定値と上記各ノードの位置情報とに基づいて、上記信号源の位置を計算するとともに、上記信号源に最も近いノードをクラスタヘッドノードに指定し、上記信号源の位置と上記指定されたクラスタヘッドノードの情報とを上記各ノードに送信することにより、上記各クラスタヘッドノードから上記ホップ数内に位置する各ノードを各クラスタに所属するノードとしてクラスタリングし、
上記各ノードは、上記音源に対応して上記基地局から指定されたクラスタに属する各ノード毎に、上記センサアレイで受信した所定の信号源からの信号に対して強調処理し、当該強調処理された信号を基地局に送信することを特徴とするセンサネットワークシステム。
上記各ノードは、上記信号を検出する前、もしくは、上記起動メッセージを受信する前は、スリープモードに設定されて、上記信号を検出する回路及び上記起動メッセージを受信する回路以外の回路に対する電源供給を停止することを特徴とする請求項１記載のセンサネットワークシステム。
上記センサは、音声を検出するマイクロホンであることを特徴とする請求項１又は２記載のセンサネットワークシステム。
それぞれセンサアレイを備え、既知の位置情報を有する複数のノードが所定の通信プロトコルを用いて相互に所定の伝搬経路を介するネットワーク上で接続され、かつ時間同期されたセンサネットワークシステムを用いて、上記各ノードで測定されたデータを１つの基地局に集約するように収集するセンサネットワークシステムの通信方法であって、
上記各ノードは、
複数のセンサをアレイ状に配列して構成されたセンサアレイと、
上記センサアレイで受信した所定の信号源からの信号に基づいて上記信号の検出をしたときに、検出メッセージを基地局に送信するとともに、上記信号の到来方向の角度を推定して角度推定値を上記基地局に送信し、もしくは、他のノードから所定のホップ数で受信した信号検出時の起動メッセージに応答して、起動して上記信号の到来方向の角度を推定して角度推定値を上記基地局に送信する方向推定処理部と、
上記音源に対応して上記基地局から指定されたクラスタに属する各ノード毎に、上記センサアレイで受信した所定の信号源からの信号に対して強調処理し、当該強調処理された信号を基地局に送信する通信処理部とを備え、
上記通信方法は、
上記基地局が、上記各ノードからの上記信号の角度推定値と上記各ノードの位置情報とに基づいて、上記信号源の位置を計算するとともに、上記信号源に最も近いノードをクラスタヘッドノードに指定し、上記信号源の位置と上記指定されたクラスタヘッドノードの情報とを上記各ノードに送信することにより、上記各クラスタヘッドノードから上記ホップ数内に位置する各ノードを各クラスタに所属するノードとしてクラスタリングするステップと、
上記各ノードが、上記音源に対応して上記基地局から指定されたクラスタに属する各ノード毎に、上記センサアレイで受信した所定の信号源からの信号に対して強調処理し、当該強調処理された信号を基地局に送信するステップとを含むことを特徴とするセンサネットワークシステムの通信方法。
上記各ノードが、上記信号を検出する前、もしくは、上記起動メッセージを受信する前は、スリープモードに設定されて、上記信号を検出する回路及び上記起動メッセージを受信する回路以外の回路に対する電源供給を停止するステップをさらに含むことを特徴とする請求項４記載のセンサネットワークシステムの通信方法。
上記センサは、音声を検出するマイクロホンであることを特徴とする請求項４又は５記載のセンサネットワークシステムの通信方法。