JP2011149782A

JP2011149782A - パーティクルフィルタリングによる移動ロボットからの２次元音源地図作成方法

Info

Publication number: JP2011149782A
Application number: JP2010010438A
Authority: JP
Inventors: Satoshi Kagami; 聡加賀美; Yoko Sasaki; 洋子佐々木; Hiroshi Mizoguchi; 博溝口; Tadashi Enomoto; 格士榎本
Original assignee: Kansai Electric Power Co Inc; National Institute of Advanced Industrial Science and Technology AIST
Current assignee: Kansai Electric Power Co Inc; National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2010-01-20
Filing date: 2010-01-20
Publication date: 2011-08-04

Abstract

【課題】移動ロボット本体だけで断続的に取得したセンサデータをもとに方位単独ＳＬＡＭを行うことができる２次元音源地図作成方法を提供する。
【解決手段】移動ロボットに搭載された遅延和ビームフォーミング法により最適化されたマイクアレイにより音源からの音声データを断続的に取得し、取得した音声データに対し、周波数帯域選択法を利用したパーティクルフィルタリングにより、方位単独ＳＬＡＭ（Bearing only Simultaneous Localization and Mapping）を行い、２次元音源地図を作成することを特徴とする。
【選択図】図１

Description

本発明は、移動ロボットに搭載したマイクアレイの短時間の方位角計測の結果から、パーティクルフィルタを用いて２次元音源地図作成を行う方法に関するものである。

音源地図作成機能は、人間環境の中で動作するロボットにとって非常に重要である。近年、光学カメラを用いた方位単独ＳＬＡＭ（Bearing only Simultaneous Localization and Mapping）技術が精力的に研究されている（例えば、非特許文献１）。ＳＬＡＭとは、各種センサから取得した情報から、ロボットが自己位置推定と地図作成を同時に行う方法である。しかしながら、音声信号は２つの点、すなわち音源の定位と特性において非常に異なっている。定位の困難性は、残響、回折、共鳴、干渉等に起因している。他方、特性の困難性は、音源により生成される音が通常未知であり、常に時間とともに変化し、ある場合には消失してしまうことによる。

パーティクルフィルタは、環境、地図やロボット位置を推定するために雑音入力を扱うロボット工学における認識の分野で広く使用されている。定位やマイクを中心とする座標系における追跡を行うため、パーティクルフィルタを用いたいくつかの方法が提案されている。地図作成機能について言えば、部屋の中とロボットの両方に取り付けたマイクアレイから、パーティクルフィルタを用いて音源位置を地図化する方法が提案されている（非特許文献２）。

ところが、従来の方位単独ＳＬＡＭでは、センサデータが継続的に取得できるものを取り扱っており、とくにロボット本体だけで断続的なセンサデータをもとに取り組んだものはなかった。

しかしながら、未来のロボットの展開としては、ロボット本体だけで断続的に取得したセンサデータをもとに方位単独ＳＬＡＭを行うことが強く望まれる。

S. Thrun, W. Burgard, and D. Fox, "Probabilistic Robotics (Intelligent Robotic and Autonomous Agents), The MIT Press, September 2005 H. Asoh, I. Hara, and H.Asano, "Tracking human speech events using a particle filter", in In Proceedings International Conference on Audio, Speech and Signal Processing, 2005, pp.II/1153-1156

本発明は、以上のような従来技術の実情に鑑みてなされたもので、移動ロボット本体だけで断続的に取得したセンサデータをもとに方位単独ＳＬＡＭを行うことができる、パーティクルフィルタリングによる移動ロボットからの２次元音源地図作成方法を提供することを課題とする。

上記課題を解決するため、本発明は、移動ロボットに搭載された遅延和ビームフォーミング法により最適化されたマイクアレイにより音源からの音声データを断続的に取得し、取得した音声データに対し、周波数帯域選択法を利用したパーティクルフィルタリングにより、方位単独ＳＬＡＭ（Bearing only Simultaneous Localization and Mapping）を行い、２次元音源地図を作成することを特徴とする、パーティクルフィルタリングによる移動ロボットからの２次元音源地図作成方法を提供する。

本発明によれば、上記手法を採用したので、パーティクルフィルタリングを利用して、移動ロボット本体だけで断続的に取得したセンサデータをもとに方位単独ＳＬＡＭを行うことができる２次元音源地図作成が可能となった。また、本発明は、２次元音源地図作成のほか、自己位置推定や周辺音響環境理解などにも応用可能である。

本発明による一例の音源推定管理を示すフローチャートである。遅延和ビームフォーミング（ＤＳＢＦ）法により最適化された低サイドローブ・マイクアレイの配置例を示す図とその写真である。異なる周波数でのビームフォーミングのシミュレーションの結果を示す図である。マイクアレイのシミュレートしたパターンと測定したパターンを比較して示す図である。周波数帯域選択（ＦＢＳ）法の手順を示す図である。実施例で用いた移動ロボットの構造を示す写真である。実施例による音源の定位の結果を示す図である。

以下、本発明について詳述する。

本発明は、移動ロボットのみに取り付けたマイクアレイを用いて２次元音源地図作成を行うものである。本発明では、音源は方位角と距離のそれぞれに独立したガウス分布に従うと仮定したモデルによりパーティクルフィルタの分散を決定する。また、本発明においては、方位単独状態推定技術を利用することにより、２次元音源推定を行う。

先ず、２次元音源推定について述べる。個々のパーティクルフィルタは座標系上の分布を表わすパーティクルの集合により、１つのパーティクル音源の位置推定を保持するために使用される。ある環境に未知の個数の音源を存在させ、音源推定を生成させ、必要に応じて削除することにより、音源推定の数を管理する。図１に、本発明による一例の音源推定管理のフローチャートを示す。ここでは、断続的なセンサデータとして、移動ロボットに取付けたマイクアレイからの音源定位データを用いる。

観察された音源の方位データが入力すると、その方位データは予め定めた関数Ｆ_ｉに変換され、以前の方位データのＦとの関連付けが行われる。ここで、Ｆ_ｉが以前の方位データと一致していれば、推定方位データＦ_ｉ（θ）を更新する。Ｆ_ｉが以前の方位データと不一致であれば、新たな推定方位データＦ_Ｎ（θ）が加えられる。次に、各推定の方位データＦ_ｊについて減衰状態が判定される。減衰状態にあれば、次のステップでその減衰率が閾値を越えているか判定され、閾値を越えていればその推定方位データＦ_ｊが削除される。以上のような推定方位データＦの生成、削除が行われることにより、音源推定の数が管理される。

より具体的に述べると、時刻ｋに特定の方位θ_ｋにおいて新しい音源Ｏｂｓが観測されると、新しいパーティクルフィルタＦ_Ｎが生成され、現在のロボット位置から、パーティクルがデフォルト距離ｒ_Ｄで推定方位θ_ｋにわたり２次元ガウス分布の広がりで初期化される。分布に関連する分散は、方位音源の推定値σ_θデフォルトの距離の分散σ_ｒとの誤差により決定され、方位単独観測における距離情報がないことを反映する。

初期化後、次のようになる。

１．音源Ｏｂｓ（ｋ）＝θ_ｋ
２．ロボットの姿勢（ｘ，ｙ，θ）_ＲからパーティクルＳ＝｛ｓ_０…ｓ_Ｎｐ−１｝を初期化する。

Ｓにおける全てのｓ_ｉに対して、
・ｒ_ｉ＝ｒ_Ｄ＋Ｇ（σ_ｒ），α＝θ_ｋ＋Ｇ（σ_θ）
ここでＧ（σ）は偏差σ^２でガウス分布するランダム値に回帰する関数である
・ｓ_ｉ＝（（ｘ_Ｒ＋ｒ_ｉ）ｃｏｓ（α＋θ_Ｒ）
（ｙ_Ｒ＋ｒ_ｉ）ｃｏｓ（α＋θ_Ｒ））
次に、フィルタは音源位置の確率密度関数を表わすパーティクルを次のように伝播させる。

１．（ｘ，ｙ，θ）_Ｒから音源Ｏｂｓ（ｋ）＝θ_ｋを観測
２．Ｓを分散ｓ_ｉ（ｋ）＝ｓ_ｉ（ｋ−１）＋ω
ここでωはランダムな動き
３．ｐ（ｓ_ｉ（ｋ））＝ＳＭ（ｓ_ｉ（ｋ），θ_ｋ（ｘ，ｙ，θ）_Ｒ）となるようにＳを観測
４．ｐ（ｓ_ｉ（ｋ））を基に置換によりＳを再サンプリング
ただし、ＳＭ（ｓ_ｉ（ｋ），θ_ｋ（ｘ，ｙ，θ）_Ｒ）は現在のロボット位置から角度θ_ｋでの位置ｓ_ｉ（ｋ）における音源位置が観測される確率に回帰するモデルである。

本発明の音源地図作成方法は、方向定位のノイズを取り扱う。しかし、ノイズは統計的には小さい。従って、方向定位システムはフォールスポジティブ検出に対してロバストでなければならない。このため、本発明者らは、遅延和ビームフォーミング（Delay and Sum Beam Forming；以下ＤＳＢＦと称する）法により最適化された低サイドローブ・マイクアレイを設計、開発した。すなわち、未知の周波数を持つ音声入力に対する音源の方位を検出するため、マイクアレイ＆ファイアワイヤ・インタフェースボードを開発した。このマイクアレイの直径は移動ロボットのサイズのため３３ｃｍに制限した。音圧分布のシミュレーションにより、サイドローブを最小化するマイク配置は経験的に決定した。図２の左側に、一例として、等脚台形の形状を有する８つの４ｃｈマイクボードの配置を示し、図２の右側にその写真を示す。本システムでは１６ｂｉｔ、１６ｋＨｚの条件でサンプリングを行うようになっている。

図３に、１０００、１４００、２０００［Ｈｚ］でのビームフォーミングのシミュレーションの結果を示す。各周波数においてサイドローブと対比した焦点方位ゲインは最小１２［ｄＢ］、平均１６［ｄＢ］（７００〜２５００［ｄＢ］）であった。

図４に、このマイクアレイのシミュレートしたパターンと測定したパターンを示す。水平軸は方位であり、アレイは０（ｄｅｇ）の方向に収束している。垂直軸は焦点方位と対比した信号ゲイン［ｄＢ］）である。下方のパターンはシミュレーションによるもので、上方のパターンは測定したものである。

本発明では、周波数帯域選択（Frequency Band Selection、以下ＦＢＳと称する）法を利用するが、この手法は性能が限定されており、特に特定音源からの音声信号以外の信号は完全に除去できず、減少させるだけである。そこで、本発明では、複数音源の検出のために、ＦＢＳ法の適用の前にＤＳＢＦ法を適用する。ＦＢＳは一種のバイナリ・マスクであり、共通の対象音源から判断される周波数成分を選択することにより混合音から対象音源を分離する。Ｘ_ａ（ω_ｊ）とＸ_ｂ（ω_ｊ）をそれぞれ対象音源とノイズ音源のＤＳＢＦ誘起信号の周波数成分とすると、選択された周波数成分Ｘ_ａｓ（ω_ｊ）は式（１）で表わされる。

Ｘ_ａ（ω_ｊ）≧Ｘ_ｂ（ω_ｊ）のとき、Ｘ_ａｓ（ω_ｊ）＝Ｘ_ａ（ω_ｊ）
それ以外のとき、Ｘ_ａｓ（ω_ｊ）＝０・・・（１）
このプロセスは、ＤＳＢＦ誘起信号からの減衰したノイズ信号を受け付けない。分離された波形はＸ_ａｓ（ω_ｊ）の逆フーリエ変換により得られる。

各信号の周波数成分が独立している場合，ＦＳＢは所望の音源を分離することができる。これは人の声や短時間の日常音に対して通常有効である。

図５に、ＦＢＳの手順を示す。第１のステップでは、ＦＢＳにより入力する各マイクロホンの平均信号（遅延信号でない）にフィルタをかけ、空間スペクトルから最も大きな音を検出する。この平均信号の周波数成分が各方位からのあらゆるＤＳＢＦ誘起信号より大きい場合には、システムはその周波数のスペクトルにフィルタをかける。このプロセスは、種々の方位ノイズ音は受け付けない。

第２のステップでは、ＦＢＳによる第１の音声信号にフィルタをかけ、スペクトルから第２番目に強い音声を検出する。第１の音声の方位のＤＳＢＦ誘起信号の周波数成分が他のあらゆる方位の周波数成分より大きい場合、システムは各周波数でのスペクトルにフィルタをかける。

２以上の音が存在すると、システムは第２番目に強い音信号にフィルタをかけた後、第３番目に強い音信号に検出し、以下同様なプロセスを行う。この方法は各タイムステップにおいて最も大きいパワー強度から最も小さいパワー強度まで複数音を定位する。そして、システムは多数の音源を連続的に定位し移動中に各音源を分離する。

本発明によれば、以上のようにして、パーティクルフィルタリングを利用して、移動ロボット本体だけで断続的に取得したセンサデータをもとに方位単独ＳＬＡＭを行うことができる２次元音源地図作成を可能とする。

次に、本発明の実施例を述べる。

本実施例では、図６に示す構造を有する移動ロボット用いて実験を行った。４つのスピーカを移動ロボットのマイクの高さにセットした。マイクとしては、本発明者らが作成してきたビームフォーミング用の３２ｃｈ低サイドローブ・マイクアレイを用いた。このサイドローブ・マイクアレイは、ＤＳＢＦ法により最適化されたものである。また、１２台のカメラを有する市販の動画キャプチャーシステム（Motion Analysis Eagle）により正解データ（ground truth）として２４０［Ｈｚ］でロボット位置を測定した。このＭＡＣＡＰシステムにより測定したロボット位置の標準偏差は、並進で０．０４２［ｍｍ］、回転で１．０９×ｅ^−５［ｄｅｇ］であった。マイクアレイは１２［Ｈｚ］近傍で音源方位に配置させた。残響時間Ｔ_６０は５００［ｍｓｅｃ］であり、バックグランドノイズのレベルは５０［ｄＢＡ］（主にファンのノイズ）であった。信号ノイズ比は２０［ｄＢＡ］であった。音源は音楽、男性の声及び女性の声とした。測定手法としては、上記のＤＳＢＦ法により最適化された低サイドローブ・マイクアレイと、帯域選択（ＦＢＳ）法を組み合わせた音源定位手法を用いた。

図７に、本実施例による４つの音源の定位の結果を示す。図７ａ）で、は○が実際の位置、＋が推定位置を示し、黄色のドットは音源の付近に収束した、関連付けられたパーティクルを示す。青の軌跡はロボットの動きを示す。図７ｂ）は定位プロセスの収束性と残留誤差を示す。１００のサンプリング（８秒）の後、本システムにより２次元地図作成を行った。その結果、ロボット本体だけで断続的に取得したセンサデータをもとに方位単独ＳＬＡＭが行えることが確認された。

また、スピーカの高さ位置を異ならせて上記と同様の実験を行った結果、±５０ｃｍ程度の精度で方位単独ＳＬＡＭが行えることが確認された。

Claims

移動ロボットに搭載された遅延和ビームフォーミング法により最適化されたマイクアレイにより音源からの音声データを断続的に取得し、取得した音声データに対し、周波数帯域選択法を利用したパーティクルフィルタリングにより、方位単独ＳＬＡＭ（Bearing only Simultaneous Localization and Mapping）を行い、２次元音源地図を作成することを特徴とする、パーティクルフィルタリングによる移動ロボットからの２次元音源地図作成方法。