JP2016048464A

JP2016048464A - 自律行動ロボット、及び自律行動ロボットの制御方法

Info

Publication number: JP2016048464A
Application number: JP2014173147A
Authority: JP
Inventors: 圭佑中村; Keisuke Nakamura; 一博中臺; Kazuhiro Nakadai
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2016-04-07
Anticipated expiration: 2034-08-27
Also published as: US20160059418A1; JP6221158B2; US9639084B2

Abstract

【課題】直接音以外の音であっても音源の方向を推定でき、音源の方向へ移動することができる自律行動ロボット、及び自律行動ロボットの制御方法を提供することを目的とする。【解決手段】自律行動ロボットは、音響信号を収録する収音部と、音響信号に対する音源の方向を推定する音源定位部と、所定の範囲に対して距離に関する測定を行う距離測定部と、距離の情報を用いて二次元地図情報を生成かつ自己位置を推定する地図情報生成部と、二次元地図情報と自己位置の情報と音源の方向とに基づいて音響信号が反射音であるか直接音であるかを判別することで音源の方向を推定し直す音源方向決定部と、音響信号が反射音であると判別した場合、第１の方向へ移動する行動計画を生成し、音響信号が直接音であると判別した場合、第１の方向とは異なる第２の方向へ移動する行動計画を生成する行動生成部と、行動計画に応じて自律行動ロボットを制御する制御部と、を備える。【選択図】図１

Description

本発明は、自律行動ロボット、及び自律行動ロボットの制御方法に関する。

近年、人間のパートナーとして共存することを目的とした自律して行動する自律行動ロボットが開発されている。この種の自律行動ロボットは、人間の音声に反応して予め決められた行動をするものがある。

例えば、特許文献１に記載の自律行動ロボットでは、音源から発せられた音を検出し、検出された音に基づいて音源の方向を特定する。そして、自律行動ロボットでは、特定された音源の方向へ、撮像部を向けるように制御され、音源の方向の周辺の画像が撮影される。さらに、自律行動ロボットでは、撮影された画像から目標画像を抽出し、抽出された目標画像に基づいて、目標画像に向かう方向に撮像部を向けるように制御する。

また、自律行動ロボットを室内で使用する場合、自律行動ロボットは、室内にある壁や曲がり角によって直接音を収録できないことがある。このような場合、自律行動ロボットが収集している音は、音源から直接到来した直接音（ｄｉｒｅｃｔｓｏｕｎｄ）、壁などに反射した反射音（ｒｅｆｌｅｃｔｉｏｎ）、壁に入射した音が壁の透過損失に応じて減衰し壁を通り抜けて透過した音、または遮蔽物を回り込んで裏面に回折によって到達する音である。

特開２００３−６２７７７号公報

しかしながら、特許文献１に記載の技術では、直接音以外の音を用いて音源の方向を推定した場合、正しい音源の方向を推定できないことがあった。正しい音源の方向を推定できない場合、自律行動ロボットは、推定した音源の方向へ移動するように制御されるため、正しい音源の方向へ移動することができない場合があった。

本発明は上記の点に鑑みてなされたものであり、直接音以外の音であっても音源の方向を推定でき、音源の方向へ移動することができる自律行動ロボット、及び自律行動ロボットの制御方法を提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係る自律行動ロボットは、音響信号を収録する収音部と、前記収録された前記音響信号を用いて前記音響信号に対する音源の方向を推定する音源定位部と、所定の範囲に対して距離に関する測定を行う距離測定部と、前記距離の情報を用いて、二次元地図情報を生成かつ自律行動ロボットの自己位置を推定する地図情報生成部と、前記二次元地図情報と、前記推定された自己位置の情報と、前記推定された音源の方向とに基づいて、前記音響信号が反射物による反射音であるか前記音源からの直接音であるかを判別することで、前記音源の方向を推定し直す音源方向決定部と、前記二次元地図情報と、前記音源方向決定部によって推定された音源の方向とに基づいて、前記音響信号が反射音であると判別した場合、第１の方向へ移動する行動計画を生成し、前記音響信号が直接音であると判別した場合、前記第１の方向とは異なる第２の方向へ移動する行動計画を生成する行動生成部と、前記行動計画に応じて前記自律行動ロボットを制御する制御部と、を備える。
（２）また、本発明の一態様に係る自律行動ロボットにおいて、前記第２の方向は、前記第１の方向より前記音源に向いた方向であるようにしてもよい。

（３）また、本発明の一態様に係る自律行動ロボットは、前記自律行動ロボットの角速度と加速度とを検出する検出部、を備え、前記地図情報生成部は、前記検出部が検出した検出結果を用いて、前記推定した自己位置を補正するようにしてもよい。
（４）また、本発明の一態様に係る自律行動ロボットは、画像を撮像する撮像部と、前記生成された二次元地図情報と、前記撮像された画像に基づく三次元画像を用いた三次元地図情報とを統合する統合部と、を備え、前記行動生成部は、前記統合部によって統合された地図情報を用いて行動計画を生成するようにしてもよい。

（５）また、本発明の一態様に係る自律行動ロボットにおいて、前記音源方向決定部は、前記音源定位部によって定位された前記音源の方向と、前記地図情報生成部によって推定された自己位置を示す自己推定位置を用いて、フレーム毎に前記自己推定位置と障害物との関係を示す線分を算出し、任意のフレームにおける前記線分と前記障害物との交点を算出し、前記任意のフレームにおける前記線分上で前記算出した交点の近傍に２点を算出し、算出した前記２点からｆフレーム（ただしｆは２以上の整数）の前記線分までの距離の合計を算出し、前記算出した結果に基づいて、前記音響信号が直接音であるか反射音であるかを判別するようにしてもよい。

（６）また、本発明の一態様に係る自律行動ロボットにおいて、前記音源方向決定部は、前記音源定位部によって定位された前記音源の方向と、前記地図情報生成部によって推定された自己位置を示す情報を用いて、フレーム毎に前記自己推定位置と障害物との関係を示す前記線分Г_ｆ ^ｗを、次式を用いて算出するようにしてもよい。
（なお、ψ_ｆ ^ｒはｆフレーム目のロボット座標系Ｃ^ｒのｘ軸に対するｆフレーム目の音響信号への方位角、θ_ｆ ^ｗはロボット座標系Ｃ^ｒのｘ軸から世界座標系Ｃ^ｗのｘ軸への方位角、ｙ^ｗは世界座標系におけるｙ座標、ｘ^ｗは世界座標系におけるｘ座標、ｙ_ｆ ^ｗはｆフレーム目における世界座標系におけるｙ座標、ｘ_ｆ ^ｗはｆフレーム目における世界座標系におけるｘ座標である）

（７）また、本発明の一態様に係る自律行動ロボットにおいて、前記音源方向決定部は、前記任意のフレームにおける前記線分上で前記算出した交点の近傍に、２点ｐ_＋ ^〜Ｗとｐ₋ ^〜Ｗとを、次式を用いて算出するようにしてもよい。
（なお、ｐ^〜Ｗは前記任意のフレームにおける前記線分と前記障害物との交点、ｐ_１ ^Ｗは世界座標系Ｃ^ｗにおける１フレーム目の前記自律行動ロボットの座標、αは予め定められている値である）

（８）また、本発明の一態様に係る自律行動ロボットにおいて、前記音源方向決定部は、算出した前記２点からｆフレームの前記線分までの距離の合計ｄ_＋ ^〜Ｗとｄ₋ ^〜Ｗとを、次式を用いて算出し、
前記算出したｄ₋ ^〜ｗがｄ_＋ ^〜ｗ未満である場合、前記音響信号が直接音であると判別し、前記算出したｄ₋ ^〜ｗがｄ_＋ ^〜ｗ未満以外である場合、前記音響信号が反射音であると判別するようにしてもよい。

（９）また、本発明の一態様に係る自律行動ロボットにおいて、前記第１の方向よりも前記第２の方向へ向かって進行しているときの方が移動速度の速いようにしてもよい。

（１０）上記目的を達成するため、本発明の一態様に係る自律行動ロボットの制御方法は、収音部が、音響信号を収録する収音手順と、音源定位部が、前記収音手順によって収録された前記音響信号を用いて前記音響信号に対する音源の方向を推定する音源定位手順と、距離測定部が、所定の範囲に対して距離に関する測定を行う距離測定手順と、地図情報生成部が、前記距離測定手順によって測定された前記距離の情報を用いて、二次元地図情報を生成かつ自律行動ロボットの自己位置を推定する地図情報生成手順と、音源方向決定部が、前記二次元地図情報と、前記推定された自己位置の情報と、前記推定された音源の方向とに基づいて、前記音響信号が反射物による反射音であるか前記音源からの直接音であるかを判別することで、前記音源の方向を推定し直す音源方向決定手順と、行動生成部が、前記二次元地図情報と、前記音源方向決定部によって推定された音源の方向とに基づいて、前記音響信号が反射音であると判別した場合、第１の方向へ移動する行動計画を生成し、前記音響信号が直接音であると判別した場合、前記第１の方向とは異なる第２の方向へ移動する行動計画を生成する行動生成手順と、制御部は、行動生成手順によって生成された前記行動計画に応じて前記自律行動ロボットを制御する制御手順と、を含む。

上述した（１）又は（１０）の構成によれば、収録した音響信号と地図情報に基づいて、収録した音響信号が直接音か反射音かを判別することができる。このため、本構成によれば、自律行動ロボットのいる位置から直接音を収音できない場合、第１の方向へ自律行動ロボットを移動させ、自律行動ロボットのいる位置から直接音を収音できる場合、第１の方向とは異なる音源の方向である第２の方向へ自律行動ロボットを移動させることができるので、自律行動ロボットをスムーズに移動させることができる。

上述した（２）の構成によれば、自律行動ロボットのいる位置から直接音を収音できない場合、第１の方向へ自律行動ロボットを移動させ、自律行動ロボットのいる位置から直接音を収音できる場合、第１の方向とは異なる音源の方向であり音源の方向である第２の方向へ自律行動ロボットを移動させることができる。このため、本構成によれば、自律行動ロボットを音源の方向へスムーズに移動させることができる。

上述した（３）の構成によれば、検出部が検出した検出結果を用いて推定した自己位置を補正するので、不整地等であっても、距離及び角度に関する地図情報を精度良く測定することができる。

上述した（４）の構成によれば、撮像された画像情報を二次元地図情報に統合することで三次元地図情報を生成できるので、精度の良い三次元地図情報を低い計算負荷で生成することができる。この三次元地図情報によって、自律行動ロボットを障害物を回避させ、かつ音源の方向へスムーズに移動させることができる。

上述した（５）〜（８）の構成によれば、音源定位部によって定位された音源方位と地図情報生成部によって推定された自己位置を示す情報を用いて、推定された音響信号が直接音であるか反射音であるかを判別することができる。この判別結果に応じて、自律行動ロボットを音源の方向へスムーズに移動させることができる。

上述した（９）の構成によれば、収録した音響信号の種類に応じて、自律行動ロボットの移動速度を変えることができるので、ロボットを音源の方向へスムーズに移動させることができる。

第１実施形態に係る自律行動ロボットの構成を示すブロック図である。第１実施形態に係るロボットの外形の一例を説明する図である。第１実施形態に係る二次元地図情報の一例を説明する図である。第１実施形態に係る二次元の格子地図情報の一例を説明する図である。第１実施形態に係る二次元地図にＲＧＢ−Ｄ画像を合成した地図情報の一例を説明する図である。ロボット座標系と世界座標系との関係を説明する図である。ロボットが直接音に対して音源定位した場合を説明する図である。ロボットが反射音に対して音源定位した場合を説明する図である。本実施形態に係る反射音検出モデルを説明する図である。第１実施形態に係るロボットが行う処理のフローチャートである。実験に用いた通路１を上から見た図である。実験に用いた通路２を上から見た図である。Ｔ字路を含む通路１における測定結果を説明する図である。通路２における測定結果を説明する図である。音源定位に関する測定結果の一例を説明する図である。第１実施形態に係る二次元地図情報に撮像部６０が撮像した３次元画像を投影した測定結果の一例を説明する図である。第２実施形態に係る自律行動ロボットの構成を示すブロック図である。三次元のＳＬＡＭ法によって生成された三次元地図の一例を説明する図である。第２実施形態に係るロボットが行う処理のフローチャートである。

まず、本発明の概要を説明する。
本実施形態では、自律的に行動する自律行動可能なロボット（以下、自律行動ロボット、ロボットともいう）は、収録した音響信号を用いて音源の方向を推定する。また、自律行動ロボットは、センサを介して取得した情報を用いて、二次元地図情報を生成する。そして、自律行動ロボットは、生成した二次元地図情報を用いて、壁等の障害物を検出する。また、自律行動可能なロボットは、地図情報、音源定位の結果、障害物の有無に基づいて、音響信号が直接音であるか反射音であるかを判別する。そして、自律行動ロボットは、収録した音響信号が反射音である場合は、第１の方向に進むように制御し、収録した音響信号が直接音である場合は、第１の方向とは異なる音源の方向である第２の方向に進むように制御する。この結果、自律行動ロボットは、障害物を回避しつつ、音源の方向へスムーズに移動することができる。

以下、図面を参照しながら本発明の実施形態について説明する。また、以下の説明では、自律移動装置の一例として自律行動ロボットを例に説明を行うが、自律移動装置は、自律的に移動できる装置であってもよい。

＜第１実施形態＞
図１は、本実施形態に係る自律行動可能なロボット１の構成を示すブロック図である。図１に示すように、ロボット１は、収音部１０、第１音源定位部２０（音源定位部；ＬｏｃａｌＳＳＬ）、第１センサ３０（距離測定部）、第２センサ４０（検出部）、第１地図情報生成部５０（地図情報生成部）、撮像部６０、第２音源定位部７０（音源方向決定部；ＧｌｏｂａｌＳＳＬ）、反射物検出部８０（音源方向決定部；ＲｅｆｌｅｃｔｉｏｎＤｅｔｅｃｔｉｏｎ）、音源方向決定部９０（ＧｏａｌＤｅｃｉｓｉｏｎ）、コストマップ部１００（Ｃｏｓｔｍａｐ）、行動生成部１１０、駆動制御部１２０（制御部）、及び駆動部１３０を含んで構成される。

図２は、本実施形態に係るロボット１の外観の一例を説明する図である。図２に示すように、ロボット１は、台座１００１にボディ１００２が可動できるように組み付けられていうる。台座１００１には、不図示の車輪が組み込まれ、さらに第２センサ４０が組み込まれている。なお、第２センサ４０は、例えばボディ１００２内に組み込まれていてもよい。また、ボディ１００２には、左腕１００３（含むハンド部）、右腕１００４（含むハンド部）、及び頭部１００５が組み付けられている。左腕１００３、右腕１００４、及び頭部１００５等の駆動制御部、駆動部、及び図１に示した機能部は、例えばボディ１００２内、または台座１００１内に組み込まれていてもよい。

また、本実施形態では、収音部１０、第１センサ３０、及び撮像部６０を台座１００１の上面１００１Ａに設置したが、これに限られない。例えば、収音部１０は、頭部１００５の周辺部に取り付けられていてもよく、撮像部６０は、頭部１００５またはボディ１００２に取り付けられていてもよい。また、第１センサ３０も、台座１００１、ボディ１００２、及び頭部１００５のいずれかに取り付けられていればよい。
また、図２に示したロボット１の外形は一例であり、ロボット１は、台座１００１の代わりに脚部を備えていてもよい。

収音部１０は、Ｍ個（Ｍは１よりも大きい整数、例えば８個）のチャネルの音響信号を収録し、収録したＭチャネルの音響信号を第１音源定位部２０に送信する。収音部１０は、例えば周波数帯域（例えば２００Ｈｚ〜４ｋＨｚ）の成分を有する音波を受信するＭ個のマイクロホン１１−１〜１１−Ｍを備えている。以下、マイクロホン１１−１〜１１−Ｍのうち、特定しない場合は、単にマイクロホン１１という。Ｍ個のマイクロホン１１は、それぞれ異なる位置に配置されている。収音部１０は、収録したＭチャネルの音響信号を無線で送信してもよいし、有線で送信してもよい。Ｍが１よりも大きい場合には、送信の際にチャネル間で音響信号が同期していればよい。

第１音源定位部２０には、予め伝達関数Ａが記憶されている。第１音源定位部２０は、収音部１０のＭ個のマイクロホン１１によって収録されたＭ個の音響信号を取得する。第１音源定位部２０は、取得した音響信号をアナログ信号からデジタル信号に変換する。第１音源定位部２０は、変換されたＭ個の音響信号を用いて、記憶されている伝達関数Ａによって、例えばＭＵＳＩＣ（ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ；多信号分類）法、ビームフォーミング法等を用いて、音源毎の方向を推定する（以下、音源定位という）。なお、伝達関数Ａは、例えば、実際にロボット１を使用する環境で予め測定するようにしてもよい。ここで、音源は、発話した人間、または音楽を出力するスピーカ等である。第１音源定位部２０は、音源定位させた結果を示す第１音源定位情報を第２音源定位部７０に出力する。なお、第１音源定位部２０は、周知の手法を用いて、収録されたＭ個の音響信号を分離し、分離した音源毎に音源定位処理を行うようにしてもよい。また、第１音源定位部２０は、周知の手法を用いて残響成分を抑圧するようにしてもよい。

第１センサ３０は、距離センサであり、例えばＬＲＦ（ＬａｓｅｒＲａｎｇｅＦｉｎｄｅｒ；レーザレンジファインダー）センサである。ＬＲＦセンサは、レーザ光を照射しながら、検知対象の空間を所定のピッチでスキャンして、物体に反射して戻ってくるまでの時間を測定することで、物体との距離と方向を検出する二次元の測域センサである。ＬＲＦセンサは、検出した物体との距離と方向を含む情報を第１検出情報として無線または有線によって第１地図情報生成部５０に出力する。なお、第１検出情報には、少なくとも床に対して水平面であるｘｙ平面に対するｘ軸成分、ｙ軸成分が含まれる。なお、本実施形態では、第１センサ３０の例として、ＬＲＦセンサを用いる例を説明するが、これに限られず、他のセンサであってもよい。また、ＬＲＦセンサは、１つではなく、複数でもよい。

第２センサ４０は、ＩＭＵ（ＩｎｅｒｔｉａｌＭｅａｓｕｒｅｍｅｎｔＵｎｉｔ；慣性計測装置）であり、ロボット１の運動を司る３軸の角度（または角速度）と加速度とを検出するセンサである。第２センサ４０は、例えば、３軸のジャイロと３方向の加速度計によって、３次元の角速度と加速度を検出する。第２センサ４０は、検出した検出結果を第２検出情報として第１地図情報生成部５０に出力する。

第１地図情報生成部５０は、二次元自己位置推定部５１（Ｇｌｏｂａｌ２ＤＳｅｌｆ−Ｌｏｃａｌｉｚａｔｉｏｎ）、二次元地図情報生成部５２（Ｇｌｏｂａｌ２ＤＯｃｃｕｐａｎｃｙＧｒｉｄＭａｐＧｅｎｅｒａｔｉｏｎ）、及び補正部５３を備えている。

二次元自己位置推定部５１及び二次元地図情報生成部５２は、例えばＨｅｃｔｏｒＳＬＡＭ（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄ．Ｍａｐｐｉｎｇ）法（参考文献１参照）を用いて、二次元地図情報の生成と自己位置の推定を同時に行う。
例えば、第１地図情報生成部５０は、まず初期位置の座標を決定し、その位置から得られた第１検出情報を取得する。そして、取得された第１検出情報に対してサンプリング処理を行い、第１検出情報が得られた領域内で観察された物体の形状を推定し、地図情報を生成する。ロボット１は、移動しながら、例えば所定の時間間隔毎（フレーム毎）に第１検出情報を取得し、領域内で観察された物体の形状を推定する。そして、第１地図情報生成部５０は、フレーム毎に生成した地図情報の特徴量を抽出し、特徴量を抽出した地図情報に対して相関計算によって合成した地図情報を生成する。第１地図情報生成部５０は、合成した地図情報と、ロボット１が移動した軌跡とに対して再サンプリング処理を行う。第１地図情報生成部５０は、以上の処理を繰り返すことで、地図情報の生成と自己位置推定とを同時に行う。

参考文献１ S. Kohlbrecher and J. Meyer and O. von Stryk and U. Klingauf, “A Flexible and Scalable SLAM System with Full 3D Motion Estimation”, in Proc. of IEEE International Symposium on Safety, Security and Rescue Robotics (SSRR), pp. 155-160, 2011.

二次元自己位置推定部５１は、例えば上述したＨｅｃｔｏｒＳＬＡＭ法によって、第１センサ３０から入力された第１検出情報を用いて、ロボット座標系における位置と傾き（姿勢ともいう）を推定する。二次元自己位置推定部５１は、現在の自己位置推定を、例えば、次式（１）を用いて行う。

現在の自己位置（ｘ、ｙ、θ）＝前の時刻の位置（ｘ’、ｙ’、θ’）＋相対位置（Δｘ、Δｙ、Δθ） …（１）

なお、式（１）において、ｘ、ｙは、二次元地図におけるｘ軸方向の値とｙ軸方向の値であり、θは姿勢である。

二次元地図情報生成部５２は、第１センサ３０から入力された第１検出情報を用いて、前述したように、例えばＨｅｃｔｏｒＳＬＡＭ法を用いて、図３のように二次元の地図情報を生成する。図３は、本実施形態に係る二次元地図情報の一例を説明する図である。図３に示す地図情報の例は、情報を収集し、構築した後の例である。
二次元地図情報生成部５２は、図４に示すように、予め定められた大きさの格子（Ｇｒｉｄ）毎に自身のグローバル座標系における位置と傾きを推定して環境地図に登録する。図４は、本実施形態に係る二次元の格子地図情報の一例を説明する図である。図４において、例えばロボット１の進行方向をｘ軸方向、ロボット１の左右方向をｙ軸方向とする。そして、ロボット１は、例えばｘ_１からｘ_９の方向へ移動しながら、格子地図情報ｍ１０１を生成する。また、図４において、符号ｍ１０２は、障害物がない空間の領域を示す格子であり、符号ｍ１０３は、障害物がある空間の領域を示す格子である。ここで、障害物とは、例えば通路の左右に存在する壁等である。二次元地図情報生成部５２は、生成した二次元地図情報を反射物検出部８０に出力する。

補正部５３は、第２センサ４０から入力された第２検出情報を用いて、二次元自己位置推定部５１が推定した自己位置を補正する。このように第２検出情報を用いて自己位置を補正する理由を説明する。ＳＬＡＭ法では、ロボット１が平面上を移動することが仮定されているため、床や地面が整地されていないような不整地を移動することによって二次元平面からのずれが生じる場合がある。このようなずれは、観測雑音となり、自己位置推定の精度が劣化することがある。このため、本実施形態では、第２センサ４０から得られた第２検出情報を用いて、二次元平面からのずれを補正することで、観測雑音に対してロバストな自己位置推定を行うことができる。なお、補正部５３が行う補正方法については後述する。

撮像部６０は、所定の間隔毎に画像を撮像し、撮像した画像情報をコストマップ部１００に出力する。撮像部６０は、例えばＲＧＢ−Ｄカメラである。ここで、ＲＧＢ−Ｄカメラとは、ＲＧＢ画像に加えて深度画像を得ることができるカメラである。なお、撮像部６０は、２台のカメラによるステレオカメラであってもよい。

第２音源定位部７０（ＧｌｏｂａｌＳＳＬ）には、第１音源定位部２０から第１音源定位情報が入力され、第１地図情報生成部５０から自己位置を示す情報と二次元地図情報とが入力される。
第２音源定位部７０は、第１音源定位部２０によって定位された音源方位と、第１地図情報生成部５０によって推定された自己位置を示す情報を用いて、フレーム毎に自己推定位置と障害物との関係を示す線分を算出し、算出した線分を示す式を反射物検出部８０に出力する。なお、線分の算出方法については後述する。

反射物検出部８０は、任意のフレームにおける線分と障害物との交点を算出する。そして、反射物検出部８０は、算出した任意のフレームにおける線分上で算出した交点の近傍に２点を算出し、算出した２点からｆフレーム（ただしｆは２以上の整数）の線分までの距離の合計を算出する。次に、反射物検出部８０は、算出した結果に基づいて、音響信号が直接音であるか反射音であるかを判別し、判別した判別結果を音源方向決定部９０に出力する。なお、交点等の算出方法については後述する。

音源方向決定部９０は、反射物検出部８０から入力された判別結果に基づいて、音源方位を決定し、決定した音源定位の結果を行動生成部１１０に出力する。音源方向決定部９０が決定した方向は、ロボット１が進むゴールである。

コストマップ部１００には、第１地図情報生成部５０から二次元地図情報が入力され、撮像部６０から画像情報が入力される。コストマップ部１００は、入力された二次元地図情報と画像情報とを統合して、図５のような地図情報を生成する。なお、二次元地図情報（ＳＬＡＭ）で得られたロボット１の二次元座標と向きとから、撮像部６０の位置と向きとが分かるため、コストマップ部１００は、撮像部６０によって撮像された画像をロボット座標から投影することで、図５のような三次元地図情報を生成する。このように作成された３次元地図情報を、コストマップともいう。なお、作成されたコストマップは、行動生成部１１０にて、ロボット１が障害物を回避したり、次のフレームで進む方向を決定したりするために用いられる。コストマップ部１００は、作成したコストマップの情報を行動生成部１１０に出力する。
図５は、本実施形態に係る二次元地図にＲＧＢ−Ｄ画像を合成した地図情報の一例を説明する図である。図５において、符号ｍ１１１が示す領域の画像は、二次元地図情報生成部５２によって生成された二次元地図情報の図である。また、符号ｍ１１２が示す領域の画像は、撮像部６０によって撮像された画像である。

行動生成部１１０には、第１地図情報生成部５０からｆフレーム目の自己位置情報ｐ_ｆ ^ｗが入力され、音源方向決定部９０から音源定位結果の方位角ψ_ｆ ^ｗが入力され、コストマップ部１００からコストマップの情報が入力される。行動生成部１１０は、第１行動生成部１１１及び第２行動生成部１１２を含んで構成される。

第１行動生成部１１１は、入力された自己位置情報ｐ_ｆ ^ｗ、音源の方位角ψ_ｆ ^ｗ、及びコストマップの情報に基づいて、ロボット１の行動の軌跡を示す第１の行動計画を生成する。
第２行動生成部１１２は、入力された自己位置情報ｐ_ｆ ^ｗとコストマップの情報とに基づいて、障害物を回避するためのロボット１の第２の行動計画を生成する。
行動生成部１１０は、生成した第１の行動計画と第２の行動計画とを統合して行動計画を生成し、生成した行動計画を示す情報を駆動制御部１２０に出力する。

駆動制御部１２０は、行動生成部１１０から入力される行動計画を示す情報に応じて、ロボット１の動作を制御する駆動信号を生成し、生成した駆動信号を駆動部１３０に出力する。
駆動部１３０は、駆動制御部１２０から入力された駆動信号に応じて、図２に示した台座１００１に組み込まれている車輪等を駆動する。

＜第１の音源定位＞
ここで、第１音源定位部２０が行う処理について説明する。
第１音源定位部２０には、所定の空間において、収音部１０によって収録された不図示の音源から発せられた音が入力され、不図示の伝達関数算出部によって算出された伝達関数Ａ（ω、ψ^ｒ）が記憶されている。ここで、ωは周波数を表し、ψ^ｒは、ロボット座標系から見た音源の方位角（以下、ロボット座標系から見た座標には、上付き文字ｒを付けて表す）である。
収音部１０によって収録されたＭチャネルの音響入力信号の相関行列Ｒ（ω、ｆ）∈Ｃ^Ｍ×Ｍ（なお、Ｃ^Ｍ×ＭはＭ行Ｍ列の行列を表す）を、第１音源定位部２０は、次式（２）のように固有値展開する。

Ｒ（ω、ｆ）＝Ｅ（ω、ｆ）∧（ω、ｆ）Ｅ^−１（ω、ｆ） …（２）

式（２）において、∧（ω、ｆ）は固有値であり次式（３）のように表され、Ｅ（ω、ｆ）は固有値ベクトルであり次式（４）のように表される。

∧（ω、ｆ）＝ｄｉａｇ（λ_１（ω、ｆ）、…、λ_Ｍ（ω、ｆ）） …（３）

Ｅ（ω、ｆ）＝［ｅ_１（ω、ｆ）、…、ｅ_Ｍ（ω、ｆ）］ …（４）

なお、式（３）においてｄｉａｇ（・・・）は、対角行列を表す。また、固有ベクトルは、対応する固有値ｅ_ｍ（ω、ｆ）の大きさの順番（ただしｍは１以上かつＭ以下）に並んでいる。
空間スペクトルＰは、次式（５）のように表される。

式（５）において、上付き文字＊は複素共役転置演算子、Ｌは音源数を表す。また、ω_ｌは周波数ωの最小値、ω_ｈは周波数ωの最大値を表す。このため、式（５）の空間スペクトＰは、ω_ｌ≦ω≦ω_ｈで平均化されている。また、｜｜は絶対値を表す。
第１音源定位部２０は、空間スペクトルＰで検出されたＬ個のピークを音源の方向とし、音源の方向の方位角ψ^ｒを推定する。以下、ｆフレーム目の推定結果をψ_ｆ ^ｒと表す。第１音源定位部２０は、推定結果ψ_ｆ ^ｒを第２音源定位部７０に出力する。

＜自己位置の補正＞
次に、補正部５３が行う補正について説明する。補正のための状態空間モデルは、次式（６）のように表される。

ｘ＝（Ω^Ｔ、ｐ^Ｔ、ｖ^Ｔ）^Ｔ …（６）

式（６）において、Ωはロボット座標系から世界座標系への関係を表すオイラー角であり次式（７）のように表され、ｐは並進位置であり次式（８）のように表され、ｖは並進速度であり次式（９）のように表される。

Ω＝（φ、θ、ψ）^Ｔ …（７）

ｐ＝（ｐ_ｘ、ｐ_ｙ、ｐ_ｚ）^Ｔ …（８）

ｖ＝（ｖ_ｘ、ｖ_ｙ、ｖ_ｚ）^Ｔ …（９）

なお、ロボット座標系において、高さ方向をｚ軸方向、床に対して平行な面をｘｙ平面とする。式（６）〜（９）において、上付きＴは、転置行列を表す。また、式（７）において、φ、θ、ψそれぞれは、ロール（ｒｏｌｌ）角、ピッチ（ｐｉｔｃｈ）角、及びヨー（ｙａｗ）角である。なお、並進運動とは、剛体上の全ての点が同じ時間に同じ方向へ同じ距離移動する運動である。

第２センサ４０からは、次式（１０）の情報が入力される。

ｕ＝（ω^Ｔ、ａ^Ｔ）^Ｔ …（１０）

式（１０）において、ωは姿勢角の角速度であり次式（１１）のように表され、ａは並進加速度であり次式（１２）のように表される。

ω＝（ω_ｘ、ω_ｙ、ω_ｚ）^Ｔ …（１１）

ａ＝（ａ_ｘ、ａ_ｙ、ａ_ｚ）^Ｔ …（１２）

そして、補正モデルは、次式（１３）のように表される。

式（１３）において、Ｒ_Ωはロボット座標系から世界座標系への座標変換、Ｅ_Ωは第２センサ４０の姿勢座標からロボットの姿勢座標への座標変換、ｇは重力加速度を表す。

図６は、ロボット座標系と世界座標系との関係を説明する図である。図６において、符号Ｓは、音源を表す。また、ｘ^ｒはロボット座標系のｘ軸、ｙ^ｒはロボット座標系のｙ軸である。また、ｘ^ｗは世界座標系のｘ軸、ｙ^ｗは世界座標系のｙ軸である。ロボット座標系をＣ^ｒ、世界座標系をＣ^ｗともいう。図６に示すように、ロボット座標系Ｃ^ｒのｘ軸から世界座標系Ｃ^ｗのｘ軸への方位角をθ_ｆ ^ｗとする。そして、世界座標系Ｃ^ｗのｘ軸に対するｆフレーム目の音源Ｓの方位角をψ_ｆ ^ｒとする。すなわち、世界座標系Ｃ^ｗにおいて、ロボット座標系Ｃ^ｒのｘ軸から音源Ｓへの方位角は、θ_ｆ ^ｗ＋ψ_ｆ ^ｒである。
補正部５３は、式（１３）を用いて、ロボット座標系Ｃ^ｒで推定した自己位置の補正と、座標系の変換とを行う。補正及び座標変換後のｆフレーム目の自己位置情報ｐ_ｆ ^ｗと方位角θ_ｆ ^ｗは、次式（１４）のように表される。

第１地図情報生成部５０は、生成した地図情報、補正及び座標変換後のｆフレーム目の自己位置情報ｐ_ｆ ^ｗを第２音源定位部７０及び行動生成部１１０に出力する。

＜第２の音源定位＞
次に、第２音源定位部７０が行う処理について説明する。
なお、本実施形態では、音の反射は、虚像モデル（参考文献２参照）に従うと仮定する。ここで、虚像モデルとは、壁等の障害物の向こう側に音源がある場合、壁を鏡のように見立て、この鏡面に音が反射しているとして、真の音源に対する鏡像（虚音源）を想定するモデルである。

参考文献２ J. B. Allen and D. A. Berkley, “Image method for efficiently simulating small-room acoustics”, J. Acoust. Soc. Am. vol. 65, no. 4, 943 (1979).

図７は、ロボット１が直接音に対して音源定位した場合を説明する図である。図８は、ロボット１が反射音に対して音源定位した場合を説明する図である。図７及び図８において、ロボット１の進行方向をｘ軸方向、ロボット１の左右方向をｙ軸方向とする。また、図７及び図８において、符号Ｌは、ｆフレーム毎に音源定位した結果（ψ_ｆ ^ｒ）を表し、符号Ｒｔｒは、ロボット１が移動した軌跡を表している。また、符号Ｓｔは真の音源を表し、符号Ｓｆは反射音による偽の音源（鏡像）を表している。

図７に示す例では、ロボット１が移動している位置から直接音を収録できる位置に、真の音源Ｓｔがある例を示している。このため、ロボット１が音源定位させた結果を示すＬは、真の音源Ｓｔの位置に焦点を結ぶ。

図８に示す例では、ロボット１が移動している位置から直接音を収録できない位置に、真の音源Ｓｔがある例を示している。図８において、ｆフレームを１〜６フレームであるとすると、６フレーム目の位置においても鎖線ｆ_６のように壁Ｗａｌｌ２の符号Ｗｃで囲まれた領域の壁によって直接音が遮られてしまうため、ロボット１は直接音を収録することができない。このため、ロボット１は、真の音源Ｓｔに対する壁Ｗａｌｌ１の反対側にある反射音である鏡像（偽の音源Ｓｆ）に対して音源定位処理を行うことになる。この結果、ロボット１が音源定位させた結果を示すＬは、鏡像である偽の音源Ｓｆの位置に焦点を結ぶ。

図７及び図８を用いて説明したように、音源定位させた結果を結んだ焦点が障害物の内側（ロボット側）であるか、壁の外側であるかは、ロボット１が定位させた音源が直接音か反射音かを識別することで判別できる。

図９は、本実施形態に係る反射音検出モデルを説明する図である。なお、図９に示す例では、音源は、移動していないとする。音源は、符号ｃｐの位置にあるとする。
図９の座標系は世界座標系Ｃ^ｗであり、ロボット１の進行方向（紙面の縦方向）をｘ^ｗ軸方向、ロボット１の左右方向（紙面の左右方向）をｙ^ｗ軸方向とする。符号Ｒ_ｆはｆフレーム目におけるロボット１を表している。また、符号ｐ_ｆ ^ｗは、世界座標系Ｃ^ｗにおけるｆフレーム目のロボット１の位置（座標）を表している。符号ｍ１２１の領域の図は、地図情報から障害物（例えば壁）と推定された格子を表している。またドット柄の格子（例えばｍ１２２）は、空間が障害物によって塞がれているグリッドを表し、黒色の格子ｍ１２３は、１フレーム目における空間が障害物によって塞がれているグリッドを表している。白色の格子（例えばｍ１２４）は、障害物がない自由な空間を表している。

第２音源定位部７０は、第１音源定位部２０によって推定されたｆフレーム目の音源の方位角ψ_ｆ ^ｒと、第１地図情報生成部５０から入力されたｆフレーム目の自己位置情報Ｐ_ｆ ^ｗを用いて、音源の方向に向けた線分Г_ｆ ^ｗを、次式（１５）のように定義する。なお、ロボット座標系Ｃ^ｒと世界座標系Ｃ^ｗとの関係は、図６で説明した関係である。

なお、式（１５）において、ｘ_ｆ ^ｗはｆフレーム目の世界座標におけるｘ座標、ｙ_ｆ ^ｗはｆフレーム目の世界座標におけるｙ座標である。式（１５）の意味合いは、点（ｘ_ｆ ^ｗ，ｙ_ｆ ^ｗ）を通り、傾きψ_ｆ ^ｒ＋θ_ｆ ^ｗの直線の方程式である。

図９に示すように、第２音源定位部７０は、世界座標系Ｃ^ｗにおけるｆフレーム毎に線分Г_ｆ ^ｗを算出することで、世界座標系Ｃ^ｗにおけるｆフレーム目の第２の音源定位を行う。第２音源定位部７０は、推定した世界座標系Ｃ^ｗにおけるｆフレーム目の定位結果から生成された線分Г_ｆ ^ｗを示す式を反射物検出部８０に出力する。

＜反射物検出＞
反射物検出部８０には、第１地図情報生成部５０から二次元地図情報、及び第２音源定位部７０からｆフレーム目の定位結果から生成された線分Г_ｆ ^ｗを示す式が入力される。
反射物検出部８０は、入力された地図情報と１フレーム目の線分Г_１ ^ｗを示す式を用いて、１フレーム目の線分Г_ｆ ^ｗと格子との交点ｐ^〜ｗ（次式１６）を算出する。なお、ここっで、１フレーム目は、任意に時刻におけるフレームであってもよい。

なお、格子における交点は、格子における所定の位置であり、例えば、格子のｙ^ｗ軸における中心であってもよく、格子のｙ^ｗ軸方向の左側または右側の辺上であってもよい。
次に、反射物検出部８０は、線分Г_１ ^ｗ上で、算出した交点ｐ^〜ｗの近傍にｐ₋ ^〜Ｗ（ｘ₋ ^〜ｗ、ｙ₋ ^〜ｗ）とｐ_＋ ^〜ｗ（ｘ_＋ ^〜ｗ、ｙ_＋ ^〜ｗ）の２点を次式（１７）のように算出する。

式（１７）において、αは、予め実験等によって定められた定数である。αは、０に近い正の値であればよく、例えば、格子の大きさに応じて決定するようにしてもよい。なお、格子の大きさは、例えば１０［ｃｍ］×１０［ｃｍ］である。線分Г_１ ^ｗと格子ｍ１２３との交点ｐ^〜ｗが、例えばｙ^ｗ軸のｙ_１１の中心の場合、近傍の２点は、格子ｍ１２３があるｙ_１１列の右端と左端であってよく、例えば二点がＰ_１ ^ｗの外側にあるのか内側にあるのかを定義できればよい。
反射物検出部８０は、式（１７）で算出した２点からＦ本の線分Г_ｆ ^ｗ（ただし、ｆは１以上かつＦ以下）までの距離の合計ｄ₋ ^〜ｗとｄ_＋ ^〜ｗとを、次式（１８）を用いて算出する。

反射物検出部８０は、Ｆ本の線分Г_ｆ ^ｗの焦点ｃｐ（図９参照）が障害物である壁の内側にあるか、または壁の外側にあるかを、算出したｄ₋ ^〜ｗとｄ_＋ ^〜ｗとの関係によって判別する。
反射物検出部８０は、ｄ₋ ^〜ｗがｄ_＋ ^〜ｗ未満である場合、Ｆ本の線分から形成される焦点ｃｐが壁の内側であると判別し、定位された音が直接音であると判定する。一方、反射物検出部８０は、ｄ₋ ^〜ｗがｄ_＋ ^〜ｗ未満である場合以外、Ｆ本の線分から形成される焦点ｃｐが壁の外側であると判別し、定位された音が反射音であると判定する。反射物検出部８０は、反射音と判別した音源定位の結果を棄却することで、反射音にロバストな音源定位を得ることができる。
反射物検出部８０は、音源定位した結果が、直接音であるか反射音であるかを示す情報を音源方向決定部９０に出力する。

＜音源の方向の決定＞
次に、音源方向決定部９０が行う処理について説明する。
音源方向決定部９０は、反射物検出部８０から入力された音源定位の結果に基づいて、真の音源に対する音源がある方向を決定する。例えば、図７に示した例において、音源方向決定部９０は、符号Ｓｆの方向を真の音源の方向であると決定する。この場合、音源方向決定部９０は、第１音源定位部２０で推定されたｆフレーム目の推定結果である方位角ψ_ｆ ^ｒを世界座標系Ｃｗに変換した結果であるψ_ｆ ^ｗを行動生成部１１０に出力する。
一方、図８に示した例において、音源方向決定部９０は、符号Ｓｆの方向を真の音源の方向であると決定する。この場合、第１音源定位部２０で推定されたｆフレーム目の推定結果である方位角ψ_ｆ ^ｒは反射音による鏡像であるため、音源方向決定部９０は、推定した方位角ψ_ｆ ^ｒと壁の位置に基づいて、真の音源の方位角ψ_ｆ ^ｒを算出する。そして、音源方向決定部９０は、算出した真の音源の方位角ψ_ｆ ^ｒを世界座標系Ｃ^ｗに変換した結果であるψ_ｆ ^ｗを行動生成部１１０に出力する。

＜行動生成部の処理＞
次に、行動生成部１１０が行う処理の一例を説明する。
第１行動生成部１１１は、入力された自己位置情報ｐ_ｆ ^ｗ、音源の方位角ψ_ｆ ^ｗ、及びコストマップの情報に基づいて、図７及び図８の符号Ｒｔｒのようなロボット１の行動の軌跡を生成する。例えば図７に示す例において、第１行動生成部１１１は、推定された音源が真の音源であるため、音源Ｓｔに近づいていくような行動の軌跡Ｒｔｒを生成する。一方、図８に示す例において、第１行動生成部１１１は、音源方向決定部９０によって決定された真の音源Ｓｔに近づいていくような行動の軌跡Ｒｔｒを生成する。これにより、ロボット１は、壁Ｗｃによって直接音を収録できない場合であっても、真の音源の位置に向かって移動することができる。

第２行動生成部１１２は、入力された自己位置情報ｐ_ｆ ^ｗとコストマップの情報とに基づいて、障害物を回避するためのロボット１の行動計画を生成する。例えば、図７または図８に示す例において、第２行動生成部１１２は、ロボット１が壁Ｗａｌｌ１及びＷａｌｌ２に衝突しない行動計画を生成する。また、図８に示す例において、第２行動生成部１１２は、第１音源定位部によって音源があると推定した方向に壁Ｗａｌｌ１があるため、推定した音源は鏡像であり、かつ鏡像の方向には壁Ｗａｌｌ１があるため、壁Ｗａｌｌ１に衝突しない行動計画を生成する。

ここで、図８に示す例において、仮に符号Ｓｆに示す位置に真の音源がある場合、第１行動生成部１１１は、ロボット１は、真の音源に近づいていくような行動の軌跡Ｒｔｒを生成する。しかしながら、音源方向決定部９０によって真の音源が壁Ｗａｌｌ１の向こう側にあり、かつ第２行動生成部１１２によって、真の音源がある方向に壁Ｗａｌｌ１があることに基づいて行動計画が生成されるため、ロボット１は、壁Ｗａｌｌ１に衝突することを回避することができる。

次に、ロボット１が行う処理手順の一例を説明する。
図１０は、本実施形態に係るロボット１が行う処理のフローチャートである。
（ステップＳ１）収音部１０は、Ｍ個のチャネルの音響信号を収録し、収録したＭチャネルの音響信号を第１音源定位部２０に送信する。
（ステップＳ２）第１音源定位部２０は、収音部１０によって収録されたＭ個それぞれのＦフレーム分の音響信号を用いて、記憶されている伝達関数Ａによって、例えばＭＵＳＩＣ法、ビームフォーミング法等を用いて、ｆフレーム目の音源の方向である方位角ψ_ｆ ^ｒを推定する。

（ステップＳ３）第１センサ３０は、例えば、レーザ光を照射しながら、検知対象の空間を所定のピッチでスキャンして、物体に反射して戻ってくるまでの時間を測定することで、物体との距離と方向を検出する。第１センサ３０は、検出した物体との距離と方向を含む情報を第１検出情報として無線または有線によって第１地図情報生成部５０に出力する。

（ステップＳ４）二次元地図情報生成部５２は、第１センサ３０から入力された第１検出情報を用いて、例えばＨｅｃｔｏｒＳＬＡＭ法を用いて、二次元の地図情報を生成する。
（ステップＳ５）二次元自己位置推定部５１は、例えばＨｅｃｔｏｒＳＬＡＭ法によって、第１センサ３０から入力された第１検出情報を用いて、自身のグローバル座標系における位置と傾きを推定する。

（ステップＳ６）第２センサ４０は、例えば、３軸のジャイロと３方向の加速度計によって、３次元の角速度と加速度を検出し、検出した検出結果を第２検出情報として第１地図情報生成部５０に出力する。次に、補正部５３は、第２センサ４０から入力された第２検出情報を取得する。
（ステップＳ７）補正部５３は、第２センサ４０から入力された第２検出情報を用いて、二次元自己位置推定部５１が推定した自己位置を補正する。

（ステップＳ８）撮像部６０は、所定の間隔毎に画像を撮像し、撮像した画像情報をコストマップ部１００に出力する。次に、コストマップ部１００は、撮像部６０から入力された画像情報を取得する。
（ステップＳ９）コストマップ部１００は、第１地図情報生成部５０から入力された二次元地図情報と、撮像部６０から入力された画像情報とを統合して、コストマップである三次元地図情報を生成する。

（ステップＳ１０）第２音源定位部７０は、第１音源定位部２０によって推定されたｆフレーム目の音源の方位角ψ_ｆ ^ｒと、第１地図情報生成部５０から入力されたｆフレーム目の自己位置情報Ｐ_ｆ ^ｗを用いて、音源の方向に向けた線分Г_ｆ ^ｗを、式（１５）を用いてフレーム毎に算出する。

（ステップＳ１１）反射物検出部８０は、入力された地図情報と１フレーム目の線分Г_１ ^ｗを示す式を用いて、１フレーム目の線分Г_１ ^ｗと格子との交点ｐ^〜ｗを、式（１６）を用いて算出する。
（ステップＳ１２）反射物検出部８０は、線分Г_１ ^ｗ上で、算出した交点ｐ^〜ｗの近傍にｐ₋ ^〜Ｗ（ｘ₋ ^〜ｗ、ｙ₋ ^〜ｗ）とｐ_＋ ^〜ｗ（ｘ_＋ ^〜ｗ、ｙ_＋ ^〜ｗ）の２点を、式（１７）を用いて算出する。

（ステップＳ１３）反射物検出部８０は、ステップＳ１２で算出した２点からＦ本の線分Г_ｆ ^ｗ（ただし、ｆは１以上かつＦ以下）までの距離の合計ｄ₋ ^〜ｗとｄ_＋ ^〜ｗとを、式（１８）を用いて算出する。
（ステップＳ１４）反射物検出部８０は、Ｆ本の線分Г_ｆ ^ｗの焦点が障害物である壁の内側にあるか、または壁の外側にあるかを、算出したｄ₋ ^〜ｗとｄ_＋ ^〜ｗとの関係によって判別する。

（ステップＳ１５）反射物検出部８０は、ｄ₋ ^〜ｗがｄ_＋ ^〜ｗ未満である場合（ステップＳ１５；ＹＥＳ）、ステップＳ１６に進み、ｄ₋ ^〜ｗがｄ_＋ ^〜ｗ以上である場合（ステップＳ１５；ＮＯ）、ステップＳ１７に進む。

（ステップＳ１６）反射物検出部８０は、Ｆ本の線分から形成される焦点が壁の内側であると判別し、定位された音が直接音であると判定する。反射物検出部８０は、処理をステップＳ１８に進める。
（ステップＳ１７）反射物検出部８０は、Ｆ本の線分から形成される焦点が壁の外側であると判別し、定位された音が反射音であると判定する。反射物検出部８０は、処理をステップＳ１８に進める。

（ステップＳ１８）行動生成部１１０は、入力された自己位置情報ｐ_ｆ ^ｗ、音源の方位角ψ_ｆ ^ｗ、及びコストマップ部１００が生成したコストマップの情報に基づいて、ロボット１の行動計画を生成する。
（ステップＳ１９）駆動制御部１２０は、行動生成部１１０から入力される行動計画に応じて、ロボット１の動作を制御する駆動信号を生成し、生成した駆動信号を駆動部１３０に出力する。次に、駆動部１３０は、駆動制御部１２０から入力された駆動信号に応じて、台座１００１（図２参照）に組み込まれている車輪等を駆動する。
なお、ロボット１は、以上の処理を、例えば所定の時間毎に繰り返して行う。

なお、駆動制御部１２０は、音源Ｓｔが壁の内側（ロボット１側）の場合の方が、音源が壁の外側の場合よりロボット１の移動速度が速くなるように、制御してもよい。すなわち、音源定位の結果が直接音である場合、その方向（第２の方向）に向けてロボット１を移動させることになるので、ロボット１を例えば０．５［ｍ／ｓ］の速度で移動させることができる。一方、音源定位させた音が、壁の向こう側にある場合、定位させた方向にロボット１を進めると壁に衝突することもありえる。このため、ロボット１は、反射物を検出しつつ、地図情報に基づいて、壁に衝突しない方向（第１の方向）に向けてロボット１を移動させる。この結果、ロボット１の移動速度は、障害物を回避するように、例えば０．５［ｍ／ｓ］より遅い速度で移動させるようにしてもよい。

＜実験結果＞
次に、本実施形態のロボット１を用いて行った実験結果の一例を説明する。
図１１は、実験に用いた通路１を上から見た図である。図１２は、実験に用いた通路２を上から見た図である。図１１及び図１２において、ロボット１の進行方向をｘ軸方向、ロボット１の左右方向をｙ軸方向とする。また、図１１及び図１２に示す通路の残響時間（ＲＴ２０）は、０．４［秒］である。

図１１に示す通路１は、Ｔ字路を有する通路であり、左側に壁Ｗ１１とＷ１２とがあり、右側に壁Ｗ１３がある。Ｔ字路は、図１１に示すように壁Ｗ１１とＷ１２とによって形成されている。壁Ｗ１１とＷ１２とによるＴ字路の幅は１．７［ｍ］である。また、壁Ｗ１１または壁Ｗ１２と、壁Ｗ１３との幅は２．０［ｍ］である。なお、通路１及び通路２は、具体的には廊下の一部の領域である。

また、図１１において、符号Ａ１１に示す位置は、ロボット１の移動開始位置である。この移動開始位置の座標を（０，０）とする。座標が（６，０）である符号Ａ１２に示す位置は、ロボット１の移動終了位置である。行動計画により、ロボット１は、移動開始位置Ａ１１から、中間位置（座標（３，０））を経て、移動終了位置Ａ１２まで移動する。音源Ｓｔは、Ｔ字路内の座標（３，１）に配置されている。なお、音源Ｓｔの位置は、固定されている。また、符号Ｓｆは、音源Ｓｔの鏡像であり、真の音源Ｓｔに対して壁Ｗ１２を線対称とした位置である座標（３，−３）に現れる。
図１１に示す例において、ロボット１は、およそ座標（０，０）〜（１，０）の間、及びおよそ座標（５，０）〜（６，０）の間、音源Ｓｔの直接音を収録できない。ロボット１は、およそ座標（２，０）〜（５，０）の間、音源Ｓｔの直接音を収録できる。

図１２に示す通路２は、左側の壁Ｗ２１と右側の壁Ｗ２２に挟まれた略直線の通路である。壁Ｗ２１と、壁Ｗ２２との幅は２．０［ｍ］である。なお、図１１及び図１２において、壁（Ｗ１１〜Ｗ１３、Ｗ２１、Ｗ２２）は、音が反射しやすいガラス壁である。
また、図１２において、座標が（０，０）である符号Ａ２１に示す位置は、ロボット１の移動開始位置である。座標が（４，０）である符号Ａ２２に示す位置は、ロボット１の移動終了位置である。行動計画により、ロボット１は、移動開始位置Ａ２１から、中間位置（座標（２，０））を経て、移動終了位置Ａ２２まで移動する。音源Ｓｔは、壁Ｗ２１と壁Ｗ２２との間の通路内の座標（６，０）に配置されている。なお、音源Ｓｔの位置は、固定されている。また、符号Ｓｆ１は、音源Ｓｔの鏡像であり、真の音源Ｓｔに対して壁Ｗ２１を線対称とした位置である座標（６，１）に現れる。符号Ｓｆ２は、音源Ｓｔの鏡像であり、真の音源Ｓｔに対して壁Ｗ２２を線対称とした位置である座標（６，−１）に現れる。
図１２に示す例では、ロボット１は、移動開始位置Ａ１１〜移動終了位置Ａ１２において、音源Ｓｔの直接音を収録できるが、壁がガラスのため反射音も収録することになる。

実験に用いた収音部１０は、７個のマイクロホンを備えている。また、図１１に示した通路１、及び図１２に示した通路２において、この収音部１０を用いて５度毎に伝達関数Ａ（ω、ψ^ｒ）を予め測定した。また、第１音源定位部２０は、収録した音響信号をサンプリング周波数が１６［ｋＨｚ］、量子化のビット数が１６［ｂｉｔｓ］でサンプリングを行った。また、短時間フーリエ変換の窓長、シフト長さそれぞれは、５１２、１６０サンプリングとした。また、第１音源定位部２０は、ＭＵＳＩＣ法を用いて音源定位処理を行った。

実験では、図１１において、移動開始位置Ａ１１から移動終了位置Ａ１２までロボット１を５回移動させて、Ｔ字路の角度の平均誤差を算出した。なお、Ｔ字路の場合は、１．５７［ｒａｄ］（９０度）からの角度のずれをフレーム毎に算出した。
また、図１２において、移動開始位置Ａ２１から移動終了位置Ａ２２までロボット１を５回移動させて、距離の平均誤差を算出した。
図１１及び図１２に示したように、ロボット１は、壁（Ｗ１１〜Ｗ１３、Ｗ２１、Ｗ２２）それぞれから１［ｍ］離れている。平均誤差は、法線方向のずれをフレーム毎に実験者が算出し、その平均を算出した。

図１３は、Ｔ字路を含む通路１における測定結果を説明する図である。図１４は、通路２における測定結果を説明する図である。図１３及び図１４において、縦軸は平均誤差［ｒａｄ］、横軸は試行回数［回目］を表す。
図１３において、符号ｇ１１〜ｇ１５が示す画像は、本実施形態による各試行回数における平均誤差を表し、符号ｇ２１〜ｇ２５が示す画像は、比較例による各試行回数における平均誤差を表す。また、図１４において、符号ｇ３１〜ｇ３５が示す画像は、本実施形態による各試行回数における平均誤差を表し、符号ｇ４１〜ｇ４５が示す画像は、比較例による各試行回数における平均誤差を表す。ここで、比較例では、第２センサ４０の測定結果によって自己位置の補正を行わず、ＨｅｃｔｏｒＳＬＡＭ手法を用いて地図情報の作成及び自己位置推定を行った。

図１３に示すように、Ｔ字路を含む通路１（図１１）において、本実施形態の手法の５回の平均誤差の平均値は０．０２６［ｒａｄ］であり、比較例の手法の５回の平均誤差の平均値は０．０７３［ｒａｄ］であった。
また、図１４に示すように、通路２（図１２）において、本実施形態の手法の５回の平均誤差の平均値は０．０５８［ｒａｄ］であり、比較例の手法の５回の平均誤差の平均値は０．１５０［ｒａｄ］であった。
図１３及び図１４に示した実験結果のように、本実施形態は、距離及び角度に関係なく、比較例と比べて５０〜７０［％］程度、平均誤差を軽減することができた。

次に、反射物検出部８０の有無による残響環境下のロボット１の音源定位の性能を測定した結果の一例を説明する。測定環境は、図１１及び図１２である。ロボット１は、移動開始位置から移動終了位置まで、０．５［ｍ／ｓ］の速さで環境を移動し、５０［ｍｓ］毎に音源定位処理を行った。そして、フレーム正解率（許容誤差を５［ｄｅｇ］として正解である方向に定位できたフレーム数）を、観測者が算出した。

図１５は、音源定位に関する測定結果の一例を説明する図である。
図１５において、ロボット１の移動距離が同じであっても音源定位したフレーム数が通路１と通路２とで異なっている理由は、実際にロボット１を移動開始位置から移動終了位置まで移動させた場合、制御によって移動速度に誤差が含まれているためである。
通路１において、反射物検出部８０を用いないで音源定位処理を行った場合のフレーム正解率が８４．１［％］、反射物検出部８０を用いて音源定位処理を行った場合のフレーム正解率が９２．５［％］であった。
また、通路２において、反射物検出部８０を用いないで音源定位処理を行った場合のフレーム正解率が４２．４［％］、反射物検出部８０を用いて音源定位処理を行った場合のフレーム正解率が４９．４［％］であった。
このように、通路１及び通路２において、反射音を含む音源定位において、本実施形態によればフレーム正解率を７〜８［％］向上させることができた。

次に、コストマップ部１００が、二次元地図情報に、撮像部６０が撮像した画像に基づく三次元画像を投影した測定結果の一例を説明する。
図１６は、本実施形態に係る二次元地図情報に撮像部６０が撮像した３次元画像を投影した測定結果の一例を説明する図である。
図１６において、符号Ｓｔは、音源を示し、符号ｍ２０１が示す領域の画像は、二次元地図情報を示し、符号ｍ２０２が示す領域の画像は、撮像部６０が撮像した３次元画像を示す。また、符号ｍ２０３が示す領域の画像は、地図情報が作成されていない領域の画像である。符号Ｒｆｔで示す領域の画像は、ロボット１の移動した軌跡を示す画像である。

図１６に示す例では、ロボット１の正面で人間（音源Ｓｔ）が話している状況である。符号ＳＳＬで示す領域の画像は、ロボット１が音源定位処理を行った結果を示す画像である。符号ＳＳＬが示す領域の画像のように、ロボット１は、正しく音源Ｓｔの方向に定位できていることを示している。

以上のように、本実施形態の自律行動ロボット（例えばロボット１）は、音響信号を収録する収音部（例えば収音部１０）と、収録された音響信号を用いて音響信号に対する音源の方向を推定する音源定位部（例えば第１音源定位部２０）と、所定の範囲に対して距離に関する測定を行う距離測定部（例えば第１センサ３０）と、距離の情報を用いて、二次元地図情報を生成かつ自律行動ロボットの自己位置を推定する地図情報生成部（例えば第１地図情報生成部５０）と、二次元地図情報と、推定された自己位置の情報と、推定された音源の方向とに基づいて、音響信号が反射物による反射音であるか音源からの直接音であるかを判別することで、音源の方向を推定し直す音源方向決定部（例えば第２音源定位部７０、反射物検出部８０、音源方向決定部９０）と、二次元地図情報と、音源方向決定部によって推定された音源の方向とに基づいて、音響信号が反射音であると判別した場合、第１の方向へ移動する行動計画を生成し、音響信号が直接音であると判別した場合、第１の方向とは異なる第２の方向へ移動する行動計画を生成する行動生成部（例えば行動生成部１１０）と、行動計画に応じて自律行動ロボットを制御する制御部と、を備える。

この構成によって、本実施形態のロボット１は、収録した音響信号と地図情報に基づいて、収録した音響信号が直接音か反射音かを判別することができる。そして、本実施形態のロボット１は、ロボット１のいる位置から直接音を収音できない場合、第１の方向へロボット１を移動させ、ロボット１のいる位置から直接音を収音できる場合、第１の方向とは異なる第２の方向へロボット１を移動させることができる。この結果、本実施形態によれば、スムーズにロボット１を移動させることができる。

また、本実施形態の自律行動ロボット（例えばロボット１）において、第２の方向は、第１の方向より前記音源に向いた方向である。
この構成によって、本実施形態のロボット１は、壁等によって音源からの音響信号を直接収録できない場合であっても残響音を用いて音源定位を行い、音源定位した音源が直接音か反射音かを判別する。この結果、本実施形態によれば、判別結果に応じてロボット１を行動させることができるので、ロボット１を音源の方向へスムーズに移動させることができる。

また、本実施形態の自律行動ロボットにおいて、自律行動ロボットの角速度と加速度とを検出する検出部（例えば第２センサ４０）、を備え、地図情報生成部（例えば第１地図情報生成部５０）は、検出部が検出した検出結果を用いて、推定した自己位置を補正する。

この構成によって、本実施形態のロボット１は、距離センサであるＬＲＦのみを用いて、地図の生成及び自己位置を推定する場合と比較して、ロボット１が移動する床や地面が不整地であるような場合にであっても、距離の推定誤差及び角度の推定誤差を軽減することができる。

また、本実施形態の自律行動ロボットにおいて、音源方向決定部（例えば第２音源定位部７０、反射物検出部８０、音源方向決定部９０）は、音源定位部（例えば第１音源定位部２０）によって定位された音源の方向と、地図情報生成部（例えば第１地図情報生成部５０）によって推定された自己位置を示す自己推定位置を用いて、フレーム毎に自己推定位置と障害物との関係を示す線分を算出し、任意のフレームにおける線分と障害物との交点を算出し、任意のフレームにおける線分上で算出した交点の近傍に２点を算出し、決定した２点からｆフレーム（ただしｆは２以上の整数）の線分までの距離の合計を算出し、算出した結果に基づいて、音響信号が直接音であるか反射音であるかを判別する。

この構成によって、本実施形態のロボット１は、音源定位部によって定位された音源方位と地図情報生成部によって推定された自己位置を示す情報を用いて、推定された音響信号が直接音であるか反射音であるかを判別することができる。本実施形態では、この判別結果に応じて、自律行動ロボットを音源の方向へスムーズに移動させることができる。

また、本実施形態の自律行動ロボットにおいて、前記第１の方向よりも前記第２の方向へ向かって進行しているときの方が移動速度の速い。
この構成によって、本実施形態のロボット１は、収録した音響信号の種類に応じてロボット１の移動速度を変えることができるので、ロボットを音源の方向へスムーズに移動させることができる。

なお、本実施形態において、第１地図情報生成部５０は、第１センサ３０が検出した第１検出情報に基づいて二次元地図情報を生成する例を説明したが、これに限られない。
例えば、第１地図情報生成部５０は、撮像部６０が撮像した画像を取得し、取得した画像を周知の手法を用いて画像認識を行うことで、壁等の障害物を判別して、図４等に示した格子地図情報を生成するようにしてもよい。

また、本実施形態において、行動生成部１１０がロボット１を、障害物を回避させ且つ音源の方向へ移動させるような行動計画を生成する例を説明したが、これに限られない。
例えば、収音部１０が集音した音響信号の特徴量を抽出し、音響信号の種類を推測する。そして、行動生成部１１０は、推測された音響信号が、例えば予め定められている記憶されている警告音などの場合、音源の方向へ移動させるのみではなく、アーム部等も制御して、所定の作業を行わせるような行動計画を生成するようにしてもよい。この場合、駆動部１３０は、左腕１００３（含むハンド部）、右腕１００４（含むハンド部）、及び頭部１００５も駆動するようにしてもよい。

＜第２実施形態＞
図１７は、本実施形態に係る自律行動可能なロボット１Ａの構成を示すブロック図である。図１７に示すように、ロボット１Ａは、収音部１０、第１音源定位部２０、第１センサ３０（距離測定部）、第２センサ４０（検出部）、第１地図情報生成部５０（地図情報生成部）、撮像部６０、第２音源定位部７０（音源方向決定部）、反射物検出部８０（音源方向決定部）、音源方向決定部９０、コストマップ部１００Ａ、行動生成部１１０Ａ、駆動制御部１２０、駆動部１３０、及び第２地図情報生成部１４０（地図情報生成部）を含んで構成される。なお、第１実施形態のロボット１（図１）と同じ機能を有する機能部については、同じ符号を用いて説明を省略する。

撮像部６０は、所定の間隔毎に画像を撮像し、撮像した画像情報を第２地図情報生成部１４０に出力する。撮像部６０は、例えばＲＧＢ−Ｄカメラである。ここで、ＲＧＢ−Ｄカメラとは、ＲＧＢ画像に加えて深度画像を得ることができるカメラである。なお、撮像部６０は、２台のカメラによるステレオカメラであってもよい。

第２地図情報生成部１４０は、三次元自己位置推定部１４１（Ｇｌｏｂａｌ３ＤＳｅｌｆ−Ｌｏｃａｌｉｚａｔｉｏｎ）、及び三次元地図情報生成部１４２（Ｇｌｏｂａｌ３ＤＯｃｃｕｐａｎｃｙＧｒｉｄＭａｐＧｅｎｅｒａｔｉｏｎ）を備えている。

三次元自己位置推定部１４１及び三次元地図情報生成部１４２は、三次元のＳＬＡＭ法（３ＤＳＬＡＭ；例えば、参考文献３〜５参照）を用いて、三次元地図情報の生成と自己位置推定を同時に行う。

参考文献３ A. Huang et al., “Visual Odometry and Mapping for Autonomous Flight Using an RGB-D Camera”, in Proc. of Int. Symposium on Robotics Research (ISRR), 2011

参考文献４ F. Endres et al., “An Evaluation of the RGB-D SLAM System”, in Proc. of the IEEE Int. Conf. on Robotics and Automation (ICRA), pp. 1691-1696, 2012

参考文献５ I. Dryanovski, R. G. Valenti, J. Xiao, “Fast Visual Odometry and Mapping from RGB-D Data”, in Proc. of the IEEE Int. Conf. on Robotics and Automation (ICRA), pp. 2305-2310, 2013

三次元自己位置推定部１４１は、三次元のＳＬＡＭ法によって、撮像部６０から入力された画像を用いて、ロボット座標系における三次元における位置ｐ_ｆ ^ｗ（ｘ_ｆ ^ｗ、ｙ_ｆ ^ｗ、ｚ_ｆ ^ｗ）と方位角（ｒｏｌｌ，ｐｉｔｃｈ，ｙａｗ）を推定し、推定した結果を行動生成部１１０Ａに出力する。なお、本実施形態では、第２地図情報生成部１４０が、三次元自己位置推定部１４１及び三次元地図情報生成部１４２を備える例を説明したが、これに限られない。第２地図情報生成部１４０は、三次元自己位置推定部１４１を備えていなくてもよい。この場合、位置の推定は、二次元自己位置推定部５１が推定した結果のみを用いるようにしてもよい。

三次元地図情報生成部１４２は、撮像部６０から入力された画像を用いて、三次元のＳＬＡＭ法を用いて、図１８のように三次元の地図情報を生成し、生成した三次元地図情報をコストマップ部１００Ａに出力する。図１８は、三次元のＳＬＡＭ法によって生成された三次元地図の一例を説明する図である。ただし、本実施形態において、三次元地図情報生成部１４２が生成する三次元地図情報は、第１実施形態の図５と同様にｆフレーム毎にロボット１Ａから所定の範囲のみである。

コストマップ部１００Ａには、第１地図情報生成部５０から二次元地図情報が入力され、第２地図情報生成部１４０から三次元地図情報が入力される。コストマップ部１００Ａは、入力された二次元地図情報と三次元地図情報とを統合して、図５のような地図情報を生成し、生成した地図情報を行動生成部１１０Ａに出力する。

行動生成部１１０Ａは、第１行動生成部１１１Ａ及び第２行動生成部１１２Ａを含んで構成される。行動生成部１１０Ａには、第１地図情報生成部５０からｆフレーム目の自己位置情報ｐ_ｆ ^ｗが入力され、第２地図情報生成部１４０からｆフレーム目の自己位置情報ｐ_ｆ ^ｗが入力され、音源方向決定部９０から音源定位結果の方位角ψ_ｆ ^ｗが入力され、コストマップ部１００Ａからコストマップの情報が入力される。
行動生成部１１０Ａは、第１地図情報生成部５０で生成された地図情報を主に用いる。そして、行動生成部１１０Ａは、第１地図情報生成部５０で生成された地図情報を用いて自己推定をしているときに、自己推定位置が大きく狂ってしまうキッドナップ問題の症状が発生した場合、第２地図情報生成部１４０から入力されたｆフレーム目の自己位置情報ｐ_ｆ ^ｗを用いて、地図情報や自己位置推定情報をリセットする。

第１行動生成部１１１Ａは、第１地図情報生成部５０から入力された自己位置情報ｐ_ｆ ^ｗ、音源の方位角ψ_ｆ ^ｗ、及びコストマップの情報に基づいて、ロボット１の行動の軌跡である第１の行動計画を生成する。
第２行動生成部１１２Ａは、自己位置情報ｐ_ｆ ^ｗとコストマップの情報とに基づいて、障害物を回避するためのロボット１の第２の行動計画を生成する。
行動生成部１１０Ａは、生成した第１の行動計画と第２の行動計画とを統合して行動計画を生成し、生成した行動計画を示す情報を駆動制御部１２０に出力する。

次に、ロボット１Ａが行う処理手順の一例を説明する。
図１９は、本実施形態に係るロボット１Ａが行う処理のフローチャートである。なお、図１０を用いて説明した第１実施形態と同じ処理については、同じ符号を用いて説明を省略する。

（ステップＳ１〜Ｓ８）ロボット１は、ステップＳ１〜Ｓ８の処理を、第１実施形態の図１０と同様に行い、処理をステップＳ１０１に進める。
（ステップＳ１０１）三次元地図情報生成部１４２は、撮像部６０から入力された画像を用いて、三次元のＳＬＡＭ法を用いて、図１８のように三次元の地図情報を生成し、生成した三次元地図情報をコストマップ部１００Ａに出力する。

（ステップＳ１０２）三次元自己位置推定部１４１は、三次元のＳＬＡＭ法によって、撮像部６０から入力された画像を用いて、ロボット座標系における三次元における位置と傾きを推定し、推定した結果を行動生成部１１０Ａに出力する。
（ステップＳ１０３）コストマップ部１００Ａは、入力された二次元地図情報と三次元地図情報とを統合して地図情報を生成し、生成した地図情報を行動生成部１１０Ａに出力する。コストマップ部１００Ａは、処理をステップＳ１０に進める。

（ステップＳ１０〜Ｓ１５）ロボット１は、ステップＳ１０〜Ｓ１５の処理を、第１実施形態の図１０と同様に行う。
（ステップＳ１６）反射物検出部８０は、Ｆ本の線分から形成される焦点が壁の内側であると判別し、定位された音が直接音であると判定する。反射物検出部８０は、処理をステップＳ１０４に進める。
（ステップＳ１７）反射物検出部８０は、Ｆ本の線分から形成される焦点が壁の外側であると判別し、定位された音が反射音であると判定する。反射物検出部８０は、処理をステップＳ１０４に進める。

（ステップ１０４）行動生成部１１０Ａは、第１地図情報生成部５０で生成された地図情報を主に用いる。そして、行動生成部１１０Ａは、第１地図情報生成部５０で生成された地図情報を用いて自己推定をしているときに、自己推定位置が大きく狂ってしまうキッドナップ問題の症状が発生した場合、第２地図情報生成部１４０から入力されたｆフレーム目の自己位置情報ｐ_ｆ ^ｗを用いて、地図情報や自己位置推定情報をリセットする。次に行動生成部１１０Ａは、第１地図情報生成部５０から入力された位置情報ｐ_ｆ ^ｗと、音源方向決定部９０から入力された音源の方位角ψ_ｆ ^ｗ、及びコストマップ部１００Ａが生成したコストマップの情報に基づいて、ロボット１の行動計画を生成する。行動生成部１１０Ａは、処理をステップＳ１９に進める。
（ステップＳ１９）ロボット１は、ステップＳ１９の処理を、第１実施形態の図１０と同様に行う。
なお、ロボット１は、以上の処理を、例えば所定の時間毎に繰り返して行う。

以上のように、本実施形態の自律行動ロボット（例えばロボット１Ａ）は、画像を撮像する撮像部（例えば撮像部６０）と、生成された二次元地図情報と、撮像された画像に基づく三次元画像を用いた三次元地図情報とを統合する統合部（例えばコストマップ部１００Ａ）と、を備え、行動生成部（例えば行動生成部１１０Ａ）は、統合部によって統合された地図情報を用いて行動計画を生成する。

この構成によって、本実施形態のロボット１は、全ての位置に置いて三次元地図情報を生成するのではなく、所定の領域のみ三次元地図情報を二次元地図情報に統合して三次元地図情報を生成する。この結果、本実施形態のロボット１は、視覚情報（撮像画像）を用いた精度の良い三次元地図情報を、全ての領域で三次元地図情報を生成する場合と比較して低い計算負荷で得ることができる。

なお、第１実施形態と同様に、駆動制御部１２０は、音源Ｓｔが壁の内側（ロボット１側）の場合の方が、音源が壁の外側の場合よりロボット１の移動速度が速くなるように、制御してもよい。

また、本実施形態では、第１地図情報生成部５０及び第２地図情報生成部１４０の２つの地図情報生成部を備える例を説明したが、地図情報生成部が１つでもよい。この場合、１つの地図情報生成部が、二次元地図情報の生成、二次元地図における自己位置の推定、三次元地図情報の生成、及び三次元地図における自己位置の推定を行うようにしてもよい。

また、第１実施形態及び第２実施形態では、自律行動ロボットの例として、床の上を走行するロボット（１または１Ａ）を説明したが、これに限られない。自律行動ロボットは、図１または図１７の構成を備える移動体であればよく、例えば飛行体であってもよい。飛行体は、２以上の数のローターを搭載した回転翼機、例えばマルチコプター、クワドロコプターであってもよい。

また、本実施形態では、障害物の例として壁を用いて説明したが、障害物はこれに限られない。ロボット（１または１Ａ）が収音部１０で収音するときに、音響信号を遮る物体、例えば衝立、屏風、パーテーション、看板等であってもよい。

また、第１実施形態及び第２実施形態では、撮像部６０が撮像した画像を地図情報の生成に用いる例を説明したが、これに限られない。例えば、撮像部６０が撮像した画像を、例えば行動生成部（１１０、または１１０Ａ）が周知の手法を用いて画像認識することで、音源の種類を推定するようにしてもよい。ここで、音源の種類とは、例えば、人間、スピーカ、ロボット、警告音を報知している装置等である。このように、音源の種類を推定する場合、行動生成部（１１０、または１１０Ａ）は、推定された音源の種類に応じて、行動計画を生成するようにしてもよい。例えば、警告音を報知している装置であると推定された場合、行動生成部（１１０、または１１０Ａ）は、装置に表示部がある場合は、装置に近づき、表示部の画像を撮像部６０で撮像するようにしてもよい。そして、行動生成部（１１０、または１１０Ａ）は、行動生成部（１１０、または１１０Ａ）は、撮像した画像を、生成した三次元地図情報、自己位置情報、音源の方位等の情報を、不図示の通信装置を用いて、不図示の管理センター等へ送信するようにしてもよい。

また、ロボット（１、または１Ａ）は、音源や移動中に存在する物体に、物体を識別できる識別画像が含まれている場合、その画像を含む画像を撮像部６０で撮像し、撮像した画像を周知の手法で画像認識するようにしてもよい。例えば、第２実施形態において、第２地図情報生成部１４０が、画像から識別情報を認識し、認識した結果を地図情報に埋め込むようにしてもよい。

また、第１実施形態及び第２実施形態では、二次元地図情報の生成と自己位置推定をＨｅｃｔｏｒＳＬＡＭ法を用いて生成、推定する例を説明したが、他の周知の手法を用いて二次元地図情報の生成と自己位置推定を行うようにしてもよい。また、地図情報生成と自己位置推定は、それぞれ異なる手法を用いてもよい。

また、第１実施形態及び第２実施形態では、反射物検出部８０が第１地図情報生成部５０によって生成された二次元地図情報を用いる例を説明したが、これに限られない。例えば、コストマップ部１００（または１００Ａ）が統合した三次元地図情報における二次元地図情報を用いるようにしてもよい。

以上のように、第１実施形態及び第２実施形態では、三次元ＳＬＡＭを直接行わず、高速な二次元ＳＬＡＭによって二次元地図情報を生成し、この二次元地図情報に撮像部６０によって撮像された画像を統合することで、ロボット１の行動計画を生成する上で必要な範囲で三次元地図情報を生成するようにした。この結果、本実施形態によれば、三次元地図情報を実時間で取得することができる。
また、本実施形態では、第１センサ３０を用いて推定した自己位置情報を、第２センサ４０が検出した第２検出情報を用いて補正するようにしたので、不整地であっても角度及び距離に関して、推測誤差を軽減することができる。
また本実施形態では、音源定位させた音響信号が障害物の向こう側にあるのか、ロボット側にあるのかを判別するため、上述したようにＦフレーム分合計した２つの値の関係に基づいて判別するようにした。この結果、従来技術と比較して、反射音であるか直接音であるかを判別するための演算負荷を軽減することができる。

なお、本発明におけるロボット１（または１Ａ）の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源の方向の推定、障害物の推定、直接音か反射音かの判別、地図情報の生成等の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１、１Ａ…ロボット、１０…収音部、２０…第１音源定位部、３０…第１センサ、４０…第２センサ、５０…第１地図情報生成部、５１…二次元自己位置推定部、５２…二次元地図情報生成部、５３…補正部、６０…撮像部、７０…第２音源定位部、８０…反射物検出部、９０…音源方向決定部、１００、１００Ａ…コストマップ部、１１０、１１０Ａ…行動生成部、１１１、１１１Ａ…第１行動生成部、１１２、１１２Ａ…第２行動生成部、１２０…駆動制御部、１３０…駆動部、１４０…第２地図情報生成部、１４１…三次元自己位置推定部、１４２…三次元地図情報生成部

Claims

音響信号を収録する収音部と、
前記収録された前記音響信号を用いて前記音響信号に対する音源の方向を推定する音源定位部と、
所定の範囲に対して距離に関する測定を行う距離測定部と、
前記距離の情報を用いて、二次元地図情報を生成かつ自律行動ロボットの自己位置を推定する地図情報生成部と、
前記二次元地図情報と、前記推定された自己位置の情報と、前記推定された音源方向とに基づいて、前記音響信号が反射物による反射音であるか前記音源からの直接音であるかを判別することで、前記音源の方向を推定し直す音源方向決定部と、
前記二次元地図情報と、前記音源方向決定部によって推定された音源の方向とに基づいて、前記音響信号が反射音であると判別した場合、第１の方向へ移動する行動計画を生成し、前記音響信号が直接音であると判別した場合、前記第１の方向とは異なる第２の方向へ移動する行動計画を生成する行動生成部と、
前記行動計画に応じて前記自律行動ロボットを制御する制御部と、
を備える自律行動ロボット。
前記第２の方向は、前記第１の方向より前記音源に向いた方向である請求項１に記載の自律行動ロボット。
前記自律行動ロボットの角速度と加速度とを検出する検出部、を備え、
前記地図情報生成部は、前記検出部が検出した検出結果を用いて、前記推定した自己位置を補正する請求項１または請求項２に記載の自律行動ロボット。
画像を撮像する撮像部と、
前記生成された二次元地図情報と、前記撮像された画像に基づく三次元画像を用いた三次元地図情報とを統合する統合部と、を備え、
前記行動生成部は、前記統合部によって統合された地図情報を用いて行動計画を生成する請求項１から請求項３のいずれか１項に記載の自律行動ロボット。
前記音源方向決定部は、
前記音源定位部によって定位された前記音源の方向と、前記地図情報生成部によって推定された自己位置を示す自己推定位置を用いて、フレーム毎に前記自己推定位置と障害物との関係を示す線分を算出し、任意のフレームにおける前記線分と前記障害物との交点を算出し、前記任意のフレームにおける前記線分上で前記算出した交点の近傍に２点を算出し、決定した前記２点からｆフレーム（ただしｆは２以上の整数）の前記線分までの距離の合計を算出し、前記算出した結果に基づいて、前記音響信号が直接音であるか反射音であるかを判別する請求項１から請求項４のいずれか１項に記載の自律行動ロボット。
前記音源方向決定部は、
前記音源定位部によって定位された前記音源の方向と、前記地図情報生成部によって推定された自己位置を示す情報を用いて、フレーム毎に前記自己推定位置と障害物との関係を示す前記線分Г_ｆ ^ｗを、次式を用いて算出する請求項５に記載の自律行動ロボット。
（なお、ψ_ｆ ^ｒはｆフレーム目のロボット座標系Ｃ^ｒのｘ軸に対するｆフレーム目の音響信号への方位角、θ_ｆ ^ｗはロボット座標系Ｃ^ｒのｘ軸から世界座標系Ｃ^ｗのｘ軸への方位角、ｙ^ｗは世界座標系におけるｙ座標、ｘ^ｗは世界座標系におけるｘ座標、ｙ_ｆ ^ｗはｆフレーム目における世界座標系におけるｙ座標、ｘ_ｆ ^ｗはｆフレーム目における世界座標系におけるｘ座標である）
前記音源方向決定部は、
前記任意のフレームにおける前記線分上で前記算出した交点の近傍に、２点ｐ_＋ ^〜Ｗとｐ₋ ^〜Ｗとを、次式を用いて算出する請求項５または請求項６に記載の自律行動ロボット。
（なお、ｐ^〜Ｗは前記任意のフレームにおける前記線分と前記障害物との交点、ｐ_１ ^Ｗは世界座標系Ｃ^ｗにおける１フレーム目の前記自律行動ロボットの座標、αは予め定められている値である）
前記音源方向決定部は、
算出した前記２点からｆフレームの前記線分までの距離の合計ｄ_＋ ^〜Ｗとｄ₋ ^〜Ｗとを、次式を用いて算出し、
前記算出したｄ₋ ^〜ｗがｄ_＋ ^〜ｗ未満である場合、前記音響信号が直接音であると判別し、前記算出したｄ₋ ^〜ｗがｄ_＋ ^〜ｗ未満以外である場合、前記音響信号が反射音であると判別する請求項５から請求項７のいずれか１項に記載の自律行動ロボット。
前記第１の方向よりも前記第２の方向へ向かって進行しているときの方が移動速度の速い請求項１から請求項８のいずれか１項に記載の自律行動ロボット。
収音部が、音響信号を収録する収音手順と、
音源定位部が、前記収音手順によって収録された前記音響信号を用いて前記音響信号に対する音源の方向を推定する音源定位手順と、
距離測定部が、所定の範囲に対して距離に関する測定を行う距離測定手順と、
地図情報生成部が、前記距離測定手順によって測定された前記距離の情報を用いて、二次元地図情報を生成かつ自律行動ロボットの自己位置を推定する地図情報生成手順と、
音源方向決定部が、前記二次元地図情報と、前記推定された自己位置の情報と、前記推定された音源の方向とに基づいて、前記音響信号が反射物による反射音であるか前記音源からの直接音であるかを判別することで、前記音源の方向を推定し直す音源方向決定手順と、
行動生成部が、前記二次元地図情報と、前記音源方向決定部によって推定された音源の方向とに基づいて、前記音響信号が反射音であると判別した場合、第１の方向へ移動する行動計画を生成し、前記音響信号が直接音であると判別した場合、前記第１の方向とは異なる第２の方向へ移動する行動計画を生成する行動生成手順と、
制御部は、行動生成手順によって生成された前記行動計画に応じて前記自律行動ロボットを制御する制御手順と、
を含む自律行動ロボットの制御方法。