JP2020149095A

JP2020149095A - 倒立振子型ロボット

Info

Publication number: JP2020149095A
Application number: JP2019043577A
Authority: JP
Inventors: 長谷川　雄二; Yuji Hasegawa; 雄二長谷川; 燦心松▲崎▼; Sango Matsuzaki
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2020-09-17
Anticipated expiration: 2039-03-11
Also published as: US11467592B2; US20200293051A1; CN111673729B; JP7250571B2; CN111673729A

Abstract

【課題】移動装置が交通参加者などの複数の移動物体との干渉を回避しながら目的地点まで円滑に移動しうるように、ロボットの経路を決定する方法を提供する。【解決手段】複数の第２歩行者Ｍ２が所定の移動パターンにしたがって移動する環境において、第１歩行者Ｍ１が目的地点Ｐｏに向かって移動した際の複数の移動経路Ｒｗが認識される。当該複数の移動経路Ｒｗのそれぞれにしたがって移動した際の仮想ロボットの周囲の視覚的環境を表わす環境画像の時系列から構成される複合環境画像と、仮想ロボットの移動方向を表わす移動方向指令とが組み合わせられたデータが学習用データとして生成される。複合環境画像が含まれる環境画像データを入力とする一方で移動方向指令を出力とするＣＮＮ（行動モデル）のモデルパラメータが、学習用データを用いて学習され、学習済みＣＮＮが用いられてロボット２の移動速度指令ｖ_ｃｍｄが決定される。【選択図】図４

Description

本発明は、自律移動型のロボットの経路決定方法に関する。

従来、自律移動型のロボットの経路決定方法として、特許文献１および特許文献２に記載されたものが知られている。特許文献１の経路決定方法では、ロボットが歩行者などの交通参加者の速度に基づいて、交通参加者に干渉する可能性があると予想される干渉可能性時間が算出され、さらに、交通参加者が所定時間後に移動すると想定される仮想障害物領域が算出される。そして、干渉可能性時間および仮想障害物領域に基づいて、ロボットの経路が決定される。それにより、ロボットと交通参加者との干渉が回避される。

また、特許文献２の経路決定方法では、ロボットの現在位置を計算し、外界センサが測定した距離データに基づいて、障害物地図を生成するとともに、記憶部から地図情報を読み込む。次いで、障害物地図および地図情報を参照して、障害物が地図情報に記憶された経路上に存在するか否かを判定し、障害物が経路上に存在する場合には、ロボットの経路をＡ＊探索アルゴリズムにより実行する。具体的には、現在位置情報、障害物地図および地図情報に基づいて、グリッドマップ上のロボットを取り囲む多数のグリッドにおける障害物の存在確率を算出し、障害物の存在確率が最も低いグリッドが経路として決定される。

特開２００９−１１０４９５号公報特開２０１０−１９１５０２号公報

上記特許文献１の経路決定方法によれば、交通参加者の干渉可能性時間および仮想障害物領域を用いている関係上、歩行者などの実際の交通参加者が予測不可能な軌跡で移動したときには、ロボットと交通参加者の干渉状態が頻発してしまう。その結果、ロボットの停止状態が頻発してしまい、商品性が低いという問題がある。特に、人混みが存在する交通環境下では、問題が顕著になる。

また、特許文献２の経路決定方法の場合にも、歩行者などの実際の交通参加者が予測不可能な軌跡で移動したときには、特許文献１と同じ問題が発生する。特に、人混みが存在する交通環境下では、障害物の存在確率が最も低いグリッドが見つからない状態となることで、ロボットの停止時間が長くなってしまう。

そこで、本発明は、移動装置が交通参加者などの複数の移動物体との干渉を回避しながら目的地点まで円滑に移動しうるように、ロボットの経路を決定する方法を提供することを目的とする。

本発明は、移動装置が、当該移動装置の周辺に複数の移動物体が存在する状況で目的地点まで目標移動経路を決定する方法に関する。

本発明の経路決定方法は、複数の第２移動物体が、異なる複数の移動パターンのそれぞれにしたがって移動する状況において、第１移動物体が前記複数の第２移動物体のそれぞれとの干渉を回避しながら前記目的地点まで移動した際の前記第１移動物体の複数の移動経路を認識し、前記移動装置が前記複数の移動経路のそれぞれにしたがって移動した際の、当該移動装置の環境を表わす環境画像の時系列が複合されることにより生成される複合環境画像を含む環境画像データと、当該移動装置の行動を表わす行動パラメータとが関連付けられた複数の学習用データを生成し、前記環境画像データを入力とする一方で前記行動パラメータを出力とする行動モデルのモデルパラメータを、前記複数の学習用データを用いて指定学習方法にしたがって学習することにより、学習済みの当該行動モデルである学習済みモデルを生成し、前記学習済みモデルを用いて、前記移動装置の前記目標移動経路を決定することを特徴とする。

本発明の経路決定方法によれば、複数の第２移動物体が複数の移動パターンのそれぞれにしたがって移動する環境において、第１移動物体が目的地点に向かって当該複数の第２移動物体との干渉を回避しながら移動した際の複数の移動経路が認識される。さらに、仮想空間において仮想移動装置が当該複数の移動経路のそれぞれにしたがって移動したときの、仮想移動装置の周囲の視覚的環境を表わす環境画像の時系列から構成される複合環境画像と、仮想移動装置の移動方向を表わす移動方向指令とが組み合わせられたデータが学習用データとして生成される。複合環境画像が含まれる環境画像データを入力とする一方で移動方向指令を出力とする行動モデルのモデルパラメータが、学習用データを用いて学習されることにより、学習済みモデルが生成される。そして、学習済みモデルを用いて、移動装置の移動速度指令が決定される。

このため、学習モデルのモデルパラメータが、第１移動物体の実際の移動経路および当該第１移動物体に対する第２移動物体の相対的な移動態様を反映させながら、精度よく学習されうる。その結果、複数の移動物体が移動装置の周囲に存在する状況においても、移動装置が複数の移動物体との干渉を回避しながら目的地点まで円滑に移動するように、当該移動装置の目標移動経路が決定されうる。

本発明の経路決定方法において、前記環境画像として、前記移動装置の周辺に存在する複数の移動物体のそれぞれを表わす複数の移動物体画像領域が含まれている画像が認識され、前記複数の環境画像のそれぞれに含まれている前記複数の移動物体画像領域のそれぞれが重ね合わせられている前記複合環境画像が生成されることが好ましい。

当該経路決定方法によれば、複合環境画像には、移動装置の周辺に存在する複数の移動物体のそれぞれが表わされる複数の移動物体画像領域が含まれており、当該移動物体画像領の時系列が重ね合わせられている。これにより、移動物体の時系列的な移動態様が簡略的に表されている環境画像データを含む学習用データが生成されうるので、行動モデルの構造の単純化、ひいてはロボットの経路決定時の演算処理量の低減が図られ、その結果、ロボットの経路が迅速かつ精度よく決定されうる。

本発明の経路決定方法において、前記複数の環境画像のそれぞれの時系列の順の先後に応じて、前記複数の移動物体画像領域のそれぞれの一部または全部の色相、彩度もしくは明度またはこれらの任意の組み合わせが差別化されるように、前記複数の移動物体画像領域が重ね合わせられている前記複合環境画像が生成されることが好ましい。

当該経路決定方法によれば、移動物体の時系列的な移動態様が、時系列の先後に応じて色の３要素のうち少なくとも１つの要素によって差別化されるように簡略的に表されている環境画像データを含む学習用データが生成されうるので、行動モデルの構造の単純化、ひいてはロボットの経路決定時の演算処理量の低減が図られ、その結果、ロボットの経路が迅速かつ精度よく決定されうる。

本発明の経路決定方法において、時系列的に後の前記移動物体画像領域が時系列的に前の前記移動物体画像領域の少なくとも一部を隠すように重ね合わせられている前記複合環境画像が生成されることが好ましい。

当該経路決定方法によれば、移動物体の時系列的な移動態様が、時系列の先後に応じて重なり合わせの上下関係により差別化されるように簡略的に表されている環境画像データを含む学習用データが生成されうるので、行動モデルの構造の単純化、ひいてはロボットの経路決定時の演算処理量の低減が図られ、その結果、ロボットの経路が迅速かつ精度よく決定されうる。

本発明の経路決定方法において、前記環境画像データは、前記複合環境画像に加えて、前記移動装置の速度の高低を表わす速度画像および前記目的地点の方向を表わす方向画像のうち少なくとも一方をさらに含むことが好ましい。

当該経路決定方法によれば、環境画像データには、複合環境画像に加えて、移動装置の速度の高低を表わす速度画像および目的地点の方向を表わす方向画像のうち少なくとも一方がさらに含まれている。このため、行動モデルの構造の単純化、ひいてはロボットの経路決定時の演算処理量の低減が図られ、その結果、ロボットの経路が迅速かつ精度よく決定されうる。

本発明の経路決定方法において、前記複数の学習用データは、仮想空間において仮想の前記ロボットが前記複数の移動経路のそれぞれにしたがって移動した際の、前記環境画像データおよび当該環境画像データに関連付けられた前記行動パラメータにより構成されていることが好ましい。

当該経路決定方法によれば、仮想移動装置を仮想空間において複数の移動経路のそれぞれにしたがって移動させることで、複数の学習用データが生成される。これにより、移動装置（実機）を実際に準備する必要がなくなる分、学習用データ、ひいては当該学習用データを記憶保持するデータベースが容易に生成されうる。

本発明の一実施形態に係る経路決定システムを適用したロボットの外観図。ロボットによる案内システムの構成図。ロボットの電気的な構成を示すブロック図。学習装置の構成を示すブロック図。第１歩行者の移動経路を取得するときの斜視図。図５の移動経路の取得結果の例示図。第２歩行者の配置の第１パターンに関する説明図。第２歩行者の配置の第２パターンに関する説明図。第２歩行者の配置の第３パターンに関する説明図。第２歩行者の配置の第４パターンに関する説明図。第２歩行者の配置の第５パターンに関する説明図。第２歩行者の配置の第６パターンに関する説明図。第２歩行者の配置の第７パターンに関する説明図。シミュレーション環境下の仮想ロボット視点からの画像に関する説明図。図１４の画像から生成した環境画像としてのマスク画像に関する説明図。複合環境画像に関する説明図。経路決定システムの構成を表わすブロック図である。移動制御処理を示すフローチャートである。

（経路決定システムの構成）
図１に示されている本発明の一実施形態としての経路決定システム１は、倒立振子型のロボット２（「移動装置」に相当する。）に適用されたものであり、後述する手法によって、交通参加者の存在確率が高い条件下で、ロボット２の経路を決定するものである。

ロボット２は、自律移動型のものであり、図２に示す案内システム３で用いられる。案内システム３は、ショッピングモールや空港などにおいて、ロボット２が利用者を先導しながらその目的地点（例えば店舗や搭乗ゲート）まで案内する形式のものである。

図２に示されているように、案内システム３は、所定の領域内を自律移動する複数のロボット２と、複数のロボット２とは別体に設けられ、利用者の目的地点が入力される入力装置４と、ロボット２および入力装置４と相互に無線通信可能なサーバ５とを備えている。

入力装置４は、例えば、マウス、キーボードおよびタッチパネルのうち少なくとも１つにより構成されている。利用者（または操作者）により入力装置４を通じて目的地点が入力されたことに応じて、当該目的地点を表わす目的地点データがサーバ５に送信される。サーバ５により、目的地点データが受信されると、サーバ５が有する記憶装置に格納されている地図データに基づき、当該目的地点データにより表わされる目的地点、または、現在地点から目的地点までの中間地点が指定地点Ｐｏｂｊに設定される。サーバ５から指定地点Ｐｏｂｊを表わす指定地点データがロボット２に送信される。

（ロボットの構成）
ロボット２が有する制御装置１０により、サーバ５から送信された指定地点データが無線通信装置１４を介して受信された場合、当該指定地点データにより表わされる指定地点Ｐｏｂｊが読み込まれ、当該指定地点Ｐｏｂｊまでの経路が決定される。

次に、ロボット２の機械的な構成について説明する。図１に示されているように、ロボット２は、本体２０と、本体２０の下部に設けられた移動機構２１などを備えており、移動機構２１によって路面上を全方位に移動可能に構成されている。

移動機構２１は、例えば、特開２０１７−５６７６３号公報に開示されている移動機構と同様に構成されている。移動機構２１は、円環状の芯体２２、複数のローラ２３、第１アクチュエータ２４および第２アクチュエータ２５を備えている（図３参照）。複数のローラ２３は、芯体２２の円周方向（軸心まわり方向）に等角度間隔で並ぶように、芯体２２に外挿されており、複数のローラ２３の各々は、芯体２２の軸心まわりに、芯体２２と一体に回転可能になっている。また、各ローラ２３は、各ローラ２３の配置位置における芯体２２の横断面の中心軸（芯体２２の軸心を中心とする円周の接線方向の軸）まわりに回転可能になっている。

さらに、第１アクチュエータ２４は、電動機で構成されており、後述する制御入力信号が制御装置１０から入力されたときに、駆動機構（図示略）を介して、芯体２２をその軸心まわりに回転駆動する。

第２アクチュエータ２５も、第１アクチュエータ２４と同様に、電動機で構成されており、制御入力信号が制御装置１０から入力されたときに、図示しない駆動機構を介して、ローラ２３をその軸心まわりに回転駆動する。それにより、本体２０は、路面上を全方位に移動するように、第１アクチュエータ２４および第２アクチュエータ２５によって駆動される。以上の構成により、ロボット２は、路面上を全方位に移動可能になっている。

次に、ロボット２の電気的な構成について説明する。図３に示されているように、ロボット２は、制御装置１０、カメラ１１、ＬＩＤＡＲ１２、加速度センサ１３および無線通信装置１４をさらに備えている。

制御装置１０は、ＣＰＵ、シングルコアプロセッサまたは／およびマルチコアプロセッサなどの演算処理装置、ＲＡＭ、ＲＯＭまたは／およびＥ２ＰＲＯＭなどのメモリ（記憶装置）、ならびに、Ｉ／Ｏインターフェースおよび各種の電気回路などからなるマイクロコンピュータにより構成されている。Ｅ２ＰＲＯＭ内には、ロボット２が案内する場所の地図データおよびＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）にしたがった演算処理を実行するためのソフトウェアが記憶されている。ＣＮＮは、学習装置３０（後述する）によって、ＣＮＮのモデルパラメータすなわち結合層の重みおよびバイアス項が十分に学習された後のＣＮＮである。

カメラ１１（撮像装置）は、ロボット２の周辺環境を撮像し、それを表わす画像信号を制御装置１０に出力する。ＬＩＤＡＲ１２（測距センサ）は、レーザー光を用いて、周辺環境内の対象物までの距離などを計測し、当該距離を表わす計測信号を制御装置１０に出力する。さらに、加速度センサ１３は、ロボット２の加速度を検出して、当該加速度を表わす検出信号を制御装置１０に出力する。

制御装置１０は、以上のカメラ１１の画像信号およびＬＩＤＡＲ１２の計測信号を用いて、ａｍｌｃ（ａｄａｐｔｉｖｅＭｏｎｔｅＣａｒｌｏｌｏｃａｌｉｚａｔｉｏｎ）手法により、ロボット２の自己位置を推定する。また、制御装置１０は、ＬＩＤＡＲ１２の計測信号および加速度センサ１３のそれぞれの検出信号に基づいて、ロボット２のｘ速度成分ｖ_ｘおよびｙ速度成分ｖ_ｙを算出する。

さらに、制御装置１０には、無線通信装置１４が接続されており、制御装置１０は、無線通信装置１４を介してサーバ５との間で無線通信を実行する。

（経路決定方法）
次に、本実施形態の経路決定システム１の構成および経路決定方法の原理について説明する。図４に示されている学習装置３０は、ＣＮＮのモデルパラメータ（結合層の重みおよびバイアス項）（後述する）を学習するためのものであり、ＬＩＤＡＲ３１、移動経路取得要素３２、学習用データ取得要素３３およびＣＮＮ学習要素３４を備えている。これらの要素３２〜３４は、演算処理装置および記憶装置などによって構成されている。

まず、一般的な歩行者の移動経路を学習するために、図５に示されているように、基準歩行者としての第１歩行者Ｍ１（「第１移動物体」に相当する。）が移動開始地点Ｐｓ（図６参照）から目的地点Ｐｏ（図６参照）まで移動（または歩行）する場合において、移動開始時に、その進行方向に複数の第２歩行者Ｍ２（「第２移動物体」に相当する。）が不規則な配置で存在する人混みの状況が設定される。

次いで、ＬＩＤＡＲ３１が用いられ、第１歩行者Ｍ１が移動開始地点Ｐｓから目的地点Ｐｏまで実際に移動したときの実空間位置の時系列（実空間位置軌道）と、複数の第２歩行者Ｍ２の実空間位置の時系列と、が計測され、当該計測結果が移動経路取得要素３２に出力される。

そして、移動経路取得要素３２では、第１歩行者Ｍ１および複数の第２歩行者Ｍ２のそれぞれの実空間位置の時系列の計測結果に基づき、例えば、図６に示されているような第１歩行者Ｍ１の移動開始地点Ｐｓから目的地点Ｐｏまでの実空間における移動経路Ｒｗが認識されて記憶装置に記憶される。図６に示されているように、第１歩行者Ｍ１の移動経路Ｒｗは、２次元空間の離散的な複数の座標値（ｘ、ｙ）または連続関数ｙ＝ｆ（ｘ）により定義される。

例えば、第１歩行者Ｍ１の移動開始地点Ｐｓの座標値が（０、α）（０＜α）に定義され、第１歩行者Ｍ１の移動開始方向が＋ｙ方向として定義される。第１歩行者Ｍ１の移動開始地点Ｐｓから目的地点Ｐｏに到達するまでの期間における第２歩行者Ｍ２の実空間位置の時系列または移動経路が、第１歩行者Ｍ１の移動経路Ｒｗと関連付けられて移動経路取得要素３２により取得される。

移動経路取得要素３２により、第２歩行者Ｍ２が図７〜図１３のそれぞれに示されている第１〜第７移動パターンのそれぞれにしたがって移動した場合における第１歩行者Ｍ１の移動経路Ｒｗが取得される。

第１移動パターンは、図７に示されているように、１０人の第２歩行者Ｍ２が、第１歩行者Ｍ１の前側（ｘ座標値が大きい位置）から後方または−ｘ方向に移動するパターンである。

第２移動パターンは、図８に示されているように、５人の第２歩行者Ｍ２が、第１歩行者Ｍ１の前側から後方または−ｘ方向に移動するパターンである。

第３移動パターンは、図９に示されているように、１０人の第２歩行者Ｍ２が、第１歩行者Ｍ１の右側（ｙ座標値が小さい位置）から左方向または＋ｙ方向に移動するパターンである。

第４移動パターンは、図１０に示されているように、５人の第２歩行者Ｍ２が、第１歩行者Ｍ１の右側から左方向または＋ｙ方向に移動するパターンである。

第５移動パターンは、図１１に示されているように、１０人の第２歩行者Ｍ２が、第１歩行者Ｍ１の左側（ｙ座標値が大きい位置）から右方向または−ｙ方向に移動するパターンである。

第６移動パターンは、図１２に示されているように、５人の第２歩行者Ｍ２が、第１歩行者Ｍ１の左側から右方向または−ｙ方向に移動するパターンである。

第７移動パターンは、図１３に示されているように、５人の第２歩行者Ｍ２が、第１歩行者Ｍ１の右側から左方向（または＋ｙ方向）に移動する一方、その他の５人の第２歩行者Ｍ２が第１歩行者Ｍ１の左側から右方向（または−ｙ方向）に移動するパターンである。

移動経路取得要素３２により、第１歩行者Ｍ１の移動経路Ｒｗが第２歩行者Ｍ２の位置と関連付けられた状態で取得され、それらの取得結果が学習用データ取得要素３３に出力される。

学習用データ取得要素３３により、移動経路Ｒｗおよびこれに関連付けられた第２歩行者Ｍ２の位置の取得結果に基づき、以下に述べる手法にしたがって、学習用データが取得または生成される。まず、ｇａｚｅｂｏシミュレータなどのシミュレーション環境下で、前述した第２歩行者Ｍ２に相当する仮想第２歩行者Ｍ２’（図１４参照）と、ロボット２に相当する仮想ロボット（図示せず）と、が生成または顕在化される。

次いで、仮想ロボットを第１歩行者Ｍ１の移動経路Ｒｗに対応する移動経路にしたがって仮想空間で移動させながら、仮想第２歩行者Ｍ２’を移動経路取得要素３２で取得された第２歩行者Ｍ２の実空間位置軌道に対応する仮想空間位置軌道にしたがって仮想空間で移動させる。

仮想ロボットの移動中において、当該仮想ロボットの周囲（例えば、前方）の視覚的環境を表わす複数の画像が所定周期で生成される。生成される画像は、実ロボットに搭載されている入力装置の位置、姿勢、画角およびサンプリング周期と一致させるのが望ましい。当該複数の画像に基づいて、ＳＳＤ（ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ）手法にしたがって、マスク画像が「環境画像」として逐次的に生成される。

例えば、図１４に示されているように、シミュレーション環境下で、３人の仮想第２歩行者Ｍ２１’、Ｍ２２’およびＭ２３’が仮想ロボットの前方に位置している場合、ＳＳＤ手法にしたがって、３人の仮想第２歩行者Ｍ２１’、Ｍ２２’およびＭ２３’のそれぞれに対応する画像座標系における３つの矩形状の移動物体画像領域が探索されることにより、図１５に示されている環境画像が生成される。移動物体画像領域の形状は、矩形状のほか、円形状、楕円形状、三角形状、台形状もしくは多角形状またはこれらが組み合わせられた形状であってもよい。

図１５に示されているように、環境画像では、３人の仮想第２歩行者Ｍ２１’、Ｍ２２’およびＭ２３’のそれぞれの占有画像領域（移動物体画像領域）が３つの矩形状の移動物体画像領域Ｓ（Ｍ２１）、Ｓ（Ｍ２２）およびＳ（Ｍ２３）のそれぞれとして表示される。

環境画像はサンプリング周期ごとに逐次的に取得されて記憶装置に累積的に記憶される。そして、今回以前の複数回にわたる環境画像が複合されることにより、複合環境画像（複合マスク画像）、さらには当該複合環境画像を表わす環境画像データが生成される。例えば、今回以前の計３回にわたる時系列的な環境画像、すなわち、今回時点ｔ＝ｋ（「ｋ」はサンプリング周期を表わす指数である。）ならびに前回時点ｔ＝ｋ−１および前々回時点ｔ＝ｋ−２のそれぞれにおける環境画像が重ね合わせられることにより、図１６に示されているような複合環境画像が生成される。

図１６に示されている複合環境画像には、仮想第２歩行者Ｍ２ｉ’（ｉ＝１、２、３）に対応する、今回以前の３回にわたる移動物体画像領域Ｓ（Ｍ２ｉ）（ｔ＝ｋ−２）、Ｓ（Ｍ２ｉ）（ｔ＝ｋ−１）およびＳ（Ｍ２ｉ）（ｔ＝ｋ）が含まれている。本実施形態では、同一の仮想第２歩行者Ｍ２ｉ’に関して、前回の環境画像における矩形状領域の上に、今回の環境画像における矩形状領域が重ね合わせられる、というように、環境画像が時系列的に順に重ね合わせられている。このため、図１６においては、前々回の移動物体画像領域Ｓ（Ｍ２ｉ）（ｔ＝ｋ−２）の一部が前回の移動物体画像領域Ｓ（Ｍ２ｉ）（ｔ＝ｋ−１）の陰に隠れ、前回の移動物体画像領域Ｓ（Ｍ２ｉ）（ｔ＝ｋ−１）の一部が今回の移動物体画像領域Ｓ（Ｍ２ｉ）（ｔ＝ｋ）の陰に隠れている。

図１６に示されている複合環境画像において、過去にいくほど移動物体画像領域Ｓ（Ｍ２ｉ）の全体的な明度が低くなっている。移動物体画像領域Ｓ（Ｍ２ｉ）の明度に代えてまたは加えて、彩度および色相のうち少なくとも一方が時系列的に変化するように環境画像データが生成されてもよく、移動物体画像領域Ｓ（Ｍ２ｉ）の全体ではなく境界部分などの一部のみの色相、彩度および明度のうち少なくとも１つが時系列的に変化するように環境画像データが生成されてもよい。

複合環境画像の上端部には、今回の目的地点Ｐｏ（ｔ＝ｋ）が矩形の白色ボックス等の所定形状および所定色彩を有する図形を表わす画像領域（または画素）および複合環境画像における当該画像領域の位置として表現されている。目的地点Ｐｏの位置は、仮想ロボットの現時点の自己位置を基準としたときの前方の中央に相当する方位を基準方位角（＝０ｄｅｇ）として、−９０ｄｅｇ〜９０ｄｅｇの方位角範囲の値を表わす、複合環境画像の横方向の画素位置により定義されている。目的地点Ｐｏの位置は、複合環境画像の縦方向の画素位置または画像座標値により定義されていてもよい。

さらに、複合環境画像の下端には、仮想ロボットの今回の仮想ｘ速度成分ｖ_ｘ’（ｔ＝ｋ）および仮想ｙ速度成分ｖ_ｙ’（ｔ＝ｋ）が、２つの矩形の白色ボックス等の所定形状および所定色彩を有する図形を表わす画像領域（または画素）および複合環境画像における当該画像領域の位置として表現されている。仮想ｘ速度成分ｖ_ｘ’は、仮想ロボットの仮想空間における速度のｘ成分であり、仮想ロボットの最小移動速度ｖ_ｍｉｎ（例えば０）から最大移動速度ｖ_ｍａｘまでの範囲の値を表わす、複合環境画像の横方向の画素位置により定義されている。同様に、仮想ｙ速度成分ｖ_ｙ’は、仮想ロボットの仮想空間における速度のｙ成分であり、仮想ロボットの最小移動速度ｖ_ｍｉｎ（例えば０）から最大移動速度ｖ_ｍａｘまでの範囲の値を表わす、複合環境画像の横方向の画素位置により定義されている。仮想ｘ速度成分ｖ_ｘ’および仮想ｙ速度成分ｖ_ｙ’のうち少なくとも一方が、複合環境画像の縦方向の画素位置または画像座標値により定義されていてもよい。

学習用データ取得要素３３では、サンプリング時の仮想ロボットの移動方向指令が、「左方向」、「中央方向（前方向）」および「右方向」の３つの方向を要素とするベクトルとして設定される。例えば、移動方向指令が仮想ロボットを前方に移動させる指令である場合、「中央方向」に対応する要素が「１」に設定され、「左方向」および「右方向」のそれぞれに対応する要素が「０」に設定される。

移動方向指令が仮想ロボットを右方向（前方向に対して右側に第１所定方位角θ₁以上の方位角の方向）に移動させる指令である場合、「右方向」に対応する要素が「１」に設定され、それ以外の方向に対応する要素が「０」に設定される。同様に、移動方向指令が仮想ロボットを左方向（前方向に対して左側に第２所定方位角θ₂以上の方位角の方向）に移動させる指令である場合、「左方向」に対応する要素が「１」に設定され、それ以外の方向に対応する要素が「０」に設定される。第１所定方位角θ₁および第２所定方位角θ₂は同一であっても異なっていてもよい。

次いで、学習用データ取得要素３３により、複合環境画像（図１６参照）およびこれに関連付けられた移動方向指令の１組のデータが、学習用データとして所定周期で生成される。そして、所定数の（例えば数千以上）の学習用データが生成されたことに応じて、当該学習用データがＣＮＮ学習要素３４に出力される。学習用データ取得要素３３により、一または複数の学習用データが一の所定周期または複数の所定周期で生成されるたびに、学習用データがＣＮＮ学習要素３４に出力されてもよい。

ＣＮＮ学習要素３４により、入力された学習用データを用いて、ＣＮＮのモデルパラメータの学習が実行される。具体的には、１組の学習用データにおける環境画像がＣＮＮに入力され、当該入力に応じたＣＮＮの出力に対して、移動方向指令が教師データとして用いられる。

ＣＮＮの出力層は３ユニットで構成されている。当該３ユニットのそれぞれからの３つのｓｏｆｔｍａｘ値を要素とする指令（以下「ＣＮＮ出力指令」という）がＣＮＮから出力される。ＣＮＮ出力指令は、移動方向指令と同じ３つの方向（「左方向」、「中央方向」および「右方向」）を要素とする指令で構成されている。

次いで、移動方向指令とＣＮＮ出力指令の損失関数（例えば平均２乗和誤差）が用いられ、勾配法にしたがって、ＣＮＮの結合層の重みおよびバイアス項が決定される。すなわち、ＣＮＮのモデルパラメータの学習演算が実行される。そして、当該学習演算が学習用データの組数分（すなわち数千回分）にわたり実行されることにより、ＣＮＮ学習要素３４におけるＣＮＮのモデルパラメータの学習演算が終了する。学習装置３０では、以上のように、ＣＮＮのモデルパラメータの学習が実行される。

次に、図１７を参照しながら、本実施形態の経路決定システム１などの構成について説明する。経路決定システム１は、以下に述べる手法によって、ロボット２の経路としての移動速度指令ｖ_ｃｍｄを決定（算出）するものであり、移動速度指令ｖ_ｃｍｄは、ロボット２のｘ速度成分ｖ_ｘおよびｙ速度成分ｖ_ｙの目標値である目標ｘ速度成分ｖ_ｘ_ｃｍｄおよび目標ｙ速度成分ｖ_ｙ_ｃｍｄを要素とするものである。

図１７に示されているように、経路決定システム１は、複合環境画像生成要素５０、移動方向決定要素５１、暫定移動速度決定要素５２および移動速度決定要素５３を備えており、これらの要素５０〜５３は、具体的には、制御装置１０によって構成されている。なお、以下に述べる各種の制御処理は所定の制御周期ΔＴで実行されるものとする。

複合環境画像生成要素５０により、カメラ１１からの画像信号およびＬＩＤＡＲ１２からの計測信号が入力されたことに応じて、前述したＳＳＤ手法にしたがって複合環境画像が生成される。当該複合環境画像には、図１６に示されている複合環境画像と同様に、前方の移動物体を表わす矩形状領域の時系列が表示され、仮想ｘ速度成分ｖ_ｘ’、仮想ｙ速度成分ｖ_ｙ’および目的地点Ｐｏに代えて、ロボット２のｘ速度成分ｖ_ｘ、ｙ速度成分ｖ_ｙおよび指定地点Ｐｏｂｊ（図示略）が表示される。

交通参加者の位置およびサイズは、カメラ１１の画像信号およびＬＩＤＡＲ１２の計測信号に基づいて決定される。また、ロボット２のｘ速度成分ｖ_ｘおよびｙ速度成分ｖ_ｙは、ＬＩＤＡＲ１２の計測信号および加速度センサ１３の検出信号に基づいて決定される。さらに、指定地点Ｐｏｂｊは、サーバ５からの目的地点信号によって決定される。以上のように生成された環境画像は、環境画像生成要素５０から移動方向決定要素５１に出力される。

移動方向決定要素５１は、前述したＣＮＮ学習要素３４でモデルパラメータが学習されたＣＮＮ（学習済みモデル）を備えており、ＣＮＮを用いて、ロボット２の移動方向を以下のように決定する。

まず、移動方向決定要素５１では、環境画像生成要素５０からの環境画像がＣＮＮに入力されると、前述したＣＮＮ出力指令がＣＮＮから出力される。次いで、ＣＮＮ出力指令の３つの要素（「左方向」、「中央方向」および「右方向」）のうち、最大値の要素の方向がロボット２の移動方向として決定される。そして、以上のように決定されたロボット２の移動方向は、移動方向決定要素５１から暫定移動速度決定要素５２に出力される。

暫定移動速度決定要素５２では、移動方向決定要素５１からのロボット２の移動方向と、ロボット２のｘ速度成分ｖ_ｘおよびｙ速度成分ｖ_ｙとに基づき、暫定移動速度指令ｖ_ｃｍｄ_ｃｎｎが算出される。暫定移動速度指令ｖ_ｃｍｄ_ｃｎｎは、ロボット２のｘ速度成分の暫定値ｖ_ｘ_ｃｎｎおよびｙ速度成分の暫定値ｖ_ｙ_ｃｎｎを要素とするベクトルである。次いで、以上のように決定されたロボット２の暫定移動速度指令ｖ_ｃｍｄ_ｃｎｎは、暫定移動速度決定要素５２から移動速度決定要素５３に出力される。

移動速度決定要素５３では、暫定移動速度指令ｖ_ｃｍｄ_ｃｎｎに基づき、ＤＷＡ（ＤｙｎａｍｉｃＷｉｎｄｏｗＡｐｐｒｏａｃｈ）を適用したアルゴリズムにしたがって、移動速度指令ｖ_ｃｍｄが決定される。移動速度指令ｖ_ｃｍｄは、目標ｘ速度成分ｖ_ｘ_ｃｍｄおよび目標ｙ速度成分ｖ_ｙ_ｃｍｄを要素とするものであり、これらの２つの速度成分ｖ_ｘ_ｃｍｄ，ｖ_ｙ_ｃｍｄは、後述する移動制御処理において、ロボット２のｘ速度成分およびｙ速度成分の目標値として用いられる。

具体的には、関係式（１）にしたがって目的関数Ｇ（ｖ）が定義され、目的関数Ｇ（ｖ）が最大値になるように移動速度指令ｖ_ｃｍｄが決定される。

Ｇ（ｖ）＝ α・ｃｎｎ（ｖ）＋ β・ｄｉｓｔ（ｖ） ‥（１）。

「α」および「β」のそれぞれは、所定の重みパラメータであり、ロボット２の動作特性に基づいて決定される。「ｃｎｎ（ｖ）」は、ＤｙｎａｍｉｃＷｉｎｄｏｗ内のｘ速度成分およびｙ速度成分を要素とする速度指令と暫定移動速度指令ｖ_ｃｍｄ_ｃｎｎとの偏差を主変数とし、主変数の値が小さいほどより大きな値を示す従変数または関数である。

「ｄｉｓｔ（ｖ）」は、ロボット２がｘ速度成分の暫定値ｖ_ｘ_ｃｎｎおよびｙ速度成分の暫定値ｖ_ｙ_ｃｎｎで移動すると想定したときの、ロボット２（移動装置）に最も近接する交通参加者（移動物体）との距離を表わす値であり、ＬＩＤＡＲ１２の計測信号に基づいて決定される。

本実施形態の経路決定システム１では、以上のように、目標ｘ速度成分ｖ_ｘ_ｃｍｄおよび目標ｙ速度成分ｖ_ｙ_ｃｍｄを要素とする移動速度指令ｖ_ｃｍｄが決定される。なお、本実施形態では、移動速度指令ｖ_ｃｍｄを決定することが、ロボットの経路を決定することに相当する。

次に、図１８を参照しながら、移動制御処理について説明する。移動制御処理は、ロボット２が上述した２つの目標速度ｖ_ｘ_ｃｍｄ，ｖ_ｙ_ｃｍｄで移動するように、移動機構２１の２つのアクチュエータ２４，２５を制御するためのものであり、制御装置１０によって所定の制御周期ΔＴで実行される。

図１８に示されているように、まず、各種データが読み込まれる（図１８／ＳＴＥＰ１）。各種データは、前述したカメラ１１、ＬＩＤＡＲ１２、加速度センサ１３および無線通信装置１４のそれぞれから制御装置１０に入力された信号のデータである。

次いで、指定地点データにより表わされる指定地点Ｐｏｂｊが読み込まれ済みであるか否かが判定される（図１８／ＳＴＥＰ２）。当該判定結果が否定的である場合（図１８／ＳＴＥＰ２…ＮＯ）、すなわち指定地点データをサーバ５から受信してない場合、そのまま本処理を終了する。

一方、当該判定結果が肯定的である場合（図１８／ＳＴＥＰ２…ＹＥＳ）、前述した図１７の手法にしたがって、目標ｘ速度成分ｖ_ｘ_ｃｍｄおよび目標ｙ速度成分ｖ_ｙ_ｃｍｄｘを算出する（図１８／ＳＴＥＰ３）。

次いで、目標ｘ速度成分ｖ_ｘ_ｃｍｄおよび目標ｙ速度成分ｖ_ｙ_ｃｍｄｘに応じて、所定の制御アルゴリズムにしたがって、ｘ制御入力成分Ｕｘおよびｙ制御入力成分Ｕｙを算出する（図１８／ＳＴＥＰ４）。場合、所定の制御アルゴリズムとしては、マップ検索などのフィードフォワード制御アルゴリズムや、フィードバック制御アルゴリズムを用いればよい。

次に、ｘ制御入力成分Ｕｘ対応する制御入力信号を第１アクチュエータ２４に出力するとともに、ｙ制御入力成分Ｕｙに対応する制御入力信号を第２アクチュエータ２５に出力する（図１８／ＳＴＥＰ５）。その後、本処理を終了する。それにより、ロボット２の実際のｘ速度成分ｖ_ｘおよびｙ速度成分ｖ_ｙが、目標ｘ速度成分ｖ_ｘ_ｃｍｄおよび目標ｙ速度成分ｖ_ｙ_ｃｍｄになるよう制御される。その結果、ロボット２は、これらの目標速度ｖ_ｘ_ｃｍｄ，ｖ_ｙ_ｃｍｄで決まる経路に沿って、前方の交通参加者をよけながら指定地点Ｐｏｂｊに向かって移動することになる。

（効果）
本発明の一実施形態としての経路決定システム１によれば、複数の第２歩行者Ｍ２（第２移動物体）が複数の移動パターンのそれぞれにしたがって移動する環境において、第１歩行者Ｍ１（第１移動物体）が目的地点Ｐｏに向かって当該複数の第２歩行者Ｍ２との干渉を回避しながら移動した際の複数の移動経路Ｒｗが認識される（図７〜図１３参照）。

さらに、仮想空間においてが当該複数の移動経路のそれぞれにしたがって移動したときの仮想ロボット（仮想移動装置）の周囲の視覚的環境を表わす環境画像（図１５参照）の時系列から構成される複合環境画像（図１６参照）と、仮想ロボットの移動方向を表わす移動方向指令とが組み合わせられたデータが学習用データとして生成される。

複合環境画像が含まれる環境画像データを入力とする一方で移動方向指令を出力とするＣＮＮ（行動モデル）のモデルパラメータが、学習用データを用いて学習されることにより、学習済みモデルとして学習済みＣＮＮが生成される。そして、学習済みＣＮＮを用いて、ロボット２（移動装置）の移動速度指令ｖ_ｃｍｄが決定される。

このため、学習モデルとしてのＣＮＮのモデルパラメータが、第１歩行者Ｍ１（第１移動物体）の実際の移動経路および当該第１歩行者Ｍ１に対する第２歩行者Ｍ２の相対的な移動態様を反映させながら、精度よく学習されうる。その結果、複数の歩行者（移動物体）がロボット２の周囲に存在する状況においても、ロボット２が複数の移動物体との干渉を回避しながら目的地点まで円滑に移動するように、当該ロボット２の目標移動経路が決定されうる。

また、複合環境画像には、ロボット２の前方の環境画像に加えて、ｘ速度成分ｖ_ｘおよびｙ速度成分ｖ_ｙを表わす２つの矩形の白色ボックスと、目的地点Ｐｏを表わす矩形の白色ボックスとが表現されているので、ＣＮＮの構造の単純化、ひいては、ロボット２の目標移動経路の決定に要する演算処理量の低減が図られる。これにより、ロボット２の目標移動経路が迅速かつ精度よく決定されうる。

さらに、学習用データは、仮想空間において仮想ロボットを複数の移動経路Ｒｗのそれぞれにしたがって移動させることで生成されるので、ロボット２（実機）および交通参加者（複数の移動物体）が存在する環境を準備する必要がなくなる分、学習用データが容易に生成されうる。

（本発明の他の実施形態）
前記実施形態では、自律移動可能なロボット２が「移動装置」として採用されたが、他の実施形態として、一または複数の車輪を回転させることにより移動する車両、クローラ式の移動装置、または、２足歩行型のロボットなどが移動装置として採用されてもよい。移動装置２が、移動装置２に搭乗した人間により操作されることにより移動する移動装置、または、人間により遠隔操作されることにより移動する移動装置であってもよい。

前記実施形態では、第１移動物体および複数の第２移動物体がともに歩行者であったが、他の実施形態として、第１移動物体および複数の第２移動物体のうち一部または全部が歩行者以外の移動する物体であってもよい。例えば、当該物体が、自律移動可能な移動装置もしくは操縦者により操縦される移動装置、自転車もしくは車椅子に乗った人間、犬もしくは猫などの人間以外の動物であってもよい。

仮想移動装置として仮想ロボットではなく、第１移動物体の種類に応じた仮想移動装置が定義されてもよい。複数の仮想移動物体のうち少なくとも一部として歩行者（仮想歩行者）ではなく、第２移動物体の種類に応じた仮想移動物体が生成されてもよい。

前記実施形態では、行動モデルとしてＣＮＮが採用されたが、他の実施形態として、行動モデルとして、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）およびＤＱＮ（ｄｅｅｐＱ−ｎｅｔｗｏｒｋ）など、環境画像データを入力とする一方で行動パラメータを出力とする他の行動モデルが採用されてもよい。

前記実施形態では、所定の学習法として、勾配法を用いた例であるが、本発明の所定の学習法は、これに限らず、行動モデルのモデルパラメータを学習するものであればよい。

前記実施形態では、ロボット２の移動機構として、芯体２２および複数のローラ２３を備えた移動機構２１が採用されたが、他の実施形態として、ロボット２を全方位に移動させることが可能な他の構成の移動機構が採用されてもよい。例えば、移動機構として、球体と複数のローラとが組み合わせられ、当該複数のローラによって球体を回転駆動することにより、ロボット２を全方位に移動させる構成の移動機構が採用されてもよい。

前記実施形態は、ＣＮＮにしたがった演算処理を実行するためのソフトウェアをロボット２の制御装置１０を構成する記憶装置に記憶保持させたが、他の実施形態として、サーバ５を構成する記憶装置に当該ソフトウェアを記憶させ、目標移動経路の決定演算処理がサーバ５により実行され、当該演算処理結果としての目標移動経路がサーバ５からロボット２に送信されてもよい。

さらに、実施形態は、移動速度決定要素５３において、ロボット２の移動速度として、ｘ速度成分ｖ_ｘおよびｙ速度成分ｖ_ｙを要素とする移動速度指令ｖ_ｃｍｄをＤＷＡ手法により算出した例であるが、これに代えて、移動速度決定要素５３において、ロボット２の移動速度として、ｘ速度成分ｖ_ｘおよび角速度ωがＤＷＡ手法にしたがって算出されてもよい。

前記実施形態は、移動経路取得要素３２において、第２歩行者Ｍ２の移動パターンとして、第１〜第７移動パターンにしたがって複数の第２歩行者Ｍ２が移動した場合における第１歩行者Ｍ１の移動経路Ｒｗが取得された（図７〜図１３参照）。他の実施形態として、付加的または代替的に、第２歩行者Ｍ２の移動方向および数が当該７つの移動パターンとは異なる移動パターンにしたがって第２歩行者Ｍ２が移動した場合における第１歩行者Ｍ１の移動経路Ｒｗが取得されてもよい。

例えば、第１群を構成する複数の第２歩行者Ｍ２と第２群を構成する複数の第２歩行者Ｍ２とが、互いに斜めに交差するように移動するような移動パターン、または、第１群を構成する複数の第２歩行者Ｍ２がｘ方向に移動し、第２群を構成する複数の第２歩行者Ｍ２がｙ方向に移動することで互いに交差するような移動パターンなどが用いられてもよい。

１‥経路決定システム、２‥ロボット（移動装置）、３２‥移動経路取得要素、３３‥学習用データ取得要素、３４‥ＣＮＮ学習要素、Ｐｏｂｊ‥指定地点、Ｍ１‥第１歩行者（第１移動物体）、Ｍ２‥第２歩行者（第２移動物体）、Ｐｏ‥目的地点、Ｒｗ‥第１歩行者の移動経路、ｖ‥移動速度指令（ロボットの目標移動経路）。

Claims

移動装置が、当該移動装置の周辺に複数の移動物体が存在する状況で目的地点まで目標移動経路を決定する方法であって、
複数の第２移動物体が、異なる複数の移動パターンのそれぞれにしたがって移動する状況において、第１移動物体が前記複数の第２移動物体のそれぞれとの干渉を回避しながら前記目的地点まで移動した際の前記第１移動物体の複数の移動経路を認識し、
前記移動装置が前記複数の移動経路のそれぞれにしたがって移動した際の、当該移動装置の環境を表わす環境画像の時系列が複合されることにより生成される複合環境画像を含む環境画像データと、当該移動装置の行動を表わす行動パラメータとが関連付けられた複数の学習用データを生成し、
前記環境画像データを入力とする一方で前記行動パラメータを出力とする行動モデルのモデルパラメータを、前記複数の学習用データを用いて指定学習方法にしたがって学習することにより、学習済みの当該行動モデルである学習済みモデルを生成し、
前記学習済みモデルを用いて、前記移動装置の前記目標移動経路を決定することを特徴とする経路決定方法。
請求項１に記載の経路決定方法において、
前記環境画像として、前記移動装置の周辺に存在する複数の移動物体のそれぞれを表わす複数の移動物体画像領域が含まれている画像が認識され、
前記複数の環境画像のそれぞれに含まれている前記複数の移動物体画像領域のそれぞれが重ね合わせられている前記複合環境画像が生成されることを特徴とする経路決定方法。
請求項２に記載の経路決定方法において、
前記複数の環境画像のそれぞれの時系列の順の先後に応じて、前記複数の移動物体画像領域のそれぞれの一部または全部の色相、彩度もしくは明度またはこれらの任意の組み合わせが差別化されるように、前記複数の移動物体画像領域が重ね合わせられている前記複合環境画像が生成されることを特徴とする経路決定方法。
請求項２または３に記載の経路決定方法において、
時系列的に後の前記移動物体画像領域が時系列的に前の前記移動物体画像領域の少なくとも一部を隠すように重ね合わせられている前記複合環境画像が生成されることを特徴とする経路決定方法。
請求項１〜４のうちいずれか１項に記載の経路決定方法において、
前記環境画像データは、前記複合環境画像に加えて、前記移動装置の速度の高低を表わす速度画像および前記目的地点の方向を表わす方向画像のうち少なくとも一方をさらに含むことを特徴とする経路決定方法。
請求項１〜５のうちいずれか１項に記載の経路決定方法において、
前記複数の学習用データは、仮想空間において仮想の前記ロボットが前記複数の移動経路のそれぞれにしたがって移動した際の、前記環境画像データおよび当該環境画像データに関連付けられた前記行動パラメータにより構成されていることを特徴とする経路決定方法。