JP7130062B2

JP7130062B2 - 経路決定方法

Info

Publication number: JP7130062B2
Application number: JP2020562335A
Authority: JP
Inventors: 雄二長谷川; 燦心松▲崎▼
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-12-27
Filing date: 2019-08-07
Publication date: 2022-09-02
Anticipated expiration: 2039-08-07
Also published as: JPWO2020136978A1; CN113242998B; WO2020136978A1; DE112019006409T5; CN113242998A; US20220057804A1

Description

本発明は、自律移動型のロボットの経路決定方法に関する。

従来、自律移動型のロボットの経路決定方法として、特許文献１及び特許文献２に記載されたものが知られている。この特許文献１の経路決定方法では、ロボットが歩行者などの交通参加者の速度に基づいて、交通参加者に干渉する可能性があると予想される干渉可能性時間が算出され、さらに、交通参加者が所定時間後に移動すると想定される仮想障害物領域が算出される。そして、干渉可能性時間及び仮想障害物領域に基づいて、ロボットの経路が決定される。それにより、ロボットと交通参加者との干渉が回避される。

また、特許文献２の経路決定方法では、ロボットの現在位置を計算し、外界センサが測定した距離データに基づいて、障害物地図を作成するとともに、記憶部から地図情報を読み込む。次いで、障害物地図及び地図情報を参照して、障害物が地図情報に記憶された経路上に存在するか否かを判定し、障害物が経路上に存在する場合には、ロボットの経路をＡ＊探索アルゴリズムにより実行する。具体的には、現在位置情報、障害物地図及び地図情報に基づいて、グリッドマップ上のロボットを取り囲む多数のグリッドにおける障害物の存在確率を算出し、障害物の存在確率が最も低いグリッドが経路として決定される。

特開２００９－１１０４９５号公報特開２０１０－１９１５０２号公報

上記特許文献１の経路決定方法によれば、交通参加者の干渉可能性時間及び仮想障害物領域を用いている関係上、歩行者などの実際の交通参加者が予測不可能な軌跡で移動したときには、ロボットと交通参加者の干渉状態が頻発してしまう。その結果、ロボットの停止状態が頻発してしまい、商品性が低いという問題がある。特に、人混みが存在する交通環境下では、この問題が顕著になる。

また、特許文献２の経路決定方法の場合にも、歩行者などの実際の交通参加者が予測不可能な軌跡で移動したときには、特許文献１と同じ問題が発生する。特に、人混みが存在する交通環境下では、障害物の存在確率が最も低いグリッドが見つからない状態となることで、ロボットの停止時間が長くなってしまう。

本発明は、上記課題を解決するためになされたもので、人混みなどの交通環境下においても、自律移動型のロボットが交通参加者との干渉を回避しながら目的地まで円滑に移動するように、ロボットの経路を決定できる経路決定方法を提供することを目的とする。

上記目的を達成するために、本発明は、自律移動型のロボットが目的地まで移動するときの経路を、歩行者を含む交通参加者が目的地までの交通環境に存在する条件下で決定する経路決定方法であって、第１歩行者が目的地に向かって第１歩行者以外の複数の第２歩行者との干渉を回避しながら歩行する場合において、複数の第２歩行者の歩行パターンを複数種の互いに異なる歩行パターンに設定したときの第１歩行者の複数の歩行経路を取得し、ロボットが複数の歩行経路に沿ってそれぞれ移動したときの、ロボットの前方の視覚的環境を表す環境画像を含む画像データと、ロボットの行動を表す行動パラメータとの関係を紐付けした複数のデータベースを作成し、画像データを入力とし行動パラメータを出力とする行動モデルのモデルパラメータを、複数のデータベースを用いて所定の学習方法で学習することにより、学習済みの行動モデルである学習済みモデルを作成し、学習済みモデルを用いて、ロボットの経路を決定することを特徴とする。

この経路決定方法によれば、画像データを入力とし行動パラメータを出力とする行動モデルのモデルパラメータを、複数のデータベースを用いて所定の学習方法で学習することにより、学習済みの行動モデルである学習済みモデルが作成される。そして、学習済みモデルを用いて、ロボットの経路が決定される。この場合、複数のデータベースは、ロボットが複数の歩行経路に沿ってそれぞれ移動したときの、ロボットの前方の視覚的環境を表す環境画像を含む画像データと、ロボットの行動を表す行動パラメータとの関係を紐付けしたものとして作成される。

さらに、この複数の歩行経路は、第１歩行者が目的地に向かって第１歩行者以外の複数の第２歩行者との干渉を回避しながら歩行する場合において、複数の第２歩行者の歩行パターンを複数種の互いに異なる歩行パターンに設定したときの第１歩行者の歩行経路を取得したものである。したがって、複数のデータベースは、そのような歩行経路に沿ってロボットが移動したときの画像データと、ロボットの行動を表す行動パラメータとを紐付けしたものとなるので、行動モデルのモデルパラメータを、第１歩行者の実際の歩行経路を反映させながら、精度良く学習することができる。その結果、人混みなどの交通環境下においても、自律移動型のロボットが交通参加者との干渉を回避しながら目的地まで円滑に移動するように、ロボットの経路を決定することができる。

本発明において、画像データは、環境画像に加えて、速度度合画像及び位置画像をさらに含んでおり、速度度合画像は、ロボットの速度を最大移動速度と最小移動速度との間の範囲内の位置関係で表した画像であり、位置画像は、ロボットの現時点の位置を０゜として、目的地の位置を－９０ｄｅｇ～９０ｄｅｇの範囲内の位置関係で表した画像であることが好ましい。

この経路決定方法によれば、画像データは、環境画像に加えて、ロボットの速度を最大移動速度と最小移動速度との間の範囲内の位置関係で表した速度度合画像及びロボットの現時点の位置を０゜として、目的地の位置を－９０ｄｅｇ～９０ｄｅｇの範囲内の位置関係で表した位置画像をさらに含んでいるので、行動モデルの構造を単純化でき、ロボットの経路決定時の計算量を減少できる。その結果、ロボットの経路を迅速かつ精度良く決定することができる。

本発明において、複数のデータベースは、仮想空間において仮想のロボットが複数の歩行経路に沿ってそれぞれ移動したときの画像データと行動パラメータとの関係を紐付けしたものであることが好ましい。

この経路決定方法によれば、仮想のロボットを仮想空間において複数の歩行経路に沿ってそれぞれ移動させることで、複数のデータベースを作成することができる。それにより、ロボットなどを実際に準備する必要がなくなる分、データベースを容易に作成することができる。

本発明の一実施形態に係る経路決定装置を適用したロボットの外観を示す図である。ロボットによる案内システムの構成を示す図である。ロボットの電気的な構成を示すブロック図である。学習装置の構成を示すブロック図である。第１歩行者の歩行経路を取得するときの斜視図である。図５の歩行経路の取得結果の一例を示す図である。歩行経路の取得開始時における第２歩行者の配置の第１パターンを示す図である。第２歩行者の配置の第２パターンを示す図である。第２歩行者の配置の第３パターンを示す図である。第２歩行者の配置の第４パターンを示す図である。第２歩行者の配置の第５パターンを示す図である。第２歩行者の配置の第６パターンを示す図である。第２歩行者の配置の第７パターンを示す図である。シミュレーション環境下の仮想ロボット視点での画像を示す図である。図１４の画像から作成したマスク画像を示す図である。経路決定装置などの機能を示すブロック図である。移動制御処理を示すフローチャートである。

以下、図面を参照しながら、本発明の一実施形態に係る経路決定装置について説明する。図１に示すように、本実施形態の経路決定装置１は、倒立振子型のロボット２に適用されたものであり、後述する手法によって、交通参加者の存在確率が高い条件下で、ロボット２の経路を決定するものである。

このロボット２は、自律移動型のものであり、図２に示す案内システム３で用いられる。この案内システム３は、ショッピングモールや空港などにおいて、ロボット２が利用者を先導しながらその目的地（例えば店舗や搭乗ゲート）まで案内する形式のものである。

図２に示すように、案内システム３は、所定の領域内を自律移動する複数のロボット２と、複数のロボット２とは別体に設けられ、利用者の目的地が入力される入力装置４と、ロボット２及び入力装置４と相互に無線通信可能なサーバ５とを備えている。

この入力装置４は、パソコンタイプのものであり、利用者（又は操作者）のマウス及びキーボードの操作によって、利用者の目的地が入力されたときに、それを表す無線信号をサーバ５に送信する。サーバ５は、入力装置４からの無線信号を受信すると、内部の地図データに基づき、利用者の目的地自体又は目的地までの中継地点を目的地Ｐｏｂｊに設定し、それを表す目的地信号をロボット２に送信する。

後述するように、ロボット２内の制御装置１０は、サーバ５からの目的地信号を無線通信装置１４を介して受信したときには、その目的地信号に含まれる目的地Ｐｏｂｊを読み込み、この目的地Ｐｏｂｊまでの経路を決定する。

次に、ロボット２の機械的な構成について説明する。図１に示すように、ロボット２は、本体２０と、本体２０の下部に設けられた移動機構２１などを備えており、この移動機構２１によって路面上を全方位に移動可能に構成されている。

この移動機構２１は、具体的には、例えば特開２０１７－５６７６３号のものと同様に構成されているので、その詳細な説明はここでは省略するが、円環状の芯体２２、複数のローラ２３、第１アクチュエータ２４（図３参照）及び第２アクチュエータ２５（図３参照）などを備えている。

複数のローラ２３は、芯体２２の円周方向（軸心周り方向）に等角度間隔で並ぶように、芯体２２に外挿されており、複数のローラ２３の各々は、芯体２２の軸心周りに、芯体２２と一体に回転可能になっている。また、各ローラ２３は、各ローラ２３の配置位置における芯体２２の横断面の中心軸（芯体２２の軸心を中心とする円周の接線方向の軸）周りに回転可能になっている。

さらに、第１アクチュエータ２４は、電動機で構成されており、後述する制御入力信号が制御装置１０から入力されたときに、図示しない駆動機構を介して、芯体２２をその軸心周りに回転駆動する。

一方、第２アクチュエータ２５も、第１アクチュエータ２４と同様に、電動機で構成されており、制御入力信号が制御装置１０から入力されたときに、図示しない駆動機構を介して、ローラ２３をその軸心周りに回転駆動する。それにより、本体２０は、路面上を全方位に移動するように、第１アクチュエータ２４及び第２アクチュエータ２５によって駆動される。以上の構成により、ロボット２は、路面上を全方位に移動可能になっている。

次に、ロボット２の電気的な構成について説明する。図３に示すように、ロボット２は、制御装置１０、カメラ１１、ＬＩＤＡＲ１２、加速度センサ１３及び無線通信装置１４をさらに備えている。

この制御装置１０は、ＣＰＵ、ＲＡＭ、ＲＯＭ、Ｅ２ＰＲＯＭ、Ｉ／Ｏインターフェース及び各種の電気回路（いずれも図示せず）などからなるマイクロコンピュータで構成されている。このＥ２ＰＲＯＭ内には、ロボット２が案内する場所の地図データ及びＣＮＮ（Convolutional Neural Network）が記憶されている。この場合、ＣＮＮとしては、後述する学習装置３０によって、ＣＮＮのモデルパラメータすなわち結合層の重み及びバイアス項が十分に学習されたものが記憶されている。

カメラ１１は、ロボット２の周辺環境を撮像し、それを表す画像信号を制御装置１０に出力する。また、ＬＩＤＡＲ１２は、レーザ光を用いて、周辺環境内の対象物までの距離などを計測し、それを表す計測信号を制御装置１０に出力する。さらに、加速度センサ１３は、ロボット２の加速度を検出して、それを表す検出信号を制御装置１０に出力する。

制御装置１０は、以上のカメラ１１の画像信号及びＬＩＤＡＲ１２の計測信号を用いて、amlc（adaptive Monte Carlo localization）手法により、ロボット２の自己位置を推定する。また、制御装置１０は、ＬＩＤＡＲ１２の計測信号及び加速度センサ１３の検出信号に基づいて、ロボット２の後述するｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙを算出する。

さらに、制御装置１０には、無線通信装置１４が電気的に接続されており、制御装置１０は、この無線通信装置１４を介してサーバ５との間で無線通信を実行する。

次に、本実施形態の経路決定装置１の構成及び経路決定方法の原理について説明する。まず、図４に示す学習装置３０について説明する。この学習装置３０は、後述するＣＮＮのモデルパラメータ（結合層の重み及びバイアス項）を学習するためのものであり、ＬＩＤＡＲ３１、歩行経路取得部３２、学習用データ取得部３３及びＣＮＮ学習部３４を備えている。これらの要素３２～３４は、具体的には、図示しないコントローラなどによって構成されている。

まず、一般的な歩行者の歩行経路を学習するために、図５に示すように、第１歩行者Ｍ１を基準となる歩行者として設定し、この第１歩行者Ｍ１が歩行開始地点Ｐｓ（図６参照）から目的地点Ｐｏ（図６参照）まで歩行する場合において、歩行開始時に、その進行方向に複数の第２歩行者Ｍ２が不規則な配置で存在する人混みの交通環境下を設定する。

次いで、ＬＩＤＡＲ３１を用いて、第１歩行者Ｍ１が歩行開始地点Ｐｓから目的地点Ｐｏまで実際に歩行したときの位置の変化と、複数の第２歩行者Ｍ２の位置の変化とを計測し、その計測結果を歩行経路取得部３２に出力する。

そして、歩行経路取得部３２では、ＬＩＤＡＲ３１の計測結果に基づき、第１歩行者Ｍ１の歩行開始地点Ｐｓから目的地点Ｐｏまでの歩行経路Ｒｗを、例えば図６に示すように逐次、取得して記憶する。同図に示すように、第１歩行者Ｍ１の歩行経路Ｒｗは、第１歩行者Ｍ１の進行方向に延びる軸をｘ軸と規定し、第１歩行者Ｍ１の進行方向に直交する軸をｙ軸と規定したときの、２次元のｘ－ｙ座標値として取得される。なお、以下の説明におけるｘ軸及びｙ軸の定義は、図６と同じである。

このｘ軸の原点は、第１歩行者Ｍ１の歩行開始地点Ｐｓに設定され、ｙ軸の原点は、第１歩行者Ｍ１の進行方向の右側の所定位置に設定される。さらに、第１歩行者Ｍ１の歩行開始地点Ｐｓから目的地点Ｐｏに到達するまでの間における第２歩行者Ｍ２の位置が、第１歩行者Ｍ１の歩行経路Ｒｗと紐付けた状態で歩行経路取得部３２に取得される。

これに加えて、歩行経路取得部３２では、第１歩行者Ｍ１の歩行経路Ｒｗが、第２歩行者Ｍ２の歩行パターンを図７～１３にそれぞれ示す第１～第７パターンに切り換えながら取得される。この場合、第１及び第２パターンはそれぞれ、図７及び図８に示すように、１０人及び５人の第２歩行者Ｍ２が、その一部が第１歩行者Ｍ１とすれ違いながらｘ軸と平行に第１歩行者Ｍ１側に向かって歩行するパターンである

また、第３及び第４パターンはそれぞれ、図９及び図１０に示すように、１０人及び５人の第２歩行者Ｍ２が、その一部が第１歩行者Ｍ１と交差しながら、第１歩行者Ｍ１の右側から左側に向かって歩行するパターンである。さらに、第５及び第６パターンはそれぞれ、図１１及び図１２に示すように、第３及び第４パターンとは逆に、１０人及び５人の第２歩行者Ｍ２が、その一部が第１歩行者Ｍ１と交差しながら、第１歩行者Ｍ１の左側から右側に向かって歩行するパターンである。

これに加えて、第７パターンは、図１３に示すように、１０人のうちの５人の第２歩行者Ｍ２が、第１歩行者Ｍ１の右側から左側に向かって歩行し、残りの５人の第２歩行者Ｍ２が第１歩行者Ｍ１の左側から右側に向かって歩行するとともに、それらの一部が第１歩行者Ｍ１と交差しながら歩行するパターンである。

以上のように、歩行経路取得部３２では、第１歩行者Ｍ１の歩行経路Ｒｗが第２歩行者Ｍ２の位置と紐付けた状態で取得され、それらの取得結果が学習用データ取得部３３に出力される。

学習用データ取得部３３では、歩行経路Ｒｗなどの取得結果が歩行経路取得部３２から入力されると、これに基づき、以下に述べる手法により、学習用データを取得／作成する。まず、ｇａｚｅｂｏシミュレータなどのシミュレーション環境下で、前述した第２歩行者Ｍ２に相当する仮想第２歩行者Ｍ２’（図１４参照）と、ロボット２に相当する仮想ロボット（図示せず）を作成する。

次いで、仮想ロボットを、前述した第１歩行者Ｍ１の歩行経路Ｒｗに追従するように移動させながら、仮想第２歩行者Ｍ２’を、歩行経路取得部３２で取得された第２歩行者Ｍ２の位置に従って移動させる。

その移動中において、仮想ロボットの前方の視覚的環境の画像を所定周期でサンプリングし、そのサンプリング結果に基づいて、ＳＳＤ（Single Shot MultiBox Detector）手法により、マスク画像を逐次作成する。例えば、図１４に示すように、シミュレーション環境下で、３人の仮想第２歩行者Ｍ２’が仮想ロボットの前方に位置している場合には、ＳＳＤ手法により、３人の仮想第２歩行者Ｍ２’の位置を取得することにより、図１５に示すマスク画像が作成される。

同図に示すように、このマスク画像では、３人の仮想第２歩行者Ｍ２’の位置が３つの矩形のボックスＢとして表示される。同図において、３つのボックスＢの破線で示す領域は実際には赤色で表示され、それ以外の点描で示す領域は実際には黒色で表示される。

これと同時に、マスク画像の上端部には、サンプリング時の目的地点Ｐｏが矩形の白色ボックスとして表示される。この目的地点Ｐｏは、仮想ロボットの現時点の自己位置を基準としたときの前方の中央位置を０ｄｅｇとして、－９０ｄｅｇ～９０ｄｅｇの範囲内の値として設定される。

さらに、このマスク画像の下端には、サンプリング時の仮想ロボットの仮想ｘ軸速度ｖ＿ｘ’及び仮想ｙ軸速度ｖ＿ｙ’が、２つの矩形の白色ボックスとして表示される。これらの仮想ｘ軸速度ｖ＿ｘ’及び仮想ｙ軸速度ｖ＿ｙ’はそれぞれ、仮想ロボットのｘ軸方向及びｙ軸方向の速度成分であり、仮想ロボットの最小移動速度ｖ＿ｍｉｎ（例えば値０）と最大移動速度ｖ＿ｍａｘの範囲内の値として設定される。この場合の仮想ロボットのｘ軸方向及びｙ軸方向は、前述した図７などと同様に定義される。

これに加えて、学習用データ取得部３３では、サンプリング時の仮想ロボットの移動方向指令が、「左方向」、「中央方向」及び「右方向」の３つの方向を要素とするベクトル値として設定される。この移動方向指令の場合、例えば、仮想ロボットが直進しているときには、「中央方向」が値１に設定され、それ以外の「左方向」及び「右方向」が値０に設定される。

また、仮想ロボットが右方向に移動しているときには、「右方向」が値１に設定され、それ以外の方向が値０に設定される。この場合、「右方向」は仮想ロボットが直進方向に対して所定角度θ以上、右に移動するときに値１に設定される。さらに、仮想ロボットが左方向に移動しているときには、「左方向」が値１に設定され、それ以外の方向が値０に設定される。この場合、「左方向」は仮想ロボットが直進方向に対して所定角度θ以上、左に移動するときに値１に設定される。

次いで、学習用データ取得部３３では、学習用データとして、前述したマスク画像（図１５参照）と移動方向指令とを１組のデータとして紐付けしたものが、前述した所定周期で逐次作成される。そして、最終的に、多数組（数千組以上）の学習用データが作成されたタイミングで、これらの学習用データがＣＮＮ学習部３４に出力される。この場合、学習用データ取得部３３において、学習用データを所定周期で作成する毎に、この学習用データをＣＮＮ学習部３４に出力するように構成してもよい。なお、本実施形態では、学習用データが複数のデータベースに相当する。

ＣＮＮ学習部３４では、学習用データ取得部３３から多数組の学習用データが入力されると、これらの学習用データを用いて、ＣＮＮのモデルパラメータの学習が実行される。具体的には、１組の学習用データにおけるマスク画像をＣＮＮに入力し、そのときのＣＮＮの出力に対して、移動方向指令を教師データとして用いる。

この場合、ＣＮＮの出力層は、３ユニットで構成されており、これらの３ユニットからの３つのｓｏｆｔｍａｘ値を要素とする指令（以下「ＣＮＮ出力指令」という）がＣＮＮから出力される。このＣＮＮ出力指令は、移動方向指令と同じ３つの方向（「左方向」、「中央方向」及び「右方向」）を要素とする指令で構成されている。

次いで、移動方向指令とＣＮＮ出力指令の損失関数（例えば平均２乗和誤差）を用い、勾配法により、ＣＮＮの結合層の重み及びバイアス項を演算する。すなわち、ＣＮＮのモデルパラメータの学習演算を実行する。そして、以上の学習演算を学習用データの組数分（すなわち数千回分）、実行することにより、ＣＮＮ学習部３４におけるＣＮＮのモデルパラメータの学習演算が終了する。この学習装置３０では、以上のように、ＣＮＮのモデルパラメータの学習が実行される。

次に、図１６を参照しながら、本実施形態の経路決定装置１などの構成について説明する。経路決定装置１は、以下に述べる手法によって、ロボット２の経路としての移動速度指令ｖを決定（算出）するものであり、この移動速度指令ｖは、ロボット２のｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙの目標となる目標ｘ軸速度ｖ＿ｘ＿ｃｍｄ及び目標ｙ軸速度ｖ＿ｙ＿ｃｍｄを要素とするものである。

同図に示すように、経路決定装置１は、マスク画像作成部５０、移動方向決定部５１、暫定移動速度決定部５２及び移動速度決定部５３を備えており、これらの要素５０～５３は、具体的には、制御装置１０によって構成されている。なお、以下に述べる各種の制御処理は所定の制御周期ΔＴで実行されるものとする。

まず、マスク画像作成部５０について説明する。このマスク画像作成部５０では、カメラ１１からの画像信号及びＬＩＤＡＲ１２からの計測信号が入力されると、前述したＳＳＤ手法により、マスク画像が作成される。

このマスク画像内には、前述した図１５のマスク画像のボックスＢと同様に、前方の交通参加者のボックス（図示せず）が表示され、仮想ｘ軸速度ｖ＿ｘ’、仮想ｙ軸速度ｖ＿ｙ’及び目的地点Ｐｏに代えて、ロボット２のｘ軸速度ｖ＿ｘ、ｙ軸速度ｖ＿ｙ及び目的地Ｐｏｂｊ（いずれも図示せず）が表示される。

この場合、交通参加者の位置及びサイズは、カメラ１１の画像信号及びＬＩＤＡＲ１２の計測信号に基づいて決定される。また、ロボット２のｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙは、ＬＩＤＡＲ１２の計測信号及び加速度センサ１３の検出信号に基づいて決定される。さらに、目的地Ｐｏｂｊは、サーバ５からの目的地信号によって決定される。以上のように作成されたマスク画像は、マスク画像作成部５０から移動方向決定部５１に出力される。

移動方向決定部５１は、前述したＣＮＮ学習部３４でモデルパラメータが学習されたＣＮＮ（図示せず）を備えており、このＣＮＮを用いて、ロボット２の移動方向を以下のように決定する。

まず、移動方向決定部５１では、マスク画像作成部５０からのマスク画像がＣＮＮに入力されると、前述したＣＮＮ出力指令がＣＮＮから出力される。次いで、ＣＮＮ出力指令の３つの要素（「左方向」、「中央方向」及び「右方向」）のうち、最大値の要素の方向がロボット２の移動方向として決定される。そして、以上のように決定されたロボット２の移動方向は、移動方向決定部５１から暫定移動速度決定部５２に出力される。

この暫定移動速度決定部５２では、移動方向決定部５１からのロボット２の移動方向と、ロボット２のｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙとに基づき、暫定移動速度指令ｖ＿ｃｎｎを算出する。この暫定移動速度指令ｖ＿ｃｎｎは、ロボット２のｘ軸速度の暫定値ｖ＿ｘ＿ｃｎｎ及びｙ軸速度の暫定値ｖ＿ｙ＿ｃｎｎを要素とするものである。次いで、以上のように決定されたロボット２の暫定移動速度指令ｖ＿ｃｎｎは、暫定移動速度決定部５２から移動速度決定部５３に出力される。

この移動速度決定部５３では、暫定移動速度指令ｖ＿ｃｎｎに基づき、ＤＷＡ（Dynamic Window Approach）を適用したアルゴリズムにより、移動速度指令ｖが決定される。この移動速度指令ｖは、目標ｘ軸速度ｖ＿ｘ＿ｃｍｄ及び目標ｙ軸速度ｖ＿ｙ＿ｃｍｄを要素とするものであり、これらの２つの速度ｖ＿ｘ＿ｃｍｄ，ｖ＿ｙ＿ｃｍｄは、後述する移動制御処理において、ロボット２のｘ軸速度及びｙ軸速度の目標値として用いられる。

具体的には、下式（１）に示すように、目的関数Ｇ（ｖ）を定義し、この目的関数Ｇ（ｖ）が最大値になるように、移動速度指令ｖが決定される。
Ｇ（ｖ）＝ α・ｃｎｎ（ｖ）＋ β・ｄｉｓｔ（ｖ） ……（１）

上式（１）のα，βは、所定の重みパラメータであり、ロボット２の動特性に基づいて決定される。また、上式（１）のｃｎｎ（ｖ）は、Dynamic Window 内のｘ軸速度及びｙ軸速度を要素とする速度指令と、暫定移動速度指令ｖ＿ｃｎｎとの偏差を独立変数とし、この独立変数が小さいほど、より大きな値を示す関数値である。

さらに、上式（１）のｄｉｓｔ（ｖ）は、ロボット２がｘ軸速度の暫定値ｖ＿ｘ＿ｃｎｎ及びｙ軸速度の暫定値ｖ＿ｙ＿ｃｎｎで移動すると想定したときの、ロボット２に最も近接する交通参加者との距離を表す値であり、ＬＩＤＡＲ１２の計測信号に基づいて決定される。

本実施形態の経路決定装置１では、以上のように、目標ｘ軸速度ｖ＿ｘ＿ｃｍｄ及び目標ｙ軸速度ｖ＿ｙ＿ｃｍｄを要素とする移動速度指令ｖが決定される。なお、本実施形態では、移動速度指令ｖを決定することが、ロボットの経路を決定することに相当する。

次に、図１７を参照しながら、移動制御処理について説明する。この移動制御処理は、ロボット２が上述した２つの目標速度ｖ＿ｘ＿ｃｍｄ，ｖ＿ｙ＿ｃｍｄで移動するように、移動機構２１の２つのアクチュエータ２４，２５を制御するためのものであり、制御装置１０によって所定の制御周期ΔＴで実行される。

同図に示すように、まず、各種データを読み込む（図１７／ＳＴＥＰ１）。この各種データは、前述したカメラ１１、ＬＩＤＡＲ１２、加速度センサ１３及び無線通信装置１４から制御装置１０に入力された信号のデータである。

次いで、前述した目的地信号に含まれる目的地Ｐｏｂｊを読込済みであるか否かを判定する（図１７／ＳＴＥＰ２）。この判定が否定であるとき（図１７／ＳＴＥＰ２…ＮＯ）、すなわち目的地信号をサーバ５から受信してないときには、そのまま本処理を終了する。

一方、この判定が肯定であるとき（図１７／ＳＴＥＰ２…ＹＥＳ）には、前述した図１６の手法により、目標ｘ軸速度ｖ＿ｘ＿ｃｍｄ及び目標ｙ軸速度ｖ＿ｙ＿ｃｍｄｘを算出する（図１７／ＳＴＥＰ３）。

次いで、目標ｘ軸速度ｖ＿ｘ＿ｃｍｄ及び目標ｙ軸速度ｖ＿ｙ＿ｃｍｄｘに応じて、所定の制御アルゴリズムにより、ｘ軸制御入力Ｕｘ及びｙ軸制御入力Ｕｙを算出する（図１７／ＳＴＥＰ４）。この場合、所定の制御アルゴリズムとしては、マップ検索などのフィードフォワード制御アルゴリズムや、フィードバック制御アルゴリズムを用いればよい。

次に、ｘ軸制御入力Ｕｘ対応する制御入力信号を第１アクチュエータ２４に出力するとともに、ｙ軸制御入力Ｕｙに対応する制御入力信号を第２アクチュエータ２５に出力する（図１７／ＳＴＥＰ５）。その後、本処理を終了する。それにより、ロボット２の実際のｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙが、目標ｘ軸速度ｖ＿ｘ＿ｃｍｄ及び目標ｙ軸速度ｖ＿ｙ＿ｃｍｄになるよう制御される。その結果、ロボット２は、これらの目標速度ｖ＿ｘ＿ｃｍｄ，ｖ＿ｙ＿ｃｍｄで決まる経路に沿って、前方の交通参加者をよけながら目的地Ｐｏｂｊに向かって移動することになる。

以上のように、本実施形態の経路決定装置１によれば、マスク画像を入力とし、移動方向指令を出力とするＣＮＮのモデルパラメータ（重み及びバイアス項）を、学習用データを用いて勾配法で学習することにより、学習済みＣＮＮが作成される。そして、学習済みＣＮＮを用いて、ロボット２の移動速度指令ｖが決定される。この場合、学習用データは、仮想空間において仮想ロボットが複数の歩行経路Ｒｗに沿ってそれぞれ移動したときの、仮想ロボットの前方の視覚的環境を表す環境画像を含むマスク画像と、仮想ロボットの移動方向を表す移動方向指令との関係を紐付けしたものとして作成される。

さらに、この複数の歩行経路Ｒｗは、第１歩行者Ｍ１が目的地点Ｐｏに向かって複数の第２歩行者との干渉を回避しながら歩行する場合において、複数の第２歩行者Ｍ２の歩行パターンを第１～第７歩行パターンに設定したときの第１歩行者Ｍ１の歩行経路を取得したものである。したがって、学習用データは、そのような歩行経路Ｒｗに沿って仮想のロボットが移動したときのマスク画像と、ロボットの移動方向を表す移動方向指令とを紐付けしたものとなるので、ＣＮＮのモデルパラメータを、第１歩行者Ｍ１の実際の歩行経路を反映させながら、精度良く学習することができる。その結果、人混みなどの交通環境下においても、自律移動型のロボット２が交通参加者との干渉を回避しながら目的地まで円滑に移動するように、ロボット２の経路を決定することができる。

また、マスク画像には、ロボット２の前方の環境画像に加えて、ｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙを表す２つの矩形の白色ボックスと、目的地点Ｐｏを表す矩形の白色ボックスとが表示されるので、ＣＮＮの構造を単純化でき、ロボット２の経路を決定するときの計算量を減少することができる。それにより、ロボットの経路を迅速かつ精度良く決定することができる。さらに、学習用データは、仮想空間において仮想ロボットを複数の歩行経路Ｒｗに沿ってそれぞれ移動させることで作成されるので、ロボットや交通参加者などを実際に準備する必要がなくなる分、学習用データを容易に作成することができる。

なお、実施形態は、自律移動型のロボットとして、ロボット２を用いた例であるが、本発明のロボットは、これに限らず、自律移動型のものであればよい。例えば、車両型のロボットや、２足歩行型のロボットを用いてもよい。

また、実施形態は、行動モデルとしてＣＮＮを用いた例であるが、本発明の行動モデルは、これに限らず、画像データを入力とし行動パラメータを出力とするものであればよい。例えば、行動モデルとして、ＲＮＮ（Recurrent Neural Network）及びＤＱＮ（deep Q-network）などを用いてもよい。

さらに、実施形態は、所定の学習法として、勾配法を用いた例であるが、本発明の所定の学習法は、これに限らず、行動モデルのモデルパラメータを学習するものであればよい。

一方、実施形態は、移動機構として、芯体２２及び複数のローラ２３を備えた移動機構２１を用いた例であるが、移動機構は、これに限らず、ロボットを全方位に移動させることが可能なものであればよい。例えば、移動機構として、球体と複数のローラを組み合わせ、これらのローラによって球体を回転駆動することにより、ロボットを全方位に移動させる構成のものを用いてもよい。

また、実施形態は、ＣＮＮをロボット２の制御装置１０のＥ２ＰＲＯＭ内に記憶させた例であるが、ＣＮＮをサーバ５側に記憶させ、経路決定の演算をサーバ５側で実施し、これをロボット２に送信するように構成してもよい。

さらに、実施形態は、移動速度決定部５３において、ロボット２の移動速度として、ｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙを要素とする移動速度指令ｖをＤＷＡ手法により算出した例であるが、これに代えて、移動速度決定部５３において、ロボット２の移動速度として、ｘ軸速度ｖ＿ｘ及び角速度ωをＤＷＡ手法により算出してもよい。

一方、実施形態は、歩行経路取得部３２において、第２歩行者Ｍ２の歩行パターンとして、第１～第７パターンを用いた例であるが、第２歩行者Ｍ２の移動方向及び数をこれらと異なるものに変更した歩行パターンを用いて、第１歩行者Ｍ１の歩行経路Ｒｗを取得してよい。例えば、複数人の第２歩行者Ｍ２と複数人の第２歩行者Ｍ２とが、互いに斜めに交差するように歩行する歩行パターンや、複数人の第２歩行者Ｍ２がｘ軸線に沿って歩行し、複数人の第２歩行者Ｍ２がｙ軸線に沿って歩行することで、互いに交差する歩行パターンなどを用いてもよい。

１経路決定装置
２ロボット
３２歩行経路取得部
３３学習用データ取得部
３４ＣＮＮ学習部
Ｐｏｂｊ目的地
Ｍ１第１歩行者
Ｐｏ目的地点
Ｍ２第２歩行者
Ｒｗ第１歩行者の歩行経路
ｖ移動速度指令（ロボットの経路）

Claims

自律移動型のロボットが目的地まで移動するときの経路を、歩行者を含む交通参加者が当該目的地までの交通環境に存在する条件下で決定する経路決定方法であって、
第１歩行者が目的地に向かって当該第１歩行者以外の複数の第２歩行者との干渉を回避しながら歩行する場合において、当該複数の第２歩行者の歩行パターンを複数種の互いに異なる歩行パターンに設定したときの前記第１歩行者の複数の歩行経路を取得し、
前記ロボットが前記複数の歩行経路に沿ってそれぞれ移動したときの、当該ロボットの前方の視覚的環境を表す環境画像を含む画像データと、当該ロボットの行動を表す行動パラメータとの関係を紐付けした複数のデータベースを作成し、
前記画像データを入力とし前記行動パラメータを出力とする行動モデルのモデルパラメータを、前記複数のデータベースを用いて所定の学習方法で学習することにより、学習済みの当該行動モデルである学習済みモデルを作成し、
当該学習済みモデルを用いて、前記ロボットの前記経路を決定することを特徴とする経路決定方法。
請求項１に記載の経路決定方法において、
前記画像データは、前記環境画像に加えて、速度度合画像及び位置画像をさらに含んでおり、
前記速度度合画像は、前記ロボットの速度を最大移動速度と最小移動速度との間の範囲内の位置関係で表した画像であり、
前記位置画像は、前記ロボットの現時点の位置を０゜として、前記目的地の位置を－９０ｄｅｇ～９０ｄｅｇの範囲内の位置関係で表した画像であることを特徴とする経路決定方法。
請求項１に記載の経路決定方法において、
前記複数のデータベースは、仮想空間において仮想の前記ロボットが前記複数の歩行経路に沿ってそれぞれ移動したときの前記画像データと前記行動パラメータとの関係を紐付けしたものであることを特徴とする経路決定方法。
請求項２に記載の経路決定方法において、
前記複数のデータベースは、仮想空間において仮想の前記ロボットが前記複数の歩行経路に沿ってそれぞれ移動したときの前記画像データと前記行動パラメータとの関係を紐付けしたものであることを特徴とする経路決定方法。