JP2022044383A

JP2022044383A - モデルパラメータ学習方法及び移動態様パラメータ決定方法

Info

Publication number: JP2022044383A
Application number: JP2020149979A
Authority: JP
Inventors: 雄二長谷川; Yuji Hasegawa
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2022-03-17
Also published as: US20220076004A1; EP3964913A1; EP3964913B1

Abstract

【課題】移動装置が複数の移動体及び静止物体が周辺に存在する環境下で移動する際に使用する移動態様モデルのモデルパラメータを適切に学習することができるモデルパラメータ学習方法などを提供する。【解決手段】学習方法では、基準歩行者Ｍ１が目的地まで複数回、移動した際の移動方向の時系列と、基準歩行者Ｍ１の移動方向における近傍歩行者Ｍ２の位置関係を表すマスク画像の時系列と、環境情報画像３５の時系列とが取得され、これらの時系列を互いに関連付けすることにより、学習用データが作成され、学習用データを用いて、ＣＮＮ３３ａのモデルパラメータが誤差逆伝播法により学習される。【選択図】図４

Description

本発明は、移動装置における移動態様モデルのモデルパラメータ学習方法などに関する。

従来、モデルパラメータ学習方法として、特許文献１に記載されたものが本出願人によって既に提案されている。このモデルパラメータ学習方法は、ＣＮＮのモデルパラメータを学習するものであり、このＣＮＮは、ロボットがショッピングモールなどの施設において人混みの中を移動する際、ロボットの移動方向を決定するためのものである。

このモデルパラメータ学習方法では、基準となる歩行者（以下「基準歩行者」という）が人混みの中を実際に歩行した際の移動軌道と基準歩行者周辺の歩行者（以下「近傍歩行者」という）の移動軌道とがＬＩＤＡＲなどを用いて取得される。次いで、ｇａｚｅｂｏ環境下で、基準歩行者の移動軌道及び近傍歩行者の移動軌道を仮想的に再現することにより、学習用のマスク画像が作成される。そして、この学習用のマスク画像を入力として、ＣＮＮのモデルパラメータが学習される。

国際公開第２０２０／１３６９７８号

上記特許文献１のモデルパラメータ学習方法によれば、ＣＮＮのモデルパラメータの学習に用いているマスク画像は、基準歩行者が人混みの中を実際に歩行した際の移動軌道と近傍歩行者の移動軌道とを用いて作成されている関係上、ＣＮＮのモデルパラメータの学習において、壁などの静止物体（構造物）の配置が考慮されていないという課題がある。この課題は、ロボット以外の移動装置を用いた場合、ＣＮＮ以外の移動態様モデルを用いた場合、又は、移動方向以外の移動態様パラメータを用いた場合にも発生する。

本発明は、上記課題を解決するためになされたもので、移動装置が複数の移動体及び静止物体が周辺に存在する環境下で移動する際に使用する移動態様モデルのモデルパラメータを適切に学習することができるモデルパラメータ学習方法などを提供することを目的とする。

上記目的を達成するために、請求項１に係る発明は、移動装置（ロボット２）の周辺に複数の移動体が存在する条件下で、移動装置（ロボット２）が出発地Ｐｓから目的地Ｐｏまで移動する際の移動態様を表す移動態様パラメータ（移動方向）を決定するための移動態様モデル（ＣＮＮ）のモデルパラメータを学習装置３０によって学習するモデルパラメータ学習方法であって、学習装置３０は、第１移動体（基準歩行者Ｍ１）の周辺に複数の第２移動体（近傍歩行者Ｍ２）が存在する条件下で複数の第２移動体の各々との干渉を回避しながら第１移動体が出発地Ｐｓから目的地Ｐｏまで移動した際の第１移動体の移動態様パラメータ（移動方向）の時系列を取得する移動態様パラメータ取得ステップ（歩行軌道取得部３２ａ）と、第１移動体が出発地Ｐｓから目的地Ｐｏまで移動した際の第１移動体の移動方向における複数の第２移動体の位置関係情報を表す位置関係情報（図７のマスク画像）の時系列を取得する位置関係情報取得ステップ（マスク画像作成部３２ｂ）と、第１移動体が出発地Ｐｓから目的地Ｐｏまで移動した際の第１移動体の周辺における静止物体の延在態様を表す情報である環境情報（環境情報画像３５）の時系列を取得する環境情報取得ステップ（環境情報作成部３２ｃ）と、移動態様パラメータの時系列と、移動態様パラメータの時系列と同期の位置関係情報の時系列と、移動態様パラメータの時系列と同期の環境情報の時系列とを互いに関連付けすることにより、学習用データを作成する学習用データ作成ステップ（学習用データ作成部３２）と、学習用データを移動態様モデルへの入力として用いて、移動態様パラメータを出力とする移動態様モデル（ＣＮＮ３３ａ）のモデルパラメータを所定の機械学習アルゴリズムにより学習する学習ステップ（ＣＮＮ学習部３３）と、を実行することを特徴とする。

このモデルパラメータ学習方法によれば、移動態様パラメータの時系列と、移動態様パラメータの時系列と同期の位置関係情報の時系列と、移動態様パラメータの時系列と同期の環境情報の時系列とを互いに関連付けすることにより、学習用データが作成され、この学習用データを移動態様モデルへの入力として用いて、移動態様パラメータを出力とする移動態様モデルのモデルパラメータが所定の機械学習アルゴリズムにより学習される。

この場合、移動態様パラメータの時系列、位置関係情報の時系列及び環境情報の時系列はいずれも、第１移動体が出発地から目的地まで移動した際に取得されるので、これらの時系列を用いて、移動態様モデルのモデルパラメータを学習することによって、第１移動体の周辺に位置する静止物体の延在態様を反映させながら、移動態様モデルのモデルパラメータを適切に学習用することができる。したがって、移動装置が人混み及び構造物などの静止物体が存在する環境下で出発地から目的地まで移動する際に、学習後の移動態様モデルを使用した場合、移動装置の周辺に存在する移動体及び静止物体との干渉を回避できるように、移動態様パラメータを決定することができる。

請求項２に係る発明は、請求項１に記載のモデルパラメータ学習方法において、環境情報取得ステップでは、環境情報が２次元地図（図８）上の情報として取得されることを特徴とする。

このモデルパラメータ学習方法によれば、環境情報が２次元地図上の情報として取得されるので、学習後の移動態様モデルを用いて移動態様パラメータを決定する際、２次元地図を用いることができる。

請求項３に係る発明は、請求項１に記載のモデルパラメータ学習方法において、環境情報取得ステップでは、環境情報がオプティカルフロー（図１５）として取得されることを特徴とする。

このモデルパラメータ学習方法によれば、環境情報がオプティカルフローとして取得されるので、学習後の移動態様モデルを用いて移動態様パラメータを決定する際、移動装置の進行方向の画像を用いることができる。

請求項４に係る移動態様パラメータ決定方法は、請求項１ないし３のいずれかに記載のモデルパラメータ学習方法によってモデルパラメータが学習された移動態様モデルを用いて、移動態様パラメータ決定装置（軌道決定装置１）により、移動装置（ロボット２）の移動態様パラメータ（移動方向）が決定されることを特徴とする。

この移動態様パラメータ決定方法によれば、前述したようにモデルパラメータが学習された移動態様モデルを用いて、移動装置の移動態様パラメータが決定されるので、移動装置が移動体及び静止物体が存在する環境下で目的地まで移動する場合でも、移動装置の周辺に存在する移動体及び静止物体との干渉を回避できるように、移動態様パラメータを決定することができる。

本発明の第１実施形態に係るモデルパラメータ学習方法を適用したロボットの外観を示す図である。ロボットによる案内システムの構成を示す図である。ロボットの電気的な構成を示すブロック図である。学習装置の機能的な構成を示すブロック図である。基準歩行者の歩行軌道を取得するときの斜視図である。歩行軌道の取得結果の一例を示す図である。マスク画像作成部で作成したマスク画像を示す図である。環境情報作成部で環境情報画像の作成に用いる地図を示す図である。図８の地図から作成された環境情報画像を示す図である。ＣＮＮ学習部の機能的な構成を示すブロック図である。軌道決定装置の機能的な構成を示す図である。環境オプティカルフローの作成に用いる地図画像である。図１２を２値化してエッジ検出処理を施した図である。図１３から作成した仮想画像を示す図である。図１４から作成した環境オプティカルフローを示す図である。第２実施形態のＣＮＮ学習部の機能的な構成を示す図である。

以下、本発明の第１実施形態に係るモデルパラメータ学習方法について説明する。本実施形態のモデルパラメータ学習方法は、移動態様モデルとしての後述するＣＮＮのモデルパラメータを学習するものであり、このＣＮＮは、移動装置としてのロボット２（図１参照）が移動軌道を決定する際に用いられる。

まず、図１に示す軌道決定装置１について説明する。この軌道決定装置１は、倒立振子型のロボット２に適用されたものであり、後述する手法によって、人混みなどの交通参加者の存在確率が高い条件下で、ロボット２の移動軌道を決定するものである。なお、本実施形態では、軌道決定装置１が移動態様パラメータ決定装置に相当する。

このロボット２は、自律移動型のものであり、図２に示す案内システム３で用いられる。この案内システム３は、ショッピングモールや空港などにおいて、ロボット２が利用者を先導しながらその目的地（例えば店舗や搭乗ゲート）まで案内する形式のものである。

図２に示すように、案内システム３は、所定の領域内を自律移動する複数のロボット２と、複数のロボット２とは別体に設けられ、利用者の目的地が入力される入力装置４と、ロボット２及び入力装置４と相互に無線通信可能なサーバ５とを備えている。

この入力装置４は、パソコンタイプのものであり、利用者（又は操作者）のマウス及びキーボードの操作によって、利用者の目的地が入力されたときに、それを表す無線信号をサーバ５に送信する。サーバ５は、入力装置４からの無線信号を受信すると、内部の地図データに基づき、利用者の目的地自体又は目的地までの中継地点を目的地Ｐｏに設定し、それを表す目的地信号をロボット２に送信する。

後述するように、ロボット２内の制御装置１０は、サーバ５からの目的地信号を無線通信装置１４を介して受信したときには、その目的地信号に含まれる目的地Ｐｏを読み込み、出発地Ｐｓから目的地Ｐｏまでの移動軌道を決定する。また、制御装置１０は、サーバ５と無線通信により、地図データ（図８参照）上のロボット２の位置を取得する。

次に、ロボット２の機械的な構成について説明する。図１に示すように、ロボット２は、本体２０と、本体２０の下部に設けられた移動機構２１などを備えており、この移動機構２１によって路面上を全方位に移動可能に構成されている。

この移動機構２１は、具体的には、例えば特開２０１７－５６７６３号のものと同様に構成されているので、その詳細な説明はここでは省略するが、円環状の芯体２２、複数のローラ２３、第１アクチュエータ２４（図３参照）及び第２アクチュエータ２５（図３参照）などを備えている。

複数のローラ２３は、芯体２２の円周方向（軸心周り方向）に等角度間隔で並ぶように、芯体２２に外挿されており、複数のローラ２３の各々は、芯体２２の軸心周りに、芯体２２と一体に回転可能になっている。また、各ローラ２３は、各ローラ２３の配置位置における芯体２２の横断面の中心軸（芯体２２の軸心を中心とする円周の接線方向の軸）周りに回転可能になっている。

さらに、第１アクチュエータ２４は、電動機で構成されており、後述する制御入力信号が制御装置１０から入力されたときに、図示しない駆動機構を介して、芯体２２をその軸心周りに回転駆動する。

一方、第２アクチュエータ２５も、第１アクチュエータ２４と同様に、電動機で構成されており、制御入力信号が制御装置１０から入力されたときに、図示しない駆動機構を介して、ローラ２３をその軸心周りに回転駆動する。それにより、本体２０は、路面上を全方位に移動するように、第１アクチュエータ２４及び第２アクチュエータ２５によって駆動される。以上の構成により、ロボット２は、路面上を全方位に移動可能になっている。

次に、ロボット２の電気的な構成について説明する。図３に示すように、ロボット２は、制御装置１０、カメラ１１、ＬＩＤＡＲ１２、加速度センサ１３及び無線通信装置１４をさらに備えている。

この制御装置１０は、ＣＰＵ、ＲＡＭ、ＲＯＭ、Ｅ２ＰＲＯＭ、Ｉ／Ｏインターフェース及び各種の電気回路（いずれも図示せず）などからなるマイクロコンピュータで構成されている。このＥ２ＰＲＯＭ内には、ロボット２が案内する場所の地図データ及びＣＮＮ（Convolutional Neural Network）が記憶されている。この場合、ＣＮＮとしては、後述する学習装置３０によって、ＣＮＮのモデルパラメータすなわち結合層の重み及びバイアス項が十分に学習されたものが記憶されている。

カメラ１１は、ロボット２の周辺環境を撮像し、それを表す画像信号を制御装置１０に出力する。また、ＬＩＤＡＲ１２は、レーザ光を用いて、周辺環境内の対象物までの距離などを計測し、それを表す計測信号を制御装置１０に出力する。さらに、加速度センサ１３は、ロボット２の加速度を検出して、それを表す検出信号を制御装置１０に出力する。

制御装置１０は、以上のカメラ１１の画像信号及びＬＩＤＡＲ１２の計測信号を用いて、amlc（adaptive Monte Carlo localization）手法により、ロボット２の自己位置を推定する。また、制御装置１０は、ＬＩＤＡＲ１２の計測信号及び加速度センサ１３の検出信号に基づいて、ロボット２の後述するｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙを算出する。

さらに、制御装置１０には、無線通信装置１４が電気的に接続されており、制御装置１０は、この無線通信装置１４を介してサーバ５との間で無線通信を実行する。

次に、本実施形態の軌道決定装置１の構成及び軌道決定方法の原理について説明する。まず、図４に示す学習装置３０について説明する。この学習装置３０は、後述するＣＮＮのモデルパラメータ（結合層の重み及びバイアス項）を学習するためのものであり、ＬＩＤＡＲ３１、学習用データ作成部３２及びＣＮＮ学習部３３を備えている。これらの要素３２～３３は、具体的には、図示しないコンピュータなどによって構成されている。

この学習用データ作成部３２は、以下に述べるように、ＬＩＤＡＲ３１の計測結果に基づき、学習用データを作成するものであり、図４に示すように、歩行軌道取得部３２ａ、マスク画像作成部３２ｂ及び環境情報作成部３２ｃを備えている。この歩行軌道取得部３２ａでは、歩行者の歩行軌道を学習するために、ＬＩＤＡＲ３１の計測結果に基づき、歩行者の歩行軌道が以下に述べるように、所定の制御周期で逐次取得される。

例えば、ＬＩＤＡＲ３１によって、図５に示すように、基準歩行者Ｍ１を基準となる歩行者として設定し、その進行方向に複数の歩行者（以下「近傍歩行者」という）Ｍ２が不規則な配置で存在する人混みの交通環境下において、この基準歩行者Ｍ１が歩行開始地点Ｐｓ（図６参照）から目的地Ｐｏ（図６参照）まで実際に歩行したときの位置の変化と、複数の近傍歩行者Ｍ２の位置の変化とを計測する。なお、本実施形態では、基準歩行者Ｍ１が第１移動体に相当し、近傍歩行者Ｍ２が第２移動体に相当する。

この計測は、基準歩行者Ｍ１が歩行開始地点Ｐｓから目的地Ｐｏまで複数回、歩行した際に実施され、それらの計測結果がＬＩＤＡＲ３１から歩行軌道取得部３２ａに入力される。この場合、基準歩行者Ｍ１は、同一人物である必要がなく、例えば、複数の異なる歩行者が歩行開始地点Ｐｓから目的地Ｐｏまで１回以上歩行するように構成してもよい。その場合には、ＬＩＤＡＲ３１によって、これらの歩行者の位置の変化と、複数の近傍歩行者Ｍ２の位置の変化とを計測し、これらの計測結果を歩行軌道取得部３２ａに入力するように構成すればよい。

そして、歩行軌道取得部３２ａでは、ＬＩＤＡＲ３１の計測結果に基づき、基準歩行者Ｍ１の歩行開始地点Ｐｓから目的地Ｐｏまでの歩行軌道Ｒｗを、例えば図６に示すように逐次、サンプリングして記憶する。同図に示すように、基準歩行者Ｍ１の歩行軌道Ｒｗは、基準歩行者Ｍ１の進行方向に延びる軸をｘ軸と規定し、基準歩行者Ｍ１の進行方向に直交する軸をｙ軸と規定したときの、２次元のｘ－ｙ座標値の時系列として取得される。

このように、歩行軌道取得部３２ａでは、基準歩行者Ｍ１の歩行軌道Ｒｗが、基準歩行者Ｍ１が歩行開始地点Ｐｓから目的地Ｐｏまで歩行した回数分、近傍歩行者Ｍ２の位置と紐付けた状態で取得される。

また、歩行軌道取得部３２ａでは、ＬＩＤＡＲ３１の計測結果に基づき、サンプリング時の基準歩行者Ｍ１の移動方向指令が、「左方向」、「中央方向」及び「右方向」の３つの方向を要素とするベクトル値として所定の制御周期で逐次設定される。この移動方向指令の場合、例えば、基準歩行者Ｍ１が直進しているときには、「中央方向」が値１に設定され、それ以外の「左方向」及び「右方向」が値０に設定される。

また、基準歩行者Ｍ１が右方向に移動しているときには、「右方向」が値１に設定され、それ以外の方向が値０に設定される。この場合、「右方向」は基準歩行者Ｍ１が直進方向に対して所定角度θ以上、右に移動するときに値１に設定される。さらに、基準歩行者Ｍ１が左方向に移動しているときには、「左方向」が値１に設定され、それ以外の方向が値０に設定される。この場合、「左方向」は基準歩行者Ｍ１が直進方向に対して所定角度θ以上、左に移動するときに値１に設定される。

一方、マスク画像作成部３２ｂでは、歩行軌道取得部３２ａによる歩行軌道Ｒｗの取得結果及びＬＩＤＡＲ３１の計測結果に基づき、マスク画像（図７参照）が所定の制御周期で逐次作成される。このマスク画像は、基準歩行者Ｍ１の進行方向の視界に存在する近傍歩行者Ｍ２の配置を示すものであり、例えば、図７に示すように、３人の近傍歩行者Ｍ２が存在する場合、これらの近傍歩行者Ｍ２の位置が３つの矩形のボックスＢとして表示される。同図において、３つのボックスＢの破線で示す領域は実際には赤色で表示され、それ以外の点描で示す領域は実際には黒色で表示される。なお、本実施形態では、マスク画像の時系列が第１移動体の移動方向における複数の第２移動体の位置関係情報の時系列に相当する。

これと同時に、マスク画像の上端部には、計測時の目的地Ｐｏの位置が矩形の白色ボックスとして表示される。この目的地Ｐｏは、基準歩行者Ｍ１の現時点の自己位置を基準としたときの前方の中央位置を０ｄｅｇとして、－９０ｄｅｇ～９０ｄｅｇの範囲内の値として設定される。

さらに、このマスク画像の下端には、サンプリング時の基準歩行者Ｍ１のｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙが、２つの矩形の白色ボックスとして表示される。これらのｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙはそれぞれ、基準歩行者Ｍ１のｘ軸方向及びｙ軸方向の速度成分であり、基準歩行者Ｍ１の最小移動速度ｖ＿ｍｉｎ（例えば値０）と最大移動速度ｖ＿ｍａｘの範囲内の値として設定される。

また、環境情報作成部３２ｃでは、ＬＩＤＡＲ３１の計測結果と、図８に示す２次元地図に基づき、環境情報画像３５（図９参照）が所定の制御周期で逐次作成される。図８の地図は、歩行開始地点Ｐｓから目的地Ｐｏまでの歩行ルートの環境を表すものであり、環境情報画像３５は、サンプリング時の基準歩行者Ｍ１の位置（図示せず）を中心とする矩形領域の画像として、図８の地図から切り出され、図９に示すように作成される。

図９において、空白の部分が構造物の存在しない領域すなわち通行可能な領域であり、黒色又は灰色で示す領域は、壁などの構造物が存在する領域である。また、図８及び図９に示す１点鎖線の枠は、理解の容易化のために付加したものであり、実際の環境情報画像３５には、表示されないものである。

そして、学習用データ作成部３２では、以上のように取得された基準歩行者Ｍ１の移動方向指令の時系列、マスク画像の時系列及び環境情報画像３５の時系列において、互いに同期の時系列がリンク付けされることにより、多数の学習用データが作成される。この場合、基準歩行者Ｍ１が急停止又は急反転したり、基準歩行者Ｍ１が近傍歩行者Ｍ２に干渉したりした場合のデータは、学習用データとして不適切であるため、学習用データから除外される。これらの学習用データは、学習用データ作成部３２からＣＮＮ学習部３３に入力される。

図１０に示すように、ＣＮＮ学習部３３は、ＣＮＮ３３ａを備えており、このＣＮＮ３３ａは、複数組（１組のみ図示）の畳み込み層（図ではＣｏｎｖと表記）３３ｂ及びプーリング層（図ではｐｏｏｌと表記）３３ｃと、複数組（１組のみ図示）の畳み込み層３３ｅ及びプーリング層３３ｆと、全結合層（図ではＦＣと表記）３３ｄとを備えている。

すなわち、ＣＮＮ３３ａは、２つのＣＮＮを組み合わせたマルチＣＮＮ構造となっており、全結合層３３ｄは、図示しないが、複数の結合層で構成されている。なお、本実施形態では、ＣＮＮ３３ａが移動態様モデルに相当する。

ＣＮＮ３３ａでは、学習用データ作成部３２から学習用データが入力された場合、学習用データのうちのマスク画像は、ＣＮＮ３３ａの最上層の畳み込み層３３ｂに入力され、その後、最下層のプーリング層３３ｃの出力が全結合層３３ｄに入力される。

また、環境情報画像３５は、最上層の畳み込み層３３ｅに入力され、その後、最下層のプーリング層３３ｆの出力が全結合層３３ｄに入力される。さらに、移動方向指令も全結合層３３ｄに入力される。

そして、最下層のプーリング層３３ｃの出力、最下層のプーリング層３３ｆの出力及び移動方向指令が全結合層３３ｄで結合されることにより、出力指令が全結合層３３ｄから出力される。この出力指令は、移動方向指令と同じ３つのラベル（「左方向」、「中央方向」及び「右方向」）を有し、これらのラベルの確率を表す値として出力される。

ＣＮＮ学習部３３では、移動方向指令と出力指令の損失関数（例えば平均２乗和誤差）を用い、誤差逆伝播法により、ＣＮＮ３３ａの全結合層３３ｄの重み及びバイアス項が演算される。すなわち、ＣＮＮ３３ａのモデルパラメータの学習演算が実行される。そして、以上の学習演算を多数回、実行することにより、ＣＮＮ学習部３３におけるＣＮＮ３３ａのモデルパラメータの学習演算が終了する。この学習装置３０では、以上のように、ＣＮＮ３３ａのモデルパラメータの学習が実行される。

次に、図１１を参照しながら、本実施形態の軌道決定装置１の構成について説明する。軌道決定装置１は、以下に述べる手法によって、ロボット２の軌道としての移動速度指令ｖを決定（算出）するものであり、この移動速度指令ｖは、ロボット２のｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙの目標となる目標ｘ軸速度ｖ＿ｘ＿ｃｍｄ及び目標ｙ軸速度ｖ＿ｙ＿ｃｍｄを要素とするものである。

同図に示すように、軌道決定装置１は、マスク画像作成部５０、環境情報作成部５１、移動方向決定部５２、暫定移動速度決定部５３及び移動速度決定部５４を備えており、これらの要素５０～５４は、具体的には、制御装置１０によって構成されている。

まず、マスク画像作成部５０について説明する。このマスク画像作成部５０では、カメラ１１からの画像信号及びＬＩＤＡＲ１２からの計測信号が入力されると、ＳＳＤ（Single Shot MultiBox Detector）手法により、マスク画像が作成される。

このマスク画像内には、前述した図７のマスク画像のボックスＢと同様に、前方の歩行者を含む交通参加者のボックス（図示せず）が表示され、ロボット２のｘ軸速度ｖ＿ｘ、ｙ軸速度ｖ＿ｙ及び目的地Ｐｏ（いずれも図示せず）が表示される。

この場合、交通参加者の位置及びサイズは、カメラ１１の画像信号及びＬＩＤＡＲ１２の計測信号に基づいて決定される。また、ロボット２のｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙは、ＬＩＤＡＲ１２の計測信号及び加速度センサ１３の検出信号に基づいて決定される。さらに、目的地Ｐｏは、サーバ５からの目的地信号（図示せず）によって決定される。以上のように作成されたマスク画像は、マスク画像作成部５０から移動方向決定部５２に出力される。

また、環境情報作成部５１では、サーバ５からの無線信号が入力された場合、無線信号に含まれているロボット２の位置情報と、前述した地図データ（図８）とに基づき、前述したような環境情報画像が作成される。この環境情報画像は、環境情報作成部５１から移動方向決定部５２に出力される。

一方、移動方向決定部５２は、前述したＣＮＮ学習部３３でモデルパラメータが学習されたＣＮＮ（図示せず）を備えており、このＣＮＮを用いて、ロボット２の移動方向を以下のように決定する。

まず、移動方向決定部５２では、マスク画像作成部５０からのマスク画像及び環境情報作成部５１からの環境情報画像がＣＮＮに入力されると、前述した出力指令がＣＮＮから出力される。次いで、出力指令の３つの要素（「左方向」、「中央方向」及び「右方向」）のうち、最大値の要素の方向がロボット２の移動方向として決定される。そして、以上のように決定されたロボット２の移動方向は、移動方向決定部５２から暫定移動速度決定部５３に出力される。

この暫定移動速度決定部５３では、移動方向決定部５２からのロボット２の移動方向と、ロボット２のｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙとに基づき、暫定移動速度指令ｖ＿ｃｎｎを算出する。この暫定移動速度指令ｖ＿ｃｎｎは、ロボット２のｘ軸速度の暫定値ｖ＿ｘ＿ｃｎｎ及びｙ軸速度の暫定値ｖ＿ｙ＿ｃｎｎを要素とするものである。次いで、以上のように決定されたロボット２の暫定移動速度指令ｖ＿ｃｎｎは、暫定移動速度決定部５３から移動速度決定部５４に出力される。

この移動速度決定部５４では、暫定移動速度指令ｖ＿ｃｎｎに基づき、ＤＷＡ（Dynamic Window Approach）を適用したアルゴリズムにより、移動速度指令ｖが決定される。この移動速度指令ｖは、前述したように、目標ｘ軸速度ｖ＿ｘ＿ｃｍｄ及び目標ｙ軸速度ｖ＿ｙ＿ｃｍｄを要素とするものである。

本実施形態の軌道決定装置１では、以上のように、目標ｘ軸速度ｖ＿ｘ＿ｃｍｄ及び目標ｙ軸速度ｖ＿ｙ＿ｃｍｄを要素とする移動速度指令ｖが決定される。そして、ロボット２が移動速度指令ｖで移動するように、第１及び第２アクチュエータ２４，２５が制御される。

以上のように、第１実施形態のモデルパラメータ学習方法によれば、基準歩行者Ｍ１の移動方向指令の時系列、マスク画像の時系列及び環境情報画像の時系列において、互いに同期の時系列がリンク付けされることにより、多数の学習用データが作成される。そして、これらの学習用データを用いて、ＣＮＮ３３ａのモデルパラメータが誤差逆伝播法により学習される。

この場合、基準歩行者Ｍ１の移動方向指令の時系列、マスク画像の時系列及び環境情報画像の時系列はいずれも、基準歩行者Ｍ１が目的地まで複数回、移動した際に取得されるので、これらの時系列を用いて、ＣＮＮ３３ａのモデルパラメータを学習することによって、基準歩行者Ｍ１の周辺に位置する構造物の位置の情報を反映させながら、ＣＮＮ３３ａのモデルパラメータを学習することができる。

したがって、軌道決定装置１において、そのように学習が終了したＣＮＮを用いて、ロボット２の移動方向を決定した場合、人混み及び構造物が存在する環境下で目的地まで移動するときでも、ロボット２の周辺に存在する歩行者及び構造物との干渉を回避できるように、ロボット２の移動方向を決定することができる。また、環境情報画像が２次元地図上の情報として取得されるので、学習後の移動態様モデルを用いてロボット２の移動方向を決定する際、ロボット２内に記憶されている２次元地図データを用いて移動方向を決定することができる。

なお、第１実施形態は、移動装置として、ロボット２を用いた例であるが、本発明の移動装置は、これに限らず、移動装置の周辺に複数の移動体が存在する条件下で目的地まで移動するものであればよい。例えば、車両型のロボットや、２足歩行型のロボットを用いてもよい。

また、第１実施形態は、移動態様パラメータとして、ロボットの移動方向を用いた例であるが、本発明の移動態様パラメータは、これに限らず、移動装置が目的地まで移動する際の移動態様を表すものであればよい。例えば、移動態様パラメータとして、ロボットの移動速度（ｖｘ，ｖｙ）を用いてもよく、その場合には、ＣＮＮ学習部３３において、移動速度を出力とするＣＮＮ３３ａのモデルパラメータを学習するように構成すればよい。

また、第１実施形態は、移動態様モデルとしてＣＮＮを用いた例であるが、本発明の移動態様モデルは、これに限らず、画像データを入力とし行動パラメータを出力とするものであればよい。例えば、移動態様モデルとして、ＲＮＮ（Recurrent Neural Network）及びＤＱＮ（deep Q-network）などを用いてもよい。

さらに、第１実施形態は、所定の機械学習アルゴリズムとして、誤差逆伝播法を用いた例であるが、本発明の所定の機械学習アルゴリズムは、これに限らず、移動態様モデルのモデルパラメータを学習するものであればよい。例えば、サポートベクターマシンなどを用いてもよい。

また、第１実施形態は、第１移動体として、基準歩行者Ｍ１を用いた例であるが、本発明の第１移動体は、これに限らず、複数の第２移動体の各々との干渉を回避しながら移動できるものであればよい。例えば、第１移動体として、自律移動型のロボットを用いてもよく、自動運転可能な車両を用いてもよい。

さらに、第１実施形態は、第２移動体として、近傍歩行者Ｍ２を用いた例であるが、これに代えて、第２移動体として、自律移動型のロボット、自動運転可能な車両又は動物などを用いてもよい。

また、本発明の移動体は、歩行者、自律移動型のロボット、自動運転可能な車両又は動物などであってもよい。

次に、本発明の第２実施形態に係るモデルパラメータ学習方法について説明する。本実施形態のモデルパラメータ学習方法は、第１実施形態のモデルパラメータ学習法と比較した場合、一部を除いて同一に構成されているので、以下、異なる点を中心に説明する。また、第１実施形態と同一の構成に対しては同じ符号を付すとともに、その説明を省略する。

まず、本実施形態の場合、前述した学習用データ作成部３２で作成されるデータと、前述したＣＮＮ学習部３３に代えて、後述するＣＮＮ学習部３３Ａ（図１６参照）を備えている点が異なっている。

本実施形態の学習用データ作成部３２の場合、環境情報作成部３２ｃにおいて、前述した環境情報画像３５に代えて、以下に述べるように、環境オプティカルフロー６３（図１５参照）が作成される。この環境オプティカルフロー６３は、サンプリング時の基準歩行者Ｍ１の周辺における構造物の情報を表すものである。

まず、図１２に示す画像６０が、サンプリング時の基準歩行者Ｍ１の位置（図示せず）を中心とする矩形領域の画像として前述した図８の地図から切り出される。次いで、図１２の画像６０における黒色の領域を構造物（障害物）と見なし、この領域の境界を抽出するために、画像６０の黒色領域とそれ以外の領域を２値化してエッジ検出処理を施すことにより、図１３に示す画像６１が取得される。そして、図１３のエッジ情報に基づき、壁などの構造物の位置が地図座標系で取得され、図１４に示す仮想画像６２が作成される。この仮想画像６２は、サンプリング時の基準歩行者Ｍ１の前方における壁面及び路面に対してランダムな矩形模様を貼り付けた仮想的な画像に相当する。

次に、図１４に示す仮想画像６２に対して、オプティカルフロー算出処理を施すことにより、図１５に示す環境オプティカルフロー６３が作成される。同図に示すように、この環境オプティカルフロー６３の場合、環境情報を表す多数のオプティカルフロー６３ａ，６３ｂが含まれている。多数のオプティカルフロー６３ａは、地図座標系における同一の位置を示しており、多数のオプティカルフロー６３ｂは、地図座標系における同一の位置であって、多数のオプティカルフロー６３ａと異なる位置を示している。また、図中の１点鎖線の枠は、理解の容易化のために表示したものである。環境情報作成部３２ｃでは、以上のように、環境オプティカルフロー６３が作成される。

さらに、本実施形態の場合、前述した学習用データ作成部３２において、基準歩行者Ｍ１の移動方向指令の時系列、マスク画像の時系列及環境オプティカルフロー６３の時系列において、互いに同期の時系列がリンク付けされることにより、多数の学習用データが作成される。そして、これらの学習用データは、学習用データ作成部３２からＣＮＮ学習部３３Ａ（図１６参照）に入力される。

図１６に示すように、ＣＮＮ学習部３３Ａは、前述した図１０のＣＮＮ学習部３３と同様に構成されたＣＮＮ３３ａを備えている。すなわち、ＣＮＮ３３ａは、２つのＣＮＮを組み合わせたマルチＣＮＮ構造となっている。

このＣＮＮ学習部３３Ａでは、学習用データ作成部３２から学習用データが入力された場合、前述したように、学習用データのうちのマスク画像は、ＣＮＮ３３ａの最上層の畳み込み層３３ｂに入力され、その後、最下層のプーリング層３３ｃの出力が全結合層３３ｄに入力される。

また、学習用データのうちの環境オプティカルフローは、最上層の畳み込み層３３ｅに入力され、その後、最下層のプーリング層３３ｆの出力が全結合層３３ｄに入力される。さらに、移動方向指令も全結合層３３ｄに入力される。そして、最下層のプーリング層３３ｃ，３３ｆの出力及び移動方向指令が全結合層３３ｄで結合されることにより、出力指令が全結合層３３ｄから出力される。

そして、ＣＮＮ学習部３３Ａでは、前述したＣＮＮ学習部３３と同様に、移動方向指令と出力指令の損失関数（例えば平均２乗和誤差）を用い、誤差逆伝播法により、全結合層３３ｄの重み及びバイアス項が演算される。この学習装置３０では、以上のように、２つのＣＮＮのモデルパラメータの学習が実行される。

一方、本実施形態の場合、前述した軌道決定装置１の環境情報作成部５１では、カメラ１１からの画像信号に基づき、環境オプティカルフロー６３が作成され、この環境オプティカルフロー６３が環境情報作成部５１から移動方向決定部５２に出力される。そして、移動方向決定部５２では、前述したＣＮＮ学習部３３Ａでモデルパラメータが学習された２つのＣＮＮを用いて、前述した手法により、ロボット２の移動方向が決定される。

以上のように、第２実施形態のモデルパラメータ学習方法によれば、２つのＣＮＮのモデルパラメータの学習が実行されるので、第１実施形態のモデルパラメータ学習方法と同様の作用効果を得ることができる。また、軌道決定装置１において、モデルパラメータの学習が終了した２つのＣＮＮを用いて、ロボット２の移動方向を決定する際、ロボット２のカメラ１１の画像信号を用いることができる。

なお、第２実施形態の学習用データ作成部３２の環境情報作成部３２ｃにおいて、環境オプティカルフローを、前述した作成方法に代えて、以下に述べる手法によって作成してもよい。例えば、近傍歩行者Ｍ２が存在しない条件下で、ロボット２を基準歩行者Ｍ１の移動軌道に沿って移動させ、その際のロボット２のカメラ１１で撮像した画像から環境オプティカルフローを作成してもよい。また、近傍歩行者Ｍ２が存在しない条件下で、カメラを装着した歩行者を基準歩行者Ｍ１の移動軌道に沿って移動させ、その際のカメラで撮像した画像から環境オプティカルフローを作成してもよい。

１軌道決定装置（移動態様パラメータ決定装置）
２ロボット（移動装置）
３０学習装置
３２学習用データ作成部（学習用データ作成ステップ）
３２ａ歩行軌道取得部（移動態様パラメータ取得ステップ）
３２ｂマスク画像作成部（位置関係情報取得ステップ）
３２ｃ環境情報作成部（環境情報取得ステップ）
３３ＣＮＮ学習部（学習ステップ）
３３ａＣＮＮ（移動態様モデル）
３５環境情報画像（環境情報）
Ｐｓ出発地
Ｐｏ目的地
Ｍ１基準歩行者（第１移動体）
Ｍ２近傍歩行者（第２移動体）

Claims

移動装置の周辺に複数の移動体が存在する条件下で、当該移動装置が出発地から目的地まで移動する際の移動態様を表す移動態様パラメータを決定するための移動態様モデルのモデルパラメータを学習装置によって学習するモデルパラメータ学習方法であって、
前記学習装置は、
第１移動体が周辺に複数の第２移動体が存在する条件下で当該複数の第２移動体の各々との干渉を回避しながら当該第１移動体が前記出発地から前記目的地まで移動した際の前記第１移動体の前記移動態様パラメータの時系列を取得する移動態様パラメータ取得ステップと、
前記第１移動体が前記出発地から前記目的地まで移動した際の当該第１移動体の移動方向における複数の第２移動体の位置関係情報の時系列を取得する位置関係情報取得ステップと、
前記第１移動体が前記出発地から前記目的地まで移動した際の当該第１移動体の周辺における静止物体の延在態様を表す情報である環境情報の時系列を取得する環境情報取得ステップと、
前記移動態様パラメータの時系列と、前記移動態様パラメータの時系列と同期の前記位置関係情報の時系列と、前記移動態様パラメータの時系列と同期の前記環境情報の時系列とを互いに関連付けすることにより、学習用データを作成する学習用データ作成ステップと、
前記学習用データを前記移動態様モデルへの入力として用いて、前記移動態様パラメータを出力とする前記移動態様モデルのモデルパラメータを所定の機械学習アルゴリズムにより学習する学習ステップと、
を実行することを特徴とするモデルパラメータ学習方法。
請求項１に記載のモデルパラメータ学習方法において、
前記環境情報取得ステップでは、前記環境情報が２次元地図上の情報として取得されることを特徴とするモデルパラメータ学習方法。
請求項１に記載のモデルパラメータ学習方法において、
前記環境情報取得ステップでは、前記環境情報がオプティカルフローとして取得されることを特徴とするモデルパラメータ学習方法。
請求項１ないし３のいずれかに記載のモデルパラメータ学習方法によって前記モデルパラメータが学習された前記移動態様モデルを用いて、移動態様パラメータ決定装置により、前記移動装置の前記移動態様パラメータが決定されることを特徴とする移動態様パラメータ決定方法。