JP2022044383A - モデルパラメータ学習方法及び移動態様パラメータ決定方法 - Google Patents

モデルパラメータ学習方法及び移動態様パラメータ決定方法 Download PDF

Info

Publication number
JP2022044383A
JP2022044383A JP2020149979A JP2020149979A JP2022044383A JP 2022044383 A JP2022044383 A JP 2022044383A JP 2020149979 A JP2020149979 A JP 2020149979A JP 2020149979 A JP2020149979 A JP 2020149979A JP 2022044383 A JP2022044383 A JP 2022044383A
Authority
JP
Japan
Prior art keywords
movement mode
moving
model
learning
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020149979A
Other languages
English (en)
Inventor
雄二 長谷川
Yuji Hasegawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2020149979A priority Critical patent/JP2022044383A/ja
Priority to EP21188881.3A priority patent/EP3964913B1/en
Priority to US17/463,145 priority patent/US20220076004A1/en
Publication of JP2022044383A publication Critical patent/JP2022044383A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0248Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means in combination with a laser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Electromagnetism (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Optics & Photonics (AREA)
  • Social Psychology (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Image Analysis (AREA)
  • Navigation (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

【課題】移動装置が複数の移動体及び静止物体が周辺に存在する環境下で移動する際に使用する移動態様モデルのモデルパラメータを適切に学習することができるモデルパラメータ学習方法などを提供する。【解決手段】学習方法では、基準歩行者M1が目的地まで複数回、移動した際の移動方向の時系列と、基準歩行者M1の移動方向における近傍歩行者M2の位置関係を表すマスク画像の時系列と、環境情報画像35の時系列とが取得され、これらの時系列を互いに関連付けすることにより、学習用データが作成され、学習用データを用いて、CNN33aのモデルパラメータが誤差逆伝播法により学習される。【選択図】図4

Description

本発明は、移動装置における移動態様モデルのモデルパラメータ学習方法などに関する。
従来、モデルパラメータ学習方法として、特許文献1に記載されたものが本出願人によって既に提案されている。このモデルパラメータ学習方法は、CNNのモデルパラメータを学習するものであり、このCNNは、ロボットがショッピングモールなどの施設において人混みの中を移動する際、ロボットの移動方向を決定するためのものである。
このモデルパラメータ学習方法では、基準となる歩行者(以下「基準歩行者」という)が人混みの中を実際に歩行した際の移動軌道と基準歩行者周辺の歩行者(以下「近傍歩行者」という)の移動軌道とがLIDARなどを用いて取得される。次いで、gazebo環境下で、基準歩行者の移動軌道及び近傍歩行者の移動軌道を仮想的に再現することにより、学習用のマスク画像が作成される。そして、この学習用のマスク画像を入力として、CNNのモデルパラメータが学習される。
国際公開第2020/136978号
上記特許文献1のモデルパラメータ学習方法によれば、CNNのモデルパラメータの学習に用いているマスク画像は、基準歩行者が人混みの中を実際に歩行した際の移動軌道と近傍歩行者の移動軌道とを用いて作成されている関係上、CNNのモデルパラメータの学習において、壁などの静止物体(構造物)の配置が考慮されていないという課題がある。この課題は、ロボット以外の移動装置を用いた場合、CNN以外の移動態様モデルを用いた場合、又は、移動方向以外の移動態様パラメータを用いた場合にも発生する。
本発明は、上記課題を解決するためになされたもので、移動装置が複数の移動体及び静止物体が周辺に存在する環境下で移動する際に使用する移動態様モデルのモデルパラメータを適切に学習することができるモデルパラメータ学習方法などを提供することを目的とする。
上記目的を達成するために、請求項1に係る発明は、移動装置(ロボット2)の周辺に複数の移動体が存在する条件下で、移動装置(ロボット2)が出発地Psから目的地Poまで移動する際の移動態様を表す移動態様パラメータ(移動方向)を決定するための移動態様モデル(CNN)のモデルパラメータを学習装置30によって学習するモデルパラメータ学習方法であって、学習装置30は、第1移動体(基準歩行者M1)の周辺に複数の第2移動体(近傍歩行者M2)が存在する条件下で複数の第2移動体の各々との干渉を回避しながら第1移動体が出発地Psから目的地Poまで移動した際の第1移動体の移動態様パラメータ(移動方向)の時系列を取得する移動態様パラメータ取得ステップ(歩行軌道取得部32a)と、第1移動体が出発地Psから目的地Poまで移動した際の第1移動体の移動方向における複数の第2移動体の位置関係情報を表す位置関係情報(図7のマスク画像)の時系列を取得する位置関係情報取得ステップ(マスク画像作成部32b)と、第1移動体が出発地Psから目的地Poまで移動した際の第1移動体の周辺における静止物体の延在態様を表す情報である環境情報(環境情報画像35)の時系列を取得する環境情報取得ステップ(環境情報作成部32c)と、移動態様パラメータの時系列と、移動態様パラメータの時系列と同期の位置関係情報の時系列と、移動態様パラメータの時系列と同期の環境情報の時系列とを互いに関連付けすることにより、学習用データを作成する学習用データ作成ステップ(学習用データ作成部32)と、学習用データを移動態様モデルへの入力として用いて、移動態様パラメータを出力とする移動態様モデル(CNN33a)のモデルパラメータを所定の機械学習アルゴリズムにより学習する学習ステップ(CNN学習部33)と、を実行することを特徴とする。
このモデルパラメータ学習方法によれば、移動態様パラメータの時系列と、移動態様パラメータの時系列と同期の位置関係情報の時系列と、移動態様パラメータの時系列と同期の環境情報の時系列とを互いに関連付けすることにより、学習用データが作成され、この学習用データを移動態様モデルへの入力として用いて、移動態様パラメータを出力とする移動態様モデルのモデルパラメータが所定の機械学習アルゴリズムにより学習される。
この場合、移動態様パラメータの時系列、位置関係情報の時系列及び環境情報の時系列はいずれも、第1移動体が出発地から目的地まで移動した際に取得されるので、これらの時系列を用いて、移動態様モデルのモデルパラメータを学習することによって、第1移動体の周辺に位置する静止物体の延在態様を反映させながら、移動態様モデルのモデルパラメータを適切に学習用することができる。したがって、移動装置が人混み及び構造物などの静止物体が存在する環境下で出発地から目的地まで移動する際に、学習後の移動態様モデルを使用した場合、移動装置の周辺に存在する移動体及び静止物体との干渉を回避できるように、移動態様パラメータを決定することができる。
請求項2に係る発明は、請求項1に記載のモデルパラメータ学習方法において、環境情報取得ステップでは、環境情報が2次元地図(図8)上の情報として取得されることを特徴とする。
このモデルパラメータ学習方法によれば、環境情報が2次元地図上の情報として取得されるので、学習後の移動態様モデルを用いて移動態様パラメータを決定する際、2次元地図を用いることができる。
請求項3に係る発明は、請求項1に記載のモデルパラメータ学習方法において、環境情報取得ステップでは、環境情報がオプティカルフロー(図15)として取得されることを特徴とする。
このモデルパラメータ学習方法によれば、環境情報がオプティカルフローとして取得されるので、学習後の移動態様モデルを用いて移動態様パラメータを決定する際、移動装置の進行方向の画像を用いることができる。
請求項4に係る移動態様パラメータ決定方法は、請求項1ないし3のいずれかに記載のモデルパラメータ学習方法によってモデルパラメータが学習された移動態様モデルを用いて、移動態様パラメータ決定装置(軌道決定装置1)により、移動装置(ロボット2)の移動態様パラメータ(移動方向)が決定されることを特徴とする。
この移動態様パラメータ決定方法によれば、前述したようにモデルパラメータが学習された移動態様モデルを用いて、移動装置の移動態様パラメータが決定されるので、移動装置が移動体及び静止物体が存在する環境下で目的地まで移動する場合でも、移動装置の周辺に存在する移動体及び静止物体との干渉を回避できるように、移動態様パラメータを決定することができる。
本発明の第1実施形態に係るモデルパラメータ学習方法を適用したロボットの外観を示す図である。 ロボットによる案内システムの構成を示す図である。 ロボットの電気的な構成を示すブロック図である。 学習装置の機能的な構成を示すブロック図である。 基準歩行者の歩行軌道を取得するときの斜視図である。 歩行軌道の取得結果の一例を示す図である。 マスク画像作成部で作成したマスク画像を示す図である。 環境情報作成部で環境情報画像の作成に用いる地図を示す図である。 図8の地図から作成された環境情報画像を示す図である。 CNN学習部の機能的な構成を示すブロック図である。 軌道決定装置の機能的な構成を示す図である。 環境オプティカルフローの作成に用いる地図画像である。 図12を2値化してエッジ検出処理を施した図である。 図13から作成した仮想画像を示す図である。 図14から作成した環境オプティカルフローを示す図である。 第2実施形態のCNN学習部の機能的な構成を示す図である。
以下、本発明の第1実施形態に係るモデルパラメータ学習方法について説明する。本実施形態のモデルパラメータ学習方法は、移動態様モデルとしての後述するCNNのモデルパラメータを学習するものであり、このCNNは、移動装置としてのロボット2(図1参照)が移動軌道を決定する際に用いられる。
まず、図1に示す軌道決定装置1について説明する。この軌道決定装置1は、倒立振子型のロボット2に適用されたものであり、後述する手法によって、人混みなどの交通参加者の存在確率が高い条件下で、ロボット2の移動軌道を決定するものである。なお、本実施形態では、軌道決定装置1が移動態様パラメータ決定装置に相当する。
このロボット2は、自律移動型のものであり、図2に示す案内システム3で用いられる。この案内システム3は、ショッピングモールや空港などにおいて、ロボット2が利用者を先導しながらその目的地(例えば店舗や搭乗ゲート)まで案内する形式のものである。
図2に示すように、案内システム3は、所定の領域内を自律移動する複数のロボット2と、複数のロボット2とは別体に設けられ、利用者の目的地が入力される入力装置4と、ロボット2及び入力装置4と相互に無線通信可能なサーバ5とを備えている。
この入力装置4は、パソコンタイプのものであり、利用者(又は操作者)のマウス及びキーボードの操作によって、利用者の目的地が入力されたときに、それを表す無線信号をサーバ5に送信する。サーバ5は、入力装置4からの無線信号を受信すると、内部の地図データに基づき、利用者の目的地自体又は目的地までの中継地点を目的地Poに設定し、それを表す目的地信号をロボット2に送信する。
後述するように、ロボット2内の制御装置10は、サーバ5からの目的地信号を無線通信装置14を介して受信したときには、その目的地信号に含まれる目的地Poを読み込み、出発地Psから目的地Poまでの移動軌道を決定する。また、制御装置10は、サーバ5と無線通信により、地図データ(図8参照)上のロボット2の位置を取得する。
次に、ロボット2の機械的な構成について説明する。図1に示すように、ロボット2は、本体20と、本体20の下部に設けられた移動機構21などを備えており、この移動機構21によって路面上を全方位に移動可能に構成されている。
この移動機構21は、具体的には、例えば特開2017-56763号のものと同様に構成されているので、その詳細な説明はここでは省略するが、円環状の芯体22、複数のローラ23、第1アクチュエータ24(図3参照)及び第2アクチュエータ25(図3参照)などを備えている。
複数のローラ23は、芯体22の円周方向(軸心周り方向)に等角度間隔で並ぶように、芯体22に外挿されており、複数のローラ23の各々は、芯体22の軸心周りに、芯体22と一体に回転可能になっている。また、各ローラ23は、各ローラ23の配置位置における芯体22の横断面の中心軸(芯体22の軸心を中心とする円周の接線方向の軸)周りに回転可能になっている。
さらに、第1アクチュエータ24は、電動機で構成されており、後述する制御入力信号が制御装置10から入力されたときに、図示しない駆動機構を介して、芯体22をその軸心周りに回転駆動する。
一方、第2アクチュエータ25も、第1アクチュエータ24と同様に、電動機で構成されており、制御入力信号が制御装置10から入力されたときに、図示しない駆動機構を介して、ローラ23をその軸心周りに回転駆動する。それにより、本体20は、路面上を全方位に移動するように、第1アクチュエータ24及び第2アクチュエータ25によって駆動される。以上の構成により、ロボット2は、路面上を全方位に移動可能になっている。
次に、ロボット2の電気的な構成について説明する。図3に示すように、ロボット2は、制御装置10、カメラ11、LIDAR12、加速度センサ13及び無線通信装置14をさらに備えている。
この制御装置10は、CPU、RAM、ROM、E2PROM、I/Oインターフェース及び各種の電気回路(いずれも図示せず)などからなるマイクロコンピュータで構成されている。このE2PROM内には、ロボット2が案内する場所の地図データ及びCNN(Convolutional Neural Network)が記憶されている。この場合、CNNとしては、後述する学習装置30によって、CNNのモデルパラメータすなわち結合層の重み及びバイアス項が十分に学習されたものが記憶されている。
カメラ11は、ロボット2の周辺環境を撮像し、それを表す画像信号を制御装置10に出力する。また、LIDAR12は、レーザ光を用いて、周辺環境内の対象物までの距離などを計測し、それを表す計測信号を制御装置10に出力する。さらに、加速度センサ13は、ロボット2の加速度を検出して、それを表す検出信号を制御装置10に出力する。
制御装置10は、以上のカメラ11の画像信号及びLIDAR12の計測信号を用いて、amlc(adaptive Monte Carlo localization)手法により、ロボット2の自己位置を推定する。また、制御装置10は、LIDAR12の計測信号及び加速度センサ13の検出信号に基づいて、ロボット2の後述するx軸速度v_x及びy軸速度v_yを算出する。
さらに、制御装置10には、無線通信装置14が電気的に接続されており、制御装置10は、この無線通信装置14を介してサーバ5との間で無線通信を実行する。
次に、本実施形態の軌道決定装置1の構成及び軌道決定方法の原理について説明する。まず、図4に示す学習装置30について説明する。この学習装置30は、後述するCNNのモデルパラメータ(結合層の重み及びバイアス項)を学習するためのものであり、LIDAR31、学習用データ作成部32及びCNN学習部33を備えている。これらの要素32~33は、具体的には、図示しないコンピュータなどによって構成されている。
この学習用データ作成部32は、以下に述べるように、LIDAR31の計測結果に基づき、学習用データを作成するものであり、図4に示すように、歩行軌道取得部32a、マスク画像作成部32b及び環境情報作成部32cを備えている。この歩行軌道取得部32aでは、歩行者の歩行軌道を学習するために、LIDAR31の計測結果に基づき、歩行者の歩行軌道が以下に述べるように、所定の制御周期で逐次取得される。
例えば、LIDAR31によって、図5に示すように、基準歩行者M1を基準となる歩行者として設定し、その進行方向に複数の歩行者(以下「近傍歩行者」という)M2が不規則な配置で存在する人混みの交通環境下において、この基準歩行者M1が歩行開始地点Ps(図6参照)から目的地Po(図6参照)まで実際に歩行したときの位置の変化と、複数の近傍歩行者M2の位置の変化とを計測する。なお、本実施形態では、基準歩行者M1が第1移動体に相当し、近傍歩行者M2が第2移動体に相当する。
この計測は、基準歩行者M1が歩行開始地点Psから目的地Poまで複数回、歩行した際に実施され、それらの計測結果がLIDAR31から歩行軌道取得部32aに入力される。この場合、基準歩行者M1は、同一人物である必要がなく、例えば、複数の異なる歩行者が歩行開始地点Psから目的地Poまで1回以上歩行するように構成してもよい。その場合には、LIDAR31によって、これらの歩行者の位置の変化と、複数の近傍歩行者M2の位置の変化とを計測し、これらの計測結果を歩行軌道取得部32aに入力するように構成すればよい。
そして、歩行軌道取得部32aでは、LIDAR31の計測結果に基づき、基準歩行者M1の歩行開始地点Psから目的地Poまでの歩行軌道Rwを、例えば図6に示すように逐次、サンプリングして記憶する。同図に示すように、基準歩行者M1の歩行軌道Rwは、基準歩行者M1の進行方向に延びる軸をx軸と規定し、基準歩行者M1の進行方向に直交する軸をy軸と規定したときの、2次元のx-y座標値の時系列として取得される。
このように、歩行軌道取得部32aでは、基準歩行者M1の歩行軌道Rwが、基準歩行者M1が歩行開始地点Psから目的地Poまで歩行した回数分、近傍歩行者M2の位置と紐付けた状態で取得される。
また、歩行軌道取得部32aでは、LIDAR31の計測結果に基づき、サンプリング時の基準歩行者M1の移動方向指令が、「左方向」、「中央方向」及び「右方向」の3つの方向を要素とするベクトル値として所定の制御周期で逐次設定される。この移動方向指令の場合、例えば、基準歩行者M1が直進しているときには、「中央方向」が値1に設定され、それ以外の「左方向」及び「右方向」が値0に設定される。
また、基準歩行者M1が右方向に移動しているときには、「右方向」が値1に設定され、それ以外の方向が値0に設定される。この場合、「右方向」は基準歩行者M1が直進方向に対して所定角度θ以上、右に移動するときに値1に設定される。さらに、基準歩行者M1が左方向に移動しているときには、「左方向」が値1に設定され、それ以外の方向が値0に設定される。この場合、「左方向」は基準歩行者M1が直進方向に対して所定角度θ以上、左に移動するときに値1に設定される。
一方、マスク画像作成部32bでは、歩行軌道取得部32aによる歩行軌道Rwの取得結果及びLIDAR31の計測結果に基づき、マスク画像(図7参照)が所定の制御周期で逐次作成される。このマスク画像は、基準歩行者M1の進行方向の視界に存在する近傍歩行者M2の配置を示すものであり、例えば、図7に示すように、3人の近傍歩行者M2が存在する場合、これらの近傍歩行者M2の位置が3つの矩形のボックスBとして表示される。同図において、3つのボックスBの破線で示す領域は実際には赤色で表示され、それ以外の点描で示す領域は実際には黒色で表示される。なお、本実施形態では、マスク画像の時系列が第1移動体の移動方向における複数の第2移動体の位置関係情報の時系列に相当する。
これと同時に、マスク画像の上端部には、計測時の目的地Poの位置が矩形の白色ボックスとして表示される。この目的地Poは、基準歩行者M1の現時点の自己位置を基準としたときの前方の中央位置を0degとして、-90deg~90degの範囲内の値として設定される。
さらに、このマスク画像の下端には、サンプリング時の基準歩行者M1のx軸速度v_x及びy軸速度v_yが、2つの矩形の白色ボックスとして表示される。これらのx軸速度v_x及びy軸速度v_yはそれぞれ、基準歩行者M1のx軸方向及びy軸方向の速度成分であり、基準歩行者M1の最小移動速度v_min(例えば値0)と最大移動速度v_maxの範囲内の値として設定される。
また、環境情報作成部32cでは、LIDAR31の計測結果と、図8に示す2次元地図に基づき、環境情報画像35(図9参照)が所定の制御周期で逐次作成される。図8の地図は、歩行開始地点Psから目的地Poまでの歩行ルートの環境を表すものであり、環境情報画像35は、サンプリング時の基準歩行者M1の位置(図示せず)を中心とする矩形領域の画像として、図8の地図から切り出され、図9に示すように作成される。
図9において、空白の部分が構造物の存在しない領域すなわち通行可能な領域であり、黒色又は灰色で示す領域は、壁などの構造物が存在する領域である。また、図8及び図9に示す1点鎖線の枠は、理解の容易化のために付加したものであり、実際の環境情報画像35には、表示されないものである。
そして、学習用データ作成部32では、以上のように取得された基準歩行者M1の移動方向指令の時系列、マスク画像の時系列及び環境情報画像35の時系列において、互いに同期の時系列がリンク付けされることにより、多数の学習用データが作成される。この場合、基準歩行者M1が急停止又は急反転したり、基準歩行者M1が近傍歩行者M2に干渉したりした場合のデータは、学習用データとして不適切であるため、学習用データから除外される。これらの学習用データは、学習用データ作成部32からCNN学習部33に入力される。
図10に示すように、CNN学習部33は、CNN33aを備えており、このCNN33aは、複数組(1組のみ図示)の畳み込み層(図ではConvと表記)33b及びプーリング層(図ではpoolと表記)33cと、複数組(1組のみ図示)の畳み込み層33e及びプーリング層33fと、全結合層(図ではFCと表記)33dとを備えている。
すなわち、CNN33aは、2つのCNNを組み合わせたマルチCNN構造となっており、全結合層33dは、図示しないが、複数の結合層で構成されている。なお、本実施形態では、CNN33aが移動態様モデルに相当する。
CNN33aでは、学習用データ作成部32から学習用データが入力された場合、学習用データのうちのマスク画像は、CNN33aの最上層の畳み込み層33bに入力され、その後、最下層のプーリング層33cの出力が全結合層33dに入力される。
また、環境情報画像35は、最上層の畳み込み層33eに入力され、その後、最下層のプーリング層33fの出力が全結合層33dに入力される。さらに、移動方向指令も全結合層33dに入力される。
そして、最下層のプーリング層33cの出力、最下層のプーリング層33fの出力及び移動方向指令が全結合層33dで結合されることにより、出力指令が全結合層33dから出力される。この出力指令は、移動方向指令と同じ3つのラベル(「左方向」、「中央方向」及び「右方向」)を有し、これらのラベルの確率を表す値として出力される。
CNN学習部33では、移動方向指令と出力指令の損失関数(例えば平均2乗和誤差)を用い、誤差逆伝播法により、CNN33aの全結合層33dの重み及びバイアス項が演算される。すなわち、CNN33aのモデルパラメータの学習演算が実行される。そして、以上の学習演算を多数回、実行することにより、CNN学習部33におけるCNN33aのモデルパラメータの学習演算が終了する。この学習装置30では、以上のように、CNN33aのモデルパラメータの学習が実行される。
次に、図11を参照しながら、本実施形態の軌道決定装置1の構成について説明する。軌道決定装置1は、以下に述べる手法によって、ロボット2の軌道としての移動速度指令vを決定(算出)するものであり、この移動速度指令vは、ロボット2のx軸速度v_x及びy軸速度v_yの目標となる目標x軸速度v_x_cmd及び目標y軸速度v_y_cmdを要素とするものである。
同図に示すように、軌道決定装置1は、マスク画像作成部50、環境情報作成部51、移動方向決定部52、暫定移動速度決定部53及び移動速度決定部54を備えており、これらの要素50~54は、具体的には、制御装置10によって構成されている。
まず、マスク画像作成部50について説明する。このマスク画像作成部50では、カメラ11からの画像信号及びLIDAR12からの計測信号が入力されると、SSD(Single Shot MultiBox Detector)手法により、マスク画像が作成される。
このマスク画像内には、前述した図7のマスク画像のボックスBと同様に、前方の歩行者を含む交通参加者のボックス(図示せず)が表示され、ロボット2のx軸速度v_x、y軸速度v_y及び目的地Po(いずれも図示せず)が表示される。
この場合、交通参加者の位置及びサイズは、カメラ11の画像信号及びLIDAR12の計測信号に基づいて決定される。また、ロボット2のx軸速度v_x及びy軸速度v_yは、LIDAR12の計測信号及び加速度センサ13の検出信号に基づいて決定される。さらに、目的地Poは、サーバ5からの目的地信号(図示せず)によって決定される。以上のように作成されたマスク画像は、マスク画像作成部50から移動方向決定部52に出力される。
また、環境情報作成部51では、サーバ5からの無線信号が入力された場合、無線信号に含まれているロボット2の位置情報と、前述した地図データ(図8)とに基づき、前述したような環境情報画像が作成される。この環境情報画像は、環境情報作成部51から移動方向決定部52に出力される。
一方、移動方向決定部52は、前述したCNN学習部33でモデルパラメータが学習されたCNN(図示せず)を備えており、このCNNを用いて、ロボット2の移動方向を以下のように決定する。
まず、移動方向決定部52では、マスク画像作成部50からのマスク画像及び環境情報作成部51からの環境情報画像がCNNに入力されると、前述した出力指令がCNNから出力される。次いで、出力指令の3つの要素(「左方向」、「中央方向」及び「右方向」)のうち、最大値の要素の方向がロボット2の移動方向として決定される。そして、以上のように決定されたロボット2の移動方向は、移動方向決定部52から暫定移動速度決定部53に出力される。
この暫定移動速度決定部53では、移動方向決定部52からのロボット2の移動方向と、ロボット2のx軸速度v_x及びy軸速度v_yとに基づき、暫定移動速度指令v_cnnを算出する。この暫定移動速度指令v_cnnは、ロボット2のx軸速度の暫定値v_x_cnn及びy軸速度の暫定値v_y_cnnを要素とするものである。次いで、以上のように決定されたロボット2の暫定移動速度指令v_cnnは、暫定移動速度決定部53から移動速度決定部54に出力される。
この移動速度決定部54では、暫定移動速度指令v_cnnに基づき、DWA(Dynamic Window Approach)を適用したアルゴリズムにより、移動速度指令vが決定される。この移動速度指令vは、前述したように、目標x軸速度v_x_cmd及び目標y軸速度v_y_cmdを要素とするものである。
本実施形態の軌道決定装置1では、以上のように、目標x軸速度v_x_cmd及び目標y軸速度v_y_cmdを要素とする移動速度指令vが決定される。そして、ロボット2が移動速度指令vで移動するように、第1及び第2アクチュエータ24,25が制御される。
以上のように、第1実施形態のモデルパラメータ学習方法によれば、基準歩行者M1の移動方向指令の時系列、マスク画像の時系列及び環境情報画像の時系列において、互いに同期の時系列がリンク付けされることにより、多数の学習用データが作成される。そして、これらの学習用データを用いて、CNN33aのモデルパラメータが誤差逆伝播法により学習される。
この場合、基準歩行者M1の移動方向指令の時系列、マスク画像の時系列及び環境情報画像の時系列はいずれも、基準歩行者M1が目的地まで複数回、移動した際に取得されるので、これらの時系列を用いて、CNN33aのモデルパラメータを学習することによって、基準歩行者M1の周辺に位置する構造物の位置の情報を反映させながら、CNN33aのモデルパラメータを学習することができる。
したがって、軌道決定装置1において、そのように学習が終了したCNNを用いて、ロボット2の移動方向を決定した場合、人混み及び構造物が存在する環境下で目的地まで移動するときでも、ロボット2の周辺に存在する歩行者及び構造物との干渉を回避できるように、ロボット2の移動方向を決定することができる。また、環境情報画像が2次元地図上の情報として取得されるので、学習後の移動態様モデルを用いてロボット2の移動方向を決定する際、ロボット2内に記憶されている2次元地図データを用いて移動方向を決定することができる。
なお、第1実施形態は、移動装置として、ロボット2を用いた例であるが、本発明の移動装置は、これに限らず、移動装置の周辺に複数の移動体が存在する条件下で目的地まで移動するものであればよい。例えば、車両型のロボットや、2足歩行型のロボットを用いてもよい。
また、第1実施形態は、移動態様パラメータとして、ロボットの移動方向を用いた例であるが、本発明の移動態様パラメータは、これに限らず、移動装置が目的地まで移動する際の移動態様を表すものであればよい。例えば、移動態様パラメータとして、ロボットの移動速度(vx,vy)を用いてもよく、その場合には、CNN学習部33において、移動速度を出力とするCNN33aのモデルパラメータを学習するように構成すればよい。
また、第1実施形態は、移動態様モデルとしてCNNを用いた例であるが、本発明の移動態様モデルは、これに限らず、画像データを入力とし行動パラメータを出力とするものであればよい。例えば、移動態様モデルとして、RNN(Recurrent Neural Network)及びDQN(deep Q-network)などを用いてもよい。
さらに、第1実施形態は、所定の機械学習アルゴリズムとして、誤差逆伝播法を用いた例であるが、本発明の所定の機械学習アルゴリズムは、これに限らず、移動態様モデルのモデルパラメータを学習するものであればよい。例えば、サポートベクターマシンなどを用いてもよい。
また、第1実施形態は、第1移動体として、基準歩行者M1を用いた例であるが、本発明の第1移動体は、これに限らず、複数の第2移動体の各々との干渉を回避しながら移動できるものであればよい。例えば、第1移動体として、自律移動型のロボットを用いてもよく、自動運転可能な車両を用いてもよい。
さらに、第1実施形態は、第2移動体として、近傍歩行者M2を用いた例であるが、これに代えて、第2移動体として、自律移動型のロボット、自動運転可能な車両又は動物などを用いてもよい。
また、本発明の移動体は、歩行者、自律移動型のロボット、自動運転可能な車両又は動物などであってもよい。
次に、本発明の第2実施形態に係るモデルパラメータ学習方法について説明する。本実施形態のモデルパラメータ学習方法は、第1実施形態のモデルパラメータ学習法と比較した場合、一部を除いて同一に構成されているので、以下、異なる点を中心に説明する。また、第1実施形態と同一の構成に対しては同じ符号を付すとともに、その説明を省略する。
まず、本実施形態の場合、前述した学習用データ作成部32で作成されるデータと、前述したCNN学習部33に代えて、後述するCNN学習部33A(図16参照)を備えている点が異なっている。
本実施形態の学習用データ作成部32の場合、環境情報作成部32cにおいて、前述した環境情報画像35に代えて、以下に述べるように、環境オプティカルフロー63(図15参照)が作成される。この環境オプティカルフロー63は、サンプリング時の基準歩行者M1の周辺における構造物の情報を表すものである。
まず、図12に示す画像60が、サンプリング時の基準歩行者M1の位置(図示せず)を中心とする矩形領域の画像として前述した図8の地図から切り出される。次いで、図12の画像60における黒色の領域を構造物(障害物)と見なし、この領域の境界を抽出するために、画像60の黒色領域とそれ以外の領域を2値化してエッジ検出処理を施すことにより、図13に示す画像61が取得される。そして、図13のエッジ情報に基づき、壁などの構造物の位置が地図座標系で取得され、図14に示す仮想画像62が作成される。この仮想画像62は、サンプリング時の基準歩行者M1の前方における壁面及び路面に対してランダムな矩形模様を貼り付けた仮想的な画像に相当する。
次に、図14に示す仮想画像62に対して、オプティカルフロー算出処理を施すことにより、図15に示す環境オプティカルフロー63が作成される。同図に示すように、この環境オプティカルフロー63の場合、環境情報を表す多数のオプティカルフロー63a,63bが含まれている。多数のオプティカルフロー63aは、地図座標系における同一の位置を示しており、多数のオプティカルフロー63bは、地図座標系における同一の位置であって、多数のオプティカルフロー63aと異なる位置を示している。また、図中の1点鎖線の枠は、理解の容易化のために表示したものである。環境情報作成部32cでは、以上のように、環境オプティカルフロー63が作成される。
さらに、本実施形態の場合、前述した学習用データ作成部32において、基準歩行者M1の移動方向指令の時系列、マスク画像の時系列及環境オプティカルフロー63の時系列において、互いに同期の時系列がリンク付けされることにより、多数の学習用データが作成される。そして、これらの学習用データは、学習用データ作成部32からCNN学習部33A(図16参照)に入力される。
図16に示すように、CNN学習部33Aは、前述した図10のCNN学習部33と同様に構成されたCNN33aを備えている。すなわち、CNN33aは、2つのCNNを組み合わせたマルチCNN構造となっている。
このCNN学習部33Aでは、学習用データ作成部32から学習用データが入力された場合、前述したように、学習用データのうちのマスク画像は、CNN33aの最上層の畳み込み層33bに入力され、その後、最下層のプーリング層33cの出力が全結合層33dに入力される。
また、学習用データのうちの環境オプティカルフローは、最上層の畳み込み層33eに入力され、その後、最下層のプーリング層33fの出力が全結合層33dに入力される。さらに、移動方向指令も全結合層33dに入力される。そして、最下層のプーリング層33c,33fの出力及び移動方向指令が全結合層33dで結合されることにより、出力指令が全結合層33dから出力される。
そして、CNN学習部33Aでは、前述したCNN学習部33と同様に、移動方向指令と出力指令の損失関数(例えば平均2乗和誤差)を用い、誤差逆伝播法により、全結合層33dの重み及びバイアス項が演算される。この学習装置30では、以上のように、2つのCNNのモデルパラメータの学習が実行される。
一方、本実施形態の場合、前述した軌道決定装置1の環境情報作成部51では、カメラ11からの画像信号に基づき、環境オプティカルフロー63が作成され、この環境オプティカルフロー63が環境情報作成部51から移動方向決定部52に出力される。そして、移動方向決定部52では、前述したCNN学習部33Aでモデルパラメータが学習された2つのCNNを用いて、前述した手法により、ロボット2の移動方向が決定される。
以上のように、第2実施形態のモデルパラメータ学習方法によれば、2つのCNNのモデルパラメータの学習が実行されるので、第1実施形態のモデルパラメータ学習方法と同様の作用効果を得ることができる。また、軌道決定装置1において、モデルパラメータの学習が終了した2つのCNNを用いて、ロボット2の移動方向を決定する際、ロボット2のカメラ11の画像信号を用いることができる。
なお、第2実施形態の学習用データ作成部32の環境情報作成部32cにおいて、環境オプティカルフローを、前述した作成方法に代えて、以下に述べる手法によって作成してもよい。例えば、近傍歩行者M2が存在しない条件下で、ロボット2を基準歩行者M1の移動軌道に沿って移動させ、その際のロボット2のカメラ11で撮像した画像から環境オプティカルフローを作成してもよい。また、近傍歩行者M2が存在しない条件下で、カメラを装着した歩行者を基準歩行者M1の移動軌道に沿って移動させ、その際のカメラで撮像した画像から環境オプティカルフローを作成してもよい。
1 軌道決定装置(移動態様パラメータ決定装置)
2 ロボット(移動装置)
30 学習装置
32 学習用データ作成部(学習用データ作成ステップ)
32a 歩行軌道取得部(移動態様パラメータ取得ステップ)
32b マスク画像作成部(位置関係情報取得ステップ)
32c 環境情報作成部(環境情報取得ステップ)
33 CNN学習部(学習ステップ)
33a CNN(移動態様モデル)
35 環境情報画像(環境情報)
Ps 出発地
Po 目的地
M1 基準歩行者(第1移動体)
M2 近傍歩行者(第2移動体)

Claims (4)

  1. 移動装置の周辺に複数の移動体が存在する条件下で、当該移動装置が出発地から目的地まで移動する際の移動態様を表す移動態様パラメータを決定するための移動態様モデルのモデルパラメータを学習装置によって学習するモデルパラメータ学習方法であって、
    前記学習装置は、
    第1移動体が周辺に複数の第2移動体が存在する条件下で当該複数の第2移動体の各々との干渉を回避しながら当該第1移動体が前記出発地から前記目的地まで移動した際の前記第1移動体の前記移動態様パラメータの時系列を取得する移動態様パラメータ取得ステップと、
    前記第1移動体が前記出発地から前記目的地まで移動した際の当該第1移動体の移動方向における複数の第2移動体の位置関係情報の時系列を取得する位置関係情報取得ステップと、
    前記第1移動体が前記出発地から前記目的地まで移動した際の当該第1移動体の周辺における静止物体の延在態様を表す情報である環境情報の時系列を取得する環境情報取得ステップと、
    前記移動態様パラメータの時系列と、前記移動態様パラメータの時系列と同期の前記位置関係情報の時系列と、前記移動態様パラメータの時系列と同期の前記環境情報の時系列とを互いに関連付けすることにより、学習用データを作成する学習用データ作成ステップと、
    前記学習用データを前記移動態様モデルへの入力として用いて、前記移動態様パラメータを出力とする前記移動態様モデルのモデルパラメータを所定の機械学習アルゴリズムにより学習する学習ステップと、
    を実行することを特徴とするモデルパラメータ学習方法。
  2. 請求項1に記載のモデルパラメータ学習方法において、
    前記環境情報取得ステップでは、前記環境情報が2次元地図上の情報として取得されることを特徴とするモデルパラメータ学習方法。
  3. 請求項1に記載のモデルパラメータ学習方法において、
    前記環境情報取得ステップでは、前記環境情報がオプティカルフローとして取得されることを特徴とするモデルパラメータ学習方法。
  4. 請求項1ないし3のいずれかに記載のモデルパラメータ学習方法によって前記モデルパラメータが学習された前記移動態様モデルを用いて、移動態様パラメータ決定装置により、前記移動装置の前記移動態様パラメータが決定されることを特徴とする移動態様パラメータ決定方法。
JP2020149979A 2020-09-07 2020-09-07 モデルパラメータ学習方法及び移動態様パラメータ決定方法 Pending JP2022044383A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020149979A JP2022044383A (ja) 2020-09-07 2020-09-07 モデルパラメータ学習方法及び移動態様パラメータ決定方法
EP21188881.3A EP3964913B1 (en) 2020-09-07 2021-07-30 Model parameter learning method and movement mode parameter determination method
US17/463,145 US20220076004A1 (en) 2020-09-07 2021-08-31 Model parameter learning method and movement mode parameter determination method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020149979A JP2022044383A (ja) 2020-09-07 2020-09-07 モデルパラメータ学習方法及び移動態様パラメータ決定方法

Publications (1)

Publication Number Publication Date
JP2022044383A true JP2022044383A (ja) 2022-03-17

Family

ID=77431118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020149979A Pending JP2022044383A (ja) 2020-09-07 2020-09-07 モデルパラメータ学習方法及び移動態様パラメータ決定方法

Country Status (3)

Country Link
US (1) US20220076004A1 (ja)
EP (1) EP3964913B1 (ja)
JP (1) JP2022044383A (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6417305B2 (ja) 2015-09-14 2018-11-07 本田技研工業株式会社 摩擦式走行装置および乗物
WO2020023731A1 (en) * 2018-07-26 2020-01-30 Postmates Inc. Safe traversable area estimation in unstructure free-space using deep convolutional neural network
US20200074233A1 (en) * 2018-09-04 2020-03-05 Luminar Technologies, Inc. Automatically generating training data for a lidar using simulated vehicles in virtual space
US11016495B2 (en) * 2018-11-05 2021-05-25 GM Global Technology Operations LLC Method and system for end-to-end learning of control commands for autonomous vehicle
WO2020136978A1 (ja) 2018-12-27 2020-07-02 本田技研工業株式会社 経路決定方法
US11257272B2 (en) * 2019-04-25 2022-02-22 Lucid VR, Inc. Generating synthetic image data for machine learning
US11842530B2 (en) * 2020-03-05 2023-12-12 Uatc, Llc Systems and methods for latent distribution modeling for scene-consistent motion forecasting

Also Published As

Publication number Publication date
US20220076004A1 (en) 2022-03-10
EP3964913A1 (en) 2022-03-09
EP3964913B1 (en) 2023-08-09

Similar Documents

Publication Publication Date Title
JP7130062B2 (ja) 経路決定方法
JP7469850B2 (ja) 経路決定装置、ロボット及び経路決定方法
De Lima et al. Navigation of an autonomous car using vector fields and the dynamic window approach
KR102303432B1 (ko) 장애물의 특성을 고려한 dqn 및 slam 기반의 맵리스 내비게이션 시스템 및 그 처리 방법
CN111673729B (zh) 路径决定方法
de Oliveira et al. A robot architecture for outdoor competitions
JP7258046B2 (ja) 経路決定装置、ロボット及び経路決定方法
Padgett et al. Vector-based robot obstacle avoidance using LIDAR and mecanum drive
CN112686421B (zh) 将来行动推定装置、将来行动推定方法及存储介质
JP2022044383A (ja) モデルパラメータ学習方法及び移動態様パラメータ決定方法
CN111673731B (zh) 路径决定方法
US11669096B2 (en) Route determination method
JP2022044980A (ja) モデルパラメータ学習方法及び移動態様決定方法
Yang et al. Mobile robot autonomous navigation and dynamic environmental adaptation in large-scale outdoor scenes
Haapajärvi Software toolkits for prototyping autonomous mobile robots
Afonso et al. Autonomous Navigation of Wheelchairs in Indoor Environments using Deep Reinforcement Learning and Computer Vision
Tahir Development of an Autonomous Vehicle Platform