JP2023051421A

JP2023051421A - 移動体制御装置、移動体、学習装置、学習方法、および、プログラム

Info

Publication number: JP2023051421A
Application number: JP2021162069A
Authority: JP
Inventors: 燦心松▲崎▼; Sango Matsuzaki; 雄二長谷川; Yuji Hasegawa
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-04-11
Also published as: US20230098219A1; CN115903773A

Abstract

【課題】環境の混雑度に応じて適切な移動態様を決定することができる移動体制御装置、移動体、学習装置、学習方法、および、プログラムを提供すること。【解決手段】移動体の周辺に存在する障害物の個数に応じて前記移動体の経路を決定する経路決定部と、前記経路決定部により決定された経路に沿って前記移動体を移動させる制御部と、を備える移動体制御装置。【選択図】図８

Description

本発明は、移動体制御装置、移動体、学習装置、学習方法、および、プログラムに関する。

近年、機械学習により生成されたＡＩ（人工知能）によって移動体の移動経路を決定しようとする試みがなされている。また、観測値に基づいて行動を決定し、実環境やシミュレータから得らえるフィードバックに基づく報酬を計算してモデルパラメータを最適化する強化学習についても研究および実用化が進められている。

これに関連し、人の移動に対して安全・安心な回避行動を取るために、自律移動型のロボットが目的地まで移動するときの経路を、歩行者を含む交通参加者が目的地までの交通環境に存在する条件下で決定する経路決定装置の発明が開示されている（特許文献１参照）。この経路決定装置は、所定の予測アルゴリズムを用いて、ロボットと交通参加者との干渉が回避されるように、ロボットの経路の予測値である予測経路を決定する予測経路決定部と、ロボットが現在位置から予測経路で移動すると想定したときに、ロボットに最も近い交通参加者との距離及びロボットの速度を独立変数として含む目的関数が最大値になるように、所定の制御アルゴリズムを用いて、ロボットの経路を決定する経路決定部と、を備える。

また、非特許文献１には、高密度で動的な環境での分散モーションプランニングについて、エージェント数を段階的に増加させていきながら強化学習を行うマルチステージトレーニングについて記載されている。

また、非特許文献２には、移動体の動作を適切に決定することができるポリシーを学習する方法としてマルチシナリオ・マルチステージ・トレーニングフレームワークについて記載されている。

国際公開第２０２０／１３６９７７号

Samaneh Hosseini Semnani, Hugh Liu, Michael Everett, Anton de Ruiter, and Jonathan P How. Multi-agent motion planning for dense and dynamic environments via deep reinforcement learning. IEEE Robotics and Automation Letters, 5(2):3221-3226, 2020. P. Long, T. Fan, X. Liao, W. Liu, H. Zhang, and J. Pan. Towards optimally decentralized multi-robot collision avoidance via deep reinforcement learning. In 2018 IEEE International Conference on Robotics and Automation (ICRA).

しかしながら、従来の方法では、複雑な環境に対応するためにより多くの移動体が存在する環境を学習した結果、過学習となり、存在する移動体が少ない環境下において適切でない移動経路を決定しまう場合があった。このように、従来技術では、移動経路を環境の混雑度に応じて適切に決定することができない場合があった。

本発明は、このような事情を考慮してなされたものであり、環境の混雑度に応じて適切な移動態様を決定することができる移動体制御装置、移動体、学習装置、学習方法、および、プログラムを提供することを目的の一つとする。

この発明に係る移動体制御装置、移動体、学習装置、学習方法、および、プログラムは、以下の構成を採用した。

（１）：この発明の一態様に係る移動体制御装置は、移動体の周辺に存在する障害物の個数に応じて前記移動体の経路を決定する経路決定部と、前記経路決定部により決定された経路に沿って前記移動体を移動させる制御部と、を備える。

（２）：上記（１）の態様において、前記経路決定部は、シミュレータと学習部によって学習された動作のポリシーに基づき移動体の経路を決定し、前記動作のポリシーは、前記シミュレータが障害物の数が異なる複数の環境について同時に前記移動体および前記障害物の動作のシミュレーションを実行し、前記学習部が前記シミュレータの処理結果に報酬関数を適用して得られた報酬が最大化するように更新することによって学習されたものである。

（３）：上記（２）の態様において、前記動作のポリシーは、複数の前記シミュレータの処理結果に基づいて学習され、前記環境内の前記障害物の数は複数の前記シミュレータごとに異なり、前記学習部は複数の前記シミュレータの各処理結果に報酬関数を適用して得られた各報酬の累積和が最大化するように前記動作のポリシーを更新することによって学習されたものである。

（４）：この発明の一態様に係る移動体は、上記いずれかの移動体制御装置と、利用者に所定のサービスを提供するための作業部と、自移動体を移動させるための駆動装置と、を備え、前記駆動装置は、前記自移動体が前記移動体制御装置によって決定された移動態様で移動するように駆動するものである。

（５）：この発明の一態様に係る学習装置は、移動体の動作のシミュレーションを実行するシミュレータであって、存在する前記移動体または障害物の数が前記シミュレータごとに異なる複数の前記シミュレータと、複数の前記シミュレータの各処理結果に報酬関数を適用して得られた各報酬の累積和が最大化するように前記動作のポリシーを学習する学習部と、を備える。

（６）：上記（５）の態様において、複数の前記シミュレータは、それぞれに対応づけられた別個のプロセッサによって実行されるものである。

（７）：上記（５）または（６）の態様において、複数の前記シミュレータには、それぞれ異なる前記移動体または前記障害物の最大数が設定され、複数の前記シミュレータは、規定の最小数からそれぞれの最大数まで段階的に前記移動体または前記障害物の数を増やしながらシミュレーションを実行するものである。

（８）：上記（５）から（７）のいずれかの態様において、複数の前記シミュレータは、各段階のシミュレーションにおいて、前記移動体または前記障害物の個数が同じ複数の環境について並列でシミュレーションを実行するものである。

（９）：上記（５）から（８）のいずれかの態様において、前記報酬関数は、移動体の目標への到達度、移動体の衝突回数、移動体の移動速度のうち少なくとも一つを変数として含むものである。

（１０）：上記（５）から（９）のいずれかの態様において、前記報酬関数は、自移動体の周囲に存在する前記移動体または前記障害物の移動ベクトルの変化を独立変数として含むものである。

（１１）：この発明の一態様に係る学習方法は、コンピュータが、存在する移動体または障害物の数がシミュレータごとに異なる複数の前記シミュレータにより、移動体の動作のシミュレーションを実行し、複数の前記シミュレータの各処理結果に報酬関数を適用して得られた各報酬の累積和が最大化するように前記動作のポリシーを学習するものである。

（１２）：この発明の一態様に係るプログラムは、コンピュータに、存在する移動体または障害物の数がシミュレータごとに異なる複数の前記シミュレータにより、移動体の動作のシミュレーションを実行させ、複数の前記シミュレータの各処理結果に報酬関数を適用して得られた各報酬の累積和が最大化するように前記動作のポリシーを学習させるものである。

（１）～（４）によれば、移動体の周辺に存在する障害物の個数に応じて前記移動体の経路を決定する経路決定部と、前記経路決定部により決定された経路に沿って前記移動体を移動させる制御部と、を備えることにより、環境の混雑度に応じて適切な移動態様を決定することができる。

また、（５）～（１２）によれば、移動体の動作のシミュレーションを実行するシミュレータであって、存在する前記移動体または障害物の数が前記シミュレータごとに異なる複数の前記シミュレータと、複数の前記シミュレータの各処理結果に報酬関数を適用して得られた各報酬の累積和が最大化するように前記動作のポリシーを学習する学習部と、を備えることにより、環境の混雑度に応じて適切な移動態様を決定することができる。

実施形態の移動体制御システムの構成の概略図である。学習装置の構成例を示す図である。報酬関数Ｒ_４を説明する図である。段階的強化学習の効果の一例を示す図である。ネットワークの過学習の一例を示す第１図である。ネットワークの過学習の一例を示す第２図である。学習装置が複数のシミュレータを用いてそれぞれエージェント数が異なる環境について動作を学習する様子を示す図である。移動体の構成例を示す図である。学習装置において、複数のシミュレータが同じエージェント数の複数の環境でシミュレーションを実行する様子を示すイメージ図である。

以下、図面を参照し、本発明の移動体制御装置、移動体、学習装置、学習方法、および、プログラムの実施形態について説明する。

＜第１実施形態＞
図１は、実施形態の移動体制御システム１の構成の概略図である。移動体制御システム１は、学習装置１００と、移動体２００とを備える。学習装置１００は、一以上のプロセッサにより実現される。学習装置１００は、複数の移動体についてコンピュータシミュレーションにより行動を決定し、その行動によって生じた状態の変化等に基づく報酬を導出または取得し、報酬を最大化する行動（動作）を学習する装置である。動作とは、例えば、シミュレーション空間内での移動である。移動以外の動作が学習対象とされてもよいが、以下の説明では動作とは移動を意味するものとする。移動を決定するシミュレータは、学習装置１００と異なる装置において実行されてもよいが、以下の説明ではシミュレータは学習装置１００が実行するものとする。学習装置１００は、地図情報などの、シミュレーションの前提となる環境情報を予め記憶している。学習装置１００の学習結果は、ポリシーＰＬとして移動体２００に搭載される。

［学習装置］
図２は、実施形態の学習装置１００の構成例を示す図である。学習装置１００は、例えば、学習部１１０と、複数のシミュレータ１２０と、経験蓄積部１３０とを備える。これらの構成要素は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤ（Hard Disk Drive）やフラッシュメモリ、ＳＳＤ（Solid State Drive）などの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。

学習部１１０は、複数のシミュレータ１２０により生成された状態変化を経験蓄積部１３０が評価した結果を示す評価情報に基づいて各種強化学習アルゴリズムに従ってポリシーを更新する。学習部１１０は、更新したポリシーを複数のシミュレータ１２０に出力することを、学習が完了するまで繰り返し実行する。ポリシーとは、例えばパラメータを有するニューラルネットワーク（以下単に「ネットワーク」ともいう。）であり、環境情報の入力に対してエージェントが取り得るアクション（動作）を確率付きで出力するものである。ここでエージェントとは、シミュレーション空間（環境）内に存在する移動体であって、動作を学習する対象の移動体である。エージェントは「自移動体」の一例である。環境情報は当該環境の状態を示す情報である。ポリシーは、パラメータを有するルールベースの関数であってもよい。学習部１１０は、評価情報に基づいてパラメータを更新することによりポリシーを更新する。学習部１１０は更新したパラメータを各シミュレータ１２０に供給する。

シミュレータ１２０は、動作目標と、現在の状態（シミュレーションの開始直後であれば初期状態）とをポリシーに入力し、自エージェントと他エージェントの動作の結果である状態変化を導出する。ポリシーは、例えば、ＤＮＮ（Deep Neural Network）であるが、ルールベースのポリシーなど、他の態様のポリシーであってもよい。ポリシーは、想定される複数種類の動作のそれぞれについて、発生確率を導出するものである。例えば、簡単な例では、想定平面が上下左右に広がるものとして、右移動８０％、左移動１０％、上移動１０％、下移動０％といった結果を出力する。シミュレータ１２０は、この結果に乱数を作用させて、乱数値が０％以上、８０％未満であれば右移動、乱数値が８０％以上、９０％未満であれば左移動、乱数値が９０％以上であれば上移動というようにエージェントの状態変化を導出する。

複数のシミュレータ１２０は、学習部１１０によって更新されたポリシー（ネットワーク）を用いて、それぞれエージェント数が異なり、且つ複数のエージェントが存在する環境についてシミュレーションを実行することにより、各環境におけるエージェントの動作を決定する。なお、ここでいう動作の決定とは、エージェントについて上記の状態変化を導出することである。本実施形態では複数のシミュレータ１２０として例えば４つのシミュレータを想定する。例えば、本実施形態において、第１～第４のシミュレータ１２０Ａ～１２０Ｄは、それぞれ２エージェント、４エージェント、８エージェント、１０エージェントの移動を決定するものとする。なお、環境には、エージェント以外のポリシーによらない移動体が含まれてもよい。例えば、環境には、ポリシーに基づいて移動するエージェントのほかに、止まっている移動体や、ポリシーとは異なる動作モデルで動作する移動体などが含まれてもよい。

具体的には、各シミュレータ１２０は、学習部１１０から供給されたパラメータでポリシー（ネットワーク）を更新するとともに、前回（１つ前のサンプリング周期）のシミュレーション結果によって得られた現在の状態を更新後のネットワークに入力し、出力結果に対して乱数を適用することにより各エージェントの今回（現在のサンプリング周期）の動作を決定する。各シミュレータ１２０が、決定した動作を環境ＥＶに入力することにより、環境ＥＶによって更新後の状態と報酬が生成される。報酬は、環境ＥＶが、決定された行動を報酬関数に入力することによって生成される。各シミュレータ１２０は、各エージェントについて決定した動作に基づく経験情報を経験蓄積部１３０に供給する。例えば、経験情報には、エージェントについて決定した行動、行動前の状態や行動後の状態、その行動によって得られた報酬の情報が含まれる。

経験蓄積部１３０は、各シミュレータ１２０から供給された経験情報を蓄積するとともに、蓄積した経験情報の中から優先度が高いものをサンプリングして学習部１１０に供給する。優先度は、ネットワークＮＷの学習における学習効果の高さに基づく優先度であり、例えばＴＤ（Temporal Difference）誤差によって定められる。なお、優先度は、学習部１１０の学習結果に基づいて適宜更新されてもよい。

学習部１１０は、経験蓄積部１３０から供給された経験情報に基づいて、各エージェントの移動によって得られる報酬が最大化されるようにネットワークＮＷのパラメータを更新する。学習部１１０は、更新後のパラメータを各シミュレータ１２０に供給する。各シミュレータ１２０は、学習部１１０から供給されたパラメータによりネットワークＮＷを更新する。

学習部１１０は、種々の強化学習アルゴリズムのうち任意のものを使用してよい。学習部１１０は、このようなパラメータの更新を繰り返し実行することにより、複数のエージェントが存在する環境における、エージェントの適切な移動を学習する。このようにして学習されたネットワークはポリシーとして移動体２００に供給される。

なお、環境ＥＶが報酬を算出する際に使用する報酬関数は、エージェントがより適切な移動をするほど大きな報酬を与えるものであればどのような関数であってもよい。例えば、式（１）に示されるように、自エージェントが目的地に到着した場合に与えられる報酬関数Ｒ_１と、自エージェントがスムーズに移動を達成した場合に与えられる報酬関数Ｒ_２と、自エージェントが他エージェントの移動ベクトルに変化を及ぼした場合に小さくなる報酬関数Ｒ_３と、他エージェントの向く方向に応じて、自エージェントが他エージェントに接近する時に保持すべき距離を可変にした報酬関数Ｒ_４とを含む関数Ｒを報酬関数としてもよい。また、報酬関数Ｒは、Ｒ_１、Ｒ_２、Ｒ_３、Ｒ_４のうちの少なくとも１つを含む関数としてもよい。

例えば、報酬関数Ｒ_１は、目的地に到達した場合に正の固定値となり、目的地に到達していない場合に目的地までの距離変化に比例した値（距離変化が減少方向であれば正、増加方向であれば負）となる関数である。報酬関数Ｒ_１は「第１の関数」の一例である。

例えば、報酬関数Ｒ_２は、エージェントの二次元平面における位置の三回微分すなわちジャーク（躍度）が小さいほど大きい値となる関数である。報酬関数Ｒ_２は「第２の関数」の一例である。

例えば、報酬関数Ｒ_３は、自エージェントが所定領域に進入した場合に低い評価値を返す関数である。このような報酬関数Ｒ_３によれば、例えば、自エージェントが他エージェントにとって目の前の領域（所定領域）を通過するような行動に対しては低い評価が、側方や背後を通過するような行動に対しては余り低くない評価が与えられるようにすることができる。報酬関数Ｒ_３は「第３の関数」の一例である。

図３は、報酬関数Ｒ_４を説明する図である。図３は、シミュレーション環境の一例として、人Ｐ１、Ｐ４およびＰ５と、ロボットＲ２、Ｒ３、Ｒ５とが混在する環境を示している。図３において、地点Ｄ１～Ｄ５は、各移動体の目的地点である。具体的には、地点Ｄ１は人Ｐ１の目的地点であり、地点Ｄ２はロボットＲ２の目的地点であり、地点Ｄ３はロボットＲ３の目的地点であり、地点Ｄ４は人Ｐ４の目的地点であり、地点Ｄ５は人Ｐ５の目的地点である。

ここで、ロボットＲ５を対象ロボットとして、対象ロボットに人の移動を阻害しないような移動方法を学習させるための報酬関数Ｒ_４として、例えば以下の（２）式のように定義することができる。

（２）式において、Ｒ_４は人の移動を阻害しないような移動方法を学習させるための報酬関数であり、人の移動を阻害しない移動ほど大きな報酬を与える関数である。ｉは、環境に存在する人やロボット等の移動体の識別番号であり、Ｎはその最大数である。また、ａ_ｉは、各移動体について、対象ロボットＲ５を含めた環境の状態により決定される行動（以下「第１の行動」という。）を表し、ｂ_ｉは、対象ロボットＲ５を含めない（無視した場合）環境の状態により決定される行動（以下「第２の行動」という。）を表す。ｗは、各移動体について第１の行動と第２の行動との差をとり、その総和に応じた値をペナルティとして負の報酬値に変換する係数である。すなわち（２）式は、第１の行動と第２の行動との差が大きいほど小さくなる報酬を算出するものである。このような報酬関数によれば、例えば対象ロボットＲ５は、自身の行動が他の移動体の移動に影響を与えないような移動方法を学習することができる。報酬関数Ｒ_４は「第４の関数」の一例である。

以上説明したネットワークの学習動作は、個々のシミュレータ１２０が所定のエージェント数でのシミュレーションを行うときの動作を説明したものである。本実施形態の学習装置１００は、上記の強化学習を、シミュレーションにおけるエージェント数を徐々に増やしながら実行していくことにより、エージェント数の異なる複数の環境における移動体の動作を並列で学習するように構成される。この、エージェント数を徐々に増やしながら最終的なエージェント数の環境のポリシーを学習する方法（以下「段階的強化学習」という。）は、強化学習の精度を高める手法の一つとして知られているものである（例えば非特許文献１参照）。

図４は、段階的強化学習の効果の一例を示す図である。図４において、横軸は各段階における学習の進行度合いを表し、縦軸は学習の精度を表す。図４によれば、最初から１０エージェントで学習を進めるよりも、２、４、８、１０と段階的にエージェント数を増やしながら学習を進めた方がより高い報酬を得る動作を学習できることが分かる。

しかしながら、複数のエージェントが存在する環境では、１０エージェントで学習したポリシーが必ずしもすべての環境において適切な移動を決定するとは限らない。なぜなら、移動の学習においては、他の移動体や障害物等に接触しないような移動先を決定する（すなわち高い報酬が得らえる動作として学習する）ことが優先されるものの、環境の状態（例えば環境に存在するエージェントの密度など）によっては、他の事項の優先度が高くなる場合もあるからである。すなわち、エージェント数がより多い環境での移動の学習結果は、エージェント数が少ない環境での移動を決定するにあたって過学習となる場合がある。

図５および図６は、ポリシーの過学習の一例を示す図である。図５は２エージェントで学習したポリシーに基づく移動の例を示し、図６は１０エージェントで学習したポリシーに基づく移動の例を示す。図５および図６は、いずれも１つのエージェントＡが出発地点Ｂから出発して障害物Ｃを回避しながら目的地Ｄに到着するために決定した移動経路を示すものである。図５および図６から、２エージェント環境で学習されたポリシーでは、エージェントＡは出発地点Ｂを出発後に速やかに障害物Ｃの回避行動を開始するのに対して、１０エージェント環境で学習されたポリシーでは、エージェントＡはより障害物Ｃに近い位置で回避行動を開始するのが分かる。

このような回避行動の違いは、例えば、エージェント数が多い環境ほど他のエージェントと干渉しやすくなるため、他のエージェントと干渉しないように、より障害物Ｃに近い位置で回避行動を開始することを学習した結果によるものと考えることができる。また、例えば、このような回避行動の違いは、エージェント数が少ない環境ほど他のエージェントと干渉しにくくなるため、移動の安全性を高めるため、進行方向をより緩やかに変更することを学習した結果によるものと考えることもできる。

いずれにせよ、従来の段階的強化学習では、エージェント数が少ない環境からエージェント数が多い環境まで順次個別に学習を行った場合、ポリシーによる移動態様の決定において最後の学習環境による学習結果が支配的になる。そのため、多くのエージェントが存在する環境での移動を精度良く学習できたとしても、その学習によって生成されたポリシーは多くのエージェントが存在する環境に最適化されたものとなり、異なるエージェント数の環境では適切な行動を決定できない場合があった。そこで、本実施形態の学習装置１００では、複数のシミュレータ１２０を並列で動作させることにより、エージェント数の異なる環境を並列で学習する構成とした。

図７は、学習装置１００が複数のシミュレータ１２０を用いてそれぞれエージェント数が異なる環境について動作を学習する様子を示す図である。上述のとおり、本実施形態の学習装置１００において、シミュレータ１２０Ａ、１２０Ｂ、１２０Ｃ、１２０Ｄはそれぞれ２エージェント、４エージェント、８エージェント、１０エージェントが存在する環境について各エージェントの動作を決定する。具体的には、各シミュレータ１２０は、規定の最小数のエージェント数でシミュレーションを開始し、各シミュレータ１２０の最大数まで徐々にエージェント数を増やしながらシミュレーションを実行していく。

例えば、本実施形態では、シミュレータ１２０Ｂは、エージェントの最大数が４であるので、まず２エージェントでシミュレーションを開始し、２エージェントでの学習がある程度進んだところで４エージェントでのシミュレーションに移行する。同様に、シミュレータ１２０Ｃは、エージェントの最大数が８であるので、まず２エージェントでシミュレーションを開始し、２エージェントでの学習がある程度進んだところで４エージェントでのシミュレーションに移行し、４エージェントでの学習がある程度進んだところで８エージェントでのシミュレーションに移行する。同様に、シミュレータ１２０Ｄは、エージェントの最大数が１０であるので、まず２エージェントでシミュレーションを開始し、２エージェントでの学習がある程度進んだところで４エージェントでのシミュレーションに移行し、４エージェントでの学習がある程度進んだところで８エージェントでのシミュレーションに移行し、８エージェントでの学習がある程度進んだところで１０エージェントでのシミュレーションに移行する。シミュレータ１２０Ｂ、１２０Ｃ、１２０Ｄは、エージェントが最大数に達すると、学習の終了まで最大数でのシミュレーションを継続する。なお、シミュレータ１２０Ａは、エージェントの最大数が２であるので、学習の最初から最後まで２エージェントでシミュレーションを実行する。

なお、図７では、簡単のため、各学習段階で同じエージェント数の環境を同じ状態で表しているが、これは、連続する学習段階で同じエージェント数の環境のシミュレーションが実行されることを意味するものであって、全く同じシミュレーションが繰り返し実行されるということを意味するものではない。また、各シミュレータにおいて、同じエージェント数の環境のシミュレーションが学習段階ごとに表されているのは、同じエージェント数のシミュレーションが連続する学習段階で行われることを意味するものであって、シミュレーションの開始および終了が学習段階ごとに行われることを必ずしも意味しない。エージェント数が変わらない場合、シミュレーションの開始および終了は学習段階ごとに行われてもよいし、連続する学習段階で継続して行われてもよい。

このような構成によれば、エージェント数の異なる環境の学習をまんべんなく進めていくことができるので、どのようなエージェント数の環境にも柔軟に対応することが可能となる。すなわち、このような方法で学習されたポリシーを用いることにより、移動体制御装置２５０は、移動体２００が周囲の移動体の個数に応じて適切な態様で移動するように移動体２００を制御することができる。また、このような方法で学習されたポリシーを用いることにより、移動体制御装置２５０の移動制御部２５２は、移動体２００の周辺に存在する障害物の個数に応じて移動体２００の経路を決定することができる。移動制御部２５２は「経路決定部」の一例である。

具体的には、各シミュレータ１２０にはそれぞれ異なる最大エージェント数が予め設定され、各シミュレータ１２０は、少ないエージェント数からそれぞれの最大エージェント数まで段階的にエージェント数を増加させながらシミュレーションを実行していく。なお、学習装置１００は、各シミュレータ１２０に対し計算リソースを時分割で割り当てるように構成されてもよいし、各シミュレータ１２０が並列で使用可能な計算リソースを割り当てるように構成されてもよい。例えば、学習装置１００は、シミュレータ１２０の数以上のＣＰＵを備え、各シミュレータ１２０に対して別個のＣＰＵを計算リソースとして割り当てるように構成されてもよい。図７は、シミュレータ１２０Ａ～１２０Ｄに対して第１～第４のＣＰＵ＃１～＃４が割り当てられた例を表している。各シミュレータ１２０に割り当てる計算リソースは、ＣＰＵの物理コア単位であってもよいし、ＳＭＴ（Simultaneous Multithreading Technology）などの技術により実現される仮想コア単位であってもよい。

以上説明した学習装置１００によれば、強化学習によるエージェントの動作の学習を、エージェント数が異なる各環境に対応した複数のシミュレータ１２０に分散して並列で実施することができる。これによって、学習装置１００の学習結果であるポリシーを適用した移動体制御装置２５０は、環境の混雑度に応じて適切な移動態様を決定することが可能となる。

［移動体］
図８は、移動体２００の構成例を示す図である。移動体２００は、例えば、移動体制御装置２５０と、周辺検知装置２１０と、移動体センサ２２０と、作業部２３０と、駆動装置２４０とを備える。移動体２００は、車両であってもよいし、ロボット等のような装置であってもよい。移動体制御装置２５０と、周辺検知装置２１０と、移動体センサ２２０と、作業部２３０と、駆動装置２４０とは、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。

周辺検知装置２１０は、移動体２００の周辺の環境や周辺の他の移動体の動作を検知するための装置である。周辺検知装置２１０は、例えば、ＧＰＳ受信機や地図情報などを含む測位装置と、レーダー装置やカメラなどの物体認識装置とを備える。測位装置は、移動体２００の位置を測位し、位置を地図情報とマッチングする。レーダー装置は、移動体２００の周辺にミリ波などの電波を放射すると共に、物体によって反射された電波（反射波）を検出して少なくとも物体の位置（距離および方位）を検出する。レーダー装置は、物体の位置および移動ベクトルを検出してもよい。カメラは、例えば、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）等の固体撮像素子を利用したデジタルカメラであり、撮像画像から物体の位置を認識する画像処理装置が付設されている。周辺検知装置２１０は、移動体２００の地図上の位置や移動体２００の周辺に存在する物体（前述した他エージェントに相当する他の移動体を含む）の位置等の情報を移動体制御装置２５０に出力する。

移動体センサ２２０は、例えば、移動体２００の速度を検出する速度センサ、加速度を検出する加速度センサ、鉛直軸回りの角速度を検出するヨーレートセンサ、移動体２００の向きを検出する方位センサ等を含む。移動体センサ２２０は、検出した結果を移動体制御装置２５０に出力する。

作業部２３０は、例えば、利用者へ所定のサービスを提供する装置である。ここでのサービスとは、例えば、貨物などを輸送機器への積み込みや荷下ろし等の作業である。作業部２３０は、例えば、マジックアーム、荷台、マイクやスピーカなどのＨＭＩ（Human machine Interface）などを含む。作業部２３０は、移動体制御装置２５０から指示された内容に従って動作する。

駆動装置２４０は、移動体２００を所望の方向に移動させるための装置である。移動体２００がロボットである場合、駆動装置２４０は例えば二以上の脚部とアクチュエータを含む。移動体２００が車両やマイクロモビ、或いは車輪で移動するロボットである場合、駆動装置２４０は車輪（操舵輪、駆動輪）と車輪を回転させるためのモータやエンジン等を含む。

移動体制御装置２５０は、例えば、移動制御部２５２と、記憶部２５６とを備える。移動制御部２５２は、例えば、ＣＰＵなどのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。プログラムは、予めＨＤＤやフラッシュメモリなどの記憶装置（非一過性記憶媒体）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体（非一過性記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵなどのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

記憶部２５６は、例えば、ＨＤＤやフラッシュメモリ、ＲＡＭ、ＲＯＭ等である。記憶部２５６には、例えば、ポリシー２５６Ａ等の情報が格納されている。ポリシー２５６Ａは、学習装置１００によって生成されたポリシーＰＬであり、学習段階の処理の最終時点のポリシーに基づくものである。

移動制御部２５２は、例えば、周辺検知装置２１０により検知された、移動体２００の地図上の位置や移動体２００の周辺に存在する物体の位置等の情報、更に利用者により入力された目的地の情報をポリシー２５６Ａに入力することで、移動体２００が次に進むべき位置（移動態様）を決定し、決定した位置を駆動装置２４０に出力する。この繰り返しにより移動体２００の経路が順次決定される。

以上説明した移動体制御装置２５０によれば、実施形態の学習装置１００の学習結果であるポリシーを適用することにより、移動体２００を環境の混雑度に応じた態様で移動させながら、利用者に所定のサービスを提供することができる。

＜第２実施形態＞
第２実施形態の移動体制御システム１は、第１実施形態の移動体制御システム１と同様に、学習装置１００が複数のシミュレータ１２０によりそれぞれエージェント数の異なる環境でエージェントの移動をシミュレーションし、そのシミュレーション結果に基づいて経験蓄積部１３０が評価情報を生成し、その評価情報に基づいて学習部１１０がネットワークのパラメータを更新するものである。

一方で、第１実施形態の移動体制御システム１は、学習装置１００において、各シミュレータ１２０が１つの環境で段階的強化学習を実行するものであったのに対して（図７参照）、第２実施形態の移動体制御システム１は、各シミュレータ１２０が同じエージェント数の複数の環境で各学習段階でのシミュレーションを実行する点で第１実施形態の学習装置１００と異なるものである。その他の構成は、第１実施形態の移動体制御システム１と同様である（図１、図２、図７等を参照）。

図９は、第２実施形態の学習装置１００において、複数のシミュレータ１２０が同じエージェント数の複数の環境でシミュレーションを実行する様子を示すイメージ図である。第２実施形態においても、第１実施形態と同様に、各シミュレータ１２０には同時使用可能な計算リソースとして異なるＣＰＵが割り当てられるものとする。例えば、図９は、１つのＣＰＵで同時並列的に計算することができるエージェント数の最大値（以下「最大並列数」という。）が４０である場合の例である。

ここで、第１シミュレータ１２０Ａは、最大エージェント数が２に設定されているため、第１段階から第４段階まで常時２エージェント環境でシミュレーションを実行する。この場合、１ＣＰＵ当たりの最大並列数が４０であるので、第１シミュレータ１２０Ａは、２０個の２エージェント環境について並列でシミュレーションを実行する。

同様に、第２シミュレータ１２０Ｂは、最大エージェント数が４に設定されているため、まず第１段階では２エージェント環境でのシミュレーションを実行し、第２段階で最大エージェント数の４エージェント環境でのシミュレーションに移行し、第２～第４段階において４エージェント環境でのシミュレーションを実行する。この場合、１ＣＰＵ当たりの最大エージェント数が４０であるので、第２シミュレータ１２０Ｂは、第１段階では第１シミュレータ１２０Ａと同様に、２０個の２エージェント環境について並列でシミュレーションを実行し、第２～第４段階では９個の４エージェント環境について並列でシミュレーションを実行する。なお、ここでは、イメージをつかみやすくするために９個（＝３×３）の４エージェント環境（エージェント総数は３６＝９×４＜４０）を示しているが、第２シミュレータ１２０Ｂは、最大並列数である１０個の４エージェント環境について並列でシミュレーションを実行するように構成されてもよい。

同様に、第３シミュレータ１２０Ｃは、最大エージェント数が８に設定されているため、まず第１段階では２エージェント環境でのシミュレーションを実行し、第２段階で４エージェント環境でのシミュレーションに移行し、第３段階で最大エージェント数の８エージェント環境でのシミュレーションに移行し、第３～第４段階において８エージェント環境でのシミュレーションを実行する。この場合、１ＣＰＵ当たりの最大エージェント数が４０であるので、第３シミュレータ１２０Ｃは、第１段階では第１シミュレータ１２０Ａと同様に、２０個の２エージェント環境について並列でシミュレーションを実行し、第２段階では第２シミュレータ１２０Ｂと同様に、１０個の４エージェント環境について並列でシミュレーションを実行し、第３～第４段階では４個の８エージェント環境について並列でシミュレーションを実行する。なお、ここでは、イメージをつかみやすくするために４個（＝２×２）の８エージェント環境（エージェント総数は３２＝８×４＜４０）を示しているが、第３シミュレータ１２０Ｃは、最大並列数である５個の８エージェント環境について並列でシミュレーションを実行するように構成されてもよい。

同様に、第４シミュレータ１２０Ｄは、最大エージェント数が１０に設定されているため、まず第１段階では２エージェント環境でのシミュレーションを実行し、第２段階で４エージェント環境でのシミュレーションに移行し、第３段階で８エージェント環境でのシミュレーションに移行し、第４段階で最大エージェント数の１０エージェント環境でのシミュレーションに移行する。この場合、１ＣＰＵ当たりの最大エージェント数が４０であるので、第４シミュレータ１２０Ｄは、第１段階では第１シミュレータ１２０Ａと同様に、２０個の２エージェント環境について並列でシミュレーションを実行し、第２段階では第２シミュレータ１２０Ｂと同様に、９個の４エージェント環境について並列でシミュレーションを実行し、第３段階では第３シミュレータ１２０Ｃと同様に、４個の８エージェント環境について並列でシミュレーションを実行し、第４段階では４個の１０エージェント環境について並列でシミュレーションを実行する。

なお、図９では、各学習段階において、各ＣＰＵが生成する複数の環境のエージェント数は統一されているが、これは必須ではなく、最大並列数を超えず、かつ段階的なエージェント数の増加に適合するものであればエージェント数は複数の環境で統一される必要はない。例えば、学習の最終段階において、ＣＰＵ＃１では各環境の移動体数を２とし、ＣＰＵ＃２では２～６（移動体数を少なくして環境数を多くする）とし、ＣＰＵ＃３では２～６（移動体数を多して環境数を少なくする）とし、ＣＰＵ＃４では２～１０（移動体数を多くして環境数を少なくする）としてもよい。

また、図９では、簡単のため、各学習段階において、複数個の同じエージェント数の環境を同じ状態で表しているが、これは、同じエージェント数の環境のシミュレーションが同時に実行されることを意味するものであって、全く同じシミュレーションが同時に実行されるということを意味するものではない。

また、図９では、図７と同様に、簡単のため、各学習段階で同じエージェント数の環境を同じ状態で表しているが、これは、連続する学習段階で同じエージェント数の環境のシミュレーションが実行されることを意味するものであって、全く同じシミュレーションが繰り返し実行されるということを意味するものではない。また、各シミュレータにおいて、同じエージェント数の環境のシミュレーションが学習段階ごとに表されているのは、同じエージェント数のシミュレーションが連続する学習段階で行われることを意味するものであって、シミュレーションの開始および終了が学習段階ごとに行われることを必ずしも意味しない。エージェント数が変わらない場合、シミュレーションの開始および終了は学習段階ごとに行われてもよいし、連続する学習段階で継続して行われてもよい。

このように構成された第２実施形態の移動体制御システム１では、学習装置１００が、エージェント数が同じ複数の環境について並列でシミュレーションを実行することができる。このような構成により、実施形態の移動体制御システム１は、複数のエージェントが存在する環境における各エージェントの移動を効率良く学習することができる。

また、第２実施形態の移動体制御システム１では、複数のＣＰＵごとのシミュレータのそれぞれが仮想的に複数の環境を形成し、ＣＰＵごとの移動体の合計値が複数のＣＰＵで統一され、環境の数に応じた数のエージェントが各環境に生成される。このような構成によれば、実施形態の移動体制御システム１は、収集される経験においてＣＰＵごとの偏りが出ることを防ぎ、各エージェントの移動をより効率的に学習することができる。

本実施形態において、ポリシーの更新は学習段階でのみ行われ、移動体に搭載された後には行われないと想定するが、移動体に搭載された後も学習が継続されてよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

上記説明した実施形態は、以下のように表現することができる。
プログラムを記憶した記憶装置と、
ハードウェアプロセッサと、を備え、
前記ハードウェアプロセッサが前記記憶装置に記憶されたプログラムを実行することにより、
存在する移動体または障害物の数がシミュレータごとに異なる複数の前記シミュレータにより、移動体の動作のシミュレーションを実行し、
複数の前記シミュレータの各処理結果に報酬関数を適用して得られた各報酬の累積和が最大化するように前記動作のポリシーを学習する、
ように構成されている、学習装置。

上記説明した実施形態は、以下のように表現することができる。
プログラムを記憶した記憶装置と、
ハードウェアプロセッサと、を備え、
前記ハードウェアプロセッサが前記記憶装置に記憶されたプログラムを実行することにより、
移動体の周辺に存在する障害物の個数に応じて前記移動体の経路を決定し、
決定された前記経路に沿って前記移動体を移動させる、
ように構成されている、移動体制御装置。

上記説明した実施形態は、以下のように表現することができる。
プログラムを記憶した記憶装置と、
ハードウェアプロセッサと、を備え、
前記ハードウェアプロセッサが前記記憶装置に記憶されたプログラムを実行することにより、
作業部により、利用者に所定のサービスを提供し、
駆動装置により、自移動体が上記移動体制御装置によって決定された移動態様で移動するように駆動する、
ように構成されている、移動体。

１…移動体制御システム、１００…学習装置、１１０…学習部、１２０…シミュレータ、１２０Ａ…第１シミュレータ、１２０Ｂ…第２シミュレータ、１２０Ｃ…第３シミュレータ、１２０Ｄ…第４シミュレータ、１３０…経験蓄積部、２００…移動体、２１０…周辺検知装置、２２０…移動体センサ、２３０…作業部、２４０…駆動装置、２５０…移動体制御装置、２５２…移動制御部、２５４…制御部、２５６…記憶部

Claims

移動体の周辺に存在する障害物の個数に応じて前記移動体の経路を決定する経路決定部と、
前記経路決定部により決定された経路に沿って前記移動体を移動させる制御部と、
を備える移動体制御装置。
前記経路決定部は、
シミュレータと学習部によって学習された動作のポリシーに基づき移動体の経路を決定し、
前記動作のポリシーは、
前記シミュレータが障害物の数が異なる複数の環境について同時に前記移動体および前記障害物の動作のシミュレーションを実行し、前記学習部が前記シミュレータの処理結果に報酬関数を適用して得られた報酬が最大化するように更新することによって学習されたものである、
請求項１に記載の移動体制御装置。
前記動作のポリシーは、
複数の前記シミュレータの処理結果に基づいて学習され、
前記環境内の前記障害物の数は複数の前記シミュレータごとに異なり、
前記学習部は複数の前記シミュレータの各処理結果に報酬関数を適用して得られた各報酬の累積和が最大化するように前記動作のポリシーを更新することによって学習されたものである、
請求項２に記載の移動体制御装置。
請求項１から３のいずれか一項に記載の移動体制御装置と、
利用者に所定のサービスを提供するための作業部と、
自移動体を移動させるための駆動装置と、
を備え、
前記駆動装置は、前記自移動体が前記移動体制御装置によって決定された移動態様で移動するように駆動する、
移動体。
移動体の動作のシミュレーションを実行するシミュレータであって、存在する前記移動体または障害物の数が前記シミュレータごとに異なる複数の前記シミュレータと、
複数の前記シミュレータの各処理結果に報酬関数を適用して得られた各報酬の累積和が最大化するように前記動作のポリシーを学習する学習部と、
を備える学習装置。
複数の前記シミュレータは、それぞれに対応づけられた別個のプロセッサによって実行される、
請求項５に記載の学習装置。
複数の前記シミュレータには、それぞれ異なる前記移動体または前記障害物の最大数が設定され、
複数の前記シミュレータは、規定の最小数からそれぞれの最大数まで段階的に前記移動体または前記障害物の数を増やしながらシミュレーションを実行する、
請求項５または６に記載の学習装置。
複数の前記シミュレータは、各段階のシミュレーションにおいて、前記移動体または前記障害物の個数が同じ複数の環境について並列でシミュレーションを実行する、
請求項５から７のいずれか一項に記載の学習装置。
前記報酬関数は、移動体の目標への到達度、移動体の衝突回数、移動体の移動速度のうち少なくとも一つを変数として含む、
請求項５から８のいずれか一項に記載の学習装置。
前記報酬関数は、自移動体の周囲に存在する前記移動体または前記障害物の移動ベクトルの変化を独立変数として含む、
請求項５から９のいずれか一項に記載の学習装置。
コンピュータが、
存在する移動体または障害物の数がシミュレータごとに異なる複数の前記シミュレータにより、移動体の動作のシミュレーションを実行し、
複数の前記シミュレータの各処理結果に報酬関数を適用して得られた各報酬の累積和が最大化するように前記動作のポリシーを学習する、
学習方法。
コンピュータに、
存在する移動体または障害物の数がシミュレータごとに異なる複数の前記シミュレータにより、移動体の動作のシミュレーションを実行させ、
複数の前記シミュレータの各処理結果に報酬関数を適用して得られた各報酬の累積和が最大化するように前記動作のポリシーを学習させる、
プログラム。