JP2023051351A

JP2023051351A - 移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置

Info

Publication number: JP2023051351A
Application number: JP2021161960A
Authority: JP
Inventors: 燦心松▲崎▼; Sango Matsuzaki; 雄二長谷川; Yuji Hasegawa
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-04-11
Anticipated expiration: 2041-09-30
Also published as: CN115903774A; US20230101162A1; JP7584385B2

Abstract

【課題】周囲の他の移動体に対して親和性の高い行動を、移動体にとらせることができる移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置を提供すること。【解決手段】自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定する経路決定部と、前記経路決定部により決定された経路に沿って前記自移動体を移動させる制御部と、を備える移動体制御装置。【選択図】図２

Description

本発明は、移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置に関する。

近年、ＡＩ（人工知能）の発展に従い、自律的移動体が人間と混在する環境において、強化学習によって経路を決定する研究が行われている。しかし、人混みが存在する交通環境において、ロボットと歩行者の干渉状態が頻発している。

これに関連し、人の移動に対して安全・安心な回避行動を取るために、自律移動型のロボットが目的地まで移動するときの経路を、歩行者を含む交通参加者が目的地までの交通環境に存在する条件下で決定する経路決定装置の発明が開示されている（特許文献１参照）。この経路決定装置は、所定の予測アルゴリズムを用いて、ロボットと交通参加者との干渉が回避されるように、ロボットの経路の予測値である予測経路を決定する予測経路決定部と、ロボットが現在位置から予測経路で移動すると想定したときに、ロボットに最も近い交通参加者との距離及びロボットの速度を独立変数として含む目的関数が最大値になるように、所定の制御アルゴリズムを用いて、ロボットの経路を決定する経路決定部と、を備える。

また、非特許文献１には、報酬関数に関して、周囲の人との協調性を向上するため、横切り、対向、追い抜きの三つのパターンを考慮した上、報酬関数を作成し、所定のアルゴリズムを用いてロボットに学習させるということについて記載されている。

また、非特許文献２には、報酬関数に関して、ロボットおよび人のそれぞれの進行方向に沿って重なる領域において、移動している人の数を巡って、報酬関数を作成し、所定のアルゴリズムを用いてロボットに学習させるということについて記載されている。

国際公開第２０２０／１３６９７７号

"Socially Aware Motion Planning with Deep Reinforcement Learning", Yu Fan Chen, Michael Everett, Miao Liu, Jonathan P.How, 2017.3.26, <<https://arxiv.org/pdf/1703.08862.pdf>> " Mapless Navigation among Dynamics with Social-safety-awareness:a reinforcement learning approach from 2D laser scans", Jun Jin, Nhat M. Nguyen, Nazmus Sakib, Daniel Graves, Hengshuai Yao, and Martin Jagersand, 2020.3.5., <<https://arxiv.org/pdf/1911.03074.pdf>>

上記従来の技術では、移動体が周囲の他の移動体の行動に与える影響が考慮されていないため、周囲の他の移動体に対して親和性の高い行動をとることができない場合があった。また、特許文献１に記載の技術では他の移動体の動作（ロボットの経路）を予測しているが、他の移動体の動作を精度良く予測するのは現在の技術でも困難である。

本発明は、このような事情を考慮してなされたものであり、周囲の他の移動体の将来の動作を予測することなく、周囲の他の移動体に対して親和性の高い行動を移動体にとらせることができる移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置を提供することを目的の一つとする。

この発明に係る移動体制御装置、移動体、移動体制御方法、プログラム、または学習装置は、以下の構成を採用した。
（１）：この発明の一態様に係る移動体制御装置は、自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定する経路決定部と、前記経路決定部により決定された経路に沿って前記自移動体を移動させる制御部と、を備える移動体制御装置である。

（２）：上記（１）の態様において、前記経路決定部は、複数の前記他の移動体の移動ベクトルの変化の合計を低減するように前記自移動体の経路を決定するものである。

（３）：上記（１）または（２）の態様において、前記経路決定部は、前記他の移動体の移動ベクトルの変化を独立変数として持つ報酬関数の値が良好な値となるように前記自移動体の経路を決定するものである。

（４）：上記（１）から（３）のうち、いずれかの態様において、前記経路決定部は、前記他の移動体の移動ベクトルの向く方向に大きく、前記他の移動体の移動ベクトルの向く方向の側方および反対方向に小さい領域に進入しないように前記自移動体の経路を決定するものである。

（５）：本発明の他の態様に係る移動体は、上記（１）から（４）のうちいずれかに記載の移動体制御装置と、周辺環境を検知する周辺検知装置と、ユーザへ所定のサービスを提供するための作業部と、前記移動体制御装置によって制御され、移動体を移動させる駆動部とを備え、前記移動体制御装置は、前記周辺環境に基づく他の移動体の状態を入力することで、前記移動体を移動させる制御パラメータを出力する、移動体である。

（６）：本発明の他の態様に係る移動体制御方法は、コンピュータが、自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定し、前記経路決定部により決定された経路に沿って前記自移動体を移動させる移動体制御方法である。

（７）：本発明の他の態様に係るプログラムは、コンピュータに、自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定させ、前記経路決定部により決定された経路に沿って前記自移動体を移動させることを行わせるプログラムである。

（８）：本発明の他の態様に係る学習装置は、自移動体と他の移動体のそれぞれの移動動作をシミュレートするシミュレーション部と、前記シミュレーション部の処理結果に報酬関数を適用し、少なくとも前記自移動体の移動動作を評価する評価部と、前記評価部の評価結果に基づいて（前記自移動体の好適な移動動作を）学習する学習部とを備え、前記評価部は、前記他の移動体の移動ベクトルの変化が小さい程、前記自移動体の移動動作を高く評価する学習装置である。

（９）：上記（８）の態様において、前記評価部は、前記自移動体が、前記他の移動体の移動ベクトルの向く方向に大きく、前記他の移動体の移動ベクトルの向く方向の側方および反対方向に小さい領域に進入した場合、前記自移動体の移動動作を低く評価するものである。

上記（１）～（３）、（５）～（７）の態様によれば、周囲の他の移動体の将来の動作を予測することなく、他の移動体の移動をなるべく阻害しないように移動体を移動させることができる。この結果、周囲の他の移動体に対して親和性の高い行動を移動体にとらせることができる。
上記（４）の態様によれば、パーソナルスペースを考慮して移動体の経路を決定することができる。
これらより、上記（１）～（７）の態様によれば、周囲の他の移動体の将来の動作を予測することなく、周囲の他の移動体に対して更に親和性の高い行動を、移動体にとらせることができる。
上記（８）の態様によれば、周囲の他の移動体の将来の動作を予測することなく、他の移動体の移動をなるべく阻害しないように学習することができる。この結果、周囲の他の移動体に対して親和性の高い行動を移動体にとらせることができるポリシーを生成することができる。
上記（９）の態様によれば、パーソナルスペースを考慮して学習することができる。
これらより、上記（８）～（９）の態様によれば、周囲の他の移動体の将来の動作を予測することなく、周囲の他の移動体に対して更に親和性の高い行動を、移動体にとらせるための学習を行うことができる。

実施形態のシステム構成を示す概略図である。学習装置１００の構成図である。報酬関数Ｒ_３について説明するための図である。報酬関数Ｒ_４について説明するための図である。学習装置１００が行う強化学習の学習過程の処理の一例を示すフローチャートである。移動体２００の構成図である。

以下、図面を参照し、本発明の移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置の実施形態について説明する。

［学習装置］
図１は、実施形態のシステム構成を示す概略図である。移動体制御システム１は、学習装置１００と、移動体２００とを備える。学習装置１００は、一以上のプロセッサにより実現される。学習装置１００は、複数の移動体についてコンピュータシミュレーションにより行動を決定し、その行動によって生じた環境の変化等に基づく報酬を導出または取得し、報酬を最大化する行動（動作）を学習する装置である。動作とは、例えば、シミュレーション空間内での移動である。移動以外の動作が学習対象とされてもよいが、以下の説明では動作とは移動を意味するものとする。移動を決定するシミュレータ（後述するシミュレーション部）は、学習装置１００と異なる装置において実行されてもよいが、以下の説明ではシミュレータは学習装置１００が実行するものとする。学習装置１００は、地図情報などの、シミュレーションの前提となる環境情報を予め記憶している。学習装置１００の学習結果は、行動決定モデルＭＤとして移動体２００に搭載される。

図２は、学習装置１００の構成図である。学習装置１００は、例えば、学習部１１０と、シミュレーション部１２０と、評価部１３０とを備える。学習装置１００は、自エージェント（移動体２００において自移動体となるもの）が、ある目的地に到着するため生成した動作目標と、他エージェント（他の移動体）の位置、移動方向、および移動速度などとをポリシーに入力し、その結果として生じた状態変化（環境の変化）を評価した結果に基づいて、ポリシーを更新する強化学習を行い、学習済のポリシーを出力する装置である。

自エージェントとは、ロボットや車両などの移動体を想定した仮想的な動作主体である。他エージェントも同様に、ロボットや車両などの移動体を想定した仮想的な動作主体である。他エージェントの動作決定にもポリシーが用いられるが、他エージェントのポリシーは更新されてもよいし、更新されなくてもよい。

学習部１１０と、シミュレーション部１２０と、評価部１３０とは、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。プログラムは、予めＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの記憶装置（非一過性記憶媒体）に格納されていてもよいし、ＤＶＤ（Digital Versatile Disc）やＣＤ－ＲＯＭ（Read Only Memory）などの着脱可能な記憶媒体（非一過性記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

学習部１１０は、シミュレーション部１２０により生成された状態変化を評価部１３０が評価した評価結果、および衝突判定結果に基づいて各種強化学習アルゴリズムに従ってポリシーを更新する。学習部１１０は、更新したポリシーをシミュレーション部１２０に出力することを、学習が完了するまで繰り返し実行する。

シミュレーション部１２０は、動作目標と、前回の状態（シミュレーションの開始直後であれば初期状態）とをポリシーに入力し、自エージェントと他エージェントの動作の結果である状態変化を導出する。ポリシーは、例えば、ＤＮＮ（Deep Neural Network）であるが、ルールベースのポリシーなど、他の態様のポリシーであってもよい。ポリシーは、想定される複数種類の動作のそれぞれについて、発生確率を導出するものである。例えば、簡単な例では、想定平面が上下左右に広がるものとして、右移動８０％、左移動１０％、上移動１０％、下移動０％といった結果を出力する。シミュレーション部１２０は、この結果に乱数を作用させて、乱数値が０％以上、８０％未満であれば右移動、乱数値が８０％以上、９０％未満であれば左移動、乱数値が９０％以上であれば上移動というようにエージェントの状態変化を導出する。

評価部１３０は、シミュレーション部１２０が出力した自エージェントの状態変化を評価する報酬関数Ｒの値（報酬関数値）を計算し、自エージェントの動作を評価する。

報酬関数Ｒは、式（１）に示されるように、自エージェントが目的地に到着した場合に与えられる報酬関数Ｒ_１と、自エージェントがスムーズに移動を達成した場合に与えられる報酬関数Ｒ_２と、自エージェントが他エージェントの移動ベクトルに変化を及ぼした場合に小さくなる報酬関数Ｒ_３と、他エージェントの向く方向に応じて、自エージェントが他エージェントに接近する時に保持すべき距離を可変にした報酬関数Ｒ_４とを含む。報酬関数Ｒ_３は、第１の報酬関数の一例であり、報酬関数Ｒ_４は、第２の報酬関数の一例である。

報酬関数Ｒ_１は、目的地に到達した場合に正の固定値、目的地に到達していない場合に目的地までの距離変化に比例した値（距離変化が減少方向であれば正、増加方向であれば負）となる関数である。

報酬関数Ｒ_２は、エージェントの二次元平面における位置の三回微分すなわちジャーク（躍度）が小さいほど大きい値となる関数である。

図３は、報酬関数Ｒ_３について説明するための図である。時刻（制御サイクル）ｔにおいて計算される報酬関数Ｒ_３は、時刻ｔ－１の他エージェントの状態から時刻ｔまでの他エージェントの移動ベクトルａ´_ｉ,_ｔ（自エージェントが存在しないと仮定した場合に他エージェントの移動ベクトル）と、時刻ｔ－１の他エージェントの状態から時刻ｔまでの他エージェントの移動ベクトル（自エージェントが存在した前提での他エージェントの移動ベクトル）ａ_ｉ,_ｔとを比較し、これらの差分が大きいほど、結果的な評価値が小さい値となる関数である。つまり、報酬関数Ｒ_３は、自エージェントが周辺の他エージェントの移動ベクトルに変化を及ぼさないほど、自エージェントの動作を高く評価するものである。報酬関数Ｒ_３は、他エージェントの移動ベクトルの変化を独立変数として持つ目的関数であり、例えば値が大きい程、良好な値であることを示すものである。評価部１３０は、時刻ｔ－１の他エージェントの状態から自エージェントが存在しないと仮定した場合に想定される時刻ｔまでの他エージェントの移動ベクトルａ´_ｉ,_ｔを自ら導出してもよいし、シミュレーション部１２０に導出を依頼してもよい。

式（２）におけるＷは、負の係数、あるいはΣ以降の値が大きいほど低い評価値を返す関数である。ａ_ｉ,_ｔは時刻ｔ－１から時刻ｔまでの（自エージェントが存在する前提での）各他エージェントの移動ベクトルであり、ａ´_ｉ,_ｔは時刻ｔ－１から時刻ｔまでの（自エージェントが存在しないと仮定した場合）の各他エージェントの移動ベクトルである。ｉは他エージェントの識別番号であり、Ｎは全部の存在する他エージェントの数である。

図３において、エージェントＨは自エージェントであり、エージェントＡ１～Ａ５は他エージェントである。例えば、時刻ｔにおいて、他エージェントＡ１はａ_１,ｔの移動ベクトルで移動し、他エージェントＡ２はａ_２,ｔの移動ベクトルで移動し、他エージェントＡ３はａ_３,ｔの移動ベクトルで移動し、他エージェントＡ４はａ_４,ｔの移動ベクトルで移動し、他エージェントＡ５はａ_５,ｔの移動ベクトルで移動している。これに対し、時刻ｔ－１の状態に戻り、導出される自エージェントＨが存在しないと仮定した場合の移動ベクトルは、他エージェントＡ１についてはａ´_１,ｔ、他エージェントＡ２についてはａ´_２,ｔ、他エージェントＡ３についてはａ´_３,ｔ、他エージェントＡ４についてはａ´_４,ｔ、他エージェントＡ５についてはａ´_５,ｔで表される。

図４は、報酬関数Ｒ_４について説明するための図である。報酬関数Ｒ_４は、自エージェントが所定領域に進入した場合に低い評価値を返す関数である。他エージェントＡの周辺の領域は、以下の４つの領域（空間）に分けられると考えられている。例えば、境界線Ｄ１で囲まれる密接空間、境界線Ｄ１と境界線Ｄ２で囲まれる個人空間（パーソナルスペース）、境界線Ｄ２と境界線Ｄ３で囲まれる社会空間、および境界線Ｄ３と境界線Ｄ４で囲まれる公衆空間に分けられると想定される。

本実施形態において、例えば、報酬関数Ｒ_４は、これらのうち個人空間の外部境界線であるＤ２に進入した場合に低い評価値を返すものである。個人空間は、社会空間、公衆空間と同様に、他エージェントＡを基準として、他エージェントＡが向いている（あるいは移動している）向き（Ｆ）に関して広く、それ以外の向きに関して狭くなっている。これによって、他エージェントＡにとって目の前を通過するような行動に対しては低い評価が、側方や背後を通過するような行動に対しては余り低くない評価が与えられる。

評価部１３０は、自エージェントと他エージェントの座標が一致した場合、自エージェントと他エージェントとが衝突したと判定してもよいし、自エージェントが他エージェントの個人空間に進入した場合、自エージェントと他エージェントとが衝突したと判定してもよい。衝突したと判定した場合、評価部１３０は、その回のエピソードを終了し、各エージェントの状態を初期化して次のエピソードが開始される。評価部１３０は、衝突判定結果および動作評価結果を学習部１１０に出力する。詳しくはフローチャートで説明する。

図５は、学習装置１００が行う強化学習の学習過程の処理の一例を示すフローチャートである。

まず、シミュレーション部１２０は、自エージェントの動作目標を学習装置１００から受け付ける（ステップＳ２００）。次に、学習装置１００は、動作目標を入力の一つとして、１サイクル分の各エージェントの動作をシミュレートする（ステップＳ２０２）。

次に、評価部１３０は、自エージェントと他エージェントとが衝突したか否かを判定する（ステップＳ２０４）。自エージェントと周辺の他エージェントとが衝突していないと判定した場合、評価部１３０は、報酬関数Ｒを用いて自エージェントの動作を評価し（ステップＳ２０６）、評価した結果を学習部１１０に出力する。

次に、学習部１１０は、評価部１３０の評価結果に基づき、強化学習アルゴリズムに従ってポリシーを更新する（ステップＳ２０８）。学習部１１０が更新したポリシーをシミュレーション部１２０に出力し、シミュレーション部１２０は、受け付けたポリシーを用いて次回のサイクルの各エージェンの動作をシミュレーションする。

次に、学習装置１００は、自エージェントと他エージェントの動作の結果である状態変化に基づいて、毎回のポリシーのパラメータの更新量が閾値以下であるか否かを判定する（ステップＳ２１０）。ここでのパラメータの更新量とは、例えば、第ｎ回の自エージェンの移動ベクトル等のパラメータが第ｎ－１回の自エージェンの移動ベクトル等のパラメータと比較して変化した量であり、パラメータの変化量の絶対値の総和等である。ポリシーのパラメータ更新量がある閾値ｍ以下である、すなわち、ポリシーのパラメータが余り変化していない場合、学習装置１００は、学習過程の処理を終了する。ポリシーのパラメータ更新量がある閾値ｍ以下でない場合、学習装置１００は、ステップＳ２０２に戻る。これに代えて、所定サイクル数の処理を終了したときに学習過程の処理を終了するようにしてもよい。

ステップＳ２０４において、自エージェントと周辺の他エージェントとが衝突したと判定した場合、評価部１３０は、その判定結果を学習部１１０に出力し、報酬関数の評価値を下げる（ステップＳ２１２）。そして、評価部１３０がその評価結果を学習部１１０に出力し、学習部１１０は、評価部１３０の評価結果に基づきポリシーを更新する（ステップＳ２１４）。更に、学習装置１００は、各エージェントの状態を初期化し、ステップＳ２０２に戻る。

以上説明した学習装置１００によれば、周囲の他の移動体の行動をなるべく阻害しないように、強化学習によって行動決定モデル（ポリシー）を生成することができる。これよって、行動決定モデルを採用した移動体制御装置２５０では、周囲の他の移動体の行動に対して親和性の高い行動を、移動体２００にとらせることができる。

［移動体］
図６は、移動体２００の構成図である。移動体２００は、例えば、移動体制御装置２５０と、周辺検知装置２１０と、移動体センサ２２０と、作業部２３０と、駆動装置２４０とを備える。移動体２００は、車両であってもよいし、ロボット等のような装置であってもよい。移動体制御装置２５０と、周辺検知装置２１０と、移動体センサ２２０と、作業部２３０と、駆動装置２４０とは、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。

周辺検知装置２１０は、移動体２００の周辺の環境や周辺の他の移動体の動作を検知するための装置である。周辺検知装置２１０は、例えば、ＧＰＳ受信機や地図情報などを含む測位装置と、レーダー装置やカメラなどの物体認識装置とを備える。測位装置は、移動体２００の位置を測位し、位置を地図情報とマッチングする。レーダー装置は、移動体２００の周辺にミリ波などの電波を放射すると共に、物体によって反射された電波（反射波）を検出して少なくとも物体の位置（距離および方位）を検出する。レーダー装置は、物体の位置および移動ベクトルを検出してもよい。カメラは、例えば、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）等の固体撮像素子を利用したデジタルカメラであり、撮像画像から物体の位置を認識する画像処理装置が付設されている。周辺検知装置２１０は、移動体２００の地図上の位置や移動体２００の周辺に存在する物体（前述した他エージェントに相当する他の移動体を含む）の位置等の情報を移動体制御装置２５０に出力する。

移動体センサ２２０は、例えば、移動体２００の速度を検出する速度センサ、加速度を検出する加速度センサ、鉛直軸回りの角速度を検出するヨーレートセンサ、移動体２００の向きを検出する方位センサ等を含む。移動体センサ２２０は、検出した結果を移動体制御装置２５０に出力する。

作業部２３０は、例えば、ユーザへ所定のサービスを提供する装置である。ここでのサービスとは、例えば、貨物などを輸送機器への積み込みや荷下ろし等の作業である。作業部２３０は、例えば、マジックアーム、荷台、マイクやスピーカなどのＨＭＩ（Human machine Interface）などを含む。作業部２３０は、移動体制御装置２５０から指示された内容に従って動作する。

駆動装置２４０は、移動体２００を所望の方向に移動させるための装置である。移動体２００がロボットである場合、駆動装置２４０は例えば二以上の脚部とアクチュエータを含む。移動体２００が車両やマイクロモビ、或いは車輪で移動するロボットである場合、駆動装置２４０は車輪（操舵輪、駆動輪）と車輪を回転させるためのモータやエンジン等を含む。

移動体制御装置２５０は、例えば、経路決定部２５２と、制御部２５４と、記憶部２５６とを備える。経路決定部２５２と制御部２５４のそれぞれは、例えば、ＣＰＵなどのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。プログラムは、予めＨＤＤやフラッシュメモリなどの記憶装置（非一過性記憶媒体）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体（非一過性記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵなどのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

記憶部２５６は、例えば、ＨＤＤやフラッシュメモリ、ＲＡＭ、ＲＯＭ等である。記憶部２５６には、例えば、行動決定モデルＭＤ２５６Ａ等の情報が格納されている。行動決定モデルＭＤ２５６Ａは、学習装置１００によって生成された、学習段階の処理の最終時点のポリシーに基づくものである。

経路決定部２５２は、例えば、周辺検知装置２１０により検知された、移動体２００の地図上の位置や移動体２００の周辺に存在する物体の位置等の情報（物体の状態）、更にユーザにより入力された目的地の情報を行動決定モデルＭＤ２５６Ａに入力することで、移動体２００が次に進むべき位置を決定する。経路決定部２５２は、これを繰り返すことで、移動体２００の経路を順次決定する。

制御部２５４は、経路決定部２５２により決定された経路を移動体２００が移動するように、駆動装置２４０を制御する。

以上説明した移動体制御装置２５０によれば、周囲の他の移動体の行動をなるべく阻害しないように強化学習によって生成された行動決定モデル（ポリシー）に基づいて移動体２００の経路を生成し、経路に沿って移動体２００を移動させるため、周囲の他の移動体の行動に対して親和性の高い行動を、移動体２００にとらせることができる。

本実施形態において、ポリシーの更新は学習段階でのみ行われ、移動体に搭載された後には行われないと想定するが、移動体に搭載された後も学習が継続されてよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

上記実施形態は、以下のように表現することができる。
プログラムを格納した記憶装置と、
前記記憶装置に接続されたハードウェアプロセッサと、を備え、
前記ハードウェアプロセッサが前記プログラムを実行することにより、
自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定し、
前記決定された経路に沿って前記自移動体を移動させる、
移動体制御装置。

上記実施形態は、以下のように表現することもできる。
プログラムを格納した記憶装置と、
前記記憶装置に接続されたハードウェアプロセッサと、を備え、
前記ハードウェアプロセッサが前記プログラムを実行することにより、
自移動体と他の移動体のそれぞれの移動動作をシミュレートし、
前記シミュレーションの結果に報酬関数を適用し、少なくとも前記自移動体の移動動作を評価し、
前記評価の結果に基づいて学習し、
前記評価する際に、前記他の移動体の移動ベクトルの変化が小さい程、前記自移動体の移動動作を高く評価する、
学習装置。

１００学習措置
１１０学習部
１２０シミュレーション部
１３０評価部
２００移動体
２１０周辺検知装置
２３０作業部
２４０駆動装置
２５０移動体制御装置
２５２経路決定部
２５４制御部
２５６記憶部
２５６Ａ行動決定モデルＭＤ

Claims

自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定する経路決定部と、
前記経路決定部により決定された経路に沿って前記自移動体を移動させる制御部と、
を備える移動体制御装置。
前記経路決定部は、複数の前記他の移動体の移動ベクトルの変化の合計を低減するように前記自移動体の経路を決定する、
請求項１に記載の移動体制御装置。
前記経路決定部は、前記他の移動体の移動ベクトルの変化を独立変数として持つ報酬関数の値が良好な値となるように前記自移動体の経路を決定する、
請求項１または２記載の移動体制御装置。
前記経路決定部は、前記他の移動体の移動ベクトルの向く方向に大きく、前記他の移動体の移動ベクトルの向く方向の側方および反対方向に小さい領域に進入しないように前記自移動体の経路を決定する、
請求項１から３のうちいずれか１項記載の移動体制御装置。
請求項１から４のうちいずれかに記載の移動体制御装置と、
周辺環境を検知する周辺検知装置と、
ユーザへ所定のサービスを提供するための作業部と、
前記移動体制御装置によって制御され、移動体を移動させる駆動部と、
を備え、
前記移動体制御装置は、前記周辺環境に基づく他の移動体の状態を入力することで、前記移動体を移動させる制御パラメータを出力する、
移動体。
コンピュータが、
自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定し、
前記経路に沿って前記自移動体を移動させる、
移動体制御方法。
コンピュータに、
自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定させ、
前記経路に沿って前記自移動体を移動させることを行わせる、
プログラム。
自移動体と他の移動体のそれぞれの移動動作をシミュレートするシミュレーション部と、
前記シミュレーション部の処理結果に報酬関数を適用し、少なくとも前記自移動体の移動動作を評価する評価部と、
前記評価部の評価結果に基づいて学習する学習部と、を備え、
前記評価部は、前記他の移動体の移動ベクトルの変化が小さい程、前記自移動体の移動動作を高く評価する、
学習装置。
前記評価部は、前記自移動体が、前記他の移動体の移動ベクトルの向く方向に大きく、前記他の移動体の移動ベクトルの向く方向の側方および反対方向に小さい領域に進入した場合、前記自移動体の移動動作を低く評価する、
請求項８記載の学習装置。