JP2023051351A - 移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置 - Google Patents

移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置 Download PDF

Info

Publication number
JP2023051351A
JP2023051351A JP2021161960A JP2021161960A JP2023051351A JP 2023051351 A JP2023051351 A JP 2023051351A JP 2021161960 A JP2021161960 A JP 2021161960A JP 2021161960 A JP2021161960 A JP 2021161960A JP 2023051351 A JP2023051351 A JP 2023051351A
Authority
JP
Japan
Prior art keywords
moving body
route
moving
mobile
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021161960A
Other languages
English (en)
Inventor
燦心 松▲崎▼
Sango Matsuzaki
雄二 長谷川
Yuji Hasegawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2021161960A priority Critical patent/JP2023051351A/ja
Priority to US17/951,140 priority patent/US20230101162A1/en
Priority to CN202211186194.XA priority patent/CN115903774A/zh
Publication of JP2023051351A publication Critical patent/JP2023051351A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0289Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling with means for avoiding collisions between vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

【課題】周囲の他の移動体に対して親和性の高い行動を、移動体にとらせることができる移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置を提供すること。【解決手段】自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定する経路決定部と、前記経路決定部により決定された経路に沿って前記自移動体を移動させる制御部と、を備える移動体制御装置。【選択図】図2

Description

本発明は、移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置に関する。
近年、AI(人工知能)の発展に従い、自律的移動体が人間と混在する環境において、強化学習によって経路を決定する研究が行われている。しかし、人混みが存在する交通環境において、ロボットと歩行者の干渉状態が頻発している。
これに関連し、人の移動に対して安全・安心な回避行動を取るために、自律移動型のロボットが目的地まで移動するときの経路を、歩行者を含む交通参加者が目的地までの交通環境に存在する条件下で決定する経路決定装置の発明が開示されている(特許文献1参照)。この経路決定装置は、所定の予測アルゴリズムを用いて、ロボットと交通参加者との干渉が回避されるように、ロボットの経路の予測値である予測経路を決定する予測経路決定部と、ロボットが現在位置から予測経路で移動すると想定したときに、ロボットに最も近い交通参加者との距離及びロボットの速度を独立変数として含む目的関数が最大値になるように、所定の制御アルゴリズムを用いて、ロボットの経路を決定する経路決定部と、を備える。
また、非特許文献1には、報酬関数に関して、周囲の人との協調性を向上するため、横切り、対向、追い抜きの三つのパターンを考慮した上、報酬関数を作成し、所定のアルゴリズムを用いてロボットに学習させるということについて記載されている。
また、非特許文献2には、報酬関数に関して、ロボットおよび人のそれぞれの進行方向に沿って重なる領域において、移動している人の数を巡って、報酬関数を作成し、所定のアルゴリズムを用いてロボットに学習させるということについて記載されている。
国際公開第2020/136977号
"Socially Aware Motion Planning with Deep Reinforcement Learning", Yu Fan Chen, Michael Everett, Miao Liu, Jonathan P.How, 2017.3.26, <<https://arxiv.org/pdf/1703.08862.pdf>> " Mapless Navigation among Dynamics with Social-safety-awareness:a reinforcement learning approach from 2D laser scans", Jun Jin, Nhat M. Nguyen, Nazmus Sakib, Daniel Graves, Hengshuai Yao, and Martin Jagersand, 2020.3.5., <<https://arxiv.org/pdf/1911.03074.pdf>>
上記従来の技術では、移動体が周囲の他の移動体の行動に与える影響が考慮されていないため、周囲の他の移動体に対して親和性の高い行動をとることができない場合があった。また、特許文献1に記載の技術では他の移動体の動作(ロボットの経路)を予測しているが、他の移動体の動作を精度良く予測するのは現在の技術でも困難である。
本発明は、このような事情を考慮してなされたものであり、周囲の他の移動体の将来の動作を予測することなく、周囲の他の移動体に対して親和性の高い行動を移動体にとらせることができる移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置を提供することを目的の一つとする。
この発明に係る移動体制御装置、移動体、移動体制御方法、プログラム、または学習装置は、以下の構成を採用した。
(1):この発明の一態様に係る移動体制御装置は、自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定する経路決定部と、前記経路決定部により決定された経路に沿って前記自移動体を移動させる制御部と、を備える移動体制御装置である。
(2):上記(1)の態様において、前記経路決定部は、複数の前記他の移動体の移動ベクトルの変化の合計を低減するように前記自移動体の経路を決定するものである。
(3):上記(1)または(2)の態様において、前記経路決定部は、前記他の移動体の移動ベクトルの変化を独立変数として持つ報酬関数の値が良好な値となるように前記自移動体の経路を決定するものである。
(4):上記(1)から(3)のうち、いずれかの態様において、前記経路決定部は、前記他の移動体の移動ベクトルの向く方向に大きく、前記他の移動体の移動ベクトルの向く方向の側方および反対方向に小さい領域に進入しないように前記自移動体の経路を決定するものである。
(5):本発明の他の態様に係る移動体は、上記(1)から(4)のうちいずれかに記載の移動体制御装置と、周辺環境を検知する周辺検知装置と、ユーザへ所定のサービスを提供するための作業部と、前記移動体制御装置によって制御され、移動体を移動させる駆動部とを備え、前記移動体制御装置は、前記周辺環境に基づく他の移動体の状態を入力することで、前記移動体を移動させる制御パラメータを出力する、移動体である。
(6):本発明の他の態様に係る移動体制御方法は、コンピュータが、自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定し、前記経路決定部により決定された経路に沿って前記自移動体を移動させる移動体制御方法である。
(7):本発明の他の態様に係るプログラムは、コンピュータに、自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定させ、前記経路決定部により決定された経路に沿って前記自移動体を移動させることを行わせるプログラムである。
(8):本発明の他の態様に係る学習装置は、自移動体と他の移動体のそれぞれの移動動作をシミュレートするシミュレーション部と、前記シミュレーション部の処理結果に報酬関数を適用し、少なくとも前記自移動体の移動動作を評価する評価部と、前記評価部の評価結果に基づいて(前記自移動体の好適な移動動作を)学習する学習部とを備え、前記評価部は、前記他の移動体の移動ベクトルの変化が小さい程、前記自移動体の移動動作を高く評価する学習装置である。
(9):上記(8)の態様において、前記評価部は、前記自移動体が、前記他の移動体の移動ベクトルの向く方向に大きく、前記他の移動体の移動ベクトルの向く方向の側方および反対方向に小さい領域に進入した場合、前記自移動体の移動動作を低く評価するものである。
上記(1)~(3)、(5)~(7)の態様によれば、周囲の他の移動体の将来の動作を予測することなく、他の移動体の移動をなるべく阻害しないように移動体を移動させることができる。この結果、周囲の他の移動体に対して親和性の高い行動を移動体にとらせることができる。
上記(4)の態様によれば、パーソナルスペースを考慮して移動体の経路を決定することができる。
これらより、上記(1)~(7)の態様によれば、周囲の他の移動体の将来の動作を予測することなく、周囲の他の移動体に対して更に親和性の高い行動を、移動体にとらせることができる。
上記(8)の態様によれば、周囲の他の移動体の将来の動作を予測することなく、他の移動体の移動をなるべく阻害しないように学習することができる。この結果、周囲の他の移動体に対して親和性の高い行動を移動体にとらせることができるポリシーを生成することができる。
上記(9)の態様によれば、パーソナルスペースを考慮して学習することができる。
これらより、上記(8)~(9)の態様によれば、周囲の他の移動体の将来の動作を予測することなく、周囲の他の移動体に対して更に親和性の高い行動を、移動体にとらせるための学習を行うことができる。
実施形態のシステム構成を示す概略図である。 学習装置100の構成図である。 報酬関数Rについて説明するための図である。 報酬関数Rについて説明するための図である。 学習装置100が行う強化学習の学習過程の処理の一例を示すフローチャートである。 移動体200の構成図である。
以下、図面を参照し、本発明の移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置の実施形態について説明する。
[学習装置]
図1は、実施形態のシステム構成を示す概略図である。移動体制御システム1は、学習装置100と、移動体200とを備える。学習装置100は、一以上のプロセッサにより実現される。学習装置100は、複数の移動体についてコンピュータシミュレーションにより行動を決定し、その行動によって生じた環境の変化等に基づく報酬を導出または取得し、報酬を最大化する行動(動作)を学習する装置である。動作とは、例えば、シミュレーション空間内での移動である。移動以外の動作が学習対象とされてもよいが、以下の説明では動作とは移動を意味するものとする。移動を決定するシミュレータ(後述するシミュレーション部)は、学習装置100と異なる装置において実行されてもよいが、以下の説明ではシミュレータは学習装置100が実行するものとする。学習装置100は、地図情報などの、シミュレーションの前提となる環境情報を予め記憶している。学習装置100の学習結果は、行動決定モデルMDとして移動体200に搭載される。
図2は、学習装置100の構成図である。学習装置100は、例えば、学習部110と、シミュレーション部120と、評価部130とを備える。学習装置100は、自エージェント(移動体200において自移動体となるもの)が、ある目的地に到着するため生成した動作目標と、他エージェント(他の移動体)の位置、移動方向、および移動速度などとをポリシーに入力し、その結果として生じた状態変化(環境の変化)を評価した結果に基づいて、ポリシーを更新する強化学習を行い、学習済のポリシーを出力する装置である。
自エージェントとは、ロボットや車両などの移動体を想定した仮想的な動作主体である。他エージェントも同様に、ロボットや車両などの移動体を想定した仮想的な動作主体である。他エージェントの動作決定にもポリシーが用いられるが、他エージェントのポリシーは更新されてもよいし、更新されなくてもよい。
学習部110と、シミュレーション部120と、評価部130とは、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性記憶媒体)に格納されていてもよいし、DVD(Digital Versatile Disc)やCD-ROM(Read Only Memory)などの着脱可能な記憶媒体(非一過性記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
学習部110は、シミュレーション部120により生成された状態変化を評価部130が評価した評価結果、および衝突判定結果に基づいて各種強化学習アルゴリズムに従ってポリシーを更新する。学習部110は、更新したポリシーをシミュレーション部120に出力することを、学習が完了するまで繰り返し実行する。
シミュレーション部120は、動作目標と、前回の状態(シミュレーションの開始直後であれば初期状態)とをポリシーに入力し、自エージェントと他エージェントの動作の結果である状態変化を導出する。ポリシーは、例えば、DNN(Deep Neural Network)であるが、ルールベースのポリシーなど、他の態様のポリシーであってもよい。ポリシーは、想定される複数種類の動作のそれぞれについて、発生確率を導出するものである。例えば、簡単な例では、想定平面が上下左右に広がるものとして、右移動80%、左移動10%、上移動10%、下移動0%といった結果を出力する。シミュレーション部120は、この結果に乱数を作用させて、乱数値が0%以上、80%未満であれば右移動、乱数値が80%以上、90%未満であれば左移動、乱数値が90%以上であれば上移動というようにエージェントの状態変化を導出する。
評価部130は、シミュレーション部120が出力した自エージェントの状態変化を評価する報酬関数Rの値(報酬関数値)を計算し、自エージェントの動作を評価する。
報酬関数Rは、式(1)に示されるように、自エージェントが目的地に到着した場合に与えられる報酬関数Rと、自エージェントがスムーズに移動を達成した場合に与えられる報酬関数Rと、自エージェントが他エージェントの移動ベクトルに変化を及ぼした場合に小さくなる報酬関数Rと、他エージェントの向く方向に応じて、自エージェントが他エージェントに接近する時に保持すべき距離を可変にした報酬関数Rとを含む。報酬関数Rは、第1の報酬関数の一例であり、報酬関数Rは、第2の報酬関数の一例である。
Figure 2023051351000002
報酬関数Rは、目的地に到達した場合に正の固定値、目的地に到達していない場合に目的地までの距離変化に比例した値(距離変化が減少方向であれば正、増加方向であれば負)となる関数である。
報酬関数Rは、エージェントの二次元平面における位置の三回微分すなわちジャーク(躍度)が小さいほど大きい値となる関数である。
図3は、報酬関数Rについて説明するための図である。時刻(制御サイクル)tにおいて計算される報酬関数Rは、時刻t-1の他エージェントの状態から時刻tまでの他エージェントの移動ベクトルa´,(自エージェントが存在しないと仮定した場合に他エージェントの移動ベクトル)と、時刻t-1の他エージェントの状態から時刻tまでの他エージェントの移動ベクトル(自エージェントが存在した前提での他エージェントの移動ベクトル)a,とを比較し、これらの差分が大きいほど、結果的な評価値が小さい値となる関数である。つまり、報酬関数Rは、自エージェントが周辺の他エージェントの移動ベクトルに変化を及ぼさないほど、自エージェントの動作を高く評価するものである。報酬関数Rは、他エージェントの移動ベクトルの変化を独立変数として持つ目的関数であり、例えば値が大きい程、良好な値であることを示すものである。評価部130は、時刻t-1の他エージェントの状態から自エージェントが存在しないと仮定した場合に想定される時刻tまでの他エージェントの移動ベクトルa´,を自ら導出してもよいし、シミュレーション部120に導出を依頼してもよい。
Figure 2023051351000003
式(2)におけるWは、負の係数、あるいはΣ以降の値が大きいほど低い評価値を返す関数である。a,は時刻t-1から時刻tまでの(自エージェントが存在する前提での)各他エージェントの移動ベクトルであり、a´,は時刻t-1から時刻tまでの(自エージェントが存在しないと仮定した場合)の各他エージェントの移動ベクトルである。iは他エージェントの識別番号であり、Nは全部の存在する他エージェントの数である。
図3において、エージェントHは自エージェントであり、エージェントA1~A5は他エージェントである。例えば、時刻tにおいて、他エージェントA1はa1,tの移動ベクトルで移動し、他エージェントA2はa2,tの移動ベクトルで移動し、他エージェントA3はa3,tの移動ベクトルで移動し、他エージェントA4はa4,tの移動ベクトルで移動し、他エージェントA5はa5,tの移動ベクトルで移動している。これに対し、時刻t-1の状態に戻り、導出される自エージェントHが存在しないと仮定した場合の移動ベクトルは、他エージェントA1についてはa´1,t、他エージェントA2についてはa´2,t、他エージェントA3についてはa´3,t、他エージェントA4についてはa´4,t、他エージェントA5についてはa´5,tで表される。
図4は、報酬関数Rについて説明するための図である。報酬関数Rは、自エージェントが所定領域に進入した場合に低い評価値を返す関数である。他エージェントAの周辺の領域は、以下の4つの領域(空間)に分けられると考えられている。例えば、境界線D1で囲まれる密接空間、境界線D1と境界線D2で囲まれる個人空間(パーソナルスペース)、境界線D2と境界線D3で囲まれる社会空間、および境界線D3と境界線D4で囲まれる公衆空間に分けられると想定される。
本実施形態において、例えば、報酬関数Rは、これらのうち個人空間の外部境界線であるD2に進入した場合に低い評価値を返すものである。個人空間は、社会空間、公衆空間と同様に、他エージェントAを基準として、他エージェントAが向いている(あるいは移動している)向き(F)に関して広く、それ以外の向きに関して狭くなっている。これによって、他エージェントAにとって目の前を通過するような行動に対しては低い評価が、側方や背後を通過するような行動に対しては余り低くない評価が与えられる。
評価部130は、自エージェントと他エージェントの座標が一致した場合、自エージェントと他エージェントとが衝突したと判定してもよいし、自エージェントが他エージェントの個人空間に進入した場合、自エージェントと他エージェントとが衝突したと判定してもよい。衝突したと判定した場合、評価部130は、その回のエピソードを終了し、各エージェントの状態を初期化して次のエピソードが開始される。評価部130は、衝突判定結果および動作評価結果を学習部110に出力する。詳しくはフローチャートで説明する。
図5は、学習装置100が行う強化学習の学習過程の処理の一例を示すフローチャートである。
まず、シミュレーション部120は、自エージェントの動作目標を学習装置100から受け付ける(ステップS200)。次に、学習装置100は、動作目標を入力の一つとして、1サイクル分の各エージェントの動作をシミュレートする(ステップS202)。
次に、評価部130は、自エージェントと他エージェントとが衝突したか否かを判定する(ステップS204)。自エージェントと周辺の他エージェントとが衝突していないと判定した場合、評価部130は、報酬関数Rを用いて自エージェントの動作を評価し(ステップS206)、評価した結果を学習部110に出力する。
次に、学習部110は、評価部130の評価結果に基づき、強化学習アルゴリズムに従ってポリシーを更新する(ステップS208)。学習部110が更新したポリシーをシミュレーション部120に出力し、シミュレーション部120は、受け付けたポリシーを用いて次回のサイクルの各エージェンの動作をシミュレーションする。
次に、学習装置100は、自エージェントと他エージェントの動作の結果である状態変化に基づいて、毎回のポリシーのパラメータの更新量が閾値以下であるか否かを判定する(ステップS210)。ここでのパラメータの更新量とは、例えば、第n回の自エージェンの移動ベクトル等のパラメータが第n-1回の自エージェンの移動ベクトル等のパラメータと比較して変化した量であり、パラメータの変化量の絶対値の総和等である。ポリシーのパラメータ更新量がある閾値m以下である、すなわち、ポリシーのパラメータが余り変化していない場合、学習装置100は、学習過程の処理を終了する。ポリシーのパラメータ更新量がある閾値m以下でない場合、学習装置100は、ステップS202に戻る。これに代えて、所定サイクル数の処理を終了したときに学習過程の処理を終了するようにしてもよい。
ステップS204において、自エージェントと周辺の他エージェントとが衝突したと判定した場合、評価部130は、その判定結果を学習部110に出力し、報酬関数の評価値を下げる(ステップS212)。そして、評価部130がその評価結果を学習部110に出力し、学習部110は、評価部130の評価結果に基づきポリシーを更新する(ステップS214)。更に、学習装置100は、各エージェントの状態を初期化し、ステップS202に戻る。
以上説明した学習装置100によれば、周囲の他の移動体の行動をなるべく阻害しないように、強化学習によって行動決定モデル(ポリシー)を生成することができる。これよって、行動決定モデルを採用した移動体制御装置250では、周囲の他の移動体の行動に対して親和性の高い行動を、移動体200にとらせることができる。
[移動体]
図6は、移動体200の構成図である。移動体200は、例えば、移動体制御装置250と、周辺検知装置210と、移動体センサ220と、作業部230と、駆動装置240とを備える。移動体200は、車両であってもよいし、ロボット等のような装置であってもよい。移動体制御装置250と、周辺検知装置210と、移動体センサ220と、作業部230と、駆動装置240とは、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。
周辺検知装置210は、移動体200の周辺の環境や周辺の他の移動体の動作を検知するための装置である。周辺検知装置210は、例えば、GPS受信機や地図情報などを含む測位装置と、レーダー装置やカメラなどの物体認識装置とを備える。測位装置は、移動体200の位置を測位し、位置を地図情報とマッチングする。レーダー装置は、移動体200の周辺にミリ波などの電波を放射すると共に、物体によって反射された電波(反射波)を検出して少なくとも物体の位置(距離および方位)を検出する。レーダー装置は、物体の位置および移動ベクトルを検出してもよい。カメラは、例えば、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等の固体撮像素子を利用したデジタルカメラであり、撮像画像から物体の位置を認識する画像処理装置が付設されている。周辺検知装置210は、移動体200の地図上の位置や移動体200の周辺に存在する物体(前述した他エージェントに相当する他の移動体を含む)の位置等の情報を移動体制御装置250に出力する。
移動体センサ220は、例えば、移動体200の速度を検出する速度センサ、加速度を検出する加速度センサ、鉛直軸回りの角速度を検出するヨーレートセンサ、移動体200の向きを検出する方位センサ等を含む。移動体センサ220は、検出した結果を移動体制御装置250に出力する。
作業部230は、例えば、ユーザへ所定のサービスを提供する装置である。ここでのサービスとは、例えば、貨物などを輸送機器への積み込みや荷下ろし等の作業である。作業部230は、例えば、マジックアーム、荷台、マイクやスピーカなどのHMI(Human machine Interface)などを含む。作業部230は、移動体制御装置250から指示された内容に従って動作する。
駆動装置240は、移動体200を所望の方向に移動させるための装置である。移動体200がロボットである場合、駆動装置240は例えば二以上の脚部とアクチュエータを含む。移動体200が車両やマイクロモビ、或いは車輪で移動するロボットである場合、駆動装置240は車輪(操舵輪、駆動輪)と車輪を回転させるためのモータやエンジン等を含む。
移動体制御装置250は、例えば、経路決定部252と、制御部254と、記憶部256とを備える。経路決定部252と制御部254のそれぞれは、例えば、CPUなどのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。プログラムは、予めHDDやフラッシュメモリなどの記憶装置(非一過性記憶媒体)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。これらの構成要素のうち一部または全部は、LSIやASIC、FPGA、GPUなどのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
記憶部256は、例えば、HDDやフラッシュメモリ、RAM、ROM等である。記憶部256には、例えば、行動決定モデルMD256A等の情報が格納されている。行動決定モデルMD256Aは、学習装置100によって生成された、学習段階の処理の最終時点のポリシーに基づくものである。
経路決定部252は、例えば、周辺検知装置210により検知された、移動体200の地図上の位置や移動体200の周辺に存在する物体の位置等の情報(物体の状態)、更にユーザにより入力された目的地の情報を行動決定モデルMD256Aに入力することで、移動体200が次に進むべき位置を決定する。経路決定部252は、これを繰り返すことで、移動体200の経路を順次決定する。
制御部254は、経路決定部252により決定された経路を移動体200が移動するように、駆動装置240を制御する。
以上説明した移動体制御装置250によれば、周囲の他の移動体の行動をなるべく阻害しないように強化学習によって生成された行動決定モデル(ポリシー)に基づいて移動体200の経路を生成し、経路に沿って移動体200を移動させるため、周囲の他の移動体の行動に対して親和性の高い行動を、移動体200にとらせることができる。
本実施形態において、ポリシーの更新は学習段階でのみ行われ、移動体に搭載された後には行われないと想定するが、移動体に搭載された後も学習が継続されてよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
上記実施形態は、以下のように表現することができる。
プログラムを格納した記憶装置と、
前記記憶装置に接続されたハードウェアプロセッサと、を備え、
前記ハードウェアプロセッサが前記プログラムを実行することにより、
自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定し、
前記決定された経路に沿って前記自移動体を移動させる、
移動体制御装置。
上記実施形態は、以下のように表現することもできる。
プログラムを格納した記憶装置と、
前記記憶装置に接続されたハードウェアプロセッサと、を備え、
前記ハードウェアプロセッサが前記プログラムを実行することにより、
自移動体と他の移動体のそれぞれの移動動作をシミュレートし、
前記シミュレーションの結果に報酬関数を適用し、少なくとも前記自移動体の移動動作を評価し、
前記評価の結果に基づいて学習し、
前記評価する際に、前記他の移動体の移動ベクトルの変化が小さい程、前記自移動体の移動動作を高く評価する、
学習装置。
100 学習措置
110 学習部
120 シミュレーション部
130 評価部
200 移動体
210 周辺検知装置
230 作業部
240 駆動装置
250 移動体制御装置
252 経路決定部
254 制御部
256 記憶部
256A 行動決定モデルMD

Claims (9)

  1. 自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定する経路決定部と、
    前記経路決定部により決定された経路に沿って前記自移動体を移動させる制御部と、
    を備える移動体制御装置。
  2. 前記経路決定部は、複数の前記他の移動体の移動ベクトルの変化の合計を低減するように前記自移動体の経路を決定する、
    請求項1に記載の移動体制御装置。
  3. 前記経路決定部は、前記他の移動体の移動ベクトルの変化を独立変数として持つ報酬関数の値が良好な値となるように前記自移動体の経路を決定する、
    請求項1または2記載の移動体制御装置。
  4. 前記経路決定部は、前記他の移動体の移動ベクトルの向く方向に大きく、前記他の移動体の移動ベクトルの向く方向の側方および反対方向に小さい領域に進入しないように前記自移動体の経路を決定する、
    請求項1から3のうちいずれか1項記載の移動体制御装置。
  5. 請求項1から4のうちいずれかに記載の移動体制御装置と、
    周辺環境を検知する周辺検知装置と、
    ユーザへ所定のサービスを提供するための作業部と、
    前記移動体制御装置によって制御され、移動体を移動させる駆動部と、
    を備え、
    前記移動体制御装置は、前記周辺環境に基づく他の移動体の状態を入力することで、前記移動体を移動させる制御パラメータを出力する、
    移動体。
  6. コンピュータが、
    自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定し、
    前記経路に沿って前記自移動体を移動させる、
    移動体制御方法。
  7. コンピュータに、
    自移動体の周辺に存在する他の移動体の移動ベクトルの変化を低減するように前記自移動体の経路を決定させ、
    前記経路に沿って前記自移動体を移動させることを行わせる、
    プログラム。
  8. 自移動体と他の移動体のそれぞれの移動動作をシミュレートするシミュレーション部と、
    前記シミュレーション部の処理結果に報酬関数を適用し、少なくとも前記自移動体の移動動作を評価する評価部と、
    前記評価部の評価結果に基づいて学習する学習部と、を備え、
    前記評価部は、前記他の移動体の移動ベクトルの変化が小さい程、前記自移動体の移動動作を高く評価する、
    学習装置。
  9. 前記評価部は、前記自移動体が、前記他の移動体の移動ベクトルの向く方向に大きく、前記他の移動体の移動ベクトルの向く方向の側方および反対方向に小さい領域に進入した場合、前記自移動体の移動動作を低く評価する、
    請求項8記載の学習装置。
JP2021161960A 2021-09-30 2021-09-30 移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置 Pending JP2023051351A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021161960A JP2023051351A (ja) 2021-09-30 2021-09-30 移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置
US17/951,140 US20230101162A1 (en) 2021-09-30 2022-09-23 Mobile body control device, mobile body, mobile body control method, program, and learning device
CN202211186194.XA CN115903774A (zh) 2021-09-30 2022-09-27 移动体、其控制装置及其控制方法、存储介质及学习装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021161960A JP2023051351A (ja) 2021-09-30 2021-09-30 移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置

Publications (1)

Publication Number Publication Date
JP2023051351A true JP2023051351A (ja) 2023-04-11

Family

ID=85721498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021161960A Pending JP2023051351A (ja) 2021-09-30 2021-09-30 移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置

Country Status (3)

Country Link
US (1) US20230101162A1 (ja)
JP (1) JP2023051351A (ja)
CN (1) CN115903774A (ja)

Also Published As

Publication number Publication date
CN115903774A (zh) 2023-04-04
US20230101162A1 (en) 2023-03-30

Similar Documents

Publication Publication Date Title
JP7479064B2 (ja) 動的障害物を有する環境における動作計画を容易にする装置、方法及び物品
Qiao et al. Pomdp and hierarchical options mdp with continuous actions for autonomous driving at intersections
CN111587408B (zh) 机器人导航和对象跟踪
WO2019124001A1 (ja) 移動体挙動予測装置および移動体挙動予測方法
Sombolestan et al. Optimal path-planning for mobile robots to find a hidden target in an unknown environment based on machine learning
Kato et al. Autonomous robot navigation system with learning based on deep Q-network and topological maps
CN110858098A (zh) 使用人-机器人交互的自驱动移动机器人
JPWO2013011543A1 (ja) 自律移動装置およびその制御方法
CN114485673B (zh) 基于深度强化学习的服务机器人人群感知导航方法及系统
JP2021189508A (ja) ロボット、移動経路生成装置及びそのプログラム、並びに、移動予測装置
JP2021077286A (ja) ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット
US20230098219A1 (en) Mobile object control device, mobile object, learning device, learning method, and storage medium
JP7258046B2 (ja) 経路決定装置、ロボット及び経路決定方法
JP2023051351A (ja) 移動体制御装置、移動体、移動体制御方法、プログラム、および学習装置
Raj et al. Dynamic Obstacle Avoidance Technique for Mobile Robot Navigation Using Deep Reinforcement Learning
CN112585616A (zh) 用于预测行人的至少一个将来的速度矢量和或将来的姿态的方法
Tao et al. Fast and robust training and deployment of deep reinforcement learning based navigation policy
CN114167856A (zh) 一种基于人工情感的服务机器人局部路径规划方法
Wang et al. Dynamic path planning algorithm for autonomous vehicles in cluttered environments
EP4394538A1 (en) Trajectory correction system and method therefor
JP7459238B2 (ja) ユーザ選好による強化学習基盤の自律走行最適化方法およびシステム
Tsai et al. An autonomous vehicle-following technique for self-driving cars based on the semantic segmentation technique
WO2024195078A1 (ja) 制御装置、制御方法、およびプログラム
Abdo et al. Obstacle Avoidance Robot Using Convolutional Neural Network
Dobrevski et al. Dynamic Adaptive Dynamic Window Approach

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241008