JP7459238B2 - ユーザ選好による強化学習基盤の自律走行最適化方法およびシステム - Google Patents

ユーザ選好による強化学習基盤の自律走行最適化方法およびシステム Download PDF

Info

Publication number
JP7459238B2
JP7459238B2 JP2022519438A JP2022519438A JP7459238B2 JP 7459238 B2 JP7459238 B2 JP 7459238B2 JP 2022519438 A JP2022519438 A JP 2022519438A JP 2022519438 A JP2022519438 A JP 2022519438A JP 7459238 B2 JP7459238 B2 JP 7459238B2
Authority
JP
Japan
Prior art keywords
autonomous driving
learning
parameters
computer system
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022519438A
Other languages
English (en)
Other versions
JP2022550122A (ja
Inventor
ジンヨン チェー
ジョンウン キム
キョンシク パク
ジェフン ハン
ジュンホ ソ
ミンス キム
クリストファー ダンス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200009729A external-priority patent/KR102303126B1/ko
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2022550122A publication Critical patent/JP2022550122A/ja
Application granted granted Critical
Publication of JP7459238B2 publication Critical patent/JP7459238B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/0088Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/091Active learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39271Ann artificial neural network, ffw-nn, feedforward neural network
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40499Reinforcement learning algorithm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Description

以下の説明は、ロボットの自律走行技術に関する。
自律走行ロボットは、産業分野で広く使用されるロボットを応用した技術であって、一例として、オドメータ(Odometry)方式によって速度情報や方位角情報などを取得した後、以前の位置から次の位置までの移動距離と方向に関する情報を演算することで自身の位置と方向を認識することができる。
例えば、韓国登録特許第10-1771643号公報(登録日2017年8月21日)には、絶対座標を認識して目的地まで自動で移動することができる自律走行ロボットおよびこのナビゲーション方法が開示されている。
韓国登録特許第10-1771643号公報
ユーザ選好度による強化学習(reinforcement learning)基盤の自律走行最適化のための技術を提供する。
再訓練過程の必要なく、多様なパラメータに適応させて報酬に反映させることのできる、新たな深層強化学習基盤の自律走行技術を提供する。
少数の選好データの利用でも、ユースケース(use-case)に適合する自律走行パラメータを探索することができる技術を提供する。
コンピュータシステムが実行する自律走行学習方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記自律走行学習方法は、前記少なくとも1つのプロセッサにより、シミュレーション上の複数のロボットエージェントにシステムによる自動設定または管理者による直接設定によって互いに異なる自律走行パラメータを付与して、ロボット自律走行を学習する段階を含む、自律走行学習方法を提供する。
一側面によると、前記学習する段階は、前記複数のロボットエージェントを対象に、ランダムサンプリングされた自律走行パラメータを入力とする強化学習(reinforcement learning)を同時に実行してよい。
他の側面によると、前記学習する段階は、全結合層(fully-connected layer)とGRU(gated recurrent units)で構成されたニューラルネットワークを利用して、前記複数のロボットエージェントの自律走行を同時に学習してよい。
また他の側面によると、前記学習する段階は、前記ロボット自律走行の学習のためのニューラルネットワークの入力によってロボットからリアルタイムで取得するセンサ値と、自律走行ポリシー(policy:方策)と関連してランダムに付与される自律走行パラメータを使用する段階を含んでよい。
また他の側面によると、前記自律走行学習方法は、前記少なくとも1つのプロセッサにより、前記自律走行パラメータに対する選好データ(preference data)を利用して、前記自律走行パラメータを最適化する段階をさらに含んでよい。
また他の側面によると、前記最適化する段階は、前記自律走行パラメータが互いに異なるように設定されたロボットの走行映像に対するフィードバックを反映して、前記自律走行パラメータを最適化してよい。
また他の側面によると、前記最適化する段階は、前記自律走行パラメータの一対比較(pairwise comparisons)により、前記自律走行パラメータに対する選好度を評価する段階を含んでよい。
また他の側面によると、前記最適化する段階は、ベイジアンニューラルネットワーク(Bayesian neural network)モデルを使用して、前記自律走行パラメータに対する選好度をモデリングする段階を含んでよい。
さらに他の側面によると、前記最適化する段階は、選好度モデルの不確実性(uncertainty)に基づいて、前記自律走行パラメータの一対比較のためのクエリ(query)を生成する段階を含んでよい。
前記自律走行学習方法を前記コンピュータシステムに実行させるために非一時的なコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。
前記自律走行学習方法をコンピュータに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体を提供する。
コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、シミュレーション上の複数のロボットエージェントにシステムによる自動設定または管理者による直接設定によって互いに異なる自律走行パラメータを付与して、ロボット自律走行を学習する学習部、および前記自律走行パラメータに対する選好データを利用して、前記自律走行パラメータを最適化する最適化部を含むコンピュータシステムを提供する。
本発明の実施形態によると、多様な環境における強化学習を同時に進行することによって多様かつ予測不可能な実世界(real-world)における学習効果を達成することができ、データの増加なく適応型自律走行アルゴリズムを実現することができる。
本発明の実施形態によると、ロボットの走行映像に対するユースケースとして適切であるかを示す選好度をモデリングした後、モデルの不確実性に基づくことで、少数の選好データの利用でも自律走行パラメータを最適化することができる。
本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。 本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図である。 本発明の一実施形態における、コンピュータシステムが実行することのできる自律走行学習方法の例を示したフローチャートである。 本発明の一実施形態における、適応型自律走行ポリシー学習アルゴリズムの例を示した図である。 本発明の一実施形態における、適応型自律走行ポリシー学習のためのニューラルネットワークの例を示した図である。 本発明の一実施形態における、ユーティリティ関数学習のためのニューラルネットワークの例を示した図である。 本発明の一実施形態における、選好データを利用した自律走行パラメータ最適化アルゴリズムの例を示した図である。
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。
本発明の実施形態は、ロボットの自律走行技術に関する。
本明細書で具体的に開示される事項を含む実施形態は、再訓練過程が必要なく、多様なパラメータに適応させて報酬に反映させることのできる、新たな深層強化学習基盤の自律走行技術を提供することができ、少数の選好データの利用でもユースケースに適した自律走行パラメータを探索することができる。
図1は、本発明の一実施形態における、コンピュータシステムの例を示したブロック図である。例えば、本発明の実施形態に係る自律走行学習システムは、図1に示したコンピュータシステム100によって実現されてよい。
図1に示すように、コンピュータシステム100は、本発明の実施形態に係る自律走行学習方法を実行するための構成要素として、メモリ110、プロセッサ120、通信インタフェース130、および入力/出力インタフェース140を含んでよい。
メモリ110は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ110とは区分される別の永続的記録装置としてコンピュータシステム100に含まれてもよい。また、メモリ110には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ110とは別のコンピュータ読み取り可能な記録媒体からメモリ110にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース130を通じてメモリ110にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク160を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータシステム100のメモリ110にロードされてよい。
プロセッサ120は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ110または通信インタフェース130によって、プロセッサ120に提供されてよい。例えば、プロセッサ120は、メモリ110のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信インタフェース130は、ネットワーク160を介してコンピュータシステム100と互いに通信するための機能を提供してよい。一例として、コンピュータシステム100のプロセッサ120がメモリ110のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース130の制御にしたがってネットワーク160を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク160を経てコンピュータシステム100の通信インタフェース130を通じてコンピュータシステム100に受信されてよい。通信インタフェース130を通じて受信された信号や命令、データなどはプロセッサ120やメモリ110に伝達されてよく、ファイルなどはコンピュータシステム100がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
通信方式が限定されることはなく、ネットワーク160が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を利用する通信方式だけではなく、機器同士の間の近距離有線/無線通信が含まれてもよい。例えば、ネットワーク160は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク160は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
入力/出力インタフェース140は、入力/出力装置150とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、またはマウスなどの装置を含んでもよく、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力/出力インタフェース140は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置150は、コンピュータシステム100と1つの装置で構成されてもよい。
また、他の実施形態において、コンピュータシステム100は、図1の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータシステム100は、上述した入力/出力装置150のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。
近年は自律走行に対する深層強化学習方式の研究が活発に進められており、強化学習を利用したロボットの自律走行技術は、経路計画(path planning)基盤の自律走行よりも高い性能を発揮している。
しかし、従来の強化学習方法は、ロボットの最大速力と報酬構成要素の間のトレードオフ(trade-off)を示す加重値のようなパラメータに対して、固定値を使用して学習が行われていた(例えば、目標に対して短い経路を採択することと高い安全距離を維持すること)。
好ましいロボット動作はユースケースごとに異なるため、実際のシナリオにおいて問題となることがある。例えば、病院内の各病棟に配置されたロボットは、精巧な装備との衝突を回避しつつ患者に脅威を与えないように注意しなければならないが、倉庫ロボットが最優先とする課題は、できるだけ迅速に目標に到達することにある。固定パラメータによって訓練されたロボットは、多様な要件を満たすことができず、各シナリオに適するように微調整するための再訓練が必要となる。さらに、人間と相互作用するロボットの好ましい行動は人間の選好度によって異なるが、このような選好データを収集するためには多くの手間と費用が伴う。
したがって、多様なパラメータに適応することが可能なエージェントだけでなく、少数の人間選好データから最適に近いパラメータを迅速かつ正確に予測することができる方法が求められている。
図2は、本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図であり、図3は、本発明の一実施形態における、コンピュータシステムが実行することのできる自律走行学習方法の例を示したフローチャートである。
図2に示すように、プロセッサ120は、学習部201および最適化部202を含んでよい。このようなプロセッサ120の構成要素は、少なくとも1つのプログラムコードによって提供される制御命令にしたがってプロセッサ120によって実行される、互いに異なる機能(different functions)の表現であってよい。例えば、プロセッサ120が深層強化学習に基づいてロボットの自律走行を学習するようにコンピュータシステム100を制御するために動作する機能的表現として、学習部201が使用されてよい。
プロセッサ120およびプロセッサ120の構成要素は、図3の自律走行学習方法に含まれる段階310~320を実行してよい。例えば、プロセッサ120およびプロセッサ120の構成要素は、メモリ110が含むオペレーティングシステムのコードと、上述した少なくとも1つのプログラムコードとによる命令(instruction)を実行するように実現されてよい。ここで、少なくとも1つのプログラムコードは、自律走行学習方法を処理するために実現されたプログラムのコードに対応してよい。
自律走行学習方法は、図に示した順に発生しなくてもよく、段階のうちの一部が省略されたり追加の過程がさらに含まれたりしてもよい。
プロセッサ120は、自律走行学習方法のためのプログラムファイルに記録されたプログラムコードをメモリ110にロードしてよい。例えば、自律走行学習方法のためのプログラムファイルは、メモリ110とは区分される永続的記録装置に記録されていてよく、プロセッサ120は、バスを介して永続的記録装置に記録されたプログラムファイルからプログラムコードがメモリ110にロードされるようにコンピュータシステム100を制御してよい。このとき、プロセッサ120およびプロセッサ120が含む学習部201および最適化部202それぞれは、メモリ110にロードされたプログラムコードのうちの対応する部分の命令を実行して段階310~320を実行するためのプロセッサ120の互いに異なる機能的表現であってよい。段階310~320を実行するために、プロセッサ120およびプロセッサ120の構成要素は、制御命令による演算を直接処理してもよいし、コンピュータシステム100を制御してもよい。
先ず、強化学習基盤の自律走行問題を公式化すると次のとおりとなる。
本実施形態は、経路追跡(path-following)自律走行タスクを考慮したものであって、エージェント(すなわち、ロボット)は目的地までの経路を移動する。このとき、経路は、一連の経由地として表現されてよい。エージェントが最後の経由地(目的地)に到達すれば新たな目標と経由地が与えられ、タスクをマルコフ決定過程(Markov decision process)(S、A、Ω、r、ptrans、pobs)によってモデリングする。Sは状態(states)、Aはアクション(actions)、Ωは観測(observations)、rは報酬関数(reward function)、ptransは条件付き状態遷移(conditional state-transition)、pobsは観測確率(observation probabilities)を意味する。
自律走行ロボットとして差等二輪モバイルプラットフォームモデルを使用し、割引係数がγ=0.99である汎用設定を適用する。
(1)自律走行パラメータ(navigation parameters)
多くのパラメータが、強化学習基盤の自律走行エージェントの動作に影響を与える。例えば、7つのパラメータで構成された自律走行パラメータ
を考慮してみる。
ここで、wstopは衝突または非常停止時の報酬、wsocial Limは他のエージェントと衝突し得る最小予想時間、wsocialはwsocial Limを違反したことに対する報酬、wmaxVは最大線形速度(maximum linear speed)、waccVは線形加速度(linear acceleration)、wmaxVは各速度(angular speed)、waccWは各加速度(angular acceleration)を意味する。
本発明の目標は、多様なパラメータwに適応することができ、与えられたユースケースに適したパラメータw
を効率的に探索するエージェントを訓練させることにある。
(2)観測(observations)
エージェントの観測形式は、数式(2)のとおりとなる。
ここで、
は、ライダー(lidar)のような距離センサのスキャンデータで構成される。-180゜~180゜までのデータを20゜間隔で一時的に記録し、各binから最小値を採択する。エージェントが知覚することのできる最大距離は3mである。
は、現在の線形および各速度で構成され、前段階で位置と関連するロボット位置の変化は、数式(3)のとおりとなる。
このとき、Δx,Δy,Δθは、ロボットのx、y位置変化量と方向(heading)変化量を意味し、Δtは、一段階(timestep)の持続時間を意味する。
最後に、Opathは(cos(φ),sin(φ))となり、φはロボットの座標系において次の経由地に対する相対的角度を意味する。
(3)アクション(actions)
エージェントのアクションは、[-1,1]におけるベクトルとして間隔[-0.2m/s,wmaxV]に正規化されたロボットの所望する線形速力を示し、角速度は、[-wmaxW,wmaxW]に正規化される。ロボットがアクションを実行すれば±waccWの各加速度が適用され、速度を増加させるときは線形加速度がwaccVであり、減少させるときは-0.2m/sである。
(4)報酬関数(reward function)
報酬関数r:S×A×W→Rは、数式(4)のように、5つの構成要素の和を意味する。
報酬rbase=-0.01は、エージェントが最小時間内に経由地に到達するように勧めるために、すべての段階で与えられる。
のように設定されるが、このときΔd=d-dt-1であり、dは段階tから経由地までのユークリッド距離(Euclidean distance)、Δtは段階の持続時間である。衝突回避に必要な最短経路で小さな偏差に対するペナルティを減らすために平方根が使用される。エージェントと現在の経由地との間の距離が1m未満の場合はrwaypoint=1の報酬があり、経由地がアップデートされる。
ロボットがシミュレーションと実際の環境で最小安全距離を維持するようにするために障害物や他の物体と衝突すると推定される時間が1秒未満の場合、または衝突が発生した場合にrstop=wstopの報酬が与えられる場合、線形速度を0m/sに設定してロボットを停止させる。予想衝突時間は現在の動作で与えられた目標速度によって計算され、Oscanで代表される障害地点を活用して0.5m辺の正方形でロボットをモデリングする。
他のエージェントに対する予想衝突時間がwsocial Lim秒よりも短いときに報酬rsocial=wsocialが与えられる。予想衝突時間は、スキャンデータの代わりに3m範囲内の他のエージェントの位置を使用することを除いてrstopに対して計算される。観測に他のエージェントの位置を含ませないため、ロボットはスキャンデータの順序を活用して他のエージェントの静的障害物を区別する。
図3を参照すると、本発明に係る自律走行学習方法の一例は、次の2つの段階を含む。
段階310で、学習部201は、広範囲な自律走行パラメータに適応することが可能な自律走行ポリシーを再訓練なく学習するために、シミュレーション環境において数台のロボットにランダムに自律走行パラメータを付与して学習を同時に進行する。
学習部201は、自律走行学習のためのニューラルネットワークの入力としてセンサデータと自律走行パラメータを使用してよい。センサデータは、ロボットからリアルタイムで取得するセンサ値であって、例えば、ToF(time of flight)センサ値、現在の速度、オドメータ、走行方向、障害物の位置などを含んでよい。自律走行パラメータは、ランダムに付与される設定値であって、システムによって自動設定されてもよいし管理者によって直接設定されてもよい。例えば、自律走行パラメータは、衝突時の報酬、衝突回避に必要な安全距離と安全距離における報酬、最大速度(直線速度、回転速度)、最大加速度(直線加速度、回転加速度)などを含んでよい。パラメータ範囲が1~10であると仮定するとき、パラメータ値が1であるロボットからパラメータ値が10であるロボットまで計10台のロボットを利用してシミュレーションを実行してよい。このとき、自律走行パラメータは、以下で説明する選好度に基づいて指定されてよい。
学習部201は、シミュレーション上において、ランダムサンプリングされたパラメータをロボットそれぞれに付与する方式で数台のロボットを同時に学習させることにより、再学習なく、多様なパラメータに合わせて自律走行が可能であり、従来には学習に使用されていなかった新たなパラメータまで一般化(generalization)が可能となる。
一例として、図4のアルゴリズムに要約したように、分散マルチエージェント訓練(decentralized multi-agent training)方式を適用してよい。エピソードごとに複数のエージェントを共有環境に配置する。ポリシーを多様な自律走行パラメータに適するように調整するために、各エピソードが始まるときの分布から各エージェントの自律走行パラメータをランダムにサンプリングする。強化学習アルゴリズムの場合、パラメータサンプリングが効率的かつ安定的であり、より優れた成果のポリシーを生産する。
図5および図6は、本発明の一実施形態における、自律走行学習のためのニューラルネットワーク構造の一例を示した図である。
本発明に係る自律走行学習のためのニューラルネットワークアキテクチャは、適応型ポリシー学習構造(図5)と、ユーティリティ関数(utilityfunction)学習(図6)構造を使用する。FCは全結合層(fully-connected layer)を示し、BayesianFCはベイジアン全結合層(Bayesian fully-connected layer)を示し、併合された分岐は連結(concatenation)を示す。ユーティリティ関数f(w)とf(w)は、共有加重値を利用して計算される。
図5に示すように、ネットワークに対する追加入力としてエージェントの自律走行パラメータを提供する。エージェントとエージェント環境の時間易学をモデリングするために、LSTM(Long Short-Term Memorymodels)に比べて少ない演算を要求すると同時に、競争的性能を提供するGRU(gatedrecurrent units)を使用する。
本実施形態は、シミュレーション内で多様な設定のロボットを同時に学習させることにより、複数の入力による強化学習を同時に進行することができ、多様かつ予測不可能な実世界における学習効果を得ることができる。自律走行学習のための設定によって複数のランダムサンプリングされたパラメータを利用したとしても、学習に必要となるすべてのデータ量は1つの固定パラメータを利用する場合と同一あるいは類似の水準となるため、少ないデータによって適応型アルゴリズムを生成することができる。
再び図3において、段階320で、最適化部202は、シミュレーションロボットの走行映像に対する選好データを利用して、自律走行パラメータを最適化してよい。最適化部202は、人間がロボットの走行映像を見てフィードバックを与えると、フィードバック値を反映して人間の選好する方式で自律走行パラメータを学習することにより、ユーザ選好に対する自律走行パラメータを最適化することができる。
最適化部202は、自律走行パラメータが互いに異なるように設定されたロボットの走行映像に対して、人間からフィードバックを受けて反映するニューラルネットワークを活用してよい。図6を参照すると、ニューラルネットワークの入力は自律走行パラメータwとなり、出力はソフトマックス(softmax)計算によるスコアとしてユーティリティ関数f(w)となる。すなわち、ユーザフィードバックによってソフトマックスを1または0で学習しながら、スコアが最も高く出るパラメータを探索するのである。
広範囲な自律走行パラメータに適応することが可能なエージェントがあったとしても、与えられたユースケースに対して最適な自律走行パラメータを探索する問題は依然として残っている。したがって、選好データを使用して自律走行パラメータを最適化するという新たなベイジアン接近法を提案する。本実施形態では、容易に導き出すことが可能な一対比較(pairwise comparisons)によって選好度を評価してよい。
一例として、Bradley-Terryモデルをモデル選好度に使用してよい。自律走行パラメータ
よりも選好される確率は、数式(5)のとおりとなる。
ここで、tとtはwとwを使用して収集したロボット軌跡であって、w>wはwがwよりも選好されることを示しており、f:W→Rはユーティリティ関数である。正確な選好度評価のためには、同一の環境および経由地を利用して軌跡tとtを収集する。選好データにユーティリティ関数f(w)を合わせ、これを使用することによって新たな自律走行パラメータに対する環境設定を予測する。
選好度モデルの能動的学習のために、パラメータθBNがあるベイジアンニューラルネットワークでユーティリティ関数f(w|θBN)を学習する。特に、能動的にクエリを生成するために予測不確実性に対する推定値を使用することにより、クエリの数を最小化してよい。
図7のアルゴリズムに示すように、選好度モデルのNll(negative log-likelihood)(数式(6))を最小化する方向でニューラルネットワーク(図6)を訓練させる。
各繰り返しにおいて、前段階でパラメータθBNを始めとしてNupdata段階ずつネットワークを訓練させる。一例として、数式(7)のように設定することにより、新たなクエリを積極的にサンプリングするために変更されたUCB(upper-confidence bounds)を使用してよい。
ここで、μ(f(w|θBN))とσ(f(w|θBN))は、ネットワークのNforwardフォワードパス(forward pass)で計算されたf(w|θBN)の平均と標準偏差を意味する。シミュレーション環境で一般的にσ(f(w|θBN))の前に示される
係数は省略する。
sample均一にサンプリングされた自律走行パラメータのうち、UCB(w|θBN)が最も高いNquery自律走行パラメータを使用してロボットの軌跡を生成する。この後、Nqueryの新たな選好度クエリを能動的に生成する。このために、すべての自律走行パラメータの集合であるすべての
に対してμ(f(w|θBN))とUCB(w|θBN)を計算する。WmeanをDparamsで最も高いNtopのμ(f(w|θBN))とし、WUCBをDparamsで最も高いNtopのUCB(f(w|θBN))とすることでサンプル集合とするとしよう。それぞれの選好度クエリは、WmeanとWUCBでwとwが均一にサンプリングされる自律走行パラメータの対(w,w)で構成される。
言い換えれば、最適化部202は、それぞれ異なるパラメータで走行したロボットの2つの映像クリップをユーザに見せ、どちらの映像がユースケースにより適するかに対する選好度を調査した後に選好度をモデリングし、モデルの不確実性に基づいて新たなクリップを生成することにより、少数の選好データでも満足度の高いパラメータを探索することができる。ニューラルネットワークの連結強度を計算するたびに一定の分布でサンプリングし、特に、ベイジアンニューラルネットワークを活用して能動的にクエリを生成する過程において、予測結果の不確実性が高い入力に学習を誘導し、全体学習に必要となるクエリの数を効果的に減らすことができる。
このように、本発明の実施形態によると、多様な環境における強化学習を同時に進行することによって多様で予測不可能な実世界における学習効果を達成することができ、データの増加なく、適応型自律走行アルゴリズムを実現することができる。さらに、本発明の実施形態によると、ロボットの走行映像に対してユースケースに適するかどうかを示す選好度をモデリングした後、モデルの不確実性に基づくことで、少数の選好データでも自律走行パラメータを最適化することができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体も挙げられる。
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

Claims (16)

  1. コンピュータシステムが実行する自律走行学習方法であって、
    前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
    前記自律走行学習方法は、
    前記少なくとも1つのプロセッサが、システムによる自動設定または管理者による直接設定によって互いに異なる自律走行パラメータをシミュレーション上の複数のロボットエージェントに付与して、ロボット自律走行を学習する段階
    を含み、
    前記学習する段階は、
    前記ロボット自律走行の学習のためのニューラルネットワークの入力として、ロボットからリアルタイムで取得するセンサ値と、自律走行ポリシーと関連してランダムに付与される自律走行パラメータとを使用して、モデルのNll(negative log-likelihood)を最小化する段階を含む、
    自律走行学習方法。
  2. 前記学習する段階は、
    前記複数のロボットエージェントを対象に、ランダムにサンプリングされた自律走行パラメータを入力とする強化学習(reinforcement learning)を同時に実行すること
    を特徴とする、請求項1に記載の自律走行学習方法。
  3. 前記学習する段階は、
    全結合層(fully-connected layer)とGRU(gated recurrent units)で構成されたニューラルネットワークを利用して、前記複数のロボットエージェントの自律走行を同時に学習することを特徴とする、請求項1又は2に記載の自律走行学習方法。
  4. 前記自律走行学習方法は、
    前記少なくとも1つのプロセッサが、前記自律走行パラメータに対する人間の選好データ(preference data)を利用して、選好度モデルに近接させるように前記自律走行パラメータを最適化する段階
    をさらに含む、請求項1乃至3のいずれか一項に記載の自律走行学習方法。
  5. 前記最適化する段階は、
    前記自律走行パラメータが互いに異なるように設定されたロボットの走行映像に対するフィードバックを反映して、前記自律走行パラメータを最適化すること
    を特徴とする、請求項4に記載の自律走行学習方法。
  6. 前記最適化する段階は、
    前記自律走行パラメータの一対比較(pairwise comparisons)によって、前記自律走行パラメータに対する選好度を評価する段階
    を含む、請求項4に記載の自律走行学習方法。
  7. コンピュータシステムが実行する自律走行学習方法であって、
    前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
    前記自律走行学習方法は、
    前記少なくとも1つのプロセッサが、システムによる自動設定または管理者による直接設定によって互いに異なる自律走行パラメータをシミュレーション上の複数のロボットエージェントに付与して、ロボット自律走行を学習する段階
    を含み、
    前記自律走行学習方法は、
    前記少なくとも1つのプロセッサが、前記自律走行パラメータに対する人間の選好データ(preference data)を利用して、選好度モデルに近接させるように前記自律走行パラメータを最適化する段階
    をさらに含み、
    前記最適化する段階は、
    ベイジアンニューラルネットワーク(Bayesian neural network)モデルを使用して、前記自律走行パラメータに対する選好度をモデリングする段階
    を含む、自律走行学習方法。
  8. 請求項1~7のうちのいずれか一項に記載の自律走行学習方法を前記コンピュータシステムに実行させるために非一時的なコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラム。
  9. 請求項1~7のうちのいずれか一項に記載の自律走行学習方法をコンピュータに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。
  10. コンピュータシステムであって、
    メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    シミュレーション上の複数のロボットエージェントにシステムによる自動設定または管理者による直接設定によって互いに異なる自律走行パラメータを付与して、ロボット自律走行を学習する学習部
    を含み、
    前記学習部は、
    前記ロボット自律走行の学習のためのニューラルネットワークの入力として、ロボットからリアルタイムで取得するセンサ値と、自律走行ポリシーと関連してランダムに付与される自律走行パラメータを使用して、モデルのNll(negative log-likelihood)を最小化すること、を特徴とする、
    コンピュータシステム。
  11. 前記学習部は、
    前記複数のロボットエージェントを対象に、ランダムにサンプリングされた自律走行パラメータを入力とする強化学習を同時に実行すること
    を特徴とする、請求項10に記載のコンピュータシステム。
  12. 前記学習部は、
    全結合層とGRUで構成されたニューラルネットワークを利用して、前記複数のロボットエージェントの自律走行を同時に学習すること
    を特徴とする、請求項10又は11に記載のコンピュータシステム。
  13. 前記少なくとも1つのプロセッサは、
    前記自律走行パラメータに対する人間の選好データを利用して、選好度モデルに近接させるように前記自律走行パラメータを最適化する最適化部
    をさらに含む、請求項10乃至12のいずれか一項に記載のコンピュータシステム。
  14. 前記最適化部は、
    前記自律走行パラメータが互いに異なるように設定されたロボットの走行映像に対するフィードバックを反映して、前記自律走行パラメータを最適化すること
    を特徴とする、請求項13に記載のコンピュータシステム。
  15. 前記最適化部は、
    前記自律走行パラメータの一対比較によって、前記自律走行パラメータに対する選好度を評価すること
    を特徴とする、請求項13に記載のコンピュータシステム。
  16. 前記最適化部は、
    ベイジアンニューラルネットワークモデルを使用して、前記自律走行パラメータに対する選好度をモデリングすること
    を特徴とする、請求項13に記載のコンピュータシステム。
JP2022519438A 2019-10-24 2020-08-25 ユーザ選好による強化学習基盤の自律走行最適化方法およびシステム Active JP7459238B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR20190132808 2019-10-24
KR10-2019-0132808 2019-10-24
KR10-2020-0009729 2020-01-28
KR1020200009729A KR102303126B1 (ko) 2019-10-24 2020-01-28 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템
PCT/KR2020/011304 WO2021080151A1 (ko) 2019-10-24 2020-08-25 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템

Publications (2)

Publication Number Publication Date
JP2022550122A JP2022550122A (ja) 2022-11-30
JP7459238B2 true JP7459238B2 (ja) 2024-04-01

Family

ID=75619837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022519438A Active JP7459238B2 (ja) 2019-10-24 2020-08-25 ユーザ選好による強化学習基盤の自律走行最適化方法およびシステム

Country Status (4)

Country Link
US (1) US20220229435A1 (ja)
EP (1) EP4019202A4 (ja)
JP (1) JP7459238B2 (ja)
WO (1) WO2021080151A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004033159A1 (ja) 2002-10-11 2004-04-22 Fujitsu Limited ロボット制御アルゴリズム構築装置、ロボット制御アルゴリズム構築プログラム、ロボット制御装置、ロボット制御プログラム、およびロボット
JP2007041723A (ja) 2005-08-01 2007-02-15 Advanced Telecommunication Research Institute International センサ設計装置、センサ設計方法、センサ設計プログラム及びロボット
JP2019101907A (ja) 2017-12-06 2019-06-24 国立大学法人 東京大学 物体間関係認識装置、学習済みモデル、認識方法及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101771643B1 (ko) 2015-07-15 2017-08-25 주식회사 마로로봇 테크 자율주행로봇 및 이의 네비게이션 방법
JP6875513B2 (ja) * 2016-10-10 2021-05-26 ディープマインド テクノロジーズ リミテッド ロボットエージェントによって実行されるべきアクションを選択するためのニューラルネットワーク
KR20180070103A (ko) * 2016-12-16 2018-06-26 삼성전자주식회사 인식 방법 및 인식 장치
WO2018211142A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Imagination-based agent neural networks
DE102018205561A1 (de) * 2017-08-18 2019-02-21 Robert Bosch Gmbh Vorrichtung zur Klassifizierung von Signalen
KR101974447B1 (ko) * 2017-10-13 2019-05-02 네이버랩스 주식회사 게임 환경 추상화를 통한 강화 학습 기반의 모바일 로봇 제어
US10926408B1 (en) * 2018-01-12 2021-02-23 Amazon Technologies, Inc. Artificial intelligence system for efficiently learning robotic control policies
US20210166715A1 (en) * 2018-02-16 2021-06-03 Hewlett-Packard Development Company, L.P. Encoded features and rate-based augmentation based speech authentication
US11580378B2 (en) * 2018-03-14 2023-02-14 Electronic Arts Inc. Reinforcement learning for concurrent actions
KR102503757B1 (ko) * 2018-04-03 2023-02-23 엘지전자 주식회사 각각의 인공지능을 탑재한 복수의 로봇을 포함하는 로봇 시스템
US11403521B2 (en) * 2018-06-22 2022-08-02 Insilico Medicine Ip Limited Mutual information adversarial autoencoder
KR20200080396A (ko) * 2018-12-18 2020-07-07 삼성전자주식회사 자율 주행 방법 및 장치
KR102287460B1 (ko) * 2019-08-16 2021-08-10 엘지전자 주식회사 인공지능 무빙 에이전트

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004033159A1 (ja) 2002-10-11 2004-04-22 Fujitsu Limited ロボット制御アルゴリズム構築装置、ロボット制御アルゴリズム構築プログラム、ロボット制御装置、ロボット制御プログラム、およびロボット
JP2007041723A (ja) 2005-08-01 2007-02-15 Advanced Telecommunication Research Institute International センサ設計装置、センサ設計方法、センサ設計プログラム及びロボット
JP2019101907A (ja) 2017-12-06 2019-06-24 国立大学法人 東京大学 物体間関係認識装置、学習済みモデル、認識方法及びプログラム

Also Published As

Publication number Publication date
WO2021080151A1 (ko) 2021-04-29
EP4019202A4 (en) 2023-08-09
EP4019202A1 (en) 2022-06-29
US20220229435A1 (en) 2022-07-21
JP2022550122A (ja) 2022-11-30

Similar Documents

Publication Publication Date Title
US11726477B2 (en) Methods and systems for trajectory forecasting with recurrent neural networks using inertial behavioral rollout
WO2019124001A1 (ja) 移動体挙動予測装置および移動体挙動予測方法
KR102303126B1 (ko) 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템
US20210397961A1 (en) Method and system for training autonomous driving agent on basis of deep reinforcement learning
Sombolestan et al. Optimal path-planning for mobile robots to find a hidden target in an unknown environment based on machine learning
US20200401148A1 (en) Path planning for autonomous moving devices
KR20210061461A (ko) 자율 차량 계획
US20190382030A1 (en) Feedback for an autonomous vehicle
CN111971574A (zh) 用于自动驾驶车辆的lidar定位的基于深度学习的特征提取
CN112438664B (zh) 通过人工智能识别卡堵情形的机器人清洁器及其操作方法
US11514363B2 (en) Using a recursive reinforcement model to determine an agent action
Liu et al. Episodic memory-based robotic planning under uncertainty
CN114667494A (zh) 机器人控制模型学习方法、机器人控制模型学习装置、机器人控制模型学习程序、机器人控制方法、机器人控制装置、机器人控制程序以及机器人
KR20240008386A (ko) 리스크 척도를 나타내는 파라미터에 기반하여 훈련된 모델을 사용하여, 주어진 상황에 대한 디바이스의 행동을 결정하는 방법 및 시스템
CN113988196A (zh) 一种机器人移动方法、装置、设备及存储介质
US20210109541A1 (en) Method of estimating position in local area of large space and robot and cloud server implementing thereof
JP7459238B2 (ja) ユーザ選好による強化学習基盤の自律走行最適化方法およびシステム
Quinones-Ramirez et al. Robot path planning using deep reinforcement learning
JP2023051421A (ja) 移動体制御装置、移動体、学習装置、学習方法、および、プログラム
KR102617418B1 (ko) 센서 구성과 로봇 형태에 적응 가능한 강화학습 기반 자율주행 방법, 컴퓨터 시스템, 및 컴퓨터 프로그램
Wei et al. Deep reinforcement learning with heuristic corrections for UGV navigation
Przybylski et al. A new CNN-based method of path planning in dynamic environment
US20230132280A1 (en) Robotic navigation and transport of objects
KR20240021092A (ko) 로봇 제어 시스템 및 방법
Knudson et al. Towards coordinating autonomous robots for exploration in dynamic environments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240319

R150 Certificate of patent or registration of utility model

Ref document number: 7459238

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150