JP7297842B2 - リスク尺度を示すパラメータに基づいて訓練されたモデルを使用して、与えられた状況に対するデバイスの行動を決定する方法およびシステム - Google Patents
リスク尺度を示すパラメータに基づいて訓練されたモデルを使用して、与えられた状況に対するデバイスの行動を決定する方法およびシステム Download PDFInfo
- Publication number
- JP7297842B2 JP7297842B2 JP2021171002A JP2021171002A JP7297842B2 JP 7297842 B2 JP7297842 B2 JP 7297842B2 JP 2021171002 A JP2021171002 A JP 2021171002A JP 2021171002 A JP2021171002 A JP 2021171002A JP 7297842 B2 JP7297842 B2 JP 7297842B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- risk
- behavior
- parameter
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 59
- 230000006399 behavior Effects 0.000 claims description 99
- 238000009826 distribution Methods 0.000 claims description 96
- 230000009471 action Effects 0.000 claims description 69
- 238000012549 training Methods 0.000 claims description 22
- 230000004044 response Effects 0.000 claims description 10
- 238000012952 Resampling Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims 3
- 238000004422 calculation algorithm Methods 0.000 description 34
- 239000003795 chemical substances by application Substances 0.000 description 26
- 230000006870 function Effects 0.000 description 19
- 238000013459 approach Methods 0.000 description 11
- 230000001186 cumulative effect Effects 0.000 description 11
- 238000004088 simulation Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 230000002787 reinforcement Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000013480 data collection Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 206010063659 Aversion Diseases 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 206010068829 Overconfidence Diseases 0.000 description 1
- 238000012152 algorithmic method Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003334 potential effect Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0251—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Multimedia (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Robotics (AREA)
- Electromagnetism (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
Description
βは、その値によって、リスクをより追求するように、あるいはリスクをより回避するように確率分布(すなわち、デバイスの行動によって得られる報酬の(確率)分布)を歪曲させるためのパラメータとして定義されてよい。言い換えれば、βは、第1パラメータ(τ)に対応して学習された報酬の確率分布を歪曲させるためのパラメータであってよい。実施形態では、変更設定することが可能なβによってデバイスが得る報酬の分布が歪曲されてよく、デバイスは、βによってより悲観的な方向あるいは楽観的な方向に動作されてよい。
実施形態では、安全性および低リスクナビゲーションのための深層RL接近法を採択する。リスクを考慮するためには、古典的なモデル予測制御(Model-Predictive-Control;MPC)およびグラフ検索接近法が既に存在している。実施形態では、これらも考慮しながら、単純なセンサノイズとオクルージョン(occlusion)から、ナビゲーショングラフのエッジ(例えば、ドア)の通過可能性(traversability)に対する不確実性および歩行者移動の予測不可能性に至るまで、多様なリスクを考慮する。
深層RLは、多くのゲームおよびロボットとその他のドメインで成功的であったことから、モバイルロボットナビゲーション分野でも多くの注目を集めている。これは、MPCのような接近方式に比べてRL方法は、多くの費用がかかる軌跡(trajectory)予測をしなくても最適のアクション(行動)を推論することができ、費用や報酬が局所最適性(local optima)をもつときにより強力に実行することができる。
分布基盤のRLは、単にその平均ではなく、累積報酬の分布をモデリングする。分布基盤のRLアルゴリズムは、次の再帰(recursion)に依存してよい。
2次元で走行する車輪ロボット(例えば、自律走行ロボット)を考慮しながら説明する。ロボットの形状は、図7および図8に示すように八角形であってよく、ロボットの目的(objective)は、障害物と衝突せずに一連のウェイポイントを通過することであってよい。図7の環境には障害物も含まれている。
広範囲なリスク敏感ポリシーを効率的に学習するために、リスク条件付き分布基盤のソフトアクタークリティック(RC-DSAC)アルゴリズムが提案されてよい。
図7に示すように、ロボット700の力学がシミュレーションされてよい。データ収集のスループットを高めるために、10回のシミュレーションが並列で実行されてよい。具体的に、生成された各環境に対し、10個のエピソードを並列で実行する。ここで、エピソードは、明確な出発地と目的地の位置を有するエージェントと関連してよく、明確なリスク指標パラメータβと関連してよい。それぞれのエピソードは1000段階後に終了し、エージェントが目標に到達すれば新たな目標がサンプリングされてよい。
実施形態のRC-DSAC、SAC、およびDSACの性能比較を実行する。また、実施形態の報酬関数に適用される報酬コンポーネント加重値ランダム化(Reward-Component-Weight Randomization:RCWR)方法に対する比較も実行された。
表2は、50件の評価環境に対する500回のエピソードの平均として、衝突数の平均と標準偏差と各方法の報酬を示している。
実施形態の方法を実世界で実現するために、図5に示すようなモバイルロボットプラットフォームが実現されてよい。ロボット500は、例えば、4つのデプスカメラを前方に備えてよく、このようなセンサからのポイントクラウドデータは、狭い(narrow)設定に対応する観察orngにマッピングされてよい。RC-DSAC(リサンプリング)およびベースラインエージェントがロボット500に対して展開されてよい。
201:学習部
202:決定部
Claims (16)
- コンピュータシステムが実行する、状況によるデバイスの行動を決定する方法であって、
前記デバイスの制御と関連するリスク尺度を示すパラメータを使用して状況に対する前記デバイスの行動による報酬の分布を学習した学習モデルに対し、前記デバイスが制御される環境に対する前記リスク尺度を示すパラメータを設定する段階、および
前記設定されたパラメータに基づいて、前記環境で前記デバイスが制御されるときに、与えられた状況による前記デバイスの行動を決定する段階
を含み、
前記学習モデルに対しては、前記環境の特性によって前記リスク尺度を示すパラメータが相異するように設定することができ、
前記学習モデルは、分位点回帰分析方法を使用して、状況に対する前記デバイスの行動によって得られる報酬の分布を学習したものであり、
前記学習モデルは、所定の第1範囲に属する第1パラメータの値に対応する前記報酬の値を学習するが、前記第1範囲に対応する第2範囲に属する前記リスク尺度を示すパラメータをサンプリングし、前記報酬の分布内で、前記サンプリングされたリスク尺度を示すパラメータに対応する報酬の値も学習し、
前記第1パラメータの値のうちの最小値は前記報酬の値のうちの最小値に対応し、前記第1パラメータの値のうちの最大値は前記報酬の値のうちの最大値に対応する、
状況によるデバイスの行動を決定する方法。 - 前記デバイスの行動を決定する段階は、
前記設定されたリスク尺度を示すパラメータの値または前記パラメータの値が示す範囲により、前記与えられた状況に対してリスクをさらに回避するかリスクをさらに追求するように前記デバイスの行動を決定する、
請求項1に記載の状況によるデバイスの行動を決定する方法。 - 前記デバイスは、自律走行するロボットであり、
前記デバイスの行動を決定する段階は、
前記設定されたリスク尺度を示すパラメータの値が所定の値以上であるか前記パラメータの値が所定の範囲以上を示す場合、リスクをさらに追求するようにする前記ロボットの行動として、前記ロボットの直進または前記ロボットの加速を決定する、
請求項2に記載の状況によるデバイスの行動を決定する方法。 - 前記第1範囲は0~1であり、前記第2範囲は0~1であり、
前記学習モデルが学習されるときに、前記第2範囲に属する前記リスク尺度を示すパラメータは、ランダムにサンプリングされる、
請求項1に記載の状況によるデバイスの行動を決定する方法。 - 前記第1パラメータの値のそれぞれは百分率位置を示し、
前記第1パラメータの値のそれぞれは、該当する百分率位置の前記報酬の値に対応する、
請求項1に記載の状況によるデバイスの行動を決定する方法。 - 前記学習モデルは、
状況に対する前記デバイスの行動を予測するための第1モデル、および
前記予測された行動による報酬を予測するための第2モデル
を含み、
前記第1モデルおよび前記第2モデルそれぞれは、前記リスク尺度を示すパラメータを使用して学習されたものであり、
前記第1モデルは、前記第2モデルから予測された報酬が最大となる行動を前記デバイスの次の行動として予測するように学習される、
請求項1に記載の状況によるデバイスの行動を決定する方法。 - 前記デバイスは、自律走行するロボットであり、
前記第1モデルおよび前記第2モデルは、前記ロボットの周囲の障害物の位置、前記ロボットが移動する経路、および前記ロボットの速度に基づいて、前記デバイスの行動および前記報酬をそれぞれ予測する、
請求項6に記載の状況によるデバイスの行動を決定する方法。 - コンピュータシステムが実行する、状況によるデバイスの行動を決定する方法であって、
前記デバイスの制御と関連するリスク尺度を示すパラメータを使用して状況に対する前記デバイスの行動による報酬の分布を学習した学習モデルに対し、前記デバイスが制御される環境に対する前記リスク尺度を示すパラメータを設定する段階、および
前記設定されたパラメータに基づいて、前記環境で前記デバイスが制御されるときに、与えられた状況による前記デバイスの行動を決定する段階
を含み、
前記学習モデルに対しては、前記環境の特性によって前記リスク尺度を示すパラメータが相異するように設定することができ、
前記学習モデルは、状況に対する前記デバイスの行動による報酬の推定を繰り返すことによって前記報酬の分布を学習し、
各繰り返しは、前記デバイスの出発地から目的地への移動を示す各エピソードに対する学習および前記学習モデルのアップデートを含み、
前記各エピソードが始まるときに前記リスク尺度を示すパラメータがサンプリングされ、サンプリングされた前記リスク尺度を示すパラメータは、前記各エピソードが終了するまで固定される、
状況によるデバイスの行動を決定する方法。 - 前記学習モデルのアップデートは、バッファに格納されたサンプリングされた前記リスク尺度を示すパラメータを使用して実行されるか、
前記リスク尺度を示すパラメータをリサンプリングし、リサンプリングされた前記リスク尺度を示すパラメータを使用して実行される、
請求項8に記載の状況によるデバイスの行動を決定する方法。 - 前記リスク尺度を示すパラメータは、
CVaR(Conditional Value-at-Risk)リスク尺度を示すパラメータとして0超過1以下の範囲の数であるか、
べき乗則リスク尺度として0未満の範囲の数である、
請求項1に記載の状況によるデバイスの行動を決定する方法。 - 前記デバイスは、自律走行するロボットであり、
前記リスク尺度を示すパラメータを設定する段階は、
前記環境で前記ロボットが自律走行する間に、利用者によって要請された値に基づいて、前記学習モデルに前記リスク尺度を示すパラメータを設定する、
請求項1に記載の状況によるデバイスの行動を決定する方法。 - 請求項1~11のうちのいずれか一項に記載の方法を前記コンピュータシステムで実行させる、コンピュータプログラム。
- 請求項1~11のうちのいずれか一項に記載の方法を前記コンピュータシステムで実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。
- コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
デバイスの制御と関連するリスク尺度を示すパラメータを使用して状況に対する前記デバイスの行動による報酬の分布を学習した学習モデルに対し、前記デバイスが制御される環境に対する前記リスク尺度を示すパラメータを設定し、前記設定されたパラメータに基づいて、前記環境で前記デバイスが制御されるときに、与えられた状況による前記デバイスの行動を決定し、
前記学習モデルに対しては、前記環境の特性によって前記リスク尺度を示すパラメータが相異するように設定することができ、
前記学習モデルは、分位点回帰分析方法を使用して、状況に対する前記デバイスの行動によって得られる報酬の分布を学習したものであり、
前記学習モデルは、所定の第1範囲に属する第1パラメータの値に対応する前記報酬の値を学習するが、前記第1範囲に対応する第2範囲に属する前記リスク尺度を示すパラメータをサンプリングし、前記報酬の分布内で、前記サンプリングされたリスク尺度を示すパラメータに対応する報酬の値も学習し、
前記第1パラメータの値のうちの最小値は前記報酬の値のうちの最小値に対応し、前記第1パラメータの値のうちの最大値は前記報酬の値のうちの最大値に対応する、
コンピュータシステム。 - コンピュータシステムが実行する、状況によるデバイスの行動を決定するために使用されるモデルを学習させる方法であって、
前記モデルに、前記デバイスの制御と関連するリスク尺度(risk-measure)を示すパラメータを使用して状況に対する前記デバイスの行動による報酬の分布を学習させる段階
を含み、
学習された前記モデルに対しては、環境の特性によって前記リスク尺度を示すパラメータが相異するように設定することができ、
学習された前記モデルに前記デバイスが制御される環境に対する前記リスク尺度を示すパラメータが設定されることにより、前記モデルにより、前記設定されたパラメータに基づいて、前記環境で前記デバイスが制御されるときに、与えられた状況による前記デバイスの行動が決定され、
前記学習させる段階は、
前記モデルに、分位点回帰分析方法を使用しながら、状況に対する前記デバイスの行動によって得られる報酬の分布を学習させ、
前記学習させる段階は、
前記モデルに、所定の第1範囲に属する第1パラメータの値に対応する前記報酬の値を学習させるが、前記第1範囲に対応する第2範囲に属する前記リスク尺度を示すパラメータをサンプリングし、前記報酬の分布内で、前記サンプリングされたリスク尺度を示すパラメータに対応する報酬の値も学習させ、
前記第1パラメータの値のうちの最小値は前記報酬の値のうちの最小値に対応し、前記第1パラメータの値のうちの最大値は前記報酬の値のうちの最大値に対応する、
モデルを学習させる方法。 - 前記モデルは、
状況に対する前記デバイスの行動を予測するための第1モデル、および
前記予測された行動による報酬を予測するための第2モデル
を含み、
前記第1モデルおよび前記第2モデルそれぞれは、前記リスク尺度を示すパラメータを使用して学習されたものであり、
前記学習させる段階は、
前記第1モデルを、前記第2モデルから予測された報酬が最大となる行動を前記デバイスの次の行動として予測するように学習させる、
請求項15に記載のモデルを学習させる方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200181547A KR102622243B1 (ko) | 2020-12-23 | 2020-12-23 | 리스크 척도를 나타내는 파라미터에 기반하여 훈련된 모델을 사용하여, 주어진 상황에 대한 디바이스의 행동을 결정하는 방법 및 시스템 |
KR10-2020-0181547 | 2020-12-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022100227A JP2022100227A (ja) | 2022-07-05 |
JP7297842B2 true JP7297842B2 (ja) | 2023-06-26 |
Family
ID=82023165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021171002A Active JP7297842B2 (ja) | 2020-12-23 | 2021-10-19 | リスク尺度を示すパラメータに基づいて訓練されたモデルを使用して、与えられた状況に対するデバイスの行動を決定する方法およびシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220198225A1 (ja) |
JP (1) | JP7297842B2 (ja) |
KR (2) | KR102622243B1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11807267B2 (en) * | 2020-12-31 | 2023-11-07 | Toyota Research Institute, Inc. | Systems and methods for risk-sensitive sequential action control for robotic devices |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020205648A1 (en) | 2019-03-29 | 2020-10-08 | Intel Corporation | Autonomous vehicle system |
US20200364557A1 (en) | 2018-02-09 | 2020-11-19 | Deepmind Technologies Limited | Distributional reinforcement learning using quantile function neural networks |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180023302A (ko) * | 2016-08-25 | 2018-03-07 | 엘지전자 주식회사 | 이동 로봇 및 그 제어방법 |
JP2022513429A (ja) * | 2018-11-08 | 2022-02-08 | シモウディス,エバンゲロス | 乗り物データを管理するためのシステムおよび方法 |
-
2020
- 2020-12-23 KR KR1020200181547A patent/KR102622243B1/ko active IP Right Grant
-
2021
- 2021-10-19 JP JP2021171002A patent/JP7297842B2/ja active Active
- 2021-11-04 US US17/518,695 patent/US20220198225A1/en active Pending
-
2024
- 2024-01-03 KR KR1020240000735A patent/KR20240008386A/ko active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200364557A1 (en) | 2018-02-09 | 2020-11-19 | Deepmind Technologies Limited | Distributional reinforcement learning using quantile function neural networks |
WO2020205648A1 (en) | 2019-03-29 | 2020-10-08 | Intel Corporation | Autonomous vehicle system |
Non-Patent Citations (1)
Title |
---|
進藤 智則,Appleが進める自動運転研究 運転のアグレッシブさ変えられる強化学習技術を開発,NIKKEI Robotics,第54号,日本,日経BP,2019年12月10日,p. 5~10 |
Also Published As
Publication number | Publication date |
---|---|
KR102622243B1 (ko) | 2024-01-08 |
US20220198225A1 (en) | 2022-06-23 |
JP2022100227A (ja) | 2022-07-05 |
KR20240008386A (ko) | 2024-01-18 |
KR20220090732A (ko) | 2022-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Driving behavior modeling using naturalistic human driving data with inverse reinforcement learning | |
Zhu et al. | A survey of deep RL and IL for autonomous driving policy learning | |
Lauri et al. | Partially observable markov decision processes in robotics: A survey | |
JP7335434B2 (ja) | 後知恵モデリングを用いた行動選択ニューラルネットワークの訓練 | |
CN112292693A (zh) | 强化学习系统训练返回函数的元梯度更新 | |
CN112154461A (zh) | 用于多代理环境中的行为预测和强化学习的图神经网络系统 | |
CN110955242A (zh) | 机器人导航方法、系统、机器人及存储介质 | |
JP7436688B2 (ja) | 目的別行動価値関数を使用する多目的強化学習 | |
WO2020065001A1 (en) | Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy | |
CN114467100A (zh) | 使用q学习与前瞻搜索相结合训练动作选择神经网络 | |
Herman et al. | Inverse reinforcement learning of behavioral models for online-adapting navigation strategies | |
KR102303126B1 (ko) | 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템 | |
Zieliński et al. | 3D robotic navigation using a vision-based deep reinforcement learning model | |
KR20240008386A (ko) | 리스크 척도를 나타내는 파라미터에 기반하여 훈련된 모델을 사용하여, 주어진 상황에 대한 디바이스의 행동을 결정하는 방법 및 시스템 | |
CN114521262A (zh) | 使用因果正确环境模型来控制智能体 | |
Levine | Motor skill learning with local trajectory methods | |
Cunningham et al. | MPDM: multi-policy decision-making from autonomous driving to social robot navigation | |
CN111949013A (zh) | 控制载具的方法和用于控制载具的装置 | |
Quinones-Ramirez et al. | Robot path planning using deep reinforcement learning | |
KR20230157488A (ko) | 가중 정책 프로젝션을 사용한 다중 목적 강화 학습 | |
JP7459238B2 (ja) | ユーザ選好による強化学習基盤の自律走行最適化方法およびシステム | |
KR102617418B1 (ko) | 센서 구성과 로봇 형태에 적응 가능한 강화학습 기반 자율주행 방법, 컴퓨터 시스템, 및 컴퓨터 프로그램 | |
Hsu et al. | A Fast Learning Agent Based on the Dyna Architecture. | |
US20230132280A1 (en) | Robotic navigation and transport of objects | |
Weideman | Robot navigation in cluttered environments with deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230614 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7297842 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |