JP6840363B2 - ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム - Google Patents
ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム Download PDFInfo
- Publication number
- JP6840363B2 JP6840363B2 JP2017103087A JP2017103087A JP6840363B2 JP 6840363 B2 JP6840363 B2 JP 6840363B2 JP 2017103087 A JP2017103087 A JP 2017103087A JP 2017103087 A JP2017103087 A JP 2017103087A JP 6840363 B2 JP6840363 B2 JP 6840363B2
- Authority
- JP
- Japan
- Prior art keywords
- action
- unit
- moving object
- network
- evaluation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims description 191
- 238000000034 method Methods 0.000 title claims description 41
- 238000004364 calculation method Methods 0.000 claims description 70
- 238000011156 evaluation Methods 0.000 claims description 65
- 238000013528 artificial neural network Methods 0.000 claims description 50
- 230000006399 behavior Effects 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 12
- 230000003542 behavioural effect Effects 0.000 claims description 6
- 230000003252 repetitive effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 230000002787 reinforcement Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Manipulator (AREA)
Description
は、簡単のため、「右に回転」、「左に回転」、「前進」、及び「動かない」の4種類とする。
を
と設定する。
に対して、その行動をとるべきかそうでないかを確率値(以下、「評価値」という。)によりモデル化する。一方、価値関数vは、現在の状態に対する報酬を学習したものとする。つまり、その状態に到達すべきと判断される場合は、高い値となり、そうでない場合は低い値をとる。
を用意する。実態は、πと同等であるが、πと同じものを2つ用意したことに相当する。
を探索用の行動選択の方策
用のモデルパラメタとする。
……(1)
……(2)
のモデルパラメタ
を更新する。
、θπの勾配は下記(3)乃至(5)式で求められる。なお、下記(3)乃至(5)式における価値関数vは、時刻t−iにおける価値関数である。
……(3)
……(4)
……(5)
、θπを更新する。
、θπを記憶する。
を用いた多層ニューラルネットワークの各要素を計算する。
、θπを更新し、更新したモデルパラメタをパラメタ記憶部20に記憶させる。
を用いた多層ニューラルネットワークの各要素を計算する。
12 入力部
14、14a データ取得部
16 探索評価値計算部
18 パラメタ更新部
20 パラメタ記憶部
22、22a 終了判定部
24、24a ネットワーク計算部
26、26a 行動決定部
28、28a 行動制御部
Claims (6)
- 移動物の行動を決定するためのネットワーク学習装置であって、
決定された移動物の行動を行うように前記移動物を制御する行動制御部と、
行動後の前記移動物の環境を表す状態データ、及び行動に対する報酬を取得するデータ取得部と、
前記行動に対する報酬と、前記移動物の環境を表す状態データとに基づいて、前記状態データが過去に経験した状態データに対応しているかどうかを表す探索評価値を計算する探索評価値計算部と、
前記行動に対する報酬と、前記計算された探索評価値とに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークのモデルパラメタを更新するパラメタ更新部と、
前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算するネットワーク計算部と、
前記多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定する行動決定部と、
予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記探索評価値計算部による計算、前記パラメタ更新部による更新、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させる終了判定部と、
を含むネットワーク学習装置。 - 前記探索評価値計算部は、前記行動に対する報酬と、現時点の時刻と、前記移動物の環境を表す状態データに対応する状態データの経験回数とに基づいて、前記探索評価値を計算する請求項1記載のネットワーク学習装置。
- 前記パラメタ更新部は、前記行動に対する報酬に基づいて、前記移動物の行動を決定するための行動決定用の多層ニューラルネットワークのモデルパラメタを更新し、前記計算された探索評価値に基づいて、前記移動物の行動を決定するための探索用の多層ニューラルネットワークのモデルパラメタを更新し、
前記ネットワーク計算部は、前記移動物の環境を表す入力データを入力として、前記探索用の多層ニューラルネットワークの各要素を計算し、
前記行動決定部は、前記探索用の多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定する請求項1又は2記載のネットワーク学習装置。 - 移動物の行動を決定するための行動決定装置であって、
決定された移動物の行動を行うように前記移動物を制御する行動制御部と、
行動後の前記移動物の環境を表す状態データを取得するデータ取得部と、
前記移動物の環境を表す入力データを入力として、請求項3記載のネットワーク学習装置によって得られた前記行動決定用の多層ニューラルネットワークの各要素を計算するネットワーク計算部と、
前記行動決定用の多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定する行動決定部と、
予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させる終了判定部と、
を含む行動決定装置。 - 行動制御部、データ取得部、探索評価値計算部、パラメタ更新部、ネットワーク計算部、行動決定部、及び終了判定部を含む、移動物の行動を決定するためのネットワーク学習装置において実行されるネットワーク学習方法であって、
前記行動制御部が、決定された移動物の行動を行うように前記移動物を制御するステップと、
前記データ取得部が、行動後の前記移動物の環境を表す状態データ、及び行動に対する報酬を取得するステップと、
前記探索評価値計算部が、前記行動に対する報酬と、前記移動物の環境を表す状態データとに基づいて、前記状態データが過去に経験した状態データに対応しているかどうかを表す探索評価値を計算するステップと、
前記パラメタ更新部が、前記行動に対する報酬と、前記計算された探索評価値とに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークのモデルパラメタを更新するステップと、
前記ネットワーク計算部が、前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算するステップと、
前記行動決定部が、前記多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定するステップと、
前記終了判定部が、予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記探索評価値計算部による計算、前記パラメタ更新部による更新、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させるステップと、
を含むネットワーク学習方法。 - コンピュータを、請求項1〜請求項3の何れか1項に記載のネットワーク学習装置、又は請求項4に記載の行動決定装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017103087A JP6840363B2 (ja) | 2017-05-24 | 2017-05-24 | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017103087A JP6840363B2 (ja) | 2017-05-24 | 2017-05-24 | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018198012A JP2018198012A (ja) | 2018-12-13 |
JP6840363B2 true JP6840363B2 (ja) | 2021-03-10 |
Family
ID=64663384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017103087A Active JP6840363B2 (ja) | 2017-05-24 | 2017-05-24 | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6840363B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10503174B1 (en) * | 2019-01-31 | 2019-12-10 | StradVision, Inc. | Method and device for optimized resource allocation in autonomous driving on the basis of reinforcement learning using data from lidar, radar, and camera sensor |
CN109960880B (zh) * | 2019-03-26 | 2023-01-03 | 上海交通大学 | 一种基于机器学习的工业机器人避障路径规划方法 |
JP7400371B2 (ja) * | 2019-11-13 | 2023-12-19 | オムロン株式会社 | ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット |
CN113892070B (zh) * | 2020-04-30 | 2024-04-26 | 乐天集团股份有限公司 | 学习装置、信息处理装置、及完成学习的控制模型 |
WO2021220467A1 (ja) * | 2020-04-30 | 2021-11-04 | 楽天株式会社 | 学習装置、情報処理装置、及び学習済の制御モデル |
CN112633591B (zh) * | 2020-12-30 | 2024-06-28 | 成都艾特能电气科技有限责任公司 | 一种基于深度强化学习的空间搜索方法及设备 |
-
2017
- 2017-05-24 JP JP2017103087A patent/JP6840363B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018198012A (ja) | 2018-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6840363B2 (ja) | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム | |
JP6550678B2 (ja) | 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム | |
JP6935550B2 (ja) | 強化学習を使用した環境ナビゲーション | |
JP6963627B2 (ja) | 畳み込みニューラルネットワークのためのニューラルアーキテクチャ検索 | |
CN112937564B (zh) | 换道决策模型生成方法和无人车换道决策方法及装置 | |
Kahn et al. | Uncertainty-aware reinforcement learning for collision avoidance | |
US11627165B2 (en) | Multi-agent reinforcement learning with matchmaking policies | |
EP3788549B1 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
CN110520868B (zh) | 用于分布式强化学习的方法、程序产品和存储介质 | |
JP6884685B2 (ja) | 制御装置、無人システム、制御方法及びプログラム | |
CN112135717B (zh) | 基于像素的模型预测控制的系统和方法 | |
JP7419547B2 (ja) | 学習済み隠れ状態を使用するエージェント制御のためのプランニング | |
WO2020099672A1 (en) | Controlling agents using amortized q learning | |
KR102303126B1 (ko) | 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템 | |
US20220036186A1 (en) | Accelerated deep reinforcement learning of agent control policies | |
US20230330846A1 (en) | Cross-domain imitation learning using goal conditioned policies | |
EP3904973A1 (en) | Device and method for controlling a robot | |
KR20170015454A (ko) | 의도된 타겟을 결정하기 위한 장치 및 방법 | |
Junell et al. | Reinforcement learning applied to a quadrotor guidance law in autonomous flight | |
JP7354460B2 (ja) | ブートストラップされた潜在性の予測を使用するエージェント制御のための学習環境表現 | |
WO2022201796A1 (ja) | 情報処理システムおよび方法、並びにプログラム | |
Paul et al. | Alternating optimisation and quadrature for robust reinforcement learning | |
CN115857323A (zh) | 用于控制代理的设备和方法 | |
US20200304545A1 (en) | Off-policy control policy evaluation | |
Sani et al. | Learning to navigate in 3D virtual environment using Q-learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170707 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190627 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6840363 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |