JP2018198012A - ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム - Google Patents
ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム Download PDFInfo
- Publication number
- JP2018198012A JP2018198012A JP2017103087A JP2017103087A JP2018198012A JP 2018198012 A JP2018198012 A JP 2018198012A JP 2017103087 A JP2017103087 A JP 2017103087A JP 2017103087 A JP2017103087 A JP 2017103087A JP 2018198012 A JP2018198012 A JP 2018198012A
- Authority
- JP
- Japan
- Prior art keywords
- action
- unit
- moving object
- behavior
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 46
- 238000011156 evaluation Methods 0.000 claims abstract description 67
- 238000013528 artificial neural network Methods 0.000 claims abstract description 52
- 230000009471 action Effects 0.000 claims description 162
- 230000006399 behavior Effects 0.000 claims description 77
- 238000004364 calculation method Methods 0.000 claims description 70
- 230000008569 process Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000002787 reinforcement Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 241000282412 Homo Species 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000427202 Adria Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Manipulator (AREA)
Abstract
Description
は、簡単のため、「右に回転」、「左に回転」、「前進」、及び「動かない」の4種類とする。
を
と設定する。
に対して、その行動をとるべきかそうでないかを確率値(以下、「評価値」という。)によりモデル化する。一方、価値関数vは、現在の状態に対する報酬を学習したものとする。つまり、その状態に到達すべきと判断される場合は、高い値となり、そうでない場合は低い値をとる。
を用意する。実態は、πと同等であるが、πと同じものを2つ用意したことに相当する。
を探索用の行動選択の方策
用のモデルパラメタとする。
……(1)
……(2)
のモデルパラメタ
を更新する。
、θπの勾配は下記(3)乃至(5)式で求められる。なお、下記(3)乃至(5)式における価値関数vは、時刻t−iにおける価値関数である。
……(3)
……(4)
……(5)
、θπを更新する。
、θπを記憶する。
を用いた多層ニューラルネットワークの各要素を計算する。
、θπを更新し、更新したモデルパラメタをパラメタ記憶部20に記憶させる。
を用いた多層ニューラルネットワークの各要素を計算する。
12 入力部
14、14a データ取得部
16 探索評価値計算部
18 パラメタ更新部
20 パラメタ記憶部
22、22a 終了判定部
24、24a ネットワーク計算部
26、26a 行動決定部
28、28a 行動制御部
Claims (6)
- 移動物の行動を決定するためのネットワーク学習装置であって、
決定された移動物の行動を行うように前記移動物を制御する行動制御部と、
行動後の前記移動物の環境を表す状態データ、及び行動に対する報酬を取得するデータ取得部と、
前記行動に対する報酬と、前記移動物の環境を表す状態データとに基づいて、前記状態データが過去に経験した状態データに対応しているかどうかを表す探索評価値を計算する探索評価値計算部と、
前記行動に対する報酬と、前記計算された探索評価値とに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークのモデルパラメタを更新するパラメタ更新部と、
前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算するネットワーク計算部と、
前記多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定する行動決定部と、
予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記探索評価値計算部による計算、前記パラメタ更新部による更新、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させる終了判定部と、
を含むネットワーク学習装置。 - 前記探索評価値計算部は、前記行動に対する報酬と、現時点の時刻と、前記移動物の環境を表す状態データに対応する状態データの経験回数とに基づいて、前記探索評価値を計算する請求項1記載のネットワーク学習装置。
- 前記パラメタ更新部は、前記行動に対する報酬に基づいて、前記移動物の行動を決定するための行動決定用の多層ニューラルネットワークのモデルパラメタを更新し、前記計算された探索評価値に基づいて、前記移動物の行動を決定するための探索用の多層ニューラルネットワークのモデルパラメタを更新し、
前記ネットワーク計算部は、前記移動物の環境を表す入力データを入力として、前記探索用の多層ニューラルネットワークの各要素を計算し、
前記行動決定部は、前記探索用の多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定する請求項1又は2記載のネットワーク学習装置。 - 移動物の行動を決定するための行動決定装置であって、
決定された移動物の行動を行うように前記移動物を制御する行動制御部と、
行動後の前記移動物の環境を表す状態データを取得するデータ取得部と、
前記移動物の環境を表す入力データを入力として、請求項3記載のネットワーク学習装置によって得られた前記行動決定用の多層ニューラルネットワークの各要素を計算するネットワーク計算部と、
前記行動決定用の多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定する行動決定部と、
予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させる終了判定部と、
を含む行動決定装置。 - 行動制御部、データ取得部、探索評価値計算部、パラメタ更新部、ネットワーク計算部、行動決定部、及び終了判定部を含む、移動物の行動を決定するためのネットワーク学習装置であって、
前記行動制御部が、決定された移動物の行動を行うように前記移動物を制御するステップと、
データ取得部が、行動後の前記移動物の環境を表す状態データ、及び行動に対する報酬を取得するデータ取得部と、
前記探索評価値計算部が、前記行動に対する報酬と、前記移動物の環境を表す状態データとに基づいて、前記状態データが過去に経験した状態データに対応しているかどうかを表す探索評価値を計算するステップと、
前記パラメタ更新部が、前記行動に対する報酬と、前記計算された探索評価値とに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークのモデルパラメタを更新するステップと、
前記ネットワーク計算部が、前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算するステップと、
前記行動決定部が、前記多層ニューラルネットワークの出力層の値に基づいて、前記移動物の行動を決定するステップと、
前記終了判定部が、予め定められた反復終了条件を満たすまで、前記行動制御部による制御、前記データ取得部による取得、前記探索評価値計算部による計算、前記パラメタ更新部による更新、前記ネットワーク計算部による計算、及び前記行動決定部による決定を繰り返させるステップと、
を含むネットワーク学習方法。 - コンピュータを、請求項1〜請求項3の何れか1項に記載のネットワーク学習装置、又は請求項4に記載の行動決定装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017103087A JP6840363B2 (ja) | 2017-05-24 | 2017-05-24 | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017103087A JP6840363B2 (ja) | 2017-05-24 | 2017-05-24 | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018198012A true JP2018198012A (ja) | 2018-12-13 |
JP6840363B2 JP6840363B2 (ja) | 2021-03-10 |
Family
ID=64663384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017103087A Active JP6840363B2 (ja) | 2017-05-24 | 2017-05-24 | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6840363B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109960880A (zh) * | 2019-03-26 | 2019-07-02 | 上海交通大学 | 一种基于机器学习的工业机器人避障路径规划方法 |
JP2020125102A (ja) * | 2019-01-31 | 2020-08-20 | 株式会社ストラドビジョンStradvision,Inc. | ライダ、レーダ及びカメラセンサのデータを使用する強化学習に基づく自律走行時の最適化されたリソース割当てのための方法及び装置 |
CN112633591A (zh) * | 2020-12-30 | 2021-04-09 | 成都艾特能电气科技有限责任公司 | 一种基于深度强化学习的空间搜索方法及设备 |
JP2021077286A (ja) * | 2019-11-13 | 2021-05-20 | オムロン株式会社 | ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット |
JP6950117B1 (ja) * | 2020-04-30 | 2021-10-13 | 楽天グループ株式会社 | 学習装置、情報処理装置、及び学習済の制御モデル |
WO2021220467A1 (ja) * | 2020-04-30 | 2021-11-04 | 楽天株式会社 | 学習装置、情報処理装置、及び学習済の制御モデル |
-
2017
- 2017-05-24 JP JP2017103087A patent/JP6840363B2/ja active Active
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020125102A (ja) * | 2019-01-31 | 2020-08-20 | 株式会社ストラドビジョンStradvision,Inc. | ライダ、レーダ及びカメラセンサのデータを使用する強化学習に基づく自律走行時の最適化されたリソース割当てのための方法及び装置 |
CN109960880A (zh) * | 2019-03-26 | 2019-07-02 | 上海交通大学 | 一种基于机器学习的工业机器人避障路径规划方法 |
CN109960880B (zh) * | 2019-03-26 | 2023-01-03 | 上海交通大学 | 一种基于机器学习的工业机器人避障路径规划方法 |
JP2021077286A (ja) * | 2019-11-13 | 2021-05-20 | オムロン株式会社 | ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット |
WO2021095464A1 (ja) * | 2019-11-13 | 2021-05-20 | オムロン株式会社 | ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット |
JP7400371B2 (ja) | 2019-11-13 | 2023-12-19 | オムロン株式会社 | ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット |
JP6950117B1 (ja) * | 2020-04-30 | 2021-10-13 | 楽天グループ株式会社 | 学習装置、情報処理装置、及び学習済の制御モデル |
WO2021220467A1 (ja) * | 2020-04-30 | 2021-11-04 | 楽天株式会社 | 学習装置、情報処理装置、及び学習済の制御モデル |
WO2021220528A1 (ja) * | 2020-04-30 | 2021-11-04 | 楽天グループ株式会社 | 学習装置、情報処理装置、及び学習済の制御モデル |
CN113892070A (zh) * | 2020-04-30 | 2022-01-04 | 乐天集团股份有限公司 | 学习装置、信息处理装置、及完成学习的控制模型 |
CN113892070B (zh) * | 2020-04-30 | 2024-04-26 | 乐天集团股份有限公司 | 学习装置、信息处理装置、及完成学习的控制模型 |
CN112633591A (zh) * | 2020-12-30 | 2021-04-09 | 成都艾特能电气科技有限责任公司 | 一种基于深度强化学习的空间搜索方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
JP6840363B2 (ja) | 2021-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6840363B2 (ja) | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム | |
JP6550678B2 (ja) | 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム | |
JP6963627B2 (ja) | 畳み込みニューラルネットワークのためのニューラルアーキテクチャ検索 | |
JP6935550B2 (ja) | 強化学習を使用した環境ナビゲーション | |
JP6926203B2 (ja) | 補助タスクを伴う強化学習 | |
Kahn et al. | Uncertainty-aware reinforcement learning for collision avoidance | |
CN110520868B (zh) | 用于分布式强化学习的方法、程序产品和存储介质 | |
US11263531B2 (en) | Unsupervised control using learned rewards | |
KR102590411B1 (ko) | 로봇 에이전트용 제어 정책 | |
US11627165B2 (en) | Multi-agent reinforcement learning with matchmaking policies | |
EP3788549B1 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
JP2021513128A (ja) | 方策オフ型アクタークリティック強化学習を使用する分散型の訓練 | |
CN112135717B (zh) | 基于像素的模型预测控制的系统和方法 | |
JP7419547B2 (ja) | 学習済み隠れ状態を使用するエージェント制御のためのプランニング | |
JP7448683B2 (ja) | マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション | |
KR102303126B1 (ko) | 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템 | |
US20220036186A1 (en) | Accelerated deep reinforcement learning of agent control policies | |
EP3616128A1 (en) | Batched reinforcement learning | |
JP7354460B2 (ja) | ブートストラップされた潜在性の予測を使用するエージェント制御のための学習環境表現 | |
EP3788554B1 (en) | Imitation learning using a generative predecessor neural network | |
KR20230157488A (ko) | 가중 정책 프로젝션을 사용한 다중 목적 강화 학습 | |
CN114047745A (zh) | 机器人运动控制方法、机器人、计算机装置和存储介质 | |
US20220176554A1 (en) | Method and device for controlling a robot | |
JP2024519271A (ja) | 弁別器モデルの集合を使用した強化学習 | |
JP2024522051A (ja) | 重み付けされたポリシー投影を使用した多目的強化学習 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170707 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190627 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6840363 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |