JP2011065553A - 学習制御システム及び学習制御方法 - Google Patents
学習制御システム及び学習制御方法 Download PDFInfo
- Publication number
- JP2011065553A JP2011065553A JP2009217454A JP2009217454A JP2011065553A JP 2011065553 A JP2011065553 A JP 2011065553A JP 2009217454 A JP2009217454 A JP 2009217454A JP 2009217454 A JP2009217454 A JP 2009217454A JP 2011065553 A JP2011065553 A JP 2011065553A
- Authority
- JP
- Japan
- Prior art keywords
- value
- state
- action
- behavior
- update
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Feedback Control In General (AREA)
Abstract
【解決手段】学習制御システムは、状態Siに対応する行動価値Oiの更新量を求める第1の学習器103と、状態Siをさらに分割した状態Si,jに対応する行動価値Oi,jの更新量を求める第2の学習器105と、第1及び第2の学習器による行動価値の更新量の、行動価値の空間(Oi,Oi,j)における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新する行動価値決定器107とを備えている。
【選択図】図4
Description
O1(a1)+O11(a1)
であり、個の値は、ほぼ10である。この値は、報酬の値r1に対応する。他方、状態S2においてa1の行動を行う価値は、
O1(a1)+O12(a1)
であり、この値は、ほぼ1である。この値は、報酬の値r2に対応する。
Claims (8)
- 装置の状態を複数の状態のいずれかに分類し、状態ごとに求めた行動価値に基づいて行動を選択し実行する装置において、行動価値を更新する学習制御システムであって、
状態Siに対応する行動価値Oiの更新量を求める第1の学習器と、
状態Siをさらに分割した状態Si,jに対応する行動価値Oi,jの更新量を求める第2の学習器と、
第1及び第2の学習器による行動価値の更新量の、行動価値の空間(Oi,Oi,j)における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新する行動価値決定器と、を備え、
iは1からNまでの整数であるとして、前記行動価値決定器は、所定のiに属する状態Si,j及び行動に対応して更新されるN個のフィッシャーの逆行列の内、更新される行動価値の更新量に対応するフィッシャーの逆行列を使用して勾配を変換する学習制御システム。 - フィッシャーの逆行列の発散防止処理が行われる請求項1に記載の学習制御システム。
- 更新ごとの更新量の大きさが大きく変化しないように更新量の調整が行われる請求項2に記載の学習制御システム。
- 装置の状態を複数の状態のいずれかに分類し、状態ごとに求めた行動価値に基づいて行動を選択し実行する装置において、行動価値を学習する学習制御システムであって、
複数の階層的な状態分類に対応する複数の行動価値の更新量をそれぞれ求める複数の学習器と、
前記複数の学習器による前記複数の行動価値の更新量の、行動価値の空間における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新する行動価値決定器と、を備え、
前記行動価値決定器は、所定の個数に分類された状態及び行動に対応して更新される、前記所定の個数のフィッシャーの逆行列の内、更新される行動価値の更新量に対応するフィッシャーの逆行列を使用して勾配を変換する学習制御システム。 - 装置の状態を複数の状態のいずれかに分類し、状態ごとに求めた行動価値に基づいて行動を選択し実行する装置において、行動価値を学習する学習制御方法であって、
状態Siに対応する行動価値Oiの更新量を求めるステップと、
状態Siをさらに分割した状態Si,jに対応する行動価値Oi,jの更新量を求めるステップと、
行動価値Oiの更新量及び行動価値Oi,jの更新量の、行動価値の空間(Oi,Oi,j)における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新するステップと、含み、
前記行動価値を更新するステップにおいて、iは1からNまでの整数であるとして、所定のiに属する状態Si,j及び行動に対応して更新されるN個のフィッシャーの逆行列の内、更新される行動価値の更新量に対応するフィッシャーの逆行列を使用して勾配を変換する学習制御方法。 - フィッシャーの逆行列の発散防止処理が行われる請求項5に記載の学習制御方法。
- 更新ごとの更新量の大きさが大きく変化しないように更新量の調整が行われる請求項6に記載の学習制御方法。
- 装置の状態を複数の状態のいずれかに分類し、状態ごとに求めた行動価値に基づいて行動を選択し実行する装置において、行動価値を学習する学習制御方法であって、
複数の階層的な状態分類に対応して複数の行動価値の更新量を求めるステップと、
前記複数の行動価値の更新量の、行動価値の空間における勾配を自然勾配法の勾配へ変換し、更新前の行動価値に加算することによって行動価値を更新するステップと、を含み、
前記行動価値を更新するステップにおいて、所定の個数に分類された状態及び行動に対応して更新される、前記所定の個数のフィッシャーの逆行列の内、更新される行動価値の更新量に対応するフィッシャーの逆行列を使用して勾配を変換する学習制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009217454A JP5405252B2 (ja) | 2009-09-18 | 2009-09-18 | 学習制御システム及び学習制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009217454A JP5405252B2 (ja) | 2009-09-18 | 2009-09-18 | 学習制御システム及び学習制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011065553A true JP2011065553A (ja) | 2011-03-31 |
JP5405252B2 JP5405252B2 (ja) | 2014-02-05 |
Family
ID=43951702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009217454A Expired - Fee Related JP5405252B2 (ja) | 2009-09-18 | 2009-09-18 | 学習制御システム及び学習制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5405252B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103970156A (zh) * | 2014-05-22 | 2014-08-06 | 杭州劲力节能科技有限公司 | 一种真空制盐循环水系统在线自学习寻优控制系统 |
JP2014519118A (ja) * | 2011-05-31 | 2014-08-07 | アー・ファウ・エル・リスト・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング | 機械に実装される、テストランの間に非線形ダイナミック実システムからデータを取得する方法 |
CN104932264A (zh) * | 2015-06-03 | 2015-09-23 | 华南理工大学 | 基于rbf网络的q学习框架仿人机器人稳定控制方法 |
JP2018097810A (ja) * | 2016-12-16 | 2018-06-21 | ファナック株式会社 | ロボットおよびレーザスキャナの動作を学習する機械学習装置,ロボットシステムおよび機械学習方法 |
CN110712201A (zh) * | 2019-09-20 | 2020-01-21 | 同济大学 | 基于感知器模型的机器人多关节自适应补偿方法和稳定器 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065929A (ja) * | 2005-08-30 | 2007-03-15 | Okinawa Institute Of Science & Technology | 制御器、制御方法および制御プログラム |
-
2009
- 2009-09-18 JP JP2009217454A patent/JP5405252B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065929A (ja) * | 2005-08-30 | 2007-03-15 | Okinawa Institute Of Science & Technology | 制御器、制御方法および制御プログラム |
Non-Patent Citations (6)
Title |
---|
CSNG200800559005; 森村 哲郎, 他3名: '自然方策こう配法:平均報酬の自然こう配に基づく方策探索' 電子情報通信学会論文誌 第J91-D巻, 第6号, 20080601, p.1515-1527, 社団法人電子情報通信学会 * |
CSNG200800695013; 西村 佳也, 他1名: '適応的自然勾配法の特異モデル学習への適用' 電子情報通信学会技術研究報告 第108巻, 第101号, 20080619, p.69-73, 社団法人電子情報通信学会 * |
CSNG200801090002; 五十嵐 治一, 他1名: '方策勾配法における状態空間の階層化の一考察' 人工知能学会 第27回SIG-Challenge研究会 , 20080502, p.7-12, 社団法人人工知能学会AIチャレンジ研究会 * |
JPN6013041104; 森村 哲郎, 他3名: '自然方策こう配法:平均報酬の自然こう配に基づく方策探索' 電子情報通信学会論文誌 第J91-D巻, 第6号, 20080601, p.1515-1527, 社団法人電子情報通信学会 * |
JPN6013041107; 五十嵐 治一, 他1名: '方策勾配法における状態空間の階層化の一考察' 人工知能学会 第27回SIG-Challenge研究会 , 20080502, p.7-12, 社団法人人工知能学会AIチャレンジ研究会 * |
JPN6013041110; 西村 佳也, 他1名: '適応的自然勾配法の特異モデル学習への適用' 電子情報通信学会技術研究報告 第108巻, 第101号, 20080619, p.69-73, 社団法人電子情報通信学会 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014519118A (ja) * | 2011-05-31 | 2014-08-07 | アー・ファウ・エル・リスト・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング | 機械に実装される、テストランの間に非線形ダイナミック実システムからデータを取得する方法 |
US9404833B2 (en) | 2011-05-31 | 2016-08-02 | Avl List Gmbh | Machine-implemented method for obtaining data from a nonlinear dynamic real system during a test run |
CN103970156A (zh) * | 2014-05-22 | 2014-08-06 | 杭州劲力节能科技有限公司 | 一种真空制盐循环水系统在线自学习寻优控制系统 |
CN103970156B (zh) * | 2014-05-22 | 2016-04-27 | 杭州劲力节能科技有限公司 | 一种真空制盐循环水系统在线自学习寻优控制系统 |
CN104932264A (zh) * | 2015-06-03 | 2015-09-23 | 华南理工大学 | 基于rbf网络的q学习框架仿人机器人稳定控制方法 |
CN104932264B (zh) * | 2015-06-03 | 2018-07-20 | 华南理工大学 | 基于rbf网络的q学习框架仿人机器人稳定控制方法 |
JP2018097810A (ja) * | 2016-12-16 | 2018-06-21 | ファナック株式会社 | ロボットおよびレーザスキャナの動作を学習する機械学習装置,ロボットシステムおよび機械学習方法 |
US10780577B2 (en) | 2016-12-16 | 2020-09-22 | Fanuc Corporation | Machine learning device, robot system, and machine learning method for learning operations of robot and laser scanner |
CN110712201A (zh) * | 2019-09-20 | 2020-01-21 | 同济大学 | 基于感知器模型的机器人多关节自适应补偿方法和稳定器 |
CN110712201B (zh) * | 2019-09-20 | 2022-09-16 | 同济大学 | 基于感知器模型的机器人多关节自适应补偿方法和稳定器 |
Also Published As
Publication number | Publication date |
---|---|
JP5405252B2 (ja) | 2014-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019537132A (ja) | アクション選択ニューラルネットワークをトレーニングすること | |
US10733501B2 (en) | Environment prediction using reinforcement learning | |
US10380479B2 (en) | Acceleration of convolutional neural network training using stochastic perforation | |
US11861474B2 (en) | Dynamic placement of computation sub-graphs | |
US10635975B2 (en) | Method and apparatus for machine learning | |
JP5346701B2 (ja) | 学習制御システム及び学習制御方法 | |
KR102185865B1 (ko) | 신경 네트워크들을 사용하여 이미지들 생성하기 | |
JP5405252B2 (ja) | 学習制御システム及び学習制御方法 | |
JP2020506488A (ja) | バッチ再正規化層 | |
KR20220134627A (ko) | 하드웨어-최적화된 신경 아키텍처 검색 | |
JP7073171B2 (ja) | 学習装置、学習方法及びプログラム | |
WO2020218246A1 (ja) | 最適化装置、最適化方法、及びプログラム | |
US8190536B2 (en) | Method of performing parallel search optimization | |
WO2020023483A1 (en) | Continuous parametrizations of neural network layer weights | |
CN106815858A (zh) | 一种运动目标提取方法及装置 | |
CN110046338B (zh) | 一种上下文选择方法、装置、电子设备及存储介质 | |
JP2021082014A (ja) | 推定装置、訓練装置、推定方法、訓練方法、プログラム及び非一時的コンピュータ可読媒体 | |
US20210117793A1 (en) | Data processing system and data processing method | |
JP7093527B2 (ja) | 情報処理装置、方法、プログラム及びシステム | |
US10460206B2 (en) | Differentiating physical and non-physical events | |
JP2006318319A (ja) | 学習装置及び学習方法、並びにコンピュータ・プログラム | |
JP2023028232A (ja) | 学習装置および学習方法 | |
JP2023099938A (ja) | 学習装置、学習システムおよび学習方法 | |
JP5589522B2 (ja) | 情報処理装置及びプログラム | |
CN105096247A (zh) | 图像插值方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120911 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20121029 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20121029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130820 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130913 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131008 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131030 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5405252 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |