JP2005078516A - 並列学習装置、並列学習方法及び並列学習プログラム - Google Patents
並列学習装置、並列学習方法及び並列学習プログラム Download PDFInfo
- Publication number
- JP2005078516A JP2005078516A JP2003310383A JP2003310383A JP2005078516A JP 2005078516 A JP2005078516 A JP 2005078516A JP 2003310383 A JP2003310383 A JP 2003310383A JP 2003310383 A JP2003310383 A JP 2003310383A JP 2005078516 A JP2005078516 A JP 2005078516A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- action
- parallel
- action policy
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Feedback Control In General (AREA)
Abstract
【解決手段】 状態取得部11は、センサ部1により検出された外界の状態を取得し、各学習器21〜2nは、取得された外界の状態に基づいて同時に学習した学習結果から行動方策を決定し、確率的選択器12は、決定された複数の行動方策の中から各学習器21〜2nの学習性能に基づいて一の行動方策を切り替え器13を用いて選択し、アクチュエータ部3は、選択された行動方策に従う行動を実行する。
【選択図】 図1
Description
エス ピー シン(S. P. Singh)、「エレメンタルシーケンシャルタスクの解法の組み立てによる学習転送」(Transfer of learning by composing solutions of elemental sequential tasks)、マシンラーニング(Machine Learning)、1992年、vol.3、p.9−p.44 ケイ ドウヤ(K. Doya)他、「複数モデルに基づく強化学習」(Multiple Model-Based Reinforcement Learning)、ニューラルコンピューテーション(Neural Computation)、2002年、vol.14、p.1347−p.1369
2 並列学習装置
3 アクチュエータ部
11 状態取得部
12 確率的選択器
13 切り替え器
21〜2n,21a学習器
31,31a 補正器
32,32a 価値関数部
33,33a 制御器
34 外部メモリ
Claims (9)
- 与えられたタスクを達成するための行動方策を学習する並列学習装置であって、
外界の状態を取得する取得手段と、
前記取得手段により取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する複数の学習手段と、
前記複数の学習手段が決定した複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択手段とを備えることを特徴とする並列学習装置。 - 前記複数の学習手段の各々は、当該学習手段が決定した行動方策と前記選択手段により選択された行動方策との類似度に応じて重み付けを行い、学習に用いるパラメータを補正することを特徴とする請求項1記載の並列学習装置。
- 前記複数の学習手段の各々は、重点サンプリング法を用いて前記重み付けを行うことを特徴とする請求項2記載の並列学習装置。
- 前記選択手段は、前記複数の学習手段が決定した複数の行動方策の中から学習性能に基づいて一の行動方策を確率的に選択することを特徴とする請求項1〜3のいずれかに記載の並列学習装置。
- 前記複数の学習手段の各々は、状態表現及び学習方法の少なくとも一方が他の学習手段と異なることを特徴とする請求項1〜4のいずれかに記載の並列学習装置。
- 前記複数の学習手段の各々は、
前記取得手段により取得された外界の状態に基づいて、所定のパラメータを用いて学習性能を評価するための価値関数を算出する算出手段と、
前記取得手段により取得された外界の状態及び前記算出手段により算出された価値関数に基づいて行動方策を決定する決定手段と、
前記取得手段により取得された外界の状態、前記決定手段により決定された行動方策及び前記選択手段により選択された行動方策に基づいて前記算出手段のパラメータを補正する補正手段とを備えることを特徴とする請求項1〜5のいずれかに記載の並列学習装置。 - 前記複数の学習手段のうちの少なくとも一の学習手段は、前記決定手段により決定された行動方策を記憶する記憶手段をさらに備えることを特徴とする請求項6記載の並列学習装置。
- 取得手段、複数の学習手段及び選択手段を備える並列学習装置を用いて、与えられたタスクを達成するための行動方策を学習する並列学習方法であって、
前記取得手段が、外界の状態を取得する取得ステップと、
前記複数の学習手段が、前記取得ステップにおいて取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する学習ステップと、
前記選択手段が、前記学習ステップにおいて決定された複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択ステップとを含むことを特徴とする並列学習方法。 - 与えられたタスクを達成するための行動方策を学習するための並列学習プログラムであって、
外界の状態を取得する取得手段と、
前記取得手段により取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する複数の学習手段と、
前記複数の学習手段が決定した複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択手段としてコンピュータを機能させることを特徴とする並列学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003310383A JP3703821B2 (ja) | 2003-09-02 | 2003-09-02 | 並列学習装置、並列学習方法及び並列学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003310383A JP3703821B2 (ja) | 2003-09-02 | 2003-09-02 | 並列学習装置、並列学習方法及び並列学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005078516A true JP2005078516A (ja) | 2005-03-24 |
JP3703821B2 JP3703821B2 (ja) | 2005-10-05 |
Family
ID=34412270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003310383A Expired - Fee Related JP3703821B2 (ja) | 2003-09-02 | 2003-09-02 | 並列学習装置、並列学習方法及び並列学習プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3703821B2 (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008000883A (ja) * | 2006-06-22 | 2008-01-10 | Honda Research Inst Europe Gmbh | ロボットの対話型挙動の制御 |
JP2008537271A (ja) * | 2006-07-13 | 2008-09-11 | ビ−エイイ− システムズ パブリック リミテッド カンパニ− | コントローラ |
JP2009110256A (ja) * | 2007-10-30 | 2009-05-21 | Hitachi Ltd | プラントの制御装置および火力発電プラントの制御装置 |
JP2010134907A (ja) * | 2008-11-04 | 2010-06-17 | Honda Motor Co Ltd | 強化学習システム |
JP2010287131A (ja) * | 2009-06-12 | 2010-12-24 | Honda Motor Co Ltd | 学習制御ステム及び学習制御方法 |
JP2011008613A (ja) * | 2009-06-26 | 2011-01-13 | Fuji Heavy Ind Ltd | オンラインリスク学習システム |
JP2014123272A (ja) * | 2012-12-21 | 2014-07-03 | Fujitsu Ltd | シミュレーション方法、プログラム、及び情報処理システム |
JP2017030088A (ja) * | 2015-07-31 | 2017-02-09 | ファナック株式会社 | 機械学習装置、ネジ締付システムおよびその制御装置 |
JP2017107902A (ja) * | 2015-12-07 | 2017-06-15 | ファナック株式会社 | コアシートの積層動作を学習する機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法 |
JP2018014838A (ja) * | 2016-07-21 | 2018-01-25 | ファナック株式会社 | モータの電流指令を学習する機械学習器,モータ制御装置および機械学習方法 |
US20180181089A1 (en) * | 2016-12-27 | 2018-06-28 | Hitachi, Ltd. | Control device and control method |
KR20190062184A (ko) * | 2017-11-27 | 2019-06-05 | 고려대학교 산학협력단 | 보행자 상태 기반의 보행자와 차량간 충돌 경고 시스템 및 그 방법 |
-
2003
- 2003-09-02 JP JP2003310383A patent/JP3703821B2/ja not_active Expired - Fee Related
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008000883A (ja) * | 2006-06-22 | 2008-01-10 | Honda Research Inst Europe Gmbh | ロボットの対話型挙動の制御 |
JP2008537271A (ja) * | 2006-07-13 | 2008-09-11 | ビ−エイイ− システムズ パブリック リミテッド カンパニ− | コントローラ |
JP4875080B2 (ja) * | 2006-07-13 | 2012-02-15 | ビ−エイイ− システムズ パブリック リミテッド カンパニ− | コントローラ |
JP2009110256A (ja) * | 2007-10-30 | 2009-05-21 | Hitachi Ltd | プラントの制御装置および火力発電プラントの制御装置 |
JP2010134907A (ja) * | 2008-11-04 | 2010-06-17 | Honda Motor Co Ltd | 強化学習システム |
US8392346B2 (en) | 2008-11-04 | 2013-03-05 | Honda Motor Co., Ltd. | Reinforcement learning system |
JP2010287131A (ja) * | 2009-06-12 | 2010-12-24 | Honda Motor Co Ltd | 学習制御ステム及び学習制御方法 |
JP2011008613A (ja) * | 2009-06-26 | 2011-01-13 | Fuji Heavy Ind Ltd | オンラインリスク学習システム |
JP2014123272A (ja) * | 2012-12-21 | 2014-07-03 | Fujitsu Ltd | シミュレーション方法、プログラム、及び情報処理システム |
JP2017030088A (ja) * | 2015-07-31 | 2017-02-09 | ファナック株式会社 | 機械学習装置、ネジ締付システムおよびその制御装置 |
JP2017107902A (ja) * | 2015-12-07 | 2017-06-15 | ファナック株式会社 | コアシートの積層動作を学習する機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法 |
US10500721B2 (en) | 2015-12-07 | 2019-12-10 | Fanuc Corporation | Machine learning device, laminated core manufacturing apparatus, laminated core manufacturing system, and machine learning method for learning operation for stacking core sheets |
JP2018014838A (ja) * | 2016-07-21 | 2018-01-25 | ファナック株式会社 | モータの電流指令を学習する機械学習器,モータ制御装置および機械学習方法 |
US10305413B2 (en) | 2016-07-21 | 2019-05-28 | Fanuc Corporation | Machine learning device which learns current command for motor, motor controller, and machine learning method |
US20180181089A1 (en) * | 2016-12-27 | 2018-06-28 | Hitachi, Ltd. | Control device and control method |
KR20190062184A (ko) * | 2017-11-27 | 2019-06-05 | 고려대학교 산학협력단 | 보행자 상태 기반의 보행자와 차량간 충돌 경고 시스템 및 그 방법 |
KR102099265B1 (ko) * | 2017-11-27 | 2020-05-15 | 고려대학교 산학협력단 | 보행자 상태 기반의 보행자와 차량간 충돌 경고 시스템 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP3703821B2 (ja) | 2005-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhelo et al. | Curiosity-driven exploration for mapless navigation with deep reinforcement learning | |
CN111515961B (zh) | 一种适用于移动机械臂的强化学习奖励方法 | |
Pong et al. | Offline meta-reinforcement learning with online self-supervision | |
US11235461B2 (en) | Controller and machine learning device | |
CN113826051A (zh) | 生成实体系统零件之间的交互的数字孪生 | |
JP6744208B2 (ja) | 制御装置及び制御方法 | |
JP3703821B2 (ja) | 並列学習装置、並列学習方法及び並列学習プログラム | |
JP2023504220A (ja) | 軌道中心モデルに基づく強化学習のロバスト最適化を行うためのシステムおよび方法 | |
Kartoun et al. | A human-robot collaborative reinforcement learning algorithm | |
JP7458741B2 (ja) | ロボット制御装置及びその制御方法及びプログラム | |
CN115917564A (zh) | 用于学习可重用选项以在任务之间传递知识的系统和方法 | |
JP7493554B2 (ja) | Few-shot模倣のためのデモンストレーション条件付き強化学習 | |
CN114518751B (zh) | 基于最小二乘截断时域差分学习的路径规划决策优化方法 | |
JP2006320997A (ja) | ロボット行動選択装置及びロボット行動選択方法 | |
CN109693239A (zh) | 一种基于深度强化学习的机器人抓取方法 | |
CN115019185B (zh) | 类脑连续学习协同围捕方法、系统及介质 | |
Bakker et al. | Quasi-online reinforcement learning for robots | |
Hu et al. | Incremental learning framework for autonomous robots based on q-learning and the adaptive kernel linear model | |
CN113614743A (zh) | 用于操控机器人的方法和设备 | |
Caarls et al. | Parallel online temporal difference learning for motor control | |
JP2021192141A (ja) | 学習装置、学習方法、および学習プログラム | |
CN114529010A (zh) | 一种机器人自主学习方法、装置、设备及存储介质 | |
Ding et al. | Learning to ground objects for robot task and motion planning | |
Gromniak et al. | Deep reinforcement learning for mobile robot navigation | |
US11628562B2 (en) | Method, device and computer program for producing a strategy for a robot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050412 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050720 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090729 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090729 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100729 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100729 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110729 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |