JP2018151876A - 機械学習に使用される経験を格納する経験データベースを更新する方法 - Google Patents
機械学習に使用される経験を格納する経験データベースを更新する方法 Download PDFInfo
- Publication number
- JP2018151876A JP2018151876A JP2017047791A JP2017047791A JP2018151876A JP 2018151876 A JP2018151876 A JP 2018151876A JP 2017047791 A JP2017047791 A JP 2017047791A JP 2017047791 A JP2017047791 A JP 2017047791A JP 2018151876 A JP2018151876 A JP 2018151876A
- Authority
- JP
- Japan
- Prior art keywords
- experience
- robot
- experiences
- similarity
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000010801 machine learning Methods 0.000 title claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 59
- 230000006399 behavior Effects 0.000 claims abstract description 22
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 238000013210 evaluation model Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 abstract description 7
- 238000005070 sampling Methods 0.000 abstract description 3
- 230000009471 action Effects 0.000 description 56
- 238000001914 filtration Methods 0.000 description 46
- 238000004088 simulation Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 206010048669 Terminal state Diseases 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 101100228469 Caenorhabditis elegans exp-1 gene Proteins 0.000 description 3
- 238000005293 physical law Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Manipulator (AREA)
Abstract
Description
図1から12を参照して実施形態1を説明する。学習システムは、サーバ100を含む。サーバ100は、仮想環境を実行する。仮想環境は、実世界環境をシミュレートし、ロボットが仮想環境において行動を取ることを学習できるようにする。経験フィルタリングプログラムは、メモリ内の他の既存の経験との類似度に基づいて、新しい経験をメモリに格納するか決定する。仮想環境により効率的にロボットの経験を収集することができる。なお、システム設計により、実環境においてロボットを動作させて経験を収集してもよい。
ssは元の状態のリストを示す。
aaは元の状態においてロボットが取る行動のリストを示す。
rrは新しい状態におけるロボットの報酬のリストを示す。
ss´はロボットが行動を取った後の新しい状態のリストを示す。
そうでない場合、tt=rr+γmax[Q(ss´、aa´)]である。
ここで、ttはターゲット値、γは割引率である。
γは、0から1の間で予め開発者に設定される(例えば0.9)。
E()は、ユークリッド距離であり、0から1までの値となるように規格化される。
D(x,y)は、xがyに等しい場合に0、他の場合に1を示す。
M1.s、M2.sは、新たしい経験と他の経験の元の状態を示す。
M1.a、M2.aは、新たしい経験と他の経験の行動を示す。
M1.r、M2.rは、新たしい経験と他の経験の報酬を示す。
M1.s’、M2.s’ は、新たしい経験と他の経験の次の状態を示す。
S(M1,M2)は、経験M1と経験M2の類似度を示し、0から1までの値となる。
nは、メモリデータベースに格納されている既存経験の数を示す。
Mnewは、新しい経験を示す。
Miは、メモリデータベースに格納されている既存経験を示す。
実施形態2を、図12を参照して説明する。実施形態1において、経験フィルタリング部1250は、経験インデックスに基づき、最も古い経験をメモリデータベース131から削除する。この方法は、他の経験と類似度が低い経験がメモリデータベース131において最も古い場合、その経験を削除する。これを回避するため、経験フィルタリング部1250は、メモリデータベース131における経験の多様性を維持又は増すように、メモリデータベース131における経験を削除するように構成される。
S*iは、メモリデータベースにおける経験iのトータル類似度である。
nは、メモリデータベースにおける経験の総数である。
Index_to_delete = arg max(S*i) (5)
図13から16を参照して、実施形態3を説明する。実施形態2において、経験フィルタリング部1250は、新しい経験を格納するときにメモリデータベース131が一杯である場合に、メモリデータベース131内の各経験のトータル類似度を計算して、最もトータル類似度が高い経験を決定する。しかしメモリサイズが大きい場合、経験ペアの類似度の計算量が非常に多くなる。実施形態3は類似度マトリックスを使用し、経験フィルタリング部1250が、毎回、全ての経験ペアの類似度の計算を行うよりも効率的な処理を可能とする。
Index_to_delete = arg max(Similarity_Matrix.Total) (6)
実施形態1において、仮想ロボットは、仮想世界において行動を取る方法を学習する。実施形態4は、仮想ロボットが仮想世界で学習したことを現実に適用するため、現実のロボット端末をさらに含み、通信インタフェースを介してサーバに接続する。
Claims (10)
- 機械学習に使用される経験を格納する経験データベース、を更新する方法であって、
エージェントの新しい経験を取得し、
前記新しい経験と経験データベースから取得された1以上の過去の経験との間の、類似度を決定し、
前記経験データベースは、機械学習において、前記エージェントの行動の評価値を決定する評価モデルを学習するために使用され、
前記類似度に基づいて、前記新しい経験を前記経験データベースに格納するか決定する、方法。 - 請求項1に記載の方法であって、
前記新しい経験と前記経験データベースに格納されている全経験それぞれとの間の類似度の総計に基づいて、前記新しい経験を前記経験データベースに格納するか決定する、方法。 - 請求項1に記載の方法であって、
前記経験データベースに格納されている既存経験の数が規定数に達している場合に、前記類似度に基づいて、前記新しい経験を前記経験データベースに格納するか決定する、方法。 - 請求項1に記載の方法であって、
前記類似度と乱数とに基づいて、前記新しい経験を前記経験データベースに格納するか決定する、方法。 - 請求項1に記載の方法であって、
前記経験データベースに格納されている既存経験の数が規定数に達している場合に、前記既存経験の格納順に基づいて、前記既存経験から削除する経験を選択する、方法。 - 請求項1に記載の方法であって、
前記経験データベースに格納されている既存経験の数が規定数に達している場合に、前記既存経験間の類似度に基づいて、前記既存経験から削除する経験を選択する、方法。 - 請求項6に記載の方法であって、
前記既存経験間の類似度を示すテーブルを参照して、前記既存経験間の類似度を決定し、
前記経験データベースの更新に応じて、前記テーブルを更新する、方法。 - 請求項1に記載の方法であって、
前記エージェントは仮想環境におけるロボットであり、
ニューラルネットワークに基づいて、前記仮想環境において前記ロボットの行動を決定し、
前記新しい経験は、前記ロボットの前記行動による経験であり、
前記経験データベースからサンプリングした経験を使用して、バックプロパゲーションにより、前記ニューラルネットワークのパラメータを更新する、方法。 - 請求項8に記載の方法であって、
実ロボット端末に、前記ニューラルネットワークのパラメータを送信する、方法。 - 学習システムであって、
記憶装置と、
プロセッサと、
前記記憶装置は、経験データベースを格納し、
前記経験データベースは、機械学習において、エージェントの行動の評価値を決定する評価モデルを学習するために使用され、
前記プロセッサは、
前記エージェントの新しい経験を取得し、
前記新しい経験と前記経験データベースから取得された1以上の過去の経験との間の、類似度を決定し、
前記類似度に基づいて、前記新しい経験を前記経験データベースに格納するか決定する、学習システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017047791A JP2018151876A (ja) | 2017-03-13 | 2017-03-13 | 機械学習に使用される経験を格納する経験データベースを更新する方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017047791A JP2018151876A (ja) | 2017-03-13 | 2017-03-13 | 機械学習に使用される経験を格納する経験データベースを更新する方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018151876A true JP2018151876A (ja) | 2018-09-27 |
JP2018151876A5 JP2018151876A5 (ja) | 2020-03-05 |
Family
ID=63681775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017047791A Pending JP2018151876A (ja) | 2017-03-13 | 2017-03-13 | 機械学習に使用される経験を格納する経験データベースを更新する方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018151876A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109760046A (zh) * | 2018-12-27 | 2019-05-17 | 西北工业大学 | 基于强化学习的空间机器人捕获翻滚目标运动规划方法 |
WO2020111647A1 (en) * | 2018-11-30 | 2020-06-04 | Samsung Electronics Co., Ltd. | Multi-task based lifelong learning |
CN111300390A (zh) * | 2020-03-20 | 2020-06-19 | 苏州大学 | 基于蓄水池采样和双经验池的机械臂智能控制系统 |
WO2020179299A1 (ja) * | 2019-03-01 | 2020-09-10 | 株式会社Preferred Networks | 情報処理装置及び情報処理方法 |
KR20200123574A (ko) * | 2019-04-22 | 2020-10-30 | 서울대학교병원 | 학습 기반의 증상 및 질환 관리 장치 및 방법 |
KR20200126822A (ko) * | 2019-04-30 | 2020-11-09 | 중앙대학교 산학협력단 | 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법 및 그의 시스템 |
CN113022582A (zh) * | 2019-12-24 | 2021-06-25 | 本田技研工业株式会社 | 控制装置、控制装置的控制方法、记录介质、信息处理服务器、信息处理方法以及控制系统 |
JP2021189621A (ja) * | 2020-05-27 | 2021-12-13 | 株式会社 日立産業制御ソリューションズ | 行動選択システム及び行動選択方法 |
WO2023164223A1 (en) * | 2022-02-28 | 2023-08-31 | Advanced Micro Devices, Inc. | Quantifying the human-likeness of artificially intelligent agents using statistical methods and techniques |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0535711A (ja) * | 1991-07-31 | 1993-02-12 | Toyoda Mach Works Ltd | ニユーラルネツトワークの学習データ記憶装置 |
WO2008047835A1 (fr) * | 2006-10-19 | 2008-04-24 | Nec Corporation | Système, procédé et programme d'étude active |
JP2013084175A (ja) * | 2011-10-12 | 2013-05-09 | Sony Corp | 情報処理装置、情報処理方法、及びプログラム |
JP2014505934A (ja) * | 2010-12-30 | 2014-03-06 | アイロボット コーポレイション | 可動式ロボットシステム |
-
2017
- 2017-03-13 JP JP2017047791A patent/JP2018151876A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0535711A (ja) * | 1991-07-31 | 1993-02-12 | Toyoda Mach Works Ltd | ニユーラルネツトワークの学習データ記憶装置 |
WO2008047835A1 (fr) * | 2006-10-19 | 2008-04-24 | Nec Corporation | Système, procédé et programme d'étude active |
JP2014505934A (ja) * | 2010-12-30 | 2014-03-06 | アイロボット コーポレイション | 可動式ロボットシステム |
JP2013084175A (ja) * | 2011-10-12 | 2013-05-09 | Sony Corp | 情報処理装置、情報処理方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
TEERAPAT ROJANAARPA ET AL.: "Density-based Data Pruning Method for Deep Reinforcement Learning", PROCEEDINGS OF THE 2016 15TH IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS, JPN6021003933, 18 December 2016 (2016-12-18), pages 266 - 271, XP033055534, ISSN: 0004490000, DOI: 10.1109/ICMLA.2016.0051 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020111647A1 (en) * | 2018-11-30 | 2020-06-04 | Samsung Electronics Co., Ltd. | Multi-task based lifelong learning |
US11775812B2 (en) | 2018-11-30 | 2023-10-03 | Samsung Electronics Co., Ltd. | Multi-task based lifelong learning |
CN109760046A (zh) * | 2018-12-27 | 2019-05-17 | 西北工业大学 | 基于强化学习的空间机器人捕获翻滚目标运动规划方法 |
WO2020179299A1 (ja) * | 2019-03-01 | 2020-09-10 | 株式会社Preferred Networks | 情報処理装置及び情報処理方法 |
KR20200123574A (ko) * | 2019-04-22 | 2020-10-30 | 서울대학교병원 | 학습 기반의 증상 및 질환 관리 장치 및 방법 |
KR102338964B1 (ko) * | 2019-04-22 | 2021-12-14 | 서울대학교병원 | 학습 기반의 증상 및 질환 관리 장치 및 방법 |
KR20200126822A (ko) * | 2019-04-30 | 2020-11-09 | 중앙대학교 산학협력단 | 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법 및 그의 시스템 |
KR102240442B1 (ko) * | 2019-04-30 | 2021-04-15 | 중앙대학교 산학협력단 | 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법 및 그의 시스템 |
CN113022582A (zh) * | 2019-12-24 | 2021-06-25 | 本田技研工业株式会社 | 控制装置、控制装置的控制方法、记录介质、信息处理服务器、信息处理方法以及控制系统 |
JP2021103356A (ja) * | 2019-12-24 | 2021-07-15 | 本田技研工業株式会社 | 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム |
JP7357537B2 (ja) | 2019-12-24 | 2023-10-06 | 本田技研工業株式会社 | 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム |
CN113022582B (zh) * | 2019-12-24 | 2024-02-13 | 本田技研工业株式会社 | 控制装置、控制装置的控制方法、记录介质、信息处理服务器、信息处理方法以及控制系统 |
US11934951B2 (en) | 2019-12-24 | 2024-03-19 | Honda Motor Co., Ltd. | Control apparatus, control method for control apparatus, non-transitory computer readable storage medium, information processing server, information processing method, and control system for controlling system using reinforcement learning |
CN111300390B (zh) * | 2020-03-20 | 2021-03-23 | 南栖仙策(南京)科技有限公司 | 基于蓄水池采样和双经验池的机械臂智能控制系统 |
CN111300390A (zh) * | 2020-03-20 | 2020-06-19 | 苏州大学 | 基于蓄水池采样和双经验池的机械臂智能控制系统 |
JP2021189621A (ja) * | 2020-05-27 | 2021-12-13 | 株式会社 日立産業制御ソリューションズ | 行動選択システム及び行動選択方法 |
JP7365967B2 (ja) | 2020-05-27 | 2023-10-20 | 株式会社 日立産業制御ソリューションズ | 行動選択システム及び行動選択方法 |
WO2023164223A1 (en) * | 2022-02-28 | 2023-08-31 | Advanced Micro Devices, Inc. | Quantifying the human-likeness of artificially intelligent agents using statistical methods and techniques |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018151876A (ja) | 機械学習に使用される経験を格納する経験データベースを更新する方法 | |
US11836625B2 (en) | Training action selection neural networks using look-ahead search | |
CN110276442B (zh) | 一种神经网络架构的搜索方法及装置 | |
Wan et al. | An improved hybrid genetic algorithm with a new local search procedure | |
Jeerige et al. | Comparison of deep reinforcement learning approaches for intelligent game playing | |
Huang et al. | Continual model-based reinforcement learning with hypernetworks | |
CN103218391B (zh) | 搜索装置、搜索方法和聚类装置 | |
KR102596158B1 (ko) | 이중 액터 크리틱 알고리즘을 통한 강화 학습 | |
KR102492205B1 (ko) | 역강화학습 기반 배달 수단 탐지 장치 및 방법 | |
Serban et al. | The bottleneck simulator: A model-based deep reinforcement learning approach | |
EP2788924A2 (en) | Particle methods for nonlinear control | |
Mondal et al. | A survey of reinforcement learning techniques: strategies, recent development, and future directions | |
Cheong et al. | Obstacle rearrangement for robotic manipulation in clutter using a deep Q-network | |
Gosavi | Solving Markov decision processes via simulation | |
CN114861368B (zh) | 一种基于近端策略的铁路纵断面设计学习模型的构建方法 | |
Song et al. | A data-efficient reinforcement learning method based on local Koopman operators | |
CN115829097A (zh) | 一种基于vmd和kelm的空调超短期负荷预测方法 | |
García et al. | Incremental reinforcement learning for multi-objective robotic tasks | |
JP3132282B2 (ja) | 計画立案方法及び計画立案装置 | |
Khanesar et al. | Hybrid training of recurrent fuzzy neural network model | |
JP4267726B2 (ja) | 制御装置における動作信号と操作量との関係を決定する装置、制御装置、データ生成装置、入出力特性決定装置及び相関関係評価装置 | |
WO2024116608A1 (ja) | 計算機システム及び情報処理方法 | |
Lin et al. | Solving maze problem with reinforcement learning by a mobile robot | |
US20240185070A1 (en) | Training action selection neural networks using look-ahead search | |
Shil et al. | Improved Soft Actor-Critic: Reducing Bias and Estimation Error for Fast Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200124 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210319 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210420 |