JP2019159888A - 機械学習システム - Google Patents
機械学習システム Download PDFInfo
- Publication number
- JP2019159888A JP2019159888A JP2018046510A JP2018046510A JP2019159888A JP 2019159888 A JP2019159888 A JP 2019159888A JP 2018046510 A JP2018046510 A JP 2018046510A JP 2018046510 A JP2018046510 A JP 2018046510A JP 2019159888 A JP2019159888 A JP 2019159888A
- Authority
- JP
- Japan
- Prior art keywords
- evaluation
- action
- reward
- unit
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
図1から7を参照して、第1実施形態を説明する。学習システムは、環境プログラム、actorネットワークプログラム、複数criticネットワークプログラム(複数criticネットワークのプログラム)、そして、学習プログラムを含む。actorネットワークプログラムは、ニューラルネットワーク(単にネットワークとも呼ぶ)を使用し、環境プログラムからの現在状態を入力として受け取り、行動を出力する。
s_t、a_t、はそれぞれ、現時点での状態と行動を示す。rewardは報酬を表し、γは割引率を表す。s_t+1、a_t+1、はそれぞれ、次の時点での状態と行動を示す。
Loss=1/2[reward + γQ(st+1,at+1)−Q(st,at)]2 (2)
第2実施形態を図8及ぶ図9を参照して説明する。第1実施形態において、各criticネットワークでの報酬は、システム設計者によって任意に設定される。例えば、成功と失敗とに対する報酬は、それぞれ、+1と−1(離散値)とすることができる。また、低い又は高いコストに対する報酬は、(100000−コスト)(連続値)とすることができる。
Claims (10)
- 環境の現在の状態に基づき行動を決定する、エージェント部と、
前記現在の状態及び前記行動に基づき前記行動の異なる目的における評価値をそれぞれ生成する複数の評価関数を含む、評価部と、
前記エージェント部を訓練する、学習部と、を含み、
前記評価部は、より正確な評価値を生成することができるように、前記複数の評価関数のそれぞれを、前記複数の評価関数それぞれが生成した前記評価値と前記評価値それぞれの目標値との差に基づき、更新し、
前記学習部は、前記エージェント部がより適切な行動を決定することができるように、前記複数の評関数それぞれの更新による勾配を順次選択し、前記勾配に基づき前記エージェント部を順次更新する、機械学習システム。 - 請求項1に記載の機械学習システムであって、
前記エージェント部は、連続的な値で示される行動を決定する、機械学習システム。 - 請求項1又は2に記載の機械学習システムであって、
前記評価値は、それぞれ、前記環境からの報酬に基づく値であり、
前記複数の評価関数それぞれの報酬のスケールを予め設定されている基準に従って調整する報酬調整部をさらに含む、機械学習システム。 - 請求項3に記載の機械学習システムであって、
前記報酬調整部は、より高い優先度の評価関数の報酬のスケールが、より低い優先度の評価関数の報酬のスケールより小さくなるように、前記複数の評価関数それぞれの報酬をスケーリングする、機械学習システム。 - 請求項3に記載の機械学習システムであって、
前記報酬調整部は、前記複数の評価関数それぞれの報酬のスケールを共通のスケールに変換する、機械学習システム。 - メモリと、前記メモリに格納されているプロセッサとを含む計算機システムにおいて、機械学習システムの訓練を行う方法であって、
前記機械学習システムは、
環境の現在の状態に基づき行動を決定する、エージェントプログラムと、
前記現在の状態及び前記行動に基づき前記行動の異なる目的における評価値をそれぞれ生成する複数の評価関数を含む、評価プログラムと、
を含み、
前記方法は、前記プロセッサが、
前記評価プログラムがより正確な評価値を生成することができるように、前記複数の評価関数のそれぞれを、前記複数の評価関数それぞれが生成した前記評価値と前記評価値それぞれの目標値との差に基づき、更新し、
前記エージェントプログラムがより適切な行動を決定することができるように、前記複数の評価関数それぞれの更新による勾配を順次選択し、前記勾配に基づき前記エージェントプログラムを順次更新する、
ことを含む、方法。 - 請求項6に記載の方法であって、
前記エージェントプログラムは、連続的な値で示される行動を決定する、方法。 - 請求項6又は7に記載の方法であって、
前記評価値は、それぞれ、前記環境からの報酬に基づく値であり、
前記方法は、前記プロセッサが、前記複数の評価関数それぞれの報酬のスケールを予め設定されている基準に従って調整することをさらに含む、方法。 - 請求項6又は7に記載の方法であって、
前記評価値は、それぞれ、前記環境からの報酬に基づく値であり、
前記方法は、前記プロセッサが、より高い優先度の評価関数の報酬のスケールが、より低い優先度の評価関数の報酬のスケールより小さくなるように、前記複数の評価関数それぞれの報酬をスケーリングすることをさらに含む、方法。 - 請求項6又は7に記載の方法であって、
前記評価値は、それぞれ、前記環境からの報酬に基づく値であり、
前記方法は、前記プロセッサが、前記複数の評価関数それぞれの報酬のスケールを共通のスケールに変換することをさらに含む、方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018046510A JP6902487B2 (ja) | 2018-03-14 | 2018-03-14 | 機械学習システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018046510A JP6902487B2 (ja) | 2018-03-14 | 2018-03-14 | 機械学習システム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019159888A true JP2019159888A (ja) | 2019-09-19 |
JP2019159888A5 JP2019159888A5 (ja) | 2020-04-09 |
JP6902487B2 JP6902487B2 (ja) | 2021-07-14 |
Family
ID=67996270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018046510A Active JP6902487B2 (ja) | 2018-03-14 | 2018-03-14 | 機械学習システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6902487B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110328668A (zh) * | 2019-07-27 | 2019-10-15 | 南京理工大学 | 基于速度平滑确定性策略梯度的机械臂路径规划方法 |
CN112853560A (zh) * | 2020-12-31 | 2021-05-28 | 盐城师范学院 | 一种基于环锭纺纱线质量的全局工序共享控制系统及方法 |
CN112953844A (zh) * | 2021-03-02 | 2021-06-11 | 中国农业银行股份有限公司 | 一种网络流量优化方法及装置 |
JP2023512723A (ja) * | 2020-02-07 | 2023-03-28 | ディープマインド テクノロジーズ リミテッド | 目的別行動価値関数を使用する多目的強化学習 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000035956A (ja) * | 1998-07-17 | 2000-02-02 | Japan Science & Technology Corp | エージェント学習装置 |
JP2010134907A (ja) * | 2008-11-04 | 2010-06-17 | Honda Motor Co Ltd | 強化学習システム |
-
2018
- 2018-03-14 JP JP2018046510A patent/JP6902487B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000035956A (ja) * | 1998-07-17 | 2000-02-02 | Japan Science & Technology Corp | エージェント学習装置 |
JP2010134907A (ja) * | 2008-11-04 | 2010-06-17 | Honda Motor Co Ltd | 強化学習システム |
Non-Patent Citations (2)
Title |
---|
上岡 拓未 ほか: "複数の価値関数を用いた多目的強化学習", 電子情報通信学会技術研究報告, vol. 105, no. 658, JPN6021004251, 9 March 2006 (2006-03-09), pages 127 - 132, ISSN: 0004442656 * |
内部 英治 ほか: "複数の報酬によって与えられる拘束のもとでの強化学習", 電子情報通信学会技術研究報告, vol. 106, no. 102, JPN6021004253, 9 June 2006 (2006-06-09), JP, pages 1 - 6, ISSN: 0004442657 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110328668A (zh) * | 2019-07-27 | 2019-10-15 | 南京理工大学 | 基于速度平滑确定性策略梯度的机械臂路径规划方法 |
CN110328668B (zh) * | 2019-07-27 | 2022-03-22 | 南京理工大学 | 基于速度平滑确定性策略梯度的机械臂路径规划方法 |
JP2023512723A (ja) * | 2020-02-07 | 2023-03-28 | ディープマインド テクノロジーズ リミテッド | 目的別行動価値関数を使用する多目的強化学習 |
JP7436688B2 (ja) | 2020-02-07 | 2024-02-22 | ディープマインド テクノロジーズ リミテッド | 目的別行動価値関数を使用する多目的強化学習 |
CN112853560A (zh) * | 2020-12-31 | 2021-05-28 | 盐城师范学院 | 一种基于环锭纺纱线质量的全局工序共享控制系统及方法 |
CN112953844A (zh) * | 2021-03-02 | 2021-06-11 | 中国农业银行股份有限公司 | 一种网络流量优化方法及装置 |
CN112953844B (zh) * | 2021-03-02 | 2023-04-28 | 中国农业银行股份有限公司 | 一种网络流量优化方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6902487B2 (ja) | 2021-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yamagata et al. | Q-learning decision transformer: Leveraging dynamic programming for conditional sequence modelling in offline rl | |
JP6902487B2 (ja) | 機械学習システム | |
Pinciroli et al. | Optimization of the operation and maintenance of renewable energy systems by deep reinforcement learning | |
TWI585695B (zh) | 用於定義多個神經元的動態的方法、設備及電腦可讀取媒體 | |
JP2017016414A (ja) | 学習方法、プログラム及び学習装置 | |
CA3131688A1 (en) | Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions | |
CN112749785A (zh) | 信息处理装置、信息处理方法以及程序 | |
KR102660544B1 (ko) | 제어 장치, 컨트롤러, 제어 시스템, 제어 방법, 및 제어 프로그램 | |
TW201602923A (zh) | 使用尖峰發放神經網路對大序列的概率性表示 | |
CN112257751A (zh) | 神经网络剪枝方法 | |
CN114721898A (zh) | 基于boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质 | |
US11409836B2 (en) | Optimization problem arithmetic method and optimization problem arithmetic apparatus | |
Lu et al. | Adaptive online data-driven closed-loop parameter control strategy for swarm intelligence algorithm | |
CN111389006A (zh) | 一种动作预测方法及装置 | |
CN117056020A (zh) | 容器伸缩方法、系统、电子设备及存储介质 | |
Homayounfar et al. | A novel solution for stochastic dynamic game of water allocation from a reservoir using collocation method | |
WO2020121494A1 (ja) | 演算装置、アクション決定方法、及び制御プログラムを格納する非一時的なコンピュータ可読媒体 | |
JP2023157746A (ja) | 推論装置、生成方法、および生成プログラム | |
JP7060130B1 (ja) | 運用支援装置、運用支援方法及びプログラム | |
WO2019086243A1 (en) | Randomized reinforcement learning for control of complex systems | |
CN111027709B (zh) | 信息推荐方法、装置、服务器及存储介质 | |
Kontogiannis et al. | Xdqn: Inherently interpretable dqn through mimicking | |
JP7505328B2 (ja) | 運転支援装置、運転支援方法及びプログラム | |
JP6858724B2 (ja) | 機械学習システム | |
Shayeghi et al. | Application of PSO and GA for transmission network expansion planning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200221 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210621 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6902487 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |