JP7420236B2 - 学習装置、学習方法および学習プログラム - Google Patents
学習装置、学習方法および学習プログラム Download PDFInfo
- Publication number
- JP7420236B2 JP7420236B2 JP2022522086A JP2022522086A JP7420236B2 JP 7420236 B2 JP7420236 B2 JP 7420236B2 JP 2022522086 A JP2022522086 A JP 2022522086A JP 2022522086 A JP2022522086 A JP 2022522086A JP 7420236 B2 JP7420236 B2 JP 7420236B2
- Authority
- JP
- Japan
- Prior art keywords
- target
- learning
- objective function
- output
- outputs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 51
- 230000006870 function Effects 0.000 claims description 143
- 230000008859 change Effects 0.000 claims description 137
- 238000005457 optimization Methods 0.000 claims description 46
- 230000002787 reinforcement Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 25
- 230000004048 modification Effects 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- WWYNJERNGUHSAO-XUDSTZEESA-N (+)-Norgestrel Chemical compound O=C1CC[C@@H]2[C@H]3CC[C@](CC)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1 WWYNJERNGUHSAO-XUDSTZEESA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Description
図1は、本発明による学習装置の第一の実施形態の構成例を示すブロック図である。本実施形態の学習装置は、変更する対象(以下、単に対象と記すこともある。)の変更実績を示す意思決定履歴データに基づいて逆強化学習を行う学習装置である。
次に、本発明の学習装置の第二の実施形態を説明する。第二の実施形態の学習装置も、変更する対象の変更実績を示す意思決定履歴データに基づいて逆強化学習を行う学習装置である。
20,21 入力部
30 第一出力部
31 対象出力部
40 変更指示受付部
41 選択受付部
50 第二出力部
60,61 データ出力部
70,71 学習部
100,200,300 学習装置
Claims (10)
- 対象の変更実績を示す意思決定履歴データに基づく逆強化学習で予め生成された目的関数を用いた第一の対象に対する最適化結果である第二の対象を出力する第一出力手段と、
ユーザから受け付けた前記第二の対象に関する変更指示に基づいて、当該第二の対象をさらに変更した結果の対象を示す第三の対象を出力する第二出力手段と、
前記第二の対象から前記第三の対象への変更実績を意思決定履歴データとして出力するデータ出力手段と、
前記意思決定履歴データを用いて前記目的関数を学習する学習手段とを備えた
ことを特徴とする学習装置。 - 第二出力手段は、出力された第二の対象に対する直接的な変更指示をユーザから受け付けて、受け付けた変更指示に基づく結果の対象を第三の対象として出力する
請求項1記載の学習装置。 - 第二出力手段は、線形式で表わされた目的関数に含まれる説明変数の重みに対する変更指示をユーザから受け付け、変更された目的関数を用いた最適化により、第二の対象を変更した結果として第三の対象を出力する
請求項1記載の学習装置。 - 第二出力手段は、目的関数に説明変数を追加する変更指示をユーザから受け付けて、変更された目的関数を用いた最適化により、第二の対象を変更した結果として第三の対象を出力する
請求項1記載の学習装置。 - 学習手段は、追加された説明変数を含む目的関数を学習する
請求項4記載の学習装置。 - コンピュータが、対象の変更実績を示す意思決定履歴データに基づく逆強化学習で予め生成された目的関数を用いた第一の対象に対する最適化結果である第二の対象を出力し、
前記コンピュータが、ユーザから受け付けた前記第二の対象に関する変更指示に基づいて、当該第二の対象をさらに変更した結果の対象を示す第三の対象を出力し、
前記コンピュータが、前記第二の対象から前記第三の対象への変更実績を意思決定履歴データとして出力し、
前記コンピュータが、前記意思決定履歴データを用いて前記目的関数を学習する
ことを特徴とする学習方法。 - コンピュータが、出力された第二の対象に対する直接的な変更指示をユーザから受け付けて、受け付けた変更指示に基づく結果の対象を第三の対象として出力する
請求項6記載の学習方法。 - コンピュータが、線形式で表わされた目的関数に含まれる説明変数の重みに対する変更指示をユーザから受け付け、変更された目的関数を用いた最適化により、第二の対象を変更した結果として第三の対象を出力する
請求項6記載の学習方法。 - コンピュータが、目的関数に説明変数を追加する変更指示をユーザから受け付けて、変更された目的関数を用いた最適化により、第二の対象を変更した結果として第三の対象を出力する
請求項6記載の学習方法。 - コンピュータに、
対象の変更実績を示す意思決定履歴データに基づく逆強化学習で予め生成された目的関数を用いた第一の対象に対する最適化結果である第二の対象を出力する第一出力処理、
ユーザから受け付けた前記第二の対象に関する変更指示に基づいて、当該第二の対象をさらに変更した結果の対象を示す第三の対象を出力する第二出力処理、
前記第二の対象から前記第三の対象への変更実績を意思決定履歴データとして出力するデータ出力処理、および、
前記意思決定履歴データを用いて前記目的関数を学習する学習処理
を実行させるための学習プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/018767 WO2021229625A1 (ja) | 2020-05-11 | 2020-05-11 | 学習装置、学習方法および学習プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021229625A1 JPWO2021229625A1 (ja) | 2021-11-18 |
JPWO2021229625A5 JPWO2021229625A5 (ja) | 2023-01-24 |
JP7420236B2 true JP7420236B2 (ja) | 2024-01-23 |
Family
ID=78525971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022522086A Active JP7420236B2 (ja) | 2020-05-11 | 2020-05-11 | 学習装置、学習方法および学習プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230281506A1 (ja) |
JP (1) | JP7420236B2 (ja) |
WO (1) | WO2021229625A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023188061A1 (ja) * | 2022-03-30 | 2023-10-05 | 日本電気株式会社 | トレーニング支援装置、トレーニング支援方法、トレーニング支援プログラム、学習装置、学習方法、および学習プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190390867A1 (en) | 2019-07-03 | 2019-12-26 | Lg Electronics Inc. | Air conditioner and method for operating the air conditioner |
-
2020
- 2020-05-11 WO PCT/JP2020/018767 patent/WO2021229625A1/ja active Application Filing
- 2020-05-11 JP JP2022522086A patent/JP7420236B2/ja active Active
- 2020-05-11 US US17/922,029 patent/US20230281506A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190390867A1 (en) | 2019-07-03 | 2019-12-26 | Lg Electronics Inc. | Air conditioner and method for operating the air conditioner |
Non-Patent Citations (1)
Title |
---|
増山 岳人 ほか,逆強化学習による学習者の選好を考慮した報酬関数の推定,第32回日本ロボット学会学術講演会 ,2014年09月29日,1102~1104頁 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021229625A1 (ja) | 2021-11-18 |
WO2021229625A1 (ja) | 2021-11-18 |
US20230281506A1 (en) | 2023-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113692609B (zh) | 通过订单车辆分布匹配以订单派发的多代理增强学习 | |
Walsh et al. | Exploring compact reinforcement-learning representations with linear regression | |
Gosavi | Reinforcement learning: A tutorial survey and recent advances | |
Dittrich et al. | Cooperative multi-agent system for production control using reinforcement learning | |
Xiang et al. | An expanded robust optimisation approach for the berth allocation problem considering uncertain operation time | |
CN113287124A (zh) | 用于搭乘订单派遣的系统和方法 | |
CN110348636B (zh) | 路径规划预测方法、装置、设备和计算机可读存储介质 | |
CN115409168A (zh) | 神经网络优化方法及其装置 | |
Palau et al. | Collaborative prognostics in social asset networks | |
WO2018182442A1 (en) | Machine learning system and method for generating a decision stream and automonously operating device using the decision stream | |
Weyns et al. | Deep learning for effective and efficient reduction of large adaptation spaces in self-adaptive systems | |
JP7420236B2 (ja) | 学習装置、学習方法および学習プログラム | |
Wang et al. | Logistics-involved task scheduling in cloud manufacturing with offline deep reinforcement learning | |
Baert et al. | Maximum causal entropy inverse constrained reinforcement learning | |
Gaidar et al. | Mathematical method for optimising the transport and logistics industry | |
JP7464115B2 (ja) | 学習装置、学習方法および学習プログラム | |
Pham et al. | Hybrid Value Function Approximation for Solving the Technician Routing Problem with Stochastic Repair Requests | |
Soeffker et al. | Adaptive state space partitioning for dynamic decision processes | |
WO2024068571A1 (en) | Supply chain optimization with reinforcement learning | |
Huang et al. | Network reliability evaluation of manufacturing systems by using a deep learning approach | |
JP6828830B2 (ja) | 評価システム、評価方法および評価用プログラム | |
Workneh et al. | Deep q network method for dynamic job shop scheduling problem | |
CN112200366B (zh) | 负荷预测方法、装置、电子设备及可读存储介质 | |
US20230314147A1 (en) | Path generation apparatus, path planning apparatus, path generation method, path planning method, and non-transitory computer readable medium | |
CN114298870A (zh) | 一种路径规划方法、装置、电子设备及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221026 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230919 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231225 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7420236 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |