JP7464115B2 - 学習装置、学習方法および学習プログラム - Google Patents
学習装置、学習方法および学習プログラム Download PDFInfo
- Publication number
- JP7464115B2 JP7464115B2 JP2022522087A JP2022522087A JP7464115B2 JP 7464115 B2 JP7464115 B2 JP 7464115B2 JP 2022522087 A JP2022522087 A JP 2022522087A JP 2022522087 A JP2022522087 A JP 2022522087A JP 7464115 B2 JP7464115 B2 JP 7464115B2
- Authority
- JP
- Japan
- Prior art keywords
- target
- learning
- decision
- objective function
- history data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 47
- 230000006870 function Effects 0.000 claims description 159
- 230000008859 change Effects 0.000 claims description 82
- 238000005457 optimization Methods 0.000 claims description 43
- 230000002787 reinforcement Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 25
- 230000004048 modification Effects 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- WWYNJERNGUHSAO-XUDSTZEESA-N (+)-Norgestrel Chemical compound O=C1CC[C@@H]2[C@H]3CC[C@](CC)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1 WWYNJERNGUHSAO-XUDSTZEESA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Description
図1は、本発明による学習装置の第一の実施形態の構成例を示すブロック図である。本実施形態の学習装置は、変更する対象(以下、単に対象と記すこともある。)の変更実績を示す意思決定履歴データに基づいて逆強化学習を行う学習装置である。
次に、本発明の学習装置の第二の実施形態を説明する。第二の実施形態の学習装置も、変更する対象の変更実績を示す意思決定履歴データに基づいて逆強化学習を行う学習装置である。
20,21 入力部
30 第一出力部
31 対象出力部
40 変更指示受付部
41 選択受付部
50 第二出力部
60,61 データ出力部
70,71 学習部
100,200,300 学習装置
Claims (10)
- 対象の変更実績を示す意思決定履歴データに基づく逆強化学習で予め生成された一つまたは複数の目的関数を用いた第一の対象に対する最適化結果である第二の対象を複数出力する対象出力手段と、
出力された複数の前記第二の対象に対するユーザからの選択指示を受け付ける選択受付手段と、
前記第一の対象から、受け付けた前記第二の対象への変更実績を意思決定履歴データとして出力するデータ出力手段と、
前記意思決定履歴データを用いて前記目的関数を学習する学習手段とを備えた
ことを特徴とする学習装置。 - 対象出力手段は、目的関数の学習に用いられるデータから推定される当該目的関数の尤もらしさを示す尤度に基づいて、複数の目的関数から一つまたは複数の目的関数を選択し、選択した目的関数を用いた最適化により第二の対象を出力する
請求項1記載の学習装置。 - 対象出力手段は、予め定めた閾値よりも尤度の低い目的関数を、最適化を行う対象から除外する
請求項2記載の学習装置。 - 対象出力手段は、パラメータの微分が0になる目的関数のうち、尤度が高いあらかじめ定めた上位の目的関数を選択する
請求項2または請求項3記載の学習装置。 - 対象出力手段は、データ出力手段によって出力された意思決定履歴データをさらに用いて尤度を算出し、算出した尤度に基づいて目的関数を選択する
請求項2から請求項4のうちのいずれか1項に記載の学習装置。 - 学習手段は、出力された最適化結果のうち、予め定めた閾値よりも尤度の高い解を選択し、選択された解を含む意思決定履歴データを追加して再学習を行う
請求項1から請求項5のうちのいずれか1項に記載の学習装置。 - ユーザから受け付けた第二の対象に関する変更指示に基づいて、当該第二の対象をさらに変更した結果の対象を示す第三の対象を出力する変更対象出力手段を備え、
データ出力手段は、第二の対象から前記第三の対象への変更実績を意思決定履歴データとして出力する
請求項1から請求項6のうちのいずれか1項に記載の学習装置。 - コンピュータが、対象の変更実績を示す意思決定履歴データに基づく逆強化学習で予め生成された一つまたは複数の目的関数を用いた第一の対象に対する最適化結果である第二の対象を複数出力し、
前記コンピュータが、出力された複数の前記第二の対象に対するユーザからの選択指示を受け付け、
前記コンピュータが、前記第一の対象から、受け付けた前記第二の対象への変更実績を意思決定履歴データとして出力し、
前記コンピュータが、前記意思決定履歴データを用いて前記目的関数を学習する
ことを特徴とする学習方法。 - コンピュータが、目的関数の学習に用いられるデータから推定される当該目的関数の尤もらしさを示す尤度に基づいて、複数の目的関数から一つまたは複数の目的関数を選択し、選択した目的関数を用いた最適化により第二の対象を出力する
請求項8記載の学習方法。 - コンピュータに、
対象の変更実績を示す意思決定履歴データに基づく逆強化学習で予め生成された一つまたは複数の目的関数を用いた第一の対象に対する最適化結果である第二の対象を複数出力する対象出力処理、
出力された複数の前記第二の対象に対するユーザからの選択指示を受け付ける選択受付処理、
前記第一の対象から、受け付けた前記第二の対象への変更実績を意思決定履歴データとして出力するデータ出力処理、および、
前記意思決定履歴データを用いて前記目的関数を学習する学習処理
を実行させるための学習プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/018768 WO2021229626A1 (ja) | 2020-05-11 | 2020-05-11 | 学習装置、学習方法および学習プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021229626A1 JPWO2021229626A1 (ja) | 2021-11-18 |
JPWO2021229626A5 JPWO2021229626A5 (ja) | 2023-01-24 |
JP7464115B2 true JP7464115B2 (ja) | 2024-04-09 |
Family
ID=78525423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022522087A Active JP7464115B2 (ja) | 2020-05-11 | 2020-05-11 | 学習装置、学習方法および学習プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230186099A1 (ja) |
JP (1) | JP7464115B2 (ja) |
WO (1) | WO2021229626A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023175910A1 (ja) * | 2022-03-18 | 2023-09-21 | 日本電気株式会社 | 意思決定支援システム、意思決定支援方法および記録媒体 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019508817A (ja) | 2016-03-15 | 2019-03-28 | 学校法人沖縄科学技術大学院大学学園 | 密度比推定による直接逆強化学習 |
CN109978012A (zh) | 2019-03-05 | 2019-07-05 | 北京工业大学 | 一种基于结合反馈的改进贝叶斯逆强化学习方法 |
JP2019185201A (ja) | 2018-04-04 | 2019-10-24 | ギリア株式会社 | 強化学習システム |
-
2020
- 2020-05-11 US US17/922,485 patent/US20230186099A1/en active Pending
- 2020-05-11 WO PCT/JP2020/018768 patent/WO2021229626A1/ja active Application Filing
- 2020-05-11 JP JP2022522087A patent/JP7464115B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019508817A (ja) | 2016-03-15 | 2019-03-28 | 学校法人沖縄科学技術大学院大学学園 | 密度比推定による直接逆強化学習 |
JP2019185201A (ja) | 2018-04-04 | 2019-10-24 | ギリア株式会社 | 強化学習システム |
CN109978012A (zh) | 2019-03-05 | 2019-07-05 | 北京工业大学 | 一种基于结合反馈的改进贝叶斯逆强化学习方法 |
Non-Patent Citations (1)
Title |
---|
江藤 力 ほか,新たな社会価値を生み出すAI特集 人とともに未来を創る最新のAI技術 熟練者の意思決定を摸倣する意図学習技術,NEC技報,日本電気株式会社,2019年10月31日,第72巻 第1号,pp. 95-98 |
Also Published As
Publication number | Publication date |
---|---|
US20230186099A1 (en) | 2023-06-15 |
WO2021229626A1 (ja) | 2021-11-18 |
JPWO2021229626A1 (ja) | 2021-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11651208B2 (en) | Training action selection neural networks using a differentiable credit function | |
EP3446260B1 (en) | Memory-efficient backpropagation through time | |
US11861474B2 (en) | Dynamic placement of computation sub-graphs | |
US20190019082A1 (en) | Cooperative neural network reinforcement learning | |
US11429863B2 (en) | Computer-readable recording medium having stored therein learning program, learning method, and learning apparatus | |
US20150088795A1 (en) | Minimizing Global Error in an Artificial Neural Network | |
US11663486B2 (en) | Intelligent learning system with noisy label data | |
CN113287124A (zh) | 用于搭乘订单派遣的系统和方法 | |
US11568249B2 (en) | Automated decision making for neural architecture search | |
Al Asheeri et al. | Machine learning models for software cost estimation | |
Laaroussi et al. | Deep learning framework for forecasting tourism demand | |
JP7464115B2 (ja) | 学習装置、学習方法および学習プログラム | |
US20220269835A1 (en) | Resource prediction system for executing machine learning models | |
JP7420236B2 (ja) | 学習装置、学習方法および学習プログラム | |
JPWO2018154662A1 (ja) | 価格最適化システム、価格最適化方法および価格最適化プログラム | |
US11966340B2 (en) | Automated time series forecasting pipeline generation | |
AU2022291505A1 (en) | Utilizing machine learning models to analyze an impact of a change request | |
Workneh et al. | Learning to schedule (L2S): Adaptive job shop scheduling using double deep Q network | |
CN115409168A (zh) | 神经网络优化方法及其装置 | |
CN114819442A (zh) | 一种运筹优化方法、装置和计算设备 | |
Pham et al. | Hybrid Value Function Approximation for Solving the Technician Routing Problem with Stochastic Repair Requests | |
WO2022174792A1 (en) | Automated time series forecasting pipeline ranking | |
US20240037452A1 (en) | Learning device, learning method, and learning program | |
US20230041035A1 (en) | Combining math-programming and reinforcement learning for problems with known transition dynamics | |
WO2023166564A1 (ja) | 推定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221026 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240311 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7464115 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |