JP2022537846A - 条件付きエピソード構成を用いた強化学習装置及び方法 - Google Patents
条件付きエピソード構成を用いた強化学習装置及び方法 Download PDFInfo
- Publication number
- JP2022537846A JP2022537846A JP2020558930A JP2020558930A JP2022537846A JP 2022537846 A JP2022537846 A JP 2022537846A JP 2020558930 A JP2020558930 A JP 2020558930A JP 2020558930 A JP2020558930 A JP 2020558930A JP 2022537846 A JP2022537846 A JP 2022537846A
- Authority
- JP
- Japan
- Prior art keywords
- episode
- reinforcement learning
- compensation
- steps
- conditional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000010276 construction Methods 0.000 title claims description 26
- 230000001667 episodic effect Effects 0.000 claims abstract description 9
- 239000000203 mixture Substances 0.000 claims abstract 5
- 230000009471 action Effects 0.000 claims description 34
- 238000005070 sampling Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001447 compensatory effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Robotics (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
Claims (9)
- 状態の単位がW個存在する任意のデータセットでサンプリングを通じて複数の状態(State)をN(≦W)個抽出し、かつ、
抽出された前記状態のうち、任意のT(≦N)個に対してエピソードが終了する条件を設定し、
補償を計算する時、現在価値化する範囲が定まるようになってエピソードが流動的に変更できるようにエピソードを前記条件に定義し、
前記エピソードが終了する条件が設定されたT個のステップに定義されるエピソードに基づいて臨時エピソードを構成して強化学習エージェント200に提供し、
前記臨時エピソードのステップのうち、前記強化学習エージェント200の学習を通じてT個のステップのうち、状態、アクション、及び補償に対する条件を満たさなくてエピソードが終了すれば、条件を満たして学習がよくなされた現在までのステップに基づいて補償の和が最大化できるようにエピソードを自動に定義して再構成する条件付きエピソード構成部100;及び
前記条件付きエピソード構成部100から入力されるエピソードに基づいてT個のステップから得る補償(Reward)の和が最大化されるようにアクション(Action)を決定する強化学習エージェント200を含む条件付きエピソード構成を用いた強化学習装置。 - 前記エピソードはT個のステップで状態、アクション、及び補償に対する条件を通じて前記エピソードの終了時点を設定し、かつ、
前記エピソードの終了時点は誤った予測、特定しきい値超過、現在ステップの補償値が小さい場合のうち、いずれか1つであることを特徴とする、請求項1に記載の条件付きエピソード構成を用いた強化学習装置。 - 前記条件付きエピソード構成部100は、任意のデータセットでサンプリングを通じて複数の状態(State)を抽出するサンプリング部110;
前記抽出された状態のうち、任意のT個に対してエピソードが終了する条件を設定し、かつ前記Tは抽出された複数の状態数より小さいか等しい数になるように設定する条件設定部120;及び
前記条件が設定されたT個のステップに定義されるエピソードを構成し、かつ
補償を計算する時、現在価値化する範囲が定まるようになってエピソードが流動的に変更できるようにエピソードを前記条件に定義し、前記エピソードが終了する条件が設定されたT個のステップに定義されるエピソードに基づいて臨時エピソードを構成して強化学習エージェント200に提供し、前記臨時エピソードのステップのうち、前記強化学習エージェント200の学習を通じてT個のステップのうち、状態、アクション、及び補償に対する条件を満たさなくてエピソードが終了すれば、条件を満たして学習がよくなされた現在までのステップに基づいて補償の和が最大化できるようにエピソードを自動に定義して再構成するエピソード設定部130;を含むことを特徴とする、請求項1に記載の条件付きエピソード構成を用いた強化学習装置。 - 前記強化学習エージェント200は、エピソードの終了時点まで現在価値化された補償の総和を最大化する方向に強化学習することを特徴とする、請求項1に記載の条件付きエピソード構成を用いた強化学習装置。
- a)条件付きエピソード構成部100が状態の単位がW個存在する任意のデータセットでサンプリングを通じて複数の状態(State)をN(≦W)個抽出するステップ;
b)前記条件付きエピソード構成部100が抽出された状態のうち、任意のT(≦N)個に対してエピソードが終了する条件を設定するステップ;
c)前記条件付きエピソード構成部100が補償を計算する時、現在価値化する範囲が定まるようになってエピソードが流動的に変更できるようにエピソードを前記条件に定義し、エピソードが終了する条件が設定されたT個のステップに定義される臨時エピソードを構成して設定するステップ;
d)強化学習エージェント200が前記設定された臨時エピソードに基づいてT個のステップから得る補償(Reward)の和が最大化されるように学習してアクション(Action)を決定するステップ;及び
e)前記条件付きエピソード構成部100は、前記強化学習エージェント200の学習を通じてT個のステップのうち、状態、アクション、及び補償に対する条件を満たさなくてエピソードが終了すれば、条件を満たして学習がよくなされた現在までのステップに基づいて補償の和が最大化できるようにエピソードを自動に定義して再構成するステップ; を含む条件付きエピソード構成を用いた強化学習方法。 - 前記b)ステップの条件付きエピソード構成部100は、エピソードがT個のステップで状態、アクション、及び補償に対する条件を通じて誤った予測、特定しきい値超過、現在ステップの補償値が小さい場合のうち、いずれか1つをエピソードの終了時点に設定することを特徴とする、請求項6に記載の条件付きエピソード構成を用いた強化学習方法。
- 前記d)ステップの強化学習エージェント200は、エピソードの終了時点まで現在価値化された補償の総和を最大化する方向に学習することを特徴とする、請求項6に記載の条件付きエピソード構成を用いた強化学習方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200061890A KR102169876B1 (ko) | 2020-05-22 | 2020-05-22 | 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법 |
KR10-2020-0061890 | 2020-05-22 | ||
PCT/KR2020/011169 WO2021235603A1 (ko) | 2020-05-22 | 2020-08-21 | 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022537846A true JP2022537846A (ja) | 2022-08-31 |
JP7387953B2 JP7387953B2 (ja) | 2023-11-29 |
Family
ID=73136133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020558930A Active JP7387953B2 (ja) | 2020-05-22 | 2020-08-21 | 条件付きエピソード構成を用いた強化学習装置及び方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230206079A1 (ja) |
JP (1) | JP7387953B2 (ja) |
KR (1) | KR102169876B1 (ja) |
WO (1) | WO2021235603A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018024036A (ja) * | 2016-08-09 | 2018-02-15 | 株式会社日立製作所 | 制御装置、制御方法、および制御プログラム |
KR102055141B1 (ko) * | 2018-12-31 | 2019-12-12 | 한국기술교육대학교 산학협력단 | 강화학습 기반 디바이스 원격 제어 시스템 및 그 방법 |
KR102079745B1 (ko) * | 2019-07-09 | 2020-04-07 | (주) 시큐레이어 | 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치 |
KR102100688B1 (ko) * | 2020-02-19 | 2020-04-14 | 주식회사 애자일소다 | 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6530783B2 (ja) * | 2017-06-12 | 2019-06-12 | ファナック株式会社 | 機械学習装置、制御装置及び機械学習プログラム |
CN110889487A (zh) * | 2018-09-10 | 2020-03-17 | 富士通株式会社 | 神经网络架构搜索装置和方法及计算机可读记录介质 |
KR20190098107A (ko) | 2019-08-02 | 2019-08-21 | 엘지전자 주식회사 | 딥 러닝을 위한 신경망 학습 장치 및 그 방법 |
-
2020
- 2020-05-22 KR KR1020200061890A patent/KR102169876B1/ko active IP Right Grant
- 2020-08-21 WO PCT/KR2020/011169 patent/WO2021235603A1/ko active Application Filing
- 2020-08-21 JP JP2020558930A patent/JP7387953B2/ja active Active
- 2020-08-21 US US17/926,277 patent/US20230206079A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018024036A (ja) * | 2016-08-09 | 2018-02-15 | 株式会社日立製作所 | 制御装置、制御方法、および制御プログラム |
KR102055141B1 (ko) * | 2018-12-31 | 2019-12-12 | 한국기술교육대학교 산학협력단 | 강화학습 기반 디바이스 원격 제어 시스템 및 그 방법 |
KR102079745B1 (ko) * | 2019-07-09 | 2020-04-07 | (주) 시큐레이어 | 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치 |
KR102100688B1 (ko) * | 2020-02-19 | 2020-04-14 | 주식회사 애자일소다 | 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법 |
Non-Patent Citations (2)
Title |
---|
BOUCHTI, AE ET AL.: ""Fraud detection in banking using deep reinforcement learning"", 2017 SEVENTH INTERNATIONAL CONFERENCE ON INNOVATIVE COMPUTING TECHNOLOGY (INTECH) [ONLINE], JPN6022036421, 2017, pages 58 - 63, ISSN: 0004862419 * |
LE, TP ET AL.: ""Importance sampling policy gradient algorithms in reproducing kernel Hilbert space"", ARTIFICIAL INTELLIGENCE REVIEW [ONLINE], vol. 52, no. 3, JPN6022036419, 2017, pages 2039 - 2059, XP036884511, ISSN: 0004862420, DOI: 10.1007/s10462-017-9579-x * |
Also Published As
Publication number | Publication date |
---|---|
JP7387953B2 (ja) | 2023-11-29 |
US20230206079A1 (en) | 2023-06-29 |
WO2021235603A1 (ko) | 2021-11-25 |
KR102169876B1 (ko) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Levine et al. | Rotting bandits | |
Gossner et al. | Attention please! | |
Skirzyński et al. | Automatic discovery of interpretable planning strategies | |
Krefeld-Schwalb et al. | Structural parameter interdependencies in computational models of cognition. | |
Wei et al. | Model-based reinforcement learning for predictions and control for limit order books | |
Chatterjee et al. | Computational approaches for stochastic shortest path on succinct MDPs | |
Neufeld et al. | Robust $ Q $-learning Algorithm for Markov Decision Processes under Wasserstein Uncertainty | |
CN115034886A (zh) | 一种违约风险预测方法及装置 | |
Jin et al. | A survey of numerical solutions for stochastic control problems: Some recent progress | |
Li et al. | Modeling human trust and reliance in ai-assisted decision making: A markovian approach | |
Cousineau et al. | Estimating causal effects with optimization-based methods: A review and empirical comparison | |
Keskin et al. | Conflict-based negotiation strategy for human-agent negotiation | |
Little | Numerical predictions for serial, parallel, and coactive logical rule-based models of categorization response time | |
JP2022537846A (ja) | 条件付きエピソード構成を用いた強化学習装置及び方法 | |
Ellis et al. | What can the demand analyst learn from machine learning? | |
Bick | Towards delivering a coherent self-contained explanation of proximal policy optimization | |
Hu et al. | Dtr bandit: Learning to make response-adaptive decisions with low regret | |
Davis et al. | The Best of Both Worlds: Machine Learning and Behavioral Science in Operations Management | |
Bouneffouf et al. | Toward skills dialog orchestration with online learning | |
Lee et al. | Evidence or Confidence: What Really Accumulates During a Decision? | |
Cheng et al. | Adversarial learning with optimism for bias reduction in machine learning | |
Sandqvist | A multistate approach to disability insurance reserving with information delays | |
Jehiel et al. | On Second Thoughts, Selective Memory, and Resulting Behavioral Biases | |
Hu et al. | Striking a Balance in Fairness for Dynamic Systems Through Reinforcement Learning | |
Balles | Noise-aware stochastic optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230630 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231016 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7387953 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |