JP7387953B2 - 条件付きエピソード構成を用いた強化学習装置及び方法 - Google Patents
条件付きエピソード構成を用いた強化学習装置及び方法 Download PDFInfo
- Publication number
- JP7387953B2 JP7387953B2 JP2020558930A JP2020558930A JP7387953B2 JP 7387953 B2 JP7387953 B2 JP 7387953B2 JP 2020558930 A JP2020558930 A JP 2020558930A JP 2020558930 A JP2020558930 A JP 2020558930A JP 7387953 B2 JP7387953 B2 JP 7387953B2
- Authority
- JP
- Japan
- Prior art keywords
- episode
- reinforcement learning
- steps
- conditional
- condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims description 90
- 238000000034 method Methods 0.000 title claims description 24
- 230000001667 episodic effect Effects 0.000 title claims description 9
- 230000009471 action Effects 0.000 claims description 42
- 238000005070 sampling Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 2
- 239000012530 fluid Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Robotics (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
Claims (9)
- 状態の単位がW個存在する任意のデータセットでサンプリングを通じて複数の状態(State)をN(≦W)個抽出し、かつ、
抽出された前記状態のうち、任意のT(≦N)個に対してエピソードが終了する条件を設定し、
リワードを計算する時、前記エピソードが終了する条件を満たして学習がなされたステップに基づいてエピソードを定義するステップの範囲が定まるようになってエピソードが流動的に変更できるようにエピソードを前記条件に定義し、
前記エピソードが終了する条件が設定されたT個のステップに定義されるエピソードに基づいて臨時エピソードを構成して強化学習エージェント200に提供し、
前記臨時エピソードのステップのうち、前記強化学習エージェント200の学習を通じてT個のステップのうち、状態、アクション、及びリワードに対する条件を満たさなくてエピソードが終了すれば、前記エピソードが終了する条件を満たして学習がなされた現在までのステップに基づいてリワードの和が最大化できるようにエピソードを自動に定義して再構成する条件付きエピソード構成部100;及び
前記条件付きエピソード構成部100から入力される前記臨時エピソードに基づいてT個のステップから得るリワード(Reward)の和が最大化されるようにアクション(Action)を決定する強化学習エージェント200を含む条件付きエピソード構成を用いた強化学習装置。 - 前記エピソードは、前記条件付きエピソード構成部100が、T個のステップで状態、アクション、及びリワードに対する条件を通じて前記エピソードの終了時点を設定し、かつ、
前記エピソードの終了時点は、誤った予測により前記強化学習エージェント200が誤った行動を行うか、選択された状態の個数が予め設定された特定しきい値を超えるか、あるいは、現在ステップのリワード値が所定の値より小さい場合のうち、いずれか1つであることを特徴とする、請求項1に記載の条件付きエピソード構成を用いた強化学習装置。 - 前記条件付きエピソード構成部100は、任意のデータセットでサンプリングを通じて複数の状態(State)を抽出するサンプリング部110;
前記抽出された状態のうち、任意のT個に対してエピソードが終了する条件を設定し、かつ前記Tは抽出された複数の状態数より小さいか等しい数になるように設定する条件設定部120;及び
前記条件が設定されたT個のステップに定義されるエピソードを構成し、かつ
リワードを計算する時、前記エピソードが終了する条件を満たして学習がなされたステップに基づいてエピソードを定義するステップの範囲が定まるようになってエピソードが流動的に変更できるようにエピソードを前記条件に定義し、前記エピソードが終了する条件が設定されたT個のステップに定義されるエピソードに基づいて臨時エピソードを構成して強化学習エージェント200に提供し、前記臨時エピソードのステップのうち、前記強化学習エージェント200の学習を通じてT個のステップのうち、状態、アクション、及びリワードに対する条件を満たさなくてエピソードが終了すれば、前記エピソードが終了する条件を満たして学習がなされた現在までのステップに基づいてリワードの和が最大化できるようにエピソードを自動に定義して再構成するエピソード設定部130;を含むことを特徴とする、請求項1に記載の条件付きエピソード構成を用いた強化学習装置。 - 前記強化学習エージェント200は、エピソードの終了時点まで前記エピソードが終了する条件を満たして学習がなされたステップのリワードの総和を最大化する方向に強化学習することを特徴とする、請求項1に記載の条件付きエピソード構成を用いた強化学習装置。
- 前記リワードの総和が最大化する方向は強化学習の目的関数に対するポリシーグラジエント(Policy Gradient)が累積リワードを増加させる方向であり、下記式
ここで、∇θJ(π)はポリシーグラジエント、πは最も大きいリワードを与えることができる政策、θはニューラルネットの係数(または、モデルパラメータ)、Tは条件が設定されたステップの個数、atはアクション、stは状態、G(H)は1つのエピソードで前記エピソードが終了する条件を満たして学習がなされたステップのリワードの総和である、
として定義されることを特徴とする、請求項4に記載の条件付きエピソード構成を用いた強化学習装置。 - a)条件付きエピソード構成部100が状態の単位がW個存在する任意のデータセットでサンプリングを通じて複数の状態(State)をN(≦W)個抽出するステップ;
b)前記条件付きエピソード構成部100が抽出された状態のうち、任意のT(≦N)個に対してエピソードが終了する条件を設定するステップ;
c)前記条件付きエピソード構成部100がリワードを計算する時、前記エピソードが終了する条件を満たして学習がなされたステップに基づいてエピソードを定義するステップの範囲が定まるようになってエピソードが流動的に変更できるようにエピソードを前記条件に定義し、エピソードが終了する条件が設定されたT個のステップに定義される臨時エピソードを構成して設定するステップ;
d)強化学習エージェント200が前記設定された臨時エピソードに基づいてT個のステップから得るリワード(Reward)の和が最大化されるように学習してアクション(Action)を決定するステップ;及び
e)前記条件付きエピソード構成部100は、前記強化学習エージェント200の学習を通じてT個のステップのうち、状態、アクション、及びリワードに対する条件を満たさなくてエピソードが終了すれば、前記エピソードが終了する条件を満たして学習がなされた現在までのステップに基づいてリワードの和が最大化できるようにエピソードを自動に定義して再構成するステップ;
を含む条件付きエピソード構成を用いた強化学習方法。 - 前記b)ステップの条件付きエピソード構成部100は、エピソードがT個のステップで状態、アクション、及びリワードに対する条件を通じてエピソードの終了時点を設定し、かつ、
前記エピソードの終了時点を設定するに当たっては、誤った予測により強化学習エージェント200が誤った行動を行うか、選択された状態の個数が予め設定された特定しきい値を超えるか、あるいは、現在ステップのリワード値が所定の値より小さい場合のうち、いずれか1つをエピソードの終了時点に設定することを特徴とする、請求項6に記載の条件付きエピソード構成を用いた強化学習方法。 - 前記d)ステップの強化学習エージェント200は、エピソードの終了時点まで前記エピソードが終了する条件を満たして学習がなされたステップのリワードの総和を最大化する方向に学習することを特徴とする、請求項6に記載の条件付きエピソード構成を用いた強化学習方法。
- 前記リワードの総和が最大化する方向は強化学習の目的関数に対するポリシーグラジエント(Policy Gradient)が累積リワードを増加させる方向であり、下記式
ここで、∇θJ(π)はポリシーグラジエント、πは最も大きいリワードを与えることができる政策、θはニューラルネットの係数(または、モデルパラメータ)、Tは条件が設定されたステップの個数、atはアクション、stは状態、G(H)は1つのエピソードで前記エピソードが終了する条件を満たして学習がなされたステップのリワードの総和である、
として定義されることを特徴とする、請求項8に記載の条件付きエピソード構成を用いた強化学習方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200061890A KR102169876B1 (ko) | 2020-05-22 | 2020-05-22 | 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법 |
KR10-2020-0061890 | 2020-05-22 | ||
PCT/KR2020/011169 WO2021235603A1 (ko) | 2020-05-22 | 2020-08-21 | 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022537846A JP2022537846A (ja) | 2022-08-31 |
JP7387953B2 true JP7387953B2 (ja) | 2023-11-29 |
Family
ID=73136133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020558930A Active JP7387953B2 (ja) | 2020-05-22 | 2020-08-21 | 条件付きエピソード構成を用いた強化学習装置及び方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230206079A1 (ja) |
JP (1) | JP7387953B2 (ja) |
KR (1) | KR102169876B1 (ja) |
WO (1) | WO2021235603A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018024036A (ja) | 2016-08-09 | 2018-02-15 | 株式会社日立製作所 | 制御装置、制御方法、および制御プログラム |
KR102055141B1 (ko) | 2018-12-31 | 2019-12-12 | 한국기술교육대학교 산학협력단 | 강화학습 기반 디바이스 원격 제어 시스템 및 그 방법 |
KR102079745B1 (ko) | 2019-07-09 | 2020-04-07 | (주) 시큐레이어 | 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치 |
KR102100688B1 (ko) | 2020-02-19 | 2020-04-14 | 주식회사 애자일소다 | 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6530783B2 (ja) * | 2017-06-12 | 2019-06-12 | ファナック株式会社 | 機械学習装置、制御装置及び機械学習プログラム |
CN110889487A (zh) * | 2018-09-10 | 2020-03-17 | 富士通株式会社 | 神经网络架构搜索装置和方法及计算机可读记录介质 |
KR20190098107A (ko) | 2019-08-02 | 2019-08-21 | 엘지전자 주식회사 | 딥 러닝을 위한 신경망 학습 장치 및 그 방법 |
-
2020
- 2020-05-22 KR KR1020200061890A patent/KR102169876B1/ko active IP Right Grant
- 2020-08-21 WO PCT/KR2020/011169 patent/WO2021235603A1/ko active Application Filing
- 2020-08-21 US US17/926,277 patent/US20230206079A1/en active Pending
- 2020-08-21 JP JP2020558930A patent/JP7387953B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018024036A (ja) | 2016-08-09 | 2018-02-15 | 株式会社日立製作所 | 制御装置、制御方法、および制御プログラム |
KR102055141B1 (ko) | 2018-12-31 | 2019-12-12 | 한국기술교육대학교 산학협력단 | 강화학습 기반 디바이스 원격 제어 시스템 및 그 방법 |
KR102079745B1 (ko) | 2019-07-09 | 2020-04-07 | (주) 시큐레이어 | 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치 |
KR102100688B1 (ko) | 2020-02-19 | 2020-04-14 | 주식회사 애자일소다 | 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법 |
Non-Patent Citations (2)
Title |
---|
BOUCHTI, AE et al.,"Fraud detection in banking using deep reinforcement learning",2017 Seventh International Conference on Innovative Computing Technology (INTECH) [online],IEEE,2017年,pp. 58-63,[retrieved on 2022.08.22], Retrieved from the Internet: <URL: https://ieeexplore.ieee.org/abstract/document/8102446>,<DOI: 10.1109/INTECH.2017.8102446> |
LE, TP et al.,"Importance sampling policy gradient algorithms in reproducing kernel Hilbert space",Artificial Intelligence Review [online],2017年,Vol. 52, No. 3,pp. 2039-2059,[retrieved on 2022.08.22], Retrieved from the Internet: <URL: https://link.springer.com/article/10.1007/s10462-017-9579-x>,<DOI: 10.1007/s10462-017-9579-x> |
Also Published As
Publication number | Publication date |
---|---|
KR102169876B1 (ko) | 2020-10-27 |
WO2021235603A1 (ko) | 2021-11-25 |
JP2022537846A (ja) | 2022-08-31 |
US20230206079A1 (en) | 2023-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schapire | Explaining adaboost | |
Dockner | Differential games in economics and management science | |
CN107995992A (zh) | 使用递归神经网络分析健康事件 | |
Gossner et al. | Attention please! | |
US20200043358A1 (en) | Non-invasive control apparatus and method for human learning and inference process at behavioral and neural levels based on brain-inspired artificial intelligence technique | |
Rodermund et al. | Towards simulation-based preplanning for experimental analysis of nudging | |
US10776720B2 (en) | Techniques for bimodal learning in a financial context | |
Knox et al. | Models of human preference for learning reward functions | |
Pynadath et al. | Reinforcement learning for adaptive theory of mind in the sigma cognitive architecture | |
Fragiadakis et al. | Who is strategic? | |
Breuker et al. | Designing and evaluating an interpretable predictive modeling technique for business processes | |
Bendor et al. | Reinforcement learning in repeated interaction games | |
JP7387953B2 (ja) | 条件付きエピソード構成を用いた強化学習装置及び方法 | |
Kleinberg et al. | Algorithmic classification and strategic effort | |
Shavit et al. | Extracting incentives from black-box decisions | |
Kuchar et al. | Supervised Learning in Multi-Agent Environments Using Inverse Point of View | |
Homaifar et al. | Boolean function learning with a classifier system | |
Harini et al. | Neuro-symbolic Meta Reinforcement Learning for Trading | |
EP2110784A1 (de) | Verfahren und Expertensystem zum Bewerten eines Objekts | |
Bayrak et al. | A differential game approach to dynamic competitive decisions toward human-computer collaboration | |
Johansen et al. | Towards believable non-player characters with domain-independent planning | |
Mohammed et al. | Embracing advanced AI/ML to help investors achieve success: Vanguard Reinforcement Learning for Financial Goal Planning | |
Cheng et al. | Adversarial learning with optimism for bias reduction in machine learning | |
Lu | AlphaSMT: A Reinforcement Learning Guided SMT Solver | |
Lakhno et al. | Model for Choosing Rational Investment Strategies, with the Partner’s Resource Data Being Uncertain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230630 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231016 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7387953 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |