JP7529145B2 - 学習装置、学習方法および学習プログラム - Google Patents
学習装置、学習方法および学習プログラム Download PDFInfo
- Publication number
- JP7529145B2 JP7529145B2 JP2023516888A JP2023516888A JP7529145B2 JP 7529145 B2 JP7529145 B2 JP 7529145B2 JP 2023516888 A JP2023516888 A JP 2023516888A JP 2023516888 A JP2023516888 A JP 2023516888A JP 7529145 B2 JP7529145 B2 JP 7529145B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- function
- parameter
- trajectory data
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Manipulator (AREA)
Description
前記軌跡データを用いた逆強化学習を実行する学習手段と、
前記逆強化学習によって導出された報酬関数および制約条件を出力する出力手段とを備え、
前記学習手段は、前記制約条件の分布を示す微分可能関数を用いて算出された前記軌跡データの分布に基づいて、前記逆強化学習を実行する
ことを特徴とする学習装置。
学習手段は、前記確率モデルと軌跡データとに基づいて、対数尤度の勾配を計算し、当該対数尤度を最大にするように報酬関数および制約条件を更新し、
前記確率モデルは、第一のパラメータを用いて表された前記報酬関数に基づく分布を示す第一の関数と、第二のパラメータを用いて表された前記制約条件に基づく分布を示す第二の関数との積で定義され、
前記学習手段は、前記対数尤度を最大にするように前記第一のパラメータおよび前記第二のパラメータを更新する
付記2記載の学習装置。
学習手段は、収束したと判定されなかった場合に、更新後の第一のパラメータおよび第二のパラメータで定義される確率モデルと軌跡データとに基づいて、対数尤度の勾配を計算し、前記対数尤度を最大にするように第一のパラメータおよび第二のパラメータを更新する
付記2記載の学習装置。
付記1から付記3のうちのいずれか1つに記載の学習装置。
付記1から付記4のうちのいずれか1つに記載の学習装置。
付記1から付記5のうちのいずれか1つに記載の学習装置。
前記軌跡データを用いた逆強化学習を実行し、
前記逆強化学習によって導出された報酬関数および制約条件を出力し、
前記逆強化学習において、前記制約条件の分布を示す微分可能関数を用いて算出された前記軌跡データの分布に基づいて、前記逆強化学習を実行する
ことを特徴とする学習方法。
前記確率モデルが、第一のパラメータを用いて表された前記報酬関数に基づく分布を示す第一の関数と、第二のパラメータを用いて表された前記制約条件に基づく分布を示す第二の関数との積で定義され、
前記確率モデルと軌跡データとに基づいて、対数尤度の勾配を計算し、
前記対数尤度を最大にするように前記第一のパラメータおよび前記第二のパラメータを更新する
付記7記載の学習方法。
対象者の意思決定履歴を示す軌跡データの入力を受け付ける入力処理、
前記軌跡データを用いた逆強化学習を実行する学習処理、および、
前記逆強化学習によって導出された報酬関数および制約条件を出力する出力処理とを実行させ、
前記学習処理で、前記制約条件の分布を示す微分可能関数を用いて算出された前記軌跡データの分布に基づいて、前記逆強化学習を実行させる
ための学習プログラムを記憶するプログラム記憶媒体。
入力処理で、最大エントロピー原理で導かれる軌跡データの分布を報酬関数および制約条件に基づいて仮定した確率モデルの入力を受け付けさせ、
学習処理で、前記確率モデルと軌跡データとに基づいて、対数尤度の勾配を計算させ、当該対数尤度を最大にするように報酬関数および制約条件を更新させ、
前記確率モデルは、第一のパラメータを用いて表された前記報酬関数に基づく分布を示す第一の関数と、第二のパラメータを用いて表された前記制約条件に基づく分布を示す第二の関数との積で定義され、
前記学習処理で、前記対数尤度を最大にするように前記第一のパラメータおよび前記第二のパラメータを更新させる
ための学習プログラムを記憶する請求項9記載のプログラム記憶媒体。
対象者の意思決定履歴を示す軌跡データの入力を受け付ける入力処理、
前記軌跡データを用いた逆強化学習を実行する学習処理、および、
前記逆強化学習によって導出された報酬関数および制約条件を出力する出力処理とを実行させ、
前記学習処理で、前記制約条件の分布を示す微分可能関数を用いて算出された前記軌跡データの分布に基づいて、前記逆強化学習を実行させる
ための学習プログラム。
入力処理で、最大エントロピー原理で導かれる軌跡データの分布を報酬関数および制約条件に基づいて仮定した確率モデルの入力を受け付けさせ、
学習処理で、前記確率モデルと軌跡データとに基づいて、対数尤度の勾配を計算させ、当該対数尤度を最大にするように報酬関数および制約条件を更新させ、
前記確率モデルは、第一のパラメータを用いて表された前記報酬関数に基づく分布を示す第一の関数と、第二のパラメータを用いて表された前記制約条件に基づく分布を示す第二の関数との積で定義され、
前記学習処理で、前記対数尤度を最大にするように前記第一のパラメータおよび前記第二のパラメータを更新させる
付記11記載の学習プログラム。
20 入力部
30 確率モデル計算部
40 更新部
41 報酬関数更新部
42 制約条件更新部
50 収束判定部
60 出力部
100 学習装置
Claims (10)
- 対象者の意思決定履歴を示す軌跡データの入力を受け付ける入力手段と、
前記軌跡データを用いた逆強化学習を実行する学習手段と、
前記逆強化学習によって導出された報酬関数および制約条件を出力する出力手段とを備え、
前記学習手段は、前記制約条件の分布を示す微分可能関数を用いて算出された前記軌跡データの分布に基づいて、前記逆強化学習を実行する
ことを特徴とする学習装置。 - 入力手段は、最大エントロピー原理で導かれる軌跡データの分布を報酬関数および制約条件に基づいて仮定した確率モデルの入力を受け付け、
学習手段は、前記確率モデルと軌跡データとに基づいて、対数尤度の勾配を計算し、当該対数尤度を最大にするように報酬関数および制約条件を更新し、
前記確率モデルは、第一のパラメータを用いて表された前記報酬関数に基づく分布を示す第一の関数と、第二のパラメータを用いて表された前記制約条件に基づく分布を示す第二の関数との積で定義され、
前記学習手段は、前記対数尤度を最大にするように前記第一のパラメータおよび前記第二のパラメータを更新する
請求項1記載の学習装置。 - 第一のパラメータおよび第二のパラメータが収束したか否か判定する判定手段を備え、
学習手段は、収束したと判定されなかった場合に、更新後の第一のパラメータおよび第二のパラメータで定義される確率モデルと軌跡データとに基づいて、対数尤度の勾配を計算し、前記対数尤度を最大にするように第一のパラメータおよび第二のパラメータを更新する
請求項2記載の学習装置。 - 第二の関数は、各制約条件を満たすほど1に近づき、当該各制約条件を満たさないほど0に近づくような、第二のパラメータで微分可能な連続関数として定義される
請求項1から請求項3のうちのいずれか1項に記載の学習装置。 - 確率モデルは、報酬関数の値が大きいほど大きい確率値をとり、かつ、制約条件を満たすほど大きい確率値をとる関数として定義される
請求項1から請求項4のうちのいずれか1項に記載の学習装置。 - 第二の関数は、各制約条件を満たす場合に非負の値を示す制約条件を引数とするシグモイド関数の総乗で定義される
請求項1から請求項5のうちのいずれか1項に記載の学習装置。 - 対象者の意思決定履歴を示す軌跡データの入力を受け付け、
前記軌跡データを用いた逆強化学習を実行し、
前記逆強化学習によって導出された報酬関数および制約条件を出力し、
前記逆強化学習において、前記制約条件の分布を示す微分可能関数を用いて算出された前記軌跡データの分布に基づいて、前記逆強化学習を実行する
ことを特徴とする学習方法。 - 最大エントロピー原理で導かれる軌跡データの分布を報酬関数および制約条件に基づいて仮定した確率モデルの入力を受け付け、
前記確率モデルが、第一のパラメータを用いて表された前記報酬関数に基づく分布を示す第一の関数と、第二のパラメータを用いて表された前記制約条件に基づく分布を示す第二の関数との積で定義され、
前記確率モデルと軌跡データとに基づいて、対数尤度の勾配を計算し、
前記対数尤度を最大にするように前記第一のパラメータおよび前記第二のパラメータを更新する
請求項7記載の学習方法。 - コンピュータに、
対象者の意思決定履歴を示す軌跡データの入力を受け付ける入力処理、
前記軌跡データを用いた逆強化学習を実行する学習処理、および、
前記逆強化学習によって導出された報酬関数および制約条件を出力する出力処理とを実行させ、
前記学習処理で、前記制約条件の分布を示す微分可能関数を用いて算出された前記軌跡データの分布に基づいて、前記逆強化学習を実行させる
ための学習プログラム。 - コンピュータに、
入力処理で、最大エントロピー原理で導かれる軌跡データの分布を報酬関数および制約条件に基づいて仮定した確率モデルの入力を受け付けさせ、
学習処理で、前記確率モデルと軌跡データとに基づいて、対数尤度の勾配を計算させ、当該対数尤度を最大にするように報酬関数および制約条件を更新させ、
前記確率モデルは、第一のパラメータを用いて表された前記報酬関数に基づく分布を示す第一の関数と、第二のパラメータを用いて表された前記制約条件に基づく分布を示す第二の関数との積で定義され、
前記学習処理で、前記対数尤度を最大にするように前記第一のパラメータおよび前記第二のパラメータを更新させる
請求項9記載の学習プログラム。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2021/016728 WO2022230038A1 (ja) | 2021-04-27 | 2021-04-27 | 学習装置、学習方法および学習プログラム |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JPWO2022230038A1 JPWO2022230038A1 (ja) | 2022-11-03 |
| JPWO2022230038A5 JPWO2022230038A5 (ja) | 2024-01-18 |
| JP7529145B2 true JP7529145B2 (ja) | 2024-08-06 |
Family
ID=83846769
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023516888A Active JP7529145B2 (ja) | 2021-04-27 | 2021-04-27 | 学習装置、学習方法および学習プログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20240202504A1 (ja) |
| JP (1) | JP7529145B2 (ja) |
| WO (1) | WO2022230038A1 (ja) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20230401262A1 (en) * | 2022-06-10 | 2023-12-14 | Multiverse Computing Sl | Quantum-inspired method and system for clustering of data |
| CN119388413B (zh) * | 2024-08-30 | 2025-12-26 | 北京长木谷医疗科技股份有限公司 | 基于具身智能的手术机器人控制逆强化学习方法及装置 |
| CN119328776B (zh) * | 2024-12-20 | 2025-07-01 | 江苏骠马电力科技有限公司 | 一种基于变电站仿生操作机器人视觉定位引导方法 |
| CN120217907B (zh) * | 2025-05-28 | 2025-10-21 | 集美大学 | 一种基于航行意图感知的无人艇避碰决策方法 |
| CN121094343A (zh) * | 2025-11-11 | 2025-12-09 | 江西五十铃汽车有限公司 | 新能源汽车动力系统的跨技术路线协同决策方法及系统 |
-
2021
- 2021-04-27 JP JP2023516888A patent/JP7529145B2/ja active Active
- 2021-04-27 US US18/287,132 patent/US20240202504A1/en active Pending
- 2021-04-27 WO PCT/JP2021/016728 patent/WO2022230038A1/ja not_active Ceased
Non-Patent Citations (5)
| Title |
|---|
| CHOU Glen et al., Learning Constraints from Demonstrations,arXiv [online],2019年,pp.1-25,[検索日 2021.07.12], インターネット: <URL: https://arxiv.org/abs/1812.07084v2> |
| SCOBEE R.R. Dexter et al.,Maximum Likelihood Constraint Inference for Inverse Reinforcement Learning,arXiv [online],2020年,pp.1-12,[検索日 2021.07.12], インターネット: <URL: https://arxiv.org/abs/1909.05477v2> |
| 中口悠輝, 外2名,最大エントロピー原理に基づく逆強化ダイナミクス学習フレームワークの構築,2019年度人工知能学会全国大会(第33回),2019年06月07日,p.1-4 |
| 今井拓司,専門家の意図が分かる模倣学習を逆強化学習でNECが単発の意思決定問題から実用へ,NIKKEI Robotics,日本,日経BP,2019年09月10日,第51号,p.22-26 |
| 増山 岳人,梅田 和昇,逆強化学習による学習者の選好を考慮した報酬関数の推定,第32回日本ロボット学会学術講演会,2014年 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2022230038A1 (ja) | 2022-11-03 |
| US20240202504A1 (en) | 2024-06-20 |
| JPWO2022230038A1 (ja) | 2022-11-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7529145B2 (ja) | 学習装置、学習方法および学習プログラム | |
| US12372929B2 (en) | Machine learning for technical systems | |
| Walsh et al. | Exploring compact reinforcement-learning representations with linear regression | |
| US10643154B2 (en) | Transforming attributes for training automated modeling systems | |
| SE1950490A1 (en) | Evaluation and/or adaptation of industrial and/or technical process models | |
| JP7315007B2 (ja) | 学習装置、学習方法および学習プログラム | |
| JP2022189799A (ja) | Few-shot模倣のためのデモンストレーション条件付き強化学習 | |
| CN113614743B (zh) | 用于操控机器人的方法和设备 | |
| CN112016611B (zh) | 生成器网络和策略生成网络的训练方法、装置和电子设备 | |
| US20240202569A1 (en) | Learning device, learning method, and recording medium | |
| Petelin et al. | Control system with evolving Gaussian process models | |
| Juston et al. | Hierarchical rule-base reduction-based ANFIS with online optimization through DDPG | |
| Di Natale et al. | Simba: System identification methods leveraging backpropagation | |
| Fan et al. | Learning stable Koopman embeddings for identification and control | |
| JP7268757B2 (ja) | 学習装置、学習方法および学習プログラム | |
| US20240211767A1 (en) | Learning device, learning method, and learning program | |
| JP7464115B2 (ja) | 学習装置、学習方法および学習プログラム | |
| US20240037452A1 (en) | Learning device, learning method, and learning program | |
| Zhao et al. | Stable and safe human-aligned reinforcement learning through neural ordinary differential equations | |
| JP7420236B2 (ja) | 学習装置、学習方法および学習プログラム | |
| Schweitzer et al. | Metamodel-based Simulation Optimization Using Machine Learning for Solving Production Planning Problems in the Automotive Industry | |
| US20220405599A1 (en) | Automated design of architectures of artificial neural networks | |
| KR20230060478A (ko) | 비지도 학습을 이용한 집단적 네트워크 최적화 방법 및 그 장치 | |
| CN116011591A (zh) | 安全强化学习方法和装置以及智能体和存储介质 | |
| Cubuktepe et al. | Verification of Markov decision processes with risk-sensitive measures |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231005 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231005 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240625 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240708 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7529145 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |




