JP7315037B2 - 方策推定方法、方策推定装置及びプログラム - Google Patents
方策推定方法、方策推定装置及びプログラム Download PDFInfo
- Publication number
- JP7315037B2 JP7315037B2 JP2021575182A JP2021575182A JP7315037B2 JP 7315037 B2 JP7315037 B2 JP 7315037B2 JP 2021575182 A JP2021575182 A JP 2021575182A JP 2021575182 A JP2021575182 A JP 2021575182A JP 7315037 B2 JP7315037 B2 JP 7315037B2
- Authority
- JP
- Japan
- Prior art keywords
- policy
- reward
- optimal
- state transition
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、方策推定方法、方策推定装置及びプログラムに関する。
近年注目されるAI技術の中で、強化学習(RL:Reinforcement Learning)とよばれる、学習者(エージェント)が環境との相互作用を通して振る舞い(方策)を学習するフレームワークを用いた手法が、コンピュータゲーム、囲碁などのゲームAIの分野で大きな成果を上げている(非特許文献2、非特許文献3)。
通常の強化学習においては、学習者が環境から得られる(割引)報酬和を最大化する行動ルール(方策)を得ることが目標とされてきた。ところが、近年、報酬だけでなく、報酬と方策のエントロピーとの(割引)和を最大化するエントロピー正則化RLと呼ばれる手法の研究が盛んに進められている。エントロピー正則化RLでは、目的関数内の方策のエントロピーに関する項が、方策がよりランダムに近いほど値が大きくなるため、より探索に長けた方策を得やすくなるなどの効果があることが確認されている(非特許文献1)。
これまで、エントロピー正則化RLの適用先としては、主にロボット制御などが対象となっており、状態遷移関数や報酬関数が、時刻に依存して変化することのない、斉時的なマルコフ決定過程における方策の学習が考えられてきた。斉時的なマルコフ決定過程の利用は、(閉ざされた環境における)ロボットアームの制御などを考える場合は妥当な仮定であると考えられる。
Tuomas Haarnoja, Haoran Tang, Pieter Abbeel, and Sergey Levine. Reinforcementlearning with deep energy-based policies. In Proceedings of the34th International Conference on Machine Learning-Volume 70, pages 1352-1361. JMLR. org, 2017.
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, AndreiA. Rusu, JoelVeness, MarcG. Bellemare, Alex Graves, Martin Riedmiller, AndreasK. Fidjeland,Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, IoannisAntonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg,and Demis Hassabis. Human-level control through deep reinforcement learning.Nature, 518(7540):529-533, 2015.
David Silver, Aja Huang, ChrisJ. Maddison, Arthur Guez, Laurent Sifre,George vanden Driessche, Julian Schrittwieser, Ioannis Antonoglou, VedaPanneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, JohnNham, Nal Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, MadeleineLeach, Koray Kavukcuoglu, Thore Graepel, and Demis Hassabis. Masteringthe game of go with deep neural networks and tree search. Nature, 529:484-489, 2016.
しかしながら、ヘルスケア分野などにおいて人に介入するシステムを強化学習を用いて構築する際には、斉時的なマルコフ決定過程を用いるアプローチは適切であるとはいえない。
具体例について述べる。ユーザの健康的な暮らしをサポートするヘルスケアアプリを構築することを考える。この場合、アプリがエージェントに対応し、アプリの利用ユーザが環境に対応する。 "家事"や"仕事"などのユーザが実施中の活動が状態に対応し、アプリからユーザへの介入、例えば、"そろそろ出社したらどうですか"や"ちょっと休憩しませんか"などとユーザに通知する内容が行動に対応する。状態遷移確率は、ユーザがアプリの介入を受けて、現在実施中の活動から次時刻で実施する活動への遷移する確率に対応し、例えば、(ユーザがあらかじめ定めた)一日当たりの運動時間や、睡眠時刻の目標時間への近さが報酬として設定されているとする。
このような例においては、ユーザの状態遷移確率は、時刻、例えば、朝と夜では、状態"入浴"後に行う行動は変わると考えられるため、状態遷移関数が時間的に変化しないという仮定は適切でないと考えられる。
本発明は、上記の点に鑑みてなされたものであって、状態遷移関数及び報酬関数が時間の経過に応じて変化する場合のエントロピー正則化強化学習における価値関数及び方策の推定を可能とすることを目的とする。
そこで上記課題を解決するため、時間の経過に応じて変化する状態遷移確率及び報酬関数を入力する入力手順と、エントロピー正則化強化学習における最適価値関数及び最適方策を、前記状態遷移確率及び前記報酬関数に基づく後ろ向き帰納法アルゴリズムによって推定する推定手順と、をコンピュータが実行する。
状態遷移関数及び報酬関数が時間の経過に応じて変化する場合のエントロピー正則化強化学習における価値関数及び方策の推定を可能とすることができる。
[マルコフ決定過程(MDP:Markov Decision Process)]
本節では、強化学習の概要について説明する。強化学習とは、学習者(Agent)が環境(Environment)との相互作用を通して、最適な行動ルール(方策)を推定する手法のことを指す。強化学習では、環境の設定として、マルコフ決定過程(MDP)(「MartinL Puterman. Markov decision processes: Discrete stochastic dynamicprogramming. 2005.」)が多くの場合利用され、本実施の形態でもMDPが利用される。
本節では、強化学習の概要について説明する。強化学習とは、学習者(Agent)が環境(Environment)との相互作用を通して、最適な行動ルール(方策)を推定する手法のことを指す。強化学習では、環境の設定として、マルコフ決定過程(MDP)(「MartinL Puterman. Markov decision processes: Discrete stochastic dynamicprogramming. 2005.」)が多くの場合利用され、本実施の形態でもMDPが利用される。
通常利用される斉時的なマルコフ決定過程は、4つ組(S,A,P,R)により定義される。Sを状態空間、Aを行動空間と呼び、それぞれの元s∈Sを状態、a∈Aを行動と呼ぶ。P:S×A×S→[0,1]は、状態遷移確率と呼ばれ、状態sで行動aを行ったときの次の状態s'への状態遷移確率を定める。R:S×A→R'は、報酬関数である(R'は、実数全体の集合を表す)。報酬関数が、状態sで行動aを行ったときに得られる報酬を定義している。学習者は、上記の環境の中で将来にわたって得られる報酬の和ができるだけ多くなるように行動を行う。学習者の各状態sで行う行動aを選択する確率を定めたものを方策π:S×A→[0,1]と呼ぶ。
上記の斉時的なマルコフ決定過程では、状態遷移確率や報酬関数が全ての時刻tで同一である設定を考えていた。それに対し、本実施の形態で考える非斉時的なマルコフ決定過程では、状態遷移確率や報酬関数が時刻t毎に応じて異なるものであることを許容し、P={Pt}t,R={Rt}tと定義される。但し、Pt:S×A×S→[0,1],Rt:S×A→R'である。以後の説明では、非斉時的なマルコフ決定過程の設定を用いることとする。
[方策]
学習者の各時刻における方策π={πt}t,πt:S×A→[0,1]を1つ定めると、学習者は、環境との相互作用を行うことが可能となる。各時刻tで、状態stにいる学習者は、方策πt(・|st)に従って行動atを決定する。すると、状態遷移確率と報酬関数に従い、学習者の次時刻の状態st+1~Pt(・|st,at)と、報酬rt=Rt(st,at)が決定する。これを繰り返すことで、学習者の状態と行動の履歴が得られる。以後、時刻0からT回遷移を繰り返した状態と行動の履歴(s0,a0,s1,a1,...,sT)をhTと表記し、これをエピソードと呼ぶ。
学習者の各時刻における方策π={πt}t,πt:S×A→[0,1]を1つ定めると、学習者は、環境との相互作用を行うことが可能となる。各時刻tで、状態stにいる学習者は、方策πt(・|st)に従って行動atを決定する。すると、状態遷移確率と報酬関数に従い、学習者の次時刻の状態st+1~Pt(・|st,at)と、報酬rt=Rt(st,at)が決定する。これを繰り返すことで、学習者の状態と行動の履歴が得られる。以後、時刻0からT回遷移を繰り返した状態と行動の履歴(s0,a0,s1,a1,...,sT)をhTと表記し、これをエピソードと呼ぶ。
[本実施の形態の概要]
これより本実施の形態の概要について説明する。
これより本実施の形態の概要について説明する。
[有限期間非斉時的マルコフ決定過程におけるエントロピー正則化強化学習]
本実施の形態の手法では(時間的に変化(時間の経過に応じて変化)する)状態遷移確率と(時間的に変化する)報酬関数を入力とし、最適な方策を出力する。なお、本実施の形態では、エントロピー正則化RL(Reinforcement Learning(強化学習))の定式化を利用し、最適な方策π*を、報酬と方策のエントロピーとの和の期待値を最大化するものとして定義する。
本実施の形態の手法では(時間的に変化(時間の経過に応じて変化)する)状態遷移確率と(時間的に変化する)報酬関数を入力とし、最適な方策を出力する。なお、本実施の形態では、エントロピー正則化RL(Reinforcement Learning(強化学習))の定式化を利用し、最適な方策π*を、報酬と方策のエントロピーとの和の期待値を最大化するものとして定義する。
有限期間非斉時的マルコフ決定過程におけるエントロピー正則化RLの行動価値関数(方策πのもとで、状態sにおいて行動aをとることの価値を定式化する関数(以下、「行動価値関数」という。)を以下の式で定義する。
したがって、最適方策と最適価値関数(最適行動価値関数、最適状態価値関数)は、後ろ向き帰納法アルゴリズム(図4)によって計算することができる。最適方策は、最適価値関数を用いて以下の式で表現される。
以下、上記を実現するコンピュータである方策推定装置10について説明する。図1は、本発明の実施の形態における方策推定装置10のハードウェア構成例を示す図である。図1の方策推定装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
方策推定装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って方策推定装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
図2は、本発明の実施の形態における方策推定装置10の機能構成例を示す図である。図2において、方策推定装置10は、入力パラメタ処理部11、設定パラメタ処理部12、出力パラメタ推定部13及び出力部14等を有する。これら各部は、方策推定装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。方策推定装置10は、また、入力パラメタ記憶部121、設定パラメタ記憶部122及び出力パラメタ記憶部123等を利用する。これら各記憶部は、例えば、メモリ装置103、補助記憶装置102、又は方策推定装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
図3は、方策推定装置10がパラメタ学習時に実行する処理手順の一例を説明するためのフローチャートである。
ステップS10において、入力パラメタ処理部11は、状態遷移確率P={Pt}tと報酬関数R={Rt}tとを入力し、状態遷移確率P及び報酬関数Rを入力パラメタ記憶部121に記録する。すなわち、本実施の形態では、状態遷移確率P及び報酬関数Rが予め推定され、既知である状態が想定される。状態遷移確率P及び報酬関数Rは、キーボード等の入力装置が用いられてユーザによって入力されてもよいし、予め保存されている記憶装置から入力パラメタ処理部11が取得してもよい。
続いて、設定パラメタ処理部12は、ハイパーパラメタ等の設定パラメタを入力し、当該設定パラメタを設定パラメタ記憶部122に記録する(S20)。設定パラメタは、キーボード等の入力装置が用いられてユーザによって入力されてもよいし、予め保存されている記憶装置から設定パラメタ処理部12が取得してもよい。例えば、式(3)及び(4)において利用されるαの値等が入力される。
続いて、出力パラメタ推定部13は、入力パラメタ記憶部121に記録されている状態遷移確率及び報酬関数、並びに設定パラメタ記憶部122に記録されている設定パラメタを入力とし、後ろ向き帰納法アルゴリズムによって最適価値関数(Q*
t及びV*
t)と最適方策π*とを推定(計算)し、推定結果に関するパラメタを出力パラメタ記憶部123に記録する(S30)。
続いて、出力部14は、出力パラメタ記憶部123に記録された最適価値関数(Q*
t及びV*
t)と方策π*を出力する(S40)。
続いて、ステップS30の詳細について説明する。図4は、価値関数及び方策の推定処理の処理手順の一例を説明するためのフローチャートである。
ステップS31において、出力パラメタ推定部13は、変数t及び状態価値関数VTを初期化する。具体的には、出力パラメタ推定部13は、変数tに対してTを代入し、全てのsに対する状態価値関数VT(s)に0を代入する。なお、変数tは、各時刻を示す変数である。Tは、図3のステップS10において入力された状態遷移確率P及び報酬関数Rの要素数(すなわち、tごとに変化する状態遷移確率の数又はtごとに変化する報酬関数の数)である。「全てのs」は、状態遷移確率Pに含まれる全てのsであり、以下においても同様である。
続いて、出力パラメタ推定部13は、変数tの値を更新する(S32)。具体的には、出力パラメタ推定部13は、変数tから1を減じた値を変数tに代入する。
続いて、出力パラメタ推定部13は、全てのs及び全てのaの組み合わせについて、上記の式(2)に基づいて、行動価値関数Qt(s,a)を更新する(S33)。なお、「全てのa」とは、ステップS10において入力された状態遷移確率Pに含まれる全てのaであり、以下においても同様である。
続いて、出力パラメタ推定部13は、全てのsについて、上記の式(3)に基づいて、状態価値関数Vt(s)を更新する(S34)。この際、直前のステップS33において更新(計算)された行動価値関数Qt(s,a)が、式(3)に代入される。
続いて、出力パラメタ推定部13は、全てのs及び全てのaの組み合わせについて、上記の式(4)に基づいて、方策πt(a|s)を更新する(S35)。この際、直前のステップS33において更新(計算)された行動価値関数Qt(s,a)と、直前のステップS34で更新(計算)されたVt(s)とが式(4)に代入される。
続いて、出力パラメタ推定部13は、tの値が0であるか否かを判定する(S36)。tの値が0より大きい場合(S36でNo)、出力パラメタ推定部13は、ステップS32以降を繰り返す。tの値が0である場合(S36でYes)、出力パラメタ推定部13は、図4の処理手順を終了する。すなわち、この時点におけるQt(s,a)、Vt(s)、πt(a|s)のそれぞれが、最適行動価値関数、最適状態価値関数、最適方策として推定される。
上述したように、本実施の形態によれば、状態遷移関数及び報酬関数が時間の経過に応じて変化する場合の非斉時的なマルコフ決定過程におけるエントロピー正則化RLにおける価値関数及び方策の推定を可能とすることができる。
その結果、例えば、ユーザの健康的な暮らしをサポートする前述のヘルスケアアプリを構築する際など、状態遷移確率や報酬関数が全ての時刻で同一であるという仮定が満たされない場合であっても、最適価値関数と最適方策を推定することが可能になる。
なお、本実施の形態において、入力パラメタ処理部11は、入力部の一例である。出力パラメタ推定部13は、推定部の一例である。
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10 方策推定装置
11 入力パラメタ処理部
12 設定パラメタ処理部
13 出力パラメタ推定部
14 出力部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
121 入力パラメタ記憶部
122 設定パラメタ記憶部
123 出力パラメタ記憶部
B バス
11 入力パラメタ処理部
12 設定パラメタ処理部
13 出力パラメタ推定部
14 出力部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
121 入力パラメタ記憶部
122 設定パラメタ記憶部
123 出力パラメタ記憶部
B バス
Claims (5)
- 時間の経過に応じて変化する状態遷移確率及び報酬関数を入力する入力手順と、
エントロピー正則化強化学習における最適価値関数及び最適方策を、前記状態遷移確率及び前記報酬関数に基づく後ろ向き帰納法アルゴリズムによって推定する推定手順と、
をコンピュータが実行することを特徴とする方策推定方法。 - 前記推定手順は、報酬と方策のエントロピーとの和の期待値を最大化するように前記最適方策を推定する、
ことを特徴とする請求項1記載の方策推定方法。 - 時間の経過に応じて変化する状態遷移確率及び報酬関数を入力する入力部と、
エントロピー正則化強化学習における最適価値関数及び最適方策を、前記状態遷移確率及び前記報酬関数に基づく後ろ向き帰納法アルゴリズムによって推定する推定部と、
を有することを特徴とする方策推定装置。 - 前記推定部は、報酬と方策のエントロピーとの和の期待値を最大化するように前記最適方策を推定する、
ことを特徴とする請求項3記載の方策推定装置。 - 請求項1又は2記載の方策推定方法をコンピュータに実行させることを特徴とするプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/004533 WO2021157004A1 (ja) | 2020-02-06 | 2020-02-06 | 方策推定方法、方策推定装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021157004A1 JPWO2021157004A1 (ja) | 2021-08-12 |
JP7315037B2 true JP7315037B2 (ja) | 2023-07-26 |
Family
ID=77200831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021575182A Active JP7315037B2 (ja) | 2020-02-06 | 2020-02-06 | 方策推定方法、方策推定装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230153682A1 (ja) |
JP (1) | JP7315037B2 (ja) |
WO (1) | WO2021157004A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114662404B (zh) * | 2022-04-07 | 2024-04-30 | 西北工业大学 | 规则数据双驱动的机器人复杂操作过程人机混合决策方法 |
CN114995137B (zh) * | 2022-06-01 | 2023-04-28 | 哈尔滨工业大学 | 基于深度强化学习的绳驱并联机器人控制方法 |
CN115192452A (zh) * | 2022-07-27 | 2022-10-18 | 苏州泽达兴邦医药科技有限公司 | 一种中药生产制粒工艺及工艺策略计算方法 |
CN117075596B (zh) * | 2023-05-24 | 2024-04-26 | 陕西科技大学 | 一种环境和运动不确定下的机器人复杂任务路径规划方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015176328A (ja) | 2014-03-14 | 2015-10-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、選択装置、生成方法、選択方法、及び、プログラム |
-
2020
- 2020-02-06 JP JP2021575182A patent/JP7315037B2/ja active Active
- 2020-02-06 US US17/797,678 patent/US20230153682A1/en active Pending
- 2020-02-06 WO PCT/JP2020/004533 patent/WO2021157004A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015176328A (ja) | 2014-03-14 | 2015-10-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、選択装置、生成方法、選択方法、及び、プログラム |
Non-Patent Citations (1)
Title |
---|
LIU, Jingbin et al.,"On-policy Reinforcement Learning with Entropy Regularization",arXiv.org [online],arXiv:1912.01557v2,Cornell University,2019年12月20日,pp.1-8,[検索日 2020.06.03], インターネット:<URL: https://arxiv.org/pdf/1912.01557v2> |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021157004A1 (ja) | 2021-08-12 |
WO2021157004A1 (ja) | 2021-08-12 |
US20230153682A1 (en) | 2023-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7315037B2 (ja) | 方策推定方法、方策推定装置及びプログラム | |
Uchendu et al. | Jump-start reinforcement learning | |
JP6824382B2 (ja) | 複数の機械学習タスクに関する機械学習モデルのトレーニング | |
Milli et al. | Should robots be obedient? | |
Sun et al. | Attentive experience replay | |
Sebt et al. | Hybridization of genetic algorithm and fully informed particle swarm for solving the multi-mode resource-constrained project scheduling problem | |
Amato et al. | Incremental policy generation for finite-horizon DEC-POMDPs | |
Papini et al. | Optimistic policy optimization via multiple importance sampling | |
Pekaslan et al. | ADONiS—Adaptive online nonsingleton fuzzy logic systems | |
Alhindi et al. | MOEA/D with tabu search for multiobjective permutation flow shop scheduling problems | |
Elsayed et al. | A surrogate-assisted differential evolution algorithm with dynamic parameters selection for solving expensive optimization problems | |
Wang et al. | Deep deterministic policy gradient with compatible critic network | |
Bhatt et al. | Crossnorm: Normalization for off-policy td reinforcement learning | |
EP1570427A1 (en) | Forward-chaining inferencing | |
Chang et al. | A block based estimation of distribution algorithm using bivariate model for scheduling problems | |
Mukhopadhyay et al. | Reinforcement learning algorithms for uncertain, dynamic, zero-sum games | |
Mohamed et al. | Adaptive position control of a cart moved by a DC motor using integral controller tuned by Jaya optimization with Balloon effect | |
Liang et al. | Reducing variance in temporal-difference value estimation via ensemble of deep networks | |
Neshat et al. | A new hybrid optimization method inspired from swarm intelligence: Fuzzy adaptive swallow swarm optimization algorithm (FASSO) | |
Zheng et al. | Competitive and cooperative heterogeneous deep reinforcement learning | |
Wang et al. | A discrete wolf pack algorithm for job shop scheduling problem | |
CN116257363A (zh) | 资源调度方法、装置、设备及存储介质 | |
Xu et al. | A deep deterministic policy gradient algorithm based on averaged state-action estimation | |
WO2022195494A1 (en) | A computer implemented method for real time quantum compiling based on artificial intelligence | |
WO2022244260A1 (ja) | 方策推定装置、方策推定方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230626 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7315037 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |