JP7315007B2 - 学習装置、学習方法および学習プログラム - Google Patents

学習装置、学習方法および学習プログラム Download PDF

Info

Publication number
JP7315007B2
JP7315007B2 JP2021541890A JP2021541890A JP7315007B2 JP 7315007 B2 JP7315007 B2 JP 7315007B2 JP 2021541890 A JP2021541890 A JP 2021541890A JP 2021541890 A JP2021541890 A JP 2021541890A JP 7315007 B2 JP7315007 B2 JP 7315007B2
Authority
JP
Japan
Prior art keywords
policy
reward function
decision
sampling
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021541890A
Other languages
English (en)
Other versions
JPWO2021038781A5 (ja
JPWO2021038781A1 (ja
Inventor
力 江藤
悠輝 中口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021038781A1 publication Critical patent/JPWO2021038781A1/ja
Publication of JPWO2021038781A5 publication Critical patent/JPWO2021038781A5/ja
Application granted granted Critical
Publication of JP7315007B2 publication Critical patent/JP7315007B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、逆強化学習を行う学習装置、学習方法および学習プログラムに関する。
近年、様々な業務における最適な意思決定を自動で定式化し、機械化する技術がより重要視されている。一般に、最適な意思決定を行うためには、最適化対象を数理最適化問題として定式化し、その問題を解くことで、最適な行動を決定する。その際、数理最適化問題の定式化がポイントになるが、人手でこの定式化を行うことは難しい。そこで、この定式化を簡素にすることで、技術をさらに発展させる試みが行われている。
数理最適化問題を定式化する方法の一つとして、逆強化学習が知られている。逆強化学習は、熟練者が行った意思決定の履歴に基づいて、状態ごとに行動を評価する目的関数(報酬関数)を学習する方法である。逆強化学習では、意思決定の履歴を熟練者のものへ近づけるように報酬関数を更新していくことで、熟練者の報酬関数を推定する。
逆強化学習では、通常、熟練者の意思決定履歴、実際に動作させた場合の状態を表わすシミュレータもしくは実機、および、状態に応じて予測される遷移先を表わす状態遷移(予測)モデルを用いて学習が行われる。
まず、報酬関数の初期値が設定され、この報酬関数を用いた意思決定シミュレーションが行われる。具体的には、強化学習に基づく意思決定シミュレーションとして、状態遷移モデルと報酬関数とシミュレータを用いて方策を決定する最適化計算が行われ、方策に基づき出力される状態と行動の履歴として、意思決定履歴が決定される。なお、この意思決定シミュレーションとして、最適制御を実行してもよい。この報酬関数に基づく意思決定履歴と熟練者の意思決定履歴との差を小さくするように報酬関数が更新される。そして、この報酬関数を用いて意思決定シミュレーションを行い、意思決定履歴を決定し、同様に報酬関数を更新する。上記処理を繰り返すことにより、報酬関数と熟練者の意思決定との差をなくすように熟練者の報酬関数が推定される。
一方、状態遷移モデルの精緻化は、一般に困難である。そこで、状態遷移モデルを用いずに報酬関数を推定可能なモデルフリー逆強化学習の方法も提案されている。例えば、特許文献1には、モデルフリーを考慮した逆強化学習について記載されている。特許文献1に記載された方法では、制御対象の数学的モデルである環境ダイナミクスを事前に知る必要はない。そのため、モデル化に伴う誤差の影響をなくすことができ、さらに、上述する学習時の方策を決定する最適化計算が不要になるため、計算コストを削減することも可能になる。
国際公開第2017/159126号
モデルフリー逆強化学習の方法として、相対エントロピー逆強化学習が挙げられる。相対エントロピー逆強化学習は、ランダム方策による意思決定履歴からのサンプリングを用いることで、報酬関数をモデルフリーに学習できる方法である。ただし、相対エントロピー逆強化学習では、ランダム方策に基づく重点サンプリングを用いているため、行動空間が高次元になる場合、報酬関数の学習効率が悪化するという問題がある。
特許文献1には、モデルフリーを考慮した逆強化学習について記載されているが、具体的な学習方法が明示されておらず、このようなサンプリングの課題については考慮されていない。そのため、モデルフリーな学習を実現可能な相対エントロピー逆強化学習において、サンプリング空間が高次元になるような場合であっても、推定量の分散を抑制して学習効率の悪化を抑制できることが好ましい。
そこで、本発明は、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる学習装置、学習方法および学習プログラムを提供することを目的とする。
本発明による学習装置は、対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定する報酬関数推定部と、推定された報酬関数を用いた強化学習により方策を推定する方策推定部とを備え、報酬関数推定部が、方策推定部により推定された方策を新たなサンプリング方策とし、対象者の意思決定履歴と、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定することを特徴とする。
本発明による学習方法は、コンピュータが、対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定し、コンピュータが、推定された報酬関数を用いた強化学習により方策を推定し、コンピュータが、推定された方策を新たなサンプリング方策とし、対象者の意思決定履歴と、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定することを特徴とする。
本発明による学習プログラムは、コンピュータに、対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定する報酬関数推定処理、および、推定された報酬関数を用いた強化学習により方策を推定する方策推定処理を実行させ、報酬関数推定処理で、方策推定処理で推定された方策を新たなサンプリング方策とし、対象者の意思決定履歴と、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定させることを特徴とする。
本発明によれば、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる。
本発明による学習装置の一実施形態の構成例を示すブロック図である。 算出対象の値の推移の例を示す説明図である。 学習装置の動作例を示す説明図である。 学習装置の他の動作例を示す説明図である。 本発明による学習装置の概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
図1は、本発明による学習装置の一実施形態の構成例を示すブロック図である。本実施形態の学習装置100は、記憶部10と、入力部20と、報酬関数推定部30と、方策推定部40と、出力部50とを備えている。
学習装置100は、対象者の行動から報酬(関数)を推定する逆強化学習を行う装置であり、特に、状態遷移モデルを用いないで(すなわち、モデルフリーに)報酬関数を学習できる相対エントロピー逆強化学習を行う装置である。対象者の例として、その分野のエキスパート(熟練者)が挙げられる。
以下、モデルフリー逆強化学習について、詳細に説明する。逆強化学習では、Feature Matchingに基づく履歴(状態sに対する行動aの履歴)の確率モデルを導入することが一般的である。今、意思決定履歴(トラジェクトリとも言う。)をτ=s,…,sとしたとき、報酬関数r(τ)は、以下に示す式1で表すことができる。
Figure 0007315007000001
式1において、r(s,a)は、状態に対してとった行動により得られる報酬を表わす。また、θは、逆強化学習により最適化するパラメータであり、fτは、意思決定履歴の特徴量(すなわち、トラジェクトリの特徴量)、fs,aは、個々の意思決定に対する特徴量である。
ここで、熟練者のトラジェクトリの集合をDとしたとき、逆強化学習では、Feature Matchingを表わす制約条件
Figure 0007315007000002
を満たすように、以下の式2または式3を満たすP(τ)を求めることが目的とされる。具体的には、式2では、エントロピーが最大になる分布P(τ)を求めることを目的とし、式3では、相対エントロピーが最小になる分布P(τ)を求めることを目的とする。なお、Q(τ)は、ベースライン分布である。
Figure 0007315007000003
ラグランジュの未定乗数法より、θを未定乗数とした場合、上記に示す式2を用いた最大エントロピー逆強化学習での確率分布は、以下の式4で表される。また、上記に示す式3を用いた相対エントロピー逆強化学習での確率分布は、以下の式5で表される。
Figure 0007315007000004
モデルフリー逆強化学習を行うためには、上記に示す式5が用いられる。具体的には、式5を用いて、ランダム方策による意思決定履歴からのサンプリングを行うことで、報酬関数をモデルフリーで学習できる。以下、上述する状態遷移モデルを用いずに、報酬関数を学習する方法を説明する。今、状態遷移モデルをD(τ)、ベースライン方策をπ(τ)としたとき、ベースライン分布Q(τ)は、状態遷移モデルとベースライン方策との積で表される。すなわち、Q(τ)=D(τ)π(τ)である。なお、ベースライン方策π(τ)およびベースライン分布Q(τ)は、以下のように定義できる。
Figure 0007315007000005
このとき、最尤推定に基づく報酬関数の重みベクトルθの第k成分の更新式は、以下の式6で表される。
Figure 0007315007000006
重点サンプリングを行う場合、サンプリング方策π(a|s)でサンプリングしたトラジェクトリの集合をDsampとすると、上記に示す式6のカッコ内の第二項は、以下の式7に示す式に変換できる。
Figure 0007315007000007
そして、π(a|s)とπ(a|s)のいずれも一様分布であるとすると、上記の式7は、以下の式8に示す式に変換できる。
Figure 0007315007000008
上記処理の結果、式6および式8に示すように、状態遷移モデルD(τ)を用いずに、報酬関数の重み係数ベクトルθを更新することができる。
しかし、上述するように、相対エントロピー逆強化学習では、ランダム方策に基づく重点サンプリングを用いているため、行動空間が高次元になる場合、報酬関数の学習効率が悪化するという問題がある。その理由について、以下、具体的に説明する。
π(a|s)に基づく重点サンプリングによる推定を行う場合、上記に示す式6のカッコ内の第二項は、以下の式9に示す式に近似できる。
Figure 0007315007000009
ここで、式9における分母に着目する。式9における分母は、exp(θτ)の期待値(平均的な和)を重点サンプリングで算出する式である。また、図2は、算出対象の値の推移の例を示す説明図である。exp(θτ)は、指数関数であるため、図2に示すように推移する。
効率的に学習するためには、図2に例示する部分P1のサンプルを用いて期待値(平均的な和)を算出できることが好ましい。しかし、サンプリング方策π(τ)を一様分布と仮定しているため、exp(θτ)の値が小さい部分P2からも満遍なくサンプリングされる。そして、サンプリング空間が高次元の場合、部分P2からサンプリングされてしまう可能性がさらに高くなり、重点サンプリングにおける推定量の分散がより大きくなってしまう。
そこで、本実施形態では、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる方法を説明する。
記憶部10は、学習装置100が各種処理を行うために必要な情報を記憶する。記憶部10は、後述する報酬関数推定部30および方策推定部40が、推定処理に用いる各種パラメータを記憶してもよい。また、記憶部10は、後述する入力部20が受け付けた対象者の意思決定履歴を記憶してもよい。記憶部10は、例えば、磁気ディスク等により実現される。
入力部20は、対象者の意思決定履歴(トラジェクトリ)の入力を受け付ける。例えば、自動運転を目的とした学習を行う場合、入力部20は、ドライバの複雑な意図に基づく大量の運転履歴データの入力を意思決定履歴として受け付けてもよい。具体的には、意思決定履歴は、時刻tでの状態sと、時刻tでの行動aとの組み合わせの時系列データ{s,at=1 として表される。
報酬関数推定部30は、入力された対象者の意思決定履歴から、サンプリング方策π(a|s)に基づく重点サンプリングによる推定を行う。本実施形態では、重点サンプリングにおける推定量の分散が大きくなることを防ぐため、各時点における報酬関数の推定値により算出されたサンプリング方策が用いられる。
ここで、報酬関数の推定値を用いて算出されるサンプリング方策は、各時点における報酬関数の推定値を用いて誘導された方策とも言える。そのため、報酬関数の推定値を用いて算出(誘導)されたサンプリング方策のことを、誘導サンプリング方策ということができる。本実施形態では、報酬関数推定部30による報酬関数の推定処理と、後述する方策推定部40による誘導サンプリング方策の推定処理とを交互に行う。このような処理を行うのは、以下の理由による。
例えば、熟練者の行動は、報酬関数の値をほぼ最大にするように行われるはずである。逆強化学習では、熟練者の報酬関数を求めるように学習する。そのため、推定途中の報酬関数に基づいて、強化学習等による学習を行えば、報酬を最大化する方策が学習されることになる。そして、この方策を用いることで、例えば、図2における部分P1からサンプリングされる確率がより高くなる。すなわち、現在推定中の報酬関数を使って方策を推定し、それをサンプリング方策として切り替えて逆強化学習を行うことで、そのサンプリング方策が、より効率的なサンプリング(図2における部分P1からのサンプリング)を行うことが期待される。
本実施形態では、各時点における方策に基づいて報酬関数を推定するため、報酬関数推定部30は、多重重点サンプリングにより報酬関数を推定する。まず、報酬関数推定部30は、サンプリング方策π(τ)に基づきシミュレータから生成した意思決定履歴のサンプルDを生成する。なお、処理の開始時、報酬関数推定部30は、サンプリング方策π(τ)を一様分布として初期化しておけばよい。
報酬関数推定部30は、多重重点サンプリングにより、生成された意思決定履歴のサンプルDsampを用いて報酬関数を推定する。報酬関数推定部30が推定に用いる多重重点サンプリング法は任意である。報酬関数推定部30は、例えば、各分布の重みが調整可能なバランスヒューリスティック多重重点サンプリングを用いてもよい。バランスヒューリスティック多重重点サンプリングにおいて、i番目のサンプリング方策をπ [i](τ)とし、i番目のサンプリング方策から生成されるj番目のトラジェクトリをτ[ij]としたとき、上記に示す式6のカッコ内の第二項は、以下に示す式10で表される。
Figure 0007315007000010
報酬関数推定部30は、例えば、上記の式6に示すように、最尤推定に基づき報酬関数の重み係数ベクトルθを更新することにより、報酬関数を推定してもよい。また、すでに生成された意思決定履歴のサンプルが存在する場合、報酬関数推定部30は、そのサンプルを含めて報酬関数を推定すればよい。
すなわち、報酬関数推定部30は、元のサンプリング方策に基づいてすでに生成された意思決定履歴のサンプルDsampに対して、新たなサンプリング方策に基づき生成された意思決定履歴のサンプルDを加え、加えられた意思決定履歴のサンプル群(すなわち、Dsamp∪D)を用いて報酬関数を推定してもよい。ここで、iは繰り返し処理の回数を表わす。
方策推定部40は、推定された報酬関数に基づいて最適な方策を推定する。具体的には、方策推定部40は、推定された報酬関数を用いた強化学習(RL:Reinforcement Learning)や、推定された報酬関数を用いた最適制御問題(OC:Optimal Control )を解くことにより方策を推定する。ここで、式9におけるexp(θτ)は、以下に示す式10のように書き換えられる。そこで、方策推定部40は、累積報酬を大きくするように方策を推定してもよい。
なお、以下の説明では、推定された報酬関数を用いた強化学習や、推定された報酬関数を用いた最適制御により方策を推定する問題のことを、逆強化学習に対する用語として順問題と記すこともある。
方策推定部40が方策を推定する方法(順問題を解く方法)は、状態遷移モデルを用いない手法(モデルフリーな方法)であれば、任意である。方策推定部40は、例えば、ソフトQ学習により方策を推定してもよい。Q学習は、状態sのときに行動aを行った場合の累積報酬を返却する関数である行動価値関数Q(s,a)(Q関数とも言う。)を求める方法である。Q学習では、行動aを示す値に離散値が用いられ、Q関数がテーブル(表)形式で実装される。なお、Q学習のQ関数をディープニューラルネットワークで表したQネットワークが用いられてもよい。
なお、本実施形態では、現状よりもより適切な方策が推定できればよいため、方策推定部40は、必ずしも収束するまで上記Q関数の更新処理を行う必要はない。そのため、方策推定部40は、最適な評価値(例えば、Q値)が収束する前に、方策を推定する処理を終了してもよい。言い換えると、方策推定部40は、評価値(例えば、Q値)が予め定めた条件よりも増加した場合に、方策を推定する処理を終了してもよい。予め定めた条件として、具体的な増加の値や割合などが設定される。
一方、Q学習では、上述するように、行動aを示す値に離散値が用いられる。そこで、行動aを示す値に連続値を用いることができるように、方策推定部40は、ソフトアクタークリティック(Soft Actor-Critic )により、方策を推定してもよい。
このように、方策が推定された後、報酬関数推定部30は、推定された方策を新たなサンプリング方策とし、このサンプリング方策に基づき生成された意思決定履歴のサンプルを用いて報酬関数を推定する。以降、報酬関数推定部30が、報酬関数が収束したと判断するまで、上記処理が繰り返される。
出力部50は、推定された報酬関数および方策を出力する。
入力部20と、報酬関数推定部30と、方策推定部40と、出力部50とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit))によって実現される。
例えば、プログラムは、学習装置100が備える記憶部10に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部20、報酬関数推定部30、方策推定部40および出力部50として動作してもよい。また、学習装置100の機能がSaaS(Software as a Service )形式で提供されてもよい。
入力部20と、報酬関数推定部30と、方策推定部40と、出力部50とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
また、学習装置100の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本実施形態の学習装置100の動作を説明する。図3は、本実施形態の学習装置100の動作例を示す説明図である。入力部20は、対象者の意思決定履歴Dを入力する(ステップS11)。方策推定部40は、方策π(τ)を初期化する(ステップS12)。ここでは、方策推定部40は、一様分布として方策π(τ)を初期化する。以下、予め定めた条件を満たすまで、ステップS13からステップS16までの処理が繰り返される。なお、図3では、繰り返し回数をIとして説明する。
報酬関数推定部30は、方策π(τ)から意思決定履歴のサンプルDを生成する(ステップS13)。報酬関数推定部30は、すでに生成されたサンプルDsampに対して、生成されたサンプルDを付け加える(ステップS14)。報酬関数推定部30は、付け加えられたサンプルDsampを用いて、多重重点サンプリングにより報酬関数θを更新する(ステップS15)。そして、方策推定部40は、更新された報酬関数θにより順問題を解くことで、方策π(τ)を更新する(ステップS16)。そして、出力部50は、推定された報酬関数θおよび方策π(τ)を出力する(ステップS17)。
なお、図3では、相対エントロピー逆強化学習の枠組みで誘導サンプリング方策を逐次推定する処理を示していることから、図3に例示するアルゴリズムのことを、誘導相対エントロピー逆強化学習アルゴリズムということができる。
図4は、本実施形態の学習装置100の他の動作例を示す説明図である。報酬関数推定部30は、多重重点サンプリングにより、対象者の意思決定履歴からサンプリング方策に基づき生成された意思決定履歴のサンプルを用いて報酬関数を推定する(ステップS21)。方策推定部40は、推定された報酬関数を用いた順問題を解くことにより方策を推定する(ステップS22)。そして、報酬関数推定部30は、推定された方策を新たなサンプリング方策とし、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いて報酬関数を推定する(ステップS23)。以降、報酬関数が収束した場合(ステップS24におけるYes)、処理を終了し、報酬関数が収束していない場合(ステップS24におけるNo)、ステップS22およびステップS23の処理が繰り返される。
以上のように、本実施形態では、報酬関数推定部30が、対象者の意思決定履歴とサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定し、方策推定部40が、推定された報酬関数を用いた強化学習により方策を推定する。そして、報酬関数推定部30が、推定された方策を新たなサンプリング方策とし、対象者の意思決定履歴と、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定する。よって、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる。
次に、本発明の概要を説明する。図5は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置80は、対象者(例えば、熟練者)の意思決定履歴(例えば、D)とサンプリング方策(例えば、π(τ))に基づき生成された意思決定履歴のサンプル(例えば、Dsamp)を用いた多重重点サンプリングにより報酬関数(例えばθ)を推定する報酬関数推定部81(例えば、報酬関数推定部30)と、推定された報酬関数を用いた強化学習により方策を推定する方策推定部82(例えば、方策推定部40)とを備えている。
報酬関数推定部81は、方策推定部82により推定された方策を新たなサンプリング方策とし、そのサンプリング方策に基づき生成された意思決定履歴のサンプル(例えばD∪Dsamp)を用いた多重重点サンプリングにより報酬関数を推定する。
そのような構成により、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる。
その際、方策推定部82は、推定された報酬関数から得られる累積報酬を増加させる方策を推定してもよい。
また、方策推定部82は、評価値(例えば、Q値)が予め定めた条件よりも増加した場合に、方策を推定する処理を終了してもよい。このように、収束するまで方策を最適化しなくてよいため、学習の効率を向上させることができる。
また、報酬関数推定部81は、元のサンプリング方策に基づいてすでに生成された意思決定履歴のサンプル(例えば、Dsamp)に対して、新たなサンプリング方策に基づき生成された意思決定履歴のサンプル(例えばD)を加え、加えられた意思決定履歴のサンプル群(例えばD∪Dsamp)を用いて報酬関数を推定してもよい。そのような構成により、分散を小さくすることが可能になる。
具体的には、報酬関数推定部81は、最尤推定に基づき報酬関数の重み係数ベクトルを更新することにより(例えば、上記に示す式6を用いて)報酬関数を推定してもよい。
また、方策推定部82は、状態遷移モデルを用いない(すなわち、モデルフリーの)強化学習により、方策を決定すればよい。
また、方策推定部82は、ソフトQ学習(例えば、行動を示す値が離散値の場合)またはソフトアクタークリティック(例えば、行動を示す値が連続値の場合)により方策を推定してもよい。
また、報酬関数推定部81は、バランスヒューリスティック多重重点サンプリングにより報酬関数を推定してもよい。
図6は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
上述の学習装置80は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(学習プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定する報酬関数推定部と、推定された報酬関数を用いた強化学習により方策を推定する方策推定部とを備え、前記報酬関数推定部は、前記方策推定部により推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定することを特徴とする学習装置。
(付記2)方策推定部は、推定された報酬関数から得られる累積報酬を増加させる方策を推定する付記1記載の学習装置。
(付記3)方策推定部は、評価値が予め定めた条件よりも増加した場合に、方策を推定する処理を終了する付記1または付記2記載の学習装置。
(付記4)報酬関数推定部は、元のサンプリング方策に基づいてすでに生成された意思決定履歴のサンプルに対して、新たなサンプリング方策に基づき生成された意思決定履歴のサンプルを加え、加えられた意思決定履歴のサンプル群を用いて報酬関数を推定する付記1から付記3のうちのいずれか1つに記載の学習装置。
(付記5)報酬関数推定部は、最尤推定に基づき報酬関数の重み係数ベクトルを更新することにより報酬関数を推定する付記1から付記4のうちのいずれか1つに記載の学習装置。
(付記6)方策推定部は、状態遷移モデルを用いない強化学習により、方策を決定する付記1から付記5のうちのいずれか1つに記載の学習装置。
(付記7)方策推定部は、ソフトQ学習またはソフトアクタークリティックにより方策を推定する付記1から付記6のうちのいずれか1つに記載の学習装置。
(付記8)報酬関数推定部は、バランスヒューリスティック多重重点サンプリングにより報酬関数を推定する付記1から付記7のうちのいずれか1つに記載の学習装置。
(付記9)対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定し、推定された報酬関数を用いた強化学習により方策を推定し、推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定することを特徴とする学習方法。
(付記10)推定された報酬関数から得られる累積報酬を増加させる方策を推定する付記9記載の学習方法。
(付記11)コンピュータに、対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定する報酬関数推定処理、および、推定された報酬関数を用いた強化学習により方策を推定する方策推定処理を実行させ、前記報酬関数推定処理で、前記方策推定処理で推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定させるための学習プログラム。
(付記12)コンピュータに、方策推定処理で、推定された報酬関数から得られる累積報酬を増加させる方策を推定させる付記11記載の学習プログラム。
10 記憶部
20 入力部
30 報酬関数推定部
40 方策推定部
50 出力部

Claims (10)

  1. 対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定する報酬関数推定部と、
    推定された報酬関数を用いた強化学習により方策を推定する方策推定部とを備え、
    前記報酬関数推定部は、前記方策推定部により推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定する
    ことを特徴とする学習装置。
  2. 方策推定部は、推定された報酬関数から得られる累積報酬を増加させる方策を推定する
    請求項1記載の学習装置。
  3. 方策推定部は、評価値が予め定めた条件よりも増加した場合に、方策を推定する処理を終了する
    請求項1または請求項2記載の学習装置。
  4. 報酬関数推定部は、元のサンプリング方策に基づいてすでに生成された意思決定履歴のサンプルに対して、新たなサンプリング方策に基づき生成された意思決定履歴のサンプルを加え、加えられた意思決定履歴のサンプル群を用いて報酬関数を推定する
    請求項1から請求項3のうちのいずれか1項に記載の学習装置。
  5. 報酬関数推定部は、最尤推定に基づき報酬関数の重み係数ベクトルを更新することにより報酬関数を推定する
    請求項1から請求項4のうちのいずれか1項に記載の学習装置。
  6. 方策推定部は、状態遷移モデルを用いない強化学習により、方策を決定する
    請求項1から請求項5のうちのいずれか1項に記載の学習装置。
  7. 方策推定部は、ソフトQ学習またはソフトアクタークリティックにより方策を推定する
    請求項1から請求項6のうちのいずれか1項に記載の学習装置。
  8. 報酬関数推定部は、バランスヒューリスティック多重重点サンプリングにより報酬関数を推定する
    請求項1から請求項7のうちのいずれか1項に記載の学習装置。
  9. コンピュータが、対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定し、
    前記コンピュータが、推定された報酬関数を用いた強化学習により方策を推定し、
    前記コンピュータが、推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定する
    ことを特徴とする学習方法。
  10. コンピュータに、
    対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定する報酬関数推定処理、および、
    推定された報酬関数を用いた強化学習により方策を推定する方策推定処理を実行させ、
    前記報酬関数推定処理で、前記方策推定処理で推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定させる
    ための学習プログラム。
JP2021541890A 2019-08-29 2019-08-29 学習装置、学習方法および学習プログラム Active JP7315007B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/033864 WO2021038781A1 (ja) 2019-08-29 2019-08-29 学習装置、学習方法および学習プログラム

Publications (3)

Publication Number Publication Date
JPWO2021038781A1 JPWO2021038781A1 (ja) 2021-03-04
JPWO2021038781A5 JPWO2021038781A5 (ja) 2022-04-28
JP7315007B2 true JP7315007B2 (ja) 2023-07-26

Family

ID=74683394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021541890A Active JP7315007B2 (ja) 2019-08-29 2019-08-29 学習装置、学習方法および学習プログラム

Country Status (3)

Country Link
US (1) US20220343180A1 (ja)
JP (1) JP7315007B2 (ja)
WO (1) WO2021038781A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021100077A1 (ja) * 2019-11-18 2021-05-27 日本電気株式会社 最適化装置、最適化方法、記録媒体
CN113104050B (zh) * 2021-04-07 2022-04-12 天津理工大学 一种基于深度强化学习的无人驾驶端到端决策方法
WO2023188061A1 (ja) * 2022-03-30 2023-10-05 日本電気株式会社 トレーニング支援装置、トレーニング支援方法、トレーニング支援プログラム、学習装置、学習方法、および学習プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013225192A (ja) 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> 報酬関数推定装置、報酬関数推定方法、およびプログラム
JP2014524063A (ja) 2011-06-02 2014-09-18 サポーテッド インテリジェンス、エルエルシー 意思決定機会の評価方法及びシステム
US20160196492A1 (en) 2014-12-31 2016-07-07 Supported Intelligence, LLC System and Method for Defining and Calibrating a Sequential Decision Problem using Historical Data
JP2017527022A (ja) 2014-08-07 2017-09-14 学校法人沖縄科学技術大学院大学学園 逆強化学習の方法、逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する記憶媒体、逆強化学習用システム、及び逆強化学習用システムを含む予測システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014524063A (ja) 2011-06-02 2014-09-18 サポーテッド インテリジェンス、エルエルシー 意思決定機会の評価方法及びシステム
JP2013225192A (ja) 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> 報酬関数推定装置、報酬関数推定方法、およびプログラム
JP2017527022A (ja) 2014-08-07 2017-09-14 学校法人沖縄科学技術大学院大学学園 逆強化学習の方法、逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する記憶媒体、逆強化学習用システム、及び逆強化学習用システムを含む予測システム
US20160196492A1 (en) 2014-12-31 2016-07-07 Supported Intelligence, LLC System and Method for Defining and Calibrating a Sequential Decision Problem using Historical Data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
METELLI, Alberto Maria et al.,Policy Optimization via Importance Sampling,[オンライン],arXiv,2018年10月31日,pp.1-30,https://arxiv.org/pdf/1809.06098.pdf,[検索日 2019.10.28]

Also Published As

Publication number Publication date
US20220343180A1 (en) 2022-10-27
JPWO2021038781A1 (ja) 2021-03-04
WO2021038781A1 (ja) 2021-03-04

Similar Documents

Publication Publication Date Title
JP7315007B2 (ja) 学習装置、学習方法および学習プログラム
CN110832509B (zh) 使用神经网络的黑盒优化
US20230237375A1 (en) Dynamic placement of computation sub-graphs
WO2021128181A1 (zh) 一种自适应调节拥塞控制初始窗口的方法和系统
CN110413754B (zh) 对话(中)奖励评估和对话方法、介质、装置和计算设备
CN114662780A (zh) 碳排放量预测方法、装置、电子设备及存储介质
CN111416774A (zh) 网络拥塞控制方法、装置、计算机设备及存储介质
CN113561986A (zh) 自动驾驶汽车决策方法及装置
CN111275358A (zh) 派单匹配方法、装置、设备及存储介质
CN113537630A (zh) 业务预测模型的训练方法及装置
JP7279821B2 (ja) 意図特徴量抽出装置、学習装置、方法およびプログラム
CN111682972A (zh) 更新业务预测模型的方法及装置
CN111510473B (zh) 访问请求处理方法、装置、电子设备和计算机可读介质
CN112801231B (zh) 用于业务对象分类的决策模型训练方法和装置
US20230252355A1 (en) Systems and methods for knowledge transfer in machine learning
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
JP7327512B2 (ja) 学習装置、学習方法および学習プログラム
JP2022172503A (ja) 衛星観測計画立案システム、衛星観測計画立案方法、および衛星観測計画立案プログラム
CN114079953B (zh) 无线网络系统的资源调度方法、装置、终端及存储介质
CN115220818A (zh) 基于深度强化学习的实时依赖型任务卸载方法
CN113822455A (zh) 一种时间预测方法、装置、服务器及存储介质
WO2019220653A1 (ja) 因果関係推定装置、因果関係推定方法および因果関係推定プログラム
WO2022230038A1 (ja) 学習装置、学習方法および学習プログラム
WO2022230019A1 (ja) 学習装置、学習方法および学習プログラム
JP6927425B2 (ja) 確率的最適化装置、確率的最適化方法、および確率的最適化プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220216

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230626

R151 Written notification of patent or utility model registration

Ref document number: 7315007

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151