JP5968259B2

JP5968259B2 - 線形モデルに基づく強化学習方法とその装置とプログラム

Info

Publication number: JP5968259B2
Application number: JP2013082569A
Authority: JP
Inventors: 隆伸大庭
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-04-11
Filing date: 2013-04-11
Publication date: 2016-08-10
Anticipated expiration: 2033-04-11
Also published as: JP2014206795A

Description

本発明は、線形モデルの利用を前提とした強化学習方法とその装置とプログラムに関する。

強化学習は、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動（方策）を決定する問題を扱う機械学習の一種である。実問題では環境が変化する。若しくは学習環境において、あらゆる状態を観測することは困難であるため、現在の環境に方策を適応させることが重要な課題となる。一般に、ある環境にて最適化された方策（policy）は、他の環境では最適とならない。

環境の全ての状態が定義可能な強化学習法としては、マルコフ決定過程が周知である（非特許文献１）。一方、具体的に状態を定義するのではなく、観測可能な特徴量（素性ベクトル）から、あるモデルに従って最適な行動を決定する強化学習方法も知られている（非特許文献２）。

図５に、従来の強化学習装置９００の機能構成を示す。強化学習装置９００は、制御装置であるエージェント９１０と制御対象である環境９２０と、で構成される。環境９２０は、行動のセット{ａ_ｔ}、状態のセット{ｓ_ｔ}、遷移確率ｐ（ｓ_ｔ′｜ｓ_ｔ，ａ_ｔ）、期待報酬Ｅ[ｒ_ｔ（ｓ_ｔ，ａ_ｔ）]、で定義されるものである。エージェントが状態ｓ_ｔで行動ａ_ｔを選択すると確率ｐ（ｓ_ｔ′｜ｓ_ｔ，ａ_ｔ）で状態ｓ′に遷移し、その際に報酬ｒ_ｔ（ｓ_ｔ，ａ_ｔ）を得る。

エージェント９１０は、環境９２０から与えられる各状態において方策Ｐ（ｓ_ｔ，ａ_ｔ）に従った行動を採る。基本的には方策Ｐ（ｓ_ｔ，ａ_ｔ）を最大にする行動ａ_ｔを選択する。若しくは、方策Ｐ（ｓ_ｔ，ａ_ｔ）が確率モデルであるとすると、方策Ｐ（ｓ_ｔ，ａ_ｔ）の行動ａ_ｔに関する確率分布に従って行動ａ_ｔを選択する。ｔは時刻である。

強化学習の目的は、将来にわたり得られる報酬ｒ_ｔの期待値を最適化する方策Ｐ（ｓ_ｔ，ａ_ｔ）を決めることにある。将来にわたり得られる報酬の期待値Ｅ[ｒ（ｓ_ｔ，ａ_ｔ）]の定義には幾つかのバリエーションが存在する。例えば、報酬の期待値Ｅ[ｒ（ｓ_ｔ，ａ_ｔ）]は次式で定義される。

ここでγは、遠い将来に得られる報酬ほど割り引いて評価するための割引率であり１未満０超の実数である。ｓ_０は状態の初期値、ａ_０は行動の初期値である。Ｑ_Ｐ（ｓ_ｔ，ａ_ｔ）は状態行動対価値関数などと称される。状態数が多ければ探索空間が広くなりデータを大量に収集する必要がある。そこで、状態行動対価値関数Ｑ_Ｐ（ｓ_ｔ，ａ_ｔ）を、モデルパラメータΦでパラメータライズされた関数Ｆ_Φ（ｓ_ｔ，ａ_ｔ）で近似する方法が存在する。その上で、方策関数Ｐ（ｓ_ｔ，ａ_ｔ）は関数Ｆ_Φ（ｓ_ｔ，ａ_ｔ）を用いて設計される。最も単純には、Ｐ（ｓ_ｔ，ａ_ｔ）＝Ｆ_Φ（ｓ_ｔ，ａ_ｔ）とすれば良い。もしくは、次式で表されるようなロジスティック関数を用いた確率としても良い。式（２）の分母は、行動ａについての正規化項である。

学習において、任意の目的関数を定義して、それを最大化するモデルパラメータΦを推定する。目的関数には、学習データから得られた報酬の実測値と方策基礎関数Ｆ_Φ（ｓ_ｔ，ａ_ｔ）との最小二乗誤差などが用いられる。目的関数を最大化するモデルパラメータΦは勾配法などで求める。勾配法の場合、目的関数の微分を算出する必要があり、正確な勾配を算出するためには複数の時刻にわたるデータの蓄積が必要である。

http://en.wikipedia.org/wiki/Markov decision process Akiyama, T., Hachiya, H., & Sugiyama, M. Active policy iteration: Efficient exploration through active learning for value function approximation in reinforcement learning. In Proceedings of the Twenty-First International Joint Conference on Artificial Intelligence(IJCAI2009),pp.980-985, Pasadena, California, USA, Jul. 11-17, 2009.

従来の強化学習方法は、正確なモデルパラメータΦを算出するのに複数の時刻にわたるデータの蓄積が必要である。そのために、どのタイミングで適応（再学習）すべきかが問題となり、時刻ｔごとに結果を求めるリアルタイム処理には不向きな方法であった。

本発明は、これらの課題に鑑みてなされたものであり、１つのデータが観測されるごとにモデルパラメータΦの更新を可能とするリアルタイム処理に適した線形モデルに基づく強化学習方法と、その装置とプログラムを提供することを目的とする。

本願発明の線形モデルに基づく強化学習方法は、行動選択・実行過程と、学習過程と、時刻更新過程と、を備える。行動選択・実行過程は、制御対象の時刻ｔにおける状態情報ｓ_ｔを入力として行動情報ａ_ｔを選択し、当該行動情報ａ_ｔを制御対象に出力し、当該出力の応答として状態情報ｓ_ｔ＋１と報酬情報ｒ_ｔ＋１を入手し当該状態情報ｓ_ｔ＋１から行動情報ａ_ｔ＋１を選択し、状態情報ｓ_ｔ＋１と行動情報ａ_ｔ＋１と報酬情報ｒ_ｔ＋１と状態情報ｓ_ｔと行動情報ａ_ｔを学習部に出力する。学習過程は、状態情報ｓ_ｔと行動情報ａ_ｔと状態情報ｓ_ｔ＋１と行動情報ａ_ｔ＋１と報酬情報ｒ_ｔ＋１を入力として、線形モデルで近似した方策関数のモデルパラメータの更新幅を求め、当該更新幅でモデルパラメータを、時刻ｔごとに更新してモデルパラメータ記録部に記録する。時刻更新過程は、時刻ｔを更新する。

本発明の線形モデルに基づく強化学習方法によれば、方策関数のモデルパラメータの更新幅を、時刻ｔごとに求めてモデルパラメータを更新するので、従来の強化学習方法よりも高速にモデルパラメータを推定することができる。

本発明の線形モデルに基づく強化学習装置１００の機能構成例を示す図。線形モデルに基づく強化学習装置１００の動作フローを示す図。学習部１１２の機能構成例を示す図。学習部１１２の動作フローを示す図。従来の強化学習装置９００の機能構成を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

〔発明の考え〕
実施例の説明の前にこの発明の新しい考え方を説明する。この発明は、パターン認識の分野で用いられるオンライン学習法を強化学習に応用したものであり、線形モデルを前提としたＯＰＡ（Online Passive Aggressive）アルゴリズムを強化学習に転用する考えに基づく。

この発明は、先ず、状態行動対価値関数Ｑ_Ｐ（ｓ_ｔ，ａ_ｔ）を次式の線形モデルで近似する。

Ｖは素性ベクトル、・は内積演算子である。素性ベクトルは、観測可能な特徴量のことであり、例えば複数のセンサ信号の検出信号列のようなものである。素性ベクトルＶ_ｔは、状態ｓ_ｔと行動ａ_ｔによって変化するものである。

そして、この発明では、次式に示す制約付き最小化問題を設定する。

ここでγは、１未満０超の実数の割引率であり、報酬の発散を防ぐ働きをする。

式（４）の制約式（s.t.の右側の式）は、ＯＰＡ法を強化学習用に変更したものである。クラス分類問題用のＯＰＡ法では誤分類数が０となるような制約を与える。強化学習においては、Ｑ_Ｐ（ｓ_ｔ，ａ_ｔ）は、将来にわたり得られる報酬の期待値であるから、その定義式、式（１）から理想状態では制約式が成り立つはずであり、これを与えたものである。

この制約付き最小化問題を、ラグランジュの未定乗数法を用いて解くと次の解析解が得られる。

この発明は、式（５）と式（６）によって得られたΦ_ｔ＋１を方策関数のモデルパラメータとして利用する。この式から明らかなように、この発明では、モデルパラメータを、時刻ｔごとに逐次求めることが可能であり、演算量も極めて小さい。

なお、この発明ではＦ_Φ（ｓ_ｔ，ａ_ｔ）＝Φ・Ｖ（ｓ_ｔ，ａ_ｔ）としていることから、背景技術で説明したように、方策関数Ｐ（ｓ_ｔ，ａ_ｔ）はΦ・Ｖ（ｓ_ｔ，ａ_ｔ）とすれば良い。もしくは、次式としても良い。式（７）の分母は、行動情報ａについての正規化項である。

また、式（６）の分母は、素性ベクトルの大きさが引数ｓ，ａによって大きく異なる場合（例えば、素性ベクトルの非ゼロの要素数が極端に異なる場合や、一部の要素の値が引数によって極端に変化する場合）に、それを補正するための項と解釈できる。実際、報酬の実測値と現在のモデルパラメータにおける価値関数の推定値との差分を評価しているのは、式（６）の分子の部分である。よって、式（６）の分母は、素性ベクトルの大きさの分布によっては、任意の定数（例えば０超の実数）や演算量のより小さい０次ノルムや１次ノルムで代用しても本発明が適正に動作することは明らかである。もちろん、３次以上のノルムを用いても良い。

図１に、この発明の線形モデルに基づく強化学習装置１００の機能構成例を示す。その動作フローを図２に示す。線形モデルに基づく強化学習装置１００は、エージェント１１０と制御対象である環境９２０とで構成される。環境９２０は、従来技術（図５）で説明したものと同じである。

エージェント１１０は、行動選択・実行部１１１と、学習部１１２と、モデルパラメータ記録部１１３と、時刻更新部１１４と、を具備する。線形モデルに基づく強化学習装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

行動選択・実行部１１１は、環境９２０の時刻ｔにおける状態情報ｓ_ｔを入力として行動情報ａ_ｔを選択し、当該行動情報ａ_ｔを環境９２０に出力し、当該出力の応答として状態情報ｓ_ｔ＋１と報酬情報ｒ_ｔ＋１を入手し当該状態情報ｓ_ｔ＋１から行動情報ａ_ｔ＋１を選択し、状態情報ｓ_ｔ＋１と行動情報ａ_ｔ＋１と報酬情報ｒ_ｔ＋１と状態情報ｓ_ｔと行動情報ａ_ｔを学習部１１２に出力する（ステップＳ１１１）。ここで、行動情報の選択は、方策関数に従って選択しても良いし、他の基準、例えば一様乱数の値に基づいて選択するようにしても良い。行動情報ａ_ｔを方策に従って選択することにすると、エージェント１１０を動かしながら同時に学習を行うことができる。

学習部１１２は、行動選択・実行部１１１からの状態情報ｓ_ｔ＋１と行動情報ａ_ｔ＋１と報酬情報ｒ_ｔ＋１と状態情報ｓ_ｔと行動情報ａ_ｔを入力として、線形モデルで近似した状態行動対価値関数のモデルパラメータの更新幅を求め、当該更新幅でモデルパラメータを、時刻ｔごとに更新してモデルパラメータ記録部１１３に記録する（ステップＳ１１２）。方策関数のモデルパラメータの更新幅は、上記した式（５）及び式（６）で求める。詳しくは後述する。

モデルパラメータ記録部１１３は、モデルパラメータの他に、行動選択・実行部１１１が出力する各情報を記録するようにしても良い。

時刻更新部１１４は、時刻ｔをｔ＋１として更新する（ステップＳ１１４）。時刻が更新されると、行動選択・実行部１１１は、行動情報ａ_ｔ＋１を環境９２０に出力してその応答として状態情報ｓ_ｔ＋２と報酬情報ｒ_ｔ＋２を入手し、次の状態の処理を行う。ただし、行動情報ａ_ｔ＋１は前の時刻で選択したものを直接利用しても良いし、改めて選択し直しても良い。この行動選択・実行過程（ステップＳ１１１）〜時刻更新過程（Ｓ１１４）の処理は、繰り返される。繰り返しの処理は、無限に行っても良いし、終了判定部１１５を設け、所定の終了条件で終了させても良い（ステップＳ１１５のＹｅｓ）。終了条件は、所定の時間や、所定の状態への遷移等が考えられる。

以上のように動作する線形モデルに基づく強化学習装置１００よれば、方策関数のモデルパラメータΦを時刻ｔごとに求めることができる。以降では、線形モデルに基づく強化学習装置１００の要部である学習部１１２のより具体的な機能構成例を示して更に詳しくこの実施例を説明する。

〔学習部〕
図３に、学習部１１２の機能構成例を示す。その動作フローを図４に示す。学習部１１２は、素性残差算出手段１１２０と、推定誤差算出手段１１２１と、補正量演算手段１１２２と、モデルパラメータ更新手段１１２３と、を具備する。

素性残差算出手段１１２０は、行動選択・実行部１１１が出力する状態情報ｓ_ｔと行動情報ａ_ｔと状態情報ｓ_ｔ＋１と行動情報ａ_ｔ＋１と報酬情報ｒ_ｔ＋１とを入力として、状態情報と行動情報に基づく素性ベクトルＶ_ｔ（＝Ｖ（ｓ_ｔ，ａ_ｔ））とＶ_ｔ＋１（＝Ｖ（ｓ_ｔ＋１，ａ_ｔ＋１））を生成し、素性ベクトルＶ_ｔ＋１に割引率γを乗じた値から素性ベクトルＶ_ｔを減じた素性残差Ｘ（式（８））を算出する（ステップＳ１１２０）。

推定誤差算出手段１１２１は、素性残差算出手段１１２９が出力する素性残差Ｘと時刻ｔのモデルパラメータΦ_ｔとの内積を求め、当該内積値に報酬ｒ_ｔ＋１を加算した推定誤差Ｅ（式（９））を求める（ステップＳ１１２１）。

補正量演算手段１１２２は、推定誤差算出手段１１２１が出力する推定誤差Ｅを補正係数で除したモデルパラメータΦの更新幅η（式（１０））を求める（ステップＳ１１２２）。

ここで、上記したように式（１０）の分母は、任意の定数（例えば０超の実数）や２次以外のノルムで代用しても良い。

モデルパラメータ更新手段１１２３は、素性残差算出手段１１２０が出力する素性残差Ｘと補正量演算手段１１２２が出力する更新幅ηを入力として、モデルパラメータΦ_ｔから上残差Ｘに更新幅ηを乗じた値を減じてモデルパラメータΦ_ｔ＋１を更新（式（１１））する（ステップＳ１１２３）。

式（６）の分子に注目すると、その分子は素性残差Ｘと時刻ｔのモデルパラメータΦ_ｔとの内積値に、報酬ｒ_ｔ＋１を加算した式（１２）で表されるものである。

このように学習部１１２は、計算コストの高い内積演算の回数を少なくする計算手順になっており、全体として計算効率が高い。つまり、高速でモデルパラメータΦ_ｔ＋１の更新が行える。このようにして求めたモデルパラメータΦ_ｔ＋１を方策関数のモデルパラメータとして利用する。

以上説明したように、本願発明の線形モデルに基づく強化学習法は、線形モデルの利用を前提とした強化学習を可能にし、１つのデータが観測されるごとにモデルパラメータの更新ができる。また、モデルパラメータの更新に関わる演算量も極めて小さい。これにより、ある環境に配置するだけで、逐次（時刻ｔ毎）、行動の選択と学習を繰り返して環境への適応を行うエージェントを実現することができる。

なお、例えば参考文献１（Koby Crammer, Ofer Dekel, Joseph Keshet, Shai Shalev-Shwartz, YoramSinger, “Online Passive-Aggressive Algorithms,” The Journal of Machine Learning Research, Vol. 7, pp. 551-585, 2006.）に記載されているように、ＯＰＡアルゴリズムでは過学習への対策としてスラッグ変数法が用いられる。この考えは本願発明に適用することも可能である。その場合、上記した式（１０）は、次式の何れかに置換する。

ここでＣは正の実数の定数であり、事前に定めるハイパーパラメータである。Ｃの値は、行動選択・実行部１１１の初期値を設定する時に同時に設定する。式（１３）は、更新幅ηの上限を、ハイパーパラメータＣとして設定したものである。式（１４）は、式（１０）の分母の値（つまり式（１４）のノルム部分）が０に近づくことで更新幅ηが発散することを防止したものである。このスラッグ変数法を利用すると、モデルパラメータΦ_ｔ＋１の更新値のはずれ点を回避する効果が期待できる。

なお、過学習の対策としては、モデルパラメータΦ_ｔを全時刻（複数時刻）にわたって平均化したものを方策関数に用いても良い（式（１５））。

ここでＩはモデルパラメータの更新回数である。平均化モデルパラメータの使用は、過学習の防止などの目的でパターン認識の分野で一般的に利用される方法である。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明は、ロボット制御、経路探索、対話等の強化学習適用分野全般で利用することができる。

Claims

行動選択・実行部が、制御対象の時刻ｔにおける状態情報ｓ_ｔを入力として行動情報ａ_ｔを選択し、当該行動情報ａ_ｔを上記制御対象に出力し、当該出力の応答として状態情報ｓ_ｔ＋１と報酬情報ｒ_ｔ＋１を入手し当該状態情報ｓ_ｔ＋１から行動情報ａ_ｔ＋１を選択し、上記状態情報ｓ_ｔ＋１と上記行動情報ａ_ｔ＋１と上記報酬情報ｒ_ｔ＋１と上記状態情報ｓ_ｔと上記行動情報ａ_ｔを学習部に出力する行動選択・実行過程と、
学習部が、上記状態情報ｓ_ｔと上記行動情報ａ_ｔと上記状態情報ｓ_ｔ＋１と上記行動情報ａ_ｔ＋１と上記報酬情報ｒ_ｔ＋１を入力として、線形モデルで近似した方策関数のモデルパラメータの更新幅を求め、当該更新幅で上記モデルパラメータを、時刻ｔごとに更新してモデルパラメータ記録部に記録する学習過程と、
時刻更新部が、時刻ｔを更新する時刻更新過程と、
を備える線形モデルに基づく強化学習方法。
請求項１に記載した線形モデルに基づく強化学習方法において、
上記学習過程は、
素性残差算出手段が、上記状態情報ｓ_ｔと上記行動情報ａ_ｔと上記状態情報ｓ_ｔ＋１と上記行動情報ａ_ｔ＋１と上記報酬情報ｒ_ｔ＋１を入力として、状態情報と行動情報に基づく素性ベクトルＶ_ｔとＶ_ｔ＋１を生成し、上記素性ベクトルＶ_ｔ＋１に割引率を乗じた値から上記素性ベクトルＶ_ｔを減じた素性残差Ｘを算出する素性残差算出ステップと、
推定誤差算出手段が、上記素性残差Ｘと時刻ｔのモデルパラメータΦ_ｔとの内積を求め、当該内積値に上記報酬ｒ_ｔ＋１を加算した推定誤差Ｅを求める推定誤差算出ステップと、
補正量演算手段が、上記推定誤差Ｅを補正係数で除したモデルパラメータの更新幅ηを求める補正量演算ステップと、
モデルパラメータ更新手段が、上記素性残差Ｘと上記更新幅ηを入力として、上記モデルパラメータΦ_ｔから上記素性残差Ｘと上記更新幅ηを乗じた値を減じてモデルパラメータΦ_ｔ＋１を更新するモデルパラメータ更新ステップと、
を含むことを特徴とする線形モデルに基づく強化学習方法。
請求項２に記載した線形モデルに基づく強化学習方法において、
上記素性残差算出ステップは、１未満０超の実数である割引率γ、素性ベクトルＶとして、素性残差Ｘを次式で算出するステップであり、

上記推定誤差算出ステップは、時刻ｔ＋１の報酬ｒ_ｔ＋１として、推定誤差Ｅを次式で算出するステップであり、

上記補正量演算ステップは、更新幅ηを次式で算出するステップであり、

上記モデルパラメータ更新手段は、モデルパラメータΦを次式で、

更新するステップであることを特徴とする線形モデルに基づく強化学習方法。
制御対象の時刻ｔにおける状態情報ｓ_ｔを入力として行動情報ａ_ｔを選択し、当該行動情報ａ_ｔを上記制御対象に出力し、当該出力の応答として状態情報ｓ_ｔ＋１と報酬情報ｒ_ｔ＋１を入手し当該状態情報ｓ_ｔ＋１から行動情報ａ_ｔ＋１を選択し、上記状態情報ｓ_ｔ＋１と上記行動情報ａ_ｔ＋１と上記報酬情報ｒ_ｔ＋１と上記状態情報ｓ_ｔと上記行動情報ａ_ｔを学習部に出力する行動選択・実行部と、
上記状態情報ｓ_ｔと上記行動情報ａ_ｔと上記状態情報ｓ_ｔ＋１と上記行動情報ａ_ｔ＋１と上記報酬情報ｒ_ｔ＋１を入力として、線形モデルで近似した方策関数のモデルパラメータの更新幅を求め、当該更新幅で上記モデルパラメータを、時刻ｔごとに更新してモデルパラメータ記録部に記録する学習部と、
時刻ｔを更新する時刻更新部と、
を具備する線形モデルに基づく強化学習装置。
請求項４に記載した線形モデルに基づく強化学習装置において、
上記学習部は、
上記状態情報ｓ_ｔと上記行動情報ａ_ｔと上記状態情報ｓ_ｔ＋１と上記行動情報ａ_ｔ＋１と上記報酬情報ｒ_ｔ＋１を入力として、状態情報と行動情報に基づく素性ベクトルＶ_ｔとＶ_ｔ＋１を生成し、上記素性ベクトルＶ_ｔ＋１に割引率を乗じた値から上記素性ベクトルＶ_ｔを減じた素性残差Ｘを算出する素性残差算出手段と、
上記素性残差Ｘと時刻ｔのモデルパラメータΦ_ｔとの内積を求め、当該内積値に上記報酬ｒ_ｔ＋１を加算した推定誤差Ｅを求める推定誤差算出手段と、
上記推定誤差Ｅを補正係数で除したモデルパラメータの更新幅ηを求める補正量演算手段と、
上記素性残差Ｘと上記更新幅ηを入力として、上記モデルパラメータΦ_ｔから上記素性残差Ｘと上記更新幅ηを乗じた値を減じてモデルパラメータΦ_ｔ＋１を更新するモデルパラメータ更新手段と、
を備えることを特徴とする線形モデルに基づく強化学習装置。
請求項５に記載した線形モデルに基づく強化学習装置において、
上記素性残差算出手段は、１未満０超の実数である割引率γ、素性ベクトルＶとして、素性残差Ｘを次式で算出し、

上記推定誤差算出手段は、時刻ｔ＋１の報酬ｒ_ｔ＋１として、推定誤差Ｅを次式で算出し、

上記補正量演算手段は、更新幅ηを次式で算出し、

上記モデルパラメータ更新手段は、モデルパラメータΦを次式で、

更新する手段であることを特徴とする線形モデルに基づく強化学習装置。
請求項４乃至６の何れか１項に記載した線形モデルに基づく強化学習装置としてコンピュータを動作させるためのプログラム。