JP5968259B2 - 線形モデルに基づく強化学習方法とその装置とプログラム - Google Patents

線形モデルに基づく強化学習方法とその装置とプログラム Download PDF

Info

Publication number
JP5968259B2
JP5968259B2 JP2013082569A JP2013082569A JP5968259B2 JP 5968259 B2 JP5968259 B2 JP 5968259B2 JP 2013082569 A JP2013082569 A JP 2013082569A JP 2013082569 A JP2013082569 A JP 2013082569A JP 5968259 B2 JP5968259 B2 JP 5968259B2
Authority
JP
Japan
Prior art keywords
information
state information
action
model parameter
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013082569A
Other languages
English (en)
Other versions
JP2014206795A (ja
Inventor
隆伸 大庭
隆伸 大庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013082569A priority Critical patent/JP5968259B2/ja
Publication of JP2014206795A publication Critical patent/JP2014206795A/ja
Application granted granted Critical
Publication of JP5968259B2 publication Critical patent/JP5968259B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Description

本発明は、線形モデルの利用を前提とした強化学習方法とその装置とプログラムに関する。
強化学習は、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動(方策)を決定する問題を扱う機械学習の一種である。実問題では環境が変化する。若しくは学習環境において、あらゆる状態を観測することは困難であるため、現在の環境に方策を適応させることが重要な課題となる。一般に、ある環境にて最適化された方策(policy)は、他の環境では最適とならない。
環境の全ての状態が定義可能な強化学習法としては、マルコフ決定過程が周知である(非特許文献1)。一方、具体的に状態を定義するのではなく、観測可能な特徴量(素性ベクトル)から、あるモデルに従って最適な行動を決定する強化学習方法も知られている(非特許文献2)。
図5に、従来の強化学習装置900の機能構成を示す。強化学習装置900は、制御装置であるエージェント910と制御対象である環境920と、で構成される。環境920は、行動のセット{a}、状態のセット{s}、遷移確率p(s′|s,a)、期待報酬E[r(s,a)]、で定義されるものである。エージェントが状態sで行動aを選択すると確率p(s′|s,a)で状態s′に遷移し、その際に報酬r(s,a)を得る。
エージェント910は、環境920から与えられる各状態において方策P(s,a)に従った行動を採る。基本的には方策P(s,a)を最大にする行動aを選択する。若しくは、方策P(s,a)が確率モデルであるとすると、方策P(s,a)の行動aに関する確率分布に従って行動aを選択する。tは時刻である。
強化学習の目的は、将来にわたり得られる報酬rの期待値を最適化する方策P(s,a)を決めることにある。将来にわたり得られる報酬の期待値E[r(s,a)]の定義には幾つかのバリエーションが存在する。例えば、報酬の期待値E[r(s,a)]は次式で定義される。
Figure 0005968259
ここでγは、遠い将来に得られる報酬ほど割り引いて評価するための割引率であり1未満0超の実数である。sは状態の初期値、aは行動の初期値である。Q(s,a)は状態行動対価値関数などと称される。状態数が多ければ探索空間が広くなりデータを大量に収集する必要がある。そこで、状態行動対価値関数Q(s,a)を、モデルパラメータΦでパラメータライズされた関数FΦ(s,a)で近似する方法が存在する。その上で、方策関数P(s,a)は関数FΦ(s,a)を用いて設計される。最も単純には、P(s,a)=FΦ(s,a)とすれば良い。もしくは、次式で表されるようなロジスティック関数を用いた確率としても良い。式(2)の分母は、行動aについての正規化項である。
Figure 0005968259
学習において、任意の目的関数を定義して、それを最大化するモデルパラメータΦを推定する。目的関数には、学習データから得られた報酬の実測値と方策基礎関数FΦ(s,a)との最小二乗誤差などが用いられる。目的関数を最大化するモデルパラメータΦは勾配法などで求める。勾配法の場合、目的関数の微分を算出する必要があり、正確な勾配を算出するためには複数の時刻にわたるデータの蓄積が必要である。
http://en.wikipedia.org/wiki/Markov decision process Akiyama, T., Hachiya, H., & Sugiyama, M. Active policy iteration: Efficient exploration through active learning for value function approximation in reinforcement learning. In Proceedings of the Twenty-First International Joint Conference on Artificial Intelligence(IJCAI2009),pp.980-985, Pasadena, California, USA, Jul. 11-17, 2009.
従来の強化学習方法は、正確なモデルパラメータΦを算出するのに複数の時刻にわたるデータの蓄積が必要である。そのために、どのタイミングで適応(再学習)すべきかが問題となり、時刻tごとに結果を求めるリアルタイム処理には不向きな方法であった。
本発明は、これらの課題に鑑みてなされたものであり、1つのデータが観測されるごとにモデルパラメータΦの更新を可能とするリアルタイム処理に適した線形モデルに基づく強化学習方法と、その装置とプログラムを提供することを目的とする。
本願発明の線形モデルに基づく強化学習方法は、行動選択・実行過程と、学習過程と、時刻更新過程と、を備える。行動選択・実行過程は、制御対象の時刻tにおける状態情報sを入力として行動情報aを選択し、当該行動情報aを制御対象に出力し、当該出力の応答として状態情報st+1と報酬情報rt+1を入手し当該状態情報st+1から行動情報at+1を選択し、状態情報st+1と行動情報at+1と報酬情報rt+1と状態情報sと行動情報aを学習部に出力する。学習過程は、状態情報sと行動情報aと状態情報st+1と行動情報at+1と報酬情報rt+1を入力として、線形モデルで近似した方策関数のモデルパラメータの更新幅を求め、当該更新幅でモデルパラメータを、時刻tごとに更新してモデルパラメータ記録部に記録する。時刻更新過程は、時刻tを更新する。
本発明の線形モデルに基づく強化学習方法によれば、方策関数のモデルパラメータの更新幅を、時刻tごとに求めてモデルパラメータを更新するので、従来の強化学習方法よりも高速にモデルパラメータを推定することができる。
本発明の線形モデルに基づく強化学習装置100の機能構成例を示す図。 線形モデルに基づく強化学習装置100の動作フローを示す図。 学習部112の機能構成例を示す図。 学習部112の動作フローを示す図。 従来の強化学習装置900の機能構成を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
〔発明の考え〕
実施例の説明の前にこの発明の新しい考え方を説明する。この発明は、パターン認識の分野で用いられるオンライン学習法を強化学習に応用したものであり、線形モデルを前提としたOPA(Online Passive Aggressive)アルゴリズムを強化学習に転用する考えに基づく。
この発明は、先ず、状態行動対価値関数Q(s,a)を次式の線形モデルで近似する。
Figure 0005968259
Vは素性ベクトル、・は内積演算子である。素性ベクトルは、観測可能な特徴量のことであり、例えば複数のセンサ信号の検出信号列のようなものである。素性ベクトルVは、状態sと行動aによって変化するものである。
そして、この発明では、次式に示す制約付き最小化問題を設定する。
Figure 0005968259
ここでγは、1未満0超の実数の割引率であり、報酬の発散を防ぐ働きをする。
式(4)の制約式(s.t.の右側の式)は、OPA法を強化学習用に変更したものである。クラス分類問題用のOPA法では誤分類数が0となるような制約を与える。強化学習においては、Q(s,a)は、将来にわたり得られる報酬の期待値であるから、その定義式、式(1)から理想状態では制約式が成り立つはずであり、これを与えたものである。
この制約付き最小化問題を、ラグランジュの未定乗数法を用いて解くと次の解析解が得られる。
Figure 0005968259
この発明は、式(5)と式(6)によって得られたΦt+1を方策関数のモデルパラメータとして利用する。この式から明らかなように、この発明では、モデルパラメータを、時刻tごとに逐次求めることが可能であり、演算量も極めて小さい。
なお、この発明ではFΦ(s,a)=Φ・V(s,a)としていることから、背景技術で説明したように、方策関数P(s,a)はΦ・V(s,a)とすれば良い。もしくは、次式としても良い。式(7)の分母は、行動情報aについての正規化項である。
Figure 0005968259
また、式(6)の分母は、素性ベクトルの大きさが引数s,aによって大きく異なる場合(例えば、素性ベクトルの非ゼロの要素数が極端に異なる場合や、一部の要素の値が引数によって極端に変化する場合)に、それを補正するための項と解釈できる。実際、報酬の実測値と現在のモデルパラメータにおける価値関数の推定値との差分を評価しているのは、式(6)の分子の部分である。よって、式(6)の分母は、素性ベクトルの大きさの分布によっては、任意の定数(例えば0超の実数)や演算量のより小さい0次ノルムや1次ノルムで代用しても本発明が適正に動作することは明らかである。もちろん、3次以上のノルムを用いても良い。
図1に、この発明の線形モデルに基づく強化学習装置100の機能構成例を示す。その動作フローを図2に示す。線形モデルに基づく強化学習装置100は、エージェント110と制御対象である環境920とで構成される。環境920は、従来技術(図5)で説明したものと同じである。
エージェント110は、行動選択・実行部111と、学習部112と、モデルパラメータ記録部113と、時刻更新部114と、を具備する。線形モデルに基づく強化学習装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
行動選択・実行部111は、環境920の時刻tにおける状態情報sを入力として行動情報aを選択し、当該行動情報aを環境920に出力し、当該出力の応答として状態情報st+1と報酬情報rt+1を入手し当該状態情報st+1から行動情報at+1を選択し、状態情報st+1と行動情報at+1と報酬情報rt+1と状態情報sと行動情報aを学習部112に出力する(ステップS111)。ここで、行動情報の選択は、方策関数に従って選択しても良いし、他の基準、例えば一様乱数の値に基づいて選択するようにしても良い。行動情報aを方策に従って選択することにすると、エージェント110を動かしながら同時に学習を行うことができる。
学習部112は、行動選択・実行部111からの状態情報st+1と行動情報at+1と報酬情報rt+1と状態情報sと行動情報aを入力として、線形モデルで近似した状態行動対価値関数のモデルパラメータの更新幅を求め、当該更新幅でモデルパラメータを、時刻tごとに更新してモデルパラメータ記録部113に記録する(ステップS112)。方策関数のモデルパラメータの更新幅は、上記した式(5)及び式(6)で求める。詳しくは後述する。
モデルパラメータ記録部113は、モデルパラメータの他に、行動選択・実行部111が出力する各情報を記録するようにしても良い。
時刻更新部114は、時刻tをt+1として更新する(ステップS114)。時刻が更新されると、行動選択・実行部111は、行動情報at+1を環境920に出力してその応答として状態情報st+2と報酬情報rt+2を入手し、次の状態の処理を行う。ただし、行動情報at+1は前の時刻で選択したものを直接利用しても良いし、改めて選択し直しても良い。この行動選択・実行過程(ステップS111)〜時刻更新過程(S114)の処理は、繰り返される。繰り返しの処理は、無限に行っても良いし、終了判定部115を設け、所定の終了条件で終了させても良い(ステップS115のYes)。終了条件は、所定の時間や、所定の状態への遷移等が考えられる。
以上のように動作する線形モデルに基づく強化学習装置100よれば、方策関数のモデルパラメータΦを時刻tごとに求めることができる。以降では、線形モデルに基づく強化学習装置100の要部である学習部112のより具体的な機能構成例を示して更に詳しくこの実施例を説明する。
〔学習部〕
図3に、学習部112の機能構成例を示す。その動作フローを図4に示す。学習部112は、素性残差算出手段1120と、推定誤差算出手段1121と、補正量演算手段1122と、モデルパラメータ更新手段1123と、を具備する。
素性残差算出手段1120は、行動選択・実行部111が出力する状態情報sと行動情報aと状態情報st+1と行動情報at+1と報酬情報rt+1とを入力として、状態情報と行動情報に基づく素性ベクトルV(=V(s,a))とVt+1(=V(st+1,at+1))を生成し、素性ベクトルVt+1に割引率γを乗じた値から素性ベクトルVを減じた素性残差X(式(8))を算出する(ステップS1120)。
Figure 0005968259
推定誤差算出手段1121は、素性残差算出手段1129が出力する素性残差Xと時刻tのモデルパラメータΦとの内積を求め、当該内積値に報酬rt+1を加算した推定誤差E(式(9))を求める(ステップS1121)。
Figure 0005968259
補正量演算手段1122は、推定誤差算出手段1121が出力する推定誤差Eを補正係数で除したモデルパラメータΦの更新幅η(式(10))を求める(ステップS1122)。
Figure 0005968259
ここで、上記したように式(10)の分母は、任意の定数(例えば0超の実数)や2次以外のノルムで代用しても良い。
モデルパラメータ更新手段1123は、素性残差算出手段1120が出力する素性残差Xと補正量演算手段1122が出力する更新幅ηを入力として、モデルパラメータΦから上残差Xに更新幅ηを乗じた値を減じてモデルパラメータΦt+1を更新(式(11))する(ステップS1123)。
Figure 0005968259
式(6)の分子に注目すると、その分子は素性残差Xと時刻tのモデルパラメータΦとの内積値に、報酬rt+1を加算した式(12)で表されるものである。
Figure 0005968259
このように学習部112は、計算コストの高い内積演算の回数を少なくする計算手順になっており、全体として計算効率が高い。つまり、高速でモデルパラメータΦt+1の更新が行える。このようにして求めたモデルパラメータΦt+1を方策関数のモデルパラメータとして利用する。
以上説明したように、本願発明の線形モデルに基づく強化学習法は、線形モデルの利用を前提とした強化学習を可能にし、1つのデータが観測されるごとにモデルパラメータの更新ができる。また、モデルパラメータの更新に関わる演算量も極めて小さい。これにより、ある環境に配置するだけで、逐次(時刻t毎)、行動の選択と学習を繰り返して環境への適応を行うエージェントを実現することができる。
なお、例えば参考文献1(Koby Crammer, Ofer Dekel, Joseph Keshet, Shai Shalev-Shwartz, YoramSinger, “Online Passive-Aggressive Algorithms,” The Journal of Machine Learning Research, Vol. 7, pp. 551-585, 2006.)に記載されているように、OPAアルゴリズムでは過学習への対策としてスラッグ変数法が用いられる。この考えは本願発明に適用することも可能である。その場合、上記した式(10)は、次式の何れかに置換する。
Figure 0005968259
ここでCは正の実数の定数であり、事前に定めるハイパーパラメータである。Cの値は、行動選択・実行部111の初期値を設定する時に同時に設定する。式(13)は、更新幅ηの上限を、ハイパーパラメータCとして設定したものである。式(14)は、式(10)の分母の値(つまり式(14)のノルム部分)が0に近づくことで更新幅ηが発散することを防止したものである。このスラッグ変数法を利用すると、モデルパラメータΦt+1の更新値のはずれ点を回避する効果が期待できる。
なお、過学習の対策としては、モデルパラメータΦを全時刻(複数時刻)にわたって平均化したものを方策関数に用いても良い(式(15))。
Figure 0005968259
ここでIはモデルパラメータの更新回数である。平均化モデルパラメータの使用は、過学習の防止などの目的でパターン認識の分野で一般的に利用される方法である。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明は、ロボット制御、経路探索、対話等の強化学習適用分野全般で利用することができる。

Claims (7)

  1. 行動選択・実行部が、制御対象の時刻tにおける状態情報sを入力として行動情報aを選択し、当該行動情報aを上記制御対象に出力し、当該出力の応答として状態情報st+1と報酬情報rt+1を入手し当該状態情報st+1から行動情報at+1を選択し、上記状態情報st+1と上記行動情報at+1と上記報酬情報rt+1と上記状態情報sと上記行動情報aを学習部に出力する行動選択・実行過程と、
    学習部が、上記状態情報sと上記行動情報aと上記状態情報st+1と上記行動情報at+1と上記報酬情報rt+1を入力として、線形モデルで近似した方策関数のモデルパラメータの更新幅を求め、当該更新幅で上記モデルパラメータを、時刻tごとに更新してモデルパラメータ記録部に記録する学習過程と、
    時刻更新部が、時刻tを更新する時刻更新過程と、
    を備える線形モデルに基づく強化学習方法。
  2. 請求項1に記載した線形モデルに基づく強化学習方法において、
    上記学習過程は、
    素性残差算出手段が、上記状態情報sと上記行動情報aと上記状態情報st+1と上記行動情報at+1と上記報酬情報rt+1を入力として、状態情報と行動情報に基づく素性ベクトルVとVt+1を生成し、上記素性ベクトルVt+1に割引率を乗じた値から上記素性ベクトルVを減じた素性残差Xを算出する素性残差算出ステップと、
    推定誤差算出手段が、上記素性残差Xと時刻tのモデルパラメータΦとの内積を求め、当該内積値に上記報酬rt+1を加算した推定誤差Eを求める推定誤差算出ステップと、
    補正量演算手段が、上記推定誤差Eを補正係数で除したモデルパラメータの更新幅ηを求める補正量演算ステップと、
    モデルパラメータ更新手段が、上記素性残差Xと上記更新幅ηを入力として、上記モデルパラメータΦから上記素性残差Xと上記更新幅ηを乗じた値を減じてモデルパラメータΦt+1を更新するモデルパラメータ更新ステップと、
    を含むことを特徴とする線形モデルに基づく強化学習方法。
  3. 請求項2に記載した線形モデルに基づく強化学習方法において、
    上記素性残差算出ステップは、1未満0超の実数である割引率γ、素性ベクトルVとして、素性残差Xを次式で算出するステップであり、
    Figure 0005968259

    上記推定誤差算出ステップは、時刻t+1の報酬rt+1として、推定誤差Eを次式で算出するステップであり、
    Figure 0005968259

    上記補正量演算ステップは、更新幅ηを次式で算出するステップであり、
    Figure 0005968259

    上記モデルパラメータ更新手段は、モデルパラメータΦを次式で、
    Figure 0005968259

    更新するステップであることを特徴とする線形モデルに基づく強化学習方法。
  4. 制御対象の時刻tにおける状態情報sを入力として行動情報aを選択し、当該行動情報aを上記制御対象に出力し、当該出力の応答として状態情報st+1と報酬情報rt+1を入手し当該状態情報st+1から行動情報at+1を選択し、上記状態情報st+1と上記行動情報at+1と上記報酬情報rt+1と上記状態情報sと上記行動情報aを学習部に出力する行動選択・実行部と、
    上記状態情報sと上記行動情報aと上記状態情報st+1と上記行動情報at+1と上記報酬情報rt+1を入力として、線形モデルで近似した方策関数のモデルパラメータの更新幅を求め、当該更新幅で上記モデルパラメータを、時刻tごとに更新してモデルパラメータ記録部に記録する学習部と、
    時刻tを更新する時刻更新部と、
    を具備する線形モデルに基づく強化学習装置。
  5. 請求項4に記載した線形モデルに基づく強化学習装置において、
    上記学習部は、
    上記状態情報sと上記行動情報aと上記状態情報st+1と上記行動情報at+1と上記報酬情報rt+1を入力として、状態情報と行動情報に基づく素性ベクトルVとVt+1を生成し、上記素性ベクトルVt+1に割引率を乗じた値から上記素性ベクトルVを減じた素性残差Xを算出する素性残差算出手段と、
    上記素性残差Xと時刻tのモデルパラメータΦとの内積を求め、当該内積値に上記報酬rt+1を加算した推定誤差Eを求める推定誤差算出手段と、
    上記推定誤差Eを補正係数で除したモデルパラメータの更新幅ηを求める補正量演算手段と、
    上記素性残差Xと上記更新幅ηを入力として、上記モデルパラメータΦから上記素性残差Xと上記更新幅ηを乗じた値を減じてモデルパラメータΦt+1を更新するモデルパラメータ更新手段と、
    を備えることを特徴とする線形モデルに基づく強化学習装置。
  6. 請求項5に記載した線形モデルに基づく強化学習装置において、
    上記素性残差算出手段は、1未満0超の実数である割引率γ、素性ベクトルVとして、素性残差Xを次式で算出し、
    Figure 0005968259

    上記推定誤差算出手段は、時刻t+1の報酬rt+1として、推定誤差Eを次式で算出し、
    Figure 0005968259

    上記補正量演算手段は、更新幅ηを次式で算出し、
    Figure 0005968259

    上記モデルパラメータ更新手段は、モデルパラメータΦを次式で、
    Figure 0005968259

    更新する手段であることを特徴とする線形モデルに基づく強化学習装置。
  7. 請求項4乃至6の何れか1項に記載した線形モデルに基づく強化学習装置としてコンピュータを動作させるためのプログラム。
JP2013082569A 2013-04-11 2013-04-11 線形モデルに基づく強化学習方法とその装置とプログラム Expired - Fee Related JP5968259B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013082569A JP5968259B2 (ja) 2013-04-11 2013-04-11 線形モデルに基づく強化学習方法とその装置とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013082569A JP5968259B2 (ja) 2013-04-11 2013-04-11 線形モデルに基づく強化学習方法とその装置とプログラム

Publications (2)

Publication Number Publication Date
JP2014206795A JP2014206795A (ja) 2014-10-30
JP5968259B2 true JP5968259B2 (ja) 2016-08-10

Family

ID=52120317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013082569A Expired - Fee Related JP5968259B2 (ja) 2013-04-11 2013-04-11 線形モデルに基づく強化学習方法とその装置とプログラム

Country Status (1)

Country Link
JP (1) JP5968259B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210049486A1 (en) * 2019-08-13 2021-02-18 Fujitsu Limited Policy improvement method, policy improvement program storage medium, and policy improvement device

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6522488B2 (ja) * 2015-07-31 2019-05-29 ファナック株式会社 ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
JP6240689B2 (ja) 2015-07-31 2017-11-29 ファナック株式会社 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法
DE102016009030B4 (de) 2015-07-31 2019-05-09 Fanuc Corporation Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs
JP6088613B1 (ja) * 2015-09-30 2017-03-01 ファナック株式会社 ロータにおける磁石の配置位置を学習する機械学習装置および方法ならびに該機械学習装置を備えたロータ設計装置
JP6616170B2 (ja) * 2015-12-07 2019-12-04 ファナック株式会社 コアシートの積層動作を学習する機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法
JP6730843B2 (ja) * 2016-05-06 2020-07-29 日本ユニシス株式会社 コミュニケーション支援システム
JP7031603B2 (ja) * 2016-11-29 2022-03-08 ソニーグループ株式会社 情報処理装置及び情報処理方法
JP7092138B2 (ja) * 2017-09-08 2022-06-28 日本電気株式会社 メンテナンス範囲最適化装置、メンテナンス範囲最適化方法、及びプログラム
WO2019064322A1 (ja) * 2017-09-26 2019-04-04 株式会社日立製作所 機器制御システム
CN108944940B (zh) * 2018-06-25 2020-05-19 大连大学 基于神经网络的驾驶员行为建模方法
WO2020065810A1 (ja) * 2018-09-27 2020-04-02 日本電気株式会社 情報処理装置及びシステム、並びに、モデル適応方法及びプログラムが格納された非一時的なコンピュータ可読媒体
US11580445B2 (en) * 2019-03-05 2023-02-14 Salesforce.Com, Inc. Efficient off-policy credit assignment
JP7188194B2 (ja) 2019-03-07 2022-12-13 富士通株式会社 方策改善方法、方策改善プログラム、および方策改善装置
CN111273677B (zh) * 2020-02-11 2023-05-12 哈尔滨工程大学 基于强化学习技术的自主水下机器人速度和艏向控制方法
CN114454160B (zh) * 2021-12-31 2024-04-16 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统
JPWO2023170783A1 (ja) * 2022-03-08 2023-09-14

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007065929A (ja) * 2005-08-30 2007-03-15 Okinawa Institute Of Science & Technology 制御器、制御方法および制御プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210049486A1 (en) * 2019-08-13 2021-02-18 Fujitsu Limited Policy improvement method, policy improvement program storage medium, and policy improvement device
US11983642B2 (en) * 2019-08-13 2024-05-14 Fujitsu Limited Policy improvement method, policy improvement program storage medium, and policy improvement device

Also Published As

Publication number Publication date
JP2014206795A (ja) 2014-10-30

Similar Documents

Publication Publication Date Title
JP5968259B2 (ja) 線形モデルに基づく強化学習方法とその装置とプログラム
CN107765347B (zh) 一种高斯过程回归和粒子滤波的短期风速预测方法
Triebe et al. Ar-net: A simple auto-regressive neural network for time-series
Yassin et al. Binary particle swarm optimization structure selection of nonlinear autoregressive moving average with exogenous inputs (NARMAX) model of a flexible robot arm
Martinez et al. H-infinity set-membership observer design for discrete-time LPV systems
US9286573B2 (en) Cost-aware non-stationary online learning
Tronarp et al. Sigma-point filtering for nonlinear systems with non-additive heavy-tailed noise
Yuan et al. Design and performance analysis of deterministic learning of sampled-data nonlinear systems
CN111433689B (zh) 用于目标系统的控制系统的生成
Xu et al. Continuous-action reinforcement learning with fast policy search and adaptive basis function selection
JP6283112B2 (ja) データに基づく関数モデルを定めるための方法及び装置
Zucchet et al. Beyond backpropagation: bilevel optimization through implicit differentiation and equilibrium propagation
JP6631540B2 (ja) 情報処理システム、変化点検出方法、およびプログラム
Kumaraswamy et al. Context-dependent upper-confidence bounds for directed exploration
Wang et al. Suboptimal adaptive Kalman filtering based on the proportional control of prior error covariance
Sun et al. PiSL: Physics-informed Spline Learning for data-driven identification of nonlinear dynamical systems
Blier et al. Unbiased methods for multi-goal reinforcement learning
Romanova Multi-objective optimization of dynamic systems and problem of the Pareto front control
Wijesuriya et al. Bayes-adaptive planning for data-efficient verification of uncertain Markov decision processes
JP6919856B2 (ja) 強化学習プログラム、強化学習方法、および強化学習装置
Knight et al. Stable reinforcement learning with recurrent neural networks
Kim et al. Multi-pass sequential mini-batch stochastic gradient descent algorithms for noise covariance estimation in adaptive kalman filtering
Esposito et al. Bellman residuals minimization using online support vector machines
Kocijan et al. System identification with GP models
CN114450645A (zh) 智能过程异常检测和趋势预估系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160705

R150 Certificate of patent or registration of utility model

Ref document number: 5968259

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees