JP2021033767A

JP2021033767A - 強化学習方法、強化学習プログラム、および強化学習装置

Info

Publication number: JP2021033767A
Application number: JP2019154803A
Authority: JP
Inventors: 佳寛大川; Yoshihiro Okawa; 智丈佐々木; Tomotake Sasaki; 秀直岩根; Hidenao Iwane; 仁史屋並; Hitoshi Yanami
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2021-03-01
Anticipated expiration: 2039-08-27
Also published as: JP7263980B2; US20210063974A1

Abstract

【課題】対象の状態が制約条件を充足する確率の向上を図ること。
【解決手段】強化学習装置は、今回の行動を決定するにあたり、状態計測が行われる将来のそれぞれの時点における対象の状態を予測した結果を取得する。強化学習装置は、将来のそれぞれの時点における対象の状態を予測した結果に基づいて、制約条件に対する、将来のそれぞれの時点における対象の状態についての危険度を算出する。強化学習装置は、将来のそれぞれの時点における対象の状態についての危険度と、今回の行動による将来のそれぞれの時点における対象の状態に対する影響度とに応じて調整した探索範囲に基づいて、今回の行動を決定する。
【選択図】図２

Description

本発明は、強化学習方法、強化学習プログラム、および強化学習装置に関する。

従来、対象への行動に応じた対象からの即時コストまたは即時報酬を参照して、対象からの累積コストまたは累積報酬に基づいて対象への行動の価値を規定する価値関数を最適化するような方策を学習していく強化学習の技術がある。価値関数は、状態行動価値関数（Ｑ関数）または状態価値関数（Ｖ関数）などである。

先行技術としては、例えば、線形モデルで近似した方策関数のモデルパラメータの更新幅を求め、求めた更新幅でモデルパラメータを、時刻ごとに更新して記録するものがある。また、例えば、状態に対応する行動価値の更新量と、当該状態をさらに分割した状態に対応する行動価値の更新量との、行動価値の空間における勾配を変換した自然勾配法の勾配によって行動価値を更新する技術がある。また、例えば、操作信号を計算する際に用いる制御パラメータの変化量とプラントの状態変化量とを対応付けた知識情報に基づいて、制御パラメータの探索範囲を決定する技術がある。

特開２０１４−２０６７９５号公報特開２０１１−６５５５３号公報特開２０１７−１５７１１２号公報

しかしながら、従来技術では、強化学習により方策を学習していく最中には、対象の状態が、対象の状態に関する制約条件を充足する確率をコントロールすることはできない。そして、対象の状態が、対象の状態に関する制約条件に違反した結果、対象に悪影響を及ぼすことがある。

１つの側面では、本発明は、対象の状態が制約条件を充足する確率の向上を図ることを目的とする。

１つの実施態様によれば、強化学習における制御の対象の状態計測が行われる時間間隔が前記対象への行動決定が行われる時間間隔とは異なる状態で、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、前記対象の状態計測が行われるそれぞれの時点における前記対象の状態を予測し、予測した前記対象の状態の結果に基づいて、前記対象の状態に関する制約条件に対する、前記それぞれの時点における前記対象の状態についての危険度を算出し、算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて前記対象への今回の行動に関する探索範囲を特定し、特定した前記対象への今回の行動に関する探索範囲に基づいて、前記対象への今回の行動を決定する強化学習方法、強化学習プログラム、および強化学習装置が提案される。

一態様によれば、対象の状態が制約条件を充足する確率の向上を図ることが可能になる。

図１は、実施の形態にかかる強化学習方法の一実施例を示す説明図（その１）である。図２は、実施の形態にかかる強化学習方法の一実施例を示す説明図（その２）である。図３は、強化学習装置１００のハードウェア構成例を示すブロック図である。図４は、履歴テーブル４００の記憶内容の一例を示す説明図である。図５は、強化学習装置１００の機能的構成例を示すブロック図である。図６は、強化学習装置１００の動作例を示す説明図（その１）である。図７は、強化学習装置１００の動作例を示す説明図（その２）である。図８は、強化学習装置１００の動作例を示す説明図（その３）である。図９は、強化学習装置１００の動作例を示す説明図（その４）である。図１０は、強化学習装置１００の動作例を示す説明図（その５）である。図１１は、動作例における強化学習装置１００により得られた効果を示す説明図（その１）である。図１２は、動作例における強化学習装置１００により得られた効果を示す説明図（その２）である。図１３は、対象１１０の具体例を示す説明図（その１）である。図１４は、対象１１０の具体例を示す説明図（その２）である。図１５は、対象１１０の具体例を示す説明図（その３）である。図１６は、全体処理手順の一例を示すフローチャートである。図１７は、決定処理手順の一例を示すフローチャートである。

以下に、図面を参照して、本発明にかかる強化学習方法、強化学習プログラム、および強化学習装置の実施の形態を詳細に説明する。

（実施の形態にかかる強化学習方法の一実施例）
図１および図２は、実施の形態にかかる強化学習方法の一実施例を示す説明図である。強化学習装置１００は、強化学習により対象１１０を制御するためのコンピュータである。強化学習装置１００は、例えば、サーバやＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、または、マイクロコントローラなどである。

対象１１０は、何らかの事象であり、例えば、現実に存在する物理系である。対象１１０は、環境（ｅｎｖｉｒｏｎｍｅｎｔ）とも呼ばれる。対象１１０は、例えば、シミュレータ上に存在してもよい。対象１１０は、具体的には、自動車、自律移動ロボット、産業用ロボット、ドローン、ヘリコプター、サーバルーム、空調設備、発電設備、化学プラント、または、ゲームなどである。

強化学習は、対象１１０を制御する方策を学習していく手法である。方策は、対象１１０への行動（ａｃｔｉｏｎ）を決定するための制御則である。行動は、対象１１０への操作である。行動は、制御入力とも呼ばれる。強化学習は、例えば、対象１１０への行動を決定し、対象１１０の状態と、決定した行動と、決定した行動に応じて計測した対象１１０からの即時コストまたは即時報酬とを参照して、価値関数を最適化するような方策を学習していく。

価値関数は、対象１１０からの累積コストまたは累積報酬に基づいて、対象１１０への行動についての価値を規定する関数である。価値関数は、例えば、状態行動価値関数、または、状態価値関数などである。価値関数は、例えば、状態基底関数を用いて表現される。最適化は、累積コストに基づく価値関数に関しては最小化に対応し、累積報酬に基づく価値関数に関しては最大化に対応する。強化学習は、例えば、対象１１０の性質が不明でも実現可能である。強化学習は、具体的には、Ｑ学習、ＳＡＲＳＡ、または、ａｃｔｏｒ−ｃｒｉｔｉｃなどを利用する。

ここで、対象１１０の状態に対する制約条件が存在する場合、制約条件を充足させつつ対象１１０を制御可能である方策を学習することが望まれる他に、強化学習により方策を学習していく最中にも、制約条件を充足させておくことが望まれる。特に、強化学習を、シミュレータ上の対象１１０ではなく、実在する対象１１０に適用しようとする場合、制約条件を違反すると、実在する対象１１０に悪影響を及ぼすことがある。このため、強化学習により、方策を学習していく最中にも、制約条件を充足させておくことが望まれる。違反とは、制約条件を充足しないことである。

例えば、対象１１０がサーバルームであり、サーバルームの温度を一定以下にする制約条件が存在する場合、制約条件を違反すると、サーバルームにあるサーバが故障しやすくなることがある。また、例えば、対象１１０が風車であり、風車の回転速度を一定以下にする制約条件が存在する場合、制約条件を違反すると、風車が破損しやすくなることがある。このように、制約条件を違反すると、実在する対象１１０は、悪影響を受けることがある。

しかしながら、従来の強化学習では、方策を学習していく最中に、対象１１０への行動を決定するにあたり、対象１１０の状態が制約条件を充足するか否かを考慮していない。このため、方策を学習していく際には、対象１１０の状態が制約条件を違反する確率をコントロールすることができない。また、学習された方策が、制約条件を充足するように対象１１０を制御可能にする方策ではないことがある。従来の強化学習については、例えば、下記非特許文献１が参照される。

非特許文献１：Ｄｏｙａ，Ｋｅｎｊｉ． “Ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｉｎｃｏｎｔｉｎｕｏｕｓｔｉｍｅａｎｄｓｐａｃｅ．” Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ１２．１（２０００）：２１９−２４５．

これに対し、上記従来の強化学習を、制約条件を違反した場合にペナルティを与えるように変更した改良手法が考えられる。この改良手法では、制約条件を充足するように対象１１０を制御可能にする方策を学習可能であるが、強化学習により、方策を学習していく最中には、制約条件を充足させることはできない。

ところで、強化学習により方策を学習していく最中に、制約条件を充足させることができても、学習効率の低下を招くことは好ましくない。例えば、強化学習により方策を学習していく最中に、行動を決定する探索範囲を比較的狭い範囲に固定することが考えられるが、学習効率の低下を招くことがあり、学習効率の観点から好ましくない。

また、予備実験により対象１１０について正確なモデリングを実施し、対象１１０の正確なモデルを用いて、行動を決定する探索範囲を調整することにより、制約条件を違反する確率の低減化を図る手法が考えられる。この手法は、正確なモデリングを実施することが困難な場合には適用することができない。また、この手法では、対象１１０の正確なモデルが複雑なモデルである場合、強化学習にかかる計算負担の増大化を招くことがあり、学習効率の観点から好ましくない。この手法については、例えば、下記非特許文献２が参照される。

非特許文献２：Ｓｕｍｍｅｒｓ，Ｔｙｌｅｒ，ｅｔａｌ． “Ｓｔｏｃｈａｓｔｉｃｏｐｔｉｍａｌｐｏｗｅｒｆｌｏｗｂａｓｅｄｏｎｃｏｎｄｉｔｉｏｎａｌｖａｌｕｅａｔｒｉｓｋａｎｄｄｉｓｔｒｉｂｕｔｉｏｎａｌｒｏｂｕｓｔｎｅｓｓ．” ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＥｌｅｃｔｒｉｃａｌＰｏｗｅｒ＆ＥｎｅｒｇｙＳｙｓｔｅｍｓ７２（２０１５）：１１６−１２５．

また、将来の一時点における対象１１０の状態を予測した結果から求めた、制約条件に対する将来の一時点における対象１１０の状態についての危険度に応じて定まる探索範囲から、対象１１０への今回の行動を決定する手法が考えられる。これにより、制約条件を違反する確率の低減化が図られる。この手法でも、対象１１０の状態が制約条件を違反する確率をコントロールすることが難しい場合がある。

例えば、対象１１０への行動決定が行われる時間間隔が、対象１１０の状態計測が行われる時間間隔とは異なる場合がある。具体的には、対象１１０への行動決定が行われる時間間隔が、対象１１０の状態計測が行われる時間間隔より長く、対象１１０への行動を決定してから、次に対象１１０への行動を決定するまでの間に、対象１１０の状態が複数回遷移する場合がある。この場合、遷移する対象１１０の状態のすべてについて、制約条件を違反する確率をコントロールすることはできない。

より具体的には、強化学習を実施するコンピュータの計算能力が比較的低い場合、または、行動を与えられる装置の反応速度や環境により行動が実際に対象１１０に影響を与えるまでにラグが生じる場合、行動決定が行われる時間間隔が比較的長くなることがある。一例として、計算能力が比較的低い場合、方策を与えるパラメータωの更新にかかる時間の増大化を招き、行動決定が行われる時間間隔が長くなりやすい。このため、対象１１０への行動決定が行われる時間間隔が、対象１１０の状態計測が行われる時間間隔より長くなることがある。

そこで、本実施の形態では、可変の探索範囲から、対象１１０への今回の行動を決定する強化学習方法について説明する。この強化学習方法によれば、強化学習により方策を学習していく最中における、対象１１０の状態が制約条件を充足する確率の向上を図ることができる。

図１に示すように、強化学習装置１００は、強化学習器１０１を用いて、可変の探索範囲から、対象１１０への行動を決定し、対象１１０の状態および対象１１０からの即時報酬を計測し、方策を更新する一連の処理を繰り返すことにより、強化学習を実施する。

強化学習装置１００は、例えば、強化学習において、対象１１０への今回の行動を決定するにあたり、将来のそれぞれの時点における対象１１０の状態を予測した結果に基づいて、可変の探索範囲から、対象１１０への今回の行動を決定して出力する。将来のそれぞれの時点は、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、状態計測が行われるそれぞれの時点である。

ここで、対象１１０への行動決定が行われる時間間隔は、対象１１０の状態計測が行われる時間間隔とは異なるものとする。対象１１０への行動決定が行われる時間間隔は、例えば、対象１１０の状態計測が行われる時間間隔よりも長く、一度対象１１０への行動を決定してから、次に対象１１０への行動を決定するまでの間に、対象１１０の状態が複数回遷移することがある。

次に、図２を用いて、強化学習装置１００が、今回の行動を決定する手法について説明する。

図２に示すように、（２−１）強化学習装置１００は、今回の行動を決定するにあたり、状態計測が行われる将来のそれぞれの時点における対象１１０の状態を予測した結果を取得する。将来のそれぞれの時点は、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる。

強化学習装置１００は、例えば、対象１１０に関する事前知識を用いて、将来のそれぞれの時点における対象１１０の状態を予測することにより、当該対象１１０の状態を予測した結果を取得する。事前知識は、例えば、対象１１０に関するモデル情報を含む。事前知識は、具体的には、将来のそれぞれの時点における対象１１０の状態に関するモデル情報を含む。

モデル情報は、対象１１０の状態と対象１１０への行動との関係を規定する情報である。モデル情報は、例えば、現時点における対象１１０の状態および対象１１０への行動が入力されると、将来のいずれかの時点における対象１１０の状態を出力する関数を規定する。現時点は、例えば、今回の行動決定が行われる時点である。将来のいずれかの時点は、例えば、現時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる時点である。

そして、強化学習装置１００は、将来のそれぞれの時点における対象１１０の状態を予測した結果に基づいて、制約条件に対する、将来のそれぞれの時点における対象１１０の状態についての危険度を算出する。制約条件は、対象１１０の状態に関する制限である。危険度は、例えば、将来のいずれかの時点における対象１１０の状態が、制約条件にどの程度違反しやすくなっているのかを示す。

図２の例では、制約条件として、対象１１０の状態に関する上限が設定される場合について説明する。この場合、強化学習装置１００は、例えば、将来のいずれかの時点における対象１１０の状態の予測値が、上限以下の範囲で上限に近づくほど、危険度が大きくなるように、当該将来のいずれかの時点における対象１１０の状態についての危険度を算出する。

図２のグラフ２００は、時点ごとの対象１１０の状態の予測値と実測値とを示す。実測値は、実線の丸で示す。予測値は、点線の丸で示す。対象１１０の状態に関する上限は、横方向の点線で示す。時点ｋは、現時点であり、今回の行動決定が行われる時点であり、状態計測が行われる時点でもある。時点ｋ＋１，ｋ＋２，・・・，ｋ＋Ｎ−１は、状態計測が行われる時点である。時点ｋ＋Ｎは、次回の行動決定が行われる時点であり、状態計測が行われる時点でもある。時点ｋ＋１，ｋ＋２，・・・，ｋ＋Ｎが、状態計測が行われる将来のそれぞれの時点に対応する。

この場合、強化学習装置１００は、具体的には、将来の時点ｋ＋１，ｋ＋２，・・・，ｋ＋Ｎにおける対象１１０の状態の予測値が、上限にどの程度近いかに基づいて、危険度を算出する。例えば、将来の時点ｋ＋２における対象１１０の状態の予測値は、上限に比較的近いため、将来の時点ｋ＋２における対象１１０の状態についての危険度は、比較的大きい値として算出される。また、例えば、将来の時点ｋ＋Ｎにおける対象１１０の状態の予測値は、上限から比較的遠いため、将来の時点ｋ＋Ｎにおける対象１１０の状態についての危険度は、比較的小さい値として算出される。

これによれば、強化学習装置１００は、今回の行動を決定する探索範囲を調整するための指標を得ることができる。例えば、将来の時点ｋ＋２における対象１１０の状態についての危険度は、比較的大きく、将来の時点ｋ＋２における対象１１０の状態が、制約条件を違反せずに済む範囲２０１が比較的狭いことを示す指標となる。また、例えば、将来の時点ｋ＋Ｎにおける対象１１０の状態についての危険度は、比較的小さく、将来の時点ｋ＋Ｎにおける対象１１０の状態が、制約条件を違反せずに済む範囲２０２が比較的広いことを示す指標となる。

（２−２）強化学習装置１００は、将来のそれぞれの時点における対象１１０の状態についての危険度と、今回の行動による将来のそれぞれの時点における対象１１０の状態に対する影響度とに応じて調整した探索範囲に基づいて、今回の行動を決定する。影響度は、例えば、今回の行動の変化が、将来のそれぞれの時点における対象１１０の状態の変化にどの程度影響を与えるかを示す。

ここで、危険度が大きいほど、将来の時点における対象１１０の状態が制約条件に違反せずに済む範囲が狭いことを示す。そして、今回の行動を決定する探索範囲は、将来の時点における対象１１０の状態が取り得る範囲に対して影響を与え、例えば、今回の行動を決定する探索範囲を広げると、将来の時点における対象１１０の状態が取り得る範囲も広がることになる。このため、危険度が大きいほど、今回の行動を決定する探索範囲を広げた場合に、将来の時点における対象１１０の状態が制約条件に違反してしまう確率も増大する傾向がある。

また、影響度が大きいほど、今回の行動を決定する探索範囲は、将来の時点における対象１１０の状態が取り得る範囲に対して影響を与えやすくなる。例えば、影響度が大きいほど、今回の行動を決定する探索範囲を広げたことにより、将来の時点における対象１１０の状態が取り得る範囲が広がりやすくなる。このため、影響度が大きいほど、今回の行動を決定する探索範囲を広げた場合に、将来の時点における対象１１０の状態が制約条件に違反してしまう確率も増大する傾向がある。

これらの傾向から、探索範囲は、将来の時点における対象１１０の状態についての危険度が大きいほど、狭くなるように調整することが好ましく、将来の時点における対象１１０の状態に対する影響度が大きいほど、狭くなるように調整することが好ましい。

強化学習装置１００は、例えば、将来の時点ごとに、当該将来の時点における対象１１０の状態についての危険度と、当該将来の時点における対象１１０の状態についての算出した危険度とに応じて、探索範囲の候補を定める。強化学習装置１００は、探索範囲の候補のうち最も狭い探索範囲の候補を、今回の行動に関する探索範囲に設定し、今回の行動を決定する。

これにより、強化学習装置１００は、危険度が大きいほど、今回の行動を決定する探索範囲を狭め、将来の時点における対象１１０の状態が制約条件に違反してしまう確率の増大化を抑制することができる。また、強化学習装置１００は、影響度が大きいほど、今回の行動を決定する探索範囲を狭め、将来の時点における対象１１０の状態が制約条件に違反してしまう確率の増大化を抑制することができる。

結果として、強化学習装置１００は、強化学習により、方策を学習していく最中に、対象１１０の状態が制約条件を違反してしまう確率の増大化を抑制することができる。強化学習装置１００は、例えば、一度対象１１０への行動を決定してから、次に対象１１０への行動を決定するまでの間に遷移する、対象１１０の状態のすべてについて、制約条件を違反してしまう確率の増大化を抑制することができる。

一方で、強化学習装置１００は、危険度が小さいほど、対象１１０への行動を決定する探索範囲を広げ、強化学習により方策を学習していく学習効率の低減化を抑制することができる。また、強化学習装置１００は、影響度が小さいほど、対象１１０への行動を決定する探索範囲を広げ、強化学習により方策を学習していく学習効率の低減化を抑制することができる。

ここで、強化学習により方策を学習していく最中に、対象１１０の状態が制約条件を違反する確率をどの程度まで低減可能であるかを、強化学習を開始する前に評価可能にすることが望まれる場合がある。例えば、強化学習を、実在する対象１１０に適用しようとする場合、制約条件を違反すると、実在する対象１１０に悪影響を及ぼすことがある。このため、強化学習により方策を学習していく最中に、対象１１０の状態が制約条件を違反する確率をどの程度まで低減可能であるかを、強化学習を開始する前に評価可能にすることが望まれる。

これに対し、強化学習装置１００は、強化学習により方策を学習していく最中に、対象１１０の状態が制約条件を充足する確率が一定以上に大きくなることを保証可能に、対象１１０への行動を決定することもできる。強化学習装置１００は、例えば、エピソード型の強化学習により方策を学習していく最中に、エピソード内のすべての時点において、対象１１０の状態が制約条件を充足する確率が、予め設定された下限値以上に大きくなることを保証することができる。

エピソード型の強化学習は、対象１１０の状態が初期化されてから対象１１０の状態が制約条件を充足しなくなるまでの期間、または、対象１１０の状態が初期化されてから一定時間が経過するまでの期間を、エピソードとする。エピソードは、学習の単位である。対象１１０の状態が制約条件を充足する確率が一定以上に大きくなることを保証可能にする場合については、具体的には、図５〜図８を用いて後述する動作例において、詳細に説明する。

また、強化学習装置１００は、行動または方策のパラメータに対して、どのような摂動を与えれば、累積コストや累積報酬が最適化されていくかを判断することが難しい状況でも、比較的学習効率よく強化学習を実施することができる。

ここでは、制約条件が１つ設定される場合について説明したが、これに限らない。例えば、制約条件が複数設定される場合があってもよい。この場合、強化学習装置１００は、強化学習により、方策を学習していく最中に、対象１１０の状態が、複数の制約条件を同時に充足する確率の増大化を図る。

ここでは、強化学習装置１００が、対象１１０の状態計測が行われる将来のそれぞれの時点における対象１１０の状態を予測する場合について説明したが、これに限らない。例えば、強化学習装置１００以外に、対象１１０の状態計測が行われる将来のそれぞれの時点における対象１１０の状態を予測する他のコンピュータが存在する場合があってもよい。

この場合、強化学習装置１００は、他のコンピュータから、対象１１０の状態計測が行われる将来のそれぞれの時点における対象１１０の状態を予測した結果を取得する。そして、強化学習装置１００は、対象１１０の状態計測が行われる将来のそれぞれの時点における対象１１０の状態を予測した結果に基づいて、対象１１０の状態計測が行われる将来のそれぞれの時点における対象１１０の状態についての危険度を算出する。

（強化学習装置１００のハードウェア構成例）
次に、図３を用いて、図１および図２に示した強化学習装置１００のハードウェア構成例について説明する。

図３は、強化学習装置１００のハードウェア構成例を示すブロック図である。図３において、強化学習装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１と、メモリ３０２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）３０３と、記録媒体Ｉ／Ｆ３０４と、記録媒体３０５とを有する。また、各構成部は、バス３００によってそれぞれ接続される。

ここで、ＣＰＵ３０１は、強化学習装置１００の全体の制御を司る。メモリ３０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがＣＰＵ３０１のワークエリアとして使用される。メモリ３０２に記憶されるプログラムは、ＣＰＵ３０１にロードされることで、コーディングされている処理をＣＰＵ３０１に実行させる。メモリ３０２は、例えば、強化学習に用いる各種情報を記憶する。メモリ３０２は、具体的には、図４に後述する履歴テーブル４００を記憶する。

ネットワークＩ／Ｆ３０３は、通信回線を通じてネットワーク３１０に接続され、ネットワーク３１０を介して他のコンピュータに接続される。そして、ネットワークＩ／Ｆ３０３は、ネットワーク３１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ３０３は、例えば、モデムやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）アダプタなどである。

記録媒体Ｉ／Ｆ３０４は、ＣＰＵ３０１の制御に従って記録媒体３０５に対するデータのリード／ライトを制御する。記録媒体Ｉ／Ｆ３０４は、例えば、ディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポートなどである。記録媒体３０５は、記録媒体Ｉ／Ｆ３０４の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体３０５は、例えば、ディスク、半導体メモリ、ＵＳＢメモリなどである。記録媒体３０５は、強化学習装置１００から着脱可能であってもよい。

強化学習装置１００は、上述した構成部の他に、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、強化学習装置１００は、例えば、記録媒体Ｉ／Ｆ３０４や記録媒体３０５を複数有していてもよい。また、強化学習装置１００は、例えば、記録媒体Ｉ／Ｆ３０４や記録媒体３０５を有していなくてもよい。

（履歴テーブル４００の記憶内容）
次に、図４を用いて、履歴テーブル４００の記憶内容の一例について説明する。履歴テーブル４００は、例えば、図３に示した強化学習装置１００のメモリ３０２や記録媒体３０５などの記憶領域により実現される。

図４は、履歴テーブル４００の記憶内容の一例を示す説明図である。図４に示すように、履歴テーブル４００は、時点と、状態と、行動と、コストとのフィールドを有する。履歴テーブル４００は、時点ごとに各フィールドに情報を設定することにより、履歴情報がレコード４００−ａとして記憶される。ａは、任意の整数である。図４の例では、ａは、０〜Ｎの任意の整数などである。

時点のフィールドには、対象１１０の状態計測が行われる時点が設定される。時点のフィールドには、例えば、単位時間の倍数で示される時点が設定される。対象１１０の状態計測が行われる時点は、対象１１０への行動決定が行われる時点にもなり得る。例えば、対象１１０の状態計測が、Ｎの倍数分の回数行われる都度、対象１１０の状態計測が行われる時点は、対象１１０への行動決定が行われる時点にもなる。

状態のフィールドには、時点のフィールドに設定された時点における対象１１０の状態が設定される。行動のフィールドには、時点のフィールドに設定された時点における対象１１０への行動が設定される。コストのフィールドには、時点のフィールドに設定された時点において計測された即時コストが設定される。

履歴テーブル４００は、強化学習において、即時コストではなく即時報酬を用いるような場合には、コストのフィールドに代わり、報酬のフィールドを有してもよい。報酬のフィールドには、時点のフィールドに設定された時点において計測された即時報酬が設定される。

（強化学習装置１００の機能的構成例）
次に、図５を用いて、強化学習装置１００の機能的構成例について説明する。

図５は、強化学習装置１００の機能的構成例を示すブロック図である。図５の例では、強化学習装置１００は、記憶部５００と、取得部５０１と、算出部５０２と、決定部５０３と、学習部５０４と、出力部５０５とを含む。

記憶部５００は、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域によって実現される。以下では、記憶部５００が、強化学習装置１００に含まれる場合について説明するが、これに限らない。例えば、記憶部５００が、強化学習装置１００とは異なる装置に含まれ、記憶部５００の記憶内容が強化学習装置１００から参照可能である場合があってもよい。

取得部５０１〜出力部５０５は、制御部５１０の一例として機能する。取得部５０１〜出力部５０５は、具体的には、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域に記憶されたプログラムをＣＰＵ３０１に実行させることにより、または、ネットワークＩ／Ｆ３０３により、その機能を実現する。各機能部の処理結果は、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域に記憶される。

記憶部５００は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部５００は、強化学習における、対象１１０の状態と、対象１１０への行動と、対象１１０からの即時コストまたは即時報酬とを蓄積する。記憶部５００は、例えば、図４に示した履歴テーブルを記憶する。これにより、記憶部５００は、各機能部が、対象１１０の状態と、対象１１０への行動と、対象１１０からの即時コストまたは即時報酬とを参照可能にすることができる。

強化学習は、例えば、エピソード型である。エピソード型は、例えば、対象１１０の状態が初期化されてから対象１１０の状態が制約条件を充足しなくなるまでの期間、または、対象１１０の状態が初期化されてから一定時間が経過するまでの期間を、学習の単位とする。

対象１１０は、例えば、発電設備である場合がある。発電設備は、例えば、風力発電設備である場合がある。この場合、強化学習における行動は、例えば、発電設備の発電機トルクである。強化学習における状態は、例えば、発電設備の発電量と、発電設備のタービンの回転量と、発電設備のタービンの回転速度と、発電設備に対する風向と、発電設備に対する風速となどの少なくともいずれかである。強化学習における報酬は、例えば、発電設備の発電量である。強化学習における即時報酬は、例えば、発電設備の単位時間当たりの発電量である。発電設備は、例えば、火力発電設備、太陽光発電設備、または、原子力発電設備などである場合があってもよい。

対象１１０は、例えば、空調設備である場合がある。空調設備は、例えば、サーバルームにある。この場合、強化学習における行動は、例えば、空調設備の設定温度と、空調設備の設定風量となどの少なくともいずれかである。強化学習における状態は、例えば、空調設備がある部屋の内部の実際の温度と、空調設備がある部屋の外部の実際の温度と、気候となどの少なくともいずれかである。強化学習におけるコストは、例えば、空調設備の消費電力量である。強化学習における即時コストは、例えば、空調設備の単位時間当たりの消費電力量である。

対象１１０は、例えば、産業用ロボットである場合がある。この場合、強化学習における行動は、例えば、産業用ロボットのモータートルクである。強化学習における状態は、例えば、産業用ロボットの撮影した画像と、産業用ロボットの関節位置と、産業用ロボットの関節角度と、産業用ロボットの関節角速度となどの少なくともいずれかである。強化学習における報酬は、例えば、産業用ロボットによる製品の生産量である。強化学習における即時報酬は、例えば、産業用ロボットによる製品の単位時間当たりの生産量である。生産量は、例えば、組み立て数である。組み立て数は、例えば、産業用ロボットが組み立てた製品の数である。

ここで、強化学習において、対象１１０への行動決定が行われる時間間隔は、対象１１０の状態計測が行われる時間間隔とは異なる場合がある。対象１１０への行動決定が行われる時間間隔は、例えば、対象１１０の状態計測が行われる時間間隔よりも長く、一度対象１１０への行動を決定してから、次に対象１１０への行動を決定するまでの間に、対象１１０の状態が複数回遷移する場合がある。このため、対象１１０への行動を決定する際に、次に対象１１０への行動を決定するまでに遷移する対象１１０の状態のすべてについて、制約条件を違反するか否かを考慮することが望まれる。

記憶部５００は、対象１１０に関する事前知識を記憶する。事前知識は、対象１１０の仕様値と、対象１１０のパラメータの公称値と、対象１１０のパラメータの許容差となどの少なくともいずれかに基づく情報である。事前知識は、例えば、対象１１０に関するモデル情報を含む。事前知識は、具体的には、将来のそれぞれの時点における対象１１０の状態に関するモデル情報を含む。

将来のそれぞれの時点は、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、対象１１０の状態計測が行われる時点である。以下の説明では、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間を「行動待ち期間」と表記する場合がある。

モデル情報は、対象１１０の状態と対象１１０への行動との関係を規定する情報である。モデル情報は、例えば、行動待ち期間に含まれる、対象１１０の状態計測が行われる将来のいずれかの時点における、対象１１０の状態についての関数を線形近似して表す。モデル情報は、例えば、今回の行動決定が行われる時点における、対象１１０の状態を示す変数および対象１１０への行動を示す変数を用いて、対象１１０の状態計測が行われる将来のいずれかの時点における、対象１１０の状態についての関数を線形近似して表す。

記憶部５００は、今回の行動による、行動待ち期間に含まれる、対象１１０の状態計測が行われる将来のそれぞれの時点における対象１１０の状態に対する影響度を記憶する。影響度は、例えば、今回の行動の変化が、行動待ち期間に含まれる、対象１１０の状態計測が行われる将来のいずれかの時点における対象１１０の状態の変化にどの程度影響を与えるかを示す。これにより、記憶部５００は、各機能部が影響度を参照可能にすることができる。

記憶部５００は、価値関数を記憶する。価値関数は、例えば、対象１１０からの累積コストまたは累積報酬に基づいて対象１１０への行動の価値を規定する。価値関数は、例えば、状態基底関数を用いて表現される。価値関数は、状態行動価値関数（Ｑ関数）または状態価値関数（Ｖ関数）などである。記憶部５００は、例えば、価値関数のパラメータを記憶する。これにより、記憶部５００は、各機能部が価値関数を参照可能にすることができる。

記憶部５００は、対象１１０を制御する方策を記憶する。方策は、例えば、対象１１０への行動を決定するための制御則である。記憶部５００は、例えば、方策のパラメータωを記憶する。これにより、記憶部５００は、方策により対象１１０への行動を決定可能にすることができる。

記憶部５００は、対象１１０の状態に関する制約条件を１または複数記憶する。制約条件は、対象１１０の状態に関する制限である。制約条件は、例えば、対象１１０の状態を示す値の上限を規定する。制約条件は、例えば、対象１１０の状態を示す値の下限を規定する。制約条件は、例えば、対象１１０の状態に対して線形である。これにより、記憶部５００は、各機能部が制約条件を参照可能にすることができる。

以下の説明では、強化学習において、即時コストを用いるとして、記憶部５００が、即時コストを蓄積する場合を一例として説明する。

取得部５０１は、各機能部の処理に用いられる各種情報を取得する。取得部５０１は、取得した各種情報を、記憶部５００に記憶し、または、各機能部に出力する。また、取得部５０１は、記憶部５００に記憶しておいた各種情報を、各機能部に出力してもよい。取得部５０１は、例えば、ユーザの操作入力に基づき、各種情報を取得する。取得部５０１は、例えば、強化学習装置１００とは異なる装置から、各種情報を受信してもよい。

取得部５０１は、対象１１０の状態と、対象１１０への行動に応じた対象１１０からの即時コストとを取得する。取得部５０１は、例えば、対象１１０の状態と、対象１１０への行動に応じた対象１１０からの即時コストとを取得し、記憶部５００に出力する。これにより、取得部５０１は、対象１１０の状態と、対象１１０への行動に応じた対象１１０からの即時コストとを記憶部５００に蓄積させることができる。

算出部５０２は、強化学習において、対象１１０の行動決定が行われる時点ごとに、対象１１０に関する事前知識を用いて、行動待ち期間に含まれる、対象１１０の状態計測が行われる将来のそれぞれの時点における対象１１０の状態を予測する。

算出部５０２は、例えば、モデル情報と、行動待ち期間に含まれる、対象１１０の状態計測が行われる将来のそれぞれの時点における、対象１１０の状態の予測値に含まれる誤差の上限とに基づいて、対象１１０の状態の予測値を算出する。誤差の上限は、例えば、ユーザにより予め設定される。これにより、算出部５０２は、行動待ち期間に含まれる、対象１１０の状態計測が行われる将来のそれぞれの時点における対象１１０の状態についての危険度を算出可能にすることができる。

算出部５０２は、強化学習において、対象１１０の行動決定が行われる時点ごとに、行動待ち期間に含まれる、対象１１０の状態計測が行われる将来のそれぞれの時点における対象１１０の状態についての危険度を算出する。危険度は、例えば、対象１１０の状態計測が行われる将来のいずれかの時点における対象１１０の状態が、制約条件にどの程度違反しやすくなっているのかを示す。

算出部５０２は、例えば、行動待ち期間に含まれる、対象１１０の状態計測が行われる将来のそれぞれの時点における対象１１０の状態を予測した結果に基づいて、制約条件に対する、将来のそれぞれの時点における対象１１０の状態についての危険度を算出する。

算出部５０２は、具体的には、行動待ち期間に含まれる、対象１１０の状態計測が行われる将来のそれぞれの時点における、対象１１０の状態の予測値に基づいて、制約条件に対する、将来のそれぞれの時点における対象１１０の状態についての危険度を算出する。これにより、算出部５０２は、今回の行動を決定する探索範囲を定めるための指標となる危険度を、決定部５０３が参照可能にすることができる。

決定部５０３は、強化学習において、対象１１０の行動決定が行われる時点ごとに、今回の行動に関する探索範囲に基づいて、今回の行動を決定する。決定部５０３は、将来のそれぞれの時点における対象１１０の状態についての危険度と、今回の行動による将来のそれぞれの時点における対象１１０の状態に対する影響度とに応じて調整した探索範囲に基づいて、今回の行動を決定する。決定部５０３は、例えば、危険度が大きいほど狭くなるように調整し、かつ、影響度が大きいほど狭くなるように調整した探索範囲に基づいて、今回の行動を決定する。

決定部５０３は、具体的には、制約条件の充足に関する確率的な評価指標の下で、今回の行動を、確率的に決定する。評価指標は、例えば、ユーザにより予め設定される。評価指標は、具体的には、強化学習により、方策を学習していく最中に、対象１１０の状態が制約条件を充足する確率の下限を示す。評価指標は、具体的には、確率の下限が９０％であれば、０．９である。

決定部５０３は、より具体的には、今回の行動が取りうる平均値を算出する。また、決定部５０３は、算出した将来のそれぞれの時点における対象１１０の状態についての危険度と、今回の行動による将来のそれぞれの時点における対象１１０の状態に対する影響度とに応じて、評価指標の下で分散共分散行列を算出する。

そして、決定部５０３は、算出した平均値と分散共分散行列とを用いて調整した、今回の行動に関する探索範囲に基づいて、今回の行動を、確率的に決定する。決定部５０３が、今回の行動を、確率的に決定する具体例は、例えば、図６〜図８を用いて動作例として後述する。これにより、決定部５０３は、危険度が大きいほど探索範囲を狭め、かつ、影響度が大きいほど探索範囲を狭め、将来のそれぞれの時点における対象１１０の状態が制約条件に違反してしまう確率の低減化を図ることができる。

決定部５０３は、具体的には、行動待ち期間に含まれる将来のいずれかの時点における対象１１０の状態についての危険度が閾値以上である場合、今回の行動を所定値に決定してもよい。閾値は、例えば、０である。

ここで、対象１１０は、いずれかの状態計測が行われる時点において、対象１１０の状態が制約条件を充足し、かつ、行動が０であれば、次回の状態計測が行われる時点においても、対象１１０の状態が制約条件を充足することが保証される性質を有することがある。このため、決定部５０３は、所定値として０を用いることが好ましい。

ここで、決定部５０３は、今回の行動を、複数の所定値のいずれかの所定値に決定する場合があってもよい。これにより、決定部５０３は、将来の時点における対象１１０の状態が制約条件に違反することを防止することができる。

決定部５０３は、具体的には、算出した将来のそれぞれの時点における対象１１０の状態についての危険度が閾値未満である場合、評価指標の下で、今回の行動を、確率的に決定してもよい。閾値は、例えば、０である。決定部５０３は、より具体的には、算出した将来のそれぞれの時点における対象１１０の状態についての危険度が閾値未満である場合、今回の行動が取りうる平均値を算出する。また、決定部５０３は、算出した将来のそれぞれの時点における対象１１０の状態についての危険度と、今回の行動による将来のそれぞれの時点における対象１１０の状態に対する影響度とに応じて、評価指標の下で分散共分散行列を算出する。

学習部５０４は、方策を学習する。学習部５０４は、決定した対象１１０への行動と、取得した対象１１０の状態および対象１１０からの即時コストとに基づいて、方策を更新する。学習部５０４は、例えば、方策のパラメータを更新する。これにより、学習部５０４は、制約条件を充足するように対象１１０を制御可能である方策を学習することができる。

出力部５０５は、決定部５０３が決定した対象１１０への行動を出力する。行動は、例えば、対象１１０に対する指令値である。出力部５０５は、例えば、対象１１０への指令値を、対象１１０に出力する。これにより、出力部５０５は、対象１１０を制御することができる。

出力部５０５は、いずれかの機能部の処理結果を出力してもよい。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークＩ／Ｆ３０３による外部装置への送信、または、メモリ３０２や記録媒体３０５などの記憶領域への記憶である。これにより、出力部５０５は、いずれかの機能部の処理結果をユーザに通知可能にすることができる。

ここでは、強化学習装置１００が、強化学習において、即時コストを用いるとして、記憶部５００が、即時コストを蓄積する場合について説明したが、これに限らない。例えば、強化学習装置１００が、強化学習において、即時報酬を用いるとして、記憶部５００が、即時報酬を蓄積する場合があってもよい。

ここでは、強化学習装置１００が、取得部５０１〜出力部５０５を有する場合について説明したが、これに限らない。例えば、強化学習装置１００以外に、取得部５０１〜出力部５０５のいずれかの機能部を有する他のコンピュータが存在し、強化学習装置１００と協働する場合があってもよい。

（強化学習装置１００の動作例）
次に、図６〜図１０を用いて、強化学習装置１００の動作例について説明する。

図６〜図１０は、強化学習装置１００の動作例を示す説明図である。動作例は、強化学習装置１００が、強化学習により方策を学習していく最中に、対象１１０の状態が制約条件を充足する確率が一定以上に大きくなることを保証する場合に対応する。

以下の説明では、まず、強化学習装置１００の動作の流れについて説明し、数式を用いて強化学習装置１００の動作の一例について説明し、実例を用いて強化学習装置１００の動作の具体例について説明する。

＜強化学習装置１００の動作の流れ＞
ここで、強化学習および対象１１０に関しては、下記４つの特性が仮定される。１つ目の特性は、強化学習が、確率的に行動を決定する方策を用いており、行動を決定する際に用いられる確率密度関数の分散共分散行列を、いずれのタイミングにも変更可能であるという性質である。

２つ目の特性は、対象１１０が、線形システムであり、制約条件が、状態に対して線形であるため、いずれかの時点における行動の分散が、次に行動を決定する時点までのそれぞれの時点における対象１１０の状態に対して保存され、有効であるという性質である。

３つ目の特性は、行動が０であり、対象１１０が自律遷移する状況であれば、対象１１０の状態は、制約条件を充足する状態から制約条件を充足しない状態へと遷移することがないという性質である。

４つ目の特性は、一度行動を決定した後、次に行動を決定する時点までのそれぞれの時点における対象１１０の状態が、対象１１０に関する事前知識を用いて表現可能であるという性質である。事前知識は、既知の線形ノミナルモデル、および、上界が既知な誤差関数などである。誤差関数は、例えば、線形ノミナルモデルのモデル化誤差を示す。

強化学習装置１００は、上記特性を利用して、強化学習を実施する。強化学習装置１００は、例えば、行動を決定する都度、次に行動を決定する時点までのそれぞれの時点における状態の予測値を算出する。強化学習装置１００は、それぞれの時点における状態の予測値に基づき算出した、それぞれの時点における状態についての危険度が閾値以上であるか否かを判定する。

ここで、いずれかの時点における状態についての危険度が閾値以上である場合がある。この場合には、強化学習装置１００は、行動を０に決定し、対象１１０に自律遷移させる。一方で、それぞれの時点における状態についての危険度が閾値未満である場合がある。この場合には、強化学習装置１００は、確率的な評価指標の下で、それぞれの時点における状態についての危険度、および、今回の行動によるそれぞれの時点における状態に対する影響度に基づいて、分散共分散行列を算出する。そして、強化学習装置１００は、算出した分散共分散行列に基づいて、確率的に行動を決定する。

評価指標は、ユーザによって予め設定される。評価指標は、例えば、制約条件を充足する確率の下限値を示す。以下の説明では、制約条件を充足する確率を「制約充足率」と表記する場合がある。

強化学習装置１００は、具体的には、強化学習において、下記ステップ１〜７に従って、行動を決定する探索範囲を調整しながら、行動を決定して、対象１１０に印加することになる。

強化学習装置１００は、ステップ１として、現時点の状態の値に対応する行動の平均値を算出する。平均値は、例えば、中心値である。

強化学習装置１００は、ステップ２として、対象１１０に関する事前知識と、ステップ１で算出した行動の平均値と、現時点の状態の値とに基づいて、次に行動を決定する時点までのそれぞれの時点の状態の予測値を算出する。事前知識は、例えば、対象１１０に関する線形ノミナルモデル、および、モデル化誤差の上界などの情報である。そして、強化学習装置１００は、次に行動を決定する時点までのそれぞれの時点における状態についての制約条件に対する危険度を、当該時点における状態の予測値に基づいて算出する。

強化学習装置１００は、ステップ３として、ステップ２で算出した危険度のうち、少なくとも１つ以上の危険度が閾値以上である場合、ステップ４の処理に移行し、ステップ２で算出した危険度の中に、閾値以上の危険度がない場合、ステップ５の処理に移行する。

強化学習装置１００は、ステップ４として、行動を０に決定し、対象１１０に自律遷移させ、ステップ７の処理に移行する。

強化学習装置１００は、ステップ５．１として、制約充足率の下限値、ステップ２で算出したそれぞれの時点における状態についての危険度、および、今回の行動によるそれぞれの時点における状態に対する影響度に基づいて、標準偏差を算出する。制約充足率の下限値は、ユーザにより予め設定される。強化学習装置１００は、例えば、状態ごとに、制約条件の下限値、当該状態についての危険度、および、今回の行動による当該状態に対する影響度に基づいて、標準偏差を算出する。

強化学習装置１００は、ステップ５．２として、ステップ５．１で算出した標準偏差に基づいて、確率的に行動を決定するために用いられる分散共分散行列を算出する。強化学習装置１００は、例えば、ステップ５．１で算出した標準偏差のうち、最小の標準偏差を特定し、特定した標準偏差に基づいて、確率的に行動を決定するために用いられる分散共分散行列を算出する。

強化学習装置１００は、ステップ６として、ステップ１で算出した平均値と、ステップ５．２で算出した分散共分散行列とを用いた確率分布に従って、行動を確率的に決定する。確率分布は、例えば、ガウス分布である。この際、強化学習装置１００は、決定した行動が、行動の上下限範囲から外れる場合には、行動を０に設定してもよい。

強化学習装置１００は、ステップ７として、ステップ４またはステップ６で決定された行動を、対象１１０に印加する。

これにより、強化学習装置１００は、行動を決定する探索範囲を危険度と影響度とに応じて自動調整することができる。このため、強化学習装置１００は、一度行動を決定してから、次に行動を決定するまでの、行動を変更不可の期間における状態が制約条件を充足する確率が、予め設定された下限値以上に大きくなることを保証することができる。そして、強化学習装置１００は、エピソード型の強化学習により方策を学習していく最中に、エピソード内のすべての時点において、対象１１０の状態が制約条件を充足する確率が、予め設定された下限値以上に大きくなることを保証することができる。

＜数式を用いた強化学習装置１００の動作の一例＞
動作例において、下記式（１）〜下記式（２２）によって、対象１１０と、即時コストと、制約条件と、追加条件と、制御目的とが規定され、問題設定が行われる。また、下記式（２３）〜下記式（３１）によって、動作例において仮定される、強化学習および対象１１０に関する各種特性が規定される。

例えば、下記式（１）〜下記式（８）によって、対象１１０が規定される。

上記式（１）は、対象１１０の真のダイナミクスを表すモデルを規定する。対象１１０の真のダイナミクスを表すモデルは、既知でなくてもよい。対象１１０は、行動および状態に対して線形な離散時間線形システムである。状態は、連続値である。行動は、連続値である。ｋは、単位時間の倍数で示される時点である。ｋ＋１は、時点ｋから単位時間経過した時点である。ｘ_k+1は、時点ｋ＋１における状態である。ｘ_kは、時点ｋにおける状態である。ｕ_kは、時点ｋにおける行動である。Ａは、係数行列である。Ｂは、係数行列である。係数行列Ａおよび係数行列Ｂは、未知である。上記式（１）は、次回の時点ｋ＋１における状態ｘ_k+1が、時点ｋにおける状態ｘ_kと、時点ｋにおける入力ｕ_kによって決定されるという関係があることを示す。

上記式（２）は、係数行列Ａが、ｎ×ｎ次元の行列であることを示す。中抜き文字のＲは、実数空間を示す。中抜き文字のＲの上付文字は次元数を示す。ｎは、既知である。上記式（３）は、係数行列Ｂが、ｎ×ｍ次元の行列であることを示す。ｍは、既知である。

上記式（４）は、状態ｘ_kが、ｎ次元であることを示す。ｎは、既知である。状態ｘ_kは、直接計測可能である。上記式（５）は、行動ｕ_kが、Ｕで定義されることを示す。

上記式（６）は、定義Ｕを示す。上記式（６）は、行動ｕが、値ｕ₁，・・・，ｕ_mを並べたベクトルであり、ｍ次元であることを定義し、値ｕ_iが、下限値ｕ_i ^min以上上限値ｕ_i ^max以下であることを定義し、ｉ＝１，・・・，ｍであることを定義する。

上記式（７）は、行動ｕ_iの下限値ｕ_i ^minが、−∞より大きく０以下であることを示し、負の値であることを示す。上記式（８）は、行動ｕ_iの上限値ｕ_i ^maxが、０以上であり∞より小さいことを示し、正の値であることを示す。

また、例えば、下記式（９）〜下記式（１１）によって、即時コストが規定される。

上記式（９）は、対象１１０の即時コストの方程式である。ｃ_k+1は、時点ｋにおける行動ｕ_kに応じて単位時間後に発生する即時コストである。ｃ（・）は、即時コストを求める関数である。上記式（９）は、即時コストｃ_k+1が、時点ｋにおける状態ｘ_kと、時点ｋにおける行動ｕ_kとによって決定される関係があることを示す。

上記式（１０）は、関数ｃ（・）が、ｎ次元の配列とｍ次元の配列とに基づき正の値を求める関数であることを示す。関数ｃ（・）は、未知である。上記式（１１）は、関数ｃ（０，０）の算出結果が、０であることを示す。

また、例えば、下記式（１２）〜下記式（１５）によって、制約条件が規定される。

上記式（１２）は、制約条件を規定する。ｘは、状態である。配列ｈは、ユーザにより設定される。上付き文字Ｔは、転置を示す。変数ｄは、ユーザにより設定される。制約条件は、既知であり、状態ｘに関して線形である。動作例では、制約条件は１つである。

上記式（１３）は、配列ｈが、ｎ次元であることを示す。上記式（１４）は、変数ｄが、実数であることを示す。

上記式（１５）は、制約条件を充足する状態ｘの集合Ｘを示す。以下の説明では、Ｘの内点を、Ｘ^intと表記する場合がある。

また、例えば、下記式（１６）〜下記式（１９）によって、追加条件が規定される。

追加条件は、図６に示すように、行動決定が行われる時間間隔が、状態計測が行われる時間間隔の整数倍であることである。図６のグラフ６００は、時点ごとの状態を示し、縦軸が状態であり、横軸が時点である。図６のグラフ６１０は、時点ごとの行動を示し、縦軸が行動であり、横軸が時点である。換言すれば、追加条件は、図６に示すように、状態がＮ回変化するごとに、行動を１回変更可能であることである。

上記式（１６）は、行動ｕ_k+iが、行動ｕ_kと同一であることを示す。ｉ＝１，２，・・・，Ｎ−１である。ｋは、０を含むＮの倍数である。ｋ＝０，Ｎ，２Ｎ，・・・である。換言すれば、状態がＮ回変化するまでは、行動が固定であることを示す。

上記式（１７）は、一度行動を決定してから次に行動を決定するまでの時点間に含まれる将来のいずれかの時点における状態ｘ_k+iを算出する関数を示す。ｉ＝１，２，・・・，Ｎである。Ａ_iは、係数行列である。Ｂ_iは、係数行列である。ｋは、０を含むＮの倍数である。ｋ＝０，Ｎ，２Ｎ，・・・である。

上記式（１８）は、係数行列Ａ_iが、係数行列Ａのｉ乗であることを示す。上記式（１９）は、係数行列Ｂ_iが、係数行列Ａのｌ乗と係数行列Ｂとの積についての総和であることを示す。ｉ＝１，２，・・・，Ｎである。

また、下記式（２０）〜下記式（２２）によって、制御目的が規定される。

上記式（２０）は、累積コストＪを示す方程式であり、強化学習の制御目的を規定する。強化学習の制御目的は、累積コストＪの最小化であり、累積コストＪの最小化を図る行動を決定する方策の学習である。方策の学習は、方策を与えるパラメータωの更新である。γは、割引因子（ｄｉｓｃｏｕｎｔｒａｔｅ）である。上記式（２１）は、γが０より大きく１以下の値であることを示す。

上記式（２２）は、強化学習の制御目的として、制約条件に関して、すべての時点ｋ≧１における制約充足率を、事前に設定した下限値η∈（０．５，１）以上とすることを保証することを規定する。Ｐｒ（・）は、（・）内の条件が成立する確率を示す。すべての時点ｋ≧１は、行動を決定する時点間に含まれる時点も含む。

また、下記式（２３）〜下記式（３１）によって、強化学習および対象１１０に関する各種特性が仮定される。

上記式（２３）は、対象１１０の線形近似モデルを規定する。線形近似モデルは、例えば、線形ノミナルモデルである。対象１１０の線形近似モデルは、既知であることが仮定される。以下の説明では、対象１１０の線形近似モデルが既知であるという仮定を「仮定１」と表記する場合がある。ｈａｔ｛Ａ｝，ｈａｔ｛Ｂ｝は、係数行列である。ｈａｔ｛｝は、文字の上部にハットを付したことを示す。

上記式（２４）は、係数行列ｈａｔ｛Ａ｝が、ｎ×ｎ次元である（ｎ行ｎ列である）ことを示す。上記式（２５）は、係数行列ｈａｔ｛Ｂ｝が、ｎ×ｍ次元である（ｎ行ｍ列である）ことを示す。

上記式（２６）は、対象１１０の真のダイナミクスを表すモデルに対する、対象１１０の線形近似モデルのモデル化誤差を示す誤差関数を規定する。ｅ_iは、誤差である。ｉ＝１，２，・・・，Ｎである。上記式（２６）に関し、上記式（２７）および上記式（２８）を満たす、ｂａｒ｛ｅ_i,j｝が存在し、既知であることが仮定される。ｊ＝１，２，・・・，ｎである。ｂａｒ｛｝は、文字の上部にバーを付したことを示す。以下の説明では、上記式（２７）および上記式（２８）を満たす、ｂａｒ｛ｅ_i,j｝が存在し、既知であるという仮定を「仮定２」と表記する場合がある。仮定２は、誤差ｅ_iに、既知の上界が存在することを示す。ｈａｔ｛Ａ_i｝およびｈａｔ｛Ｂ_i｝は、係数行列である。

上記式（２９）は、係数行列ｈａｔ｛Ａ_i｝が、係数行列ｈａｔ｛Ａ｝のｉ乗であることを示す。上記式（３０）は、係数行列ｈａｔ｛Ｂ_i｝が、係数行列ｈａｔ｛Ａ｝のｌ乗と係数行列ｈａｔ｛Ｂ｝との積についての総和であることを示す。ｉ＝１，２，・・・，Ｎである。

ｘ∈ＸであればＡｘ∈Ｘであることが仮定される。以下の説明では、ｘ∈ＸであればＡｘ∈Ｘである仮定を「仮定３」と表記する場合がある。仮定３は、いずれかの時点において、状態ｘが制約条件を充足し、かつ、行動が０であれば、単位時間後の次回の時点において、遷移後の状態ｘも制約条件を充足することを示す。

図７に示すように、具体的には、実数空間７００において、現時点が状態７０１である際に、行動を０とすれば、状態７０２のような集合Ｘの内点に遷移することはあるが、状態７０３のような集合Ｘの外点に遷移することはない。従って、行動が０であれば、遷移後の状態についての制約充足率を、下限値以上に大きくすることが保証可能である。

対象１１０の線形近似モデルの係数行列と、制約条件とに関して上記式（３１）が成立することが仮定される。以下の説明では、対象１１０の線形近似モデルの係数行列と、制約条件とに関して上記式（３１）が成立する仮定を「仮定４」と表記する場合がある。

上記問題設定では、対象１１０が、線形システムであり、制約条件が、状態に対して線形である。このため、いずれかの時点において取りうる行動の分散度合いは、次に行動を決定するまでの将来のそれぞれの時点において取りうる状態の分散度合いに相関することになる。従って、いずれかの時点において取りうる行動の分散度合いを調整すれば、次に行動を決定するまでの将来のいずれかの時点において取りうる状態の分散度合いを制御可能である。

このため、いずれかの時点において取りうる行動の分散度合いを調整すれば、次に行動を決定するまでの将来のいずれかの時点における状態についての制約充足率を、下限値以上に大きくすることが保証可能である。具体的には、図８のグラフ８００に示すように、いずれかの時点において取りうる行動の分散度合いを調整すれば、次に行動を決定するまでの将来のいずれかの時点における状態ｘの確率密度を、制約充足率が９９％になるように制御可能である。

これによれば、いずれかの時点において取りうる行動の分散度合いを調整し、次に行動を決定するまでの将来のそれぞれの時点における状態についての制約充足率を、下限値以上に大きくすることも保証可能である。このため、すべての時点における制約充足率を、下限値以上に大きくすることが保証可能である。

上記問題設定および上記仮定１〜仮定４の下で、強化学習装置１００の動作の一例について説明する。上記問題設定によれば、下記式（３２）が成立し、下記式（３３）が成立する。

ここで、強化学習装置１００は、ステップ１として、方策を与えるパラメータωと、状態基底関数φ（・）を用いて、現時点における状態ｘ_kに対する、現時点における行動の平均値μ_kを、下記式（３４）により算出する。μ_kは、ｍ次元である。

強化学習装置１００は、ステップ２として、対象１１０の線形ノミナルモデルを示すモデル情報と、現時点における状態ｘ_kとに基づいて、次に行動を決定するまでの将来のそれぞれの時点における誤差を含む状態の予測値を、下記式（３５）により算出する。ε_iは、下記式（３６）および下記式（３７）によって規定され、ｎ次元である。ε_i全体の集合は、下記式（３８）によって規定され、Ｅと表記する。

そして、強化学習装置１００は、次に行動を決定するまでの将来のそれぞれの時点における状態についての、制約条件に対する危険度ｒ_k+iεを、算出した当該状態の予測値に基づいて、下記式（３９）により算出する。制約条件は、下記式（４０）によって規定される。危険度ｒ_k+iεは、下記式（４１）によって規定され、実数である。

強化学習装置１００は、ステップ３として、ステップ２において算出した危険度ｒ_k+iεに関して下記式（４２）が成立する場合、ステップ４の処理に移行し、下記式（４２）が成立しない場合、ステップ５の処理に移行する。

強化学習装置１００は、ステップ４として、行動ｕ_k＝０に決定し、ステップ７の処理に移行する。

強化学習装置１００は、ステップ５として、ステップ２において算出した危険度ｒ_k+iεと、制約充足率の下限値ηと、将来のそれぞれの時点における状態に対する影響度ρ_iとに基づいて、分散共分散行列を下記式（４３）〜下記式（４５）により算出する。Ｉ_mは、下記式（４６）によって規定され、ｍ×ｍ次元の単位行列である。Φ^-1（・）は、逆正規累積分布関数である。

強化学習装置１００は、ステップ６として、ステップ１において算出したμ_kと、ステップ５において算出したΣ_kとを、それぞれ、平均値および分散共分散行列として設定し、ガウス型確率密度関数を生成する。強化学習装置１００は、ガウス型確率密度関数を用いて、行動ｕ_kを、下記式（４７）により確率的に決定する。

これによれば、情報処理装置は、次に行動を決定するまでの将来のそれぞれの時点における状態ｘの確率密度を、一定確率以上で制約条件を満たすように制御可能である。具体的には、図９のグラフ９００に示すように、それぞれの時点における状態の確率密度９０１〜９０３のうち、最も制約条件を違反しやすい確率密度９０３でも、一定確率以上で制約条件を満たすように、行動ｕ_kを決定することが望まれる。

これに対し、上記式（４５）で最小値を採用し、図９のグラフ９１０に示す確率分布９１１に従って、行動ｕ_kを、上記式（４７）により確率的に決定するため、最も制約条件を違反しやすい確率密度９０３でも、一定確率以上で制約条件を満たすことができる。また、確率密度９０１，９０２では、一定確率以上で制約条件を満たすことができる。

具体的には、μ_kを平均値とし、アンダーバーを付した標準偏差σ_kに対応する分散共分散行列Σ_kに従ったガウス型確率密度関数により、行動ｕ_kが決定されると、各時点の状態も、アンダーバーを付した標準偏差σ_kに従って分散することになる。このため、確率密度９０１〜９０３では、一定確率以上で制約条件を満たすことができる。

また、強化学習装置１００は、決定した行動ｕ_kが、下記式（４８）を満たす場合には、行動ｕ_k＝０に設定する。

強化学習装置１００は、ステップ７として、ステップ４またはステップ６において決定した、行動ｕ_kを、対象１１０に印加する。

これにより、強化学習装置１００は、行動を決定する探索範囲を危険度と影響度とに応じて自動調整することができる。このため、強化学習装置１００は、エピソード型の強化学習により方策を学習していく最中に、エピソード内のすべての時点において、対象１１０の状態が制約条件を充足する確率が、予め設定された下限値以上になることを保証することができる。次に、図１０の説明に移行し、強化学習装置１００が、エピソード内のすべての時点において、対象１１０の状態が制約条件を充足する確率が、予め設定された下限値以上になることを保証することについて説明する。

図１０の例では、η＝０．９９とする。図１０に示すように、実数空間７００において、強化学習装置１００は、行動を決定した結果、次に行動を決定するまでの最も制約条件を違反しやすい時点でも、対象１１０の状態を、確率η＝０．９９で集合Ｘの内点に遷移させるように制御する。

図１０の例では、状態１００２である時点の次に状態が遷移する時点が、最も制約条件を違反しやすい時点であるとする。これに対し、強化学習装置１００は、状態１００１である時点に、行動を確率的に決定することで、状態１００２の次には、確率η＝０．９９で状態１００３のような集合Ｘの内点に遷移し、また確率１−η＝０．０１で状態１００５のような集合Ｘの外点に遷移する。このため、強化学習装置１００は、制約条件を確率η以上で充足することを保証することができる。

一方で、実数空間７００において、強化学習装置１００は、現時点が状態１００６であり、次に行動を決定するまでに、制約条件を違反しやすいと判断した際には、行動を０とする。このため、強化学習装置１００は、次に行動を決定する時点まで、対象１１０の状態を、状態１００７，１００８のような集合Ｘの内点に遷移させ続けることになり、制約条件を必ず充足することを保証することができる。これらのことから、強化学習装置１００は、エピソード内のすべての時点において、制約条件を確率η以上で充足することを保証することができる。

ここでは、対象１１０が単体で仮定３を充足する場合について説明したが、これに限らない。例えば、予め、仮定３を充足するための制御器を設計し、対象１１０に組み合わせることにより、対象１１０が仮定３を充足するようにする場合があってもよい。これによれば、強化学習装置１００が適用可能な対象１１０の事例数の増大化を図ることができる。

ここでは、対象１１０の真のダイナミクスを表すモデルが未知である場合について説明したが、これに限らない。例えば、対象１１０の真のダイナミクスを表すモデルが既知である場合があってもよい。この場合、強化学習装置１００は、線形近似モデルを用いずに済み、真のダイナミクスを表すモデルを用いて、状態の予測値や危険度の算出を行うことができ、制約充足率を下限値以上にする精度を向上させることができる。

ここでは、誤差の正確な上限が既知である場合について説明したが、これに限らない。例えば、誤差の正確な上限が既知でないが、誤差の正確な上限よりも大きい上限が既知である場合があってもよい。この場合でも、強化学習装置１００は、制約充足率を下限値以上にするように、強化学習を実施することができる。

＜実例を用いた強化学習装置１００の動作の具体例＞
次に、制御問題の実例を用いて、強化学習装置１００の動作の具体例について説明する。ここで、対象１１０が、２つの容器であり、２つの容器内の温度を、目標温度となるように制御する問題を実例として、強化学習装置１００の動作の具体例について説明する。それぞれの容器への行動は、共通であるとする。また、互いの容器間の温度干渉はないとする。

ここで、容器外の時不変の温度０℃が、目標温度として規定され、各容器内の温度が、状態ｘ_kとして下記式（４９）によって規定され、両容器に共通する制御入力が、行動ｕ_kとして下記式（５０）によって規定される。

また、各容器内の温度の時間変化を表す線形ノミナルモデルは、下記式（５１）によって規定される。係数行列ｈａｔ｛Ａ｝は、下記式（５２）によって規定され、係数行列ｈａｔ｛Ｂ｝は、下記式（５３）によって規定される。Ｔ_s＝６０は、サンプリング時間である。Ｃ_i［Ｊ／℃］は、各容器の熱容量である。Ｒ_i［℃／Ｗ］は、各容器の外壁の熱抵抗のノミナル値である。以下の説明では、Ｃ₁＝２０とし、Ｒ₁＝１５とし、Ｃ₂＝４０とし、Ｒ₂＝２５とする。また、上記線形ノミナルモデルは、既知であるとする。

また、以下の説明では、５分ごとに行動が変更可能であるとし、Ｎ＝５とする。

また、対象１１０の真のダイナミクスを表すモデルは、下記式（５４）によって規定される。係数行列Ａと、係数行列ｈａｔ｛Ａ｝との関係は、下記式（５５）によって規定される。係数行列Ｂと、係数行列ｈａｔ｛Ｂ｝との関係は、下記式（５６）によって規定される。パラメータξは、下記式（５７）によって規定される。ここで、係数行列Ａの固有値は、下記式（５８）によって規定される。

また、行動の上下限制約は、ｕ^max＝５およびｕ^min＝−５と規定される。

この際、真のダイナミクスを表すモデルと、線形ノミナルモデルの、状態を計測する各時点における状態の誤差は、下記式（５９）によって規定される。ｅ_i,jは、下記式（６０）によって規定される。ｊは、下記式（６１）によって規定される。

そして、下記式（６２）を満たす誤差の上界として、下記式（６３）によって規定されるｂａｒ｛ｅ_i,j｝が存在し、既知であるとする。ｂａｒ｛｝は、文字の上部にバーを付したことを示す。ｉ＝１，・・・，Ｎである。

また、状態に対する制約条件は、ｘ₁≦１０と設定される。このため、ｈ^T＝［１，０］とｄ＝１０とを用いて、制約条件を満たす状態の集合Ｘは、下記式（６４）によって規定される。従って、原点ｘ⁰＝［０，０］^Tは、ｘ₀∈Ｘである。さらに、係数行列Ａの固有値の絶対値がすべて１未満であるため、上記仮定３が成立する。また、初期状態は、下記式（６５）によって規定される。

また、ｈ^Tｈａｔ｛Ｂ｝_i≠０，ｉ＝０，１，・・・，Ｎであるため、上記線形ノミナルモデルの係数行列および上記制約条件は、仮定４を充足する。

また、即時コストは、下記式（６６）によって規定される。Ｑ＝１．０×１０^-1Ｉ₂とし、Ｒ＝１．０×１０^-3とする。

強化学習装置１００は、上記行動の決定手法を、ｏｎｅ−ｓｔｅｐａｃｔｏｒ−ｃｒｉｔｉｃに組み込んだ強化学習アルゴリズムを用いて、強化学習を実施する。強化学習装置１００は、具体的には、Ｔ＝３０ｍｉｎを１エピソードとし、各エピソードにおいて初期状態ｘ₀から、即時コストの累積コストＪの最小化を図る行動を決定するための方策を学習する。ｓｔｅｐは、単位時間の倍数で示される、状態を計測する各時点における、行動に応じた即時コストを計測する処理単位に対応する。累積コストは、下記式（６７）によって規定される。

θを下記式（６８）により規定し、ωを下記式（６９）により規定したため、価値関数の推定値ｈａｔ｛Ｖ（ｘ；θ）｝、および、行動ｕの平均値μ（ｘ；ω）は、下記式（７０）および下記式（７１）によって規定される。重みθは、Ｎθ次元である。ωは、Ｎω次元である。

φ_i（・）は、下記式（７２）によって規定される、ガウス型放射基底関数である。φ_i（・）は、下記式（７３）によって規定されるように、２次元の配列を１次元の配列に変換する。また、ｂａｒ｛ｘ_i｝およびｓ_i ²＞０は、それぞれ、各基底関数の中心点および分散である。ｂａｒ｛ｘ_i｝は、下記式（７４）によって規定されるように、２次元である。

強化学習装置１００は、上記式（７１）に従って、行動を決定するそれぞれの時点の状態ｘ_kおよびパラメータωを用いて算出した平均値μ_k（ｘ_k；ω）を適用し、行動を決定するそれぞれの時点において、行動を決定したとする。

そして、強化学習装置１００は、重みθおよびパラメータωを、状態を計測する各時点の即時コストｃ_k+iを用いて、下記式（７５）〜下記式（７７）により更新したとする。

α∈［０，１）およびβ∈［０，１）は、学習率であり、Π（・）は、μ_kを平均値とし、Σ_kを分散共分散行列としたガウス型確率密度関数である。

強化学習装置１００は、ｘ_1k＞１０となり制約条件を違反した場合、または、ｋ＝Ｔとなった場合、現在のエピソードを終了し、下記式（７８）により初期化を行い、次のエピソードに移行したとする。

これにより、強化学習装置１００は、行動を決定する探索範囲を危険度および影響度に応じて自動調整することができる。このため、強化学習装置１００は、エピソード型の強化学習により方策を学習していく最中に、エピソード内のすべての時点において、制約充足率が予め設定された下限値以上に大きくなることを保証することができる。次に、図１１および図１２を用いて、動作例における上記実例において、強化学習装置１００により得られた効果について説明する。

図１１および図１２は、動作例における強化学習装置１００により得られた効果を示す説明図である。図１１および図１２において、強化学習装置１００による強化学習手法と、行動を決定するそれぞれの時点における状態が制約条件を満たすか否かだけを考慮する他の強化学習手法とを比較する。また、強化学習装置１００による強化学習手法と、他の強化学習手法とにおいては、制約充足率の下限値は、下記式（７９）によって規定されるとする。

図１１のグラフ１１００は、複数のエピソードのそれぞれのエピソードにおける累積コストを示す。横軸は、エピソード数である。縦軸は、累積コストである。ｐｒｏｐｏｓｅｄは、強化学習装置１００による強化学習手法を示す。グラフ１１００に示すように、強化学習装置１００による強化学習手法は、累積コストを、他の強化学習手法と比べて、少ないエピソード数で低減することができ、適切な方策を学習する学習効率の向上を図ることができる。

図１２のグラフ１２００は、エピソード内の各時点の制約充足率を示す。横軸は、時点である。縦軸は、制約充足率であり、各時点において、制約条件を充足したエピソード数を総エピソード数で除して求めた値である。グラフ１２００に示すように、強化学習装置１００による強化学習手法は、エピソード内のすべての時点において、制約充足率が予め設定された下限値以上に大きくなることを保証することができる。一方で、他の強化学習手法は、制約充足率を、予め設定された下限値以上に大きくすることができない。

このように、強化学習装置１００は、強化学習により、方策を学習していく最中に、制約充足率が予め設定された下限値以上に大きくなることを保証することができ、かつ、学習効率の低減化を抑制することができる。

ここでは、制約条件が１つ設定される場合について説明したが、これに限らない。例えば、制約条件が複数設定される場合があってもよい。複数の制約条件の制約充足率がすべて無相関であれば、強化学習装置１００は、動作例と同様に、それぞれの制約条件についての制約充足率を、下限値以上にすることにより、複数の制約条件を同時に充足する確率を、下限値以上にすることができる。

（強化学習を適用する対象１１０の具体例）
次に、図１３〜図１５を用いて、強化学習を適用する対象１１０の具体例について説明する。

図１３〜図１５は、対象１１０の具体例を示す説明図である。図１３の例では、対象１１０は、熱源であるサーバ１３０１と、ＣＲＡＣやＣｈｉｌｌｅｒなどの冷却器１３０２とを含むサーバルーム１３００である。行動は、冷却器１３０２に対する設定温度や設定風量である。行動を決定する時間間隔は、例えば、上記設定温度や上記設定風量を変更する時間間隔である。

状態は、サーバルーム１３００内外に設けられたセンサ装置からのセンサデータなどであり、例えば、温度などである。状態を計測する時間間隔は、例えば、上記温度を計測する時間間隔である。制約条件は、例えば、上記温度の上下限制約である。状態は、対象１１０以外から得られる対象１１０に関するデータであってもよく、例えば、気温や天気などであってもよい。状態を計測する時間間隔は、例えば、上記気温や天気などを計測する時間間隔であってもよい。

即時コストは、例えば、サーバルーム１３００の単位時間ごとの消費電力量である。単位時間は、例えば、５分である。目標は、サーバルーム１３００の累積消費電力量の最小化である。状態価値関数は、例えば、サーバルーム１３００の累積消費電力量についての行動の価値を表す。対象１１０に関する事前知識は、例えば、サーバルーム１３００の床面積、外壁やラックの材質などである。

図１４の例では、対象１１０は、発電設備１４００である。発電設備１４００は、例えば、風力発電設備である。行動は、発電設備１４００に対する指令値である。指令値は、例えば、発電設備１４００にある発電機の発電機トルクである。行動を決定する時間間隔は、例えば、上記発電機トルクを変更する時間間隔である。

状態は、発電設備１４００に設けられたセンサ装置からのセンサデータであり、例えば、発電設備１４００の発電量や発電設備１４００のタービンの回転量または回転速度などである。状態は、発電設備１４００に対する風向や風速などであってもよい。状態を計測する時間間隔は、例えば、上記発電量、上記回転量、上記回転速度、上記風向、または、上記風速などを計測する時間間隔である。制約条件は、例えば、上記回転速度の上下限制約である。

即時報酬は、例えば、発電設備１４００の単位時間ごとの発電量である。単位時間は、例えば、５分である。目標は、例えば、発電設備１４００の累積発電量の最大化である。状態価値関数は、例えば、発電設備１４００の累積発電量についての行動の価値を表す。対象１１０に関する事前知識は、例えば、発電設備１４００の仕様や慣性モーメントなどのパラメータの公称値および許容差（公差）である。

図１５の例では、対象１１０は、産業用ロボット１５００である。産業用ロボット１５００は、例えば、ロボットアームである。行動は、産業用ロボット１５００に対する指令値である。指令値は、例えば、産業用ロボット１５００のモータートルクなどである。行動を決定する時間間隔は、例えば、上記モータートルクを変更する時間間隔である。

状態は、産業用ロボット１５００に設けられたセンサ装置からのセンサデータであり、例えば、産業用ロボット１５００の撮影した画像、産業用ロボット１５００の関節位置や関節角度や関節角速度などである。状態を計測する時間間隔は、例えば、上記画像を撮影する時間間隔、または、上記関節位置や上記関節角度や上記関節角速度などを計測する時間間隔である。制約条件は、例えば、上記関節位置や上記関節角度や上記関節角速度などの稼働範囲である。

即時報酬は、例えば、産業用ロボット１５００の単位時間ごとの組み立て数などである。目標は、産業用ロボット１５００の生産性の最大化である。状態価値関数は、例えば、産業用ロボット１５００の累積組み立て数についての行動の価値を表す。対象１１０に関する事前知識は、例えば、産業用ロボット１５００の仕様や、ロボットアームの寸法などのパラメータの公称値および許容差（公差）である。

また、対象１１０は、上述した具体例のシミュレータであってもよい。また、対象１１０は、風力発電以外の発電設備であってもよい。また、対象１１０は、例えば、化学プラントや自律移動ロボットなどであってもよい。また、対象１１０は、自動車などの乗り物であってもよい。また、対象１１０は、例えば、ドローンやヘリコプターなどの飛行物体であってもよい。また、対象１１０は、例えば、ゲームであってもよい。

（全体処理手順）
次に、図１６を用いて、強化学習装置１００が実行する、全体処理手順の一例について説明する。全体処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

図１６は、全体処理手順の一例を示すフローチャートである。図１６において、強化学習装置１００は、パラメータを初期化する（ステップＳ１６０１）。

次に、強化学習装置１００は、時点と対象１１０の状態とを初期化する（ステップＳ１６０２）。そして、強化学習装置１００は、現時点における対象１１０の状態を計測する（ステップＳ１６０３）。

次に、強化学習装置１００は、現時点における対象１１０の状態が制約条件を満たすか否かを判定する（ステップＳ１６０４）。ここで、制約条件を満たす場合（ステップＳ１６０４：Ｙｅｓ）、強化学習装置１００は、ステップＳ１６０５の処理に移行する。一方で、制約条件を満たさない場合（ステップＳ１６０４：Ｎｏ）、強化学習装置１００は、ステップＳ１６０６の処理に移行する。

ステップＳ１６０５では、強化学習装置１００は、現時点＞初期時点であるか否かを判定する（ステップＳ１６０５）。ここで、現時点＞初期時点ではない場合（ステップＳ１６０５：Ｎｏ）、強化学習装置１００は、ステップＳ１６０９の処理に移行する。一方で、現時点＞初期時点である場合（ステップＳ１６０５：Ｙｅｓ）、強化学習装置１００は、ステップＳ１６０６の処理に移行する。

ステップＳ１６０６では、強化学習装置１００は、対象１１０からの即時報酬を取得する（ステップＳ１６０６）。次に、強化学習装置１００は、パラメータを更新する（ステップＳ１６０７）。そして、強化学習装置１００は、現時点における対象１１０の状態が制約条件を満たし、かつ、現時点＜エピソード終了時点であるか否かを判定する（ステップＳ１６０８）。

ここで、制約条件を満たさない場合、または、現時点＜エピソード終了時点ではない場合（ステップＳ１６０８：Ｎｏ）、強化学習装置１００は、ステップＳ１６０２の処理に戻る。一方で、制約条件を満たし、かつ、現時点＜エピソード終了時点である場合（ステップＳ１６０８：Ｙｅｓ）、強化学習装置１００は、ステップＳ１６０９の処理に移行する。

ステップＳ１６０９では、強化学習装置１００は、図１７に後述する決定処理を実行し、現時点における対象１１０への行動を決定する（ステップＳ１６０９）。次に、強化学習装置１００は、決定した行動を、対象１１０に印加する（ステップＳ１６１０）。そして、強化学習装置１００は、次の時点まで待機する（ステップＳ１６１１）。

次に、強化学習装置１００は、終了条件を満たすか否かを判定する（ステップＳ１６１２）。ここで、終了条件を満たさない場合（ステップＳ１６１２：Ｎｏ）、強化学習装置１００は、ステップＳ１６０３の処理に戻る。一方で、終了条件を満たす場合（ステップＳ１６１２：Ｙｅｓ）、強化学習装置１００は、全体処理を終了する。

（決定処理手順）
次に、図１７を用いて、強化学習装置１００が実行する、決定処理手順の一例について説明する。決定処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

図１７は、決定処理手順の一例を示すフローチャートである。図１７において、強化学習装置１００は、現時点＝行動決定時点であるか否かを判定する（ステップＳ１７０１）。

ここで、現時点＝行動決定時点である場合（ステップＳ１７０１：Ｙｅｓ）、強化学習装置１００は、ステップＳ１７０３の処理に移行する。一方で、現時点＝行動決定時点ではない場合（ステップＳ１７０１：Ｎｏ）、強化学習装置１００は、ステップＳ１７０２の処理に移行する。

ステップＳ１７０２では、強化学習装置１００は、直前の時点の行動を維持する（ステップＳ１７０２）。そして、強化学習装置１００は、決定処理を終了する。

ステップＳ１７０３では、強化学習装置１００は、パラメータを参照して、現時点における対象１１０への行動の平均値を算出する（ステップＳ１７０３）。

次に、強化学習装置１００は、対象１１０の事前知識を参照して、次回の行動決定時点までの各時点における対象１１０の状態の予測値を算出し、制約条件に対する、各時点における対象１１０の状態についての危険度を算出する（ステップＳ１７０４）。事前知識は、対象１１０の線形近似モデルなどを含む。

そして、強化学習装置１００は、算出したすべての危険度が閾値未満であるか否かを判定する（ステップＳ１７０５）。ここで、少なくともいずれかの危険度が閾値以上である場合（ステップＳ１７０５：Ｎｏ）、強化学習装置１００は、ステップＳ１７１０の処理に移行する。一方で、すべての危険度が閾値未満である場合（ステップＳ１７０５：Ｙｅｓ）、強化学習装置１００は、ステップＳ１７０６の処理に移行する。

ステップＳ１７０６では、強化学習装置１００は、算出した危険度と、予め設定された制約充足率の下限値と、行動の影響度とを参照して、標準偏差を算出する（ステップＳ１７０６）。次に、強化学習装置１００は、算出した標準偏差の最小値に基づいて、分散共分散行列を算出する（ステップＳ１７０７）。そして、強化学習装置１００は、算出した平均値および算出した分散共分散行列に基づく確率分布に従って、現時点における対象１１０への行動を確率的に決定する（ステップＳ１７０８）。

次に、強化学習装置１００は、決定した行動が上下限範囲内であるか否かを判定する（ステップＳ１７０９）。ここで、上下限範囲内ではない場合（ステップＳ１７０９：Ｎｏ）、強化学習装置１００は、ステップＳ１７１０の処理に移行する。一方で、上下限範囲内である場合（ステップＳ１７０９：Ｙｅｓ）、強化学習装置１００は、決定処理を終了する。

ステップＳ１７１０では、強化学習装置１００は、行動を０に決定する（ステップＳ１７１０）。そして、強化学習装置１００は、決定処理を終了する。

以上説明したように、強化学習装置１００によれば、行動待ち期間に含まれる将来のそれぞれの時点における状態を予測した結果に基づいて、制約条件に対する、それぞれの時点における状態についての危険度を算出することができる。強化学習装置１００によれば、算出したそれぞれの時点における状態についての危険度と、今回の行動によるそれぞれの時点における状態に対する影響度とに応じて調整した、今回の行動に関する探索範囲に基づいて、今回の行動を決定することができる。これにより、強化学習装置１００は、将来のそれぞれの時点における状態が制約条件に違反してしまう確率の増大化を抑制することができる。

強化学習装置１００によれば、危険度が大きいほど狭くなるように調整し、かつ、影響度が大きいほど狭くなるように調整した探索範囲に基づいて、今回の行動を決定することができる。これにより、強化学習装置１００は、将来のそれぞれの時点における状態が制約条件に違反してしまう確率の増大化を、効率よく抑制することができる。

強化学習装置１００によれば、行動決定が行われる時間間隔が、状態計測が行われる時間間隔よりも長い状況において、強化学習を実施することができる。これにより、強化学習装置１００は、将来のそれぞれの時点における状態が制約条件に違反してしまう確率をコントロールしにくい状況でも、将来のそれぞれの時点における状態が制約条件に違反してしまう確率の増大化を抑制することができる。

強化学習装置１００によれば、制約条件の充足に関する確率的な評価指標の下で、今回の行動を、確率的に決定することができる。これにより、強化学習装置１００は、制約条件の充足に関する確率的な評価指標を満たすように、将来のそれぞれの時点における状態が制約条件に違反してしまう確率を制御することができる。

強化学習装置１００によれば、算出した期間に含まれるいずれかの時点における状態についての危険度が閾値以上である場合、行動を所定値に決定することができる。強化学習装置１００によれば、算出したそれぞれの時点における状態についての危険度が閾値未満である場合、制約条件の充足に関する確率的な評価指標の下で、今回の行動を、確率的に決定することができる。これにより、強化学習装置１００は、制約条件の充足に関する確率的な評価指標を満たすように、将来のそれぞれの時点における状態が制約条件に違反してしまう確率を制御しやすくすることができる。

強化学習装置１００によれば、算出したそれぞれの時点における状態についての危険度が閾値未満である場合、今回の行動が取りうる平均値を算出することができる。強化学習装置１００によれば、算出したそれぞれの時点における状態についての危険度と、今回の行動によるそれぞれの時点における状態に対する影響度とに応じて、制約条件の充足に関する確率的な評価指標の下で分散共分散行列を算出することができる。強化学習装置１００によれば、算出した平均値と分散共分散行列とを用いて調整した、今回の行動に関する探索範囲に基づいて、今回の行動を、確率的に決定することができる。これにより、強化学習装置１００は、ガウス分布に従って対象１１０への行動を決定することができる。

強化学習装置１００によれば、所定値として０を用いることができる。これにより、強化学習装置１００は、対象１１０の特性を利用して、行動待ち期間に含まれる将来のそれぞれの時点における状態が制約条件を充足することを保証することができる。

強化学習装置１００によれば、状態に対して線形である制約条件を用いることができる。これにより、強化学習装置１００は、強化学習を実施しやすくすることができる。

強化学習装置１００によれば、対象１１０に関する事前知識を用いて、期間に含まれるそれぞれの時点における状態を予測することができる。これにより、強化学習装置１００は、予測する精度の向上を図ることができる。

強化学習装置１００によれば、発電設備を対象１１０とし、対象１１０を制御する方策を学習する強化学習を実施することができる。これにより、強化学習装置１００は、方策を学習していく際にも、制約条件を違反する確率を低減させつつ、発電設備を制御することができる。

強化学習装置１００によれば、対象１１０を空調設備とし、対象１１０を制御する方策を学習する強化学習を実施することができる。これにより、強化学習装置１００は、方策を学習していく際にも、制約条件を違反する確率を低減させつつ、空調設備を制御することができる。

強化学習装置１００によれば、対象１１０を産業用ロボットとし、対象１１０を制御する方策を学習する強化学習を実施することができる。これにより、強化学習装置１００は、方策を学習していく際にも、制約条件を違反する確率を低減させつつ、産業用ロボットを制御することができる。

強化学習装置１００によれば、今回の行動決定が行われる時点における、状態を示す変数および行動を示す変数を用いて、行動待ち期間に含まれる将来のそれぞれの時点における、状態についての関数を線形近似して表すモデル情報を用いることができる。これにより、強化学習装置１００は、真のダイナミクスを表すモデルが未知である場合にも、強化学習を実施することができる。

強化学習装置１００によれば、モデル情報と、行動待ち期間に含まれる将来のそれぞれの時点における、状態の予測値に含まれる誤差の上限とに基づいて、予測値を算出することができる。これにより、強化学習装置１００は、状態の予測値に含まれる誤差を考慮して、精度よく状態の予測値を求めることができる。

強化学習装置１００によれば、エピソード型の強化学習において、行動を決定することができる。これにより、強化学習装置１００は、エピソード内のすべての時点において、状態が制約条件を充足する確率が、予め設定された下限値以上に大きくなることを保証することができる。

強化学習装置１００によれば、対象１１０は、いずれかの状態計測が行われる時点において、状態が制約条件を充足し、かつ、行動が０であれば、次の状態計測が行われる時点において、状態が制約条件を充足することが保証される性質を有することができる。これにより、強化学習装置１００は、対象１１０の特性を利用して、将来のそれぞれの時点における対象１１０の状態が制約条件を充足することを保証することができる。

なお、本実施の形態で説明した強化学習方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本実施の形態で説明した強化学習プログラムは、ハードディスク、フレキシブルディスク、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）−ＲＯＭ、ＭＯ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本実施の形態で説明した強化学習プログラムは、インターネット等のネットワークを介して配布してもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）強化学習における制御の対象の状態計測が行われる時間間隔が前記対象への行動決定が行われる時間間隔とは異なる状態で、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、前記対象の状態計測が行われるそれぞれの時点における前記対象の状態を予測し、
予測した前記対象の状態の結果に基づいて、前記対象の状態に関する制約条件に対する、前記それぞれの時点における前記対象の状態についての危険度を算出し、
算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて前記対象への今回の行動に関する探索範囲を特定し、
特定した前記対象への今回の行動に関する探索範囲に基づいて、前記対象への今回の行動を決定する、
処理をコンピュータが実行することを特徴とする強化学習方法。

（付記２）前記特定する処理は、
前記危険度が大きいほど狭くなるように、かつ、前記影響度が大きいほど狭くなるように、前記探索範囲を特定する、ことを特徴とする付記１に記載の強化学習方法。

（付記３）前記対象への行動決定が行われる時間間隔は、前記対象の状態計測が行われる時間間隔よりも長い、ことを特徴とする付記１または２に記載の強化学習方法。

（付記４）前記特定する処理は、
前記制約条件の充足に関する確率的な評価指標の下で、前記探索範囲を特定し、
前記決定する処理は、
特定した前記探索範囲に基づいて、前記対象への今回の行動を、確率的に決定する、ことを特徴とする付記１〜３のいずれか一つに記載の強化学習方法。

（付記５）前記特定する処理は、
算出した前記それぞれの時点における前記対象の状態についての危険度が閾値未満である場合、前記制約条件の充足に関する確率的な評価指標の下で、前記探索範囲を特定し、
前記決定する処理は、
算出した前記期間に含まれるいずれかの時点における前記対象の状態についての危険度が閾値以上である場合、前記対象への行動を所定値に決定し、算出した前記それぞれの時点における前記対象の状態についての危険度が閾値未満である場合、特定した前記探索範囲に基づいて、前記対象への今回の行動を、確率的に決定する、ことを特徴とする付記１〜４のいずれか一つに記載の強化学習方法。

（付記６）前記特定する処理は、
算出した前記それぞれの時点における前記対象の状態についての危険度が閾値未満である場合、前記対象への今回の行動が取りうる平均値を算出し、算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて、前記制約条件の充足に関する確率的な評価指標の下で分散共分散行列を算出し、算出した前記平均値と前記分散共分散行列とを用いて、前記探索範囲を特定する、ことを特徴とする付記５に記載の強化学習方法。

（付記７）前記所定値は、０である、ことを特徴とする付記５または６に記載の強化学習方法。

（付記８）前記制約条件は、前記対象の状態に対して線形である、ことを特徴とする付記１〜７のいずれか一つに記載の強化学習方法。

（付記９）前記対象に関する事前知識を用いて、前記期間に含まれる前記それぞれの時点における前記対象の状態を予測する、
処理を前記コンピュータが実行することを特徴とする付記１〜８のいずれか一つに記載の強化学習方法。

（付記１０）前記対象は、発電設備であり、
前記事前知識は、前記発電設備の仕様値と前記発電設備のパラメータの公称値と前記発電設備のパラメータの許容差の少なくともいずれかに基づく情報であり、
前記算出する処理、前記特定する処理、および前記決定する処理は、
前記発電設備の発電機トルクを行動とし、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを状態とし、前記発電設備の発電量を報酬とし、前記対象を制御する方策を学習する強化学習において実行され、
前記対象の状態計測が行われる時間間隔は、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを計測する時間間隔であり、
前記対象への行動決定が行われる時間間隔は、前記発電設備の発電機トルクを決定する時間間隔である、ことを特徴とする付記９に記載の強化学習方法。

（付記１１）前記対象は、空調設備であり、
前記事前知識は、前記空調設備の仕様値と前記空調設備のパラメータの公称値と前記空調設備のパラメータの許容差の少なくともいずれかに基づく情報であり、
前記算出する処理、前記特定する処理、および前記決定する処理は、
前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを行動とし、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを状態とし、前記空調設備の消費電力量をコストとし、前記対象を制御する方策を学習する強化学習において実行され、
前記対象の状態計測が行われる時間間隔は、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを計測する時間間隔であり、
前記対象への行動決定が行われる時間間隔は、前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを決定する時間間隔である、ことを特徴とする付記９または１０に記載の強化学習方法。

（付記１２）前記対象は、産業用ロボットであり、
前記事前知識は、前記産業用ロボットの仕様値と前記産業用ロボットのパラメータの公称値と前記産業用ロボットのパラメータの許容差の少なくともいずれかに基づく情報であり、
前記算出する処理、前記特定する処理、および前記決定する処理は、
前記産業用ロボットのモータートルクを行動とし、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを状態とし、前記産業用ロボットの生産量を報酬とし、前記対象を制御する方策を学習する強化学習において実行され、
前記対象の状態計測が行われる時間間隔は、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを計測する時間間隔であり、
前記対象への行動決定が行われる時間間隔は、前記産業用ロボットのモータートルクを決定する時間間隔である、ことを特徴とする付記９〜１１のいずれか一つに記載の強化学習方法。

（付記１３）前記事前知識は、今回の行動決定が行われる時点における、前記対象の状態を示す変数および前記対象への行動を示す変数を用いて、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、前記対象の状態計測が行われるそれぞれの時点における、前記対象の状態についての関数を線形近似して表すモデル情報を含む、ことを特徴とする付記９〜１２のいずれか一つに記載の強化学習方法。

（付記１４）前記予測する処理は、
前記モデル情報と、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、前記対象の状態計測が行われるそれぞれの時点における、前記対象の状態の予測値に含まれる誤差の上限とに基づいて、前記予測値を算出する、ことを特徴とする付記１３に記載の強化学習方法。

（付記１５）前記算出する処理、前記特定する処理、および前記決定する処理は、
前記対象の状態が初期化されてから前記対象の状態が前記制約条件を充足しなくなるまでの期間、または、前記対象の状態が初期化されてから一定時間が経過するまでの期間を単位とするエピソード型の強化学習において実行される、ことを特徴とする付記１〜１４のいずれか一つに記載の強化学習方法。

（付記１６）前記対象は、いずれかの状態計測が行われる時点において、前記対象の状態が前記制約条件を充足し、かつ、前記対象への行動が０であれば、次の状態計測が行われる時点において、前記対象の状態が前記制約条件を充足することが保証される性質を有する、ことを特徴とする付記１〜１５のいずれか一つに記載の強化学習方法。

（付記１７）強化学習における制御の対象の状態計測が行われる時間間隔が前記対象への行動決定が行われる時間間隔とは異なる状態で、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、前記対象の状態計測が行われるそれぞれの時点における前記対象の状態を予測し、
予測した前記対象の状態の結果に基づいて、前記対象の状態に関する制約条件に対する、前記それぞれの時点における前記対象の状態についての危険度を算出し、
算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて前記対象への今回の行動に関する探索範囲を特定し、
特定した前記対象への今回の行動に関する探索範囲に基づいて、前記対象への今回の行動を決定する、
処理をコンピュータに実行させることを特徴とする強化学習プログラム。

（付記１８）強化学習における制御の対象の状態計測が行われる時間間隔が前記対象への行動決定が行われる時間間隔とは異なる状態で、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、前記対象の状態計測が行われるそれぞれの時点における前記対象の状態を予測し、
予測した前記対象の状態の結果に基づいて、前記対象の状態に関する制約条件に対する、前記それぞれの時点における前記対象の状態についての危険度を算出し、
算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて前記対象への今回の行動に関する探索範囲を特定し、
特定した前記対象への今回の行動に関する探索範囲に基づいて、前記対象への今回の行動を決定する、
制御部を有することを特徴とする強化学習装置。

１００強化学習装置
１０１強化学習器
１１０対象
２００，６００，６１０，８００，９００，９１０，１１００，１２００グラフ
２０１，２０２範囲
３００バス
３０１ＣＰＵ
３０２メモリ
３０３ネットワークＩ／Ｆ
３０４記録媒体Ｉ／Ｆ
３０５記録媒体
３１０ネットワーク
４００履歴テーブル
５００記憶部
５０１取得部
５０２算出部
５０３決定部
５０４学習部
５０５出力部
５１０制御部
７００実数空間
７０１〜７０３，１００１〜１００３，１００５〜１００８状態
９０１〜９０３確率密度
９１１確率分布
１３００サーバルーム
１３０１サーバ
１３０２冷却器
１４００発電設備
１５００産業用ロボット

Claims

強化学習における制御の対象の状態計測が行われる時間間隔が前記対象への行動決定が行われる時間間隔とは異なる状態で、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、前記対象の状態計測が行われるそれぞれの時点における前記対象の状態を予測し、
予測した前記対象の状態の結果に基づいて、前記対象の状態に関する制約条件に対する、前記それぞれの時点における前記対象の状態についての危険度を算出し、
算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて前記対象への今回の行動に関する探索範囲を特定し、
特定した前記対象への今回の行動に関する探索範囲に基づいて、前記対象への今回の行動を決定する、
処理をコンピュータが実行することを特徴とする強化学習方法。
前記特定する処理は、
前記危険度が大きいほど狭くなるように、かつ、前記影響度が大きいほど狭くなるように、前記探索範囲を特定する、ことを特徴とする請求項１に記載の強化学習方法。
前記対象への行動決定が行われる時間間隔は、前記対象の状態計測が行われる時間間隔よりも長い、ことを特徴とする請求項１または２に記載の強化学習方法。
前記特定する処理は、
前記制約条件の充足に関する確率的な評価指標の下で、前記探索範囲を特定し、
前記決定する処理は、
特定した前記探索範囲に基づいて、前記対象への今回の行動を、確率的に決定する、ことを特徴とする請求項１〜３のいずれか一つに記載の強化学習方法。
前記特定する処理は、
算出した前記それぞれの時点における前記対象の状態についての危険度が閾値未満である場合、前記制約条件の充足に関する確率的な評価指標の下で、前記探索範囲を特定し、
前記決定する処理は、
算出した前記期間に含まれるいずれかの時点における前記対象の状態についての危険度が閾値以上である場合、前記対象への行動を所定値に決定し、算出した前記それぞれの時点における前記対象の状態についての危険度が閾値未満である場合、特定した前記探索範囲に基づいて、前記対象への今回の行動を、確率的に決定する、ことを特徴とする請求項１〜４のいずれか一つに記載の強化学習方法。
前記特定する処理は、
算出した前記それぞれの時点における前記対象の状態についての危険度が閾値未満である場合、前記対象への今回の行動が取りうる平均値を算出し、算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて、前記制約条件の充足に関する確率的な評価指標の下で分散共分散行列を算出し、算出した前記平均値と前記分散共分散行列とを用いて、前記探索範囲を特定する、ことを特徴とする請求項５に記載の強化学習方法。
前記所定値は、０である、ことを特徴とする請求項５または６に記載の強化学習方法。
前記制約条件は、前記対象の状態に対して線形である、ことを特徴とする請求項１〜７のいずれか一つに記載の強化学習方法。
前記対象に関する事前知識を用いて、前記期間に含まれる前記それぞれの時点における前記対象の状態を予測する、
処理を前記コンピュータが実行することを特徴とする請求項１〜８のいずれか一つに記載の強化学習方法。
前記対象は、発電設備であり、
前記事前知識は、前記発電設備の仕様値と前記発電設備のパラメータの公称値と前記発電設備のパラメータの許容差の少なくともいずれかに基づく情報であり、
前記算出する処理、前記特定する処理、および前記決定する処理は、
前記発電設備の発電機トルクを行動とし、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを状態とし、前記発電設備の発電量を報酬とし、前記対象を制御する方策を学習する強化学習において実行され、
前記対象の状態計測が行われる時間間隔は、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを計測する時間間隔であり、
前記対象への行動決定が行われる時間間隔は、前記発電設備の発電機トルクを決定する時間間隔である、ことを特徴とする請求項９に記載の強化学習方法。
前記対象は、空調設備であり、
前記事前知識は、前記空調設備の仕様値と前記空調設備のパラメータの公称値と前記空調設備のパラメータの許容差の少なくともいずれかに基づく情報であり、
前記算出する処理、前記特定する処理、および前記決定する処理は、
前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを行動とし、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを状態とし、前記空調設備の消費電力量をコストとし、前記対象を制御する方策を学習する強化学習において実行され、
前記対象の状態計測が行われる時間間隔は、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを計測する時間間隔であり、
前記対象への行動決定が行われる時間間隔は、前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを決定する時間間隔である、ことを特徴とする請求項９または１０に記載の強化学習方法。
前記対象は、産業用ロボットであり、
前記事前知識は、前記産業用ロボットの仕様値と前記産業用ロボットのパラメータの公称値と前記産業用ロボットのパラメータの許容差の少なくともいずれかに基づく情報であり、
前記算出する処理、前記特定する処理、および前記決定する処理は、
前記産業用ロボットのモータートルクを行動とし、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを状態とし、前記産業用ロボットの生産量を報酬とし、前記対象を制御する方策を学習する強化学習において実行され、
前記対象の状態計測が行われる時間間隔は、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを計測する時間間隔であり、
前記対象への行動決定が行われる時間間隔は、前記産業用ロボットのモータートルクを決定する時間間隔である、ことを特徴とする請求項９〜１１のいずれか一つに記載の強化学習方法。
強化学習における制御の対象の状態計測が行われる時間間隔が前記対象への行動決定が行われる時間間隔とは異なる状態で、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、前記対象の状態計測が行われるそれぞれの時点における前記対象の状態を予測し、
予測した前記対象の状態の結果に基づいて、前記対象の状態に関する制約条件に対する、前記それぞれの時点における前記対象の状態についての危険度を算出し、
算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて前記対象への今回の行動に関する探索範囲を特定し、
特定した前記対象への今回の行動に関する探索範囲に基づいて、前記対象への今回の行動を決定する、
処理をコンピュータに実行させることを特徴とする強化学習プログラム。
強化学習における制御の対象の状態計測が行われる時間間隔が前記対象への行動決定が行われる時間間隔とは異なる状態で、今回の行動決定が行われる時点より後であり、次回の行動決定が行われる時点以前である期間に含まれる、前記対象の状態計測が行われるそれぞれの時点における前記対象の状態を予測し、
予測した前記対象の状態の結果に基づいて、前記対象の状態に関する制約条件に対する、前記それぞれの時点における前記対象の状態についての危険度を算出し、
算出した前記それぞれの時点における前記対象の状態についての危険度と、前記対象への今回の行動による前記それぞれの時点における前記対象の状態に対する影響度とに応じて前記対象への今回の行動に関する探索範囲を特定し、
特定した前記対象への今回の行動に関する探索範囲に基づいて、前記対象への今回の行動を決定する、
制御部を有することを特徴とする強化学習装置。