JP7484504B2

JP7484504B2 - 制御装置、制御方法及びプログラム

Info

Publication number: JP7484504B2
Application number: JP2020116255A
Authority: JP
Inventors: 吉雄丹下
Original assignee: Fuji Electric Co Ltd
Current assignee: Fuji Electric Co Ltd
Filing date: 2020-07-06
Publication date: 2024-05-16
Anticipated expiration: 2040-07-06

Description

本発明は、制御装置、制御方法及びプログラムに関する。

近年、機械学習の１つとして、深層強化学習と呼ばれる手法が広く知られるようになってきた。深層強化学習とは、従来から知られていた強化学習と、多層のニューラルネットワークを学習する手法である深層学習とを組み合わせることで、或る環境下における複雑な最適行動を獲得する手法である。

強化学習の産業分野への応用例としては、例えば、エネルギーマネジメント分野への応用（例えば、特許文献１）やプラント制御への応用（例えば、特許文献２）、自動車の自動運転への応用（例えば、特許文献３）等が知られている。

また、産業上広く利用されている制御装置として、温調制御装置やＰＬＣ（Programmable Logic Controller）、ＤＣＳ（Distributed Control System）等が知られている。このような制御装置に用いられる制御方式として、ＰＩＤ（Proportional-Integral-Differential）制御、モデル予測制御（ＭＰＣ：Model-Predictive-Control）、内部モデル制御、ＬＱＧ（Linear-Quadratic-Gaussian）制御、Ｈ２制御、Ｈ∞制御等が知られている。これらの制御方式は、制御対象の制御量を目標値に追従させることを目的とする制御方式である。

また、現在に至るまでの過去の操作量の変化に応じた制御量の収束値の予測値と、目標値との差である補正目標偏差に基づいて、新たな操作量を決定する技術が知られている（例えば、特許文献４）。

特開２０１８－４８７５０号公報特開２０１７－１５７１１２号公報特開２０１８－３７０６４号公報国際公開第２０１６／０９２８７２号

上記の特許文献１～３に記載されている応用例に示されるように深層強化学習は強力な手法である一方で、良い制御則を獲得するためには様々な状況で何度も学習を行う必要があり、非常に時間を要する。また、制御量が目標値に追従する追従性能のみを追求すると、操作量が頻繁に変化してしまう場合があり、例えば、アクチュエーターの故障に繋がったり、過度に振動を励起してしまったりすることがある。なお、これに対して、強化学習における報酬関数に対して、操作量の変化頻度を評価した関数値に重みを乗算したものを加算することで、操作量の変化を緩和する方法も考えられるが、一般にどの程度の重みを用いればよいかが不明であり、重みを何度も変えて繰り返し学習させる必要があり、非常に時間を要する。

本発明の一実施形態は、上記の点に鑑みてなされたもので、深層強化学習によって制御対象を制御する際の操作量の変化を緩和することを目的とする。

上記目的を達成するため、一実施形態に係る制御装置は、制御対象に対する操作量を出力し、前記制御対象の制御量を目標値に追従させる制御装置であって、現在の制御量と目標値との差分である目標偏差を算出する目標偏差算出手段と、前記目標偏差に対して所定のフィルタ処理を行って、前記目標偏差を補正した補正目標偏差を算出するフィルタ手段と、前記補正目標偏差に基づいて、強化学習によって新たな操作変化量を学習及び算出する操作変化量算出手段と、前記操作変化量を現在の操作量に加算する加算手段と、を有することを特徴とする。

深層強化学習によって制御対象を制御する際の操作量の変化を緩和することができる。

第一の実施形態に係る制御装置の全体構成の一例を示す図である。操作量学習・計算部の動作の一例を説明するための図である。強化学習部の動作の一例を説明するための図である。第一の実施形態に係る行動・操作変化量変換処理の一例を示すフローチャートである。ブレンド行動生成における重みの一例を説明するための図である。第二の実施形態に係る行動・操作変化量変換処理の一例を示すフローチャートである。一実施形態に係る制御装置のハードウェア構成の一例を示す図である。実施例における制御対象のステップ応答を示す図である。実施例における学習用の目標値時系列を示す図である。実施例における報酬総和の変化を示す図である。実施例における制御応答を示す図（その１）である。実施例における制御応答を示す図（その２）である。実施例における制御応答を示す図（その３）である。

以下、本発明の一実施形態について説明する。以降の各実施形態では、深層強化学習によって制御対象を制御し、かつ、この際の操作量の変化を緩和することが可能な制御装置１０について説明する。以降の各実施形態に係る制御装置１０は、深層強化学習によって求められた最適行動と、予め決めておいた事前行動とを或る重みでブレンドすることで、このブレンド後の行動により操作量の変化量を決定する。また、このブレンドの際に、当該制御装置１０は、行動価値関数を評価した評価値を用いて適切な重みを計算する。これにより、適切な重みが不明となることなく、操作量の変化を緩和することが可能になる。

ここで、以降の各実施形態に係る制御装置１０は、制御対象の運用開始前に制御対象モデルを用いて深層強化学習による学習を十分に行った上で、実際に制御対象を運用する際には、この事前学習の結果を初期値として、適宜、深層強化学習による学習を行う。これにより、制御対象の特性を担保しつつ、制御対象の特性の変化等にも柔軟に対応可能な自動学習型の制御を実現することができる。

なお、以降の各実施形態に係る制御装置１０は、例えば、ＰＬＣやＤＣＳ、組み込み型の計算機器等を想定するが、これらに限られず、制御対象を操作するための任意の機器又は装置を用いることができる。例えば、プラント制御、インバータ制御、機械制御、電気制御、信号制御、空調制御、温調制御等の各種制御に用いられる制御機器又は制御装置を用いることが可能である。

また、以降の各実施形態では、一例として、ＳＩＳＯ（single-input and single-output）制御である場合について説明するが、これに限られず、例えば、ＭＩＭＯ（multiple-input and multiple-output）制御に対しても同様に適用することが可能である。

［第一の実施形態］
まず、第一の実施形態について説明する。

＜制御装置１０の全体構成＞
まず、本実施形態に係る制御装置１０の全体構成について、図１を参照しながら説明する。図１は、第一の実施形態に係る制御装置１０の全体構成の一例を示す図である。

図１に示すように、本実施形態に係る制御装置１０は、計測部１０１と、差分器１０２と、操作量更新部１０３と、タイマ１０４とを有する。これら各機能部は、例えば、制御装置１０にインストールされた１以上のプログラムがプロセッサ等に実行させる処理によって実現される。

計測部１０１は、所定の制御周期Ｔ_ｃ毎に、制御対象モデル２０又は制御対象３０の制御量ｙを計測し、計測した制御量ｙの最新の値を制御量現在値ｙ_０（ｔ）として出力する。また、計測部１０１は、制御周期Ｔ_ｃ毎に、操作量更新部１０３から出力された操作量ｕを取得し、取得した操作量ｕの最新の値を操作量現在値ｕ_０（ｔ）として出力する。

ここで、制御対象３０は、実際の制御対象（すなわち、例えば、実際に制御の対象となるプラントやインバータ、機械、電気設備、信号設備、空調設備、温調設備等）である。一方で、制御対象モデル２０は、制御対象３０のモデル（すなわち、制御対象３０をモデル化したデータ）のことである。制御対象モデル２０は、制御装置１０が有する補助記憶装置等のメモリに格納されていてもよいし、制御装置１０とは異なる他の装置が有するメモリに格納されていてもよい。

なお、制御対象モデル２０の制御量ｙは、操作量ｕと疑似外乱ｖ´とに応じて決定される。一方で、制御対象３０の制御量ｙは、操作量ｕと外乱ｖとに応じて決定される。疑似外乱ｖ´とは外乱ｖに相当する値を制御対象モデル２０に与えたものである。外乱ｖとしては、例えば、制御対象３０が温調設備、制御量ｙが温度である場合における外気温の低下又は上昇等が挙げられる。

差分器１０２は、目標値ｒ（ｔ）と制御量現在値ｙ_０（ｔ）との差を目標偏差ｅ_０（ｔ）として出力する。すなわち、ｅ_０（ｔ）＝ｒ（ｔ）－ｙ_０（ｔ）である。

操作量更新部１０３は、制御周期Ｔ_ｃ毎に、制御対象モデル２０又は制御対象３０に対する操作量ｕを出力する。ここで、操作量更新部１０３には、フィルタ部１１１と、操作量学習・計算部１１２と、加算器１１３とが含まれる。

フィルタ部１１１は、目標偏差ｅ_０（ｔ）に対してフィルタ処理を行い、補正目標偏差ｅ^＊（ｔ）を出力する。フィルタ処理としては、例えば、定数倍する処理、微分値を計算する処理、積分値を計算する処理、移動平均値を計算する処理、過去の目標偏差の時系列を組み合わせる処理、又はこれらの任意の組み合わせ等が挙げられる。

例えば、定数倍する処理と微分値を計算する処理とを組わせる場合は、ｃを定数として、

である２次元ベクトルを補正目標偏差ｅ^＊（ｔ）として出力することが考えられる。

また、例えば、過去の目標偏差の時系列を組み合わせる処理は、Ｌを出力ベクトルの次元数として、

であるＬ次元ベクトルを補正目標偏差ｅ^＊（ｔ）として出力することが考えられる。

操作量学習・計算部１１２は、制御周期Ｔ_ｃ毎に、フィルタ部１１１から出力された補正目標偏差ｅ^＊（ｔ）に基づいて、操作変化量ｄｕ（ｔ）を算出する。このとき、操作量学習・計算部１１２は、操作変化量ｄｕ（ｔ）の算出と同時に、深層強化学習による学習も行うことができる。操作変化量ｄｕ（ｔ）の算出の詳細については後述する。

ここで、操作量学習・計算部１１２は、例えば、ｄｕ（ｔ－３Ｔ_ｃ）、ｄｕ（ｔ－２Ｔ_ｃ）、ｄｕ（ｔ－Ｔ_ｃ）という順序で操作変化量ｄｕ（ｔ）を算出し、出力する。なお、操作変化量ｄｕは、制御周期Ｔ_ｃ毎に操作量ｕが変化した量である。

加算器１１３は、計測部１０１から出力された操作量現在値ｕ_０と、操作量学習・計算部１１２から出力された操作変化量ｄｕとを加算して、新たな操作量ｕを算出する。そして、加算器１１３は、この操作量ｕを制御対象モデル２０又は制御対象３０に出力する。この操作量ｕは、ｕ（ｔ）＝ｕ_０＋ｄｕ（ｔ）＝ｕ（ｔ－Ｔ_ｃ）＋ｄｕ（ｔ）で算出される。

なお、本実施形態に係る制御装置１０では、加算器１１３で算出した操作量ｕをそのまま制御対象モデル２０又は制御対象３０に出力しているが、例えば、操作量ｕに上下限制約が存在する場合等には、別途リミッター等を設けた上で、加算器１１３で算出した操作量ｕをリミッターに入力し、当該リミッターから出力された操作量を制御対象モデル２０又は制御対象３０に出力してもよい。

タイマ１０４は、制御周期Ｔ_ｃ毎に、計測部１０１と操作量更新部１０３とを動作させる。

また、本実施形態に係る制御装置１０は、制御対象モデル２０と制御対象３０とを切り替えるための切替器４０及び切替器５０と接続されている。切替器４０及び切替器５０により、制御装置１０は、制御対象モデル２０又は制御対象３０のいずれかと閉ループを構成する。ここで、本実施形態に係る制御装置１０は、制御対象３０の運用開始前に、制御対象モデル２０と閉ループを構成した上で、深層強化学習による学習を行う。一方で、本実施形態に係る制御装置１０は、実際の運用では、制御対象３０と閉ループを構成した上で、適宜、深層強化学習による学習を行う。

このように、本実施形態に係る制御装置１０は、実際の運用開始前に制御対象モデル２０を用いて深層強化学習による学習を行う。そして、本実施形態に係る制御装置１０は、制御対象モデル２０を用いた学習結果を初期値として、制御対象３０の制御を行うと共に、適宜、深層強化学習による学習を行う。すなわち、本実施形態に係る制御装置１０では、操作量学習・計算部１１２が或る程度学習した状態から制御対象３０の運用を開始することができる。これにより、制御対象３０の特性を担保しつつ、制御対象３０の特性の変化等にも柔軟に対応可能な自動学習型の制御を実現することができる。

＜操作量学習・計算部１１２の動作＞
次に、操作量学習・計算部１１２の動作について、図２を参照しながら説明する。図２は、操作量学習・計算部１１２の動作の一例を説明するための図である。

図２に示すように、操作量学習・計算部１１２は、補正目標偏差ｅ^＊（ｔ）を入力して、操作変化量ｄｕ（ｔ）を出力する。ここで、操作量学習・計算部１１２には、報酬計算部１２１と、目標偏差・状態変換部１２２と、強化学習部１２３と、行動・操作変化量変換部１２４とが含まれる。

報酬計算部１２１は、補正目標偏差ｅ^＊（ｔ）を入力して、深層強化学習に必要な報酬Ｒ（ｔ）を計算する。ここで、報酬Ｒ（ｔ）としては、例えば、補正目標偏差ｅ^＊（ｔ）のノルムに－１を掛けた値（つまり、Ｒ（ｔ）＝－||ｅ^＊（ｔ）||）としてもよいし、補正目標偏差ｅ^＊（ｔ）のノルムの２乗に－１を掛けた値（つまり、Ｒ（ｔ）＝－||ｅ^＊（ｔ）||^２）としてもよいし、任意の所定の関数に対する補正目標偏差ｅ^＊（ｔ）の関数値（つまり、当該関数をｆとして、Ｒ（ｔ）＝ｆ（ｅ^＊（ｔ）））としてもよい。ただし、報酬Ｒ（ｔ）としては補正目標偏差ｅ^＊（ｔ）を用いていればよく、上記に限られず、他に報酬Ｒ（ｔ）に含まれる値があってもよい。なお、ノルムやノルムの２乗に－１を掛けているのは深層強化学習では一般に報酬の最大化を行うためであり、一方で補正目標偏差は小さい方が望ましいためである。

目標偏差・状態変換部１２２は、補正目標偏差ｅ^＊（ｔ）を入力して、深層強化学習の状態ｓ（ｔ）を生成する。この状態ｓ（ｔ）には、補正目標偏差ｅ^＊（ｔ）が含まれる。状態ｓ（ｔ）は、補正目標偏差ｅ^＊（ｔ）そのものを状態ｓ（ｔ）としてもよいし、補正目標偏差ｅ^＊（ｔ）に対して任意の変換を施したものを用いてもよいし、又は補正目標偏差ｅ^＊（ｔ）に加えて、制御量や操作量を含めたり、その他制御対象から観測される観測値を含めたりしてもよい。なお、状態ｓ（ｔ）は、「状態変数ｓ（ｔ）」と称されてもよい。

強化学習部１２３は、報酬Ｒ（ｔ）と状態ｓ（ｔ）とを入力して、行動ａ（ｔ）を出力すると共に学習を行う。

ここで、例えば、学習を一定の間隔毎に周期的に行うような場合、強化学習部１２３には、学習周期を示す指令が入力されてもよい。また、例えば、学習の開始又は停止を制御するような場合、強化学習部１２３には、学習開始又は学習停止を示す指令が入力されてもよい。

行動・操作変化量変換部１２４は、強化学習部１２３により出力された行動ａ（ｔ）を操作変化量ｄｕ（ｔ）に変換する。

＜強化学習部１２３の動作＞
次に、強化学習部１２３の動作について、図３を参照しながら説明する。図３は、強化学習部１２３の動作の一例を説明するための図である。

図３に示すように、強化学習部１２３は、報酬Ｒ（ｔ）と状態ｓ（ｔ）とを入力して、行動ａ（ｔ）を出力する。また、強化学習部１２３は、行動価値関数Ｑ（ｓ，ａ）を更新することで学習を行う。行動価値関数Ｑ（ｓ，ａ）とは、状態ｓ（ｔ）において行動ａ（ｔ）をとった際に期待される価値を表す関数のことである。ここで、強化学習部１２３には、行動価値関数更新部１３１と、行動選択部１３２とが含まれる。

行動価値関数更新部１３１は、行動価値関数Ｑ（ｓ，ａ）を更新する。ここで、深層強化学習では、行動価値関数Ｑ（ｓ，ａ）が多層のニューラルネットワーク（多層のニューラルネットワークは「ディープニューラルネットワーク」とも称される。）で実現される。したがって、行動価値関数更新部１３１には、ニューラルネットワークのパラメータ（例えば、セル数、層数、入出力次元等）が与えられる。また、これ以外にも、行動価値関数更新部１３１には、将来の価値をどの程度割り引いて評価するかを示す割引率γも与えられる。なお、上述したように、学習周期や学習開始／終了を示す指令が与えられてもよい。

行動価値関数更新部１３１が行動価値関数Ｑ（ｓ，ａ）を更新するためのアルゴリズムとしては、例えば、ＴＤ（Temporal Difference）誤差法（又は、「ＴＤ学習」と称されることもある。）等の既知の深層強化学習の手法を用いることができる。

行動選択部１３２は、行動価値関数Ｑ（ｓ，ａ）を参照して、現在の状態ｓ（ｔ）に対して、適切な行動ａ（ｔ）を選択する。行動選択部１３２が行動ａ（ｔ）を選択するためのアルゴリズムとしては、例えば、ε－Ｇｒｅｅｄｙ法等の既知の深層強化学習の手法を用いることができる。なお、ε－Ｇｒｅｅｄｙ法を用いる場合、０以上１以下の値を取るεを行動選択パラメータとして設定する。

なお、本実施形態では、深層強化学習の手法として、ＤＱＮ（Deep Q-Network）法と呼ばれる手法を用いているが、これに限られず、例えば、ＰＧ（Policy Gradient）法やＡＣ（Actor Critic）法等の既知の深層強化学習の手法が用いられてもよい。

＜行動ａの選択＞
次に、一例として、或る時刻ｔにおいて、ε－Ｇｒｅｅｄｙ法により行動選択部１３２が行動ａ＝ａ（ｔ）を選択する場合について説明する。

行動選択部１３２は、行動価値関数Ｑ（ｓ，ａ）を参照して、現在の状態ｓ（ｔ）に対して、適切な行動ａ（ｔ）を選択するが、一定の確率１－εで最適な行動をａ^＊（ｔ）を選択する一方で、残りの一定の確率εでランダムな行動を選択する。すなわち、行動選択部１３２は、

により行動ａ（ｔ）を選択する。ここで、ａ^＊（ｔ）は最適な行動（つまり、行動価値関数Ｑ（ｓ，ａ）が最大となる行動）のことであり、

と表される。

このように、ε－Ｇｒｅｅｄｙ法では、行動選択パラメータεはランダムに新しい行動を探索するための調整パラメータを意味する。

＜操作変化量ｄｕへの変換＞
次に、行動ａ（ｔ）を操作変化量ｄｕ（ｔ）に変換する場合の詳細について説明する。行動・操作変化量変換部１２４は、図４に示す行動・操作変化量変換処理を実行することで、行動ａ（ｔ）を操作変化量ｄｕ（ｔ）に変換する。図４は、第一の実施形態に係る行動・操作変化量変換処理の一例を示すフローチャートである。

まず、行動・操作変化量変換部１２４は、行動選択部１３２により選択された行動ａ（ｔ）が最適行動ａ^＊（ｔ）であるか否かを判定する（ステップＳ１０１）。

上記のステップＳ１０１で行動ａ（ｔ）が最適行動ａ^＊（ｔ）であると判定された場合、行動・操作変化量変換部１２４は、行動集合Ａの中から１つの行動を選択し、選択した行動を事前行動ａ_ｐｒｅ（ｔ）として設定する（ステップＳ１０２）。行動集合Ａは行動選択部１３２により選択され得る行動の集合であり、例えば、行動選択部１３２より選択され得る行動の総数をｎとすれば、Ａ＝｛ａ_１，ａ_２，・・・，ａ_ｎ｝と表される。ここで、行動・操作変化量変換部１２４は行動集合Ａの中から任意の方法で１つの行動を選択すればよいが、例えば、これまでの操作を継続して変化させない行動を選択する、前回とった行動を継続して選択する、制御対象３０が安全側に触れるような行動を選択する、等が考えられる。

次に、行動・操作変化量変換部１２４は、上記のステップＳ１０２で設定した事前行動ａ_ｐｒｅ（ｔ）の評価値ｑ_ｐｒｅ（ｔ）を計算する（ステップＳ１０３）。ここで、行動・操作変化量変換部１２４は、行動価値関数Ｑ（ｓ，ａ）と現在の状態ｓ（ｔ）とを用いて、ｑ_ｐｒｅ（ｔ）＝Ｑ（ｓ（ｔ），ａ_ｐｒｅ（ｔ））により評価値ｑ_ｐｒｅ（ｔ）を計算する。

次に、行動・操作変化量変換部１２４は、最適行動ａ^＊（ｔ）と事前行動ａ_ｐｒｅ（ｔ）とを重みｗ（ｔ）でブレンド（配分）したブレンド行動ａ_ａｌｔ（ｔ）を生成する（ステップＳ１０４）。ここで、行動・操作変化量変換部１２４は、以下によりブレンド行動ａ_ａｌｔ（ｔ）を生成する。

ただし、０≦α≦１及びδ≧０はブレンドの強さを調整する係数（以下、「ブレンド調整係数」ともいう。）である。また、ｑ^＊（ｔ）は最適行動ａ^＊（ｔ）の評価値であり、ｑ^＊（ｔ）＝Ｑ（ｓ（ｔ），ａ^＊（ｔ））で計算される。上記の数５に示されるように、重みｗ（ｔ）は最適行動ａ^＊（ｔ）の評価値ｑ^＊（ｔ）と事前行動ａ_ｐｒｅ（ｔ）の評価値ｑ_ｐｒｅ（ｔ）とを或る基準値ｂ（ｔ）に対して比率で配分して計算される。この基準値ｂ（ｔ）は評価最悪値であり、全ての行動の評価値のうち最悪の評価値とする。すなわち、

とする。

ここで、上記の重みｗ（ｔ）の計算方法の一例について、図５を参照しながら説明する。図５は、ブレンド行動生成における重みの一例を説明するための図である。図５に示す例では、最適行動をａ^＊（ｔ）＝ａ_ｉ、事前行動をａ_ｐｒｅ（ｔ）＝ａ_ｉ＋１、ｑ_{ｗｏｒｓｔ}（ｔ）となる行動をａ_{ｗｏｒｓｔ}としている。図５に示されるように、重みｗ（ｔ）を計算する際には、ｑ^＊（ｔ）－ｂ（ｔ）の大きさとｑ_ｐｒｅ（ｔ）－ｂ（ｔ）の大きさとの比率でブレンドの比率が決定される。

したがって、例えば、δ＝０の場合において、ｑ^＊（ｔ）－ｂ（ｔ）とｑ_ｐｒｅ（ｔ）－ｂ（ｔ）とが同一の値であれば等配分となるし、ｑ_ｐｒｅ（ｔ）－ｂ（ｔ）＝０であればａ_ａｌｔ（ｔ）＝ａ^＊（ｔ）となる。よって、評価最悪値ｂ（ｔ）を基準として、最適行動の評価値と事前行動の評価値とを比率で比較して適切な重みｗ（ｔ）を自動的に決定することができる。

一方で、上記のステップＳ１０１で行動ａ（ｔ）が最適行動ａ^＊（ｔ）であると判定されなかった場合、行動・操作変化量変換部１２４は、行動選択部１３２により選択された行動ａ（ｔ）をブレンド行動ａ_ａｌｔ（ｔ）とする（ステップＳ１０５）。

ステップＳ１０４又はステップＳ１０５に続いて、行動・操作変化量変換部１２４は、アフィン変換によりブレンド行動ａ_ａｌｔ（ｔ）を操作変化量ｄｕ（ｔ）に変換する（ステップＳ１０６）。行動・操作変化量変換部１２４は、ｄｕ（ｔ）＝ｃ_１・ａ_ａｌｔ（ｔ）＋ｃ_０によりブレンド行動ａ_ａｌｔ（ｔ）を操作変化量ｄｕ（ｔ）に変換する。ｃ_１は１次係数、ｃ_０は定数である。

上記のアフィン変換によって、離散値の行動（つまり、例えば、ａ_１＝１，ａ_２＝２，・・・，ａ_ｎ＝ｎ）を任意の範囲及び任意の刻みを持つ値に変換することができる。また、１次係数ｃ_１の大きさを調整することで、１制御周期で変化する操作変化量の大きさを適切に調整することができる。

そして、行動・操作変化量変換部１２４は、上記のステップＳ１０６で得られた操作変化量ｄｕ（ｔ）の値を制限する変換を行う（ステップＳ１０７）。すなわち、上記のステップＳ１０６で得られた操作変化量ｄｕ（ｔ）を現在の操作量ｕ（ｔ）に加えた場合に、操作量の上限ｕ_ｍａｘを超えたり、操作量の下限ｕ_ｍｉｎを下回ったりしないように変換する。行動・操作変化量変換部１２４は、以下の数７により操作変化量ｄｕ（ｔ）をｄｕ'(ｔ)に変換する。

なお、行動・操作変化量変換部１２４は、この変換後の操作変化量ｄｕ'(ｔ)を改めてｄｕ（ｔ）として出力する。これにより、操作変化量ｄｕ（ｔ）が出力される。

［第二の実施形態］
次に、第二の実施形態について説明する。第二の実施形態では行動ａ（ｔ）を操作変化量ｄｕ（ｔ）に変換する行動・操作変化量変換処理が第一の実施形態と異なり、それ以外は第一の実施形態と同様である。このため、以降では、行動・操作変化量変換処理についてのみ説明する。

＜操作変化量ｄｕへの変換＞
行動・操作変化量変換部１２４は、図６に示す行動・操作変化量変換処理を実行することで、行動ａ（ｔ）を操作変化量ｄｕ（ｔ）に変換する。図６は、第二の実施形態に係る行動・操作変化量変換処理の一例を示すフローチャートである。なお、図６のステップＳ２０１～ステップＳ２０３及びステップＳ２０５～ステップＳ２０７は、図４のステップＳ１０１～ステップＳ１０３及びステップＳ１０５～ステップＳ１０７とそれぞれ同様であるため、その説明を省略する。

ステップＳ２０３に続いて、行動・操作変化量変換部１２４は、最適行動ａ^＊（ｔ）と事前行動ａ_ｐｒｅ（ｔ）とを重みｗ（ｔ）で確率的にブレンド（配分）したブレンド行動ａ_ａｌｔ（ｔ）を生成する（ステップＳ２０４）。ここで、行動・操作変化量変換部１２４は、以下によりブレンド行動ａ_ａｌｔ（ｔ）を生成する。

なお、重みｗ（ｔ）は第一の実施形態と同様に計算される。

このように、第二の実施形態では、重みｗ（ｔ）を確率として扱い、確率ｗ（ｔ）で最適行動ａ^＊（ｔ）が、確率１－ｗ（ｔ）で事前行動ａ_ｐｒｅ（ｔ）が選択されるように、確率的なブレンド行動ａ_ａｌｔ（ｔ）を生成する。

＜制御装置１０のハードウェア構成＞
次に、上記の第一の実施形態及び第二の実施形態に係る制御装置１０のハードウェア構成について、図７を参照しながら説明する。図７は、一実施形態に係る制御装置１０のハードウェア構成の一例を示す図である。

図７に示すように、本実施形態に係る制御装置１０は、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、通信Ｉ／Ｆ２０４と、プロセッサ２０５と、メモリ装置２０６とを有する。これら各ハードウェアは、それぞれがバス２０７を介して通信可能に接続されている。

入力装置２０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置２０２は、例えば、ディスプレイ等である。なお、制御装置１０は、入力装置２０１及び表示装置２０２のうちの少なくとも一方を有していなくてもよい。

外部Ｉ／Ｆ２０３は、記録媒体２０３ａ等の外部装置とのインタフェースである。制御装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａの読み取りや書き込み等を行うことができる。記録媒体２０３ａには、制御装置１０の各機能部を実現する１以上のプログラムが格納されていてもよい。なお、記録媒体２０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

通信Ｉ／Ｆ２０４は、制御装置１０を通信ネットワークに接続するためのインタフェースである。なお、制御装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ２０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

プロセッサ２０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。制御装置１０が有する各機能部は、例えば、メモリ装置２０６に格納されている１以上のプログラムがプロセッサ２０５に実行させる処理により実現される。

メモリ装置２０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。

本実施形態に係る制御装置１０は、図７に示すハードウェア構成を有することにより、上述した各種処理を実現することができる。なお、図７に示すハードウェア構成は一例であって、制御装置１０は、他のハードウェア構成を有していてもよい。例えば、制御装置１０は、複数のプロセッサ２０５を有していてもよいし、複数のメモリ装置２０６を有していてもよい。

［実施例］
次に、上記の第一の実施形態及び第二の実施形態の実施例について説明する。本実施例では、第一の実施形態及び第二の実施形態に係る制御装置１０のフィルタ部１１１は、目標偏差ｅ_０（ｔ）とその微分値とを出力するものとする。すなわち、補正目標偏差ｅ^＊（ｔ）として、

を出力するものとする。なお、このような補正目標偏差ｅ^＊（ｔ）を出力する方式は比例・微分方式とも呼ばれる。

本実施例における制御対象３０のステップ応答を図８に示す。また、本実施例では、操作量ｕ（ｔ）は離散値であり、＋１、０、－１のいずれかを取るものとする。このような場合は、例えば、温調におけるヒータのＯＮ／ＯＦＦ制御や２レベルインバータ、３レベルインバータ、化学プラントにおける加温／冷却制御、信号処理におけるＡ／Ｄ変換等、様々な産業分野で現れる。なお、深層強化学習の手法によっては連続値を学習可能であるため、この場合、操作量ｕ（ｔ）は連続値であってもよい。

また、本実施例における学習用の目標値時系列｛ｒ（ｔ）｝を図９に示す。図９に示すように、学習用の目標値時系列｛ｒ（ｔ）｝は台形状に変化する値とした。更に、制御周期はＴ_ｃ＝１とした。

深層強化学習の学習条件は以下とした。

・行動選択パラメータε＝０．３
・割引率γ＝０．９５
・行動集合Ａ＝｛０，１，２｝
・学習回数（エピソード回数）＝２００（回）
・ニューラルネットワークのパラメータとして、セル数＝１５０、層数＝３、入出力次元＝２×３
また、ブレンド調整係数は以下とした。

・α＝０．０（ブレンドあり）、１．０（ブレンドなし）
・δ＝１０^－７
深層強化学習に用いられる報酬はＲ（ｔ）＝－||ｅ^＊（ｔ）||とした。また、図４のステップＳ１０６及び図６のステップＳ２０６でアフィン変換を行う際にはｄｕ（ｔ）＝０．５・ａ_ａｌｔ（ｔ）－０．５により変換を行った。

また、事前行動はａ_ｐｒｅ（ｔ）＝１とした。これは、事前行動ａ_ｐｒｅ（ｔ）をアフィン変換すると、ｄｕ（ｔ）＝０．５・ａ_ｐｒｅ（ｔ）－０．５＝０となり、「操作変化量を０とする」行動に相当する。すなわち、本実施例では、操作量を変化させない行動を事前行動とした。

以上の設定の下、ブレンドをしない場合と、第一の実施形態に係る制御装置１０を用いた場合（以下、単に「第一の実施形態」）と、第二の実施形態に係る制御装置１０を用いた場合（以下、単に「第二の実施形態」）とのそれぞれの学習履歴、すなわち報酬総和のエピソード毎の変化を図１０に示す。なお、報酬総和Ｒ_ｓｕｍは以下の数１０で表される。

なお、上記の数１０の５０は１エピソードの長さである。

図１０に示されるように、ブレンドなし、第一の実施形態、及び第二の実施形態のいずれにおいてもエピソードが進むにつれて報酬総和Ｒ_ｓｕｍが上昇している。

学習完了後において、学習用の目標値と同一の目標値を用いた場合の制御応答結果を図１１に示す。

図１１に示すように、第一の実施形態は、ブレンドなしと比較して、ＭＶ（操作量）が細かく変化し変化幅が緩やかになっていることがわかる。ＰＶ（制御量）とＳＶ（目標値）の差もやや改善している。

また、第二の実施形態は、ブレンドなしと比較して、ＭＶ（操作量）の変化周期が幅広くなっており、操作変化の頻度が抑制されていることがわかる。一方で、ＰＶ（制御量）とＳＶ（目標値）の差はやや悪化している。

学習完了後において、学習用の目標値とは異なる目標値として、学習用の目標値の符号を反転させた目標値を用いた場合の制御応答結果を図１２に示す。

図１２に示すように、第一の実施形態は、ブレンドなしと比較して、ＭＶ（操作量）が細かく変化し変化幅が緩やかになっていることがわかる。ＰＶ（制御量）とＳＶ（目標値）の差は同等である。

また、第二の実施形態は、ブレンドなしと比較して、ＭＶ（操作量）の変化周期が幅広くなっており、操作変化の頻度が抑制されていることがわかる。ＰＶ（制御量）とＳＶ（目標値）の差は同等である。

学習完了後において、学習用の目標値とは異なる目標値として、学習用の目標値を単純に定数倍した目標値を用いた場合の制御応答結果を図１３に示す。

図１３に示すように、第一の実施形態は、ブレンドなしと比較して、ＭＶ（操作量）が細かく変化し変化幅が緩やかになっていることがわかる。ＰＶ（制御量）とＳＶ（目標値）の差もやや改善している。

また、第二の実施形態は、ブレンドなしと比較して、ＭＶ（操作量）の変化周期が幅広くなっており、操作変化の頻度が抑制されていることがわかる。ＰＶ（制御量）とＳＶ（目標値）の差はやや悪化している。

以上のように、第一の実施形態及び第二の実施形態に係る制御装置１０によれば、制御量の目標値への追従性を大きく損なうことなく、操作量の振動の少ない良好な制御を実現することができる。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。

１０制御装置
２０制御対象モデル
３０制御対象
４０切替器
５０切替器
１０１計測部
１０２差分器
１０３操作量更新部
１０４タイマ
１１１フィルタ部
１１２操作量学習・計算部
１１３加算器
１２１報酬計算部
１２２目標偏差・状態変換部
１２３強化学習部
１２４行動・操作変化量変換部
１３１行動価値関数更新部
１３２行動選択部

Claims

制御対象に対する操作量を出力し、前記制御対象の制御量を目標値に追従させる制御装置であって、
現在の制御量と目標値との差分である目標偏差を算出する目標偏差算出手段と、
前記目標偏差に対して所定のフィルタ処理を行って、前記目標偏差を補正した補正目標偏差を算出するフィルタ手段と、
前記補正目標偏差に基づいて、強化学習によって新たな操作変化量を学習及び算出する操作変化量算出手段と、
前記操作変化量を現在の操作量に加算する加算手段と、
を有し、
前記操作変化量算出手段には、
前記補正目標偏差が入力されると、前記補正目標偏差を用いて報酬を計算する報酬計算手段と、
前記補正目標偏差を含む状態変数と、前記報酬とを用いて強化学習を行って、ニューラルネットワークで実現される行動価値関数を学習し、前記行動価値関数から最適行動を決定及び出力する強化学習手段と、
前記最適行動と、前記操作量を変化させない行動を表す事前行動とをブレンドしたブレンド行動を生成し、アフィン変換により前記ブレンド行動を前記操作変化量に変換する変換手段と、が含まれる、
ことを特徴とする制御装置。
前記操作変化量算出手段は、
変換後の前記操作変化量を、所定の制約条件を満たすように更に変換する、ことを特徴とする請求項１に記載の制御装置。
前記変換手段は、
前記最適行動に関する前記行動価値関数の値と、前記事前行動に関する前記行動価値関数の値と、前記強化学習手段が出力し得る行動に関する前記行動価値関数の最悪値とに基づいて計算された重みにより、前記ブレンド行動を生成する、ことを特徴とする請求項１又は２に記載の制御装置。
前記変換手段は、
前記重みにより前記最適行動又は前記事前行動のいずれかを確率的に選択し、選択された行動を前記ブレンド行動として生成する、ことを特徴とする請求項３に記載の制御装置。
前記フィルタ手段は、
前記目標偏差に対して定数倍、微分値の計算、積分値の計算、移動平均値の計算、過去の目標偏差の時系列の出力、又はこれらの組み合わせを前記フィルタ処理として行って、前記補正目標偏差を算出する、ことを特徴とする請求項１乃至４の何れか一項に記載の制御装置。
制御対象に対する操作量を出力し、前記制御対象の制御量を目標値に追従させる制御装置が、
現在の制御量と目標値との差分である目標偏差を算出する目標偏差算出手順と、
前記目標偏差に対して所定のフィルタ処理を行って、前記目標偏差を補正した補正目標偏差を算出するフィルタ手順と、
前記補正目標偏差に基づいて、強化学習によって新たな操作変化量を学習及び算出する操作変化量算出手順と、
前記操作変化量を現在の操作量に加算する加算手順と、
を実行し、
前記操作変化量算出手順には、
前記補正目標偏差が入力されると、前記補正目標偏差を用いて報酬を計算する報酬計算手順と、
前記補正目標偏差を含む状態変数と、前記報酬とを用いて強化学習を行って、ニューラルネットワークで実現される行動価値関数を学習し、前記行動価値関数から最適行動を決定及び出力する強化学習手順と、
前記最適行動と、前記操作量を変化させない行動を表す事前行動とをブレンドしたブレンド行動を生成し、アフィン変換により前記ブレンド行動を前記操作変化量に変換する変換手順と、が含まれる、
ことを特徴とする制御方法。
制御対象に対する操作量を出力し、前記制御対象の制御量を目標値に追従させる制御装置に、
現在の制御量と目標値との差分である目標偏差を算出する目標偏差算出手順と、
前記目標偏差に対して所定のフィルタ処理を行って、前記目標偏差を補正した補正目標偏差を算出するフィルタ手順と、
前記補正目標偏差に基づいて、強化学習によって新たな操作変化量を学習及び算出する操作変化量算出手順と、
前記操作変化量を現在の操作量に加算する加算手順と、
を実行させ、
前記操作変化量算出手順には、
前記補正目標偏差が入力されると、前記補正目標偏差を用いて報酬を計算する報酬計算手順と、
前記補正目標偏差を含む状態変数と、前記報酬とを用いて強化学習を行って、ニューラルネットワークで実現される行動価値関数を学習し、前記行動価値関数から最適行動を決定及び出力する強化学習手順と、
前記最適行動と、前記操作量を変化させない行動を表す事前行動とをブレンドしたブレンド行動を生成し、アフィン変換により前記ブレンド行動を前記操作変化量に変換する変換手順と、が含まれる、
ことを特徴とするプログラム。