JP7441775B2 - 制御装置及び制御方法 - Google Patents

制御装置及び制御方法 Download PDF

Info

Publication number
JP7441775B2
JP7441775B2 JP2020190354A JP2020190354A JP7441775B2 JP 7441775 B2 JP7441775 B2 JP 7441775B2 JP 2020190354 A JP2020190354 A JP 2020190354A JP 2020190354 A JP2020190354 A JP 2020190354A JP 7441775 B2 JP7441775 B2 JP 7441775B2
Authority
JP
Japan
Prior art keywords
model
controlled object
state
unit
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020190354A
Other languages
English (en)
Other versions
JP2022079264A (ja
Inventor
孝朗 関合
勇也 徳田
卓弥 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020190354A priority Critical patent/JP7441775B2/ja
Priority to CN202180073239.XA priority patent/CN116490834A/zh
Priority to PCT/JP2021/031806 priority patent/WO2022102213A1/ja
Priority to US18/035,771 priority patent/US20230400821A1/en
Publication of JP2022079264A publication Critical patent/JP2022079264A/ja
Application granted granted Critical
Publication of JP7441775B2 publication Critical patent/JP7441775B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/048Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B17/00Systems involving the use of models or simulators of said systems
    • G05B17/02Systems involving the use of models or simulators of said systems electric
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Feedback Control In General (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、制御装置及び制御方法に関する。
発電や産業プラントの分野では、プラントの運転状態を最適化した運転とすべく、機械学習を取り入れた制御装置が採用されている。その一例として、特許文献1には、事前に定義した有限の状態の空間内において、無限時間または無限ステップ先における制御対象とその周辺環境の状態を確率密度分布の形式で高速に予測できる将来状態予測装置からなる制御装置が開示されている。将来状態予測装置は、制御対象とその周辺環境の将来状態を確率密度分布の形式で模擬するモデルを用いて、級数と等価な計算を行う将来状態予測演算部と、将来状態予測演算部で予測した無限時間または無限ステップ先における制御対象とその周辺環境の状態の結果を用いて、制御対象の操作量を計算する制御則演算部とを備えている。
特開2019-159876号公報
特許文献1に開示された制御装置をプラントなどの制御対象に適用する際に、将来状態予測演算部による将来状態を予測するための計算が必要である。しかし、制御対象とその周辺環境の状態が既に確率密度分布の形式で定義されており、制御対象とその周辺環境の状態を更に詳細に定義されると、将来状態を予測するための計算に多くのメモリが必要となる。その結果、制御装置のメモリが不足し、将来状態を予測できない問題が生じる可能性がある。
そこで、本発明の目的は、将来状態の予測に使用するメモリを削減できる制御装置及び制御方法を提供することにある。
本発明に係る制御装置は、制御対象を模擬するモデルを構築するモデル構築部と、前記モデル構築部により構築されたモデルを細分化する細分化部と、前記細分化部により細分化されたモデルを用いて前記制御対象の将来状態を予測し、予測した将来状態に基づいて前記制御対象の制御方策を計算する制御方策計算部と、前記制御方策計算部により計算された制御方策に基づいて、前記制御対象への操作指令を生成する操作指令生成部と、を備えることを特徴としている。
本発明に係る制御装置では、モデル構築部により構築されたモデルを細分化する細分化部を備えるため、モデルを細分化した上で制御対象の将来状態を予測することにより、将来状態の予測に使用するメモリを削減することができる。
本発明によれば、将来状態の予測に使用するメモリを削減できる。
実施形態に係る制御装置及びそれに関連する関連装置を示す概略構成図である。 制御装置の制御方法を説明するフローチャート図である。 測定信号データベースに保存されたデータの態様を説明する図である。 モデル構築部及び問題細分化部の動作を説明する図である。 状態遷移確率行列を説明する図である。 制御方策計算部の動作を説明する図である。 表示装置に表示されるメモリ使用状況の一例である。
以下、図面を参照して本発明に係る制御装置及び制御方法の実施形態について説明する。
図1は実施形態に係る制御装置及びそれに関連する関連装置を示す概略構成図である。本実施形態の制御装置10は、制御対象20の特性全体を模擬するモデルを用いて、無限時間または無限ステップ先の将来状態に基づいて制御対象20の制御方策を計算し、計算した制御方策に従って制御対象20への操作指令を生成する装置である。図1に示すように、制御装置10は、制御対象20及び外部装置30とそれぞれ接続されている。この制御対象20及び外部装置30は、上述の関連装置に該当するものである。
制御対象20は、例えば発電プラントなどを構成する機器21と、機器21のコントロールを行う機器制御部22とで構成されている。図示しないが、機器21には、機器21の運転データ及び画像データを取得するセンサ類が備えられている。センサ類で取得した運転データ及び画像データは、機器制御部22に出力されている。機器制御部22は、これらの運転データ及び画像データに基づいて各操作指令を生成し、生成した操作指令を機器21に出力して機器21の各制御を行う。
外部装置30は、例えば計算機装置(コンピュータ)であって、キーボード311及びマウス312を有する外部入力装置31と、画像やデータを表示できるモニタを有する表示装置32とを備えている。外部装置30は、コンピュータのほか、タブレット、スマートフォン、ノートPCなどの携帯端末であっても良い。
本実施形態では、制御装置10と制御対象20、制御装置10と外部装置30は、それぞれネットワークを介して通信可能と構成されている。具体的には、外部装置30は、外部入力装置31を介して入力された指示を外部入力信号1として、制御装置10に送信する。制御対象20は、機器21の運転データ及び画像データ並びに機器制御部22で生成した操作指令を測定信号2として、制御装置10に送信する。そして、制御装置10は、送信された外部入力信号1と測定信号2とに基づいて各処理を行い、更に操作指令6を生成し、生成した操作指令6を制御対象20の機器制御部22と外部装置30の表示装置32とにそれぞれ送信する。
制御装置10は、例えば、計算を実行するCPU(Central Processing Unit)と、計算のためのプログラムを保存する二次記憶装置としてのROM(Read Only Memory)と、演算経過の保存や一時的な制御変数を保存する一時記憶装置としてのRAM(Random Access Memory)とを組み合わせてなるマイクロコンピュータにより構成されており、保存されたプログラムの実行によって計算や判定などの各処理を行う。なお、ここでのプログラムは、ネットワーク経由で制御装置10に送信されるようにしても良い。
制御装置10は、主に、モデル構築部11、問題細分化部12、制御方策計算部13、操作指令生成部14、測定信号データベース15、及び処理結果データベース16を備えている。図1において、データベースはDBで示す。また、制御装置10は、外部と接続するインターフェイスとして、外部入力インターフェイス17及び外部出力インターフェイス18を備えている。制御装置10は、これらのインターフェイスを介して制御対象20及び外部装置30との間で送受信を行っている。
モデル構築部11は、制御対象20を模擬するモデルを構築する。より具体的には、モデル構築部11は、制御対象20の特性全体を模擬するモデルデータを生成することにより、制御対象20の模擬モデルを構築する。また、モデル構築部11は、生成したモデルデータを問題細分化部12に出力するとともに、処理結果データベース16に保存させる。
問題細分化部12は、特許請求の範囲に記載の「細分化部」に相当するものであり、モデル構築部11により構築されたモデルを細分化する。より具体的には、問題細分化部12は、モデル構築部11によって生成されたモデルデータを細分化し、細分化したモデルデータを制御方策計算部13に出力するとともに、処理結果データベース16に保存させる。
制御方策計算部13は、問題細分化部12により細分化されたモデルを用いて制御対象20の将来状態を予測し、予測した将来状態に基づいて制御対象20の制御方策を計算する。より具体的には、制御方策計算部13は、問題細分化部12によって細分化されたモデルデータと、外部入力インターフェイス17を介して受信した外部入力信号1とに基づいて、無限時間または無限ステップ先のあらゆる将来状態を予測し、予測した将来状態から制御対象20の制御方策を計算する。更に、制御方策計算部13は、計算した制御方策を処理結果データベース16に保存させる。なお、詳細については後述するが、ここでの制御方策とは、制御対象20への操作指令を生成する処理を意味する。
操作指令生成部14は、制御方策計算部13により計算された制御方策に基づいて制御対象20への操作指令を生成する。より具体的には、操作指令生成部14は、制御方策計算部13により計算されて処理結果データベース16に保存された制御方策を取得し、取得した制御方策に従って制御対象20への操作指令を生成する。更に、操作指令生成部14は、生成した操作指令を外部出力インターフェイス18を介して制御対象20の機器制御部22と、外部装置30の表示装置32とにそれぞれ送信する。
測定信号データベース15は、外部入力インターフェイス17を介して制御対象20から送信された測定信号2を受信し、保存する。測定信号2には、制御対象20の運転データ及び画像データなどが含まれている。これに対応して、測定信号データベース15は、制御対象20の運転データを保存する運転データベース151と、制御対象20の画像データを保存する画像データベース152などを有する。なお、測定信号2に含まれたデータは、運転データ及び画像データに限定されない。
運転データベース151及び画像データベース152には、電子化された情報が保存されており、通常電子ファイル(電子データ)と呼ばれる形態で情報が保存されている。また、これらのデータベースは、制御装置10の外部に設けられ、ネットワークを介して制御装置10と接続可能な構成であっても良い。
以下、図2~図6を参照して制御装置10の制御方法(すなわち、制御装置10の動作)を説明する。以下の説明において、まず図2を基に制御装置10の動作の全体流れを説明し、その後に図3~図6を基に細部を詳細に説明する。
図2は制御装置の制御方法を説明するフローチャート図である。図2に示すように、まず、ステップS100では、制御装置10は、外部入力インターフェイス17を介して制御対象20から送信された測定信号2を受信し、受信した測定信号2を測定信号データベース15に保存させる。測定信号2には、制御対象20の機器21に関する時系列の運転データ及び画像データなどが含まれている。これによって、制御装置10は機器21に関する時系列の運転データ及び画像データを取得する。そして、運転データは運転データベース151、画像データは画像データベース152にそれぞれ保存される。
図3は測定信号データベースに保存されたデータの態様を説明する図である。図3(a)は運転データベース151に保存される運転データを示す一例であり、図3(b)は画像データベース152に保存される画像データを示す一例である。図3(a)に示すように、運転データベース151には、例えばデータ項目毎(項目A、項目B、項目C…)の時系列データがサンプリング周期毎に保存されている。項目Aは例えば温度、項目Bは流量、項目Cは圧力である。また、図3(b)に示すように、画像データベース152には、例えば機器21のある断面で計測した温度の分布がサンプリング周期毎に保存されている。なお、制御対象20の運転データ及び画像データは、表示装置32に表示可能となっている。
また、ステップS100において、制御装置10は、外部入力インターフェイス17を介して外部装置30から送信された外部入力信号1も受信し、受信した外部入力信号1に含まれたデータを取得する。外部入力インターフェイス17を介して受信した外部入力信号1は、制御方策計算部13に出力される。
ステップS100に続くステップS101では、制御装置10は、あらかじめ定められた条件に基づき、制御方策を更新するか否かを判定する。制御方策を更新すると判定された場合、処理はステップS102に進む。一方、制御方策を更新しないと判定された場合、処理はステップS105に進む。ここで、あらかじめ定められた条件として、例えば一定期間(例えば1週間)分の測定データが新たに蓄積された時、モデル構築部11で作成したモデルの特性と制御対象20の特性とが一致するか否かが考えられる。一致する場合は制御方策を更新しないと判定され、一致しない場合は制御方策を更新すると判定される。なお、あらかじめ定められた条件は、この内容に限定されずに、任意に設定されても良い。
ステップS102では、モデル構築部11は、測定信号データベース15に保存された測定信号2を取得し、取得した測定信号2に基づいてモデルデータ3を生成する。生成されたモデルデータ3は、問題細分化部12に出力されるとともに、処理結果データベース16に保存される。
ステップS102に続くステップS103では、問題細分化部12は、モデル構築部11により生成されたモデルデータ3を細分化し、細分化モデルデータ4を生成する。生成された細分化モデルデータ4は、制御方策計算部13に出力されるとともに、処理結果データベース16に保存される。なお、モデル構築に関するステップS102及び問題細分化に関するステップS103の詳細については、図4及び図5を用いて後述する。
ステップS103に続くステップS104では、制御方策計算部13は、外部入力インターフェイス17を介して受信した外部入力信号1に含まれる報酬関数と、問題細分化部12により生成された細分化モデルデータ4とに基づいて制御方策の計算を行うことで、制御方策信号5を生成する。生成された制御方策信号5は、処理結果データベース16に保存される。制御方策計算に関するステップS104の詳細は図6を用いて後述する。
ステップS105では、モデル構築部11は、現時刻における測定信号2に基づいて状態ID7を生成する。生成された状態ID7は、操作指令生成部14に出力される。
ステップS105に続くステップS106では、操作指令生成部14は、処理結果データベース16に保存された制御方策信号5を取得し、取得した制御方策信号5と、モデル構築部11により生成された状態ID7とを用いて、制御対象20への操作指令6を生成する。生成された操作指令6は、外部出力インターフェイス18を介して制御対象20の機器制御部22と外部装置30の表示装置32とにそれぞれ送信される。なお、制御方策信号と状態IDに基づいて操作指令を生成する方法については、既に周知された技術を用いても良く、その詳細は省略する。
制御対象20では、機器制御部22は、送信された操作指令6に従って機器21を制御する。このように制御装置10を用いることで、機器21の温度、流量及び圧力などの計測値、温度の分布を最適な状態に制御することができる。一方、外部装置30では、表示装置32は、送信された操作指令6の内容、及びトレンドグラフなどの画像をモニタに表示する。運転員がモニタに表示された内容を見ることで、操作指令6の内容を確認することができる。
ステップS106に続くステップS107では、制御装置10は、制御を終了するか否かを判定する。制御を終了しないと判定された場合(言い換えれば、制御を継続する場合)、処理はステップS100に戻る。一方、制御を終了すると判定された場合、一連の処理は終了する。
次に、図4及び図5を用いてモデル構築に関するステップS102及び問題細分化に関するステップS103を詳細に説明する。
本実施形態では、モデル構築部11が機器21と機器制御部22とを有する制御対象20に対してモデルを構築する例を挙げるが、制御対象20の例として、機械や生物の挙動、自然や物理現象、化学反応、金銭や物価の変動、消費者の需要の変化などであれば良く、ここで述べた例に限定されない。
また、本実施形態において、モデルの入力は、模擬対象(すなわち、制御対象)の状態と時間経過、操作、外乱などの影響因子であり、モデルの出力は影響因子の影響を受けた後の模擬対象の状態である。モデル構築部11で構築するモデルの形式として、ニューラルネットワーク、動径基底関数ネットワーク、若しくはニューラルネットワークと動径基底関数ネットワークの重みが表わされている行列、又は状態遷移確率行列が考えられているが、これらの行列に限定されない。
状態遷移確率行列を用いる場合のモデルの構築方法については、例えば上述の特許文献1に開示された内容を用いることができる。すなわち、模擬対象の測定データ(本実施形態では、制御対象20の測定信号2に含まれたデータ)から状態IDを定義するテーブルを参照してデータを離散化しているが、ベクトル量子化、適応共鳴理論などのデータクラスタリング手法を用いてデータを離散化しても良い。このようにすることで、制御対象の状況に応じてこれらの手法を使い分けることにより、制御対象20の模擬モデルを好適に構築できる。なお、このとき、モデル構築部11は、測定信号2に含まれた運転データ及び画像データの少なくとも一つを、テーブル参照、適応共鳴理論、又はベクトル量子化手法を用いて離散化することにより、状態遷移行列の状態を定義すれば良い。また、ここでデータを離散化する際、1つ状態IDの中に入る報酬のばらつきが小さい方が良い。
以下、モデル構築部11が状態遷移確率モデルを構築する場合(ステップS102)について説明する。図4(a)において、s1~s8は状態遷移確率モデルの状態を示し、Δtの時間で遷移することが可能な状態同士が線で結合されている。例えば、状態s1からは状態s1、s2、s3、s4のいずれかに遷移することが可能である。従って、モデル構築部11は、測定信号データベース15から取得した情報(ここでは、測定信号2)に基づいて、状態遷移行列の状態を定義するとともに、Δtの時間で遷移可能な状態同士の関係を把握してモデル化する。
図4(b)及び(c)は問題細分化部12がモデルを細分化する(ステップS103)イメージを説明する図である。ここでは、問題細分化部12は、複数の状態を1つの統合クラスタにまとめることで、モデル全体を複数のモデルに分割する。本発明では、モデルを分割することを、問題を細分化すると同じ意味で使用する。なお、問題細分化部12は、統合クラスタの中に入る状態数が所定の範囲内となるように問題を細分化することができるし、または運転員によって任意に問題を細分化することもできる。
図4(b)の例では、問題細分化部12は、状態s1~s4、s5~s8を統合することで2つの問題(図4(b)中の2つの円参照)に細分化している。図4(c)の例では、問題細分化部12は、状態s1~s6、s7~s8を統合することで2つの問題(図4(c)中の2つの円参照)に細分化している。いずれの例でも統合クラスタを2つ、すなわち問題全体を2つの問題に分割して、学習するようにしている。
ここで、問題細分化部12は、統合クラスタ間を結合するジョイント数ができるだけ少なくなるようにモデルを細分化することが好ましい。例えば、図4(b)に示す例ではジョイント数が1、図4(c)に示す例ではジョイント数が3であり、図4(c)と比べて図4(b)のジョイント数が少ないので、図4(b)のように問題を細分化する方が良い。これは、ジョイント数が少ないほど、状態遷移行列の要素が少なくなるので、問題細分化部12により細分化されたモデルを記憶するメモリを少なくできるからである。このようにすることで、将来状態の予測に使用するメモリを削減できる。
なお、問題細分化部12による細分化の手法について、モデル全体を複数に分割できるものであれば、上述の内容に限定されない。
図5は状態遷移確率行列を説明する図である。状態遷移確率行列は一般的に制御対象の運動特性や物理現象を模擬するモデルの一種であり、すべての状態間の遷移確率を保存する関数(または行列)である。図5において、表の行が遷移元の状態si(i=1、2・・・n(ここではn=8))、表の列が遷移先の状態sj(j=1、2・・・n(ここではn=8))、要素Tijは事前に設定した刻み時間Δt(またはステップ)が経過した際に、状態siから状態sjに遷移する状態遷移確率P(sj|si)である。なお、状態遷移確率P(sj|si)が時間に依存しない場合は、影響因子が模擬対象に干渉した量や回数を示すステップを時間の代わりに用いても良い。
図5(a)は、制御対象の特性全体を模擬したモデルを示すものであって、図4(a)に対応する状態遷移確率行列である。図5(a)において、遷移元の状態s1~s8から遷移先の状態s1~s8に遷移する確率をTijで示している。図5(b)~(d)は、問題細分化されたモデル(細分化モデル)を示すものであって、図4(b)に示すようにモデルを細分化した後の状態遷移確率行列である。すなわち、図5(b)~(d)は、図4(b)に示すように各統合クラスタ、及び統合クラスタ間の関係を示す行列である。
そして、図5(a)の状態遷移確率行列では、8×8=64の要素があるのに対して、図5(b)~(d)は合計で4×4+4×4+2×2=36の要素を使用している。このように、モデルを細分化して状態遷移確率行列を定義することにより行列の要素数を削減できるので、行列を記憶するために要するメモリを削減することができる。従って、問題細分化部12により細分化されたモデルを記憶するメモリを少なくすることができ、将来状態の予測に使用するメモリを削減できる。
なお、図4、図5では状態数が8の事例で説明したが、状態の数に対する制約はない。状態の数が多くなるほど、行列を記憶するために要するメモリを削減する効果がより顕著になり、制御装置10を制御対象20に適用し易くなる。
次に、図6を用いて制御方策計算に関するステップS104を詳細に説明する。上述したように、制御方策計算部13は、細分化モデルデータ4を用いて無限時間または無限ステップ先のあらゆる将来状態を予測し、予測した将来状態に基づいて制御対象20の制御方策信号5を計算する。
具体的には、まず、制御方策計算部13は、問題細分化部12により細分化された状態遷移確率のモデルを用いて減衰型状態遷移行列を計算することで、将来状態の予測を行う。減衰型状態遷移行列を計算する方法は、例えば下記の式(1)を用いることができる。式(1)において、モデルの保存形式を状態遷移確率行列Tと仮定する。
Figure 0007441775000001
式(1)において、Dは減衰型状態遷移行列、γは減衰率であって0以上1未満の定数である。また、TはΔt×kの時間が経過した際の、すべての状態間の遷移確率を保存する関数(または行列)である。このように、減衰型状態遷移行列Dは、Δt時間経過後の状態遷移確率行列TからΔt×∞時間経過後の状態遷移確率行列Tまでの和であり、すべての状態間の統計的な近さを保存する行列でもある。また、遠い将来に遷移する状態ほど重みを下げるため、経過時間に応じて減衰率γを掛けている。なお、ここでのkは離散化した正の整数である。
状態遷移確率行列Tから状態遷移確率行列Tまでの計算を必要とする式(1)は、実時間以内の計算が困難である。そこで、式(1)は下記の式(2)に変換される。
Figure 0007441775000002
式(2)において、Eは単位行列である。式(2)は式(1)と等価の計算式である。式(1)の状態遷移確率行列Tから状態遷移確率行列Tまでの和の計算を、式(2)では(E-γT)の逆行列に変換することによって、有限時間以内に式(1)と同じ計算結果が得られる。ここで、状態遷移確率行列Tが線形独立でない場合は、擬似逆行列を用いても良い。また、減衰型状態遷移行列Dの代わりに、減衰型状態遷移行列を各行で正規化した行列を用いても良い。
このように、模擬対象の挙動を模擬するモデルを状態遷移モデルとすることで、Tの計算でΔt×k時間後の状態遷移確率を計算する。また、Δt時間経過後の状態遷移確率行列TからΔt×∞時間経過後の状態遷移確率行列Tまでの和をとり、経過時間によって減衰率γによる重み付けによって、Δt×∞時間経過後を考慮した状態遷移確率を、有限時間以内に計算する。
次に、制御方策計算部13は、外部入力信号1に含まれている報酬関数に基づいて制御方策を計算する。ここで報酬関数は、目標位置や目標速度などの制御目標を関数、表、ベクトル、行列などの形式で表現される関数である。
報酬関数がベクトル形式の場合の一例を図6(a)に示す。図6(a)では、遷移元の状態IDごとに報酬関数Rを数値で表しており、状態sは全体を範囲に区切ってn(ここではn=8)分割した離散空間として扱っており、初期の状態から状態s3へ遷移することを目標とした。目標とするベクトルの要素値は、状態s3を1、その他の状態を0とした。なお、本発明では、ベクトルの要素値や、報酬関数Rの値を報酬と呼ぶこととする。
制御方策計算部13は、報酬関数Rと上記算出した減衰型状態遷移行列Dとに基づいて
最適な制御則(すなわち、最適な操作量)を計算することで、制御対象20の制御方策の計算を行う。制御則の一例を図6(b)に示す。図6(b)では、遷移元の状態IDごとに操作量IDを数値で表しており、状態sは全体を範囲に区切ってn(ここではn=8)分割した離散空間として扱っており、各状態の範囲に対して最適な操作量ac(c=1、2・・・m)が保存されている。最適な操作量acの計算方法については後述する。
最適な制御則を計算する方法の一例を以下に示す。ここでは、制御方策計算部13は最適な制御則を求めるために以下の3段階で計算する。
段階1:まず、各状態sと報酬関数Rで目標とする状態sgoalとの近さ(または遷移し易さを示す統計的な指標)を保存する関数が計算される。この関数を本発明では状態価値関数Vと呼ぶこととする。また、状態価値関数Vは関数以外にも表、ベクトル、行列など形式で保存しても良く、本発明において保存形式は限定しない。状態価値関数Vの計算方法の一例を下記式(3)に示す。
Figure 0007441775000003
式(3)に示すように、状態価値関数Vは減衰型状態遷移行列Dと報酬関数Rの転置行列であるRtrの積である。例えば、状態価値関数Vは図6(c)に示すようなn次元(ここではn=8)のベクトルとなる。状態価値関数Vの要素値は目標とする状態sgoalへ遷移し易い状態ほど高い。本発明ではこの要素値を価値と呼ぶこととする。また、本発明の状態価値関数Vは、強化学習法での状態価値関数の定義と値が等価となる。
段階2:次に、状態価値関数Vを用いて、遷移元の状態siから遷移できる遷移先の状態sjの中で、最も目標とする状態sgoalへ遷移し易い状態sj*が、遷移元の各状態siについて計算される。状態sj*の計算方法の一例を下記式(4)に示す。
Figure 0007441775000004
ここでT(si,sj)とは、状態遷移確率行列Tにおけるsi行、sj列の要素値である。式(4)の計算結果の一例を図6(d)に示す。図6(d)では、遷移元の状態IDごとに遷移先の状態IDを表している。
段階3:最後の段階では、遷移元の各状態siから、段階2で得られた状態sj*へ遷移するために必要な操作量aが計算される。操作量aの計算は、逆モデル(遷移元の状態siと状態sj*を入力として、対応する操作量aを出力するモデル)を求めることで計算できる。段階3の計算結果は、例えば図6(b)に示したような制御則が得られる。
このように上記式(3)で価値を計算することによって、各状態におけるsgoalへの遷移し易さが評価を可能とし、上記(4)式によってΔt時間経過によって遷移できる状態のうち最もsgoalへ遷移し易い状態sj*の特定を行い、逆モデルによって状態sj*へ遷移するための操作量aを特定する。
本実施形態の制御装置10によれば、モデル構築部11により構築されたモデルを細分化する問題細分化部12を備えるため、モデルを細分化した上で将来状態を予測することにより、将来状態の予測に使用するメモリを削減することができる。より具体的には、モデル構築に使用するメモリ(例えば、モデル構築部11により構築されたモデルを記憶するメモリ、及び、問題細分化部12により細分化されたモデルを記憶するメモリ)について、従来の状態遷移確率モデルを構築する場合と比較して、問題細分化部12の細分化によって削減することができる。その結果、制御装置10で使用するメモリを削減する効果を期待できる。
上記メモリ削減効果を確認し易くするため、本実施形態において、表示装置32はメモリ使用状況を更に表示することが好ましい。
図7は表示装置に表示されるメモリ使用状況の一例である。図7に示すように、表示装置32では、「使用可能メモリ」(すなわち、制御装置10で使用可能なメモリ)、「状態遷移確率モデル構築に使用するメモリ」、「問題細分化後のモデル構築に使用するメモリ」といった項目が表示されている。具体的な表示結果としては、例えば各メモリの使用容量であっても良く、全体容量に対する比率であっても良い。
このようにすれば、表示装置32を通して各メモリの使用状況を簡単に把握でき、メモリの削減効果を容易に確認することができる。なお、ここでの「状態遷移確率モデル構築に使用するメモリ」は、モデル構築部11により構築されたモデルを記憶するメモリであり、「問題細分化後のモデル構築に使用するメモリは、問題細分化部12により細分化されたモデルを記憶するメモリである。
また、表示装置32には、情報圧縮手段の動作結果、クラスタ数、統合クラスタ数、圧縮効率、ジョイント数、メモリ削減幅など、本実施形態の制御装置10を動作させて得られる結果が任意に表示されても良い。
以上、本発明の実施形態について詳述したが、本発明は、上述の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の精神を逸脱しない範囲で、種々の設計変更を行うことができるものである。
例えば、制御装置10には表示部が更に設けられても良い。該表示部に、上述の「使用可能メモリ」、「状態遷移確率モデル構築に使用するメモリ」、及び「問題細分化後のモデル構築に使用するメモリ」の使用状況、並びに制御装置10の動作によって得られる中間結果及び最終結果等を表示させることで、制御装置10側でもこれらの内容を容易に確認できる。
更に、制御装置10の制御方法に、上述の「使用可能メモリ」、「状態遷移確率モデル構築に使用するメモリ」、及び「問題細分化後のモデル構築に使用するメモリ」の使用状況、並びに制御装置10の動作によって得られる中間結果及び最終結果等を表示する表示ステップを更に追加しても良い。例えば、操作指令生成に関するステップS106と制御終了判定に関するステップS107との間に該表示ステップを追加する。このようにすれば、各メモリの使用状況や、制御装置10の動作結果等を容易に把握することができる。
1 外部入力信号
2 測定信号
5 制御方策信号
6 操作指令
10 制御装置
11 モデル構築部
12 問題細分化部
13 制御方策計算部
14 操作指令生成部
15 測定信号データベース
16 処理結果データベース
17 外部入力インターフェイス
18 外部出力インターフェイス
20 制御対象
21 機器
22 機器制御部
30 外部装置
31 外部入力装置
32 表示装置
151 運転データベース
152 画像データベース
311 キーボード
312 マウス

Claims (8)

  1. 制御対象を模擬するモデルを構築するモデル構築部と、
    前記モデル構築部により構築されたモデルを細分化する細分化部と、
    前記細分化部により細分化されたモデルを用いて前記制御対象の将来状態を予測し、予測した将来状態に基づいて前記制御対象の制御方策を計算する制御方策計算部と、
    前記制御方策計算部により計算された制御方策に基づいて、前記制御対象への操作指令を生成する操作指令生成部と、
    を備え
    前記モデル構築部は、前記制御対象の特性全体を状態遷移行列としてモデルを構築し、
    前記細分化部は、前記状態遷移行列を細分化することを特徴とする制御装置。
  2. 前記モデル構築部は、前記制御対象の運転データ及び画像データの少なくとも一つを、テーブル参照、適応共鳴理論、又はベクトル量子化手法を用いて離散化することにより、前記状態遷移行列の状態を定義する請求項に記載の制御装置。
  3. 前記細分化部は、複数の状態を1つの統合クラスタにまとめることで、前記モデル構築部により構築されたモデルを複数に分割し、さらに統合クラスタ間を結合するジョイントの数が少なくなるように該モデルを細分化する請求項1又は2に記載の制御装置。
  4. 少なくとも、前記モデル構築部により構築されたモデルを記憶するメモリの使用状況と前記細分化部により細分化されたモデルを記憶するメモリの使用状況とを表示する表示部を、更に備える請求項1~のいずれか一項に記載の制御装置。
  5. 制御対象を模擬するモデルを構築するモデル構築ステップと、
    前記モデル構築ステップで構築したモデルを細分化する細分化ステップと、
    前記細分化ステップで細分化したモデルを用いて前記制御対象の将来状態を予測し、予測した将来状態に基づいて前記制御対象の制御方策を計算する制御方策計算ステップと、
    前記制御方策計算ステップで計算した制御方策に基づいて、前記制御対象への操作指令を生成する操作指令生成ステップと、
    を備え
    前記モデル構築ステップにおいて、前記制御対象の特性全体を状態遷移行列としてモデルを構築し、
    前記細分化ステップにおいて、前記状態遷移行列を細分化することを特徴とする制御方法。
  6. 前記モデル構築ステップにおいて、前記制御対象の運転データ及び画像データの少なくとも一つを、テーブル参照、適応共鳴理論、又はベクトル量子化手法を用いて離散化することにより、前記状態遷移行列の状態を定義する請求項に記載の制御方法。
  7. 前記細分化ステップにおいて、複数の状態を1つの統合クラスタにまとめることで、前記モデル構築ステップで構築したモデルを複数に分割し、さらに統合クラスタ間を結合するジョイントの数が少なくなるように該モデルを細分化する請求項5又は6に記載の制御方法。
  8. 少なくとも、前記モデル構築ステップで構築したモデルを記憶するメモリの使用状況と前記細分化ステップで細分化したモデルを記憶するメモリの使用状況とを表示する表示ステップを、更に備える請求項のいずれか一項に記載の制御方法。
JP2020190354A 2020-11-16 2020-11-16 制御装置及び制御方法 Active JP7441775B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020190354A JP7441775B2 (ja) 2020-11-16 2020-11-16 制御装置及び制御方法
CN202180073239.XA CN116490834A (zh) 2020-11-16 2021-08-30 控制装置以及控制方法
PCT/JP2021/031806 WO2022102213A1 (ja) 2020-11-16 2021-08-30 制御装置及び制御方法
US18/035,771 US20230400821A1 (en) 2020-11-16 2021-08-30 Control device and control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020190354A JP7441775B2 (ja) 2020-11-16 2020-11-16 制御装置及び制御方法

Publications (2)

Publication Number Publication Date
JP2022079264A JP2022079264A (ja) 2022-05-26
JP7441775B2 true JP7441775B2 (ja) 2024-03-01

Family

ID=81601045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020190354A Active JP7441775B2 (ja) 2020-11-16 2020-11-16 制御装置及び制御方法

Country Status (4)

Country Link
US (1) US20230400821A1 (ja)
JP (1) JP7441775B2 (ja)
CN (1) CN116490834A (ja)
WO (1) WO2022102213A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011197705A (ja) 2010-03-17 2011-10-06 Fuji Electric Co Ltd プラント制御装置、そのモデル予測制御装置
JP2019010614A (ja) 2017-06-30 2019-01-24 横河電機株式会社 水処理施設における運転支援装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695707A (ja) * 1992-09-11 1994-04-08 Toshiba Corp モデル予測制御装置
JPH11161327A (ja) * 1997-11-28 1999-06-18 Mitsubishi Chemical Corp プロセスの異常診断方法及び装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011197705A (ja) 2010-03-17 2011-10-06 Fuji Electric Co Ltd プラント制御装置、そのモデル予測制御装置
JP2019010614A (ja) 2017-06-30 2019-01-24 横河電機株式会社 水処理施設における運転支援装置

Also Published As

Publication number Publication date
JP2022079264A (ja) 2022-05-26
US20230400821A1 (en) 2023-12-14
CN116490834A (zh) 2023-07-25
WO2022102213A1 (ja) 2022-05-19

Similar Documents

Publication Publication Date Title
US11914350B2 (en) Manufacturing process control using constrained reinforcement machine learning
US11573541B2 (en) Future state estimation device and future state estimation method
Jilani et al. A refined fuzzy time series model for stock market forecasting
JP2013033497A (ja) モデル予測コントローラの解の解析プロセス
Garg Performance analysis of complex repairable industrial systems using PSO and fuzzy confidence interval based methodology
US10048658B2 (en) Information processing device, predictive control method, and recording medium
Zabihi-Samani et al. Optimal semi-active structural control with a wavelet-based cuckoo-search fuzzy logic controller
Mansoori et al. An efficient recurrent neural network model for solving fuzzy non-linear programming problems
Senn et al. Reducing the computational effort of optimal process controllers for continuous state spaces by using incremental learning and post-decision state formulations
JP7497516B2 (ja) 等式制約を代数モデルに課すための射影方法
JP7441775B2 (ja) 制御装置及び制御方法
JP5018809B2 (ja) 時系列データ予測装置
WO2023210665A1 (ja) 計算グラフの改善
Packham et al. Interactive visualisation for decision support and evaluation of robustness—in theory and in practice
JP7060130B1 (ja) 運用支援装置、運用支援方法及びプログラム
WO2016203757A1 (ja) 制御装置、それを使用する情報処理装置、制御方法、並びにコンピュータ・プログラムが格納されているコンピュータ読み取り可能な記憶媒体
Elkalla et al. Solving fuzzy time–cost trade-off in construction projects using linear programming
JP5581753B2 (ja) プラント制御装置、そのモデル予測制御装置
Eker et al. Using evolution strategies to solve DEC-POMDP problems
JP2643295B2 (ja) ファジィ制御演算装置およびファジィ推論方法
Prasad et al. Performance analysis of cascade tank system using deep learning controller
JP7111761B2 (ja) プラント運転最適化支援装置、プラント運転最適化制御装置並びに方法
JP7199115B1 (ja) 機械学習における分散学習
US20240211367A1 (en) Pipeline evaluation device, pipeline evaluation method, and program
JP2023074434A (ja) 将来状態推定装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240219

R150 Certificate of patent or registration of utility model

Ref document number: 7441775

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150