JP7342833B2

JP7342833B2 - 制御装置、コントローラ、制御システム、制御方法、および制御プログラム

Info

Publication number: JP7342833B2
Application number: JP2020174469A
Authority: JP
Inventors: 奈央彦飯森; 豪 ▲高▼見; 修平石野; 豪三澤
Original assignee: Yokogawa Electric Corp
Current assignee: Yokogawa Electric Corp
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2023-09-12
Anticipated expiration: 2040-10-16
Also published as: CN114384868A; KR20220050813A; US20220121164A1; JP2022065773A; EP3985460A1; EP3985460B1

Description

本発明は、制御装置、コントローラ、制御システム、制御方法、および制御プログラムに関する。

特許文献１には、ネットワークを介して設備の各機器に接続される装置が、「設備に設けられた複数の機器の一部をそれぞれ対象機器とする複数のエージェント」を備え、各エージェントが「各対象機器の推奨される制御条件を示す推奨制御条件データを出力するモデルの学習処理を実行する」ことが記載されている（請求項１、段落００２４、図１等）。
［先行技術文献］
［特許文献］
［特許文献１］特開２０２０－２７５５６号公報

本発明の第１の態様においては、制御装置を提供する。制御装置は、設備の状態を計測する少なくとも１つのセンサによって検出された状態データを取得する状態取得部を備えてよい。制御装置は、取得された状態データに応じて設備を制御するための制御データを算出する制御モデルを学習により生成する学習処理部を備えてよい。制御装置は、生成された制御モデルを設備を制御するコントローラに送信してコントローラに設定させるモデル送信部を備えてよい。

制御装置は、生成された制御モデルを用いて、処理対象とする状態データに応じて制御データを算出する算出部を備えてよい。制御装置は、算出された制御データをコントローラへと送信する制御データ送信部を備えてよい。

学習処理部は、外部環境の変化が検出されたことに応じて、新たな制御モデルを学習により生成してよい。

学習処理部は、制御の確からしさ、計算量、または学習日時の少なくとも１つを含む特性が異なる複数の制御モデルを生成してよい。モデル送信部は、生成された複数の制御モデルをコントローラに送信して、コントローラで選択可能に設定させてよい。

本発明の第２の態様においては、コントローラを提供する。コントローラは、設備の状態を計測する少なくとも１つのセンサから状態データを受信する状態受信部を備えてよい。コントローラは、学習対象とする状態データを、状態データに応じて設備を制御するための制御データを算出する制御モデルを学習により生成する制御装置へと送信する状態送信部を備えてよい。コントローラは、制御装置から学習済みの制御モデルを受信するモデル受信部を備えてよい。コントローラは、受信された制御モデルを用いて、処理対象とする状態データに応じた制御データを算出する算出部を備えてよい。コントローラは、算出された制御データを用いて設備を制御する制御部を備えてよい。

コントローラは、制御装置が制御モデルを用いて算出した第１の制御データを制御装置から受信する制御データ受信部を備えてよい。コントローラは、第１の制御データと、算出部が算出した第２の制御データとの中から、設備の制御に用いる制御データを選択する制御データ選択部を備えてよい。

制御データ選択部は、制御装置から第１の制御データを受信できなかったことに応じて第２の制御データを選択してよい。

制御データ選択部は、第１の制御データおよび第２の制御データのうち、より新しい制御モデルを用いて算出された制御データを選択してよい。

モデル受信部は、制御の確からしさ、計算量、または学習日時の少なくとも１つを含む特性が異なる複数の制御モデルを受信してよい。算出部は、複数の制御モデルの中から、特性に基づいて設備の制御に用いる制御モデルを選択してよい。

本発明の第３の態様においては、制御システムを提供する。制御システムは、制御装置を備えてよい。制御装置は、設備の状態を計測する少なくとも１つのセンサによって検出された状態データに応じて設備を制御するための制御データを算出する制御モデルを学習により生成する学習処理部を有してよい。制御装置は、生成された制御モデルを設備を制御するコントローラに送信するモデル送信部を有してよい。制御システムは，コントローラを備えてよい。コントローラは、制御装置から学習済みの制御モデルを受信するモデル受信部を有してよい。コントローラは、少なくとも１つのセンサから状態データを受信する状態受信部を有してよい。コントローラは、モデル受信部が受信した制御モデルを用いて、処理対象とする状態データに応じて設備を制御するための制御データを算出する算出部を有してよい。コントローラは、算出された制御データを用いて設備を制御する制御部を有してよい。

コントローラは、学習対象とする状態データを、制御装置へと送信する状態送信部を更に有してよい。制御装置は、状態送信部により送信された、学習対象とする状態データを取得する状態取得部を有してよい。学習処理部は、取得された状態データを用いて制御モデルを生成してよい。

本発明の第４の態様においては、制御方法を提供する。制御方法は、制御装置が、設備の状態を計測する少なくとも１つのセンサによって検出された状態データを取得することを備えてよい。制御方法は、制御装置が、取得された状態データに応じて設備を制御するための制御データを算出する制御モデルを学習により生成することを備えてよい。制御方法は、制御装置が、生成された制御モデルを設備を制御するコントローラに送信してコントローラに設定させることを備えてよい。

本発明の第５の態様においては、コンピュータによって実行される制御プログラムを提供する。制御プログラムは、コンピュータを、設備の状態を計測する少なくとも１つのセンサによって検出された状態データを取得する状態取得部として機能させてよい。制御プログラムは、コンピュータを、取得された状態データに応じて設備を制御するための制御データを算出する制御モデルを学習により生成する学習処理部として機能させてよい。制御プログラムは、コンピュータを、生成された制御モデルを設備を制御するコントローラに送信してコントローラに設定させるモデル送信部として機能させてよい。

本発明の第６の態様においては、制御方法を提供する。制御方法は、コントローラが、設備の状態を計測する少なくとも１つのセンサから状態データを受信することを備えてよい。制御方法は、コントローラが、学習対象とする状態データを、状態データに応じて設備を制御するための制御データを算出する制御モデルを学習により生成する制御装置へと送信することを備えてよい。制御方法は、コントローラが、制御装置から学習済みの制御モデルを受信することを備えてよい。制御方法は、コントローラが、受信された制御モデルを用いて、処理対象とする状態データに応じた制御データを算出することを備えてよい。制御方法は、コントローラが、算出された制御データを用いて設備を制御することを備えてよい。

本発明の第７の態様においては、コンピュータによって実行される制御プログラムを提供する。制御プログラムは、コンピュータを、設備の状態を計測する少なくとも１つのセンサから状態データを受信する状態受信部として機能させてよい。制御プログラムは、コンピュータを、学習対象とする状態データを、状態データに応じて設備を制御するための制御データを算出する制御モデルを学習により生成する制御装置へと送信する状態送信部として機能させてよい。制御プログラムは、コンピュータを、制御装置から学習済みの制御モデルを受信するモデル受信部として機能させてよい。制御プログラムは、コンピュータを、受信された制御モデルを用いて、処理対象とする状態データに応じた制御データを算出する算出部として機能させてよい。制御プログラムは、コンピュータを、算出された制御データを用いて設備を制御する制御部として機能させてよい。

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

本実施形態に係る制御システム１０の構成を設備１００と共に示す。本実施形態に係る制御システム１０の学習処理フローを示す。本実施形態に係る制御システム１０の機器制御フローを示す。本実施形態に係る算出部１２２の構成を示す。本実施形態に係る制御モデルリストの一例を示す。本実施形態の変形例に係る制御システム１０の構成を設備１００と共に示す。本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ２２００の例を示す。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、本実施形態に係る制御システム１０の構成を設備１００と共に示す。本実施形態に係る制御システム１０は、設備１００の近辺に配置される１または複数のコントローラ１１０を用いて、いわゆるエッジコンピューティングによって設備１００内の各機器１０８を制御する。その一方で、制御システム１０は、各コントローラ１１０が設備１００を制御するために用いる制御モデルを、上位の制御装置１６０における学習により生成する。これにより、制御システム１０は、各コントローラ１１０では処理することが難しいような、大量の学習データを用いて大きな計算量が要求される学習処理を、より多くの処理リソースを有する上位の制御装置１６０を用いて実現することができる。

設備１００は、工場またはプラント等に設けられる。このような工場またはプラントは、例えば、各種の工業製品等を生産するための工場、化学または金属等の工業プラント、ガス田や油田等の井戸元やその周辺を管理制御するプラント、水力・火力・原子力等の発電を管理制御するプラント、太陽光や風力等の環境発電を管理制御するプラント、上下水やダム等を管理制御するプラント等であってよい。また、設備１００は、ビルまたは交通機関等に設けられてもよい。

設備１００は、設備１００の状態を計測するための１または複数のセンサ１０４と、設備１００による制御の対象となる１または複数の機器１０８とを備える。各センサ１０４は、設備１００内の各箇所に設けられ、その箇所における設備１００の状態を計測する。各センサ１０４は、機器１０８に付加されたものであってよく、機器１０８に内蔵されたものであってもよい。また、各センサ１０４は、状態を計測する機能を有するフィールド機器であってもよい。このようなフィールド機器は、例えば圧力計、流量計、温度センサ等のセンサ機器、プラント等の状況や対象物を撮影するカメラ若しくはビデオ等の撮像機器、プラント等の異音等を収集し、または警報音等を発するマイク若しくはスピーカ等の音響機器、設備１００が有する装置の位置情報を出力する位置検出機器、またはその他の機器であってよい。

各機器１０８は、設備１００内の各箇所に設けられ、制御システム１０による制御を受ける。各機器１０８は、プロセス装置、発電装置、またはその他の任意の装置であってよく、そのような装置の一部であってもよい。また、各機器１０８は、外部からの制御を受けて作動するフィールド機器であってもよい。このようなフィールド機器は、例えば流量制御弁や開閉弁等のバルブ機器、ファンやモータ等のアクチュエータ機器、またはその他の機器であってよい。

制御システム１０は、１または複数のコントローラ１１０と、制御装置１６０とがネットワーク１４０を介して接続された構成を有する。各コントローラ１１０は、設備１００の近辺であって例えばそのコントローラ１１０の制御対象となる機器１０８の近傍に設置される。各コントローラ１１０は、設備１００が有する１または複数のセンサ１０４の少なくとも一部に接続され、各センサ１０４から受信する状態データに応じて制御対象となる機器１０８を制御する。複数のコントローラ１１０のそれぞれは、設備１００の複数のセンサ１０４のうちの一部ずつに接続され、設備１００の複数の機器１０８のうちの一部ずつの制御を担当してよい。この場合、各コントローラ１１０は、制御対象の機器１０８の制御に対して関連性が高い少なくとも１つのセンサ１０４に接続される。

コントローラ１１０は、接続先の各センサ１０４、制御対象の各機器１０８、および制御装置１６０との通信機能と、制御対象の機器１０８の制御機能等とを有する専用ハードウェアまたは専用コンピュータによって実現されるエッジ装置である。これに代えて、コントローラ１１０は、ＰＣ（パーソナルコンピュータ）等のコンピュータにより実現されてもよい。コントローラ１１０がコンピュータによって実現される場合には、コントローラ１１０は、コンピュータでコントローラ１１０用の制御プログラムを実行することにより、コントローラ１１０の各種機能を提供する。

コントローラ１１０は、状態受信部１１２と、状態記憶部１１４と、状態送信部１１６と、モデル受信部１１８と、モデル記憶部１２０と、算出部１２２と、制御データ受信部１２４と、制御データ選択部１２６と、制御部１２８とを備える。状態受信部１１２は、当該コントローラ１１０の監視対象となる少なくとも１つのセンサ１０４に接続され、これらの少なくとも１つのセンサ１０４から状態データを受信する。ここで、センサ１０４の一部は、機器１０８における制御パラメータを機器１０８から取得するものであってよく、状態受信部１１２は、機器１０８に設定された現在の制御パラメータをセンサ１０４から受信してもよい。

状態記憶部１１４は、状態受信部１１２に接続される。状態記憶部１１４は、メモリ、ＳＳＤ（ソリッドステートドライブ）、またはハードディスク等の記憶装置により実現されてよく、当該コントローラ１１０に接続された各センサ１０４から順次受信される状態データを順次格納する。状態送信部１１６は、状態記憶部１１４に接続される。状態送信部１１６は、状態記憶部１１４に格納された状態データのうち、学習対象とする状態データを、ネットワーク１４０を介して制御装置１６０へと送信する。これにより、制御装置１６０は、当該コントローラ１１０に関して、設備１００における制御対象の機器１０８を状態データに応じて制御するための制御データを算出する制御モデルを学習により生成することができる。なお、状態送信部１１６は、学習対象としない状態データも制御装置１６０へと送信してよく、全ての状態データを制御装置１６０へと送信してもよい。本実施形態において、状態送信部１１６は、制御装置１６０側でも各機器１０８を制御するための制御データを算出させるべく、処理対象の状態データを制御装置１６０へと送信する。

モデル受信部１１８は、ネットワーク１４０を介して制御装置１６０に接続される。モデル受信部１１８は、ネットワーク１４０を介して制御装置１６０から学習済みの制御モデルを受信する。モデル記憶部１２０は、モデル受信部１１８に接続される。モデル記憶部１２０は、メモリ、ＳＳＤ、またはハードディスク等の記憶装置により実現されてよく、受信された制御モデルを格納する。

算出部１２２は、状態記憶部１１４およびモデル記憶部１２０に接続される。算出部１２２は、制御モデルをモデル記憶部１２０から受け取り、制御モデルによる処理対象とする状態データを状態記憶部１１４から受け取る。そして、算出部１２２は、制御モデルを用いて、処理対象とする状態データに応じた制御データを算出する。「制御データ」は、制御対象の機器１０８等の制御条件を規定するデータであってよく、「制御条件データ」とも示される。ここで、制御モデルは、機器１０８毎に用意されてよい。この場合、算出部１２２は、各制御周期において、コントローラ１１０に接続された各機器１０８に対応付けられた制御モデルを用いて、各機器１０８用の制御データを算出する。また、制御モデルは、各機器１０８における制御パラメータ毎に用意されてもよい。この場合、算出部１２２は、各制御周期において、コントローラ１１０に接続された各機器１０８の各制御パラメータに対応付けられた制御モデルを用いて、各機器１０８の各制御パラメータ用の制御データを算出する。このような場合には、算出部１２２は、各制御周期において２以上の制御モデルに関する処理を行う。なお、制御モデルの例については、図４に関連して後述する。

制御データ受信部１２４は、ネットワーク１４０を介して制御装置１６０に接続される。制御データ受信部１２４は、制御装置１６０が制御モデルを用いて算出した制御データを受信する。ここで、制御装置１６０が制御モデルを用いて算出する制御データを「第１の制御データ」とも示し、算出部１２２が制御モデルを用いて算出する制御データを「第２の制御データ」とも示す。

制御データ選択部１２６は、算出部１２２および制御データ受信部１２４に接続される。制御データ選択部１２６は、制御装置１６０が算出した制御データ（第１の制御データ）と、算出部１２２が算出した制御データ（第２の制御データ）との中から、設備１００内の制御対象の機器１０８の制御に用いる制御データを選択する。なお、この選択方法については、図３に関連して後述する。

制御部１２８は、制御データ選択部１２６に接続される。制御部１２８は、算出部１２２または制御装置１６０により算出され、制御データ選択部１２６により選択された制御データを用いて設備１００内の制御対象の機器１０８を制御する。なお、制御部１２８は、選択部１２６によって選択された制御データを用いず、算出部１２２が算出した制御データを用いてもよい。ここで、制御データは、例えばバルブの開度のような制御パラメータを＋１０％等のように指定した大きさだけ増加または減少させることを指示する制御指令を含んでよい。また、制御データは、制御パラメータに特定の値を設定することを指示する制御指令を含んでよい。また、制御データは、例えば加熱機または冷却機等の機器をオンまたはオフとすることを指示する制御指令を含んでよい。このように、制御データは、制御対象の機器１０８の動作を指定または変更させるための任意の形式の制御値または制御指令を含んでよい。

ネットワーク１４０は、コントローラ１１０および制御装置１６０の間を接続する。ネットワーク１４０は、インターネットまたはＷＡＮ等の広域ネットワークであってよい。ネットワーク１４０は、例えば４Ｇ（第４世代）または５Ｇ（第５世代）のような携帯通信ネットワーク等を含む無線ネットワークであってよく、これに代えて、ネットワーク１４０は、有線のインターネット等を含む有線ネットワークであってもよい。

制御装置１６０は、ネットワーク１４０を介してコントローラ１１０に接続される。制御装置１６０は、ＰＣ（パーソナルコンピュータ）、ワークステーション、サーバコンピュータ、または汎用コンピュータ等のコンピュータであってよく、複数のコンピュータが接続されたコンピュータシステムであってもよい。このようなコンピュータシステムもまた広義のコンピュータである。また、制御装置１６０は、コンピュータ内で１または複数実行可能な仮想コンピュータ環境によって実装されてもよい。これに代えて、制御装置１６０は、設備１００の制御用に設計された専用コンピュータであってもよく、専用回路によって実現された専用ハードウェアであってもよい。

また、制御装置１６０は、インターネット等のネットワーク１４０を介して各コントローラ１１０に接続され、設備１００内の各機器１０８を制御するためのクラウドサービスを提供するクラウドコンピューティングシステムであってもよい。制御装置１６０がコンピュータによって実現される場合には、制御装置１６０は、コンピュータで制御装置１６０用の制御プログラムを実行することにより、制御装置１６０の各種機能を提供する。

制御装置１６０は、状態取得部１６２と、状態記憶部１６４と、学習処理部１６６と、モデル記憶部１６８と、モデル送信部１７０と、算出部１７２と、制御データ送信部１７４とを備える。状態取得部１６２は、ネットワーク１４０を介して１または複数のコントローラ１１０に接続される。状態取得部１６２は、各設備１００の状態を計測する少なくとも１つのセンサ１０４によって検出された状態データを取得する。本実施形態に係る状態取得部１６２は、各コントローラ１１０が送信する状態データをネットワーク１４０を介して受信することにより、各センサ１０４からの状態データを取得する。状態取得部１６２は、各センサ１０４によって検出された状態データを、直接的のみならず、間接的に取得してもよい。例えば、各センサ１０４からの状態データが一旦履歴データとして記憶装置に格納されているような場合に、状態取得部１６２は、そのような記憶装置に格納された履歴データの中から過去に各センサ１０４によって検出された状態データを取得してよい。また、状態取得部１６２は、コントローラ１１０からの状態データではない状態データを取得してもよい。例えば、状態取得部１６２は、設備１００をシミュレーション環境において仮想的に実行させることによって得られる、仮想的な状態データを取得してもよい。また、状態取得部１６２は、設備１００とは異なる実験設備から取得された状態データを取得してもよい。この場合、制御装置１６０は、このようにして得られた状態データを用いて制御モデルを生成してよい。なお、状態取得部１６２は、コントローラ１１０を介さず、センサ１０４からの状態データを取得してもよい。

状態記憶部１６４は、状態取得部１６２に接続される。状態記憶部１６４は、メモリ、ＳＳＤ、またはハードディスク等の記憶装置により実現されてよく、各コントローラ１１０を介して順次受信される各センサ１０４からの状態データを順次格納する。

学習処理部１６６は、状態記憶部１６４に接続される。学習処理部１６６は、状態取得部１６２によって取得された状態データに応じて設備１００を制御するための制御データを算出する制御モデルを学習により生成する。本明細書において、「制御モデルを学習により生成する」とは、新たな制御モデルを生成することの他、既存の制御モデルに対して更に学習処理を行うことにより制御モデルを更新することを含む。学習処理部１６６は、常時制御モデルを生成（または更新）してもよく、周期的に制御モデルを生成（または更新）してもよく、制御装置１６０のユーザの指示に応じて制御モデルを生成（または更新）してもよく、外部環境に応じて制御モデルを生成（または更新）してもよい。なお、学習処理部１６６は、状態データの少なくとも一部として過去に算出した制御データを入力とする制御モデルを学習により生成してもよい。これにより、学習処理部１６６は、過去の制御データの値に応じて算出する制御データの値を変化させるフィードバック制御を行う制御モデルを生成することができる。

モデル記憶部１６８は、学習処理部１６６に接続される。モデル記憶部１６８は、メモリ、ＳＳＤ、またはハードディスク等の記憶装置により実現されてよく、学習処理部１６６によって生成された制御モデルを格納する。モデル送信部１７０は、モデル記憶部１６８に接続される。モデル送信部１７０は、学習処理部１６６により生成され、モデル記憶部１６８に格納された制御モデルを、設備１００における当該制御モデルの制御対象となる機器１０８に接続されたコントローラ１１０に送信してコントローラ１１０で使用可能に設定させる。

算出部１７２は、状態記憶部１６４およびモデル記憶部１６８に接続される。算出部１７２は、制御モデルをモデル記憶部１６８から受け取り、制御モデルによる処理対象とする状態データを状態記憶部１６４から受け取る。そして、算出部１７２は、制御モデルを用いて、処理対象とする状態データに応じた制御データを算出する。ここで、制御モデルは、コントローラ１１０毎に用意されてもよい。この場合、算出部１７２は、各制御周期において、各コントローラ１１０に対応付けられた制御モデルを用いて、各コントローラ１１０が使用する全制御データを算出する。また、制御モデルが機器１０８毎に用意される場合、算出部１７２は、各制御周期において、各機器１０８に対応付けられた制御モデルを用いて、各機器１０８用の制御データを算出する。また、制御モデルが各機器１０８における制御パラメータ毎に用意される場合、算出部１７２は、各制御周期において、各コントローラ１１０に接続された各機器１０８の各制御パラメータに対応付けられた制御モデルを用いて、各機器１０８の各制御パラメータ用の制御データを算出する。

制御データ送信部１７４は、算出部１７２に接続される。制御データ送信部１７４は、算出部１７２により算出された制御データを、その制御データによる制御対象の機器１０８に接続されたコントローラ１１０へと送信する。

以上に示した制御システム１０によれば、各コントローラ１１０によるエッジコンピューティングによって設備１００を制御すると共に、各コントローラ１１０が設備１００を制御するために用いる制御モデルを上位の制御装置１６０によって学習させることができる。これにより、制御システム１０は、各コントローラ１１０において学習処理を行うための処理負荷を低減させることができ、より多くの処理リソースを有する上位の制御装置１６０を用いて学習処理を行うことができる。

また、コントローラ１１０は、制御装置１６０が算出した制御データと、算出部１２２が算出した制御データとの中から好適な制御データを選択して制御対象の機器１０８を制御することができる。これにより、制御装置１６０が算出した制御データがより好適な場合には、コントローラ１１０は、コントローラ１１０内で算出した制御データに代えて、制御装置１６０が算出した制御データを使用することができる。なお、制御装置１６０は、制御データを算出する機能を有しなくてもよい。この場合、制御装置１６０は、算出部１７２および制御データ送信部１７４を有しなくてよく、コントローラ１１０は、制御データ受信部１２４および制御データ選択部１２６を有しなくてもよい。

図２は、本実施形態に係る制御システム１０の学習処理フローを示す。本図の例においては、説明の便宜上、主に１つのコントローラ１１０に関連する学習処理フローを示すが、本学習処理フローは、複数のコントローラ１１０のそれぞれに関して実行されてよい。

Ｓ２００（ステップ２００）において、設備１００内の複数のセンサ１０４のそれぞれは、設備１００または設備１００内における検出対象の機器１０８の状態を検出する。各センサ１０４は、状態の検出値を状態データとして接続先の状態受信部１１２へと送信する。

Ｓ２０５において、コントローラ１１０の状態受信部１１２は、コントローラ１１０に接続された監視対象となる１または複数のセンサ１０４の検出値を状態データとして受信する。ここで、状態受信部１１２は、予め定められた制御周期またはセンス周期毎に各センサ１０４の状態データを受信してよい。

Ｓ２１０において、状態記憶部１１４は、状態受信部１１２が受信した状態データを順次格納する。ここで、状態記憶部１１４は、状態データが制御装置１６０へと送信され、かつ状態データが制御データの算出に使用されるまでの間、状態データを一時的に記憶するバッファとしての機能を果たすのに十分な記憶容量を有するものであってよい。この場合において、状態記憶部１１４は、ネットワーク１４０による通信が一時的に遮断された場合においても、ある程度の期間は未送信の状態データを蓄積し続けることができる程度の記憶容量を有してよい。

これにより、コントローラ１１０は、ネットワーク１４０の通信不良時にも、状態データの損失が発生する可能性を低減することができ、制御装置１６０は損失がない連続した状態データを用いて学習処理を行うことができる。なお、状態記憶部１１４は、状態送信部１１６および算出部１２２のいずれにおいても使用済みまたは使用しない状態データを消去し、または新しい状態データによって上書きしてよい。Ｓ２１５において、状態送信部１１６は、状態記憶部１１４に格納された状態データを制御装置１６０へと送信する。

Ｓ２２０において、制御装置１６０の状態取得部１６２は、各コントローラ１１０からの状態データをネットワーク１４０を介して受信する。Ｓ２２５において、状態記憶部１６４は、各コントローラ１１０からの状態データを順次格納する。ここで、状態記憶部１６４は、複数のコントローラ１１０のそれぞれについて、各コントローラ１１０からの状態データを学習処理部１６６による学習処理に用いるまでの間は、状態データを少なくとも記憶しておく。このために、制御装置１６０は、各コントローラ１１０に対して、状態記憶部１１４よりも大きな記憶容量を割り当ててよい。この場合、制御装置１６０は、複数のコントローラ１１０における状態記憶部１１４の記憶容量の合計よりも大きな記憶容量を有する。

Ｓ２３０において、学習処理部１６６は、学習処理を行うべきタイミングとなったか否かを判定する。学習処理を行うべきタイミングとなっていない場合、学習処理部１６６は、学習処理を行わず、制御装置１６０は処理をＳ２２０へと進めて後続の状態データの取得を継続する（Ｓ２３０の「Ｎ」）。学習処理を行うべきタイミングである場合、制御装置１６０は、処理をＳ２３５へと進める（Ｓ２３０の「Ｙ」）。ここで、学習処理を行うべきタイミングは、図１に関して簡単に示したように、一例として以下の少なくとも１つを含んでよい。

（１）学習処理部１６６は、常時学習処理を行う。
学習処理部１６６は、常時学習処理を行って制御モデルを生成または更新してよい。この場合において、学習処理部１６６は、制御周期毎またはセンス周期毎にコントローラ１１０から新たな状態データが取得される度に、その状態データを制御モデルに反映させるべく学習処理を行ってよい。これに代えて、学習処理部１６６は、制御周期毎またはセンス周期毎に学習処理を行うことができない場合においても、常時学習処理を行って可能な限り頻繁に制御モデルを生成または更新してよい。

（２）学習処理部１６６は、予め定められた学習周期毎に学習処理を行う。
学習処理部１６６は、例えば１時間、１日、１週間、または１ヶ月等の予め定められた学習周期毎に、制御モデルの学習処理を行ってよい。この場合、学習処理部１６６は、学習周期内に、複数のコントローラ１１０の各制御モデルについて学習処理を行うべく、学習周期内に各制御モデルを順次生成または更新してよい。

（３）学習処理部１６６は、外部からの指示に応じて学習処理を行う。
学習処理部１６６は、制御システム１０のユーザ（例えば設備１００の監視員）からの、学習処理を起動する旨の指示が制御装置１６０に入力されたことに応じて、制御モデルの学習処理を行ってよい。ここで、このような指示は、学習させる制御モデルの指定を含んでもよく、学習処理部１６６は、指示に応じて指定された制御モデルの学習処理を行ってよい。指示が特定の制御モデルの指定を含まない場合、学習処理部１６６は、使用される学習可能な全ての制御モデルの学習処理を行ってもよい。

（４）学習処理部１６６は、外部環境に応じて学習処理を行う。
学習処理部１６６は、外部環境に応じて学習処理を行ってよい。具体的には、学習処理部１６６は、外部環境の変化が検出されたことに応じて、新たな制御モデルを学習により生成してよい。例えば、学習処理部１６６は、外気温、湿度、またはその他の外部環境に応じた指標値が、前回学習処理を行ったときの指標値から予め定められた基準範囲を超えて変化した場合（外気温が±１℃以上変化した場合等）に、制御モデルの学習処理を行う。これに代えて、学習処理部１６６は、外部環境に応じた指標値が、指標値の取り得る範囲を複数に区分した区間の境界を越えて変化したこと（例えば外気温が上昇し、２０℃から２５℃の範囲内から、２５℃から３０℃の範囲内へと変化したこと）に応じて制御モデルの学習処理を行ってもよい。これにより、学習処理部１６６は、例えば化学プラント等のように外気温等の外部環境によって設備１００の最適な制御条件が変化する場合においても、外部環境に適した制御モデルを生成して使用可能とすることができる。

また、学習処理部１６６は、このような外部環境の一例として、学習対象のコントローラ１１０に接続されたセンサ１０４以外のセンサ１０４からの状態データ、すなわち学習対象のコントローラ１１０以外のコントローラ１１０に接続されたセンサ１０４からの状態データを用いてもよい。これにより学習処理部１６６は、学習対象とする機器１０８の動作が他の機器１０８の状態の影響を受ける場合においても、他の機器１０８の状態に応じて適切な制御モデルを生成して使用可能とすることができる。

Ｓ２３５において、学習処理部１６６は、状態記憶部１６４に格納された状態データを学習データとして用いて、制御モデルの学習処理を行う。ここで、対象とするコントローラ１１０が２以上の機器１０８に接続される場合、学習処理部１６６は、機器１０８毎の制御モデルを生成してよい。また、機器１０８の１または２以上の制御パラメータ毎に異なる制御モデルを使用する場合、学習処理部１６６は、１または２以上の制御パラメータ毎の制御モデルを生成してよい。モデル記憶部１６８は、生成した制御モデルをモデル記憶部１６８に格納する。Ｓ２４０において、モデル送信部１７０は、モデル記憶部１６８に格納された各制御モデルを、その制御モデルを使用するコントローラ１１０へと送信し、コントローラ１１０に設定させる。

Ｓ２４５において、モデル受信部１１８は、制御装置１６０によって送信された学習済みの制御モデルを受信する。Ｓ２５０において、モデル受信部１１８は、受信した制御モデルをモデル記憶部１２０へと格納する。これにより、モデル受信部１１８は、制御装置１６０からの制御モデルをコントローラ１１０が使用可能に設定する。

以上に示したように、制御装置１６０は、各コントローラ１１０が設備１００を制御するために使用する制御モデルを、上位の制御装置１６０で学習させることができる。これにより、各コントローラ１１０は、制御モデルの学習処理を自身で行う必要がなくなるので、設備１００の制御に十分な処理リソースを割り当てることができる。

図３は、本実施形態に係る制御システム１０の機器制御フローを示す。本図の例においては、説明の便宜上、主に１つのコントローラ１１０に関連する機器制御フローを示すが、本機器制御フローは、複数のコントローラ１１０のそれぞれに関して実行されてよい。

Ｓ３００、Ｓ３０５、Ｓ３１０、Ｓ３１５、Ｓ３２０、およびＳ３２５は、図２のＳ２００、Ｓ２０５、Ｓ２１０、Ｓ２１５、Ｓ２２０、およびＳ２２５と同様であるので、説明を省略する。Ｓ３３０において、制御装置１６０内の算出部１７２は、制御周期毎に、コントローラ１１０による処理対象とする状態データを状態記憶部１６４から読み出して、モデル記憶部１６８に格納された制御モデルを用いて制御データ（第１の制御データ）を算出する。ここで、コントローラ１１０について機器１０８毎または各機器１０８の少なくとも１つの制御パラメータ毎に制御モデルを使用する場合には、算出部１７２は、これらの複数の制御モデルのそれぞれを用いて複数の制御データの組を算出する。Ｓ３３５において、制御データ送信部１７４は、算出部１７２により算出された制御データを、コントローラ１１０へと送信する。

Ｓ３４０において、コントローラ１１０内の算出部１２２は、制御周期毎に、処理対象とする状態データを状態記憶部１１４から読み出して、モデル記憶部１２０に格納された制御モデルを用いて制御データ（第２の制御データ）を算出する。ここで、機器１０８毎または各機器１０８の少なくとも１つの制御パラメータ毎に制御モデルを使用する場合には、算出部１２２は、これらの複数の制御モデルのそれぞれを用いて複数の制御データの組を算出する。

Ｓ３５０において、制御データ選択部１２６は、各機器１０８または各機器１０８の少なくとも１つの制御パラメータ毎に、制御装置１６０が算出した第１の制御データおよび算出部１２２が算出した第２の制御データとの中から、設備１００の制御に用いる制御データを選択する。Ｓ３５５において、制御部１２８は、各機器１０８または各機器１０８の少なくとも１つの制御パラメータ毎に、選択された制御データを用いて機器１０８を制御する。Ｓ３６０において、制御対象の機器１０８は、制御部１２８による制御を受けて、制御指令に応じて稼働する。

以上に示したように、Ｓ３５０において、制御データ選択部１２６は、第１の制御データおよび第２の制御データの中から設備１００の制御に用いる制御データを選択する。この選択方式は、以下のいずれかまたはこれらの組合せであってよい。

（１）制御装置１６０側が主系、コントローラ１１０側が補助系である制御を行う。
制御データ選択部１２６は、各制御周期において、ある制御対象（機器１０８または機器１０８の制御パラメータ）に対する第１の制御データおよび第２の制御データを取得した場合には、制御装置１６０からの第１の制御データを優先して選択してよい。この方式においては、制御データ選択部１２６は、コントローラ１１０による第２の制御データを予備の制御データとして取得する。制御データ選択部１２６は、制御装置１６０との間で通信遅延または通信障害が発生した場合等において、必要となる制御周期内に制御装置１６０から第１の制御データを受信できなかったことに応じて、コントローラ１１０による第２の制御データを選択して制御に供してよい。

制御装置１６０が用いる制御モデルおよびコントローラ１１０が用いる制御モデルは、同一のものであってよい。これに代えて、制御装置１６０は、新たに学習した、コントローラ１１０に対して未送信の制御モデルを用いてもよい。この場合、コントローラ１１０は、通常は未受信の最新の制御モデルを用いて設備１００を制御することができ、通信遅延等が発生した場合でも受信済みの制御モデルを用いて設備１００を制御することができる。

また、制御装置１６０が用いる制御モデルは、コントローラ１１０が用いる制御モデルよりも計算量またはメモリ使用量等の処理負荷が高いがより適切な制御データを算出することができる制御モデルであってもよい。また、コントローラ１１０が用いる制御モデルはそのコントローラ１１０に接続されていないセンサ１０４からの状態データ等を用いずに制御データを算出するものであるのに対し、制御装置１６０が用いる制御モデルは、対象のコントローラ１１０に接続されたセンサ１０４以外のセンサ１０４からの状態データ、または外部環境のデータのようなコントローラ１１０の制御モデルが使用しないデータを更に用いて制御データを算出してもよい。このような方式を用いる場合には、コントローラ１１０は、通常状態においては、より確からしい制御を行うことが可能な制御装置１６０からの第１の制御データを使用して設備１００を適切に制御し、第１の制御データを適時に受信できない場合にコントローラ１１０による第２の制御データを使用して設備１００の制御を維持することができる。

（２）コントローラ１１０側が主系、制御装置１６０側が補助系である制御を行う。
制御データ選択部１２６は、各制御周期において、ある制御対象に対する第１の制御データおよび第２の制御データを取得した場合には、コントローラ１１０による第２の制御データを優先して選択してよい。この方式においては、制御データ選択部１２６は、制御装置１６０による第１の制御データを予備の制御データとして取得する。例えば、制御データ選択部１２６は、通常状態においてはコントローラ１１０による第２の制御データを選択するが、算出部１２２に異常が発生した場合、コントローラ１１０内のリソース不足により第２の制御データの算出が遅れ、若しくは算出できなかった場合、コントローラ１１０のメンテナンス、若しくは新しい制御モデルの設定を行うために一時的に算出部１２２が使用できない場合、またはその他の要因により第２の制御データを使用できない場合には制御装置１６０からの第１の制御データを使用することができる。この場合においても、コントローラ１１０が用いる制御モデルおよび制御装置１６０が用いる制御モデルの関係は、（１）と同様であってもよい。

（３）制御データを動的に選択する制御を行う。
制御データ選択部１２６は、各制御周期または予め定められた期間毎に、制御装置１６０からの第１の制御データおよびコントローラ１１０による第２の制御データのいずれを使用するかを動的に選択し、または切り替えてよい。一例として、第１の制御データおよび第２の制御データには、制御データの算出に用いた制御モデルの確からしさ（予測精度等）、または学習日時の少なくとも１つを含む特性情報が付加される。制御データ選択部１２６は、特性情報を用いて、第１の制御データおよび第２の制御データのいずれを用いるかを選択してよい。

例えば、制御データ選択部１２６は、第１の制御データおよび第２の制御データのうち、特性情報中の確からしさがより高い制御データを優先して選択してよい。また、制御データ選択部１２６は、第１の制御データおよび第２の制御データのうち、特性情報中の学習日時がより最近である特性データを優先することにより、より新しい制御モデルを用いて算出された制御データを選択してよい。特性情報が複数種類の特性についてのデータを含む場合には、制御データ選択部１２６は、第１の制御データおよび第２の制御データのそれぞれの特性情報を重み付け等することによって優先度等を示す１つの指標値に変換し、その指標値がより大きい（またはより小さい）制御データを優先的に選択してもよい。これにより、制御データ選択部１２６は、受け取った第１の制御データおよび第２の制御データの特性に応じて選択する制御データを動的に切り替えて、各時点でより適していると認められる設備１００の制御を行うことができる。

なお、本実施形態においては、コントローラ１１０は、モデル記憶部１２０に格納した制御モデルを用いて制御データを算出するが、これに代えて、コントローラ１１０は、モデル記憶部１６８に格納された最新の制御モデルを用いて制御データを算出してもよい。例えば、コントローラ１１０は、制御周期毎に、最新の制御モデルがモデル記憶部１６８に格納されているか否かを制御装置１６０に問い合わせ、最新の制御モデルがモデル記憶部１６８に格納されている場合にはその制御モデルの少なくとも一部の送信を制御装置１６０に要求する。そして、コントローラ１１０は、モデル受信部１１８により受信された最新の制御モデルを一時的にモデル記憶部１２０にバッファリングし、この制御モデルを用いて制御データを算出する。これにより、コントローラ１１０は、常に最新の制御モデルを用いて設備１００の制御を行うことができる。

図４は、本実施形態に係る算出部１２２の構成を示す。本図においては、制御モデルが、強化学習によって学習される場合について示す。算出部１２２は、アクション候補生成部４００と、行動価値算出部４１０と、アクション決定部４２０とを有する。

アクション候補生成部４００は、時刻ｔに対応するセンス周期において、コントローラ１１０に接続された少なくとも１つのセンサ１０４から受信された状態データのうち、制御モデルが処理対象とする状態データｓ_ｔを状態記憶部１１４から受け取る。ここで、状態データｓ_ｔは、コントローラ１１０に接続された全てのセンサ１０４から受信された状態データを含んでよく、学習処理中に制御モデルで使用しないと決定された状態データを除き、制御モデルで使用すると決定された状態データを含んでもよい。

アクション候補生成部４００は、時刻ｔの状態データｓ_ｔに応じて、設備１００を制御する制御周期で採り得る１または複数のアクション候補ａ_０ｔ、ａ_１ｔ、…を生成する。ここで、少なくとも１つのアクション候補は、状態データｓ_ｔの値によらず使用可能なものであってよく、この場合にはアクション候補生成部４００は、そのようなアクション候補を常に選択してよい。

また、他の少なくとも１つのアクション候補は、状態データｓ_ｔの値に応じて使用可否が定まるものであってよく、この場合にはアクション候補生成部４００は、状態データｓ_ｔの値次第でそのようなアクション候補を使用するかどうかを決定してよい。このような状態データｓ_ｔの値に応じたアクション候補は、例えば制御パラメータの取り得る範囲の制限を受けうる。例えば、アクション候補生成部４００は、ある機器１０８のバルブ開度が９５％である場合にはバルブ開度を５％増加させるアクション候補を生成してよいが、バルブ開度が１００％である場合に更にバルブ開度を増加させるアクション候補を生成しないようにしてよい。

また、状態データｓ_ｔの値に応じたアクション候補は、制御対象の機器１０８の定格使用範囲等の制限を受けうる。例えば、アクション候補生成部４００は、ある機器１０８に入力される原料の温度が機器１０８の定格上１００度以下に制限されている場合において、時刻ｔにおいて機器１０８に９８度の原料が入力されている場合には、機器１０８に入力される原料の温度を５度増加させるようなアクション候補を生成しないようにしてよい。

行動価値算出部４１０は、アクション候補生成部４００に接続される。行動価値算出部４１０は、時刻ｔの状態データｓ_ｔに応じて、時刻ｔにおける設備１００の状態において１または複数のアクション候補ａ_０ｔ、ａ_１ｔ、…のそれぞれを実行する場合の行動価値Ｑ（ｓ_ｔ，ａ_０ｔ）、Ｑ（ｓ_ｔ，ａ_１ｔ）、…を制御モデルを用いて予測する。この行動価値Ｑ（ｓ_ｔ，ａ_０ｔ）は、時刻ｔにおける設備１００の状態においてアクション候補ａ_０ｔ等のアクションを実行する場合に得られる報酬を示してよい。

ここで、制御モデルは、与えられた状態ｓにおいてあるアクションａをとる価値を予測するための行動価値関数Ｑ（ｓ，ａ）を、一例としてモンテカルロ法またはＴＤ学習法のような強化学習の手法を用いて、例えば制御周期数百サイクル等のある程度の長さの期間における設備１００または制御対象の機器１０８のパフォーマンスを最適化させるべく学習処理部１６６により学習したものである。制御装置１６０は、このようなパフォーマンスを、例えば生産プラントにおける製品の製造量、制御対象の機器１０８による生産品の製造量、原料および電力等の消費量、またはその他の各種のパラメータの少なくとも１つの関数として予め定められたＫＰＩ（ＫｅｙＰｅｒｆｏｒｍａｎｃｅＩｎｄｅｘ）等の目標関数によって決定してよい。ある実装においては、学習処理部１６６は、状態ｓおよびアクションａを入力とし、行動価値の予測値Ｑ（ｓ，ａ）を出力するように学習されたニューラルネットワークを学習により生成して行動価値算出部４１０に提供してよい。

アクション決定部４２０は、アクション候補生成部４００および行動価値算出部４１０に接続される。アクション決定部４２０は、アクション候補生成部４００が生成した１または複数のアクション候補ａ_０ｔ、ａ_１ｔ、…の中から、行動価値算出部４１０が算出した各アクション候補の行動価値Ｑ（ｓ_ｔ，ａ_０ｔ）、Ｑ（ｓ_ｔ，ａ_１ｔ）、…に基づいて、時刻ｔに対応する制御周期においてとるべきアクションａ_ｔを決定し、アクションａ_ｔに相当する制御データを制御データ選択部１２６に供給する。アクション決定部４２０は、原則として行動価値を最大化することができるアクションａ_ｔを選択する。アクション決定部４２０は、将来選択可能なアクションの種類を増やすために、次善のアクション候補、または予め定められた閾値以上の行動価値を有するアクション候補等の最適とは限らないアクション候補を予め定められた確率で選択してもよい。

算出部１７２は、算出部１２２と同様の機能および構成を有してよい。なお、算出部１２２および算出部１７２は、上記のような強化学習を用いたものとは異なる機械学習アルゴリズムによる制御モデルを用いてもよい。例えば、算出部１２２および算出部１７２は、特許文献１に開示されたカーネルダイナミックポリシープログラミング法により学習された制御モデルを用いてもよい。また、算出部１２２および算出部１７２は、例えばニューラルネットワーク、統計的学習、ランダムフォレスト、勾配ブースティング、ロジスティック回帰、またはサポートベクタマシン（ＳＶＭ）等を含む他の任意の機械学習アルゴリズムによって学習された制御モデルを用いてもよい。

図５は、本実施形態に係る制御モデルリストの一例を示す。本図の制御モデルリストは、制御装置１６０のモデル記憶部１６８に格納される。学習処理部１６６は、新たに制御モデルを生成したことに応じて、新たな制御モデルに対応するエントリを制御モデルリストに追加する。また、学習処理部１６６は、制御モデルを更新したことに応じて、制御モデルリスト中の、更新した制御モデルに対応するエントリを更新する。

制御モデルリストは、モデル記憶部１６８に格納された１または複数の制御モデルのそれぞれに関する情報を格納する。本図の例において、制御モデルリストは、各制御モデルに関して、制御モデル識別情報（制御モデルＩＤ）、制御モデルを使用するコントローラの識別情報（コントローラＩＤ）、制御モデルの制御対象の識別情報（制御対象ＩＤ）、および制御モデルの特性を含むエントリを格納する。

「制御モデルＩＤ」は、制御モデルに割り当てられた識別子等の、制御モデルを特定する識別情報である。学習処理部１６６は、生成する全ての制御モデルに対して異なる制御モデルＩＤを割り当ててよく、複数の制御システム１０において生成される全ての制御モデルに対して異なる制御モデルＩＤを割り当ててよい。

「コントローラＩＤ」は、制御モデルを使用するコントローラ１１０を特定する識別情報である。本図の例において、制御モデルＩＤが１および２の制御モデルは、いずれもコントローラＩＤがＣ１であるコントローラ１１０で使用されるものである。

「制御対象ＩＤ」は、制御モデルの制御対象を特定する識別情報である。制御モデルがある機器１０８を制御するものである場合、制御対象ＩＤは、その機器１０８を特定する識別情報となる。また、制御モデルがある機器１０８のある制御パラメータを制御するものである場合、制御対象ＩＤは、その制御パラメータを特定する識別情報となる。本図の例において、制御モデルＩＤが１および２の制御モデルは、いずれも制御対象ＩＤが１ａの機器１０８で使用されるものである。

「特性」は、制御モデルの特性情報である。本図の例においては、制御モデルの特性情報は、制御の「確からしさ」、「計算量」、および「学習日時」を含む。制御の「確からしさ」は、その制御モデルによって算出される制御データを用いた制御がどの程度適切であるかを示す指標である。制御の「確からしさ」は、一例として、その制御モデルによって決定されるアクションが最適なアクションである確率を学習時または事後的に算出したもの（予測精度等）であってよく、その制御モデルによって決定されるアクションによって得られる報酬の期待値、すなわち全ての状態ｓについて最大の行動価値を状態ｓの生起確率で重み付けして得られる値であってよい。

一般に、制御の確からしさは、制御モデルが単純であるほど低くなり、過学習とならない限り制御モデルが複雑であるほど高くなる。ここで制御モデルが複雑であるとは、より多くの状態データを入力とする場合、制御モデルの内部で用いる計算量が多い場合（例えばニューラルネットワークを用いる場合において、ニューロンの数または層数の少なくとも１つが多い場合）等が挙げられる。したがって、学習処理部１６６は、制御の確からしさを、制御モデルの複雑度に応じて決定してもよい。

本図の例においては、制御の「確からしさ」は、制御モデルによって決定されるアクションが最適なアクションである確率を示す。本図の例においては、制御モデルＩＤが１の制御モデルは確からしさが０．９、制御モデルＩＤが２の制御モデルは確からしさが０．８である。

「計算量」は、各制御周期においてその制御モデルを用いた制御データの算出処理が実行された場合にどれだけの処理リソースを使用するかを示す指標である。「計算量」は、一例として、制御周期毎の制御モデルの（平均の）演算量（例えば加減乗除等の演算回数）、制御周期毎にコントローラ１１０内のプロセッサが制御モデルを実行した場合に実行する（平均の）命令数、または制御周期毎のコントローラ１１０の占有時間等であってよい。また、「計算量」は、コントローラ１１０におけるメモリ使用量等のような、コントローラ１１０におけるプロセッサ以外のリソースの使用量を含んでもよい。

本図の例においては、「計算量」は、制御周期毎の制御モデルの演算量を示す。本図の例においては、制御モデルＩＤが１の制御モデルは計算量が１００、制御モデルＩＤが２の制御モデルは計算量が２０である。

「学習日時」は、制御モデルが学習された日時を示す。本図の例においては、制御モデルＩＤが１の制御モデルは２０２０年９月１８日に学習されており、制御モデルＩＤが２の制御モデルは２０２０年９月２０日に学習されている。本実施形態においては、制御装置１６０は、学習の開始時点において最新の状態データを使用して学習をするので、「学習日時」は、制御モデルの学習に用いた学習データが収集された日時を概ね示す。制御装置１６０が、過去の状態データを使用して学習する場合には、「学習日時」は、学習に使用した状態データが収集された日時（例えば学習に使用した状態データが収集された期間の末尾の日時）を示すもの、すなわち学習データの収集期間に応じた日時を示すものであってよい。

「特性」は、上記の他に、制御モデルに関する様々な特性を記録してよい。例えば、「特性」は、制御モデルが学習されたとき（または制御モデルの学習に用いた状態データが収集されたとき）の外部環境（外気温、湿度等）を記録してよい。

本図に示したように、学習処理部１６６は、例えば図２のＳ２３５において、各コントローラ１１０または各制御対象について、制御の確からしさ、計算量、または学習日時の少なくとも１つを含む特性が異なる複数の制御モデルを生成してよい。モデル送信部１７０は、例えば図２のＳ２４０において、このようにして生成された複数の制御モデルをコントローラ１１０に送信して、コントローラ１１０で選択可能に設定させてよい。

コントローラ１１０のモデル受信部１１８は、例えば図２のＳ２４５において、このような特性が異なる複数の制御モデルを受信してよい。モデル記憶部１２０は、モデル記憶部１６８と同様に、モデル受信部１１８が格納する各制御モデルについてのエントリを含む制御モデルリストを格納してよい。コントローラ１１０の算出部１２２は、これらの複数の制御モデルの中から、特性に基づいて設備１００の制御に用いる制御モデルを選択してよい。

例えば、算出部１２２は、同じ制御対象について計算量またはメモリ使用量等の使用リソース量が異なる２以上の制御モデルがモデル記憶部１２０に格納されている場合、コントローラ１１０の処理リソースに不足が生じないことを条件として、使用する制御モデルを選択してよい。換言すれば、算出部１２２は、制御モデルの使用リソース量が、コントローラ１１０においてその制御対象の制御に使用可能なリソース量を上回らないことを条件としてその制御モデルを選択する。

また、算出部１２２は、同じ制御対象について制御の確からしさが異なる２以上の制御モデルがモデル記憶部１２０に格納されている場合、制御の確からしさがより高い制御モデルを優先して使用してよい。なお、算出部１２２は、コントローラ１１０が制御の確からしさがより高い制御モデルを実行するのに十分な処理リソースを有していない等の場合には、制御の確からしさがより低い制御モデルを選択してよい。

また、算出部１２２は、同じ制御対象について学習日時が異なる２以上の制御モデルがモデル記憶部１２０に格納されている場合、学習日時がより新しい制御モデルを優先して使用してよい。これに代えて、算出部１２２は、例えば１日の中で現時刻に近い時刻の学習日時に対応付けられた制御モデルを優先して使用することによって毎日繰り返される機器１０８の特性変動に合わせて制御モデルを選択してよく、例えば１年の中で現在の日に近い日の学習日時に対応付けられた制御モデルを優先して使用することによって機器１０８の例年の特性変動または季節変動に合わせて制御モデルを選択してもよい。

また、制御装置１６０は、設備１００の監視員等から制御モデルの選択に関する指示を入力して、コントローラ１１０にその指示を送信してよい。コントローラ１１０内の算出部１２２は、その指示に応じていずれの制御モデルを使用するかを選択してよい。例えば、算出部１２２は、学習日時が指定期間内の制御モデルを選択することの指示を受信した場合には、その指定期間内の学習日時に対応付けられた制御モデルを選択してよい。これにより、算出部１２２は、マニュアルでの指定を受けて、例えば過去に設備１００の制御が適切に行われた制御モデル、現在の外部環境に近い状況で学習された制御モデル、またはその他の特定の制御モデルを選択することができる。

以上に示したように、算出部１２２は、複数の制御モデルをその特性に応じて選択することにより、制御対象の機器１０８等をより適切な制御モデルを用いて制御することができる。なお、制御装置１６０内の算出部１７２は、算出部１２２と同様にして、各コントローラ１１０の各制御対象について、複数の制御モデルの中から算出部１７２が使用する制御モデルを選択してよい。

図６は、本実施形態の変形例に係る制御システム１０の構成を設備１００と共に示す。本変形例に係る制御システム１０は、図１に示した制御システム１０の変形例である。本図において、図１と同様の機能および構成を有する部材については図１と同じ符号を付し、相違点を除いて説明を省略する。本変形例に係る制御システム１０は、コントローラ１１０内で使用する制御モデルが、他のコントローラ１１０に接続されたセンサ１０４からの状態データを使用して制御データを算出可能とする。これを実現するために、本変形例に係る制御システム１０は、図１に示した制御システム１０に対して、制御装置１６０に状態転送部６００を付加し、コントローラ１１０に状態転送受信部６１０を付加したものである。

状態転送部６００は、状態記憶部１６４に接続される。状態転送部６００は、状態記憶部１６４に格納された、あるコントローラ１１０に接続されたセンサ１０４からの状態データを、その状態データを入力とする、他のコントローラ１１０で実行される制御モデルへと転送する。ここで、状態転送部６００は、どの状態データをどのコントローラ１１０へと送信すべきかを示す転送先情報を、制御モデルを生成する学習処理部１６６から取得してよい。これに代えて、モデル記憶部１６８は、転送先情報を制御モデルリストに格納し、状態転送部６００は、転送先情報をモデル記憶部１６８から取得してもよい。

状態転送受信部６１０は、ネットワーク１４０を介して状態転送部６００に接続される。状態転送受信部６１０は、状態転送部６００によって転送された、他のコントローラ１１０によって受信された状態データを受信して、状態記憶部１１４に格納する。これにより、算出部１２２は、他のコントローラ１１０によって受信された状態データを入力する制御モデルを用いて制御データを算出することができる。

本発明の様々な実施形態は、フローチャートおよびブロック図を参照して記載されてよく、ここにおいてブロックは、（１）操作が実行されるプロセスの段階または（２）操作を実行する役割を持つ装置のセクションを表わしてよい。特定の段階およびセクションが、専用回路、コンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、および／またはコンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタルおよび／またはアナログハードウェア回路を含んでよく、集積回路（ＩＣ）および／またはディスクリート回路を含んでよい。プログラマブル回路は、論理ＡＮＤ、論理ＯＲ、論理ＸＯＲ、論理ＮＡＮＤ、論理ＮＯＲ、および他の論理操作、フリップフロップ、レジスタ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブルロジックアレイ（ＰＬＡ）等のようなメモリ要素等を含む、再構成可能なハードウェア回路を含んでよい。

コンピュータ可読媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読媒体は、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読媒体のより具体的な例としては、フロッピー（登録商標）ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣＤ-ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク、メモリスティック、集積回路カード等が含まれてよい。

コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ（登録商標）、ＪＡＶＡ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様のプログラミング言語のような従来の手続型プログラミング言語を含む、１または複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかを含んでよい。

コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のコンピュータ等のプログラム可能なデータ処理装置のプロセッサまたはプログラマブル回路に対し、ローカルにまたはローカルエリアネットワーク（ＬＡＮ）、インターネット等のようなワイドエリアネットワーク（ＷＡＮ）を介して提供され、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく、コンピュータ可読命令を実行してよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。

図７は、本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ２２００の例を示す。コンピュータ２２００にインストールされたプログラムは、コンピュータ２２００に、本発明の実施形態に係る装置に関連付けられる操作または当該装置の１または複数のセクションとして機能させることができ、または当該操作または当該１または複数のセクションを実行させることができ、および／またはコンピュータ２２００に、本発明の実施形態に係るプロセスまたは当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ２２００に、本明細書に記載のフローチャートおよびブロック図のブロックのうちのいくつかまたはすべてに関連付けられた特定の操作を実行させるべく、ＣＰＵ２２１２によって実行されてよい。

本実施形態によるコンピュータ２２００は、ＣＰＵ２２１２、ＲＡＭ２２１４、グラフィックコントローラ２２１６、およびディスプレイデバイス２２１８を含み、それらはホストコントローラ２２１０によって相互に接続されている。コンピュータ２２００はまた、通信インターフェイス２２２２、ハードディスクドライブ２２２４、ＤＶＤ－ＲＯＭドライブ２２２６、およびＩＣカードドライブのような入／出力ユニットを含み、それらは入／出力コントローラ２２２０を介してホストコントローラ２２１０に接続されている。コンピュータはまた、ＲＯＭ２２３０およびキーボード２２４２のようなレガシの入／出力ユニットを含み、それらは入／出力チップ２２４０を介して入／出力コントローラ２２２０に接続されている。

ＣＰＵ２２１２は、ＲＯＭ２２３０およびＲＡＭ２２１４内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ２２１６は、ＲＡＭ２２１４内に提供されるフレームバッファ等またはそれ自体の中にＣＰＵ２２１２によって生成されたイメージデータを取得し、イメージデータがディスプレイデバイス２２１８上に表示されるようにする。

通信インターフェイス２２２２は、ネットワークを介して他の電子デバイスと通信する。ハードディスクドライブ２２２４は、コンピュータ２２００内のＣＰＵ２２１２によって使用されるプログラムおよびデータを格納する。ＤＶＤ－ＲＯＭドライブ２２２６は、プログラムまたはデータをＤＶＤ－ＲＯＭ２２０１から読み取り、ハードディスクドライブ２２２４にＲＡＭ２２１４を介してプログラムまたはデータを提供する。ＩＣカードドライブは、プログラムおよびデータをＩＣカードから読み取り、および／またはプログラムおよびデータをＩＣカードに書き込む。

ＲＯＭ２２３０はその中に、アクティブ化時にコンピュータ２２００によって実行されるブートプログラム等、および／またはコンピュータ２２００のハードウェアに依存するプログラムを格納する。入／出力チップ２２４０はまた、様々な入／出力ユニットをパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入／出力コントローラ２２２０に接続してよい。

プログラムが、ＤＶＤ－ＲＯＭ２２０１またはＩＣカードのようなコンピュータ可読媒体によって提供される。プログラムは、コンピュータ可読媒体から読み取られ、コンピュータ可読媒体の例でもあるハードディスクドライブ２２２４、ＲＡＭ２２１４、またはＲＯＭ２２３０にインストールされ、ＣＰＵ２２１２によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ２２００に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置または方法が、コンピュータ２２００の使用に従い情報の操作または処理を実現することによって構成されてよい。

例えば、通信がコンピュータ２２００および外部デバイス間で実行される場合、ＣＰＵ２２１２は、ＲＡＭ２２１４にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インターフェイス２２２２に対し、通信処理を命令してよい。通信インターフェイス２２２２は、ＣＰＵ２２１２の制御下、ＲＡＭ２２１４、ハードディスクドライブ２２２４、ＤＶＤ－ＲＯＭ２２０１、またはＩＣカードのような記録媒体内に提供される送信バッファ処理領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、またはネットワークから受信された受信データを記録媒体上に提供される受信バッファ処理領域等に書き込む。

また、ＣＰＵ２２１２は、ハードディスクドライブ２２２４、ＤＶＤ－ＲＯＭドライブ２２２６（ＤＶＤ－ＲＯＭ２２０１）、ＩＣカード等のような外部記録媒体に格納されたファイルまたはデータベースの全部または必要な部分がＲＡＭ２２１４に読み取られるようにし、ＲＡＭ２２１４上のデータに対し様々なタイプの処理を実行してよい。ＣＰＵ２２１２は次に、処理されたデータを外部記録媒体にライトバックする。

様々なタイプのプログラム、データ、テーブル、およびデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。ＣＰＵ２２１２は、ＲＡＭ２２１４から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプの操作、情報処理、条件判断、条件分岐、無条件分岐、情報の検索／置換等を含む、様々なタイプの処理を実行してよく、結果をＲＡＭ２２１４に対しライトバックする。また、ＣＰＵ２２１２は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第２の属性の属性値に関連付けられた第１の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、ＣＰＵ２２１２は、第１の属性の属性値が指定される、条件に一致するエントリを当該複数のエントリの中から検索し、当該エントリ内に格納された第２の属性の属性値を読み取り、それにより予め定められた条件を満たす第１の属性に関連付けられた第２の属性の属性値を取得してよい。

上で説明したプログラムまたはソフトウェアモジュールは、コンピュータ２２００上またはコンピュータ２２００近傍のコンピュータ可読媒体に格納されてよい。また、専用通信ネットワークまたはインターネットに接続されたサーバーシステム内に提供されるハードディスクまたはＲＡＭのような記録媒体が、コンピュータ可読媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ２２００に提供する。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

１０制御システム、１００設備、１０４センサ、１０８機器、１１０コントローラ、１１２状態受信部、１１４状態記憶部、１１６状態送信部、１１８モデル受信部、１２０モデル記憶部、１２２算出部、１２４制御データ受信部、１２６制御データ選択部、１２８制御部、１４０ネットワーク、１６０制御装置、１６２状態取得部、１６４状態記憶部、１６６学習処理部、１６８モデル記憶部、１７０モデル送信部、１７２算出部、１７４制御データ送信部、４００アクション候補生成部、４１０行動価値算出部、４２０アクション決定部、６００状態転送部、６１０状態転送受信部、２２００コンピュータ、２２０１ＤＶＤ－ＲＯＭ、２２１０ホストコントローラ、２２１２ＣＰＵ、２２１４ＲＡＭ、２２１６グラフィックコントローラ、２２１８ディスプレイデバイス、２２２０入／出力コントローラ、２２２２通信インターフェイス、２２２４ハードディスクドライブ、２２２６ＤＶＤ－ＲＯＭドライブ、２２３０ＲＯＭ、２２４０入／出力チップ、２２４２キーボード

Claims

設備の状態を計測する少なくとも１つのセンサによって検出された状態データを取得する状態取得部と、
取得された前記状態データに応じて前記設備を制御するための制御データを算出する制御モデルを学習により生成する学習処理部と、
生成された前記制御モデルを前記設備を制御するコントローラに送信して前記コントローラに設定させるモデル送信部と、
生成された前記制御モデルを用いて、処理対象とする前記状態データに応じて前記制御データを算出する算出部と、
算出された前記制御データを前記コントローラへと送信する制御データ送信部と
を備える制御装置。
前記学習処理部は、外部環境の変化が検出されたことに応じて、新たな前記制御モデルを学習により生成する請求項１に記載の制御装置。
前記学習処理部は、制御の確からしさ、計算量、または学習日時の少なくとも１つを含む特性が異なる複数の前記制御モデルを生成し、
前記モデル送信部は、生成された前記複数の制御モデルを前記コントローラに送信して、前記コントローラで選択可能に設定させる
請求項１または２に記載の制御装置。
前記学習処理部は、第１および第２の前記制御モデルを生成し、
前記モデル送信部は、前記第２の制御モデルを前記コントローラに送信して前記コントローラに設定させ、
前記算出部は、前記第１の制御モデルを用いて第１の前記制御データを算出し、
前記制御データ送信部は、前記第１の制御データを前記コントローラへと送信し、
前記第１の制御モデルは、前記コントローラに接続されたセンサ以外のセンサからの状態データを用いて前記第１の制御データを算出し、
前記第２の制御モデルは、前記コントローラに接続されたセンサ以外のセンサからの状態データを用いずに第２の前記制御データを算出する
請求項１から３のいずれか一項に記載の制御装置。
前記少なくとも１つのセンサのうち一の前記コントローラに接続されたセンサからの状態データを、当該状態データを入力とする前記制御モデルを実行する、他の前記コントローラへと転送する状態転送部を更に備える請求項１から４のいずれか一項に記載の制御装置。
設備の状態を計測する少なくとも１つのセンサによって検出された状態データを受信する状態受信部と、
学習対象とする前記状態データを、前記状態データに応じて前記設備を制御するための制御データを算出する制御モデルを学習により生成する制御装置へと送信する状態送信部と、
前記制御装置から学習済みの前記制御モデルを受信するモデル受信部と、
受信された前記制御モデルを用いて、処理対象とする前記状態データに応じた前記制御データを算出する算出部と、
前記制御装置が前記制御モデルを用いて算出した第１の前記制御データを前記制御装置から受信する制御データ受信部と、
前記第１の制御データと、前記算出部が算出した第２の前記制御データとの中から、前記設備の制御に用いる前記制御データを選択する制御データ選択部と、
選択された前記制御データを用いて前記設備を制御する制御部と
を備えるコントローラ。
前記制御データ選択部は、前記制御装置から前記第１の制御データを受信できなかったことに応じて前記第２の制御データを選択する請求項６に記載のコントローラ。
前記制御データ選択部は、前記第１の制御データおよび前記第２の制御データのうち、より新しい前記制御モデルを用いて算出された制御データを選択する請求項６または７に記載のコントローラ。
前記モデル受信部は、制御の確からしさ、計算量、または学習日時の少なくとも１つを含む特性が異なる複数の前記制御モデルを受信し、
前記算出部は、前記複数の制御モデルの中から、前記特性に基づいて前記設備の制御に用いる制御モデルを選択する
請求項６から８のいずれか一項に記載のコントローラ。
前記モデル受信部は、前記制御装置から学習済みの第２の前記制御モデルを受信し、
前記算出部は、受信された前記第２の制御モデルを用いて前記第２の制御データを算出し、
前記制御データ受信部は、前記制御装置が第１の前記制御モデルを用いて算出した前記第１の制御データを前記制御装置から受信し、
前記第１の制御モデルは、前記コントローラに接続されたセンサ以外のセンサからの状態データを用いて前記第１の制御データを算出し、
前記第２の制御モデルは、前記コントローラに接続されたセンサ以外のセンサからの状態データを用いずに前記第２の制御データを算出する
請求項６から９のいずれか一項に記載のコントローラ。
他のコントローラによって受信されて前記制御装置によって転送された状態データを受信する状態転送受信部を更に備え、
前記算出部は、受信された前記制御モデルを用いて、前記転送された状態データを含む処理対象とする前記状態データに応じた前記制御データを算出する
請求項６から１０のいずれか一項に記載のコントローラ。
設備の状態を計測する少なくとも１つのセンサによって検出された状態データに応じて前記設備を制御するための制御データを算出する制御モデルを学習により生成する学習処理部と、
生成された前記制御モデルを前記設備を制御するコントローラに送信するモデル送信部と、
生成された前記制御モデルを用いて、処理対象とする前記状態データに応じて第１の前記制御データを算出する算出部と、
算出された前記第１の制御データを前記コントローラへと送信する制御データ送信部と
を有する制御装置と、
前記制御装置から学習済みの前記制御モデルを受信するモデル受信部と、
前記少なくとも１つのセンサから前記状態データを受信する状態受信部と、
前記モデル受信部が受信した前記制御モデルを用いて、処理対象とする前記状態データに応じて前記設備を制御するための第２の前記制御データを算出する算出部と、
前記第１の制御データを前記制御装置から受信する制御データ受信部と、
前記第１の制御データと、前記第２の制御データとの中から、前記設備の制御に用いる前記制御データを選択する制御データ選択部と、
選択された前記制御データを用いて前記設備を制御する制御部と
を有するコントローラと
を備える制御システム。
前記コントローラは、学習対象とする前記状態データを、前記制御装置へと送信する状態送信部を更に有し、
前記制御装置は、
前記状態送信部により送信された、学習対象とする前記状態データを取得する状態取得部を有し、
前記学習処理部は、取得された前記状態データを用いて前記制御モデルを生成する
請求項１２に記載の制御システム。
制御装置が、設備の状態を計測する少なくとも１つのセンサによって検出された状態データを取得することと、
前記制御装置が、取得された前記状態データに応じて前記設備を制御するための制御データを算出する制御モデルを学習により生成することと、
前記制御装置が、生成された前記制御モデルを前記設備を制御するコントローラに送信して前記コントローラに設定させることと
前記制御装置が、生成された前記制御モデルを用いて、処理対象とする前記状態データに応じて前記制御データを算出することと、
前記制御装置が、算出された前記制御データを前記コントローラへと送信することと
を備える制御方法。
コンピュータによって実行され、前記コンピュータを、
設備の状態を計測する少なくとも１つのセンサによって検出された状態データを取得する状態取得部と、
取得された前記状態データに応じて前記設備を制御するための制御データを算出する制御モデルを学習により生成する学習処理部と、
生成された前記制御モデルを前記設備を制御するコントローラに送信して前記コントローラに設定させるモデル送信部と、
生成された前記制御モデルを用いて、処理対象とする前記状態データに応じて前記制御データを算出する算出部と、
算出された前記制御データを前記コントローラへと送信する制御データ送信部と
して機能させる制御プログラム。
コントローラが、設備の状態を計測する少なくとも１つのセンサから状態データを受信することと、
前記コントローラが、学習対象とする前記状態データを、前記状態データに応じて前記設備を制御するための制御データを算出する制御モデルを学習により生成する制御装置へと送信することと、
前記コントローラが、前記制御装置から学習済みの前記制御モデルを受信することと、
前記コントローラが、受信された前記制御モデルを用いて、処理対象とする前記状態データに応じた前記制御データを算出することと、
前記コントローラが、前記制御装置が前記制御モデルを用いて算出した第１の前記制御データを前記制御装置から受信することと、
前記コントローラが、前記第１の制御データと、前記コントローラが算出した第２の前記制御データとの中から、前記設備の制御に用いる前記制御データを選択することと、
前記コントローラが、選択した前記制御データを用いて前記設備を制御することと
を備える制御方法。
コンピュータによって実行され、前記コンピュータを、
設備の状態を計測する少なくとも１つのセンサから状態データを受信する状態受信部と、
学習対象とする前記状態データを、前記状態データに応じて前記設備を制御するための制御データを算出する制御モデルを学習により生成する制御装置へと送信する状態送信部と、
前記制御装置から学習済みの前記制御モデルを受信するモデル受信部と、
受信された前記制御モデルを用いて、処理対象とする前記状態データに応じた前記制御データを算出する算出部と、
前記制御装置が前記制御モデルを用いて算出した第１の前記制御データを前記制御装置から受信する制御データ受信部と、
前記第１の制御データと、前記算出部が算出した第２の前記制御データとの中から、前記設備の制御に用いる前記制御データを選択する制御データ選択部と、
選択された前記制御データを用いて前記設備を制御する制御部と
して機能させる制御プログラム。