JP7521971B2

JP7521971B2 - 制御システム、制御方法、制御装置及びプログラム

Info

Publication number: JP7521971B2
Application number: JP2020140257A
Authority: JP
Inventors: 大地木村; 浩二伊藤; 健一郎島田; 知範泉谷
Original assignee: NTT Docomo Business Inc; NTT Communications Corp
Current assignee: NTT Docomo Business Inc
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2024-07-24
Anticipated expiration: 2040-08-21
Also published as: JP2022035737A

Description

本発明は、制御システム、制御方法、制御装置及びプログラムに関する。

化学プラントや製鉄プラント、エネルギープラント等の各種プラントでは、ＰＩＤ（Proportional-Integral-Differential）制御を用いた自動制御が広く行われている。ＰＩＤ制御は単純ながらも優れた自動制御手法であるが、プラントの状態によっては人間のオペレータが手動で制御に介入しなければならない場合が多々あることが知られている。例えば、プラントの状態変化や外乱の影響等により自動制御では制御対象を目標に近付けることが困難になった場合、オペレータはセンサ値等を監視しつつ必要に応じて手動で制御に介入する必要がある。

オペレータの介入の増加は作業負担の増加や人件費の増加等に繋がるため、オペレータの介入を低減することが望ましい。このため、近年では、オペレータの介入を低減するために強化学習を利用した自動制御手法が注目されている。強化学習は複雑な系の自動制御に有効な手法であるが、学習初期にはランダムな制御をプラントに対して行うため制御性が悪化し、運転中のプラントに適用することは難しい。これに対して、自動制御を行うのではなく、強化学習でプラントを自動制御した場合の最適な制御パラメータ値を学習しておき、介入が必要となったときに最適な制御パラメータ値をオペレータに提案することも考えられる。

特開２０１９－６７２３８号公報

しかしながら、強化学習はプラントの最適な自動制御をモデル化するため、オペレータに提案された制御パラメータ値の説明可能性（つまり、なぜその制御パラメータ値が提案されたのかといった判断根拠の説明可能性）が低かった。このため、オペレータはその制御パラメータ値が本当に最適な値なのかを判断することは困難であった。

本発明の一実施形態は、上記の点に鑑みてなされたもので、自動制御に対する介入時に説明可能性の高い制御パラメータ値を得ることを目的とする。

上記目的を達成するため、一実施形態に係る制御システムは、制御対象に対してオペレータが介入を行った場合における制御パラメータ値の履歴に基づいて、前記制御対象の状態と前記制御パラメータ値との関係を表すモデルを模倣学習により作成する作成部と、前記制御対象の状態に応じて、前記モデルにより制御パラメータ値を算出する算出部と、前記算出部で算出された制御パラメータ値を前記オペレータに提案する提案部と、を有し、前記履歴には、前記介入が行われた日時と、前記介入を行ったオペレータを識別する識別情報と、前記介入が行われたときの前記制御対象の状態と、前記介入が行われたときの前記制御パラメータ値とが少なくとも含まれ、前記算出部は、前記制御対象の状態と、前記モデルにより算出した制御パラメータ値とを用いて、前記モデルの作成に用いられた前記履歴を検索した結果と、前記履歴を検索した結果に含まれる前記識別情報を数値化した情報と、前記制御対象の状態と、前記モデルにより算出した制御パラメータ値と、直近のＮ－１（ただし、Ｎは予め決められた自然数）個の日時が含まれるＮ－１個の前記履歴とを用いて、前記モデルの作成に用いられた前記履歴のうちのＮ個の前記履歴との所定の類似度を算出し、最も高い類似度が算出されたＮ個の前記履歴と、前記モデルの作成に用いられた前記履歴のうちのどの前記履歴が前記制御パラメータ値を算出したときの根拠となっているかを要因可視化技術により求めた情報と、のすべてを、前記モデルにより算出した制御パラメータ値の根拠を表す根拠情報として作成し、前記提案部は、前記制御パラメータ値に加えて、前記根拠情報も前記オペレータに提案する。

自動制御に対する介入時に説明可能性の高い制御パラメータ値を得ることができる。

本実施形態に係る制御システムの全体構成の一例を示す図である。本実施形態に係る制御装置のハードウェア構成の一例を示す図である。本実施形態に係る制御システムの機能構成の一例を示す図である。本実施形態に係るモデル作成処理の流れの一例を示すフローチャートである。本実施形態に係る制御処理の流れの一例を示すフローチャートである。

以下、本発明の一実施形態について説明する。本実施形態では、制御対象（例えば、各種プラントや各種設備、各種機器等）の自動制御に対する介入時に説明可能性の高い制御パラメータ値を得ることができる制御システム１について説明する。本実施形態に係る制御システム１は、機械学習手法の１つである模倣学習（Imitation Learning）によりオペレータが過去に介入した時の制御対象の状態と制御パラメータ値の関係をモデル化した上で、このモデル（以下、「介入モデル」ともいう。）を用いて自動制御に対する介入時の制御パラメータ値を得る。これにより、過去に実際にオペレータが介入した時と同様の制御パラメータ値が得られるため、説明可能性の高い制御パラメータ値が得ることが可能となる。したがって、オペレータに提案される制御パラメータの信頼性が確保され、例えば、プラントの安定的な操業にも資することが可能となる。

なお、制御パラメータ値とは制御対象を制御するためのパラメータの値のことであり、例えば、制御対象に対する操作量（ＭＶ：Manipulative Variable）や操作量に影響を与える目標値（ＳＶ：Set Variable）等のことである。

＜全体構成＞
まず、本実施形態に係る制御システム１の全体構成について、図１を参照しながら説明する。図１は、本実施形態に係る制御システム１の全体構成の一例を示す図である。

図１に示すように、本実施形態に係る制御システム１は、制御装置１０と、サーバ２０と、オペレータ端末３０と、制御対象４０とを有する。制御装置１０とサーバ２０は、例えば、インターネット等の通信ネットワークを介して通信可能に接続される。また、制御装置１０とオペレータ端末３０と制御対象４０は、例えば、制御ネットワーク等の通信ネットワークを介して通信可能に接続される。

制御装置１０は、制御対象４０を制御するコンピュータ又はコンピュータシステムである。このとき、制御装置１０は、フィードバック制御の１つであるＰＩＤ制御等の自動制御手法により制御対象４０を制御する。制御装置１０としては、例えば、ＰＬＣ（Programmable Logic Controller）やＤＣＳ（Distributed Control System）等を用いることが可能である。

また、制御装置１０は、オペレータの介入が必要になった場合（例えば、制御対象４０の状態（つまり、観測値（ＰＶ：Process Variable））が目標から外れそうになった場合等）に、介入モデルにより制御パラメータ値を算出し、オペレータ端末３０に送信する。これにより、当該制御パラメータ値が、オペレータ端末３０を利用するオペレータに提案される。

サーバ２０は、オペレータが過去に介入した時の履歴（以下、「介入履歴」ともいう。）を用いて模倣学習により介入モデルを作成し、制御装置１０に送信するコンピュータ又はコンピュータシステムである。

オペレータ端末３０は、制御対象４０に対する制御を監視したり介入を行ったりするオペレータが利用する各種端末である。オペレータ端末３０としては、例えば、ＰＣ（パーソナルコンピュータ）、タブレット端末、スマートフォン等を用いることが可能である。

制御対象４０は、制御装置１０によって制御される各種プラントや各種設備、各種機器等である。制御対象４０には各種センサ（例えば、温度センサ、流量計、圧力計、濃度計等）が備え付けられており、当該制御対象４０の状態を示す観測値が制御周期毎に制御装置１０に送信（フィードバック）される。なお、観測値とは制御対象４０の状態を表す各種センサ値（例えば、温度、流量、圧力、特定の成分の濃度等）であるが、これら以外にも、観測値には制御対象４０の状態を表す任意の情報（例えば、制御対象４０を撮影した撮影画像、制御対象４０から出力される音を録音した音データ等）が含まれていてもよい。

なお、図１に示す制御システム１の全体構成は一例であって、他の構成であってもよい。例えば、制御システム１にはサーバ２０が含まれず、制御装置１０で介入モデルを作成するようにしてもよい。

＜ハードウェア構成＞
次に、本実施形態に係る制御装置１０のハードウェア構成について、図２を参照しながら説明する。図２は、本実施形態に係る制御装置１０のハードウェア構成の一例を示す図である。

図２に示すように、本実施形態に係る制御装置１０は一般的なコンピュータ又はコンピュータシステムのハードウェア構成で実現され、入力装置１１と、表示装置１２と、外部Ｉ／Ｆ１３と、通信Ｉ／Ｆ１４と、プロセッサ１５と、メモリ装置１６とを有する。これら各ハードウェアは、それぞれがバス１７を介して通信可能に接続されている。

入力装置１１は、例えば、キーボードやマウス、タッチパネル等である。表示装置１２は、例えば、ディスプレイ等である。なお、制御装置１０は、入力装置１１及び表示装置１２のうちの少なくとも一方を有していなくてもよい。

外部Ｉ／Ｆ１３は、外部装置とのインタフェースである。外部装置には、記録媒体１３ａ等がある。制御装置１０は、外部Ｉ／Ｆ１３を介して、記録媒体１３ａの読み取りや書き込み等を行うことができる。なお、記録媒体１３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

通信Ｉ／Ｆ１４は、制御装置１０を通信ネットワークに接続するためのインタフェースである。プロセッサ１５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。メモリ装置１６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。

本実施形態に係る制御装置１０は、図２に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。ただし、図２に示すハードウェア構成は一例であって、制御装置１０は、他のハードウェア構成を有していてもよい。例えば、制御装置１０は、複数のプロセッサ１５を有していてもよいし、複数のメモリ装置１６を有していてもよい。

なお、サーバ２０及びオペレータ端末３０も同様に一般的なコンピュータ又はコンピュータシステムのハードウェア構成で実現され、入力装置と、表示装置と、外部Ｉ／Ｆと、通信Ｉ／Ｆと、プロセッサと、メモリ装置とを有する。ただし、サーバ２０は、入力装置及び表示装置のうちの少なくとも一方を有していなくてもよい。また、サーバ２０及びオペレータ端末３０は、複数のプロセッサを有していてもよいし、複数のメモリ装置を有していてもよい。

＜機能構成＞
次に、本実施形態に係る制御システム１の機能構成について、図３を参照しながら説明する。図３は、本実施形態に係る制御システム１の機能構成の一例を示す図である。

≪制御装置１０≫
図３に示すように、本実施形態に係る制御装置１０は、制御部１０１と、介入判定部１０２と、算出部１０３と、提案部１０４と、再学習部１０５とを有する。これら各部は、制御装置１０にインストールされた１以上のプログラムがプロセッサ１５に実行させる処理により実現される。

また、本実施形態に係る制御装置１０は、記憶部１０６を有する。記憶部１０６は、例えば、メモリ装置１６により実現される。なお、記憶部１０６は、制御装置１０と通信ネットワークを介して接続される記憶装置（例えば、データベースサーバ等）により実現されていてもよい。

制御部１０１は、ＰＩＤ制御等の自動制御手法により制御対象４０を制御したり、介入モデルにより算出された制御パラメータ値により制御対象４０を制御したりする。すなわち、制御部１０１は、観測値と目標値を用いて自動制御手法により算出した操作量を制御対象４０に送信したり、介入モデルにより算出された制御パラメータ値に基づく操作量を制御対象４０に送信したりすることで当該制御対象４０を制御する。ここで、制御パラメータ値に基づく操作量とは、例えば、制御パラメータ値が操作量である場合には当該操作量そのもののことであり、制御パラメータ値が目標値である場合には観測値と当該目標値とを用いて自動制御手法により算出した操作量のことである。

介入判定部１０２は、自動制御に対して介入が必要か否かを判定する。自動制御に対して介入が必要な場合とは、例えば、制御対象４０の状態を示す観測値と目標値の差が所定の閾値を超えた場合や当該観測値が所定の閾値を超えた（又は下回った）場合等が挙げられる。

算出部１０３は、介入判定部１０２により介入が必要と判定された場合、制御対象４０の現在の状態を示す観測値を用いて、介入モデルにより制御パラメータ値を算出する。

提案部１０４は、算出部１０３により算出された制御パラメータ値をオペレータ端末３０に送信し、この制御パラメータ値をオペレータに提案する。

再学習部１０５は、提案部１０４がオペレータに提案した制御パラメータ値が採用されたか否か（つまり、当該制御パラメータ値で介入が行われたか否か）に応じて、制御対象４０の現在の状態を示す観測値と当該制御パラメータ値とを用いて介入モデルの再学習を行う。

記憶部１０６は、サーバ２０で作成された介入モデルを記憶する。また、記憶部１０６には、オペレータが過去に介入した時の介入履歴も記憶される。なお、記憶部１０６には、自動制御に対する介入が行われる毎に、この介入に関する介入履歴が記憶される。

ここで、各介入履歴には、例えば、介入が行われた日時と、この介入時の制御対象４０の状態を示す観測値と、この介入時の制御パラメータ値とが含まれる。なお、これら以外にも、各介入履歴には、例えば、当該介入を行ったオペレータのＩＤ（以下、「オペレータＩＤ」ともいう。）が含まれていてもよいし、当該介入の結果を示す情報（例えば、次の制御周期（又はそれ以降の制御周期）における観測値とその目標値との差等）が含まれていてもよい。

≪サーバ２０≫
図３に示すように、本実施形態に係るサーバ２０は、モデル作成部２０１を有する。モデル作成部２０１は、例えば、サーバ２０にインストールされた１以上のプログラムがプロセッサに実行させる処理により実現される。

また、本実施形態に係るサーバ２０は、記憶部２０２を有する。記憶部２０２は、例えば、メモリ装置により実現される。なお、記憶部２０２は、サーバ２０と通信ネットワークを介して接続される記憶装置（例えば、データベースサーバ等）により実現されていてもよい。

モデル作成部２０１は、記憶部２０２に記憶されている複数の介入履歴を用いて模倣学習により介入モデルを作成（学習）する。すなわち、モデル作成部２０１は、複数の介入履歴を用いて、制御対象４０の状態を示す観測値と当該状態のときに行われた介入の制御パラメータ値との関係を模倣学習によりモデル化し、観測値を入力、制御パラメータ値を出力とする介入モデルを作成する。そして、モデル作成部２０１は、当該介入モデルを制御装置１０に送信する。なお、模倣学習とは機械学習手法の１つ（特に、強化学習に類似する枠組みの機械学習手法の１つ）であり、行動履歴（本実施形態では介入履歴）を用いて環境（本実施形態では観測値）に対する最適な行動（本実施形態では制御パラメータ値）を学習する手法のことである。

記憶部２０２は、制御装置１０から送信された複数の介入履歴を記憶する。これらの介入履歴は、介入モデルが作成される際に、例えば、制御装置１０から送信される。

なお、図３に示す制御システム１の機能構成は一例であって、他の構成であってもよい。例えば、制御装置１０で介入モデルが作成される場合には、制御装置１０がモデル作成部２０１を有していてもよい。

＜モデル作成処理＞
次に、本実施形態に係るモデル作成処理の流れについて、図４を参照しながら説明する。図４は、本実施形態に係るモデル作成処理の流れの一例を示すフローチャートである。なお、図４に示すモデル作成処理は、後述する制御処理よりも前に実行される。以降では、サーバ２０の記憶部２０２には、制御装置１０から送信された複数の介入履歴が記憶されているものとする。

モデル作成部２０１は、記憶部２０２に記憶されている複数の介入履歴を用いて模倣学習により介入モデルを作成する（ステップＳ１０１）。このとき、モデル作成部２０１は、記憶部２０２に記憶されている全ての介入履歴を用いて介入モデルを作成してもよいし、記憶部２０２に記憶されている複数の介入履歴の中から選択した一部の介入履歴を用いて介入モデルを作成してもよい。ここで、介入モデルの作成に用いられる介入履歴を選択する際には任意の方法で選択すればよいが、例えば、以下の選択方法１～選択方法３のいずれかの方法により選択することが考えられる。

選択方法１：記憶部２０２に記憶されている複数の介入履歴の中からオペレータ（又は介入モデル作成の担当者）の判断により介入モデルの作成に用いる介入履歴を選択する。これは、過去の介入履歴の中から人間が「良い介入が行われた時の介入履歴」と「悪い介入が行われた時の介入履歴」を決定及び選択することを意味する。

選択方法２：記憶部２０２に記憶されている複数の介入履歴を所定の期間毎に分割した上で、各期間で所定の統計値（例えば、自己相関関数値又は相互相関関数値）を算出し、これらの統計値により介入モデルの作成に用いる介入履歴を選択する。具体的には、例えば、統計値が自己相関関数値又は相互相関関数値である場合、自己相関関数値又は相互相関関数値が所定の閾値以上（又は未満）の期間に含まれる介入履歴を選択すればよい。これにより、相関（自己相関又は相互相関）がある（又はない）期間に含まれる介入履歴を選択することができる。

選択方法３：記憶部２０２に記憶されている複数の介入履歴のうち、或る特定のオペレータＩＤが含まれる介入履歴を選択したり、或る特定のオペレータＩＤが含まれる介入履歴以外の介入履歴を選択したりする。具体的には、例えば、熟練者のオペレータのオペレータＩＤが含まれる介入履歴を選択したり、経験の浅いオペレータのオペレータＩＤが含まれる介入履歴以外の介入履歴を選択したりすればよい。これにより、介入時の制御パラメータ値の決定が上手いオペレータの介入履歴を選択することができたり、逆に下手なオペレータの介入履歴を除外したりすることができる。

そして、モデル作成部２０１は、上記のステップＳ１０１で作成された介入モデルを制御装置１０に送信する（ステップＳ１０２）。これにより、制御装置１０の記憶部１０６に当該介入モデルが記憶される。

以上のように、本実施形態に係る制御システム１は、オペレータが過去に行った実際の介入の履歴を用いて、当該介入時の制御対象４０の状態を示す観測値と当該介入時の制御パラメータ値との関係を模倣学習によりモデル化する。これにより、介入時のオペレータと同等の制御則をモデル化することが可能となり、後述するように、介入の必要が発生した際のオペレータの負担を軽減させることができると共に、説明可能性の高い制御パラメータ値をオペレータに提案することができるようになる。

＜制御処理＞
次に、本実施形態に係る制御処理の流れについて、図５を参照しながら説明する。図５は、本実施形態に係る制御処理の流れの一例を示すフローチャートである。この図５に示す制御処理は制御周期毎に繰り返し実行される。以降では、或る１つの制御周期における制御処理について説明する。また、以降では、制御装置１０の記憶部１０６には、サーバ２０で作成された介入モデルが記憶されているものとする。

制御部１０１は、制御対象４０の現在の状態を示す観測値を受信する（ステップＳ２０１）。

介入判定部１０２は、上記のステップＳ２０１で受信した観測値から介入が必要か否かを判定する（ステップＳ２０２）。なお、上述したように、介入が必要な場合とは、例えば、当該観測値と目標値の差が所定の閾値を超えた場合や当該観測値が所定の閾値を超えた（又は下回った）場合等が挙げられる。

上記のステップＳ２０２で介入が必要ないと判定された場合、制御部１０１は、当該観測値と目標値を用いて自動制御手法により算出した操作量を制御対象４０に送信する（ステップＳ２０３）。これにより、当該操作量に従って制御対象４０が制御される。

一方で、上記のステップＳ２０２で介入が必要であると判定された場合、算出部１０３は、記憶部１０６に記憶されている介入モデルにより制御パラメータ値を算出する（ステップＳ２０４）。すなわち、算出部１０３は、上記のステップＳ２０１で受信した観測値を介入モデルに入力することで、その出力として制御パラメータ値を算出する。

ここで、算出部１０３は、上記の制御パラメータ値に加えて、その制御パラメータ値の根拠を表す根拠情報を作成してもよい。例えば、算出部１０３は、以下の根拠情報１～根拠情報４のうちの１つ以上の根拠情報を作成すればよい。

根拠情報１：制御対象４０の現在の状態を示す観測値と当該制御パラメータ値とを用いて、介入モデルの作成及び再学習に用いられた複数の介入履歴を検索し、その検索結果を根拠情報として作成する。これにより、例えば、検索結果に含まれるオペレータＩＤ（つまり、過去に制御対象４０が同様の状態のときに同様の制御パラメータ値で介入を行ったオペレータＩＤを）等を、オペレータ端末３０のオペレータに提示することが可能となる。また、このとき、例えば、介入の結果を示す情報が介入履歴に含まれる場合には、この介入の結果を示す情報も当該オペレータに提示することが可能となる。なお、介入モデルの再学習については後述する。

根拠情報２：上記の根拠情報１で得られたオペレータＩＤ（及び介入の結果を示す情報）を数値化した情報を根拠情報としてもよい。このとき、例えば、オペレータの熟練度や経験に応じて、熟練度が高かったり経験が豊富なほど根拠情報の値を高くし、熟練度が低かったり経験が浅いほど根拠情報の値を低くすればよい。また、介入の結果を示す情報に応じて、制御対象４０の状態が目標に近づくほど根拠情報の値を高くし、そうでないほど根拠情報の値を低くすればよい。

根拠情報３：制御対象４０の現在の状態を示す観測値及び当該制御パラメータ値と記憶部１０６に記憶されている複数の介入履歴のうちの直近のＮ－１（ただし、Ｎは予め決められた自然数）個の介入履歴とを用いて、介入モデルの作成及び再学習に用いられた複数の介入履歴のうちのＮ個の介入履歴との相互相関関数値を類似度として算出した上で、最も高い値の類似度が得られたＮ個の介入履歴と当該類似度とを根拠情報として作成する。これにより、制御対象４０の現在の状態と類似する過去の介入履歴と、それがどの程度類似するのかとをオペレータに提示することが可能となる。なお、上記の相互相関関数の代わりに、動的時間伸縮法（ＤＴＷ：Dynamic Time Warping）により類似度が算出されてもよい。

根拠情報４：既知の要因可視化技術を用いて、介入モデルの作成及び再学習に用いられた複数の介入履歴のうちどの介入履歴が判断根拠となっているか示す情報を根拠情報として作成する。なお、このような要因可視化技術は機械学習モデルの推論結果に対する判断根拠（要因）を可視化する技術として一般に知られている。

ステップＳ２０４に続いて、提案部１０４は、上記のステップＳ２０４で算出された制御パラメータ値（及びその根拠情報）をオペレータ端末３０に送信する（ステップＳ２０５）。これにより、当該オペレータ端末３０のオペレータに対して当該制御パラメータ値が提案される。当該制御パラメータ値を受信したオペレータ端末３０は、例えば、この制御パラメータ値を任意の形態（例えば、数値やグラフ等）で画面上に表示すると共に、アラートを発出したり、警告灯を点滅させたりしてもよい。これに対して、オペレータはオペレータ端末３０を操作し、制御装置１０から提案された制御パラメータ値を採用するか否かを当該制御装置１０に返信する。このとき、オペレータが当該制御パラメータ値を採用しない場合は、当該制御パラメータ値とは異なる値の新たな制御パラメータ値を返信する。

なお、オペレータは介入不要と判断した場合には、オペレータ端末３０を操作し、介入不要であることを示す情報を制御装置１０に返信してもよい。この場合は、上記のステップＳ２０３が実行され、自動制御が行われる。

次に、制御部１０１は、オペレータ端末３０から採用を示す情報が返信された場合は上記のステップＳ２０４で算出された制御パラメータ値に基づく操作量を制御対象４０に送信し、オペレータ端末３０から不採用を示す情報と新たな制御パラメータ値が返信された場合は新たな制御パラメータ値に基づく操作量を制御対象４０に送信する（ステップＳ２０６）。なお、このとき、制御部１０１は、上記のステップＳ２０１で受信した観測値（つまり、制御対象４０の現在の状態を示す観測値）と、上記のステップＳ２０４で算出した制御パラメータ値又は新たな制御パラメータ値とを含む介入履歴を作成し、記憶部１０６に記憶させる。

続いて、再学習部１０５は、上記のステップＳ２０５におけるオペレータ端末３０の返信結果（採用又は不採用）に応じて、記憶部１０６に記憶されている介入モデルを再学習する（ステップＳ２０７）。すなわち、再学習部１０５は、上記のステップＳ２０１で受信した観測値と上記のステップＳ２０４で算出した制御パラメータ値とを用いて模倣学習により介入モデルを再学習する。このとき、再学習部１０５は、上記のステップＳ２０５におけるオペレータ端末３０の返信結果が不採用を示す情報である場合はペナルティが課されるように介入モデルの再学習を行う。このようなペナルティは、介入モデルの作成及び再学習に用いられる目的関数に対して、不採用を示す情報がオペレータ端末３０から返信された場合には目的関数値の評価に対して罰則を課す項（これは罰則項又はペナルティ項等と呼ばれる。）を追加することで実現することができる。

以上のように、本実施形態に係る制御システム１は、オペレータが過去に行った実際の介入の履歴を模倣学習によりモデル化した介入モデルを用いて、制御対象４０の自動制御に対して介入の必要が生じた場合に制御パラメータ値をオペレータに提案する。また、このとき、本実施形態に係る制御システム１は、その制御パラメータ値を介入モデルが算出したことの根拠を表す情報も当該オペレータに提示することができる。これにより、オペレータの負担を軽減させることができると共に、説明可能性の高い制御パラメータ値をオペレータに提案することができるようになる。

＜変形例＞
以下、本実施形態の変形例について説明する。

≪変形例１≫
本実施形態では、介入モデルにより算出された制御パラメータ値をオペレータに提案したが、オペレータに提案せずに、当該制御パラメータ値に基づく操作量が制御対象４０に送信されてもよい。つまり、自動制御に対して介入の必要があると判定された場合には、介入モデルにより算出された制御パラメータ値に基づく操作量により制御対象４０が制御されてもよい。

また、このとき、上記の根拠情報２の値や上記の根拠情報３の類似度（これらの値や類似度は「確信度」等と称されてもよい。）が所定の閾値を超えている場合（つまり、確信度が高く、介入モデルにより算出された制御パラメータ値で制御対象４０を適切に制御できる可能性が高い場合）にのみ制御パラメータ値に基づく操作量が制御対象４０に送信されてもよい。

≪変形例２≫
本実施形態では、１つの介入モデルを作成し、この介入モデルにより制御パラメータ値を算出したが、複数の介入モデルを作成し、予め決められた条件に応じて介入モデルを切り替えて使用してもよい。例えば、夜間用の介入モデルと昼間用の介入モデルを作成し、制御対象４０の運用時間帯に応じて介入モデルを切り替えてもよい。同様に、例えば、製品の種類毎に介入モデルを作成し、制御対象４０が製造する製品に応じて介入モデルを切り替えてもよい。また、例えば、制御対象４０の状態が取り得る範囲（例えば、温度の範囲等）毎に複数の介入モデルを作成し、制御対象４０の状態に応じて介入モデルを切り替えてもよい。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

１制御システム
１０制御装置
１１入力装置
１２表示装置
１３外部Ｉ／Ｆ
１３ａ記録媒体
１４通信Ｉ／Ｆ
１５プロセッサ
１６メモリ装置
１７バス
２０サーバ
３０オペレータ端末
４０制御対象
１０１制御部
１０２介入判定部
１０３算出部
１０４提案部
１０５再学習部
１０６記憶部
２０１モデル作成部
２０２記憶部

Claims

制御対象に対してオペレータが介入を行った場合における制御パラメータ値の履歴に基づいて、前記制御対象の状態と前記制御パラメータ値との関係を表すモデルを模倣学習により作成する作成部と、
前記制御対象の状態に応じて、前記モデルにより制御パラメータ値を算出する算出部と、
前記算出部で算出された制御パラメータ値を前記オペレータに提案する提案部と、
を有し、
前記履歴には、前記介入が行われた日時と、前記介入を行ったオペレータを識別する識別情報と、前記介入が行われたときの前記制御対象の状態と、前記介入が行われたときの前記制御パラメータ値とが少なくとも含まれ、
前記算出部は、
前記制御対象の状態と、前記モデルにより算出した制御パラメータ値とを用いて、前記モデルの作成に用いられた前記履歴を検索した結果と、
前記履歴を検索した結果に含まれる前記識別情報を数値化した情報と、
前記制御対象の状態と、前記モデルにより算出した制御パラメータ値と、直近のＮ－１（ただし、Ｎは予め決められた自然数）個の日時が含まれるＮ－１個の前記履歴とを用いて、前記モデルの作成に用いられた前記履歴のうちのＮ個の前記履歴との所定の類似度を算出し、最も高い類似度が算出されたＮ個の前記履歴と、
前記モデルの作成に用いられた前記履歴のうちのどの前記履歴が前記制御パラメータ値を算出したときの根拠となっているかを要因可視化技術により求めた情報と、
のすべてを、前記モデルにより算出した制御パラメータ値の根拠を表す根拠情報として作成し、
前記提案部は、前記制御パラメータ値に加えて、前記根拠情報も前記オペレータに提案する、制御システム。
前記提案部で提案した制御パラメータ値によって前記制御対象に対して介入が行われたか否かに応じて、模倣学習により前記モデルを再学習する再学習部を更に有する請求項１に記載の制御システム。
前記算出部で算出された制御パラメータ値によって前記制御対象を制御する制御部を更に有する請求項１に記載の制御システム。
前記算出部は、前記モデルにより算出した制御パラメータ値に関する所定の指標値を更に算出し、
前記制御部は、前記指標値が所定の閾値を超えている場合、前記算出部で算出された制御パラメータ値によって前記制御対象を制御する、請求項３に記載の制御システム。
前記作成部は、時間帯、前記制御対象が製造する製品の種類、又は前記制御対象の状態が取り得る値の範囲に応じて、複数の前記モデルを作成し、
前記算出部は、前記制御対象の状態と、前記時間帯又は前記制御対象が製造する製品の種類とに応じて、複数の前記モデルのうちの一のモデルにより制御パラメータ値を算出する、請求項１乃至４の何れか一項に記載の制御システム。
前記作成部は、所定の期間毎に前記履歴から所定の統計値を算出し、算出した統計値により前記モデルの作成に用いる制御パラメータ値を選択し、選択した制御パラメータ値と該制御パラメータ値によって介入が行われた時の前記制御対象の状態とを用いて前記モデルを作成する、請求項１乃至５の何れか一項に記載の制御システム。
制御対象に対してオペレータが介入を行った場合における制御パラメータ値の履歴に基づいて、前記制御対象の状態と前記制御パラメータ値との関係を表すモデルを模倣学習により作成する作成手順と、
前記制御対象の状態に応じて、前記モデルにより制御パラメータ値を算出する算出手順と、
前記算出手順で算出された制御パラメータ値を前記オペレータに提案する提案手順と、
をコンピュータが実行し、
前記履歴には、前記介入が行われた日時と、前記介入を行ったオペレータを識別する識別情報と、前記介入が行われたときの前記制御対象の状態と、前記介入が行われたときの前記制御パラメータ値とが少なくとも含まれ、
前記算出手順では、
前記制御対象の状態と、前記モデルにより算出した制御パラメータ値とを用いて、前記モデルの作成に用いられた前記履歴を検索した結果と、
前記履歴を検索した結果に含まれる前記識別情報を数値化した情報と、
前記制御対象の状態と、前記モデルにより算出した制御パラメータ値と、直近のＮ－１（ただし、Ｎは予め決められた自然数）個の日時が含まれるＮ－１個の前記履歴とを用いて、前記モデルの作成に用いられた前記履歴のうちのＮ個の前記履歴との所定の類似度を算出し、最も高い類似度が算出されたＮ個の前記履歴と、
前記モデルの作成に用いられた前記履歴のうちのどの前記履歴が前記制御パラメータ値を算出したときの根拠となっているかを要因可視化技術により求めた情報と、
のすべてを、前記モデルにより算出した制御パラメータ値の根拠を表す根拠情報として作成し、
前記提案手順では、前記制御パラメータ値に加えて、前記根拠情報も前記オペレータに提案する、制御方法。
制御対象に対してオペレータが介入を行った場合における制御パラメータ値の履歴に基づいて、前記制御対象の状態と前記制御パラメータ値との関係を表すモデルを模倣学習により作成する作成部と、
前記制御対象の状態に応じて、前記モデルにより制御パラメータ値を算出する算出部と、
前記算出部で算出された制御パラメータ値を前記オペレータに提案する提案部と、
を有し、
前記履歴には、前記介入が行われた日時と、前記介入を行ったオペレータを識別する識別情報と、前記介入が行われたときの前記制御対象の状態と、前記介入が行われたときの前記制御パラメータ値とが少なくとも含まれ、
前記算出部は、
前記制御対象の状態と、前記モデルにより算出した制御パラメータ値とを用いて、前記モデルの作成に用いられた前記履歴を検索した結果と、
前記履歴を検索した結果に含まれる前記識別情報を数値化した情報と、
前記制御対象の状態と、前記モデルにより算出した制御パラメータ値と、直近のＮ－１（ただし、Ｎは予め決められた自然数）個の日時が含まれるＮ－１個の前記履歴とを用いて、前記モデルの作成に用いられた前記履歴のうちのＮ個の前記履歴との所定の類似度を算出し、最も高い類似度が算出されたＮ個の前記履歴と、
前記モデルの作成に用いられた前記履歴のうちのどの前記履歴が前記制御パラメータ値を算出したときの根拠となっているかを要因可視化技術により求めた情報と、
のすべてを、前記モデルにより算出した制御パラメータ値の根拠を表す根拠情報として作成し、
前記提案部は、前記制御パラメータ値に加えて、前記根拠情報も前記オペレータに提案する、制御装置。
制御対象に対してオペレータが介入を行った場合における制御パラメータ値の履歴に基づいて、前記制御対象の状態と前記制御パラメータ値との関係を表すモデルを模倣学習により作成する作成手順と、
前記制御対象の状態に応じて、前記モデルにより制御パラメータ値を算出する算出手順と、
前記算出手順で算出された制御パラメータ値を前記オペレータに提案する提案手順と、
をコンピュータに実行させ、
前記履歴には、前記介入が行われた日時と、前記介入を行ったオペレータを識別する識別情報と、前記介入が行われたときの前記制御対象の状態と、前記介入が行われたときの前記制御パラメータ値とが少なくとも含まれ、
前記算出手順では、
前記制御対象の状態と、前記モデルにより算出した制御パラメータ値とを用いて、前記モデルの作成に用いられた前記履歴を検索した結果と、
前記履歴を検索した結果に含まれる前記識別情報を数値化した情報と、
前記制御対象の状態と、前記モデルにより算出した制御パラメータ値と、直近のＮ－１（ただし、Ｎは予め決められた自然数）個の日時が含まれるＮ－１個の前記履歴とを用いて、前記モデルの作成に用いられた前記履歴のうちのＮ個の前記履歴との所定の類似度を算出し、最も高い類似度が算出されたＮ個の前記履歴と、
前記モデルの作成に用いられた前記履歴のうちのどの前記履歴が前記制御パラメータ値を算出したときの根拠となっているかを要因可視化技術により求めた情報と、
のすべてを、前記モデルにより算出した制御パラメータ値の根拠を表す根拠情報として作成し、
前記提案手順では、前記制御パラメータ値に加えて、前記根拠情報も前記オペレータに提案する、プログラム。