JP2019067238A - Control device, control method and control program - Google Patents
Control device, control method and control program Download PDFInfo
- Publication number
- JP2019067238A JP2019067238A JP2017193547A JP2017193547A JP2019067238A JP 2019067238 A JP2019067238 A JP 2019067238A JP 2017193547 A JP2017193547 A JP 2017193547A JP 2017193547 A JP2017193547 A JP 2017193547A JP 2019067238 A JP2019067238 A JP 2019067238A
- Authority
- JP
- Japan
- Prior art keywords
- control
- data
- sensor
- value
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 25
- 238000012545 processing Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 18
- 238000013500 data storage Methods 0.000 description 13
- 238000009434 installation Methods 0.000 description 7
- 230000002787 reinforcement Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000000872 buffer Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Landscapes
- Feedback Control In General (AREA)
Abstract
Description
本発明は、制御装置、制御方法および制御プログラムに関する。 The present invention relates to a control device, a control method, and a control program.
従来、工場、プラント、ビル、データセンタ等の様々な環境において、制御装置や空調その他様々な機器の制御を行っている。従来の手法では、一般的に、人間が閾値や制御内容などを決めてルール化を行い、最適な温度や安定した制御状態を作り出す。 Conventionally, in various environments such as a factory, a plant, a building, and a data center, control of control devices, air conditioning, and various other devices is performed. In the conventional method, in general, a human determines thresholds and control contents and performs rule making to create an optimum temperature and a stable control state.
しかしながら、従来の手法では、実環境を対象とした最適制御を簡易かつ精度よく実行することができないという課題があった。例えば、人間が閾値や制御内容などを決めてルール化を行い、最適な温度や安定した制御状態を作り出す場合には、専門家が手動でルールを決めたりするので、手間が掛かり簡易に実行することができなかった。 However, in the conventional method, there has been a problem that the optimum control for the real environment can not be simply and accurately executed. For example, when a human decides a threshold or control content and performs rule making and creating an optimum temperature and a stable control state, an expert manually determines the rule, so it takes time and is easy to execute. I could not.
なお、強化学習を用いて閾値や制御内容などを学習し、機器の制御を自動的に行うことが考えられる。このような強化学習の報酬の設計では、シンプルな報酬設計が行われるので、最適制御を精度よく実行することができなかった。 In addition, it is possible to learn a threshold value, a control content, etc. using reinforcement learning, and to control an apparatus automatically. In designing such a reward for reinforcement learning, a simple reward design is performed, so optimal control can not be performed accurately.
上述した課題を解決し、目的を達成するために、本発明の制御装置は、制御対象設備に設置されたセンサによって取得されたデータを収集する収集手段と、前記収集手段によって収集されたデータを入力として、前記制御対象設備の制御内容を決定するためのモデルを用いて制御内容を決定し、該制御内容に基づいて、前記制御対象設備を制御する制御手段と、前記モデルについて、前記制御手段によって制御が行われた後の前記センサによって得られたデータの値が、所定の値に近いほど高い報酬が付与されるように学習する学習手段とを有することを特徴とする。 In order to solve the problems described above and to achieve the object, the control device of the present invention comprises: collection means for collecting data acquired by a sensor installed in a control target facility; and data collected by the collection means Control means for determining control contents using a model for determining control contents of the control target equipment as input, and control means for controlling the control target equipment based on the control contents, and the control means for the model And a learning means for learning such that a higher reward is given as the value of the data obtained by the sensor after the control is performed is closer to a predetermined value.
また、本発明の制御方法は、制御装置によって実行される制御方法であって、制御対象設備に設置されたセンサによって取得されたデータを収集する収集工程と、前記収集工程によって収集されたデータを入力として、前記制御対象設備の制御内容を決定するためのモデルを用いて制御内容を決定し、該制御内容に基づいて、前記制御対象設備を制御する制御工程と、前記モデルについて、前記制御工程によって制御が行われた後の前記センサによって得られたデータの値が、所定の値に近いほど高い報酬が付与されるように学習する学習工程とを含んだことを特徴とする。 Further, the control method of the present invention is a control method executed by a control device, and includes a collection step of collecting data acquired by a sensor installed in a control target facility, and data collected by the collection step. As an input, the control content is determined using a model for determining control content of the control target equipment, and a control step of controlling the control target equipment based on the control content, and the control step for the model And a learning step of learning such that the value of the data obtained by the sensor after the control is performed according to the value of the data is higher as it is closer to a predetermined value.
また、本発明の制御プログラムは、制御対象設備に設置されたセンサによって取得されたデータを収集する収集ステップと、前記収集ステップによって収集されたデータを入力として、前記制御対象設備の制御内容を決定するためのモデルを用いて制御内容を決定し、該制御内容に基づいて、前記制御対象設備を制御する制御ステップと、前記モデルについて、前記制御ステップによって制御が行われた後の前記センサによって得られたデータの値が、所定の値に近いほど高い報酬が付与されるように学習する学習ステップとをコンピュータに実行させることを特徴とする。 Further, the control program of the present invention determines the control content of the control target facility by using the collection step of collecting data acquired by the sensor installed in the control target facility and the data collected by the collection step. Control content is determined using the model to be controlled, and based on the control content, a control step of controlling the equipment to be controlled and a sensor obtained by the sensor after the control step is performed on the model And causing the computer to execute a learning step of learning so that a higher reward is given as the value of the stored data is closer to the predetermined value.
本発明によれば、実環境を対象とした最適制御を簡易かつ精度よく実行することができるという効果を奏する。 According to the present invention, it is possible to easily and accurately execute the optimum control for the real environment.
以下に、本願に係る制御装置、制御方法および制御プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る制御装置、制御方法および制御プログラムが限定されるものではない。 Hereinafter, embodiments of a control device, a control method, and a control program according to the present application will be described in detail based on the drawings. The control device, the control method, and the control program according to the present application are not limited by the embodiment.
[第1の実施形態]
以下の実施の形態では、第1の実施形態に係る制御システム100の構成、制御装置10の構成、制御装置10の処理の流れを順に説明し、最後に第1の実施形態による効果を説明する。
First Embodiment
In the following embodiments, the configuration of the
[制御システムの構成]
図1は、第1の実施形態に係る制御システムの構成例を示すブロック図である。第1の実施形態に係る制御システム100は、制御装置10と実環境である複数の制御対象設備20A〜20Cとを有し、制御装置10と制御対象設備20A〜20Cはネットワーク30を介して互いに接続されている。なお、図1に示す構成は一例にすぎず、具体的な構成や各装置の数は特に限定されない。また、制御対象設備20A〜20Cについて、特に区別なく説明する場合には、適宜制御対象設備20と記載する。
[Control system configuration]
FIG. 1 is a block diagram showing an example of the configuration of a control system according to the first embodiment. The
制御装置10は、制御対象設備20A〜20Cに設置されたセンサ21によって取得されたデータを収集する。そして、制御装置10は、収集したセンサのデータを入力として、制御対象設備20A〜20Cの制御内容を決定するためのニューラルネットワークモデル等のモデルを用いて制御内容を決定し、該制御内容に基づいて、制御対象設備20A〜20Cを制御する。
The
続いて、制御装置10は、モデルについて、制御が行われた後のセンサ21によって得られたデータの値が、所定の値に近いほど高い報酬が付与されるように強化学習を実施する。例えば、制御装置10は、予め設定された所定の上限値と所定の下限値との平均値に近いほど高い報酬を段階的に付与する。
Subsequently, the
制御対象設備20A〜20Cは、それぞれ複数のセンサ21が設置されている。制御対象設備は、例えば、プラント内装置や反応炉、建物空調、データセンタ内ラック等である。なお、ここでは各制御対象設備20A〜20Cは、距離的に離れているものとする。制御対象設備20について具体例を挙げて説明すると、例えば、図2に例示するように、プラント内に設置されたタンクであり、各6基のタンクにそれぞれ温度センサ(図示略)が設けられている。図2は、第1の実施形態に係る制御装置が最適制御を行う実環境の一例を示す図である。
Each of the control target facilities 20A to 20C is provided with a plurality of sensors 21. The control target equipment is, for example, an in-plant apparatus, a reactor, a building air conditioner, a rack in a data center, and the like. Here, each of the control target equipments 20A to 20C is assumed to be distant in distance. For example, as illustrated in FIG. 2, the
この例では、各センサ21がタンクの温度のデータを取得し、制御装置10に送信する。そして、制御装置10は、実環境のデータを取得して強化学習を行うので、仮想環境では得られない実環境上の外的要因なども含むこととなり、ランダム性がより高まり、様々な状況における学習を実行することが可能である。
In this example, each sensor 21 acquires data on the temperature of the tank and transmits it to the
また、制御装置10は、例えば、収集したセンサ21のデータに応じて、各6基のタンクに対して制御内容を決定し、空冷、冷水等で各6基のタンクの温度を調整する。温度の調節は、常に最適な値でとどまるように、自動調整される。
Further, the
[制御装置の構成]
次に、図3を用いて、制御装置10の構成を説明する。図3は、第1の実施形態に係る制御装置の構成例を示すブロック図である。図3に示すように、この制御装置10は、通信処理部11、制御部12および記憶部13を有する。以下に制御装置10が有する各部の処理を説明する。
[Configuration of control unit]
Next, the configuration of the
通信処理部11は、各種情報に関する通信を制御する。例えば、通信処理部11は、制御対象設備20との間でセンサのデータの送受信を行う。
The communication processing unit 11 controls communication regarding various information. For example, the communication processing unit 11 transmits and receives sensor data to and from the
記憶部13は、制御部12による各種処理に必要なデータおよびプログラムを格納するが、特に本発明に密接に関連するものとしては、センサデータ記憶部13aを有する。例えば、記憶部13は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。 The storage unit 13 stores data and programs necessary for various processes performed by the control unit 12, and particularly includes a sensor data storage unit 13a as closely related to the present invention. For example, the storage unit 13 is a semiconductor memory device such as a random access memory (RAM) or a flash memory, or a storage device such as a hard disk or an optical disk.
センサデータ記憶部13aは、後述する収集部12aによって各制御対象設備20の各センサ21から収集された同一時刻のセンサ21のデータを一時的に記憶する。例えば、センサデータ記憶部13aは、図4に例示するように、時刻12:00に各センサ21によって取得されたセンサ21のデータとして、実環境Aの状態1〜3、実環境Bの状態1〜3、実環境Cの状態1〜3を記憶する。ここで、「状態」とは、センサ21が取得した温度や圧力、音、振動等の各種データである。図4は、センサデータ記憶部に記憶されるデータの一例を示す図である。
The sensor data storage unit 13a temporarily stores data of the sensors 21 at the same time collected from the sensors 21 of the
具体例を挙げて説明すると、実環境Aの状態1〜3とは、例えば、プラント内のそれぞれ異なる場所に設置された各温度センサの温度の値であってもよいし、状態1が温度の値、状態2が圧力の値、状態3が振動の値というように、それぞれ異なる種類のセンサ21のデータであってもよい。なお、以下では、各状態が、それぞれ異なる場所に設置された各温度センサの温度の値である場合を例として説明する。 Describing the specific example, the states 1 to 3 of the real environment A may be, for example, the values of the temperatures of the respective temperature sensors installed at different places in the plant, and the state 1 is the temperature The data may be data of different types of sensors 21 such as the value, the state 2 being a pressure value, and the state 3 being a vibration value. In addition, below, the case where each state is a value of the temperature of each temperature sensor installed in each different place is demonstrated as an example.
例えば、図4の例では、センサデータ記憶部13aは、時刻12:00における実環境Aの状態1として「40」度、状態2として「31」度、状態3として「17」度を記憶し、実環境Bの状態1として「70」度、状態2として「80」度、状態3として「66」度を記憶し、実環境Cの状態1として「50」度、状態2として「45」度、状態3として「56」度を記憶する。 For example, in the example of FIG. 4, the sensor data storage unit 13a stores “40” degrees as state 1 of real environment A at time 12:00, “31” degrees as state 2, and “17” degrees as state 3. It stores "70" degrees as state 1 of real environment B, "80" degrees as state 2 and "66" degrees as state 3 and "50" degrees as state 1 of real environment C and "45" as state 2 Degree, "56" degree is stored as state 3.
制御部12は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行するが、特に本発明に密接に関連するものとしては、収集部12a、制御部12bおよび学習部12cを有する。ここで、制御部12は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路である。 The control unit 12 has a program that defines various processing procedures and the like, and an internal memory for storing required data, and executes various processing by these, and particularly as closely related to the present invention, It has a collection unit 12a, a control unit 12b, and a learning unit 12c. Here, the control unit 12 is an electronic circuit such as a central processing unit (CPU) or a micro processing unit (MPU) or an integrated circuit such as an application specific integrated circuit (ASIC) or a field programmable gate array (FPGA).
収集部12aは、制御対象設備20に設置されたセンサ21によって取得されたデータを収集する。具体的には、収集部12aは、複数の制御対象設備20にそれぞれ設置された各センサ21のデータをそれぞれ収集し、センサデータ記憶部13aに同時刻のデータをバッファリングする。
The collection unit 12a collects data acquired by the sensor 21 installed in the
例えば、収集部12aは、工場やプラントなどの制御対象設備20に設置されるセンサ21からデータを定期的(例えば、1分ごと)に受信し、センサデータ記憶部13aにバッファリングする。ここでセンサ21が取得するデータとは、例えば、制御対象設備である工場、プラント内の装置や反応炉についての温度や圧力、音、振動等の各種データである。
For example, the collection unit 12a periodically (eg, every one minute) receives data from the sensor 21 installed in the
制御部12bは、収集部12aによって収集されたデータを入力として、制御対象設備20の制御内容を決定するためのモデルを用いて制御内容を決定し、該制御内容に基づいて、制御対象設備20を制御する。制御部12bは、収集部12aによって収集された各センサ21のデータを、各モデルにそれぞれ入力して制御内容をそれぞれ決定し、各制御内容に基づいて、各制御対象設備20をそれぞれ制御する。
The control unit 12b receives the data collected by the collection unit 12a, determines the control content using a model for determining the control content of the
例えば、制御部12bは、収集部12aによって収集された各センサのデータをセンサデータ記憶部13aに格納し、同一時刻のデータを同時に各モデルにそれぞれ入力して制御内容をそれぞれ決定し、各制御内容に基づいて、各制御対象設備20をそれぞれ制御する。
For example, the control unit 12b stores the data of each sensor collected by the collection unit 12a in the sensor data storage unit 13a, inputs data of the same time simultaneously to each model, and determines the control content, respectively. Each
学習部12cは、モデルについて、制御部12bによって制御が行われた後のセンサ21によって得られたデータの値が、所定の値に近いほど高い報酬が付与されるように学習する。例えば、学習部12cは、制御部12bによって制御が行われた後のセンサ21によって得られたデータの値が、予め設定された所定の上限値と所定の下限値との平均値に近いほど高い報酬を付与する。つまり、学習部12cは、安定の中心に行くほど、段階的に高い報酬を付与する。 The learning unit 12c learns that the value of the data obtained by the sensor 21 after being controlled by the control unit 12b for the model is given a higher reward as the value is closer to a predetermined value. For example, the learning unit 12c is higher as the value of the data obtained by the sensor 21 after the control by the control unit 12b is closer to the average value between the predetermined upper limit and the predetermined lower limit set in advance. Give a reward. That is, as the learning unit 12c goes to the center of stability, it gives higher rewards in stages.
ここで、図5を用いて、第1の実施形態に係る制御装置10における最適制御処理の流れを説明する。図5は、第1の実施形態に係る制御装置における最適制御処理の流れを説明する図である。図5に例示するように、制御装置10は、実環境Aの状態1〜3、実環境Bの状態1〜3、実環境Cの状態1〜3として、各実環境A〜Cに設置されたセンサ21のデータを収集する。そして、制御装置10は、各実環境A〜Cにおいて最適制御学習を並列して実施し、各実環境A〜Cそれぞれに適用したモデルのうち、最適なモデルを採用する。
Here, the flow of the optimum control process in the
ここで、図6を用いて、最適制御学習の並列処理を具体的に説明する。図6は、第1の実施形態に係る制御装置における最適制御学習の並列処理を説明する図である。図6に示すように、制御装置10は、各実環境A〜Cのセンサ21のデータを各モデルにそれぞれ入力し、制御対象設備20に対する制御内容を各モデルの出力としてそれぞれ取得する。そして、制御装置10は、各制御内容に基づいて、各実環境A〜Cの制御を実行する。
Here, the parallel processing of the optimal control learning will be specifically described using FIG. FIG. 6 is a diagram for explaining parallel processing of optimal control learning in the control device according to the first embodiment. As shown in FIG. 6, the
そして、制御装置10は、各実環境A〜Cの制御結果を取得する。具体的には、制御装置10は、制御が行われた後の各実環境A〜Cのセンサ21によって得られたデータの値を取得する。続いて、制御装置10は、各モデルについて、制御が行われた後のセンサ21によって得られたデータの値が、予め設定された所定の上限値と所定の下限値との平均値に近いほど高い報酬が付与されるように学習する。
And the
ここで、図7の例を用いて、報酬付与について具体的に説明する。図7は、第1の実施形態に係る制御装置における報酬付与について説明する図である。図7に示すように、制御装置10は、各モデルについて、制御が行われた後のセンサ21によって得られたデータの値が、求める適切な値の上限(例えば、上限温度)と求める適切な値の下限(例えば、下限温度)との平均値に近いほど高い報酬が付与され、平均値から遠くなるほど低い報酬が付与されるように学習する。
Here, reward giving will be specifically described using the example of FIG. 7. FIG. 7 is a diagram for explaining reward provision in the control device according to the first embodiment. As shown in FIG. 7, the
例えば、制御装置10は、制御が行われた後のセンサ21によって得られたデータの値「x」と、予め設定された所定の上限値「θ1」および所定の下限値「θ2」とを用いて、付与する報酬を算出する方法として、「−a(x−θ1)(x−θ2)」を計算する。なお、ここで「a」は、任意に変更可能な変数である。
For example, the
このような学習を行った後、制御装置10は、実環境A〜Cのモデルのうち、最適なモデルを採用し、全てのモデルを最適なモデルに更新する。なお、更新するタイミングは、学習を行うたびに行ってもよいし、任意のタイミングであってもよい。また、最適なモデルをどのように決定するかについては、所定の条件から自動で決定してもよいし、手動で決定してもよい。
After performing such learning, the
[制御装置の処理手順]
次に、図8を用いて、第1の実施形態に係る制御装置10による処理手順の例を説明する。図8は、第1の実施形態に係る制御装置における処理の流れの一例を示すフローチャートである。
[Processing procedure of control device]
Next, an example of a processing procedure by the
図8に例示するように、収集部12aは、制御対象設備20におけるセンサ21のデータを収集すると(ステップS101肯定)、収集したデータをセンサデータ記憶部13aを格納する(ステップS102)。 As illustrated in FIG. 8, when collecting data of the sensor 21 in the control target facility 20 (Yes at Step S101), the collecting unit 12a stores the collected data in the sensor data storage unit 13a (Step S102).
そして、制御部12bは、全ての実環境における同時刻のデータを収集したかを判定する(ステップS103)。この結果、制御部12bは、全ての実環境における同時刻のデータを収集していない場合には(ステップS103否定)、ステップS101に戻り、全ての実環境における同時刻のデータを収集するまでステップS101〜ステップS103の処理を繰り返す。 Then, the control unit 12b determines whether data at the same time in all real environments has been collected (step S103). As a result, when the control unit 12b does not collect data of the same time in all real environments (No at step S103), the control unit 12b returns to step S101 and continues the steps until collecting data of the same time in all real environments. The processing of S101 to step S103 is repeated.
また、制御部12bは、全ての実環境における同時刻のデータを収集した場合には(ステップS103肯定)、収集部12aによって収集された各センサ21のデータを、各モデルにそれぞれ入力する(ステップS104)。そして、制御部12bは、制御内容をそれぞれ決定し(ステップS105)、各制御内容に基づいて、各制御対象設備20をそれぞれ制御する(ステップS106)。
When the control unit 12b collects data at the same time in all real environments (Yes at step S103), the control unit 12b inputs the data of each sensor 21 collected by the collection unit 12a to each model (step S104). And control part 12b determines control contents, respectively (Step S105), and controls each controlled
続いて、学習部12cは、モデルについて、制御部12bによって制御が行われた後のセンサ21によって得られたデータの値が、所定の値に近いほど高い報酬を付与する(ステップS107)。例えば、学習部12cは、制御部12bによって制御が行われた後のセンサ21によって得られたデータの値が、予め設定された所定の上限値と所定の下限値との平均値に近いほど高い報酬を付与する。そして、制御装置10は、各実環境A〜Cそれぞれに適用したモデルのうち、最適なモデルを採用する(ステップS108)。
Subsequently, the learning unit 12c gives a higher reward to the model as the value of the data obtained by the sensor 21 after the control by the control unit 12b is closer to the predetermined value (step S107). For example, the learning unit 12c is higher as the value of the data obtained by the sensor 21 after the control by the control unit 12b is closer to the average value between the predetermined upper limit and the predetermined lower limit set in advance. Give a reward. Then, the
[第1の実施形態の効果]
第1の実施形態に係る制御装置10は、制御対象設備20に設置されたセンサ21によって取得されたデータを収集し、収集したデータを入力として、制御対象設備20の制御内容を決定するためのモデルを用いて制御内容を決定し、該制御内容に基づいて、制御対象設備20を制御する。そして、制御装置10は、モデルについて、制御が行われた後のセンサ21によって得られたデータの値が、所定の値に近いほど高い報酬が付与されるように学習する。このため、制御装置10では、実環境を対象とした最適制御を簡易かつ精度よく実行することが可能である。つまり、制御装置10では、例えば、強化学習の報酬の与え方を、安定の中心に行くほど、報酬が高くなるモデルを適用し、より望ましい報酬の価値を高めることで、強化学習の最適解が生み出される確率が高めることが可能である。
[Effect of First Embodiment]
The
また、制御装置10は、複数の制御対象設備20にそれぞれ設置された各センサ21のデータをそれぞれ収集し、収集された各センサ21のデータを、各モデルにそれぞれ入力して制御内容をそれぞれ決定し、各制御内容に基づいて、各制御対象設備20をそれぞれ制御する。そして、制御装置10は、各モデルについて、制御が行われた後の各センサ21のデータの値が、所定の値に近いほど高い報酬が付与されるようにそれぞれ学習する。このため、実環境においては、仮想環境では得られない実環境上の外的要因なども含むこととなる。制御装置10では、その実環境を並列的に学習することで、ランダム性がより高まり、様々な状況における学習を実行することが可能となる。
In addition, the
また、制御装置10は、収集した各センサのデータをセンサデータ記憶部13aに格納し、同一時刻のデータを同時に各モデルにそれぞれ入力して制御内容をそれぞれ決定し、各制御内容に基づいて、各制御対象設備20をそれぞれ制御する。制御装置10では、実環境において並列処理を行う際に、生じる時間的な差分をバッファリングして、似たような環境において同時に学習することを可能とする。このため、実環境同士の距離が離れている等の原因から生じてしまう時間的な差分を、バッファリングを用いることで吸収し、同時実行の状態を作り出すことが可能となる。
Further, the
[第2の実施形態]
上述した第1の実施形態では、制御装置10が、各センサのデータをセンサデータ記憶部13aにバッファリングし、同一時刻のデータを同時に各モデルにそれぞれ入力し、制御内容をそれぞれ決定し、各制御内容に基づいて、各制御対象設備をそれぞれ制御する場合を説明したが、これに限定されるものではない。例えば、制御装置は、複数の制御対象設備にそれぞれ設置された各センサのデータを同時に収集し、収集された各センサのデータを、モデルに同時に入力して制御内容をそれぞれ決定し、該制御内容に基づいて、各制御対象設備を同時に制御するようにしてもよい。
Second Embodiment
In the first embodiment described above, the
そこで、以下では、第2の実施形態に係る制御装置が、複数の制御対象設備にそれぞれ設置された各センサのデータを同時に収集し、収集された各センサのデータを、モデルに同時に入力して制御内容をそれぞれ決定し、該制御内容に基づいて各制御対象設備を同時に制御する場合について説明する。なお、第1の実施形態に係る制御装置10と同様の構成や処理については説明を省略する。
Therefore, in the following, the control device according to the second embodiment simultaneously collects data of each sensor installed in each of a plurality of control target facilities, and simultaneously inputs the collected data of each sensor to the model. The case where control content is determined respectively and each control object installation is simultaneously controlled based on the control content is explained. Descriptions of configurations and processes similar to those of the
第2の実施形態に係る制御装置の収集部12aは、複数の制御対象設備20にそれぞれ設置された各センサ21のデータを同時に収集する。また、第2の実施形態に係る制御装置の制御部12bは、収集された各センサ21のデータを、モデルに同時に入力して制御内容をそれぞれ決定し、該制御内容に基づいて、各制御対象設備20を同時に制御する。
The collection unit 12a of the control device according to the second embodiment simultaneously collects data of each sensor 21 installed in each of a plurality of
ここで、図9を用いて、第2の実施形態に係る制御装置の処理の概要を説明する。図9は、第2の実施形態に係る制御装置の処理の概要を示す図である。図9に示すように、第2の実施形態に係る制御装置は、実環境Aの状態1〜3、実環境Bの状態1〜3、実環境Cの状態1〜3として、各実環境A〜Cに設置されたセンサ21のデータを同時に収集する。なお、ここでは各各実環境A〜Cは、距離的に近いものとする。 Here, an outline of processing of the control device according to the second embodiment will be described with reference to FIG. FIG. 9 is a diagram showing an outline of processing of a control device according to the second embodiment. As illustrated in FIG. 9, the control device according to the second embodiment includes the real environment A as states 1 to 3, the real environment B as states 1 to 3, and the real environment C as states 1 to 3 respectively. The data of the sensors 21 installed at ~ C are collected at the same time. Here, it is assumed that the respective real environments A to C are close in distance.
そして、第2の実施形態に係る制御装置は、各実環境A〜Cのセンサ21のデータをモデルに同時に入力し、制御対象設備20に対する制御内容を決定する。そして、第2の実施形態に係る制御装置は、決定した制御内容に基づいて、各環境A〜Cにおける制御対象設備20の制御を同時に行う。
And the control apparatus which concerns on 2nd Embodiment simultaneously inputs the data of the sensor 21 of each real environment AC to a model, and determines the control content with respect to the
[第2の実施形態の効果]
第2の実施形態に係る制御装置は、複数の制御対象設備にそれぞれ設置された各センサ21のデータを同時に収集し、収集された各センサ21のデータを、モデルに同時に入力して制御内容をそれぞれ決定し、該制御内容に基づいて、各制御対象設備20を同時に制御する。つまり、第2の実施形態に係る制御装置では、例えば、より近い場所に置かれた実環境には、なんらかの相互影響があるものと想定し、それらも含みながら同時に学習を行うことで、より効率化された学習が可能となる。
[Effect of Second Embodiment]
The control device according to the second embodiment simultaneously collects data of each sensor 21 installed in each of a plurality of control target facilities, and simultaneously inputs the collected data of each sensor 21 into a model to control content. Each of the
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration etc.]
Further, each component of each device illustrated is functionally conceptual, and does not necessarily have to be physically configured as illustrated. That is, the specific form of the distribution and integration of each device is not limited to the illustrated one, and all or a part thereof may be functionally or physically dispersed in any unit depending on various loads, usage conditions, etc. It can be integrated and configured. Furthermore, all or any part of each processing function performed in each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as wired logic hardware.
また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Also, among the processes described in the present embodiment, all or part of the process described as being automatically performed can be manually performed, or the process described as being manually performed. All or part of can be performed automatically by a known method. In addition to the above, the processing procedures, control procedures, specific names, and information including various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified.
[プログラム]
また、上記実施形態において説明した制御装置が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態に係る制御装置10が実行する処理をコンピュータが実行可能な言語で記述した制御プログラムを作成することもできる。この場合、コンピュータが制御プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる制御プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された制御プログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
[program]
In addition, it is also possible to create a program in which the processing executed by the control device described in the above embodiment is described in a language that can be executed by a computer. For example, it is also possible to create a control program in which the processing to be executed by the
図10は、制御プログラムを実行するコンピュータを示す図である。図10に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
FIG. 10 is a diagram illustrating a computer that executes a control program. As illustrated in FIG. 10, the
メモリ1010は、図10に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図10に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、図10に例示するように、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、図10に例示するように、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、図10に例示するように、例えばディスプレイ1130に接続される。
The
ここで、図10に例示するように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の、制御プログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1090に記憶される。
Here, as illustrated in FIG. 10, the hard disk drive 1090 stores, for example, an
また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
In addition, various data described in the above embodiment are stored as program data in, for example, the
なお、制御プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、制御プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
The
上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 The above embodiments and the modifications thereof are included in the invention described in the claims and the equivalents thereof as well as included in the technology disclosed in the present application.
10 制御装置
11 通信処理部
12 制御部
12a 収集部
12b 制御部
12c 学習部
13 記憶部
13a センサデータ記憶部
20、20A〜20C 制御対象設備
21 センサ
100 制御システム
DESCRIPTION OF
Claims (7)
前記収集手段によって収集されたデータを入力として、前記制御対象設備の制御内容を決定するためのモデルを用いて制御内容を決定し、該制御内容に基づいて、前記制御対象設備を制御する制御手段と、
前記モデルについて、前記制御手段によって制御が行われた後の前記センサによって得られたデータの値が、所定の値に近いほど高い報酬が付与されるように学習する学習手段と
を有することを特徴とする制御装置。 Collection means for collecting data acquired by a sensor installed in the control target facility;
Control means for determining control content using a model for determining control content of the control target facility using data collected by the collection means as input and controlling means for controlling the control target facility based on the control content When,
And a learning means for learning that the higher the value of the data obtained by the sensor after the control by the control means is given, the higher the reward is given to the model. Control device.
前記制御手段は、前記収集手段によって収集された各センサのデータを、各モデルにそれぞれ入力して前記制御内容をそれぞれ決定し、各制御内容に基づいて、各制御対象設備をそれぞれ制御し、
前記学習手段は、各モデルについて、前記制御手段によって制御が行われた後の前記各センサのデータの値が、所定の値に近いほど高い報酬が付与されるようにそれぞれ学習することを特徴とする請求項1に記載の制御装置。 The collecting means collects data of each sensor installed in each of a plurality of control target equipments,
The control means inputs the data of each sensor collected by the collection means into each model to determine the control content, and controls each control target facility based on the control content.
The learning means is characterized in that, for each model, the value of data of each sensor after being controlled by the control means learns such that a higher reward is given as the value of each sensor is closer to a predetermined value. The control device according to claim 1.
前記制御手段は、前記収集手段によって収集された各センサのデータを、モデルに同時に入力して前記制御内容をそれぞれ決定し、該制御内容に基づいて、各制御対象設備を同時に制御することを特徴とする請求項1に記載の制御装置。 The collection means simultaneously collects data of each sensor installed in each of a plurality of control target facilities,
The control means simultaneously inputs into the model the data of each sensor collected by the collection means to determine the control contents respectively, and simultaneously controls the respective control target facilities based on the control contents. The control device according to claim 1, wherein
制御対象設備に設置されたセンサによって取得されたデータを収集する収集工程と、
前記収集工程によって収集されたデータを入力として、前記制御対象設備の制御内容を決定するためのモデルを用いて制御内容を決定し、該制御内容に基づいて、前記制御対象設備を制御する制御工程と、
前記モデルについて、前記制御工程によって制御が行われた後の前記センサによって得られたデータの値が、所定の値に近いほど高い報酬が付与されるように学習する学習工程と
を含んだことを特徴とする制御方法。 A control method implemented by the controller,
A collection step of collecting data acquired by a sensor installed in the control target facility;
A control step of determining control content using a model for determining control content of the control target facility using data collected by the collection step as an input, and controlling the control target facility based on the control content When,
And a learning step of learning that the value of the data obtained by the sensor after the control step is performed on the model is given higher reward as the value is closer to a predetermined value. Characteristic control method.
前記収集ステップによって収集されたデータを入力として、前記制御対象設備の制御内容を決定するためのモデルを用いて制御内容を決定し、該制御内容に基づいて、前記制御対象設備を制御する制御ステップと、
前記モデルについて、前記制御ステップによって制御が行われた後の前記センサによって得られたデータの値が、所定の値に近いほど高い報酬が付与されるように学習する学習ステップと
をコンピュータに実行させることを特徴とする制御プログラム。 A collection step of collecting data acquired by a sensor installed in the control target facility;
A control step of determining control content using a model for determining control content of the control target equipment using the data collected in the collection step as an input, and controlling the control target equipment based on the control content When,
Performing a learning step of learning that the value of the data obtained by the sensor after the control in the control step is performed on the model is higher as the value is closer to a predetermined value. A control program characterized by
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017193547A JP2019067238A (en) | 2017-10-03 | 2017-10-03 | Control device, control method and control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017193547A JP2019067238A (en) | 2017-10-03 | 2017-10-03 | Control device, control method and control program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019067238A true JP2019067238A (en) | 2019-04-25 |
Family
ID=66337903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017193547A Pending JP2019067238A (en) | 2017-10-03 | 2017-10-03 | Control device, control method and control program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019067238A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021014878A1 (en) | 2019-07-25 | 2021-01-28 | オムロン株式会社 | Inference device, inference method, and inference program |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04148303A (en) * | 1990-10-11 | 1992-05-21 | Fanuc Ltd | Synchronization operating system for cnc |
JP2002244725A (en) * | 2001-02-15 | 2002-08-30 | Hitachi Information & Control Systems Inc | Process monitoring controller |
US20150370227A1 (en) * | 2014-06-19 | 2015-12-24 | Hany F. Bassily | Controlling a Target System |
JP2016170715A (en) * | 2015-03-13 | 2016-09-23 | 株式会社東芝 | Equipment characteristics model learning system, a method and a program of learning a model of equipment characteristics |
JP2017033138A (en) * | 2015-07-30 | 2017-02-09 | ファナック株式会社 | Machine tool, simulation apparatus, and machine learning device |
JP2017102755A (en) * | 2015-12-02 | 2017-06-08 | 池上通信機株式会社 | Machine learning support device |
WO2017134847A1 (en) * | 2016-02-04 | 2017-08-10 | 三菱電機株式会社 | Air conditioning control evaluation device, air conditioning system, air conditioning control evaluation method and program |
JP2017142595A (en) * | 2016-02-09 | 2017-08-17 | ファナック株式会社 | Production control system and integrated production control system |
-
2017
- 2017-10-03 JP JP2017193547A patent/JP2019067238A/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04148303A (en) * | 1990-10-11 | 1992-05-21 | Fanuc Ltd | Synchronization operating system for cnc |
JP2002244725A (en) * | 2001-02-15 | 2002-08-30 | Hitachi Information & Control Systems Inc | Process monitoring controller |
US20150370227A1 (en) * | 2014-06-19 | 2015-12-24 | Hany F. Bassily | Controlling a Target System |
JP2016170715A (en) * | 2015-03-13 | 2016-09-23 | 株式会社東芝 | Equipment characteristics model learning system, a method and a program of learning a model of equipment characteristics |
JP2017033138A (en) * | 2015-07-30 | 2017-02-09 | ファナック株式会社 | Machine tool, simulation apparatus, and machine learning device |
JP2017102755A (en) * | 2015-12-02 | 2017-06-08 | 池上通信機株式会社 | Machine learning support device |
WO2017134847A1 (en) * | 2016-02-04 | 2017-08-10 | 三菱電機株式会社 | Air conditioning control evaluation device, air conditioning system, air conditioning control evaluation method and program |
JP2017142595A (en) * | 2016-02-09 | 2017-08-17 | ファナック株式会社 | Production control system and integrated production control system |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021014878A1 (en) | 2019-07-25 | 2021-01-28 | オムロン株式会社 | Inference device, inference method, and inference program |
US11941868B2 (en) | 2019-07-25 | 2024-03-26 | Omron Corporation | Inference apparatus, inference method, and computer-readable storage medium storing an inference program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Viera-Martin et al. | Artificial neural networks: a practical review of applications involving fractional calculus | |
Sun et al. | A two-layer surrogate-assisted particle swarm optimization algorithm | |
JP7279445B2 (en) | Prediction method, prediction program and information processing device | |
US11488035B2 (en) | Method and device for machine learning in a computing unit | |
US20210334440A1 (en) | Model optimization device, model optimization method, and program | |
EP3980946A1 (en) | Executing machine-learning models | |
US10635078B2 (en) | Simulation system, simulation method, and simulation program | |
US20170132531A1 (en) | Analysis device, analysis method, and program | |
CN116193819B (en) | Energy-saving control method, system and device for data center machine room and electronic equipment | |
CN112488183A (en) | Model optimization method and device, computer equipment and storage medium | |
US20220230067A1 (en) | Learning device, learning method, and learning program | |
CN113821903B (en) | Temperature control method and equipment, modularized data center and storage medium | |
JP2019067238A (en) | Control device, control method and control program | |
US20220326665A1 (en) | Control system, and control method | |
Yan et al. | Distributed fixed-time and prescribed-time average consensus for multi-agent systems with energy constraints | |
US11328099B2 (en) | Thermal model creation device, method, and program of building | |
CN114117778A (en) | Control parameter determination method and device, electronic equipment and storage medium | |
JP2021082367A (en) | Simulation device, simulation method, and simulation program | |
JP7010403B1 (en) | Information processing equipment and information processing method | |
Hsu et al. | Minimum-phase criterion on sampling time for sampled-data interval systems using genetic algorithms | |
TWI441029B (en) | Dynamic System Equivalent Model Modeling Method and Its Computer Program Product | |
Dang et al. | Stochastic configuration networks for adaptive inverse dynamics modeling | |
JP7118210B2 (en) | Learning device, extraction device, learning method, extraction method, learning program and extraction program | |
US20210334702A1 (en) | Model evaluating device, model evaluating method, and program | |
US20240135062A1 (en) | System, server, and method for predicting and controlling emissions in an industrial environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210305 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220120 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220412 |