JP7484868B2 - Operation system, operation method, and operation program, as well as evaluation model generation device, evaluation model generation method, and evaluation model generation program - Google Patents
Operation system, operation method, and operation program, as well as evaluation model generation device, evaluation model generation method, and evaluation model generation program Download PDFInfo
- Publication number
- JP7484868B2 JP7484868B2 JP2021175652A JP2021175652A JP7484868B2 JP 7484868 B2 JP7484868 B2 JP 7484868B2 JP 2021175652 A JP2021175652 A JP 2021175652A JP 2021175652 A JP2021175652 A JP 2021175652A JP 7484868 B2 JP7484868 B2 JP 7484868B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- evaluation model
- state
- target
- facility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013210 evaluation model Methods 0.000 title claims description 304
- 238000000034 method Methods 0.000 title claims description 55
- 238000002372 labelling Methods 0.000 claims description 207
- 230000009471 action Effects 0.000 claims description 51
- 238000010801 machine learning Methods 0.000 claims description 46
- 230000002787 reinforcement Effects 0.000 claims description 28
- 230000006399 behavior Effects 0.000 claims description 13
- 238000011017 operating method Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 37
- 230000008569 process Effects 0.000 description 33
- 238000012545 processing Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 23
- 238000013473 artificial intelligence Methods 0.000 description 22
- 238000007781 pre-processing Methods 0.000 description 15
- 230000004044 response Effects 0.000 description 14
- 230000015654 memory Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 239000003054 catalyst Substances 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Landscapes
- Feedback Control In General (AREA)
- Testing And Monitoring For Control Systems (AREA)
Description
本発明は、操業システム、操業方法、および、操業プログラム、ならびに、評価モデル生成装置、評価モデル生成方法、および、評価モデル生成プログラムに関する。 The present invention relates to an operation system, an operation method, and an operation program, as well as an evaluation model generation device, an evaluation model generation method, and an evaluation model generation program.
特許文献1には、「測定データの入力に応じ、予め設定された報酬関数により定まる報酬値を高めるために推奨される第1種類の制御内容を示す推奨制御パラメータを出力する第1モデルの学習処理を実行する」と記載されている。
[先行技術文献]
[特許文献]
[特許文献1] 特開2021-086283
[特許文献2] 特開2020-027556
[特許文献3] 特開2019-020885
[Prior Art Literature]
[Patent Documents]
[Patent Document 1] JP2021-086283
[Patent Document 2] JP2020-027556A
[Patent Document 3] JP2019-020885A
本発明の第1の態様においては、操業システムを提供する。上記操業システムは、機械学習により、設備における操業目標および上記設備における状態に基づいて対象とする目標について上記設備における状態を評価した指標を出力する評価モデルを生成する評価モデル生成装置を備えてよい。上記操業システムは、上記評価モデルの出力を報酬の少なくとも一部とした強化学習により、上記設備における状態に応じた行動を出力する操業モデルを生成する操業モデル生成装置を備えてよい。上記操業システムは、上記設備の状態に応じて上記操業モデルが出力する行動に基づく操作量を、上記設備における制御対象へ与える制御装置を備えてよい。 In a first aspect of the present invention, an operation system is provided. The operation system may include an evaluation model generation device that generates, by machine learning, an evaluation model that outputs an index that evaluates a state of the equipment for a target goal based on an operation goal of the equipment and the state of the equipment. The operation system may include an operation model generation device that generates, by reinforcement learning using the output of the evaluation model as at least a part of a reward, an operation model that outputs an action according to the state of the equipment. The operation system may include a control device that applies an operation amount based on the action output by the operation model according to the state of the equipment to a control target of the equipment.
上記評価モデル生成装置は、上記制御対象が上記操業モデルを用いて制御された場合における上記設備における状態に基づいて、上記評価モデルを更新してよい。 The evaluation model generation device may update the evaluation model based on the state of the equipment when the control object is controlled using the operation model.
上記操業モデル生成装置は、更新された上記評価モデルの出力を報酬の少なくとも一部とした強化学習により、上記操業モデルを更新してよい。 The operation model generation device may update the operation model by reinforcement learning using the output of the updated evaluation model as at least a part of the reward.
上記制御装置は、更新された上記操業モデルを用いて上記制御対象を制御してよい。 The control device may control the control object using the updated operation model.
上記評価モデル生成装置は、上記操業目標を取得する操業目標取得部を備えてよい。上記評価モデル生成装置は、上記設備における状態を示す状態データを取得する状態データ取得部を備えてよい。上記評価モデル生成装置は、上記操業目標に基づいて、上記状態データに含まれる少なくとも1つの物理量と時間との間における相関、および、上記状態データに含まれる少なくとも2つの物理量の間における相関の少なくともいずれかを示す相関データを生成する相関データ生成部を備えてよい。上記評価モデル生成装置は、ラベリングモデルを用いて、上記相関データをラベリングするラベリング部を備えてよい。上記評価モデル生成装置は、上記ラベリングされた相関データを用いて、上記評価モデルを生成する評価モデル生成部を備えてよい。 The evaluation model generation device may include an operation goal acquisition unit that acquires the operation goal. The evaluation model generation device may include a state data acquisition unit that acquires state data indicating a state of the equipment. The evaluation model generation device may include a correlation data generation unit that generates correlation data indicating at least one of a correlation between at least one physical quantity included in the state data and time and a correlation between at least two physical quantities included in the state data, based on the operation goal. The evaluation model generation device may include a labeling unit that labels the correlation data using a labeling model. The evaluation model generation device may include an evaluation model generation unit that generates the evaluation model using the labeled correlation data.
上記評価モデル生成装置は、上記評価モデルの妥当性を判定する評価モデル判定部を更に備えてよい。 The evaluation model generation device may further include an evaluation model determination unit that determines the validity of the evaluation model.
上記評価モデル生成装置は、上記評価モデルが妥当であると判定された場合に、上記評価モデルを出力する評価モデル出力部を更に備えてよい。 The evaluation model generation device may further include an evaluation model output unit that outputs the evaluation model when the evaluation model is determined to be valid.
上記評価モデル生成装置は、上記評価モデルが妥当であると判定された場合に、上記ラベリングモデルを更新するラベリングモデル更新部を更に備えてよい。 The evaluation model generation device may further include a labeling model update unit that updates the labeling model when the evaluation model is determined to be valid.
上記評価モデル生成装置は、上記相関データの少なくとも一部について教師ラベルを取得する教師ラベル取得部を更に備えてよい。上記ラベリングモデル更新部は、上記教師ラベルに基づいて生成された初期のラベリングモデルとは別に、更新用のラベリングモデルを生成してよい。 The evaluation model generating device may further include a teacher label acquiring unit that acquires teacher labels for at least a portion of the correlation data. The labeling model updating unit may generate an updated labeling model separately from the initial labeling model generated based on the teacher labels.
本発明の第2の態様においては、操業方法を提供する。上記操業方法は、機械学習により、設備における操業目標および上記設備における状態に基づいて対象とする目標について上記設備における状態を評価した指標を出力する評価モデルを生成することを備えてよい。上記操業方法は、上記評価モデルの出力を報酬の少なくとも一部とした強化学習により、上記設備における状態に応じた行動を出力する操業モデルを生成することを備えてよい。上記操業方法は、上記設備の状態に応じて上記操業モデルが出力する行動に基づく操作量を、上記設備における制御対象へ与えることを備えてよい。 In a second aspect of the present invention, an operation method is provided. The operation method may include generating, by machine learning, an evaluation model that outputs an index that evaluates a state of the equipment for a target target based on an operation target of the equipment and a state of the equipment. The operation method may include generating, by reinforcement learning using an output of the evaluation model as at least a part of a reward, an operation model that outputs an action according to the state of the equipment. The operation method may include providing, to a control target of the equipment, an operation amount based on the action output by the operation model according to the state of the equipment.
本発明の第3の態様においては、操業プログラムを提供する。上記操業プログラムは、コンピュータにより実行されてよい。上記操業プログラムは、上記コンピュータを、機械学習により、設備における操業目標および上記設備における状態に基づいて対象とする目標について上記設備における状態を評価した指標を出力する評価モデルを生成する評価モデル生成装置として機能させてよい。上記操業プログラムは、上記コンピュータを、上記評価モデルの出力を報酬の少なくとも一部とした強化学習により、上記設備における状態に応じた行動を出力する操業モデルを生成する操業モデル生成装置として機能させてよい。上記操業プログラムは、上記コンピュータを、上記設備の状態に応じて上記操業モデルが出力する行動に基づく操作量を、上記設備における制御対象へ与える制御装置として機能させてよい。 In a third aspect of the present invention, an operation program is provided. The operation program may be executed by a computer. The operation program may cause the computer to function as an evaluation model generation device that generates, by machine learning, an evaluation model that outputs an index that evaluates a state of the equipment for a target goal based on an operational goal of the equipment and the state of the equipment. The operation program may cause the computer to function as an operation model generation device that generates, by reinforcement learning using the output of the evaluation model as at least a part of a reward, an operation model that outputs an action according to the state of the equipment. The operation program may cause the computer to function as a control device that gives an operation amount based on the action output by the operation model according to the state of the equipment to a control target in the equipment.
本発明の第4の態様においては、評価モデル生成装置を提供する。上記評価モデル生成装置は、設備における操業目標を取得する操業目標取得部を備えてよい。上記評価モデル生成装置は、上記設備における状態を示す状態データを取得する状態データ取得部を備えてよい。上記評価モデル生成装置は、上記操業目標に基づいて、上記状態データに含まれる少なくとも1つの物理量と時間との間における相関、および、上記状態データに含まれる少なくとも2つの物理量の間における相関の少なくともいずれかを示す相関データを生成する相関データ生成部を備えてよい。上記評価モデル生成装置は、ラベリングモデルを用いて、上記相関データをラベリングするラベリング部を備えてよい。上記評価モデル生成装置は、上記ラベリングされた相関データを用いて、上記設備における操業目標および上記設備における状態に基づいて対象とする目標について上記設備における状態を評価した指標を出力する評価モデルを生成する評価モデル生成部を備えてよい。 In a fourth aspect of the present invention, an evaluation model generation device is provided. The evaluation model generation device may include an operation target acquisition unit that acquires an operation target in the facility. The evaluation model generation device may include a state data acquisition unit that acquires state data indicating a state in the facility. The evaluation model generation device may include a correlation data generation unit that generates correlation data indicating at least one of a correlation between at least one physical quantity included in the state data and time and a correlation between at least two physical quantities included in the state data, based on the operation target. The evaluation model generation device may include a labeling unit that labels the correlation data using a labeling model. The evaluation model generation device may include an evaluation model generation unit that generates an evaluation model that outputs an index that evaluates the state of the facility for a target target based on the operation target in the facility and the state of the facility, using the labeled correlation data.
本発明の第5の態様においては、評価モデル生成方法を提供する。上記評価モデル生成方法は、設備における操業目標を取得することを備えてよい。上記評価モデル生成方法は、上記設備における状態を示す状態データを取得することを備えてよい。上記評価モデル生成方法は、上記操業目標に基づいて、上記状態データに含まれる少なくとも1つの物理量と時間との間における相関、および、上記状態データに含まれる少なくとも2つの物理量の間における相関の少なくともいずれかを示す相関データを生成することを備えてよい。上記評価モデル生成方法は、ラベリングモデルを用いて、上記相関データをラベリングすることを備えてよい。上記評価モデル生成方法は、上記ラベリングされた相関データを用いて、上記設備における操業目標および上記設備における状態に基づいて対象とする目標について上記設備における状態を評価した指標を出力する評価モデルを生成することを備えてよい。 In a fifth aspect of the present invention, there is provided an evaluation model generation method. The evaluation model generation method may include acquiring an operation target for a facility. The evaluation model generation method may include acquiring status data indicating a status of the facility. The evaluation model generation method may include generating correlation data indicating at least one of a correlation between at least one physical quantity included in the status data and time and a correlation between at least two physical quantities included in the status data, based on the operation target. The evaluation model generation method may include labeling the correlation data using a labeling model. The evaluation model generation method may include generating an evaluation model that outputs an index that evaluates a status of the facility for a target target based on the operation target for the facility and the status of the facility, using the labeled correlation data.
本発明の第6の態様においては、評価モデル生成プログラムを提供する。上記評価モデル生成プログラムは、コンピュータにより実行されてよい。上記評価モデル生成プログラムは、上記コンピュータを、設備における操業目標を取得する操業目標取得部として機能させてよい。上記評価モデル生成プログラムは、上記コンピュータを、上記設備における状態を示す状態データを取得する状態データ取得部として機能させてよい。上記評価モデル生成プログラムは、上記コンピュータを、上記操業目標に基づいて、上記状態データに含まれる少なくとも1つの物理量と時間との間における相関、および、上記状態データに含まれる少なくとも2つの物理量の間における相関の少なくともいずれかを示す相関データを生成する相関データ生成部として機能させてよい。上記評価モデル生成プログラムは、上記コンピュータを、ラベリングモデルを用いて、上記相関データをラベリングするラベリング部として機能させてよい。上記評価モデル生成プログラムは、上記コンピュータを、上記ラベリングされた相関データを用いて、上記設備における操業目標および上記設備における状態に基づいて対象とする目標について上記設備における状態を評価した指標を出力する評価モデルを生成する評価モデル生成部として機能させてよい。 In a sixth aspect of the present invention, an evaluation model generation program is provided. The evaluation model generation program may be executed by a computer. The evaluation model generation program may cause the computer to function as an operation target acquisition unit that acquires an operation target in the facility. The evaluation model generation program may cause the computer to function as a status data acquisition unit that acquires status data indicating a status in the facility. The evaluation model generation program may cause the computer to function as a correlation data generation unit that generates correlation data indicating at least one of a correlation between at least one physical quantity included in the status data and time and a correlation between at least two physical quantities included in the status data, based on the operation target. The evaluation model generation program may cause the computer to function as a labeling unit that labels the correlation data using a labeling model. The evaluation model generation program may cause the computer to function as an evaluation model generation unit that generates an evaluation model that outputs an index that evaluates the status of the facility for a target target based on the operation target in the facility and the status of the facility, using the labeled correlation data.
なお、上記の発明の概要は、本発明の特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。 Note that the above summary of the invention does not list all of the features of the present invention. Also, subcombinations of these features may also be inventions.
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。 The present invention will be described below through embodiments of the invention, but the following embodiments do not limit the invention according to the claims. Furthermore, not all of the combinations of features described in the embodiments are necessarily essential to the solution of the invention.
図1は、本実施形態に係る操業システム100のブロック図の一例を、設備10および本部20とともに示す。なお、これらブロックは、それぞれ機能的に分離された機能ブロックであって、実際の装置構成とは必ずしも一致していなくてもよい。すなわち、本図において、1つのブロックとして示されているからといって、それが必ずしも1つの装置により構成されていなくてもよい。また、本図において、別々のブロックとして示されているからといって、それらが必ずしも別々の装置により構成されていなくてもよい。これより先のブロック図についても同様である。
Figure 1 shows an example of a block diagram of an
設備10は、アクチュエータ等の制御対象が備え付けられた施設や装置等である。例えば、設備10は、プラントであってもよいし、複数の機器を複合させた複合装置であってもよい。プラントとしては、化学やバイオ等の工業プラントの他、ガス田や油田等の井戸元やその周辺を管理制御するプラント、水力・火力・原子力等の発電を管理制御するプラント、太陽光や風力等の環境発電を管理制御するプラント、上下水やダム等を管理制御するプラント等が挙げられる。
The
本部20は、設備10を経営する事業の中心となる機関であり、例えば、事業者の本社等であってよい。例えばこのような本部20には、事業者の経営を担当する経営陣が在籍していてよい。経営陣は、操業システム100へ操業目標を指定する。ここで、操業目標とは、設備10を操業するにあたって設定された目標であり、例えば、目標とする項目や値が含まれていてよい。
The
本実施形態に係る操業システム100においては、設備10における状態を評価した指標を出力する評価モデルを機械学習により生成し、当該評価モデルの出力を報酬の少なくとも一部とした強化学習により操業モデルを生成する。そして、本実施形態に係る操業システム100においては、このようにして生成された操業モデルを用いて設備10における制御対象を制御する。
In the
操業システム100は、評価モデル生成装置200、操業モデル生成装置300、および、制御装置400を備える。
The
評価モデル生成装置200は、機械学習により、設備10における操業目標および設備10における状態に基づいて対象とする目標について設備10における状態を評価した指標を出力する評価モデルを生成する。評価モデル生成装置200は、生成した評価モデルを操業モデル生成装置300へ供給する。
The evaluation
操業モデル生成装置300は、評価モデル生成装置200が生成した評価モデルの出力を報酬の少なくとも一部とした強化学習により、設備10における状態に応じた行動を出力する操業モデルを生成する。操業モデル生成装置300は、生成した操業モデルを制御装置400へ供給する。
The operation
制御装置400は、設備10の状態に応じて操業モデル生成装置300が生成した操業モデルが出力する行動に基づく操作量を、設備10における制御対象へ与える。すなわち、制御装置400は、強化学習により生成された操業モデルを用いたAI(Artificial Intelligence)コントローラとして機能する。
The
この際、評価モデル生成装置200は、制御対象が操業モデルを用いて制御された場合における設備10における状態に基づいて、評価モデルを更新する。これに応じて、操業モデル生成装置300は、更新された評価モデルの出力を報酬の少なくとも一部とした強化学習により、操業モデルを更新する。そして、制御装置400は、更新された操業モデルを用いて制御対象を制御する。
At this time, the evaluation
このように、本実施形態に係る操業システム100においては、AIが自動的に操業におけるボトルネック(ポテンシャルフォルト)を探し出し、改善のための指標を評価モデルとして生成する。そして、AIが与えられた指標を基に試行錯誤を行い、より良い操業方法を指示する操業モデルを生成する。そして、AIコントローラが当該操業モデルを用いて制御対象をAI制御する。これにより、本実施形態に係る操業システム100によれば、AI技術を用いて設備10を自律制御可能な環境を提供する。そして、本実施形態に係る操業システム100は、このようなAI制御下における設備の状態に基づいて、評価モデルおよび操業モデルを更新し、更新された操業モデルを用いて制御対象をAI制御する。これにより、本実施形態に係る操業システム100によれば、設備10における操業を改善するループを自律的に回すことができる。これについて詳細に説明する。
In this way, in the
図2は、本実施形態に係る操業システム100における評価モデル生成装置200のブロック図の一例を示す。評価モデル生成装置200は、PC(パーソナルコンピュータ)、タブレット型コンピュータ、スマートフォン、ワークステーション、サーバコンピュータ、または汎用コンピュータ等のコンピュータであってよく、複数のコンピュータが接続されたコンピュータシステムであってもよい。このようなコンピュータシステムもまた広義のコンピュータである。また、評価モデル生成装置200は、コンピュータ内で1または複数実行可能な仮想コンピュータ環境によって実装されてもよい。これに代えて、評価モデル生成装置200は、評価モデルの生成用に設計された専用コンピュータであってもよく、専用回路によって実現された専用ハードウェアであってもよい。また、インターネットに接続可能な場合、評価モデル生成装置200は、クラウドコンピューティングにより実現されてもよい。
Figure 2 shows an example of a block diagram of the evaluation
評価モデル生成装置200は、ラベリング機能部210および機械学習機能部230を備える。なお、本図においては、ラベリング機能部210と機械学習機能部230とが一体の装置として構成されている場合を一例として示しているが、これに限定されるものではない。ラベリング機能部210と機械学習機能部230とは別体の装置として構成されていてもよい。
The evaluation
ラベリング機能部210は、操業目標取得部212と、状態データ取得部214と、相関データ生成部216と、教師ラベル取得部218と、ラベリング部220と、ラベリングデータ出力部222と、ラベリングモデル更新部224とを含む。すなわち、評価モデル生成装置200は、操業目標取得部212と、状態データ取得部214と、相関データ生成部216と、教師ラベル取得部218と、ラベリング部220と、ラベリングデータ出力部222と、ラベリングモデル更新部224とを備える。
The
操業目標取得部212は、設備10における操業目標を取得する。例えば、操業目標取得部212は、本部20からネットワークを介して操業目標を取得する。しかしながら、これに限定されるものではない。操業目標取得部212は、操業目標を他の装置から取得してもよいし、各種メモリデバイスを介して取得してもよいし、ユーザ入力を介して取得してもよい。操業目標取得部212は、取得した操業目標を相関データ生成部216へ供給する。
The operation
状態データ取得部214は、設備10における状態を示す状態データを取得する。例えば、状態データ取得部214は、設備10に設けられた各種センサが測定した様々な物理量を、状態データとして設備10からネットワークを介して時系列に取得する。しかしながら、これに限定されるものではない。状態データ取得部214は、状態データを他の装置から取得してもよいし、各種メモリデバイスを介して取得してもよいし、ユーザ入力を介して取得してもよい。状態データ取得部214は、取得した状態データを相関データ生成部216へ供給する。
The status
相関データ生成部216は、操業目標取得部212が取得した操業目標に基づいて、状態データ取得部214が取得した状態データに含まれる少なくとも1つの物理量と時間との間における相関、および、状態データに含まれる少なくとも2つの物理量の間における相関の少なくともいずれかを示す相関データを生成する。この際、相関データ生成部216は、これら相関をグラフ化したグラフ画像を含む相関データを生成してよい。相関データ生成部216は、生成した相関データをラベリング部220へ供給する。
The correlation
教師ラベル取得部218は、相関データ生成部216が生成した相関データの少なくとも一部について教師ラベルを取得する。例えば、教師ラベル取得部218は、ユーザ(有識者等)入力を介して教師ラベルを取得する。しかしながら、これに限定されるものではない。教師ラベル取得部218は、教師ラベルを他の装置から取得してもよいし、ネットワークを介して取得してもよいし、各種メモリデバイスを介して取得してもよい。教師ラベル取得部218は、取得した教師ラベルをラベリング部220へ供給する。
The teacher
ラベリング部220は、教師ラベル取得部218が取得した教師ラベルに基づいて生成されたラベリングモデルを用いて、相関データ生成部216が生成した相関データをラベリングする。例えば、ラベリング部220は、相関データ生成部216が生成した相関データの少なくとも一部に教師ラベル取得部218が取得した教師ラベルが付されたデータを教師データとして学習器に入力することにより、初期のラベリングモデルを生成する。そして、ラベリング部220は、当該初期のラベリングモデルおよび後述する更新用のラベリングモデルを用いて、ラベルが未付与の相関データをラベリングする。なお、上述の説明では、教師データにおける相関データが相関データ生成部216によって生成されたものである場合を一例として示したが、これに限定されるものではない。教師データにおける相関データは、有識者等によって生成されたものであってもよい。この場合、教師ラベル取得部218は、有識者等から教師ラベルを取得することに代えて、教師ラベルが付された教師データそれ自体を取得し、これをラベリング部220へ供給してもよい。ラベリング部220は、ラベリングした相関データをラベリングデータ出力部222へ供給する。
The
ラベリングデータ出力部222は、ラベリング部220がラベリングした相関データとセンサデータ(物理量の測定値)とに基づき、ラベリングデータを生成する。ラベリングデータ出力部222は、生成したラベリングデータを機械学習機能部230へ出力する。
The labeling
ラベリングモデル更新部224は、後述する評価モデルの判定結果を取得する。そして、ラベリングモデル更新部224は、評価モデルが妥当であると判定された場合に、ラベリングモデルを更新する。この際、ラベリングモデル更新部224は、教師ラベルに基づいて生成された初期のラベリングモデルとは別に、更新用のラベリングモデルを生成してよい。
The labeling
機械学習機能部230は、ラベリングデータ取得部240と、評価モデル生成部250と、評価モデル判定部260と、評価モデル出力部270とを含む。すなわち、評価モデル生成装置200は、ラベリングデータ取得部240と、評価モデル生成部250と、評価モデル判定部260と、評価モデル出力部270と備える。
The machine
ラベリングデータ取得部240は、ラベリングデータ出力部222が出力したラベリングデータを取得する。ラベリングデータ取得部240は、取得したラベリングデータを評価モデル生成部250へ供給する。
The labeling
評価モデル生成部250は、ラベリングデータ取得部240が取得したラベリングデータ、すなわち、ラベリング部220によってラベリングされた相関データとセンサデータとに基づき生成されたラベリングデータを用いて、設備10における操業目標および設備10における状態に基づいて対象とする目標について設備10における状態を評価した指標を出力する評価モデルを生成する。評価モデル生成部250は、生成した評価モデルを評価モデル判定部260および評価モデル出力部270へ供給する。
The evaluation
評価モデル判定部260は、評価モデル生成部250が生成した評価モデルの妥当性を判定する。評価モデル判定部260は、評価モデルが妥当であると判定した場合に、その旨をラベリングモデル更新部224および評価モデル出力部270へ通知する。これに応じて、ラベリングモデル更新部224は、ラベリングモデルを更新する。
The evaluation
評価モデル出力部270は、評価モデルが妥当であると判定された場合に、評価モデルを操業モデル生成装置300へ出力する。
If the evaluation model is determined to be valid, the evaluation
これについて、先ず、評価モデル生成装置200のラベリング機能部210における処理の詳細を、データ例やフローを用いて詳細に説明する。
First, we will explain the details of the processing in the
図3は、ラベリング部220が初期のラベリングモデルを生成するにあたって学習器に入力する教師データの一例を示す。本図に示されるように、学習器に入力する教師データには、「操業目標」、「対象」、「タグ情報1」、「タグ情報2」、「グラフ画像」、および、「ラベル」が含まれていてよい。ここで、「操業目標」には、目標とする項目を示す「目標項目」、および、当該目標項目についての「目標値」が含まれていてよい。また、「対象」には、対象となるセグメントの「カテゴリ」、および、対象となる「制御ループ」が含まれていてよい。また、「タグ情報1」には、タグ1の「名前」、「物理量」の種別、「最小値」、「最大値」、および、「単位」が含まれていてよい。また、「タグ情報2」には、タグ2の「名前」、「物理量」の種別、「最小値」、「最大値」、および、「単位」が含まれていてよい。
Figure 3 shows an example of teacher data that the
また、「グラフ画像」は、タグ1とタグ2の相関をグラフ化した画像であってよい。例えば、「xxx1.jpg」や「xxx2.jpg」は、タグ1の濃度を縦軸、タグ2の時間を横軸としてグラフ化した時系列画像であってよい。同様に、「xxx3.jpg」や「xxx4.jpg」は、タグ1の加速度を縦軸、タグ2の時間を横軸としてグラフ化した時系列画像であってよい。また、「xxx5.jpg」や「xxx6.jpg」は、タグ1の温度を縦軸、タグ2の濃度を横軸としてグラフ化した分布図(散布図)画像であってよい。換言すれば、「グラフ画像」における縦軸は「タグ情報1」によって定義され、「グラフ画像」における横軸は「タグ情報2」によって定義されているということができる。
The "graph image" may be an image that graphs the correlation between
また、「ラベル」は、有識者等によって付された教師ラベルである。ラベリング部220は、このような項目を含む教師データを学習器に入力することにより、初期のラベリングモデルを生成してよい。なお、本図においては、ラベルとして「OK」ラベルと「NG」ラベルの両者が用いられる場合を一例として示したが、これに限定されるものではない。ラベルとして「OK」ラベルのみが用いられてもよいし、「NG」ラベルのみが用いられてもよい。特に、操業におけるボトルネックを探し出す用途においては、ラベルとして少なくとも「NG」ラベルが用いられるとよい。
Furthermore, a "label" is a teacher label assigned by an expert or the like. The
図4は、ラベリング部220が用いる学習器の設計例の一例を示す。ラベリング部220は、このような学習器として様々な学習アルゴリズムを用いてもよく、一例として、Deep Learningを用いてもよい。学習器は、操業目標を分類する機能部と、対象を分類する機能部と、物理量(タグ情報)を分類する機能部と、グラフ画像を分類する機能部を有していてよい。この際、学習器は、本図に示されるように、操業目標を分類する目標分類層、対象を分類する対象分類層、物理量を分類する物理量分類層、および、グラフ画像を分類するグラフ分類層のような各項目に反応する層を有するように設計されてもよい。
Figure 4 shows an example of a design example of a learning device used by the
図5は、ラベリング部220が用いる学習器の設計例の他の例を示す。図4のように学習器に各項目に反応する層を用意することに代えて、学習器は、本図に示されるように、操業目標を分類する目標分類モデル、対象を分類する対象分類モデル、物理量を分類する物理量分類モデル、および、グラフ画像を分類するグラフ分類モデルのような各層毎に分類可能なモデルを有するように設計されてもよい。
Figure 5 shows another example of the design of a learning machine used by the
図6は、ラベリング部220がラベリングの対象とするラベルが未付与の相関データの一例を示す。本図に示されるように、ラベルが未付与の相関データには、「操業目標」、「対象」、「タグ情報1」、「タグ情報2」、および、「グラフ画像」が含まれていてよい。これら各項目については、図3に示される教師データの各項目と同様であってよいので、ここでは説明を省略する。
Figure 6 shows an example of unlabeled correlation data that is the target of labeling by the
図7は、設備10におけるI/Oリストの一例を示す。I/Oリストは、設備10に設けられた各機器の情報をリスト化したものである。このようなI/Oリストは、相関データの生成やラベリングデータの生成の際に適宜参照される。
Figure 7 shows an example of an I/O list in the
図8は、設備10におけるセグメント図の一例を示す。セグメント図は、設備10におけるセグメントの構成を示す図である。このようなセグメント図についても、I/Oリストと同様、相関データの生成やラベリングデータの生成の際に適宜参照される。
Figure 8 shows an example of a segment diagram for
図9は、ラベリングデータ出力部222が出力するラベリングデータの一例を示す。本図に示されるように、ラベリングデータには、「OK」ラベルが付されたラベリングデータおよび「NG」ラベルが付されたラベリングデータが含まれていてよい。このようなラベリングデータには、それぞれ、センサID(タグ名)に対応するセンサデータが含まれている。すなわち、ラベリングデータは、1つまたは複数のセンサにおける測定値がどのような値の場合に「OK」ラベルが付され、どのような値の場合に「NG」ラベルが付されているかを示している。
Figure 9 shows an example of labeling data output by the labeling
ラベリング機能部210は、例えば本図に示されるようなラベリングデータを生成して出力する。これについてフローを用いて詳細に説明する。
The
図10は、評価モデル生成装置200のラベリング機能部210における処理フローの一例を示す。評価モデル生成装置200のラベリング機能部210は、例えば本図に示されるフローにより、ラベリング処理を実行してよい。
Figure 10 shows an example of a processing flow in the
ステップS1002において、評価モデル生成装置200は、設備10における操業目標を取得する。例えば、操業目標取得部212は、本部20からネットワークを介して操業目標を取得する。このような操業目標には、例えば、目標とする項目を示す目標項目、および、当該目標項目についての目標値が含まれていてよい。一例として、設備10がプラントである場合、操業目標取得部212は、操業目標としてプラントKPI(Key Performance Indicator:重要業績評価指標)を取得してよい。操業目標取得部212は、取得した操業目標を相関データ生成部216へ供給する。
In step S1002, the evaluation
ステップS1004において、評価モデル生成装置200は、設備10における状態を示す状態データを取得する。例えば、状態データ取得部214は、設備10に設けられた各種センサが測定した様々な物理量を、状態データとして設備10からネットワークを介して時系列に取得する。このような物理量には、例えば、設備10の様々な箇所における温度、濃度、加速度、および、圧力等が含まれていてよい。状態データ取得部214は、取得した状態データを相関データ生成部216へ供給する。
In step S1004, the evaluation
ステップS1006において、評価モデル生成装置200は、操業目標に基づいて、状態データに含まれる少なくとも1つの物理量と時間との間における相関、および、状態データに含まれる少なくとも2つの物理量の間における相関の少なくともいずれかを示す相関データを生成する。例えば、相関データ生成部216は、ステップS1002において取得された操業目標に基づいて、ステップS1004において取得された状態データに含まれる少なくとも1つの物理量と時間との間における相関、および、状態データに含まれる少なくとも2つの物理量の間における相関の少なくともいずれかを示す相関データを生成する。一例として、相関データ生成部216は、ステップS1002において取得された操業目標により「操業目標」の項目を入力する。また、相関データ生成部216は、図7に示されるI/Oリスト、および、図8に示されるセグメント図を参照することにより「対象」の項目、「タグ情報1」、および、「タグ情報2」の項目を網羅的に入力する。そして、相関データ生成部216は、「タグ情報1」によって横軸を定義し、「タグ情報2」によって縦軸を定義することにより、タグ1とタグ2の相関をグラフ化し、このようにグラフ化された画像(例えば、時系列画像や分布図画像)を「グラフ画像」の項目に入力する。これにより、相関データ生成部216は、例えば、図3に示される教師データのうちの「教師ラベル」の項目以外の相関データや、図6に示されるラベルが未付与の相関データを生成する。相関データ生成部216は、生成した相関データをラベリング部220へ供給する。
In step S1006, the evaluation
ステップS1008において、評価モデル生成装置200は、ラベリングモデルの有無を判定する。例えば、評価モデル生成装置200は、ラベルが未付与の相関データをラベリングするためのラベリングモデルが生成済みであるか否か判定する。ラベリングモデルが無い(生成済みでない)と判定された場合(Noの場合)、評価モデル生成装置200は、処理をステップS1010へ進める。
In step S1008, the evaluation
ステップS1010において、評価モデル生成装置200は、相関データの少なくとも一部について教師ラベルを取得する。例えば、教師ラベル取得部218は、ステップS1006において生成された相関データが表示されたことに応じて、教師ラベルの入力を受け付ける。これに応じて、有識者等は、グラフ画像を基に相関データを判断し、「問題なし」と判断した相関データに「OK」ラベルを付し、「問題あり/疑わしい」と判断した相関データに「NG」ラベルを付す。すなわち、有識者等は、どのデータに着目してどこがおかしいかをラベリングする。教師ラベル取得部218は、例えばこのようにして、ユーザ入力を介して教師ラベルを取得する。教師ラベル取得部218は、取得した教師ラベルをラベリング部220へ供給する。
In step S1010, the evaluation
ステップS1012において、評価モデル生成装置200は、初期のラベリングモデルを生成する。例えば、ラベリング部220は、ステップS1006において生成された相関データの少なくとも一部にステップS1010において取得した教師ラベルを付すことにより、例えば図3に示されるような教師データを生成する。そして、ラベリング部220は、このような教師データを、例えば、図4や図5に示される学習器に入力することにより、初期のラベリングモデルを生成する。そして、評価モデル生成装置200は、処理をステップS1002に戻してフローを継続する。これ以降、評価モデル生成装置200は、このようにして生成したラベリングモデルを用いてラベルが未付与の相関データをラベリングすることとなる。
In step S1012, the evaluation
ステップS1012において初期のラベリングモデルが生成された後は、ステップS1008において、評価モデル生成装置200は、ラベリングモデルが有る(生成済みである)と判定し、処理をステップS1014へ進める。
After the initial labeling model is generated in step S1012, in step S1008, the evaluation
ステップS1014において、評価モデル生成装置200は、ステップS1010において取得された教師ラベルに基づいて生成されたラベリングモデルを用いて、ステップS1006において生成された相関データをラベリングする。この際、グラフ画像で用いるデータの範囲は、操業目標を基にして紐づけておいてもよいし、初期のラベリングモデルを生成する際に用いられたデータを使って絞っておいてもよい。例えば、ラベリング部220は、ステップS1012において生成された初期のラベリングモデルおよび更新用のラベリングモデルに、ラベルが未付与の相関データを入力する。これに応じて、ラベリングモデルは、操業目標を分類し、対象を分類し、物理量を分類し、そして、グラフ画像を分類する。すなわち、ラベリングモデルは、操業目標が共通または類似するデータを識別し、対象が共通または類似するデータを識別し、物理量が共通または類似するデータを識別する。そして、ラベリングモデルは、このようにして識別されたグラフ画像を比較し、ラベルが未付与の相関データに対して、グラフ画像が「OK」ラベルが付されたグラフ画像に類似する場合に「OK」ラベルを付し、グラフ画像が「NG」ラベルが付されたグラフ画像に類似する場合に「NG」ラベルを付す。この際、ラベリングモデルは、データを画像にしてグラフの形で類似を判別してもよいし、RNN(Recurrent Neural Netwоrk)やLSTM(Long Short Term Memory)等を使ってデータ波形が類似するかどうかを判別してもよい。
In step S1014, the evaluation
ラベリング部220は、初期のラベリングモデルが「OK」に分類し、かつ、更新用のラベリングモデルが「OK」に分類した相関データに対して「OK」ラベルを付してよい。同様に、ラベリング部220は、初期のラベリングモデルが「NG」に分類し、かつ、更新用のラベリングモデルが「NG」に分類した相関データに対して「NG」ラベルを付してよい。すなわち、ラベリング部220は、初期のラベリングモデルの分類結果と更新用のラベリングモデルの分類結果の論理積により、相関データをラベリングしてもよい。しかしながら、初期のラベリングモデルと更新用のラベリングモデルとが異なる分類結果を示すことも考えられる。このような場合には、ラベリング部220は、初期のラベリングモデルの分類結果を優先してもよい。これに代えて、ラベリング部220は、更新用のラベリングモデルの分類結果を優先してもよい。または、ラベリング部220は、初期のラベリングモデルの分類結果と更新用のラベリングモデルの分類結果の論理和により、相関データをラベリングしてもよい。ラベリング部220は、このようにしてラベリングされた相関データをラベリングデータ出力部222へ供給する。
The
ステップS1016において、評価モデル生成装置200は、ラベリングデータを出力する。例えば、ラベリングデータ出力部222は、ステップS1014においてラベリングされた相関データとセンサデータとに基づき、例えば、図9に示されるようなラベリングデータを生成する。そして、ラベリングデータ出力部222は、生成したラベリングデータを機械学習機能部230へ出力する。
In step S1016, the evaluation
ステップS1018において、評価モデル生成装置200は、評価モデルが妥当である旨の判定結果を取得したかどうか判定する。取得していないと判定された場合(Noの場合)、評価モデル生成装置200は、フローを終了する。一方、取得したと判定された場合(Yesの場合)、評価モデル生成装置200は、処理をステップS1020へ進める。
In step S1018, the evaluation
ステップS1020において、評価モデル生成装置200は、評価モデルが妥当である旨の判定結果を取得したと判定された場合に、ラベリングモデルを更新する。例えば、ラベリングモデル更新部224は、教師ラベルに基づいて生成された初期のラベリングモデルとは別に、更新用のラベリングモデルを生成し、当該更新用のラベリングモデルを更新する。一般に、学習器により付与されたラベルよりも有識者等により付与された教師ラベルの方が確からしい。したがって、ラベリングモデル更新部224は、初期のラベリングモデルを更新していくのではなく、初期のラベリングモデルとは別に生成された更新用のラベリングモデルを更新することで、有識者等により付与された教師ラベルの影響度が徐々に薄まっていくことを避けることができる。しかしながら、これに限定されるものではなく、ラベリングモデル更新部224が、初期のラベリングモデルを更新する場合を排除するものではない。
In step S1020, the evaluation
評価モデル生成装置200のラベリング機能部210は、例えばこのようにしてラベリング処理を実行してよい。次に、評価モデル生成装置200の機械学習機能部230における処理の詳細を、データ例やフローを用いて詳細に説明する。
The
図11は、評価モデル生成部250のブロック図の一例を示す。評価モデル生成部250は、複数の学習部252a、252b、・・・、学習部252n(「学習部252」と総称する。)を有しており、複数の学習部252が並列して学習を実行する。学習部252aは、前処理部254aと、機械学習部256aとを含む。同様に、学習部252bは、前処理部254bと、機械学習部256bとを含む。同様に、学習部252cは、前処理部254cと、機械学習部256cとを含む。ここで、前処理部254a、254b、・・・、254nを「前処理部254」と総称する。また、機械学習部256a、256b、・・・、256nを「機械学習部256」と総称する。
FIG. 11 shows an example of a block diagram of the evaluation
前処理部254は、ラベリングデータを前処理する。例えば、前処理部254は、ラベリングデータに対して標準化処理、正規化処理、ローパスフィルタ、ハイパスフィルタ、および、主成分分析等の処理を実行する。前処理部254は、前処理したラベリングデータを機械学習部256へ供給する。 The preprocessing unit 254 preprocesses the labeling data. For example, the preprocessing unit 254 performs standardization, normalization, low-pass filtering, high-pass filtering, principal component analysis, and other processes on the labeling data. The preprocessing unit 254 supplies the preprocessed labeling data to the machine learning unit 256.
機械学習部256は、前処理部254が前処理したラベリングデータを学習データとして、機械学習のアルゴリズムにより評価モデルを生成する。 The machine learning unit 256 uses the labeling data preprocessed by the preprocessing unit 254 as learning data and generates an evaluation model using a machine learning algorithm.
このように、評価モデル生成部250は、複数の学習部252を有し、複数の学習部252のそれぞれが機械学習部256を含む。これにより、評価モデル生成部250は、それぞれの学習部252による複数の評価モデルを生成することとなる。この際、複数の学習部252において、前処理部254の処理内容、および、機械学習部256のアルゴリズムの少なくともいずれかが異なっているとよい。これにより、評価モデル生成部250は、それぞれ異なる複数の評価モデルを生成することができる。このようにして生成された評価モデルは、例えば、センサデータに対して、OK教師に近いかNG教師に近いかを数値で出力してよい。
In this way, the evaluation
図12は、評価モデルの出力の一例を示す。本図においては、一例として、操業目標において対象とする品質についての品質向上を目標とした評価モデルの出力を示している。本図において縦軸は、ヘルスインデックスを示している。一例として、このような評価モデルは、対象とする目標が目標値と同じ値となることが推測される場合に、ヘルスインデックス=0を出力する。そして、評価モデルは、対象とする目標が目標値よりも良いことが推測される程、0よりも大きい値を出力し、対象とする目標が目標値よりも悪いことが推測される程、0よりも小さい値を出力する。 Figure 12 shows an example of the output of an evaluation model. In this figure, as an example, the output of an evaluation model with the goal of improving the quality of the target quality in the operational objectives is shown. In this figure, the vertical axis represents the health index. As an example, such an evaluation model outputs a health index = 0 when it is predicted that the target will be the same value as the target value. The more the target is predicted to be better than the target value, the more the evaluation model outputs a value greater than 0, and the more the target is predicted to be worse than the target value, the more the evaluation model outputs a value smaller than 0.
また、本図において横軸は、時間を示している。一例として、本図の横軸における前半は、「OK」ラベルが付された期間のデータを評価モデルに入力した場合を一例として示している。この場合、評価モデルは、当該期間において0以上の値を出力する率が高い程、ラベリングとの正答率が高いため、妥当であるということができる。同様に、本図の横軸における後半は、「NG」ラベルが付された期間のデータを評価モデルに入力した場合を示している。この場合、評価モデルは、当該期間において0未満の値を出力する率が高い程、ラベリングとの正答率が高いため、妥当であるということができる。 In addition, the horizontal axis in this figure represents time. As an example, the first half of the horizontal axis in this figure shows a case where data from a period labeled "OK" is input into the evaluation model. In this case, the evaluation model can be said to be valid because the higher the rate at which values greater than or equal to 0 are output during that period, the higher the accuracy rate with the labeling. Similarly, the second half of the horizontal axis in this figure shows a case where data from a period labeled "NG" is input into the evaluation model. In this case, the higher the rate at which values less than 0 are output during that period, the higher the accuracy rate with the labeling.
図13は、評価モデルの出力の他の例を示す。本図においては、一例として、操業目標において対象とする触媒利用の延長(コストカット)を目標とした評価モデルの出力を示している。本図において縦軸は、ヘルスインデックスを示している。また、本図において横軸は、時間を示している。一般に、触媒が時間の経過とともに徐々に減少していくという事象が発生する。したがって、評価モデルは、本図において矢印で示されるように、出力が単調減少性を有する程、事象を正しく捕らえているため、妥当であるということができる。評価モデル生成装置200の機械学習機能部230は、例えばこのような結果を出力し得る評価モデルを生成する。
Figure 13 shows another example of the output of the evaluation model. In this figure, as an example, the output of an evaluation model with the goal of extending catalyst use (cost cutting) as a target in the operational goal is shown. In this figure, the vertical axis represents the health index. Also, in this figure, the horizontal axis represents time. Generally, an event occurs in which the catalyst gradually decreases over time. Therefore, as shown by the arrow in this figure, the evaluation model can be said to be valid because the more monotonically decreasing the output is, the more accurately the event is captured. The machine
図14は、評価モデル生成装置200の機械学習機能部230における処理フローの一例を示す。評価モデル生成装置200の機械学習機能部230は、例えば本図に示されるフローにより、機械学習による評価モデルの生成処理を実行してよい。
Figure 14 shows an example of a processing flow in the machine
ステップS1410において、評価モデル生成装置200は、ラベリングデータを取得する。例えば、ラベリングデータ取得部240は、図10のフローにおけるステップS1016において出力されたラベリングデータを取得する。一例として、ラベリングデータ取得部240は、図9に示されるようなラベリングデータを取得してよい。
In step S1410, the evaluation
ステップS1420において、評価モデル生成装置200は、判定用データをサンプリングする。例えば、ラベリングデータ取得部240は、ステップS1410において取得されたラベリングデータの一部を判定用データとしてサンプリングする。一例として、ラベリングデータ取得部240は、取得したラベリングデータから判定用データをランダムにサンプリングしてよい。これに代えて、ラベリングデータ取得部240は、取得したラベリングデータの前半を機械学習用データとし、後半を判定用データとしてサンプリングしてもよい。ラベリングデータ取得部240は、サンプリングした判定用データを評価モデル判定部260へ供給する。また、ラベリングデータ取得部240は、残りのラベリングデータを機械学習用データとして評価モデル生成部250へ供給する。
In step S1420, the evaluation
ステップS1430において、評価モデル生成装置200は、ステップS1420において供給されたラベリングデータ、すなわち、図10のフローにおけるステップS1014においてラベリングされた相関データとセンサデータとに基づき生成されたラベリングデータを用いて、設備10における操業目標および設備10における状態に基づいて対象とする目標について設備10における状態を評価した指標を出力する評価モデルを生成する。
In step S1430, the evaluation
より詳細には、ステップS1432において、評価モデル生成装置200は、ラベリングデータを前処理する。例えば、前処理部254a、254b、・・・、254nはそれぞれ、ステップS1420において供給されたラベリングデータに対して、標準化処理、正規化処理、ローパスフィルタ、ハイパスフィルタ、および、主成分分析等の処理を実行する。この際、前処理部254a、254b、・・・、254nは、それぞれ異なる処理内容を実行してよい。前処理部254a、254b、・・・、254nは、それぞれ、前処理したラベリングデータを機械学習部256a、256b、・・・、256nへ供給する。
More specifically, in step S1432, the evaluation
ステップS1434において、評価モデル生成装置200は、機械学習を実行する。例えば、機械学習部256a、256b、・・・、256nはそれぞれ、ステップS1432において前処理されたラベリングデータを学習データとして、機械学習のアルゴリズムにより評価モデルを生成する。この際、機械学習部256a、256b、・・・、256nは、それぞれ異なるアルゴリズムにより機械学習を実行してよい。したがって、学習部252a、252b、・・・、252nは、前処理内容および機械学習アルゴリズムの少なくともいずれかが異なる処理を実行することによって、それぞれ異なる複数の評価モデルを生成してよい。このような評価モデルは、一例として、データが入力されたことに応じて図12や図13のような結果を出力するモデルであってよい。評価モデル生成部250は、このようにして生成された評価モデルを評価モデル判定部260および評価モデル出力部270へ供給する。
In step S1434, the evaluation
ステップS1440において、評価モデル生成装置200は、評価モデルの妥当性を判定する。例えば、評価モデル判定部260は、ステップS1420においてサンプリングされた判定用データを、評価モデル生成部250における複数の学習部252によって生成された複数の評価モデルのそれぞれに入力することによって、複数の評価モデルのそれぞれについて妥当性を判定する。
In step S1440, the evaluation
この際、一例として、生成された評価モデルが図12のような結果を出力する評価モデルである場合、「OK」ラベルが付された判定用データを入力したことに応じて、評価モデルが0以上の値を出力する割合(「OK」ラベルに対する正答率)が予め定めらえた閾値を超える場合に、評価モデル判定部260は、当該評価モデルが妥当であると判定してよい。これに代えて、または、加えて、生成された評価モデルが図12のような結果を出力する評価モデルである場合、「NG」ラベルが付された判定用データを入力したことに応じて、評価モデルが0未満の値を出力する割合(「NG」ラベルに対する正答率)が予め定めらえた閾値を超える場合に、評価モデル判定部260は、当該評価モデルが妥当であると判定してもよい。他の例として、生成された評価モデルが図13のような結果を出力する評価モデルである場合、判定用データを入力したことに応じて、評価モデルが単調減少性を有する結果を出力している場合に、評価モデル判定部260は、当該評価モデルが妥当であると判定してもよい。
In this case, as an example, if the generated evaluation model is an evaluation model that outputs a result as shown in FIG. 12, when the evaluation model outputs a value of 0 or more in response to input of judgment data labeled with an "OK" label (correct answer rate for the "OK" label) exceeds a predetermined threshold, the evaluation
生成された複数の評価モデルのうち、いずれの評価モデルも妥当でないと判定された場合(Noの場合)、評価モデル生成装置200は、処理をステップS1410に戻してフローを継続する。一方、生成された複数の評価モデルのうち、少なくともいずれかの評価モデルが妥当であると判定された場合(Yesの場合)、評価モデル生成装置200は、処理をステップS1450へ進める。
If it is determined that none of the multiple evaluation models generated are valid (No), the evaluation
ステップS1450において、評価モデル生成装置200は、判定結果をフィードバックする。例えば、評価モデル判定部260は、評価モデルが妥当であると判定した旨を、当該判定を得るにあたったラベリングデータ、すなわち、ステップS1410において取得されたラベリングデータを特定する情報とともに、ラベリングモデル更新部224へ通知する。これに応じて、ラベリングモデル更新部224は、ラベリングモデルを更新する。また、評価モデル判定部260は、評価モデルが妥当であると判定した旨を、当該妥当であると判定した評価モデルを識別する情報とともに、評価モデル出力部270へ通知する。
In step S1450, the evaluation
ステップS1460において、評価モデル生成装置200は、評価モデルを出力する。例えば、評価モデル出力部270は、ステップS1450において、評価モデルが妥当である旨を通知された場合に、妥当であると判定された評価モデルを、操業モデル生成装置300へ出力する。
In step S1460, the evaluation
評価モデル生成装置200の機械学習機能部230は、例えばこのようにして機械学習による評価モデルの生成処理を実行してよい。すなわち、評価モデル生成装置200は、図10のフローによりラベリング処理を実行し、図14のフローにより評価モデルの生成処理を実行する。そして、評価モデル生成装置200は、生成した評価モデルを操業モデル生成装置300へ出力する。
The machine
図15は、本実施形態に係る操業システム100における操業モデル生成装置300のブロック図の一例を示す。操業モデル生成装置300についても、評価モデル生成装置200と同様、コンピュータであってよく、複数のコンピュータが接続されたコンピュータシステムであってもよい。また、操業モデル生成装置300は、コンピュータ内で1または複数実行可能な仮想コンピュータ環境によって実装されてもよい。これに代えて、操業モデル生成装置300は、操業モデルの生成用に設計された専用コンピュータであってもよく、専用回路によって実現された専用ハードウェアであってもよい。また、インターネットに接続可能な場合、操業モデル生成装置300は、クラウドコンピューティングにより実現されてもよい。
Figure 15 shows an example of a block diagram of the operation
操業モデル生成装置300は、評価モデル取得部312と、学習環境データ取得部314と、操業モデル生成部316と、学習操作指示部318と、操業モデル判定部320と、操業モデル出力部322とを備える。
The operation
評価モデル取得部312は、評価モデル出力部238が出力した評価モデルを、例えば、ネットワークを介して取得する。しかしながら、これに限定されるものではない。評価モデル取得部312は、評価モデルを、各種メモリデバイスを介して取得してもよいし、ユーザ入力を介して取得してもよい。評価モデル取得部312は、取得した評価モデルを、操業モデル生成部316へ供給する。
The evaluation
学習環境データ取得部314は、学習環境における状態を示す学習環境データを、ネットワークを介して取得する。しかしながら、これに限定されるものではない。学習環境データ取得部314は、学習環境データを、各種メモリデバイスを介して取得してもよいし、ユーザ入力を介して取得してもよい。学習環境データ取得部314は、取得した学習環境データを操業モデル生成部316へ供給する。
The learning environment
操業モデル生成部316は、学習環境データ取得部314が取得した学習環境データを用いて、評価モデル取得部312が取得した評価モデルの出力を報酬の少なくとも一部とした強化学習により、設備10における状態に応じた行動を出力する操業モデルを生成する。操業モデル生成部316は、生成した操業モデルを操業モデル判定部320および操業モデル出力部322へ供給する。
The operation
学習操作指示部318は、強化学習中の操業モデルが出力する行動に基づく操作量を、学習環境における制御対象へ与える。
The learning
操業モデル判定部320は、操業モデル生成部316が生成した操業モデルの妥当性を判定する。操業モデル判定部320は、操業モデルが妥当であると判定した場合に、その旨を操業モデル出力部322へ通知する。
The operation
操業モデル出力部322は、操業モデルが妥当であると判定された場合に、操業モデルを制御装置400へ出力する。このような操業モデル生成装置300における処理の詳細を、データ例やフローを用いて詳細に説明する。
If the operation model is determined to be valid, the operation
図16は、操業モデル生成装置300が生成する操業モデルの一例を示す。操業モデルは、サンプリングされた状態データの集合を示す状態sと各状態下に取られた行動aとの組み合わせ(s,a)と、報酬によって計算されたウエイトwとで構成される。なお、このようなウエイトを計算するための報酬の少なくとも一部として、評価モデル生成装置200が生成した評価モデルの出力が用いられる。本図においては、一例として、状態s=(TI001,TI002,TI003,FI001,FI002,VI001)とした場合を示している。そして、本図においては、例えば、s=(-2.47803,-2.48413,-0.07324,29.71191,24.2511,70)の状態下でa=1の行動が取られた場合に、報酬によって計算されたウエイトがw=144.1484であることを意味している。このような操業モデルにより次の行動が決定される。
Figure 16 shows an example of an operation model generated by the operation
図17は、行動決定テーブルの一例を示す。行動決定テーブルは、入力された状態sと取り得る行動aとで構成される。本図においては、一例として、入力された状態がs=(0.1,0.2,0.4,0.3,0.8,0.2)であり、取り得る行動がa=(-3,-1,0,1,3)の5つである場合を示している。例えば、このような行動決定テーブルを図16に示される操業モデルに入力することにより、次の行動が決定される。これについてフローを用いて詳細に説明する。 Figure 17 shows an example of an action decision table. The action decision table is composed of an input state s and possible actions a. In this figure, as an example, the input state s = (0.1, 0.2, 0.4, 0.3, 0.8, 0.2) is shown, and the possible actions are a = (-3, -1, 0, 1, 3). For example, by inputting such an action decision table into the operation model shown in Figure 16, the next action is decided. This will be explained in detail using a flow chart.
図18は、操業モデル生成装置300における処理フローの一例を示す。操業モデル生成装置300は、例えば本図に示されるフローにより、操業モデルの生成処理を実行してよい。
Figure 18 shows an example of a processing flow in the operation
ステップS1802において、操業モデル生成装置300は、評価モデルを取得する。例えば、評価モデル取得部312は、図14のフローにおけるステップS1460において出力された評価モデルを、ネットワークを介して取得する。評価モデル取得部312は、取得した評価モデルを、操業モデル生成部316へ供給する。
In step S1802, the operation
ステップS1804において、操業モデル生成装置300は、強化学習により操業モデルを生成する。例えば、操業モデル生成部316は、ステップS1802において取得された評価モデルの出力を報酬の少なくとも一部とした強化学習により、設備10における状態に応じた行動を出力する操業モデルを生成する。一例として、操業モデル生成部316は、図16に示されるような操業モデルを生成する。この詳細については、別フローを用いて後述する。操業モデル生成部316は、生成した操業モデルを操業モデル判定部320および操業モデル出力部322へ供給する。
In step S1804, the operation
ステップS1806において、操業モデル生成装置300は、操業モデルの妥当性を判定する。例えば、操業モデル判定部320は、ステップS1804において生成された操業モデルの妥当性を判定する。一例として、操業モデル判定部320は、評価モデル生成装置200により設定された目標設定、操作端、および、観測点の情報に基づいて、プラントシミュレータにユーザによる操作を入れた際のデータ(a)、もしくは、ユーザによる操作の過去データ(b)をリファレンスデータとして用意する。次に、操業モデル判定部320は、生成された操業モデルに対して、プラントシミュレータ上で操業モデルを動作させる(c)。この際、操業モデル判定部320は、プラントシミュレータに代えて、実機を用いてもよい。そして、操業モデル判定部320は、(c)により出力された結果と、(a)または(b)とを比較することで、操業モデルの妥当性を判定する。すなわち、操業モデル判定部320は、プラントシミュレータにユーザによる操作を入れた際のリファレンスデータと、AIにより操作した際の結果とを比較することで、操業モデルの妥当性を判定する。そして、操業モデル判定部320は、AIにより操作した際の結果の方が高い場合に、生成された操業モデルが妥当(良好)であると判定する。操業モデル判定部320は、操業モデルが妥当であると判定した場合に、その旨を操業モデル出力部322へ通知する。
In step S1806, the operation
ステップS1808において、操業モデル生成装置300は、操業モデルを出力する。例えば、操業モデル出力部322は、ステップS1806において操業モデルが妥当であると判定された場合に、操業モデルを制御装置400へ出力する。
In step S1808, the operation
図19は、操業モデル生成部316における強化学習フローの一例を示す。操業モデル生成部316は、例えば本図に示されるフローにより、図18のステップS1804における処理を実行してよい。
Figure 19 shows an example of a reinforcement learning flow in the operation
ステップS1902において、操業モデル生成装置300は、学習環境データを取得する。例えば、学習環境データ取得部314は、学習環境における状態を示す学習環境データを、ネットワークを介して取得する。このような学習環境としては、設備10の挙動を模擬するシミュレータが用いられてもよいし、実際の設備10が用いられてもよい。例えば、設備10がプラントである場合、学習環境として、プラントシミュレータが用いられてもよいし、実プラントが用いられてもよい。学習環境データ取得部314は、取得した学習環境データを操業モデル生成部316へ供給する。
In step S1902, the operation
ステップS1904において、操業モデル生成装置300は、行動を決定する。例えば、操業モデル生成部316は、ランダムに行動を決定する。なお、上述の説明では、操業モデル生成部316がランダムに行動を決定する場合を一例として示したが、これに限定されるものではない。操業モデル生成部316が行動を決定するにあたって、例えば、FKDPP(Factorial Kernel Dynamic Policy Programming)等の既知のAIアルゴリズムが用いられてもよい。このようなカーネル法を用いる場合、操業モデル生成部316は、学習環境データにより得られたセンサ値から状態sのベクトルを生成する。次に、操業モデル生成部316は、状態sと、取り得る全ての行動aとの組み合わせを、例えば図17に示されるような行動決定テーブルとして生成する。そして、操業モデル生成部316は、行動決定テーブルを、例えば図16に示されるような操業モデルへ入力する。これに応じて、操業モデルは、行動決定テーブルの各行と、操業モデルのうちのウエイト列を除いた各サンプルデータとの間でカーネル計算を行い、各サンプルデータとの間の距離をそれぞれ算出する。そして、操業モデルは、各サンプルデータについて算出した距離にそれぞれのウエイト列の値を乗算したものを順次足し合わせ、各行動における報酬期待値を計算する。操業モデルは、このようにして計算された報酬期待値が最も高くなる行動を選択する。操業モデル生成部316は、例えばこのようにして、更新中の操業モデルを用いて報酬期待値が最も高いと判断された行動を選択することにより行動を決定してもよい。学習時においては、操業モデル生成部316は、ランダムに行動を決定するか、操業モデルを用いて行動を決定するかを適宜選択しながら行動を決定すればよい。操業モデル生成部316は、決定した行動を学習操作指示部318へ供給する。
In step S1904, the operation
ステップS1906において、操業モデル生成装置300は、学習環境へ操作を指示する。例えば、学習操作指示部318は、ステップS1904において決定された行動を、学習環境における制御対象の値(バルブ値等)に加算した操作量を、学習環境における制御対象へ与える。これにより学習環境の状態が変化する。
In step S1906, the operation
ステップS1908において、操業モデル生成装置300は、学習環境データを取得する。例えば、学習環境データ取得部314は、ステップS1902と同様、学習環境における状態を示す学習環境データを取得する。すなわち、学習環境データ取得部314は、決定された行動に基づく操作量が制御対象へ与えたことに応じて変化した後の学習環境の状態を取得する。学習環境データ取得部314は、取得した学習環境データを操業モデル生成部316へ供給する。
In step S1908, the operation
ステップS1910において、操業モデル生成装置300は、報酬値を算出する。例えば、操業モデル生成部316は、評価モデルの出力に少なくとも部分的に基づき、報酬値を算出する。一例として、操業モデル生成部316は、ステップS1908において取得された学習環境データを、図18のステップS1802において取得された評価モデルへ入力したことに応じて評価モデルが出力する指標をそのまま用いて報酬値を算出してもよいし、評価モデルによってOKと判断された場合に1、NGと判断された場合に0として報酬値を算出してもよい。
In step S1910, the operation
ステップS1912において、操業モデル生成装置300は、行動の決定に応じた状態の取得処理が、指定されたステップ回数を超えたかどうか判定する。なお、このようなステップ回数は、予めユーザにより指定されたものであってもよいし、学習対象期間(例えば10日間等)を基に定められたものであってもよい。上述の処理が指定されたステップ回数を超えていないと判定された場合(Noの場合)、操業モデル生成装置300は、処理をステップS1904に戻してフローを継続する。操業モデル生成装置300は、このような行動の決定に応じた状態の取得処理を指定されたステップ回数実行する。
In step S1912, the operation
ステップS1912において、上述の処理が指定されたステップ回数を超えたと判定された場合(Yesの場合)、操業モデル生成装置300は、処理をステップS1914へ進める。ステップS1914において、操業モデル生成装置300は、操業モデルを更新する。例えば、操業モデル生成部316は、図16に示される操業モデルにおけるウエイト列の値を上書きするほか、これまでに保存されていない新たなサンプルデータを操業モデルに追加する。
If it is determined in step S1912 that the above-mentioned processing has exceeded the specified number of steps (Yes), the operation
ステップS1916において、操業モデル生成装置300は、操業モデルの更新処理が、指定された繰り返し回数を超えたかどうか判定する。なお、このような繰り返し回数は、予めユーザにより指定されたものであってもよいし、操業モデルの妥当性に応じて定められたものであってもよい。上述の処理が指定された繰り返し回数を超えていないと判定された場合(Noの場合)、操業モデル生成装置300は、処理をステップS1902へ戻してフローを継続する。
In step S1916, the operation
ステップS1916において、上述の処理が指定された繰り返し回数を超えたと判定された場合(Yes)の場合、操業モデル生成装置300は、フローを終了する。操業モデル生成装置300は、例えばこのようにして、評価モデルの出力を報酬の少なくとも一部とした強化学習により、設備10における状態に応じた行動を出力する操業モデルを生成することができる。
If it is determined in step S1916 that the above-mentioned process has exceeded the specified number of repetitions (Yes), the operation
図20は、本実施形態に係る操業システム100における制御装置400のブロック図の一例を示す。制御装置400は、例えば、DCS(Distributed Control System:分散制御システム)や中規模向け計装システムにおけるコントローラであってもよいし、リアルタイムOSコントローラ等であってもよい。
Figure 20 shows an example of a block diagram of the
制御装置400は、操業モデル取得部412と、実環境データ取得部414と、制御部416と、実操作指示部418とを備える。
The
操業モデル取得部412は、操業モデル出力部322が出力した操業モデルを、例えば、ネットワークを介して取得する。しかしながら、これに限定されるものではない。操業モデル取得部412は、操業モデルを、各種メモリデバイスを介して取得してもよいし、ユーザ入力を介して取得してもよい。操業モデル取得部412は、取得した操業モデルを、制御部416へ供給する。
The operation
実環境データ取得部414は、実環境、すなわち、設備10における状態を示す実環境データを取得する。このような実環境データは、前述の状態データと同様のデータであってよい。実環境データ取得部414は、取得した実環境データを制御部416へ供給する。
The real-environment
制御部416は、実環境データ取得部414が取得した実環境、すなわち、設備10の状態に応じて操業モデル取得部412が取得した操業モデルが出力する行動に基づく操作量を決定する。制御部416は、決定した操作量を実操作指示部418へ供給する。
The
実操作指示部418は、制御部416が決定した操作量を、実環境、すなわち、設備10における制御対象へ与える。
The actual
図21は、制御装置400における処理フローの一例を示す。制御装置400は、例えば本図に示されるフローにより、制御対象の制御処理を実行してよい。
Figure 21 shows an example of a processing flow in the
ステップS2102において、制御装置400は、操業モデルを取得する。例えば、操業モデル取得部412は、図18のステップS1808において出力された操業モデルを、ネットワークを介して取得する。操業モデル取得部412は、取得した操業モデルを、制御部416へ供給する。
In step S2102, the
ステップS2104において、制御装置400は、実環境データを取得する。例えば、実環境データ取得部414は、実環境における状態を示す実環境データを取得する。このような実環境データは、上述の設備10における状態を示す状態データと同様のデータであってよい。実環境データ取得部414は、取得した実環境データを制御部416へ供給する。
In step S2104, the
ステップS2106において、制御装置400は、行動を決定する。例えば、制御部416は、操業モデルを用いて報酬期待値が最も高いと判断された行動を選択することにより行動を決定する。制御部416は、決定した行動を実操作指示部418へ供給する。
In step S2106, the
ステップS2108において、制御装置400は、実環境へ操作を指示する。例えば、実操作指示部418は、ステップS2106において決定された行動を、設備10における制御対象の値に加算した操作量を、設備10における制御対象へ与える。これにより実環境の状態が変化する。
In step S2108, the
ステップS2110において、制御装置400は、AI制御を終了するかどうか判定する。AI制御を終了すると判定された場合(Yesの場合)、制御装置400はフローを終了する。AI制御を終了しないと判定された場合(Noの場合)、制御装置400は、処理をステップS2104へ戻してフローを継続する。
In step S2110, the
従来、例えば、特許文献1のように、強化学習されたモデルを用いて制御対象を制御するAI制御技術が知られている。しかしながら、AI制御技術においては、報酬値を算出するための報酬関数をユーザが経験や勘等により事前に設定しておく必要があった。このように人の手が介在する場合、操業サイクルを解決まで導くためには、複数の労働力を用いた年単位の長期間に及ぶ作業が必要である等、莫大な手間と時間を要していた。また、労働力不足や人員配置ミスによる遅延や中断、遠隔地・危険地での作業を伴う可能性等も考慮する必要があった。さらに、熟練オペレータの経験や勘を用いても、常に迅速で最適な判断ができるとも限らない。長期間にわたるプラント管理の場合、同レベルのスキルを受け継ぐ後継者の確保も容易ではない。また、個人のスキルは一面的になることが多く、異なる部門や機能間で情報を共有し、複数の問題を網羅的に把握して解決するには限界があった。
Conventionally, as in
これに対して、本実施形態に係る操業システム100においては、AIが自動的に操業におけるボトルネック(ポテンシャルフォルト)を探し出し、改善のための指標を評価モデルとして生成する。そして、AIが与えられた指標を基に試行錯誤を行い、より良い操業方法を指示する操業モデルを生成する。そして、AIコントローラが当該操業モデルを用いて制御対象をAI制御する。これにより、本実施形態に係る操業システム100によれば、AI技術を用いて設備10を自律制御可能な環境を提供する。そして、本実施形態に係る操業システム100は、このようなAI制御下における設備の状態に基づいて、評価モデルおよび操業モデルを更新し、更新された操業モデルを用いて制御対象をAI制御する。これにより、本実施形態に係る操業システム100によれば、設備10における操業を改善するループを自律的に回すことができる。したがって、本実施形態に係る操業システム100によれば、これまで行っていたデータ収集・調査のPDCAサイクルを24時間365日休まず継続的かつ高速に行い、もって、プラント等の生産性・効率性を半永久的に高め続けることを可能とする。また、状況に応じた意思決定を客観的かつ包括的に行うことができるので、熟練オペレータの退職によるスキル継承リスク等にとらわれず、長期間にわたって積み上げた知識を多角的に活用することができる。
In contrast, in the
本発明の様々な実施形態は、フローチャートおよびブロック図を参照して記載されてよく、ここにおいてブロックは、(1)操作が実行されるプロセスの段階または(2)操作を実行する役割を持つ装置のセクションを表わしてよい。特定の段階およびセクションが、専用回路、コンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、および/またはコンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタルおよび/またはアナログハードウェア回路を含んでよく、集積回路(IC)および/またはディスクリート回路を含んでよい。プログラマブル回路は、論理AND、論理OR、論理XOR、論理NAND、論理NOR、および他の論理操作、フリップフロップ、レジスタ、フィールドプログラマブルゲートアレイ(FPGA)、プログラマブルロジックアレイ(PLA)等のようなメモリ要素等を含む、再構成可能なハードウェア回路を含んでよい。 Various embodiments of the present invention may be described with reference to flow charts and block diagrams, where the blocks may represent (1) stages of a process in which operations are performed or (2) sections of an apparatus responsible for performing the operations. Particular stages and sections may be implemented by dedicated circuitry, programmable circuitry provided with computer readable instructions stored on a computer readable medium, and/or a processor provided with computer readable instructions stored on a computer readable medium. Dedicated circuitry may include digital and/or analog hardware circuitry and may include integrated circuits (ICs) and/or discrete circuits. Programmable circuitry may include reconfigurable hardware circuitry including logical AND, logical OR, logical XOR, logical NAND, logical NOR, and other logical operations, memory elements such as flip-flops, registers, field programmable gate arrays (FPGAs), programmable logic arrays (PLAs), and the like.
コンピュータ可読媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読媒体は、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読媒体のより具体的な例としては、フロッピー(登録商標)ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、静的ランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、ブルーレイ(RTM)ディスク、メモリスティック、集積回路カード等が含まれてよい。 A computer-readable medium may include any tangible device capable of storing instructions that are executed by a suitable device, such that the computer-readable medium having instructions stored thereon comprises an article of manufacture that includes instructions that can be executed to create means for performing the operations specified in the flowchart or block diagram. Examples of computer-readable media may include electronic storage media, magnetic storage media, optical storage media, electromagnetic storage media, semiconductor storage media, and the like. More specific examples of computer-readable media may include floppy disks, diskettes, hard disks, random access memories (RAMs), read-only memories (ROMs), erasable programmable read-only memories (EPROMs or flash memories), electrically erasable programmable read-only memories (EEPROMs), static random access memories (SRAMs), compact disk read-only memories (CD-ROMs), digital versatile disks (DVDs), Blu-ray (RTM) disks, memory sticks, integrated circuit cards, and the like.
コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk(登録商標)、JAVA(登録商標)、C++等のようなオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様のプログラミング言語のような従来の手続型プログラミング言語を含む、1または複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかを含んでよい。 The computer readable instructions may include either assembler instructions, instruction set architecture (ISA) instructions, machine instructions, machine-dependent instructions, microcode, firmware instructions, state setting data, or source or object code written in any combination of one or more programming languages, including object-oriented programming languages such as Smalltalk®, JAVA®, C++, etc., and conventional procedural programming languages such as the "C" programming language or similar programming languages.
コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサまたはプログラマブル回路に対し、ローカルにまたはローカルエリアネットワーク(LAN)、インターネット等のようなワイドエリアネットワーク(WAN)を介して提供され、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく、コンピュータ可読命令を実行してよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。 The computer-readable instructions may be provided to a processor or programmable circuit of a general-purpose computer, special-purpose computer, or other programmable data processing apparatus, either locally or over a wide area network (WAN) such as a local area network (LAN), the Internet, etc., to execute the computer-readable instructions to create means for performing the operations specified in the flowcharts or block diagrams. Examples of processors include computer processors, processing units, microprocessors, digital signal processors, controllers, microcontrollers, etc.
図22は、本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ9900の例を示す。コンピュータ9900にインストールされたプログラムは、コンピュータ9900に、本発明の実施形態に係る装置に関連付けられる操作または当該装置の1または複数のセクションとして機能させることができ、または当該操作または当該1または複数のセクションを実行させることができ、および/またはコンピュータ9900に、本発明の実施形態に係るプロセスまたは当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ9900に、本明細書に記載のフローチャートおよびブロック図のブロックのうちのいくつかまたはすべてに関連付けられた特定の操作を実行させるべく、CPU9912によって実行されてよい。
22 shows an example of a
本実施形態によるコンピュータ9900は、CPU9912、RAM9914、グラフィックコントローラ9916、およびディスプレイデバイス9918を含み、それらはホストコントローラ9910によって相互に接続されている。コンピュータ9900はまた、通信インターフェイス9922、ハードディスクドライブ9924、DVDドライブ9926、およびICカードドライブのような入/出力ユニットを含み、それらは入/出力コントローラ9920を介してホストコントローラ9910に接続されている。コンピュータはまた、ROM9930およびキーボード9942のようなレガシの入/出力ユニットを含み、それらは入/出力チップ9940を介して入/出力コントローラ9920に接続されている。
The
CPU9912は、ROM9930およびRAM9914内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ9916は、RAM9914内に提供されるフレームバッファ等またはそれ自体の中にCPU9912によって生成されたイメージデータを取得し、イメージデータがディスプレイデバイス9918上に表示されるようにする。
The
通信インターフェイス9922は、ネットワークを介して他の電子デバイスと通信する。ハードディスクドライブ9924は、コンピュータ9900内のCPU9912によって使用されるプログラムおよびデータを格納する。DVDドライブ9926は、プログラムまたはデータをDVD-ROM9901から読み取り、ハードディスクドライブ9924にRAM9914を介してプログラムまたはデータを提供する。ICカードドライブは、プログラムおよびデータをICカードから読み取り、および/またはプログラムおよびデータをICカードに書き込む。
The
ROM9930はその中に、アクティブ化時にコンピュータ9900によって実行されるブートプログラム等、および/またはコンピュータ9900のハードウェアに依存するプログラムを格納する。入/出力チップ9940はまた、様々な入/出力ユニットをパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入/出力コントローラ9920に接続してよい。
The
プログラムが、DVD-ROM9901またはICカードのようなコンピュータ可読媒体によって提供される。プログラムは、コンピュータ可読媒体から読み取られ、コンピュータ可読媒体の例でもあるハードディスクドライブ9924、RAM9914、またはROM9930にインストールされ、CPU9912によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ9900に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置または方法が、コンピュータ9900の使用に従い情報の操作または処理を実現することによって構成されてよい。
The programs are provided by a computer-readable medium such as a DVD-
例えば、通信がコンピュータ9900および外部デバイス間で実行される場合、CPU9912は、RAM9914にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インターフェイス9922に対し、通信処理を命令してよい。通信インターフェイス9922は、CPU9912の制御下、RAM9914、ハードディスクドライブ9924、DVD-ROM9901、またはICカードのような記録媒体内に提供される送信バッファ処理領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、またはネットワークから受信された受信データを記録媒体上に提供される受信バッファ処理領域等に書き込む。
For example, when communication is performed between the
また、CPU9912は、ハードディスクドライブ9924、DVDドライブ9926(DVD-ROM9901)、ICカード等のような外部記録媒体に格納されたファイルまたはデータベースの全部または必要な部分がRAM9914に読み取られるようにし、RAM9914上のデータに対し様々なタイプの処理を実行してよい。CPU9912は次に、処理されたデータを外部記録媒体にライトバックする。
The
様々なタイプのプログラム、データ、テーブル、およびデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。CPU9912は、RAM9914から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプの操作、情報処理、条件判断、条件分岐、無条件分岐、情報の検索/置換等を含む、様々なタイプの処理を実行してよく、結果をRAM9914に対しライトバックする。また、CPU9912は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられた第1の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、CPU9912は、第1の属性の属性値が指定される、条件に一致するエントリを当該複数のエントリの中から検索し、当該エントリ内に格納された第2の属性の属性値を読み取り、それにより予め定められた条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得してよい。
Various types of information, such as various types of programs, data, tables, and databases, may be stored in the recording medium and undergo information processing. The
上で説明したプログラムまたはソフトウェアモジュールは、コンピュータ9900上またはコンピュータ9900近傍のコンピュータ可読媒体に格納されてよい。また、専用通信ネットワークまたはインターネットに接続されたサーバーシステム内に提供されるハードディスクまたはRAMのような記録媒体が、コンピュータ可読媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ9900に提供する。
The above-described program or software module may be stored on a computer-readable medium on the
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。 The present invention has been described above using an embodiment, but the technical scope of the present invention is not limited to the scope described in the above embodiment. It is clear to those skilled in the art that various modifications and improvements can be made to the above embodiment. It is clear from the claims that forms with such modifications or improvements can also be included in the technical scope of the present invention.
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。 The order of execution of each process, such as operations, procedures, steps, and stages, in the devices, systems, programs, and methods shown in the claims, specifications, and drawings is not specifically stated as "before" or "prior to," and it should be noted that the processes may be performed in any order, unless the output of a previous process is used in a later process. Even if the operational flow in the claims, specifications, and drawings is explained using "first," "next," etc. for convenience, it does not mean that it is necessary to perform the processes in this order.
10 設備
20 本部
100 操業システム
200 評価モデル生成装置
210 ラベリング機能部
212 操業目標取得部
214 状態データ取得部
216 相関データ生成部
218 教師ラベル取得部
220 ラベリング部
222 ラベリングデータ出力部
224 ラベリングモデル更新部
230 機械学習機能部
240 ラベリングデータ取得部
250 評価モデル生成部
252 学習部
254 前処理部
256 機械学習部
260 評価モデル判定部
270 評価モデル出力部
300 操業モデル生成装置
312 評価モデル取得部
314 学習環境データ取得部
316 操業モデル生成部
318 学習操作指示部
320 操業モデル判定部
322 操業モデル出力部
400 制御装置
412 操業モデル取得部
414 実環境データ取得部
416 制御部
418 実操作指示部
9900 コンピュータ
9901 DVD-ROM
9910 ホストコントローラ
9912 CPU
9914 RAM
9916 グラフィックコントローラ
9918 ディスプレイデバイス
9920 入/出力コントローラ
9922 通信インターフェイス
9924 ハードディスクドライブ
9926 DVDドライブ
9930 ROM
9940 入/出力チップ
9942 キーボード
10
9910
9914 RAM
9916
9940 Input/Output Chip 9942 Keyboard
Claims (14)
前記評価モデルの出力を報酬の少なくとも一部とした強化学習により、前記設備における状態に応じた行動を出力する操業モデルを生成する操業モデル生成装置と、
前記設備の状態に応じて前記操業モデルが出力する行動に基づく操作量を、前記設備における制御対象へ与える制御装置と
を備え、
前記評価モデル生成装置は、前記制御対象が前記操業モデルを用いて制御された場合における前記設備における状態に基づいて、前記評価モデルを更新し、
前記操業モデル生成装置は、更新された前記評価モデルの出力を報酬の少なくとも一部とした強化学習により、前記操業モデルを更新する、操業システム。 an evaluation model generation device that generates an evaluation model that outputs an index that evaluates a state of a facility with respect to a target target based on an operation target of the facility and a state of the facility by machine learning;
an operation model generation device that generates an operation model that outputs an action according to a state of the facility by reinforcement learning using an output of the evaluation model as at least a part of a reward;
a control device that applies a manipulation amount based on the behavior output by the operation model in accordance with the state of the equipment to a control target in the equipment ,
the evaluation model generation device updates the evaluation model based on a state of the facility when the control object is controlled using the operation model; and
An operation system , wherein the operation model generation device updates the operation model through reinforcement learning using the output of the updated evaluation model as at least a part of a reward.
前記評価モデルの出力を報酬の少なくとも一部とした強化学習により、前記設備における状態に応じた行動を出力する操業モデルを生成する操業モデル生成装置と、
前記設備の状態に応じて前記操業モデルが出力する行動に基づく操作量を、前記設備における制御対象へ与える制御装置と
を備え、
前記評価モデル生成装置は、
前記操業目標を取得する操業目標取得部と、
前記設備における状態を示す状態データを取得する状態データ取得部と、
前記操業目標に基づいて、前記状態データに含まれる少なくとも1つの物理量と時間との間における相関、および、前記状態データに含まれる少なくとも2つの物理量の間における相関の少なくともいずれかを示す相関データを生成する相関データ生成部と、
ラベリングモデルを用いて、前記相関データをラベリングするラベリング部と、
前記ラベリングされた相関データを用いて、前記評価モデルを生成する評価モデル生成部と
を備える、操業システム。 an evaluation model generation device that generates an evaluation model that outputs an index that evaluates a state of a facility with respect to a target target based on an operation target of the facility and a state of the facility by machine learning;
an operation model generation device that generates an operation model that outputs an action according to a state of the facility by reinforcement learning using an output of the evaluation model as at least a part of a reward;
a control device that applies a manipulation amount based on the behavior output by the operation model in accordance with the state of the equipment to a control target in the equipment ,
The evaluation model generation device comprises:
An operation target acquisition unit that acquires the operation target;
A status data acquisition unit that acquires status data indicating a status of the equipment;
a correlation data generating unit that generates correlation data indicating at least one of a correlation between at least one physical quantity included in the state data and time and a correlation between at least two physical quantities included in the state data based on the operation target;
a labeling unit that labels the correlation data using a labeling model;
an evaluation model generation unit that generates the evaluation model using the labeled correlation data;
An operating system comprising :
前記評価モデルの妥当性を判定する評価モデル判定部を更に備える、請求項3に記載の操業システム。 The evaluation model generation device comprises:
The operation system according to claim 3 , further comprising an evaluation model determination unit that determines the validity of the evaluation model.
前記評価モデルが妥当であると判定された場合に、前記評価モデルを出力する評価モデル出力部を更に備える、請求項4に記載の操業システム。 The evaluation model generation device comprises:
The operation system according to claim 4 , further comprising an evaluation model output unit that outputs the evaluation model when the evaluation model is determined to be valid.
前記評価モデルが妥当であると判定された場合に、前記ラベリングモデルを更新するラベリングモデル更新部を更に備える、請求項4または5に記載の操業システム。 The evaluation model generation device comprises:
The operation system according to claim 4 or 5 , further comprising a labeling model update unit that updates the labeling model when the evaluation model is determined to be valid.
前記ラベリングモデル更新部は、前記教師ラベルに基づいて生成された初期のラベリングモデルとは別に、更新用のラベリングモデルを生成する、請求項6に記載の操業システム。 The evaluation model generation device further includes a truth label acquisition unit that acquires truth labels for at least a portion of the correlation data,
The operation system according to claim 6 , wherein the labeling model update unit generates an updated labeling model separately from an initial labeling model generated based on the teacher label.
前記評価モデルの出力を報酬の少なくとも一部とした強化学習により、前記設備における状態に応じた行動を出力する操業モデルを生成することと、
前記設備の状態に応じて前記操業モデルが出力する行動に基づく操作量を、前記設備における制御対象へ与えることと
を備え、
前記評価モデルを生成することは、前記制御対象が前記操業モデルを用いて制御された場合における前記設備における状態に基づいて、前記評価モデルを更新することを含み、
前記操業モデルを生成することは、更新された前記評価モデルの出力を報酬の少なくとも一部とした強化学習により、前記操業モデルを更新することを含む、操業方法。 generating an evaluation model that outputs an index that evaluates a state of the facility with respect to a target target based on an operation target of the facility and a state of the facility by machine learning;
generating an operation model that outputs an action according to a state of the equipment by reinforcement learning using an output of the evaluation model as at least a part of a reward;
and providing a manipulated variable based on the behavior output by the operation model in accordance with the state of the equipment to a control target in the equipment ,
generating the evaluation model includes updating the evaluation model based on a state of the equipment when the control object is controlled using the operation model;
An operating method , wherein generating the operating model includes updating the operating model by reinforcement learning using an output of the updated evaluation model as at least a part of a reward.
前記評価モデルの出力を報酬の少なくとも一部とした強化学習により、前記設備における状態に応じた行動を出力する操業モデルを生成することと、
前記設備の状態に応じて前記操業モデルが出力する行動に基づく操作量を、前記設備における制御対象へ与えることと
を備え、
前記評価モデルを生成することは、
前記操業目標を取得することと、
前記設備における状態を示す状態データを取得することと、
前記操業目標に基づいて、前記状態データに含まれる少なくとも1つの物理量と時間との間における相関、および、前記状態データに含まれる少なくとも2つの物理量の間における相関の少なくともいずれかを示す相関データを生成することと、
ラベリングモデルを用いて、前記相関データをラベリングすることと、
前記ラベリングされた相関データを用いて、前記評価モデルを生成することと
を有する、操業方法。 generating an evaluation model that outputs an index that evaluates a state of the facility with respect to a target target based on an operation target of the facility and a state of the facility by machine learning;
generating an operation model that outputs an action according to a state of the equipment by reinforcement learning using an output of the evaluation model as at least a part of a reward;
and providing a manipulated variable based on the behavior output by the operation model in accordance with the state of the equipment to a control target in the equipment ,
Generating the valuation model includes:
obtaining said operational objectives;
acquiring status data indicative of a status of the facility;
generating correlation data indicating at least one of a correlation between at least one physical quantity included in the status data and time and a correlation between at least two physical quantities included in the status data based on the operation target;
labeling the correlation data using a labeling model; and
generating the evaluation model using the labeled correlation data; and
A method of operation having the steps :
機械学習により、設備における操業目標および前記設備における状態に基づいて対象とする目標について前記設備における状態を評価した指標を出力する評価モデルを生成する評価モデル生成装置と、
前記評価モデルの出力を報酬の少なくとも一部とした強化学習により、前記設備における状態に応じた行動を出力する操業モデルを生成する操業モデル生成装置と、
前記設備の状態に応じて前記操業モデルが出力する行動に基づく操作量を、前記設備における制御対象へ与える制御装置と
して機能させ、
前記評価モデル生成装置は、前記制御対象が前記操業モデルを用いて制御された場合における前記設備における状態に基づいて、前記評価モデルを更新し、
前記操業モデル生成装置は、更新された前記評価モデルの出力を報酬の少なくとも一部とした強化学習により、前記操業モデルを更新する、操業プログラム。 When executed by a computer, the computer is caused to
an evaluation model generation device that generates an evaluation model that outputs an index that evaluates a state of a facility with respect to a target target based on an operation target of the facility and a state of the facility by machine learning;
an operation model generation device that generates an operation model that outputs an action according to a state of the facility by reinforcement learning using an output of the evaluation model as at least a part of a reward;
a control device that applies a manipulated variable based on the behavior output by the operation model in accordance with the state of the equipment to a control target in the equipment ;
the evaluation model generation device updates the evaluation model based on a state of the facility when the control object is controlled using the operation model; and
The operation model generation device updates the operation model through reinforcement learning using the output of the updated evaluation model as at least a part of a reward.
機械学習により、設備における操業目標および前記設備における状態に基づいて対象とする目標について前記設備における状態を評価した指標を出力する評価モデルを生成する評価モデル生成装置と、
前記評価モデルの出力を報酬の少なくとも一部とした強化学習により、前記設備における状態に応じた行動を出力する操業モデルを生成する操業モデル生成装置と、
前記設備の状態に応じて前記操業モデルが出力する行動に基づく操作量を、前記設備における制御対象へ与える制御装置と
して機能させ、
前記評価モデル生成装置は、
前記操業目標を取得する操業目標取得部と、
前記設備における状態を示す状態データを取得する状態データ取得部と、
前記操業目標に基づいて、前記状態データに含まれる少なくとも1つの物理量と時間との間における相関、および、前記状態データに含まれる少なくとも2つの物理量の間における相関の少なくともいずれかを示す相関データを生成する相関データ生成部と、
ラベリングモデルを用いて、前記相関データをラベリングするラベリング部と、
前記ラベリングされた相関データを用いて、前記評価モデルを生成する評価モデル生成部と
を備える、操業プログラム。 When executed by a computer, the computer is caused to
an evaluation model generation device that generates an evaluation model that outputs an index that evaluates a state of a facility with respect to a target target based on an operation target of the facility and a state of the facility by machine learning;
an operation model generation device that generates an operation model that outputs an action according to a state of the facility by reinforcement learning using an output of the evaluation model as at least a part of a reward;
a control device that applies a manipulated variable based on the behavior output by the operation model in accordance with the state of the equipment to a control target in the equipment ;
The evaluation model generation device comprises:
An operation target acquisition unit that acquires the operation target;
A status data acquisition unit that acquires status data indicating a status of the equipment;
a correlation data generating unit that generates correlation data indicating at least one of a correlation between at least one physical quantity included in the state data and time and a correlation between at least two physical quantities included in the state data based on the operation target;
a labeling unit that labels the correlation data using a labeling model;
an evaluation model generation unit that generates the evaluation model using the labeled correlation data;
An operational program that includes :
前記設備における状態を示す状態データを取得する状態データ取得部と、
前記操業目標に基づいて、前記状態データに含まれる少なくとも1つの物理量と時間との間における相関、および、前記状態データに含まれる少なくとも2つの物理量の間における相関の少なくともいずれかを示す相関データを生成する相関データ生成部と、
ラベリングモデルを用いて、前記相関データをラベリングするラベリング部と、
前記ラベリングされた相関データを用いて、前記設備における操業目標および前記設備における状態に基づいて対象とする目標について前記設備における状態を評価した指標を出力する評価モデルを生成する評価モデル生成部と
を備え、
前記評価モデルは、前記設備における状態に応じた行動を出力する操業モデルの強化学習において報酬の少なくとも一部として用いられる前記指標を出力する、評価モデル生成装置。 an operation target acquisition unit that acquires an operation target in the facility;
A status data acquisition unit that acquires status data indicating a status of the equipment;
a correlation data generating unit that generates correlation data indicating at least one of a correlation between at least one physical quantity included in the state data and time and a correlation between at least two physical quantities included in the state data based on the operation target;
a labeling unit that labels the correlation data using a labeling model;
and an evaluation model generation unit that generates an evaluation model that outputs an index that evaluates a state of the facility with respect to a target target based on an operation target of the facility and a state of the facility, using the labeled correlation data ;
The evaluation model generating device outputs the index used as at least a part of a reward in reinforcement learning of an operation model that outputs an action according to a state of the equipment.
前記設備における状態を示す状態データを取得することと、
前記操業目標に基づいて、前記状態データに含まれる少なくとも1つの物理量と時間との間における相関、および、前記状態データに含まれる少なくとも2つの物理量の間における相関の少なくともいずれかを示す相関データを生成することと、
ラベリングモデルを用いて、前記相関データをラベリングすることと、
前記ラベリングされた相関データを用いて、前記設備における操業目標および前記設備における状態に基づいて対象とする目標について前記設備における状態を評価した指標を出力する評価モデルを生成することと
を備え、
前記評価モデルは、前記設備における状態に応じた行動を出力する操業モデルの強化学習において報酬の少なくとも一部として用いられる前記指標を出力する、評価モデル生成方法。 Obtaining operational goals for the facility;
acquiring status data indicative of a status of the facility;
generating correlation data indicating at least one of a correlation between at least one physical quantity included in the status data and time and a correlation between at least two physical quantities included in the status data based on the operation target;
labeling the correlation data using a labeling model; and
generating an evaluation model that outputs an index that evaluates a state of the facility with respect to a target target based on an operation target of the facility and a state of the facility, using the labeled correlation data ;
An evaluation model generation method, in which the evaluation model outputs the index used as at least a part of a reward in reinforcement learning of an operation model that outputs an action according to a state of the equipment.
設備における操業目標を取得する操業目標取得部と、
前記設備における状態を示す状態データを取得する状態データ取得部と、
前記操業目標に基づいて、前記状態データに含まれる少なくとも1つの物理量と時間との間における相関、および、前記状態データに含まれる少なくとも2つの物理量の間における相関の少なくともいずれかを示す相関データを生成する相関データ生成部と、
ラベリングモデルを用いて、前記相関データをラベリングするラベリング部と、
前記ラベリングされた相関データを用いて、前記設備における操業目標および前記設備における状態に基づいて対象とする目標について前記設備における状態を評価した指標を出力する評価モデルを生成する評価モデル生成部と
して機能させ、
前記評価モデルは、前記設備における状態に応じた行動を出力する操業モデルの強化学習において報酬の少なくとも一部として用いられる前記指標を出力する、評価モデル生成プログラム。 When executed by a computer, the computer is caused to
an operation target acquisition unit that acquires an operation target in the facility;
A status data acquisition unit that acquires status data indicating a status of the equipment;
a correlation data generating unit that generates correlation data indicating at least one of a correlation between at least one physical quantity included in the state data and time and a correlation between at least two physical quantities included in the state data based on the operation target;
a labeling unit that labels the correlation data using a labeling model;
using the labeled correlation data, the evaluation model generating unit generates an evaluation model that outputs an index that evaluates a state of the facility with respect to a target target based on an operation target of the facility and a state of the facility ;
The evaluation model generates an evaluation model that outputs the index used as at least a part of a reward in reinforcement learning of an operation model that outputs an action according to a state of the equipment.
Priority Applications (10)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021175652A JP7484868B2 (en) | 2021-10-27 | 2021-10-27 | Operation system, operation method, and operation program, as well as evaluation model generation device, evaluation model generation method, and evaluation model generation program |
US17/970,556 US20230126776A1 (en) | 2021-10-27 | 2022-10-20 | Apparatus, method, and computer readable medium |
US17/970,544 US20230126567A1 (en) | 2021-10-27 | 2022-10-20 | Operation system, operation method and recording medium having recorded thereon operation program |
US17/970,561 US20230129189A1 (en) | 2021-10-27 | 2022-10-20 | Apparatus, method, and computer readable medium |
EP22204158.4A EP4174592A1 (en) | 2021-10-27 | 2022-10-27 | Apparatus, method, and program |
CN202211324690.7A CN116027659A (en) | 2021-10-27 | 2022-10-27 | Apparatus, method, and computer-readable medium |
EP22204153.5A EP4174589A1 (en) | 2021-10-27 | 2022-10-27 | Apparatus, method and computer readable medium for evaluating an operation model |
CN202211325002.9A CN116027660A (en) | 2021-10-27 | 2022-10-27 | Apparatus, method, and computer-readable medium |
EP22204147.7A EP4174591A1 (en) | 2021-10-27 | 2022-10-27 | Operation system, operation method and operation program |
CN202211325445.8A CN116050535A (en) | 2021-10-27 | 2022-10-27 | Operating system, operating method, evaluation model generation device, evaluation model generation method, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021175652A JP7484868B2 (en) | 2021-10-27 | 2021-10-27 | Operation system, operation method, and operation program, as well as evaluation model generation device, evaluation model generation method, and evaluation model generation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023065072A JP2023065072A (en) | 2023-05-12 |
JP7484868B2 true JP7484868B2 (en) | 2024-05-16 |
Family
ID=86281918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021175652A Active JP7484868B2 (en) | 2021-10-27 | 2021-10-27 | Operation system, operation method, and operation program, as well as evaluation model generation device, evaluation model generation method, and evaluation model generation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7484868B2 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017224027A (en) | 2016-06-13 | 2017-12-21 | 三菱電機インフォメーションシステムズ株式会社 | Machine learning method related to data labeling model, computer and program |
JP2019141869A (en) | 2018-02-19 | 2019-08-29 | ファナック株式会社 | Controller and machine learning device |
US10766136B1 (en) | 2017-11-03 | 2020-09-08 | Amazon Technologies, Inc. | Artificial intelligence system for modeling and evaluating robotic success at task performance |
JP2021037716A (en) | 2019-09-04 | 2021-03-11 | 株式会社荏原製作所 | Machine learning device, AM device, machine learning method, and learning model generation method |
JP2021064049A (en) | 2019-10-10 | 2021-04-22 | 株式会社日立製作所 | Calculator system and mathematical model generation support method |
JP2021143882A (en) | 2020-03-11 | 2021-09-24 | 株式会社明電舎 | Learning system and learning method for operation inference learning model that controls automatically manipulated robot |
-
2021
- 2021-10-27 JP JP2021175652A patent/JP7484868B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017224027A (en) | 2016-06-13 | 2017-12-21 | 三菱電機インフォメーションシステムズ株式会社 | Machine learning method related to data labeling model, computer and program |
US10766136B1 (en) | 2017-11-03 | 2020-09-08 | Amazon Technologies, Inc. | Artificial intelligence system for modeling and evaluating robotic success at task performance |
JP2019141869A (en) | 2018-02-19 | 2019-08-29 | ファナック株式会社 | Controller and machine learning device |
JP2021037716A (en) | 2019-09-04 | 2021-03-11 | 株式会社荏原製作所 | Machine learning device, AM device, machine learning method, and learning model generation method |
JP2021064049A (en) | 2019-10-10 | 2021-04-22 | 株式会社日立製作所 | Calculator system and mathematical model generation support method |
JP2021143882A (en) | 2020-03-11 | 2021-09-24 | 株式会社明電舎 | Learning system and learning method for operation inference learning model that controls automatically manipulated robot |
Also Published As
Publication number | Publication date |
---|---|
JP2023065072A (en) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Padhy et al. | Threshold estimation from software metrics by using evolutionary techniques and its proposed algorithms, models | |
Tsoukalas et al. | Machine learning for technical debt identification | |
Wu | MOOC learning behavior analysis and teaching intelligent decision support method based on improved decision tree C4. 5 algorithm | |
JP2024516656A (en) | Industry-Specific Machine Learning Applications | |
EP4174591A1 (en) | Operation system, operation method and operation program | |
US20220101198A1 (en) | Automated generation of a machine learning model from computational simulation data | |
Mohanty et al. | The application of intelligent and soft-computing techniques to software engineering problems: a review | |
JP7484868B2 (en) | Operation system, operation method, and operation program, as well as evaluation model generation device, evaluation model generation method, and evaluation model generation program | |
Ge et al. | Deep metric learning for software change-proneness prediction | |
Negi et al. | Machine learning algorithm for assessing reusability in component based software development | |
PosPieszny | Application of data mining techniques in project management–an overview | |
WO2019103773A1 (en) | Automatically identifying alternative functional capabilities of designed artifacts | |
Rengasamy et al. | An intelligent toolkit for benchmarking data-driven aerospace prognostics | |
Haidabrus et al. | Data analysis of readiness programs of machine-building enterprises | |
Rath et al. | Survey on Machine Learning Techniques for Software Reliability Accuracy Prediction | |
Purba et al. | Prediction of Students Drop Out With Support Vector Machine Algorithm | |
Clunie et al. | Use of Data Mining Strategies in Environmental Parameters in Poultry Farms, a Case Study | |
Sahana | Software Defect Prediction Based on Classication Rule Mining | |
Pan et al. | Sequential design command prediction using BIM event logs | |
KR102635609B1 (en) | Method and apparatus for predicting and classifying irregular clinical time-series data | |
Shan | Crystal Ball for the Impact of Anthropogenic Climate Change on Global Air Quality PM 2.5 | |
Rogachev et al. | Cognitive modelling of evolution of regional food security indicators in import substitution | |
Taslim et al. | Supervised learning models for health condition-based classification of remaining useful life in predictive maintenance: A preliminary study | |
Öztürk et al. | How repeated data points affect bug prediction performance: A case study | |
Matias | Exploring Advanced Techniques for System Prediction: An In-Depth Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231024 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7484868 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |