JP2020057238A - 制御装置および制御方法 - Google Patents
制御装置および制御方法 Download PDFInfo
- Publication number
- JP2020057238A JP2020057238A JP2018187912A JP2018187912A JP2020057238A JP 2020057238 A JP2020057238 A JP 2020057238A JP 2018187912 A JP2018187912 A JP 2018187912A JP 2018187912 A JP2018187912 A JP 2018187912A JP 2020057238 A JP2020057238 A JP 2020057238A
- Authority
- JP
- Japan
- Prior art keywords
- control
- learning
- evaluation function
- data
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000011156 evaluation Methods 0.000 claims abstract description 319
- 230000006870 function Effects 0.000 claims abstract description 266
- 238000013528 artificial neural network Methods 0.000 description 139
- 238000005096 rolling process Methods 0.000 description 130
- 230000008859 change Effects 0.000 description 41
- 238000012545 processing Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 19
- 230000001537 neural effect Effects 0.000 description 16
- 238000010187 selection method Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 13
- 238000012937 correction Methods 0.000 description 12
- 239000000463 material Substances 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 239000002436 steel type Substances 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000005097 cold rolling Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000002826 coolant Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000010935 stainless steel Substances 0.000 description 1
- 229910001220 stainless steel Inorganic materials 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B21—MECHANICAL METAL-WORKING WITHOUT ESSENTIALLY REMOVING MATERIAL; PUNCHING METAL
- B21B—ROLLING OF METAL
- B21B13/00—Metal-rolling stands, i.e. an assembly composed of a stand frame, rolls, and accessories
- B21B13/14—Metal-rolling stands, i.e. an assembly composed of a stand frame, rolls, and accessories having counter-pressure devices acting on rolls to inhibit deflection of same under load; Back-up rolls
- B21B13/147—Cluster mills, e.g. Sendzimir mills, Rohn mills, i.e. each work roll being supported by two rolls only arranged symmetrically with respect to the plane passing through the working rolls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B21—MECHANICAL METAL-WORKING WITHOUT ESSENTIALLY REMOVING MATERIAL; PUNCHING METAL
- B21B—ROLLING OF METAL
- B21B2275/00—Mill drive parameters
- B21B2275/02—Speed
- B21B2275/06—Product speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B21—MECHANICAL METAL-WORKING WITHOUT ESSENTIALLY REMOVING MATERIAL; PUNCHING METAL
- B21B—ROLLING OF METAL
- B21B37/00—Control devices or methods specially adapted for metal-rolling mills or the work produced thereby
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B21—MECHANICAL METAL-WORKING WITHOUT ESSENTIALLY REMOVING MATERIAL; PUNCHING METAL
- B21B—ROLLING OF METAL
- B21B37/00—Control devices or methods specially adapted for metal-rolling mills or the work produced thereby
- B21B37/28—Control of flatness or profile during rolling of strip, sheets or plates
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mechanical Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Automation & Control Theory (AREA)
- Control Of Metal Rolling (AREA)
- Feedback Control In General (AREA)
Abstract
【課題】制御結果の適切な良否判定に基づく制御を実行可能にする技術を提供する。【解決手段】制御対象を制御する制御装置は、与えられた制御ルールに従って前記制御対象へ制御出力を与える制御実行装置と、指定された評価関数を用いて前記制御対象に対して与えられた制御出力を評価し、その評価結果を利用して学習データを作成し、該学習データを学習することにより前記制御ルールを構築し、該制御ルールを前記制御実行装置に与える制御方法学習装置と、複数の評価関数を予め保持しており、前記制御対象への制御状態に基づいて、前記複数の評価関数のうちいずれかを選択し、前記選択した評価関数を前記制御方法学習装置に指定する評価関数設定部と、を有する。【選択図】図6
Description
本発明は、ニューラルネット等の人工知能を用いた実時間のフィードバック制御を行う技術に関する。
従来から、各種のプラントにおいてはその制御により所望の制御結果を得るために各種制御理論に基づいたプラント制御が実施されている。
プラントの一例として例えば圧延機制御においては、制御の一例として板の波打ち状態を制御する形状制御を対象とした制御理論として、ファジィ制御やニューロ・ファジィ制御が適用されてきた。ファジィ制御は、クーラントを利用した形状制御に、また、ニューロ・ファジィ制御は、センジミア圧延機の形状制御に適用されている。このうちニューロ・ファジィ制御を適用した形状制御は、特許文献1に示されるように、形状検出器で検出された実績形状パターンと目標形状パターンの差と、予め設定された基準形状パターンとの類似割合を求め、その類似割合からこれも予め設定された基準形状パターンに対する制御操作端操作量によって表現された制御ルールにより、操作端に対する制御出力量を求めることにより行われている。以下、従来技術として、ニューロ・ファジィ制御を用いたセンヂミア圧延機の形状制御を用いるものとする。
図1に、特許文献1の図1に記述されたセンヂミア圧延機の形状制御を示す。センヂミア圧延機の形状制御では、ニューロ・ファジィ制御が用いられる。この例では、パターン認識機構51で、形状検出器52にて検出した実形状より形状のパターン認識を行い、実形状が予め設定された基準形状パターンのどれに最も近いかを演算する。制御演算機構53では、図2で示すような予め設定された形状パターンに対する制御操作端操作量で構成される制御ルールを用いて制御を実施する。図2についてより具体的に述べると、パターン認識機構51では、形状検出器52にて検出した形状実績と目標形状(εref)との差分(Δε)が、1から8の形状パターン(ε)のどれに最も近いかを演算し、制御演算機構53では、1から8の制御方法のいずれかを選択し実行する。
ところが特許文献1の手法では、制御ルールの検証のために、圧延中にオペレータに手動操作を行ってもらい制御ルールの検証等行う場合が有るが、予想に反した形状変化を示す場合がある。つまり、上記の様にして決定した制御ルールが現実に則していない場合が発生する。これは、機械的特性の検討不足や圧延機の操業状態や機械条件の変化が原因であるが、予め設定した制御ルールが最も良いルールかどうかを1つ1つ検証するのは、考慮すべき条件が多く困難である。そのため、制御ルールを一度設定してしまうと、不具合が無い限りそのままとしてしまう場合が多い。
操業条件の変化等で、制御ルールが現実に則したものでなくなってくると、制御ルールが固定されているため、ある程度以上の制御精度を出すことは困難となってくる。また、一旦形状制御が動作してしまうと、オペレータは手動操作をしなくなる(制御にとって外乱となってしまう)ため、新たな制御ルールをオペレータの手動介入により見つけていくのも困難である。さらに、新しい規格の圧延材を圧延する場合も制御ルールをその材料にあわせて設定するのは困難である。
以上のように、従来の形状制御においては、予め設定された制御ルールを用いて制御するため、制御ルールを修正するのが困難であるという問題が有った。
この問題を解決するために、特許文献2に示すような、形状制御を行いながら制御ルールをランダムに変化させ、形状が良くなるルールを学習して行くことで、
1)圧延中に形状制御を実施しながら新たな制御ルールを発見していく。
2)新たな制御ルールは、予め予想できるものでは無く、全く予測できなかった制御ルールが最適となる場合も有る事から、ランダムに制御操作端を動作させ、それに対する制御結果を見ながら見つけていく。
ことを実現している。
1)圧延中に形状制御を実施しながら新たな制御ルールを発見していく。
2)新たな制御ルールは、予め予想できるものでは無く、全く予測できなかった制御ルールが最適となる場合も有る事から、ランダムに制御操作端を動作させ、それに対する制御結果を見ながら見つけていく。
ことを実現している。
上記従来技術は、予め代表的な形状を基準形状パターンとして設定し、基準波形パターンに対する制御操作端操作量との関係を示す制御ルールを基に制御を行っている。制御ルールの学習につても、基準波形パターンに対する制御操作端操作量に関するものであり、予め定めている代表的な基準形状パターンはそのまま用いている。そのため、特定の形状パターンにしか反応しない形状制御となってしまう問題がある。
基準形状パターンは、人間が予め対象となる圧延機に関する知識や、形状実績と手動介入操作を蓄積した経験より定めたものであるが、対象となる圧延機および被圧延材で発生する全ての形状を網羅する事は困難である。そのため、基準形状パターンとは異なる形状が発生した場合、形状制御による制御が実施されず、形状偏差が抑制されずに残ってしまい、あるいは似たような基準形状パターンと誤認識し、誤った制御操作を行って、逆に形状を悪化させてしまう場合も有る。
そのため、従来の形状制御においては、予め設定された基準形状パターンとそれに対する制御ルールを用いて制御ルールの学習をし、制御を実施するため、制御精度の向上に限界があるという問題が有った。
それを解決するために、制御対象プラントに対して、制御対象プラントの実績データの組合せのパターンを認識して、制御を実施するプラント制御装置であって、制御対象プラントの実績データと制御操作の組合せを学習する制御方法学習装置と、学習した実績データと制御操作の組合せに応じて制御対象プラントの制御を実施する制御実行装置を備え、制御実行装置は、制御対象プラントの実績データと制御操作の定められた組合せに従って制御出力を与える制御ルール実行部と、制御ルール実行部が出力する制御出力の可否を判定するとともに、当該実績データと制御操作が誤りである事を制御方法学習装置に通知する制御出力判定部と、制御出力判定部が、制御出力を制御対象プラントに出力した場合、制御対象プラントの実績データが悪化すると判断した場合は、制御出力を制御対象プラントに出力することを阻止する制御出力抑制部とを備え、制御方法学習装置は、制御実行装置が制御出力を実際に、制御対象プラントに出力した場合に、制御効果が実績データに表れるまでの時間遅れ後に、実績データが当該制御前に比較して良くなったか、悪くなったかについての制御結果の良否を判定する制御結果良否判定部と、制御結果良否判定部における制御結果の良否と、制御出力をもちいて教師データを得る学習データ作成部と、実績データと教師データを学習データとして学習する制御ルール学習部とを備え、制御方法学習装置が学習する事で、制御対象プラントの状態に応じて複数の制御目標に対して別個の実績データと制御操作の組合せを得、得られた実績データと制御操作の組合せを制御ルール実行部における制御対象プラントの実績データと制御操作の定められた組合せとして使用することを特徴とするプラント制御装置、を用いることが考えられる。
このときに、制御結果の良否判定に用いる評価関数が適切であることが非常に重要となる。しかしながら、評価関数を決定する際に制御装置の設計者は、制御対象プラントの操業技術者やオペレータ等に聞き取り調査を実施したり、実際のプラントの動作を確認したりしながら主観的に決定しており、真に適切に設定されているか不明である場合が多い。
一例として圧延機の形状制御について考えてみる。圧延機の形状制御においては、板幅方向の全体において目標形状と実形状が一致するのが理想である。しかし、現実にはそうならない場合が多い。そのため、実際の作業においては、板の特定の領域を重視し、その領域で実形状を目標形状に合致するように制御するのが一般的である。板の形状を評価する評価関数として、板幅方向の各部における形状偏差(=形状実績−目標形状)に対して、板幅方向の各部に対して重み付けした評価関数が用いられる。
圧延機では、板幅方向の端部(板端部)の形状に対する制御操作端は、それを除く部分(中央部)に対する制御操作端とは別々のものとなっている。しかし、それらは互いに影響しあっている場合が多い。また、板端部は中央部のように両側から拘束されないため、形状偏差が大きくなる場合が多い。板幅方向の板端部に制御を加えると、その影響が中央部におよんで中央部の形状が悪化したり、その逆の場合が発生したりする。このように、板端部と中央部の形状を同時に目標値に合致するように制御することは困難である。多くの場合オペレータは、板端部か中央部かどちらかを優先させて手動制御を実施する。
制御結果の良否判定において適用されている評価関数が、オペレータの考えと異なる評価をするような場合、オペレータは、制御装置による形状制御からの操作を取り消して、自分の考えに従って手動操作を実施することになる。その場合、制御装置による形状制御とオペレータが行う手動操作が競合する状態となる。その結果、オペレータは自身による手動操作にとって邪魔となる制御装置からの形状制御をOFFすることも考えられる。それが度重なると、オペレータは制御装置による形状制御を最初からONしなくなってしまうことも懸念される。
制御結果の良否判定に適用する評価関数を、オペレータの考えと合致する評価を行うものにすれば、制御装置による制御とオペレータの手動操作との競合が低減するだけでなく、更には、オペレータが手動操作を行うことが減り、オペレータの負荷が低減され、形状制御の精度が向上することも期待される。
本発明の目的は、制御結果の適切な良否判定に基づく制御を実行可能にする技術を提供することである。
本開示による制御装置は、制御対象を制御する制御装置であって、与えられた制御ルールに従って前記制御対象へ制御出力を与える制御実行装置と、指定された評価関数を用いて前記制御対象に対して与えられた制御出力を評価し、その評価結果を利用して学習データを作成し、該学習データを学習することにより前記制御ルールを構築し、該制御ルールを前記制御実行装置に与える制御方法学習装置と、複数の評価関数を予め保持しており、前記制御対象への制御状態に基づいて、前記複数の評価関数のうちいずれかを選択し、前記選択した評価関数を前記制御方法学習装置に指定する評価関数設定部と、を有する。
本開示によれば、制御結果の適切な良否判定に基づく制御が実行可能になることが期待される。
まずは、本発明における知見、並びに本発明に至る経緯について圧延機の形状制御を例にして説明をしておく。
まず、上記課題を解決するために以下の3つのことが求められる
(1)基準形状パターンと、それに対する制御操作を予め別々に設定し、制御操作方法を学習していくのではなく、形状パターンと制御操作の組合せを学習し、それを用いて制御操作を実施する
(2)新たな制御ルールは、予め予想できるものでは無く、全く予測できなかった制御ルールが最適となる場合も有る事から、ランダムに制御操作端を動作させ、それに対する制御結果を見ながら見つけていく
(3)制御結果の良否に関し、圧延機の状態に応じて評価関数を選択し、好適な制御ルールの選択を可能とする。
これら3つを実現するためには、形状制御に使用する、形状パターンと制御操作の組合せを変化させながら制御結果が良くなるように制御操作を変更していくのがよい。そのためには、形状パターンとその形状パターンに対して好適な制御操作との組合せをニューラルネットワーク等の人工知能で学習し、人工知能により、圧延機で発生した形状パターンに対する制御操作の出力を変更していくのがよい。
操業中の圧延機に対して形状制御を実施しながら制御操作を変更すると、誤った制御出力が出力され、板の形状が悪化し、板破断等の操業異常が発生する事がある。板破断が発生すると、圧延機で使用するロールの交換に時間を要したり、圧延中の被圧延材が無駄になったりと、ダメージが大きい。そのため、可能な限り誤った制御出力を圧延機に対して出力しないようにする事が必要である。そのため、形状の良否を判定するための評価関数を圧延状態に応じて変更するのがよい。
圧延状態とは、制御対象である圧延機が置かれている圧延に関する状態のことである。制御対象が圧延機に限られなければ、圧延状態を一般化して制御状態と呼ぶことができる。圧延状態は、圧延機に加えられる制御操作、圧延機の状態、圧延機による圧延の状態など様々なパラメータで判別することができる。本実施形態では一例として圧延速度で圧延状態を判別するものとする。
以上のことから本実施形態においては、これを実現するため、ニューラルネットが出力した制御操作の良否を、例えば圧延機の簡易モデル等を用いて検証し、明らかに形状が悪化すると考えられる出力は、圧延機の制御操作端に対して出力しないようにし、形状悪化を防止する。この時、ニューラルネットに関しては、その形状パターンに対する制御操作は誤りであるとして学習を実施する。
制御操作の良否の検証方法自体が誤っている可能性が有るため、ある確率で誤っていると判断されたニューラルネットの制御操作出力についても、圧延機の制御操作端に出力することで、想定外の形状パターンと制御操作の組合せについても学習していく事が可能となる。
以下、本発明の実施例について図面を用いて詳細に説明する。
図3に、実施例に係るプラント制御装置の概要を示す。図3のプラント制御装置は、制御対象プラント1と、制御対象プラント1からの実績データSiを入力して図2に例示したような制御ルール(ニューラルネット)に従い定めた制御操作量出力SOを制御対象プラント1に与えて制御する制御実行装置20と、制御対象プラント1からの実績データSiなどを入力して学習を行い、学習した制御ルールを制御実行装置20における制御ルールに反映させる制御方法学習装置21と、複数のデータベースDB(DB1からDB3)、並びにデータベースDBの管理テーブルTBから構成されている。
制御実行装置20は、制御入力データ作成部2、制御ルール実行部10、制御出力演算部3、制御出力抑制部4、制御出力判定部5、および制御操作外乱発生部16を主たる要素として構成されている。
このうち制御実行装置20においては、まず制御対象プラント1である圧延機の実績データSiより、制御入力データ作成部2を用いて、制御ルール実行部10の入力データS1を作成する。制御ルール実行部10は、制御対象の実績データSiと制御操作端操作指令S2の関係を表現するニューラルネット(制御ルール)を用いて、制御対象の実績データSiから制御操作端操作指令S2を作成する。制御出力演算部3においては、制御操作端操作指令S2をもとに、制御操作端への制御操作量S3を演算する。これにより、制御対象プラント1の実績データSiに応じて、ニューラルネットを用いて制御操作量S3を作成する。
また制御実行装置20内の制御出力判定部5においては、制御対象プラント1からの実績データSiおよび制御出力演算部3からの制御操作量S3を用いて、制御操作端への制御操作量出力可否データS4を決定する。制御出力抑制部4においては、制御操作量出力可否データS4に応じて制御操作端への制御操作量S3の出力可否を決定し、可とされた制御操作量S3を、制御対象プラント1に与える制御操作量出力SOとして出力する。これにより、異常と判断される制御操作量S3は、制御対象プラント1に出力されなくなる。なお制御操作外乱発生部16は、プラント制御装置を検証する目的のために、外乱を生成し、制御対象プラント1に与えるものである。
以上のように構成された制御実行装置20は、その処理実行のために、さらに後述するように、制御ルールデータベースDB1および出力判定データベースDB3を参照する。制御ルールデータベースDB1は、制御実行装置20内の制御ルール実行部10と、後述する制御方法学習装置21内の制御ルール学習部11の双方にアクセス可能に接続されている。制御ルール学習部11における学習結果としての制御ルール(ニューラルネット)が制御ルールデータベースDB1に格納されており、制御ルール実行部10は制御ルールデータベースDB1に格納された制御ルールを参照する。出力判定データベースDB3は、制御実行装置20内の制御出力判定部5にアクセス可能に接続されている。
図4は、本実施例に係る制御ルール実行部10の具体例を示している。制御ルール実行部10は、制御入力データ作成部2で作成した入力データS1を入力して、制御出力演算部3に制御操作端操作指令S2を与える。制御ルール実行部10はニューラルネット101を備えており、ニューラルネット101では基本的には図2に例示したような特許文献1の手法により制御操作端操作指令S2を定めている。本発明においては、制御ルール実行部10はさらにニューラルネット選択部102を備えており、制御ルールデータベースDB1に格納された制御ルールを参照することで、ニューラルネット101における制御ルールとして、最適な制御ルールを選択し、実行せしめる。このように図4の制御ルール実行部10においては、オペレータ班や制御目的で分けられた複数のニューラルネットから、必要なニューラルネットを選択し、使用している。制御ルールデータベースDB1には、制御対象プラント1からのデータとして、ニューラルネットおよび良否判定基準を選択できるような実績データ(操業班のデータ等)Siも含むのがよい。なお、ニューラルネットを実行すると制御ルールになるという関係にあることから、本明細書においてはニューラルネットと制御ルールを区別せず、同義の意味で使用している。
図3に戻り、制御方法学習装置21においては、制御実行装置20で使用するニューラルネット101の学習を実施する。制御実行装置20が制御対象プラント1に対して、制御操作量出力SOを出力した場合、実際に制御効果が実績データSiの変化となって現れるには時間を要する。このため、その時間だけ時間遅れさせたデータを用いて学習を実施する。図3において、Z−1は、各データに対する適宜の時間遅れ機能を表している。
制御方法学習装置21は、制御結果良否判定部6、学習データ作成部7、制御ルール学習部11、評価関数設定部17、を主たる要素として構成されている。
このうち、制御結果良否判定部6は、制御対象プラント1からの実績データSiおよび実績データ前回値Si0と、評価関数設定部17より設定される評価関数とを用いて、実績データSiが良くなる方向に変化したか、悪くなる方向に変化したか判定し、制御結果良否データS6を出力する。
制御方法学習装置21内の学習データ作成部7においては、制御実行装置20にて作成した制御操作端操作指令S2、制御操作量S3、制御操作量出力可否データS4などの入力データをそれぞれ同じ時間だけ時間遅れさせたデータと、制御結果良否判定部6よりの制御結果良否データS6を用いて、ニューラルネットの学習に使用する新規の教師データS7aを作成し、制御ルール学習部11に与える。なお、教師データS7aは、制御ルール実行部10が出力する制御操作端操作指令S2に対応するものであり、学習データ作成部7は、制御結果良否判定部6が与える制御結果良否データS6を用いて制御ルール実行部10が出力する制御操作端操作指令S2を推定して得たデータを、新規の教師データS7aとして求めたものということができる。
図5は、本実施例に係る制御ルール学習部11の具体例を示している。制御ルール学習部11は、入力データ作成部114、教師データ作成部115、ニューラルネット処理部110、ニューラルネット選択部113を主たる構成要素として構成されている。また制御ルール学習部11は、外部からの入力として入力データ作成部2からの入力データS1を時間遅れさせたデータS8aを、学習データ作成部7からの新規の教師データS7aを得、また制御ルールデータベースDB1および学習データデータベースDB3に蓄積されたデータを参照する。
制御ルール学習部11において、入力データS1は適宜の時間遅れ補償後に入力データ作成部114を介してニューラルネット処理部110に取り込まれる。
また制御ルール学習部11において、学習データ作成部7からの新規の教師データS7aは、教師データ作成部115において学習データデータベースDB3に記憶されている過去の教師データS7bも含めた合計の教師データS7cとして、ニューラルネット処理部110に与えられる。これらの教師データS7a、S7bは、適宜、学習データデータベースDB3に記憶されて、利用される。
同様に、制御入力データ作成部2からの入力データS8aは、入力データ作成部114において学習データデータベースDB3に記憶されている過去の入力データS8bも含めた合計の入力データS8cとして、ニューラルネット処理部110に与えられる。これらの入力データS8a、S8bは、適宜、学習データデータベースDB3に記憶されて、利用される。
ニューラルネット処理部110は、ニューラルネット111とニューラルネット学習制御部112により構成されており、ニューラルネット111は、入力データ作成装置114からの入力データS8c、教師データ作成部115からの教師データS7c、ニューラルネット選択部113が選択した制御ルール(ニューラルネット)を取り込み、最終的に決定したニューラルネットを制御ルールデータベースDB1に格納する。
ニューラルネット学習制御部112は、入力データ作成装置114、教師データ作成部115、ニューラルネット選択部113に対して、適宜のタイミングでこれらを制御し、ニューラルネット111の入力を得、また処理結果を制御ルールデータベースDB1に格納すべく制御している。
ここで、図4の制御実行装置20におけるニューラルネット101と、図5の制御方法学習装置21におけるニューラルネット111は、いずれも同じ概念のニューラルネットである。以下に、それらを利用するうえでの基本概念上の相違について説明する。
まず制御実行装置20におけるニューラルネット101は、予め定められた内容のニューラルネットであり、入力データS1を与えたときに対応する出力としての制御操作端操作指令S2を求めるものであり、いわば一方方向の処理に利用されるニューラルネットである。これに対し、制御方法学習装置21におけるニューラルネット111は、入力データS1と制御操作端操作指令S2についての入力データS8c、教師データS7cを学習データとして設定したときに、この入出力関係を満足するニューラルネットを学習により求めるためのものである。
上記のように構成された制御方法学習装置21における基本的な処理の考え方は、以下のようである。まず、制御操作量出力可否データS4の内容が「可」の場合、制御対象プラント1に制御操作量出力SOを出力し、制御結果良否データS6の内容が「良」(実績データSiが良くなる方向に変化)の場合、制御ルール実行部10が出力した制御操作端操作指令S2は正しいと判断し、ニューラルネットの出力が制御操作端操作指令S2となるように学習データを作成する。
一方、制御操作量出力可否データS4の内容が「否」、または、制御対象プラント1に制御操作量出力SOを出力し、制御結果良否データS6の内容が「否」(実績データSiが悪くなる方向に変化)の場合、制御ルール実行部10が出力した制御操作端操作指令S2は誤っていると判断し、ニューラルネットの出力が出ないように学習データを作成する。このとき、制御出力として、同じ制御操作端に対して+方向、−方向の2種類の出力が出るようにニューラルネット出力を構成しておき、出力した側の制御操作端操作指令S2が出力されないように学習データを作成する。
また図5に例示する制御ルール学習部11においては、ニューラルネット学習制御部112によるデータ処理の結果として、以下のように処理している。ここでは、まず制御実行装置20への入力データS1を時間遅れさせたS8cと、教師データ作成部115にて作成した教師データS7cの組合せである学習データを用いて、制御ルール実行部10にて用いたニューラルネット101の学習を実施する。実際には、制御ルール実行部10のニューラルネット101と同じニューラルネット111を制御ルール学習部11内に備えて、各種条件で運用テストしてその時の応答を学習し、学習の結果としてより良い結果を生じることが確認された制御ルールを得るものである。学習は、複数個の学習データを用いて行わせる必要があるため、過去に作成された学習データを蓄積している学習データデータベースDB2より、過去の学習データを複数個取り出して、学習し処理を実施するとともに、今回の学習データを学習データデータベースDB2に格納する。また、学習したニューラルネットは、制御ルール実行部10にて利用するために、制御ルールデータベースDB1に格納される。
ニューラルネットの学習は、新しい学習データが作成される毎に、過去の学習データを一緒に用いて学習しても良いし、学習データがある程度(例えば100個分)蓄積されてから、過去の学習データを一緒に用いて学習しても良い。
また、制御結果良否判定部6においては、評価関数設定部17から設定される評価関数を用いて、良否判定を実施する。制御結果の良否判定は、使用する評価関数応じて判断結果が異なる。そのため、複数の評価関数に対応したニューラルネットをそれぞれ作成する。同じ入力データについてそれぞれの評価関数によりそれぞれ教師データを作成し、学習する。これにより、1回分の入力データに対して複数の教師データを作成し、それぞれの教師データに対応するニューラルネットの学習に用いる。同時に複数の評価関数対応したニューラルネットを学習していくことが可能である。ここで、複数の評価関数とは、例えば形状制御の場合、板幅方向でどの部分(板端部、センター部、非対称部等)を優先的に制御したいか、複数の制御対象項目(例えば、板厚と張力、圧延荷重等)のいずれを優先的に制御したいか、等のそれぞれのポリシに対して用いる評価関数のことである。
本実施例を適用した場合、制御ルール実行部10で用いられるニューラルネット101が一旦学習されると、新たな制御操作が実施されなくなることが考えられる。そのため、制御操作外乱発生部16により、適時新たな操作方法をランダムに発生させ、制御操作量S3に加えて制御操作を実行する事で、新たな制御方法を学習するようにする。
以下、一例として、特許文献1に示すようなセンヂミア圧延機における形状制御を対象に、本プラント制御方法の詳細を説明する。なお形状制御に関しては、下記のような仕様A、Bを採用するものとして説明する。
仕様Aは、評価関数についての仕様であり、板幅方向の優先度の情報を持つものとする。例えば形状制御においては、板幅方向全域にわたって板厚などを目標値に制御する事が、機械特性上困難な場合が多い。そのため、板幅方向で、下記複数のポリシに対応する評価関数A1〜AN(Nは評価関数の設定最大個数)を設ける。
評価関数は、評価が良いほど値が小さくなるように定義する。例えば、制御偏差の2乗平均や、最大値−最小値等である。
ここでは、一例として、以下に例示する6種類のポリシおよび評価関数A1〜A6を用いるものとする。
<A1:板端部を優先し、板端部の重み付けを重くした評価関数を用いる。>
<A2:中央部を優先し、中央部の重み付けを重くした評価関数を用いる。>
<A3:板端部の、伸び方向は許容する。>
<A4.板端部の、張り方向は許容する。>
<A5.板端部がデッドバンド内の場合は許容する。>
<A6.最大値−最小値>
<A1:板端部を優先し、板端部の重み付けを重くした評価関数を用いる。>
図6は、評価関数設定部17の内部構成を示すブロック図である。評価関数設定部17は、評価関数手動設定部171、評価関数選択部172、評価関数選択方法学習部173、および評価関数学習部174を有している。評価関数設定部17は、評価関数DB DB5と連動して、評価関数に関する下記の処理を実行する。
<処理17−1:評価関数の設定>
評価関数手動設定部171が評価関数を設定する。これは、操業技術者やオペレータの形状に対する考え方を予め数式化し、設定しておく処理である。
<処理17−2:評価関数の選択>
評価関数選択部172が、圧延状態に応じて、制御実行装置20にて使用する評価関数を選択する。
<処理17−3:評価関数の選択方法の学習>
評価関数選択方法学習部173が、圧延状態とオペレータの手動操作実績より、圧延状態に応じた評価関数が選択されるように学習実施する。
<処理17−4:評価関数自体の学習>
手動で予め設定した評価関数が正しいとは限らないため、評価関数自動学習部174が、評価関数自体を学習する。ここで学習する評価関数を学習評価関数と呼ぶ。学習がある程度進むと学習評価関数を用いて評価することが可能になる。その場合には、学習評価関数を評価関数として評価に用いることにしてもよい。
評価関数手動設定部171が評価関数を設定する。これは、操業技術者やオペレータの形状に対する考え方を予め数式化し、設定しておく処理である。
<処理17−2:評価関数の選択>
評価関数選択部172が、圧延状態に応じて、制御実行装置20にて使用する評価関数を選択する。
<処理17−3:評価関数の選択方法の学習>
評価関数選択方法学習部173が、圧延状態とオペレータの手動操作実績より、圧延状態に応じた評価関数が選択されるように学習実施する。
<処理17−4:評価関数自体の学習>
手動で予め設定した評価関数が正しいとは限らないため、評価関数自動学習部174が、評価関数自体を学習する。ここで学習する評価関数を学習評価関数と呼ぶ。学習がある程度進むと学習評価関数を用いて評価することが可能になる。その場合には、学習評価関数を評価関数として評価に用いることにしてもよい。
仕様Bは、予め判明している条件への対応についての仕様である。一例をあげると、形状パターンと制御方法の関係は、種々の条件で変化することから、例えば、仕様B1を板幅、仕様B2を鋼種とする区分で分ける必要がある事が考えられる。上記それぞれが変化することで、形状操作端の形状への影響度合が変化する。
この事例では制御対象プラント1は、センヂミア圧延機であり、実績データは形状実績となる。なおセンヂミア圧延機は、ステンレスなどの硬い材料を冷間圧延するためのクラスターロールを持つ圧延機である。ゼンジミア圧延機では、硬い材料に強圧下を与える目的で、小径のワークロールを用いる。このため、平坦な鋼板を得ることが難しい。この対策として、クラスターロールの構造やさまざまな形状制御部を採用している。センヂミア圧延機は一般には、上下の第1中間ロールが片テーパを持ち、シフトできるようになっているほか、上下に6個の分割ロールと2個のAS−Uと呼ばれるロールを備えている。以下に説明する事例では、形状の実績データSiとしては、形状検出器の検出データを用い、さらに入力データS1としては、目標形状との差である、形状偏差を用いる。また制御操作量S3としては、#1〜#nのAS−U、上下の第1中間ロールのロールシフト量とする。
図7に、センヂミア圧延機の形状制御に用いる場合のニューラルネットワークの構成を示す。ニューラルネットワークをニューラルネットと略す場合がある。ここでニューラルネットとは、制御ルール実行部10用ではニューラル101のことであり、制御ルール学習部11用ではニューラルネット111に示したニューラルネットを示しているが、いずも構造は同じである。
本実施例に示すセンヂミア圧延機の形状制御の事例では、制御対象プラント1からの実績データSiは形状検出器のデータ(ここでは、実績形状と目標形状との差である形状偏差が出力されるものとする)を含むセンヂミア圧延機の実績データであり、制御入力データ作成部2では、入力データS1として規格化形状偏差201、形状偏差段階202を得る。これによりニューラルネット101、111の入力層は、規格化形状偏差201、形状偏差段階202により構成される。なお図7では、形状偏差段階202をニューラルネット入力層への入力としているが、段階に応じてニューラルネットを切替てもよい。
また、出力層は、センヂミア圧延機の形状制御操作端である、AS−U、第1中間ロールに合わせて、AS−U操作度合301と第1中間操作度合302により構成される。それぞれの操作度合は、AS−Uについては、AS−U開方向(ロールギャップ(圧延機の上下作業ロール間の間隔)が開く方向)、AS−U閉方向(ロールギャップが閉じる方向)を各AS−Uについて持つ。また、第1中間ロールについては、第1中間ロール開方向(第1中間ロールが圧延機中心より外側に向かって動作する方向)、第1中間ロール閉方向(第1中間ロールが圧延機中心側に向かって動作する方向)を上下第1中間ロールについて持つ。例えば、形状検出器が20ゾーンで、形状偏差段階202を3段階(大、中、小)とした場合、入力層は23個の入力となる。また、AS−Uのサドルが7本、上下第1中間ロールが板幅方向でシフト可能とすると、出力層はAS−U操作度合301が14個、1中間操作度合が4個の計18個となる。中間層の層数および各層のニューロン数については、適時設定する。なお図10を参照して後述するが、出力層であるセンヂミア圧延機の形状制御操作端について、個々の制御操作端に対して+方向、−方向の2種類の出力が出るようにニューラルネット出力を構成している。
図8に形状偏差と制御方法について示している。ここでは図8上部に、形状偏差が大きい場合の制御方法を示し、図8の下部に形状偏差が小さい場合の制御方法を示している。なお高さ方向は形状偏差の大きさ、横軸方向は板幅方向であり、板幅の両側が板端部、中央が板中央部を表している。この図8の上部に示すように、形状偏差が大きい場合は、板幅方向の局部的な形状偏差よりも全体的な形状を修正することを優先する。一方図8の下部に示すように、形状偏差が小さい場合は、局部的な形状偏差を小さくすることを優先する。
このように、形状偏差の大きさに応じて制御方法を変える必要があるため、図7に示すように形状偏差段階202を設けてニューラルネット101、111に与え、形状偏差の大きさを判定する。形状偏差については形状偏差の大小にかかわらず、例えば0〜1に規格化したものを用いるのがよい。これは、一例であって、形状偏差を規格化せずにそのままニューラルネットの入力層へ入力することも考えられるし、形状偏差の大小に応じて、ニューラルネット自体を変える(例えば、2つのニューラルネットを準備し、形状偏差が大きい場合に使用するニューラルネットと、小さい場合に使用するニューラルネットを分ける)事も考えられる。
以上説明した図7のような構成のニューラルネット101、111に対して、形状パターンに対する操作方法を学習させ、学習させたニューラルネットを用いて形状制御を実施する。同じ構成のニューラルネットでも、学習の条件により異なった特性となり、同じ形状パターンに対して異なった制御出力を出すようにすることができる。
そのため、形状実績の他の条件に応じて、複数のニューラルネットを使い分けることで、多様な条件に対して最適な制御を構成することができる。これは仕様Bへの対応である。先に説明した図4の構成は、係る仕様を行う場合の具体例を示している。図4の構成事例では、制御ルール実行部10において使用するニューラルネット101を、圧延実績や、圧延機オペレータ名、被圧延材の鋼種、板幅等により別個のニューラルネットを準備し、制御ルールデータベースDB1に登録しておく。ニューラルネット選択部102においては、その時点の条件に合致するニューラルネットを選択し、制御ルール実行部10のニューラルネット101に設定する。なおニューラルネット選択部102における、その時点の条件としては、制御対象プラント1における実績データSiの中から板幅のデータを取り込み、これに応じてニューラルネットを選択するのがよい。また、ここで使用する複数のニューラルネットは、図7に示すような入力層、出力層を持てば、中間層の層数、各層のユニット数は異なっても良い。
図9に、ニューラルネット101、111の入力層へ入力するためのデータS1(規格化形状偏差201、形状偏差段階202)を作成する、制御入力データ作成部2の概要を示す。ここでは実績データSiとして、制御対象プラント1であるセンヂミア圧延機における圧延時の板形状を検出する、形状検出器の形状検出器データを入力とし、まず、形状偏差PP値演算装置210にて各形状検出器ゾーンの検出結果の最大値と最小値の差である形状偏差PP値(Peak To Peak値)SPPを求める。形状偏差段階演算装置211では、形状偏差PP値SPPにより、形状偏差を大、中、小の3段階に分類する。形状は、被圧延材の伸び率の板幅方向分布であり、伸び率を10−5単位で表すI−UNITが単位として用いられる。例えば、下式のように分類する。
ここでは、(1)式の成立により形状偏差段階が(大=1、中=0、小=0)とし、(2)式の成立により形状偏差段階が(大=0、中=1、小=0)とし、(3)式の成立により形状偏差段階が(大=0、中=0、小=1)とするように分類している。なおここでは、各ゾーンの形状偏差については、SPM=SPPとした、SPMを用いて規格化を実施する。
以上のようにして、ニューラルネット101への入力データである規格化形状偏差201および形状偏差段階202を作成する。規格化形状偏差201および形状偏差段階202は、制御ルール実行部10の入力データS1である。
図10に、制御出力演算部3の概要を示す。制御出力演算部3は、制御ルール実行部10内の、ニューラルネット101からの出力である制御操作端操作指令S2(センヂミア圧延機の形状制御の事例では、AS−U操作度合301、第1中間操作度合302がこれに相当する)より、各形状制御操作端への操作指令である制御操作量S3を作成する。なおここでは、複数個数が存在するAS−U操作度合301、第1中間操作度合302について、各1つのデータ例を示しており、各データは開方向度合と閉方向度合の一対のデータで構成されている。
制御出力演算部3内では、入力されたAS−U操作度合301は、各AS−U開方向、閉方向の出力をもつため、それらの差に変換ゲインGASUを掛ける事で、各AS−Uへの操作指令を出力する。変換ゲインGASUは、各AS−Uへの制御出力がAS−U位置変更量(単位は長さ)となることから、度合から位置変更量への変換ゲインとなる。
また同じく入力された第1中間操作度合302は、第1中間外側、内側の出力をもつため、それらの差に変換ゲインG1STを掛ける事で、各第1中間ロールシフトへの操作指令を出力する。変換ゲインG1STは、各第1中間ロールへの制御出力が第1中間ロールシフト位置変更量(単位は長さ)となることから、度合から位置変更量への変換ゲインとなる。
以上により、制御操作量S3を演算することができる。制御操作量S3は、#1〜#nAS−U位置変更量(nはAS−Uロールのサドル数による)と、上第1中間シフト位置変更量、下第1中間シフト位置変更量から構成されている。なお、図10には、制御操作外乱発生部16からの外乱データを制御操作端操作指令S2に加算する系統が図示されている。
図6を参照して評価関数設定部17の動作概要について説明する。評価関数は、圧延機における形状の制御に対するオペレータの意図を反映させたものである。オペレータの意図は圧延状態に応じて変化する。ここでは圧延状態は圧延速度により区別されるとする。図11に示すように、圧延機の圧延速度は、停止状態から加速して一定速にて圧延し、減速して停止するというように変化する。その圧延速度の変化に応じて圧延状態も17−1、17−2、17−3・・・と変化する。そして、圧延状態の変化に応じて、オペレータの意図も、意図1、意図2、意図3・・・というように変化する。オペレータの意図には例えば以下のようなものがある。
<意図1>低速で圧延を開始した当初は、通板の安定性を確保するために板の中央部を優先する。
<意図2>圧延を加速するときには、板の蛇行等を防止するため板端部を重視する。
<意図3>圧延速度が一定のときには、被圧延材の品質を考慮し、かつ板破断が発生しないように、板端部の伸び方向の形状偏差は許容し、中央部の形状を優先する。
<意図2>圧延を加速するときには、板の蛇行等を防止するため板端部を重視する。
<意図3>圧延速度が一定のときには、被圧延材の品質を考慮し、かつ板破断が発生しないように、板端部の伸び方向の形状偏差は許容し、中央部の形状を優先する。
上記各意図に評価関数A1〜ANを対応づけると以下のようになる。
意図1には評価関数A2が対応する。
意図2には評価関数A1が対応する。
意図3には評価関数A3が対応する。
意図1には評価関数A2が対応する。
意図2には評価関数A1が対応する。
意図3には評価関数A3が対応する。
評価関数DB DB5には、上記のようなオペレータの意図と評価関数との対応関係を記憶する。図12に評価関数DB DB5の一例を示す。上記の圧延状態に応じたオペレータの各意図に対して評価関数A1〜A6(評価関数NO)のいずれを使用するかを定義する。
意図1、2、3が適用される圧延状態は圧延速度により区別できるので、圧延速度に応じて評価関数A1〜ANのいずれを用いるのか選択することができる。オペレータまたは操業技術者等が、評価関数手動設定部171を用いて、圧延速度と評価関数A1〜ANとの対応づけを評価関数DB DB5に手動設定する。評価関数選択部172が、その設定に従って、(圧延速度の実績値を含む)圧延実績Siより定めた圧延状態に応じたオペレータの意図に対応する評価関数を選択し、制御出力判定部5および制御結果良否判定部6に設定する。
オペレータまたは操業技術者による評価関数の選択の手動設定は、実際のオペレータの判断が適切に設定されなかったり、オペレータが新たな判断基準を発見して使用するようになったりして、実際と異なる場合がありうる。この手動設定の良否を評価するために、評価関数選択方法学習部173が、実際の圧延操業で得られる実績データに基づいて、評価関数の選択方法の良否を判定する。更に、選択方法が良くないと判定したときには、評価関数選択方法学習部173は、評価関数データベースDB5における評価関数の選択方法の設定を変更する。
図13は、評価関数選択方法学習部173の動作概要を説明するための図である。オペレータは、圧延操業中に板の形状が悪いと判断したら手動操作を開始し、形状が良くなったと判断するまで手動操作を継続する。したがって、オペレータが手動操作を開始した時点と、手動操作を終了した時点にはオペレータの意図が反映される。評価関数選択方法学習部173は、その時点のデータで各評価関数A1〜ANでの形状評価結果を計算し、それら形状評価結果を相互に比較すれば、評価関数の相対的な良否、すなわちどの評価関数がオペレータの意図に近いものであるかを判定することができる。
形状評価値は値が小さいほど形状が良好であることを示すものとすると、手動操作を開始した時点での形状評価値が大きく、手動操作を終了した時点での形状評価値が小さい評価関数は、その圧延状態(圧延速度)で好適な評価関数と判断できる。
本実施例では、2乗平均を使用する評価関数、最大値あるいは最小値を使用する評価関数など、評価関数ごとに計算方法が異なるため、共通的な指標を評価関数の良否を評価するための指標(評価関数良否指標)として用いて比較する必要がある。ここでは一例として、評価関数選択方法学習部173は、以下の式に示す比率Xiを用いて評価関数を比較する。
比率Xi=(a−b)/b
aは、手動操作を開始した時点の形状評価値である。bは、手動操作を終了した時点の形状評価値である。評価関数選択方法学習部173は、評価関数A1〜ANのうち、評価関数良否指標である比率Xiが最も大きな値となる評価関数Aiを、そのときの圧延状態におけるオペレータの意図に最も合った評価を得られる評価関数であると判断し、最良の評価関数として選択する。
比率Xi=(a−b)/b
aは、手動操作を開始した時点の形状評価値である。bは、手動操作を終了した時点の形状評価値である。評価関数選択方法学習部173は、評価関数A1〜ANのうち、評価関数良否指標である比率Xiが最も大きな値となる評価関数Aiを、そのときの圧延状態におけるオペレータの意図に最も合った評価を得られる評価関数であると判断し、最良の評価関数として選択する。
手動操作が開始あるいは終了したときの圧延状態およびそのときのオペレータの意図は、圧延実績より判定可能である。評価関数選択方法学習部173は、評価関数DB DB5における、該当するオペレータの意図に対応づけられている評価関数が、ここで選択された最良の評価関数と異なれば、該当するオペレータの意図に対応する評価関数を評価関数Aiに更新する。そして、評価関数選択方法学習部173は、次回からは変更後の設定に従って評価関数Aiを制御出力判定部5および制御結果良否判定部6に設定する。
図13のグラフには、2つの評価関数A1、A2の形状評価値の時間推移が示されている。評価関数A1の手動操作が開始された時点での形状評価値がA1Sであり、手動操作が終了した時点での形状評価値がA1Eである。評価関数A2の手動操作が開始された時点での形状評価値がA2Sであり、手動操作が終了した時点での形状評価値がA2Eである。
図13を見て明らかなように、評価関数A2の比率X2=(A2S−A2E)/A2Eが、評価関数A1の比率X1=(A1S−A1E)/A1Eよりも大きい。
更に、手動で設定した評価関数そのものが適当で無いという可能性も考慮して、評価関数学習部174により評価関数の学習を行う。
図14は、評価関数学習部174の動作概要を説明するための図である。評価関数学習部174は、圧延により得られた板の形状の実績値である形状実績と、圧延における制御操作のパラメータ値である圧延実績とを入力とし、形状評価値を出力する評価関数用のニューラルネットワーク(評価関数用ニューラルネット)を設置し、実績データを用いて、その評価関数用ニューラルネットの学習を行う。なお、評価関数用ニューラルネットへの入力とする圧延実績には、評価関数に影響を与えそうな圧延実績(例えば圧延速度)を選択するとよい。学習済みのニューラルネットワークは評価関数として用いることができる。
先に述べたように、オペレータの意図する形状の評価は、オペレータが手動操作を開始した時点では板の形状が悪く、手動操作を終了した時点では板の形状は良いと解釈できる。そこで、圧延機により板を作成する過程で、評価関数学習部174は、オペレータが手動操作を開始した時点の形状評価値=1(1は形状が悪いことを示す)とし、手動操作を終了した時点の形状評価値=0(0は形状が良いことを示す)として、その時点での形状実績および圧延実績と共に教師データとして蓄積していく。そして、評価関数学習部174は、蓄積した教師データを用いて、ニューラルネットの教師あり学習を行う。これにより学習済みニューラルネットは、圧延実績および形状実績を入力すると、形状評価値を出力するものとなるので、評価関数として用いることができる。
図15に、評価関数学習部174の概要構成を示す。制御出力判定部5および制御結果良否判定部6は、当初はオペレータが手動で設定した評価関数を用いている。評価関数学習部174は、形状実績と圧延実績を含む圧延実績データSiに後述する教師データを加えて学習データとして学習することにより、当初の評価関数に代わる評価関数を提供する評価関数用ニューラルネットを構築する。
評価関数実行部174は評価実行部と学習実行部とを有する。
評価実行部は、制御出力判定部5および制御結果良否判定部6にて用いられる評価関数用ニューラルネット1740を備え、その評価関数用ニューラルネット1740を用いて評価を実施する。
学習実行部は、その評価関数用ニューラルネット1740と同等の評価関数用ニューラルネット1741を備え、その評価関数用ニューラルネット1741を用いて学習を実施する。ここで、評価関数用ニューラルネット1741は、図14に示すように、形状実績と圧延実績を入力とし、形状評価値を出力とするニューラルネットである。この評価関数用ニューラルネット1741の学習時には、形状実績および圧延実績を含む圧延実績データSiを入力データとし、後述する形状評価値を教師データとし、それらの組合せを学習データとする。従って、形状実績および圧延実績と教師データの組合せを学習データとして評価関数学習データデータベース1743に格納しておき、ある程度まで学習データが蓄積された段階で、学習実行部がニューラルネットの学習を実施するとよい。
学習実行部は、上述した評価関数用ニューラルネット1741の他に、評価関数用ニューラルネット学習制御部1744、入力データ作成部1745、および教師データ作成部1746を有している。
教師データ作成部1746においては、オペレータの形状に対する手動操作の信号を用いて、手動操作が開始されたタイミングにて、形状評価値=1の教師データを作成する。また、教師データ作成部1746は、手動操作が開始されたタイミングを、入力データ作成部1745に通知する。入力データ作成部1745は、手動操作が開始されたタイミングでの形状実績および圧延実績を取得し、それを入力データとする。入力データ作成部1745で作成された入力データと教師データ作成部1746にて作成された教師データは、一組の学習データとして、評価関数学習データデータベース1743に保存される。
同様にして、教師データ作成部1746においては、オペレータの形状に対する手動操作の信号を用いて、手動操作が終了したタイミングにて、形状評価値=0の教師データを作成する。また、教師データ作成部1746は、手動操作が終了したタイミングを、入力データ作成部1745に通知する。入力データ作成部1745は、手動操作が終了したタイミングでの形状実績および圧延実績を取得し、それを入力データとする。入力データ作成部1745で作成された入力データと教師データ作成部1746にて作成された教師データは、一組の学習データとして、評価関数学習データデータベース1743に保存される。
評価関数学習データデータベース1743に学習データがある程度(例えば1000組)蓄積されたら、評価関数用ニューラルネット学習制御部1744が、評価関数学習データデータベース1743から学習データを読出し、その学習データから入力データと教師データを取得して評価関数用ニューラルネット1741に与え、ニューラルネットの学習を実施する。
学習実行部にて評価関数用ニューラルネット1741の学習が完了したら、その評価関数用ニューラルネット1741を、評価実行部の評価関数用ニューラルネット1740にコピーする。それにより、評価関数用ニューラルネット1740が新たなものに更新される。その結果、制御出力判定部5および制御結果良否判定部6では新たな評価関数用ニューラルネットワークによる評価を行うことが可能となる。
本実施例では、制御目標とする板幅や板厚、材料の鋼種などの条件が異なれば好適な評価関数は異なるものになると考えられるので、それぞれの条件ごとに別々に学習を行った学習済みニューラルネットを評価関数として評価関数データベースDB5に格納し、条件に応じてそれらを使い分けることにしてもよい。また、圧延実績として板幅や板厚、鋼種等を考慮することで、1つのニューラルネットでカバーする事も可能である。
学習がある程度進むまでの間、評価関数用ニューラルネットから得られる評価関数の数値は不正確である可能性がある。そのため、評価関数選択方法学習部173は、設定評価関数A1〜ANの値だけでなく、圧延状態も考慮して、評価関数を選択して使用するようにしても良い。
以上のようにして、評価関数設定部17は、圧延状態に応じた最適な評価関数を、制御出力設定部5および制御結果良否判定部6に設定する。
図16は、制御出力判定部5の概要を説明するための図である。制御出力判定部5は、圧延現象モデル501と形状修正良否判定部502から構成されており、制御対象プラント1よりの実績データSi、制御出力演算部3からの制御操作量S3、および出力判定データベースDB3の情報を得て、制御操作端への制御操作量出力可否データS4を与える。係る構成により制御出力判定部5においては、制御出力演算部3にて演算した制御操作量S3を制御対象プラント1である圧延機に出力した場合の形状の変化を、既知の制御対象プラント1のモデル(図16の実施例の場合は、圧延現象モデル501)に入力することで予測し、形状が悪化すると予想される場合は制御操作量出力SOを抑制し、形状が大きく悪化する事を防止する。
より詳細に述べると、制御操作量S3を圧延現象モデル501に入力し制御操作量S3による形状変化を予測し、形状偏差修正量予測データ503を演算する。他方、制御対象プラント1からの形状検出器データSi(現時点での形状偏差実績データ504)に、形状偏差修正量予測データ503を加算する事で形状偏差予測データ505を得、形状偏差予測データ505を評価することで、制御操作量S3を制御対象プラント1に出力したときに、形状がどのように変化するかが予測できる。現状の形状偏差実績データ504と形状偏差予測データ505より、形状修正良否判定部502においては、形状が良くなる方向に変化するのか、悪くなる方向に変化するのか判定し、制御操作量出力可否データS4を得る。
形状修正良否判定部502では、具体的には以下のようにして形状修正の良否判定を行う。まず、板幅方向での制御優先度を考慮するため、評価関数設定部17から設定される圧延状態に応じた評価関数を用いて形状変化の良否を判定する。例えば下記式に示す評価関数Jを用いて形状変化の良否を判定する。下記式において、εfb(i)は形状偏差実績504、εest(i)は形状偏差予測505、iは形状検出器ゾーン、randは乱数項、JAiは評価関数設定部17が設定した評価関数である。
上記式の評価関数Jを用いた場合、形状が良くなるときは評価関数Jが正、悪くなるときは評価関数Jが負となる。また、randは乱数項であり、評価関数Jの評価結果を乱数的に変化させる。これにより、形状が悪化する場合であっても、評価関数Jとしては正になる場合が発生するため、圧延現象モデル501が正しくない場合についても形状パターンと制御方法の関係を学習していく事が可能である。ここでrandは、試運転当初の様に、制御対象プラント1のモデルが不確実の場合は最大値を大きくし、ある程度制御方法を学習し安定した制御を実施したい場合は0とするように、適時変更する。
形状修正良否判定部502においては、評価関数Jを演算し、J≧0のとき制御操作量出力可否データS4=1(可)とし、J<0のとき制御操作量出力可否データS4=0(否)のように制御操作量出力可否データS4を出力する。
制御出力抑制部4においては、制御出力判定部5の判定結果である制御操作量出力可否データS4に応じて、制御対象プラント1への制御操作量出力SOの出力有無を決定する。制御操作量出力可否データS4は、#1〜#nAS−U位置変更量出力、上第1中間シフト位置変更量出力、下第1中間シフト位置変更量出力であり、
IF(制御操作量出力可否データS4=0)THEN
#1〜#nAS−U位置変更量出力=0
上第1中間シフト位置変更量出力=0
下第1中間シフト位置変更量出力=0
ELSE
#1〜#nAS−U位置変更量出力=#1〜#nAS−U位置変更量
上第1中間シフト位置変更量出力=上第1中間シフト位置変更量
下第1中間シフト位置変更量出力=下第1中間シフト位置変更量
ENDIF
により決定される。
IF(制御操作量出力可否データS4=0)THEN
#1〜#nAS−U位置変更量出力=0
上第1中間シフト位置変更量出力=0
下第1中間シフト位置変更量出力=0
ELSE
#1〜#nAS−U位置変更量出力=#1〜#nAS−U位置変更量
上第1中間シフト位置変更量出力=上第1中間シフト位置変更量
下第1中間シフト位置変更量出力=下第1中間シフト位置変更量
ENDIF
により決定される。
制御実行装置20においては、制御対象プラント1(圧延機)からの実績データSiより、上記の演算を実行し、制御操作量出力SOを制御対象プラント1(圧延機)に出力する事により形状制御を実施する。
次に、制御方法学習装置21の動作概要について説明する。制御方法学習装置21においては、制御実行装置20で用いたデータの時間遅れデータを使用する。時間遅れZ−1は、e−TSを意味し、予め設定した時間Tだけ遅延させる事を示す。制御対象プラント1は、時間応答を持つため、制御操作量出力SOにより、実績データが変化するまで時間遅れが存在する。そのため、学習は、制御操作実行後、遅延時間Tだけ経過した時点での実績データを用いて実施する。形状制御においては、AS−Uや第1中間ロールに対する操作指令出力後、形状計が形状変化を検出するまで数秒要するため、T=2から3秒程度に設定するのがよい(形状検出器の種類や圧延速度によっても、遅れ時間は変化するため、制御操作端の変更が形状変化となるまでの最適な時間をTとして設定すればよい。)。
図17は、制御良否判定部6の動作概要を説明するための図である。形状変化良否判定部602においては、下式のような良否判定評価関数JCを用いる。
なお、上記式において、εfb(i)は実績データSiに含まれる形状偏差実績データ、εlast(i)は形状偏差実績データ前回値であり、JAiは評価関数設定部が設定した評価関数である。ここで、評価関数JAiには、評価関数設定部17に手動で予め設定した評価関数JAi、または評価関数学習部174が学習した評価関数(学習評価関数)を設定する。良否判定評価関数Jcにより、制御結果の良否を判定する。また、制御出力判定部5の判定結果である制御操作量出力可否データS4が0(制御出力不可)の場合についても、実際に制御対象プラント1へ制御操作量出力=0であるが、形状が悪くなったと判断する。
ここでは、制御操作量出力可否データS4=0の場合、制御結果良否データS6=−1とする。また閾値上限LCUと閾値加減LCLを、閾値条件(LCU≧0≧LCL)のもとで予め設定しておく。このときに、良否判定評価関数Jcとの比較の結果が、Jc>LCUであれば、制御結果良否データS6=−1(形状が悪くなった)とし、
LCU≧Jc≧0であれば、制御結果良否データS6=0(形状が悪くなる方向に変化)とし、
0>Jc≧LCLであれば、制御結果良否データS6=1(形状が良くなる方向に変化)とし、
Jc<LCLであれば、制御結果良否データS6=0(形状が良くなった)とする。
LCU≧Jc≧0であれば、制御結果良否データS6=0(形状が悪くなる方向に変化)とし、
0>Jc≧LCLであれば、制御結果良否データS6=1(形状が良くなる方向に変化)とし、
Jc<LCLであれば、制御結果良否データS6=0(形状が良くなった)とする。
ここで、制御結果良否データS6=−1は、形状が悪くなったので、出力した制御出力を抑制する場合、制御結果良否データS6=0は、形状変化無し、または形状が良くなったので出力した制御出力を保持する場合、制御結果良否データS6=1は、形状が良くなる方向に変化したが、更に良くなる可能性が有るので、出力した制御量を増大させる場合である。
評価関数JAiが異なると良否判定評価関数Jcは異なる。そのため、制御結果良否データS6の判定結果も異なる事が考えられる。そのため、制御方法学習装置21においては、予め設定された各評価関数ついて、制御結果良否データS6の判定を実施する。
次に、学習データ作成部7の概要について説明する。図3に示したように、学習データ作成部7においては、制御結果良否判定部6からの判定結果(制御結果良否データS6)を基にして、制御操作端操作指令S2、制御操作量S3、制御出力抑制部の判定結果(制御操作量出力可否データS4)より、制御ルール学習部11で使用するニューラルネット111に対する教師データS7aを作成する。
この場合の教師データS7aは、図7に示す、ニューラルネット111の出力層からの出力である、AS−U操作度合301、1中間操作度合302となる。学習データ作成部7は、ニューラルネット101の出力である制御操作端操作指令S2(AS−U操作度合301、1中間操作度合301)と、制御操作量出力SOである#1〜#nAS−U位置変更量出力、上第1中間シフト位置変更量出力、下第1中間シフト位置変更量出力を用いて、制御ルール学習部11で使用するニューラルネット111に対する教師データS7aを作成する。
学習データ作成部7の動作概要を説明するにあたり、図10の制御出力演算部3における各部データや記号の関係を図18に整理している。ここでは、ニューラルネット101の出力である制御操作端操作指令S2についてAS−U操作度合301を代表的に示しており、操作度合正側のデータをOPref、操作度合負側のデータをOMref、制御操作外乱発生部16からの乱数的に発生する操作度合を操作度合乱数Oref、変換ゲインをG、制御操作量出力SOをCrefとして説明する。このように、ここでは、簡単のため、制御ルール実行部10のニューラルネット101の出力層からの出力として、操作度合正側および操作度合負側、制御操作外乱発生部16からの乱数的に発生する操作度合を操作度合乱数としている。また、制御操作端に対する制御操作量出力SOを操作指令値としている。
図19は、学習データ作成部7における処理段階と処理内容を示している。ここで、図18の記号の約束に則り説明すると、最初の処理段階71では、操作指令値Crefを(6)式により求めている。
次の処理段階72では、制御結果良否データS6に応じて操作指令値Crefを修正しC´refとする。具体的には制御結果良否データS6=−1のとき(7)式、制御結果良否データS6=0のとき(8)式、制御結果良否データS6=1のとき(9)式により、操作指令値Crefの修正値C´refとする。
処理段階73では、修正された操作指令値C´refより、(10)、(11)式により操作度合修正量ΔCrefを求める。
処理段階74では、ニューラルネット111への教師データOP´ref、OM´refを(12)式により求める。
このように学習データ作成部7では、図18に示すように、実際に制御対象プラント1に対して出力した操作指令値Crefを、制御結果良否判定部6における判定結果である制御結果良否データS6に応じて、操作指令値修正値C´refを演算する。具体的には、制御結果良否データS6=1の場合は、制御方向はOKであるが、制御出力が不足していると判断された場合で、操作指令値を同じ方向にΔCrefだけ増加するようにする。逆に制御結果良否データS6=−1の場合は、制御方向が間違っていると判断された場合で、操作指令値を逆方向にΔCrefだけ減少するようにする。変換ゲインGは、予め設定したものであるから既知である事から、操作度合正側および操作度合負側の値が判れば、修正量ΔOrefを求める事が可能である。ここでΔCrefは、予め適当な値をシミュレーション等で求めておき、設定する。以上の手順により、制御ルール学習部11にて使用する教師データOP´ref、OM´refは上記の(12)式により求める事ができる。
なお図19では簡便な事例で説明を行っているが、実際には、#1〜#nAS−Uに対するAS−U操作度合301および、上第1中間ロールシフト、下第1中間ロールシフトに対する第1中間操作度合302についてその全てを実施し、制御ルール学習部11で用いるニューラルネット111の教師データ(AS−U操作度合教師データ、1中間操作度合教師データ)とする。
図20は学習データデータベースDB2に保存されたデータ例を示している。ニューラルネット111を学習するためには、多数の入力データS8aと教師データS7aの組合せが必要である。従って、学習データ作成部7で作成した教師データS7a(AS−U操作度合教師データ、第1中間操作度合)は、制御実行装置20にて制御ルール実行部10に入力された入力データS1(規格化形状偏差201および形状偏差段階)の時間遅れデータS8aと組み合わせて一組の学習データS11として、学習データデータベースDB2に保存される。
なお図3のプラント制御装置においては、各種のデータベースDB1、DB2、DB3、DB4、DB5を使用しているが、図20に各データベースDB1、DB2、DB3、DB4を連系的に管理運用するためのニューラルネット管理テーブルTBの構成を示す。管理テーブルTBは、仕様の管理テーブルを備えている。具体的には、管理テーブルTBは、仕様について(B1)板幅、(B2)鋼種、および制御の優先度についての評価関数A1〜ANに応じて区分けされる。(B1)板幅としては、例えば、3フィート幅、メータ幅、4フィート幅、5フィート幅の4区分が、鋼種としては、鋼種(1)〜鋼種(10)の10区分程度を用いる。また、制御の評価関数についてはN(Nは設定した評価関数の個数。本実施例ではN=6。)種類とする。この場合、80区分となり、240個のニューラルネットを、圧延条件に応じて使い分けて使用する事となる。
ニューラルネット学習制御部112は、図20に示すような、入力データおよび教師データの組合せである学習データを、図21のニューラルネット管理テーブルTBに従って、該当するニューラルネットNo.と紐付けて、図22に示すような学習データデータベースDB2に格納する。
制御実行装置20が、制御対象プラント1に対して、形状制御を実行するたびに、学習データが評価関数に応じてN組作成される。これは、同じ入力データ、制御出力に対して、制御結果良否判定が制御の優先度についてのN個の評価関数を用いて行われるため、教師データがN種類作成されるためである。教師データがある程度(例えば200組)蓄積されたら、または新たに学習データデータベースDB2に蓄積されたら、ニューラルネット学習制御部112は、ニューラルネット111の学習を指示する。
制御ルールデータベースDB1には、図21に示すような管理テーブルTBに従って、複数のニューラルネットが格納されており、ニューラルネット学習制御部112においては、学習が必要なニューラルネットNo.を指定して、ニューラルネット選択部113が制御ルールデータベースDB1より当該ニューラルネットを取り出し、ニューラルネット111に設定する。ニューラルネット学習制御部112は、学習データデータベースDB2より、当該ニューラルネットに対応する、入力データおよび教師データの取り出しを、入力データ作成部114および教師データ作成部115に指示し、それらを用いてニューラルネット111の学習を実施する。なおニューラルネットの学習方法は手法が種々提案されており、いずれの手法を用いても良い。
ニューラルネット111の学習が完了すると、ニューラルネット学習制御部112は、学習結果であるニューラルネット111を、制御ルールデータベースDB1の当該ニューラルネットNo.の位置に書き戻すことで、学習が完了する。
学習は、図21にて定義された全てのニューラルネットに対して定時間間隔(例えば1日毎)で一斉に実施しても良いし、新しい学習データがある程度(例えば100組)蓄積されたニューラルネットNo.のニューラルネットのみ、その時点で学習させても良い。
以上により、制御対象プラント1である圧延機の形状を大きく乱すことなく、
1)基準形状パターンと、それに対する制御操作を予め別々に設定し、制御操作方法を学習していくのではなく、形状パターンと制御操作の組合せを学習し、それを用いて制御操作を実施する。
2)新たな制御ルールは、予め予想できるものでは無く、全く予測できなかった制御ルールが最適となる場合も有る事から、ランダムに制御操作端を動作させ、それに対する制御結果を見ながら見つけていく。
3)制御対象に対する制御の優先度を決定する評価関数を、オペレータの感覚に合致するように、制御対象の状態に応じてオペレータの手動操作方法に合致するように設定する。
事が実現できる。
1)基準形状パターンと、それに対する制御操作を予め別々に設定し、制御操作方法を学習していくのではなく、形状パターンと制御操作の組合せを学習し、それを用いて制御操作を実施する。
2)新たな制御ルールは、予め予想できるものでは無く、全く予測できなかった制御ルールが最適となる場合も有る事から、ランダムに制御操作端を動作させ、それに対する制御結果を見ながら見つけていく。
3)制御対象に対する制御の優先度を決定する評価関数を、オペレータの感覚に合致するように、制御対象の状態に応じてオペレータの手動操作方法に合致するように設定する。
事が実現できる。
なお、制御ルールデータベースDB1には、制御実行装置20で使用するニューラルネットが格納されるが、格納されるニューラルネットが、乱数でイニシャル処理を実施しただけのものだと、ニューラルネットの学習が進行し、それなりの制御が可能となるまで時間がかかる。そのため、制御対象プラント1に対して、制御部を構築した時に、その時点で判明している制御対象プラント1の制御モデルに基づき、予めシミュレーションにて、制御ルールの学習を実施し、シミュレータでの学習が完了したニューラルネットをデータベースに格納しておく事で、制御対象プラントの立上げ当初から、ある程度の性能の制御を実施する事が可能である。
また、オペレータの手動操作方法に合致した評価関数を用いてニューラルネットの学習を実施しているため、制御出力による制御対象の変化に対してオペレータが手動操作を行う事が無くなり、オペレータの負荷軽減および制御精度、操業効率の向上が可能である。
以上説明した実施形態には以下に示す事項が含まれている。ただし、実施形態に含まれる事項が以下に示す事項に限られるものではない。
本開示の制御装置は、制御対象を制御する制御装置であって、与えられた制御ルールに従って前記制御対象へ制御出力を与える制御実行装置と、指定された評価関数を用いて前記制御対象に対して与えられた制御出力を評価し、その評価結果を利用して学習データを作成し、該学習データを学習することにより前記制御ルールを構築し、該制御ルールを前記制御実行装置に与える制御方法学習装置と、複数の評価関数を予め保持しており、前記制御対象への制御状態に基づいて、前記複数の評価関数のうちいずれかを選択し、前記選択した評価関数を前記制御方法学習装置に指定する評価関数設定部と、を有する。
この構成によれば、制御状態に基づいて選択した評価関数による制御出力に対する評価の評価結果を利用した学習データを学習して構築した制御ルールに従って制御対象へ制御出力を与えるので、制御結果の適切な良否判定に基づく制御が実行可能となることが期待される。
また、本開示によれば、前記評価関数設定部は、前記制御対象への制御状態とオペレータによる手動操作とに基づいて前記複数の評価関数の各々について評価関数良否指標を算出し、該評価関数良否判定指標に基づいて、前記制御方法学習装置に指定する評価関数を選択する。この構成によれば、オペレータによる手動操作と制御対象への制御状態との関係を利用することで、オペレータの意図する制御が高評価となる評価関数が選択されやすくなる。
また、本開示によれば、前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングと、前記オペレータが手動操作を終了したタイミングとにおける前記評価関数の評価値を算出し、該評価値を用いて前記評価関数良否判定指標を算出する。この構成によれば、オペレータは、圧延操業中に板の形状が悪いと判断したら手動操作を開始し、形状が良くなったと判断するまで手動操作を継続するので、その時点での評価値からオペレータの意図を得ることができる。
また、本開示によれば、前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングにおける前記評価関数の評価値aと、前記オペレータが手動操作を終了したタイミングにおける前記評価関数の評価値bを算出し、前記評価関数良否判定指標を(a−b)/bとして算出する。この構成によれば、複数の評価関数ごとに計算方法が異なる場合でも、評価関数良否指標を相互に比較することが可能である。
また、本開示によれば、前記評価関数は、前記制御対象への前記制御出力と該制御出力の制御結果が反映された前記制御対象の実績データとを入力とし、前記評価結果を出力するものであり、前記評価関数設定部は、オペレータによる手動操作と前記制御対象への前記制御出力と前記制御対象の実績データとに基づく学習データを学習することにより、前記評価関数を構築する。この構成によれば、オペレータの手動操作を利用するので、オペレータの意図を反映した評価関数を構築することができる。
また、本開示によれば、前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングと、前記オペレータが手動操作を終了したタイミングとにおける前記制御対象への前記制御出力と前記制御対象の実績データとに基づく学習データを学習することにより、前記評価関数を構築する。この構成によれば、オペレータは、圧延操業中に板の形状が悪いと評価したら手動操作を開始し、形状が良くなったと評価するまで手動操作を継続するので、オペレータの評価を反映した評価値を学習データとし、オペレータの評価に近い評価を行う評価関数を構築することができる。
また、本開示によれば、前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングにおける評価値を所定値cとして学習データを生成し、前記オペレータが手動操作を終了したタイミングにおける評価値を所定値dとして学習データを生成し、前記学習データを学習することにより、前記評価関数を構築する。この構成によれば、オペレータは、圧延操業中に板の形状が悪いと判断したら手動操作を開始し、形状が良くなったと判断するまで手動操作を継続するので、その時点での評価値からオペレータの意図を得ることができる。
また、本開示によれば、前記制御実行装置は、前記制御対象の実績データと制御操作との組合せに従って前記制御対象への制御出力を与える制御ルール実行部と、前記評価関数を用いて前記制御ルール実行部が出力する前記制御出力の適用可否を判定するとともに、適用否と判定したら当該実績データと制御操作との組合せが不適切であることを前記制御方法学習装置に通知する制御出力判定部と、該制御出力判定部が、適用否と判定したら、前記制御出力を前記制御対象に出力することを阻止する制御出力抑制部とを備え、前記制御方法学習装置は、前記制御実行装置が前記制御出力を実際に前記制御対象に出力した場合に、前記制御出力が前記制御対象の実績データに反映されるまでの時間遅れ後に、前記評価関数設定部が設定した評価関数を用いて、前記実績データが前記制御出力により改善されたか悪化したかという制御結果の良否を判定する制御結果良否判定部と、該制御結果良否判定部により判定された制御結果の良否と、前記制御出力とを用いて教師データを得る学習データ作成部と、前記実績データと前記教師データを学習データとして学習する制御ルール学習部とを備え、前記制御方法学習装置が学習する事で、前記制御対象プラントの状態に応じて複数の制御目標に対して別個の実績データと制御操作の組合せを得、得られた実績データと制御操作の組合せを前記制御ルール実行部における制御対象プラントの実績データと制御操作の定められた組合せとして使用する。
また、本開示のプラント制御装置は、実際には計算機システムとして実現されることになるが、この場合には計算機システム内に複数のプログラム群を形成することになる。
これらのプログラム群は、例えば、
制御実行装置の処理を達成させるための、制御対象プラントの実績データと制御操作の定められた組合せに従って制御出力を与える制御ルール実行プログラム、制御ルール実行プログラムが出力する制御出力の可否を判定するとともに、当該実績データと制御操作が誤りである事を前記制御方法学習装置に通知する制御出力判定プログラム、制御出力判定プログラムが、制御出力を制御対象プラントに出力した場合、制御対象プラントの前記実績データが悪化すると判断した場合は、制御出力を前記制御対象プラントに出力することを阻止する制御出力抑制プログラムであり、
制御方法学習装置の処理を達成させるための、制御実行装置が制御出力を実際に、制御対象プラントに出力した場合に、制御効果が実績データに表れるまでの時間遅れ後に、実績データが当該制御前に比較して良くなったか、悪くなったかについての制御結果の良否を判定する制御結果良否判定の処理を達成させるための制御結果良否判定プログラム、該制御結果良否判定プログラムにおける制御結果の良否と、制御出力をもちいて教師データを得る学習データ作成プログラム、前記実績データと前記教師データを学習データとして学習する制御ルール学習プログラムである。
そして、制御方法学習装置が学習する事で、前記制御対象プラントの状態に応じて複数の制御目標に対して別個の実績データと制御操作の組合せを得、得られた実績データと制御操作の組合せを前記制御ルール実行プログラムにおける制御対象プラントの実績データと制御操作の定められた組合せとして使用するものである。
制御実行装置の処理を達成させるための、制御対象プラントの実績データと制御操作の定められた組合せに従って制御出力を与える制御ルール実行プログラム、制御ルール実行プログラムが出力する制御出力の可否を判定するとともに、当該実績データと制御操作が誤りである事を前記制御方法学習装置に通知する制御出力判定プログラム、制御出力判定プログラムが、制御出力を制御対象プラントに出力した場合、制御対象プラントの前記実績データが悪化すると判断した場合は、制御出力を前記制御対象プラントに出力することを阻止する制御出力抑制プログラムであり、
制御方法学習装置の処理を達成させるための、制御実行装置が制御出力を実際に、制御対象プラントに出力した場合に、制御効果が実績データに表れるまでの時間遅れ後に、実績データが当該制御前に比較して良くなったか、悪くなったかについての制御結果の良否を判定する制御結果良否判定の処理を達成させるための制御結果良否判定プログラム、該制御結果良否判定プログラムにおける制御結果の良否と、制御出力をもちいて教師データを得る学習データ作成プログラム、前記実績データと前記教師データを学習データとして学習する制御ルール学習プログラムである。
そして、制御方法学習装置が学習する事で、前記制御対象プラントの状態に応じて複数の制御目標に対して別個の実績データと制御操作の組合せを得、得られた実績データと制御操作の組合せを前記制御ルール実行プログラムにおける制御対象プラントの実績データと制御操作の定められた組合せとして使用するものである。
なお本発明装置を実プラントに適用するに当たり、ニューラルネットの初期値を定めておく必要があるが、この点に関して実績データと制御操作の組合せを、制御対象プラントでの制御を実施する前に、制御対象プラントの制御モデルを用いてして、シミュレーションにより作成し、制御対象プラントにおける実績データと制御操作の組合せの学習期間を短縮するのがよい。
本発明は、例えば圧延設備の1つである圧延機の制御方法及び部に関するものであり、実適用に当たっての問題点は特に無い。
1:制御対象プラント、2:制御入力データ作成部、3:制御出力演算部、4:制御出力抑制部、5:制御出力判定部、6:制御結果良否判定部、7:学習データ作成部、10:制御ルール実行部、11:制御ルール学習部、20:制御実行装置、21:制御方法学習装置、DB1:制御ルールデータベース、DB2:出力判定データベース、DB3:学習データデータベース、Si:実績データ、SO:制御操作量出力、S1:入力データ、S2:制御操作端操作指令、S3:制御操作量、S4:制御操作量出力可否データ、S5:良否判定データ、S6:制御結果良否データ、S7a、S7b、S7c:教師データ、S8a、S8b、S8c:入力データ(制御ルール学習部用)
Claims (9)
- 制御対象を制御する制御装置であって、
与えられた制御ルールに従って前記制御対象へ制御出力を与える制御実行装置と、
指定された評価関数を用いて前記制御対象に対して与えられた制御出力を評価し、その評価結果を利用して学習データを作成し、該学習データを学習することにより前記制御ルールを構築し、該制御ルールを前記制御実行装置に与える制御方法学習装置と、
複数の評価関数を予め保持しており、前記制御対象への制御状態に基づいて、前記複数の評価関数のうちいずれかを選択し、前記選択した評価関数を前記制御方法学習装置に指定する評価関数設定部と、
を有する制御装置。 - 前記評価関数設定部は、前記制御対象への制御状態とオペレータによる手動操作とに基づいて前記複数の評価関数の各々について評価関数良否指標を算出し、該評価関数良否判定指標に基づいて、前記制御方法学習装置に指定する評価関数を選択する、
請求項1に記載の制御装置。 - 前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングと、前記オペレータが手動操作を終了したタイミングとにおける前記評価関数の評価値を算出し、該評価値を用いて前記評価関数良否判定指標を算出する、
請求項2に記載の制御装置。 - 前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングにおける前記評価関数の評価値aと、前記オペレータが手動操作を終了したタイミングにおける前記評価関数の評価値bを算出し、前記評価関数良否判定指標を(a−b)/bとして算出する、
請求項3に記載の制御装置。 - 前記評価関数は、前記制御対象への前記制御出力と該制御出力の制御結果が反映された前記制御対象の実績データとを入力とし、前記評価結果を出力するものであり、
前記評価関数設定部は、オペレータによる手動操作と前記制御対象への前記制御出力と前記制御対象の実績データとに基づく学習データを学習することにより、前記評価関数を構築する、
請求項1に記載の制御装置。 - 前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングと、前記オペレータが手動操作を終了したタイミングとにおける前記制御対象への前記制御出力と前記制御対象の実績データとに基づく学習データを学習することにより、前記評価関数を構築する、
請求項5に記載の制御装置。 - 前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングにおける評価値を所定値cとして学習データを生成し、前記オペレータが手動操作を終了したタイミングにおける評価値を所定値dとして学習データを生成し、前記学習データを学習することにより、前記評価関数を構築する、
請求項6に記載の制御装置。 - 前記制御実行装置は、前記制御対象の実績データと制御操作との組合せに従って前記制御対象への制御出力を与える制御ルール実行部と、前記評価関数を用いて前記制御ルール実行部が出力する前記制御出力の適用可否を判定するとともに、適用否と判定したら当該実績データと制御操作との組合せが不適切であることを前記制御方法学習装置に通知する制御出力判定部と、該制御出力判定部が、適用否と判定したら、前記制御出力を前記制御対象に出力することを阻止する制御出力抑制部とを備え、
前記制御方法学習装置は、前記制御実行装置が前記制御出力を実際に前記制御対象に出力した場合に、前記制御出力が前記制御対象の実績データに反映されるまでの時間遅れ後に、前記評価関数設定部が設定した評価関数を用いて、前記実績データが前記制御出力により改善されたか悪化したかという制御結果の良否を判定する制御結果良否判定部と、該制御結果良否判定部により判定された制御結果の良否と、前記制御出力とを用いて教師データを得る学習データ作成部と、前記実績データと前記教師データを学習データとして学習する制御ルール学習部とを備え、前記制御方法学習装置が学習する事で、前記制御対象プラントの状態に応じて複数の制御目標に対して別個の実績データと制御操作の組合せを得、得られた実績データと制御操作の組合せを前記制御ルール実行部における制御対象プラントの実績データと制御操作の定められた組合せとして使用する、
請求項1に記載の制御装置。 - 制御対象を制御するための制御方法であって、
与えられた制御ルールに従って前記制御対象へ制御出力を与え、
指定された評価関数を用いて前記制御対象に対して与えられた制御出力を評価し、
その評価結果を利用して学習データを作成し、
該学習データを学習することにより、前記制御ルールを構築し、
前記制御対象への制御状態に基づいて、予め保持しておいた複数の評価関数のうちいずれかを選択して指定する、
ことをコンピュータが実行する制御方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018187912A JP6952018B2 (ja) | 2018-10-03 | 2018-10-03 | 制御装置および制御方法 |
CN201910875816.1A CN110976523B (zh) | 2018-10-03 | 2019-09-17 | 控制装置以及控制方法 |
DE102019214640.6A DE102019214640A1 (de) | 2018-10-03 | 2019-09-25 | Steuervorrichtung und steuerverfahren |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018187912A JP6952018B2 (ja) | 2018-10-03 | 2018-10-03 | 制御装置および制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020057238A true JP2020057238A (ja) | 2020-04-09 |
JP6952018B2 JP6952018B2 (ja) | 2021-10-20 |
Family
ID=69886323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018187912A Active JP6952018B2 (ja) | 2018-10-03 | 2018-10-03 | 制御装置および制御方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6952018B2 (ja) |
CN (1) | CN110976523B (ja) |
DE (1) | DE102019214640A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7495874B2 (ja) | 2020-12-16 | 2024-06-05 | 株式会社日立製作所 | プラント制御システム、プラント制御方法及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012190274A (ja) * | 2011-03-10 | 2012-10-04 | Kobe Steel Ltd | モデリング装置および該方法 |
WO2013146395A1 (ja) * | 2012-03-29 | 2013-10-03 | 日本電気株式会社 | 状態制御装置、制御方法及びプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4003733B2 (ja) * | 2003-10-22 | 2007-11-07 | 株式会社日立製作所 | プラントシステム,制御装置及び制御方法 |
JP4974330B2 (ja) * | 2006-02-28 | 2012-07-11 | 株式会社日立製作所 | 制御装置 |
JP2007287063A (ja) * | 2006-04-20 | 2007-11-01 | Hitachi Ltd | 最適制御方法、最適制御システム、統括制御装置およびローカル制御装置 |
JP2012121063A (ja) * | 2010-12-10 | 2012-06-28 | Kobe Steel Ltd | タンデム圧延機の制御方法及び制御装置 |
JP2013045325A (ja) * | 2011-08-25 | 2013-03-04 | Hitachi Ltd | 制御システムの制御装置及びエレベータシステム |
JP5983267B2 (ja) * | 2012-10-03 | 2016-08-31 | Jfeスチール株式会社 | 被圧延材の形状制御装置および形状制御方法 |
DE112013006439T5 (de) * | 2013-01-17 | 2015-10-08 | Toyota Jidosha Kabushiki Kaisha | Aggregatsteuereinrichtung |
JP6552445B2 (ja) * | 2016-03-28 | 2019-07-31 | 株式会社日立製作所 | エレベーター装置及びエレベーター装置の制御方法 |
CN205774080U (zh) * | 2016-07-11 | 2016-12-07 | 四川南玻节能玻璃有限公司 | 钢化炉风栅石棉绳缠绕设备 |
JP6714523B2 (ja) * | 2017-01-26 | 2020-06-24 | 株式会社日立製作所 | 群管理制御装置及び群管理エレベーターシステム |
-
2018
- 2018-10-03 JP JP2018187912A patent/JP6952018B2/ja active Active
-
2019
- 2019-09-17 CN CN201910875816.1A patent/CN110976523B/zh active Active
- 2019-09-25 DE DE102019214640.6A patent/DE102019214640A1/de active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012190274A (ja) * | 2011-03-10 | 2012-10-04 | Kobe Steel Ltd | モデリング装置および該方法 |
WO2013146395A1 (ja) * | 2012-03-29 | 2013-10-03 | 日本電気株式会社 | 状態制御装置、制御方法及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7495874B2 (ja) | 2020-12-16 | 2024-06-05 | 株式会社日立製作所 | プラント制御システム、プラント制御方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN110976523B (zh) | 2021-08-06 |
DE102019214640A1 (de) | 2020-04-09 |
JP6952018B2 (ja) | 2021-10-20 |
CN110976523A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6899273B2 (ja) | プラント制御装置およびその制御方法、圧延機制御装置およびその制御方法並びにプログラム | |
CN113064879B (zh) | 数据库参数调整方法、装置及计算机可读存储介质 | |
CN108687137B (zh) | 整套设备控制装置、轧机控制装置、控制方法及存储介质 | |
US20210133376A1 (en) | Systems and methods of parameter calibration for dynamic models of electric power systems | |
CN110290021B (zh) | 基于动态规划算法的跨链共识时延优化方法 | |
CN108121215B (zh) | 基于全回路重构仿真的工业控制回路性能评价方法及装置 | |
CN112180739A (zh) | 一种针对过热汽温控制系统的参数优化方法 | |
Crawford et al. | A hyperheuristic approach for dynamic enumeration strategy selection in constraint satisfaction | |
CN109961160A (zh) | 一种基于潮流参数的电网未来运行趋势预估方法及系统 | |
JP2020057238A (ja) | 制御装置および制御方法 | |
Wang et al. | Neural networks based lyapunov functions for transient stability analysis and assessment of power systems | |
CN112365099B (zh) | 一种非确定性分离的web服务器集群伸缩方法 | |
Xu et al. | Accelerated DRL agent for autonomous voltage control using asynchronous advantage actor-critic | |
CN105469148B (zh) | 船舶机电设备保障时机确定方法 | |
KR102440698B1 (ko) | 플랜트 제어 장치 및 그의 제어 방법, 압연기 제어 장치 및 그의 제어 방법 그리고 프로그램 | |
JP7535475B2 (ja) | プラント制御システム、プラント制御方法及びプログラム | |
JP7495874B2 (ja) | プラント制御システム、プラント制御方法及びプログラム | |
Chuang et al. | Note on the merge of two maximum models under same constraints | |
JP2022183827A (ja) | プラント制御システム、圧延機制御装置、プラント制御方法、及びプラント制御プログラム | |
KR102205102B1 (ko) | 기계학습 기반 비트코인 네트워크 트랜잭션 수 예측 | |
KR102277002B1 (ko) | 학습 데이터 마련 장치 및 이를 이용한 학습 데이터 마련 방법 | |
JP2015162189A (ja) | 最適化システム | |
Lindemann | Design and optimization of an artificial neural network for constitutive modelling to determine stress under hot work | |
Dai et al. | A Data-Physical Fusion Method for Economic Dispatch Considering High Renewable Penetration and Security Constraints | |
Nguhi | Train Of Thought Problem: Optimization Algorithm for GANs and Transformers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210914 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210927 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6952018 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |