CN110976523B

CN110976523B - 控制装置以及控制方法

Info

Publication number: CN110976523B
Application number: CN201910875816.1A
Authority: CN
Inventors: 服部哲; 高田敬规; 田内佑树
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-10-03
Filing date: 2019-09-17
Publication date: 2021-08-06
Anticipated expiration: 2039-09-17
Also published as: DE102019214640A1; JP6952018B2; JP2020057238A; CN110976523A

Abstract

本发明涉及进行使用了神经网络等人工智能的实时的反馈控制的技术。本发明提供一种能够执行基于控制结果的适当的良好与否判定的控制的技术。对控制对象进行控制的控制装置具有：控制执行装置，其按照所提供的控制规则，对所述控制对象提供控制输出；控制方法学习装置，其使用所指定的评价函数来评价提供给所述控制对象的控制输出，利用该评价结果制作学习数据，学习该学习数据，由此构建所述控制规则，并将该控制规则提供给所述控制执行装置；以及评价函数设定部，其预先保持多个评价函数，根据针对所述控制对象的控制状态，选择所述多个评价函数中的任意一个，将所述选择出的评价函数指定给所述控制方法学习装置。

Description

控制装置以及控制方法

技术领域

本发明涉及进行使用了神经网络等人工智能的实时的反馈控制的技术。

背景技术

以往，在各种设备中为了通过其控制取得所希望的控制结果而实施基于各种控制理论的设备控制。

作为设备的一例例如在滚轧机控制中，作为控制的一例设为以对板的起伏状态进行控制的形状控制为对象的控制逻辑，应用了模糊控制或神经元模糊控制。模糊控制应用于利用了冷却剂的形状控制，此外，神经元模糊控制应用于森吉米尔滚轧机的形状控制。如专利文献1所示那样，求出由形状检测器检测出的实际情况形状样式与目标形状样式之差、同预先设定的基准形状样式的相似度，通过与由该相似度预先设定的基准形状样式相对应的控制操作端操作量所表现的控制规则，从而求出针对操作端的控制输出量，由此进行应用了其中的神经元模糊控制的形状控制。以下，作为现有技术，使用利用了神经元模糊控制的森吉米尔滚轧机的形状控制。

图1表示专利文献1的图1所记述的森吉米尔滚轧机的形状控制。在森吉米尔滚轧机的形状控制中，使用神经元模糊控制。在该示例中，通过样式识别机构51，由通过形状检测器52检测出的实际形状进行形状的样式识别，对实际形状最接近哪个预先设定的基准形状样式进行运算。在控制运算机构53中，使用由与图2所示的预先设定的形状样式相对应的控制操作端操作量构成的控制规则来实施控制。在对图2进行更具体的叙述时，在样式识别机构51中，对由形状检测器52检测出的形状实际情况与目标形状(εref)之差(△ε)最接近1～8的形状样式(ε)中的哪一个进行运算，在控制运算机构53中，选择1～8的控制方法的某一个来执行。

但是，在专利文献1的方法中，有时为了进行控制规则的验证，在滚轧过程中让操作员进行手动操作来进行控制规则的验证等，但是有时表示与预想相反的形状变化。也就是说，产生如上述那样决定的控制规则与实际不符的情况。这是因为机械特性的研究不足或滚轧机的作业状态或机械条件的变化，但是一个一个验证预先设定的控制规则是否是最好的规则应该考虑的条件较多且困难。因此，若一旦设定控制规则，则只要没有问题就保持不变的情况较多。

因作业条件的变化等，使得控制规则与现实不符时，由于固定了控制规则，因此提高某种程度以上的控制精度变得困难。此外，若一旦形状控制动作，则由于操作员没有进行手动操作(对于控制来说成为干扰)，因此通过操作员的手动介入来发现新的控制规则也变得困难。并且，即使在滚轧新标准的滚轧材料时配合该材料来设定控制规则也会变得困难。

如上所述，在以往的形状控制中，由于使用预先设定的控制规则来进行控制，因此存在难以修正控制规则的问题。

为了解决该问题，一边进行形状控制一边使控制规则随机变化，对形状成为良好的规则进行学习，由此实现专利文献2所示的以下内容：

1)在滚轧过程中一边实施形状控制一边发现新的控制规则；

2)新的控制规则并非可以预先预想，有时完全无法预测的控制规则才是最优的，因此，使控制操作端随机动作，一边观察与其相对应的控制结果一边进行寻找。

现有技术文献

专利文献

专利文献1：日本专利2804161号公报

专利文献2：日本专利4003733号公报

上述以往技术，预先将代表性的形状设定为基准形状样式，以表示与基准波形样式相对应的控制操作端操作量的关系的控制规则为基础来进行控制。对于控制规则的学习也与基准波形样式相对应的控制操作端操作量相关，直接使用预先规定的代表性的基准形状样式。因此，存在如下问题：成为只对特定的形状样式做出反应的形状控制。

人们预先根据成为对象的滚轧机相关的知识、形状实际情况与蓄积了手动介入操作的经验来规定基准形状样式，但是难以网罗成为对象的滚轧机和被滚轧材料所产生的全部形状。因此，在产生了与基准形状样式不同的形状时，有时不实施形状控制有关的控制，不抑制形状偏差而残留或误认为近似的基准形状样式，进行错误的控制操作，反而使形状恶化。

因此，在以往的形状控制中，使用预先设定的基准形状样式和与其相对应的控制规则来学习控制规则，实施控制，因此，存在控制精度的提升有限的问题。

为了解决上述问题，考虑使用设备控制装置，该设备控制装置对控制对象设备识别控制对象设备的实际情况数据的组合的样式并实施控制，其特征在于，所述设备控制装置具有：控制方法学习装置，其学习控制对象设备的实际情况数据与控制操作的组合；以及控制执行装置，其根据学习到的实际情况数据与控制操作的组合来实施控制对象设备的控制，控制执行装置具有：控制规则执行部，其按照控制对象设备的实际情况数据与控制操作的已确定的组合提供控制输出；控制输出判定部，其判定控制规则执行部输出的控制输出的可否，并且将该实际情况数据与控制操作错误的情况通知给控制方法学习装置；以及控制输出抑制部，在将控制输出输出给控制对象设备时，判定为控制对象设备的实际情况数据恶化时，阻止将控制输出输出给控制对象设备，控制方法学习装置具有：控制结果良好与否判定部，在控制执行装置将控制输出实际输出给控制对象设备时，在经过直至控制效果表示为实际情况数据为止的时间延迟之后，判定实际情况数据相较于该控制之前变好还是恶化的控制结果的良好与否；学习数据制作部，其使用控制结果良好与否判定部的控制结果的良好与否、和控制输出来获得监督数据；以及控制规则学习部，其将实际情况数据与监督数据作为学习数据来进行学习，通过控制方法学习装置进行学习，从而根据控制对象设备的状态针对多个控制目标获得个别的实际情况数据与控制操作的组合，将获得的实际情况数据与控制操作的组合用作控制规则执行部中的控制对象设备的实际情况数据与控制操作的已确定的组合。

此时，用于控制结果的良好与否判定的评价函数合适尤为重要。但是，在决定评价函数时控制装置的设计者对控制对象设备的作业技术员或操作员等实施听取调查，或一边确认实际的设备的动作一边主观性地决定，多数情况下不清楚是否是真正合适的设定。

作为一例，试想滚轧机的形状控制。在滚轧机的形状控制中，在板宽方向的整体中目标形状与实际形状一致最为理想。但是，实际上多数情况下并非如此。因此，在实际的作业中，一般情况下，重视板的特定的区域，在该区域控制为使实际形状与目标形状一致。作为评价板的形状的评价函数，针对板宽方向的各部处的形状偏差(＝形状实际情况-目标形状)，使用对板宽方向的各部进行加权的评价函数。

在滚轧机中，针对板宽方向的端部(板端部)的形状的控制操作端与针对除此之外的部分(中央部)的控制操作端不同。但是，多数情况下它们相互影响。此外，板端部像中央部那样没有被从两侧束缚，因此，多数情况下形状变差大。在对板宽方向的板端部施加控制时，其影响作用于中央部而造成中央部的形状恶化，或产生其相反的情况。这样，难以控制为使板端部与中央部的形状同时与目标值一致。多数情况下，操作员使板端部或中央部中的某一个优先并实施手动控制。

在控制结果的良好与否判定中应用的评价函数在进行与操作员的想法不同的评价的情况下，操作员取消来自基于控制装置的形状控制的操作，按照自己的想法来实施手动操作。该情况下，基于控制装置的形状控制与操作员进行的手动操作为竞争的状态。结果是，操作员还考虑对于自身的手动操作将来自成为故障的控制装置的形状控制关闭。若该情况反复，则担心操作员从最初就不开启基于控制装置的形状控制。

如果将应用于控制结果的良好与否判定的评价函数设为进行与操作员的想法一致的评价的评价函数，则基于控制装置的控制与操作员的手动操作的竞争不仅降低，并且还期待操作员进行手动操作的情况也减少，降低操作员的负载，形状控制的精度也得以提升。

发明内容

本发明的目的在于提供一种能够执行基于控制结果的适当的良好与否判定的控制的技术。

本公开的控制装置对控制对象进行控制，该控制装置具有：控制执行装置，其按照所提供的控制规则，对所述控制对象提供控制输出；控制方法学习装置，其使用所指定的评价函数来评价提供给所述控制对象的控制输出，利用该评价结果制作学习数据，并学习该学习数据，由此构建所述控制规则，将该控制规则提供给所述控制执行装置；以及评价函数设定部，其预先保持多个评价函数，根据针对所述控制对象的控制状态，选择所述多个评价函数中的任意一个，将所述选择出的评价函数指定给所述控制方法学习装置。

发明效果

根据本公开，期待能够执行基于控制结果的适当的良好与否判定的控制。

附图说明

图1是表示专利文献1的图1所记述的森吉米尔滚轧机的形状控制的图。

图2是表示由针对形状样式的控制操作端操作量构成的控制规则的图。

图3是表示实施例所涉及的设备控制装置的概要的图。

图4是表示实施例所涉及的控制规则执行部10的具体例的图。

图5是表示实施例所涉及的控制规则学习部11的具体例的图。

图6是表示评价函数设定部17的内部结构的框图。

图7是表示用于森吉米尔滚轧机的形状控制时的神经网络的结构的图。

图8是用于对形状偏差与控制方法进行说明的图。

图9是表示控制输入数据制作部2的概要的图。

图10是表示控制输出运算部3的概要的图。

图11是表示滚轧机的滚轧速度的迁移的一例的图。

图12是表示评价函数DB DB5的一例的图。

图13是用于说明评价函数选择方法学习部173的动作概要的图。

图14是用于说明评价函数学习部174的动作概要的图。

图15是表示评价函数学习部174的概要结构的图。

图16是用于说明控制输出判定部5的概要的图。

图17是用于说明控制结果良好与否判定部6的动作概要的图。

图18是用于说明学习数据制作部7的动作概要的图。

图19是表示学习数据制作部7的处理阶段与处理内容的图。

图20是表示保存于学习数据数据库DB2的数据例的图。

图21是表示神经网络管理表TB的一例的图。

图22是表示学习数据数据库DB2的一例的图。

附图标记说明

1控制对象设备；2控制输入数据制作部；3控制输出运算部；4控制输出抑制部；5控制输出判定部；6控制结果良好与否判定部；7学习数据制作部；10控制规则执行部；11控制规则学习部；20控制执行装置；21控制方法学习装置；DB1控制规则数据库；DB2学习数据数据库；DB3输出判定数据库；Si实际情况数据；SO控制操作量输出；S1输入数据；S2控制操作端操作指令；S3控制操作量；S4控制操作量输出可否数据；S5良好与否判定数据；S6控制结果良好与否数据；S7a、S7b、S7c监督数据；S8a、S8b、S8c输入数据(控制规则学习部)。

具体实施方式

首先，以滚轧机的形状控制为例对本发明的知识和得到本发明的经过进行说明。

首先，为了解决上述课题而寻求以下的三种情况。

(1)预先分别设定基准形状样式、和与其相对的控制操作，不学习控制操作方法，而学习形状样式与控制操作的组合，并使用该组合来实施控制操作。

(2)新的控制规则并非可以预先预想，有时完全无法预测的控制规则才是最佳，因此，使控制操作端随机动作，一边观察与其相对的控制结果一边进行寻找。

(3)关于控制结果的良好与否，根据滚轧机的状态来选择评价函数，能够选择适当的控制规则。

为了实现这三种情况，可以一边使形状控制所使用的、形状样式与控制操作的组合发生变化，一边变更控制操作，以使控制结果变好。因此，可以通过神经网络等人工智能来学习形状样式和与该形状样式相适合的控制操作的组合，利用人工智能来变更与滚轧机所产生的形状样式相对应的控制操作的输出。

若一边对作业中的滚轧机实施形状控制一边变更控制操作，则有时输出错误的控制输出，导致板的形状恶化，产生板破断等操作异常。在产生板破断时，若更换滚轧机所使用的轧辊需要时间、或滚轧中的被滚轧材料浪费，则伤害变大。因此，需要设为不对滚轧机输出尽可能错误的控制输出。因此，可以根据滚轧状态来变更用于判定形状的良好与否的评价函数。

所谓滚轧状态是与放置了作为控制对象的滚轧机的滚轧相关的状态。控制对象如果不限定于滚轧机，则可以使滚轧状态一般化而称为控制状态。滚轧状态可以通过施加于滚轧机的控制操作、滚轧机的状态、滚轧机涉及的滚轧的状态等各种参数来进行判别。在本实施方式中作为一例通过滚轧速度来判别滚轧状态。

如上所述在本实施方式中，为了实现这些，例如使用滚轧机的简易模型等来验证神经网络输出的控制操作的良好与否，明确地认为形状恶化的输出不输出给滚轧机的控制操作端，防止形状恶化。此时，关于神经网络，作为针对其形状样式的控制操作错误的情况而实施学习。

控制操作的良好与否的验证方法本身可能错误，因此，即使针对以某种概率判定为错误的神经网络的控制操作输出，也输出给滚轧机的控制操作端，由此，还能够对假想外的形状样式与控制操作的组合进行学习。

以下，使用附图对本发明的实施例进行详细说明。

图3表示实施例有关的设备控制装置的概要。图3的设备控制装置由以下部分构成：控制对象设备1；控制执行装置20，其输入来自控制对象设备1的实际情况数据Si并对控制对象设备1提供按照图2所例示的控制规则(神经网络)而设定的控制操作量输出SO并进行控制；控制方法学习装置21，其输入来自控制对象设备1的实际情况数据Si等来进行学习，将学习到的控制规则反映为控制执行装置20中的控制规则；多个数据库DB(DB1～DB3)以及数据库DB的管理表TB。

控制执行装置20将控制输入数据制作部2、控制规则执行部10、控制输出运算部3、控制输出抑制部4、控制输出判定部5、以及控制操作干扰产生部16作为主要的要素而构成。

在这样的控制执行装置20中，首先由作为控制对象设备1的滚轧机的实际情况数据Si，使用控制输入数据制作部2，制作控制规则执行部10的输入数据S1。控制规则执行部10使用表现控制对象的实际情况数据Si与控制操作端操作指令S2的关系的神经网络(控制规则)，由控制对象的实际情况数据Si制作控制操作端操作指令S2。在控制输出运算部3中，以控制操作端操作指令S2为基础，运算针对控制操作端的控制操作量S3。由此，根据控制对象设备1的实际情况数据Si，使用神经网络来制作控制操作量S3。

此外，在控制执行装置20中的控制输出判定部5中，使用来自控制对象设备1的实际情况数据Si和来自控制输出运算部3的控制操作量S3，来决定针对控制操作端的控制操作量输出可否数据S4。在控制输出抑制部4中，根据控制操作量输出可否数据S4来决定相对控制操作端的控制操作量S3的输出可否，将被设为可以输出的控制操作量S3作为提供给控制对象设备1的控制操作量输出SO并进行输出。由此，判断为异常的控制操作量S3不输出给控制对象设备1。另外，为了验证设备控制装置的目的，控制操作干扰产生部16生成干扰，并提供给控制对象设备1。

如以上那样构成的控制执行装置20为了执行该处理，并且如后面描述那样，参照控制规则数据库DB1以及输出判定数据库DB3。控制规则数据库DB1以能够访问的方式与控制执行装置20内的控制规则执行部10、和后述的控制方法学习装置21中的控制规则学习部11双方连接。作为控制规则学习部11中的学习结果的控制规则(神经网络)存储于控制规则数据库DB1，控制规则执行部10参照存储于控制规则数据库DB1的控制规则。输出判定数据库DB3以能够访问的方式与控制执行装置20中的控制输出判定部5连接。

图4表示本实施例有关的控制规则执行部10的具体例。控制规则执行部10输入由控制输入数据制作部2制作出的输入数据S1，对控制输出运算部3提供控制操作端操作指令S2。控制规则执行部10具有神经网络101，在神经网络101中基本上通过图2所例示那样的专利文献1的方法来规定控制操作端操作指令S2。在本发明中，控制规则执行部10还具有神经网络选择部102，参照存储于控制规则数据库DB1的控制规则，由此，选择优选的控制规则作为神经网络101中的控制规则，并予以执行。这样在图4的控制规则执行部10中，从以操作员组或控制目的而分出的多个神经网络，选择所需的神经网络并使用。在控制规则数据库DB1中作为来自控制对象设备1的数据可以包含能够选择神经网络和良好与否判定基准那样的实际情况数据(作业组的数据等)Si。另外，由于在执行神经网络时处于成为控制规则这样的关系，因此，在本说明书中不区分神经网络和控制规则，而以相同的意义来使用。

返回图3，在控制方法学习装置21中，实施控制执行装置20所使用的神经网络101的学习。控制执行装置20对控制对象设备1输出了控制操作量输出SO时，控制效果实际显现为实际情况数据Si的变化需要时间。因此，使用仅对该时间的量进行了时间延迟的数据来实施学习。在图3中，Z^-1表示针对各数据的适当的时间延迟功能。

控制方法学习装置21将控制结果良好与否判定部6、学习数据制作部7、控制规则学习部11、评价函数设定部17作为主要的要素而构成。

其中的控制结果良好与否判定部6使用来自控制对象设备1的实际情况数据Si以及实际情况数据前次值Si0、由评价函数设定部17设定的评价函数，判定是否向实际情况数据Si变好的方向变化，或是否向恶劣的方向变化，并输出控制结果良好与否数据S6。

在控制方法学习装置21内的学习数据制作部7中，使用分别以相同的时间对由控制执行装置20制作出的控制操作端操作指令S2、控制操作量S3、控制操作量输出可否数据S4等输入数据进行了时间延迟而得的数据、来自控制结果良好与否判定部6的控制结果良好与否数据S6，制作神经网络的学习所使用的新的监督数据S7a，提供给控制规则学习部11。另外，监督数据S7a对应于控制规则执行部10输出的控制操作端操作指令S2，学习数据制作部7可以求出使用控制结果良好与否判定部6提供的控制结果良好与否数据S6来推定控制规则执行部10输出的控制操作端操作指令S2而获得的数据，作为新的监督数据S7a。

图5表示本实施例有关的控制规则学习部11的具体例。控制规则学习部11将输入数据制作部114、监督数据制作部115、神经网络处理部110、神经网络选择部113作为主要的结构要素而构成。此外，作为来自外部的输入控制规则学习部11取得对来自输入数据制作部2的输入数据S1进行了时间延迟而得的数据S8a，取得来自学习数据制作部7的新的监督数据S7a，此外参照蓄积于控制规则数据库DB1和学习数据数据库DB2的数据。

在控制规则学习部11中，输入数据S1在适当的时间延迟补偿之后经由输入数据制作部114而取入到神经网络处理部110。

此外，在控制规则学习部11中，来自学习数据制作部7的新的监督数据S7a作为将在监督数据制作部115中存储于学习数据数据库DB2的过去的监督数据S7b包含在内的合计的监督数据S7c，提供给神经网络处理部110。这些监督数据S7a、S7b被适当存储于学习数据数据库DB2而被利用。

同样地，来自控制输入数据制作部2的输入数据S8a作为将在输入数据制作部114中存储于学习数据数据库DB2的过去的输入数据S8b包含在内的合计的输入数据S8c，提供给神经网络处理部110。这些输入数据S8a、S8b被适当存储于学习数据数据库DB2而被利用。

神经网络处理部110由神经网络111与神经网络学习控制部112构成，神经网络111提取来自输入数据制作部114的输入数据S8c、来自监督数据制作部115的监督数据S7c、神经网络选择部113选择出的控制规则(神经网络)，将最终决定出的神经网络存储于控制规则数据库DB1。

神经网络学习控制部112在适当的时刻对输入数据制作部114、监督数据制作部115、神经网络选择部113进行控制，取得神经网络111的输入，此外进行为了将处理结果存储于控制规则数据库DB1的控制。

这里，图4的控制执行装置20中的神经网络101、图5的控制方法学习装置21中的神经网络111都是相同概念的神经网络。以下，对使用它们之后的基本概念上的差异进行说明。

首先，控制执行装置20中的神经网络101是预先设定的内容的神经网络，其求出作为与提供了输入数据S1时对应的输出的控制操作端操作指令S2，也就是说是用于单方向的处理的神经网络。与之相对地，控制方法学习装置21中的神经网络111在将输入数据S1与针对控制操作端操作指令S2的输入数据S8c、监督数据S7c设定为学习数据时，通过学习来求出满足该输入输出关系的神经网络。

如上所述构成的控制方法学习装置21中的基本的处理的参考方法如下。首先，在控制操作量输出可否数据S4的内容是“可以”时，对控制对象设备1输出控制操作量输出SO，在控制结果良好与否数据S6的内容是“良好”(向实际情况数据Si变好的方向变化)时，判断为控制规则执行部10输出的控制操作端操作指令S2正确，制作学习数据以使神经网络的输出为控制操作端操作指令S2。

另一方面，在控制操作量输出可否数据S4的内容是“否”，或对控制对象设备1输出控制操作量输出SO，在控制结果良好与否数据S6的内容是“否”(向实际情况数据Si恶劣的方向变化)时，判断为控制规则执行部10输出的控制操作端操作指令S2错误，制作学习数据以便不输出神经网络的输出。此时，作为控制输出，构成神经网络输出而对相同的控制操作端输出+方向、-方向的两种输出，制作学习数据以便使所输出的一侧的控制操作端操作指令S2不输出。

此外，在图5所例示的控制规则学习部11中，作为神经网络学习控制部112涉及的数据处理的结果，像以下那样进行处理。这里，首先使用使针对控制执行装置20的输入数据S1进行了时间延迟的S8c、和由监督数据制作部115制作出的监督数据S7c的组合即学习数据，实施控制规则执行部10所使用的神经网络101的学习。实际上，在控制规则学习部11内具有与控制规则执行部10的神经网络101相同的神经网络111，以各种条件来进行运转测试而学习此时的应答，作为学习的结果而获得确认了产生更好的结果的控制规则。由于需要使用多个学习数据来进行学习，因此从蓄积了过去制作出的学习数据的学习数据数据库DB2取出多个过去的学习数据，实施学习处理，并且将本次的学习数据存储于学习数据数据库DB2。此外，进行了学习的神经网络为了用于控制规则执行部10，而存储于控制规则数据库DB1。

神经网络的学习每当制作新的学习数据时，可以一起使用过去的学习数据来进行学习，在学习数据蓄积了某种程度(例如100个)之后，可以一起使用过去的学习数据来进行学习。

此外，在控制结果良好与否判定部6中，使用由评价函数设定部17设定的评价函数，来实施良好与否判定。控制结果的良好与否判定根据所使用的评价函数使得判断结果不同。因此，分别制作与多个评价函数对应的神经网络。针对相同的输入数据，通过各评价函数分别制作监督数据来进行学习。由此，针对一次的输入数据制作多个监督数据，用于各监督数据对应的神经网络的学习。能够同时学习多个平键函数对应的神经网络。这里，所谓多个评价函数是指例如在形状控制的情况下，针对在板宽方向想要优先控制哪个部分(板端部、中心部、非对称部等)，或想要优先控制多个控制对象项目(例如，板厚和张力、滚轧负载等)中的哪一个等各种策略所使用的评价函数。

在应用了本实施例的情况下，一旦学习控制规则执行部10所使用的神经网络101，则可以考虑不实施新的控制操作。因此，通过控制操作干扰产生部16而适时随机产生新的操作方法，在控制操作量S3的基础上执行控制操作，由此学习新的控制方法。

以下，作为一例，将专利文献1所示那样的森吉米尔滚轧机中的形状控制设为对象，说明本设备控制方法的详细情况。另外，关于形状控制，对采用下述那样的规格A、B的形状控制进行说明。

规格A是针对评价函数的结构，具有板宽方向的优先级的信息。例如在形状控制中，遍及板宽方向全域将板厚等控制为目标值的情况在机械特性上大多较为困难。因此，在板宽方向，设置下述多个策略对应的评价函数A1～AN(N是评价函数的设定最大个数)。

评价函数被定义成评价越好值越小。例如，是控制偏差的平方平均、最大值-最小值等。

这里，作为一例，使用以下所例示的6种策略和评价函数A1～A6。

<A1：优先板端部，使用加重了板端部的权重的评价函数。>

【数学式1】

边缘部wc(i)＝3.0、中央部wc(i)＝1.0

<A2：优先中央部，使用加重了中央部的权重的评价函数。>

【数学式2】

边缘部wc(i)＝1.0、中央部wc(i)＝3.0

<A3：允许板端部的延伸方向>

【数学式3】

边缘部ε(i)＝ε(i):if(ε(i)＜0)、0:if(ε(i)≥0)

<A4：允许板端部的拉伸方向>

【数学式4】

边缘部ε(i)＝ε(i):if(ε(i)≥0)、0:if(ε(i)＜0)

<A5：允许板端部为死区内的情况>

【数学式5】

边缘部ε(i)＝0:if(UL＞ε(i)＞LL)、elseε(i)＝ε(i)

<A6：最大值-最小值>

【数学式6】

J_A6(ε(i))＝max(ε(i))-min(ε(i))

图6是表示评价函数设定部17的内部结构的框图。评价函数设定部17具有：评价函数手动设定部171、评价函数选择部172、评价函数选择方法学习部173、以及评价函数学习部174。评价函数设定部17与评价函数DB DB5联动，执行评价函数相关的下述处理。

<处理17-1：评价函数的设定>

评价函数手动设定部171设定评价函数。这是预先使作业技术员或操作员针对形状的考虑方法数学式化，而预先设定的处理。

<处理17-2：评价函数的选择>

评价函数选择部172根据滚轧状态，选择控制执行装置20所使用的评价函数。

<处理17-3：评价函数的选择方法的学习>

评价函数选择方法学习部173由滚轧状态与操作员的手动操作实际情况来实施学习，以便选择与滚轧状态对应的评价函数。

<处理17-4：评价函数本身的学习>

对于手动预先设定的评价函数正确没有限定，因此，评价函数学习部174学习评价函数本身。这里将要学习的评价函数称为学习评价函数。能够在学习进行某种程度时使用学习评价函数来进行评价。该情况下，可以将学习评价函数作为评价函数而用于评价。

规格B是针对预先判明的条件的对应的结构。若列举一例，形状样式与控制方法的关系因各种条件而变化，因此，例如考虑需要以将规格B1设为板宽，将规格B2设为钢种的区分来进行划分。通过上述各自变化，针对形状操作端的形状的影响配合度发生变化。

在该事例中，控制对象设备1是森吉米尔滚轧机，实际情况数据为形状实际情况。另外森吉米尔滚轧机是具有用于对不锈钢等硬材料进行冷轧的集群轧辊的滚轧机。在森吉米尔滚轧机中，出于对硬材料给予强按压的目的，而使用小径的工件轧辊。因此，难以获得平坦的钢板。作为该对策，采用了集群轧辊的结构或各种形状控制部。就森吉米尔滚轧机而言，一般情况下，上下的第一中间轧辊具有半锥形，除了可以移位，上下还具有6个分割轧辊与2个被称为AS-U的轧辊。在以下要说明的事例中，作为形状的实际情况数据Si，使用形状检测器的检测数据，并且作为输入数据S1，使用与目标形状之差即形状偏差。此外，作为控制操作量S3，设为#1～#n的AS-U，上下第一中间轧辊的轧辊移位量。

图7表示用于森吉米尔滚轧机的形状控制时的神经网络的结构。有时将神经网络省略记为神经网。这里，神经网络是指在用于控制规则执行部10的神经网络101，用于控制规则学习部11的示为神经网络111的神经网络，但是结构都相同。

在本实施例所示的森吉米尔滚轧机的形状控制的事例中，来自控制对象设备1的实际情况数据Si是包含形状检测器的数据(这里，设为输出实际情况形状与目标形状之差即形状偏差)的森吉米尔滚轧机的实际情况数据，在控制输入数据制作部2中，作为输入数据S1而取得标准化形状偏差201、形状偏差阶段202。由此，神经网络101、111的输入层由标准化形状偏差201、形状偏差阶段202构成。另外，在图7中，将形状偏差阶段202设为针对神经网络输入层的输入，但是也可以根据阶段来切换神经网络。

此外，输出层配合作为森吉米尔滚轧机的形状控制操作端的、AS-U、第一中间轧辊，由AS-U操作配合度301与第一中间操作配合度302构成。关于各操作配合度，就AS-U而言，针对各AS-U具有AS-U开放向(轧辊间隙(滚轧机的上下作业轧辊之间的间隔)开启的方向)、AS-U闭方向(轧辊间隙闭合的方向)。此外，就第一中间轧辊而言，针对上下第一中间轧辊具有第一中间轧辊开方向(第一中间轧辊从滚轧机中心朝向外侧动作的方向)、第一中间轧辊闭方向(第一中间轧辊朝向滚轧机中心侧动作的方向)。例如，形状检测器在20区域，将形状偏差阶段202设为3阶段(大、中、小)时，输入层为23个输入。此外，在AS-U的滑鞍为七支，而上下第一中间轧辊在板宽方向能够移位时，输出层中AS-U操作配合度301是14个，第一中间操作配合度是4个，合计18个。对中间层的层数和各层的神经元数适时进行设定。另外，参照图10在后面进行描述，针对作为输出层的森吉米尔滚轧机的形状控制操作端构成神经网络输出，以便对各控制操作端输出+方向、-方向两种输出。

图8表示形状偏差和控制方法。这里，图8上部表示形状偏差大时的控制方法，图8下部表示形状偏差小时的控制方法。另外，高度方向是形状偏差的大小，横轴方向是板宽方向，板宽的两侧表示板端部，中央表示板中央部。如该图8的上部所示，在形状偏差大时，与板宽方向的局部形状偏差相比优先修正整体的形状。另一方面，如图8的下部所示，在形状偏差小时，优先降低局部的形状偏差。

这样，由于需要根据形状偏差的大小来改变控制方法，因此如图7所示设置形状偏差阶段202而提供给神经网络101、111，判定形状偏差的大小。针对形状偏差不论形状偏差的大小，例如都可以使用标准化为0～1的形状偏差。这是一例，还考虑不使形状偏差标准化而直接输入给神经网络的输入层，还考虑根据形状偏差的大小，来改变神经网络本身(例如，准备两个神经网络，分为形状偏差大时使用的神经网络、小时使用的神经网络)。

针对以上说明的图7那样的结构的神经网络101、111学习针对形状样式的操作方法，使用进行了学习的神经网络来实施形状控制。即使是相同结构的神经网络，因学习的条件而成为不同的特性，针对相同的形状样式输出不同的控制输出。

因此，根据形状实际情况的其他条件，通过分开使用多个神经网络，可以针对多样的条件构成优选的控制。这是相对规格B的对应。先说明的图4的结构示出了进行所涉及的规格时的具体例。在图4的结构事例中，通过滚轧实际情况、滚轧机操作员姓名、被滚轧材料的钢种、板宽等来准备单独的神经网络，将在控制规则执行部10中使用的神经网络101登记于控制规则数据库DB1。在神经网络选择部102中选择与该时间点的条件吻合的神经网络，设定为控制规则执行部10的神经网络101。另外，神经网络选择部102中的、作为该时间点的条件，可以从控制对象设备1中的实际情况数据Si中提取板宽的数据，根据这些来选择神经网络。此外，这里使用的多个神经网络如果具有图7所示那样的输入层、输出层，则中间层的层数、各层的神经元数也可以不同。

图9表示制作输入给神经网络101、111的输入层的数据S1(标准化形状偏差201、形状偏差阶段202)的、控制输入数据制作部2的概要。这里作为实际情况数据Si，将检测控制对象设备1即森吉米尔滚轧机中的滚轧时的板形状的、形状检测器的形状检测器数据设为输入，首先，通过形状偏差PP值运算部210求出各形状检测器区域的检测结果的最大值与最小值之差即形状偏差PP值(Peak To Peak值)S_PP。在形状偏差阶段运算部211中，通过形状偏差PP值S_PP，将形状偏差分类为大、中、小三个阶段。形状是被滚轧材料的伸展率的板宽方向分布，以10-5为单位表示伸展率的I-UNIT被用作单位。例如，像以下那样来进行分类。

这里，以因数学式(7)的成立使得形状偏差阶段设为(大＝1、中＝0、小＝0)，因数学式(8)的成立使得形状偏差阶段设为(大＝0、中＝1、小＝0)，因数学式(9)的成立使得形状偏差阶段设为(大＝0、中＝0、小＝1)的方式来进行分类。另外，这里各区域的形状偏差使用设为S_PM＝S_PP的S_PM来实施标准化。

【数学式7】

S_PP≥50I-UNIT…(1)

【数学式8】

50I-UNIT＞S_PP≥10I-UNIT···(2)

【数学式9】

10I-UNIT＞S_PP…(3)

如上所述，制作针对神经网络101的输入数据即标准化形状偏差201和形状偏差阶段202。标准化形状偏差201和形状偏差阶段202是控制规则执行部10的输入数据S1。

图10示出控制输出运算部3的概要。控制输出运算部3由控制规则执行部10中的、来自神经网络101的输出即控制操作端操作指令S2(在森吉米尔滚轧机的形状控制的事例中，AS-U操作配合度301、第一中间操作配合度302与此相当)，制作相对各形状控制操作端的操作指令即控制操作量S3。另外，这里针对存在多个的AS-U操作配合度301、第一中间操作配合度302，示出了各一个的数据例，各数据由开方向配合度和闭方向配合度的一对数据构成。

在控制输出运算部3中，所输入的AS-U操作配合度301具有各AS-U开方向、闭方向的输出，因此，通过将变换增益G_ASU乘以它们的差，输出针对各AS-U的操作指令。由于针对各AS-U的控制输出为AS-U位置变更量(单位为长度)，因此变换增益G_ASU为从配合度向位置变更量的变换增益。

此外，由于相同输入的第一中间操作配合度302具有第一中间外侧、内侧的输出，因此通过将变换增益G_1ST乘以它们的差，输出针对各第一中间轧辊移位的操作指令。由于针对各第一中间轧辊的控制输出为第一中间轧辊移位位置变更量(单位为长度)，因此变换增益G_1ST为从配合度向位置变更量的变换增益。

通过以上内容，可以运算控制操作量S3。控制操作量S3由#1～#nAS-U位置变更量(n是AS-U轧辊的滑鞍数)、上第一中间移位位置变更量、下第一中间移位位置变更量构成。另外，图10图示了将来自控制操作干扰产生部16的干扰数据与控制操作端操作指令S2相加的系统。

参照图6对评价函数设定部17的动作概要进行说明。评价函数反映了的操作员针对滚轧机中的形状控制的意图。操作员的意图根据滚轧状态发生变化。这里，滚轧状态通过滚轧速度而被区别。如图11所示，滚轧机的滚轧速度以从停止状态起加速而以一定速度进行滚轧并减速而停止的方式进行变化。根据该滚轧速度的变化滚轧状态也变化为17-1、17-2、17-3…。并且，根据滚轧状态的变化，操作员的意图也变化为意图1、意图2、意图3…。操作员的意图例如存在以下情况。

<意图1>低速开始滚轧的最初，为了确保通板的稳定性而使板的中央部优先。

<意图2>在加速进行滚轧时，为了防止板的蛇形等而重视板端部。

<意图3>在滚轧速度一定时，考虑被滚轧材料的品质，且以不产生板破断的方式，允许板端部的伸展方向的形状偏差，使中央部的形状。

在将评价函数A1～AN与上述各意图对应起来时如下。

评价函数A2对应于意图1。

评价函数A1对应于意图2。

评价函数A3对应于意图3。

将上述操作员的意图与评价函数的对应关系存储于评价函数DB DB5。图12表示评价函数DB DB5的一例。定义为针对与上述滚轧状态对应的操作员的各意图使用评价函数A1～A6(评价函数NO)的某一个。

由于应用意图1、2、3的滚轧状态可以通过滚轧速度来区别，因此可以根据滚轧速度选择使用评价函数A1～AN的某一个。操作员或作业技术员等使用评价函数手动设定部171，在评价函数DB DB5中手动设定滚轧速度与评价函数A1～AN的关联。评价函数选择部172按照该设定，选择与由(包含滚轧速度的实际情况值的)滚轧实际情况Si设定的滚轧状态相应的操作员的意图所对应的评价函数，设定给控制输出判定部5和控制结果良好与否判定部6。

就操作员或作业技术员涉及的选择评价函数的手动设定而言，有时没有适当设定实际的操作员的判断，或操作员发现新的判断基准并想要使用，从而与实际不同。为了评价该手动设定的良好与否，评价函数选择方法学习部173根据在实际的滚轧作业等中获得的实际情况数据，来判定评价函数的选择方法的良好与否。并且，在判定为选择方法不良时，评价函数选择方法学习部173变更评价函数数据库DB5中的评价函数的选择方法的设定。

图13是用于说明评价函数选择方法学习部173的动作概要的图。操作员在滚轧作业过程中若判断为板的形状恶劣则开始手动操作，直到判断为形状良好为止继续手动操作。因此，在操作员开始了手动操作的时间点、与结束了手动操作的时间点反映操作员的意图。评价函数选择方法学习部173通过该时间点的数据来计算各评价函数A1～AN的形状评价结果，若将这些形状评价结果相互比较，则可以判断评价函数的相对的良好与否，即哪个评价函数接近操作员的意图。

若设为形状评价值表示值越小则形状越好，则开始手动操作的时间点的形状评价值大而结束手动操作的时间点的形状评价值小的评价函数可以判定为在该滚轧状态(滚轧速度)下优选的评价函数。

在本实施例中，使用平方平均的评价函数、使用最大值或最小值的评价函数等，计算方法按评价函数而不同，因此需要将共通的指标用作用于对评价函数的良好与否进行评价的指标(评价函数良好与否判定指标)而进行比较。这里作为一例，评价函数选择方法学习部173使用以下数学式所示的比例Xi来比较评价函数。

比例Xi＝(a-b)/b

a是开始手动操作的时间点的形状评价值。b是结束手动操作的时间点的形状评价值。评价函数选择方法学习部173将评价函数A1～AN中的、评价函数良好与否判定指标即比例Xi为最大的值的评价函数Ai判断为是获得与此时的滚轧状态下最符合操作员的意图的评价的评价函数，并选择为最好的评价函数。

手动操作开始或结束时的滚轧状态以及此时的操作员的意图能够从滚轧实际情况来进行判定。如果评价函数DB DB5中的、与相符的操作员的意图相关联的评价函数与这里选择出的最好的评价函数不同，则评价函数选择方法学习部173将对应于相符的操作员的意图的评价函数更新为评价函数Ai。并且，评价函数选择方法学习部173从下次起按照变更后的设定将评价函数Ai设定给控制输出判定部5和控制结果良好与否判定部6。

图13的图表示出了两个评价函数A1、A2的形状评价值的时间推移。开始评价函数A1的手动操作的时间点的形状评价值是A1S，手动操作结束的时间点的形状评价值是A1E。开始评价函数A2的手动操作的时间点的形状评价值是A2S，手动操作结束的时间点的形状评价值是A2E。

如图13所示，评价函数A2的比例X2＝(A2S-A2E)/A2E比评价函数A1的比例X1＝(A1S-A1E)/A1E大。

并且，还考虑到手动设定的评价函数本身不适合的可能性，通过评价函数学习部174来进行评价函数的学习。

图14是用于说明评价函数学习部174的动作概要的图。评价函数学习部174将通过滚轧而获得的板的形状的实际情况值即形状实际情况、和滚轧中的控制操作的参数值即滚轧实际情况设为输入，设置输出形状评价值的评价函数用的神经网络(评价函数用神经网络)，使用实际情况数据，进行该评价函数用神经网络的学习。另外，可以在设为针对评价函数用神经网络的输入的滚轧实际情况中，选择像是对评价函数给予影响的滚轧实际情况(例如滚轧速度)。学习完成的神经网络可以用作评价函数。

如之前所述那样，操作员所意图的形状的评价可以解释为：在操作员开始手动操作的时间点，板的形状恶劣，在结束了手动操作的时间点，板的形状良好。因此，在通过滚轧机来制作板的过程中，评价函数学习部174设为操作员开始手动操作的时间点的形状评价值＝1(1表示形状恶劣)，设为结束手动操作的时间点的形状评价值＝0(0表示形状良好)，该时间点的形状实际情况和滚轧实际情况都蓄积为监督数据。并且，评价函数学习部174使用所蓄积的监督数据，进行网络的监督学习。由此，由于学习完成神经网络在输入滚轧实际情况和形状实际情况时，输出形状评价值，因此可以用作评价函数。

图15表示评价函数学习部174的概要结构。控制输出判定部5和控制结果良好与否判定部6使用最初由操作员手动设定的评价函数。评价函数学习部174将后述的监督数据与包含形状实际情况和滚轧实际情况的滚轧实际情况数据S1相加并作为学习数据进行学习，由此，构建提供代替最初的评价函数的评价函数的评价函数用神经网络。

评价函数学习部174具有评价实行部与学习执行部。

评价执行部具有被控制输出判定部5和控制结果良好与否判定部6使用的评价函数用神经网络1740，使用该评价函数用神经网络1740来实施评价。

学习执行部具有与该评价函数用神经网络1740相同的评价函数用神经网络1741，使用该评价函数用神经网络1741来实施学习。这里，如图14所示，评价函数用神经网络1741是将形状实际情况和滚轧实际情况设为输入，将形状评价值设为输出的神经网络。进行该评价函数用神经网络1741的学习时，将包含形状实际情况和滚轧实际情况的滚轧实际情况数据Si设为输入数据，将后述的形状评价值设为监督数据，将它们的组合设为学习数据。因此，可以将形状实际情况以及滚轧实际情况与监督学习的组合设为学习数据而存储于评价函数学习数据数据库1743，在学习数据蓄积了某种程度的阶段，学习执行部可以实施神经网络的学习。

除了上述的评价函数用神经网络1741之外，学习执行部还具有评价函数用神经网络学习控制部1744、输入数据制作部1745、以及监督数据制作部1746。

在监督数据制作部1746中，使用操作员相对于形状的手动操作的信号，在开始了手动操作的时间点，制作形状评价值＝1的监督数据。此外，监督数据制作部1746将开始了手动操作的时刻通知给输入数据制作部1745。输入数据制作部1745取得开始了手动操作的时刻的形状实际情况以及滚轧实际情况，将其设为输入数据。由输入数据制作部1745制作出的输入数据与由监督数据制作部1746制作出的监督数据作为一组学习数据，保存于评价函数学习数据数据库1743。

同样地，在监督数据制作部1746中，使用操作员相对于形状的手动操作的信号，在手动操作结束的时刻，制作形状评价值＝0的监督数据。此外，监督数据制作部1746将手动操作结束的时刻通知给输入数据制作部1745。输入数据制作部1745取得手动操作结束的时刻的形状实际情况以及滚轧实际情况，将它们设为输入数据。由输入数据制作部1745制作出的输入数据与由监督数据制作部1746制作出的监督数据作为一组学习数据，保存于评价函数学习数据数据库1743。

若在评价函数学习数据数据库1743中学习数据蓄积了某种程度(例如1000组)，则评价函数用神经网络学习控制部1744从评价函数学习数据数据库1743读出学习数据，从该学习数据中取得输入数据和监督数据并提供给评价函数用神经网络1741，实施神经网络的学习。

若通过学习执行部使评价函数用神经网络1741的学习结束，则将该评价函数用神经网络1741复制到评价执行部的评价函数用神经网络1740。由此，评价函数用神经网络1740更新为新的评价函数用神经网络1740。结果是，在控制输出判定部5和控制结果良好与否判定部6中能够进行基于新的评价函数用神经网络的评价。

在本实施例中，由于认为如果设为控制目标的板宽或板厚、材料的钢种等条件不同，则认为优先的评价函数不同，因此可以将按各条件分别进行了学习的学习完成神经网络作为评价函数而存储于评价函数数据库DB5，也可以根据条件而分开使用它们。此外，作为滚轧实际情况而考虑板宽或板厚、钢种等，由此也能够实现由一个神经网络来覆盖。

学习进展到某种程度期间，从评价函数用神经网络获得的评价函数的数值可能不正确。因此，评价函数选择方法学习部173不仅设定评价函数A1～AN的值，还可以考虑滚轧状态并选择使用评价函数。

如上所述，评价函数设定部17将与滚轧状态对应的优选的评价函数设定给控制输出判定部5和控制结果良好与否判定部6。

图16是用于说明控制输出判定部5的概要的图。控制输出判定部5由滚轧现象模型501与形状修正良好与否判定部502构成，取得来自控制对象设备1的实际情况数据Si、来自控制输出运算部3的控制操作量S3、以及输出判定数据库DB3的信息，提供针对控制操作端的控制操作量输出可否数据S4。通过相关结构，在控制输出判定部5中，将对控制对象设备1即滚轧机输出了由控制输出运算部3运算出的控制操作量S3时的形状的变化输入到已知的控制对象设备1的模型(在图16的实施例的情况下，是滚轧现象模型501)，由此进行预测，在预想为形状恶化的情况下抑制控制操作量输出SO，防止形状恶化得大。

若更详细地描述，将控制操作量S3输入到滚轧现象模型501预测控制操作量S3有关的形状变化，运算形状偏差修正量预测数据503。另一方面，通过将形状偏差修正量预测数据503与来自控制对象设备1的形状检测器数据Si(当前时间点的形状偏差实际情况数据504)相加而获得形状偏差预测数据505，对形状偏差预测数据505进行评价，由此在将控制操作量S3输出给控制对象设备1时，可以预测形状以怎样的方式变化。通过现状的形状偏差实际情况数据504和形状偏差预测数据505，在形状修正良好与否判定部502中，判定向形状良好的方向变化，或向恶劣的方向变化，获得控制操作量输出可否数据S4。

在形状修正良好与否判定部502中，具体来说以如下方式来进行形状修正的良好与否判定。首先，由于考虑板宽方向的控制优先级，因此使用由评价函数设定部17设定的与滚轧状态对应的评价函数来判定形状变化的良好与否。例如使用下述数学式所示的评价函数J来判定形状变化的良好与否。在下述数学式中，εfb(i)是形状偏差实际情况504，εest(i)是形状偏差预测505，i是形状检测器区域，rand是随机变数项，J_Ai是评价函数设定部17设定的评价函数。

【数学式10】

J＝J_Ai(ε_fb(i))-J_Ai(ε_est(i))+rand

在使用了上述数学式的评价函数J时，在形状良好时评价函数J为正，恶劣时评价函数J为负。此外，rand是随机变数项，使评价函数J的评价结果随机变化。由此，即使是形状恶化的情况，由于产生作为评价函数J为正的情况，因此即使在滚轧现象模型501不正确的情况下也能够学习形状样式与控制方法的关系。这里rand像试运转最初那样，适时变更以在控制对象设备1的模型不可靠时增大最大值，在学习某种程度控制方法想要实施稳定的控制时设为0。

在形状修正良好与否判定部502中，运算评价函数J，在J≥0时设为控制操作量输出可否数据S4＝1(可以)，在J＜0时输出控制操作量输出可否数据S4使控制操作量输出可否数据S4＝0(否)。

在控制输出抑制部4中，根据控制输出判定部5的判定结果即控制操作量输出可否数据S4，决定有无输出针对控制对象设备1的控制操作量输出SO。控制操作量输出可否数据S4是#1～#nAS-U位置变更量输出、上第一中间移位位置变更量输出、下第一中间移位位置变更量输出，通过以下方式来决定：

IF(控制操作量输出可否数据S4＝0)THEN

#1～#nAS-U位置变更量输出＝0

上第一中间移位位置变更量输出＝0

下第一中间移位位置变更量输出＝0

ELSE

#1～#nAS-U位置变更量输出＝#1～#nAS-U位置变更量

上第一中间移位位置变更量输出＝上第一中间移位位置变更量

下第一中间移位位置变更量输出＝下第一中间移位位置变更量

ENDIF

在控制执行装置20中，通过从来自控制对象设备1(滚轧机)的实际情况数据Si，执行上述的运算，将控制操作量输出SO输出给控制对象设备1(滚轧机)，由此实施形状控制。

接下来，对控制方法学习装置21的动作概要进行说明。控制方法学习装置21中，使用控制执行装置20所使用的数据的时间延迟数据。时间延迟Z^-1意味着e^-TS，表示仅延迟预先设定的时间T。控制对象设备1具有时间应答，因此通过控制操作量输出SO，在直至实际情况数据变化为止存在时间延迟。因此，在执行控制操作后，使用仅经过延迟时间T的时间点的实际情况数据来实施学习。在形状控制中，在针对AS-U或第一中间轧辊的操作指令输出之后，由于直至形状计检测出形状变化为止仍需要数秒，因此可以设定成T＝2～3秒左右(延迟时间因形状检测器的种类或滚轧速度而变化，因此，只要控制操作端的变更将直至形状变化为止的最优的时间设定为T即可)。

图17是用于说明控制结果良好与否判定部6的动作概要的图。在形状变化良好与否判定部602中，使用下述数学式的良好与否判定评价函数J_C。

【数学式11】

J_c＝J_Ai(sfb(i))-J_Ai(slast(i))

另外，在上述数学式中，εfb(i)是实际情况数据Si所包含的形状偏差实际情况数据，εlast(i)是形状偏差实际情况数据前次值，J_Ai是评价函数设定部设定的评价函数。这里，在评价函数J_Ai中设定被评价函数设定部17手动预先设定的评价函数J_Ai、或者设定评价函数学习部174学习到的评价函数(学习评价函数)。通过良好与否判定评价函数Jc，判定控制结果的良好与否。此外，即使控制输出判定部5的判定结果即控制操作量输出可否数据S4是0(无法控制输出)的情况下，实际上相对于控制对象设备1控制操作量输出＝0，但是仍判断为形状恶劣。

这里，在控制操作量输出可否数据S4＝0时，设为控制结果良好与否数据S6＝-1。此外，通过阈值条件(LCU≥0≥LCL)来预先设定阈值上限LCU与阈值加减LCL。此时，与良好与否判定评价函数Jc的比较的结果如果是Jc＞LCU，则设为控制结果良好与否数据S6＝-1(形状恶劣)；

如果是LCU≥Jc≥0，则设为控制结果良好与否数据S6＝0(向形状恶劣的方向变化)；

如果是0＞Jc≥LCL，则设为控制结果良好与否数据S6＝1(向形状良好的方向变化)；

如果是Jc＜LCL，则设为控制结果良好与否数据S6＝0(形状良好)。

这里，就控制结果良好与否数据S6＝-1而言，由于形状恶劣，因此抑制所输出的控制输出，就控制结果良好与否数据S6＝0而言，没有形状变化，或形状良好而保持输出的控制输出，就控制结果良好与否数据S6＝1而言，向形状良好的方向变化，但是有可能更好，因此增大所输出的控制量。

若评价函数J_Ai不同则良好与否判定评价函数Jc不同。因此，考虑控制结果良好与否数据S6的判定结果也不同。因此，在控制方法学习装置21中，对预先设定的各评价函数，实施控制结果良好与否数据S6的判定。

接下来，对学习数据制作部7的概要进行说明。如图3所示，在学习数据制作部7中，以来自控制结果良好与否判定部6的判定结果(控制结果良好与否数据S6)为基础，由控制操作端操作指令S2、控制操作量S3、控制输出抑制部的判定结果(控制操作量输出可否数据S4)，制作针对控制规则学习部11所使用的神经网络111的监督数据S7a。

该情况下的监督数据S7a是图7所示的、来自神经网络111的输出层的输出，为AS-U操作配合度301、第一中间操作配合度302。学习数据制作部7使用神经网络101的输出即控制操作端操作指令S2(AS-U操作配合度301、第一中间操作配合度302)、控制操作量输出SO即#1～#nAS-U位置变更量输出、上第一中间移位位置变更量输出、下第一中间移位位置变更量输出，制作针对控制规则学习部11所使用的神经网络111的监督数据S7a。

每当说明学习数据制作部7的动作概要时，将图10的控制输出运算部3中的各部数据或记号的关系整理为图18。这里，针对神经网络101的输出即控制操作端操作指令S2代表性地表示AS-U操作配合度301，将操作配合度正侧的数据设为OPref，将操作配合度负侧的数据设为OMref，将来自控制操作干扰产生部16的随机产生的操作配合度设为操作配合度随机变数Oref，将变换增益设为G，将控制操作量输出SO设为Cref来进行说明。这样，这里为了简单，作为来自控制规则执行部10的神经网络101的输出层的输出，将操作配合度正侧和操作配合度负侧、来自控制操作干扰产生部16的随机产生的操作配合度设为操作配合度随机变数。此外，将针对控制操作端的控制操作量输出SO设为操作指令值。

图19表示学习数据制作部7中的处理阶段与处理内容。这里，在按照图18的记号的规定来进行说明时，在最初的处理阶段71中，通过数学式(12)求出操作指令值Cref。

【数学式12】

Cref＝G·(OPref-OMref+ORref)…(6)

在下一处理阶段72中，根据控制结果良好与否数据S6来修正操作指令值Cref而设为C’ref。具体来说，在控制结果良好与否数据S6＝-1时通过数学式(13)设为操作指令值Cref的修正值C’ref，在控制结果良好与否数据S6＝0时通过数学式(14)设为操作指令值Cref的修正值C’ref，在控制结果良好与否数据S6＝1时通过数学式(15)设为操作指令值Cref的修正值C’ref。

【数学式13】

【数学式14】

C′ref＝Cref…(8)

【数学式15】

在处理阶段73中，从进行了修正的操作指令值C’ref，通过数学式(16)、(17)求出操作配合度修正量ΔCref。

【数学式16】

C′ref＝G.((OPref+ΔOref)-(OMref-ΔOref))…(10)

【数学式17】

在处理阶段74中，通过数学式(18)求出针对神经网络111的监督数据OP’ref、OM’ref。

【数学式18】

这样在学习数据制作部7中，如图18所示，运算针对实际输出给控制对象设备1的操作指令值Cref，根据控制结果良好与否判定部6中的判定结果即控制结果良好与否数据S6运算操作指令值修正值C’ref。具体来说，在控制结果良好与否数据S6＝1时，控制方向OK，但是在判定为控制输出不足时，在相同方向上仅增加ΔCref对应的量的操作指令值。反之，在控制结果良好与否数据S6＝-1时，在判断为控制方向不同时，在反方向上仅减少与ΔCref对应的量的操作指令值。由于变换增益G是预先设定的值而已知，因此如果判断操作配合度正侧和操作配合度负侧的值，则能够求出修正量ΔOref。这里，ΔCref预先通过模拟等求出适当的值而进行设定。通过以上的过程，控制规则学习部11所使用的监督数据OP’ref、OM’ref可以通过上述的数学式(18)而求出。

另外，在图19中以简单的事例进行了说明，实际上，对于针对#1～#nAS-U的AS-U操作配合度301以及、针对上第一中间轧辊移位、下第一中间轧辊移位的第一中间操作配合度302予以全部实施，设为控制规则学习部11所使用的神经网络111的监督数据(AS-U操作配合度监督数据、第一中间操作配合度监督数据)。

图20是表示保存于学习数据数据库DB2的数据例。为了学习神经网络111，需要多个输入数据S8a与监督数据S7a的组合。因此，由学习数据制作部7制作的监督数据S7a(AS-U操作配合度监督数据、第一中间操作配合度)与通过控制执行装置20输入到控制规则执行部10的输入数据S1(标准化形状偏差201以及形状偏差阶段)的时间延迟数据S8a组合而作为一组学习数据S11，保存于学习数据数据库DB2。

另外，在图3的设备控制装置中，使用了各种数据库DB1、DB2、DB3、DB4、DB5，但是图20表示用于联系性地管理运用各数据库DB1、DB2、DB3、DB4的神经网络管理表TB的结构。管理表TB具有规格的管理表。具体来说，管理表TB针对规格而根据(B1)板宽、(B2)钢种、以及控制的优先级的评价函数A1～AN来进行区分。作为(B1)板宽，例如使用3尺宽、米宽、4尺宽、5尺宽这4区分，而作为钢种使用钢种(1)～钢种(10)这10区分。此外，对于控制的评价函数设为N(N是设定的评价函数的个数。在本实施例中N＝6。)种，该情况下，成为80区分，根据滚轧条件分开使用240个神经网络。

神经网络学习控制部112按照图21的神经网络管理表TB，将图20所示的、输入数据和监督数据的组合即学习数据与相符的神经网络No.关联起来，存储于图22所示的学习数据数据库DB2。

控制执行装置20针对控制对象设备1执行形状控制时，根据评价函数制作N组学习数据。这是因为针对相同的输入数据、控制输出，使用针对控制的优先级的N个评价函数来进行控制结果良好与否判定，因此，制作N种监督数据。如果监督数据蓄积了某种程度(例如200组)，或者重新蓄积于学习数据数据库DB2，则神经网络学习控制部112指示神经网络111的学习。

在控制规则数据库DB1中按照图21所示那样的管理表TB，存储多个神经网络，在神经网络学习控制部112中，指定学习所需的神经网络No.，神经网络选择部113从控制规则数据库DB1取出该神经网络，设定为神经网络111。神经网络学习控制部112将从学习数据数据库DB2取出与该神经网络对应的输入数据和监督数据指示给输入数据制作部114和监督数据制作部115，并使用它们来实施神经网络111的学习。另外，神经网络的学习方法提出了各种方法，可以使用任意方法。

在神经网络111的学习结束时，神经网络学习控制部112将学习结果即神经网络111重写于控制规则数据库DB1的该神经网络No.的位置，由此完成学习。

也可以针对图21所定义的所有神经网络以一定时间间隔(例如每一日一次)一起实施学习，也可以在该时间点只学习新的学习数据蓄积了某种程度(例如100组)的神经网络No.的神经网络。

通过以上，不会将控制对象设备1即滚轧机的形状扰乱得大，可以通过以下方式实现：

1)分别预先设定基准形状样式、与之相对的控制操作，不学习控制操作方法，学习形状样式与控制操作的组合，使用该组合来实施控制操作。

2)新的控制规则并非可以预先想象，有时完全无法预测的控制规则才是最优的，因此，使控制操作端随机动作，一边观察与其相对的控制结果一边进行寻找。

3)将决定针对控制对象的控制的优先级的评价函数设定成与操作员的感觉一致，根据控制对象的状态与操作员的手动操作方法一致。

另外，在控制规则数据库DB1中存储有控制执行装置20所使用的神经网络，若所存储的神经网络只以随机变数实施了首字母处理，则神经网络的学习得以前进，在能够实现相应的控制之前将花费时间。因此，在针对控制对象设备1构建了控制部时，根据在该时间点判明的控制对象设备1的控制模型，预先通过模拟，实施控制规则的学习，将模拟的学习完成而得的神经网络存储于数据库，由此，能够自最初启动控制对象设备起，实施某种程度的性能的控制。

此外，由于使用与操作员的手动操作方法一致的评价函数实施了神经网络的学习，因此无需操作员对控制输出涉及的控制对象的变化进行手动操作，就能够实现操作员的负载减轻以及控制精度、作业效率的提升。

以上说明的实施方式包含以下所示的事项。其中，实施方式所包含的事项并非限定于以下所示的事项。

本公开的控制装置是对控制对象进行控制的控制装置，具有：控制执行装置，其按照所提供的控制规则对所述控制对象提供控制输出；控制方法学习装置，其使用所指定的评价函数评价提供给所述控制对象的控制输出，利用该评价函数来制作学习数据，并学习该学习数据，由此构建所述控制规则，将该控制规则提供给所述控制执行装置；以及评价函数设定部，其预先保持多个评价函数，根据针对所述控制对象的控制状态，选择所述多个评价函数中的某一个，将所述选择出的评价函数指定给所述控制方法学习装置。

根据该结构，由于按照利用了针对控制输出的评价的评价结果的学习数据进行学习而构建的控制规则，对控制对象提供控制输出，因此期待能够执行基于控制结果的适当的良好与否判定的控制，所述控制输出基于根据控制状态选择出的评价函数。

此外，根据本公开，所述评价函数设定部根据针对所述控制对象的控制状态和操作员涉及的手动操作，针对所述多个评价函数中的每一个计算评价函数良好与否判定指标，根据该评价函数良好与否判定指标，选择指定给所述控制方法学习装置的评价函数。根据该结构，通过利用操作员涉及的手动操作与针对控制对象的控制状态之间的关系，由此容易选择使操作员所意图的控制成为高评价的评价函数。

此外，根据本公开，所述评价函数设定部计算所述操作员开始手动操作的时刻、和所述操作员结束手动操作的时刻的所述评价函数的评价值，使用该评价值来计算所述评价函数良好与否判定指标。根据该结构，若操作员在滚轧作业中判断为板的形状恶劣，则开始手动操作，直到判断为形状良好为止继续手动操作，因此可以从该时间点的评价值取得操作员的意图。

此外，根据本公开，所述评价函数设定部计算所述操作员开始手动操作的时刻的所述评价函数的评价值a、和所述操作员结束手动操作的时刻的所述评价函数的评价值b，将所述评价函数良好与否判定指标计算为(a-b)/b。根据该结构，即使计算方法按多个评价函数而不同时，也能够对评价函数良好与否判定指标相互比较。

此外，根据本公开，所述评价函数将针对所述控制对象的所述控制输出和反映了该控制输出的控制结果的所述控制对象的实际情况数据设为输入，输出所述评价结果，所述评价函数设定部通过学习基于操作员涉及的手动操作、针对所述控制对象的所述控制输出、和所述控制对象的实际情况数据的学习数据，由此构建所述评价函数。根据该结构，由于利用操作员的手动操作，因此可以构建反映了操作员的意图的评价函数。

此外，根据本公开，所述评价函数设定部学习基于所述操作员开始手动操作的时刻和所述操作员结束手动操作的时刻的针对所述控制对象的所述控制输出、以及所述控制对象的实际情况数据的学习数据，由此构建所述评价函数。根据该结构，若操作员在滚轧作业中评价为板的形状恶劣，则开始手动操作，直到评价为形状良好为止继续手动操作，因此将反映了操作员的评价的评价值设为学习数据，可以构建进行接近操作员的评价的评价的评价函数。

此外，根据本公开，所述评价函数设定部将所述操作员开始手动操作的时刻的评价值作为规定值c而生成学习数据，将所述操作员结束手动操作的时刻的评价值作为规定值d而生成学习数据，对所述学习数据进行学习，由此构建所述评价函数。根据该结构，若操作员在滚轧作业中判断为板的形状恶劣，则开始手动操作，直到判断为形状良好为止继续手动操作，因此可以从该时间点的评价值获得操作员的意图。

此外，根据本公开，所述控制执行装置具有：控制规则执行部，其按照所述控制对象的实际情况数据与控制操作的组合提供针对所述控制对象的控制输出；控制输出判定部，其使用所述评价函数来判定能否应用所述控制规则执行部输出的所述控制输出，并且在判定为不可应用时将该实际情况数据与控制操作的组合不合适的情况通知给所述控制方法学习装置；以及控制输出抑制部，其在该控制输出判定部判定为不可应用时，阻止向所述控制对象输出所述控制输出，所述控制方法学习装置具有：控制结果良好与否判定部，在所述控制执行装置将所述控制输出实际输出给所述控制对象时，在经过直至所述控制输出反映给所述控制对象的实际情况数据为止的时间延迟之后，使用所述评价函数设定部设定的评价函数，判定所述实际情况数据是因所述控制输出得以改善还是恶化这样的控制结果的良好与否；学习数据制作部，其使用由该控制结果良好与否判定部所判定的控制结果的良好与否、和所述控制输出来获得监督数据；以及控制规则学习部，其将所述实际情况数据和所述监督数据作为学习数据来进行学习，通过所述控制方法学习装置进行学习，由此根据所述控制对象设备的状态针对多个控制目标而获得个别的实际情况数据与控制操作的组合，将所获得的实际情况数据与控制操作的组合用作所述控制规则执行部中的控制对象设备的实际情况数据与控制操作的已确定的组合。

此外，本公开的设备控制装置实际上作为计算机系统而实现，但是该情况下在计算机系统内形成多个程序组。

这些程序组例如为：

控制规则执行程序，其用于实现控制执行装置的处理，按照控制对象设备的实际情况数据与控制操作的已确定的组合来提供控制输出；控制输出判定程序，其判定控制规则执行程序所输出的控制输出的可否，并且将该实际情况数据与控制操作错误的情况通知给所述控制方法学习装置；以及控制输出抑制程序，其在控制输出判定程序向控制对象设备输出控制输出的情况下，当判断为控制对象设备的所述实际情况数据恶化时，阻止向所述控制对象设备输出控制输出；

控制结果良好与否判定程序，其用于实现控制方法学习装置的处理，在控制执行装置将控制输出实际输出给控制对象设备的情况下，用于实现控制结果良好与否判定的处理，所述控制结果良好与否判定的处理是在经过直至控制效果表示为实际情况数据为止的时间延迟之后，判定实际情况数据相较于该控制前变好还是恶化的控制结果的良好与否；学习数据制作程序，其使用该控制结果良好与否判定程序中的控制结果的良好与否和控制输出来获得监督数据；以及控制规则学习程序，其将所述实际情况数据与所述监督数据作为学习数据来进行学习。

并且，通过控制方法学习装置进行学习，由此根据所述控制对象设备的状态针对多个控制目标而获得个别的实际情况数据与控制操作的组合，将获得的实际情况数据与控制操作的组合用作所述控制规则执行程序中的控制对象设备的实际情况数据与控制操作的已确定的组合。

另外，在将本发明装置应用于实际设备时，需要确定神经网络的初始值，但是关于这方面，可以在实施控制对象设备的控制之前，使用控制对象设备的控制模型，通过模拟来制作实际情况数据与控制操作的组合，从而缩短控制对象设备的实际情况数据与控制操作的组合的学习期间。

产业上的利用可能性

本发明例如与滚轧设备之一即滚轧机的控制方法和控制部相关，实际运用中当然也没有什么问题。

Claims

1.一种对控制对象进行控制的控制装置，其特征在于，

该控制装置具有：

控制执行装置，其按照所提供的控制规则，对所述控制对象提供控制输出；

控制方法学习装置，其使用所指定的评价函数来评价提供给所述控制对象的控制输出，利用该评价结果制作学习数据，并学习该学习数据，由此构建所述控制规则，将该控制规则提供给所述控制执行装置；以及

评价函数设定部，其预先保持多个评价函数，根据针对所述控制对象的控制状态，选择所述多个评价函数中的某一个，将所述选择出的评价函数指定给所述控制方法学习装置。

2.根据权利要求1所述的控制装置，其特征在于，

所述评价函数设定部根据针对所述控制对象的控制状态与操作员的手动操作，对所述多个评价函数分别计算评价函数良好与否判定指标，根据该评价函数良好与否判定指标，选择指定给所述控制方法学习装置的评价函数。

3.根据权利要求2所述的控制装置，其特征在于，

所述评价函数设定部对所述操作员开始手动操作的时刻和所述操作员结束手动操作的时刻的所述评价函数的评价值进行计算，使用该评价值来计算所述评价函数良好与否判定指标。

4.根据权利要求3所述的控制装置，其特征在于，

所述评价函数设定部对所述操作员开始手动操作的时刻的所述评价函数的评价值a和所述操作员结束手动操作的时刻的所述评价函数的评价值b进行计算，将所述评价函数良好与否判定指标计算为(a-b)/b。

5.根据权利要求1所述的控制装置，其特征在于，

所述评价函数将针对所述控制对象的所述控制输出和反映了该控制输出的控制结果的所述控制对象的实际情况数据设为输入，输出所述评价结果，

所述评价函数设定部学习基于操作员的手动操作、针对所述控制对象的所述控制输出、和所述控制对象的实际情况数据的学习数据，由此构建所述评价函数。

6.根据权利要求5所述的控制装置，其特征在于，

所述评价函数设定部学习基于所述操作员开始手动操作的时刻和所述操作员结束手动操作的时刻的、针对所述控制对象的所述控制输出以及所述控制对象的实际情况数据的学习数据，由此构建所述评价函数。

7.根据权利要求6所述的控制装置，其特征在于，

所述评价函数设定部将所述操作员开始手动操作的时刻的评价值设为规定值c并生成学习数据，将所述操作员结束手动操作的时刻的评价值设为规定值d并生成学习数据，并学习所述学习数据，由此构建所述评价函数。

8.根据权利要求1所述的控制装置，其特征在于，

所述控制执行装置具有：控制规则执行部，其按照所述控制对象的实际情况数据与控制操作的组合，提供针对所述控制对象的控制输出；控制输出判定部，其使用所述评价函数来判定能否应用所述控制规则执行部输出的所述控制输出，并且在判定为不可应用时将该实际情况数据与控制操作的组合不合适的情况通知给所述控制方法学习装置；以及控制输出抑制部，其在该控制输出判定部判定为不可应用时，阻止向所述控制对象输出所述控制输出，

所述控制方法学习装置具有：控制结果良好与否判定部，在所述控制执行装置将所述控制输出实际输出给所述控制对象时，在经过直至所述控制输出反映给所述控制对象的实际情况数据为止的时间延迟之后，使用所述评价函数设定部设定的评价函数，判定所述实际情况数据是因所述控制输出得以改善还是恶化这样的控制结果的良好与否；学习数据制作部，其使用由该控制结果良好与否判定部所判定的控制结果的良好与否和所述控制输出来获得监督数据；以及控制规则学习部，其将所述实际情况数据和所述监督数据作为学习数据来进行学习，

通过所述控制方法学习装置进行学习，由此根据所述控制对象的状态针对多个控制目标而获得个别的实际情况数据与控制操作的组合，将所获得的实际情况数据与控制操作的组合用作所述控制规则执行部中的所述控制对象的实际情况数据与控制操作的已确定的组合。

9.一种用于对控制对象进行控制的控制方法，其特征在于，

使计算机执行如下内容：

按照所提供的控制规则，对所述控制对象提供控制输出，

使用所指定的评价函数来评价提供给所述控制对象的控制输出，

利用该评价结果制作学习数据，

学习该学习数据由此构建所述控制规则，

根据针对所述控制对象的控制状态，选择并指定预先保持的多个评价函数中的某一个。