CN113552842A

CN113552842A - 控制装置、控制方法及记录介质

Info

Publication number: CN113552842A
Application number: CN202110440905.0A
Authority: CN
Inventors: 高见豪; 西条史雄; 田中觉
Original assignee: Yokogawa Electric Corp
Current assignee: Yokogawa Electric Corp
Priority date: 2020-04-24
Filing date: 2021-04-23
Publication date: 2021-10-26
Also published as: US11960267B2; JP2021174259A; JP7484382B2; US20210333779A1; EP3901709A1; EP3901709B1

Abstract

本发明提供一种控制装置、控制方法及记录介质。所述控制装置具备：取得部，取得针对控制对象设备测定出的测定值；第一控制部，通过反馈控制和前馈控制中的至少一方，输出与测定值相应的控制对象设备的操作量；第二控制部，使用利用学习用数据进行学习所得的模型，输出与测定值相应的控制对象设备的操作量；以及切换部，进行由第一控制部和第二控制部中的哪一个对控制对象设备进行控制的切换。

Description

控制装置、控制方法及记录介质

技术领域

本发明涉及控制装置、控制方法及记录介质。

背景技术

以往，提出了对设备进行控制的各种方法(例如，参照专利文献1)。

现有技术文献

专利文献

专利文献1：日本特开2018－202564号公报

发明内容

为了解决上述课题，在本发明的第一方式中，提供一种控制装置。控制装置可以具备取得部，该取得部取得针对控制对象设备所测定的测定值。控制装置可以具备第一控制部，该第一控制部通过反馈控制及前馈控制中的至少一方，输出与测定值相应的控制对象设备的操作量。控制装置可以具备第二控制部，该第二控制部使用利用学习用数据进行学习所得的模型，输出与测定值相应的控制对象设备的操作量。控制装置可以具备切换部，该切换部进行由第一控制部和第二控制部中的哪一个对控制对象设备进行控制的切换。

切换部可以根据测定值与目标值之差进行切换。

切换部可以根据在基准时间窗口内测定值与目标值之差多次变得比基准值大的情况，进行从基于第一控制部的控制向基于第二控制部的控制的切换。

第一控制部可以输出基于测定值和目标值计算出的操作量。第二控制部的模型可以使用包含测定值的测定数据和包含控制对象设备的操作量的学习数据进行学习，并根据测定数据的输入，输出为了提高由预先设定的奖励函数确定的奖励值而推荐的控制对象设备的操作量。

奖励函数可以是测定值越接近一个目标值则奖励值越高的函数。切换部可以根据基于一个目标值的阈值与测定值之间的比较结果进行切换。

切换部可以使从基于第一控制部的控制向基于第二控制部的控制的切换所使用的阈值、和从基于第二控制部的控制向基于第一控制部的控制的切换所使用的阈值具有滞后特性。

切换部可以在从对控制对象设备的控制开始起经过基准时间之前，使第二控制部进行控制。切换部可以在从对控制对象设备的控制开始起经过基准时间之后，使第一控制部进行控制。

第一控制部可以进行使用比例控制、积分控制或微分控制中的至少一种的反馈控制。

第一控制部可以在自动模式和手动模式下进行动作，所述自动模式是根据测定值被输入的情况，计算与该测定值相应的控制对象设备的操作量并输出的模式，所述手动模式是根据应输出的操作量被输入的情况，输出该操作量的模式。第二控制部可以将控制对象设备的操作量输入到第一控制部。切换部可以通过切换第一控制部的模式来进行切换。

第一控制部可以在从手动模式向自动模式切换的情况下，无扰动地控制切换前后的操作量。

在本发明的第二方式中，提供一种控制方法。控制方法可以具备取得阶段，在该取得阶段，取得针对控制对象设备所测定的测定值。控制方法可以具备第一控制阶段，在该第一控制阶段，通过反馈控制及前馈控制中的至少一方，输出与测定值相应的控制对象设备的操作量。控制方法可以具备第二控制阶段，在该第二控制阶段，使用利用学习用数据进行学习所得的模型，输出与测定值相应的控制对象设备的操作量。控制装置可以具备切换阶段，在该切换部阶段，进行通过第一控制阶段和第二控制阶段中的哪一个对控制对象设备进行控制的切换。

在本发明的第三方式中，提供一种记录有程序的记录介质。程序可以使计算机作为取得部发挥功能，该取得部取得针对控制对象设备所测定的测定值。程序可以使计算机作为第一控制部发挥功能，该第一控制部通过反馈控制及前馈控制中的至少一方，输出与测定值相应的控制对象设备的操作量。程序可以使计算机作为第二控制部发挥功能，该第二控制部使用利用学习用数据进行学习所得的模型，输出与测定值相应的控制对象设备的操作量。程序可以使计算机作为切换部发挥功能，该切换部进行由第一控制部和第二控制部中的哪一个对控制对象设备进行控制的切换。

另外，上述发明内容并未列举出本发明的全部必要特征。另外，这些特征组的子组合也可以成为发明。

附图说明

图1表示本实施方式所涉及的系统1。

图2表示本实施方式所涉及的控制装置4在学习阶段中的动作。

图3表示本实施方式所涉及的控制装置4在运用阶段中的动作。

图4表示系统1的应用例。

图5表示可以全部或部分地实现本发明的多个方式的计算机2200的示例。

标号说明

1系统、2设施、4控制装置、20设备、21传感器、40测定数据取得部、41操作量取得部、42奖励值取得部、44学习处理部、45AI控制部、46反馈控制部、47切换部、49控制部、200管道、450模型、2200计算机、2201DVD-ROM、2210主机控制器、2212CPU、2214RAM、2216图形控制器、2218显示设备、2220输入输出控制器、2222通信接口、2224硬盘驱动器、2226DVD-ROM驱动器、2230ROM、2240输入输出芯片、2242键盘。

具体实施方式

以下，通过发明的实施方式说明本发明，但以下的实施方式并不限定权利要求书所涉及的发明。另外，在实施方式中说明的特征的组合并非全部是发明的解决手段所必须的。

[1.系统1的结构]

图1表示本实施方式所涉及的系统1。系统1具备设施(設備)2和控制装置4。

[1-1.设施2]

设施2配备有多个设备(機器)20。例如，设施2可以是工厂，也可以是使多个设备20复合所得的复合装置。作为工厂，除了化学、生物等工业工厂之外，还可以举出：对气田、油田等的井源及其周边进行管理控制的工厂；对水力、火力、核能等的发电进行管理控制的工厂；对太阳光、风力等的环境发电进行管理控制的工厂；对上下水、水坝等进行管理控制的工厂等。在本实施方式中，作为一例，设施2具有一个或多个设备20及一个或多个传感器21。

[1-1-1.设备20]

各设备20是器具、机器或装置，例如可以是对设施2的过程中的压力、温度、pH、速度及流量等中的至少一个物理量进行控制的阀、泵、加热器、风扇、马达、开关等致动器。

在本实施方式中，作为一例，设施2具备多个设备20。各设备20可以是相互为不同种类，也可以是两个以上的至少一部分设备20为相同种类。

各设备20可以经由未图示的网络从外部通过有线或无线的方式进行控制，也可以通过手动进行控制。多个设备20中的至少一部分设备20可以是由控制装置4控制的控制对象设备20(T)。在系统1具备多个控制对象设备20(T)的情况下，上述多个控制对象设备20(T)可以具有被联动地控制的关系(例如主从关系、不被独立地控制的关系)。另外，各控制对象设备20(T)可以是相同种类的设备20，也可以是不同种类的设备20。

另外，也可以在多个设备20中的至少一部分设备20设置未图示的控制器。所谓在设备20设置控制器，可以是在设备20内置控制器，也可以是在设备20外部连接控制器。控制器可以根据目标值(设定值)被设定的情况而对设备20进行反馈控制，以降低该目标值与当前值之间的差分。设置于控制对象设备20(T)的控制器的目标值可以从控制装置4供给，在本实施方式中，作为一例，可以是控制对象设备20(T)的操作量。反馈控制可以是使用比例控制(P控制)、积分控制(I控制)及微分控制(D控制)中的至少一种的控制。

[1-1-2.传感器21]

各传感器21对设施2的内外的物理量进行测定。各传感器21可以将通过测定得到的测定数据提供给控制装置4。

在本实施方式中，作为一例，设施2具备多个传感器21。由多个传感器21测定的多个测定数据可以包含外部环境数据、反馈控制用数据、运转状态数据及消耗量数据中的至少一个。

外部环境数据表示能够作为对控制对象设备20(T)的干扰而发挥作用的物理量。例如，外部环境数据可以表示对于控制对象设备20(T)的控制能够作为干扰发挥作用的物理量(或其变动)。作为一例，外部环境数据可以表示设施2的外部空气的温度和湿度、日照、风向、风量、降水量、通过其他设备20的控制而发生变化的物理量等。外部环境数据可以用于检测干扰。

反馈控制用数据表示用于对各控制对象设备20(T)进行反馈控制的物理量。反馈控制用数据可以表示针对控制对象设备20(T)测定出的测定值，例如可以表示各控制对象设备20(T)的输出值，也可以表示根据输出值而发生变化的值。

运转状态数据表示作为对各控制对象设备20(T)进行控制所得的结果的运转状态。运转状态数据可以表示通过各控制对象设备20(T)的控制而能够变动的物理量，也可以表示各控制对象设备20(T)的输出值。运转状态数据也可以与反馈控制用数据相同。

消耗量数据表示设施2的能量或原材料中的至少一方的消耗量。消耗量数据作为能量消耗量，可以表示电力或燃料(作为一例为LPG(Liquefied Petroleum Gas：液化石油气))的消耗量。

[1-3.控制装置4]

控制装置4对各控制对象设备20(T)进行控制。控制装置4可以是一个或多个计算机，也可以由PC等构成。控制装置4具有测定数据取得部40、操作量取得部41、奖励值取得部42、学习处理部44、AI控制部45、反馈控制部46、切换部47、控制部49。

[1-3-1.测定数据取得部40]

测定数据取得部40是取得部的一例，取得由传感器21测定出的测定数据。测定数据取得部40可以取得由设施2所具备的多个传感器21分别测定出的测定数据。测定数据可以包含针对各控制对象设备20(T)测定出的测定值。

测定数据取得部40可以取得表示控制装置4对各控制对象设备20(T)进行控制的控制周期内的测定值的平均值的测定数据，也可以取得表示每个控制间隔的测定值(即控制周期的结束定时的测定值)的测定数据。在本实施方式中，作为一例，各控制对象设备20(T)的控制周期可以是同步的。测定数据取得部40可以从传感器21取得测定数据，也可以从对传感器21进行了确认的操作者取得测定数据。测定数据取得部40可以将所取得的测定数据提供给学习处理部44和AI控制部45。另外，测定数据取得部40也可以将针对各控制对象设备20(T)的测定值(在本实施方式中，作为一例是各控制对象设备20(T)的输出值或根据输出值而发生变化的值)提供给反馈控制部46和切换部47。

[1-3-2.操作量取得部41]

操作量取得部41取得各控制对象设备20(T)的操作量。在本实施方式中，作为一例，操作量取得部41从控制部49取得操作量，但也可以从操作者取得，还可以从各控制对象设备20(T)取得。操作量取得部41可以将所取得的操作量提供给学习处理部44。

[1-3-3.奖励值取得部42]

奖励值取得部42取得用于学习处理部44中的强化学习的奖励值。奖励值可以是用于评价设施2的作业状态的值，也可以是由预先设定的奖励函数确定的值。这里，所谓函数，是具有使某一集合的各要素与其他集合的各要素一一对应的规则的映射，例如可以是数学式，也可以是表。

奖励函数可以根据测定数据的输入，输出对由该测定数据表示的状态进行评价所得的奖励值。奖励函数可以是针对控制对象设备20(T)测定出的测定值越接近一个目标值则奖励值越高的函数。一个目标值可以是与针对控制对象设备20(T)测定的测定值相关的目标值的固定值，并且与测定值同样地，可以表示各控制对象设备20(T)的输出值，也可以表示根据输出值而发生变化的值。作为一例，在控制对象设备20(T)为阀、目标值(SV)及测定值(PV)表示阀的开度的情况下，奖励值R可以用以下的奖励函数表示。

R＝1.0-∣SV-PV∣*0.1

奖励函数可以由操作者设置。奖励值取得部42可以从使用了奖励函数的操作者取得奖励值，也可以将来自传感器21的测定数据输入到奖励函数来取得奖励值。在奖励值取得部42将测定数据输入到奖励函数的情况下，奖励函数可以存储在控制装置4的内部，也可以存储在控制装置4的外部。

[1-3-4.学习处理部44]

学习处理部44进行AI控制部45所具备的模型450的学习处理。学习处理部44使用包含由测定数据取得部40取得的测定数据和由操作量取得部41取得的操作量的学习数据，执行模型450的学习处理。学习处理部44可以使用来自奖励值取得部42的奖励值执行模型450的学习处理。

[1-3-5.AI控制部45]

AI控制部45是第二控制部的一例，使用利用学习用数据进行学习所得的模型450，输出与针对控制对象设备20(T)的测定值相应的控制对象设备20(T)的操作量。AI控制部45可以输出与针对多个控制对象设备20(T)中的每一个的测定值相应的多个控制对象设备20(T)各自的操作量。AI控制部45可以将操作量输入到反馈控制部46。

模型450可以根据测定数据的输入，输出为了提高奖励值而推荐的操作量。所谓提高奖励值的操作量，可以是在将与规定的时间点(作为一例，为当前)的设施2的作业状态对应的奖励值(作为一例，为将该时间点的测定数据输入到奖励函数而得到的奖励值)作为基准奖励值的情况下，使奖励值变得比该基准奖励值高的操作量。如上述这样使奖励值变高的操作量与当前时间点相比改善了作业状态，所以作为针对控制对象设备20(T)的控制而被推荐。但是，基准奖励值也可以是固定值(作为一例，为从奖励值的最大值减去容许值所得的值)。

另外，在本实施方式中，作为一例，说明了AI控制部45内置模型450的情况，但也可以在控制装置4的外部的服务器(例如云服务器)保存模型450。

[1-3-6.反馈控制部46]

反馈控制部46是第一控制部的一例，通过反馈控制，输出与针对控制对象设备20(T)的测定值相应的控制对象设备20(T)的操作量。反馈控制部46可以输出与针对多个控制对象设备20(T)中的每一个的测定值相应的多个控制对象设备20(T)各自的操作量。反馈控制部46可以在自动模式和手动模式下进行动作。

自动模式是根据测定值被输入的情况，计算与该测定值相应的控制对象设备20(T)的操作量并输出的模式。在自动模式中，反馈控制部46可以为了进行反馈控制而基于测定值和目标值计算操作量。反馈控制部46也可以根据从操作者或外部设备等设定目标值的情况，以降低该目标值与当前的测定值之间的差分的方式计算操作量。设定于反馈控制部46的目标值可以是固定值，也可以适当变更。

反馈控制部46可以进行使用比例控制(P控制)、积分控制(I控制)及微分控制(D控制)中的至少一个的反馈控制，在本实施方式中，作为一例，进行PID控制。

手动模式是根据应输出的操作量被输入的情况，输出该操作量的模式。输入到反馈控制部46的操作量可以从AI控制部45供给。

反馈控制部46在任一模式下均可以将控制对象设备20(T)的操作量提供给控制部49。

[1-3-7.切换部47]

切换部47进行由反馈控制部46和AI控制部45中的哪一个对控制对象设备20(T)进行控制的切换(也称为控制切换)。

切换部47可以通过切换反馈控制部46的模式来进行控制切换。例如，切换部47可以通过将反馈控制部46设为自动模式，来使反馈控制部46对各控制对象设备20(T)进行控制。另外，切换部47也可以通过将反馈控制部46设为手动模式，来使AI控制部45对各控制对象设备20(T)进行控制。

[1-3-8.控制部49]

控制部49使用所提供的操作量对各控制对象设备20(T)进行控制。控制部49也可以通过向各控制对象设备20(T)提供操作量，来使各控制对象设备20(T)以该操作量驱动。

控制部49可以对各控制对象设备20(T)进行控制，以使各控制对象设备20(T)的输出值在控制周期内维持。在对控制对象设备20(T)进行反馈控制的情况下，控制周期可以比反馈控制的循环(circle)时间长。

另外，控制部49也可以进一步进行控制装置4的各部的控制。例如，控制部49可以控制模型450的学习。

根据以上的系统1，由于进行由反馈控制部46和AI控制部45中的哪一个对控制对象设备20(T)进行控制的切换，因此在不能由反馈控制部46和AI控制部45中的任一个良好地进行控制的情况下，能够由另一个良好地进行控制。另外，与仅由AI控制部45进行控制对象设备20(T)的控制的情况不同，能够由反馈控制部46分担控制的一部分，因此能够简化模型450的学习。

另外，由于根据针对控制对象设备20(T)测定出的测定值与目标值之差进行控制切换，因此在控制对象设备20(T)的上升期间较大地产生差的情况下、或因干扰等而较大地产生差的情况下，即使在反馈控制部46中使测定值接近目标值需要时间的情况下，也能够通过AI控制部45使测定值迅速地接近目标值。

另外，通过向AI控制部45的模型450输入测定数据，由此输出为了提高奖励值而推荐的操作量。因此，在进行基于AI控制部45的控制的情况下，不需要由熟练的操作者进行试错，能够通过与状况相应的适当的操作量来控制控制对象设备20(T)。

另外，AI控制部45将控制对象设备20(T)的操作量输入到反馈控制部46，切换部47通过将反馈控制部46在自动模式与手动模式之间进行切换来进行控制切换。因此，能够使用反馈控制部46所具备的模式切换功能来进行控制切换。

[2.动作]

[2-1.学习阶段]

图2表示本实施方式所涉及的控制装置4在学习阶段中的动作。控制装置4通过进行步骤S11～S25的处理而一边使设施2运转一边进行模型450的学习。

首先，在步骤S11中，测定数据取得部40取得由各传感器21测定出的测定数据。由此，取得初始状态的测定数据。测定数据取得部40可以将测定数据存储于学习处理部44。

在步骤S13中，控制部49决定各控制对象设备20(T)的操作量。控制部49可以决定下一个控制周期中的操作量，在本实施方式中，作为一例，可以决定在下次进行后述的步骤S15的情况下使用的操作量。所决定的操作量可以是提高奖励值的操作量，也可以是降低奖励值的操作量，还可以是与奖励值无关地被决定的操作量。

控制部49可以根据操作者的操作决定下一个控制周期中的操作量，也可以将从被输入了针对各控制对象设备20(T)的测定值的反馈控制部46输出的操作量决定为下一个控制周期中的操作量。取而代之，控制部49也可以将从模型450输出的操作量决定为下一个控制周期中的操作量。

例如，在最初进行步骤S13的处理的情况下，控制部49可以将根据向模型450输入了在步骤S11中所取得的测定数据的情况而从模型450输出的操作量决定为下一个控制周期中的操作量。在反复进行步骤S13～S19的处理而多次进行步骤S13的处理的情况下，控制部49可以将根据向模型450输入了在最后进行的步骤S17的处理中所取得的测定数据的情况而从模型450输出的操作量决定为下一个控制周期中的操作量。在多次进行步骤S13的处理的情况下，在多个步骤S13的处理中的至少一部分处理之间，可以决定不同的操作量。

在步骤S15中，控制部49将操作量输出到各控制对象设备20(T)而对各控制对象设备20(T)进行控制。控制部49可以经由操作量取得部41将操作量存储于学习处理部44。控制部49也可以将操作量与在各控制对象设备20(T)的控制前由测定数据取得部40所取得的测定数据相对应地存储于学习处理部44。由此，包含测定数据和操作量的学习数据被存储于学习处理部44。

另外，在最初进行步骤S15的处理的情况下，在控制对象设备20(T)的控制前所取得的测定数据可以是在上述步骤S11的处理中所取得的测定数据。在反复进行步骤S13～S19的处理而多次进行步骤S15的处理的情况下，在控制对象设备20(T)的控制前所取得的测定数据可以是在最后进行的步骤S17的处理中所取得的测定数据。

在步骤S17中，测定数据取得部40取得由各传感器21测定出的测定数据。由此，取得以操作量控制了各控制对象设备20(T)的情况下的测定数据。

在步骤S19中，奖励值取得部42取得由奖励函数确定的奖励值。这里，由测定数据取得部40取得的测定数据可以分别包含第一组的测定数据和第二组的测定数据，各组的测定数据可以包含至少一种测定数据。奖励函数可以在第一组的测定数据中的至少一个不满足基准条件的情况下，与第二组的测定数据各自的值无关地将奖励值设为0。另外，奖励函数在第一组的测定数据分别满足基准条件的情况下，可以根据第二组的测定数据各自的值使奖励值增减。

第一组的测定数据可以是运转状态数据，第一组的测定数据的基准条件可以是在设施2中应最低限度实现的条件。例如，在设施2是化学产品等产品的制造工厂的情况下，第一组的测定数据可以表示工厂内的温度、湿度，测定数据的基准条件可以是为了保持产品的品质而应维持的温度范围、湿度范围。另外，第二组的测定数据可以是消耗量数据。在该情况下，可以是消耗量越多，奖励值越少。由此，以削减消耗量的方式进行学习处理。

奖励值取得部42可以将所取得的奖励值存储于学习处理部44。奖励值取得部42可以将奖励值与在最后进行的步骤S15的处理中所存储的学习数据相对应地进行存储。

在步骤S21中，控制部49判定是否进行了基准步骤数量的步骤S13～S19的处理。在判定为没有进行基准步骤数量的处理的情况下(步骤S21：否)，处理转移到步骤S13。由此，测定数据或操作量中的至少一方不同的学习数据被采样基准步骤数量并与奖励值一起存储。另外，在反复进行步骤S13～S19的处理的情况下，步骤S13的周期(即控制周期)可以根据设施2的时间常数决定，作为一例可以是5分钟。在步骤S21中判定为进行了基准步骤数量的处理的情况下(步骤S21：是)，处理转移到步骤S23。

在步骤S23中，学习处理部44分别使用对应存储的学习数据和奖励值的组进行模型450的学习处理。由此，模型450被更新。另外，学习处理部44可以进行基于最速下降法、神经网络、DQN(Deep Q-Network)、高斯过程、深度学习等公知方法的学习处理。学习处理部44可以进行模型450的学习处理，使得奖励值越高的操作量，越优先地作为推荐的操作量输出。

在学习处理后的模型450中，可以与包含测定数据和操作量的学习数据相对应地存储权重系数。权重系数可以根据对应的学习数据内的操作量被用于控制的情况下的奖励值的高低来设定，也可以用于对该操作量被用于控制的情况下的奖励值进行预测。

在步骤S25中，控制部49判定是否进行了基准反复(迭代(iteration))数量的步骤S13～S23的处理。在判定为没有进行基准反复数量的处理的情况下(步骤S25：否)，处理转移到步骤S11。在判定为进行了基准迭代数量的处理的情况下(步骤S25：是)，处理结束。

根据以上的动作，奖励函数在第一组的测定数据的至少一个不满足基准条件的情况下，与第二组的测定数据各自的值无关地将奖励值设为0，在第一组的测定数据分别满足基准条件的情况下，根据第二组的测定数据各自的值使奖励值增减。因此，能够进行模型450的学习处理，使得在第一组的测定数据满足基准条件的前提下优先输出使奖励值提高那样的操作量。

另外，在将从模型450输出的推荐的操作量决定为下一个控制周期中的操作量的情况下，由于按照推荐的操作量控制各控制对象设备20(T)，并取得与控制相应的测定数据，因此使用包含推荐的操作量的学习数据和与该控制结果对应的奖励值进行模型450的学习处理。因此，能够依次进行以推荐的操作量进行控制的情况下的模型450的学习处理而提高学习精度。

[2-2.运用阶段]

图3表示本实施方式所涉及的控制装置4在运用阶段中的动作。控制装置4通过进行步骤S31～S37的处理，由此使用反馈控制部46和AI控制部45使设施2运转。

在步骤S31中，测定数据取得部40取得由各传感器21测定出的测定数据。由此，取得初始状态的测定数据。

在步骤S33中，切换部47决定由AI控制部45和反馈控制部46中的哪一个对控制对象设备20(T)进行控制。在决定为由AI控制部45进行控制的情况下(步骤S33：AI)，切换部47可以将反馈控制部46设定为手动模式。在该情况下，控制装置4可以将处理转移到步骤S35。在决定为由反馈控制部46进行控制的情况下(步骤S33：FB)，切换部47可以将反馈控制部46设定为自动模式。在该情况下，控制装置4可以将处理转移到步骤S37。切换部47在从正在由AI控制部45进行控制的状态决定了由反馈控制部46进行控制的情况下、及从正在由反馈控制部46进行控制的状态决定了由AI控制部45进行控制的情况下，可以进行控制切换(在本实施方式中，作为一例是反馈控制部46的手动模式和自动模式的切换)。

切换部47可以根据针对控制对象设备20(T)的测定值与目标值之差进行控制切换。作为一例，切换部47可以根据测定值与目标值之差比基准值大的情况，进行从基于反馈控制部46的控制向基于AI控制部45的控制的控制切换，并根据测定值与目标值之差比基准值小的情况，进行从基于AI控制部45的控制向基于反馈控制部46的控制的控制切换。切换部47可以使向基于AI控制部45的控制切换时的基准值和向基于反馈控制部46的控制切换时的基准值具有滞后特性，也可以使后者的基准值比前者的基准值小。切换部47可以从反馈控制部46取得目标值。

另外，切换部47可以根据在基准时间窗口内针对控制对象设备20(T)的测定值与目标值之差多次比基准值大的情况、即差多次从基准值以下的值变为比基准值大的值的情况，进行从基于反馈控制部46的控制向基于AI控制部45的控制的控制切换。作为一例，切换部47可以根据测定值因干扰等而产生波动的振荡的情况，进行向基于AI控制部45的控制的控制切换。作为基准时间窗口可以使用任意的时间宽度，作为基准值可以使用任意的值。

在该情况下，切换部47可以根据在基准时间窗口内测定值与目标值之差被维持得比基准值小的情况，进行从基于AI控制部45的控制向基于反馈控制部46的控制的切换。切换部47可以使向基于AI控制部45的控制切换时的基准值和向基于反馈控制部46的控制切换时的基准值具有滞后特性，也可以使后者的基准值比前者的基准值小。

另外，切换部47可以基于阈值与针对控制对象设备20(T)的测定值之间的比较结果进行控制切换。阈值可以基于奖励函数所包含的、针对控制对象设备20(T)的一个目标值来设定。例如，阈值可以是对一个目标值进行四则运算等运算而得到的值，也可以是一个目标值本身。

在基于阈值与测定值之间的比较结果进行控制切换的情况下，切换部47可以在测定值为阈值以下的情况下决定为由AI控制部45对控制对象设备20(T)进行控制。另外，切换部47可以在测定值大于阈值的情况下决定为由反馈控制部46对控制对象设备20(T)进行控制。作为一例，在控制对象设备20(T)为阀、表示开度的一个目标值为30％的情况下，阈值可以设定为一个目标值本身的30％，在测定值为30％以下的情况下，可以由AI控制部45对作为控制对象设备20(T)的阀进行控制，在测定值大于30％的情况下，可以由反馈控制部46对作为控制对象设备20(T)的阀进行控制。

切换部47可以使向基于AI控制部45的控制切换时的阈值和向基于反馈控制部46的控制切换时的阈值具有滞后特性，也可以使后者的阈值比前者的阈值大。

在步骤S35中，控制装置4进行AI控制部45对控制对象设备20(T)的控制。例如，AI控制部45的模型450可以将根据从测定数据取得部40提供测定数据的情况而推荐的操作量经由反馈控制部46输出到控制部49。控制部49可以将所输入的操作量提供给控制对象设备20(T)。由此，控制对象设备20(T)以操作量驱动。在步骤S35的处理结束后，控制装置4可以将处理转移到步骤S31。

另外，在步骤S35中，模型450也可以针对学习数据内所包含的各个操作量，计算在该操作量被用于控制的情况下预测的奖励值(也称为预测奖励值)。例如，模型450可以从多个学习数据中提取包含一个操作量的各学习数据。模型450可以将根据表示当前时间点的状态的测定数据(在本实施方式中，作为一例是在最后进行的步骤S31的处理中所取得的测定数据)与学习数据内的测定数据之间的距离，对与提取出的各学习数据相对应的各权重系数进行加权相加所得的结果，作为针对该一个操作量的预测奖励值。模型450可以将加权的大小设定为，测定数据间的距离越大，权重越小(即，对奖励值的影响越小)。在模型450中，预测奖励值越高的操作量，越优先作为推荐操作量。但是，模型450也可以不必将预测奖励值最高的操作量作为推荐操作量。

在步骤S37中，控制装置4进行反馈控制部46对控制对象设备20(T)的控制。例如，反馈控制部46可以根据针对控制对象设备20(T)的测定值被输入的情况，将与该测定值相应的操作量输出到控制部49。控制部49可以将所输入的操作量提供给控制对象设备20(T)。由此，控制对象设备20(T)以操作量驱动。在步骤S37的处理结束后，控制装置4可以将处理转移到步骤S31。

在步骤S37中，反馈控制部46在从手动模式切换到自动模式的情况下，无扰动(bump less)地控制切换前后的操作量，即，抑制切换前后的操作量的急剧变化。例如，反馈控制部46可以使用从在手动模式下所输出的操作量(即，从AI控制部45提供的操作量)进行逆运算的积分项，来计算下一个操作量。作为一例，反馈控制部46在自动模式下进行PID控制的情况下，可以根据下式(1)、(2)计算操作量MV。在反馈控制部46从手动模式切换到自动模式的情况下，可以根据在手动模式下所输出的操作量对式(2)的右边第二项的积分项进行逆运算，来计算下一个操作量MV。

【数学式1】

Δv_i＝PV_i-SV_i (1)

这里，在式中，下标i、i-1是表示控制定时的变量。PV是针对控制对象设备20(T)的测定值，换言之，是过程数据。SV是目标值，换言之，是设定值。P、I、D是比例增益、积分增益、微分增益。

根据以上的动作，根据在基准时间窗口内测定值与目标值之差多次变得比基准值大的情况，进行从基于反馈控制部46的控制向基于AI控制部45的控制的控制切换。因此，在因基于反馈控制部46的控制而产生振荡的情况下，能够抑制振荡地使测定值接近目标值。

另外，在由AI控制部45使用的奖励函数中，测定值越接近一个目标值，奖励值越高，控制切换根据基于一个目标值的阈值与测定值之间的比较结果来进行。因此，在测定值包含在不能由AI控制部45良好地进行控制的范围内的情况下，能够由反馈控制部46良好地进行控制。

另外，由于向基于AI控制部45的控制切换时的阈值和向基于反馈控制部46的控制切换时的阈值具有滞后特性，所以能够防止因测定值的变动而频繁地切换控制主体，导致操作量变得不稳定的情况。

另外，在反馈控制部46从手动模式切换到自动模式的情况下，切换前后的操作量被无扰动地控制，因此能够抑制从手动模式的反馈控制部46输出的操作量与由自动模式的反馈控制部46新计算出的操作量之间的不连续性，由此能够抑制变动。

[3.应用例]

图4表示系统1的应用例。另外，在图4中，简化图示了控制装置4的结构。

在本应用例中，设施2是工厂用的空调机，将外部空气导入到管道200内，并将调温、调湿后的空气提供给工厂的房间或其他空调机。

在设施2设有作为控制对象设备20(T)的阀B1～B4。阀B1对管道200内的加热量进行调整，阀B2对管道200内的冷却量进行调整，阀B3对管道200内的加湿量进行调整，阀B4对管道200内的除湿量进行调整。

另外，在设施2设有作为传感器21的湿度传感器21a、21b、温度传感器21c、21d、开度传感器21e、日照传感器21f、风向传感器21g、风量传感器21h、使用电力传感器21i、使用LPG传感器21j等。湿度传感器21a、温度传感器21c对导入到管道200内的外部空气的湿度、温度进行测定。湿度传感器21b、温度传感器21d对从管道200排出的调整后的空气的湿度、温度进行测定。开度传感器21e分别对阀B1～B4的开度(输出值)进行测定。日照传感器21f、风向传感器21g、风量传感器21h对设有设施2的工厂外部的日照量、风向、风量进行测定。使用电力传感器21i对设施2的使用电力量进行测定。使用LPG传感器21j对设施2的使用LPG量进行测定。

控制装置4的学习处理部44使用包含由这些传感器21a～21j测定出的测定数据和各阀B1～B4的操作量的学习数据，执行AI控制部45中的模型450的学习处理。在本应用例中，作为一例，操作量与阀B1～B4的输出值即开度相关。当与开度相关的操作量通过电信号等从控制装置4发送时，阀B1～B4以该操作量开闭。在调整后的空气的温度及湿度中的至少一方未维持在基准范围内的情况下，用于学习处理的奖励值可以设为0，在调整后的空气的温度、湿度分别维持在基准范围内的情况下，使用电力量及使用LPG量越少，用于学习处理的奖励值可以被设为越高的值。

AI控制部45根据由传感器21a～21j测定出的测定数据的输入，计算为了提高奖励值而推荐的操作量。

反馈控制部46基于由开度传感器21e测定出的开度和开度的目标值来计算操作量。

切换部47根据由开度传感器21e测定出的开度与开度的目标值之差进行控制切换。切换部47通过将反馈控制部46在手动模式与自动模式之间进行切换，由此将由AI控制部45计算出的操作量和由反馈控制部46计算出的操作量中的任一方从反馈控制部46提供给控制部49。

控制部49通过将操作量提供给阀B1～B4，由此使阀B1～B4以操作量开闭。

[5.变形例]

另外，在上述实施方式中，说明了系统1具备单个控制装置4的情况，但也可以具备多个控制装置4。在该情况下，在各控制装置4之间，控制对象设备20(T)可以相同，也可以不同。作为一例，在系统1中，可以按每个设备20设置将该设备20作为控制对象设备20(T)的控制装置4。

另外，说明了控制装置4具有操作量取得部41、奖励值取得部42、学习处理部44、控制部49的情况，但也可以不具有它们中的至少一个。在控制装置4不具有学习处理部44或操作量取得部41的情况下，控制装置4可以不进行模型450的学习处理，而使用学习处理后的模型450进行控制对象设备20(T)的控制。

另外，说明了测定数据取得部40取得由多个传感器21分别测定出的测定数据的情况，但也可以仅取得针对控制对象设备20(T)的测定值。

另外，说明了切换部47根据针对控制对象设备20(T)的测定值与目标值之差进行控制切换的情况，但也可以根据从对控制对象设备20(T)的控制开始起的经过时间进行控制切换。例如，切换部47可以在从对控制对象设备20(T)的控制开始起经过基准时间之前进行基于AI控制部45的控制，在经过基准时间之后进行基于反馈控制部46的控制。由此，能够防止控制对象设备20(T)的上升期间内的过冲或下冲而使测定值迅速地接近目标值。另外，由于在从对控制对象设备20(T)的控制开始起经过基准时间之后，进行基于反馈控制部46的控制，因此能够稳定地控制测定值。对控制对象设备20(T)的控制开始的定时可以是控制对象设备20(T)和控制装置4启动而开始基于控制装置4的控制的定时，也可以是一旦开始控制后，变更设定于控制装置4的目标值而新开始基于控制装置4的控制的定时。作为一例，基准时间可以是在通过反馈控制部46对控制对象设备20(T)进行了控制的情况下，从控制开始到过冲或下冲收敛为止的期间。

另外，说明了控制装置4具有通过反馈控制而输出与测定值相应的操作量的反馈控制部46，但也可以具有在反馈控制的基础上，或者代替反馈控制，通过前馈控制而输出与测定值相应的操作量的控制部。

另外，说明了控制装置4具有单个反馈控制部46的情况，但也可以具有多个反馈控制部46。上述多个反馈控制部46可以为了进行将反馈控制多重组合的级联控制而多级连接。可以向各级的反馈控制部46输入针对相同的控制对象设备20(T)的测定值，从前级的反馈控制部46输出的操作量可以作为目标值向下一级的反馈控制部46输入。在该情况下，AI控制部45可以向任一个反馈控制部46提供操作量，该反馈控制部46可以通过切换部47在手动模式与自动模式之间切换模式。另外，在反馈控制部46多级连接的情况下，控制装置4可以具有多个AI控制部45。这些多个AI控制部45可以分别向各个反馈控制部46提供操作量，这些反馈控制部46可以分别通过切换部47在手动模式与自动模式之间切换模式。多个AI控制部45的模型450可以实施相同的学习处理，也可以实施不同的学习处理。

另外，说明了切换部47通过切换反馈控制部46的模式来进行控制切换的情况，但也可以通过其他方法进行控制切换。例如，AI控制部45和反馈控制部46可以将计算出的操作量分别提供给切换部47，切换部47可以通过将向控制部49输出的操作量的供给源在AI控制部45与反馈控制部46之间进行切换来进行切换控制。

此外，可以参照流程图和框图对本发明的各种实施方式进行记载，其中，框可以表示(1)执行操作的过程的阶段，或(2)具有执行操作的作用的装置的部分。特定的阶段和部分可以通过专用电路、与保存在计算机可读介质上的计算机可读指令一起提供的可编程电路、及与保存在计算机可读介质上的计算机可读指令一起提供的处理器中的至少一个来实现。专用电路可以包括数字及模拟中的至少一方的硬件电路，也可以包括集成电路(IC)及分立电路中的至少一方。可编程电路可以包括可重构的硬件电路，其包含逻辑AND、逻辑OR、逻辑XOR、逻辑NAND、逻辑NOR及其他逻辑操作、诸如触发器、寄存器、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)等存储器元件等。

计算机可读介质可以包括能够保存由适当的设备执行的指令的任意的有形设备，其结果为，具有保存于其中的指令的计算机可读介质具备包含为了创建用于执行在流程图或框图中所指定的操作的单元而能够被执行的指令的产品。作为计算机可读介质的一例，可以包括电子存储介质、磁存储介质、光存储介质、电磁存储介质、半导体存储介质等。作为计算机可读介质的更具体的示例，可以包括软盘(注册商标)、磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、电可擦除可编程只读存储器(EEPROM)、静态随机存取存储器(SRAM)、压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、蓝光(RTM)盘、记忆棒、集成电路卡等。

计算机可读指令可以包括汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设定数据、及以一种或多种编程语言的任何组合编写的代码或目标代码中的任一种，所述编程语言包括诸如Smalltalk、JAVA(注册商标)、C++等面向对象的编程语言、及诸如“C”编程语言或类似的编程语言的现有的面向过程的编程语言。

计算机可读指令可以经由本地或局域网(LAN)、诸如因特网等广域网(WAN)提供给通用计算机、专用计算机或其他能够编程的数据处理装置的处理器或可编程电路，为了创建用于执行在流程图或框图中所指定的操作的单元，而执行计算机可读指令。作为处理器的示例，包括计算机处理器、处理单元、微处理器、数字信号处理器、控制器、微控制器等。

图5表示可以全部或部分地实现本发明的多个方式的计算机2200的示例。安装于计算机2200的程序能够使计算机2200作为与本发明的实施方式所涉及的装置相关联的操作或该装置的一个或多个部分发挥功能，或者能够使计算机2200执行该操作或该一个或多个部分，除此之外或取而代之，能够使计算机200执行本发明的实施方式所涉及的过程或该过程的阶段。这种程序可由CPU2212执行，以使计算机2200执行与本说明书所记载的流程图及框图的框中的一些或全部相关联的特定操作。

基于本实施方式的计算机2200包括CPU2212、RAM2214、图形控制器2216和显示设备2218，它们通过主机控制器2210相互连接。计算机2200还包括输入输出单元，诸如通信接口2222、硬盘驱动器2224、DVD-ROM驱动器2226和IC卡驱动器，它们经由输入输出控制器2220与主机控制器2210连接。计算机还包括传统的输入输出单元，诸如ROM2230和键盘2242，它们经由输入输出芯片2240与输入输出控制器2220连接。

CPU2212按照保存在ROM2230和RAM2214内的程序进行动作，由此控制各单元。图形控制器2216取得在RAM2214内所提供的帧缓冲器等或图形控制器2216自身中由CPU生成的图像数据，并使图像数据显示在显示设备2218上。

通信接口2222经由网络与其他电子设备进行通信。硬盘驱动器2224保存由计算机2200内的CPU2212使用的程序和数据。DVD-ROM驱动器2226从DVD-ROM2201读取程序或数据，并经由RAM2214向硬盘驱动器2224提供程序或数据。IC卡驱动器从IC卡读取程序和数据，并且在此基础上或取而代之，将程序和数据写入到IC卡。

ROM2230在其中保存在启动时由计算机2200执行的引导程序等、及依赖于计算机2200的硬件的程序中的至少一种。输入输出芯片2240还可以经由并行端口、串行端口、键盘端口、鼠标端口等将各种输入输出单元连接到输入输出控制器2220。

程序由诸如DVD-ROM2201或IC卡的计算机可读介质提供。程序被从计算机可读介质读取，安装于也是计算机可读介质的示例的硬盘驱动器2224、RAM2214或ROM2230，并由CPU2212执行。编写在这些程序中的信息处理被计算机2200读取，并提供程序与上述各种类型的硬件资源之间的协作。装置或方法可以通过按照计算机2200的使用实现信息的操作或处理来构成。

例如，在计算机2200与外部设备之间执行通信的情况下，CPU2212可以执行加载到RAM2214中的通信程序，并基于编写在通信程序中的处理，对通信接口2222命令通信处理。通信接口2222在CPU2212的控制下，读取保存在诸如在RAM2214、硬盘驱动器2224、DVD-ROM2201或IC卡的记录介质内所提供的发送缓冲处理区域中的发送数据，并将所读取的发送数据发送到网络，或者将从网络接收到的接收数据写入到在记录介质上所提供的接收缓冲处理区域等。

另外，CPU2212也可以将保存在诸如硬盘驱动器2224、DVD-ROM驱动器2226(DVD-ROM2201)、IC卡等外部记录介质中的文件或数据库的全部或必要的部分读取到RAM2214，并对RAM2214上的数据执行各种类型的处理。然后，CPU2212将经处理的数据回写到外部记录介质。

各种类型的信息，诸如各种类型的程序、数据、表和数据库可以保存于记录介质，并接受信息处理。CPU2212可以对从RAM2214读取的数据执行各种类型的处理，并将结果回写到RAM2214，所述处理包括在本公开的各处所记载的由程序的指令序列指定的各种类型的操作、信息处理、条件判断、条件分支、无条件分支、信息的检索、置换等。另外，CPU2212也可以检索记录介质内的文件、数据库等中的信息。例如，在具有分别与第二属性的属性值相关联的第一属性的属性值的多个条目保存在记录介质内的情况下，CPU2212可以从该多个条目中检索指定第一属性的属性值的、与条件一致的条目，并读取保存在该条目内的第二属性的属性值，由此取得与满足预先确定的条件的第一属性相关联的第二属性的属性值。

以上所说明的程序或软件模块可以保存在计算机2200上或计算机2200附近的计算机可读介质中。另外，在连接到专用通信网络或因特网的服务器系统内所提供的诸如硬盘或RAM的记录介质也可用作计算机可读介质，由此经由网络向计算机2200提供程序。

以上，使用实施方式对本发明进行了说明，但本发明的技术范围并不限定于上述实施方式所记载的范围。对于本领域技术人员显而易见的是，可以对上述实施方式加以各种变更或改良。根据权利要求书的记载可以明确，加以这样的变更或改良所得的方式也能够包含在本发明的技术范围内。

应当注意，对于在权利要求书、说明书和附图中示出的装置、系统、程序和方法中的动作、过程、步骤和阶段等各处理的执行顺序，只要没有特别明示为“之前”、“先”等，并且只要不是将在前的处理的输出用于在后的处理，则能够以任意的顺序实现。关于权利要求书、说明书及附图中的动作流程，即使为了方便而使用“首先”、“接着”等进行了说明，也并不意味着必须以该顺序实施。

Claims

1.一种控制装置，具备：

取得部，取得针对控制对象设备测定出的测定值；

第一控制部，通过反馈控制和前馈控制中的至少一方，输出与所述测定值相应的所述控制对象设备的操作量；

第二控制部，使用利用学习用数据进行学习所得的模型，输出与所述测定值相应的所述控制对象设备的操作量；以及

切换部，进行由所述第一控制部和所述第二控制部中的哪一个对所述控制对象设备进行控制的切换。

2.根据权利要求1所述的控制装置，其中，

所述切换部根据所述测定值与目标值之差进行所述切换。

3.根据权利要求2所述的控制装置，其中，

所述切换部根据在基准时间窗口内所述测定值与所述目标值之差多次变得比基准值大的情况，进行从基于所述第一控制部的控制向基于所述第二控制部的控制的切换。

4.根据权利要求1至3中任一项所述的控制装置，其中，

所述第一控制部输出基于所述测定值和目标值计算出的操作量，

所述第二控制部的所述模型使用包含所述测定值的测定数据和包含所述控制对象设备的操作量的学习数据进行学习，并根据测定数据的输入，输出为了提高由预先设定的奖励函数确定的奖励值而推荐的所述控制对象设备的操作量。

5.根据权利要求4所述的控制装置，其中，

所述奖励函数是所述测定值越接近一个目标值则所述奖励值越高的函数，

所述切换部根据基于所述一个目标值的阈值与所述测定值之间的比较结果进行所述切换。

6.根据权利要求5所述的控制装置，其中，

所述切换部使从基于所述第一控制部的控制向基于所述第二控制部的控制的切换所使用的阈值、和从基于所述第二控制部的控制向基于所述第一控制部的控制的切换所使用的阈值具有滞后特性。

7.根据权利要求1至4中任一项所述的控制装置，其中，

所述切换部在从对所述控制对象设备的控制开始起经过基准时间之前，使所述第二控制部进行控制，在从对所述控制对象设备的控制开始起经过所述基准时间之后，使所述第一控制部进行控制。

8.根据权利要求1至7中任一项所述的控制装置，其中，

所述第一控制部进行使用比例控制、积分控制及微分控制中的至少一个的反馈控制。

9.根据权利要求1至8中任一项所述的控制装置，其中，

所述第一控制部能够在自动模式和手动模式下进行动作，所述自动模式是根据所述测定值被输入的情况，计算与该测定值相应的所述控制对象设备的操作量并输出的模式，所述手动模式是根据应输出的所述操作量被输入的情况，输出该操作量的模式，

所述第二控制部将所述控制对象设备的操作量输入到所述第一控制部，

所述切换部通过切换所述第一控制部的模式来进行所述切换。

10.根据权利要求9所述的控制装置，其中，

所述第一控制部在从所述手动模式切换到所述自动模式的情况下，无扰动地控制切换前后的操作量。

11.一种控制方法，包括：

取得阶段，取得针对控制对象设备测定出的测定值；

第一控制阶段，通过反馈控制和前馈控制中的至少一方，输出与所述测定值相应的所述控制对象设备的操作量；

第二控制阶段，使用利用学习用数据进行学习所得的模型，输出与所述测定值相应的所述控制对象设备的操作量；以及

切换阶段，进行通过所述第一控制阶段和所述第二控制阶段中的哪一个对所述控制对象设备进行控制的切换。

12.一种记录介质，记录有使计算机作为如下各部发挥功能的控制程序：

取得部，取得针对控制对象设备测定出的测定值；