CN112947134A

CN112947134A - 装置、方法和记录介质

Info

Publication number: CN112947134A
Application number: CN202011214802.4A
Authority: CN
Inventors: 高见豪
Original assignee: Yokogawa Electric Corp
Current assignee: Yokogawa Electric Corp
Priority date: 2019-11-26
Filing date: 2020-11-04
Publication date: 2021-06-11
Anticipated expiration: 2040-11-04
Also published as: EP3828651A1; CN112947134B; JP2021086283A; EP3828651B1; JP7331660B2; US20210157280A1

Abstract

本发明提供装置、方法和记录介质。近年来，希望更适当地控制设备的要求不断提高。提供一种装置，其包括：第一取得部，取得由传感器测量的测量数据；以及第一学习处理部，使用学习数据执行第一模型的学习处理，所述学习数据包含由第一取得部取得的测量数据和表示至少一个控制对象设备的第一种控制内容的控制参数，所述第一模型根据测量数据的输入，输出表示为了提高由预先设定的回报函数确定的回报值而推荐的第一种控制内容的推荐控制参数。

Description

装置、方法和记录介质

技术领域

本发明涉及装置、方法和记录介质。

背景技术

以往，提出了控制设备的各种方法(例如参照专利文献1)。

现有技术文献

专利文献1：日本专利公开公报特开2018-202564号

但是，近年来希望更适当地控制设备的要求不断提高。

发明内容

为了解决上述课题，在本发明的第一方式中提供一种装置。装置可以包括取得由传感器测量的测量数据的第一取得部。装置可以包括第一学习处理部，该第一学习处理部使用学习数据执行第一模型的学习处理，该学习数据包含由第一取得部取得的测量数据和表示至少一个控制对象设备的第一种控制内容的控制参数，该第一模型根据测量数据的输入，输出表示为了提高由预先设定的回报函数确定的回报值而推荐的第一种控制内容的推荐控制参数。

装置可以还包括向第一模型供给由第一取得部取得的测量数据的第一供给部。装置可以还包括第一推荐控制参数取得部，该第一推荐控制参数取得部取得根据将测量数据供给到第一模型而由第一模型输出的推荐控制参数。装置可以还包括第一控制部，该第一控制部使用由第一推荐控制参数取得部取得的推荐控制参数，控制至少一个控制对象设备。

可以通过P控制、PI控制、PD控制和PID控制中的任意一种反馈控制对各控制对象设备进行控制。第一种控制内容可以是反馈控制的目标值。

可以通过PI控制、PD控制和PID控制中的任意一种反馈控制对各控制对象设备进行控制。第一种控制内容可以是预先与包含反馈控制的积分增益值和微分增益值中的至少一方和比例增益值的各增益组对应的识别信息中的用于反馈控制的增益组的识别信息。

可以通过P控制、PI控制、PD控制和PID控制中的任意一种反馈控制对各控制对象设备进行控制。第一种控制内容可以是反馈控制的比例增益值、积分增益值和微分增益值中的至少一个。

装置可以还包括取得由传感器测量的测量数据的第二取得部。装置可以还包括第二学习处理部，该第二学习处理部使用包含由第二取得部取得的测量数据和表示至少一个控制对象设备的第二种控制内容的控制参数的学习数据，执行第二模型的学习处理，该第二模型根据测量数据的输入，输出表示为了提高回报值而推荐的第二种控制内容的推荐控制参数。第二种控制内容可以是反馈控制的目标值。

装置可以还包含向第二模型供给由第二取得部取得的测量数据的第二供给部。装置可以还包括第二推荐控制参数取得部，该第二推荐控制参数取得部取得根据将测量数据供给到第二模型而由第二模型输出的推荐控制参数。装置可以还包括第二控制部，该第二控制部使用由第二推荐控制参数取得部取得的推荐控制参数，控制至少一个控制对象设备。

第一种控制内容可以是各控制对象设备的输出值。

第一取得部可以取得表示能够起到作为对至少一个控制对象设备的干扰的作用的物理量的测量数据。

第一取得部可以取得表示包括至少一个控制对象设备的设施的能量和原材料中的至少一方的消耗量的测量数据。

第一取得部可以分别取得包含至少一种测量数据的第一组测量数据和包含至少一种测量数据的第二组测量数据。在第一学习处理部中使用的回报函数可以是在第一组测量数据中的至少一个不满足基准条件的情况下，与第二组测量数据的各值无关而使回报值为0，在第一组测量数据分别满足基准条件的情况下，根据第二组测量数据的各值使回报值增减。

在本发明的第二方式中提供一种方法。方法可以包括取得由传感器测量的测量数据的第一取得阶段。方法可以包括第一学习处理阶段，该第一学习处理阶段使用学习数据执行第一模型的学习处理，该学习数据包含由第一取得阶段取得的测量数据和表示至少一个控制对象设备的第一种控制内容的控制参数，该第一模型根据测量数据的输入，输出表示为了提高由预先设定的回报函数确定的回报值而推荐的第一种控制内容的推荐控制参数。

在本发明的第三方式中提供一种记录有程序的记录介质。计算机通过执行程序发挥作为取得由传感器测量的测量数据的第一取得部的功能。计算机通过执行程序发挥作为第一学习处理部的功能，该第一学习处理部使用学习数据执行第一模型的学习处理，该学习数据包含由第一取得部取得的测量数据和表示至少一个控制对象设备的第一种控制内容的控制参数，该第一模型根据测量数据的输入，输出表示为了提高由预先设定的回报函数确定的回报值而推荐的第一种控制内容的推荐控制参数。

另外，上述发明的概要没有列举出本发明的所有必要特征。此外，这些特征组的子组合也可以成为发明。

附图说明

图1表示本实施方式的系统1。

图2表示本实施方式的装置4的学习阶段的动作。

图3表示本实施方式的装置4的运用阶段的动作。

图4表示系统1的应用例(1)。

图5表示系统1的应用例(2)。

图6表示系统1的应用例(3)。

图7表示变形例的系统1A。

图8表示可以整体或局部实现本发明的多种方式的计算机2200的例子。

附图标记说明

1系统，2设施，4装置，20设备，21传感器，40测量数据取得部，41控制参数取得部，42回报值取得部，44学习处理部，45模型，46供给部，47推荐控制参数取得部，49控制部，200管道，2200计算机，2201 DVD-ROM，2210主控制器，2212 CPU，2214 RAM，2216图形控制器，2218显示装置，2220输入输出控制器，2222通信接口，2224硬盘驱动器，2226 DVD-ROM驱动器，2230 ROM，2240输入输出芯片，2242键盘。

具体实施方式

下面，通过发明的实施方式对本发明进行说明，但是以下的实施方式并不限定权利要求书所涉及的发明。此外，在实施方式中说明的特征的组合的全部并不是发明的解决手段所必须的。

[1.系统1的构成]

图1表示本实施方式的系统1。系统1包括设施2和装置4。

[1-1.设施2]

设施2包括多个设备20。例如设施2可以是工厂，也可以是将多个设备20复合的复合装置。作为工厂，除了化学或生物等工业工厂以外，还可以列举对气田或油田等井口及其周边进行管理控制的工厂、对水力、火力、原子能等发电进行管理控制的工厂、对太阳光或风力等环境发电进行管理控制的工厂、以及对上下水或水坝等进行管理控制的工厂等。在本实施方式中，作为一例，设施2具有一个或多个设备20和一个或多个传感器21。

[1-1-1.设备20]

各设备20是器具、机械或装置，例如，可以是对设施2的工序中的压力、温度、pH、速度或流量等中的至少一个物理量进行控制的阀、泵、加热器、风扇、电动机、开关等执行器。

在本实施方式中，作为一例，在设施2中具备多个设备20。各设备20可以是相互不同种类，也可以是至少一部分的两个以上的设备20为相同种类。

可以经由未图示的网络从外部通过有线或无线方式对各设备20进行控制，或者也可以手动对各设备20进行控制。多个设备20中的至少一部分的设备20可以是由装置4控制的控制对象设备20(T)。在系统1具备多个控制对象设备20(T)的情况下，这些多个控制对象设备20(T)可以具有被联动控制的关系(作为一例，主从关系，不被独立控制的关系)。此外，各控制对象设备20(T)可以是相同种类的设备20，也可以是不同种类的设备20。

另外，可以对多个设备20中的至少一部分的设备20设置未图示的控制器。对设备20设置控制器，可以是在设备20内置控制器，也可以是在设备20外部连接控制器。控制器可以根据设定目标值(设定值)对设备20进行反馈控制，以降低该目标值与当前值的差。反馈控制可以是PI控制、PD控制和PID控制中的任意一种，也可以是P控制。

在进行PI控制、PD控制和PID控制中的任意一种反馈控制的情况下，作为一例，控制器可以分别对包含积分增益值和微分增益值中的至少一方和比例增益值的多个增益组，预先存储用于识别该增益组的识别信息(也称为增益组ID)。在这种情况下，控制器可以根据增益组ID的输入，使用与该增益组ID对应的增益组的各增益值进行反馈控制。

反馈控制的目标值和当前值可以表示设备20的输出值本身(作为一例，阀的开度)，也可以表示受到输出值的影响的值(作为一例，阀的下游侧的流体的流量)。

[1-1-2.传感器21]

各传感器21测量设施2内外的物理量。各传感器21可以将通过测量得到的测量数据供给到装置4。

在本实施方式中，作为一例，在设施2具备多个传感器21。由多个传感器21测量的多个测量数据可以包含外部环境数据、反馈控制用数据、运转状态数据和消耗量数据中的至少一个。

外部环境数据表示能够起到作为对控制对象设备20(T)的干扰的作用的物理量。例如，外部环境数据可以表示对控制对象设备20(T)的控制参数能够起到作为干扰作用的物理量(或其变动)。作为一例，外部环境数据可以表示设施2的外部空气的温度或湿度、日照、风向、风量、降水量、根据其他设备20的控制而变化的物理量等。外部环境数据可以用于检测干扰。

反馈控制用数据表示用于对各控制对象设备20(T)进行反馈控制的物理量。反馈控制用数据可以表示各控制对象设备20(T)的输出值，也可以表示根据输出值而变化的值。

运转状态数据表示对各控制对象设备20(T)进行控制的结果的运转状态。运转状态数据可以表示能够根据各控制对象设备20(T)的控制而变动的物理量，也可以表示各控制对象设备20(T)的输出值。运转状态数据可以与反馈控制用数据相同。

消耗量数据表示设施2的能量或原材料中的至少一方的消耗量。消耗量数据可以作为能量消耗量表示电力、燃料(作为一例为LPG)的消耗量。

[1-3.装置4]

装置4进行对各控制对象设备20(T)的学习。装置4可以是一个或多个计算机，也可以由PC等构成。装置4具有：测量数据取得部40、控制参数取得部41、回报值取得部42、学习处理部44、模型45、供给部46、推荐控制参数取得部47和控制部49。

[1-3-1.测量数据取得部40]

测量数据取得部40是第一取得部的一例，取得由传感器21测量的测量数据。测量数据取得部40可以取得分别由设施2所具备的多个传感器21测量的测量数据。测量数据取得部40可以取得表示装置4的各控制对象设备20(T)的控制周期内的测量值的平均值的测量数据，也可以取得表示每隔控制间隔的测量值(即控制周期的结束时机的测量值)的测量数据。在本实施方式中，作为一例，各控制对象设备20(T)的控制周期可以同步。测量数据取得部40可以从传感器21取得测量数据，也可以从确认了传感器21的操作员取得测量数据。测量数据取得部40可以将取得的测量数据供给到学习处理部44和供给部46。

[1-3-2.控制参数取得部41]

控制参数取得部41取得表示各控制对象设备20(T)的控制内容的控制参数。在系统1具备多个控制对象设备20(T)的情况下，控制参数可以表示这些多个控制对象设备20(T)的各控制内容。在本实施方式中，作为一例，控制参数取得部41从控制部49取得控制参数，但是也可以从操作员取得控制参数，还可以从各控制对象设备20(T)取得控制参数。控制参数取得部41可以将取得的控制参数供给到学习处理部44。

在此，各控制对象设备20(T)的控制内容可以是该控制对象设备20(T)的输出值，在对该控制对象设备20(T)进行反馈控制的情况下，可以是其目标值，也可以是反馈控制的比例增益值、积分增益值和微分增益值中的至少一个，还可以是反馈控制中使用的增益组的增益组ID。在学习处理部44中使用的控制参数可以表示这些种类的控制内容中的一种(也称为第一种)控制内容。

[1-3-3.回报值取得部42]

回报值取得部42取得在学习处理部44中的强化学习中使用的回报值。回报值可以是用于评价设施2的作业状态的值，也可以是由预先设定的回报函数确定的值。在此，函数是指具有使某集合的各要素与其他集合的各要素一对一地对应的规则的映射，例如可以是数学式，也可以是表。

回报函数可以根据测量数据的输入，输出对该测量数据所表示的状态进行评价的回报值。回报函数可以由操作员设定。回报值取得部42可以从使用回报函数的操作员取得回报值，也可以将来自传感器21的测量数据输入到回报函数来取得回报值。在回报值取得部42将测量数据输入到回报函数的情况下，回报函数可以存储在装置4的内部，也可以存储在外部。

[1-3-4.学习处理部44]

学习处理部44是第一学习处理部的一例，使用包含由测量数据取得部40取得的测量数据和由控制参数取得部41取得的控制参数的学习数据，执行模型45的学习处理。学习处理部44也可以使用来自回报值取得部42的回报值来执行模型45的学习处理。

[1-3-5.模型45]

模型45是第一模型的一例，根据测量数据的输入，输出表示为了提高回报值而推荐的控制内容的推荐控制参数。从模型45输出的推荐控制参数可以表示上述的第一种控制内容。在将与规定的时点(作为一例，当前)的设施2的作业状态对应的回报值(作为一例，将该时点的测量数据输入到回报函数而得到的回报值)作为基准回报值的情况下，提高回报值的控制内容可以是回报值比该基准回报值变高的控制内容。由此，回报值变高的控制内容因与当前时点相比改善了作业状态而被推荐为对控制对象设备20(T)的控制。但是，基准回报值也可以是固定值(作为一例，从回报值的最大值中减去了容许值的值)。

[1-3-6.供给部46]

供给部46是第一供给部的一例，将由测量数据取得部40取得的测量数据供给到模型45。

[1-3-7.推荐控制参数取得部47]

推荐控制参数取得部47是第一推荐控制参数取得部的一例，取得根据将测量数据供给到模型45而由模型45输出的推荐控制参数。推荐控制参数取得部47可以将取得的推荐控制参数供给到控制部49。

[1-3-8.控制部49]

控制部49是第一控制部的一例，使用由推荐控制参数取得部47取得的推荐控制参数，控制各控制对象设备20(T)。

控制部49可以通过将推荐控制参数供给到各控制对象设备20(T)，按照推荐控制参数所表示的控制内容对各控制对象设备20(T)进行控制。在各控制对象设备20(T)设置有控制器的情况下，控制部49也可以将推荐控制参数供给到该控制器。

控制部49可以以将各控制对象设备20(T)的输出值维持在控制周期内的方式控制各控制对象设备20(T)。在对控制对象设备20(T)进行反馈控制的情况下，控制周期也可以比反馈控制的周期时间长。

另外，控制部49还可以进行装置4的各部分的控制。例如，控制部49可以控制模型45的学习。

按照以上的系统1，使用包含传感器21的测量数据和表示各控制对象设备20(T)的第一种控制内容的控制参数的学习数据，执行模型45的学习处理，模型45根据测量数据的输入，输出表示为了提高回报值而推荐的第一种控制内容的推荐控制参数。因此，通过输入测量数据，能够取得提高回报值的推荐控制参数，因此不需要由熟练的操作员进行反复尝试就能够取得适当的推荐控制参数，而且能够适当地对控制对象设备20(T)进行控制。

此外，取得表示能够起到作为对控制对象设备20(T)的干扰的作用的物理量的测量数据，因此即使在产生干扰的情况下也能够取得适当的推荐控制参数。

此外，取得表示包括控制对象设备20(T)的设施2的能量和原材料中的至少一方的消耗量的测量数据，因此能够取得与消耗量对应的适当的推荐控制参数。

此外，使用根据将测量数据供给到模型45而输出的推荐控制参数，控制各控制对象设备20(T)，因此不需要由熟练的操作员进行反复尝试就能够通过适当的控制参数自动地控制各控制对象设备20(T)。

[2.动作]

[2-1.学习阶段]

图2表示本实施方式的装置4的学习阶段的动作。装置4通过进行步骤S11～S25的处理，使设施2边工作边进行模型45的学习。

首先，在步骤S11中，测量数据取得部40取得由各传感器21测量的测量数据。由此，取得初始状态的测量数据。测量数据取得部40可以将测量数据存储于学习处理部44。

在步骤S13中，控制部49确定表示各控制对象设备20(T)的控制内容的控制参数。控制部49可以确定下一控制周期的控制参数，在本实施方式中，作为一例，可以确定下次进行后述的步骤S15时使用的控制参数。确定的控制参数可以是提高回报值的，也可以是降低回报值的，还可以是被确定为与回报值无关的。控制部49可以根据操作员的操作来确定控制参数。代替于此，控制部49也可以将从模型45输出的推荐控制参数确定为控制参数。

例如，在最初进行步骤S13的处理的情况下，控制部49可以将根据将在步骤S11中取得的测量数据输入到模型45而从模型45输出的推荐控制参数，确定为下一控制周期中的控制参数。在反复进行步骤S13～S19的处理而进行了多次步骤S13的处理的情况下，控制部49可以将根据将在最后进行的步骤S17的处理中取得的测量数据输入到模型45而从模型45输出的推荐控制参数，确定为下一控制周期中的控制参数。在进行多次步骤S13的处理的情况下，可以在多个步骤S13的处理中的至少一部分的处理之间确定不同的控制参数。

在步骤S15中，控制部49将控制参数输出到各控制对象设备20(T)来控制各控制对象设备20(T)。控制部49可以经由控制参数取得部41将控制参数存储于学习处理部44。控制部49也可以将控制参数与在各控制对象设备20(T)的控制前由测量数据取得部40取得的测量数据对应着存储于学习处理部44。由此，包含测量数据和控制参数的学习数据存储于学习处理部44。

另外，在最初进行步骤S15的处理的情况下，在控制对象设备20(T)的控制前取得的测量数据可以是在上述步骤S11的处理中取得的测量数据。在反复进行步骤S13～S19的处理而进行了多次步骤S15的处理的情况下，在控制对象设备20(T)的控制前取得的测量数据可以是在最后进行的步骤S17的处理中取得的测量数据。

在步骤S17中，测量数据取得部40取得由各传感器21测量的测量数据。由此，取得按照由控制参数表示的控制内容对各控制对象设备20(T)进行控制时的测量数据。

在步骤S19中，回报值取得部42取得由回报函数确定的回报值。在此，在由测量数据取得部40取得的测量数据中可以分别包含第一组测量数据和第二组测量数据，在各组的测量数据中可以包含至少一种测量数据。在第一组测量数据中的至少一个不满足基准条件的情况下，回报函数可以与第二组测量数据的各值不相关而将回报值作为0。此外，在第一组测量数据分别满足基准条件的情况下，回报函数可以根据第二组测量数据的各值使回报值增减。

第一组测量数据可以是运转状态数据，第一组测量数据的基准条件可以是在设施2中最低限度应达成的条件。例如，在设施2是化学产品等产品的制造工厂的情况下，第一组测量数据可以表示工厂内的温度、湿度，测量数据的基准条件可以是为了保持产品的质量而应维持的温度范围、湿度范围。此外，第二组测量数据可以是消耗量数据。在这种情况下，可以是消耗量越多，回报值越少。由此，进行学习处理以削减消耗量。

回报值取得部42可以将取得的回报值存储于学习处理部44。回报值取得部42也可以将回报值与在最后进行的步骤S15的处理中存储的学习数据对应存储。

在步骤S21中，控制部49判断步骤S13～S19的处理是否进行了基准步骤数。在判断为没有进行基准步骤数的处理的情况下(步骤S21；否)，处理转移至步骤S13。由此，对测量数据或控制参数中的至少一方不同的学习数据进行基准步骤数的取样并与回报值一起存储。另外，在反复进行步骤S13～S19的处理的情况下，步骤S13的周期(即控制周期)可以根据设施2的时间常数确定，作为一例可以是5分钟。在步骤S21中，在判断为进行了基准步骤数的处理的情况下(步骤S21；是)，处理转移至步骤S23。

在步骤S23中，学习处理部44分别使用对应存储的学习数据和回报值的组来进行模型45的学习处理。由此，更新模型45。另外，学习处理部44也可以进行按照最速下降法、神经网络，DQN(Deep Q-Network深度强化学习)、高斯过程、深度学习等公知方法进行的学习处理。学习处理部44可以以越是回报值变高的控制参数则越优先输出为推荐控制参数的方式进行模型45的学习处理。

在学习处理后的模型45中可以将权重系数与包含测量数据和控制参数的学习数据对应存储。可以根据对应的学习数据内的控制参数用于控制时的回报值的高低来设定权重系数，权重系数可以用于预测该控制参数用于控制时的回报值。

在步骤S25中，控制部49判断步骤S13～S23的处理是否进行了基准重复(迭代)数。在判断为没有进行基准重复数的处理的情况下(步骤S25；否)，处理转移至步骤S11。在判断为进行了基准迭代数的处理的情况下(步骤S25；是)，处理结束。

按照以上的动作，在第一组测量数据的至少一个不满足基准条件的情况下，回报函数与第二组测量数据的各值无关而将回报值作为0，在第一组测量数据分别满足基准条件的情况下，回报函数根据第二组测量数据的各值使回报值增减。因此，能够以在第一组测量数据满足基准条件的前提下优先输出回报值升高的控制参数的方式进行模型45的学习处理。

此外，在将从模型45输出的推荐控制参数确定为下一控制周期的控制参数的情况下，按照推荐控制参数对各控制对象设备20(T)进行控制并取得与控制对应的测量数据，因此使用包含推荐控制参数的学习数据和与该控制结果对应的回报值进行模型45的学习处理。因此，能够依次进行按照推荐控制参数进行控制时的模型45的学习处理，提高学习精度。

[2-2.运用阶段]

图3表示本实施方式的装置4的运用阶段的动作。装置4通过进行步骤S31～S37的处理，使用模型45使设施2工作。

在步骤S31中测量数据取得部40取得由各传感器21测量的测量数据。由此，取得初始状态的测量数据。测量数据可以从供给部46供给到模型45。

在步骤S33中，推荐控制参数取得部47取得根据将测量数据供给到模型45而由模型45输出的推荐控制参数。在此，模型45输出表示为了提高回报值而推荐的控制内容的推荐控制参数。在本实施方式中，作为一例，模型45可以分别对包含在学习数据内的控制参数计算该控制参数用于控制时预测的回报值(也称为预测回报值)。

模型45可以对表示相同的控制内容的每个控制参数计算预测回报值。例如，模型45可以从多个学习数据中提取包含表示一个控制内容的控制参数的各学习数据。模型45可以将根据表示当前时点的状态的测量数据(在本实施方式中作为一例为在最后进行的步骤S33的处理中取得的测量数据)与学习数据内的测量数据的距离对与提取的各学习数据对应的各权重系数进行加权相加的结果，作为对于表示该一个控制内容的控制参数的预测回报值。模型45可以以测量数据间的距离越大则权重越小的方式(即以对回报值的影响变小的方式)设定加权的大小。

模型45可以将预测回报值越高的控制参数，越优先作为推荐控制参数。但是，模型45也不是必须将预测回报值最高的控制参数作为推荐控制参数。

在步骤S35中，控制部49将推荐控制参数输出到各控制对象设备20(T)来控制各控制对象设备20(T)。另外，在通过推荐控制参数对控制对象设备20(T)进行控制的情况下，在控制结果超出容许范围的情况下，控制部49可以变更推荐控制参数，以使控制结果成为容许范围内。例如，在推荐控制参数表示控制对象设备20(T)的输出值的情况下，在该输出值超过操作量的上限值(或低于下限值)时，控制部49可以输出表示上限值(或下限值)的推荐控制参数。

在步骤S37中，测量数据取得部40取得由各传感器21测量的测量数据。由此，取得各控制对象设备20(T)按照推荐控制参数进行控制的状态下的测量数据。如果步骤S37的处理结束，则装置4可以使处理转移至步骤S33。

按照以上的动作，不需要由熟练的操作员进行反复尝试，能够通过适当的控制参数自动地控制各控制对象设备20(T)。

[3.应用例]

[3-1.应用例(1)]

图4表示系统1的应用例(1)。另外，在本图、后述的图5、图6中，以简化方式图示了装置4的构成。

在本应用例中，设施2是工厂用的空调机，向管道200内吸入外部空气，将调温、调湿后的空气供给到工厂的房间或其他空调机。

在设施2设置有作为控制对象设备20(T)的阀B1～B4。阀B1调节管道200内的加热量，阀B2调节管道200内的冷却量，阀B3调节管道200内的加湿量，阀B4调节管道200内的除湿量。

此外，在设施2设置有作为传感器21的湿度传感器21a、21b、温度传感器21c、21d、开度传感器21e、日照传感器21f、风向传感器21g、风量传感器21h、使用电力传感器21i、使用LPG传感器21j等。湿度传感器21a、温度传感器21c测量吸入到管道200内的外部空气的湿度、温度。湿度传感器21b、温度传感器21d测量从管道200释放的调节后的空气的湿度、温度。开度传感器21e分别测量阀B1～B4的开度(输出值)。日照传感器21f、风向传感器21g、风量传感器21h测量设置有设施2的工厂外部的日照量、风向、风量。使用电力传感器21i测量设施2的使用电力量。使用LPG传感器21j测量设施2的使用LPG量。

装置4的学习处理部44使用包含由这些传感器21a～21j测量的测量数据和表示各阀B1～B4的控制内容的控制参数的学习数据，执行模型45的学习处理。在本应用例中，作为一例，控制参数表示阀B1～B4的输出值即开度。如果表示输出值即开度的值作为控制参数通过电信号等从装置4发送，则阀B1～B4以成为与该值对应的开度的方式开关。在学习处理中使用的回报值，在调节后的空气的温度和湿度中的至少一方没有维持在基准范围内的情况下，可以是0，并且在调节后的空气的温度、湿度分别维持在基准范围内的情况下，可以是使用电力量和使用LPG量越少、则成为越高的值。

此外，装置4的控制部49从模型45取得表示阀B1～B4的输出值的推荐控制参数来控制阀B1～B4。

按照以上的应用例，控制参数表示的控制内容是各控制对象设备20(T)的输出值，因此能够直接控制各控制对象设备20(T)的输出值。

[3-2.应用例(2)]

图5表示系统1的应用例(2)。

在本应用例中，作为一例，在阀B1～B4设置有PID控制用的控制器C1～C4。控制器C1～C4分别根据将调节后的空气的温度、湿度设定为目标值(设定值)，以降低该目标值与当前值(在本应用例中作为一例为温度传感器21c、湿度传感器21a的测量值)的差的方式，对相应的阀B1～B4进行PID控制。各控制器C1～C4预先存储有比例增益值、积分增益值和微分增益值。

控制参数表示阀B1～B4的PID控制的目标值、即调节后的空气的温度、湿度。因此，装置4的学习处理部44使用学习数据，执行模型45的学习处理，所述学习数据包含表示各阀B1～B4的PID控制的目标值的控制参数和由传感器21a～21j测量的测量数据。此外，装置4的控制部49从模型45取得表示各阀B1～B4的PID控制的目标值的推荐控制参数，并且经由控制器C1～C4控制阀B1～B4。

按照以上的应用例，控制参数所表示的控制内容是各控制对象设备20(T)的PID控制的目标值，因此能够通过PID控制进行各控制对象设备20(T)的控制，并且每次变更该目标值。

另外，在本变形例中，控制参数也可以表示PID控制的比例增益值、积分增益值和微分增益值中的至少一个。在这种情况下，能够通过PID控制进行控制对象设备的控制，并且每次变更该增益(在本应用例中在控制器C1～C4中使用的增益)。另外，可以由操作员适当地进行目标值的设定。

[3-3.应用例(3)]

图6表示系统1的应用例(3)。

在本应用例中，作为一例，阀B1～B4的控制器C1～C4分别存储两个包含比例增益值、积分增益值和微分增益值的增益组，切换用于PID控制的增益组并进行PID控制。预先将用于识别增益组的增益组ID与各增益组对应。

控制参数表示增益组ID。因此，装置4的学习处理部44使用学习数据执行模型45的学习处理，所述学习数据包含表示用于各阀B1～B4的PID控制的增益组的增益组ID的控制参数和由传感器21a～21j测量的测量数据。此外，装置4的控制部49从模型45取得推荐控制参数，并且经由控制器C1～C4控制阀B1～B4，所述推荐控制参数表示用于各阀B1～B4的PID控制的增益组的增益组ID。例如，控制部49可以将取得的增益组ID发送到控制器C1～C4。由此，控制器C1～C4确定与接收到的增益组ID对应的增益组，使用该增益组内的各增益值进行PID控制。

按照以上的应用例，控制参数所表示的控制内容是预先与PID控制的各增益组对应的增益组ID中的用于PID控制的增益组的增益组ID，因此能够通过PID控制进行控制对象设备20(T)的控制，并且每次统一变更该各增益。由此，例如，通过预先将与各状态(作为一例，通常运转状态和天气突变状态的各状态等)对应的各增益组存储于控制器C1～C4，能够每次与当前时点的状态配合来变更各增益。

另外，在上述应用例(1)～(3)中，说明了将设施2作为工厂用的空调机、将控制对象设备20(T)作为阀B1～B4，但是系统1的适用对象并不限于此。例如，设施2可以包括：与多个供给管和至少一个排出管连接的容器、作为设置于任意管的控制对象设备20的阀、各管的流量计或容器的水位计等传感器21等。在多个供给管中的至少一部分中供给量可以突发地变动。在这种情况下，装置4的学习处理部44可以使用包含传感器21的测量数据和表示作为控制对象设备20(T)的阀的控制内容的控制参数的学习数据，执行模型45的学习处理。用于学习处理的回报值，在容器的水位、排出管的流量没有维持在基准范围内的情况下可以为0，并且在维持在基准范围内的情况下可以根据其他测量数据而增减。装置4的控制部49可以从模型45取得表示阀的控制内容的推荐控制参数来控制阀。

[4.变形例]

图7表示变形例的系统1A。

系统1A的装置4A还包括：学习处理部44A、模型45A、供给部46A、推荐控制参数取得部47A和控制部49A。

学习处理部44A是第二学习处理部的一例，使用包含由测量数据取得部40取得的测量数据和由控制参数取得部41取得的控制参数的学习数据，执行模型45A的学习处理。学习处理部44A可以使用来自回报值取得部42的回报值来执行模型45的学习处理。另外，在本变形例中，测量数据取得部40也是第二取得部的一例，取得在模型45A的学习处理中使用的学习数据所包含的测量数据。

在学习处理部44、44A中使用的学习数据内的各测量数据可以相同，也可以在至少一部分中不同。例如，在学习处理部44、44A中使用的学习数据之间，测量的传感器21可以不同。在学习处理部44、44A中使用的学习数据之间至少一部分的测量数据不同的情况下，在装置4A中也可以独立于取得用于向学习处理部44供给的测量数据的测量数据取得部40，具备取得用于向学习处理部44A供给的测量数据的测量数据取得部(未图示)。

在学习处理部44、44A中使用的学习数据内的控制参数可以表示相同的控制对象设备20(T)的多种控制内容中的相互不同的控制内容。例如，在学习处理部44中使用的学习数据内的控制参数表示控制对象设备20(T)的第一种控制内容的情况下，在学习处理部44A中使用的学习数据内的控制参数可以表示该控制对象设备20(T)的第二种控制内容。

在本实施方式中，作为一例，第一种控制内容可以是用于控制对象设备20(T)的反馈控制的增益组的增益组ID，也可以是反馈控制的比例增益值、积分增益值和微分增益值中的至少一个。第二种控制内容可以是反馈控制的目标值。

模型45A是第二模型的一例，根据测量数据的输入，输出表示为了提高回报值而推荐的控制内容的推荐控制参数。从模型45A输出的推荐控制参数可以表示上述第二种控制内容。

供给部46A是第二供给部的一例，将由测量数据取得部40取得的测量数据供给到模型45A。

推荐控制参数取得部47A是第二推荐控制参数取得部的一例，取得根据将测量数据供给到模型45A而由模型45A输出的推荐控制参数。推荐控制参数取得部47A可以将取得的推荐控制参数供给到控制部49A。

控制部49A是第二控制部的一例，使用由推荐控制参数取得部47A取得的推荐控制参数来控制各控制对象设备20(T)。控制部49A除了使用表示不同种类的控制内容的推荐控制参数以外，可以与控制部49同样地进行控制。

按照以上的系统1A，能够使用模型45通过反馈控制进行控制对象设备20(T)的控制并每次变更该各增益，并且使用模型45A每次变更反馈控制的目标值。

[5.其他变形例]

另外，在上述实施方式和变形例中，说明了系统1(或系统1A)包括单一的装置4(或装置4A)，但是也可以包括多个装置4(或装置4A)。在这种情况下，在各装置4(或装置4A)之间，控制对象设备20(T)可以相同，也可以不同。作为一例，在系统1、1A中，可以对每个设备20具备将该设备20作为控制对象设备20(T)的装置4、4A。

此外，说明了装置4具有控制参数取得部41、回报值取得部42、学习处理部44、模型45、供给部46、推荐控制参数取得部47和控制部49，但是也可以不具有它们中的至少一个。在装置4不具有学习处理部44的情况下，装置4可以不进行模型45的学习处理而使用学习处理后的模型45进行对控制对象设备20(T)的控制。在装置4不具有模型45的情况下，模型45可以存储于装置4的外部的服务器。在装置4不具有供给部46、推荐控制参数取得部47和控制部49的情况下，装置4可以不进行使用模型45的控制对象设备20(T)的控制。

同样，说明了装置4A具有控制参数取得部41、回报值取得部42、学习处理部44、44A、模型45、45A、供给部46、46A、推荐控制参数取得部47、47A和控制部49、49A，但是也可以不具有它们中的至少一个。

此外，本发明的各种实施方式可以参照流程图和框图进行记载，在此模块可以表示(1)执行操作的过程的阶段或(2)具有执行操作的作用的装置的部分。特定的阶段和部分可以通过专用电路、与存储在计算机可读介质上的计算机可读指令一起供给的可编程电路和与存储在计算机可读介质上的计算机可读指令一起供给的处理器中的至少一个来实现。专用电路可以包括数字和模拟中的至少一方的硬件电路，也可以包括集成电路(IC)和分立电路中的至少一个。可编程电路可以包括可重构硬件电路，该可重构硬件电路包括逻辑AND、逻辑OR、逻辑XOR、逻辑NAND、逻辑NOR和其他逻辑操作、触发器、寄存器、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)等存储器元件等。

计算机可读介质可以包括能够存储由适当的设备执行的指令的任意的有形设备，其结果，具有存储在其中的指令的计算机可读介质包括包含为了制作用于执行由流程图或框图指定的操作的手段而能够执行的指令的产品。作为计算机可读介质的例子可以包括：电子存储介质、磁存储介质、光存储介质、电磁存储介质、半导体存储介质等。作为计算机可读介质的更具体的例子可以包括：软(注册商标)盘、磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存器)、电可擦除可编程只读存储器(EEPROM)、静态随机存取存储器(SRAM)、光盘只读存储器(CD-ROM)、数字多用途盘(DVD)、蓝光(RTM)碟、存储棒、集成电路卡等。

计算机可读指令包括由包括汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微码、固件指令、状态设定数据、或Smalltalk、JAVA(注册商标)、C++等面向对象编程语言、和“C”编程语言或同样的编程语言那样的现有的过程型编程语言的一个或多个编程语言的任意组合描述的代码和目标代码中的任意一个。

计算机可读指令可以经由本地或局域网(LAN)、互联网等广域网(WAN)提供给通用计算机、特殊目的的计算机或其他可编程的数据处理装置的处理器或可编程电路，并且为了制作用于执行由流程图或框图指定的操作的手段而执行计算机可读指令。作为处理器的例子包括：计算机处理器、处理单元、微处理器、数字信号处理器、控制器、微控制器等。

图8表示可以整体或局部实现本发明的多种方式的计算机2200的例子。通过安装于计算机2200的程序，计算机2200能够发挥作为与本发明的实施方式的装置相关联的操作或该装置的一个或多个部分的功能、或者执行该操作或该一个或多个部分，在此基础上或代替于此，计算机2200执行本发明的实施方式的过程或该过程的阶段。为了使计算机2200执行与本说明书记载的流程图和框图的模块中的几个或全部相关联的特定的操作，可以由CPU2212执行这种程序。

本实施方式的计算机2200包括CPU2212、RAM2214、图形控制器2216和显示装置2218，它们通过主控制器2210相互连接。计算机2200还包括通信接口2222、硬盘驱动器2224、DVD-ROM驱动器2226和IC卡驱动器那样的输入输出单元，它们经由输入输出控制器2220与主控制器2210连接。计算机还包括ROM2230和键盘2242那样的传统的输入输出单元，它们经由输入输出芯片2240与输入输出控制器2220连接。

CPU2212按照存储在ROM2230和RAM2214内的程序而动作，由此控制各单元。图形控制器2216获取提供到RAM2214内的帧缓存器等或在其自身中由CPU2212生成的图像数据，并且在显示装置2218上显示图像数据。

通信接口2222能够经由网络与其他电子设备进行通信。硬盘驱动器2224存储由计算机2200内的CPU2212使用的程序和数据。DVD-ROM驱动器2226从DVD-ROM2201读取程序或数据，经由RAM2214向硬盘驱动器2224提供程序或数据。IC卡驱动器从IC卡读取程序和数据，在此基础上或代替于此，将程序和数据写入IC卡。

ROM2230在其中存储激活时由计算机2200执行的引导程序等和依赖于计算机2200的硬件的程序中的至少一个。输入输出芯片2240也可以经由并行端口、串行端口、键盘端口、鼠标端口等使各种输入输出单元与输入输出控制器2220连接。

由DVD-ROM2201或IC卡那样的计算机可读介质提供程序。程序从计算机可读介质读取，并且安装于也作为计算机可读介质的例子的硬盘驱动器2224、RAM2214或ROM2230，并由CPU2212执行。在这些程序内描述的信息处理被读取到计算机2200，从而带来程序与上述各种类型的硬件资源之间的协作。装置或方法可以通过伴随计算机2200的使用来实现信息的操作或处理而构成。

例如，在计算机2200和外部设备之间执行通信的情况下，CPU2212可以执行加载于RAM2214的通信程序，基于在通信程序中描述的处理对通信接口2222指示通信处理。通信接口2222在CPU2212的控制下，读取存储于在RAM2214、硬盘驱动器2224、DVD-ROM2201或IC卡那样的记录介质内提供的发送缓冲处理区域的发送数据，将读取到的发送数据发送到网络，或者将从网络接收到的接收数据写入到在记录介质上提供的接收缓冲处理区域等。

此外，CPU2212可以将存储于硬盘驱动器2224、DVD-ROM驱动器2226(DVD-ROM2201)、IC卡等那样的外部记录介质的文件或数据库的全部或必要的部分读取到RAM2214，并对RAM2214上的数据执行各种类型的处理。接着，CPU2212将处理后的数据写回到外部记录介质。

如各种类型的程序、数据、表和数据库那样的各种类型的信息可以存储于记录介质并接受信息处理。CPU2212对从RAM2214读取的数据执行本公开各处记载的各种类型的处理并将结果写回到RAM2214，该各种类型的处理包括由程序的指令序列指定的各种类型的操作、信息处理、条件判断、条件分支、无条件分支、信息的检索、置换等。此外，CPU2212可以检索记录介质内的文件、数据库等中的信息。例如，在分别具有与第二属性的属性值相关联的第一属性的属性值的多个条目存储在记录介质内的情况下，CPU2212可以从该多个条目中检索与指定第一属性的属性值的条件一致的条目，并且读取存储在该条目内的第二属性的属性值，由此获取与满足预先确定的条件的第一属性相关联的第二属性的属性值。

以上说明的程序或软件模块可以存储在计算机2200上或计算机2200附近的计算机可读介质中。此外，在与专用通信网络或互联网连接的服务器系统内提供的硬盘或RAM那样的记录介质能够用作计算机可读介质，由此，经由网络将程序提供给计算机2200。

以上，利用实施方式对本发明进行了说明，但是本发明的技术范围并不限定于上述实施方式记载的范围。对本领域技术人员而言能够对上述实施方式进行各种变更或改良是显而易见的。根据权利要求书的记载可知，进行了这种变更或改良的方式也可以包含于本发明的技术范围。

在权利要求书、说明书和附图中所示的装置、系统、程序和方法中的动作、过程、步骤和阶段等各处理的执行顺序没有特别明示为“更早”、“之前”等，此外，应注意的是只要在后一处理中没有使用前一处理的输出，则能够以任意的顺序实现。关于权利要求书、说明书和附图中的动作流程，即使为了便于说明而使用“首先，”、“接着，”等进行了说明，也不意味着必须按照该顺序实施。

Claims

1.一种装置，其特征在于包括：

第一取得部，取得由传感器测量的测量数据；以及

第一学习处理部，使用学习数据执行第一模型的学习处理，所述学习数据包含由所述第一取得部取得的测量数据和表示至少一个控制对象设备的第一种控制内容的控制参数，所述第一模型根据测量数据的输入，输出表示为了提高由预先设定的回报函数确定的回报值而推荐的所述第一种控制内容的推荐控制参数。

2.根据权利要求1所述的装置，其特征在于还包括：

第一供给部，向所述第一模型供给由所述第一取得部取得的所述测量数据；

第一推荐控制参数取得部，取得根据将所述测量数据供给到所述第一模型而由所述第一模型输出的所述推荐控制参数；以及

第一控制部，使用由所述第一推荐控制参数取得部取得的所述推荐控制参数，控制所述至少一个控制对象设备。

3.根据权利要求1或2所述的装置，其特征在于，

通过P控制、PI控制、PD控制和PID控制中的任意一种反馈控制对各控制对象设备进行控制，

所述第一种控制内容是反馈控制的目标值。

4.根据权利要求1或2所述的装置，其特征在于，

通过PI控制、PD控制和PID控制中的任意一种反馈控制对各控制对象设备进行控制，

所述第一种控制内容是预先与包含反馈控制的积分增益值和微分增益值中的至少一方和比例增益值的各增益组对应的识别信息中的用于反馈控制的增益组的识别信息。

5.根据权利要求1或2所述的装置，其特征在于，

所述第一种控制内容是反馈控制的比例增益值、积分增益值和微分增益值中的至少一个。

6.根据权利要求4或5所述的装置，其特征在于，

还包括：

第二取得部，取得由传感器测量的测量数据；以及

第二学习处理部，使用包含由所述第二取得部取得的测量数据和表示所述至少一个控制对象设备的第二种控制内容的控制参数的学习数据，执行第二模型的学习处理，所述第二模型根据测量数据的输入，输出表示为了提高所述回报值而推荐的所述第二种控制内容的推荐控制参数，

所述第二种控制内容是反馈控制的目标值。

7.根据权利要求6所述的装置，其特征在于还包括：

第二供给部，向所述第二模型供给由所述第二取得部取得的所述测量数据；

第二推荐控制参数取得部，取得根据将所述测量数据供给到所述第二模型而由所述第二模型输出的所述推荐控制参数；以及

第二控制部，使用由所述第二推荐控制参数取得部取得的所述推荐控制参数，控制所述至少一个控制对象设备。

8.根据权利要求1或2所述的装置，其特征在于，所述第一种控制内容是各控制对象设备的输出值。

9.根据权利要求1至8中任意一项所述的装置，其特征在于，所述第一取得部取得表示能够起到作为对所述至少一个控制对象设备的干扰的作用的物理量的所述测量数据。

10.根据权利要求1至9中任意一项所述的装置，其特征在于，所述第一取得部取得表示包括所述至少一个控制对象设备的设施的能量和原材料中的至少一方的消耗量的所述测量数据。

11.根据权利要求1至10中任意一项所述的装置，其特征在于，

所述第一取得部分别取得包含至少一种测量数据的第一组测量数据和包含至少一种测量数据的第二组测量数据，

在所述第一学习处理部中使用的所述回报函数，在所述第一组测量数据中的至少一个不满足基准条件的情况下，与所述第二组测量数据的各值无关而使所述回报值为0，在所述第一组测量数据分别满足基准条件的情况下，根据所述第二组测量数据的各值使所述回报值增减。

12.一种方法，其特征在于包括：

第一取得阶段，取得由传感器测量的测量数据；以及

第一学习处理阶段，使用学习数据执行第一模型的学习处理，所述学习数据包含由所述第一取得阶段取得的测量数据和表示至少一个控制对象设备的第一种控制内容的控制参数，所述第一模型根据测量数据的输入，输出表示为了提高由预先设定的回报函数确定的回报值而推荐的所述第一种控制内容的推荐控制参数。

13.一种记录有程序的记录介质，其特征在于，

计算机通过执行所述程序发挥作为第一取得部和第一学习处理部的功能，

所述第一取得部取得由传感器测量的测量数据，

所述第一学习处理部使用学习数据执行第一模型的学习处理，所述学习数据包含由所述第一取得部取得的测量数据和表示至少一个控制对象设备的第一种控制内容的控制参数，所述第一模型根据测量数据的输入，输出表示为了提高由预先设定的回报函数确定的回报值而推荐的所述第一种控制内容的推荐控制参数。