CN110837893B

CN110837893B - 装置、方法和存储介质

Info

Publication number: CN110837893B
Application number: CN201910759836.2A
Authority: CN
Inventors: 鹿子木宏明; 藤崎守广; 高见豪; 古川阳太; 松原崇充; 崔允端; 朱令纬
Original assignee: Nara Institute of Science and Technology NUC; Yokogawa Electric Corp
Current assignee: Nara Institute of Science and Technology NUC; Yokogawa Electric Corp
Priority date: 2018-08-17
Filing date: 2019-08-16
Publication date: 2023-10-10
Anticipated expiration: 2039-08-16
Also published as: JP2020027556A; JP7011239B2; EP3620868A1; US11119451B2; EP3620868B1; US20200057416A1; CN110837893A

Abstract

如果单纯地进行机器学习，则要学习的参数的数量变得庞大，造成到学习收敛为止需要不切实际的长时间或者造成学习无法收敛，其结果会导致无法算出为操作设备推荐的控制条件。为此，本发明提供一种装置，其中包括多个智能体，将设施中设置的多个设备的一部分分别作为对象设备。多个智能体中的每一个具有：状态获取单元，获取表示设施的状态的状态数据；控制条件获取单元，获取表示各个对象设备的控制条件的控制条件数据；以及学习处理单元，使用包括状态数据和控制条件数据的学习数据执行模型的学习处理，该模型对应于状态数据的输入，输出表示各个对象设备的被推荐的控制条件的推荐控制条件数据。

Description

装置、方法和存储介质

技术领域

本发明涉及一种装置、方法和存储介质。

背景技术

传统上，在工厂等的设施中，已经构造了分布式控制系统(DCS：分布式控制系统)，其中传感器或操作装置以及控制它们的控制装置通过通信装置连接，通过DCS实现了高度自动化的操作。在这样的设施中，通过传感器测量设施的产量、运行状态、警报发生状况等，测量结果由DCS收集并由操作面板或监视终端的监视器等监视装置进行显示。在增减设施的产量时，对设施的运行状态进行监视的面板操作员向被称为现场操作员的工作人员指示调整诸如阀等的操作设备。近来，为了通过机器学习来优化这种操作设备等的调整，已经研究了算出为各个操作设备推荐的控制条件以使设施的操作自动化的技术(例如，参见专利文献1)。

专利文献1：日本专利申请公开No.2014-174993号公报

发明内容

发明要解决的问题:

然而，如果单纯地进行机器学习，则要学习的参数数量变得庞大，造成到学习收敛为止需要不切实际的长时间或者造成学习无法收敛，其结果会导致无法算出为操作设备推荐的控制条件。

解决问题的方案:

为了解决上述问题，本发明的第一形态中提供一种装置。装置可以具备多个智能体，将设施中设置的多个设备的一部分分别作为对象设备。多个智能体中的每一个可以具有状态获取单元，获取表示设施的状态的状态数据。多个智能体中的每一个可以具有控制条件获取单元，获取表示各个对象设备的控制条件的控制条件数据。多个智能体中的每一个可以具有学习处理单元，使用包括状态数据和控制条件数据的学习数据执行模型的学习处理，该模型对应于状态数据的输入，输出表示各个对象设备的被推荐的控制条件的推荐控制条件数据

学习处理单元可以使用学习数据和由预设奖励函数确定的奖励值来执行模型的学习处理。模型可以对应于状态数据的输入，输出推荐控制条件数据，该推荐控制条件数据表示为了将奖励值提高到超过基准奖励值而推荐的各个对象设备的控制条件

多个智能体中的每一个还可以具有推荐控制条件输出单元，输出通过将状态数据提供给模型而获得的推荐控制条件数据。

推荐控制条件输出单元可以使用模型，输出在从未来的各个时间点的对象设备的多个控制条件中选择任一控制条件的多个控制条件序列中，表示最推荐的控制条件序列中包含的最近的控制条件的推荐控制条件数据。

多个智能体中的每一个还可以具有控制单元，在由推荐控制条件数据所表示的控制条件下控制对象设备。状态获取单元可以获取控制单元对对象设备控制后的状态数据

多个智能体中的至少两个中的状态获取单元可以获取公共的状态数据

多个智能体中的至少一个智能体的状态获取单元可以获取状态数据，状态数据还包括表示多个设备中不是智能体的对象设备的设备的控制条件的控制条件数据。

各个智能体的学习处理单元可以独立于与智能体不同的另一智能体，使用针对对象设备的内核动态策略编程法(Kernel Dynamic Policy Programming)来执行学习处理。

多个智能体各自的对象设备的集合相对于在多个智能体中与该智能体不同的其他各个智能体的对象设备的集合可以是稀疏的。

多个智能体中的每一个可以将单个设备作为对象设备。

在本发明的第二形态中提供一种方法，在方法中，将设施中设置的多个设备的一部分分别作为对象设备的多个智能体中的每一个可以获取表示设施的状态的状态数据。在方法中，多个智能体中的每一个可以获取表示各个对象设备的控制条件的控制条件数据。在方法中，多个智能体中的每一个可以使用包含状态数据和控制条件数据的学习数据执行模型的学习处理，该模型对应于状态数据的输入，输出表示各个对象设备的被推荐的控制条件的推荐控制条件数据。

在本发明的第三形态中提供一种存储有程序的存储介质。

程序可以使一个或多个电脑作为多个智能体而发挥作用，该智能体将设施中设置的多个设备的一部分分别作为对象设备。多个智能体的每一个具有状态获取单元，获取表示设施的状态的状态数据。多个智能体的每一个可以具有控制条件获取单元，获取表示个对象设备的控制条件的控制条件数据。多个智能体的每一个可以具有学习处理单元，使用包括状态数据和控制条件数据的学习数据执行模型的学习处理，该模型对应于状态数据的输入，输出表示各个对象设备的被推荐的控制条件的推荐控制条件数据。

另外，上述发明内容并未列举出本发明的全部可能特征，所述特征组的子组合也有可能构成发明。

附图说明

图1示出了本实施方式所述的系统1。

图2示出了模型415和推荐控制条件输出单元416。

图3示出了本实施方式所述的装置4的动作。

图4示出了变形例所述的装置4A。

图5示出了设施2的管道仪表图的一部分。

图6示出了图5所示设施2中的状态参数之间的相关模型；

图7示出了计算机2200的示例，其中可以完全或部分地体现本发明的多个方面。

附图标记说明：

1系统，2设施，3网络，4装置，20设备，21传感器，40奖励值获取单元，41智能体，42筛选单元，200管道，410状态获取单元，411控制条件获取单元，412学习处理单元，415模型，416推荐控制条件输出单元，417控制单元，4160预测状态输出单元，4161预测奖励输出单元，4162控制条件序列指定单元，4163推荐控制条件指定单元，2200计算机，2201DVD-ROM，2210主机控制器，2212CPU，2214RAM，2216图形控制器，2218显示设备，2220输入输出控制器，2222通信接口，2224硬盘驱动器，2226DVD-ROM驱动器，2230ROM，2240输入输出芯片，2242键盘

具体实施方式

以下通过发明实施方式对本发明进行说明，但以下实施方式并非对权利要求书所涉及的发明进行限定。并且，实施方式中说明的特征组合也并非全部为本发明的必要特征。

[1.系统1的构成]

图1示出了本实施方式所述的系统1。系统1包括设施2、网络3和装置4。

[1-1.设施2]

设施2设置有多个设备20。例如，设施2可以是工厂，也可以是组合多个设备20的组合装置。作为工厂，除了化学和生物等工业工厂以外，还可以举出：管理和控制气田或油田等井源及其周边的工厂，管理和控制诸如水电、火电和核电等发电的工厂，管理和控制太阳能和风能等环境发电的工厂，以及管理和控制上下水和水坝等的工厂。在本实施方式中，作为示例，设施2包括多个设备20和多个传感器21。

[1-1-1.设备20]

各个设备20是仪器、机器或装置，也可以是例如控制设施2的过程中的压力、温度、pH值、速度和流量等至少一个物理量的阀、泵、加热器、风扇，电动机，开关等致动器。开关例如可以改变作为设施2的工厂中的处理过程。各个设备20可以为彼此不同种类，或者两个或更多个设备20中的至少一部分可以为相同种类。多个设备20中的至少一部分的设备20可以是作为稍后描述的智能体41的学习对象的对象设备20(T)。在本实施方式中，作为一个示例，设备20经由网络3以有线或无线方式从外部控制，但也可以手动控制。

[1-1-2.传感器21]

各个传感器21测量或判断设施2的状态。各个传感器21可以测量或判断运行状态，如：设施2的产量、混入杂质的比率、各个设备20的运行状态、以及警报的发生状况等。作为一例，设备20的运行状态可以由至少一个物理量表示，如：由设备20控制的压力、温度、pH，速度、速度、流量等。警报可以响应于设施2中产生的异常而发生。作为一例，判断警报的发生状况的传感器21当测量值超过上限值和下限值中的至少之一时判断为警报的发生状况。各个传感器21可以通过网络3向装置4提供测量或判断的结果。

[1-2.网络3]

网络3将设施2中的各个设备20和传感器21与装置4可通信地连接。在网络3中的通信中，至少设备20与装置4之间的通信可以通过例如ISA(International Society ofAutomation：国际测量和控制协会)的无线通信协议来进行。作为一例，可以通过ISA100、HART(Highway Addressable Remote Transducer，高速可寻址远程传感器)(注册商标)、BRAIN(注册商标)、基金会现场总线(FOUNDATION Fieldbus)、PROFIBUS等来进行。传感器21与装置4之间的通信也可以使用上述通信协议来进行。

[1-3.装置4]

装置4针对多个设备20进行学习。装置4可以是一个或多个计算机，可以由PC等构成，也可以由云计算来实现。装置4包括奖励值获取单元40和多个智能体41。

[1-3-1.奖励值获取单元40]

奖励值获取单元40获取用于在智能体41中进行强化学习的奖励值，以及用于评估设施2的运行状态的奖励值。奖励值可以是由预设的奖励函数确定的值。这里，函数是具有规则的映射，该规则使得集合中的各个元素一对一地对应于另一集合的各个元素，例如可以是数学式也可以是表格。奖励函数可以对应于状态数据的输入而输出评估其状态的奖励值。奖励函数可以由操作员设置。奖励值获取单元40可以从使用奖励函数的操作员处获取奖励值，也可以通过将来自传感器21的状态数据输入到奖励函数中来获取奖励值。当奖励值获取单元40将状态数据输入到奖励函数中时，奖励函数既可以存储在装置4的内部也可能存储在外部。

[1-3-2.智能体41]

多个智能体41分别将设施2中的一部分的设备20分别作为对象设备20(T)。各个智能体41的对象设备20(T)的数量可以是一个也可以是多个，在多个智能体41之间既可以相同也可以不同。多个智能体41各自的对象设备20(T)的集合相对于与智能体41不同的各个其他智能体41的对象设备20(T)的集合可以是稀疏的。对象设备20(T)的集合可以是包含在单个装置中的多个设备20的集合，也可以是包含在分开的装置中的多个设备20的逐个至少一部分的集合。当针对于一个智能体41的对象设备20(T)为多个时，这些对象设备20(T)可以联动并具有被控制的关系(作为示例，主从关系、不独立控制的关系)。各个智能体41可以将分开的单个设备20分别设置为对象设备20(T)。作为一例，智能体41的数量可以与设施2中的设备20的数量相同。在这种情况下，各个设备20可以是任何智能体41的对象设备20(T)。或者，智能体的数量可以小于设施2中的设备20的数量。在这种情况下，设施2中可以包含不是智能体41的对象设备20(T)的设备20。

各个智能体41具有：状态获取单元410、控制条件获取单元411、学习处理单元412、模型415、推荐控制条件输出单元416和控制单元417。

[1-3-2(1).状态获取单元410]

状态获取单元410获取表示设施2的状态的状态数据。状态数据中可以包括表示传感器21的测量或判断结果的至少一个状态参数。在本实施方式中，作为一例，尽管状态获取单元410从传感器21获取状态参数，但也可以从确认了传感器21的操作员处获取。状态获取单元410可以将获取的状态数据提供给学习处理单元412和推荐控制条件输出单元416。

[1-3-2(2).控制条件获取单元411]

控制条件获取单元411获取表示各个对象设备20(T)的控制条件的控制条件数据。控制条件可以是直接输入到设备20的设置值或目标值、操作量。在本实施方式中，作为一例，控制条件获取单元411从控制单元417获取控制条件数据，但是也可以从对象设备20(T)获取，或者可以从操作员处获取。控制条件获取单元411将获取的控制条件数据提供给学习处理单元412。

[1-3-2(3).学习处理单元412]

学习处理单元412使用包括状态数据和控制条件数据的学习数据来执行模型415的学习处理。在本实施方式中，作为一例，学习处理单元412可以通过进一步使用来自奖励值获取单元40的奖励值来执行模型415的学习处理。

[1-3-2(4).模型415]

模型415对应于状态数据的输入而输出表示各个对象设备20(T)的被推荐的控制条件的推荐控制条件数据。被推荐的控制条件可以是用于使奖励值高于基准奖励值的控制条件。基准奖励值可以是与预定时间点(例如现在)的设施2的运行状态相对应的奖励值(例如，通过将该时间点的状态数据输入到奖励函数而获得的奖励值)、固定值(例如通过从最大奖励值中减去允许值而获得的值)。另外，模型415可以与智能体41相关联地存储在装置4外部服务器中。

[1-3-2(5).推荐控制条件输出单元416]

推荐控制条件输出单元416输出通过将状态数据提供给模型415而获得的推荐控制条件数据。也就是说，推荐控制条件输出单元416将状态数据提供给模型415，并响应于该提供而输出从模型415获得的推荐控制条件数据。推荐控制条件输出单元416可以将推荐控制条件数据提供给控制单元417。另外，推荐控制条件输出单元416可以将推荐控制条件数据输出到装置4的外部。

[1-3-2(6).控制单元417]

控制单元417在由推荐控制条件数据表示的控制条件下控制对象设备20(T)。例如，控制单元417通过将推荐控制条件数据提供给对象设备20(T)，在由推荐控制条件数据表示的控制条件下控制对象设备20(T)。在控制单元417与对象设备20(T)之间设置对象设备20(T)的控制器(图中未示出)。

根据上述系统1，由各个智能体41使用包含设施2的状态数据和对象设备20(T)的控制条件数据的学习数据来执行模型415的学习处理，因此与使用包含所有的设备20的控制条件数据的学习数据来执行模型415的学习处理的情况相比，能够减少学习处理的运算处理量。因此，可以收敛模型415的学习，并且通过将状态数据输入到获得的模型415中，可以获取各个对象设备20(T)的被推荐的控制条件数据。

另外，由于从模型415输出为了使奖励值高于基准奖励值而推荐的对象设备20(T)的推荐控制条件数据，因此可以通过使用模型415获得更优选的推荐控制条件。此外，由于在装置4中具备将状态数据提供给模型415并输出推荐控制条件数据的推荐控制条件输出单元416，因此能够通过将状态数据输入到装置4中来获取推荐控制条件数据，并输出到装置4的内部或外部。

此外，由于多个智能体41各自的对象设备20(T)的集合相对于其他各个智能体41的对象设备20(T)的集合是稀疏的，因此能够在智能体41之间共享多个设备20执行学习处理。因此，可以防止对于一部分的设备20重复地执行学习处理，从而减少运算处理量。另外，由于与在智能体41之间针对相同设备20重复学习的情况相比学习内容的关联性降低，能够由分开的PC实现智能体41从而有效地执行分布式处理。此外，通过执行分布式处理，能够使用具有低机器功率的PC。

此外，由于各个智能体41将单个设备20作为对象设备20(T)，因此，与将多个设备20作为对象设备20(T)的情形相比，能够减少各个智能体41各自的运算处理量。

[2.模型415和推荐控制条件输出单元416]

图2示出了模型415和推荐控制条件输出单元416。

[2-1.模型415]

在本实施方式中，作为一例，模型415可以存储输入的状态数据的历史记录。历史记录包括至少一个时间点的状态数据。模型415对应于新的状态数据的输入，输出在未来的多个时间点(t+1)、(t+2)、……(其中后缀“+1”和“+2”是标识符，并且值越大表示越靠前的时间点)的各个时间点处的表示设施2的预测状态的预测状态数据的概率分布。

这里，未来的多个时间点(t+1)、(t+2)、……可以是从现在起的基准时间(例如10分钟)内的各个单位时间(例如30秒)的时间点。当在各个时间点(t+1)、(t+2)、……在对象设备20(T)上执行以控制条件(C1)、(C2)、……表示的任何控制时，预测状态数据表示设施2的预测状态。作为一例，预测状态数据可以穷尽地包括：在时间(t+1)执行控制条件(C1_t+1)，(C2_t+1)，...(其中，下标中的“t+1”和“t+2”表示执行控制的时间)的控制时的预测状态数据(D(C1_t+1)、(D(C2_t+1))、……，以及在时间(t+2)执行控制条件(C1_t+2)、(C2_t+2)的控制时的预测状态数据(D(C1_t+2)、(D(C2_t+2))、……等。另外，概率是指事件发生的可能性的程度，可以是事件发生的比例，或者也可以是与比例对应的值(相对值)。

另外，模型415可以针对各个预测状态数据输出当设施2的状态处于由预测状态数据所示的状态时预测的奖励值。例如，模型415可以响应于当前状态数据的输入而选择所预测的预测状态数据中的任一来输出奖励值，也可以响应于预测状态数据的输入来输出奖励值。

[2-2.推荐控制条件输出单元416]

推荐控制条件输出单元416使用模型415，输出在从未来的各个时间点(t+1)、(t+2)、……的对象设备20(T)的多个控制条件(C1)、(C2)……中选择的任一控制条件(CN)(N是任意自然数)的多个控制条件中，表示相对于最推荐控制条件序列中包含时间点的未来最近控制条件的推荐控制条件数据。推荐控制条件输出单元416包括：预测状态输出单元4160、预测奖励输出单元4161、控制条件序列指定单元4162和推荐控制条件指定单元4163。

[2-2-1.预测状态输出单元4160]

预测状态输出单元4160向预测奖励输出单元4161输出在各个时间点(t+1)、(t+2)的各个控制条件(C1)、(C2)、……的预测状态数据(D)。例如，预测状态输出单元4160将当前的状态数据输入到模型415中，从模型415获得针对未来的各个时间点(t+1)、(t+2)、……，由控制条件(C1)、(C2)、……表示的任一控制在设备20上执行时的预测状态数据(D)的概率分布，输出给预测奖励输出单元4161。

[2-2-2.预测奖励输出单元4161]

预测奖励输出单元4161将在各个时间点(t+1)、(t+2)……的各个控制条件(C1)、(C2)、……的奖励值输出给控制条件序列指定单元4162。例如，预测奖励输出单元4161将在各个时间点(t+1)、(t+2)、……的各个控制条件(C1)、(C2)、……的预测状态数据(D)顺序地输入给模型415，当设备2处于由该预测状态数据(D)表示的状态时从模型415顺序地获取所预测的奖励值并输出到控制条件序列指定单元4162。

[2-2-3.控制条件序列指定单元4162]

控制条件序列指定单元4162在未来的各个时间点(t+1)、(t+2)、……生成多个分别选择了任一控制条件(CN)的控制条件序列(CN_t+1)、(CN_t+2)、……。换句话说，控制条件序列指定单元4162在各个时间点(t+1)、(t+2)、……选择并连接一个控制条件(CN)，生成多个控制条件的列(控制条件序列)。此外，控制条件序列指定单元4162指定控制条件序列，其在多个控制条件序列中，作为最推荐的控制条件序列的一例，与控制条件对应的预测奖励值之和最大。

[2-2-4.推荐控制条件指定单元4163]

推荐控制条件指定单元4163将在所指定的控制条件序列中包含的各个时间点的控制条件中相对于当前时间点的未来最近的控制条件(CN_t+1)指定为推荐控制条件，并将表示该控制条件(CN_t+1)的控制条件数据输出作为推荐控制条件数据。

根据上述推荐控制条件输出单元416，由于输出了在未来的各个时间点(t+1)、(t+2)选择了任一控制条件(CN)的多个控制条件序列中表示最推荐的控制条件序列中包含的最近控制条件的推荐控制条件数据，因此能够考虑到未来的各个时间点的多个控制条件，获得最推荐的推荐控制条件数据。此外，通过使用这种推荐控制条件数据来控制对象设备20(T)，从而能够在未来的各个时间点使设施2的状态转换到最推荐状态。

[3.动作]

图3示出了本实施方式所述装置4的动作。装置4通过执行步骤S1～S11的处理使设施2运行的同时执行模型415的学习。

首先，在步骤S1中，多个智能体41中的每一个的控制单元417输出控制条件数据来控制对象设备20(T)。例如，各个控制单元417可以利用表示由操作员设置的控制条件的控制条件数据来控制对象设备20(T)。当在后面描述的步骤S11中由推荐控制条件输出单元416输出推荐控制条件数据时，各个控制单元417可以用推荐控制条件数据控制对象设备20(T)。

在步骤S3中，多个智能体41中的每一个的状态获取单元410获取表示设施2的当前状态的状态数据。从而获取对象设备20(T)在被控制单元417控制之后的状态数据。此后，多个智能体41的至少两个中的状态获取单元410可以获取公共状态数据。例如，这些状态获取单元410可以从至少一个公共传感器21获取状态数据，作为一例，所有状态获取单元410可以从设施2中的所有传感器21获取状态数据。另外，在由状态获取单元410获取的至少一个智能体41的状态数据中可以包括，表示设施2中的多个设备20中不是对象设备20(T)的至少一个其他设备20的控制条件的控制条件数据作为状态参数。在这种情况下，状态获取单元410可以从与包括状态获取单元410的智能体41不同的智能体41的控制单元417获取控制条件数据。另外，其他设备20的控制条件可以是当前控制条件，或者可以是过去的一个或多个时间点处的控制条件(作为一例为最近的一个控制条件)。

在步骤S5中，多个智能体41中的每一个的控制条件获取单元411在步骤S1中获取对象设备20(T)的控制条件数据。步骤S5的处理可以在步骤S1之前执行，或者也可以在步骤S1和步骤S3之间执行。

在步骤S7中，奖励值获取单元40获取用于评估设施2的当前运行状态的奖励值。此处，奖励函数可以具有与设施2中制造的产品的质量、制造成本、产量、杂质的混入比例和设施2的能量消耗中的至少之一相关的参数。与质量有关的参数可以是当产品的质量是特定质量时的最大值，特定质量可能不一定是最高质量。可以根据原材料的价格设定与制造成本相关的参数。奖励函数还可以包括正则化项，以防止使用偏离的状态数据(例如，当发生警报时的状态数据)进行学习。作为一例，当设施2是制造工厂时，可以将奖励函数设置为以下等式(1)。

奖励值＝100×产量测量值

-50×杂质混入比例的测量值

-10000×警报的发生数...(1)

在步骤S9中，多个智能体41中的每一个的学习处理单元412使用包括状态数据和控制条件数据的学习数据以及奖励值来执行模型415的学习处理。各个智能体41的学习处理单元412独立于与该智能体41不同的其他智能体41，使用内核动态策略编程法(KernelDynamic Policy Programming，KDPP)，针对对象设备20(T)执行学习处理。据此，其结果是，由多个智能体41的全体，针对各个智能体41的对象设备20(T)的全体，通过工厂内核动态策略编程(Factorial KDPP)法来执行学习处理。因此，与由一个智能体41将设施2中的所有设备20作为对象设备20(T)通过KDPP法执行学习处理的情况相比，能够减少对象设备20(T)的数量并减少运算处理量。此处，作为内核动态编程法的学习处理，例如可以使用“Y.Cui,T.Matsubara,and K.Sugimoto,“Kernel dynamic policy programming:Applicablereinforcement learning to robot systems with high dimensional states,”Neuralnetworks,vol.94,pp.13-23,2017.”中记载的处理。另外，各个学习处理单元412可以通过最速下降方法、神经网络、DQN(深度Q网络)、高斯过程、深度学习等代替KDPP执行学习处理。另外，学习处理单元412可以在不使用奖励值的情况下执行学习处理，在这种情况下，可以不执行步骤S7的处理。当各个智能体41由分开的PC实现时，这些PC可以在独立状态下执行步骤S9的学习处理。这样，不需要将各个PC连接到通信等网络，也能够减少各个PC中与网络相关的处理负荷。

在步骤S11中，多个智能体41中的每一个的推荐控制条件输出单元416将通过将当前状态数据提供给模型415而获得的推荐控制条件数据输出给控制单元417，并且将处理转移到步骤S1。据此，对象设备20(T)由推荐控制条件数据控制，重复执行学习处理，优化设施2的运行状态。另外，当重复执行步骤S1～S11的处理时，可以根据设施2的时间常数确定步骤S1的周期，例如可以是30秒。另外，当重复执行步骤S1～S11中的处理时，设施2中的设备20和传感器21的数量可以根据维护、扩展、故障等增加或减少。当设施2中的设备20的数量增加或减少时，智能体41的数量也可以增加或减少。

根据上述动作，根据推荐控制条件数据控制对象设备20(T)从而获取与控制相应的状态数据，因此，使用包括推荐控制条件数据和相应的状态数据的学习数据进一步进行模型415的学习处理。因此，当使用推荐控制条件数据执行控制时，可以顺序地执行模型415的学习处理，以提高学习精度。

此外，由于在至少两个智能体41之间将公共状态数据用于学习处理，因此针对一个智能体41的对象设备20(T)的控制结果间接反映在针对另一个智能体41的对象设备20(T)的学习处理中。因此，将设施2中的设备20的逐个部分作为对象设备20(T)的智能体41之间间接联动以执行学习处理，从而能够优化每一个对象设备20(T)的控制条件。此外，当一个智能体41的对象设备20(T)和另一个智能体41的对象设备20(T)在动作等中具有关联性时，使一个智能体41的对象设备20(T)的控制结果间接地反映在另一个智能体41的对象设备20(T)的学习处理中，因此可以使另一智能体41的推荐控制条件成为更优选的控制条件。

另外，由于不是对象设备20(T)的其他设备20的控制条件数据被包含在状态数据中并用于学习处理，因此，与其他设备20的控制条件数据不包含在状态数据中的情形相比，可以提高学习的准确性。例如，当一个智能体41的对象设备20(T)的状态数据受到不是对象设备20(T)的其他设备20的控制的影响时，其他设备20的控制条件间接地反映在一个智能体41的学习处理中，因此可以使一个智能体41的推荐控制条件成为更优选的控制条件。

[4.变形例]

图4示出了变形例所述的装置4A。装置4A还可以具有筛选单元42，对由各个智能体41获取的状态数据的状态参数进行筛选。

筛选单元42基于状态数据中包含的多个状态参数之间的相关概率，将由各个智能体41的状态获取单元410的获取对象的多个状态参数中的任一状态参数从获取对象排除。多个状态参数可以包括各个传感器21的测量结果、判断结果和各个设备20的控制条件中的至少之一。筛选单元42可以将各个智能体41的状态获取单元410的获取对象的多个状态参数中在与该智能体41的对象设备20(T)的控制条件之间低于基准概率的状态参数从获取对象排除。筛选单元42可以通过向各个智能体41的状态获取单元410提供要从获取对象排除的状态参数的标识信息，来停止获取该状态参数。

根据上述装置4A，可以使各个智能体41筛选状态参数以执行学习处理，从而可以在短时间内收敛学习。而且，可以使学习收敛为在规定了相关概率的设备20上的全局最优。

图5示出了设施2的管道仪表图的一部分。作为图中的示例，设施2具有：管道200(1)～200(9)、作为传感器21的流量计S(1)～S(5)、以及作为设备20的阀门V(1)～V(4)。管道200(1)在一端连接管道200(2)、200(3)的一端，管道200(2)、200(3)在另一端连接管道200(4)的一端。另外，管道200(5)在一端连接管道200(6)、200(7)的一端，管道200(6)、200(7)在另一端连接管道200(8)的一端。管道200(4)和200(8)的另一端连接管道200(9)的一端。流量计S(1)和S(2)分别设置在管道200(1)和200(5)上，以测量其流量。流量计S(3)和S(4)分别设置在管道200(4)和200(8)上，以测量其流量。流量计S(5)设置在管道200(4)、200(8)和200(9)的接头处，并测量接头的流量。阀V(1)～V(4)分别设置在管200(2)、200(3)、200(6)和200(7)中，以调节它们的流量。

当要在这样的设施2中改变管道200(8)的流量时，改变阀门V(3)或阀门V(4)的开度即可，阀门V(1)和V(2)的开度不影响管道200(8)的流量(或影响较小)。因此，操作员或设施2的管理者等可以如此从设施2的设计图等估计非相关(或相关性较小)的关系的状态参数。筛选单元42是向各个智能体41的状态获取单元410提供由操作员等估计的状态参数的识别信息，当与该智能体41的对象设备20(T)的控制条件之间的相关概率低于基准概率时，可以停止获取该状态参数。

另外，筛选单元42也可以向学习处理单元412提供设施2的多个状态参数之间的相关模型，而不是将要从获取对象排除的状态参数的标识信息提供给状态获取单元410。在这种情况下，学习处理单元412可以使用相关模型执行模型415的学习处理，计算状态参数之间的相关概率(贝叶斯概率)。另外，学习处理单元412还可以向使各个智能体41的状态获取单元410提供算出的状态参数的识别信息，当与该智能体41的对象设备20(T)的控制条件之间的相关概率低于基准概率时，停止获取该状态参数。在这种情况下，与基于操作员的估计而从获取对象中排除状态参数的情形相比，可以更可靠地使学习收敛为广域最佳。

图6示出了图5的设施2中的状态参数之间的相关模型。在该相关模型中，各个条件参数表示为节点s(1)～s(5)和v(1)～v(4)，相关联的节点之间通过边缘连接。在各个边缘上附带由该边缘连接的节点之间的相关概率p1～p10。相关概率p1～p10的初始值可以全部为1，也可以根据学习处理的结果而改变。这里，节点s(1)～s(5)表示由流量计S(1)～S(5)测量的流量，节点v(1)～v(4)表示阀V(1)～V(4)的开度。

学习处理单元412可以使用这样的相关模型来计算状态参数之间的相关概率。例如，当改变阀V(1)～V(4)中的任一阀的开度时，学习处理单元412可以通过学习使用流量计S(1)～S(5)中的任一流量计S所测量的流量是否有可能更大地波动等来计算状态参数之间的相关概率。作为一例，可以计算传感器S1的流量对传感器S5的流量会带来何种程度影响的相关概率p，其中，p＝(p7×p3+p8×p4)×p1。另外，传感器S3的流量对传感器S5的流量会带来何种程度影响的相关概率p可以通过p＝p1来计算。

[5.其他变形例]

另外，在上述实施方式中说明了设施2具有传感器21，但也可以不具有传感器21。在这种情况下，装置4的状态获取单元410可以从已经确认设施2的状态的操作员获取状态数据(例如，在机械压力计的情况下由指针指示的压力值)。

此外，虽然说明了装置4具有奖励值获取单元40，但也可以不具有奖励值获取单元40。在这种情况下，各个智能体41的学习处理单元412可以将状态数据输入到奖励函数来获取奖励值。

此外，虽然说明了各个智能体41具有推荐控制条件输出单元416和控制单元417，但是也可以不具有它们中的至少一方。当各个智能体41不具有推荐控制条件输出单元416时，由学习处理单元412执行了学习处理的模型415可以连接到另一个装置并用于设施2的操作。当各个智能体41不具有控制单元417时，可以由操作员根据从各个智能体41的推荐控制条件输出单元416输出的推荐控制条件数据手动控制智能体41的对象设备20(T)。

此外，可以参考流程图和模块图来描述本发明的各种实施例，其中，模块可以表示(1)执行操作处理的步骤或(2)具有执行操作功能的装置的一部分。具体的步骤和部分可以由专用电路、与存储在计算机可读介质上的计算机可读指令共同提供的可编程电路、以及与存储在计算机可读介质上的计算机可读指令共同提供的处理器的至少封装而成。专用电路可以包括数字及模拟的至少之一的硬件电路，并且可以包括集成电路(IC)和分立电路中的至少一个。可编程电路包括可重新配置的硬件电路，其包含：逻辑AND、逻辑OR、逻辑XOR、逻辑NAND，逻辑NOR和其他逻辑操作，触发器、寄存器、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)等之类的存储元件等。

计算机可读介质可以包括能够存储将由适当的设备执行的指令的任何有形设备，使得具有存储在其中的指令的计算机可读介质具备产品，该产品包含有为了形成用于执行在流程图或模块图中的指定操作的装置而可能要执行的命令。计算机可读介质的示例可以包括电子存储介质、磁存储介质、光存储介质、电磁存储介质、半导体存储介质等。计算机可读介质的更具体示例包括：软盘(注册商标)、磁盘、硬盘，随机存取存储器(RAM)、只读存储器(ROM)，可擦除可编程只读存储器(EPROM或闪存)、电可擦除可编程只读存储器(EEPROM)、静态随机存取存储器(SRAM)、光盘只读存储器(CD-ROM)、数字通用光盘(DVD)、蓝光(RTM)光盘、记忆棒、集成电路卡等。

计算机可读指令可以包含：汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者由包含Smalltalk、JAVA(注册商标)、C++等的面向对象的编程语言、以及“C”编程语言或类似的编程语言等的现有过程编程语言的一种或多种编程语言的任意组合所编写的代码或目标代码中的任一种。

计算机可读指令可以通过本地的局域网(LAN)或者因特网等广域网(WAN)提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器或可编程电路，为了创建用于执行流程图或模块图中指定的操作，可以执行计算机可读指令。处理器的示例包括计算机处理器、处理单元、微处理器、数字信号处理器、控制器，微控制器等。

图7示出了可以完全或部分地实现本发明的多个方面计算机2200的示例。安装在计算机2200中的程序可以使计算机2200发挥本发明实施方式所述装置所关联的操作或该装置的一个或多个部分的功能。附加地或者替代地，可以使计算机2200执行本发明实施方式所述过程或该过程的步骤。这些程序可以由CPU 2212执行，以使计算机2200执行与本说明书中记载的流程图和模块图中的一些或全部模块相关联的特定操作。

本实施方式所述的计算机2200包括CPU 2212、RAM 2214、图形控制器2216和显示设备2218，它们通过主机控制器2210相互连接。计算机2200还包括输入输出单元，例如通信接口2222、硬盘驱动器2224、DVD-ROM驱动器2226和IC卡驱动器，它们经由输入输出控制器2220连接到主机控制器2210。计算机还包括传统输入输出单元，例如ROM 2230和键盘2242，它们通过输入输出芯片2240连接到输入输出控制器2220。

CPU 2212根据存储在ROM 2230和RAM 2214中的程序进行操作，从而控制每个单元。图形控制器2216取得由CPU 2212在RAM 2214中提供的帧缓冲器或其自身中生成的图像数据，并使图像数据显示在显示装置2218上。

通信接口2222经由网络与其他电子设备通信。硬盘驱动器2224存储由计算机2200中的CPU 2212使用的程序和数据。DVD-ROM驱动器2226从DVD-ROM 2201读取程序或数据，并通过RAM 2214向硬盘驱动器2224提供程序或数据。IC卡驱动器从IC卡读取程序和数据，附加地或替代地将程序和数据写入IC卡。

ROM 2230在其中存储由计算机2200在激活时执行的引导程序等以及依赖于计算机2200硬件的程序中的至少一个。输入输出芯片2240还可以通过并行端口、串行端口、键盘端口、鼠标端口等将各种输入输出单元连接到输入输出控制器2220。

程序由诸如DVD-ROM 2201或IC卡的计算机可读介质提供。从计算机可读介质读取程序，安装在作为计算机可读介质例子的硬盘驱动器2224、RAM 2214或ROM 2230上，由CPU2212执行。这些程序中描述的信息处理由计算机2200读取，并带来程序与上述各种类型的硬件资源之间的协作。装置或方法可以通过计算机2200的使用实现信息的操作或处理来构成。

例如，当在计算机2200和外部设备之间执行通信时，CPU 2212执行加载在RAM2214中的通信程序，并基于通信程序中描述的处理命令通信接口2222执行通信处理。通信接口2222在CPU 2212的控制下读取存储在RAM2214、硬盘驱动器2224、DVD-ROM 2201或IC卡等存储介质中提供的发送缓冲处理区域中的发送数据，并将所读取的发送数据发送到网络，或者从网络接收的接收数据被写入到在存储介质上提供的接收缓冲处理区域等。

另外，CPU 2212可以使RAM 2214读取存储在诸如硬盘驱动器2224、DVD-ROM驱动器2226(DVD-ROM 2201)、IC卡等外部存储介质中的文件或数据库的全部或必要部分，并对RAM2214上的数据执行各种类型的处理，接下来，CPU 2212将处理后的数据写回到外部存储介质。

各种类型的程序、数据、表格和数据库等各种类型的信息可以存储在存储介质上接收信息处理。CPU 2212可以对从RAM 2214读取的数据执行各种类型的操作，包括：包含在本公开整篇所记载的由程序的命令序列指定的各种类型的操作、信息处理、条件判断、条件分支、无条件分支、信息检索、替换等，并将结果写回RAM 2214。另外，CPU 2212可以检索存储介质内的文件、数据库等中的信息。例如，当每个具有与第二属性的属性值相关联的第一属性的属性值的多个条目被存储在存储介质中时，CPU 2212将与被指定的第一属性的属性值的条件一致的条目从这多个条目中检索出，读取条目中存储的第二属性的属性值，从而取得满足预定条件的第一属性所关联的第二属性的属性值。

上述所说明的程序或软件模块可以存储在计算机2200上或计算机2200附近的计算机可读介质上。另外，连接到专用通信网络或因特网的服务器系统中提供的诸如硬盘或RAM的存储介质可以用作计算机可读介质。从而使程序经由网络提供给计算机2200。

以上，使用本发明的实施方式进行了说明，但本发明的技术范围不限于上述实施方式所记载的范围。另外，本领域技术人员应当清楚，在上述实施方式的基础上可加以增加各种变更或改进。此外，由权利要求的记载可知，这种加以变更或改进的实施方式也包含在本发明的技术范围内。

应当注意的是，权利要求书、说明书及附图中所示的装置、系统、程序以及方法中的动作、顺序、步骤及阶段等各个处理的执行顺序，只要没有特别明示“更早”、“早于”等，或者只要前面处理的输出并不用在后面的处理中，则可以以任意顺序实现。关于权利要求书、说明书及附图中的动作流程，为方便起见而使用“首先”、“然后”等进行了说明，但并不意味着必须按照这样的顺序实施。

Claims

1.一种装置，其中包括多个智能体，该智能体将设施中设置的多个设备的一部分分别作为对象设备；

所述多个智能体中的每一个具有：

状态获取单元，获取表示所述设施的状态的状态数据；

控制条件获取单元，获取表示各个对象设备的控制条件的控制条件数据；以及

学习处理单元，使用包括所述状态数据和所述控制条件数据的学习数据执行模型的学习处理，该模型对应于所述状态数据的输入，输出表示各个对象设备的被推荐的控制条件的推荐控制条件数据，

所述多个智能体中的至少一个智能体的所述状态获取单元获取所述状态数据，所述状态数据还包括表示所述多个设备中不是所述智能体的对象设备的设备的控制条件的控制条件数据。

2.根据权利要求1所述的装置，其中：

所述学习处理单元使用所述学习数据和由预设奖励函数确定的奖励值来执行所述模型的学习处理；

所述模型对应于所述状态数据的输入，输出所述推荐控制条件数据，该推荐控制条件数据表示为了将所述奖励值提高到超过基准奖励值而推荐的各个对象设备的控制条件。

3.根据权利要求1所述的装置，其中，所述多个智能体中的每一个还包括：推荐控制条件输出单元，输出通过将所述状态数据提供给所述模型而获得的推荐控制条件数据。

4.根据权利要求3所述的装置，其中，所述推荐控制条件输出单元使用所述模型，输出在从未来的各个时间点的所述对象设备的多个控制条件中选择任一控制条件的多个控制条件序列中，表示最推荐的控制条件序列中包含的最近的控制条件的所述推荐控制条件数据。

5.根据权利要求1至4中任一项所述的装置，其中：

所述多个智能体中的每一个还具有控制单元，在由所述推荐控制条件数据所表示的控制条件下控制所述对象设备；

所述状态获取单元获取所述控制单元对所述对象设备控制后的所述状态数据。

6.根据权利要求1至5中任一项所述的装置，其中，所述多个智能体中的至少两个中的所述状态获取单元获取公共的所述状态数据。

7.根据所述权利要求1至6中任一项所述的装置，其中，各个智能体的所述学习处理单元独立于与所述智能体不同的另一智能体，使用针对对象设备的内核动态策略编程法来执行学习处理。

8.根据所述权利要求1至7中任一项所述的装置，其中，所述多个智能体各自的对象设备的集合相对于在所述多个智能体中与该智能体不同的其他各个智能体的对象设备的集合是稀疏的。

9.根据权利要求8所述的装置，其中，所述多个智能体中的每一个将单个设备作为所述对象设备。

10.一种方法，其中，将设施中设置的多个设备的一部分分别作为对象设备的多个智能体中的每一个执行如下步骤：

获取表示所述设施的状态的状态数据；

获取表示各个对象设备的控制条件的控制条件数据；

使用包含所述状态数据和所述控制条件数据的学习数据执行模型的学习处理，该模型对应于所述状态数据的输入，输出表示各个对象设备的被推荐的控制条件的推荐控制条件数据，

所述多个智能体中的至少一个智能体的所述状态数据的获取步骤获取所述状态数据，所述状态数据还包括表示所述多个设备中不是所述智能体的对象设备的设备的控制条件的控制条件数据。

11.一种存储有程序的存储介质，所述程序使一个或多个电脑作为多个智能体而发挥作用，该智能体将设施中设置的多个设备的一部分分别作为对象设备；

所述多个智能体的每一个具有：

状态获取单元，获取表示所述设施的状态的状态数据；

控制条件获取单元，获取表示个对象设备的控制条件的控制条件数据；以及