CN115705038A

CN115705038A - 学习装置、学习方法、记录介质以及控制装置

Info

Publication number: CN115705038A
Application number: CN202210932048.0A
Authority: CN
Inventors: 刘琢; 鹿子木宏明
Original assignee: Yokogawa Electric Corp
Current assignee: Yokogawa Electric Corp
Priority date: 2021-08-05
Filing date: 2022-08-04
Publication date: 2023-02-17
Also published as: EP4138005B1; US20230045222A1; EP4138005A1; JP2023023455A

Abstract

本发明提供学习装置、学习方法、记录介质以及控制装置，学习装置包括：数据取得部，在由输出与设施的状态对应的行为的机器学习模型对设置于上述设施的控制对象进行控制之前，取得包含表示上述设施的状态的状态数据以及表示针对上述控制对象的行为的行为数据的初始设定数据；以及事先学习部，在由上述机器学习模型进行的与上述控制对象的控制对应的强化学习开始之前，通过基于上述初始设定数据进行事先学习，对上述机器学习模型进行初始设定。

Description

学习装置、学习方法、记录介质以及控制装置

技术领域

本发明涉及学习装置、学习方法和记录有学习程序的记录介质以及控制装置。

背景技术

在专利文献1中记载了“观测学习对象存在的环境的当前状态并在当前状态下执行规定的行为，反复尝试对该行为给予某种回报的循环，将回报的总计最大化的对策作为最佳解进行学习”。

现有技术文献

专利文献1：日本专利公开公报特开2018-202564

发明内容

在本发明的第一方式中提供一种学习装置。所述学习装置可以包括数据取得部，所述数据取得部在由输出与设施的状态对应的行为的机器学习模型对设置于所述设施的控制对象进行控制之前，取得包含表示所述设施的状态的状态数据以及表示针对所述控制对象的行为的行为数据的初始设定数据。所述学习装置可以包括事先学习部，所述事先学习部在所述机器学习模型的强化学习开始之前，通过基于所述初始设定数据进行事先学习，对所述机器学习模型进行初始设定。

所述学习装置还可以包括提取部，所述提取部从所述初始设定数据中提取在所述机器学习模型的初始设定中使用的样本数据。

所述提取部可以具有选定所述初始设定数据的选定部。所述提取部可以从所述选定的初始设定数据中提取所述样本数据。

所述提取部可以具有定义所述机器学习模型用于选择所述行为的选项的定义部。所述提取部可以将包含于所述初始设定数据的所述状态数据与包含于所述选项的行为的组合作为所述样本数据来提取。

所述机器学习模型可以基于针对包含于所述初始设定数据的所述状态数据与包含于所述选项的各行为的组合的各自的权重，输出与所述设施的状态对应的所述行为。

所述定义部可以基于包含于所述初始设定数据的所述行为数据表示的行为的分布来定义所述选项。

所述定义部可以定义与所述设施的状态无关的共同的所述选项。

所述定义部可以定义与所述设施的状态对应的多个所述选项。

所述数据取得部可以根据通过所述机器学习模型对所述控制对象进行控制来取得所述状态数据。所述学习装置可以还包括强化学习部，所述强化学习部通过将所述状态数据以及根据将所述状态数据输入到所述机器学习模型而从所述机器学习模型取得的所述行为数据作为学习数据来进行强化学习，更新所述机器学习模型。

所述事先学习部可以基于所述初始设定数据以根据所述状态数据的输入而选择更接近与所述状态数据对应的所述行为数据的行为的方式对所述机器学习模型进行初始设定。所述强化学习部可以以进一步提高通过一系列的行为而得到的回报的方式更新所述机器学习模型。

在本发明的第二方式中提供一种控制装置。所述控制装置可以包括所述学习装置。所述控制装置可以包括通过所述机器学习模型对所述控制对象进行控制的控制部。

在本发明的第三方式中提供一种学习方法。所述学习方法可以包括在由输出与设施的状态对应的行为的机器学习模型对设置于所述设施的控制对象进行控制之前，取得包含表示所述设施的状态的状态数据以及表示针对所述控制对象的行为的行为数据的初始设定数据。所述学习方法可以包括在所述机器学习模型的强化学习开始之前，通过基于所述初始设定数据进行事先学习，对所述机器学习模型进行初始设定。

在本发明的第四方式中提供一种记录有学习程序的记录介质。可以由计算机执行所述学习程序。所述计算机可以通过执行所述学习程序而发挥作为数据取得部的功能，所述数据取得部在由输出与设施的状态对应的行为的机器学习模型对设置于所述设施的控制对象进行控制之前，取得包含表示所述设施的状态的状态数据以及表示针对所述控制对象的行为的行为数据的初始设定数据。所述计算机可以通过执行所述学习程序而发挥作为事先学习部的功能，所述事先学习部在所述机器学习模型的强化学习开始之前，通过基于所述初始设定数据进行事先学习，对所述机器学习模型进行初始设定。

另外，上述发明的概要没有列举出本发明的所有必要特征。此外，这些特征组的子组合也可以成为发明。

附图说明

图1将本实施方式的学习装置100的框图的一例与设置有控制对象20的设施10一起表示。

图2表示本实施方式的学习装置100可作为状态数据取得的测量值PV和操作量MV的一例。

图3表示本实施方式的学习装置100可作为行为数据取得的操作变更量ΔMV的分布的一例。

图4表示本实施方式的学习装置100进行事先学习的流程的一例。

图5表示本实施方式的学习装置100通过事先学习进行了初始设定的初始设定完成的机器学习模型的表的一例。

图6将本实施方式的变形例的学习装置100的框图的一例与设置有控制对象20的设施10一起表示。

图7表示本实施方式的变形例的学习装置100通过机器学习模型输出与状态对应的行为时的运算结果的一例。

图8表示本实施方式的变形例的学习装置100通过强化学习进行了更新的机器学习模型的表的一例。

图9将本实施方式的控制装置900的框图的一例与设置有控制对象20的设施10一起表示。

图10表示可以整体或局部实现本发明的多种方式的计算机9900的例子。

附图标记说明

10设施，20控制对象，100学习装置，110数据取得部，120提取部，122选定部，124定义部，130事先学习部，140模型存储部，610强化学习部，900控制装置，910控制部，9900计算机，9901DVD-ROM，9910主控制器，9912CPU，9914RAM，9916图形控制器，9918显示装置，9920输入/输出控制器，9922通信接口，9924硬盘驱动器，9926DVD驱动器，9930ROM，9940输入/输出芯片，9942键盘。

具体实施方式

下面，通过发明的实施方式对本发明进行说明，但是以下的实施方式并不限定权利要求书所涉及的发明。此外，在实施方式中说明的特征的组合的全部并不是发明的解决手段所必须的。

图1将本实施方式的学习装置100的框图的一例与设置有控制对象20的设施10一起表示。本实施方式的学习装置100在开始用于控制对象20的控制的机器学习模型的强化学习之前，通过事先学习对该机器学习模型进行初始设定。

设施10是设置有控制对象20的设施或装置等。例如，设施10既可以是工厂，也可以是使多个设备复合的复合装置。作为工厂，除了化学或生物等工业工厂以外，还可以列举对气田或油田等井口及其周边进行管理控制的工厂、对水力、火力、原子能等发电进行管理控制的工厂、对太阳光或风力等环境发电进行管理控制的工厂、以及对上下水或水坝等进行管理控制的工厂等。作为一例，设施10也可以是作为工艺装置之一的三段水槽或热处理炉等。

在设施10中设置有控制对象20。在本图中作为一例表示了在设施10中仅设置有一个控制对象20的情况，但是并不限定于此。在设施10中也可以设置多个控制对象20。

此外，在设施10中也可以设置对设施10的内外的各种状态(物理量)进行测量的一个或多个传感器(未图示)。传感器输出表示测量出的状态的状态数据。这样的状态数据例如可以包含运转数据、消耗量数据和外部环境数据等。

在此，运转数据表示对控制对象20进行了控制的结果的运转状态。例如，运转数据也可以包含被称为工艺值的测量值PV(Process Variable工艺变量)。作为一例，在设施10为三段水槽的情况下，运转数据可以包含表示水槽的水位的数据。此外，在设施10为热处理炉的情况下，运转数据可以包含表示炉内的温度(炉温)的数据。

此外，运转数据也可以包含表示对控制对象20赋予的操作量MV(ManipulatedVariable操作变量)的数据。作为一例，在设施10为三段水槽的情况下，运转数据可以包含表示作为控制对象20的阀的开度的数据。此外，在设施10为热处理炉的情况下，运转数据可以包含表示流向作为控制对象20的加热器的电热线的电流的数据。

消耗量数据表示设施10中的能量和原材料中的至少任意一个的消耗量。例如，消耗量数据可以包含电力或燃料的消耗量等。

外部环境数据表示对于控制对象20的控制能够起到作为干扰的作用的物理量。例如，外部环境数据可以包含设施10的外部空气的温度、湿度、日照、风向、风量、降水量、以及伴随设置于设施10的其他设备的控制而变化的各种物理量等。

控制对象20是成为控制对象的设备和装置等。例如，控制对象20可以是对设施10的工艺中的物体的量、温度、压力、流量、速度和pH等至少一个物理量进行控制的阀、加热器、电动机、风扇和开关等执行器，并执行与操作量MV对应的所需的操作。作为一例，在设施10为三段水槽的情况下，控制对象20可以是控制水槽的水位的阀。此外，在设施10为热处理炉的情况下，控制对象20可以是控制炉温的加热器。

这样的控制对象20例如也可以能够在基于由反馈(FB：FeedBack)控制器给定的操作量MV(FB)的FB控制与基于由机器学习模型(也称为AI：Artificial Intelligence模型人工智能模型)给定的操作量MV(AI)的AI控制之间进行切换。此外，这样的FB控制例如可以是使用比例控制(P控制)、积分控制(I控制)和微分控制(D控制)中的至少任意一个的控制，作为一例可以是PID控制。

本实施方式的学习装置100在开始用于这样的控制对象20的AI控制的机器学习模型的强化学习之前，通过事先学习对该机器学习模型进行初始设定。即，本实施方式的学习装置100对机器学习模型进行初始设定，以使机器学习模型的强化学习不是从全新的状态开始，而是从通过事先学习导入了事先知识的状态开始。

学习装置100可以是PC(个人计算机)、平板型计算机、智能手机、工作站、服务器计算机或通用计算机等计算机，也可以是连接有多个计算机的计算机系统。这样的计算机系统也是广义的计算机。此外，学习装置100也可以由能够在计算机内执行的一个或多个虚拟计算机环境实现。代替于此，学习装置100可以是设计为用于机器学习模型的事先学习的专用计算机，也可以是由专用电路实现的专用硬件。此外，在学习装置100能够与互联网连接的情况下，学习装置100也可以通过云计算来实现。

学习装置100包括数据取得部110、提取部120、事先学习部130和模型存储部140。另外，这些块分别是在功能上分离的功能块，并且不一定与实际的设备构成一致。即，在本图中，虽然表示为一个块，但是其也可以不一定由一个设备构成。此外，在本图中，虽然表示为不同的块，但是它们也可以不一定由不同的设备构成。

数据取得部110在由输出与设施10的状态对应的行为的机器学习模型对设置于设施10的控制对象20进行控制之前，取得初始设定数据，该初始设定数据包含表示设施10的状态的状态数据以及表示对控制对象20的行为的行为数据。数据取得部110将取得的初始设定数据提供给提取部120。

提取部120从初始设定数据中提取用于机器学习模型的初始设定的样本数据。更详细地说，提取部120具有选定部122和定义部124。

选定部122选定数据取得部110取得的初始设定数据。由此，提取部120从选定的初始设定数据中提取样本数据。选定部122将选定的初始设定数据提供给定义部124。

定义部124基于选定部122选定的初始设定数据，定义机器学习模型用于选择行为的选项。由此，提取部120提取包含于初始设定数据的状态数据与包含于选项的行为的组合作为样本数据。提取部120将提取的样本数据提供给事先学习部130。

事先学习部130在机器学习模型的强化学习开始之前，通过基于初始设定数据进行事先学习，对机器学习模型进行初始设定。更详细地说，事先学习部130通过使用由提取部120从由数据取得部110取得的初始设定数据中提取出的样本数据进行事先学习，对机器学习模型进行初始设定。

模型存储部140存储机器学习模型。在事先学习部130基于初始设定数据进行了事先学习的情况下，模型存储部140存储由事先学习部130进行了初始设定的初始设定完成的机器学习模型。这样，学习装置100在用于控制对象20的AI控制的机器学习模型的强化学习开始之前，通过进行事先学习对该机器学习模型进行初始设定。对此，以设施10为三段水槽的情况为一例进行详细说明。

图2表示本实施方式的学习装置100可作为状态数据取得的测量值PV和操作量MV的一例。在本图中，横轴表示时间T。此外，在本图上方，纵轴表示测量值PV。在此，测量值PV表示水槽的水位。此外，在本图下方，纵轴表示操作量MV。在此，操作量MV表示阀开度。

在本图中，表示在时间TA是测量值PV＝30、操作量MV＝10的状态。并且表示在接着时间TA的时间TB变化为操作量MV＝5.1的状态。本实施方式的学习装置100可以至少取得这样的测量值PV和操作量MV作为状态数据。

图3表示本实施方式的学习装置100可作为行为数据取得的操作变更量ΔMV的分布的一例。在本图中，横轴表示操作变更量ΔMV。在此，操作变更量ΔMV表示操作量MV中的变更量、即从操作量MV中的下次值中减去本次值后的值。作为一例，时间TA的操作变更量ΔMV为5.1－10＝－4.9。本实施方式的学习装置100可以取得这样的操作变更量ΔMV作为行为数据。此外，在本图中，纵轴表示对应的操作变更量ΔMV出现的次数。由此，操作变更量ΔMV如本图所示，相较于任意的操作变更量ΔMV随机分布，也可以以存在几个以某种程度集中的操作变更量ΔMV的组的方式分布。

在步骤S410中，学习装置100取得初始设定数据。例如，数据取得部110在由输出与设施10的状态对应的行为的机器学习模型对设置于设施10的控制对象20进行控制之前，取得初始设定数据，该初始设定数据包含表示设施10的状态的状态数据以及表示对控制对象20的行为的行为数据。

数据取得部110在由机器学习模型对控制对象20进行控制(AI控制)之前取得初始设定数据。此时，数据取得部110例如可以从对控制对象20进行FB控制(例如PID控制)时得到的数据中取得初始设定数据，也可以从由操作员对控制对象20进行手动控制时得到的数据中取得初始设定数据，还可以从根据控制对象20的阶跃响应而得到的数据中取得初始设定数据。另外，在没有实际数据或实际数据不足的情况下，数据取得部110也可以从基于控制对象20的物理模型而模拟出的模拟数据中取得初始设定数据。此时，数据取得部110可以以不仅包含从一个初始状态稳定为目标值的有限的数据，还包含基于多个初始条件和干扰的多种情形下的各种数据的方式，取得初始设定数据。

例如，数据取得部110经由网络从设施10按时间序列接收由设置于设施10的传感器测量出的状态数据。但是，并不限定于此。数据取得部110可以通过从与设施10不同的其他装置接收来取得这样的状态数据，也可以经由用户输入来取得，还可以通过从各种存储设备读取来取得。

作为一例，数据取得部110例如可以取得包含将图2所示的测量值PV作为状态1、将操作量MV作为状态2的状态数据。由此，数据取得部110例如取得表示在时间TA处于状态(状态1，状态2)＝(30，10)的状态数据。

此外，数据取得部110通过从操作量MV中的下次值减去本次值来取得表示操作变更量ΔMV的数据。作为一例，在接着时间TA的时间TB，变化为操作量MV＝5.1的状态。在这种情况下，数据取得部110通过从时间TB的操作量MV＝5.1中减去时间TA的操作量MV＝10，取得表示时间TA的操作变更量ΔMV＝－4.9的数据。数据取得部110也可以取得这样的操作变更量ΔMV作为行为数据。由此，数据取得部110例如取得表示在时间TA上行为(－4.9)的行为数据。

即，数据取得部110可以对时间TA取得状态(30，10)作为状态数据，取得行为(－4.9)作为行为数据。这意味着，在时间TA，在水槽的水位为30、阀开度为10％的状态下，控制作为控制对象20的阀转动－4.9％(例如绕作为关闭阀的方向的顺时针方向转动4.9％)。

数据取得部110例如可以以上述方式取得初始设定数据。另外，在上述说明中，作为一例，表示了数据取得部110经由网络接收状态数据，并且由自身通过使用接收到的状态数据进行运算来取得行为数据的情况。但是，并不限定于此。数据取得部110除了状态数据以外还可以经由网络接收行为数据。数据取得部110将取得的初始设定数据提供给提取部120。

在步骤S420中，学习装置100选定初始设定数据。例如，选定部122选定在步骤S410中取得的初始设定数据。即，选定部122从取得的初始设定数据中选择在事先学习中应使用的数据。此时，选定部122例如也可以自动地计算作为控制性能的评价值的过冲/下冲、波动的幅度、偏移值等，并且以各评价值仅为预先确定的范围内的数据的方式选定初始设定数据。此外，选定部122例如也可以基于核函数评价数据间的相似性，并且以大量包含相似性低的数据的方式选定初始设定数据。选定部122将所选定的初始设定数据提供给定义部124。

在步骤S430中，学习装置100定义选项。例如，定义部124基于在步骤S420中选定的初始设定数据，定义机器学习模型用于选择行为的选项。作为一例，定义部124通过分析在步骤S420中选定的初始设定数据中包含的操作变更量ΔMV来定义选项。此时，定义部124例如也可以通过x-means法等现有的聚类分析技术，对操作变更量ΔMV进行分类，将成为各类别的代表的操作变更量ΔMV(例如属于同一类别的操作变更量ΔMV的中值或平均值等)定义为选项。作为一例，选定的初始设定数据中包含的操作变更量ΔMV如图3所示地分布。在这种情况下，定义部124可以将操作变更量ΔMV分为七个类别，将各类别的代表值、在此为由操作变更量ΔMV＝－10、－5、－3、0、3、5、10构成的操作变更量ΔMV的集合定义为选项。由此，定义部124可以基于初始设定数据中包含的行为数据表示的行为的分布来定义选项。

在步骤S440中，学习装置100提取样本数据。例如，提取部120从在步骤S420中选定的初始设定数据中提取样本数据。此时，提取部120不是将操作变更量ΔMV的实际数据直接使用，而是将其置换为在步骤S430中定义的选项中的最接近的操作变更量ΔMV’。并且，提取部120提取同一时点的状态数据与被置换的操作变更量ΔMV’的组合作为样本数据。作为一例，在对于时间TA取得了行为(－4.9)作为行为数据的情况下，提取部120将“－4.9”置换为在步骤S430中定义的选项中最接近的操作变更量ΔMV’，在此为“－5”。并且，提取部120对于时间TA提取状态(30，10)与行为(－5)的组合作为样本数据。由此，提取部120提取包含于初始设定数据(更详细地说在步骤S420中选定的初始设定数据)的状态数据与包含于选项的行为的组合作为样本数据。提取部120将提取的样本数据提供给事先学习部130。

在步骤S450中，学习装置100进行事先学习。例如，事先学习部130通过在机器学习模型的强化学习开始之前，基于初始设定数据进行事先学习，对机器学习模型进行初始设定。更详细地说，事先学习部130通过使用在步骤S440中从在步骤S410中取得的初始设定数据中提取的样本数据进行事先学习，对机器学习模型进行初始设定。

在此，事先学习部130在机器学习模型中，根据设施10的状态，保存确定用于对控制对象20进行控制的行为的策略。作为一例，事先学习部130在机器学习模型的表中保存在步骤S440中提取的多个样本数据。这样的表由状态(状态1，状态2)即测量值PV和操作量MV与行为即操作变更量ΔMV’的组合、以及表示针对该组合的评价的权重构成。事先学习部130将在步骤S440中提取的样本数据中的状态与行为的各组合保存在表中，并且将针对各组合的权重设定为初始值(例如全部为1)。

另外，在上述说明中，作为一例，表示了事先学习部130将针对各组合的权重暂时设定为相等的值的情况，但是并不限定于此。在各组合的重要度不同的情况下，事先学习部130也可以将针对各组合的权重设定为与重要度对应的值。

此外，在上述说明中，作为一例，表示了事先学习部130将样本数据中的状态和行为以保持其值的方式保存在表中的情况，但是并不限定于此。事先学习部130也可以将样本数据中的状态和行为中的至少一个归一化为预先确定的范围(例如0～1)并保存。

由此，事先学习部130基于初始设定数据以根据状态数据的输入而选择更接近与状态数据对应的行为数据的行为的方式对机器学习模型进行初始设定。

在步骤S460中，学习装置100存储机器学习模型。例如，模型存储部140存储在步骤450中通过事先学习进行了初始设定的初始设定完成的机器学习模型。

图5表示本实施方式的学习装置100通过事先学习进行了初始设定的初始设定完成的机器学习模型的表的一例。如上所述，状态1表示测量值PV，在此表示水槽的水位。此外，状态2表示操作量MV，在此表示阀开度。此外，行为表示操作变更量ΔMV’。

在本图中，例如在第一行中，保存了在水槽的水位为0、阀开度为0的状态下，使阀转动+10％(绕逆时针转动10％)的样本数据。同样，在第二行中，保存了在水槽的水位为3、阀开度为10的状态下，使阀转动+5％的样本数据。并且，在本表中，对于这样的状态与行为的各组合，权重全部被设定为作为初始值的1。

机器学习模型将以上述方式进行了初始设定的表作为策略来确定行为，因此基于针对包含于初始设定数据的状态数据与包含于选项的各行为的组合的各自的权重，输出与设施的状态对应的行为。

另外，在此应注意的是，作为行为，仅保存了－10、－5、－3、0、3、5、10中的任意一个值。即，在机器学习模型的表中仅保存由定义部124定义的选项中包含的行为。由此，机器学习模型输出的行为被限定为选项中包含的任意一个行为、即操作变更量ΔMV＝－10、－5、－3、0、3、5、10中的任意一个。

以往，在温度的调整、液面的水位调整、流量的调整等工艺控制中使用PID控制。在PID控制中能够进行稳定的控制，另一方面，有时在启动时发生过冲或下冲。特别是如果在温度调整控制中发生过冲，则引起对象物的温度不下降从而使生产的开始延迟等问题。在此，能够以不产生过冲等的方式调整PID增益。但是，在这种情况下，到响应稳定为止的稳定时间变长。因此，现状是为了提高控制性能将PID的各系数调整为最佳值而需要花费大量的时间和劳力。

因此，提出了使用机器学习模型的AI控制。在AI控制中，如果以朝向某个控制对象的目标值抑制过冲等现象并且更快地稳定在目标值附近的方式通过进行机器学习而生成机器学习模型，则能够进行期待的控制。作为生成这样的机器学习模型的方法之一，可以列举强化学习。一般来说，在强化学习算法中，在学习初期，机器学习模型采取随机地变更操作量的行为，通过反复多次尝试，更新机器学习模型。在这种情况下，当前的课题在于到完成控制性能良好的模型为止需要大量的学习时间。此外，在将强化学习应用于响应时间长的温度控制等的N次延迟系统的情况下，因学习初期的行为选择的随机性、不适当的行为幅度的设定，而产生如下问题：不论反复执行多少次学习也不能收敛于目标值、或者不能得到控制性能良好的模型。

因此，本实施方式的学习装置100在用于控制对象20的AI控制的机器学习模型的强化学习开始之前，通过进行事先学习对该机器学习模型进行初始设定。即，本实施方式的学习装置100对机器学习模型进行初始设定，以使机器学习模型的强化学习不是从全新的状态开始，而是从通过事先学习导入了事先知识的状态开始。由此，根据本实施方式的学习装置100，由于将控制的事先知识导入到机器学习模型中，所以能够实现此后的强化学习中的学习时间的缩短和模型的精度提高。即，在事后执行的强化学习的学习初期，不是选择机器学习模型随机地变更操作量的行为，而是以包含PID控制、手动控制等的技术诀窍的初始设定为基础来选择行为，因此能够以较少的学习次数得到能够实现更好的控制性能的模型。

此外，本实施方式的学习装置100选定初始设定数据，从选定的初始设定数据中提取用于事先学习的样本数据。由此，根据本实施方式的学习装置100，在事先学习中，不是使用取得的所有初始设定数据，而是例如积极地使用控制性能良好时的数据、相似性低的数据，因此能够进一步实现学习时间的缩短和模型的精度提高。

此外，本实施方式的学习装置100定义机器学习模型用于选择行为的选项，提取包含于初始设定数据的状态数据与包含于选项的行为的组合作为用于事先学习的样本数据。由此，根据本实施方式的学习装置100，能够将机器学习模型输出的行为限定为包含于选项的任意一个行为，因此能够抑制强化学习的初始学习中的行为选择的随机性、不适当的行为幅度的设定引起的不良影响。

此时，本实施方式的学习装置100基于包含于初始设定数据的行为数据表示的行为的分布来定义选项。由此，根据本实施方式的学习装置100，例如，能够以机器学习模型输出在PID控制下或手动控制下采取的频度高的行为的方式进行初始设定。

图6表示本实施方式的变形例的学习装置100的框图的一例。在图6中，对具有与图1相同的功能和构成的构件标注相同的附图标记，并且除了以下不同点以外省略说明。本变形例的学习装置100除了具有通过事先学习对机器学习模型进行初始设定的功能以外，还具有通过强化学习更新机器学习模型的功能。本变形例的学习装置100除了上述实施方式的学习装置100所具备的功能部以外，还包括强化学习部610。

在本变形例中，数据取得部110根据通过机器学习模型对控制对象20进行控制来取得状态数据。即，数据取得部110取得使用初始设定完成的机器学习模型或对其进行了更新的更新完成的机器学习模型进行了AI控制下的状态数据。数据取得部110将取得的状态数据提供给强化学习部610。此外，数据取得部110将取得的状态数据输入到存储于模型存储部140的机器学习模型。

强化学习部610将状态数据以及根据将状态数据输入到机器学习模型而从机器学习模型取得的行为数据作为学习数据来进行强化学习，由此更新机器学习模型。例如，强化学习部610将机器学习模型根据数据取得部110取得的状态数据输入到存储于模型存储部140的机器学习模型(初始设定完成的机器学习模型或对其进行了更新的更新完成的机器学习模型)而输出的行为作为行为数据来取得。

在此，机器学习模型例如以如下方式输出与设施10的状态对应的行为。机器学习模型对于输入的状态数据与包含于选项的各行为的组合，与已保存在表中的各样本数据之间进行核(Kernel)计算，分别计算与各样本数据之间的距离。并且，机器学习模型将对各样本数据计算出的距离乘以各自的权重后的值依次相加，对每个组合计算评价值。并且，机器学习模型将评价值最高的组合中的行为作为下一次行为而输出。强化学习部610将例如以上述方式从机器学习模型输出的行为作为行为数据而取得。并且，强化学习部610将以上述方式取得的AI控制下的状态数据和行为数据作为学习数据来执行强化学习。

这里的强化学习除了对机器学习模型进行初始设定这方面以外，可以与以往的强化学习相同。例如，强化学习部610基于学习数据中的各样本数据以及针对该样本数据的回报值，通过KDPP(Kernel Dynamic Policy Programming内核动态策略规划)等已知的算法来执行强化学习。此时，强化学习部610对基于所操作的控制对象20的下一状态数据选择的行为进行评价，并且计算回报值。在这种情况下，作为一例，强化学习部610可以以测量值PV越接近目标值则回报值越高的方式设定回报函数。由此，强化学习部610除了将初始设定的表中的各样本数据的权重覆盖以外，还将至此为止未保存的新的样本数据追加到表中。

图7表示本实施方式的变形例的学习装置100通过机器学习模型输出与状态对应的行为时的运算结果的一例。在本图中，作为一例表示了在AI控制下，学习装置100取得状态(状态1，状态2)＝(0.3，0.6)作为状态数据的情况。此外，在本图中，作为一例表示了由操作变更量ΔMV＝－10、－5、－3、0、3、5、10构成的操作变更量ΔMV的集合被定义为选项的情况。因此，在本图中，各行表示输入的状态数据与包含于选项的各行为的组合。

作为一例，在第一行中，意味着在状态(0.3，0.6)下选择作为选项之一的行为(10)。同样，在第二行中，意味着在状态(0.3，0.6)下选择作为选项之一的行为(5)。机器学习模型对这样的状态数据与包含于选项的各行为的组合分别计算评价值。

例如，机器学习模型对于第一行的组合，在与已保存在表中的各样本数据之间进行核计算，分别计算出与各样本数据之间的距离。并且，机器学习模型将对各样本数据计算出的距离乘以各自的权重后的值依次相加，计算出评价值S(10)。机器学习模型反复执行这样的运算，分别计算选择了行为(5)时的评价值S(5)、选择了行为(3)时的评价值S(3)、选择了行为(0)时的评价值S(0)、选择了行为(－3)时的评价值S(－3)、选择了行为(－5)时的评价值S(－5)、以及选择了行为(－10)时的评价值S(－10)。并且，机器学习模型将评价值最高的组合中的行为作为下一行为而输出。作为一例，在评价值S(－5)最高的情况下，机器学习模型输出行为(－5)作为下一行为。

图8表示本实施方式的变形例的学习装置100通过强化学习而更新的机器学习模型的表的一例。如本图所示，在事先学习中进行了初始设定的各样本数据的权重从初始值被更新。此外，如本图所示，在初始学习中未保存的新的样本数据被追加到表中。强化学习部610基于设施10中的下一状态数据，评价机器学习模型例如根据图7的评价结果而输出的行为，并且计算回报值。并且，强化学习部610更新机器学习模型，以进一步提高通过一系列行为而得到的回报。即，强化学习部610为了使机器学习模型容易输出进一步提高回报的行为，覆盖保存在表中的各样本数据的权重。此外，强化学习部610也能够将至此为止未保存的新的样本数据追加到表中。强化学习部610例如以上述方式更新机器学习模型，以进一步提高通过一系列行为而得到的回报。

在一般的强化学习中，在学习初期，机器学习模型选择随机的行为，而相对于此，在本变形例的学习装置中，选择以包含PID控制或手动控制等的技术诀窍的初始设定为基础的行为，因此能够搜索能够以较少的学习次数实现更好的控制性能的控制方法。

图9将本实施方式的控制装置900的框图的一例与设置有控制对象20的设施10一起表示。在图9中，对具有与图6相同的功能和构成的构件标注相同的附图标记，并且除了以下不同点以外省略说明。本实施方式的控制装置900除了具有上述学习装置100的功能以外，还具有通过机器学习模型对控制对象20进行控制的功能。控制装置900除了上述学习装置100所具备的功能部以外，还包括控制部910。

控制部910通过机器学习模型对控制对象20进行控制。例如，控制部910将机器学习模型输出的行为提供给控制对象20，对控制对象20进行控制。即，控制部910可以作为所谓的AI控制器发挥功能。由此，本实施方式的控制装置900可以包括上述学习装置100以及通过机器学习模型对控制对象进行控制的控制部910。另外，此时，控制部910与其他功能部既可以一体地构成，也可以分体(例如其他功能部在云端上执行等)地构成。

此外，也可以将这样的控制装置900与现有的FB控制器、例如PID控制器组合，根据状况切换控制对象20的控制。即，控制装置900还可以包括FB控制器，根据各种状况(例如学习的进展状况、控制精度等)，切换FB控制器的FB控制和机器学习模型的AI控制，对控制对象20进行控制。

在此，例示一个能够实施的方式并对上述实施方式进行了说明。但是，上述实施方式可以以各种方式变更或应用。例如，在上述说明中，作为一例表示了定义部124定义与设施的状态无关的共同的选项的情况。即，作为一例表示了定义部124与设施10的状态无关，将由操作变更量ΔMV＝－10、－5、－3、0、3、5、10构成的操作变更量ΔMV的集合定义为唯一的选项的情况。但是，如果对设施10的每个状态分别进行分析，则操作变更量ΔMV的分布也可能成为不同的结果。例如，在水槽接近空的(测量值PV接近0)状态下，可以认为绝对值大、且符号为+的操作变更量ΔMV的出现次数变多。相反，在水槽的水位接近目标值的状态下，可以认为绝对值小、且符号为+或－的操作变更量ΔMV的出现次数变多。由此，在设施10的状态可能对操作变更量ΔMV的出现次数产生影响的情况下，定义部124可以定义与设施10的状态对应的多个选项。

本发明的各种实施方式可以参照流程图和框图进行记载，在此模块可以表示(1)执行操作的过程的阶段或(2)具有执行操作的作用的装置的部分。特定的阶段和部分可以通过专用电路、与存储在计算机可读介质上的计算机可读指令一起供给的可编程电路和/或与存储在计算机可读介质上的计算机可读指令一起供给的处理器来实现。专用电路可以包括数字和/或模拟硬件电路，也可以包括集成电路(IC)和/或分立电路。可编程电路可以包括可重构硬件电路，该可重构硬件电路包括逻辑AND、逻辑OR、逻辑XOR、逻辑NAND、逻辑NOR和其他逻辑操作、触发器、寄存器、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)等存储器元件等。

计算机可读介质可以包括能够存储由适当的设备执行的指令的任意的有形设备，其结果，具有存储在其中的指令的计算机可读介质包括包含为了制作用于执行由流程图或框图指定的操作的手段而能够执行的指令的产品。作为计算机可读介质的例子可以包括：电子存储介质、磁存储介质、光存储介质、电磁存储介质、半导体存储介质等。作为计算机可读介质的更具体的例子可以包括：软(注册商标)盘、磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存器)、电可擦除可编程只读存储器(EEPROM)、静态随机存取存储器(SRAM)、光盘只读存储器(CD-ROM)、数字多用途盘(DVD)、蓝光(RTM)碟、存储棒、集成电路卡等。

计算机可读指令包括由包括汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微码、固件指令、状态设定数据、或Smalltalk(注册商标)、JAVA(注册商标)、C++等面向对象编程语言、和“C”编程语言或同样的编程语言那样的现有的过程型编程语言的一个或多个编程语言的任意组合描述的源代码和目标代码中的任意一个。

计算机可读指令可以经由本地或局域网(LAN)、互联网等广域网(WAN)提供给通用计算机、特殊目的的计算机或其他可编程的数据处理装置的处理器或可编程电路，并且为了制作用于执行由流程图或框图指定的操作的手段而执行计算机可读指令。作为处理器的例子包括：计算机处理器、处理单元、微处理器、数字信号处理器、控制器、微控制器等。

图10表示可以整体或局部实现本发明的多种方式的计算机9900的例子。通过安装于计算机9900的程序，计算机9900能够发挥作为与本发明的实施方式的装置相关联的操作或该装置的一个或多个部分的功能、或者执行该操作或该一个或多个部分、和/或计算机9900能够执行本发明的实施方式的过程或该过程的阶段。为了使计算机9900执行与本说明书记载的流程图和框图的模块中的几个或全部相关联的特定的操作，可以由CPU9912执行这种程序。

本实施方式的计算机9900包括CPU9912、RAM9914、图形控制器9916和显示装置9918，它们通过主控制器9910相互连接。计算机9900还包括通信接口9922、硬盘驱动器9924、DVD驱动器9926和IC卡驱动器那样的输入/输出单元，它们经由输入/输出控制器9920与主控制器9910连接。计算机还包括ROM9930和键盘9942那样的传统的输入/输出单元，它们经由输入/输出芯片9940与输入/输出控制器9920连接。

CPU9912按照存储在ROM9930和RAM9914内的程序而动作，由此控制各单元。图形控制器9916获取在RAM9914内提供的帧缓存器等或其自身中的由CPU9912生成的图像数据，并且在显示装置9918上显示图像数据。

通信接口9922能够经由网络与其他电子设备进行通信。硬盘驱动器9924存储由计算机9900内的CPU9912使用的程序和数据。DVD驱动器9926从DVD-ROM9901读取程序或数据，经由RAM9914向硬盘驱动器9924提供程序或数据。IC卡驱动器从IC卡读取程序和数据和/或将程序和数据写入IC卡。

ROM9930在其中存储激活时由计算机9900执行的引导程序等和/或依赖于计算机9900的硬件的程序。输入/输出芯片9940也可以经由并行端口、串行端口、键盘端口、鼠标端口等使各种输入/输出单元与输入/输出控制器9920连接。

由DVD-ROM9901或IC卡那样的计算机可读介质提供程序。程序从计算机可读介质读取，并且安装于也作为计算机可读介质的例子的硬盘驱动器9924、RAM9914或ROM9930，并由CPU9912执行。在这些程序内描述的信息处理被读取到计算机9900，从而带来程序与上述各种类型的硬件资源之间的协作。装置或方法可以通过伴随计算机9900的使用来实现信息的操作或处理而构成。

例如，在计算机9900和外部设备之间执行通信的情况下，CPU9912可以执行加载于RAM9914的通信程序，基于在通信程序中描述的处理对通信接口9922指示通信处理。通信接口9922在CPU9912的控制下，读取存储于在RAM9914、硬盘驱动器9924、DVD-ROM9901或IC卡那样的记录介质内提供的发送缓冲处理区域的发送数据，将读取到的发送数据发送到网络，或者将从网络接收到的接收数据写入到在记录介质上提供的接收缓冲处理区域等。

此外，CPU9912可以将存储于硬盘驱动器9924、DVD驱动器9926(DVD-ROM9901)、IC卡等那样的外部记录介质的文件或数据库的全部或必要的部分读取到RAM9914，并对RAM9914上的数据执行各种类型的处理。接着，CPU9912将处理后的数据写回到外部记录介质。

如各种类型的程序、数据、表和数据库那样的各种类型的信息可以存储于记录介质并接受信息处理。CPU9912对从RAM9914读取的数据执行本公开各处记载的各种类型的处理并将结果写回到RAM9914，该各种类型的处理包括由程序的指令序列指定的各种类型的操作、信息处理、条件判断、条件分支、无条件分支、信息的检索/置换等。此外，CPU9912可以检索记录介质内的文件、数据库等中的信息。例如，在分别具有与第二属性的属性值相关联的第一属性的属性值的多个条目存储在记录介质内的情况下，CPU9912可以从该多个条目中检索与指定第一属性的属性值的条件一致的条目，并且读取存储在该条目内的第二属性的属性值，由此获取与满足预先确定的条件的第一属性相关联的第二属性的属性值。

以上说明的程序或软件模块可以存储在计算机9900上或计算机9900附近的计算机可读介质中。此外，在与专用通信网络或互联网连接的服务器系统内提供的硬盘或RAM那样的记录介质能够用作计算机可读介质，由此，经由网络将程序提供给计算机9900。

以上，利用实施方式对本发明进行了说明，但是本发明的技术范围并不限定于上述实施方式记载的范围。对本领域技术人员而言能够对上述实施方式进行各种变更或改良是显而易见的。根据权利要求书的记载可知，进行了这种变更或改良的方式也可以包含于本发明的技术范围。

在权利要求书、说明书和附图中所示的装置、系统、程序和方法中的动作、过程、步骤和阶段等各处理的执行顺序没有特别明示为“更早”、“之前”等，此外，应注意的是只要在后一处理中没有使用前一处理的输出，则能够以任意的顺序实现。关于权利要求书、说明书和附图中的动作流程，即使为了便于说明而使用“首先，”、“接着，”等进行了说明，也不意味着必须按照该顺序实施。

Claims

1.一种学习装置，其特征在于包括：

数据取得部，在由输出与设施的状态对应的行为的机器学习模型对设置于所述设施的控制对象进行控制之前，取得包含表示所述设施的状态的状态数据以及表示针对所述控制对象的行为的行为数据的初始设定数据；以及

事先学习部，在所述机器学习模型的强化学习开始之前，通过基于所述初始设定数据进行事先学习，对所述机器学习模型进行初始设定。

2.根据权利要求1所述的学习装置，其特征在于，还包括提取部，所述提取部从所述初始设定数据中提取在所述机器学习模型的初始设定中使用的样本数据。

3.根据权利要求2所述的学习装置，其特征在于，

所述提取部具有选定所述初始设定数据的选定部，

所述提取部从所述选定的初始设定数据中提取所述样本数据。

4.根据权利要求2或3所述的学习装置，其特征在于，

所述提取部具有定义所述机器学习模型用于选择所述行为的选项的定义部，

所述提取部将包含于所述初始设定数据的所述状态数据与包含于所述选项的行为的组合作为所述样本数据来提取。

5.根据权利要求4所述的学习装置，其特征在于，所述机器学习模型基于针对包含于所述初始设定数据的所述状态数据与包含于所述选项的各行为的组合的各自的权重，输出与所述设施的状态对应的所述行为。

6.根据权利要求4或5所述的学习装置，其特征在于，所述定义部基于包含于所述初始设定数据的所述行为数据表示的行为的分布来定义所述选项。

7.根据权利要求4至6中任意一项所述的学习装置，其特征在于，所述定义部定义与所述设施的状态无关的共同的所述选项。

8.根据权利要求4至6中任意一项所述的学习装置，其特征在于，所述定义部定义与所述设施的状态对应的多个所述选项。

9.根据权利要求1至8中任意一项所述的学习装置，其特征在于，

所述数据取得部根据通过所述机器学习模型对所述控制对象进行控制来取得所述状态数据，

所述学习装置还包括强化学习部，所述强化学习部通过将所述状态数据以及根据将所述状态数据输入到所述机器学习模型而从所述机器学习模型取得的所述行为数据作为学习数据来进行强化学习，更新所述机器学习模型。

10.根据权利要求9所述的学习装置，其特征在于，

所述事先学习部基于所述初始设定数据以根据所述状态数据的输入而选择更接近与所述状态数据对应的所述行为数据的行为的方式对所述机器学习模型进行初始设定，

所述强化学习部以进一步提高通过一系列的行为而得到的回报的方式更新所述机器学习模型。

11.一种控制装置，其特征在于包括：

如权利要求1至10中任意一项所述的学习装置；以及

控制部，通过所述机器学习模型对所述控制对象进行控制。

12.一种学习方法，其特征在于包括：

在由输出与设施的状态对应的行为的机器学习模型对设置于所述设施的控制对象进行控制之前，取得包含表示所述设施的状态的状态数据以及表示针对所述控制对象的行为的行为数据的初始设定数据；以及

在所述机器学习模型的强化学习开始之前，通过基于所述初始设定数据进行事先学习，对所述机器学习模型进行初始设定。

13.一种记录有学习程序的记录介质，其特征在于，

计算机通过执行所述程序而发挥作为数据取得部和事先学习部的功能，

所述数据取得部在由输出与设施的状态对应的行为的机器学习模型对设置于所述设施的控制对象进行控制之前，取得包含表示所述设施的状态的状态数据以及表示针对所述控制对象的行为的行为数据的初始设定数据，

所述事先学习部在所述机器学习模型的强化学习开始之前，通过基于所述初始设定数据进行事先学习，对所述机器学习模型进行初始设定。