CN117131339A

CN117131339A - 模型选择装置、模型选择方法和非临时性计算机可读介质

Info

Publication number: CN117131339A
Application number: CN202310594705.XA
Authority: CN
Inventors: 高见豪; 冈本浩実; 佐藤正彦; 藤井英幸; 神宫善行; 御供颂弘
Original assignee: Yokogawa Electric Corp
Current assignee: Yokogawa Electric Corp
Priority date: 2022-05-26
Filing date: 2023-05-24
Publication date: 2023-11-28
Also published as: US20230384742A1; JP2023173459A; EP4283412A1

Abstract

本发明提供模型选择装置、模型选择方法和非临时性计算机可读介质，模型选择装置包括：存储多个候选模型的候选模型存储部，所述多个候选模型分别通过将输出评价了设备的状态的指标的评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与所述设备中的状态对应的行动；状态数据取得部，取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据；指标取得部，取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标；模型选择部，基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型；以及对象模型输出部，输出所述对象模型。

Description

模型选择装置、模型选择方法和非临时性计算机可读介质

技术领域

本发明涉及模型选择装置、模型选择方法和非临时性计算机可读介质。

背景技术

在专利文献1中记载了“模型45输出推荐控制参数，该推荐控制参数表示为了根据测量数据的输入来提高回报值而推荐的第一种控制内容”。此外，在非专利文献1中记载了一种“FKDPP(Factorial Kernel Dynamic Policy Programming，阶乘内核动态策略规划)”。

现有技术文献

专利文献1：日本专利公开公报特开2021-086283

非专利文献1：“横河电机和NAIST面向化学工厂的强化学习”、日经Robotics 2019年3月号

发明内容

在本发明的第一方式中提供一种模型选择装置。所述模型选择装置包括：存储多个候选模型的候选模型存储部，所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备中的状态对应的行动，所述评价模型输出评价了所述设备的状态的指标；状态数据取得部，取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据；指标取得部，取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标；模型选择部，基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型；以及对象模型输出部，输出所述对象模型。

在所述模型选择装置中，可以是所述模型选择部选择所述多个候选模型中的输出了所述指标达到最高的行动的候选模型作为所述对象模型。

在所述模型选择装置中的任意一个中，可以是所述模型选择部选择所述多个候选模型中的输出了多个时间点的所述指标的统计量达到最高的行动的候选模型作为所述对象模型。

在所述模型选择装置中的任意一个中，可以是所述统计量包含平均值和最小值中的至少任意一个。

在所述模型选择装置中的任意一个中，可以是所述模型选择部根据所述评价模型被更新而重新选择所述对象模型。

在所述模型选择装置中的任意一个中，可以是所述模型选择部根据经过了预先确定的时间而重新选择所述对象模型。

所述模型选择装置中的任意一个也可以还包括根据输出了所述对象模型而接收用户输入的输入部。

所述模型选择装置中的任意一个也可以还包括使用所述对象模型对所述控制对象进行控制的控制部。

所述模型选择装置中的任意一个也可以还包括通过所述强化学习生成成为所述多个候选模型的多个作业模型的作业模型生成部。

所述模型选择装置中的任意一个也可以还包括存储所述评价模型的评价模型存储部。

所述模型选择装置中的任意一个也可以还包括通过机器学习生成所述评价模型的评价模型生成部。

在本发明的第二方式中提供一种模型选择方法。由计算机执行所述模型选择方法，所述模型选择方法包括：存储多个候选模型，所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备中的状态对应的行动，所述评价模型输出评价了所述设备的状态的指标；取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据；取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标；基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型；以及输出所述对象模型。

在本发明的第三方式中提供一种记录有模型选择程序的非临时性计算机可读介质。计算机通过执行所述模型选择程序而发挥作为候选模型存储部、状态数据取得部、指标取得部、模型选择部和对象模型输出部的功能，所述候选模型存储部存储多个候选模型，所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备中的状态对应的行动，所述评价模型输出评价了所述设备的状态的指标，所述状态数据取得部取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据，所述指标取得部取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标，所述模型选择部基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型，所述对象模型输出部输出所述对象模型。

另外，上述发明的概要没有列举出本发明的所有特征。此外，这些特征组的子组合也可以成为发明。

附图说明

图1表示控制系统1的框图的一例。

图2表示评价模型管理装置200的框图的一例。

图3表示作业模型管理装置300的框图的一例。

图4表示本实施方式的模型选择装置400的框图的一例。

图5表示控制装置500的框图的一例。

图6表示本实施方式的模型选择装置400可执行的模型选择方法的流程图的一例。

图7表示第一变形例的模型选择装置400的框图的一例。

图8表示第二变形例的模型选择装置400的框图的一例。

图9表示第三变形例的模型选择装置400的框图的一例。

图10表示可以整体或局部实现本发明的多种方式的计算机9900的例子。

附图标记说明

1控制系统，10设备，15控制对象，100模拟器，200评价模型管理装置，210评价模型生成部，220评价模型存储部，230评价模型输出部，300作业模型管理装置，310评价模型取得部，320作业模型生成部，330作业模型存储部，340作业模型输出部，400模型选择装置，410候选模型取得部，420候选模型存储部，430状态数据取得部，440指标取得部，450模型选择部，460对象模型输出部，470输入部，500控制装置，510对象模型取得部，520实际环境数据取得部，530控制部，9900计算机，9901DVD-ROM，9910主控制器，9912CPU，9914RAM，9916图形控制器，9918显示装置，9920输入/输出控制器，9922通信接口，9924硬盘驱动器，9926DVD驱动器，9930ROM，9940输入/输出芯片，9942键盘。

具体实施方式

下面，通过发明的实施方式对本发明进行说明，但是以下的实施方式并不限定权利要求书所涉及的发明。此外，不限于在实施方式中说明的特征的组合的全部是发明的解决手段所必须的。

图1表示控制系统1的框图的一例。另外，这些模块是分别在功能上分离的功能模块，也可以不一定与实际的装置结构一致。即，在本图中，虽然表示为一个模块，但是也可以不一定由一个装置构成。此外，在本图中，虽然表示为不同的模块，但是它们也可以不一定由不同的装置构成。此后的框图也同样。

在控制系统1中，通过机器学习生成输出评价了设备10的状态的指标的评价模型，并且通过将该评价模型的输出作为回报的至少一部分的强化学习来生成作业模型。并且，在控制系统1中，使用所生成的作业模型对设备10中的控制对象15进行控制。使用这样的作业模型的控制也被称为AI(Artificial Intelligence，人工智能)控制。在这样的控制系统1中，在存在多个能够在AI控制中利用的作业模型的情况下，本实施方式的模型选择装置400从多个候选中选择用于控制的模型。

在控制系统1中可以包括设备10、模拟器100、评价模型管理装置200、作业模型管理装置300、模型选择装置400和控制装置500。

设备10是设置有控制对象15的设施或装置。例如，设备10可以是工厂，也可以是将多个机器复合而成的复合装置。作为工厂，除了化学或生物等工业工厂以外，还可以列举对气田或油田等井口及其周边进行管理控制的工厂、对水力、火力、原子能等发电进行管理控制的工厂、对太阳光或风力等环境发电进行管理控制的工厂、以及对上下水或水坝等进行管理控制的工厂等。

此后，作为一例说明设备10是作为工艺装置之一的蒸馏装置的情况。一般来说，蒸馏装置在蒸馏塔内使低沸点成分蒸发并从塔顶抽出，通过冷凝器使抽出的低沸点成分的蒸汽冷凝并贮存于回流滚筒。然后，蒸馏装置使贮存于回流滚筒的一部分回流到蒸馏塔内，使其与蒸馏塔内的蒸汽接触，蒸馏成低沸点成分和高沸点成分。在这样的蒸馏装置中，作为一例，为了控制回流量，对设置在回流滚筒与蒸馏塔之间的阀进行开闭控制。

控制对象15是设置于设备10并成为控制的对象的机器。例如，控制对象15可以是对设备10的过程中的物体的量、温度、压力、流量、速度和pH等中的至少一个物理量进行控制的阀、加热器、电动机、风扇和开关等执行器即操作端，并且执行与操作量对应的给定的操作。此后，作为一例说明控制对象15是设置在蒸馏装置中的回流滚筒与蒸馏塔之间的阀的情况。但是，并不限定于此。控制对象15也可以是控制操作端的控制器。即，在本说明书中使用的“控制”这样的术语可以广义地解释为除了直接控制操作端以外，还包括经由控制器间接地控制操作端。

在设置有控制对象15的设备10中可以设置能够测量设备10的内外的各种状态(物理量)的一个或多个传感器。作为一例，在设备10为蒸馏装置的情况下，传感器可以输出测量了蒸馏装置的各个位置(例如塔顶、塔中央、塔底等)的温度、各种路径中的流量等的测量值PV(Process Variable，过程变量)。在表示设备10的状态的状态数据中可以包含这样的测量值PV。此外，在状态数据中可以包含表示作为控制对象15的阀的开闭度的操作量MV(Manipulated Variable，操作变量)。在状态数据中，除了表示以上述方式对控制对象15进行控制的结果的运转状态的运转数据以外，还可以包含表示设备10中的能量或原材料的消耗量的消耗量数据、表示对控制对象15的控制可能作为干扰起作用的物理量的干扰环境数据等。

蒸馏装置是在石油、化学工艺中非常常用的装置之一，具有塔顶与塔底的相互干扰强、时间常数长、动作为非线性的特征。在这样的蒸馏装置中，在为了控制回流量而通过PID(Proportional Integral Differential，比例积分微分)等对阀进行开闭控制的情况下，难以实现控制性的提高。此外，在作业员以确保质量、节能、削减GHG(GreenHouse Gas，温室气体)和提高成品率等多个项目为目的对这样的阀进行手动操作的情况下，以何种程度对阀进行开闭控制在很大程度上依赖于作业员的经验和直觉。

因此，在对这样的阀进行开闭控制时，考虑使用通过强化学习生成的作业模型。本实施方式的模型选择装置400例如可以将这样的作业模型作为选择的对象。

模拟器100模拟设备10中的作业。例如，模拟器100可以是基于设备10中的设计信息而设计的，执行模拟了设备10中的作业的举动。模拟器100通过取得模拟了针对控制对象15的操作量的信号而使环境发生变化，从而输出模拟了设备10中的状态(例如传感器的预测值)的模拟数据。作为一例，模拟器100可以由预测蒸馏装置的状态的预测模型和工厂控制模拟器构成。预测模型可以利用使用了深度学习的时间序列数据的模型化技术，从而能够根据所存储的过程数据来预测反应器的状态变化。此外，工厂控制模拟器可以对控制对象15虚拟地模拟根据目标值SV与控制量CV的差值来导出操作量MV的PID控制。即，模拟器100除了状态预测值以外，还可以模拟设备10中的举动本身。

评价模型管理装置200管理评价模型，所述评价模型输出评价了设备10的状态的指标。例如，评价模型管理装置200可以通过机器学习生成评价模型，并且将所生成的评价模型存储在自身装置内。此外，评价模型管理装置200可以将所生成的评价模型输出到作业模型管理装置300。

作业模型管理装置300管理多个作业模型，所述多个作业模型输出与设备10的状态对应的行动。例如，作业模型管理装置300可以通过将评价模型管理装置200管理的评价模型的输出作为回报的至少一部分的强化学习，生成多个作业模型，并且将所生成的多个作业模型存储在自身装置内。此外，作业模型管理装置300可以将所生成的多个作业模型输出到模型选择装置400。

在存在多个能够在AI控制中利用的作业模型的情况下，模型选择装置400从多个候选中选择用于控制的模型。例如，模型选择装置400可以取得作业模型管理装置300管理的多个作业模型作为多个候选模型，从该多个候选模型中选择用于对控制对象15进行控制的对象模型。此外，模型选择装置400可以将所选择的对象模型输出到控制装置500。

控制装置500使用对象模型对控制对象15进行控制。例如，控制装置500可以使用模型选择装置400选择的对象模型，对设备10中的控制对象15进行控制。

由此，在控制系统1中，AI自动地搜索作业中的瓶颈(潜在故障)，并且生成用于改善的指标作为评价模型。并且，AI基于给定的指标进行反复尝试，生成指示更好的作业方法的作业模型。由此，根据控制系统1，提供能够使用AI技术自主地控制设备10的环境。在这样的控制系统1中，在存在多个能够在AI控制中利用的作业模型的情况下，本实施方式的模型选择装置400从多个候选中选择用于控制的模型。对此，依次说明各装置的详细情况。

图2表示评价模型管理装置200的框图的一例。评价模型管理装置200可以是PC(个人计算机)、平板型计算机、智能手机、工作站、服务器计算机或通用计算机等计算机，也可以是连接有多个计算机的计算机系统。这样的计算机系统也是广义的计算机。此外，评价模型管理装置200也可以通过在计算机内可执行一个或多个的虚拟计算机环境来实现。代替于此，评价模型管理装置200可以是设计成评价模型的管理用的专用计算机，也可以是由专用电路实现的专用硬件。此外，在能够与互联网连接的情况下，评价模型管理装置200也可以通过云计算来实现。

评价模型管理装置200包括评价模型生成部210、评价模型存储部220和评价模型输出部230。

评价模型生成部210生成评价模型，所述评价模型输出评价了设备10的状态的指标。例如，评价模型生成部210可以取得设备10中的作业目标(工厂KPI(Key PerformanceIndicator：重要业绩评价指标)等)、表示设备10的状态的状态数据和训练标签，并且基于这些来生成标签数据。并且，评价模型生成部210可以将所生成的标签数据作为学习数据，通过机器学习的算法生成评价模型。由于评价模型的生成处理自身可以是任意的，所以在此省略更详细的说明。评价模型生成部210将所生成的评价模型供给到评价模型存储部220。

评价模型存储部220存储评价模型。例如，评价模型存储部220可以存储由评价模型生成部210生成的评价模型。另外，在上述说明中，作为一例表示了评价模型存储部220存储在评价模型管理装置200的内部生成的评价模型的情况，但是并不限定于此。评价模型存储部220也可以存储在评价模型管理装置200的外部生成的评价模型。评价模型存储部220复制所存储的评价模型并供给到评价模型输出部230。

评价模型输出部230输出评价模型。例如，评价模型输出部230可以将评价模型存储部220所复制的评价模型经由网络输出到作业模型管理装置300。

图3表示作业模型管理装置300的框图的一例。关于作业模型管理装置300，也与评价模型管理装置200同样，可以是计算机，也可以是连接有多个计算机的计算机系统。此外，作业模型管理装置300也可以通过在计算机内可执行的一个或多个虚拟计算机环境来实现。代替于此，作业模型管理装置300可以是设计成作业模型的管理用的专用计算机，也可以是由专用电路实现的专用硬件。此外，在能够与互联网连接的情况下，作业模型管理装置300也可以通过云计算来实现。

作业模型管理装置300包括评价模型取得部310、作业模型生成部320、作业模型存储部330和作业模型输出部340。

评价模型取得部310取得输出评价了设备10的状态的指标的评价模型。例如，评价模型取得部310可以经由网络取得从评价模型输出部230输出的评价模型。评价模型取得部310将所取得的评价模型供给到作业模型生成部320。

作业模型生成部320通过将评价模型的输出作为回报的至少一部分的强化学习，生成能够输出与设备10的状态对应的行动的多个作业模型。作为一例，这样的作业模型可以具有数据表，该数据表由表示所采样的状态数据的集合的S与在各状态下采取的行动A的组合(S，A)以及根据回报计算出的权重W构成。另外，作为用于计算这样的权重W的回报的至少一部分可以使用评价模型的输出。

在生成这样的作业模型时，作业模型生成部320可以取得表示学习环境的状态的学习环境数据。此时，在作为学习环境使用对设备10中的作业进行模拟的模拟器100的情况下，作业模型生成部320可以取得来自模拟器100的模拟数据作为学习环境数据。但是，并不限定于此。作为学习环境也可以使用实际的设备10。在这种情况下，作业模型生成部320可以取得表示设备10的状态的状态数据作为学习环境数据。

接着，作业模型生成部320可以随机地或使用后述的FKDPP等已知的AI算法来确定行动，并且将基于该行动的操作量提供给学习环境中的控制对象。学习环境的状态与此对应地变化。

然后，作业模型生成部320可以再次取得学习环境数据。由此，作业模型生成部320能够取得根据操作量被提供给控制对象而变化后的学习环境的状态，所述操作量基于所确定的行动。

并且，作业模型生成部320可以至少部分地基于评价模型的输出来计算回报值。作为一例，可以根据将表示变化后的学习环境的状态的学习环境数据输入到评价模型，将该评价模型输出的指标直接作为回报值来计算。

作业模型生成部320在反复多次进行了与这样的行动的确定对应的状态的取得处理之后，除了覆盖数据表中的权重列的值以外，还可以将至此为止未保存的新的样本数据追加到数据表中的新的行中，由此更新作业模型。作业模型生成部320通过反复多次进行这样的更新处理，能够生成作业模型。由于作业模型的生成本身可以是任意的，所以在此省略更详细的说明。

作业模型生成部320例如通过在不同的学习环境下或以不同的学习算法执行这样的作业模型的生成处理，能够生成相互不同的多个作业模型。作业模型生成部320将所生成的多个作业模型供给到作业模型存储部330。

作业模型存储部330存储多个作业模型。例如，作业模型存储部330可以存储由作业模型生成部320生成的多个作业模型。另外，在上述说明中，作为一例说明作业模型存储部330存储在作业模型管理装置300的内部生成的多个作业模型的情况，但是并不限定于此。作业模型存储部330也可以存储一部分或全部在作业模型管理装置300的外部生成的多个作业模型。作业模型存储部330复制所存储的多个作业模型并供给到作业模型输出部340。

作业模型输出部340输出多个作业模型。例如，作业模型输出部340可以将作业模型存储部330复制的多个作业模型经由网络输出到模型选择装置400。

图4表示本实施方式的模型选择装置400的框图的一例。关于模型选择装置400，也与评价模型管理装置200同样，可以是计算机，也可以是连接有多个计算机的计算机系统。此外，模型选择装置400也可以通过在计算机内可执行一个或多个的虚拟计算机环境来实现。代替于此，模型选择装置400可以设计成模型的选择用的专用计算机，也可以是由专用电路实现的专用硬件。此外，在能够与互联网连接的情况下，模型选择装置400也可以通过云计算来实现。

模型选择装置400包括：候选模型取得部410、候选模型存储部420、状态数据取得部430、指标取得部440、模型选择部450、对象模型输出部460和输入部470。

候选模型取得部410取得多个候选模型。例如，候选模型取得部410可以取得作业模型输出部340输出的多个作业模型作为多个候选模型。候选模型取得部410将所取得的多个候选模型供给到候选模型存储部420。

候选模型存储部420存储多个候选模型。例如，候选模型存储部420可以存储由候选模型取得部410取得的多个候选模型。候选模型存储部420例如能够以上述方式存储多个候选模型，该多个候选模型分别通过将输出评价了设备10的状态的指标的评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备10中的状态对应的行动。

状态数据取得部430取得多个状态数据。例如，状态数据取得部430可以取得将基于候选模型存储部420中存储的多个候选模型的输出的各个操作量提供给设备10中的控制对象15时的表示设备10的状态的多个状态数据。状态数据取得部430将所取得的多个状态数据供给到指标取得部440。

指标取得部440取得多个指标。例如，指标取得部440可以取得评价模型根据输入了由状态数据取得部430取得的多个状态数据的每一个而输出的多个指标。指标取得部440将所取得的多个指标供给到模型选择部450。

模型选择部450选择对象模型。例如，模型选择部450可以基于由指标取得部440取得的多个指标，从存储于候选模型存储部420的多个候选模型中选择用于对控制对象15进行控制的对象模型。模型选择部450将识别所选择的对象模型的信息供给到对象模型输出部460。

对象模型输出部460输出对象模型。例如，对象模型输出部460可以按照识别由模型选择部450选择的对象模型的信息，从存储于候选模型存储部420的多个候选模型中复制对象模型。并且，对象模型输出部460可以将该对象模型经由网络输出到控制装置500。

输入部470接收用户输入。例如，输入部470可以根据由对象模型输出部460输出了对象模型而接收用户输入。并且，在重新选择对象模型的情况下，输入部470可以触发由状态数据取得部430取得多个状态数据、或由候选模型取得部410取得多个候选模型。

图5表示控制装置500的框图的一例。控制装置500例如可以是DCS(DistributedControl System：分布式控制系统)、面向中等规模的仪表系统中的控制器，也可以是实时OS控制器等。

控制装置500包括对象模型取得部510、实际环境数据取得部520和控制部530。

对象模型取得部510取得对象模型。例如，对象模型取得部510可以经由网络取得对象模型输出部460输出的对象模型。对象模型取得部510将所取得的对象模型供给到控制部530。

实际环境数据取得部520取得表示实际环境即设备10的状态的实际环境数据。这样的实际环境数据可以是与上述状态数据相同的数据。实际环境数据取得部520将所取得的实际环境数据供给到控制部530。

控制部530使用对象模型对控制对象15进行控制。例如，控制部530可以通过后述的FKDPP等已知的AI算法来确定行动。并且，控制部530可以将在控制对象15的值中加上所确定的行动后的操作量提供给设备10中的控制对象15。控制部530例如能够使用以上述方式由模型选择装置400选择的对象模型对控制对象15进行AI控制。

在步骤S610中，模型选择装置400取得多个候选模型。例如，候选模型取得部410可以经由网络从作业模型管理装置300取得作业模型输出部340输出的多个作业模型作为多个候选模型。但是并不限定于此。候选模型取得部410可以经由与网络不同的其他手段(各种存储设备或用户输入等)取得多个候选模型，也可以从与作业模型管理装置300不同的其他装置取得多个候选模型。候选模型取得部410将所取得的多个候选模型供给到候选模型存储部420。

在步骤S620中，模型选择装置400存储多个候选模型。例如，候选模型存储部420可以存储在步骤S610中取得的多个候选模型。另外，在上述说明中，作为一例表示了候选模型存储部420存储从作业模型管理装置300等其他装置取得的多个候选模型的情况，但是并不限定于此。候选模型存储部420也可以预先存储多个候选模型。候选模型存储部420例如能够以上述方式存储多个候选模型，该多个候选模型分别通过将输出评价了设备10的状态的指标的评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备10中的状态对应的行动。换句话说，候选模型存储部420能够存储将共同的评价模型的输出作为回报的至少一部分在不同的学习环境下或通过不同的学习算法生成的相互不同的多个候选模型。在此，作为一例，候选模型存储部420存储候选模型x、候选模型y和候选模型z这三个候选模型。

在步骤S630中，模型选择装置400取得多个状态数据。例如，状态数据取得部430可以经由网络从设备10取得设置于设备10的各种传感器测量出的各种物理量作为状态数据。但是，并不限定于此。状态数据取得部430可以经由与网络不同的其他手段取得状态数据，也可以从与设备10不同的其他装置取得状态数据。

接着，状态数据取得部430可以使用在步骤S620中存储的多个候选模型，通过FKDPP等已知的AI算法分别确定多个行动。在使用这种核心方法的情况下，状态数据取得部430可以根据由所取得的状态数据得到的传感器值来生成状态S的矢量。接着，状态数据取得部430可以生成状态S与所有可采取的行动A的组合作为行动确定表。然后，状态数据取得部430可以将行动确定表输入到在步骤S620中存储的多个候选模型的每一个。对应于此，多个候选模型的每一个可以在行动确定表的各行与数据表中的除了权重列以外的各样本数据之间进行核心计算，分别计算出与各样本数据之间的距离。并且，多个候选模型的每一个可以将对各样本数据计算出的距离乘以各权重列的值后的值依次相加，计算各行动中的回报期待值。状态数据取得部430例如可以选择以上述方式使用多个候选模型判断为回报期待值最高的各行动，由此确定多个行动。换句话说，状态数据取得部430可以按每个候选模型确定被判断为多个候选模型的每一个根据设备10的状态将回报期待值提高最多的行动。在此，作为一例，状态数据取得部430使用候选模型x确定行动Ax，使用候选模型y确定行动Ay，使用候选模型z确定行动Az。

然后，状态数据取得部430可以将在控制对象15的值中加上所确定的多个行动后的各操作量经由控制装置500提供给控制对象15。对应于此，设备10的状态发生变化。状态数据取得部430可以进一步取得表示变化后的设备的状态的状态数据。状态数据取得部430例如可以取得以上述方式将基于多个候选模型的输出的各个操作量提供给设备10中的控制对象15时的表示设备10的状态的多个状态数据。在此，状态数据取得部430取得将基于行动Ax的操作量MVx提供给控制对象15时的状态数据Sx，取得将基于行动Ay的操作量MVy提供给控制对象15时的状态数据Sy，取得将基于行动Az的操作量MVz提供给控制对象15时的状态数据Sz。状态数据取得部430将所取得的多个状态数据供给到指标取得部440。

在步骤S640中，模型选择装置400取得多个指标。例如，指标取得部440可以将在步骤S630中取得的多个状态数据分别输入到存储于评价模型存储部220的评价模型，分别取得该评价模型输出的多个指标。指标取得部440例如可以以上述方式取得评价模型根据输入了多个状态数据的每一个而输出的多个指标。在此，指标取得部440取得评价模型根据输入了状态数据Sx而输出的指标Ix，取得评价模型根据输入了状态数据Sy而输出的指标Iy，取得评价模型根据输入了状态数据Sz而输出的指标Iz。指标取得部440将所取得的多个指标供给到模型选择部450。

在步骤S650中，模型选择装置400选择对象模型。例如，模型选择部450可以基于在步骤S640中取得的多个指标，从在步骤S620中存储的多个候选模型中选择用于对控制对象15进行控制的对象模型。

此时，模型选择部450可以选择输出了多个候选模型中的指标达到最高的行动的候选模型作为对象模型。作为一例，在多个指标为Ix＞Iy＞Iz的情况下，模型选择部450可以选择输出了行动Ax的候选模型x作为对象模型。

另外，在上述说明中，作为一例表示了模型选择部450基于一个时间点的指标来选择候选模型的情况，但是并不限定于此。模型选择部450也可以基于多个时间点的指标的统计量来选择候选模型。作为一例，在多个指标为Iy_min＞Iz_min＞Ix_min的情况下(其中，min表示多个时间点的最小值)，模型选择部450也可以选择输出了行动Ay的候选模型y作为对象模型。

此外，在多个指标为Iz_ave＞Ix_ave＞Iy_ave的情况下(其中，ave表示多个时间点的平均值)，模型选择部450也可以选择输出了行动Az的候选模型z作为对象模型。

模型选择部450例如也可以以上述方式选择多个候选模型中的输出了多个时间点的指标的统计量达到最高的行动的候选模型作为对象模型。此时，统计量也可以包含平均值或最小值中的至少任意一个。此时，在基于多个统计量来选择候选模型的情况下，模型选择部450也可以选择输出了对各统计量进行加权相加后的和或加权平均达到最高的行动的候选模型作为对象模型。模型选择部450将识别所选择的对象模型的信息供给到对象模型输出部460。

在步骤S660中，模型选择装置400输出对象模型。例如，对象模型输出部460可以按照识别在步骤S650中选择的对象模型的信息，从在步骤S620中存储的多个候选模型中复制对象模型。并且，对象模型输出部460可以将该对象模型例如经由网络输出到控制装置500。对应于此，控制装置500能够开始使用对象模型的AI控制。

在步骤S670中，模型选择装置400判定是否重新选择对象模型。例如，输入部470可以根据在步骤S660中输出了对象模型而接收用户输入。并且，在从用户接收到重新选择对象模型的指示的情况下，输入部470可以判定为重新选择对象模型。

在判定为重新选择对象模型(是)的情况下，模型选择装置400可以使处理返回到步骤S630并继续流程。在这种情况下，输入部470可以触发由状态数据取得部430取得多个状态数据。由此，模型选择装置400能够重新取得多个状态数据，并且重新选择对象模型。另外，在上述说明中，作为一例表示了模型选择装置400使处理返回到步骤S630的情况，但是并不限定于此。模型选择装置400也可以使处理返回到步骤S610并继续流程。在这种情况下，输入部470可以触发由候选模型取得部410取得多个候选模型。由此，模型选择装置400也可以新取得多个候选模型，并且从新取得的多个候选模型中重新选择对象模型。

在判定为不重新选择对象模型(No)的情况下，模型选择装置400结束模型选择方法的流程。

模型选择装置400也能够根据各种触发(事件触发或时间触发)来再次执行这样的模型选择方法的流程。例如，模型选择装置400也可以将评价模型被更新作为触发，再次执行模型选择方法。因此，模型选择部450也可以根据评价模型被更新而重新选择对象模型。

此外，模型选择装置400也可以将从以前选择对象模型起经过了预先确定的时间作为触发，再次执行模型选择方法。因此，模型选择部450也可以根据经过了预先确定的时间而重新选择对象模型。

一般来说，由强化学习生成的作业模型被黑箱化，难以评价作业模型。因此，在能够利用多个这样的作业模型的情况下，难以选择将哪个作业模型用于AI控制。相对于此，本实施方式的模型选择装置400使用评价模型评价将基于多个候选模型的输出的各个操作量提供给控制对象15时的设备10各自的状态，并且基于该评价模型输出的各指标来选择对象模型。由此，根据本实施方式的模型选择装置400，能够根据使用共同的评价模型对多个候选模型输出的多个行动分别进行了评价的客观的结果，选择将哪个候选模型用于AI控制。

此外，本实施方式的模型选择装置400也可以选择多个候选模型中的输出了评价模型输出的指标最高的行动的候选模型作为对象模型。由此，根据本实施方式的模型选择装置400，能够选择最能提高KPI等作业目标的候选模型作为对象模型。

此外，本实施方式的模型选择装置400也可以选择多个候选模型中的输出了多个时间点的指标的统计量最高的行动的候选模型作为对象模型。由此，根据本实施方式的模型选择装置400，能够不选择输出了指标暂时最高的行动的候选模型，而选择输出了在某一期间指标长期最高的行动的候选模型作为对象模型。此时，作为统计量也可以使用平均值。由此，根据本实施方式的模型选择装置400，能够选择长期且稳定地输出了指标变高的行动的候选模型作为对象模型。此外，作为统计量也可以使用最小值。由此，根据本实施方式的模型选择装置400，即使在如工厂的作业那样需要关键任务的作业的情况下，也能够选择最佳的候选模型作为对象模型。

此外，本实施方式的模型选择装置400能够根据评价模型被更新而重新选择对象模型。由此，根据本实施方式的模型选择装置400，即使在变更了作业目标的情况下，也能够参照新的作业目标来重新选择最佳的候选模型作为对象模型。

此外，本实施方式的模型选择装置400也能够根据经过了预先确定的时间而重新选择对象模型。由此，根据本实施方式的模型选择装置400，即使在从以前选择了对象模型的时间点起设备10发生了经时变化的情况下，也能够参照设备10的现状来重新选择最佳的候选模型作为对象模型。

此外，本实施方式的模型选择装置400能够根据输出了对象模型而接收用户输入。由此，根据本实施方式的模型选择装置400，能够在输出了对象模型之后，反馈用户判断了对象模型的妥当性的结果。并且，根据本实施方式的模型选择装置400，在对象模型不妥当的情况下，能够重新选择对象模型。

图7表示第一变形例的模型选择装置400的框图的一例。在图7中，对具有与图1相同的功能和构成的构件标注相同的附图标记，并且除了以下不同点以外省略说明。在上述实施方式中，作为一例表示了评价模型管理装置200、作业模型管理装置300、模型选择装置400和控制装置500分别作为独立的不同装置来提供的情况。但是，这些装置也可以作为一部分或全部为一体的一个装置来提供。在本变形例中，模型选择装置400除了上述实施方式的模型选择装置400的功能以外，进一步提供控制装置500的功能。

本变形例的模型选择装置400可以还包括控制部530。即，模型选择装置400可以还包括使用对象模型对控制对象15进行控制的控制部530。

此外，在本变形例中，对象模型输出部460也可以代替向控制装置500而向控制部530输出所选择的对象模型。并且，控制部530可以取得对象模型输出部460输出的对象模型。

此外，在本变形例中，状态数据取得部430可以将在AI控制中取得的状态数据供给到控制部530。即，在本变形例中，状态数据取得部430也可以作为实际环境数据取得部520发挥功能。

并且，控制部530可以使用对象模型对控制对象15进行控制。模型选择装置400例如可以以上述方式进一步提供作为控制装置500的功能。

由此，本变形例的模型选择装置400也能够使用对象模型对控制对象15进行控制。由此，根据本变形例的模型选择装置400，能够通过一个装置实现选择对象模型的功能和使用所选择的对象模型对控制对象15进行控制的功能。此外，根据本变形例的模型选择装置400，不需要在模型选择装置400与控制装置500之间交换对象模型，因此能够削减通信成本和时间。

图8表示第二变形例的模型选择装置400的框图的一例。在图8中，对具有与图1相同的功能和构成的构件标注相同的附图标记，并且除了以下不同点以外省略说明。在本变形例中，模型选择装置400除了上述实施方式的模型选择装置400的功能以外，进一步提供作业模型管理装置300的功能。

本变形例的模型选择装置400可以还包括评价模型取得部310和作业模型生成部320。即，模型选择装置400可以还包括通过强化学习生成成为多个候选模型的多个作业模型的作业模型生成部。

此外，在本变形例中，作业模型生成部320可以将所生成的多个作业模型供给到候选模型存储部420。并且，候选模型存储部420可以存储从作业模型生成部320供给的多个作业模型作为多个候选模型。

此外，在本变形例中，在重新选择对象模型的情况下，输入部470可以触发由作业模型生成部320生成多个作业模型。由此，本变形例的模型选择装置400也可以新生成成为多个候选模型的多个作业模型，并且从新生成的多个候选模型中重新选择对象模型。模型选择装置400例如也可以以上述方式进一步提供作为作业模型管理装置300的功能。

由此，本变形例的模型选择装置400也能够通过强化学习由自身生成成为多个候选模型的多个作业模型。由此，根据本变形例的模型选择装置400，能够通过一个装置实现生成成为选择对象模型的候选的多个作业模型的功能和选择对象模型的功能。此外，根据本变形例的模型选择装置400，不需要在作业模型管理装置300与模型选择装置400之间交换多个作业模型，因此能够削减通信成本和时间。

图9表示第三变形例的模型选择装置400的框图的一例。在图9中，对具有与图1相同的功能和构成的构件标注相同的附图标记，并且除了以下不同点以外省略说明。在本变形例中，模型选择装置400除了上述实施方式的模型选择装置400的功能以外，进一步提供评价模型管理装置200的功能。

本变形例的模型选择装置400还包括评价模型生成部210和评价模型存储部220。即，模型选择装置400可以还包括存储评价模型的评价模型存储部220。此外，模型选择装置400可以还包括通过机器学习生成评价模型的评价模型生成部210。

此外，在本变形例中，指标取得部440可以将多个状态数据分别输入到存储于评价模型存储部220的评价模型，并且分别取得该评价模型输出的多个指标。模型选择装置400例如可以以上述方式进一步提供作为评价模型管理装置200的功能。

由此，本变形例的模型选择装置400能够存储评价模型。由此，根据本变形例的模型选择装置400，在取得多个指标时，不需要在与评价模型管理装置200之间交换多个状态数据、多个指标，因此能够削减通信成本和时间。此外，本变形例的模型选择装置400能够通过机器学习由自身生成评价模型。由此，根据本变形例的模型选择装置400，能够通过一个装置实现生成评价模型的功能和选择对象模型的功能。

在此，例示可实施的方式进行了说明。但是，上述实施方式可以以各种方式变更或应用。例如，在上述变形例中，作为不同的变形例，表示了模型选择装置400进一步提供控制装置500、作业模型管理装置300和评价模型管理装置200的功能的情况。但是，并不限定于此。模型选择装置400可以进一步提供控制装置500、作业模型管理装置300和评价模型管理装置200中的两个以上的功能，也可以进一步提供所有功能。由此，根据模型选择装置400，能够通过一个装置实现与对控制对象15进行控制的所有作业相关的功能。

此外，在上述说明中，作为一例表示了如下情况：在取得多个状态数据时，模型选择装置400将基于多个候选模型的输出的各个操作量提供给实际的设备10中的控制对象15，并且从实际的设备10取得多个状态数据，但是并不限定于此。模型选择装置400也可以将基于多个候选模型的输出的各个操作量提供给模拟环境中的控制对象，并且从模拟器100取得多个状态数据。由此，模型选择装置400也能够不使用实机而在模拟环境下完成到选择对象模型为止的流程。

本发明的各种实施方式可以参照流程图和框图进行记载，在此模块可以表示(1)执行操作的过程的阶段或(2)具有执行操作的作用的装置的部分。特定的阶段和部分可以通过专用电路、与存储在计算机可读介质上的计算机可读指令一起供给的可编程电路和/或与存储在计算机可读介质上的计算机可读指令一起供给的处理器来实现。专用电路可以包括数字和/或模拟硬件电路，也可以包括集成电路(IC)和/或分立电路。可编程电路可以包括可重构硬件电路，该可重构硬件电路包括逻辑AND、逻辑OR、逻辑XOR、逻辑NAND、逻辑NOR和其他逻辑操作、触发器、寄存器、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)等存储器元件等。

计算机可读介质可以包括能够存储由适当的设备执行的指令的任意的有形设备，其结果，具有存储在其中的指令的计算机可读介质包括包含为了制作用于执行由流程图或框图指定的操作的手段而能够执行的指令的产品。作为计算机可读介质的例子可以包括：电子存储介质、磁存储介质、光存储介质、电磁存储介质、半导体存储介质等。作为计算机可读介质的更具体的例子可以包括：软(注册商标)盘、磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存器)、电可擦除可编程只读存储器(EEPROM)、静态随机存取存储器(SRAM)、光盘只读存储器(CD-ROM)、数字多用途盘(DVD)、蓝光(RTM)碟、存储棒、集成电路卡等。

计算机可读指令包括由包括汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微码、固件指令、状态设定数据、或Smalltalk(注册商标)、JAVA(注册商标)、C++等面向对象编程语言、和“C”编程语言或同样的编程语言那样的现有的过程型编程语言的一个或多个编程语言的任意组合描述的源代码和目标代码中的任意一个。

计算机可读指令可以经由本地或局域网(LAN)、互联网等广域网(WAN)提供给通用计算机、特殊目的的计算机或其他可编程的数据处理装置的处理器或可编程电路，并且为了制作用于执行由流程图或框图指定的操作的手段而执行计算机可读指令。作为处理器的例子包括：计算机处理器、处理单元、微处理器、数字信号处理器、控制器、微控制器等。

图10表示可以整体或局部实现本发明的多种方式的计算机9900的例子。通过安装于计算机9900的程序，计算机9900能够发挥作为与本发明的实施方式的装置相关联的操作或该装置的一个或多个部分的功能、或者执行该操作或该一个或多个部分、和/或计算机9900能够执行本发明的实施方式的过程或该过程的阶段。为了使计算机9900执行与本说明书记载的流程图和框图的模块中的几个或全部相关联的特定的操作，可以由CPU9912执行这种程序。

本实施方式的计算机9900包括CPU9912、RAM9914、图形控制器9916和显示装置9918，它们通过主控制器9910相互连接。计算机9900还包括通信接口9922、硬盘驱动器9924、DVD驱动器9926和IC卡驱动器那样的输入/输出单元，它们经由输入/输出控制器9920与主控制器9910连接。计算机还包括ROM9930和键盘9942那样的传统的输入/输出单元，它们经由输入/输出芯片9940与输入/输出控制器9920连接。

CPU9912按照存储在ROM9930和RAM9914内的程序而动作，由此控制各单元。图形控制器9916获取在RAM9914内提供的帧缓存器等或其自身中的由CPU9912生成的图像数据，并且在显示装置9918上显示图像数据。

通信接口9922能够经由网络与其他电子设备进行通信。硬盘驱动器9924存储由计算机9900内的CPU9912使用的程序和数据。DVD驱动器9926从DVD-ROM9901读取程序或数据，经由RAM9914向硬盘驱动器9924提供程序或数据。IC卡驱动器从IC卡读取程序和数据和/或将程序和数据写入IC卡。

ROM9930在其中存储激活时由计算机9900执行的引导程序等和/或依赖于计算机9900的硬件的程序。输入/输出芯片9940也可以经由并行端口、串行端口、键盘端口、鼠标端口等使各种输入/输出单元与输入/输出控制器9920连接。

由DVD-ROM9901或IC卡那样的计算机可读介质提供程序。程序从计算机可读介质读取，并且安装于也作为计算机可读介质的例子的硬盘驱动器9924、RAM9914或ROM9930，并由CPU9912执行。在这些程序内描述的信息处理被读取到计算机9900，从而带来程序与上述各种类型的硬件资源之间的协作。装置或方法可以通过伴随计算机9900的使用来实现信息的操作或处理而构成。

例如，在计算机9900和外部设备之间执行通信的情况下，CPU9912可以执行加载于RAM9914的通信程序，基于在通信程序中描述的处理对通信接口9922指示通信处理。通信接口9922在CPU9912的控制下，读取存储于在RAM9914、硬盘驱动器9924、DVD-ROM9901或IC卡那样的记录介质内提供的发送缓冲处理区域的发送数据，将读取到的发送数据发送到网络，或者将从网络接收到的接收数据写入到在记录介质上提供的接收缓冲处理区域等。

此外，CPU9912可以将存储于硬盘驱动器9924、DVD驱动器9926(DVD-ROM9901)、IC卡等那样的外部记录介质的文件或数据库的全部或必要的部分读取到RAM9914，并对RAM9914上的数据执行各种类型的处理。接着，CPU9912将处理后的数据写回到外部记录介质。

如各种类型的程序、数据、表和数据库那样的各种类型的信息可以存储于记录介质并接受信息处理。CPU9912对从RAM9914读取的数据执行本公开各处记载的各种类型的处理并将结果写回到RAM9914，该各种类型的处理包括由程序的指令序列指定的各种类型的操作、信息处理、条件判断、条件分支、无条件分支、信息的检索/置换等。此外，CPU9912可以检索记录介质内的文件、数据库等中的信息。例如，在分别具有与第二属性的属性值相关联的第一属性的属性值的多个条目存储在记录介质内的情况下，CPU9912可以从该多个条目中检索与指定第一属性的属性值的条件一致的条目，并且读取存储在该条目内的第二属性的属性值，由此获取与满足预先确定的条件的第一属性相关联的第二属性的属性值。

以上说明的程序或软件模块可以存储在计算机9900上或计算机9900附近的计算机可读介质中。此外，在与专用通信网络或互联网连接的服务器系统内提供的硬盘或RAM那样的记录介质能够用作计算机可读介质，由此，经由网络将程序提供给计算机9900。

以上，利用实施方式对本发明进行了说明，但是本发明的技术范围并不限定于上述实施方式记载的范围。对本领域技术人员而言能够对上述实施方式进行各种变更或改良是显而易见的。根据权利要求书的记载可知，进行了这种变更或改良的方式也可以包含于本发明的技术范围。

在权利要求书、说明书和附图中所示的装置、系统、程序和方法中的动作、过程、步骤和阶段等各处理的执行顺序没有特别明示为“更早”、“之前”等，此外，应注意的是只要在后一处理中没有使用前一处理的输出，则能够以任意的顺序实现。关于权利要求书、说明书和附图中的动作流程，即使为了便于说明而使用“首先，”、“接着，”等进行了说明，也不意味着必须按照该顺序实施。

Claims

1.一种模型选择装置，其特征在于包括：

存储多个候选模型的候选模型存储部，所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备中的状态对应的行动，所述评价模型输出评价了所述设备的状态的指标；

状态数据取得部，取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据；

指标取得部，取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标；

模型选择部，基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型；以及

对象模型输出部，输出所述对象模型。

2.根据权利要求1所述的模型选择装置，其特征在于，所述模型选择部选择所述多个候选模型中的输出了所述指标达到最高的行动的候选模型作为所述对象模型。

3.根据权利要求2所述的模型选择装置，其特征在于，所述模型选择部选择所述多个候选模型中的输出了多个时间点的所述指标的统计量达到最高的行动的候选模型作为所述对象模型。

4.根据权利要求3所述的模型选择装置，其特征在于，所述统计量包含平均值和最小值中的至少任意一个。

5.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择部根据所述评价模型被更新而重新选择所述对象模型。

6.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择部根据经过了预先确定的时间而重新选择所述对象模型。

7.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择装置还包括根据输出了所述对象模型而接收用户输入的输入部。

8.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择装置还包括使用所述对象模型对所述控制对象进行控制的控制部。

9.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择装置还包括通过所述强化学习生成成为所述多个候选模型的多个作业模型的作业模型生成部。

10.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择装置还包括存储所述评价模型的评价模型存储部。

11.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择装置还包括通过机器学习生成所述评价模型的评价模型生成部。

12.一种模型选择方法，其特征在于，

由计算机执行所述模型选择方法，所述模型选择方法包括：

存储多个候选模型，所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备中的状态对应的行动，所述评价模型输出评价了所述设备的状态的指标；

取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据；

取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标；

基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型；以及

输出所述对象模型。

13.一种记录有模型选择程序的非临时性计算机可读介质，其特征在于，

计算机通过执行所述模型选择程序而发挥作为候选模型存储部、状态数据取得部、指标取得部、模型选择部和对象模型输出部的功能，

所述候选模型存储部存储多个候选模型，所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备中的状态对应的行动，所述评价模型输出评价了所述设备的状态的指标，

所述状态数据取得部取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据，

所述指标取得部取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标，

所述模型选择部基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型，

所述对象模型输出部输出所述对象模型。