CN115175868A

CN115175868A - 信息处理装置、控制系统、控制变量确定方法、及控制变量确定程序

Info

Publication number: CN115175868A
Application number: CN202080097673.7A
Authority: CN
Inventors: 川端馨; 平林照司; 小贯由树雄; 戴英达; 松原崇充; 佐佐木光
Original assignee: Hitachi Zosen Corp; Nara Institute of Science and Technology NUC
Current assignee: Hitachi Zosen Corp; Nara Institute of Science and Technology NUC
Priority date: 2020-02-28
Filing date: 2020-11-30
Publication date: 2022-10-11
Also published as: JP2021135940A; JP7450212B2; EP4112498A4; WO2021171720A1; EP4112498A1

Abstract

确定能够获得期望的控制结果的控制变量。信息处理装置(1A)具备：预测分布计算部(102)，其使用搬运垃圾的起重机的控制结果数据(201)来计算、更新评价函数的预测分布；控制变量检索部(103)，其基于上述预测分布来检索控制变量的最佳值的候补；以及控制变量确定部(104)，其使用基于更新后的预测分布的评价函数来确定控制变量。

Description

信息处理装置、控制系统、控制变量确定方法、及控制变量确定程序

技术领域

本发明涉及一种信息处理装置等，能够用于搬运垃圾的起重机的自动控制。

背景技术

对于被运入垃圾处理设施的垃圾而言，该垃圾在被称为坑的贮存设备中进行暂时贮存，之后被送入焚烧炉进行焚烧。在普通的垃圾处理设施中，利用起重机使贮存于坑内的垃圾移动。起重机基本上是由操作员通过手动进行操作，但是当前也在试行自动化控制。

例如，下述的专利文献1公开了如下技术：使垃圾的搅拌程度定量化，并基于定量化的垃圾搅拌程度，来对起重机进行自动控制。对于该文献记载的技术而言，通过如下方式实现了自动控制：基于搅拌次数来进行搅拌程度的定量化，并生成起重机控制指示，该起重机控制指示指定了抓取垃圾的位置、以及抓起的垃圾的投下位置。

现有技术文献

专利文献

专利文献1：日本特开2010-275064号公报

发明内容

(一)要解决的技术问题

但是，贮存于垃圾坑的垃圾混入有材质、状态都不同的各种垃圾，其性质并不恒定。因此，如果将专利文献1的技术应用于实际的垃圾坑中的垃圾搅拌，则有可能无法进行符合预想的搅拌。

例如，仅指定垃圾的抓取位置，根据该位置的垃圾的性质不同，既会有抓取大量垃圾的情况，也会有仅抓取少量垃圾的情况。并且，如果抓取垃圾的量不稳定，则在对起重机进行自动控制的期间，实际的垃圾的移动量与预想的移动量的差会累积地变大。因此，最终有可能无法获得预想的搅拌效果。另外，即使在抓取符合预想的垃圾的情况下，也要考虑由于抓取的垃圾的性质偏差而无法获得预想的搅拌效果的情况。这些问题不限于搅拌，也同样存在于利用起重机对垃圾进行提升、分散、投下等任意作业时的控制。

在这样对搬运性质并不恒定的垃圾的起重机进行自动控制的情况下，为了获得期望的控制结果而需要确定起重机的控制变量，但是现有技术存在无法确定这种控制变量的问题。本发明一方式的目的在于，实现一种信息处理装置等，其能够针对搬运垃圾的起重机确定能够获得期望的控制结果的控制变量。

(二)技术方案

为了解决上述的技术问题，本发明一方式的信息处理装置具备：预测分布计算部、控制变量检索部、以及控制变量确定部，上述预测分布计算部使用对搬运垃圾的起重机的控制变量、与使用该控制变量控制上述起重机的控制结果进行关联而得到的控制结果数据，来计算表示该控制变量与该控制结果之间的关系的函数的预测分布，上述控制变量检索部基于上述预测分布，来检索上述控制变量的最佳值的候补即候补控制变量，上述预测分布计算部使用上述控制变量检索部检出的上述候补控制变量、与使用该候补控制变量控制上述起重机的控制结果，来更新上述预测分布，上述控制变量确定部使用基于上述更新后的上述预测分布而构成的函数，来确定上述控制变量的最佳值。

另外，为了解决上述的技术问题，本发明一方式的控制变量确定方法由一个或者多个信息处理装置执行，该方法包含：预测分布计算步骤，使用对搬运垃圾的起重机的控制变量、与使用该控制变量控制上述起重机的控制结果进行关联而得到的控制结果数据，来计算表示该控制变量与该控制结果之间的关系的函数的预测分布；控制变量检索步骤，基于上述预测分布，来检索上述控制变量的最佳值的候补即候补控制变量；更新步骤，使用在上述控制变量检索步骤中检出的上述候补控制变量、与使用该候补控制变量控制上述起重机的控制结果，来更新上述预测分布；以及控制变量确定步骤，使用基于上述更新后的上述预测分布而构成的函数，来确定上述控制变量的最佳值。

(三)有益效果

根据本发明的一个方式，能够确定能够获得期望的控制结果的控制变量。

附图说明

图1是表示本发明实施方式1的信息处理装置的主要部位结构一例的框图。

图2是表示包含上述信息处理装置的控制系统的概要的图。

图3是表示确定起重机的控制变量的处理一例的流程图。

图4是表示基于利用高斯过程回归算出的预测分布的平均和方差而构成的函数、与基于利用鲁棒高斯过程回归算出的预测分布的平均和方差而构成的函数的图。

图5是表示本发明实施方式2的信息处理装置的主要部位结构一例的框图。

图6是表示使内核函数的参数优化的处理一例的流程图。

图7是表示验证上述信息处理装置的效果的实验的结果的图。

图8是表示实验10～12中的优化结束时的任务内核的图。

具体实施方式

(实施方式1)

(系统概要)

基于图2对本发明的一个实施方式的控制系统9的概要进行说明。图2是表示控制系统9的概要的图。如图所示，在控制系统9中包含信息处理装置1A、控制装置3、起重机5。

控制系统9是利用控制装置3控制起重机5的动作的系统。信息处理装置1A计算控制变量，该控制变量规定控制装置3执行的控制的内容。通过信息处理装置1A算出适当的控制变量，从而实现利用控制装置3进行的起重机5的适当的自动控制。

起重机5是用于垃圾搬运的起重机，例如在垃圾处理设施等中使用。起重机5例如可以具备：具备抓取垃圾的多个爪的抓斗、使抓斗的爪开闭的开闭机构、使抓斗升降的升降机构、以及使抓斗沿水平方向移动的移动机构等。此时，控制装置3通过对开闭机构、升降机构、以及移动机构进行控制，从而能够使起重机5进行垃圾搅拌等动作。

在控制系统9中，当使信息处理装置1A计算最佳控制变量时，首先，设定使起重机5执行的任务，并设定使起重机5执行该任务时的控制变量。

例如，提起用抓斗抓取的垃圾后，使抓斗沿水平方向移动并且进行开闭，使垃圾在抓斗的移动路径上分散，从而使起重机5执行搅拌该垃圾的任务。此时，只要设定使得能够均匀地分散垃圾的控制变量即可，也就是说，只要设定能够确定抓斗的开闭控制的时刻的控制变量即可。

在上述的情况下，只要重复进行如下一系列控制就能够分散垃圾，所述一系列控制是：在开始打开抓取垃圾的抓斗的打开动作后，当从抓斗上落下规定量的垃圾时开始关闭抓斗的关闭动作，并在其规定时间后再次开始打开动作。因此，可以将上述规定量和上述规定时间作为控制变量。

另外，例如，也可以将在从抓斗的打开动作开始到关闭动作开始的期间落下的垃圾的重量、该期间的抓斗内的垃圾的剩余量或者重量的变化率、该期间的长度、以及该期间的抓斗的移动距离等作为控制变量。另外，例如，也可以设为在打开动作结束后自动开始关闭动作，将上述期间设为从打开动作开始到关闭动作结束的期间。此外，也可以将进行打开动作的时间、进行关闭动作的时间等作为控制变量。

另外，控制装置3使用上述控制变量来控制起重机5时所使用的数据也没有特别限定。例如，在控制起重机5时，除了抓取的垃圾的重量之外，也可以使用表示水分量、种类、搅拌程度、表面状态的信息(例如拍摄垃圾表面的图像)等。对于这种数据的数据形式没有特别限定，可以是数值数据，也可以是图像数据等。

设定了控制变量后，利用控制装置3控制起重机5执行设定的任务。并且，评价该控制结果的适当度，并将该评价结果与该控制中的控制变量一起输入信息处理装置1A。例如，如果是均匀分散垃圾并进行搅拌的任务，则只要以如下方式进行评价即可：在抓斗的移动路径上分散的垃圾的量越均匀则评价值越高。

信息处理装置1A基于输入的控制变量和评价值进行控制变量的优化，控制装置3使用优化的控制变量再次使起重机5执行任务。通过重复进行这样的处理，从而信息处理装置1A能够确定能够获得期望的控制结果的控制变量。并且，由此，能够实现利用控制装置3进行的起重机5的适当的自动控制。

(主要部位结构)

基于图1对信息处理装置1A的结构进行说明。图1是表示信息处理装置1A的主要部位结构一例的框图。此外，以下说明信息处理装置1A利用贝叶斯优化(以下称为BO)确定能够获得期望的控制结果的控制变量的例子，也就是利用BO使控制变量优化的例子。

如图所示，信息处理装置1A具备：控制部10A，其对信息处理装置1A的各部进行综合控制；存储部20，其存储信息处理装置1A使用的各种数据；输入部30，其接受针对信息处理装置1A的输入；以及输出部40，其用于信息处理装置1A的数据输出。

在控制部10A中包括数据获取部101、预测分布计算部102、控制变量检索部103、以及控制变量确定部104。另外，在存储部20中存储有控制结果数据201。

数据获取部101获取在利用BO进行优化时使用的学习数据。具体而言，由于在起重机5的控制中使用的控制变量和其控制结果的评价值被作为控制结果数据201存储，因此数据获取部101获取该控制结果数据201，作为学习数据。

在控制结果数据201中包含N点的控制变量的情况下，这些控制变量表示为

[数1]

，

对其的评价值表示为

[数2]

。

预测分布计算部102使用数据获取部101获取的控制结果数据201来计算表示控制变量与控制结果之间的关系的函数的预测分布。此外，以下将该函数称为评价函数f(θ)。另外，在向控制结果数据201中追加新的数据时，预测分布计算部102以反映该数据的方式更新预测分布。

如果使用高斯噪声ε_n～N(0，β)将控制变量与控制结果之间的关系假定为

[数3]

y_n＝f(θ_n)+ε_n

，则作为基于高斯过程的评价函数的预测分布而获得以下的分布。

[数4]

[数5]

μ(θ)＝k_*(K_Θ+βI)^-1f (2)

[数6]

在此，k_*＝k(θ，θ)，K_θ是利用[K_θ]_i，j＝k(θ_i，θ_j)获得的基本矩阵。另外，

[数7]

。

k_Θ，*是[k_Θ，*]_i＝k(θ_i，θ)的纵矢量，k(·，·)是内核函数。在此，将内核函数的参数设定为α_k。

平均函数μ(θ)表示根据控制结果数据201预测的评价函数的平均值。另外，方差函数σ(θ)是根据控制结果数据201预测的评价函数的方差。σ(θ)表示预测的不可靠性，在控制结果数据201不足的区域，该值具有变大的倾向。此外，后述的图4的较薄的灰色部分表示方差σ。如果σ较大，则该灰色部分的宽度变宽，能够得知预测是不可靠的。即，可知为了提高预测的可靠性所需的控制结果数据不足。根据数式(3)可知，包含于方差函数σ(θ)的内核函数及内核函数的参数α_k对预测分布的计算有影响。当计算预测分布时，进行参数α_k的优化，详情后述。

控制变量检索部103为了求出最佳控制变量而检索最佳控制变量的候补(候补控制变量)。具体而言，控制变量检索部103使用平均函数μ(θ)和方差函数σ(θ)来检索使下述的获得函数a(θ)成为最大的控制变量。通过该检索检出的控制变量成为最佳控制变量的候补。该检索基于UCB(Upper Confidence Bound：置信上界)策略。此外，数式(5)中的κ是用于调节检索和使用的参数。当然，也能够用其它方法来检索新的控制变量。例如，也可以利用PI(Probability of Improvement：改善概率)策略、EI(Expected Improvement：期望改善)策略来检索最佳控制变量的候补。

此外，当作为最佳控制变量而求出使评价函数的值最小化的控制变量时(例如对于优选在短时间内完成的任务而言，是将到任务完成为止所需的时间作为评价值时等)，只要检索使获得函数a(θ)为最小的控制变量即可。

[数8]

[数9]

a(θ)＝μ(θ)+κσ(θ) (5)

控制变量检索部103检出的最佳控制变量的候补被用于起重机5的控制。并且，获得其控制结果(更具体而言是控制结果的评价值)，并输入信息处理装置1A。输入的数据(最佳控制变量的候补和评价值)被追加到控制结果数据201中。之后，使用追加了该数据的控制结果数据201来进行预测分布的更新。此外，评价值的计算可以由信息处理装置1A进行，也可以由其它的装置或者用户进行。

控制变量确定部104根据基于预测分布计算部102的更新后的预测分布而构成的评价函数来确定控制变量的最佳值。控制变量的最佳值是由更新后的预测分布来看而推论为最佳的值，也可以说是信息处理装置1A执行的、控制变量的优化运算的解。通过将控制起重机5时的控制变量的值设定为该最佳值，从而能够期待最好的控制结果。

最佳值的确定方法没有特别限定，可以应用各种方法。例如，控制变量确定部104可以当控制变量检索部103检出的控制变量的候补为已评价时，将该候补确定为最佳控制变量。这是因为：当控制变量检索部103检出的最佳控制变量的候补为已评价时，该控制变量不是评价函数的极值而与最大值(或者最小值)对应的可能性较高。

如上所述，信息处理装置1A具备：预测分布计算部102，其使用控制结果数据201来计算评价函数的预测分布；以及控制变量检索部103，其基于上述预测分布来检索上述控制变量的最佳值的候补即候补控制变量。另外，预测分布计算部102使用控制变量检索部103检出的新的候补控制变量、和使用该候补控制变量控制起重机5的控制结果来更新预测分布。并且，信息处理装置1A具备控制变量确定部104，其使用基于上述更新后的预测分布而构成的函数来确定上述控制变量的最佳值。此外，更具体而言，上述函数基于上述更新后的预测分布的平均和方差而构成(数式(5))。

在此，如在“要解决的技术问题”中说明的那样，垃圾坑内的垃圾的性质并不恒定。因此，起重机5的控制变量与控制结果之间的关系难以公式化。

因此，根据上述的结构，即成为如下结构：基于将控制变量和控制结果关联的函数的预测分布来确定控制变量的最佳值。由此，对于搬运性质并不恒定的垃圾的起重机，能够确定能够获得期望的控制结果的控制变量。

另外，根据上述的结构，基于预测分布开检索候补控制变量，因此即使检出的候补控制变量不是最佳控制变量，该候补控制变量也是可用于适当更新预测分布的有用的数据。因此，例如与如下情况相比，能够将试验的次数抑制为较少，所述情况是：重复进行随机选定起重机5的控制变量并观察起重机5的控制结果的试验，来确定最佳控制变量。

(处理的流程)

基于图3来说明信息处理装置1A确定起重机5的控制变量的处理(控制变量确定方法)的流程。图3是表示确定起重机5的控制变量的处理一例的流程图。

在S1中，数据获取部101读取存储部20所存储的控制结果数据201，并将其设定为初始数据。在该阶段，只要在控制结果数据201中包含基于至少一次试验的控制结果(一个控制变量、和评价使用该控制变量的控制的结果的评价值)即可。

在S2中，预测分布计算部102使内核函数的参数优化。如上所述，内核函数的参数是α_k。优化的方法没有特别限定，例如也能够应用在普通的BO中应用的优化方法。

在S3(预测分布计算步骤)中，预测分布计算部102使用在S1中设定的初始数据、和在S2中优化的内核函数的参数，来计算评价起重机5的控制结果的评价函数的预测分布。如上所述，该预测分布用数式(1)～(3)表示。

在S4(控制变量检索步骤)中，控制变量检索部103检索使获得函数为最大的起重机5的控制变量θ*。控制变量θ*是控制变量θ的最佳值的候补。如上所述，该处理用上述的数式(4)(5)表示。

在S5中，控制变量确定部104判定在S4中确定的控制变量θ*是否为最佳值。是否为最佳值的判定方法没有特别限定。例如，控制变量确定部104可以当通过之前的S4检出的控制变量θ*与这以前检出的控制变量一致时，判定控制变量θ*为最佳值，当不一致的时，则判定为不是最佳值。此外，这以前检出的控制变量是指控制结果数据201中包含的控制变量，即完成了使用该控制变量的起重机5的控制、以及针对该控制的评价值计算的控制变量。

当在S5中判定为是最佳值时(在S5中为是)，处理进入S10。在S10(控制变量确定步骤)中，控制变量确定部104将起重机5的控制变量的最佳值确定为θ*，由此结束图3的处理。此外，在S10中，控制变量确定部104可以使输出部40输出确定的θ*。

另一方面，当在S5中判定控制变量θ*不是最佳值时(在S5中为否)，控制变量确定部104通过使输出部40输出该控制变量θ*等方式通知信息处理装置1A的用户。用户基于该通知，使控制装置3执行依据该控制变量θ*的起重机5的控制，并观测其控制结果进行评价。评价方法没有特别限定，例如可以将理想的控制结果与实际的控制结果之间的误差作为评价值进行计算。评价结果经由输入部30输入信息处理装置1A。

在S6中，数据获取部101获取如上述那样输入的评价结果。并且，在S7中，数据获取部101将在S6中获取的评价结果、与在之前的S4中确定的控制变量θ*关联并追加到控制结果数据201中。

在S8中，预测分布计算部102使用在S7中追加了评价结果和控制变量θ*的控制结果数据201，使内核函数的参数优化。并且，在S9(更新步骤)中，预测分布计算部102使用在S7中追加了评价结果和控制变量θ*的控制结果数据201、以及在S8中优化的内核函数的参数，来计算评价函数的预测分布。之后处理返回到S4，利用控制变量检索部103检索控制变量。通过这样重复进行控制变量的追加和预测分布的更新，从而能够确定可获得期望的控制结果的控制变量。

(实施方式2)

以下对本发明的另一实施方式进行说明。此外，为了便于说明，对于与在上述实施方式中说明的部件具有相同的功能的部件标记相同的附图标记并省略说明。

(装置结构)

基于图5对本实施方式的信息处理装置1B的结构进行说明。图5是表示信息处理装置1B的主要部位结构一例的框图。如图所示，信息处理装置1B具备综合控制信息处理装置1B的各部的控制部10B。控制部10B与图1所示的信息处理装置1A的控制部10A的不同点在于，取代预测分布计算部102而在控制部10B中包含预测分布计算部301。

预测分布计算部301与预测分布计算部102同样地，使用控制结果数据201来计算以及更新预测分布，但是如以下说明的那样，该计算以及更新的方法与预测分布计算部102不同。

预测分布计算部301将多个控制结果数据各自在预测分布计算中的贡献度作为与该控制结果数据的可靠性对应的贡献度来计算或者更新预测分布。因此，即使当在预测分布的计算或者更新中使用的控制结果数据中包含可靠性低的数据时，也能够相对降低这样的控制结果数据对预测分布产生的影响。并且，由此能够迅速确定适当的控制变量。

此外，控制结果数据的可靠性是表示该控制结果数据从预测分布的整体来看是否为适当值的指标。例如，当从多个控制结果数据中除去了一控制结果数据时，若剩下的控制结果数据的预测分布接近高斯分布，则可以说除去的控制结果数据是从真函数(评价函数)偏离的偏离值的可能性较高，可靠性较低。反之，在没有从多个控制结果数据中除去一控制结果数据的情况下，若与进行了除去的情况相比而言预测分布接近高斯分布，则可以说该控制结果数据的可靠性较高。

实施方式1的预测分布计算部102利用高斯过程回归来进行预测分布的计算及更新，与此相对于而言，本实施方式的预测分布计算部301利用使高斯过程回归鲁棒化的鲁棒高斯过程回归来进行预测分布的计算及更新。通过使高斯过程回归鲁棒化，从而即使在控制结果数据中包含偏离值，也能够稳定地进行预测分布的计算及更新。

在图4中示出鲁棒高斯过程回归与高斯过程回归的比较例。在图4中示出了：基于利用高斯过程(GP)回归算出的预测分布的平均和方差而构成的函数、以及基于利用鲁棒高斯过程(RGP)回归算出的预测分布的平均和方差而构成的函数。

这些函数都是基于相同的控制结果数据而构成的。需要说明的是，相对于在GP中使用全部的控制结果数据来构成函数而言，用RGP降低或排除了图示那样的偏离值的影响来构成函数。

当使用包含偏离值的控制结果数据来进行高斯过程回归来计算预测分布时，由于偏离值的影响，可能会算出与真函数(评价函数)不一致的预测分布。即使在应用GP的情况下，如果使用许多控制结果数据，则能够使预测分布接近真函数。但是，在图4的基于相同数量的控制结果数据来构成函数的情况下，结果为：用RGP构成的函数与真函数极其一致，用GP构建的函数与真函数偏离的部分较多。

并且，如图4所示，用GP构建的函数当θ＝0.4时为最大值，根据真函数，但是当θ＝0.4时，实际上不是最大值。另一方面，由于用RGP构建了与真函数大致一致的函数，因此通过采用利用RGP构建的函数，从而能够求出使评价值为最大的θ值是2.0。

当这样基于相同的控制结果数据来构成函数时，有可能无法用GP求出使评价值为最大的θ，而能够用RGP求出使评价值为最大的θ。这是因为，如后面说明那样，在RGP中作为似然函数而使用学生(日语原文：スチューデント)的t分布，由此，能够将可靠性低的控制结果数据作为偏离值，降低其贡献度。

(关于在预测分布的计算及更新中使用的数式)

与实施方式1相同地，当在控制结果数据201中包含N点的控制变量时，这些控制变量表示为

[数10]

，

对其的评价值表示为

[数11]

。

另外，输入输出数据间的函数如下述那样表示。

[数12]

在此，如下述那样设定上述函数的事前分布。

[数13]

f＝N(f|0，K_Θ) (6)

在本实施方式中，即使存在偏离值也能够稳定地进行评价函数的回归，因此作为高斯过程回归中的似然函数，取代高斯分布而应用对偏离值强健的分布。例如，可以作为似然函数而使用学生的t分布。此时，似然函数用下述的数式(7)表示。此外，数式(7)中的a、b是似然函数的参数，Γ表示伽马函数。

[数14]

在此，高斯分布不是学生的t分布的共轭事前分布。因此，不能解析地计算事后分布。因此，近似地求出事后分布的解析解。例如是如以下说明的那样，能够使用变分贝叶斯法来近似地求出事后分布的解析解。

首先，使用比例混合表示法(scale-mixture representation)，利用以下这样的高斯分布和伽马分布来表现似然函数即学生的t分布。

[数15]

p(y_n|f_n)＝∫p(y_n|f_n，τ_n)p(τ_n)dτ_n (8)

[数16]

[数17]

p(τ_n)＝Gam(τ_n|a，b) (10)

由此，能够将似然函数视为在方差的倒数中作为事前分布而具有伽马分布的高斯分布。此外，数式(8)～(10)中的τ_n是针对第n个控制结果数据201的高斯分布的方差的倒数。τ_n表示第n个控制结果数据201的可靠性。

预测分布计算部301通过变分推理而近似地求出该模型的事后分布的解析解。具体而言，预测分布计算部301求出使对数周边似然的下界最大化的变分分布。由于该变分分布是事后分布的近似，因此预测分布计算部301能够近似地求出事后分布。

[数18]

log p(Y)＝log∫p(Y|f，T)p(T)p(f)dfdT (11)

在此，

[数19]

。

假定f、T的分布是独立的，若导入变分分布q(f)和

[数20]

则预测分布计算部301能够根据下述的数式(12)求出下界Fv。

[数21]

并且，预测分布计算部301使用上述数式(12)求出使周边似然的下界最大化的变分分布。该变分分布如上所述为事后分布的近似。

变分分布q(f)、q(τ_n)的更新规则能够如以下那样解析求出。如上所述，τ_n表示第n个控制结果数据201的可靠性。因此，预测分布计算部301导出使下界Fv为最大的q(τ_n)即τ_n的事后分布，之后求出评价函数的预测分布(平均和方差)，从而能够算出基于可靠性的预测分布。换言之，表示控制结果数据201的可靠性的τ_n的事后分布在预测分布的计算中用于对该控制结果数据201加权，因此能够降低可靠性相对低的控制结果数据201对预测分布计算的贡献度。由此，能够使可靠性相对低的控制结果数据201对预测分布产生的影响为零或者使其降低。

[数22]

q(f)＝N(f|μ_f，∑_f) (13)

[数23]

[数24]

[数25]

[数26]

q(τ_n)＝Gam(τ_n|a_n，b_n) (17)

[数27]

[数28]

预测分布计算部301使用通过上述的数式求出的事后分布的近似，求出针对任意的输入θ_*的评价函数的预测的平均函数和方差函数。具体而言，预测分布计算部301通过以下的数式(20)(21)算出平均函数和方差函数。

[数29]

[数30]

并且，控制变量检索部103使用上述的平均函数和方差函数，来检索使获得函数为最大的点、即最佳控制变量的候补。例如，当应用UCB策略时，控制变量检索部103与实施方式1同样地，通过数式(5)来计算获得函数，并检索使该获得函数为最大的点。

(类似任务的控制结果数据的使用)

如上所述，本实施方式的任务是使起重机5执行的动作或者作业。如果任务改变则最佳控制变量也会改变。但是，即使是其它任务，只要是类似的任务(以下称为类似任务)，则评价函数的预测分布也可能类似。此时，能够使用该类似任务的控制结果数据。以下对使用其它任务的控制结果数据来计算或者更新预测分布的方法进行说明。

当使用其它任务的控制结果数据时，预测分布计算部301在计算及更新对一任务的预测分布时，将其它任务的控制结果数据的预测分布计算中的贡献度，作为与该其它任务和上述一任务之间的类似度对应的贡献度，来计算或者更新预测分布。此外，上述其它任务包含类似任务。另外，上述其它任务也可以包含非类似的任务。

根据该结构，使用其它任务的控制结果数据来进行预测分布的计算及更新，因此与仅使用一任务的控制结果数据时相比，能够以较少的更新次数来确定适当的控制变量。另外，由于其它任务的控制结果数据以与一任务的类似度对应的贡献度反映于预测分布计算，因此不需要从多个任务中分选类似任务的工时。

以下对使用其它任务的控制结果数据的方法进行具体说明。当使用其它任务的控制结果数据时，预测分布计算部301将之前检索的控制变量

[数31]

、评价值

[数32]

、针对数据点的任务标签

[数33]

作为学习数据，使类似任务的评价函数回归。

当处理M个任务时，将任务标签设定为t_n∈{1，...，M}。并且，对相同任务的控制结果数据的任务标签分配相同的实数值。也就是说，任务标签表示Θ和Y的控制结果数据是否为执行了各任务时的数据。换言之，任务标签是用于区别同一任务的标签。

为了按照任务使评价函数回归，将任务标签作为鲁棒高斯过程的输入进行处理。因此，如下述的数式(22)所示，将输入内核k(θ，θ’)与任务内核t_n(t，t’)的积作为内核函数。

k((θ，t)，(θ’，t’))＝k_t(t，t’)k_θ(θ，θ’) (22)

任务内核是表示任务类似度的函数，而作为输入的任务标签t_n是用于区别同一任务的标签。因此，不能根据任务标签t_n的值来计算任务的类似度。另外，由于任务数是M个，因此任务内核的输出是M×M个图案。因此，使用M次正方矩阵Kt表现任务内核，将向任务内核输入的任务标签所表示的要素的值作为任务内核的输出。

k_t(t，t’)＝[K_t]_t，t’ (23)

另外，由于将任务内核作为内核函数使用，因此需要K_t是正定矩阵。因此，使用科里斯基分解并利用下三角矩阵L将K_t分解为Kt＝LL^T。由此，能够将下三角矩阵L的M(M+1)/2个要素作为任务内核的参数α_t，将该参数α_t在变分推理的框架中优化，从控制结果数据中学习任务间的类似度。此外，学习任务间的类似度是指：以反映任务间的类似度的方式(使类似任务的控制结果数据的贡献度比非类似任务的控制结果数据的贡献度大)，更新事后分布。

这样优化的参数α_t表示其它任务的控制结果数据各自的贡献度(也可以称为权重)。因此，预测分布计算部301使用优化的参数α_t求出评价函数的预测分布，从而能够将其它任务的控制结果数据的贡献度，作为与该其它任务和对象任务之间的类似度对应的贡献度，来计算预测分布。这对于预测分布的更新而言也是同样的。

(处理的流程)

对信息处理装置1B确定起重机5的控制变量的处理流程进行说明。该处理流程与图3所示的信息处理装置1A的处理流程大致相同，但是S2、S8、S3的处理不同。以下以该不同点为中心进行说明。

图6是表示使内核函数的参数优化的处理一例的流程图。图6的处理是在与图3的S1同样的处理后、即设定了数据获取部101的初始数据之后的处理，与图3的S2的处理对应。另外，信息处理装置1B取代图3的S8的处理而执行图6的处理。

在S21中，预测分布计算部301使内核函数的参数初始化。初始化的内核函数的参数是α_k和α_t这两个。接着，在S22中，预测分布计算部301更新变分分布q(f)、q(τ_n)。变分分布q(f)、q(τ_n)的更新规则如上述数式(13)～(19)那样。

在S23中，预测分布计算部301判定变分下界是否收敛。变分下界收敛时的变分分布q(f)、q(τ_n)是优化的变分分布。此外，只要适当地设定收敛条件即可。例如，也可以在q(f)和q(τ_n)的更新前后计算Fν，并在其差分小于规定的值(例如0.1)时判定为收敛。

当在S23中判定为收敛时(在S23中为是)，处理进入S24。另一方面，当判定为不收敛时(在S23中为否)，处理返回S22，并再次更新变分分布。

在S24中，预测分布计算部301确定使变分下界为最大的内核函数的参数α_k ^*、α_t ^*。在该运算中使用上述的数式(12)。此外，在数式(12)的q(f)、q(T)、p(f)中包含利用内核函数求出的矩阵K。因此，Fν可以被作为具有参数α_k、α_t的函数进行处理。因此，例如可以利用任意的非线性优化方法进行优化。作为非线性优化方法的一例，可举出梯度法。

在S25中，预测分布计算部301判定是否结束优化。只要适当地设定结束条件即可。例如，可以在S22～S25的处理前后计算Fν，且当其差分小于规定的值(例如0.1)时判定为结束优化。

当在S25中判定为结束时(在S25中为是)，结束图6的处理。之后，进行与图3的S3以后同样的处理。另一方面，当判定为不结束时(在S25中为否)，处理返回S22，并再次更新变分分布。

如上所述，在图6的处理中，交替地进行使变分下界最大化的变分分布的计算和内核函数的参数的优化。由此，能够求出事后分布的近似即变分分布。另外，在图6的处理中，能够使内核函数的参数α_k优化并且优化α_t，因此能够学习任务间的类似度。

此外可以说，变分下界Fν是近似地计算导入多任务化的鲁棒高斯过程是否能够较好地表现控制结果数据201而得到的。因此，通过求出使变分下界Fν最大化的参数α_t，从而能够求出适合控制结果数据201的类似度。

通过重复进行S22～S25的处理，从而以如下方式使参数α_t优化，即：使用类似任务的控制结果数据201，并降低非类似任务的控制结果数据201的贡献度。换言之，通过重复进行S22～S25的处理，从而根据其它任务与对象任务之间的类似度，对其它任务的控制结果数据进行加权。

根据以上的处理，当计算对一任务的预测分布时，能够基于其它任务和上述一任务之间的类似度所对应的贡献度，来进行适当的考虑，从而对该其它任务的控制结果数据进行再利用。因此，能够抑制一任务的控制结果数据的数量，并且确定适当的控制变量。

[实施例]

进行了用于验证信息处理装置1A及1B的效果的实验。基于图7及图8对其结果进行说明。图7是表示实验结果的图。图8是表示实验10～12中的优化结束时的任务内核的图。

此外，实验不是使用实际的起重机5，而是按照能够在实验室内使用的程度，使用小型的模拟起重机，并作为模拟的垃圾而使用了混合用碎纸机裁剪的纸和玩具橡胶球而成的垃圾。

使起重机执行的任务是用起重机抓取了垃圾并提起后，一边移动规定距离一边在其间均匀地分散垃圾。具体而言，使起重机执行如下动作：在开始打开抓取了垃圾的抓斗的打开动作后，当从抓斗落下重量为θ₁的垃圾时，开始关闭抓斗的关闭动作，并在其时间θ₂后再次开始打开动作。上述θ₁和θ₂是控制变量。

在控制结果的评价中，理想的过程是：在起重机的移动距离增加的期间，抓斗抓取的垃圾的重量以恒定的比例减少。并且，基于该理想的过程与实际过程的差，算出评价值。具体而言，是利用均方根(RMS)来计算以起重机抓取的垃圾的重量进行了标准化的、实际的抓取重量的系列数据w与理想的抓取重量的系列数据w_I的差，并用以下的式(24)进行了评价。

E(θ)＝5－10×RMS(w(θ)－w_I) (24)

如上所述，由于模拟的垃圾与实际的垃圾坑所贮存的垃圾同样地是不均匀的，因此即使是相同的动作参数，w(θ)也可能显著不同，对评价值E(θ)有影响。

另外，最初抓取的垃圾的重量设定为120～300g，移动距离设定为40cm。在一次实验中，应用优化后的控制变量θ₁和θ₂执行十次任务，并用上述式(24)评价它们的控制结果。

一共进行了实验1～12的12次实验。其中，在实验1～3中，利用信息处理装置1A进行了控制变量θ₁、θ₂的优化。另外，在实验4～9中，利用信息处理装置1B进行了控制变量θ₁、θ₂的优化。需要说明的是，在实验4～9中未使用类似任务的数据。并且，在实验10～12中，利用信息处理装置1B并使用类似任务的数据进行了控制变量θ₁、θ₂的优化。类似任务是将起重机的移动距离设定为30cm的任务。

如图7所示确认了：虽然在实验1～12中优化的控制变量θ₁、θ₂有偏差，但是评价值都是高水平，进行了适当的优化。

对实验1～3与4～6的结果进行比较可知：优化所需的试验次数有差异。即可知：对于利用信息处理装置1B的优化而言，与利用信息处理装置1A的优化相比，能够以较少的试验次数算出适当的控制变量。此外，优化所需的试验次数是指：到确定最佳控制变量为止(到在图3的S5中判定为是为止)，使用根据获得函数确定的控制变量使起重机动作并获取新的控制结果的次数。

另外，对实验7～9与10～12的结果进行比较，也可知：优化所需试验次数产生差异。即可知：通过使用类似任务的控制结果数据，能够以更少的试验次数算出适当的控制变量。

另外，在图8中示出实验10～12的优化结束时的任务内核。该图的纵轴及横轴表示任务标签，数值表示各任务间的类似度。如图8所示，表示移动距离为40cm的任务与移动距离为30cm的任务(类似任务)之间的类似度(预测分布的计算中的贡献度)的非对角成分9－2的值(1.35)与对角成分9－1的值的一方(0.96)相比而言为较高的数值。由此可知：在预测分布的计算中，使用了类似任务的控制结果数据。

此外，虽然没有在图中示出，以如下方式进行了同样的实验：将上述任务中的起重机的移动距离变更为20cm，并作为类似任务而设定了起重机的移动距离为30cm的任务、和起重机的移动距离为40cm的任务。其结果为，能够以10次程度的较少的试验次数算出与上述的各结果为相同精度的控制变量θ₁、θ₂。可知：在这种情况下，优化结束时的任务内核也与图8的例子同样地是非对角成分的值较大，并使用了类似任务的控制结果数据。

另外，也进行了使用实机的起重机5在垃圾坑内分散垃圾的实验。根据结果可知：与上述的各例同样地，能够利用信息处理装置1A算出适当的控制变量，能够信息处理装置1B以更少的试验次数算出适当的控制变量。

另外，在使用实际的起重机5的实验中也使操作员执行任务，并用上述数式(24)评价了其结果。并且，对于使用了信息处理装置1B优化的控制变量的控制结果的评价值、和操作员的控制结果的评价值而言，当进行了t检测时，结果并无实质差异。即可以说：使用了信息处理装置1B优化的控制变量的控制是与操作员的控制为同等程度的高水平的控制。

(基于软件的实现例)

信息处理装置1A及1B的控制模块(尤其是控制部10A及控制部10B所含各部)可以通过形成于集成电路(IC芯片)等的逻辑电路(硬件)来实现，也可以通过软件来实现。

在后者即软件的情况下，信息处理装置1A及1B具备计算机，计算机执行实现各功能的软件即程序(控制变量确定程序)的命令。该计算机例如具备一个以上的处理器，并且具备存储上述程序的计算机可读取的存储介质。并且，在上述计算机中，上述处理器从上述存储介质读取上述程序并执行，从而实现本发明的目的。作为上述处理器，例如可以使用CPU(Central Processing Unit：中央处理单元)。作为上述存储介质，可以使用“非暂态性的有形介质”，例如除了ROM(Read Only Memory：只读存储器)等之外，还可以使用存储用带、存储用盘、存储卡类、半导体存储器、可编程的逻辑电路等。另外，也可以具备用于展开上述程序的RAM(Random Access Memory：随机访问存储器)等。另外，上述程序也可以经由能够传输该程序的任意的传输介质(通信网络、无线电波等)向上述计算机提供。此外，本发明的一方式也可以采用通过对上述程序进行电子传输而具体化的、嵌入载波的数据信号的方式来实现。

(变形例)

本发明不限于上述的各实施方式，可以在权利要求的范围内进行各种变更，通过对分别公开于不同的实施方式的技术方案进行适当组合而获得的实施方式也包含于本发明的技术范围。

例如，对于实施方式1的信息处理装置1A而言，也能够进行使用了类似任务的控制结果数据的优化。此时，只要使用数式(22)所示的内核函数，并通过图3的S2、8对内核函数的参数αt进行优化即可。

另外，在上述的各实施方式中说明的各处理的执行主体能够适当地进行变更。图3所示的控制变量计算方法也可以由多个信息处理装置执行。同样地，图6所示的控制变量确定方法也可以由多个信息处理装置执行。

另外，在上述各实施方式中，说明了使分散垃圾进行搅拌的任务中的控制变量优化的例子，但只要是使搬运垃圾的起重机执行的任务即可，其内容没有特别限定。例如，也能够使如下任务等的控制变量优化，即：使起重机进行抓取垃圾的动作的任务、进行将抓取的垃圾提起的动作的任务、进行将提起的垃圾投下的动作的任务。

附图标记说明

1A-信息处理装置；102-预测分布计算部；103-控制变量检索部；104-控制变量确定部；201-控制结果数据；1B-信息处理装置；301-预测分布计算部；3-控制装置；5-起重机；9-控制系统。

Claims

1.一种信息处理装置，其具备：

预测分布计算部、

控制变量检索部、以及

控制变量确定部，

所述预测分布计算部使用对搬运垃圾的起重机的控制变量、与使用该控制变量控制所述起重机的控制结果进行关联而得到的控制结果数据，来计算表示该控制变量与该控制结果之间的关系的函数的预测分布，

所述控制变量检索部基于所述预测分布，来检索所述控制变量的最佳值的候补即候补控制变量，

所述预测分布计算部使用所述控制变量检索部检出的所述候补控制变量、与使用该候补控制变量控制所述起重机的控制结果，来更新所述预测分布，

所述控制变量确定部使用基于所述更新后的所述预测分布而构成的函数，来确定所述控制变量的最佳值。

2.根据权利要求1所述的信息处理装置，其特征在于，

所述预测分布计算部将多个所述控制结果数据各自在所述预测分布计算中的贡献度作为与该控制结果数据的可靠性对应的贡献度，来计算或者更新所述预测分布。

3.根据权利要求1或2所述的信息处理装置，其特征在于，

所述预测分布计算部将与使用所述控制变量使所述起重机执行的任务不同的其它任务的控制结果数据在所述预测分布计算中的贡献度作为与该其它任务和所述任务之间的类似度对应的贡献度，来计算或者更新所述预测分布。

4.一种控制系统，其包含；

权利要求1至3的任一项所述的信息处理装置；

控制装置，其使用所述控制变量来控制所述起重机；以及

所述起重机。

5.一种控制变量确定方法，其由一个或者多个信息处理装置执行，其包含：

预测分布计算步骤，使用对搬运垃圾的起重机的控制变量、与使用该控制变量控制所述起重机的控制结果进行关联而得到的控制结果数据，来计算表示该控制变量与该控制结果之间的关系的函数的预测分布；

控制变量检索步骤，基于所述预测分布，来检索所述控制变量的最佳值的候补即候补控制变量；

更新步骤，使用在所述控制变量检索步骤中检出的所述候补控制变量、与使用该候补控制变量控制所述起重机的控制结果，来更新所述预测分布；以及

控制变量确定步骤，使用基于所述更新后的所述预测分布而构成的函数，来确定所述控制变量的最佳值。

6.一种控制变量确定程序，其用于使计算机作为权利要求1所述的信息处理装置发挥功能，即用于使计算机作为所述预测分布计算部、所述控制变量检索部、以及所述控制变量确定部发挥功能。