CN112368728A

CN112368728A - 信息处理装置、模型生成处理装置以及信息处理方法

Info

Publication number: CN112368728A
Application number: CN201980044321.2A
Authority: CN
Inventors: 渡部正树; 小松智希
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2018-07-02
Filing date: 2019-06-28
Publication date: 2021-02-12
Also published as: WO2020009024A1; JP2020191104A; JP7417486B2; JP6743318B2; JPWO2020009024A1; US20210150353A1

Abstract

提供一种即使事先没有全部掌握计划装载的货物也能够进行与决定适当的装载位置相关的处理的装置。本发明的一个实施方式具备存储器和至少1个处理电路。所述至少1个处理电路构成为执行如下处理：生成假设计划装载的第1物体被装载于多个候选装载位置中的任意位置的情况下的状态信息；以及向装载状态评价模型输入所述候选装载位置的状态信息并获取评价值，其中，当被输入与预定空间中的物体的装载状态相关的状态信息时，该装载状态评价模型输出针对所述预定空间中的物体的装载状态的评价值。

Description

信息处理装置、模型生成处理装置以及信息处理方法

技术领域

本发明涉及信息处理装置、模型生成处理装置以及信息处理方法。

背景技术

对物流业而言，如何在集装箱、卡车的装货台面这样的用于装载货物的空间中装载货物是非常重要的技术课题。近年来，有不少利用计算机来判断各货物的最佳装载位置的情形。

在计算机判断各货物的最佳装载位置的现有方式中，前提是事先掌握计划装载的货物的个数、各货物的尺寸。例如，计算机使用使各货物的装载位置的组合为最佳的算法来决定装载位置。然而，在处置快递等的情况下，从工作时间、工作空间等的观点而言，大多进行每当货物到达时就装载货物的在线应对。在这样的情况下，各货物的最佳装载位置仍然根据工作人员的经验来判断。

发明内容

提供如下装置：即使事先没有全部掌握计划装载的货物，也能够进行与决定适当的装载位置相关的处理。

本发明的一个实施方式具备存储器(memory)和至少1个处理电路。所述至少1个处理电路构成为执行如下处理：生成假设计划装载的第1物体被装载于多个候选装载位置中的任意位置的情况下的状态信息；以及向装载状态评价模型输入所述候选装载位置的状态信息并获取评价值，其中，当被输入与预定空间中的物体的装载状态相关的状态信息时，该装载状态评价模型输出针对所述预定空间中的物体的装载状态的评价值。

附图说明

图1为示出第1实施方式的装载工作支援系统的一例的框图。

图2为示出高度图的一例的图。

图3为对基于底面接触率的候选装载位置的检测结果进行说明的图。

图4为第1实施方式的模型生成处理装置的模型生成处理的概略流程图。

图5为第1实施方式的模型生成处理装置的强化学习的概略流程图。

图6为第1实施方式的装载位置决定处理装置的处理的概略流程图。

图7为示出第2实施方式的装载工作支援系统的一例的框图。

图8为第2实施方式的模型生成处理装置的强化学习的概略流程图。

图9为第2实施方式的装载位置决定处理装置的处理的概略流程图。

图10为示出搁置数与填充率的关系的图。

图11为对基于侧面接触的候选装载位置的检测结果进行说明的图。

图12为依照第3实施方式的装载位置决定处理装置的指定而持续装载货物时的结果的概念图。

图13为示出本发明的一个实施方式中的硬件结构的一例的框图。

附图标记

1：装载工作支援系统；11：模型生成处理装置；12：装载位置决定处理装置；111：装载空间尺寸获取部；112：学习用货物信息生成部；113：状态信息生成部；114：候选装载位置检测部；115：模型存储部；116评价值计算部；117装载位置选择部；118模型更新部；119搁置决定部；121装载空间信息获取部；122装载用货物信息获取部；123状态信息生成部；124候选装载位置检测部；125模型存储部；126评价值计算部；127装载位置决定部；128装载位置指示部；129搁置决定部；2：计划装载的货物；3(3A至3O)：已被装载的货物；4：装载空间的侧壁；5：计算机装置；51：处理器；52：主存储装置；53：辅助存储装置；54：网络接口；55：设备接口；56：总线；6：通信网络；7(7A、7B)：外部装置。

具体实施方式

以下参照附图对本发明的实施方式进行说明。

(第1实施方式)

图1为示出第1实施方式的装载工作支援系统的一例的框图。第1实施方式的装载工作支援系统1具备模型生成处理装置11和装载位置决定处理装置12。

模型生成处理装置11具备装载空间尺寸获取部111、学习用货物信息生成部112、状态信息生成部113、候选装载位置检测部114、模型存储部115、评价值计算部116、装载位置选择部117和模型更新部118。

装载位置决定处理装置12具备装载空间信息获取部121、装载用货物信息获取部122、状态信息生成部123、候选装载位置检测部124、模型存储部125、评价值计算部126、装载位置决定部127和装载位置指示部128。

第1实施方式的装载工作支援系统1为针对计划装载于预定空间内的物体，指定应装载该物体的位置(装载位置)的系统。模型生成处理装置11生成评价预定空间中的物体的装载状态的装载状态评价模型。装载位置决定处理装置12使用该装载状态评价模型，决定该物体的装载位置，并输出该装载位置。以这种方式，装载工作支援系统1对装载工作进行支援。例如，设想在货物被装载于搬运车辆的装货台面的情况下，在库存被装载于仓库的情况下等，利用装载工作支援系统1。

此外为了便于说明，以下将被装载于预定空间内的物体记载为“货物”，但是并非通过该用语来限定被装载的物体。

预定空间只要是尺寸(长、宽及高的长度)被预先确定的三维空间即可。预定空间不仅包括为了装载货物而通常使用的集装箱、船舱、储物室等，未使用墙壁等围绕周围的一个分区，只要确定了尺寸则也包括于预定空间。以下将预定空间记载为“装载空间”。此外，只要未被装载空间具有的遮盖物、例如储物室的墙壁等限制，则货物能够从上方、横向或这两个方向装载。

装载工作支援系统1决定适合于满足期望目的的装载位置。例如，一般认为装载尽可能多的货物、尽可能减小装载的货物彼此的间隙、尽可能不使被装载货物倒塌。在此，装载工作支援系统1使得尽可能多的货物被装载于装载空间。因此，装载位置决定处理装置12针对计划装载于装载空间的货物，决定适合于提高装载空间中的货物的填充率的装载位置。装载空间的填充率表示装载空间内的货物在装载空间中所占的比例。即，装载空间的填充率用(装载空间内的货物的总体积)/(装载空间内的体积)来表示。无论将1个货物放置在哪里，在该时间点都为相同的填充率，但在装载货物直至不能再装载为止的情况下，取决于货物的配置，被装载货物的个数不同，填充率会产生差别。即，装载位置决定处理装置12决定使得最终被装载货物的总体积变多的装载位置。

此外，装载位置决定处理装置12在确定货物的装载位置时不需要计划装载的全部货物的尺寸，各货物的装载位置被独立地决定。例如，在存在计划装载的第1货物和在第1货物之后计划装载的第2货物的情况下，装载位置决定处理装置12在决定了第1货物的装载位置之后，开始决定第2货物的装载位置的处理。装载位置决定处理装置12即使未辨识第2货物的尺寸，也能够决定第1货物的装载位置。即，在决定某个货物的装载位置时，即使没有后续的货物的信息也可以。

指定装载位置的现有的装置被提供了计划装载的全部货物的信息，指定各位置以便能够高效地装载该全部货物。例如，事先辨识出存在第1至第n(n大于1的整数)的货物，第1至第n的各货物的尺寸被提供给现有的装置，现有的装置决定第1至第n的货物的各位置。像这样在以往装置中，在决定装载位置之前，需要全部掌握计划装载的货物。

另一方面，关于本实施方式的装载位置决定处理装置12，由于各货物的装载位置被独立地决定，因此不需要全部掌握计划装载的货物。例如，有时实施如下的在线工作：要装载的货物的全貌不明确，货物一到达就被装载于装载空间。以往装置无法应对这样的在线工作。但是在本实施方式的装载工作支援系统1中，在每次货物到达时，工作人员都能够辨识到达的货物的装载位置。

此外，如果指定了货物被装载的次序，则可以同时向装载位置决定处理装置12提供多个货物的信息。在该情况下，装载位置决定处理装置12按照次序决定货物的装载位置。

此外，以上假设为用分开的装置来进行装载状态评价模型的生成和使用装载状态评价模型的装载位置的指定。但也可以将模型生成处理装置11和装载位置决定处理装置12集成为一个装置，一个装置进行这两者的处理。在该情况下，模型生成处理装置11和装载位置决定处理装置12的共同的构成要素可以被集成为一个也可以分开设置。

另外，图1中示出了被认为是装载状态评价模型的生成和使用装载状态评价模型的装载位置的指定所需要的主要构成要素，但也可以包含其它构成要素。另外，各装置以及构成要素可以被细分也可以被集成为一个。例如，可以考虑装载位置决定处理装置12被分成第1装置和第2装置的情况，其中第1装置具备装载空间信息获取部121、装载用货物信息获取部122、状态信息生成部123、候选装载位置检测部124、模型存储部125和评价值计算部126，第2装置具备装载位置决定部127和装载位置指示部128。一般认为，在该情况下，将在后说明的各评价值由第1装置计算出，被发送给第2装置，第2装置基于各评价值来决定并输出装载位置。另外，也能够由用户基于来自第1装置的各评价值来决定装载位置。或者，还可以考虑装载位置决定处理装置12被分成第3装置和第4装置的情况，其中，第3装置具备装载空间信息获取部121、装载用货物信息获取部122和状态信息生成部123，第4装置具备候选装载位置检测部124、模型存储部125、评价值计算部126、装载位置决定部127和装载位置指示部128。一般认为，在该情况下，将在后说明的高度图由第3装置计算出，被发送给第4装置，第4装置基于高度图来决定并输出装载位置。

另外，可以是构成要素存在于既非模型生成处理装置11也非装载位置决定处理装置12的外部装置中，模型生成处理装置11以及装载位置决定处理装置12从外部装置获取由该构成要素得到的处理结果。例如，可以使候选装载位置检测部124存在于不同于装载位置决定处理装置12的装置内，使装载位置决定处理装置12的处理负荷分散。

另外，假设为模型生成处理装置11、装载位置决定处理装置12、信息来源(未图示)以及信息的输出目的地(未图示)能够经由通信网络等进行数据的收发。

对装载工作支援系统1的各构成要素进行说明。首先对模型生成处理装置11进行说明。

模型生成处理装置11通过进行强化学习来生成装载状态评价模型。因此，模型生成处理装置11也可以说是强化学习装置。作为强化学习，能够使用价值迭代(ValueIteration)。价值迭代有TD(Temporal Difference Learning，时序差分学习)、Q-learning(Q-学习)、DQN(Deep Q-Network，深度Q-网络)等各种方法，可以使用任意方法。以下说明用于执行强化学习的构成要素的一例。

装载空间尺寸获取部111从外部获取装载空间的尺寸。该尺寸可以经由模型生成处理装置11中内置的输入接口从用户获取，也可以从外部装置获取。假设在本实施方式中，装载空间的尺寸被设定为能够装载货物的范围。此外，能够装载货物的范围可以小于装载空间的尺寸。

学习用货物信息生成部112生成用于装载状态评价模型生成的强化学习中所使用的、与货物相关的信息。以下，将该信息记载为“学习用货物信息”。学习用货物信息为测试数据，包含各货物的尺寸和该货物的到达次序。即，学习用货物信息生成部112决定各货物的尺寸和该货物的到达次序。此外，在本实施方式中，货物的到达次序与货物被装载的次序一致。

在本实施方式中，将货物设想为长方体，将货物的尺寸用长、宽、高来表示以进行说明。各货物的尺寸可以基于到目前为止实际被装载货物的记录等样本数据来决定，也可以随机决定。另外，在货物的尺寸按照规格等而被分成多种类别的情况下，从这些类别中选择即可。记录、规格等信息可以被预先登记于学习用货物信息生成部112，也可以是学习用货物信息生成部112从外部获取。

状态信息生成部113生成与装载空间中的货物的装载状态相关的状态信息。在本实施方式中，生成与被装载于装载空间的货物整体的高度相关的信息作为状态信息。将该信息记载为“高度图”。图2为示出高度图的一例的图。图2的例子的高度图为示出从上方观察装载空间的状态的俯视图，也是以颜色深浅来表示在装载空间中预先确定的各分区中存在的最上方的货物的上端的高度的热图(heat map)。颜色深表示货物的上端高。将在分区中存在的最上方的货物的上端的高度规定为“分区的高度”。即，高度图示出被装载货物整体在各分区中的高度。像这样，通过高度图能够表示被装载于装载空间的货物整体的高度。

在本实施方式中，与上述设想的长方体的货物相配合地，将分区的形状设为矩形。在此，通过将装载空间的地板表面划分为格子状来生成了各分区，但适当地确定分区的生成方法即可。设想为分区尺寸是考虑到处理负荷、推定精度等而被预先确定的，但状态信息生成部113可以根据被输入至模型生成处理装置11的指定值对分区尺寸进行变更。另外，分区尺寸可以针对每个分区而不同。

在本实施方式中，在高度图中，各货物边缘被调整为与该分区的分界线一致。例如，在货物的尺寸未统一的情况下，该分界线与货物边缘无法完全一致，因此状态信息生成部113在将货物的尺寸四舍五入以适合于分区的基础上，生成高度图。此外，学习用货物信息生成部112也可以生成适合于分区的货物的尺寸。另外，在货物的尺寸为预先确定的规格尺寸中的任意尺寸的情况下，分区尺寸可以被调整为分界线与货物边缘能够完全一致。

此外，高度图不限于图像数据。高度图可以被表示为将表示分区的位置的信息(例如行号和列号)和该分区的货物的高度组合而成的数据。即，高度图只要能够辨识各分区的高度即可，可以为任何格式。

另外，当从候选装载位置检测部114发送来将在后说明的候选装载位置时，状态信息生成部113针对该候选装载位置中的每个候选装载位置生成假设货物被装载于该候选装载位置中的任意位置的情况下的高度图。将该高度图记载为“候选高度图”。

然后，当发送来从候选装载位置中选出的装载位置时，状态信息生成部113将与该装载位置对应的候选高度图作为装载下一个货物的时间点的高度图。以这种方式来更新高度图。

此外，能够通过针对所决定的装载位置或候选装载位置中包含的各分区，使该分区的高度增加本次计划装载的货物的高度的量来制作候选高度图。

候选装载位置检测部114使用学习用货物信息和高度图来检测能够装载货物的位置。将检测出的位置记载为“候选装载位置”。例如，一般认为将底面的接触率为阈值以上的位置作为候选装载位置。所谓底面的接触率表示与装载空间的地板表面或其它货物的上表面的接触区域相对于货物的底面所占的比例。即，意思是(接触区域的面积)/(底面整体的面积)。

图3为对基于底面接触率的候选装载位置的检测结果进行说明的图。示出了计划装载的货物2与已被装载的货物3(3A至3I)的位置关系。另外，通过是或否来表示是否被检测为候选装载位置。图3的(A)以及(B)中的货物2的位置由于底面接触率大，因此被检测为候选装载位置。图3的(C)中的货物2的位置由于底面接触率小，因此不被检测为候选装载位置。在图3的(D)中，货物2与货物3D和货物3E这两者接触。在这样的情况下，在不区分货物3D与货物3E的情况下计算底面接触率。因此，图3的(D)中的货物2的位置由于底面接触率大，因此被检测为候选装载位置。在图3的(E)中，由于货物3F与货物3G的高度不同，因此货物2仅与货物3F接触，而由于与货物3F的底面接触率大，因此货物2的位置被检测为候选装载位置。在图3的(F)中，由于货物3H与3I的高度不同，因此货物2仅与货物3H接触，由于与货物3H的底面接触率小，因此图3的(F)的货物2的位置不被检测为候选装载位置。

候选装载位置检测部114基于高度图来检索底面接触率为阈值以上的位置，将检测出的位置作为候选装载位置。另外，当在货物被放置于检测出的候选装载位置的情况下出现了高度超过上限值的分区时，设为不被检测为候选装载位置。用于决定上述的候选装载位置的条件可以适当地确定。

作为检测方法，使用公知的模拟方法即可。另外，候选装载位置检测部114在决定装载位置时，可以使货物旋转。即，可以互换货物的长、宽及高。此外，取决于货物的情况，也有时无法设为倒置状态等。因此，可以加上允许旋转轴为与垂直方向平行的旋转、并且禁止其它旋转这样的旋转方向的限制。

模型存储部115存储装载状态评价模型。装载状态评价模型为如下的模型：当被输入与预定空间中的货物的装载状态相关的信息时，输出针对该装载状态的评价值。在此，为了提高装载空间的填充率，将由装载状态评价模型得到的评价值作为与根据该装载状态能够装载的货物的总容量相关的值。此外，将什么作为评价值可以根据目的而适当地确定。例如，能够使用与预定空间中的货物的填充率相关的信息、与货物的总容量相关的信息、与能够装载货物的空置容量相关的信息、与能够装载的货物的总容量相关的信息等与货物的装载容量相关的值作为评价值。另外，也可以使用与货物的装载容量相关的信息和其它信息计算评价值。在使用与能够装载的货物的总容量相关的值作为评价值的情况下，评价值高意味着该总容量大，还有装载货物的余量。当从多个候选高度图中，持续选择利用学习完毕的装载状态评价模型计算出的评价值高的候选高度图时，结果是大量货物被装载，能够提高装载空间的填充率。因此，由装载状态评价模型得到的评价值还表示输入的装载状态是否为适合于提高预定空间中的货物的填充率的状态。进行强化学习以使得由装载状态评价模型得到的评价值变得恰当。

装载状态评价模型的形式可以根据强化学习的方法而改变。可以为将装载状态的特征量组合而输出评价值的评价函数，也可以为DQN中使用的卷积神经网络(CNN)等神经网络。例如，可以通过将候选高度图的图像数据输入至CNN的输入层，经过各中间层中的运算，从输出层输出候选高度图的评价值。

评价值计算部116将候选高度图输入至装载状态评价模型，从装载状态评价模型得到评价值。评价值计算部116可以调整由装载状态评价模型得到的评价值，也可以不使由评价值计算部116计算出的评价值与由装载状态评价模型得到的评价值完全一致。以这种方式，评价值计算部116使用装载状态评价模型，针对候选高度图计算评价值。

装载位置选择部117基于预定的策略，选出候选装载位置中的一个，作为本次装载的货物的装载位置。作为策略，可以考虑例如选择其评价值最大的候选装载位置的贪婪法(greedy)、以概率ε随机选择并以概率1－ε选择其评价值最大的候选装载位置的ε-greedy(ε-贪婪法)等。

模型更新部118通过评价选择出的装载位置所涉及的评价值的妥当性，来更新模型存储部115内的装载状态评价模型的参数。更新方法根据强化学习的种类适当地确定即可。例如，可以反馈不能再装载货物的时间点的填充率，评价针对货物被装载的各时间点的装载状态的评价值的妥当性来更新参数。装载状态评价模型被逐步更新，从而装载状态评价模型变得能够计算出适当的评价值。

对模型生成处理装置11的处理的流程进行说明。图4为第1实施方式的模型生成处理装置11的模型生成处理的概略流程图。

首先，装载空间尺寸获取部111获取装载空间的尺寸、即长、宽及高的各限制值(S101)。另外，学习用货物信息生成部112生成测试数据(S102)。测试数据包含货物的尺寸和货物的次序。例如，预先确定好第1至第n的货物的尺寸。常数n设为充分大的数，大到在装载空间中无法装载全部货物的程度。

然后，执行基于生成的测试数据的强化学习，进行装载状态评价模型的学习(S103)。强化学习的流程将在后说明。基于该测试数据的学习结束后，在不满足学习的结束条件的情况下(S104的否)，返回至S102的处理，生成新的测试数据，再次进行学习。在满足了学习的结束条件的情况下(S104的是)，模型生成处理结束。学习的结束条件可以基于进行装载状态评价模型的参数的更新的次数等而适当地确定。

接下来，说明S103的处理的内部的流程。图5为第1实施方式的模型生成处理装置11的强化学习的概略流程图。

首先，进行装载状态的初始化以开始强化学习的新的事件(episode)(S201)。初始化的意思是从装载空间中不存在货物的初始状态开始货物的装载工作。即，初始化后开始第1个货物的装载位置的决定处理。

状态信息生成部113生成装载空间的当前时间点的高度图(S202)。当前时间点可以为从上次的货物被装载到装载本次的货物前为止的任意时间点。另外，装载第1个货物时的当前时间点可以为从工作开始至装载第1个货物前为止的任意时间点。在第1个货物的装载位置的决定处理中，由于为一个货物都未装载的状态，高度图与装载空间的俯视图相同。另外，在第k(k为满足1＜k≤n的整数)个货物的装载位置的决定处理中，状态信息生成部113将与在第k－1个货物的装载位置的决定处理中决定出的装载位置对应的候选高度图作为第k个货物的装载位置的决定处理中的高度图即可。

候选装载位置检测部114基于本次要装载的货物的尺寸和通过S202的处理更新的本次的高度图，检测候选装载位置(S203)。状态信息生成部113针对每个计算出的候选装载位置，生成本次计划装载的货物被装载于计算出的候选装载位置的情况下的高度图、即候选高度图(S204)。

评价值计算部116使用装载状态评价模型，根据各候选高度图计算评价值(S205)。装载位置选择部117基于策略，选择多个候选装载位置中的一个(S206)。然后，模型更新部118更新模型(S207)。此外，取决于强化学习的方法，S207的处理有可能不会在每次货物被装载时都进行。在该情况下，省略S207的处理。例如，可以当决定了从第1至第4个货物的装载位置的情况下省略S207，当决定了第5个货物的装载位置时，基于从第1至第5个货物的装载位置来更新模型。另外，也可以当满足了事件或测试数据的结束条件时，基于未被用于模型的更新的货物的装载位置来进行模型的更新。

然后，在不满足事件的结束条件的情况下(S208的否)，返回至S202的处理，开始针对接下来计划装载的货物的处理。在满足了事件的结束条件(S208的是)但不满足测试数据的结束条件的情况下(S209的否)，返回至状态的初始化以开始新的事件(S201)。在满足了事件的结束条件(S208的是)也满足了测试数据的结束条件的情况下(S209的是)，基于该测试数据的强化学习结束。例如，由于随着货物被装载(随着装载位置的决定处理的实施次数增加)而评价值逐渐减少，因此将事件的结束条件设为评价值低于阈值的情况即可。可以设为在不能再装载下一个的货物的时间点，事件结束。针对测试数据的结束条件可以基于事件的执行次数、事件结束时间点的填充率等来适当地确定。

此外，本说明的流程图为一例，不限于上述的例子。可以根据实施方式的所需规格、变更等来进行步骤的排序、追加以及省略。例如，可以并行处理获取装载空间的尺寸和生成测试数据。对于以下的流程图也是同样的。

接下来对装载位置决定处理装置12进行说明。装载空间信息获取部121获取与装载空间相关的信息。以下将该信息记载为“装载空间信息”。装载空间信息中至少包含装载空间的尺寸。另外，与已被装载的货物的位置相关的信息也可以被包含于装载空间信息中。这是因为，装载位置决定处理装置12即使在装载空间中存在货物的状态下，也能够指定下一个货物的装载位置。该装载空间信息可以经由模型生成处理装置11中内置的输入接口从用户获取，也可以从外部装置获取。

装载用货物信息获取部122获取与计划装载的货物相关的信息。以下将该信息记载为“装载用货物信息”，与学习用货物信息相区分。装载用货物信息中包含本次计划装载的货物的尺寸。

此外，如果还包含有表示装载次序的标识符，则在装载用货物信息中还可以包含多个货物的尺寸。装载用货物信息也是可以经由模型生成处理装置11中内置的输入接口从用户获取，也可以从外部装置获取。

装载位置决定处理装置12的状态信息生成部123与模型生成处理装置11的状态信息生成部113相同即可，生成高度图和与候选装载位置相应的候选高度图。

装载位置决定处理装置12的状态信息生成部123可以根据装载空间内的图像来生成高度图。利用能够使用三角测量等方法或立体相机根据图像算出高度的公知的测定软件即可。即，装载空间内的图像可以作为与已被装载的货物的位置相关的信息而包含于装载空间信息中。或者，例如可以利用深度相机等来获取与已被装载的货物的高度相关的信息，该信息被发送给状态信息生成部123。另外，该信息可以被用作模型生成装置用于生成装载状态评价模型的测试数据。

装载位置决定处理装置12的候选装载位置检测部124与模型生成处理装置11的候选装载位置检测部114相同即可，使用高度图来计算能够装载下一个货物的位置。

装载位置决定处理装置12的模型存储部125从模型生成处理装置11获取并存储学习完毕的装载状态评价模型。此外，装载位置决定处理装置12的模型存储部125也可以事先存储对应的装载空间不同的多个装载状态评价模型，当指定了装载空间时，传送与指定的装载空间对应的装载状态评价模型。

装载位置决定处理装置12的评价值计算部126将存储于模型存储部125的装载状态评价模型用作作为软件的一部分的程序模块，针对每个候选高度图计算评价值。评价值计算部126与模型生成处理装置11的评价值计算部116相同即可。

此外，当在模型存储部115中存储有多个装载状态评价模型时，评价值计算部116基于装载空间的尺寸、装载空间的识别符等，从模型存储部115从多个装载状态评价模型中提取与装载空间信息获取部121获取的装载空间信息的装载空间对应的装载状态评价模型。因此，装载空间的识别符也可以包含于装载空间信息中。

装载位置决定处理装置12的装载位置决定部127从候选装载位置中，将评价值最高的候选装载位置决定为本次被装载货物的装载位置。

装载位置指示部128对输出目的地输出(指示)装载位置的信息。装载位置可以用坐标来表示，也可以用高度图这样的图像来表示。输出目的地没有特别限制。例如，为了向工作人员通知装载位置，可以使装载位置显示于监视器等显示装置。或者还能够进行如下控制：通过对机械臂等控制装置输出装载位置，从而机械臂将货物装载于装载位置。以这种方式，能够支援实际的装载工作。

接下来，对装载位置决定处理装置12的处理的流程进行说明。图6为第1实施方式的装载位置决定处理装置12的处理的概略流程图。

装载空间信息获取部121获取装载空间信息(S301)，状态信息生成部123基于该装载空间信息生成当前时间点的高度图(S302)。另一方面，装载用货物信息获取部122获取装载用货物信息(S303)。

此外，可以在已经实施了装载位置的指定且指定针对下一个货物的装载位置的情况下，先缓存针对上次的货物而决定的装载位置的候选高度图，用作当前时间点的高度图。在该情况下，可以省略S301。

候选装载位置检测部124根据装载用货物信息中包含的本次要装载的货物的尺寸和高度图来检测候选装载位置(S304)。状态信息生成部123针对每个计算出的候选装载位置，生成本次的货物被装载于计算出的候选装载位置的情况下的高度图、即候选高度图(S305)。

评价值计算部126使用装载状态评价模型，计算各候选高度图的评价值(S306)。然后，装载位置决定部将评价值最大的候选高度图的候选装载位置决定为最佳装载位置(S307)。最后，装载位置指示部128输出所决定的装载位置(S308)，流程结束。

像这样，在本实施方式中，货物的装载位置是基于评价值从一个以上的能够装载的位置中选择的。因此，装载位置不是试探性地决定的。例如，根据试探性方法，货物被放置于装载空间的拐角或被放置为与已经装载的货物无间隙地相接。但在本实施方式中不是这样的，最先的货物也有可能被放置于装载空间的中央附近。

如以上那样，根据本实施方式，通过进行使用高度图的强化学习，生成评价装载状态的装载状态评价模型。然后，使用装载状态评价模型，对货物独立地指定装载位置。据此，能够进行在每当货物到达时将货物装载于适当的位置的在线应对。另外，即使在装载空间中已经在一定程度上装载有货物的状态下，也能够开始货物的装载工作的支援。

(第2实施方式)

在第1实施方式中，设想为按照货物的到达顺序来装载货物。在本实施方式中，设想为在能够临时性放置货物的情况下等，能够将到达的货物不装载而搁置的情况。例如，一般认为在存在能够临时性放置少量货物的空间的情况下，当多个货物大致同时到达时，可以不一定按照到达顺序来装载货物。另外，一般认为能够通过改变装载的次序来更高效地装载货物。

图7为示出第2实施方式的装载工作支援系统1的一例的框图。在第2实施方式的装载工作支援系统1中，模型生成处理装置11还具备搁置决定部119，装载位置决定处理装置12还具备搁置决定部129。对与第1实施方式同样的方面省略说明。

模型生成处理装置11的候选装载位置检测部114和装载位置决定处理装置12的候选装载位置检测部124与第1实施方式的不同点在于，不仅针对本次被提供的货物，还针对搁置中的货物来检测候选装载位置。搁置中的货物和本次被提供的货物为本次要被装载货物的候选，本实施方式的候选装载位置检测部114针对每个候选的要装载的货物来检测候选装载位置。将本次要被装载的候选的货物记载为“候选装载货物”。候选装载位置的检测方法与第1实施方式是同样的。

模型生成处理装置11的搁置决定部119和装载位置决定处理装置12的搁置决定部129决定是否暂缓决定装载位置。可以在全部的候选装载位置所涉及的评价值都不满足用于被选择为装载位置的条件的情况下决定为“搁置”。例如，在从当前时间点的高度图的评价值中减去针对候选高度图的评价值得到的值均为一定值以上的情况下，即装载状态的评价突然恶化的情况下，很有可能不装载该货物为宜。因此，在这样的情况下，可以暂缓决定装载位置。

但是，有可能存在用于搁置的空间已满的情况等无法搁置货物的时候。因此，也事先确定用于判断能否搁置的条件。在无法搁置的情况下，必须决定装载位置。

模型生成处理装置11的评价值计算部116和装载位置决定处理装置12的评价值计算部126与第1实施方式同样即可。但是在第2实施方式中，作为候选装载货物的货物有时会有多个。可以根据基于候选高度图的评价值来平等地选择这些货物，也可以优先选择某货物。或者，评价值计算部116以及评价值计算部126可以根据目的而赋予用于从多个货物中选择要装载的货物的权重。例如，可以考虑将计算与货物b_i的尺寸相应的值的函数volume(b_i)的值与由装载状态评价模型得到的评价值相加，基于相加后的评价值来决定装载哪个货物。由于加上volume(b_i)后的评价值为表示根据当前状态、包含该货物在内的能够装载的货物的总容量的值，因此能够对尺寸不同的货物彼此进行比较。

例如，当用V_M(S(b_i，p_j))来表示将货物b_i装载于候选装载位置p_j的状态S(b_i，p_j)下的装载状态评价模型时，评价值计算部116以及评价值计算部126可以将根据V(S(b_i，p_j))+volume(b_i)得到的值作为评价值。据此，能够提高货物的尺寸较大或较小的货物被先装载的可能性。

另外，还设想到工作时间以及工作劳动力由于搁置货物而增加的缺点。因此，可以使搁置货物的行为难以被选择。例如，可以考虑评价值计算部116以及评价值计算部126将惩罚函数penalty(b_i)的值(惩罚值)与由装载状态评价模型得到的评价值相加。即，评价值计算部116以及评价值计算部126可以计算根据V(S(b_i，p_j))+penalty(b_i)或V(S(b_i，p_j))+volume(b_i)+penalty(b_i)得到的值作为评价值。设为根据要装载的货物而将惩罚函数penalty(b_i)计算为0或负值。例如，设为针对最近到达的货物(未搁置的货物)为0，而针对搁置过的货物计算出负值。该负值可以适当调整。通过这样的方式，最近到达的货物(未搁置的货物)被装载的可能性升高。像这样，出于为了选择要装载的货物、减少搁置的货物的目的，可以对评价值进行加工，而加工方法不限于上述例子。

接下来对第2实施方式中的处理的流程进行。图8为第2实施方式的模型生成处理装置11的强化学习的概略流程图。S401和S402的处理分别与第1实施方式的S201以及S202的处理是同样的。S403的处理与S203的处理有一部分不同，候选装载位置检测部114针对被设为候选装载货物的每个货物检测候选装载位置(S403)。此外，在上次的货物的装载位置的决定处理中选择为搁置的情况下，由于已经检测了搁置中的货物的候选装载货物，因此可以省略搁置中的货物的候选装载货物的检测，仅检测本次的货物的候选装载货物。

S404和S405的处理分别与第1实施方式的S204以及S205的处理是同样的，计算各候选高度图的评价值。在满足计算出的候选高度图的评价值超过阈值、搁置的货物的数量未超过上限值的用于搁置的条件的情况下(S406的是)，设为搁置，装载位置选择部117将本次被提供的货物追加至候选装载货物中(S407)。然后，返回至S402的处理，开始下一个货物的装载位置的决定处理。在不满足用于搁置的条件的情况下(S406的否)，与第1实施方式中的S206同样地，装载位置选择部117从候选装载位置中选择装载位置(S408)。以下的处理以及分支与第1实施方式是同样的。另外，模型更新的S409处理也与第1实施方式的S207的处理是同样的，可以不是在每次货物被装载时实施，而是针对多个货物汇总实施。

图9为第2实施方式的装载位置决定处理装置12的处理的概略流程图。从S501至S503的处理分别与第1实施方式的从S301至S303的处理是同样的。S504的处理与S304的处理有一部分不同，候选装载位置检测部124针对每个候选装载货物检测候选装载位置(S403)。

S505和S506的处理分别与第1实施方式的S305以及S306的处理是同样的，计算各候选高度图的评价值。在计算出的候选高度图的评价值满足用于搁置的条件的情况下(S507的是)，装载位置决定部127设为搁置而不决定装载位置，将本次被提供的货物追加至候选装载货物中(S508)。在不满足用于搁置的条件的情况下(S406的否)，与第1实施方式同样地，装载位置决定部决定装载位置(S509)。然后，装载位置指示部128输出决定内容：搁置或装载位置(S510)。

图10为例示搁置数与填充率的关系的图。横轴表示能够搁置的最大数，纵轴表示装载空间的最终的填充率。图10的曲线图的形状应当根据货物的尺寸的分布、装载空间的尺寸等而变化，随着搁置数从0增加而填充率倾向于提高。因此可知，设为能够搁置时能够高效地装载货物。另外，即使搁置数增加至10以上，填充率也不会提高太多，因此可知搁置数为一定数量即可。

如以上那样，根据本实施方式，通过设为能够搁置，从而能够提高装载空间的最终的填充率。另外，搁置数即使为几个也足够有效，不需要将全部货物搁置。另外，还能够进行调整以尽可能不进行搁置，还能够防止由搁置导致的工作时间以及劳动力的增加。

(第3实施方式)

在到目前为止的实施方式中，最终货物可能成为呈台阶状堆叠的状态。例如，当观察图2所示的高度图的左下方的由虚线框包围的区域时，从左向右浓度依次变淡。这表示货物呈台阶状堆积。在这样的装载状态下，例如在装载空间为卡车的装货台面的情况下，货物由于横向摇晃而倒塌的危险性升高。像这样，有时由于装载空间等的状况而货物的稳定性受到重视。于是，在第3实施方式中，不是仅以填充率来评价装载状态，还考虑货物的稳定性。对与第1实施方式同样的方面省略说明。

第3实施方式的结构与第1或第2实施方式是同样的。因此，图1或图8也是第3实施方式中的概略结构图。对与第1实施方式同样的方面省略说明。

根据发明人的实验表明，当底面接触率的阈值高时，结果是容易成为台阶状。于是在第3实施方式中，放宽决定候选装载位置的条件，设置即使在不满足与底面接触率相关的条件的情况下也作为能够装载的条件。具体而言，不与底面的接触区域交叉的侧面与装载空间的侧壁或其它货物接触的位置允许作为候选装载位置。此外，可以设为不是允许侧面接触的全部位置，而是侧面的接触率(侧面的接触区域的面积/侧面整体的面积)超过阈值的位置允许作为候选装载位置。

或者，可以设为即使在不满足与底面接触率相关的条件的情况下，允许不与底面的接触区域交叉的侧面直接或经由其它货物而与所述装载空间的侧壁接触的位置作为候选装载位置。

图11为对基于侧面接触的候选装载位置的检测结果进行说明的图。示出了计划装载的货物2与已被装载的货物3的(3J至3O)的位置关系。另外，用是或否表示是否被检测为候选装载位置。

在图11的(A)中，货物2与货物3J的底面接触率小，但货物2在不与底面的接触区域交叉的侧面与货物3K接触。但是，货物3K与装载空间的侧壁4不接触。在这样的情况下，当装载空间横向摇晃时，货物3N和货物2有可能向右侧方向倒塌。因此，图11的(A)的货物2的位置不被检测为候选装载位置。

另一方面，在图11的(B)中，货物2与货物3M的底面接触率小，但货物2在不与底面的接触区域交叉的侧面与货物3N接触。而且，货物3N与装载空间的侧壁4接触。在这样的情况下，即使装载空间横向摇晃，由于货物3N被侧壁4支撑，因此不易倒塌。因此，图11的(B)的货物2的位置可以被检测为候选装载位置。

另外，第3实施方式的模型生成处理装置11可以以计算考虑到货物的装载状态的稳定性的评价值的方式生成装载状态评价模型。例如，到目前为止的实施方式的装载状态评价模型将候选高度图作为输入信息，可以考虑将表示货物的装载状态的稳定性的信息添加至输入信息而生成装载状态评价模型。或者也可以与到目前为止的实施方式的装载状态评价模型分开地，生成根据表示货物的装载状态的稳定性的信息来计算针对稳定性的评价值的模型。在该情况下，评价值计算部基于装载状态评价模型的评价值和计算针对稳定性的评价值的模型的评价值之和来计算评价值。

作为表示货物的装载状态的稳定性的信息，可以考虑对高度图进行加工而得到的高低差图。例如，针对高度图的各分区，计算表示与邻接的各分区的高度的比较的逻辑值的总和。例如，考虑在高度高于邻接的分区的情况下，将逻辑值设为1，在相同的情况下，将逻辑值设为0，在低的情况下，将逻辑值设为－1。据此，该总和的绝对值表示与邻接的分区的高度之差。在此，将该总和规定为“高低差”，将表示被装载货物整体的各分区的高低差的信息记载为“高低差图”。一般认为当分区的高低差接近0时，侧面能够接触的货物增加，因此稳定性增加。因此，一般认为高低差图是表示货物的装载状态的稳定性的信息。进一步地将该高低差图添加至装载状态评价模型的输入信息中，进行即使最终在各分区的高度均匀的情况下也得到大量奖励的强化学习。据此，使得装载状态评价模型对适合于提高预定空间中的货物的填充率并且使各分区的高度均匀化的装载状态评价高。

在使用高低差图的情况下，状态信息生成部113以及状态信息生成部123在生成了高度图后，根据该高度图生成高低差图即可。另外，状态信息生成部113以及状态信息生成部123与候选高度图同样地，且与生成候选高度图一起生成候选高低差图。评价值计算部116以及评价值计算部126将生成的候选高低差图和候选高度图一起输入至装载状态评价模型，获取评价值。在其它方面与到目前为止的实施方式是同样的。

高低差图与高度图同样地，可以为如热图这样的图像数据，也可以被表示为将表示分区的位置的信息(例如行号和列号)和该分区的逻辑值的总和组合而成的数据。

关于使用高低差图时的流程，在第1或第2实施方式的流程中，将“高度图”替换为“高度图和高低差图”、将“候选高度图”替换为“候选高度图和候选高低差图”即可，因此省略。

图12为依据第3实施方式的装载位置决定处理装置的指定而持续装载货物时的结果的概念图。可知货物没有呈台阶状地堆叠，稳定性增加。

如以上那样，根据本实施方式，通过考虑到侧面的接触，并且使用高低差图，计算不仅考虑到填充率还考虑到稳定性的评价值，从而能够提高货物的装载状态的稳定性。

(第4实施方式)

在到目前为止的实施方式中，能够使高度具有限制，能够防止货物堆积太高。但是，取决于被堆叠的货物的重量，在达到高度的限制值之前，下侧的货物有可能由于上侧的货物的重量而被压坏。因此，在第4实施方式中，使得能够防止下侧的货物由于上侧的货物的重量而被压坏的状况。对与第1实施方式同样的方面省略说明。

第4实施方式的结构与到目前为止的实施方式是同样的。因此，图1或图7也是第4实施方式的概略结构图。对与到目前为止的实施方式同样的方面省略说明。

在第4实施方式中，在学习用货物信息以及装载用货物信息中还包含货物的重量。另外，学习用货物信息生成部112决定货物的尺寸并且还决定货物的重量作为测试数据。

此外，在本说明中，虽然设为重量，但是也可以考虑密度而非重量。在该情况下，在本说明中将重(重量)替换为密度即可。

在第4实施方式中，状态信息生成部113以及状态信息生成部123在使用货物的重量代替货物的高度这方面以外与生成高度图同样地，生成表示货物整体在所述预定空间中确定出的各分区中的重量的信息。将该信息记载为“重量图”。

进一步添加该重量图作为输入信息，进行即使最终在各分区中的重量均匀的情况下也得到大量奖励的强化学习。据此，使得装载状态评价模型对适合于提高预定空间中的货物的填充率并且使各分区的高度均匀化的装载状态评价高。

状态信息生成部113以及状态信息生成部123与候选高度图同样地，并且与候选高度图一起，根据候选装载位置和重量图生成针对候选装载位置的候选重量图。

在第4实施方式中，候选装载位置检测部114以及候选装载位置检测部124基于高度图和重量图，检测候选装载位置。在到目前为止的实施方式中，当装载货物时，设为各分区的高度不超过对应的上限值，但在本实施方式中，还设为各分区的重量(各分区中的货物的总重量)不超过对应的上限值。

或者，可以针对每个货物设置上方堆叠的货物的总重量的上限值。此外，根据货物的尺寸等，上方堆叠的货物的总重量的上限值可以针对每个货物而不同。例如，一般认为对于密度高的货物，将该上限值设得大，对于密度低的货物，将该上限值设得小。或者也可以设置将上方堆叠的货物的总重量除以货物的上表面的面积得到的值、即施加于货物的上表面的压力的上限值。

第4实施方式的评价值计算部116以及评价值计算部126将生成的候选重量图与候选高度图一起输入至装载状态评价模型，获取评价值。据此，第4实施方式的装载状态评价模型为考虑到分区的重量的评价值。此外，也可以与到目前为止的实施方式的装载状态评价模型分开地，根据候选重量图生成计算评价值的模型，生成将该模型与到目前为止的实施方式的装载状态评价模型相加得到的新的装载状态评价模型。其它方面与到目前为止的实施方式是同样的。

重量图与高度图同样地，可以为图像数据，也可以表示为将表示分区的位置的信息(例如行号和列号)和该分区中的货物的总重量组合得到的数据。

关于本实施方式的流程，由于将“高度图”替换为“高度图和重量图”、将“候选高度图”替换为“候选高度图和候选重量图”即可，因此省略。

如以上那样，根据本实施方式，使用重量图，计算不仅考虑填充率还考虑各分区的重量的评价值，从而能够防止下侧的货物由于上侧的货物的重量而被压坏的状况。

在以上的实施方式中，状态信息生成部113使用了示出货物相对于底面的高度的“高度图”作为与装载空间中的货物的装载状态相关的状态信息的一例，但也可以设为使用其它信息。例如，在装载空间的上表面被遮蔽，仅一部分侧面敞开的情况下，可以使用与以敞开面为基准的货物整体的进深相关的信息作为状态信息。即，可以使用相对于与敞开面的相对面的高度图，换言之，可以使用进深图。在该情况下，候选装载位置检测部114将货物的该相对面侧的侧面以及底面的接触率为阈值以上的位置作为候选装载位置，当从候选装载位置检测部114发送来候选装载位置时，状态信息生成部113可以针对每个候选装载位置生成与假设货物被装载于该候选装载位置中的任意位置的情况下的进深相关的信息(候选进深图)。进深图以及候选进深图与高度图以及候选高度图同样地，可以为以颜色深浅表示以敞开面为基准的进深的深度的热图，也可以为将表示分区的位置的信息和该分区的货物的进深组合而成的数据。评价值计算部126使用装载状态评价模型，计算与每个候选装载位置的进深相关的信息的评价值。作为评价值，可以使用与装载区间中的货物的填充率、能够装载的物体的总容量相关的信息。像这样，可以不仅生成并使用相对于装载空间的底面的高度图，还可以生成并使用相对于装载空间的侧面的高度图。

在以上的实施方式中，候选装载位置检测部114使用底面的接触率等来检测候选装载位置，但也可以设为使用其它信息决定候选装载位置。例如，在已经装载的物体的强度低、上表面无法载置物体的情况下，可以进行控制以免将该物体的上表面检测为候选装载位置。另外，可以设为根据作为装载对象的物体的重量来决定候选装载位置。像这样，候选装载位置检测部114可以设为根据各物体的特性(强度、重量等)来决定装载位置。

此外，上述的实施方式的至少一部分可以由安装有处理器、存储器等的IC(Integrated Circuit：集成电路)等专用的电子电路(即硬件)来实现。可以是多个构成要素由一个电子电路来实现，也可以是一个构成要素由多个电子电路来实现，还可以是构成要素与电子电路一对一地实现。另外，上述实施方式的至少一部分可以通过执行软件(程序)来实现。例如，使用通用计算机装置作为基本硬件，使搭载于计算机装置的中央处理装置(CPU：Central Processing Unit)、图像处理装置(GPU：Graphics Processing Unit)等处理器(处理电路，Processing circuit，Processing circuitry)执行程序，从而能够实现上述的实施方式的处理。换言之，构成为通过执行该程序，处理器(处理电路)能够执行各装置的各处理。

例如，通过计算机读取存储于计算机可读取的存储介质的专用软件，能够将计算机作为上述实施方式的装置。存储介质的种类没有特别限定。另外，通过计算机安装经由通信网络而下载的专用软件，能够将计算机作为上述实施方式的装置。以这种方式，基于软件的信息处理是使用硬件资源而具体实现的。

图13为示出本发明的一个实施方式中的硬件结构的一例的框图。工作支援系统的各装置具备处理器51、主存储装置52、辅助存储装置53、网络接口54和设备接口55，能够作为这些部分经由总线56连接而成的计算机装置5来实现。

此外，在图13的计算机装置5中，各构成要素具备1个，但也可以具备多个相同的构成要素。另外，图13中示出1台计算机装置5，但可以是软件被安装于多个计算机装置，该多个计算机装置分别执行软件的不同部分的处理。

处理器51为包含计算机的控制装置以及运算装置的电子电路(处理电路)。处理器51基于从计算机装置5的内部结构的各装置等输入的数据、程序进行运算处理，将运算结果、控制信号输出至各装置等。具体而言，处理器51通过执行计算机装置5的OS(操作系统)、应用程序等，来控制构成计算机装置5的各构成要素。处理器51只要能够进行上述的处理即可，没有特别限制。设想为除了模型存储部115以及模型存储部125以外的、模型生成处理装置11以及装载位置决定处理装置12的构成要素由处理器51来实现。另外，处理器51以如下方式发挥功能：当读取装载状态评价模型时，根据存储于主存储装置52或辅助存储装置53的输入信息来输出评价值等输出信息。

主存储装置52为存储处理器51执行的指示以及各种数据等的存储装置，被存储于主存储装置52的信息由处理器51直接读取。辅助存储装置53为主存储装置52以外的存储装置。此外，这些存储装置的意思是能够保存电子信息的任意电子部件，可以为存储器(memory)也可以为储存器(storage)。另外，作为存储器，有易失性存储器和非易失性存储器，可以为任意存储器。模型存储部115可以由主存储装置52或辅助存储装置53来实现。即，模型存储部115可以为存储器，也可以为储存器。

网络接口54为用于利用无线或有线与通信网络6连接的接口。作为网络接口54，只要使用适合于现有通信标准的网络接口即可。通过网络接口54经由通信网络6能够将计算机装置5与外部装置7A连接。

设备接口55为与外部装置7B直接连接的USB等接口。即，计算机装置5与外部装置7的连接可以经由网络，也可以直接连接。

此外，外部装置7(7A以及7B)可以为装载工作支援系统1的外部的装置、装载工作支援系统1的内部的装置、外部存储介质以及储存器装置中的任意装置。

以上说明了本发明的一个实施方式，但是这些实施方式是作为例子而提出的，并不意在限定发明的范围。这些新颖的实施方式能够通过其它各种的形式来实施，在不脱离发明和主旨的范围内，能够进行各种省略、替换、变更。这些实施方式及其变形包含于发明的范围和主旨中，并且包含于权利要求书所记载的发明及其等同的范围。

Claims

1.一种信息处理装置，具备：

存储器，以及

至少1个处理电路，

其中，所述至少1个处理电路构成为执行如下处理：

生成假设计划装载的第1物体被装载于多个候选装载位置中的任意位置的情况下的状态信息；以及

向装载状态评价模型输入所述候选装载位置的状态信息并获取评价值，其中，当被输入与预定空间中的物体的装载状态相关的状态信息时，该装载状态评价模型输出针对所述预定空间中的物体的装载状态的评价值。

2.根据权利要求1所述的信息处理装置，其中，

针对所述物体的装载状态的评价值为与所述预定空间中的物体的容量相关的值。

3.根据权利要求1或2所述的信息处理装置，其中，

所述至少1个处理电路构成为还执行如下处理：基于获取的评价值从所述多个候选装载位置中决定所述第1物体的装载位置。

4.根据权利要求1至3中的任意一项所述的信息处理装置，其中，

所述至少1个处理电路构成为还执行如下处理：使用与所述第1物体相关的信息和所述第1物体被装载之前的第1时间点的状态信息，检测在所述预定空间中能够装载所述第1物体的位置作为所述多个候选装载位置。

5.根据权利要求3所述的信息处理装置，其中，

所述至少1个处理电路构成为还执行如下处理：基于获取的评价值，决定是否暂缓决定所述第1物体的装载位置。

6.根据权利要求5所述的信息处理装置，其中，

所述至少1个处理电路构成为在暂缓决定所述第1物体的装载位置的情况下，还执行如下处理：

生成假设计划装载的第2物体被装载于多个候选装载位置中的任意位置的情况下的状态信息；

使用所述装载状态评价模型，获取针对关于所述第2物体生成的状态信息的评价值；以及

基于针对所述第1物体的状态信息的评价值和针对所述第2物体的状态信息的评价值，决定所述第1物体的装载位置和所述第2物体的装载位置中的任意位置。

7.根据权利要求6所述的信息处理装置，其中，

所述至少1个处理电路构成为还执行如下处理：使用惩罚值来更新针对所述第1物体的状态信息的评价值。

8.根据权利要求4所述的信息处理装置，其中，

所述至少1个处理电路构成为还执行如下处理：至少将所述第1物体的底面的接触区域相对于所述底面所占的比例为阈值以上的位置和虽然所述接触区域相对于所述底面所占的比例小于所述阈值、但不与所述接触区域交叉的所述第1物体的侧面直接或经由其它物体而与所述预定空间的侧壁接触的位置中的任意一个位置检测为所述第1物体的候选装载位置。

9.根据权利要求1至8中的任意一项所述的信息处理装置，其中，

所述状态信息包含与被装载的物体在所述预定空间中的高度相关的信息。

10.根据权利要求9所述的信息处理装置，其中，

所述装载状态评价模型被学习成在被输入的状态信息所涉及的装载状态适合于提高所述预定空间中的物体的填充率并且使被装载的物体在所述预定空间中的高度均匀化的情况下提高评价值。

11.根据权利要求1至10中的任意一项所述的信息处理装置，其中，

所述状态信息包含与被装载的物体整体在所述预定空间中确定出的各区间中的重量相关的信息。

12.根据权利要求11所述的信息处理装置，其中，

所述装载状态评价模型被学习成在被输入的状态信息所涉及的装载状态适合于提高所述预定空间中的物体的填充率并且使被装载的物体整体在所述预定空间中确定出的各分区中的重量均匀化的情况下提高评价值。

13.根据权利要求1至12中的任意一项所述的信息处理装置，其中，

所述装载状态评价模型为根据所述状态信息输出评价值的神经网络。

14.一种模型生成处理装置，具备：

存储器；以及

至少1个处理电路，

其中，所述至少1个处理电路构成为执行如下操作：

生成假设物体被装载于多个候选装载位置中的任意位置的情况下的状态信息，

使用用于决定预定空间中的所述物体的装载位置的装载状态评价模型，针对生成的状态信息获取评价值；

基于预定的策略，选择所述多个候选装载位置中的一个作为所述物体的装载位置；以及

通过评价选择出的装载位置所涉及的评价值的妥当性，更新所述装载状态评价模型，

所述装载状态评价模型为输出针对所述预定空间中的物体的装载状态的评价值的模型。

15.一种信息处理方法，具备：

生成假设计划装载的第1物体被装载于多个候选装载位置中的任意位置的情况下的状态信息的步骤；以及

使用装载状态评价模型来获取针对所述候选装载位置所涉及的评价值的步骤，其中，当被输入与预定空间中的物体的装载状态相关的状态信息时，该装载状态评价模型输出与所述预定空间中的物体的装载状态相关的评价值。

16.根据权利要求15所述的信息处理方法，其中，

17.根据权利要求15或16所述的信息处理方法，其中，

还具备如下步骤：基于获取的评价值从所述多个候选装载位置中决定所述第1物体的装载位置。

18.根据权利要求15至17中的任意一项所述的信息处理方法，其中，

还具备如下步骤：使用与所述第1物体相关的信息和所述第1物体被装载之前的第1时间点的状态信息，检测在所述预定空间中能够装载所述第1物体的位置作为所述多个候选装载位置。

19.根据权利要求15或16所述的信息处理方法，其中，

还具备如下步骤：基于获取的评价值来决定是否暂缓决定所述第1物体的装载位置。

20.根据权利要求19所述的信息处理方法，其中，

在暂缓决定所述第1物体的装载位置的情况下，还具备：

生成假设计划装载的第2物体被装载于多个候选装载位置中的任意位置的情况下的状态信息的步骤；

使用所述装载状态评价模型，获取针对关于所述第2物体而生成的状态信息的评价值的步骤；以及

基于针对所述第1物体的状态信息的评价值和针对所述第2物体的状态信息的评价值，决定所述第1物体的装载位置和所述第2物体的装载位置中的任意位置的步骤。

21.根据权利要求20所述的信息处理方法，其中，

还具备如下步骤：在决定所述第1物体的装载位置和所述第2物体的装载位置中的任意位置之前，使用惩罚值来更新针对所述第1物体的状态信息的评价值。

22.根据权利要求18所述的信息处理方法，其中，

至少所述第1物体的底面的接触区域相对于所述底面所占的比例为阈值以上的位置和虽然所述接触区域相对于所述底面所占的比例小于所述阈值、但不与所述接触区域交叉的所述第1物体的侧面直接或经由其它物体而与所述预定空间的侧壁接触的位置中的任意一个位置被检测为所述第1物体的候选装载位置。

23.根据权利要求15至22中的任意一项所述的信息处理方法，其中，

24.根据权利要求23所述的信息处理方法，其中，

25.根据权利要求15至24中的任意一项所述的信息处理方法，其中，

26.根据权利要求25所述的信息处理方法，其中，

27.根据权利要求15至26中的任意一项所述的信息处理方法，其中，

28.一种信息处理方法，具备：

生成假设物体被装载于多个候选装载位置中的任意位置的情况下的状态信息的步骤；

使用用于决定预定空间中的所述物体的装载位置的装载状态评价模型，针对生成的状态信息获取评价值的步骤；

基于预定的策略，选择所述多个候选装载位置中的一个作为所述物体的装载位置的步骤；以及

通过评价选择出的装载位置所涉及的评价值的妥当性，更新所述装载状态评价模型的步骤，

其中，所述装载状态评价模型为输出针对所述预定空间中的物体的装载状态的评价值的模型。