CN112733910A

CN112733910A - 一种放置位置的获取方法、模型的训练方法以及相关设备

Info

Publication number: CN112733910A
Application number: CN202011631359.0A
Authority: CN
Inventors: 童夏良; 张甡; 秦虎
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-30
Also published as: EP4258162A4; EP4258162A1; US20230342715A1; WO2022142654A1

Abstract

本申请涉及将人工智能的方法应用于仓储和/或物流领域中，公开了一种放置位置的获取方法、模型的训练方法以及相关设备。方法包括：获取容纳空间中未占用区域的第一尺寸信息和第一物体的第二尺寸信息，根据第一尺寸信息和N个第二尺寸信息，生成M个候选放置位置，一个候选放置位置指示一个确定的第一物体在未占用区域的一个放置位置，根据第一尺寸信息，通过第一机器学习模型生成每个候选放置位置的第一评分值；根据第一评分值，从M个候选放置位置中选取第一放置位置，避免了过于依赖技术人员的经验，提升了仓储和/或物流领域中放置/装载物体的自动化水平和效率。

Description

一种放置位置的获取方法、模型的训练方法以及相关设备

技术领域

本申请涉及仓储和/或物流领域，尤其涉及一种放置位置的获取方法、模型的训练方法以及相关设备。

背景技术

随着社会的发展，物流、仓储等方面的需求越来越大，如何合理利用放置空间或仓储空间成为了需要解决的问题。目前主要采用的为启发式算法，启发式算法是基于人工经验设计的算法，得到放置位置过于依赖人的经验。

随着计算机技术的发展，人工智能(Artificial Intelligence，AI)在很多问题上取得了优于人类的表现，且它可以自动生成最优的放置位置，避免了高度的人工定制。其中，AI是利用计算机或者计算机控制的机器模拟、延伸和扩展人的智能。人工智能包括研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

因此，一种利用人工智能来端到端的解决放置问题的方案亟待推出。

发明内容

本申请实施例提供了一种放置位置的获取方法、模型的训练方法以及相关设备，可以利用第一机器学习模型来自动生成放置位置，避免了过于依赖技术人员的经验；且每个放置位置的选取过程中充分考虑容纳空间的尺寸信息和每个物体的尺寸信息，有利于提高容纳空间的利用率。

为解决上述技术问题，本申请实施例提供以下技术方案：

第一方面，本申请实施例提供一种放置位置的获取方法，可将人工智能的方法应用于放置仓储和/或物流领域中，以提高物体放置的自动化水平、放置效率和放置率/装载率。执行设备获取第一尺寸信息和N个第二尺寸信息，第一尺寸信息指示容纳空间中未占用区域的尺寸，N为大于或等于1的整数，第二尺寸信息指示第一物体(一个第一物体由至少一个第二物体组成)的尺寸；执行设备可以采用三维张量或二维矩阵的方式来记录第一物体的尺寸信息。执行设备根据第一尺寸信息和N个第二尺寸信息，生成M个候选放置位置；其中，M个候选放置位置也可以称为M个候选放置位置，M为大于或等于1的整数；M个候选放置位置中的一个候选放置位置指示目标物体(目标物体可以是N个第一物体中的任一个第一物体)在未占用区域的一个放置位置，也即每个候选放置位置指向N个第一物体中的一个第一物体在容纳空间的未占用区域的一个放置位置；进一步地，每个候选放置位置具体可以表现为一个向量(该向量也可以称为动作向量)，该向量中可以包括目标物体在未占用区域的位置信息和目标物体的指示信息，目标物体的指示信息用于从N个第一物体中选取一个确定的物体。执行设备根据第一尺寸信息和M个候选放置位置，通过第一机器学习模型对每个候选放置位置与第一尺寸信息之间的适配程度进行评分，以得到与M个候选放置位置一一对应的M个第一评分值；需要说明的是，执行设备通过第一机器学习模型为不同的候选放置位置生成的评分值可以相同，此处“一一对应”的概念为执行设备会为每个候选放置位置生成一个第一评分值，也即虽然M个第一评分值中不同的评分值的取值可以相同，但执行设备会为每个候选放置位置生成一个第一评分值。执行设备根据M个第一评分值，从M个候选放置位置中选取第一放置位置，与第一放置位置对应的第一评分值越高，第一放置位置被选中的概率越大，第一放置位置指示将N个第一物体中的一个确定的第一物体(为便于区分，称为第三物体)放置于容纳空间中未占用领域的目标位置上。

本实现方式中，可以利用第一机器学习模型来端到端地生成放置位置，避免了过于依赖技术人员的经验；且先根据未占用区域的尺寸信息和多个待放置的物体的尺寸信息生成多个候选放置位置，继而通过第一机器学习模型根据未占用区域的尺寸信息，对多个候选放置位置中的每个候选放置位置进行评分，并根据每个候选放置位置的评分值，从多个候选放置位置中选取一个放置位置，也即每个放置位置的选取过程中充分考虑容纳空间的尺寸信息和每个物体的尺寸信息，有利于提高容纳空间的利用率。

在第一方面的一种可能实现方式中，在一种实现方式中，训练设备分为M次将M个候选放置位置输入第一子模型的全连接神经网络中，也即训练设备在生成一个候选放置位置的评分值之后，才会将下一个候选放置位置输入第一子模型的全连接神经网络中；在另一种实现方式中，训练设备会一次性的将M个候选放置位置均输入至第一子模型的全连接神经网络中，以通过第一子模型的全连接神经网络分别生成M个候选放置位置中每个候选放置位置的评分值。

在第一方面的一种可能实现方式中，第一尺寸信息为二维矩阵；二维矩阵的行数指示容纳空间的底面的第一尺寸，二维矩阵的列数指示容纳空间的底面的第二尺寸。若第一尺寸为长，则第二尺寸为宽，也即若该二维矩阵的行数指示容纳空间的底面的长，则该二维矩阵的列数指示容纳空间的底面的宽；或者，若第一尺寸为宽，第二尺寸为长，也即若该二维矩阵的行数指示容纳空间的底面的宽，则该二维矩阵的列数指示容纳空间的底面的长。容纳空间的底面被划分为多个第一区域，不同的第一区域之间没有交集，不同第一区域的大小可以相同，每个第一区域具体可以表现为一个方格，二维矩阵包括与多个第一区域一一对应的多个矩阵值，每个矩阵值指示多个第一区域中一个第一区域在高度方向上的剩余空间。

本申请实施例中，相对于采用三维张量的形式来表示第一尺寸信息，采用二维的矩阵来表示第一尺寸信息，并将二维矩阵形式的第一尺寸信息输入第一机器学习模型中，也即降低了输入的第一尺寸信息的维度，能够大大降低了第一机器学习模型运算过程中所需要的算力，提高了评分值计算过程的效率。

在第一方面的一种可能实现方式中，第一机器学习模型包括第一子模型和第二子模型，执行设备根据第一尺寸信息和M个候选放置位置，通过第一机器学习模型，生成与M个候选放置位置一一对应的M个第一评分值，包括：执行设备将第一尺寸信息和M个候选放置位置输入第一子模型，得到第一子模型输出的与M个候选放置位置一一对应的M个第二评分值；需要说明的是，执行设备通过第一子模型为不同的候选放置位置生成的第二评分值可以相同，前述“一一对应”的概念为执行设备会通过第一子模型为每个候选放置位置生成一个第二评分值，也即虽然M个第二评分值中不同的评分值的取值可以相同，但每个候选放置位置会对应一个第二评分值。执行设备将与N个第一物体一一对应的N个第一体积值输入第二子模型，得到第二子模型输出的与N个第一物体一一对应的N个第三评分值，对应的，执行设备通过第二子模型为不同的第一物体生成的第三评分值可以相同，前述“一一对应”的概念为执行设备会通过第二子模型为每个第一物体生成一个第三评分值，也即虽然N个第三评分值中不同的评分值的取值可以相同，但执行设备会为每个第一物体生成一个第三评分值。其中，一个第一物体由至少一个第二物体组成，第一体积为以下中的任一项：至少一个第二物体的平均体积、至少一个第二物体中最大的第二物体的体积或至少一个第二物体中最小的第二物体的体积。执行设备根据M个第二评分值、N个第三评分值和第一对应关系，对M个第二评分值和N个第三评分值执行第一运算，以生成M个第一评分值；第一计算可以为相加、相减或相乘，第一对应关系为M个第二评分值和N个第三评分值之间的对应关系。

本申请实施例中，不仅根据第一尺寸信息和M个候选放置位置对每个候选放置位置进行打分，而且根据与N个第一物体对应的N个第一体积，生成与N个第一物体一一对应的N个第三评分值，进而根据N个第三评分值和M个第二评分值，得到每个候选放置位置的最终评分值，结合更多的信息来对每个候选放置位置进行打分，以提高生成的每个评分值的准确度，有利于获取到最适合的放置位置，以提高容纳空间的利用率；且在通过第一机器学习模型选取放置位置的过程中，引入与N个第一物体一一对应的N个第一体积值，所述第一体积值与组成第一物体的至少一个第二物体相关，有利于第一机器学习模型根据第二物体的体积学习放置物体的先后顺序，比如先选择放置体积大的物体，最后使用小的物体进行填充，这样就能将容器填充的更满，从而能够提高容纳空间的放置率/装载率。

在第一方面的一种可能实现方式中，执行设备根据M个第二评分值、N个第三评分值和第一对应关系，生成M个第一评分值，包括：执行设备根据第一对应关系，从N个第三评分值中获取与目标评分值对应的至少一个第三评分值，目标评分值为M个第二评分值中任一个评分值；执行设备将与目标评分值对应的至少一个第三评分值中每个第三评分值与目标评分值相加，得到第一评分值。

本申请实施例中，在得到M个第二评分值和N个第三评分值之后，根据M个第二评分值和N个第三评分值之间的第一对应关系，对M个第二评分值和N个第三评分值执行加法运算，以生成最终的第一评分值，提供了生成第一评分值的一种具体实现方案；且采用加法的方式避免第一评分值中出现负值，也避免第一评分值中出现过高的数值，以提高放置位置选取过程的流畅性。

在第一方面的一种可能实现方式中，第一子模型进一步可以被拆分为特征提取网络和全连接神经网络。训练设备将第一尺寸信息输入至第一子模型的特征提取网络中，以通过第一子模型的特征提取网络对第一尺寸信息进行特征提取，得到第一特征信息。其中，第一尺寸信息可以表现为三维张量或二维矩阵；前述特征提取网络具体可以表现为卷积神经网络或其他类型的神经网络；第一特征信息具体可以表现为与第一尺寸信息对应的状态向量，也可以称为容纳空间的未占用区域的状态向量。训练设备将第一特征信息和M个候选放置位置输入第一子模型的全连接神经网络中，以通过第一子模型的全连接神经网络将第一特征信息分别与M个候选放置位置中每个候选放置位置进行连接(也即将第一特征信息与每个候选放置位置组对)，以生成M个第二评分值。其中，每个候选放置位置具体可以表现为一个动作向量，也即训练设备通过第一子模型的全连接神经网络将与状态向量(也即第一特征信息)分别与M个动作向量中每个动作向量进行连接，并生成与连接后的M个状态-动作向量一一对应的M个第二评分值，也即对每个动作向量(也即候选放置位置)与状态向量(也即未占用区域第一尺寸信息)的适配程度进行打分。

本申请实施例中，对第一尺寸信息进行特征提取以得到第一特征信息，并将第一特征信息与M个候选放置位置中每个放置位置进行连接，能够得到M个连接对，进而可以对第一特征信息与每个候选放置位置的适配程度进行打分，也即得到与M个候选放置位置一一对应的M个第二评分值，提供了生成第二评分值的具体实现方式，且将生成第二评分值的过程进行细化，提高了本方案的精细化管理程度。

在第一方面的一种可能实现方式中，第一子模型为以下中的任一种神经网络：深度Q神经网络、深度双Q神经网络、竞争深度双Q神经网络或自然深度Q神经网络；第二子模型为全连接神经网络。本申请实施例中，提供了第一子模型的多种具体实现方式，提高本方案的实现灵活性。

第二方面，本申请实施例提供一种模型的训练方法，将人工智能的方法应用于仓储和/或物流领域中放置。训练设备获取第一尺寸信息和N个第二尺寸信息，第一尺寸信息指示容纳空间中未占用区域的尺寸，N为大于或等于1的整数，第二尺寸信息指示第一物体的尺寸；训练设备根据第一尺寸信息和N个第二尺寸信息，生成M个候选放置位置，M个候选放置位置中的一个放置位置指示目标物体在未占用区域的一个放置位置，目标物体为N个第一物体中的一个物体，M为大于或等于1的整数。训练设备根据第一尺寸信息和M个候选放置位置，通过第一机器学习模型，生成与M个候选放置位置一一对应的M个第一评分值。训练设备根据第一损失函数，对第一机器学习模型进行训练，直至满足收敛条件，第一损失函数指示M个第一评分值中的最大值与第四评分值之间的相似度，第四评分值为上一次训练过程中从多个候选放置位置中选取的一个放置位置的评分值。

在第二方面的一种可能实现方式中，训练设备还可以根据M个第一评分值，从M个候选放置位置中选取第一放置位置。训练设备根据第一损失函数，对第一机器学习模型进行训练，包括：训练设备根据第一损失函数，采用强化学习的方法，对第一机器学习模型进行训练。则训练设备在计算第一损失函数之前，还需要计算第一奖励值，并根据该第一奖励值、在上一次训练过程中从多个候选放置位置中选取的一个放置位置的评分值和步骤304中生成的M个第一评分值中的最大值，生成第一损失函数的函数值。其中，在一种实现方式中，该第一奖励值仅包括局部奖励，局部奖励与在将一个确定的第一物体放置于容纳空间的一个确定的位置后所产生的浪费空间的体积与容纳空间的总体积之间的比值呈负相关。在另一种实现方式中，第一奖励值根据局部奖励和全局奖励计算得到，可以为将局部奖励和全局奖励相加、相乘、相减等，此次不做限定。局部奖励的概念与上一实现方式中一样，此处不做介绍。全局奖励的取值与训练设备在执行完第一训练任务后，容纳空间的总占用体积与容纳空间的体积之间的比值呈负相关。

对于本申请实施例第二方面以及第二方面的各种可能实现方式中步骤的具体实现方式、每种可能实现方式中名词的具体含义，以及每种可能实现方式所带来的有益效果，均可以参考第一方面中各种可能的实现方式中的描述，此处不再一一赘述。

第三方面，本申请实施例提供一种放置位置的获取装置，将人工智能的方法应用于仓储和/或物流领域中放置。放置位置的获取装置包括：获取模块，用于获取第一尺寸信息和N个第二尺寸信息，第一尺寸信息指示容纳空间中未占用区域的尺寸，N为大于或等于1的整数，第二尺寸信息指示第一物体的尺寸；生成模块，用于根据第一尺寸信息和N个第二尺寸信息，生成M个候选放置位置，M个候选放置位置中的一个候选放置位置指示目标物体在未占用区域的一个放置位置，目标物体为N个第一物体中的一个物体，M为大于或等于1的整数；生成模块，还用于根据第一尺寸信息和M个候选放置位置，通过第一机器学习模型生成与M个候选放置位置一一对应的M个第一评分值；选取模块，用于根据M个第一评分值，从M个候选放置位置中选取第一放置位置。

本申请实施例第三方面中，放置位置的获取装置还可以用于实现第一方面各种可能实现方式中执行设备执行的步骤，对于本申请实施例第三方面以及第三方面的各种可能实现方式中某些步骤的具体实现方式，以及每种可能实现方式所带来的有益效果，均可以参考第一方面中各种可能的实现方式中的描述，此处不再一一赘述。

第四方面，本申请实施例提供一种模型的训练装置，将人工智能的方法应用于仓储和/或物流领域中放置。模型的训练装置包括：获取模块，用于获取容纳空间中未占用区域的第一尺寸信息和N个第一物体的第二尺寸信息，N为大于或等于1的整数；生成模块，用于根据第一尺寸信息和第二尺寸信息，生成M个候选放置位置，M个候选放置位置中的一个放置位置指示目标物体在未占用区域的一个放置位置，目标物体为N个第一物体中的一个物体，M为大于或等于1的整数；生成模块，还用于根据第一尺寸信息和M个候选放置位置，通过第一机器学习模型，生成与M个候选放置位置一一对应的M个第一评分值；训练模块，用于根据第一损失函数，对第一机器学习模型进行训练，直至满足收敛条件，第一损失函数指示M个第一评分值中的最大值与第四评分值之间的相似度，第四评分值为上一次训练过程中从多个候选放置位置中选取的一个放置位置的评分值。

本申请实施例第四方面中，放置位置的获取装置还可以用于实现第二方面各种可能实现方式中训练设备执行的步骤，对于本申请实施例第四方面以及第四方面的各种可能实现方式中某些步骤的具体实现方式，以及每种可能实现方式所带来的有益效果，均可以参考第二方面中各种可能的实现方式中的描述，此处不再一一赘述。

第五方面，本申请实施例提供了一种执行设备，可以包括处理器，处理器和存储器耦合，存储器存储有程序指令，当存储器存储的程序指令被处理器执行时实现上述第一方面的放置位置的获取方法。对于处理器执行第一方面的各个可能实现方式中执行设备执行的步骤，具体均可以参阅第一方面，此处不再赘述。

在第五方面的一种可能实现方式中，执行设备还可以包括机械臂，机械臂用于基于第一放置位置的指示，从N个第一物体中选取一个第三物体，将第三物体放置于未占用空间中。其中，执行设备具体可以表现为配置有机械臂的机器人，也可以仅包括机械臂等，此处不做限定。

在第五方面的一种可能实现方式中，执行设备还可以包括输出接口，输出接口用于输出放置指示信息，放置指示信息用于指示N个第一物体中的至少一个在容纳空间的放置位置。例如，执行设备得到第一放置位置以后，可以直接将其输出，使得用户可以根据该第一放置位置放置一个确定的第一物体；或者，执行设备得到多个第一物体对应的放置位置以后，呈现整体的放置指示图，使得用户可以根据该指示图放置对应的多个第一物体。

第六方面，本申请实施例提供了一种训练设备，可以包括处理器，处理器和存储器耦合，存储器存储有程序指令，当存储器存储的程序指令被处理器执行时实现上述第二方面的模型的训练方法。对于处理器执行第二方面的各个可能实现方式中训练设备执行的步骤，具体均可以参阅第二方面，此处不再赘述。

第七方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当该计算机程序在计算机上运行时，使得计算机执行上述第一方面的放置位置的获取方法，或者，使得计算机执行上述第二方面的模型的训练方法。

第八方面，本申请实施例提供了一种电路系统，电路系统包括处理电路，处理电路配置为执行上述第一方面的放置位置的获取方法，或者，处理电路配置为执行上述第二方面的模型的训练方法。

第九方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括指令，当该指令由电子设备加载并执行，使得电子设备执行上述第一方面的放置位置的获取方法，或者，使得电子设备执行上述第二方面的模型的训练方法。

第十方面，本申请实施例提供了一种芯片系统，该芯片系统包括处理器，用于支持训练设备或执行设备实现上述方面中所涉及的功能，例如，发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中，芯片系统还包括存储器，存储器，用于保存训练设备或通信设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

附图说明

图1为本申请实施例提供的人工智能主体框架的一种结构示意图；

图2为本申请实施例提供的放置位置的获取系统的一种系统架构图；

图3为本申请实施例提供的模型的训练方法的一种流程示意图；

图4为本申请实施例提供的容纳空间的尺寸信息的一种示意图；

图5为本申请实施例提供的模型的训练方法中容纳空间的尺寸信息的一种示意图；

图6为本申请实施例提供的模型的训练方法中第一物体的两个示意图；

图7为本申请实施例提供的模型的训练方法中第一物体的两个示意图；

图8为本申请实施例提供的模型的训练方法中候选放置位置的两个示意图；

图9为本申请实施例提供的模型的训练方法中生成M个第一评分值的一种流程示意图；

图10为本申请实施例提供的数据处理方法的一种流程示意图；

图11为本申请实施例提供的放置位置的获取方法中放置指示信息的一种示意图；

图12为本申请实施例提供的放置位置的获取装置的一种结构示意图；

图13为本申请实施例提供的模型的训练装置的一种结构示意图；

图14为本申请实施例提供的训练设备的一种结构示意图；

图15为本申请实施例提供的执行设备的一种结构示意图；

图16为本申请实施例提供的芯片的一种结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

下面结合附图，对本申请的实施例进行描述。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

首先对人工智能系统总体工作流程进行描述，请参见图1，图1示出的为人工智能主体框架的一种结构示意图，下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主体框架进行阐述。其中，“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人工智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片提供，作为示例，该智能芯片包括中央处理器(central processing unit，CPU)、神经网络处理器(neural-networkprocessing unit，NPU)、图形处理器(graphics processing unit，GPU)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程逻辑门阵列(fieldprogrammable gate array，FPGA)等硬件加速芯片；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据指示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，图像的分类、图像的个性化管理、电池充电个性化管理、文本分析、计算机视觉的处理、语音识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能终端、智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶、平安城市等。

本申请实施例主要应用于上述各种领域中需要进行放置或仓储等应用场景中，作为示例，例如用户需要将多个物体放入货车中，以通过货车运输前述多个物体，则存在如何合理利用货车车厢中的放置空间的问题。作为另一示例，例如用户需要将多个物体装入多个集装箱中，也会存在如何最大化利用多个集装箱的问题。作为再一示例，例如用户需要将多个物体存储于仓库里，则也存在如何最大化利用仓库里的存储空间的问题等，应理解，此处不对本申请实施例的应用场景进行穷举。在前述种种场景中，均可以采用本申请实施例提供的放置位置的获取方法，从而可以利用第一机器学习模型来自动生成放置位置，避免了过于依赖技术人员的经验；且先根据未占用区域的尺寸信息和多个待放置的物体的尺寸信息生成多个候选放置位置，继而通过第一机器学习模型根据未占用区域的尺寸信息，对多个候选放置位置中的每个候选放置位置进行评分，并根据每个候选放置位置的评分值，从多个候选放置位置中选取一个放置位置，也即每个放置位置的选取过程中充分考虑容纳空间的尺寸信息和每个物体的尺寸信息，有利于提高容纳空间的利用率。

为了便于理解本方案，先结合图2对本申请实施例提供的放置位置的获取系统进行介绍，请参阅图2，图2为本申请实施例提供的放置位置的获取系统的一种系统架构图，在图2中，放置位置的获取系统200包括执行设备210、训练设备220、数据库230和数据存储系统240，执行设备210包括计算模块211。

在训练阶段，数据库230中存储有训练数据集合，训练数据集合中可以有多个任务，每个任务为将多个物体放入到一个或多个容纳空间中。训练设备220生成第一机器学习模型/规则201，并利用数据库中的训练数据集合对第一机器学习模型/规则201进行迭代训练，得到成熟的第一机器学习模型/规则201。需要说明的是，数据库230具体可以表现为任意形式的存储介质，不限定为传统意义上的数据库。

在推理阶段，执行设备210可以调用数据存储系统240中的数据、代码等，也可以将数据、指令等存入数据存储系统240中。数据存储系统240可以配置于执行设备210中，也可以为执行设备210外部的存储器。计算模块211可以根据容纳空间中未占用区域的第一尺寸信息和M个候选放置位置，通过成熟的第一机器学习模型/规则201生成与M个候选放置位置一一对应的M个第一评分值，从而执行设备210可以根据M个第一评分值，从M个候选放置位置中选取第一放置位置。

本申请的一些实施例中，例如图2中，“用户”可以直接与执行设备210进行交互，也即执行设备210与客户设备集成于同一设备中。作为示例，在一些应用场景中，执行设备210可以表现为具有搬运功能的智能机器人，则在推理阶段，执行设备210在选取到第一放置位置之后，可以根据第一放置位置的指示，将多个物体中的一个确定的物体放入容纳空间的一个确定的位置中。在另一些应用场景中，执行设备210具体可以表现为配置有显示屏的执行设备，则在推理阶段，执行设备210在完成一个任务之后(也即重复执行多次放置位置的选取操作后)，可以向用户展示三维示意图，该三维示意图中示出了多个物体在容纳空间的放置位置的指示信息等，执行设备210还可以表现为其它形态，此处不一一进行列举，但图2仅是本发明实施例提供的两种放置位置的获取系统的架构示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。

在本申请的另一些实施例中，执行设备210和客户设备可以为分别独立的设备，执行设备210配置有输入/输出接口，与客户设备进行数据交互，“用户”可以通过客户设备的输入/输出接口向执行设备210输入至少一个任务，执行设备210通过输入/输出接口将处理结果返回给客户设备。

由图2中的描述可知，本申请实施例包括推理阶段和训练阶段，而推理阶段和训练阶段的流程有所不同，以下分别对前述两个阶段的具体实现流程进行描述。

一、训练阶段

本申请实施例中，具体的，请参阅图3，图3为本申请实施例提供的模型的训练方法的一种流程示意图，方法可以包括：

301、训练设备从训练数据集中获取第一训练任务。

本申请实施例中，训练设备中会存储有训练数据集合，训练数据集中有多个训练任务，训练设备可以从多个训练任务中任意选择一个第一训练任务。第一训练任务指示将多个第二物体(也可以称为初始待放置物体)放置于容纳空间中。其中，该多个第二物体中的每个第二物体均为规则物体，作为示例，例如第二物体可以表现为长方体、正方体、圆柱体、圆锥体或其他类型的规则物体等，此处不做穷举。容纳空间具体可以表现为由实体物质包围的实体空间，作为示例，例如集装箱、车厢、仓库等实体空间，此处不做穷举；容纳空间也可以表现为人为划定的空间，而不是由实体物质包围的空间，作为示例，例如容纳空间可以为在空地中的一个空间，用户人为划定容纳空间的底面面积以及容纳空间的高度等，此处不对容纳空间在实际应用场景中的表现形式进限定。

进一步地，第一训练任务包括多个第二物体中每个第二物体的标识信息、每个第二物体的尺寸信息和整个容纳空间的尺寸信息，第二物体的尺寸信息可以视为第二物体的状态信息中的空间状态信息，容纳空间的尺寸信息可以视为容纳空间的状态信息中的空间状态信息。

更进一步地，一般情况下，容纳空间具体表现为长方体或正方体，则容纳空间的尺寸信息包括容纳空间的长、宽和高。由于本应用场景中，容纳空间中尚未放置任何物体，则在一种实现方式中，训练设备可以直接记录容纳空间的尺寸数值。在另一种实现方式中，训练设备也可以采用三维张量表示容纳空间的尺寸信息。具体的，容纳空间被划分为多个方块，训练设备可以生成与容纳空间尺寸相同的一个三维张量，该三维张量中包括多个二维矩阵，该多个二维矩阵中每个二维矩阵的尺寸与容纳空间的底面对应，该三维张量的高度与容纳空间的高对应；进一步地，二维矩阵的行数指示容纳空间的底面的第一尺寸，二维矩阵的列数指示容纳空间的底面的第二尺寸，若第一尺寸为长，则第二尺寸为宽，或者，若第一尺寸为宽，第二尺寸为长。该三维张量中的每个数值均对应容纳空间中的一个方块，若该多个方块中一个方块代表的空间被占用，则三维张量中与该一个方块对应的数值为1，若该多个方块中一个方块代表的空间未被占用，则三维张量中与该一个方块对应的数值为0。作为示例，例如容纳空间的长为6米、宽为3米、高为2米，则可以通过一个12*6*4的三维张量来表示该容纳空间，也即三维张量中的一个数值对应容纳空间中50厘米*50厘米*50厘米的一个方块，用于指示该50厘米*50厘米*50厘米的方块所代表的空间是否被占用。

在另一种实现方式中，训练设备还可以在得到容纳空间的尺寸信息之后，采用二维矩阵表示容纳空间的尺寸信息。该二维矩阵的行数指示容纳空间的底面的第一尺寸，二维矩阵的列数指示容纳空间的底面的第二尺寸。若第一尺寸为长，则第二尺寸为宽，也即若该二维矩阵的行数指示容纳空间的底面的长，则该二维矩阵的列数指示容纳空间的底面的宽；或者，若第一尺寸为宽，第二尺寸为长，也即若该二维矩阵的行数指示容纳空间的底面的宽，则该二维矩阵的列数指示容纳空间的底面的长。容纳空间的底面被划分为多个第一区域，不同的第一区域之间没有交集，不同第一区域的大小可以相同，每个第一区域具体可以表现为一个方格，该二维矩阵包括与多个第一区域一一对应的多个矩阵值，每个矩阵值指示多个第一区域中一个第一区域在高度方向上的剩余空间。本申请实施例中，相对于采用三维张量的形式来表示第一尺寸信息，采用二维的矩阵来表示第一尺寸信息，并将二维矩阵形式的第一尺寸信息输入第一机器学习模型中，大大降低了第一机器学习模型运算过程中所需要的算力，提高了评分值计算过程的效率；能够减少模型训练过程中的内存占用，由于随着训练任务中包括的待放置数量的增加，若采用三维张量来表示第一物体的尺寸信息，则用于描述物体的尺寸信息所占内存的大小也会随之增加，导致内存占用溢出的问题。

为更直观地理解本方案，请参阅图4，图4为本申请实施例提供的容纳空间的尺寸信息的一种示意图。图4包括(a)和(b)两个子示意图，图4的(a)子示意图示出的为容纳空间的一个示意图，该容纳空间的长为10米、宽为6米、高为8米，图4的(b)子示意图示出的为与该容纳空间对应的一个二维矩阵，该二维矩阵的行数为6，用于指示该容纳空间的底面的宽为6，该二维矩阵的列数为10，用于指示该容纳空间的底面的长为10；该容纳空间的底面被划分为60个第一区域，每个第一区域指示一个1米*1米的方格，该二维矩阵中的每个矩阵值用于指示一个第一区域在高度方向上的剩余空间，由于该容纳空间中尚未放置任何物体，则与所有第一区域对应的矩阵值均为8，也即指示所有第一区域在高度方向上的剩余空间均为8米，应理解，图4中的示例仅为方便理解本方案，不用于限定本方案。需要说明的是，此处仅以容纳空间表现为长方体或正方体为例，容纳空间也可以表现为其他形状的规则物体，此处不做穷举。

每个第二物体的标识信息用于唯一标识一个第二物体，该标识信息具体可以表现为数字编码、字符编码或其他形式等，作为示例，例如一个第二物体的标识信息可以为“0000001”、“0000023”、“FM000369”等，此处不做穷举。

对应的，训练设备中可以直接记录每个第二物体的尺寸数值作为每个第二物体的尺寸信息，例如第二物体为长方体，则记录第二物体的长、宽和高的数值作为每个第二物体的尺寸信息，再例如第二物体为圆柱体，则记录第二物体的底面半径和高等，此处不做穷举。训练设备也可以通过三维张量或二维矩阵等来表示第二物体的尺寸信息，具体表示方式与通过三维张量或二维矩阵来表示容纳空间的尺寸信息类似，此处不再赘述。

302、训练设备根据第一训练任务，获取第一尺寸信息和N个第二尺寸信息，第一尺寸信息指示容纳空间中未占用区域的尺寸，第二尺寸信息指示第一物体的尺寸。

本申请实施例中，训练设备需要获取第一尺寸信息，第一尺寸信息指示容纳空间中未占用区域的尺寸；并根据多个第二物体的尺寸信息得到N个第一物体(也即待放置物体，由至少一个第二物体堆叠而成，对于第一物体的具体表现形式可参照后续图6和图7对应实施例中的描述)中每个第一物体的第二尺寸信息。

针对容纳空间中未占用区域的第一尺寸信息。若训练设备为通过步骤301进入步骤302，也即该容纳空间中尚未放置任何物体，容纳空间的未占用区域为整个容纳空间，容纳空间中未占用区域的第一尺寸信息即为整个容纳空间的尺寸信息，则训练设备可以直接从第一训练任务中获取容纳空间中未占用区域的第一尺寸信息。

若训练设备为通过步骤305或步骤306进入步骤302，也即该容纳空间中已经放置有至少一个物体，容纳空间的未占用区域为整个容纳空间中的部分区域，则训练设备需要根据第一训练任务和容纳空间中已放置的至少一个第一物体中每个第一物体的位置信息，生成容纳空间中未占用区域的第一尺寸信息。

对应的，训练设备可以直接记录容纳空间中未占用区域的尺寸数值，也可以采用三维张量或二维矩阵来表示容纳空间中未占用区域的第一尺寸信息。

为更直观地理解本方案，请参阅图5，图5为本申请实施例提供的模型的训练方法中容纳空间的尺寸信息的一种示意图。图5包括(a)和(b)两个子示意图，图5的(a)子示意图示出的为容纳空间的一个示意图，该容纳空间的长为10米、宽为6米、高为8米，图5的(b)子示意图示出的为与该容纳空间对应的一个二维矩阵，该二维矩阵的行数为6，用于指示该容纳空间的底面的宽为6，该二维矩阵的列数为10，用于指示该容纳空间的底面的长为10；该容纳空间的底面被划分为60个第一区域，每个第一区域指示一个1米*1米的方格，该二维矩阵中的每个矩阵值用于指示一个第一区域在高度方向上的剩余空间，由于该容纳空间中宽为3米、长为6米、高为6米的空间中被放置了物体，则如图5的(b)子示意图所示，与部分第一区域对应的矩阵值为2，也即指示该部分第一区域在高度方向上的剩余空间为2米(8米减掉6米为2米)；与另一部分区域对应的矩阵值为8，也即指示该第一区域在高度方向上的剩余空间均为8米(该部分区域未放置物体)，应理解，图5中的示例仅为方便理解本方案，不用于限定本方案。需要说明的是，此处仅以容纳空间表现为长方体或正方体为例，容纳空间也可以表现为其他形状的规则物体，此处不做穷举。

针对根据多个第二物体的尺寸信息得到N个第一物体中每个第一物体的第二尺寸信息的过程。在一种情况下，训练设备将多个第二物体分为L组第二物体，每一组第二物体中包括至少一个第二物体，相同组的第二物体的尺寸相同，不同组的第二物体的尺寸不同，L为正整数。针对至少两组第二物体中的目标组的第二物体，目标组的第二物体中包括至少两个第二物体，训练设备采用S种不同的堆叠方式将至少两个第二物体进行堆叠，以得到S个第一物体；并根据目标组的第二物体中每个第二物体的尺寸信息，生成S个第一物体中每个第一物体的第二尺寸信息。其中，沿长度方向、沿宽度方向和沿高度方向进行堆叠分别为不同的堆叠方式，此处不对所有的堆叠方式进行穷举。

训练设备对至少两组第二物体中每一组第二物体均执行前述操作，以得到N个第一物体中每个第一物体的第二尺寸信息。其中，

S_i代表训练设备采用S_i种不同的堆叠方式将L组中第i组的第二物体进行堆叠。

为更直观地理解本方案，请参阅图6，图6为本申请实施例提供的模型的训练方法中第一物体的两个示意图。图6中以目标组的第二物体包括尺寸相同的12个第二物体为例，图6包括(a)和(b)两个子示意图，图6的(a)子示意图和图6的(b)子示意图中分别示出了12个第二物体的两种不同的堆叠方式，应理解，图6中的示例仅为方便理解本方案，不用于限定本方案。

在另一种情况下，训练设备直接将第二物体确定为第一物体，也即第一物体和第二物体的概念完全相同，则训练设备直接从第一训练任务中获取N个第一物体(也即第二物体)中每个第一物体的第二尺寸信息。

在另一种情况下，训练设备将多个第二物体分为至少两组第二物体，至少两组中一个组的第二物体中包括至少一个第二物体，相同组的第二物体的尺寸相同，不同组的第二物体的尺寸不同。至少两组第二物体中包括第一组物体和第二组物体，第一组物体和第二组物体为至少两组第二物体中不同的组；训练设备采用第一堆叠方式将第一组物体包括的至少一个第二物体进行堆叠，得到第一待组合物体(也可以称为简单块)；采用第二堆叠方式将第二组物体包括的至少一个第二物体进行堆叠，得到第二待组合物体，进而将第一待组合物体和第二待组合物体再进行堆叠，以得到N个第一物体中的一个第一物体(也可以称为复杂块)；训练设备根据每个第二物体的尺寸信息，计算第一物体的第二尺寸信息。也即训练设备将相同尺寸的物体进行堆叠后，得到待组合物体，进而将一个或多个待组合物体进行堆叠，以得到一个第一物体。

为更直观地理解本方案，请参阅图7，图7为本申请实施例提供的模型的训练方法中第一物体的两个示意图。图7包括(a)和(b)两个子示意图，图7的(a)子示意图代表由12个尺寸相同的第二物体组成的简单块(也即待组合物体的一个示例)，图7的(b)子示意图代表复杂块(也即第一物体的一个示例)，图7的(b)子示意图由多个简单块堆叠形成，其中的A1代表图7的(a)子示意图中的简单块，应理解，图7中的示例仅为方便理解本方案，不用于限定本方案。

303、训练设备根据第一尺寸信息和N个第二尺寸信息，生成M个候选放置位置。

本申请实施例中，训练设备在得到容纳空间中未占用区域的第一尺寸信息和N个第一物体(最终待放置物体)中每个第一物体的第二尺寸信息后，可以生成与N个第一物体对应的M个候选放置位置。其中，M个候选放置位置也可以称为M个候选放置位置，M为大于或等于1的整数；M个候选放置位置中的一个候选放置位置指示目标物体在未占用区域的一个放置位置，目标物体为N个第一物体中的一个物体，也即每个候选放置位置唯一指向N个第一物体中的一个第一物体在容纳空间的未占用区域的一个放置位置。

需要说明的是，训练设备在执行步骤303的过程中至少需要满足以下几个约束条件：第一物体不能超出容纳空间的边界、不同的第一物体之间的位置不能重叠和不同的第一物体垂直的放入容纳空间中。可选地，训练设备在执行步骤303的过程中还需要满足以下约束条件：第一物体不允许悬空，也即任何第一物体的底面必须被容纳空间的底面或其他第一物体完全支撑；每个第一物体只能够按照指定的一种或多种方向进行放置。

进一步地，每个候选放置位置具体可以表现为一个向量(该向量也可以称为动作向量)，该向量中可以包括目标物体(也即N个第一物体中的任一个第一物体)在未占用区域的位置信息和目标物体的指示信息。

训练设备可以建立与该容纳空间对应的第一坐标系，第一坐标系为三维坐标系(也可以称为空间坐标系)，第一坐标系的坐标系原点可以为该容纳空间的任一个顶点、该容纳空间的中心点、该容纳空间的底面的中心点或其他位置点等等，此处不做限定。若目标物体为长方体或正方体，则目标物体在未占用区域的位置信息可以为目标物体的每个顶点在第一坐标系下的三维坐标(也可以称为空间坐标)，也可以为目标物体包括的8个顶点中距离最远的两个顶点在第一坐标系下的三维坐标，还可以为目标物体的中心点和目标物体的任一个顶点在第一坐标系下的三维坐标等等。若目标物体为圆柱体，则目标物体在未占用区域的位置信息可以包括圆柱体的底面圆心、顶面圆心在第一坐标系下的三维坐标和圆柱体的底面半径/直径，也可以包括圆柱体的底面圆心、圆柱体的中心在第一坐标系下的三维坐标和圆柱体的底面半径/直径，还可以包括圆柱体的顶面圆心、圆柱体的中心在第一坐标系下的三维坐标和圆柱体的底面半径/直径等等。若目标物体为圆锥体，则目标物体在未占用区域的位置信息可以包括圆锥体的底面圆心在第一坐标系下的三维坐标、圆锥体的尖在第一坐标系下的三维坐标和圆锥体的底面半径/直径等等，应理解，具体目标物体在未占用区域的位置信息会包括哪些信息，应当结合实际应用环境灵活设定，此处不做限定。

目标物体的指示信息用于指向N个第一物体中确定的目标物体。目标物体的指示信息可以采用目标物体的标识信息；由于目标物体由至少一个第二物体构成，若根据目标物体在未占用区域的位置信息能够计算出整个目标物体的体积，则目标物体的指示信息可以包括至少一个第二物体中所有第二物体的平均体积和目标物体在未占用区域的位置信息等，此处不对目标物体的指示信息进行穷举。

作为示例，此处以第一物体为长方体或正方体为例，例如M个候选放置位置中每个候选放置位置

其中，[x₁,y₁,z₁]和[x₂,y₂,z₂]分别表示第一物体中距离最远的两个顶点在第一坐标系下的三维坐标，[x₁,y₁,z₁]和[x₂,y₂,z₂]也可以表示第一物体的体积，

表示组成第一物体的至少一个第二物体的平均体积，应理解，前述举例仅为一个示例，不用于限定本方案。

具体的，针对N个第一物体中的任意一个第一物体，训练设备在获取到容纳空间中未占用区域的第一尺寸信息和前述第一物体的第二尺寸信息后，判断该第一物体是否能够放置于容纳空间中的未占用区域中，若该第一物体能够放置于容纳空间中的未占用区域中，训练设备获取该第一物体能够放置于容纳空间的未占用区域中的m个放置位置，并生成与该第一物体对应的m个候选放置位置，m为大于或等于1的整数；若该第一物体不能够放置于容纳空间中的未占用区域中，则训练设备继续从N个第一物体中获取下一个第一物体。训练设备对N个第一物体中每个第一物体均执行前述操作，得到与该N个第一物体的每个第一物体对应的M个候选放置位置。为更直观地理解本方案，请参阅图8，图8为本申请实施例提供的模型的训练方法中候选放置位置的两个示意图。图8包括(a)、(b)和(c)三个子示意图，图8的(a)子示意图代表容纳空间中的未占用区域，图8的(b)子示意图和(c)子示意图分别代表第一物体(也即图8中的B1)在容纳空间的未占用区域中两个不同的候选放置位置，应理解，图8中的示例仅为方便理解本方案，不用于限定本方案。

304、训练设备根据第一尺寸信息和M个候选放置位置，通过第一机器学习模型，生成与M个候选放置位置一一对应的M个第一评分值。

本申请实施例中，训练设备在生成M个候选放置位置之后，可以通过第一机器学习模型对每个候选放置位置与第一尺寸信息之间的适配程度进行评分，以得到与M个候选放置位置一一对应的M个第一评分值；其中，第一机器学习模型具体可以采用神经网络，也可以采用除神经网络之外的算法。需要说明的是，执行设备通过第一机器学习模型为不同的候选放置位置生成的评分值可以相同，此处“一一对应”的概念为执行设备会为每个候选放置位置生成一个第一评分值，也即虽然M个第一评分值中不同的第一评分值的取值可以相同，但每个候选放置位置会明确对应一个第一评分值。例如，可以用一个数组来存放M个第一评分值，数组下标可用于区分每个候选放置位置。

具体的，在一种实现方式中，第一机器学习模型包括第一子模型和第二子模型。步骤304可以包括：训练设备将第一尺寸信息和M个候选放置位置输入第一子模型，得到第一子模型输出的与M个候选放置位置一一对应的M个第二评分值；需要说明的是，执行设备通过第一子模型为不同的候选放置位置生成的第二评分值可以相同，前述“一一对应”的概念为执行设备会通过第一子模型为每个候选放置位置生成一个第二评分值，也即虽然M个第二评分值中不同的第二评分值的取值可以相同，但每个候选放置位置会对应一个个第二评分值。

训练设备将与N个第一物体一一对应的N个第一体积值输入第二子模型，得到第二子模型输出的与N个第一物体一一对应的N个第三评分值，对应的，执行设备通过第二子模型为不同的第一物体生成的第三评分值可以相同，前述“一一对应”的概念为执行设备会通过第二子模型为每个第一物体生成一个第三评分值，也即虽然N个第三评分值中不同的第三评分值的取值可以相同，但每个第一物体会对应一个第三评分值。

训练设备根据M个第二评分值、N个第三评分值和第一对应关系(第一对应关系的具体含义将在后文进行介绍)，生成M个第一评分值，第一对应关系为M个第二评分值和N个第三评分值之间的对应关系。接下来将结合图9对本实现方式的具体实现步骤进行描述，应理解，图9只是本实现方式的一个具体示例，不构成对本实现方式的限制。

其中，由于一个第一物体由至少一个第二物体组成，若第一物体由体积相同的至少一个第二物体组成，则第一体积可以为至少一个第二物体的平均体积；若第一物体由体积不同的至少两个第二物体组成，则第一体积可以为以下中的任一项：至少一个第二物体的平均体积、至少一个第二物体中最大的第二物体的体积或至少一个第二物体中最小的第二物体的体积。

第一子模型为以下中的任一种神经网络：深度Q神经网络(deep Q network，DQN)、深度双Q神经网络(double deep Q network，DDQN)、竞争深度双Q神经网络(dueling deepQ network，Dueling DDQN)或自然深度Q神经网络(nature deep Q network，Nature DQN)；第二子模型为全连接神经网络。本申请实施例中，提供了第一子模型的多种具体实现方式，提高本方案的实现灵活性。

更具体的，针对生成候选放置位置的第二评分值的过程。第一子模型进一步可以被拆分为特征提取网络和全连接神经网络。训练设备将第一尺寸信息输入至第一子模型的特征提取网络中，以通过第一子模型的特征提取网络对第一尺寸信息进行特征提取，得到第一特征信息。其中，第一尺寸信息可以表现为三维张量或二维矩阵；前述特征提取网络具体可以表现为卷积神经网络或其他类型的神经网络；第一特征信息具体可以表现为与第一尺寸信息对应的状态向量，也可以称为容纳空间的未占用区域的状态向量。

训练设备将第一特征信息和M个候选放置位置输入第一子模型的全连接神经网络中，以通过第一子模型的全连接神经网络将第一特征信息分别与M个候选放置位置中每个候选放置位置进行连接(也即将第一特征信息与每个候选放置位置组对)，以生成M个第二评分值。其中，每个候选放置位置具体可以表现为一个动作向量，也即训练设备通过第一子模型的全连接神经网络将与状态向量(也即第一特征信息)分别与M个动作向量中每个动作向量进行连接，并生成与连接后的M个状态-动作向量一一对应的M个第二评分值，也即对每个动作向量(也即候选放置位置)与状态向量(也即未占用区域第一尺寸信息)的适配程度进行打分。

进一步地，在一种实现方式中，训练设备分为M次将M个候选放置位置输入第一子模型的全连接神经网络中，也即训练设备在生成一个候选放置位置的评分值之后，才会将下一个候选放置位置输入第一子模型的全连接神经网络中；在另一种实现方式中，训练设备会一次性的将M个候选放置位置均输入至第一子模型的全连接神经网络中，以通过第一子模型的全连接神经网络分别生成M个候选放置位置中每个候选放置位置的评分值。

针对训练设备根据M个第二评分值、N个第三评分值和第一对应关系，生成M个第一评分值的过程。由于M个第二评分值是与M个候选放置位置一一对应的，参阅上述步骤303中的描述可知，M个候选放置位置是与N个第一物体中至少一个第一物体对应的；N个第三评分值是与N个第一物体一一对应的。则训练设备可以根据第二对应关系和第三对应关系，生成该第一对应关系，第二对应关系为M个候选放置位置与N个第一物体中至少一个第一物体之间的对应关系，第三对应关系为N个第三评分值与N个第一物体之间的对应关系。训练设备根据第一对应关系，从N个第三评分值中获取与目标评分值对应的至少一个第三评分值，目标评分值为M个第二评分值中任一个评分值；将与目标评分值对应的至少一个第三评分值中每个第三评分值与目标评分值执行第一计算，得到第一评分值，该第一计算可以为相加、相减、相乘或其他运算等等。

本申请实施例中，在得到M个第二评分值和N个第三评分值之后，根据M个第二评分值和N个第三评分值之间的第一对应关系，对M个第二评分值和N个第三评分值执行加法运算，以生成最终的第一评分值，提供了生成第一评分值的一种具体实现方案；采用加法的方式避免第一评分值中出现负值，且相对比采用乘法的方式，避免第一评分值中出现过高的数值，以提高放置位置选取过程的流畅性。

为更直观地理解本方案，请参阅图9，图9为本申请实施例提供的模型的训练方法中生成M个第一评分值的一种流程示意图。C1、训练设备将二维矩阵形式的第一尺寸信息(也即容纳空间的未占用区域的尺寸信息)输入第一子模型的特征提取网络中。C2、训练设备通过第一子模型的特征提取网络对第一尺寸信息进行特征提取，并输出向量形式的第一特征信息(也可以称为状态向量)。C3、训练设备根据第一尺寸信息和每个第一物体的第第二尺寸信息，生成M个候选放置位置，每个候选放置位置具体表现为一个向量(也可以称为动作向量)，用于指示将N个第一物体中的一个第一物体放置于容纳空间的未占用区域中的一个候选放置位置上。C4、训练设备将第一特征信息和M个候选放置位置输入第一子模型的全连接神经网络中。C5、训练设备通过全连接神经网络将第一特征信息和每个候选放置位置进行连接，并生成与M个候选放置位置一一对应的M个第二评分值。C6、训练设备将与N个第一物体对应的N个第一体积输入第二子模型，以通过第二子模型生成与N个第一物体一一对应的N个第三评分值。C7、训练设备根据M个第二评分值、N个第三评分值和第一对应关系，执行加法操作，以生成M个第一评分值，第一对应关系为M个第二评分值和N个第三评分值之间的对应关系。应理解，图9中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，不仅根据第一尺寸信息和M个候选放置位置对每个候选放置位置进行打分，而且根据与N个第一物体对应的N个第一体积，生成与N个第一物体一一对应的N个第三评分值，进而根据N个第三评分值和M个第二评分值，得到每个候选放置位置的最终评分值，结合更多的信息来对每个候选放置位置进行打分，以提高生成的每个评分值的准确度，有利于获取到最适合的放置位置，以提高容纳空间的利用率；且在通过第一机器学习模型选取放置位置的过程中，引入与N个第一物体一一对应的N个第一体积值，第一体积值与组成第一物体的至少一个第二物体相关，有利于第一机器学习模型根据第二物体的体积学习放置物体的先后顺序，比如先选择放置体积大的物体，最后使用小的物体进行填充，这样就能将容器填充的更满，从而能够提高容纳空间的放置率/装载率。

在另一种实现方式中，步骤304可以包括：训练设备将第一尺寸信息和M个候选放置位置输入第一机器学习模型，直接得到第一机器学习模型输出的与M个候选放置位置一一对应的M个第一评分值。其中，第一机器学习模型具体可以表现为以下中的任一种神经网络：深度Q神经网络、深度双Q神经网络、竞争深度双Q神经网络或其他类型的神经网络等，此处不做穷举。

更具体的，第一机器学习模型可以被拆分为特征提取网络和全连接神经网络。训练设备将第一尺寸信息输入至第一机器学习模型的特征提取网络中，以通过第一机器学习模型的特征提取网络对第一尺寸信息进行特征提取，得到第一特征信息。训练设备将第一特征信息和M个候选放置位置输入第一机器学习模型的全连接神经网络中，以通过第一机器学习模型的全连接神经网络将第一特征信息分别与M个候选放置位置中每个候选放置位置进行连接(也即将第一特征信息与每个候选放置位置组对)，以直接生成M个第一评分值。本实现方式中第一特征信息的概念与上一实现方式相同，可参阅上述描述，此处不做赘述。

305、训练设备根据M个第一评分值，从M个候选放置位置中选取第一放置位置。

本申请的一些实施例中，训练设备在生成与M个候选放置位置一一对应的M个第一评分值之后，会根据M个第一评分值，从M个候选放置位置中选取一个第一放置位置，其中，第一放置位置指示从N个第一物体中选取一个确定的第一物体(为便于区分，称为第三物体)，并将该第三物体放置于容纳空间中未占用领域的目标位置上。需要说明的是，M个候选放置位置中每个候选放置位置均包括第三物体在未占用领域中的位置信息和该第三物体的指示信息，而第一放置位置为M个候选放置位置中的一个放置位置，则第一放置位置也包括第三物体的在未占用领域中的位置信息和第三物体的指示信息，对于每个候选放置位置的具体含义可参阅上述步骤303中的描述，此处不做赘述。

具体的，在一种实现方式中，训练设备可以从M个候选放置位置中选取第一评分值最高的一个第一放置位置，若存在至少两个第一评分值最高且相同的候选放置位置，则从前述至少两个候选放置位置中任选一个候选放置位置，以确定为第一放置位置。在另一种实现方式中，训练设备可以从M个候选放置位置中随机选取一个第一放置位置。在另一种实现方式中，训练设备可以从M个候选放置位置中获取第一评分值高于第一阈值的多个候选放置位置，并从前述多个候选放置位置中任选一个候选放置位置，以确定为第一放置位置等等，此处不对从M个候选放置位置中选取一个第一放置位置的方式进行穷举。

训练设备在从M个候选放置位置中选取一个第一放置位置后，第一放置位置具体可以表现为一个向量，其中包括第三物体在未占用区域的位置信息和第三物体的指示信息，则训练设备在得到第一放置位置之后，基于第一放置位置的指示，将第三物体放置于容纳空间中未占用领域的目标位置中。

306、训练设备根据第一损失函数，对第一机器学习模型进行训练，直至满足收敛条件。

本申请实施例中，训练设备根据计算第一损失函数的函数值，并对第一损失函数的函数值进行梯度求导，以对第一机器学习模型的权重参数进行反向更新，以完成对第一机器学习模型的一次训练。训练设备对第一机器学习模型进行迭代训练，直至满足收敛条件，得到成熟的第一机器学习模型。

其中，第一损失函数指示M个第一评分值中的最大值和第四评分值之间的相似度，第四评分值为上一次训练过程中从多个候选放置位置中选取的一个放置位置的评分值。该第一损失函数具体可以采用M个第一评分值中的最大值和第四评分值之间的均方差(也即相似度的一种计算方式)、采用M个第一评分值中的最大值和第四评分值之间的方差或其他类型的损失函数等。收敛条件可以为训练次数达到了预设次数，或者第一损失函数的波动值小于或等于预设阈值。

具体的，步骤306包括：训练设备根据第一损失函数，采用强化学习的方法，对第一机器学习模型进行训练。则训练设备在计算第一损失函数之前，还需要计算第一奖励值，并根据该第一奖励值、在上一次训练过程中从多个候选放置位置中选取的一个放置位置的评分值和步骤304中生成的M个第一评分值中的最大值，生成第一损失函数的函数值。

其中，在一种实现方式中，该第一奖励值仅包括局部奖励，局部奖励与在执行步骤305后所产生的浪费空间的体积与容纳空间的总体积之间的比值呈负相关，在执行步骤305后所产生的浪费空间的体积与容纳空间的总体积之间的比值越大，则局部奖励的数值越小，也即第一奖励值与训练设备执行第一放置位置后所产生的浪费空间的体积与容纳空间的总体积之间的比值呈负相关。

具体的，训练设备在执行完步骤305之后，可以得到容纳空间更新后的未占用空间的尺寸信息，训练设备根据剩余的多个第一物体中每个第一物体的尺寸信息和更新后的未占用空间的尺寸信息，确定浪费空间的体积，进而计算出第一奖励值，进而根据第一奖励值生成第一损失函数的函数值，并对第一机器学习模型进行训练。则训练设备可以每执行完步骤301至305之后，均执行一次步骤306。

在另一种实现方式中，第一奖励值根据局部奖励和全局奖励计算得到，可以为将局部奖励和全局奖励相加、相乘、相减等，本申请实施例不做限定。局部奖励的概念与上一实现方式中一样，此处不做介绍。全局奖励与在执行完第一训练任务后，容纳空间的总占用体积与容纳空间的体积之间的比值呈负相关。

训练设备需要执行步骤302至步骤305多次后，才能生成全局奖励，在一种情况下，训练设备在执行步骤302至步骤305多次后执行再一次性执行步骤306多次，以完成对第一机器学习模型的多次迭代训练。具体的，虽然同一个训练任务中可以共享同一个全局奖励，但训练设备在执行第一次步骤302至305时，可以得到第一个局部奖励，训练设备在执行第二次步骤302至305时，可以得到第二个局部奖励，第一个局部奖励和第二个局部奖励可以不同，也即训练设备执行不同次数的步骤302至305时，能够得到与第一损失函数对应的不同的函数值，所以训练设备在执行步骤302至305多次(也即完成第一训练任务)后，能够得到第一损失函数的多个函数值，则训练设备可以利用该多个函数值，多次更新第一机器学习模型的权重参数，也即对第一机器学习模型进行多次训练。

在另一种情况下，训练设备在执行步骤302至步骤305多次之后，可以得到第一损失函数的多个函数值，训练设备计算该多个函数值的平均值，并利用该平均值更新第一机器学习模型的权重参数，以完成对第一机器学习模型的一次训练。

在另一种情况下，训练设备在执行步骤302至步骤305多次之后，可以得到第一损失函数的多个函数值，训练设备获取该多个函数值中的最大值/最小值，并利用该最大值/最小值更新第一机器学习模型的权重参数，以完成对第一机器学习模型的一次训练。

需要说明的是，训练设备在得到第一损失函数的多个函数值之后，还可以采用其他方式对第一机器学习模型进行训练，此处不做穷举。

为更直观地理解本方案，以下公开第一机器学习模型的公式的一种示例：

L(w)＝E[(r_t+γmaxQ(s′,a′,w)-Q(s,a,w))²]；(1)

其中，L(w)代表第一损失函数，E[(r_t+γmaxQ(s′,a′,w)-Q(s,a,w))²]代表计算(r_t+γmaxQ(s′,a′,w)-Q(s,a,w))²的期望，r_t代表第一奖励值，γ为一个超参数，maxQ(s′,a′,w)代表本次训练过程中生成的M个第一评分值中的最大值，Q(s,a,w)代表上一次训练过程中从多个候选放置位置中选取的一个放置位置的评分值，应理解，式(1)中的举例仅为方便理解本方案，不用于限定本方案，第一损失函数还可以采用其他形式。

r_t＝lr_t+gr_t；(2)

其中，r_t代表式(1)中的第一奖励值，lr_t代表局部奖励，gr_t代表全局奖励，式(2)中以第一奖励值由局部奖励和全局奖励相加得到为例。wv_t代表训练设备执行一次步骤302至305之后(也即执行一次放置位置后)造成的容纳空间中浪费空间的体积，L代表容纳空间的长，W代表容纳空间的宽，H代表容纳空间的高，L·W·H代表容纳空间的体积。r_su代表在执行完一个第一训练任务后容纳空间中被占用空间的体积，τ代表一个超参数，应理解，式(2)至式(4)中的举例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，提供了第一机器学习模型的训练过程，提高了本方案的完整性；可以利用训练得到的第一机器学习模型来自动生成放置位置，避免了过于依赖技术人员的经验；且先根据未占用区域的尺寸信息和多个待放置的物体的尺寸信息生成多个候选放置位置，继而通过成熟的第一机器学习模型根据未占用区域的尺寸信息，对多个候选放置位置中的每个候选放置位置进行评分，并根据每个候选放置位置的评分值，从多个候选放置位置中选取一个放置位置，也即每个放置位置的选取过程中充分考虑容纳空间的尺寸信息和每个物体的尺寸信息，有利于提高容纳空间的利用率。

二、推理阶段

具体的，请参阅图10，图10为本申请实施例提供的数据处理方法的一种流程示意图，方法可以包括：

1001、执行设备获取第一任务。

本申请实施例中，执行设备需要获取原始任务，原始任务可以为多个容纳空间的放置任务，也可以为单个容纳空间的放置任务(也可以称为单箱放置任务)，若原始任务为多个容纳空间的放置任务(也可以称为多箱放置任务)，则执行设备可以将原始任务转换为多个单箱放置任务，然后再将单箱放置任务确定为一个第一任务；若原始任务为单箱放置任务放置，则执行设备可以直接将原始任务确定为一个第一任务。

其中，第一任务指示将多个第二物体(也可以称为初始待放置物体)放置于容纳空间中，第一任务包括多个第二物体中每个第二物体的标识信息、每个第二物体的尺寸信息和整个容纳空间的尺寸信息，第一任务的概念与第一训练任务的概念类似，第一任务的具体表现形式可参阅图3对应实施例中的描述，此处不做赘述。

具体的，在一种实现方式中，执行设备可以配置有显示屏，用户可以通过该显示屏直接输入每个第二物体的尺寸值和容纳空间的尺寸值。在另一种实现方式中，执行设备可以获取到用于描述第一任务的文本文档，从描述第一任务的文本文档中识别出第一任务，用于描述第一任务的文本文档中携带有每个第二物体的尺寸信息以及容纳空间的尺寸信息。在另一种实现方式中，执行设备还可以获取到每个第二物体的图像以及容纳空间的图像，执行设备自行识别每个第二物体的尺寸信息和容纳空间的尺寸信息等，此处不对执行设备获取第一任务的方式进行穷举。

1002、执行设备获取第一尺寸信息和N个第二尺寸信息，第一尺寸信息指示容纳空间中未占用区域的尺寸，第二尺寸信息指示第一物体的尺寸。

1003、执行设备根据第一尺寸信息和N个第二尺寸信息，生成M个候选放置位置。

1004、执行设备根据第一尺寸信息和M个候选放置位置，通过第一机器学习模型，生成与M个候选放置位置一一对应的M个第一评分值。

本申请实施例中，步骤1002至1005的具体实现方式可参阅图3对应实施例中步骤302至304中的描述，第一尺寸信息、第二尺寸信息、候选放置位置、第一机器学习模型以及第一评分值的概念均可以参阅上述图3对应实施例中的描述，此处不做赘述。

需要说明的是，执行设备通过第一机器学习模型为不同的候选放置位置生成的评分值可以相同，此处“一一对应”的概念为执行设备会为每个候选放置位置生成一个第一评分值，也即虽然M个第一评分值中不同的第一评分值的取值可以相同，但每个候选放置位置会明确对应一个第一评分值。

1005、执行设备根据M个第一评分值，从M个候选放置位置中选取第一放置位置。

本申请实施例中，执行设备在生成与M个候选放置位置一一对应的M个第一评分值之后，会根据M个第一评分值，从M个候选放置位置中选取一个第一放置位置，其中，与第一放置位置对应的第一评分值越高，第一放置位置被选中的概率越大。

具体的，执行设备可以从M个候选放置位置中选取第一评分值最高的一个第一放置位置，若存在至少两个第一评分值最高且相同的候选放置位置，则从前述至少两个候选放置位置中任选一个候选放置位置，以确定为第一放置位置。

进一步地，在一些应用场景中，若执行设备为用于搬运的机器人，该机器人中配置有机械臂，或者，执行设备为机械臂。则执行设备在选取到第一放置位置之后，基于第一放置位置的指示，通过机械臂将N个第一物体中的一个确定的第三物体放置于容纳空间中未占用领域的目标位置上，并重新进入步骤1102，以生成下一个放置位置。需要说明的是，M个候选放置位置中每个候选放置位置均包括一个确定的第一物体在未占用领域中的位置信息和该确定的第一物体的指示信息，而第一放置位置为M个候选放置位置中的一个放置位置，则第一放置位置也包括第三物体的在未占用领域中的位置信息和第三物体的指示信息，对于每个候选放置位置的具体含义可参阅上述图3对应实施例中的描述，此处不做赘述。

在另一些应用场景中，执行设备可以执行步骤302至步骤305多次后，以完成第一任务，也即确定了多个第一物体的堆叠方式，以及多个第一物体在容纳空间中的位置后，可以输出放置指示信息。执行设备也可以每执行一次步骤302至步骤305之后，就输出一次放置指示信息。更进一步地，执行设备输出放置指示信息的方式可以为执行设备将放置指示信息展示给用户，以使用户根据放置指示信息将N个第一物体放置于容纳空间中；其中，该放置指示信息指示第一任务中每个第一物体在容纳空间的位置，该放置指示信息具体可以表现为立体图的形式，也可以表现为文本数据的形式等，此次不做穷举。或者，执行设备将放置指示信息发送至其他执行设备，以指示其他执行设备将N个第一物体放置于容纳空间内，给其他执行设备具体可以表现为放置机器人。

为更直观地理解本方案，请参阅图11，图11为本申请实施例提供的放置位置的获取方法中放置指示信息的一种示意图。图11中以容纳空间为车厢为例，图11中示出了多个第二物体的放置位置，在实际情况中，执行设备可以采用不同的颜色来区分不同尺寸的第二物体，也即一种尺寸的第二物体对应唯一的一种颜色，需要说明的是，在实际情况中，执行设备可以示出多个角度的放置示意图，图11中仅为一个示例，不用于限定本方案。

本申请实施例中，可以利用第一机器学习模型端到端地来自动生成放置位置，避免了过于依赖技术人员的经验；且先根据未占用区域的尺寸信息和多个待放置的物体的尺寸信息生成多个候选放置位置，继而通过第一机器学习模型根据未占用区域的尺寸信息，对多个候选放置位置中的每个候选放置位置进行评分，并根据每个候选放置位置的评分值，从多个候选放置位置中选取一个放置位置，也即每个放置位置的选取过程中充分考虑容纳空间的尺寸信息和每个物体的尺寸信息，有利于提高容纳空间的利用率。

为了更直观地理解本方案所带来的有益效果，以下结合数据对本申请实施例带来的有益效果进行说明。测试数据集合为145个装箱订单，以下结合表格对本申请实施例所带来的有益效果进行描述。

采用方法	多箱放置中的集装箱数量	单箱放置中的放置率/装载率
			First Fit	803	83.54％
Best Fit	817	78.31％
			本申请实施例	770	89.42％

表1

其中，First Fit和Best Fit分别为两种通过构造法的形式来解决装箱问题的技术，参阅表1，在多箱放置/装载问题中，采用本申请实施例提供的放置位置的获取方法能够减少所需要的集装箱数量；且在单箱放置问题中，采用本申请实施例提供的放置位置的获取方法能够提高单箱放置中的放置率/装载率，放置率/装载率指的是单个集装箱被占用区域的体积与该集装箱的总体积之间的比值。

继续参阅如下表2，表2中示出的为采用本申请实施例提供的放置位置的获取方法，也即生成M个候选放置位置，并对每个候选放置位置进行打分的方式，以选取一个确定的放置位置；和，直接通过机器学习模型对N个第一物体进行打分的方式，以从N个第一物体中选取一个确定的待放置物体进行对比。

采用的神经网络	对第一物体进行打分	对候选放置位置进行打分
			DQN	85.79	87.11
DDQN	86.64	89.42
			Dueling DDQN	86.04	88.91

表2

其中，表2中的数据指示的为单箱放置问题中单个集装箱的放置率/装载率，对比表2中的第二列和第三列，可以看出，采用本申请实施例提供的放置位置的获取方法(也即对候选放置位置进行打分)能够提高单箱放置的放置率/装载率。

在图1至图11所对应的实施例的基础上，为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关设备。具体参阅图12，图12为本申请实施例提供的放置位置的获取装置的一种结构示意图。放置位置的获取装置1200包括获取模块1201、生成模块1202和选取模块1203。获取模块1201，用于获取第一尺寸信息和N个第二尺寸信息，第一尺寸信息指示容纳空间中未占用区域的尺寸，N为大于或等于1的整数；生成模块1202，用于根据第一尺寸信息和N个第二尺寸信息，生成M个候选放置位置，M个候选放置位置中的一个候选放置位置指示目标物体在未占用区域的一个放置位置，目标物体为N个第一物体中的一个物体，M为大于或等于1的整数；生成模块1202，还用于根据第一尺寸信息和M个候选放置位置，通过第一机器学习模型生成与M个候选放置位置一一对应的M个第一评分值；选取模块1203，用于根据M个第一评分值，从M个候选放置位置中选取第一放置位置。

在一种可能的设计中，第一尺寸信息为二维矩阵；二维矩阵的行数指示容纳空间的底面的第一尺寸，二维矩阵的列数指示容纳空间的底面的第二尺寸，若第一尺寸为长，则第二尺寸为宽，或者，若第一尺寸为宽，第二尺寸为长；容纳空间的底面被划分为多个第一区域，不同的第一区域之间没有交集，二维矩阵包括与多个第一区域一一对应的多个矩阵值，每个矩阵值指示多个第一区域中一个第一区域在高度方向上的剩余空间。

在一种可能的设计中，第一机器学习模型包括第一子模型和第二子模型，生成模块1202，具体用于：将第一尺寸信息和M个候选放置位置输入第一子模型，得到第一子模型输出的与M个候选放置位置一一对应的M个第二评分值；将与N个第一物体一一对应的N个第一体积值输入第二子模型，得到第二子模型输出的与N个第一物体一一对应的N个第三评分值，其中，一个第一物体由至少一个第二物体组成，第一体积为以下中的任一项：至少一个第二物体的平均体积、至少一个第二物体中最大的第二物体的体积或至少一个第二物体中最小的第二物体的体积；根据M个第二评分值、N个第三评分值和第一对应关系，生成M个第一评分值，第一对应关系为M个第二评分值和N个第三评分值之间的对应关系。

在一种可能的设计中，生成模块1202，具体用于：根据第一对应关系，从N个第三评分值中获取与目标评分值对应的至少一个第三评分值，目标评分值为M个第二评分值中任一个评分值；将与目标评分值对应的至少一个第三评分值中每个第三评分值与目标评分值相加，得到第一评分值。

在一种可能的设计中，生成模块1202，具体用于通过第一子模型对第一尺寸信息进行特征提取，得到第一特征信息，并通过第一子模型将第一特征信息分别与M个候选放置位置中每个候选放置位置进行连接，以生成M个第二评分值。

在一种可能的设计中，第一子模型为以下中的任一种神经网络：深度Q神经网络、深度双Q神经网络、竞争深度双Q神经网络或自然深度Q神经网络；第二子模型为全连接神经网络。

需要说明的是，放置位置的获取装置1200中各模块/单元之间的信息交互、执行过程等内容，与本申请中图10至图11对应的各个方法实施例基于同一构思，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

本申请实施例还提供一种模型的训练装置，请参阅图13，图13为本申请实施例提供的模型的训练装置的一种结构示意图。模型的训练装置1300包括获取模块1301、生成模块1302和训练模块1303。获取模块1301，用于获取第一尺寸信息和N个第二尺寸信息，第一尺寸信息指示容纳空间中未占用区域的尺寸，N为大于或等于1的整数，第二尺寸信息指示第一物体的尺寸；生成模块1302，用于根据第一尺寸信息和N个第二尺寸信息，生成M个候选放置位置，M个候选放置位置中的一个放置位置指示目标物体在未占用区域的一个放置位置，目标物体为N个第一物体中的一个物体，M为大于或等于1的整数；生成模块1302，还用于根据第一尺寸信息和M个候选放置位置，通过第一机器学习模型，生成与M个候选放置位置一一对应的M个第一评分值；训练模块1303，用于根据第一损失函数，对第一机器学习模型进行训练，直至满足收敛条件，第一损失函数指示M个第一评分值中的最大值与第四评分值之间的相似度，第四评分值为上一次训练过程中从多个候选放置位置中选取的一个放置位置的评分值。

在一种可能的设计中，第一机器学习模型包括第一子模型和第二子模型，生成模块1302，具体用于：将第一尺寸信息和M个候选放置位置输入第一子模型，得到第一子模型输出的与M个候选放置位置一一对应的M个第二评分值；将与N个第一物体一一对应的N个第一体积值输入第二子模型，得到第二子模型输出的与N个第一物体一一对应的N个第三评分值，其中，一个第一物体由至少一个第二物体组成，第一体积为以下中的任一项：至少一个第二物体的平均体积、至少一个第二物体中最大的第二物体的体积或至少一个第二物体中最小的第二物体的体积；根据M个第二评分值、N个第三评分值和第一对应关系，生成M个第一评分值，第一对应关系为M个第二评分值和N个第三评分值之间的对应关系。

需要说明的是，模型的训练装置1300中各模块/单元之间的信息交互、执行过程等内容，与本申请中图3至图9对应的各个方法实施例基于同一构思，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

本申请实施例还提供一种训练设备，请参阅图14，图14为本申请实施例提供的训练设备的一种结构示意图。训练设备1400上可以部署有图13对应实施例中所描述的模型的训练装置1300，用于实现图3至图9对应实施例中训练设备的功能。具体的，训练设备1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。在一个实施例中，存储器1432为随机存储存储器(random access memory，RAM)，可以与中央处理器1422直接交换数据，用于加载数据1444和应用程序1442和/或操作系统1441以供中央处理器1422直接运行与运用，通常作为操作系统或其他正在运行中的程序的临时数据存储媒介。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对训练设备中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在训练设备1400上执行存储介质1430中的一系列指令操作。

训练设备1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

在一种情况下，本申请实施例中，在中央处理器1422用于执行图3至图9对应实施例中的训练设备执行的模型的训练方法，具体的，机器学习模型的训练包括多轮迭代，在多轮迭代中的一轮迭代中，中央处理器1422具体用于：

获取第一尺寸信息和N个第二尺寸信息，第一尺寸信息指示容纳空间中未占用区域的尺寸，N为大于或等于1的整数，第二尺寸信息指示第一物体的尺寸；

根据第一尺寸信息和N个第二尺寸信息，生成M个候选放置位置，M个候选放置位置中的一个放置位置指示目标物体在未占用区域的一个放置位置，目标物体为N个第一物体中的一个物体，M为大于或等于1的整数；

根据第一尺寸信息和M个候选放置位置，通过第一机器学习模型，生成与M个候选放置位置一一对应的M个第一评分值；

根据第一损失函数，对第一机器学习模型进行训练，第一损失函数指示M个第一评分值中的最大值与第四评分值之间的相似度，第四评分值为上一次训练过程中从多个候选放置位置中选取的一个放置位置的评分值。

需要说明的是，中央处理器1422还用于执行图3至图9中训练设备执行的其他步骤，对于中央处理器1422执行图3至图9对应实施例中的训练设备执行的步骤的具体实现方式以及带来的有益效果，均可以参考图3至图9对应的各个方法实施例中的叙述，此处不再一一赘述。

本申请实施例还提供一种执行设备，请参阅图15，图15为本申请实施例提供的执行设备的一种结构示意图。执行设备1500上可以部署有图12对应实施例中所描述的放置位置的获取装置1200，用于实现图10至图11对应实施例中执行设备的功能。具体的，执行设备1500包括：接收器1501、发射器1502、处理器1503和存储器1504(其中执行设备1500中的处理器1503的数量可以为一个或多个，图15中以一个处理器为例)，其中，处理器1503可以包括应用处理器15031和通信处理器15032。在本申请的一些实施例中，接收器1501、发射器1502、处理器1503和存储器1504可通过总线或其它方式连接。

存储器1504可以包括只读存储器和随机存取存储器，并向处理器1503提供指令和数据。存储器1504的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory，NVRAM)。存储器1504存储有处理器和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。

处理器1503控制执行设备的操作。具体的应用中，执行设备的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

上述本申请实施例揭示的方法可以应用于处理器1503中，或者由处理器1503实现。处理器1503可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1503中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1503可以是通用处理器、数字信号处理器(digital signal processing，DSP)、微处理器或微控制器，还可进一步包括专用集成电路(application specific integratedcircuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器1503可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1504，处理器1503读取存储器1504中的信息，结合其硬件完成上述方法的步骤。

接收器1501可用于接收输入的数字或字符信息，以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器1502可用于通过接口输出数字或字符信息；发射器1502还可用于通过上述接口向磁盘组发送指令，以修改磁盘组中的数据；发射器1502还可以包括显示屏等显示设备。

在一种情况下，本申请实施例中，应用处理器15031用于执行图10或图11对应实施例中的执行设备执行的模型的训练方法，具体的，应用处理器15031具体用于：

根据第一尺寸信息和N个第二尺寸信息，生成M个候选放置位置，M个候选放置位置中的一个候选放置位置指示目标物体在未占用区域的一个放置位置，目标物体为N个第一物体中的一个物体，M为大于或等于1的整数；

根据第一尺寸信息和M个候选放置位置，通过第一机器学习模型生成与M个候选放置位置一一对应的M个第一评分值；

根据M个第一评分值，从M个候选放置位置中选取第一放置位置。

需要说明的是，应用处理器15031，还用于执行图3至图9对应实施例中执行设备执行的其他功能。对于应用处理器15031执行图3至图9对应实施例中执行设备的功能的具体实现方式以及带来的有益效果，均可以参考图3至图9对应的各个方法实施例中的叙述，此处不再一一赘述。

可选地，在一些应用场景中，执行设备1500可以为用于搬运的机器人，该机器人中配置有机械臂，或者，执行设备1500为机械臂等，此处不做限定。执行设备1500基于第一放置位置的指示，通过机械臂从N个第一物体中选取一个第三物体，将第三物体放置于未占用空间中。

在另一些应用场景中，执行设备1500还可以通过上述接口输出放置指示信息，放置指示信息用于指示第一物体在容纳空间的放置位置。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有程序，当其在计算机上运行时，使得计算机执行如前述图3至图9所示实施例描述的方法中训练设备所执行的步骤；或者，使得计算机执行如前述图10至图11所示实施例描述的方法中执行设备所执行的步骤。

本申请实施例中还提供一种包括计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图9所示实施例描述的方法中训练设备所执行的步骤；或者，使得计算机执行如前述图10至图11所示实施例描述的方法中执行设备所执行的步骤。

本申请实施例中还提供一种电路系统，所述电路系统包括处理电路，所述处理电路配置为执行如前述图3至图9所示实施例描述的方法中训练设备所执行的步骤，或者，所述处理电路配置为执行如前述图10至图11所示实施例描述的方法中执行设备所执行的步骤。

本申请实施例提供的执行设备和训练设备具体可以为芯片，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使芯片执行上述图3至图9所示实施例描述的模型的训练的方法，或者，以使芯片执行上述图10至图11所示实施例描述的放置位置的获取方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

具体的，请参阅图16，图16为本申请实施例提供的芯片的一种结构示意图，所述芯片可以表现为神经网络处理器NPU 160，NPU 160作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路1603，通过控制器1604控制运算电路1603提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路1603内部包括多个处理单元(Process Engine，PE)。在一些实现中，运算电路1603是二维脉动阵列。运算电路1603还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路1603是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器1602中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器1601中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)1608中。

统一存储器1606用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller，DMAC)1605被搬运到权重存储器1602中。输入数据也通过DMAC被搬运到统一存储器1606中。

总线接口单元1610(Bus Interface Unit，简称BIU)，用于取指存储器1609从外部存储器获取指令，还用于存储单元访问控制器1605从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1606或将权重数据搬运到权重存储器1602中或将输入数据数据搬运到输入存储器1601中。

向量计算单元1607包括多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/全连接层网络计算，如Batch Normalization(批归一化)，像素级求和，对特征平面进行上采样等。

在一些实现中，向量计算单元1607能将经处理的输出的向量存储到统一存储器1606。例如，向量计算单元1607可以将线性函数和/或非线性函数应用到运算电路1603的输出，例如对卷积层提取的特征平面进行线性插值，再例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元1607生成归一化的值、像素级求和的值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路1603的激活输入，例如用于在神经网络中的后续层中的使用。

控制器1604连接的取指存储器(instruction fetch buffer)1609，用于存储控制器1604使用的指令；统一存储器1606，输入存储器1601，权重存储器1602以及取指存储器1609均为On-Chip存储器。外部存储器私有于该NPU硬件架构。

其中，循环神经网络中各层的运算可以由运算电路1603或向量计算单元1607执行。

其中，上述任一处提到的处理器，可以是一个通用中央处理器，微处理器，ASIC，或一个或多个用于控制上述第一方面方法的程序执行的集成电路。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助纯软件或软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CLU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，训练设备，或者网络设备等)执行本申请各个实施例所述的方法。此外，该计算机软件产品也可以控件、驱动程序、独立或可下载软件对象等形式体现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

1.一种放置位置的获取方法，其特征在于，所述方法包括：

获取第一尺寸信息和N个第二尺寸信息，所述第一尺寸信息用于指示容纳空间中未占用区域的尺寸，所述N为大于或等于1的整数，所述第二尺寸信息用于指示第一物体的尺寸；

根据所述第一尺寸信息和所述N个第二尺寸信息，生成M个候选放置位置，所述M个候选放置位置中的一个候选放置位置用于指示目标物体在所述未占用区域的一个放置位置，所述目标物体为所述N个第一物体中的一个物体，所述M为大于或等于1的整数；

根据所述第一尺寸信息和所述M个候选放置位置，通过第一机器学习模型生成与所述M个候选放置位置一一对应的M个第一评分值；

根据所述M个第一评分值，从所述M个候选放置位置中选取第一放置位置。

2.根据权利要求1所述的方法，其特征在于，所述第一尺寸信息为二维矩阵；

所述二维矩阵的行数指示所述容纳空间的底面的第一尺寸，所述二维矩阵的列数指示所述容纳空间的底面的第二尺寸，若所述第一尺寸为长，则所述第二尺寸为宽，或者，若所述第一尺寸为宽，所述第二尺寸为长；

所述容纳空间的底面被划分为多个第一区域，不同的第一区域之间没有交集，所述二维矩阵包括与所述多个第一区域一一对应的多个矩阵值，每个矩阵值指示所述多个第一区域中一个第一区域在高度方向上的剩余空间。

3.根据权利要求1或2所述的方法，其特征在于，所述第一机器学习模型包括第一子模型和第二子模型，所述根据所述第一尺寸信息和所述M个候选放置位置，通过第一机器学习模型，生成与所述M个候选放置位置一一对应的M个第一评分值，包括：

将所述第一尺寸信息和所述M个候选放置位置输入所述第一子模型，得到所述第一子模型输出的与所述M个候选放置位置一一对应的M个第二评分值；

将与所述N个第一物体一一对应的N个第一体积值输入第二子模型，得到所述第二子模型输出的与所述N个第一物体一一对应的N个第三评分值，其中，一个第一物体由至少一个第二物体组成，所述第一体积为以下中的任一项：所述至少一个第二物体的平均体积、所述至少一个第二物体中最大的第二物体的体积或所述至少一个第二物体中最小的第二物体的体积；

根据所述M个第二评分值、所述N个第三评分值和第一对应关系，生成所述M个第一评分值，所述第一对应关系为所述M个第二评分值和所述N个第三评分值之间的对应关系。

4.根据权利要求3所述的方法，其特征在于，所述根据所述M个第二评分值、所述N个第三评分值和第一对应关系，生成所述M个第一评分值，包括：

根据所述第一对应关系，从所述N个第三评分值中获取与目标评分值对应的至少一个第三评分值，所述目标评分值为所述M个第二评分值中任一个评分值；

将所述与目标评分值对应的至少一个第三评分值中每个第三评分值与所述目标评分值相加，得到所述第一评分值。

5.根据权利要求3所述的方法，其特征在于，所述将所述第一尺寸信息和所述M个候选放置位置输入所述第一子模型，得到所述第一子模型输出的与所述M个候选放置位置一一对应的M个第二评分值，包括：

通过所述第一子模型对所述第一尺寸信息进行特征提取，得到第一特征信息，并通过所述第一子模型将所述第一特征信息分别与所述M个候选放置位置中每个候选放置位置进行连接，以生成所述M个第二评分值。

6.根据权利要求3所述的方法，其特征在于，所述第一子模型为以下中的任一种神经网络：深度Q神经网络、深度双Q神经网络、竞争深度双Q神经网络或自然深度Q神经网络；所述第二子模型为全连接神经网络。

7.一种模型的训练方法，其特征在于，所述方法包括：

根据所述第一尺寸信息和所述N个第二尺寸信息，生成M个候选放置位置，所述M个候选放置位置中的一个放置位置指示目标物体在所述未占用区域的一个放置位置，所述目标物体为所述N个第一物体中的一个物体，所述M为大于或等于1的整数；

根据所述第一尺寸信息和所述M个候选放置位置，通过第一机器学习模型，生成与所述M个候选放置位置一一对应的M个第一评分值；

根据第一损失函数，对所述第一机器学习模型进行训练，直至满足收敛条件，所述第一损失函数指示所述M个第一评分值中的最大值与第四评分值之间的相似度，所述第四评分值为上一次训练过程中从多个候选放置位置中选取的一个放置位置的评分值。

8.根据权利要求7所述的方法，其特征在于，所述第一尺寸信息为二维矩阵；

9.根据权利要求7或8所述的方法，其特征在于，所述第一机器学习模型包括第一子模型和第二子模型，所述根据所述第一尺寸信息和所述M个候选放置位置，通过第一机器学习模型，生成与所述M个候选放置位置一一对应的M个第一评分值，包括：

10.一种放置位置的获取装置，其特征在于，所述装置包括：

获取模块，用于获取第一尺寸信息和N个第二尺寸信息，所述第一尺寸信息用于指示容纳空间中未占用区域的尺寸，所述N为大于或等于1的整数，所述第二尺寸信息用于指示第一物体的尺寸；

生成模块，用于根据所述第一尺寸信息和所述N个第二尺寸信息，生成M个候选放置位置，所述M个候选放置位置中的一个候选放置位置指示目标物体在所述未占用区域的一个放置位置，所述目标物体为所述N个第一物体中的一个物体，所述M为大于或等于1的整数；

所述生成模块，还用于根据所述第一尺寸信息和所述M个候选放置位置，通过第一机器学习模型生成与所述M个候选放置位置一一对应的M个第一评分值；

选取模块，用于根据所述M个第一评分值，从所述M个候选放置位置中选取第一放置位置。

11.根据权利要求10所述的装置，其特征在于，所述第一尺寸信息为二维矩阵；

12.根据权利要求10或11所述的装置，其特征在于，所述第一机器学习模型包括第一子模型和第二子模型，所述生成模块，具体用于：

13.根据权利要求12所述的装置，其特征在于，所述生成模块，具体用于：

14.根据权利要求12所述的装置，其特征在于，所述生成模块，具体用于：

15.根据权利要求12所述的装置，其特征在于，所述第一子模型为以下中的任一种神经网络：深度Q神经网络、深度双Q神经网络、竞争深度双Q神经网络或自然深度Q神经网络；所述第二子模型为全连接神经网络。

16.一种模型的训练装置，其特征在于，所述装置包括：

生成模块，用于根据所述第一尺寸信息和所述N个第二尺寸信息，生成M个候选放置位置，所述M个候选放置位置中的一个放置位置指示目标物体在所述未占用区域的一个放置位置，所述目标物体为所述N个第一物体中的一个物体，所述M为大于或等于1的整数；

所述生成模块，还用于根据所述第一尺寸信息和所述M个候选放置位置，通过第一机器学习模型，生成与所述M个候选放置位置一一对应的M个第一评分值；

训练模块，用于根据第一损失函数，对所述第一机器学习模型进行训练，直至满足收敛条件，所述第一损失函数指示所述M个第一评分值中的最大值与第四评分值之间的相似度，所述第四评分值为上一次训练过程中从多个候选放置位置中选取的一个放置位置的评分值。

17.根据权利要求16所述的装置，其特征在于，所述第一尺寸信息为二维矩阵；

18.根据权利要求16或17所述的装置，其特征在于，所述第一机器学习模型包括第一子模型和第二子模型，所述生成模块，具体用于：

19.一种执行设备，其特征在于，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现权利要求1至6中任一项所述的方法。

20.根据权利要求19所述的执行设备，其特征在于，还包括：

机械臂；

所述机械臂用于基于所述第一放置位置的指示，从所述N个第一物体中选取一个第三物体，将所述第三物体放置于所述未占用空间中。

21.根据权利要求19所述的执行设备，其特征在于，还包括：

输出接口；

所述输出接口用于输出基于所述第一放置位置的放置指示信息，所述放置指示信息用于指示所述第一物体在所述容纳空间的放置位置。

22.一种训练设备，其特征在于，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现权利要求7至9中任一项所述的方法。

23.一种计算机可读存储介质，其特征在于，包括程序，当其在计算机上运行时，使得计算机执行如权利要求1至6中任一项所述的方法，或者，使得计算机执行如权利要求7至9中任一项所述的方法。

24.一种电路系统，其特征在于，所述电路系统包括处理电路，所述处理电路配置为执行如权利要求1至6中任一项所述的方法，或者，所述处理电路配置为执行如权利要求7至9中任一项所述的方法。

25.一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，当所述指令由电子设备加载并执行，使电子设备执行权利要求1至6中任一项所述的方法，或者，使电子设备执行权利要求7至9中任一项所述的方法。