CN111127548A

CN111127548A - 抓取位置检测模型训练方法、抓取位置检测方法及装置

Info

Publication number: CN111127548A
Application number: CN201911355830.5A
Authority: CN
Inventors: 吴华栋; 高鸣岐; 周韬; 成慧
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08
Anticipated expiration: 2039-12-25
Also published as: CN111127548B

Abstract

本公开提供了一种抓取位置检测模型训练、抓取位置检测方法及装置，其中，模型训练方法包括：获取多张样本图像，以及与各张样本图像对应的抓取位置投票标签图；利用神经网络，对多张样本图像进行特征提取，得到多张样本图像中的每张样本图像对应的特征数据，并基于特征数据，获取抓取位置投票预测图；基于抓取位置投票预测图以及抓取位置投票标签图训练神经网络，得到抓取位置检测模型。通过该方法训练得到的抓取位置检测模型能够在像素级别上，对图像中物体的抓取位置进行检测，从而可以更准确的检测到物体的抓取位置。进而在控制机器人抓取物体时，准确度也更高。

Description

抓取位置检测模型训练方法、抓取位置检测方法及装置

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种抓取位置检测模型训练方法、抓取位置检测方法、物品抓取方法及装置。

背景技术

随着计算机软硬件的快速发展，人工智能技术日益成熟，作为人工智能走向落地的重要应用，机器人受到了广泛的关注。例如在物流领域，机器人被大量应用于自动分拣、搬运、码垛等，并逐渐替代人力成为物流链的重要组成。

人工智能在应用于物流领域中时，在很多项工作中都需要机器人能够根据场景中的点云数据，确定物品在场景中的位置，然后控制机器人上的抓取部件按照位置进行物品抓取。但在多种库存单位(Stock Keeping Unit，SKU)的物品相互堆叠场景下，当前的目标检测方法存在检测精度低的问题。

发明内容

本公开实施例至少提供一种抓取位置检测模型训练方法、抓取位置检测方法、物品抓取方法及装置。

第一方面，本公开实施例提供了一种抓取位置检测模型训练方法，包括：获取多张样本图像，以及与各张所述样本图像对应的抓取位置投票标签图；其中，每张所述样本图像中均包括至少一种类别下随机堆叠的多个物体；所述抓取位置投票标签图中包括对应样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的真实投票信息；利用神经网络，对所述多张样本图像进行特征提取，得到所述多张样本图像中的每张样本图像对应的特征数据，并基于所述特征数据，获取抓取位置投票预测图；基于所述抓取位置投票预测图以及所述抓取位置投票标签图训练所述神经网络，得到所述抓取位置检测模型。

这样，在确定待检测场景中的各个物品的物品抓取点时，采用了将待检测图像输入至抓取位置检测模型中，该抓取位置检测模型在训练时，抓取位置投票标签图中包括对应样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的真实投票信息，进而训练得到的抓取位置检测模型能够在像素级别上，对图像中物体的抓取位置进行检测，从而可以更准确的检测到物体的抓取位置。进而在控制机器人抓取物体时，准确度也更高。

一种可选的实施方式中，在所述样本图像中，针对像素点为任一物体的中心像素点的情况，该像素点对应的真实投票信息包括：该像素点属于所述任一物体的中心像素点的分类信息；针对像素点为任一物体上非中心素点的情况，该像素点对应的真实投票信息包括：该像素点与所述任一物体上中心像素点之间的距离信息，以及该像素点属于所述任一物体的非中心像素点的分类信息；针对任一像素点为不属于任何物体上像素点的情况，该任一像素点对应的真实投票信息包括：该像素点不属于任何物体的分类信息。

这样，通过上述真实投票信息，在像素级别表征物品中心点在样本图像中的位置，进而训练得到的抓取位置检测模型能够在像素级别上对物品的抓取点进行识，具有更高的识别精度。

一种可选的实施方式中，获取与各张所述样本图像对应的抓取位置投票标签图，包括：获取样本图像中各个像素点的真实投票信息；基于样本图像中的各个像素点的真实投票信息，生成所述样本图像中的各个像素点在所述抓取位置投票标签图中对应位置的像素点的像素值；基于所述样本图像中的各个像素点在所述抓取位置投票标签图中对应位置的像素点的像素值，构成所述抓取位置投票标签图。

这样，能够在像素级别上生成抓取位置投票标签图。

一种可选的实施方式中，采用下述方式获取所述样本图像：基于仿真数据采集系统搭建目标场景；所述目标场景中包括至少一种类别下随机堆叠的多个物体；基于所述目标场景，获取所述样本图像。

这样，通过仿真数据采集系统获取样本图像和对应的抓取位置投票标签图，极大地降低了样本标注成本，进而降低了模型训练成本。

一种可选的实施方式中，基于所述仿真数据采集系统搭建目标场景，包括：基于预先生成的物体模型，随机生成所述至少一种类别下的多个物体实例；控制所述物体实例在所述目标场景中随机堆叠。

这样，能够根据实际模型训练过程中对样本图像的需求，随机的生成对应数量的样本图像。

一种可选的实施方式中，所述目标场景中，还包括：工作台；所述基于所述仿真数据采集系统搭建目标场景，还包括：基于预先生成的工作台模型，随机生成至少一个工作台实例；所述控制所述物体实例在所述目标场景中随机堆叠，包括：控制所述物体实例在所述工作台实例上随机堆叠。

这样，通过控制物体实例在工作台实例上随机堆叠，更适用于实际的物流分拣、码垛等场景。

一种可选的实施方式中，所述控制所述物体实例在所述目标场景中随机堆叠，包括：控制所述物体实例在所述目标场景中随机掉落，以在所述物体实例稳定后在所述目标场景中形成所述物体实例的随机堆叠。

这样，能够更好的控制物体实例在目标场景中随机堆叠。

一种可选的实施方式中，所述基于预先生成的物体模型，随机生成所述至少一种类别下的多个物体实例，包括：对所述物体模型进行随机化处理，和/或，对所述目标场景进行随机化处理，生成所述至少一种类别下的多个物体实例。

这样，能够随机生成目标场景。

一种可选的实施方式中，对所述物体模型的随机化处理包括下述至少一种：物体数量随机化处理、物体尺寸随机化处理、物体形状随机化处理、物体纹理随机化处理、物体掉落位置随机化处理、物体掉落姿态随机化处理、以及物体的摆放方式随机化处理；对所述目标场景的随机化处理包括下述至少一种：环境光照方向的随机化处理、环境光照强度的随机化处理、摄像头摆放位置的随机化处理、以及摄像头拍摄角度的随机化处理。

一种可选的实施方式中，获取与各张样本图像对应的抓取位置投票标签图，包括：基于各个物体在所述目标场景中的位置信息，以及在获取所述样本图像时的拍摄位置信息，确定所述样本图像中的各个像素点对位于所述样本图像中的任一物体的抓取位置进行投票的真实投票信息；基于所述真实投票信息，生成所述抓取位置投票标签图。

这样，可以通过仿真系统自动得到抓取位置投票标签图，极大地降低了样本标注成本，进而降低了模型训练成本。

一种可选的实施方式中，所述利用神经网络，对所述多张样本图像进行特征提取，还包括：对所述多张样本图像进行归一化；利用所述神经网络，对进行了归一化后的所述多张样本图像进行特征提取。

这样，可以简化后续的计算过程，减少运算量，提升模型训练速度。

第二方面，本公开实施例还提供一种抓取位置检测方法，包括：获取待检测场景的待检测图像；将所述待检测图像输入至预先训练的抓取位置检测模型中，获取与所述待检测图像对应的抓取位置投票预测图；基于所述待检测图像对应的抓取位置投票预测图，获得物体抓取点位置信息；其中，所述抓取位置检测模型基于第一方面任一项所述的抓取位置检测模型训练方法训练得到。

这样，确定待检测图像中的抓取位置时，采用了将待检测图像输入至抓取位置检测模型中，该抓取位置检测模型在训练时，抓取位置投票标签图中包括对应样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的真实投票信息，进而训练得到的抓取位置检测模型能够在像素级别上，对图像中物体的抓取位置进行检测，从而可以更准确的检测到物体的抓取位置。

一种可选的实施方式中，所述待检测图像对应的抓取位置投票预测图中包括所述待检测图像中的各个像素点对位于所述待检测图像中的任一物体的抓取位置进行投票的预测投票信息。

第三方面，本公开实施例还提供一种物品抓取方法，包括：获取待检测场景的待检测图像，以及所述待检测场景的深度图像；将所述待检测图像输入至第一方面任一项所述的抓取位置检测模型训练方法得到的抓取位置检测模型中，获取与所述待检测图像对应的抓取位置投票预测图；基于所述待检测图像对应的抓取位置投票预测图，获得物体抓取点在所述待检测图像中的位置信息；基于所述物体抓取点在所述待检测图像中的位置信息，以及所述待检测场景的深度图像，控制机器人抓取与所述物体抓取点对应的物体。

本公开实施例提供的物体抓取方法中，在确定待检测场景中的各个物品的物品抓取点时，采用了将待检测图像输入至抓取位置检测模型中，该抓取位置检测模型在训练时，抓取位置投票标签图中包括对应样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的真实投票信息，进而训练得到的抓取位置检测模型能够在像素级别上，对图像中物体的抓取位置进行检测，从而可以更准确的检测到物体的抓取位置。进而在控制机器人抓取物体时，准确度也更高。

一种可选的实施方式中，所述基于所述物体抓取点在所述待检测图像中的位置信息，以及所述待检测场景的深度图像，控制机器人抓取物体，包括：基于所述物体抓取点在所述待检测图像中的位置信息，以及所述待检测场景的深度图像，确定所述物体抓取点处物体的法向量；基于所述法向量，控制机器人抓取与所述物体抓取点对应的物体。

第四方面，本公开实施例还提供一种抓取位置检测模型训练装置，包括：第一获取模块，用于获取多张样本图像，以及与各张所述样本图像对应的抓取位置投票标签图；其中，每张所述样本图像中均包括至少一种类别下随机堆叠的多个物体；所述抓取位置投票标签图中包括对应样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的真实投票信息；特征提取模块，用于利用神经网络，对所述多张样本图像进行特征提取，得到所述多张样本图像中的每张样本图像对应的特征数据，并基于所述特征数据，获取抓取位置投票预测图；训练模块，用于基于所述抓取位置投票预测图以及所述抓取位置投票标签图训练所述神经网络，得到所述抓取位置检测模型。

一种可选的实施方式中，所述第一获取模块，在获取与各张所述样本图像对应的抓取位置投票标签图时，用于：获取样本图像中各个像素点的真实投票信息；基于样本图像中的各个像素点的真实投票信息，生成所述样本图像中的各个像素点在所述抓取位置投票标签图中对应位置的像素点的像素值；基于所述样本图像中的各个像素点在所述抓取位置投票标签图中对应位置的像素点的像素值，构成所述抓取位置投票标签图。

一种可选的实施方式中，所述第一获取模块，用于采用下述方式获取所述样本图像：基于仿真数据采集系统搭建目标场景；所述目标场景中包括至少一种类别下随机堆叠的多个物体；基于所述目标场景，获取所述样本图像。

一种可选的实施方式中，所述第一获取模块，在基于所述仿真数据采集系统搭建目标场景时，用于：基于预先生成的物体模型，随机生成所述至少一种类别下的多个物体实例；控制所述物体实例在所述目标场景中随机堆叠。

一种可选的实施方式中，所述目标场景中，还包括：工作台；所述第一获取模块，在所述基于所述仿真数据采集系统搭建目标场景时，还用于：基于预先生成的工作台模型，随机生成至少一个工作台实例；所述第一获取模块，在控制所述物体实例在所述目标场景中随机堆叠时，用于：控制所述物体实例在所述工作台实例上随机堆叠。

一种可选的实施方式中，所述第一获取模块，在控制所述物体实例在所述目标场景中随机堆叠时，用于：控制所述物体实例在所述目标场景中随机掉落，以在所述物体实例稳定后在所述目标场景中形成所述物体实例的随机堆叠。

一种可选的实施方式中，所述第一获取模块，在基于预先生成的物体模型，随机生成所述至少一种类别下的多个物体实例时，用于：对所述物体模型进行随机化处理，和/或，对所述目标场景进行随机化处理，生成所述至少一种类别下的多个物体实例。

一种可选的实施方式中，所述第一获取模块，在获取与各张样本图像对应的抓取位置投票标签图时，用于：基于各个物体在所述目标场景中的位置信息，以及在获取所述样本图像时的拍摄位置信息，确定所述样本图像中的各个像素点对位于所述样本图像中的任一物体的抓取位置进行投票的真实投票信息；基于所述真实投票信息，生成所述抓取位置投票标签图。

一种可选的实施方式中，所述特征提取模块，在利用神经网络，对所述多张样本图像进行特征提取时，用于：对所述多张样本图像进行归一化；利用所述神经网络，对进行了归一化后的所述多张样本图像进行特征提取。

第五方面，本公开实施例还提供一种抓取位置检测装置，包括：第二获取模块，用于获取待检测场景的待检测图像；第一检测模块，用户将所述待检测图像输入至预先训练的抓取位置检测模型中，获取与所述待检测图像对应的抓取位置投票预测图；第一确定模块，用于基于所述待检测图像对应的抓取位置投票预测图，获得物体抓取点位置信息；其中，所述抓取位置检测模型基于第一方面中任一项所述的抓取位置检测模型训练装置训练得到。

第六方面，本公开实施例还提供一种物品抓取装置，包括：第三获取模块，用于获取待检测场景的待检测图像，以及所述待检测场景的深度图像；第二检测模块，用于将所述待检测图像输入至基于第一方面任一项所述的抓取位置检测模型训练装置得到的抓取位置检测模型中，获取与所述待检测图像对应的抓取位置投票预测图；第二确定模块，用于基于所述待检测图像对应的抓取位置投票预测图，获得物体抓取点在所述待检测图像中的位置信息；抓取控制模块，用于基于所述物体抓取点在所述待检测图像中的位置信息，以及所述待检测场景的深度图像，控制机器人抓取与所述物体抓取点对应的物体。

一种可选的实施方式中，所述抓取控制模块，在基于所述物体抓取点在所述待检测图像中的位置信息，以及所述待检测场景的深度图像，控制机器人抓取与所述物体抓取点对应的物体时，用于：基于所述物体抓取点在所述待检测图像中的位置信息，以及所述待检测场景的深度图像，确定所述物体抓取点处物体的法向量；基于所述法向量，控制机器人抓取与所述物体抓取点对应的物体。

第七方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤；或执行上述第二方面，或第二方面中任一种可能的实施方式中的步骤；或执行上述第三方面，或第三方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤；或执行上述第二方面，或第二方面中任一种可能的实施方式中的步骤；或执行上述第三方面，或第三方面中任一种可能的实施方式中的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种抓取位置检测模型训练方法的流程图；

图2示出了本公开实施例所提供获取抓取位置投票标签图的具体方法的流程图；

图3示出了本公开实施例所提供的获取样本图像的具体方法的流程图；

图4示出了本公开实施例所提供的一种神经网络的结构示意图；

图5示出了本公开实施例所提供的一种抓取位置检测方法的流程图；

图6示出了本公开实施例所提供的一种物品抓取方法的流程图；

图7示出了本公开实施例所提供的一种抓取位置检测模型训练装置的示意图；

图8示出了本公开实施例所提供的一种抓取位置检测装置的示意图；

图9示出了本公开实施例所提供的一种物品抓取装置的示意图；

图10示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，人工智能在应用于物流领域中时，在很多项物流工作，例如自动分拣、搬运、码垛时，通常采用基于VoteNet的三维目标检测框架来实现；该种三维目标检测框架是一个能够处理点云数据的端到端网络，其在进行目标检测时，首先要通过雷达等传感器获取物体堆叠的点云数据，然后将点云数据输入至网络中，得到目标检测结果，然后基于目标检测结果来执行具体的物流工作。当前的目标检测方法中，由于物体在堆叠时相互遮挡，在很多情况下会造成某些部位点云数据的缺失，这就会导致在确定目标时容易出现误差，进而造成当前的检测方法存在检测精度低的问题。

同时，当前技术由于是对点云数据进行处理，点云数据为三维数据，其数据量较之二维数据更多，因此在对点云数据处理时的运算量也较大，导致了当前目标检测方法的效率较低。

另外，当前目标检测方法由于需要获取物体堆叠的点云数据，因此对传感器的要求较高，造成需要耗费的成本也较高。

基于上述研究，本公开提供了一种抓取位置检测模型训练方法、抓取位置检测方法及装置，能够获取多张样本图像，并获取与每张样本图像对应的抓取位置投票标签图，然后利用神经网络，对多张样本图像进行特征提取，得到多张样本图像中的每张样本图像对应的特征数据，并基于特征数据，获取抓取位置投票预测图，然后基于抓取位置预测图以及抓取位置投票标签图训练神经网络，得到抓取位置检测模型。在该方法中，抓取位置投票标签图中包括对应样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的真实投票信息，进而训练得到的抓取位置检测模型能够在像素级别上，对图像中物体的抓取位置进行检测，从而可以更准确的检测到物体的抓取位置。

同时，本公开实施例是对二维图像数据进行处理，因而运算量也更小，提升了抓取位置检测的精度。

另外，本公开实施例中由于所需要的图像数据为二维数据，因此在获取时只需要用到普通的图像获取设备即可，对设备的要求低，进而成本也就更低。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

下面将结合本公开中附图，对本公开中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本公开实施例进行理解，首先对本公开实施例所公开的一种抓取位置检测模型训练方法进行详细介绍。本公开实施例所提供的抓取位置检测模型训练方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该抓取位置检测模型训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面以执行主体为终端设备为例对本公开实施例提供的抓取位置检测模型训练方法加以说明。

参见图1所示，为本公开实施例提供的抓取位置检测模型训练方法的流程图，方法包括步骤S101～S103，其中：

S101：获取多张样本图像，以及与各张样本图像对应的抓取位置投票标签图。

S102：利用神经网络，对多张样本图像进行特征提取，得到多张样本图像中的每张样本图像对应的特征数据，并基于特征数据，获取抓取位置投票预测图。

S103：基于抓取位置预测图以及抓取位置投票标签图训练神经网络，得到抓取位置检测模型。

下面分别对上述S101～S103加以详细描述。

I：在上述S101中，每张样本图像中均包括至少一种类别下随机堆叠的多个物体。

这里的类别是指物体的SKU，而即使是具有相同SKU的不同物体，其尺寸、颜色、纹理等也有所区别。

随机堆叠的多个物体中，任意两个物体的类别可以相同，也可以不同。

抓取位置投票标签图中包括对应样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的真实投票信息。

样本图像与抓取位置投票标签图的尺寸大小是相同的。例如，样本图像尺寸为255*255，对应抓取位置投票标签图的尺寸也为255*255。

本公开实施例中，例如将每张样本图像中的像素点分为三类：

(1)第一类：物体上与抓取位置对应的中心像素点。其中，中心像素点的位置可以通过属于物体的所有像素点在样本图像中的位置来确定。

例如，在以样本图像建立的二维坐标系中，样本图像中的任一像素点P在样本图像中的位置都可以表示为P(x，y)。针对属于同一物体的像素点p₁(x₁，y₁)～p_m(x_m，y_m)，中心像素点的坐标可以为

这里，需要注意的是，在通过属于同一物体上的像素点在对应样本图像中的坐标确定该物体的中心像素点的坐标时，可能存在得到的

或者

并不能恰好对应一个像素点的情况，由于各个像素点在样本图像中的坐标值一般为整数，因此可以通过对

或者

进行取整的方式，确定中心像素点；另外，还可以将与

所表征的位置点距离最近的像素点作为中心像素点。

对于中心像素点，其真实投票信息包括：该像素点属于物体的中心像素点的分类信息。

这里，需要注意的是，属于不同物体的中心像素点的分类信息可以相同。

(2)第二类：物体上除中心像素点外的其他像素点。在基于上述(1)的方式确定了中心像素点后，将与该中心像素点属于同一物体的其他像素点，均作为第二类像素点。

对于第二类像素点，其真实投票信息包括：该像素点与其所在的物体上中心像素点之间的距离信息，以及该像素点属于物体的非中心像素点的分类信息。

(3)第三类：不属于任何一个物体上的像素点。对于第三类像素点，其真实投票信息包括：该像素点不属于任何物体的分类信息。

在确定了样本图像中各个像素点对应的真实投票信息后，就能够基于各个像素点的真实投票信息，构成抓取位置投票标签图。

具体的，样本图像中的像素点和抓取位置投票标签图中的像素点的是一一对应的。

例如，针对样本图像中任一物体的中心像素点P₁(x₁，y₁)、其在抓取位置投票标签图中对应的像素点为P₁′(x₁，y₁)。

P₁(x₁，y₁)在抓取位置投票标签图中对应的像素点P₁′(x₁，y₁)的像素值例如可以设置为(0,0,1)。其中，第一个0表示其与自身在x轴上的距离为0，第二个0表示其与自身在y轴上的距离为0；1表示该像素点在物体上。

这里需要注意的是，针对在不同物体上的中心像素点，其对应的像素值均为(0,0,1)。

针对和P₁(x₁，y₁)属于同一物体上的非中心像素点P₂(x₂，y₂)，其在抓取位置投票标签图中对应的像素点为P₂′(x₂，y₂)，P₂′(x₂，y₂)的像素值例如为：(x₂-x₁,y₂-y₁,1)。其中，x₂-x₁表征P₂(x₂，y₂)和P₁(x₁，y₁)之间在x轴上的距离。y₂-y₁表征P₂(x₂，y₂)和P₁(x₁，y₁)之间在y轴上的距离，1表示像素点P₂(x₂，y₂)在物体上。

针对样本图像中不属于任一物体上的像素点P₃(x₃，y₃)，其在抓取位置投票标签图中对应的像素点为P₃′(x₃，y₃)，P₃′(x₃，y₃)的像素值例如为(0,0,0)，表征P₃(x₃，y₃)不在任何的物体上。

进而，参见图2所示，在获取抓取位置投票标签图时，例如可以采用下述方式：

S201：获取样本图像中各个像素点的真实投票信息；

S202：基于样本图像中的各个像素点的真实投票信息，生成样本图像中的各个像素点在抓取位置投票标签图中对应位置的像素点的像素值；

S203：基于样本图像中的各个像素点在抓取位置投票标签图中对应位置的像素点的像素值，构成抓取位置投票标签图。

具体的真实投票信息的获取方式，可以参见下述实施例所示，在此不再赘述。

基于真实投票信息确定与投票标签图像中像素点的像素值之间的转换关系例如上述(1)～(3)所示，进而能够基于该转换关系，得到抓取位置投票标签图中各个像素点的像素值，以得到抓取位置投票标签图。

在一种实施例中，本公开实施例还提供一种获取样本图像和对应的抓取位置投票标签图的具体方法，包括：使用摄像头对实际的物品堆叠场景进行拍摄，以得到多张样本图像；然后采用自动标注或者人工标注的方式，将样本图像中各个物体的中心点以及各个物体的轮廓标注出来，并基于标注，生成样本图像的抓取位置投票标签图。

其中，一个物体的物体轮廓在样本图像中形成至少一个闭合区域，在闭合区域内部的所有像素点均属于该物体；再将中心点作为该物体的抓取点，确定中心点对应的真实投票信息；通过上述过程，将样本图像上的所有物体的物体轮廓，以及中心点都标注出来，然后基于各个物体的中心点在样本图像中的坐标、物体轮廓，得到各个物体上除中心点外的其他像素点对应的真实投票信息。并基于样本图像中各个物体的物体轮廓，针对不属于任何物体上的像素点，生成其真实投票信息。

在生成样本图像中所有像素点的真实投票信息后，基于样本图像中各个像素点的真实投票信息，生成该样本图像的抓取位置投票标签图。例如，将像素点的真实投票信息作为像素点的像素值，生成多通道的抓取位置投票标签图。

在另一实施例中，参见图3所示，本公开实施例还提供另外一种获取样本图像以及对应抓取位置投票标签图的具体方法。

其中，可以采用下述方式获取样本图像：

S301：基于仿真数据采集系统搭建目标场景；目标场景中包括至少一种类别下随机堆叠的多个物体；

S302：基于目标场景，获取样本图像。

当本公开实施例提供的方法应用于物流场景时，仿真数据采集系统是针对物流场景的仿真系统；若将本公开实施例提供的方法应用于其他场景，例如工业制造的场景，仿真数据采集系统即为针对工业制造场景的仿真系统。在该仿真系统中，定义了多种类别的物体模型，通过该仿真系统可以搭建目标场景。在目标场景中，包括了至少一种类别下随机堆叠的多个物体。

具体地，在基于仿真数据采集系统搭建目标场景时，可基于预先生成的物体模型，随机生成至少一种类别下的多个物体实例，然后控制物体实例在目标场景中随机堆叠。

此处，可以随机的从多种预先生成的物体模型中确定至少一种目标物体模型，然后基于确定的每种目标物体模型，随机生成与每种目标物体模型对应的多个物体实例。这里，一个物体实例对应一个物体。

在随机生成物体实例的时候，例如可以对物体模型进行随机化处理，和/或，对目标场景进行随机化处理，生成至少一种类别下的多个物体实例。

这里，对物体模型的随机化处理包括下述至少一种：

物体数量随机化处理、物体尺寸随机化处理、物体形状随机化处理、物体纹理随机化处理、物体掉落位置随机化处理、物体掉落姿态随机化处理、以及物体的摆放方式随机化处理。

另外，还可以包括对目标场景的随机化处理，例如环境光照的方向随机化处理、环境光照的强度随机化处理、摄像头摆放位置随机化处理、摄像头拍摄角度随机化处理。

在生成物体实例后，要控制物体实例在目标场景中随机堆叠。示例性的，可以控制各个物体实例在目标场景中随机掉落，当生成的所有物体实例在目标场景中稳定不再发生位移后，即得到随机堆叠的多个物体实例。

又例如，可以在目标场景中随机确定多个位置点，并基于确定的多个位置点生成物体实例的方式，来得到随机堆叠的多个物体实例。

在另一实施例中，在目标场景中，还可以包括工作台，工作台也是基于预先生成的工作台模型来生成的，在生成工作台时，例如基于预先生成的工作台模型，随机生成至少一个工作台实例。

这里，在随机生成工作台实例时，例如也可以对工作台模型进行随机化处理，得到至少一个工作台实例。

具体地，在对工作台模型进行随机化处理时，例如包括下述一种或者多种：工作台尺寸随机化处理、工作台形状随机化处理、工作台纹理随机化处理、物体摆放位置随机化处理等。

进而，在控制物体实例在目标场景中随机堆叠的时候，可以控制物体实例在工作台上随机堆叠。

在另一实施例中，在目标场景中，还可以包括地面、和/或工作场景中的设备等，因此在生成目标场景中，还可以基于预先生成的地面模型进行随机化处理，得到地面实例，和/或基于预先生成的设备模型进行随机化处理，得到设备实例，并将地面实例和/或设备实例也渲染至目标场景中。在控制物体实例在目标场景中随机堆叠的时候，例如可以控制物体实例在地面上堆叠等。

在得到目标场景后，此时可以基于目标场景，生成一张样本图像。

在一种可能的实现方式中，每一个目标场景生成一张样本图像；要得到多张样本图像，可以采用上述目标场景的生成方法，生成多个目标场景，然后基于每一个目标场景，生成与目标场景对应的样本图像，最终得到多张样本图像。

在另一种可能的实现方式中，每一个目标场景也可以通过多次随机化处理，每次随机化处理即可得到一张样本图像，多次随机化处理后可以得到多张样本图像。

在生成样本图像后，基于各个物体在目标场景中的位置信息，以及在获取样本图像时的拍摄位置信息，确定样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的真实投票信息，然后基于样本图像中的各个像素点分别对应的真实投票信息，生成抓取位置投票标签图。

这里，在生成样本图像后，由于仿真数据采集系统能够获知目标场景内所有物体的相关信息，并能够获知样本图像的拍摄位置以及拍摄角度，因此可以通过仿真数据采集系统自动从样本图像中，按照素点级别标注出样本图像中各个像素点是否在物体上，从而可以自动得到各个像素点的真实投票信息，进而，基于真实投票信息，生成抓取位置投票标签图。

II：在上述S102中，神经网络能够对多张样本图像进行特征提取，得到与每张样本图像对应的特征数据。

在本公开一实施例中，可以直接将样本图像输入至神经网络进行特征提取。

在另一实施例中，还可以将多张样本图像的像素值进行归一化，并利用神经网络，对进行了归一化后的多张样本图像进行特征提取。

在将样本图像的像素值进行归一化后，能够将样本图像中物体与背景区别来开，使得模型能够更好的学习到物体的特征，提升模型的识别精度，同时，降低了对图像数据进行处理过程中的复杂度。

在具体实施中，在利用神经网络对多张样本图像进行特征提取时，例如可以对拼接的图像数据进行特征提取，得到拼接的图像数据的特征数据。其中，拼接的图像数据由多张样本图像拼接得到。

例如，将32张样本图像拼接得到拼接的图像数据，然后将拼接的图像数据输入至神经网络中，得到拼接的图像数据对应的特征数据。

然后按照拼接的图像数据的拼接方式，再将拼接的图像数据对应的特征数据拆分开，形成32张样本图像中每张样本图像分别对应的特征数据。

另外，也可以逐一将多张样本图像输入至神经网络中，得到每张样本图像对应的特征数据。

然后再使用激活函数对特征数据进行激活，得到各张样本图像分别对应的抓取位置投票预测图的向量表示。

示例性的，本公开实施例提供一种神经网络的结构，本公开实施例提供的神经网络包括多级第一卷积网络和多级第二卷积网络；

其中，多级第一卷积网络顺序连接，且每相邻的两级第一卷积网络之间设置有下采样层；

多级第二卷积网络顺序连接，且每相邻的两级第二卷积网络之间设置有上采样层。

最后一级第一卷积网络与第一级第二卷积网络连接。

至少一级第一卷积网络与一级第二卷积网络跳跃连接。

每一级第一卷积网络中均包括至少一层卷积层，且每一级第二卷积网络中均包括至少一层卷积层。

最后一级第二卷积网络用于输出抓取位置投票预测图。

这里，多级第一卷积网络和下采样层能够对样本图像进行编码，将图像压缩成一个较小的特征图，该特征图中包括了样本图像中的抓取点的位置信息；多级第二卷积网络和上采样层根据该特征图，逐步生成一张尺寸与样本图像尺寸一致的抓取位置投票预测图，在像素级别上，准确的表示物体可抓取位置的相关信息。而至少一级第一卷积网络与一级第二卷积网络跳跃连接，可以使得样本图像的特征能够在神经网络中从前向后传递，避免在对样本图像进行编码过程中导致样本图像的特征丢失过多，保证表示物体可抓取位置的相关信息更精确和更丰富。

在另外一种实施例中，在每层卷积层后，还可以包括有批标准化(BatchNormalization)层，每一层卷积层前使用线性整流(Rectified Linear Unit，ReLU)函数作为激活函数。

示意性地，参见图4所示，本公开实施例提供一种神经网络的结构示意图。其中，第一卷积网络有4级，分别为M1、M2、M3、和M4；第二卷积网络也有4级，分别为N1，N2、N3、和N4。

其中，M1、M2、M3、和M4顺序连接，且M1和M2之间设置有下采样层S1，M2和M3之间设置有下采样层S2；M3和M4之间设置有下采样层S3。

N1，N2、N3、和N4顺序连接，且N1和N2之间设置有上采样层F1，N2和N3之间设置有上采样层F2；N3和N4之间设置有上采样层F3。

M1和N4跳跃连接；M2和N3跳跃连接；M3和N2跳跃连接；M4和N1跳跃连接。

在另一实施例中，由于要得到抓取位置投票预测图的尺寸与样本图像的尺寸是相同的，本公开实施例中，在每一层卷积层例如可以采用3×3的卷积核来进行卷积处理，使得各级卷积网络在对输入的数据进行卷积处理后，输出的数据的尺寸与输入的数据的尺寸保持一致。

III：在上述S103中，在抓取位置投票预测图中，包括了样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的预测投票信息。样本图像的任一像素点对应的预测投票信息包括：该像素点是否在样本图像中的物体上的预测分类信息，以及当该像素点在样本图像中的物体上时，该像素点与物体上的中心点之间的距离信息。

在基于抓取位置投票预测图和抓取位置投票标签图训练神经网络时，例如基于样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的预测投票信息，以及抓取位置投票标签图中包括的对应样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的真实投票信息，得到预测投票信息和真实投票信息之间的差异，根据差异确定网络模型损失，并基于网络模型损失，调整神经网络的参数。

在训练过程中，例如可以采用随机梯度下降法来进行，其中每次迭代过程所使用的样本图像的数量例如可以是32张，所有参数均使用随机初始化。

本公开实施例能够获利用神经网络，对多张样本图像进行特征提取，得到多张样本图像中的每张样本图像对应的特征数据，并基于特征数据，获取抓取位置投票预测图，然后基于抓取位置预测图以及预先确定的抓取位置投票标签图训练神经网络，得到抓取位置检测模型。在该方法中，抓取位置投票标签图中包括对应样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的真实投票信息，进而训练得到的抓取位置检测模型能够在像素级别上，对图像中物体的抓取位置进行检测，从而可以更准确的检测到物体的抓取位置。

同时，本公开实施例是对二维图像数据进行处理，因而运算量也更小，提升了抓取位置检测的精度，模型的鲁棒性也更高。

另外，本公开实施例通过仿真数据采集系统获取样本图像和对应的抓取位置投票标签图，极大地降低了样本标注成本，进而降低了模型训练成本。

参见图5所示，本公开实施例还提供一种抓取位置检测方法，应用于智能抓取机器人，或应用于用于控制抓取机器人工作的计算机设备，或者通过处理器执行程序代码实现。该方法包括：

S501：获取待检测场景的待检测图像；

S502：将待检测图像输入至预先训练的抓取位置检测模型中，获取与待检测图像对应的抓取位置投票预测图；

S503：基于待检测图像对应的抓取位置投票预测图，获得物体抓取点位置信息。

在上述S502中，抓取位置检测模型是基于本公开实施例提供的抓取位置检测模型训练方法训练得到。

待检测图像对应的抓取位置投票预测图中包括待检测图像中的各个像素点对位于待检测图像中的任一物体的抓取位置进行投票的预测投票信息。

在上述S503中，示例性的，待检测图像中任一像素点对应的预测投票信息包括：该像素点是否在待检测图像中的物体上的预测分类信息，以及当该像素点在待检测图像中的物体上时，该像素点与物体上的中心点之间的距离信息。

示例性的，假如在待检测图像中任一像素点在待检测图像中的坐标为H(x，y)，该像素点H(x，y)在待检测图像对应的抓取位置投票预测图上对应的像素点H′(x，y)在三个通道上的像素值分别为i，j，1，表示该像素点H(x，y)为物体上的像素点，且与同一物体上的中心点之间，在x轴上的距离为i，在y轴上的距离为j，进而，该像素点H(x，y)预测某一物体的中心点O，在待检测图像中的位置为：O(x+i，y+j)。

这样，能够基于待检测图像对应的抓取位置投票预测图，确定待检测图像中，各个像素点所预测的待检测图像中物体的中心点在待检测图像中的位置，然后基于各个像素点所预测的待检测图像中物体的中心点在待检测图像中的位置，从待检测图像中确定至少一个中心点，作为待检测图像物体抓取点的位置信息。

在确定中心点时，例如可以为各个像素点初始化一响应值；其中，任一像素点的响应值用于表征该任一像素点被其它像素点和/或自身投票为物体的中心点的次数。例如可以将各个像素点的响应值初始化为0。

然后遍历各个像素点，针对每个遍历到的像素点，基于该遍历到的像素点对应的投票信息，确定该遍历到的像素点所确定的中心点，并将该中心点对应的响应值加1；遍历过所有像素点后，从各个像素点中确定响应值满足预设要求的像素点作为物体的可抓取点。

预设要求例如下述任一种：

像素点的响应值大于预设值；

像素点的响应值大小占据各像素点对应的响应值总数的百分比大于预设百分比阈值。

例如，在将待检测图像输入至抓取位置检测模型，获取与待检测图像对应的抓取位置投票预测图后，根据该抓取位置投票预测图，得到物体可抓取点位置响应图。物体可抓取点位置响应图中响应值符合预设要求的像素点即为物体的可抓取点。

对于抓取位置投票预测图中的任一像素点Y(i，j)，可以计算出该点认为的物体可抓取点O(x，y)满足：

x＝Y[i,j,0]+i；

y＝Y[i,j,1]+j；

其中，Y[i,j,0]表示x轴对应的颜色通道上，Y(i，j)所对应的像素值，也即，Y(i，j)与物体可抓取点在x轴上的距离；Y[i,j,1]表示y轴对应的颜色通道上，Y(i，j)所对应的像素值，也即Y(i，j)与物体可抓取点在y轴上的距离。

因此，该像素点Y(i，j)将会投票给抓取点位置响应图M上的点O(x，y)，使得O(x，y)对应的响应值加1。

另外，在确定中心点时，例如还可以先采用聚类的方法，对各个像素点所预测的中心中在待检测图像中的位置进行聚类，形成多个预测中心点分组，然后针对每个预测中心点分组，根据该预测中心点分组中，每个中心点在待检测图像中的位置，确定一中心点。

本公开实施例在确定待检测图像中的抓取位置时，采用了将待检测图像输入至抓取位置检测模型中，该抓取位置检测模型在训练时，抓取位置投票标签图中包括对应样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的真实投票信息，进而训练得到的抓取位置检测模型能够在像素级别上，对图像中物体的抓取位置进行检测，从而可以更准确的检测到物体的抓取位置。

参见图6所示，本公开实施例还提供一种物品抓取方法，包括：

S601：获取待检测场景的待检测图像，以及待检测场景的深度图像；

S602：将待检测图像输入至预先训练的抓取位置检测模型中，获取与待检测图像对应的抓取位置投票预测图；其中，抓取位置检测模型是基于本公开实施例提供的抓取位置检测模型训练方法训练得到。

S603：基于待检测图像对应的抓取位置投票预测图，获得物体抓取点在待检测图像中的位置信息；

S604：基于物体抓取点在待检测图像中的位置信息，以及待检测场景的深度图像，控制机器人抓取与物体抓取点对应的物体。

在具体实施中，在上述S601中，待检测场景的待检测图像和深度图像为在同一拍摄位置以及同一拍摄角度下，对待检测场景进行拍摄得到。

另外，深度图像还可以是通过对待检测图像进行处理得到。

在上述S603中，获得物体抓取点在待检测图像中的位置信息的具体方式，与上述图5对应的实施例中类似，再次不再赘述。

在上述S604中，本公开实施例还提供一种基于物体抓取点在待检测图像中的位置信息，以及待检测场景的深度图像，控制机器人抓取物体的具体方法，包括：

基于物体抓取点在待检测图像中的位置信息，以及待检测场景的深度图像，确定物体抓取点处物体的法向量；

基于法向量，控制机器人抓取与物体抓取点对应的物体。

这里，由于待检测图像和对应的深度图像是同一拍摄位置、同一拍摄视角对同一待检测场景拍摄得到，因此待检测图像和对应的深度图像中像素点是一一对应的。

当从待检测图像中确定了物体抓取点后，就能够基于物体抓取点所在的像素点在待检测图像中的位置，确定物体抓取点在深度图像中的位置，进而基于物体抓取点在深度图像中的位置，得到物体抓取点在待检测场景中的三维坐标。

然后从物体抓取点对应的像素点附近，在深度图像中随机确定两个像素点，由于物体抓取点一般为物体的中心，因此从物体抓取点对应的像素点附近所确定的两个像素点，通常会与物体抓取点在物体的同一平面上，因此，最终基于物体抓取点在待检测场景中的三维坐标，以及随机确定的两个像素点在待检测场景中的三维坐标，得到物体抓取点处物体的法向量。

示例性的，假设物体抓取点P₁(x₁，y₁，z₁)，随机确定的两个像素点分别为：P₂(x₂，y₂，z₂)、P₃(x₃，y₃，z₃)，则物体抓取点P₁(x₁，y₁，z₁)处物体的法向量

满足：

将P₁、P₂、和P₃的三维坐标代入，即为：

x(x₁-x₂)+y(y₁-y₂)+z(z₁-z₂)＝0；

x(x₁-x₃)+y(y₁-y₃)+z(z₁-z₃)＝0；

假设x＝1，即可求出y和在z，进而得到物体抓取点处物体的法向量。

法向量既能够在空间上表征物体抓取点在待检测空间中的位置，有能够表征物体抓取点所在的平面在待检测空间上的朝向，进而在得到物体抓取点处物体的法向量后，就能够直接基于该法向量进行空间转换等运算，得到机器人抓取物体的位姿，进而控制机器人抓取物体。例如可以从六个维度上控制机器人的对该物体的抓取角度，这六个维度分别为：在以待检测空间建立的三维坐标系中，在x轴上的坐标，在y轴上的坐标，在z轴上的坐标，与x轴之间的偏移角度，与y轴之间的偏移角度，与z轴之间的偏移角度，进而能够基于该法向量，控制机器人的抓取机械手进行移动，以实现对物体的抓取。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与抓取位置检测模型训练方法对应的抓取位置检测模型训练装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述抓取位置检测模型训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图7所示，为本公开实施例提供的一种抓取位置检测模型训练装置的示意图，所述装置包括：第一获取模块71、特征提取模块72、训练模块73；其中，

第一获取模块71，用于获取多张样本图像，以及与各张所述样本图像对应的抓取位置投票标签图；其中，每张所述样本图像中均包括至少一种类别下随机堆叠的多个物体；所述抓取位置投票标签图中包括对应样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的真实投票信息；

特征提取模块72，用于利用神经网络，对所述多张样本图像进行特征提取，得到所述多张样本图像中的每张样本图像对应的特征数据，并基于所述特征数据，获取抓取位置投票预测图；

训练模块73，用于基于所述抓取位置投票预测图以及所述抓取位置投票标签图训练所述神经网络，得到所述抓取位置检测模型。

一种可能的实施方式中，在所述样本图像中，针对像素点为任一物体的中心像素点的情况，该像素点对应的真实投票信息包括：该像素点属于所述任一物体的中心像素点的分类信息；

针对像素点为任一物体上非中心素点的情况，该像素点对应的真实投票信息包括：该像素点与所述任一物体上中心像素点之间的距离信息，以及该像素点属于所述任一物体的非中心像素点的分类信息；

针对任一像素点为不属于任何物体上像素点的情况，该任一像素点对应的真实投票信息包括：该像素点不属于任何物体的分类信息。

一种可能的实施方式中，所述第一获取模块71，在获取与各张所述样本图像对应的抓取位置投票标签图时，用于：

获取样本图像中各个像素点的真实投票信息；

基于样本图像中的各个像素点对应的真实投票信息，生成所述样本图像中的各个像素点在所述抓取位置投票标签图中对应位置的像素点的像素值；

基于所述样本图像中的各个像素点在所述抓取位置投票标签图中对应位置的像素点的像素值，构成所述抓取位置投票标签图。

一种可能的实施方式中，所述第一获取模块71，用于采用下述方式获取所述样本图像：

基于仿真数据采集系统搭建目标场景；所述目标场景中包括至少一种类别下随机堆叠的多个物体；

基于所述目标场景，获取所述样本图像。

一种可能的实施方式中，所述第一获取模块71，在基于所述仿真数据采集系统搭建目标场景时，用于：

基于预先生成的物体模型，随机生成所述至少一种类别下的多个物体实例；

控制所述物体实例在所述目标场景中随机堆叠。

一种可能的实施方式中，还包括：工作台；

所述第一获取模块71，在所述基于所述仿真数据采集系统搭建目标场景时，还用于：

基于预先生成的工作台模型，随机生成至少一个工作台实例；

所述第一获取模块71，在控制所述物体实例在所述目标场景中随机堆叠时，用于：

控制所述物体实例在所述工作台实例上随机堆叠。

一种可能的实施方式中，所述第一获取模块71，在控制所述物体实例在所述目标场景中随机堆叠时，用于：

控制所述物体实例在所述目标场景中随机掉落，以在所述物体实例稳定后在所述目标场景中形成所述物体实例的随机堆叠。

一种可能的实施方式中，所述第一获取模块71，在基于预先生成的物体模型，随机生成所述至少一种类别下的多个物体实例时，用于：

对所述物体模型进行随机化处理，和/或，对所述目标场景进行随机化处理，生成所述至少一种类别下的多个物体实例。

一种可能的实施方式中，对所述物体模型的随机化处理包括下述至少一种：

物体数量随机化处理、物体尺寸随机化处理、物体形状随机化处理、物体纹理随机化处理、物体掉落位置随机化处理、物体掉落姿态随机化处理、以及物体的摆放方式随机化处理；

对所述目标场景的随机化处理包括下述至少一种：环境光照方向的随机化处理、环境光照强度的随机化处理、摄像头摆放位置的随机化处理、以及摄像头拍摄角度的随机化处理。

一种可能的实施方式中，所述第一获取模块71，在获取与各张样本图像对应的抓取位置投票标签图时，用于：

基于各个物体在所述目标场景中的位置信息，以及在获取所述样本图像时的拍摄位置信息，确定所述样本图像中的各个像素点对位于所述样本图像中的任一物体的抓取位置进行投票的真实投票信息；

基于所述真实投票信息，生成所述抓取位置投票标签图。

一种可能的实施方式中，所述特征提取模块72，在利用神经网络，对所述多张样本图像进行特征提取时，用于：

对所述多张样本图像进行归一化；

利用所述神经网络，对进行了归一化后的所述多张样本图像进行特征提取。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

参见图8所示，本公开实施例还提供一种抓取位置检测装置，包括：

第二获取模块81，用于获取待检测场景的待检测图像；

第一检测模块82，用户将所述待检测图像输入至预先训练的抓取位置检测模型中，获取与所述待检测图像对应的抓取位置投票预测图；

第一确定模块83，用于基于所述待检测图像对应的抓取位置投票预测图，获得物体抓取点位置信息；

其中，所述抓取位置检测模型基于本公开实施例提供的任一项所述的抓取位置检测模型训练装置训练得到。

一种可选实施方式中，所述待检测图像对应的抓取位置投票预测图中包括所述待检测图像中的各个像素点对位于所述待检测图像中的任一物体的抓取位置进行投票的预测投票信息。

如图9所示，本公开实施例还提供一种物品抓取装置，包括：

第三获取模块91，用于获取待检测场景的待检测图像，以及所述待检测场景的深度图像；

第二检测模块92，用于将所述待检测图像输入至基于本公开实施例任一项所述的抓取位置检测模型训练装置得到的抓取位置检测模型中，获取与所述待检测图像对应的抓取位置投票预测图；

第二确定模块93，用于基于所述待检测图像对应的抓取位置投票预测图，获得物体抓取点在所述待检测图像中的位置信息；

抓取控制模块94，用于基于所述物体抓取点在所述待检测图像中的位置信息，以及所述待检测场景的深度图像，控制机器人抓取与所述物体抓取点对应的物体。

一种可选实施方式中，所述抓取控制模块94，在基于所述物体抓取点在所述待检测图像中的位置信息，以及所述待检测场景的深度图像，控制机器人抓取与所述物体抓取点对应的物体时，用于：

基于所述物体抓取点在所述待检测图像中的位置信息，以及所述待检测场景的深度图像，确定所述物体抓取点处物体的法向量；

基于所述法向量，控制机器人抓取与所述物体抓取点对应的物体。

本公开实施例还提供了一种计算机设备10，如图10所示，为本公开实施例提供的计算机设备10结构示意图，包括：处理器11、存储器12、和总线13。所述存储器12存储有所述处理器11可执行的机器可读指令，当计算机设备10运行时，所述处理器11与所述存储器12之间通过总线13通信，所述机器可读指令被所述处理器11执行时执行如本公开实施例提供的抓取位置检测模型训练方法的步骤；

或执行如本公开实施例提供的抓取位置检测方法的步骤；

或执行如本公开实施例提供的物品抓取方法的步骤。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的抓取位置检测模型训练方法的步骤；或执行如本公开实施例提供的抓取位置检测方法的步骤；或执行如本公开实施例提供的物品抓取方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的抓取位置检测模型训练方法、抓取位置检测方法或物品抓取方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种抓取位置检测模型训练方法，其特征在于，包括：

获取多张样本图像，以及与各张所述样本图像对应的抓取位置投票标签图；其中，每张所述样本图像中均包括至少一种类别下随机堆叠的多个物体；所述抓取位置投票标签图中包括对应样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的真实投票信息；

利用神经网络，对所述多张样本图像进行特征提取，得到所述多张样本图像中的每张样本图像对应的特征数据，并基于所述特征数据，获取抓取位置投票预测图；

基于所述抓取位置投票预测图以及所述抓取位置投票标签图训练所述神经网络，得到所述抓取位置检测模型。

2.根据权利要求1所述的抓取位置检测模型训练方法，其特征在于，在所述样本图像中，针对像素点为任一物体的中心像素点的情况，该像素点对应的真实投票信息包括：该像素点属于所述任一物体的中心像素点的分类信息；

3.根据权利要求1或2所述的抓取位置检测模型训练方法，其特征在于，获取与各张所述样本图像对应的抓取位置投票标签图，包括：

获取样本图像中各个像素点的真实投票信息；

基于样本图像中的各个像素点的真实投票信息，生成所述样本图像中的各个像素点在所述抓取位置投票标签图中对应位置的像素点的像素值；

4.根据权利要求1-3任一项所述的抓取位置检测模型训练方法，其特征在于，采用下述方式获取所述样本图像：

基于所述目标场景，获取所述样本图像。

5.根据权利要求4所述的抓取位置检测模型训练方法，其特征在于，基于所述仿真数据采集系统搭建目标场景，包括：

控制所述物体实例在所述目标场景中随机堆叠。

6.根据权利要求5所述的抓取位置检测模型训练方法，其特征在于，所述目标场景中，还包括：工作台；

所述基于所述仿真数据采集系统搭建目标场景，还包括：

所述控制所述物体实例在所述目标场景中随机堆叠，包括：

控制所述物体实例在所述工作台实例上随机堆叠。

7.根据权利要求5或6所述的抓取位置检测模型训练方法，其特征在于，所述控制所述物体实例在所述目标场景中随机堆叠，包括：

8.根据权利要求5-7任一项所述的抓取位置检测模型训练方法，其特征在于，所述基于预先生成的物体模型，随机生成所述至少一种类别下的多个物体实例，包括：

9.根据权利要求8所述的抓取位置检测模型训练方法，其特征在于，对所述物体模型的随机化处理包括下述至少一种：

10.根据权利要求4-8所述的抓取位置检测模型训练方法，其特征在于，获取与各张样本图像对应的抓取位置投票标签图，包括：

基于所述真实投票信息，生成所述抓取位置投票标签图。

11.根据权利要求1-10任一项所述的抓取位置检测模型训练方法，其特征在于，所述利用神经网络，对所述多张样本图像进行特征提取，包括：

对所述多张样本图像进行归一化；

12.一种抓取位置检测方法，其特征在于，包括：

获取待检测场景的待检测图像；

将所述待检测图像输入至预先训练的抓取位置检测模型中，获取与所述待检测图像对应的抓取位置投票预测图；

基于所述待检测图像对应的抓取位置投票预测图，获得物体抓取点位置信息；

其中，所述抓取位置检测模型基于权利要求1-11任一项所述的抓取位置检测模型训练方法训练得到。

13.根据权利要求12所述的抓取位置检测方法，其特征在于，所述待检测图像对应的抓取位置投票预测图中包括所述待检测图像中的各个像素点对位于所述待检测图像中的任一物体的抓取位置进行投票的预测投票信息。

14.一种物品抓取方法，其特征在于，包括：

获取待检测场景的待检测图像，以及所述待检测场景的深度图像；

将所述待检测图像输入至基于权利要求1-11任一项所述的抓取位置检测模型训练方法得到的抓取位置检测模型中，获取与所述待检测图像对应的抓取位置投票预测图；

基于所述待检测图像对应的抓取位置投票预测图，获得物体抓取点在所述待检测图像中的位置信息；

基于所述物体抓取点在所述待检测图像中的位置信息，以及所述待检测场景的深度图像，控制机器人抓取与所述物体抓取点对应的物体。

15.根据权利要求14所述的物品抓取方法，其特征在于，所述基于所述物体抓取点在所述待检测图像中的位置信息，以及所述待检测场景的深度图像，控制机器人抓取物体，包括：

16.一种抓取位置检测模型训练装置，其特征在于，包括：

第一获取模块，用于获取多张样本图像，以及与各张所述样本图像对应的抓取位置投票标签图；其中，每张所述样本图像中均包括至少一种类别下随机堆叠的多个物体；所述抓取位置投票标签图中包括对应样本图像中的各个像素点对位于样本图像中的任一物体的抓取位置进行投票的真实投票信息；

特征提取模块，用于利用神经网络，对所述多张样本图像进行特征提取，得到所述多张样本图像中的每张样本图像对应的特征数据，并基于所述特征数据，获取抓取位置投票预测图；

训练模块，用于基于所述抓取位置投票预测图以及所述抓取位置投票标签图训练所述神经网络，得到所述抓取位置检测模型。

17.一种抓取位置检测装置，其特征在于，包括：

第二获取模块，用于获取待检测场景的待检测图像；

第一检测模块，用户将所述待检测图像输入至预先训练的抓取位置检测模型中，获取与所述待检测图像对应的抓取位置投票预测图；

第一确定模块，用于基于所述待检测图像对应的抓取位置投票预测图，获得物体抓取点位置信息；

其中，所述抓取位置检测模型基于权利要求1-11任一项所述的抓取位置检测模型训练装置训练得到。

18.一种物品抓取装置，其特征在于，包括：

第三获取模块，用于获取待检测场景的待检测图像，以及所述待检测场景的深度图像；

第二检测模块，用于将所述待检测图像输入至基于权利要求1-11任一项所述的抓取位置检测模型训练装置得到的抓取位置检测模型中，获取与所述待检测图像对应的抓取位置投票预测图；

第二确定模块，用于基于所述待检测图像对应的抓取位置投票预测图，获得物体抓取点在所述待检测图像中的位置信息；

抓取控制模块，用于基于所述物体抓取点在所述待检测图像中的位置信息，以及所述待检测场景的深度图像，控制机器人抓取与所述物体抓取点对应的物体。

19.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至11任一所述的抓取位置检测模型训练方法的步骤；

或执行如权利要求12至13任一所述的抓取位置检测方法的步骤；

或执行如权利要求14至15任一所述的物品抓取方法的步骤。

20.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至11任一所述的抓取位置检测模型训练方法的步骤；

或执行如权利要求14至15任一所述的物品抓取方法的步骤。