CN110298879B

CN110298879B - 一种待抓取物体位姿的确定方法、装置及电子设备

Info

Publication number: CN110298879B
Application number: CN201810236233.XA
Authority: CN
Inventors: 赵哲
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2021-08-27
Anticipated expiration: 2038-03-21
Also published as: CN110298879A

Abstract

本发明实施例提供了一种待抓取物体位姿的确定方法、装置及电子设备，所述方法包括：获取第一图像传感器采集的包括待抓取物体的目标图像；按照预设旋转规则，将目标图像在成像平面内进行旋转，得到预设数量的旋转图像；将目标图像及旋转图像输入预先训练完成的深度神经网络模型进行检测，得到每张图像对应的输出结果；根据输出结果及预设旋转规则，确定待抓取物体的位姿。由于不需要人工进行物体建模，而是对目标图像进行旋转，并基于深度神经网络模型进行检测，将物体的三维位姿估计转化为一维旋转角度问题，可以大大节省人工和时间，并提高后续物体抓取的准确率及成功率。

Description

一种待抓取物体位姿的确定方法、装置及电子设备

技术领域

本发明涉及人工智能技术领域，特别是涉及一种待抓取物体位姿的确定方法、装置及电子设备。

背景技术

近年来，人工智能技术得到快速发展，在人工智能领域中，在工业机器人、服务机器人等很多应用方面，机械臂抓取物体都是不可或缺的技术。而机械臂对物体进行抓取一直是一个比较困难的问题，特别是对任意形状、位置的物体的抓取。

机械臂对物体进行抓取的经典方法是先采集物体的图像，然后对所采集的图像进行物体分割、物体识别，再根据物体的模型数据进行物体的位姿估计，进而选择抓取点，确定抓取方案。

而在实际应用中，一方面，由于物体种类、形状繁多，物体的模型数据是未知的，因此在进行物体抓取之前，需要获知物体的模型数据，即需要人工进行物体建模，这需要耗费大量的人工和时间。另一方面，由于传感器噪声、物体遮挡、建模误差等因素的影响，基于建立的物体模型进行物体位姿估计的方法鲁棒性均较差，从而影响后续物体抓取的准确率及成功率。

发明内容

本发明实施例的目的在于提供一种待抓取物体位姿的确定方法、装置及电子设备，以节省人工和时间，并提高物体抓取的准确率及成功率。具体技术方案如下：

第一方面，本发明实施例提供了一种待抓取物体位姿的确定方法，所述方法包括：

获取第一图像传感器采集的包括待抓取物体的目标图像，其中，所述第一图像传感器与放置所述待抓取物体平面构成俯视视角；

按照预设旋转规则，将所述目标图像在成像平面内进行旋转，得到预设数量的旋转图像；

将所述目标图像及所述旋转图像输入预先训练完成的深度神经网络模型进行检测，得到每张图像对应的输出结果，其中，所述深度神经网络模型用于检测预设角度朝向物体在图像中的区域，所述预设角度朝向物体为朝向预设参照方向的预设方位的物体；

根据所述输出结果及所述预设旋转规则，确定所述待抓取物体的位姿。

可选的，所述按照预设旋转规则，将所述目标图像在成像平面内进行旋转，得到预设数量的旋转图像的步骤，包括：

按照预设角度，将所述目标图像在成像平面内进行旋转，得到预设数量的旋转图像。

可选的，所述预设角度朝向物体的轮廓与矩形相似度不低于预设相似度。

可选的，所述输出结果包括检测区域；

所述根据所述输出结果及所述预设旋转规则，确定所述待抓取物体的位姿的步骤，包括：

当输出结果标识被检测图像中存在预设角度朝向物体时，根据所述旋转规则，确定该被检测图像的旋转角度；

根据所述旋转角度及目标输出结果中包括的检测区域，确定所述待抓取物体的位姿，其中，所述目标输出结果为标识被检测图像中存在预设角度朝向物体的输出结果。

可选的，所述根据所述旋转角度及目标输出结果中包括的检测区域，确定所述待抓取物体的位姿的步骤，包括：

根据所述旋转角度，确定所述待抓取物体相对于所述预设参照方向的旋转角度；

根据所确定的旋转角度及所述目标输出结果中包括的检测区域，确定所述待抓取物体的位姿。

可选的，所述深度神经网络模型的训练方式，包括：

获取第二图像传感器采集的包括物体的多个图像样本，其中，所述第二图像传感器与放置所述物体平面构成俯视视角；

标注每个图像样本中预设角度朝向物体对应的检测区域；

将标注后的图像样本输入预先构建的初始深度神经网络模型进行训练，得到所述深度神经网络模型。

可选的，所述获取第二图像传感器采集的包括物体的多个图像样本的步骤，包括：

获取第二图像传感器采集的包括物体的多个图像，其中，所述第二图像传感器与放置所述物体平面构成俯视视角；

按照预设旋转规则，将每个图像在成像平面内进行旋转，得到每个图像对应的预设数量的旋转图像样本；

将所述旋转图像样本及所述多个图像作为图像样本。

可选的，所述方法还包括：

根据所述待抓取物体的位姿，控制机械臂抓取所述待抓取物体。

可选的，所述根据所述待抓取物体的位姿，控制机械臂抓取所述待抓取物体的步骤，包括：

根据所述待抓取物体的位姿以及机械臂末端当前位姿，确定机械臂的移动方案及所述机械臂末端的旋转角；

按照所述移动方案控制所述机械臂进行移动，并控制所述机械臂末端按照所述旋转角进行旋转；

当所述机械臂移动完成时，控制所述机械臂末端抓取所述待抓取物体。

第二方面，本发明实施例提供了一种待抓取物体位姿的确定装置，所述装置包括：

目标图像获取模块，用于获取第一图像传感器采集的包括待抓取物体的目标图像，其中，所述第一图像传感器与放置所述待抓取物体平面构成俯视视角；

图像旋转模块，用于按照预设旋转规则，将所述目标图像在成像平面内进行旋转，得到预设数量的旋转图像；

图像检测模块，用于将所述目标图像及所述旋转图像输入预先通过模型训练模块训练完成的深度神经网络模型进行检测，得到每张图像对应的输出结果，其中，所述深度神经网络模型用于检测预设角度朝向物体在图像中的区域，所述预设角度朝向物体为朝向预设参照方向的预设方位的物体；

位姿确定模块，用于根据所述输出结果及所述预设旋转规则，确定所述待抓取物体的位姿。

可选的，所述图像旋转模块包括：

图像旋转单元，用于按照预设角度，将所述目标图像在成像平面内进行旋转，得到预设数量的旋转图像。

可选的，所述输出结果包括检测区域；

所述位姿确定模块包括：

旋转角度确定单元，用于当输出结果标识被检测图像中存在预设角度朝向物体时，根据所述旋转规则，确定该被检测图像的旋转角度；

位姿确定单元，用于根据所述旋转角度及目标输出结果中包括的检测区域，确定所述待抓取物体的位姿，其中，所述目标输出结果为标识被检测图像中存在预设角度朝向物体的输出结果。

可选的，所述位姿确定单元包括：

旋转角度确定子单元，用于根据所述旋转角度，确定所述待抓取物体相对于所述预设参照方向的旋转角度；

位姿确定子单元，用于根据所确定的旋转角度及所述目标输出结果中包括的检测区域，确定所述待抓取物体的位姿；

可选的，所述模型训练模块包括：

图像样本获取单元，用于获取第二图像传感器采集的包括物体的多个图像样本，其中，所述第二图像传感器与放置所述物体平面构成俯视视角；

检测区域标注单元，用于标注每个图像样本中预设角度朝向物体对应的检测区域；

模型训练单元，用于将标注后的图像样本输入预先构建的初始深度神经网络模型进行训练，得到所述深度神经网络模型。

可选的，所述图像样本获取单元包括：

图像获取子单元，用于获取第二图像传感器采集的包括物体的多个图像，其中，所述第二图像传感器与放置所述物体平面构成俯视视角；

图像旋转子单元，用于按照预设旋转规则，将每个图像在成像平面内进行旋转，得到每个图像对应的预设数量的旋转图像样本；

样本确定子单元，用于将所述旋转图像样本及所述多个图像作为图像样本。

可选的，所述装置还包括：

物体抓取模块，用于根据所述待抓取物体的位姿，控制机械臂抓取所述待抓取物体。

可选的，所述物体抓取模块包括：

旋转角确定单元，用于根据所述待抓取物体的位姿以及机械臂末端当前位姿，确定机械臂的移动方案及所述机械臂末端的旋转角；

旋转移动单元，用于按照所述移动方案控制所述机械臂进行移动，并控制所述机械臂末端按照所述旋转角进行旋转；

物体抓取单元，用于当所述机械臂移动完成时，控制所述机械臂末端抓取所述待抓取物体。

第三方面，本发明实施例还提供了一种电子设备，包括处理器、存储器和通信总线，其中，处理器、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一待抓取物体位姿的确定方法步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一待抓取物体位姿的确定方法步骤。

本发明实施例所提供的方案中，首先获取第一图像传感器采集的包括待抓取物体的目标图像，然后按照预设旋转规则，将目标图像在成像平面内进行旋转，得到预设数量的旋转图像，再将目标图像及旋转图像输入预先训练完成的深度神经网络模型进行检测，得到每张图像对应的输出结果，最后根据输出结果及预设旋转规则，确定待抓取物体的位姿。由于不需要人工进行物体建模，而是对目标图像进行旋转，并基于深度神经网络模型进行检测，将物体的三维位姿估计转化为一维旋转角度问题，可以大大节省人工和时间，并提高后续物体抓取的准确率及成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种待抓取物体位姿的确定方法的流程图；

图2为图1所示实施例中目标图像的一种示意图；

图3(a)为图2所示目标图像在成像平面内顺时针旋转20度后的旋转图像；

图3(b)为图2所示目标图像在成像平面内顺时针旋转40度后的旋转图像；

图4为图1所示实施例中步骤S104的具体流程图；

图5为图4所示实施例中步骤S402的具体流程图；

图6为图5所示实施例中带有检测区域的图像的一种示意图；

图7为图1所示实施例中深度神经网络模型的训练方式的流程图；

图8为图7所示实施例中步骤S701的具体流程图；

图9为本发明实施例所提供的抓取待抓取物体方式的一种流程图；

图10为发明实施例所提供的一种待抓取物体位姿的确定装置的结构示意图；

图11为发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了节省人工和时间，并提高物体抓取的准确率及成功率，本发明实施例提供了一种待抓取物体位姿的确定方法、装置、电子设备及计算机可读存储介质。

下面首先对本发明实施例所提供的一种待抓取物体位姿的确定方法进行介绍。

本发明实施例所提供的一种待抓取物体位姿的确定方法可以应用于任意需要确定待抓取物体位姿的电子设备，以下简称电子设备，例如，可以为控制器、电脑、平板电脑等电子设备，在此不做具体限定。

如图1所示，一种待抓取物方法体位姿的确定方法，所述方法包括：

S101，获取第一图像传感器采集的包括待抓取物体的目标图像；

其中，所述第一图像传感器与放置所述待抓取物体平面构成俯视视角。

S102，按照预设旋转规则，将所述目标图像在成像平面内进行旋转，得到预设数量的旋转图像；

S103，将所述目标图像及所述旋转图像输入预先训练完成的深度神经网络模型进行检测，得到每张图像对应的输出结果；

其中，所述深度神经网络模型用于检测预设角度朝向物体在图像中的区域，所述预设角度朝向物体为朝向预设参照方向的预设方位的物体。

S104，根据所述输出结果及所述预设旋转规则，确定所述待抓取物体的位姿。

可见，本发明实施例所提供的方案中，首先获取第一图像传感器采集的包括待抓取物体的目标图像，然后按照预设旋转规则，将目标图像在成像平面内进行旋转，得到预设数量的旋转图像，再将目标图像及旋转图像输入预先训练完成的深度神经网络模型进行检测，得到每张图像对应的输出结果，最后根据输出结果及预设旋转规则，确定待抓取物体的位姿。由于不需要人工进行物体建模，而是对目标图像进行旋转，并基于深度神经网络模型进行检测，将物体的三维位姿估计转化为一维旋转角度问题，可以大大节省人工和时间，并提高后续物体抓取的准确率及成功率。

在上述步骤S101中，电子设备可以获取第一图像传感器采集的包括待抓取物体的目标图像，其中，第一图像传感器与放置待抓取物体平面构成俯视视角，也就是说，第一图像传感器用于采集待抓取物体的俯视图。当然，第一图像传感器与放置待抓取物体平面只要构成俯视视角即可，并不必一定垂直于放置待抓取物体平面，采集的目标图像也不必一定是待抓取物体的正投影俯视图。图2所示为目标图像的一种示意图，图2中包括待抓取物体201，可见，图2是待抓取物体201的俯视视角的图像。

如果第一图像传感器为光学图像传感器，那么第一图像传感器的光轴与垂直于放置待抓取物体平面的方向之间的夹角可以在预设范围内，预设范围可以根据待抓取物体形状、大小等因素确定，例如，可以为5度、15度、20度等，在此不做具体限定。

获取目标图像后，为了得到包括不同朝向的待抓取物体的图像，电子设备可以按照预设旋转规则，将目标图像在成像平面内进行旋转，得到预设数量的旋转图像。其中，图像中待抓取物体的朝向可以理解为图像中待抓取物体处于预设参照方向的何种方位，例如，预设参照方向为目标图像的纵轴方向，那么如图2所示，待抓取物体201的中心线与预设参照方向的夹角为89度，那么该目标图像中待抓取物体201的朝向可以为“预设参照方向顺时针旋转89度”。

进而，在上述步骤S103中，电子设备便可以将上述目标图像及上述旋转图像输入预先训练完成的深度神经网络模型进行检测，从而得到每张图像对应的输出结果。其中，该深度神经网络模型可以为基于图像样本及其对应的检测区域，对预先构建的初始卷积神经网络进行训练所得到的深度神经网络模型，其包含图像样本中预设角度朝向物体的图像特征与检测区域的对应关系，用于检测预设角度朝向物体在图像中的区域，预设角度朝向物体为朝向预设参照方向的预设方位的物体。

上述深度神经网络模型可以为Faster RCNN、RFCN、YOLO等深度神经网络模型，只要可以检测出预设角度朝向物体在图像中的区域即可，在此不做具体限定。为了方案清楚及布局清晰，后续将会对深度神经网络模型的训练方式进行举例介绍。

得到每张图像对应的输出结果后，在上述步骤S104中，电子设备便可以根据该输出结果及上述预设旋转规则，确定待抓取物体的位姿。其中，待抓取物体的位姿可以包括待抓取物体的朝向，也可以包括待抓取物体的朝向和位置。

在一种情况下，待抓取物体的位置可能是确定的，而朝向并不确定，此时需要确定待抓取物体的朝向，那么在这种情况下，电子设备便可以根据该输出结果及上述预设旋转规则，确定待抓取物体的朝向，以便后续机械臂对待抓取物体进行准确抓取。在另一种情况下，待抓取物体的位置及朝向都是不确定的，那么此时需要确定待抓取物体的位置及朝向，那么在这种情况下，电子设备便可以根据该输出结果及上述预设旋转规则，确定待抓取物体的朝向及位置，以保证后续机械臂能够对待抓取物体进行准确抓取。

作为本发明实施例的一种实施方式，上述按照预设旋转规则，将上述目标图像在成像平面内进行旋转，得到预设数量的旋转图像的步骤，可以包括：

由于待抓取物体在目标图像中的朝向是固定的，那么为了获得包括不同朝向的待抓取物体的图像，用于后续输入深度神经网络模型进行检测，电子设备可以按照预设角度，将目标图像在成像平面内进行旋转，得到预设数量的旋转图像。旋转方式可以为顺时针旋转，也可以为逆时针旋转，都是合理的。该预设角度可以根据抓取精度等因素确定，例如可以为10度、20度、30度等，在此不做具体限定。

电子设备可以将目标图像按照每预设角度旋转一次，得到一张旋转图像的方式，获得预设数量的旋转图像。例如，假设预设角度为20度，那么电子设备可以每20度对目标图像进行一次旋转，得到17张旋转图像。即，将目标图像在成像平面内顺时针旋转20度获得一张旋转图像，再在成像平面内顺时针旋转20度获得第二张旋转图像，以此类推，获得17张旋转图像。当然，也可以将目标图像在成像平面内逆时针旋转20度获得一张旋转图像，再在成像平面内逆时针旋转20度获得第二张旋转图像，以此类推，获得17张旋转图像。

示例性地，如图3所示，图3(a)为图2所示目标图像在成像平面内，顺时针旋转20度后的旋转图像，图3(b)为图2所示目标图像在成像平面内，顺时针旋转40度后的旋转图像。可见，旋转图像中目标物体201的朝向随目标图像的旋转而发生改变，在图2所示目标图像、图3(a)及图3(b)中，目标物体201的朝向是不同的。

可见，在本实施例中，电子设备可以按照预设角度，将目标图像在成像平面内进行旋转，得到预设数量的旋转图像，得到的旋转图像中，待抓取物体的朝向不同，便于后续深度神经网络模型的检测，可以保证后续机械臂抓取的准确率，且操作简单快速。

由于深度神经网络模型对矩形物体的检测往往更加准确和容易，其朝向也更容易准确确定，相应的，机械臂对该矩形物体的抓取也相对容易，因此，作为本发明实施例的一种实施方式，上述预设角度朝向物体的轮廓可以与矩形相似度不低于预设相似度。

具体来说，预设角度朝向物体的轮廓可以是与矩形相似度很高的，也就是说，从俯视图中看，预设角度朝向物体的轮廓基本是一个矩形，那么图像样本中包括的物体实际上一般是长方体、立方体、圆柱体以及与这些形状的物体比较相似的形状的物体。

可见，在本实施例中，预设角度朝向物体的轮廓可以与矩形相似度不低于预设相似度，这样，可以使深度神经网络模型的检测更加准确，待抓取物体的朝向也更容易准确确定，相应的，机械臂对该物体的抓取也相对容易，进一步提高机械臂抓取的准确率。

对于待抓取物体的位置及朝向都是不确定的情况而言，作为本发明实施例的一种实施方式，上述输出结果可以包括检测区域。

相应的，如图4所示，上述根据所述输出结果及所述预设旋转规则，确定所述待抓取物体的位姿的步骤，可以包括：

S401，当输出结果标识被检测图像中存在预设角度朝向物体时，根据所述旋转规则，确定该被检测图像的旋转角度；

由于目标图像与旋转图像中所包含的待抓取物体的朝向均是不同的，而上述深度神经网络模型用于检测预设角度朝向物体在图像中的区域，因此，一般情况下，目标图像及所有旋转图像对应的输出结果中，只有一个输出结果标识被检测图像中存在预设角度朝向物体。

例如，预设角度朝向为朝向预设参照方向的0度方位，也就是朝向预设参照方向，该预设参照方向为图像纵轴。那么，目标图像及旋转图像中包含的待抓取物体的朝向为图像纵轴的，其对应的输出结果即标识被检测图像中存在预设角度朝向物体。

假设当输出结果标识被检测图像中存在预设角度朝向物体时，深度神经网络模型即输出检出标识及检测区域，那么当目标图像或旋转图像中的一张图像对应的输出结果中包括该检出标识及检测区域时，该图像中即包括预设角度朝向物体。

当然，由于深度神经网络模型可以仅检测图像中包括的预设角度朝向物体的区域，那么只要深度神经网络模型具有输出结果时，即可以认为该输出结果对应的被检测图像中包括预设角度朝向物体。

进而，电子设备便可以根据上述旋转规则，确定该被检测图像的旋转角度。假设该被检测图像是将目标图像顺时旋转40度后得到的旋转图像，那么该被检测图像的旋转角度即为“顺时旋转40度”。

S402，根据所述旋转角度及目标输出结果中包括的检测区域，确定所述待抓取物体的位姿。

其中，目标输出结果为标识被检测图像中存在预设角度朝向物体的输出结果。深度神经网络模型的输出结果中包括的检测区域即为目标图像及旋转图像中待抓取物体所在区域。

那么，得到上述被检测图像的旋转角度及检测区域后，由于旋转规则已知，因此电子设备可以确定目标图像与旋转图像之间的角度关系，进而，便可以根据该角度关系及检测区域，确定待抓取物体的位姿。

可见，在本实施例中，电子设备可以在深度神经网络模型的输出结果标识被检测图像中存在预设角度朝向物体时，根据上述旋转规则，确定该被检测图像的旋转角度，并根据该旋转角度及目标输出结果中包括的检测区域，确定待抓取物体的位姿，方便快速，且准确率高。

针对上述输出结果包括检测区域的情况而言，作为本发明实施例的一种实施方式，如图5所示，上述根据所述旋转角度及目标输出结果中包括的检测区域，确定所述待抓取物体的位姿的步骤，可以包括：

S501，根据所述旋转角度，确定所述待抓取物体相对于所述预设参照方向的旋转角度。

得到上述被检测图像的旋转角度后，电子设备便可以根据该旋转角度，确定待抓取物体相对于上述预设参照方向的旋转角度。

举例来说，如果旋转图像2中存在预设角度朝向物体，预设角度朝向为图像纵轴方向，旋转图像2是对目标图像顺时针旋转40度后的图像，那么说明，待抓取物体从其在目标图像中朝向，顺时针旋转40度后，将待抓取物体的朝向即为图像纵轴方向，因此，电子设备可以确定，待抓取物体相对于该预设参照方向的旋转角度为逆时针旋转40度。

又例如，如果旋转图像5中存在预设角度朝向物体，预设角度朝向为图像纵轴方向顺时针旋转20度方向，旋转图像5是对目标图像顺时针旋转80度后的图像，那么说明，将待抓取物体从其在目标图像中朝向，顺时针旋转80度后，待抓取物体的朝向即为图像纵轴方向顺时针旋转20度方向，因此，电子设备可以确定，待抓取物体相对于该预设参照方向的旋转角度为逆时针旋转60度。

S502，根据所述旋转角度及所述目标输出结果中包括的检测区域，确定所述待抓取物体的位置；

目标输出结果中包括的检测区域即为包括预设角度朝向物体的图像中待抓取物体所在区域，一般该区域可以用矩形框来表示，如图6所示，图中区域601、区域602及区域603即为待抓取物体所在区域，当然待抓取物体可以为一个，图6仅为存在多个待抓取物体的情况一种示意图，并不具有任何限定意义。

待抓取物体在图像中所在区域确定，待抓取物体类别确定，待抓取物体的长、宽、高等参数也就可以确定，进而，基于待抓取物体在图像中所在区域、待抓取物体相对于上述预设参照方向的旋转角度以及待抓取物体的长、宽、高，便可以确定待抓取物体相对于第一图像传感器坐标系的位姿。

在一种实施方式中，为了方便后续机械臂对待抓取物体的抓取，由于第一图像传感器与机械臂之间的相对位置关系可以确定，因此可以进一步根据机械臂坐标系与第一图像传感器坐标系的映射关系，确定待抓取物体相对于机械臂坐标系的位姿，这样，机械臂便可以对待抓取物体进行准确抓取。

可见，在本实施例中，电子设备可以根据目标输出结果中包括的检测区域，确定待抓取物体的位置，并根据存在预设角度朝向物体的图像的旋转角度，确定待抓取物体相对于预设参照方向的旋转角度，从而准确确定待抓取物体的位姿。

作为本发明实施例的一种实施方式，如图7所示，上述深度神经网络模型的训练方式，可以包括：

S701，获取第二图像传感器采集的包括物体的多个图像样本；

其中，第二图像传感器与放置该物体平面构成俯视视角。该物体为上述待抓取物体，这样可以保证深度神经网络模型的检测精度。可以理解的是，每个图像样本中物体的位姿是不同的，图像样本的背景也可以是不同的，这样可以使训练得到的深度神经网络模型可以对各种位姿及背景下的待抓取物体进行检测。

例如，上述待抓取物体为杯子，那么图像样本中包括的物体即为该杯子。如果待抓取物体为多个，包括杯子A、杯子B、杯子C、杯子D，那么图像样本中包括的物体也为杯子A、杯子B、杯子C、杯子D。

第二图像传感器可以与上述第一图像传感器为同一个图像传感器，也可以为不同的传感器，只要与放置该物体平面构成俯视视角，能够采集图样样本即可，在此不做具体限定。对于俯视视角的说明已在上述对于第一图像传感器与放置待抓取物体平面构成俯视视角的部分说明，可以参见上述对于第一图像传感器与放置待抓取物体平面构成俯视视角的部分说明，在此不再赘述。

图像样本中包括的物体的朝向可以均为上述预设角度朝向，也可以包括各种朝向，也可以是图像样本中的一部分图像包括的物体的朝向为上述预设角度朝向，这都是可行的。

在一种实施方式中，由于相对于图像来说的竖直物体更容易标注，也就是在图像中轮廓与矩形相似，中心线平行于图像纵轴的物体，因此，上述预设角度朝向的物体可以轮廓与矩形相似，中心线平行于图像纵轴的物体，那么图像样本中包括的物体的朝向也就可以包括中心线平行于图像纵轴的朝向，可以简化标注工作，提高后续图像样本的标注效率。

S702，标注每个图像样本中预设角度朝向物体对应的检测区域；

获取上述图像样本后，为了使训练得到的深度神经网络模型可以学习到预设角度朝向物体的图像特征，电子设备可以标注每个图像样本中预设角度朝向物体对应的检测区域，该检测区域也可以利用一矩形框来表示，当然也可以采用矩形的两个对角顶点的坐标表示，在此不做具体限定。

可以理解的是，如果上述图像样本中均包括预设角度朝向物体，那么电子设备便对每个样本进行检测区域的标注；如果上述图像样本中的一部分图像样本包括预设角度朝向物体，那么电子设备便对该一部分样本中包括预设角度朝向物体进行标注，对另一部分不包括预设角度朝向物体的图样样本的标注可以理解为标注图像样本的标签，该标签用于标识对应的图像样本中不存在预设角度朝向物体。

S703，将标注后的图像样本输入预先构建的初始深度神经网络模型进行训练，得到所述深度神经网络模型。

对图像样本进行标注后，可以将标注后的图像样本输入预先构建的初始深度神经网络模型进行训练。在训练过程中，初始深度神经网络模型可以学习图像样本中包括预设角度朝向物体的图像特征，输出图像样本对应的检测区域，经过对大量图像样本的学习，初始深度神经网络模型逐步建立预设角度朝向物体的图像特征与检测区域的对应关系，进而得到深度神经网络模型。

可见，本实施例中，通过上述训练方式对初始深度神经网络模型进行训练，可以得到包含图像样本中预设角度朝向物体的图像特征与检测区域的对应关系的深度神经网络模型，通过该深度神经网络模型可以得到目标图像及旋转图像对应的输出结果，进而确定待抓取物体的位姿。

作为本发明实施例的一种实施方式，如图8所示，上述获取第二图像传感器采集的包括物体的多个图像样本的步骤，可以包括：

S801，获取第二图像传感器采集的包括物体的多个图像；

其中，所述第二图像传感器与放置所述物体平面构成俯视视角。利用第二图像传感器可以采集的包括上述物体的多个图像，该多个图像中的物体可以为预设角度朝向的物体，也可以不是预设角度朝向的物体，这都是合理的。

S802，按照预设旋转规则，将每个图像在成像平面内进行旋转，得到每个图像对应的预设数量的旋转图像样本；

S803，将所述旋转图像样本及所述多个图像作为图像样本。

获取上述包括物体的多个图像后，为了提高图像样本的多样性，电子设备可以按照预设旋转规则，将每个图像在成像平面内进行旋转，得到每个图像对应的预设数量的旋转图像样本。

在一种实施方式中，电子设备可以按照预设角度，将每个图像在成像平面内进行旋转，得到每个图像对应的预设数量的旋转图像样本。旋转方式可以为顺时针旋转，也可以为逆时针旋转，都是合理的。该预设角度可以根据抓取精度等因素确定，例如可以为20度、30度、10度等，在此不做具体限定。

例如，电子设备可以采集的一图像在成像平面内顺时针旋转10度获得一张旋转图像样本，再在成像平面内顺时针旋转10度获得第二张旋转图像样本，以此类推，获得35张旋转图像样本。那么如果第二图像传感器采集了100张图像，那么便可以获得3600张图像样本。

可见，在本实施例中，电子设备可以通过对第二图像传感器采集的图像按照预设旋转规则进行旋转的方式，获得大量旋转图像样本，进而，获得大量图像样本，可以快速获取图像样本，并且提高图像样本的多样性，保证训练得到的深度神经网络模型的泛化能力及检测的准确度。

作为本发明实施例的一种实施方式，上述方法还可以包括：

由于待抓取物体相对于机械臂坐标系的位姿可以确定，电子设备便可以根据待抓取物体相对于机械臂坐标系的位姿，控制机械臂向待抓取物体所在位置移动，进而对待抓取物体进行抓取。

可见，在本实施例中，待抓取物体的位姿确定后，电子设备可以控制机械臂根据待抓取物体的位姿，对待抓取物体进行抓取，抓取准确率高。

作为本发明实施例的一种实施方式，如图9所示，上述根据所述待抓取物体的位姿，控制机械臂抓取所述待抓取物体的步骤，可以包括：

S901，根据所述待抓取物体的位姿以及机械臂末端当前位姿，确定机械臂的移动方案及所述机械臂末端的旋转角；

机械臂末端当前位姿是已知的，机械臂末端当前位姿包括当前位置及角度。这样，电子设备便可以根据待抓取物体的位姿以及机械臂末端当前位置，确定机械臂的移动方案。根据待抓取物体的朝向以及机械臂末端角度，确定机械臂末端的旋转角。

例如，机械臂末端当前位置为(5，107，92)，那么电子设备便可以根据待抓取物体相对于机械臂坐标系的位姿，确定一适合的移动方案。具体确定方式可以采用任意机械臂控制领域的根据起始位置确定移动方案的方式，在此不做具体限定及说明。

S902，按照所述移动方案控制所述机械臂进行移动，并控制所述机械臂末端按照所述旋转角进行旋转；

确定上述移动方案及机械臂末端的旋转角后，电子设备便可以按照该移动方案控制机械臂进行移动，并控制机械臂末端按照旋转角进行旋转，这样，在机械臂抓取待抓取物体时，可以更加准确。

S903，当所述机械臂移动完成时，控制所述机械臂末端抓取所述待抓取物体。

当机械臂移动完成时，电子设备便可以控制机械臂末端抓取待抓取物体。此时，由于机械臂末端的角度为按照上述旋转角进行旋转的，更加符合待抓取物体的实际朝向，因此，可以准确抓取待抓取物体。

可见，在本实施例中，电子设备可以根据待抓取物体的位姿以及机械臂末端当前位姿，确定机械臂的移动方案及机械臂末端的旋转角，再按照移动方案控制机械臂进行移动，并控制机械臂末端按照旋转角进行旋转，进而，当机械臂移动完成时，控制机械臂末端抓取待抓取物体。由于机械臂末端的角度为按照旋转角进行旋转的，更加符合待抓取物体的实际朝向，可以保证准确抓取待抓取物体。

相应于上述方法实施例，本发明实施例还提供了一种待抓取物体位姿的确定装置。

下面对本发明实施例所提供的一种待抓取物体位姿的确定装置进行介绍。

如图10所示，一种待抓取物体位姿的确定装置，其特征在于，所述装置包括：

目标图像获取模块1010，用于获取第一图像传感器采集的包括待抓取物体的目标图像；

图像旋转模块1020，用于按照预设旋转规则，将所述目标图像在成像平面内进行旋转，得到预设数量的旋转图像；

图像检测模块1030，用于将所述目标图像及所述旋转图像输入预先通过模型训练模块(图10中未示出)训练完成的深度神经网络模型进行检测，得到每张图像对应的输出结果；

位姿确定模块1040，用于根据所述输出结果及所述预设旋转规则，确定所述待抓取物体的位姿。

作为本发明实施例的一种实施方式，上述图像旋转模块1020可以包括：

图像旋转单元(图10中未示出)，用于按照预设角度，将所述目标图像在成像平面内进行旋转，得到预设数量的旋转图像。

作为本发明实施例的一种实施方式，上述预设角度朝向物体的轮廓可以与矩形相似度不低于预设相似度。

作为本发明实施例的一种实施方式，上述输出结果可以包括检测区域；

上述位姿确定模块1040可以包括：

旋转角度确定单元(图10中未示出)，用于当输出结果标识被检测图像中存在预设角度朝向物体时，根据所述旋转规则，确定该被检测图像的旋转角度；

位姿确定单元(图10中未示出)，用于根据所述旋转角度及目标输出结果中包括的检测区域，确定所述待抓取物体的位姿，其中，所述目标输出结果为标识被检测图像中存在预设角度朝向物体的输出结果。

作为本发明实施例的一种实施方式，上述位姿确定单元可以包括：

旋转角度确定子单元(图10中未示出)，用于根据所述旋转角度，确定所述待抓取物体相对于所述预设参照方向的旋转角度；

位姿确定子单元(图10中未示出)，用于根据所确定的旋转角度及所述目标输出结果中包括的检测区域，确定所述待抓取物体的位姿；

作为本发明实施例的一种实施方式，上述模型训练模块可以包括：

图像样本获取单元(图10中未示出)，用于获取第二图像传感器采集的包括物体的多个图像样本，其中，所述第二图像传感器与放置所述物体平面构成俯视视角；

检测区域标注单元(图10中未示出)，用于标注每个图像样本中预设角度朝向物体对应的检测区域；

模型训练单元(图10中未示出)，用于将标注后的图像样本输入预先构建的初始深度神经网络模型进行训练；

训练完成单元(图10中未示出)，用于当所述初始深度神经网络模型的输出结果的准确率达到预设值时，完成训练。

作为本发明实施例的一种实施方式，上述图像样本获取单元可以包括：

图像获取子单元(图10中未示出)，用于获取第二图像传感器采集的包括物体的多个图像，其中，所述第二图像传感器与放置所述物体平面构成俯视视角；

图像旋转子单元(图10中未示出)，用于按照预设旋转规则，将每个图像在成像平面内进行旋转，得到每个图像对应的预设数量的旋转图像样本；

样本确定子单元(图10中未示出)，用于将所述旋转图像样本及所述多个图像作为图像样本。

作为本发明实施例的一种实施方式，上述装置还可以包括：

物体抓取模块(图10中未示出)，用于根据所述待抓取物体的位姿，控制机械臂抓取所述待抓取物体。

作为本发明实施例的一种实施方式，上述物体抓取模块可以包括：

旋转角确定单元(图10中未示出)，用于根据所述待抓取物体的位姿以及机械臂末端当前位姿，确定机械臂的移动方案及所述机械臂末端的旋转角；

旋转移动单元(图10中未示出)，用于按照所述移动方案控制所述机械臂进行移动，并控制所述机械臂末端按照所述旋转角进行旋转；

物体抓取单元(图10中未示出)，用于当所述机械臂移动完成时，控制所述机械臂末端抓取所述待抓取物体。

本发明实施例还提供了一种电子设备，如图11所示，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信，

存储器1103，用于存放计算机程序；

处理器1101，用于执行存储器1103上所存放的程序时，实现如下步骤：

可见，本发明实施例所提供的方案中，电子设备首先获取第一图像传感器采集的包括待抓取物体的目标图像，然后按照预设旋转规则，将目标图像在成像平面内进行旋转，得到预设数量的旋转图像，再将目标图像及旋转图像输入预先训练完成的深度神经网络模型进行检测，得到每张图像对应的输出结果，最后根据输出结果及预设旋转规则，确定待抓取物体的位姿。由于不需要人工进行物体建模，而是对目标图像进行旋转，并基于深度神经网络模型进行检测，将物体的三维位姿估计转化为一维旋转角度问题，可以大大节省人工和时间，并提高后续物体抓取的准确率及成功率。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

其中，上述按照预设旋转规则，将所述目标图像在成像平面内进行旋转，得到预设数量的旋转图像的步骤，可以包括：

其中，上述预设角度朝向物体的轮廓可以与矩形相似度不低于预设相似度。

其中，上述输出结果可以包括检测区域；

上述根据所述输出结果及所述预设旋转规则，确定所述待抓取物体的位姿的步骤，可以包括：

其中，上述根据所述旋转角度及目标输出结果中包括的检测区域，确定所述待抓取物体的位姿的步骤，可以包括：

其中，上述深度神经网络模型的训练方式，可以包括：

标注每个图像样本中预设角度朝向物体对应的检测区域；

将标注后的图像样本输入预先构建的初始深度神经网络模型进行训练；

当所述初始深度神经网络模型的输出结果的准确率达到预设值时，完成训练。

其中，上述获取第二图像传感器采集的包括物体的多个图像样本的步骤，可以包括：

将所述旋转图像样本及所述多个图像作为图像样本。

其中，上述方法还可以包括：

其中，上述根据所述待抓取物体的位姿，控制机械臂抓取所述待抓取物体的步骤，可以包括：

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

可见，本发明实施例所提供的方案中，计算机程序被处理器执行时，首先获取第一图像传感器采集的包括待抓取物体的目标图像，然后按照预设旋转规则，将目标图像在成像平面内进行旋转，得到预设数量的旋转图像，再将目标图像及旋转图像输入预先训练完成的深度神经网络模型进行检测，得到每张图像对应的输出结果，最后根据输出结果及预设旋转规则，确定待抓取物体的位姿。由于不需要人工进行物体建模，而是对目标图像进行旋转，并基于深度神经网络模型进行检测，将物体的三维位姿估计转化为一维旋转角度问题，可以大大节省人工和时间，并提高后续物体抓取的准确率及成功率。

其中，上述输出结果可以包括检测区域；

其中，上述深度神经网络模型的训练方式，可以包括：

标注每个图像样本中预设角度朝向物体对应的检测区域；

将所述旋转图像样本及所述多个图像作为图像样本。

其中，上述方法还可以包括：

需要说明的是，对于上述装置、电子设备及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要进一步说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种待抓取物体位姿的确定方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述按照预设旋转规则，将所述目标图像在成像平面内进行旋转，得到预设数量的旋转图像的步骤，包括：

3.如权利要求1所述的方法，其特征在于，所述预设角度朝向物体的轮廓与矩形相似度不低于预设相似度。

4.如权利要求1所述的方法，其特征在于，所述输出结果包括检测区域；

5.如权利要求4所述的方法，其特征在于，所述根据所述旋转角度及目标输出结果中包括的检测区域，确定所述待抓取物体的位姿的步骤，包括：

6.如权利要求1所述的方法，其特征在于，所述深度神经网络模型的训练方式，包括：

标注每个图像样本中预设角度朝向物体对应的检测区域；

7.如权利要求6所述的方法，其特征在于，所述获取第二图像传感器采集的包括物体的多个图像样本的步骤，包括：

将所述旋转图像样本及所述多个图像作为图像样本。

8.如权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

9.如权利要求8所述的方法，其特征在于，所述根据所述待抓取物体的位姿，控制机械臂抓取所述待抓取物体的步骤，包括：

10.一种待抓取物体位姿的确定装置，其特征在于，所述装置包括：

11.如权利要求10所述的装置，其特征在于，所述图像旋转模块包括：

12.如权利要求10所述的装置，其特征在于，所述预设角度朝向物体的轮廓与矩形相似度不低于预设相似度。

13.如权利要求10所述的装置，其特征在于，所述输出结果包括检测区域；

所述位姿确定模块包括：

14.如权利要求13所述的装置，其特征在于，所述位姿确定单元包括：

位姿确定子单元，用于根据所确定的旋转角度及所述目标输出结果中包括的检测区域，确定所述待抓取物体的位姿。

15.如权利要求10所述的装置，其特征在于，所述模型训练模块包括：

16.如权利要求15所述的装置，其特征在于，所述图像样本获取单元包括：

17.如权利要求10-16任一项所述的装置，其特征在于，所述装置还包括：

18.如权利要求17所述的装置，其特征在于，所述物体抓取模块包括：

19.一种电子设备，其特征在于，包括处理器、存储器和通信总线，其中，处理器、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-9任一所述的方法步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一所述的方法步骤。