CN114897999B

CN114897999B - 物体位姿识别方法、电子设备、存储介质和程序产品

Info

Publication number: CN114897999B
Application number: CN202210474937.7A
Authority: CN
Inventors: 赵震; 徐志远; 车正平; 奉飞飞; 唐剑
Original assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Current assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2023-12-08
Anticipated expiration: 2042-04-29
Also published as: CN114897999A

Abstract

本发明涉及计算机视觉技术领域，提供一种物体位姿识别方法、装置、电子设备和存储介质，方法包括：获取待识别物体的彩色图像和深度图像；将彩色图像输入至目标检测模型，得到目标检测模型输出的目标区域；基于目标区域对应的目标区域图像，对待识别物体进行朝向旋转计算，得到待识别物体的旋转角度；在深度图像中定位与目标区域对应的相关目标区域，基于目标区域和相关目标区域确定待识别物体的空间位置；基于空间位置和旋转角度，确定待识别物体的空间位姿。本发明可以减少样本标注成本，降低硬件成本，节省计算资源和提高物体位姿识别的准确性。

Description

物体位姿识别方法、电子设备、存储介质和程序产品

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种物体位姿识别方法、电子设备、存储介质和程序产品。

背景技术

随着计算机视觉技术的快速发展，计算机视觉技术的应用范围越来越广泛，尤其对于机器人而言，机器人在日常操作中需要依靠计算机视觉来进行。具体地，需要对目标物体在空间中的位置和旋转姿态进行识别，即需要对物体进行位姿识别。通常，矩形结构的物体可以直接利用常规的目标检测模型来预测出矩形包围框，从而进一步计算出物体位姿，但对于梯形及其变体结构的物体却无法识别出旋转位姿。而梯形及其变体结构的物体在生活中是十分常见的，例如，圆台结构的水杯、梯形结构的手提包、胶囊等等，因此，对梯形及其变体结构的物体进行位姿识别是十分必要的。

目前，物体空间位姿识别通常采用有监督学习的方法，并通过感知元件获得3维点云去识别预测出旋转姿态。然而，需要在3维空间中标注物体的旋转姿态，对标注人员提出了较高的要求，耗费了大量的人工标注成本；需要清晰的3维点云成像，所需的感知元件成本较高；需要足够强大的3维旋转预测模型在GPU进行学习训练，耗费较多的计算资源，且由于3维旋转预测模型的预测结果的不确定性，导致预测到的旋转姿态精确度不高。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种物体位姿识别方法，可以减少样本标注成本，降低硬件成本，节省计算资源和提高物体位姿识别的准确性。

本发明还提供一种电子设备、存储介质和程序产品。

根据本发明第一方面实施例的物体位姿识别方法，包括：

获取待识别物体的彩色图像和深度图像；

将所述彩色图像输入至目标检测模型，得到所述目标检测模型输出的目标区域，所述目标区域为所述待识别物体所处的矩形区域；

基于所述目标区域对应的目标区域图像，对所述待识别物体进行朝向旋转计算，得到所述待识别物体的旋转角度，所述旋转角度用于表征所述待识别物体的空间旋转姿态；

在所述深度图像中定位与所述目标区域对应的相关目标区域，基于所述目标区域和所述相关目标区域确定所述待识别物体的空间位置；

基于所述空间位置和所述旋转角度，确定所述待识别物体的空间位姿。

根据本发明实施例的物体位姿识别方法，目标检测模型只需采用矩形框的标注方式进行样本标注，没有用到复杂繁琐的3维标注，从而极大地减少了标注成本；只需获取彩色图像和深度图像，即可进行物体位姿识别，无需依赖于3维点云成像，从而无需成本较高的感知元件，进而降低硬件成本；只需采用2维目标检测模型，即可进行物体位姿识别，不会依赖于GPU，进而节省了计算资源；同时，该2维目标检测模型较为成熟稳定，从而可以提高物体位姿识别的准确性。

根据本发明的一个实施例，所述基于所述目标区域对应的目标区域图像，对所述待识别物体进行朝向旋转计算，得到所述待识别物体的旋转角度，包括：

对所述目标区域图像进行轮廓提取处理，得到外轮廓；

对所述外轮廓进行角点提取处理，得到所述外轮廓的多个角点；

基于所述多个角点，对所述待识别物体进行朝向旋转计算，得到所述待识别物体的旋转角度。

根据本发明的一个实施例，所述基于所述多个角点，对所述待识别物体进行朝向旋转计算，得到所述待识别物体的旋转角度，包括：

将所述多个角点进行两两连接，得到多条线段；

基于所述多条线段，确定上底边和下底边；

基于所述上底边和所述下底边，确定所述待识别物体的旋转角度。

根据本发明的一个实施例，所述多个角点包括4个角点，所述基于所述多条线段，确定上底边和下底边，包括：

计算所述多条线段中各两线段之间的夹角，并基于所述各两线段之间的夹角，确定最小夹角；

将所述最小夹角对应的两线段确定为上底边和下底边。

根据本发明的一个实施例，所述多个角点包括3个角点，所述基于所述多条线段，确定上底边和下底边，包括：

确定参考边，并从所述多条线段中确定出与所述参考边夹角最小的下底边；

从所述3个角点中确定出未处于所述下底边的顶点，并基于所述下底边，对所述顶点进行延伸得到上底边。

根据本发明的一个实施例，所述上底边的边长大于所述下底边的边长，所述基于所述上底边和所述下底边，确定所述待识别物体的旋转角度，包括：

确定所述下底边的中点在图像坐标系中的第一坐标，并确定所述上底边的中点在图像坐标系中的第二坐标；

基于所述第一坐标和所述第二坐标确定所述待识别物体的旋转方向，所述旋转方向为所述第一坐标指向所述第二坐标的方向；

基于所述旋转方向与所述图像坐标系的Y轴正方向的夹角，确定所述待识别物体的旋转角度，所述旋转角度为所述待识别物体沿所述图像坐标系的Z轴旋转的角度。

根据本发明的一个实施例，所述基于所述目标区域和所述相关目标区域确定所述待识别物体的空间位置，包括：

从所述目标区域中选取目标点，在所述相关目标区域中确定出所述目标点对应的相关目标点；

基于所述相关目标点，确定所述待识别物体与采集所述深度图像的设备的距离值；

基于所述目标点的二维坐标和所述距离值，确定所述待识别物体的空间位置。

根据本发明第二方面实施例的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述物体位姿识别方法。

根据本发明第三方面实施例的非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述物体位姿识别方法。

根据本发明第四方面实施例的计算机程序产品，其包括计算机程序，该计算机程序被处理器执行时实现如上述任一种所述物体位姿识别方法。

本发明实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：

目标检测模型只需采用矩形框的标注方式进行样本标注，没有用到复杂繁琐的3维标注，从而极大地减少了标注成本；只需获取彩色图像和深度图像，即可进行物体位姿识别，无需依赖于3维点云成像，从而无需成本较高的感知元件，进而降低硬件成本；只需采用2维目标检测模型，即可进行物体位姿识别，不会依赖于GPU，进而节省了计算资源；同时，该2维目标检测模型较为成熟稳定，从而可以提高物体位姿识别的准确性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的物体位姿识别方法的流程示意图之一；

图2是本发明实施例提供的梯形结构物体的示意图；

图3是本发明实施例提供的物体位姿识别方法的流程示意图之二；

图4是本发明实施例提供的物体位姿识别方法的流程示意图之三；

图5是本发明实施例提供的目标区域图像的示意图；

图6是本发明实施例提供的物体位姿识别装置的结构示意图；

图7是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着计算机视觉技术的快速发展，计算机视觉技术的应用范围越来越广泛，尤其对于机器人而言，机器人在日常操作中需要依靠计算机视觉来进行。具体地，需要对目标物体在空间中的位置和旋转姿态进行识别，即需要对物体进行位姿识别，机器人才能进行有效的整理和摆放等操作。通常，矩形结构的物体可以直接利用常规的目标检测模型来预测出矩形包围框，从而进一步计算出物体位姿，但对于梯形及其变体结构的物体，以及其他形状结构的物体，却无法识别出旋转位姿。而梯形及其变体结构的物体在生活中是十分常见的，例如，圆台结构的水杯、梯形结构的手提包、胶囊等等，因此，对梯形及其变体结构的物体进行位姿识别是十分必要的。

针对上述问题，本发明提出以下各实施例。

下面结合附图描述本申请实施例提供的物体位姿识别方法。

该物体位姿识别方法的执行主体可以为物体位姿识别方法装置，或者为服务器，或者还可以为家庭服务机器人，或者还可以为用户的终端，包括但不限于手机、平板电脑、pc端、车载终端以及家用智能电器等。

图1是本发明实施例提供的物体位姿识别方法的流程示意图之一，如图1所示，该物体位姿识别方法包括：

步骤110，获取待识别物体的彩色图像和深度图像。

此处，彩色图像和深度图像为目标场景中的图像，目标场景为需要进行物体位姿识别的场景，该目标场景为感知元件所捕获的场景。该感知元件为可以捕获彩色图像且可以测距成像的元件，例如，RGB-D相机、RGB相机+激光雷达、RGB相机+毫米波雷达、RGB相机+红外相机等等。

此处，彩色图像可以包括但不限于：RGB图像、HSV图像等等。例如，RGB图像可以通过RGB-D相机、RGB相机等进行获取。

此处，深度图像(Depth图)为距离影像,是指将从图像采集设备到场景中各点的距离(深度)作为像素值的图像。例如，深度图像可以通过RGB-D相机、激光雷达、毫米波雷达、红外相机等进行获取。

此处，待识别物体为待进行位姿识别的物体，即需要识别空间位置和空间姿态的物体。

在一些实施例中，对待识别物体的形状、结构不作限定。例如，待识别物体可以为梯形或梯形变体结构的物体，或者为三角形的物体等等，在上述实施例中，通过本申请中提供的物体位姿识别方法可以识别得到类如梯形、梯形变形体及三角形形状的物体的位姿。

在一具体实施例中，在下述步骤120中，还可以包括：

通过目标检测模型确定待识别物体的形状，当识别出的形状符合一定的条件后，例如当输出的物体的形状为梯形或者梯形变形体时，再继续执行下述步骤130的步骤。

其中，梯形变体结构的物体为类似梯形结构的物体。例如，梯形及其变体结构的物体可以为圆台结构的水杯、梯形结构的手提包、胶囊等等。为便于理解，参照图2，图2是本发明实施例提供的梯形结构物体的示意图，图2中(a)为手提包，(b)为水杯，(c)为胶囊。

在一实施例中，彩色图像为包括待识别物体整体形状的图像。在另一实施例中，彩色图像仅包括待识别物体的部分形状；例如，待识别物体为多种形状结构组合的物体，此时，彩色图像可以仅包括待识别物体的梯形结构部分。

在一实施例中，深度图像为包括待识别物体整体结构的深度值的图像。在另一实施例中，深度图像仅包括待识别物体的部分形状的深度值的图像；例如，待识别物体为多种形状结构组合的物体，此时，深度图像可以仅包括待识别物体的梯形结构部分的深度值。

在一具体实施例中，彩色图像和深度图像是已经经过图像配准处理后的图像。具体地，可以在获取图像后进行图像配准处理得到彩色图像和深度图像，也可以直接获取配准后的彩色图像和深度图像。

需要说明的是，彩色图像和深度图像可以在本发明实施例的应用终端中获取得到，也可以接收其他终端设备发送的彩色图像和深度图像，本发明实施例对彩色图像和深度图像的获取方式不作具体限定。

在一具体实施例中，为了便于在彩色图像中体现待识别物体的形状，可以对感知元件的位置，或者感知元件的感知角度进行设定，例如对相机的拍摄角度进行设定。例如，对梯形结构物体进行位姿识别，只需确保能够拍摄到梯形形状即可，可以不要求正对着梯形结构物体。

步骤120，将所述彩色图像输入至目标检测模型，得到所述目标检测模型输出的目标区域，所述目标区域为所述待识别物体所处的矩形区域。

此处，目标检测模型为2维目标检测模型，例如Yolo系列的一阶段模型、Faster-Rcnn系列的二阶段模型等等，本发明实施例对2维目标检测模型的类型不作具体限定。

该目标检测模型是采用矩形框的标注方式进行训练得到的。可以理解的是，本发明实施例只需采用矩形框的标注方式进行样本标注，没有用到复杂繁琐的3维标注，从而极大地减少了标注成本。由于该目标检测模型的训练样本的标签为矩形框标签，因此，通过目标检测模型输出的目标区域为矩形区域。

在一些实施例中，目标区域为包围待识别物体的区域。具体地，输入目标检测模型的彩色图像为包括待识别物体整体形状的图像，因此，目标检测模型输出的目标区域为包围待识别物体的区域。

在另一些实施例中，目标区域为包围待识别物体部分形状的区域。

在一实施例中，输入目标检测模型的彩色图像为包括待识别物体整体形状的图像，目标检测模型输出的目标区域为包围待识别物体部分形状的区域。例如，待识别物体为多种形状结构组合的物体，此时，目标区域可以仅包括待识别物体的梯形结构部分。

具体地，目标检测模型的训练样本可以包括多种形状结构组合的彩色图像样本，且多种形状结构组合的彩色图像样本的标签为待识别物体部分形状的矩形区域。

在另一实施例中，输入目标检测模型的彩色图像仅包括待识别物体的部分形状，目标检测模型输出的目标区域为包围待识别物体部分形状的区域。

在一具体实施例中，若对待识别物体的形状、结构进行限定，则该目标检测模型还需输出待识别物体的形状，以在识别出的形状符合限定的形状后，再执行下述步骤130的步骤。

在一具体实施例中，该目标区域可以通过坐标点进行表征。例如，以彩色图像的左上角为坐标原点，以基于该坐标原点从左到右的方向为X轴正方向，以基于该坐标原点从上到下的方向为Y轴正方向，以Z轴符合“右手坐标系”，表示方式垂直于X轴、Y轴所在的平面朝里，构建图像坐标系；之后根据该图像坐标系，确定能够包围目标区域矩形框的坐标点B(x_b0，y_b0，x_b1，y_b1)，其中(x_b0，y_b0)表示目标区域的左上角的坐标，(x_b1，y_b1)表示目标区域的右下角的坐标；当然，(x_b0，y_b0)也可以表示目标区域的右上角的坐标，(x_b1，y_b1)表示目标区域的左下角的坐标。基于此，矩形框标签的形式可以为点B(x_b0，y_b0，x_b1，y_b1)的形式。

基于上述实施例，可以根据坐标点将目标区域从彩色图像中裁剪出来得到目标区域对应的目标区域图像。

在另一实施例中，可以根据坐标点将目标区域从彩色图像中裁剪出来得到目标区域对应的目标图像，之后，基于预设放大比例，对该目标图像进行放大处理，得到目标区域对应的目标区域图像。其中，预设放大比例可以根据实际需求进行设定，本发明实施例对此不作具体限定。

可以理解的是，对裁剪后的目标图像进行放大，可以使目标区域图像中的边界区域更加明显，进而提高后续轮廓提取的准确性，最终进一步提高位姿识别的准确性。

步骤130，基于所述目标区域对应的目标区域图像，对所述待识别物体进行朝向旋转计算，得到所述待识别物体的旋转角度，所述旋转角度用于表征所述待识别物体的空间旋转姿态。

具体地，对目标区域图像进行轮廓提取处理和角点提取处理，得到多个角点，进而基于多个角点进行朝向旋转计算，得到待识别物体的旋转角度。

其中，多个角点可以为无序角点或有序角点。无序角点表示各角点之间的连接顺序未知，进而无法直接将多个角点进行连接得到表征边界的多条线段。有序角点表示各角点之间的连接顺序已知，进而可以基于该连续顺序依次对多个角点进行连接得到表征边界的多条线段。

在一实施例中，若多个角点包括4个角点，且4个角点为无序角点，将该4个角点进行两两连接，可以得到6条线段，计算该6条线段中各两线段之间的夹角。基于该各两线段之间的夹角，确定最小夹角，将最小夹角对应的两线段确定为上底边和下底边。基于上底边和下底边，确定该待识别物体的旋转角度。

在另一实施例中，若多个角点包括4个角点，且4个角点为有序角点，确定该4个角点的角点顺序。基于该角点顺序将该4个角点进行两两连接，得到4条线段。计算该4条线段中各两线段之间的夹角，并基于该各两线段之间的夹角，确定最小夹角。将最小夹角对应的两线段确定为上底边和下底边，最后，基于上底边和下底边，确定该待识别物体的旋转角度。

在一些实施例中，可以将旋转角度从图像坐标系转换成世界坐标系，以供后续获取世界坐标系下的空间位姿。

步骤140，在所述深度图像中定位与所述目标区域对应的相关目标区域，基于所述目标区域和所述相关目标区域确定所述待识别物体的空间位置。

此处，由于深度图像和彩色图像是经过配准后的图像，因此，可以基于目标区域，在深度图像中定位得到相关目标区域。

在一具体实施例中，该目标区域可以通过坐标点进行表征。例如，以彩色图像的左上角为坐标原点，以基于该坐标原点从左到右的方向为X轴正方向，以基于该坐标原点从上到下的方向为Y轴正方向，以Z轴符合“右手坐标系”，表示方式垂直于X轴、Y轴所在的平面朝里，构建图像坐标系；之后根据该图像坐标系，确定能够包围目标区域矩形框的坐标点B(x_b0，y_b0，x_b1，y_b1)，其中(x_b0，y_b0)表示目标区域的左上角的坐标，(x_b1，y_b1)表示目标区域的右下角的坐标；当然，(x_b0，y_b0)也可以表示目标区域的右上角的坐标，(x_b1，y_b1)表示目标区域的左下角的坐标。

基于上述实施例，可以根据目标区域的坐标点，在深度图像中定位与目标区域相关的相关目标区域。

此处，空间位置表示待识别物体在3维空间中的坐标位置。例如，空间位置通过点C(x_c，y_c，z_c)进行表示。其中，目标区域用于确定待识别物体的二维位置，也就是确定x_c、y_c，相关目标区域用于确定待识别物体与采集深度图像的设备的距离，也就是确定z_c。

在一实施例中，可以将空间位置从图像坐标系转换成世界坐标系。例如，将图像坐标系下的空间位置C(x_c，y_c，z_c)，转换成世界坐标系下的空间位置W(x_w，y_w，z_w)。

步骤150，基于所述空间位置和所述旋转角度，确定所述待识别物体的空间位姿。

此处，空间位姿用于表征待识别物体在三维空间的位置和旋转姿态。

在一实施例中，基于在世界坐标系下的空间位置和在世界坐标系下的旋转角度，可以确定待识别物体在世界坐标系下的空间位姿。

在另一实施例中，基于在图像坐标系下的空间位置和在图像坐标系下的旋转角度，可以确定待识别物体在图像坐标系下的空间位姿。

本发明实施例提供的物体位姿识别方法，获取待识别物体的彩色图像和深度图像；将彩色图像输入至目标检测模型，得到目标检测模型输出的目标区域，目标区域为待识别物体的矩形区域；基于目标区域对应的目标区域图像，对待识别物体进行朝向旋转计算，得到待识别物体的旋转角度，旋转角度用于表征待识别物体的空间旋转姿态；在深度图像中定位与目标区域对应的相关目标区域，基于目标区域和相关目标区域确定待识别物体的空间位置；基于空间位置和旋转角度，确定待识别物体的空间位姿。通过上述方式，目标检测模型输出的目标区域为矩形区域，因此，目标检测模型只需采用矩形框的标注方式进行样本标注，没有用到复杂繁琐的3维标注，从而极大减少了标注成本；只需获取彩色图像和深度图像，即可进行物体位姿识别，无需依赖于3维点云成像，从而无需成本较高的感知元件，进而降低硬件成本；只需采用2维目标检测模型，即可进行物体位姿识别，不会依赖于GPU，进而节省了计算资源；同时，该2维目标检测模型较为成熟稳定，从而可以提高物体位姿识别的准确性。

基于上述实施例，图3是本发明实施例提供的物体位姿识别方法的流程示意图之二，如图3所示，上述步骤130包括：

步骤131，对所述目标区域图像进行轮廓提取处理，得到外轮廓。

此处，轮廓提取处理可以采用边缘检测算子进行。该边缘检测算子可以包括但不限于：Canny算子、Sobel算子、Isotropic Sobel算子、Roberts算子、Prewitt算子、Laplacian算子等等。

在一实施例中，采用边缘检测算子，对目标区域图像中的待识别物体进行轮廓提取处理，得到待识别物体的外轮廓。

在另一实施例中，将目标区域图像转换成灰度图，并对灰度图进行高斯滤波处理；采用边缘检测算子，对高斯滤波处理后的灰度图进行轮廓提取处理，得到外轮廓。

需要说明的是，在采用边缘检测算子进行轮廓提取时，加入了对目标区域图像的腐蚀处理和膨胀处理，从而使得到的外轮廓更加平滑且封闭，进而提高轮廓提取处理的准确性。

可以理解的是，将目标区域图像转换成灰度图后，再进行高斯滤波处理，可以保证目标区域的边界连续，以供后续可以更好地进行轮廓提取，即提高轮廓提取的准确性，进而提高旋转角度的计算准确性，最终进一步提高物体位姿识别的准确性。

步骤132，对所述外轮廓进行角点提取处理，得到所述外轮廓的多个角点。

此处，对多个角点的数量并不作限定，例如，梯形、四边形所对应的角点个数为4，三角形所对应的角点个数为3。

在一实施例中，为了提高角点提取的效率，可以对外轮廓进行角点提取处理，得到外轮廓的多个无序角点。例如，采用拟合曲线算法(approxPolyDP)，对外轮廓进行角点提取处理，得到外轮廓的多个无序角点。当然，也可以采用其他算法进行角点提取，本发明实施例对此不作具体限定。

其中，无序角点表示各角点的顺序未知，故而提取外轮廓的无序角点的速度快，计算资源占用少。但是由于各角点之间的连接顺序未知，故而无法直接将多个角点进行连接得到边界的多条线段。

在另一实施例中，对外轮廓进行角点提取处理，得到外轮廓的多个有序角点。

其中，有序角点表示各角点的顺序已知，进而可以基于该顺序对多个角点进行连接得到边界的多条线段。

步骤133，基于所述多个角点，对所述待识别物体进行朝向旋转计算，得到所述待识别物体的旋转角度。

在一实施例中，基于多个无序角点，对待识别物体进行朝向旋转计算，得到待识别物体的旋转角度。

在另一实施例中，基于多个有序角点，对待识别物体进行朝向旋转计算，得到待识别物体的旋转角度。

本发明实施例提供的物体位姿识别方法，对目标区域图像进行轮廓提取处理，得到外轮廓；对外轮廓进行角点提取处理，得到外轮廓的多个角点；基于多个角点，对待识别物体进行朝向旋转计算，得到待识别物体的旋转角度。通过上述方式，只需对目标区域图像进行轮廓提取和角点提取处理，即可基于处理得到的多个角点进行朝向旋转计算，相比3维旋转估计模型，没有用到复杂繁琐的3维标注，从而极大地减少了标注成本；无需依赖于3维点云成像，从而无需成本较高的感知元件，进而降低硬件成本；不会依赖于GPU，进而节省了计算资源，提高了计算速度，减少了内存开销，方便移植到设备中。

基于上述任一实施例，图4是本发明实施例提供的物体位姿识别方法的流程示意图之三，如图4所示，上述步骤133包括：

步骤1331，将所述多个角点进行两两连接，得到多条线段。

在一实施例中，将多个无序角点进行两两连接，得到多条线段

例如，多个角点包括4个角点，无序角点表示各角点的顺序未知，进而无法直接将4个角点进行连接得到边界的4条线段。基于此，需要先将4个角点进行两两连接，得到6条线段，然后在6条线段中确定出上底边和下底边，之后，即可确定出边界的4条线段。

为便于理解，例如，以目标区域图像的左上角为坐标原点，以基于该坐标原点从左到右的方向为X轴正方向，以基于该坐标原点从上到下的方向为Y轴正方向，以Z轴符合“右手坐标系”，表示方式垂直于X轴、Y轴所在的平面朝里，构建图像坐标系。具体地，参照图5，此时，4个角点分别表示为E₀(x_e0,y_e0)、E₁(x_e1,y_e1)、E₂(x_e2,y_e2)、E₃(x_e3,y_e3)，6条线段分别表示为E₀E₁、E₀E₂、E₀E₃、E₁E₂、E₁E₃、E₂E₃。

在另一实施例中，将多个有序角点进行两两连接，得到多条线段。

例如，多个角点包括4个角点，有序角点表示各角点的顺序已知，进而可以直接将4个角点进行连接得到边界的4条线段。

步骤1332，基于所述多条线段，确定上底边和下底边。

具体地，从多条线段中确定出至少一条底边。若从多条线段中确定出两条底边，则分别确定为上底边和下底边；若从多条线段中确定出一条底边，则将该底边确定为下底边，之后基于该下底边确定上底边。

更为具体地，若多条线段中存在两个平行或近似平行的线段，则分别确定为上底边和下底边。若多条线段中不存在两个平行或近似平行的线段，则确定多条线段中的一条线段为下底边。

步骤1333，基于所述上底边和所述下底边，确定所述待识别物体的旋转角度。

在一实施例中，首先，确定上底边和下底边的中心点垂直射线；该中心点垂直射线的端点可以为下底边的中点，也可以为上底边的中点，该中心点垂直射线的方向可以由下底边的中点指向上底边的中点，也可以由上底边的中点指向下底边的中点。之后，基于该中心点垂直射线和Y轴正方向的夹角，确定待识别物体的旋转角度，即该旋转角度为待识别物体沿图像坐标系的Z轴旋转的角度。该图像坐标系为以目标区域图像的左上角为坐标原点，以基于该坐标原点从左到右的方向为X轴正方向，以基于该坐标原点从上到下的方向为Y轴正方向，以Z轴符合“右手坐标系”，表示方式垂直于X轴、Y轴所在的平面朝里的坐标系。

在另一实施例中，首先，确定上底边和下底边的垂直射线；该垂直射线的端点可以为下底边的任一点，也可以为上底边的任一点，该垂直射线的方向可以由下底边的任一点指向上底边，也可以由上底边的任一点指向下底边，该垂直射线垂直于上底边和下底边，或近似垂直于上底边和下底边。之后，基于该垂直射线和Y轴正方向的夹角，确定待识别物体的旋转角度，即该旋转角度为待识别物体沿图像坐标系的Z轴旋转的角度。该图像坐标系为以目标区域图像的左上角为坐标原点，以基于该坐标原点从左到右的方向为X轴正方向，以基于该坐标原点从上到下的方向为Y轴正方向，以Z轴符合“右手坐标系”，表示方式垂直于X轴、Y轴所在的平面朝里的坐标系。

本发明实施例提供的物体位姿识别方法，通过上述方式，基于角点间的连线，可以确定上底边和下底边，进而基于上底边和下底边确定待识别物体的旋转角度，为多个角点的朝向旋转计算提供支持。

基于上述任一实施例，该方法中，所述多个角点包括4个角点，上述步骤1332包括：

步骤13321，计算所述多条线段中各两线段之间的夹角，并基于所述各两线段之间的夹角，确定最小夹角。

此处，多个角点包括4个角点，表明其对应的外轮廓为梯形及其变体结构。需要说明的是，对于梯形及其变体结构，存在两个平行或近似平行的上底边和下底边，基于此，计算出多条线段之间的最小夹角，可认为是梯形的上下底边的夹角。

具体地，任两线段之间的夹角的计算公式如下：

式中，θ_k为任两线段之间的第k个夹角；4个角点分别表示为E₀(x_e0,y_e0)、E₁(x_e1,y_e1)、E₂(x_e2,y_e2)、E₃(x_e3,y_e3)，i∈[0,1,2]，j∈[1,2,3]，i≠j，i^*∈[0,1,2]，j^*∈[1,2,3]，i^*≠j^*，并且需要同时满足{i≠i^*或j≠j^*}。

基于上述公式，最小夹角θ_min为所有夹角θ_k中的最小值。

步骤13322，将所述最小夹角对应的两线段确定为上底边和下底边。

此处，最小夹角对应的两线段为上下底边，该上底边和下底边为平行或近似平行的两边。

在一实施例中，上底边的边长大于下底边的边长。例如，将上底边设定为E_mE_n，将下底边设定为此时，/>m∈i，n∈j，m^*∈i^*，n^*∈j^*，4个角点分别表示为E₀(x_e0,y_e0)、E₁(x_e1,y_e1)、E₂(x_e2,y_e2)、E₃(x_e3,y_e3)，i∈[0,1,2]，j∈[1,2,3]，i≠j，i^*∈[0,1,2]，j^*∈[1,2,3]，i^*≠j^*，并且需要同时满足{i≠i^*或j≠j^*}。

在另一实施例中，上底边的边长小于下底边的边长。例如，将上底边设定为E_mE_n，将下底边设定为此时，/>m∈i，n∈j，m^*∈i^*，n^*∈j^*，4个角点分别表示为E₀(x_e0,y_e0)、E₁(x_e1,y_e1)、E₂(x_e2,y_e2)、E₃(x_e3,y_e3)，i∈[0,1,2]，j∈[1,2,3]，i≠j，i^*∈[0,1,2]，j^*∈[1,2,3]，i^*≠j^*，并且需要同时满足{i≠i^*或j≠j^*}。

本发明实施例提供的物体位姿识别方法，通过上述方式，基于角点间的连线的两两夹角，可以确定上底边和下底边，进而基于上底边和下底边确定待识别物体的旋转角度，为多个角点的朝向旋转计算提供支持。

基于上述任一实施例，该方法中，所述多个角点包括3个角点，上述步骤1332包括：

步骤13323，确定参考边，并从所述多条线段中确定出与所述参考边夹角最小的下底边。

此处，多个角点包括3个角点，表明其对应的外轮廓为三角形。需要说明的是，对于三角形，不存在两个平行或近似平行的上底边和下底边，基于此，将与参考边夹角最小的线段确定为下底边。

此处，参考边可以根据实际需要进行设定，具体地，根据先验知识确定参考边。例如，以大地为参考边。

步骤13324，从所述3个角点中确定出未处于所述下底边的顶点，并基于所述下底边，对所述顶点进行延伸得到上底边。

具体地，基于下底边，对顶点进行延伸得到与下底边平行或近似平行的上底边。

需要说明的是，上底边的长度无需太大，只需从顶点延伸得到线段即可。

本发明实施例提供的物体位姿识别方法，通过上述方式，基于角点间的连线与参考边的两两夹角，可以确定上底边和下底边，进而基于上底边和下底边确定待识别物体的旋转角度，为多个角点的朝向旋转计算提供支持。

基于上述任一实施例，所述上底边的边长大于所述下底边的边长，该方法中，上述步骤1334包括：

在一实施例中，图像坐标系为以目标区域图像的左上角为坐标原点，以基于该坐标原点从左到右的方向为X轴正方向，以基于该坐标原点从上到下的方向为Y轴正方向，以Z轴符合“右手坐标系”，表示方式垂直于X轴、Y轴所在的平面朝里的坐标系。

在另一实施例中，若存在参考边，图像坐标系为以目标区域图像的左上角为坐标原点，以参考边为Y轴，以基于该坐标原点从上到下的方向为Y轴正方向，以基于Y轴构建的X轴，以Z轴符合“右手坐标系”，表示方式垂直于X轴、Y轴所在的平面朝里的坐标系。

在一实施例中，将旋转方向与Y轴正方向的夹角确定为待识别物体的旋转角度。

在另一实施例中，基于预设转换规则，将旋转方向与Y轴正方向的夹角转换为目标夹角，进而将目标夹角确定为待识别物体的旋转角度。其中，预设转换规则可以根据实际需要进行设定，例如，旋转方向与Y轴正方向的夹角为15°，则旋转角度为180°-15°＝165°。

为便于理解，假设多个角点包括4个角点。例如，将上底边设定为E_mE_n，将下底边设定为m∈i，n∈j，m^*∈i^*，n^*∈j^*，4个角点分别表示为E₀(x_e0,y_e0)、E₁(x_e1,y_e1)、E₂(x_e2,y_e2)、E₃(x_e3,y_e3)，i∈[0,1,2]，j∈[1,2,3]，i≠j，i^*∈[0,1,2]，j^*∈[1,2,3]，i^*≠j^*，并且需要同时满足{i≠i^*或j≠j^*}，此时，上底边E_mE_n和下底边/>的中点分别为E′_mn(x_mn,y_mn)、即第二坐标为E′_mn(x_mn,y_mn)，第一坐标为/>其中

具体地，参照图5，以目标区域图像的左上角为坐标原点，以基于该坐标原点从左到右的方向为X轴正方向，以基于该坐标原点从上到下的方向为Y轴正方向，以Z轴符合“右手坐标系”，表示方式垂直于X轴、Y轴所在的平面朝里，构建图像坐标系，此时，4个角点分别表示为E₀(x_e0,y_e0)、E₁(x_e1,y_e1)、E₂(x_e2,y_e2)、E₃(x_e3,y_e3)，6条线段分别表示为E₀E₁、E₀E₂、E₀E₃、E₁E₂、E₁E₃、E₂E₃，上底边为E_mE_n，将下底边为第二坐标为E′_mn(x_mn,y_mn)，第一坐标为旋转方向所对应的射线为/>旋转方向与Y轴正方向的夹角为与Y轴正方向的夹角。

本发明实施例提供的物体位姿识别方法，通过上述方式，计算上底边和下底边的中点连线的向量旋转角度，进而确定待识别物体的旋转角度，相比3维旋转估计模型，没有用到复杂繁琐的3维标注，从而极大地减少了标注成本；无需依赖于3维点云成像，从而无需成本较高的感知元件，进而降低硬件成本；不会依赖于GPU，进而节省了计算资源。

基于上述任一实施例，该方法中，上述步骤140中，基于所述目标区域和所述相关目标区域确定所述待识别物体的空间位置，包括：

此处，目标点为目标区域中的任一点。在一实施例中，该目标点可以为目标区域的中心点。

需要说明的是，由于深度图像和彩色图像是经过配准后的图像，因此，可以基于目标区域的目标点，在相关目标区域中定位得到相关目标点。

此处，相关目标点为相关目标区域中的一个点，而相关目标区域为深度图像中的部分区域，基于此，可以通过深度图像的深度值，确定待识别物体与采集深度图像的设备的距离值。

基于上述实施例，若目标点为目标区域的中心点，则目标点为(x_c,y_c),其中即目标点的二维坐标为(x_c,y_c)。进一步地，z_c表示待识别物体与采集深度图像的设备的距离，基于此，空间位置为点C(x_c，y_c，z_c)。

在一些实施例中，可以将空间位置从图像坐标系转换成世界坐标系。例如，将图像坐标系下的空间位置C(x_c，y_c，z_c)，转换成世界坐标系下的空间位置W(x_w，y_w，z_w)。

本发明实施例提供的物体位姿识别方法，只需深度图像中的单一点就可以确定待识别物体的空间位置，无需依赖于3维点云成像，从而无需成本较高的感知元件，进而进一步降低硬件成本。

下面对本发明提供的物体位姿识别装置进行描述，下文描述的物体位姿识别装置与上文描述的物体位姿识别方法可相互对应参照。

图6是本发明实施例提供的物体位姿识别装置的结构示意图，如图6所示，该物体位姿识别装置，包括：

图像获取模块610，用于获取待识别物体的彩色图像和深度图像；

目标检测模块620，用于将所述彩色图像输入至目标检测模型，得到所述目标检测模型输出的目标区域，所述目标区域为所述待识别物体所处的矩形区域；

旋转计算模块630，用于基于所述目标区域对应的目标区域图像，对所述待识别物体进行朝向旋转计算，得到所述待识别物体的旋转角度，所述旋转角度用于表征所述待识别物体的空间旋转姿态；

位置确定模块640，用于在所述深度图像中定位与所述目标区域对应的相关目标区域，基于所述目标区域和所述相关目标区域确定所述待识别物体的空间位置；

位姿确定模块650，用于基于所述空间位置和所述旋转角度，确定所述待识别物体的空间位姿。

本发明实施例提供的物体位姿识别装置，获取待识别物体的彩色图像和深度图像；将彩色图像输入至目标检测模型，得到目标检测模型输出的目标区域，目标区域为待识别物体的矩形区域；基于目标区域对应的目标区域图像，对待识别物体进行朝向旋转计算，得到待识别物体的旋转角度，旋转角度用于表征待识别物体的空间旋转姿态；在深度图像中定位与目标区域对应的相关目标区域，基于目标区域和相关目标区域确定待识别物体的空间位置；基于空间位置和旋转角度，确定待识别物体的空间位姿。通过上述方式，目标检测模型输出的目标区域为矩形区域，因此，目标检测模型只需采用矩形框的标注方式进行样本标注，没有用到复杂繁琐的3维标注，从而极大地减少了标注成本；只需获取彩色图像和深度图像，即可进行物体位姿识别，无需依赖于3维点云成像，从而无需成本较高的感知元件，进而降低硬件成本；只需采用2维目标检测模型，即可进行物体位姿识别，不会依赖于GPU，进而节省了计算资源；同时，该2维目标检测模型较为成熟稳定，从而可以提高物体位姿识别的准确性。

基于上述任一实施例，该旋转计算模块630包括：

轮廓提取单元，用于对所述目标区域图像进行轮廓提取处理，得到外轮廓；

角点提取单元，用于对所述外轮廓进行角点提取处理，得到所述外轮廓的多个角点；

旋转计算单元，用于基于所述多个角点，对所述待识别物体进行朝向旋转计算，得到所述待识别物体的旋转角度。

基于上述任一实施例，该旋转计算单元还用于：

将所述多个角点进行两两连接，得到多条线段；

基于所述多条线段，确定上底边和下底边；基于所述上底边和所述下底边，确定所述待识别物体的旋转角度。

基于上述任一实施例，所述多个角点包括4个角点，该旋转计算单元还用于：

将所述最小夹角对应的两线段确定为上底边和下底边。

基于上述任一实施例，所述多个角点包括3个角点，该旋转计算单元还用于：

基于上述任一实施例，所述上底边的边长大于所述下底边的边长，该旋转计算单元还用于：

基于上述任一实施例，该位置确定模块640包括：

目标选取单元，用于从所述目标区域中选取目标点，在所述相关目标区域中确定出所述目标点对应的相关目标点；

距离确定单元，用于基于所述相关目标点，确定所述待识别物体与采集所述深度图像的设备的距离值；

位置确定单元，用于基于所述目标点的二维坐标和所述距离值，确定所述待识别物体的空间位置。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行物体位姿识别方法，该方法包括：获取待识别物体的彩色图像和深度图像；将所述彩色图像输入至目标检测模型，得到所述目标检测模型输出的目标区域，所述目标区域为所述待识别物体所处的矩形区域；基于所述目标区域对应的目标区域图像，对所述待识别物体进行朝向旋转计算，得到所述待识别物体的旋转角度，所述旋转角度用于表征所述待识别物体的空间旋转姿态；在所述深度图像中定位与所述目标区域对应的相关目标区域，基于所述目标区域和所述相关目标区域确定所述待识别物体的空间位置；基于所述空间位置和所述旋转角度，确定所述待识别物体的空间位姿。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的物体位姿识别方法，该方法包括：获取待识别物体的彩色图像和深度图像；将所述彩色图像输入至目标检测模型，得到所述目标检测模型输出的目标区域，所述目标区域为所述待识别物体所处的矩形区域；基于所述目标区域对应的目标区域图像，对所述待识别物体进行朝向旋转计算，得到所述待识别物体的旋转角度，所述旋转角度用于表征所述待识别物体的空间旋转姿态；在所述深度图像中定位与所述目标区域对应的相关目标区域，基于所述目标区域和所述相关目标区域确定所述待识别物体的空间位置；基于所述空间位置和所述旋转角度，确定所述待识别物体的空间位姿。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的物体位姿识别方法，该方法包括：获取待识别物体的彩色图像和深度图像；将所述彩色图像输入至目标检测模型，得到所述目标检测模型输出的目标区域，所述目标区域为所述待识别物体所处的矩形区域；基于所述目标区域对应的目标区域图像，对所述待识别物体进行朝向旋转计算，得到所述待识别物体的旋转角度，所述旋转角度用于表征所述待识别物体的空间旋转姿态；在所述深度图像中定位与所述目标区域对应的相关目标区域，基于所述目标区域和所述相关目标区域确定所述待识别物体的空间位置；基于所述空间位置和所述旋转角度，确定所述待识别物体的空间位姿。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上实施方式仅用于说明本发明，而非对本发明的限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行各种组合、修改或者等同替换，都不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围中。

Claims

1.一种物体位姿识别方法，其特征在于，包括：

获取待识别物体的彩色图像和深度图像，所述待识别物体为梯形的物体、梯形变体结构的物体或三角形的物体中的一种；

基于所述空间位置和所述旋转角度，确定所述待识别物体的空间位姿；

所述基于所述目标区域和所述相关目标区域确定所述待识别物体的空间位置，包括：

基于所述目标点的二维坐标和所述距离值，确定所述待识别物体的空间位置；

所述基于所述目标区域对应的目标区域图像，对所述待识别物体进行朝向旋转计算，得到所述待识别物体的旋转角度，包括：

对所述目标区域图像进行轮廓提取处理，得到外轮廓；

将所述多个角点进行两两连接，得到多条线段；

基于所述多条线段，确定上底边和下底边；

基于所述上底边和所述下底边的垂直射线，确定所述待识别物体的旋转角度，所述垂直射线的端点为所述下底边的任一点，所述垂直射线的方向由所述下底边的任一点指向所述上底边，或者，所述垂直射线的端点为所述上底边的任一点，所述垂直射线的方向由所述上底边的任一点指向所述下底边。

2.根据权利要求1所述的物体位姿识别方法，其特征在于，所述多个角点包括4个角点，所述基于所述多条线段，确定上底边和下底边，包括：

将所述最小夹角对应的两线段确定为上底边和下底边。

3.根据权利要求1所述的物体位姿识别方法，其特征在于，所述多个角点包括3个角点，所述基于所述多条线段，确定上底边和下底边，包括：

4.根据权利要求1所述的物体位姿识别方法，其特征在于，所述上底边的边长大于所述下底边的边长，所述基于所述上底边和所述下底边的垂直射线，确定所述待识别物体的旋转角度，包括：

基于所述第一坐标和所述第二坐标确定所述上底边和所述下底边的垂直射线，基于所述垂直射线确定所述待识别物体的旋转方向，所述旋转方向为所述第一坐标指向所述第二坐标的方向；

5.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述物体位姿识别方法。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述物体位姿识别方法。