CN116912512A

CN116912512A - 一种物体6d姿态估计方法、装置、设备及存储介质

Info

Publication number: CN116912512A
Application number: CN202310864222.7A
Authority: CN
Inventors: 谢雪梅; 骆佳凯; 李旭阳; 于明轩; 石光明
Original assignee: Pazhou Laboratory Huangpu; Guangzhou Institute of Technology of Xidian University
Current assignee: Pazhou Laboratory Huangpu; Guangzhou Institute of Technology of Xidian University
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-10-20

Abstract

本发明公开了一种物体6D姿态估计方法、装置、设备及存储介质，通过将待检测图像中的目标物体根据空间结构拆解为基本几何体部件的组合，得到简化部件模型的目标图像；采用预先训练的部件检测器获取所述简化部件模型的部件检测框，将所述部件检测框间的相对几何关系构建成节点特征；采用预先训练得到的图神经网络输出所述部件检测框的邻接矩阵；将所述邻接矩阵和所述节点特征组合为结构特征，采用预设的姿态预测头输出所述结构特征对应的6D姿态。无需预先获取目标物体的三维模型，高效、低成本地实现物体6D姿态估计。

Description

一种物体6D姿态估计方法、装置、设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种物体6D姿态估计方法、装置、设备及存储介质。

背景技术

6D姿态估计任务是计算机视觉领域的一个重要任务，其目标是从图像或视频中准确估计出三维物体的姿态信息。

现有的6D姿态估计方法通常需要预先获取物体的精细CAD模型来描述物体的形状和结构，即预先确定目标物体的三维模型，通过目标检测或语义分割等技术，从图像中提取出物体的二维边界或像素掩码信息。然后将物体模型与提取的图像信息进行匹配，以此推断出物体在三维空间中的6D姿态。

但是现有的6D姿态估计方法需要预先获取目标物体的三维模型，获取三维模型的时间与经济成本较高，现有的6D姿态估计方法十分耗时，并且预测效率低。

发明内容

为解决上述技术问题，本发明提供一种物体6D姿态估计方法、装置、设备及存储介质，无需预先获取目标物体的三维模型，高效、低成本地实现物体6D姿态估计。

本发明实施例提供一种物体6D姿态估计方法，所述方法包括：

将待检测图像中的目标物体根据空间结构拆解为基本几何体部件的组合，得到简化部件模型的目标图像；

采用预先训练的部件检测器获取所述简化部件模型的部件检测框，将所述部件检测框间的相对几何关系构建成节点特征；

采用预先训练得到的图神经网络输出所述部件检测框的邻接矩阵；

将所述邻接矩阵和所述节点特征组合为结构特征，采用预设的姿态预测头输出所述结构特征对应的6D姿态。

优选地，所述部件检测器为预先采用旋转框目标检测器训练得到；

所述部件检测框包括所述简化部件模型的各个部件在二维平面上投影的最小外接矩形框。

作为一种优选方案，所述将所述部件检测框间的相对几何关系构建成节点特征，具体包括：

采用节点表示所述部件检测框中的矩形框，采用不同节点构成的边表示所述部件检测框中各个矩形框之间的相对几何关系；

采用全连接网络将边特征编码成一个高维向量，得到不同的边特征；

聚合所有与节点相连的边特征得到该节点的节点特征。

优选地，所述节点特征为：

node_A＝f_node(edge_A,B,edge_A,C,edge_A,D,G,W)；

其中，edge_A,B表示节点A与其相连的节点B构成的边特征，edge_A,C表示节点A与其相连的节点C构成的边特征，edge_A,D表示节点A与其相连的节点D构成的边特征，G为节点A的邻接矩阵，W为节点A的网络参数，edge_A,B＝f_edge(x_A-x_B,y_A-y_B,w_A-w_B,h_A-h_B,θ_A-θ_B,W_A,B)，节点i的几何特征为(x_i,y_i,w_i,h_i,θ_i)，x_i和y_i为节点i表示的矩形框的二维坐标值，w_i和h_i分别为节点i表示的矩形框的长和宽，θ_i为节点i表示的矩形框的旋转角，W_A,B为全连接网络的参数，i＝A、B、C、D。

作为一种优选方案，所述邻接矩阵包括所述简化部件模型中不同节点表示的部件与边之间的结构关系的嵌入表示。

优选地，所述图神经网络的损失函数为：

Loss＝∑BCE(G_pred,G_gt)；

其中，Loss为损失值，BCE(·)为二值交叉熵损失函数，G_pred为网络预测的邻接矩阵，G_gt为监督训练的邻接矩阵真值。

作为一种优选方案，所述姿态预测头的损失函数为：

Loss＝αL_rotat+βL_trans；

其中，Loss为损失值，α和β为权重超参数，L_rotat为角度偏差损失，L_trans为距离偏差损失，R_pred为网络预测的姿态角计算出的旋转矩阵，R_gt为真实姿态角的旋转矩阵，L_trans＝||t_gt-t_pred||₂ ²，t_gt为真实坐标位置，t_pred为预测的坐标位置。

本发明实施例还提供一种物体6D姿态估计装置，所述装置包括：

简化模块，用于将待检测图像中的目标物体根据空间结构拆解为基本几何体部件的组合，得到简化部件模型的目标图像；

节点特征构建模块，用于采用预先训练的部件检测器获取所述简化部件模型的部件检测框，将所述部件检测框间的相对几何关系构建成节点特征；

邻接矩阵计算模块，用于采用预先训练得到的图神经网络输出所述部件检测框的邻接矩阵；

姿态估计模块，用于将所述邻接矩阵和所述节点特征组合为结构特征，采用预设的姿态预测头输出所述结构特征对应的6D姿态。

优选地，所述姿态估计模块具体用于：

聚合所有与节点相连的边特征得到该节点的节点特征。

优选地，所述节点特征为：

node_A＝f_node(edge_A,B,edge_A,C,edge_A,D,G,W)；

优选地，所述图神经网络的损失函数为：

Loss＝∑BCE(G_pred,G_gt)；

作为一种优选方案，所述姿态预测头的损失函数为：

Loss＝αL_rotat+βL_trans；

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例中任意一项所述的物体6D姿态估计方法。

本发明实施例还提供一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述实施例中任意一项所述的物体6D姿态估计方法。

本发明提供的一种物体6D姿态估计方法、装置、设备及存储介质，通过将待检测图像中的目标物体根据空间结构拆解为基本几何体部件的组合，得到简化部件模型的目标图像；采用预先训练的部件检测器获取所述简化部件模型的部件检测框，将所述部件检测框间的相对几何关系构建成节点特征；采用预先训练得到的图神经网络输出所述部件检测框的邻接矩阵；将所述邻接矩阵和所述节点特征组合为结构特征，采用预设的姿态预测头输出所述结构特征对应的6D姿态。无需预先获取目标物体的三维模型，高效、低成本地实现物体6D姿态估计。

附图说明

图1是本发明实施例提供的一种物体6D姿态估计方法的流程示意图；

图2是本发明实施例提供的简化部件模型的结构示意图；

图3是本发明实施例提供的物体6D姿态估计方法的原理示意图；

图4是本发明实施例提供的部件检测框的示意图；

图5是本发明实施例提供的节点特征构建过程的流程示意图；

图6是本发明实施例提供的一种物体6D姿态估计装置的结构示意图；

图7是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种物体6D姿态估计方法，参见图1，是本发明实施例提供的一种物体6D姿态估计方法的流程示意图，所述方法步骤S1～S4：

S1，将待检测图像中的目标物体根据空间结构拆解为基本几何体部件的组合，得到简化部件模型的目标图像；

S2，采用预先训练的部件检测器获取所述目标图像的部件检测框，将所述部件检测框间的相对几何关系构建成节点特征；

S3，采用预先训练得到的图神经网络输出所述部件检测框的邻接矩阵；

S4，将所述邻接矩阵和所述节点特征组合为结构特征，采用预设的姿态预测头输出所述结构特征对应的6D姿态。

在本实施例具体实施时，进行物体6D姿态估计时，将目标物体根据空间结构特点拆解为部件的组合，如马克杯分为了杯身、杯口和杯把手，三者是马克杯这一类别物体都共有的部件，且相互间的几何结构关系相似，同理泵瓶的泵头、瓶颈和瓶身。参见图2，是本发明实施例提供的简化部件模型的结构示意图。拆分后将部件简化表达为圆柱、棱柱等可以用简洁的数学方程式或定义来描述的基本几何体，物体的模型按矩阵的形式存储。将待检测图像中的目标物体根据空间结构拆解为基本几何体部件的组合，得到简化部件模型的目标图像。

参见图3，是本发明实施例提供的物体6D姿态估计方法的原理示意图；

将目标图像输入到部件检测器中，利用部件检测器获取图像中所有的部件的矩形框构成部件检测框；

获取图片中目标物体的所有部件框信息，将所述部件检测框间的相对几何关系构建成节点特征；

经过预训练的参数固定的图神经网络输出所述部件检测框的邻接矩阵；

根据邻接矩阵将部件检测框的节点特征进行匹配，由节点特征组合成物体的结构特征，最后经由一个预测头输出各个实例物体的6D姿态。

物体的6D姿态包括物体的六个自由度，即三维旋转姿态(α,β,γ)和三维位置坐标(x,y,z)。

本实施例通过将目标物体拆解成部件并使用简化部件模型表达部件结构，利用图神经网络学习物体部件间的结构关系，基于部件间具有的结构特征，利用图神经网络消息传递的特点，将部件作为节点来推理物体的6D姿态。与现有技术相比，本申请提供的6D姿态估计方法无需预先获取目标物体的三维模型，6D姿态估计更加效率更高，成本更低。

在本发明提供的又一实施例中，所述部件检测器为预先采用旋转框目标检测器训练得到；

在本实施例具体实施时，参见图4，是本发明实施例提供的部件检测框的示意图，利用现有的旋转框目标检测器训练部件框检测器确定部件检测框过程具体为，将所述简化部件模型各个简化部件分别在二维平面上投影，图4中泵瓶的三个简化部件在垂直顶面上的投影为两个矩形和一个圆形，确定不同部件投影的最小外接矩形框，即可得到三个对应的最小外接矩形框，将得到的三个最小外接矩形框作为部件检测框。

将三维物体按结构特点区分部件，并用简化的模型进行表达，将简化部件的投影的最小外接矩形作为检测框，进一步简化模型，减少数据处理量，提高6D姿态估计方法的效率。

在本发明提供的又一实施例中，所述将所述部件检测框间的相对几何关系构建成节点特征，具体包括：

聚合所有与节点相连的边特征得到该节点的节点特征。

在本实施例具体实施时，参见图5，是本发明实施例提供的节点特征构建过程的流程示意图；

对于所述简化部件模型的部件检测框，将检测框间的关系构建成图，采用节点表示所述部件检测框中的矩形框，采用不同节点构成的边表示所述部件检测框中各个矩形框之间的相对几何关系，在图5中，每一个节点都代表一个部件框，边代表部件框与部件框之间的相对几何关系，利用全连接网络将边特征编码成一个高维向量，得到不同的边特征；

节点特征通过聚合与该节点相连的所有边特征得到。

在本发明提供的又一实施例中，所述节点特征为：

node_A＝f_node(edge_A,B,edge_A,C,edge_A,D,G,W)；

在本发明提供的又一实施例中，采用节点代表部件的矩形框，采用边代表部件的矩形框之间的相对几何关系，利用全连接网络将边特征编码成一个高维向量，得到不同的边特征，部件框的几何特征为(x,y,w,h,θ)，x_i和y_i为节点i表示的矩形框的二维坐标值，w_i和h_i分别为节点i表示的矩形框的长和宽，θ_i为节点i表示的矩形框的旋转角，则边特征edge_A,B为：

edge_A,B＝f_edge(x_A-x_B,y_A-y_B,w_A-w_B,h_A-h_B,θ_A-θ_B,W_A,B)；

其中，W_A,B为全连接网络的参数，表示不同目标物体的部件组合使用不同的网络参数，相当于融合了部件类别信息。

节点特征通过聚合与该节点相连的所有边特征得到，设与节点A相连的有节点包括B、C和D，则节点特征node_A为：

node_A＝f_node(edge_A,B,edge_A,C,edge_A,D,G,W)；

其中，G代表邻接矩阵，表示节点间的连接关系，初始化为全1矩阵，表示所有部件初始相互连接；W为网络参数。即节点特征包含的信息是它与周边所有与之相连节点的相对几何关系的加权和。

在本发明提供的又一实施例中，所述邻接矩阵包括所述简化部件模型中不同节点表示的部件与边之间的结构关系的嵌入表示。

在本实施例具体实施时，经过预训练的参数固定的图神经网络模块生成部件框节点的嵌入表达，即生成的邻接矩阵包括所述简化部件模型中不同节点表示的部件与边之间的结构关系的嵌入表示。

根据邻接矩阵将部件框进行匹配，由节点特征组合成物体的结构特征，最后经由一个预测头输出各个实例物体的6D姿态。

在本发明提供的又一实施例中，所述图神经网络的损失函数为：

Loss＝∑BCe(G_pred,G_gt)；

在本实施例具体实施时，进行图神经网络训练时，网络的输入为部件检测器输出的部件框，输出为邻接矩阵G，损失函数采用二值交叉熵损失，损失函数为：Loss＝∑BCE(G_pred,G_gt)；

其中，Loss为损失值，BCE(·)为二值交叉熵损失函数，G_pred为网络预测的邻接矩阵，G_gt为监督训练的邻接矩阵真值，邻接矩阵是一个二维数组，数组中的每一个值代表两个部件间的连接关系。

该模块在整体姿态估计流程中用于生成能够反应物体部件间结构关系的节点与边的嵌入表示。

在本发明提供的又一实施例中，所述姿态预测头的损失函数为：

Loss＝αL_rotat+βL_trans；

在本实施例具体实施时，使用角度差和距离差来构建6D姿态估计的姿态预测头的损失函数，损失函数计算方式如下：

角度偏差损失为：

距离偏差损失为：

L_trans＝||t_gt-t_pred||₂ ²；

其中，L_rotat为角度偏差损失，L_trans为距离偏差损失，R_pred为网络的预测的姿态角计算出的旋转矩阵，R_gt为真实姿态角的旋转矩阵，t_pred为预测的坐标位置，t_gt为真实坐标位置。

计算得到所述姿态预测头的损失函数为：

Loss＝αL_rotat+βL_trans；

其中，α和β为损失函数计算的权重超参数，可根据实际需求调整。

本发明另一实施例提供一种物体6D姿态估计装置，参见图6，是本发明实施例提供的一种物体6D姿态估计装置的结构示意图，所述装置包括：

需要说明的是，本发明实施例提供的一种物体6D姿态估计装置用于执行上述实施例的一种物体6D姿态估计方法的所有流程步骤，两者的工作原理和有益效果一一对应，因而不再赘述。

参见图7，是本发明实施例提供的一种终端设备的结构示意图。该实施例的终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如物体6D姿态估计程序。所述处理器执行所述计算机程序时实现上述各个物体6D姿态估计方法实施例中的步骤，例如图1所示的步骤S1～S4。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。例如，所述计算机程序可以被分割成代码上传模块、软件打包模块、软件存储模块、设备连接模块和设备测试模块，各模块具体功能再次不作赘述。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种物体6D姿态估计方法，其特征在于，所述方法包括：

2.如权利要求1所述的物体6D姿态估计方法，其特征在于，所述部件检测器为预先采用旋转框目标检测器训练得到；

3.如权利要求1所述的物体6D姿态估计方法，其特征在于，所述将所述部件检测框间的相对几何关系构建成节点特征，具体包括：

聚合所有与节点相连的边特征得到该节点的节点特征。

4.如权利要求1所述的物体6D姿态估计方法，其特征在于，所述节点特征为：

node_A＝f_node(edge_A，B，edge_A，C，edge_A，D，G，W)；

其中，edge_A，B表示节点A与其相连的节点B构成的边特征，edge_A，C表示节点A与其相连的节点C构成的边特征，edge_A,D表示节点A与其相连的节点D构成的边特征，G为节点A的邻接矩阵，甲为节点A的网络参数，edge_A,B＝f_edge(x_A-x_B，y_A-y_B，w_A-w_B，h_A-h_B，θ_A-θ_B，W_A，B)，节点i的几何特征为(x_i，y_i，w_i，h_i，θ_i)，x_i和y_i为节点i表示的矩形框的二维坐标值，w_i和h_i分别为节点i表示的矩形框的长和宽，θ_i为节点i表示的矩形框的旋转角，W_A，B为全连接网络的参数，i＝A、B、C、D。

5.如权利要求1所述的物体6D姿态估计方法，其特征在于，所述邻接矩阵包括所述简化部件模型中不同节点表示的部件与边之间的结构关系的嵌入表示。

6.如权利要求1所述的物体6D姿态估计方法，其特征在于，所述图神经网络的损失函数为：

Loss＝∑BCE(G_pred，G_gt)；

7.如权利要求1所述的物体6D姿态估计方法，其特征在于，所述姿态预测头的损失函数为：

Loss＝αL_rotat+βL_trans；

8.一种物体6D姿态估计装置，其特征在于，所述装置包括：

9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的物体6D姿态估计方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的物体6D姿态估计方法。