CN115420277B

CN115420277B - 一种物体位姿测量方法及电子设备

Info

Publication number: CN115420277B
Application number: CN202211052912.4A
Authority: CN
Inventors: 魏振忠; 冯广堃; 刘明坤
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2024-04-12
Anticipated expiration: 2042-08-31
Also published as: CN115420277A

Abstract

本发明提供了一种物体位姿测量方法及电子设备，涉及位姿测量技术领域，方法包括获取物体位姿图像；将物体位姿图像输入到目标局部图像提取模块，得到待测目标区域；根据待测目标区域裁剪物体位姿图像，得到目标局部图像；将目标局部图像输入到法矢量特征预测模块，得到多种法矢量特征；将目标局部图像的坐标数据和多种位姿图像特征均输入到位姿回归模型中，得到物体的异中心化姿态和尺度不相关位置；本发明通过构建目标局部图像提取模块、法矢量特征预测模块和位姿回归模型，提取物体位姿单幅图像的法矢量特征求解位姿，能够提高位姿的确定精度。

Description

一种物体位姿测量方法及电子设备

技术领域

本发明涉及位姿测量技术领域，特别是涉及一种物体位姿测量方法及电子设备。

背景技术

近年来，基于神经网络的物体位姿单幅图像视觉测量方法由于特征提取精度高、鲁棒性强的优势取得了较大成功。其利用神经网络从大量标注数据中学习并提取位姿特征，进而求解目标物体位姿参数。其中位姿特征的设计是关键，该特征需要准确地表征物体位姿信息，具有高辨识度、易于提取，以及方便高精度快速位姿参数解算的特点。现有的方法中，使用稠密2D(二维)-3D(三维)点匹配特征的相关方法精度最高。然而，利用2D-3D点匹配特征求解位姿参数时难以避免姿态、位置求解耦合问题，产生的位置误差会降低姿态精度。物体位姿单幅图像视觉测量的另一个关键是位姿参数求解需要做到精度高、速度快，具有一定抗特征提取误差影响的能力。现有的方法中，使用神经网络直接从位姿特征中回归位姿参数，并与位姿特征提取网络一并进行端到端训练的方法，使用稠密2D-3D点匹配特征求解位姿参数的过程不可微分，导致回归神经网络学习困难，姿态求解精度进一步降低。于是我们设计了由静态和异中心化动态法矢量表示的位姿特征将姿态和位置彻底解耦，利用两个卷积神经网络分支分别回归姿态和位置参数，借助法矢量特征求解位姿可微的特性，显著提升姿态精度。

发明内容

本发明的目的是提供一种物体位姿测量方法及电子设备，通过提取物体位姿单幅图像的法矢量特征求解位姿，提高了位姿的确定精度。

为实现上述目的，本发明提供了如下方案：

一种物体位姿测量方法，包括：

获取物体位姿图像；

将所述物体位姿图像输入到目标局部图像提取模块，得到待测目标区域；所述目标局部图像提取模块是利用物体位姿标注历史图像，对YOLOV3神经网络进行训练得到的；

根据所述待测目标区域裁剪所述物体位姿图像，得到目标局部图像；

将所述目标局部图像输入到法矢量特征预测模块，得到多种法矢量特征；所述法矢量特征包括：静态法矢量场、异中心化动态法矢量场、区域注意力特征和分割掩码；所述法矢量特征预测模块包括训练后的轻量级ResNet-34骨干网络和训练后的第一卷积神经网络；所述训练后的轻量级ResNet-34骨干网络和训练后的第一卷积神经网络是通过目标局部历史图像，以及目标局部历史图像对应的多种法矢量特征进行训练得到的；

将目标局部图像的坐标数据和多种所述位姿图像特征均输入到位姿回归模型中，得到物体的异中心化姿态和尺度不相关位置；所述位姿回归模型是根据目标局部历史图像的坐标数据和多种所述位姿图像特征，对第二卷积神经网络进行训练得到的。

可选的，在所述获取物体位姿图像之前，还包括：

获取多张物体位姿历史图像；

分别对每张物体位姿历史图像中的目标区域均进行标注，得到多张物体位姿标注历史图像；

以多张物体位姿历史图像为输入，以多张物体位姿标注历史图像上的历史目标区域为输出，对YOLOV3神经网络进行训练，得到所述目标局部图像提取模块。

可选的，所述根据所述待测目标区域裁剪所述物体位姿图像，得到目标局部图像，包括：

以所述待测目标区域的中心为中心，以待测目标区域对应矩形框长度的预设倍数为长，以待测目标区域对应矩形框高度的预设倍数为高，在所述物体位姿图像上截取矩形区域为目标局部初始图像；

根据目标局部图像标准尺寸和目标局部初始图像的实际尺寸，确定缩放因子；

根据所述缩放因子对所述目标局部初始图像进行缩放处理，得到目标局部图像。

可选的，所述将所述目标局部图像输入到法矢量特征预测模块，得到多种法矢量特征，包括：

将所述目标局部图像输入到训练后的轻量级ResNet-34骨干网络，得到深度语义特征；

将所述深度语义特征输入到训练后的第一卷积神经网络中，得到多种法矢量特征。

可选的，所述位姿回归模型包括姿态回归神经网络和位置回归神经网络；所述姿态回归神经网络是根据目标局部历史图像的多种所述位姿图像特征，对第三卷积神经网络进行训练得到的；所述位置回归神经网络是根据目标局部历史图像的坐标数据和多种所述位姿图像特征，对第四卷积神经网络进行训练得到的；所述第二卷积神经网络包括所述第三卷积神经网络和所述第四卷积神经网络。

可选的，所述将目标局部图像的坐标数据和多种所述位姿图像特征均输入到位姿回归模型中，得到物体的异中心化姿态和尺度不相关位置，包括：

将目标局部图像的多种所述位姿图像特征均输入到姿态回归神经网络，得到物体的异中心化姿态；

将目标局部图像的坐标数据和多种所述位姿图像特征均输入到位置回归神经网络，得到物体的尺度不相关位置。

可选的，在所述获取物体位姿图像之前，还包括：

根据所述历史目标区域裁剪所述物体位姿历史图像，得到多张目标局部历史图像，并确定每张目标局部历史图像的缩放因子；

确定每个目标局部历史图像对应物体的历史异中心化姿态和历史尺度不相关位置；

确定迭代次数m＝1；

以训练前的轻量级ResNet-34骨干网络为第0次迭代时的轻量级ResNet-34骨干网络；

以训练前的第一卷积神经网络为第0次迭代时的第一卷积神经网络；

以训练前的第三卷积神经网络为第0次迭代时的第三卷积神经网络；

以训练前的第四卷积神经网络为第0次迭代时的第四卷积神经网络；

将多张所述目标局部历史图像输入到m-1次迭代时的轻量级ResNet-34骨干网络，得到m次迭代时的深度语义特征和m次迭代时的轻量级ResNet-34骨干网络；

将m次迭代时深度语义特征输入到m-1次迭代时第一卷积神经网络中，得到m次迭代时多种初始历史法矢量特征和m次迭代时的第一卷积神经网络；

以目标局部历史图像对应的多种初始历史法矢量特征为输入，以历史异中心化姿态为输出，对m-1次迭代时的第三卷积神经网络进行训练，得到m次迭代时的第三卷积神经网络；

以目标局部历史图像对应的坐标数据和多种初始历史法矢量特征为输入，以历史尺度不相关位置为输出，对第四卷积神经网络进行训练，得到m次迭代时的第四卷积神经网络；所述目标局部历史图像对应的坐标数据包括目标局部历史图像的缩放因子；

计算m次迭代时的轻量级ResNet-34骨干网络、m次迭代时的第一卷积神经网络、m次迭代时的第三卷积神经网络和m次迭代时的第四卷积神经网络的总损失函数；

判断所述总损失函数是否小于损失阈值得到判断结果；

若所述判断结果为否，则令迭代次数m的数值增加1；

更新m次迭代时的轻量级ResNet-34骨干网络、m次迭代时的第一卷积神经网络、m次迭代时的第三卷积神经网络和m次迭代时的第四卷积神经网络的参数，并返回步骤“将多张所述目标局部历史图像输入到m-1次迭代时的轻量级ResNet-34骨干网络，得到m次迭代时的深度语义特征和m次迭代时的轻量级ResNet-34骨干网络”；

若所述判断结果为是，则确定m次迭代时的轻量级ResNet-34骨干网络为训练后的轻量级ResNet-34骨干网络；

确定m次迭代时的第一卷积神经网络为训练后的第一卷积神经网络；

确定m次迭代时的第三卷积神经网络为姿态回归神经网络；

确定m次迭代时的第四卷积神经网络为位置回归神经网络。

可选的，所述总损失函数为：L＝α₁l_normal+α₂l_mask+α₃l_SRA+α₄l_R+α₅l_t+β₁l_geo+β₂l_ch；

其中，L表示总损失函数；l_normal表示法矢量场预测损失；l_mask表示分割掩码损失；l_SRA表示区域注意力特征损失；l_R表示姿态回归损失；l_t表示位置回归损失；l_geo表示法矢量场一致性损失；l_ch表示姿态法矢量一致性损失；α₁、α₂、α₃、α₄、α₅、β₁和β₂均为权重。

一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述提供的一种物体位姿测量方法。

所述存储器为可读存储介质。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种物体位姿测量方法及电子设备，方法包括获取物体位姿图像；将物体位姿图像输入到目标局部图像提取模块，得到待测目标区域；根据待测目标区域裁剪物体位姿图像，得到目标局部图像；将目标局部图像输入到法矢量特征预测模块，得到多种法矢量特征；将目标局部图像的坐标数据和多种位姿图像特征均输入到位姿回归模型中，得到物体的异中心化姿态和尺度不相关位置；本发明通过构建目标局部图像提取模块、法矢量特征预测模块和位姿回归模型，提取物体位姿单幅图像的法矢量特征求解位姿，能够提高位姿的确定精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中一种物体位姿测量方法流程图；

图2为本发明实施例1中位姿图像特征提取过程示意图；

图3为本发明实施例1中位姿参数回归过程示意图；

图4为本发明实施例1中在线位姿测量流程图；

图5为本发明实施例1中位姿测量算法效果第一示例图；

图6为本发明实施例1中位姿测量算法效果第二示例图；

图7为本发明实施例2中位姿测量装置示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

如图1所示，本实施例提供了一种物体位姿测量方法，包括：

步骤101：获取物体位姿图像。

步骤102：将物体位姿图像输入到目标局部图像提取模块，得到待测目标区域；目标局部图像提取模块是利用物体位姿标注历史图像，对YOLOV3神经网络进行训练得到的。

步骤103：根据待测目标区域裁剪物体位姿图像，得到目标局部图像。

步骤1031：以待测目标区域的中心为中心，以待测目标区域对应矩形框长度的预设倍数为长，以待测目标区域对应矩形框高度的预设倍数为高，在物体位姿图像上截取矩形区域为目标局部初始图像。

步骤1032：根据目标局部图像标准尺寸和目标局部初始图像的实际尺寸，确定缩放因子。

步骤1033：根据缩放因子对目标局部初始图像进行缩放处理，得到目标局部图像。

步骤104：将目标局部图像输入到法矢量特征预测模块，得到多种法矢量特征；法矢量特征包括：静态法矢量场、异中心化动态法矢量场、区域注意力特征和分割掩码；法矢量特征预测模块包括训练后的轻量级ResNet-34骨干网络和训练后的第一卷积神经网络；训练后的轻量级ResNet-34骨干网络和训练后的第一卷积神经网络是通过目标局部历史图像，以及目标局部历史图像对应的多种法矢量特征进行训练得到的。

步骤1041：将目标局部图像输入到训练后的轻量级ResNet-34骨干网络，得到深度语义特征。

步骤1042：将深度语义特征输入到训练后的第一卷积神经网络中，得到多种法矢量特征。

步骤105：将目标局部图像的坐标数据和多种位姿图像特征均输入到位姿回归模型中，得到物体的异中心化姿态和尺度不相关位置；位姿回归模型是根据目标局部历史图像的坐标数据和多种位姿图像特征，对第二卷积神经网络进行训练得到的。

具体的，位姿回归模型包括姿态回归神经网络和位置回归神经网络；姿态回归神经网络是根据目标局部历史图像的多种位姿图像特征，对第三卷积神经网络进行训练得到的；位置回归神经网络是根据目标局部历史图像的坐标数据和多种位姿图像特征，对第四卷积神经网络进行训练得到的；第二卷积神经网络包括第三卷积神经网络和第四卷积神经网络。

步骤1051：将目标局部图像的多种位姿图像特征均输入到姿态回归神经网络，得到物体的异中心化姿态。

步骤1052：将目标局部图像的坐标数据和多种位姿图像特征均输入到位置回归神经网络，得到物体的尺度不相关位置。

在步骤101之前，还包括：

步骤1061：训练目标局部图像提取模块。

步骤1062：获取多张物体位姿历史图像。

步骤1063：分别对每张物体位姿历史图像中的目标区域均进行标注，得到多张物体位姿标注历史图像。

步骤1064：以多张物体位姿历史图像为输入，以多张物体位姿标注历史图像上的历史目标区域为输出，对YOLOV3神经网络进行训练，得到目标局部图像提取模块。

在步骤101之前，还包括：

步骤107：联合训练轻量级ResNet-34骨干网络、第一卷积神经网络、第三卷积神经网络和第四卷积神经网络。

步骤1071：根据历史目标区域裁剪物体位姿历史图像，得到多张目标局部历史图像，并确定每张目标局部历史图像的缩放因子。

步骤1072：确定每个目标局部历史图像对应物体的历史异中心化姿态和历史尺度不相关位置。

步骤1073：确定迭代次数m＝1。

步骤1074：以训练前的轻量级ResNet-34骨干网络为第0次迭代时的轻量级ResNet-34骨干网络。

步骤1075：以训练前的第一卷积神经网络为第0次迭代时的第一卷积神经网络。

步骤1076：以训练前的第三卷积神经网络为第0次迭代时的第三卷积神经网络。

步骤1077：以训练前的第四卷积神经网络为第0次迭代时的第四卷积神经网络。

步骤1078：将多张目标局部历史图像输入到m-1次迭代时的轻量级ResNet-34骨干网络，得到m次迭代时的深度语义特征和m次迭代时的轻量级ResNet-34骨干网络。

步骤1079：将m次迭代时深度语义特征输入到m-1次迭代时第一卷积神经网络中，得到m次迭代时多种初始历史法矢量特征和m次迭代时的第一卷积神经网络。

步骤10710：以目标局部历史图像对应的多种初始历史法矢量特征为输入，以历史异中心化姿态为输出，对m-1次迭代时的第三卷积神经网络进行训练，得到m次迭代时的第三卷积神经网络。

步骤10711：以目标局部历史图像对应的坐标数据和多种初始历史法矢量特征为输入，以历史尺度不相关位置为输出，对第四卷积神经网络进行训练，得到m次迭代时的第四卷积神经网络；目标局部历史图像对应的坐标数据包括目标局部历史图像的缩放因子。

步骤10712：计算m次迭代时的轻量级ResNet-34骨干网络、m次迭代时的第一卷积神经网络、m次迭代时的第三卷积神经网络和m次迭代时的第四卷积神经网络的总损失函数。

总损失函数为：L＝α₁l_normal+α₂l_mask+α₃l_SRA+α₄l_R+α₅l_t+β₁l_geo+β₂l_ch。

步骤10713：判断总损失函数是否小于损失阈值得到判断结果；若判断结果为否，则执行步骤10714；若判断结果为是，则执行步骤10716。

步骤10714：令迭代次数m的数值增加1。

步骤10715：更新m次迭代时的轻量级ResNet-34骨干网络、m次迭代时的第一卷积神经网络、m次迭代时的第三卷积神经网络和m次迭代时的第四卷积神经网络的参数，并返回步骤1078。

步骤10716：确定m次迭代时的轻量级ResNet-34骨干网络为训练后的轻量级ResNet-34骨干网络。

步骤10717：确定m次迭代时的第一卷积神经网络为训练后的第一卷积神经网络。

步骤10718：确定m次迭代时的第三卷积神经网络为姿态回归神经网络。

步骤10719：确定m次迭代时的第四卷积神经网络为位置回归神经网络。

具体的，本发明提供的一种物体位姿测量方法包括如下步骤：

步骤1：位姿特征提取

如图2所示，位姿特征提取包括目标局部图像提取模块101和法矢量特征预测模块102。

目标局部图像提取模块101采用轻量级快速YOLOV3检测器，经过针对性训练，提取输入图像中待测目标的检测框。根据检测框的位置和尺寸信息，以目标位置为中心选取1.5倍检测框大小的方形区域进行剪裁，剪裁后的图像放缩至256*256分辨率。本模块的作用是提取目标大致区域，减少背景无关因素的干扰。

法矢量特征预测模块102采用轻量级骨干网络ResNet-34，通过多阶段下采样从剪裁后的图像中提取尺寸为512*8*8的深度语义特征。随后通过三组卷积层上采样得到尺寸为64*64的共71通道几何特征，其中包含3通道静态法矢量场、3通道异中心化动态法矢量场、64通道区域注意力特征和单通道分割掩码。本模块的作用是从目标局部图像中准确提取位姿图像特征。

步骤2：位姿参数回归

如图3所示，位姿图像特征提取包括姿态回归神经网络103和位置回归神经网络104。

姿态回归神经网络103采用三层卷积神经网络，输入静态/异中心化动态法矢量场特征、区域注意力特征，输出尺寸为128*8*8的高层几何特征。随后使用三层全连接网络输出六维度异中心化姿态R_6d。

位置回归神经网络104同样采用三层卷积神经网络，输入静态/异中心化动态法矢量场特征、区域注意力特征和图像二维坐标编码，输出尺寸为128*8*8的高层几何特征。随后使用三层全连接网络输出3维度尺度不相关位置t_SITE。

步骤3：位姿参数处理

步骤3-(1)将位置回归神经网络104输出的尺度不相关位置参数t_SITE＝(Δc_x,Δc_y,Δz)转化为三自由度平移矢量t＝(t_x,t_y,y_z)，Δc_x,Δc_y,Δz分别表示尺度不相关位置参数在x轴方向、y轴方向和z轴方向的值；t_x,t_y,y_z分别表示尺度三自由度平移矢量在x轴方向、y轴方向和z轴方向的值：

其中，(b_x,b_y)为目标局部图像提取模块101输出的目标局部图像中心在原始图像中的坐标，H,W为目标局部图像放缩前尺寸，r为目标局部图像放缩比例系数。K为事先已知的相机内参矩阵，其中f_x,f_y为相机的像素焦距，u₀,v₀为主点坐标，s为相机倾斜因子。

步骤3-(2)将模块103所得的异中心化六维度姿态R_6d转化为3*3异中心化姿态R_allo：

其中，r₁,r₂分别为R_6d的前三个和后三个元素，r'₁,r'₂,r'₃为R_allo的三个列矢量，‖r₁‖表示r₁的矢量模。

步骤3-(3)根据位置输出计算异中心化姿态R_allo至同中心化姿态R_ego的视角校正矩阵R_rec，并进行校正：

R_ego＝R_rec ^TR_allo

其中，θ为校正的旋转角度，为校正的旋转轴对应的方向矢量，a_x,a_y,a_z为该矢量的三个分量，/>为由三个分量构成的斜对称阵。

步骤3-(4)最终，模型输出同中心化姿态R_ego和平移矢量t构成目标六自由度位姿参数。

步骤4：模型及数据集构建

步骤4-(1)上述网络模块101至104采用python语言，在PyTorch框架上实现。

步骤4-(2)在已经标注好的物体位姿公开训练数据集中，利用物体检测框标注制作YOLOV3检测器训练数据。

步骤4-(3)按照上述检测框将物体局部图像进行裁剪，裁剪的尺寸S为检测框横纵尺寸W,H中较大者的1.5倍，并进行范围为正负0.25倍检测框尺寸的均匀分布随机放缩。剪裁的位置以检测框标注中心为基准，随机添加范围为正负0.25倍检测框尺寸的均匀分布随机位移。剪裁后的图像进一步放缩至256*256，将两次放缩的比例相乘得到最终放缩比例系数/>

步骤4-(4)利用OpenGL渲染器，使用目标三维模型顶点法矢量数据、位姿参数标注信息和相机内参数据渲染原始训练图像场景中物体静态和同中心化动态法矢量场，生成上述两种法矢量场的标注。其中静态法矢量场为物体三维法矢量在模型坐标系下的表示，同中心化动态法矢量场为物体三维法矢量在相机坐标系下的表示。提取物体静态法矢量中非背景的区域，生成分割掩码标注。

步骤4-(5)利用OpenGL渲染器，使用目标三维模型点坐标信息、位姿参数标注信息和相机内参数据渲染原始训练场景中物体三维坐标点分布场。初始选取目标模型中心，而后贪婪选择剩余模型点中与此前已选点距离最远的点，构成除目标模型中心之外的64个关键点采样集合。计算三维坐标分布场中每个三维坐标与64个关键点的距离，选择距离最近者标记为此三维坐标所属的区域注意力块，生成区域注意力特征标注。

步骤4-(6)按照步骤4-(3)中的随机缩放和平移过程，对物体静态和同中心化动态法矢量场标注、区域注意力特征标注和分割掩码标注进行相同的放缩和平移操作，得到特征的局部特征标注，包括静态法矢量场局部标注特征同中心化动态法矢量场局部标注分割掩码局部标注/>区域注意力特征局部标注/>

步骤4-(7)根据位姿标注，计算步骤2中视角校正矩阵并将步骤4-(6)中同中心化动态法矢量场局部标注/>中的法矢量校正为/>得到异中心化动态法矢量场局部标注。

步骤4-(8)取物体姿态的旋转矩阵标注，使用步骤4-(7)中的视角校正矩阵将同中心化姿态旋转矩阵校正为异中心化姿态旋转矩阵将该旋转矩阵的前两列拼接得到物体六自由度位姿参数标注/>

步骤4-(9)取物体位置的平移矢量标注结合相机内参标注K计算物体中心图像坐标/>再根据步骤4-(3)中随机放缩比例系数/>裁剪的位置/>和裁剪的尺寸S，计算物体尺度不相关位置标注/>

步骤5：模型训练

步骤5-(1)目标局部图像提取模块101单独训练，利用步骤3中(2)制作的检测数据集，使用带动量调节的随机梯度下降法进行优化，每个周期训练15000组样本，共训练273个周期。

步骤5-(2)法矢量特征预测模块102、姿态回归神经网络103和位置回归神经网络104一起进行训练。训练损失函数为法矢量场预测损失l_normal、分割掩码损失l_mask、区域注意力特征损失l_SRA、姿态回归损失l_R、位置回归损失l_t、法矢量场一致性损失l_geo和姿态法矢量一致性损失l_ch的加权和：

L＝α₁l_normal+α₂l_mask+α₃l_SRA+α₄l_R+α₅l_t+β₁l_geo+β₂l_ch

其中，α_i,β_j为各损失项的权重，在训练过程中α₁＝α₂＝α₃＝α₄＝1，α₅＝2。在前70％的训练步骤中β₁＝β₂＝0，在后30％的训练步骤中β₁＝β₂＝1。各损失项具体定义为：

其中，N为物体分割区域内的像素数量，M为物体模型三维点数量，x_i为物体模型三维点，||·||₁为一范数，CrossEntropy(·)为交叉熵。

网络模型的更新采用学习率带热身训练策略的Ranger优化器，在60％的训练步骤后采用退火策略降低学习率，在Linemod等公开数据集上采用离线训练方式，每个周期训练15000组样本，共训练320个周期。

步骤6：在线位姿测量

在线位姿测量过程如图4所示。

首先加载步骤4中训练好的目标局部图像提取模块101、法矢量特征预测模块102、姿态回归神经网络103和位置回归神经网络104的模型参数，并保持不变。将输入图像送入到模块101中进行目标检测后放缩、剪裁目标局部图像，随后将其输入到模块102提取位姿图像特征。模块103和104以位姿图像特征为输入，分别直接回归异中心化姿态参数和尺度不相关位置参数。最后利用步骤3中的方法处理位姿参数得到最终输出。

具体的，Linemod数据集是Stefan Hinterstoisser博士在2011年国际计算机视觉大会(ICCV)上提出的评估物体六自由度位姿测量算法性能的数据集。其中包含15个通用物体，其中13个物体广泛应用于测试，每个物体均提供了三维扫描建模得到的三维网格模型。数据集包含15个场景，每个场景中包含8个以上物体，物体间存在相互遮挡，场景中背景复杂、视角多变，因此该数据集被广泛应用于物体位姿视觉测量方法的测试。该数据集使用平均三维重投影距离(ADD)作为综合指标来评估算法所得的六自由度位姿参数结果，对于存在旋转对称的物体使用针对旋转对称的平均三维重投影距离(ADDS)作为评价指标：

其中，为物体三维点集合，M为集合中点的数量。ADD(-S)是指对一般物体使用ADD指标，而对旋转对称物体使用ADDS指标。当ADD(-S)指标小于物体直径的10％时，认为方法成功测量物体位姿。

本方法的性能测试结果如表1所示，通过对比当前主流的单目位姿视觉测量方法，包括基于坐标的解耦位姿估计网络(CDPN)、像素投票位姿估计网络(PVNet)、混合特征位姿估计网络(HybridPose)、几何直接引导位姿估计网络(GDR-Net)、深度迭代匹配姿态估计网络(DeepIM)、深度位姿检测网络(DPOD)，可见本方法在13个通用物体上的ADD(-S)指标均值为95.25，高于其他方法。本方法的位姿测量效果如图5所示。

表1主流单目位姿视觉测量方法与本方法在ADD(-S)10％指标上的对比表

位姿测量算法效果如图5和图6所示，在一台装有英伟达显卡(型号为RTX 2080ti)的计算机上，本方法的速度达到45帧/秒，满足实时性要求。本方法中的位姿测量方法具有以下优点：1)本方法使用两组法矢量构成姿态特征，该特征仅表征物体指向信息且与尺度无关，能够彻底将姿态与位置解耦表示。通过解耦能够有效降低单目视觉测量位置误差对姿态的负面影响，显著提升姿态测量精度。2)本方法使用异中心化姿态和法矢量，能够避免因目标局部图像提取模块导致的二义性问题，显著提升法矢量特征提取精度，进而提升姿态提取精度。3)本方法由于使用法矢量求解目标姿态，具有可微、高效、数值稳定等特点，降低了回归神经网络学习难度，通过法矢量场一致性损失和姿态法矢量一致性损失，能够进一步提升法矢量提取和姿态回归精度。

实施例2

为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，下面提供一种物体位姿测量系统，包括：

物体位姿图像获取模块，用于获取物体位姿图像。

待测目标区域确定模块，用于将物体位姿图像输入到目标局部图像提取模块，得到待测目标区域；目标局部图像提取模块是利用物体位姿标注历史图像，对YOLOV3神经网络进行训练得到的。

目标局部图像确定模块，用于根据待测目标区域裁剪物体位姿图像，得到目标局部图像。

法矢量特征确定模块，用于将目标局部图像输入到法矢量特征预测模块，得到多种法矢量特征；法矢量特征包括：静态法矢量场、异中心化动态法矢量场、区域注意力特征和分割掩码；法矢量特征预测模块包括训练后的轻量级ResNet-34骨干网络和训练后的第一卷积神经网络；训练后的轻量级ResNet-34骨干网络和训练后的第一卷积神经网络是通过目标局部历史图像，以及目标局部历史图像对应的多种法矢量特征进行训练得到的。

姿态确定模块，用于将目标局部图像的坐标数据和多种位姿图像特征均输入到位姿回归模型中，得到物体的异中心化姿态和尺度不相关位置；位姿回归模型是根据目标局部历史图像的坐标数据和多种位姿图像特征，对第二卷积神经网络进行训练得到的。

如图7，为了实现上述物体位姿单目视觉测量算法，提供了一种物体位姿单目视觉测量装置，包括图像采集模块、图像和数据处理模块、位姿测量训练模块和位姿测量计算模块。

图像采集模块主要硬件为工业相机和经过标定后的可见光镜头，主要作用是实时采集目标物体图像。

图像和数据处理模块可以对图像采集模块采集的原始图像进行压缩存储，同时对摄像参数和测量结果进行整理和存储。

位姿测量训练模块利用存储的公开数据集和保存的历史图像对物体位姿测量的模型参数进行训练和微调。

位姿测量计算模块接收图像和摄像参数数据，按照前述方法流程首先检测图像中的待测目标，当目标出现在视场内使利用法矢量特征预测模块、姿态回归神经网络模块和位置回归神经网络模块计算位姿参数，经处理后输出物体位姿测量结果。

实施例3

本实施例提供了一种电子设备，包括存储器及处理器，存储器用于存储计算机程序，处理器运行计算机程序以使电子设备执行上述实施例所述的一种物体位姿测量方法。

其中，存储器为可读存储介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种物体位姿测量方法，其特征在于，包括：

获取物体位姿图像；

2.根据权利要求1所述的一种物体位姿测量方法，其特征在于，在所述获取物体位姿图像之前，还包括：

获取多张物体位姿历史图像；

3.根据权利要求1所述的一种物体位姿测量方法，其特征在于，所述根据所述待测目标区域裁剪所述物体位姿图像，得到目标局部图像，包括：

4.根据权利要求2所述的一种物体位姿测量方法，其特征在于，所述将所述目标局部图像输入到法矢量特征预测模块，得到多种法矢量特征，包括：

5.根据权利要求1所述的一种物体位姿测量方法，其特征在于，所述位姿回归模型包括姿态回归神经网络和位置回归神经网络；所述姿态回归神经网络是根据目标局部历史图像的多种所述位姿图像特征，对第三卷积神经网络进行训练得到的；所述位置回归神经网络是根据目标局部历史图像的坐标数据和多种所述位姿图像特征，对第四卷积神经网络进行训练得到的；所述第二卷积神经网络包括所述第三卷积神经网络和所述第四卷积神经网络。

6.根据权利要求5所述的一种物体位姿测量方法，其特征在于，所述将目标局部图像的坐标数据和多种所述位姿图像特征均输入到位姿回归模型中，得到物体的异中心化姿态和尺度不相关位置，包括：

7.根据权利要求2所述的一种物体位姿测量方法，其特征在于，在所述获取物体位姿图像之前，还包括：

确定迭代次数m＝1；

判断所述总损失函数是否小于损失阈值得到判断结果；

若所述判断结果为否，则令迭代次数m的数值增加1；

确定m次迭代时的第三卷积神经网络为姿态回归神经网络；

确定m次迭代时的第四卷积神经网络为位置回归神经网络。

8.根据权利要求7所述的一种物体位姿测量方法，其特征在于，所述总损失函数为：L＝α₁l_normal+α₂l_mask+α₃l_SRA+α₄l_R+α₅l_t+β₁l_geo+β₂l_ch；

9.一种电子设备，其特征在于，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至8中任一项所述的一种物体位姿测量方法。

10.根据权利要求9所述的一种电子设备，其特征在于，所述存储器为可读存储介质。