CN113436251B

CN113436251B - 一种基于改进的yolo6d算法的位姿估计系统及方法

Info

Publication number: CN113436251B
Application number: CN202110703620.1A
Authority: CN
Inventors: 张楚宁; 高天寒; 江欣蓓
Original assignee: 东北大学
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2024-01-09
Anticipated expiration: 2041-06-24
Also published as: CN113436251A

Abstract

本发明提供了一种基于改进的YOLO6D算法的位姿估计系统及方法，涉及计算机视觉技术领域。该系统包括视觉传感器、客户端和服务器端。使用该系统的基于改进的YOLO6D算法的位姿估计方法包括如下步骤：采集包含目标物体的原始图像；对包含目标物体的原始图像进行处理得到边缘清晰的目标物体图像；构建YOLO6D模型的训练数据集；对YOLO6D模型进行改进，包括：为对称目标物体和非对称目标物体定义两种不同的损失函数；利用所述训练数据集对改进的YOLO6D模型进行训练，获得位姿估计模型；利用所述姿态估计模型实时估计图像中目标物体的位姿。该系统及方法可提高对称物体的位姿估计准确率、可防止过拟合、降低了对外部设备的性能要求。

Description

一种基于改进的YOLO6D算法的位姿估计系统及方法

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种基于改进的YOLO6D算法的位姿估计系统及方法。

背景技术

位姿估计是指利用视觉传感器获取的信息，从中估计目标物体与传感器之间的距离与姿态。它不仅需要对图像中的目标物体进行定位，还需要检测目标物体在三维空间中的旋转自由度。该技术目前主要的应用领域是增强现实领域，随着计算机视觉与地图构建(SLAM)技术的日益发展，基于视觉的位姿估计方法在增强现实系统开发中的应用越来越广泛。

目前，位姿估计方法主要分为基于关键点与模版匹配的方法和基于深度学习的方法。基于关键点与模版匹配的方法对光线较为敏感，且无法处理物体间有遮挡的问题，对检测环境要求较为苛刻。

为克服这些位姿估计中存在的问题，应用上主流的是采用基于深度学习的位姿估计方法。基于深度学习的位姿估计一般分为单阶段检测算法和双阶段检测算法两类。双阶段检测虽然检测准确度较高，但受限于检测步骤的多阶段，速度较慢。在增强现实领域对实时性要求较高，因此单阶段检测算法更适用于此领域。单阶段检测算法也被称为基于回归分析的检测算法，其将检测问题视为对目标位置和类别信息的回归分析问题，通过一个神经网络模型可直接输出检测结果。随着单阶段检测算法的发展，目前的单阶段的目标检测算法在保持速度优势的同时，检测精度也达到了双阶段目标检测的水平。

YOLO6D属于一种基于深度学习的单阶段检测算法，因其具有强大的特征抽象与表达能力，在各种计算机视觉识别任务上表现出色。但在实际应用中，YOLO6D检测算法也遇到了很多挑战，比如模型训练所需的数据量不够、数据集标注不完整，识别场景中有复杂背景干扰，因损失函数在取得同一个值时存在多个不同的旋转四元数，在网络训练时带来震荡而使对称目标物体不好识别等问题。

发明内容

针对现有技术存在的问题，本发明提供一种基于改进的YOLO6D算法的位姿估计系统及方法。

本发明的技术方案为：

一种基于改进的YOLO6D算法的位姿估计系统，所述系统包括：

视觉传感器，用于实时采集目标物体的图像，并将图像发送给客户端；

客户端，用于实时捕获图像并发送给服务器端，以及接收服务器端发送的目标物体位姿估计结果；

服务器端，用于构建YOLO6D模型的训练数据集；对YOLO6D模型进行改进；利用所述训练数据集对改进的YOLO6D模型进行训练，获得位姿估计模型；利用所述姿态估计模型实时估计图像中目标物体的位姿，并将目标物体位姿估计结果发送给客户端。

进一步地，根据所述的基于改进的YOLO6D算法的位姿估计系统，所述视觉传感器是单目摄像机。

使用所述的基于改进的YOLO6D算法的位姿估计系统的基于改进的YOLO6D算法的位姿估计方法，包括以下步骤：

采集包含目标物体的原始图像；

对包含目标物体的原始图像进行处理得到边缘清晰的目标物体图像；

构建YOLO6D模型的训练数据集；

对YOLO6D模型进行改进，包括：为对称目标物体和非对称目标物体定义两种不同的损失函数；

利用所述训练数据集对改进的YOLO6D模型进行训练，获得位姿估计模型；

利用所述姿态估计模型实时估计图像中目标物体的位姿。

进一步地，根据所述的基于改进的YOLO6D算法的位姿估计方法，所述构建YOLO6D模型的训练数据集的方法为：对公开的位姿估计数据集进行数据量扩充，获得新的位姿估计数据集；自制虚拟数据集；将新的位姿估计数据集和虚拟数据集进行整合，从整合后的数据集中划分出若干图像作为训练数据集。

进一步地，根据所述的基于改进的YOLO6D算法的位姿估计方法，所述对公开的位姿估计数据集进行数据量扩充的方法为：根据数据集中提供的掩模提取目标物体的图像像素，做换背景操作，将目标物体的图像像素粘贴到不包含目标物体仅包含复杂背景的其他若干图片上，并对换背景操作之后的若干图片进行数据增强得到新的若干图片，增添到位姿估计数据集中，实现对公开的位姿估计数据集的数据量扩充。

进一步地，根据所述的基于改进的YOLO6D算法的位姿估计方法，所述公开的位姿估计数据集为LineMod数据集。

进一步地，根据所述的基于改进的YOLO6D算法的位姿估计方法，所述自制虚拟数据集的方法为：通过Perception Package工具合成包含目标物体且具有复杂背景的若干RGB图片，并为每一幅图片设置对应的标注信息，获得虚拟数据集；所述标注信息包括：目标物体的空间信息和类别信息。

进一步地，根据所述的基于改进的YOLO6D算法的位姿估计方法，所述对YOLO6D模型进行改进，包括：为对称目标物体和非对称目标物体定义两种不同的坐标损失函数。

进一步地，根据所述的基于改进的YOLO6D算法的位姿估计方法，非对称目标物体的坐标损失函数计算公式如下：

其中，n是待估计位姿的图像的像素数量；M是带有标注的图像中包含目标物体的像素；Iⁱ为待估计位姿的图像的第i个像素；为数据集中的带有标注的图像的第i个像素；α为不小于1的因子；

对称目标物体的坐标损失函数计算公式如下：

L＝minL_coo(I,R_PI_gt) (5)

其中，R_P是一个位姿到对称位姿的转换；I为待估计位姿的图像；I_gt为带有标注的图像。

本发明提出的基于YOLO6D的位姿估计系统及方法，与现有技术相比较具有如下有益效果：

1)扩充了位姿估计模型训练所用到的数据集防止过拟合。基于深度学习的位姿估计模型的训练需要大量完整标注的数据，如何增大数据集是一个需要解决的问题。在本发明方法中一方面是通过Perception Package工具合成包含目标检测物体且具有复杂背景的RGB图片，自制虚拟数据集，另一方面对公开的LineMod数据集中的真实图片通过增加抖动因子，随机选择亮度、色调、饱和度等方法进行图像扩充，最后对虚拟数据集和扩充的真实数据集进行整合增大了数据集数据量，防止过拟合。

2)提高了对于对称物体的估计准确率。训练改进的YOLO6D模型，网络的最后一层使用softmax函数，以输出目标类别概率，以及角点在平面上的坐标还有整个置信度得分。在训练阶段，为对称物体和非对称物体定义两种不同的损失函数，使用候选对称位姿中误差最小的位姿来计算损失函数，来提高对于对称物体的识别准确率。

3)降低了系统对外部设备的性能要求。位姿估计系统分为客户端和服务器端，可部署于同一台设备，也可部署于两台计算机，由服务器端负责运算功能，客户端负责显示和交互功能，减少了对单台计算机性能的需求。同时本系统所采集的图像为RGB图片，不需要深度摄像机，降低了开发成本。

附图说明

图1为本发明基于改进的YOLO6D算法的位姿估计系统的结构示意图；

图2为本发明基于改进的YOLO6D算法的位姿估计方法流程图；

图3为本发明实施方式的YOLO6D模型的网络结构图；

图4为相机成像原理示意图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。

图1是本实施方式的基于改进的YOLO6D算法的位姿估计系统的结构示意图，所述基于改进的YOLO6D算法的位姿估计系统包括：

视觉传感器，用于实时采集目标物体的图像，并将图像发送给客户端；在优选实施例中，所述视觉传感器采用的是单目摄像机；

客户端，用于实时捕获图像并发送给服务器端，以及接收服务器端发送的目标物体位姿估计结果；在优选实施例中，在客户端使用Unity搭建了交互场景，预置了后续应用需要叠加的虚拟模型，接收到服务器端发送的目标物体位姿估计结果后，在后续应用中客户端会将虚拟模型准确叠加到真实物体上。

服务器端，用于构建YOLO6D模型的训练数据集；对YOLO6D模型进行改进；利用所述训练数据集对改进的YOLO6D模型进行训练，获得位姿估计模型；利用所述姿态估计模型实时估计图像中目标物体的位姿。

本实施方式的基于YOLO6D的位姿估计方法，流程如图2所示，包括以下步骤：

步骤1：采集包含目标物体的原始图像；

在优选实施例中，使用Unity搭建交互场景，预置需要叠加的虚拟模型，且通过Unity开启视觉传感器采集目标物体的图像的视频流。在优选实施例中，视觉传感器采用的是单目摄像机。

步骤2：对包含目标物体的原始图像进行处理得到边缘清晰的目标物体图像并保存。

在优选实施例中，读取视频流并对视频流的画面进行处理得到边缘清晰的目标物体图像并保存。所述对视频流的画面进行处理包括：首先使用双边滤波的方法对图像进行处理。平衡图像的空间邻近度和像素值相似度，同时考虑空域信息和灰度相似性，可以达到保持边缘、降噪平滑的效果，双边滤波的公式如下：

其中，g(i,j)代表输出点；S(i,j)是以(i，j)为中心的奇数*奇数(例如5*5)大小的范围；f(k,l)代表输入点；w(i,j,k,l)代表经过两个高斯函数计算出的值；(i,j)、(k,l)分别指两个像素点的坐标。

然后使用高斯滤波的方法对双边滤波处理后的图像进行滤波处理，达到抑制噪声和平滑图像的作用。高斯函数公式如式(2)所示，其中σ为标准差，由于高斯滤波器使用高斯函数的模板系数随着距离模板中心的大小成反比，所以使用高斯滤波能减少图像的模糊程度。

步骤3：制作虚拟数据集并对公开的位姿估计数据集的数据量进行扩充，将扩充后的位姿估计数据集和虚拟数据集进行整合，构建YOLO6D模型的训练数据集。

在本实施方式中，公开的位姿估计数据集采用的是LineMod数据集。LineMod数据集中不仅提供了目标物体的6D姿态信息还提供了物体的分割掩模和物体的三维模型。LineMod数据集中图像背景杂乱，物体间有遮挡，物体种类为13种，每种物体图像数量平均，所以LineMod数据集也成为目前最常用并且认可度最高的位姿估计数据集。在本实施方式，通过对LineMod数据集进行图像增强的方式对LineMod数据集的数据量进行扩充。具体地是，根据数据集中提供的掩模提取目标物体的图像像素，做换背景操作，即将目标物体的图像像素粘贴到不包含目标物体仅包含复杂背景的COCO数据集中的图片上，同时对换背景操作之后的图片增加抖动因子，随机选择亮度、色调、饱和度，随机改变图像旋转角度及尺寸，得到新的图像，增添到LineMod数据集中，以增大LineMod数据集数量，实现对公开的位姿估计数据集的数据量扩充。

同时，通过Perception Package工具合成包含目标物体且具有复杂背景的RGB图片，并对每一幅图片进行对应的标注，获得虚拟数据集；所述标注的信息包括：目标物体的空间信息例如角点信息和类别信息。将扩充后的位姿估计数据集和虚拟数据集进行整合，整合后的数据集具有65000张彩色图像，分为13个类别，其中52000张用于训练，每个类4000张；13000张用于验证，每个类1000张。这样就增大了数据集，可有效防止过拟合。

步骤4：对YOLO6D模型进行改进，并利用步骤4中整合后的数据集对改进的YOLO6D模型进行训练，获得位姿估计模型；使用YOLO6D模型这种单阶段方法来同时检测RGB图像中的目标物体并预测它的6D姿态，不需要多阶段或验证多个假设(预测的位置包围框与真实标注之间交并比的假设)。相比于其他的单阶段检测方法，结果足够精确不需要后处理。

步骤4.1：使用卷积层以及池化层提取输入图像的特征图。

如图3所示，YOLO6D模型在结构上抛弃了全连接层，只采用卷积层与池化层提取图像的特征图。其中，池化层采用最大池化，滤波器尺寸是2×2，步长设置为2。卷积层激活函数为LeakyReLU，浅层卷积块提取图像的纹理和局部细节特征，深层卷积块提取图像的轮廓和抽象的全局特征。在本实施方式中，YOLO6D模型最后提取的特征图的大小是15*15。YOLO6D模型使用了Pass through Layer，那么这个层会把前面一层的15*15的特征图和本层的15*15的特征图进行拼接，以加强YOLO6D模型对小目标检测的精确度。

步骤4.2：利用softmax函数进行目标物体类别的分类和获得目标物体的精确位置。

YOLO6D模型的网络最后一层使用的是softmax函数，输出目标物体的类别概率，以及角点在平面上的坐标，还有整个置信度得分。最后一个卷积层的卷积核个数为32(9*2+1+13)：9对控制点坐标(包括8个角点和1个中心点)，1个置信度值，再加上13个类别。

本实施方式改进的YOLO6D模型的损失函数分别包含坐标损失、置信度损失、分类损失，用l1损失函数表示坐标和置信度损失，用交叉熵表示分类损失。损失函数公式如下所示：

L＝L_coo+L_id+λ_confL_conf (3)

其中L_coo为坐标损失函数，L_id为分类损失函数，λ_confL_conf为置信度损失函数。

本发明对YOLO6D模型的改进主要在于坐标损失的计算方法：对于目标物体是对称物体的情况，一般方法使用的损失函数取得相同值时，可能存在多个不同的旋转四元数，这在网络训练时会带来震荡。在训练阶段，本实施方式为对称物体和非对称物体定义两种不同的损失函数，使用候选对称位姿中误差最小的位姿来计算损失函数。

非对称物体坐标损失函数计算公式如下所示：

其中，n是待估计位姿的图像的像素数量；M是带有标注的图像中包含目标物体的像素；Iⁱ为待估计的图像的第i个像素；为带有标注图像的第i个像素，由于属于一个物体的像素比背景更重要，所以属于物体的像素需要乘以一个因子α(≥1)。

对于具有对称结构的物体，通过旋转向量，将每个像素的三维坐标转换成对称位姿。引导预测位姿到最接近的对称位姿来处理对称物体，对称物体坐标损失函数公式如下所示：

L＝minL_coo(I,R_PI_gt) (5)

其中R_P是一个位姿到对称位姿的转换，I为待预测图像，I_gt为带有标注的图像。

由于在训练的早期阶段的姿态估计是不准确的，计算的置信度值最初是不可靠的，通过设置正则化参数为0来预训练网络参数，等坐标预测较为准确时，再将包含物体的网格的置信度权重值设置为4，不包含物体的网格置信度权重值设为0.1，将批次设置为8，批大小设置为50，以0.001的学习速率开始对改进的YOLO6D模型进行训练且每1000次迭代学习率乘以0.1，训练结束后得到位姿估计模型。

步骤5：将步骤2得到的目标物体图像输入所述位姿估计模型，利用所述姿态估计模型实时估计图像中目标物体的位姿。

步骤5.1：将步骤2得到的目标物体图像输入到训练好的位姿估计模型，对目标物体进行位置估计，得到目标物体的角点信息。

步骤5.2：为了进一步确定目标物体的6D姿态，根据步骤5.1得到的目标物体位置信息，利用RANSAC算法的非确定性迭代的特性估计目标物体的6D姿态。

RANSAC(随机抽样一致性)算法是一种在计算机视觉中经常用到的算法，类似于最小二乘法，它主要用于各种模型的参数估计。最小二乘法是所有样本数据均参与参数估计，不能有效减少噪声数据的干扰，尤其是在噪声较多或者噪点严重偏离模型情况下，最小二乘法的估计结果会受到严重影响。需引入鲁棒方法来去除外点，以实现对模型参数稳定而精确地估计。随机抽样一致性算法则有效减少了噪声数据的干扰，它是从一组含有外点(outliers)的数据中正确估计数学模型参数的迭代算法。RANSAC算法通过反复选择数据中的一组随机子集来达成目标。被选取的子集被假设为内点，并用下述方法进行验证：

首先随机假设一小组内点为初始值，然后用这些内点拟合一个模型，此模型适应于假设的内点；用该模型去测试所有的其它数据，如果某个点适用于该估计的模型，认为它也是内点，将内点扩充；如果有足够多的点被归类为假设的内点，那么该估计的模型就足够合理，否则，用所有假设的内点去重新估计模型，因为此模型仅仅是在初始的假设的局内点估计的，后续有扩充后需要更新。最终将合理的估计模型中最大内点集对应的参数作为最优解。

现有技术基于欧氏距离设计的姿态置信度函数被用来确定内点和外点像素，用来评估预测姿态与真实姿态之间的偏差程度。姿态置信度函数公式如下所示：

其中，β表示姿态置信度函数的锐利程度，D_T(x)表示预测姿态与真实姿态之间的欧氏距离，d_th表示置信度函数的像素阈值。

在本实施方式中，从目标物体的坐标中随机选取小的子集生成假设的内点，对于每个假设，利用PnP算法计算目标物体的位姿。PnP算法就是用来解决如何从2D坐标和3D坐标的匹配对中求解目标在相机坐标系下的位姿参数。物体相对于相机的姿态可以使用旋转矩阵R和平移矩阵T来表示，这样就可以把物体姿态预测问题转化为相机的旋转矩阵和平移矩阵(即相机的外参)预测问题。物体的世界坐标和相机坐标以及图片中的像素坐标之间的关系如图4所示。

其中，图像像素坐标系ouv，图像物理坐标系0_xyxy，相机坐标系o_cx_cy_cz_c，世界坐标系o_wx_wy_wz_w。世界坐标系是物体在真实世界中的位姿，点P投影到图像平面上，转变为像素坐标p(u,v)，即图像上某点的具体位置需要经过三个变换：世界坐标系到相机坐标系的变换、相机坐标系到图像物理坐标系的变换以及图像物理坐标系到图像像素坐标系的变换。在给定图像时，从物体的世界坐标系到相机坐标系的转换是由平移量T和旋转量R组成，平移量T由摄像机原点与目标物体中心的欧氏空间距离构成，旋转量R代表了物体相对标准姿态下的旋转量，完整的位姿可以表示为旋转平移矩阵。Pnp算法即设在物体的第i个点的三维坐标为P_i，使用控制点表示它们的坐标时第j个点为C_j，世界坐标系坐标上标用w表示，如相机坐标系坐标上标用C表示，如/>将三维物体的任意点表示为控制点的权重和：

其中a_ij表示均值重心坐标，同样的，在相机参考坐标系中：

控制点在世界坐标系下的坐标与在相机坐标系下的坐标/>关系：

最后，将所有特征点在相机坐标系下的坐标用求出的控制点/>进行表示，即可求出R和T。利用带有RANSAC的PnP算法，通过最大化内点数量迭代计算最终的6D姿态。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于改进的YOLO6D算法的位姿估计方法，使用基于改进的YOLO6D算法的位姿估计系统实现，所述系统包括：

视觉传感器，用于实时采集目标物体的图像，并将图像发送给客户端；所述视觉传感器是单目摄像机；

服务器端，用于构建YOLO6D模型的训练数据集；对YOLO6D模型进行改进；利用所述训练数据集对改进的YOLO6D模型进行训练，获得位姿估计模型；利用所述位姿估计模型实时估计图像中目标物体的位姿，并将目标物体位姿估计结果发送给客户端；

其特征在于，所述方法包括以下步骤：

采集包含目标物体的原始图像；

构建YOLO6D模型的训练数据集；

利用所述位姿估计模型实时估计图像中目标物体的位姿；

所述构建YOLO6D模型的训练数据集的方法为：对公开的位姿估计数据集进行数据量扩充，获得新的位姿估计数据集；自制虚拟数据集；将新的位姿估计数据集和虚拟数据集进行整合，从整合后的数据集中划分出若干图像作为训练数据集；

所述对公开的位姿估计数据集进行数据量扩充的方法为：根据数据集中提供的掩模提取目标物体的图像像素，做换背景操作，将目标物体的图像像素粘贴到不包含目标物体仅包含复杂背景的其他若干图片上，并对换背景操作之后的若干图片进行数据增强得到新的若干图片，增添到位姿估计数据集中，实现对公开的位姿估计数据集的数据量扩充；

所述公开的位姿估计数据集为LineMod数据集；所述自制虚拟数据集的方法为：通过Perception Package工具合成包含目标物体且具有复杂背景的若干RGB图片，并为每一幅图片设置对应的标注信息，获得虚拟数据集；所述标注信息包括：目标物体的空间信息和类别信息；所述对YOLO6D模型进行改进，包括：为对称目标物体和非对称目标物体定义两种不同的坐标损失函数；非对称目标物体的坐标损失函数计算公式如下：

对称目标物体的坐标损失函数计算公式如下：

L＝minL_coo(I，R_PI_gt) (5)