CN109816725A

CN109816725A - 一种基于深度学习的单目相机物体位姿估计方法及装置

Info

Publication number: CN109816725A
Application number: CN201910043902.6A
Authority: CN
Inventors: 刘振; 范晓东; 王亚运; 程栋梁; 金霞红; 赵福臣
Original assignee: HRG International Institute for Research and Innovation
Current assignee: Hefei Hagong Huicai Intelligent Technology Co ltd
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2019-05-28
Anticipated expiration: 2039-01-17
Also published as: CN109816725B

Abstract

本发明公开了一种基于深度学习的单目相机物体位姿估计方法，方法包括：1)、根据所获取的物体的三维图像在二维空间内的投影以及投影对应的物体坐标以及物体的标签文件生成训练集和验证集；2)、利用级联卷积神经网络模型学习训练集，并迭代超参数；3)、使用测试集测试训练后的级联卷积神经网络模型，在训练后的级联卷积神经网络模型的准确率不小于第一预设阈值时，使用所述训练后的级联卷积神经网络模型进行物体位姿估计。本发明公开了一种基于深度学习的单目相机物体位姿估计装置。应用本发明实施例，可以物体位姿估计的应用成本。

Description

一种基于深度学习的单目相机物体位姿估计方法及装置

技术领域

本发明涉及一种位姿估计方法及装置，更具体涉及一种基于深度学习的单目相机物体位姿估计方法及装置。

背景技术

位姿估计是计算机视觉领域一个非常重要的分支，在使用传感器估计物体位姿后用于控制机械手的运动轨迹、以及物体抓取研究发挥着极大作用(在基于传感器估计物体位姿后用于规划机械末端的运动轨迹、以及智能物体抓取等研究领域发挥着极大作用)。位姿估计算法是寻求现实世界和图像投影得到的图像之间物理关系，然后对物体的世界坐标以及三维方向进行精准估计，已经成为图像处理领域许多应用的必需预处理操作，位姿估计精准度直接影响后续操作成功与否，其重要性在机器人分拣领域、工业生产自动化领域和动作捕获跟踪领域尤为突出。

位姿估计的信息捕捉需要依靠硬件传感器，在视觉领域，位姿估计信息获取方式为摄像机，通常使用多目视觉位姿估计和3D视觉位姿估计。受到硬件发展水平限制，现有多目和3D相机价格都比较贵，尤其后者，价格在数十万元以上，导致目前的技术存在物体位姿估计的应用成本较高的问题。

发明内容

本发明所要解决的技术问题在于提供了一种基于深度学习的单目相机物体位姿估计方法及装置，以解决物体位姿估计的应用成本较高的技术问题。

本发明通过以下技术方案解决上述技术问题：

本发明实施例提供了一种基于深度学习的单目相机物体位姿估计方法，所述方法包括：

1)、根据所获取的物体处于不同姿态时的三维模型在二维空间内的投影，以及所述投影对应的物体坐标以及物体的标签文件生成训练集和验证集，其中，所述标签文件包括：物体的个数、物体的类别、物体边界框、物体位姿关键点中的一种或组合；

2)、利用级联卷积神经网络模型学习训练集，并迭代超参数；

3)、使用测试集测试训练后的级联卷积神经网络模型，在训练后的级联卷积神经网络模型的准确率不小于第一预设阈值时，使用所述训练后的级联卷积神经网络模型进行物体位姿估计。

可选的，在步骤1)之前，所述方法还包括：

使用ImageNet库对级联卷积神经网络模型进行预训练。

可选的，所述步骤1)，包括：

使用投影矩阵将物体处于不同姿态时的三维模型转换为二维图像，其中，所述三维模型包括：含有单个物体的三维模型和含有两个或者两个以上的三维模型；

将所述二维图像转换到HSV色彩空间并剪裁掉黑色背景；

再将转换到HSV色彩空间的二维图像转换到RGB色彩空间；

将转换到RGB色彩空间的二维图像裁剪成设定尺寸；

获取每一个二维图像对应的标签文件，并将所述标签文件对应到裁剪后的二维图像，并将对应标签文件后的二维图像的集合划分为训练集和验证集，其中，所述标签文件包括：物体的个数、物体的类别、物体边界框、物体位姿关键点中的一种或组合。

可选的，所述步骤2)，包括：

A：使用SSD模型提取出训练集图像的特征，将提取的特征、物体坐标以及物体的标签文件输入当前级联卷积神经网络进行训练，得到预测的物体种类、物体边界框和物体三维位姿点；

B：利用整体损失函数，评价训练后的当前级联卷积神经网络的整体损失，其中，

L()为训练后的当前级联卷积神经网络的整体损失；N为匹配到的符合条件的候选区域个数；L_conf()为置信度损失函数；x为预测坐标和真实坐标之间的距离；c为置信度；l为预测的二维位置坐标；g为真实位置坐标；L_loc()为位置损失函数；L_cnr()为三维位姿点的损失函数；q为预测三维姿态关键点；k为真实姿态点；

C：判断所述整体损失是否小于第二预设阈值；

D：若是，将当前网络作为训练后的卷积神经网络；

E：若否，按照随机梯度下降算法对当前网络进行优化，并将优化后的网络作为初始级联卷积神经网络，并返回执行所述A步骤，直至所述整体损失小于第二预设阈值，进而得到训练后的卷积神经网络。

可选的，所述步骤3)，包括：

F：使用测试集测试训练后的级联卷积神经网络模型，判断训练后的级联卷积神经网络模型的准确率是否达到第一预设阈值；

G：若是，使用训练后的级联卷积神经网络模型对单目相机拍摄的待识别二维图像中包含的物体进行位姿估计；

H：若否，调整所述级联卷积神经网络模型中的超参数，并返回执行所述步骤2)，直至训练后的级联卷积神经网络模型的准确率不小于第一预设阈值，进而使用训练后的级联卷积神经网络模型对单目相机拍摄的待识别二维图像中包含的物体进行位姿估计；

I：使用PNP算法将二维图像中的物体三维位姿点映射到三维空间中，得到初始化位姿关键点；

J：使用ICP算法对初始化位姿关键点进行优化，得到物体的最终位姿。

本发明实施例提供了一种基于深度学习的单目相机物体位姿估计装置，所述装置包括：

生成模块，用于根据所获取的物体处于不同姿态时的三维图像在二维空间内的投影，以及所述投影对应的物体坐标以及物体的标签文件生成训练集和验证集，其中，所述标签文件包括：物体的个数、物体的类别、物体边界框、物体位姿关键点中的一种或组合；

训练模块，用于利用级联卷积神经网络模型学习训练集，并迭代超参数；

估计模块，用于使用测试集测试训练后的级联卷积神经网络模型，在训练后的级联卷积神经网络模型的准确率不小于第一预设阈值时，使用所述训练后的级联卷积神经网络模型进行物体位姿估计。

可选的，所述装置还包括：预训练模块，用于使用ImageNet库对级联卷积神经网络模型进行预训练。

可选的，所述生成模块，用于：

将所述二维图像转换到HSV色彩空间并剪裁掉黑色背景；

再将转换到HSV色彩空间的二维图像转换到RGB色彩空间；

将转换到RGB色彩空间的二维图像裁剪成设定尺寸；

可选的，所述训练模块，用于：

C：判断所述整体损失是否小于第二预设阈值；

D：若是，将当前网络作为训练后的卷积神经网络；

可选的，所述估计模块，还用于：

H：若否，调整所述级联卷积神经网络模型中的超参数，并触发训练模块，直至训练后的级联卷积神经网络模型的准确率不小于第一预设阈值，进而使用训练后的级联卷积神经网络模型对单目相机拍摄的待识别二维图像中包含的物体进行位姿估计；

本发明相比现有技术具有以下优点：

应用本发明实施例，将物体位于不同姿态时的三维图像在二维空间内的投影输入到级联卷积神经网络中对级联卷积神经网络进行训练，然后使用训练后的模型识别出于待识别二维图像中包含的物体的位姿信息，在实际应用中，二维图像可以使用单目相机获得，相对于现有技术中使用双目相机或者3D相机，可以大大降低物体位姿估计的应用成本。

附图说明

图1为本发明实施例提供的一种基于深度学习的单目相机物体位姿估计方法的流程示意图；

图2为本发明实施例提供的一种基于深度学习的单目相机物体位姿估计方法的原理示意图；

图3为本发明实施例提供的一种级联卷积神经网络的结构示意图；

图4为本发明实施例提供的一种基于深度学习的单目相机物体位姿估计装置的流程示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明实施例提供了一种基于深度学习的单目相机物体位姿估计方法及装置，下面首先就本发明实施例提供的一种基于深度学习的单目相机物体位姿估计方法进行介绍。

图1为本发明实施例提供的一种基于深度学习的单目相机物体位姿估计方法的流程示意图；图2为本发明实施例提供的一种基于深度学习的单目相机物体位姿估计方法的原理示意图；如图1和图2所示，所述方法包括：

S101：根据所获取的物体处于不同姿态时的三维模型在二维空间内的投影，以及所述投影对应的物体坐标以及物体的标签文件生成训练集和验证集，其中，所述标签文件包括：物体的个数、物体的类别、物体边界框、物体位姿关键点中的一种或组合。

具体实现过程为：先使用OpenGL(Open Graphics Library，开放式图形库)软件读取用于训练及链锯安吉神经网络模型的物体的三维模型。这些三维模型可以是实用三维绘图软件绘制的。然后使用投影矩阵将物体处于不同姿态时的三维模型转换为二维图像，其中，所述三维模型包括：含有单个物体的三维模型和含有两个或者两个以上的三维模型。

在实际应用中，可以将一个物体处于倾斜状态、直立状态、倾倒状态作为物体的不同姿态；再使用投影矩阵将三维模型转换为二维图像。可以理解的是，二维图像为类似于按照一定的视角，以单个摄像头进行拍摄的平面图像。通常本步骤中得到的图像为包含物体的黑色背景的二维图像；

将所述二维图像转换到HSV(Hue Saturation Value，色调-饱和度-亮度)色彩空间并裁剪掉黑色背景区域；

再将裁剪后的二维图像转换到RGB(Red Green Blue，红绿蓝)色彩空间，并统一裁剪成设定尺寸的大小；

在实际应用中，可以将多个物体置于同一个三维图像中，进而转换到二维图像中；还可以将多个物体进行重叠摆放，进而将多个物体的三维图像转换到二维图像中，以更好的模拟实际场景。

将物体三维模型转换得到的二维图像的集合作为源图像库，然后依据渲染时模型的位姿和裁剪粘贴时的位置生成标签文件：获取每一个二维图像对应的标签文件，并将所述标签文件对应到裁剪后的二维图像，并将对应标签文件后的二维图像的集合划分为训练集和验证集，其中，所述标签文件包括但不仅限于：物体的尺寸参数、物体的形状参数、物体边界框(x_min,y_min,x_max,y_max)、物体位姿关键点(x_i,y_i)；i∈[0,7]，其中(x_min，y_min)和(x_max，y_max)分别是物体边界框一条对角线上两个顶点的坐标，(x_i,y_i)；i∈[0,7]是八个位姿关键点。

将生成的源图像库与对应标签文件按照7:3的比例划分为训练集与验证集，并整理成可供深度网络高效读写并训练的文件。

本发明利用OpenGL对物体三维模型进行投影变换，快速生成物体的位姿关键点坐标，还可以直接生成含有多个目标物体的图像以及对应关键点坐标。相比传统人力标注数据，降低了获取源图像数据库的时间成本、人力成本以及增加了训练样本数量、提升样本质量。

S102：利用级联卷积神经网络模型学习训练集，并迭代超参数。

具体的，S102步骤，可以包括：A：使用SSD(Single Shot MultiBox Detector，单镜头多核检测器)模型提取出训练集图像的特征，将提取的特征、物体坐标以及物体的标签文件输入级联卷积神经网络进行训练，得到预测的物体种类、物体边界框和物体三维位姿点；

图3为本发明实施例提供的一种级联卷积神经网络的结构示意图，如图3所示，可以在级联卷积神经网络模型中自定义卷积网络层，并在原有输出结果基础上增加8个位姿关键点预测物体位姿。在图3中，Conv3-128代表，该卷积核尺寸为3*3，其具有128个滤波核心。发明人发现，在所有的卷积核大小都为3*3，池化层大小为2*2时，可以有效抑制模型参数个数和计算量的增长，并且加速训练速度、便于测试时模型参数移植。

级联卷积神经网络模型输出有三种信息：物体种类信息：confidence；物体边界框信息：location；和三维位姿点信息：corners。其中物体边界框和三维位姿点损失函数为Smooth L1，其计算过程为：利用针对物体三维位姿点的损失函数L_cnr()如，评价训练后的级联卷积神经网络，其中，

Smooth_L1(x)为针对物体边界框和物体三维位姿点的损失函数；x为预测坐标和真实坐标之间的距离；| |为绝对值符号；

在实际应用中，可以利用针对物体种类的损失函数L_conf()如：

评价训练后的级联卷积神经网络，其中，

J(θ)为针对物体种类的损失；θ为级联卷积神经网络的参数向量；m为训练集中样本的数量；∑为求和函数；y⁽ⁱ⁾为第i个数据的类别标记；σ_i(z)为softmax分类器，且exp(z_i)为自然底数为底数的指数函数；z_i为第i个数据对应的预测的物体类别；z_j为第j个数据对应的预测的物体类别；log为对数函数。

L()为训练后的当前级联卷积神经网络的整体损失；N为匹配到的符合条件的候选区域个数；L_conf()为物品种类置信度损失函数；x为预测坐标和真实坐标之间的距离；c为置信度；l为预测的二维位置坐标；g为真实位置坐标；L_loc()为物品位置损失函数；L_cnr()为物品三维位姿点的损失函数；q为预测三维姿态关键点；k为真实姿态点；

C：判断所述整体损失是否小于第二预设阈值；

D：若是，将当前网络作为训练后的卷积神经网络；

具体的，梯度下降算法可以用如下模型表示，

其中，

θ'_j为优化后的网络模型参数向量；θ_j为优化前的网络模型参数向量；h_θ(xⁱ)为当前网络的预测值；yⁱ为第i组样本的目标值；为第i组样本中的第j个样本的样本值。

本发明实施例以SSD作为级联卷积神经网络的基础层，无需设计专门的特征提取滤波子，依靠多通道神经网络完成特征提取工作，能够提高图片中信息利用率。在SSD模型的基础上设计若干个自定义的卷积层，用于三维位姿估计，无需使用其他传统方法和其他复杂神经网络结构。整个网络为端到端结构神经网络，使得模型的训练和测试简易快捷。

S103：使用测试集测试训练后的级联卷积神经网络模型，在训练后的级联卷积神经网络模型的准确率不小于第一预设阈值时，使用所述训练后的级联卷积神经网络模型进行物体位姿估计。

具体的，S103步骤可以包括：F：使用测试集测试训练后的级联卷积神经网络模型，判断训练后的级联卷积神经网络模型的准确率是否达到第一预设阈值；G：若是，使用训练后的级联卷积神经网络模型对单目相机拍摄的待识别二维图像中包含的物体进行位姿估计；H：若否，调整所述级联卷积神经网络模型中的超参数，并返回执行所述步骤S102，直至训练后的级联卷积神经网络模型的准确率不小于第一预设阈值，进而使用训练后的级联卷积神经网络模型对单目相机拍摄的待识别二维图像中包含的物体进行位姿估计；I：使用PNP算法将二维图像中的物体三维位姿点映射到三维空间中，得到初始化位姿关键点；J：使用ICP算法对初始化位姿关键点进行优化，得到物体的最终位姿。

示例性的，判断训练后的级联卷积神经网络模型的准确率是否达到第一预设阈值可以为：判断训练后的当前卷积神经网络模型能否正确的识别出物体的个数、物体的类别、物体边界框、物体位姿关键点等信息，并且准确率达到第一预设阈值。另外，在本发明实施例中并不对超参数的调整方法进行限定，任何可以实现超参数调整的方法均可以应用在本发明实施例中。

使用PNP(pespective-n-point，透视-n点)算法将二位图像中的位姿关键点映射到三维空间中，PNP算法的输入点个数为8，完全满足求解PNP算法唯一解时对点数的要求。接着结合随机采样一致性算法，增加迭代次数，保证算法有足够高的置信度，得到映射后的初始化位姿关键点。

然后，使用ICP(Iterative Closest Point，迭代最近点)算法进一步对初始化位姿关键点进行优化，ICP算法如下：

其中，

E_d(r,t)为期望函数；r为旋转关系；t为旋转；n为待配准点集以及基准数据点集中包含的元素的个数；R_r为旋转关系函数；P_i为待配准点集中的第i个元素，P＝{P_i,i＝0,1,2,....,n}；T为平移关系函数；M_i为基准数据点集中的第i个元素，M＝{M_i,i＝0,1,2,....,n}；∑()为求和函数。

R为第i次迭代时的旋转关系；T为第i次迭代时的平移关系，E是期望函数，每次迭代更新ΔR和ΔT，得到更换新候的点集P。根据精度要求，定义终止迭代的条件是E值小于一个具体值，即满足点集间平均距离小于设定值。

应用本发明上述实施例，对卷积神经网络的识别结果进行进一步的处理，可以提高结果的准确度。

应用本发明图1所示实施例，将物体位于不同姿态时的三维图像在二维空间内的投影输入到级联卷积神经网络中对级联卷积神经网络进行训练，然后使用训练后的模型识别出于待识别二维图像中包含的物体的位姿信息，在实际应用中，二维图像通过使用单目相机获得，相对于现有技术中使用双目相机或者3D相机，而且对光照条件要求较低，可以大大降低物体位姿估计的应用成本。

在实际工业应用中，既要保证算法的处理速度、稳定性以及鲁棒性，也要把产品成本控制在较低范围，单目相机以其成本低、体积小的优点受到研究者们的青睐。

本发明实施例将基于模型的位姿估计算法与机器学习的位姿估计算法结合起来可以取得良好的处理效果，能够满足条件严苛的应用场景。

在实本发明实施例的一种具体实施方式中，还可以测试集对训练后的级联卷积神经网络模型进行测试。另外，为了确保测试集与训练集和验证集无交集，本发明实施例使用单目工业相机拍摄实际包含目标物体的场景作为测试集。

应用本发明上述实施例，可以对训练后的级联卷积神经网络进行测试。

在本发明实施例的一种具体实施方式中，在步骤S101之前，所述方法还包括：

使用ImageNet库对级联卷积神经网络模型进行预训练。

在实际应用中，由于ImageNet库中含有图片数量足够大，达到120万张，有助于训练出更加普适的模型。本发明实施例在ImageNet上预训练网络，优化器使用的是采用动量的随机梯度下降法，训练前期batch大小为64，学习率为0.0001，动量为0.9；在训练后期时batch大小为32，学习率为0.00001，动量为0.9。然后使用构建的训练集和验证集继续训练网络参数，每一次完整训练都使用验证集进行验证，然后反向传播更新网络中超参数，最终得到收敛并且损失函数值下降到预先期望小数量级内。

应用本发明上述实施例，可以提高卷积神经网络的训练速度和精度。

与本发明图1所示实施例相对应，本发明实施例还提供了一种基于深度学习的单目相机物体位姿估计装置。

图4为本发明实施例提供的一种基于深度学习的单目相机物体位姿估计装置的流程示意图，如图4所示，所述装置包括：

生成模块401，用于根据所获取的物体处于不同姿态时的三维图像在二维空间内的投影，以及所述投影对应的物体坐标以及物体的标签文件生成训练集和验证集，其中，所述标签文件包括：物体的个数、物体的类别、物体边界框、物体位姿关键点中的一种或组合；

训练模块402，用于利用级联卷积神经网络模型学习训练集，并迭代超参数；

估计模块403，用于使用测试集测试训练后的级联卷积神经网络模型，在训练后的级联卷积神经网络模型的准确率不小于第一预设阈值时，使用所述训练后的级联卷积神经网络模型进行物体位姿估计。

应用本发明图4所示实施例，将物体位于不同姿态时的三维图像在二维空间内的投影输入到级联卷积神经网络中对级联卷积神经网络进行训练，然后使用训练后的模型识别出于待识别二维图像中包含的物体的位姿信息，在实际应用中，二维图像可以使用单目相机获得，相对于现有技术中使用双目相机或者3D相机，可以大大降低物体位姿估计的应用成本。

在本发明实施例的一种具体实施方式中，所述装置还包括：预训练模块，用于使用ImageNet库对级联卷积神经网络模型进行预训练。

在本发明实施例的一种具体实施方式中，所述生成模块401，用于：

将所述二维图像转换到HSV色彩空间并剪裁掉黑色背景；

再将转换到HSV色彩空间的二维图像转换到RGB色彩空间；

将转换到RGB色彩空间的二维图像裁剪成设定尺寸；

在本发明实施例的一种具体实施方式中，所述训练模块402，用于：

C：判断所述整体损失是否小于第二预设阈值；

D：若是，将当前网络作为训练后的卷积神经网络；

在本发明实施例的一种具体实施方式中，所述估计模块，还用于：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的单目相机物体位姿估计方法，其特征在于，所述方法包括：

1)、根据所获取的物体处于不同姿态时的三维图像在二维空间内的投影，以及所述投影对应的物体坐标以及物体的标签文件生成训练集和验证集，其中，所述标签文件包括：物体的个数、物体的类别、物体边界框、物体位姿关键点中的一种或组合；

2.根据权利要求1所述的一种基于深度学习的单目相机物体位姿估计方法，其特征在于，在步骤1)之前，所述方法还包括：

使用ImageNet库对级联卷积神经网络模型进行预训练。

3.根据权利要求1所述的一种基于深度学习的单目相机物体位姿估计方法，其特征在于，所述步骤1)，包括：

将所述二维图像转换到HSV色彩空间并剪裁掉黑色背景；

再将转换到HSV色彩空间的二维图像转换到RGB色彩空间；

将转换到RGB色彩空间的二维图像裁剪成设定尺寸；

4.根据权利要求1所述的一种基于深度学习的单目相机物体位姿估计方法，其特征在于，所述步骤2)，包括：

C：判断所述整体损失是否小于第二预设阈值；

D：若是，将当前网络作为训练后的卷积神经网络；

5.根据权利要求1所述的一种基于深度学习的单目相机物体位姿估计方法，其特征在于，所述步骤3)，包括：

6.一种基于深度学习的单目相机物体位姿估计装置，其特征在于，所述装置包括：

7.根据权利要求6所述的一种基于深度学习的单目相机物体位姿估计装置，其特征在于，所述装置还包括：预训练模块，用于使用ImageNet库对级联卷积神经网络模型进行预训练。

8.根据权利要求6所述的一种基于深度学习的单目相机物体位姿估计装置，其特征在于，所述生成模块，用于：

将所述二维图像转换到HSV色彩空间并剪裁掉黑色背景；

再将转换到HSV色彩空间的二维图像转换到RGB色彩空间；

将转换到RGB色彩空间的二维图像裁剪成设定尺寸；

9.根据权利要求6所述的一种基于深度学习的单目相机物体位姿估计装置，其特征在于，所述训练模块，用于：

C：判断所述整体损失是否小于第二预设阈值；

D：若是，将当前网络作为训练后的卷积神经网络；

10.根据权利要求6所述的一种基于深度学习的单目相机物体位姿估计装置，其特征在于，所述估计模块，还用于：