CN111652901A

CN111652901A - 一种基于置信度和特征融合的无纹理三维物体跟踪方法

Info

Publication number: CN111652901A
Application number: CN202010487051.7A
Authority: CN
Inventors: 秦学英; 李佳宸; 钟凡; 宋修强
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-09-11
Anticipated expiration: 2040-06-02
Also published as: CN111652901B

Abstract

本发明涉及一种基于置信度和特征融合的无纹理三维物体跟踪方法,该跟踪方法的过程包括：(1)建立颜色模型；(2)使用集束结构将像素点分为轮廓点和区域点；(3)根据轮廓点的置信度与与区域点的置信度，确定边缘项的权重α_i、颜色项的权重β_i、以及集束权重ω_i；(4)根据所有集束对应总的能量方程，求最优位姿

用

对物体的三维模型进行渲染，得到当前帧图像上的物体区域；(5)以此类推，直到跟踪结束。本发明使用集束结构，将轮廓点与区域点重统一到一个能量函数中，解决采样点不统一的问题；对边缘点与区域点分别计算置信度，将其自动归一化，并依据置信度计算各个能量项的权重，解决不同特征误差度量不统一的问题。

Description

一种基于置信度和特征融合的无纹理三维物体跟踪方法

技术领域

本发明涉及一种基于置信度和特征融合的无纹理三维物体跟踪方法，属于计算机视觉领域。

背景技术

三维物体跟踪能够连续获得三维物体与相机之间的空间位置关系，是计算机视觉中的一项重要任务。目前三维跟踪已经有着广泛的应用场景，例如工业制造、医学诊断、娱乐游戏、机器人等领域。三维物体跟踪根据使用的视频数据类型不同，可以大致分为两类：基于RGB-D视频数据的三维跟踪和基于RGB视频数据的三维跟踪[Lepetit V,FuaP.Monocular model-based 3d tracking of rigid objects:A survey.Foundations and

in Computer Graphics and Vision,2005,1(1):1-89.]。

基于RGB-D数据跟踪的方法通过深度相机能获得场景中的三维信息，故基于RGB-D视频数据的三维跟踪方法能显著提高算法的稳定性。但该类方法需要配备深度相机，并受限于深度相机的使用条件，往往在室外场景以及物体较远时方法失效。

基于RGB视频数据的跟踪根据物体纹理性质可以分为有纹理和无纹理物体跟踪。有纹理物体跟踪容易在图像上检测特征点，如稳定的SIFT(Scale-invariant featuretransform，尺度不变特征变换)和ORB(Oriented FAST and Rotated BRIEF，一种快速特征点提取和描述的算法)特征点，并根据特征点间的对应关系获得较为鲁棒稳定的位姿参数。当物体没有纹理或纹理较弱时，不足以提取稳定特征点，会使该类方法失效。

目前，无纹理或弱纹理物体的跟踪则仍然面临诸多挑战，其面对的主要问题是无法找到特征点之间准确的对应关系。目前主要的方法分为基于边缘的方法和基于区域的方法；基于边缘的方法通常使用边缘特征匹配找到三维模型投影轮廓与输入图像边缘的对应关系，通过最小化二者之间误差迭代计算出物体的最优位姿[B.Seo,H.Park,J.Park,S.Hinterstoisser,S.Llic:Optimal local searching for fast and robust texture-less3d object tracking in highly cluttered backgrounds.IEEE Transactions onVisualization and Computer Graphics,20(1):99-110,2014],[Guofeng Wang,BinWang,Fan Zhong,Xueying Qin,Baoquan Chen:Global optimal searching fortextureless 3D object tracking.The Visual Computer 31(6-8):979-988(2015)],[Wang B,Zhong F,Qin X.Robust edge-based 3D object tracking with direction-based pose validation.Multimedia Tools and Applications,2019,78(9):12307-12331]。该类方法所涉及的采样点较少，因此具有显著的速度优势；基于边缘依赖于图像边缘线提取效果，当背景复杂或运动模糊时，边缘特征不易提取，算法容易跟踪失败。

基于区域的方法即基于颜色的方法，通过最大化前景和背景的颜色差异求解最优位姿，其划分前背景区域的过程也是隐式寻找物体轮廓的过程，在背景复杂场景的跟踪中更加具有优势[Prisacariu V A,Reid I D.PWP3D:real-time segmentation andtracking of 3D objects.International Journal of Computer Vision,2012,98(3):335-354],[H.Tjaden,U.Schwanecke,E.Schomer,and D.Cremers.A region-based gauss-newton approach to real-time monocular multiple object tracking.IEEEtransactions on pattern analysis and machine intelligence,2019.]。该类方法根据前背景颜色建立颜色概率模型，因此在一些复杂情况，例如前背景颜色相似、光照变化剧烈等场景，会导致图像颜色变化剧烈，使颜色模型不能及时更新导致跟踪失败。

将两种特征融合进行三维物体跟踪可以应对使用单类特征时失败的场景。虽然，目前已有一些基于特征融合的方法，但是这些方法仅仅是将边缘特征能量项与颜色特征能量项简单相加，使用一个平衡参数λ调整两个能量项之间的权重。这使得边缘项涉及的优化点与颜色项涉及的优化点相互独立，丢失二者之间的隐含关系，存在采样点不统一的问题。另外，边缘项与颜色项有着各自的能量函数及优化方式，使其能量函数单位不同，即存在特征度量不统一的问题。尽管λ可以平衡二者之间的度量，但其计算过程中往往包含一些需要手动选取的关键参数，导致在不同场景下关键参数选取的值差异很大，不能满足算法的普适性。

发明内容

针对现有技术的不足，本发明提供了一种基于置信度和特征融合的无纹理三维物体跟踪方法，该跟踪方法在融合颜色特征和边缘特征的基础上，解决单类特征在特定场景下可能失效的问题。

边缘特征涉及的采样点为物体轮廓点；颜色特征涉及的采样点为物体轮廓周围的区域点，同时包括前景点和背景点；针对两种特征涉及的不同采样点，本发明使用集束结构，将轮廓点与区域点重新组合并统一到一个能量函数中，考虑两类采样点间的隐含关系，解决采样点不统一的问题。

本发明对边缘点与区域点分别计算置信度，将其自动归一化，并依据置信度计算各个能量项的权重，解决不同特征误差度量不统一的问题，同时避免额外超参数的设置；依据置信度计算每个集束的权重，以此设置其参与优化的权重，屏蔽外点带来的负面影响。

术语解释：

1.集束结构：由所有模型投影轮廓点的法线构造，每个集束结构由17个采样点构成，包括1个轮廓点、8个前景点和8个背景点。

2.三维模型：三维模型是物体的几何表示，储存了物体的顶点信息和面信息，描述物体的顶点和面在物体坐标系下的空间位置。

本发明的技术方案为：

一种基于置信度和特征融合的无纹理三维物体跟踪方法,该跟踪方法包括如下步骤：

(1)将跟踪物体的三维模型、RGB单目相机拍摄的每一帧图像、第一帧位姿输入到计算机中，分别根据前景点、背景点和不确定区域点的颜色信息，使用颜色直方图建立对应的前景区域的颜色模型、背景区域的颜色模型和不确定区域的颜色模型；

(2)根据第一帧位姿将物体进行投影得到轮廓点，对于任一轮廓点x_i，沿其法线方向构造集束L_i，每个集束L_i包括1个轮廓点x_i和16个区域点

16个区域点

包括8个前景点和8个背景点，同时轮廓点也属于区域点，即

所有集束中的点构成优化区域；

(3)分别计算轮廓点x_i和区域点

的能量函数，并根据轮廓点x_i的置信度与区域点

的置信度，确定集束L_i上边缘项的权重α_i、颜色项的权重β_i；对于每个集束L_i，其优化方程为：

式(I)中，E_bundle(x_i,ξ)表示集束L_i的能量函数，看做是集束L_i的运动，由集束内的轮廓点和区域点共同决定；ξ表示位姿参数，由李代数表示；e_edge(x_i,ξ)表示轮廓点x_i的能量函数，

表示区域点

的能量函数；α_i表示边缘项的权重，β_i表示颜色项的权重，λ表示边缘项与颜色项的平衡参数；实验表明由于置信度的加入，方便λ的选取。

(4)优化区域中所有集束对应总的能量方程为：

式(II)中，E(ξ)表示最终优化的能量函数，ω_i表示集束L_i的权重；C表示物体的投影轮廓；

求最优位姿

使得对应的最终优化的能量函数

最小；式(II)看做将所有的集束运动求和，即最后的优化结果；

即为当前帧图像的返回值，表示算法计算得到了物体相对于相机的位姿，用

和物体的三维模型进行渲染，得到当前帧图像上的物体区域；另外，

又作为下一帧图像的初始位姿进行跟踪；

(5)从第二帧图像开始，依据当前帧图像、上一帧图像位姿及物体的三维模型进行当前帧的跟踪，重复步骤(2)-(4)，得到当前帧的位姿及当前帧的渲染图像，直到跟踪结束。

本发明中，使用集束结构解决不同特征采样点不统一的问题，每个集束将一个轮廓点和周围16个区域点(8个前景点和8个背景点)结合，通过置信度对各特征能量项加权，得到每个集束的运动，完成轮廓点和区域点的自然统一。置信度的加入可以自动统一单位度量，解决了不同特征误差度量不统一的问题。集束结构和置信度的引入自然地结合了两种特征的特点与优势，极大地提高了算法的稳定性。

根据本发明优选的，步骤(3)中，根据轮廓点x_i的置信度与区域点

的置信度，确定集束L_i上边缘项的权重α_i、颜色项的权重β_i，具体过程包括：

A、根据梯度方向计算轮廓点x_i的置信度，轮廓点x_i的置信度计算公式为：

c_edge(x_i)＝|cos(ori^I(x_i)-ori^I′(x_i))| (III)

式(III)中，c_edge(x_i)表示轮廓点x_i的置信度；ori^I(x_i)表示输入图像I上轮廓点x_i处的梯度方向；ori^I′(x_i)表示物体投影轮廓图像I’上点x_i处的梯度方向，即轮廓点x_i的法线方向；对两个方向形成的角度取余弦并绝对值化得到轮廓点x_i的置信度；这里c_edge(x_i)分布在0和1之间。

B、利用物体前景区域的颜色模型、背景区域的颜色模型以及不确定区域的颜色模型，来计算区域点

的置信度，区域点

的置信度计算公式为：

式(IV)中，

表示区域点

的置信度；Ω_f表示前景区域，Ω_b表示背景区域，Ω_u表示不确定区域，

表示区域点

处的颜色值

在不确定区域Ω_u的概率；

表示区域点

处的颜色值

在前景区域Ω_f的概率；

表示区域点

处的颜色值

在背景区域Ω_b的概率；

当区域点

在不确定区域Ω_u中的概率越大，区域点

的置信度越低，且

分布在0和1之间，经过步骤A、B得到轮廓点与区域点的置信度。

C、利用轮廓点x_i和区域点

的置信度计算集束L_i上边缘项的权重α_i、颜色项的权重β_i，计算公式如下：

式(V)中，

表示集束L_i上所有区域点颜色置信度的平均值；

式(VI)和式(VII)分别表示边缘项的权重α_i和颜色项的权重β_i，且进行了归一化。

根据本发明优选的，步骤(4)中，根据轮廓点x_i的置信度与区域点

的置信度确定集束L_i的权重ω_i，计算公式如下：

式(VIII)中，当轮廓点与区域点置信度都小于γ时，将ω_i设置为0，表示该集束内的点不参与优化，以屏蔽低质量的点或低置信度的像素点带来的负面影响。

集束L_i中轮廓点和区域点的置信度越低，集束L_i中轮廓点和区域点的权重ω_i越小，L_i中所有参与点所起的作用越小，可以削弱质量较低的点带来的负面影响。

优选的，式(VIII)中，γ＝0.5。

根据本发明优选的，步骤(1)中，不确定区域中点x满足条件为：

当点x处于前景区域，但P_f<P_b，P_f表示点x属于前景的概率，P_b表示点x属于背景的概率；或当点x处于背景区域，但P_b<P_f，则点x属于不确定区域；

前景点位于前景区域中，且与轮廓点的距离小于40个像素的点；

背景点位于背景区域中，且与轮廓点的距离小于40个像素的点。

根据本发明优选的，式(I)中，λ＝1。置信度的加入可以自动统一单位度量，即式(I)中，λ取1时效果达到最优，集束结构和置信度的引入自然地结合了两种特征的特点与优势，极大地提高了算法的稳定性。

根据本发明优选的，前景区域的颜色模型和背景区域的颜色模型每一帧更新一次，不确定区域的颜色模型每100帧更新一次。每次更新针对的是三种颜色模型对应的直方图。

本发明的有益效果为：

1.本发明提供的一种基于置信度和多特征融合的无纹理三维物体跟踪方法，使用置信度和集束结构将边缘特征和颜色特征这两类特征融合，解决单类特征(如边缘特征和颜色特征)在特定场景下可能失效的问题。使用特征融合的方式进行三维物体跟踪以应对各种复杂的场景。颜色特征和边缘特征有着各自的优势与不足，将两类特征融合可以处理不同的应用场景并提高跟踪鲁棒性。

2.本发明中使用集束结构解决不同特征采样点不统一的问题。边缘特征涉及的采样点为物体轮廓点，颜色特征涉及的采样点为物体轮廓周围的区域点，同时包括前景点和背景点；不同于将两种特征直接结合。本发明提供的跟踪方法采用了集束结构将轮廓点与区域点建立联系，依据集束结构重新组合并统一到一个能量函数中，考虑两类采样点间的隐含关系，解决不同特征采样点不统一的问题。

3.本发明中置信度的加入解决了不同特征误差度量不统一的问题。置信度的加入可以评判每个优化点的质量，设置其参与优化的权重。由于边缘项与颜色项有着各自的能量函数及优化方式，使其能量函数单位不同，即特征度量不统一；对边缘点与区域点分别计算置信度，并将其自动归一化，解决不同特征误差度量不统一的问题。根据置信度动态调整不同特征的权重，避免手动调参带来的不稳定性。

4.本发明提供的跟踪方法中，依据置信度计算每个集束的权重，以此设置其参与优化的权重，屏蔽低置信度点带来的负面影响。

5.本发明通过置信度和多特征融合，能够完成在复杂场景下(如复杂背景，前背景颜色相似，快速移动造成的运动模糊，光照变化等)的无纹理三维物体跟踪；其跟踪速度约为30帧每秒，满足实时性要求。

附图说明

图1是实施例1中集束结构示意图。

图2是实施例1中集束结构在真实场景中的示意图。

图3是实施例1中的输入图像，跟踪物体为电话模型。

图4是实施例1中的前景概率大于背景概率(P_f>P_b)的示意图。

图5是实施例1中的轮廓点置信度的示意图。

图6是实施例1中的区域点置信度的示意图。

图7是实施例1中的集束权重示意图。

图8是跟踪结果示意图。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明，但不限于此。

实施例1

颜色直方图表示不同颜色在整个区域中所占的比例；

步骤(1)中，不确定区域中点x满足条件为：

前景区域的颜色模型和背景区域的颜色模型每一帧更新一次，不确定区域的颜色模型每100帧更新一次。

(2)如图2所示，物体周围白色轮廓线表示物体轮廓，其周围灰色线表示集束结构。

根据第一帧位姿将物体进行投影得到轮廓点，对于任一轮廓点x_i，沿其法线方向构造集束L_i，每个集束L_i包括1个轮廓点x_i和16个区域点

16个区域点

包括8个前景点和8个背景点，同时轮廓点也属于区域点，即

所有集束中的点构成优化区域；

如图1所示，白色区域Ω_f表示前景区域，即物体投影区域；黑色区域Ω_b表示背景区域；黑色白色的交界处C即物体投影轮廓；对轮廓C上的任意轮廓点x_i，沿其法线方向构造集束L_i，每个集束L_i由1个轮廓点x_i和16个区域点

构成，包括8个前景点和8个背景点。

(3)分别计算轮廓点x_i和区域点

的能量函数，并根据轮廓点x_i的置信度与与区域点

表示区域点

的能量函数；α_i表示边缘项的权重，β_i表示颜色项的权重，λ表示边缘项与颜色项的平衡参数；实验表明由于置信度的加入，λ的选取将非常简单。

式(I)中，λ＝1。置信度的加入可以自动统一单位度量，即式(I)中，λ取1时效果达到最优，集束结构和置信度的引入自然地结合了两种特征的特点与优势，极大地提高了算法的稳定性。而在先前的方法中往往需要手动设置相关参数，并根据不同的场景调整该参数。我们用将用实验证明，由于置信度的加入，λ在任何场景下都可以设置为默认参数，即置信度具有特征度量归一化的作用。

步骤(3)中，根据轮廓点x_i的置信度与区域点

c_edge(x_i)＝|cos(ori^I(x_i)-ori^I′(x_i))| (III)

如图3和图5所示，图3为输入图像，跟踪物体为电话模型，图5为图3中电话对应的轮廓点置信度示意图。

的置信度，区域点

的置信度计算公式为：

式(IV)中，

表示区域点

表示区域点

处的颜色值

在不确定区域Ω_u的概率；

表示区域点

处的颜色值

在前景区域Ω_f的概率；

表示区域点

处的颜色值

在背景区域Ω_b的概率；

图6为图3中电话对应的区域点的置信度示意图。

当区域点

在不确定区域Ω_u中的概率越大，区域点

的置信度越低，且

不确定区域Ω_u中x满足条件为：

当点x处于前景区域，但P_f<P_b，P_f表示点x属于前景的概率，P_b表示点x属于背景的概率；或当点x处于背景区域，但P_b<P_f，则点x属于不确定区域Ω_u。

图4为图3对应的电话前景概率大于背景概率(P_f>P_b)示意图；

C、利用轮廓点x_i和区域点

式(V)中，

表示集束L_i上所有区域点颜色置信度的平均值；

(4)优化区域中所有集束对应总的能量方程为：

求最优位姿

使得对应的最终优化的能量函数

又作为下一帧图像的初始位姿进行跟踪；

步骤(4)中，根据轮廓点x_i的置信度与区域点

的置信度确定集束L_i的权重ω_i，计算公式如下：

式(VIII)中，γ＝0.5。

优化点的置信度越低，L_i中的优化点参与的权重越小，可以削弱低质量点带来的负面影响。图7为图3中电话对应的集束权重示意图。可以看出算法对每个点都给予了相应的置信度，来动态调整能量项和集束项的权重，说明置信度的有效性。

(5)从第二帧图像开始，依据当前帧图像、上一帧图像位姿及物体的三维模型进行当前帧的跟踪，得到当前帧的位姿及当前帧的渲染图像，直到跟踪结束。

前景区域的颜色模型和背景区域的颜色模型每一帧都更新，不确定区域的颜色模型每100帧更新一次。更新涉及前景区域的中的前景点和背景区域中的背景点，不确定区域中的点。

本发明提供的针对另一种物体的跟踪结果如图8所示，左图为输入图像，右图为根据优化得到的位姿将模型渲染到图像上的结果，模型用网格线绘制。

针对本实施例1提供的跟踪方法进行准确率的测试，实验采用的数据集为RBOT数据集[H.Tjaden,U.Schwanecke,E.Schomer,and D.Cremers.A region-based gauss-newton approach to real-time monocular multiple object tracking.IEEEtransactions on pattern analysis and machine intelligence,2019.]，该数据集利用相机拍摄的真实场景作背景,将渲染的虚拟物体叠加到真实背景上得到带基准位姿，是首个摄像机与物体同时运动的三维跟踪数据集。RBOT数据集中包含18个物体的三维模型，4种运动模式(常规模式，regular；动态光照模式，dynamic light；噪声和动态光照模式，noisy+dynamic light；遮挡模式，occlusion)，共72个视频序列，每个视频序列包含1001帧图像。

表1为在使用置信度的情况下，不同λ的取值下不同运动模式的准确率；表2为在不使用置信度的情况下，不同λ的取值下不同运动模式的准确率；表中数值表示相应λ取值和模式下，所有模型视频序列准确率的平均值。不使用置信度即将边缘能量项项权重α_i、颜色能量项权重β_i设置为0.5，集束权重ω_i设置为1.0。

表1

使用置信度	λ＝0.5	λ＝0.8	λ＝1.0	λ＝1.2	λ＝1.5	λ＝2.0
							常规模式	83.66	84.84	85.78	84.97	84.74	84.69
动态光照模式	84.88	85.95	86.73	86.09	85.96	85.92
							噪声和动态光照模式	70.96	71.13	71.38	70.02	70.11	68.12
遮挡模式	79.05	79.37	80.27	79.49	79.39	78.92

表2

不使用置信度	λ＝0.5	λ＝0.8	λ＝1.0	λ＝1.2	λ＝1.5	λ＝2.0
							常规模式	83.58	84.49	84.58	84.38	84.32	84.18
动态光照模式	84.17	85.41	85.34	85.78	85.78	85.43
							噪声和动态光照模式	70.09	69.85	68.44	68.59	67.50	66.63
遮挡模式	78.91	79.52	78.42	79.34	78.98	78.87

根据表1和表2，可以看出在使用置信度时，不论哪种模式，都是λ取1.0准确率达到最高。而不使用置信度时，λ的取值则需要根据不同场景调整才能达到最优，说明了置信度的加入对不同特征能量项有着归一化的作用。另外，有置信度的情况下，其准确率都高于没有置信度的情况。

本发明通过置信度和多特征融合，能够完成在复杂场景下(如复杂背景，前背景颜色相似，快速移动造成的运动模糊，光照变化等)的无纹理三维物体跟踪；其跟踪速度约为30帧每秒，满足实时性要求。

对比例1

采用Tjaden等提出的方法，基于区域的方法，仅使用颜色信息，建立前景颜色模型与背景颜色模型，通过最大化前景与背景之间的颜色差异得到最优位姿。[H.Tjaden,U.Schwanecke,E.Schomer,and D.Cremers.A region-based gauss-newton approach toreal-time monocular multiple object tracking.IEEE transactions on patternanalysis and machine intelligence,2019.].对比例1中的方法与本发明的方法相比，没有使用边缘信息，没有使用集束结构，没有使用置信度。

在RBOT数据上将实施例1中的提供的算法与对比例1提供的算法进行对比，实验结果如表3所示，表3为实施例1与对比例1提供跟踪方法的在RBOT数据集上准确率的比较。

表3

从表3中可以看出，本发明实施例1提供的算法全面优于对比例1提供的跟踪方法，针对猩猩、饮料罐、虎钳、果汁饮料瓶、相机、喷壶、猫、小丑玩具、正方体、电钻、鸭子、鸡蛋盒、胶水瓶、电熨斗、糖果盒、台灯、电话和松鼠18中模型的识别的准确率，在常规、动态光照和遮挡模式下，平均提高5％，在噪声+动态光照模式下准确率平均提高15％。

综上可知，本发明提供的跟踪算法使用集束结构解决不同特征采样点不统一的问题，每个集束将一个轮廓点和周围16个区域点结合，通过置信度对各特征能量项加权，得到每个集束的运动，完成轮廓点和区域点的自然统一。置信度的加入可以自动统一单位度量，解决了不同特征误差度量不统一的问题。集束结构和置信度的引入自然地结合了两种特征的特点与优势，极大地提高了算法的稳定性，提高了对物体识别的准确率。