CN106971195A

CN106971195A - 一种基于检测器和跟踪器的3d对象检测方法

Info

Publication number: CN106971195A
Application number: CN201710108809.XA
Authority: CN
Inventors: 聂为之; 彭文娟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-02-27
Filing date: 2017-02-27
Publication date: 2017-07-21

Abstract

本发明公开了一种基于检测器和跟踪器的3D对象检测方法，所述3D对象检测方法包括以下步骤：采用修正的TMD算法，在跟踪的过程中根据块区域的检测结果，对每一个块区域单独进行跟踪；利用检测和跟踪结果，在时间的约束下生成一组可靠的轨迹片段，轨迹片段是每个跟踪对象的表征特征；采用GS方法将得到的轨迹片段融合，得到图像中每个对象的标签。本发明避免了多目标场景下的对象遮挡对检测精度的影响，可以应用于解决3D场景中对象检测问题。

Description

一种基于检测器和跟踪器的3D对象检测方法

技术领域

本发明涉及3D对象检测领域，尤其涉及一种基于检测器和跟踪器的3D对象检测方法。

背景技术

随着3D视觉采集设备尤其是Kinect传感器的发展，3D点云数据集可以轻松获得，使得3D场景上下文标记和检测逐渐成为计算机视觉的热门研究课题^[1]。现有的3D对象检测方法，给计算机视觉和机器人的研究带来重大突破，但由于对象之间的遮挡以及复杂背景等因素的存在，使得对3D对象的检测仍存在很大的挑战。

针对对象检测，已经开发了许多方法以获得准确的结果。这些方法主要分为两类：基于2D图像中的对象检测和基于3D场景中的对象检测。

早期研究主要集中在2D图像中的对象检测。Viola等人^[2]提出了一种基于视觉对象检测的机器学习方法，它可以从较大的集合中选择少量关键视觉特征，并产生非常高效的分类器。Girshick等人^[3]提出了一种流行的检测结果(DPM(Deformable Part-basedModels，基于部分的可变形模型))，其使用可变形部分模型的混合，利用图像中对象边界框的区分方法来训练这些模型。Nie等人^[4]提出利用零件的分数来定义物体检测的最终分数，可以充分利用零件信息来判断物体的边界框，提高最终检测结果的查全率。

大规模的3D数据导致3D场景中的对象检测成为热门课题。Lai等人^[5]提出了一种基于视图的方法用于3D场景中的对象标记，其利用从SVM的对象视图中训练的滑动窗口检测器来完成。Koppula等人^[6]将对由一组对齐的RGB-D(Red Green Blue-Depth，彩色-深度)帧生成的点云进行分割，并基于在分段上累积的局部特征来执行分类。所有这些方法聚焦于三维场景中的3D对象检测，而忽略由RGB摄像机拍摄到的视觉信息。同时，这些方法常常依赖于大规模的训练方法，训练成本高。

3D对象检测目前面临的主要挑战为：通过机器学习方法来处理3D对象的弱特征问题时缺乏用于检测器学习的有效3D数据集；对象之间的遮挡和复杂背景的存在，给特征的提取以及分类器的训练造成很大困难；同类目标的差异性、观察视点变化、光照差异的影响，使得对象检测的鲁棒性受到很大制约。

发明内容

本发明提供了一种基于检测器和跟踪器的3D对象检测方法，本发明避免了多目标场景下的对象遮挡对检测精度的影响，提高了轨迹生成的可靠性，降低了计算的复杂度，详见下文描述：

一种基于检测器和跟踪器的3D对象检测方法，所述3D对象检测方法包括以下步骤：

采用修正的TMD算法，在跟踪的过程中根据块区域的检测结果，对每一个块区域单独进行跟踪；

利用检测和跟踪结果，在时间的约束下生成一组可靠的轨迹片段，轨迹片段是每个跟踪对象的表征特征；

采用GS方法将得到的轨迹片段融合，得到图像中每个对象的标签。

其中，所述3D对象检测方法还包括：采用修正的Exemplar-SVM算法，对深度图像和RGB图像分别学习分类器，以从测试视频中检测和跟踪每帧中的对象。

其中，所述3D对象检测方法还包括：发布一个现实世界的3D模型数据集MV-RED。

所述采用修正的TMD算法，在跟踪的过程中根据块区域的检测结果，对每一个块区域单独进行跟踪的步骤具体为：

根据最后一帧中的检测结果更新对象模型，把新的对象检测结果加入到训练样本中并删除训练样本中被错误划为正样本的负样本，通过在线学习不断地更新训练样本，保证检测器更适应于当前对象的状态；

利用更新模型中的模板，以增量方式学习具有随机森林的对象检测器，用于实时序列评估，根据跟踪结果和检测结果来预测出目标的真实位置。

所述根据跟踪结果和检测结果来预测出目标的真实位置的步骤具体为：

如果两个结果的重叠区域超过某个阈值，则选择两者的中间位置作为目标的新位置；

否则，选择与上一帧中目标特征相似度较大的结果作为在当前帧中跟踪目标的新坐标。

所述采用修正的Exemplar-SVM算法，对深度图像和RGB图像分别学习分类器，以从测试视频中检测和跟踪每帧中的对象的步骤具体为：

应用Exemplar-SVM训练对象i的分类器并收集预测分数S；

将其他对象的正样本添加到负样本中，并发起另一轮SVM训练；

重复前两个步骤，直到找不到新的正样本或达到预设迭代次数；从MV-RED数据集中为每个对象学习一组分类器，在检测过程中，为每个分类器获得一组检测分数，选择阈值过滤一些低质量检测结果，并选择最高的分数作为最终检测结果。

本发明提供的技术方案的有益效果是：

1、本发明发布了一个新的现实世界的3D模型数据集MV-RED(Multi-view RGB-Dobject Dataset，多视图RGB-D对象数据集)，为每个对象提供721个RGB图像和721个深度图像，足以学习每个对象的鲁棒性分类器；

2、提出的修正后的Exemplar-SVM(Exemplar Support Vector Machine，基于范例的支持向量机)方法，可以更新训练样本，使分类器的鲁棒性得到明显的改善；

3、利用检测器与跟踪器来提高对象检测的准确性，通过修正的TMD(Tracking-Modeling-Detection，跟踪-建模-检测)方法克服遮挡处理的无效性，有效地解决目标小范围遮挡的问题，保证轨迹片的准确性。

附图说明

图1为一种基于检测器和跟踪器的3D对象检测方法的流程图；

图2为所提出算法在不同场景下对盒子的检测结果的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

为了解决以上问题，需要能够全面、自动、准确地检测对象并生成对象的运动轨迹。研究表明：一般检测器不能保证检测精度为100％，采用检测加跟踪的方式可以弥补检测器的不足，提高检测精度。本发明实施例提出了基于检测器和跟踪器的3D对象检测方法，参见图1，详见下文描述：

101：采用修正的TMD算法，在跟踪的过程中根据块区域的检测结果，对每一个块区域单独进行跟踪；

102：利用检测和跟踪结果，在时间的约束下生成一组可靠的轨迹片段，轨迹片段是每个跟踪对象的表征特征；

103：采用GS方法将得到的轨迹片段融合，得到图像中每个对象的标签。

其中，在步骤101之前，该3D对象检测方法还包括：采用修正的Exemplar-SVM算法，对深度图像和RGB图像分别学习分类器，以从测试视频中检测和跟踪每帧中的对象。

其中，在步骤101之前，该3D对象检测方法还包括：发布一个现实世界的3D模型数据集MV-RED。

其中，步骤101中的采用修正的TMD算法，在跟踪的过程中根据块区域的检测结果，对每一个块区域单独进行跟踪的步骤具体为：

进一步地，上述根据跟踪结果和检测结果来预测出目标的真实位置的步骤具体为：

进一步地，采用修正的Exemplar-SVM算法，对深度图像和RGB图像分别学习分类器，以从测试视频中检测和跟踪每帧中的对象的步骤具体为：

应用Exemplar-SVM训练对象i的分类器并收集预测分数S；

综上所述，本发明实施例避免了多目标场景下的对象遮挡对检测精度的影响，提高了轨迹生成的可靠性，降低了计算的复杂度。

实施例2

下面结合具体的计算公式、图1对实施例1中的方案进行进一步地介绍，详见下文描述：

201：发布一个现实世界的3D模型数据集MV-RED；

多视图RGB-D对象数据集(MV-RED)，由天津大学多媒体研究所记录，通过三个Kinect传感器在两种不同的设置下分别记录共505个对象，所记录的每个对象具有721个RGB图像和721个深度图像，每个RGB图像和深度图像的分辨率为640×480。

两种记录设置之间的差异在于视图采集的方向。第一种设置下记录202个对象，相机1、相机2与桌面的夹角分别为0°和45°。第二种设置下记录303个对象，相机1、相机2与桌面的夹角分别为45°和60°。

具体地，相机1和相机2由步进电机控制桌子均匀旋转来捕获360个RGB和深度图像，相机3在自顶向下视图中仅捕获一个RGB图像和一个深度图像，通过这种方式，每个对象具有721个RGB图像和721个深度图像。

202：采用修正的Exemplar-SVM算法，对深度图像和RGB图像分别学习分类器，以从测试视频中检测和跟踪每帧中的对象{d₁,d₂,...,d_n}；

图像中感兴趣的目标物体，都可以称之为“范例(Exemplar)”。MV-RED数据集中的每个对象，均包括一组RGB图像和深度图像。从深度图像X_E中提取HOG(Histogram ofOriented Gradient，方向梯度直方图)模板，对于每个范例或正样本，利用Exemplar-SVM算法^[7]学习一个检测器(W_E,b_E)，在特征空间中最大程度地将正样本X_E'从所有负样本窗口N_E中分离开，其中，W_E为范例的权重；b_E为范例的偏置向量。分类器即学习范例的特定HOG权重向量。权重向量通过优化以下凸函数获得：

其中，W为权重向量；C₁和C₂是分类器对错误分类的正样本、及错误分类的负样本的惩罚系数；ξ_j为铰链损失函数；y_j为第j个分类标签；w_i ^Tx_j+b_i为线性判别函数，具体地，x_j是第j个训练样本的视觉特征向量，w_i为第i个范例的权向量，T表示转置，b_i为第i个范例的偏移量。

实际训练过程中，由于正样本与负样本非常相似，惩罚系数很难确定，所以，本发明实施例对Exemplar-SVM算法进行修正，采用迭代学习的方式为最终的分类器选择高辨别度的正样本，具体为：

1)应用Exemplar-SVM训练对象i的分类器并收集预测分数S；

2)将其他对象的正样本添加到负样本中，并发起另一轮SVM训练；

3)重复前两个步骤，直到找不到新的正样本或达到预设迭代次数；

4)从MV-RED数据集中为每个对象学习一组分类器，在检测过程中，为每个分类器获得一组检测分数，选择阈值T过滤一些低质量检测结果，并选择最高的分数作为最终检测结果。

同样地，提取RGB图像的HSV(Hue Saturation Value，色度-饱和度-亮度)特征，通过上述修正的Exemplar-SVM算法学习分类器，用于训练跟踪器和补救检测器的缺陷。

203：采用修正的TMD算法，利用跟踪器的跟踪结果{t₁ ^k,t₂ ^k,...,t_m ^k}提高检测器的准确性，在跟踪的过程中根据块区域的检测结果{d₁ ^k,d₂ ^k,...,d_n ^k}，对每一个块区域单独进行跟踪；

修正的TMD算法包含以下两个步骤：

1)训练模型；

将检测结果用于训练每个跟踪对象的个体检测器。每次训练过程中，根据最后一帧中的检测结果更新对象模型，把新的对象检测结果加入到训练样本中并删除训练样本中被错误划为正样本的负样本，通过在线学习不断地更新训练样本，保证检测器更适应于当前对象的状态，

2)检测。

利用更新模型中的模板，以增量方式学习具有随机森林的对象检测器，用于实时序列评估，根据跟踪结果{t₁ ^k,t₂ ^k,...,t_m ^k}和检测结果{d₁ ^k,d₂ ^k,...,d_n ^k}来预测出目标的真实位置；

即，如果两个结果的重叠区域超过某个阈值，则选择两者的中间位置作为目标的新位置；否则，选择与上一帧中目标特征相似度较大的结果作为在当前帧中跟踪目标的新坐标。

204：利用检测器的检测结果{d₁ ^k,d₂ ^k,...,d_n ^k}和跟踪器的跟踪结果{t₁ ^k,t₂ ^k,...,t_n ^k}，在时间的约束下生成一组可靠的轨迹片段{o₁ ^k,o₂ ^k,...,o_n ^k}，轨迹片段是每个跟踪对象的表征特征；

通过修正的TMD算法，引入在线学习的方式，根据跟踪结果{t₁ ^k,t₂ ^k,...,t_n ^k}和检测结果{d₁ ^k,d₂ ^k,...,d_n ^k}预测出目标的真实位置，保证最终检测结果的鲁棒性，得到可靠的轨迹片段{o₁ ^k,o₂ ^k,...,o_n ^k}，其中，k为帧号。

205：重复步骤203-204，直至测试视频结束；

206：采用GS(Graph shift，图偏移)方法将得到的轨迹片段融合，得到图像中每个对象的标签。

基于上述过程，获得测试视频中的不同对象一组可靠的轨迹片段，每个轨迹片段包括一组检测结果。

记录每个轨迹片的初始和终止状态，包括位置和时空时间信息，然后使用t_i＝{n_s,n_e,f_c,f_d,x_s,y_s,x_e,y_e}来代表每一个轨迹片，n_s是初始状态的轨迹片，n_e是终止状态的轨迹片，f_c是轨迹片的HSV特征，f_d是轨迹片的HOG特征，(x_s,y_s)是轨迹片的初始位置，(x_e,y_e)是轨迹片的终止位置，两个不同轨迹片的相似性用下式来计算：

S(i,j)＝εd(i,j)+τ₁h^c(i,j)+τ₂h^d(i,j)

其中，S(i,j)是轨迹片段i与轨迹片段j的相似度，d(i,j)代表轨迹片段i与轨迹片段j的空间距离，h^c(i,j)和h^d(i,j)是轨迹片段i与轨迹片段j在不同特征空间中的相似度，ε、τ₁、τ₂分别是d(i,j)、h^c(i,j)、h^d(i,j)的权重，本方法中设置ε＝τ₁＝τ₂＝0.3

d(i,j)的求解公式如下：

其中，(x_ie,y_ie)是视频中轨迹片段i的终止位置，(x_js,y_js)视频中轨迹片段j的初始位置，轨迹片段i与轨迹片段j的相似性用欧氏距离表示：

其中，f_i表示轨迹片段i的特征，f_j表示轨迹片段j的特征。

相似性可以用于构建图模型，通过构建图模型，利用图形移位方法将产生的一段段的轨迹片融合，最终得到的密集子图即为每个对象的运动轨迹。下面介绍图模型的构建方式：

图模型中，每个节点表示每个轨迹片，每个边表示两个不同轨迹片之间的相似性，密集子图是每个对象的轨迹。采用GS方法^[8]来检测密集子图，将多媒体的相邻矩阵A作为输入，轨迹图的子图由概率集群X∈Δⁿ表示，其中，Δⁿ＝{x|x∈Rⁿ,x≥0,|x|₁＝1}，Δⁿ为概率集群；x为子图包含每个顶点的概率，是单位映射向量；Rⁿ为n维实数集。每个局部最大值表示图的密集子图，即每个对象的检测结果。目标函数如下：

X^*＝arg max X^TAX

∑X_i＝1，X_i≥c_i

其中，A为邻接矩阵；X^*为密集子图；X_i为第i个顶点包含在子图中的概率；c_i为常数，当i＝0时，c_i＝1，当i＝1,...,n时，c_i＝0。

使用多次图形移位，以获得一组子图作为数据关联的结果。采用拉格朗日处理优化问题。引入拉格朗日乘数λ、α_i,i＝1,...,n，得到拉格朗日函数：

局部最大值X^*必须满足KKT(Karush-Kuhn-Tucker，一种最优化条件)条件：

其中，X_i ^*为第i个顶点包含在密集子图中的概率；

实施例3

下面结合具体的实例、计算公式、表1和表2对实施例1和2中的方案进行可行性验证，详见下文描述：

本实验发布了一个由天津大学多媒体研究所记录的基于多视角和多模态信息的现实世界对象数据集，名为多视图RGB-D对象数据集(MV-RED)。该数据集通过三个Kinect传感器在两种不同的设置下分别记录202个和303个对象，所记录的每个对象具有721个RGB图像和721个深度图像，每个RGB图像和深度图像的分辨率为640×480，两种设置之间的差异在于视图采集的方向，使得基于该数据集的视图匹配难度增加。

不失一般性的，本实验使用查准率(Precision)与查全率(Recall)来衡量方法的检索性能。查准率与查全率是三维物体检索性能评估的重要指标之一，查准率越大，代表检索性能越优良。Recall和Precision根据以下公式求得：

其中，Recall是查全率；N_z是正确检索对象的数量；N_r是所有相关对象的数量。

其中，Precision是查准率，N_all是所有检索对象的数量。

实验中将本方法与DPM算法、原始Exemplar-SVM方法进行对比来验证所提出方法的检测性能；与Graph Cut、K-means等聚类算法进行比较来验证数据关联的准确性：

DPM^[3]：利用根滤波器在检测区域上定位对象的各个部件，对象的最终分数由所有部件滤波器和根过滤器的响应计算。

Exemplar-SVM^[7]：。为每一个单独的属于同类的范例训练出独一无二的分类器，将其通过一定方式集成后用于目标检测。

Graph Cut^[9]：又称“图像分割”。是一种十分有用和流行的能量优化算法。

K-means^[10]：又称“K-均值”。是一种基于样本间相似性度量的间接聚类方法。

表1

由表1可知，本方法所提出的方法优于DPM和原始Exemplar-SVM方法。这是由于DPM通过在一些固定角度或某些固定元素中学习检测器，在实际检测过程中不灵活，很难检测视频中出现的特殊形状；与原始的Exemplar-SVM比较，本方法通过更新训练样本来保证鲁棒性分类器，可以减少错误检测结果的数量。

表2

由表2可知，本方法胜过比较的聚类方法。这是由于所提出的方法利用图形移位来处理数据关联，在优化过程中，每次运行将更新每个子簇的所有点，以保证所有节点的特征相似。实验结果验证了本方法的可行性与优越性。

参考文献：

[1]熊亮.基于视频序列的运动检测与跟踪方法研究[D].华南理工大学,2010.

[2]Paul Viola,Michael Jones,Rapid object detection using a boostedcascade of simple features.In:Proceedings of the 2001IEEE Computer SocietyConference on Computer Vision and Pattern Recognition,2001,CVPR 2001,vol.1.IEEE,Kauai,Hawaii,USA,2001,p.I-511.

[3]Ross B.Girshick,Pedro F.Felzenszwalb,D.McAllester,DiscriminativelyTrained Deformable Part Models,Release5,2012.

[4]Weizhi Nie,Anan Liu,Yuting Su,Huan-BoLuan,Zhaoxuan Yang,LiujuanCao,Rongrong Ji,Single/cross-camera multiple-person tracking by graphmatching,Neurocomputing139(2014)220–232.

[5]Kevin Lai,Liefeng Bo,Xiaofeng Ren,Dieter Fox,Detection-basedobject labeling in 3D scenes,in:IEEE International Conference on Robotics andAutomation,ICRA 2012,St.Paul,Minnesota,USA,14–18May2012,pp.1330–1337.

[6]Hema S.Koppula,Abhishek Anand,Thorsten Joachims,Ashutosh Saxena,Semantic labeling of 3D point clouds for indoor scenes,in:Advances in NeuralInformation Processing Systems,2011,pp.244–252.

[7]陈璐艳.基于范例集成的目标检测模型研究[D].上海交通大学,2015.

[8]Hairong Liu,Shuicheng Yan,Robust graph mode seeking by graphshift,in:Proceedings of the 27th International Conference on Machine Learning(ICML10),Haifa,Israel,21–24June2010,pp.671–678.

[9]高林爽.基于Graph Cuts的图像分割方法研究[D].宁夏大学,2015.

[10]Chris H.Q.Ding,Xiaofeng He,and Horst D.Simon.Nonnegativelagrangian relaxation of k-means and spectral clustering.In ECML,pages 530–538,2005.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于检测器和跟踪器的3D对象检测方法，其特征在于，所述3D对象检测方法包括以下步骤：

2.根据权利要求1所述的一种基于检测器和跟踪器的3D对象检测方法，其特征在于，所述3D对象检测方法还包括：

采用修正的Exemplar-SVM算法，对深度图像和RGB图像分别学习分类器，以从测试视频中检测和跟踪每帧中的对象。

3.根据权利要求1所述的一种基于检测器和跟踪器的3D对象检测方法，其特征在于，所述3D对象检测方法还包括：

发布一个现实世界的3D模型数据集MV-RED。

4.根据权利要求1所述的一种基于检测器和跟踪器的3D对象检测方法，其特征在于，所述采用修正的TMD算法，在跟踪的过程中根据块区域的检测结果，对每一个块区域单独进行跟踪的步骤具体为：

5.根据权利要求4所述的一种基于检测器和跟踪器的3D对象检测方法，其特征在于，所述根据跟踪结果和检测结果来预测出目标的真实位置的步骤具体为：

6.根据权利要求2所述的一种基于检测器和跟踪器的3D对象检测方法，其特征在于，所述采用修正的Exemplar-SVM算法，对深度图像和RGB图像分别学习分类器，以从测试视频中检测和跟踪每帧中的对象的步骤具体为：

应用Exemplar-SVM训练对象i的分类器并收集预测分数S；