CN111652080A

CN111652080A - 基于rgb-d图像的目标跟踪方法和装置

Info

Publication number: CN111652080A
Application number: CN202010398775.4A
Authority: CN
Inventors: 户磊; 沈韬; 朱海涛; 陈智超; 李立业
Original assignee: Hefei Dilusense Technology Co Ltd
Current assignee: Hefei Dilusense Technology Co Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2020-09-11
Anticipated expiration: 2040-05-12
Also published as: CN111652080B

Abstract

本发明实施例提供一种基于RGB‑D图像的目标跟踪方法和装置，该方法包括：基于第i‑1帧是否发生目标被遮挡和第i帧对应的深度图像确定第i帧是否发生目标被遮挡；若是，则根据运动趋势预测第i帧的目标跟踪框位置RGB图像；若否，则将第i‑1帧的目标跟踪框位置RGB图像降维HOG特征输入第i帧的第n次更新的分类器输出第i帧的置信分图；基于置信分图确定第i帧目标跟踪框位置RGB图像，而第n次更新的分类器是基于第n‑1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的。本发明实施例提供的方法和装置，实现了考虑目标是否被遮挡且降低了目标跟踪的计算量。

Description

基于RGB-D图像的目标跟踪方法和装置

技术领域

本发明涉及深度图像技术领域，尤其涉及一种基于RGB-D图像的目标跟踪方法和装置。

背景技术

跟踪任务就是在给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的大小与位置，是计算机视觉中的一个重要研究方向，有着广泛的应用，如：视频监控，人机交互，无人驾驶等。

尽管科技发展迅速，RGB目标跟踪仍旧面临着诸多问题，比如：遮挡(Occlusion)、形变(Deformation)、尺度变换(Scale Variation)、背景杂乱(Background Clutter)、快速运动(Fast Motion)、旋转(Rotation)、实时性(Real Time)等。

因此，如何避免现有的RGB目标跟踪方法的考虑遮挡问题的欠缺，且计算量较大的情况，仍然是本领域技术人员亟待解决的问题。

发明内容

本发明实施例提供一种基于RGB-D图像的目标跟踪方法和装置，用以解决现有的RGB目标跟踪方法的考虑遮挡问题的欠缺且计算量较大的情况的问题。

第一方面，本发明实施例提供一种基于RGB-D图像的目标跟踪方法，包括：

对于待跟踪目标的视频序列，基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况；

若是，则根据运动趋势预测第i帧的目标跟踪框位置RGB图像；

若否，则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图；

基于所述置信分图确定第i帧的目标跟踪框位置RGB图像；

其中，所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的；所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器；第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的；i、n、q和m均为正整数，且1<q≤m。

优选地，该方法中，所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的，所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器，具体包括：

所述待跟踪目标的视频序列的前i帧序列为A＝{A₁,A₂,A₃,……,A_i}；

去除所述前i帧序列中的发生目标被遮挡的K个帧，得到对应于所述前i帧序列的无遮挡帧序列B＝{B₁,B₂,B₃,……,B_j}，其中，j＝i-K，并记录B中的元素与A中的元素的对应关系；

所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器；

第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧为从B中的元素B_m×(n-2)+1开始依次往后提取的q个B元素；

基于所述B中的元素与A中的元素的对应关系，确定所述q个B元素对应的q个A元素；

基于所述q个A元素确定第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本；

基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到第n次更新的分类器。

优选地，该方法中，所述基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况，具体包括：

基于k-means聚类算法输出第i帧对应的深度图的簇中形成连通的成分，基于所述成分对所述深度图中的目标进行区分；

基于所述目标区分结果确定目标框区域R_obj；

若i-1帧发生目标被遮挡，

当Φ(R_obj)＞λ_occ或

则判定第i帧发生目标被遮挡；

当Φ(R_bc)＜λ_occ且

则判定第i帧未发生目标被遮挡；

若i-1帧未发生目标被遮挡，

当Φ(R_obj)＞λ_occ且

则判定第i帧发生目标被遮挡；

当Φ(R_bc)＜λ_occ或

则判定第i帧未发生目标被遮挡；

其中，所述k-means聚类算法初始化时，确定k值为所述深度图的直方图的峰的个数，确定质心为所述直方图的各个峰对应的任意像素点的位置，Φ(R_obj)表示第i帧的目标框区域R_obj的深度值与深度图均值的差与两个目标框区域的深度图标准差之间的比率；f(z)_max是第i帧的目标区域框的响应分；λ_occ和

均为常数。

优选地，该方法中，所述根据运动趋势预测第i帧的目标跟踪框位置图像，具体包括：

对第i帧的目标状态X进行建模：

其中，u和v分别表示第i-1帧的目标中心的水平和垂直像素位置，s表示第i-1帧的目标面积和目标跟踪框的长的比，r表示第i-1帧的目标面积和目标跟踪框的宽的比，

和

表示第i-1帧的目标中心的水平和垂直像素位置，

表示第i-1帧的目标面积和目标跟踪框的长的比；

通过u、v、s和r基于卡尔曼最优地求解速度分量，确定

和

优选地，该方法中，所述将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图，具体包括：

将第i-1帧的目标跟踪框位置图像扩大h倍得到放大图像，再提取所述放大图像的降维HOG特征；

通过如下公式将所述降维HOG特征与第i帧对应的第n次更新的分类器f^d进行卷积，得到第i帧对应的置信分图S_f{x}：

其中，D＝3，D代表RGB三通道的个数，d的取值为1、2和3，分别代表R、G和B通道，f^d为对应d通道的分类器，J_d{x^d}为对应d通道的降维HOG特征。

优选地，该方法中，所述基于所述置信分图确定第i帧的目标跟踪框位置RGB图像，具体包括：

确定所述置信分图的峰值坐标，确定第i帧的目标跟踪框的中心点为该峰值坐标；

基于所述中心点确定第i帧的目标跟踪框位置RGB图像。

优选地，该方法中，还包括：

所述第n次更新的分类器的训练过程中，分类器f的损失函数E(f)通过如下公式确定：

其中，S_f{x_j}为第j个目标跟踪框位置RGB图像样本的置信分图，y_j为目标识别模板标签，α_j为对应于第j个目标跟踪框位置RGB图像样本的权重，M为目标跟踪框位置RGB图像样本的个数，D＝3，D代表RGB三通道的个数，d的取值为1、2和3，分别代表R、G和B通道，f^d为对应d通道的分类器，W为防止过拟合系数。

第二方面，本发明实施例提供一种基于RGB-D图像的目标跟踪装置，包括：

判别单元，用于对于待跟踪目标的视频序列，基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况；若是，则根据运动趋势预测第i帧的目标跟踪框位置RGB图像；若否，则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图；

确定单元，用于基于所述置信分图确定第i帧的目标跟踪框位置RGB图像；其中，所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的；所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器；第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的；i、n、q和m均为正整数，且1<q≤m。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的基于RGB-D图像的目标跟踪方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的基于RGB-D图像的目标跟踪方法的步骤。

本发明实施例提供的方法和装置，通过对于待跟踪目标的视频序列，基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况；若是，则根据运动趋势预测第i帧的目标跟踪框位置RGB图像；若否，则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图；基于所述置信分图确定第i帧的目标跟踪框位置RGB图像，其中，所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的。如此，本发明通过考虑第i帧是否发生目标被遮挡的情况，提供第i帧在目标是否发生被遮挡时不同的确定第i帧的目标跟踪框位置RGB图像的方法，同时，采用降维HOG特征也降低了计算量。因此，本发明实施例提供的方法和装置，实现了基于视频的深度图考虑目标是否被遮挡的问题，且降低了目标跟踪的计算量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于RGB-D图像的目标跟踪方法的流程示意图；

图2为本发明实施例提供的基于RGB-D图像的目标跟踪装置的结构示意图；

图3为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的基于RGB图的目标跟踪方法普遍存在考虑目标被遮挡欠缺和计算量大的问题。对此，本发明实施例提供了一种基于足底压力的足旋前检测方法。图1为本发明实施例提供的基于RGB-D图像的目标跟踪方法的流程示意图，如图1所示，该方法包括：

步骤110，对于待跟踪目标的视频序列，基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况；若是，则根据运动趋势预测第i帧的目标跟踪框位置RGB图像；若否，则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图。

具体地，现有的基于待跟踪目标的视频序列来进行待跟踪视频中的目标识别的过程通常是采集视频中每一帧的RGB图像，然后对每一RGB图像进行识别分析提取目标区域。而本发明实施例提供的目标跟踪方法需要采集视频序列是包含深度图的视频序列，即要确定该视频序列中每一帧图像中的目标区域时，首先要基于该帧对应的深度图判定该帧是否发生目标被其他物体遮挡的情况，发生目标被遮挡和未发生目标被遮挡时确定该帧对应的RGB图像中的目标区域的方法不同。进行目标跟踪时，通常是从该待跟踪目标的视频序列的第一帧开始识别第一帧图像中的目标区域，直到从该待跟踪目标的视频序列的当前帧开始识别当前帧图像中的目标区域，如此可以做到实时跟踪。本发明实施例中，要判断当前帧即第i帧是否发生目标被遮挡需要结合考虑前一帧即第i-1帧是否发生目标被跟踪以及当前帧即第i帧的深度图。若判断结果是第i帧发生目标被遮挡，则根据运动趋势预测第i帧的目标跟踪框位置，然后提取该目标跟踪框位置RGB图像；若判断结果是第i帧未发生目标被遮挡，则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图。对于未发生目标被遮挡的帧，每隔m个帧更新一次分类器，第i帧对应的是第n次更新的分类器，其中，i、n和m均为正整数。

步骤120，基于所述置信分图确定第i帧的目标跟踪框位置RGB图像；其中，所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的；所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器；第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的；i、n、q和m均为正整数，且1<q≤m。

具体地，基于所述置信分图确定第i帧的目标跟踪框位置RGB图像，即确定所述置信分图的峰值坐标，将所述峰值坐标作为待检测目标跟踪框的中心点，然后根据预先设定的目标跟踪框的长宽值，可以确定目标跟踪框的位置，然后基于所述目标跟踪框的位置可以提取出第i帧对应的RGB图像中的目标跟踪框位置RGB图像。此处也进一步定义了待跟踪目标的视频序列中的第i帧对应的第n次更新的分类器的训练方法，是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的，其中，待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器。举例说明，m的取值为4，待跟踪目标的视频序列中未发生目标被遮挡的帧为a₁，a₂，a₃，a₄，a₅，a₆，a₇，a₈，a₉，a₁₀，a₁₁，a₁₂，a₁₃，a₁₄，a₁₅，a₁₆，a₁₇，a₁₈，a₁₉，a₂₀，那么{a₁，a₂，a₃，a₄}对应第1次更新的分类器，{a₅，a₆，a₇，a₈}对应第2次更新的分类器，{a₉，a₁₀，a₁₁，a₁₂}对应第3次更新的分类器，{a₁₃，a₁₄，a₁₅，a₁₆}对应第4次更新的分类器，{a₁₇，a₁₈，a₁₉，a₂₀}对应第5次更新的分类器，若q＝3，则第2次更新的分类器是基于a₁，a₂和a₃的目标跟踪框位置RGB图像样本进行训练得到，第3次更新的分类器是基于a₅，a₆和a₇的目标跟踪框位置RGB图像样本进行训练得到，第4次更新的分类器是基于a₉，a₁₀和a₁₁的目标跟踪框位置RGB图像样本进行训练得到，第5次更新的分类器是基于a₁₃，a₁₄和a₁₅的目标跟踪框位置RGB图像样本进行训练得到。第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的。其中，目标识别模板是一种中间区域像素为255，其他区域像素为0的标准目标居中模板，而中间区域的位置面积可以预先设定调整。

本发明实施例提供的方法，通过对于待跟踪目标的视频序列，基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况；若是，则根据运动趋势预测第i帧的目标跟踪框位置RGB图像；若否，则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图；基于所述置信分图确定第i帧的目标跟踪框位置RGB图像，其中，所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的。如此，本发明通过考虑第i帧是否发生目标被遮挡的情况，提供第i帧在目标是否发生被遮挡时不同的确定第i帧的目标跟踪框位置RGB图像的方法，同时，采用降维HOG特征也降低了计算量。因此，本发明实施例提供的方法，实现了基于视频的深度图考虑目标是否被遮挡的问题，且降低了目标跟踪的计算量。

基于上述实施例，该方法中，所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的，所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器，具体包括：

具体地，进行第n次更新的分类器的训练时，首先要确定训练样本，而训练样本是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧确定的目标跟踪框位置RGB图像样本。若所述待跟踪目标的视频序列的前i帧序列为A＝{A₁,A₂,A₃,……,A_i}；去除所述前i帧序列中的发生目标被遮挡的K个帧，得到对应于所述前i帧序列的无遮挡帧序列B＝{B₁,B₂,B₃,……,B_j}，其中，j＝i-K，并记录B中的元素与A中的元素的对应关系；由于待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器，因此，可以确定第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧为从B中的元素B_m×(n-2)+1开始依次往后提取的q个B元素，即是B_m×(n-2)+1、B_m×(n-2)+2、......、B_m×(n-2)+q，然后基于B中的元素与A中的元素的对应关系，可以确定对应的q个A元素，基于所述q个A元素确定第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本，都是将前一个的A元素目标跟踪框位置RGB图像输入第n-1次更新的分类器输出得到下一个A元素目标跟踪框位置RGB图像。最后，基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到第n次更新的分类器。再使用样本训练分类器时，优选地，通过使用混合高斯模型(GMM)来生成不同的组件，每一个组件对应一组比较相似的样本，不同的组件之间有较大的差异性，如此，使得训练样本具有多样性。

基于上述任一实施例，该方法中，所述基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况，具体包括：

基于所述目标区分结果确定目标框区域R_obj；

若i-1帧发生目标被遮挡，

当Φ(R_obj)＞λ_occ或

则判定第i帧发生目标被遮挡；

当Φ(R_bc)＜λ_occ且

则判定第i帧未发生目标被遮挡；

若i-1帧未发生目标被遮挡，

当Φ(R_obj)＞λ_occ且

则判定第i帧发生目标被遮挡；

当Φ(R_bc)＜λ_occ或

则判定第i帧未发生目标被遮挡；

均为常数。

具体地，判定第i帧是否发生目标被遮挡需要考虑第i-1帧的目标是否被遮挡情况以及第i帧的深度图的情况。对于第i帧的深度图，进行k-means聚类算法处理，输出第i帧对应的深度图的簇中形成连通的成分，基于所述成分对所述深度图中的目标进行区分；基于所述目标区分结果确定目标框区域R_obj。若i-1帧发生目标被遮挡，当Φ(R_obj)＞λ_occ或

则判定第i帧发生目标被遮挡；当Φ(R_bc)＜λ_occ且

则判定第i帧未发生目标被遮挡；若i-1帧未发生目标被遮挡，当Φ(R_obj)＞λ_occ且

则判定第i帧发生目标被遮挡；当Φ(R_bc)＜λ_occ或

则判定第i帧未发生目标被遮挡，所述k-means聚类算法初始化时，确定k值为所述深度图的直方图的峰的个数，确定质心为所述直方图的各个峰对应的任意像素点的位置，Φ(R_obj)表示第i帧的目标框区域R_obj的深度值与深度图均值的差与两个目标框区域的深度图标准差之间的比率；f(z)_max是第i帧的目标区域框的响应分；λ_occ和

均为常数，优选地，λ_occ＝0.35，

基于上述任一实施例，该方法中，所述根据运动趋势预测第i帧的目标跟踪框位置图像，具体包括：

对第i帧的目标状态X进行建模：

和

表示第i-1帧的目标中心的水平和垂直像素位置，

表示第i-1帧的目标面积和目标跟踪框的长的比；

通过u、v、s和r基于卡尔曼最优地求解速度分量，确定

和

具体地，对视频帧中的目标物体的状态X进行建模：

和

表示第i-1帧的目标中心的水平和垂直像素位置，

表示第i-1帧的目标面积和目标跟踪框的长的比；通过u、v、s和r基于卡尔曼最优地求解速度分量，确定

和

基于上述任一实施例，该方法中，所述将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图，具体包括：

具体地，将第i-1帧的目标跟踪框位置图像扩大h倍得到放大图像，再提取所述放大图像的降维HOG特征，其中，h>1。进一步地，提取降维HOG特征过程如下：将RGB图像灰度化，使用伽马校正对图像颜色空间进行标准化，将检测区域划分成大小相同的单元(cell)，并计算其梯度信息，将相邻的单元组合成块(block)，进行归一化处理，将所有块的HOG特征组合起来，作为特征。在计算梯度信息的过程中，平均设置18个梯度方向，其中梯度方向

根据梯度的幅值和方向可以计算出当前点的梯度，每个梯度特征用4个相邻的块(block)去归一化，可以得到72维特征，再继续对72维特征进行降维，将HOG特征沿着梯度方向进行求和，即每个梯度方向对应的4个块进行求和，最后得到18维HOG特征。通过如下公式将所述降维HOG特征与第i帧对应的第n次更新的分类器f^d进行卷积，得到第i帧对应的置信分图S_f{x}：

基于上述任一实施例，该方法中，所述基于所述置信分图确定第i帧的目标跟踪框位置RGB图像，具体包括：

基于所述中心点确定第i帧的目标跟踪框位置RGB图像。

具体地，确定置信分图的峰值坐标，然后将该峰值坐标作为第i帧的目标跟踪框的中心点，然后，再根据预先设定的目标跟踪框的大小，确定出目标跟踪框位置信息，最后提取出目标跟踪框位置RGB图像。

基于上述任一实施例，该方法中，还包括：

具体地，该损失函数中的

这一项代表的是各样本输入分类器的输出结果与标签之间的差的和，该损失函数中的

这一项代表的是防止过拟合项。

基于上述任一实施例，本发明实施例提供一种基于RGB-D图像的目标跟踪装置，图2为本发明实施例提供的基于RGB-D图像的目标跟踪装置的结构示意图。如图2所示，该装置包括判别单元210和确定单元220，其中，

所述判别单元，用于对于待跟踪目标的视频序列，基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况；若是，则根据运动趋势预测第i帧的目标跟踪框位置RGB图像；若否，则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图；

本发明实施例提供的装置，通过对于待跟踪目标的视频序列，基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况；若是，则根据运动趋势预测第i帧的目标跟踪框位置RGB图像；若否，则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图；基于所述置信分图确定第i帧的目标跟踪框位置RGB图像，其中，所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的。如此，本发明通过考虑第i帧是否发生目标被遮挡的情况，提供第i帧在目标是否发生被遮挡时不同的确定第i帧的目标跟踪框位置RGB图像的方法，同时，采用降维HOG特征也降低了计算量。因此，本发明实施例提供的装置，实现了基于视频的深度图考虑目标是否被遮挡的问题，且降低了目标跟踪的计算量。

基于上述任一实施例，该装置中，所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的，所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器，具体包括：

基于上述任一实施例，该装置中，所述基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况，具体包括：

基于所述目标区分结果确定目标框区域R_obj；

若i-1帧发生目标被遮挡，

当Φ(R_obj)＞λ_occ或

则判定第i帧发生目标被遮挡；

当Φ(R_bc)＜λ_occ且

则判定第i帧未发生目标被遮挡；

若i-1帧未发生目标被遮挡，

当Φ(R_obj)＞λ_occ且

则判定第i帧发生目标被遮挡；

当Φ(R_bc)＜λ_occ或

则判定第i帧未发生目标被遮挡；

均为常数。

基于上述任一实施例，该装置中，所述根据运动趋势预测第i帧的目标跟踪框位置图像，具体包括：

对第i帧的目标状态X进行建模：

和

表示第i-1帧的目标中心的水平和垂直像素位置，

表示第i-1帧的目标面积和目标跟踪框的长的比；

通过u、v、s和r基于卡尔曼最优地求解速度分量，确定

和

基于上述任一实施例，该装置中，所述将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图，具体包括：

基于上述任一实施例，该装置中，所述基于所述置信分图确定第i帧的目标跟踪框位置RGB图像，具体包括：

基于所述中心点确定第i帧的目标跟踪框位置RGB图像。

基于上述任一实施例，该装置中，所述确定单元，还用于，

图3为本发明实施例提供的电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储在存储器303上并可在处理器301上运行的计算机程序，以执行上述各实施例提供的基于RGB-D图像的目标跟踪方法，例如包括：对于待跟踪目标的视频序列，基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况；若是，则根据运动趋势预测第i帧的目标跟踪框位置RGB图像；若否，则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图；基于所述置信分图确定第i帧的目标跟踪框位置RGB图像；其中，所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的；所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器；第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的；i、n、q和m均为正整数，且1<q≤m。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于RGB-D图像的目标跟踪方法，例如包括：对于待跟踪目标的视频序列，基于第i-1帧是否发生目标被遮挡的情况和第i帧对应的深度图像确定第i帧是否发生目标被遮挡的情况；若是，则根据运动趋势预测第i帧的目标跟踪框位置RGB图像；若否，则将第i-1帧的目标跟踪框位置RGB图像的降维HOG特征输入第i帧对应的第n次更新的分类器输出第i帧对应的置信分图；基于所述置信分图确定第i帧的目标跟踪框位置RGB图像；其中，所述第n次更新的分类器是基于第n-1次更新的分类器对应的前q个未发生目标被遮挡的帧的目标跟踪框位置RGB图像样本和目标识别模板标签进行训练得到的；所述待跟踪目标的视频序列中每隔m个未发生目标被遮挡的帧更新一次分类器；第一次更新的分类器是基于所述待跟踪目标的视频序列的第一帧的人工标注目标跟踪框位置RGB图像和目标识别模板进行训练得到的；i、n、q和m均为正整数，且1<q≤m。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。