CN107730535A

CN107730535A - 一种可见光红外级联视频跟踪方法

Info

Publication number: CN107730535A
Application number: CN201710829198.8A
Authority: CN
Inventors: 曹世翔; 李岩; 谭伟; 邢坤; 周楠; 江澄; 何红艳
Original assignee: Beijing Institute of Space Research Mechanical and Electricity
Current assignee: Beijing Institute of Space Research Mechanical and Electricity
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2018-02-23
Anticipated expiration: 2037-09-14
Also published as: CN107730535B

Abstract

本发明涉及一种可见光红外级联视频跟踪方法。所述方法使用可见光数据通道和红外数据通道级联的方式分别获取两路数据通道的追踪结果，并对追踪结果进行取舍。兼顾了两种通道目标探测的长处，弥补了各自的缺陷，提升了跟踪能力。

Description

一种可见光红外级联视频跟踪方法

技术领域

本发明属于视频图像处理和应用领域，具体涉及一种可见光红外级联视频跟踪方法。

背景技术

视频目标跟踪指的是通过对视频序列进行分析，自动获取感兴趣目标的位置、速度、大小等属性信息。

随着时代发展，早期雷达跟踪体系(1937年世界第一部跟踪雷达站SCR-28出现)正面临着反辐射武器攻击、目标电磁隐身、电子干扰和低空突防等威胁的挑战。被动成像方式，尤其是光电平台，以分辨率高、图像信息丰富的特点成为目标探测的主力军，这也是近年来光学类目标跟踪研究热度不减的主要原因。

近年来，随着对目标探测认识和设计水平的提升，同时为了兼顾分辨率提高后相机尺寸和质量的需求，减少相机和卫星的成本。由于可见光波段捕获信号能量带宽，目标分辨清晰；红外热交互特征可大大增强目标发现能力，同时具备昼夜成像能力，因此提出了可见光红外一体化相机系统并投入使用。

基于简单的全局特征如颜色(Meanshift方法)和灰度直方图并采用轨迹滤波的方法由于精度和稳定性不高，已不独立成为实际系统，多成为广义跟踪算法的一部分。自从实现TLD长时跟踪算法后，各类扰动(遮挡、光照等)下的跟踪数学方法和目标学习方法的发展越来越受到重视，如相关跟踪(算法效率高)。2013年开始VOT(Visual Object TrackingChallenge)项目持续每年对图像目标跟踪算法性能进行比较。2015年该项目组公开征集多源图像数据集(特别是热红外数据)和跟踪方法，并公开了红外图像的乏纹理跟踪器(如LT-FLO)，取得了一些基础的比较结果。然而上述跟踪方法均采用单一传感器获取到的信息(可见光或红外)，受各自工作机理限制，在反映目标属性上存在局限。如可见光容易被目标伪装迷惑；而红外图像中目标纹理弱，清晰度较差。另外，TLD中的长时跟踪框架在双通道图像中缺少工作指导原则。

现有技术中，公开了采用Meanshift实现可见光、红外双通道目标跟踪，但其跟踪器性能不高(长时跟踪容易失稳)；在Meanshift方法的基础上引入轮廓特征，用于计算目标的位置、宽和高，但其水平集轮廓提取方法复杂度高，且同样不能维持长时间目标先验跟踪信息；对可见光红外图像进行融合，并采用Camshift方法进行目标跟踪，但其跟踪性能严重依赖于图像融合算法且基础跟踪方法落后。

综上所述，现有跟踪方法应用到可见光红外视频序列中均存在不同程度的不适应。在实际操作过程中存在以下缺点：

1)短时跟踪器不具备自动再启动功能，当目标遮挡或离场再进场后无法再维持跟踪状态；

2)长时跟踪框架未考虑红外图像的弱纹理特性及可见光红外两通道信息的级联，缺少联合跟踪的准则；

3)可见光、红外图像分辨率通常存在很大程度的分辨率差异，采用图像融合方法进行跟踪则继承了现有融合的一般缺陷，面临信息取舍的难题。

发明内容

本发明的技术解决问题是：针对可见光红外双通道目标视频跟踪问题，改善长时稳定跟踪框架中子块组成，选择性能最佳的短时跟踪器替代原用的检测器，提升跟踪速度和准确度；提出红外和可见的级联工作原则，综合使用可见光图像和红外图像，弥补单谱段跟踪的缺陷；克服现有短时跟踪器的非学习机制，得到目标历史先验信息，形成信息积累的闭环。

本发明的技术解决方案是：提出一种可见光红外级联视频跟踪方法，包括以下步骤：

从可见光红外一体化探测得到的视频序列中分离可见光数据和红外数据，分别送入可见光数据通道和红外数据通道；

当首次跟踪所述视频序列T₀时刻的图像时，在可见光数据通道和红外数据通道的任一通道中的数据图像中手动框选初始窗口R₀作为目标的跟踪区域，当非首次跟踪视频序列中的图像时，启动离线检测器获取初始窗口；

对初始窗口R₀进行变换，形成正样本库W_good，初始窗口R₀外其它区域均进入负样本库W_bad；

在T₁时刻的图像中，在搜索空间L内基于所述初始窗口进行滑动搜索，在可见光数据通道中，使用有方差检测器筛选正样本和负样本，并使用相关短时跟踪器，在红外数据通道中，使用无方差检测器筛选正样本和负样本，并使用乏纹理短时跟踪器，有方差检测器或无方差检测器获得的检测结果为D_best，相关短时跟踪器或乏纹理短时跟踪器获得的跟踪结果为T_best，其中，有方差检测器由方差分类器、集成分类器和最近邻分类器组成，无方差分类器由集成分类器和最近邻分类器组成，其中，T₁时刻的图像是T₀时刻的图像的下一帧；

按照与上一帧图像跟踪区域的重叠率，对D_best和T_best进行抉择；

将可见光数据通道和红外数据通道分别选择的D_best或T_best输入各自的学习器，以用于训练集成分类器；

按照可见光红外一体化跟踪准则对可见光数据通道和红外数据通道的搜索结果进行取舍，得到准确的跟踪区域R_new，并作为正样本送入W_good中，其余作为负样本送入W_bad；

将正样本库W_good和负样本库W_bad用于训练离线检测器，并进行T₂时刻图像的跟踪，直到视频序列结束或可见光红外一体化跟踪准则判断停止，其中，T₂时刻图像是T₁时刻图像的下一帧图像，所述视频序列的每一帧图像均搜索完毕时视频序列结束。

根据本发明的一个实施例，对初始窗口图像子块R₀进行变换，形成正样本库W_good的步骤为：对初始窗口R₀进行n次旋转，得到由旋转角度为θ的R₀的n个图像子块组成的集合作为正样本库W_good＝Rotate{R₀，θ}，θ＝0，θ_m，…，θ_m*n，其中，θ_m*n≤360，θ_m为每次旋转的角度，θ为当前的旋转角度。

根据本发明的一个实施例，所述搜索空间L的按照以下公式计算：

其中，n，m为图像的宽和高，w，h为初始窗口的宽和高，dx，dy为平移尺度。

根据本发明的一个实施例，所述方差分类器通过以下步骤筛选正样本和负样本：设定输入所述方差分类器的图像块为p，通过公式E(p²)-E(p)²计算图像块p所有像素点灰度的方差，其中E(p)是图像区域的灰度均值，E(p²)表示区域像素平方和的均值，如果图像块p所有像素点灰度得方差小于阈值E_th，则图像块p是负样本，否则图像块p是正样本。

根据本发明的一个实施例，所述集成分类器通过以下步骤筛选正样本和负样本：

首次跟踪图像时，采用以下特征描述方法，筛选正样本和负样本：

a)图像分块，将检测窗口内的图像区域按水平和垂直方向分为四块，将水平方向分割出的图像子块记为a₁与a₂；将竖直方向分割出的图像子块记为a₃与a₄；

b)梯度比较，计算a_i(i＝1，2，3，4)图像块内的像素和值I(a_i)，并分别比较；

c)根据以下等式获取编码值BP：

使用集成分类器在线检测时，统计样本库中的样本与检测窗口得到同样一组编码值BP的概率，当多个集成分类器得到的概率均值超过概率阈值时，则检测窗口为正样本，否则为负样本；

非首次跟踪图像时，使用更新的样本库W_good和W_bad中的样本重新计算集成分类器的编码值BP。

根据本发明的一个实施例，最近邻分类器通过以下步骤筛选正样本和负样本：

设定图像块p_i和p_j之间的相似度S由等式表示，其中其中，n表示归一化后图像块内的像素个数，μ₁，μ₂与σ₁，σ₂分别表示图像块p_i与p_j的均值和标准差；

待检测图像块p与最相似的正样本的相似度为：

待检测图像块p与最相似的负样本的相似度为：

其中，M为由多个正样本和负样本组成的目标模型，待检测图像块p与目标模型的最终相似度为：

如果则待检测图像块p是正样本，否则待检测图像块p为负样本，其中，θ_NN为相似度阈值，值最大的正样本为检测器获得的检测结果D_best。

根据本发明的一个实施例，按照与上一帧图像跟踪区域的重叠率，对D_best和T_best进行抉择包括：按重叠率最大原则抉择D_best和T_best，其中，重叠率Overlap按照等式来计算，R为上一帧图像跟踪区域。

根据本发明的一个实施例，可见光红外一体化跟踪准则为：

当在红外数据通道中跟踪上所述目标时，直接修正可见光跟踪结果同时以维持红外通道中的跟踪区域灰度值偏差最小为约束方程；

当在可见光通道中跟踪上所述目标时，对可见光数据通道的集成分类器的后验置信概率进行阈值设置，以防止可见光数据图像中的目标伪装；

当在红外数据通道中未跟踪上目标时，维持预定的帧数，如果目标仍未出现，则跟踪过程结束。

本发明与现有技术相比的优点在于：

(1)本发明可见光通道短时跟踪器采用相关跟踪，计算速度明显优于原始TLD中的光流法；红外通道采用乏纹理跟踪器，稳定性优于原始光流法。

(2)采用长时跟踪框架，使得跟踪具备再启动能力，当目标短暂遮挡或出视场时，能够维持其跟踪先验；

(3)提出了可见光红外一体化跟踪准则，兼顾了两个通道目标探测的长处，弥补了各自的缺陷，维持跟踪的能力大大增强；

(4)目标历史学习信息能够存储，作为下一次跟踪的先验，并且在后续跟踪过程中进一步修正，跟踪精度高。

附图说明

图1为根据本发明的实施例的可见光红外级联视频跟踪方法原理图；

图2为根据本发明的实施例的检测器示意图；

图3为根据本发明的实施例的可见光红外级联跟踪方法示意图。

具体实施方式

以下结合附图，详细说明本发明的实施例。

如图1所示，典型的目标跟踪机制主要由跟踪器、检测器、学习器三部分组成。

在跟踪器方面，在可见光数据通道中，目标纹理清晰，适合采用计算速度快的相关跟踪方法。相关是衡量两个信号相似值的度量，信号越相似其相关值就越高。自相关与卷积的换算关系为：当且仅当即f为Hermite矩阵时互相关值才完全等同于卷积值。

因此，可以采用等式(1)的快速傅立叶变换完成互相关计算：

其中表示傅立叶变换。设图像I中像素个数为n，已知傅立叶变换时间开销为O(nlogn），等式(1)的计算开销为O(nlogn)！，远比其他跟踪方法速度快，其中O为复杂度。

在红外数据通道中，图像纹理较为模糊，在本发明的实施例中，采用乏纹理跟踪器进行跟踪。

在检测器方面，如图2所示，在可见光数据通道中，使用有方差检测器，有方差检测器由方差分类器、集成分类器和最近邻分类器组成。在红外数据通道中，使用无方差检测器，无方差分类器由集成分类器和最近邻分类器组成。

如果图像块的所有像素点灰度值的方差比初始目标图像块所有像素点灰度的方差的50％(参数可调)要小，则这个图像块将不会通过方差分类。方差分类阶段一般会拒绝多于50％的不含跟踪目标的图像块，比如平态区域、天空等乏信息候选子块。由于红外图像的热弥散特性，在红外数据通道中不使用方差分类器。

集成分类器采用随机蕨分类器对目标进行检测，随机蕨分类器类似于随机森林分类器，用来对具有多个特征值的不同目标种类进行数字概率分类，最终使用类似多人投票的方式决定被检测目标的属类。区别在于随机森林的树中每层节点判断准则不同，而随机蕨中每层中只有一种判断准则。

最近邻分类器基于KNN(K Nearest Neighbors Algorithms，最近邻算法)，即每个样本都可以采用它最接近的k个邻近样本来表示，如果一个样本的k个邻近样本中的大多数属于同一类别，则该样本也属于这个类别。在本发明的实施例中，采用k＝1。

在学习器方面，在本发明的实施例中，采用半监督机器学习(Positive-Negative学习，正负样本学习)的方法。在视频序列中，数据很少是独立的，一个独立的目标在一幅输入图像中最多占据一个位置，目标的位置变化轨迹光滑。通过学习，可以产生更多的对象模型从而和背景进行区分，并对集成分类器进行重构。

图3是根据本发明的实施例的可见光红外级联跟踪方法示意图。在可见光红外一体化探测得到的视频序列中，红外图像反映的是目标温度信息，温度短时间内不会发生大幅度改变，可作为基准通道。同时对可见光通道的跟踪后验置信概率进行高阈值设置以防止可见光图像中目标伪装。

可见光红外级联视频跟踪方法的步骤如下：

从可见光红外一体化探测得到的视频序列中分离可见光数据和红外数据，分别送入可见光数据通道和红外数据通道。在首次跟踪所述视频序列T₀时刻的图像时，在可见光数据通道和红外数据通道的任一通道中的数据图像中手动框选初始窗口R₀作为目标的跟踪区域。如果不是首次跟踪视频序列中的图像，则启动离线检测器获取初始窗口。

对初始窗口R₀进行变换，形成正样本库W_good，初始窗口R₀外其它区域均进入负样本库W_bad。初始窗口图像子块R₀进行变换，形成正样本库W_good的步骤为：对初始窗口R₀进行n次旋转，得到由旋转角度为θ的R₀的n个图像子块组成的集合作为正样本库W_good＝Rotate{R₀，θ}，θ＝0，θ_m，…，θ_m*n，其中，θ_m*n≤360，θ_m为每次旋转的角度，θ为当前的旋转角度。θ_m越小跟踪性能越好，但计算复杂度越高。在本发明的实施例中，θ_m＝20，n＝18。

在T₁时刻的图像中(T₁时刻的图像是T₀时刻的图像的下一帧)，在搜索空间L内基于所述初始窗口进行滑动搜索。搜索空间L的按照以下公式(2)计算：

其中，n，m为图像的宽和高，w，h为初始窗口的宽和高，dx，dy为平移尺度，在本发明的实施例中，平移尺度dx，dy设定为初始窗口R₀的10％，即水平方向的平移尺度dx为初始窗口R₀宽度的10％，竖直方向的平移尺度dy为初始窗口R₀宽度的10％。

在可见光数据通道中，使用有方差检测器筛选正样本和负样本，并使用相关短时跟踪器进行搜索。在红外数据通道中，使用无方差检测器筛选正样本和负样本，并使用乏纹理短时跟踪器进行搜索。有方差检测器或无方差检测器获得的检测结果为D_best，相关短时跟踪器或乏纹理短时跟踪器获得的跟踪结果为T_best。

如上所述，有方差检测器由方差分类器、集成分类器和最近邻分类器组成，无方差分类器由集成分类器和最近邻分类器组成。

待检测的数据图像经过方差分类器(红外数据通道没有方差分类器)和集成分类器后，最后经过最近邻分类器得到D_best，方差分类器通过以下步骤筛选正样本和负样本：设定输入所述方差分类器的图像块为p，通过公式E(p²)-E(p)²计算图像块p所有像素点灰度的方差，其中E(p)是图像区域的灰度均值，E(p²)表示区域像素平方和的均值，如果图像块p所有像素点灰度得方差小于阈值E_th，则图像块p是负样本，否则图像块p是正样本，其中阈值E_th可由用户进行设置。

集成分类器通过以下步骤筛选正样本和负样本：

c)根据以下等式(3)获取编码值BP：

使用集成分类器在线检测时，统计样本库中的样本与检测窗口得到同样一组编码值BP的概率，当多个集成分类器得到的概率均值超过概率阈值时，则检测窗口为正样本，否则为负样本，在本发明的实施例中，概率阈值为50％。

如果集成分类器不是首次跟踪图像时，使用更新的样本库W_good和W_bad中的样本重新计算集成分类器的编码值BP。

最近邻分类器通过以下步骤筛选正样本和负样本：

设定图像块p_i和p_j之间的相似度S由等式表示，

其中由以下等式(4)表示：

其中，n表示归一化后图像块内的像素个数，μ₁，μ₂与σ₁，σ₂分别表示图像块p_i与p_j的均值和标准差；

待检测图像块p与最相似的正样本的相似度由以下等式(5)表示：

待检测图像块p与最相似的负样本的相似度由以下等式(6)表示：

其中，M为由多个正样本和负样本组成的目标模型，待检测图像块p与目标模型的最终相似度由以下等式(7)表示：

如果则待检测图像块p是正样本，否则待检测图像块p为负样本，其中，θ_NN为相似度阈值，在本发明的实施例中，θ_NN的范围为0.5～0.7，S^r值最大的正样本为检测器获得的检测结果D_best。

可见光数据通道采用相关短时跟踪器以提高其计算速度。红外数据通道采用乏纹理短时跟踪器以提高其跟踪稳定性。相关短时跟踪器和乏纹理短时跟踪器得到的最终跟踪结果记为T_best；

在T₁时刻的图像中，红外数据通道中的无方差检测器以及可见光数据通道中的有方差检测器获得的检测结果为D_best，红外数据通道中的乏纹理短时跟踪器和可见光数据通道中的相关短时跟踪器获得的跟踪结果为T_best，按照与上一帧图像跟踪区域的重叠率，对D_best和T_best进行抉择。

对D_best和T_best进行抉择的步骤包括按照重叠率最大原则抉择D_best和T_best，其中，重叠率Overlap按照等式(8)表示：

其中，R为上一帧图像跟踪区域。D_best和T_best的抉择结果被输入各自的学习器，以用于训练集成分类器。

可见光数据通道和红外数据通道分别抉择出各自的抉择结果，经过可见光红外一体化跟踪准则对可见光数据通道和红外数据通道的抉择结果进行取舍。可见光红外一体化跟踪准则为：

当在红外数据通道中跟踪上所述目标时，由于目标温度短时不会发生大幅度改变，因此直接修正可见光跟踪结果同时以维持红外通道中的跟踪区域灰度值偏差最小为约束方程；

当在红外数据通道中未跟踪上目标时，维持预定的帧数F_n，如果目标仍未出现，则跟踪过程结束。

通过上述规则进行取舍后，得到准确的跟踪区域R_new，并作为正样本送入W_good中，其余作为负样本送入W_bad。将正样本库W_good和负样本库W_bad用于训练离线检测器，并进行T₂时刻图像(T₁时刻图像的下一帧图像)的跟踪，直到视频序列结束或可见光红外一体化跟踪准则判断停止，视频序列的每一帧图像均搜索完毕时视频序列结束。

在本发明的实施例中，在标准测试集上的跟踪漂移率显著小于5％，跟踪速度在320×240图像序列中优于60帧每秒，两通道相互维持另一通道的目标跟踪，同时可见光红外通道同时具备再启动跟踪能力，对遮挡等干扰不敏感。

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims

1.一种可见光红外级联视频跟踪方法，其特征在于，包括以下步骤：

从可见光红外一体化视频序列中分离可见光数据和红外数据，分别送入可见光数据通道和红外数据通道；

当首次跟踪所述视频序列T₀时刻的图像时，在可见光数据通道和红外数据通道的任一通道中的数据图像中框选初始窗口R₀作为目标的跟踪区域，当非首次跟踪视频序列中的图像时，启动离线检测器获取初始窗口；

2.根据权利要求1所述的一种可见光红外级联视频跟踪方法，其特征在于，对初始窗口图像子块R₀进行变换，形成正样本库W_good的步骤为：对初始窗口R₀进行n次旋转，得到由旋转角度为θ的R₀的n个图像子块组成的集合作为正样本库W_good＝Rotate{R₀，θ}，θ＝0，θ_m，…，θ_m*n，其中，θ_m*n≤360，θ_m为每次旋转的角度，θ为当前的旋转角度。

3.根据权利要求1所述的一种可见光红外级联视频跟踪方法，其特征在于，所述搜索空间L的按照以下公式计算：

<mrow> <mi>L</mi> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mrow> <mi>s</mi> <mo>&Element;</mo> <msup> <mn>1.2</mn> <mrow> <mo>{</mo> <mrow> <mo>-</mo> <mn>10</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mn>10</mn> </mrow> <mo>}</mo> </mrow> </msup> </mrow> </msub> <mo>&lsqb;</mo> <mfrac> <mrow> <mi>n</mi> <mo>-</mo> <mi>s</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>+</mo> <mi>d</mi> <mi>x</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>s</mi> <mi>d</mi> <mi>x</mi> </mrow> </mfrac> <mo>&rsqb;</mo> <mo>&lsqb;</mo> <mfrac> <mrow> <mi>n</mi> <mo>-</mo> <mi>s</mi> <mrow> <mo>(</mo> <mi>h</mi> <mo>+</mo> <mi>d</mi> <mi>x</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>s</mi> <mi>d</mi> <mi>y</mi> </mrow> </mfrac> <mo>&rsqb;</mo> </mrow>

4.根据权利要求1所述的一种可见光红外级联视频跟踪方法，其特征在于，所述方差分类器通过以下步骤筛选正样本和负样本：设定输入所述方差分类器的图像块为p，通过公式E(p²)-E(p)²计算图像块p所有像素点灰度的方差，其中E(p)是图像区域的灰度均值，E(p²)表示区域像素平方和的均值，如果图像块p所有像素点灰度得方差小于阈值E_th，则图像块p是负样本，否则图像块p是正样本。

5.根据权利要求1所述的一种可见光红外级联视频跟踪方法，其特征在于，所述集成分类器通过以下步骤筛选正样本和负样本：

c)根据以下等式获取编码值BP：

6.根据权利要求1所述的一种可见光红外级联视频跟踪方法，其特征在于，最近邻分类器通过以下步骤筛选正样本和负样本：

设定图像块p_i和p_j之间的相似度S由等式S＝0.5(NCC(p_i，p_j)+1)，表示，其中其中，n表示归一化后图像块内的像素个数，μ₁，μ₂与σ₁，σ₂分别表示图像块p_i与p_j的均值和标准差；

待检测图像块p与最相似的正样本的相似度为：

待检测图像块p与最相似的负样本的相似度为：

其中，M为由多个正样本和负样本组成的目标模型，待检测图像块p与目标模型的最终相似度S^r为：

如果S^r＞θ_NN，则待检测图像块p是正样本，否则待检测图像块p为负样本，其中，θ_NN为相似度阈值，S^T值最大的正样本为检测器获得的检测结果D_best。

7.根据权利要求1所述的一种可见光红外级联视频跟踪方法，其特征在于，按照与上一帧图像跟踪区域的重叠率，对D_best和T_best进行抉择的步骤包括：按重叠率最大原则抉择D_best和T_best，其中，重叠率Overlap按照等式来计算，R为上一帧图像跟踪区域。

8.根据权利要求1所述的一种可见光红外级联视频跟踪方法，其特征在于，可见光红外一体化跟踪准则为：