CN114359337A

CN114359337A - Rgbt视觉目标跟踪方法、装置、电子设备和存储介质

Info

Publication number: CN114359337A
Application number: CN202111488599.4A
Authority: CN
Inventors: 李冬冬; 蒯杨柳; 文贡坚
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-04-15
Anticipated expiration: 2041-12-07
Also published as: CN114359337B

Abstract

本申请涉及一种RGBT视觉目标跟踪方法、装置、电子设备和存储介质。所述方法根据RGBT视频序列第一帧图像中给定目标的位置与尺寸描述，通过相关滤波跟踪方法的处理，在后续的视频帧中预测该目标的位置与尺寸，并将结果描述反馈给目标观测模型进行内部参数更新。在相关滤波方法基础上，联合使用像素级、特征级和决策级融合可见光和热红外互补信息，提升了RGBT视觉目标跟踪精度；提出峰值旁瓣比判断目标的跟踪状态，防止错误更新引入的模型污染；提出的跟踪框架具有很好的通用性，可以将任意RGB相关滤波方法转换为RGBT跟踪方法。

Description

RGBT视觉目标跟踪方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种RGBT视觉目标跟踪方法、装置、电子设备和存储介质。

背景技术

视觉目标跟踪一直是计算机视觉领域的热点和难点问题，有着广阔的现实应用需求和发展前景，如在民用领域用于视频监控、无人驾驶、智能视觉导航和人机交互等，在军事领域用于精确制导、武器观测瞄准和无人机战场侦察等。长期以来，科研工作者的注意力主要集中在可见光单模态(RGB)视频中的目标跟踪问题，并在其理论和应用上积累了丰富的研究成果。目前，基于RGB视频的目标跟踪方法在大部分场景中均取得了很好的性能，但是在面临某些复杂情况时仍会性能低下，甚至跟丢目标，如低光照、恶劣天气、部分遮挡等，极大地限制了目标跟踪的应用范围。

随着热红外相机技术升级和制造价格降低，其逐渐从军事领域扩展到民用领域。可见光图像与热红外图像具有良好的互补特性：1)可见光图像受环境光照变化影响大，不能在夜间工作，也无法探测烟雾遮蔽的目标，而红外热像仪通过场景中目标的热辐射成像，具有穿透云雾和识别目标伪装的能力，同时不受环境光照变化、阴影干扰的影响；2)热红外图像分辨率低、缺少颜色纹理信息、边界模糊，尤其是在出现热交叉(目标与周围背景温度相近)时判别力有限，而可见光图像可以捕获目标的高分辨率颜色信息，同时在热交叉情况下具有较强的判别力。因此，结合可见光和热红外双模态信息可以有效弥补单一可见光图像跟踪能力的不足，提高目标跟踪的精确性和鲁棒性。现有的RGBT跟踪方法的跟踪性能有待进一步提升。

发明内容

基于此，有必要针对上述技术问题，提供一种能实现可见光和热红外双模态互补信息有效融合的一种RGBT视觉目标跟踪方法、装置、电子设备和存储介质。

一种RGBT视觉目标跟踪方法，所述方法包括：

获取RGBT视频序列的第一帧图像的可见光搜索区域、热红外搜索区域以及目标位置，并对所述可见光搜索区域进行空间转换，并将转换结果与热红外搜索区域进行融合得到四通道搜索区域；所述四通道搜索区域包括目标区域和背景区域。

提取可见光搜索区域的HOG特征和CN特征，以及红外搜索区域的HOG特征，并对提取得到的特征进行堆叠，得到融合目标特征。

分别计算所述目标区域内目标和所述背景区域中背景的直方图分布，根据得到的目标的直方图分布和背景的直方图分布，得到四通道搜索区域的目标似然概率图。

根据预设类型的相关滤波器、所述目标似然概率图以及所述融合目标特征，训练得到相关滤波器系数。

获取RGBT视频序列的第T帧图像，并以上一帧图像的目标位置为中心，确定第T帧图像的可见光图像和热红外图像的搜索区域，并进行特征提取和融合，得到第T帧融合目标特征，其中T≥2。

根据所述第T帧融合目标特征、所述相关滤波器以及所述相关滤波器系数，得到跟踪结果。

根据通道可靠性系数与所述跟踪结果得到最终响应图，并估计得到目标位置，并采用DSST方式得到目标尺度；所述可靠性系数是根据不同通道的所述跟踪结果构建的。

计算所述最终响应图的峰值旁瓣比，并根据所述峰值旁瓣比判断是否为正确跟踪；当为正确跟踪时，则计算并更新相关滤波器系数、目标和背景的直方图分布。

对T+1帧图像进行目标追踪，直至读取完RGBT视频序列的所有帧，结束目标跟踪。

在其中一个实施例中，获取RGBT视频序列的第一帧图像的可见光搜索区域、热红外搜索区域以及目标位置，并对所述可见光搜索区域进行空间转换，并将转换结果与热红外搜索区域进行融合得到四通道搜索区域；所述四通道搜索区域包括目标区域和背景区域，包括：

获取RGBT视频序列的第一帧图像的可见光搜索区域、热红外搜索区域以及目标位置。

将所述可见光搜索区域由RGB空间转换到HSV空间，并将得到的转换结果与热红外搜索区域堆叠得到四通道搜索区域。

在其中一个实施例中，分别计算所述目标区域内目标和所述背景区域中背景的直方图分布，根据得到的目标的直方图分布和背景的直方图分布，得到四通道搜索区域的目标似然概率图，包括：

根据所述目标区域和所述背景区域，分别计算得到目标的直方图分布和背景的直方图分布。

根据得到的目标的直方图分布和背景的直方图分布，逐像素计算所述四通道搜索区域内每个像素属于目标的概率，得到目标的似然概率图；所述四通道搜索区域内每个像素属于目标的概率计算公式如下：

其中，

表示四通道搜索区域内

像素属于目标的概率，rgbt(·)表示某点的四维像素值，

表示第t帧图像的第i个像素点，

分别表示第t帧图像的目标和背景的直方图分布，t为当前图像帧数。

在其中一个实施例中，所述预设类型的相关滤波器为CSR-DCF相关滤波器。

根据预设类型的相关滤波器、所述目标似然概率图以及所述融合目标特征，训练得到相关滤波器系数，包括：

将CSR-DCF相关滤波器中的前景掩膜替换为所述目标似然概率图，采用所述融合目标特征，训练得到相关滤波器系数。

在其中一个实施例中，获取RGBT视频序列的第T帧图像，并以上一帧图像的目标位置为中心，确定第T帧图像的可见光图像和热红外图像的搜索区域，并进行特征提取和融合，得到第T帧融合目标特征，包括：

获取RGBT视频序列的第T帧图像。

以上一帧图像所述目标位置为中心对所述第T帧图像进行裁剪，得到所述第T帧图像的可见光搜索区域和热红外搜索区域。

提取第T帧图像的所述可见光搜索区域的HOG特征和CN特征以及所述红外搜索区域的HOG特征，将提取得到的特征进行堆叠，得到第T帧融合目标特征。

在其中一个实施例中，根据通道可靠性系数与所述跟踪结果得到最终响应图，并估计得到目标位置，并采用DSST方式得到目标尺度，包括：

根据不同通道的所述跟踪结果构建不同通道可靠性系数；所述通道可靠性系数计算公式如下：

w_d＝max(F_d*h_d)

其中，w_d表示第d维通道可靠性系数，F_d，h_d分别表示目标特征和相关滤波器第d维值。

将通道可靠性系数与跟踪结果加权得到最终响应图，并将响应图上最大值对应的位置确定为为目标位置。

在其中一个实施例中，计算所述最终响应图的峰值旁瓣比，并根据所述峰值旁瓣比判断是否为正确跟踪；当为正确跟踪时，则计算并更新相关滤波器系数、目标和背景的直方图分布，包括：

计算所述最终响应图的峰值旁瓣比，当所述峰值旁瓣比小于预定阈值时，则判定为不正确跟踪，反之判定为正确跟踪；第t帧峰值旁瓣比PSR_t的计算公式如下：

其中，r_t为第t帧的响应图，μ_t，σ_t分别为响应图r_t的均值和标准差。

当为正确跟踪时，则采用与第一帧图像中确定相关滤波器系数以及目标和背景的直方图分布相同的步骤，计算得到新的相关滤波器系数以及目标和背景的直方图分布，并采用线性加权的方式对相关滤波器系数以及目标和背景的直方图分布进行更新。

一种RGBT视觉目标跟踪装置，所述装置包括：

第一帧图像获取及像素融合模块：获取RGBT视频序列的第一帧图像的可见光搜索区域、热红外搜索区域以及目标位置，并对所述可见光搜索区域进行空间转换，并将转换结果与热红外搜索区域进行融合得到四通道搜索区域；所述四通道搜索区域包括目标区域和背景区域；所述四通道搜索区域包括目标区域和背景区域。

目标特征融合模块，用于提取可见光搜索区域的HOG特征和CN特征以及红外搜索区域的HOG特征，并对提取得到的特征进行堆叠，得到融合目标特征。

相关滤波器系数确定模块，用于分别计算所述目标区域内目标和所述背景区域中背景的直方图分布，根据得到的目标的直方图分布和背景的直方图分布，得到四通道搜索区域的目标似然概率图；根据预设类型的相关滤波器、所述目标似然概率图以及所述融合目标特征，训练得到相关滤波器系数。

第T帧图像目标跟踪模块：用于获取RGBT视频序列的第T帧图像，并以上一帧图像的目标位置为中心，确定第T帧图像的可见光图像和热红外图像的搜索区域，并进行特征提取和融合，得到第T帧融合目标特征，其中T≥2；根据所述第T帧融合目标特征、所述相关滤波器以及所述相关滤波器系数，得到跟踪结果；根据通道可靠性系数与所述跟踪结果得到最终响应图，并估计得到目标位置，并采用DSST方式得到目标尺度；所述可靠性系数是根据不同通道的所述跟踪结果构建的。

相关滤波器系数更新模块，用于计算所述最终响应图的峰值旁瓣比，并根据所述峰值旁瓣比判断是否为正确跟踪；当为正确跟踪时，则计算并更新相关滤波器系数、目标和背景的直方图分布；对T+1帧图像进行目标追踪，直至读取完RGBT视频序列的所有帧，结束目标跟踪。

上述RGBT视觉目标跟踪方法、装置、电子设备和存储介质，所述方法根据RGBT视频序列第一帧图像中给定目标的位置与尺寸描述，通过相关滤波跟踪方法的处理，在后续的视频帧中预测该目标的位置与尺寸，并将结果描述反馈给目标观测模型进行内部参数更新。在相关滤波方法基础上，联合使用像素级、特征级和决策级融合可见光和热红外互补信息，提升了RGBT视觉目标跟踪精度；提出峰值旁瓣比判断目标的跟踪状态，防止错误更新引入的模型污染；提出的跟踪框架具有很好的通用性，可以将任意RGB相关滤波方法转换为RGBT跟踪方法。

附图说明

图1为一个实施例中RGBT视觉目标跟踪方法的流程示意图；

图2为另一个实施例中RGBT视觉目标跟踪方法的流程示意图；

图3为一个实施例中RGBT视觉目标跟踪装置组成框图；

图4为一个实施例中电子设备的内部结构图；

图5为另一个实施例中本方法与主流方法的最大精确率对比结果；

图6为另一个实施例中本方法与主流方法的最大成功率对比结果。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

视觉目标跟踪主要完成的工作是根据视频序列初始帧中给定目标的位置与尺寸描述，通过目标跟踪算法的处理，在后续的视频帧中预测该目标的位置与尺寸，并将结果描述反馈给目标观测模型进行内部参数更新。

相关滤波的跟踪方法的基本思想就是，寻找一个滤波模板，让下一帧的图像提取的特征与我们的滤波模板做卷积操作，最大响应值的位置为目标位置。

RGBT(Red Green Blue Thermal)可见光和热红外图像。

在一个实施例中，如图1所示，提供了一种RGBT视觉目标跟踪方法，该方法包括以下步骤：

步骤100：获取RGBT视频序列的第一帧图像的可见光搜索区域、热红外搜索区域以及目标位置，并对可见光搜索区域进行空间转换，并将转换结果与热红外搜索区域进行融合得到四通道搜索区域。

四通道搜索区域包括目标区域和背景区域。

在获取到RGBT视频序列后，可以定义其中某一帧为第一帧图像，并不一定是RGBT视频序列的第一帧的图像。

RGBT视频序列的第一帧图像是已经标注过的图像，包括标注目标位置。

第一帧图像的可见光搜索区域和热红外搜索区域包括目标标注框+背景。

步骤102：提取可见光搜索区域的HOG特征和CN特征，以及红外搜索区域的HOG特征，并对提取得到的特征进行堆叠，得到融合目标特征。

方向梯度直方图(Histogram of Oriented Gradient简写为：HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征。

颜色直方图(Color histogram，简写为CN)特征，增强了颜色特征对光照、阴影、形变的鲁棒性。CN特征包括11种基本的颜色：黑、兰、棕、灰、绿、橘、粉、紫、红、白、黄。计算机视觉中颜色属性一般分为RGB三色，CN特征则是把RGB三色细分映射到11维的颜色空间去。

步骤104：分别计算目标区域内目标和背景区域中背景的直方图分布，根据得到的目标的直方图分布和背景的直方图分布，得到四通道搜索区域的目标似然概率图。

步骤106：根据预设类型的相关滤波器、目标似然概率图以及融合目标特征，训练得到相关滤波器系数。

预设类型的相关滤波器可以为CSR-DCF相关滤波器、MOSSE相关滤波器或其他类型的相关滤波器。

步骤108：获取RGBT视频序列的第T帧图像，并以上一帧图像的目标位置为中心，确定第T帧图像的可见光图像和热红外图像的搜索区域，并进行特征提取和融合，得到第T帧融合目标特征，其中T≥2。

步骤110：根据第T帧融合目标特征、相关滤波器以及相关滤波器系数，得到跟踪结果。

步骤112：根据通道可靠性系数与跟踪结果得到最终响应图，并估计得到目标位置，并采用DSST方式得到目标尺度；可靠性系数是根据不同通道的跟踪结果构建的。

尺度空间判别滤波器简称为DSST(Discriminative Scale Space Tracking)，DSST可以适应目标的尺度变化，其基于搜索区图像的投影矩阵得到的特征信息构建的滤波器能够有一定环境抗干扰能力。

步骤114：计算最终响应图的峰值旁瓣比，并根据峰值旁瓣比判断是否为正确跟踪；当为正确跟踪时，则计算并更新相关滤波器系数、目标和背景的直方图分布。

步骤116：对T+1帧图像进行目标追踪，直至读取完RGBT视频序列的所有帧，结束目标跟踪。

上述RGBT视觉目标跟踪方法中，所述方法根据RGBT视频序列第一帧图像中给定目标的位置与尺寸描述，通过相关滤波跟踪方法的处理，在后续的视频帧中预测该目标的位置与尺寸，并将结果描述反馈给目标观测模型进行内部参数更新。在相关滤波方法基础上，联合使用像素级、特征级和决策级融合可见光和热红外互补信息，提升了RGBT视觉目标跟踪精度；提出峰值旁瓣比判断目标的跟踪状态，防止错误更新引入的模型污染；提出的跟踪框架具有很好的通用性，可以将任意RGB相关滤波方法转换为RGBT跟踪方法。

在其中一个实施例中，步骤100还包括：获取RGBT视频序列的第一帧图像的可见光搜索区域、热红外搜索区域以及目标位置；将可见光搜索区域由RGB空间转换到HSV空间，并将得到的转换结果与热红外搜索区域堆叠得到四通道搜索区域。

RGB(红绿蓝red、green、blue，简称RGB)空间最常用的用途就是显示器系统，彩色阴极射线管,彩色光栅图形的显示器都使用R、G、B数值来驱动R、G、B电子枪发射电子，并分别激发荧光屏上的R、G、B三种颜色的荧光粉发出不同亮度的光线，并通过相加混合产生各种颜色；扫描仪也是通过吸收原稿经反射或透射而发送来的光线中的R、G、B成分，并用它来表示原稿的颜色。

HSV(色调饱和度明度hue、saturation、value，简称HSV)空间的模型对应于圆柱坐标系中的一个圆锥形子集，圆锥的顶面对应于V＝1。它包含RGB模型中的R＝1，G＝1，B＝1三个面，所代表的颜色较亮。色彩H由绕V轴的旋转角给定。红色对应于角度0°，绿色对应于角度120°，蓝色对应于角度240°。在HSV颜色模型中，每一种颜色和它的补色相差180°。饱和度S取值从0到1，所以圆锥顶面的半径为1。

在其中一个实施例中，步骤104还包括：根据目标区域和背景区域，分别计算得到目标的直方图分布和背景的直方图分布；根据目标的直方图分布和背景的直方图分布，逐像素计算四通道搜索区域内每个像素属于目标的概率，得到目标的似然概率图；四通道搜索区域内每个像素属于目标的概率计算公式为：

其中，

表示四通道搜索区域内

像素属于目标的概率，rgbt(·)表示某点的四维像素值，

表示第t帧图像的第i个像素点，

在其中一个实施例中，预设类型的相关滤波器为CSR-DCF相关滤波器。步骤106还包括：将CSR-DCF相关滤波器中的前景掩膜替换为目标似然概率图，采用融合目标特征，训练得到相关滤波器系数。

基于通道和空间置信度的判别相关滤波器跟踪算法(DiscriminativeCorrelation Filter Tracker with Channel and Spatial Reliability，简称CSR-DCF)是一种引入通道和空间可靠性的鉴别相关滤波器。利用前景背景颜色模型构建的空间置信度图有效克服了目标矩形形状假设对滤波器的空域限制；通道置信度基于不同通道的响应图构建了通道的可靠性系数，提高了目标跟踪精度。基于CSR-DCF的算法思想，目标跟踪算法将由一个位移相关滤波器和一个尺度相关滤波器联合完成，在获得跟踪结果后将目标的位置信息和尺度信息反馈给各自的训练器进行参数更新，以适应目标的位移和尺度的变化。

在其中一个实施例中，步骤108还包括：获取RGBT视频序列的第T帧图像；以上一帧图像目标位置为中心对第T帧图像进行裁剪，得到第T帧图像的可见光搜索区域和热红外搜索区域；提取第T帧图像的可见光搜索区域的HOG特征和CN特征以及红外搜索区域的HOG特征，将提取得到的特征进行堆叠，得到第T帧融合目标特征。

在其中一个实施例中，步骤112还包括：根据不同通道的跟踪结果构建不同通道可靠性系数；通道可靠性系数计算公式如下：

w_d＝max(F_d*h_d)

在其中一个实施例中，步骤114还包括：计算最终响应图的峰值旁瓣比，当峰值旁瓣比小于预定阈值时，则判定为不正确跟踪，反之判定为正确跟踪；第t帧峰值旁瓣比PSR_t的计算公式如下：

在其中一个实施例中，如图2所示，提供了一种RGBT视觉目标跟踪方法，包括如下步骤：

第一步，利用视频序列第一帧图像训练得到相关滤波器系数(以CSR-DCF为基准算法)，完成初始化。

1.1以标注目标位置为中心分别裁剪得到可见光和热红外搜索区域(包括：目标标注框+背景区域)；

1.2像素级融合：将可见光搜索区域由RGB空间转换到HSV空间，并与热红外搜索区域堆叠得到四通道搜索区域；四通道搜索区域即为图2中的RGBT搜索区域。

1.3基于搜索区域的目标区域和背景区域分别计算得到目标和背景的直方图分布

t为当前图像帧数；

1.4基于目标和背景的直方图分布，逐像素计算搜索区域内每个像素属于目标的概率，得到目标的似然概率图m，搜索区域上任一点x_i属于目标的概率如下：

其中，rgbt(·)表示像素点x_i的四维像素值。

1.5特征级融合：提取可见光搜索区域的HOG特征和CN特征，提取红外搜索区域的HOG特征，将可见光特征和热红外特征堆叠得到目标的融合特征表示

即为图2中的RGBT目标特征；

1.6将CSR-DCF相关滤波器中使用的前景掩膜替换为目标似然概率图，采用融合后特征表征目标，训练得到相关滤波器系数h，优化函数如下：

其中，D为特征维数，h为相关滤波器系数，g是期望输出，*为循环卷积操作。

第二步，利用训练好的相关滤波器得到视频序列其他帧的目标跟踪结果。

2.1在跟踪下一帧图像中的目标时，分别以上一帧图像目标位置为中心裁剪可见光和热红外图像得到搜索区域；

2.2特征级融合：提取可见光搜索区域的HOG特征和CN特征，提取红外搜索区域的HOG特征，将两种模态特征堆叠得到目标的特征表示

即为图2中的RGBT目标特征；

2.3基于训练好的相关滤波器卷积目标特征表示，得到跟踪结果；

2.4利用不同通道的响应图信息构建不同通道的可靠性系数，计算公式如下所示：

w_d＝max(F_d*h_d)

其中，w_d表示第d维通道响应图的权重，F_d，h_d分别表示目标特征和相关滤波器第d维值。

2.5决策级融合：将通道可靠性系数与跟踪结果加权得到最终响应图r，估计得到目标位置，响应图的计算公式如下所示：

其中，∧表示傅里叶变换，·表示逐像素相乘。

2.6采用DSST算法估计得到目标尺度。

第三步，根据跟踪状态，适时更新相关滤波器系数。

3.1计算跟踪结果的峰值旁瓣比，判断是否正确跟踪目标。第t帧峰值旁瓣比PSR_t的计算公式如下：

其中，r_t为第t帧的响应图，μ_t，σ_t分别为响应图r_t的均值和标准差。当PSR_t小于给定阈值时，判定目标跟踪过失败，反之判定成功，具体的判别公式如下所示：

3.2正确跟踪时，采用第一步的步骤计算相关滤波器系数、目标和背景的直方图分布，采用线性加权的方式进行更新；

3.3非正确跟踪时，停止相关滤波器、目标和背景直方图分布的更新。

该方法的优势：在CSR-DCF相关滤波方法基础上，联合使用像素级、特征级和决策级融合可见光和热红外互补信息，提升了RGBT视觉目标跟踪精度；提出峰值旁瓣比判断目标的跟踪状态，防止错误更新引入的模型污染；提出的跟踪框架具有很好的通用性，可以将任意RGB相关滤波方法转换为RGBT跟踪方法，仅限于CSR-DCF方法。

应该理解的是，虽然图1和图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1和图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图3所示，提供了一种RGBT视觉目标跟踪装置，所述装置包括：第一帧图像获取及像素融合模块、目标特征融合模块、相关滤波器系数确定模块、第T帧图像目标跟踪模块以及相关滤波器系数更新模块，其中：

第一帧图像获取及像素融合模块：获取RGBT视频序列的第一帧图像的可见光搜索区域和热红外搜索区域以及目标位置，并对可见光搜索区域进行空间转换，并将转换结果与热红外搜索区域进行融合得到四通道搜索区域；四通道搜索区域包括目标区域和背景区域。

相关滤波器系数确定模块，用于分别计算目标区域内目标和背景区域中背景的直方图分布，根据得到的目标的直方图分布和背景的直方图分布，得到四通道搜索区域的目标似然概率图；根据预设类型的相关滤波器、目标似然概率图以及融合目标特征，训练得到相关滤波器系数。

第T帧图像目标跟踪模块：用于获取RGBT视频序列的第T帧图像，并以上一帧图像的目标位置为中心，确定第T帧图像的可见光图像和热红外图像的搜索区域，并进行特征提取和融合，得到第T帧融合目标特征，其中T≥2；根据第T帧融合目标特征、相关滤波器以及相关滤波器系数，得到跟踪结果；根据通道可靠性系数与跟踪结果得到最终响应图，并估计得到目标位置，并采用DSST方式得到目标尺度；可靠性系数是根据不同通道的跟踪结果构建的。

相关滤波器系数更新模块，用于计算最终响应图的峰值旁瓣比，并根据峰值旁瓣比判断是否为正确跟踪；当为正确跟踪时，则计算并更新相关滤波器系数、目标和背景的直方图分布；对T+1帧图像进行目标追踪，直至读取完RGBT视频序列的所有帧，结束目标跟踪。

在其中一个实施例中，第一帧图像获取及像素融合模块，还用于获取RGBT视频序列的第一帧图像的可见光搜索区域、热红外搜索区域以及目标位置；将可见光搜索区域由RGB空间转换到HSV空间，并将得到的转换结果与热红外搜索区域堆叠得到四通道搜索区域。

在其中一个实施例中，相关滤波器系数确定模块，还用于

根据目标区域和背景区域，分别计算得到目标的直方图分布和背景的直方图分布；根据目标的直方图分布和背景的直方图分布，逐像素计算四通道搜索区域内每个像素属于目标的概率，得到目标的似然概率图；四通道搜索区域内每个像素属于目标的概率计算公式如下：

其中，

表示四通道搜索区域内

像素属于目标的概率，rgbt(·)表示某点的四维像素值，

表示第t帧图像的第i个像素点，

在其中一个实施例中，预设类型的相关滤波器为CSR-DCF相关滤波器。相关滤波器系数确定模块，还用于将CSR-DCF相关滤波器中的前景掩膜替换为目标似然概率图，采用融合目标特征，训练得到相关滤波器系数。

在其中一个实施例中，第T帧图像目标跟踪模块，还用于获取RGBT视频序列的第T帧图像；以上一帧图像目标位置为中心对第T帧图像进行裁剪，得到第T帧图像的可见光搜索区域和热红外搜索区域；提取第T帧图像的可见光搜索区域的HOG特征和CN特征以及红外搜索区域的HOG特征，将提取得到的特征进行堆叠，得到第T帧融合目标特征。

在其中一个实施例中，第T帧图像目标跟踪模块，还用于根据不同通道的跟踪结果构建不同通道可靠性系数；通道可靠性系数计算公式如下：

w_d＝max(F_d*h_d)

在其中一个实施例中，相关滤波器系数更新模块，还用于计算最终响应图的峰值旁瓣比，当峰值旁瓣比小于预定阈值时，则判定为不正确跟踪，反之判定为正确跟踪；第t帧峰值旁瓣比PSR_t的计算公式如下：

在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图4所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种RGBT视觉目标跟踪方法方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种电子设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在一个验证性实施例中，我们在RGBT权威公开数据集RGBT234上，对比了我们提出的算法CSR-DCF_rgbt与目前主流的多种跟踪方法(ECO,SOWP+RGBT,CSR-DCF+RGBT,MEEM+RGBT,CSR-DCF,CFnet+RGBT，DSST,CFnet,KCF+RGBT)的性能。评价标准采用的是RGBT234数据集广泛使用的最大精确率图得分和最大成功率图得分，最大精确率对比结果如图5所示，最大成功率对比结果如图6所示。本发明提出的方法在最大精确率图得分(70.7％)和最大成功率图得分(51.4％)上均取得了最好的跟踪性能。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种RGBT视觉目标跟踪方法，其特征在于，所述方法包括：

获取RGBT视频序列的第一帧图像的可见光搜索区域、热红外搜索区域以及目标位置，并对所述可见光搜索区域进行空间转换，并将转换结果与热红外搜索区域进行融合得到四通道搜索区域；所述四通道搜索区域包括目标区域和背景区域；

提取可见光搜索区域的HOG特征和CN特征，以及红外搜索区域的HOG特征，并对提取得到的特征进行堆叠，得到融合目标特征；

分别计算所述目标区域内目标和所述背景区域中背景的直方图分布，根据得到的目标的直方图分布和背景的直方图分布，得到四通道搜索区域的目标似然概率图；

根据预设类型的相关滤波器、所述目标似然概率图以及所述融合目标特征，训练得到相关滤波器系数；

获取RGBT视频序列的第T帧图像，并以上一帧图像的目标位置为中心，确定第T帧图像的可见光图像和热红外图像的搜索区域，并进行特征提取和融合，得到第T帧融合目标特征，其中T≥2；

根据所述第T帧融合目标特征、所述相关滤波器以及所述相关滤波器系数，得到跟踪结果；

根据通道可靠性系数与所述跟踪结果得到最终响应图，并估计得到目标位置，并采用DSST方式得到目标尺度；所述可靠性系数是根据不同通道的所述跟踪结果构建的；

计算所述最终响应图的峰值旁瓣比，并根据所述峰值旁瓣比判断是否为正确跟踪；当为正确跟踪时，则计算并更新相关滤波器系数、目标和背景的直方图分布；

2.根据权利要求1所述的方法，其特征在于，获取RGBT视频序列的第一帧图像的可见光搜索区域、热红外搜索区域以及目标位置，并对所述可见光搜索区域进行空间转换，并将转换结果与热红外搜索区域进行融合得到四通道搜索区域；所述四通道搜索区域包括目标区域和背景区域，包括：

获取RGBT视频序列的第一帧图像的可见光搜索区域、热红外搜索区域以及目标位置；

3.根据权利要求1所述的方法，其特征在于，分别计算所述目标区域内目标和所述背景区域中背景的直方图分布，根据得到的目标的直方图分布和背景的直方图分布，得到四通道搜索区域的目标似然概率图，包括：

根据所述目标区域和所述背景区域，分别计算得到目标的直方图分布和背景的直方图分布；

其中，

表示四通道搜索区域内

像素属于目标的概率，rgbt(·)表示某点的四维像素值，

表示第t帧图像的第i个像素点，

4.根据权利要求1所述的方法，其特征在于，所述预设类型的相关滤波器为CSR-DCF相关滤波器；

5.根据权利要求1所述的方法，其特征在于，获取RGBT视频序列的第T帧图像，并以上一帧图像的目标位置为中心，确定第T帧图像的可见光图像和热红外图像的搜索区域，并进行特征提取和融合，得到第T帧融合目标特征，包括：

获取RGBT视频序列的第T帧图像；

以上一帧图像所述目标位置为中心对所述第T帧图像进行裁剪，得到所述第T帧图像的可见光搜索区域和热红外搜索区域；

6.根据权利要求1所述的方法，其特征在于，根据通道可靠性系数与所述跟踪结果得到最终响应图，并估计得到目标位置，并采用DSST方式得到目标尺度，包括：

w_d＝max(F_d*h_d)

其中，w_d表示第d维通道可靠性系数，F_d，h_d分别表示目标特征和相关滤波器第d维值；

7.根据权利要求1所述的方法，其特征在于，计算所述最终响应图的峰值旁瓣比，并根据所述峰值旁瓣比判断是否为正确跟踪；当为正确跟踪时，则计算并更新相关滤波器系数、目标和背景的直方图分布，包括：

其中，r_t为第t帧的响应图，μ_t，σ_t分别为响应图r_t的均值和标准差；

8.一种RGBT视觉目标跟踪装置，其特征在于，所述装置包括：

第一帧图像获取及像素融合模块：获取RGBT视频序列的第一帧图像的可见光搜索区域、热红外搜索区域以及目标位置，并对所述可见光搜索区域进行空间转换，并将转换结果与热红外搜索区域进行融合得到四通道搜索区域；所述四通道搜索区域包括目标区域和背景区域；所述四通道搜索区域包括目标区域和背景区域；

目标特征融合模块，用于提取可见光搜索区域的HOG特征和CN特征以及红外搜索区域的HOG特征，并对提取得到的特征进行堆叠，得到融合目标特征；

相关滤波器系数确定模块，用于分别计算所述目标区域内目标和所述背景区域中背景的直方图分布，根据得到的目标的直方图分布和背景的直方图分布，得到四通道搜索区域的目标似然概率图；根据预设类型的相关滤波器、所述目标似然概率图以及所述融合目标特征，训练得到相关滤波器系数；

第T帧图像目标跟踪模块：用于获取RGBT视频序列的第T帧图像，并以上一帧图像的目标位置为中心，确定第T帧图像的可见光图像和热红外图像的搜索区域，并进行特征提取和融合，得到第T帧融合目标特征，其中T≥2；根据所述第T帧融合目标特征、所述相关滤波器以及所述相关滤波器系数，得到跟踪结果；根据通道可靠性系数与所述跟踪结果得到最终响应图，并估计得到目标位置，并采用DSST方式得到目标尺度；所述可靠性系数是根据不同通道的所述跟踪结果构建的；

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。