CN113592911A

CN113592911A - 表观增强深度目标跟踪方法

Info

Publication number: CN113592911A
Application number: CN202110877443.9A
Authority: CN
Inventors: 王伟; 王侃; 苏航; 覃剑; 曾浩; 王欣
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2021-07-31
Filing date: 2021-07-31
Publication date: 2021-11-02
Anticipated expiration: 2041-07-31
Also published as: CN113592911B

Abstract

本发明公开的一种表观增强深度目标跟踪方法，能够在不改变骨干网结构的前提下降低设计复杂度，并具有一定通用性。本发明通过下述技术手段实现：通过观察跟踪算法当前的跟踪情况，寻找搜索区域中和模版相似的物体，针对目标尺度变化趋势去自适应地调整搜索区域的大小；将模板图像和自适应搜索区域送入SiamRPN++框架，完成检测器的初始化，得到候选框的得分排序并构成图片库；再根据颜色、HOG、LBP三种传统表观信息，分别对候选框和模板图片进行色彩分布、形态特征和纹理特征的目标匹配，利用表观信息进行相似性度量计算，得到新的属性得分并进行投票，获取第二个图片库中表观信息最相似的候选框图片，将其设为本帧预测目标。

Description

表观增强深度目标跟踪方法

技术领域

本发明涉及单目标跟踪技术领域，具体涉及一种基于表观增强的深度目标跟踪方法。

背景技术

目标跟踪在计算机视觉研究领域有着非常广泛的应用，如：相机的跟踪对焦、无人机的自动目标跟踪等都需要用到目标跟踪技术。此外，还有特定物体的跟踪，比如人体跟踪，交通监控系统中的车辆跟踪，人脸跟踪和智能交互系统中的手势跟踪等。目标跟踪目前主要有相关滤波与深度学习两种发展方向。尤其是各种机器学习算法被引入以来，目标跟踪算法呈现百花齐放的态势。基于深度学习的算法在图像和视频识别任务中取得了广泛的应用和突破性的进展。从图像分类问题到行人重识别问题，深度学习方法相比传统方法表现出极大的优势。单目标跟踪任务是在给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的大小与位置，对于已经离开摄像机视野的目标，需要终止轨迹的跟踪。在实际应用中，还有一个重要的跟踪是特定物体的跟踪，比如人脸跟踪、手势跟踪和人体跟踪等。特定物体的跟踪与前面介绍的方法不同，它更多地依赖对物体训练特定的检测器。人脸跟踪由于它的明显特征，它的跟踪就主要由检测来实现，比如早期的Viola-Jones检测框架和当前利用深度学习的人脸检测或人脸特征点检测模型。手势跟踪在应用主要集中在跟踪特定的手型，比如跟踪手掌或者拳头。设定特定的手型可以方便地训练手掌或拳头的检测器。实际上，跟踪和检测是分不开的，比如传统TLD框架使用的在线学习检测器，或KCF密集采样训练的检测器，以及当前基于深度学习的卷积特征跟踪框架。一方面，跟踪能够保证速度上的需要，而检测能够有效地修正跟踪的累计误差。不同的应用场合对跟踪的要求也不一样，比如特定目标跟踪中的人脸跟踪，在跟踪成功率、准确度和鲁棒性方面都有具体的要求。传统的图像获取与显示过程中，将自然界中的真实场景转换为计算机可以处理的图像，需要通过摄影设备，将外界的光信息转换为三维数组存储起来，也就是存储为图像信息，这一过程需要通过光电转换函数进行非线性映射。而同一目标在不同光照下其显示效果会产生差异，容易误判为不同目标，这就对视觉跟踪带来极大困难。因此，伽玛gamma校正实际上是用来解决光照变化问题的。梯度直方图HOG描述子具有很强的目标轮廓特征描述能力，由于梯度的性质，该描述子对噪点相当敏感，在使用时需要先进行Gamma校正和噪声平滑。

传统经典方法难以处理和适应复杂的跟踪变化，在深度学习和相关滤波的跟踪方法出现后，跟踪的鲁棒性和准确度都有所提高。在相关滤波与深度学习中，相关滤波类算法运算速度较快；相关滤波器通过将输入特征回归为目标高斯分布来训练filters。并在后续跟踪中寻找预测分布中的响应峰值来定位目标的位置。由于相关滤波器并没有对尺度进行处理，在整个跟踪序列中都假定目标尺度不变。在一些尺度变化非常剧烈的测试序列上如CarScale 上最终预测出的bounding-box尺寸大小和目标本身大小相差较大。目前基于相关滤波的拓展方法也有很多，包括核化相关滤波器(kernelized correlationfilter,KCF),加尺度估计的相关滤波器(DSST)等。相关滤波的方法也有一些缺陷，比如目标的快速移动，形状变化大导致更多背景被学习进来等都会对CF系列方法造成影响。虽然后续的研究也有一些针对性的改进，比如改进边界效应，改善背景更新策略或提高峰值响应图的置信度等，但普适性还需要进一步研究，特别是对不同的应用针对性地调整。而深度学习类算法准确性较高，DLT作为第一个将深度网络运用于单目标跟踪的跟踪算法，首先提出了“离线预训练”，离线预训练采用的数据集Tiny Images dataset只包含32*32大小的图片，分辨率明显低于主要的跟踪序列，因此SDAE很难学到足够强的特征表示。离线阶段的训练目标为特征学习，这与在线跟踪需要区分目标和背景的目标相差甚大。SDAE全连接的网络结构使其对目标的特征刻画能力不够优秀，虽然使用了4层的深度模型，但效果仍低于一些使用人工特征的传统跟踪方法如 Struck等。由于深度学习类算法运算复杂，因此不利于实时目标跟踪。基于深度孪生网络的 SiamRPN则很好地平衡了实时性与准确性，并在此基础上产生了一系列Siamese跟踪算法。 SiamRPN虽然取得了非常好的性能，但由于训练集问题，物体类别过少限制了跟踪的性能；同时，在之前的训练方式中，负样本只有背景信息，一定程度上也限制了网络的判别能力，网络只具备区分前景与不含语义的背景的能力。在SiamRPN++前，孪生网络的主要问题在于只能用比较浅的卷积网络(如AlexNet)，无法利用现代化网络为跟踪算法提升精度，而直接引入深网络甚至会使性能大幅衰减。孪生网络在使用现代化深度神经网络存在位置偏移问题，而这一问题是由于卷积的padding会破坏严格的平移不变性。然而深网络并不能去掉 padding，为了缓解这一问题，让深网络能够在跟踪提升性能，SiamRPN++中提出在训练过程中加入位置均衡的采样策略。通过修改采样策略来缓解网络在训练过程中的存在的位置偏见问题，让深网络能够发挥出应有的效果。同时，为了更好地发挥深层网络的性能， SiamRPN++中利用了多层融合。由于浅层特征具有更多的细节信息，而深层网络具有更多的语义信息，将多层融合起来以后，可以跟踪器兼顾细节和深层语义信息，从而进一步提升性能。

现有的Siamese系列算法也存在一定的局限性，其局限性在于：算法研究重点放在骨干网架构方面，开始引入更深层、更复杂、分类能力更强的分类网络作为骨干网，分类网络虽然可以从高层语义角度区分不同类别目标，但高度语义抽象反而降低了同类目标间的区分度。例如在行人跟踪中，使用深层复杂网络的跟踪器可以很好地区分行人与非行人目标，但衣着外貌有较明显差别的行人有时却会引发跟踪错误。引发跟踪错误的原因是基于分类的骨干网会将这些目标高度抽象为同一类别从而给出较高的相似性得分。基于深度学习的目标跟踪算法的主要任务是优化检测之间相似性或距离度量的设计。根据学习特征的不同，基于深度学习的目标跟踪可以分为表观特征的深度学习，基于相似性度量的深度学习，以及基于高阶匹配特征的深度学习。相对来说，深度学习在目标跟踪领域的应用，比较多的局限于匹配度量的学习。深度学习在目标跟踪领域的应用并非一帆风顺。其主要问题在于训练数据的缺失。

对于视频追踪来说，常用的方法有两种，一是使用追踪器根据物体在上一帧的位置预测它在下一帧的位置，但这样会积累误差，而且一旦物体在图像中消失，追踪器就会永久失效，即使物体再出现也无法完成追踪；另一种方法是使用检测器，对每一帧单独处理检测物体的位置，但这又需要提前对检测器离线训练，只能用来追踪事先已知的物体。当真实目标变大时，由于会被缩放成固定尺度，实际上在相对变小，卷积层输出特征会随着尺度相对变小而被降维变模糊，需要持续扩大搜索区域来保持充足的感受野。当真实目标变小时情况则相反，卷积层输出特征会随着尺度相对变大而被升维变具体，需要缩小搜索区域，减小邻近干扰。由于CNN不同层的特征特点不一。高层特征擅长区分不同类别的物体，对目标的形变和遮挡非常鲁棒，但是对类内物体的区分能力非常差。低层特征更关注目标的局部细节，可以用来区分背景中相似的distractor，但是对目标的剧烈形变非常不鲁棒。由于不同序列中目标本身的表观和运动模式、环境中光照、遮挡等情形相差甚大。这种情况下，想要用同一个CNN完成所有训练序列中前景和背景区分的任务，困难重重。

发明内容

本发明的目的是针对现有技术存在的不足之处，提供一种能够降低开发和设计复杂度，并具有一定通用性，深度目标表观增强跟踪方法，以解决现有技术中同类目标区分度不高，引发跟踪错误的技术问题。

为解决上述技术问题，本发明采用以下技术方案进行实现：一种表观增强深度目标跟踪方法，其特征在于包括以下步骤：判别式

2.针对目标尺度大小变化情况指定目标尺度变大时扩大搜索区域和尺度变小时缩小搜索区域，观察跟踪算法当前的跟踪情况，采用针对目标尺度大小变化的策略去自适应地调整搜索区域的大小，然后将模板图像和自适应搜索区域引入到网络跟踪算法SiamRPN++框架，完成检测器的初始化，并根据SiamRPN++网络的“cls”得分，选取候选框并构成图片库；然后，根据颜色特征直方图，HOG特征，局部二值模式LBP纹理描述算子三种表观信息，分别对候选框和模板图片进行色彩分布、形态特征和纹理特征的目标匹配，将得到的颜色、 HOG和LBP特征表观语义特征加入特征池，直接与高级语义特征融合；采用颜色直方图特征作为表观描述子进行色彩相似度匹配，为体现模板与目标的局部细节信息，利用直方图反映的区域统计信息，对图片进行分块并在对应的小块上进行颜色直方图计算，计算来自候选框与模板图片的图像对应小块的颜色直方图相似度，根据每个小块的整体平均相似度来反映候选框图片与模板的整体相似度，转换成百分制，得分越高则越相似；采用方向梯度直方图作为表观描述子进行形态相似度匹配，将原始图片进行灰度化处理，使用伽玛Gamma校正对输入图片进行色域空间标准化，调节图片的对比度，降低光照变化与局部阴影所带来的负面作用，抑制噪声干扰，计算图片中每像素的梯度，捕获目标物体的轮廓信息，同时进一步弱化光照干扰；将图片中的像素归类为多个cell，统计出每个cell中的梯度直方图，形成每个cell的特征描述符，将几个相邻的cell共同组合成一个block，将一个block块内的所有 cell特征描述符进行串联，作为该block的方向梯度直方图HOG特征描述符，计算梯度直方图特征向量，进行Block归一化，将待检区域内所有block的HOG特征描述符进行串联，作为该待检区域内的HOG特征描述符，供最终相似性度量所使用；采用局部二值模式LBP 作为表观描述子进行纹理相似度匹配，在3*3像素的窗口内，以中心点像素为阈值，将其余 8个像素点的灰度值与之进行比较，若周围点像素值大于等于中心点像素值，则该点处标记为1，否则标记为0。得出该窗口反映该区域纹理信息的LBP值；综合利用以上三种表观信息进行相似性度量计算，根据得分进行筛选，得到第二个图片库，最后选取表观信息得分最好的候选框图片，将其设为本帧预测目标；计算第二帧预测目标与第一帧初始化模板间的相似性得分，设置为初始分值，从第三帧开始，依据RPN网络的“cls”得分，由高到低地依次有序选取候选框，依照候选框信息裁剪视频帧构成初始图片库，取出当前帧的跟踪网络模板，与候选框图片库中图片依次进行表观特征相似性度量计算，得到新的一系列非RPN网络的“cls”得分，依照“cls”得分有序投票筛选，在图片库中有序地抽取候选框的新得分，若和初始得分情况相差甚小，便立刻停止筛选，否则筛选到最后一个“cls”得分最低的候选框，筛选得出第二个图片库，取出表观信息最相似的候选框图片，投票当选，设为本帧预测目标，在视频帧中做出标记，不断更新序列的跟踪结果，直到视频序列全部结束。

与现有技术相比，本发明具有的技术效果或优点是：

本发明将模板图像和自适应搜索区域引入到网络跟踪算法SiamRPN++框架，提高了跟踪的准确性和鲁棒性。将表观信息特征与深度网络特征直接结合，构成特征池，再采用投票机制形成新的加权特征用于目标跟踪。实现了目标低层视觉信息与高层语义信息的结合，算法可解释性明确，实现简单，避免了对算法神经网络骨干网架构的黑盒式盲目修改，较好地平衡了目标跟踪算法的复杂度和准确度。

本发明在基于深度孪生网络的SiamRPN++算法跟踪的过程中，根据真实目标的尺度发生的变化，寻找搜索区域中和模版更相似的物体，根据表观信息与卷积神经网络中深、浅特征层间的关系，将颜色、HOG和LBP特征等表观语义特征加入特征池，直接与高级语义特征融合，将得到候选框得分排序的模板与候选框图片都存为图像块，通过构造有语意的负样本增强了跟踪器的判别能力。利用表观信息以提升孪生网络目标区分的准确性，使得网络的判别能力变得更强，检测分数也变得更有辨别力；让网络学习判别能力，去搜索区域里找模版更相似的物体，而不是一个简单的有语义的物体。

本发明根据颜色直方图特征，HOG特征，LBP纹理特征三种传统表观信息，对候选框和模板图片进行色彩分布、形态特征和纹理特征的目标匹配，原理简单。用于质量检测，人脸图像分析，唇语识别，表情检测，动态纹理取得了很好的效果。HOG表示的是边缘 (梯度)的结构特征，因此可以描述局部的形状信息；位置和方向空间的量化一定程度上可以抑制平移和旋转带来的影响；采取在局部区域归一化直方图，可以部分抵消光照变化带来的影响。由于一定程度忽略了光照颜色对图像造成的影响，而且由于它这种分块分单元的处理方法，也使得图像局部像素点之间的关系可以很好得到的表征。

本发明采用方向梯度直方图作为表观描述子进行形态相似度匹配，将原始图片进行灰度化处理，使用Gamma校正转换为非线性的视频信号，校正GAMMA曲线后，可以实现如下目的：调节图片的对比度，降低光照变化与局部阴影所带来的负面作用，抑制噪声干扰。

本发明采用颜色直方图特征作为表观描述子进行色彩相似度匹配，利用颜色直方图反映的区域统计信息，对图像块进行分块处理，划分图像块并在对应的小块上进行颜色直方图计算，计算来自候选框与模板图片的图像块对应小块的颜色直方图相似度，根据每个小块的整体平均相似度来反映候选框图片与模板的整体相似度，转换成百分制，得分越高则越相似；大大降低了开发和设计复杂度，取得了与最新复杂改进算法相匹敌的成绩，部分指标甚至超越了复杂改进算法，并且大大降低了开发和设计复杂度，并具有一定通用性。

本发明采用方向梯度直方图作为表观描述子进行形态相似度匹配，将原始图片进行灰度化处理，使用伽玛Gamma校正转换为非线性的视频信号，提取一批候选的图像块，将图像块输入分类网络中，将置信度最高的图像块作为预测目标，对输入图片进行色域空间标准化，调节图片的对比度，降低光照变化与局部阴影所带来的负面作用，抑制噪声干扰；解决预测误差累积和传播导致的跟踪漂移问题。每个块的预测值组成了整个候选区域的置信图 (confidence map)。受益于RNN的recurrent结构，每个分块的输出值都受到其他关联分块的影响，相比于仅仅考虑当前块的准确度更高，避免单个方向上遮挡等的影响，增加可靠目标部分在整体置信图中的影响。相比于其他基于传统特征的相关滤波器算法有较大的提升。本发明将图片中的像素归类为多个cell，统计出每个cell中的梯度直方图，形成每个cell的特征描述符，将几个相邻的cell共同组合成一个block，将一个block块内的所有cell特征描述符进行串联，作为该block的方向梯度直方图HOG特征描述符，计算梯度直方图特征向量，进行Block归一化，将待检区域内所有block的HOG特征描述符进行串联，作为该待检区域内的HOG特征描述符，供最终相似性度量所使用；在快速运动、小目标检测和遮挡问题方面，表现更加准确稳定。

本发明采用局部二值模式LBP进行图片纹理相似度匹配，在3*3像素的窗口内，以中心点像素为阈值，将其余8个像素点的灰度值与之进行比较，若周围点像素值大于等于中心点像素值，则该点处标记为1，否则标记为0。得出该窗口反映该区域纹理信息的LBP值；根据SiamRPN++网络中的“cls”得分，选取候选框并构成图片库，利用表观信息进行相似性度量计算，得到新的属性得分进行筛选，得到第二个图片库中表观信息最相似的候选框图片，将其设为本帧预测目标；实现了孪生网络目标跟踪器的性能提升，在部分指标上甚至超过了当前一些复杂的优化算法。

本发明依照“cls”得分有序投票筛选，在图片库中有序地抽取候选框的新属性得分，若和初始得分情况相差甚小，便立刻停止筛选，否则筛选到最后一个“cls”得分最低的候选框，筛选得出第二个图片库，取出表观信息最相似的候选框图片，投票当选，设为本帧预测目标，在视频帧中做出标记，不断更新序列的跟踪结果，直到视频序列全部结束。这种利用高层特征主要反映目标的语义特性，对目标的表观变化比较鲁棒。低层特征保存了更多细粒度的空间特性，对跟踪目标的精确定位更有效。相较于FCNT和SO-DLT都有提高，实际测试时性能也相当稳定，在训练过程中RNN的置信图对不同块的filter做了加权，达到抑制背景中的相似物体，增强可靠部分的效果。

附图说明

图1是本发明表观增强深度目标跟踪的流程图；

图2是表观特征模块在VOT2018上与基线的比较示意图；

图3是自适应策略在VOT2018上与基线的比较示意图；

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式，对上述技术方案进行详细的说明。

具体实施方式

参阅图1。根据本发明，采用如下步骤：

S1:观察跟踪算法当前的跟踪情况，采用针对目标尺度大小变化的策略去自适应地调整搜索区域的大小；针对目标尺度大小变化情况指定，规则是目标尺度变大时扩大搜索区域，尺度变小时缩小搜索区域。当真实目标变大时，由于会被缩放成固定尺度，实际上在相对变小，卷积层输出特征会随着尺度相对变小而被降维变模糊，需要持续扩大搜索区域来保持充足的感受野，当真实目标变小时情况则相反，卷积层输出特征会随着尺度相对变大而被升维变具体，需要缩小搜索区域，减小邻近干扰；

S2：将模板图像和自适应搜索图像送入SiamRPN++框架，从而得到候选框的得分排序；

S3：根据颜色，HOG，LBP三种传统表观信息，分别对候选框和模板图片进行色彩分布、形态特征和纹理特征的目标匹配；采用颜色直方图特征作为描述子进行色彩相似度匹配；在 SiamRPN++算法跟踪的过程中，真实目标的尺度会发生变化，因此将模板与候选框图片都调整为相同尺寸的图像块；由于直方图反映的是区域统计信息，为体现模板与目标的局部细节信息，对图像块进行分块处理。划分图像块并在对应的小块上进行颜色直方图计算；计算来自候选框与模板图片的图像块对应小块的颜色直方图，算出颜色相似度得分，参与最后的相似度投票。在本实例用下式计算相似度：

根据每个小块的整体平均相似度，算出反映候选框图片与模板的整体相似度的颜色相似度得分，

其中，G、S分别为候选框与模板的整体颜色直方图，N为小块数量，g_i、s_i分别表示候选框和模板第i分块的颜色直方图向量。

采用方向梯度直方图作为一种表观特征描述子进行形态相似度匹配，将原始图片进行灰度化处理，使用Gamma校正，对输入图片进行色域空间标准化，以调节图片的对比度，降低光照变化与局部阴影所带来的负面作用，抑制噪声干扰，计算图片中每像素的梯度，捕获目标物体的轮廓信息，同时进一步弱化光照干扰，将图片中的像素归类为多个cell。在本实施例中，每个cell为6*6像素点；统计出每个cell中的梯度直方图，形成每个cell的特征描述符；将几个相邻的cell共同组合成一个block，将一个block内的所有cell特征描述符进行串联，作为该block的HOG特征描述符。本实施例中，每个block中包含3*3个cell；将待检区域内所有block的HOG特征描述符进行串联，作为该待检区域内的HOG特征描述符，可供最终相似性度量所使用；采用局部二值模式作为一种表观特征描述子进行图片纹理相似度匹配，在3*3像素的窗口内，以中心点像素为阈值，将其余8个像素点的灰度值与之进行比较，若周围点像素值大于等于中心点像素值，则该点处标记为1，否则标记为0。在本实施例中，通过3*3邻域内的8个像素点经过比对可以按顺时针生成一个8位的二进制数(转为十进制数即为LBP码，一共有256种不同可能)，最终可得出该窗口的LBP值，利用此值可以反映该区域纹理信息；

S4：根据SiamRPN++网络中的“cls”得分选取候选框并构成图片库，再利用上述三种表观信息进行相似性度量计算，得到新的属性得分进行筛选，得到第二个图片库中表观信息最相似的候选框图片，将其设为本帧预测目标，计算第二帧预测目标与第一帧初始化模板间的相似性得分，设置为初始分值；从第三帧开始，依据RPN网络中的“cls”得分由高到低地依次有序选取候选框，依照候选框信息裁剪视频帧构成初始图片库。图片库中的图片数量可手动控制；取出当前帧的跟踪网络模板，与候选框图片库中图片依次进行表观特征相似性度量计算，得到新的一系列属性得分(非RPN网络的“cls”得分)；依照“cls”得分有序投票筛选。在图片库中有序地抽取候选框的新属性得分，若和初始得分情况相差甚小，便立刻停止筛选，否则筛选到最后一个“cls”得分最低的候选框；筛选得出第二个图片库，取出表观信息最相似的候选框图片，投票当选，设为本帧预测目标，在视频帧中做出标记；利用当前跟踪结果对每一层的相关滤波器做更新，不断更新序列的跟踪结果，直到视频序列全部结束。使用第一帧的数据来训练该序列的bounding box回归模型，用第一帧提取正样本和负样本，更新网络各层权重。当前帧最终结果置信度较高时，采样更新样本库，否则根据情况对模型做短期或者长期更新。判断当前跟踪物体是否被遮挡的策略，用其判断是否更新。即计算目标区域的置信度，并与历史置信度和的移动平均数(movingaverage)做一个对比，低于一定比例，则认为受到遮挡，停止模型更新，防止引入噪声。

在高亮度范围，人眼的敏感度较低，因此自然界中大范围的亮度变化，在人眼感知上却并不大。可以使用幂函数来拟合这种非线性的映射，用公式表示如下：Y＝X^γ，根据公式,求出像素归一化后的数据，以1/gamma为指数的对应值，输出图像是输入图像的幂函数，指数为这一步包含一个求指数运算，若gamma值为2.2,则1/gamma为0.454545,对归一化后的A值进行预补偿的结果就是0.783203^0.454545＝0.894872，其中，X是使用0-1之间的实数表示的输入亮度，Y是使用0-1之间实数表示的输出亮度，γ为认为设定的参数，不同的γ选择会产生不同的效果。这种通过调整γ的取值来调整输入输出亮度之间映射关系的方式，称之为gamma校正。根据γ取值的不同，gamma校正的不同效果：当γ<1时，曲线上凸，输出值大于输入值。当γ＝1时，曲线为一条直线，输入与输出相等，不进行校正，当γ>1时，曲线下凸，输出值小于输入值。将经过预补偿的实数值反变换为0～255之间的整数值。具体算法为:f*256-0.5此步骤包含一个乘法和一个减法运算。续前例,将A的预补偿结果0.894872代入上式,得到A预补偿后对应的像素值为228。已知gamma值为2.2,像素A的原始值是200,就可求得经gamma校正后A对应的预补偿值为228。基于上述原理,我们只需为 0～255之间的每个整数执行一次预补偿操作,将其对应的预补偿值存入一个预先建立的gamma校正查找表(LUT:LookUp Table),就可以使用该表对任何像素值在0～255之间的图像进行gamma校正。

因此可以使用0-1之间实数表示的输出亮度Y，0-1之间的实数表示的输入亮度X，设定调整参数γ，根据公式Y＝X^γ，求出像素归一化后的数据，以1/gamma为指数的对应值，对归一化后的A值进行预补偿，对0～255之间的每个整数执行一次预补偿操作,将对应的预补偿值存入一个预先建立的gamma校正查找表,使用该表对任何像素值在0～255之间的图像进行gamma校正。求得经gamma校正后A对应的预补偿值。

对于彩色图像，先对三通道颜色值分别计算梯度，使用内核过滤图像，分别计算水平梯度和垂直梯度，然后再计算x和y方向梯度的合梯度，取梯度值最大的那个作为该像素的梯度，然后进行伽马矫正，调节图像对比度，减少光照对图像的影响，包括光照不均和局部阴影，使过曝或者欠曝的图像恢复正常，更接近人眼看到的图像。x方向梯度图会强化垂直边缘特征，y方向梯度图会强化水平边缘特征。这就使得有用的特征(轮廓)得到保留，无关不重要的信息被去除。先把整个图像划分为若干个8x8的小单元，称为cell，并计算每个cell的梯度直方图。这个cell的尺寸也可以是其他值，根据具体的特征而定。把图像分成若干个8x8的小单元，是因为对于一整张梯度图，其中的有效特征是非常稀疏的，不但运算量大，而且效果可能还不好。于是就使用特征描述符来表示一个更紧凑的特征。一个8x8的小单元就包含了8x8x2＝128个值，因为每个像素包括梯度的大小和方向。把这个8x8的小单元用长度为9的数组来表示，这个数组就是梯度直方图。这种表示方法不仅使得特征更加紧凑，而且对单个像素值的变化不敏感，也就是能够抗噪声干扰。8×8的cell中表示梯度的原始数字，注意角度的范围介于0到180度之间，而不是0到360度，这被称为“无符号” 梯度，因为两个完全相反的方向被认为是相同的。HOG将8×8的一个区域作为一个cell，再以2×2个cell作为一组，称为block。由于每个cell有9个值，2×2个cell则有36个值，HOG是通过滑动窗口的方式来得到block。基于图像的梯度对每个cell创建一个直方图。由于图像的梯度对整体光照非常敏感，比如通过将所有像素值除以2来使图像变暗，那么梯度幅值将减小一半，因此直方图中的值也将减小一半。理想情况下，特征描述符不会受到光照变化的影响，那么就需要将直方图“归一化”。将梯度直方图向量进行归一化，可以看到归一化后的结果与第一个向量归一化后的结果相同。归一化图像的主要目的是提高检测器对光照的鲁棒性，因为实际的人体目标可能出现的各种不同的场合，检测器必须对光照不太敏感才会有好的效果。所以，对向量进行归一化可以消除整体光照的影响。对block块内的HOG 特征向量进行归一化。对block块内特征向量的归一化主要是为了使特征向量空间对光照，阴影和边缘变化具有鲁棒性。

一个block有4个直方图，将这4个直方图拼接成长度为36的向量，计算各直方图在这个区间的密度，然后根据这个密度对区间中的各个细胞单元做归一化(能对光照和阴影获得更好的效果)，使用滑动步长为8个像素的是滑动窗口，在滑动窗口上进行归一化，计算每滑动一次的向量，对这个向量进行归一化，得到一个block长度为36的特征向量，并重复这个过程。

HOG特征描述子可以不局限于一个长度，也可以用很多其他的长度。在每个像素点，都有一个幅值(magnitude)和方向，对于有颜色的图片，会在3个channel上都计算梯度。那么相应的幅值就是3个channel上最大的幅值，角度(方向)是最大幅值所对应的角。特征描述符就是通过提取图像的有用信息，并且丢弃无关信息来简化图像的表示。

区域推荐网络RPN输入feature map，通过接在之后的feature map，在featuremap上面找到响应候选框，在原始图像上的产生候选框；以3*3为一个滑动窗口(slidingwindow)，进行一个3*3*256的卷积运算，得到一个a*a*256的特征图，特征图上当前滑窗的中心在原像素空间的映射点anchor然后以这个锚点为中心，配上规定的9个基本候选框，输出候选区域，这里的a与卷积的步幅有关。RPN的第一步运算是一个3*3*256的卷积运算，称3*3 为一个滑动窗口(sliding window)。对应256个特征图中的相同位置的点。这256个特征图来自上级卷积层或池化层的输出。即，对于特征图中某个中心点对应的k＝9个anchor boxes 中的每个anchor boxes来说，都会采用nxn的卷积核生成1*1的特征值。共有256个特征图中对应位置的中心点会输出对应尺度和形状的anchor boxes所对应的1*1的特征值，构成了 256维的向量。这256维的向量共同输入一个全连接网络，从而生成两个scores和4个 coordinates。假设RPN的输入是13*13*256的特征图，然后使用3*3*256的卷积核进行卷积运算，得到一个a*a*256的特征图，这里的a与卷积的步幅有关。每一个特征图上一共有13*13＝169个像素点，由于采用了边界填充，所以在进行3*3卷积的时候，每一个像素点都可以做一次3*3卷积核的中心点，整个卷积下来相当于是有169个卷积中心，这169个卷积中心在原始图像上会有169个对应的锚点，然后每个锚点会有9个默认大小的基本候选框，这样相当于原始图像中一共有169*9＝1521个候选框，这1521个候选框有9种不同的尺度，中心又到处都分布，所以足以覆盖了整个原始图像上所有的区域，甚至还有大量的重复区域。关于特征图和原始图像的映射关系，这里有一点需要补充，假定原始的图像长宽分别是 W*H，特征图的长宽是w*h，则有如下关系：w＝W/rh＝W/r这里的r称之为下采样率，即各个卷积层和池化层步幅的乘积，在VGG中，r＝19。这里的候选框是抽象的结果。以3*3滑窗中心对应原图的位置作为中心点，在原图生成9个不同尺度长宽比的anchor，然后将每个 anchor被分配到相应的类标签，有正样本(1)、负样本(0)，也有不参与训练的框(not used)，对正样本计算，就是回归的类标签，负样本不计算回归loss。0,1是二分类的标签。基于卷积特征图定义的相对于原始图片的anchors，以当前滑窗的中心在原像素空间的映射点称 anchor为中心，生成k(paper中default k＝9,3scales and 3aspectratios)个proposals。训练RPN 网络是有监督训练，需要有数据、还要有相应的类标签，输入小网络的是512个通道的3*3 滑窗，类标签没有给定，没有类标签就无法计算Loss损失函数，无法训练网络。在原图生成anchor的目的之一是得到类标签。RPN是全卷积(fullconv)网络，其采用基础网络输出的卷积特征图作为输入.首先，采用512channel，3×3kernel的卷积层(上面的例子采用的是 256个channel，但是不影响理解)，然后是两个并行的1×1kernel的卷积层，该卷积层的 channels数量取决每个点(每个anchor)所对应的的标准候选框K的数量，在这两个并行的 1x1卷积中，左侧的是进行分类的，这里的分类只是分有和无两类，即候选框中有目标还是没有目标，至于目标到底是什么先不管，由于每一个anchor对应k个候选框，每一个候选框有两个取值(即有和无，用概率大小表示)所以每一个anchor对应的输出应该为一个2K 维度的向量，故而左侧的分类卷积使用2K个channel；同样的道理，右侧是获取边框位置信息的卷积网络，由于每一个anchor对应k个候选框，每一个候选框有4个位置取值(x,y,w,h) 所以每一个anchor对应的输出应该为一个4K维度的向量，故而右侧的卷积使用4K个 channel。RPN最终目的是得到候选区域，但在目标检测的最终目的是为了得到最终的物体的位置和相应的概率，这部分功能由FastR-CNN做的。因为RPN和FastR-CNN都会要求利用CNN网络提取特征，使RPN和FastR-CNN共享同一个CNN部分。

为了进一步验证本发明的显著效果，本实施例分别通过单一模块测试和整体技术方案测试的方法与传统技术方案进行对比。该实例的测试数据集是VOT(Visual ObjectTracking)数据集，VOT是针对单目标跟踪的大规模测试平台。VOT数据集的评价指标主要包含以下三种：(1)平均重叠期望(EAO)：是跟踪器在短时测试序列上的非重置重叠期望值，是VOT中最重要的指标；(2)准确率(Accuracy)：是跟踪器在单个测试序列下的平均重叠率，计算方法为预测框与真实框的相交部分面积除以两矩形框的相并部分面积；(3)鲁棒性(Robustness)：是指在单个测试序列下，跟踪器跟踪目标的失败次数，当重叠率为0时即可算作一次跟踪失败。其中，Accuracy与EAO得分越高代表跟踪器的准确度越好， Robustness得分越低跟表明踪器的稳定性越强。

参阅图2-图3。首先测试表观特征模块与SiameseRPN++构成的单模块算法，期间采用了投票候选机制。使用商汤开源的SiameseRPN++算法作为基准，以VOT2018数据集为主要测试数据集，结果如表1、图2所示。在VOT2018数据集综合性能表现最好的是HOG 特征，EAO提升到0.422。

表1表观特征模块在VOT2018上的测试

步骤S1中的自适应策略的引入使得固有的算法框架得到了大幅的性能提升。自适应放缩比单一的放大或缩小效果更好，EAO比基线高出约2到3个点左右，结果如表2、图3所示。其中搜索区自适应放缩a算法可保证VOT三个指标维持到基线以上，而b算法则更专注于 EAO指标，最高可达0.446。为保证算法框架的综合性能，进行模块整合时，本技术方案采用了b算法。表2步骤S1中的自适应策略在VOT2018上的测试结果

为获得最优算法框架，我们通过消融实验测试不同模块对最终结果的影响。由于投票机制模块是必需的，所以只讨论各表观特征模块与自适应搜索模块的消融实验。表3为在VOT2018 上的实测结果。

表3算法框架在VOT2018上的消融实验结果

在VOT2018数据集上，综合表现最好的是“HOG+自适应搜索”，比作为基线的SiameseRPN++的EAO高了近4个点，目标也少丢失了7次。“LBP+自适应搜索区域”综合表现一般，EAO只提升了0.1个点。为了更加客观分析算法效果，我们继续在VOT2016和 VOT2018上进行了整体算法测试。如表4、5所示，在VOT2016数据集上表现最好的依然是 HOG算法框架，比基线高出约2个点。整体来讲，本技术方案性能都超过了SiameseRPN++算法本身，证明了增强表观信息跟踪算法的合理性。

表4基于表观特征的算法框架在VOT2016上的测试结果比较

表5基于表观特征的算法框架在VOT2018上的测试结果比较

为更加直观地观察本文算法效果，我们从VOT数据集中随机挑选了三个视频序列，将本技术方案框架与作为基线的SiameseRPN++算法进行了目标预测情况比对，可以看出在快速运动、小目标检测和遮挡问题方面，本技术方案表现更加准确稳定。

为测试本技术方案的真实性能，我们在VOT历年挑战赛上与其他先进跟踪器进行了比对，VOT2016-2019期间的得分情况如表6、表7、表8所示。在和作为基准的 SiameseRPN++比较上，本技术方案全面领先。与其他当年先进的跟踪器比对上，VOT2016、 2018的报告上我们的技术框架为当年比赛的最优，VOT2019的报告上我们的技术框架位列第 13名。

表6本发明跟踪技术框架在VOT2016上的测试结果比较

表7本发明跟踪技术框架在VOT2018上的测试结果比较

表8本发明跟踪技术框架在VOT2019上的测试结果比较

可见表观信息引入的优势，使用简单且易于计算的方法即实现了孪生网络目标跟踪器的性能提升，在部分指标上甚至超过了当前一些复杂的优化算法。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种表观增强深度目标跟踪方法，其特征在于包括以下步骤：

针对目标尺度大小变化情况指定目标尺度变大时扩大搜索区域和尺度变小时缩小搜索区域，观察跟踪算法当前的跟踪情况，采用针对目标尺度大小变化的策略去自适应地调整搜索区域的大小，然后将模板图像和自适应搜索区域内的候选框引入到网络跟踪算法SiamRPN++框架，完成检测器的初始化，得到候选框的得分排序，在基于深度孪生网络的SiamRPN++算法跟踪的过程中，寻找搜索区域中和模版相似的物体，将“cls”得分高的候选框和模板保存为图片库1；进一步，基于颜色特征直方图，HOG特征，局部二值模式LBP纹理描述算子三种表观信息，分别对候选框和模板图片进行色彩分布、形态特征和纹理特征的目标匹配，将颜色、HOG和LBP特征表观语义特征加入特征池，直接与高级语义特征融合；采用颜色直方图特征进行色彩相似度匹配，为体现模板与目标的局部细节信息，利用直方图反映的区域统计信息，对候选框进行分块处理，并在对应的小块上进行颜色直方图计算，计算来自候选框与模板图片的对应小块的颜色直方图相似度，根据每个小块的整体平均相似度来反映候选框图片与模板的整体相似度，转换成百分制，得分越高则越相似；采用方向梯度直方图进行形态相似度匹配，将候选框图片进行灰度化处理，使用伽玛Gamma校正对输入图片进行色域空间标准化，调节图片的对比度，降低光照变化与局部阴影所带来的负面作用，抑制噪声干扰；计算图片中每像素的梯度，捕获目标物体的轮廓信息，同时进一步弱化光照干扰；将图片中的像素归类为多个cell，统计出每个cell中的梯度直方图，形成每个cell的特征描述符，将几个相邻的cell共同组合成一个block，将一个block内的所有cell特征描述符进行串联，作为该block的方向梯度直方图HOG特征描述符，计算梯度直方图特征向量，进行Block归一化，将候选框图片所有block的HOG特征描述符进行串联，作为该候选框图片的HOG特征描述符，供最终相似性度量所使用；采用局部二值模式LBP进行图片纹理相似度匹配，在3*3像素的窗口内，以中心点像素为阈值，将其余像素点的灰度值与之进行比较，若周围点像素值大于等于中心点像素值，则该点处标记为1，否则标记为0，得出该窗口反映该区域纹理信息的LBP值；综合利用表观信息进行相似性度量计算，根据新的属性得分进行筛选，得到第二个图片库，将其中表观信息最相似的候选框图片设为本帧预测目标；计算第二帧预测目标与第一帧初始化模板间的相似性得分，设置为初始分值，从第三帧开始，依据RPN网络中的“cls”得分，由高到低地依次有序选取候选框，依照候选框信息裁剪视频帧构成初始图片库，取出当前帧的跟踪网络模板，与候选框图片库中图片依次进行表观特征相似性度量计算，得到新的一系列表观得分，依照得分有序投票筛选，在图片库中有序地抽取候选框的表观得分，若和初始得分情况相差甚小，便立刻停止筛选，否则筛选到最后一个“cls”得分最低的候选框，筛选得出第二个图片库，取出表观信息最相似的候选框图片，投票当选，设为本帧预测目标，在视频帧中做出标记，不断更新序列的跟踪结果，直到视频序列全部结束。

2.如权利要求1所述的表观增强深度目标跟踪方法，其特征在于：根据直方图反映区域的统计信息，划分图像块并在对应的小块上进行颜色直方图计算，计算来自候选框与模板图片的图像块对应小块的颜色直方图，参与最后的相似度投票，采用下式计算相似度：

3.如权利要求1所述的表观增强深度目标跟踪方法，其特征在于：采用方向梯度直方图作为一种表观特征描述子进行形态相似度匹配，将原始图片进行灰度化处理，使用Gamma校正，对输入图片进行色域空间标准化，计算图片中每像素的梯度，捕获目标物体的轮廓信息，将图片中的像素归类为多个cell，统计出每个cell中的梯度直方图，将几个相邻的cell共同组合成一个block，将一个block内的所有cell特征描述符进行串联，作为该block的HOG特征描述符。

4.如权利要求1所述的表观增强深度目标跟踪方法，其特征在于：将待检区域内所有block的HOG特征描述符进行串联，作为该待检区域内的HOG特征描述符，采用局部二值模式作为一种表观特征描述子进行图片纹理相似度匹配，在3*3像素的窗口内，以中心点像素为阈值，将其余像素点的灰度值与之进行比较，若周围点像素值大于等于中心点像素值，则该点处标记为1，否则标记为0，按顺时针生成一个8位的二进制数，并转为十进制数，得到反映待检区域纹理信息的LBP码。

5.如权利要求1所述的表观增强深度目标跟踪方法，其特征在于：使用0-1之间实数表示的输出亮度Y，0-1之间的实数表示的输入亮度X，设定调整参数γ，根据公式Y＝X^γ，求出像素归一化后的数据，以1/gamma为指数的对应值，对归一化后的A值进行预补偿，对0～255之间的每个整数执行一次预补偿操作,将对应的预补偿值存入一个预先建立的gamma校正查找表,使用该表对任何像素值在0～255之间的图像进行gamma校正，求得经gamma校正后A对应的预补偿值。

6.如权利要求5所述的表观增强深度目标跟踪方法，其特征在于：对于彩色图像，先对三通道颜色值分别计算梯度，使用内核过滤图像，分别计算水平梯度和垂直梯度，然后再计算x和y方向梯度的合梯度，取梯度值最大的那个作为该像素的梯度，然后进行伽马矫正，调节图像对比度，减少光照对图像的影响。

7.如权利要求1所述的表观增强深度目标跟踪方法，其特征在于：处理第t帧时，首先以第t-1帧的的预测位置为中心，根据第t-2到t-1帧目标的变化趋势，相应地缩放搜索区域并输入骨干网，当骨干网输出的预测值高于一定阈值时，停止缩放,以当前尺度作为最佳的搜索区域大小，选定第t帧的最佳搜索区域后，由骨干网在该搜索区域采取一系列策略,确定多个候选框中心位置和大小。

8.如权利要求1所述的表观增强深度目标跟踪方法，其特征在于：一个block有4个直方图，将这4个直方图拼接成长度为36的向量，计算各直方图在这个区间的密度，然后根据这个密度对区间中的各个单元做归一化，使用滑动步长为8个像素的滑动窗口，在滑动窗口上进行归一化，计算每滑动一次的向量，对这个向量进行归一化，得到一个block长度为36的特征向量，并重复这个过程。

9.如权利要求1所述的表观增强深度目标跟踪方法，其特征在于：区域推荐网络RPN输入feature map，通过接在之后的feature map，在feature map上面找到响应候选框，在原始图像上的产生候选框；以3*3为一个滑动窗口(sliding window)，进行一个3*3*256的卷积运算，得到一个a*a*256的特征图，特征图上当前滑窗的中心在原像素空间的映射点anchor然后以这个锚点为中心，配上规定的9个基本候选框，输出候选区域，这里的a与卷积的步幅有关。

10.如权利要求9所述的表观增强深度目标跟踪方法，其特征在于：以3*3滑窗中心对应原图的位置作为中心点，在原图生成9个不同尺度长宽比的anchor，将每个anchor分配到相应的类标签，然后基于卷积特征图定义的相对于原始图片的anchors，以当前滑窗的中心在原像素空间的映射点称anchor为中心，生成k(paper中default k＝9,3scales and3aspect ratios)个proposals。