CN112270286A

CN112270286A - 一种抗阴影干扰的单色视频目标跟踪方法

Info

Publication number: CN112270286A
Application number: CN202011240840.7A
Authority: CN
Inventors: 齐航; 任君; 李磊; 薛茜; 张强; 张鼎文; 梁杰
Original assignee: Beijing Research Institute of Mechanical and Electrical Technology
Current assignee: Beijing Research Institute of Mechanical and Electrical Technology
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-01-26
Anticipated expiration: 2040-11-09
Also published as: CN112270286B

Abstract

本发明提供了一种抗阴影干扰的单色视频目标跟踪方法，该方法包括：提取原始模板图像特征、模板图像阴影检测结果特征、原始待检测图像特征和待检测图像阴影检测结果特征；构建阴影指导模块，输出模板图像特征和待检测图像特征；构建特征融合模块，获取模板图像融合特征和待检测图像融合特征；构建区域候选网络模块，获取模板分支输出特征和待检测分支输出特征；获取分类分支结果；获取回归分支结果；获取分类损失；获取回归损失；获取最终优化的损失以完成算法网络训练，获取网络模型参数；进行算法网络的测试预测单色视频目标跟踪结果。应用本发明的技术方案，能够解决现有技术中单色视频目标跟踪易受阴影干扰导致跟踪准确度不足的技术问题。

Description

一种抗阴影干扰的单色视频目标跟踪方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种抗阴影干扰的单色视频目标跟踪方法。

背景技术

目标跟踪技术指在给定初始帧目标框的情况下，在连续的视频序列中预测目标位置和尺度信息。随着技术的发展，目标跟踪技术在日常生活中得到了广泛的运用，如在辅助驾驶系统、机器人视觉、人机交互和智能监控等领域取得了较好的成果。

现有的目标跟踪算法根据目标表观建模方式的不同可以分为两大类：一类是生成类方法，另一类是判别类方法。生成类方法即在初始帧中对目标按制定的方法建立目标模型，然后在后续帧搜索对比与目标模型相似度最高的区域作为目标区域进行跟踪。算法主要对目标本身特征进行描述，对目标特征刻画较为细致，但忽略背景信息的影响，在目标发生变化或者遮挡等情况下易导致“失跟”现象。生成类方法包括均值漂移和粒子滤波等。判别类方法即在初始帧中对目标和背景信息进行区分建立判别模型，通过对后续帧搜索目标进行判别是目标或背景信息，进而完成目标跟踪。判别类方法与生成类方法的根本不同在于判别类方法同时考虑背景信息与目标信息来进行判别模型的建立。由于判别类方法将背景与目标进行区分，因此该类方法在目标跟踪时的表现通常更为鲁棒，目前已经成为目标跟踪的主流跟踪方式。判别类方法包括相关滤波方法和深度学习方法等。早期的目标跟踪算法采用相关滤波框架，用手工设计的底层视觉特征对目标表观进行建模，虽然相关滤波利用频域计算使得跟踪速度提升，但手工特征或者浅层分类器提取的特征对目标表观模型的语义信息预测能力有限，使得跟踪精度提升缓慢。近年来，随着深度学习技术在计算机视觉领域的广泛应用，目标跟踪逐渐引用深度学习技术提取目标更加丰富准确的特征信息，使得目标跟踪算法的性能和鲁棒性得到大幅提升。

大多数的目标跟踪方法如“L.Bertinetto,J.Valmadre,J.F.Henriques,etal.Fully-convolutional siamese networks for object tracking[C].EuropeanConference on Computer Vision(ECCV)Workshops,2016.”仅通过对模板图像与待检测图像提取的特征进行相关操作，快速地实现模板图像与待检测图像的相应区域进行对比，输出每个位置和模板图像相似度的响应图。但有以下缺陷：首先由于没有回归，网络无法预测尺度上的变化，所以只能通过多尺度测试来预测尺度的变化，会降低速度。其次，输出的响应图的分辨率较低，为了得到更高精度的位置信息，采用插值的方法使输出与输入尺寸相近的大小。

为解决上述问题，一些方法引入目标检测领域的区域候选网络，通过让网络回归避免多尺度测试。例如，“B.Li,J.Yan,W.Wu,Z.Zhu,and X.Hu.High performance visualtracking with siamese region proposal network[C].Computer Vision and PatternRecognition(CVPR),2018.”通过引入目标检测领域的区域候选网络，一方面提升了速度，另一方面可以得到更为精准的目标框，更进一步，通过区域候选网络的回归可以直接得到更精确的目标位置，不需要通过插值得到最终的结果。

现有的目标跟踪算法主要研究的是任意通用场景下的任意目标的跟踪，忽略了特定复杂场景下提高目标跟踪精度的难点和必要性。由于日照和光线的影响，场景中的目标通常会产生阴影，而现有跟踪算法在跟踪过程中预测目标框往往会受到阴影的影响，使得预测框漂移到阴影区域上或将阴影区域视为目标的一部分，严重影响对目标的识别能力，干扰了目标跟踪的效果。同时，现有的目标跟踪算法除了少数基于相关滤波的算法以外，几乎均针对彩色视频，但对于一些特定任务场景需要对单色视频中的目标进行跟踪。相比于通常的彩色视频来说，单色视频缺少色度信息，目标区域与阴影区域的对比度差异变小，使得阴影存在场景下的单色视频目标跟踪任务更具有挑战性。

发明内容

本发明提供了一种抗阴影干扰的单色视频目标跟踪方法，能够解决现有技术中单色视频目标跟踪易受阴影干扰导致跟踪准确度不足的技术问题。

本发明提供了一种抗阴影干扰的单色视频目标跟踪方法，该单色视频目标跟踪方法包括：步骤一，将模板图像、模板图像阴影检测结果、待检测图像和待检测图像阴影检测结果输入到主干网络中以分别提取原始模板图像特征、模板图像阴影检测结果特征、原始待检测图像特征和待检测图像阴影检测结果特征；步骤二，构建阴影指导模块，通过阴影指导模块输出基于模板图像阴影检测结果特征指导的模板图像特征和基于待检测图像阴影检测结果特征指导的待检测图像特征；步骤三，构建特征融合模块，将原始模板图像特征与模板图像特征融合以获取模板图像融合特征，将原始待检测图像特征与待检测图像特征融合以获取待检测图像融合特征；步骤四，构建区域候选网络模块，将模板图像融合特征和待检测图像融合特征输入到区域候选网络模块以获取模板分支输出特征和待检测分支输出特征；将模板分支输出分为模板分类分支特征和模板回归分支特征，将待检测分支输出特征分为待检测分类分支特征和待检测回归分支特征；步骤五，在分类分支中根据模板分类分支特征和待检测分类分支特征采用深度可分离互相关操作获取分类分支结果；在回归分支中根据模板回归分支特征和待检测回归分支特征采用深度可分离互相关操作获取回归分支结果；步骤六，根据分类分支结果和分类得分标签获取分类损失；根据回归分支结果和目标坐标偏移标签获取回归损失；并根据分类损失和回归损失获取最终优化的损失以完成算法网络训练，获取网络模型参数；步骤七，根据网络模型参数进行算法网络的测试预测单色视频目标跟踪结果以完成抗阴影干扰的单色视频目标跟踪。

进一步地，在步骤一中，模板图像和待检测图像均经过单色化处理；将单色化处理后的模板图像通过阴影检测网络后再图像取反以获取模板图像阴影检测结果，将待检测图像通过阴影检测网络后再图像取反以获取待检测图像阴影检测结果。

进一步地，在步骤一中，主干网络为AlexNet网络。

进一步地，在步骤二中，单色视频目标跟踪方法根据

构建阴影指导模块，其中，σ(·)表示sigmoid函数，

表示元素级乘操作，i＝1或2，F₁ ¹表示原始模板图像特征，F₁ ²表示模板图像阴影检测结果特征，

表示原始待检测图像特征，

表示待检测图像阴影检测结果特征，S₁表示模板图像特征，S₂表示待检测图像特征。

进一步地，在步骤三中，单色视频目标跟踪方法根据

构建特征融合模块，其中，Cat(·)表示跨通道级联操作，C(·)表示卷积，BN(·)表示批归一化层，φ(·)表示ReLu激活函数，θ₁ ¹和θ₁ ²分别表示模板图像分支中的特征融合模块中两个融合层的融合参数，

和

分别表示待检测图像分支中的特征融合模块中两个融合层的融合参数，H₁表示模板图像融合特征，H₂表示待检测图像融合特征。

进一步地，在步骤五中，单色视频目标跟踪方法根据

获取分类分支结果，根据

获取回归分支结果，其中，★表示卷积操作，

表示模板分类分支特征，

表示待检测分类分支特征，δ₁和δ₂分别表示分类分支中两个卷积层对应的权值参数，

表示分类分支结果，

表示模板回归分支特征，

表示待检测回归分支特征，

和

分别表示回归分支中两个卷积层对应的权值参数，

表示回归分支结果。

进一步地，在步骤六中，单色视频目标跟踪方法根据分类分支结果和分类得分标签采用监督学习机制通过最小化交叉熵损失函数获取分类损失，根据回归分支结果和目标坐标偏移标签采用监督学习机制通过最小化smooth L1损失函数获取回归损失。

进一步地，在步骤六中，单色视频目标跟踪方法根据

获取分类损失，根据

获取回归损失，根据loss＝L_cls+λL_reg获取最终优化的损失，其中，L_cls表示分类损失，y_c表示真实标签，p_c表示网络的预测值，L_reg表示回归损失，θ表示调节参数，T_x和T_y分别表示对应的真值目标框的中心点的横坐标和纵坐标，T_w和T_h分别表示对应的真值目标框的形状的宽度和高度，A_x和A_y分别表示锚边界框的中心点的横坐标和纵坐标，A_w和A_h分别表示锚边界框的形状的宽度和高度，λ表示用于平衡两分支的超参数。

应用本发明的技术方案，提供了一种抗阴影干扰的单色视频目标跟踪方法，该抗阴影干扰的单色视频目标跟踪方法通过基于阴影检测结果提取的特征指导原始图像特征，获取图像融合特征后依次进行算法网络训练阶段和算法网络测试阶段以获取抗阴影干扰的单色视频目标跟踪，能够有效降低阴影对目标跟踪精度的影响。与现有技术相比，本发明的技术方案能够解决现有技术中单色视频目标跟踪易受阴影干扰导致跟踪准确度不足的技术问题。

附图说明

所包括的附图用来提供对本发明实施例的进一步的理解，其构成了说明书的一部分，用于例示本发明的实施例，并与文字描述一起来阐释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明的具体实施例提供的抗阴影干扰的单色视频目标跟踪方法的的训练流程示意图；

图2示出了根据本发明的具体实施例提供的抗阴影干扰的单色视频目标跟踪方法的测试流程示意图；

图3示出了根据本发明的具体实施例提供的抗阴影干扰的单色视频目标跟踪方法的训练框架示意图；

图4示出了根据本发明的具体实施例提供的抗阴影干扰的单色视频目标跟踪方法的测试框架示意图；

图5示出了根据本发明的具体实施例提供的抗阴影干扰的单色视频目标跟踪方法的深度可分离互相关示意图；

图6(a)和图6(b)示出了阴影存在场景下，本发明与在本发明的基础上去掉阴影指导模块和特征融合模块(即去掉阴影检测结果分支)后的实验结果仿真对比图；

图7示出了阴影不存在场景下，本发明与在本发明的基础上去掉阴影指导模块和特征融合模块(即去掉阴影检测结果分支)后的实验结果仿真对比图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

如图1至图4所示，根据本发明的具体实施例提供了一种抗阴影干扰的单色视频目标跟踪方法，该单色视频目标跟踪方法包括：步骤一，将模板图像、模板图像阴影检测结果、待检测图像和待检测图像阴影检测结果输入到主干网络中以分别提取原始模板图像特征、模板图像阴影检测结果特征、原始待检测图像特征和待检测图像阴影检测结果特征；步骤二，构建阴影指导模块，通过阴影指导模块输出基于模板图像阴影检测结果特征指导的模板图像特征和基于待检测图像阴影检测结果特征指导的待检测图像特征；步骤三，构建特征融合模块，将原始模板图像特征与模板图像特征融合以获取模板图像融合特征，将原始待检测图像特征与待检测图像特征融合以获取待检测图像融合特征；步骤四，构建区域候选网络模块，将模板图像融合特征和待检测图像融合特征输入到区域候选网络模块以获取模板分支输出特征和待检测分支输出特征；将模板分支输出分为模板分类分支特征和模板回归分支特征，将待检测分支输出特征分为待检测分类分支特征和待检测回归分支特征；步骤五，在分类分支中根据模板分类分支特征和待检测分类分支特征采用深度可分离互相关操作获取分类分支结果；在回归分支中根据模板回归分支特征和待检测回归分支特征采用深度可分离互相关操作获取回归分支结果；步骤六，根据分类分支结果和分类得分标签获取分类损失；根据回归分支结果和目标坐标偏移标签获取回归损失；并根据分类损失和回归损失获取最终优化的损失以完成算法网络训练，获取网络模型参数；步骤七，根据网络模型参数进行算法网络的测试预测单色视频目标跟踪结果以完成抗阴影干扰的单色视频目标跟踪。

应用此种配置方式，提供了一种抗阴影干扰的单色视频目标跟踪方法，该抗阴影干扰的单色视频目标跟踪方法通过基于阴影检测结果提取的特征指导原始图像特征，获取图像融合特征后依次进行算法网络训练阶段和算法网络测试阶段以获取抗阴影干扰的单色视频目标跟踪，能够有效降低阴影对目标跟踪精度的影响。与现有技术相比，本发明的技术方案能够解决现有技术中单色视频目标跟踪易受阴影干扰导致跟踪准确度不足的技术问题。

进一步地，在本发明中，为了实现抗阴影干扰的单色视频目标跟踪，首先，将模板图像、模板图像阴影检测结果、待检测图像和待检测图像阴影检测结果输入到主干网络中以分别提取原始模板图像特征、模板图像阴影检测结果特征、原始待检测图像特征和待检测图像阴影检测结果特征。

作为本发明的一个具体实施例，模板图像和待检测图像均经过单色化处理；将单色化处理后的模板图像通过阴影检测网络后再图像取反以获取模板图像阴影检测结果，将待检测图像通过阴影检测网络后再图像取反以获取待检测图像阴影检测结果。

在本发明中，主干网络可采用AlexNet网络。同时，本发明基于孪生网络思想，该步骤中的模板分支和待检测分支提取特征的主干网络参数是共享的。孪生网络的特征提取网络包含两个分支，即模板分支和待检测分支，两分支网络只有输入不同，权重参数共享。所以网络的两分支可以隐式地编码相同的变化，非常适合于目标跟踪任务。如表1所示，将原始用于分类任务的AlexNet网络做相应修改使其适用于目标跟踪任务。首先，移除为分类任务设计的全连接层，全卷积网络可以输入较大的待检测图像到网络，可以详尽地测试目标在图像中所有可能的位置，找到和目标相似度最高的候选区域，从而预测目标位置；其次，为了保持较高的分辨率，移除最后一层的池化操作；最后，移除所有的填充，使网络在跟踪时不会对某个位置(图像中心位置)有固定的偏好。采用上述修改后的AlexNet网络进行提取特征提取。

表1修改后的基础主干网络AlexNet参数表

此外，在本发明中，在获取原始模板图像特征、模板图像阴影检测结果特征、原始待检测图像特征和待检测图像阴影检测结果特征之后，构建阴影指导模块，通过阴影指导模块输出基于模板图像阴影检测结果特征指导的模板图像特征和基于待检测图像阴影检测结果特征指导的待检测图像特征。考虑到原始图像与其阴影检测结果在本质上存在差别，直接融合图像或特征不是最佳的方式。本发明构建的阴影指导模块包含sigmoid层和特征间元素级相乘操作，其作用类似于注意力机制，以在原始图像中增强阴影区域与非阴影区域的特征对比。

阴影指导模块包含sigmoid层和特征间元素级相乘操作，以获取基于模板图像阴影检测结果特征指导的模板图像特征和基于待检测图像阴影检测结果特征指导的待检测图像特征。将sigmoid函数分别作用于模板图像阴影检测结果特征和待检测图像阴影检测结果特征，然后将生成的结果分别与对应的原始图像特征进行元素级相乘操作。作为本发明的一个具体实施例，单色视频目标跟踪方法根据

构建阴影指导模块，其中，σ(·)表示sigmoid函数，

表示元素级乘操作，i＝1或2，F₁ ¹表示原始模板图像特征，F₁ ²表示模板图像阴影检测结果特征，F₁ ¹和F₁ ²均包含256个尺寸为6×6的特征图，

表示原始待检测图像特征，

表示待检测图像阴影检测结果特征，

和

均包含256个尺寸为22×22的特征图，S₁表示模板图像特征，S₂表示待检测图像特征。

进一步地，在本发明中，在获取模板图像特征和待检测图像特征之后，构建特征融合模块，将原始模板图像特征与模板图像特征融合以获取模板图像融合特征，将原始待检测图像特征与待检测图像特征融合以获取待检测图像融合特征。

作为本发明的一个具体实施例，在该步骤中，先将原始模板图像特征与模板图像特征通过级联操作进行结合，同理，将原始待检测图像特征与待检测图像特征通过级联操作进行结合。但保留原始图像特征信息的同时降低阴影检测结果可能带来的错误指导信息的比例。进而将上述结果通过通道数为256的1×1卷积和通道数为256的3×3卷积操作，实现特征进一步融合。具体地，根据

和

分别表示待检测图像分支中的特征融合模块中两个融合层的融合参数，H₁表示模板图像融合特征，其包含256个尺寸为6×6的特征图，H₂表示待检测图像融合特征，其包含256个尺寸为22×22的特征图。

此外，在本发明中，在获取模板图像融合特征和待检测图像融合特征之后，构建区域候选网络模块，将模板图像融合特征和待检测图像融合特征输入到区域候选网络模块以获取模板分支输出特征和待检测分支输出特征；将模板分支输出分为模板分类分支特征和模板回归分支特征，将待检测分支输出特征分为待检测分类分支特征和待检测回归分支特征。在本发明中，区域候选网络模块整体分为分类分支和回归分支，包括成对的相关部分和监督部分。

作为本发明的一个具体实施例，将模板图像融合特征和待检测图像融合特征在回归分支和分类分支中，都分别经过通道数为256的3×3卷积层，并将模板分支特征表示为

待检测分支特征表示为

为了进行成对的相关部分，将模板分支特征

分成模板分类分支特征

和模板回归分支特征

同理，将待检测分支特征

也分为待检测分类分支特征

和待检测回归分支特征

和

具有相同的空间分辨率和通道数，均为通道数为256，空间分辨率为4×4的特征图。

和

具有相同的空间分辨率和通道数，均为通道数为256，空间分辨率为20×20的特征图。

进一步地，在本发明中，在获取模板分支输出特征和待检测分支输出特征之后，在分类分支中根据模板分类分支特征和待检测分类分支特征采用深度可分离互相关操作获取分类分支结果；在回归分支中根据模板回归分支特征和待检测回归分支特征采用深度可分离互相关操作获取回归分支结果。上述深度可分离互相关操作为轻量级的深度可分离互相关操作。

如图5所示，在逐个通道的两分量之间进行相关操作，输出和原始通道数相同的得分图。作为本发明的一个具体实施例，可根据

进行初步相关操作，其中，模板分类分支特征

和模板回归分支特征

被视为卷积核，★表示卷积操作。在相关操作后，先通过通道数为256的1×1的卷积用来融合不同通道输出，再分别使用不同的1×1卷积进行维度调整，以获得不同任务对应的不同维度的输出响应图，分类任务对应通道维度为2k，回归任务对应通道维度为4k。相应的计算公式为

其中，δ₁和δ₂分别表示分类分支中两个卷积层对应的权值参数，

和

分别表示回归分支中两个卷积层对应的权值参数，

表示分类分支结果，

表示回归分支结果。在

中的每一点包含一个2k通道的向量，表示每个锚边界框在原图对应位置的正/负激励。相似地，在

中的每一点包含一个4k通道的向量，表示锚边界框与相应真值目标框之间的位置偏差。

此外，在本发明中，在获取分类分支结果和回归分支结果之后，根据分类分支结果和分类得分标签获取分类损失；根据回归分支结果和目标坐标偏移标签获取回归损失；并根据分类损失和回归损失获取最终优化的损失以完成算法网络训练，获取网络模型参数。

作为本发明的一个具体实施例，单色视频目标跟踪方法根据分类分支结果和分类得分标签采用监督学习机制通过最小化交叉熵损失函数获取分类损失，根据回归分支结果和目标坐标偏移标签采用监督学习机制通过最小化smooth L1损失函数获取回归损失。在监督部分，用于分类的损失为交叉熵损失对前景-背景二分类，用于回归的损失为归一化坐标的smooth L1损失对候选框回归。具体地，可根据

获取分类损失，根据

获取回归损失，根据loss＝L_cls+λL_reg获取最终优化的损失，其中，L_cls表示分类损失，y_c表示真实标签，p_c表示网络的预测值，L_reg表示回归损失，θ表示调节参数，一般设置为1，T_x和T_y分别表示对应的真值目标框的中心点的横坐标和纵坐标，T_w和T_h分别表示对应的真值目标框的形状的宽度和高度，A_x和A_y分别表示锚边界框的中心点的横坐标和纵坐标，A_w和A_h分别表示锚边界框的形状的宽度和高度，λ表示用于平衡两分支的超参数。

在本发明中，现有的目标跟踪数据集常用的有ILSVRC-2015、VOT和OTB等。针对本发明的研究内容，首先从这些数据集中搜集包含阴影的视频序列，同时通过自行拍摄包含阴影的场景来扩充和丰富数据集，并根据目标跟踪的图像标注方式进行了数据标注，构建出适合本发明研究的训练集和测试集。其次利用高性能的阴影检测算法研究对单色化后的训练集和测试集进行阴影检测，以得到本发明的阴影检测结果分支输入。

在训练阶段，模板图像和待检测图像源自同一个视频中的同一个目标的两帧。为学习到目标变化，采用一定间隔内的图像对作为输入，但为避免帧间差异过大的现象，在实验过程中采用小于100帧的间隔的图像对作为输入。在目标周围的背景信息中，非语义背景占据了主要部分，语义背景占据了极少一部分，这种不平衡的分布使得网络趋向于学习到一个区分前景(目标+语义背景)和背景(非语义背景)的模型，而非实例级别的表示方法。为了提高网络对于具有语义信息的干扰物的辨别力，本发明在训练阶段时增加了部分负样本对。与此同时，为了降低正样本均在图像正中心带来的影响，本发明采用空间感知采样策略，将图像随机平移来抑制网络给图像的中心位置分配更大的权重。图像对在送入网络时进行单色化处理，同时进行了数据标准化处理等操作。

作为本发明的一个具体实施例，本发明采用1种尺度和5种长宽比([0.33,0.5,1,2,3])。设置当锚边界框与相应的真值目标框的IOU大于0.6时定义为正样本，当锚边界框与相应的真值目标框的IOU小于0.3时定义为负样本。本发明对算法直接进行训练，模板分支的输入图像分辨率为127×127，待检测分支的输入图像分辨率为255×255，在构建的训练数据集上训练网络，得到模型参数。

进一步地，在本发明中，在完成算法网络训练获取网络模型参数之后，根据网络模型参数进行算法网络的测试预测单色视频目标跟踪结果以完成抗阴影干扰的单色视频目标跟踪。

为了保证模板的准确性，本发明在测试过程中始终保持第一帧为模板，以防止跟踪过程中的误差进行不断地累积。在只需第一帧为模板的情况下，跟踪时可以将网络根据输入拆分成两个小网络，模板分支只在第一帧输入模板，得到两个特征，跟踪器将这两个特征转化为两个不带偏差的卷积层。经过这样的转变，检测分支变成了一个简单的检测网络。在经过特征提取等网络后，分别经过两个卷积层，获得最终的分类结果和回归结果。根据网络的输出，可以得到网络预测出的所有框及其对应分数。

与前面的定义保持一致，可将分类和回归特征图表示为点集

其中，m∈[0,w)，n∈[0,h)，l∈[0,2k)，p∈[0,k)，m、n、l、p、w、h和k均为正整数，

和

分别表示分类分支特征图点集的横坐标、纵坐标和类别；

和

分别表示回归分支特征图点集的横坐标和纵坐标；

和

分别表示回归分支输出区域候选框与目标框的横坐标偏移量、纵坐标偏移量、宽度偏移量和高度偏移量。

由于在分类特征图中奇数通道表示正激励，所以在

中对应的所有奇数通道中搜集到分数最高的前k个点，表示为新的分类点集

其中，M，N和L是索引集合，m和n对应锚边界框位置，l表示锚边界框尺度。通过新的分类点集得到相应的锚边界框集合为

其中，

和

分别表示通过新分类点集得到的锚边界框对应的中心点横坐标、中心点纵坐标、宽度和高度。在

中得到C_an的调整坐标集合为

其中，

和

分别表示输出区域候选框与目标框的中心点横坐标偏移量、中心点纵坐标偏移量、宽度偏移量和高度偏移量。最终调整后的前k个候选框的坐标可以通过

得到，其中，

和

分别表示调整后的前k个候选框的中心点横坐标、中心点纵坐标、宽度和高度；

和

分别表示调整候选框宽和高的比例系数。

在根据以上步骤生成得分最高的前k个候选框后，需要进一步使用候选框选择策略以得到更适合目标跟踪任务的候选框。由于相近视频帧间目标不会产生非常大的位移，所以丢弃离中心非常远的候选框。利用余弦窗函数抑制较大的位移和尺度变化惩罚抑制尺度大小和长宽比的较大变化来重新排序候选框以得到最优的框。其中，惩罚系数为

其中，K是一个超参数，在本发明中K＝0.04，r和r′分别表示当前帧和上一帧中候选框的高宽比，s和s′分别表示当前帧和上一帧中候选框的尺度。

本发明的抗阴影干扰的单色视频目标跟踪方法与现有技术相比，具有如下有益效果：

1)不需要人工设计和提取特征，能够实现单色视频的目标跟踪，仿真结果表明本发明在阴影存在场景下目标跟踪结果基本不受到阴影的影响。

2)本发明整体上由用于特征提取的孪生网络和用于候选框生成的区域候选网络两部分组成，抗阴影干扰的核心是在孪生网络中设计了阴影指导模块，构建了一种高速，高性能且不受阴影影响的目标跟踪算法。

3)本发明将从主干网络提取特征，通过构建阴影指导模块，增强原始图像中阴影区域与非阴影区域的特征对比，得到抗阴影干扰的特征，再通过构建特征融合模块对抗阴影干扰的特征和原始图像特征进一步融合，得到更具辨别力的特征。

为了对本发明有进一步地了解，下面结合仿真实验对本发明的抗阴影干扰的单色视频目标跟踪方法进行详细说明。

设置仿真条件为所有仿真实验均在操作系统为Ubuntu 16.04.5，硬件环境为GPUNvidia GeForce GTX1080Ti，采用PyTorch深度学习框架实现。

(1)仿真1

将本发明方法与本发明去掉构建的阴影检测结果分支的方法在测试数据集上进行目标跟踪实验，部分实验结果进行直观比较，如图6(a)、图6(b)和图7所示，其中，w/o-s表示本发明去掉构建的阴影检测结果分支的测试结果。

如附图6(a)和附图7所示为OTB数据集中的Human7和Coke序列结果展示。如附图6(b)所示为拍摄序列的结果展示。从图图6(a)和图6(b)可以看出，本发明在阴影存在场景下的目标跟踪结果几乎不受到阴影的影响。由图7可以看出，本发明依然可以适用于无阴影的场景下的目标跟踪。

(2)仿真2

将本发明方法与本发明去掉构建的阴影检测结果分支的方法在测试数据集上进行目标跟踪实验得到的结果，采用公认的评价指标进行客观评价，评价结果如表2所示，其中，AUC表示目标跟踪的成功率；DP9表示目标跟踪的精准度，即中心误差小于9像素的帧数占序列总帧数的比率；FAR表示虚警率；AUC/DP9均可表示目标跟踪概率，即为数据集中所有正确的检测框总数占真实目标框总数的比例，越大越好。

表2测试指标表

从表2中可以看出本发明对阴影存在场景下的目标跟踪有更好的效果，充分表明了本发明方法的有效性和优越性。

综上所述，本发明提供了一种抗阴影干扰的单色视频目标跟踪方法，该抗阴影干扰的单色视频目标跟踪方法通过基于阴影检测结果提取的特征指导原始图像特征，获取图像融合特征后依次进行算法网络训练阶段和算法网络测试阶段以获取抗阴影干扰的单色视频目标跟踪，能够有效降低阴影对目标跟踪精度的影响。与现有技术相比，本发明的技术方案能够解决现有技术中单色视频目标跟踪易受阴影干扰导致跟踪准确度不足的技术问题。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件，仅仅是为了便于对相应零部件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本发明保护范围的限制。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种抗阴影干扰的单色视频目标跟踪方法，其特征在于，所述单色视频目标跟踪方法包括：

步骤一，将模板图像、模板图像阴影检测结果、待检测图像和待检测图像阴影检测结果输入到主干网络中以分别提取原始模板图像特征、模板图像阴影检测结果特征、原始待检测图像特征和待检测图像阴影检测结果特征；

步骤二，构建阴影指导模块，通过所述阴影指导模块输出基于所述模板图像阴影检测结果特征指导的模板图像特征和基于所述待检测图像阴影检测结果特征指导的待检测图像特征；

步骤三，构建特征融合模块，将所述原始模板图像特征与所述模板图像特征融合以获取模板图像融合特征，将所述原始待检测图像特征与所述待检测图像特征融合以获取待检测图像融合特征；

步骤四，构建区域候选网络模块，将所述模板图像融合特征和所述待检测图像融合特征输入到所述区域候选网络模块以获取模板分支输出特征和待检测分支输出特征；将所述模板分支输出分为模板分类分支特征和模板回归分支特征，将所述待检测分支输出特征分为待检测分类分支特征和待检测回归分支特征；

步骤五，在分类分支中根据所述模板分类分支特征和所述待检测分类分支特征采用深度可分离互相关操作获取分类分支结果；在回归分支中根据所述模板回归分支特征和所述待检测回归分支特征采用深度可分离互相关操作获取回归分支结果；

步骤六，根据所述分类分支结果和分类得分标签获取分类损失；根据所述回归分支结果和目标坐标偏移标签获取回归损失；并根据所述分类损失和所述回归损失获取最终优化的损失以完成算法网络训练，获取网络模型参数；

步骤七，根据所述网络模型参数进行算法网络的测试预测单色视频目标跟踪结果以完成抗阴影干扰的单色视频目标跟踪。

2.根据权利要求1所述的抗阴影干扰的单色视频目标跟踪方法，其特征在于，在所述步骤一中，所述模板图像和所述待检测图像均经过单色化处理；将单色化处理后的所述模板图像通过阴影检测网络后再图像取反以获取所述模板图像阴影检测结果，将所述待检测图像通过阴影检测网络后再图像取反以获取所述待检测图像阴影检测结果。

3.根据权利要求1或2所述的抗阴影干扰的单色视频目标跟踪方法，其特征在于，在所述步骤一中，所述主干网络为AlexNet网络。

4.根据权利要求1所述的抗阴影干扰的单色视频目标跟踪方法，其特征在于，在所述步骤二中，所述单色视频目标跟踪方法根据

构建阴影指导模块，其中，σ(·)表示sigmoid函数，

表示元素级乘操作，i＝1或2，

表示所述原始模板图像特征，

表示所述模板图像阴影检测结果特征，

表示所述原始待检测图像特征，

表示所述待检测图像阴影检测结果特征，S₁表示所述模板图像特征，S₂表示所述待检测图像特征。

5.根据权利要求1至4中任一项所述的抗阴影干扰的单色视频目标跟踪方法，其特征在于，在所述步骤三中，所述单色视频目标跟踪方法根据

构建特征融合模块，其中，Cat(·)表示跨通道级联操作，C(·)表示卷积，BN(·)表示批归一化层，φ(·)表示ReLu激活函数，

和

分别表示模板图像分支中的特征融合模块中两个融合层的融合参数，

和

分别表示待检测图像分支中的特征融合模块中两个融合层的融合参数，H₁表示所述模板图像融合特征，H₂表示所述待检测图像融合特征。

6.根据权利要求1所述的抗阴影干扰的单色视频目标跟踪方法，其特征在于，在所述步骤五中，所述单色视频目标跟踪方法根据

获取分类分支结果，根据

获取回归分支结果，其中，＊表示卷积操作，

表示所述模板分类分支特征，

表示所述待检测分类分支特征，δ₁和δ₂分别表示分类分支中两个卷积层对应的权值参数，

表示所述分类分支结果，

表示所述模板回归分支特征，

表示所述待检测回归分支特征，

和

分别表示回归分支中两个卷积层对应的权值参数，

表示所述回归分支结果。

7.根据权利要求1所述的抗阴影干扰的单色视频目标跟踪方法，其特征在于，在所述步骤六中，所述单色视频目标跟踪方法根据所述分类分支结果和分类得分标签采用监督学习机制通过最小化交叉熵损失函数获取分类损失，根据所述回归分支结果和目标坐标偏移标签采用监督学习机制通过最小化smooth L1损失函数获取回归损失。

8.根据权利要求7所述的抗阴影干扰的单色视频目标跟踪方法，其特征在于，在所述步骤六中，所述单色视频目标跟踪方法根据

获取分类损失，根据

获取回归损失，根据loss＝L_cls+λL_reg获取最终优化的损失，其中，L_cls表示所述分类损失，y_c表示真实标签，p_c表示网络的预测值，L_reg表示所述回归损失，θ表示调节参数，T_x和T_y分别表示对应的真值目标框的中心点的横坐标和纵坐标，T_w和T_h分别表示对应的真值目标框的形状的宽度和高度，A_x和A_y分别表示锚边界框的中心点的横坐标和纵坐标，A_w和A_h分别表示锚边界框的形状的宽度和高度，λ表示用于平衡两分支的超参数。