CN112200833A

CN112200833A - 一种基于残差网络和短期视觉记忆的相关滤波视频跟踪算法

Info

Publication number: CN112200833A
Application number: CN202010982976.9A
Authority: CN
Inventors: 任红格; 史涛; 梁晨; 赵坚; 杜静娟; 戈文琪; 吴启隆; 胡鸿长; 王东辉; 崔胤
Original assignee: Tianjin Chengjian University
Current assignee: Tianjin Chengjian University
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2021-01-08

Abstract

本发明涉及一种基于残差网络和短期视觉记忆的相关滤波视频跟踪算法，针对复杂环境下跟踪过程中目标容易丢失等问题。首先，通过ResNet不同层提取图像感兴趣的深层特征，只选取具体效果最好的卷积层所提取的特征来训练相关滤波器，得到响应值最大的目标位置。其次在确定位置的基础上进行尺度采样和记忆采样，建立短期记忆尺度金字塔，以此建立尺度相关滤波器，从而实现对目标尺度的准确估计。最后在数据集OTB100中与其他算法进行了比较，实验结果表明，所提算法取得了可观的精确度和跟踪成功率，在能保持一定的实时性的情况下适应光照、尺度变化以及遮挡等复杂环境。

Description

一种基于残差网络和短期视觉记忆的相关滤波视频跟踪算法

技术领域

本发明涉及了一种基于残差网络和短期视觉记忆的相关滤波视频跟踪算法，属于计算机视觉技术领域。

技术背景

视觉目标跟踪是计算机视觉领域中最重要的部分之一，在机器人视觉，人工智能监控，AR等方面有广泛的应用前景。在实际的跟踪任务中，一般在第一帧中指定目标区域并在后续帧中实现跟踪。尽管目标跟踪技术在过去半个世纪的时间里取得了非常多的成果，但仍然由于光线变化，形变，运动骤变和遮挡等因素，还是具有研究意义。

一般认为，认知心理记忆模型中，人类记忆系统包含三个独立的组成要素：感觉记忆，短期记忆和长期记忆。感觉记忆是通过环境信息进入记忆系统，检测外部刺激，保持刺激并发送到短期记忆实现的。在短期记忆过程中，目标信息有一个预演的过程，之后记忆系统会针对刺激产生相对的反应，尽管短期记忆不能被长期保存，但其中的信息可以被视作有很高的可塑性，其中对于跟踪问题的启发尤为重要。长期记忆主要是对反复接受的信息进行整理编码，容量接近无限，并且可以保持很长一段时间，通过在长期记忆的内容中检索，转到短期记忆中来回忆信息，因而长期记忆能够一定程度上代表稳定性较高的事件信息。

在目标追踪任务中，如何在光照、尺度发生变化时跟踪器依然保持稳定，在面对遮挡时依然能够不丢失目标，同时保持一定的实时性和鲁棒性，依旧是这个领域最大的挑战。2010年由于Bomle等人的工作，将卷积定理从信号处理领域引入到视觉跟踪中，并将目标模板匹配问题转化为频域中的相关运算，引领了一波相关滤波研究的风潮。基于相关滤波理论的应用，MOSSE，CSK，等以实时性为主的滤波算法快速发展，如果采用了更多适当的特征，精度也随之提升，如使用了HOG特征的KCF，以及同时使用多通道特征的SAMF，STAPLE等。2012年ImageNet中以优异成绩超越第二名的AlexNet是计算机视觉领域首个被广泛关注并使用的卷积神经网络，开启了深度学习在工业界的应用，表现了卷积神经网络在图像识别领域的强大潜力。在AlexNet基础上普遍使用小卷积核的VGG-Net在2014年的ImageNet中取得了很好的成绩，拥有良好的泛化性能，而通过保持输入大小的技巧，保证了在增加网络深度的同时各层输入大小随深度增加而不会急剧减小。随着深度的增加，训练也愈发困难，主要是因为在随机梯度下降的训练过程中误差信号引发的梯度弥散和梯度爆炸导致的，残差网络的出现很好的解决了这个问题，近路连接的设置大大节省了计算资源，并且通过全局平均池化层替代VGG-Net中的全连接层，大大减少了参数并降低了过拟合风险。

基于以上背景，在本发明中，提出了一个基于残差网络的短期记忆视觉矫正模型(SMRN)跟踪算法来尝试保持鲁棒性与准确性。与人类认知记忆系统相似，SMRN通过ResNet提取特征，之后使用核相关滤波器对目标进行建模跟踪。通过短期视觉记忆模块来进行尺度矫正。同时提出了一种通过认知记忆机制调整更新模型外观的自适应学习方法。

申请公布号CN 110264501 A用传统的CNN进行特征提取，之后经过滤波器和PCA降维，最后通过粒子滤波实现跟踪。申请公布号CN 107240122 A提出了一种基于时空连续相关滤波的视频目标跟踪方法，通过对不同卷积层估计的位置分配不同的权重最后加权来获得目标位置。申请公布号CN 110276784 A利用预先训练过的深层卷积神经网络提取目标的卷积特征，受人类视觉信息处理认知行为中人脑记忆机制的启发，将记忆机制融入到相关滤波方法的分类器的检测、训练和更新过程之中。但是，以上发明没有涉及残差网络与视觉记忆机制相结合的内容。

发明内容

本发明旨在解决上述问题，从而提供一种基于残差网络和短期视觉记忆的相关滤波视频跟踪算法，来尝试保持鲁棒性与准确性，与人类认知记忆系统相似，SMRN通过ResNet提取特征，之后使用核相关滤波器对目标进行建模跟踪，通过短期视觉记忆模块来进行尺度矫正。同时提出了一种通过认知记忆机制调整更新模型外观的自适应学习方法。

本发明解决所述问题，采用的技术方案是：

一种基于残差网络和短期视觉记忆的相关滤波视频跟踪算法，按照如下步骤进行：(1)特征提取；(2) KCF定位目标位置；(3)短期记忆矫正；(4)模型更新。

采用上述技术方案的本发明，与现有技术相比，其突出的特点是：

取得了可观的精确度和跟踪成功率，在能保持一定的实时性的情况下适应光照、尺度变化以及遮挡等复杂环境。

作为优选，本发明更进一步的技术方案是：

步骤(1)特征提取按照如下步骤进行：首先对于深度残差网络(ResNet)的特殊结构进行简要分析，比较不同层之间的性能差别，选取性能较为优秀的conv4层进行特征提取，得到的深层特征进行下一步的跟踪。

步骤(2)KCF定位目标位置按照如下步骤进行：假设输入图像中的感兴趣区域(ROI，region of interest) 大小为m×n×3，经过ResNet提取后，得到的特征大小分别为m₁×n₁×l₁、m₂×n₂×l₂和m₃×n₃×l₃，l_i表示第i(i＝1，2，3)个特征通道数；每个特征分别经过KCF，得到的响应图大小均为s×t，然后对各个响应图加权求和，对应权值为γi，在融合后的响应图中值最大的点对应目标的中心位置，KCF通过引入核函数，将训练的滤波模板变为一个非线性二分类器，以判别候选区域是目标还是背景.核相关滤波器α可以表示为：

其中：y为通过高斯函数构建的响应值，y^为y的傅里叶变换，k xx的取值由核函数确定，λ为正则项.y、k xx和α均为二维矩阵，λ为常数。

步骤(3)短期记忆矫正按照如下步骤进行：人类视觉记忆中，感觉记忆时间最短，大约只有0.1秒，长期记忆在一分钟左右，本算法为应对遮挡，光线变化等因素，所选择的短期记忆方式通常在1-2秒，通过建立短期视觉记忆尺度变化信息库，以时间长度T为一个周期，取每一帧之前T时间内的尺度变化率为：

并设定一个阈值λ，超过λ就启动尺度矫正

通过对目标位置进行采样，建立33个尺度金字塔，提取其HOG特征(d维)，经过尺度滤波器，得到响应最大的目标位置，尺度滤波器为：

其中G为利用高斯函数构建的响应值，G*表示G的共轭，F^l表示第l维特征的傅里叶变换，d为特征维数；

尺度滤波器的分子项、部分分母项分别为：

A^l＝G^*⊙F^l

响应值y为：

步骤(4)模型更新按照如下步骤进行：在确认第t帧的位置和尺度之后，出于对算法鲁棒性的考量，还需要在t+1帧跟踪前对位置滤波器和尺度滤波器进行更新；位置滤波器更新策略如下：

α_t＝(1-η)α_t-1+ηα(t)

其中:αt－1为对第t帧图像跟踪前求得的滤波器模板，α(t)为根据第t帧图像求得的滤波器模板η为位置滤波器的学习率.对第t帧图像跟踪后，尺度模型更新策略为：

其中η'为尺度滤波器的学习率。

附图说明

图1为本发明实施例算法算法整体结构示意图；

图2为本发明实施例残差模块结构结构示意图；

图3为本发明实施例成功率对比图；

图4为本发明实施例准确率对比图。

具体实施方案

下面结合实施例对本发明作进一步说明，目的仅在于更好地理解本发明内容，因此，所举之例并不限制本发明的保护范围。

参见图1-图4，在本发明提供一个基于残差网络的短期记忆视觉矫正模型(SMRN)跟踪算法，来尝试保持鲁棒性与准确性，与人类认知记忆系统相似，SMRN通过ResNet提取特征，之后使用核相关滤波器对目标进行建模跟踪。通过短期视觉记忆模块来进行尺度矫正。同时提出了一种通过认知记忆机制调整更新模型外观的自适应学习方法，包括如下步骤：

1.算法整体结构：

所提算法的结构如图1所示，分为特征提取和目标跟踪，模型尺度矫正估计等两个分，之后根据跟踪结果对尺度模型进行更新。

2.残差网络结构分析：

图2显示了基层和残余层的结构，本发明将H(X)表示为输入X的最佳映射，将F_B(X)表示为基础层的输出，本发明不倾向于叠加更多的层来近似H(X)，而是希望这些层近似剩余函数:F_R(X)＝H(X)-F_B(X)，因此，预期网络输出可以表述如下:

F(X)＝F_B(X)+F_R(X)＝F_B{X,(W_B)}+F_R{X,(W_R)} (1)

网络层数的增加和图像的特征表达效果并不是成正比的，在5层以内的浅层网络往往能取得不错的识别效果；经过大量实验证明，ResNet的conv4层及其前层的跟踪效果优于其它层，如表1所示，所以在本发明算法中主要采取conv4层用于特征提取。

3.KCF目标定位：

假设输入图像中的感兴趣区域(ROI,region of interest)大小为m×n×3，经过ResNet提取后，得到的特征大小分别为m₁×n₁×l₁、m₂×n₂×l₂和m₃×n₃×l₃，l_i表示第i(i＝1，2，3)个特征通道数；每个特征分别经过KCF，得到的响应图大小均为s×t，然后对各个响应图加权求和，对应权值为γi，在融合后的响应图中值最大的点对应目标的中心位置；KCF通过引入核函数，将训练的滤波模板变为一个非线性二分类器，以判别候选区域是目标还是背景.核相关滤波器α可以表示为

其中:y为通过高斯函数构建的响应值，y^为y的傅里叶变换，k xx的取值由核函数确定，λ为正则项.y、k xx和α均为二维矩阵，λ为常数。

4.提出的短期记忆尺度矫正估计算法：

人类视觉记忆中，感觉记忆时间最短，大约只有0.1秒，长期记忆在一分钟左右，本算法为应对遮挡，光线变化等因素，所选择的短期记忆方式通常在1-2秒，通过建立短期视觉记忆尺度变化信息库，以时间长度T为一个周期，取每一帧之前T时间内的尺度变化率

并设定一个阈值λ，超过λ就启动尺度矫正

通过对目标位置进行采样，建立33个尺度金字塔，提取其HOG特征(d维)，经过尺度滤波器，得到响应最大的目标位置，尺度滤波器为

其中:G为利用高斯函数构建的响应值，G*表示G的共轭，F l表示第l维特征的傅里叶变换，d为特征维数。

尺度滤波器的分子项、部分分母项分别为

A^l＝G^*⊙F^l (6)

响应值y为

y中最大值位置对应目标最佳尺度；Z l表示输入图像第l维特征的傅里叶变换。

5模型更新：

在确认第t帧的位置和尺度之后，出于对算法鲁棒性的考量，还需要在t+1帧跟踪前对位置滤波器和尺度滤波器进行更新，位置滤波器更新策略如下：

α_t＝(1-η)α_t-1+ηα(t) (9)

其中:αt－1为对第t帧图像跟踪前求得的滤波器模板，α(t)为根据第t帧图像求得的滤波器模板η为位置滤波器的学习率.对第t帧图像跟踪后，尺度模型更新策略为

其中η'为尺度滤波器的学习率.

1.实验环境和参数选择

在windows10系统下，采用matlab2018作为实验平台。硬件配置如下：1.8GHz的CPU，8GB内存， Nvidia GTX 760m GPU。位置滤波器的学习率η＝0.01，正则项λ＝10^－4.尺度滤波器的尺度因子a＝1. 02，采样个数S＝33，学习率η'＝0.025，正则项λ＝10^－4.

2.算法性能分析

在数据集OTB100中，主要选取具有尺度变化属性的60个视频进行测试。表2、表3详细列出了 11种属性下算法的成功率和精确度，最优结果用粗体标注，次优结果用斜体表示。表头的缩写字母表示视频的不同属性，括号内的值表示60个视频中具有对应属性的视频个数，可以看出，除了具有OV属性的视频序列之外，所提算法的成功率和精确度均为最优或或者仅次于第一位，这主要是由于所提算法采用了具有较强特征表示能力的ResNet提取目标特征，同时考虑了目标尺度的变化.综合以上分析，所提出的算法在具有尺度变化属性的视频集上表现出较好的综合跟踪性能，同时因为记忆矫正的引入使得在光照变化、目标遮挡等复杂环境下仍然具有较好的鲁棒性。

表1：不同层性能对比图

表2：所提算法和其他算法成功率对比图；

表3：所提算法和其他算法精确度对比图；

在OTB100的所有视频上对相关算法进行测试，成功率曲线和精确度曲线如图3、图4所示。除去 2018年的顶级算法C-COT，与成功率位于第3的HCF算法相比，所提算法的成功率和精确度分别提高了1.4％、6.9％；与精确度位于第3的Staple算法相比，所提算法的成功率和精确度分别提高了3.4％、 0.3％。

3.算法速度

对于不同的视频，目标的尺度不同，从而导致ROI大小不同，所提算法需要对ROI图像进行卷积等操作，因此目标尺度越大，算法速度越小.

在GPU加速下，所提算法在OTB100的所有视频上的平均速度为4.2f/s，勉强实现实时跟踪。与其他4 种CF类算法速度的比较如表4所示，与HCF相比，导致所提算法速度较低的因素有2个:一是考虑了尺度变化，二是选用了层次更深的ResNet提取目标特征。

表4：算法速度对比图。

本发明通过ResNet不同层提取图像感兴趣的深层特征，只选取具体效果最好的卷积层所提取的特征来训练相关滤波器，得到响应值最大的目标位置。其次在确定位置的基础上进行尺度采样和记忆采样，建立短期记忆尺度金字塔，以此建立尺度相关滤波器，从而实现对目标尺度的准确估计。最后在数据集 OTB100中与其他算法进行了比较，实验结果表明，所提算法取得了可观的精确度和跟踪成功率，在能保持一定的实时性的情况下适应光照、尺度变化以及遮挡等复杂环境。

以上所述仅为本发明较佳可行的实施例而已，并非因此局限本发明的权利范围，凡运用本发明说明书及其附图内容所作的等效变化，均包含于本发明的权利范围之内。

Claims

1.一种基于残差网络和短期视觉记忆的相关滤波视频跟踪算法，其特征在于，按照如下步骤进行：(1)特征提取；(2)KCF定位目标位置；(3)短期记忆矫正；(4)模型更新。

2.根据权利要求1所述的基于残差网络和短期视觉记忆的相关滤波视频跟踪算法，其特征在于，步骤(1)特征提取按照如下步骤进行：首先对于深度残差网络(ResNet)的特殊结构进行简要分析，比较不同层之间的性能差别，选取性能较为优秀的conv4层进行特征提取，得到的深层特征进行下一步的跟踪。

3.根据权利要求1所述的基于残差网络和短期视觉记忆的相关滤波视频跟踪算法，其特征在于，步骤(2)KCF定位目标位置按照如下步骤进行：假设输入图像中的感兴趣区域(ROI，region of interest)大小为m×n×3，经过ResNet提取后，得到的特征大小分别为m₁×n₁×l₁、m₂×n₂×l₂和m₃×n₃×l₃，l_i表示第i(i＝1，2，3)个特征通道数；每个特征分别经过KCF，得到的响应图大小均为s×t，然后对各个响应图加权求和，对应权值为γi，在融合后的响应图中值最大的点对应目标的中心位置，KCF通过引入核函数，将训练的滤波模板变为一个非线性二分类器，以判别候选区域是目标还是背景.核相关滤波器α可以表示为：

4.根据权利要求1所述的基于残差网络和短期视觉记忆的相关滤波视频跟踪算法，其特征在于，步骤(3)短期记忆矫正按照如下步骤进行：人类视觉记忆中，感觉记忆时间最短，大约只有0.1秒，长期记忆在一分钟左右，本算法为应对遮挡，光线变化等因素，所选择的短期记忆方式通常在1-2秒，通过建立短期视觉记忆尺度变化信息库，以时间长度T为一个周期，取每一帧之前T时间内的尺度变化率为：

并设定一个阈值λ，超过λ就启动尺度矫正

尺度滤波器的分子项、部分分母项分别为：

A^l＝G^*⊙F^l

响应值y为：

5.根据权利要求1所述的基于残差网络和短期视觉记忆的相关滤波视频跟踪算法，其特征在于，步骤(4)模型更新按照如下步骤进行：在确认第t帧的位置和尺度之后，出于对算法鲁棒性的考量，还需要在t+1帧跟踪前对位置滤波器和尺度滤波器进行更新；位置滤波器更新策略如下：

α_t＝(1-η)α_t-1+ηα(t)

其中η'为尺度滤波器的学习率。