CN111915648A

CN111915648A - 一种基于常识和记忆网络的长期目标运动跟踪方法

Info

Publication number: CN111915648A
Application number: CN202010685477.3A
Authority: CN
Inventors: 张焕龙; 王凤仙; 陈志武; 陈键; 陈青华; 杨光露; 张勋才; 郑安平; 李银华; 贺振东
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-11-10
Anticipated expiration: 2040-07-16
Also published as: CN111915648B

Abstract

本发明提出了一种基于常识和记忆网络的长期目标运动跟踪方法，用以解决现有跟踪方法不能有效适应不确定运动场景下的目标跟踪问题。其步骤为：首先利用跟踪器在局部搜索窗内预测目标位置，然后利用单层记忆网络判断预测结果的可靠性。若可靠则进行下一帧的跟踪，否则利用常识信息和针对跟踪任务开发的语义目标感知特征从全局图片中生成少量高质量的包含目标真实运动状态的建议，再通过记忆网络选择最佳的候选建议作为预测结果。最后，利用可靠的跟踪结果对记忆网络进行微调以保持目标的外观记忆。本发明的单层记忆网络结构简单、运算量小；且本发明将记忆网络和语义目标感知建议相结合能够适应突变运动等目标跟踪问题，实现长期跟踪。

Description

一种基于常识和记忆网络的长期目标运动跟踪方法

技术领域

本发明涉及计算机视觉跟踪技术领域，特别是指一种基于常识和记忆网络的长期目标运动跟踪方法。

背景技术

视觉目标跟踪作为计算机视觉领域的重要研究方向，一直是热门的研究问题，其目标是给出某一时刻目标的边界框，使得跟踪器在后续时间里准确的预测出目标状态(包括位置和大小)。然而由于现实世界中存在着许多挑战，如目标的运动突变、出视野外后再现等等，使得跟踪器出现漂移并最终跟踪失败。早期的跟踪算法通过手工特征构建目标外观模型进行目标跟踪，后来由于深度特征的引入，大大提高了视觉目标跟踪的精度，但同时增加了计算负担，降低了跟踪器的速度。近几年来，全卷积式的Siamese网络被用于跟踪，通过大量数据的离线训练学习先验的相似性函数。在保证跟踪精度的同时有提高了跟踪器的速度。

然后，传统的基于Siamese网络的跟踪器仍存在着几个明显的问题：(1)由于没有在线模板更新，使得跟踪器不能有效的适应目标外观剧烈变化条件下的跟踪任务。(2)由于大多数跟踪器是在一个局部搜索窗口内进行，当目标跳出局部搜索窗口时会导致跟踪失败。(3)由于缺乏有效的跟踪判断和跟踪故障检测后的再恢复机制，使得跟踪失败一旦发生便不可恢复。因此，对于这些问题的有效解决仍然有待进一步的研究。

发明内容

针对上述背景技术中存在的不足，本发明提出了一种基于常识和记忆网络的长期目标运动跟踪方法，解决了现有基于Siamese网络跟踪器易发生跟踪失败的技术问题，能够有效的进行目标跟踪，提高了跟踪器的鲁棒性。

本发明的技术方案是这样实现的：

一种基于常识和记忆网络的长期目标运动跟踪方法，其步骤如下：

步骤一：利用人工标注的方式标注出视频序列中的第一帧图像的目标图像块

并利用VGG16深度网络提取目标图像块

的深度特征；

步骤二：初始化单层记忆网络，利用目标图像块

的深度特征对单层记忆网络进行训练获得初始卷积滤波器w；

步骤三：在第一帧图像中选取一个比目标图像块

大的图像块X'，且图像块X'与目标图像块

的中心重合，并利用VGG16深度网络提取的图像块X'的深度特征对单层记忆网络进行训练获得卷积滤波器w'，根据卷积滤波器w'获得目标图像的通道重要性参数；

步骤四：在当前帧图像中截取一个比目标图像块大的搜索图像块

且搜索图像块

与上一帧图像的目标图像的中心重合，计算搜索图像块

与目标图像块

的响应图，根据响应图中的最大响应值对应的当前帧图像的图像块作为基本跟踪器的预测结果；

步骤五：将基本跟踪器的预测结果输入步骤二中训练后的单层记忆网络中，输出第一次预测结果的响应矩阵，判断第一次预测结果的响应矩阵中响应值的最大值是否大于阈值β，若是，将基本跟踪器的预测结果作为当前帧的跟踪结果，并利用第一次预测结果对步骤二中的单层记忆网络进行训练更新初始卷积滤波器w，返回步骤四进行下一帧图像的跟踪,否则，执行步骤六；

步骤六：根据常识信息和步骤二中的通道重要性参数获得当前帧图像的语义目标感知特征图像集；

步骤七：利用语义目标感知特征图像集对当前帧图像进行目标定位，获得第二次预测结果的响应矩阵，判断第二次预测结果的响应矩阵的最大响应值是否大于阈值β，若是，将第二次预测结果对应的语义目标感知特征图像集中的图像块作为当前帧的跟踪结果，否则，将基本跟踪器的预测结果作为当前帧的跟踪结果；

步骤八：输出当前帧的跟踪结果，判断当前帧图像是否为最后一帧图像，若是，输出每一帧图像的跟踪结果，实现运动目标的跟踪，否则，返回步骤四进行下一帧图像的跟踪。

所述利用目标图像块

的深度特征对单层记忆网络进行训练获得初始卷积滤波器w的方法为：

S21、初始化初始卷积滤波器w的初值，以目标图像块

为初始样本X，利用MATLAB软件中的函数GAUSSIAN_SHAPED_LABELS()对初始样本X进行提取，得到初始样本X的训练标签Y；

S22、将初始样本X和训练标签Y输入单层记忆网络中，输出响应矩阵F(X)和单层记忆网络的初始卷积滤波器w；

S23、根据响应矩阵F(X)计算单层记忆网络的损失函数，判断损失函数的值是否满足L(w)<0.1，若是，结束训练，输出步骤S22中的初始卷积滤波器，否则，利用随机梯度下降法对初始卷积滤波器w进行调整，返回步骤S22。

所述响应矩阵F(X)为：F(X)＝w*X，其中，^*表示卷积操作。

所述损失函数为：L(w)＝||F(X)-Y||²+λ||w||²，其中，||·||表示欧几里得范数，λ为正则化参数。

所述根据卷积滤波器w'获得目标图像的通道重要性参数的方法为：

S31、计算卷积滤波器w'在每一层上的所有元素的得分：

其中，c＝1,2,…,p为卷积滤波器w'的层索引，p为卷积滤波器w'的层数，g_c为c层的得分，G(i,j,c)表示滤波器w'在c层(i,j)坐标位置的权重值，i表示c层卷积滤波器w'的横坐标，j表示c层卷积滤波器w'的纵坐标；

S32、根据c层的得分g_c计算c层的通道重要性参数：

则卷积滤波器w'的通道重要性参数为：Δ＝[Δ₁,Δ₂,…,Δ_p]。

所述搜索图像块

与目标图像块

的响应图的计算方法为：

其中，

表示搜索图像块

与目标图像块

的响应图，＊为两个深度特征图之间的互相关操作，

表示第t帧图像的搜索图像块，

表示目标图像块，t为图像的帧索引，φ_θ(·)为VGG16深度网络的函数，θ为VGG16深度网络的网络参数。

所述根据常识信息和步骤二中的通道重要性参数获得当前帧图像的语义目标感知特征图像集的方法为：

S61、利用边缘检测方法Edge Boxes从当前帧图像中生成检测图像块集合及检测图像块对应的客观物体得分，将客观物体得分小于阈值th的检测图像块过滤掉，得到初步图像块集合：

其中，

表示第t帧图像的检测图像块集合，

表示第t帧图像第i₀个检测图像块，i₀＝1,2,…,max表示检测图像块的序号，max为检测图像块的数量，C_b表示检测图像块的客观物体得分，th为检测图像块阈值，

为第t帧图像的初步建议框集合，t为图像的帧索引；

S62、利用常识信息对初步图像块集合进行筛选，得到候选图像块集合：

其中，

表示第t帧图像的候选图像块集合，τ₁和τ₂均为常识约束信息，

表示第t帧图像的初步图像块

的宽，

表示第t帧图像的初步图像块

的高，i₁＝1,2,…,n表示初步图像块的序号，n表示初步图像块的数量，

表示第t-1帧图像的初步图像块

的宽，

表示第t-1帧图像的初步图像块

的高；

S63、利用VGG16深度网络提取候选图像块集合中的每一个候选图像块的深度特征，根据深度特征提取语义感知特征：

其中，

为第t帧图像的候选图像块

的语义感知特征，

为第t帧图像的候选图像块

的深度特征，i₂＝1,2,…,n'表示候选图像块的序号，n'表示候选图像块的数量，

为感知特征提取函数，Δ为通道重要性参数，＊为两个深度特征图之间的互相关操作；

S64、根据语义感知特征计算候选图像块集合中的每一个候选图像块的语义感知得分：

其中，

表示第t帧图像的候选图像块

的语义感知得分；

S65、根据每一个候选图像块的语义感知得分的高低对候选图像块进行排序，选取前Q个候选图像块作为当前帧图像的语义目标感知特征图像集

所述利用语义目标感知特征图像集对当前帧图像进行目标定位的方法为：

S71、初始化i₂＝1；

S72、从语义目标感知特征图像集

选出第i₂个图像块

将图像块

输入训练后的单层记忆网络中，获得第i₂个响应矩阵

S73、判断第i₂个响应矩阵

中的最大响应值

是否大于阈值β，若是，将第i₂个图像块

作为当前帧的跟踪结果

否则，执行步骤S74；

S74、i₂＝i₂+1，判断i₂是否大于Q，若是，将基本跟踪器的预测结果作为当前帧的跟踪结果

否则，循环步骤S72～S73。

本技术方案能产生的有益效果：本发明通过引入常识信息和开发语义目标感知特征，提出了一种高精度的语义目标感知建议方法，能够在目标跟踪失败发生时从全局内给出少量的高质量的包含目标真实运动状态候选，并指导跟踪器从跟踪失败中恢复；本发明通过将记忆网络模型引入到跟踪框中去，从而有效的适应由于目标的外观变化而导致的目标跟踪失败问题；本发明能够有效的改进跟踪器的性能，对后续对跟踪目标的识别、理解和分析具有重要意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基本流程图；

图2为本发明的示意图；

图3为本发明的语义目标感知建议生成示意图；

图4为本发明的记忆网络示意图；

图5为本发明方法与其他算法的跟踪效果示意图；

图6为本发明方法与其他算法的在OTB2015测试库中的对比示意图，(a)为精确图，(b)为成功率图；

图7为本发明的语义感知特征生成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的硬件环境为：Intel(R)Core(TM)i3-8100 CPU 3.6GHZ计算机、8GB内存。我们用Matlab软件实现了本发明提出的方法。本发明方法所用的视频跟踪图像序列来自于网上公开的OTB数据库视频集(http://cvlab.hanyang.ac.kr/tracker_benchmark/ index.html)。

如图1和图2所示，一种基于常识和记忆网络的长期目标运动跟踪方法，具体步骤如下：

并利用VGG16深度网络提取目标图像块

的深度特征，目标图像块

的深度特征即为目标模板。

步骤二：初始化单层记忆网络，利用目标图像块

的深度特征对单层记忆网络进行训练获得初始卷积滤波器w，获得的初始卷积滤波器w即为目标图像的外观记忆；具体方法如图4所示：

S21、初始化初始卷积滤波器w的初值，以目标图像块

S22、将初始样本X和训练标签Y输入单层记忆网络中，输出响应矩阵F(X)和单层记忆网络的初始卷积滤波器w；所述响应矩阵F(X)为：F(X)＝w*X，其中，^*表示卷积操作。

S23、根据响应矩阵F(X)计算单层记忆网络的损失函数L(w)＝||F(X)-Y||²+λ||w||²，并判断损失函数的值是否满足L(w)<0.1，若是，结束训练，输出步骤S22中的初始卷积滤波器，否则，利用随机梯度下降法对初始卷积滤波器w进行调整，返回步骤S22，其中，||·||表示欧几里得范数，λ＝0.25为正则化参数。

步骤三：在第一帧图像中选取一个比目标图像块

大的图像块X'，图像块X'的尺寸大小为目标图像块

的尺寸大小的1.25～2.5倍，且图像块X'与目标图像块

的中心重合，并利用VGG16深度网络提取的图像块X'的深度特征对单层记忆网络进行训练获得卷积滤波器w'，根据卷积滤波器w'获得目标图像的通道重要性参数，具体方法为：

S31、计算卷积滤波器w'在每一层上的所有元素的得分：

S32、根据c层的得分g_c计算c层的通道重要性参数：

当Δ_c＝1，则将该层作为目标感知特征并保留，否则作为冗余信息被除去；则卷积滤波器w'的通道重要性参数为：Δ＝[Δ₁,Δ₂,…,Δ_p]。

步骤四：在当前帧图像中截取一个比目标图像块

大的搜索图像块

搜索图像块

的尺寸大小是目标图像块

的尺寸大小的3倍，且搜索图像块

与上一帧图像的目标图像的中心重合，计算搜索图像块

与目标图像块

所述搜索图像块

与目标图像块

的响应图的计算方法为：

其中，

表示搜索图像块

与目标图像块

的响应图，＊为两个深度特征图之间的互相关操作，

表示第t帧图像的搜索图像块，

步骤六：根据常识信息和步骤二中的通道重要性参数获得当前帧图像的语义目标感知特征图像集，具体方法如图3所示：

S61、利用边缘检测方法Edge Boxes从当前帧图像中生成高度疑似目标物的检测图像块集合及检测图像块对应的客观物体得分，将客观物体得分小于阈值th的检测图像块过滤掉，得到初步图像块集合：

其中，

表示第t帧图像的检测图像块集合，

为第t帧图像的初步建议框集合，t为图像的帧索引；设置max＝500使得生成的检测图像块尽可能的完全覆盖目标真实运动状态；阈值th用于过滤得分低的检测图像块；利用Edge Boxes目标检测建议生成器，可以从整幅图片中获得大量的疑似物体的图像块，为了能够通过候选建议来指导跟踪器进行鲁棒跟踪，还需要对这些建议进行进一步的筛选和过滤。

其中，

表示第t帧图像的候选图像块集合，τ₁＝0.75和τ₂＝1.25均为常识约束信息，

表示第t帧图像的初步图像块

的宽，

表示第t帧图像的初步图像块

的高，i₁＝1,2,…,n表示初步图像块的序号，n表示初步图像块的数量，n<max，

表示第t-1帧图像的初步图像块

的宽，

表示第t-1帧图像的初步图像块

的高；常识信息是指基于现实世界中目标运动前后时刻的尺度不会发生巨大的变化。通过步骤S62能够有效的过滤掉不符合目标尺度常识信息的初步图像块，从而减少了初步图像块的数量，提高了候选图像块的质量。

S63、如图7所示，利用VGG16深度网络提取候选图像块集合中的每一个候选图像块的深度特征，根据深度特征提取语义感知特征：

其中，

为第t帧图像的候选图像块

的语义感知特征，

为第t帧图像的候选图像块

其中，

表示第t帧图像的候选图像块

的语义感知得分；

S65、根据每一个候选图像块的语义感知得分的高低对候选图像块进行排序，选取前Q(Q<n)个候选图像块作为当前帧图像的语义目标感知特征图像集

利用更能区分目标和背景的语义目标感知特征图像集

将不包含跟踪目标的图像块过滤掉，留下少量高质量包含目标真实运动状态的图像块引导跟踪器进行鲁棒跟踪。

步骤七：利用语义目标感知特征图像集对当前帧图像进行目标定位，获得第二次预测结果的响应矩阵，判断第二次预测结果的响应矩阵的最大响应值是否大于阈值β，若是，将第二次预测结果对应的语义目标感知特征图像集中的图像块作为当前帧的跟踪结果，否则，认为目标遭遇到严重遮挡或者完全出视野外，将基本跟踪器的预测结果作为当前帧的跟踪结果；

S71、初始化i₂＝1；

S72、从语义目标感知特征图像集

选出第i₂个图像块

将图像块

输入训练后的单层记忆网络中，获得第i₂个响应矩阵

S73、判断第i₂个响应矩阵

中的最大响应值

是否大于阈值β，若是，将第i₂个图像块

作为当前帧的跟踪结果

否则，执行步骤S74；

否则，循环步骤S72～S73。

在实际应用中，可采用定性和定量两种评价方式来评价本发明的有效性。定性评价方式采用本发明方法和代表性跟踪算法CF2、ACFN、SRDCF、siamfc、DSST和KCF在部分视频帧内的跟踪效果图，如图5所示。图5分别是六个视频在部分视频帧内的跟踪效果图，这些场景下使得CF2、ACFN、SRDCF、siamfc、DSST和KCF算法表现出不适应，甚至跟踪失败，而本发明提出的方法获得了好的跟踪效果。定量评价方式采用中心位置误差率和目标重叠率来评价，距离精度DP是指依据设定的阈值图像序列中能够成功跟踪目标的帧数与总视频帧数的比值。其中，阈值β是通过跟踪结果与真实结果的中心误差值确定的，本发明设置阈值为0.5。中心误差DP是通过计算跟踪目标的中心位置和真实位置之间的欧氏距离，一般其值越小说明跟踪结果比较优。目标重叠率OP是指跟踪结果与真实目标区域面积与操作和并操作的比值，其值越大，说明跟踪结果越好。图5展示了本发明与代表性跟踪算法CF2、ACFN、SRDCF、siamfc、DSST和KCF在OTB数据集上的距离精度DP值比较结果和目标重叠率OP值的比较结果。综合图5、图6(a)和图6(b)所示，本发明提供的目标跟踪方法能够很好地解决目标突变的运动问题，获得了较好地跟踪表现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。