CN110223324B

CN110223324B - 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法

Info

Publication number: CN110223324B
Application number: CN201910484150.7A
Authority: CN
Inventors: 杨国瑞; 吴贇; 蒋学芹; 白恩健
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2023-06-16
Anticipated expiration: 2039-06-05
Also published as: CN110223324A

Abstract

本发明提供了一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法。该方法以孪生网络为基础，利用卷积网络的层次结构从不同层提取不同级别的信息，获得更丰富的特征表示。同时，使用长短时记忆网络将提取的特征编码成固定向量，它重点关注有用的信息，能够更好地描述图像以及图像间的差异，使得获得的特征向量鲁棒性更强。本发明将目标对象的特征与视频帧中的候选区域特征匹配并返回最相似的区域从而实现目标跟踪。此外，该方法利用大量外部数据集进行预训练时，模板更新引入置信决策方法，使得对目标模板的描述更充分。本发明提高了特征表示的鲁棒性，同时提高了目标跟踪的效果。

Description

一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法

技术领域

本发明涉及深度学习和计算机视觉技术，具体涉及目标跟踪、神经网络以及图像处理领域。

背景技术

视觉目标跟踪已经成为计算机视觉领域重要的研究方向和研究热点。经过多年的发展，目标跟踪技术已经取得了长足的进步，但依然面临多方面的挑战，如何处理目标的快速移动，光照变化，目标外观变形，运动模糊和背景相似干扰等，这些因素都将导致目标漂移甚至跟踪失败。给定在视频的一帧中标记的感兴趣对象，单目标跟踪的目标是在随后的视频帧中找到该对象并且定位。目标跟踪可在许多重要场景中找到直接应用，例如自动驾驶，视频监控，人机交互等。

基于传统方法的目标跟踪一般是利用手工设计的特征进行目标建模，例如颜色特征等，不同特征从不同角度对目标进行描述，同时不同特征又各有其优缺点，例如Hog特征对颜色、光照变化不敏感，却对目标形变较为敏感。而基于深度学习的目标跟踪方法大多采用卷积神经网络对目标进行特征提取，基于CNN的特征虽然更鲁棒，但是这是基于训练样本足够大的情况下，在训练样本不够充分的情况下会影响对目标的建模效果，一般还需实时采用大量正负样本进行模型修正，通常速度较慢。孪生网络是一种神经网络的框架，它有两个结构相同且共享权值的子网络，接收两个输入并将其转换为向量，再通过距离度量的方式计算两个输出向量的距离，它用于评估两个输入样本的相似度。虽然基于孪生网络的跟踪算法取得了一些进步，但是这些方法仍然存在一些问题。首先，用于孪生网络的框架一般都是比较浅层的AlexNet网络，在深度学习任务中，已经证明了更深的网络具有更强的信息表征能力；其次，由于缺少动态的调节机制，孪生网络只能等价的对待特征图和特征空间，没有重点关注的区域，这样限制了模型的丰富的表征能力。目标特征表示的准确性直接影响了目标跟踪的效果，所以我们需要设计出一种鲁棒性更好的特征表示方法从而提升跟踪的准确度。

发明内容

本发明的目的是：针对基于孪生网络的跟踪算法出现的上述问题，本发明提供一种新的孪生匹配网络结构。在孪生网络的框架上，卷积层使用表达能力更强的VGG网络，同时增加长短期记忆(LSTM)层来引入注意力机制，通过对目标对象自身信息与长短时记忆层中的序列相关信息相结合，从中获得有用的鲁棒特征表示，从而提升了跟踪效果。

为了达到上述目的，本发明的技术方案是提供了一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法，其特征在于，包括以下步骤：

步骤1、数据预处理：在用于目标追踪的视频中以当前帧的前一帧推断出的目标位置为中心，在当前帧中裁剪出两倍于目标大小的区域作为搜索区域，在搜索区域内采样出候选样本区域；

步骤2、构建孪生匹配网络，包括以下步骤：

步骤201、设计孪生匹配网络的网络结构，孪生匹配网络由候选区域提出层、卷积层和LSTM模型层组成；候选区域提出层采用的是由粗到精的搜索方式来采样候选样本，卷积层使用不同层次的特征代表对象的外观，LSTM模型层对于候选样本和目标对象分别采用了双向LSTM和attention LSTM来编码，最后通过计算候选样本和目标模板的特征向量的余弦距离来得到最相似的样本作为跟踪目标；

步骤202、构建训练集，从训练集中获得多对训练样本，作为孪生匹配网络两个分支的输入；训练集采集方法为从视频中的每两帧开始，生成多对框，一对框中一个是一帧中的真实边界框，另一个是在另一帧中采样的候选框，同时使用置信决策方法，利用相似度的值决定是否更新目标模型；

步骤203、对步骤201构建的孪生匹配网络进行训练，更新网络参数直至满足收敛条件，以及调试优化超参数；

步骤3、在视频测试集中进行目标跟踪：在孪生匹配网络训练完后，将要跟踪的目标区域裁剪出来作为孪生匹配网络的一个输入，当前帧搜索区域裁剪出来的候选样本区域作为另一个输入，通过网络得到的鲁棒特征向量来计算目标区域和候选样本区域的相似度，找到相似度最高的候选样本图像，即可得到目标在当前帧的位置，函数Sim[x,x_i]反映了目标区域和候选样本区域的相似程度，有：

Sim[x,x_i]＝C(f(x)g(x_i))

式中，x为目标图像，x_i为候选样本图像，C为余弦距离，f(x)为对目标的特征表示函数，g(x_i)为对候选样本的特征表示函数。

优选地，步骤1中，同时使用ROI Pooling以便在一帧中快速处理多个区域以得到特征图。

优选地，步骤1中，所述数据预处理步骤具体如下：

如果第t帧的目标对象边界框具有中心(x_t,y_t)且其宽度和高度为W_t和H_t，则候选框采样以(x_t,y_t)为中心，宽度和高度为2W_t和2H_t的区域内按步长Δ_s进行采样。

优选地，步骤202中，更新目标模型的具体过程为：

若相似度小于0.5，则认为当前帧发生了误匹配，此时不更新目标模型；若相似度大于0.8，则认为当前帧的匹配结果较为准确，目标模型无需更新；若相似度在(0.5,0.8)之间，则利用公式P_t＝λP_t-1+(1-λ)Q对当前帧的目标模板P_t进行更新，式中，P_t-1为上一帧中目标模板，Q为当前帧中匹配到的目标模板，λ为更新权重。

优选地，步骤203中，对网络进行训练的具体步骤为：根据匹配网络得到的相似度最大的候选样本是否与目标真实区域的交叉联合重叠最大来对网络进行训练，反向传播的损失直接来源于匹配的结果；卷积层通过梯度下降的方法训练，同时通过使用反向传播时间最小化交叉熵损失来训练长短期记忆层，基于训练样本重复更新网络，直到网络收敛或达到预定义的迭代次数。

优选地，步骤3中，对候选样本的特征表示函数g(x_i)具体由以下步骤表示：

步骤301、使用卷积层提取候选目标的原始特征g'(x)，每个候选样本x_i维护四个状态变量分别是前向隐状态

后向隐状态/>

前向记忆/>

以及后向记忆/>

步骤302、前向变量由前一个参考样本的隐状态和上下文经过LSTM模型得到，当前样本的原始特征作为输入，如下式：

式中，LSTM表示LSTM模型；

步骤303、后向变量由后一个参考样本的隐状态和记忆经过LSTM模型确定，当前样本的原始特征作为输入，如下式：

步骤304、候选样本特征表示由其隐状态和原始特征共同决定，如下式：

式中，k表示样本的数量；

步骤3中，对目标的特征表示函数f(x)具体由以下步骤表示：

步骤311、使用参数共享的卷积层提取目标对象的原始特征f′(x)，通过l＝1,2,...,L次迭代，使用一个注意力LSTM模型计算测试样本的特征，每一步维护四个状态变量，分别是隐变量h_l，

读数r_l以及记忆c_l；

步骤312、在第l步，用LSTM模型计算原始隐变量和记忆，如下式：

步骤313、加上原始特征，获得第l步的隐变量，记为

步骤314、第l步的读数是参考集特征的加权和，记为

注意力函数是softmax形式，用其他所有参考集样本归一化，记为

步骤315、除了以测试样本作为输入，在每一个步骤中，还要根据LSTM的状态h，决定把注意力放在哪一些参考集样本上，最后一步的读数即为目标对象特征，即

本发明的优点主要表现在：

本发明利用卷积神经网络作为初步特征提取部分，由于从不同层可以提取不同级别的信息，低层提取边缘图等特征，而较深层则捕获较复杂的高级概念，本发明使用不同层次的特征代表对象的外观，而不是仅使用网络最后一层的输出，以使网络具有更丰富的外观模型。本发明利用了孪生网络进行图片匹配的优势，并引入LSTM来让信息流动起来，让候选样本并不是孤立的，考虑了整个候选样本参考集合的贡献，对于候选样本和目标对象分别采用了双向LSTM和attention LSTM来编码，通过VGGNET获得的特征表示是原始只依赖自己的，而通过双向LSTM候选样本信息可以互通，通过attention LSTM候选样本可以用来修改目标样本的嵌入模型，这两个样本特征表示函数是对特征空间进行了优化，从而提高了精确度。

附图说明

图1为本发明提出的基于鲁棒特征表示的孪生匹配网络的目标跟踪方法示意图；

图2为本发明提出的跟踪方法在部分视频中的跟踪效果。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

如图1所示，本发明提供的一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法包括以下步骤：

步骤1、数据预处理：以前一帧推断出的目标位置为中心，在当前帧中裁剪出两倍于目标大小的区域作为搜索区域，在搜索区域内采样出候选区域，同时使用ROI Pooling以便在一帧中快速处理多个区域以得到特征图。

数据预处理步骤具体如下：

候选样本生成：如果第t帧的目标对象边界框具有中心(x_t,y_t)且其宽度和高度为W_t和H_t，则候选框采样将以(x_t,y_t)为中心，宽度和高度为2W_t和2H_t的区域内按步长Δ_s进行采样。在本发明中，步长Δ_s设置为1。同时为了处理尺度变化，在每个样本位置以初始框为基准按比例生成三种不同大小的框，其尺度比例为{1.025^-1,1,1.025}。

步骤2、构建孪生匹配网络，包括如下子步骤：

步骤201、设计网络结构，网络由候选区域提出层、卷积层和长短期记忆(LSTM)层组成。候选区域提出层采用的是由粗到精的搜索方式来采样候选样本，卷积层使用不同层次的特征代表对象的外观，长短期记忆层对于候选样本和目标对象分别采用了双向LSTM和attention LSTM来编码，最后通过计算候选样本和目标模板的特征向量的余弦距离来得到最相似的样本作为跟踪目标。

步骤202、构建训练集，从训练集中获得多对训练样本，作为孪生匹配网络两个分支的输入。

构建训练集具体步骤为：

从视频中的每两帧开始，生成多对框。一对框中一个是一帧中的真实边界框，另一个是在另一帧中采样的候选框。同时本发明使用置信决策方法，利用相似度的值决定是否更新目标模型。具体过程为，若相似度小于0.5，则认为当前帧发生了误匹配，此时不更新目标模型；若相似度大于0.8，则认为当前帧的匹配结果较为准确，目标模型无需更新；若相似度在(0.5,0.8)之间，则利用公式P_t＝λP_t-1+(1-λ)Q对目标模型进行更新。式中，P_t-1为上一帧中目标模板，Q为当前帧中匹配到的目标模板，λ为更新权重。

步骤203、对网络进行训练，更新网络参数直至满足收敛条件，以及调试优化超参数。

对网络进行训练具体为：

根据匹配网络得到的相似度最大的候选样本是否与目标真实区域的交叉联合重叠最大来对网络进行训练，反向传播的损失直接来源于匹配的结果。卷积层通过梯度下降的方法训练，同时通过使用反向传播时间最小化交叉熵损失来训练LSTM模型。基于训练样本重复更新网络，直到网络收敛或达到预定义的迭代次数。

步骤3、在视频测试集中进行目标跟踪：在孪生匹配网络训练完后，将要跟踪的目标区域裁剪出来作为孪生匹配网络的一个输入，当前帧搜索区域裁剪出来的候选样本区域作为另一个输入，通过网络得到的鲁棒特征向量来计算目标和候选样本的相似度，找到相似度最高的候选样本图像，即可得到目标在当前帧的位置。函数Sim[x,x_i]反映了目标和候选样本的相似程度，有：

Sim[x,x_i]＝C(f(x)g(x_i))

其中x为目标图像，x_i为候选样本图像，C为余弦距离，对目标的特征表示函数为f(x)，对候选样本的特征表示函数为g(x_i)。

对候选样本的特征表示函数g(x_i)具体由以下步骤表示：

后向隐状态/>

前向记忆/>

以及后向记忆/>

式中，LSTM表示LSTM模型；

式中，k表示样本的数量。

对目标的特征表示函数f(x)具体由以下步骤表示：

读数r_l以及记忆c_l；

步骤313、加上原始特征，获得第l步的隐变量，记为

步骤314、第l步的读数是参考集特征的加权和，记为

图2为本发明提出的跟踪方法在部分视频中的跟踪效果，绿色边框表示目标的真实边框，红色边框表示的是本发明的方法跟踪到的目标区域，包含的情形有光照变化、尺度变化、遮挡、运动模糊、快速运动等，在这些情形下我们的跟踪方法取得了不错的效果。由于本发明设计了鲁棒的特征表示，提高了目标对象匹配的准确度，使得我们的方法在不同的情形下有较好的鲁棒性。

Claims

1.一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法，其特征在于，包括以下步骤：

步骤2、构建孪生匹配网络，包括以下步骤：

步骤202、构建训练集，从训练集中获得多对训练样本，作为孪生匹配网络两个分支的输入；训练集采集方法为从视频中的每两帧开始，生成多对框，一对框中一个是一帧中的真实边界框，另一个是在另一帧中采样的候选框，同时使用置信决策方法，利用相似度的值决定是否更新目标模型，具体包括以下步骤：

若相似度小于0.5，则认为当前帧发生了误匹配，此时不更新目标模型；若相似度大于0.8，则认为当前帧的匹配结果较为准确，目标模型无需更新；若相似度在(0.5,0.8)之间，则利用公式P_t＝λP_t-1+(1-λ)Q对当前帧的目标模板P_t进行更新，式中，P_t-1为上一帧中目标模板，Q为当前帧中匹配到的目标模板，λ为更新权重；

Sim[x,x_i]＝C(f(x)g(x_i))

2.如权利要求1所述的一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法，其特征在于，步骤1中，同时使用ROIPooling以便在一帧中快速处理多个区域以得到特征图。

3.如权利要求1所述的一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法，其特征在于，步骤1中，所述数据预处理步骤具体如下：

4.如权利要求1所述的一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法，其特征在于，步骤203中，对网络进行训练的具体步骤为：根据匹配网络得到的相似度最大的候选样本是否与目标真实区域的交叉联合重叠最大来对网络进行训练，反向传播的损失直接来源于匹配的结果；卷积层通过梯度下降的方法训练，同时通过使用反向传播时间最小化交叉熵损失来训练长短期记忆层，基于训练样本重复更新网络，直到网络收敛或达到预定义的迭代次数。

5.如权利要求1所述的一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法，其特征在于，步骤3中，对候选样本的特征表示函数g(x_i)具体由以下步骤表示：