CN112581502A

CN112581502A - 一种基于孪生网络的目标跟踪方法

Info

Publication number: CN112581502A
Application number: CN202011537734.5A
Authority: CN
Inventors: 赵文超; 张樯; 李斌; 张蛟淏
Original assignee: Beijing Institute of Environmental Features
Current assignee: Beijing Institute of Environmental Features
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-03-30

Abstract

本发明公开了一种基于孪生网络的目标跟踪方法，包括以下步骤：S101输入待跟踪目标；S102提取深层图像特征；S103目标区域特征匹配；S104获取最大相应区域；S105遮挡判断：如果判断待跟踪目标被遮挡则通过卡尔曼滤波的方法预测目标位置，如果判断待跟踪目标没有遮挡则输出最大相应区域。本发明的技术方案有效地解决了目标容易丢失的问题。

Description

一种基于孪生网络的目标跟踪方法

技术领域

本发明涉及目标跟踪的技术领域，具体而言，涉及一种基于孪生网络的目标跟踪方法。

背景技术

在目标跟踪时，目标存在形变、遮挡、图像降质、和明暗度变化的问题。传统的跟踪算法如TLD，Struck和KCF等，用于跟踪的模型往往是一个简单模型，通过在线训练，来进行下一帧的更新，这样当目标出现上述问题时会导致目标跟踪丢失。

发明内容

本发明目的在于提供一种基于孪生网络的目标跟踪方法，解决目标容易丢失的问题。

有鉴于此，本发明提供一种基于孪生网络的目标跟踪方法，包括以下步骤：S101输入待跟踪目标；S102提取深层图像特征；S103目标区域特征匹配；S104获取最大相应区域；S105遮挡判断：如果判断待跟踪目标被遮挡则通过卡尔曼滤波的方法预测目标位置，如果判断待跟踪目标没有遮挡则输出最大相应区域。

进一步地，在S105步骤中，将原始图像映射到特定的特征空间，公式如下

f(z,x)＝g(ψ(z),ψ(x)) (1)

z代表的是模板图像，方法中使用的是第一帧的目标位置；

x代表的是搜索区域，代表在后面的待跟踪帧中的候选框搜索区域；

φ代表的是一种特征映射操作。

ψ为z和x两个输入都有相同的转换函数；

函数g将两个转换函数的输出结合。

进一步地，在响应图中寻找响应值最高的一点，该点在候选区域中的对应部分，就是预测的目标位置。

进一步地，用判别方法来对正样本和负样本对进行训练，其逻辑损失函数：

logistic lossl(y,v)＝log(1+exp(-yv)) (2)

计算损失，其中v是对一个样本候选区的打分值，y是此样本候选区的真实标签y∈{+1,-1}y∈{+1,-1}；

式2表示的正样本的概率为sigmoid函数，负样本的概率为1-sigmoid，按交叉熵的公式得到式2中的损失；

响应图的损失被定义为响应图中每个位置损失的平均值，即

L(y,v)＝1/|D|*∑l(y[u],v[u]) (3)

D表示最后得到的score map，u表示score map中的所有位置；

最后给定x和z是样本对，θ是参数，f是对样本对的打分，用SGD最小化如下损失函数来获得最佳的跟踪模型。

argminEL(y,f(z,x；θ)) (4)

本发明实现了以下显著的有益效果：

本发明的技术方案提出了一种全卷积孪生网络和卡尔曼滤波相结合的目标跟踪算法，通过使用相似度学习的方法来解决追踪任意目标的问题。这种基于相似度学习的跟踪器，通过进行离线训练，线上的跟踪过程只需预测即可。为了应对目标在跟踪过程中完全遮挡的问题，在跟踪算法中加入了卡尔曼预测，保证目标再次出现时依然可以正常跟踪。

附图说明

图1示出了本发明的基于孪生网络的目标跟踪方法的跟踪算法流程示意图；

图2示出了图1的基于孪生网络的目标跟踪方法的红外跟踪数据集；

图3示出了图1的基于孪生网络的目标跟踪方法的全卷积孪生网络结构示意图；

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明，根据下面说明和权利要求书，本发明的优点和特征将更清楚。需要说明的是，附图均采用非常简化的形式且均适用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

需要说明的是，为了清楚地说明本发明的内容，本发明特举多个实施例以进一步阐释本发明的不同实现方式，其中，该多个实施例是列举式而非穷举式。此外，为了说明的简洁，前实施例中已提及的内容往往在后实施例中予以省略，因此，后实施例中未提及的内容可相应参考前实施例。

虽然该发明可以以多种形式的修改和替换来扩展，说明书中也列出了一些具体的实施图例并进行详细阐述。应当理解的是，发明者的出发点不是将该发明限于所阐述的特定实施例，正相反，发明者的出发点在于保护所有给予由本权利声明定义的精神或范围内进行的改进、等效替换和修改。同样的元器件号码可能被用于所有附图以代表相同的或类似的部分。

请参照图1至图3，本实施例的技术方案为了保证跟踪器的准确性，搭建了红外和可见光的跟踪数据集来对此跟踪器进行训练。为了保证跟踪器有足够的泛化能力，数据集的目标类别不局限于人车，且需要包含不同遮挡情况，不同背景，不同光照条件和清晰度的图像。可见光图像数据分辨率为1920*1080，红外图像数据分辨率为640*512。之后将采集的数据进行逐帧筛选和标注，最终获得可见光和红外图像及其标注文件各10万份，其中训练集5万份，验证集2.5万份，测试集2.5万份。数据集示意图如图2所示。

使用相似度函数来比较模板图像z域候选图像x的相似度，相似度越高，则得分越高。为了找到在下一帧图像中目标的位置，我们测试所有目标可能出现的位置，将相似度最大的位置作为目标的预测位置。而相似度函数是通过丰富视频数据集中给定的物体运动轨迹进行训练得到的，由于特征是通过神经网络提取的高层语义特征而得，因此具有极高的鲁棒性，在目标发生极大形变、遮挡、图像降质、明暗度变化时仍能准确跟踪。

基于深度卷积网络的相似度学习通过孪生结构实现，如图3所示。图中z代表的是模板图像，算法中使用的是第一帧的目标位置；x代表的是搜索区域，代表在后面的待跟踪帧中的候选框搜索区域；φ代表的是一种特征映射操作，将原始图像映射到特定的特征空间，这种结构对于两个输入都有相同的转换函数ψ，再通过函数g将两个输出结合，公式如下

f(z,x)＝g(ψ(z),ψ(x)) (1)

当函数g是简单的距离或者相似度度量时，ψ可以认为是一个嵌入式，理解为特征提取，一种数据转换。

网络采用的是CNN中的卷积层和pooling层；6×6×128代表z经过φ后得到的特征，是一个128通道6×6大小特征图，同理，22×22×128是x经过φ后的特征；后面的*代表卷积操作，此孪生结构对与候选图像x是全卷积的。全卷积网络的优点是全卷积结构可以直接将模板图像与大块的候选区域进行匹配，全卷积网络最后的输出就为我们需要的响应图。因此让22×22×128的特征图被6×6×128的卷积核卷积，得到一个17×17的响应得分图，代表着搜索区域中各个位置与模板相似度值。

在响应图中寻找响应值最高的一点，该点在候选区域中的对应部分，就是预测的目标位置。也可以用感受野来理解，上图中输出的小红点和小蓝点，对应在输入层的感受野就是输入图像x中的红色区域和蓝色区域。

我们用判别方法来对正、负样本对进行训练，其中正样本就是目标所在的图像区域，负样本就是没有目标的图像区域，其逻辑损失函数：

logistic lossl(y,v)＝log(1+exp(-yv)) (2)

计算损失，其中v是对一个样本候选区的打分值，y是此样本候选区的真实标签y∈{+1,-1}y∈{+1,-1}。上式表示的正样本的概率为sigmoid函数，负样本的概率为1-sigmoid。

响应图的损失被定义为响应图中每个位置损失的平均值，即

L(y,v)＝1/|D|*∑l(y[u],v[u]) (3)

D表示最后得到的score map，u表示score map中的所有位置。

最后给定x和z是样本对，θ是参数，f是对样本对的打分，用随机梯度下降来最小化损失函数L的期望E来获得最佳的跟踪模型。

argminE(L(y,f(z,x；θ))) (4)

当目标被完全遮挡时，跟踪算法无法完成对目标图像真实位置的检测，此时即需要利用卡尔曼滤波根据目标之前的位置对目标下一帧的位置进行预测。

Kalman(卡尔曼)滤波是一种高效率的递归滤波器(自回归滤波器),它能够从一系列的不完全及包含噪声的测量中，估计动态系统的状态。Kalman滤波的一个典型实例是从一组有限的，包含噪声的，对物体位置的观察序列(可能有偏差)预测出物体的位置的坐标及速度。

首先我们先要引入一个离散控制过程的系统。该系统可用一个线性随机微分方程(Linear Stochastic Difference equation)来描述：

X(k)＝A X(k-1)+B U(k)+W(k) (5)

再加上系统的测量值：

Z(k)＝H X(k)+V(k) (6)

上两式子中，X(k)是k时刻的系统状态，U(k)是k时刻对系统的控制量。A和B是系统参数，对于多模型系统，他们为矩阵。Z(k)是k时刻的测量值，H是测量系统的参数，对于多测量系统，H为矩阵。W(k)和V(k)分别表示过程和测量的噪声。他们被假设成高斯白噪声(White Gaussian Noise)，他们的协方差(covariance)分别是Q，R(这里我们假设他们不随系统状态变化而变化)。

对于满足上面的条件(线性随机微分系统，过程和测量都是高斯白噪声)，卡尔曼滤波器是最优的信息处理器。下面我们结合他们的协方差来估算系统的最优化输出(类似上一节那个温度的例子)。

利用系统的过程模型，来预测下一状态的系统。假设现在的系统状态是k，根据系统的模型，可以基于系统的上一状态而预测出现在状态：

X(k|k-1)＝A X(k-1|k-1)+B U(k) (7)

式(1)中，X(k|k-1)是利用上一状态预测的结果，X(k-1|k-1)是上一状态最优的结果，U(k)为现在状态的控制量，如果没有控制量，它可以为0。

到现在为止，系统结果已经更新了，可是，对应于X(k|k-1)的协方差还没更新。我们用P表示协方差(covariance)：

P(k|k-1)＝A P(k-1|k-1)A’+Q (8)

式(2)中，P(k|k-1)是X(k|k-1)对应的协方差，P(k-1|k-1)是X(k-1|k-1)对应的协方差，A’表示A的转置矩阵，Q是系统过程的协方差。式子1，2就是卡尔曼滤波器5个公式当中的前两个，也就是对系统的预测。

有了现在状态的预测结果，然后再收集现在状态的测量值。结合预测值和测量值，我们可以得到现在状态(k)的最优化估算值X(k|k)：

X(k|k)＝X(k|k-1)+Kg(k)(Z(k)-H X(k|k-1)) (9)

其中Kg为卡尔曼增益(Kalman Gain)：

Kg(k)＝P(k|k-1)H’/(H P(k|k-1)H’+R) (10)

到现在为止得到了k状态下最优的估算值X(k|k)。但是为了要令卡尔曼滤波器不断的运行下去直到系统过程结束，我们还要更新k状态下X(k|k)的协方差：

P(k|k)＝(I-Kg(k)H)P(k|k-1) (11)

其中I为1的矩阵，对于单模型单测量，I＝1。当系统进入k+1状态时，P(k|k)就是式子(22)的P(k-1|k-1)。这样，算法就可以自回归的运算下去。

根据这5个公式，即可以实现卡尔曼滤波。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施方式例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于孪生网络的目标跟踪方法，其特征在于，包括以下步骤：

S101输入待跟踪目标；

S102提取深层图像特征；

S103目标区域特征匹配；

S104获取最大相应区域；

S105遮挡判断：如果判断待跟踪目标被遮挡则通过卡尔曼滤波的方法预测目标位置，如果判断待跟踪目标没有遮挡则输出最大相应区域。

2.根据权利要求1所述的基于孪生网络的目标跟踪方法，其特征在于，在S105步骤中，将原始图像映射到特定的特征空间，公式如下

f(z,x)＝g(ψ(z),ψ(x)) (1)

z代表的是模板图像，方法中使用的是第一帧的目标位置；

φ代表的是一种特征映射操作。

ψ为z和x两个输入都有相同的转换函数；

函数g将两个转换函数的输出结合。

3.根据权利要求2所述的基于孪生网络的目标跟踪方法，其特征在于，在响应图中寻找响应值最高的一点，该点在候选区域中的对应部分，就是预测的目标位置。

4.根据权利要求2所述的基于孪生网络的目标跟踪方法，其特征在于，用判别方法来对正样本和负样本对进行训练，其逻辑损失函数：

logistic lossl(y,v)＝log(1+exp(-yv)) (2)

响应图的损失被定义为响应图中每个位置损失的平均值，即

L(y,v)＝1/|D|*∑l(y[u],v[u]) (3)

D表示最后得到的score map，u表示score map中的所有位置；

最后给定x和z是样本对，θ是参数，f是对样本对的打分，用SGD最小化如下损失函数来获得最佳的跟踪模型；

argminEL(y,f(z,x；θ)) (4)。