CN111753667A

CN111753667A - 一种基于孪生网络的智能汽车单目标跟踪方法

Info

Publication number: CN111753667A
Application number: CN202010459367.5A
Authority: CN
Inventors: 陈龙; 朱程铮; 蔡英凤; 王海; 李祎承; 孙晓强; 陈晓波
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-10-09
Anticipated expiration: 2040-05-27
Also published as: CN111753667B

Abstract

本发明公开了一种基于孪生网络的智能汽车单目标跟踪方法，将模板与待检测图像经由Mish‑channel‑dark网络构成的孪生网络提取后，得到其各自对应的特征信息，随后将特征信息输入至相似判断分支与质量评估分支，最后通过互相关计算确定相似度，并完成模板更新。其中Mish‑channel‑dark网络由mish卷积模块、m‑Residual模块、通道注意力模块以及结构体构成。本发明提高了跟踪算法的推理能力和抗干扰能力，加入了通道注意力(channel attention)模块，显著提高网络的跟踪精度，降低了目标消失再出现时检索对象的时间，有效的提高了网络的实用性。本发明设计的孪生网络性能较好，在部署时仅需较低配置即可达到较高的速度。

Description

一种基于孪生网络的智能汽车单目标跟踪方法

技术领域

本发明属于智能汽车视觉技术领域，特别涉及了一种基于孪生网络的智能汽车单目标跟踪方法。

背景技术

目标跟踪(object tracking)技术是指利用在给定某视频序列初始帧的目标大小与位置的情况下，确定后续帧中该目标的大小与位置。通过目标跟踪技术可以让计算机更充分的使用所获取的数据信息。与目标检测(object detection)不同的是目标跟踪不仅需要获取目标当前位置信息与分类信息，还需要根据相关算法分析出当前物体是否为之前所确定的物体，这也使得该任务具有非同寻常的研究价值。目标跟踪可以应用在无人驾驶当中，分析车辆或者行人的运动，通过预测轨迹判断是否存在安全隐患；以及监控人流密度大的区域，通过分析行人的行走路径判断是否有可疑人员等等。

目前单目标跟踪方法主要可以分为滤波类、深度学习类两类。其中滤波类因结构简单一度成为主流，但是随着研究的深入，滤波类跟踪方法的低精度的缺点愈发难以解决。与此同时，随着计算机算力的增强，数据集的扩展，对于卷积的研究深入，深度学习类单目标跟踪方法逐渐崭露头角。

孪生网络跟踪法是在深度学习的思想下所产生的一种新型的目标跟踪方法。通过学习人类的跟踪模式，利用计算机实现被跟踪者与检测图之间的特征信息对比，采用卷积网络的高速计算与神经网络的非线性运算，从而既保证了传统滤波类目标跟踪方法的速度又保证了跟踪时的精度。

从目前国内外学者主要研究内容看，智能汽车如何在行驶中保持对某一特定目标的跟踪是研究的热点。

发明内容

本发明针对道路行驶中的智能汽车对某一特定物体(行人、车辆等)的跟踪精度与速度问题，提出了一种新型的孪生网络单目标跟踪方法。技术方案如下：

一种基于孪生网络的智能汽车单目标跟踪方法，包括如下：

S1:设计mish卷积模块mish-convolutional；

S2:设计m-Residual模块；

S3:设计通道注意力模块；

S4：设计结构体；

S5：设计Mish-channel-dark部分与特征信号的多次提取；

S6：设置网络输入与特征的提取；

S7:进行相似性判断

S8:更新模板以及目标跟踪。

进一步，所述S1的实现包括如下：

mish卷积模块mish-convolutional包括一个卷积层(conv2d)、批量归一化(BN)层、mish激活层序列。

进一步，所述S2的实现包括如下：

所述m-Residual模块包括2个mish卷积模块与一个直连接层；

其中，一个mish卷积模块内部的卷积层的尺寸为1*1，另一个mish卷积模块内部的卷积层的尺寸为为3*3。

进一步，所述S3的实现包括如下：

先构建一个由全局最大池化和一个全局平均池化组成的并联运算模块，随后构建一个MLP模块；

其中，MLP模块由两个1*1*128的卷积层和一个Mish激活层构成，且卷积层1与卷积层2的参数共享。

进一步，所述S4的实现包括如下：

所述结构体包括2个mish卷积模块、1个m-Residual模块、一个通道注意力模块串行；

其中，2个mish卷积模块尺寸分别为1*1与3*3。

进一步，所述S5的实现包括如下：

S5.1：构建一个3*3的mish卷积模块，其输出通道数为32，卷积核的步长为1，再次串行构建一个3*3的mish卷积模块，输出通道数变为64，卷积核的步长变为2；

S5.2：串行构建一个结构体，其中1*1的mish卷积模块的输出通道为32，3*3的mish卷积模块的输出通道数为64；随后，将得到的特征信号输入一个3*3的mish卷积模块，该卷积核的步长为2，输出通道数为128；

S5.3：构建2个串行的结构相同的结构体，其中1*1的mish卷积模块的输出通道数为64，3*3的mish卷积模块的输出通道数为128，第2个结构体的通道注意力模块为特征提取层，随后构建一个3*3的mish卷积模块，其步长为2，输出通道为256；

S5.4：构建8个串行的结构相同的结构体；其中1*1的mish卷积模块的输出通道数为128，3*3的mish卷积模块的输出通道数为256，第8个结构体的通道注意力模块为特征提取层，随后构建一个3*3的mish卷积模块，其步长为2，输出通道为512；

S5.5：构建8个串行的结构相同的结构体；其中1*1的mish卷积模块的输出通道数为256，3*3的mish卷积模块的输出通道数为512，第8个结构体的通道注意力模块为特征提取层，随后构建一个3*3的mish卷积模块，其步长为2，输出通道为1024；

S5.6：构建4个串行的结构相同的结构体，其中1*1的mish卷积模块的输出通道数为512，3*3的mish卷积模块的输出通道数为1024；第4个结构体的通道注意力模块为特征提取层。

进一步，所述S6的实现包括如下：

选定模板Z，将其尺寸缩放为(127*127*3)。将输入帧分为n个待检测图像X₁X₂…X_n；随后将待检测图像X_i(i＝1,2…n)缩放为(255*255*3)的尺寸；将模板Z与待检测图像X_i(i＝1,2…n)送入由Mish-channel-dark组成的孪生网络中，这两个网络共享权重；

其中对于模块Mish-convolutional，有计算公式：

MCo_m*m(n)＝mish(bn(conv2d(n)))＝bn(conv2d(n))×tanh(ln(1+e^{bn(conv2d(n))}))

其中n为输入值，bn为批量归一化计算，conv2d为二维卷积计算，下标m*m为该模块的卷积尺寸；

对于模块m-Residual，有计算公式：

MRe(u)＝MCo_3*3(MCo_1*1(u))+u

其中u为输入值

对于模块channel-attention，有计算公式：

M_c(T)＝σ(MLP(AvgPool(T))+MLP(MaxPool(T)))

其中T为层输入特征值，σ为mish激活函数；

当模板Z通过Mish-channel-dark网络后，可以得到模板特征信号L(Z)＝(L_Z1,L_Z2,L_Z3)，同理当检测图X_i(i＝1,2…n)经Mish-channel-dark网络后，得到特征信号

进一步，所述S7的实现包括如下：

将模板特征信号L(Z)复制为L¹(Z)、L²(Z)，将检测图的特征信号L(X_i)复制为L¹(X_i)、L²(X_i)；

将L¹(Z)、L¹(X_i)送入相似性判断分支，由公式：

E_W(X_i)＝E_W(L¹(Z),L¹(X_i))＝||L¹(Z)-L¹(X_i)||₁

得到各检测图所对应的相似度值，由此可组为一个n维相似向量：

E_W＝(E_W(X₁),E_W(X₁)…E_W(X₁))；

将L²(Z)、L²(X)输入质量评估分支，由质量评分公式：

可得其相似质量评估分数；其中，l,r,t,d的计算公式如下：

其中(l_Z,t_Z)为模板Z的左上角坐标，(r_Z,b_Z)为模板Z的右下角坐标。(l_X,t_X)为待检测图的左上角坐标，(r_X,b_X)为各待检测图的右下角坐标；

得到各检测图的PAS权重向量：

P＝(PAS(X₁),PAS(X₂)…PAS(X_n))

最后将质量评估分支的PAS权重向量与相似判断分支的结果E_W进行互相关运算,由公式：

得出各检测图所对应的最终相似度值R＝(R(pe₁),R(pe₂)…R(pe_n))。

进一步，所述S8的实现包括如下：

将各检测图所对应的最终相似度值进行softmax运算，计算公式为：

G＝softmax(R)

R为最终相似度值；输出G_i＝1所对应的索引向量，该所对应的检测图即是模板所对应的物体；随后将模板更新为该检测图，而当G_i＝0(i＝1,2…n)时，可视为没有对应模板的检测图，则保持原模板。

本发明的有益效果：

(1)保持了深度学习常用的端到端方法，利用了Mish-channel-dark网络，相较于现有的以resnet53为骨干(backbone)的网络，充分提取了目标信息，提高了跟踪算法的推理能力和抗干扰能力。

(2)利用了mish激活函数的平滑性，加速了网络的训练速度和平滑性，使得在超参不变的情况下缓解了网络的过拟合。

(3)加入了通道注意力(channel attention)模块，在不改变原有计算精度的同时，提高了网络的跟踪精度，降低了目标消失再出现时检索对象的时间，有效的提高了网络的实用性。

(4)因为本发明设计的孪生网络性能较好，网络一经训练完，在部署时仅需较低配置(如仅有CPU)即可达到较高的速度(60+fps)，在速度上足以媲美目前工业上常见的滤波算法。

附图说明

图1.本发明的算法流程图

图2.本发明的mish-convolutional架构图

图3.本发明的m-Residual架构图

图4.本发明的通道注意力模块示意图

图5.结构体示意图

图6.本发明的跟踪效果图

其中：(a)开始时的模板，(b)跟踪过程中的效果图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示的本发明算法的总体运行流程，模板与待检测图像经由Mish-channel-dark网络构成的孪生网络提取后，得到其各自对应的特征信息。随后将特征信息输入至相似判断分支与质量评估分支，最后通过互相关计算确定相似度，并完成模板更新。

本发明的具体实施过程包括如下：

Step1:设计mish卷积模块(mish-convolutional)

如图2所示，mish卷积模块(mish-convolutional)由一个卷积层(conv2d)、批量归一化(BN)层、mish激活层序列组成。

其中所有卷积层的步长(stride)不指明时均为1。

Step2:设计m-Residual模块

如图3所示，m-Residual模块由2个mish卷积模块与一个直连接层组成。

其中，1*1的mish卷积模块是指其内部的卷积层的尺寸为1*1，同理可知3*3的mish卷积模块的内部卷积层尺寸为3*3。

Step3:设计通道注意力模块

如图4所示，先构建一个由全局最大池化(MaxPool)和一个全局平均池化(AvgPool)组成的并联运算模块。随后构建一个多层感知机(MLP)模块。

其中，多层感知机(MLP)模块由两个(1*1*128)的卷积层和一个Mish激活层构成，且卷积层1与卷积层2的参数共享。

Step4：设计结构体

如图5所示，结构体由2个mish卷积模块、1个m-Residual模块、一个通道注意力模块串行组成。

其中，2个mish卷积模块尺寸分别为1*1与3*3。

Step5：设计Mish-channel-dark部分与特征信号的多次提取

如表1所示，完成Mish-channel-dark的构建：

首先构建一个3*3的mish卷积模块，其输出通道数为32，卷积核的步长为1。再次串行构建一个3*3的mish卷积模块，输出通道数变为64，卷积核的步长变为2。

之后串行构建一个结构体，其中1*1的mish卷积模块的输出通道为32，3*3的mish卷积模块的输出通道数为64。随后，将得到的特征信号输入一个3*3的mish卷积模块，该卷积核的步长为2，输出通道数为128。

之后构建2个串行的结构相同的结构体。其中1*1的mish卷积模块的输出通道数为64，3*3的mish卷积模块的输出通道数为128。第2个结构体的通道注意力模块为特征提取层。随后构建一个3*3的mish卷积模块，其步长为2，输出通道为256。

之后构建8个串行的结构相同的结构体。其中1*1的mish卷积模块的输出通道数为128，3*3的mish卷积模块的输出通道数为256。第8个结构体的通道注意力模块为特征提取层。随后构建一个3*3的mish卷积模块，其步长为2，输出通道为512。

之后构建8个串行的结构相同的结构体。其中1*1的mish卷积模块的输出通道数为256，3*3的mish卷积模块的输出通道数为512。第8个结构体的通道注意力模块为特征提取层。随后构建一个3*3的mish卷积模块，其步长为2，输出通道为1024。

之后构建4个串行的结构相同的结构体。其中1*1的mish卷积模块的输出通道数为512，3*3的mish卷积模块的输出通道数为1024。第4个结构体的通道注意力模块为特征提取层。

表1

Step6：设置网络输入与特征的提取

选定模板Z，将其尺寸缩放为(127*127*3)。将输入帧分为n个待检测图像X₁X₂…X_n。随后将待检测图像X_i(i＝1,2…n)缩放为(255*255*3)的尺寸。将模板Z与待检测图像X_i(i＝1,2…n)送入由Mish-channel-dark组成的孪生网络中。由于是孪生网络，所以这两个网络的共享权重。

其中对于模块Mish-convolutional，有计算公式：

MCo_m*m(n)＝mish(bn(conv2d(n)))＝bn(conv2d(n))×tanh(ln(1+e^{bn(conv2d(n))}))

其中n为输入值，bn为批量归一化计算，conv2d为二维卷积计算，mish表示mish激活函数，tanh为双曲正切函数，MCo_m*m(n)表示该模块的输出值，其下标m*m表示该模块所用的卷积核尺寸。

由此计算公式可得图像经过模块Mish-convolutional所得到的特征。

对于模块m-Residual，有计算公式：

MRe(u)＝MCo_3*3(MCo_1*1(u))+u

其中u为输入值，MRe(u)为图像经模块m-Residual所得的特征值。

由此计算公式可得图像经过模块m-Residual所得到的特征。

对于模块channel-attention，有计算公式：

M_c(T)＝σ(MLP(AvgPool(T))+MLP(MaxPool(T)))

其中T为层输入特征值，σ为mish激活函数，M_c(T)为输入值T经模块channel-attention所得到的输出值。

由此计算公式可得图像经过模块channel-attention所得到的特征。

由此，当模板Z通过Mish-channel-dark网络后，可以得到模板特征信号L(Z)＝(L_Z1,L_Z2,L_Z3)，同理当检测图X_i(i＝1,2…n)经Mish-channel-dark网络后，得到检测图的特征信号

Step7:进行相似性判断

将L(Z)复制为L¹(Z)、L²(Z)，将L(X_i)复制为L¹(X_i)、L²(X_i)。

将L¹(Z)、L¹(X_i)送入相似性判断分支，由公式：

E_W(X_i)＝E_W(L¹(Z),L¹(X_i))＝||L¹(Z)-L¹(X_i)||₁

其中，E_W(X_i)表示第i(i＝1,2,3…n)个检测图X_i相对于模板Z的相似度值。

E_W＝(E_W(X₁),E_W(X₁)…E_W(X₁))。

将L²(Z)、L²(X)输入质量评估分支，由质量评估公式(PAS,Quality AssessmentScore)：

可得其相似质量评估分数。其中，变量l,r,t,d的计算公式如下：

其中(l_Z,t_Z)为模板Z的左上角坐标，(r_Z,d_Z)为模板Z的右下角坐标。(l_X,t_X)为待检测图的左上角坐标，(r_X,d_X)为各待检测图的右下角坐标。

由此，可以得到各检测图的PAS权重向量：

P＝(PAS(X₁),PAS(X₂)…PAS(X_n))

最后将质量评估分支的PAS权重向量与相似判断分支的结果E_W进行互相关(cross-correlation)运算,由公式：

Step8:模板的更新与目标的跟踪

将各检测图所对应的最终相似度值进行softmax运算,由公式：

G＝softmax(R)

输出G_i＝1所对应的索引向量，该所对应的检测图即是模板所对应的物体。随后将模板更新为该检测图。而当G_i＝0(i＝1,2…n)时，可视为没有对应模板的检测图，则保持原模板。本发明的跟踪效果如图6所示，可以看出，智能车辆选定被跟踪车辆后，经过一段时间的跟踪，依然可以稳定而良好的识别出要跟踪的对象，在跟踪精度方面远胜于传统的滤波类方法。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于孪生网络的智能汽车单目标跟踪方法，其特征在于，包括如下：

S1:设计mish卷积模块mish-convolutional；

S2:设计m-Residual模块；

S3:设计通道注意力模块；

S4：设计结构体；

S5：设计Mish-channel-dark部分与特征信号的多次提取；

S6：设置网络输入与特征的提取；

S7:进行相似性判断

S8:更新模板以及目标跟踪。

2.根据权利要求1所述的一种基于孪生网络的智能汽车单目标跟踪方法，其特征在于，所述S1的实现包括如下：

3.根据权利要求1所述的一种基于孪生网络的智能汽车单目标跟踪方法，其特征在于，所述S2的实现包括如下：

所述m-Residual模块包括2个mish卷积模块与一个直连接层；

4.根据权利要求1所述的一种基于孪生网络的智能汽车单目标跟踪方法，其特征在于，所述S3的实现包括如下：

5.根据权利要求1所述的一种基于孪生网络的智能汽车单目标跟踪方法，其特征在于，所述S4的实现包括如下：

其中，2个mish卷积模块尺寸分别为1*1与3*3。

6.根据权利要求1所述的一种基于孪生网络的智能汽车单目标跟踪方法，其特征在于，所述S5的实现包括如下：

7.根据权利要求1所述的一种基于孪生网络的智能汽车单目标跟踪方法，其特征在于，所述S6的实现包括如下：

其中对于模块Mish-convolutional，有计算公式：

MCo_m*m(n)＝mish(bn(conv2d(n)))＝bn(conv2d(n))×tanh(ln(1+e^{bn(conv2d(n))}))

对于模块m-Residual，有计算公式：

MRe(u)＝MCo_3*3(MCo_1*1(u))+u

其中u为输入值

对于模块channel-attention，有计算公式：

M_c(T)＝σ(MLP(AvgPool(T))+MLP(MaxPool(T)))

其中T为层输入特征值，σ为mish激活函数；

8.根据权利要求1所述的一种基于孪生网络的智能汽车单目标跟踪方法，其特征在于，所述S7的实现包括如下：

将L¹(Z)、L¹(X_i)送入相似性判断分支，由公式：

E_W(X_i)＝E_W(L¹(Z),L¹(X_i))＝||L¹(Z)-L¹(X_i)||₁

E_W＝(E_W(X₁),E_W(X₁)…E_W(X₁))；

将L²(Z)、L²(X)输入质量评估分支，由PAS评分公式：

可得其相似质量评估分数；其中，l,r,t,d的计算公式如下：

得到各检测图的PAS权重向量：

P＝(PAS(X₁),PAS(X₂)…PAS(X_n))

9.根据权利要求1所述的一种基于孪生网络的智能汽车单目标跟踪方法，其特征在于，所述S8的实现包括如下：

G＝softmax(R)