CN113192124A

CN113192124A - 一种基于孪生网络的图像目标定位方法

Info

Publication number: CN113192124A
Application number: CN202110277365.9A
Authority: CN
Inventors: 刘畅; 岳向辉; 凌源; 关智豪; 阚泽屹; 嵇祥瑞
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-07-30

Abstract

本发明公开了一种基于孪生网络的图像目标定位方法，包括：根据图像中的目标大小和所在位置对图像进行裁剪和数据增强处理、获得视频序列训练集中的全部图像组成的样本对；构建自注意力机制模块和互注意力机制模块，构建基于注意力机制的交叉融合孪生网络，将视频序列裁剪得到的样本对输入至基于注意力机制的交叉融合孪生网络进行训练；使用训练好的交叉融合孪生网络计算目标模板与视频序列各帧的得分图，记录得分图中得分最大的位置即为目标位置。通过自注意力机制模块对通过该模块的图像特征进行增强，通过互注意力机制模块聚合模板分支和搜索分支的有效信息，弥补在特征提取过程中双方无法获取对方重要信息的问题，提升跟踪器对复杂场景变化的适应能力。

Description

一种基于孪生网络的图像目标定位方法

技术领域

本发明涉及孪生网络和图像目标分析技术领域，尤其涉及一种基于孪生网络的图像目标定位方法。

背景技术

人类至少有80％以上的外界信息通过视觉得到，视觉是人类识别判断周围事物的重要依据。但是由于人类视觉的有限性，仅仅依靠人类的视觉处理信息是远远不够的。近年来，随着计算机相关技术的快速发展，人们尝试通过利用计算机来代替人的视觉来处理各种相关信息，通过计算机模拟人类视觉识别判断周围事物。这种利用计算机实现人的视觉，希望根据感知到的图像(视频)对实际的目标和场景内容做出有意义的判断的研究课题被称为计算机视觉。

目标检测与跟踪是计算机视觉领域中重要的一个研究方向，在计算机视觉的研究领域得到越来越多的关注。目标检测与跟踪，就是通过分析成像传感器获取到的场景视频图像帧，从背景信息中检测、提取、分割出运动目标，进而利用相似度算法在随后的序列图像中估算出目标最有可能的位置信息，为深层次的目标行为的分析与理解奠定基础；其实时检测、跟踪运动目标的功能，为后续的目标识别与行为理解提供了可靠的数据来源。

运动图像的目标跟踪在当前社会具有众多的应用场景，能够在多个领域和实地场所发挥作用，具有巨大的潜力和广阔的发展前景。目前，目标跟踪技术主要应用于以下领域：

1)智能视频监控：基于运动识别(基于步法的人类识别、自动物体检测等)，自动化监测(监视一个场景以检测可疑行为)；交通监视(实时收集交通数据用来指挥交通流动)；

2)人机交互：传统人机交互是通过计算机键盘和鼠标进行的，为了使计算机具有识别和理解人的姿态、动作、手势等能力，跟踪技术是关键；

3)机器人视觉导航：在智能机器人中，跟踪技术可用于计算拍摄物体的运动轨迹；

4)虚拟现实：虚拟环境中3D交互和虚拟角色动作模拟直接得益于视频人体运动分析的研究成果，可给参与者更加丰富的交互形式，人体跟踪分析是其关键技术。

5)医学诊断：跟踪技术在超声波和核磁序列图像的自动分析中有广泛应用，由于超声波图像中的噪声经常会淹没单帧图像有用信息，使静态分析十分困难，而通过跟踪技术利用序列图像中目标在几何上的连续性和时间上的相关性，可以得到更准确的结果。

传统的基于孪生网络的跟踪算法对图像进行目标定位时，在跟踪过程中目标模板不会根据搜索图像进行在线自适应调整且没有关注图像中的重点特征，不利于应对各种复杂的跟踪场景。

发明内容

根据现有技术存在的问题，本发明公开了一种基于孪生网络的图像目标定位方法，具体包括如下步骤：

根据图像中的目标大小和所在位置对图像进行裁剪和数据增强处理、获得视频序列训练集中的全部图像组成的样本对；

构建自注意力机制模块和互注意力机制模块，其中所述自注意力机制模块包括通道注意力机制模块和空间注意力机制模块，所述互注意力机制模块包括两个结构相同的第一通道注意力机制模块和第二通道注意力机制模块；

构建基于注意力机制的交叉融合孪生网络，该交叉融合孪生网络包括用于提取图像特征的2个参数共享的AlexNet特征提取网络，该参数共享的AlexNet特征提取网络包括5层卷积层，其中在第1层和第4层卷积层均加入自注意力机制模块进行特征增强，同时将第2层和第3层卷积层的输出连接到互注意力机制模块中进行模板分支和搜索分支的信息交互；

将视频序列裁剪得到的样本对输入至基于注意力机制的交叉融合孪生网络进行训练；

使用训练好的交叉融合孪生网络计算目标模板与视频序列各帧的得分图，记录得分图中得分最大的位置即为目标位置。

进一步的，对图像进行增强时：

对裁剪得到的图像进行一系列以目标为中心、以目标周围随机点为中心进行缩放裁剪操作，将缩放裁剪后的模板分支图像和搜索分支图像两两组合，构成样本对(z，x)，其中z是模板分支图像，x是搜索分支图像，将二者作为训练孪生网络时使用的图像数据。

进一步的，所述自注意力机制模块包括通道注意力机制模块和空间注意力机制模块，该自注意力机制模块对图像进行特征增强处理时：

设输入的图像特征为F∈R^C*h*W，则将输入的图像特征通过通道注意力机制模块，可以得到该图像的通道权重为M_c∈R^C*1*1，将输入的图像特征通过空间注意力机制模块，可以得到该图像的空间权重为M_s∈R^1*H*W，将通道权重和输入的图像特征进行矩阵相乘获得经过通道注意力机制模块增强后的图像特征F′,将空间权重和输入的经过通道注意力机制模块增强的图像特征F′进行矩阵相乘获得经过空间注意力机制模块增强的图像特征F″，具体算法如下：

通道权重采用如下公式表示：

其中，σ是sigmoid激活函数，

是用于进行通道变换的全连接或1*1卷积操作，并且在W₀和W₁运算后，使用ReLU激活函数进行计算；

空间权重采用如下公式表示：

其中，σ是sigmoid激活函数，f^7*7是7*7卷积操作

关于sigmoid激活函数和ReLU激活函数分别由下式给出

进一步的，所述第一通道注意力机制模块用于获取输入模板分支图像的模板通道权重，所述第二通道注意力机制模块用于获取输入搜索分支图像的搜索通道权重，该互注意力机制模块对通过的图像进行增强处理时：

以模板分支为例，设输入的模板分支图像特征为Z∈R^C*h*w，输入的搜索分支图像特征为X∈R^C*h*W，利用搜索分支图像特征对通过互注意力机制模块的模板分支图像特征进行增强处理时，将模板分支的图像特征通过第一通道注意力机制模块获得特征增强后的模板分支图像特征为

其中M_c(Z)为模板通道权重；将模板分支的图像特征通过第二通道注意力机制模块获得特征增强后的模板分支图像特征为

其中M_c(X)为搜索通道权重；将第一通道注意力机制模块和第二通道注意力机制模块得到的增强后的图像特征直接相加，可得图像特征融合的结果为Z′＝Z_S′+Z_C′，最后将该结果通过一个卷积核大小为3，步长为1，填充为1的卷积层，得到模板分支图像的最终特征增强结果。同理，可得搜索分支图像的最终特征增强结果。

由于采用了上述技术方案，本发明提供的一种基于孪生网络的图像目标定位方法，该方法引入自注意力机制模块和互注意力机制模块，通过自注意力机制模块对通过该模块的图像特征进行增强，通过互注意力机制模块聚合模板分支和搜索分支的有效信息，弥补在特征提取过程中双方无法获取对方重要信息的问题，提升跟踪器对复杂场景变化的适应能力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中交叉融合孪生网络SiamCross模型结构示意图；

图2为本发明中自注意力机制模块结构原理图；

图3为本发明中互注意力机制模块结构原理图；

图4为本发明中通道注意力机制模块结构原理图；

图5为本发明中空间注意力机制模块结构原理图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1至图3所示的一种基于孪生网络的图像目标定位方法，具体包括如下步骤：

步骤S1：根据图像中的目标大小和所在位置，对图像进行一系列裁剪以及数据增强操作，获得视频序列训练集中的全部图像组成的样本对，用于训练特征提取网络；

步骤S2：构建自注意力机制模块和互注意力机制模块，其中所述自注意力机制模块包括通道注意力机制模块和空间注意力机制模块，所述互注意力机制模块包括两个结构相同的第一通道注意力机制模块和第二通道注意力机制模块；

步骤S3：构建基于注意力机制的交叉融合孪生网络，该网络包括2个参数共享的AlexNet网络用于提取图像特征，该参数共享的AlexNet特征提取网络包括5层卷积层，其中在第1层和第4层卷积层均加入自注意力机制模块进行特征增强，同时将第2层和第3层的输出连接到互注意力机制模块中，进行模板分支和搜索分支的信息交互；

步骤S4：通过步骤S1中提供的视频序列裁剪得到的样本对，训练步骤S3中构建的基于注意力机制的交叉融合孪生网络；

步骤S5：使用训练好的基于注意力机制的交叉融合孪生网络计算目标模板与视频序列各帧的得分图，根据得分图中得分最大的位置即为目标位置的方法进行目标跟踪。

所述步骤S1的实现如下：根据用于目标跟踪的数据集提供的训练集，对训练集图像进行统一处理，图像预处理包括图像裁剪以及图像增强两部分。

步骤S1.1：图像裁剪的具体步骤如下：

获取训练集提供的视频序列各帧图像中目标的边界框坐标，将其转换为[y,x,h,w]的形式，其中坐标原点位于图像的左上角，h代表目标在图像中的高度，w代表目标在图像中的宽度。根据该坐标确定目标在图像中的位置以及目标的大小，并通过下述公式计算目标的边缘填充大小

context＝0.5(h+w)＝2p

s(w+2p)*s(h+2p)＝A

其中，s是尺度因子，p是目标单侧边缘填充大小，A是图像裁剪后的大小；

目标模板分支裁剪后图像大小一般为127*127，而搜索分支裁剪后图像大小一般为255*255。裁剪时所使用的图像插值方法为双线性插值，对于一未知函数f，已知点Q11(x1，y1)、Q12(x1，y2)、Q21(x2，y1)、Q22(x2，y2)，获得其中点P(x，y)的值，该方法由下述公式给出

在y方向进行线性插值，可得下式

综合可得双线性插值最后的结果如下

步骤S1.2：将步骤S1.1裁剪得到的图像进行一系列以目标为中心、以目标周围随机点为中心进行进一步的缩放裁剪操作，其中随机裁剪在一定程度上模拟了目标的移动，这对训练网络是有帮助的；然后将处理好的目标模板分支图像和搜索分支图像两两组合，构成一个个样本对(z，x)，其中z是目标模板图像，x是搜索分支图像，作为训练孪生网络时使用的图像数据。

S2包括S2.1：其中如图2所示自注意力机制模块对图像进行增强处理时：

已知输入的图像特征为F∈R^c*H*W，则将输入的图像特征通过如图4所示通道注意力机制模块，可以得到该图像的通道权重为M_c∈R^C*1*1，将输入的图像特征通过如图5所示空间注意力机制模块，可以得到该图像的空间权重为M_s∈R^1*H*W，将通道权重和输入的图像特征进行矩阵相乘可得经过通道注意力机制模块增强的图像特征F′,将空间权重和输入的经过通道注意力机制模块增强的图像特征F′进行矩阵相乘可得经过空间注意力机制模块增强的图像特征F″，具体公式如下

具体地，通道权重由下式给出

其中，σ是sigmoid激活函数，

是用于进行通道变换的全连接或1*1卷积操作，并且在W₀和W₁运算以后，均要使用ReLU激活函数进行计算

具体地，空间权重由下式给出

其中，σ是sigmoid激活函数，f^7*7是7*7卷积操作

关于sigmoid激活函数和ReLU激活函数分别由下式给出

步骤S2.2所述如图3所示互注意力机制模块包括两个结构相同的第一通道注意力机制模块和第二通道注意力机制模块。

所述第一通道注意力机制模块用于获取当前分支图像的通道权重，所述第二通道注意力机制模块用于获取另一分支图像的通道权重。该互注意力机制模块对通过的图像进行增强处理时：

所述步骤S3的具体步骤如下：

构建用于特征提取的主干网络AlexNet，该网络具体包括5层卷积层，每层卷积层又包含其它操作，如池化层进行下采样，BN层数据的归一化处理，ReLU激活函数处理，具体如下：

Conv1卷积层：卷积核大小为11*11，卷积步长为2，该层输入通道数为3，输出通道数为96，卷积后依次通过一个数据归一化处理的BatchNorm层，该层输入通道数为96，再通过ReLU激活函数处理，最后通过一个最大池化层，该最大池化层对输入图像进行2倍下采样处理；

Conv2卷积层：卷积核大小为5*5，卷积步长为1，该层输入通道数为96，输出通道数为256，并且该层使用了group为2的分组卷积操作，卷积后依次通过一个数据归一化处理的BatchNorm层，该层输入通道数为256，再通过ReLU激活函数处理，最后通过一个最大池化层，该最大池化层对输入图像进行2倍下采样处理；

Conv3卷积层：卷积核大小为3*3，卷积步长为1，该层输入通道数为256，输出通道数为384，卷积后依次通过一个数据归一化处理的BatchNorm层，该层输入通道数为384，再通过ReLU激活函数处理；

Conv4卷积层：卷积核大小为3*3，卷积步长为1，该层输入通道数为384，输出通道数为384，并且该层使用了group为2的分组卷积操作，卷积后依次通过一个数据归一化处理的BatchNorm层，该层输入通道数为384，再通过ReLU激活函数处理；

Conv5卷积层：卷积核大小为3*3，卷积步长为1，该层输入通道数为384，输出通道数为256，并且该层使用了group为2的分组卷积操作；

以上为用于图像特征提取使用的主干网络AlexNet的具体结构，基于该结构，进行基于注意力机制的交叉融合孪生网络的构建，如图1所示该网络包括2个参数共享的AlexNet网络用于提取图像特征，其中一支用于提取模板分支的图像特征，一支用于提取搜索分支的图像特征，在上述第1层和第4层卷积层的输出端，引用步骤S2所述的自注意力机制模块，该自注意力机制模块包括通道注意力机制模块和空间注意力机制模块两部分，用于对第1层和第4层卷积层的输出图像特征进行特征增强处理；在第2层卷积层Conv2的输出端，接入一个输入256通道，输出512通道的1*1卷积，在第3层卷积层Conv3的输出端，接入一个输入384通道，输出512通道的1*1卷积，用于从特征提取的主干网络AlexNet中抽取出Conv2和Conv3的输出图像特征，将抽取出的Conv2和Conv3的输出图像特征通过步骤S2所述的互注意力机制模块，该互注意力机制模块包括第一通道注意力机制模块和第二通道注意力机制模块两部分。以Conv2为例，将模板分支的图像特征分别通过第一通道注意力机制模块和第二通道注意力机制模块，将两个分支输出结果进行矩阵相加运算后，通过一个输入通道数为512，输出通道数为512的卷积核大小为3*3，卷积步长为1，填充为1的卷积层，再通过ReLU激活函数得到Conv2卷积层抽取出的增强后的模板分支图像特征，同样可得Conv2卷积层抽取出的增强后的搜索分支图像特征，将模板分支的图像特征与搜索分支的图像特征进行互相关计算，即可得到一个17*17大小的得分响应图，该得分响应图f(z，x)计算公式为：

其中，

表示特征提取操作，⊙表示互相关计算，b表示偏置量；

同理，可以得到Conv3卷积层的得分响应图以及未通过互注意力机制模块的Conv5卷积层的得分响应图，将Conv2、Conv3、Conv5卷积层的得分响应图沿着通道的维度进行拼接处理，最后进行简单的线性融合可得融合后的得分响应图，该线性融合使用了输入通道数为3，输出通道数为1的1*1卷积进行处理。

具体地，所述步骤S4的实现如下：

通过步骤S1中提供的视频序列裁剪得到的样本对，训练步骤S3中构建的基于注意力机制的交叉融合孪生网络。训练时的epoch为50，即完整遍历50次数据集中的训练集提供的全部视频序列，由于视频序列无法一次性加载进内存中，故采用了小批量加载视频序列的方式训练孪生网络，采用的batchsize为8。通过步骤S1中提供的图像数据，传入基于注意力机制的交叉融合孪生网络中，获得预测的得分响应图，对于每张得分图的每个位置采用逻辑损失计算预测的目标位置和真实标签之间的损失值，进一步根据随机梯度下降算法对网络权重进行更新，最终获得训练好的基于注意力机制的交叉融合孪生网络。

具体地，真实标签由下式给出：

其中，k是特征提取网络下采样的倍数，c是得分响应图的中心，u是目标在图像上的坐标，R是距离阈值，如果目标在图像上的坐标与得分响应图的中心欧式距离小于阈值R，就将其定义为正样本，否则为负样本。

逻辑损失由下式给出：

l(y，g)＝log(1+e^-yg)

对于每张得分图的全部位置，取全部位置的得分平均损失为每张得分图的损失函数，如下式所示：

使用最小化逻辑损失函数进行优化操作,如下式所示：

其中，θ是网络训练参数，N是训练样本个数，Y_i∈{-1，+1}是训练视频和对应的搜索区域中被正确标注的响应图。Y_i＝-1表示负样本，Y_i＝+1则为正样本。

具体地，所述步骤S5的实现如下：

使用训练好的基于注意力机制的交叉融合孪生网络计算目标模板与视频序列各帧的得分图，记录得分图中得分最大的位置即为目标位置。首先传入视频序列的第一帧图像以及给出的第一帧目标位置信息，对第一帧图像进行裁剪处理成127*127大小的图像，同步骤S1中所述的裁剪操作一样，将此裁剪好的图像作为基于注意力机制的交叉融合孪生网络的模板分支；然后依次传入视频序列的后续帧，由于在跟踪过程中目标会有尺度上的变化，为了提高跟踪性能选取了3种尺度对搜索图像进行尺度变换操作，分别为1.0375^[-1，0，1],并对传入的后续帧进行裁剪处理成255*255大小的图像，作为基于注意力机制的交叉融合孪生网络的搜索分支，使用训练好的基于注意力机制的交叉融合孪生网络进行目标跟踪，计算目标模板与视频序列各帧的得分图，分别对得分响应图进行尺度惩罚以及汉宁窗惩罚操作，获得惩罚后的得分响应图。汉宁窗用于抑制边界响应值，该汉宁窗由下式给出

其中，

汉宁窗可以看作是3个矩形时间窗的频谱之和,括号中的两项相对于第一个谱窗向左、右各移动了π/T，使旁瓣互相抵消，消去高频干扰和漏能。

选取响应值最大的得分响应图作为最终得分响应图，找到响应图上的峰值点，该峰值点就是预测的目标所在位置，由此即可实现目标跟踪。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。