CN114820709B

CN114820709B - 基于改进UNet网络的单目标跟踪方法、装置、设备及介质

Info

Publication number: CN114820709B
Application number: CN202210480504.2A
Authority: CN
Inventors: 陈永霞; 邓奎; 韩颖; 杨聪
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2024-03-08
Anticipated expiration: 2042-05-05
Also published as: CN114820709A

Abstract

本发明提供一种基于改进UNet网络的单目标跟踪方法、装置、设备及介质，所述方法包括步骤1，选择原始训练集，根据待搜索图像中目标的目标位置，在原始训练集中裁剪出目标模板图像，并利用特征提取方法提取出目标模板图像中的目标得到目标主体图像，目标模板图像、目标主体图像和待搜索图像对构成训练数据集；步骤二，搭建改进UNet孪生网络；步骤3，使用训练数据集训所述改进UNet孪生网络，得到训练好的改进UNet孪生网络；步骤4，使用训练好的改进UNet孪生网络计算待搜索图像序列中的目标位置，实现目标跟踪。

Description

基于改进UNet网络的单目标跟踪方法、装置、设备及介质

技术领域

本发明涉及一种单目标跟踪方法，具体的说，涉及了一种基于改进UNet网络的单目标跟踪方法、装置、设备及介质。

背景技术

目标跟踪是计算机视觉研究领域的热点之一，并得到广泛应用。相机的跟踪对焦、无人机的自动目标跟踪等都需要用到了目标跟踪技术。另外还有特定物体的跟踪，比如人体跟踪，交通监控系统中的车辆跟踪，人脸跟踪和智能交互系统中的手势跟踪等。简单来说，目标跟踪就是在连续的视频序列中，建立所要跟踪物体的位置关系，得到物体完整的运动轨迹。给定图像第一帧的目标坐标位置，计算在下一帧图像中目标的确切位置。在运动的过程中，目标可能会呈现一些图像上的变化，比如姿态或形状的变化、尺度的变化、背景遮挡或光线亮度的变化等。目标跟踪算法的研究也围绕着解决这些变化和具体的应用展开。

通常目标跟踪面临由几大难点：外观变形，光照变化，快速运动和运动模糊，背景相似干扰，平面外旋转，平面内旋转，尺度变化，遮挡和出视野等情况。而且当目标跟踪算法投入实际应用时，不可避免的一个问题——实时性问题也是非常的重要。正是有了这些问题，才使得算法研究充满着难点和挑战。

为了解决以上存在的问题，人们一直在寻求一种理想的技术解决方案。

发明内容

本发明的目的是针对现有技术的不足，从而提供了一种基于改进UNet网络的单目标跟踪方法、装置、设备及介质。

为了实现上述目的，本发明所采用的技术方案是：一种基于改进UNet网络的单目标跟踪方法，包括以下步骤：

步骤1，选择原始训练集，根据待搜索图像中目标的目标位置，在原始训练集中裁剪出目标模板图像，并利用特征提取方法提取出目标模板图像中的目标得到目标主体图像，目标模板图像、目标主体图像和待搜索图像对构成训练数据集；

步骤2，搭建改进UNet孪生网络，所述改进UNet孪生网络包括编码器、中间处理器以及解码器，所述编码器包括目标主体图像特征提取网络、待搜索图像特征提取网络以及目标模板图像特征提取网络，所述目标主体图像特征提取网络、所述待搜索图像特征提取网络以及所述目标模板图像特征提取网络为三个权值共享的孪生主干特征提取网络，分别包括三个下采样单元和一个单元，用于得到四层特征图；

所述中间处理器包括得分计算单元以及裁剪单元，所述得分计算单元的输入端分别与待搜索图像特征提取网络以及目标模板图像特征提取网络连接，将目标模板图像的四层特征图与待搜索图像的四层特征图的对应层分别做互相关运算，得到得分图；

所述裁剪单元分别与所述得分计算单元、目标主体图像特征提取网络以及待搜索图像特征提取网络连接，基于得分图分别对目标主体图像的最底层特征图和待搜索图像的高三层特征图进行裁剪；

所述解码器包括三个上采样单元，三个上采样单元分别与待搜索图像的高三层特征图跳跃连接，最底层上采样单元的输入为裁剪后的目标主体图像的最底层特征图，最高层上采样单元的输出为目标在待搜索图像内的目标位置；

步骤3，使用训练数据集训所述改进UNet孪生网络，得到训练好的改进UNet孪生网络；

步骤4，使用训练好的改进UNet孪生网络计算待搜索图像序列中的目标位置，实现目标跟踪。

本发明第二方面提供一种基于改进UNet网络的单目标跟踪装置，包括：

数据集预处理模块，用于根据待搜索图像中目标的目标位置，在原始训练集中裁剪出目标模板图像，并利用特征提取方法提取出目标模板图像中的目标得到目标主体图像，目标模板图像、目标主体图像和待搜索图像对构成训练数据集；

改进UNet孪生网络构建模块，用于引入孪生网络和UNet网络，形成改进UNet孪生网络，所述改进UNet孪生网络包括编码器、中间处理器以及解码器，所述编码器包括目标主体图像特征提取网络、待搜索图像特征提取网络以及目标模板图像特征提取网络，所述目标主体图像特征提取网络、所述待搜索图像特征提取网络以及所述目标模板图像特征提取网络为三个权值共享的孪生主干特征提取网络，分别包括三个下采样单元和一个单元，用于得到四层特征图；

训练模块，用于使用训练数据集训所述改进UNet孪生网络，得到训练好的改进UNet孪生网络；

目标跟踪模块，用于将待搜索图像序列输入训练好的改进UNet孪生网络中，计算待搜索图像序列中的目标位置，实现目标跟踪。

本发明第三方面提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行前述单目标跟踪方法。

本发明第四方面一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行前述单目标跟踪方法。

本发明相对现有技术具有突出的实质性特点和显著的进步，具体的说，本发明更改UNet网络的结构，将UNet的编码器改为三个权值共享的孪生主干特征提取网络，并将每个主干特征提取网络的结构更改为三个下采样单元和1个单元；对应的，将UNet解码器更改为三个上采样单元，三个上采样单元分别与待搜索图像的高三层特征图跳跃连接，最底层上采样单元的输入为裁剪后的目标主体图像的最底层特征图，最高层上采样单元的输出为目标在待搜索图像内的目标位置；将待搜索原图、目标模板图、目标主体图分别输入神孪生主干特征提取网络后，对待搜索原图和目标模板图的对应层特征图计算互相关性得到得分图，基于得分图对待搜索原图的高三层特征图和目标模板图的最底层特征图进行裁剪，可以提高可以有效的提高鲁棒性。随着物体的运动，动态的修改调整目标模板，从而达到更高的跟踪准确度和实时性。

附图说明

图1是本发明的结构示意图。

图2是本发明实施例1中改进UNet孪生网络的结构示意图。

图3是本发明实施例1中步骤4的流程示意图。

图4是本发明实施例2的流程示意图。

图5是本发明实施例2中得分图校正流程示意图。

图6是本发明实施例3的流程示意图。

具体实施方式

下面通过具体实施方式，对本发明的技术方案做进一步的详细描述。

实施例1

如图1所示，本实施例提供一种基于改进UNet网络的单目标跟踪方法，包括以下步骤：

步骤1，选择原始训练集，根据待搜索图像中目标的目标位置，在原始训练集中裁剪出目标模板图像，并利用特征提取方法提取出目标模板图像中的目标得到目标主体图像，目标模板图像、目标主体图像和待搜索图像对构成训练数据集。

步骤2，搭建改进UNet孪生网络，如图2所示，所述改进UNet孪生网络包括编码器、中间处理器以及解码器，所述编码器包括目标主体图像特征提取网络、待搜索图像特征提取网络以及目标模板图像特征提取网络，所述目标主体图像特征提取网络、所述待搜索图像特征提取网络以及所述目标模板图像特征提取网络为三个权值共享的孪生主干特征提取网络，分别包括三个下采样单元和一个单元，用于得到四层特征图；具体的，所述卷积单元包括2个3x3的卷积层；第一个下采样单元包括一个2x2的最大池化层maxpooling和2个3x3的卷积层，第二个下采样单元包括一个2x2的最大池化层maxpooling和3个3x3的卷积层，第三个下采样单元包括一个2x2的最大池化层maxpooling和4个3x3的卷积层；

具体的，383*383的待搜索图像输入待搜索图像特征提取网络，通过Conv1 、Conv2得到383*383的第一层特征图SFM1，接着通过maxPool1、Conv3、Conv4层得到191*191的第二层特征图SFM2，再接着通过maxPool2、Conv5、Conv6、Conv7层得到95*95的第三层特征图SFM3，最后通过maxPool3、Conv8、Conv9、Conv10、Conv11得到47*47的第四层特征图SFM4。

127*127的目标模板图像输入目标模板图像特征提取网络，通过Conv1 、Conv2得到127*127的第一层特征图GFM1，接着通过maxPool1、Conv3、Conv4层得到63*63的第二层特征图GFM2，再接着通过maxPool2、Conv5、Conv6、Conv7层得到31*31的第三层特征图GFM3，最后通过maxPool3、Conv8、Conv9、Conv10、Conv11得到15*15的第四层特征图GFM4。

127*127的目标主体图像输入目标主体图像提取网络，通过Conv1 、Conv2得到127*127的第一层特征图PFM1，接着通过maxPool1、Conv3、Conv4层得到63*63的第二层特征图PFM2，再接着通过maxPool2、Conv5、Conv6、Conv7层得到31*31的第三层特征图PFM3，最后通过maxPool3、Conv8、Conv9、Conv10、Conv11得到15*15的第四层特征图PFM4。

具体的，互相关计算定义如下：

SMi＝GFMi*SFMi

式中*代表互相关操作，i=（1，2，3，4）。

SM1、SM2、SM3、SM4共同构成得分图。

所述裁剪单元分别与所述得分计算单元、目标主体图像特征提取网络以及待搜索图像特征提取网络连接，基于得分图分别对目标主体图像的最底层特征图和待搜索图像的高三层特征图进行裁剪。

具体的，目标主体图像的最底层特征图PFM4经过孪生网络卷积后再基于于得分图进行裁剪；待搜索图像的第三层特征图SFM3经过中心裁剪后，再基于得分图进行裁剪；待搜索图像的第二层特征图SFM2经过中心裁剪后，再基于得分图进行裁剪；待搜索图像的第一层特征图SFM1经过中心裁剪后，再基于得分图进行裁剪。

所述解码器包括三个上采样单元，具体的，上采样单元的个数为3个，每个上采样单元包括一个上采样卷积层、特征拼接单元、一个1*1的卷积层和两个3*3的卷积层和两个3*3的卷积层（ReLU），最上层上采样单元还包括一个1*1的卷积输出层。

三个上采样单元分别与待搜索图像的高三层特征图跳跃连接，最底层上采样单元的输入为裁剪后的目标主体图像的最底层特征图，最高层上采样单元的输出为目标在待搜索图像内的目标位置。

例如目标主体图像的最底层特征图即第四层特征图PFM4 的尺寸为15*15，待搜索图像的第三层特征图的尺寸是31*31，待搜索图像的第二层特征图的尺寸是63*63，待搜索图像的第四层特征图的尺寸是127*127。

目标主体图像的15*15第四层特征图经过上采样或者反卷积，得到31*31的特征图，这个31*31的特征图与待搜索图像的31*31第三层特征图进行通道上的拼接concat，然后再对拼接之后的特征图做卷积和上采样，得到63*63的特征图，再与待搜索图像的63*63第二层特征图进行通道上的拼接concat，然后再对拼接之后的特征图做卷积和上采样，得到127*127的特征图，再与待搜索图像的127*127第一层特征图进行通道上的拼接concat，最后对拼接之后的特征图做卷积，得到一个与目标主体图像尺寸相同的127x127的预测结果。

步骤3，使用训练数据集训所述改进UNet孪生网络，得到训练好的改进UNet孪生网络。

在具体实现时，如图3所示，步骤4的具体步骤如下：

步骤4.1，在待搜索图像序列中，根据第t-1帧待搜索图像的目标位置，剪裁出目标模板图像，利用特征提取方法提取出目标模板图像中的目标，得到目标主体图像，t＝2；

步骤4.2，将第t-1帧待搜索图像的目标模板图像输入到训练好的改进UNet孪生网络的目标模板图像特征提取网络中，获得第t-1帧待搜索图像的目标模板图像的四层特征图；将第t-1帧待搜索图像的目标主体图像输入到训练好的改进UNet孪生网络的目标主体图像特征提取网络中，得到第t-1帧待搜索图像的四层目标主体图像特征图；将第t帧待搜索图像输入到训练好的改进UNet孪生网络的待搜索图像特征提取网络中，获得第t帧待搜索图像的四层特征图；

步骤4.3，分别计算第t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值，得到得分图；

步骤4.4，基于得分图分别对第t-1帧待搜索图像的目标主体图像的最底层特征图和第t帧待搜索图像的高三层特征图进行裁剪；

步骤4.5，将第t-1帧待搜索图像的目标主体图像的最底层特征图和第t帧待搜索图像的高三层特征图送入训练好的解码器中，得到目标在第t帧待搜索图像中的目标位置；

步骤4.6，令t＝t+1，重复执行步骤4.1-步骤4.6，直至待搜索图像序列目标跟踪结束，即t＝N，其中，N为待搜索图像序列的总帧数。

本实施例通过更改UNet网络的结构，将UNet的编码器改为三个权值共享的孪生主干特征提取网络，并将每个主干特征提取网络的结构更改为三个下采样单元和1个单元；对应的，将UNet解码器更改为三个上采样单元，三个上采样单元分别与待搜索图像的高三层特征图跳跃连接，最底层上采样单元的输入为裁剪后的目标主体图像的最底层特征图，最高层上采样单元的输出为目标在待搜索图像内的目标位置；将待搜索原图、目标模板图、目标主体图分别输入神孪生主干特征提取网络后，对待搜索原图和目标模板图的对应层特征图计算互相关性得到得分图，基于得分图对待搜索原图的高三层特征图和目标模板图的最底层特征图进行裁剪，可以有效的提高鲁棒性。且随着物体的运动，目标模板被动态的修改调整，从而达到更高的跟踪准确度合实时性。

可以理解，本算法采用滑动窗口计算方式在待搜索图像特征图中划分搜索框，通过计算搜索框与目标模板图像特征图的互相关值来找寻得分图；计算得分图过程中，为了减少计算量，采用去边缘化的处理方式将搜索区域设置为目标模板面积的4倍，其他区域直接舍弃，从而提高匹配效率。

实施例2

如图4-5所示，步骤4.5获得目标在第t帧图像中的目标位置后，计算EAO评价指标，当EAO评价指标高于预设指标值时，直接执行步骤4.6；当EAO评价指标低于预设指标值时，分别计算前t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值，选取每层数值最大的作为目标在第t帧待搜索图像内的对应层得分图，形成得分图，并返回依次执行步骤4.4-4.6。

上述步骤在跟踪效果不佳情况下，动态调整目标模板图像，使得跟踪效果更好。

实施例3

本实施例与实施例2的区别在于：如图6所示，步骤4.3还可以为：前t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值，选取每层数值最大的作为目标在第t帧待搜索图像内的对应层得分图，形成得分图。

上述步骤，直接计算前t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值，得到目标在第t帧待搜索图像内的得分图，从而可以确保每帧待搜索图像的跟踪效果均是最佳的。

实施例4

本实施例提供一种基于改进UNet网络的单目标跟踪装置，包括：

改进UNet孪生网络构建模块，用于引入孪生网络和UNet网络，形成改进UNet孪生网络，所述改进UNet孪生网络包括编码器、中间处理器以及解码器，所述编码器包括目标主体图像特征提取网络、待搜索图像特征提取网络以及目标模板图像特征提取网络，所述目标主体图像特征提取网络、所述待搜索图像特征提取网络以及所述目标模板图像特征提取网络为三个权值共享的孪生主干特征提取网络，分别包括三个下采样单元和一个卷积单元，用于得到四层特征图；所述卷积单元包括2个3x3的卷积层；第一个下采样单元包括一个2x2的最大池化层和2个3x3的卷积层，第二个下采样单元包括一个2x2的最大池化层和3个3x3的卷积层，第三个下采样单元包括一个2x2最大池化层和4个3x3的卷积层；

所述解码器包括三个上采样单元，每个上采样单元均包括一个上采样卷积层、特征拼接单元、一个1*1的卷积层和两个3*3的卷积层，最上层上采样单元还包括一个1*1的卷积输出层；三个上采样单元的特征拼接单元分别与待搜索图像的高三层特征图跳跃连接，最底层上采样单元的输入为裁剪后的目标主体图像的最底层特征图，最高层上采样单元的输出为目标在待搜索图像内的目标位置；

其中，在具体实施时，所述目标跟踪模块的跟踪流程包括：

实施例5

本实施例提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行实施例1-3任一项所述的单目标跟踪方法。

实施例6

本实施例提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行实施例1-3任一项所述的单目标跟踪方法。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种基于改进UNet网络的单目标跟踪方法，其特征在于,包括以下步骤：

步骤2，搭建改进UNet孪生网络，所述改进UNet孪生网络包括编码器、中间处理器以及解码器，所述编码器包括目标主体图像特征提取网络、待搜索图像特征提取网络以及目标模板图像特征提取网络，所述目标主体图像特征提取网络、所述待搜索图像特征提取网络以及所述目标模板图像特征提取网络为三个权值共享的孪生主干特征提取网络，分别包括一个卷积单元和三个下采样单元，用于得到四层特征图；

2.根据权利要求1所述的基于改进UNet网络的单目标跟踪方法，其特征在于，步骤4的具体步骤如下：

3.根据权利要求2所述的基于改进UNet网络的单目标跟踪方法，其特征在于，步骤4.5获得目标在第t帧图像中的目标位置后，计算EAO评价指标，当EAO评价指标高于预设指标值时，直接执行步骤4.6；当EAO评价指标低于预设指标值时，分别计算前t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值，选取每层数值最大的作为目标在第t帧待搜索图像内的对应层得分图，形成得分图，并返回依次执行步骤4.4-4.6。

4.根据权利要求2所述的基于改进UNet网络的单目标跟踪方法，其特征在于，步骤4.3分别计算前t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值，选取每层数值最大的作为目标在第t帧待搜索图像内的对应层得分图，形成得分图。

5.根据权利要求1所述的基于改进UNet网络的单目标跟踪方法，其特征在于：所述卷积单元包括2个3x3的卷积层；第一个下采样单元包括一个2x2的最大池化层和2个3x3的卷积层，第二个下采样单元包括一个2x2的最大池化层和3个3x3的卷积层，第三个下采样单元包括一个2x2的最大池化层和4个3x3的卷积层；

每个上采样单元均包括一个上采样卷积层、特征拼接单元、一个1*1的卷积层和两个3*3的卷积层，最上层上采样单元还包括一个1*1的卷积输出层。

6.一种基于改进UNet网络的单目标跟踪装置，其特征在于,包括：

改进UNet孪生网络构建模块，用于引入孪生网络和UNet网络，形成改进UNet孪生网络，改进UNet孪生网络包括编码器、中间处理器以及解码器，所述编码器包括目标主体图像特征提取网络、待搜索图像特征提取网络以及目标模板图像特征提取网络，所述目标主体图像特征提取网络、所述待搜索图像特征提取网络以及所述目标模板图像特征提取网络为三个权值共享的孪生主干特征提取网络，分别包括三个下采样单元和一个卷积单元，用于得到四层特征图；

7.根据权利要求6所述的基于改进UNet网络的单目标跟踪装置，其特征在于，所述目标跟踪模块的跟踪流程包括：

8.根据权利要求6所述的基于改进UNet网络的单目标跟踪装置，其特征在于：所述卷积单元包括2个3x3的卷积层；第一个下采样单元包括一个2x2的最大池化层和2个3x3的卷积层，第二个下采样单元包括一个2x2的最大池化层和3个3x3的卷积层，第三个下采样单元包括一个2x2的最大池化层和4个3x3的卷积层；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1-5任一项所述的单目标跟踪方法。

10.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1-5任一项所述的单目标跟踪方法。