CN112884799A

CN112884799A - 一种基于孪生神经网络的复杂场景下目标跟踪方法

Info

Publication number: CN112884799A
Application number: CN202110145843.0A
Authority: CN
Inventors: 董乐; 张宁; 江宗其
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-06-01

Abstract

本发明涉及计算机仿真领域，具体是一种基于孪生神经网络的复杂场景下目标跟踪方法，包括如下步骤：步骤一、使用孪生神经网络提取模板帧和检测帧的特征信息；步骤二、将特征信息输入到RPN区域候选网络得到分类值和回归值；步骤三、挑选出根据分类值和回归值得分排名17×17×5个区域候选框,剔除多余的区域候选框，形成候选区域；步骤四、把候选区域中响应值最高的k个候选区域剔除出来，把剩余的候选区域作为干扰子和扰动感知模块方程进行运算，重新对候选区域的响应值进行计算，得到响应值最高的候选区域即为当前帧被追踪目标；解决复杂场景中目标长时跟踪的问题，特别是被跟踪物体出现旋转、被遮挡、突然消失等情况。

Description

一种基于孪生神经网络的复杂场景下目标跟踪方法

技术领域

本发明涉及识别与信息处理领域，具体是指一种基于孪生神经网络的复杂场景下目标跟踪方法。

背景技术

基于视觉的目标跟踪一直以来都是计算机视觉领域一个重要而富有挑战性的研究热点，它涉及到模式识别、图像处理、人工智能、计算机应用等诸多方面的知识，随着高性能计算机和高质量且廉价的摄像终端的增多，以及自动视频分析需求量的增大，视觉目标跟踪算法引起人们越来越多的关注，并且在军事和民用的许多领域(如：智能监控系统、智能交通系统、精确制导系统、无人机目标跟踪)等都具有极为广泛的应用前景，在过去的几十年中很多优秀的视觉目标跟踪算法及有效的新理论被相继提出，然而，由于通常的视频序列中存在着内因(如：尺度变化，姿势变化和形状变化等)和外因(如：部分或全部遮挡，光照变化，运动模糊和背景杂乱)等因素的干扰，要想设计一个具有普适性的实时的、鲁棒的、精准稳定的视觉目标跟踪系统来满足实际需求，仍然面临着很大的挑战。

近年来，随着深度学习的引入，目标跟踪领域取得了很大进展，传统的判别式方法和CNN特征的结合，大幅提高了跟踪的精度，但仅仅使用从计算机视觉其他领域预训练的神经网络提取的特征，难以充分利用神经网络端到端的强大的学习能力，MDNet、ADNet等使用端到端的方法来训练跟踪网络，并结合在线微调达到了很好的跟踪效果，但同时神经网络带来了计算量的大幅增加，导致跟踪速度的减慢，难以达到实时性的要求，孪生神经网络是一类由两个或多个具有相同参数和权重的子网络组成的神经网络架构，孪生神经网络在涉及样本之间的相似性度量或两个可比较的事物之间的关系的任务中经常被使用，使用孪生神经网络的目标跟踪算法由于不进行网络的在线更新，在实时性方面有很大的优势，目前比较常用于目标跟踪的孪生神经网络有Siam-FC和Siam-RPN本发明正是基于Siam-RPN进行改良的。

同时，也正是由于一般的基于孪生神经网络的目标跟踪算法完全不会进行在线更新，所以在复杂场景下的需要长时间跟踪目标时，非常容易造成目标丢失的问题，因此，针对一般基于的孪生神经网络的目标跟踪系统无法处理复杂场景下的长时目标跟踪问题，本发明在Siam-RPN网络结构的基础上加入了一个扰动感知模块使得目标跟踪系统会在跟踪的过程中采用增量学习的方式来选择被跟踪目标，这让跟踪器能够更好的辨别出背景中的干扰物和被跟踪物体，除此之外，本发明还采用了从局部到全局的搜索策略(以下简称LTG搜索策略)，让跟踪器在被跟踪目标丢失时，能够通过扩大目标搜索区域来找回目标，通过以上两种方式，兼顾了跟踪器的实时跟踪和长时跟踪的两大功能。

发明内容

基于以上问题，本发明提供了一种基于孪生神经网络的复杂场景下目标跟踪方法，解决复杂场景中目标长时跟踪的问题，特别是被跟踪物体出现旋转、被遮挡、突然消失等情况。

为解决以上技术问题，本发明采用的技术方案如下：

一种基于孪生神经网络的复杂场景下目标跟踪方法，包括如下步骤：

步骤一、使用孪生神经网络提取模板帧和检测帧的特征信息分别为

和

步骤二、将特征信息输入到RPN区域候选网络得到分类值A_cls和回归值A_reg；

步骤三、挑选出根据分类值A_cls和回归值A_reg得分排名17×17×5个区域候选框P,剔除多余的区域候选框，形成候选区域P_l；

步骤四、把候选区域P_l中响应值最高的k个候选区域P_k剔除出来，把剩余的候选区域作为干扰子和扰动感知模块方程进行运算，重新对候选区域P_l的响应值进行计算，得到响应值最高的候选区域q即为当前帧被追踪目标。

进一步，所述特征信息的提取采用CNN全卷积网络运算。

进一步，所述RPN区域候选网络分为分类分支和回归分支。

进一步，所述分类分支中，RPN区域候选网络将特征信息用一个新的卷积核进行卷积，在缩小特征图的同时，产生4×4×(2k×256)的第一模板帧特征

和20×20×256的第一检测帧特征

以第一模板帧特征

作为卷积核跟第一检测帧特征

进行卷积，得到k个正负分值输出分类值A_cls。

进一步，所述回归分支中，RPN区域候选网络将特征信息用一个新的卷积核进行卷积，在缩小特征图的同时，产生4×4×(2k×256)的第二模板帧特征

和20×20×256的第二检测帧特征

以第二模板帧特征

作为卷积核跟第二检测帧特征

进行卷积，得到回归值A_reg，其中，每个A_reg包含dx,dy,dw,dh四个值。

进一步，采用NMS非极大值抑制的方式剔除多余的区域候选框。

进一步，将第一帧图像目标作为模板图像，将后续各帧图像作为搜索图像，候选区域P_l的数量为0，则说明跟踪目标丢失，根据LTG搜索策略，扩大搜索图像的大小，在下一帧中重新进行搜索。

进一步，所述重新计算得到的响应值最高的候选区域q的计算公式为：

其中，f代表卷积运算，α是控制干扰子整体的权重参数，β_i是单独控制每个干扰子的权重参数。

其中，*代表卷积运算，α是控制干扰子整体的权重参数，β_i是单独控制每个干扰子的权重参数。

与现有技术相比，本发明的有益效果是：

1.从目标跟踪系统的易于实现的角度出发，通过使用Siam-RPN网络作为跟踪的主体架构，实现了目标跟踪系统端到端和One-Shot学习的效果，大大减少了传统目标跟踪方法需要进行的各种手工提取特征的步骤，提高了系统实现的简易度，降低了人工的使用。

2.从信息处理技术的角度出发，通过扰动感知模块利用到每一帧图像中干扰物的信息，丰富了每个特征向量所包含的信息，使用很小的计算开销就提高了跟踪算法的精确度。

3.从用户体验的要求出发，通过一般的基于孪生神经网络的目标跟踪方法的改进，实现了对复杂场景下的运动目标进行更精确更长时间的跟踪，提升了用户的体验。

附图说明

图1为本实施例1的流程图；

图2为本实施例1的框架图。

具体实施方式

下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。

实施例1

如图1-图2所示的一种基于孪生神经网络的复杂场景下目标跟踪方法，包括如下步骤：

和

其中，第一帧图像目标作为模板图像，将后续各帧图像作为搜索图像，通过一个学习好的相似性对比函数f(Z，X)在上找到和模板图像较为相像的一些区域作为特征信息，另外，特征信息的提取采用CNN全卷积网络运算，将孪生神经网络作为一种变换

将这种变换分别应用到模板帧和检测帧上，产生模板帧和检测帧的特征信息分别为

和

其中，RPN区域候选网络分为分类分支和回归分支；

另外，分类分支用于区分目标和背景，他将给出每个样本被预测为目标和背景的打分，RPN区域候选网络将提取到的特征信息

和

用一个新的卷积核进行卷积，在缩小特征图的同时，产生4×4×(2k×256)的第一模板帧特征

和20×20×256的第一检测帧特征

以第一模板帧特征

作为卷积核跟第一检测帧特征

进行卷积，得到k个正负分值输出分类值A_cls，公式为：

另外，回归分支用于输出候选区域的具体坐标信息，RPN区域候选网络将提取到的特征信息

和

用一个新的卷积核进行卷积，在缩小特征图的同时，产生4×4×(2k×256)的第二模板帧特征

和20×20×256的第二检测帧特征

以第二模板帧特征

作为卷积核跟第二检测帧特征

进行卷积，得到回归值A_reg，其中，每个A_reg包含dx,dy,dw,dh四个值，公式为：

其中，采用NMS非极大值抑制的方式剔除多余的区域候选框，候选区域P_l的数量为0，则说明跟踪目标丢失，根据LTG搜索策略，扩大搜索图像的大小，在下一帧中重新进行搜索。

步骤四、把候选区域P_l中响应值最高的k个候选区域P_k剔除出来，把剩余的候选区域作为干扰子和扰动感知模块方程进行运算，重新对候选区域P_l的响应值进行计算，得到响应值最高的候选区域q即为当前帧被追踪目标；

其中，重新计算得到的响应值最高的候选区域q的计算公式为：

其中，f代表卷积运算，α是控制干扰子整体的权重参数，β_i是单独控制每个干扰子的权重参数，经过这样根据干扰子进行的学习优化以后，跟踪器可以有效的学习跟踪目标并抑制干扰子的干扰能力。

实施例2

本实施例中，重新计算得到的响应值最高的候选区域q的计算公式为：

其中，*代表卷积运算，α是控制干扰子整体的权重参数，β_i是单独控制每个干扰子的权重参数，这样即使加上了扰动感知模块，追踪器的整体运算速度和未加上扰动感知模块之前的运算速度是相差无几的，可以保证跟踪器在高速场景下表现依然良好，优化了运算速度。

如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于孪生神经网络的复杂场景下目标跟踪方法，其特征在于，包括如下步骤：

和

2.根据权利要求1所述的一种基于孪生神经网络的复杂场景下目标跟踪方法，其特征在于：所述特征信息的提取采用CNN全卷积网络运算。

3.根据权利要求1所述的一种基于孪生神经网络的复杂场景下目标跟踪方法，其特征在于：所述RPN区域候选网络分为分类分支和回归分支。

4.根据权利要求3所述的一种基于孪生神经网络的复杂场景下目标跟踪方法，其特征在于：所述分类分支中，RPN区域候选网络将特征信息用一个新的卷积核进行卷积，在缩小特征图的同时，产生4×4×(2k×256)的第一模板帧特征

和20×20×256的第一检测帧特征

以第一模板帧特征

作为卷积核跟第一检测帧特征

进行卷积，得到k个正负分值输出分类值A_cls。

5.根据权利要求3所述的一种基于孪生神经网络的复杂场景下目标跟踪方法，其特征在于：所述回归分支中，RPN区域候选网络将特征信息用一个新的卷积核进行卷积，在缩小特征图的同时，产生4×4×(2k×256)的第二模板帧特征

和20×20×256的第二检测帧特征

以第二模板帧特征

作为卷积核跟第二检测帧特征

6.根据权利要求1所述的一种基于孪生神经网络的复杂场景下目标跟踪方法，其特征在于：采用NMS非极大值抑制的方式剔除多余的区域候选框。

7.根据权利要求1所述的一种基于孪生神经网络的复杂场景下目标跟踪方法，其特征在于：将第一帧图像目标作为模板图像，将后续各帧图像作为搜索图像，候选区域P_l的数量为0，则说明跟踪目标丢失，根据LTG搜索策略，扩大搜索图像的大小，在下一帧中重新进行搜索。

8.根据权利要求1所述的一种基于孪生神经网络的复杂场景下目标跟踪方法，其特征在于：所述重新计算得到的响应值最高的候选区域q的计算公式为：

9.根据权利要求1所述的一种基于孪生神经网络的复杂场景下目标跟踪方法，其特征在于：所述重新计算得到的响应值最高的候选区域q的计算公式为：