CN112116626A

CN112116626A - 一种基于柔性卷积的单目标跟踪方法

Info

Publication number: CN112116626A
Application number: CN202010773674.0A
Authority: CN
Inventors: 王涛; 李浥东; 李孟华; 郎丛妍; 冯松鹤
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-12-22
Anticipated expiration: 2040-08-04
Also published as: CN112116626B

Abstract

本发明实施例提供了一种基于柔性卷积的单目标跟踪方法，构建柔性卷积网络模型，所述柔性卷积网络模型包括共享层和特定域层，利用数据集对所述柔性卷积网络模型进行训练，所述方法包括：S1、获取原始视频序列，进行预处理；S2、将预处理后的视频序列输入柔性卷积网络模型，所述共享层通过卷积操作获取目标的共享特征，将共享特征输入特定域层进行目标与背景的二分类，然后再进行柔性RoI池化选择候选目标区域，并利用损失函数提高候选目标区域的精度，从而实现单目标跟踪。本发明实施例利用了基于柔性卷积的单目标跟踪方法，有效的改善了单目标跟踪中物体容易发生形变的问题，同时RoI池化提高候选目标区域的精度。

Description

一种基于柔性卷积的单目标跟踪方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于柔性卷积的单目标跟踪方法。

背景技术

单目标跟踪技术是指在初始状态，给定任意待跟踪目标，在视频序列中识别和定位给定目标的技术。单目标跟踪技术一直是计算机视觉领域的研究热点，其能广泛应用在视频监控，无人驾驶和人机交互等多个领域。

由于物体在运动过程中容易发生形变(比如：尺度变化，旋转、姿态变化等)，现有技术采用的单目标跟踪方法很难解决这一问题使得跟踪效果不佳。如：传统深度学习使用的是传统的卷积方式进行特征提取，传统卷积是规则的固定几何大小的，如3*3大小，5*5大小等，其采样出来的区域也是固定几何大小的区域，基于传统的单目标跟踪算法使用传统卷积操作进行特征提取，然后通过相应的跟踪模型进行目标跟踪，如MDNet单目标跟踪算法使用的就是传统的卷积方法实现跟踪的。传统的卷积神经网络对不同的特征图都采用相同的卷积操作，采样的像素点位置固定，使得采样出来的信息包括很多背景特征，不能自适应物体的特征。

发明内容

本发明的实施例提供了一种基于柔性卷积的单目标跟踪方法，以克服现有技术的缺陷。

为了实现上述目的，本发明采取了如下技术方案。

一种基于柔性卷积的单目标跟踪方法，构建柔性卷积网络模型，所述柔性卷积网络模型包括共享层和特定域层，利用数据集对所述柔性卷积网络模型进行训练，所述方法包括：

S1、获取原始视频序列，进行预处理；

S2、将预处理后的视频序列输入柔性卷积网络模型，所述共享层通过卷积操作获取目标的共享特征，将共享特征输入特定域层进行目标与背景的二分类，然后再进行柔性RoI池化选择候选目标区域，并利用损失函数提高候选目标区域的精度，从而实现单目标跟踪。

优选地，所述柔性卷积网络模型包括共享层和域特定层，其中，所述共享层包括3个卷积层conv1-3和2个全连接层fc4-5，每个全连接层有512个输出单元，每两个相邻卷积层之间和两个全连接层之间分别有relu和pooling层；

所述特定域层为柔性卷积网络模型中全连接层fc6¹-fc6^K，所述全连接层fc6¹-fc6^K对应有K个域，每个域都包含一个具有softmax交叉熵函数的二值分类层，负责区分每个域中的目标和背景。

优选地，所述softmax交叉熵函数公式如下：

其中，i₁为输入，j₁为输入的个数，e取2.7。

优选地，所述共享层通过卷积操作获取目标的共享特征，包括：

采用柔性卷积操作，在输入特征映射x上使用规则网格R进行采样，增加位置偏移ΔP_n({ΔP_n＝|1,...,N},N＝|R|)，对每一个位置P₀在规则网格R中的所有位的特征点与卷积核对应的位进行加权求和，得到新特征图上对应的P₀点，由于在原来规则网格R偏移量的基础上又加入了一个在x轴和y轴上的二维偏移值ΔP_n，该偏移值ΔP_n是一个浮点值，通过计算周围4个真实值的双线性插值得到；

柔性卷积操作后得到一个长宽与原特征图相同，通道数为2N的新特征图，新特征图上的每一个特征点P₀有2N个值，2即对应的x轴、y轴的偏移量，N即对应的N个ΔP_n的值。

优选地，所述进行柔性RoI池化选择候选目标区域包括：

柔性RoI池化层对w×h的RoI分割成一个k×k的bin，并输出一个k×k的特征图y，对于第(i₀,j₀)个存储单元，0≤i₀,j₀＜k，i₀为候选目标区域中的第i₀行，j₀为候选目标区域的第j₀列，

其中，x为输入，P为规则网络中的每一个位置，

是bin中的像素数，进行柔性RoI池化后输出为

其中，

为偏移量且

优选地，所述S2中的损失函数为：

其中，

表示第i个区域预测为正例的概率，y_i表示第i个区域的真实标签，网络的输出是正负样本的概率得分，其中设置一个阈值，若大于这个阈值就是正样本，反之，就是负样本。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例提供了一种基于柔性卷积的单目标跟踪方法，通过柔性卷积和柔性RoI池化，使提取到的特征和候选目标区域更加精确，效果更好，有效的改善目标跟踪过程中跟踪物体易发生形变的问题，弥补了现有技术中的不足。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于柔性卷积的单目标跟踪方法框架结构示意图；

图2为本发明实施例提供的柔性卷积网络模型训练流程示意图；

图3为本发明实施例提供的柔性卷积网络模型的测试流程示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提供了一种基于柔性卷积的单目标跟踪方法，如图1-3所示，具体包括以下步骤：

S1、获取原始视频序列，进行预处理，将图片裁剪为107*107大小。

S2、将预处理后的视频序列输入柔性卷积网络模型，共享层通过卷积操作获取目标的共享特征，将共享特征输入特定域层进行目标与背景的二分类，然后再进行柔性RoI池化选择候选目标区域，并利用损失函数提高候选目标区域的精度，从而实现单目标跟踪。

首先，构建柔性卷积网络模型，包括共享层和特定域层，具体如下：

基于MDNet(Multi-Domain Convolutional Neural Networks)单目标跟踪网络，将其传统卷积方法修改为柔性卷积，该柔性卷积网络模型的共享层包括五个隐含层，分别为3个卷积层(conv1-3)和2个全连接层(fc4-5)，每个全连接层有512个输出单元，每两个相邻卷积层之间和两个全连接层之间分别有relu和pooling层。

特定域层用于学习特定域上的信息，为柔性卷积网络模型中与K个域对应的最后全连接层(fc6¹-fc6^K)，K个域中每个域都包含一个具有softmax交叉熵函数的二值分类层，负责区分每个域中的目标和背景，从而更加精准的学习目标特征。其中，softmax交叉商函数见如下公式：

式中，i₁为输入，j₁为输入的个数，e取2.7。

特征提取采用柔性卷积操作，在输入特征映射x上使用规则网格R进行采样，对3×3大小的网格R＝{(-1,-1),(-1,0),....(0,-1),(1,1)}来说传统的卷积操作为

其中，P_n是卷积核的一个位置，ω为卷积核，对每一个位置P₀进行位置偏移后

其中，{ΔP_n＝|1,...,N},N＝|R|，即对每一个位置P₀，对其在规则网格R中的所有位的特征点与卷积核对应的位进行加权求和，得到新特征图上对应的P₀点。由于在原来规则网格R偏移量的基础上又加入了一个二维偏移ΔP_n(x轴和y轴上的偏移)，该偏移值是一个浮点值，需要通过计算周围4个真实值的双线性插值得到，即

其中，g(a,b)＝max(0,1-|a-b|)。柔性卷积操作后得到一个长宽与原特征图相同，通道数为2N的新特征图，新特征图上的每一个特征点P₀有2N个值，2即对应的x轴、y轴的偏移量，N即对应的N个ΔP_n的值。

进行柔性卷积操作之后，把提取的特征放入全连接层，进行背景与目标的二分类，最后进行RoI池化选择候选目标区域，完成目标跟踪。

进行RoI池化选择候选目标区域，首先要对输入特征图x进行一次标准RoI池化，然后通过一个全连接层，输出标准的k×k偏移

然后根据公式

计算出ΔP_ij，γ用来调节偏移量的大小，根据经验设置γ的值为0.1，w和h分别是RoI区域的宽和高。该偏移值ΔP_ij仍是一个浮点值，需要通过计算周围4个真实值的双线性插值得到。具体步骤如下：

柔性RoI池化层对w×h的RoI分割成一个k×k的区域(bin)，并输出一个k×k的特征图y。对于第(i₀,j₀)个存储单元(0≤i,j＜k)

其中，i₀为候选目标区域中的第i₀行，j₀为候选目标区域的第j₀列；x为输入，P为规则网络中的每一个位置，n_ij是bin中的像素数，进行柔性RoI池化后输出为

其中，ΔP_ij为偏移量且{ΔP_ij|0≤i,j＜k}。

对每张视频序列进行特征提取具体包括：

视频序列为RGB图片，每张图片特征提取后表示为

x＝[b,H,W,C]

其中，b是图片当前的batchsize，C是图片的通道数，取值为3，为RGB三个通道，H，W是图片像素值。

如图2所示，在跟踪开始前要先进行离线学习，离线学习的目是通过当前的训练数据训练参数，conv1、conv2、conv3层参数在在线跟踪时不更新，fc4和fc5层参数在线跟踪时更新。原始的训练数据为在包含多个视频的数据内截取的连续视频帧，每帧图像都通过人为标注的groundtruth box(后文简写成gt-box)，用于表示跟踪目标在图像内所处的位置。box用向量(x,y,w,h)表示，其中(x,y)为box中心点在图像内的坐标，w表示box的列宽度，h表示box的行高度。在每个视频序列中的每帧图像内，根据gt-box使用均匀随机的办法建立50个gt-box的IoU≥0.7的box作为正样本，以及200个IoU≤0.5的box作为负样本，利用数据集对柔性卷积网络模型进行训练具体包括以下步骤：

第一步：初始化。参数{w1,w2,...w5}为MDNet模型预训练的结果，w6为随机初始化结果。

第二步：边界框回归训练。根据gt-box的位置，使用均匀随机的办法建立1000个gt-box的IoU≥0.7的box，1000个box范围内的图像经过缩放得到1000个107×107分辨率大小的训练数据作为输入样本，使用线性回归算法得到fc_box的参数。完成边框回归之后，fc_box不再更新，直到下次跟踪。

第三步：训练网络。根据gt-box的位置，使用高斯分布随机的办法建立500个gt-box的IoU≥0.7的box作为正样本，使用均匀随机的办法建立5000个gt-box的IoU≤0.3的box作为负样本。设置fc4、fc5层的学习率为0.0001，fc6层的学习率为0.001，做30次迭代训练(SGD)。每次迭代的mini batch大小为128，使用随机选择的32个正样本，以及在随机1024个负样本中选取的96个硬负样本，训练完成后fc4-6层的参数将被更新。

上述训练后，利用损失函数来进行反向传播调整参数，公式如下：

其中，

表示第i个区域预测为正例的概率，y_i表示第i个区域的真实标签，网络的输出是正负样本的概率得分，其中设置一个阈值，若大于这个阈值就是正样本，反之，就是负样本；阈值范围是大于0.5小于1。

本发明中阈值设置为0.5，对每张有人工标注的图像序列，其标注即为对应的目标位置。预测目标区域与人工标注重叠率大于等于0.5即视为跟踪成功，否则视为跟踪失败。

利用数据集对柔性卷积网络模型进行跟踪具体包括以下步骤：

第四步：在线跟踪。根据前一帧box的输出，以高斯分布随机的方式生成256个候选box，分别经由网络计算后得到其positive score，选择数值最大的box。如果其positivescore大于0.5，则认为跟踪成功，执行以下操作：(1)用边框回归的参数调节box，得到跟踪结果(即下一帧生成256个候选box的基准box)；(2)以边框回归后的box为基准，以高斯分布随机的方式生成50个IoU≥0.7的正样本和200个IoU≤0.3的负样本。如果其positivescore小于0.5，则认为跟踪失败。

本发明中按比例为60％：20％：20％将数据集分为训练集、验证集和测试集。

如图3所示，本发明实施例中使用了OTB100数据集。在OTB100数据集中用到的评价指标有准确率和成功率。

准确率曲线的横轴表示的是位置错误阈值(Location Error Threshold)的范围，位置错误值指的是目标跟踪过程中预测的目标中心位置与实际人工标注的真实目标框中心位置之间的欧式距离，横轴位置错误阈值的取值范围一般为[0,50]之间，代表区间内间隔为1个像素点的51个距离；准确度曲线的纵轴表示在对基准数据集进行预测时，求取所有待测视频序列中每一个视频序列中心位置间的欧式距离小于位置错误阈值的视频帧数，并计算其占该视频序列总帧数的百分比，最后取所有视频序列百分比值的平均值作为准确率(Precision)值。不同位置错误阈值得到的百分比平均值不同，所以可以得到一条准确度曲线，在发明中将阈值设置为20个像素点。

成功率曲线的横轴表示的是重叠率阈值(Overlap Threshold)的范围，该重叠率指的是算法在目标跟踪中预测的目标框与实际人工标注的真实目标框的交并比的大小，横轴重叠率阈值的取值范围一般在[0,1]之间，表示区间内间隔为0.05的21个IoU值的大小；成功率曲线纵轴表示的是对基准数据集进行预测时，求取所有待测视频序列中每一个视频序列预测的目标框与真实目标框IoU值大于重叠率阈值的所有视频帧，并计算其占该视频序列总帧数的百分比，最后将所有视频序列百分比值的平均值作为成功率(Success Rate)值，在本发明中将阈值设置为0.5。

IoU＝(A^G∩A^T)/(A^G∪A^T)

重叠率公式如上式所示，其中A^T代表跟踪算法跟踪到的目标框区域boundingbox，A^G代表人工标注的真实目标区域的groundtruth。

在训练中，这些增加的用于偏移学习的卷积层和全连接层权重被初始化为零。它们的学习率被设置为现有层的学习率的β倍(β默认为1)，通过双线性插值操作并反向传播进行训练。

综上所述，本发明实施例提供了一种基于柔性卷积的单目标跟踪方法，通过使用柔性方式来进行特征提取，同时利用RoI池化对候选目标区域进行选择，改善了单目标跟踪过程中物体易发生形变导致跟踪效果不佳的问题，相比传统卷积提取特征的方法，有更强的特征提取性能，更好的应对跟踪过程中物体发生的各种形变问题，提高单目标跟踪的效果。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。