CN107633527B

CN107633527B - 基于全卷积神经网络的目标追踪方法及装置

Info

Publication number: CN107633527B
Application number: CN201610575699.3A
Authority: CN
Inventors: 王乃岩
Original assignee: Tusimple Inc
Current assignee: Tusimple Inc
Priority date: 2016-07-19
Filing date: 2016-07-19
Publication date: 2020-07-07
Anticipated expiration: 2036-07-19
Also published as: CN107633527A

Abstract

本发明实施例公开了一种基于全卷积神经网络的目标追踪方法及装置，在预训练阶段，利用全卷积神经网络提取训练样本图像的图像特征后，进行物体性判别及物体验证，训练得到全卷积神经网络模型。然后，利用该全卷积神经网络模型所包含的参数建立在线追踪网络；最后利用该在线追踪网络追踪待追踪视频中的目标。该方法在预训练阶段增加了物体性判别过程，使算法学习到什么是一个物体，解决了算法对于嘈杂背景不鲁棒的问题；同时，增加物体验证过程，即给定两个物体，判断这两个物体是不是同一物体，因此，物体验证更强调物体之间的差异，而弱化类间差异，从而将目标与背景及所有可能的干扰物体分别开，最终提高了目标追踪的准确率。

Description

基于全卷积神经网络的目标追踪方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种基于全卷积神经网络的目标追踪方法及装置。

背景技术

目标追踪是视频分析技术中重要环节，即在一段视频的第一帧给定一个物体的边界框，追踪算法需要在后续的视频中自动找出此物体。

追踪目标在整段视频中可能存在大范围形变，光照变化，干扰物体以及遮挡，而追踪算法接受的输入只有用户在第一帧的边界框，这要求追踪算法需要有自学能力，同时能够分辨出干扰物体和遮挡。近年来，随着深度学习算法快速发展，此类算法(例如，卷积神经网络)也被引入到目标追踪的领域，而且，基于卷积神经网络的特征表示对于目标追踪问题取得了很好的效果。

深度学习算法需要进行预训练学习到追踪目标的特征，传统的基于卷积神经网络的目标追踪算法基于图片分类准则进行预训练，分类预训练的目标是将图片分到正确的类别中。因为分类只关心最终的类别，而忽略同一类内的不同物体之间的差异，例如，有一个类别是“猫”，分类预训练只需要将所有的猫准确分到“猫”类即可，无需关心猫的毛发颜色等与类别无关的属性。这样，会使追踪算法无法区分真正的目标和干扰物体，从而导致目标追踪的准确率较低。

发明内容

本发明实施例中提供了一种基于全卷积神经网络的目标追踪方法及装置，以解决现有技术中的目标追踪准确率低的问题。

为了解决上述技术问题，本发明实施例公开了如下技术方案：

第一方面，本发明提供一种基于全卷积神经网络的目标追踪方法，包括：

利用全卷积神经网络获取训练样本图像的图像特征；

根据所述图像特征判断所述训练样本图像是否是一个完整物体，以及，根据所述图像特征判断正负训练样本图像对所包含的物体是否是同一物体；

根据所包含的物体是同一物体且是一个完整物体的训练样本图像，训练得到全卷积神经网络模型；

根据所述全卷积神经网络模型所包含的参数建立在线追踪网络；

利用所述在线追踪网络追踪所述待追踪视频中的目标。

可选地，所述根据所述图像特征判断所述训练样本图像是否是一个完整物体，包括：

利用Logistics Loss函数作为损失函数，判断所述训练样本图像对应的图像特征是否是一个完整物体。

可选地，所述根据所述图像特征判断正负训练样本图像对所包含的物体是否是同一物体，包括：

利用归一化层对所述图像特征进行归一化，得到归一化结果；

利用Triplet Loss函数作为损失函数，计算输入的正训练样本图像的归一化结果与负训练样本图像的归一化结果之间的图像距离；

如果所述图像距离小于预设距离，则确定所述正负训练样本图像对所包含的物体是同一物体；

如果所述图像距离大于或等于所述预设距离，则确定所述正负训练样本图像对所包含的物体不是同一物体。

可选地，根据所述全卷积神经网络模型所包含的参数建立在线追踪网络，包括：

将所述全卷积神经网络模型中的所述归一化层更换为卷积层，以及将所述全卷积神经网络模型中的Triplet Loss函数更换为L2loss层，得到所述在线追踪网络。

可选地，所述利用所述在线追踪网络追踪所述待追踪视频中的目标，包括：

利用提取所述待追踪视频的第一帧给定的追踪边界框内的追踪目标的图像特征；

判断待追踪视频中所包含的物体是否是一个完整物体，得到物体性判断结果；

利用替换后的所述卷积层对待追踪视频中的图像特征进行交替卷积处理，判断所述待追踪视频中的图像是否是所述追踪目标；

利用L2loss函数计算对所述卷积层的输出结果进行微调，得到微调结果；

将每个尺度的图像对应的所述物体性判断结果和所述微调结果做对应位置的乘积，得到数值最大的位置确定所述物体为所述追踪目标。

第二方面，本发明提供一种基于全卷积神经网络的目标追踪装置，包括：

特征提取模块，用于利用全卷积神经网络获取训练样本图像的图像特征；

物体性判别模块，用于根据所述图像特征判断所述训练样本图像是否是一个完整物体；

物体验证模块，用于根据所述图像特征判断正负训练样本图像对所包含的物体是否是同一物体；

网络模型获取模块，用于当确定所述正负训练样本图像对所包含的物体是同一物体且是一个完整物体时，得到全卷积神经网络模型；

在线追踪网络建立模块，用于根据所述全卷积神经网络模型所包含的参数建立在线追踪网络；

目标追踪模块，用于利用所述在线追踪网络追踪所述待追踪视频中的目标。

可选地，所述物体性判别模块，具体用于：

可选地，所述物体验证模块包括：

归一化子模块，用于利用归一化层对所述图像特征进行归一化，得到归一化结果；

图像距离获取子模块，用于利用Triplet Loss函数作为损失函数，计算输入的正训练样本图像的归一化结果与负训练样本图像的归一化结果之间的图像距离；

第一确定子模块，用于当所述图像距离小于预设距离时，确定所述正负训练样本图像对所包含的物体是同一物体；

第二确定子模块，用于当所述图像距离大于或等于所述预设距离时，确定所述正负训练样本图像对所包含的物体不是同一物体。

可选地，所述在线追踪网络建立模块，具体用于：

将所述全卷积神经网络模型中的所述归一化层更换为卷积层，以及将所述全卷积神经网络模型中的Triplet Loss函数更换为L2loss层。

可选地，所述目标追踪模块，包括：

目标特征提取子模块，用于提取所述待追踪视频的第一帧给定的追踪边界框内的追踪目标的图像特征；

物体性判别子模块，用于判断待追踪视频中所包含的物体是否是一个完整物体，得到物体性判断结果；

目标判断子模块，用于利用替换后的所述卷积层对待追踪视频中的图像特征进行交替卷积处理，判断所述待追踪视频中的图像是否是所述追踪目标；

微调子模块，用于利用L2loss函数计算对所述卷积层的输出结果进行微调，得到微调结果；

目标确定子模块，用于将每个尺度的图像对应的所述物体性判断结果和所述微调结果做对应位置的乘积，得到数值最大的位置确定所述物体为所述追踪目标。

由以上技术方案可见，本发明实施例提供的基于全卷积神经网络的目标追踪方法，在预训练阶段，利用全卷积神经网络提取训练样本图像的图像特征后，判断该图像特征是否是一个完整物体，以及判断输入的正负训练样本图像对所包含的物体是否是同一物体；根据图像特征是一个完整物体，且是同一物体的训练样本图像训练得到全卷积神经网络模型。然后，利用该全卷积神经网络模型所包含的参数建立在线追踪网络；最后，利用在线追踪网络追踪待追踪视频中的目标。该方法在预训练阶段增加了判断物体是否是一个完整物体的物体性判别过程，使算法学习到什么是一个物体，解决了算法对于嘈杂背景不鲁棒的问题；同时，增加物体验证过程，即给定两个物体，判断这两个物体是不是同一物体，因此，物体验证更强调物体之间的差异，而弱化类间差异，从而将目标与背景及所有可能的干扰物体分别开，最终提高了目标追踪的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于全卷积神经网络的目标追踪方法的流程示意图；

图2为本发明实施例一种预训练阶段采用的全卷积神经网络模型示意图；

图3为本发明实施例一种在线追踪阶段采用的全卷积神经网络模型示意图；

图4为本发明实施例一种基于全卷积神经网络的目标追踪装置的框图；

图5为本发明实施例一种物体验证模块的框图；

图6为本发明实施例一种目标追踪模块的框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

卷积神经网络通过对原始图像进行交替卷积，池化以及非线性变换的操作提取图像特征。一般卷积神经网络都由多层这样的变换构成，因此，卷积神经网络也属于深度学习算法的一种。训练卷积神经网络一般通过反向传播算法，即给定一张图片的标签，计算标签与卷积神经网络的输出之间的差距，并将此差距通过导数的形式传播回之前的卷积神经网络层次中。

在目标追踪这种只有一个标注样本的问题中，往往需要预训练学习一些通用物体的特征，然后，将这些学习得到的参数迁移到最终的应用，即目标追踪中去。常用的预训练方法是在大规模的训练样本图片进行训练，然后，将卷积层的参数作为特定任务网络的初始化，再针对特定任务对整个网络进行微调。

微调，是指将预训练的参数迁移到新的任务后，需要通过反向传播算法优化这些参数，使其更适应新的任务。微调可以认为是通过预训练初始化过的训练。

目标追踪问题不同于分类或检测问题，分类或检测问题只需要输出类别信息，而忽略类间个体的差异；但是，对于目标追踪问题而言，目的是将目标与背景及所有可能的干扰物体分别开，这就要求目标追踪方法学习到个体级别的属性，而物体验证预训练过程能够满足这个需求，能够使算法学习到个体级别的特征；为了解决嘈杂背景的问题，提出了物体性判别，使得算法学习到什么是一个完整的物体，从而解决算法对嘈杂背景不鲁棒的问题。

参见图1，为本发明实施例提供的一种基于全卷积神经网络的目标追踪方法的流程示意图，该方法应用于在视频中自动追踪目标物体的应用场景中，而且，该方法基于全卷积神经网络算法实现目标追踪。如图1所示，该方法包括以下步骤：

S110，利用全卷积神经网络获取训练样本图像的图像特征。

全卷积神经网络通过对原始图像进行交替卷积，池化及非线性变换的操作提取图像特征。

训练样本图像包括正样本图像和负样本图像，其中，正样本图像为包含已经标注追踪目标的图像，负样本是正样本周围随机采集的与正样本不重叠的区域。

利用全卷积神经网络提取输入该网络的每个训练样本图像中的图像特征。

S120，根据图像特征判断训练样本图像是否是一个完整物体，以及，根据所述图像特征判断正负训练样本图像对所包含的物体是否是同一物体。

对提取得到的图像特征进行物体性判别，即判断提取到的图像特征是否是一个完整的物体。如果输入的训练样本图像是一个完整的物体，则输出结果为1；如果是无意义的背景干扰，则输出结果为0。

与此同时，对输入的训练样本图像进行物体验证，即判断输入的正负训练样本图像对所包含的物体的是否是同一个物体。计算正训练样本图像的图像特征与负训练样本图像的图像特征之间的图像距离，根据图像距离判断正负训练样本图像所包含的物体是否是同一个物体。如果所述图像距离小于预设距离，则确定所述正负训练样本图像对所包含的物体是同一物体；如果所述图像距离大于或等于所述预设距离，则确定所述正负训练样本图像对所包含的物体不是同一物体。

S130，根据所包含的物体是同一物体且是一个完整物体的训练样本图像，训练得到全卷积神经网络模型。

根据正负训练样本图像对中包含的物体是同一物体，而且，所包含的物体是同一个物体的训练样本图像，通过大量训练样本图像的训练得到全卷积神经网络模型中的各个参数。

训练使用标准的反向传播算法，并在30轮后，使用难样本挖掘方法取代随机采集负样本的方法，难样本挖掘方法记录并更新模型不能很好处理的正负训练样本图像对，后续训练只使用这些正负训练样本图像对，从而进一步优化模型。

S140，利用训练得到的全卷积神经网络模型所包含的参数建立在线追踪网络。

训练得到全卷积神经网络模型后，利用该模型中的参数建立在线追踪网络。

S150，利用在线追踪网络追踪所述待追踪视频中的目标。

利用重新建立的在线追踪网络追踪待追踪视频中的目标。追踪过程与训练过程相反，需要从未知的视频图像中确定出追踪目标。

本实施例提供的基于全卷积神经网络的目标追踪方法，在预训练阶段，利用全卷积神经网络提取训练样本图像的图像特征后，判断该图像特征是否是一个完整物体；同时，判断输入的正负训练样本图像对所包含的物体是否是同一物体；根据图像特征是一个完整物体，且输入的正负训练样本图像对是同一物体的训练样本图像训练得到全卷积神经网络模型。然后，利用该全卷积神经网络模型所包含的参数建立在线追踪网络；最后，利用在线追踪网络追踪待追踪视频中的目标。该方法的物体性判别预训练，即判断物体是否是一个完整物体的物体性判别过程，使算法学习到什么是一个物体，解决了算法对于嘈杂背景不鲁棒的问题；同时，物体验证过程，即给定两个物体，判断这两个物体是不是同一物体，因此，物体验证更强调物体之间的差异，而弱化类间差异，从而将目标与背景及所有可能的干扰物体分别开，最终提高了目标追踪的准确率。

参见图2，为本发明实施例提供的一种预训练阶段采用的全卷积神经网络网络模型示意图。如图2所示，该全卷积神经网络模型包括：卷积层、激活函数层、池化层、归一化层、Triplet Output层、Triplet Output层；

卷积层(Convolution)，3*3/1,64：表示该层有64个大小为(3,3)的卷积核，卷积间隔为1。

在一个卷积层，上一层的特征maps被一个可学习的卷积核进行卷积，然后通过一个激活函数，可以得到输出特征map。

例如，从一个大尺寸图像中随机选取一小块，例如，8×8的像素块作为小块样本，并且从这个小块样本中学习到了一些特征，这时可以把从这个8×8样本中学习到的特征作为探测器，应用到这个图像的任意地方中去。特别是，可以用从8×8样本中所学习到的特征跟原本的大尺寸图像作卷积，从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。每个卷积都是一种特征提取方式，就像一个筛子，将图像中符合条件(激活值越大越符合条件)的部分筛选出来。

池化层(Pooling)，对于不同位置的特征进行聚合分析。

在通过卷积获得了特征之后，下一步利用这些特征做分类。理论上讲，可以用提取得到的所有特征去训练分类器，但这样做面临计算量的挑战。例如：对于一个96×96像素的图像，假设已经学习得到了400个定义在8×8输入上的特征，每一个特征和图像卷积都会得到一个(96-8+1)*(96-8+1)＝7921维的卷积特征，由于有400个特征，所以每个样例都会得到一个892*400＝3,168,400维的卷积特征向量。学习一个拥有超过三百万特征输入的分类器十分不便，并且容易出现过拟合。

为了解决这个问题，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度(相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化(pooling)，有时也称为平均池化或者最大池化(取决于计算池化的方法)。

由图2可见，本实施例提供的全卷积神经网络包括多层变换结构(即，卷积层、激活函数层、池化层)，经过多层变换结构后提取得到训练样本图像的图像特征。

如图2所示，全卷积神经网络中的Logistic Output层是物体性判别训练分支，该Logistic Output层用于判断提取得到的图像特征是否是一个完整物体。

Logistic Output层使用Logistic Loss函数为损失函数，若输入的训练样本图像是一个完整物体，则输出结果是1；若输入的训练样本图像是无意义背景干扰，则输出结果是0。

如图2所示，全卷积神经网络中Triplet Output是物体验证训练分支。

从训练样本图像中提取得到的图像特征经归一化层后，进入TripletOutput层进行处理，其中，归一化层是将每个训练样本图像的L2距离(欧式距离)归一化到1。

Triplet Output层使用Triplet Loss函数作为损失函数，其定义如公式1所示：

公式1中，

和

为同一物体在不同时刻或不同角度的表示，

为随机采样的另外物体或背景干扰物；N为样本图像的总数量；

公式1的含义是同一个物体的特征表示间的L2距离要比不同物体的特征表示的L2距离小，而且，存在α的间隔，α为一个可调节的参数。

请参见图3，为本发明实施例一种在线追踪阶段采用的全卷积神经网络模型的示意图。

在线追踪阶段采用的全卷积神经网络是将预训练阶段采用的全卷积神经网络中物体验证训练分支中的归一化层更换为卷积核大小为8*8，卷积核数目为1的卷积层。该卷积层相当于分类器，用于判断输入的图像是不是要追踪的目标图像；以及，将TripletOutput层的Triplet loss函数更换为L2loss函数。物体性判别分支无变化，利用L2loss函数对卷积核大小为8*8的卷积层的输出结果进行微调，以实现追踪一个特定的物体(追踪目标)。

在线追踪阶段采用的全卷积神经网络中的物体验证分支，根据每个视频中的追踪目标的变化而变化，使用在待追踪视频中第一帧给定的边界框以及在追踪过程中收集到的追踪目标的样本图片进行训练，学习追踪目标的特征，更新卷积核大小为8*8的卷积层的权重系数，其它层的权重均为预训练得到的权重，并在整个在线追踪过程中固定不变。

最终的追踪结果由物体性判别分支和物体验证分支的输出结果共同决定，即对于每个尺度将两个分支的输出做对应位置的乘积，在所有尺度中取最大值为当前帧追踪目标的位置和尺度。

由于本发明的目标追踪方法基于全卷积神经网络实现，可以方便地扩大测试区域范围。所以在线追踪阶段直接将输入图片的大小由32*32增大至128*128，这意味着运动模型的搜索范围是上一帧输出长宽的4倍。此时，物体性判别分支和物体验证分支的输出大小均从1*1变为33*33。除此之外，为了能适应物体尺度的变化，我们还将输入图片进行不同尺度的缩放，并对不同尺度缩放后的多个图片进行测试。

在得到每一帧的输出结果后，使用当前结果从当前帧视频图像中截取训练图片，并更新网络模型中物体验证分支中卷积核大小为8*8的卷积层的权重。为了提高效率，只使用一个尺度下的图片进行更新，对于该尺度下33*33的输出结果，使用L2loss函数进行微调，对于卷积核为8*8的卷积层输出33*33的结果中的每个位置，微调的目标是使该位置的输出结果趋近于

其中，d_x和d_y为该位置到中心点(17,17)的距离，σ为可调节参数，可以根据经验确定σ的数值，σ越小离中心点(17,17)越远的位置为目标的概率越趋近于0，反之，σ越大离中心点(17,17)越远的位置为目标的概率越趋近于1。

本实施例提供的基于全卷积神经网络的目标追踪方法，通过全卷积神经网络输出为目标的概率，从而使每部分图像区域在同一尺度下最多只计算一次，大幅度减小了计算量，提高了运算速度。

通过以上的方法实施例的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

与本发明提供的基于全卷积神经网络的目标追踪方法实施例相对应，本发明还提供了一种基于全卷积神经网络的目标追踪装置实施例。

参见图4，为本发明实施例提供的一种基于全卷积神经网络的目标追踪装置的结构示意图，该装置应用于终端设备或服务器中，如图4所示，该装置可以包括：特征提取模块110、物体性判别模块120、物体验证模块130、网络模型获取模块140、在线追踪网络建立模块150和目标追踪模块160。

特征提取模块110，用于利用全卷积神经网络获取训练样本图像的图像特征。

通过全卷积神经网络中的卷积层、激活函数层、池化层提取训练样本图像的图像特征。利用全卷积神经网络提取输入该网络的每个训练样本图像中的图像特征。

物体性判别模块120，用于根据所述图像特征判断所述训练样本图像是否是一个完整物体。

利用Logistics Loss函数作为损失函数，判断所述训练样本图像对应的图像特征是否是一个完整物体。如果输入的训练样本图像是一个完整的物体，则输出结果为1；如果是无意义的背景干扰，则输出结果为0。

物体验证模块130，用于根据所述图像特征判断正负训练样本图像对所包含的物体是否是同一物体。

计算正训练样本图像的图像特征与负训练样本图像的图像特征之间的图像距离，根据图像距离判断正负训练样本图像所包含的物体是否是同一个物体。

在本发明的一些实施例中，如图5所示，物体验证模块130包括：归一化子模块131、图像距离获取子模块132、第一确定子模块133和第二确定子模块134。

归一化子模块131，用于利用归一化层对所述图像特征进行归一化，得到归一化结果。

图像距离获取子模块132，用于利用Triplet Loss函数作为损失函数，计算输入的正训练样本图像的归一化结果与负训练样本图像的归一化结果之间的图像距离。

第一确定子模块133，用于当所述图像距离小于预设距离时，确定所述正负训练样本图像对所包含的物体是同一物体。

第二确定子模块134，用于当所述图像距离大于或等于所述预设距离时，确定所述正负训练样本图像对所包含的物体不是同一物体。

网络模型获取模块140，用于当确定所述正负训练样本图像对所包含的物体是同一物体且是一个完整物体时，得到所述全卷积神经网络模型。

在线追踪网络建立模块150，用于根据训练得到的全卷积神经网络模型所包含的参数建立在线追踪网络。

在线追踪网络建立模块150，具体用于将所述全卷积神经网络模型中的所述归一化层更换为卷积层，以及将所述全卷积神经网络模型中的Triplet Loss函数更换为L2loss层。

目标追踪模块160，用于利用训练得到的全卷积神经网络模型对所述待追踪视频中的目标进行追踪。

训练得到全卷积神经网络模型后，利用该模型对待追踪视频中确定的目标进行追踪。追踪过程是对未知的视频图像中确定出追踪目标。

本实施例提供的基于全卷积神经网络的目标追踪装置，在预训练阶段，利用全卷积神经网络提取训练样本图像的图像特征后，判断该图像特征是否是一个完整物体；同时，判断输入的正负训练样本图像对所包含的物体是否是同一物体；根据图像特征是一个完整物体，且输入的正负训练样本图像对是同一物体的训练样本图像训练得到全卷积神经网络模型。然后，利用该全卷积神经网络模型所包含的参数建立在线追踪网络；最后，利用在线追踪网络追踪待追踪视频中的目标。该方法的物体性判别预训练，即判断物体是否是一个完整物体的物体性判别过程，使算法学习到什么是一个物体，解决了算法对于嘈杂背景不鲁棒的问题；同时，物体验证过程，即给定两个物体，判断这两个物体是不是同一物体，因此，物体验证更强调物体之间的差异，而弱化类间差异，从而将目标与背景及所有可能的干扰物体分别开，最终提高了目标追踪的准确率。

请参见图6，为本发明实施例一种目标追踪模块的框图，在线目标最终阶段，将全卷积神经网络模型中的所述归一化层更换为卷积层，以及将所述全卷积神经网络模型中的Triplet Loss函数更换为L2loss层，然后利用更新后的网络模型追踪视频图像的目标。

如图6所示，该目标追踪模块160包括目标特征提取子模块161、物体性判别子模块162、目标判断子模块163、微调子模块164和目标确定子模块165。

目标特征提取子模块161，用于利用提取所述待追踪视频的第一帧给定的追踪边界框内的追踪目标的图像特征。

物体性判别子模块162，用于判断待追踪视频中所包含的物体是否是一个完整物体，得到物体性判断结果。

目标判断子模块163，用于利用替换后的所述卷积层对待追踪视频中的图像特征进行交替卷积处理，判断所述待追踪视频中的图像是否是所述追踪目标。

微调子模块164，用于利用L2loss函数计算对所述卷积层的输出结果进行微调，得到微调结果。

目标确定子模块165，用于将每个尺度的图像对应的所述物体性判断结果和所述微调结果做对应位置的乘积，得到数值最大的位置确定所述物体为所述追踪目标。

本实施例提供的基于全卷积神经网络的目标追踪装置，通过全卷积神经网络输出为目标的概率，该方法使每部分图像区域在同一尺度下最多只计算一次，大幅度减小了计算量，提高了运算速度。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于全卷积神经网络的目标追踪方法，其特征在于，包括：

利用全卷积神经网络获取训练样本图像的图像特征；

根据所述图像特征判断所述训练样本图像是否是一个完整物体，以及，根据所述图像特征判断正负训练样本图像对所包含的物体是否是同一物体；其中，训练样本图像包括正样本图像和负样本图像，所述正样本图像为包含已经标注追踪目标的图像，负样本是正样本周围随机采集的与正样本不重叠的区域；

利用所述在线追踪网络追踪待追踪视频中的目标。

2.根据权利要求1所述的方法，其特征在于，所述根据所述图像特征判断所述训练样本图像是否是一个完整物体，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述图像特征判断正负训练样本图像对所包含的物体是否是同一物体，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述全卷积神经网络模型所包含的参数建立在线追踪网络，包括：

将所述全卷积神经网络模型中的所述归一化层更换为卷积层，以及将所述全卷积神经网络模型中的Triplet Loss函数更换为L2 loss层，得到所述在线追踪网络。

5.根据权利要求4所述的方法，其特征在于，所述利用所述在线追踪网络追踪所述待追踪视频中的目标，包括：

利用L2 loss函数计算对所述卷积层的输出结果进行微调，得到微调结果；

6.一种基于全卷积神经网络的目标追踪装置，其特征在于，包括：

物体验证模块，用于根据所述图像特征判断正负训练样本图像对所包含的物体是否是同一物体；其中，训练样本图像包括正样本图像和负样本图像，所述正样本图像为包含已经标注追踪目标的图像，负样本是正样本周围随机采集的与正样本不重叠的区域；

网络模型获取模块，用于根据所包含的物体是同一物体且是一个完整物体的训练样本图像，训练得到全卷积神经网络模型；

目标追踪模块，用于利用所述在线追踪网络追踪待追踪视频中的目标。

7.根据权利要求6所述的装置，其特征在于，所述物体性判别模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述物体验证模块包括：

9.根据权利要求8所述的装置，其特征在于，所述在线追踪网络建立模块，具体用于：

将所述全卷积神经网络模型中的所述归一化层更换为卷积层，以及将所述全卷积神经网络模型中的Triplet Loss函数更换为L2 loss层。

10.根据权利要求9所述的装置，所述目标追踪模块，包括：

微调子模块，用于利用L2 loss函数计算对所述卷积层的输出结果进行微调，得到微调结果；