CN111104831B

CN111104831B - 一种视觉追踪方法、装置、计算机设备以及介质

Info

Publication number: CN111104831B
Application number: CN201811268263.5A
Authority: CN
Inventors: 闫振斌; 廖少毅; 陈欣然; 徐瑀婧
Original assignee: City University of Hong Kong CityU
Current assignee: City University of Hong Kong CityU
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2023-09-29
Anticipated expiration: 2038-10-29
Also published as: CN111104831A

Abstract

本发明提供一种视觉追踪方法、装置、计算机设备以及介质，该方法处理视频初始帧中给定的追踪对象框，得到样本数据和标签数据；利用所述样本数据和标签数据对预建立的视频追踪网络模型进行训练；利用训练后的视频追踪网络模型标定所述视频的后续帧中的追踪对象，其中，在样本分类和模型训练时，将网络顶层特征图划分为不同置信度等级的区域，将不同置信度等级的区域以权重方式组合起来，进行样本分类和模型训练，以此强化高置信度等级区域，实现模型的快速训练和精确跟踪，进而自动追踪视频图像中不断移动变化的物体，并且能适应不同的应用场景。

Description

一种视觉追踪方法、装置、计算机设备以及介质

技术领域

本发明涉及图像处理领域，尤其涉及一种视觉追踪方法、装置、计算机设备以及介质。

背景技术

视觉追踪系统可从摄像头采集的原始视频中，自动发现并追踪选定的目标，该系统为计算机视觉领域的基础性技术之一，在无人驾驶、机器人、安防监控等中得到广泛应用。

目前，视觉追踪技术主要采用统计学模型自动生成一个物体表示，但是生成的统计学模型固定，只能适应单一的应用场景；而且需要使用大量密集人工标注的视频作为训练依据，但人工标注过于复杂、成本也高，导致采用大量学习样本构造高性能视觉追踪系统难以取得大规模商业应用。

发明内容

本发明提供一种视觉追踪方法，解决现有视觉追踪技术只能适应单一的应用场景，需要使用大量密集人工标注的视频作为训练依据的问题，利于视觉追踪技术的广泛应用。

为解决上述技术问题，本发明采用如下技术方案：

第一方面，提供一种视觉追踪方法，包括：

处理视频初始帧中给定的追踪对象框，得到样本数据和标签数据；

利用所述样本数据和标签数据对预建立的视频追踪网络模型进行训练；

利用训练后的视频追踪网络模型标定所述视频的后续帧中的追踪对象。

进一步地，所述样本数据包括：正集样本及负集样本；所述标签数据由所述正集样本对应的标签及所述负集样本对应的标签组成；

所述处理视频初始帧中给定的追踪对象框，得到样本数据和标签数据，包括：

在所述给定的追踪对象框的周围区域选取多个样本框；

计算所述样本框与所述给定的追踪对象框的交并比；

根据所述交并比从多个样本框中提取正集样本框和负集样本框；

其中，所述正集样本框和给定的追踪对象框组成所述正集样本，所述负集样本框组成所述负集样本。

进一步地，所述计算所述样本框与所述给定的追踪对象框的交并比，包括：

计算所述样本框与所述给定的追踪对象框的交集面积和并集面积；

利用所述交集面积除以所述并集面积得到所述交并比。

进一步地，所述根据所述交并比从多个样本框中提取正集样本框和负集样本框，包括：

将所述交并比与第一预设阈值和第二预设阈值进行比较，其中，所述第一预设阈值大于所述第二预设阈值；

当所述交并比大于第一预设阈值时，将对应样本框划分为正集样本框；

当所述交并比小于第二预设阈值时，将对应样本框划分为负集样本框。

进一步地，所述预建立的视频追踪网络模型包括：预训练的特征提取网络、网络学习训练模块以及计算输出模块；所述网络学习训练模块包括：深度学习网络、置信度等级划分模块、分类器、判断模块、训练器；

所述利用所述样本数据和标签数据对预建立的视频追踪网络模型进行训练，包括：

步骤1：将正集样本和负集样本输入所述特征提取网络，提取每个样本的抽象的语义特征；

步骤2：将所述抽象的语义特征输入所述深度学习网络，得到每个样本对应的网络顶层特征图，所述网络顶层特征图包含多个锚点；

步骤3：利用置信度等级划分模块根据所述锚点的置信度值将所述网络顶层特征图划分为不同置信度等级的多个区域；

步骤4：将不同置信度等级区域的锚点的特征值分别输入分类器，得到每个区域的评分值；

步骤5：利用判断模块判断每个区域的评分值是否位于预设阈值范围内，所述阈值范围包括所述区域对应的标签；

步骤6：若评分值位于所述阈值范围内的区域的数量小于预定比例，则利用训练器调整所述深度学习网络的参数值，然后重复步骤1至步骤5，直至评分值位于所述阈值范围内的区域的数量大于预定比例，则得到训练后的视频追踪网络模型。

进一步地，所述预训练的特征提取网络包括：ZF型神经网络、压缩的ZF型神经网络、VGG16型卷积神经网络、VGG19型卷积神经网络、Alexnet型神经网络以及Googlenet型神经网络。

进一步地，所述将不同置信度等级区域的锚点的特征值分别输入分类器，得到每个区域的评分值，包括：

将某一置信度等级区域的锚点的特征值输入分类器，得到每个锚点的评分值；

计算所述区域的所有锚点的平均评分值，作为所述区域的评分值。

进一步地，所述利用训练器调整所述深度学习网络的参数值，包括：

将不同置信度等级区域的锚点的评分值分别输入训练器中的损失函数，得到不同置信度等级区域对应的损失值；

将不同置信度等级区域对应的损失值按预设权重加权求和，得到总损失值；

根据所述总损失值调节所述深度学习网络的参数值。

进一步地，所述总损失值的计算公式如下：

其中，L_TrackingLoss表示总损失值，α和β表示预设权重，L_cls表示训练器采用的损失函数，a_i表示某一置信度等级区域的锚点的评分值，a_i ^*表示某一置信度等级区域的标签，p_i表示另一置信度等级区域的锚点的评分值，p_i ^*表示另一置信度等级区域的标签。

进一步地，所述网络学习训练模块包括多个，每个所述网络学习训练模块采用不同的损失函数及其对应的分类函数和深度学习网络，所述预建立的视频追踪网络模型还包括用于将多个网络学习训练模块得到的评分值进行加权平均计算得到总评分值的加权平均值计算模块。

进一步地，所述网络学习训练模块包括4个，分别采用基于Sigmoid函数的交叉熵损失函数、基于Softmax函数的Logistic Loss损失函数、基于Sigmoid函数的Hinge Loss损失函数以及基于Softmax函数的Information-gain Loss损失函数。

进一步地，所述Sigmoid函数的公式如下：

其中，x_i表示锚点的特征值。

进一步地，所述Softmax函数的公式如下：

其中，x_ij表示锚点的特征值，K为类数，取值为2。

进一步地，所述基于Sigmoid函数的交叉熵损失函数的公式如下：

其中，x_i表示锚点的特征值，N表示置信度区域锚点的数量，L_sigmoid表示损失值，y_i表示锚点的标签，取0或1。

进一步地，所述基于Softmax函数的Logistic Loss损失函数的公式如下：

其中，x_ij表示锚点的特征值，N表示置信度区域锚点的数量，K为类数，取值为2；y_i表示锚点的标签，取0或1，I(y_i＝＝j)为示性函数，当y_i等于j时函数值等于1，否则为0。

进一步地，所述基于Sigmoid函数的Hinge Loss函数的公式如下：

其中，x_ij表示锚点的特征值，y_i表示锚点的标签，δ(y_i＝＝j)为示性函数，当y_i等于j时值为1，否则为-1，r代表L^r范数，通常取L¹范数计算损失值，margin值通常设为1，N表示置信度区域锚点的数量，K为类数，取值为2，max为最大值函数。

进一步地，所述基于Softmax函数的Information-gain Loss函数的公式如下：

其中,x_ij表示锚点的特征值，K为类数，取值为2，M表示K×K方阵，M_yi,j表示M矩阵中的第y_i行、第j列的元素值，N表示置信度区域锚点的数量。

进一步地，所述利用训练后的视频追踪网络模型标定所述视频的后续帧中的追踪对象，包括：

在所述后续帧中对应于前一帧中追踪对象框的位置，及其周围区域选取多个候选框；

将多个候选框输入训练后的视频追踪网络模型中判断候选框的评分值；

将所述评分值与预定值进行比较；

当部分或全部候选框的评分值大于预定值时，将评分值最高的候选框作为追踪对象框，实现追踪对象的标定；

当所有候选框的评分值均小于预定值时，追踪失败，则利用所述后续帧之前的视频帧重新训练视频追踪网络模型。

第二方面，提供一种视觉追踪装置，包括：

训练数据处理模块，处理视频初始帧中给定的追踪对象框，得到样本数据和标签数据；

模型训练模块，利用所述样本数据和标签数据对预建立的视频追踪网络模型进行训练；

对象追踪模块，利用训练后的视频追踪网络模型标定所述视频的后续帧中的追踪对象。

所述训练数据处理模块包括：

样本框选取单元，在所述给定的追踪对象框的周围区域选取多个样本框；

交并比计算单元，计算所述样本框与所述给定的追踪对象框的交并比；

样本选取单元，根据所述交并比从多个样本框中提取正集样本框和负集样本框；

所述模型训练模块包括：

特征提取单元，将正集样本和负集样本输入所述特征提取网络，提取每个样本的抽象的语义特征；

特征学习单元，将所述抽象的语义特征输入所述深度学习网络，得到每个样本对应的网络顶层特征图，所述网络顶层特征图包含多个锚点；

等级划分单元，利用置信度等级划分模块根据所述锚点的置信度值将所述网络顶层特征图划分为不同置信度等级的多个区域；

评分单元，将不同置信度等级区域的锚点的特征值分别输入分类器，得到每个区域的评分值；

判断单元，利用判断模块判断每个区域的评分值是否位于预设阈值范围内，所述阈值范围包括所述区域对应的标签；

训练单元，若评分值位于所述阈值范围内的区域的数量小于预定比例，则利用训练器调整所述深度学习网络的参数值，然后重复步骤1至步骤5，直至评分值位于所述阈值范围内的区域的数量大于预定比例，则得到训练后的视频追踪网络模型。

进一步地，所述训练单元包括：

损失值计算器，将不同置信度等级区域的锚点的评分值分别输入训练器中的损失函数，得到不同置信度等级区域对应的损失值；

加法计算器，将不同置信度等级区域对应的损失值按预设权重加权求和，得到总损失值；

调节器，根据所述总损失值调节所述深度学习网络的参数值。

进一步地，所述对象追踪模块包括：

候选框标定单元，在所述后续帧中对应于前一帧中追踪对象框的位置，及其周围区域选取多个候选框；

候选框评分单元，将多个候选框输入训练后的视频追踪网络模型中判断候选框的评分值；

评分比较单元，将所述评分值与预定值进行比较；

追踪对象标定单元，当部分或全部候选框的评分值大于预定值时，将评分值最高的候选框作为追踪对象框，实现追踪对象的标定；

模型重训练单元，当所有候选框的评分值均小于预定值时，追踪失败，则利用所述后续帧之前的视频帧重新训练视频追踪网络模型。

第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的视觉追踪方法的步骤。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的视觉追踪方法的步骤。

本发明提供的视觉追踪方法、装置、计算机设备和计算机可读存储介质，通过在样本分类和模型训练时，将网络顶层特征图划分为不同置信度等级的区域，将不同置信度等级的区域以权重方式组合起来，进行样本分类和模型训练，以此强化高置信度等级区域，实现模型的快速训练和精确跟踪，进而自动追踪视频图像中不断移动变化的物体，并且能适应不同的应用场景。

另外，本发明提供的视觉追踪方法、装置、计算机设备和计算机可读存储介质，仅需要标定视频初始帧中追踪对象的位置，无需大量标注视频来训练网络模型，有利于减少人工误差，降低工作量和成本，利于视觉追踪技术的推广和应用。

而且，本发明提供的视觉追踪方法、装置、计算机设备和计算机可读存储介质，当模型训练完成后，在对后续帧进行追踪对象标定时，若不能精确追踪的对象，则利用之前的所有视频帧重新训练视频追踪网络模型，能够不断优化视频追踪网络模型，进一步提高追踪精度，使得能在苛刻条件下保持追踪的稳定性，处理时无需消耗大量计算资源，追踪速度接近实时。

再者，本发明提供的视觉追踪方法、装置、计算机设备和计算机可读存储介质，通过采用多种不同的损失函数，结合各损失函数的优点，进一步提高了追踪精度和速度。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例一种视觉追踪方法的流程图一；

图2示出了图1中步骤S100的具体步骤；

图3示出了图2中步骤S102的具体步骤；

图4为交并比计算的示例图；

图5示出了本发明实施例中采用的视频追踪网络模型的结构框图；

图6示出了ZF神经网络的结构示意图；

图7示出了压缩的ZF神经网络的结构示意图；

图8示出了网络顶层特征图的不同等级置信度区域的示意图；

图9示出了视觉追踪模型的整体架构图；

图10示出了图1中步骤S200的具体步骤；

图11示出了图10中步骤S206的具体步骤；

图12示出了图1中步骤S300的具体步骤；

图13示出了本发明实施例一种视觉追踪装置的结构图一；

图14示出了本发明实施例一种视觉追踪装置的结构图二；

图15示出了本发明实施例一种视觉追踪装置的结构图三；

图16示出了图15中训练单元26的具体结构；

图17示出了本发明实施例一种视觉追踪装置的结构图三；

图18为本发明实施例计算机设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

视觉追踪是通过识别和追踪移动目标，实现对移动目标的深入分析和理解。视觉追踪的本质是对获取的视觉图片进行合理利用，快速处理图像信息，以便最快的为决策控制提供反馈信息。

视觉追踪是人工智能相关产业链中的重要一环，相关产业正在蓬勃发展，视觉追踪的应用前景广阔。但是，传统方法使用标注的视频作为训练依据，而人工标注过于复杂、成本也高，缺乏普适性。

为解决传统方法中存在的问题，本发明实施例提供一种基于人工智能的视觉追踪方法、装置、计算机设备以及计算机可读存储介质，不直接生成物体表示，而是对众多候选框进行评价，从中选出一个最接近的物体表示，实现视觉追踪。

另外，在对视频追踪网络模型进行学习训练时，采用有监督学习方式，仅需标注初始帧中追踪对象框，在追踪对象框的邻近区域选择正集样本框，与追踪对象框一起作为正集样本，其标签为正(或称真，一般以1表示)；在距离追踪对象框较远区域选择负集样本框，作为负集样本，其标签为负(或称假，一般以0表示)；视频追踪网络模型通过对正集样本和负集样本进行处理，学习到正集样本的特征，当后续帧中的候选框输入视频追踪网络模型中时，视频追踪网络模型能够利用学习到的正集样本的特征判断哪个候选框最接近追踪对象框，以此实现视觉追踪。

而且，本发明实施例提供的视觉追踪方法和装置、计算机设备以及计算机可读存储介质，在对样本框进行分类时以及模型反向传输调整模型参数时，根据置信度值对图像进行划分，区分不同位置的重要性，将重要性高的位置加大权重，进行加强考虑，将重要性低的位置减小权重，并能有效提高模型的精度。

需要说明的是，每个视频由多帧视频图像组成，每个视频中的第一帧图像称为初始帧，第二帧图像之后的视频帧称为后续帧。

下面，结合附图对本发明实施例提供的视觉追踪方法和装置、计算机设备以及计算机可读存储介质进行详细说明：

图1为本发明实施例一种视觉追踪方法的流程图一。如图1所示，该视觉追踪方法包括：

步骤S100：处理视频初始帧中给定的追踪对象框，得到样本数据和标签数据。

其中，在待追踪视频的初始帧中，通过计算机标定追踪对象框或人工标注追踪对象框，找到追踪对象框的位置和大小，然后，利用该追踪对象框作为正集样本，再经过一定的处理，得到样本数据和标签数据。

步骤S200：利用样本数据和标签数据对预建立的视频追踪网络模型进行训练。

其中，将样本数据输入该预建立的视频追踪网络模型得到预测结果，然后将该预测结果与该样本数据对应的标签数据进行比较，实现有监督学习。

当该预测结果与该标签数据相等或位于该标签数据一定范围内，则认为视频追踪网络模型的精度达到要求，训练结束。

当该预测结果位于该标签数据一定范围以外，则认为该视频追踪网络模型精度较低，不能达到运算需求，则需要对视频追踪网络模型的参数进行调整，然后再将样本数据输入调整后的视频追踪网络模型中得到预测结果，若此次得到的预测结果还是位于对应的标签数据一定范围以外，则继续调整视频追踪网络模型的参数，重复上述步骤，直至得到的预测结果与对应的标签数据相等或位于该标签数据一定范围内，则训练结束。

步骤S300：利用训练后的视频追踪网络模型标定视频的后续帧中的追踪对象。

其中，当视频追踪网络模型训练完成后，相当于视频追踪网络模型已经学习到了追踪对象的特征，则将后续帧中选取的候选框输入视频追踪网络模型中，视频追踪网络模型利用学习到的追踪对象的特征，选出与追踪对象最接近的候选框，则实现了视觉追踪。

本实施例提供的视觉追踪方法，无需大量密集人工标注的视频图像作为训练集，仅需标定视频初始帧中追踪对象的位置，利于减少人工误差，降低了工作量和成本，利于视觉追踪技术的推广和应用。

图2示出了图1中步骤S100的具体步骤。如图2所示，该步骤S100包括：

步骤S101：在给定的追踪对象框的周围区域选取多个样本框。

其中，给定的追踪对象框是一种正集样本，是需要视频追踪网络模型重点学习的样本，在给定的追踪对象框周围选取多个样本框，使视频追踪网络模型学习到追踪对象周围与追踪对象相近区域的特征，以此实现视频追踪网络模型的学习过程。

具体地，可以根据正态分布随机函数选取样本框，也可以采用滑动窗口形式选取样本框。

根据正态分布随机函数选取样本框包括：首先定位该追踪对象框的中心位置(x,y)，并计算该追踪对象框的长度a1和宽度a2，然后基于正态分布随机函数，采用正态分布原则，在该追踪对象框周围区域选取样本框，样本框的中心与该追踪对象框中心相比，位置变化服从正态分布，且样本框与追踪对象框相比，长度和宽度的变化也服从正态分布。

采用滑动窗口形式选取样本框包括：以给定的追踪对象框的中心为中心，以给定的追踪对象框为滑动窗口，以预设步长向中心的上下左右各方向移动该滑动窗口，每次移动后将该滑动窗口内的图像取出，作为选取的样本框。另外，该滑动窗口移动的方向不限，通过在该中心的上下左右各个方向选取样本框，能够保证样本框分布较为均匀，使得图像中的每个部分都能够被选取出一定数量的样本框，进而保证视频追踪网络模型学习的均衡度。可以理解的是，滑动窗口移动步长(即预设步长)的选取需要根据图像的大小以及追踪对象框的大小进行综合考虑。若滑动窗口移动步长过小，虽然能够得到数量较多的样本框，提高视频追踪网络模型的学习精度，但是会导致样本数量过多，进而降低视频追踪网络模型的学习和训练速度；若滑动窗口移动步长过大，会导致选取的样本框数量较少，虽然能够提高视频追踪网络模型的学习和训练速度，但是会由于样本数量过少，视频追踪网络模型没能学到追踪对象的特征或仅学到部分追踪对象的特征，使得视频追踪网络模型的精度较低，不能有效实现视觉追踪任务。在实际使用时，根据待追踪视频的分辨率以及追踪任务对精度的需求进行选取，本发明实施例对此不作限制。

步骤S102：计算样本框与给定的追踪对象框的交并比。

具体地，交并比的计算步骤如图3所示，包括：

步骤S1021：计算样本框与给定的追踪对象框的交集面积和并集面积。

具体如图4所示，若给定的追踪对象框为S1，面积为m1；样本框为S2，面积为m2，则样本框与给定的追踪对象框的交集面积为A，并集面积为m1+m2-A。

步骤S1022：利用交集面积除以并集面积得到交并比。

结合图4中的示例，交并比ρ的计算公式如下：

步骤S103：根据交并比从多个样本框中提取正集样本框和负集样本框。

其中，因为交并比反映样本框与给定的追踪对象框的重叠程度，进而体现样本框与追踪对象框的相关性。

与给定的追踪对象框重叠较多的样本框，含有的需要视频追踪网络模型学习的特征越多，该样本框越重要。

与给定的追踪对象框重叠较少或没有重叠的样本框，含有的需要视频追踪网络模型学习的特征越少或没有，该样本框作为负集。

具体地，根据交并比从多个样本框中提取正集样本框和负集样本框包括：

步骤a：将交并比与第一预设阈值和第二预设阈值进行比较，其中，第一预设阈值大于第二预设阈值。

在一个可选的实施例中，第一预设阈值可为0.8，第二预设阈值可为0.5；或者第一预设阈值为0.85，第二预设阈值为0.3，当然，本发明不以此为限。

步骤b：当交并比大于第一预设阈值时，将对应样本框划分为正集样本框。

其中，当交并比大于第一预设阈值时，则说明该样本框与追踪对象框的交集面积较大，距离追踪对象框较近，学习价值高。

步骤c：当交并比小于第二预设阈值时，将对应样本框划分为负集样本框。

其中，当交并比小于第一预设阈值时，则说明该样本框与追踪对象框的交集面积小，距离追踪对象框较远，与追踪对象的区别较大，则将该样本框作为负极样本框，训练视觉追踪网络模型。

通过上述分析可以得知，当交并比位于第一预设阈值和第二预设阈值之间时，说明该样本框与追踪对象框存在交集面积，但是既不与追踪对象框相近，与追踪对象框的区别也不大，不具有显著性，因此，不将该部分数据作为训练数据，能够防止视觉追踪网络模型的学习方向偏离，有利于实现快速学习和训练，并能提高视觉追踪网络模型的精度。

综上，将给定的追踪对象框和正集样本框作为正集样本，对应的标签数据为正(也称真)，可以用1来表示，负集样本框作为负集样本，对应的标签数据为负(也称假)，将正集样本和负集样本及其对应的标签数据共同输入视觉追踪网络模型，作为样本数据和标签数据。其中，样本数据包括：正集样本及负集样本；标签数据由正集样本对应的标签及负集样本对应的标签组成。

图5示出了本发明实施例中采用的视频追踪网络模型的结构框图。如图5所示，该视频追踪网络模型包括：预训练的特征提取网络1、网络学习训练模块2以及计算输出模块3。

其中，预训练的特征提取网络用于接收样本数据，并提取每个样本中的抽象的语义特征。

值得说明的是，视觉追踪更多关注的是物体的宏观语义特征，图像的低层次特征是不需要任何形状/空间关系的信息就可以从图像中自动提取的基本特征，比如颜色等。图像的抽象的语义特征是一种高度抽象的特征，指物体的宏观语义特征，比如物体的类别(比如人、车、动物等)、位置、大小，表示图像信息的抽象程度，这些语义特征需要在理解图像的基础上得到，需要更复杂的理解，而抽象的语义特征是构造视觉追踪系统的关键，良好的抽象的语义特征有助于实现高精度视觉追踪。

具体地，该预训练的特征提取网络可以采用ZF型神经网络、压缩的ZF型神经网络、VGG16型卷积神经网络、VGG19型卷积神经网络、Alexnet型神经网络以及Googlenet型神经网络。当然，也可以采用现有基于卷积神经网路(CNN)的物体识别系统。

在一个可选的实施例中，该预训练的特征提取网络采用ZF型神经网络实现，如图6所示，其中，该ZF型神经网络的最后一层使用Euclidean Loss损失函数，该ZF型神经网络包括5个卷积层Conv1～Conv5，在第一卷积层Conv1与第二卷积层Conv2之间以及第二卷积层Conv2与第三卷积层Conv3之间分别设有池化层Pool1和池化层Pool2。其中：

第一卷积层Conv1的卷积核数96，卷积核大小7×7，padding3，步长2，激活函数采用Relu非线性函数，并利用Normalization标准化函数进行归一化。

池化层Pool1的Pooling核大小3×3，步长2，padding1，采用最大值池化方式。

第二卷积层Conv2的卷积核数256，卷积核大小5×5，padding2，步长2，激活函数采用Relu非线性函数，并利用Normalization标准化函数进行归一化。

池化层Pool2的Pooling核大小3×3，步长2，padding1，采用最大值池化方式。

第三卷积层Conv3的卷积核数384，卷积核大小3×3，padding1，步长1，激活函数采用Relu非线性函数。

第四卷积层Conv4的卷积核数384，卷积核大小3×3，padding1，步长1，激活函数采用Relu非线性函数。

第五卷积层Conv5的卷积核数256，卷积核大小3×3，padding1，步长1，激活函数采用Relu非线性函数。

其中，该ZF型神经网络的输入数据的长宽为203×203。

通过采用上述ZF型神经网络，能够有效提取样本数据的抽象的语义特征，为视觉追踪的实现打下良好的基础。

在一个可选的实施例中，该预训练的特征提取网络可以采用压缩的ZF型神经网络实现，如图7所示，其中，该压缩的ZF型神经网络的最后一层使用Euclidean Loss损失函数，该压缩的ZF型神经网络包括5个卷积层Conv1～Conv5，与图6所示的ZF型神经网络相比，去除了池化层Pool1和池化层Pool2。其中：

其中，该压缩的ZF型神经网络的输入数据的长宽为107×107。

通过采用上述压缩的ZF型神经网络，与普通的ZF型神经网络相比，不仅能够有效提取样本数据的抽象的语义特征，而且还能利用目标值调节自身权重，训练网络，达到压缩网络、减少运算量、提高速度的目的。

当然，上述ZF型神经网络及压缩的ZF型神经网络仅是一种示例，在实际使用时，根据需求设置网络的层数以及每层的参数，压缩的原则是：原网络和压缩网络所生成的网络顶层特征图大小要相同，只去掉pooling层，调整步长stride，改变输入图的大小，网络中的低层用于提取边缘特征，高层用于组合边缘特征形成局部特征，更高层用于提取语义特征。

综上，本发明实施例利用神经网络高层特征独立于具体任务的特点，将训练好的ZF型神经网络或压缩的ZF型神经网络实现图像特征提取功能。

网络学习训练模块2用于接收预训练的特征提取网络1提取的抽象的语义特征，并通过对抽象的语义特征的进一步学习和理解，实现学习和训练过程。

具体地，该网络学习训练模块2可以包括：深度学习网络2a、置信度等级划分模块2b、分类器2c、判断模块2d以及训练器2e。

其中，深度学习网络2a通过对抽象的语义特征的进一步学习和理解，得到输入样本对应的网络顶层特征图，该网络顶层特征图包括多个锚点(其中，将顶层特征图上的一个特征值点定义为锚点)，比如一幅长宽为14×14的图像，其锚点数量为196个。

在一个可选的实施例中，该深度学习网络2a可以包括卷积层Conv proposal1以及卷积层Conv proposal cls score1。

置信度等级划分模块2b用于将深度学习网络2a输出的网络顶层特征图根据锚点的置信度值划分为不同置信度等级的多个区域。

值得说明的是，网络顶层特征图中每一个点被称为一个锚点，每一个锚点对应原始输入图片中的一片区域，称为锚点框。

下面，以一幅长宽为14个特征点×14个特征点、锚点框大小设置为171像素×171像素的网络顶层特征图为例，结合图8，说明划分过程：

由于视觉追踪任务中追踪对象一般都在中心，所以假定中心的4个锚点的位置为真实值，对应追踪对象的位置，置信度值为1.00，由四个锚点框组成一个区域，称为真实物体框。计算其余各锚点所对应的锚点框与该真实物体框交集的面积，用交集的面积除以二者并集的面积即为该锚点的置信度值，结果如图8所示。

其中，可以根据锚点的置信度值，将该网络顶层特征图划分为高置信度区域、中置信度区域、低置信度区域。比如，置信度值大于0.8以内的锚点划分为高置信度区域(图8中的D1)，置信度值在0.49以内的锚点划分为中置信度区域(图8中的D2)，其余区域为低置信度区域(图8中的D3)。

分类器2c用于接收锚点的特征值，得到该锚点的评分值，并求取输入到分类器中的一个区域的所有锚点的平均评分值，作为该区域的最终评分值。

具体地，结合图8，因为输入到视觉追踪网络模型的框图片中，一般追踪对象均位于框的某个区域(高置信度区域)，所以在将数据输入分类器中，可以将该区域(比如D1)中的所有锚点的特征值输入分类器，进行评分和平均运算，得到该区域的最终评分值，若该框的标签为1(该框属于正集)，则该区域对应的标签为1；若该框的标签为0(该框属于负集)，则该区域对应的标签为0；后续利用判断模块2d判断该总最终评分与标签相比是否符合要求，若是，则模型正确，若否，则激活训练器2e，进行模型的反向传输与训练过程，调整深度学习网络2a的参数。

另外，框中的其他区域输入分类器，进行评分和平均运算，得到该区域的最终评分值，无论该框的标签为1(该框属于正集)或0(该框属于负集)，因为该区域属于置信度等级较低的区域，则认为该区域对应的标签为0；后续利用判断模块2d判断该总最终评分与标签相比是否符合要求，若是，则模型正确，若否，则激活训练器2e，进行模型的反向传输与训练过程，调整深度学习网络2a的参数。

其中，该分类器采用的分类函数包括：Sigmoid函数、Softmax函数等。

Sigmoid函数是一种在生物学中常见的S型函数，也称为S型生长曲线，由于其单增以及反函数单增等性质，Sigmoid函数常被用作神经网络的阈值函数，将变量映射到0,1之间。

Sigmoid函数的公式如下：

其中，x_i表示锚点的特征值。

Softmax函数又称归一化指数函数，用于多分类过程中，它将多个神经元的输出，映射到(0，1)区间内，可以看成概率(或者称为似然)来理解。

Softmax函数的公式如下：

其中，x_ij表示锚点的特征值，K为类数，取值为2。

在一个可选的实施例中，为保证分类效果，可以同时采用Sigmoid函数、Softmax函数。

另外，因为在模型训练时，该训练器采用不同种类的损失函数，对模型训练的效果不同，有些损失函数偏重于精度，有些损失函数训练后的模型在分类方面效果较好，因此，在一个优选的实施例中，该视觉追踪网络模型可以结合多种损失函数进行模型训练。

比如，在图9所示的视觉追踪网络模型中，该预训练的特征提取网络2a采用压缩的ZF型神经网络实现，该压缩的ZF型神经网络的结构可以参见图6的描述，在此不再赘述。

该视觉追踪网络模型包含四个网络学习训练模块2，其中，每个网络学习训练模块2的深度学习网络均包含两层卷积层，但是，本领域技术人员可以理解的是，每个深度学习网络的卷积层均不同，因为每个深度学习网络输出的数据不同，而且训练时采用的损失函数也不同。

第一个网络学习训练模块的分类器采用Sigmoid函数，训练器采用基于Sigmoid函数的交叉熵损失函数(Sigmoid Cross-entropy Loss)，该函数反映了所有预测中的平均信息量。

基于Sigmoid函数的交叉熵损失函数的公式如下：

第二个网络学习训练模块的分类器采用Softmax函数，训练器采用基于Softmax函数的Logistic Loss损失函数(Softmax Logistic Loss)，Softmax函数反映标准化的概率预测值，SoftmaxLogistic Loss反映逻辑损失值。

基于Softmax函数的Logistic Loss损失函数的公式如下：

第三个网络学习训练模块的分类器采用Sigmoid函数，训练器采用基于Sigmoid函数的Hinge Loss函数(Hinge Loss)，Hinge Loss是一种最大边界值损失函数，经常应用在支持向量机算法中。与0-1损失函数相比，该函数为连续的凸函数。损失值由两部分组成，未正确分类的点，被正确分类的点，但其分值在给定的margin之内。

基于Sigmoid函数的Hinge Loss函数的公式如下：

第四个网络学习训练模块的分类器采用Softmax函数，训练器采用基于Softmax函数的Information-gain Loss函数，Softmax函数反映标准化的概率预测值。Information-gain Loss相比Softmax Logistic Loss多了一个信息矩阵M，该矩阵为K乘K方阵，反应K类之间的相关性。如果正类与负类之间具有相关性，正类和负类提供的信息对于计算损失值都有意义。当M为单位阵，Information-gain Loss和Softmax Logistic Loss完全相同。

基于Softmax函数的Information-gain Loss函数的公式如下：

其中,x_ij表示锚点的特征值，K为类数，取值为2，M表示K×K方阵，M_yi,j表示M矩阵中的第y_i行、第j列的元素值，N表示置信度区域锚点的数。

因为四个网络学习训练模块得到四个总评分值，所以该视觉追踪网络模型还包括加权平均值计算模块，用于将多个网络学习训练模块得到的评分值进行加权平均计算得到最终评分值，根据最终评分值给出被追踪物体的位置和大小。

图10示出了图1中步骤S200的具体步骤。如图10所示，该步骤S200包括：

步骤S201：将正集样本和负集样本输入特征提取网络，提取每个样本的抽象的语义特征。

步骤S202：将抽象的语义特征输入每个深度学习网络，得到每个样本对应的网络顶层特征图，网络顶层特征图包含多个锚点。

步骤S203：利用置信度等级划分模块根据锚点的置信度值将网络顶层特征图划分为不同置信度等级的多个区域。

步骤S204：将不同置信度等级区域的锚点的特征值分别输入分类器，得到每个区域的评分值。

具体地：将某一置信度等级区域的锚点的特征值输入分类器，得到每个锚点的评分值；计算区域的所有锚点的平均评分值，作为区域的评分值。

步骤S205：用判断模块判断每个区域的评分值是否位于预设阈值范围内，所述阈值范围包括所述区域对应的标签。

其中，在实际应用中，视觉追踪的精度很难达到百分之百，所以，在判断模块对每个区域的评分值进行判断时，只需要评分值位于对应标签的预定范围内即可。

举例来说，当区域的标签值为1时，只需要该区域的评分值在[0.8,1]的区间内，则认为模型输出的结果是正确的。当然，[0.8,1]仅是本发明实施例的一种示例，该预设阈值范围根据实际应用中对追踪精度的要求而选定，比如在对追踪精度要求高的场合，该预定阈值范围可以在[0.9,1]或更接近于1，当对追踪精度要求低的场合，该预定阈值范围可以在[0.7,1]或更远离1，本发明实施例对此不作限制。

步骤S206：若评分值位于所述阈值范围内的区域的数量小于预定比例a，则利用训练器调整所述深度学习网络的参数值，然后重复步骤S201至步骤s205，直至评分值位于所述阈值范围内的区域的数量大于预定比例a。

在一个可选的实施例中，预定比例a可以设置为60％、80％或90％，包括但不限于此，实际应用中根据对追踪精度的要求来设置，当对追踪精度要求高时，该预定比例a的数值较高，当对追踪精度要求低时，该预定比例a的数值较低。

步骤S207：评分值位于所述阈值范围内的区域的数量大于预定比例a，则得到训练后的视频追踪网络模型。

其中，该步骤属于对视觉追踪模型的应用，详细步骤参见上述对视觉追踪网络模型中的描述，在此不再赘述。

综上所述，通过深度学习网络对输入样本进行学习，利用分类器对输入样本进行评价，将评价值与标签数据进行比较，实现有监督学习方式，另外，在对样本框进行分类时，根据置信度值对图像进行划分，区分不同位置的重要性，将重要性高的位置加强考虑，将重要性低的位置标签设为0，以此能够更快的完成分类评价过程。

图11示出了图10中步骤S206的具体步骤。如图11所示，该步骤S206包括：

步骤S2061：将不同置信度等级区域的锚点的评分值分别输入训练器中的损失函数，得到不同置信度等级区域对应的损失值。

步骤S2062：将不同置信度等级区域对应的损失值按预设权重加权求和，得到总损失值。

具体地，针对不同置信度等级区域得到对应的多个损失值，将各损失值分别乘以对应的权重之后，再进行求和运算，得到总的损失值，各损失值对应的权重根据区域的置信度等级确定，置信度等级高的区域的权重值大，置信度等级低的区域的权重值小，通过采用这种方式，在计算损失值时能够增强高置信度等级区域的影响，即将重要性高的位置加强考虑，能够更快的完成训练，并能有效提高模型的精度。

步骤S2063：根据总损失值调节深度学习网络的参数值。

其中，参数调整时，学习率优选在0.0005左右。另外，因为视频数据帧之间存在物理连续性，上一帧对下一帧具有指导作用，所以，在调整参数时，当前调整方向＝上一帧调整方向×预设值+新方向。其中，预设值可以选择0.9或0.8，当然，本发明实施例对此不作限制，具体设置根据实际需要进行选取。

在一个可选的实施例中，可将高置信度等级区域和低置信度等级区域输入至损失函数中，对应的总损失值的计算公式如下：

其中，L_TrackingLoss表示总损失值，α和β表示预设权重，L_cls表示训练器采用的损失函数，如基于Sigmoid函数的交叉熵损失函数、基于Softmax函数的Logistic Loss损失函数、基于Sigmoid函数的Hinge Loss损失函数以及基于Softmax函数的Information-gain Loss损失函数，a_i表示稿置信度等级区域的锚点的评分值，a_i ^*表示高置信度等级区域的标签，p_i表示低置信度等级区域的锚点的评分值，p_i ^*表示低置信度等级区域的标签。其中，评分值表示该锚点的特征值输入分类器中的分类函数后，得到的值。

在一个可选的实施例中，在基于Sigmoid函数的交叉熵损失函数中，可以设置α＝4，β＝1，在基于Sigmoid函数的Hinge Loss损失函数中，可以设置α＝3，β＝9；在基于Softmax函数的Logistic Loss损失函数和基于Softmax函数的Information-gain Loss损失函数，可以设置α＝1，β＝10。

当然，本发明并不以此为限，在实际应用中，可以选择将多个置信度等级的区域输入至损失函数中，得到多个损失值，分别对每个损失值根据其置信度等级设置权重。

图12示出了图1中步骤S300的具体步骤。如图12所示，该步骤S300包括：

步骤S301：在后续帧中对应于前一帧中追踪对象框的位置，及其周围区域选取多个候选框。

具体地，可以根据正态分布随机函数选取候选框，也可以采用滑动窗口形式选取候选框。

根据正态分布随机函数选取候选框包括：首先在该后续帧中定位前一帧中追踪对象框的位置，找到该位置的中心(x,y)，并计算该追踪对象框的长度a1和宽度a2，然后基于正态分布随机函数，采用正态分布原则，在该追踪对象框周围区域选取候选框，候选框的中心与该追踪对象框中心相比，位置变化服从正态分布，且候选框与追踪对象框相比，长度和宽度的变化也服从正态分布。

采用滑动窗口形式选取样本框包括：先在后续帧中自动找到前一帧中追踪对象框的位置，然后该位置的中心为中心，以追踪对象框为滑动窗口，以预设步长向中心的上下左右各方向移动该滑动窗口，每次移动后将该滑动窗口内的图像取出，作为选取的候选框。另外，该滑动窗口移动的方向不限，通过在该中心的上下左右各个方向选取样本框，能够保证候选框分布较为均匀。可以理解的是，滑动窗口移动步长(即预设步长)的选取需要根据图像的大小以及追踪对象框的大小进行综合考虑。若滑动窗口移动步长过小，虽然能够得到数量较多的候选框，提高追踪精度，但是会降低追踪速度；若滑动窗口移动步长过大，会导致选取的候选框数量较少，虽然能够提高追踪速度，但是会由于候选框数量过少，不能追踪到追踪对象，不能有效实现视觉追踪任务。在实际使用时，根据待追踪视频的分辨率以及追踪任务对精度的需求进行选取，本发明实施例对此不作限制。

步骤S302：将多个候选框输入训练后的视频追踪网络模型中判断候选框的评分值。

步骤S303：将评分值与预定值进行比较。

步骤S304：当部分或全部候选框的评分值大于预定值时，将评分值最高的候选框作为追踪对象框，实现追踪对象的标定。

步骤S305：当所有候选框的评分值均小于预定值时，追踪失败，则利用后续帧之前的视频帧重新训练视频追踪网络模型。

在一个可选的实施例中，预定值可以为0.7或0.8或0.9等，当然，本发明不以此为限。

其中，视频追踪网络模型内部的具体处理步骤参见上面对视频追踪网络模型的描述，在此不再赘述。

在一个可选的实施例中，该视觉追踪方法在对样本数据进行处理之前，还可以包括：对视频帧进行预处理，比如滤波去燥、边缘增强、混度变换等。

其中，通过预处理图片，能够提高学习速度和精度。

本发明实施例提供的视觉追踪方法，可将现有基于卷积神经网路(CNN)的物体识别系统成功地转变为性能优越的视觉追踪系统，可以利用物体识别系统所学习的丰富特征实现视觉追踪，对于缺乏大规模标注视频的视觉追踪任务来说是十分有帮助的，而且能够避免特征工程和特征聚合等笨重的方法。

通过上述技术方案可以得知，本发明提供的视觉追踪方法，通过在样本分类和模型训练时，将网络顶层特征图划分为不同置信度等级的区域，将不同置信度等级的区域以权重方式组合起来，进行样本分类和模型训练，以此强化高置信度等级区域，实现模型的快速训练和精确跟踪，进而自动追踪视频图像中不断移动变化的物体，并且能适应不同的应用场景。

另外，本发明提供的视觉追踪方法，仅需要标定视频初始帧中追踪对象的位置，无需大量标注视频来训练网络模型，有利于减少人工误差，降低工作量和成本，利于视觉追踪技术的推广和应用。

而且，本发明提供的视觉追踪方法，当模型训练完成后，在对后续帧进行追踪对象标定时，若不能精确追踪的对象，则利用之前的所有视频帧重新训练视频追踪网络模型，能够不断优化视频追踪网络模型，进一步提高追踪精度，使得能在苛刻条件下保持追踪的稳定性，处理时无需消耗大量计算资源，追踪速度接近实时。

再者，本发明提供的视觉追踪方法，通过采用多种不同的损失函数，结合各损失函数的优点，进一步提高了追踪精度和速度。

基于同一发明构思，本申请实施例还提供了一种视觉追踪装置，可以用于实现上述实施例所描述的方法，如下面的实施例所述。由于视觉追踪装置解决问题的原理与上述方法相似，因此视觉追踪装置的实施可以参见上述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图13示出了本发明实施例一种视觉追踪装置的结构图一。如图11所示，该视觉追踪装置100包括：训练数据处理模块10、模型训练模块20以及对象追踪模块30。

训练数据处理模块10用于处理视频初始帧中给定的追踪对象框，得到样本数据和标签数据。

其中，在待追踪视频的初始帧中，通过计算机标定追踪对象框或人工标注追踪对象框，找到追踪对象的位置和大小，然后，利用该追踪对象框作为正集样本，再经过一定的处理，得到样本数据和标签数据。

模型训练模块20利用样本数据和标签数据对预建立的视频追踪网络模型进行训练。

对象追踪模块30利用训练后的视频追踪网络模型标定视频的后续帧中的追踪对象。

本实施例提供的视觉追踪装置，无需大量密集人工标注的视频图像作为训练集，仅需标定视频初始帧中追踪对象的位置，利于减少人工误差，降低工作量和成本，利于视觉追踪技术的推广和应用。

图14示出了本发明实施例一种视觉追踪装置的结构图二；如图14所示，该视觉追踪装置100在包含如图13所示视觉追踪装置的基础上，该视觉追踪装置100的训练数据处理模块10包括：样本框选取单元11、交并比计算单元12以及样本选取单元13。

样本框选取单元11用于在给定的追踪对象框的周围区域选取多个样本框。

交并比计算单元12用于计算样本框与给定的追踪对象框的交并比。

具体计算步骤详见对图3和图4的描述，在此不再赘述。

样本选取单元13用于根据交并比从多个样本框中提取正集样本框和负集样本框。

具体地，样本选取单元13包括：

比较器，用于将交并比与第一预设阈值和第二预设阈值进行比较，其中，第一预设阈值大于第二预设阈值。其中，第一预设阈值可为0.8，第二预设阈值可为0.5；或者第一预设阈值为0.85，第二预设阈值为0.3，当然，本发明不以此为限。

划分器，用于当交并比大于第一预设阈值时，将对应样本框划分为正集样本框；当交并比小于第二预设阈值时，将对应样本框划分为负集样本框。

其中，当交并比大于第一预设阈值时，则说明该样本框与追踪对象框的交集面积较大，距离追踪对象框较近，学习价值高；当交并比小于第一预设阈值时，则说明该样本框与追踪对象框的交集面积小，距离追踪对象框较远，与追踪对象的区别较大，则将该样本框作为负极样本框，训练视觉追踪网络模型。

图15示出了本发明实施例一种视觉追踪装置的结构图三。如图15所示，该视觉追踪装置100的模型训练模块20包括：特征提取单元21、特征学习单元22、等级划分单元23、评分单元24、判断单元25以及训练单元26。其中，视频追踪网络模型的结构参见对图5至图9的描述，在此不再赘述。

特征提取单元21将正集样本和负集样本输入特征提取网络，提取每个样本的抽象的语义特征。

特征学习单元22将抽象的语义特征输入深度学习网络，得到每个样本对应的网络顶层特征图，网络顶层特征图包含多个锚点。

等级划分单元23利用置信度等级划分模块根据锚点的置信度值将网络顶层特征图划分为不同置信度等级的多个区域。

评分单元24将不同置信度等级区域的锚点的特征值分别输入分类器，得到每个区域的评分值。

判断单元25判断每个区域的评分值是否位于预设阈值范围内，所述阈值范围包括所述区域对应的标签。

训练单元26在评分值位于所述阈值范围内的区域的数量小于预定比例a时，则利用训练器调整所述深度学习网络的参数值，直至评分值位于所述阈值范围内的区域的数量大于预定比例a，得到训练后的视频追踪网络模型。

其中，详细步骤参见上述对视觉追踪网络模型中的描述，在此不再赘述。

图16示出了图15中训练单元26的具体结构。如图16所示，该训练单元26包括：损失值计算器26a、加法计算器26b以及调节器26c。其中：

损失值计算器26a将不同置信度等级区域的锚点的评分值分别输入训练器中的损失函数，得到不同置信度等级区域对应的损失值。

加法计算器26b将不同置信度等级区域对应的损失值按预设权重加权求和，得到总损失值。

调节器26c根据总损失值调节深度学习网络的参数值。

在一个可选的实施例中，在基于Sigmoid函数的交叉熵损失函数中，可以设置α＝4，β＝1，在基于Sigmoid函数的Hinge Loss损失函数中，可以设置α＝3，β＝9；在基于Softmax函数的Logistic Loss损失函数和基于Softmax函数的

Information-gain Loss损失函数，可以设置α＝1，β＝10。

图17示出了本发明实施例一种视觉追踪装置的结构图三。如图17所示，该视觉追踪装置100的对象追踪模块30包括：候选框标定单元31、候选框评分单元32、评分比较单元33、追踪对象标定单元34以及模型重训练单元35。

候选框标定单元31在后续帧中对应于前一帧中追踪对象框的位置，及其周围区域选取多个候选框。

候选框评分单元32将多个候选框输入训练后的视频追踪网络模型中判断候选框的评分值。

评分比较单元33将评分值与预定值进行比较。

追踪对象标定单元34当部分或全部候选框的评分值大于预定值时，将评分值最高的候选框作为追踪对象框，实现追踪对象的标定。

模型重训练单元35当所有候选框的评分值均小于预定值时，追踪失败，则利用后续帧之前的视频帧重新训练视频追踪网络模型。

通过上述技术方案可以得知，本发明提供的视觉追踪装置，通过在样本分类和模型训练时，将网络顶层特征图划分为不同置信度等级的区域，将不同置信度等级的区域以权重方式组合起来，进行样本分类和模型训练，以此强化高置信度等级区域，实现模型的快速训练和精确跟踪，进而自动追踪视频图像中不断移动变化的物体，并且能适应不同的应用场景。

另外，本发明提供的视觉追踪装置，仅需要标定视频初始帧中追踪对象的位置，无需大量标注视频来训练网络模型，有利于减少人工误差，降低工作量和成本，利于视觉追踪技术的推广和应用。

而且，本发明提供的视觉追踪装置，当模型训练完成后，在对后续帧进行追踪对象标定时，若不能精确追踪的对象，则利用之前的所有视频帧重新训练视频追踪网络模型，能够不断优化视频追踪网络模型，进一步提高追踪精度，使得能在苛刻条件下保持追踪的稳定性，处理时无需消耗大量计算资源，追踪速度接近实时。

再者，本发明提供的视觉追踪装置，通过采用多种不同的损失函数，结合各损失函数的优点，进一步提高了追踪精度和速度。

图18为本发明实施例计算机设备的结构图。如图18所示，该计算机设备具体可以包括存储器7m、处理器6m、通信接口8m、数据总线9m及存储在存储器7m上并可在处理器6m上运行的计算机程序，处理器6m执行计算机程序时实现上述任一实施例所描述的视觉追踪方法的步骤。

本发明提供的计算机设备，通过在样本分类和模型训练时，将网络顶层特征图划分为不同置信度等级的区域，将不同置信度等级的区域以权重方式组合起来，进行样本分类和模型训练，以此强化高置信度等级区域，实现模型的快速训练和精确跟踪，进而自动追踪视频图像中不断移动变化的物体，并且能适应不同的应用场景。而且，仅需要标定视频初始帧中追踪对象的位置。当模型训练完成后，在对后续帧进行追踪对象标定时，若不能精确追踪的对象，则利用之前的所有视频帧重新训练视频追踪网络模型，能够不断优化视频追踪网络模型，进一步提高追踪精度，使得能在苛刻条件下保持追踪的稳定性。另外，通过采用多种不同的损失函数，结合各损失函数的优点，进一步提高了追踪精度和速度。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述视觉追踪方法的步骤。

本发明提供的计算机可读存储介质，通过在样本分类和模型训练时，将网络顶层特征图划分为不同置信度等级的区域，将不同置信度等级的区域以权重方式组合起来，进行样本分类和模型训练，以此强化高置信度等级区域，实现模型的快速训练和精确跟踪，进而自动追踪视频图像中不断移动变化的物体，并且能适应不同的应用场景。而且，仅需要标定视频初始帧中追踪对象的位置。当模型训练完成后，在对后续帧进行追踪对象标定时，若不能精确追踪的对象，则利用之前的所有视频帧重新训练视频追踪网络模型，能够不断优化视频追踪网络模型，进一步提高追踪精度，使得能在苛刻条件下保持追踪的稳定性。另外，通过采用多种不同的损失函数，结合各损失函数的优点，进一步提高了追踪精度和速度。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请的全部或者部分可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、移动通信终端、多处理器系统、基于微处理器的系统、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视觉追踪方法，其特征在于，包括：

利用训练后的视频追踪网络模型标定所述视频的后续帧中的追踪对象；

所述样本数据包括：正集样本及负集样本；所述标签数据由所述正集样本对应的标签及所述负集样本对应的标签组成；

在所述给定的追踪对象框的周围区域选取多个样本框；

计算所述样本框与所述给定的追踪对象框的交并比；

其中，所述正集样本框和给定的追踪对象框组成所述正集样本，所述负集样本框组成所述负集样本；

所述预建立的视频追踪网络模型包括：预训练的特征提取网络、网络学习训练模块以及计算输出模块；所述网络学习训练模块包括：深度学习网络、置信度等级划分模块、分类器、判断模块、训练器；

2.根据权利要求1所述视觉追踪方法，其特征在于，所述计算所述样本框与所述给定的追踪对象框的交并比，包括：

利用所述交集面积除以所述并集面积得到所述交并比。

3.根据权利要求2所述视觉追踪方法，其特征在于，所述根据所述交并比从多个样本框中提取正集样本框和负集样本框，包括：

4.根据权利要求3所述视觉追踪方法，其特征在于，所述预训练的特征提取网络包括：ZF型神经网络、压缩的ZF型神经网络、VGG16型卷积神经网络、VGG19型卷积神经网络、Alexnet型神经网络以及Googlenet型神经网络。

5.根据权利要求4所述视觉追踪方法，其特征在于，所述将不同置信度等级区域的锚点的特征值分别输入分类器，得到每个区域的评分值，包括：

6.根据权利要求5所述视觉追踪方法，其特征在于，所述利用训练器调整所述深度学习网络的参数值，包括：

根据所述总损失值调节所述深度学习网络的参数值。

7.根据权利要求6所述视觉追踪方法，其特征在于，所述总损失值的计算公式如下：

8.根据权利要求3所述视觉追踪方法，其特征在于，所述网络学习训练模块包括多个，每个所述网络学习训练模块采用不同的损失函数及其对应的分类函数和深度学习网络，所述预建立的视频追踪网络模型还包括用于将多个网络学习训练模块得到的评分值进行加权平均计算得到总评分值的加权平均值计算模块。

9.根据权利要求8所述视觉追踪方法，其特征在于，所述网络学习训练模块包括4个，分别采用基于Sigmoid函数的交叉熵损失函数、基于Softmax函数的Logistic Loss损失函数、基于Sigmoid函数的Hinge Loss损失函数以及基于Softmax函数的Information-gain Loss损失函数。

10.根据权利要求9所述视觉追踪方法，其特征在于，所述Sigmoid函数的公式如下：

其中，x_i表示锚点的特征值。

11.根据权利要求9所述视觉追踪方法，其特征在于，所述Softmax函数的公式如下：

其中，x_ij表示锚点的特征值，K为类数，取值为2。

12.根据权利要求9所述视觉追踪方法，其特征在于，所述基于Sigmoid函数的交叉熵损失函数的公式如下：

13.根据权利要求9所述视觉追踪方法，其特征在于，所述基于Softmax函数的LogisticLoss损失函数的公式如下：

14.根据权利要求9所述视觉追踪方法，其特征在于，所述基于Sigmoid函数的HingeLoss函数的公式如下：

15.根据权利要求9所述视觉追踪方法，其特征在于，所述基于Softmax函数的Information-gain Loss函数的公式如下：

16.根据权利要求6所述视觉追踪方法，其特征在于，所述利用训练后的视频追踪网络模型标定所述视频的后续帧中的追踪对象，包括：

将所述评分值与预定值进行比较；

17.一种视觉追踪装置，其特征在于，包括：

对象追踪模块，利用训练后的视频追踪网络模型标定所述视频的后续帧中的追踪对象；

所述训练数据处理模块包括：

所述模型训练模块在利用所述样本数据和标签数据对预建立的视频追踪网络模型进行训练时，具体用于：

18.根据权利要求17所述视觉追踪装置，其特征在于，所述预建立的视频追踪网络模型包括：预训练的特征提取网络、网络学习训练模块以及计算输出模块；所述网络学习训练模块包括：深度学习网络、置信度等级划分模块、分类器、判断模块、训练器；

所述模型训练模块包括：

训练单元，若评分值位于所述阈值范围内的区域的数量小于预定比例，则利用训练器调整所述深度学习网络的参数值，直至评分值位于所述阈值范围内的区域的数量大于预定比例。

19.根据权利要求18所述视觉追踪装置，其特征在于，所述预训练的特征提取网络包括：ZF型神经网络、压缩的ZF型神经网络、VGG16型卷积神经网络、VGG19型卷积神经网络、Alexnet型神经网络以及Googlenet型神经网络。

20.根据权利要求19所述视觉追踪装置，其特征在于，所述训练单元包括：

21.根据权利要求20所述视觉追踪装置，其特征在于，所述网络学习训练模块包括多个，每个所述网络学习训练模块采用不同的损失函数及其对应的分类函数和深度学习网络，所述预建立的视频追踪网络模型还包括用于将多个网络学习训练模块得到的评分值进行加权平均计算得到总评分值的加权平均值计算模块。

22.根据权利要求21所述视觉追踪装置，其特征在于，所述网络学习训练模块包括4个，分别采用基于Sigmoid函数的交叉熵损失函数、基于Softmax函数的Logistic Loss损失函数、基于Sigmoid函数的Hinge Loss损失函数以及基于Softmax函数的Information-gainLoss损失函数。

23.根据权利要求22所述视觉追踪装置，其特征在于，所述对象追踪模块包括：

评分比较单元，将所述评分值与预定值进行比较；

24.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至16任一项所述的视觉追踪方法的步骤。

25.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至16任一项所述的视觉追踪方法的步骤。