CN111539989B

CN111539989B - 基于优化方差下降的计算机视觉单目标跟踪方法

Info

Publication number: CN111539989B
Application number: CN202010312961.1A
Authority: CN
Inventors: 邢薇薇; 杨宇翔; 张顺利; 于淇; 张健
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2023-09-22
Anticipated expiration: 2040-04-20
Also published as: CN111539989A

Abstract

本发明提供了一种基于优化方差下降的计算机视觉单目标跟踪方法。该方法包括：根据单目标跟踪问题设计基于非凸优化的随机方差下降梯度的深度神经网络模型，对深度神经网络模型进行监督训练，根据训练好的深度神经网络模型使用基于回归动作奖励函数的强化学习方法训练表观模型与运动模型；利用训练好的表观模型、运动模型和深度神经网络模型对当前环境下的单目标进行跟踪，得到跟踪目标的预测位置和尺度；根据当前跟踪目标的位置和目标特征进行表观模型以及运动模型更新，进行下一帧的目标跟踪，直至跟踪结束。本发明的方法不仅运算速度更快，而且具有更稳定的模型探索能力，在绝大多数复杂场景下都能够达到更鲁棒的、高质量的目标跟踪效果。

Description

基于优化方差下降的计算机视觉单目标跟踪方法

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种基于优化方差下降的计算机视觉单目标跟踪方法。

背景技术

计算机视觉单目标跟踪是一种对视频中的目标进行实时定位和分析，提供目标在视频中的位置信息以及运动轨迹信息的研究领域。目标跟踪作为计算机视觉中的中层语义问题，为动作识别、行为分析、智慧交通监控等高级语义问题提供了保障，能够直接对最终分析结果的准确性和正确率产生重要的影响。近些年来，由于技术的蓬勃发展，使得目标跟踪越来越受到重视。

然而，跟踪目标多变、跟踪环境复杂、在复杂环境下进行鲁棒的实时跟踪是当前目标跟踪领域所面临的最大挑战，这也是使得单目标跟踪在计算机视觉领域一直处于研究热点的原因。在单目标跟踪问题中，占据主导地位的两类经典跟踪算法为：基于相关滤波器(correlation filter)的跟踪算法和基于深度学习(deep learning)的跟踪算法。

对于基于深度学习的跟踪算法，其主要思想是使用深度特征表示跟踪目标或者使用预训练的深度模型构建跟踪器跟踪目标，具有区分目标和背景的能力。该跟踪算法的缺点为：深度特征和深度模型需要海量数据进行预训练，并且模型具有大规模的超参数，这限制了其跟踪速度，无法满足实时跟踪的要求。

对于基于相关滤波器的跟踪算法，其主要思想是使用相关滤波器对目标进行拟合，通过生成式方式对跟踪目标表观模型进行在线更新。由于其计算时将矩阵计算等价映射到傅里叶空间，通过傅里叶空间计算提升特征计算效率，提升模型更新速度。该跟踪算法的缺点为：由于其使用人工特征，在复杂环境下无法判别背景与目标，限制了其跟踪鲁棒性。

此外，现有的基于强化学习的单目标跟踪算法，虽然使用了自学习方式将预训练模型的知识迁移到新环境中，然而，其通过随机方式增加模型探索能力，往往会造成模型在复杂环境下剧烈波动，导致目标丢失。其次，为了简化计算，该种方法还采用了分类的思想将目标的动作价值函数定义为整数值。然而，基于分类的思想与目标跟踪问题并不能完全匹配：目标跟踪问题不仅要识别目标，还要对于目标的尺度进行预测，而基于分类思想的动作价值函数会丢失目标的尺度信息。

发明内容

本发明的实施例提供了一种基于优化方差下降的计算机视觉单目标跟踪方法，以克服现有技术的问题。

为了实现上述目的，本发明采取了如下技术方案。

一种基于优化方差下降的计算机视觉单目标跟踪方法，包括：

步骤S1、根据单目标跟踪问题设计基于非凸优化的随机方差下降梯度的深度神经网络模型，使用图片数据集对所述深度神经网络模型进行监督训练，得到训练好的深度神经网络模型；

步骤S2、根据所述训练好的深度神经网络模型使用基于回归动作奖励函数的强化学习方法训练表观模型与运动模型；

步骤S3、利用训练好的表观模型、运动模型和深度神经网络模型对当前环境下的单目标进行跟踪，采用具有拓展模型探索能力的自适应探索策略计算得到跟踪目标的预测位置和尺度；

步骤S4、根据当前跟踪目标的位置和目标特征进行表观模型以及运动模型更新，利用更新后的表观模型与运动模型使用深度神经网络模型进行下一帧的目标跟踪，直至跟踪结束。

优选地，所述的步骤S1具体包括：

S1.1、根据单目标跟踪问题设计基于非凸优化的随机方差下降梯度的深度神经网络模型，该深度神经网络模型包括四层卷积层和两层全连接层；

基于非凸优化的随机方差下降梯度的监督学习方式训练所述深度神经网络模型，初始化深度神经网络模型的参数其中θ表示网络参数，s表示第s轮网络训练，m表示每一轮训练数据量；

S1.2、根据当前轮s训练得到的梯度并赋值给/>在当前轮s的网络参数θ^s基础上，计算下一轮s+1的网络参数θ^s+1，计算公式如下：

公式中，B表示批量大小，η表示步长，t表示第t个批量，v表示中间网络参数变量，x表示当前目标特征；表示前s轮训练得到的梯度，/>表示下一轮s+1网络参数中的目标特征梯度变化量；

S1.3、根据网络设定的有监督训练轮数，最终获得经过数据监督训练后的深度神经网络的网络参数；

S1.4、在S1.3中获得的深度神经网络的网络参数的基础上，初始化深度神经网络的网络参数s表示第s轮网络训练，m表示每一轮训练数据量；

S1.5、基于非凸优化的随机方差下降梯度的强化学习方式训练初始化后的深度网络模型；

根据当前轮s训练得到的梯度并赋值给/>在当前轮s的网络参数θ^s基础上，计算下一轮s+1的网络参数θ^s+1，计算公式如下：

公式中，B表示批量大小，η表示步长，t表示第t个批量，v表示中间网络参数变量，x表示当前目标特征，ω是修正系数；

S1.6、经过网络设定的有监督训练轮数，获得经过数据监督训练后的深度神经网络模型。

优选地，所述深度神经网络模型中的每层卷积层结构的长宽和通道数依次为112*112*3、51*51*96、11*11*256、3*3*512，用于网络卷积特征提取；每层全连接层结构的是长宽和通道数依次为1*1*512、1*1*(512+mk)，其中mk为额外特征信息量，用于跟踪目标预测。

优选地，所述的步骤S2具体包括：

S2.1、基于回归思想设计强化学习下的动作评价函数计算公式如下：

其中p_j表示生成的样本位置，a表示模型预测动作，f(p_j,a)表示位移后的预测位置，G表示真实位置，

S2.2、通过优化的非凸随机方差下降梯度方法，根据所述动作评价函数设计表观模型和运动模型的网络损失函数L_SL，计算公式如下：

其中m表示批量大小，L₁表示交叉熵损失函数，L₂是平方损失函数；

S2.3、训练好的深度神经网络包含初始化的表观模型和运动模型，所述表观模型用于对目标表观特征进行刻画，所述运动模型用于对目标运动特征进行刻画，使用基于回归动作奖励函数的强化学习方法利用所述网络损失函数L_SL训练初始化的表观模型与运动模型，得到训练好的表观模型与运动模型；

设计表观模型与运动模型的参数更新函数ΔW_RL，计算公式如下：

其中Z_t,l表示目标位置评价函数，L表示帧数，T_l表示第l帧时更新的次数，目标位置评价函数根据当前跟踪结果给出评价值。

优选地，所述的步骤S3具体包括：

S3.1、由训练好的表观模型和运动模型构成跟踪模型，根据当前跟踪目标状态，运动模型通过运动组对当前目标运动状态进行描述和表示，通过深度神经网络模型计算动作组中各动作的得分，共包含11个动作用于目标移动；如果当前跟踪长度不足30帧，则选择得分最高动作，并直接执行S3.3；否则进入S3.2；

S3.2、将深度神经网络计算出的各动作的得分，与各动作的考虑时间和空间信息的CUCB得分分别相加，分别获得各个动作的自适应探索能力得分，选择自适应探索能力得分最高的动作，所述CUCB得分由以下公式获得：

其中，M_i表示动作i在动作库中出现的次数，t为跟踪时间，表示当前模型对于动作i的评分，A_t为CUCB历史动作得分；

S3.3、将自适应探索能力得分最高的动作加入历史动作CUCB序列中，更新历史动作CUCB序列，对当前跟踪场景和目标位置通过该自适应探索能力得分最高的动作进行位移，并且根据移动后的位置使用跟踪模型对其移动效果进行评价，跟踪成功后，进行下一次模型动作选择；若跟踪不成功，则返回移动之前的位置，使用跟踪模型重新进行动作预测并评价，选择合适的预测位置。

优选地，所述的步骤S4具体包括：

根据当前跟踪目标的位置和目标特征对跟踪模型进行更新，在目标的位置进行高斯分布采样，生成100个正样本目标框和100个负样本目标框，对跟踪模型进行训练和模型更新，通过学习当前目标的表观特征和运动模式，利用所述参数更新函数ΔW_RL对当前的表观模型和运动模型参数进行更新，使跟踪模型能够不断拟合变化后的目标和环境。之后进行下一帧的目标跟踪任务，重复S1-S4全部步骤，直至视频序列结束，跟踪模型输出本段视频序列中，跟踪目标的位置和尺度信息。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例所述技术方案相比较于如今较为流行的基于深度学习和相关滤波器等的目标跟踪器，不仅运算速度更快，而且具有更稳定的模型探索能力，在绝大多数复杂场景下都能够达到更鲁棒的、高质量的目标跟踪效果。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例提供了一种基于优化方差下降的计算机视觉单目标跟踪方法的实现原理示意图；

图2为本实施例提供了一种基于优化方差下降的计算机视觉单目标跟踪方法的具体处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

为了解决现有技术中的上述问题，需要提供一种实时、鲁棒的计算机视觉单目标跟踪方法。本发明实施例提出了一种基于优化方差下降的计算机视觉单目标跟踪方法。

本实施例提供了一种基于优化方差下降的计算机视觉单目标跟踪方法的实现原理示意图如图1所示，具体处理流程如图2所示，包括如下的处理步骤：

步骤S1、根据单目标跟踪问题设计基于非凸优化的随机方差下降梯度的深度神经网络模型，使用海量图片数据集对深度神经网络模型进行监督训练；

步骤S2、使用基于回归动作奖励函数的强化学习方法进行表观模型与运动模型训练；

步骤S3、使用深度神经网络模型对当前复杂环境下的单目标进行跟踪，采用具有拓展模型探索能力的自适应探索策略，计算得到跟踪目标的预测位置和尺度；

步骤S4、根据当前跟踪目标位置和目标特征进行表观模型以及运动模型更新，之后进行下一帧的目标跟踪直至跟踪结束。

本实施例中，步骤S1是整个基于优化方差下降的计算机视觉单目标跟踪方法的基础，步骤S1进一步包括如下子步骤：

S1.1、根据单目标跟踪问题设计基于非凸优化的随机方差下降梯度的深度神经网络模型，该深度神经网络模型的网络主体结构是由四层卷积层和两层全连接层组成，其中每层卷积层结构的长宽和通道数依次为112*112*3、51*51*96、11*11*256、3*3*512，用于网络卷积特征提取；每层全连接层结构的是长宽和通道数依次为1*1*512、1*1*(512+mk)，其中mk为额外特征信息量，用于跟踪目标预测。

基于非凸优化的随机方差下降梯度的监督学习方式训练上述深度神经网络模型，初始化深度神经网络模型的参数其中θ表示网络参数，s表示第s轮网络训练，m表示每一轮训练数据量；为接下来网络参数训练做准备。

公式中，B表示批量大小，η表示步长，t表示第t个批量，v表示中间网络参数变量，x表示当前目标特征；表示前s轮训练得到的梯度，/>表示下一轮s+1网络参数中的目标特征梯度变化量。用于接下来网络参数更新。

S1.3、根据网络设定的有监督训练轮数，最终获得经过海量数据监督训练后的深度神经网络的网络参数。

S1.5、基于非凸优化的随机方差下降梯度的强化学习方式训练初始化后的深度网络模型。S1.5和S1.6是初始化后的深度网络模型进行强化学习的网络训练过程。

公式中，B表示批量大小，η表示步长，t表示第t个批量，v表示中间网络参数变量，x表示当前目标特征，ω是修正系数；用于下一阶段网络参数更新。

S1.6、根据网络设定的有监督训练轮数，最终获得经过海量数据监督训练后的深度神经网络模型。其中，进行10000轮的模型训练，可以达到充分进行强化学习训练模型的目的；

本实施例中，在步骤S1.1到S1.3进行模型有监督训练，按照分类问题进行模型训练，所以网络参数批量大小B、步长η参考同类图片分类网络参数进行设定。同时对于网络模型训练迭代次数，设置为10000，在考虑模型训练效率上，能够保证模型训练后的准确性。在步骤S1.4到S1.6进行强化学习模型训练，强化学习模型参数由S1.3获得的有监督学习模型参数进行初始化，相比于随机初始化模型，可以减少训练时间，在有监督学习模型学习获得的判别能力上，进行强化模型学习，加快模型收敛。其中，强化学习模型训练轮数设置为10000，由于强化学习模型需要进行充分训练，达到模型对于解空间的充分探索尝试，对最终强化学习模型的判别能力提供保障。经过有监督学习和强化学习两阶段模型训练后，最终获得目标跟踪模型。需要说明的是，有监督学习阶段是分类问题训练，只考虑目标分类准确率，强化学习阶段是跟踪问题训练，在达到高目标分类准确率的同时，也要保证跟踪的准确率。

本实施例中的步骤S1解决了跟踪模型训练参数波动过大问题，此步骤往往是目标跟踪的初始步骤，用于获得跟踪模型和模型参数。本实施例与其他目标跟踪器不同，采用了非凸优化的随机方差下降梯度分别对有监督学习和强化学习方法进行优化，即，使用前一轮训练获得的梯度信息辅助下一轮训练模型参数的初始化，而非其他跟踪方法使用的随机梯度下降方法。同时设计了修正系数ω，用于调整模型当前参数与更新模型更新参数之间比例，达到优化参数学习的目的。

本实施例中，步骤S2是对于强化学习中动作评价函数的优化，能够保证模型对于目标尺度变化敏感，步骤S2进一步包括如下子步骤：

上述动作评价函数用于指导表观模型和运动模型的参数训练和模型收敛。

其中m表示批量大小，L₁表示交叉熵损失函数，L₂是平方损失函数；用于强化学习模型网络训练。

S2.3训练的网络参数是由步骤1中训练得到的参数进行初始化，在参数初始化后进行进一步网络参数训练。

本实施例中，步骤S2中的训练数据包含目标位置，目标尺度，以及目标和背景特征信息。

本实施例中，步骤S2中的动作价值范围为[0，1]的连续值，可以有效表示跟踪器预测结果与真实目标位置的匹配程度。

本实施例中，步骤S2的分类中，损失函数中分别采用交叉熵损失函数和平方损失函数用于对分类和回归值进行计算。其中两者比例为1：1，共同决定最终损失函数值。

本实施例中，解决了模型对于跟踪目标尺度变化不敏感的问题。此步骤中，强化学习模型中的动作价值评价被用来决定模型的学习目标。本实施例与其他目标跟踪器不同，采用了回归思想设计了动作价值评价函数，而非分类思想。使得动作评价函数在区分跟踪目标和背景的同时也可以对目标尺度变化进行回归学习，使模型能够更加精确地定位跟踪目标，减少由于模型对于目标尺度变化不敏感而导致的额外干扰信息的引入，降低模型错误更新以及由此导致的目标跟踪失败问题。

本实施例中，步骤S3进一步包括如下子步骤：

初始模型时采用贪心算法，当模型稳定时，同时考虑时空信息，在当前跟踪环境下选择最优动作。

上述步骤S3.1和步骤S3.3的伪代码如下所示，其中，步骤S3.1对应伪代码为第1-5行，伪代码第3行表示当前模型对于目标没有完全鲁棒，使用贪心算法选择最优跟踪器运动动作作为当前预测输出，伪代码第5行表示当模型已经学习到当前环境特征，选取自适应拓展预测算法，增加模型对于当前环境探索能力，赋予模型跳出局部最优解能力，有机会得到更优预测结果。步骤S3.2对应伪代码第8-13行，其中伪代码第10行表示将当前模型预测信息存储于，并利用历史信息，对当前模型参数进行更新。

上述步骤S3.2的伪代码如下所示，自适应探索机制通过计算跟踪历史动作值，并且将其于现有模型对于各动作的预测值相加，得到最终自适应探索预测结果。其中伪代码第3行表示对将历史动作记录加入当前动作评价值中，考虑时空因素对于当前动作价值进行评价。伪代码第4行表示将模型中各动作预测值与时空信息评价值结合，获得最终自适应探索算法下的动作评价值，选择最大值的动作，作为当前预测动作。

本实施例中，步骤S3.2例如：目标跟踪中，模型对于目标运动动作定义为11种动作类型，包括水平上下左右、两倍上下左右、尺度扩大、尺度缩小、停止。其中上下左右表示将当前目标跟踪框在当前环境下，进行水平的上下左右移动，两倍上下左右移动表示将目标框的水平移动距离扩大2倍后移动，尺度扩大和缩小表示以跟踪框中心点为中心，在原有尺度的基础上，进行跟踪框尺度的扩大和缩小，最后停止表示当前帧模型跟踪完成，得到当前帧最优预测目标位置。其具体流程为，首先模型根据当前目标运动状态，分别对11种动作进行评价，由高到低进行排序。当跟踪帧数小于30帧时，采用贪心算法选择当前得分最高的动作作为模型输出，将跟踪框按照最优动作在当前环境下移动，并将最优动作加入动作历史记录；当跟踪帧数大于等于30帧时，采用自适应探索算法，首先由跟踪模型根据当前环境和目标，给出对于各个动作的动作价值评价。之后，采用最优动作历史，按照S3.2伪代码流程，计算考虑历史动作时空因素的动作评价值，将模型预测的各个动作评价值与S3.2得到的历史动作评价值相加，获得各个动作的最终自适应探索评价值。之后选择评价值最高的动作，以1-ε的概率作为当前模型预测的最优动作或ε概率选择其他动作作为最优动作(ε∈[0,1])，将跟踪框按照最有动作进行运动，同时将最优动作存储在历史动作库种，以便下一次计算使用。针对历史动作库，考虑到时间影响的程度大小，我们设定了动作选择的时间范围，将历史动作库设定为可以存储110个历史动作，当历史动作超过这一数值时，采用队列的先进先出机制，对历史动作库进行更新。

本实施例中，为了增强模型探索能力设计了跳出局部最优解的机制，但是因此会导致模型一定程度的波动。为了尽量避免这种波动进而丢失目标的情况发生，设置了一个时间阈值T用于控制跟踪模型动作选择机制的选择。倘若采用过大时间阈值，则原算法回归为贪心算法，只选择最优值进行跟踪框运动更新。当模型陷入局部最优解时，跟踪模型无法跳出局部最优解，限制了模型跟踪准确率。当采用T值过小时，模型直接采用考虑时空信息进行动作选择，然而当前模型对于跟踪目标和环境并没有达到很好的拟合能力。此时的引入随机性探索能力会导致模型在初始化阶段剧烈波动，无法精准表示跟踪目标，最终导致目标丢失。所以选择一个合适的时间阈值T对于模型的准确性和鲁棒性十分重要。通过大量跟踪实验数据分析，当T＝30时，跟踪模型对于当前目标和环境已经具有很好的拟合能力，此时为了增加模型探索即可以避免模型由于额外干扰信息产生模型剧烈波动，同时也可以满足模型跳出局部最优解的需求，扩展模型探索能力。通过以上分析，本实施例中的时间阈值T取值设定为30。

本实施例中，步骤S4的具体过程为：

如上所述，本发明通过引入非凸优化方差下降算法和自适应探索算法到计算机视觉跟踪领域，并且突出基于优化方差下降方法(步骤S1中针对监督学习和强化学习的非凸优化)以及自适应探索方法(S3中自适应探索算法)以达到更加快速、鲁棒的视频目标跟踪目的。更具体地，本发明首先采用非凸优化方法优化方差下降方法，与传统的深度学习方式和相关滤波器方式不同，本方法在模型训练和跟踪阶段可以保证跟踪模型在剧烈变化的复杂环境下进行稳定的模型更新。本发明采用自适应动作选择机制能够增强模型探索能力，跳出局部最优解，与已有的强化学习跟踪器不同，我们在增加模型探索能力的同时，也保证了模型在更新过程中的稳定性，不会以为模型剧烈波动导致目标丢失。本发明采用的回归思想设置的动作评价函数，分别针对目标分类损失函数和目标尺度损失函数进行了优化，与传统强化学习方法使用分类思想进行损失函数设计相比较，本发明对于跟踪目标在跟踪进程中的尺度变化更加敏感，可以有效准确识别跟踪目标的尺度变化，从而更加精准跟踪目标，减少额外干扰信息的引入。本算法与其他强化学习的跟踪方法比较，可以更加精准的定位目标位置和尺度，同时由于自适应的动作选择机制，可以加速跟踪中间速度，达到提升跟踪速度的目的。

在目标跟踪准确率上，本发明在能够精准跟踪目标的基础上，实现更加高效的目标跟踪。我们使用非凸优化方差下降方法可以加快模型训练收敛速度和降低模型损失函数值，同时在多个数据集上的实验结果证明，在日常目标跟踪问题上，相比于其他强化学习目标跟踪方法，本发明在准确率上明显由于其他强化学习跟踪方法，在三个数据集上分别高出5.7％，2.9％和5.0％。具体实验结果如表1和表2所示。

表1非凸优化方差下降方法比较

表2不同算法在目标跟踪中的速度及准确率

综上所述，本发明实施例所述技术方案相比较于如今较为流行的基于深度学习和相关滤波器等的目标跟踪器，不仅运算速度更快，而且具有更稳定的模型探索能力，在绝大多数复杂场景下都能够达到更鲁棒的、高质量的目标跟踪效果。

本发明实施例方法的目标跟踪准确度高于基于相关滤波器的跟踪器，相比于基于深度模型的跟踪器，在不损失跟踪精度的同时使用较小的网络结构和较少参数，实现实时跟踪；采用回归思想设计了价值函数，对于跟踪目标尺度变化更加敏感；设计的非凸优化的随机方差下降梯度可以有效加快跟踪模型训练速度，并增强模型稳定性。

相比于传统强化学习跟踪器使用的贪心方法做出决策，本发明所述技术方案通过引入自适应决策算法，能够基于时空信息跳出局部最优解，使得模型能够得出更优的目标跟踪预测结果。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于优化方差下降的计算机视觉单目标跟踪方法，其特征在于，包括：

步骤S1、根据单目标跟踪问题设计基于非凸优化的随机方差下降梯度的深度神经网络模型，使用图片数据集对所述深度神经网络模型进行监督训练，得到训练好的深度神经网络模型，具体包括：

S1.6、经过网络设定的有监督训练轮数，获得经过数据监督训练后的深度神经网络模型；

2.根据权利要求1所述的方法，其特征在于，所述深度神经网络模型中的每层卷积层结构的长宽和通道数依次为112*112*3、51*51*96、11*11*256、3*3*512，用于网络卷积特征提取；每层全连接层结构的是长宽和通道数依次为1*1*512、1*1*(512+mk)，其中mk为额外特征信息量，用于跟踪目标预测。

3.根据权利要求1所述的方法，其特征在于，所述的步骤S2具体包括：

4.根据权利要求3所述的方法，其特征在于，所述的步骤S3具体包括：

5.根据权利要求4所述的方法，其特征在于，所述的步骤S4具体包括：

根据当前跟踪目标的位置和目标特征对跟踪模型进行更新，在目标的位置进行高斯分布采样，生成100个正样本目标框和100个负样本目标框，对跟踪模型进行训练和模型更新，通过学习当前目标的表观特征和运动模式，利用所述参数更新函数ΔW_RL对当前的表观模型和运动模型参数进行更新，使跟踪模型能够不断拟合变化后的目标和环境，之后进行下一帧的目标跟踪任务，重复S1-S4全部步骤，直至视频序列结束，跟踪模型输出本段视频序列中，跟踪目标的位置和尺度信息。