CN111508000A

CN111508000A - 基于参数空间噪声网络的深度强化学习目标跟踪方法

Info

Publication number: CN111508000A
Application number: CN202010290926.4A
Authority: CN
Inventors: 邢薇薇; 杨宇翔; 张顺利; 于淇; 魏翔
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2020-08-07
Anticipated expiration: 2040-04-14
Also published as: CN111508000B

Abstract

本发明提供了一种基于参数空间噪声网络的深度强化学习目标跟踪方法。该方法包括：构建基于深度强化学习的目标跟踪模型，设计基于参数空间噪声线性层的网络损失函数，通过目标跟踪模型对目标进行视频序列中的逐帧跟踪，输出跟踪得到的当前帧的目标位置；通过贪心算法选择最优的模型更新模式，根据最优的模型更新模式利用网络损失函数对当前的目标跟踪模型进行参数更新；基于当前帧的目标位置通过更新后的目标跟踪模型进行下一帧的目标跟踪，重复执行上述处理过程，直至完成全部帧的目标跟踪，输出目标在视频序列中完整的位置信息。本发明的方法运算速度更快，具有更好的可迁移性和鲁棒性，在复杂场景下都能够达到更高效、鲁棒的目标跟踪结果。

Description

基于参数空间噪声网络的深度强化学习目标跟踪方法

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种基于参数空间噪声网络的深度强化学习目标跟踪方法。

背景技术

计算机视觉目标跟踪是指在视频序列中对人为标注或检测出的感兴趣目标进行位置和尺度的预测和标定，当全部视频序列结束后，给出目标完整的运动位置轨迹和尺度变化信息。计算机视觉目标跟踪通常属于中层语义问题，介于如图像分类这种浅层语义问题和如动作识别这种高层语义问题之间，很大程度上能够对最终图像视频语义分析的准确率和速度等产生重要的影响。近些年来，由于上述技术的蓬勃发展，计算机视觉目标跟踪越来越受到重视。

然而，由于视频中跟踪环境的复杂性，在复杂环境下高鲁棒性和实时的目标跟踪技术一直是计算机视觉领域中研究的热点。在计算机视觉目标跟踪算法中，主流的两类计算机视觉目标跟踪算法为：深度卷积神经网络算法和深度强化学习算法。

深度卷积神经网络算法的主要思想是利用深度卷积神经网络庞大的参数和强大的模型拟合能力，对跟踪目标进行拟合，用于准确区分跟踪目标与环境背景，从而达到鲁棒的目标跟踪效果。然而基于深度卷积神经网络算法的目标跟踪模型，由于计算量过大，通常情况下，无法满足目标跟踪的实时性要求，从而限制了模型的跟踪效率和使用范围。

深度强化学习算法的主要思想是使用强化学习方式，基于深度学习模型，通过自学习方式，强化目标跟踪模型对于未知环境和目标的判别和表示能力，并通过赋予模型探索能力进一步提升模型的知识迁移能力。然而，此类基于强度强化学习的目标跟踪方法都存在一个问题——使用简单的动作空间噪声扩展模型探索能力。这会导致模型在复杂环境下的学习过程中产生剧烈波动，导致目标丢失。

此外，现有的目标跟踪算法，对于当前模型更新策略普遍采用定时更新和单一模型更新，虽然可以快速简洁地完成模型对于当前目标变化的拟合更新，然而往往会造成由于模型更新模式单一、无法自适应调整更新策略和时间而导致模型对于目标判别能力的下降。在实际应用中，在不同复杂度的环境下，模型更新的时间和更新模式都存在差别，如果使用固定的模式适用于全部跟踪问题，必然会导致目标跟踪模型在不同环境下的迁移能力大大下降，降低了模型的鲁棒性。

因此，需要提供一种实时、准确、鲁棒的基于参数空间噪声网络的深度强化学习目标跟踪方法。

发明内容

本发明的实施例提供了一种基于参数空间噪声网络的深度强化学习目标跟踪方法，以克服现有技术的问题。

为了实现上述目的，本发明采取了如下技术方案。

一种基于参数空间噪声网络的深度强化学习目标跟踪方法，构建基于深度强化学习的目标跟踪模型，设计基于参数空间噪声线性层的网络损失函数，所述方法具体包括：

通过所述目标跟踪模型对目标进行视频序列中的逐帧跟踪，输出跟踪得到的当前帧的目标位置；

通过上置信界算法选择最优的模型更新模式，根据所述最优的模型更新模式利用所述基于参数空间噪声线性层的网络损失函数对当前的目标跟踪模型进行参数更新；

基于所述当前帧的目标位置通过更新后的目标跟踪模型进行下一帧的目标跟踪，重复执行上述处理过程，直至完成全部帧的目标跟踪，输出目标在视频序列中完整的位置信息。

优选地，所述的构建构建基于深度强化学习的目标跟踪模型，包括：

根据训练数据构建基于深度强化学习的目标跟踪模型，该目标跟踪模型包括执行者模型、评判者模型和动作经验缓冲区；

所述执行者模型用于根据当前跟踪的目标情况进行目标跟踪和定位，给出目标的跟踪结果，其网络主体结构由四层卷积层和两层全连接层组成，每层卷积层结构依次为112*112*3、51*51*96、11*11*256、3*3*512的卷积层，用于提取目标卷积特征提取；两层全连接层结构依次为1*1*512、1*1*512全连接层，用于输出跟踪的目标位置；

所述评判者模型用于根据当前的目标实际情况对执行者模型给出的目标的跟踪位置结果进行评判，判断是否符合真实目标位置，对目标的跟踪位置结果进行评判和反馈，其网络主体结构包含四个卷积层和两个全连接层，四个卷积层结构依次为112*112*3、51*51*96、11*11*256、3*3*512的卷积层，两个全连接层分别是1*1*512和1*1*512+4；

所述动作经验缓冲区用于存储和提取执行者模型在跟踪过程中采取的跟踪策略历史记录，用于网络参数更新。

优选地，所述的设计基于参数空间噪声线性层的网络损失函数，包括：

设计参数空间噪声线性层，计算公式如下：

公式中，

是输入特征，

是权重矩阵，

是偏置，

代替原有网络权重矩阵ω，

代替原有网络偏置b，

是可学习参数，

是噪声参数；y表示网络参数，用于网络参数更新；

设计基于参数空间噪声线性层的网络损失函数，用于模型在预训练阶段和在线跟踪阶段的模型参数更新，网络损失函数的计算公式如下：

公式中D是动作缓存库，θ^-表示目标网络平稳更新后的参数(θ^-←θ)，Q(x,a,ε|ζ)表示参数化的动作价值函数，γ表示权重系数，

是网络损失函数，E表示期望，通过将网络损失值转化为期望，最终得到损失函数值。

优选地，所述的通过所述目标跟踪模型对目标进行视频序列中的逐帧跟踪，输出跟踪得到的当前帧的目标位置，包括：

经过预训练得到的初始化的目标跟踪模型网络为原始网络，该原始网络包括初始化的执行者模型和评判者模型，执行者模型和评判者模型分别都有各自的在线网络和目标网络，通过执行者模型中的在线网络对当前跟踪目标以及环境进行在线的学习和评价，预测出目标的当前的位置和尺度，计算公式如下：

Q(s_t,a_t)＝r(s_t,a_t)+γQ(s_t+1,π_θ(s_t-1))

公式中，π_θ是执行者模型，r是价值函数，s是当前环境，a是当前选取的动作，通过训练使得评判者模型能够获得最大的Q(s_t,a_t)值，Q(s_t,a_t)表示动作评价函数用于中损失函数的计算。

优选地，所述的通过上置信界算法选择最优的模型更新模式，包括：

设定四种模型更新模式包含：不更新、在线模型更新、在线模型和目标模型更新以及重定位，从目标跟踪模型的更新历史记录中获取四种模型更新模式的历史信息，结合当前模型的评价函数值以及四种模型更新模式的历史信息，分别计算四种模型更新模式分别对应的上置信界算法UCB值，计算公式如下：

公式中，v_a表示模型更新模式，c表示权重系数，N_t表示在目标跟踪模型的更新历史记录中各个模型更新模式发生的次数；Q_a表示动作a的模型预测评价值，lnt表示对t时间长度段取对数，用于反应时间影响因素；

选择UCB值最大的模型更新模式为最优的模型更新模式，也作为当前目标跟踪模型的更新模式。

优选地，所述的根据所述最优的模型更新模式利用所述基于参数空间噪声线性层的网络损失函数对当前的目标跟踪模型进行参数更新，包括：

根据所述网络损失函数

设计基于噪声的网络损失函数

根据线性层计算方式设计相应的梯度公式，公式如下：

使用蒙特卡洛优化方式，将梯度信息函数进一步优化为：

在每一帧的目标跟踪过程中，由执行者模型的在线网络对目标进行跟踪，预测出的目标的当前的位置和尺度，并得到执行者模型的目标网络的梯度信息

在每一帧的目标跟踪结束后，由评判者模型的在线网络对执行者模型预测的目标的当前的位置和尺度进行评判，并得到评判者模型的目标网络的梯度信息

之后根据评判者模型给出的评价结果从四种模型更新模式中选择最优的模型更新模式，根据最优的模型更新模式利用所述执行者模型的目标网络的梯度信息

对执行者模型的在线网络和目标网络的参数进行更新，根据最优的模型更新模式利用所述评判者模型的目标网络的梯度信息

对评判者模型的在线网络和目标网络的参数进行更新，之后进行下一帧目标跟踪，直至跟踪任务完成。

优选地，所述的方法还包括：

当目标跟踪模型判定丢失目标时，启用目标重定位机制，在当前环境下进行目标重定位，根据当前跟踪目标的位置尺度以及图像大小自适应计算重定位上下左右四方向的目标变化尺度，公式如下：

Y表示目标中心位置纵坐标，h表示目标高度，H表示图片高度，D表示一次重定位过程中分步执行的次数；Y_i表示第i帧时目标中心位置的纵坐标、h_up表示目标在图像中的最高位置、h_down表示目标在图像中的最低位置和Δh_up表示每次重定位高度扩展的变化尺度；

按照当前四个方向的目标变化尺度，依次在原有目标尺度上进行重定位区域扩展，并进行目标重定位，当重检测的目标位置评价高于阈值，则停止重定位，否则直至扩招到全图片重定位，选择得分最高的结果作为重定位结果；

根据重定位结果得分，如果高于阈值，则选取重定位位置和尺度作为当前的目标跟踪结果，否则选取上一帧的目标跟踪结果作为当前的目标跟踪结果。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例所述技术方案相比较于如今较为流行的强化学习框架，不仅运算速度更快，并且具有更好的可迁移性和鲁棒性，在绝大多数复杂场景下都能够达到更高效、鲁棒的目标跟踪结果。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于参数空间噪声网络的深度强化学习目标跟踪方法的实现原理示意图；

图2为本发明实施例提供的一种基于参数空间噪声网络的深度强化学习目标跟踪方法的处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提供的一种基于参数空间噪声网络的深度强化学习目标跟踪方法的实现原理如图1所示，具体处理流程如图2所示，包括如下步骤：

步骤S1、根据训练数据构建基于深度强化学习的目标跟踪模型，利用目标跟踪模型进行目标跟踪，并使用参数空间噪声对跟踪目标进行拟合和搜索空间拓展。

首先需要根据训练数据训练构建基于深度强化学习的目标跟踪模型，该目标跟踪模型主体包括执行者模型、评判者模型、动作经验缓冲区三部分。

(1)其中执行者模型的主要作用是根据当前跟踪目标情况进行目标跟踪和定位，给出跟踪结果。其网络主体结构是由四层卷积层和两层全连接层组成，根据当前跟踪情况给出跟踪目标的特征，每层卷积层结构依次为112*112*3、51*51*96、11*11*256、3*3*512的卷积层，用于提取目标卷积特征提取；两层全连接层结构依次为1*1*512、1*1*512全连接层，用于输出最终的跟踪目标位置。

(2)评判者模型的主要作用是根据当前目标跟踪情况对执行者模型给出的跟踪位置结果进行评判，判断是否符合真实跟踪目标位置，对跟踪结果进行反馈。其网络主体结构与执行者模型主体结构相似，其中包含四个卷积层和两个全连接层，四个卷积层结构依次为112*112*3、51*51*96、11*11*256、3*3*512的卷积层，两个全连接层分别是1*1*512和1*1*512+4。用于对执行者模型给出的目标跟踪结果进行评判。

(3)动作经验缓冲区是用于存储和提取执行者模型在跟踪过程中采取的跟踪策略历史记录，用于网络参数更新。

原始网络表示经过预训练得到的初始化的目标跟踪模型网络，包括初始化的执行者模型和评判者模型，网络结构分别与执行者模型和评判者模型一致。目标网络和在线网络是针对预训练后的在线跟踪时的网络。执行者模型和评判者模型分别都有各自的目标网络和在线网络，分别用于各自模型的更新，网络结构与执行者模型和评判者模型分别相同。其中在线目标跟踪模型初始化时，用原始网络分别对执行者模型和评判者模型进行初始化得到在线网络，并将在线网络进行复制，分别得到执行者模型和评判者模型的目标网络。之后使用在线网络进行在线的目标跟踪，根据跟踪目标进行在线网络的参数更新。在每一帧跟踪结束后，通过网络模型更新策略，将在线网络与目标网络参数相结合并更新，得到更新后的目标网络，同时将目标网络参数复制到在线网络进行网络参数更新，用于下一帧目标跟踪，直至目标跟踪结束。

参数空间噪声结构如S1.1，其主要功能是根据跟踪目标的特征生成目标跟踪模型的参数空间噪声网络，利用参数空间噪声网络提升目标跟踪模型的鲁棒性，避免在复杂跟踪环境下网络模型产生剧烈变化导致目标丢失。

步骤S2、综合考虑当前跟踪得分以及模型更新历史记录，从四种模型跟踪策略中选择最优模型更新策略，进行模型更新，之后将本次模型更新方式存入模型更新历史记录中；

步骤S3、当模型判定丢失目标时，启用目标重定位机制，在当前环境下进行目标重定位，寻找由于目标遮挡和目标从当前环境消失而导致丢失的目标，重新定位跟踪目标；

步骤S4、获得当前帧跟踪目标的位置和尺度，用于初始化下一帧目标跟踪，直至全部视频结束，目标跟踪完成，提供跟踪目标在视频序列中完整的位置以及尺度信息。

本实施例中，步骤S1是整个基于参数空间噪声网络的深度强化学习目标跟踪方法的基础，步骤S1进一步包括如下子步骤：

S1.1、设计参数空间噪声线性层，用于学习跟踪目标和产生参数空间噪声，计算公式如下：

公式中，

是输入特征，

是权重矩阵，

是偏置，

代替原有网络权重矩阵ω，

代替原有网络偏置b。

是可学习参数，

是噪声参数；y表示网络参数，用于网络参数更新，用于S1.3中损失函数的计算。通过设计参数空间噪声，在接下来的模型参数更新中使得模型具有更好的鲁棒性。

S1.2、计算执行者模型和评判者模型的评价，并对当前环境下跟踪目标的位置和尺度进行预测，计算公式如下：

Q(s_t,a_t)＝r(s_t,a_t)+γQ(s_t+1,π_θ(s_t-1))

公式中，π_θ是执行者模型，r是价值函数，s是当前环境，a是当前选取的动作，通过训练使得评判者模型能够获得最大的Q值；Q(s_t,a_t)。Q(s_t,a_t)表示动作评价函数，用于S1.3中损失函数的计算。主要功能是通过执行者模型和评判者模型给出当前目标跟踪结果，用于网络模型参数更新。

执行者模型对当前跟踪目标以及环境进行学习和评价，给出当前最优的位置和尺度跟踪结果。之后使用评判者模型对预测的跟踪位置和尺度的结果进行评判，并给出最终的目标位置和尺度预测结果。

S1.3、设计了基于参数空间噪声线性层的网络损失函数，用于模型在预训练阶段和在线跟踪阶段的模型参数更新，计算公式如下：

公式中D是动作缓存库，θ^-表示目标网络平稳更新后的参数(θ^-←θ)，Q(x,a,ε|ζ)表示参数化的动作价值函数，γ表示权重系数。

是网络的损失函数，E表示期望，通过将网络损失值转化为期望最终得到损失函数值。其主要功能是通过损失函数值评价模型跟踪效果，最终达到完成模型跟踪目标。

通过样本直接对目标网络和在线网络进行损失值计算，使用贪心算法分别在目标网络和在线网络获取目标最优跟踪动作预测；

S1.4、通过S1.3中给出的目标跟踪结果，目标跟踪模型按照模型输出结果对于目标的当前位置和尺度进行预测。

本实施例中，空间参数噪声有两种产生方式，通常选用独立高斯噪声，本实施例中具体设置为独立高斯噪声，即为空间参数噪声线性层的每一个参数都使用独立的高斯分布产生独立的空间参数噪声，而因式高斯噪声则在简化计算时使用，使用同一个高斯分布产生空间参数噪声。

本实施例中，为了使参数空间噪声和参数相互独立，选择独立高斯分布分别产生参数空间噪声，保证了噪声之间完全独立。如果为了简化计算，则选择因式高斯分布，使用同一组高斯分布，为所有参数空间噪声提供分布。需要说明的是，公式(1)中

代替原有网络权重矩阵ω，

代替原有网络偏置b，使得原有只能随机产生的噪声变为可学习参数和噪声参数两部分，在保证扩展模型探索能力的同时，减小了模型在复杂环境下的波动。如果只使用动作空间噪声，会导致模型在复杂环境下目标剧烈变化时，由剧烈波动的空间噪声导致模型参数剧烈波动，最终丢失目标。因此，本实施例中使用的参数空间噪声为目标跟踪模型的稳定性提供了保障。

本实施例中，为了将参数空间噪声引入到目标跟踪模型中，首先设计了参数空间噪声线性层的输出公式，公式如下：

y＝wx+b

将参数空间噪声θ定义为

其中ζ＝(μ，∑)表示可学习参数，ε表示参数空间噪声，

表示元素间乘法。之后得到基于噪声的网络损失函数

之后根据线性层计算方式，我们设计了相应的梯度公式，公式如下：

可以通过对于μ和ε的计算获得该层的梯度信息。进一步我们使用蒙特卡洛优化方式，将梯度信息函数进一步优化为：

最终完成了从普通线性层到参数空间噪声线性层的梯度计算转换。

梯度计算结果用于更新目标跟踪模型的模型参数和参数空间噪声，最终通过设计的损失函数，目标跟踪模型给出当前最优跟踪结果。

本实施例中的步骤S1解决了原有知识领域迁移到新知识领域中时模型探索能力的扩展问题，此步骤是目标跟踪的初始化步骤，为新环境下的目标跟踪提供了初始模型，用于进一步跟踪。本实施例与其他目标跟踪不同的是本实施例是针对深层确定策略梯度模型设计的，本模型使用双网络模型进行网络学习和参数更新，包含在线网络模型以及目标网络模型，而非其他算法使用的单网络模型。并且采用设计的参数空间噪声损失函数，可以达到模型收敛和鲁棒的目的。

本实施例中，步骤S2是选取最优模型更新策略用于模型在跟踪过程中更新，其中包含四种模型更新模式。步骤S2进一步包括如下子步骤：

S2.1、从更新历史记录中获取四种不同模型更新模式的历史信息，并将其用于后续模型更新模式选择计算中。上述四种模型更新模式包含：不更新，在线模型更新，在线模型和目标模型更新以及重定位。

S2.2、结合当前模型的评价函数值以及包含时空信息的模型更新历史信息中四种模型更新值，分别计算四种模型更新模式分别对应的UCB(upper confidence bound，上置信界算法)值，计算公式如下：

公式中，v_a表示模型更新模式，c表示权重系数，N_t表示在模型历史纪录中各个模型更新模式发生的次数；Q_a表示动作a的模型预测评价值，lnt表示对t时间长度段取对数，用于反应时间影响因素。

S2.3、通过贪心算法选择最优的模型更新模式，对当前模型进行更新，之后将本次选择的模型更新模式添加到模型更新历史记录中。

本实施例中，步骤S2通过计算四种模型更新模型时空信息以及当前目标跟踪模型对于跟踪结果的评价，最终获得四种模型选择的评价值，选择得分最高的跟踪模式作为当前模型的更新模式，模型更新后，将本次采用的模型更新模式加入到历史模型更新模式记录中。例如：目标跟踪模型对于当前跟踪结果以及模型更新时空信息的评价时，不更新模型模式评价最高，则本次选用不更新模型模型。

上述步骤S2.1至步骤S2.3的伪代码如下所示，其中，步骤S2.1对应伪代码为第1行，伪代码第1行表示从模型更新历史库中获取四种建立用于存放各待分割物体的标记点的且初始状态为空的列表openlist，伪代码第4行表示利用S_all对各待分割物体的标记点进行记录，步骤S2.2对应伪代码第2-3行，其中伪代码第7行表示将各待分割物体的标记点放入列表openlist中，步骤S2.3对应伪代码第4-5行。

本实施例中，步骤S2中，历史模型更新长度可以人工设置，也可以采用全部历史记录，还可以考虑特定长度的历史记录。

本实施例中，步骤S3进一步包括如下子步骤：

S3.1、根据当前跟踪目标位置尺度以及图像大小自适应计算重定位上下左右四方向的目标变化尺度，公式如下：

公式中，Y表示目标中心位置纵坐标，h表示目标高度，H表示图片高度，D表示一次重定位过程中，分步执行的次数；Y_i表示第i帧时目标中心位置的纵坐标、h_up表示目标在图像中的最高位置、h_down表示目标在图像中的最低位置和Δh_up表示每次重定位高度扩展的变化尺度。

S3.2、按照当前四个方向的目标变化尺度，依次在原有目标尺度上进行重定位区域扩展，并进行目标重定位。当重检测的目标位置评价高于阈值，则停止重定位，否则直至扩招到全图片重定位，选择得分最高的结果作为重定位结果；

S3.3、根据重定位结果得分，如果高于阈值，则选取重定位位置和尺度作为当前的目标跟踪结果，否则选取上一帧的目标跟踪结果作为当前的目标跟踪结果。

上述目标重定位是基于目标跟踪模型预测的当前位置和尺度的结果上进行目标重定位，并使用目标跟踪模型对重定位的目标位置和尺度进行评价，选择最优的位置，作为重定位的结果。最后将重定位结果作为最终目标跟踪位置，用于目标跟踪网络更新。

优选地，重定位次数D。

上述步骤S3.1至步骤S3.3的伪代码如下所示，其中，步骤S3.1对应伪代码为第1行，步骤S3.2对应伪代码第2-15行，其中伪代码第5-8行表示在重检测过程中找到丢失跟踪目标，则重检测结束确定当前目标位置。伪代码9-15行表示当前重检测没有找到丢失目标，继续扩展重定位范围，直至完成全图搜索。步骤S3.3对应伪代码第16-20行，伪代码16-17行表示寻找到丢失目标，重检测结束，给出当前评分最高的位置作为重检测位置。伪代码18～19行表示重检测失败，没有找到丢失目标，则选择上一帧跟踪目标位置尺度作为当前帧目标位置和尺度。

本实施例中，步骤S3.2例如：进行第一次目标重定位，通过重定位获得了若干候选区域，重定位模型对于当前候选区域分别评分，选择当前最高评分候选区域作为第一次重定位结果。之后与设定阈值进行比较，如果高于0.7，则说明找到了丢失的目标，重定位结束，将定位结果的位置和尺度作为重定位输入；如果评分低于0.7则表明没有准确定位丢失目标，记录该候选目标尺度和位置，按照自适应尺度进行重定位搜索尺度扩展，进行下一次重定位。之后重复上述步骤直至完成全图重定位；当完成全图目标重定位后，选择所有记录候选位置中，得分最高的位置作为当前最优的重定位位置，之后与丢失阈值0.3进行比较，如果大于0.3，则重定位成功，将该候选区域位置和尺度作为重定位结果输出；反之，表示目标重定位失败，没有检测到丢失目标，为了提高跟踪效率，选择前一帧目标跟踪结果作为当前重定位结果输出。至此重定位任务结束。

本实施例中，为了提升重检测机制的搜索效率，设置一个搜索次数参数D，用于设置一次重定位下进行几次全图扩展。如果该值过小，例如取1，则本目标重定位算法变成一次全图搜索重定位，但是由于采样数有限，针对小目标物体会导致重定位失败。而当该值取值过大时，目标重定位效果大大降低，产生过多无用采样和目标重定位开销，降低跟踪效率。最终通过实验测试和分析，对于大多数情况下的复杂场景重定位，当D＝5时，能都达到效率和重定位准确率的平衡。通过以上分析，最终采用D＝5作为重定位机制的最终参数。

本实施例中，步骤S4的具体过程为：

由步骤S3可以获得当前目标跟踪模型的预测目标位置和尺度，保存当前目标的位置和尺度信息，之后读取下一帧视频图像，用前一帧位置初始化当前帧目标位置和尺度，之后使用目标跟踪模型在新的一帧中进行目标跟踪，直至全部视频结束，目标跟踪完成。最后将目标跟踪模型对于全部视频帧的目标预测位置和尺度输出，作为最终目标跟踪结果。

如上所述，本发明通过引入噪声空间参数思想于计算机视觉目标跟踪领域中，并且突出一种高效的深度强化学习目标跟踪算法(步骤S1中引入空间噪声参数和相应损失函数设计)来解决此问题，以达到更加快速、鲁棒的目标跟踪目的。更具体地，本发明首先对目标跟踪模型进行参数空间噪声设计，通过可学习的参数空间噪声扩展目标跟踪模型的探索能力，与传统的使用动作空间噪声不同，在保证模型探索能力的同时，也能够使模型能够保持稳定的更新。之后，使用自适应模型更新算法更新模型，与传统的固定和单一模型模式不同，本发明的模型更新更加高效，并且可以选择四种模型更新模式进行模型更新，本发明的鲁棒性更强。在具体解决计算机视觉目标跟踪问题中，与传统的强化学习跟踪算法不同，本发明具有更快速的目标跟踪速度，并且与使用参数空间噪声进行模型探索能力的拓展。由于此种参数空间噪声的引入，相比于基于动作空间噪声，可以有效的克服目标跟踪模型在复杂环境下由于跟踪目标剧烈变化导致模型剧烈波动，最终丢失目标的情况发生。本发明与深度卷积神经网络方法相比，可以有效的将一个领域的知识迁移到相似领域中，具有良好的鲁棒性。更重要的是，由于高效的模型更新策略和目标丢失后的重定位机制的引入，本发明中的目标跟踪模型更新更加高效，并且可以有效重定位到当前丢失目标，最终达到在复杂环境下快速，鲁棒的目标跟踪算法。

在计算机视觉目标跟踪中，本发明能够在达到实时要求的情况下，同时达到高准确率跟踪的目标。经实验证明，对于复杂环境下，本发明的跟踪时间可以达到35帧每秒，相比较于其他深度强化学习方法ADNet和ACT在速度上和准确率上都由大幅提升。相比于深度卷积网络目标跟踪方法，本发明在达到更高精确度的同时，在速度上也大幅领先。而对比其他高速的目标跟踪方法，本发明扔具有明显的目标准确率提升。具体实验结果如表1所示。

表1不同算法在目标跟踪中的各项指标比较

综上所述，本发明所述技术方案相比较于如今较为流行的强化学习框架，不仅运算速度更快，并且具有更好的可迁移性和鲁棒性，在绝大多数复杂场景下都能够达到更高效、鲁棒的目标跟踪结果。本发明实施例的方法还具有如下的有益效果：

1.跟踪速度和跟踪准确度均优于传统的强化学习跟踪算法；

2.使用的参数空间噪声可以与模型同步更新，保证了模型的稳定性和鲁棒性；

3.可以选择两种噪声产生模型，适应不同跟踪场景需求；

4.能够实现模型在跟踪的同时，自适应的选择模型更新模式，使得目标跟踪模型可以更好的拟合当前跟踪目标；

5.在目标丢失的情况下，可以进行高效的目标重定位检测。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。