CN108305275A

CN108305275A - 主动跟踪方法、装置及系统

Info

Publication number: CN108305275A
Application number: CN201710743357.2A
Authority: CN
Inventors: 罗文寒; 孙鹏; 刘威
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2018-07-20
Anticipated expiration: 2037-08-25
Also published as: CN108305275B; EP3675035A1; WO2019037498A1; EP3675035A4

Abstract

本发明公开了一种主动跟踪方法，属于机器学习领域，所述方法包括：获取摄像头拍摄的第i帧图像帧；将第i帧图像帧输入深度网络，深度网络包括特征提取网络和策略函数；通过特征提取网络提取图像帧的图像特征；通过策略函数根据图像特征计算n个输出动作各自的输出概率，n≥2；从n个输出动作的输出概率中选择最大输出概率；控制摄像头执行最大输出概率对应的输出动作，令i＝i+1。本发明通过三维虚拟环境对深度网络中的参数进行训练后，使用该深度网络根据摄像头的图像帧对摄像头执行控制动作。由于只需要对一个深度网络进行训练，无需分别对运动目标跟踪模块和摄像头控制模块进行联动的参数调节，减少参数调节的工作量。

Description

主动跟踪方法、装置及系统

技术领域

本发明实施例涉及机器学习领域，特别涉及一种主动跟踪方法、装置及系统。

背景技术

在诸如机器人、无人机等机器领域，通过计算机视觉实现对运动目标的检测和跟踪是一个重要研究领域。在这些机器上通常设置有单个摄像头，通过单个摄像头拍摄到的图像帧进行分析，然后实现对运动目标的连续跟踪。

相关技术中提供了一种主动跟踪技术，在该主动跟踪技术中分为运动目标跟踪模块和摄像头控制模块两个模块，运动目标跟踪模块负责将对运动目标的跟踪结果输出给摄像头控制模块，摄像头控制模块将运动目标跟踪模块输出的跟踪结果映射为摄像头的动作并控制摄像头运动，以保证运动目标在摄像头拍摄的图像帧中，尽可能地处于图像帧的正中间。

由于摄像头控制模块与运动目标跟踪模块为两个独立运行的模块，在对其中某一个模块的工作参数进行调整的时候，需要同时联动调整另一个模块的工作参数以达到主动跟踪的最好效果，但是因为参数的调节空间过大，实际实现时很难同时将两组工作参数调整至合理状态。

发明内容

为了解决摄像头控制模块与运动目标跟踪模块为两个独立运行的模块，在联动调整两个模块的参数时，很难同时将两组工作参数调整至合理状态的问题，本发明实施例提供了一种主动跟踪方法、装置及系统。所述技术方案如下：

第一方面，提供了一种主动跟踪方法，所述方法包括：

获取摄像头拍摄的第i帧图像帧，所述第i帧图像帧中包括运动目标，其中i为自然数；

将所述第i帧图像帧输入深度网络，所述深度网络包括特征提取网络和策略函数；

通过所述特征提取网络提取所述第i帧图像帧的图像特征；

通过所述策略函数根据所述图像特征计算n个输出动作各自的输出概率，所述输出动作是用于控制所述摄像头的动作，其中n为自然数，且n≥2；

从所述n个输出动作的输出概率中选择最大输出概率；

控制所述摄像头执行所述最大输出概率对应的所述输出动作，以对所述运动目标进行跟踪。

第二方面，提供了一种深度网络训练方法，用于对本发明第一方面所使用的深度网络进行训练，所述训练方法包括：

构建所述三维虚拟环境，所述三维虚拟环境包括跟踪器和所述运动目标，所述跟踪器用于在所述三维虚拟环境中跟踪所述运动目标，且以第一视角采集跟踪所述运动目标时的图像帧，所述运动目标用于按照预定路径在所述三维虚拟环境中进行移动；

获取所述跟踪器采集到的样本图像帧；

根据所述运动目标在所述三维虚拟环境中相对于所述跟踪器的实时跟踪位置和预设的目标期望位置计算出所述样本图像帧对应的奖励值，所述奖励值用于表示所述实时跟踪位置与所述目标期望位置的吻合程度；

将所述样本图像帧输入所述深度网络的所述特征提取网络得到所述图像特征，将所述图像特征输入预设的估值函数计算得到所述样本图像帧对应的所述奖励值的估值，所述奖励值的估值用于表示所述估值函数预测出的预测跟踪位置与所述目标期望位置的吻合程度；

根据所述奖励值和所述奖励值的估值之间的误差，利用误差反向传播算法对所述深度网络和所述估值函数进行训练。

第三方面，提供了一种主动跟踪装置，所述装置包括：

第一获取模块，用于获取摄像头拍摄的第i帧图像帧，所述第i帧图像帧中包括运动目标；

第一输入模块，用于将所述图像帧输入深度网络，所述深度网络包括特征提取网络和策略函数，所述深度网络是预先根据三维虚拟环境训练得到的神经网络；

提取模块，用于通过所述特征提取网络提取所述第i帧图像帧的图像特征；

第一计算模块，用于通过所述策略函数根据所述图像特征计算n个输出动作各自的输出概率，所述输出动作是用于控制所述摄像头的动作，n≥2；

选择模块，用于从所述n个输出动作的输出概率中选择最大输出概率；

控制模块，用于控制所述摄像头执行所述最大输出概率对应的所述输出动作，以对所述运动目标进行跟踪。

第四方面，提供了一种深度网络训练装置，用于对第三方面提供的主动跟踪装置中的深度网络进行训练，所述训练装置包括：

构建模块，用于构建所述三维虚拟环境，所述三维虚拟环境包括跟踪器和所述运动目标，所述跟踪器用于在所述三维虚拟环境中跟踪所述运动目标，且以第一视角采集跟踪所述运动目标时的图像帧，所述运动目标用于按照预定路径在所述三维虚拟环境中进行移动；

第二获取模块，用于获取所述跟踪器采集到的样本图像帧；

第二计算模块，用于根据所述运动目标在所述三维虚拟环境中相对于所述跟踪器的实时跟踪位置和预设的目标期望位置计算出所述样本图像帧对应的奖励值，所述奖励值用于表示所述实时跟踪位置与所述目标期望位置的吻合程度；

第二输入模块，用于将所述样本图像帧输入所述深度网络的所述特征提取网络得到所述图像特征；

所述输入模块，还用于将所述图像特征输入预设的估值函数计算得到所述样本图像帧对应的奖励值的估值，所述奖励值的估值用于表示所述估值函数预测出的预测跟踪位置与所述目标期望位置的吻合程度；

训练模块，用于根据所述奖励值和所述奖励值的估值之间的误差，利用误差反向传播算法对所述深度网络和所述估值函数进行训练。

第五方面，提供了一种主动跟踪系统，所述系统包括：服务器和终端，所述服务器和所述终端通过网络相连；

所述终端，用于获取所述摄像头拍摄的第i帧图像帧，所述第i帧图像帧中包括运动目标；

所述终端，还用于将所述第i帧图像帧发送至所述服务器；

所述服务器中包括深度网络，所述深度网络包括特征提取网络和策略函数；

所述服务器，用于通过所述特征提取网络提取所述第i帧图像帧的图像特征；

所述服务器，还用于通过所述策略函数根据所述图像特征计算n个输出动作各自的输出概率，所述输出动作是用于控制所述摄像头的动作，n≥2；

所述服务器，还用于从所述n个输出动作的输出概率中选择最大输出概率；

所述服务器，还用于根据所述最大输出概率对应的所述输出动作生成控制指令，并将该控制指令发送至所述终端；

所述终端，还用于根据所述控制指令控制所述摄像头执行所述最大输出概率对应的所述输出动作，以对所述运动目标进行跟踪。

第六方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本发明第一方面及其可选的实施例中任一所述的主动跟踪方法。

第七方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本发明第二方面及其可选的实施例中任一所述的深度网络训练方法。

第八方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本发明第一方面及其可选的实施例中任一所述的主动跟踪方法。

第九方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本发明第二方面及其可选的实施例中任一所述的深度网络训练方法。

本发明实施例提供的技术方案带来的有益效果是：

通过将运动目标跟踪模块和特征提取模块整合至同一个端到端的深度网络中，预先通过三维虚拟环境对该深度网络中的参数进行训练后，使用该深度网络根据摄像头的图像帧对摄像头执行控制动作。由于只需要对一个端到端的深度网络进行训练，不需要分别对运动目标跟踪模块和摄像头控制模块两个独立模块进行联动的参数调节，减少参数调节的工作量，同时能够通过训练过程得到具有较高预测准确性的参数，提高通过摄像头进行主动跟踪时的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个示例性的实施例提供的主动跟踪方法的实施环境的示意图；

图2a至图2b是本发明一个示例性的实施例提供的主动跟踪方法的流程图；

图3a至图3b是本发明另一个示例性的实施例提供的主动跟踪方法的流程图；

图4a至图4c是本发明另一个示例性的实施例提供的主动跟踪方法的流程图；

图4d是本发明一个示例性的实施例提供的卷积神经网络的工作方法的示意图；

图5a至图5e是本发明一个示例性的实施例提供的深度网络训练方法的流程图；

图6是本发明另一个示例性的实施例提供的深度网络训练方法的流程图；

图7a至图7d是本发明一个示例性的实施例提供的深度网络训练方法所涉及的界面示意图；

图8是本发明一个示例性实施例提供的深度网络测试方法的流程图；

图9是本发明一个示例性的实施例提供的主动跟踪装置的框图；

图10是本发明一个示例性的实施例提供的深度网络训练装置的框图；

图11是本发明一个示例性的实施例提供的主动跟踪终端的框图；

图12是本发明一个示例性的实施例提供的训练终端的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明一个示例性的实施例提供主动跟踪方法的实施环境的示意图。如图1所示，该实施环境包括：服务器11、终端12以及通信网络14。

服务器11是用于对图像帧进行计算，并得到摄像头的输出动作的设备，可选地，该服务器11与终端12通过通信网络13相连。

可选地，该通信网络13可以是局域网、广域网、城域网中的至少一种。

终端12上包括摄像头13，终端12是用于通过摄像头13采集图像帧，并控制摄像头13执行输出动作的终端，该输出动作是指摄像头可执行的动作，如：向左转动、向右转动、向上转动、向下转动等等。可选地，该终端可能是配备有摄像头的机器人，也可能是配备有摄像头的无人机，还可能是配备有摄像头的无人汽车，本发明实施例对此不加以限定。其中，上述配备有摄像头的无人机可以是下部设置有摄像头的无人机；上述配备有摄像头的无人汽车可以是车身前部设置有摄像头的无人汽车。本发明的下述实施例中以终端12是机器人为例进行说明。

在一个可选的实施例中，可通过在终端中设置一个模块，用于实现上述实施环境中服务器用于实现的功能，即在该实施环境中仅包括终端12即可，不需要设置服务器。

图2a是本发明一个示例性的实施例提供的主动跟踪方法的流程图。以该主动跟踪方法应用在图1所示的终端12中为例进行说明，如图2a所示，该主动跟踪方法包括：

在步骤201中，终端获取摄像头拍摄的第i帧图像帧。

可选地，终端上包括摄像头。终端获取摄像头拍摄的第i帧图像帧，可选地，该摄像头以预定的拍摄速率进行拍摄，如：24fps(即，每秒24帧)，该第i帧图像帧中包括运动目标，该运动目标是上述终端使用本发明的主动跟踪方法进行跟踪时被跟踪的目标。其中，i为自然数。

示意性的，参考图2b，终端获取摄像头拍摄的第i帧为图像帧21，被跟踪的目标为运动目标211。

在步骤202中，终端将第i帧图像帧发送至深度网络的特征提取网络。

深度网络是用于对输入的图像帧的图像特征进行计算，并得到摄像头的每个输出动作的输出概率的网络，且该深度网络是根据跟踪器在三维虚拟环境中对运动目标进行跟踪所产生的样本图像帧进行训练得到的神经网络。

可选地，该深度网络包括特征提取网络以及策略函数，如图2b所示，终端将图像帧21输入深度网络的特征提取网络22。

在步骤203中，终端通过特征提取网络提取第i帧图像帧的图像特征。

可选地，终端将第i帧图像帧发送至特征提取网络。其中，特征提取网络是用于对输入的图像帧进行特征提取后，得到图像帧的图像特征的神经网络，深度网络中可以包括一个特征提取网络也可以包括多个特征提取网络，本发明实施例对此不加以限定。

策略函数是用于根据特征提取网络提取得到的图像特征，计算摄像头的每个输出动作的输出概率的函数。

示意性的，该深度网络中包括两个特征提取网络，分别是卷积神经网络和LSTM(Long Short-Term Memory，长短时记忆)神经网络，依次通过卷积神经网络以及LSTM神经网络对图像帧进行特征提取。

示意性的，如图2b所示，图像帧21输入特征提取网络22后，输出得到图像帧21的图像特征，并将图像帧21的图像特征输入策略函数23。

在步骤204中，终端通过策略函数根据图像特征计算n个输出动作各自的输出概率。

可选地，特征提取网络提取图像帧的图像特征后将图像特征输入策略函数。输出动作用于控制摄像头的动作，可选地，n个输出动作对应了n个摄像头的动作，其中n为自然数，且n≥2，n个输出动作对应的输出概率相加得到的总和为1。

示意性的，如图2b所示，摄像头的输出动作分为向前进，向左转，向右转以及向后退，将图像帧21的图像特征输入策略函数后，通过策略函数23计算可得，向前进的输出概率为0.2，向左转的输出概率为0.1，向右转的输出概率为0.65，向后退的输出概率为0.05，上述4个摄像头的输出动作对应的输出概率的总和为1。

在步骤205中，终端从n个输出动作的输出概率中选择最大输出概率。

示意性的，以步骤204中的举例为例，4个输出概率分别为0.2、0.1、0.05以及0.65，服务器从4个输出概率中选择最大输出概率，即0.65。

在步骤206中，控制摄像头执行最大输出概率对应的输出动作。

终端根据选择出的最大输出概率，控制摄像头执行该大输出概率对应的输出动作，该输出动作用于使得摄像头对运动目标进行进一步跟踪。

可选地，对于第i+1帧图像帧，重复执行上述步骤201至步骤206。

综上所述，通过使用深度网络根据摄像头获取的图像帧对摄像头执行控制动作。由于只需要对一个深度网络进行训练，不需要分别对运动目标跟踪模块和摄像头控制模块两个独立模块进行联动的参数调节，减少了参数调节的工作量。

在一个可选的实施例中，上述图2a示出的主动跟踪方法也可以由终端和服务器两端进行实现，以该主动跟踪方法应用在图1所示的实施环境中为例进行说明，如图3a所示：

在步骤301中，终端获取摄像头拍摄的第i帧图像帧。

可选地，终端上包括摄像头。终端获取摄像头拍摄的第i帧图像帧，其中，i为自然数，可选地，该摄像头以预定的拍摄速率进行拍摄，如：24fps(即，每秒24帧)，该第i帧图像帧中包括运动目标，该运动目标是上述终端使用本发明的主动跟踪方法进行跟踪时，被跟踪的目标。

示意性的，如图3b所示，终端30上包括有摄像头301，终端30获取到摄像头拍摄的图像帧312，其中，被跟踪的目标为运动目标314。

在步骤302中，终端将第i帧图像帧发送至服务器。

可选地，该服务器中包括深度网络，深度网络是用于对输入的图像帧中的图像特征进行计算，并得到摄像头的每个输出动作的输出概率的网络，该深度网络包括特征提取网络以及策略函数，且该深度网络是预先根据三维虚拟环境训练得到的神经网络。

可选地，终端将第i帧图像帧发送至服务器，并将第i帧图像帧输入深度网络的特征提取网络。

示意性的，如图3b所示，终端30将图像帧312输入服务器32的深度网络33，该深度网络中包括特征提取网络34和策略函数35，终端将该图像帧312输入深度网络33的特征提取网络34。

在步骤303中，服务器通过特征提取网络提取第i帧图像帧的图像特征。

可选地，终端将第i帧图像帧发送至服务器，并将第i帧图像帧输入深度网络，该深度网络包括特征提取网络以及策略函数。其中，特征提取网络是用于对输入的图像帧进行特征提取后，得到图像帧的图像特征的神经网络，深度网络中可以包括一个特征提取网络也可以包括多个特征提取网络，本发明实施例对此不加以限定。

策略函数是用于根据特征提取网络提取得到的图像特征，计算摄像头的每个输出动作的输出概率的函数。可选地，特征提取网络对图像帧的图像特征进行提取后将图像帧的图像特征发送至策略函数。

示意性的，该特征提取网络中包括两个部分，分别是卷积神经网络和LSTM神经网络，依次通过卷积神经网络以及LSTM神经网络对图像帧进行特征提取。

如图3b所示，将图像帧312输入特征提取网络后，输出得到图像帧312的图像特征，并将图像帧312的图像特征输入策略函数35。

在步骤304中，服务器通过策略函数根据图像特征计算n个输出动作各自的输出概率。

输出动作是用于控制摄像头的动作，可选地，n个输出动作对应了n个摄像头的动作，n≥2，n个输出动作对应的各自的输出概率相加得到的总和为1。

示意性的，如图3b所示，摄像头的输出动作分为向前进，向左转，向右转以及向后退，将图像帧312的图像特征输入策略函数后，通过策略函数计算可得，向前进的输出概率为0.2，向左转的输出概率为0.1，向右转的输出概率为0.65，向后退的输出概率为0.05，上述4个摄像头的输出动作对应的输出概率的总和为1。

在步骤305中，服务器从n个输出概率中选择最大输出概率，

在步骤306中，服务器根据最大输出概率对应的输出动作生成控制指令。

该控制指令是用于控制摄像头执行输出动作的指令。可选地，该最大输出概率对应的输出动作用于指示，使得摄像头能对运动目标进行进一步跟踪的动作。示意性的，如图3b所示，策略函数35计算得到的最大输出概率为0.65，该最大输出概率对应的输出动作为向右转，服务器根据该输出动作生成控制指令36。

在步骤307中，服务器将控制指令发送至终端。

可选地，该控制指令中包括对最大输出概率对应的输出动作的指示。

在步骤308中，终端根据控制指令控制摄像头执行最大输出概率对应的输出动作。

终端根据接收到的控制指令，控制摄像头执行该控制指令中指示的最大输出概率对应的输出动作，该输出动作用于使得摄像头对运动目标进行进一步跟踪。

示意性的，如图3b所示，终端30接收到服务器32发送的控制指令36，该控制指令36是根据输出动作“向右转”生成的，终端30根据该控制指令执行该控制指令中的输出动作，即，向右转。

可选地，对于第i+1帧图像帧，重复执行上述步骤301至步骤308。

综上所述，通过将图像帧输入特征提取网络进行图像特征提取，将提取的图像特征输入策略函数后，计算摄像头的最大输出概率对应的输出动作，并直接控制摄像头执行该动作，避免了需要设置摄像头模块和跟踪模块两个独立模块而导致的参数调节困难，同时避免了由于摄像头模块与跟踪模块的联调难度大，联调失败而导致的主动跟踪准确度低；只需要对摄像头的输出动作的输出概率进行计算并得到摄像头的输出动作即可完成主动跟踪，提高了主动跟踪的准确性。

上述实施例中，对输入的图像帧进行特征提取的为特征提取网络，在一个可选地实施例中，深度网络的特征提取网络包括卷积神经网络以及LSTM神经网络，图像帧首先通过卷积神经网络进行特征提取后再通过LSTM神经网络进行特征提取。该主动跟踪方法流程图如图4所示：

在步骤401中，终端获取摄像头拍摄的第i帧图像帧。

可选地，终端上包括摄像头，终端获取摄像头拍摄的第i帧图像帧，该第i帧图像帧中包括运动目标，该运动目标是上述终端使用本发明的主动跟踪方法进行跟踪时，被跟踪的目标。

示意性的，如图4b所示，终端40上包括有摄像头401，终端40获取到摄像头401拍摄的图像帧412，其中，被跟踪的目标为运动目标414。

在步骤402中，终端将第i帧图像帧发送至服务器。

该服务器中包括深度网络，深度网络是用于对输入的图像帧进行计算并得到摄像头的每个输出动作的输出概率的网络，且该深度网络是预先根据三维虚拟环境训练得到的神经网络。

可选地，该深度网络包括特征提取网络以及策略函数，其中，特征提取网络包括卷积神经网络以及LSTM神经网络。卷积神经网络是一种用于图像处理的前馈神经网络，LSTM神经网络是用于根据前一帧图像的图像特征以及当前帧图像得到当前帧图像的图像特征的神经网络。

可选地，终端将第i帧图像帧发送至服务器后，服务器将图像帧输入卷积神经网络。

示意性的，如图4b所示，终端40将图像帧412输入服务器42的深度网络43，该深度网络中包括特征提取网络44和策略函数35，特征提取网络44包括卷积神经网络441以及LSTM神经网络442，终端将该图像帧312输入深度网络43的卷积神经网络441。

在步骤403中，服务器通过卷积神经网络提取第i帧图像帧的第一特征矩阵。

可选地，卷积神经网络对该第i帧图像帧进行前向传播，并通过前向传播提取得到该第i帧图像帧的第一特征矩阵。

示意性的，图4c是卷积神经网络对图4b中的图像帧412进行前向传播，并提取第一特征矩阵的一个示例，如图4c所示，将图像帧输入卷积神经网络后，卷积神经网络按照图像块51、图像块52、图像块53、图像块55、图像块55以及图像块56的顺序对该图像帧进行前向传播，并得到第一特征矩阵。

在步骤404中，服务器将第一特征矩阵发送至LSTM神经网络。

示意性的，如图4b所示，特征提取网络44还包括LSTM神经网络，该LSTM神经网络是用于根据前一帧图像的图像特征以及当前帧图像得到当前帧图像的图像特征的神经网络，卷积神经网络对图像帧412进行前向传播得到图像帧412的第一特征矩阵后，将该第一特征矩阵发送至LSTM神经网络。

在步骤405中，服务器通过LSTM神经网络根据第一特征矩阵和当前图像帧之前的其它图像帧的图像特征提取当前图像帧的第二特征矩阵。

可选地，LSTM神经网络可以根据第一特征矩阵和第i帧图像帧之前一帧图像帧的图像特征提取第i帧图像帧的第二特征矩阵；也可以根据第一特征矩阵和第i帧图像帧之前某一帧图像帧的图像特征提取当前图像帧的第二特征矩阵；还可以根据第一特征矩阵和第i帧图像帧之前多帧图像帧的图像特征提取当前图像帧的第二特征矩阵，本发明对此不加以限定。

示意性的，如图4d所示，以LSTM神经网络根据第一特征矩阵和第i帧图像帧之前一帧图像帧的图像特征提取当前图像帧的第二特征矩阵为例，将第i帧图像的第一特征矩阵以及第i-1帧图像帧的图像特征输入LSTM神经网络后，LSTM神经网络对第i帧图像的第二特征矩阵进行提取。可选地，该第二特征矩阵为第i帧图像帧的图像特征，将该第i帧图像真的图像特征以及第i+1帧图像帧的第一特征矩阵输入LSTM神经网络可以提取第i+1帧图像帧的第二特征矩阵(即第i+1帧图像帧的图像特征)。

在步骤406中，服务器将第二特征矩阵作为第i帧图像帧的图像特征。

在步骤407中，服务器将图像特征发送至策略函数。

示意性的，如图4b所示，深度网络43中包括策略函数45，LSTM神经网络提取图像帧的第二特征矩阵并将该第二特征矩阵作为图像帧的图像特征后，将该图像特征输入策略函数45。

在步骤408中，服务器通过策略函数根据图像特征计算n个输出动作各自的输出概率。

输出动作是用于控制摄像头的动作，可选地，n个输出动作对应了n个摄像头的动作，其中，n≥2。其中，n个输出动作对应的输出概率相加得到的总和为1。

示意性的，如图4b所示，摄像头的输出动作分为向前进，向左转，向右转以及向后退，将图像帧312的图像特征输入策略函数后，通过策略函数计算可得，向前进的输出概率为0.2，向左转的输出概率为0.1，向右转的输出概率为0.65，向后退的输出概率为0.05，上述4个摄像头的输出动作对应的输出概率的总和为1。

在步骤409中，服务器从n个输出动作的输出概率中选择最大的输出概率。

示意性的，以步骤408中的举例为例，4个输出概率分别为0.2、0.1、0.05以及0.65，服务器从4个输出概率中选择最大输出概率，即0.65。

在步骤410中，服务器根据最大输出概率对应的输出动作生成控制指令。

该控制指令是用于控制摄像头执行输出动作的指令。可选地，该最大输出概率对应的输出动作用于指示，使得摄像头能对运动目标进行进一步跟踪的动作。示意性的，如图4b所示，策略函数45计算得到的最大输出概率为0.65，该最大输出概率对应的输出动作为向右转，服务器根据该输出动作生成控制指令46。

在步骤411中，服务器将控制指令发送至终端。

在步骤412中，终端根据控制指令控制摄像头执行最大输出概率对应的输出动作。

示意性的，如图4b所示，终端40接收到服务器42发送的控制指令46，该控制指令46是根据输出动作“向右转”生成的，终端40根据该控制指令执行该控制指令中的输出动作，即，向右转。

可选地，对于第i+1帧图像帧，重复执行上述步骤401至步骤412。

综上所述，首先，预先通过三维虚拟环境对该深度网络中的参数进行训练后，使用该深度网络根据摄像头的图像帧对摄像头执行控制动作。由于只需要对一个深度网络进行训练，不需要分别对运动目标跟踪模块和摄像头控制模块两个独立模块进行联动的参数调节，减少参数调节的工作量；其次，通过LSTM神经网络根据当前帧的第一特征矩阵以及当前帧之前的图像帧的图像特征提取当前图像帧的图像特征，将连续图像帧之间的关联性作为参考因素进行提取，提高了当前图像帧的图像特征提取的准确度。

在一个可选的实施例中，在上述主动跟踪方法实施之前，首先需要对深度网络进行训练，以该训练过程在训练终端上为例，该训练终端是用于对上述深度网络进行训练的终端。该训练过程如图5a所示：

在步骤501中，训练终端构建三维虚拟环境。

该三维虚拟环境是用于对上述深度网络进行训练的虚拟环境，该三维虚拟环境中包括跟踪器以及运动目标。其中，该跟踪器用于在三维虚拟环境中跟踪上述运动目标，且以第一视角采集跟踪运动目标时的图像帧。运动目标用于按照预定路径在三维虚拟环境中进行移动。

可选地，该三维虚拟环境可以是ViZDoom虚拟环境，为了避免训练结果过拟合，即为了避免跟踪器向某个方向进行跟踪的频率明显高于向其他方向进行跟踪的频率，上述三维虚拟环境可以设置多个，且每个三维虚拟环境各不相同，每个三维虚拟环境中的预定路径也各不相同，且每个预定路径均可以使用其正常路径与反方向路径分别进行一次或多次训练。

示意性的，如图5b所示是一个示意性的三维虚拟环境，根据图5b可知，该三维虚拟环境中包括跟踪器51以及运动目标52，其中，运动目标52按照预定路径进行移动，跟踪器51用于在该三维虚拟环境中跟踪运动目标52。

示意性的，共设置有21个三维虚拟环境，每个三维虚拟环境中设置一条预定路径，每条预定路径按照正常路径与反方向路径各进行一次训练。

在步骤502中，训练终端获取跟踪器采集到的样本图像帧。

可选地，该样本图像帧为跟踪器在三维虚拟环境中跟踪运动目标时以第一视角采集的图像帧。

参考图5b及图5c，图5b是一个示意性的跟踪器51采集到的第i帧样本图像帧，如图5b所示，是跟踪器51以第一视角采集的跟踪运动目标52时的图像帧。

在步骤503中，训练终端根据运动目标在三维虚拟环境中相对于跟踪器的实时跟踪位置和预设的目标期望位置计算出样本图像帧的奖励值。

该奖励值用于表示实时跟踪位置与目标期望位置的吻合程度。实时跟踪位置是指该样本图像帧的采集时刻，运动目标相对于跟踪器所处的位置；目标期望位置是指预设的在期望条件下，运动目标相对于跟踪器所处的位置。

示意性的，参考图5d可知，该三维虚拟环境中包括跟踪器51、运动目标52以及预设的目标期望位置53，该运动目标52所处的位置即为实时跟踪位置，根据该实时跟踪位置以及预设的目标期望位置53计算该样本图像帧对应的奖励值。

在步骤504中，训练终端将样本图像帧输入深度网络的特征提取网络得到图像特征。

可选地，深度网络包括特征提取网络。特征提取网络是用于对输入的样本图像帧进行特征提取后，得到样本图像帧的图像特征的神经网络，深度网络中可以包括一个特征提取网络也可以包括多个特征提取网络，本发明实施例对此不加以限定。

示意性的，该深度网络中包括两个特征提取网络，分别是卷积神经网络和LSTM神经网络，依次通过卷积神经网络以及LSTM神经网络对图像帧进行特征提取。

在步骤505中，训练终端将图像特征输入预设的估值函数计算得到样本图像帧的奖励值的估值。

该奖励值的估值用于表示估值函数预测出的预测跟踪位置与目标期望位置的吻合程度。

估值函数是用于对预测跟踪位置与目标期望位置的吻合程度进行预测的函数。

预测跟踪位置是指根据估值函数的计算得到的，在样本图像帧的采集时刻，预测出的运动目标相对于跟踪器所处的位置；目标期望位置是指在三维虚拟环境中，在样本图像帧的采集时刻，运动目标相对于跟踪器实际所处的位置。

在步骤506中，训练终端根据奖励值和奖励值的估值之间的误差，利用误差反向传播算法对深度网络和估值函数进行训练。

可选地，该深度网络包括：特征提取网络以及策略函数，利用误差反向传播算法对深度网络和估值函数进行训练包括：利用误差反向传播算法对策略函数的参数以及估值函数的参数进行更新。

如图5e所示，是一个示意性的训练过程示意图，如图所示：

首先获取跟踪器采集到的样本图像帧54，该样本图像帧54为跟踪器在三维虚拟环境55中跟踪运动目标52时以第一视角采集的图像帧；

然后，训练终端根据运动目标在三维虚拟环境55中相对于跟踪器的实时跟踪位置52和预设的目标期望位置53计算出样本图像帧的奖励值56。

接着，训练终端将样本图像帧输入深度网络的特征提取网络57得到图像特征。训练终端将图像特征输入预设的估值函数58计算得到每个样本图像帧的奖励值的估值59。训练终端根据奖励值56和奖励值的估值59之间的误差，利用误差反向传播算法60对深度网络和估值函数进行训练。

综上所述，由于三维虚拟环境的还原度较高，与实际操作中的实际环境相仿，通过在三维虚拟环境中进行训练，不需要在真实场景中使用真实物体进行训练，提高了训练的效率、可行性以及准确性；利用估值函数对预测跟踪位置进行预测，并通过预测跟踪位置与目标期望位置计算奖励值与奖励值的估值，进而更新策略函数与估值函数的参数，提高了深度网络的训练效率与训练准确度，而且解决了直接对策略函数进行训练时难以实现训练的问题。

在一个可选地实施例中，以上述实施例中，利用误差反向传播算法对深度网络和估值函数进行训练的方式为，利用误差反向传播算法对策略函数的参数以及估值函数的参数进行更新为例进行说明，如图6所示：

在步骤601中，训练终端构建三维虚拟环境。

可选地，该三维虚拟环境可以是ViZDoom虚拟环境，为了避免训练结果过拟合，即为了避免跟踪器向某个方向进行跟踪的频率明显高于向其他方向进行跟踪的频率，上述三维虚拟环境可以设置多个，且每个三维虚拟环境各不相同，每个三维虚拟环境中的预定路径也各不相同。示意性的，每个预定路径均可以使用其正常路径与反方向路径分别进行一次或多次训练。

如图7a所示是一个示意性的三维虚拟环境，根据图7a可知，该三维虚拟环境中包括跟踪器71以及运动目标72，其中，运动目标72按照预定路径进行移动，跟踪器72用于在该三维虚拟环境中跟踪运动目标72。

在步骤602中，训练终端获取跟踪器采集到的样本图像帧。

可选地，该跟踪器采集的样本图像帧为跟踪器以第一视角采集的跟踪运动目标时的图像帧。

参考图7a及图7b，图7b是一个示意性的跟踪器71采集到的第i帧样本图像帧，如图7b所示，是跟踪器71以第一视角采集的跟踪运动目标72时的图像帧。

在步骤603中，训练终端根据运动目标在三维虚拟环境中相对于跟踪器的实时跟踪位置和预设的目标期望位置计算出样本图像帧的奖励值。

可选地，计算奖励值的公式为：

以跟踪器所在位置为原点，跟踪器在三维虚拟环境中的正前方为y轴正方向，跟踪器在三维虚拟环境中的水平向右为x轴的正方向，建立直角坐标系，其中，A为奖励值达到最大时的取值，r为样本图像帧对应的奖励值，d为预设的偏移量，c为预设的归一化参数，λ为预设的权重因子，a为运动目标与跟踪器的连线，与y轴正方向所形成的角度。

示意性的，参考图7c可知，该三维虚拟环境中包括跟踪器71、运动目标72以及预设的目标期望位置73，该目标期望位置处于跟踪器71的正前方距离为d的位置，以跟踪器71所在位置为原点，跟踪器71在所述三维虚拟环境中的正前方为y轴正方向，所述跟踪器在所述三维虚拟环境中的水平向右为x轴的正方向，建立直角坐标系，即该目标期望位置73的坐标为(0，d)。

上述公式中，A为所述奖励值达到最大时的取值，r为所述样本图像帧对应的奖励值，d为预设的偏移量，c为预设的归一化参数，λ为预设的权重因子，a为运动目标72与跟踪器71的连线，与所述y轴正方向所形成的角度，其中，A、d、c以及λ均大于0。由图7c可知，当运动目标72处于目标期望位置73时，该奖励值能达到最大，最大值为A。

在步骤604中，训练终端将样本图像帧输入深度网络的特征提取网络得到图像特征。

在步骤605中，训练终端将图像特征输入预设的估值函数计算得到样本图像帧的奖励值的估值。

该奖励值的估值用于表示估值函数预测出的预测跟踪位置与目标期望位置的吻合程度。预测跟踪位置是指根据估值函数的计算得到的，在样本图像帧的采集时刻，预测的运动目标相对于跟踪器所处的位置；目标期望位置是指预设的在期望条件下，运动目标相对于跟踪器所处的位置。

示意性的，参考图7d可知，将样本图像帧的图像特征输入估值函数后计算得到预测跟踪位置74，根据预测跟踪位置74以及目标期望位置73计算得到与样本图像帧对应的奖励值的估值。

可选地，上述根据预测跟踪位置74以及目标期望位置73计算得到与样本图像帧对应的奖励值的估值的方式包括：

在三维虚拟环境中存在环境坐标系，以某个固定点为原点建立固定的x轴与固定的y轴，通过该环境坐标系根据预测跟踪位置以及目标期望位置73计算得到与样本图像帧对应的奖励值的估值。

在步骤606中，训练终端计算连续T步累积的T个奖励值之和与连续T步累积的T个奖励值的估值之和的累积误差。

可选地，T为预设阈值，每次向深度网络输入一个图像帧计为一步。

示意性的，令T为30，累积向深度网络输入30个图像帧后，计算输入该30个图像帧累积的30个奖励值之和，并计算输入该30个图像帧累积的30个奖励值的估值之和，接着计算该奖励值之和与该奖励值的估值之和的差值为累积误差。

可选地，该连续T步累积的T个奖励值之和，以及该连续T步累积的T个奖励值的估值之和可以通过衰减的方式进行累加，示意性的，若T为5，第1步的奖励值以100％计入奖励值之和，第2步的奖励值以90％计入奖励值之和，第3步的奖励值以70％计入奖励值之和，第4步的奖励值以50％计入奖励值之和，第5步的奖励值以30％计入奖励值之和；第1步的奖励值的估值以100％计入奖励值的估值之和，第2步的奖励值的估值以90％计入奖励值的估值之和，第3步的奖励值的估值以70％计入奖励值的估值之和，第4步的奖励值的估值以50％计入奖励值的估值之和，第5步的奖励值的估值以30％计入奖励值的估值之和。

在步骤607中，训练终端将样本图像帧的图像特征输入策略函数计算得到n个输出动作各自的预测输出概率。

上述输出动作是指用于控制摄像头的动作，可选地，n个输出动作对应了n个跟踪器的动作，n≥2。其中，n个输出动作对应的预测输出概率相加得到的总和为1。

示意性的，跟踪器的输出动作分为向前进，向左转，向右转以及对运动目标进行攻击，其中，通过策略函数计算可得，向前进的预测输出概率为0.2，向左转的预测输出概率为0.1，向右转的预测输出概率为0.65，对目标对象进行攻击的预测输出概率为0.05，上述4个跟踪器的输出动作对应的预测输出概率的总和为1。

在步骤608中，训练终端将预测输出概率和累积误差输入第一误差反向传播公式计算得到修正后的第一参数。

策略函数中包括至少一个第一参数，该第一参数是通过第一误差反向传播公式训练得到的，示意性的，该第一误差反向传播公式如下：

其中，θ’为修正前的第一参数，α为学习速率，R_t-V(S_t)为累积误差，R_t为连续T步累积的T个所述奖励值之和，V(S_t)为连续T步累积的T个所述奖励值的估值之和，logπ(a_t|S_t)为预测输出概率，H为熵正则项，β为正则化因子。其中，T为预设阈值，每次向深度网络输入一个图像帧计为一步，所述预测输出概率是将样本图像帧输入策略函数后计算得到的n个输出动作各自的预测输出概率，奖励值用于表示跟踪器的实时跟踪位置和预设的目标期望位置的吻合程度，奖励值的估值用于表示估值函数预测出的预测跟踪位置与目标期望位置的吻合程度。。

在步骤609中，训练终端根据修正后的第一参数更新修正前的第一参数。

可选地，将修正前的第一参数替换为修正后的第一参数。

在步骤610中，训练终端将累积误差输入第二误差反向传播公式计算得到修正后的第二参数。

估值函数中包括有至少一个第二参数，该第二参数是通过第二误差反向传播公式训练得到的，示意性的，该第二误差反向传播公式如下：

其中，φ′为修正前的第二参数，R_t-V(S_t)为累积误差，R_t为连续T步累积的 T个奖励值之和，V(S_t)为连续T步累积的T个奖励值的估值之和，α为学习速率。

在步骤611中，训练终端根据修正后的第二参数更新修正前的第二参数。

可选地，训练终端将修正前的第二参数替换为修正后的第二参数。

在步骤612中，训练终端当达到预设训练结束条件时，停止本次训练。

可选地，该预设训练结束条件包括但不限于：

第一，向深度网络输入的图像帧的数量达到第一预设阈值。示意性的，第一预设阈值为200，当深度网络接收到的输入的图像帧的数量达到200时，停止本次训练；

第二，连续m步累积的m个奖励值之和达到第二预设阈值，m为正整数。示意性的，第二预设阈值为-500，当连续m步累积的m个奖励值之和达到-500，则停止本次训练，其中，m应小于第一种预设训练条件中的第一预设阈值。

需要说明的是，上述深度网络训练过程中，训练终端可以通过多个线程同时对该深度网络进行训练；其中，多个线程在同时对深度网络进行训练的初始时刻，使用第一参数的初始值以及第二参数的初始值，并在开始训练后对第一参数和第二参数进行异步更新。异步更新是指，任意两个线程之间的第一参数的更新不相互影响，和/或，任意两个线程之间的第二参数的更新不相互影响。

上述实施例中以先执行步骤606后执行步骤607为例进行说明，在实际操作中，也可以先执行步骤607后执行步骤606，本发明对这两个步骤的执行顺序不加以限定。

综上所述，由于三维虚拟环境的还原度较高，与实际操作中的实际环境相仿，通过在三维虚拟环境中进行训练，不需要在真实场景中使用真实物体进行训练，提高了训练的效率以及准确性；利用估值函数对预测跟踪位置进行预测吗，并通过预测跟踪位置与目标期望位置计算奖励值与奖励值的估值，进而更新策略函数与估值函数的参数，提高了深度网络的训练效率与训练准确度。

可选地，在训练结束后，对使用训练后的深度网络的深度网络进行测试，以该测试过程应用在测试终端上为例，测试过程如图8所示：

在步骤801中，测试终端构建三维虚拟环境。

该三维虚拟环境是用于对上述深度网络进行测试的虚拟环境，该三维虚拟环境中包括跟踪器以及运动目标。其中，该跟踪器用于在三维虚拟环境中跟踪上述运动目标，且以第一视角采集跟踪运动目标时的图像帧。运动目标用于按照预定路径在三维虚拟环境中进行移动。

在步骤802中，测试终端获取跟踪器采集到的测试图像帧。

可选地，该跟踪器采集的测试图像帧为跟踪器以第一视角采集的跟踪运动目标时的图像帧。

在步骤803中，测试终端根据运动目标在三维虚拟环境中相对于跟踪器的实时跟踪位置和预设的目标期望位置计算出每个测试图像帧对应的奖励值。

该奖励值用于表示实时跟踪位置与目标期望位置的吻合程度。实时跟踪位置是指该测试图像帧采集时刻，运动目标相对于跟踪器所处的位置；目标期望位置是指预设的在期望条件下，运动目标相对于跟踪器所处的位置。

在步骤804中，测试终端将每个测试图像帧依次输入深度网络的特征提取网络得到图像特征。

在步骤805中，测试终端将测试图像帧的图像特征输入策略函数计算得到n个输出动作各自的预测输出概率。

在步骤806中，测试终端当达到预设测试结束条件时，停止本次测试。

可选地，该预设测试结束条件包括但不限于：

第一，向深度网络输入的图像帧的数量达到第一预设阈值。示意性的，第一预设阈值为200，当深度网络接收到的输入的图像帧的数量达到200时，停止本次测试；

第二，连续m步累积的m个奖励值之和达到第二预设阈值，m为正整数。示意性的，第二预设阈值为-500，当连续m步累积的m个奖励值之和达到-500，则停止本次测试，其中，m应小于第一种预设测试条件中的第一预设阈值。

综上所述，通过对训练后的深度网络进行测试，能够直接看到测试的结果以及训练的效果，进而在达到训练目标时或误差较大时，对训练过程进行暂停，从而实现对训练过程的进一步优化。

图9是本发明一个示例性实施例提供的一种主动跟踪装置的结构的框图。

如图9所示，该主动跟踪装置中包括：第一获取模块91、第一输入模块92、提取模块93、第一计算模块94、选择模块95以及控制模块96。

其中，第一获取模块91用于获取摄像头拍摄的第i帧图像帧，所述第i帧图像帧中包括运动目标；

第一输入模块92用于将所述第i帧图像帧输入深度网络，所述深度网络包括特征提取网络和策略函数，所述深度网络是预先根据三维虚拟环境训练得到的神经网络；

提取模块93用于通过所述特征提取网络提取所述第i帧图像帧的图像特征；

第一计算模块94用于通过所述策略函数根据所述图像特征计算n个输出动作各自的输出概率，所述输出动作是用于控制所述摄像头的动作，n≥2；

选择模块95用于从所述n个输出动作的输出概率中选择最大输出概率；

控制模块96用于控制所述摄像头执行所述最大输出概率对应的所述输出动作，以对所述运动目标进行跟踪。

在一个可选的实施例中，提取模块93，还用于通过所述卷积神经网络提取所述图像帧的第一特征矩阵；

提取模块93，还用于通过所述LSTM神经网络根据所述图像帧的第一特征矩阵和所述图像帧之前的其它图像帧的图像特征，提取得到所述图像帧的第二特征矩阵，将所述第二特征矩阵作为所述图像帧的图像特征。

图10是本发明一个示例性实施例提供的一种深度网络训练装置的结构的框图。

如图10所示，该深度网络训练装置中包括：构建模块1001、第二获取模块1002、第二输入模块1003、第二计算模块1004以及训练模块1005。

其中，构建模块1001，用于构建所述三维虚拟环境，所述三维虚拟环境包括跟踪器和所述运动目标，所述跟踪器用于在所述三维虚拟环境中跟踪所述运动目标，且以第一视角采集跟踪所述运动目标时的图像帧，所述运动目标用于按照预定路径在所述三维虚拟环境中进行移动；

第二获取模块1002，用于获取所述跟踪器采集到的样本图像帧；

第二计算模块1004，用于根据所述运动目标在所述三维虚拟环境中相对于所述跟踪器的实时跟踪位置和预设的目标期望位置计算出所述样本图像帧对应的奖励值，所述奖励值用于表示所述实时跟踪位置与所述目标期望位置的吻合程度；

第二输入模块1003，用于将所述样本图像帧输入所述深度网络的所述特征提取网络得到所述图像特征；

所述第二计算模块1004，还用于将所述图像特征输入预设的估值函数计算得到所述样本图像帧对应的奖励值的估值，所述奖励值的估值用于表示所述估值函数预测出的预测跟踪位置与所述目标期望位置的吻合程度；

训练模块1005，用于根据所述奖励值和所述奖励值的估值之间的误差，利用误差反向传播算法对所述深度网络和所述估值函数进行训练。

在一个可选的实施例中，训练模块1005包括：输入单元，用于将所述样本图像帧的图像特征输入所述深度网络的所述策略函数计算得到n个输出动作各自的预测输出概率；

输入单元，还用于对于所述策略函数中的每个第一参数，将所述预测输出概率和所述累积误差输入第一误差反向传播公式计算得到修正后的第一参数；

训练模块1005包括：更新单元，用于根据所述修正后的第一参数更新修正前的第一参数；

输入单元，还用于对于所述估值函数中的每个第二参数，将所述累积误差输入第二误差反向传播公式计算得到修正后的第二参数；

更新单元，还用于根据所述修正后的第二参数更新修正前的第二参数

在一个可选的实施例中，训练模块1005，还用于通过多个线程同时对所述深度网络进行训练；

在一个可选的实施例中，训练模块1005，还用于当达到预设训练结束条件时，停止本次训练。

综上所述，由于三维虚拟环境的还原度较高，与实际操作中的实际环境相仿，通过在三维虚拟环境中进行训练，不需要在真实场景中使用真实物体进行训练，提高了训练的效率以及准确性；利用估值函数对预测跟踪位置进行预测吗，并通过预测跟踪位置与目标期望位置计算奖励值与奖励值的估值进而更新策略函数与估值函数的参数，提高了深度网络的训练效率与训练准确度。

图11是本发明一个示例性实施例提供的终端的框图。该终端可以是手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等，该终端包括：处理器1101和存储器1102以及摄像头1103。

处理器1101可以是单核处理器、多核处理器、嵌入式芯片以及具有计算能力的处理器中的至少一种。

存储器1102存储有处理器的可执行指令。示意性的，存储器1102中一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器1101加载并执行以实现如图2a至图4a所示的任意一种目标跟踪方法。

示意性的，上述处理器1101，用于获取摄像头1103拍摄的第i帧图像帧，第i帧图像帧中包括运动目标，其中i为自然数；

处理器1101，还用于将第i帧图像帧输入深度网络，所述深度网络包括特征提取网络和策略函数；

处理器1101，还用于通过特征提取网络提取第i帧图像帧的图像特征；

处理器1101，还用于通过策略函数根据图像特征计算n个输出动作各自的输出概率，输出动作是用于控制摄像头1103的动作，其中n为自然数，且n≥2；

处理器1101，还用于从n个输出动作的输出概率中选择最大输出概率；

处理器1101，还用于控制摄像头1103执行最大输出概率对应的输出动作，以对运动目标进行跟踪。

摄像头1103用于以第一视角采集图像帧并根据接收到的控制指令执行相应的输出动作。

可选地，本发明实施例还提供了一种计算机可读存储介质，该存储介质中一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图2a至图4a所示的任意一种目标跟踪方法，可选地，该计算机可读存储介质包括高速存取存储器、非易失性存储器。

图12是本发明一个示例性实施例提供的训练终端的框图。该训练终端可以是手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等，该训练终端包括：处理器1201和存储器1202。

处理器1201可以是单核处理器、多核处理器、嵌入式芯片以及具有计算能力的处理器中的至少一种。

存储器1202存储有处理器的可执行指令。示意性的，存储器1202中一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器1201加载并执行以实现如图5a至图6所示的任意一种深度网络训练方法。

可选地，本发明实施例还提供了一种计算机可读存储介质，该存储介质中一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图5a至图6所示的任意一种深度网络训练方法，可选地，该计算机可读存储介质包括高速存取存储器、非易失性存储器。

需要说明的是：上述实施例提供的主动跟踪装置在触发主动跟踪时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的主动跟踪装置与主动跟踪方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述实施例提供的深度网络训练装置在触发深度网络训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的深度网络训练装置与深度网络训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种主动跟踪方法，其特征在于，所述方法包括：

通过所述特征提取网络提取所述第i帧图像帧的图像特征；

从所述n个输出动作的输出概率中选择最大输出概率；

2.根据权利要求1所述的方法，其特征在于，所述特征提取网络包括级联的卷积神经网络和长短时记忆(LSTM)神经网络；

所述通过所述特征提取网络提取所述第i帧图像帧的图像特征，包括：

通过所述卷积神经网络提取所述第i帧图像帧的第一特征矩阵；

通过所述LSTM神经网络根据所述第i帧图像帧的第一特征矩阵和所述第i帧图像帧之前的其它图像帧的图像特征，提取得到所述第i帧图像帧的第二特征矩阵，将所述第二特征矩阵作为所述第i帧图像帧的图像特征。

3.根据权利要求1所述的方法，其特征在于，所述深度网络是根据跟踪器在三维虚拟环境中对运动目标进行跟踪所产生的样本图像帧进行训练得到的。

4.根据权利要求3所述的方法，其特征在于，所述策略函数包括至少一个第一参数，所述第一参数是通过第一误差反向传播公式训练得到的；

所述第一误差反向传播公式如下：

θ＝θ′+α(R_t-V(S_t))▽_θlogπ(a_t|S_t)+β▽_θH(π(·|S_t))

其中，θ’为修正前的第一参数，α为学习速率，R_t-V(S_t)为所述累积误差，R_t为所述连续T步累积的T个奖励值之和，V(S_t)为所述连续T步累积的T个所述奖励值的估值之和，logπ(a_t|S_t)为所述预测输出概率，H为熵正则项，β为正则化因子，其中，所述T为预设阈值，每次向所述深度网络输入一个图像帧计为一步，所述预测输出概率是将所述样本图像帧输入所述策略函数后计算得到的n个输出动作各自的预测输出概率，所述奖励值用于表示所述跟踪器的实时跟踪位置和预设的目标期望位置的吻合程度，所述奖励值的估值用于表示估值函数预测出的预测跟踪位置与所述目标期望位置的吻合程度。

5.根据权利要求4所述的方法，其特征在于，所述估值函数包括至少一个第二参数，所述第二参数是通过第二误差反向传播公式训练得到的；

所述第二误差反向传播公式如下：

其中，θ’为所述修正前的第二参数，R_t-V(S_t)为所述累积误差，R_t为所述连续T步累积的T个所述奖励值之和，V(S_t)为所述连续T步累积的T个所述奖励值的估值之和，α为学习速率。

6.根据权利要求4所述的方法，其特征在于，所述奖励值是通过如下公式计算得到的：

以所述跟踪器所在位置为原点，所述跟踪器在所述三维虚拟环境中的正前方为y轴正方向，所述跟踪器在所述三维虚拟环境中的水平向右为x轴的正方向，建立直角坐标系，其中，A为所述奖励值达到最大时的取值，r为所述样本图像帧对应的奖励值，d为预设的偏移量，c为预设的归一化参数，λ为预设的权重因子，a为所述运动目标与所述跟踪器的连线，与所述y轴正方向所形成的角度。

7.一种深度网络训练方法，其特征在于，用于对权利要求1或2所使用的所述深度网络进行训练，所述训练方法包括：

构建三维虚拟环境，所述三维虚拟环境包括跟踪器和所述运动目标，所述跟踪器用于在所述三维虚拟环境中跟踪所述运动目标，且以第一视角采集跟踪所述运动目标时的图像帧，所述运动目标用于按照预定路径在所述三维虚拟环境中进行移动；

获取所述跟踪器采集到的样本图像帧；

8.根据权利要求7所述的方法，其特征在于，所述根据所述奖励值和所述奖励值的估值之间的误差，利用误差反向传播算法对所述深度网络和所述估值函数进行训练，包括：

将所述样本图像帧的图像特征输入所述深度网络的所述策略函数计算得到n个输出动作各自的预测输出概率；

对于所述策略函数中的每个第一参数，将所述预测输出概率和所述累积误差输入第一误差反向传播公式计算得到修正后的第一参数，根据所述修正后的第一参数更新修正前的第一参数；

对于所述估值函数中的每个第二参数，将所述累积误差输入第二误差反向传播公式计算得到修正后的第二参数，根据所述修正后的第二参数更新修正前的第二参数。

9.根据权利要求7至8任一所述的方法，其特征在于，所述训练方法还包括：

通过多个线程同时对所述深度网络进行训练；

其中，所述多个线程在同时对所述深度网络进行训练的初始时刻，使用所述第一参数的初始值以及所述第二参数的初始值，并在开始训练后对所述第一参数和所述第二参数进行异步更新，

其中，所述异步更新是指，任意两个线程之间的所述第一参数的更新不相互影响，和/或，任意两个线程之间的所述第二参数的更新不相互影响。

10.根据权利要求7至8任一所述的方法，其特征在于，当达到预设训练结束条件时，停止本次训练；

所述预设训练结束条件包括：

向所述深度网络输入的图像帧的数量达到第一预设阈值，

或，

连续m步累积的m个所述奖励值之和达到第二预设阈值，m为正整数。

11.一种主动跟踪装置，其特征在于，所述装置包括：

第一获取模块，用于获取摄像头拍摄的第i帧图像帧，所述第i帧图像帧中包括运动目标，其中i为自然数；

第一输入模块，用于将所述第i帧图像帧输入深度网络，所述深度网络包括特征提取网络和策略函数，所述深度网络是预先根据三维虚拟环境训练得到的神经网络；

第一计算模块，用于通过所述策略函数根据所述图像特征计算n个输出动作各自的输出概率，所述输出动作是用于控制所述摄像头的动作，其中n为自然数，且n≥2；

12.一种主动跟踪系统，其特征在于，所述系统包括：服务器和终端，所述服务器和所述终端通过网络相连；

所述终端，还用于将所述第i帧图像帧发送至所述服务器；

所述服务器用于通过所述特征提取网络提取所述第i帧图像帧的图像特征；

13.一种终端，其特征在于，所述终端包括处理器、存储器和摄像头，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集：

所述处理器，用于获取所述摄像头拍摄的第i帧图像帧，所述第i帧图像帧中包括运动目标，其中i为自然数；

所述处理器，还用于将所述第i帧图像帧输入深度网络，所述深度网络包括特征提取网络和策略函数；

所述处理器，还用于通过所述特征提取网络提取所述第i帧图像帧的图像特征；

所述处理器，还用于通过所述策略函数根据所述图像特征计算n个输出动作各自的输出概率，所述输出动作是用于控制所述摄像头的动作，其中n为自然数，且n≥2；

所述处理器，还用于从所述n个输出动作的输出概率中选择最大输出概率；

所述处理器，还用于控制所述摄像头执行所述最大输出概率对应的所述输出动作，以对所述运动目标进行跟踪。

14.根据权利要求13所述的终端，其特征在于，

所述终端是无人机，

或，所述终端是机器人，

或，所述终端是无人汽车。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的主动跟踪方法，和/或，如权利要求7至10任一所述的深度网络训练方法。