CN110503661A

CN110503661A - 一种基于深度强化学习和时空上下文的目标图像追踪方法

Info

Publication number: CN110503661A
Application number: CN201810469999.2A
Authority: CN
Inventors: 熊乃学; 邬春学; 刘开俊
Original assignee: Wuhan Zhiyun Xingda Information Technology Co Ltd
Current assignee: Wuhan Zhiyun Xingda Information Technology Co Ltd
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2019-11-26

Abstract

本发明公开了一种基于深度强化学习和时空上下文的目标图像追踪方法，包括以下步骤：1)在每个时间步t，使用特征提取网络从输入序列中获取图像x_t，作为视觉特征；将视觉特征通过STC和递归神经网络，然后分别从STC和递归神经网络中提取时空特征c_t和隐层状态h_t，其中时空特征c_t将被为参考标准；2)建立模型；3)模型训练；4)根据模型的预测位置，进行目标追踪。本发明提出的方法和模型在跟踪过程中具有较高的成功率和精度得分，也反映了本发明提出的基于强化学习和时空上下文的DRST模型能够实现对目标对象的长期跟踪，避免跟踪过程出现跟踪漂移。

Description

一种基于深度强化学习和时空上下文的目标图像追踪方法

技术领域

本发明涉及图像处理，尤其涉及一种基于深度强化学习和时空上下文的目标图像追踪方法。

背景技术

不同于深度学习在目标检测和目标识别等视觉领域的成功应用，深度学习在目标跟踪领域困难重重，其主要问题在于训练数据的缺失：深度学习模型能够对大量标注训练数据的有效学习，但目标跟踪仅仅提供第一帧的bounding-box作为训练数据，因此在跟踪开始针对当前目标从头训练一个深度模型困难重重。本发明针对目标跟踪任务中出现的跟踪漂移及跟踪速度缓慢等问题,提出了一种基于深度强化学习(Reinforcement Learning)和时空上下文STC(Spatio-Temporal Context)学习进行目标跟踪的模型(DRST)。该模型在每一个连续的视频帧中，都能够直接预测被跟踪目标的边框位置。本发明介绍的基于深度强化学习的目标追踪基于端到端的方式处理，跟踪任务可以被处理为与未来决策信息高度相关的顺序决策过程和历史语义编码信息。在模型的训练阶段利用强化学习来最大化跟踪性能，能够长期地利用连续的帧间相关性。本发明的模型使用时空上下文算法来实现有效的跟踪性能。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于深度强化学习和时空上下文的目标图像追踪方法。

本发明解决其技术问题所采用的技术方案是：一种基于深度强化学习和时空上下文的目标图像追踪方法，包括以下步骤：

1)在每个时间步t，使用特征提取网络从输入序列中获取图像x_t，作为视觉特征；将视觉特征通过STC和递归神经网络，然后分别从STC和递归神经网络中提取时空特征c_t和隐层状态h_t，其中时空特征c_t将被为参考标准(ground--truth)；

2)建立模型；

2.1)根据图像x_t，获取每一帧的图像信息和对应的位置向量s_t；

2.2)在每个时间步长，将视觉特征向量和位置向量组合为向量O_t；

2.3)在每个时间步t，使用w_r参数化的递归神经网络f_r从特征提取网络提取的特征向量和来自递归神经网络先前的隐藏状态h_t-1被输入当前状态的递归神经网络中，并更新新的隐藏状态h_t：

h_t＝f_r(h_t-1，o_t；W_r) (1)

其中，f_r是递归神经网络的转换函数；

2.4)计算置信图峰值位置来确定下一帧目标：

其中，x∈R²表示目标对象的中心位置，o是当前目标位置，x^＊是跟踪目标的中心位置，b是标准化常数，a是比例参数；

置信图可以分解如下：

其中，X^c＝{c(z)＝(I(z)，z)∈Q_c(x^*)}表示上下文特征集，上下文特征c(z)＝(I(z)，z)由图像灰度I(z)信息和z位置处的位置信息共同描述，Q_c(x*)表示目标x*的局部区域；

其中，式(5)中

P(x|c(z)，o)＝h^sc(x-z) (6)

其中，h^sc(x-z)建模目标位置x和局部上下文区域位置c之间的相对距离以及方向关系，从而编码被跟踪目标和其空间上下文的空间关系；

其中，式(5)中

P(c(z)|o)＝I(z)ω_σ(z-x^*) (7)

其中，I(z)表示局部区域范围内目标位置z处的灰度值，用来描述上下文的外观信息；ω是一个加权函数，具体表示为：

其中，表示权重函数，σ为尺度参数，α是归一化参数，能够使函数的概率值维持在[0，1]之间；一般情况下，局部区域范围内的目标位置z距离目标x*越近，则表示该目标位置z在跟踪过程中越重要，所以会给予位置z相对较大的权重。

2.5)被跟踪目标的置信图描述为：

其中，β为参数，在已知被跟踪目标位置x^＊的前提下，利用置信图公式计算局部上下文区域任意一点x的似然概率；

2.6)计算学习空间上下文模型：

2.7)通过前面几个步骤的计算得到第t帧时的空间上下文模型h^sc(x)，并且在此基础上用来更新时t+1帧的时空上下文模型，具体实现公式如15所示：

在t+1帧时，局部区域Q_c(x^*)是基于第t帧的目标位置剪裁得到的；构建的特征集具体表示为X^c＝{c(z)＝(I(z)，z)∈Q_c(x^*)}；通过公式16来计算第t+1帧置信图的最大似然概率位置，获得下一帧目标的新位置：

c_t+1(x)

可以被表示为：

3)模型训练；

对步骤2)得到的模型进行训练；

若为初期训练阶段，即Epoch≤threshold，使用如下奖励函数进行训练：

r_t＝-ρmax(|l_t-c_t|)-(1-ρ)avg(|l_t-c_t|)

其中，c_t表示由STC模型输出的目标对象的预测位置，l_t表示递归神经网络的输出结果，运算符avg(·)和max(·)分别表示像素的平均值和最大值。

否则，为后期训练阶段，使用如下奖励函数进行训练：

其中，式中奖励的计算可以被描述为1_t和c_t的交叉区域除以1_t和c_t之间的联合区域。

4)根据模型的预测位置，进行目标追踪。

本发明产生的有益效果是：

发明提出的方法在跟踪过程中具有较高的成功率和精度得分，也反映了本发明提出的基于强化学习和时空上下文的DRST模型能够实现对目标对象的长期跟踪，避免跟踪过程出现跟踪漂移。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的方法流程图；

图2是本发明实施例的模型框架示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

1)模型框架

如图2所示，在每个时间步t，特征提取网络从输入序列中获取图像x_t。视觉特征由特征提取网络生成。为了获得时空特征，首先将视觉特征通过STC和递归神经网络。然后分别从STC和递归神经网络中提取时空特征c_t和隐层状态h_t，其中时空特征c_t将被为ground-truth。特别地，递归神经网络也会接收先前的隐藏状态h_t-1作为输入。最后阶段，在每个时间步t直接提取出Recurrent网络隐藏状态的最后四个元素，作为目标对象的预测位置1_t。在RL的训练过程中为每个预测结果定义奖励r_t以更新网络参数。DRST模型通过最大化累积奖励来实现跟踪性能最大化。

2)DRST模型

在特征提取网络，一般的图像特征从w_c参数化的特征提取网络f_c(如卷积神经网络CNN)中提取。具体而言，卷神经网络将每一帧的视频信息和对应的位置向量s_t作为其输入。将视频帧编码成一个长度为4096的特征向量i_t之后，CNN能够在每个时间步长将特征向量和位置向量组合为向量o_t。其中，s_t的值直接被设置为给定序列中第一帧的归一化的坐标(x，y，w，h)∈[0，1]，在其他帧则被设置为0。

如图1所示，在每个时间步t，w_r参数化的递归神经网络f_r从特征提取网络提取的特征向量和来自递归神经网络先前的隐藏状态h_t-1被输入当前状态的递归神经网络中，并更新新的隐藏状态h_t：

h_t＝f_r(h_t-1，o_t；W_r) (1)

其中，f_r是递归神经网络的转换函数。

在本文提出的跟踪模型中使用时空上下文(简称STC)来训练模型以获得更好的性能，其跟踪结果可以被视为每个视频帧下目标的ground-truth。并在模型训练过程中使用强化学习(Reinforcement Learning，简称RL)修正实际跟踪结果。

跟踪问题可以用概率问题来表示，具体描述如下：

(2)其中x∈R²表示目标对象的中心位置，o是当前目标位置，x^*是跟踪目标的中心位置，b是标准化常数，a是比例参数。通过计算置信图峰值位置来确定下一帧目标。

置信图可以分解如下：

其中，X^c＝{c(z)＝(I(z)，z)∈Q_c(x^*)}表示上下文特征集，上下文特征c(z)＝(I(z)，z)由图像灰度I(z)信息和z位置处的位置信息共同描述，Q_c(x*)表示目标x*的局部区域。

2.1)空间上下文模型(Spatial Context Model)

空间上下文模型可以被公式化为一个条件概率函数：

P(x|c(z)，o)＝h^sc(x-z) (6)

其中，h^sc(x-z)建模目标位置x和局部上下文区域位置c之间的相对距离以及方向关系，从而编码被跟踪目标和其空间上下文的空间关系。

2.2)上下文先验模型(Context Prior Model)

上下文先验模型用于建模局部上下文信息，可以被公式化为一个先验概率模型，从而计算局部区域内每个点z为目标的概率，如公式7所示：

P(c(z)|o)＝I(z)ω_σ(z-x^*) (7)

其中，表示权重函数，σ为尺度参数，α是归一化参数，能够使函数的概率值维持在[0，1]之间。一般情况下，局部区域范围内的目标位置z距离目标x*越近，则表示该目标位置z在跟踪过程中越重要，所以会给予位置z相对较大的权重。

2.3)置信图(Confidence Map)

被跟踪目标的置信图可以被描述为：

其中，参数β至关重要，数值的微小变化都会给公式的最终结果造成巨大的影响。在已知被跟踪目标位置x*的前提下，利用置信图公式计算局部上下文区域任意一点x的似然概率。

2.4)快速学习空间上下文模型(Fast Learning Spatial Context Model)

其模型的数学表示如公式10～12所示：

通过步骤2.2)和步骤2.3)分别获得出上下文先验概率模型和关于被跟踪目标位置的置信图之后，就可以计算空间上下文模型。利用傅里叶变换，可以在频率域中，将公式12中时域的卷积等效为频域中的乘积，实现加速计算，具体见公式13：

其中，F表示傅里叶变换操作，⊙表示元素的乘积。

在上述计算结果的基础上，学习空间上下文模型：

2.5)跟踪

通过前面几个步骤的计算，已经可以得到第t帧时的空间上下文模型h^sc(x)，并且可以在此基础上用来更新时t+1帧的时空上下文模型，具体实现公式如15所示：

c_t+1(x)可以被表示为：

3)训练过程

在模型训练阶段模型中，强化学习用来纠正跟踪结果，实现跟踪性能最大化。跟踪性能用奖励函数来表示。本文定义了两种奖励，初期使用的第一个奖励是：

r_t＝-ρmax(|l_t-c_t|)-(1-ρ)avg(|l_t-c_t|) (18)

第二个奖励函数用于后续训练阶段：

其中公式(19)中奖励的计算可以被描述为1_t和c_t的交叉区域除以1_t和c_t之间的联合区域(IOU)。

在DRST的训练过程中，智能体agent的目标是学习一个策略，以实现总体追踪奖励的最大化。该策略的形式是：

π(l_t|z_1：t；W) (20)

其中W用来实现网络的参数化，z_1：t＝x₁，l₁，x₂，l₂，....,x_t-1，l_t-1，x_t表示动作序列，该动作序列由递归神经网络中的隐层产生，表示智能体与环境交互产生的一系列动作。

策略π(l_t|z_1：t；W)可以将过去与序列Z_1：t的相互作用映射到当前动作的分布。可以将Z_1：t替换为Z_T，并定义奖励的目标函数：

(21)

其中p(Z_T；W)表示Z_T的分布。

由于公式(21)中的期望涉及到高维交互的问题，难以通过传统的监督方式处理，因此探索另一种近似计算方法，具体定义如下：

如公式(22)所示，强化学习被用来简化梯度的运算。

为了进一步简化上述期望的计算过程，引入了一种情景算法：

其中，Rⁱ表示执行N个情景下的决策π(l_t|z_1：t；W)时的总体奖励。

考虑到梯度的高度方差，另一个解决方案是通过总奖励减去基准b_t：

关于预测位置1的密度函数g被描述为：

其中，预测位置1是策略π的输出结果，并且服从固定方差σ和平均值μ的高斯分布。而平均值μ由W参数化的RL跟踪器中提取。

密度函数g的对数概率的偏导数可以表示为：

由于μ和模型的权重W相关，W可以通过反向传播算法进行计算。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于深度强化学习和时空上下文的目标图像追踪方法，包括以下步骤：

1)在每个时间步t，使用特征提取网络从输入序列中获取图像x_t，作为视觉特征；将视觉特征通过STC和递归神经网络，然后分别从STC和递归神经网络中提取时空特征c_t和隐层状态h_t，其中时空特征c_t将被为参考标准；

2)建立模型；

2.3)在每个时间步t，使用w_r参数化的递归神经网络f_r从特征提取网络提取的特征向量和来自递归神经网络先前的隐藏状态h_t-1被输入当前状态的递归神经网络中，并更新得到新的隐藏状态h_t：

h_t＝f_r(h_t-1,o_t；W_r) (1)

其中，f_r是递归神经网络的转换函数；

2.4)计算置信图峰值位置来确定下一帧目标：

其中，x∈R²表示目标对象的中心位置，o是当前目标位置，x^*是跟踪目标的中心位置，b是标准化常数，a是比例参数；

置信图可以分解如下：

其中，X^c＝{c(z)＝(I(z),z)∈Q_c(x^*)}表示上下文特征集，上下文特征c(z)＝(I(z),z)由图像灰度I(z)信息和z位置处的位置信息共同描述，Q_c(x*)表示目标x*的局部区域；

其中，式(5)中

P(x|c(z),o)＝h^sc(x-z) (6)

其中，式(5)中

P(c(z)|o)＝I(z)ω_σ(z-x^*) (7)

其中，表示权重函数，σ为尺度参数，α是归一化参数，能够使函数的概率值维持在[0，1]之间；

2.5)被跟踪目标的置信图描述为:

其中，β为参数，在已知被跟踪目标位置x^*的前提下，利用置信图公式计算局部上下文区域任意一点x的似然概率；

2.6)计算学习空间上下文模型：

在t+1帧时，局部区域Q_c(x^*)是基于第t帧的目标位置剪裁得到的；构建的特征集具体表示为X^c＝{c(z)＝(I(z),z)∈Q_c(x^*)}；通过公式(16)来计算第t+1帧置信图的最大似然概率位置，获得下一帧目标的新位置：

c_t+1(x)可以被表示为：

3)模型训练；

对步骤2)得到的模型进行训练；

r_t＝-ρmax(|l_t-c_t|)-(1-ρ)avg(|l_t-c_t|)

否则，为后期训练阶段，使用如下奖励函数进行训练：

其中，式中奖励的计算可以被描述为l_t和c_t的交叉区域除以l_t和c_t之间的联合区域；

4)根据模型的预测位置，进行目标追踪。