CN112288776B

CN112288776B - 一种基于多时间步金字塔编解码器的目标跟踪方法

Info

Publication number: CN112288776B
Application number: CN202011154966.2A
Authority: CN
Inventors: 李平; 张宇; 蒋天翼; 徐向华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2022-06-24
Anticipated expiration: 2040-10-26
Also published as: CN112288776A

Abstract

本发明公开了一种基于多时间步金字塔编解码器的目标跟踪方法。本发明方法首先对含有模板帧的视频帧序列通过编码器获取时序编码特征，并对时序编码特征进行卷积与池化操作获得时序卷积核；然后构建全局卷积模块获得帧序列的长短期特征，并将时序编码特征与长短期特征输入构建的多尺度特征生成模型以捕获多尺度特征；最后通过分类支路与回归支路获得目标中心点及其所在区域信息，并据此获得最终的目标边界框。本发明方法利用多时间步编码器并行地快速处理连续的多个视频帧，通过全卷积模块刻画视频帧间的长短期时序关系，并充分融合不同尺度下的目标特征，能够有效捕捉跨度时间长、尺度变化大的目标，提高了目标跟踪的准确率和效率。

Description

一种基于多时间步金字塔编解码器的目标跟踪方法

技术领域

本发明属于视频理解中的目标跟踪技术领域，涉及一种基于多时间步金字塔编解码器的目标跟踪方法。

背景技术

随着公共安全日益在人们的社会生产活动中占据重要的地位，遍布街头巷道、商场车站的视频采集设备构成了智慧城市的眼睛，对视频中的特定目标如人或物体的追踪是诸如嫌犯追踪、失踪人群定位等任务的基础需求。由此，高效地追踪目标重要目标成为视频处理中的重要研究任务。目标跟踪旨在对视频中的任意给定目标，确定其在视频帧序列中准确位置,一般用边界矩形框标识目标，在自动驾驶、增强现实、体育比赛、医学影像、海洋探索等领域有着广泛的应用。例如，在无人驾驶环境中，目标跟踪能够对周围环境中存在的主要目标进行追踪从而有效地确保车辆安全行驶，从而保障乘客人员的安全。目标跟踪主要遇到的困难包括视频的某个目标外观随着时间和拍摄光照发生变化、目标快速运动造成运动模糊、视频背景中存在相似物体干扰等，这些问题给目标跟踪带来很大挑战。

传统方法中基于相关滤波的目标跟踪算法由于其快速高效的特性成为目标跟踪早期算法的主流方向，但当视频的目标随着如形状、光照等发生变化且变化过于剧烈时，这类算法则无法有效地表征目标，从而导致跟踪失败。近年来兴起的深层神经网络为视频数据提供了强大的表征能力，如研究人员提出了基于相关滤波和卷积神经网络的判别相关滤波算法，即利用物体的外观特征在深层特征空间训练一个具有判别能力的相关滤波器，获得更加优越的是否为目标区域的判别性能。另外，基于孪生网络的目标匹配方法被广泛运用到目标跟踪领域，主要思想是通过构建孪生神经网络(即两个结构与参数相同的神经网络)分别将目标的模板图像(即通过给定目标边界框裁剪的帧图像)与视频帧图像投影至特征空间并计算两者的相似度，外观相似的像素点具有高得分，不相似的像素点具有低得分；最后基于相似度的得分确定目标在视频帧图像上的位置区域。

现有的目标跟踪方法存在许多缺点，例如基于相关滤波的算法能够很好地捕捉目标的运动变化但缺乏对目标尺度变化的适应能力，当目标的尺度变化较大时，这类算法无法准确估计目标的尺度；基于孪生网络的算法仅利用了目标的外观信息构建模型，未考虑目标的运动信息，难以适应背景中相似物体的干扰；基于运动模型的方法仅利用预测边界框在时序上的移动方向信息，但由于运动方向的不确定性导致仅能预测下一时刻的较大目标区域且区域范围较为模糊，而非自适应的学习目标运动信息。同时，基于孪生网络的目标跟踪算法一般预先离线训练卷积神经网络模型，在部署时不涉及模型的在线更新，所以难以有效利用线上产生的大量历史预测目标边界框以及神经网络的中间层特征。为了解决目标大小形状的剧烈变化以及难以确定目标区域位置等问题，迫切需要一种充分利用长短期时序信息且能有效捕捉目标尺度变化的方法，从而提升目标边界框的预测精度。

发明内容

本发明的目的就是针对现有技术的不足，提供一种基于多时间步金字塔编解码器的目标跟踪方法，利用时序上下文信息自适应地学习目标的运动模式，同时捕捉目标的不同尺度变化，以获得更优的相似物体判别能力，从而准确地跟踪视频中的给定目标。

本发明方法首先获取包含模板帧的视频数据集合，然后进行如下操作：

步骤(1).构建多时间步编码器，输入为视频帧序列与模板帧，输出为一组时序编码特征；

步骤(2).对时序编码特征进行卷积与池化操作，获得时序卷积核；

步骤(3).构建全局卷积模块，输入为成对的时序编码特征与时序卷积核，利用视频帧之间的不同跨度时序信息输出帧序列对应的长短期特征；

步骤(4).构建多尺度特征生成模型，输入为时序编码特征和长短期特征，利用金字塔解码器、全局卷积模块、多时间步编码器，获得帧序列的多尺度特征；

步骤(5).将帧序列的多尺度特征输入分类支路，获得多个目标前背景及候选中心点的预测概率，输入回归支路获得目标区域边界框的顶点预测位置，据此获得最终的目标边界框。

进一步，步骤(1)具体是：

(1-1).构建多时间步编码器，其中编码器由全卷积神经网络ResNet组成，编码器的数量为K+1个，对应视频连续的K帧和视频的模板帧，模板帧是指含目标边界框的视频首帧，K+1个编码器组成了多时间步编码器；

(1-2).将高为H、宽为W的RGB视频帧I∈R^3×H×W输入编码器，获得时序编码特征

H₁＞H₂＞…＞H_S，W₁＞W₂＞…＞W_S，时序编码特征为多个神经网络中间层特征，根据神经网络中间层特征张量的H_i维度与W_i维度的不同分为S个阶段的时序编码特征，H_i×W_i表示分辨率，第i个阶段是指全卷积神经网络ResNet中由多个卷积层组成的模块；

(1-3).将视频的模板帧与连续的K个视频帧{I⁽¹⁾,I^(T-K+1),...,I^(T)}输入多时间步编码器，获得K+1组时序编码特征

其中j对应视频帧编号，这里除了j＝1表示视频首帧外，其余的j＝T-K+1到j＝T为连续的K个视频帧，T表示单个视频的总帧数。

再进一步，步骤(2)具体是：

(2-1).时序编码特征

通过两个结构相同但参数不共享的卷积层，获得两个中间特征表示

其中下标h表示对高度H_i进行操作，下标w表示对宽度W_i进行操作；

(2-2).对两个中间特征表示

与

分别进行高度H_i维度上和宽度W_i维度上的平均池化，获得高度卷积核

和宽度卷积核

即为时序卷积核。

更进一步，步骤(3)具体是：

(3-1).构建全局卷积模块，全局卷积模块由多个自定义逐层卷积操作组成；

(3-2).自定义逐层卷积的具体操作如下：当输入为成对的时序编码特征

与时序卷积核

时，某一通道的逐层卷积操作表示为

其中，上标o表示输出(Output)，

表示输出的长短期特征在C_i维度中的第l层特征矩阵，长短期特征是指长期特征和短期特征；f_l表示时序编码特征在C_i维度的第l层特征矩阵，

和

分别表示时序卷积核中的高度卷积核

与宽度卷积核

在C_i维度中的第l层特征矩阵，符号“*”表示普通卷积操作；将特征矩阵沿着C_i维度叠加获得短期特征

当输入为当前帧的时序编码特征

与视频首帧(即j＝1)的时序卷积核

时，通过相同的上述操作，获得长期特征

(3-3).不同跨度时序信息包括当前帧的时序编码特征

与前一帧的时序卷积核

通过自定义逐层卷积构建的短期时序信息，以及当前帧的时序编码特征

与视频首帧的时序卷积核

通过自定义逐层卷积构建的长期时序信息。

又进一步，步骤(4)具体是：

(4-1).多尺度特征生成模型包括金字塔解码器、全局卷积模块、多时间步编码器等模块；

(4-2).金字塔解码器由S个上采样优化子模块顺序组成，即

这里refine^(j)(·)函数映射包含多个卷积层与上采样层并称之为上采样优化子模块，对应(1-1)的多时间步编码器的S个阶段；

(4-3).利用(3-2)的全局卷积模块获得短期特征

并输入上采样优化子模块，获得短期响应特征

即若存在前一个上采样优化子模块输出的特征表示

则将短期特征

与特征表示

相加并输入上采样优化子模块，得到短期响应特征：

(4-4).将短期响应特征

输入(1-1)的多时间步编码器，并与初始的时序编码特征

相加后输入(1-1)的编码器，获得优化后的短期响应特征

(4-5).将优化后的短期响应特征

作为时序编码特征经过(3-2)的全局卷积模块获得长期特征

(4-6).将长期特征

输入至金字塔解码器，获得视频帧序列的多尺度特征

继续进一步，步骤(5)具体是：

(5-1).构建分类支路，分类支路由分类卷积模块与中心卷积模块组成，这两个卷积模块均由两个全卷积层组成，并且每一个分辨率的多尺度特征对应一个分类支路，共计S个分类支路，对应(1-1)中编码器的S个阶段；其中，分类卷积模块用于区分输入的帧序列像素点属于前景或背景的概率，中心卷积模块用于区分输入的帧序列像素点属于目标候选中心点的概率；

①将多尺度特征

输入至分类卷积模块，获得目标分类预测张量

由两个维度为h_i×w_i矩阵组成，第一个矩阵元素表示属于前景目标的概率，第二个矩阵元素表示属于背景的概率；

②将多尺度特征

输入至中心卷积模块，获得目标候选中心点预测矩阵

矩阵的每个元素表示属于目标中心点的概率；

(5-2).构建S个由回归卷积模块组成的回归支路，对应编码器的S个阶段，其中回归卷积模块均为全卷积层且每种分辨率的多尺度特征对应一个回归支路；将多尺度特征

输入回归卷积模块获得目标顶点的预测张量

该张量由四个大小为h_i×w_i的矩阵堆叠组成，这四个矩阵对应位置元素依次表示目标边界框左上顶点的横坐标、纵坐标以及右下顶点的横坐标、纵坐标，也即相对于当前位置的四个偏移量；

(5-3).将S组预测结果

通过双线性插值将后两个维度h_i×w_i缩放至H×W，利用均值策略加权求和获得最终的预测张量集合

其中{λ_i,γ_i,β_i}＞0为可学习的神经网络参数；

(5-4).根据目标分类预测张量P^(j)中前景目标的概率高低选取前N个目标向量

(5-5).根据选取的前N个目标向量从目标候选中心点预测矩阵Q^(j)选取对应位置的N个中心向量

从目标候选中心点预测矩阵Q^(j)选取属于目标中心点概率最高的向量二维坐标(x,y)；

(5-6).根据目标中心点的二维坐标(x,y)获得目标顶点预测张量R^(j)对应的位置元素向量r^(j)∈R⁴，即目标左上顶点和右下顶点的位移偏置向量[x_lu,y_lu,x_rd,y_rd]，从而求得左上顶点坐标(x+x_lu,y+y_lu)和右下顶点坐标(x+x_rd,y+y_rd)，据此坐标值确定一个矩形区域，即目标的最终边界框。

本发明方法利用多时间步编码器和以金字塔解码器核心的全局卷积模块对视频中的目标进行跟踪，该方法具有以下几个特点：1)不同于已有方法逐帧顺序处理视频帧，所设计的方法使用多时间步编码器同时对多个连续视频帧进行特征提取；2)利用多时间步编码器提取的时序编码特征以及通过全局卷积模块捕获视频帧序列的长期与短期时序关系，而传统方法仅利用长期时序关系忽略相邻帧间的短期时序关系；3)现有的方法一般依赖预设边界框缺乏对目标尺度变化的学习，本方法利用金字塔结构对目标多尺度变化进行学习。

本发明方法适用于在跨度时间长且目标尺度变化大的场景跟踪视频目标，有益效果包括：1)利用多时间步编码能够并行处理多个连续视频帧，能够提高处理效率；2)通过全局卷积模块构建视频首帧与当前视频帧的长期关系以及当前视频帧与其相邻帧的短期关系，充分考虑目标的时序关系以获得根据准确的目标位置区域；3)通过构建金字塔解码器对目标的多尺度变化进行学习，充分融合不同尺度下的目标特征，获得更加准确的边界框尺度。本发明所具有的长短期时序学习能力与捕获多尺度变化能力，可应用于无人驾驶、智慧安防、嫌犯的定位与追踪等。

附图说明

图1是本发明方法的流程图。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1，一种基于多时间步金字塔编解码器的目标跟踪方法，首先将给定的视频帧序列与模板帧输入多时间步编码器得到一组时序编码特征，并对其进行卷积与池化操作获得时序卷积核；然后利用视频帧间的不同跨度时序信息得到长短期特征，将长短期特征与时序编码特征输入金字塔解码器、全局卷积模块、多时间步编码器等获得多尺度特征；最后利用多尺度特征确定目标区域的中心点及顶点预测位置，据此获得目标的边界框。该方法利用多时间步编码器并行处理多个连续帧提高效率，设计的全局卷积模块能够刻画视频首帧与当前帧间的长期关系以及当前帧与相邻帧间的短期关系，并通过金字塔模型捕获多尺度特征，从而更好地跟踪视频中的目标。

该方法首先获取包含模板帧的视频数据集合，然后进行以下操作：

步骤(1).构建多时间步编码器，输入为视频帧序列与模板帧，输出为一组时序编码特征；具体是：

(1-1).构建多时间步编码器，其中编码器由全卷积神经网络ResNet组成，编码器共计K+1个，分别对应视频连续的K帧与视频的模板帧，K+1个编码器组成了多时间步编码器，其中模板帧是指含目标边界框的视频首帧；

(1-2).将高为H宽为W的RGB视频帧I∈R^3×H×W输入编码器，获得的多个神经网络中间层特征称为时序编码特征

其中H₁＞H₂＞...＞H_S,W₁＞W₂＞...＞W_S，根据神经网络中间层特征张量的H_i维度与W_i维度的不同分为S个阶段的时序编码特征，其中i表示时序编码特征阶段下标，H_i×W_i表示分辨率，这里的第i个阶段是指全卷积神经网络ResNet中由多个卷积层组成的模块；

其中j对应视频帧编号，这里除了j＝1表示视频首帧外，其余的j＝T-K+1到j＝T是指连续的K个视频帧。

步骤(2).对时序编码特征进行卷积与池化操作，获得时序卷积核；具体是：

(2-1).时序编码特征

(2-2).对两个中间特征表示

与

分别进行高度H_i维度上与宽度W_i维度上的平均池化，获得高度卷积核

与宽度卷积核

两者合并统称为时序卷积核。

步骤(3).构建全局卷积模块，输入为成对的时序编码特征与时序卷积核，利用视频帧之间的不同跨度时序信息输出帧序列对应的长短期特征；具体是：

与时序卷积核

时，某一通道的逐层卷积操作表示为

其中上标o表示输出(Output)，f_l表示时序编码特征在C_i维度的第l层特征矩阵；类似地，

和

分别表示时序卷积核中的高度卷积核

与宽度卷积核

在C_i维度中的第l层特征矩阵，符号“*”表示普通卷积操作，

表示输出的长短期特征在C_i维度中的第l层特征矩阵，将特征矩阵沿着C_i维度叠加获得短期特征

当输入为时序编码特征

与时序卷积核

时，通过类似操作可获得长期特征

长短期特征是指长期特征与短期特征；

(3-3).不同跨度时序信息指当前帧的时序编码特征

与前一帧的时序卷积核

与视频首帧的时序卷积核

通过自定义逐层卷积构建的长期时序信息。

步骤(4).构建多尺度特征生成模型，输入为时序编码特征和长短期特征，利用金字塔解码器、全局卷积模块、多时间步编码器等模块获得帧序列的多尺度特征；具体是：

(4-2).金字塔解码器由S个上采样优化子模块顺序组成，即

(4-3).利用(3-2)的全局卷积模块获得短期特征

并输入上采样优化子模块，获得短期响应特征

即若存在前一个上采样优化子模块输出的特征表示

则将短期特征

与特征表示

相加并输入上采样优化子模块，得到短期响应特征：

(4-4).将短期响应特征

输入(1-1)的多时间步编码器，并与初始的时序编码特征

相加后输入(1-1)的编码器，获得优化后的短期响应特征

(4-5).将优化后的短期响应特征

作为时序编码特征经过(3-3)的全局卷积模块获得长期特征

(4-6).将长期特征

输入至金字塔解码器，获得视频帧序列的多尺度特征

步骤(5).将帧序列的多尺度特征输入分类支路获得多个目标前背景及候选中心点的预测概率，输入回归支路获得目标区域边界框的顶点预测位置，据此获得最终的目标边界框；具体是：

①将多尺度特征

输入至分类卷积模块，获得目标分类预测张量

实际上由两个维度为h_i×w_i矩阵组成，第一个矩阵元素表示属于前景目标的概率，第二个矩阵元素表示属于背景的概率；

②将多尺度特征

输入至中心卷积模块，获得目标候选中心点预测矩阵

矩阵的每个元素表示属于目标中心点的概率；

输入回归卷积模块获得目标顶点的预测张量

(5-3).将S组预测结果

其中，{λ_i,γ_i,β_i}＞0为可学习的神经网络参数；

本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于多时间步金字塔编解码器的目标跟踪方法，其特征在于，该方法首先获取包含模板帧的视频数据集合，然后进行如下操作：

具体是：

(1-1).构建由多个编码器组成的多时间步编码器，每个编码器由全卷积神经网络ResNet组成，编码器的数量为K+1个，对应视频连续的K帧和视频的模板帧，模板帧是指含目标边界框的视频首帧；

(1-2).将高为H、宽为W的RGB视频帧

输入编码器，获得时序编码特征

H₁＞H₂＞…＞H_S，W₁＞W₂＞…＞W_S，时序编码特征为多个神经网络中间层特征，根据神经网络中间层特征张量的高度H_i维度与宽度W_i维度的不同分为S个阶段的时序编码特征，H_i×W_i表示分辨率，第i个阶段是指全卷积神经网络ResNet中由多个卷积层组成的模块；

其中j对应视频帧编号，这里除了j＝1表示视频首帧外，其余的j＝T-K+1到j＝T为连续的K个视频帧，T表示单个视频的总帧数；

步骤(4).构建多尺度特征生成模型，输入为时序编码特征和长短期特征，利用金字塔解码器、全局卷积模块、多时间步编码器，获得帧序列的多尺度特征；具体是：

(4-1).多尺度特征生成模型包括金字塔解码器、全局卷积模块、多时间步编码器；

(4-2).金字塔解码器由S个上采样优化子模块顺序组成，即

(4-3).利用(3-2)的全局卷积模块获得短期特征

并输入上采样优化子模块，获得短期响应特征

即若存在前一个上采样优化子模块输出的特征表示

则将短期特征

与特征表示

相加并输入上采样优化子模块，得到短期响应特征：

(4-4).将短期响应特征

输入(1-1)的多时间步编码器，并与初始的时序编码特征

相加后输入(1-1)的编码器，获得优化后的短期响应特征

(4-5).将优化后的短期响应特征

作为时序编码特征经过(3-2)的全局卷积模块获得长期特征

(4-6).将长期特征

输入至金字塔解码器，获得视频帧序列的多尺度特征

步骤(5).将帧序列的多尺度特征输入分类支路，获得多个目标前背景及候选中心点的预测概率，输入回归支路获得目标边界框的顶点预测位置，获得最终的目标边界框；具体是：

(5-1).构建分类支路，分类支路由分类卷积模块与中心卷积模块组成，这两个卷积模块均由两个全卷积层组成，并且每一个分辨率的多尺度特征对应一个分类支路，共计S个分类支路，对应(1-1)中编码器的S个阶段；分类卷积模块用于区分输入的帧序列像素点属于前景或背景的概率，中心卷积模块用于区分输入的帧序列像素点属于目标候选中心点的概率；

①将多尺度特征