CN114627154B

CN114627154B - 一种在频域部署的目标跟踪方法、电子设备及存储介质

Info

Publication number: CN114627154B
Application number: CN202210267567.XA
Authority: CN
Inventors: 王侃; 王伟; 戴礼灿; 张海瀛
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2023-08-01
Anticipated expiration: 2042-03-18
Also published as: CN114627154A

Abstract

本发明提供了一种在频域部署的目标跟踪方法，包括：步骤1、对目标图像数据与待跟踪图像数据进行预处理；步骤2、将预处理后的图像数据变换到频域，并转换成张量形式；步骤3、选取所需数量的静态通道，并将频域下的张量联结；步骤4、将联结后的张量输入到训练好的卷积神经网络，输出目标图像数据与待跟踪图像数据对应的图像特征图；步骤5、对步骤4得到的图像特征图进行互相关操作，得到响应图，从响应图中即可得到目标的跟踪位置。本发明提出的方案在频域进行建立和训练了目标跟踪深度神经网络，利用DCT变换避免了传统频域计算的虚部运算，减少了计算复杂度；在计算复杂度降低的基础上，保持了跟踪准确度。

Description

一种在频域部署的目标跟踪方法、电子设备及存储介质

技术领域

本发明涉及图像处理领域，特别涉及一种在频域部署的目标跟踪方法、电子设备及存储介质。

背景技术

随着计算机图像处理技术的迅速发展和广泛应用，对于目标检测技术的需求也逐渐上升，例如人脸检测、行人检测、车辆检测等等。目标检测俨然已经成为计算机视觉和模式识别领域的基本问题，孪生网络系列作为其重要分支，通过将目标跟踪问题描述成学习一个通用的相似性映射函数问题，较好地平衡了精度与时间复杂度，得到了迅速繁荣。所跟踪的视频图像特征复杂且多样，不仅表现于空域，频域也是一类重要特征。目前深度学习在计算机视觉的各个方面都取得了巨大进展，但主要在时域搭建模型并进行训练，也有少量研究者尝试在频域采用深度学习方法进行物体分类和识别，但还未有在频域采用深度学习方法进行目标跟踪的算法及部署的研究。

发明内容

针对现有技术中存在的问题，提供了一种在频域部署的目标跟踪方法、电子设备及存储介质，解决了在频域建立深度神经网络进行目标识别的各种问题，与现有的时域深度目标跟踪方法比较，在计算量降低的同时，保持了跟踪的准确度。

本发明采用的技术方案如下：一种在频域部署的目标跟踪方法，包括以下步骤：

步骤1、对目标图像数据与待跟踪图像数据进行预处理；

步骤2、将预处理后的图像数据变换到频域，并转换成张量形式；

步骤3、选取所需数量的静态通道，并将频域下的张量联结；

步骤4、将联结后的张量输入到卷积神经网络，输出目标图像数据与待跟踪图像数据对应的图像特征图；

步骤5、对步骤4得到的图像特征图进行互相关操作，得到响应图，从响应图中即可得到目标的跟踪位置。

进一步的，所述步骤1中预处理包括：将图片从RGB转换到YCrCb色域，并采用拉伸的方式，随机调整图像的大小，之后再裁剪成所需图像大小，形成YCrCb色域下的图像特征。

进一步的，所述步骤2中，将YCrCb色域下的图像特征进行DCT变换，将空域特征转换为频域特征，同时产生192个静态通道。

进一步的，所述步骤2中，在DCT模式下将PIL Image或ndarray转换成张量形式，并归一化至[0-1]区间。

进一步的，所述步骤2中，在进行DCT变换之前，先将原始图像进行分块，在逐一进行变换。

进一步的，所述DCT变换的具体方式为：

正向DCT变换：

反向DCT变换：

进一步的，所述步骤3中静态通道选取方法：采用正方形或三角形方式对静态通道进行选择。

进一步的，所述卷积神经网络由依次连接的卷积层conv1、conv2、conv3、conv4、conv5组成，每层卷积层的卷积核均为3*3，步长为1；其输入能够接收192个通道以内的图像特征。

本发明还提出了一种电子设备，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行上述的在频域部署的目标跟踪方法对应的计算机程序。

本发明还提出了一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时用于实现上述的在频域部署的目标跟踪方法对应的过程。

与现有技术相比，采用上述技术方案的有益效果为：

(1)在频域建立和训练的目标跟踪深度神经网络。

(2)利用DCT变换避免了传统频域计算的虚部运算，减少了计算复杂度。

(3)在计算复杂度降低的基础上，保持了跟踪准确度。

附图说明

图1为本发明提出的在频域部署的目标跟踪方法流程图。

图2为本发明一实施例中目标跟踪算法架构图。

图3为本发明一实施例中预处理及变换示意图。

图4为本发明一实施例中卷积神经网络结构图。

图5为本发明现有跟踪算法架构图。

图6为本发明现有卷积神经网络结构图。

图7为本发明一实施例中SiamFC算法在TB50下的测试结果图。

图8为本发明一实施例中SiamFC算法在TB100下的测试结果图。

图9为本发明一实施例中SiamFC算法在CVPR13下的测试结果图。

图10为本发明一实施例中dctsiamfc算法在TB50下的测试结果图。

图11为本发明一实施例中dctsiamfc算法在TB100下的测试结果图。

图12为本发明一实施例中dctsiamfc算法在CVPR13下的测试结果图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

实施例1

目前的目标跟踪达到在空域进行，而频域特征下的滤波器会优于空域特征下的降采样操作，这使得若缩小到同等特征维度下去提升算法的运算速度时，采用频域的算法可以更好保留算法的原有精度，因此，本实施例提出了在频域进行的目标跟踪方法，具体方案如下：

如图1所示，一种在频域部署的目标跟踪方法，包括以下步骤：

步骤1、对目标图像数据与待跟踪图像数据进行预处理；

步骤3、选取静态通道，并将频域下的张量联结；

具体的，所述步骤1中预处理包括：将图片从RGB转换到YCrCb色域，并采用拉伸的方式，随机调整图像的大小，之后再裁剪成所需图像大小，形成YCrCb色域下的图像特征。

在步骤2中，将YCrCb色域下的图像特征进行DCT变换，将空域特征转换为频域特征，同时产生192个静态通道。在DCT模式下将PIL Image或ndarray转换成张量形式，并归一化至[0-1]区间。

频域的数据预处理及变换整体过程如图3所示，遵循传统(SiamFC算法)的数据预处理过程并增加了数据流在空间域中的变换，包括图像的缩放、裁剪、翻转等操作，这是为了数据增强来优化我们模型的训练。之后，将所处理过的图像转换到YCbCr颜色空间域，并转换到频域(进行了离散余弦变换DCT)。在同一频率下的二维DCT系数会被分配到一个通道中形成三维的DCT多维数据集(即DCT的重塑过程)。

具体的，DCT(离散余弦变换)是一种与傅里叶变换密切相关的数学变换，类似于离散傅里叶变换，但它只采用实数不含复数。任意连续实对称函数的傅里叶变换都只包含余弦项，DCT同FFT一样具备明确的物理意义。在本实施例中，DCT变换是先将原始图像进行分块，然后再逐一进行变换。

正向DCT(FDCT)公式：

反向DCT(IDCT)公式：

二维的DCT变换属于一种正交线性变换，经DCT变换后，8X8的原始像素图片A转变为8X8的数字阵列B，数字阵列B中的每一个数都是由原始像素图片数据通过函数组合而成。阵列B可以很好地将原始像素图片的主要能量(低频部分)集中在阵列的左上角，次要能量(高频部分)集中在阵列的右下角。当u,v为0时，左上角的F(0,0)代表所有像素的一个均值，即直流分量或直流系数，随着u,v的增加，阵列B其余元素为交流分量或交流系数。

对于大多数图像而言其高频分量较少，所以高频分量的DCT系数经常会接近为0，再加上高频分量中往往仅包含了图像的细微变化特征，人眼对于这种细节失真并不敏感，因此通常在图像压缩领域会考虑将这些高频成分予以抛弃，从而降低所需传输的数据量。

图3中，DCT的重塑过程主要是将二维的DCT系数分配到三维的DCT立方体中去。JPEG压缩标准使用8×8在YCbCr色彩空间上进行DCT变换，将所有8×8块中具有相同频率的分量分配到同一信道中去，保证每个频率下原有的空间关系。因此，Y、Cb、Cr三个组件分别提供了8×8＝64个通道，每个频率对应一个通道，频域变换一共产生了192个通道。假设原始的RGB输入图像尺寸为H×W×C，其中通道数C＝3，图像的高和宽分别是H与W。转换到频域后，输出特征的形状将会变为H/8×W/8×64C，保持了相同的特征数量。由于频域的输入特征图在H和W维上远小于空间域的输入特征图，而在C维上远大于空间域的输入特征通道数，因此传统的SiamFC算法的输入层将不再适用，需要提出新的卷积神经网络作为骨干网。

在频域进行目标跟踪任务时，虽然所取为相同的图片尺寸，但进行完频域预处理后的192个通道特征，可以在不牺牲大量精度的前提下对大多数冗余的频率通道进行裁剪。频率的通道裁剪操作又称作静态通道的选择。

在本实施例中，主要采用正方形或三角形方式在192个静态通道进行选择处所需要的通道数量。

如图4所示，本实施例中，卷积神经网络主要由依次连接的卷积层conv1、conv2、conv3、conv4、conv5组成，每层卷积层的卷积核均为3*3，步长为1；其输入能够接收192个通道以内的图像特征。可直接通过对现有的数据集进行步骤1-步骤3的处理方式进行处理后，输入到该卷积神经网络进行训练，训练完成后的卷积神经网络可直接使用。

在本实施例中，还提供了传统的SiamFC算法与本申请提出的算法(在本实施例称之为dctsiamfc算法)效果对比。

首先，传统的SiamFC算法的孪生网络架构如图5所示，其中，z代表模板图像，即目标图像，在SiamFC算法中使用的是第一帧初始化跟踪目标的位置与大小；x代表搜索区域，指SiamFC算法当前目标可能存在的区域范围；ψ代表原始输入图像像素到深度卷积特征空间的函数映射，采用的如图6是SiamFC算法中的类AlexNet骨干网络结构，网络具体结构如下表1所示：

表1SiamFC中的卷积骨干网络结构

其中，Layer表示不同的网络层，Kernel size表示卷积核的尺寸，Input channel表示每层的输入通道数量，Stride表示步幅长度，EFMS表示模板的特征映射输出维度，SFMS是搜索区域的特征映射输出维度。

而本发明提出dctsiamfc算法架构如图2所示，其中的卷积骨干网络结构(即卷积神经网络)如图4所示，与传统SiamFC的卷积骨干网络结构所不同的是，去除掉了padding与全连接层fc，加入bn层，整体被改为全卷积的网络结构。尽管两个骨干网结构有点相似，但处理的数据对象完全不同。从图6、图4可以看出除了输入通道数的变化(由于数据的频域预处理造成)之外，在dctsiamfc算法骨干网中去除了SiamFC中所存在的全部MaxPool2d操作，并且将所有卷积层的卷积核大小调整为3*3的小核，步长也全部设置成了1。从数据流处理角度来看，维持了特征尺寸的平衡。当一张RGB图片经过数据预处理(频域下的预处理、非频域下的预处理)后，进入到不同算法的骨干网中的尺寸是不相同的，为保证最终孪生网络出来的结果可以形成正确的得分图，需保证所设计的dctsiamfc算法的骨干网的最终输出特征尺寸要与原SiamFC算法相一致。

在实际图像处理任务中，池化和降采样等操作可以减少计算量和所需的通信带宽，维持卷积网络中的尺寸变化，但因为它们会在相同条件下去除冗余和显著信息，会致使识别精度大幅下降。从从频率角度来看，本实施例提出的基于频率选择的方法(即dctsiamfc算法)可以有效识别并去除冗余的频率成分，避开池化和降采样操作，而不会造成太多的识别精度的损失。

基于此，在本实施例的测试过程中，基于Pytorch深度学习框架。将上述两种算法封装为独立的功能模块。

siamfc算法其在网络模型训练的过程中，所设计torchvision.transforms.Compose()类(这个类的主要作用是串联多个图像处理的变换操作)主要保留了如下三个模块：

(1)RandomStretch()：根据拉伸随机去调整图像的大小；

(2)CenterCrop()：依据给定的size从中心进行裁剪，主要为了裁剪出模板或者搜索区域图像，如果裁剪大小大于图像本身大小，将会进行零填充操作；

(3)ToTensor()：将PIL Image或ndarray转换成tensor，并归一化至[0-1]区间。

和所复现的SiamFC算法不同，为了实现在频域中学习的效果，在网络模型训练过程中，所设计的dctsiamfc算法将包含更多的模块类，譬如：DCT离散余弦变换部分实际采用了JPEG代码库中的部分模块。dctsiamfc算法的torchvision.transforms.Compose()类主要由以下几部分构成：

(1)ToYCrCb()：将图片从RGB形式转换到YCrCb色域；

(2)RandomStretch()：根据拉伸随机去调整图像的大小；

(3)CenterCrop()：依据给定的size从中心进行裁剪，主要为了裁剪出模板或者搜索区域图片，如果裁剪大小大于图像本身大小，将会进行零填充操作；

(4)TransformUpscaledDCT()：对YcrCb色域下的图像特征进行DCT变换，将空域特征转换为频域特征，使用了jpeg2dct功能包，参考Faster neural networks straightfrom JPEG论文[17]中的代码与内容；

(5)ToTensorDCT()：在DCT模式下将PIL Image或ndarray转换成tensor，并归一化至[0-1]区间；

(6)SubsetDCT(channels＝,pattern＝”)：进行静态通道的选择。第一个参数代表希望从192个通道中所裁剪出的通道数量，第二个参数为裁剪的方式，包括square、triangle。本实施例中，使用了正方形三角形的基于形状的通道选择方式；

(7)Aggregate()：聚合，将Tensor张量联结在一起，准备将数据送到卷积神经网络中去。

本实施例中，主要采用OTB(Object Tracking Benchmark)数据集作为基准，对不同的算法进行性能评判。OTB数据集主要包括：

(1)TB50就是Visual Tracker Benchmark网站的前50个视频序列；

(2)CVPR13是吴毅等在CVPR2013发表文章中的51个视频序列，要注意到OTB2013跟OTB50是不一样的，比如OTB2013也包含了一小部分TB100的视频序列；

(3)TB100与OTB2015相同，其对应的数据集为吴毅等在2015发表文章中的100个视频序列。

除此以外，在OTB数据集算法评估方面我们主要绘制了Precision plot和Successplot两类评估结果图。

(1)Precision Plot:计算算法预测的目标中心点位置与人工标注的目标中心点位置间的距离，计算该距离小于所给阈值的视频帧占总视频帧的百分比。不同阈值所计算出来的百分比会不同，最终可得出一条结果曲线。阈值通常被设定为20个像素。该评估结果图的主要问题是无法反映出所跟踪目标的尺度变化；

(2)Sequence average计算重合率得分(OS，Overlap score)。对于跟踪算法所预测的box(记作A)与Groundtruth所给定的box(记作B)，重合率的计算公式可定义为：OS＝|A∩B|/|A∪B|，|·|代表该区域内的像素点数量。当某一帧的OS大于所设阈值时，则该帧被视为成功帧，总的成功帧占总视频帧的百分比即为所求得的成功率数值(Success rate)。OS的取值区间为0-1，由此可绘制出一条结果曲线，阈值通常设为0.5。

针对SiamFC算法做了不同的微调以满足不同条件下的对比，主要包含了表2中六种不同的算法形成SiamFC算法集。这些算法都是本发明进行初步试验的算法，或是为了进行比对的基准算法，所设计的DCT改良算法的性能，将在dctsiamfc设计算法集中进行体现。

表2SiamFC试验算法集的算法介绍

基于前面SiamFC算法集，根据静态通道选择方式和裁剪通道的数量进行了dctsiamfc算法集的相关设计，在本实施例中，提出了8中不同算法，均为频域下的改良算法，具体如表3所示：

表3dctsiamfc设计算法集的算法介绍

图7-图9分别为SiamFC算法在数据集TB50、TB100、CVPR13下的测试结果图。图10-图12为本发明一实施例中dctsiamfc算法在数据集TB50、TB100、CVPR13下的测试结果图。可以观察到，采用DCT变换但并不进行特征删减的dctsiamfc_ycrcb_192算法性能会略低于siamfc_my算法本身性能，说明了直接在空域网络上进行同特征维度的频域学习并不能提升目标跟踪的精度。建立这两个算法集的主要作用是为进行同等特征维度下SiamFC降采样算法与DCT设计算法的比较，其中siamfc_my_downsample1是对应于48通道的DCT设计算法，siamfc_my_downsample2是对应于12通道的DCT设计算法，siamfc_my_downsample3是对应于3通道区间附近的DCT设计算法。通过与dctsiamfc_square_48、dctsiamfc_triangle_48、dctsiamfc_triangle_12、dctsiamfc_square_6等算法的比较，从得分结果来看，DCT设计算法也即dctsiamfc算法获得了全面的性能领先，除了算法集中只保留一个通道的dctsiamfc_minimum_1性能会略显不足外，其他的DCT算法都表现优异。甚至对于dctsiamfc设计算法集中保留48通道的算法，性能有时超越了没有经过特征裁剪的siamfc_my原算法本身。

因此，基于DCT变换的频域跟踪算法dctsiamfc在精度上优于同等特征维度下的空域降采样操作后的原始跟踪器，并且有时在频域上对于冗余频率信息的这种过滤可以提升原空域算法本身的性能。可见即使保留完整的图像信息但未进行合理的深入处理也未必能取得有效结果。

而对于时间复杂度的问题，dctsiamfc算法相较于siamfc算法在预处理过程增加了时间开销，因为进行了YcrCb的域变换、DCT变换等操作，但由于通道数的下降以及特征空间的缩小，并且卷积神经网络结构上也发生了简化，在此处节省了时间开销。总体来看，dctsiamfc算法式优于siamfc算法的。

因此，本发明提出的在频域部署的目标跟踪方法相较于传统的方法，在保证了时间复杂度的基础上，明显提高了跟踪精度。

实施例2

本实施例还提出了一种电子设备，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行实施例1所述的在频域部署的目标跟踪方法对应的计算机程序。

实施例3

本实施例还提出了一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时用于实现实施例1所述的在频域部署的目标跟踪方法对应的过程。

需要说明的是，在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接连接，也可以通过中间媒介间接连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义；实施例中的附图用以对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种在频域部署的目标跟踪方法，其特征在于，包括以下步骤：

步骤1、对目标图像数据与待跟踪图像数据进行预处理；

步骤3、选取所需数量的静态通道，并将频域下的张量联结；

步骤4、将联结后的张量输入到训练好的卷积神经网络，输出目标图像数据与待跟踪图像数据对应的图像特征图；

2.根据权利要求1所述的在频域部署的目标跟踪方法，其特征在于，所述步骤1中，预处理包括：将图片从RGB转换到YCrCb色域，并采用拉伸的方式，随机调整图像的大小，之后再裁剪成所需图像大小，形成YCrCb色域下的图像特征。

3.根据权利要求2所述的在频域部署的目标跟踪方法，其特征在于，所述步骤2中，将YCrCb色域下的图像特征进行DCT变换，将空域特征转换为频域特征，同时产生192个静态通道。

4.根据权利要求3所述的在频域部署的目标跟踪方法，其特征在于，所述步骤2中，在DCT模式下将PIL Image或ndarray转换成张量形式，并归一化至[0-1]区间。

5.根据权利要求3或4所述的在频域部署的目标跟踪方法，其特征在于，所述步骤2中，在进行DCT变换之前，先将原始图像进行分块，在逐一进行变换。

6.根据权利要求5所述的在频域部署的目标跟踪方法，其特征在于，所述DCT变换的具体方式为：

正向DCT变换：

反向DCT变换：

7.根据权利要求1所述的在频域部署的目标跟踪方法，其特征在于，所述步骤3中，静态通道选取方法：采用正方形或三角形方式对静态通道进行选择。

8.根据权利要求1所述的在频域部署的目标跟踪方法，其特征在于，所述卷积神经网络由依次连接的卷积层conv1、conv2、conv3、conv4、conv5组成，每层卷积层的卷积核均为3*3，步长为1；其输入能够接收192个通道以内的图像特征。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如权利要求1至8中任一项所述的在频域部署的目标跟踪方法对应的计算机程序。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时用于实现权利要求1-8中任一项所述的在频域部署的目标跟踪方法对应的过程。