CN114612516A

CN114612516A - 目标追踪方法以及目标追踪装置

Info

Publication number: CN114612516A
Application number: CN202210254826.5A
Authority: CN
Inventors: 程力; 窦润江; 刘力源
Original assignee: Institute of Semiconductors of CAS
Current assignee: Institute of Semiconductors of CAS
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-06-10

Abstract

本公开提供了一种目标追踪方法，包括：获取目标图像和待追踪图像，目标图像包括目标对象；分别对目标图像和待追踪图像进行划分，得到多个第一图像块和多个第二图像块；从多个第一图像块和多个第二图像块中提取第一特征图和第二特征图；以及根据第一特征图和第二特征图，通过预测函数从待追踪图像中确定目标对象的位置。本公开还提供了一种目标追踪装置。

Description

目标追踪方法以及目标追踪装置

技术领域

本公开涉及图像处理领域，具体涉及一种目标追踪方法以及目标追踪装置。

背景技术

目标追踪是计算机视觉领域中的重要研究问题。其目的是在视频序列中，根据目标对象在初始图像帧中的位置，在后续的视频帧中找出该目标对象。当前的追踪算法通常具有良好的追踪精度表现，但在追踪算法部署上存在瓶颈，难以在小型化、低功耗的边缘端计算设备上进行部署。

发明内容

鉴于上述问题，本公开提供了一种目标追踪方法以及目标追踪装置。

根据本公开的第一个方面，提供了一种目标追踪方法，包括：获取目标图像和待追踪图像，所述目标图像包括目标对象；分别对所述目标图像和所述待追踪图像进行划分，得到多个第一图像块和多个第二图像块；从所述多个第一图像块和所述多个第二图像块中提取第一特征图和第二特征图；以及根据所述第一特征图和所述第二特征图，通过预测函数从所述待追踪图像中确定所述目标对象的位置。

根据本公开的实施例，从所述多个第一图像块中提取第一特征图，包括：依次对所述多个第一图像块进行局部推理，得到多个第一推理结果；拼合所述多个第一推理结果，得到第一拼合对象；以及对所述第一拼合对象进行全局推理，得到第一特征图。

根据本公开的实施例，所述多个第一图像块包括N个第一图像块，N为大于等于2的整数；所述依次对所述多个第一图像块进行局部推理，得到多个第一推理结果，包括：在预设存储空间中对所述N个第一图像块中的第i个第一图像块进行局部推理，i∈[1，N)；以及在确定完成对所述第i个第一图像块进行局部推理的情况下，释放所述预设存储空间，以在预设存储空间中对第i+1个第一图像块进行局部推理。

根据本公开的实施例，所述从所述多个第一图像块中提取第一特征图，包括：通过神经网络对所述多个第一图像块进行推理，得到所述第一特征图，所述多个第一图像块具有相同的神经网络权重。

根据本公开的实施例，所述根据所述第一特征图和所述第二特征图，通过预测函数从所述待追踪图像中确定所述目标对象的位置，包括：通过预测函数，融合所述第一特征图和所述第二特征图，得到融合特征图；以及通过对所述融合特征图进行回归运算，确定所述待追踪图像中所述目标对象的位置。

根据本公开的实施例，所述通过对所述融合特征图进行回归运算，确定所述待追踪图像中所述目标对象的位置，包括：基于所述融合特征图，计算分类输出损失函数、整体置信度损失函数和边界偏移损失函数；根据所述分类输出损失函数、所述整体置信度损失函数和所述边界偏移损失函数，构建联合损失函数；以及通过所述联合损失函数，确定所述待追踪图像中所述目标对象的位置。

根据本公开的实施例，所述通过所述联合损失函数，确定所述待追踪图像中所述目标对象的位置，包括：通过所述预测函数，输出多个候选框，所述候选框为六维向量，所述六维向量由与所述联合损失函数相关的参数描述；通过所述联合损失函数计算所述多个候选框的预测得分；从所述多个候选框中确定M个预测框，所述M个预测框的预测得分为所述多个候选的预测得分的前M名，M为正整数；以及根据所述M个预测框，确定所述待追踪图像中所述目标对象的位置。

根据本公开的实施例，所述根据所述M个预测框，确定所述待追踪图像中所述目标对象的位置，包括：获取所述M个预测框在所述待追踪图像中的M个坐标；计算所述M个坐标的平均值，得到所述目标对象在所述待追踪图像中的坐标。

根据本公开的实施例，所述待追踪图像为连续的多帧图像，所述方法还包括：以前一帧图像中所述目标对象的坐标为中心，划定下一帧图像中的搜索区域，所述搜索区域的面积为所述前一帧图像中所述目标对象所占区域面积的4倍。

本公开的第二方面提供了一种目标追踪装置，包括：获取模块，用于获取目标图像和待追踪图像，所述目标图像包括目标对象；划分模块，用于分别对所述目标图像和所述待追踪图像进行划分，得到多个第一图像块和多个第二图像块提取模块，用于从所述多个第一图像块和所述多个第二图像块中提取第一特征图和第二特征图；以及确定模块，用于根据所述第一特征图和所述第二特征图，通过预测函数从所述待追踪图像中确定所述目标对象的位置。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的目标追踪方法的示意图；

图2示意性示出了根据本公开实施例的目标追踪方法的流程图；

图3示意性示出了根据本公开实施例的目标追踪方法的示意图；

图4示意性示出了根据本公开实施例的推理网络的示意图；

图5示意性示出了根据本公开实施例的局部推理和全局推理混合的示意图；

图6示意性示出了根据本公开实施例的目标追踪结果的示意图；以及

图7示意性示出了根据本公开实施例的目标追踪装置的结构框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种目标追踪方法，包括：获取目标图像和待追踪图像，目标图像包括目标对象；分别对目标图像和待追踪图像进行划分，得到多个第一图像块和多个第二图像块；从多个第一图像块和多个第二图像块中提取第一特征图和第二特征图；以及根据第一特征图和第二特征图，通过预测函数从待追踪图像中确定目标对象的位置。

图1示意性示出了根据本公开实施例的目标追踪算法的示意图。

如图1所示，基于孪生网络对连续视频序列中的目标对象进行追踪。以两个神经网络作为特征提取网络，对模板图像和搜索图像的搜索区域中的特征进行提取，两个神经网络共享参数；再通过预测函数根据提取到的特征，确定模板图像的目标对象在搜索区域中的位置。基于孪生网络的追踪方法可以通过下式表示：

Loc＝g(f(x)，f(z))

其中，f(x)是特征提取函数，g(x)是预测函数，x是模板图像，z是搜索图像。

模板图像可以是视频序列的第一帧图像，也可以是视频序列中任一帧图像。目标对象为模板图像中的任一标识。以该帧图像(第一帧图像或者任一帧图像)为起点，对视频序列中位于该帧图像后面的视频帧图像中的目标对象进行追踪。

图2示意性示出了根据本公开实施例的目标追踪方法的流程图，图3示意性示出了根据本公开实施例的目标追踪方法的示意图。

如图2所示，该实施例的目标追踪方法包括操作S210～操作S240。

在操作S210，获取目标图像和待追踪图像，目标图像包括目标对象。

目标图像为目标追踪算法中的模板图像，待追踪图像为目标追踪算法中的搜索图像的搜索区域。目标图像可以是视频序列的第一帧图像，也可以是视频序列中任一帧包含有用户感兴趣对象的图像。

在目标追踪过程中目标图像不更新。

在操作S220，分别对目标图像和待追踪图像进行划分，得到多个第一图像块和多个第二图像块。

如图3所示，目标图像的分辨率为128*128，待追踪图像的分辨率为256*256。将目标图像和待追踪图像均划分为尺寸大小为16*16的图像块。多个第一图像块为划分目标图像得到的多个目标图像块，多个第二图像块为划分待追踪图像得到的多个待追踪图像块。

在操作S230，从多个第一图像块和多个第二图像块中提取第一特征图和第二特征图。

在本公开实施例中，第一特征图为目标图像块的目标特征图，第二特征图像块为待追踪图像块的待追踪特征图。

图4示意性示出了根据本公开实施例的推理网络的示意图。

对目标图像块和待追踪图像块的推理过程相同。以目标图像块为例，从多个目标图像块中提取目标特征图，包括：依次对多个目标图像块进行局部推理，得到多个第一推理结果；拼合多个第一推理结果，得到第一拼合对象；以及对第一拼合对象进行全局推理，得到目标特征图。

在本公开实施例中，通过神经网络对多个图像块进行推理，得到特征图，每个图像块具有相同的神经网络权重。在基于图像块的推理时降低了神经网络的权重开销，降低了神经网络总的参数量。

在神经网络的浅层中使用基于图像块的局部推理，在神经网络的深层使用全局推理。基于图像块的局部推理网络使用MobileNetV2中的深度分离卷积网络结构。如图2所示，MB45*5表示MobileNet网络结构的扩张比为4，卷积核尺寸为5*5。全局推理网络使用MLPMixer网络结构。

图5示意性示出了根据本公开实施例的局部推理和全局推理混合的示意图。

如图5所示，基于图像块的局部推理，推理过程的感受野受限，神经网络的卷积层的输入只包括图像块的有限像素。将局部推理和全局推理结合，可提供全局感受野，使卷积层的输入包括图像块的每一个像素，由此保证追踪精度。

在本公开实施例中，可在有限的存储预算下提取特征图。

假设将目标图像划分为N个目标图像块，N为大于等于2的整数。在有限的存储空间中对N个目标图像块依次进行局部推理包括：在预设存储空间中对N个目标图像块中的第i个目标图像块进行局部推理，i∈[1，N)；以及在确定完成对第i个目标图像块进行局部推理的情况下，释放预设存储空间，以在预设存储空间中对第i+1个第一图像块进行局部推理。

有限的存储预算下，每次只处理输入一个图像块，在第一个图像块处理完成后，释放处理第一个图像块所占用的存储空间，再处理第二个图像块，从而降低计算过程中产生特征图所需的存储开销，实现了神经网络的轻量化。

在操作S240，根据第一特征图和第二特征图，通过预测函数从待追踪图像中确定目标对象的位置。

在本公开实施例中，操作S240根据第一特征图和第二特征图，通过预测函数从待追踪图像中确定目标对象的位置，包括：通过预测函数，融合第一特征图和第二特征图，得到融合特征图；通过对融合特征图进行回归运算，确定待追踪图像中目标对象的位置。

通过回归运算确定待追踪图像中目标对象的位置时，可从三个分支进行预测：目标分类结果、整体置信度和目标边界偏移。

构建该三个预测分支的损失函数，再联合三个损失函数构建联合损失函数，使用随机梯度下降法作为神经网络的参数优化器。

联合损失函数L如下式：

L＝L_CLS+λ₁L_C+λ₂L_reg

其中，L_CLS为目标分类结果的损失函数，使用交叉熵损失函数；L_C为整体置信度的损失函数，使用交叉熵损失函数；L_reg为目标边界偏移的损失函数，使用IOU损失函数；优选的，加权参数λ₁和λ₂通过经验确定λ₁＝1和λ₂＝3。

在确定待追踪图像中目标对象的位置的过程中，通过预测函数，输出多个候选框；通过联合损失函数计算多个候选框的预测得分；从多个候选框中确定M个预测框，M个预测框的预测得分为多个候选的预测得分的前M名；根据M个预测框，确定待追踪图像中目标对象的位置。其中，候选框为六维向量，所述六维向量由与所述联合损失函数相关的参数描述，M为正整数。

根据M个预测框，确定待追踪图像中目标对象的位置，包括：获取M个预测框在待追踪图像中的M个坐标；计算M个坐标的平均值，得到目标对象在待追踪图像中的坐标。

在本公开实施例中，预测函数输出25*25，共625个候选框。候选框可表示为一个六维向量(CLS_p,CLS_n,C,l，t，r，b)。其中，CLS_p，CLS_n分别表示候选框为目标对象和背景的概率，C表示候选框追踪结果的置信度，l、t、r和b分别表示候选框与待搜索图像的左、上、右和下边界的距离。CLS_p和CLS_n为目标分类结果的损失函数L_CLS对应的参数，C为整体置信度的损失函数L_C对应的参数，l、t、r和b为目标边界偏移的损失函数L_reg对应的参数。

在神经网络的训练中，置信度C的真实值通过下式确定：

预测函数中输出的整体置信度表示候选框的整体置信度，可通过函数q＝(1-λ)cls*C+λH计算候选框的预测得分。其中，cls是候选框的目标分类结果得分，λ是平衡权重，H是余弦窗函数。为保证候选框能够在相邻图像帧中平滑移动。优选地选取最终得分q最大的8个候选框作为预测框。计算这8个预测框的坐标的平均值作为最终的追踪结果输出。

图6示意性示出了根据本公开实施例的目标追踪结果的示意图。

如图6所示，以第一帧图像作为目标模板，在后续的第50帧、第100帧和第200帧图像中进行目标追踪。

本公开基于孪生网络进行目标追踪，利用基于图像块的推理算法既降低了神经网络的权重开销和又降低了产生特征图所需的存储开销。同时，通过将基于图像块的局部推理和全局推理组合，构建了轻量且高效的主干网络，孪生网络中的主干网络决定孪生网络追踪的性能，速度和参数量。将优化后的主干网络与预测算法相结合，在保证低参数量和存储开销特性的同时，也能够保证追踪算法的准确性，实现了更高的参数利用率。

本公开还提供另一目标追踪方法的实施例。待追踪图像为连续的多帧图像，目标追踪方法还包括：以前一帧图像中目标对象的坐标为中心，划定下一帧图像中的搜索区域，搜索区域的面积为前一帧图像中目标对象所占区域面积的4倍。

在本公开实施例中，获取前一帧图像中最终预测框的坐标，以最终预测框的中心划定下一帧图像的搜索区域，通常以该中心划定长宽各为目标对象两倍的区域作为新的搜索区域，进一步提高追踪效率。

基于上述目标追踪方法，本公开还提供了一种目标追踪装置。以下将结合图7对该装置进行详细描述。

如图7所示，该实施例的目标追踪装置700包括获取模块710、划分模块720、提取模块730和确定模块740。

获取模块710用于获取目标图像和待追踪图像，目标图像包括目标对象。在一实施例中，获取模块710可以用于执行前文描述的操作S210，在此不再赘述。

划分模块720用于分别对目标图像和待追踪图像进行划分，得到多个第一图像块和多个第二图像块。在一实施例中，划分模块720可以用于执行前文描述的操作S220，在此不再赘述。

提取模块730用于从多个第一图像块和多个第二图像块中提取第一特征图和第二特征图。在一实施例中，提取模块730可以用于执行前文描述的操作S230，在此不再赘述。

确定模块740用于根据第一特征图和第二特征图，通过预测函数从待追踪图像中确定目标对象的位置。在一实施例中，确定模块740可以用于执行前文描述的操作S240，在此不再赘述。

根据本公开的实施例，获取模块710、提取模块720、划分模块730和确定模块740中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获取模块710、提取模块720、划分模块730和确定模块740中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块710、提取模块720、划分模块730和确定模块740中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种目标追踪方法，包括：

获取目标图像和待追踪图像，所述目标图像包括目标对象；

分别对所述目标图像和所述待追踪图像进行划分，得到多个第一图像块和多个第二图像块；

从所述多个第一图像块和所述多个第二图像块中提取第一特征图和第二特征图；以及

根据所述第一特征图和所述第二特征图，通过预测函数从所述待追踪图像中确定所述目标对象的位置。

2.根据权利要求1所述的目标追踪方法，其中，从所述多个第一图像块中提取第一特征图，包括：

依次对所述多个第一图像块进行局部推理，得到多个第一推理结果；

拼合所述多个第一推理结果，得到第一拼合对象；以及

对所述第一拼合对象进行全局推理，得到第一特征图。

3.根据权利要求2所述的目标追踪方法，其中，所述多个第一图像块包括N个第一图像块，N为大于等于2的整数；所述依次对所述多个第一图像块进行局部推理，得到多个第一推理结果，包括：

在预设存储空间中对所述N个第一图像块中的第i个第一图像块进行局部推理，i∈[1，N)；以及

在确定完成对所述第i个第一图像块进行局部推理的情况下，释放所述预设存储空间，以在预设存储空间中对第i+1个第一图像块进行局部推理。

4.根据权利要求2所述的目标追踪方法，其中，所述从所述多个第一图像块中提取第一特征图，包括：

通过神经网络对所述多个第一图像块进行推理，得到所述第一特征图，所述多个第一图像块具有相同的神经网络权重。

5.根据权利要求1所述的目标追踪方法，其中，所述根据所述第一特征图和所述第二特征图，通过预测函数从所述待追踪图像中确定所述目标对象的位置，包括：

通过预测函数，融合所述第一特征图和所述第二特征图，得到融合特征图；以及

通过对所述融合特征图进行回归运算，确定所述待追踪图像中所述目标对象的位置。

6.根据权利要求5所述的目标追踪方法，其中，所述通过对所述融合特征图进行回归运算，确定所述待追踪图像中所述目标对象的位置，包括：

基于所述融合特征图，计算分类输出损失函数、整体置信度损失函数和边界偏移损失函数；

根据所述分类输出损失函数、所述整体置信度损失函数和所述边界偏移损失函数，构建联合损失函数；以及

通过所述联合损失函数，确定所述待追踪图像中所述目标对象的位置。

7.根据权利要求6所述的目标追踪方法，其中，所述通过所述联合损失函数，确定所述待追踪图像中所述目标对象的位置，包括：

通过所述预测函数，输出多个候选框，所述候选框为六维向量，所述六维向量由与所述联合损失函数相关的参数描述；

通过所述联合损失函数计算所述多个候选框的预测得分；

从所述多个候选框中确定M个预测框，所述M个预测框的预测得分为所述多个候选的预测得分的前M名，M为正整数；以及

根据所述M个预测框，确定所述待追踪图像中所述目标对象的位置。

8.根据权利要求7所述的目标追踪方法，其中，所述根据所述M个预测框，确定所述待追踪图像中所述目标对象的位置，包括：

获取所述M个预测框在所述待追踪图像中的M个坐标；

计算所述M个坐标的平均值，得到所述目标对象在所述待追踪图像中的坐标。

9.根据权利要求1所述的目标追踪方法，其中，所述待追踪图像为连续的多帧图像，所述方法还包括：

以前一帧图像中所述目标对象的坐标为中心，划定下一帧图像中的搜索区域，所述搜索区域的面积为所述前一帧图像中所述目标对象所占区域面积的4倍。

10.一种目标追踪装置，包括：

获取模块，用于获取目标图像和待追踪图像，所述目标图像包括目标对象；

划分模块，用于分别对所述目标图像和所述待追踪图像进行划分，得到多个第一图像块和多个第二图像块

提取模块，用于从所述多个第一图像块和所述多个第二图像块中提取第一特征图和第二特征图；以及

确定模块，用于根据所述第一特征图和所述第二特征图，通过预测函数从所述待追踪图像中确定所述目标对象的位置。