CN116452634A

CN116452634A - 一种使用全局响应图的一阶段多目标跟踪方法及系统

Info

Publication number: CN116452634A
Application number: CN202310417264.6A
Authority: CN
Inventors: 黄文丽; 王子豪; 逯丽芬
Original assignee: Suzhou Lingtu Technology Co ltd
Current assignee: Suzhou Lingtu Technology Co ltd
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-07-18

Abstract

本发明公开了一种使用全局响应图的一阶段多目标跟踪方法及系统，包括：获取原始视频，所述原始视频中存在多个待跟踪的目标对象，提取所述视频中每个目标对象的特征信息，生成全局响应图；将所述全局响应图分别输入全局特征嵌入模块和局部特征嵌入模块；将所述全局特征图和所述局部特征图送入特征提取模块，得到目标全局响应图，根据所述目标全局响应图进行目标定位；基于目标定位结果进行动态跟踪，得到目标轨迹。本发明通过加入注意力机制，在提取的全局特征中增强了有用特征，丰富了目标的局部特征，并进一步融合提取的全局特征和局部特征，优化目标跟踪精度问题，能够实现微小目标的精准识别，能够满足更多应用场景。

Description

一种使用全局响应图的一阶段多目标跟踪方法及系统

技术领域

本发明涉及多目标跟踪技术领域，具体涉及一种使用全局响应图的一阶段的多目标跟踪方法及系统。

背景技术

多目标跟踪在视频监管、人流统计、自动驾驶和增强现实等应用中发挥着举足轻重的作用，同时群体行为识别和视频理解等高阶视频分析任务也都基于其进行，研究价值重大。

多目标跟踪主要包括目标检测和目标关联两个阶段的处理。1)在目标检测阶段，根据网络结构的不同大致可划分为两类：基于候选区域的算法和基于回归的算法，基于候选区域的类算法通过设置候选区域进行特征提取，主要包括R-CNN、Fast R-CNN、Faster R-CNN等算法，但由于每个候选区域都需要进行卷积操作，导致运行速度慢；基于回归的算法以SSD系列和YOLO系列算法为代表，不生成候选区域，直接对提取到的特征进行类别预测和位置回归，提高了检测的运行效率，其中YOLOv5的主干网络选用Resnet结构，缓解了大量推理计算问题，不仅减轻了模型的计算量而且保证了对目标检测的精度，但是在实际检测中由于环境光照、遮挡、目标较小等问题，容易导致目标识别不准、漏检、误检等问题，进而导致目标跟踪失败。2)在目标关联阶段，每一帧图像内的多个目标检测结果，根据时间序列间的平滑和一致性约束进行前后帧的关联，从而得到全局的多目标跟踪结果。这种两阶段的做法，无法通过统一的学习和推理过程提升多目标跟踪效果，具有显著的局限性。

发明内容

针对现有技术中的缺陷，本发明提供一种使用全局响应图的一阶段多目标跟踪方法、系统、设备及介质。

第一方面，一种使用全局响应图的一阶段多目标跟踪方法，包括：

获取原始视频，所述原始视频中存在多个待跟踪的目标对象，提取所述视频中每个目标对象的特征信息，生成全局响应图；

将所述全局响应图分别输入全局特征嵌入模块和局部特征嵌入模块；

在局部特征特征模块中，对全局响应图进行分割，得到多个局部响应图，将多个所述局部响应图作为输入,分别送入自注意力模块，得到局部特征图；

在全局特征嵌入模块中，以整个全局响应图作为输入，分别送入通道注意力模块和空间注意力模块，将两个模块的输出进行拼接，得到全局特征图；

将所述全局特征图和所述局部特征图送入特征提取模块，得到目标全局响应图，根据所述目标全局响应图进行目标定位；

基于目标定位结果进行动态跟踪，得到目标轨迹。

优选地，提取所述视频中每个目标对象的特征信息，生成全局响应图，包括：

对所述视频进行预处理，并提取所述视频中的图像，将所述图像输入预训练的基础卷积神经网络模型，得到每个目标对象的特征信息，根据所述特征信息生成全局响应图，其中，所述基础卷积神经网络模型以去除最后的下采样层和全连接层为Resnet50卷积神经网络为架构。

优选地，在全局特征嵌入模块中，以整个全局响应图作为输入，分别送入通道注意力模块和空间注意力模块，将两个模块的输出进行拼接，得到全局特征图，包括：

在空间注意力模块中，对全局响应图进行全局最大化和全局平均化，将全局最大化特征和全局平均化特征进行拼接，对拼接后的特征进行函数激活和编码，将编码后的特征与所述全局响应图相乘，得到第一特征；

在通道注意力模块中，对全局响应图进行全局最大化和全局平均化，利用卷积块分别对全局最大化特征和全局平均化特征进行卷积，将卷积后的特征相加；对相加后的特征进行函数激活和加权，得到第二特征；

将所述第一特征和所述第二特征进行拼接，得到全局特征图。

优选地，在局部特征特征模块中，对所述全局响应图进行分割，得到两个局部响应图,将两个所述局部响应图分别送入自注意力模块，得到局部特征图，包括：

在自注意力模块中，对局部响应图进行降维，对降维后的特征进行编码，将编码后的特征进行重构和转置，将重构特征和转置特征相乘，并将相乘后的特征映射在局部响应图上。

优选地，根据所述目标全局响应图进行目标定位，包括：

将所述目标全局响应特征图输入目标识别模型进行目标识别，获取目标位置框图；其中，目标识别模型在训练时，学习率为0.005～0.01，损失函数为交叉熵损失，利用反向传播算法更新权重，使用Rank-1和mAP衡量其识别性能。

优选地，基于目标定位结果进行动态跟踪，得到目标轨迹，包括：

根据所述目标位置框图使用光流法对目标进行跟踪，得到目标运动轨迹。

第二方面，一种使用全局响应图的一阶段多目标跟踪系统，包括：

数据获取模块，用于获取原始视频，所述原始视频中存在多个待跟踪的目标对象，提取所述视频中每个目标对象的特征信息，生成全局响应图；

特征提取模块，用于将所述全局响应图分别输入全局特征嵌入模块和局部特征嵌入模块；在全局特征嵌入模块中，以整个全局响应图作为输入，分别送入通道注意力模块和空间注意力模块，将两个模块的输出进行拼接，得到全局特征图；在局部特征特征模块中，对全局响应图进行分割，得到多个局部响应图，将多个所述局部响应图作为输入,分别送入自注意力模块，得到局部特征图；

目标定位模块，用于将所述全局特征图和所述局部特征图送入特征提取模块，得到目标全局响应图，根据所述目标全局响应图进行目标定位；

目标跟踪模块，用于基于目标定位结果进行动态跟踪，得到目标轨迹。

优选地，所述数据获取模块具体用于：

对所述视频进行预处理，并提取所述视频中的图像，将所述图像输入预训练的基础卷积神经网络模型，得到每个目标对象的特征信息，根据所述特征信息生成全局响应图，其中，所述基础卷积神经网络模型以去除最后的下采样层和全连接层为Resnet50卷积神经网络为架构

第三方面，一种计算机设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例任一项所述的方法。

第四方面，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现上述实施例任一项所述的方法。

本发明实施例提供的一种使用全局响应图的一阶段多目标跟踪方法，具有以下优点：

(1)加入注意力机制，在提取的全局特征中增强了有用特征，丰富了目标的局部特征，并进一步融合提取的全局特征和局部特征，优化目标跟踪精度问题，能够实现微小目标的精准识别，能够满足更多应用场景。

(2)采用轻量化的空间注意力模块、通道注意力模块和自注意力模块，大幅度提高了目标跟踪的效率。

另外，本发明实施例还提供了一种使用全局响应图的一阶段多目标跟踪方法、设备及介质，其更多的优点可参考具体实施方式。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明实施例提供的一种使用全局响应图的一阶段多目标跟踪方法的流程图；

图2为本发明实施例提供的局部特征嵌入模块的结构示意图；

图3为本发明实施例提供的全局特征嵌入模块的结构示意图；

图4为本发明实施例提供的一种使用全局响应图的一阶段多目标跟踪系统的系统框图；

图5为本发明实施例提供的一种计算机设备的结构示意图；

图6为本发明实施例提供的一种计算机可读存储介质的结构示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

实施例一

请参阅图1，图1为本发明实施例提供的一种使用全局响应图的一阶段多目标跟踪方法的流程图，包括：

步骤1，获取原始视频，所述原始视频中存在多个待跟踪的目标对象，提取所述视频中每个目标对象的特征信息，生成全局响应图；

在本发明实施例中，提取所述视频中每个目标对象的特征信息，生成全局响应图，包括：对所述视频进行预处理，并提取所述视频中的图像，将所述图像输入预训练的基础卷积神经网络模型，得到每个目标对象的特征信息，根据所述特征信息生成全局响应图，其中，所述基础卷积神经网络模型以去除最后的下采样层和全连接层为Resnet50卷积神经网络为架构。

采用上述方法，可快速获取基础的全局响应图，为后续的全局特征提取和局部特征提取提供了基础支持。

步骤2，将所述全局响应图分别输入全局特征嵌入模块和局部特征嵌入模块；在全局特征嵌入模块中，以整个全局响应图作为输入，分别送入通道注意力模块和空间注意力模块，将两个模块的输出进行拼接，得到全局特征图；在局部特征特征模块中，对全局响应图进行分割，得到多个局部响应图，将多个所述局部响应图作为输入,分别送入自注意力模块，得到局部特征图。

在一阶段多目标跟踪中，图像关键标注信息的缺失使得目标识别任务的鲁棒性大大降低，于是图像中的其它信息显得异常关键。在更深度的目标跟踪中，全局特征的增强、提取以及局部特征的增强与提取可实现更多高层次语义信息，最终更好地完成目标检识别任务。

请参阅图2，图2为本发明实施例提供的局部特征模块的结构示意图，在局部特征特征模块中，对所述全局响应图进行分割，得到两个局部响应图,将两个所述局部响应图分别送入自注意力模块，得到局部特征图，包括：在自注意力模块中，对局部响应图进行降维，对降维后的特征进行编码，将编码后的特征进行重构和转置，将重构特征和转置特征相乘，并将相乘后的特征映射在局部响应图上。

在局部特征提取之前需要对局部响应图进行降维，以减少计算量，关注局部信息，进行更深层次的局部信息提取，以得到优化的局部特征。

请参阅图3，图3为本发明实施例提供的全局特征嵌入模块的结构示意图，在全局特征嵌入模块中，以整个全局响应图作为输入，分别送入通道注意力模块和空间注意力模块，将两个模块的输出进行拼接，得到全局特征图，包括：在空间注意力模块中，对全局响应图进行全局最大化和全局平均化，将全局最大化特征和全局平均化特征进行拼接，对拼接后的特征进行函数激活和编码，将编码后的特征与所述全局响应图相乘，得到第一特征；在通道注意力模块中，对全局响应图进行全局最大化和全局平均化，利用卷积块分别对全局最大化特征和全局平均化特征进行卷积，将卷积后的特征相加；对相加后的特征进行函数激活和加权，得到第二特征；将所述第一特征和所述第二特征进行拼接，得到全局特征图。

为了能够弥补局部特征的不足，需要通过全局特征来提高目标识别网络的性能。现有技术采用RcsNet50中保留较多空间信息和较大空间尺寸白作为全局特征图，然而，考虑到真实采集环境中存在的光照、遮挡等问题，导致提取到的全局特征,存在语义性较差的问题，从而导致网络拟合效果不佳。因此，在本申请中，我们采用基于图像空间和通道关系的全注意力模块对全局特征进行增强提取。

采用上述方法，能够为后续网络提供更加可靠的全局特征，并且采用的空间注意力模块、通道注意力模块和自注意力模块均为轻量级的模块，模块的参数和计算量均不大，大幅度降低了网络运行速度，有利于提高了识别效率。

步骤3，将所述全局特征图和所述局部特征图送入特征提取模块，得到目标全局响应图，根据所述目标全局响应图进行目标定位。

在本发明实施例中，根据所述目标全局响应图进行目标定位，包括：将所述目标全局响应特征图输入目标识别模型进行目标识别，获取目标位置框图；其中，目标识别模型在训练时，学习率为0.005～0.01，损失函数为交叉熵损失，利用反向传播算法更新权重，使用Rank-1和mAP衡量其识别性能。

步骤4，基于目标定位结果进行动态跟踪，得到目标轨迹。

在本发明实施例中，基于目标定位结果进行动态跟踪，得到目标轨迹，包括：根据所述目标位置框图使用光流法对目标进行跟踪，得到目标运动轨迹。

具体的，根据得到目标位置框确定中心点像素信息，使用光流法对该中心点进行跟踪并记录运动轨迹，或者也可以使用其它传统目标跟踪方法，如背景减除法，帧差法等等。同时采用间隔性重新开启检测识别的功能对目标位置信息进行更新，每三秒开启一次检测，若出现人为干扰或其他因素干扰而出现目标丢失的情况，则可以通过该方法重新更新目标位置信息。

光流法利是用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息，计算非常迅速。因为只需对一帧图像进行处理识别出目标的位置信息后，便不再对图像进行识别，而改用光流法对标记像素进行跟踪，大大降低计算复杂度。

综上，本发明实施例提供的一种使用全局响应图的一阶段多目标跟踪方法，通过加入注意力机制，在提取的全局特征中增强了有用特征，丰富了目标的局部特征，并进一步融合提取的全局特征和局部特征，优化目标跟踪精度问题，能够实现微小目标的精准识别，能够满足更多应用场景，并且采用轻量化的空间注意力模块、通道注意力模块和自注意力模块，大幅度提高了目标跟踪的效率。

实施例二

请参阅图4，图4为本发明实施例提供的一种使用全局响应图的一阶段多目标跟踪系统的系统框图，所述系统400包括：数据获取模块401，用于获取原始视频，所述原始视频中存在多个待跟踪的目标对象，提取所述视频中每个目标对象的特征信息，生成全局响应图；特征提取模块402，用于将所述全局响应图分别输入全局特征嵌入模块和局部特征嵌入模块；在全局特征嵌入模块中，以整个全局响应图作为输入，分别送入通道注意力模块和空间注意力模块，将两个模块的输出进行拼接，得到全局特征图；在局部特征特征模块中，对全局响应图进行分割，得到多个局部响应图，将多个所述局部响应图作为输入,分别送入自注意力模块，得到局部特征图；目标定位模块403，用于将所述全局特征图和所述局部特征图送入特征提取模块，得到目标全局响应图，根据所述目标全局响应图进行目标定位；目标跟踪模块404，用于基于目标定位结果进行动态跟踪，得到目标轨迹。

可以理解的是，本发明提供的一种使用全局响应图的一阶段多目标跟踪系统与前述各实施例提供的一种使用全局响应图的一阶段多目标跟踪方法相对应，一种使用全局响应图的一阶段多目标跟踪系统的相关技术特征可参考一种使用全局响应图的一阶段多目标跟踪方法的相关技术特征，在此不再赘述。

请参阅图5，图5为本发明实施例提供的电子设备的实施例示意图。如图5所示，本发明实施例提了一种电子设备500，包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序511，处理器520执行计算机程序511时实现以下步骤：获取原始视频，所述原始视频中存在多个待跟踪的目标对象，提取所述视频中每个目标对象的特征信息，生成全局响应图；将所述全局响应图分别输入全局特征嵌入模块和局部特征嵌入模块；在全局特征嵌入模块中，以整个全局响应图作为输入，分别送入通道注意力模块和空间注意力模块，将两个模块的输出进行拼接，得到全局特征图；在局部特征特征模块中，对全局响应图进行分割，得到多个局部响应图，将多个所述局部响应图作为输入,分别送入自注意力模块，得到局部特征图；将所述全局特征图和所述局部特征图送入特征提取模块，得到目标全局响应图，根据所述目标全局响应图进行目标定位；基于目标定位结果进行动态跟踪，得到目标轨迹。

请参阅图6，图6为本发明提供的一种计算机可读存储介质的实施例示意图。如图6所示，本实施例提供了一种计算机可读存储介质600，其上存储有计算机程序611，该计算机程序611被处理器执行时实现如下步骤：获取原始视频，所述原始视频中存在多个待跟踪的目标对象，提取所述视频中每个目标对象的特征信息，生成全局响应图；将所述全局响应图分别输入全局特征嵌入模块和局部特征嵌入模块；在全局特征嵌入模块中，以整个全局响应图作为输入，分别送入通道注意力模块和空间注意力模块，将两个模块的输出进行拼接，得到全局特征图；在局部特征特征模块中，对全局响应图进行分割，得到多个局部响应图，将多个所述局部响应图作为输入,分别送入自注意力模块，得到局部特征图；将所述全局特征图和所述局部特征图送入特征提取模块，得到目标全局响应图，根据所述目标全局响应图进行目标定位；基于目标定位结果进行动态跟踪，得到目标轨迹。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置.

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种使用全局响应图的一阶段多目标跟踪方法，其特征在于，包括：

基于目标定位结果进行动态跟踪，得到目标轨迹。

2.根据权利要求1所述的方法，其特征在于，提取所述视频中每个目标对象的特征信息，生成全局响应图，包括：

3.根据权利要求2所述的方法，其特征在于，在全局特征嵌入模块中，以整个全局响应图作为输入，分别送入通道注意力模块和空间注意力模块，将两个模块的输出进行拼接，得到全局特征图，包括：

4.根据权利要3所述的方法，其特征在于，在局部特征特征模块中，对所述全局响应图进行分割，得到两个局部响应图,将两个所述局部响应图分别送入自注意力模块，得到局部特征图，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述目标全局响应图进行目标定位，包括：

6.根据权利要求5所述的方法，其特征在于，基于目标定位结果进行动态跟踪，得到目标轨迹，包括：

7.一种使用全局响应图的一阶段多目标跟踪系统，其特征在于，包括：

8.根据权利要求7所述的系统，其特征在于，所述数据获取模块具体用于：

9.一种计算机设备，其特征在于，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-6中任一项所述的方法。