CN113112525B

CN113112525B - 目标跟踪方法、网络模型及其训练方法、设备和介质

Info

Publication number: CN113112525B
Application number: CN202110462123.7A
Authority: CN
Inventors: 路金诚; 张伟; 谭啸; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2023-09-01
Anticipated expiration: 2041-04-27
Also published as: CN113112525A

Abstract

本公开提供了一种目标跟踪方法、网络模型及其训练方法、设备和介质，涉及人工智能领域，具体为计算机视觉和深度学习技术，可应用于智能交通或智慧城市场景下。该目标跟踪网络模型包括：第一特征提取子模型，第一特征提取子模型被配置为接收当前待检测视频帧以输出第一特征图；第一特征提取子模型之后的目标检测子模型，目标检测子模型被配置为接收第一特征图以输出在当前待检测视频帧中的至少一个检测目标以及包围至少一个检测目标中的每一个检测目标的检测框；以及第一特征提取子模型之后的第二特征提取子模型，第二特征提取子模型被配置为接收第一特征图以输出不同于第一特征图的当前待检测视频帧的第二特征图。

Description

目标跟踪方法、网络模型及其训练方法、设备和介质

技术领域

本公开涉及人工智能领域，具体为计算机视觉和深度学习技术，可应用于智能交通或智慧城市场景下，特别涉及一种目标跟踪方法、网络模型及其训练方法、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

随着智能交通和自动驾驶等领域的高速发展，通过使用固定摄像头或诸如车载摄像头的移动平台摄像头对道路进行巡检和监控、对车辆周围环境进行感知、尤其是对行驶方向上的静态或移动的物体进行检测、识别与跟踪的需求也在迅速增长。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种目标跟踪方法、网络模型及其训练方法、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种目标跟踪网络模型，包括：第一特征提取子模型，第一特征提取子模型被配置为接收当前待检测视频帧以输出第一特征图；第一特征提取子模型之后的目标检测子模型，目标检测子模型被配置为接收第一特征图以输出在当前待检测视频帧中的至少一个检测目标以及包围至少一个检测目标中的每一个检测目标的检测框；以及第一特征提取子模型之后的第二特征提取子模型，第二特征提取子模型被配置为接收第一特征图以输出不同于第一特征图的当前待检测视频帧的第二特征图，所述第二特征图能够表征所述至少一个检测目标中的每一个检测目标的相关特征。

根据本公开的另一方面，提供了一种目标跟踪方法，包括：获取一个或多个跟踪目标以及一个或多个跟踪目标中每一个跟踪目标的目标特征；将当前待检测视频帧输入第一特征提取子模型，获取第一特征提取子模型输出的第一特征图；将第一特征图输入目标检测子模型，获取目标检测子模型输出的在当前待检测视频帧中的至少一个检测目标以及包围至少一个检测目标中的每一个检测目标的检测框；将第一特征图输入第二特征提取子模型，获取第二特征提取子模型输出的第二特征图，所述第二特征图能够表征所述至少一个检测目标中的每一个检测目标的相关特征；基于相应的检测框和第二特征图，计算与每一个检测目标分别对应的目标特征；以及针对一个或多个跟踪目标中的至少一部分跟踪目标的每一个跟踪目标，将跟踪目标的目标特征与至少一个检测目标中的每一个检测目标的目标特征进行匹配，以确定至少一个检测目标是否包括与跟踪目标匹配的检测目标。

根据本公开的另一方面，提供了一种目标跟踪网络模型的训练方法，目标跟踪网络模型包括第一特征提取子模型、第一特征提取子模型之后的目标检测子模型和第一特征提取子模型之后的第二特征提取子模型，训练方法包括：获取多个样本视频帧，并标注多个样本视频帧中的每一个样本视频帧中的至少一个真实样本目标以及包围至少一个真实样本目标中的每一个真实样本目标的真实样本框；将多个样本视频帧输入第一特征提取子模型，获取第一特征提取子模型输出的与多个样本视频帧一一对应的多个第一样本特征图；将多个第一样本特征图输入目标检测子模型，获取目标检测子模型基于多个第一样本特征图中的每一个第一样本特征图输出的至少一个预测样本目标以及包围至少一个预测样本目标中的每一个预测样本目标的预测样本框；基于每一个样本视频帧中的至少一个真实样本目标以及包围每一个真实样本目标的真实样本框和与每一个样本视频帧对应的至少一个预测样本目标以及包围每一个预测样本目标的预测样本框，计算第一损失值；将多个第一样本特征图输入第二特征提取子模型，获取第二特征提取子模型基于每一个第一样本特征图输出的第二样本特征图；基于相应的预测样本框和相应的第二样本特征图，计算与每一个样本视频帧对应的至少一个预测样本目标中的每一个预测样本目标分别对应的目标特征；针对至少一个预测样本目标中的每一个预测样本目标，基于预测样本目标在多个样本视频帧中对应的多个目标特征，计算第二损失值；以及基于第一损失值和第二损失值，调整第一特征提取子模型、目标检测子模型和第二特征提取子模型的参数。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，这些指令被至少一个处理器执行，以使至少一个处理器能够执行上述目标跟踪方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述目标跟踪方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行时实现上述目标跟踪方法。

根据本公开的一个或多个实施例，通过将第一特征提取子模型(即主干网络)输出的特征图分别输入目标检测子模型和第二特征提取子模型(即ReID编码子模型)，从而实现了执行两个不同任务的子模型对主干网络输出的图像特征的复用，提升了计算性能。而通过使用两个子模型来执行目标检测和ReID编码两个任务，缓解了由于使用同一子模型执行不同任务而导致的模型准确率低的问题，使得模型能够输出更准确的目标检测结果和ReID编码，进而提升了模型的效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开示例性实施例的目标跟踪网络模型的应用结构框图；

图2a-图2b示出了根据本公开示例性实施例的应用场景示意图；

图3示出了根据本公开示例性实施例的第二特征提取子模型的第二特征提取子模块的应用结构框图；

图4示出了根据本公开示例性实施例的目标跟踪方法的流程图；

图5示出了根据本公开示例性实施例的利用第二特征提取子模型获取第二特征图的方法的流程图；

图6示出了根据本公开示例性实施例的目标跟踪方法的流程图；

图7示出了根据本公开示例性实施例的第二阶段匹配操作的流程图；

图8示出了根据本公开示例性实施例目标跟踪网络模型的训练方法的流程图；以及

图9示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

相关技术中，现有技术使用单个神经网络输出特征编码作为ReID编码特征，并基于同一神经网络或另一神经网络输出的特征图进行目标检测。而前者的方法由于两个任务共享同一神经网络的参数，使得在训练阶段两个任务之间互相竞争而产生干扰，从而降低模型的准确率；而后者的方法需要额外训练一个神经网络，并且在预测阶段需要使用更多的计算资源并消耗更多的时间以得到检测目标和相应的ReID。

为解决上述问题，本公开通过将第一特征提取子模型即主干网络输出的特征图分别输入目标检测子模型和第二特征提取子模型即ReID编码子模型，从而实现了执行两个不同任务的子模型对主干网络输出的图像特征的复用，提升了计算性能。而通过使用两个子模型来执行目标检测和ReID编码两个任务，缓解了由于使用同一子模型执行不同任务而导致的模型准确率低的问题，使得模型能够输出更准确的目标检测结果和ReID编码，进而提升了模型的效果。

下面将结合附图详细描述本公开的实施例。

根据本公开的一方面，提供了一种目标跟踪网络模型。如图1所示，目标跟踪网络模型可以包括：第一特征提取子模型101，被配置为接收当前待检测视频帧104以输出第一特征图；第一特征提取子模型之后的目标检测子模型102，被配置为接收第一特征图以输出在当前待检测视频帧中的至少一个检测目标以及包围至少一个检测目标中的每一个检测目标的检测框；以及第一特征提取子模型之后的第二特征提取子模型103，被配置为接收第一特征图以输出不同于第一特征图的当前待检测视频帧的第二特征图，其中，第二特征图能够表征至少一个检测目标中的每一个检测目标的相关特征。由此，通过将第一特征提取子模型即主干网络输出的特征图分别输入目标检测子模型和第二特征提取子模型即ReID编码子模型，从而实现了执行两个不同任务的子模型对主干网络输出的图像特征的复用，提升了计算性能。而通过使用两个子模型来执行目标检测和ReID编码两个任务，缓解了由于使用同一子模型执行不同任务而导致的模型准确率低的问题，使得模型能够输出更准确的目标检测结果和ReID编码，进而提升了模型的效果。

根据一些实施例，当前待检测视频帧104例如可以是由车载摄像机拍摄的视频帧。通过使用车载摄像机，能够获取车辆周围的视觉信息，尤其是车辆行驶方向上的静态物体(如行人、路肩、静止的车辆等等)和动态物体(如其他行驶的车辆、非机动车等等)的视觉信息和运动参数，从而对其进行分析以在车辆行驶过程中对车辆行驶状况、驾驶行为、路径规划等方面进行评估、干预和调整。

根据一些实施例，检测目标可以为车辆。由此，通过使用上述模型能够辅助实现对多个车辆的跟踪，从而能够为驾驶员提供更有益的驾驶辅助信息，或能够为自动驾驶系统提供更准确的道路感知数据。

根据一些实施例，图2a和图2b示出了本公开示例性的应用场景，例如可以为车载摄像头向车辆行驶方向连续拍摄的两个视频帧。其中，图2a检测到了同向行驶的卡车12和相向行驶的卡车30；图2b检测到了同样的两辆卡车，但其各自的位置都发生了改变。通过该场景可以看出，相邻两帧中，同一车辆的检测框的尺寸变化较大。

根据一些实施例，第一特征提取子模型101可以为经过预训练的神经网络模型。可以通过使用大量由车载摄像机(例如，行车记录仪、外置车载相机等)拍摄的车辆驾驶场景的图像对其进行预训练，从而使得第一特征提取子模型101能够基于输入的待检测视频帧输出相应的特征图，进而能够基于该特征图执行目标识别、目标检测以及ReID编码等任务。可以理解的是，可以使用常用于目标检测任务的神经网络模型，例如ResNet、ResNeXt、DarkNet、VGG网络等，或使用轻量化的MobileNet，也可以自行搭建神经网络，在此不作限定。

根据一些实施例，目标检测子模型102可以为检测头，从而能够基于第一特征提取子模型101输出的第一特征图检测待检测视频帧中的至少一个检测目标，并输出与每一个检测目标的类别、包围该检测目标的检测框及其置信度。

根据一些实施例，第二特征提取子模型103可以为ReID编码子模型，即ReID编码预测头，从而能够基于第一特征提取子模型101输出的第一特征图输出与待检测视频帧对应的经过进一步特征提取后的第二特征图，从而能够在执行目标跟踪任务时，基于该第二特征图和目标检测子模型102输出的至少一个检测目标及其相应的检测框得到每一个检测目标的目标特征，即ReID编码特征。

根据一些实施例，如图3所示，第二特征提取子模型103可以包括：顺序连接的至少一个卷积层1031，至少一个卷积层1031中的每一个卷积层1031被配置为接收在先的特征图以输出利用该卷积层进行卷积运算后的特征图；以及空间注意力模块1032，被配置为对所述至少一个卷积层1031中的预先确定的多个卷积层1031输出的特征图进行空间上的强化并输出。由此，通过在第二特征提取子模型即ReID编码预测头中使用至少一个卷积层，能够得到更丰富的、结合多尺度的语义信息，并且能够降低其与目标检测子模型之间的干扰。同时由于使用了空间注意力机制，使得模型能够缓解或克服目标的尺寸大小会随目标由远及近发生较大改变而导致的模型准确率低的问题，提升ReID编码预测对目标尺寸变化的鲁棒性。

根据一些实施例，至少一个卷积层中最靠近输入端的卷积层可以接收第一特征提取子模型101输出的第一特征图1034，之后的每一个卷积层可以接收在先的特征图以输出利用该卷积层进行卷积运算后的特征图。预先确定的多个卷积层可以为体现不同层次语义的多个特征图。示例性地，选择将第一特征图降采样为1/8、1/16、1/32的三个不同尺度的特征图，将其上采样至同样的大小，再各自进行空间上的强化，并将强化后的特征图进行级联，从而能够得到在高、中、低不同层次的语义上经过强化的特征图。可以理解的是，可以自由地选择更少数量或更多数量的特征图，或者也选择第一特征图1034进行强化，还可以将强化后的特征图进行融合而非级联，或使用其他的方式对这些特征图进行空间上的强化，在此不做限定。

根据一些实施例，如图3所示，第二特征提取子模型103还可以包括：通道注意力模块1033，被配置为将空间注意力模块输出的特征图进行通道上的强化并输出。由此，通过在第二特征提取子模块中增加通道注意力模块，使得模型在得到ReID编码时能够更侧重于特征图中具有更重要的信息的通道，并且能够增加第二特征提取子模块的模型复杂度，从而进一步降低与目标检测子模型之间的干扰。

根据一些实施例，在通道注意力模块1033之后，还可以对第二特征图进行进一步卷积操作，并结合至少一个检测目标的检测框以得到这些检测目标的目标特征即ReID编码。例如可以对第二特征图进行进一步卷积以改变其通道数量，并提取出与每一个检测目标的检测框区域对应区域的特征进行计算(例如卷积、平均池化、最大池化等)，以得到每一个检测目标的目标特征。可以理解的是，也可以直接从第二特征图中提取并计算每一个检测目标的目标特征，在此不做限定。

根据一些实施例，目标跟踪网络模型还可以包括在第一特征提取子模型101之后的特征分离模块，用于将第一特征提取子模型输出的特征图解耦为两个不同的特征图，进而可以将这两个特征图分别输入目标检测子模型102和第二特征提取子模型103，以进一步降低目标检测任务和ReID编码任务之间的干扰，进而进一步提升模型输出的目标检测结果和ReID编码特征的准确性。

通过使用上述目标跟踪网络模型，能够得到当前待检测视频帧中的至少一个检测目标、每一个检测目标对应的检测框和每一个检测目标的目标特征，从而能够进一步将不同帧的检测目标进行匹配(例如，基于目标特征进行匹配)，实现了在多个视频帧中对一个或多个目标的跟踪。

根据本公开的一方面，提供了一种目标跟踪方法。如图4所示，目标跟踪方法可以包括：步骤S401、获取一个或多个跟踪目标以及一个或多个跟踪目标中每一个跟踪目标的目标特征；步骤S402、将当前待检测视频帧输入第一特征提取子模型，获取第一特征提取子模型输出的第一特征图；步骤S403、将第一特征图输入目标检测子模型，获取目标检测子模型输出的在当前待检测视频帧中的至少一个检测目标以及包围至少一个检测目标中的每一个检测目标的检测框；步骤S404、将第一特征图输入第二特征提取子模型，获取第二特征提取子模型输出的第二特征图，其中，第二特征图能够表征至少一个检测目标中的每一个检测目标的相关特征；步骤S405、基于相应的检测框和第二特征图，计算与每一个检测目标分别对应的目标特征；以及步骤S406、针对一个或多个跟踪目标中的至少一部分跟踪目标的每一个跟踪目标，将跟踪目标的目标特征与至少一个检测目标中的每一个检测目标的目标特征进行匹配，以确定至少一个检测目标是否包括与跟踪目标匹配的检测目标。由此，通过将第一特征提取子模型即主干网络输出的特征图分别输入目标检测子模型和第二特征提取子模型即ReID编码子模型，从而实现了执行两个不同任务的子模型对主干网络输出的图像特征的复用，提升了计算性能。而通过使用两个子模型来执行目标检测和ReID编码两个任务，缓解了由于使用同一子模型执行不同任务而导致的模型准确率低的问题，使得模型能够输出更准确的目标检测结果和ReID编码，进而提升了模型的效果。在此基础上，通过计算每一个检测目标的目标特征，并将每一个检测目标的目标特征和每一个跟踪目标的目标特征进行匹配，实现了对多个目标进行跟踪。

根据一些实施例，当前待检测视频帧例如可以是由车载摄像机拍摄的视频帧。通过使用车载摄像机，能够获取车辆周围的视觉信息，尤其是车辆行驶方向上的静态物体(如行人、路肩、静止的车辆等等)和动态物体(如其他行驶的车辆、非机动车等等)的视觉信息和运动参数，从而对其进行分析以在车辆行驶状况、驾驶行为、路径规划等方面进行一定的评估、干预和调整。

根据一些实施例，检测目标可以为车辆。由此，通过使用上述方法能够实现对多个车辆的目标跟踪，从而能够为驾驶员提供更有益的辅助信息，或能够为自动驾驶系统提供更准确的道路感知数据。

根据一些实施例，一个或多个跟踪目标例如可以为历史视频帧中检测到的车辆，例如上一帧中检测到的车辆，也可以为多个历史视频帧中出现但上一帧中未检测到的车辆，还可以为预设的作为主要跟踪目标的车辆，在此不做限定。一个或多个跟踪目标中每一个跟踪目标的目标特征例如可以是利用上述目标跟踪网络模型基于包括该跟踪目标的历史视频帧而得到的。

可以理解的是，图4中的步骤S402-步骤S404的操作与图1中的子模型101-子模型103的操作类似，在此不做赘述。

根据一些实施例，第二特征提取子模型可以包括顺序连接的至少一个卷积层和空间注意力模块。如图5所示，步骤S404、将第一特征图输入第二特征提取子模型，获取第二特征提取子模型输出的第二特征图可以包括：步骤S4041、利用至少一个卷积层处理第一特征图，其中，至少一个卷积层中的每一个卷积层被配置为接收在先的特征图以输出利用该卷积层进行卷积运算后的特征图；以及步骤S4042、利用空间注意力模块处理至少一个卷积层中的预先确定的多个卷积层输出的特征图，其中，空间注意力模块被配置为对多个卷积层输出的特征图进行空间上的强化并输出。由此，通过在第二特征提取子模型即ReID编码预测头中使用至少一个卷积层，能够得到更丰富的、结合多尺度的语义信息，并且能够降低其与目标检测子模型之间的干扰。同时由于使用了空间注意力机制，使得模型能够缓解或克服目标的尺寸大小会随目标由远及近发生较大改变而导致的模型准确率低的问题，提升ReID编码预测对目标尺寸变化的鲁棒性。

根据一些实施例，至少一个卷积层中最靠近输入端的卷积层可以接收第一特征提取子模型101输出的第一特征图，之后的每一个卷积层可以接收在先的特征图以输出利用该卷积层进行卷积运算后的特征图。预先确定的多个卷积层可以为体现不同层次语义的多个特征图。示例性地，选择将第一特征图降采样为1/8、1/16、1/32的三个不同尺度的特征图，将其上采样至同样的大小，再各自进行空间上的强化，并将强化后的特征图进行级联，从而能够得到在高、中、低不同层次的语义上经过强化的特征图。可以理解的是，可以自由地选择更少数量或更多数量的特征图进行强化，也可以将强化后的特征图进行融合而非级联，或使用其他的方式对这些特征图进行空间上的强化，在此不做限定。

根据一些实施例，第二特征提取子模型还可以包括通道注意力模块。如图5所示，步骤S404、将第一特征图输入第二特征提取子模型，获取第二特征提取子模型输出的第二特征图还可以包括：步骤S4043、利用通道注意力模块处理空间注意力模块输出的特征图，其中，通道注意力模块被配置为将空间注意力模块输出的特征图进行通道上的强化并输出。由此，通过在第二特征提取子模块中增加通道注意力模块，使得模型在得到ReID编码时能够更侧重于特征图中具有更重要的信息的通道，并且能够增加第二特征提取子模块的模型复杂度，从而进一步降低与目标检测子模型之间的干扰。

根据一些实施例，步骤S405、基于相应的检测框和第二特征图，计算与每一个检测目标分别对应的目标特征例如可以为：在通道注意力模块之后，还可以对第二特征图进行进一步卷积操作，并结合至少一个检测目标的检测框以得到这些检测目标的目标特征即ReID编码。例如可以对第二特征图进行进一步卷积以改变其通道数量，并提取出与每一个检测目标的检测框区域对应区域的特征进行计算(例如卷积、平均池化、最大池化等)，以得到每一个检测目标的目标特征。可以理解的是，也可以直接从第二特征图中提取并计算每一个检测目标的目标特征，在此不做限定。

根据一些实施例，至少一部分跟踪目标可以为已确认跟踪目标，一个或多个跟踪目标还可以包括未确认跟踪目标。未确认跟踪目标例如可以为在历史视频帧中连续出现次数小于预设数量的跟踪目标，而已确认跟踪目标例如可以为在历史视频帧中连续出现次数大于预设数量并且距离上一次出现小于预设时长的跟踪目标。可以根据需求设定预设数量和预设时长，预设数量和预设时长越短，模型中保留的历史跟踪目标越少，需要匹配的跟踪目标越少，模型的性能越好，但相应的模型的准确率会下降；而预设数量和预设时长越长，模型中保留的历史跟踪目标越多，需要匹配的跟踪目标越多，模型的准确率会有所提升，但模型的性能会下降。预设数量例如可以为1次、3次、5次或其他数值，预设时长例如可以为1帧、3帧、5帧或其他时长，在此不做限定。

根据一些实施例，步骤S406、针对一个或多个跟踪目标中的至少一部分跟踪目标的每一个跟踪目标，将跟踪目标的目标特征与至少一个检测目标中的每一个检测目标的目标特征进行匹配，以确定至少一个检测目标是否包括与跟踪目标匹配的检测目标可以包括：计算每一个跟踪目标的目标特征和每一个检测目标的目标特征的余弦距离代价矩阵，并基于代价矩阵确定至少一个检测目标中是否包括与跟踪目标匹配的检测目标。由此，通过计算每一个跟踪目标的目标特征和每一个检测目标的目标特征之间的余弦距离，能够得到针对每一个跟踪目标和每一个检测目标的代价矩阵，从而能够确定这些跟踪目标和这些检测目标之间的匹配关系，而使用余弦距离并计算代价矩阵的方式能在保证匹配模型准确率的基础上提升模型的性能。

根据一些实施例，如图6所示，目标跟踪方法还可以包括：步骤S607、响应于确定至少一个检测目标中包括与至少一部分跟踪目标中的一个跟踪目标匹配的检测目标，基于该检测目标更新该跟踪目标。图6中的步骤S601-步骤S606与图4中的步骤S401-步骤S406类似，在此不做赘述。由此，通过对第一阶段匹配后已关联的跟踪目标进行更新，实现对跟踪目标的实时更新。对跟踪目标的更新例如可以包括基于该检测目标的目标特征即ReID编码更新该跟踪目标的目标特征，还可以包括更新该跟踪目标在当前视频帧的检测框位置、检测框宽高、运动方向和速度等运动参数等等。可以理解的是，可以在成功将跟踪目标和检测目标进行关联后立刻确定该跟踪目标在下一帧的预测位置参数，也可以在对下一帧的检测目标进行匹配时更新该跟踪目标的相关参数，在此不做限定。

根据一些实施例，如图6所示，目标跟踪方法还可以包括：步骤S608、响应于确定至少一个检测目标中不包括与至少一部分跟踪目标中的至少一个跟踪目标匹配的检测目标，对至少一个跟踪目标中的每一个跟踪目标执行第二阶段匹配操作。其中，至少一个跟踪目标可以为级联匹配后未成功与检测目标匹配的未关联的跟踪，从而可以对这些未关联的跟踪可以执行第二阶段的匹配。

根据一些实施例，如图7所示，第二阶段匹配操作可以包括：步骤S701、获取包括跟踪目标的历史匹配视频帧，以及跟踪目标对应于历史匹配视频帧的运动参数和在历史匹配视频帧中的包围跟踪目标的历史框；步骤S702、基于历史框和运动参数，确定在当前待检测视频帧中与跟踪目标对应的预测框；以及步骤S703、基于预测框和在当前待检测视频帧中包围至少一个检测目标中的至少一部分检测目标中的每一个的检测框，确定至少一部分检测目标是否包括与跟踪目标匹配的检测目标。由此，通过对跟踪目标和检测目标进行基于不同匹配机制的两阶段匹配，以确保在第一阶段中未成功匹配的跟踪目标和检测目标对可以经过第二阶段匹配进行进一步匹配，从而提升跟踪目标和检测目标进行匹配的准确率。此外，通过使用基于历史视频帧中的跟踪目标的历史框预测的其当前待检测视频帧中的预测框，从而基于跟踪目标的预测框与检测目标的检测框进行第二阶段匹配，使得能够基于更充分的信息执行对跟踪目标和检测目标之间的匹配，进而能够进一步提升多目标跟踪的准确率。

根据一些实施例，步骤S701、获取包括跟踪目标的历史匹配视频帧，以及跟踪目标对应于历史匹配视频帧的运动参数和在历史匹配视频帧中的包围跟踪目标的历史框。这些历史匹配视频帧可以是上一个跟踪目标出现的视频帧，也可以是多个历史视频帧，在此不做限定。跟踪目标对应于历史匹配视频帧的运动参数可以包括跟踪目标在历史匹配视频帧的运动方向、运动速度等。历史框例如可以为矩形或正方形、梯形、不规则多边形、圆形或椭圆形，也可以是其他形状，在此不做限定。示例性地，历史框为矩形，并获取历史框的位置(例如中心点位置)、宽度和高度等参数。

根据一些实施例，步骤S702例如可以为：基于历史框的位置、宽度和高度以及运动参数，确定在当前待检测视频帧中与跟踪目标对应的预测框的位置、宽度和高度。由此，通过基于历史框的参数和跟踪目标的运动参数来预测当前帧中的预测框的参数，能够得到更准确的预测框结果。示例性地，可以使用卡尔曼滤波法或运动建模的方法对跟踪目标在当前待检测视频帧中的预测框进行预测。预测框例如可以为矩形或正方形、梯形、不规则多边形、圆形或椭圆形，也可以是其他形状，在此不做限定。示例性地，预测框与历史框同为矩形。

根据一些实施例，步骤S703、确定至少一部分检测目标是否包括与跟踪目标匹配的检测目标例如可以包括：确定预测框和至少一部分检测目标中的每一个的检测框的交并比；以及基于预测框和至少一部分检测目标中的每一个的检测框的交并比，确定至少一部分检测目标是否包括与跟踪目标匹配的检测目标。交并比的计算公式如下：

其中，A、B分别表示检测目标的检测框和跟踪目标的预测框。由于车载摄像头的视角基本固定，因此连续帧中的同一目标的历史框和检测框的距离通常不会太远，如卡车12和卡车30从图2a到图2b的位移相比于整个画幅较小，而基于历史框得到的预测框和检测框的距离则会进一步减小。因此，使用跟踪目标的预测框和检测目标的检测框的交并比作为匹配依据会进一步提升目标跟踪的准确率。

根据一些实施例，历史框、预测框和检测框的形状相同。由此，通过对包围目标的历史框、预测框和检测框设置相同的形状，从而能够降低基于历史框预测当前帧的预测框和将预测框和检测框进行匹配时的计算量，从而提升模型的性能。

根据一些实施例，如图7所示，第二阶段匹配操作还可以包括：步骤S704、响应于确定至少一部分检测目标中包括与至少一个跟踪目标中的一个跟踪目标匹配的检测目标，基于该检测目标更新该跟踪目标。由此，在检测目标和跟踪目标成功匹配后，基于该检测目标对该跟踪目标进行更新，以进一步实现对跟踪目标的实时更新。

根据一些实施例，基于该检测目标更新该跟踪目标可以包括：将当前待检测视频帧确定为该跟踪目标的历史匹配视频帧；以及响应于确定该跟踪目标为未确认跟踪目标，并且在包括当前待检测视频帧的大于预设数量的连续多个历史匹配视频帧中均检测到了该跟踪目标，将该跟踪目标更新为已确认跟踪目标。可以理解的是，对第二阶段匹配后的已关联的跟踪目标的更新与对第一阶段匹配后的已关联的跟踪目标的更新类似，在此不做赘述。

根据一些实施例，如图7所示，匹配操作还可以包括：步骤S705、响应于确定至少一部分检测目标中包括与至少一个跟踪目标中的每一个跟踪目标均不匹配的一个或多个检测目标，将一个或多个检测目标确定为未确认跟踪目标。由此，通过将经过两阶段匹配后仍未匹配成功的检测目标设定为未确认跟踪目标，从而实现了对跟踪目标的实时更新，以确保当前待检测视频帧中的每一个检测到的检测目标均能作为下一帧的跟踪目标。

根据一些实施例，如图7所示，匹配操作还可以包括：步骤S706、针对至少一部分跟踪目标中的任一个跟踪目标，响应于确定至少一部分检测目标中不包括与该跟踪目标匹配的检测目标，根据该跟踪目标的未更新时长，确定是否将该跟踪目标删除。未更新时长为上一次检测到该跟踪目标的历史匹配视频帧到当前待检测视频帧的时间间隔。由此，针对已确认的跟踪目标，通过根据跟踪目标的未更新时长确定是否将跟踪目标删除，能够确保跟踪目标中不再包括长期未更新的跟踪目标或临时出现的未确认目标，从而进一步实现对跟踪目标的实时更新。

根据一些实施例，步骤S706可以包括：响应于确定至少一部分检测目标中不包括与该跟踪目标匹配的检测目标，并且该跟踪目标为未确认跟踪目标，删除该跟踪目标；响应于确定至少一部分检测目标中不包括与该跟踪目标匹配的检测目标，并且该跟踪目标为已确认跟踪目标，判断该跟踪目标的未更新时间；响应于该跟踪目标的未更新时间大于预设时长，删除该跟踪目标；以及响应于该跟踪目标的未更新时间小于等于预设时长，更新该跟踪目标。由此，通过上述步骤可以实现对两个阶段匹配后仍未成功匹配的跟踪目标，基于该跟踪目标是否已确认以及其未更新时间对其进行删除或更新，从而提升了模型的性能并进一步实现了对跟踪目标的实时更新。

根据一些实施例，如图6所示，目标跟踪方法还可以包括：步骤S609、对未确认跟踪目标直接执行第二阶段匹配操作。由此，使得未确认的跟踪至多只进行一次匹配即第二阶段匹配，从而避免了参与第一阶段匹配的跟踪目标过多而消耗大量的计算资源，进而进一步提升目标跟踪模型的性能。

根据本公开的另一方面，还提供了一种目标跟踪网络模型的训练方法。目标跟踪网络模型包括第一特征提取子模型、第一特征提取子模型之后的目标检测子模型和第一特征提取子模型之后的第二特征提取子模型。如图8所示，训练方法包括：步骤S801、获取多个样本视频帧，并标注多个样本视频帧中的每一个样本视频帧中的至少一个真实样本目标以及包围至少一个真实样本目标中的每一个真实样本目标的真实样本框；步骤S802、将多个样本视频帧输入第一特征提取子模型，获取第一特征提取子模型输出的与多个样本视频帧一一对应的多个第一样本特征图；步骤S803、将多个第一样本特征图输入目标检测子模型，获取目标检测子模型基于多个第一样本特征图中的每一个第一样本特征图输出的至少一个预测样本目标以及包围至少一个预测样本目标中的每一个预测样本目标的预测样本框；步骤S804、基于每一个样本视频帧中的至少一个真实样本目标以及包围每一个真实样本目标的真实样本框和与每一个样本视频帧对应的至少一个预测样本目标以及包围每一个预测样本目标的预测样本框，计算第一损失值；步骤S805、将多个第一样本特征图输入第二特征提取子模型，获取第二特征提取子模型基于每一个第一样本特征图输出的第二样本特征图；步骤S806、基于相应的预测样本框和相应的第二样本特征图，计算与每一个样本视频帧对应的至少一个预测样本目标中的每一个预测样本目标分别对应的目标特征；步骤S807、针对至少一个预测样本目标中的每一个预测样本目标，基于预测样本目标在多个样本视频帧中对应的多个目标特征，计算第二损失值；以及步骤S808、基于第一损失值和第二损失值，调整第一特征提取子模型、目标检测子模型和第二特征提取子模型的参数。由此，通过将第一特征提取子模型即主干网络输出的特征图分别输入目标检测子模型和第二特征提取子模型即ReID编码子模型，从而实现了执行两个不同任务的子模型对主干网络输出的图像特征的复用，提升了计算性能。而通过使用两个子模型来执行目标检测和ReID编码两个任务，缓解了由于使用同一子模型执行不同任务而导致的模型准确率低的问题，使得模型能够输出更准确的目标检测结果和ReID编码，进而提升了模型的效果。此外，由于将目标检测子模型和第二特征提取子模型分离，降低甚至避免了训练时ReID编码和目标检测两个任务因为共享主干网络的参数从而因为相互矛盾的竞争而互相干扰。

根据一些实施例，多个样本视频帧例如可以是由车载摄像机拍摄的视频帧。通过使用车载摄像机，能够获取车辆周围的视觉信息，尤其是车辆行驶方向上的静态物体(如行人、路肩、静止的车辆等等)和动态物体(如其他行驶的车辆、非机动车等等)的视觉信息和运动参数，从而对其进行分析以在车辆行驶状况、驾驶行为、路径规划等方面进行一定的评估、干预和调整。

示例性地，在步骤S801中获取多个连续的样本视频帧，从而使得相邻帧中能够包含同一个真实样本目标，并且每一个真实样本目标能够尽可能在多个样本视频帧中出现，从而能够得出更为准确的ReID编码空间，以进一步得到更准确的ReID编码即目标特征。

根据一些实施例，真实样本目标可以为车辆。由此，通过使用上述训练方法训练得到的模型能够辅助实现对多个车辆的目标跟踪，从而能够为驾驶员提供更有益的驾驶辅助信息，或能够为自动驾驶系统提供更准确的道路感知数据。

根据一些实施例，第一特征提取子模型可以为经过预训练的神经网络模型。可以通过使用大量由车载摄像机(例如，行车记录仪、外置车载相机等)拍摄的车辆驾驶场景的图像对其进行预训练，从而使得第一特征提取子模型能够基于输入的待检测视频帧输出相应的特征图，进而能够基于该特征图执行目标识别、目标检测以及ReID编码等任务。可以理解的是，可以使用现有的常用于目标检测任务的神经网络模型，例如ResNet、ResNeXt、DarkNet、VGG网络等，或使用轻量化的MobileNet，也可以自行搭建神经网络，在此不作限定。

根据一些实施例，在步骤S804中，例如可以基于真实样本目标对应的真实样本框以及与该真实样本目标对应的预测样本目标的预测样本框各自的形状、位置、宽度、高度等参数信息，计算第一损失值。示例性地，可以通过真实样本框和预测样本框的距离、真实样本框和预测样本框的重合比例、真实样本框和预测样本框的大小差异或上述多种方式的组合计算第一损失值，也可以使用其他方法计算第一损失值，在此不做限定。

根据一些实施例，在步骤S807中，例如可以基于每一个样本视频帧对应的至少一个预测样本目标中的每一个预测样本目标各自对应的目标特征，计算第二损失值。示例性地，可以计算在多个样本视频帧中出现过的每一个样本目标的目标特征，并使用三元组损失(triplet loss)作为第二损失值，即通过设置正例(同一目标在不同视频帧计算出的目标特征)和负例(不同目标的目标特征)以构建损失函数，并进一步求得损失值。

根据本公开的实施例，还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

参考图9，现将描述可以作为本公开的服务器或客户端的电子设备900的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906、输出单元907、存储单元908以及通信单元909。输入单元906可以是能向设备900输入信息的任何类型的设备，输入单元906可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元907可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元908可以包括但不限于磁盘、光盘。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如目标跟踪方法。例如，在一些实施例中，目标跟踪方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的目标跟踪方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标跟踪方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种目标跟踪方法，包括：

获取一个或多个跟踪目标以及所述一个或多个跟踪目标中每一个跟踪目标的目标特征；

将当前待检测视频帧输入第一特征提取子模型，获取所述第一特征提取子模型输出的第一特征图；

将所述第一特征图输入目标检测子模型，获取所述目标检测子模型输出的在所述当前待检测视频帧中的至少一个检测目标以及包围所述至少一个检测目标中的每一个检测目标的检测框；

将所述第一特征图输入第二特征提取子模型，获取所述第二特征提取子模型输出的第二特征图，所述第二特征图能够表征所述至少一个检测目标中的每一个检测目标的相关特征，其中，所述第二特征提取子模型包括：

顺序连接的至少一个卷积层，所述至少一个卷积层中的每一个卷积层被配置为接收在先的特征图以输出利用该卷积层进行卷积运算后的特征图，所述至少一个卷积层中的最靠近输入端的卷积层被配置为接收所述第一特征图；

空间注意力模块，被配置为对所述至少一个卷积层中的预先确定的多个卷积层输出的特征图进行空间上的强化并输出；以及

通道注意力模块，被配置为对所述空间注意力模块输出的特征图进行通道上的强化并输出，以得到所述第二特征图；

基于相应的检测框和所述第二特征图，计算与所述每一个检测目标分别对应的目标特征；以及

针对所述一个或多个跟踪目标中至少一部分跟踪目标中的每一个跟踪目标，将所述跟踪目标的目标特征与所述至少一个检测目标中的每一个检测目标的目标特征进行匹配，以确定所述至少一个检测目标是否包括与所述跟踪目标匹配的检测目标。

2.如权利要求1所述的方法，还包括：

响应于确定所述至少一个检测目标中不包括与所述至少一部分跟踪目标中的至少一个跟踪目标匹配的检测目标，对所述至少一个跟踪目标中的每一个跟踪目标执行以下匹配操作：

获取包括所述跟踪目标的历史匹配视频帧，以及所述跟踪目标对应于所述历史匹配视频帧的运动参数和在所述历史匹配视频帧中的包围所述跟踪目标的历史框；

基于所述历史框和所述运动参数，确定在所述当前待检测视频帧中与所述跟踪目标对应的预测框；以及

基于所述预测框和在所述当前待检测视频帧中包围所述至少一个检测目标中的至少一部分检测目标中的每一个的检测框，确定所述至少一部分检测目标是否包括与所述跟踪目标匹配的检测目标。

3.如权利要求2所述的方法，其中，确定所述至少一部分检测目标是否包括与所述跟踪目标匹配的检测目标包括：

确定所述预测框和所述至少一部分检测目标中的每一个的检测框的交并比；以及

基于所述预测框和所述至少一部分检测目标中的每一个的检测框的交并比，确定所述至少一部分检测目标是否包括与所述跟踪目标匹配的检测目标。

4.如权利要求2所述的方法，其中，所述历史框、所述预测框和所述至少一部分检测目标中的每一个的检测框的形状相同，

其中，基于所述历史框的位置、宽度和高度以及所述运动参数，确定在所述当前待检测视频帧中与所述跟踪目标对应的预测框的位置、宽度和高度。

5.如权利要求2所述的方法，其中，所述至少一部分跟踪目标为已确认跟踪目标，所述一个或多个跟踪目标还包括未确认跟踪目标，所述方法还包括：

对所述未确认跟踪目标直接执行所述匹配操作。

6.如权利要求5所述的方法，其中，所述匹配操作还包括：

响应于确定所述至少一部分检测目标中包括与所述至少一个跟踪目标中的每一个跟踪目标均不匹配的一个或多个检测目标，将所述一个或多个检测目标确定为未确认跟踪目标。

7.如权利要求2所述的方法，其中，所述匹配操作还包括：

响应于确定所述至少一部分检测目标中包括与所述至少一个跟踪目标中的一个跟踪目标匹配的检测目标，基于该检测目标更新该跟踪目标，

其中，基于该检测目标更新该跟踪目标包括：

将所述当前待检测视频帧确定为该跟踪目标的历史匹配视频帧；以及

响应于确定该跟踪目标为未确认跟踪目标，并且在包括所述当前待检测视频帧的大于预设数量的连续多个历史匹配视频帧中均检测到了该跟踪目标，将该跟踪目标更新为已确认跟踪目标。

8.如权利要求1所述的方法，还包括：

响应于确定所述至少一个检测目标中包括与所述至少一部分跟踪目标中的一个跟踪目标匹配的检测目标，基于该检测目标更新该跟踪目标。

9.如权利要求1所述的方法，其中，针对所述一个或多个跟踪目标中的至少一部分跟踪目标的每一个跟踪目标，将所述跟踪目标的目标特征与所述至少一个检测目标中的每一个检测目标的目标特征进行匹配，以确定所述至少一个检测目标是否包括与所述跟踪目标匹配的检测目标包括：

计算所述每一个跟踪目标的目标特征和所述每一个检测目标的目标特征的余弦距离代价矩阵，并基于所述代价矩阵确定所述至少一个检测目标中是否包括与所述跟踪目标匹配的检测目标。

10.如权利要求1所述的方法，其中，所述当前待检测视频帧是由车载摄相机拍摄的。

11.如权利要求1所述的方法，其中，所述检测目标为车辆。

12.一种目标跟踪网络模型的训练方法，所述目标跟踪网络模型包括第一特征提取子模型、所述第一特征提取子模型之后的目标检测子模型和所述第一特征提取子模型之后的第二特征提取子模型，所述训练方法包括：

获取多个样本视频帧，并标注所述多个样本视频帧中的每一个样本视频帧中的至少一个真实样本目标以及包围所述至少一个真实样本目标中的每一个真实样本目标的真实样本框；

将所述多个样本视频帧输入所述第一特征提取子模型，获取所述第一特征提取子模型输出的与所述多个样本视频帧一一对应的多个第一样本特征图；

将所述多个第一样本特征图输入所述目标检测子模型，获取所述目标检测子模型基于所述多个第一样本特征图中的每一个第一样本特征图输出的至少一个预测样本目标以及包围所述至少一个预测样本目标中的每一个预测样本目标的预测样本框；

基于所述每一个样本视频帧中的所述至少一个真实样本目标以及包围所述每一个真实样本目标的真实样本框和与所述每一个样本视频帧对应的所述至少一个预测样本目标以及包围所述每一个预测样本目标的预测样本框，计算第一损失值；

将所述多个第一样本特征图输入所述第二特征提取子模型，获取所述第二特征提取子模型基于所述每一个第一样本特征图输出的第二样本特征图，其中，所述第二特征提取子模型包括：

顺序连接的至少一个卷积层，所述至少一个卷积层中的每一个卷积层被配置为接收在先的特征图以输出利用该卷积层进行卷积运算后的特征图，所述至少一个卷积层中的最靠近输入端的卷积层被配置为接收相应的第一样本特征图；

通道注意力模块，被配置为对所述空间注意力模块输出的特征图进行通道上的强化并输出，以得到相应的第二样本特征图；

基于相应的预测样本框和相应的第二样本特征图，计算与所述每一个样本视频帧对应的至少一个预测样本目标中的每一个预测样本目标分别对应的目标特征；

针对至少一个预测样本目标中的每一个预测样本目标，基于所述预测样本目标在所述多个样本视频帧中对应的多个目标特征，计算第二损失值；以及

基于所述第一损失值和所述第二损失值，调整所述第一特征提取子模型、目标检测子模型和第二特征提取子模型的参数。

13.一种用于目标跟踪的网络模型，所述网络模型用于权利要求1-11中任一项所述的目标跟踪方法，所述网络模型包括：

第一特征提取子模型，所述第一特征提取子模型被配置为接收当前待检测视频帧以输出第一特征图；

所述第一特征提取子模型之后的目标检测子模型，所述目标检测子模型被配置为接收所述第一特征图以输出所述当前待检测视频帧中的至少一个检测目标以及包围所述至少一个检测目标中的每一个检测目标的检测框；

所述第一特征提取子模型之后的第二特征提取子模型，所述第二特征提取子模型被配置为接收所述第一特征图以输出不同于所述第一特征图的所述当前待检测视频帧的第二特征图，所述第二特征图能够表征所述至少一个检测目标中的每一个检测目标的相关特征，其中，所述第二特征提取子模型包括：

通道注意力模块，被配置为将所述空间注意力模块输出的特征图进行通道上的强化并输出，以得到所述第二特征图。

14.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1- 12中任一项所述的方法。

15.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。