CN115393384A

CN115393384A - 基于跨相机的多目标跟踪模型的训练方法及装置

Info

Publication number: CN115393384A
Application number: CN202211116422.6A
Authority: CN
Inventors: 张新钰; 李骏; 高鑫; 刘宏堃; 李志伟
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-11-25

Abstract

本申请提供了基于跨相机的多目标跟踪模型的训练方法及装置，包括：获取多个训练样本组合，所述训练样本组合包括一个场景的多个相机图像样本，所述相机图像样本上标注多个目标的真实框；利用多目标跟踪模型对每个训练样本组合进行处理，得到多个相机图像的预测结果，每个相机图像的预测结果包括多个目标的预测框；基于多个相机图像的预测结果和多个相机图像样本，分别计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值；将三者的加权和作为总损失函数值；基于总损失函数值，更新多目标跟踪模型的模型参数。本申请可以有效解决目标遮挡情况下的无法实现多目标跟踪的技术问题。

Description

基于跨相机的多目标跟踪模型的训练方法及装置

技术领域

本申请涉及智能驾驶技术领域，尤其是涉及基于跨相机的多目标跟踪模型的训练方法及装置。

背景技术

遮挡仍然是目标检测中最重要的挑战之一，尽管近年来取得了很大进展。一般来说，遮挡可分为两组：类间遮挡和类内遮挡。前者发生在对象被其他类别的东西或对象遮挡时，后者也被称为群组遮挡，发生在对象被相同类别的对象遮挡时。在目标检测中，人群遮挡构成了大多数遮挡情况。原因是在目标检测的应用场景中，例如视频监控和自动驾驶，行人经常聚集在一起并相互遮挡。

人群遮挡的主要影响是它显著增加了行人定位的难度。例如，当目标行人T与另一行人B重叠时，检测器容易混淆，因为这两个行人具有相似的外观特征。因此，应该有界T的预测框可能会转移到B，导致定位不准确。更糟糕的是，由于主要检测结果需要通过非最大抑制进行进一步处理，最初来自T的移位边界框可能会被B的预测框抑制，其中T变成漏检。也就是说，人群遮挡使检测器对NMS阈值敏感：阈值越高，误报率越高，而阈值越低，漏检率越高。这种不良行为可能会损害大多数实例分割框架，因为它们还需要准确的检测结果。因此，如何在人群场景中对每个人进行鲁棒定位是行人目标检测最关键的问题之一，目前未有相应的解决方案。

发明内容

有鉴于此，本申请提供了基于跨相机的多目标跟踪模型的训练方法及装置，以解决上述技术问题。

第一方面，本申请实施例提供了一种基于跨相机的多目标跟踪模型的训练方法，包括：

获取多个训练样本组合，所述训练样本组合包括一个场景的多个相机图像样本，所述相机图像样本上标注多个目标的真实框；

利用多目标跟踪模型对每个训练样本组合进行处理，得到多个相机图像的预测结果，每个相机图像的预测结果包括多个目标的预测框；

基于多个相机图像的预测结果和多个相机图像样本，分别计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值；

计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值的加权和，作为总损失函数值；

基于总损失函数值，更新多目标跟踪模型的模型参数。

在一种可能的实施中，所述方法还包括：

对于每个跟踪目标，获取包含所述跟踪目标的若干个相机图像样本中的真实框，将真实框记为

1≤n≤N，1≤m≤M_n；N为跟踪目标的数量，m为真实框的序号，M_n为真实框的数量；

对于每个跟踪目标，获取包含所述跟踪目标的若干个相机图像中的预测框；将预测框记为

计算

和

的交并比IoU值，若IoU值不小于0.5，则将

划分到集合

否则，将

划分到集合

在一种可能的实施中，计算吸引项损失函数值，包括：

吸引项损失函数值为：

其中，

表示集合

的元素的数量；

为

和

的交并比IoU值；SMoothL1(·)为度量函数：

其中，σ为平滑参数。

在一种可能的实施中，计算第一排斥项损失函数值，包括：

第一排斥项损失函数值Loss_Rgt为：

其中，

表示集合

的元素的数量；

的计算公式如下：

其中，

表示预测框

和真实框

交集部分的面积；

表示真实框

的面积。

在一种可能的实施中，计算第二排斥项损失函数值，包括：

第二排斥项损失函数值Loss_Rb为：

其中，m₁和m₂均为正整数。

在一种可能的实施中，计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值的加权和，作为总损失函数值；包括：

总损失函数值Loss_r为：

Loss_r＝Loss_At+αLoss_Rgt+βLoss_Rb

其中，α和β为预先确定的权重。

第二方面，本申请实施例提供了一种基于跨相机的多目标跟踪模型的训练装置，包括：

获取单元，用于获取多个训练样本组合，所述训练样本组合包括一个场景的多个相机图像样本，所述相机图像样本上标注多个目标的真实框；

预测单元，用于利用多目标跟踪模型对每个训练样本组合进行处理，得到多个相机图像的预测结果，每个相机图像的预测结果包括多个目标的预测框；

第一计算单元，用于基于多个相机图像的预测结果和多个相机图像样本，分别计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值；

第二计算单元，用于计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值的加权和，作为总损失函数值；

更新单元，用于基于总损失函数值，更新多目标跟踪模型的模型参数。

第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例的基于跨相机的多目标跟踪模型的训练方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现本申请实施例的基于跨相机的多目标跟踪模型的训练方法。

本申请可以有效解决目标遮挡情况下的无法实现多目标跟踪的技术问题。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法的流程图；

图2为本申请实施例提供的基于跨相机的多目标跟踪模型的训练装置的功能结构图；

图3为本申请实施例提供的电子设备的功能结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请实施例提供的技术方案进行说明。

检测人群中的单个行人仍然是一个具有挑战性的问题，因为在真实场景中，行人经常聚集在一起并相互遮挡。

为解决上述技术问题，通过深入了解人群遮挡场景，提出了一种专为多目标场景设计的新的边界盒回归损失，称为排斥损失。这种损失是由两个动机驱动的：目标的吸引和周围其他物体的排斥。排斥项可防止目标转移到周围对象，从而实现更具群体鲁棒性的定位。实验证明，行人检测器通过排斥损失训练，在遮挡情况下有显著改善。

为了解决行人遮挡问题，本申请首先利用多个多机从不同角度对同一场景采集的图像，利用多目标跟踪模型对多个相机采集的图像进行处理，得到多个目标的检测结果；在对多目标跟踪模型的训练中，提出了两种类型的排斥损失，即RepGT损失和RepBox损失。RepGT丢失将直接惩罚转移到其他地面真值对象的预测框，而RepBox丢失要求每个预测框远离具有不同指定目标的其他预测框，从而降低检测结果对NMS的敏感性；利用拟定的排斥损失；对基于跨相机的多目标跟踪模型(行人检测器)进行了端到端的训练，此外，在PASCALVOC检测数据集上的实验表明，除了行人外排斥损失也有利于一般的目标检测。

如图1所示，本申请实施提供一种基于跨相机的多目标跟踪模型的训练方法，包括：

步骤101：获取多个训练样本组合，所述训练样本组合包括一个场景的多个相机图像样本，所述相机图像样本上标注多个目标的真实框；

本实施例的相机图像样本来自CityPerson，这是一个新的行人检测数据集，提供了所有人的边界框注释和可见部分的注释。

首先需要对相机图像样本进行裁剪，裁剪为(352,1216)的大小，则三通道相机RGB图像样本的尺寸为(352,1216,3)，目标输出的尺寸为(352,1216,1)。

通过多个相机采集一个场景的图像，可以解决一个问题，就是一个目标(例如行人)在一个相机的图像中是被遮挡的，而在另外一个相机的图像是不被遮挡的或者不被完全遮挡。

步骤102：利用多目标跟踪模型对每个训练样本组合进行处理，得到多个相机图像的预测结果，每个相机图像的预测结果包括多个目标的预测框；

在本实施例中，多目标跟踪模型的输入为多个相机对同一场景相同时刻采集的多张图像，输出为多张图像上多个目标的预测框。本实施例对多目标跟踪模型不作限定，只要能实现上述功能即可，例如行人检测器。

步骤103：基于多个相机图像的预测结果和多个相机图像样本，分别计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值；

在本实施例中，假设所有地面实况对象来自同一类别。设P＝(lP，tP，wP，hP)和G＝(lG，tG，wG，hG)为预测边界框和地面真实边界框，(lP，tP)和(lG，tG)分别为边界框的左顶点的坐标，wP和wG均为宽度，hP和hG均为高度。

首先，对于每个跟踪目标，获取包含所述跟踪目标的若干个相机图像样本中的真实框，将真实框记为

计算

和

的交并比IoU值，若IoU值不小于0.5，则将

划分到集合

否则，将

划分到集合

吸引项(AT)：为了缩小通过某种距离度量(例如欧几里德距离、平滑距离或IoU)测量的预测框和地面真值框之间的差距，吸引损失通常被采用在现有的边界框回归技术中。为了进行公平比较，采用SmoothL1距离作为吸引项：

其中，σ为平滑参数，用于调整排斥损失对异常值的敏感性。

吸引项损失函数值为：

其中，

表示集合

的元素的数量；

为

和

的交并比IoU值；

排斥项(RepGT)：RepGT损失旨在将不是其目标的相邻地面实况对象中击退。计算RepGT损失是为了惩罚BP和GPRep之间的重叠。将RepGT损失定义为Loss_Rgt：

其中，

表示集合

的元素的数量；

的计算公式如下：

其中，

表示预测框

和真实框

交集部分的面积；

表示真实框

的面积。

值得注意的是，选择IoG或IoU而不是SmoothL1度量来测量排斥项中两个边界框之间的距离。原因是IoG和IoU的值在范围[0，1]内有界，而SmoothL1度量是无限的，如果在排斥项中使用SmoothL1度量，例如在RepGT损失中，它将要求预测框尽可能远离其排斥地面真值对象。相反，IoG准则只要求预测框与其排斥地面真值对象的重叠最小化，这更符合本申请的要求，

可以看出，越倾向于与非目标地面真实值对象重叠，RepGT损失将给边界盒回归器增加更大的惩罚。这样，RepGT损失可以有效地阻止预测的边界框不会移动到不是其目标的相邻对象。

此外，在RepGT损失中采用IoG而不是IoU，因为在基于IoU的损失中，边界盒回归器可以通过简单地扩大边界盒大小来增加分母面积来学习最小化损失。因此，选择分母为特定地面实况对象常数的IoG，以最小化重叠面积。此外，可以通过平滑参数σ调整排斥损失对异常值的灵敏度。

由于预测框比地面真值框密度大得多，两个预测框对的重叠比一个预测框和一个地面真值框对的重叠更大。这意味着RepBox中的异常值将比RepGT中的异常值更多。因此，直观地说，RepBox损失对异常值(σ较小)的敏感性应低于RepGT损失。

计算RepBox损失的损失函数值Loss_Rb：

其中，m₁和m₂均为正整数。

可以看到，为了最小化RepBox损失，具有不同指定目标的两个预测框之间的IoU区域需要很小。这意味着，RepBox损失能够降低具有不同回归目标的预测边界框在NMS后合并为一个边界框的概率，这使得检测器对人群场景更具鲁棒性。

步骤104：计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值的加权和，作为总损失函数值；

总损失函数值Loss_r为：

Loss_r＝Loss_At+αLoss_Rgt+βLoss_Rb

其中，Loss_At是吸引项，要求预测框接近其指定目标，而Loss_Rgt和Loss_Rb是排斥项，分别要求预测框远离其他周围的地面实况对象和具有不同指定目标的其他预测框。系数a和β用作平衡辅助损耗的权重。

步骤105：基于总损失函数值，更新多目标跟踪模型的模型参数。

在具体实施时，总损失函数值能够衡量目标预测结果和目标标注结果之间的差异程度，总损失函数值越小，多目标跟踪模型的预测效果就越好。

对于训练过程的结束，有两个结束条件：

第一个是判断总损失函数值是否达到预设要求，诸如小于预设阈值，当总损失函数值没有达到预设要求时，更新多目标跟踪模型的模型参数，重复上述步骤102至步骤103，直至总损失函数值达到预设要求，从而得到最终的多目标跟踪模型。实际应用中，预设阈值可以根据实际需求灵活设定，在此不作具体限定。

第二个是预先设定迭代的次数，当达到迭代的次数，则将得到的模型参数作为最终的模型参数。

基于上述实施例，本申请实施例提供了一种基于跨相机的多目标跟踪模型的训练装置，参阅图2所示，本申请实施例提供的基于跨相机的多目标跟踪模型的训练装置200至少包括：

获取单元201，用于获取多个训练样本组合，所述训练样本组合包括一个场景的多个相机图像样本，所述相机图像样本上标注多个目标的真实框；

预测单元202，用于利用多目标跟踪模型对每个训练样本组合进行处理，得到多个相机图像的预测结果，每个相机图像的预测结果包括多个目标的预测框；

第一计算单元203，用于基于多个相机图像的预测结果和多个相机图像样本，分别计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值；

第二计算单元204，用于计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值的加权和，作为总损失函数值；

更新单元205，用于基于总损失函数，更新多目标跟踪模型的模型参数。

需要说明的是，本申请实施例提供的基于跨相机的多目标跟踪模型的训练装置200解决技术问题的原理与本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法相似，因此，本申请实施例提供的基于跨相机的多目标跟踪模型的训练装置200的实施可以参见本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法的实施，重复之处不再赘述。

基于上述实施例，本申请实施例还提供了一种电子设备，参阅图3所示，本申请实施例提供的电子设备300至少包括：处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序，处理器301执行计算机程序时实现本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法。

本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中，总线303表示几类总线结构中的一种或多种，包括存储器总线、外围总线、局域总线等。

存储器302可以包括易失性存储器形式的可读介质，例如随机存储器(RandomAccess Memory，RAM)3021和/或高速缓存存储器3022，还可以进一步包括只读存储器(ReadOnly Memory，ROM)3023。

存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025，程序模块3024包括但不限于：操作子系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信，还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等)，和/或，与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口305进行。并且，电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器306通过总线303与电子设备300的其它模块通信。应当理解，尽管图3中未示出，可以结合电子设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks，RAID)子系统、磁带驱动器以及数据备份存储子系统等。

需要说明的是，图3所示的电子设备300仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法。具体地，该可执行程序可以内置或者安装在电子设备300中，这样，电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法。

本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法还可以实现为一种程序产品，该程序产品包括程序代码，当该程序产品可以在电子设备300上运行时，该程序代码用于使电子设备300执行本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法。

本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合，其中，可读介质可以是可读信号介质或者可读存储介质，而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合，具体地，可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码，还可以在计算设备上运行。然而，本申请实施例提供的程序产品不限于此，在本申请实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

最后所应说明的是，以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，对本申请的技术方案进行修改或者等同替换，都不脱离本申请技术方案的精神和范围，其均应涵盖在本申请的权利要求范围当中。