CN115393384A - 基于跨相机的多目标跟踪模型的训练方法及装置 - Google Patents

基于跨相机的多目标跟踪模型的训练方法及装置 Download PDF

Info

Publication number
CN115393384A
CN115393384A CN202211116422.6A CN202211116422A CN115393384A CN 115393384 A CN115393384 A CN 115393384A CN 202211116422 A CN202211116422 A CN 202211116422A CN 115393384 A CN115393384 A CN 115393384A
Authority
CN
China
Prior art keywords
loss function
function value
camera
prediction
target tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211116422.6A
Other languages
English (en)
Inventor
张新钰
李骏
高鑫
刘宏堃
李志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202211116422.6A priority Critical patent/CN115393384A/zh
Publication of CN115393384A publication Critical patent/CN115393384A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了基于跨相机的多目标跟踪模型的训练方法及装置,包括:获取多个训练样本组合,所述训练样本组合包括一个场景的多个相机图像样本,所述相机图像样本上标注多个目标的真实框;利用多目标跟踪模型对每个训练样本组合进行处理,得到多个相机图像的预测结果,每个相机图像的预测结果包括多个目标的预测框;基于多个相机图像的预测结果和多个相机图像样本,分别计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值;将三者的加权和作为总损失函数值;基于总损失函数值,更新多目标跟踪模型的模型参数。本申请可以有效解决目标遮挡情况下的无法实现多目标跟踪的技术问题。

Description

基于跨相机的多目标跟踪模型的训练方法及装置
技术领域
本申请涉及智能驾驶技术领域,尤其是涉及基于跨相机的多目标跟踪模型的训练方法及装置。
背景技术
遮挡仍然是目标检测中最重要的挑战之一,尽管近年来取得了很大进展。一般来说,遮挡可分为两组:类间遮挡和类内遮挡。前者发生在对象被其他类别的东西或对象遮挡时,后者也被称为群组遮挡,发生在对象被相同类别的对象遮挡时。在目标检测中,人群遮挡构成了大多数遮挡情况。原因是在目标检测的应用场景中,例如视频监控和自动驾驶,行人经常聚集在一起并相互遮挡。
人群遮挡的主要影响是它显著增加了行人定位的难度。例如,当目标行人T与另一行人B重叠时,检测器容易混淆,因为这两个行人具有相似的外观特征。因此,应该有界T的预测框可能会转移到B,导致定位不准确。更糟糕的是,由于主要检测结果需要通过非最大抑制进行进一步处理,最初来自T的移位边界框可能会被B的预测框抑制,其中T变成漏检。也就是说,人群遮挡使检测器对NMS阈值敏感:阈值越高,误报率越高,而阈值越低,漏检率越高。这种不良行为可能会损害大多数实例分割框架,因为它们还需要准确的检测结果。因此,如何在人群场景中对每个人进行鲁棒定位是行人目标检测最关键的问题之一,目前未有相应的解决方案。
发明内容
有鉴于此,本申请提供了基于跨相机的多目标跟踪模型的训练方法及装置,以解决上述技术问题。
第一方面,本申请实施例提供了一种基于跨相机的多目标跟踪模型的训练方法,包括:
获取多个训练样本组合,所述训练样本组合包括一个场景的多个相机图像样本,所述相机图像样本上标注多个目标的真实框;
利用多目标跟踪模型对每个训练样本组合进行处理,得到多个相机图像的预测结果,每个相机图像的预测结果包括多个目标的预测框;
基于多个相机图像的预测结果和多个相机图像样本,分别计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值;
计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值的加权和,作为总损失函数值;
基于总损失函数值,更新多目标跟踪模型的模型参数。
在一种可能的实施中,所述方法还包括:
对于每个跟踪目标,获取包含所述跟踪目标的若干个相机图像样本中的真实框,将真实框记为
Figure BDA0003845744610000021
1≤n≤N,1≤m≤Mn;N为跟踪目标的数量,m为真实框的序号,Mn为真实框的数量;
对于每个跟踪目标,获取包含所述跟踪目标的若干个相机图像中的预测框;将预测框记为
Figure BDA0003845744610000022
计算
Figure BDA0003845744610000023
Figure BDA0003845744610000024
的交并比IoU值,若IoU值不小于0.5,则将
Figure BDA0003845744610000025
划分到集合
Figure BDA0003845744610000026
否则,将
Figure BDA0003845744610000027
划分到集合
Figure BDA0003845744610000028
在一种可能的实施中,计算吸引项损失函数值,包括:
吸引项损失函数值为:
Figure BDA0003845744610000031
其中,
Figure BDA0003845744610000032
表示集合
Figure BDA0003845744610000033
的元素的数量;
Figure BDA0003845744610000034
Figure BDA0003845744610000035
Figure BDA0003845744610000036
的交并比IoU值;SMoothL1(·)为度量函数:
Figure BDA0003845744610000037
其中,σ为平滑参数。
在一种可能的实施中,计算第一排斥项损失函数值,包括:
第一排斥项损失函数值LossRgt为:
Figure BDA0003845744610000038
其中,
Figure BDA0003845744610000039
表示集合
Figure BDA00038457446100000310
的元素的数量;
Figure BDA00038457446100000311
的计算公式如下:
Figure BDA00038457446100000312
其中,
Figure BDA00038457446100000313
表示预测框
Figure BDA00038457446100000314
和真实框
Figure BDA00038457446100000315
交集部分的面积;
Figure BDA00038457446100000316
表示真实框
Figure BDA00038457446100000317
的面积。
在一种可能的实施中,计算第二排斥项损失函数值,包括:
第二排斥项损失函数值LossRb为:
Figure BDA00038457446100000318
其中,m1和m2均为正整数。
在一种可能的实施中,计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值的加权和,作为总损失函数值;包括:
总损失函数值Lossr为:
Lossr=LossAt+αLossRgt+βLossRb
其中,α和β为预先确定的权重。
第二方面,本申请实施例提供了一种基于跨相机的多目标跟踪模型的训练装置,包括:
获取单元,用于获取多个训练样本组合,所述训练样本组合包括一个场景的多个相机图像样本,所述相机图像样本上标注多个目标的真实框;
预测单元,用于利用多目标跟踪模型对每个训练样本组合进行处理,得到多个相机图像的预测结果,每个相机图像的预测结果包括多个目标的预测框;
第一计算单元,用于基于多个相机图像的预测结果和多个相机图像样本,分别计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值;
第二计算单元,用于计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值的加权和,作为总损失函数值;
更新单元,用于基于总损失函数值,更新多目标跟踪模型的模型参数。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例的基于跨相机的多目标跟踪模型的训练方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现本申请实施例的基于跨相机的多目标跟踪模型的训练方法。
本申请可以有效解决目标遮挡情况下的无法实现多目标跟踪的技术问题。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法的流程图;
图2为本申请实施例提供的基于跨相机的多目标跟踪模型的训练装置的功能结构图;
图3为本申请实施例提供的电子设备的功能结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对本申请实施例提供的技术方案进行说明。
检测人群中的单个行人仍然是一个具有挑战性的问题,因为在真实场景中,行人经常聚集在一起并相互遮挡。
为解决上述技术问题,通过深入了解人群遮挡场景,提出了一种专为多目标场景设计的新的边界盒回归损失,称为排斥损失。这种损失是由两个动机驱动的:目标的吸引和周围其他物体的排斥。排斥项可防止目标转移到周围对象,从而实现更具群体鲁棒性的定位。实验证明,行人检测器通过排斥损失训练,在遮挡情况下有显著改善。
为了解决行人遮挡问题,本申请首先利用多个多机从不同角度对同一场景采集的图像,利用多目标跟踪模型对多个相机采集的图像进行处理,得到多个目标的检测结果;在对多目标跟踪模型的训练中,提出了两种类型的排斥损失,即RepGT损失和RepBox损失。RepGT丢失将直接惩罚转移到其他地面真值对象的预测框,而RepBox丢失要求每个预测框远离具有不同指定目标的其他预测框,从而降低检测结果对NMS的敏感性;利用拟定的排斥损失;对基于跨相机的多目标跟踪模型(行人检测器)进行了端到端的训练,此外,在PASCALVOC检测数据集上的实验表明,除了行人外排斥损失也有利于一般的目标检测。
如图1所示,本申请实施提供一种基于跨相机的多目标跟踪模型的训练方法,包括:
步骤101:获取多个训练样本组合,所述训练样本组合包括一个场景的多个相机图像样本,所述相机图像样本上标注多个目标的真实框;
本实施例的相机图像样本来自CityPerson,这是一个新的行人检测数据集,提供了所有人的边界框注释和可见部分的注释。
首先需要对相机图像样本进行裁剪,裁剪为(352,1216)的大小,则三通道相机RGB图像样本的尺寸为(352,1216,3),目标输出的尺寸为(352,1216,1)。
通过多个相机采集一个场景的图像,可以解决一个问题,就是一个目标(例如行人)在一个相机的图像中是被遮挡的,而在另外一个相机的图像是不被遮挡的或者不被完全遮挡。
步骤102:利用多目标跟踪模型对每个训练样本组合进行处理,得到多个相机图像的预测结果,每个相机图像的预测结果包括多个目标的预测框;
在本实施例中,多目标跟踪模型的输入为多个相机对同一场景相同时刻采集的多张图像,输出为多张图像上多个目标的预测框。本实施例对多目标跟踪模型不作限定,只要能实现上述功能即可,例如行人检测器。
步骤103:基于多个相机图像的预测结果和多个相机图像样本,分别计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值;
在本实施例中,假设所有地面实况对象来自同一类别。设P=(lP,tP,wP,hP)和G=(lG,tG,wG,hG)为预测边界框和地面真实边界框,(lP,tP)和(lG,tG)分别为边界框的左顶点的坐标,wP和wG均为宽度,hP和hG均为高度。
首先,对于每个跟踪目标,获取包含所述跟踪目标的若干个相机图像样本中的真实框,将真实框记为
Figure BDA0003845744610000071
1≤n≤N,1≤m≤Mn;N为跟踪目标的数量,m为真实框的序号,Mn为真实框的数量;
对于每个跟踪目标,获取包含所述跟踪目标的若干个相机图像中的预测框;将预测框记为
Figure BDA0003845744610000072
计算
Figure BDA0003845744610000073
Figure BDA0003845744610000074
的交并比IoU值,若IoU值不小于0.5,则将
Figure BDA0003845744610000075
划分到集合
Figure BDA0003845744610000081
否则,将
Figure BDA0003845744610000082
划分到集合
Figure BDA0003845744610000083
吸引项(AT):为了缩小通过某种距离度量(例如欧几里德距离、平滑距离或IoU)测量的预测框和地面真值框之间的差距,吸引损失通常被采用在现有的边界框回归技术中。为了进行公平比较,采用SmoothL1距离作为吸引项:
Figure BDA0003845744610000084
其中,σ为平滑参数,用于调整排斥损失对异常值的敏感性。
吸引项损失函数值为:
Figure BDA0003845744610000085
其中,
Figure BDA0003845744610000086
表示集合
Figure BDA0003845744610000087
的元素的数量;
Figure BDA0003845744610000088
Figure BDA0003845744610000089
Figure BDA00038457446100000810
的交并比IoU值;
排斥项(RepGT):RepGT损失旨在将不是其目标的相邻地面实况对象中击退。计算RepGT损失是为了惩罚BP和GPRep之间的重叠。将RepGT损失定义为LossRgt
Figure BDA00038457446100000811
其中,
Figure BDA00038457446100000812
表示集合
Figure BDA00038457446100000813
的元素的数量;
Figure BDA00038457446100000814
的计算公式如下:
Figure BDA00038457446100000815
其中,
Figure BDA00038457446100000816
表示预测框
Figure BDA00038457446100000817
和真实框
Figure BDA00038457446100000818
交集部分的面积;
Figure BDA00038457446100000819
表示真实框
Figure BDA00038457446100000820
的面积。
值得注意的是,选择IoG或IoU而不是SmoothL1度量来测量排斥项中两个边界框之间的距离。原因是IoG和IoU的值在范围[0,1]内有界,而SmoothL1度量是无限的,如果在排斥项中使用SmoothL1度量,例如在RepGT损失中,它将要求预测框尽可能远离其排斥地面真值对象。相反,IoG准则只要求预测框与其排斥地面真值对象的重叠最小化,这更符合本申请的要求,
可以看出,越倾向于与非目标地面真实值对象重叠,RepGT损失将给边界盒回归器增加更大的惩罚。这样,RepGT损失可以有效地阻止预测的边界框不会移动到不是其目标的相邻对象。
此外,在RepGT损失中采用IoG而不是IoU,因为在基于IoU的损失中,边界盒回归器可以通过简单地扩大边界盒大小来增加分母面积来学习最小化损失。因此,选择分母为特定地面实况对象常数的IoG,以最小化重叠面积。此外,可以通过平滑参数σ调整排斥损失对异常值的灵敏度。
由于预测框比地面真值框密度大得多,两个预测框对的重叠比一个预测框和一个地面真值框对的重叠更大。这意味着RepBox中的异常值将比RepGT中的异常值更多。因此,直观地说,RepBox损失对异常值(σ较小)的敏感性应低于RepGT损失。
计算RepBox损失的损失函数值LossRb
Figure BDA0003845744610000091
其中,m1和m2均为正整数。
可以看到,为了最小化RepBox损失,具有不同指定目标的两个预测框之间的IoU区域需要很小。这意味着,RepBox损失能够降低具有不同回归目标的预测边界框在NMS后合并为一个边界框的概率,这使得检测器对人群场景更具鲁棒性。
步骤104:计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值的加权和,作为总损失函数值;
总损失函数值Lossr为:
Lossr=LossAt+αLossRgt+βLossRb
其中,LossAt是吸引项,要求预测框接近其指定目标,而LossRgt和LossRb是排斥项,分别要求预测框远离其他周围的地面实况对象和具有不同指定目标的其他预测框。系数a和β用作平衡辅助损耗的权重。
步骤105:基于总损失函数值,更新多目标跟踪模型的模型参数。
在具体实施时,总损失函数值能够衡量目标预测结果和目标标注结果之间的差异程度,总损失函数值越小,多目标跟踪模型的预测效果就越好。
对于训练过程的结束,有两个结束条件:
第一个是判断总损失函数值是否达到预设要求,诸如小于预设阈值,当总损失函数值没有达到预设要求时,更新多目标跟踪模型的模型参数,重复上述步骤102至步骤103,直至总损失函数值达到预设要求,从而得到最终的多目标跟踪模型。实际应用中,预设阈值可以根据实际需求灵活设定,在此不作具体限定。
第二个是预先设定迭代的次数,当达到迭代的次数,则将得到的模型参数作为最终的模型参数。
基于上述实施例,本申请实施例提供了一种基于跨相机的多目标跟踪模型的训练装置,参阅图2所示,本申请实施例提供的基于跨相机的多目标跟踪模型的训练装置200至少包括:
获取单元201,用于获取多个训练样本组合,所述训练样本组合包括一个场景的多个相机图像样本,所述相机图像样本上标注多个目标的真实框;
预测单元202,用于利用多目标跟踪模型对每个训练样本组合进行处理,得到多个相机图像的预测结果,每个相机图像的预测结果包括多个目标的预测框;
第一计算单元203,用于基于多个相机图像的预测结果和多个相机图像样本,分别计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值;
第二计算单元204,用于计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值的加权和,作为总损失函数值;
更新单元205,用于基于总损失函数,更新多目标跟踪模型的模型参数。
需要说明的是,本申请实施例提供的基于跨相机的多目标跟踪模型的训练装置200解决技术问题的原理与本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法相似,因此,本申请实施例提供的基于跨相机的多目标跟踪模型的训练装置200的实施可以参见本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法的实施,重复之处不再赘述。
基于上述实施例,本申请实施例还提供了一种电子设备,参阅图3所示,本申请实施例提供的电子设备300至少包括:处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序,处理器301执行计算机程序时实现本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法。
本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中,总线303表示几类总线结构中的一种或多种,包括存储器总线、外围总线、局域总线等。
存储器302可以包括易失性存储器形式的可读介质,例如随机存储器(RandomAccess Memory,RAM)3021和/或高速缓存存储器3022,还可以进一步包括只读存储器(ReadOnly Memory,ROM)3023。
存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025,程序模块3024包括但不限于:操作子系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等),和/或,与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口305进行。并且,电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器306通过总线303与电子设备300的其它模块通信。应当理解,尽管图3中未示出,可以结合电子设备300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)子系统、磁带驱动器以及数据备份存储子系统等。
需要说明的是,图3所示的电子设备300仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法。具体地,该可执行程序可以内置或者安装在电子设备300中,这样,电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法。
本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法还可以实现为一种程序产品,该程序产品包括程序代码,当该程序产品可以在电子设备300上运行时,该程序代码用于使电子设备300执行本申请实施例提供的基于跨相机的多目标跟踪模型的训练方法。
本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合,其中,可读介质可以是可读信号介质或者可读存储介质,而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合,具体地,可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码,还可以在计算设备上运行。然而,本申请实施例提供的程序产品不限于此,在本申请实施例中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
最后所应说明的是,以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,对本申请的技术方案进行修改或者等同替换,都不脱离本申请技术方案的精神和范围,其均应涵盖在本申请的权利要求范围当中。

Claims (9)

1.一种基于跨相机的多目标跟踪模型的训练方法,其特征在于,包括:
获取多个训练样本组合,所述训练样本组合包括一个场景的多个相机图像样本,所述相机图像样本上标注多个目标的真实框;
利用多目标跟踪模型对每个训练样本组合进行处理,得到多个相机图像的预测结果,每个相机图像的预测结果包括多个目标的预测框;
基于多个相机图像的预测结果和多个相机图像样本,分别计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值;
计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值的加权和,作为总损失函数值;
基于总损失函数值,更新多目标跟踪模型的模型参数。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对于每个跟踪目标,获取包含所述跟踪目标的若干个相机图像样本中的真实框,将真实框记为
Figure FDA0003845744600000011
1≤n≤N,1≤m≤Mn;N为跟踪目标的数量,m为真实框的序号,Mn为真实框的数量;
对于每个跟踪目标,获取包含所述跟踪目标的若干个相机图像中的预测框;将预测框记为
Figure FDA0003845744600000012
计算
Figure FDA0003845744600000013
Figure FDA0003845744600000014
的交并比IoU值,若IoU值不小于0.5,则将
Figure FDA0003845744600000015
划分到集合
Figure FDA0003845744600000016
否则,将
Figure FDA0003845744600000017
划分到集合
Figure FDA0003845744600000018
3.根据权利要求2所述的方法,其特征在于,计算吸引项损失函数值,包括:
吸引项损失函数值为:
Figure FDA0003845744600000021
其中,
Figure FDA0003845744600000022
表示集合
Figure FDA0003845744600000023
的元素的数量;
Figure FDA0003845744600000024
Figure FDA0003845744600000025
Figure FDA0003845744600000026
的交并比IoU值;SMoothL1(·)为度量函数:
Figure FDA0003845744600000027
其中,σ为平滑参数。
4.根据权利要求3所述的方法,其特征在于,计算第一排斥项损失函数值,包括:
第一排斥项损失函数值LossRgt为:
Figure FDA0003845744600000028
其中,
Figure FDA00038457446000000217
表示集合
Figure FDA00038457446000000218
的元素的数量;
Figure FDA0003845744600000029
的计算公式如下:
Figure FDA00038457446000000210
其中,
Figure FDA00038457446000000211
表示预测框
Figure FDA00038457446000000212
和真实框
Figure FDA00038457446000000213
交集部分的面积;
Figure FDA00038457446000000214
表示真实框
Figure FDA00038457446000000215
的面积。
5.根据权利要求4所述的方法,其特征在于,计算第二排斥项损失函数值,包括:
第二排斥项损失函数值LossRb为:
Figure FDA00038457446000000216
其中,m1和m2均为正整数。
6.根据权利要求5所述的方法,其特征在于,计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值的加权和,作为总损失函数值;包括:
总损失函数值Lossr为:
Lossr=LossAt+αLossRgt+βLossRb
其中,α和β为预先确定的权重。
7.一种基于跨相机的多目标跟踪模型的训练装置,其特征在于,包括:
获取单元,用于获取多个训练样本组合,所述训练样本组合包括一个场景的多个相机图像样本,所述相机图像样本上标注多个目标的真实框;
预测单元,用于利用多目标跟踪模型对每个训练样本组合进行处理,得到多个相机图像的预测结果,每个相机图像的预测结果包括多个目标的预测框;
第一计算单元,用于基于多个相机图像的预测结果和多个相机图像样本,分别计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值;
第二计算单元,用于计算吸引项损失函数值、第一排斥项损失函数值以及第二排斥项损失函数值的加权和,作为总损失函数值;
更新单元,用于基于总损失函数值,更新多目标跟踪模型的模型参数。
8.一种电子设备,其特征在于,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的基于跨相机的多目标跟踪模型的训练方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-6任一项所述的基于跨相机的多目标跟踪模型的训练方法。
CN202211116422.6A 2022-09-14 2022-09-14 基于跨相机的多目标跟踪模型的训练方法及装置 Pending CN115393384A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211116422.6A CN115393384A (zh) 2022-09-14 2022-09-14 基于跨相机的多目标跟踪模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211116422.6A CN115393384A (zh) 2022-09-14 2022-09-14 基于跨相机的多目标跟踪模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN115393384A true CN115393384A (zh) 2022-11-25

Family

ID=84127162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211116422.6A Pending CN115393384A (zh) 2022-09-14 2022-09-14 基于跨相机的多目标跟踪模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN115393384A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116486197A (zh) * 2023-03-29 2023-07-25 北京百度网讯科技有限公司 图像检测模型的训练方法、图像检测方法和图像标注方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191535A (zh) * 2019-12-18 2020-05-22 南京理工大学 基于深度学习的行人检测模型构建方法及行人检测方法
CN111784857A (zh) * 2020-06-22 2020-10-16 浙江大华技术股份有限公司 一种停车位管理方法、装置以及计算机存储介质
CN112966553A (zh) * 2021-02-02 2021-06-15 同济大学 基于孪生网络的强耦合目标跟踪方法、装置、介质及设备
CN114638862A (zh) * 2022-03-24 2022-06-17 清华大学深圳国际研究生院 一种视觉跟踪方法及跟踪装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191535A (zh) * 2019-12-18 2020-05-22 南京理工大学 基于深度学习的行人检测模型构建方法及行人检测方法
CN111784857A (zh) * 2020-06-22 2020-10-16 浙江大华技术股份有限公司 一种停车位管理方法、装置以及计算机存储介质
CN112966553A (zh) * 2021-02-02 2021-06-15 同济大学 基于孪生网络的强耦合目标跟踪方法、装置、介质及设备
CN114638862A (zh) * 2022-03-24 2022-06-17 清华大学深圳国际研究生院 一种视觉跟踪方法及跟踪装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TIAN GANGLIN 等: "Occlusion Handling Based on Motion Estimation for Multi-Object Tracking" *
WANG XINLONG 等: "Repulsion Loss: Detecting Pedestrians in a Crowd" *
张森镇: "面向仓储场景的跨摄像头多目标跟踪研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116486197A (zh) * 2023-03-29 2023-07-25 北京百度网讯科技有限公司 图像检测模型的训练方法、图像检测方法和图像标注方法
CN116486197B (zh) * 2023-03-29 2024-03-19 北京百度网讯科技有限公司 图像检测模型的训练方法、图像检测方法和图像标注方法

Similar Documents

Publication Publication Date Title
CN109035304B (zh) 目标跟踪方法、介质、计算设备和装置
CN101142593B (zh) 跟踪视频序列中的目标的方法
CN107886048A (zh) 目标跟踪方法及系统、存储介质及电子终端
CN111260037B (zh) 图像数据的卷积运算方法、装置、电子设备及存储介质
CN112752158B (zh) 一种视频展示的方法、装置、电子设备及存储介质
KR20220153667A (ko) 특징 추출 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
WO2022205843A1 (zh) 唇动检测方法、装置、终端设备及计算机可读存储介质
CN115393384A (zh) 基于跨相机的多目标跟踪模型的训练方法及装置
WO2018133101A1 (zh) 图像前景检测装置及方法、电子设备
CN108229281B (zh) 神经网络的生成方法和人脸检测方法、装置及电子设备
CN112784750A (zh) 基于像素和区域特征匹配的快速视频物体分割方法和装置
CN114066814A (zh) 一种ar设备的手势3d关键点检测方法、电子设备
CN113312949B (zh) 视频数据处理方法、视频数据处理装置和电子设备
CN112991274A (zh) 一种人群计数方法、装置、计算机设备及存储介质
JP7280331B2 (ja) 車両関連付け方法、車両関連付け装置、電子機器、コンピュータ可読記憶媒体、路側機器、クラウドコントロールプラットフォームおよびプログラム
CN114255493A (zh) 图像检测方法、人脸检测方法及装置、设备及存储介质
CN108764206B (zh) 目标图像识别方法和系统、计算机设备
JP7258101B2 (ja) 画像の手ぶれ補正方法、装置、電子機器、記憶媒体、コンピュータプログラム製品、路側機およびクラウド制御プラットフォーム
CN107067411B (zh) 一种结合密集特征的Mean-shift跟踪方法
CN115546221A (zh) 一种钢筋计数方法、装置、设备及存储介质
CN114299115A (zh) 用于多目标跟踪的方法及装置、存储介质及电子设备
CN114067145A (zh) 无源分光器检测方法、装置、设备及介质
CN112183431A (zh) 实时行人数量统计方法、装置、相机和服务器
CN112085002A (zh) 人像分割方法、装置、存储介质及电子设备
CN111753766A (zh) 一种图像处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20221125