CN113793371A - 目标分割追踪方法、装置、电子设备和存储介质 - Google Patents
目标分割追踪方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113793371A CN113793371A CN202110968211.4A CN202110968211A CN113793371A CN 113793371 A CN113793371 A CN 113793371A CN 202110968211 A CN202110968211 A CN 202110968211A CN 113793371 A CN113793371 A CN 113793371A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- processed
- tracking
- coordinates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 53
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 238000010586 diagram Methods 0.000 claims description 53
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
- G06T7/337—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Geometry (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种多目标分割追踪方法、装置、电子设备和存储介质,首先通过卷积神经网络对待处理图像进行卷积编码并构建特征金字塔;根据特征金字塔对各个目标的类别和位置进行预测,并计算各个目标的形心坐标;然后对各个目标的轮廓进行回归,并基于形心坐标计算各个目标的轮廓点的坐标;根据轮廓点的坐标生成目标的追踪向量;最后对连续帧中的各个目标的追踪向量进行匹配,获得各个目标的追踪ID。本申请实施例基于形心坐标预测目标的轮廓点的坐标,并计算目标追踪向量,将复杂的多目标分割追踪问题转化为目标形心的定位、轮廓和追踪向量的生成问题,简化了模型预测难度和学习难度,提升了模型总体的推算速度。
Description
技术领域
本申请涉及图像处理技术,具体地,涉及一种目标分割追踪方法、装置、电子设备和存储介质。
背景技术
在无人驾驶领域中,相机是使用最多也是相对较为成熟的传感器。无人驾驶的感知系统处于整个系统的最前端,用于对车辆周边环境的精确感知和数据形式化规约,是无人驾驶智能化控制的关键步骤之一。
在无人驾驶的感知系统中,对场景中的动态目标(行人、车辆及骑行者等)的识别和追踪任务能够提供有效的目标轨迹变化信息,从而分析场景中动态目标的运动意图,为无人驾驶决策和车辆控制提供判断依据。
目前,通常使用多目标分割和追踪(Multi-object tracking and segmentation,MOTS)任务模型来进行多目标的追踪。但是,由于MOTS模型的计算复杂度较高,受目前的无人驾驶领域的车载计算硬件的约束,导致在无人驾驶车辆的车载终端部署MOTS模型用于多目标追踪还存在着极大的挑战。
发明内容
本申请实施例中提供了一种目标分割追踪方法、装置、电子设备和存储介质,用于解决目前的MOTS模型由于计算复杂度较高导致无法在车载终端部署的问题。
根据本申请实施例的第一个方面,提供了一种多目标分割追踪方法,所述方法包括:
获取待处理图像;
通过卷积神经网络对所述待处理图像进行卷积编码,获得所述待处理图像的特征金字塔;
根据所述特征金字塔对所述待处理图像中的各个目标的类别和位置进行预测,并基于各个目标的类别和位置计算各个目标的形心坐标;
针对所述待处理图像中的每一个目标,根据所述特征金字塔对所述目标的轮廓进行回归,并基于所述形心坐标计算所述目标的多个轮廓点的坐标;
针对每一个目标,根据所述特征金字塔和所述目标的各个轮廓点的坐标生成所述目标的追踪向量;
通过匈牙利匹配算法对连续多帧待处理图像中的所述目标的追踪向量进行匹配,获得所述目标的追踪ID。
根据本申请实施例的第二个方面,提供了一种多目标分割追踪装置,所述装置包括:
图像获取模块,用于获取待处理图像;
卷积模块,用于通过卷积神经网络对所述待处理图像进行卷积编码,获得所述待处理图像的特征金字塔;
形心计算模块,用于根据所述特征金字塔对所述待处理图像中的各个目标的类别和位置进行预测,并基于各个目标的类别和位置计算各个目标的形心坐标;
目标轮廓计算模块,用于针对所述待处理图像中的每一个目标,根据所述特征金字塔对所述目标的轮廓进行回归,并基于所述形心坐标计算所述目标的多个轮廓点的坐标;
追踪向量计算模块,用于针对每一个目标,根据所述特征金字塔和所述目标的各个轮廓点的坐标生成所述目标的追踪向量;
匹配模块,用于通过匈牙利匹配算法对连续多帧待处理图像中的所述目标的追踪向量进行匹配,获得所述目标的追踪ID。
根据本申请实施例的第三个方面,提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行上述的多目标分割追踪方法。
根据本申请实施例的第四个方面,提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的多目标分割追踪方法。
本申请实施例提供了一种多目标分割追踪方法、装置、电子设备和存储介质,首先通过卷积神经网络对待处理图像进行卷积编码,获得待处理图像的特征金字塔;然后根据所述特征金字塔对所述待处理图像中的各个目标的类别和位置进行预测,并基于各个目标的类别和位置计算各个目标的形心坐标;针对所述待处理图像中的每一个目标,根据所述特征金字塔对所述目标的轮廓进行回归,并基于所述形心坐标计算所述目标的多个轮廓点的坐标;针对每一个目标,根据所述特征金字塔和所述目标的各个轮廓点的坐标生成所述目标的追踪向量;通过匈牙利匹配算法对连续多帧待处理图像中的所述目标的追踪向量进行匹配,获得所述目标的追踪ID。本申请实施例基于形心坐标进行目标的轮廓点的坐标预测,并通过轮廓预测结果计算目标追踪向量,将复杂的多目标分割追踪问题转化为目标形心的定位、轮廓的回归和追踪向量的生成问题,极大地简化了模型预测难度和学习难度,提升了模型总体的推算速度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的电子设备的结构示意图;
图2为本申请实施例提供的多目标分割追踪方法的流程图;
图3为本申请实施例提供的步骤S12的子步骤流程图;
图4为本申请实施例提供的多目标分割追踪模型的示意图;
图5为本申请实施例提供的基于形心的极坐标轮廓生成的示意图;
图6为本申请实施例提供的基于极坐标交并比损失函数的掩码预测示意图;
图7为本申请实施例提供的基于Tripletloss优化的追踪向量生成示意图;
图8为本申请实施例提供的多目标分割追踪模型在自动驾驶汽车开发平台Agx上的性能量化评估结果;
图9为本申请实施例提供的多目标分割追踪装置的功能模块图。
具体实施方式
图像实例分割任务是当前人工智能技术研究的热门领域之一,与针对检测框的目标检测方案相比,实例分割结果通过尽可能剔除重叠目标和干扰背景的方式能够提供更加精准的目标检测结果。因此,大量研究认为基于目标分割结果可以突破多目标追踪任务的瓶颈,在多目标检测和追踪(Multi-object detection and tracking,MOT)任务的基础上,提出了多目标的分割和追踪(Multi-object tracking and segmentation,MOTS)任务模型。
由于基于包围框(bounding box)的检测任务仅需要预测目标类别和检测框信息(如检测框的中心点和长宽信息),目标检测任务需要神经网络进行的非线性拟合任务相对简单。但是在传统的实例分割任务中,需要网络对图像中的每个像素进行分类(属于目标掩码则为1,否则为0),从而获得每个目标的分割掩码,因此分割任务的回归任务通常更为复杂。同时,在MOTS任务中的分割任务不但需要分割出不同类别的目标,而且需要区分同类别目标中的不同实例,为每个实例赋予实例编号(Instance ID),以方便在追踪任务中进行相邻帧间不同实例目标的匹配。因此,基于实例分割的追踪任务设计的网络模型(即MOTS任务模型)会比现有MOT模型更加复杂。
在无人驾驶领域中,相机是使用最多也是相对较为成熟的传感器。无人驾驶的感知系统处于整个系统的最前端,用于对车辆周边环境的精确感知和数据形式化规约,是无人驾驶智能化控制的关键步骤之一。在无人驾驶的感知系统中,对场景中的动态目标(行人、车辆及骑行者等)的识别和追踪任务能够提供有效的目标轨迹变化信息,从而分析场景中动态目标的运动意图,为无人驾驶决策和车辆控制提供判断依据。
但是,由于MOTS模型的计算复杂度较高,受目前的无人驾驶领域的车载计算硬件的约束,导致在无人驾驶车辆的车载终端部署MOTS模型用于多目标追踪还存在着极大的挑战。
针对上述问题,本申请实施例提供了一种多目标分割追踪方法、装置、电子设备和存储介质,首先通过卷积神经网络对待处理图像进行卷积编码,获得待处理图像的特征金字塔;然后根据所述特征金字塔对所述待处理图像中的各个目标的类别和位置进行预测,并基于各个目标的类别和位置计算各个目标的形心坐标;针对所述待处理图像中的每一个目标,根据所述特征金字塔对所述目标的轮廓进行回归,并基于所述形心坐标计算所述目标的多个轮廓点的坐标;针对每一个目标,根据所述特征金字塔和所述目标轮廓的坐标生成所述目标的追踪向量;通过匈牙利匹配算法对连续多帧待处理图像中的所述目标的追踪向量进行匹配,获得所述目标的追踪ID。本申请实施例基于形心坐标进行目标的轮廓点的坐标预测,并通过轮廓预测结果计算目标追踪向量,将复杂的多目标分割追踪问题转化为目标形心的定位、轮廓的回归和追踪向量的生成问题,极大地简化了模型预测难度和学习难度,提升了模型总体的推算速度。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1,图1为本申请实施例提供的电子设备10的结构示意图。本申请实施例提供的多目标分割追踪方法应用于图1中的电子设备10,该电子设备10可以通过以太网接口或USB接口等连接方式与传感器(例如相机)连接,用于获取传感器采集到的图像数据。传感器设置在运动目标上,电子设备10根据传感器采集到的图像数据进行多目标分割和追踪。可选地,在本实施例中,运动目标可以为智能机器人或无人车。
可选地,在图1中,电子设备10包括:处理器11、存储器12和总线13,存储器12存储有处理器11可执行的机器可读指令,当电子设备10运行时,11处理器与存储器12之间通过总线13通信,机器可读指令被处理器11执行时执行本申请实施例提供的多目标分割追踪方法,以对采集到的图像数据中的各个目标进行分割和追踪,其中,目标可以为行人、车辆或骑行者。
下面结合附图对本申请实施例提供的多目标分割追踪方法进行进一步说明。
请参照图2,图2为本申请实施例提供的多目标分割追踪方法的流程图。该方法应用于图1中的电子设备10,包括以下步骤:
步骤S11,获取待处理图像。
步骤S12,通过卷积神经网络对待处理图像进行卷积编码,获得待处理图像的特征金字塔。
步骤S13,根据特征金字塔对待处理图像中的各个目标的类别和位置进行预测,并基于各个目标的类别和位置计算各个目标的形心坐标。
步骤S14,针对待处理图像中的每一个目标,根据特征金字塔对目标的轮廓进行回归,并基于形心坐标计算目标的多个轮廓点的坐标。
步骤S15,针对每一个目标,根据特征金字塔和目标的各个轮廓点的坐标生成目标的追踪向量。
步骤S16,通过匈牙利匹配算法对连续多帧待处理图像中的所述目标的追踪向量进行匹配,获得所述目标的追踪ID。
在上述步骤中,本申请实施例基于形心坐标进行目标的轮廓点的坐标预测,并通过轮廓预测结果计算目标追踪向量,将复杂的多目标分割追踪问题转化为目标形心的定位、轮廓的回归和追踪向量的生成问题,极大地简化了模型预测难度和学习难度,提升了模型总体的推算速度,使得多目标追踪方法满足在车载终端上进行部署的条件。
在本实施例中,电子设备10中部署有多目标分割追踪模型,所述多目标分割追踪模型包括多个分支网络,各个分支网络用于执行上述的步骤,从而实现对相机采集到的图像数据进行多目标分割和追踪。
可选地,请参照图3,图3为本申请实施例提供的步骤S12的子步骤流程图,在本实施例中,步骤S12包括以下子步骤:
步骤S121,使用卷积神经网络对待处理图像进行卷积编码和多次下采样,获得待处理图像的多个不同尺度的第一特征图。
步骤S122,对待处理图像的最小尺度的第一特征图进行卷积和多次上采样,以获得待处理图像的多个不同尺度的第二特征图。
步骤S123,将相同尺度的第一特征图和第二特征图进行拼接,获得待处理图像的特征金字塔。
在上述步骤中,电子设备10通过设置在无人驾驶车辆上的相机获取到待处理的图像后,将该帧待处理图像输入至卷积神经网络(例如Resnet101主干网)中进行卷积编码和多次降采样,获得待处理图像的多个不同尺度的第一特征图。例如,通过卷积神经网络进行卷积编码和多次降采样后,可以分别获得1/4,1/8,1/16,1/32尺度的特征图,假设输入的待处理图像的分辨率为1024*256,则获得的第一特征图的分辨率分别为256*64、128*32、64*16和32*8。
然后对第一特征图中最小尺度的特征图进行卷积和多次上采样,以获得多个不同尺度的第二特征图。例如,第一特征图中分辨率最小为32*8,将尺度为32*8的特征图进行卷积和多次上采样,分别获得64*16、128*32、256*64尺度的第二特征图。
最后将相同尺度的第一特征图与第二特征图进行拼接,最终获得待处理图像的特征金字塔。例如,将第一特征图中的256*64尺度的特征图与第二特征图中的256*64尺度的特征图进行拼接,将128*32尺度的第一特征图与128*32尺度的第二特征图进行拼接,将64*16尺度的第一特征图与64*16尺度的第二特征图进行拼接,根据拼接后的特征图及32*8的特征图获得该待处理图像的特征金字塔。如图4所示,图4为本申请实施例提供的多目标分割追踪模型的示意图。
在获得特征金字塔之后,则根据所述特征金字塔对各个目标的类别和位置进行预测,并基于各个目标的类别和位置计算各个目标的形心坐标。具体地,步骤S13包括:
通过目标类别预测模型对所述特征金字塔进行处理,获得多尺度热力图预测结果,所述多尺度热力图预测结果用于表征各个所述目标在特征图上的位置和类别;通过多尺度热力图预测结果获得各个类别的热力图,其中,所述热力图包括多个同类别的目标;将所述热力图中热力值最大的点作为各个目标的形心,获得各个目标的形心坐标。
在上述步骤中,本申请实施例提供的多目标分割追踪模型的目标类别预测模型首先基于特征金字塔获得多尺度热力图预测结果,然后基于多尺度热力图预测结果得到不同类别的二维热力图。每个热力图中包括有同类别的多个目标。例如,若待处理图像中存在2个目标类别(行人及车辆),且每个目标类别包括多个目标,例如,待处理图像中包括2辆车辆及3个行人,则此时会生成2个热力图,每个热力图包括一个目标类别在当前帧待处理图像中的所有的目标,同时,热力图上还会包括各个目标的位置(用1表示)以及除目标之外的背景(用0表示),即可获得各个目标的形心坐标。具体地,可以将每个热力图中热力值最大的点作为目标的形心,若一个热力图中包括多个目标,则此步骤可以获得多个目标的形心。
可选地,在训练多尺度热力图预测模型之前,需要先对预测模型的目标(即凸多边形的形心坐标)的计算方式进行设置。在本实施例中,可以通过以下公式计算凸多边形的形心坐标(Cx,Cy):
其中,(xi,yi)为多边形角点的坐标,编号i按顺时针方向递增,A为凸边形的有向面积。
可选地,在获得各个目标的形心坐标之后,针对所述待处理图像中的每一个目标,可以根据所述特征金字塔对所述目标的轮廓进行回归,并基于所述形心坐标得到所述目标的多个轮廓点的坐标,即步骤S14,具体地,所述步骤包括:
针对每一个目标,基于所述目标的形心为所述目标构建坐标系,其中,所述目标的形心为所述目标的坐标系中的原点;根据所述目标的轮廓获得所述目标的多个轮廓点,并基于所述目标的形心坐标计算各个轮廓点的坐标。
在上述步骤中,电子设备10可以通过多目标分割追踪模型中的目标轮廓回归模型为每个目标构建一个坐标系,各个坐标系的原点为对应的目标的形心,然后根据该目标的初始轮廓确定该目标的各个轮廓点,根据该目标的形心坐标计算各个轮廓点的坐标。
可选地,在本实施例的一种实施方式中,坐标系可以为极坐标系,可以通过基于形心的极坐标轮廓预测网络以各个目标的形心为极点建立极坐标系,并计算出各个轮廓点的极坐标。
值得说明的是,预测获得的目标的精确轮廓结果为一组以该目标的形心坐标为极点的极坐标系下的轮廓坐标Contour={(R1,θ1),...(Ri,θi),...,(RN,θN)},考虑整个坐标系为360度,可以将整个坐标系平均分成N个区域,则 以形心O为极点,以与垂直正方向夹角为θi的射线Ox为极轴,Ox与目标的初始轮廓的交点为Oi,O与Oi的欧式距离的值为Ri。
在训练基于形心的极坐标轮廓预测网络的过程中,可以通过基于交并比(Intersection over Union,IoU)公式和极坐标交并比损失函(Contour IOU Loss)数对目标掩码进行训练和学习:
rmin=min(rp,rt)
rmax=max(rp,rt)
其中,rp是网络预测出的目标的各个轮廓点距离目标的形心的值,rt是目标的各个轮廓点距离目标的形心的真值,rmin和rmax是N维向量。
请结合参照图5及图6,图5为本申请实施例提供的基于形心的极坐标轮廓生成的示意图,图6为本申请实施例提供的基于轮廓交并比损失函数的掩码预测示意图。在本实施例中,以0度为起始点,固定角度(例如图5中所示的30°)顺时针增加,以进行目标的轮廓预测。当使用Δθ=30°时,整个极坐标系被从坐标原点(即形心所在的点)发射的向量等分为12份,该目标轮廓的边缘与该向量的交点半径ri=1,...,12即为该极坐标下的目标掩码的多边形角点。当调节使用更小的Δθ时,对目标的切分数量越多,需要预测的轮廓点越多,预测轮廓的掩码相较于基准轮廓就更加准确,但Δθ越小,计算复杂度越大,模型学习和拟合难度增加,用户可根据具体任务对Δθ进行调节。
在获得目标的各个轮廓点的极坐标之后,针对每一个目标,可以根据所述特征金字塔和所述目标的极坐标生成所述目标的追踪向量,具体地,所述步骤包括:
针对每一个目标,根据所述目标的各个轮廓点的坐标及所述目标的形心坐标计算获得所述目标的掩膜图像;根据所述目标的掩膜图像及所述特征金字塔获取所述掩膜图像的特征图;将所述掩膜图像的特征图输入至全连接层,获得所述目标的追踪向量。
在上述步骤中,在获得当前帧图像的目标之后,需要对每个目标赋予一个唯一的识别向量,用于帧间的目标追踪匹配。针对每一个需要计算追踪向量的目标,根据该目标的各个轮廓点的坐标及形心坐标计算得到该目标的掩膜图像(即Mask),将Mask与特征金字塔中的各个特征图相乘,获得该Mask的特征图,然后将所有目标的Mask的特征图输入至全连接层中,以获得各个目标的追踪向量。
为了保证整个网络能够实现端到端学习,采用形心坐标加轮廓点坐标(即笛卡尔坐标系)对目标进行表征,即[Cx,Cy,Xi,Yi,...,Xn,Yn]。此外,由于生成的目标形心存在一定的随机性,因此,一方面需要通过非极大值抑制来压制可能存在的错误样本;另一方面,则需要通过一个全联通层将来自不同尺度的特征图的追踪向量进行合并计算,生成一个固定长度的追踪向量,如图7所示。
可选地,在获得追踪向量之后,还可以获取连续多帧图像中的目标的追踪向量,然后通过TripletLoss函数对追踪向量生成部分的算法进行反向优化。例如,以检测车辆为例,TripletLoss函数可以基于连续四帧中的车辆的追踪向量进行互相学习,使得同一目标的追踪向量与标签基准生成的追踪向量尽可能近(即欧氏距离尽可能小),使得与其它随机选择的车辆的追踪向量尽可能远,从而优化配准效果。
TripletLoss考虑三方面因素,预测结果(T)、随机同类型负样本(F)和训练标签(GT)。TripletLoss根据GT计算预测结果中的T和F,除了保证所有的T之间相互靠近,还需要考虑可能出现的T与其它F可能相似的情况,因此需要保证T和F的欧式距离尽可能远。
TripletLoss的公式如下:
在通过匈牙利算法匹配算法对连续帧中的各个目标的追踪向量进行匹配,获得各个目标的追踪ID过程中,可以基于上一帧中目标的数量n构建匈牙利算法矩阵,下一帧中与上一帧相似度高的n个目标参与配准。将相似度高的各个目标赋予相同的追踪ID;其余未参与配准的则判定为新出现目标,追加追踪ID进行编码,参与下一次配准。
可选地,在所有损失函数下降并保证模型收敛之后,可以进一步基于TensorRT对多目标分割追踪模型的部分算子和参数类型进行优化,以使模型能够在车载嵌入式低功耗平台进行部署。其中可选的模型参数类型包括Float32、Float16和Int8三种。如图8所示,图8为本申请实施例提供的多目标分割追踪模型在自动驾驶汽车开发平台Agx上的性能量化评估结果。
请参照图9,图9为本申请实施例提供的多目标分割追踪装置110的功能模块图。在本实施例中,多目标分割追踪装置110包括:
图像获取模块1101,用于获取待处理图像;
卷积模块1102,用于通过卷积神经网络对所述待处理图像进行卷积编码,获得所述待处理图像的特征金字塔;
形心计算模块1103,用于根据所述特征金字塔对所述待处理图像中的各个目标的类别和位置进行预测,并基于各个目标的类别和位置计算各个目标的形心坐标;
目标轮廓计算模块1104,用于针对所述待处理图像中的每一个目标,根据所述特征金字塔对所述目标的轮廓进行回归,并基于所述形心坐标计算所述目标的多个轮廓点的坐标;
追踪向量计算模块1105,用于针对每一个目标,根据所述特征金字塔和所述目标的各个轮廓点的坐标生成所述目标的追踪向量;
匹配模块1106,用于通过匈牙利算法匹配算法对连续多帧待处理图像中的所述目标的追踪向量进行匹配,获得所述目标的追踪ID。
可选地,在本实施例中,所述卷积模块1102具体用于:
使用卷积神经网络对所述待处理图像进行卷积编码和多次下采样,获得所述待处理图像的多个不同尺度的第一特征图;
对所述待处理图像的最小尺度的第一特征图进行卷积和多次上采样,以获得所述待处理图像的多个不同尺度的第二特征图;
将相同尺度的第一特征图和第二特征图进行拼接,获得所述待处理图像的特征金字塔。
值得说明的是,多目标分割追踪装置110中各个模块的工作原理及流程可参照前述提供的多目标分割追踪方法,在此不再赘述。
可选地,本申请实施例还提供了一种存储介质,存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的多目标分割追踪方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种目标分割追踪方法,其特征在于,所述方法包括:
获取待处理图像;
通过卷积神经网络对所述待处理图像进行卷积编码,获得所述待处理图像的特征金字塔;
根据所述特征金字塔对所述待处理图像中的各个目标的类别和位置进行预测,并基于各个目标的类别和位置计算各个目标的形心坐标;
针对所述待处理图像中的每一个目标,根据所述特征金字塔对所述目标的轮廓进行回归,并基于所述形心坐标计算所述目标的多个轮廓点的坐标;
针对每一个目标,根据所述特征金字塔和所述目标的各个轮廓点的坐标生成所述目标的追踪向量;
通过匈牙利匹配算法对连续多帧待处理图像中的所述目标的追踪向量进行匹配,获得所述目标的追踪ID。
2.根据权利要求1所述的方法,其特征在于,通过卷积神经网络对所述待处理图像进行卷积编码,获得所述待处理图像的特征金字塔,包括:
使用卷积神经网络对所述待处理图像进行卷积编码和多次下采样,获得所述待处理图像的多个不同尺度的第一特征图;
对所述待处理图像的最小尺度的第一特征图进行卷积和多次上采样,以获得所述待处理图像的多个不同尺度的第二特征图;
将相同尺度的第一特征图和第二特征图进行拼接,获得所述待处理图像的特征金字塔。
3.根据权利要求1所述的方法,其特征在于,根据所述特征金字塔对所述待处理图像中的各个目标的类别和位置进行预测,并基于各个目标的类别和位置计算各个目标的形心坐标,包括:
通过目标类别预测模型对所述特征金字塔进行处理,获得多尺度热力图预测结果,所述多尺度热力图预测结果用于表征各个所述目标在特征图上的位置和类别;
通过多尺度热力图预测结果获得各个类别的热力图,其中,所述热力图包括多个同类别的目标;
将所述热力图中热力值最大的点作为各个目标的形心,获得各个目标的形心坐标。
4.根据权利要求1所述的方法,其特征在于,针对所述待处理图像中的每一个目标,根据所述特征金字塔对所述目标的轮廓进行回归,并基于所述形心坐标计算所述目标的多个轮廓点的坐标,包括:
针对每一个目标,基于所述目标的形心为所述目标构建坐标系,其中,所述目标的形心为所述目标的坐标系中的原点;
根据所述目标的轮廓获得所述目标的多个轮廓点,并基于所述目标的形心坐标分别计算各个轮廓点的坐标。
5.根据权利要求1所述的方法,其特征在于,针对每一个目标,根据所述特征金字塔和所述目标的各个轮廓点的坐标生成所述目标的追踪向量,包括:
针对每一个目标,根据所述目标的各个轮廓点的坐标及所述目标的形心坐标计算获得所述目标的掩膜图像;
根据所述目标的掩膜图像及所述特征金字塔获取所述掩膜图像的特征图;
将所述掩膜图像的特征图输入至全连接层,获得所述目标的追踪向量。
6.根据权利要求5所述的方法,其特征在于,针对每一个目标,根据所述特征金字塔和所述目标的各个轮廓点的坐标生成所述目标的追踪向量,还包括:
通过TripletLoss对各个目标的追踪向量进行优化。
7.一种目标分割追踪装置,其特征在于,所述装置包括:
图像获取模块,用于获取待处理图像;
卷积模块,用于通过卷积神经网络对所述待处理图像进行卷积编码,获得所述待处理图像的特征金字塔;
形心计算模块,用于根据所述特征金字塔对所述待处理图像中的各个目标的类别和位置进行预测,并基于各个目标的类别和位置计算各个目标的形心坐标;
目标轮廓计算模块,用于针对所述待处理图像中的每一个目标,根据所述特征金字塔对所述目标的轮廓进行回归,并基于所述形心坐标计算所述目标的多个轮廓点的坐标;
追踪向量计算模块,用于针对每一个目标,根据所述特征金字塔和所述目标的各个轮廓点的坐标生成所述目标的追踪向量;
匹配模块,用于通过匈牙利匹配算法对连续多帧待处理图像中的所述目标的追踪向量进行匹配,获得所述目标的追踪ID。
8.根据权利要求7所述的装置,其特征在于,所述卷积模块具体用于:
使用卷积神经网络对所述待处理图像进行卷积编码和多次下采样,获得所述待处理图像的多个不同尺度的第一特征图;
对所述待处理图像的最小尺度的第一特征图进行卷积和多次上采样,以获得所述待处理图像的多个不同尺度的第二特征图;
将相同尺度的第一特征图和第二特征图进行拼接,获得所述待处理图像的特征金字塔。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1-6任一项所述的目标分割追踪方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-6任一项所述的目标分割追踪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110968211.4A CN113793371B (zh) | 2021-08-23 | 2021-08-23 | 目标分割追踪方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110968211.4A CN113793371B (zh) | 2021-08-23 | 2021-08-23 | 目标分割追踪方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113793371A true CN113793371A (zh) | 2021-12-14 |
CN113793371B CN113793371B (zh) | 2023-10-24 |
Family
ID=78876247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110968211.4A Active CN113793371B (zh) | 2021-08-23 | 2021-08-23 | 目标分割追踪方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113793371B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100377A (zh) * | 2022-07-15 | 2022-09-23 | 小米汽车科技有限公司 | 地图构建方法、装置、车辆、可读存储介质及芯片 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005165791A (ja) * | 2003-12-03 | 2005-06-23 | Fuji Xerox Co Ltd | 対象物の追跡方法及び追跡システム |
US20160203614A1 (en) * | 2015-01-14 | 2016-07-14 | Samsung Electronics Co., Ltd. | Method and apparatus of detecting object using event-based sensor |
CN110097129A (zh) * | 2019-05-05 | 2019-08-06 | 西安电子科技大学 | 基于轮廓波分组特征金字塔卷积的遥感目标检测方法 |
CN111461114A (zh) * | 2020-03-03 | 2020-07-28 | 华南理工大学 | 一种基于分割的多尺度特征金字塔文本检测方法 |
CN111968150A (zh) * | 2020-08-19 | 2020-11-20 | 中国科学技术大学 | 一种基于全卷积神经网络的弱监督视频目标分割方法 |
CN112529934A (zh) * | 2020-12-02 | 2021-03-19 | 北京航空航天大学杭州创新研究院 | 多目标追踪方法、装置、电子设备和存储介质 |
CN112561961A (zh) * | 2020-12-10 | 2021-03-26 | 北京三快在线科技有限公司 | 一种实例追踪的方法及装置 |
CN112634369A (zh) * | 2020-12-26 | 2021-04-09 | 西安科锐盛创新科技有限公司 | 空间与或图模型生成方法、装置、电子设备和存储介质 |
-
2021
- 2021-08-23 CN CN202110968211.4A patent/CN113793371B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005165791A (ja) * | 2003-12-03 | 2005-06-23 | Fuji Xerox Co Ltd | 対象物の追跡方法及び追跡システム |
US20160203614A1 (en) * | 2015-01-14 | 2016-07-14 | Samsung Electronics Co., Ltd. | Method and apparatus of detecting object using event-based sensor |
CN110097129A (zh) * | 2019-05-05 | 2019-08-06 | 西安电子科技大学 | 基于轮廓波分组特征金字塔卷积的遥感目标检测方法 |
CN111461114A (zh) * | 2020-03-03 | 2020-07-28 | 华南理工大学 | 一种基于分割的多尺度特征金字塔文本检测方法 |
CN111968150A (zh) * | 2020-08-19 | 2020-11-20 | 中国科学技术大学 | 一种基于全卷积神经网络的弱监督视频目标分割方法 |
CN112529934A (zh) * | 2020-12-02 | 2021-03-19 | 北京航空航天大学杭州创新研究院 | 多目标追踪方法、装置、电子设备和存储介质 |
CN112561961A (zh) * | 2020-12-10 | 2021-03-26 | 北京三快在线科技有限公司 | 一种实例追踪的方法及装置 |
CN112634369A (zh) * | 2020-12-26 | 2021-04-09 | 西安科锐盛创新科技有限公司 | 空间与或图模型生成方法、装置、电子设备和存储介质 |
Non-Patent Citations (4)
Title |
---|
XUEPENG CHANG ETL: "MPTS-AFBP: Multi-pedestrian Tracking and Segmentation Based on Anchor-Free Detector", IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, pages 5323 * |
ZHENCHAO OUYANG ETL: "Deep CNN-Based Real-Time Traffic Light Detector for Self-Driving Vehicles", IEEE, vol. 19, no. 2, pages 300, XP011766475, DOI: 10.1109/TMC.2019.2892451 * |
周以鹏等: "基于多尺度特征卷积神经网络的目标定位", 《计算机工程与应用》, vol. 55, no. 16, pages 115 - 122 * |
杨天阳: "视频监控中的视觉多目标跟踪技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 6, pages 136 - 579 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100377A (zh) * | 2022-07-15 | 2022-09-23 | 小米汽车科技有限公司 | 地图构建方法、装置、车辆、可读存储介质及芯片 |
Also Published As
Publication number | Publication date |
---|---|
CN113793371B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200311855A1 (en) | Object-to-robot pose estimation from a single rgb image | |
CN112287860B (zh) | 物体识别模型的训练方法及装置、物体识别方法及系统 | |
Hoang et al. | Enhanced detection and recognition of road markings based on adaptive region of interest and deep learning | |
JP7078021B2 (ja) | 物体検出装置、物体検出方法及び物体検出用コンピュータプログラム | |
US11475589B2 (en) | 3D pose estimation by a 2D camera | |
CN113312973B (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN111062405A (zh) | 训练图像识别模型的方法和装置以及图像识别方法和装置 | |
Mseddi et al. | YOLOv5 based visual localization for autonomous vehicles | |
CN115375736A (zh) | 一种基于图像的行人轨迹跟踪方法和装置 | |
US20070223785A1 (en) | Image processor and method | |
Liu et al. | Vehicle-related distance estimation using customized YOLOv7 | |
Nakamura et al. | An effective combination of loss gradients for multi-task learning applied on instance segmentation and depth estimation | |
CN113793371B (zh) | 目标分割追踪方法、装置、电子设备和存储介质 | |
Duan et al. | Real time road edges detection and road signs recognition | |
CN113379795B (zh) | 一种基于条件卷积和光流特征的多目标跟踪与分割方法 | |
Rogelio et al. | Object detection and segmentation using Deeplabv3 deep neural network for a portable X-ray source model | |
CN109523570B (zh) | 运动参数计算方法及装置 | |
US20230350418A1 (en) | Position determination by means of neural networks | |
US11554496B2 (en) | Feature detection by deep learning and vector field estimation | |
US11350078B2 (en) | 3D pose detection by multiple 2D cameras | |
CN114972492A (zh) | 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质 | |
CN114898306B (zh) | 一种检测目标朝向的方法、装置及电子设备 | |
CN116643291A (zh) | 一种视觉与激光雷达联合剔除动态目标的slam方法 | |
CN114510031A (zh) | 机器人视觉导航方法、装置、机器人及存储介质 | |
CN113837270B (zh) | 一种目标识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |