CN117576653A - 目标追踪方法、装置、计算机设备和存储介质 - Google Patents
目标追踪方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117576653A CN117576653A CN202311320925.XA CN202311320925A CN117576653A CN 117576653 A CN117576653 A CN 117576653A CN 202311320925 A CN202311320925 A CN 202311320925A CN 117576653 A CN117576653 A CN 117576653A
- Authority
- CN
- China
- Prior art keywords
- target
- dimensional
- scene image
- coordinates
- dimensional scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000001514 detection method Methods 0.000 claims abstract description 149
- 238000012545 processing Methods 0.000 claims abstract description 126
- 238000004590 computer program Methods 0.000 claims abstract description 26
- 230000033001 locomotion Effects 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 82
- 238000011176 pooling Methods 0.000 claims description 19
- 238000009826 distribution Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 description 31
- 230000008569 process Effects 0.000 description 24
- 238000013527 convolutional neural network Methods 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 9
- 238000001914 filtration Methods 0.000 description 8
- 238000012216 screening Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种目标追踪方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取二维场景图像处理结果和场景点云处理结果二维场景图像处理结果包括已检测出的多个运动目标的边界框坐标;基于同一运动目标的边界框坐标和投影二维坐标、以及预构建的高斯函数,得到目标拟合关系;查找出二维场景图像中未检测出的漏检运动目标,并基于漏检运动目标的投影二维坐标和目标拟合关系,确定漏检运动目标在二维场景图像中的边界框坐标;根据漏检运动目标在所述二维场景图像中的边界框坐标,更新二维场景图像处理结果;基于更新后的二维场景图像处理结果,追踪多个运动目标的运动轨迹。采用本方法能够提高目标追踪的准确度。
Description
技术领域
本申请涉及无人驾驶技术领域,特别是涉及一种目标追踪方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着无人驾驶技术的发展,一些目标追踪技术已经逐渐应用于自动驾驶车辆中,通过检测和追踪自动驾驶车辆周围的其他车辆、行人等,以便自动驾驶车辆可以做出智能驾驶决策。
传统技术中,自动驾驶车辆通常配备智能监控摄像头或者安全摄像头,以检测车辆周围的目标,通过计算图像中的车辆或行人的运动,可以追踪摄像头视野中的车辆或行人,以实现车辆安全行驶,避免与其他车辆、行人和障碍物发生碰撞。
然而,目前的目标追踪技术依然存在一些不足之处,例如自动驾驶车辆传感器容易丢失某些目标,或者受到环境等因素的影响,某些目标从传感器视野中消失或难以识别,最终导致目标追踪检测结果准确度不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高目标追踪检测结果准确度的目标追踪方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种目标追踪方法。所述方法包括:
获取二维场景图像处理结果和场景点云处理结果,所述二维场景图像处理结果包括已检测出的多个运动目标的边界框坐标,所述场景点云处理结果包括由已检测出的多个运动目标的三维点云坐标得到的投影二维坐标;
基于同一运动目标的边界框坐标和投影二维坐标、以及预构建的高斯函数,得到目标拟合关系,所述目标拟合关系用于根据所述运动目标的投影二维坐标确定所述运动目标在所述二维场景图像中的边界框坐标;
查找出所述二维场景图像中未检测出的漏检运动目标,并基于所述漏检运动目标的投影二维坐标和所述目标拟合关系,确定所述漏检运动目标在所述二维场景图像中的边界框坐标;
根据所述漏检运动目标在所述二维场景图像中的边界框坐标,更新所述二维场景图像处理结果;
基于更新后的所述二维场景图像处理结果,追踪所述多个运动目标的运动轨迹。
在其中一个实施例中,所述获取二维场景图像处理结果和场景点云处理结果,包括:
获取二维场景图像集和场景点云数据,所述二维场景图像数据集包括多张帧连续的二维场景图像;
分别对所述二维场景图像和所述场景点云数据进行目标检测,得到图像目标检测结果和点云目标检测结果,所述图像目标检测结果包括多个检测出的运动目标的边界框坐标、边界框尺寸和第一分类标签,所述点云目标检测结果包括多个检测出的运动目标的三维点云坐标和第二分类标签;
将多个所述运动目标的三维点云坐标投影至像素坐标系,得到多个运动目标的投影二维坐标。
在其中一个实施例中, 对所述二维场景图像进行目标检测,得到图像目标检测结果,包括:
对所述二维场景图像进行初始目标检测,得到初始图像目标检测结果;对所述初始图像目标检测结果依次进行交并比级联匹配和后验估计处理,得到所述图像目标检测结果。
在其中一个实施例中,所述图像目标检测结果包括多个检测出的运动目标的边界框坐标、边界框尺寸和第一分类标签;所述对所述二维场景图像进行初始目标检测,得到初始图像目标检测结果,包括:
将所述二维场景图像输入已训练的目标检测网络,得到所述二维场景图像对应的特征图和所述第一类分类标签,所述目标检测网络包括卷积层、池化层和分类器;
所述特征图进行特征金字塔操作,得到所述二维场景图像对应的多尺度特征图,
基于多尺度特征图,确定所述多个检测出的运动目标的边界框坐标、边界框尺寸;
所述已训练的目标检测网络基于携带目标分类标签的历史二维场景图像训练得到。
在其中一个实施例中,所述预构建的高斯函数包括预构建的平面高斯函数;所述基于同一运动目标的边界框坐标和投影二维坐标、以及预构建的高斯函数,得到目标拟合关系,包括:
根据所述边界框坐标、所述投影二维坐标、以及所述预构建的平面高斯函数,确定平面高斯函数表达式;
计算所述平面高斯函数表达式的拟合误差;
基于所述拟合误差调整所述平面高斯函数表达式的参数,当所述拟合误差最小时,将调整后的所述平面高斯函数表达式确定为所述目标拟合关系。
在其中一个实施例中,所述基于更新后的所述二维场景图像处理结果,追踪所述多个运动目标的运动轨迹,包括:
对更新后的所述二维场景图像处理结果进行后验估计,得到更新后的所述二维场景图像处理结果的后验估计结果;
基于所述后验估计结果进行二分配关联,得到多个运动目标的运动轨迹。
第二方面,本申请还提供了一种目标追踪装置。所述装置包括:
信息获取模块,用于获取二维场景图像处理结果和场景点云处理结果,所述二维场景图像处理结果包括已检测出的多个运动目标的边界框坐标,所述场景点云处理结果包括由已检测出的多个运动目标的三维点云坐标得到的投影二维坐标;
拟合关系确认模块,用于基于同一运动目标的边界框坐标和投影二维坐标、以及预构建的高斯函数,得到目标拟合关系,所述目标拟合关系用于根据所述运动目标的投影二维坐标确定所述运动目标在所述二维场景图像中的边界框坐标;
目标拟合模块,用于查找出所述二维场景图像中未检测出的漏检运动目标,并基于所述漏检运动目标的投影二维坐标和所述目标拟合关系,确定所述漏检运动目标在所述二维场景图像中的边界框坐标;
结果更新模块,用于根据所述漏检运动目标在所述二维场景图像中的边界框坐标,更新所述二维场景图像处理结果;
轨迹生成模块,用于基于更新后的所述二维场景图像处理结果,追踪所述多个运动目标的运动轨迹。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的方法的步骤。
上述目标追踪方法、装置、计算机设备、存储介质和计算机程序产品,通过获取包括已检测出的多个运动目标的边界框坐标的二维场景图像处理结果,以及包括由已检测出的多个运动目标的三维点云坐标得到的投影二维坐标场景点云处理结果,并基于同一运动目标的边界框坐标和投影二维坐标、以及预构建的高斯函数,得到用于根据所述运动目标的投影二维坐标确定所述运动目标在所述二维场景图像中的边界框坐标的目标拟合关系。然后,查找出二维场景图像中未检测出的漏检运动目标,并基于漏检运动目标的投影二维坐标和目标拟合关系,确定漏检运动目标在所述二维场景图像中的边界框坐标。进一步地,根据漏检运动目标在二维场景图像中的边界框坐标,更新二维场景图像处理结果,并基于更新后的所述二维场景图像处理结果,追踪所述多个运动目标的运动轨迹。因此通过上述方案可以大程度利用点云、图像之间相关性,减少目标漏检的概率,提高了目标检测追踪的准确度。
附图说明
图1为一个实施例中目标追踪方法的应用环境图;
图2为一个实施例中目标追踪方法的流程示意图;
图3为一个实施例中获取图像和点云处理结果步骤的流程示意图;
图4为一个是实力中处理图像数据的流程示意图;
图5为一个实施例中目标追踪方法的流程示意图;
图6为一个实施例中目标追踪装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的目标追踪方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104获取包括已检测出的多个运动目标的边界框坐标的二维场景图像处理结果,以及包括由已检测出的多个运动目标的三维点云坐标得到的投影二维坐标场景点云处理结果,并基于同一运动目标的边界框坐标和投影二维坐标、以及预构建的高斯函数,得到用于根据所述运动目标的投影二维坐标确定所述运动目标在所述二维场景图像中的边界框坐标的目标拟合关系。然后,服务器104可以查找出二维场景图像中未检测出的漏检运动目标,并基于漏检运动目标的投影二维坐标和目标拟合关系,确定漏检运动目标在所述二维场景图像中的边界框坐标。进一步地,根据漏检运动目标在二维场景图像中的边界框坐标,更新二维场景图像处理结果,并基于更新后的所述二维场景图像处理结果,追踪所述多个运动目标的运动轨迹,该运动轨迹可以通过终端102查看。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种目标追踪方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
S200:获取二维场景图像处理结果和场景点云处理结果,二维场景图像处理结果包括已检测出的多个运动目标的边界框坐标,场景点云处理结果包括由已检测出的多个运动目标的三维点云坐标得到的投影二维坐标。
其中,二维图像处理结果是原始图像信息经过各种操作和分析得到图像信息,可以是在原始图像中框出或标识出目标,并提供目标的分类信息、边界框坐标、边界框尺寸等,例如在原始图像中检测和识别出不同的车辆、行人和障碍物。场景点云处理结果是原始点云数据经过各种操作和分析得到点云信息,可以是在点云中检测和识别目标的位置、尺寸和类别,如车辆、建筑物或行人,也可以是将点云数据可视化为三维场景或模型。
此外,场景点云处理结果还包括已检测出的多个运动目标的三维点云坐标得到的
投影二维坐标,以实现图像信息和点云信息之间多模态的融合,提高二者相关性的利用程
度。将三维点云坐标投影为二维投影坐标通常涉及到相机投影或视角投影的转换,可以使
用投影矩阵,该矩阵可以将三维点投影到二维图像上,投影矩阵包括相机内参数矩阵(如焦
距、主点等)和外参数矩阵(相机的位置和朝向)。示例性地,假设三维点云坐标为,位于世界坐标系中,基于外参数矩阵,可以将世界坐标系转换为相机坐标系,
得到该三维点云在相机坐标系中的坐标。然后,基于内参数矩阵,对该三维点云在相机坐标
系中的坐标进行透视投影,将该三维点云从相机坐标系映射到图像平面,对投影得到的坐
标进行归一化处理,得到的在图像上的像素坐标 即为该三维点云坐标对应的投影二
维坐标。该过程的具体实现取决于相机参数和编程环境,在计算机视觉库中,通常提供了函
数来执行上述转换。在自动驾驶等领域,上述过程可以由专门的软件和硬件来实现,以处理
大量的点云数据。
获取图像信息和点云信息通常涉及不同类型的传感器和设备,具体传感器和设备取决于应用场景。在无人驾驶领域,可以使用数字相机(如RGB相机)来捕获场景的图像,也可以是一组相机,该摄像头阵列可以用于生成立体图像或全景图像,三维点云信息可以通过激光雷达获取,激光雷达设备通过发送激光束并测量返回时间来获取点云数据。此外,还可以使用深度相机,深度相机不仅提供RGB图像,还提供深度信息,该深度信息可以用于三维感知和点云信息生成。获取图像信息和点云信息需要专用硬件和传感器,并通常需要处理和分析捕获到的原始图像信息和原始点云信息,以满足特定应用的需求。
S400:基于同一运动目标的边界框坐标和投影二维坐标、以及预构建的高斯函数,得到目标拟合关系,目标拟合关系用于根据运动目标的投影二维坐标确定运动目标在二维场景图像中的边界框坐标。
其中,高斯函数是概率统计中的一种函数,常用于描述各种自然现象和数据分布,并且在数学上容易处理,这决定了用高斯函数来拟合数据具有便捷性。预构建的高斯函数具有均值和标准差等参数,可以通过调整这些参数来使用不同的数据分布。以平面高斯函数为例,预构建的高斯函数表达式可以如下所示:
在上述函数表达式中,表示该平面高斯函数的均值,和表示该高
斯函数的标准差。
基于同一运动目标的边界框坐标和投影二维坐标、以及上述平面高斯函数表达式,可以确定该平面高斯函数中的参数。对于每一组运动目标的边界框坐标和投影二维坐标,都可以估计出一组高斯函数的均值和高斯函数的标准差,基于该均值和标准差的估计值,可以确定一个平面高斯函数的具体表达式。
确定平面高斯函数之后,为了更好地拟合多组运动目标的边界框坐标和投影二维坐标,可以对该平面高斯函数进行优化,例如,通过迭代优化方法,如期望值最大化算法或非线性最小二乘法等,调整平面高斯函数的参数以最佳拟合数据,调整后的平面高斯函数可以作为目标拟合关系。此外,上述确定目标拟合关系的过程可以由计算机完成,以实现高精度高速度确定目标拟合关系。
S600:查找出二维场景图像中未检测出的漏检运动目标,并基于漏检运动目标的投影二维坐标和目标拟合关系,确定漏检运动目标在二维场景图像中的边界框坐标。
其中,漏检运动目标指的是,在处理图像信息过程中被漏掉的目标,但是可以在处理三维点云信息过程中被捕捉到,也就是说,这类运动目标具有投影二维坐标,但是在二维场景图像中没有边界框坐标。
上述漏检情况出现的原因有很多种,例如,二维图像是在摄像头的视点下捕获的,而三维点云通常是从不同角度的传感器处获得的,如激光雷达。某些目标可能在二维图像中由于遮挡、视角问题或低对比度而难以检测,但在三维点云中由于多个传感器的角度综合可以更容易地被检测到。除此之外,二维图像和三维点云代表了不同的数据模态,某些目标可能在点云中更明显,因为点云可以提供额外的深度信息,而二维图像通常只提供了表面信息。因此,在自动驾驶等领域中,使用多种传感器来获得多模态信息,包括相机捕获二维图像信息、激光雷达捕获三维点云信息,并使用适当的算法和技术将多模态信息进行融合,可以有效地提高目标检测的准确性。
示例性地,将漏检运动目标的二维投影坐标输入目标拟合关系中,可以得到该运动目标在二维场景图像中的边界框坐标,进一步地,还可以得到该目标在二维场景图像中的边界框尺寸。通过目标拟合关系拟合得到漏检运动目标的边界框坐标之后,还可以对拟合结果进行验证,以确保拟合得到的边界框准确地包围了上述漏检运动目标,并对边界框进行调整,以适应目标实际的形状和大小。上述过程可以通过计算机结合多种技术和算法来实现,以快速高效处理多个漏检运动目标。
S800:根据漏检运动目标在二维场景图像中的边界框坐标,更新二维场景图像处理结果。
更新二维场景处理结果指将漏检的运动目标添加到目标列表中,添加内容包括漏检运动目标的边界框坐标、边界框尺寸、分类标签等信息,更新后的二维场景处理结果包括处理二维图像信息得到的目标的信息,以及处理二维图像信息过程漏检、但处理三维点云信息过程中检测到的目标的信息。例如,更新后的二维场景图像中用边界框已标记出了所有已检运动目标和漏检运动目标,并标注出上述目标的坐标信息、分类标签等。
示例性地,可以为每个漏检运动目标分配唯一的标识符或者索引符,并收集漏检运动目标基于目标拟合关系得到的二维场景图像中的边界框坐标,进而将上述边界框坐标添加到二维场景图像中,以更新二维场景图像的处理结果,如在二维图像中绘制漏检运动目标的边界框或者标记漏检运动目标的位置。此外,随着新的图像帧的出现,依然需要持续监测漏检运动目标,并基于漏检运动目标的位置实时更新二维场景处理结果。
S1000:基于更新后的二维场景图像处理结果,追踪多个运动目标的运动轨迹。
更新后的二维场景图像处理结果中包含了所有通过二维图像信息和三维点云信息检测到的目标,下一步的操作是对上述目标进行追踪,这通常涉及到多帧图像中运动目标的位置和运动状态的连续估计,最终得到多个运动目标的运动轨迹。
目标追踪的方式有多种,可以根据应用需求、可用数据和计算资源选取合适的方法,此外还有一些目标追踪库和工具,提供了一些常见目标追踪算法。例如,卡尔曼滤波器是一种常用的目标追踪方法,该方法可以估计目标的位置和速度,并预测目标的未来位置。除此之外,还可以通过相关滤波器使用模板匹配技术来追踪目标,该技术比较当前帧与目标模板之间的相似性,并根据最高相似性的位置来估计目标位置。在本申请中,涉及到多个运动目标的追踪,示例性地,可以采用深度学习方法,如卷积神经网络,通过使用卷积神经网络来学习目标的运动和外观特征,并实现端到端的追踪。不仅如此,还可以通过多目标追踪算法如多目标卡尔曼滤波、多目标粒子滤波等,来估计多个目标的位置和轨迹。
基于更新后的二维场景图像处理结果,追踪多个运动目标的运动轨迹,该运动轨迹可以呈现在二维场景图像中,例如在目标上绘制目标边界框,用不同颜色的边界框表示不同类型的目标,在目标上显示标签,包括目标的类别或其他关键信息,并在视频帧上移动留下轨迹以追踪目标。除此之外,还可以绘制热力图,在多目标追踪过程中显示目标的密度分布,以表示目标在区域内的活动程度。
上述目标追踪方法,通过获取包括已检测出的多个运动目标的边界框坐标的二维场景图像处理结果,以及包括由已检测出的多个运动目标的三维点云坐标得到的投影二维坐标场景点云处理结果,并基于同一运动目标的边界框坐标和投影二维坐标、以及预构建的高斯函数,得到用于根据所述运动目标的投影二维坐标确定所述运动目标在所述二维场景图像中的边界框坐标的目标拟合关系。然后,查找出二维场景图像中未检测出的漏检运动目标,并基于漏检运动目标的投影二维坐标和目标拟合关系,确定漏检运动目标在所述二维场景图像中的边界框坐标。进一步地,根据漏检运动目标在二维场景图像中的边界框坐标,更新二维场景图像处理结果,并基于更新后的所述二维场景图像处理结果,追踪所述多个运动目标的运动轨迹。因此通过上述方案可以大程度利用点云、图像之间相关性,减少目标漏检的概率,提高了目标检测追踪的准确度。
如图3所示,在一个实施例中,S200包括:
S220:获取二维场景图像集和场景点云数据,二维场景图像数据集包括多张帧连续的二维场景图像。
在实际应用中,要获取二维场景图像集和场景点云数据,通常需要使用传感器和相应的软件工具。对于二维场景图像,可以使用标准的RGB(Red Green Blue)相机,如普通的数字相机或摄像机,以捕获图像。对于场景点云数据,可以使用深度传感器,例如结构光相机、飞行时间摄像机或激光雷达,以获得点云信息。在自动驾驶领域,上述传感器或设备通常安装在车上,以实时捕获车辆周围的目标信息,通常需要采集多张帧的连续数据,以获得时间上的连续性。
S240:对二维场景图像进行目标检测,得到图像目标检测结果,图像目标检测结果包括多个检测出的运动目标的边界框坐标、边界框尺寸和第一分类标签。
目标检测是指在图像、视频、点云等数据中识别和定位特定的物体,例如在二维场景图像中使用目标框标记出车辆、行人、障碍物等目标,并获得运动目标的边界框坐标和边界框尺寸。除此之外,还可以对检测到的运动目标进行分类,得到运动目标的分类标签,该运动标签记为第一类分类标签,表示基于二维场景图像检测得到的运动目标的分类标签。
二维场景图像通常需要进行预处理,以去除噪声、调整对比度、缩放图像尺寸等,以提高后续的目标检测算法的性能。之后对预处理后的二维场景图像进行特征提取操作,特征提取操作是指将图像中的有用信息提取出来,这些特征包括目标边缘、颜色直方图等,针对不同的目标检测任务可以提取不同的特征。目标检测算法是目标检测过程中的核心部分,基于不同的目标检测任务可以选取不同的目标检测算法,例如传统的基于特征的方法和深度学习算法。传统的基于特征的目标检测方法主要使用手工设计的特征和机器学习算法来检测图像中的物体,以HOG(Histogram of Oriented Gradients)算法为例,该算法通过计算图像中局部梯度方向的直方图来捕获目标的纹理与形状信息,适用于人脸检测和行人检测等任务。此外,目前常用的目标检测算法还有深度学习算法,如卷积神经网络和物体检测网络,该算法能够实现通过训练神经网络来自动识别和定位图像中的目标物体,取代了传统方法中手工设计的特征提取过程,使目标检测更准确和高效。
S262:对场景点云数据进行目标检测,得到点云目标检测结果,点云目标检测结果包括多个检测出的运动目标的三维点云坐标和第二分类标签。
对场景点云数据进行目标检测是一种通过分析三维点云数据以检测其中的运动目标的技术。
示例性地,处理场景点云数据的步骤可以是,先对场景点云数据进行集合抽象操作,以提取点云的局部特征,通常涉及到提取特定半径内的点云子集,并计算这些子集的特征,如形状描述符、法线、颜色等,用于后续的处理和分析。提取出点云的局部特征后,可以对点云数据进行分割,以将点云数据分割成为不同的部分或者对象,例如将场景中的不同物体分开,或者将地面点从物体点分开。将点云数据分割之后,通常需要为每个点分配一个归属,以指示该点是前景点(通常是物体)还是背景点(通常是地面或其他不感兴趣的区域),在本实施例中,需要保存的是前景点,作为运动目标的三维点云坐标。保存前景点后,还可以对前景点进行分类,即确定前景点的分类标签,该分类标签记为第二类分类标签,表示该分类标签是基于点云场景图像检测得到,以指示该前景点代表什么类型的物体(例如车辆、行人、树木等)。上述步骤是点云处理中的关键步骤,通常由算法和机器学习技术实现,用于将场景点云数据转化为目标检测任务中所需要的数据,例如有关场景中运动目标的位置和类型的关键信息,以便后续使用。
S264:将多个运动目标的三维点云坐标投影至像素坐标系,得到多个运动目标的投影二维坐标。
在目标检测任务中,处理三维坐标相比处理二维坐标需要花费更大的工作量,因而将多个运动目标的三维点云坐标投影至像素坐标系得到多个运动目标的投影二维坐标,可以减少计算复杂性。
将多个运动目标的三维点云坐标投影到像素坐标系,可以先将三维点云坐标从世界坐标系转换为相机坐标系,需要使用相机外部参数,该相机外部参数用于描述相机在世界坐标系中的位置和方向的参数,该参数可以通过相机标定技术来获取,例如使用已知位置和方向 的参点或标定板来确定相机外部参数。然后,将在相机坐标系下的点云坐标投影到像素坐标系中,该投影过程需要使用相机内部参数,该相机内部参数用于描述相机成像过程中的内部特性的参数,例如相机焦距、主点坐标、像素尺寸等,相机内部参数同样可以通过相机标定技术来获取。得到的投影二维坐标通常是以像素为单位的,需要进行归一化处理,以使投影二维坐标位于图像的规范化平面,通常是[-1, 1]范围内,归一化处理可以通过将像素坐标除以图像宽度和高度来实现。通过上述方案,处理三维点云坐标得到投影二维坐标,可以与场景图像处理数据进行更容易的融合,进而有助于进行目标的检测和追踪。
在本实施例中,通过对二维场景图像数据和场景点云数据进行目标检测处理,包括从二维场景图像中提取出运动目标的边界框坐标、边界框尺寸和第一类分类标签,以及从场景点云数据中提取出运动目标的三维点云坐标和第二类分类标,并将该三维点云坐标投影至像素坐标系,得到多个运动目标的投影二维坐标,有利于后续将图像目标检测结果和点云目标检测结果进行融合,提升目标的检测和追踪效率。
在一个实施例中,如图4所示,S240包括:
S242:对二维场景图像进行初始目标检测,得到初始图像目标检测结果。
初始目标检测是指对二维场景图像进行一次快速的目标检测,以尽快获得二维场景图像中运动目标的大致边界框坐标、边界框尺寸,以及第一类分类标签。
以一个自动驾驶汽车的场景为例,该自动驾驶汽车配备了摄像头,用于拍摄道路上的图像,作为二维场景图像,以采集关于周围环境的信息。对采集到的二维场景图像进行初始目标检测,包括卷积、池化和特征金字塔操作。在初始目标检测中,二维场景图像将通过一系列卷积层,每一层都使用卷积核,也称为过滤器,以对输入的二维场景图像进行卷积操作,提取出二维场景图像的局部特征,例如边缘、纹理和形状。在经过卷积操作之后,通常还会进行池化操作,例如最大池化操作或平均池化操作,以减少特征图的尺寸,同时又不至于丢失重要信息。经过池化操作后,为了处理不同尺度的目标,还需要进行特征金字塔操作,这是因为目标可能在图像中以不同的大小出现,进而需要多尺度的特征图,特征金字塔通过在不同层次或分辨率上构建特征图,以检测不同尺度的目标。
经过上述操作,可以得到二维场景图像中目标的边界框坐标和边界框尺寸,此外,将经过卷积操作和池化操作得到的特征图输入分类器中,还可以输出每个边界框的分类标签,例如“车辆”“行人”等,用于识别目标的类别。上述步骤可以通过构建目标检测模型,并由计算机完成上述处理操作,使得目标检测模型能够识别二维场景图像中的目标并提供它们的边界框坐标、尺寸和分类信息。
S244,对初始图像目标检测结果依次进行交并比级联匹配和后验估计处理,得到图像目标检测结果。
其中,交并比是用于评估物体检测精度的一种指标,通常用于衡量模型检测到的边界框或区域与真实目标边界框之间的重合程度,例如用于度量两个边界框重叠程度,其数值介于0到1之间,0表示两个边界框没有交集,1表示两个边界框完全重合。级联匹配是一种在目标检测中用于筛选和精细化结果的策略,该策略通常包括两个或多个级别的匹配,每个级别都有不同的条件和方法来判断两个或多个检测结果是否为相同目标,例如设置不同的交并比阈值来筛选边界框。后验估计用于估计一个事件或参数的概率分布,在后验估计中,若想要计算某个事件或者某个参数的概率分布,需要考虑已知的一些先验信息和数据,后验估计的目标是通过将先验信息和数据信息相结合,以获得对事件或者参数的更准确估计。
以对初始目标检测结果进行多次级联匹配和交并比筛选为例,可以先搭建级联检测器架构,例如设置多个检测阶段,每个阶段都使用不同的模型。示例性的,第一阶段使用一个较快但可能精度较低的模型,例如单一的轻量级卷积神经网络,此阶段的目标是快速生成候选边界框,但可能会导致一些检测结果中包含噪声或不准确的边界框;第二阶段使用一个更深入的、计算代价较高的模型,例如深度卷积神经网络或区域卷积神经网络,此阶段的目标是通过进一步的特征提取和分类来提高精度。在上述每个阶段之后,可以应用不同的交并比阈值来筛选目标边界框,例如,第一阶段可以使用较低的交并比阈值,以确保捕获大多数目标,而第二阶段可以使用更高的交并比阈值,以提高边界框的精度。级联匹配是一个多阶段的匹配过程,在该过程中,通过将第一阶段生成的候选边界框传递给第二阶段,第二阶段将进一步筛选和分类这些候选边界框,只有在第二阶段被确认的边界框才被认为是最终检测的目标,以提高目标检测过程的检测精度,以及减少目标的误检率和漏检率。
在交并比筛选阶段,目标检测结果会进行交并比筛选,即对初始目标检测结果中的目标候选框进行两两比较,计算它们之间的交并比阈值。例如,若两个候选框的交并比阈值高于某个阈值,如0.5或0.7,则它们被认为是相同目标的两个检测结果。示例性地,使用目标检测算法在二维场景图像中检测出多个目标边界框,每个目标边界框都带有其对应的置信度得分,并对初始目标检测结果按照置信度得分进行排序,例如从高到低排序。然后,从得分最高的目标边界框开始,将其视为可信的目标框并保留,按照预先排序对其余目标边界框进行检测,如果某个目标边界框的检测结果显示该目标边界框的交并比阈值低于事先设定的阈值,如0.5或0.7,则该目标边界框会被抛弃,并且不再对后续目标边界框进行检测。交并比筛选阶段的目的是消除重叠度较低的检测框,避免多次检测同一个目标,提高检测的准确性和稳定性。
在后验估计阶段,需要获取连续两帧的二维场景图像,以前一帧二维场景图像和当前帧二维场景图像为例,对前一帧二维场景图像进行上述多次级联匹配和交并比筛选操作,得到针对前一帧二维场景图像对应的较高精度目标检测结果,并针对该较高精度目标检测结果做后验估计,后验估计方式有多种,例如最大后验估计、卡尔曼滤波、贝叶斯线性回归等,在此处不做限定。前一帧二维场景图像对应的较高精度目标检测结果经过后验估计后,可以预测得到当前帧二维场景图像对应的预测目标检测结果,与此同时,当前帧二维场景图像也可以进行上述多次级联匹配和交并比筛选操作,得到针对当前帧二维场景图像对应的较高精度目标检测结果。对于当前帧二维场景图像对应的较高精度目标检测结果和当前帧二维场景图像对应的预测目标检测结果还可以进行交并比配比操作,并最终结果作为当前帧二维场景图像对应的目标检测结果。其中,交并比操作用于确定两个边界框之间的重叠程度,可以用于衡量预测框与真实框之间的相似度。示例性地,计算预测框和真实框之间的交并比,并设置某个阈值,如0.5或0.7,以确保匹配操作只保留高度重叠的边界框,以降低误检测的概率和提高追踪的准确性,因为保留匹配度低的边界框可能导致误检测,如将不同目标认为是同一目标,或者将噪声边界框误认为是目标边界框。
在本实施例中,通过对二维场景图像进行初始目标检测,并对初始图像目标检测结果依次进行交并比级联匹配和后验估计处理,最终得到图像目标检测结果。交并比级联匹配和后验估计处理过程允许目标在不同帧之间进行追踪,在不断获取新的观测数据时,可以持续地更新和改进对目标位置或状态的估计,并根据交并比确定图像目标检测结果,提高了检测结果的质量和准确性。
在一个实施例中,如图5所示,S242包括:
S2422,将二维场景图像输入已训练的目标检测网络,得到二维场景图像对应的特征图和第一类分类标签,目标检测网络包括卷积层、池化层和分类器。
目标检测网络是一种深度学习神经网络架构,主要用于图像识别和图像处理。卷积神经网络就是目标检测网络的一种,卷积神经网络可以通过卷积操作来自动提取图像中的特征,并通过层叠的神经网络结构来实现对这些高级特征的表示和学习,可以包括用于进行卷积操作的卷积层、用于进行池化操作的池化层和用于将特征映射到目标类别的分类器。在应用卷积神经网络之前,通常需要基于应用任务进行训练,在本实施例中,可以是基于携带目标分类标签的历史二维场景图像对初始卷积神经网络进行训练,并在训练过程中不断更新该卷积神经网络的参数,以提升模型性能并减小实际应用过程中的误差,得到训练好的目标检测网络。示例性地,将二维场景图像输入已训练好的目标检测网络,二维场景图像先经历卷积操作,该卷积操作用于从输入的二维场景图像中提取特征。例如,通过滑动的卷积核(一小块窗口)在输入二维场景图像上提取局部特征,并生成特征图,每个卷积核可以学习不同的特征,例如边缘、纹理等。通常会对卷积操作得到的特征图进行池化操作,池化操作用于减小特征图的空间尺寸,以降低计算复杂度,常见的池化操作包括最大池化和平均池化。分类器会对每个输入特征图进行分析,并为每个目标分配一个类别标签,记为第一分类标签,该标签通常表示通过图像目标检测得到的多个运动目标的类别,例如“汽车”“行人”等。分类器可以在训练阶段使用已知的目标类别的数据进行训练,通过比较输入特征与已知目标类别的特征,来识别图像中的对象。
此外,在卷积神经网络中,还可以使用非线性激活函数,以引入非线性性质,使网络能够学习复杂的数据关系。卷积神经网络的最后一层可以是全连接层,用于进行分类或回归任务,将之前的特征映射转换为最终的输出。
S2424:对特征图进行特征金字塔操作,得到二维场景图像对应的多尺度特征图。
特征金字塔操作用于处理多尺度的图像信息,以便在不同尺度上检测和识别对象或特征,使算法能够在不同尺度上捕获对象的信息,从而提高检测和识别的性能。
示例性地,特征金字塔可以包括从池化后的特征图开始的多个尺度层,每个层级都是池化后的特征图的不同版本,可以通过降采样(下采样)或上采样操作获得,上述层级具有不同的分辨率,以允许算法在不同尺度上操作。在每个金字塔层级上,特征提取算法可以从图像中提取特征,例如边缘、纹理、角点等,并对上述特征在不同层级上进行尺度归一化,以确保特征在不同尺度下的一致性,便于后续算法在不同尺度上执行目标检测和识别任务。
S2426,基于多尺度特征图,确定多个检测出的运动目标的边界框坐标、边界框尺寸。
得到二维场景图像的多尺度特征后,可以通过滑窗检测或锚框的方式确定二维场景图像中的多个运动目标对应的边界框。以滑窗检测为例,首先需要定义一个滑动窗口,通常是一个矩形区域,该窗口可以在图像上滑动以搜索潜在的目标。之后,将该滑动窗口放在二维场景图像的某一位置上,并对窗口内的特征进行提取、分类和检测,该窗口每滑动一次,都可以在新的位置上进行提取、分类、检测操作,以判断窗口内是否包含目标。确定窗口内包含目标后,还可以使用非极大值抑制算法来删除重叠的边界框,从而得到最终的边界框信息,包括边界框坐标和边界框尺寸等。
在本实施例中,通过对二维场景图像进行卷积、池化、分类、特征金字塔操作,得到二维场景图像的初始目标检测结果,该初始目标检测结果包括多个运动目标的边界框坐标、边界框尺寸和第一分类标签。上述目标检测过程可以自动识别和定位图像或者视频中的对象,并且实时运行,能够实现较多图像或视频数据的同时处理,有助于提高目标检测和追踪的效率。
在一个实施例中,预构建的高斯函数包括预构建的平面高斯函数,如图5所示,S400包括:
S420:根据边界框坐标、投影二维坐标、以及预构建的平面高斯函数,确定平面高斯函数表达式;
确定平面高斯函数表达式的过程需要结合边界框坐标、投影二维坐标以及预构建的平面高斯函数模型。示例性地,需要先定义平面高斯函数的模型。例如,高斯函数包括均值、协方差矩阵和标准差等参数,由于处理的数据都是二维数据,可以构建平面高斯函数模型,表达式如下:
其中,是归一化系数,和表示该平面高斯函数的均值,和表示该
平面高斯函数的标准差。
边界框坐标可以提供一个初始估计的均值,该均值可以是平面高斯函数中心的估计。投影二维坐标可以提供三维点云坐标在二维场景图像上的位置信息,对于每一组运动目标的边界框坐标和投影二维坐标,都可以估计出一组高斯函数的均值和高斯函数的标准差,基于该均值和标准差的估计值,可以确定平面高斯函数的具体表达式。
S440:计算平面高斯函数表达式的拟合误差,基于拟合误差调整平面高斯函数表达式的参数,当拟合误差最小时,将调整后的平面高斯函数表达式确定为目标拟合关系。
确定平面高斯函数之后,为了更好地拟合多组运动目标的边界框坐标和投影二维坐标,可以对该平面高斯函数进行优化。可以先选择合适的度量,在该度量下,调整平面高斯函数表达式的参数,以使其与目标拟合关系之间的误差最小,不同的度量对应的逼近方式也不相同。例如在平方误差度量下,可以使用最小二乘法最小化平方误差;在均方误差度量下,可以使用最小均方误差逼近最小化均方误差。
示例性地,根据点云处理结果中的投影二维坐标和平面高斯函数表达式,可以计算得到与之相对应的运动目标边界框坐标。然而计算得到的运动目标边界框坐标,与二维场景图像处理结果中的相对应的实际运动目标边界框坐标存在误差,因此需要调整平面高斯函数表达式,以最小化该误差。以选取的度量标准为欧几里德距离为例,通过计算实际运动目标边界框坐标和计算得到的运动目标边界框坐标之间的欧几里德距离,使用优化算法,例如梯度下降、最小二乘法或其他优化算法,使得该欧几里德距离最小,并迭代调整对应的平面高斯函数参数,直到该平面高斯函数对多组运动目标的边界框坐标和投影二维坐标的拟合效果达到满意的程度。调整后的平面高斯函数由于在欧几里德距离度量下,与目标拟合关系之间的误差最小,因而可以较好地拟合实际获取到的数据。此外,还可以对优化后的平面高斯函数的性能进行验证评估,包括检查拟合误差,确保优化后的平面高斯函数适用于多组数据,而不仅仅是训练数据。
在本实施例中,通过根据边界框坐标、投影二维坐标、以及预构建的平面高斯函数,确定平面高斯函数表达式,并对该平面高斯函数表达式进行优化,使其在选定的度量下能够更好地拟合实际数据,提升拟合准确度和拟合效率。
在一个实施例中,参考附图5,S1000包括:
S1020:对更新后的所述二维场景图像处理结果进行后验估计,得到更新后的所述二维场景图像处理结果的后验估计结果。
承接上述实施例,经过更新处理后的二维场景图像处理结果中包含了所有通过二维图像信息和三维点云信息检测到的目标,并在二维场景图像中呈现,包括边界框坐标、边界框尺寸、分类标签。在目标追踪领域,后验估计的目标是根据已有的目标检测结果和其他数据来估计或更新目标的状态或属性,例如更新目标在下一帧中的位置。
后验估计方式可以包括卡尔曼滤波、粒子滤波等方式,可以基于实际的目标检测任务选取,在此处不做限定。以当前帧和下一帧的二维场景图像处理结果应用卡尔曼滤波为例,卡尔曼滤波的第一步是建立系统的动态模型,可以表示为状态转移矩阵,用于描述系统状态随时间如何演化,并使用状态向量来估计系统状态。在每个时间步,通过将当前系统状态和状态转移矩阵相乘,可以预测下一个时间步的系统状态,该预测通常伴随着不确定性,该不确定性也称为状态协方差。同时建立观测模型,表示为观测矩阵,用于描述传感器测量和系统状态之间的关系。示例性地,在接收到当前帧的二维场景图像处理结果之后,可以将观测模型应用于当前状态的预测,以生成一个新的状态估计,并将该估计结果将作为下一个时间步的二维场景图像预测处理结果。使用卡尔曼滤波算法可以较好地处理噪声以及花费较小的计算开销,适用于实时目标追踪场景。
以当前帧和下一帧的二维场景图像处理结果为例,分别对当前帧和下一帧的二维场景图像处理结果进行后验估计,可以得到当前帧和下一帧的二维场景图像预测处理结果。
S1040:基于更新后的所述二维场景图像处理结果的后验估计结果进行二分配关联,得到多个运动目标的运动轨迹。
二分配关联是指在多目标追踪问题中,将不同时刻或传感器测量到的目标与轨迹进行关联,并形成一个二进制关联矩阵,该矩阵用于确定检测结果与轨迹的关联性,从而实现多目标追踪。除了二分配关联算法外,还可以通过卡尔曼滤波、匈牙利算法或多假设追踪等多种追踪算法,在此处不做限定。
以当前帧和下一帧的二维场景图像预测处理结果应用二分配关联算法为例,使用二分配关联算法,将不同帧二维场景图像中的运动目标关联起来,并为每个目标建立轨迹数据结构,包括目标的位置、速度、外观、标识符等信息,并生成最终的关联轨迹,通常,该轨迹以目标的唯一标识符作为索引,可以用于进一步的目标分析、预测或控制。该过程包括创建一个二进制矩阵,其中行代表目标轨迹,列代表目标检测结果,该二进制矩阵的元素表示每个目标检测结果是否与每个轨迹相关联,可以通过计算相关性分数来判断,例如欧几里德距离;进一步地,确定如何将目标测量结果与轨迹相关联,例如使用线性分配、匈牙利算法、最大权重匹配等一种或多种算法。
此外,对于新出现的目标,需要初始化新的轨迹,可以是为新目标创建一个唯一的ID,并初始化轨迹的信息。由于多目标追踪可能需要存储大量的轨迹数据,因此需要考虑轨迹的存储策略,包括轨迹的保留、清除或保存,可以根据实际目标追踪任务进行合适的操作。
在本实施例中,通过对更新后的所述二维场景图像处理结果进行后验估计,得到更新后的所述二维场景图像处理结果的后验估计结果,并基于更新后的所述二维场景图像处理结果的后验估计结果进行二分配关联,进而得到多个运动目标的运动轨迹。基于目标检测结果生成连续轨迹,有助于理解运动目标的移动和行为,此外使用二分配关联算法,可以将运动目标与已有轨迹关联,避免重复处理同一运动目标,减小处理工作量。
为了对本申请提供的目标追踪方法做出更为清楚的说明,下面结合一个具体实施例和附图5进行说明,该具体实施例包括以下步骤:
S220:获取二维场景图像集和场景点云数据,二维场景图像数据集包括多张帧连续的二维场景图像。
S2422:将二维场景图像输入卷积神经网络,得到二维场景图像对应的特征图和第一类分类标签,卷积神经网络包括卷积层、池化层和第一类分类标签。
S2424:基于多尺度特征图,确定多个检测出的运动目标的边界框坐标、边界框尺寸。
S2426:将多尺度特征图输入分类器,得到第一类分类标签,所述分类器用于将目标特征与已知目标类别进行比较,并为目标分配标签。
S244:对初始图像目标检测结果依次进行交并比级联匹配和后验估计处理,得到图像目标检测结果。
S262:对场景点云数据进行目标检测,得到点云目标检测结果,点云目标检测结果包括多个检测出的运动目标的三维点云坐标和第二分类标签。
S264:将多个运动目标的三维点云坐标投影至像素坐标系,得到多个运动目标的投影二维坐标。
S420:根据边界框坐标、投影二维坐标、以及预构建的平面高斯函数,确定平面高斯函数表达式。
S440:计算平面高斯函数表达式的拟合误差;基于拟合误差调整平面高斯函数表达式的参数,当拟合误差最小时,将调整后的平面高斯函数表达式确定为目标拟合关系。
S600:查找出二维场景图像中未检测出的漏检运动目标,并基于漏检运动目标的投影二维坐标和目标拟合关系,确定漏检运动目标在二维场景图像中的边界框坐标。
S800:查找出二维场景图像中未检测出的漏检运动目标,并基于漏检运动目标的投影二维坐标和目标拟合关系,确定漏检运动目标在二维场景图像中的边界框坐标。
S1020:对更新后的二维场景图像处理结果进行后验估计,得到更新后的二维场景图像处理结果的后验估计结果。
S1040:基于更新后的二维场景图像处理结果的后验估计结果进行二分配关联,得到多个运动目标的运动轨迹。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的目标追踪方法的目标追踪装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个目标追踪装置实施例中的具体限定可以参见上文中对于目标追踪方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种目标追踪装置500,包括:信息获取模块510、拟合关系确认模块520、目标拟合模块530、结果更新模块540和轨迹生成模块550,其中:
信息获取模块510,用于获取二维场景图像处理结果和场景点云处理结果,所述二维场景图像处理结果包括已检测出的多个运动目标的边界框坐标,所述场景点云处理结果包括由已检测出的多个运动目标的三维点云坐标得到的投影二维坐标;
拟合关系确认模块520,用于基于同一运动目标的边界框坐标和投影二维坐标、以及预构建的高斯函数,得到目标拟合关系,目标拟合关系用于根据运动目标的投影二维坐标确定运动目标在二维场景图像中的边界框坐标;
目标拟合模块530,用于查找出二维场景图像中未检测出的漏检运动目标,并基于漏检运动目标的投影二维坐标和目标拟合关系,确定漏检运动目标在二维场景图像中的边界框坐标;
结果更新模块540,用于根据漏检运动目标在二维场景图像中的边界框坐标,更新二维场景图像处理结果;
轨迹生成模块550,用于基于更新后的二维场景图像处理结果,追踪多个运动目标的运动轨迹。
在一个实施例中,信息获取模块510具体用于:
获取二维场景图像集和场景点云数据,二维场景图像数据集包括多张帧连续的二维场景图像,并将二维场景图像输入卷积神经网络,得到二维场景图像对应的特征图,卷积神经网络包括卷积层和池化层。对特征图进行特征金字塔操作,得到二维场景图像对应的多尺度特征图,特征金字塔操作用于从不同尺度的图像中提取特征。将多尺度特征图输入分类器,得到第一类分类标签,所述分类器用于将目标特征与已知目标类别进行比较,并为目标分配标签。对初始图像目标检测结果依次进行交并比级联匹配和后验估计处理,得到图像目标检测结果。
在一个实施例中,拟合关系确认模块520具体用于:
根据边界框坐标、投影二维坐标、以及预构建的平面高斯函数,确定平面高斯函数表达式。优化平面高斯函数表达式,得到目标拟合关系。
在一个实施例中,轨迹生成模块550具体用于:
对更新后的二维场景图像处理结果进行后验估计,得到更新后的二维场景图像处理结果的后验估计结果。基于更新后的二维场景图像处理结果的后验估计结果进行二分配关联,得到多个运动目标的运动轨迹。
上述目标追踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种目标追踪方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各目标追踪方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各目标追踪方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各目标追踪方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种目标追踪方法,其特征在于,所述方法包括:
获取二维场景图像处理结果和场景点云处理结果,所述二维场景图像处理结果包括已检测出的多个运动目标的边界框坐标,所述场景点云处理结果包括由已检测出的多个运动目标的三维点云坐标得到的投影二维坐标;
基于同一运动目标的边界框坐标和投影二维坐标、以及预构建的高斯函数,得到目标拟合关系,所述目标拟合关系用于根据所述运动目标的投影二维坐标,确定所述运动目标在所述二维场景图像中的边界框坐标;
查找出所述二维场景图像中未检测出的漏检运动目标,并基于所述漏检运动目标的投影二维坐标和所述目标拟合关系,确定所述漏检运动目标在所述二维场景图像中的边界框坐标;
根据所述漏检运动目标在所述二维场景图像中的边界框坐标,更新所述二维场景图像处理结果;
基于更新后的所述二维场景图像处理结果,追踪所述多个运动目标的运动轨迹。
2.根据权利要求1所述的方法,其特征在于,所述获取二维场景图像处理结果和场景点云处理结果,包括:
获取二维场景图像集和场景点云数据,所述二维场景图像数据集包括多张帧连续的二维场景图像;
分别对所述二维场景图像和所述场景点云数据进行目标检测,得到图像目标检测结果和点云目标检测结果,所述图像目标检测结果包括多个检测出的运动目标的边界框坐标、边界框尺寸和第一分类标签,所述点云目标检测结果包括多个检测出的运动目标的三维点云坐标和第二分类标签;
将多个所述运动目标的三维点云坐标投影至像素坐标系,得到多个运动目标的投影二维坐标。
3.根据权利要求2所述的方法,其特征在于,对所述二维场景图像进行目标检测,得到图像目标检测结果,包括:
对所述二维场景图像进行初始目标检测,得到初始图像目标检测结果;
对所述初始图像目标检测结果依次进行交并比级联匹配和后验估计处理,得到所述图像目标检测结果。
4.根据权利要求3所述的方法,其特征在于,所述图像目标检测结果包括多个检测出的运动目标的边界框坐标、边界框尺寸和第一分类标签;
所述对所述二维场景图像进行初始目标检测,得到初始图像目标检测结果,包括:
将所述二维场景图像输入已训练的目标检测网络,得到所述二维场景图像对应的特征图和所述第一类分类标签,所述目标检测网络包括卷积层、池化层和分类器;
对所述特征图进行特征金字塔操作,得到所述二维场景图像对应的多尺度特征图;
基于所述多尺度特征图,确定所述多个检测出的运动目标的边界框坐标、边界框尺寸;
所述已训练的目标检测网络基于携带目标分类标签的历史二维场景图像训练得到。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述预构建的高斯函数包括预构建的平面高斯函数;
所述基于同一运动目标的边界框坐标和投影二维坐标、以及预构建的高斯函数,得到目标拟合关系,包括:
根据所述边界框坐标、所述投影二维坐标、以及所述预构建的平面高斯函数,确定平面高斯函数表达式;
计算所述平面高斯函数表达式的拟合误差;
基于所述拟合误差调整所述平面高斯函数表达式的参数,当所述拟合误差最小时,将调整后的所述平面高斯函数表达式确定为所述目标拟合关系。
6.根据权利要求1至4任意一项所述的方法,其特征在于,所述基于更新后的所述二维场景图像处理结果,追踪所述多个运动目标的运动轨迹,包括:
对更新后的所述二维场景图像处理结果进行后验估计,得到更新后的所述二维场景图像处理结果的后验估计结果;
基于所述后验估计结果进行二分配关联,得到多个运动目标的运动轨迹。
7.一种目标追踪装置,其特征在于,所述装置包括:
信息获取模块,用于获取二维场景图像处理结果和场景点云处理结果,所述二维场景图像处理结果包括已检测出的多个运动目标的边界框坐标,所述场景点云处理结果包括由已检测出的多个运动目标的三维点云坐标得到的投影二维坐标;
拟合关系确认模块,用于基于同一运动目标的边界框坐标和投影二维坐标、以及预构建的高斯函数,得到目标拟合关系,所述目标拟合关系用于根据所述运动目标的投影二维坐标确定所述运动目标在所述二维场景图像中的边界框坐标;
目标拟合模块,用于查找出所述二维场景图像中未检测出的漏检运动目标,并基于所述漏检运动目标的投影二维坐标和所述目标拟合关系,确定所述漏检运动目标在所述二维场景图像中的边界框坐标;
结果更新模块,用于根据所述漏检运动目标在所述二维场景图像中的边界框坐标,更新所述二维场景图像处理结果;
轨迹生成模块,用于基于更新后的所述二维场景图像处理结果,追踪所述多个运动目标的运动轨迹。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311320925.XA CN117576653A (zh) | 2023-10-12 | 2023-10-12 | 目标追踪方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311320925.XA CN117576653A (zh) | 2023-10-12 | 2023-10-12 | 目标追踪方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117576653A true CN117576653A (zh) | 2024-02-20 |
Family
ID=89888842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311320925.XA Pending CN117576653A (zh) | 2023-10-12 | 2023-10-12 | 目标追踪方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576653A (zh) |
-
2023
- 2023-10-12 CN CN202311320925.XA patent/CN117576653A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Self‐supervised learning to visually detect terrain surfaces for autonomous robots operating in forested terrain | |
Yao et al. | Estimating drivable collision-free space from monocular video | |
CN113706480B (zh) | 一种基于关键点多尺度特征融合的点云3d目标检测方法 | |
CN111723721A (zh) | 基于rgb-d的三维目标检测方法、系统及装置 | |
Geng et al. | Using deep learning in infrared images to enable human gesture recognition for autonomous vehicles | |
CN115049700A (zh) | 一种目标检测方法及装置 | |
WO2021114776A1 (en) | Object detection method, object detection device, terminal device, and medium | |
CN105160649A (zh) | 基于核函数非监督聚类的多目标跟踪方法及系统 | |
CN110544268B (zh) | 一种基于结构光及SiamMask网络的多目标跟踪方法 | |
Zelener et al. | Cnn-based object segmentation in urban lidar with missing points | |
CN109636828A (zh) | 基于视频图像的物体跟踪方法及装置 | |
Laible et al. | Terrain classification with conditional random fields on fused 3D LIDAR and camera data | |
CN117949942B (zh) | 基于雷达数据和视频数据融合的目标跟踪方法及系统 | |
Patil et al. | A survey on joint object detection and pose estimation using monocular vision | |
Park et al. | Drivable dirt road region identification using image and point cloud semantic segmentation fusion | |
Huang et al. | An object detection algorithm combining semantic and geometric information of the 3D point cloud | |
CN117036404A (zh) | 一种单目热成像同时定位与建图方法和系统 | |
Tombari et al. | Stereo for robots: quantitative evaluation of efficient and low-memory dense stereo algorithms | |
Su et al. | An illumination-invariant nonparametric model for urban road detection | |
CN112529917A (zh) | 一种三维目标分割方法、装置、设备和存储介质 | |
IL277741B2 (en) | System and method for visual positioning | |
EP4073698A1 (en) | Object detection method, object detection device, terminal device, and medium | |
Börcs et al. | Dynamic 3D environment perception and reconstruction using a mobile rotating multi-beam Lidar scanner | |
Hua et al. | Onboard monocular pedestrian detection by combining spatio-temporal hog with structure from motion algorithm | |
Kaimkhani et al. | UAV with Vision to Recognise Vehicle Number Plates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |