CN116012609A

CN116012609A - 一种环视鱼眼多目标跟踪方法、装置、电子设备及介质

Info

Publication number: CN116012609A
Application number: CN202211699908.7A
Authority: CN
Inventors: 汤强; 王家宁; 张文凯; 吴子章; 王凡
Original assignee: Zongmu Technology Shanghai Co Ltd
Current assignee: Zongmu Technology Shanghai Co Ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-04-25

Abstract

本发明公开了一种环视鱼眼多目标跟踪方法、装置、电子设备及介质，包括基于多路鱼眼相机，获取若干图像；然后对当前帧图像以及历史帧图像进行特征提取，得到当前帧图像对应的第一特征图以及历史帧图像对应的第二特征图；再根据第一特征图以及第二特征图获取BEV合并特征；最后根据BEV合并特征进行目标跟踪检测，得到若干图像中目标的跟踪检测结果。本申请有效地提升了多目标检测准确度的同时，提高了多目标检测效率，鲁棒性好。

Description

一种环视鱼眼多目标跟踪方法、装置、电子设备及介质

技术领域

本发明主要涉及自动驾驶技术领域，特别涉及一种环视鱼眼多目标跟踪方法、装置、电子设备及介质。

背景技术

多目标跟踪MOT(Multiple Object Tracking)，指在事先不知道目标数量的情况下，对视频中的行人、汽车、动物等多个目标进行检测并赋予ID进行轨迹跟踪，不同的目标拥有不同的ID，以便实现后续的轨迹预测、精准查找等工作。多目标跟踪(Multiple ObjectTracking，MOT)广泛应用于视频监控、人机交互、虚拟现实、智能交通、医学图像等领域。近年来，得益于移动机器人和自动驾驶的快速发展，视觉多目标跟踪取得了重大进展。但目前的多目标检测方法，强依赖于检测器的性能表现，在准确性和效率方面结果难以达到最优。

发明内容

本申请的目的在于提供一种环视鱼眼多目标跟踪方法、装置、电子设备及介质，有效地提升了多目标检测准确度的同时，提高了多目标检测效率。

第一方面，本申请提供一种环视鱼眼多目标跟踪方法，包括：基于多路鱼眼相机，获取若干图像，若干图像包括各路鱼眼相机拍摄的当前帧图像以及历史帧图像；对当前帧图像以及历史帧图像进行特征提取，得到当前帧图像对应的第一特征图以及历史帧图像对应的第二特征图；根据第一特征图以及第二特征图获取BEV合并特征；根据BEV合并特征进行目标跟踪检测，得到若干图像中目标的跟踪检测结果。

在第一方面的一种实现方式中，根据第一特征图以及第二特征图获取BEV合并特征，包括：对第一特征图以及第二特征图分别进行体素变换，得到第一特征图对应的BEV特征以及第二特征图对应的BEV特征；将第一特征图对应的BEV特征以及第二特征图对应的BEV特征进行合并，得到BEV合并特征。

在第一方面的一种实现方式中，对第一特征图以及第二特征图分别进行体素变换，得到第一特征图对应的BEV特征以及第二特征图对应的BEV特征，包括：获取各路鱼眼相机的特征图，特征图为第一特征图或第二特征图；基于主干神经网络，将各路鱼眼相机的特征图输入主干神经网络，通过主干神经网络输出各路鱼眼相机对应的多组特征；将各路鱼眼相机对应的多组特征进行串联拼接，得到拼接特征；利用卷积神经网络对拼接特征进行体素投影，得到体素特征；将体素特征进行投影变换，得到投影变换后的第一BEV特征或第二BEV特征，第一BEV特征为第一特征图对应的BEV特征，第二BEV特征为第二特征图对应的BEV特征。

在第一方面的一种实现方式中，将第一特征图对应的BEV特征以及第二特征图对应的BEV特征进行合并，得到BEV合并特征，包括：获取多路鱼眼相机的定位信息；基于多路鱼眼相机的定位信息，将第二特征图对应的BEV特征和第一特征图对应的BEV特征对齐到相同坐标系下，并串联拼接成当前时刻拼接BEV特征；利用神经网络对当前时刻拼接BEV特征进行投影变换，生成BEV合并特征。

在第一方面的一种实现方式中，根据BEV合并特征进行目标跟踪检测，得到若干图像中目标的跟踪检测结果，包括：基于第一视觉Transformer网络构成的检测头，根据BEV合并特征进行目标检测，得到若干图像中目标的检测结果，目标的跟踪检测结果包括但不限于：热图、3D包围框、航向角和/或置信度。

在第一方面的一种实现方式中，，方法还包括：根据热图筛选出第一特征图对应的BEV特征中有目标中心的位置以及第二特征图对应的BEV特征中有目标中心的位置，得到筛选后的当前时刻BEV特征以及筛选后的历史时刻BEV特征；基于第二视觉Transformer网络构成的跟踪头，计算筛选后的当前时刻BEV特征以筛选后的历史时刻BEV特征之间的相似度，得到目标的相似度矩阵；根据目标的相似度矩阵进行二值匹配，得到当前帧图像与历史帧图像之间相互匹配的目标。

在第一方面的一种实现方式中，根据目标的相似度矩阵进行二值匹配，得到当前帧图像与历史帧图像之间相互匹配的目标，包括：从相似度矩阵中选取若干个元素，若干个元素的行列坐标均不重复，目标的相似度矩阵的元素A_ij表示当前帧图像第i个目标和历史帧图像第j个目标的相似程度；获取若干个元素之和；当若干个元素之和最大时，根据若干个元素得到当前帧图像与历史帧图像之间相互匹配的目标。

在第一方面的一种实现方式中，根据目标的相似度矩阵进行二值匹配，得到当前帧图像与历史帧图像之间相互匹配的目标，还包括：当当前帧图像中的第一目标与历史帧图像的第二目标相互匹配时，将当前帧图像中的第一目标的ID设置为历史帧图像的第二目标的ID；当当前帧图像中的第一目标与历史帧图像的第二目标不匹配时，对当前帧图像中的第一目标赋予新的ID。

第二方面，本申请提供一种环视鱼眼多目标跟踪装置，包括：图像获取模块，用于基于多路鱼眼相机，获取若干图像，若干图像包括各路鱼眼相机拍摄的当前帧图像以及历史帧图像；特征提取模块，用于对当前帧图像以及历史帧图像进行特征提取，得到当前帧图像对应的第一特征图以及历史帧图像对应的第二特征图；BEV特征合并模块，用于根据第一特征图以及第二特征图获取BEV合并特征；跟踪检测模块，用于根据BEV合并特征进行目标跟踪检测，得到若干图像中目标的跟踪检测结果。

第三方面，本申请提供了一种电子设备，电子设备包括：存储器，存储器存储有多条指令；处理器，处理器从存储器中加载指令，以执行如上述任一种环视鱼眼多目标跟踪方法中的步骤。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被电子设备执行时实现上述任一种环视鱼眼多目标跟踪方法中的步骤。

本申请提供的环视鱼眼多目标跟踪方法，能够基于多路鱼眼相机，获取若干图像；然后对当前帧图像以及历史帧图像进行特征提取，得到当前帧图像对应的第一特征图以及历史帧图像对应的第二特征图；再根据第一特征图以及第二特征图获取BEV合并特征；最后根据BEV合并特征进行目标跟踪检测，得到若干图像中目标的跟踪检测结果。本申请实现了一种基于BEV特征的端到端的环视鱼眼多目标跟踪方法，通过将目标的特征放入到网络中，和检测头一起训练学习，直接输出前后两帧之间不同目标间的相似度矩阵，实现了端到端的跟踪方案。相较于主流的基于“Tracking-by-detection”框架的两阶段跟踪方案，在准确性和效率方面取得了大幅的提升，更适合于性能要求较高的自动驾驶任务。同时，针对在自动驾驶任务中广泛实际使用的环视鱼眼相机由于存在严重畸变，处理难度大，跟踪相关研究工作较少等问题，本发明具有高的实际落地价值，有效地提升了多目标检测准确度的同时，提高了多目标检测效率。

附图说明

图1为本申请一实施例的应用场景示意图。

图2a为本申请一实施例的环视鱼眼多目标跟踪方法的流程示意图。

图2b为本申请一实施例的主干神经网络连接示意图。

图2c为本申请一实施例的投影变换示意图。

图2d为本申请一实施例的时序建模流程示意图。

图2e为本申请一实施例的特征筛选流程示意图。

图3为本申请一实施例的环视鱼眼多目标跟踪装置的结构示意图。

图4为本申请一实施例的电子设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本申请以下实施例提供了一种环视鱼眼多目标跟踪方法、装置、电子设备及介质，其中，该环视鱼眼多目标跟踪装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为车机、手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在一些实施例中，该环视鱼眼多目标跟踪装置还可以集成在多个电子设备中，比如，该环视鱼眼多目标跟踪装置可以集成在多个服务器中，由多个服务器来实现本申请的该环视鱼眼多目标跟踪方法。

在一些实施例中，服务器也可以以终端的形式来实现。

例如，图1为本申请一实施例的应用场景示意图，该应用场景中可以包括车辆10、多路鱼眼相机11、存储终端12、服务器13等，多路鱼眼相机11安装在车辆10上，多路鱼眼相机11用于采集车辆周围环境信息，得到鱼眼图像。存储终端12可以用于存储车辆采集到的鱼眼图像等，多路鱼眼相机11、存储终端12、服务器13之间相互通信连接，在此不再赘述。

其中，服务器13可以基于多路鱼眼相机，获取若干图像；然后对当前帧图像以及历史帧图像进行特征提取，得到当前帧图像对应的第一特征图以及历史帧图像对应的第二特征图；再根据第一特征图以及第二特征图获取BEV合并特征；根据BEV合并特征进行目标跟踪检测，得到若干图像中目标的跟踪检测结果等。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行详细描述。

如图2a所示，以服务器13为执行主体，本实施例提供一种环视鱼眼多目标跟踪方法，包括步骤S210至步骤S240，如下：

S210、服务器13基于多路鱼眼相机，获取若干图像。

本实施例中，鱼眼相机是指带有鱼眼镜头的相机，是一种焦距极短并且视角接近或等于180°的镜头。16mm或焦距更短的镜头。在自动驾驶领域，一般采用多路鱼眼相机采集车辆周围环境信息，比如车辆可以采用4路鱼眼相机，四路鱼眼相机分别安装于车辆的左侧、右侧、前端以及后端。

若干图像包括各路鱼眼相机拍摄的当前帧图像以及历史帧图像。当前帧图像为鱼眼相机在当前时刻拍摄的图像，历史帧图像为鱼眼相机在历史时刻拍摄的图像，历史时刻为当前时刻之前的时刻，比如历史时刻可以为当前时刻的上一时刻等。

S220、对当前帧图像以及历史帧图像进行特征提取，得到当前帧图像对应的第一特征图以及历史帧图像对应的第二特征图。

在一实施例中，对当前帧图像以及历史帧图像进行特征提取，得到当前帧图像对应的第一特征图以及历史帧图像对应的第二特征图，包括：通过特征提取网络对各路鱼眼相机在当前时刻拍摄的当前帧图像进行特征提取，得到各路鱼眼相机的当前帧图像分别对应的第一特征图；通过特征提取网络对各路鱼眼相机在历史时刻拍摄的历史帧图像进行特征提取，得到各路鱼眼相机的历史帧图像分别对应的第二特征图。

本实施例中，首先获取环视多路鱼眼相机在当前t时刻和历史t-n时刻拍摄的四路鱼眼图像，第m路鱼眼相机在当前t时刻以及历史t-n时刻拍摄的图像分别记为I_tm、I_tm-n。本实施例中n可以取值1，即前后相邻两帧。本实施例可以要求视频帧率不低于5FPS，使得帧率高于5帧，提高图像处理整体性能。

本实施例基于特征提取网络，可以将第m路鱼眼相机在当前t时刻以及历史t-n时刻拍摄的图像I_tm、I_tm-n一起送入到共享网络参数的特征提取网络中，batchsize可以设为4，以实现将同一时刻的多路鱼眼图像同时送入网络，然后获得多路鱼眼相机在当前t时刻和历史t-n时刻拍摄的多路鱼眼图像所分别对应的多路RGB图片经过特征提取后的特征图。其中，多路鱼眼相机在当前t时刻和历史t-n时刻拍摄的多路鱼眼图像拍摄时间差小于预设阈值，若有时间差，对于后续构建的BEV特征图中不同路重叠区域的同一目标的ID匹配会造成一定的干扰，影响最终的跟踪性能。因此本实施例在拍摄过程中可以使拍摄时间差小于预设阈值，从而使得不干扰同一目标的ID匹配，提高目标最终的跟踪性能。另外，本实施例图像数据采集时可以使用触发器同步曝光多路图像，从而减小时间差。

S230、根据第一特征图以及第二特征图获取BEV合并特征。

自动驾驶中的感知识别任务本质上是对物理世界的三维几何重建。随着自动驾驶汽车(SDV)装备传感器的多样性和数量越来越复杂，以统一的视角表示不同视角的特征变得至关重要。鸟瞰视图(BEV)是一种自然而直接的候选视图，可以作为统一的表示。与二维视觉领域中被广泛研究的前视图或透视视图相比，BEV表示具有一些内在的优点，首先，它不存在二维任务中普遍存在的遮挡和尺度问题。识别有遮挡或交叉交通的车辆可以得到更好的解决。此外，以这种形式表示物体或道路元素将有利于后续模块(如规划、控制)的开发和部署。

在一实施例中，根据第一特征图以及第二特征图获取BEV合并特征，包括：对第一特征图以及第二特征图分别进行体素变换，得到第一特征图对应的BEV特征以及第二特征图对应的BEV特征；将第一特征图对应的BEV特征以及第二特征图对应的BEV特征进行合并，得到BEV合并特征。

本实施例中，体素即体积元素(volumepixel)，包含体素的立体可以通过立体渲染或者提取给定阈值轮廓的多边形等值面表现出来。体素是数字数据于三维空间分割上的最小单位，体素用于三维成像、科学数据与医学影像等领域。概念上类似二维空间的最小单位：像素，像素用在二维计算机图像的影像数据上。

本实施例中，可以对第一特征图以及第二特征图分别进行体素变换，得到第一特征图对应的BEV特征以及第二特征图对应的BEV特征，即通过体素变换将深度图(第一特征图或第二特征图)变换到BEV特征；然后可以将第一特征图对应的BEV特征以及第二特征图对应的BEV特征进行合并，从而得到BEV合并特征。

在一实施例中，对第一特征图以及第二特征图分别进行体素变换，得到第一特征图对应的BEV特征以及第二特征图对应的BEV特征，包括：获取各路鱼眼相机的特征图，特征图为第一特征图或第二特征图；基于主干神经网络，将各路鱼眼相机的特征图输入主干神经网络，通过主干神经网络输出各路鱼眼相机对应的多组特征；将各路鱼眼相机对应的多组特征进行串联拼接，得到拼接特征；利用卷积神经网络对拼接特征进行体素投影，得到体素特征；将体素特征进行投影变换，得到投影变换后的第一BEV特征或第二BEV特征；第一BEV特征为第一特征图对应的BEV特征，第二BEV特征为第二特征图对应的BEV特征。

具体地，当特征图为第一特征图时，投影变换后的BEV特征为第一特征图对应的BEV特征；当特征图为第二特征图时，投影变换后的BEV特征为第二特征图对应的BEV特征。

在一实施例中，将第一特征图对应的BEV特征以及第二特征图对应的BEV特征进行合并，得到BEV合并特征，包括：获取多路鱼眼相机的定位信息；基于多路鱼眼相机的定位信息，将第二特征图对应的BEV特征和第一特征图对应的BEV特征对齐到相同坐标系下，并串联拼接成当前时刻拼接BEV特征；利用神经网络对当前时刻拼接BEV特征进行投影变换，生成对应的伪点云以及BEV合并特征。

具体地，如图2b所示，本实施例可以将多路(图中是4路)鱼眼相机拍摄的图像经过同一个主干神经网络(如resnet18/50/101等)后得到多组特征，将这些特征串联拼接(concatenation)到一起后经过一系列卷积神经网络进行投影，得到体素特征(即体素化，Voxelization)，如图2c所示，本实施例可以根据相机参数将体素特征进行投影变换，从而得到BEV特征，即通过投影变换将体素特征对应的深度图变换到三维世界BEV空间内的BEV特征。如2d所示，本实施例可以将历史BEV特征通过定位信息(如GPS、imu等)和当前时刻的BEV特征对齐到相同坐标系下，并串联拼接到一起(即时序建模，Temporal Modeling)，得到t时刻合并BEV(mergedBEVt)。随后将其继续用神经网络进行投影变化，生成对应的伪点云，以及最后的BEV合并特征。

S240、根据BEV合并特征进行目标跟踪检测，得到若干图像中目标的跟踪检测结果。

在一实施例中，根据BEV合并特征进行目标跟踪检测，得到若干图像中目标的跟踪检测结果，包括：基于第一视觉Transformer网络构成的检测头，根据BEV合并特征进行目标检测，得到若干图像中目标的检测结果，目标的跟踪检测结果包括但不限于：热图、3D包围框、航向角和/或置信度。

本实施例中，可以将步骤S230中得到的BEV合并特征图送到检测头和跟踪头进行检测和目标匹配。检测头与跟踪头在形式上一致，都是一组高维(如256维)的神经网络向量(embedding)，输入标准的视觉Transformer网络结构进行解码。只是两者的具体参数不同，需要通过数据来学习。与检测和跟踪完全分开进行的算法不同，本发明的跟踪部分是基于embedding而非基于检测结果(2d或3d框)，检测和跟踪放在了统一的框架下进行学习，而且都使用到了同一个BEV特征。对于检测头，通过解码可以得到检测结果，包括目标的3D包围框、航向角、置信度等。

在一实施例中，环视鱼眼多目标跟踪方法还包括：根据热图筛选出第一特征图对应的BEV特征中有目标中心的位置以及第二特征图对应的BEV特征中有目标中心的位置，得到筛选后的当前时刻BEV特征以及筛选后的历史时刻BEV特征；基于第二视觉Transformer网络构成的跟踪头，计算筛选后的当前时刻BEV特征以筛选后的历史时刻BEV特征之间的相似度，得到目标的相似度矩阵；根据目标的相似度矩阵进行二值匹配，得到当前帧图像与历史帧图像之间相互匹配的目标。

如图2e所示，本实施例中，在跟踪头进行目标匹配之前，可以使用检测头预测的热图Heatmap对BEV合并特征图进行筛选，即只对有明确目标中心的位置提取目标的特征embedding作为目标的外观特征。向跟踪头中输入得到的当前帧图像的目标embedding和缓存的历史帧图像的目标embedding，便可以输出两帧目标的相似度矩阵。

在一实施例中，根据目标的相似度矩阵进行二值匹配，得到当前帧图像与历史帧图像之间相互匹配的目标，包括：从相似度矩阵中选取若干个元素，若干个元素的行列坐标均不重复，目标的相似度矩阵的元素A_ij表示当前帧图像第i个目标和历史帧图像第j个目标的相似程度；获取若干个元素之和；当若干个元素之和最大时，根据若干个元素得到当前帧图像与历史帧图像之间相互匹配的目标。

在一实施例中，根据目标的相似度矩阵进行二值匹配，得到当前帧图像与历史帧图像之间相互匹配的目标，还包括：当当前帧图像中的第一目标与历史帧图像的第二目标相互匹配时，将当前帧图像中的第一目标的ID设置为历史帧图像的第二目标的ID；当当前帧图像中的第一目标与历史帧图像的第二目标不匹配时，对当前帧图像中的第一目标赋予新的ID。

本实施例中，跟踪头得到的相似度矩阵经过二值匹配即可得到最后的目标ID。对于二值匹配，本实施例采用带权重的匈牙利匹配算法(Kuhn-Munkres Algorithm，也称KM算法)完成。具体地，匈牙利算法该算法属于分配指派问题，数学语言简要描述如下：设矩阵A_kz表示第k个人在做第z项任务的效率。现在需要从矩阵中选取N个独立的元素，即所选元素的行列坐标均不重复，最终使得这些元素之和最大。在本发明的目标跟踪中，相似度矩阵代表了当前帧图像第i个目标和上一帧图像j个目标的相似程度，任务变成了则是计算当前帧第i个目标和上一帧第j个目标的分配指派，最后总的若干个元素之和最大时，相似度最高。对于匹配上的当前帧目标会和上一帧目标保持相同的ID，对于当前帧未匹配上的新出现的目标会赋予新的ID。

通过循环上述步骤，可以获得一个连续N帧时间序列下的多路鱼眼图像在BEV视觉下的跟踪结果，且统一在t时刻的世界坐标系中。最后进行可视化处理，便可以得到最后的跟踪结果。

现有技术中，目前的多目标跟踪研究中大多是基于主流的“Tracking-by-detection”框架的两阶段跟踪方案，先进行检测得到目标的检测框，然后对应扣取原图上的位置，送入单独设计的一个Reid网络进行外观特征的提取。这样将检测和跟踪任务分开单独进行，将任务解耦，在准确性和效率方面都存在局限性。同时，目前的工作主要集中于MOTChallenge、Kitti等几个公共数据集上的2D行人跟踪，而对自动驾驶中的主要参与者车辆研究较少，且场景数量及复杂度都存在一定局限性，性能有很大改善空间。此外，对于自动驾驶任务中广泛实际使用的环视鱼眼相机上的跟踪工作还极其少，且鱼眼相机由于存在严重的畸变，处理起来具有一定的挑战性，目前还缺乏性能较好的鱼眼跟踪多目标跟踪方法与系统。

本申请实现了一种基于BEV的端到端的环视鱼眼多目标跟踪方法，通过将目标的BEV合并特征embedding放入到网络中，和检测头一起训练学习，直接输出前后两帧之间不同目标间的相似度矩阵，实现了端到端的跟踪方案。相较于主流的基于“Tracking-by-detection”框架的两阶段跟踪方案，在准确性和效率方面取得了大幅的提升，更适合于性能要求较高的自动驾驶任务。同时，针对在自动驾驶任务中广泛实际使用的环视鱼眼相机由于存在严重畸变，处理难度大，跟踪相关研究工作较少等问题，本发明提供了一套值得参考和推广的环视鱼眼相机多目标跟踪方法与系统，具有较高的实际落地价值。

本申请提供的环视鱼眼多目标跟踪方法，能够基于多路鱼眼相机，获取若干图像；然后对当前帧图像以及历史帧图像进行特征提取，得到当前帧图像对应的第一特征图以及历史帧图像对应的第二特征图；再根据第一特征图以及第二特征图获取BEV合并特征；最后根据BEV合并特征进行目标跟踪检测，得到若干图像中目标的跟踪检测结果。本申请实现了一种基于BEV特征的端到端的环视鱼眼多目标跟踪方法，通过将目标的特征放入到网络中，和检测头一起训练学习，直接输出前后两帧之间不同目标间的相似度矩阵，实现了端到端的跟踪方案。相较于主流的基于“Tracking-by-detection”框架的两阶段跟踪方案，在准确性和效率方面取得了大幅的提升，更适合于性能要求较高的自动驾驶任务。同时，针对在自动驾驶任务中广泛实际使用的环视鱼眼相机由于存在严重畸变，处理难度大，跟踪相关研究工作较少等问题，本发明具有高的实际落地价值，有效地提升了多目标检测准确度的同时，提高了多目标检测效率，鲁棒性好。

本申请实施例的环视鱼眼多目标跟踪方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。

本申请实施例还提供一种环视鱼眼多目标跟踪装置，环视鱼眼多目标跟踪装置可以实现本申请的环视鱼眼多目标跟踪方法，但本申请的环视鱼眼多目标跟踪方法的实现装置包括但不限于本实施例列举的环视鱼眼多目标跟踪装置的结构，凡是根据本申请的原理所做的现有技术的结构变形和替换，都包括在本申请的保护范围内。

如图3所示，本申请还提供了一种环视鱼眼多目标跟踪装置，包括：图像获取模块310、特征提取模块320、BEV特征合并模块330、跟踪检测模块340。其中，图像获取模块310，被配置于基于多路鱼眼相机，获取若干图像，若干图像包括各路鱼眼相机拍摄的当前帧图像以及历史帧图像；特征提取模块320，被配置于对当前帧图像以及历史帧图像进行特征提取，得到当前帧图像对应的第一特征图以及历史帧图像对应的第二特征图；BEV特征合并模块330，被配置于根据第一特征图以及第二特征图获取BEV合并特征；跟踪检测模块340，被配置于根据BEV合并特征进行目标跟踪检测，得到若干图像中目标的跟踪检测结果。

在一实施例中，特征提取模块320包括特征提取子模块，特征提取子模块被配置于：通过特征提取网络对各路鱼眼相机在当前时刻拍摄的当前帧图像进行特征提取，得到各路鱼眼相机的当前帧图像分别对应的第一特征图；通过特征提取网络对各路鱼眼相机在历史时刻拍摄的历史帧图像进行特征提取，得到各路鱼眼相机的历史帧图像分别对应的第二特征图。

在一实施例中，BEV特征合并模块330包括特征合并子模块，特征合并子模块被配置于：对第一特征图以及第二特征图分别进行体素变换，得到第一特征图对应的BEV特征以及第二特征图对应的BEV特征；将第一特征图对应的BEV特征以及第二特征图对应的BEV特征进行合并，得到BEV合并特征。

在一实施例中，特征合并子模块包括体素变换模块，体素变换模块被配置于：获取各路鱼眼相机的特征图，特征图为第一特征图或第二特征图；基于主干神经网络，将各路鱼眼相机的特征图输入主干神经网络，通过主干神经网络输出各路鱼眼相机对应的多组特征；将各路鱼眼相机对应的多组特征进行串联拼接，得到拼接特征；利用卷积神经网络对拼接特征进行体素投影，得到体素特征；将体素特征进行投影变换，得到投影变换后的第一BEV特征或第二BEV特征，第一BEV特征为第一特征图对应的BEV特征，第二BEV特征为第二特征图对应的BEV特征。

在一实施例中，特征合并子模块包括第一合并模块，第一合并模块被配置于：获取多路鱼眼相机的定位信息；基于多路鱼眼相机的定位信息，将第二特征图对应的BEV特征和第一特征图对应的BEV特征对齐到相同坐标系下，并串联拼接成当前时刻拼接BEV特征；利用神经网络对当前时刻拼接BEV特征进行投影变换，生成BEV合并特征。

在一实施例中，跟踪检测模块340包括检测模块，检测模块被配置于：基于第一视觉Transformer网络构成的检测头，根据BEV合并特征进行目标检测，得到若干图像中目标的检测结果，目标的跟踪检测结果包括但不限于：热图、3D包围框、航向角和/或置信度。

在一实施例中，环视鱼眼多目标跟踪装置还包括跟踪模块，跟踪模块被配置于：根据热图筛选出第一特征图对应的BEV特征以及第二特征图对应的BEV特征中有目标中心的位置，得到筛选后的当前时刻BEV特征以及筛选后的历史时刻BEV特征；基于第二视觉Transformer网络构成的跟踪头，计算筛选后的当前时刻BEV特征以筛选后的历史时刻BEV特征之间的相似度，得到目标的相似度矩阵；根据目标的相似度矩阵进行二值匹配，得到当前帧图像与历史帧图像之间相互匹配的目标。

在一实施例中，跟踪模块包括二值匹配模块，二值匹配模块被配置于：从相似度矩阵中选取若干个元素，若干个元素的行列坐标均不重复，目标的相似度矩阵的元素A_ij表示当前帧图像第i个目标和历史帧图像第j个目标的相似程度；获取若干个元素之和；当若干个元素之和最大时，根据若干个元素得到当前帧图像与历史帧图像之间相互匹配的目标。

在一实施例中，跟踪模块包括ID匹配模块，ID匹配模块被配置于：当当前帧图像中的第一目标与历史帧图像的第二目标相互匹配时，将当前帧图像中的第一目标的ID设置为历史帧图像的第二目标的ID；当当前帧图像中的第一目标与历史帧图像的第二目标不匹配时，对当前帧图像中的第一目标赋予新的ID。

本申请实现了一种基于BEV特征的端到端的环视鱼眼多目标跟踪方法及装置，通过将目标的特征放入到网络中，和检测头一起训练学习，直接输出前后两帧之间不同目标间的相似度矩阵，实现了端到端的跟踪方案。相较于主流的基于“Tracking-by-detection”框架的两阶段跟踪方案，在准确性和效率方面取得了大幅的提升，更适合于性能要求较高的自动驾驶任务。同时，针对在自动驾驶任务中广泛实际使用的环视鱼眼相机由于存在严重畸变，处理难度大，跟踪相关研究工作较少等问题，本发明具有高的实际落地价值，有效地提升了多目标检测准确度的同时，提高了多目标检测效率，鲁棒性好。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本申请实现了一种基于BEV的端到端的环视鱼眼多目标跟踪方法及装置，通过将目标的BEV合并特征embedding放入到网络中，和检测头一起训练学习，直接输出前后两帧之间不同目标间的相似度矩阵，实现了端到端的跟踪方案。相较于主流的基于“Tracking-by-detection”框架的两阶段跟踪方案，在准确性和效率方面取得了大幅的提升，更适合于性能要求较高的自动驾驶任务。

同时，针对在自动驾驶任务中广泛实际使用的环视鱼眼相机由于存在严重畸变，处理难度大，跟踪相关研究工作较少等问题，本发明提供了一套值得参考和推广的环视鱼眼相机多目标跟踪方法与系统，具有较高的实际落地价值和社会经济价值。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置或方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，模块/单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或单元可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的，作为模块/单元显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例的目的。例如，在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中，也可以是各个模块/单元单独物理存在，也可以两个或两个以上模块/单元集成在一个模块/单元中。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例还提供一种电子设备，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑，等等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

在一些实施例中，本申请提供的环视鱼眼多目标跟踪装置还可以集成在多个电子设备中，比如，环视鱼眼多目标跟踪装置可以集成在多个服务器中，由多个服务器来实现本申请的环视鱼眼多目标跟踪方法。

在本实施例中，将以本实施例的电子设备是服务器为例进行详细描述，比如，如图4所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器410、一个或一个以上计算机可读存储介质的存储器420、电源430、输入模块440以及通信模块450等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器410是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。在一些实施例中，处理器410可包括一个或多个处理核心；在一些实施例中，处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。

存储器420可用于存储软件程序以及模块，处理器410通过运行存储在存储器420的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器420还可以包括存储器控制器，以提供处理器410对存储器420的访问。

服务器还包括给各个部件供电的电源430，在一些实施例中，电源430可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源430还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入模块440，该输入模块440可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括通信模块450，在一些实施例中通信模块450可以包括无线模块，服务器可以通过该通信模块450的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块450可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器410会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器420中，并由处理器410来运行存储在存储器420中的应用程序，从而实现环视鱼眼多目标跟踪装置的各种功能。

在一些实施例中，本申请还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成，的程序可以存储于计算机可读存储介质中，存储介质是非短暂性(non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(magnetictape)，软盘(floppy disk)，光盘(optical disc)及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本申请实施例还可以提供一种计算机程序产品，计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行计算机指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机或数据中心进行传输。

计算机程序产品被计算机执行时，计算机执行前述方法实施例的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种环视鱼眼多目标跟踪方法，其特征在于，所述方法包括：

基于多路鱼眼相机，获取若干图像，所述若干图像包括各路鱼眼相机拍摄的当前帧图像以及历史帧图像；

对所述当前帧图像以及所述历史帧图像进行特征提取，得到所述当前帧图像对应的第一特征图以及所述历史帧图像对应的第二特征图；

根据所述第一特征图以及所述第二特征图获取BEV合并特征；

根据所述BEV合并特征进行目标跟踪检测，得到所述若干图像中目标的跟踪检测结果。

2.根据权利要求1所述的方法，其特征在于，根据所述第一特征图以及所述第二特征图获取BEV合并特征，包括：

对所述第一特征图以及所述第二特征图分别进行体素变换，得到所述第一特征图对应的BEV特征以及所述第二特征图对应的BEV特征；

将所述第一特征图对应的BEV特征以及所述第二特征图对应的BEV特征进行合并，得到BEV合并特征。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一特征图以及所述第二特征图分别进行体素变换，得到第一特征图对应的BEV特征以及第二特征图对应的BEV特征，包括：

获取各路鱼眼相机的特征图，所述特征图为所述第一特征图或所述第二特征图；

基于主干神经网络，将所述各路鱼眼相机的特征图输入所述主干神经网络，通过所述主干神经网络输出所述各路鱼眼相机对应的多组特征；

将所述各路鱼眼相机对应的多组特征进行串联拼接，得到拼接特征；

利用卷积神经网络对所述拼接特征进行体素投影，得到体素特征；

将所述体素特征进行投影变换，得到投影变换后的第一BEV特征或第二BEV特征，所述第一BEV特征为第一特征图对应的BEV特征，所述第二BEV特征为第二特征图对应的BEV特征。

4.根据权利要求2或3所述的方法，其特征在于，所述将所述第一特征图对应的BEV特征以及所述第二特征图对应的BEV特征进行合并，得到BEV合并特征，包括：

获取所述多路鱼眼相机的定位信息；

基于所述多路鱼眼相机的定位信息，将所述第二特征图对应的BEV特征和第一特征图对应的BEV特征对齐到相同坐标系下，并串联拼接成当前时刻拼接BEV特征；

利用神经网络对所述当前时刻拼接BEV特征进行投影变换，生成BEV合并特征。

5.根据权利要求1所述的方法，其特征在于，所述根据所述BEV合并特征进行目标跟踪检测，得到所述若干图像中目标的跟踪检测结果，包括：

基于第一视觉Transformer网络构成的检测头，根据所述BEV合并特征进行目标检测，得到所述若干图像中目标的检测结果，所述目标的跟踪检测结果包括但不限于：热图、3D包围框、航向角和/或置信度。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据所述热图筛选出所述第一特征图对应的BEV特征中有目标中心的位置以及所述第二特征图对应的BEV特征中有目标中心的位置，得到筛选后的当前时刻BEV特征以及筛选后的历史时刻BEV特征；

基于第二视觉Transformer网络构成的跟踪头，计算所述筛选后的当前时刻BEV特征以所述筛选后的历史时刻BEV特征之间的相似度，得到所述目标的相似度矩阵；

根据所述目标的相似度矩阵进行二值匹配，得到所述当前帧图像与所述历史帧图像之间相互匹配的目标。

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标的相似度矩阵进行二值匹配，得到所述当前帧图像与所述历史帧图像之间相互匹配的目标，包括：

从所述相似度矩阵中选取若干个元素，所述若干个元素的行列坐标均不重复，所述目标的相似度矩阵的元素A_ij表示当前帧图像第i个目标和历史帧图像第j个目标的相似程度；

获取所述若干个元素之和；

当所述若干个元素之和最大时，根据所述若干个元素得到所述当前帧图像与所述历史帧图像之间相互匹配的目标。

8.根据权利要求7所述的方法，其特征在于，所述根据所述目标的相似度矩阵进行二值匹配，得到所述当前帧图像与所述历史帧图像之间相互匹配的目标，还包括：

当所述当前帧图像中的第一目标与所述历史帧图像的第二目标相互匹配时，将所述当前帧图像中的第一目标的ID设置为所述历史帧图像的第二目标的ID；

当所述当前帧图像中的第一目标与所述历史帧图像的第二目标不匹配时，对所述当前帧图像中的第一目标赋予新的ID。

9.一种环视鱼眼多目标跟踪装置，其特征在于，所述装置包括：

图像获取模块，用于基于多路鱼眼相机，获取若干图像，所述若干图像包括各路鱼眼相机拍摄的当前帧图像以及历史帧图像；

特征提取模块，用于对所述当前帧图像以及所述历史帧图像进行特征提取，得到所述当前帧图像对应的第一特征图以及所述历史帧图像对应的第二特征图；

BEV特征合并模块，用于根据所述第一特征图以及所述第二特征图获取BEV合并特征；

跟踪检测模块，用于根据所述BEV合并特征进行目标跟踪检测，得到所述若干图像中目标的跟踪检测结果。

10.一种电子设备，其特征在于，所述电子设备包括：

存储器，所述存储器存储有多条指令；

处理器，所述处理器从所述存储器中加载指令，以执行如权利要求1～8任一项所述的方法中的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被电子设备执行时实现权利要求1～8任一项所述的方法中的步骤。