CN114792414A

CN114792414A - 一种用于载体的目标变量检测方法及其系统

Info

Publication number: CN114792414A
Application number: CN202210346628.1A
Authority: CN
Inventors: 黄骏杰; 黄冠
Original assignee: Beijing Jianzhi Technology Co ltd
Current assignee: Beijing Jianzhi Technology Co ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-26

Abstract

本申请公开了一种用于载体的目标变量检测方法及其系统。所述方法包括：对输入的图像序列进行图像空间编码以得到在不同时刻的图像帧所对应的图像视角特征；对图像视角特征进行视角转换以得到鸟瞰视角特征；将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征进行融合得到融合后的鸟瞰视角特征；对融合后的鸟瞰视角特征进行鸟瞰视角空间特征编码以得到增强后的鸟瞰视角特征；以及基于增强后的鸟瞰视角特征进行目标变量检测。

Description

一种用于载体的目标变量检测方法及其系统

技术领域

本公开涉及一种图像序列处理方法，尤其涉及一种适用于载体的目标变量检测方法。

背景技术

自动驾驶的载具可以在无需人类驾驶员的情况下完全自主地操作。在一些场景中，自主驾驶的载具可以通过使用具有一个或多个光学相机的成像系统来对载具周围的环境进行成像。所述图像可用于目标感知，感知目标包括载具周围环境中的对象的速度等。

Huang J,Huang G,Zhu Z等人的文章BEVDet:High-performance Multi-camera3D Object Detection in Bird-Eye-View(鸟瞰视图中的高性能多摄像头3D对象检测)[J].arXiv preprint arXiv:2112.11790,2021记载了用于感知目标的一种图像处理方案。

如图1所示，在现有的方法中，其输入为图像，其处理过程为：通过图像空间编码器编码该图像得到图像视角特征，接下来使用视角变换将图像视角特征转换为鸟瞰视角特征，然后使用额外的特征编码器在鸟瞰视角上进行特征增强，最后使用目标变量检测模块进行目标变量检测。

本文中涉及的部分术语解释如下：

特征：其本质是一个或者多个变量，其可以存储一定的数值。该数值的定义和使用是由神经网络学习得到。比如在利用算法去判断一张相片上的团是否是一只猫的照片时，其中某个特征是一个数，范围为【0-1】。该数值的幅度被定义用于算法判断照片是否是猫的程度：0表示不是猫，1表示是猫，0.5表示算法觉得有50％的概率是猫。

特征增强：本质是通过神经网络计算得到一个新的特征，比如将上述问题中所提到的特征的值由0.5增强为0.8。此时判断图片是猫的相片的置信度由50％增强到80％。

其中图像空间编码器、鸟瞰视角空间编码器的特征编码器以及目标变量检测模块均为深度神经网络，利用人工标注数据和梯度反传训练使其具备上述功能。

鸟瞰视角：bird-eye-view，也可以简称为BEV。

BEV感知：将目标变量定义在地平面上的感知，一般以米为度量单位，区别于图像视角感知：图像视角感知的目标变量定义在图像平面中，以像素为度量单位。常见的BEV感知包括语义分割、目标检测等。

时序信息：连续多帧数据(如图像)内容之间的关系构成时序信息，但其没有利用时序进行BEV感知。

因此，对于目前方案来说，因其只利用当前帧数据(图像)作为检测的依据，缺乏时序信息，因此不能很好地检测目标的速度等变量。

发明内容

根据本公开的一方面，提供一种用于载体的目标变量检测方法，其可以包括：对输入的图像序列进行图像空间编码以得到在不同时刻的图像帧所对应的图像视角特征；对图像视角特征进行视角转换以得到鸟瞰视角特征；将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征进行融合得到融合后的鸟瞰视角特征；对融合后的鸟瞰视角特征进行鸟瞰视角空间特征编码以得到增强后的鸟瞰视角特征；以及基于增强后的鸟瞰视角特征进行目标变量检测。

在进一步的实施例中，该方法还包括：将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征进行对齐从而得到对齐后的鸟瞰视角特征，其中，所述对齐是基于载体从前一时刻到当前时刻的位移量来进行的，并且其中，所述融合包括将当前时刻的帧和前一时刻的帧的对齐后的鸟瞰视角特征进行融合从而得到融合后的鸟瞰视角特征。

在一个实施例中，对于对齐后的空间坐标中没有特征的情况，对该空间坐标进行自动特征补充。

在各种实施例中，自动特征补充的具体值包括以下至少一者：固定值、随机值、与其坐标位置最近邻的特征值。

在各种实施例中，融合的运算包括以下至少一者：将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征进行拼接、将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征相加以及将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征相减。

在各种实施例中，所述目标变量包括以下至少一者：目标的速度、位置、大小、朝向以及类别。

根据本公开的另一方面，提供了一种用于载体的进行目标变量检测的系统，该系统包括：图像空间编码模块，其被配置为对输入的图像序列进行编码以得到在各个不同时间点的图像视角特征；视角变换模块，其被配置为将图像视角特征转换为鸟瞰视角特征；融合模块，其被配置为将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征进行融合得到融合后的鸟瞰视角特征；鸟瞰视角特征BEV空间特征编码模块，其被配置为对融合后的鸟瞰视角特征进行鸟瞰视角空间特征编码以得到增强后的鸟瞰视角特征；以及目标变量检测模块，其被配置为基于增强后的鸟瞰视角特征进行目标变量检测。

在进一步的实施例中，所述系统还包括：对齐模块，所述对齐模块被配置为将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征进行对齐从而得到对齐后的鸟瞰视角特征，并且其中，所述对齐是基于载体从前一时刻到当前时刻的位移量来进行的，并且其中，所述融合模块进一步配置为将当前时刻的帧和前一时刻的帧的对齐后的鸟瞰视角特征进行融合从而得到融合后的鸟瞰视角特征。

在一个实施例中，融合模块被实现为深度神经网络。

在一个实施例中，对齐模块被实现为深度神经网络。

在各种实施例中，所述载体包括以下至少一者：车、人、飞行器以及机器人。

在一个实施例中，所述图像序列由被设置在载体中的成像系统获取。

在另一个实施例中，所述图像序列由独立于载体设置的成像系统获取。

附图说明

图1是示出根据现有技术的目标变量检测的方法示意图；

图2示出了根据本公开实施例的目标变量检测的方法示意图；

图3示出了根据本公开实施例的增加对齐步骤的目标变量检测的方法示意图；

图4示出了在特征图处理时采用拼接操作的示意图；以及

图5示出了在特征图处理时采用拼接和对齐操作两者的示意图；以及

图6示出了根据本公开实施例的简要方法示意图；

图7示出了根据本公开实施例的对齐操作的示意图；

图8示出了根据本公开实施例的系统框架示意图；

具体实施方式

本文描述了示例方法和系统。本文描述为是“示例”、是“示范性”或者是“例示性”的任何实现方式或特征不一定要被解释为比其他实现方式或特征更优选或有利。本文描述的示例实现方式不欲进行限定。容易理解，本文概括描述并且在附图中图示的本公开的各方面可按许多种不同的配置来布置、替换、组合、分离和设计，所有这些在这里都明确地设想到了。

另外，附图中示出的特定布置不应当被视为限制性的。应当理解，其他实现方式可包括更多或更少的给定附图中所示的每种元素。另外，一些图示的元素可被组合或省略。此外，示例实现方式可包括附图中没有图示的元素。

在目前图像处理方法中，因为使用当前帧数据进行感知缺乏时序信息，因此并不能很好地检测这些目标变量。本公开要解决的技术问题之一为如何利用相邻帧的数据，构建具有时序信息的特征，对目标的速度等变量进行有效检测。

本公开通过在现有方案基础上，利用前一帧数据和当前帧数据同时作为检测的依据，并基于检测结果进行预测推理，可有效提高判断和预测目标速度的能力。其中预测推理的算法是利用深度神经网络搭建并使用人工标注数据进行训练得到。

具体地，本公开的原理如图2所示。区别于现有的方案，本公开在基于当前帧(在T时刻的帧)数据检测目标时，同时利用了上一帧(在T-1时刻的帧)的中间特征，将两个相邻帧的特征进行融合(例如拼接)后得到的特征值使得目标变量检测更为准确。在进一步的实施例中，还可以通过对齐(Align)和融合(例如拼接(Concatenate))得到的特征替代原有特征作为后续预测的基础，如图3所示。

其中对齐操作为优先实施例，不对齐也可以融合。本公开的一个优选实施例为在特征处理中引入对齐操作。其原因在于：特征图的感受野(感受野的含义为特征在空间中的范围，或者感兴趣的区域)为载体自身(在图4和图5中，图中标记为O_e)周围一定范围内的区域，该感受野会随着载体的运动而改变，这会导致同一目标(在图4和图5中，静态目标被标记为O_s，动态目标被标记为O_m)在特征图中的位置不同。融合不对齐的特征图会因为目标位置偏差等问题，导致感知效果变差，具体地，如图4所示，在将T-1时间点和T时间点两个时间点的帧特征进行拼接(在图中简化标记为“C”)融合之后，静止目标O_s可能被识别为移动目标，而动态目标O_m可能被识别为在T-1时间点和T时间点期间具有更大的位移量。根据载体的平移量，平移特征图可达到对齐(在图中简化标记为“A”)的效果，融合对齐的特征图可起到特征增强的作用，有效提高感知的效果。例如，如图5所示，在融合对齐的特征图的结果中，可以看到静止目标O_s处于静止，而动态目标O_m被识别的在T-1时间点和T时间点期间的位移量也可能更接近真实值。

其中融合操作可涉及多种特征值计算方式，包括但不限于将相邻两个图像帧的特征数值相加，将相邻两个图像帧的特征拼接，将相邻两个图像帧的特征数值相减等，具体地，可以将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征进行拼接、相加、相减等各种运算。

根据本公开的一种方法包括如下步骤：

如图6所示，在步骤1中，利用载体中的成像系统拍摄图像序列，该图像序列包括在多个不同时刻(例如T-1时间点，T时间点和T+1时间点)的图像帧序列，并将所拍摄的图像序列输入到图像空间编码模块中。在各种实施例中，所述载体可以是车、人、飞行器或者机器人等。在可替换实施例中，所述成像系统也可以是独立于载体设置的成像系统，在这种情况下，成像系统可以是固定的，也可以是移动的。

在步骤2中，利用图像空间编码模块编码图像序列以得到在不同时刻的图像帧所对应的图像视角特征。

在步骤3中，使用视角变换模块将图像视角特征转换为鸟瞰视角特征。

在可选的步骤4中，将当前帧(T)的鸟瞰视角特征与前一帧(T-1)的鸟瞰视角特征进行对齐从而得到对齐后的鸟瞰视角特征。在一个实施例中，所述对齐是基于载体在拍摄相邻图像帧期间的位移量(例如载体从前一时刻(例如，T-1时间点)到当前时刻(例如，T时间点)的位移量)来进行的。在进一步的实施例中，所述位移量可基于载体的移动速度来确定。在一个实施例中，当载体的位移量为0时，可省略对齐操作。

如上所述，融合的特征图不对齐会因为目标位置歧义等问题，导致感知效果变差。根据载体的平移量，平移特征图可达到对齐的效果，融合对齐的特征图可起到特征增强的作用，有效提高感知的效果。

不失一般性地以空间维度为一的特征为例子对对齐过程进行说明，参考图7所述，假设当前帧(T)的鸟瞰视角特征是一个一维特征，表示为【a,b,c,d,e】，每一个特征值在图像帧中所处的一维空间坐标分别为【1,2,3,4,5】米，前一帧(T-1)对应的特征的特征值假设为【f,g,h,i,j】,由于拍摄系统的载体的运动(假设载体在拍摄前一帧即T-1的时刻到拍摄当前帧T的时刻之间向左移动一米)，那么T-1时刻的该特征在一维空间的坐标为【2,3,4,5,6】，对齐操作为以当前帧(T)的鸟瞰视角特征在一维空间的坐标(【1,2,3,4,5】)作为索引，在前一帧(T-1)的特征中找相同位置的特征：例如，当前帧在一维空间的坐标【1,2,3,4,5】，通过对齐，找到在前一帧中对应位置(坐标【1,2,3,4,5】)的特征为【0,f,g,h,i】，其中0值是因为在T-1帧中空间坐标为1的地方没有特征，因此进行自动特征补充，具体补充值可为多种，可为固定值，也可以是随机值，也可以是与其坐标位置最近邻的值(f)。

在步骤5中，将当前帧(T)的鸟瞰视角特征与前一帧(T-1)的鸟瞰视角特征进行融合得到融合后的鸟瞰视角特征。

通过在现有方案基础上，利用前一帧数据和当前帧数据同时作为检测的依据，并进一步基于检测进行预测推理，可有效提高判断和预测目标速度的能力。

在一个实施例中，在采用上述对齐步骤的情况下，假设当前帧(在T时刻拍摄的帧)在坐标【1,2,3,4,5】的特征为【a,b,c,d,e】，前一帧(在T-1时刻拍摄的帧，与在T时刻拍摄的帧相邻)在相同位置处的特征经对齐后为【0,f,g,h,i】，如图7所示。在一个具体实施例中，融合采用拼接方式，具体地，在坐标【1,2,3,4,5】处的拼接后的特征可以为【a,b,c,d,e,0,f,g,h,i】。注意，在其它实施方式中，融合可以包括将相邻两个图像帧的鸟瞰视角特征相加(在上述示例中，当前帧(T)和前一帧(T-1)的鸟瞰视角特征的融合结果为【a,b+f,c+g,d+h,e+i】)，将当前帧(T)的鸟瞰视角特征与前一帧(T-1)的鸟瞰视角特征相减(在上述示例中，当前帧(T)和前一帧(T-1)的鸟瞰视角特征的融合结果为【a,b-f,c-g,d-h,e-i】)等等。

在另一个实施例中，在不采用上述对齐步骤的情况下，假设当前帧(在T时刻拍摄的帧)在坐标【1,2,3,4,5】的特征为【a,b,c,d,e】，前一帧(在T-1时刻拍摄的帧，与在T时刻拍摄的帧相邻)的相同特征的特征值假设为【f,g,h,i,j】，因此，在坐标【1,2,3,4,5】处的拼接后的特征可以为【a,b,c,d,e,f,g,h,i,j】。注意，在其它实施方式中，融合可以包括将当前帧(T)的鸟瞰视角特征与前一帧(T-1)的鸟瞰视角特征相加(在上述示例中，当前帧(T)和前一帧(T-1)的鸟瞰视角特征的融合结果为【a+f,b+g,c+h,d+i,e+j】)，将当前帧(T)的鸟瞰视角特征与前一帧(T-1)的鸟瞰视角特征相减(在上述示例中，当前帧(T)和前一帧(T-1)的鸟瞰视角特征的融合结果为【a-f,b-g,c-h,d-i,e-j】)等等。

在步骤6中，使用BEV空间特征编码模块对融合后的鸟瞰视角特征进行特征增强。在一个实施例中，BEV空间特征编码模块可以实现为深度神经网络。

在步骤7中，使用目标变量检测模块基于步骤6中的输出即特征增强结果进行目标变量检测，其中所述变量可以包括以下中的至少一者速度、位置、大小、朝向以及类别等等。在一个实施例中，目标变量检测模块可以实现为深度神经网络。

在更具体的实施例中，图像视角空间编码模块，视角变换模块，BEV空间编码模块，目标变量检测模块均可以实现为深度神经网络，利用人工标注数据和梯度反传使其具备对应的功能。其中上述模块的深度神经网络的设计不限于某种特定设计，可为任何形式的设计。

在一个具体实施例中，所述载体是A车辆，所述成像系统是A车辆的车载双目相机，而B车辆是感兴趣目标。当A车辆处于运行中时，A车辆的车载双目相机采集图像，采集图像中的B车辆处于运动状态，可对在T时刻获取的帧图像和T-1时刻获取的帧图像进行融合，经过本公开的方法最终得出的结果是B车辆运行方向以及速度等数据，进而能够有效且准确的判断B车的状态。该实施例中的相机可以为单目、双目或环视相机等能够实现图像采集功能的相机均可。根据本公开的方法在飞行器以及运动相机等产品中的应用也是本领域技术人员可预想到的。

在另一个具体实施例中，为简化描述，以现在较为常见的餐厅内能够实现送菜功能的机器人为例，即所述载体是能够实现送菜功能的机器人，所述成像系统是目标机器人上的摄像头，目标机器人上的摄像头采集图像，目标可以是目标机器人前方的某一区域，通过对在T时刻获取的帧图像和T-1时刻获取的帧图像进行融合并基于融合后的结果进行目标变量检测，能够更为准确地判断摄像头采集图像区域内的具体情况。

如图8所示，根据本公开的一种系统可以包括如下模块：图像空间编码模块、视角变换模块、融合模块、BEV空间特征编码模块、目标变量检测模块。在优选的实施例中，所述系统可以包括可选的对齐模块。

在更具体的实施例中，图像空间编码模块可以被配置为对输入的图像序列进行编码以得到在各个不同时间点的图像视角特征。视角变换模块可以被配置为将图像视角特征转换为鸟瞰视角特征。融合模块可以被配置为将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征进行融合得到融合后的鸟瞰视角特征。鸟瞰视角特征BEV空间特征编码模块可以被配置为对融合后的鸟瞰视角特征进行鸟瞰视角空间特征编码以得到编码后的鸟瞰视角特征。目标变量检测模块可以被配置为基于编码后的鸟瞰视角特征进行目标变量检测。

根据本公开的方法和系统可利用多帧信息提高感知能力。将根据本公开的系统和方法应用于自动驾驶领域(即上述载体具体实现为自动驾驶的载具)可带来的有益效果至少包括以下几个方面：一方面提高对自动驾驶载具对于目标的检测效果，如目标短时间内被部分或者完全遮挡时可参考相邻帧的信息进行检测判断。另外一方面可通过对比相邻两帧特征的位置差异，完成自动驾驶载具对于运动目标的变量估计，其中所述变量可以包括速度、位置、尺寸、类别等等。

本说明书中描述的主题的实施例和功能操作可以在数字电子电路中、在有形地实现的计算机软件或固件中、在计算机硬件(包括本说明书中公开的结构以及其结构等效物)中或在它们中的一个或多个的组合中实现。本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序，即编码在有形非暂时性存储介质上以供数据处理装置执行或控制数据处理装置的操作的计算机程序指令的一个或多个模块。计算机存储介质可以是机器可读存储设备、机器可读存储基片、随机或串行存取存储器设备或它们中的一个或多个的组合。可替代地或额外地，程序指令可以编码在人工生成的传播的信号(例如，机器生成的电、光或电磁信号)上，该信号被生成为编码信息以传输到合适的接收器装置以供数据处理装置执行。

术语“数据处理装置”指数据处理硬件并且涵盖用于处理数据的所有种类的装置、设备和机器，举例来说，包括可编程处理器、计算机或多个处理器或计算机。该装置还可以是或者进一步包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序(其也可以被称为或被描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码)可以以任何形式的编程语言编写，包括编译或解释性语言、或者声明性或过程语言；并且计算机程序可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或其他适于在计算环境中使用的单元。程序可以但不必与文件系统中的文件对应。程序可以存储在保持其他程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中、在专用于所针对的单个文件中或在多个协作的文件(例如，存储一个或多个模块、子程序或代码的一些部分的文件)中。计算机程序可以部署为在一个或多个计算机上执行，所述多个计算机位于一个站点或跨多个站点分布并通过数据通信网络互连。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，从而通过对输入数据进行操作并生成输出来执行功能。所述过程和逻辑流程也可以由专用逻辑电路(例如FPGA或ASIC)执行，或者由专用逻辑电路和一个或多个经编程计算机的组合来执行。

适用于执行计算机程序的计算机可以基于通用或专用微处理器或二者，或者任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或二者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路来补充或可以结合到其中。一般来说，计算机也将包括用于存储数据的一个或多个大容量存储设备(例如、磁盘、磁光盘或光盘)或可操作地耦合一个或多个大容量存储设备以从其接收数据或将数据传送到其处或者接收和传送二者。然而，计算机不必具有这样的设备。另外，计算机可以嵌入到另一设备(例如，仅举几个示例，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如通用串行总线(USB)快闪驱动器))中。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，举例来说，包括半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。

尽管本说明书包含许多具体的实现细节，但是这些细节不应当被解释为对任何发明的范围或对可能请求保护的范围进行限制，而应该被解释为可能特定于特定发明的特定实施例的特征的描述。在本说明书中在分开的实施例的背景下描述的某些特征也可以以组合方式实现在单个实施例中。相反，在单个实施例的背景下描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合实施。此外，尽管特征可以如上所述描述为以某些组合起作用并且甚至最初也这样地请求保护，但在一些情况下，来自所请求保护的组合的一个或多个特征可以从组合中删除，并且所请求保护的组合可以指向子组合或子组合的变体。

类似地，尽管在附图中以特定顺序描绘了操作并且在权利要求中以特定顺序记载了操作，但是这不应当被理解为要求以示出的特定顺序或以相继的顺序来执行这样的操作或者要求执行所有示意的操作来实现期望的结果。在一些情况下，多任务和并行处理可能是有利的。另外，在上述实施例中各种系统模块和组件的分离不应当被理解为在所有实施例中要求这样的分离，而是应当要理解，所描述的程序组件和系统可一般地在单个软件产品中被集成在一起或者被封装成多个软件产品。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，记载在权利要求中的动作可以以不同的顺序执行而仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定要求所示出的特定顺序或者相继的顺序来实现期望的结果。在一些情况下，多任务和并行处理可能是有利的。

Claims

1.一种用于载体的目标变量检测方法，其包括：

对输入的图像序列进行图像空间编码以得到在不同时刻的图像帧所对应的图像视角特征；

对图像视角特征进行视角转换以得到鸟瞰视角特征；

将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征进行融合得到融合后的鸟瞰视角特征；

对融合后的鸟瞰视角特征进行鸟瞰视角空间特征编码以得到增强后的鸟瞰视角特征；以及

基于增强后的鸟瞰视角特征进行目标变量检测。

2.如权利要求1所述的方法，所述方法还包括：将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征进行对齐从而得到对齐后的鸟瞰视角特征，其中，所述对齐是基于载体从前一时刻到当前时刻的位移量来进行的，并且

其中，所述融合包括将当前时刻的帧和前一时刻的帧的对齐后的鸟瞰视角特征进行融合从而得到融合后的鸟瞰视角特征。

3.如权利要求2所述的方法，其中，对于对齐后的空间坐标中没有特征的情况，对该空间坐标进行自动特征补充。

4.如权利要求3所述的方法，其中自动特征补充的具体值包括以下至少一者：固定值、随机值、与其坐标位置最近邻的特征值。

5.如权利要求1至4中的任一项所述的方法，其中，融合的运算包括以下至少一者：将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征进行拼接、将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征相加以及将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征相减。

6.如权利要求1至5中的任一项所述的方法，其中，所述目标变量包括以下至少一者：目标的速度、位置、大小、朝向以及类别。

7.一种用于载体的进行目标变量检测的系统，包括：

图像空间编码模块，其被配置为对输入的图像序列进行编码以得到在各个不同时间点的图像视角特征；

视角变换模块，其被配置为将图像视角特征转换为鸟瞰视角特征；

融合模块，其被配置为将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征进行融合得到融合后的鸟瞰视角特征；

鸟瞰视角特征BEV空间特征编码模块，其被配置为对融合后的鸟瞰视角特征进行鸟瞰视角空间特征编码以得到增强后的鸟瞰视角特征；以及

目标变量检测模块，其被配置为基于增强后的鸟瞰视角特征进行目标变量检测。

8.如权利要求7所述的系统，所述系统还包括：对齐模块，所述对齐模块被配置为将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征进行对齐从而得到对齐后的鸟瞰视角特征，并且其中，所述对齐是基于载体从前一时刻到当前时刻的位移量来进行的，并且

其中，所述融合模块进一步配置为将当前时刻的帧和前一时刻的帧的对齐后的鸟瞰视角特征进行融合从而得到融合后的鸟瞰视角特征。

9.如权利要求8所述的系统，其中，对于对齐后的空间坐标中没有特征的情况，对该空间坐标进行自动特征补充。

10.如权利要求9所述的系统，其中自动特征补充的具体值包括以下至少一者：固定值、随机值、与其坐标位置最近邻的特征值。

11.如权利要求7至10中的任一项所述的系统，其中，融合的运算包括以下至少一者：将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征进行拼接、将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征相加以及将当前时刻的帧的鸟瞰视角特征与前一时刻的帧的鸟瞰视角特征相减。

12.如权利要求7至10中的任一项所述的系统，其中，所述目标变量包括以下至少一者：目标的速度、位置、大小、朝向以及类别。

13.如权利要求7至12中的任一项所述的系统，其中，融合模块被实现为深度神经网络。

14.如权利要求8至13中的任一项所述的系统，其中，对齐模块被实现为深度神经网络。

15.如权利要求1至6中的任一项所述的方法或如权利要求7至14所述的系统，其中，所述载体包括以下至少一者：车、人、飞行器以及机器人。

16.如权利要求15的方法或系统，其中，所述图像序列由被设置在载体中的成像系统获取。

17.如权利要求15的方法或系统，其中，所述图像序列由独立于载体设置的成像系统获取。