CN116740669B

CN116740669B - 多目图像检测方法、装置、计算机设备和存储介质

Info

Publication number: CN116740669B
Application number: CN202311029638.3A
Authority: CN
Inventors: 马也驰; 华炜; 位硕权; 鲍虎军
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-11-14
Anticipated expiration: 2043-08-16
Also published as: CN116740669A

Abstract

本申请提供了一种多目图像检测方法、装置、计算机设备和存储介质，所述方法包括：获取当前时间点的多个第一待检测图像以及对应的第一位置，多个所述第一待检测图像基于多目相机生成；基于多个所述第一待检测图像，获取对应的第一体素化图像特征；基于所述第一位置以及第二位置对所述第一体素化图像特征以及第二体素化图像特征进行融合，得到时序融合特征，所述第二位置以及所述第二体素化图像特征基于历史时间点确定；基于所述时序融合特征，获取目标对象的识别结果。通过本申请，解决了相关技术中存在的基于多目相机的图像检测精度较低的技术问题，并且运算量较小，在几乎不增加运算消耗的前提下提高了图像的检测精度。

Description

多目图像检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种多目图像检测方法、装置、计算机设备和存储介质。

背景技术

智能驾驶技术是未来汽车产业的重要发展方向之一。在现有的智能驾驶技术中，感知技术作为智能驾驶技术的核心部分，可以帮助汽车识别周围环境、道路状况和障碍物等，为智能驾驶提供重要的信息支持。当前，智能驾驶感知的主要传感器包括摄像头、激光雷达、超声波探测器等多种传感器。在传统的单目图像感知技术中，由于图像中缺乏深度信息，对于距离估计、障碍物检测和场景理解等任务存在一定的局限性。

在相关技术中，一般采取多目图像技术，通过多个摄像头获取图像数据从而得到更加准确完整的场景信息和目标深度信息，进而更好地支持智能驾驶的感知和决策。但是，相关技术中在进行多目图像检测的过程中，往往只考虑到了多目相机采集到的图像特征，进而基于体素化的图像特征对目标进行识别，没有充分利用各种信息进行优化，使得特征的表达不够丰富和全面。因此，相关技术中基于多目相机的图像检测精度较低。

针对相关技术中存在的基于多目相机的图像检测精度较低的技术问题，目前还没有提出有效的解决方案。

发明内容

基于此，本申请提供了一种多目图像检测方法、装置、计算机设备和存储介质，以解决相关技术中存在的基于多目相机的图像检测精度较低的技术问题。

第一个方面，本申请提供了一种多目图像检测方法，所述方法包括：

获取当前时间点的多个第一待检测图像以及对应的第一位置，多个所述第一待检测图像基于多目相机生成；

基于多个所述第一待检测图像，获取对应的第一体素化图像特征；

基于所述第一位置以及第二位置对所述第一体素化图像特征以及第二体素化图像特征进行融合，得到时序融合特征，所述第二位置以及所述第二体素化图像特征基于历史时间点确定；

基于所述时序融合特征，获取目标对象的识别结果。

在其中的一些实施例中，所述基于所述第一位置以及第二位置对所述第一体素化图像特征以及第二体素化图像特征进行融合，得到时序融合特征包括：

基于所述第一位置以及所述第二位置，将所述第一体素化图像特征的特征位置转换至所述历史时间点对应的预设体素空间中，并基于转换结果对所述第二体素化图像特征进行插值采样；

对所述第一体素化图像特征与插值采样后的第二体素化图像特征进行特征拼接，得到所述时序融合特征；

在其中的一些实施例中，所述得到时序融合特征之后还包括：

对所述时序融合特征进行尺度变换，得到二维融合特征；

基于预设偏移量对所述二维融合特征进行不同方向的采样，得到偏移采样后的二维融合特征，所述偏移量包含三个互相垂直的方向的偏移量；

基于预设注意力权重对所述偏移采样后的二维融合特征的不同方向分量进行加权处理，得到加权处理后的二维融合特征；

对所述加权处理后的二维融合特征进行尺度恢复，得到经转换的时序融合特征。

在其中的一些实施例中，所述基于多个所述第一待检测图像，获取对应的第一体素化图像特征包括：

对多个所述第一待检测图像进行特征提取，得到对应的多个第一二维图像特征；

对多个所述第一二维图像特征进行体素化采样，得到当前时间点对应的预设体素空间下的第一体素化采样特征；

对所述第一体素化采样特征进行特征提取，得到所述第一体素化图像特征。

在其中的一些实施例中，所述对所述第一体素化采样特征进行特征提取，得到所述第一体素化图像特征包括：

将所述第一体素化采样特征的第一维度以及第二维度压缩至同一维度，得到压缩化第一采样特征；

基于二维卷积核对所述压缩化第一采样特征进行特征提取，得到压缩化第一图像特征；

对所述压缩化第一图像特征的所述第一维度以及第二维度进行维度恢复，得到所述第一体素化图像特征。

在其中的一些实施例中，所述基于所述时序融合特征，获取目标对象的识别结果包括：

基于二维卷积核对所述时序融合特征进行特征提取，得到鸟瞰图特征；

基于所述鸟瞰图特征，获取所述目标对象的识别结果。

在其中的一些实施例中，所述方法还包括：

获取初始多目图像检测模型，所述初始多目图像检测模型用于执行所述多目图像检测方法；

将多个样本图像以及与所述样本图像同步的样本点云数据输入至所述初始多目图像检测模型，所述样本图像基于多目相机数据集确定；

基于所述初始多目图像检测模型提取多个所述样本图像的样本体素化图像特征，所述样本体素化图像特征以及所述样本体素化点云特征基于同一样本体素空间确定；

基于第一损失函数对所述初始多目图像检测模型进行训练，所述第一损失函数基于所述样本体素化图像特征以及样本体素化点云特征确定，所述样本体素化点云特征基于所述样本点云数据获取。

在其中的一些实施例中，所述样本体素化点云特征的获取过程包括：

基于点云采集设备的外参，对所述样本点云数据进行体素化采样，得到样本体素化点云数据；

对所述样本体素化点云数据进行特征提取，得到所述样本体素化点云特征。

在其中的一些实施例中，所述方法还包括：

将多个样本图像输入至所述初始多目图像检测模型，得到样本中心点坐标，所述样本图像基于多目相机数据集确定；

基于所述样本中心坐标确定样本椭圆特征图，并基于所述样本椭圆特征图以及标签椭圆特征图之间的距离确定第二损失函数，所述标签椭圆特征图基于样本图像的标签中心点坐标确定；

基于所述第二损失函数对所述初始多目图像检测模型进行训练。

在其中的一些实施例中，所述样本椭圆特征图的确定过程包括：

基于所述样本中心点坐标，确定所述样本椭圆特征图的长轴以及短轴；

设置所述样本中心点对应的特征值为第一真值，以及所述样本椭圆特征图边界对应的特征值为第二真值，并基于高斯分布确定所述样本椭圆特征图内部的特征值，得到所述样本椭圆特征图。

第二个方面，本申请提供了一种多目图像检测装置，所述装置包括：

图像获取模块，用于获取当前时间点的多个第一待检测图像以及对应的第一位置，多个所述第一待检测图像基于多目相机生成；

特征提取模块，用于基于多个所述第一待检测图像，获取对应的第一体素化图像特征；

特征融合模块，用于基于所述第一位置以及第二位置对所述第一体素化图像特征以及第二体素化图像特征进行融合，得到时序融合特征，所述第二位置以及所述第二体素化图像特征基于历史时间点确定；

目标识别模块，用于基于所述时序融合特征，获取目标对象的识别结果。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

基于所述时序融合特征，获取目标对象的识别结果。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

基于所述时序融合特征，获取目标对象的识别结果。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

基于所述时序融合特征，获取目标对象的识别结果。

本申请提供了一种多目图像检测方法、装置、计算机设备和存储介质，所述方法包括：获取当前时间点的多个第一待检测图像以及对应的第一位置，多个所述第一待检测图像基于多目相机生成；基于多个所述第一待检测图像，获取对应的第一体素化图像特征；基于所述第一位置以及第二位置对所述第一体素化图像特征以及第二体素化图像特征进行融合，得到时序融合特征，所述第二位置以及所述第二体素化图像特征基于历史时间点确定；基于所述时序融合特征，获取目标对象的识别结果。通过获取不同时间点的采集图像的图像特征，并基于不同时间点对应的位置点的偏差对上述图像特征进行融合，得到融合不同时序的图像特征的时序融合特征，进而基于该时序融合特征进行识别得到识别结果，解决了相关技术中存在的基于多目相机的图像检测精度较低的技术问题，并且运算量较小，在几乎不增加运算消耗的前提下提高了图像的检测精度。

附图说明

图1是本申请一实施例的多目图像检测方法的应用环境图；

图2是本申请一实施例的多目图像检测方法的流程示意图；

图3是本申请另一实施例的多目图像检测方法的流程示意图；

图4是本申请一实施例的多目图像检测模型的训练流程示意图；

图5是本申请一实施例的多目图像检测装置的结构框图；

图6是本申请一实施例的计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的多目图像检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过通信网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。其中，终端102可以设置为驾驶场景中的车载辅助系统，包括相机、雷达等各种传感设备以及车载电子控制单元等各种信息处理设备。终端102与服务器104之间通过通信网络进行各类行车数据、环境数据、运算数据等数据的交互。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

请参阅图2，图2是本申请一实施例的多目图像检测方法的流程示意图。

在一个实施例中，如图2所示，多目图像检测方法包括：

S202：获取当前时间点的多个第一待检测图像以及对应的第一位置，多个第一待检测图像基于多目相机生成。

具体的，通过多目相机采集当前时间点的多个图像作为第一待检测图像，以及当前时间点的多目相机的位置作为第一位置。可以理解的，通过对多目相机进行不同方位的布置，可以获取不同方位的传感图像，进而得到当前空间的三维信息。

S204：基于多个第一待检测图像，获取对应的第一体素化图像特征。

具体的，分别对多个第一待检测图像进行图像特征提取，并映射到预先设置的体素空间，从而得到当前时间点对应的第一体素化图像特征。本实施例中对提取第一待检测图像的图像特征的方式不做限制。

示例性地，上述第一体素化图像特征基于对应的体素空间确定。例如，在驾驶场景中，以自车中心为原点，初始化体素空间，设置X、Y、Z轴的取值范围分别是[-7米, 70.6米]，[-30.4米, 30.4米],[-3米, 1米]，体素大小为[0.2米，0.2米，0.2米]，则得到对应的体素空间的大小为20×304×388。

S206：基于第一位置以及第二位置对第一体素化图像特征以及第二体素化图像特征进行融合，得到时序融合特征，第二位置以及第二体素化图像特征基于历史时间点确定。

其中，本实施例中的系统中还保存有历史时间点对应的第二位置以及第二体素化图像特征，其中第二位置即为多目相机在历史时间点采集图像时的位置，第二体素化图像特征即为在历史时间点采集的图像的体素化图像特征。优选的，本实施例中历史时间点为上一帧图像对应的时间点。

具体的，基于第一位置以及第二位置，确定当前时间点与历史时间点的位置偏差，在对第一体素化图像特征以及第二体素化图像特征进行特征融合的过程中，通过上述位置偏差对特征点的位置进行校正，从而得到时序融合特征。可以理解的，时序融合特征中包含了不同时间点采集的体素化图像特征。

S208：基于时序融合特征，获取目标对象的识别结果。

具体的，获取时序融合特征之后，基于该时序融合特征获取目标对象的识别结果。

示例性地，示例性地，本实施例中目标对象的识别结果包括但不限于：目标个数；目标三维信息的特征长度，包括目标中心点坐标、目标的长宽高、目标的航向角；目标的类别，包括：车辆、行人、骑行的人；目标的置信度分数。

本实施例中通过获取不同时间点的采集图像的图像特征，并基于不同时间点对应的位置点的偏差对上述图像特征进行融合，以得到融合不同时序的图像特征的时序融合特征，进而基于该时序融合特征进行识别得到识别结果，解决了相关技术中存在的基于多目相机的图像检测精度较低的技术问题，并且运算量较小，在几乎不增加运算消耗的前提下提高了图像的检测精度。

在另一个实施例中，基于第一位置以及第二位置对第一体素化图像特征以及第二体素化图像特征进行融合，得到时序融合特征包括：

步骤1：基于第一位置以及第二位置，将第一体素化图像特征的特征位置转换至历史时间点对应的预设体素空间中，并基于转换结果对第二体素化图像特征进行插值采样；

步骤2：对第一体素化图像特征与插值采样后的第二体素化图像特征进行特征拼接，得到时序融合特征；

具体的，根据当前时间点的第一位置以及历史时间点的第二位置，计算二者的位置偏差，进而基于该位置偏差将第一体素化图像特征的特征位置转换至历史时间点对应的预设体素空间中。

其中，历史时间点的预设体素空间即为在历史时间点的第二位置建立的预设体素空间。

具体的，将第一体素化图像特征转换至历史时间点对应的预设体素空间后，进一步基于第一体素化图像特征的转换结果对第二体素化图像特征进行插值采样，并将第一体素化图像特征与插值采样后的第二体素化图像特征进行拼接，得到时序融合特征。

示例性地，在驾驶辅助场景中，采集当前帧的第一待检测图像后，提取第一体素化图像特征{Voxel_Feature[t],t>0}，其大小为8×20×304×388，以及当前帧的第一位置{Pose[t],t>0}，包含自车位置信息{x,y,z}和四元数表示的自车朝向信息{qw,qx,qy,qz}；获取上一帧对应的第二体素化图像特征{Voxel_Feature_Seq[t-1],t>0}，其大小为8×20×304×388，以及上一帧时刻的第二位置{Pose[t-1],t>0}，包含自车位置信息{x,y,z}和四元数表示的自车朝向信息{qw,qx,qy,qz}。由于自车的运动，当前帧的车身坐标系和上一帧的车身坐标系有偏移，当前帧的第一体素化图像特征{Voxel_Feature[t],t>0}和上一帧的第二体素化图像特征{Voxel_Feature_Seq[t-1],t>0}在空间位置上不重合，因此需要根据当前帧的第一位置{Pose[t],t>0}和上一帧的第二位置{Pose[t-1],t>0}，将第一体素化图像特征{Voxel_Feature[t],t>0}对应的空间位置转换到上一帧的车身坐标系中，并对第二体素化图像特征{Voxel_Feature_Seq[t-1],t>0}进行插值采样，得到{Voxel_Feature_Seq_Sample[t-1],t>0}，其大小也为8×20×304×388，将其和第一体素化图像特征{Voxel_Feature[t],t>0}拼接到一起，得到大小为2×8×20×304×388的时序融合特征{Voxel_Feature_Seq_Contact[t],t>0}。

本实施例中在对第一体素化图像特征以及第二体素化图像特征进行拼接前，首先基于第一体素化图像特征的转换结果对第二体素化图像特征进行插值采样，从而提高了特征的准确性，进而提高了多目图像检测的准确性。

在另一个实施例中，得到时序融合特征之后还包括：

步骤1：对时序融合特征进行尺度变换，得到二维融合特征；

步骤2：基于预设偏移量对二维融合特征进行不同方向的采样，得到偏移采样后的二维融合特征，偏移量包含三个互相垂直的方向的偏移量；

步骤3：基于预设注意力权重对偏移采样后的二维融合特征的不同方向分量进行加权处理，得到加权处理后的二维融合特征；

步骤4：对加权处理后的二维融合特征进行尺度恢复，得到经转换的时序融合特征。

示例性地，在本实施例中得到时序融合特征后，首先将时序融合特征{Voxel_Feature_Seq_Contact[t],t>0}的形状调整为(2×8)×(20×304×388)即16×1751040，计为query。再将query经过一个线性变换层进行线性变换，得到value，其大小也为16×1751040。接下来本实例设置每个query采样点数为4，使用一个线性层和一个归一化指数函数得到维度为16×1751040×4的注意力权重attention_weights，再用一个线性层得到每个采样点相对原始点的偏移量sampling_offsets，每个偏移量包含x，y，z三个方向的偏移，因此其维度为16×1751040×4×3。根据原始点坐标和偏移量对value进行采样，得到采样后的value_sampled，其维度为16×1751040×4。根据注意力权重attention_weights对其进行加权求和得到16×1751040维度的特征图，并将其维度恢复为2×8×20×304×388，再对第一维求均值，得到经过调整的时序融合特征{Voxel_Feature_Seq[t],t>0}，其大小为8×20×304×388。

本实施例中对时序融合特征进行尺度变换、采样、加权处理以及尺度恢复等操作，从而进一步对时序融合特征进行特征提取以提高特征描述的准确性，进而提高了多目图像检测的准确性。

在另一个实施例中，基于多个第一待检测图像，获取对应的第一体素化图像特征包括：

步骤1：对多个第一待检测图像进行特征提取，得到对应的多个第一二维图像特征；

步骤2：对多个第一二维图像特征进行体素化采样，得到当前时间点对应的预设体素空间下的第一体素化采样特征；

步骤3：对第一体素化采样特征进行特征提取，得到第一体素化图像特征。

示例性的，选择通用的卷积神经网络或者Transformer网络以充分提取图像特征，本实例采用ResNet34作为图像特征提取模块，并加载了在ImageNet数据集中充分训练的权重文件以提升其特征提取能力，降低训练难度。

示例性的，初始化一个预设体素空间Voxel_Image，再通过相机内参以及外参将Voxel_Image中的点投影到二维图像特征中，并通过线性插值的方法提高三维特征采样精度。其中，同一个三维空间点可以投影到多个图像上，投影不到的点的特征值填充为0，不同图像提取的特征按照顺序进行拼接以确保通道数相同。

示例性的，对体素化采样特征进行特征提取的过程中，可以选择三维卷积神经网络、稀疏卷积神经网络等。可选的，在提取体素化图像特征之前，可以结合体素注意力机制，通过一组1×1×1的卷积核来进行自注意力机制提取，模拟计算三维空间体素为前景的概率，并在体素注意力机制的基础上提取体素化图像特征。

本实施例中对第一待检测图像依次进行二维特征提取、体素化采样以及体素特征提取操作，第一体素化图像特征的提取过程简单且易于实现，从而降低了多目图像检测的运算成本并提高了检测效率。

在另一个实施例中，对第一体素化采样特征进行特征提取，得到第一体素化图像特征包括：

步骤1：将第一体素化采样特征的第一维度以及第二维度压缩至同一维度，得到压缩化第一采样特征；

步骤2：基于二维卷积核对压缩化第一采样特征进行特征提取，得到压缩化第一图像特征；

步骤3：对压缩化第一图像特征的第一维度以及第二维度进行维度恢复，得到第一体素化图像特征。

示例性的，本实施例中的第一维度以及第二维度可分别设置为长维度以及宽维度。

示例性的，为提升检测速度，本实例采用特殊的二维卷积来提取三维特征。首先将预设体素空间的长、宽维度压到同一维度，将第一体素化采样特征Voxel_Sample_Feature进行降维，再通过多个卷积核尺寸为3×1的二维卷积层进行特征提取，将192维特征压缩到8维，得到压缩化第一图像特征，再重塑到原尺寸，恢复长、宽维度，得到第一体素化图像特征Voxel_Feature。

本实施例中先对第一体素化采样特征进行压缩，再通过二维卷积核进行特征提取后进行维度恢复，避免了直接通过三维卷积核进行特征提取导致的运算量过大，降低了特征提取过程中的运算成本，提高了多目图像检测的效率。

在另一个实施例中，基于时序融合特征，获取目标对象的识别结果包括：

步骤1：基于二维卷积核对时序融合特征进行特征提取，得到鸟瞰图特征；

步骤2：基于鸟瞰图特征，获取目标对象的识别结果。

具体的，首先将时序融合特征在高度方向上进行特征拼接，并通过一系列二维卷积核进行特征提取，得到二维鸟瞰图特征。对鸟瞰图特征进行分析和识别，最终得到三维目标的位置、大小以及角度等识别结果。

请参阅图3，图3是本申请另一实施例的多目图像检测方法的流程示意图。

示例性的，如图3所示，输入为某一时刻的多目图像{ Image[t][i], t≥0, 0<i≤6}，t为当前时刻索引，i表示相机索引，N表示相机个数。图像特征提取模块用于对多目图像进行特征提取；体素采样模块用于对二维图像特征进行采样，得到体素化采样特征；体素特征提取模块用于对体素化采样特征进行三维特征提取，得到体素化图像特征；时序融合模块用于对不同时序的体素化图像特征进行特征融合，得到时序融合特征；鸟瞰图特征提取模块用于基于体素融合特征提取鸟瞰图特征；识别模块用于对鸟瞰图特征进行分析和识别以获取目标对象的识别结果；损失模块用于在训练过程中对多目图像检测模型进行训练。

在另一个实施例中，方法还包括：

步骤1：获取初始多目图像检测模型，初始多目图像检测模型用于执行多目图像检测方法；

步骤2：将多个样本图像以及与样本图像同步的样本点云数据输入至初始多目图像检测模型，样本图像基于多目相机数据集确定；

步骤3：基于初始多目图像检测模型提取多个样本图像的样本体素化图像特征，样本体素化图像特征以及样本体素化点云特征基于同一样本体素空间确定；

步骤4：基于第一损失函数对初始多目图像检测模型进行训练，第一损失函数基于样本体素化图像特征以及样本体素化点云特征确定，样本体素化点云特征基于样本点云数据获取。

具体的，获取初始多目图像检测模型，其中该初始多目图像检测模型为未经过训练的用于执行多目图像检测方法的网络模型。

具体的，将样本图像以及与样本图像同步的样本点云数据输入至初始多目图像检测模型，通过初始多目图像检测模型提取对应的样本体素化图像特征以及样本体素化点云特征，其中在体素化过程中样本体素化图像特征以及样本体素化点云特征均基于同一样本体素空间确定。

具体的，将样本体素化点云特征作为特征标准参数，基于样本体素化图像特征以及样本体素化点云特征建立第一损失函数，并通过第一损失函数对初始多目图像检测模型中的参数进行训练，以使得第一损失函数满足收敛条件，得到训练后的多目图像检测模型。

其中，样本图像基于多目相机数据集确定，样本点云数据为实时采集的与样本图像的采集时间同步的数据。

本实施例中通过获取点云特征并结合图像特征建立第一损失函数，进而通过第一损失函数对初始多目图像检测模型的参数进行调节，从而提高了模型特征提取的准确性，进而提高了多目图像检测的准确性，并且本实施例中的方法应用于训练阶段，在检测阶段不会造成任何运算即不会增加检测时长，在保证检测速度的前提下提高了检测精度。

在另一个实施例中，样本体素化点云特征的获取过程包括：

步骤1：基于点云采集设备的外参，对样本点云数据进行体素化采样，得到样本体素化点云数据；

步骤2：对样本体素化点云数据进行特征提取，得到样本体素化点云特征。

具体的，通过点云采集设备的外参将样本点云数据转换到样本体素化图像特征的同一坐标系中，并使用相同的体素空间对样本点云数据进行体素化，得到样本体素化点云数据；之后通过对体素化点云数据进行特征提取，得到样本体素化点云特征。

请参阅图4，图4是本申请一实施例的多目图像检测模型的训练流程示意图。

示例性的，如图4所示，训练阶段的输入为与多目图像时间同步过的点云数据PointCloud[t]，其大小为n×3，其中n为点云个数，当前帧第一体素化图像特征Voxel_Feature[t]，其大小为8×20×304×388，将点云数据PointCloud[t]通过点云采集设备的外参RT_PointCloud转换到和第一体素化图像特征Voxel_Feature[t]同一坐标系中，并使用体素空间对点云数据进行体素化，得到体素化点云数据Voxel_Pointcloud[t]。之后采用已经训练好的CenterPoint网络模型从点云数据提取点云特征，从而得到体素化点云特征Voxel_Pointcloud_Feature[t]，其大小为16×20×304×388。之后可以通过三维卷积神经网络、Transformer等方式对第一体素化图像特征Voxel_Feature[t]进行进一步的特征提取得到精细体素化图像特征Voxel_Image_Feature[t]，其大小和体素化点云特征Voxel_Pointcloud_Feature[t]相同，为16×20×304×388。最后通过知识蒸馏计算损失，通过第一损失函数优化体素特征提取网络。

本实施例中先后对点云数据进行采样和特征提取，以得到体素化点云特征，特征提取方式简单，从而提高了初始多目图像检测模型的训练效率。

在另一个实施例中，方法还包括：

步骤2：将多个样本图像输入至初始多目图像检测模型，得到样本中心点坐标，样本图像基于多目相机数据集确定；

步骤3：基于样本中心坐标确定样本椭圆特征图，并基于样本椭圆特征图以及标签椭圆特征图之间的距离确定第二损失函数，标签椭圆特征图基于样本图像的标签中心点坐标确定；

步骤4：基于第二损失函数对初始多目图像检测模型进行训练。

具体的，本实施例中在训练过程中的识别结果包括样本中心点坐标。获取样本中心点坐标后，基于该样本中心点坐标确定椭圆边界框，基于该椭圆边界框划定样本椭圆特征图。基于同样的方法确定样本标签中的中心点坐标对应的标签椭圆特征图，结合样本椭圆特征图以及标签椭圆特征图确定Focal_loss第二损失函数，并基于该第二损失函数对初始多目图像检测模型进行训练，以对中心点坐标进行回归。

可以理解的，由于多目视觉方法估计目标深度的难度随着目标远离自车而增大，并且在智能驾驶领域，横向误差和深度误差带来的影响不同，因此本实例对目标中心点坐标的回归采用上述优化的第二损失函数。

可选的，本实施例中还可以建立其他损失函数，进而对初始多目图像检测模型进行训练。例如，目标中心点的运动方向的检测，回归其正弦值与余弦值，建立L1_Loss损失函数；目标中心点的偏移量的回归采用L1_Loss损失函数；目标的长宽高以及目标高度的回归采用SmothL1_loss损失函数，其中不同检测分支的损失分配不同的权重。

本实施例中基于椭圆特征图对损失函数进行优化，从而保证初始多目图像检测模型能够适应横向信息与深度信息不一致的场景，进而提高了模型的准确性以及多目图像检测检测的精度。

在另一个实施例中，样本椭圆特征图的确定过程包括：

步骤1：基于样本中心点坐标，确定样本椭圆特征图的长轴以及短轴；

步骤2：设置样本中心点对应的特征值为第一真值，以及样本椭圆特征图边界对应的特征值为第二真值，并基于高斯分布确定样本椭圆特征图内部的特征值，得到样本椭圆特征图。

示例性的，本实施例中采用高斯椭圆建立样本椭圆特征图。椭圆的长轴和短轴随着中心点坐标的变化而变化，具体椭圆方程为：

其中，i为目标索引，K为当前帧的真值目标总数，x_label[i]、y_label[i]分别为目标真值标签的中心点坐标即椭圆中心点，A[y_label[i]]、B[x_label[i]]分别为随着目标坐标变化而变化的椭圆的长短轴，长短轴的比值随着目标远离自车而增大。在样本椭圆特征图中，[x_label[i]、y_label[i]]真值为1，椭圆边界以及椭圆外部真值为0，椭圆中心点到边界点的真值采用高斯分布分配，得到椭圆内部真值。

本实例中建立样本椭圆特征图以及内部真值的方式简单且易于计算，从而对训练过程进行加速，进而提高了初始多目图像检测模型的训练效率。

在另一个实施例中，基于以上实施例，进行了多目图像检测方法的实验验证。具体的，本实施例中采用了仿照nuScene的数据集，包含六目环视相机的图像数据，以及时间同步的激光雷达数据，图像为分辨率720×1280的RGB彩色图像。相机水平视场角约为90度。车身正前方部署两个水平向前的相机，以获得较为准确的深度信息，侧前放和侧后方部署四个相机，以检测周围目标。

具体的，在训练和测试阶段，本实例验证了多种优化方式，分别为单独使用知识蒸馏模块（优化的第一损失函数）、单独使用时序融合模块、单独使用优化的Focal_loss第二损失模块以及联合使用优化方案。最后使用本实例中仿照nuScenes制作的数据集对多种方案分别进行训练和推理测试，本实例中的多种方案与现阶段较为流行的基于多目图像的检测方案bevdepth、BEVDet、BEVFormer以及不使用优化模块的基础模块相对比，在同样的训练集和模型参数优化方法下，各自在验证集的各类别指标的3D map精度比较如下表所示：

具体的，通过上表可以看出，在本实例所采用的数据集中，本实例的优化方案在多目图像检测的各个类别上精度都有提升，且联合使用多种优化方案可以得到最高精度，验证了本实例发明的优化方案的有效性。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的多目图像检测方法的多目图像检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个多目图像检测装置实施例中的具体限定可以参见上文中对于多目图像检测方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种多目图像检测装置，包括：

图像获取模块10，用于获取当前时间点的多个第一待检测图像以及对应的第一位置，多个第一待检测图像基于多目相机生成；

特征提取模块20，用于基于多个第一待检测图像，获取对应的第一体素化图像特征；

特征提取模块20，还用于对多个第一待检测图像进行特征提取，得到对应的多个第一二维图像特征；

对多个第一二维图像特征进行体素化采样，得到当前时间点对应的预设体素空间下的第一体素化采样特征；

对第一体素化采样特征进行特征提取，得到第一体素化图像特征；

特征提取模块20，还用于将第一体素化采样特征的第一维度以及第二维度压缩至同一维度，得到压缩化第一采样特征；

基于二维卷积核对压缩化第一采样特征进行特征提取，得到压缩化第一图像特征；

对压缩化第一图像特征的第一维度以及第二维度进行维度恢复，得到第一体素化图像特征；

特征融合模块30，用于基于第一位置以及第二位置对第一体素化图像特征以及第二体素化图像特征进行融合，得到时序融合特征，第二位置以及第二体素化图像特征基于历史时间点确定；

特征融合模块30，还用于基于第一位置以及第二位置，将第一体素化图像特征的特征位置转换至历史时间点对应的预设体素空间中，并基于转换结果对第二体素化图像特征进行插值采样；

对第一体素化图像特征与插值采样后的第二体素化图像特征进行特征拼接，得到时序融合特征；

目标识别模块40，用于基于时序融合特征，获取目标对象的识别结果；

目标识别模块40，还用于基于二维卷积核对时序融合特征进行特征提取，得到鸟瞰图特征；

基于鸟瞰图特征，获取目标对象的识别结果；

多目图像检测装置，还包括时序融合特征转换模块；

时序融合特征转换模块，用于对时序融合特征进行尺度变换，得到二维融合特征；

基于预设偏移量对二维融合特征进行不同方向的采样，得到偏移采样后的二维融合特征，偏移量包含三个互相垂直的方向的偏移量；

基于预设注意力权重对偏移采样后的二维融合特征的不同方向分量进行加权处理，得到加权处理后的二维融合特征；

对加权处理后的二维融合特征进行尺度恢复，得到经转换的时序融合特征；

多目图像检测装置，还包括第一训练模块；

第一训练模块，用于获取初始多目图像检测模型，初始多目图像检测模型用于执行多目图像检测方法；

将多个样本图像以及与样本图像同步的样本点云数据输入至初始多目图像检测模型，样本图像基于多目相机数据集确定；

基于初始多目图像检测模型提取多个样本图像的样本体素化图像特征，样本体素化图像特征以及样本体素化点云特征基于同一样本体素空间确定；

基于第一损失函数对初始多目图像检测模型进行训练，第一损失函数基于样本体素化图像特征以及样本体素化点云特征确定，样本体素化点云特征基于样本点云数据获取；

第一训练模块，还用于基于点云采集设备的外参，对样本点云数据进行体素化采样，得到样本体素化点云数据；

对样本体素化点云数据进行特征提取，得到样本体素化点云特征；

多目图像检测装置，还包括第二训练模块；

第二训练模块，用于获取初始多目图像检测模型，初始多目图像检测模型用于执行多目图像检测方法；

将多个样本图像输入至初始多目图像检测模型，得到样本中心点坐标，样本图像基于多目相机数据集确定；

基于样本中心坐标确定样本椭圆特征图，并基于样本椭圆特征图以及标签椭圆特征图之间的距离确定第二损失函数，标签椭圆特征图基于样本图像的标签中心点坐标确定；

基于第二损失函数对初始多目图像检测模型进行训练；

第二训练模块，还用于基于样本中心点坐标，确定样本椭圆特征图的长轴以及短轴；

设置样本中心点对应的特征值为第一真值，以及样本椭圆特征图边界对应的特征值为第二真值，并基于高斯分布确定样本椭圆特征图内部的特征值，得到样本椭圆特征图。

上述多目检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种多目图像检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取当前时间点的多个第一待检测图像以及对应的第一位置，多个第一待检测图像基于多目相机生成；

基于多个第一待检测图像，获取对应的第一体素化图像特征；

基于第一位置以及第二位置对第一体素化图像特征以及第二体素化图像特征进行融合，得到时序融合特征，第二位置以及第二体素化图像特征基于历史时间点确定；

基于时序融合特征，获取目标对象的识别结果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

基于时序融合特征，获取目标对象的识别结果。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

基于时序融合特征，获取目标对象的识别结果。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种多目图像检测方法，其特征在于，所述方法包括：

获取当前时间点的多个第一待检测图像以及对应的第一位置，多个所述第一待检测图像基于多目相机生成，所述第一位置基于所述当前时间点的多目相机位置确定；

基于所述第一位置以及第二位置对所述第一体素化图像特征以及第二体素化图像特征进行融合，得到时序融合特征，所述第二位置基于历史时间点的多目相机位置确定，所述第二体素化图像特征基于所述历史时间点确定；

基于所述时序融合特征，获取目标对象的识别结果；

所述得到时序融合特征之后还包括：

对所述时序融合特征进行尺度变换，得到二维融合特征；

2.根据权利要求1所述的多目图像检测方法，其特征在于，所述基于所述第一位置以及第二位置对所述第一体素化图像特征以及第二体素化图像特征进行融合，得到时序融合特征包括：

对所述第一体素化图像特征与插值采样后的第二体素化图像特征进行特征拼接，得到所述时序融合特征。

3.根据权利要求1所述的多目图像检测方法，其特征在于，所述基于多个所述第一待检测图像，获取对应的第一体素化图像特征包括：

4.根据权利要求3所述的多目图像检测方法，其特征在于，所述对所述第一体素化采样特征进行特征提取，得到所述第一体素化图像特征包括：

5.根据权利要求1所述的多目图像检测方法，其特征在于，所述基于所述时序融合特征，获取目标对象的识别结果包括：

基于所述鸟瞰图特征，获取所述目标对象的识别结果。

6.根据权利要求1所述的多目图像检测方法，其特征在于，所述方法还包括：

基于所述初始多目图像检测模型提取多个所述样本图像的样本体素化图像特征，所述样本体素化图像特征以及样本体素化点云特征基于同一样本体素空间确定；

7.根据权利要求6所述的多目图像检测方法，其特征在于，所述样本体素化点云特征的获取过程包括：

8.根据权利要求1所述的多目图像检测方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的多目图像检测方法，其特征在于，所述样本椭圆特征图的确定过程包括：

10.一种多目图像检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取当前时间点的多个第一待检测图像以及对应的第一位置，多个所述第一待检测图像基于多目相机生成，所述第一位置基于所述当前时间点的多目相机位置确定；

特征融合模块，用于基于所述第一位置以及第二位置对所述第一体素化图像特征以及第二体素化图像特征进行融合，得到时序融合特征，所述第二位置基于历史时间点的多目相机位置确定，所述第二体素化图像特征基于所述历史时间点确定；

目标识别模块，用于基于所述时序融合特征，获取目标对象的识别结果；

所述多目图像检测装置，还包括时序融合特征转换模块；

所述时序融合特征转换模块，用于对时序融合特征进行尺度变换，得到二维融合特征；

对加权处理后的二维融合特征进行尺度恢复，得到经转换的时序融合特征。

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至权利要求9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至权利要求9中任一项所述的方法的步骤。