CN116934977A

CN116934977A - 一种基于三维占用预测和神经渲染的视觉三维感知方法及系统

Info

Publication number: CN116934977A
Application number: CN202310970781.6A
Authority: CN
Inventors: 周洪超; 郭盛邦; 吕传栋; 周斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-10-24

Abstract

本发明涉及一种基于三维占用预测和神经渲染的视觉三维感知方法及系统，包括：A、构建室内外场景数据集；B、训练基于空间注意力机制的卷积神经网络模型，生成三维占用预测结果；基于数据集训练设计好的基于空间注意力机制的卷积神经网络模型，图像帧作为卷积神经网络模型输入，激光雷达点云数据用于监督卷积神经网络模型的训练；输入待检测的图像帧，让训练好的基于空间注意力机制的卷积神经网络模型前向推理，生成三维占用预测结果。本发明能够实现只输入图像，模型就能感知周围环境信息的功能，而无需搭载价格高昂的激光雷达，大幅减少了成本。通过将三维占用预测技术和神经渲染结合起来，能够有效感知被遮挡区域的信息。

Description

一种基于三维占用预测和神经渲染的视觉三维感知方法及系统

技术领域

本发明涉及一种基于三维占用预测和神经渲染的视觉三维感知方法及系统，属于计算机视觉技术领域。

背景技术

近年来机器人已经逐渐步入人们的生活，无论是扫地机器人、快递机器人，还是自动驾驶，都有着利用传感器准确、全面地感知周围的环境信息这一基础需求。基于激光雷达的方法虽然取得了不错的效果，但价格高昂，采集到的数据较为稀疏，限制了其环境感知能力。基于摄像头的视觉方案成本相对较低，有着大范围普及的潜力，具有十分重要的研究意义。

目前主要的视觉三维感知方法大致有三种，一种方法是三维物体检测，能够提供物体位置和大小的粗略估计，但是无法有效表示任意形状的物体以及视线被遮挡的区域。另一种方法是预测二维图像缺失的深度信息，然而只能捕捉距离最近的被占用点，无法感知被遮挡的区域。与上述方法不同，最近兴起的三维占用预测方法，将周围一定范围内的空间划分为一个个三维立方体网格，称之为体素，预测这些体素的占用信息，从而能够重建被遮挡区域，有效地提供周围的环境信息。

目前的三维占用预测方法主要都在室外数据集上训练和评估，然而室内场景也有相应的应用需求，并且对于提高模型的泛化能力至关重要。

神经渲染是一种利用神经网络技术实现场景渲染的方法。它利用神经网络来表示场景的形状和外观，与传统方法相比，提供了更高质量的渲染结果。

近年来，基于深度学习的三维占用预测技术发展迅速，将基于深度学习的三维占用预测技术和神经渲染结合起来应用到感知周围环境信息这一任务，将是一个新的研究课题。

发明内容

针对现有技术的不足，本发明旨在解决现有三维感知方法存在的成本高、无法感知被遮挡的区域、只适用于室外场景等问题，提供一种基于三维占用预测和神经渲染的视觉三维感知方法，将三维占用预测技术和神经渲染结合起来，感知周围环境信息。

基于摄像头的视觉三维感知方案成本低，有着大范围普及的潜力。为了解决目前视觉三维感知存在的问题，本发明构建了一个适用于三维感知任务的室内外场景数据集，通过将三维占用预测技术和神经渲染结合起来，以感知周围环境信息。无论是三维物体检测还是预测图像的深度信息，都无法感知被遮挡的区域，而三维占用预测技术能够有效地重建被遮挡区域的信息。单独使用三维占用预测技术效果不够显著，结合使用神经渲染能够更有效地感知周围环境信息。

本发明还提供了一种基于三维占用预测和神经渲染的视觉三维感知系统。

术语解释：

1、相机内参矩阵，其作用是将相机坐标系下的三维坐标映射到二维的图像平面，表示为其中f_x和f_y是相机的水平和垂直焦距，c_x和c_y是图像原点相对于相机光心的水平和垂直偏移量，以像素为单位。

2、相机外参矩阵，其作用是将世界坐标系下的点变换到相机坐标系，表示为其中R是3×3的旋转矩阵，它的第一列到第三列分别表示世界坐标系的X,Y,Z轴在相机坐标系下对应的方向；T是3×1的平移向量，表示世界坐标系原点在相机坐标系下对应的位置。

3、激光雷达点云数据，是由激光雷达扫描得到的空间点的数据集，每一个点都包含了三维坐标信息，有的还包含颜色信息、反射强度信息、回波次数信息等。

4、时间戳，是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数。

5、ResNet，是一种卷积神经网络，有ResNet18、ResNet34、ResNet50、ResNet101和ResNet152五个版本，其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题，在计算机视觉领域常用于图像特征提取。

6、Deformable attention，是一种基于稀疏空间采样的注意力机制，每个参考点仅关注邻域的一组采样点，这些采样点的位置并非固定，而是可学习的，从而实现了一种局部且稀疏的高效注意力机制。

7、ROS，是一个适用于机器人开发的开源操作系统。

8、Autoware，是一款基于ROS系统的开源自动驾驶框架。

9、位置编码，是一种用来表示空间信息的方法，在计算机科学中，通常用于人工智能领域。位置编码将空间上的点映射为数字，便于计算机处理和分析。

本发明的技术方案如下：

一种基于三维占用预测和神经渲染的视觉三维感知方法，包括步骤如下：

A、构建室内外场景数据集

(1)搭建数据采集的小车，小车前端并排放置两个摄像头，左侧和右侧以一定倾角各放置两个摄像头，在前端两个摄像头的中间正后方位置以一定高度放置一个激光雷达；

(2)对步骤(1)中的摄像头和激光雷达进行联合标定，得到每个摄像头的内参矩阵和外参矩阵；

(3)分别在室内和室外环境下，遥控着小车行驶，通过摄像头和激光雷达同时采集视频和激光雷达点云数据，视频以图像帧的形式存储，激光雷达点云数据以360°水平角为一个循环存储为一帧；

(4)将图像帧及激光雷达点云数据按照时间戳顺序一一对应，构建数据集；

B、训练基于空间注意力机制的卷积神经网络模型，生成三维占用预测结果

(5)基于步骤(4)的数据集训练设计好的基于空间注意力机制的卷积神经网络模型，图像帧作为基于空间注意力机制的卷积神经网络模型输入，激光雷达点云数据用于监督基于空间注意力机制的卷积神经网络模型的训练；

(6)输入待检测的图像帧，让步骤(5)训练好的基于空间注意力机制的卷积神经网络模型前向推理，生成三维占用预测结果。

根据本发明优选的，步骤(1)中，所述小车为WHEELTEC阿克曼小车，所述摄像头为海康威视U64摄像头，所述激光雷达为镭神智能C16激光雷达，小车前端并排放置两个摄像头，左侧和右侧以40°-60°倾角各放置两个摄像头，在前端两个摄像头的中间正后方位置以8cm-12cm高度放置一个激光雷达。

进一步优选的，左侧和右侧以50°倾角各放置两个摄像头，在前端两个摄像头的中间正后方位置以10cm高度放置一个激光雷达。

根据本发明优选的，步骤(2)中，对步骤(1)中的摄像头和激光雷达进行联合标定，得到每个摄像头的内参矩阵和外参矩阵，包括步骤如下：

a、将标定板放置在摄像头前方，在电脑的ROS环境下，分别对每个摄像头单独录制标定板移动的视频，同时采集激光雷达点云数据；

b、使用Autoware的标定工具包提取视频中包含标定板的图像帧，并标出对应的激光雷达点云数据，对摄像头和激光雷达进行联合标定，得到每个摄像头的内参矩阵和外参矩阵。

根据本发明优选的，步骤(4)中，将图像帧及激光雷达点云数据按照时间戳顺序一一对应，构建数据集，包括步骤如下：

c、以右侧放置的摄像头的图像帧的时间戳为基准，将其它三个摄像头的图像帧及激光雷达点云数据与右侧放置的摄像头的图像帧按照时间戳顺序一一对应，构建数据集；

d、将步骤c处理后的数据集分为训练集、验证集和测试集。

进一步优选的，步骤d中，将步骤c处理后的数据集按照7:1:1的比例分为训练集、验证集和测试集。

根据本发明优选的，基于空间注意力机制的卷积神经网络模型包括依次连接的基于ResNet的图像特征提取网络、基于Deformable attention的空间注意力模块、反卷积网络和预测网络。

根据本发明优选的，基于ResNet的图像特征提取网络包括依次连接的ResNet50和一个卷积层；所述ResNet50包括依次连接的卷积层、最大池化层、Bottleneck1模块和Bottleneck2模块；Bottleneck1模块和Bottleneck2模块均包括卷积层、Batchnormalization层、ReLU层和残差连接，Bottleneck1模块先经过一个卷积层以增加输入通道维度，再进行残差连接；Bottleneck2模块直接进行残差连接。

根据本发明优选的，基于Deformable attention的空间注意力模块包括三个依次连接的Deformable attention模块、Layer normalization层和全连接层，具体包括：第一Deformable attention模块、第一Layer normalization层、第一全连接层、第二Layernormalization层，第二Deformable attention模块、第三Layer normalization层、第二全连接层、第四Layer normalization层，以及第三Deformable attention模块、第五Layernormalization层、第三全连接层、第六Layer normalization层；每个Deformableattention模块包括四个并行的Block模块，Block模块包括全连接层、Softmax层和聚合层；Block模块实现了单个图像特征的空间注意力机制，Deformable attention模块则聚合了来自四个不同图像特征的Block模块的输出特征。

根据本发明优选的，反卷积网络包括依次连接的第一3D反卷积层、第一3D Batchnormalization层、第一LeakyReLU层、第二3D反卷积层、第二3D Batch normalization层、第二LeakyReLU层。

根据本发明优选的，预测网络包括依次连接的第四全连接层、LeakyReLU层、第五全连接层、Softmax层。

根据本发明优选的，步骤(5)中，基于步骤(4)的数据集训练设计好的基于空间注意力机制的卷积神经网络模型，图像帧作为基于空间注意力机制的卷积神经网络模型输入，激光雷达点云数据用于监督基于空间注意力机制的卷积神经网络模型的训练；包括步骤如下：

e、一组通道维度为3、分辨率大小为(h,w)的图像帧分别输入到四个ResNet50中，通过ResNet50提取到通道维度为2048的图像特征，然后，经过卷积核大小为1×1的卷积层后得到通道维度为256的图像特征，其分辨率经过下采样32倍变为：h'＝h/32,w'＝w/32；(数值取整)；

f、将步骤e中从4张图像中提取到的图像特征在新增的第一个维度上拼接起来，然后叠加可学习的位置编码，使基于空间注意力机制的卷积神经网络模型能够区分来自不同位置摄像头的图像特征；

g、预先定义一个可学习的query，其形状为：H'＝H/4,W'＝W/4,Z'＝Z/4,256，与体素立方体特征的形状一致，将其与步骤f中叠加位置编码的图像特征一并输入到第一Deformable attention模块中；

h、取索引为(x,y,z)处的query特征Q_p，p＝1,…,H'×W'×Z'，将其索引转换成空间位置坐标q_p＝(x_w,y_w,z_w)，如式(I)所示：

式(I)中，X_max、X_min是体素立方体在世界坐标系x方向上的最大边界和最小边界，Y_max、Y_min是体素立方体在世界坐标系y方向上的最大边界和最小边界，Z_max、Z_min是体素立方体在世界坐标系z方向上的最大边界和最小边界；

i、使用相机内参矩阵和外参矩阵将q_p映射为来自第i个摄像头的图片像素坐标(x_i,y_i)，如式(II)所示：

式(II)中，K_i是第i个摄像头的内参矩阵，是将3×3的K_i扩展为4×4的矩阵，/>是第i个摄像头的外参矩阵；R是3×3的旋转矩阵，它的第一列到第三列分别表示世界坐标系的X,Y,Z轴在相机坐标系下对应的方向；T是3×1的平移向量，表示世界坐标系原点在相机坐标系下对应的位置；z_i是Q_p在第i个摄像头的相机坐标系下的z轴坐标；

j、若x_i<w且y_i<h，则表示Q_p在该摄像头的图片上有对应的像素点，进一步计算该摄像头的图像特征X_i上的参考点坐标进行后续注意力机制计算；否则，不在该摄像头的图像特征X_i上进行注意力机制计算；注意力机制计算如式(III)所示：

式(III)中，是与Q_p有对应像素点的图片数量，N_head、N_key分别是注意力机制中头和键的数量，△p_mk是Q_p经过通道数为2N_headN_key的全连接层后生成的参考点坐标偏移量，p+△p_mk通常是小数，通过双线性插值取出x上对应位置的特征，/>是输入为X_i、通道数为256的全连接层的权重矩阵，/>是Q_p经过通道数为N_headN_key的全连接层和Softmax层后生成的注意力权重，其满足/> 是输出为特征F_p、通道数为256的全连接层的权重矩阵；

k、将第一Deformable attention模块的输出与预定义的query相加后输入到第一Layer Normalization层，该层输出与其通过第一全连接层后相加，之后输入到第二LayerNormalization层后得到新的输出特征，将其作为第二Deformable attention模块的query；

将第二Deformable attention模块的输出与第二Deformable attention模块的query相加后输入到第三Layer Normalization层，该层输出与其通过第二全连接层后相加，之后输入到第四Layer Normalization层后得到新的输出特征，将其作为第三Deformable attention模块的query；

将第三Deformable attention模块的输出与第三Deformable attention模块的query相加后输入到第五Layer Normalization层，该层输出与其通过第三全连接层后相加，之后输入到第六Layer Normalization层后得到体素立方体特征；

l、将空间注意力模块输出的体素立方体特征输入到第一3D反卷积层、第一3DBatch normalization层、第一LeakyReLU层，得到形状为(H/2,W/2,Z/2,128)的体素立方体特征，然后将其输入到第二3D反卷积层、第二3D Batch normalization层、第二LeakyReLU层，得到形状为(H,W,Z,64)的体素立方体特征；

m、将反卷积网络输出的体素立方体特征输入到预测网络中的第四全连接层、LeakyReLU层、第五全连接层，得到形状为(H,W,Z,2)的体素立方体特征，然后通过Softmax层输出体素不占用和占用的概率，概率更大的情况就是最终的三维占用预测结果；

n、将基于空间注意力机制的卷积神经网络模型的三维占用预测结果与该组图像帧对应的激光雷达点云数据做损失，用于监督基于空间注意力机制的卷积神经网络模型的训练，如式(IV)、(V)、(VI)、(VII)、(VIII)所示：

式(IV)中，采用交叉熵损失，其中l＝H×W×Z，j代表类别：不占用和占用，F_i是使用激光雷达点云数据生成的第i个体素标签，采用onehot编码，F_i(j)是对应类别的标签；是基于空间注意力机制的卷积神经网络模型预测输出的第i个体素不占用和占用的概率，是对应类别的概率；

式(V)中，采用LovaszSoftmax损失，其中l＝H×W×Z，F是使用激光雷达点云数据生成的体素立方体标签，类别为数字0或1，是基于空间注意力机制的卷积神经网络模型预测输出的体素立方体，包含占用的概率，e是对F和/>二者的l个差值绝对值降序排序后的序列，sort_e()表示根据e的索引对F进行排序后得到序列F'，F_i'、F_j'分别表示序列F'中第i和第j个值；

式(VI)中，采用SmoothL1损失，其中M是每次计算时随机选取的激光雷达点与世界坐标系原点连成的射线条数，n是射线所经过的体素个数，p_i是基于空间注意力机制的卷积神经网络模型预测的射线上第i个体素的占用概率；

式(VII)中，M'是每次计算时随机选取的激光雷达点与世界坐标系原点连成的射线条数，d是激光雷达点到世界坐标系原点的距离，是通过神经渲染技术预测的距离，N是射线上的采样点数量，p_i是基于空间注意力机制的卷积神经网络模型预测的射线上第i个采样点的占用概率，做法是在体素立方体特征中用双线性插值得到该采样点的特征，然后通过预测网络得到该采样点的占用概率，d_i是第i个采样点到世界坐标系原点的距离；

式(VIII)中，λ_ce、λ_lovasz、λ_dirvoxel、λ_distance是各项损失的权重，即为最终的损失。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于三维占用预测和神经渲染的视觉三维感知方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于三维占用预测和神经渲染的视觉三维感知方法的步骤。

一种基于三维占用预测和神经渲染的视觉三维感知系统，包括：

室内外场景数据集构建模块，被配置为：搭建数据采集的小车，小车前端并排放置两个摄像头，左侧和右侧各放置两个摄像头，在前端两个摄像头的中间正后方位置放置一个激光雷达；对摄像头和激光雷达进行联合标定，得到每个摄像头的内参矩阵和外参矩阵；分别在室内和室外环境下，遥控着小车行驶，通过摄像头和激光雷达同时采集视频和激光雷达点云数据，视频以图像帧的形式存储，激光雷达点云数据以360°水平角为一个循环存储为一帧；将图像帧及激光雷达点云数据按照时间戳顺序一一对应，构建数据集；

基于空间注意力机制的卷积神经网络模型构建及训练模块，被配置为：基于数据集训练设计好的基于空间注意力机制的卷积神经网络模型，图像帧作为基于空间注意力机制的卷积神经网络模型输入，激光雷达点云数据用于监督基于空间注意力机制的卷积神经网络模型的训练；

预测模块，被配置为：将待检测的图像帧，输入训练好的基于空间注意力机制的卷积神经网络模型进行前向推理，生成三维占用预测结果。

本发明的有益效果在于：

1、本发明能够实现只输入图像，模型就能感知周围环境信息的功能，而无需搭载价格高昂的激光雷达，大幅减少了成本。

2、本发明构建了一个适用于三维感知任务的室内外场景数据集，增加了场景的多样性，能够提高模型的泛化能力。

3、本发明通过将三维占用预测技术和神经渲染结合起来，能够有效感知被遮挡区域的信息。

4、本发明基于空间注意力机制的卷积神经网络，能更好地将二维的图像特征进行提取和融合，生成三维的体素立方体，提高了视觉三维感知的准确率。

附图说明

图1为本发明数据采集小车的结构示意图；

图2为本发明基于空间注意力机制的卷积神经网络模型训练流程示意图；

图3(a)为本发明基于ResNet的图像特征提取网络的结构示意图；

图3(b)为本发明ResNet50的Bottleneck1模块的结构示意图；

图3(c)为本发明ResNet50的Bottleneck2模块的结构示意图；

图4(a)为本发明基于Deformable attention的空间注意力模块的结构示意图；

图4(b)为本发明Deformable attention模块的结构示意图；

图4(c)为本发明Deformable attention模块的Block模块的结构示意图；

图5为本发明反卷积网络的结构示意图；

图6为本发明预测网络的结构示意图；

图7为本发明基于空间注意力机制的卷积神经网络模型推理流程示意图；

图8为本发明基于空间注意力机制的卷积神经网络模型推理得到的三维占用预测效果图；

其中，1、摄像头，2、激光雷达。

具体实施方式

下面通过实施例并结合说明书附图对本发明做进一步说明，但不限于此。

实施例1

A、构建室内外场景数据集

(1)搭建数据采集的小车，小车前端并排放置两个摄像头1，左侧和右侧以40°-60°倾角各放置两个摄像头1，在前端两个摄像头1的中间正后方位置以8cm-12cm高度放置一个激光雷达2。

(2)对步骤(1)中的摄像头1和激光雷达2进行联合标定，得到每个摄像头1的内参矩阵和外参矩阵；

(3)分别在室内和室外环境下，遥控着小车行驶，通过摄像头1和激光雷达2同时采集视频和激光雷达点云数据，视频以图像帧的形式存储，激光雷达点云数据以360°水平角为一个循环存储为一帧；采集29个场景，其中18个室内场景，11个室外场景；既在室内又在室外采集数据，能增加数据集的多样性，提高模型的泛化能力；

实施例2

根据实施例1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法，其区别在于：

步骤(1)中，如图1所示，小车为WHEELTEC阿克曼小车，摄像头1为海康威视U64摄像头，激光雷达2为镭神智能C16激光雷达，小车前端并排放置两个摄像头1，左侧和右侧以50°倾角各放置两个摄像头1，在前端两个摄像头1的中间正后方位置以10cm高度放置一个激光雷达2。

步骤(2)中，对步骤(1)中的摄像头1和激光雷达2进行联合标定，得到每个摄像头1的内参矩阵和外参矩阵，包括步骤如下：

a、将12×9、每个方格2cm的标定板放置在摄像头1前方，在电脑的ROS环境下，分别对每个摄像头1单独录制标定板移动的视频，同时采集激光雷达点云数据；

b、使用Autoware的标定工具包提取20张视频中包含标定板的图像帧，并标出对应的激光雷达点云数据，对摄像头1和激光雷达2进行联合标定，得到每个摄像头1的内参矩阵和外参矩阵。

步骤(3)中，分别在室内和室外环境下，遥控着小车行驶，通过摄像头1和激光雷达2同时采集视频和激光雷达点云数据，视频以图像帧的形式存储，图像分辨率为1280×720，帧率为30Hz，激光雷达点云数据以360°水平角为一个循环存储为一帧，帧率为20Hz。

步骤(4)中，将图像帧及激光雷达点云数据按照时间戳顺序一一对应，构建数据集，包括步骤如下：

c、以右侧放置的摄像头1的图像帧的时间戳为基准，将其它三个摄像头1的图像帧及激光雷达点云数据与右侧放置的摄像头1的图像帧按照时间戳顺序一一对应，构建数据集；由于图像的帧率高于激光雷达点云数据的帧率，时间戳不同的几组图像帧将对应同一帧激光雷达点云数据；

d、将步骤c处理后的数据集按照7:1:1的比例分为训练集、验证集和测试集。

基于空间注意力机制的卷积神经网络模型包括依次连接的基于ResNet的图像特征提取网络、基于Deformable attention的空间注意力模块、反卷积网络和预测网络。

如图3(a)所示，基于ResNet的图像特征提取网络包括依次连接的ResNet50和一个卷积层；所述ResNet50包括依次连接的卷积层、最大池化层、Bottleneck1模块和Bottleneck2模块；Bottleneck1模块和Bottleneck2模块分别如图3(b)、图3(c)所示；Bottleneck1模块和Bottleneck2模块均包括卷积层、Batch normalization层、ReLU层和残差连接，Bottleneck1模块先经过一个卷积层以增加输入通道维度，再进行残差连接；Bottleneck2模块直接进行残差连接。通过Bottleneck1模块和Bottleneck2模块引入残差连接，缓解了在神经网络中增加深度带来的梯度消失问题。

如图4(a)所示，基于Deformable attention的空间注意力模块包括三个依次连接的Deformable attention模块、Layer normalization层和全连接层，具体包括：第一Deformable attention模块、第一Layer normalization层、第一全连接层、第二Layernormalization层，第二Deformable attention模块、第三Layer normalization层、第二全连接层、第四Layer normalization层，以及第三Deformable attention模块、第五Layernormalization层、第三全连接层、第六Layer normalization层；如图4(b)所示，每个Deformable attention模块包括四个并行的Block模块，如图4(c)所示，Block模块包括全连接层、Softmax层和聚合层；Block模块实现了单个图像特征的空间注意力机制，Deformable attention模块则聚合了来自四个不同图像特征的Block模块的输出特征。

如图5所示，反卷积网络包括依次连接的第一3D反卷积层、第一3D Batchnormalization层、第一LeakyReLU层、第二3D反卷积层、第二3D Batch normalization层、第二LeakyReLU层。

如图6所示，预测网络包括依次连接的第四全连接层、LeakyReLU层、第五全连接层、Softmax层。

步骤(5)中，如图2所示，基于步骤(4)的数据集训练设计好的基于空间注意力机制的卷积神经网络模型，图像帧作为基于空间注意力机制的卷积神经网络模型输入，激光雷达点云数据用于监督基于空间注意力机制的卷积神经网络模型的训练；包括步骤如下：

e、一组通道维度为3(RGB三个通道)、分辨率大小为(h＝450,w＝800)的图像帧分别输入到四个ResNet50中，通过ResNet50提取到通道维度为2048的图像特征，然后，经过卷积核大小为1×1的卷积层后得到通道维度为256的图像特征，以降低后面连接的基于Deformable attention的空间注意力模块的参数量,其分辨率经过下采样32倍变为：h'＝h/32,w'＝w/32；(数值取整)；

f、将步骤e中从4张图像中提取到的图像特征在新增的第一个维度上拼接起来，然后叠加可学习的位置编码，使基于空间注意力机制的卷积神经网络模型能够区分来自不同位置摄像头1的图像特征；

i、使用相机内参矩阵和外参矩阵将q_p映射为来自第i个摄像头1的图片像素坐标(x_i,y_i)，如式(II)所示：

式(II)中，K_i是第i个摄像头1的内参矩阵，是将3×3的K_i扩展为4×4的矩阵，/>是第i个摄像头1的外参矩阵；R是3×3的旋转矩阵，它的第一列到第三列分别表示世界坐标系的X,Y,Z轴在相机坐标系下对应的方向；T是3×1的平移向量，表示世界坐标系原点在相机坐标系下对应的位置；z_i是Q_p在第i个摄像头1的相机坐标系下的z轴坐标；

j、若x_i<w且y_i<h，则表示Q_p在该摄像头1的图片上有对应的像素点，进一步计算该摄像头1的图像特征X_i上的参考点坐标进行后续注意力机制计算；否则，不在该摄像头1的图像特征X_i上进行注意力机制计算；注意力机制计算如式(III)所示：

l、将空间注意力模块输出的体素立方体特征输入到第一3D反卷积层、第一3DBatch normalization层、第一LeakyReLU层，得到形状为(64,32,16,128)的体素立方体特征，然后将其输入到第二3D反卷积层、第二3D Batch normalization层、第二LeakyReLU层，得到形状为(H＝128,W＝64,Z＝32,64)的体素立方体特征；

m、将反卷积网络输出的体素立方体特征输入到预测网络中的第四全连接层、LeakyReLU层、第五全连接层，得到形状为(128,64,32,2)的体素立方体特征，然后通过Softmax层输出体素不占用和占用的概率，概率更大的情况就是最终的三维占用预测结果；

式(IV)中，采用交叉熵损失，其中l＝H×W×Z，j代表类别：不占用和占用，F_i是使用激光雷达点云数据生成的第i个体素标签，采用onehot编码(标签为“不占用”时编码为10，标签为“占用”时编码为01)，F_i(j)是对应类别的标签；是基于空间注意力机制的卷积神经网络模型预测输出的第i个体素不占用和占用的概率，/>是对应类别的概率；

式(V)中，采用LovaszSoftmax损失，其中l＝H×W×Z，F是使用激光雷达点云数据生成的体素立方体标签，类别为数字0或1(“不占用”为0，“占用”为1)，是基于空间注意力机制的卷积神经网络模型预测输出的体素立方体，包含占用的概率，e是对F和/>二者的l个差值绝对值降序排序后的序列，sort_e()表示根据e的索引对F进行排序后得到序列F'，F_i'、F_j'分别表示序列F'中第i和第j个值；

式(VI)中，采用SmoothL1损失，其中M是每次计算时随机选取的激光雷达点与世界坐标系原点连成的射线条数(数量为该帧点云数据总量的1/5)，n是射线所经过的体素个数(截止到激光雷达点所在的体素)，p_i是基于空间注意力机制的卷积神经网络模型预测的射线上第i个体素的占用概率；

式(VII)中，M'是每次计算时随机选取的激光雷达点与世界坐标系原点连成的射线条数，M'＝2048，d是激光雷达点到世界坐标系原点的距离，是通过神经渲染技术预测的距离，N是射线上的采样点数量，N＝256，p_i是基于空间注意力机制的卷积神经网络模型预测的射线上第i个采样点的占用概率，做法是在体素立方体特征中用双线性插值得到该采样点的特征，然后通过预测网络得到该采样点的占用概率，d_i是第i个采样点到世界坐标系原点的距离；

步骤(6)中，如图7所示，输入待检测的图像帧，让步骤(5)训练好的基于空间注意力机制的卷积神经网络模型前向推理，生成三维占用预测结果；三维占用预测效果图如图8所示，图片第一行是待检测的一组图像帧，第二行是不同相机视角下观测到的三维占用预测结果，第三行左边是正前方的俯视图，第三行右边是正上方的俯视图，两幅图片底部长为4、宽为3、高为2(单位为体素)的立方体都代表小车所在位置。

综上所述，本发明将三维占用预测技术和神经渲染应用于视觉三维感知，相比于传统方法，无需搭载价格高昂的激光雷达2，大幅减少了成本；将三维占用预测技术和神经渲染结合起来，能够有效感知被遮挡区域的信息；所提出的基于空间注意力机制的卷积神经网络，能大大提高视觉三维感知的准确度。

实施例3

根据实施例2所述的一种基于三维占用预测和神经渲染的视觉三维感知方法，其区别在于：

模型输入的图像分辨率大小为(h＝720,w＝1280)。

实施例4

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1-3任一所述的基于三维占用预测和神经渲染的视觉三维感知方法的步骤。

实施例5

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1-3任一所述的基于三维占用预测和神经渲染的视觉三维感知方法的步骤。

实施例6

室内外场景数据集构建模块，被配置为：搭建数据采集的小车，小车前端并排放置两个摄像头1，左侧和右侧以一定倾角各放置两个摄像头1，在前端两个摄像头1的中间正后方位置以一定高度放置一个激光雷达2；对摄像头1和激光雷达2进行联合标定，得到每个摄像头1的内参矩阵和外参矩阵；分别在室内和室外环境下，遥控着小车行驶，通过摄像头1和激光雷达2同时采集视频和激光雷达点云数据，视频以图像帧的形式存储，激光雷达点云数据以360°水平角为一个循环存储为一帧；将图像帧及激光雷达点云数据按照时间戳顺序一一对应，构建数据集；

Claims

1.一种基于三维占用预测和神经渲染的视觉三维感知方法，其特征在于，包括步骤如下：

A、构建室内外场景数据集

(1)搭建数据采集的小车，小车前端并排放置两个摄像头，左侧和右侧各放置两个摄像头，在前端两个摄像头的中间正后方位置放置一个激光雷达；

2.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法，其特征在于，步骤(1)中，所述小车为WHEELTEC阿克曼小车，所述摄像头为海康威视U64摄像头，所述激光雷达为镭神智能C16激光雷达，小车前端并排放置两个摄像头，左侧和右侧以40°-60°倾角各放置两个摄像头，在前端两个摄像头的中间正后方位置以8cm-12cm高度放置一个激光雷达；

3.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法，其特征在于，步骤(2)中，对步骤(1)中的摄像头和激光雷达进行联合标定，得到每个摄像头的内参矩阵和外参矩阵，包括步骤如下：

4.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法，其特征在于，步骤(4)中，将图像帧及激光雷达点云数据按照时间戳顺序一一对应，构建数据集，包括步骤如下：

d、将步骤c处理后的数据集分为训练集、验证集和测试集；

5.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法，其特征在于，基于空间注意力机制的卷积神经网络模型包括依次连接的基于ResNet的图像特征提取网络、基于Deformable attention的空间注意力模块、反卷积网络和预测网络；

基于ResNet的图像特征提取网络包括依次连接的ResNet50和一个卷积层；所述ResNet50包括依次连接的卷积层、最大池化层、Bottleneck1模块和Bottleneck2模块；Bottleneck1模块和Bottleneck2模块均包括卷积层、Batch normalization层、ReLU层和残差连接，Bottleneck1模块先经过一个卷积层以增加输入通道维度，再进行残差连接；Bottleneck2模块直接进行残差连接；

基于Deformable attention的空间注意力模块包括三个依次连接的Deformableattention模块、Layer normalization层和全连接层，具体包括：第一Deformableattention模块、第一Layer normalization层、第一全连接层、第二Layer normalization层，第二Deformable attention模块、第三Layer normalization层、第二全连接层、第四Layer normalization层，以及第三Deformable attention模块、第五Layernormalization层、第三全连接层、第六Layer normalization层；每个Deformableattention模块包括四个并行的Block模块，Block模块包括全连接层、Softmax层和聚合层；Block模块实现了单个图像特征的空间注意力机制，Deformable attention模块则聚合了来自四个不同图像特征的Block模块的输出特征。

6.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法，其特征在于，反卷积网络包括依次连接的第一3D反卷积层、第一3D Batch normalization层、第一LeakyReLU层、第二3D反卷积层、第二3D Batch normalization层、第二LeakyReLU层；

进一步优选的，预测网络包括依次连接的第四全连接层、LeakyReLU层、第五全连接层、Softmax层。

7.根据权利要求1-6任一所述的一种基于三维占用预测和神经渲染的视觉三维感知方法，其特征在于，步骤(5)中，基于步骤(4)的数据集训练设计好的基于空间注意力机制的卷积神经网络模型，图像帧作为基于空间注意力机制的卷积神经网络模型输入，激光雷达点云数据用于监督基于空间注意力机制的卷积神经网络模型的训练；包括步骤如下：

式(II)中，K_i是第i个摄像头的内参矩阵，是将3×3的K_i扩展为4×4的矩阵，是第i个摄像头的外参矩阵；R是3×3的旋转矩阵，它的第一列到第三列分别表示世界坐标系的X,Y,Z轴在相机坐标系下对应的方向；T是3×1的平移向量，表示世界坐标系原点在相机坐标系下对应的位置；z_i是Q_p在第i个摄像头的相机坐标系下的z轴坐标；

将第二Deformable attention模块的输出与第二Deformable attention模块的query相加后输入到第三Layer Normalization层，该层输出与其通过第二全连接层后相加，之后输入到第四Layer Normalization层后得到新的输出特征，将其作为第三Deformableattention模块的query；

l、将空间注意力模块输出的体素立方体特征输入到第一3D反卷积层、第一3D Batchnormalization层、第一LeakyReLU层，得到形状为(H/2,W/2,Z/2,128)的体素立方体特征，然后将其输入到第二3D反卷积层、第二3D Batch normalization层、第二LeakyReLU层，得到形状为(H,W,Z,64)的体素立方体特征；

式(IV)中，采用交叉熵损失，其中l＝H×W×Z，j代表类别：不占用和占用，F_i是使用激光雷达点云数据生成的第i个体素标签，采用onehot编码，F_i(j)是对应类别的标签；是基于空间注意力机制的卷积神经网络模型预测输出的第i个体素不占用和占用的概率，/>是对应类别的概率；

式(V)中，采用LovaszSoftmax损失，其中l＝H×W×Z，F是使用激光雷达点云数据生成的体素立方体标签，类别为数字0或1，是基于空间注意力机制的卷积神经网络模型预测输出的体素立方体，包含占用的概率，e是对F和/>二者的l个差值绝对值降序排序后的序列，sort_e()表示根据e的索引对F进行排序后得到序列F'，F′_i、F′_j分别表示序列F'中第i和第j个值；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任一所述的基于三维占用预测和神经渲染的视觉三维感知方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一所述的基于三维占用预测和神经渲染的视觉三维感知方法的步骤。

10.一种基于三维占用预测和神经渲染的视觉三维感知系统，其特征在于，包括：