CN115965749A

CN115965749A - 一种基于雷视融合的三维重建设备

Info

Publication number: CN115965749A
Application number: CN202310250801.2A
Authority: CN
Inventors: 杨飚
Original assignee: Lianyi Yunke Beijing Technology Co ltd
Current assignee: Zhongshu Xingsheng Technology Co ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-04-14
Anticipated expiration: 2043-03-16
Also published as: CN115965749B

Abstract

本发明公开了一种基于雷视融合的三维重建设备，涉及三维重建领域，所述设备，包括：视频采集模块、雷达模块和处理模块；视频采集模块用于采集目标路口的视频数据；处理模块内置Pix2NeRF网络，用于根据所述Pix2NeRF网络构建神经辐射场，从而得到目标路口的多视角视图；根据多视角视图重建初始三维模型；雷达模块用于获取稀疏点云数据，并确定尺寸数据；处理模块内置类别识别模型；处理模块还用于根据类别识别模型和尺寸数据，对初始三维模型中的各目标物进行尺寸标注，得到目标路口的标注后的三维模型。本发明能实现雷视融合，提高三维重建的准确性。

Description

一种基于雷视融合的三维重建设备

技术领域

本发明涉及三维重建领域，特别是涉及一种基于雷视融合的三维重建设备。

背景技术

近年来人工智能技术，特别是计算机图像处理技术已经在众多领域得到了很好的应用。视频采集的图像数据有采样率高，精确度高的优势，可以对实际场景进行记录，目前主流的视频检测大多是1080P的分辨率，安装高度是8-10米，甚至可能是5米，它的有效检测范围为0-80米左右，但易受天气情况干扰，大雾、大风、暴雨或者是冰雪天气都会对视频图像的质量产生严重的影响。

激光雷达能够有效的弥补视频图像的缺陷，具有更远的探测范围和更准确的精度，并具有全天候检测的功能，不会像视频检测一样受到雾雨风冰雪天气的影响，能够准确标定坐标，确定物体准确的位置。因此，雷视融合可以准确的定位物体所在的位置，并采集到物体的图像。目前，如何实现雷视融合，以提高三维重建的准确性，成为亟待解决的问题。

发明内容

基于此，本发明实施例提供一种基于雷视融合的三维重建设备，以实现雷视融合，提高三维重建的准确性。

为实现上述目的，本发明提供了如下方案：

一种基于雷视融合的三维重建设备，包括：视频采集模块、雷达模块和处理模块；

所述视频采集模块和所述雷达模块均与所述处理模块连接；

所述视频采集模块，用于：

采集目标路口的视频数据；

所述处理模块内置三维重建算法Pix2NeRF；所述处理模块，用于：

根据所述视频数据和Pix2NeRF，得到所述视频数据对应的神经辐射场；

根据所述视频数据对应的神经辐射场得到所述目标路口的多视角视图；

根据所述多视角视图进行三维重建得到所述目标路口的初始三维模型；

所述雷达模块，用于：

获取所述目标路口的稀疏点云数据；

根据所述稀疏点云数据确定尺寸数据；

所述处理模块内置类别识别模型；所述类别识别模型是基于深度神经网络和支持向量机确定的；所述处理模块，还用于：

根据所述类别识别模型和所述尺寸数据，对所述初始三维模型中的各目标物进行尺寸标注，得到所述目标路口的标注后的三维模型。

可选地，所述基于雷视融合的三维重建设备，还包括：存储模块；所述存储模块分别与所述视频采集模块、所述雷达模块和所述处理模块连接；

所述存储模块，用于：

存储所述视频数据、所述稀疏点云数据、所述初始三维模型和所述标注后的三维模型。

可选地，所述基于雷视融合的三维重建设备，还包括：传输模块；

所述视频采集模块和所述雷达模块均通过所述传输模块与所述处理模块连接。

可选地，所述传输模块包括：5G模块和以太网模块；

所述视频采集模块通过所述5G模块与所述处理模块连接；

所述雷达模块通过所述以太网模块与所述处理模块连接。

可选地，所述处理模块，包括：依次连接的视频处理单元、ARM处理器和网络处理器；

所述视频处理单元，用于：

对所述视频数据进行像素编码，得到像素特征；

所述ARM处理器，用于：

将所述像素特征作为所述Pix2NeRF网络的输入，所述Pix2NeRF网络输出所述视频数据对应的神经辐射场；

根据所述神经辐射场得到所述目标路口的多视角视图；

所述网络处理器，用于：

可选地，所述视频采集模块，包括：相机模组和编码模组；

所述相机模组，用于：

采集所述目标路口的视频流；

所述编码模组，用于对所述视频流进行编码，得到所述视频数据。

可选地，所述视频采集模块，还用于：

获取视频数据中各帧图像的空间坐标；

所述Pix2NeRF网络，包括：自编码器和与所述自编码器连接的生成对抗网络；

所述自编码器用于提取输入图像的编码特征；所述生成对抗网络用于根据所述编码特征和对应的空间坐标，生成输入图像对应的神经辐射场。

可选地，所述深度神经网络为VGG16；所述深度神经网络用于提取所述初始三维模型的特征图；所述支持向量机用于对所述特征图进行分类，确定目标物。

可选地，所述处理模块，在根据所述类别识别模型和所述尺寸数据，对所述初始三维模型中的各目标物进行尺寸标注，得到所述目标路口的标注后的三维模型方面，具体用于：

根据所述类别识别模型确定所述初始三维模型中的目标物；

根据预设路口转换矩阵，将所述尺寸数据同步到所述目标物上，得到所述目标路口的标注后的三维模型。

可选地，所述雷达模块为激光雷达模组。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明实施例提出了一种基于雷视融合的三维重建设备，包括：视频采集模块、雷达模块和处理模块；处理模块根据Pix2NeRF网络，构建视频数据对应的神经辐射场，并根据由神经辐射场得到的多视角视图，重建初始三维模型；处理模块结合雷达模块采集的稀疏点云数据，对初始三维模型中的各目标物进行尺寸标注，得到最终标注后的三维模型，标注后的三维模型融合了视频数据和点云数据。因此，本发明基于视频采集模块采集的视频数据和雷达模块采集的稀疏点云数据构建三维模型，实现了雷视融合，提高了三维重建的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于雷视融合的三维重建设备的结构图；

图2为本发明实施例提供的基于雷视融合的三维重建设备的工作流程图；

图3为本发明实施例提供的单视角图像通过Pix2NeRF生成多视角视图示意图；

图4为本发明实施例提供的激光雷达工作示意图；

图5为本发明实施例提供的神经辐射场可视化示意图；

图6为本发明实施例提供的颜色和密度值可视化示意图；

图7为本发明实施例提供的初始三维模型示意图；

图8为本发明实施例提供的总线结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本实施例涉及到三维重建，首先对三维重建进行介绍。

三维重建指用传感器获取得到物体或者环境表面三维信息的技术，主要包括单视图和多视图三维物体重建。单视图三维物体重建指从特定视角拍摄的一张图像能看到物体的正面区域，根据假设物体的相对对称性进行重建，进而对物体完整形状进行合理估计，但当真实世界物体变得更加复杂时，此类方法通常会由于视觉线索原因导致重建丢失很多信息。多视图三维物体重建指从两张或者两张以上图像中恢复物体的三维形状，拍摄的多张物体图像通过点云、网格、体素等方式表达场景。目前，常用基于深度学习和基于几何外形恢复的方法对物体进行三维重建。

而神经辐射场（Neural Radiance Fields，NeRF）是当前最为火热的研究领域之一，它能将一些拍摄的图片生成新的视角下的图片，相较于传统的三维重建，将场景表示为点云、网格、体素等表达，它将场景建模成一个连续的5D辐射场隐式存在神经网络中，只需输入稀疏的多角度带姿势的图像训练即可得到一个神经辐射场，根据神经辐射场可以渲染出任意视角下的清晰的照片。本实施例基于神经辐射场，实现视频数据和稀疏点云数据构建三维模型，实现雷视融合，以提高三维重建的准确性。

参见图1，本实施例的基于雷视融合的三维重建设备，包括：视频采集模块、雷达模块和处理模块。所述视频采集模块和所述雷达模块均与所述处理模块连接。

所述视频采集模块，用于：采集目标路口的视频数据。

所述处理模块内置Pix2NeRF网络。所述处理模块，用于：根据所述Pix2NeRF网络，构建所述视频数据对应的神经辐射场；根据所述视频数据对应的神经辐射场得到所述目标路口的多视角视图；根据所述多视角视图进行三维重建得到所述目标路口的初始三维模型。

所述雷达模块，用于：获取所述目标路口的稀疏点云数据；根据所述稀疏点云数据确定尺寸数据。

所述处理模块内置类别识别模型；所述类别识别模型是基于深度神经网络和支持向量机确定的。所述处理模块，还用于：根据所述类别识别模型和所述尺寸数据，对所述初始三维模型中的各目标物进行尺寸标注，得到所述目标路口的标注后的三维模型。

在一个示例中，所述基于雷视融合的三维重建设备，还包括：存储模块；所述存储模块分别与所述视频采集模块、所述雷达模块和所述处理模块连接。所述存储模块，用于：存储所述视频数据、所述稀疏点云数据、所述初始三维模型和所述标注后的三维模型。

在一个示例中，所述基于雷视融合的三维重建设备，还包括：传输模块；所述视频采集模块和所述雷达模块均通过所述传输模块与所述处理模块连接。

在一个示例中，所述传输模块包括：5G模块和以太网模块。所述视频采集模块通过所述5G模块与所述处理模块连接；所述雷达模块通过所述以太网模块与所述处理模块连接。

在一个示例中，所述处理模块，包括：依次连接的视频处理单元、ARM处理器和网络处理器。

所述视频处理单元，用于：对所述视频数据进行像素编码，得到像素特征。所述视频处理单元可以为图像编码器。

所述ARM处理器，用于：将所述像素特征作为所述Pix2NeRF网络的输入，所述Pix2NeRF网络输出所述视频数据对应的神经辐射场；根据所述神经辐射场得到所述目标路口的多视角视图；根据所述多视角视图进行三维重建得到所述目标路口的初始三维模型。

所述网络处理器，用于：根据所述类别识别模型和所述尺寸数据，对所述初始三维模型中的各目标物进行尺寸标注，得到所述目标路口的标注后的三维模型。

在一个示例中，所述视频采集模块，包括：相机模组和编码模组。所述相机模组，用于：采集所述目标路口的视频流。所述编码模组，用于对所述视频流进行编码，得到所述视频数据。

在一个示例中，所述视频采集模块，还用于：获取视频数据中各帧图像的空间坐标。所述Pix2NeRF网络，包括：自编码器（Autoencoder，AE）和与所述自编码器连接的生成对抗（Generative Adversarial Network，GAN）网络；所述自编码器用于提取输入图像的编码特征；所述生成对抗网络用于根据所述编码特征和对应的空间坐标，生成输入图像对应的神经辐射场。

具体的，Pix2NeRF网络是由生成网络G、判别网络D和编码器E三部分组成的。其中，自编码器包括编码器E；以无监督学习为主，来获取输入图像的编码特征，编码特征包括物体姿态特征和物体形状特征，并利用学习到的特征重建出原始的数据。

自编码器，是一种利用反向传播算法使得输出值等于输入值的神经网络，它先将输入压缩成潜在空间表征，然后通过这种表征来重构输出，将原始特征空间通过编码映射到一个新的编码空间，得到编码特征。

GAN网络由一个生成网络G和一个判别网络D组成。编码特征输入生成网络G，生成网络G输出神经辐射场，判别网络D对生成网络G输出的神经辐射场进行判别，最终生成网络G输出满足判别条件的神经辐射场，这样通过编码特征，最终重构出与原来的物体形状不同的新视图。具体的，GAN网络的结构可以选用π-GAN。

在一个示例中，所述深度神经网络为VGG16；所述深度神经网络用于提取所述初始三维模型的特征图；所述支持向量机用于对所述特征图进行分类，确定目标物。VGG16为常用的神经网络之一。

在一个示例中，所述处理模块，在根据所述类别识别模型和所述尺寸数据，对所述初始三维模型中的各目标物进行尺寸标注，得到所述目标路口的标注后的三维模型方面，具体用于：

根据所述类别识别模型确定所述初始三维模型中的目标物；根据预设路口转换矩阵，将所述尺寸数据同步到所述目标物上，得到所述目标路口的标注后的三维模型。

在一个示例中，所述雷达模块为激光雷达模组。

本实施例的设备基于雷达和视频融合对采集的物体进行三维重建，视频模块获取特定时刻视频情况，作为三维重建的数据依据，雷达模块采集路口实际尺寸与映射比例做为场景位置的标定。使用Pix2NeRF网络，基于雷达对三维模型做出映射，使用一个全卷积网络来预测每个点在三维物体上的多模态分布，然后有效地融合这些多模态分布来生成对每个对象的预测。

上述基于雷视融合的三维重建设备的一个具体实现过程如图2所示，具体步骤如下：

步骤1：视频采集模块对路口进行视频数据采集，雷达模块进行同步扫描，将两份同步帧数据传输到存储模块。

步骤2：处理模块调用视频数据，输入Pix2NeRF网络，重建得到初始三维模型，将初始三维模型保存至存储模块。初始三维模型即未标注尺寸的三维模型。

模型结构：由两部分构成，第一部分是全卷积的图像编码器，用于将图像按像素编码为沿像素对准的像素特征，第二部分则是一个Pix2NeRF网络，本实施例的Pix2NeRF网络是基于传统NeRF优化而成，NeRF是多视图训练机器学习模型生成神经辐射场的网络结构称呼，Pix2NeRF网络由编码器E、生成网络G和判别网络D构成。Pix2NeRF网络用于读入视频数据中各帧图像的空间坐标和图像编码器进行像素编码后得到的像素特征，输出颜色和密度值，根据颜色和密度值生成神经辐射场，从而得到多视角视图。

Pix2NeRF网络的自编码器相当于一个PixelNeR，Pix2NeRF网络的GAN网络相当于一个PixelNeR，因此，Pix2NeRF网络的任务分成了两块，第一部分任务是PixelNeRF处理单张图像，第二部分任务则是PixelNeRF合并多视图。

三维重建过程：通过路口摄像头单方向的视频数据，结合基于神经网络的机器学习算法，采用Pix2NeRF网络，调用预训练的参数数据从单方向的视频数据合成新的视图。利用NeRF的体绘制方法，在没有显式3D监督的情况下直接以路口采集的视频数据作为神经网络素材，计算并获取路口的一个神经辐射场，基于该神经辐射场可以根据需要任意生成多视角视图，如图3所示，生成了五个不同角度的视图。

具体的，仍请参见图2，PixelNeRF网络中的编码器E，包括：第一编码器和第二编码器。PixelNeRF网络将与每个像素对齐的像素特征作为输入，先利用第一编码器获得图像的底特征，将提取到的底特征加入到第二编码器的输入中，以学习到场景的先验知识；再沿观察方向的目标相机光线的查询点，通过投影和内插法从特征体中提取出对应的编码特征，其中，底特征包括图像轮廓、边缘、颜色、纹理和形状特征。

底特征输入第二编码器，通过第二编码器获取编码特征，然后将该编码特征与对应的空间坐标一起反向传递到GAN网络中，利用输出的颜色和密度值进行体渲染，并将结果与目标像素值进行比较，计算渲染损失（Rendering Loss）；之后将变换后的空间信息和对应的特征信息提交到NeRF网络中获得中级特征向量；最后再用一个平均池化(AveragePooling)操作来将所有的向量聚合并输入到NeRF网络中，得到最后的颜色和密度值，根据颜色和密度值生成神经辐射场，作为后面生成多角度视图的依据。

将道路场景视作一个弱对称图片，通过机器学习算法补充生成多视角视图；使用体渲染技术沿光线累积此场景表示的采样点信息，以便从任何视角渲染场景。

步骤3：处理模块同步调用雷达数据，通过预设路口转换矩阵进行数据映射，将激光雷达测量尺寸同步到初始三维模型上。即本实施例的雷视融合算法，是通过毫米波雷达提取数据，通过转换矩阵将尺寸对应到三维重建后生成的模型上实现的。激光雷达工作过程如图4所示。

激光雷达主要通过旋转的方式向空间发射16线的机构光，通过计算光路从传感器的发射时间到传感器的接收时间之差来计算飞行时间，根据光的传播速度和时间差计算空间点的距离，并结合光的线程识别和空间坐标变换来计算返回点的空间位置信息等。

三维激光扫描获得的数据被形象的称为稀疏点云，是一种特殊的图像，又叫深度图像。图像中存储的是每个点的三维坐标信息。点云按照矩阵的形式进行排列。获取的三维激光扫描数据用数学表达式表示如下：

其中，M表示所获取的稀疏点云的点集。X是扫描点集的行数，m是行索引值，Y是扫描点集的列数，n是列索引值，X＞1，Y＞1。P(m,n)表示点云集合中点的坐标。

原始点云仍存在着各种缺陷，如：存在随机噪声数据、具有数据点丢失等问题。故从点云数据提取实际尺寸结合神经辐射场前需要预处理，删除不合格的点云，提高精确度。点云预处理通常包括去除离群点、滤波等步骤。

点云法向量的计算方法选择局部表面拟合的方法：假设点云的采样平面是光滑的，那么任意点的邻域都能拟合出一个局部平面，算法中使用主元分析法（PrincipalComponent Analysis，PCA）对协方差矩阵进行特征值求解，并为每个点的邻近点赋予高斯权重，距离该点越近，其权重越大，对法向量估计的影响也越大，从而使得法向量的估计结果更为准确。

快速空间索引选择kd-tree方法，对每个点解出法向量，获取点云模型，再通过4点全等集点云配准（4-Points Congruent Sets，4PCS）算法提取刚性变换模型，生成点云三维重建模型。

下面利用一种新的自适应非最大抑制（Non Maximum Suppression，NMS）算法来消除重叠的边框分布。

NMS：给出神经辐射场上面许多物体检测的候选框（即每个框可能都代表某种物体），但是这些框很可能有互相重叠的部分，利用非极大值抑制找到最佳的目标边界框，消除冗余的边界框，只保留最优的框。1.首先对需要进行抑制的同类别bounding-boxes按照预测的置信度conf进行降序排序；2.取出排好序的ns_boxes中的第一项，计算其与剩余项间交并比，获得一个交并比list；3. 判断这些交并比是否大于设定的抑制阈值 nms_thresh （关键假设：如果 list > nms_thresh，说明该bounding-box与置信度最大的bounding-box同属一个实例的推断，应该被抑制；反之，该bounding-box属于不同实例），大于设定的抑制阈值就抑制（即删掉），小于就保留。执行完一轮后，将剩下的boxes继续执行上述步骤；4. 停止条件为：ns_boxes 为空，即需要抑制的集合中没有任何选项。雷达中的检测器并不是均匀间隔的。通过使用id将点映射到行，并在传感器捕获数据时直接处理数据，可以提高性能，从而生成神经辐射场，进而获取高精度的三维重建模型。三维重建模型如图5、图6和图7所示。

步骤4：调用重建模型进行后期规划。

在实际应用中，上述基于雷视融合的三维重建设备，可为路口设计规划提供参考依据。基于此，结合图8，对该设备进行进一步介绍。

视频采集模块：包括CMOS（Complementary Metal Oxide Semiconductor，互补金属氧化物半导体芯片）模块和编码模组。CMOS模块作为相机模组，用于存储计算机基本启动信息，并采集目标路口的视频流；编码模组用于对视频流进行编码，得到视频数据。该视频采集模块获取特定时刻的视频数据，作为三维重建的数据依据。该视频采集模块将高清视频流进行H.264或者H.265编码通过网络输出。

雷达模块：包括激光雷达模组，与采集路口实际尺寸有关。

传输模块：包括5G模块和以太网模块。

存储模块：包括固态硬盘（Solid State Disk，SSD）、安全数码卡（SecureDigitalCard，SDC）以及视频编码器，SSD用于存储带时间戳的稀疏点云数据与视频数据，SD用于存储初始三维模型以及进行标注后的三维模型。

处理模块：包括依次连接的视频处理单元（Video Processing Unit，VPU）、ARM处理器和网络处理器（NPU）。VPU作为专门面向AI场景优化设计的视频加速器。

VPU、ARM处理器和NPU分别通过各自提供的接口实现相应的功能。

具体的：

视频采集模块采集路口实际数据，将高清视频流进行H.264或者H.265编码通过网络传输到处理模块，处理模块中的VPU将解码后的视频数据进行像素编码后输入到ARM处理器，ARM处理器上会运行训练好的完整三维重建模型，完整三维重建模型输出的神经辐射场通过传输模块存储在存储模块中；NPU采用“数据驱动并行计算”的架构，适合处理视频、图像类的海量多媒体数据，用于调取固态硬盘中的视频数据训练神经网络，将网络参数报存至安全数码卡中；雷达模块获取路口实际数据，测量路口尺寸后将尺寸数据通过以太网传输至存储模块，处理模块将从类别识别模型中自动提取神经辐射场中的目标路口的多视角视图，类别识别模型实现雷达视频数据融合功能，类别识别模型将数据，基于目标特征、差值和融合置信度，采用贪心算法判定是否为同一目标物，对同一目标进行标注，对视图数据进行尺寸标注，获取真实的路口模型数据。

首先，在对应视角视图（包括神经辐射场的多视角视图和三维模型的多视角截面视图）通过选择性搜算生成1k-4k候选区域，对每个候选区域都使用深度神经网络VGG16提取特征，提取到的特征包括目标特征、差值、融合置信度；使用SVM对每一个特征图进行分类，判断是否属于该类别；基于贪心算法原理，将SVM分类的特征图进行特征提取，获得每个组的局部最优解，将整体最优解比对问题转换为一系列局部最优的比较，判断目标特征相相似度以此进行目标检测。

VGG16适用于分类和定位任务标准通用模型，其名称来自牛津大学几何组，本实施例不做修改。

VGG16模型结构主要包括input层、conv3-64层、conv3-128层、maxpool层、FC-4096层、FC-1000层以及padding层，具体如下：

input层指的是输入图片大小为224×244的彩色图像，通道为3，即224×224×3。

conv3-64层是指第三层卷积后维度变成64，同样地，conv3-128层指的是第三层卷积后维度变成128。

maxpool层是指最大池化，在VGG16中，pooling采用的是2*2的最大池化方法。

FC-4096层指的是全连接层中有4096个节点，同样地，FC-1000层为该层全连接层有1000个节点。

padding层指的是对矩阵在外边填充n圈，padding=1即填充1圈，5×5大小的矩阵，填充一圈后变成7×7大小，按照input-pool-padding的顺序进行连接。VGG16中每层卷积的滑动步长stride=1，padding=1，卷积核大小为333。

支持向量机（Support Vector Machine，SVM）是按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面，可以将问题化为一个求解凸二次规划的问题。

在一个示例中，仍请参见图8，该设备，还包括：视频总线开关、总线开关、网络总线开关、系统扩展总线和视频扩展总线。

视频采集模块通过视频总线开关与系统扩展总线连接，雷达模块通过总线开关与系统扩展总线连接，网络总线开关用于连接BIT与系统扩展总线，系统扩展总线与处理模块连接。BIT表示内置psp芯片的VFV，BIT用于对通过网络端口的数据进行封装。

传输模块和存储模块通过视频扩展总线与处理模块的连接。

在一个示例中，仍请参见图8，该设备，还包括：加密模块，加密模块采用ESAM（Embedded Secure Access Module，嵌入式安全访问模块）；加密模块与处理模块的GPIO（General-purpose input/output，通用输入输出）连接；加密模块用于对高清视频流进行加密。

在一个示例中，仍请参见图8，该设备，还包括：PHY（Port Physical Layer，端口物理层），PHY是一个对OSI模型物理层的共同简称。PHY与处理模块的EMAC/MDIO连接，EMAC（Ethernet Media Access Controller，以太网介质访问控制器）控制从系统到PHY的包数据流，MDIO（Management Data Input/Output，管理数据输入输出）控制PHY配置和状态监视，由于EMAC和MDIO与系统内核的接口都是通过一个用户接口，故EMAC/MDIO一起被看作是一个整体。

在一个示例中，处理模块具有EMIF（External Memory Inter Face，外部存储器接口），EMIF有两个接口EMIFA和EMIFB，参见图8，本实施例处理模块的外部存储接口选用EMIFA，数据总线为64位，即数据总线对数据的操作以八个字节为单位。EMIFA通过视频扩展总线与5G模块、SSD和SD连接。

处理模块具有McBSP（Multi-channel buffered Serial Ports，多通道缓冲串行口），McBSP与系统扩展总线连接。

此外，除上述实现方式之外，还可基于视频图像的方式完成三维重建，如基于标定图像的三维重建方式。标定图像是指相机参数未知的情况下在不限定的位置所拍摄的图像，在基于未标定图像的三维重建的过程中，仅仅需要在不同位置拍摄的图像即可。相机标定实质上是指确定相机内、外参数的过程，标定后由相机参数确定一个映射模型，该模型的准确性将决定最终三维重建的精度。相机标定的目的就是求二维图像上的像素点与三维空间中的相对应的坐标点之间的对应关系，即成像平面在像素坐标系中的二维投影点与其对应的三维空间中世界坐标系中的实体点的坐标之间的数学映射模型，在模型建立的过程中需要计算相机的几何和光学等内部参数，以及相机在世界坐标系中的运动轨迹、旋转变量等外部参数。基于相机标定的基本原理以及分类方法，并且采用张正友平面标定的方法对所使用的相机进行标定，得出相机的内、外参数，为三维重建做好准备工作。

选取同一场景左右视角的两幅图像，采用 Harris 角点检测算法对图像中的角点进行检测提取，角点（特征点）是指图像中周围亮度变化剧烈的点。特征点提取之后，再进行特征匹配，得到一定数量匹配点对，并将每 8 对匹配点分为一组；然后在小组内使用归一化 8 点法进行基础矩阵估计，得出相应的基础矩阵，构成基础矩阵种群；最后利用自适应混沌模拟退火粒子群优化算法（ACPSO-SA）对种群进行优化，消去由误匹配引起的劣质解，提高基础矩阵估计的精度，得到图片中物体的三维点云。

下一步是要由三维点云进行三维表面重建。选用 Delaunay 三角化的算法中最经典的PowerCrust 算法对点云进行三角化得到三维模型。

该实现方式不需要3D数据、多视角或相机参数，模拟新视角，从二维图像中恢复物体的三维结构，并进行渲染。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于雷视融合的三维重建设备，其特征在于，包括：视频采集模块、雷达模块和处理模块；

所述视频采集模块和所述雷达模块均与所述处理模块连接；

所述视频采集模块，用于：

采集目标路口的视频数据；

所述处理模块内置Pix2NeRF网络；所述处理模块，用于：

根据所述Pix2NeRF网络，构建所述视频数据对应的神经辐射场；

所述雷达模块，用于：

获取所述目标路口的稀疏点云数据；

根据所述稀疏点云数据确定尺寸数据；

2.根据权利要求1所述的一种基于雷视融合的三维重建设备，其特征在于，还包括：存储模块；所述存储模块分别与所述视频采集模块、所述雷达模块和所述处理模块连接；

所述存储模块，用于：

3.根据权利要求1所述的一种基于雷视融合的三维重建设备，其特征在于，还包括：传输模块；

4.根据权利要求3所述的一种基于雷视融合的三维重建设备，其特征在于，所述传输模块包括：5G模块和以太网模块；

所述视频采集模块通过所述5G模块与所述处理模块连接；

所述雷达模块通过所述以太网模块与所述处理模块连接。

5.根据权利要求1所述的一种基于雷视融合的三维重建设备，其特征在于，所述处理模块，包括：依次连接的视频处理单元、ARM处理器和网络处理器；

所述视频处理单元，用于：

对所述视频数据进行像素编码，得到像素特征；

所述ARM处理器，用于：

根据所述神经辐射场得到所述目标路口的多视角视图；

所述网络处理器，用于：

6.根据权利要求1所述的一种基于雷视融合的三维重建设备，其特征在于，所述视频采集模块，包括：相机模组和编码模组；

所述相机模组，用于：

采集所述目标路口的视频流；

7.根据权利要求1所述的一种基于雷视融合的三维重建设备，其特征在于，所述视频采集模块，还用于：

获取视频数据中各帧图像的空间坐标；

8.根据权利要求1所述的一种基于雷视融合的三维重建设备，其特征在于，所述深度神经网络为VGG16；所述深度神经网络用于提取所述初始三维模型的特征图；所述支持向量机用于对所述特征图进行分类，确定目标物。

9.根据权利要求1所述的一种基于雷视融合的三维重建设备，其特征在于，所述处理模块，在根据所述类别识别模型和所述尺寸数据，对所述初始三维模型中的各目标物进行尺寸标注，得到所述目标路口的标注后的三维模型方面，具体用于：

根据所述类别识别模型确定所述初始三维模型中的目标物；

10.根据权利要求1所述的一种基于雷视融合的三维重建设备，其特征在于，所述雷达模块为激光雷达模组。