CN117115359A

CN117115359A - 一种基于深度图融合的多视图电网三维空间数据重建方法

Info

Publication number: CN117115359A
Application number: CN202311339931.XA
Authority: CN
Inventors: 黄钰惠; 杨济海; 于仕; 邱贞宇; 彭鸿钊; 江文燕; 余志琴; 肖子洋
Original assignee: Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2023-11-24
Anticipated expiration: 2043-10-17
Also published as: CN117115359B

Abstract

本发明公开了一种基于深度图融合的多视图电网三维空间数据重建方法，将设备采集到的多张电网图像数据作为输入；提取多张视图特征并匹配；采用增量式SfM算法，获取相机拍摄视图时的位姿及其内外参数序列；采用局部特征和全局特征融合的视图编码方法获得视图的全局特征和局部特征并融合，通过自适应视图权重网络的多成本体积聚合模块聚合并实现深度估计；采用边缘检测和语义分割识别点云特征区域精简点云，实现深度图融合，重建出目标点云；对目标点云进行统计滤波，去除噪声点云；将点云数据在线存储在数据中台，实现二三维空间资源数据的应用和展示。本发明在保证重建高质量点云的基础上，有效减少三维重建的时间成本和资源消耗。

Description

一种基于深度图融合的多视图电网三维空间数据重建方法

技术领域

本发明属于数据重建技术领域，具体涉及一种基于深度图融合的多视图电网三维空间数据重建方法。

背景技术

电网一张图是支撑电网网架管理、应急抢修指挥、故障综合研判、停电分析到户、网上电网等应用的核心基础。前期电网一张图采用传统的设计、现场测量、巡检上报、成果展示等二维方式，位置环境信息采用的经纬度定位较为单一，在后续实际场景图展示中仅能以点状呈现，无法显示二维或三维信息，导致运维人员能获取的电网场景内容不充分，难以满足现阶段电网建设需求。因此，电网三维数据资源获取、汇集和应用成为近年来的关注热点。

根据三维重建技术使用的数据来源，可以将其分为主动式三维重建技术和被动式三维重建技术。主动式三维重建技术如无人机机载激光雷达技术，能够一定程度上帮助解决电力巡线场景中的空间定位和量测精度等问题。激光雷达的三维重建简单直接、精度较高，但是由于其设备的成本高昂，该设备难以普及，并且其深度传感器捕获的深度图通常是稀疏的，容易受到距离光照等环境因素的干扰，适用范围受到了很大限制，通常只适用于室内场景，在室外复杂环境下重建效果较差，不适用于大规模场景的电网三维空间数据重建。被动式三维重建技术则不需要人为控制测量设备，一般通过目标场景多个视角的图像，根据立体视觉方法恢复深度信息，构建三维模型。该方法没有采集设备的限制，普适性好，成本低廉，能够灵活适应室内外的多种场景，并且图像还包含深度传感器无法捕获的信息，例如纹理和照明，这些线索对于重建更精细的3D 模型至关重要。相对于主动式重建技术，被动式三维重建技术能够更快更准确地捕获大型物体和复杂场景，具有很高的实用价值。现阶段，被动式三维重建技术流程根据立体几何理论通过传统计算机视觉方法已经能够实现，但仍存在着诸如重建效果差、时间消耗大等问题。

发明内容

本发明的目的在于提供一种基于深度图融合的多视图电网三维空间数据重建方法，解决现有多视图三维重建算法重建出的点云存在空洞现象、细节纹理模糊及模型泛化能力不足的问题，同时在保证重建高质量点云的基础上，有效减少三维重建的时间成本和资源消耗，以更好地支撑电网一张图实现二三维空间资源数据的展示。

为达到此发明目的，本发明通过以下方案予以实现：一种基于深度图融合的多视图电网三维空间数据重建方法，包括如下步骤：

步骤S1：通过无人机、手持设备方式，采集电网图像数据将采集到的图像数据作为输入数据；

步骤S2：特征检测与匹配：提取图像特征，进行视图之间的特征匹配；

步骤S3：稀疏重建：采用增量式 SfM 算法，获取每个视图拍摄时相机对应的位置和姿势，从而获取相机内外参数序列；

步骤S4：多视图深度估计：多视图深度估计网络利用在前序步骤中获得的信息，通过局部特征和全局特征融合的视图编码方法获得视图的对应特征并融合，通过自适应视图权重网络的多成本体积聚合模块聚合并实现深度估计；

步骤S5：深度图融合：通过边缘检测和语义分割，采用基于数据点的精简方法，完成深度图融合，重建出目标点云；

步骤S6：点云去噪：对目标点云进行统计滤波，去除噪声点云；

步骤S7：将电网三维点云数据在线存储至数据中台，电网GIS平台从数据中台获得原始空间数据，融合处理后发布三维模型数据服务。多维多态电网一张图集成电网GIS平台三维组件，支撑输电巡检、无人机自主飞行、设计勘察等业务应用场景。

进一步地，所述步骤S2中，对于给定待匹配的两幅图像，匹配方法由三个独立的阶段组成：特征检测、特征描述和特征匹配；首先采用SIFT算法，从每个图像中检测出具有显著特征的特征点；然后基于兴趣点的邻域信息计算特征描述符；两张图像产生两组兴趣点，随后由最近邻搜索或更复杂的匹配算法找到这些点到点的对应关系，在特征提取的基础上，计算描述子之间的距离或相似性，并且通过一些过滤算法去除误匹配的特征点，改善匹配结果的准确性。

进一步地，所述步骤S3中，采用增量式SfM算法进行稀疏重建，增量式SfM算法分为两个步骤：初始视图对选取和增量式重建；

初始视图对选取根据视图间的相对几何关系和场景可见性进行选择，即通过单应性矩阵内点比例、图像几何关系质量评价指标评估最佳初始视图对；选择初始视图对后，利用特征点匹配的结果，通过对极几何求解初始视图对的相对位姿，生成初始稀疏点云；随后增量式地添加下一幅图像到现有模型中，使用PnP算法估计新注册图像的相对位姿和生成新的点云；在这个过程中，增量式SfM算法每注册一定数量的视图后就通过光束平差法对目标场景中所有视图的相机位姿和稀疏点云位置进行捆绑调整；捆绑调整的目标为最小化重投影误差，使用Levenberg-Marquardt算法进行求解。

进一步地，所述步骤S4中，多视图深度估计网络包含两个模块：局部特征和全局特征融合的视图特征编码模块、基于自适应视图权重的成本体积聚合模块；所述局部特征和全局特征融合的视图特征编码模块，在浅层卷积网络的基础上引入金字塔Transformer结构，融合两个网络提取的特征，并利用交叉注意力机制增强视图间的关联，获得更加精准的视图特征表达；所述基于自适应视图权重的成本体积聚合模块，通过自适应视图权重网络的多成本体积聚合模块，学习不同视图像素级的聚合权重，并采用3D-UNet正则化聚合后的成本体积，实现深度估计。

进一步地，所述局部特征和全局特征融合的视图特征编码模块包括：特征提取模块和特征融合模块；

特征提取模块：由两条分支组成，一个CNN网络和一个PVT特征提取网络，CNN网络用于编码图像局部特征，其中、、、分别为第1、 2、3、4个局部特征，PVT特征提取网络用于编码全局特征；

特征融合模块：首先通过卷积解码器将PVT特征提取网络提取出的全局特征的维度与局部特征的维度对齐；随后，对于维度对齐后的两种特征，通过解码器消除两者之间的语义差异；拼接全局特征与最小尺度的局部特征得到融合后的最小尺度特征；随后将经过双线性上采样后与下一级局部特征融合得到扩大尺度的特征，将经过双线性上采样后与下一级局部特征融合得到扩大尺度的特征，将经过双线性上采样后与下一级局部特征融合得到扩大尺度的特征，并将不同分辨率的特征输出；最后，将融合后的多视图特征作为下一节的输入。

进一步地，所述特征提取模块中，采用PVT特征提取网络提取图像的全局特征，将整个编码过程划分为不同的阶段，在每个阶段开始时，特征图的长和宽均减半，并扩大特征通道数；

每个阶段的输入为一个维度为的特征图，、、分别为特征图的高、宽、通道数，每个阶段首先将特征图分为大小一致的patch，每个patch拉平对齐为不同的向量，加上各自的位置编码；PVT 特征提取网络引入了空间减少注意力SRA来替换 ViT 中的多头注意力机制，实现图像全局特征的编码；SRA的具体计算过程为：

，

其中，SRA在一组查询、键和值上计算注意力函数，这些查询、键和值分别打包成一个矩阵、和，为第个注意力头矩阵，为第个视图的注意力层数量，是权重矩阵，表示矩阵拼接操作，Attention()表示注意力机制，、、分别是查询、键和值的不同权重矩阵，减小输入序列的维度，计算过程如下：

，

其中，表示输入序列，表示尺度缩减率，将输入序列的尺度转换为，是一个线性投影层，将输入矩阵的通道数减少到表示层归一化；的计算过程如下：

，

其中，为注意力头的个数，为归一化指数函数，为转置运算。

进一步地，所述基于自适应视图权重的成本体积聚合模块用于执行以下步骤：

步骤S411：深度值采样：首先对给定的深度范围对深度值进行采样，采样过程中，每个像素位置采样多个垂直于参考视角法线方向的不同深度的前向平面作为假设平面，此后每一级的深度采样都是一个由上一级确定的前向曲面，最终获得的深度采样值为，为深度采样的数量；

步骤S412：单视图特征体积增强：源视图特征经过单应性变换和双线性插值得到参考视图坐标系下的单应性特征图，并将其按照深度采样的顺序堆叠得到每个源视图的特征体积，用单应性特征图与参考视图特征图进行匹配，得到每个像素位置处不同深度采样值的权重，然后，应用到该视图的不同深度采样上，得到增强后的源视图特征体积；公式如下所示：

，

其中，为单个源视图的特征体积，为的维度，是一个常数，T为转置运算，为参考视图特征图；

步骤S413：基于自适应视图权重网络的成本体积聚合：采用自适应视图权重网络，学习源视图特征体积在成本体积聚合过程中的权重；

步骤S414：成本体积正则化：采用3D-UNet正则化成本体积，正则化后的成本体积通过一个Softmax层生成概率体积；其中，的大小为，和代表当前阶段的特征分辨率，为深度采样的数量；特征图中每个位置上的向量表示该位置在不同深度采样值的概率；

深度估计：采用分类的方法预测每个位置上的深度值，每个像素点对应的深度值通过如下公式进行计算：

，

其中，为第个深度采样值，M为深度采样的数量，D为最终的深度图，P表示参考视图的概率体积。

进一步地，所述步骤S413中，采用的基于自适应视图权重网络的成本体积聚合过程包括：

视图选择网络的输入为单个源视图的特征体积和参考视图特征图；首先将参考视图特征复制扩充到相同的维度得到，然后计算两个特征之间的相似度作为视图选择网络的输入；最终的成本体积为多个特征体积的加权均值；整个过程的符号表达形式为：

，

其中，为源视图的数量，，表示自适应视图权重网络，该网络由若干卷积层堆叠而成。

进一步地，所述步骤S5中，首先在图像中识别出点云中的特征区域，在点云融合过程中分别融合特征点云和非特征点云，对两个点云分别应用不同的精简算法，最后合并为完整点云；

所述点云中的特征区域定义为图像中的边缘信息，即指图像中像素值相对发生剧烈变化的区域；在点云中，特征区域往往是曲率变化较大的位置，即点云中的凸角或凹角处，周围点的密度、局部形状变化较大，这些位置投影到图像中，构成图像中的边缘信息；通过Canny算子检测待重建图像中的边缘信息并投影到三维空间中，作为目标点云的特征区域；

所述深度图融合分为特征点云融合和非特征点云融合，在非特征点云融合过程中，采用基于体素的点云精简算法，减少点的数量，然后混合多个非特征点云构成目标场景的非特征点云区域；最后，将混合后的特征区域与非特征区域结合为精简后的目标点云。

进一步地，所述步骤S6中，采用点云的统计滤波算法SOR，计算每个点邻域内其他点的平均距离和标准差，通过距离阙值来判断每个点是否为离群点；给定邻域点数量k和标准差的倍数参数，首先基于点在三维空间中的位置构造kd树；遍历点云，选择每个点最邻近的k个点并计算该点到所有邻域点的距离；统计所有距离的平均值/>和标准差/>，计算离群距离/>：

，

再次遍历点云，如果任意点到邻域的平均距离大于离群距离，则认为该点为噪声点，并从原始点云中删除。

与现有技术相比，本发明的有益效果包括：

(1)本发明提出了一种局部特征和全局特征融合的视图编码方法，在浅层卷积网络的基础上，引入金字塔视觉 Transformer 用于编码图像的全局上下文，融合两个网络提取出的特征，解决不同特征之间的维度和语义差异，增强模型对视图的编码能力。本发明克服了复杂的光照条件变化、重复纹理区域导致三维重建的完整度较差，重建结果出现空洞现象的问题，从而提升了三维重建的精度；

(2) 本发明提出了一种基于自适应视图权重网络的成本体积聚合模块。在多视图聚合过程中通过自适应权重网络学习不同视图像素级的聚合权重，并正则化聚合后的成本体积实现深度估计。本发明有效解决了视图间存在遮挡导致的局部不一致的问题，提高了重建准确度。

(3) 本发明在深度图融合过程中，采用一种结合语义信息和点云特征的深度图融合方法，通过识别点云特征区域精简点云，减小点云规模，简化后续处理；同时采用统计滤波的方式去除漂浮噪声。对于大规模和较高分辨率的电网图像，本发明很好的解决了当前多视图三维重建方法需要大量的计算和存储资源和重建流程的时间消耗较大的问题，极大提高了重建速度。

(4) 本发明没有采集设备的限制，普适性好，成本低廉，能够灵活适应电网的多种室内室外场景，并且图像还包含深度传感器无法捕获的信息，例如纹理和照明，这些线索对于重建更精细的3D 模型至关重要。并且，本发明能够更快更准确地捕获大型物体和复杂场景，具有很高的实用价值。

附图说明

图1为本发明的一种基于深度图融合的多视图电网三维空间数据重建方法流程图；

图2为本发明的多视图深度估计网络整体结构；

图3为本发明的局部特征和全局特征融合的视图特征编码网络结构；

图4为本发明的特征融合模块结构示意图；

图5为本发明的基于自适应权重网络的成本体积聚合；

图6为本发明的深度图融合流程图；

图7为本发明的实验无人机航拍参考视图及重建效果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案，并不限于本发明。

实施例1

如图1所示，一种基于深度图融合的多视图电网三维空间数据重建方法，包括以下步骤：

步骤S1：通过无人机、手持设备方式，采集输配电线路、变电站等图像数据将采集到的图像数据作为输入数据；

步骤S2：特征检测与匹配：采用SIFT算法作为特征检测算法，这是由于SIFT 特征在不同尺度上检测特征点，使用高斯滤波和高斯差分来提高特征点的鲁棒性，具有旋转和尺度不变性。对于给定待匹配的两幅图像，SIFT特征匹配方法由三个独立的阶段组成：特征检测、特征描述和特征匹配。首先从每个图像中检测出具有显著特征的点。然后基于兴趣点的邻域信息计算特征描述符。两张图像产生两组兴趣点，随后由最近邻搜索或更复杂的匹配算法找到这些点到点的对应关系，在特征提取的基础上，计算描述子之间的距离或相似性，并且通过一些过滤算法去除误匹配的特征点，改善匹配结果的准确性。

步骤S3：稀疏重建：采用增量式SfM算法进行稀疏重建，一般而言，增量式SfM算法可以分为两个步骤：初始视图对选取和增量式重建。初始视图对选取十分重要，往往根据视图间的相对几何关系和场景可见性进行选择，即通过单应性矩阵内点比例、图像几何关系质量评价指标等评估最佳初始视图对。选择好合适的初始视图对之后，利用特征点匹配的结果通过对极几何求解初始视图对的相对位姿，生成初始稀疏点云。随后增量式地添加下一幅图像到现有模型中，使用PnP算法估计新注册图像的相对位姿和生成新的点云，增加目标场景的覆盖范围。在这个过程中，为了避免出现场景漂移现象，增量式SfM算法往往每注册一定数量的视图后就通过光束平差法对目标场景中所有视图的相机位姿和稀疏点云位置进行捆绑调整。捆绑调整的目标为最小化重投影误差，通常使用Levenberg-Marquardt算法进行求解。

步骤S4：多视图深度估计：多视图深度估计网络主要包含两个模块：局部特征和全局特征融合的视图特征编码模块、基于自适应视图权重的成本体积聚合模块，多视图深度估计网络整体结构如图2所示。

局部特征和全局特征融合的视图特征编码模块主要由两个部分组成：特征提取模块和特征融合模块。局部特征和全局特征融合的视图特征编码网络结构如图3所示。

特征提取模块由两条分支组成，一个小型CNN网络和一个金字塔视觉Transformer(PVT) 特征提取网络。

小型CNN网络用于提取图像的局部特征，该网络是一个十一层的卷积神经网络，网络的输出为多尺度的特征图。详细的网络参数设置如表1所示。

表1

，

其中表示卷积层、归一化层和Relu层的组合，模型参数分别表示输入通道数、输出通道数、卷积核大小、卷积步长和空白填充的宽度。在卷积网络的第 3、6、9 层卷积中，卷积步长被设置为2，特征图的长宽分别被缩小为原来的1/2。

PVT特征提取网络用于提取图像的全局特征，采用一个类似于卷积神经网络的金字塔结构，将整个编码过程划分为不同的阶段，在每个阶段开始时，特征图的长和宽均减半，并扩大特征通道数。此外，PVT特征提取网络引入了空间减少注意力(SRA)来替换ViT中的多头注意力机制，实现图像全局特征的编码。

假设每个阶段的输入为一个维度为的特征图，、、分别为特征图的高、宽、通道数，每个阶段首先将特征图分为大小一致的patch，每个patch拉平对齐为不同的向量，加上各自的位置编码；在编码过程中，随着特征进入不同的阶段，特征维度逐渐增加，特征图尺度减小，因此整体资源消耗不会增大。此外，PVT特征提取网络引入了空间减少注意力(SRA)来替换 ViT 中的多头注意力机制，实现图像全局特征的编码。SRA的具体计算过程为：

，

表示输入序列，表示尺度缩减率，将输入序列的尺度转换为，是一个线性投影层，将输入矩阵的通道数减少到表示层归一化；与传统的Transformer一致，的计算过程如下：

，

特征融合模块：为了解决提取出的局部特征和全局特征之间的特征维度不一致和特征语义差异的问题，首先通过小型卷积解码器将PVT特征提取网络提取出的全局特征的维度与局部特征的维度对齐。随后，对于维度对齐后的两种特征，通过解码器消除两者之间的语义差异。拼接全局特征与最小尺度的局部特征得到融合后的最小尺度特征。随后将经过双线性上采样后与下一级局部特征融合得到扩大尺度的特征，将经过双线性上采样后与下一级局部特征融合得到扩大尺度的特征，将经过双线性上采样后与下一级局部特征融合得到扩大尺度的特征，并将不同分辨率的特征输出。最后，将融合后的多视图特征作为下一节的输入。后文中对特征的处理均是针对相同尺度的特征进行描述，因此在描述过程中忽略每一级的标识，视图对应的特征记为。特征融合模块示意图如图4所示。

基于自适应视图权重的成本体积聚合模块主要包括以下4个步骤：深度值采样、单视图特征体积增强、基于自适应视图权重网络的成本体积聚合、成本体积正则化与深度估计。

步骤S411：深度值采样：为了将二维图像特征扩展到三维空间中，首先对给定的深度范围对深度值进行采样，采样过程中，每个像素位置采样多个垂直于参考视角法线方向的不同深度的前向平面作为假设平面，此后每一级的深度采样都是一个由上一级确定的前向曲面，最终获得的深度采样值为，为深度采样的数量；

，

步骤S413：基于自适应视图权重网络的成本体积聚合：由于不同源视图对构造成本体积的贡献不同，即多个源视图特征体积在聚合构建成本体积的过程中应该具有不同的权重，且权重应该与源视图和参考视图对应位置的局部相似度紧密相关。因此采用自适应视图权重网络，学习源视图特征体积在成本体积聚合过程中的权重，对于匹配误差较大的视图给予较低的权重，正确匹配的位置给予更高的聚合权重；

，

本发明采用的基于自适应视图权重网络的成本体积聚合过程如图5所示。

视图选择网络的输入为单个源视图的特征体积和参考视图特征图。首先将参考视图特征复制扩充到相同的维度得到，然后计算两个特征之间的相似度作为视图选择网络的输入。最终的成本体积为多个特征体积的加权均值。整个过程的符号表达形式为：

，

步骤S5：深度图融合：本发明首先在图像中识别出点云中的特征区域，在点云融合过程中分别融合特征点云和非特征点云，对两个点云分别应用不同的精简算法，最后合并为完整点云。

其中，点云中的特征区域定义为图像中的边缘信息，即指图像中像素值相对发生剧烈变化的区域；在点云中，特征区域往往是曲率变化较大的位置，即点云中的凸角或凹角处，周围点的密度、局部形状变化较大，这些位置投影到图像中，构成图像中的边缘信息；图像中的边缘信息和点云的特征点具有非常大的相似度，本发明通过Canny算子检测待重建图像中的边缘信息并投影到三维空间中，作为目标点云的特征区域，从而加快整个点云精简的过程。

其中，深度图融合过程分为特征点云融合和非特征点云融合，在非特征点云融合过程中，采用基于体素的点云精简算法，减少点的数量，然后混合多个非特征点云构成目标场景的非特征点云区域。为了保留三维模型更多的细节保留完整的特征点云，并混合多个深度图。最后，将混合后的特征区域与非特征区域结合为精简后的目标点云。深度图融合流程如图6所示。

步骤S6：点云去噪：本发明采用点云的统计滤波算法(SOR)，其基本思想是计算每个点邻域内其他点的平均距离和标准差，通过距离阙值来判断每个点是否为离群点；给定邻域点数量k和标准差的倍数参数，首先基于点在三维空间中的位置构造kd树；遍历点云，选择每个点最邻近的k个点并计算该点到所有邻域点的距离；统计所有距离的平均值/>和标准差/>，计算离群距离/>：

，

为了验证本发明在大场景下的重建效果和对于大量动态物体干扰下的重建鲁棒性，对无人机拍摄的实景图像序列进行重建。该组图像环绕路口中的转盘进行拍摄，同时拍摄周边的街道环境，图片数为309张，图像分辨率为1920×1080，无人机航拍参考视图及重建效果如图7所示，图7中a为原始图Ⅰ；图7中b为原始图Ⅱ；图7中c为稀疏重建；图7中d为稠密重建点云整体视图；图7中e为稠密重建点云局部视图Ⅰ；图7中f为稠密重建点云局部视图Ⅱ。可以看到，模型主体花坛中的孔雀和花坛内的各种纹理被有效重建。不过由于室外拍摄过程中不同视角变化导致拍摄环境中的光照条件发生变化以及对道路上的车辆进行过滤导致道路上部分区域出现空洞现象，此外，在参考视图中可以看到不同视图间的光照条件差异较大，使得重建后的点云在部分边缘位置和纹理细节上存在模糊的现象。

可以看到，本发明提出的多视图三维重建算法在不同场景下均能能够有效重建出目标街景中主要建筑和景观要素的三维点云，同时本发明对整个流程提出的优化方法能够有效提高重建效率，并保证重建质量。在不同的重建场景下，采样后的图像集合能够重建出与原始方法外观几乎一样的点云，并且点云精简方法也能有效保留点云中的特征。

实施例2

为了验证基于深度图融合的多视图电网三维空间数据重建方法的准确率和高效性，本发明采用DTU等含有多个三维重建场景的数据集，并与COLMAP等传统重建算法、MVSNet等基于深度学习的重建算法进行对比实验，最终证明本发明提出方法有更好的表现。

实验设置：本发明提出的网络模型使用Python作为开发工具，基于Pytorch深度学习框架进行训练和测试，实验使用的软硬件平台信息如表2所示。

表2

，

本发明提出方法在DTU数据集上进行训练，训练过程中输入图像的分辨率为640×512，单次输入图像数量为3，DTU数据集中的深度范围为425mm到935mm。网络四个阶段的深度采样数量分别为32、16、8、4。网络训练过程中使用Adam优化器对网络参数进行梯度更新，Adam优化器使用默认参数，优化器初始学习率被设置为1×10^-3，在第8、10、12个epoch，优化器学习率下降20%。受GPU内存大小限制，批处理大小(batch size)设置为2，训练迭代轮数设为15个epoch。

评价方法：采用准确度、完整度和综合二者的整体评价指标，公式如下：

，

其中，代表重建出的三维点云，表示真实点云中的所有三维点。

不同模型实验结果分析：实验将本发明提出的模型与传统的模型进行对比实验，实验结果如表3所示。

表3

，

实验一共对比了4 种传统重建算法和7 种基于学习的重建算法。相较于其他不同的算法，本发明提出的模型在重建完整度上取得了最好的结果，完整度误差为0.268mm，比UniMVSNet低3.60% (0.010mm)。在重建准确度方面，表现最好的算法是传统的Gipuma,达到了最小的0.283mm,比深度学习算法中表现最好的CVP-MVSNet 准确度0.296mm还低4.39%(0.013m)。相比之下，本发明的算法在DTU数据集中的重建准确度为0.323mm，没能达到最佳的性能，但仍然优于大部分其他算法。此外，综合DTU数据集上的两种评价指标，本发明提出的模型在综合评价指标上取得了最佳的效果，整体平均误差为0.296mm，比 TransMVSNet低2.95% (0.009mm)。

总体而言，本发明的方法融合了图像的全局特征和局部特征，加强了视图间的关联,并且在多视图聚合过程中，通过视图可见性网络模拟实际场景中的遮挡现象，给不同视图赋予不同的权重，因此本发明的方法在重建精确度和完整度上都取得了显著的效果。

以上所述仅表达了本发明的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形、改进及替代，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度图融合的多视图电网三维空间数据重建方法，其特征在于，包括如下步骤：

步骤S7：将电网三维点云数据在线存储至数据中台，电网GIS平台从数据中台获得原始空间数据，融合处理后发布三维模型数据服务。

2.根据权利要求1所述的一种基于深度图融合的多视图电网三维空间数据重建方法，其特征在于，所述步骤S2中，对于给定待匹配的两幅图像，匹配方法由三个独立的阶段组成：特征检测、特征描述和特征匹配；首先采用SIFT算法，从每个图像中检测出具有显著特征的特征点；然后基于兴趣点的邻域信息计算特征描述符；两张图像产生两组兴趣点，随后找到这些点到点的对应关系，在特征提取的基础上，计算描述子之间的距离或相似性，并且通过过滤算法去除误匹配的特征点。

3.根据权利要求1所述的一种基于深度图融合的多视图电网三维空间数据重建方法，其特征在于，所述步骤S3中，采用增量式SfM算法进行稀疏重建，增量式SfM算法分为两个步骤：初始视图对选取和增量式重建；

初始视图对根据视图间的几何关系和场景可见性进行选择，即通过单应性矩阵内点比例、图像几何关系质量评价指标评估最佳初始视图对；选择初始视图对后，利用特征点匹配的结果，通过对极几何求解初始视图对的位姿，生成初始稀疏点云；随后增量式地添加下一幅图像到现有模型中，使用PnP算法求解新注册图像的位姿和生成新的点云；在这个过程中，增量式SfM算法通过光束平差法对目标场景中所有视图的相机位姿和稀疏点云位置进行捆绑调整；捆绑调整的目标为最小化重投影误差，使用Levenberg-Marquardt算法进行求解。

4.根据权利要求1所述的一种基于深度图融合的多视图电网三维空间数据重建方法，其特征在于，所述步骤S4中，多视图深度估计网络包含两个模块：局部特征和全局特征融合的视图特征编码模块、基于自适应视图权重的成本体积聚合模块；所述局部特征和全局特征融合的视图特征编码模块，在浅层卷积网络的基础上引入金字塔Transformer结构，融合两个网络提取的特征，并利用交叉注意力机制增强视图间的关联，获得视图特征表达；所述基于自适应视图权重的成本体积聚合模块，通过自适应视图权重网络的多成本体积聚合模块，学习不同视图像素级的聚合权重，并采用3D-UNet正则化聚合后的成本体积，实现深度估计。

5.根据权利要求4所述的一种基于深度图融合的多视图电网三维空间数据重建方法，其特征在于，所述局部特征和全局特征融合的视图特征编码模块包括：特征提取模块和特征融合模块；

特征提取模块：由两条分支组成，一个CNN网络和一个PVT特征提取网络，CNN网络用于编码图像局部特征，其中/>、/>、/>、/>分别为第1、2、3、4个局部特征，PVT特征提取网络用于编码全局特征/>；

特征融合模块：首先通过卷积解码器将PVT特征提取网络提取出的全局特征的维度与局部特征的维度对齐；随后，对于维度对齐后的两种特征，通过解码器消除两者之间的语义差异；拼接全局特征与最小尺度的局部特征/>得到融合后的最小尺度特征/>；随后将/>经过双线性上采样后与下一级局部特征/>融合得到扩大尺度的特征/>，将/>经过双线性上采样后与下一级局部特征/>融合得到扩大尺度的特征/>，将/>经过双线性上采样后与下一级局部特征/>融合得到扩大尺度的特征/>，并将不同分辨率的特征输出；最后，将融合后的多视图特征作为下一节的输入。

6.根据权利要求5所述的一种基于深度图融合的多视图电网三维空间数据重建方法，其特征在于，所述特征提取模块中，采用PVT特征提取网络提取图像的全局特征，将整个编码过程划分为不同的阶段，在每个阶段开始时，特征图的长和宽均减半，并扩大特征通道数；

每个阶段的输入为一个维度为的特征图，/>、/>、/>分别为特征图的高、宽、通道数，每个阶段首先将特征图分为大小一致的patch，每个patch拉平对齐为不同的向量，加上各自的位置编码；PVT 特征提取网络引入了空间减少注意力SRA来替换 ViT 中的多头注意力机制，实现图像全局特征的编码；SRA的具体计算过程为：

，

其中，SRA在一组查询、键和值上计算注意力函数，这些查询、键和值分别打包成一个矩阵、/>和/>，/>为第/>个注意力头矩阵，/>为第/>个视图的注意力层数量，/>是权重矩阵，表示矩阵拼接操作，Attention()表示注意力机制， />、/>、/>分别是查询、键和值的不同权重矩阵，/>减小输入序列的维度，计算过程如下：

，

其中，表示输入序列，/>表示尺度缩减率，/>将输入序列的尺度转换为，/>是一个线性投影层，将输入矩阵的通道数减少到/>表示层归一化；的计算过程如下：

，

其中，为注意力头的个数，/>为归一化指数函数，/>为转置运算。

7.根据权利要求4所述的一种基于深度图融合的多视图电网三维空间数据重建方法，其特征在于，所述基于自适应视图权重的成本体积聚合模块用于执行以下步骤：

步骤S412：单视图特征体积增强：源视图特征经过单应性变换和双线性插值得到参考视图坐标系下的单应性特征图，并将其按照深度采样的顺序堆叠得到每个源视图的特征体积，用单应性特征图与参考视图特征图进行匹配，得到每个像素位置处不同深度采样值的权重，然后，/>应用到该视图的不同深度采样上，得到增强后的源视图特征体积；公式如下所示：

，

其中，为单个源视图的特征体积，/>为/>的维度，是一个常数，T为转置运算，/>为参考视图特征图；

步骤S414：成本体积正则化：采用3D-UNet正则化成本体积，正则化后的成本体积通过一个Softmax层生成概率体积/>；其中，/>的大小为/>，/>和/>代表当前阶段的特征分辨率，/>为深度采样的数量；特征图中每个位置上的向量表示该位置在不同深度采样值的概率；

，

其中，为第/>个深度采样值，M为深度采样的数量，D为最终的深度图，P表示参考视图的概率体积。

8.根据权利要求7所述的一种基于深度图融合的多视图电网三维空间数据重建方法，其特征在于，所述步骤S413中，采用的基于自适应视图权重网络的成本体积聚合过程包括：

视图选择网络的输入为单个源视图的特征体积和参考视图特征图/>；首先将参考视图特征复制扩充到相同的维度得到/>，然后计算两个特征之间的相似度作为视图选择网络的输入；最终的成本体积/>为多个特征体积的加权均值；整个过程的符号表达形式为：

，

其中，为源视图的数量，/>，/>表示自适应视图权重网络，该网络由若干卷积层堆叠而成。

9.根据权利要求1所述的一种基于深度图融合的多视图电网三维空间数据重建方法，其特征在于，所述步骤S5中，首先在图像中识别出点云中的特征区域，在点云融合过程中分别融合特征点云和非特征点云，对两个点云分别应用不同的精简算法，最后合并为完整点云；

所述点云中的特征区域定义为图像中的边缘信息；在点云中，特征区域是点云中的凸角或凹角处，这些位置投影到图像中，构成图像中的边缘信息；通过Canny算子检测待重建图像中的边缘信息并投影到三维空间中，作为目标点云的特征区域；

10.根据权利要求1所述的一种基于深度图融合的多视图电网三维空间数据重建方法，其特征在于，所述步骤S6中，采用点云的统计滤波算法SOR，计算每个点邻域内其他点的平均距离和标准差，通过距离阙值来判断每个点是否为离群点；给定邻域点数量k和标准差的倍数参数，首先基于点在三维空间中的位置构造kd树；遍历点云，选择每个点最邻近的k个点并计算该点到所有邻域点的距离；统计所有距离的平均值/>和标准差/>，计算离群距离/>：

，