CN116563466A - 一种基于深度学习的三维单木点云的补全方法 - Google Patents
一种基于深度学习的三维单木点云的补全方法 Download PDFInfo
- Publication number
- CN116563466A CN116563466A CN202310584661.2A CN202310584661A CN116563466A CN 116563466 A CN116563466 A CN 116563466A CN 202310584661 A CN202310584661 A CN 202310584661A CN 116563466 A CN116563466 A CN 116563466A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- point
- missing
- cloud
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013135 deep learning Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 46
- 230000000295 complement effect Effects 0.000 claims abstract description 31
- 239000002023 wood Substances 0.000 claims abstract description 20
- 230000035515 penetration Effects 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 26
- 238000012217 deletion Methods 0.000 claims description 16
- 230000037430 deletion Effects 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000005684 electric field Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000007547 defect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 4
- 230000002238 attenuated effect Effects 0.000 claims description 3
- 230000000149 penetrating effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 239000000835 fiber Substances 0.000 claims description 2
- 230000000670 limiting effect Effects 0.000 claims description 2
- 238000000691 measurement method Methods 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims 3
- 238000012935 Averaging Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 6
- 238000011160 research Methods 0.000 abstract description 4
- 238000004519 manufacturing process Methods 0.000 abstract description 3
- 238000009826 distribution Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000003169 complementation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000002028 Biomass Substances 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000007847 structural defect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于林业遥感领域,具体涉及一种基于深度学习的三维单木点云的补全方法。本发明结合深度学习技术,搭建了适用于单木结构补全的TC‑Net网络模型;借鉴电磁波在均匀介质中穿透衰减启发,设计制作密度不均式点云缺失的数据集,使模型的训练更加符合应用场景;然后在开源大型数据集中先训练好模型,再利用训练好的模型作为初始模型进行树木补全的再训练,使模型能够更快收敛的同时效果更好;最后在自采集的车载激光点云数据集实现真实场景的单木点云结构补全,精准的还原缺失点云的细节特征。本发明在林业遥感领域中计算三维绿量,统计城市绿化率等方面可以为研究者提供更加完整的点云数据,对后续的研究发挥重要作用。
Description
技术领域
本发明属于林业遥感领域,具体涉及一种基于深度学习的三维单木点云的补全方法。
背景技术
基于三维点云分析树木的重要生物属性(如三维绿量、生物量、树高、胸径和冠径等)或是进行精准的三维建模都要求并依赖于植被点云结构完整。然而城市区域地物空间分布复杂,存在大量的相互间遮挡;传感器精度和穿透能力有限;加之传感器会受限于采集设备观察角度,共同导致树木点云结构缺失,严重影响后续步骤的精度。
林业遥感领域解决这一问题的常用方法大体可以分为三类:即多视角/多传感器的点云融合,基于先验或建模修正结果以及基于特征的原始单木点云数据的结构补全。
其中多视角/多传感器的点云融合依赖于额外的数据,会受场地条件和实验条件限制,并且会大幅提升成本。如地基激光雷达或背包激光雷达的多视角融合,机载激光雷达点云和背包激光雷达的加权融合等。无人机只能在特定高度且需要绕过较高人造物,车辆则只能沿着道路行驶,导致树木相当部分缺乏完整视角观测条件,进而导致植被冠层点云缺失,影响三维绿量计算的精度。如图1所示,从左到右依次为同地物的车载激光雷达点云、无人机载激光雷达点云和无人机倾斜影像重建点云,其中车载激光雷达数据中缺失远离采集车方向的树冠点云,无人机载激光雷达点云和基于无人机倾斜影像重建点云中缺失靠近地面的树干点云。
基于先验或建模修正结果的方法如Xu H等人首先从原始缺失点云中得到粗糙的树木骨架,再基于冠层结构生成骨架的分枝,最后把叶子分配到骨架对应位置完成建模。Zhang X等人首先从原始缺失点云中得到可见的骨架,再基于分层树冠特征点生成不可见骨架,最后基于粒子流方法将两部分组合得到最终树木模型。基于特征的原始单木点云数据的结构补全的方法首先基于L1-Median算法从缺失点云提取的关键点,再基于关键点的主方向和点云密度分布进行点云补全。
点云结构补全在基于深度学习的点云处理领域是一个时兴问题,如L-GAN基于自编码器模型结合生成对抗网络完成点云补全。FoldingNet设计了基于折叠的解码器更好的还原物体三维表面信息。PCN组合L-GAN和FoldingNet的优势,并加入可以使结果更加光滑的后处理操作,达到更好补全效果。RL-GAN-Net将强化学习和条件生成对抗网络结合,使其可以稳定的补全大片缺失点云。
PF-Net保留原始点云,并在此基础上预测缺失区域详细几何结构,这类方法可以有效的还原缺失点云的细节特征。具体而言,PF-Net设计一种多尺度金字塔结构特征编码-解码器,用以对缺失点云进行分层估计。设计多尺度补全损失函数来完成反向传播,并设计相应鉴别器和对抗损失函数来实现更优的训练过程。TopNet设计分层的树结构编码器来实现补全。DPGG-Net基于生成对抗网络设计两种模块,将点云补全任务转化为解码器基于缺失点云生成的点云全局特征和完整点云全局特征对抗训练任务。PMP-Net++将点云补全任务视为变形(deformation)任务,通过三次移动缺失点云来预测完整点云。移动过程中会保证总移动距离最小,且每一次移动的结果会作为下一次移动的输出。
总之,多视角/多传感器的点云融合依赖于额外的数据,会受场地条件和实验条件限制,并且会大幅提升成本;基于先验或建模修正结果以及基于特征的原始单木点云数据的结构补全无法做到准确补全且补全部分会有细节缺失。由此,现有三维单木点云的补全方法均存在一定的局限性,成为实际应用中一个亟待解决的问题。
发明内容
针对上述存在问题或不足,为解决现有三维单木点云补全方法受限于场景条件、成本、以及准确度不佳的问题,本发明引入了深度学习技术,将其应用于单木结构补全领域,提供了一种基于深度学习的三维单木点云的补全方法。
一种基于深度学习的三维单木点云的补全方法,包括如下步骤:
步骤1.对城市植被采用车载激光雷达进行扫描,获得原始的点云数据;
步骤2.将树木部分的点云从步骤1采集到的原始点云数据集中划分出来,并将选取其中点云结构完整的点云数据,用来构建完整-不完整单木点云对。
步骤3.结合Self-Supervised、Multi-Scale Encoder-Decoder、TransformerBlock和Self-Attention深度学习技术搭建端到端的、数据驱动式深度学习网络模型TC-Net,TC-Net(Tree Completion Net)适用于单木结构补全,如图3所示。
采用Self-Supervised基于步骤2构建的完整-不完整单木点云对,以数据驱动的方式学会预测单木点云的缺失结构,使模型学会基于不完整的单木点云来生成对应完整的单木点云。
采用Multi-Scale Encoder-Decoder捕捉单木点云不同空间尺度的语义特征,并将其用于逐步预测缺失部分点云。
利用Transformer Block采用自注意力机制Self-Attention,根据输入数据的每个部分的重要性进行不同的加权,捕捉三维点云中不同位置之间的长距离依赖关系,从而显著提升模型对于城市区域三维点云的大空间尺度、复杂地物间关系等特性的表达能力和理解能力,同时Transformer具有序列排列不变特性适用于空间上具有分散和无序特点的三维点云。
步骤4.在大型开源数据集ShapeNet-Part上对步骤3所构建的网络模型进行预训练,并保存最后的模型参数。
步骤5.针对激光雷达扫描得到的点云数据存在密度不均缺失的特点,构造具有密度不均缺失特点的数据集,并将其用以对步骤4预训练得到的模型(作为初始值)继续进行训练,得到最终的模型。
步骤6.使用步骤5所得最终的模型对不完整点云进行结构补全。
进一步的,所述步骤3具体为:
步骤3.1.搭建Encoder部分:
首先通过FPS(Farthest Point Sampling)来得到三个分辨率的降采样不完整点云Xi(i=1,2,3,点数分别为N、N/k和N/k2)和相对应的缺失补全点云Yi(i=1,2,3,点数分别为M、M/k和M/k2)。其中X代表不完整点云,点数分别为N、N/k和N/k2;Y代表相对应的缺失补全点云,点数分别为M、M/k和M/k2;i=1,2,3,N为不完整点云的点数,M为相对应的缺失补全点云的点数,k为人为设置的降采样参数。相较于随机采样,FPS得到的点云可以更好的代表整体缺失点云分布。
此后,将三个不同采样率的点云通过多分辨率Encoder来提取分层语义特征,多分辨率点云首先通过Point Transformer层得到特征Fi(F代表Point Transformer层输出的特征,i与降采样时的i对应,即Xi通过Point Transformer层得到Fi),再利用MLP将特征融合得到V,V代表全局空间语义特征的向量。
更进一步地,Point Transformer模块原理如下:
Point Transformer模块采用Offset-Attention机制,计算不同点云特征间的语义相似性来实现语义建模,同时预测残差块,而非特征本身能取得更好训练效果。并且Offset-Attention会对全局建模,具有序列排列不变特性,适用于处理具有空间上分散和无序特点的三维点云。设Query,Key和Value分别为Q,K和V,Offset-Attention原理如式(1):
(Q,K,V)=Fin·(Wq,Wk,Wv) (1)
其中为该层共享的可学习线性变换;de=Cj,da=de/R,R为可调超参数;Nj和Cj分别为每一空间尺度层特征点数和维度数。Attention层输入Fout计算如式(2)所示:
A=Softmax(Q·KT)
Fout=LBR(Fin-A·V)+Fin (2)
A表示Attention Score,LBR表示线性层、BathNorm层和ReLU层三者的组合。Attention机制可以建立特征点间的全局连接,尤其擅长捕捉三维点云中不同位置之间的长距离依赖关系,添加Attention机制可以有效的提升模型对树木整体结构的感知,而树木的结构补全依赖于植被点云和周围地物的相对空间和语义联系,添加Attention机制可以有效提升树木结构补全任务的准确性。
步骤3.2.搭建Decoder部分:Decoder部分使用多尺度生成网络逐步预测缺失部分点云。
首先从V出发,通过线性层得到三个特征层FCi。通过Point Transformer层将最深的FC1转换为第一层预测点云Yprimary。FC2以Yprimary中每个点为中心预测第二层点云Ysecondary中对应点的相对坐标。FC3以Ysecondary中每个点为中心预测第三层点云Ydetail中对应点的相对坐标,同时,Ydetail会作为最后的输出预测缺失部分的点云结构。Yprimary与Y1的点数均为M,Ysecondary与Y2的点数均为M/k,Ydetail与Y3的点数均为M/k2。
TC-Net的损失函数为多尺度补全损失,由预测点云(Ydetail,Ysecondary,Yprimary)和(Y1,Y2,Y3)的加权CD(Chamfer Distance)组成,CD是一种点云之间的距离度量方法,可用于评估两个点云之间的相似度,其基本思路是计算点集每一个点到另一个点集的最小距离,并将最小距离求平均。如式(3)所示,
Lcom=dCD(Ydetail,Y1)+αdCD(Ysecondary,Y2)+α2dCD(Yprimary,Y3) (3)
其中,α为可调节超参数,CD值dCD具体计算如式(4)所示:
其中,S1和S2为两个点云,表示欧式距离。
TC-Net首先基于多尺度Encoder获取不完整点云的不同空间尺度特征,并将其融合得到全局特征,再利用多尺度Decoder将全局特征逐步转化为缺失部分点云,使模型学会基于不完整单木点云来生成对应的完整单木点云,即完成单木结构补全。
进一步的,所述步骤5构造具有密度不均缺失特点的数据集,具体步骤如下:
步骤5.1.为模拟激光雷达数据的穿透性缺陷导致的点云数据缺失,本发明借鉴了电磁波的电场强度在均匀介质中穿透衰减为指数衰减的特性,如公式(5)所示。
I=I0×e-μd (5)
其中I为当前电场强度,I0为原始电场强度,单位V/m;μ为均匀介质的传播衰减系数(与均匀介质物理性质和电磁波频率、波速有关,单位m-1);d为相对原始位置电磁波传播距离(单位m)。
步骤5.2.将公式(5)相对应迁移到车载激光雷达场景,将主要衰减视为从激光雷达发射电磁波在树木冠层的衰减,将衰减与点云缺失概率关联,提出了式(6):
其中,p代表目标点云P出现在缺失数据集的概率,p0为1,为给定的衰减参数,d为车载激光雷达与目标点云连线穿过树木冠层的距离,整体代表当目标点云与车载激光雷达中间无冠层阻挡时出现概率最大,随后随着穿透冠层距离成指数衰减。
考虑到车载激光雷达采集时会按照道路行驶,将d设置为目标点云与代表车辆行驶线的垂线穿过树木冠层的距离。如图4所示,左下角点云表示采集车辆,对应灰色线表示车辆行驶线,右边灰色点云表示树木点云,P为目标点云,白色实线表示目标点云与代表车辆行驶线的垂线,d即为垂线穿过树木冠层的距离。
步骤5.3.设输入完整点云数量为m个点,缺失点云为n个点。找到P对应行驶线的垂点T,进而找到垂线段长度求得所有m点的/>后,对/>使用线性归一化(将值限制在0到1之间)得到d,用d近似穿过冠层距离。
为了尽可能拟合现实情况,同时加快计算效率,采用分段概率的方式实现。
首先计算得到所有点的d,找到d在前α个点云直接保留,α∈[0,m-n);后β个点云直接加入缺失部分,β∈[0,n);中间γ的点云将距离d归一化,γ=m-α-β。
再依照公式(6)转为概率p(不同衰减参数取值下概率p的变化如图5所示),再与均匀分布在[0,1)的长度为γ的向量T相减得到概率/>
最后将中概率最小的n-β个点云加入缺失部分。
密度不均缺失方式的不同超参数选择,会极大影响TC-Net结构补全效果。密度不均缺失考虑两组超参数,其一是车道线选择,其二是缺失参数α、β和的选择。
进一步的,所述步骤5.3找到最佳超参数的过程的具体步骤为:
步骤5.2.1、将数据集进行归一化处理,占据一个所有边长为1的正方体空间,xyz坐标均在0到1的范围。
步骤5.2.2、设置三种车道线方案。
车道线方案1:随机为正方体四条底边所在的直线中的一条。车道线方案2:随机为正方体四条底边所在的直线中的一条,并加上随机0到3的平移,平移在正方体底面上进行,方向为远离正方体底面中心。车道线方案3:随机为正方体所有十二条边所在的直线和所有面上的对边中垂线(每个面有两条,共12条)所在的直线中的一条。
步骤5.2.3、设置三种缺失参数方案。
缺失参数方案1:β直接取m,即直接消除距离车道线最远的m个点。超参数方案2:α、β和分别取固定值(根据实际输入的点云数量取值,一般α为实际输入点云数量的一半,β为实际输入点云数量的八分之一,/>在1到4中选择)。超参数方案3:若实际输入点云数量的一半为n,α取(n±250)范围内的随机整数、β取/>范围内的随机整数、/>取范围在1到4的随机整数。
步骤5.2.4、取三种车道线方案和三种缺失参数方案的两两组合,共计九种方案,来测试密度不均缺失不同参数下的结果。用真实缺失点云和预测缺失点云间的CD值衡量预测缺失和真实缺失结果。
步骤5.2.5、使用步骤5.2.4的九种方案来对ShapeNet-Part的训练集进行密度缺失处理,并使用处理后的数据集来对步骤3构建的网络模型TC-Net进行训练,得到预训练好的模型。九种方案对应九个预训练好的模型。
训练模型:预训练是指在一个大规模的数据集上训练一个通用的模型,然后在特定的下游任务上进行微调以提高模型的性能和泛化能力。这种方法最早是在计算机视觉领域中使用的,因为计算机视觉任务中有很多相似的图像特征,所以一个在大数据集上训练过的模型可以很容易地迁移到其他任务上。目前CV领域有很多预训练模型,例如ResNet、ViT、Swin Transformer等,它们是基于ImageNet等大型有监督图像数据集进行预训练。
步骤5.2.6、使用步骤5.2.5中得到的预训练好的模型,来对测试集进行测试,计算每种方案在测试集上的平均CD值。并根据测试结果,在九种方案中选择最优方案对应的预训练好的模型,作为最优预训练模型。
选择出最优预训练模型,解决了真实场景下缺失模式不匹配导致模型无法顺利进行补全的问题。将最优预训练模型的参数作为初始参数,继续使用步骤2中采集到的数据集对模型进行训练。将训练好的模型称为:符合真实场景的模型。这里使用了预训练技术,弥补可以用于树木补全的数据较少的问题。本步骤也验证了式(6)的有效性。
本发明结合Self-Supervised和Multi-Scale Encoder-Decoder等深度学习技术,搭建了适用于单木结构补全的TC-Net网络模型;借鉴电磁波在均匀介质中穿透衰减启发,设计制作一种模拟真实车载点云缺失(密度不均式点云缺失)的数据集;然后在开源大型数据集中先训练好模型,再利用训练好的模型作为初始模型进行树木补全的再训练;最后在自采集的车载激光点云数据集实现真实场景的单木点云结构补全。并在开源CAD模型点云数据集ShapeNet-Part上测试验证了TC-Net和密度点云缺失方式结合的效果;以及将结构补全结果与冠层相对完整的基于倾斜影像重建点云比较,定量说明补全效果。
综上所述,本发明的三维单木点云的补全方法,受场地条件和实验条件限制小,成本低,补全效果准确高效;有效克服了现有三维单木点云补全方法的各种缺陷,为实际应用提供了一种更为优异的技术手段。
附图说明
图1为单木点云结构缺失示意图;
图2为本发明的技术路线图;
图3为TC-Net具体结构;
图4为密度不均缺失方式示意图;
图5为不同衰减参数取值下概率p的变化;
图6为随机球状缺失和本发明实现的密度不均缺失的对比;
图7为不同缺失方案的效果;
图8为自采集车载激光雷达点云;
图9为基于密度缺失方式训练TC-Net的测试结果。
具体实施方式
为直观表达本发明的优点,结合实际数据和实验结果附图说明基于TC-Net模型的单木点云结构补全实施案例,具体实施过程如下:
一种基于深度学习的三维单木点云的补全方法,包括如下步骤:
步骤1:原始点云数据的获取。
步骤1.1.采用128线iScan-S-Z激光雷达采集数据。激光雷达固定在采集车车顶,配套设备包括车速传感器、点云箱以及地面布设的静态差分基站。
步骤1.2.采集车沿着城市道路行驶采集得到原始点云数据、GNSS(GlobalNavigation Satellite System)、里程计数据和IMU(Inertial Measurement Unit)。使用StaticToRinex64软件转换原始GNSS数据。
步骤1.3.将实验参数输入Inertial Explorer软件,包括控制点地理坐标、车载设备安装数据和POS(Position and Orientation System)采用间隔等,利用转换后的GNSS数据、IMU数据和里程计数据进行IE解算(Inertial-Exterior Solution)得到行驶路径的POS文件。
步骤1.4.将POS文件和原始点云数据输入mmsconvert软件,根据实验调整好对应参数,即可得到最终的整个场景的静态全场景点云,再将需要的测区数据进行裁剪。得到的测区采集数据如图8所示。
步骤2:构建训练集与测试集。
利用软件CloudCompare将树木从点云数据中分离出来,得到一颗颗单独的树木点云数据。激光雷达采集到的数据,由于视角受限将导致点云的密度不均,即随着距离车辆行驶航迹越远,由于叶片或枝干遮挡加上激光雷达穿透性有限,点云密度会随之减小,直到最后将造成结构缺失,即:密度不均缺失。本发明中的网络模型正是要对这些缺失的部分进行补全。在道路拐角处或停车行的树木点云数据的采集视角较为完整,我们将选取其中点云结构基本完整的点云数据,用来手动构建完整-不完整对,用以训练第3步中端到端的网络模型TC-Net。本实施例所构建的数据集信息如表1所示。
表1训练集和测试集各类型详细个数
步骤3:搭建端到端的、数据驱动式深度学习网络模型TC-Net。具体细节在发明内容中已详细阐述,这里不做过多说明。
步骤4、在ShapeNet-Part上对步骤3所构建的网络模型进行预训练,并保存最后的模型参数。
步骤5、构造具有密度不均缺失特点的数据集,并将其用以对步骤4预训练得到的模型继续进行训练;
构造具有密度不均缺失特点的数据集,具体研究细节在发明内容已详细阐述,这里只陈述参数选取结果。
密度不均缺失方式的不同超参数选择,会极大影响TC-Net结构补全效果。密度不均缺失主要有两组主要的超参数,其一是车道线选择,其二是缺失参数α、β和的选择。
设置三种缺失参数方案:超参数方案1:β直接取512,即直接消除距离车道线最远的512个点;超参数方案2:α、β和分别取固定值1024、256和1;超参数方案3:α取范围在768到1280的随机整数、β取范围在128到384的随机整数、/>取范围在1到4的随机整数。
确定超参数的过程如下:
步骤5.2.1、取三种车道线方案和三种缺失参数方案的两两组合,共计九种方案,来测试密度不均缺失不同参数下的结果。用真实缺失点云和预测缺失点云间的CD值衡量预测缺失和真实缺失结果。
步骤5.2.2、使用九种方案来对ShapeNet-Part的训练集进行处理,并使用处理后的数据集来对步骤3所构建的网络模型TC-Net进行训练,训练配置为:TC-Net的不完整区域点数N设为1536,缺失区域点数M设为512,降采样率k设为2,多尺度补全损失函数超参数α设为0.1;基于PyTorch搭建整个代码工程;使用一张40GB NVIDIAA100显卡完成整个训练和测试;使用Batch Normalization和RELU激活函数;优化器使用Adam,初始学习率lr=0.001,权重衰减率为10-4,批次大小(Batch Size)为32。每次训练均运行200个epoch,取最后一次epoch的模型作为最后的权重。称最后一次epoch的模型为:预训练好的模型。九种方案对应九个预训练好的模型。
步骤5.2.3、使用预训练好的模型来对步骤2中构建的测试集进行测试,计算每种方案在测试集上的平均CD值,如表3所示,部分结果如图7所示。
步骤5.2.4、点云的缺失情况与现实中激光雷达扫描物体时的缺失情况越符合,模型就越能学习到如何预测缺失点云,如图6所示为随机球状缺失方法和本发明所实现的密度不均缺失方法(参数:m=2048,n=512,α为1024,β为256,衰减参数取2)的对比,可以看出本发明实现的密度不均缺失模式更贴近现实数据。
该方法的伪代码如表2所示。
表2密度不均缺失-伪代码
本发明在大型开源数据集ShapeNet-Part上对两组超参数进行研究。ShapeNet-Part是注释丰富的一组大规模3D形状数据集,其中包含PartNet数据集。PartNet包含语义级、实例级和分层的物体3D标签,拥有26671个3D模型的573585个零件实例,涵盖24个对象类别。可以支持如分类、动态3D场景建模和语义分割等研究。
步骤5.2.5、对结果进行分析。可以看出车道线方案1上预测CD值明显小于车道线方案2和车道线方案3,即真实缺失点云和预测缺失点云间更接近。这是因为车道线方案1得到的缺失点云模式更简单,更容易预测,而另外两种车道线方案分布特征较散乱,且有更多不规则的缺失和离群点(如图7中用框标识的部分),会导致模型梯度混乱,难以收敛。对于缺失参数方案,方案2和3的CD值小于方案1,且方案2和方案3的CD值接近。主要原因是方案2和3生成的缺失点云几何特性更平滑,更利于模型训练学习,考虑到方案3可以包含更多缺失点云分布情况,方案3更适合作为后续树木补全方案。
综合以上情况,本实施例选择车道线方案1和缺失超参数方案3的组合(即超参数如下:选取车道线方案1;α取范围在768到1280的随机整数,β取范围在128到384的随机整数,取范围在1到4的随机整数)作为单木结果补全的超参数方案,同时保留该种方案所对应的预训练好的模型(称该模型为:最优预训练模型),作为下一步中,在采集的数据集上进行树木结构补全的初始训练参数。
表3不同车道线方案和车道线方案的测试平均CD值×100
本实施例的模型在第5步中,选择车道线方案1和超参数方案3的组合作为单木结构补全的超参数方案,在大型开源数据集ShapeNet-Part上对网络模型进行了训练,得到了最优预训练模型,解决了真实场景下缺失模式不匹配导致模型无法顺利进行补全的问题。将最优预训练模型的参数作为初始参数,继续使用步骤2中采集到的数据集对模型进行训练。即使用了预训练技术,弥补可以用于树木补全的数据较少的问题。训练的超参数配置同步骤5.2.2,取最后一次epoch的模型作为最后的权重,称该模型为:符合真实场景的模型。
步骤6:评估模型:用真实缺失点云和预测缺失点云间的CD值衡量预测缺失和真实缺失结果,在测试集上对符合真实场景的模型进行测试以评估本模型的精度,并可视化部分结果来增强说服力。
在测试集33个点云上CD值为9.20×10-3,取其中四个可视化(如图9所示),可以看出在测试集上符合真实场景的模型能较好的完成补全任务。值得注意的是基于密度缺失方式的CD值大于基于随机球状缺失方式,这是因为基于密度缺失方包含更多缺失点云分布情况,更接近真实场景缺失,本身补全的难度更高,体现到数值上即为最终CD值更大。但这也同时保证了模型可以识别到真实场景的单木缺失模型,顺利完成结构补全。
树木点云补全具有两个难点,其一是如何让模型学习预测单木点云的缺失结构,进而完成结构补全;其二是点云补全需要制作缺失点云和完整点云对用于补全模型训练,计算机视觉领域的点云补全常用的制作缺失点云的方式是随机球状缺失,即在空间中选择一个球心,随机消除距球心最近的部分点云。但是真实车载点云数据缺失模式并非球状缺失,而是视角受限导致的点云密度不均,即随着距离车辆行驶航迹越远,由于叶片或枝干遮挡加上激光雷达穿透性有限,点云密度会随之减小。
通过以上实施例可见,本发明结合深度学习技术,搭建了适用于单木结构补全的TC-Net网络模型;借鉴电磁波在均匀介质中穿透衰减启发,设计制作密度不均式点云缺失的数据集,使模型的训练更加符合应用场景;然后在开源大型数据集中先训练好模型,再利用训练好的模型作为初始模型进行树木补全的再训练,使模型能够更快收敛的同时效果更好;最后在自采集的车载激光点云数据集实现真实场景的单木点云结构补全,精准的还原缺失点云的细节特征。本发明在真实场景中进行了测试,测试结果也说明了本发明方法的可行性,在计算三维绿量,统计城市绿化率等方面可以为研究者提供更加完整的点云数据,对后续的研究发挥重要作用。
Claims (4)
1.一种基于深度学习的三维单木点云的补全方法,其特征在于,包括如下步骤:
步骤1、对城市植被采用车载激光雷达进行扫描,获得原始的点云数据;
步骤2、将树木部分的点云从步骤1采集到的原始点云数据集中划分出来,并将选取其中点云结构完整的点云数据,用来构建完整-不完整单木点云对;
步骤3、结合Self-Supervised、Multi-Scale Encoder-Decoder、Transformer Block和Self-Attention搭建端到端的、数据驱动式深度学习网络模型TC-Net;
采用Self-Supervised基于步骤2构建的完整-不完整单木点云对,以数据驱动的方式学会预测单木点云的缺失结构;
采用Multi-Scale Encoder-Decoder捕捉单木点云不同空间尺度的语义特征,并将其用于逐步预测缺失部分点云;
利用Transformer Block采用自注意力机制Self-Attention,根据输入数据的每个部分的重要性进行不同的加权,捕捉三维点云中不同位置之间的长距离依赖关系;
步骤4、在ShapeNet-Part上对步骤3所构建的网络模型进行预训练,并保存最后的模型参数;
步骤5、构造具有密度不均缺失特点的数据集,并将其用以对步骤4预训练得到的模型继续进行训练,得到最终的模型;
步骤6、使用步骤5所得最终的模型对不完整点云进行结构补全。
2.如权利要求1所述基于深度学习的三维单木点云的补全方法,其特征在于,所述步骤3具体为:
步骤3.1、搭建Encoder部分:
首先通过FPS来得到三个分辨率的降采样不完整点云Xi和相对应的缺失补全点云Yi;
其中X代表不完整点云,点数分别为N、N/k和N/k2;Y代表相对应的缺失补全点云,点数分别为M、M/k和M/k2;i=1,2,3,N为不完整点云的点数,M为相对应缺失补全点云的点数,k为人为设置的降采样参数;
此后,将三个不同采样率的点云通过多分辨率Encoder提取分层语义特征,多分辨率点云首先通过Point Transformer层得到特征Fi,F代表Point Transformer层输出的特征,Xi通过Point Transformer层得到Fi,再利用MLP将特征融合得到V,V代表全局空间语义特征的向量;
Point Transformer模块采用Offset-Attention机制,计算不同点云特征间的语义相似性来实现语义建模,同时预测残差块;设Query,Key和Value分别为Q,K和V,Offset-Attention原理如式(1):
(Q,K,V)=Fin·(Wq,Wk,Wv) (1)
其中Q, Wq,/>为该层共享的可学习线性变换;de=Cj,da=de/R,R为可调超参数;Nj和Cj分别为每一空间尺度层特征点数和维度数;Attention层输入Fout计算如式(2)所示:
A=Softmax(Q·KT)
Fout=LBR(Fin-A·V)+Fin (2)
A表示Attention Score,LBR表示线性层、BathNorm层和ReLU层三者的组合;
步骤3.2、搭建Decoder部分:Decoder部分使用多尺度生成网络逐步预测缺失部分点云;
首先从V出发,通过线性层得到三个特征层FCi;通过Point Transformer层将最深的FC1转换为第一层预测点云Yprimary;FC2以Yprimary中每个点为中心预测第二层点云Ysecondary中对应点的相对坐标;FC3以Ysecondary中每个点为中心预测第三层点云Ydetail中对应点的相对坐标,同时,Ydetail会作为最后的输出预测缺失部分的点云结构;Yprimary与Y1的点数均为M,Ysecondary与Y2的点数均为M/k,Ydetail与Y3的点数均为M/k2;
TC-Net的损失函数为多尺度补全损失,由预测点云Ydetail,Ysecondary,Yprimary和Y1,Y2,Y3的加权CD组成,CD是一种点云之间的距离度量方法,用于评估两个点云之间的相似度,计算点集每一个点到另一个点集的最小距离,并将最小距离求平均,如式(3)所示:
Lcom=dCD(Ydetail,Y1)+αdCD(Ysecondary,Y2)+α2dCD(Yprimary,YA) (3)
其中,α为可调节超参数,CD值dCD具体计算如式(4)所示:
其中,S1和S2为两个点云,表示欧式距离;
TC-Net首先基于多尺度Encoder获取不完整点云的不同空间尺度特征,并将其融合得到全局特征,再利用多尺度Decoder将全局特征逐步转化为缺失部分点云,使模型学会基于不完整单木点云来生成对应的完整单木点云,即完成单木结构补全。
3.如权利要求1所述基于深度学习的三维单木点云的补全方法,其特征在于,所述步骤5构造具有密度不均缺失特点的数据集,具体步骤如下:
步骤5.1、借鉴电磁波的电场强度在均匀介质中穿透衰减为指数衰减的特性,模拟激光雷达数据的穿透性缺陷导致的点云数据缺失,如公式(5)所示:
I=IP×e-μd (5)
其中I为当前电场强度,I0为原始电场强度,单位V/m;μ为均匀介质的传播衰减系数,单位m-1;d为相对原始位置电磁波传播距离,单位m;
步骤5.2、将公式(5)相对应迁移到车载激光雷达场景,将主要衰减视为从激光雷达发射电磁波在树木冠层的衰减,将衰减与点云缺失概率关联,提出式(6):
其中,p代表目标点云P出现在缺失数据集的概率,p0为1,为给定的衰减参数,d为车载激光雷达与目标点云连线穿过树木冠层的距离,整体代表当目标点云与车载激光雷达中间无冠层阻挡时出现概率最大,随后随着穿透冠层距离成指数衰减;
考虑到车载激光雷达采集时会按照道路行驶,将d设置为目标点云与代表车辆行驶线的垂线穿过树木冠层的距离;
步骤5.3、设输入完整点云数量为m个点,缺失点云为n个点;找到P对应行驶线的垂点T,进而找到垂线段长度求得所有m点的/>后,对/>使用线性归一化将值限制在0到1之间得到d,用d近似穿过冠层距离;
采用分段概率的方式实现:
首先计算得到所有点的d,找到d在前α个点云直接保留,α∈[0,m-n);后β个点云直接加入缺失部分,β∈[0,n);中间γ个的点云将距离d归一化,γ=m-α-β;
再依照公式(6)转为概率p,再与均匀分布在[0,1)的长度为γ的向量T相减得到概率
最后将中概率最小的n-β个点云加入缺失部分;
密度不均缺失方式的不同超参数选择,会极大影响TC-Net结构补全效果;密度不均缺失考虑两组超参数,其一是车道线选择,其二是缺失参数α、β和的选择。
4.如权利要求1所述基于深度学习的三维单木点云的补全方法,其特征在于,所述步骤5.3找到最佳超参数的过程的具体步骤为:
步骤5.2.1、将数据集进行归一化处理,占据一个所有边长为1的正方体空间,xyz坐标均在0到1的范围;
步骤5.2.2、设置三种车道线方案:
车道线方案1:随机为正方体四条底边所在的直线中的一条;
车道线方案2:随机为正方体四条底边所在的直线中的一条,并加上随机0到3的平移,平移在正方体底面上进行,方向为远离正方体底面中心;
车道线方案3:随机为正方体所有十二条边所在的直线和所有面上的对边中垂线所在的直线中的一条;
步骤5.2.3.设置三种缺失参数方案;
缺失参数方案1:β直接取m,即直接消除距离车道线最远的m个点;
超参数方案2:根据实际输入的点云数量取值,α为实际输入点云数量的一半,β为实际输入点云数量的八分之一,在1到4中选择,α、β和/>分别取固定值;
超参数方案3:若实际输入点云数量的一半为n,α取n±250范围内的随机整数、β取范围内的随机整数、/>取范围在1到4的随机整数;
步骤5.2.4、取三种车道线方案和三种缺失参数方案的两两组合,共计九种方案,来测试密度不均缺失不同参数下的结果,用真实缺失点云和预测缺失点云间的CD值衡量预测缺失和真实缺失结果;
步骤5.2.5、使用步骤5.2.4的九种方案来对ShapeNet-Part的训练集进行密度缺失处理,并使用处理后的数据集来对步骤3构建的网络模型TC-Net进行训练,得到预训练好的模型,九种方案对应九个预训练好的模型;
步骤5.2.6、使用步骤5.2.5中得到的预训练好的模型,来对测试集进行测试,计算每种方案在测试集上的平均CD值;并根据测试结果,在九种方案中选择最优方案对应的预训练好的模型,作为最优预训练模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310584661.2A CN116563466A (zh) | 2023-05-23 | 2023-05-23 | 一种基于深度学习的三维单木点云的补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310584661.2A CN116563466A (zh) | 2023-05-23 | 2023-05-23 | 一种基于深度学习的三维单木点云的补全方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116563466A true CN116563466A (zh) | 2023-08-08 |
Family
ID=87494434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310584661.2A Pending CN116563466A (zh) | 2023-05-23 | 2023-05-23 | 一种基于深度学习的三维单木点云的补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563466A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977226A (zh) * | 2023-09-22 | 2023-10-31 | 天津云圣智能科技有限责任公司 | 点云数据分层的处理方法、装置、电子设备及存储介质 |
CN117173650A (zh) * | 2023-11-02 | 2023-12-05 | 浙江华是科技股份有限公司 | 基于激光雷达的船舶测量与识别方法及系统 |
-
2023
- 2023-05-23 CN CN202310584661.2A patent/CN116563466A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977226A (zh) * | 2023-09-22 | 2023-10-31 | 天津云圣智能科技有限责任公司 | 点云数据分层的处理方法、装置、电子设备及存储介质 |
CN116977226B (zh) * | 2023-09-22 | 2024-01-19 | 天津云圣智能科技有限责任公司 | 点云数据分层的处理方法、装置、电子设备及存储介质 |
CN117173650A (zh) * | 2023-11-02 | 2023-12-05 | 浙江华是科技股份有限公司 | 基于激光雷达的船舶测量与识别方法及系统 |
CN117173650B (zh) * | 2023-11-02 | 2024-01-26 | 浙江华是科技股份有限公司 | 基于激光雷达的船舶测量与识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106355151B (zh) | 一种基于深度置信网络的三维sar图像目标识别方法 | |
CN110866887A (zh) | 一种基于多传感器的目标态势融合感知方法和系统 | |
CN108509820B (zh) | 障碍物分割方法及装置、计算机设备及可读介质 | |
CN116563466A (zh) | 一种基于深度学习的三维单木点云的补全方法 | |
Kropatsch et al. | Digital image analysis: selected techniques and applications | |
CN113066162B (zh) | 一种用于电磁计算的城市环境快速建模方法 | |
US8294712B2 (en) | Scalable method for rapidly detecting potential ground vehicle under cover using visualization of total occlusion footprint in point cloud population | |
CN108470174B (zh) | 障碍物分割方法及装置、计算机设备及可读介质 | |
CN115761303A (zh) | 基于机载激光雷达点云和遥感影像数据的地物分类方法 | |
CN115115797A (zh) | 大场景稀疏光场语义驱动智能重建方法、系统与装置 | |
Cui et al. | Dense depth-map estimation based on fusion of event camera and sparse LiDAR | |
CN115147798A (zh) | 可行驶区域预测方法、模型、装置及车辆 | |
Li et al. | 3D virtual urban scene reconstruction from a single optical remote sensing image | |
Isaacson et al. | Loner: Lidar only neural representations for real-time slam | |
Bi et al. | Multi-View Analysis of High-Resolution Geomorphic Features in Complex Mountains Based on UAV–LiDAR and SfM–MVS: A Case Study of the Northern Pit Rim Structure of the Mountains of Lufeng, China | |
CN110580468B (zh) | 一种基于影像匹配点云的单木结构参数提取的方法 | |
CN112950786A (zh) | 一种基于神经网络的车辆三维重建方法 | |
CN116381650A (zh) | 一种激光雷达点云位置和强度仿真模拟及测试方法 | |
CN116994029A (zh) | 一种用于多源数据的融合分类方法及系统 | |
CN116543191A (zh) | 一种多源遥感数据自适应融合地物分类方法 | |
Shan et al. | Feasibility of Accurate Point Cloud Model Reconstruction for Earthquake‐Damaged Structures Using UAV‐Based Photogrammetry | |
Gessler et al. | The future of geomorphometry | |
CN113066161B (zh) | 一种城市电波传播模型的建模方法 | |
Li et al. | Identification lodging degree of wheat using point cloud data and convolutional neural network | |
Bai et al. | Application of unmanned aerial vehicle multi-vision image 3D modeling in geological disasters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |