CN117893691A - 基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法 - Google Patents
基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法 Download PDFInfo
- Publication number
- CN117893691A CN117893691A CN202410162330.4A CN202410162330A CN117893691A CN 117893691 A CN117893691 A CN 117893691A CN 202410162330 A CN202410162330 A CN 202410162330A CN 117893691 A CN117893691 A CN 117893691A
- Authority
- CN
- China
- Prior art keywords
- plane
- feature
- diffusion
- tri
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009792 diffusion process Methods 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 102
- 230000000007 visual effect Effects 0.000 title claims abstract description 32
- 238000009877 rendering Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000003044 adaptive effect Effects 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 29
- 238000005070 sampling Methods 0.000 claims description 27
- 230000005855 radiation Effects 0.000 claims description 20
- 210000005036 nerve Anatomy 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 14
- 238000000354 decomposition reaction Methods 0.000 claims description 10
- 230000002441 reversible effect Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000002829 reductive effect Effects 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 6
- 230000001360 synchronised effect Effects 0.000 abstract description 6
- 238000013507 mapping Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 10
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 2
- 230000035508 accumulation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001808 coupling effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004643 material aging Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Molecular Biology (AREA)
- Mathematical Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- Biophysics (AREA)
- Mathematical Optimization (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Image Generation (AREA)
Abstract
本发明提出基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法。具体步骤包括:步骤一:三平面自适应特征表示;步骤二:三平面扩散特征生成;步骤三:三平面扩散特征解码和预定视角体渲染;步骤四:基于预训练‑微调策略的模型训练。本发明所述方法实现了面对实际表观损伤、外观变化、结构变形演化环境的高效、实时、准确、智能损伤映射、结构三维重建和场景渲染,突破了传统建模方法高度依赖人力、效率低、无法同步更新等瓶颈。
Description
技术领域
本发明涉及结构健康监测、深度学习、计算机视觉、三维重建、立体视觉等技术领域,可以直接应用的技术领域包括智慧基础设施、智能桥梁、建筑智慧运维等,特别是涉及基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法。
背景技术
土木工程基础设施结构包括大型建筑、空间场馆、大型桥梁是新型城镇化建设的枢纽工程,在国民经济发展中发挥着关键作用。土木工程基础设施结构服役期长达上百年,伴随服役时间的不断增加,土木工程基础设施不可避免地遭受到环境侵蚀、材料老化、疲劳荷载、自然灾害和突发事件等多种复杂因素的耦合作用,形成多类型表观损伤、外观变化、结构变形的萌生、发展和累积。考虑到表观损伤、外观变化和结构变形随着结构服役时间推移会持续不断地演化和累积,如何直观、高效、准确地采用三维模型来刻画这些表观损伤、外观变化、结构变形在土木工程基础设施上的发展变化和演化规律,是一个亟待解决的问题。
三维重建是计算机视觉领域的重要技术,通过拍摄土木工程结构多视角图像,运用立体视觉和三维建模技术,实现结构三维重建,是一个可行的技术路线。然而,当考虑表观损伤、外观变化、结构变形在土木工程基础设施上的萌生、发展和累积后,使用原有的三维模型对结构进行分析和评估就可能会产生不全面、不准确的结果。如果要对损伤、变化、变形后的结构重新进行建模,则需要反复采集数据,而且传统人工建模的手段无法做到实时更新和智能映射。因此,为了确保土木基础设施结构三维模型的准确性和可靠性,需要定期自动地更新土木基础设施结构三维模型,并且可以仅利用少量视角新图像进行准确映射和智能重建。
对传统结构三维模型更新方法进行分析后,发现主要的瓶颈挑战包括:
(1)高度依赖人工建模和手动编辑操作,费时费力,人致错误率高、稳定性和可靠性差;
(2)每次更新重建需要采集全部视角数据,无法实现少量视角下的快速更新和视角补全,无法实现真正智能化的三维建模。
目前,基于计算机视觉和深度学习的三维重建技术获得了快速发展。虽然国内外学者已开始研究结合几何编辑和形状优化或变形的神经辐射场方法,但对于少量视角下的对齐约束性差、模型性能高度依赖视角数量和数据质量等难题。因此,现有神经辐射场方法无法直接应用于少量视角下的结构智能三维重建。为了实现满足少量视角下的场景更新需求,实现高效、准确、自动、智能的结构三维重建,本发明提出了基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法。
发明内容
本发明目的是为了解决现有技术中的问题,提出了基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法。
本发明是通过以下技术方案实现的,本发明提出基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法,所述方法包括以下步骤:
步骤一:三平面自适应特征表示;以随机神经辐射场(x,y,z)→(C,σ)为输入,其中(x,y,z)表示三维空间坐标,C表示三通道颜色值,σ表示体密度值;通过隐式或显式或隐式-显式混合地三平面特征编码,自适应地获得三平面特征表示,即F(x,y,z)=E(C,σ),其中E表示预训练三平面特征表示编码器,F表示三平面特征表示;
步骤二:三平面扩散特征生成;以多视角图像和三平面特征表示为联合输入,通过视角条件扩散模型,获得三平面扩散特征表示
步骤三:三平面扩散特征解码和预定视角体渲染;以三平面扩散特征表示为输入,通过三平面特征解码器,获得三平面解码特征,通过体渲染模块,获得预定视角下的颜色值和体密度预测值,即其中D表示三平面特征表示解码器,d表示预设视角方向向量,/>表示预定视角下颜色值和体密度的预测值;
步骤四:基于预训练-微调策略的模型训练;以扩散模型生成神经辐射场的颜色值和体密度沿预定视角光线方向进行积分获得的投影图像的生成误差、三平面特征表示的扩散模型生成误差作为约束,基于视角条件扩散模型在大规模数据集上的预训练参数,通过少量的目标结构不同视角图像进行微调;训练完毕后,按所需视角方向投影,即可获得目标结构的新视角生成图像,最终实现基于三平面特征表示和视角条件扩散模型的结构智能三维重构。
进一步地,步骤一进行三平面特征表示,通过隐式或显式或隐式-显式混合地三平面特征编码,自适应地三平面特征表示,具体包括以下步骤:
步骤一一:构造随机神经辐射场,包括空间点三维坐标及对应的颜色值和体密度;
步骤一二:建立三平面特征表示的隐式学习模块;
步骤一三:建立三平面特征表示的显示学习模块;
步骤一四:建立三平面特征表示的隐式—显示混合学习模块;
步骤一五:根据步骤一二至步骤一四的学习效果、建模精度和计算代价,根据实际场景的建模需求,选择最适合的三平面特征表示方式。
进一步地,步骤一二建立三平面特征表示的隐式学习模块,具体方法为:
式中,P表示具有三维坐标(x,y,z)的空间点;U(P)表示点P附近的一个邻域,其邻域大小可以设置为多尺度取值,从而使得U(P)包含多尺度信息;Txy、Tyz、Txz分别表示与映射隐空间三平面(x-y,y-z,x-z)垂直的轴向;表示三平面特征空间映射器,可采用多层感知机MLP形式的神经网络;Fxy、Fyz、Fxz表示分别与Txy、Tyz、Txz对应的特征向量;concat表示特征向量拼接运算;F(P)=F(x,y,z)表示三平面的隐空间特征表示;
步骤一三建立三平面特征表示的显式学习模块,具体方法为:
式中,表示三平面特征空间,R表示三平面特征空间的轶,/>和 分别表示基于张量分解获得的第r阶特征空间三平面和对应轴向的特征向量,i,j,k表示特征空间三平面对应三个轴向的位置索引,/>由特征空间张量分解得到的所有特征平面和对应特征向量元素之乘积、遍历所有秩求和得到,/>表示三平面x轴方向第i个位置的对应元素值,/>表示y-z平面上(j,k)位置的对应元素值。
进一步地,步骤一四建立三平面特征表示的隐式—显式混合学习模块,具体方法为:
其中,分别代表特征空间三主轴方向在第r阶的重要性权重。
进一步地,步骤二进行三平面扩散特征生成,以三平面特征表示为输入,通过视角条件扩散模型,获得三平面扩散特征表示,具体步骤包括:
步骤二一:正向扩散过程为对输入特征图的加噪过程,逐步在特征图上叠加已知的高斯噪声,该过程从原始特征图逐步加噪至纯噪声特征,可以作为逆向过程的真实标签;
步骤二二:逆向扩散过程为将随机噪声特征还原为输入特征图的去噪过程,建立去噪扩散模型逐步预测所加入的高斯噪声,并利用正向过程的已知噪声信息优化扩散模型参数,最终还原出原始特征图;
步骤二三:嵌入视角条件,通过对极特征Transformer模块提取已知视角图像特征,并将其作为先验信息嵌入到去噪扩散模型,指导模型还原出与已知信息强相关的原始特征图。
进一步地,步骤二进行三平面扩散特征生成的具体方法为:
步骤二一进行扩散模型正向过程:
式中,t表示扩散步骤,Zt表示高斯噪声且Ft表示三平面扩散特征图,αt表示噪声因子,满足/>
步骤二二进行扩散模型逆向过程:
式中,δ2表示方差,μ表示均值;
步骤二三采用跳跃连接U-net形式,在网络各层以视角条件特征向量作为Value,基于交叉注意力机制嵌入视角条件,逐步获得去噪模型:
式中,pφ表示扩散模型,表示t时间步预测噪声,/>表示t时间步的三平面预测特征图,V表示扩散视角条件特征。
进一步地,步骤三进行预定视角体渲染,具体包括以下步骤:
(1)沿预定视角方向将每个采样点的颜色贡献进行加权求和,生成所预测的损伤结构像素点颜色值,体渲染加权求和计算方法为:
式中,C(r)为图像像素点的颜色预测值,r(s)代表生成光线,c[r(s),d]为光线上s处的颜色值,σ[r(s)]为光线上s处的体密度值,sn和sf分别代表生成光线的最近边界和最远边界;T(s)为从视点到空间点的透明度函数,体密度越大导致透明度越小,表示更多光线被吸收,按从相机到当前空间点之间路径上所有点的体密度负指数积分计算:
(2)进行体渲染离散化处理,将[sn,sf]划分为N个均匀间隔,并从中随机抽取一个样本;离散化体渲染的计算方法为:
式中,si代表光线上离散化后第i个采样点对应的s值,表示均匀分布,δi代表相邻采样点之间的距离,Ti为从视点到第i个采样点的透明度函数,σi为第i个采样点的体密度预测值,ci为第i个采样点的颜色预测值,/>代表离散化体渲染后的图像像素点颜色预测值。
进一步地,步骤四进行基于预训练-微调策略的模型训练,具体包括以下步骤:
步骤四一:以扩散模型生成神经辐射场的颜色值和体密度沿预定视角光线方向进行积分获得的投影图像的生成误差、三平面特征表示的扩散模型生成误差作为约束,使得生成图像的像素点颜色值预测结果与已知图像中与之对应的像素点颜色值真实结果尽可能接近,并且保证由视角条件扩散模型生成的三平面扩散特征表示与三平面隐式或显式或隐式—显式混合特征表示尽可能相似,损失函数采用基于L2范数的综合损失函数Loss:
式中,g(d)表示已知视角集合,I(d)表示沿预定视角方向d投影获得的真实场景图像,α表示损失项的占比权重调节参数,wt表示第t时间步的动态权重系数,E表示求期望运算;
步骤四二:采用基于梯度下降的优化算法进行训练,基于视角条件扩散模型在大规模数据集上的预训练参数,通过少量的目标结构不同视角图像进行微调,以有监督学习的方式对模型进行训练;
步骤四三:进行新视角生成,基于待生成视角方向向量设置光线,在光线上进行采样后,将采样点空间坐标、方向向量作为输入,输出每个采样点的颜色值和体密度值;采用体渲染技术沿视线路径生成所需新视角下图像的像素点颜色值,最终完成整个图像的颜色值预测,实现新视图的合成。
本发明提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法的步骤。
本发明提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法的步骤。
本发明提出了基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法,具有以下优点:
(1)通过设计三平面特征空间学习和表示模块,基于三个相互正交的轴向特征平面及其特征向量实现特征空间分解,有效提升了图像特征在重建过程的作用,提高了准确性和效率。
(2)通过设计视角条件扩散模型对生成的三平面扩散特征进行约束,保证了三平面特征空间的对齐和一致性,进一步实现了生成特征的匹配和关联,有效降低了对视角信息的要求。
(3)通过自适应地选择隐式、显示、隐式—显式混合的自适应三平面特征表示学习策略,实现了可以根据实际应用场景所需要的效果、建模精度和计算代价,选取最适合的三平面特征表示方式。
(4)通过设计隐式—显式混合学习模块,既具备了学习过程的可解释性,又提高了建模速度、保证了建模质量,使得生成的三维模型更加可靠、快速和逼真。
(5)基于张量分解将近似稀疏的三维模型映射特征空间进行低秩压缩,获得对应秩、各阶特征子空间的紧向量和矩阵因子,并基于注意力机制计算各阶子空间的重要性程度,同时设计了低秩约束的正向计算模块,保证了重要特征可以被学习到而不重要特征亦不会浪费学习资源,提高了建模效率。
(6)实现了面对实际表观损伤、外观变化、结构变形演化环境的高效、实时、准确、智能损伤映射、结构三维重建和场景渲染,突破了传统建模方法高度依赖人力、效率低、无法同步更新等瓶颈。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法流程图。
图2是基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法整体架构图。
图3是三平面特征表示的隐式学习模块示意图。
图4是三平面特征表示的显式学习模块示意图。
图5是三平面特征表示的隐式—显式混合学习模块示意图。
图6是三平面特征空间混合学习的多阶重要性权重计算方法示意图。
图7是三平面扩散特征生成的视角条件扩散模型架构图。
图8是三平面扩散特征生成的视角条件扩散模型计算过程示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1-图8,本发明提出基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法,本发明提出的基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法流程图如图1所示,所述方法包括以下步骤:
步骤一:三平面自适应特征表示;以随机神经辐射场(x,y,z)→(C,σ)为输入,其中(x,y,z)表示三维空间坐标,C表示三通道颜色值,σ表示体密度值;通过隐式或显式或隐式-显式混合地三平面特征编码,自适应地获得三平面特征表示,即F(x,y,z)=E(C,σ),其中E表示预训练三平面特征表示编码器(参数冻结),F表示三平面特征表示;
步骤二:三平面扩散特征生成;以多视角图像和三平面特征表示为联合输入,通过视角条件扩散模型,获得三平面扩散特征表示
步骤三:三平面扩散特征解码和预定视角体渲染;以三平面扩散特征表示为输入,通过三平面特征解码器,获得三平面解码特征,通过体渲染模块,获得预定视角下的颜色值和体密度预测值,即其中D表示三平面特征表示解码器,d表示预设视角方向向量,/>表示预定视角下颜色值和体密度的预测值;
步骤四:基于预训练-微调策略的模型训练;以扩散模型生成神经辐射场的颜色值和体密度沿预定视角光线方向进行积分获得的投影图像的生成误差、三平面特征表示的扩散模型生成误差作为约束,基于视角条件扩散模型在大规模数据集上的预训练参数,通过少量的目标结构不同视角图像进行微调;训练完毕后,按所需视角方向投影,即可获得目标结构的新视角生成图像,最终实现基于三平面特征表示和视角条件扩散模型的结构智能三维重构。
本发明提出的基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法整体架构图如图2所示。
步骤一进行三平面特征表示,通过隐式或显式或隐式-显式混合地三平面特征编码,自适应地三平面特征表示,具体包括以下步骤:
步骤一一:构造随机神经辐射场,包括空间点三维坐标及对应的颜色值和体密度;
步骤一二:建立三平面特征表示的隐式学习模块;
步骤一三:建立三平面特征表示的显示学习模块;
步骤一四:建立三平面特征表示的隐式—显示混合学习模块;
步骤一五:根据步骤一二至步骤一四的学习效果、建模精度和计算代价,根据实际场景的建模需求,选择最适合的三平面特征表示方式。
步骤一二建立三平面特征表示的隐式学习模块,示意图如图3所示,具体方法为:
式中,P表示具有三维坐标(x,y,z)的空间点;U(P)表示点P附近的一个邻域,其邻域大小可以设置为多尺度取值,从而使得U(P)包含多尺度信息;Txy、Tyz、Txz分别表示与映射隐空间三平面(x-y,y-z,x-z)垂直的轴向;表示三平面特征空间映射器,可采用多层感知机MLP形式的神经网络;Fxy、Fyz、Fxz表示分别与Txy、Tyz、Txz对应的特征向量;concat表示特征向量拼接运算;F(P)=F(x,y,z)表示三平面的隐空间特征表示;
步骤一三建立三平面特征表示的显式学习模块,基于张量分解显式地将三平面特征表示空间进行有明确意义的、沿三主轴方向的解耦,示意图如图4所示,具体方法为:
式中,表示三平面特征空间,R表示三平面特征空间的轶,/>和/> 分别表示基于张量分解获得的第r阶特征空间三平面和对应轴向的特征向量,i,j,k表示特征空间三平面对应三个轴向的位置索引,/>由特征空间张量分解得到的所有特征平面和对应特征向量元素之乘积、遍历所有秩求和得到,/>表示三平面x轴方向第i个位置的对应元素值,/>表示y-z平面上(j,k)位置的对应元素值(其余类似变量随角标代表的坐标轴方向产生自适应变化,不再赘述说明)。
步骤一四建立三平面特征表示的隐式—显式混合学习模块,示意图如图5所示,根据步骤一三基于张量分解将三平面特征表示空间进行显式、有明确意义的、沿三主轴方向的解耦所获得的特征平面和特征向量,对不同阶数进行重要性加权,具体方法为:
其中,分别代表特征空间三主轴方向在第r阶的重要性权重。对于显式解耦的三平面特征空间,基于对应轴向的注意力机制、多层感知机MLP和稀疏约束模块,输出对应秩特征空间的重要性系数,如图6所示。其中,稀疏约束模块为sigmoid激活函数层和softmax层的叠加组合,目的是将W向量中元素的取值范围约定在0~1并且可以尽量地区分开,只有少量的元素值接近于1、大部分元素值为0,实现稀疏化约束的正向设计。
步骤二进行三平面扩散特征生成,以三平面特征表示为输入,通过视角条件扩散模型,获得三平面扩散特征表示,示意图如图7所示,具体步骤包括:
步骤二一:正向扩散过程为对输入特征图的加噪过程,逐步在特征图上叠加已知的高斯噪声,该过程从原始特征图逐步加噪至纯噪声特征,可以作为逆向过程的真实标签;
步骤二二:逆向扩散过程为将随机噪声特征还原为输入特征图的去噪过程,建立去噪扩散模型逐步预测所加入的高斯噪声,并利用正向过程的已知噪声信息优化扩散模型参数,最终还原出原始特征图;
步骤二三:嵌入视角条件,通过对极特征Transformer模块提取已知视角图像特征,并将其作为先验信息嵌入到去噪扩散模型,指导模型还原出与已知信息强相关的原始特征图。
步骤二进行三平面扩散特征生成的具体方法为:
步骤二一进行扩散模型正向过程:
式中,t表示扩散步骤,Zt表示高斯噪声且Ft表示三平面扩散特征图,αt表示噪声因子,满足/>
步骤二二进行扩散模型逆向过程:
式中,δ2表示方差,μ表示均值;
步骤二三采用跳跃连接U-net形式,在网络各层以视角条件特征向量作为Value,基于交叉注意力机制嵌入视角条件,逐步获得去噪模型:
式中,pφ表示扩散模型,表示t时间步预测噪声,/>表示t时间步的三平面预测特征图,V表示扩散视角条件特征。
三平面扩散特征生成的视角条件扩散模型计算过程示意图如图8所示。
步骤三进行三平面扩散特征解码和预定视角体渲染,具体包括以下步骤:
步骤三一:以三平面扩散特征表示为输入,通过三平面特征解码器(可采用多层感知机MLP形式的神经网络),获得三平面解码特征;
步骤三二:通过体渲染模块,获得预定视角下的颜色值和体密度预测值,即其中D表示三平面特征表示解码器,d表示预设视角方向向量,/>表示预定视角下颜色值和体密度的预测值。具体方法如下:
(1)沿预定视角方向将每个采样点的颜色贡献进行加权求和,生成所预测的损伤结构像素点颜色值,体渲染加权求和计算方法为:
式中,C(r)为图像像素点的颜色预测值,r(s)代表生成光线,c[r(s),d]为光线上s处的颜色值,σ[r(s)]为光线上s处的体密度值,sn和sf分别代表生成光线的最近边界和最远边界;T(s)为从视点到空间点的透明度函数,体密度越大导致透明度越小,表示更多光线被吸收,按从相机到当前空间点之间路径上所有点的体密度负指数积分计算:
(2)进行体渲染离散化处理,将[sn,sf]划分为N个均匀间隔,并从中随机抽取一个样本;离散化体渲染的计算方法为:
式中,si代表光线上离散化后第i个采样点对应的s值,表示均匀分布,δi代表相邻采样点之间的距离,Ti为从视点到第i个采样点的透明度函数,σi为第i个采样点的体密度预测值,ci为第i个采样点的颜色预测值,/>代表离散化体渲染后的图像像素点颜色预测值。
步骤四进行基于预训练-微调策略的模型训练,具体包括以下步骤:
步骤四一:以扩散模型生成神经辐射场的颜色值和体密度沿预定视角光线方向进行积分获得的投影图像的生成误差、三平面特征表示的扩散模型生成误差作为约束,使得生成图像的像素点颜色值预测结果与已知图像中与之对应的像素点颜色值真实结果尽可能接近,并且保证由视角条件扩散模型生成的三平面扩散特征表示与三平面隐式或显式或隐式—显式混合特征表示尽可能相似,损失函数采用基于L2范数的综合损失函数Loss:
式中,g(d)表示已知视角集合,I(d)表示沿预定视角方向d投影获得的真实场景图像,α表示损失项的占比权重调节参数,wt表示第t时间步的动态权重系数,表示求期望运算;
步骤四二:采用基于梯度下降的优化算法进行训练,基于视角条件扩散模型在大规模数据集上的预训练参数,通过少量的目标结构不同视角图像进行微调,以有监督学习的方式对模型进行训练;
步骤四三:进行新视角生成,基于待生成视角方向向量设置光线,在光线上进行采样后,将采样点空间坐标、方向向量作为输入,输出每个采样点的颜色值和体密度值;采用体渲染技术沿视线路径生成所需新视角下图像的像素点颜色值,最终完成整个图像的颜色值预测,实现新视图的合成。
本发明提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法的步骤。
本发明提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法的步骤。
本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasablePROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambusRAM,DRRAM)。应注意,本发明描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(digital video disc,DVD))、或者半导体介质(例如,固态硬盘(solid state disc,SSD))等。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
应注意,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
以上对本发明所提出的基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法,其特征在于,所述方法包括以下步骤:
步骤一:三平面自适应特征表示;以随机神经辐射场(x,y,z)→(C,σ)为输入,其中(x,y,z)表示三维空间坐标,C表示三通道颜色值,σ表示体密度值;通过隐式或显式或隐式-显式混合地三平面特征编码,自适应地获得三平面特征表示,即F(x,y,z)=E(C,σ),其中E表示预训练三平面特征表示编码器,F表示三平面特征表示;
步骤二:三平面扩散特征生成;以多视角图像和三平面特征表示为联合输入,通过视角条件扩散模型,获得三平面扩散特征表示
步骤三:三平面扩散特征解码和预定视角体渲染;以三平面扩散特征表示为输入,通过三平面特征解码器,获得三平面解码特征,通过体渲染模块,获得预定视角下的颜色值和体密度预测值,即其中D表示三平面特征表示解码器,d表示预设视角方向向量,/>表示预定视角下颜色值和体密度的预测值;
步骤四:基于预训练-微调策略的模型训练;以扩散模型生成神经辐射场的颜色值和体密度沿预定视角光线方向进行积分获得的投影图像的生成误差、三平面特征表示的扩散模型生成误差作为约束,基于视角条件扩散模型在大规模数据集上的预训练参数,通过少量的目标结构不同视角图像进行微调;训练完毕后,按所需视角方向投影,即可获得目标结构的新视角生成图像,最终实现基于三平面特征表示和视角条件扩散模型的结构智能三维重构。
2.根据权利要求1所述的方法,其特征在于,步骤一进行三平面特征表示,通过隐式或显式或隐式-显式混合地三平面特征编码,自适应地三平面特征表示,具体包括以下步骤:
步骤一一:构造随机神经辐射场,包括空间点三维坐标及对应的颜色值和体密度;
步骤一二:建立三平面特征表示的隐式学习模块;
步骤一三:建立三平面特征表示的显示学习模块;
步骤一四:建立三平面特征表示的隐式—显示混合学习模块;
步骤一五:根据步骤一二至步骤一四的学习效果、建模精度和计算代价,根据实际场景的建模需求,选择最适合的三平面特征表示方式。
3.根据权利要求2所述的方法,其特征在于,步骤一二建立三平面特征表示的隐式学习模块,具体方法为:
式中,P表示具有三维坐标(x,y,z)的空间点;U(P)表示点P附近的一个邻域,其邻域大小可以设置为多尺度取值,从而使得U(P)包含多尺度信息;Txy、Tyz、Txz分别表示与映射隐空间三平面(x-y,y-z,x-z)垂直的轴向;表示三平面特征空间映射器,可采用多层感知机MLP形式的神经网络;Fxy、Fyz、Fxz表示分别与Txy、Tyz、Txz对应的特征向量;concat表示特征向量拼接运算;F(P)=F(x,y,z)表示三平面的隐空间特征表示;
步骤一三建立三平面特征表示的显式学习模块,具体方法为:
式中,表示三平面特征空间,R表示三平面特征空间的轶,/>和/> 分别表示基于张量分解获得的第r阶特征空间三平面和对应轴向的特征向量,i,j,k表示特征空间三平面对应三个轴向的位置索引,/>由特征空间张量分解得到的所有特征平面和对应特征向量元素之乘积、遍历所有秩求和得到,/>表示三平面x轴方向第i个位置的对应元素值,/>表示y-z平面上(j,k)位置的对应元素值。
4.根据权利要求3所述的方法,其特征在于,步骤一四建立三平面特征表示的隐式—显式混合学习模块,具体方法为:
其中,分别代表特征空间三主轴方向在第r阶的重要性权重。
5.根据权利要求4所述的方法,其特征在于,步骤二进行三平面扩散特征生成,以三平面特征表示为输入,通过视角条件扩散模型,获得三平面扩散特征表示,具体步骤包括:
步骤二一:正向扩散过程为对输入特征图的加噪过程,逐步在特征图上叠加已知的高斯噪声,该过程从原始特征图逐步加噪至纯噪声特征,可以作为逆向过程的真实标签;
步骤二二:逆向扩散过程为将随机噪声特征还原为输入特征图的去噪过程,建立去噪扩散模型逐步预测所加入的高斯噪声,并利用正向过程的已知噪声信息优化扩散模型参数,最终还原出原始特征图;
步骤二三:嵌入视角条件,通过对极特征Transformer模块提取已知视角图像特征,并将其作为先验信息嵌入到去噪扩散模型,指导模型还原出与已知信息强相关的原始特征图。
6.根据权利要求5所述的方法,其特征在于,步骤二进行三平面扩散特征生成的具体方法为:
步骤二一进行扩散模型正向过程:
式中,t表示扩散步骤,Zt表示高斯噪声且Ft表示三平面扩散特征图,αt表示噪声因子,满足/>
步骤二二进行扩散模型逆向过程:
式中,δ2表示方差,μ表示均值;
步骤二三采用跳跃连接U-net形式,在网络各层以视角条件特征向量作为Value,基于交叉注意力机制嵌入视角条件,逐步获得去噪模型:
式中,pφ表示扩散模型,表示t时间步预测噪声,/>表示t时间步的三平面预测特征图,V表示扩散视角条件特征。
7.根据权利要求6所述的方法,其特征在于,步骤三进行预定视角体渲染,具体包括以下步骤:
(1)沿预定视角方向将每个采样点的颜色贡献进行加权求和,生成所预测的损伤结构像素点颜色值,体渲染加权求和计算方法为:
式中,C(r)为图像像素点的颜色预测值,r(s)代表生成光线,c[r(s),d]为光线上s处的颜色值,σ[r(s)]为光线上s处的体密度值,sn和sf分别代表生成光线的最近边界和最远边界;T(s)为从视点到空间点的透明度函数,体密度越大导致透明度越小,表示更多光线被吸收,按从相机到当前空间点之间路径上所有点的体密度负指数积分计算:
(2)进行体渲染离散化处理,将[sn,sf]划分为N个均匀间隔,并从中随机抽取一个样本;离散化体渲染的计算方法为:
式中,si代表光线上离散化后第i个采样点对应的s值,表示均匀分布,δi代表相邻采样点之间的距离,Ti为从视点到第i个采样点的透明度函数,σi为第i个采样点的体密度预测值,ci为第i个采样点的颜色预测值,/>代表离散化体渲染后的图像像素点颜色预测值。
8.根据权利要求7所述的方法,其特征在于,步骤四进行基于预训练-微调策略的模型训练,具体包括以下步骤:
步骤四一:以扩散模型生成神经辐射场的颜色值和体密度沿预定视角光线方向进行积分获得的投影图像的生成误差、三平面特征表示的扩散模型生成误差作为约束,使得生成图像的像素点颜色值预测结果与已知图像中与之对应的像素点颜色值真实结果尽可能接近,并且保证由视角条件扩散模型生成的三平面扩散特征表示与三平面隐式或显式或隐式—显式混合特征表示尽可能相似,损失函数采用基于L2范数的综合损失函数Loss:
式中,g(d)表示已知视角集合,I(d)表示沿预定视角方向d投影获得的真实场景图像,α表示损失项的占比权重调节参数,wt表示第t时间步的动态权重系数,表示求期望运算;
步骤四二:采用基于梯度下降的优化算法进行训练,基于视角条件扩散模型在大规模数据集上的预训练参数,通过少量的目标结构不同视角图像进行微调,以有监督学习的方式对模型进行训练;
步骤四三:进行新视角生成,基于待生成视角方向向量设置光线,在光线上进行采样后,将采样点空间坐标、方向向量作为输入,输出每个采样点的颜色值和体密度值;采用体渲染技术沿视线路径生成所需新视角下图像的像素点颜色值,最终完成整个图像的颜色值预测,实现新视图的合成。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-8任一项所述方法的步骤。
10.一种计算机可读存储介质,用于存储计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410162330.4A CN117893691B (zh) | 2024-02-05 | 2024-02-05 | 基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410162330.4A CN117893691B (zh) | 2024-02-05 | 2024-02-05 | 基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117893691A true CN117893691A (zh) | 2024-04-16 |
CN117893691B CN117893691B (zh) | 2024-08-20 |
Family
ID=90642522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410162330.4A Active CN117893691B (zh) | 2024-02-05 | 2024-02-05 | 基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117893691B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116310153A (zh) * | 2023-05-26 | 2023-06-23 | 南昌航空大学 | 单视图彩色三维点云重建方法、系统、存储介质及计算机 |
CN116310219A (zh) * | 2023-03-20 | 2023-06-23 | 浙江大学 | 一种基于条件扩散模型的三维脚型生成方法 |
US20230281955A1 (en) * | 2022-03-07 | 2023-09-07 | Quidient, Llc | Systems and methods for generalized scene reconstruction |
CN117409140A (zh) * | 2023-10-23 | 2024-01-16 | 北京大学 | 基于大语言模型的可控布局三维场景表征与生成方法 |
-
2024
- 2024-02-05 CN CN202410162330.4A patent/CN117893691B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230281955A1 (en) * | 2022-03-07 | 2023-09-07 | Quidient, Llc | Systems and methods for generalized scene reconstruction |
CN116310219A (zh) * | 2023-03-20 | 2023-06-23 | 浙江大学 | 一种基于条件扩散模型的三维脚型生成方法 |
CN116310153A (zh) * | 2023-05-26 | 2023-06-23 | 南昌航空大学 | 单视图彩色三维点云重建方法、系统、存储介质及计算机 |
CN117409140A (zh) * | 2023-10-23 | 2024-01-16 | 北京大学 | 基于大语言模型的可控布局三维场景表征与生成方法 |
Non-Patent Citations (1)
Title |
---|
LIANGYI CUI等: "Improved Swin Transformer-Based Semantic Segmentation of Postearthquake Dense Buildings in Urban Areas Using Remote Sensing Images", 《 IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING ( VOLUME: 16)》, 28 November 2022 (2022-11-28) * |
Also Published As
Publication number | Publication date |
---|---|
CN117893691B (zh) | 2024-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11763433B2 (en) | Depth image generation method and device | |
CN111612754B (zh) | 基于多模态图像融合的mri肿瘤优化分割方法及系统 | |
Hu et al. | Structure‐aware 3D reconstruction for cable‐stayed bridges: A learning‐based method | |
CN115439694A (zh) | 一种基于深度学习的高精度点云补全方法及装置 | |
Samavati et al. | Deep learning-based 3D reconstruction: a survey | |
CN117115339B (zh) | 一种基于NeRF 5D神经辐射场的建筑三维重建与损伤识别方法 | |
CN112819080A (zh) | 一种高精度通用的三维点云识别方法 | |
Jeon et al. | ABCD: Attentive bilateral convolutional network for robust depth completion | |
CN115457492A (zh) | 目标检测方法、装置、计算机设备及存储介质 | |
CN116246119A (zh) | 3d目标检测方法、电子设备及存储介质 | |
CN115983148A (zh) | 一种cfd仿真云图预测方法、系统、电子设备及介质 | |
Fang et al. | Sparse point‐voxel aggregation network for efficient point cloud semantic segmentation | |
CN117893691B (zh) | 基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法 | |
CN116721206A (zh) | 一种实时的室内场景视觉同步定位与建图方法 | |
CN114842313B (zh) | 基于伪点云的目标检测方法、装置、电子设备和存储介质 | |
US20240013342A1 (en) | Method, electronic device, and computer program product for processing point cloud | |
CN116168162A (zh) | 一种多视角加权聚合的三维点云重建方法 | |
CN114663879B (zh) | 目标检测方法、装置、电子设备及存储介质 | |
US20230410254A1 (en) | Task-aware point cloud down-sampling | |
Li et al. | Easily deployable real-time detection method for small traffic signs | |
CN118470333B (zh) | 一种基于遥感图像的地理环境语义分割方法及系统 | |
CN118229893B (zh) | 一种稀疏点云三维重建方法及装置 | |
CN117935291B (zh) | 草图生成模型的训练方法、草图生成方法、终端及介质 | |
Zou et al. | Human pose evaluation based on full-domain convolution and LSTM | |
CN116580193A (zh) | 一种点云分割方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |