CN117893691A - 基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法 - Google Patents

基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法 Download PDF

Info

Publication number
CN117893691A
CN117893691A CN202410162330.4A CN202410162330A CN117893691A CN 117893691 A CN117893691 A CN 117893691A CN 202410162330 A CN202410162330 A CN 202410162330A CN 117893691 A CN117893691 A CN 117893691A
Authority
CN
China
Prior art keywords
plane
feature
diffusion
feature representation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410162330.4A
Other languages
English (en)
Other versions
CN117893691B (zh
Inventor
徐阳
李惠
范云蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Shenzhen
Original Assignee
Harbin Institute of Technology Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Shenzhen filed Critical Harbin Institute of Technology Shenzhen
Priority to CN202410162330.4A priority Critical patent/CN117893691B/zh
Publication of CN117893691A publication Critical patent/CN117893691A/zh
Application granted granted Critical
Publication of CN117893691B publication Critical patent/CN117893691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Biophysics (AREA)
  • Mathematical Optimization (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Generation (AREA)

Abstract

本发明提出基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法。具体步骤包括:步骤一:三平面自适应特征表示;步骤二:三平面扩散特征生成;步骤三:三平面扩散特征解码和预定视角体渲染;步骤四:基于预训练‑微调策略的模型训练。本发明所述方法实现了面对实际表观损伤、外观变化、结构变形演化环境的高效、实时、准确、智能损伤映射、结构三维重建和场景渲染,突破了传统建模方法高度依赖人力、效率低、无法同步更新等瓶颈。

Description

基于三平面特征表示和视角条件扩散模型的结构智能三维重 构方法
技术领域
本发明涉及结构健康监测、深度学习、计算机视觉、三维重建、立体视觉等技术领域,可以直接应用的技术领域包括智慧基础设施、智能桥梁、建筑智慧运维等,特别是涉及基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法。
背景技术
土木工程基础设施结构包括大型建筑、空间场馆、大型桥梁是新型城镇化建设的枢纽工程,在国民经济发展中发挥着关键作用。土木工程基础设施结构服役期长达上百年,伴随服役时间的不断增加,土木工程基础设施不可避免地遭受到环境侵蚀、材料老化、疲劳荷载、自然灾害和突发事件等多种复杂因素的耦合作用,形成多类型表观损伤、外观变化、结构变形的萌生、发展和累积。考虑到表观损伤、外观变化和结构变形随着结构服役时间推移会持续不断地演化和累积,如何直观、高效、准确地采用三维模型来刻画这些表观损伤、外观变化、结构变形在土木工程基础设施上的发展变化和演化规律,是一个亟待解决的问题。
三维重建是计算机视觉领域的重要技术,通过拍摄土木工程结构多视角图像,运用立体视觉和三维建模技术,实现结构三维重建,是一个可行的技术路线。然而,当考虑表观损伤、外观变化、结构变形在土木工程基础设施上的萌生、发展和累积后,使用原有的三维模型对结构进行分析和评估就可能会产生不全面、不准确的结果。如果要对损伤、变化、变形后的结构重新进行建模,则需要反复采集数据,而且传统人工建模的手段无法做到实时更新和智能映射。因此,为了确保土木基础设施结构三维模型的准确性和可靠性,需要定期自动地更新土木基础设施结构三维模型,并且可以仅利用少量视角新图像进行准确映射和智能重建。
对传统结构三维模型更新方法进行分析后,发现主要的瓶颈挑战包括:
(1)高度依赖人工建模和手动编辑操作,费时费力,人致错误率高、稳定性和可靠性差;
(2)每次更新重建需要采集全部视角数据,无法实现少量视角下的快速更新和视角补全,无法实现真正智能化的三维建模。
目前,基于计算机视觉和深度学习的三维重建技术获得了快速发展。虽然国内外学者已开始研究结合几何编辑和形状优化或变形的神经辐射场方法,但对于少量视角下的对齐约束性差、模型性能高度依赖视角数量和数据质量等难题。因此,现有神经辐射场方法无法直接应用于少量视角下的结构智能三维重建。为了实现满足少量视角下的场景更新需求,实现高效、准确、自动、智能的结构三维重建,本发明提出了基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法。
发明内容
本发明目的是为了解决现有技术中的问题,提出了基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法。
本发明是通过以下技术方案实现的,本发明提出基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法,所述方法包括以下步骤:
步骤一:三平面自适应特征表示;以随机神经辐射场(x,y,z)→(C,σ)为输入,其中(x,y,z)表示三维空间坐标,C表示三通道颜色值,σ表示体密度值;通过隐式或显式或隐式-显式混合地三平面特征编码,自适应地获得三平面特征表示,即F(x,y,z)=E(C,σ),其中E表示预训练三平面特征表示编码器,F表示三平面特征表示;
步骤二:三平面扩散特征生成;以多视角图像和三平面特征表示为联合输入,通过视角条件扩散模型,获得三平面扩散特征表示
步骤三:三平面扩散特征解码和预定视角体渲染;以三平面扩散特征表示为输入,通过三平面特征解码器,获得三平面解码特征,通过体渲染模块,获得预定视角下的颜色值和体密度预测值,即其中D表示三平面特征表示解码器,d表示预设视角方向向量,/>表示预定视角下颜色值和体密度的预测值;
步骤四:基于预训练-微调策略的模型训练;以扩散模型生成神经辐射场的颜色值和体密度沿预定视角光线方向进行积分获得的投影图像的生成误差、三平面特征表示的扩散模型生成误差作为约束,基于视角条件扩散模型在大规模数据集上的预训练参数,通过少量的目标结构不同视角图像进行微调;训练完毕后,按所需视角方向投影,即可获得目标结构的新视角生成图像,最终实现基于三平面特征表示和视角条件扩散模型的结构智能三维重构。
进一步地,步骤一进行三平面特征表示,通过隐式或显式或隐式-显式混合地三平面特征编码,自适应地三平面特征表示,具体包括以下步骤:
步骤一一:构造随机神经辐射场,包括空间点三维坐标及对应的颜色值和体密度;
步骤一二:建立三平面特征表示的隐式学习模块;
步骤一三:建立三平面特征表示的显示学习模块;
步骤一四:建立三平面特征表示的隐式—显示混合学习模块;
步骤一五:根据步骤一二至步骤一四的学习效果、建模精度和计算代价,根据实际场景的建模需求,选择最适合的三平面特征表示方式。
进一步地,步骤一二建立三平面特征表示的隐式学习模块,具体方法为:
式中,P表示具有三维坐标(x,y,z)的空间点;U(P)表示点P附近的一个邻域,其邻域大小可以设置为多尺度取值,从而使得U(P)包含多尺度信息;Txy、Tyz、Txz分别表示与映射隐空间三平面(x-y,y-z,x-z)垂直的轴向;表示三平面特征空间映射器,可采用多层感知机MLP形式的神经网络;Fxy、Fyz、Fxz表示分别与Txy、Tyz、Txz对应的特征向量;concat表示特征向量拼接运算;F(P)=F(x,y,z)表示三平面的隐空间特征表示;
步骤一三建立三平面特征表示的显式学习模块,具体方法为:
式中,表示三平面特征空间,R表示三平面特征空间的轶,/> 分别表示基于张量分解获得的第r阶特征空间三平面和对应轴向的特征向量,i,j,k表示特征空间三平面对应三个轴向的位置索引,/>由特征空间张量分解得到的所有特征平面和对应特征向量元素之乘积、遍历所有秩求和得到,/>表示三平面x轴方向第i个位置的对应元素值,/>表示y-z平面上(j,k)位置的对应元素值。
进一步地,步骤一四建立三平面特征表示的隐式—显式混合学习模块,具体方法为:
其中,分别代表特征空间三主轴方向在第r阶的重要性权重。
进一步地,步骤二进行三平面扩散特征生成,以三平面特征表示为输入,通过视角条件扩散模型,获得三平面扩散特征表示,具体步骤包括:
步骤二一:正向扩散过程为对输入特征图的加噪过程,逐步在特征图上叠加已知的高斯噪声,该过程从原始特征图逐步加噪至纯噪声特征,可以作为逆向过程的真实标签;
步骤二二:逆向扩散过程为将随机噪声特征还原为输入特征图的去噪过程,建立去噪扩散模型逐步预测所加入的高斯噪声,并利用正向过程的已知噪声信息优化扩散模型参数,最终还原出原始特征图;
步骤二三:嵌入视角条件,通过对极特征Transformer模块提取已知视角图像特征,并将其作为先验信息嵌入到去噪扩散模型,指导模型还原出与已知信息强相关的原始特征图。
进一步地,步骤二进行三平面扩散特征生成的具体方法为:
步骤二一进行扩散模型正向过程:
式中,t表示扩散步骤,Zt表示高斯噪声且Ft表示三平面扩散特征图,αt表示噪声因子,满足/>
步骤二二进行扩散模型逆向过程:
式中,δ2表示方差,μ表示均值;
步骤二三采用跳跃连接U-net形式,在网络各层以视角条件特征向量作为Value,基于交叉注意力机制嵌入视角条件,逐步获得去噪模型:
式中,pφ表示扩散模型,表示t时间步预测噪声,/>表示t时间步的三平面预测特征图,V表示扩散视角条件特征。
进一步地,步骤三进行预定视角体渲染,具体包括以下步骤:
(1)沿预定视角方向将每个采样点的颜色贡献进行加权求和,生成所预测的损伤结构像素点颜色值,体渲染加权求和计算方法为:
式中,C(r)为图像像素点的颜色预测值,r(s)代表生成光线,c[r(s),d]为光线上s处的颜色值,σ[r(s)]为光线上s处的体密度值,sn和sf分别代表生成光线的最近边界和最远边界;T(s)为从视点到空间点的透明度函数,体密度越大导致透明度越小,表示更多光线被吸收,按从相机到当前空间点之间路径上所有点的体密度负指数积分计算:
(2)进行体渲染离散化处理,将[sn,sf]划分为N个均匀间隔,并从中随机抽取一个样本;离散化体渲染的计算方法为:
式中,si代表光线上离散化后第i个采样点对应的s值,表示均匀分布,δi代表相邻采样点之间的距离,Ti为从视点到第i个采样点的透明度函数,σi为第i个采样点的体密度预测值,ci为第i个采样点的颜色预测值,/>代表离散化体渲染后的图像像素点颜色预测值。
进一步地,步骤四进行基于预训练-微调策略的模型训练,具体包括以下步骤:
步骤四一:以扩散模型生成神经辐射场的颜色值和体密度沿预定视角光线方向进行积分获得的投影图像的生成误差、三平面特征表示的扩散模型生成误差作为约束,使得生成图像的像素点颜色值预测结果与已知图像中与之对应的像素点颜色值真实结果尽可能接近,并且保证由视角条件扩散模型生成的三平面扩散特征表示与三平面隐式或显式或隐式—显式混合特征表示尽可能相似,损失函数采用基于L2范数的综合损失函数Loss:
式中,g(d)表示已知视角集合,I(d)表示沿预定视角方向d投影获得的真实场景图像,α表示损失项的占比权重调节参数,wt表示第t时间步的动态权重系数,E表示求期望运算;
步骤四二:采用基于梯度下降的优化算法进行训练,基于视角条件扩散模型在大规模数据集上的预训练参数,通过少量的目标结构不同视角图像进行微调,以有监督学习的方式对模型进行训练;
步骤四三:进行新视角生成,基于待生成视角方向向量设置光线,在光线上进行采样后,将采样点空间坐标、方向向量作为输入,输出每个采样点的颜色值和体密度值;采用体渲染技术沿视线路径生成所需新视角下图像的像素点颜色值,最终完成整个图像的颜色值预测,实现新视图的合成。
本发明提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法的步骤。
本发明提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法的步骤。
本发明提出了基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法,具有以下优点:
(1)通过设计三平面特征空间学习和表示模块,基于三个相互正交的轴向特征平面及其特征向量实现特征空间分解,有效提升了图像特征在重建过程的作用,提高了准确性和效率。
(2)通过设计视角条件扩散模型对生成的三平面扩散特征进行约束,保证了三平面特征空间的对齐和一致性,进一步实现了生成特征的匹配和关联,有效降低了对视角信息的要求。
(3)通过自适应地选择隐式、显示、隐式—显式混合的自适应三平面特征表示学习策略,实现了可以根据实际应用场景所需要的效果、建模精度和计算代价,选取最适合的三平面特征表示方式。
(4)通过设计隐式—显式混合学习模块,既具备了学习过程的可解释性,又提高了建模速度、保证了建模质量,使得生成的三维模型更加可靠、快速和逼真。
(5)基于张量分解将近似稀疏的三维模型映射特征空间进行低秩压缩,获得对应秩、各阶特征子空间的紧向量和矩阵因子,并基于注意力机制计算各阶子空间的重要性程度,同时设计了低秩约束的正向计算模块,保证了重要特征可以被学习到而不重要特征亦不会浪费学习资源,提高了建模效率。
(6)实现了面对实际表观损伤、外观变化、结构变形演化环境的高效、实时、准确、智能损伤映射、结构三维重建和场景渲染,突破了传统建模方法高度依赖人力、效率低、无法同步更新等瓶颈。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法流程图。
图2是基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法整体架构图。
图3是三平面特征表示的隐式学习模块示意图。
图4是三平面特征表示的显式学习模块示意图。
图5是三平面特征表示的隐式—显式混合学习模块示意图。
图6是三平面特征空间混合学习的多阶重要性权重计算方法示意图。
图7是三平面扩散特征生成的视角条件扩散模型架构图。
图8是三平面扩散特征生成的视角条件扩散模型计算过程示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1-图8,本发明提出基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法,本发明提出的基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法流程图如图1所示,所述方法包括以下步骤:
步骤一:三平面自适应特征表示;以随机神经辐射场(x,y,z)→(C,σ)为输入,其中(x,y,z)表示三维空间坐标,C表示三通道颜色值,σ表示体密度值;通过隐式或显式或隐式-显式混合地三平面特征编码,自适应地获得三平面特征表示,即F(x,y,z)=E(C,σ),其中E表示预训练三平面特征表示编码器(参数冻结),F表示三平面特征表示;
步骤二:三平面扩散特征生成;以多视角图像和三平面特征表示为联合输入,通过视角条件扩散模型,获得三平面扩散特征表示
步骤三:三平面扩散特征解码和预定视角体渲染;以三平面扩散特征表示为输入,通过三平面特征解码器,获得三平面解码特征,通过体渲染模块,获得预定视角下的颜色值和体密度预测值,即其中D表示三平面特征表示解码器,d表示预设视角方向向量,/>表示预定视角下颜色值和体密度的预测值;
步骤四:基于预训练-微调策略的模型训练;以扩散模型生成神经辐射场的颜色值和体密度沿预定视角光线方向进行积分获得的投影图像的生成误差、三平面特征表示的扩散模型生成误差作为约束,基于视角条件扩散模型在大规模数据集上的预训练参数,通过少量的目标结构不同视角图像进行微调;训练完毕后,按所需视角方向投影,即可获得目标结构的新视角生成图像,最终实现基于三平面特征表示和视角条件扩散模型的结构智能三维重构。
本发明提出的基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法整体架构图如图2所示。
步骤一进行三平面特征表示,通过隐式或显式或隐式-显式混合地三平面特征编码,自适应地三平面特征表示,具体包括以下步骤:
步骤一一:构造随机神经辐射场,包括空间点三维坐标及对应的颜色值和体密度;
步骤一二:建立三平面特征表示的隐式学习模块;
步骤一三:建立三平面特征表示的显示学习模块;
步骤一四:建立三平面特征表示的隐式—显示混合学习模块;
步骤一五:根据步骤一二至步骤一四的学习效果、建模精度和计算代价,根据实际场景的建模需求,选择最适合的三平面特征表示方式。
步骤一二建立三平面特征表示的隐式学习模块,示意图如图3所示,具体方法为:
式中,P表示具有三维坐标(x,y,z)的空间点;U(P)表示点P附近的一个邻域,其邻域大小可以设置为多尺度取值,从而使得U(P)包含多尺度信息;Txy、Tyz、Txz分别表示与映射隐空间三平面(x-y,y-z,x-z)垂直的轴向;表示三平面特征空间映射器,可采用多层感知机MLP形式的神经网络;Fxy、Fyz、Fxz表示分别与Txy、Tyz、Txz对应的特征向量;concat表示特征向量拼接运算;F(P)=F(x,y,z)表示三平面的隐空间特征表示;
步骤一三建立三平面特征表示的显式学习模块,基于张量分解显式地将三平面特征表示空间进行有明确意义的、沿三主轴方向的解耦,示意图如图4所示,具体方法为:
式中,表示三平面特征空间,R表示三平面特征空间的轶,/>和/> 分别表示基于张量分解获得的第r阶特征空间三平面和对应轴向的特征向量,i,j,k表示特征空间三平面对应三个轴向的位置索引,/>由特征空间张量分解得到的所有特征平面和对应特征向量元素之乘积、遍历所有秩求和得到,/>表示三平面x轴方向第i个位置的对应元素值,/>表示y-z平面上(j,k)位置的对应元素值(其余类似变量随角标代表的坐标轴方向产生自适应变化,不再赘述说明)。
步骤一四建立三平面特征表示的隐式—显式混合学习模块,示意图如图5所示,根据步骤一三基于张量分解将三平面特征表示空间进行显式、有明确意义的、沿三主轴方向的解耦所获得的特征平面和特征向量,对不同阶数进行重要性加权,具体方法为:
其中,分别代表特征空间三主轴方向在第r阶的重要性权重。对于显式解耦的三平面特征空间,基于对应轴向的注意力机制、多层感知机MLP和稀疏约束模块,输出对应秩特征空间的重要性系数,如图6所示。其中,稀疏约束模块为sigmoid激活函数层和softmax层的叠加组合,目的是将W向量中元素的取值范围约定在0~1并且可以尽量地区分开,只有少量的元素值接近于1、大部分元素值为0,实现稀疏化约束的正向设计。
步骤二进行三平面扩散特征生成,以三平面特征表示为输入,通过视角条件扩散模型,获得三平面扩散特征表示,示意图如图7所示,具体步骤包括:
步骤二一:正向扩散过程为对输入特征图的加噪过程,逐步在特征图上叠加已知的高斯噪声,该过程从原始特征图逐步加噪至纯噪声特征,可以作为逆向过程的真实标签;
步骤二二:逆向扩散过程为将随机噪声特征还原为输入特征图的去噪过程,建立去噪扩散模型逐步预测所加入的高斯噪声,并利用正向过程的已知噪声信息优化扩散模型参数,最终还原出原始特征图;
步骤二三:嵌入视角条件,通过对极特征Transformer模块提取已知视角图像特征,并将其作为先验信息嵌入到去噪扩散模型,指导模型还原出与已知信息强相关的原始特征图。
步骤二进行三平面扩散特征生成的具体方法为:
步骤二一进行扩散模型正向过程:
式中,t表示扩散步骤,Zt表示高斯噪声且Ft表示三平面扩散特征图,αt表示噪声因子,满足/>
步骤二二进行扩散模型逆向过程:
式中,δ2表示方差,μ表示均值;
步骤二三采用跳跃连接U-net形式,在网络各层以视角条件特征向量作为Value,基于交叉注意力机制嵌入视角条件,逐步获得去噪模型:
式中,pφ表示扩散模型,表示t时间步预测噪声,/>表示t时间步的三平面预测特征图,V表示扩散视角条件特征。
三平面扩散特征生成的视角条件扩散模型计算过程示意图如图8所示。
步骤三进行三平面扩散特征解码和预定视角体渲染,具体包括以下步骤:
步骤三一:以三平面扩散特征表示为输入,通过三平面特征解码器(可采用多层感知机MLP形式的神经网络),获得三平面解码特征;
步骤三二:通过体渲染模块,获得预定视角下的颜色值和体密度预测值,即其中D表示三平面特征表示解码器,d表示预设视角方向向量,/>表示预定视角下颜色值和体密度的预测值。具体方法如下:
(1)沿预定视角方向将每个采样点的颜色贡献进行加权求和,生成所预测的损伤结构像素点颜色值,体渲染加权求和计算方法为:
式中,C(r)为图像像素点的颜色预测值,r(s)代表生成光线,c[r(s),d]为光线上s处的颜色值,σ[r(s)]为光线上s处的体密度值,sn和sf分别代表生成光线的最近边界和最远边界;T(s)为从视点到空间点的透明度函数,体密度越大导致透明度越小,表示更多光线被吸收,按从相机到当前空间点之间路径上所有点的体密度负指数积分计算:
(2)进行体渲染离散化处理,将[sn,sf]划分为N个均匀间隔,并从中随机抽取一个样本;离散化体渲染的计算方法为:
式中,si代表光线上离散化后第i个采样点对应的s值,表示均匀分布,δi代表相邻采样点之间的距离,Ti为从视点到第i个采样点的透明度函数,σi为第i个采样点的体密度预测值,ci为第i个采样点的颜色预测值,/>代表离散化体渲染后的图像像素点颜色预测值。
步骤四进行基于预训练-微调策略的模型训练,具体包括以下步骤:
步骤四一:以扩散模型生成神经辐射场的颜色值和体密度沿预定视角光线方向进行积分获得的投影图像的生成误差、三平面特征表示的扩散模型生成误差作为约束,使得生成图像的像素点颜色值预测结果与已知图像中与之对应的像素点颜色值真实结果尽可能接近,并且保证由视角条件扩散模型生成的三平面扩散特征表示与三平面隐式或显式或隐式—显式混合特征表示尽可能相似,损失函数采用基于L2范数的综合损失函数Loss:
式中,g(d)表示已知视角集合,I(d)表示沿预定视角方向d投影获得的真实场景图像,α表示损失项的占比权重调节参数,wt表示第t时间步的动态权重系数,表示求期望运算;
步骤四二:采用基于梯度下降的优化算法进行训练,基于视角条件扩散模型在大规模数据集上的预训练参数,通过少量的目标结构不同视角图像进行微调,以有监督学习的方式对模型进行训练;
步骤四三:进行新视角生成,基于待生成视角方向向量设置光线,在光线上进行采样后,将采样点空间坐标、方向向量作为输入,输出每个采样点的颜色值和体密度值;采用体渲染技术沿视线路径生成所需新视角下图像的像素点颜色值,最终完成整个图像的颜色值预测,实现新视图的合成。
本发明提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法的步骤。
本发明提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法的步骤。
本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasablePROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambusRAM,DRRAM)。应注意,本发明描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(digital video disc,DVD))、或者半导体介质(例如,固态硬盘(solid state disc,SSD))等。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
应注意,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
以上对本发明所提出的基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法,其特征在于,所述方法包括以下步骤:
步骤一:三平面自适应特征表示;以随机神经辐射场(x,y,z)→(C,σ)为输入,其中(x,y,z)表示三维空间坐标,C表示三通道颜色值,σ表示体密度值;通过隐式或显式或隐式-显式混合地三平面特征编码,自适应地获得三平面特征表示,即F(x,y,z)=E(C,σ),其中E表示预训练三平面特征表示编码器,F表示三平面特征表示;
步骤二:三平面扩散特征生成;以多视角图像和三平面特征表示为联合输入,通过视角条件扩散模型,获得三平面扩散特征表示
步骤三:三平面扩散特征解码和预定视角体渲染;以三平面扩散特征表示为输入,通过三平面特征解码器,获得三平面解码特征,通过体渲染模块,获得预定视角下的颜色值和体密度预测值,即其中D表示三平面特征表示解码器,d表示预设视角方向向量,/>表示预定视角下颜色值和体密度的预测值;
步骤四:基于预训练-微调策略的模型训练;以扩散模型生成神经辐射场的颜色值和体密度沿预定视角光线方向进行积分获得的投影图像的生成误差、三平面特征表示的扩散模型生成误差作为约束,基于视角条件扩散模型在大规模数据集上的预训练参数,通过少量的目标结构不同视角图像进行微调;训练完毕后,按所需视角方向投影,即可获得目标结构的新视角生成图像,最终实现基于三平面特征表示和视角条件扩散模型的结构智能三维重构。
2.根据权利要求1所述的方法,其特征在于,步骤一进行三平面特征表示,通过隐式或显式或隐式-显式混合地三平面特征编码,自适应地三平面特征表示,具体包括以下步骤:
步骤一一:构造随机神经辐射场,包括空间点三维坐标及对应的颜色值和体密度;
步骤一二:建立三平面特征表示的隐式学习模块;
步骤一三:建立三平面特征表示的显示学习模块;
步骤一四:建立三平面特征表示的隐式—显示混合学习模块;
步骤一五:根据步骤一二至步骤一四的学习效果、建模精度和计算代价,根据实际场景的建模需求,选择最适合的三平面特征表示方式。
3.根据权利要求2所述的方法,其特征在于,步骤一二建立三平面特征表示的隐式学习模块,具体方法为:
式中,P表示具有三维坐标(x,y,z)的空间点;U(P)表示点P附近的一个邻域,其邻域大小可以设置为多尺度取值,从而使得U(P)包含多尺度信息;Txy、Tyz、Txz分别表示与映射隐空间三平面(x-y,y-z,x-z)垂直的轴向;表示三平面特征空间映射器,可采用多层感知机MLP形式的神经网络;Fxy、Fyz、Fxz表示分别与Txy、Tyz、Txz对应的特征向量;concat表示特征向量拼接运算;F(P)=F(x,y,z)表示三平面的隐空间特征表示;
步骤一三建立三平面特征表示的显式学习模块,具体方法为:
式中,表示三平面特征空间,R表示三平面特征空间的轶,/>和/> 分别表示基于张量分解获得的第r阶特征空间三平面和对应轴向的特征向量,i,j,k表示特征空间三平面对应三个轴向的位置索引,/>由特征空间张量分解得到的所有特征平面和对应特征向量元素之乘积、遍历所有秩求和得到,/>表示三平面x轴方向第i个位置的对应元素值,/>表示y-z平面上(j,k)位置的对应元素值。
4.根据权利要求3所述的方法,其特征在于,步骤一四建立三平面特征表示的隐式—显式混合学习模块,具体方法为:
其中,分别代表特征空间三主轴方向在第r阶的重要性权重。
5.根据权利要求4所述的方法,其特征在于,步骤二进行三平面扩散特征生成,以三平面特征表示为输入,通过视角条件扩散模型,获得三平面扩散特征表示,具体步骤包括:
步骤二一:正向扩散过程为对输入特征图的加噪过程,逐步在特征图上叠加已知的高斯噪声,该过程从原始特征图逐步加噪至纯噪声特征,可以作为逆向过程的真实标签;
步骤二二:逆向扩散过程为将随机噪声特征还原为输入特征图的去噪过程,建立去噪扩散模型逐步预测所加入的高斯噪声,并利用正向过程的已知噪声信息优化扩散模型参数,最终还原出原始特征图;
步骤二三:嵌入视角条件,通过对极特征Transformer模块提取已知视角图像特征,并将其作为先验信息嵌入到去噪扩散模型,指导模型还原出与已知信息强相关的原始特征图。
6.根据权利要求5所述的方法,其特征在于,步骤二进行三平面扩散特征生成的具体方法为:
步骤二一进行扩散模型正向过程:
式中,t表示扩散步骤,Zt表示高斯噪声且Ft表示三平面扩散特征图,αt表示噪声因子,满足/>
步骤二二进行扩散模型逆向过程:
式中,δ2表示方差,μ表示均值;
步骤二三采用跳跃连接U-net形式,在网络各层以视角条件特征向量作为Value,基于交叉注意力机制嵌入视角条件,逐步获得去噪模型:
式中,pφ表示扩散模型,表示t时间步预测噪声,/>表示t时间步的三平面预测特征图,V表示扩散视角条件特征。
7.根据权利要求6所述的方法,其特征在于,步骤三进行预定视角体渲染,具体包括以下步骤:
(1)沿预定视角方向将每个采样点的颜色贡献进行加权求和,生成所预测的损伤结构像素点颜色值,体渲染加权求和计算方法为:
式中,C(r)为图像像素点的颜色预测值,r(s)代表生成光线,c[r(s),d]为光线上s处的颜色值,σ[r(s)]为光线上s处的体密度值,sn和sf分别代表生成光线的最近边界和最远边界;T(s)为从视点到空间点的透明度函数,体密度越大导致透明度越小,表示更多光线被吸收,按从相机到当前空间点之间路径上所有点的体密度负指数积分计算:
(2)进行体渲染离散化处理,将[sn,sf]划分为N个均匀间隔,并从中随机抽取一个样本;离散化体渲染的计算方法为:
式中,si代表光线上离散化后第i个采样点对应的s值,表示均匀分布,δi代表相邻采样点之间的距离,Ti为从视点到第i个采样点的透明度函数,σi为第i个采样点的体密度预测值,ci为第i个采样点的颜色预测值,/>代表离散化体渲染后的图像像素点颜色预测值。
8.根据权利要求7所述的方法,其特征在于,步骤四进行基于预训练-微调策略的模型训练,具体包括以下步骤:
步骤四一:以扩散模型生成神经辐射场的颜色值和体密度沿预定视角光线方向进行积分获得的投影图像的生成误差、三平面特征表示的扩散模型生成误差作为约束,使得生成图像的像素点颜色值预测结果与已知图像中与之对应的像素点颜色值真实结果尽可能接近,并且保证由视角条件扩散模型生成的三平面扩散特征表示与三平面隐式或显式或隐式—显式混合特征表示尽可能相似,损失函数采用基于L2范数的综合损失函数Loss:
式中,g(d)表示已知视角集合,I(d)表示沿预定视角方向d投影获得的真实场景图像,α表示损失项的占比权重调节参数,wt表示第t时间步的动态权重系数,表示求期望运算;
步骤四二:采用基于梯度下降的优化算法进行训练,基于视角条件扩散模型在大规模数据集上的预训练参数,通过少量的目标结构不同视角图像进行微调,以有监督学习的方式对模型进行训练;
步骤四三:进行新视角生成,基于待生成视角方向向量设置光线,在光线上进行采样后,将采样点空间坐标、方向向量作为输入,输出每个采样点的颜色值和体密度值;采用体渲染技术沿视线路径生成所需新视角下图像的像素点颜色值,最终完成整个图像的颜色值预测,实现新视图的合成。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-8任一项所述方法的步骤。
10.一种计算机可读存储介质,用于存储计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-8任一项所述方法的步骤。
CN202410162330.4A 2024-02-05 2024-02-05 基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法 Active CN117893691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410162330.4A CN117893691B (zh) 2024-02-05 2024-02-05 基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410162330.4A CN117893691B (zh) 2024-02-05 2024-02-05 基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法

Publications (2)

Publication Number Publication Date
CN117893691A true CN117893691A (zh) 2024-04-16
CN117893691B CN117893691B (zh) 2024-08-20

Family

ID=90642522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410162330.4A Active CN117893691B (zh) 2024-02-05 2024-02-05 基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法

Country Status (1)

Country Link
CN (1) CN117893691B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116310219A (zh) * 2023-03-20 2023-06-23 浙江大学 一种基于条件扩散模型的三维脚型生成方法
CN116310153A (zh) * 2023-05-26 2023-06-23 南昌航空大学 单视图彩色三维点云重建方法、系统、存储介质及计算机
US20230281955A1 (en) * 2022-03-07 2023-09-07 Quidient, Llc Systems and methods for generalized scene reconstruction
CN117409140A (zh) * 2023-10-23 2024-01-16 北京大学 基于大语言模型的可控布局三维场景表征与生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230281955A1 (en) * 2022-03-07 2023-09-07 Quidient, Llc Systems and methods for generalized scene reconstruction
CN116310219A (zh) * 2023-03-20 2023-06-23 浙江大学 一种基于条件扩散模型的三维脚型生成方法
CN116310153A (zh) * 2023-05-26 2023-06-23 南昌航空大学 单视图彩色三维点云重建方法、系统、存储介质及计算机
CN117409140A (zh) * 2023-10-23 2024-01-16 北京大学 基于大语言模型的可控布局三维场景表征与生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIANGYI CUI等: "Improved Swin Transformer-Based Semantic Segmentation of Postearthquake Dense Buildings in Urban Areas Using Remote Sensing Images", 《 IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING ( VOLUME: 16)》, 28 November 2022 (2022-11-28) *

Also Published As

Publication number Publication date
CN117893691B (zh) 2024-08-20

Similar Documents

Publication Publication Date Title
Hu et al. Structure‐aware 3D reconstruction for cable‐stayed bridges: A learning‐based method
WO2024060395A1 (zh) 一种基于深度学习的高精度点云补全方法及装置
CN112347550B (zh) 耦合式室内三维语义建图及建模方法
CN114758337A (zh) 一种语义实例重建方法、装置、设备及介质
CN118332655A (zh) 一种道路桥梁检测方法、系统及存储介质
CN118071999B (zh) 一种基于采样自适应的连续NeRF的多视角3D目标检测方法
CN115457492A (zh) 目标检测方法、装置、计算机设备及存储介质
CN118965527A (zh) 一种基于bim的装配式建筑构建方法
CN116310143A (zh) 一种三维模型构建方法、装置、设备和存储介质
CN116206158A (zh) 基于双超图神经网络的场景图像分类方法及系统
CN119478260A (zh) 一种配电设备点云数据处理与建模方法、系统、设备及存储介质
CN118674886B (zh) 一种智能化地理测绘数据处理方法及系统
CN119152142A (zh) 倾斜摄影与三维激光点云融合的建筑物模型构建方法
CN117893691B (zh) 基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法
CN116467948B (zh) 一种数字孪生模型机理和外观联合参数学习方法
CN116977572B (zh) 一种多尺度动态图卷积的建筑物立面结构提取方法
CN117392224A (zh) 基于重建-仿真-感知自动驾驶零样本域迁移方法及系统
JP7674636B2 (ja) モデル生成方法、データ提示方法、データ生成方法、推定方法、モデル生成装置、データ提示装置、データ生成装置、及び推定装置
CN117094225A (zh) 一种基于深度学习的热传导求解方法及系统
De Geyter et al. Automated training data creation for semantic segmentation of 3D point clouds
CN116758219A (zh) 基于神经网络的区域感知多视角立体匹配三维重建方法
Sun et al. A fast scene geometric modeling approach for digital twins combining neural rendering and model retrieval
Xinghu et al. A Study of Automated Calibration Problems of Lightweight 3D Digital Models for Power Grid Engineering
Liu et al. Map construction algorithm based on dense point cloud
CN118314432B (zh) 面向变电站多源立体巡视数据融合的目标检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant