CN117036613A - 一种基于多重感受野交融网络的偏振三维重建方法和系统 - Google Patents

一种基于多重感受野交融网络的偏振三维重建方法和系统 Download PDF

Info

Publication number
CN117036613A
CN117036613A CN202311052980.5A CN202311052980A CN117036613A CN 117036613 A CN117036613 A CN 117036613A CN 202311052980 A CN202311052980 A CN 202311052980A CN 117036613 A CN117036613 A CN 117036613A
Authority
CN
China
Prior art keywords
features
polarization
layer
feature
receptive field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311052980.5A
Other languages
English (en)
Other versions
CN117036613B (zh
Inventor
田昕
彭依妮
刘芮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202311052980.5A priority Critical patent/CN117036613B/zh
Publication of CN117036613A publication Critical patent/CN117036613A/zh
Application granted granted Critical
Publication of CN117036613B publication Critical patent/CN117036613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提出了一种基于多重感受野交融网络的偏振三维重建方法和系统。利用全局感受野提取输入图像数据的全局上下文信息,为解决偏振成像问题中的局部歧义提供参考信息,同时利用局部感受野提取区域细节特征,以提升对目标表面的纹理细节信息的重建精度,多重感受野不断交互融合,从而实现高精度表面法向量估计。采用Conformer作为网络编码器,实现兼顾全局感受野和局部感受野的特征提取,同时利用一个多模融合模块实现全局上下文信息和区域细节特征的有效融合,并利用一个多尺寸增强模块减少高层特征在降维过程中的通道信息损失。实验表明本发明方法优于已有方法的结果,能高质量地重建目标表面信息,细节信息重建能力更强,更具备泛化性。

Description

一种基于多重感受野交融网络的偏振三维重建方法和系统
技术领域
本发明属于计算机视觉与深度学习技术领域,涉及一种基于多重感受野交融网络的偏振三维重建方法和系统,适用于高精度要求的三维重建应用场景。
背景技术
三维重建作为计算机视觉领域的重要研究领域,因其具备真实反映物体表面形态和反射特性的特点,被广泛应用于空间位置估计感知、目标识别跟踪、医学检测、计算机图形合成等视觉领域。偏振三维重建技术主要依据光的反射特性、偏振特性以及反射情况等对物体的表面法向量进行计算估计,从而实现表面三维重建,相较于其他三维重建技术,偏振三维重建能够使用较低成本的设备完成高精度成像需求,图像信息捕获过程较为简单,不依赖于物体的表面纹理特征,对光照环境无苛刻要求,且无需与物体表面进行直接接触,具有广阔的应用前景和发展价值。然而,通过偏振信息求解表面法向量存在一定歧义性,具体表现为:(1)表面法向量的方位角解存在π弧度的模糊性,这导致重建得到的部分表面出现凹凸性模糊翻转;(2)表面法向量的天顶角在不同反射类型下,与偏振度存在不同的关系表达式。在漫反射条件下,某一偏振度对应唯一确定天顶角解;在镜面反射条件下,某一偏振度对应两种可能的天顶角解;(3)在真实场景下,物体表面往往同时存在漫反射和镜面反射,且反射类型的分布随着物体表面材质等情况不同而变化。
传统的基于物理模型的偏振三维重建方法通常采用加入限制条件来克服以上歧义性。例如,Rahmann提出了一种针对纯镜面反射情况下的偏振成像形状恢复方法,克服了基于光强度的方法的局限性(Rahmann S,Canterakis N.Reconstruction of SpecularSurfaces using Polarization Imaging[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.Kauai,HI,USA:IEEEComputer Society,2001,1:I-I.)。Atkinson在假设待测目标为凸表面的前提下提出了一种利用激光和线性偏振器估计表面折射率的方法(Atkinson G A,Hancock E R.Recoveryof Surface Orientation from Diffuse Polarization[J].IEEE Transactions onImage Processing,2006,15(6):1653-1664.)。利用其他三维重建方法为偏振三维重建提供附加信息也是解决歧义性的通用方法。例如,Atkinson在2017年提出一种融合双源光度立体数据和偏振信息的新方法,用于光滑或略粗糙表面的表面法向量重建(Atkinson,Gary,A.Polarisation Photometric Stereo[J].Computer vision and imageunderstanding:CVIU,2017,160:158-167.)。Mahmoud提出使用偏振信息和阴影信息结合,从而解决凹凸性模糊翻转问题(Mahmoud A H,El-Melegy M T,Farag A A.Direct Methodfor Shape Recovery from Polarization and Shading[C]//2012 19th IEEEInternational Conference on Image Processing.FL,USA:IEEE Computer Society,2012:1769-1772.)。然而,基于物理模型的偏振三维重建方法得到的表面法向量估计结果的误差仍然较大,重建精度不够高,且因其需要额外的限制,无法满足三维重建的实际应用需求。
随着深度学习的逐步发展,研究者开始把目光聚焦在利用深度学习解决偏振三维重建中的歧义性问题。Ba等人将偏振图像与利用偏振图像计算得到的偏振法向量信息一同输入神经网络,显著提升了表面重建精度(Ba Y,Gilbert A,Wang F,et al.Deep Shapefrom Polarization[C]//European Conference on Computer Vision.Glasgow,UK:Springer,2020:554-571.)。Lei等人将结合多头自我注意机制的卷积神经网络应用到偏振三维重建领域,实现了偏振三维场景重建(Lei C,Qi C,Xie J,et al.Shape fromPolarization for Complex Scenes in the Wild[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.New Orleans,LA,USA:IEEEComputer Society,2022:12632-12641.)。这些研究表明:利用深度学习方法,结合偏振先验信息,能够有效解决偏振法向量求解过程中存在的歧义性问题,提升估计法线的精度。然而,已有的基于深度学习的偏振三维重建技术对于目标的表面重建精度仍有提升空间,且难以对纹理细节信息进行精确重建。
发明内容
本发明针对现有技术的不足,提出一种基于多重感受野交融网络的偏振三维重建方法。利用全局感受野提取输入图像数据的全局上下文信息,为解决偏振成像问题中的局部歧义提供参考信息,同时利用局部感受野提取区域细节特征,以提升对目标表面的纹理细节信息的重建精度,多重感受野不断交互融合,实现高精度表面法向量估计,从而实现高质量的三维重建。
本发明所采用的技术方案是:一种基于多重感受野交融网络的偏振三维重建方法,首先根据得到的不同偏振角度的偏振图像计算得到包含无偏振图像、偏振度和偏振角的偏振表示图组,作为多重感受野交融网络的输入。采用Conformer作为网络编码器,对输入的数据实现兼顾全局感受野和局部感受野的特征提取,再构建一个多模融合模块实现全局上下文信息和区域细节特征的有效融合和一个多尺度增强模块减少高层特征在降维过程中的通道信息损失。然后在Conformer作为编码器,并加入了多模融合模块和多尺度增强模块的基础上,构建用于偏振三维重建的多重感受野交融网络,并设计一个适用于该网络的损失函数,最后在物体级数据集DeepSfP和场景级数据集SPW上分别进行训练,根据训练得到的偏振三维重建模型进行三维重建。该方法包括以下步骤:
步骤一,获取目标物体和目标场景分别在不同偏振角度的偏振图像,根据得到的不同偏振角度的偏振图像计算得到包含无偏振图像、偏振度和偏振角的偏振表示图组;
步骤二,构建用于偏振三维重建的多重感受野交融网络,所述多重感受野交融网络包括编码器Conformer、多尺度增强模块、多模融合模块和解码器,并将计算得到的偏振表示图组与对应的视觉编码作为输入;
所述编码器Conformer包括CNN分支和Transformer分支,CNN分支通过卷积运算提取局部特征细节,Transformer分支用于提取全局上下文信息;CNN分支和Transformer分支在编码过程中输出多个不同尺度的特征,除了最高层特征外,每个尺度下通过一个特征耦合单元,以交互的方式融合相同尺度的局部特征和全局表示得到融合特征,并作为下一阶段的输入,以此获得不同尺度的综合特征;
所述多尺度增强模块用于对CNN分支输出的最高层特征进行特征增强;
多模融合模块用于将Transformer分支输出的最高层特征与增强后的CNN分支输出特征进行特征融合,得到融合后的特征;
最后将融合后的特征以及CNN分支中除最高层特征外的其余不同尺度的综合特征进行降维后输入到解码器中输出表面法向量估计结果;
步骤三,结合损失函数训练多重感受野交融网络,并利用训练好的网络实现偏振图像的三维重建。
进一步的,步骤一的具体实现方式如下:
I=(I1+I3+I2+I4)/2
其中:I1,I3,I2,I4分别表示不同偏振角度的偏振图像,I为无偏振图像,ρ为偏振度,φ为偏振角,I,ρ,φ一起作为多重感受野交融网络的输入。
进一步的,所述多尺度增强模块采用若干个不同比率的空洞卷积,在扩大感受野的同时保持分辨率和相对空间位置,之后通过自适应加权融合模块将多尺度上下文信息注入降维后的高层特征,减少高层特征在降维过程中的通道信息损失,所述的自适应加权融合模块由卷积层,ReLU激活函数层,卷积层,Sigmoid激活函数层组成。
进一步的,多尺度增强模块中,将Conformer的CNN分支输出的最高层特征作为输入,采用3个不同比率的空洞卷积对输入特征进行计算,并将结果特征拼接,实现过程表示为:
Fconcat=[Γ1(C),Γ2(C),Γ3(C)]
其中:Γ1,Γ2,Γ3分别表示不同比率的空洞卷积运算,C为输入多尺度增强模块的特征,即输入特征,Fconcat为拼接后的特征;
将拼接的特征送入自适应加权融合模块后将得到的结果与拼接的特征进行矩阵乘法运算,所述的自适应加权融合模块由1×1卷积层,ReLU激活函数层,3×3卷积层,Sigmoid激活函数层组成,其中ReLU激活函数为:
其中,x即拼接后得到的特征Fconcat经1×1卷积层处理后得到的特征;
Sigmoid激活函数为:
其中,x’为拼接后得到的特征Fconcat经1×1卷积层,ReLU激活函数层,3×3卷积层处理后得到的特征;
自适应加权融合模块的实现过程表示为:
其中:WF表示自适应加权融合模块,Fresult为得到的多尺度上下文信息,表示矩阵乘法运算;
输入特征依次通过卷积层,BatchNorm层,ReLU激活函数层实现高层特征的降维处理,并将得到的结果与多尺度上下文信息逐点相加,实现过程表示为:
M=Λ(C)
EM=M+Fresult
其中:Λ表示降维处理过程,M为降维处理得到的结果,EM为增强后的CNN分支输出特征。
进一步的,所述多模融合模块利用特征图生成模块对Transformer分支输出特征进行降维处理和形状调整,再与CNN分支输出的特征融合,并利用SE注意力机制模块实现Transformer分支输出的全局上下文信息和CNN分支输出的区域细节特征的进一步有效融合,所述的特征图生成模块由LayerNorm层,全连接层,形状调整和上采样层,Softmax激活函数层组成。
进一步的,将经过特征图生成模块得到的特征与CNN分支输出的特征进行矩阵乘法运算,并将结果与特征图生成模块得到的特征和CNN分支输出的特征拼接,再依次通过卷积层,BatchNorm层和ReLU激活函数层处理,实现过程表示为:
F1=MG(T)
F3=Υ([F1,F2,EM])
其中:MG为特征图生成模块,T为Transformer分支输出特征,F1,F2,F3分别表示经过特征图生成模块得到的特征,经过矩阵乘法运算得到的特征和最终得到的特征,Υ表示卷积层,BatchNorm层和ReLU激活函数层处理过程;
所述的SE注意力机制模块由全局池化层,全连接层,ReLU激活函数层、全连接层和Sigmoid激活函数层依次组成;
所述Softmax激活函数的表达式为:
其中:C为Transformer分支输出特征经LayerNorm层,全连接层,形状调整和上采样层处理后输入Softmax激活函数层的特征z中的元素总数,zi和zc分别为特征z中的第i个元素和第c个元素。
进一步的,所述多重感受野交融网络的处理过程如下;
首先,将计算得到的偏振表示图组与通过将每个像素的二维坐标(u,v)归一化为[-1,1]的结果作为视觉编码一起输入Conformer实现多感受野兼顾的编码;
将Conformer的CNN分支输出的最高层特征送入多尺度增强模块,得到增强后的CNN分支输出特征;
将Conformer中Transformer分支输出特征和增强后的CNN分支输出特征一起送入多模融合模块,得到融合后的特征;
最后,将融合后的特征和Conformer的CNN分支输出的除最高层特征外其余包含不同尺度的综合特征经过进行降维处理后一起送入解码器,即基于特征金字塔的语义分割分支,实现解码输出表面法向量估计结果。
进一步的,采用的损失函数包括两部分:其一是基于编码部分Conformer输出进行计算的交叉熵损失函数,其二是基于网络总体最终输出进行计算的余弦相似性损失函数,其中,交叉熵损失函数为:
其中:M为类别的数量,N为样本的数量,yic为符号函数,取值为0或1;pic为观测样本i属于类别c的预测概率;
余弦相似性损失函数为:
其中:分别为位于坐标(i,j)处的像素点的表面法向量估计结果和真实值,<,>表示点乘运算,W,H分别表示进行损失计算的表面法向量估计结果和真实值的宽和高;
因此最终网络损失函数可表达为:
LCE=lc+lt
L=αLCE+lcosine
其中:lc,lt分别为对Conformer的CNN分支输出结果和Transformer分支输出结果与法向量真值间进行计算得到的交叉熵损失值,α是一个常数,用以定义Conformer部分损失函数的权重。
进一步的,还包括步骤四,引入平均角度误差、中值角度误差、均方根误差以及角度误差分别小于一定角度的像素点占整张图片像素点的比例值作为评价指标,用于评价三维重建效果。
本发明还提供一种基于多重感受野交融网络的偏振三维重建系统,包括如下模块:
偏振图像获取模块,用于获取目标物体和目标场景分别在不同偏振角度的偏振图像,根据得到的不同偏振角度的偏振图像计算得到包含无偏振图像、偏振度和偏振角的偏振表示图组;
网络构建模块,用于构建用于偏振三维重建的多重感受野交融网络,所述多重感受野交融网络包括编码器Conformer、多尺度增强模块、多模融合模块和解码器,并将计算得到的偏振表示图组与对应的视觉编码作为输入;
所述编码器Conformer包括CNN分支和Transformer分支,CNN分支通过卷积运算提取局部特征细节,Transformer分支用于提取全局上下文信息;CNN分支和Transformer分支在编码过程中输出多个不同尺度的特征,除了最高层特征外,每个尺度下通过一个特征耦合单元,以交互的方式融合相同尺度的局部特征和全局表示得到融合特征,并作为下一阶段的输入,以此获得不同尺度的综合特征;
所述多尺度增强模块用于对CNN分支输出的最高层特征进行特征增强;
多模融合模块用于将Transformer分支输出的最高层特征与增强后的CNN分支输出特征进行特征融合,得到融合后的特征;
最后将融合后的特征以及CNN分支中除最高层特征外的其余不同尺度的综合特征进行降维后输入到解码器中输出表面法向量估计结果;
网络训练及重建模块,用于结合损失函数训练多重感受野交融网络,并利用训练好的网络实现偏振图像的三维重建。
与现有技术相比,本发明的优点和有益效果:本发明提出了一种基于多重感受野交融网络的偏振三维重建方法。利用全局感受野提取输入图像数据的全局上下文信息,为解决偏振成像问题中的局部歧义提供参考信息,同时利用局部感受野提取区域细节特征,以提升对目标表面的纹理细节信息的重建精度,多重感受野不断交互融合,从而实现高精度表面法向量估计。重建结果在场景级别和物体级别的数据上均取得优于已有方法的结果,能高质量地重建目标表面信息,细节信息重建能力更强,更具备泛化性。
附图说明
图1是实施例的物体级和场景级目标不同偏振角度的偏振图像。
图2是实施例的物体级和场景级目标对应的偏振表示图组。
图3是多尺度增强模块结构图。
图4是多模融合模块结构图。
图5是多重感受野交融网络结构图。
图6是基于特征金字塔的语义分割分支结构图。
图7是实施例的物体级和场景级目标表面三维重建结果。
图8是实施例的物体级和场景级目标在不同重建方法的结果对比图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明做进一步的详细描述,应当理解的是,此处所描述的实施施例仅用于解释本发明,并不用于限定本发明。
本发明主要针对高精度要求的三维重建应用需求。我们提出了一种基于多重感受野交融网络的偏振三维重建方法。利用全局感受野提取输入图像数据的全局上下文信息,为解决偏振成像问题中的局部歧义提供参考信息,同时利用局部感受野提取区域细节特征,以提升对目标表面的纹理细节信息的重建精度,多重感受野不断交互融合,实现高精度表面法向量估计,从而实现高质量的三维重建。
图1是目标物体和目标场景分别在偏振角度为0°,45°,90°,135°时的偏振图像(分辨率为1224*1024,可采用任意3个及以上偏振角度的图像,但大部分偏振相机采集时为0°,45°,90°,135°的偏振图像,因此本实施例选取偏振角度为0°,45°,90°,135°时的偏振图像)。本实施例提供一种基于多重感受野交融网络的偏振三维重建方法,实现高精度表面法向量估计,从而实现物体级别和场景级别上高质量的三维重建,具体包括以下步骤:
步骤1:获取目标物体和目标场景分别在偏振角度为0°,45°,90°,135°时的偏振图像,根据得到的不同偏振角度的偏振图像计算得到包含无偏振图像、偏振度和偏振角的偏振表示图组:
I=(I1+I3+I2+I4)/2
其中:I1,I3,I2,I4分别表示偏振角度为0°,45°,90°,135°的偏振图像,I为无偏振图像,ρ为偏振度,φ为偏振角,I,ρ,φ一起作为多重感受野交融网络的输入,其结果如附图2所示。
步骤2:采用Conformer作为网络编码器。所述的Conformer由CNN分支和Transformer分支组成,CNN分支通过卷积运算收集局部特征细节,Transformer分支遵循ViT可以提取全局上下文信息。CNN分支和Transformer分支在编码过程中会输出多个不同尺度的特征,除了最高尺度外,每个尺度下通过一个特征耦合单元,以交互的方式在不同分辨率下融合局部特征和全局表示,将CNN分支中的局部特征细节与Transformer分支中的全局上下文信息进行交互融合,可以不断消除它们之间的语义分歧,然后将融合特征输入到下一个尺度的两个分支中,获得不同尺度下的综合特征并用于重建表面法向量信息,且每一个分支输出一个最高层的特征。
步骤3:构建多尺度增强模块,结构如附图3所示。采用3个不同比率的空洞卷积,在扩大感受野的同时保持分辨率和相对空间位置,之后通过自适应加权融合模块将多尺度上下文信息注入降维后的高层特征,减少高层特征在降维过程中的通道信息损失。
步骤3.1,将Conformer的CNN分支输出的最高层特征作为输入,采用3个比率分别为1,3,5的空洞卷积对输入特征进行计算,并将结果特征拼接。该实现过程可表示为:
Fconcat=[Γ1(C),Γ2(C),Γ3(C)]
其中:Γ1,Γ2,Γ3分别表示比率为1,3,5的空洞卷积运算,C为输入多尺度增强模块的特征,即输入特征,Fconcat为拼接后的特征;
步骤3.2,将拼接的特征送入自适应加权融合模块后将得到的结果与拼接的特征进行矩阵乘法运算。所述的自适应加权融合模块由1×1卷积层,ReLU激活函数层,3×3卷积层,Sigmoid激活函数层组成,其中ReLU激活函数为:
其中:x即拼接后得到的特征Fconcat经1×1卷积层处理后得到的特征。
Sigmoid激活函数为:
其中:x为拼接后得到的特征Fconcat经1×1卷积层,ReLU激活函数层,3×3卷积层处理后得到的特征。
该实现过程可表示为:
其中:WF表示自适应加权融合模块,Fresult为得到的多尺度上下文信息,表示矩阵乘法运算。
步骤3.3,输入特征依次通过3×3卷积层,BatchNorm层,ReLU激活函数层实现高层特征的降维处理,并将得到的结果与多尺度上下文信息逐点相加。该实现过程可表示为:
M=Λ(C)
EM=M+Fresult
其中:Λ表示降维处理过程,M为降维处理得到的结果,EM为增强后的CNN分支输出特征。
步骤4:构建多模融合模块,结构如附图4所示。利用特征图生成模块对Transformer分支输出特征进行降维处理和形状调整,再与CNN分支输出的特征融合,并利用SE注意力机制模块实现Transformer分支输出的全局上下文信息和CNN分支输出的区域细节特征的进一步有效融合。
步骤4.1,利用特征图生成模块对Transformer分支输出特征进行降维处理和形状调整,所述的特征图生成模块由LayerNorm层,全连接层,形状调整和上采样层,Softmax激活函数层组成,其中Softmax激活函数为:
其中:C为Transformer分支输出特征经LayerNorm层,全连接层,形状调整和上采样层处理后输入Softmax激活函数层的特征z中的元素总数,zi和zc分别为特征z中的第i个元素和第c个元素。
步骤4.2,将经过特征图生成模块得到的特征与CNN分支输出的特征进行矩阵乘法运算,并将结果与特征图生成模块得到的特征和CNN分支输出的特征拼接,再依次通过1×1卷积层,BatchNorm层和ReLU激活函数层处理。该实现过程可表示为:
F1=MG(T)
F3=Υ([F1,F2,EM])
其中:MG为特征图生成模块,T为Transformer分支输出特征,F1,F2,F3分别表示经过特征图生成模块得到的特征,经过矩阵乘法运算得到的特征和该步最终得到的特征。Υ表示1×1卷积层,BatchNorm层和ReLU激活函数层处理过程。
步骤4.3,用SE注意力机制模块实现Conformer的Transformer分支输出的全局上下文信息和CNN分支输出的区域细节特征的进一步有效融合。所述的SE注意力机制模块由全局池化层,全连接层,ReLU激活函数层、全连接层和Sigmoid激活函数层依次组成。
步骤5:构建用于偏振三维重建的多重感受野交融网络,结构如附图5所示。采用步骤2所述的Conformer为编码器,加入步骤3和步骤4所述的多尺度增强模块和多模融合模块,并通过基于特征金字塔的语义分割分支解码输出表面法向量估计结果。
步骤5.1,将计算得到的偏振表示图组与通过将每个像素的二维坐标(u,v)归一化为[-1,1]的结果作为视觉编码一起输入Conformer实现多感受野兼顾的编码;
步骤5.2,将Conformer的CNN分支输出的包含综合特征的最高层特征,即附图5中C4,送入步骤3所述的多尺度增强模块,得到增强后的CNN分支输出特征,即附图5中EM4
步骤5.3,将Conformer中Transformer分支输出的最高层特征和增强后的CNN分支输出特征,即附图5中T4和EM4一起送入步骤4所述的多模融合模块,得到融合后的特征,即附图5中IM4
步骤5.4,将融合后的特征IM4和对Conformer的CNN分支输出的除最高层特征外其余包含综合信息的特征C1,C2,C3进行降维处理后得到的M1,M2,M3一起送入基于特征金字塔的语义分割分支,其结构如附图6所示,该结构被设计用于从特征金字塔中提取语义分割结果(具体可参见H.Zhao,J.Shi,X.Qi,et al.Pyramid Scene Parsing Network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition,Honolulu,HI,USA:IEEE Computer Society,2017:pp.6230-6239.),在本实施例中用于实现解码输出表面法向量估计结果。
步骤6:设计一个适用于该网络的损失函数,由两部分组成:其一是基于编码部分Conformer输出进行计算的交叉熵损失函数,其二是基于网络总体最终输出进行计算的余弦相似性损失函数。其中,交叉熵损失函数为:
其中:M为类别的数量,N为样本的数量,yic为符号函数,取值为0或1;pic为观测样本i属于类别c的预测概率。
余弦相似性损失函数为:
其中:分别为位于坐标(i,j)处的像素点的表面法向量估计结果和真实值,<,>表示点乘运算,W,H分别表示进行损失计算的表面法向量估计结果和真实值的宽和高。
因此最终网络损失函数可表达为:
LCE=lc+lt
L=αLCE+lcosine
其中:lc,lt分别为对Conformer的CNN分支输出结果和Transformer分支输出结果与法向量真值间进行计算得到的交叉熵损失值。α是一个常数,用以定义Conformer部分损失函数的权重,在实施例中设置为0.1。
在物体级数据集DeepSfP和场景级数据集SPW上分别进行训练,根据训练得到的偏振三维重建模型在对应测试集上进行三维重建。目标物体和目标场景的重建结果如附图7所示。
基于上述步骤得到物体级和场景级目标表面的三维重建结果,为了与其他方法进行比较,我们使用Kondo(Kondo Y,Ono T,Sun L,et al.Accurate Polarimetric BRDF forReal Polarization Scene Rendering[C]//European Conference on ComputerVision.Glasgow,UK:Springer,2020:220-236.),SPW(Lei C,Qi C,Xie J,et al.Shapefrom Polarization for Complex Scenes in the Wild[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.New Orleans,LA,USA:IEEE Computer Society,2022:12632-12641.)方法与我们的方法在物体级和场景级数据上进行对比,得出的结果如附图8所示。
为了定量的评价三维重建结果,我们引入平均角度误差(Mean AE)、中值角度误差(Median AE)、均方根误差(RMSE)以及角度误差分别小于11.25°、22.5°、30°的像素点占整张图片像素点的比例值作为评价指标,前三项指标数值越小代表重建效果越好,后三项指标数值越大代表重建效果越好。在物体级数据集上的定量对比结果如下:
表1物体级数据集上的不同重建方法的定量分析
在场景级数据集上的定量对比结果如下:
表2场景级数据集上的不同重建方法的定量分析
定量指标结果表示:本发明提出的方法得到的重建结果在场景级别和物体级别的数据上均优于已有方法,能高质量地重建目标表面信息,细节信息重建能力更强,更具备泛化性。
另一方面,本发明实施例还提供一种基于多重感受野交融网络的偏振三维重建系统,包括如下模块:
偏振图像获取模块,用于获取目标物体和目标场景分别在不同偏振角度的偏振图像,根据得到的不同偏振角度的偏振图像计算得到包含无偏振图像、偏振度和偏振角的偏振表示图组;
网络构建模块,用于构建用于偏振三维重建的多重感受野交融网络,所述多重感受野交融网络包括编码器Conformer、多尺度增强模块、多模融合模块和解码器,并将计算得到的偏振表示图组与对应的视觉编码作为输入;
所述编码器Conformer包括CNN分支和Transformer分支,CNN分支通过卷积运算提取局部特征细节,Transformer分支用于提取全局上下文信息;CNN分支和Transformer分支在编码过程中输出多个不同尺度的特征,除了最高层特征外,每个尺度下通过一个特征耦合单元,以交互的方式融合相同尺度的局部特征和全局表示得到融合特征,并作为下一阶段的输入,以此获得不同尺度的综合特征;
所述多尺度增强模块用于对CNN分支输出的最高层特征进行特征增强;
多模融合模块用于将Transformer分支输出的最高层特征与增强后的CNN分支输出特征进行特征融合,得到融合后的特征;
最后将融合后的特征以及CNN分支中除最高层特征外的其余不同尺度的综合特征进行降维后输入到解码器中输出表面法向量估计结果;
网络训练及重建模块,用于结合损失函数训练多重感受野交融网络,并利用训练好的网络实现偏振图像的三维重建。
各模块的具体实现方式与各步骤相同,本发明不予撰述。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (10)

1.一种基于多重感受野交融网络的偏振三维重建方法,其特征在于,包括如下步骤:
步骤一,获取目标物体和目标场景分别在不同偏振角度的偏振图像,根据得到的不同偏振角度的偏振图像计算得到包含无偏振图像、偏振度和偏振角的偏振表示图组;
步骤二,构建用于偏振三维重建的多重感受野交融网络,所述多重感受野交融网络包括编码器Conformer、多尺度增强模块、多模融合模块和解码器,并将计算得到的偏振表示图组与对应的视觉编码作为输入;
所述编码器Conformer包括CNN分支和Transformer分支,CNN分支通过卷积运算提取局部特征细节,Transformer分支用于提取全局上下文信息;CNN分支和Transformer分支在编码过程中输出多个不同尺度的特征,除了最高层特征外,每个尺度下通过一个特征耦合单元,以交互的方式融合相同尺度的局部特征和全局表示得到融合特征,并作为下一阶段的输入,以此获得不同尺度的综合特征;
所述多尺度增强模块用于对CNN分支输出的最高层特征进行特征增强;
多模融合模块用于将Transformer分支输出的最高层特征与增强后的CNN分支输出特征进行特征融合,得到融合后的特征;
最后将融合后的特征以及CNN分支中除最高层特征外的其余不同尺度的综合特征进行降维后输入到解码器中输出表面法向量估计结果;
步骤三,结合损失函数训练多重感受野交融网络,并利用训练好的网络实现偏振图像的三维重建。
2.如权利要求1所述一种基于多重感受野交融网络的偏振三维重建方法,其特征在于:步骤一的具体实现方式如下:
I=(I1+I3+I2+I4)/2
其中:I1,I3,I2,I4分别表示不同偏振角度的偏振图像,I为无偏振图像,ρ为偏振度,φ为偏振角,I,ρ,φ一起作为多重感受野交融网络的输入。
3.如权利要求1所述一种基于多重感受野交融网络的偏振三维重建方法,其特征在于:所述多尺度增强模块采用若干个不同比率的空洞卷积,在扩大感受野的同时保持分辨率和相对空间位置,之后通过自适应加权融合模块将多尺度上下文信息注入降维后的高层特征,减少高层特征在降维过程中的通道信息损失,所述的自适应加权融合模块由卷积层,ReLU激活函数层,卷积层,Sigmoid激活函数层组成。
4.如权利要求3所述一种基于多重感受野交融网络的偏振三维重建方法,其特征在于:
多尺度增强模块中,将Conformer的CNN分支输出的最高层特征作为输入,采用3个不同比率的空洞卷积对输入特征进行计算,并将结果特征拼接,实现过程表示为:
Fconcat=[Γ1(C),Γ2(C),Γ3(C)]
其中:Γ1,Γ2,Γ3分别表示不同比率的空洞卷积运算,C为输入多尺度增强模块的特征,即输入特征,Fconcat为拼接后的特征;
将拼接的特征送入自适应加权融合模块后将得到的结果与拼接的特征进行矩阵乘法运算,所述的自适应加权融合模块由1×1卷积层,ReLU激活函数层,3×3卷积层,Sigmoid激活函数层组成,其中ReLU激活函数为:
其中,x即拼接后得到的特征Fconcat经1×1卷积层处理后得到的特征;
Sigmoid激活函数为:
其中,x’为拼接后得到的特征Fconcat经1×1卷积层,ReLU激活函数层,3×3卷积层处理后得到的特征;
自适应加权融合模块的实现过程表示为:
其中:WF表示自适应加权融合模块,Fresult为得到的多尺度上下文信息,表示矩阵乘法运算;
输入特征依次通过卷积层,BatchNorm层,ReLU激活函数层实现高层特征的降维处理,并将得到的结果与多尺度上下文信息逐点相加,实现过程表示为:
M=Λ(C)
EM=M+Fresult
其中:Λ表示降维处理过程,M为降维处理得到的结果,EM为增强后的CNN分支输出特征。
5.如权利要求1所述一种基于多重感受野交融网络的偏振三维重建方法,其特征在于:所述多模融合模块利用特征图生成模块对Transformer分支输出特征进行降维处理和形状调整,再与CNN分支输出的特征融合,并利用SE注意力机制模块实现Transformer分支输出的全局上下文信息和CNN分支输出的区域细节特征的进一步有效融合,所述的特征图生成模块由LayerNorm层,全连接层,形状调整和上采样层,Softmax激活函数层组成。
6.如权利要求5所述一种基于多重感受野交融网络的偏振三维重建方法,其特征在于:
将经过特征图生成模块得到的特征与CNN分支输出的特征进行矩阵乘法运算,并将结果与特征图生成模块得到的特征和CNN分支输出的特征拼接,再依次通过卷积层,BatchNorm层和ReLU激活函数层处理,实现过程表示为:
F1=MG(T)
F3=Υ([F1,F2,EM])
其中:MG为特征图生成模块,T为Transformer分支输出特征,F1,F2,F3分别表示经过特征图生成模块得到的特征,经过矩阵乘法运算得到的特征和最终得到的特征,Υ表示卷积层,BatchNorm层和ReLU激活函数层处理过程;
所述的SE注意力机制模块由全局池化层,全连接层,ReLU激活函数层、全连接层和Sigmoid激活函数层依次组成;
所述Softmax激活函数的表达式为:
其中:C为Transformer分支输出特征经LayerNorm层,全连接层,形状调整和上采样层处理后输入Softmax激活函数层的特征z中的元素总数,zi和zc分别为特征z中的第i个元素和第c个元素。
7.如权利要求1所述一种基于多重感受野交融网络的偏振三维重建方法,其特征在于:所述多重感受野交融网络的处理过程如下;
首先,将计算得到的偏振表示图组与通过将每个像素的二维坐标(u,v)归一化为[-1,1]的结果作为视觉编码一起输入Conformer实现多感受野兼顾的编码;
将Conformer的CNN分支输出的最高层特征送入多尺度增强模块,得到增强后的CNN分支输出特征;
将Conformer中Transformer分支输出特征和增强后的CNN分支输出特征一起送入多模融合模块,得到融合后的特征;
最后,将融合后的特征和Conformer的CNN分支输出的除最高层特征外其余包含不同尺度的综合特征经过进行降维处理后一起送入解码器,即基于特征金字塔的语义分割分支,实现解码输出表面法向量估计结果。
8.如权利要求1所述一种基于多重感受野交融网络的偏振三维重建方法,其特征在于:采用的损失函数包括两部分:其一是基于编码部分Conformer输出进行计算的交叉熵损失函数,其二是基于网络总体最终输出进行计算的余弦相似性损失函数,其中,交叉熵损失函数为:
其中:M为类别的数量,N为样本的数量,yic为符号函数,取值为0或1;pic为观测样本i属于类别c的预测概率;
余弦相似性损失函数为:
其中:Nij分别为位于坐标(i,j)处的像素点的表面法向量估计结果和真实值,<,>表示点乘运算,W,H分别表示进行损失计算的表面法向量估计结果和真实值的宽和高;
因此最终网络损失函数可表达为:
LCE=lc+lt
L=αLCE+lcosine
其中:lc,lt分别为对Conformer的CNN分支输出结果和Transformer分支输出结果与法向量真值间进行计算得到的交叉熵损失值,α是一个常数,用以定义Conformer部分损失函数的权重。
9.如权利要求1所述一种基于多重感受野交融网络的偏振三维重建方法,其特征在于:还包括步骤四,引入平均角度误差、中值角度误差、均方根误差以及角度误差分别小于一定角度的像素点占整张图片像素点的比例值作为评价指标,用于评价三维重建效果。
10.一种基于多重感受野交融网络的偏振三维重建系统,其特征在于,包括如下模块:
偏振图像获取模块,用于获取目标物体和目标场景分别在不同偏振角度的偏振图像,根据得到的不同偏振角度的偏振图像计算得到包含无偏振图像、偏振度和偏振角的偏振表示图组;
网络构建模块,用于构建用于偏振三维重建的多重感受野交融网络,所述多重感受野交融网络包括编码器Conformer、多尺度增强模块、多模融合模块和解码器,并将计算得到的偏振表示图组与对应的视觉编码作为输入;
所述编码器Conformer包括CNN分支和Transformer分支,CNN分支通过卷积运算提取局部特征细节,Transformer分支用于提取全局上下文信息;CNN分支和Transformer分支在编码过程中输出多个不同尺度的特征,除了最高层特征外,每个尺度下通过一个特征耦合单元,以交互的方式融合相同尺度的局部特征和全局表示得到融合特征,并作为下一阶段的输入,以此获得不同尺度的综合特征;
所述多尺度增强模块用于对CNN分支输出的最高层特征进行特征增强;
多模融合模块用于将Transformer分支输出的最高层特征与增强后的CNN分支输出特征进行特征融合,得到融合后的特征;
最后将融合后的特征以及CNN分支中除最高层特征外的其余不同尺度的综合特征进行降维后输入到解码器中输出表面法向量估计结果;
网络训练及重建模块,用于结合损失函数训练多重感受野交融网络,并利用训练好的网络实现偏振图像的三维重建。
CN202311052980.5A 2023-08-18 2023-08-18 一种基于多重感受野交融网络的偏振三维重建方法和系统 Active CN117036613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311052980.5A CN117036613B (zh) 2023-08-18 2023-08-18 一种基于多重感受野交融网络的偏振三维重建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311052980.5A CN117036613B (zh) 2023-08-18 2023-08-18 一种基于多重感受野交融网络的偏振三维重建方法和系统

Publications (2)

Publication Number Publication Date
CN117036613A true CN117036613A (zh) 2023-11-10
CN117036613B CN117036613B (zh) 2024-04-02

Family

ID=88622526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311052980.5A Active CN117036613B (zh) 2023-08-18 2023-08-18 一种基于多重感受野交融网络的偏振三维重建方法和系统

Country Status (1)

Country Link
CN (1) CN117036613B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210272573A1 (en) * 2020-02-29 2021-09-02 Robert Bosch Gmbh System for end-to-end speech separation using squeeze and excitation dilated convolutional neural networks
CN113936011A (zh) * 2021-10-21 2022-01-14 上海交通大学 基于注意力机制的ct影像肺叶图像分割系统
CN114972107A (zh) * 2022-06-14 2022-08-30 福州大学 基于多尺度堆叠式注意力网络的低照度图像增强方法
CN115546273A (zh) * 2022-11-09 2022-12-30 中国传媒大学 一种面向室内鱼眼图像的场景结构深度估计方法
CN115719463A (zh) * 2022-11-21 2023-02-28 珠海市金锐电力科技有限公司 一种基于超分辨率重构和自适应挤压激励的烟火检测方法
CN115760944A (zh) * 2022-11-29 2023-03-07 长春理工大学 融合多尺度特征的无监督单目深度估计方法
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
CN116051945A (zh) * 2023-01-13 2023-05-02 常州大学 一种基于CNN-Transformer并行融合方法
CN116189180A (zh) * 2023-04-28 2023-05-30 青岛理工大学 一种城市街景广告图像分割方法
CN116310916A (zh) * 2023-05-23 2023-06-23 青岛理工大学 一种高分辨率遥感城市图像语义分割方法及系统
CN116363518A (zh) * 2023-04-07 2023-06-30 合肥工业大学 一种基于分焦平面偏振成像的伪装目标检测方法
CN116485860A (zh) * 2023-04-18 2023-07-25 安徽理工大学 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210272573A1 (en) * 2020-02-29 2021-09-02 Robert Bosch Gmbh System for end-to-end speech separation using squeeze and excitation dilated convolutional neural networks
CN113936011A (zh) * 2021-10-21 2022-01-14 上海交通大学 基于注意力机制的ct影像肺叶图像分割系统
CN114972107A (zh) * 2022-06-14 2022-08-30 福州大学 基于多尺度堆叠式注意力网络的低照度图像增强方法
CN115546273A (zh) * 2022-11-09 2022-12-30 中国传媒大学 一种面向室内鱼眼图像的场景结构深度估计方法
CN115719463A (zh) * 2022-11-21 2023-02-28 珠海市金锐电力科技有限公司 一种基于超分辨率重构和自适应挤压激励的烟火检测方法
CN115760944A (zh) * 2022-11-29 2023-03-07 长春理工大学 融合多尺度特征的无监督单目深度估计方法
CN116051945A (zh) * 2023-01-13 2023-05-02 常州大学 一种基于CNN-Transformer并行融合方法
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
CN116363518A (zh) * 2023-04-07 2023-06-30 合肥工业大学 一种基于分焦平面偏振成像的伪装目标检测方法
CN116485860A (zh) * 2023-04-18 2023-07-25 安徽理工大学 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法
CN116189180A (zh) * 2023-04-28 2023-05-30 青岛理工大学 一种城市街景广告图像分割方法
CN116310916A (zh) * 2023-05-23 2023-06-23 青岛理工大学 一种高分辨率遥感城市图像语义分割方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周鹏程;龚声蓉;钟珊;包宗铭;戴兴华;: "基于深度特征融合的图像语义分割", 计算机科学, no. 02, 31 December 2020 (2020-12-31) *

Also Published As

Publication number Publication date
CN117036613B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN113160294B (zh) 图像场景深度的估计方法、装置、终端设备和存储介质
CN112347859A (zh) 一种光学遥感图像显著性目标检测方法
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
CN116168067B (zh) 基于深度学习的有监督多模态光场深度估计方法
CN116309107A (zh) 基于Transformer和生成式对抗网络的水下图像增强方法
CN115511767A (zh) 一种自监督学习的多模态图像融合方法及其应用
Yang et al. Mixed-scale UNet based on dense atrous pyramid for monocular depth estimation
CN113724308B (zh) 基于光度与对比度互注意力的跨波段立体匹配算法
Zhang et al. Dense haze removal based on dynamic collaborative inference learning for remote sensing images
Guo et al. Dim space target detection via convolutional neural network in single optical image
Zhang et al. Multimodal Remote Sensing Image Matching via Learning Features and Attention Mechanism
Zhang et al. Global attention network with multiscale feature fusion for infrared small target detection
CN117036613B (zh) 一种基于多重感受野交融网络的偏振三维重建方法和系统
Wu et al. Unsupervised encoder-decoder network under spatial and spectral guidance for hyperspectral and multispectral image fusion
CN112950481B (zh) 一种基于图像拼接网络的水花遮挡图像数据集采集方法
CN114862696A (zh) 一种基于轮廓和语义引导的人脸图像修复方法
Wang et al. Infrared and Visible Image Fusion Based on Autoencoder Composed of CNN-Transformer
CN113763539A (zh) 一种基于图像和三维输入的隐式函数三维重建方法
Xue et al. Towards Handling Sudden Changes in Feature Maps during Depth Estimation
Li et al. Transformer meets GAN: Cloud-free multispectral image reconstruction via multi-sensor data fusion in satellite images
CN114764880B (zh) 多成分gan重建的遥感图像场景分类方法
Li et al. Geometry to the Rescue: 3D Instance Reconstruction from a Cluttered Scene
Li et al. Spectral-learning-based Transformer Network for the Spectral Super-resolution of Remote Sensing Degraded Images
Gao et al. Content-aware dynamic filter salient object detection network in multispectral polarimetric imagery
CN116503737B (zh) 基于空间光学图像的船舶检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant