CN114529793A - 一种基于门控循环特征融合的深度图像修复系统及方法 - Google Patents
一种基于门控循环特征融合的深度图像修复系统及方法 Download PDFInfo
- Publication number
- CN114529793A CN114529793A CN202210170142.7A CN202210170142A CN114529793A CN 114529793 A CN114529793 A CN 114529793A CN 202210170142 A CN202210170142 A CN 202210170142A CN 114529793 A CN114529793 A CN 114529793A
- Authority
- CN
- China
- Prior art keywords
- feature
- depth image
- shallow
- layer
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000004927 fusion Effects 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 125000004122 cyclic group Chemical group 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000008439 repair process Effects 0.000 claims description 13
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 238000009792 diffusion process Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于门控循环特征融合的深度图像修复系统及方法,首先,浅层特征提取模块从输入的彩色图像和稀疏深度图像中提取浅层特征,并将提取到的浅层特征堆砌为一个统一浅层特征;然后,门控循环特征融合模块根据统一浅层特征进行多个尺度的编码,得到各个解码单元中的门控循环单元特征融合时所需的低层次特征,并根据获取到的初始高层次特征从第S个解码单元开始依次解码,得到粗略修复的第一密集深度图像,同时输出第一解码单元中的门控循环单元处理得到的高层次特征;最后,空间传播模块根据稀疏深度图像、第一密集深度图像和高层次特征通过迭代更新的方式进行深度图像修正,得到精细修复的第二密集深度图像。
Description
技术领域
本发明涉及图像处理技术领域,具体而言,涉及一种基于门控循环特征融合的深度图像修复系统及方法。
背景技术
近年来,深度学习框架已广泛用于深度图像修复领域。其中,有的方法在深度修复网络中融入了表面法线信息,有的方法将稀疏深度图像和同场景的彩色图像特征堆砌后传入自监督网络,并使用光度一致性损失来监督修复过程;有的方法则在归一化网络中结合深度和彩色信息来完成深度修复。在这些方法中,多级特征融合或者多模态特征融合往往采用了简单的逐像素相加或者特征堆砌来完成。
此外,一些最新的深度图像修复方法采用了粗细结合的网络架构,即粗略修复网络结合精细修复网络的架构。其中,精细修复网络中,部分研究人员采用卷积空间传播网络模型(Convolutional spatial propagation network,CSPN),在亲和矩阵的引导下将相邻点进行迭代扩散,以修正深度结果。随后,这些研究人员提出了CSPN++,其通过自适应地学习卷积核尺寸和扩散迭代次数,来提升修复性能。有部分研究人员提出了非局部空间传播网络模型(Non-local spatial propagation network,NLSPN),在迭代扩散过程中用非局部邻域点间的亲和矩阵来引导深度修正。亲和矩阵决定了空间传播的速度和方向,它的准确性将较大程度地影响精细修复网络的深度修正性能。但目前这些方法仅仅由一个简单的卷积层来计算亲和矩阵,忽略了对特征间相关性的研究,降低了密集深度图像的修复质量。
发明内容
本发明的目的在于提供一种基于门控循环特征融合的深度图像修复系统及方法,用以实现提高深度图像修复质量的技术效果。
第一方面,本发明提供了一种基于门控循环特征融合的深度图像修复系统,包括:浅层特征提取模块、门控循环特征融合模块以及空间传播模块;
所述浅层特征提取模块用于从输入的彩色图像和稀疏深度图像中提取浅层特征,并将提取到的浅层特征堆砌为一个统一浅层特征;
所述门控循环特征融合模块包括编码器和解码器;所述编码器包括依次连接的S个尺度的编码单元;所述编码单元包括R个依次连接的残差块;所述解码器包括与所述编码单元对称设置的S个依次连接的解码单元;除第一编码单元对应的第一解码单元包括一个门控循环单元以及与对应门控循环单元连接一个卷积层外,其余解码单元均包括一个门控循环单元以及与对应门控循环单元连接的上采样层;其中,S和R均为大于1的整数;
所述编码器用于根据所述统一浅层特征进行多个尺度的编码,得到各个解码单元中的特征融合时所需的低层次特征;所述解码器用于通过获取到的初始高层次特征从第S个解码单元开始依次解码,得到粗略修复的第一密集深度图像,同时输出第一解码单元中的门控循环单元处理得到的高层次特征;
所述空间传播模块用于根据所述稀疏深度图像、所述第一密集深度图像和所述高层次特征通过迭代更新的方式进行深度图像修正,得到精细修复的第二密集深度图像。
进一步地,所述编码器中前S-1个编码单元的最后一个残差块均进行下采样操作。
进一步地,所述空间传播模块包括一个逐维度注意力模块、一个卷积层和一个空间传播网络;所述逐维度注意力模块包括特征通道注意力单元、特征高度注意力单元、特征宽度注意力单元和一个Concat层;所述特征通道注意力单元用于分析所述高层次特征的通道注意力权重,并将所述通道注意力权重与所述高层次特征进行相乘并输出;所述特征高度注意力单元用于分析所述高层次特征的高度注意力权重,并将所述高度注意力权重与所述高层次特征进行相乘并输出;所述特征宽度注意力单元用于分析所述高层次特征的宽度注意力权重,并将所述宽度注意力权重与所述高层次特征进行相乘并输出;所述逐维度注意力模块中的Concat层用于将三个注意力单元的输出结果堆砌为一个统一特征;所述空间传播模块中的卷积层根据所述统一特征分析得到对应的亲和矩阵;所述空间传播网络以所述稀疏深度图像和所述第一密集深度图像作为输入,并通过亲和矩阵引导邻域像素间的迭代扩散和更新,得到所述第二密集深度图像。
进一步地,所述特征通道注意力单元包括一个全局池化层、一个“1×1卷积层-ReLU层-1×1卷积层-Sigmoid层”组合结构以及一个乘法器”;所述特征高度注意力单元和上述特征宽度注意力单元均包括一个全局池化层、一个“Resize层-1×1卷积层-ReLU层-1×1卷积层-Sigmoid层-Resize层”组合结构以及一个乘法器;所述高层次特征先分别通过所述特征通道注意力单元、所述特征高度注意力单元和所述特征宽度注意力单元中的全局池化层获得对应的一维统计信号;其次,通过对应的组合结构处理得到对应的注意力权重;然后,通过对应的乘法器将对应的注意力权重与所述高层次特征进行逐像素相乘处理;最后,通过Concat层将三个注意力单元的输出堆砌为一个统一特征。
进一步地,所述浅层特征提取模块包括2个n×n卷积层和一个Concat层;其中一个n×n卷积层用于从输入的彩色图像中提取浅层彩色特征,一个n×n卷积层用于从输入的稀疏深度图像中提取浅层稀疏深度特征;所述Concat层用于将所述浅层彩色特征和浅层稀疏深度特征堆砌为一个统一浅层特征。
第二方面,本发明提供了一种基于门控循环特征融合的深度图像修复方法,应用于上述的基于门控循环特征融合的深度图像修复系统,包括:
S1.获取深度图像修复训练集{Ii,Xi,Yi gt},其中,i表示变量,且1≤i≤N,N表示各类图像的数量;X表示稀疏深度图像;I表示同场景的彩色图像;Ygt表示对应的真实密集深度图像;
S2.通过浅层特征提取模块从输入的彩色图像和稀疏深度图像中提取浅层特征,并将提取到的浅层特征堆砌为一个统一浅层特征;
S3.通过门控循环特征融合模块根据所述统一浅层特征进行处理,得到粗略修复的第一密集深度图像,同时输出第一解码单元中的门控循环单元处理得到的高层次特征;
S4.通过空间传播模块根据所述稀疏深度图像、所述第一密集深度图像和所述高层次特征通过迭代更新的方式进行深度图像修正,得到精细修复的第二密集深度图像。
进一步地,所述方法还包括:S5.使用N个精细修复的第二密集深度图像与对应的真实密集深度图像间的平均L2误差作为损失函数,对深度图像修复系统的参数进行优化,其中损失函数为:
上式中,Θ表示整个系统的参数;i表示变量,且1≤i≤N,N表示各类图像的数量;Ⅱ(·)为标志器函数;Ygt表示对应的真实密集深度图像;Y表示精细修复的第二密集深度图像;⊙表示逐像素相乘。
本发明能够实现的有益效果是:本发明提供的基于门控循环特征融合的深度图像修复系统及方法通过门控循环特征融合模块构成了粗略修复加精细修复的双网络结构,与现有技术相比,具有更强的复杂映射关系学习能力,能够修复出更高质量的密集深度图像。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种基于门控循环特征融合的深度图像修复系统的拓扑结构示意图;
图2为本发明实施例提供的门控循环特征融合模块的拓扑结构示意图;
图3为本发明实施例提供的门控循环单元的原理图;
图4为本发明实施例提供的空间传播模块的拓扑结构示意图;
图5为本发明实施例提供的逐维度注意力模块的拓扑结构示意图;
图6为本发明实施例提供的一种基于门控循环特征融合的深度图像修复方法的流程示意图。
图标:10-深度图像修复系统;100-浅层特征提取模块;200-门控循环特征融合模块;210-编码器;220-解码器;221-门控循环单元;300-空间传播模块;310-逐维度注意力模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参看图1、图2和图3,图1为本发明实施例提供的一种基于门控循环特征融合的深度图像修复系统的拓扑结构示意图;图2为本发明实施例提供的门控循环特征融合模块的拓扑结构示意图;图3为本发明实施例提供的门控循环单元的原理图。
在一种实施方式中,本发明实施例提供了一种基于门控循环特征融合的深度图像修复系统10,该深度图像修复系统10包括:浅层特征提取模块100、门控循环特征融合模块200以及空间传播模块300;浅层特征提取模块100用于从输入的彩色图像和稀疏深度图像中提取浅层特征,并将提取到的浅层特征堆砌为一个统一浅层特征F0;门控循环特征融合模块200包括编码器210和解码器220;编码器210包括依次连接的S个尺度的编码单元;编码单元包括R个依次连接的残差块;解码器220包括与编码单元对称设置的S个依次连接的解码单元;除第一编码单元对应的第一解码单元包括一个门控循环单元221(gatedrecurrent unit,GRU)以及与对应门控循环单元221连接一个卷积层(CONV层)外,其余解码单元均包括一个门控循环单元以及与对应门控循环单元连接的上采样层;其中,S和R均为大于1的整数;编码器210用于根据统一浅层特征F0进行多个尺度的编码,得到各个解码单元中的门控循环单元特征融合时所需的低层次特征;解码器220用于通过获取到的初始高层次特征从第S个解码单元开始依次解码,得到粗略修复的第一密集深度图像Y0,同时输出第一解码单元中的门控循环单元处理得到的高层次特征Q1;空间传播模块300用于根据稀疏深度图像X、第一密集深度图像Y0和高层次特征Q1通过迭代更新的方式进行深度图像修正,得到精细修复的第二密集深度图像Y。
具体地,如图2所示,编码器包括从左到右的S个尺度的编码单元,每个编码单元均包括R个依次连接的残差块,统一浅层特征F0从第一个编码单元开始依次经过S个尺度的编码单元进行编码;解码器则包括与编码单元对称设置的S个依次连接的解码单元;除第一编码单元对应的第一解码单元包括一个门控循环单元221(gated recurrent unit,GRU)以及与对应门控循环单元221连接一个卷积层(CONV层)外,其余解码单元(即第2至S个解码单元)均包括一个门控循环单元以及与对应门控循环单元连接的上采样层(图2中的UPSAMPLE层即为上采样层)。
在上述实现过程中,浅层特征提取模块100先从输入的彩色图像和稀疏深度图像中提取浅层特征,并将提取到的浅层特征堆砌为一个统一浅层特征;然后,通过门控循环特征融合模块200中的编码器210和解码器220构成的U网络根据该统一浅层特征进行多尺度的编码和解码,得到粗略修复的第一密集深度图像和第一解码单元中的门控循环单元处理得到的高层次特征;最后,空间传播模块300根据稀疏深度图像、第一密集深度图像和高层次特征通过迭代更新的方式进行深度图像修正,得到精细修复的第二密集深度图像。通过门控循环特征融合模块200构成了粗略修复加精细修复的双网络结构,与现有技术相比,具有更强的复杂映射关系学习能力,能够修复出更高质量的密集深度图像。
具体地,编码器210的处理流程为:将统一浅层特征F0传入编码器210,依次经过S个编码尺度;其中,每个尺度由R个残差块依次进行残差学习,第R个残差块还需要将特征尺寸下采样,以扩大感知域。将编码器210第s个尺度(1≤s≤S)中第r个残差块(1≤r≤R)提取的低层次特征表示为Fs,r;则第R个残差块的输出为Fs,R,Fs,R可表示为:
Fs,R=↓fs,R(fs,R-1(…fs,1(Fs,0)))
上式中,Fs,0=Fs-1,R对应了编码器第s-1个尺度的输出;fs,r为编码器第s个尺度第r个残差块的残差学习函数;↓表示下采样操作。
具体地,门控循环单元221的每个阶段包含了三个卷积层、2个Sigmoid(σ)层、1个tanh层、3个逐像素乘法器(⊙)和1个逐像素加法器(⊕),共同构成了重置门和更新门;重置门决定了在当前阶段,前一隐态哪些信息会被存储,哪些信息会被遗忘;更新门决定了哪些新信息会被加入当前隐态。
解码器220的处理流程为:每个尺度都由对应的门控循环单元进行多层次特征融合;前S-1个尺度由上采样层(图2中的UPSAMPLE层)进行特征尺寸上采样,第1个尺度的编码单元对应的解码单元用卷积层(图2中的CONV层)重建粗略修复的密集深度图像Y0。以解码器220尺度s为例,多层次特征包括解码器220第s+1个尺度传递来的初始高层次特征Qs+1,↑(图2中为None)和编码器尺度s传递来的低层次特征Fs,0,Fs,1,...,Fs,R-1;则解码器220尺度s的输出为:
Qs,↑=↑Qs=↑fGRFB(Fs,0,Fs,1,…,Fs,R-1,Qs+1,↑)
上式中,fGRFB表示门控循环单元的功能函数;↑表示上采样层的上采样函数;Qs,↑表示解码器第s个尺度输出的高层次特征。
解码器尺度s中的门控循环单元(即门控循环单元S)能够展开为R个阶段,分别对应了R个隐态hr,将解码器第s+1个尺度传递来的高层次特征Qs+1,↑(None)作为初始隐态h0,将编码器尺度s传递来的R个低层次特征(即Fs,0,Fs,1,...,Fs,R-1)依次传入每个阶段,作为各阶段的输入,并进行隐态的逐阶段更新。以第r个阶段为例,其处理流程包含:重置门、更新门、候选隐态计算以及隐态计算。将前一隐态hr-1和当前阶段的输入Fs,R-r堆砌后,传入权重为Wx的卷积层和Sigmoid(σ)层,得到重置门输出xr;将前一隐态hr-1和当前阶段的输入Fs,R-r堆砌后,传入权重为Wc的卷积层和Sigmoid(σ)层,得到更新门输出zr。重置门和更新门的表示式为:
xr=σ(Wx*[hr-1,Fs,R-r]),
zr=σ(Wz*[hr-1,Fs,R-r])。
通过上述方式,门控循环单元可以通过隐态的逐阶段更新,实现了多层次特征的有效融合。
在一种实施方式中,编码器中前S-1个编码单元的最后一个残差块均进行下采样操作。通过这种方式,可以扩大感知域。
在一种实施方式中,如图1所示,浅层特征提取模块100包括2个n×n卷积层(图1中的COMV层)和一个Concat层(图1中的CAT层);其中一个n×n卷积层用于从输入的彩色图像中提取浅层彩色特征,一个n×n卷积层用于从输入的稀疏深度图像中提取浅层稀疏深度特征;Concat层用于将浅层彩色特征和浅层稀疏深度特征堆砌为一个统一浅层特征。
请参看图4和图5,图4为本发明实施例提供的空间传播模块的拓扑结构示意图;图5为本发明实施例提供的逐维度注意力模块的拓扑结构示意图。
在一种实施方式中,空间传播模块300包括一个逐维度注意力模块310、一个卷积层和一个空间传播网络;逐维度注意力模块310包括特征通道注意力单元、特征高度注意力单元、特征宽度注意力单元和一个Concat层;特征通道注意力单元用于分析高层次特征的通道注意力权重,并将通道注意力权重与高层次特征进行相乘并输出;特征高度注意力单元用于分析高层次特征的高度注意力权重,并将高度注意力权重与高层次特征进行相乘并输出;特征宽度注意力单元用于分析高层次特征的宽度注意力权重,并将宽度注意力权重与高层次特征进行相乘并输出;逐维度注意力模块310中的Concat层用于将三个注意力单元的输出结果堆砌为一个统一特征;空间传播模块300中的卷积层根据统一特征分析得到对应的亲和矩阵;空间传播网络以稀疏深度图像和第一密集深度图像作为输入,并通过亲和矩阵引导邻域像素间的迭代扩散和更新,得到第二密集深度图像。
在一种实施方式中,特征通道注意力单元包括一个全局池化层、一个“1×1卷积层-ReLU层-1×1卷积层-Sigmoid层”组合结构以及一个乘法器”;特征高度注意力单元和上述特征宽度注意力单元均包括一个全局池化层、一个“Resize层-1×1卷积层-ReLU层-1×1卷积层-Sigmoid层-Resize层”组合结构以及一个乘法器;高层次特征先分别通过特征通道注意力单元、特征高度注意力单元和特征宽度注意力单元中的全局池化层获得对应的一维统计信号;其次,通过对应的组合结构处理得到对应的注意力权重;然后,通过对应的乘法器将对应的注意力权重与高层次特征进行逐像素相乘处理;最后,通过Concat层将三个注意力单元的输出堆砌为一个统一特征。在上述实现过程中,通过第一个Resize层,可以将一维统计信号的高度或宽度缩放为固定值,通过第二个Resize层可以将注意力权重尺寸调整为与特征Q的高度和宽度一致。
具体地,空间传播模块300的处理流程为:将门控循环特征融合模块200输出的高层次特征Q传入逐维度注意力模块310,学习特征在各个维度上的依赖关系,并依据这些关系生成注意力权重,与逐维度加权相乘,实现对Q的自适应调整;将调整后的Q传入CONV层,计算出亲和矩阵w;将亲和矩阵w、稀疏深度图像X和粗略修复的第一密集深度图像Y0传入空间传播网络,由亲和矩阵引导Y0中相邻像素间的迭代扩散和更新,从而得到精细修复的第二密集深度图像Y。在本发明的实施例中,图2中的Q1即为上述过程中的Q。
空间传播网络的具体处理流程为:令Y0=(ym,n)∈RH×W,ym,n表示Y0中位置(m,n)处的像素值,ym,n在第t次迭代时,可根据亲和矩阵由它的邻域集Nm,n更新为:
其中(m,n)和(i,j)分别表示参考点和邻域点的位置。(m,n)和(i,j)间的亲和值被用作权重,来控制邻域(i,j)上的深度值向(m,n)点的传播扩散速度。为了保证传播稳定性,邻域集合内的亲和值需要预先进行绝对值归一化。参考点的权重为:
此外,空间传播网络还需要在每次迭代时采取置换操作,以保留稀疏深度图像X中的有效像素,置换操作可表示为:
请参看图6,图6为本发明实施例提供的一种基于门控循环特征融合的深度图像修复方法的流程示意图。
在一种实施方式中,本发明实施例还提供了应用于上述深度图像修复系统10中的一种基于门控循环特征融合的深度图像修复方法,其具体内容如下所述。
S1.获取深度图像修复训练集{Ii,Xi,Yi gt},其中,i表示变量,且1≤i≤N,N表示各类图像的数量;X表示稀疏深度图像;I表示同场景的彩色图像;Ygt表示对应的真实密集深度图像。
S2.通过浅层特征提取模块从输入的彩色图像和稀疏深度图像中提取浅层特征,并将提取到的浅层特征堆砌为一个统一浅层特征。
具体地,表达式如下:
F0=fSF(X,I)
其中,F0表示浅层彩色特征和浅层稀疏深度特征堆砌后形成的统一浅层特征,fSF表示浅层特征提取模块100的功能函数。
S3.通过门控循环特征融合模块根据所述统一浅层特征进行处理,得到粗略修复的第一密集深度图像,同时输出第一解码单元中的门控循环单元处理得到的高层次特征。
具体地,表达式如下:
(Y0,Q1)=fU(F0)
其中,fU表示门控循环特征融合模块200的功能函数,Q1表示高层次特征,Y0表示粗略修复的第一密集深度图像。
S4.通过空间传播模块根据所述稀疏深度图像、所述第一密集深度图像和所述高层次特征通过迭代更新的方式进行深度图像修正,得到精细修复的第二密集深度图像。具体地,表达式如下:
Y=fCSPN(X,Y0,Q1)
其中,fCSPN表示空间传播模块300的功能函数,Y表示精细修复的第二密集深度图像。
在一种实施方式中,上述方法还包括:S5.使用N个精细修复的第二密集深度图像与对应的真实密集深度图像间的平均L2误差作为损失函数,对深度图像修复系统10的参数进行优化,其中损失函数为:
上式中,Θ表示整个网络的参数;i表示变量,且1≤i≤N,N表示各类图像的数量;Ⅱ(·)为标志器函数;Ygt表示对应的真实密集深度图像;Y表示精细修复的第二密集深度图像;⊙表示逐像素相乘。
通过设置的损失函数优化系统的参数,从而进一步提高密集深度图像。
为了更好地说明本发明的有效性,本发明实施例还采用了对比实验的方式进行深度图像修复效果的展示,其具体内容如下。
数据集:本发明分别使用了KITTI训练集和NYUv2训练集,其中KITTI是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集,它的训练集包含了85,898幅深度图像和对应的彩色图像。本发明的测试分别使用了KITTI验证集和NYUv2测试集。
评价指标:对于KITTI数据集,使用均方根误差(RMSE)、平均绝对误差(MAE)、逆深度的均方根误差(iRMSE)和逆深度的平均绝对误差(iMAE)来评估模型性能;对于NYUv2数据集,使用均方根误差(RMSE)、相对误差的绝对值平均(REL)和δi来评估模型性能,其中δi表示相对误差小于给定阈值i(i∈{1.25,1.252,1.253})的像素百分比。
本发明分别使用了KITTI验证集和NYUv2测试集来比较模型性能,对比实验选取了12个具有代表性的深度图像修复方法与本发明的实验结果进行比较,实验结果如表1和表2所示。12个具有代表性的深度图像修复方法包括:
方法1(SparseConvs):Uhrig等人提出的方法,参考文献“J.Uhrig,N.Schneider,L.Schneider,U.Franke,T.Brox,and A.Geiger,Sparsity invariant cnns,in:Proc.Int.Conf.3D Vis.,2017,pp.11-20.”。
方法2(Sparse2Dense):Ma等人提出的方法,参考文献“F.Ma,G.V.Cavalheiro,andS.Karaman,Self-supervised sparse-to-dense:Self-supervised depth completionfrom lidar and monocular camera,in:Proc.IEEE Int.Conf.Robot.Autom.,2019,pp.3288-3295.”。
方法3(PwP):Xu等人提出的方法,参考文献“Y.Xu,X.Zhu,J.Shi,G.Zhang,H.Bao,and H.Li,Depth completion from sparse LiDAR data with depth-normalconstraints,in:Proc.IEEE Int.Conf.Comput.Vis.,Oct.2019,pp.2811-2820.”。
方法4(NConv-CNN):Eldesokey等人提出的方法,参考文献“A.Eldesokey,M.Felsberg,andF.S.Khan,ConfidencePropagation through CNNs for Guided SparseDepth Regression,IEEE Trans.Pattern Anal.Mach.Intell.42(10)(2020)2423-2436.”。
方法5(MSG-CHN):Li等人提出的方法,参考文献“A.Li,Z.Yuan,Y.Ling,W.Chi,andC.Zhang,A multi-scale guided cascade hourglass network for depth completion,in:Proc.IEEE Winter Conf.Appl.Comput.Vis.,2020,pp.32-40.”。
方法6(NLSPN):Park等人提出的方法,参考文献“J.Park,K.Joo,Z.Hu,C.-K.Liu,and I.So Kweon,Non-local spatial propagation network for depth completion,in:Proc.European Conf.on Comput.Vis.,2020,pp.120-136.”。
方法7(HMS-Net):Huang等人提出的方法,参考文献“Z.Huang,J.Fan,S.Cheng,S.Yi,X.Wang,and H.Li,Hms-net:Hierarchical multi-scale sparsity-invariantnetwork for sparse depth completion,IEEE Trans.on Image Process.29(2019)3429-3441.”。
方法8(GuideNet):Tang等人提出的方法,参考文献“J.Tang,F.P.Tian,W.Feng,J.Li,and P.Tan,Learning guided convolutional network for depth completion,IEEE Trans.Image Process.30(2020)1116-1129.”。
方法9(ACMNet):Zhao等人提出的方法,参考文献“S.Zhao,M.Gong,H.Fu,andD.Tao,Adaptive context-aware multi-modal network for depth completion,IEEETrans.Image Process.30(2021)5264-5276.”。
方法10(S2D):Ma等人提出的方法,参考文献“F.Ma and S.Karaman,Sparse-to-dense:Depth prediction from sparse depth samples and a single image,in:Proc.IEEE Int.Conf.Robot.Autom.,May 2018,pp.4796-4803.”。
方法11(CSPN):Cheng等人提出的方法,参考文献“X.Cheng,P.Wang,and R.Yang,Depth estimation via affinity learned with convolutional spatial propagationnetwork,in:Proc.European Conf.on Comput.Vis.,2018,pp.108-125.”。
方法12(DeepLiDAR):Qiu等人提出的方法,参考文献“J.Qiu,Z.Cui,Y.Zhang,X.Zhang,S.Liu,B.Zeng,and M.Pollefeys,DeepLiDAR:Deep surface normal guideddepth prediction for outdoor scene from sparse LiDAR data and single colorimage,in:Proc.IEEE Conf.Comput.Vis.Pattern Recognit.,Jun.2019,pp.3313-3322.”。
从表1和表2可以看出(最优的值和排名第二优的值分别用黑色加粗和下划线表示),在大多数情况下,本发明提供方法的客观评价指标值是最优的,修复性能明显优于目前具有代表性的一些深度图像修复方法。
表1在KITTI数据集上的客观评价指标比较
表2在NYUv2数据集上的客观评价指标比较(稀疏深度图像有效像素数分别为200和500)
综上所述,本发明实施例提供一种基于门控循环特征融合的深度图像修复系统及方法,其通过门控循环特征融合模块构成了粗略修复加精细修复的双网络结构,与现有技术相比,具有更强的复杂映射关系学习能力,能够修复出更高质量的密集深度图像。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种基于门控循环特征融合的深度图像修复系统,其特征在于,包括:浅层特征提取模块、门控循环特征融合模块以及空间传播模块;
所述浅层特征提取模块用于从输入的彩色图像和稀疏深度图像中提取浅层特征,并将提取到的浅层特征堆砌为一个统一浅层特征;
所述门控循环特征融合模块包括编码器和解码器;所述编码器包括依次连接的S个尺度的编码单元;所述编码单元包括R个依次连接的残差块;所述解码器包括与所述编码单元对称设置的S个依次连接的解码单元;除第一编码单元对应的第一解码单元包括一个门控循环单元以及与对应门控循环单元连接一个卷积层外,其余解码单元均包括一个门控循环单元以及与对应门控循环单元连接的上采样层;其中,S和R均为大于1的整数;
所述编码器用于根据所述统一浅层特征进行多个尺度的编码,得到各个解码单元中的门控循环单元特征融合时所需的低层次特征;所述解码器用于通过获取到的初始高层次特征从第S个解码单元开始依次解码,得到粗略修复的第一密集深度图像,同时输出第一解码单元中的门控循环单元处理得到的高层次特征;
所述空间传播模块用于根据所述稀疏深度图像、所述第一密集深度图像和所述高层次特征通过迭代更新的方式进行深度图像修正,得到精细修复的第二密集深度图像。
2.根据权利要求1所述的基于门控循环特征融合的深度图像修复系统,其特征在于,所述编码器中前S-1个编码单元的最后一个残差块均进行下采样操作。
3.根据权利要求1所述的基于门控循环特征融合的深度图像修复系统,其特征在于,所述空间传播模块包括一个逐维度注意力模块、一个卷积层和一个空间传播网络;所述逐维度注意力模块包括特征通道注意力单元、特征高度注意力单元、特征宽度注意力单元和一个Concat层;所述特征通道注意力单元用于分析所述高层次特征的通道注意力权重,并将所述通道注意力权重与所述高层次特征进行相乘并输出;所述特征高度注意力单元用于分析所述高层次特征的高度注意力权重,并将所述高度注意力权重与所述高层次特征进行相乘并输出;所述特征宽度注意力单元用于分析所述高层次特征的宽度注意力权重,并将所述宽度注意力权重与所述高层次特征进行相乘并输出;所述逐维度注意力模块中的Concat层用于将三个注意力单元的输出结果堆砌为一个统一特征;所述空间传播模块中的卷积层根据所述统一特征分析得到对应的亲和矩阵;所述空间传播网络以所述稀疏深度图像和所述第一密集深度图像作为输入,并通过亲和矩阵引导邻域像素间的迭代扩散和更新,得到所述第二密集深度图像。
4.根据权利要求3所述的基于门控循环特征融合的深度图像修复系统,其特征在于,所述特征通道注意力单元包括一个全局池化层、一个“1×1卷积层-ReLU层-1×1卷积层-Sigmoid层”组合结构以及一个乘法器”;所述特征高度注意力单元和所述特征宽度注意力单元均包括一个全局池化层、一个“Resize层-1×1卷积层-ReLU层-1×1卷积层-Sigmoid层-Resize层”组合结构以及一个乘法器;所述高层次特征先分别通过所述特征通道注意力单元、所述特征高度注意力单元和所述特征宽度注意力单元中的全局池化层获得对应的一维统计信号;其次,通过对应的组合结构处理得到对应的注意力权重;然后,通过对应的乘法器将对应的注意力权重与所述高层次特征进行逐像素相乘处理;最后,通过Concat层将三个注意力单元的输出堆砌为一个统一特征。
5.根据权利要求1所述的基于门控循环特征融合的深度图像修复系统,其特征在于,所述浅层特征提取模块包括2个n×n卷积层和一个Concat层;其中一个n×n卷积层用于从输入的彩色图像中提取浅层彩色特征,一个n×n卷积层用于从输入的稀疏深度图像中提取浅层稀疏深度特征;所述Concat层用于将所述浅层彩色特征和浅层稀疏深度特征堆砌为一个统一浅层特征。
6.一种基于门控循环特征融合的深度图像修复方法,应用于权利要求1-5任一项所述的基于门控循环特征融合的深度图像修复系统,其特征在于,包括:
S1.获取深度图像修复训练集{Ii,Xi,Yi gt},其中,i表示变量,且1≤i≤N,N表示各类图像的数量;X表示稀疏深度图像;I表示同场景的彩色图像;Ygt表示对应的真实密集深度图像;
S2.通过浅层特征提取模块从输入的彩色图像和稀疏深度图像中提取浅层特征,并将提取到的浅层特征堆砌为一个统一浅层特征;
S3.通过门控循环特征融合模块根据所述统一浅层特征进行处理,得到粗略修复的第一密集深度图像,同时输出第一解码单元中的门控循环单元处理得到的高层次特征;
S4.通过空间传播模块根据所述稀疏深度图像、所述第一密集深度图像和所述高层次特征通过迭代更新的方式进行深度图像修正,得到精细修复的第二密集深度图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210170142.7A CN114529793A (zh) | 2022-02-23 | 2022-02-23 | 一种基于门控循环特征融合的深度图像修复系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210170142.7A CN114529793A (zh) | 2022-02-23 | 2022-02-23 | 一种基于门控循环特征融合的深度图像修复系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114529793A true CN114529793A (zh) | 2022-05-24 |
Family
ID=81624112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210170142.7A Pending CN114529793A (zh) | 2022-02-23 | 2022-02-23 | 一种基于门控循环特征融合的深度图像修复系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114529793A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457367A (zh) * | 2022-09-22 | 2022-12-09 | 淮阴工学院 | 一种基于Light-Net的轻量级目标检测方法及系统 |
CN116563313A (zh) * | 2023-07-11 | 2023-08-08 | 安徽大学 | 基于门控融合注意力的遥感影像大豆种植区域分割方法 |
-
2022
- 2022-02-23 CN CN202210170142.7A patent/CN114529793A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457367A (zh) * | 2022-09-22 | 2022-12-09 | 淮阴工学院 | 一种基于Light-Net的轻量级目标检测方法及系统 |
CN115457367B (zh) * | 2022-09-22 | 2023-09-26 | 淮阴工学院 | 一种基于Light-Net的轻量级目标检测方法及系统 |
CN116563313A (zh) * | 2023-07-11 | 2023-08-08 | 安徽大学 | 基于门控融合注意力的遥感影像大豆种植区域分割方法 |
CN116563313B (zh) * | 2023-07-11 | 2023-09-19 | 安徽大学 | 基于门控融合注意力的遥感影像大豆种植区域分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652321B (zh) | 一种基于改进yolov3算法的海上船舶检测方法 | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN114529793A (zh) | 一种基于门控循环特征融合的深度图像修复系统及方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN115147598B (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN113962858A (zh) | 一种多视角深度获取方法 | |
CN116758130A (zh) | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 | |
CN116363750A (zh) | 人体姿态预测方法、装置、设备及可读存储介质 | |
CN116563682A (zh) | 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法 | |
CN115713462A (zh) | 超分辨模型训练方法、图像识别方法、装置及设备 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN116051984B (zh) | 一种基于Transformer的弱小目标检测方法 | |
CN114937154B (zh) | 一种基于递归解码器的显著性检测方法 | |
CN111814884A (zh) | 一种基于可变形卷积的目标检测网络模型的升级方法 | |
CN116721206A (zh) | 一种实时的室内场景视觉同步定位与建图方法 | |
CN116385281A (zh) | 一种基于真实噪声模型与生成对抗网络的遥感图像去噪方法 | |
CN114663315B (zh) | 基于语义融合生成对抗网络的图像比特增强方法及装置 | |
CN113222016B (zh) | 一种基于高层和低层特征交叉增强的变化检测方法及装置 | |
CN114693951A (zh) | 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 | |
CN116030347B (zh) | 一种基于注意力网络的高分辨率遥感影像建筑物提取方法 | |
CN117237858B (zh) | 一种回环检测方法 | |
CN117576402B (zh) | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 | |
CN117726954B (zh) | 一种遥感图像海陆分割方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |