CN117196981B - 一种基于纹理和结构调和的双向信息流方法 - Google Patents
一种基于纹理和结构调和的双向信息流方法 Download PDFInfo
- Publication number
- CN117196981B CN117196981B CN202311153943.3A CN202311153943A CN117196981B CN 117196981 B CN117196981 B CN 117196981B CN 202311153943 A CN202311153943 A CN 202311153943A CN 117196981 B CN117196981 B CN 117196981B
- Authority
- CN
- China
- Prior art keywords
- texture
- features
- image
- information
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 38
- 230000008439 repair process Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 17
- 238000005728 strengthening Methods 0.000 claims description 15
- 230000003993 interaction Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000008447 perception Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000002156 mixing Methods 0.000 claims description 4
- 101100409194 Rattus norvegicus Ppargc1b gene Proteins 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 210000003128 head Anatomy 0.000 description 14
- 230000010339 dilation Effects 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000007792 addition Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000004817 gas chromatography Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于纹理和结构调和的双向信息流方法,涉及图像修复技术领域。本发明提出一种基于纹理和结构调和的双向信息流方法,该网络对纹理和结构特征赋予不同的权重,通过调和特征权重避免图像重建过程中对纹理或结构特征的单一依赖,使特征相互感知,相互引导以生成在整体上令人信服的填充内容。
Description
技术领域
本发明涉及图像修复技术领域,尤其涉及一种基于纹理和结构调和的双向信息流方法。
背景技术
纹理和结构是图像中的两个重要特征,现实中的图像一般包括复杂的纹理与结构特征,图像修复旨在将待修补区域周围的信息传播填充到修补区域中。或去除不必要的遮挡物体,利用图像可见部分生成在结构和纹理上与可见部分保持一致的填充内容,使修复后的图像接近或达到原图的视觉效果。
传统方法大多是基于像素插值、扩散和填充等从图像浅层特征出发修复缺失区域。然而,在遇到图像中复杂纹理和结构特征缺失时,传统方法无法重建出合理的内容。近年来,深度学习方法从更高的语义级别出发,处理复杂的纹理特征和重建缺失区域,能够生成视觉效果逼真的填充内容。因此,基于GANs[1]和VAE[2]的方法在图像修复中越来越受欢迎。
虽然深度学习方法可以为缺失区域重建出合理的纹理和结构,但也存在缺损区域填充内容上下文语义不一致、纹理衔接不自然等问题。其中的一个重要原因在于现有的深度学习方法大都属于纯纹理方法,图像的修复依赖已知的纹理信息,忽略了轮廓、边缘等结构性特征及其指导作用,而结构特征的缺失可能会导致合理的纹理无法恢复或恢复效果不佳。例如,在人脸图像修复任务中,面部特征(如眼睛、鼻子、嘴巴等)是重要的纹理信息,而面部轮廓是非常重要的结构信息。如果修复网络无法准确地恢复这些结构信息,则会导致重建的人脸图像五官特征扭曲或不符合上下文语意。对此,本发明提出一种基于纹理和结构调和的双向信息流方法,该网络对纹理和结构特征赋予不同的权重,通过调和特征权重避免图像重建过程中对纹理或结构特征的单一依赖,使特征相互感知,相互引导以生成在整体上令人信服的填充内容。
发明内容
为了解决上述技术问题,本发明提出一种基于纹理和结构调和的双向信息流方法,该网络对纹理和结构特征赋予不同的权重,通过调和特征权重避免图像重建过程中对纹理或结构特征的单一依赖,使特征相互感知,相互引导以生成在整体上令人信服的填充内容。
一种基于纹理和结构调和的双向信息流方法,包括以下步骤,
S1:通过融合图像的纹理和结构特征,对孔洞图像完成合理重建,首先,对孔洞图像进行编码,提取出浅层特征和深层特征,编码层将输入图像映射为高维特征,来捕捉图像中的结构、纹理等重要信息,编码层的浅层可以提取到图像的低级特征,如边缘、纹理等图像细节,为了平衡纹理和结构特征,还加入了纹理-结构调和模块,避免图像修复结果过度平滑或过度锐化,其中浅层特征为纹理特征,深层特征为结构特征;
S2:设置双向信息流模块用于交互纹理和结构特征,该模块使用双向结构,来解决单一架构对特征交互不足的问题,该模块可以更充分地交互纹理和结构信息,增强纹理和结构特征的全局相关性,使生成的图像保持整体一致且有合理的语义信息,并在每路中使用Transformer编码层对纹理和结构信息进行交互传播;
S3:双向信息流模块使用Transformer编码层使纹理和结构信息相互感知并加入细节强化模块,将编码中的最后一层细节特征引入到双向信息流模块中;
S4:在解码层设计并嵌入多核注意力模块,该模块使用了不同扩张率的扩张卷积来获得不同感受野的特征,并通过级联多个注意力将不同尺度特征进行集成,集成后的模块可以根据不同尺度特征的重要性,动态调整不同特征之间的权重,在一定程度上提高了模型对于图像中各尺度信息的感知能力,使模型能够聚焦于图像的全局结构和局部纹理信息,为了让解码层能够学习到远距离的特征,联系上下文信息,分别在多尺度融合模块中引入最初提取到的纹理和结构特征,其中,二个模块中分别引入纹理特征和结构特征;
S5:引入像素重建损失、感知损失、风格损失和对抗损失来达到期望的修复效果。
2、根据权利要求1所述的一种基于纹理和结构调和的双向信息流方法,其特征在于,步骤1中的纹理-结构调和模块的具体情况如下,首先将纹理和结构特征连接,在通道上增加特征信息,利用卷积操作对特征在通道上进行降维,并通过Sigmoid软门控进一步细化特征,对纹理和结构特征中的关键像素加权表示,进而提取到更准确和重要的语义信息。通过软门控可以反映出纹理和结构特征的重要程度,公式如下所示:
G=σ(conυ(concat(Ft,Fs))) (1)
其中,G为软门控特征值,concat(.)是通道拼接操作,conv(.)是卷积核大小为1的卷积操作,σ(.)是Sigmoid函数。将G分别与纹理和结构特征逐元素相乘,赋予特征相应的权重,并将细化后的特征按通道连接,公式如下所示:
其中,F为按通道连接的特征图,表示逐元素相乘操作,对编码器的浅层特征融合得到纹理特征记为Ft,深层特征融合得到结构特征记为Fs,
利用最大池化操作对F进行尺寸降维,通过全连接操作把纹理和结构特征映射到更高维度的特征空间,从而捕捉到复杂特征,并通过Softmax调和门控机制衡量纹理和结构特征的重要性,
通过特征调和门控计算图像中纹理和结构特征的权重:
Gs,Gt=chunk(soft(mlp(maxp(F)))) (3)
其中,Gs和Gt分别为纹理和结构特征的门控,maxp是最大池化,mlp是全连接层,soft是Softmax函数,chunk表示特征通道的维度分割,最后,我们通过调和特征权重Gs和Gt,赋予Ft和Fs不同的通道权重:
F′t=GtFt (4)
F′s=GsFs (5)
其中,F't和F's分别表示为调和后的纹理和结构特征。
3、根据权利要求1所述的一种基于纹理和结构调和的双向信息流方法,其特征在于,步骤2中还包括使用多头注意力,捕捉不同级别的语义信息,来增强模型对于不同特征的关注度,也可使模型学习到更加多样化和复杂的特征,在多头注意力机制中,输入数据会被分成多个头,将每个头独立计算的结果拼接在一起:
MHA(Q,K,V)=concat(head1,head2,…,headi)L (6)
其中,Q、K和V分别表示查询向量(Query)、键向量(Key)和值向量(Value),MHA(.)表示多头注意力,i表示头的数量,在本文中i的值设置为8,headi表示第i个头的输出,L为线性变换矩阵。headi可以表示为:
其中,WQ i、WK i和WV i分别表示第i个头Q、K、V使用的线性变阵矩阵,Attention表示注意力计算函数,如下式所示:
其中,dk是Q、K矩阵的向量的维度,sm为Softmax函数,用于计算特征之间的相似度权重,然后将权重系数与V相乘得到注意力输出。
在第一层编码器中交换纹理和结构特征并加入位置编码,通过计算Q和K可以全面捕捉到纹理和结构特征之间的相关性,并在两种特征之间交互信息。纹理感知结构特征F1 t&s的公式表达式为:
其中,Ft为加入位置编码的纹理特征,Fs为加入位置编码的结构特征。并且引入残差连接,用于解决多层网络训练的问题。对称的结构感知纹理特征F1 s&t的公式表达式为:
在第二层编码器中引入细节强化特征,来弥补特征交互过程中丢失的细节信息,进一步细化纹理和结构特征。细化后的纹理特征F2 t&s的公式表达式为:
其中,h为细节特征。相应的,细化后的结构特征F2 s&t的公式表达式为:
在第三层编码器中对特征建立全局性的关联,使交互后的纹理和结构特征有长程依赖关系;
其中,纹理感知结构的特征F3 t&s的公式表达式为:
相应的,结构感知纹理特征F3 s&t的公式表达式为:
最后,我们按通道融合F3 t&s、F3 s&t和h',来获得综合特征图Fz:
其中,concat(.)为通道拼接操作,h'为最后输出的细节特征。
4、根据权利要求1所述的一种基于纹理和结构调和的双向信息流方法,其特征在于,步骤3中在双向信息流模块的第二层引入细节强化模块,用细节特征来强化交互后的纹理和结构特征,并将编码层输出的纹理特征记为t,结构特征记为s,使用软门控单元控制纹理信息集成度;
其中,细节强化模块将纹理特征和细节特征按通道连接,在通道级上增加特征的信息量,再通过卷积操作对连接后的特征降维,并通过Sigmoid函数对特征的重要性进行衡量,然后将门控值和细节特征逐元素相乘,赋予结构特征相应的权重,来选取细节特征中更关键的语义信息,最后,将细化后的特征与纹理特征进行通道连接,并通过Tanh软门控来反映特征局部区域的重要性,两个级联软门控h′t的表达式如下所示:
h′t=tanh(concat(w(σ(w(concat(t,h)))⊙h),s)) (16)
其中,concat(.)是通道拼接操作,ω(.)是卷积核大小为1的卷积操作,σ(.)是Sigmoid函数,tanh(.)是Tanh激活函数,⊙表示逐元素相乘,h表示细节特征,t表示纹理信息,相应地,结构细节强化特征的集成门控h's表达式如下所示:
h′s=tanh(concat(w(σ(w(concat(s,h)))⊙h),s)) (17)
s表示结构信息,最后,我们通过合并h't和h's更新得到细节强化特征:
其中,表示逐元素相加,CS表示余弦相似度计算,通过衡量两个向量之间夹角的余弦值,计算纹理和结构的相似度,表达式如下所示:
余弦相似度的取值范围是-1到1,其中1表示完全相似,-1表示完全相反,0表示无相关性。
5、根据权利要求1所述的一种基于纹理和结构调和的双向信息流方法,其特征在于,步骤4中多核注意力模块采用三个卷积核大小为3的扩张卷积,其中扩张率分别设置为1、2和3,通过注意力模型依次调节不同尺度特征的信息关注度,将其结果分别记为注意力1,注意力2和注意力3,在通道上将特征连接并通过卷积操作降维,将不同卷积核的特征融合在一起记为F',同时通过软门控来反映远距离信息局部区域的重要程度,输出Fd如下所示:
其中,表示逐元素乘法,σ是Sigmoid函数。Fl在第一个多核注意力中表示纹理信息,在第二个多核注意力中表示结构信息,最后,通过融合F、Fd和F′得到集成特征Fz,如下式所示:
其中,表示逐元素加法。
6、根据权利要求1所述的一种基于纹理和结构调和的双向信息流方法,其特征在于,重建损失被用于计算生成图像和真实图像之间的差异,损失函数表达式如下所示:
其中,Lhole表示孔洞区域内的重建损失,Lvalid表示非孔洞区域内的重建损失。Pgt _hole表示孔洞区域内的真实图像,Ppred_hole表示孔洞区域内的预测图像,Pgt_valid表示非孔洞区域内的真实图像,Ppred_valid表示非孔洞区域内的预测图像,i分别对应图像64×64,128×128和256×256三个尺度,
感知损失使用在ImageNet上预训练的VGG-16网络作为特征提取器,提取生成网络中的特征表示,通过计算这些特征之间的差异来度量生成图像与目标图像之间的感知损失,感知损失Lperc定义如下:
其中,φi(.)表示图像在预训练好的VGG-16网络中的第i层特征,φgt i表示真实图像的特征,φpred i表示预测图像的特征;
对抗损失函数采用LSGAN方法,对抗损失定义如下:
其中,LD表示判别器对抗损失,LG表示生成器对抗损失;D表示判别器;EIgt表示真实图像的概率密度函数,EIpred表示预测图像的概率密度函数;Igt表示真实图像,Ipred表示预测图像;
风格损失可以使修复区域与周围环境在风格上融合,提高修复结果的自然度,风格损失Lstyle定义如下:
其中,ψgt i表示真实图像,ψpred i表示预测图像;ψi(.)表示Gram矩阵,Gram矩阵用于量化图像特征表示中的风格信息,通过比较Gram矩阵之间的差异来度量图像之间的风格差异;
综上所述,网络的总损失Loverall为:
Loverall=λholeLhole+λvalidLvalid+λpercLperc+λstyleLstyle+λgLG+λdLD (28)
其中λhole、λvalid、λprec、λstyle、λg、λd为平衡因子。
采用上述技术方案所产生的有益效果在于:
(1).纹理和结构调和模块赋予图像中纹理和结构特征不同的权重,使修复结果既能保留图像的纹理特征,又能突出图像的整体结构特征。
(2).使用双向信息流模块,在全局上交互调和后的结构和纹理特征,使生成的图像在整体上保持一致,避免了因为纹理和结构特征不一致而产生的伪影,此外,引入细节强化模块来弥补双向信息流模块交互过程中丢失的细节信息。
(3).使用多核注意力模块对不同感受野捕获的特征信息进行融合,通过长期空间依赖关系产生合理的上下文信息,以获得更精确的图像修复结果。
附图说明
图1为本发明的一种基于纹理和结构调和的双向信息流方法流程图;
图2为本发明的细节强化模块示意图;
图3为本发明的多核注意力模块示意图;
图4为本发明的六种图像修复方法的视觉效果对比图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于
说明本发明,但不用来限制本发明的范围。
本发明技术方案调和纹理和结构的双向信息流图像修复方法流程如图1所示。
图像修复网络实现步骤如下:
(1)如图1所示,通过融合图像的纹理和结构特征,对孔洞图像完成合理重建。首先,对孔洞图像进行编码,提取出浅层特征(纹理特征)和深层特征(结构特征)。编码层将输入图像映射为高维特征,来捕捉图像中的结构、纹理等重要信息。编码层的浅层可以提取到图像的低级特征,如边缘、纹理等图像细节。深层可以学习到更抽象和更高级的特征。为了平衡纹理和结构特征,我们加入了纹理-结构调和模块,避免图像修复结果过度平滑或过度锐化。在该模块中首先将纹理和结构特征连接,在通道上增加特征信息,利用卷积操作对特征在通道上进行降维,并通过Sigmoid软门控进一步细化特征,对纹理和结构特征中的关键像素加权表示,进而提取到更准确和重要的语义信息。通过软门控可以反映出纹理和结构特征的重要程度,公式如下所示:
G=σ(conυ(concat(Ft,Fs))) (1)
其中,G为软门控特征值,concat(.)是通道拼接操作,conv(.)是卷积核大小为1的卷积操作,σ(.)是Sigmoid函数。将G分别与纹理和结构特征逐元素相乘,赋予特征相应的权重,并将细化后的特征按通道连接,公式如下所示:
其中,F为按通道连接的特征图,表示逐元素相乘操作,对编码器的浅层特征融合得到纹理特征记为Ft,深层特征融合得到结构特征记为Fs。利用最大池化操作对F进行尺寸降维,通过全连接操作把纹理和结构特征映射到更高维度的特征空间,从而捕捉到复杂特征,并通过Softmax调和门控机制衡量纹理和结构特征的重要性。通过特征调和门控计算图像中纹理和结构特征的权重:
Gs,Gt=chunk(soft(mlp(maxp(F)))) (3)
其中,Gs和Gt分别为纹理和结构特征的门控,maxp是最大池化,mlp是全连接层,soft是Softmax函数,chunk表示特征通道的维度分割。最后,我们通过调和特征权重Gs和Gt,赋予Ft和Fs不同的通道权重:
F′t=GtFt (4)
F′s=GsFs (5)
其中,F't和F's分别表示为调和后的纹理和结构特征。
(2)如图1所示,设置双向信息流模块用于交互纹理和结构特征。该模块使用双向结构,来解决单一架构对特征交互不足的问题。该模块可以更充分地交互纹理和结构信息,增强纹理和结构特征的全局相关性,使生成的图像保持整体一致且有合理的语义信息。每路中使用Transformer编码层对纹理和结构信息进行交互传播。其中,我们使用多头注意力,捕捉不同级别的语义信息,来增强模型对于不同特征的关注度,也可使模型学习到更加多样化和复杂的特征。在多头注意力机制中,输入数据会被分成多个头,将每个头独立计算的结果拼接在一起:
MHA(Q,K,V)=concat(head1,head2,…,headi)L (6)
其中,Q、K和V分别表示查询向量(Query)、键向量(Key)和值向量(Value),MHA(.)表示多头注意力,i表示头的数量,在本文中i的值设置为8,headi表示第i个头的输出,L为线性变换矩阵。headi可以表示为:
其中,WQ i、WK i和WV i分别表示第i个头Q、K、V使用的线性变阵矩阵,Attention表示注意力计算函数,如下式所示:
其中,dk是Q、K矩阵的向量的维度,sm为Softmax函数,用于计算特征之间的相似度权重,然后将权重系数与V相乘得到注意力输出。
在第一层编码器中交换纹理和结构特征并加入位置编码,通过计算Q和K可以全面捕捉到纹理和结构特征之间的相关性,并在两种特征之间交互信息。纹理感知结构特征F1 t&s的公式表达式为:
其中,Ft为加入位置编码的纹理特征,Fs为加入位置编码的结构特征。并且引入残差连接,用于解决多层网络训练的问题。对称的结构感知纹理特征F1 s&t的公式表达式为:
在第二层编码器中引入细节强化特征,来弥补特征交互过程中丢失的细节信息,进一步细化纹理和结构特征。细化后的纹理特征F2 t&s的公式表达式为:
其中,h为细节特征。相应的,细化后的结构特征F2 s&t的公式表达式为:
在第三层编码器中对特征建立全局性的关联,使交互后的纹理和结构特征有长程依赖关系。其中,纹理感知结构的特征F3 t&s的公式表达式为:
相应的,结构感知纹理特征F3 s&t的公式表达式为:
最后,我们按通道融合F3 t&s、F3 s&t和h',来获得综合特征图Fz:
其中,concat(.)为通道拼接操作,h'为最后输出的细节特征。在下一节中,我们将详细介绍细节强化模块。
(3)如图2所示,双向信息流模块使用Transformer编码层使纹理和结构信息相互感知。由于自注意力机制更关注全局信息,忽略局部细节特征。在融合过程中有可能丢失纹理和结构特征的位置信息。为了解决上述问题,本发明设计并加入细节强化模块,将编码中的最后一层细节特征引入到双向信息流模块中。
我们在双向信息流模块的第二层引入细节强化模块,用细节特征来强化交互后的纹理和结构特征,并将编码层输出的纹理特征记为t,结构特征记为s。为了强化纹理细节特征,我们使用软门控单元控制纹理信息集成度。该模块将纹理特征和细节特征按通道连接,在通道级上增加特征的信息量。再通过卷积操作对连接后的特征降维,并通过Sigmoid函数对特征的重要性进行衡量。然后将门控值和细节特征逐元素相乘,赋予结构特征相应的权重,来选取细节特征中更关键的语义信息。最后,将细化后的特征与纹理特征进行通道连接,并通过Tanh软门控来反映特征局部区域的重要性。两个级联软门控h′t的表达式如下所示:
h′t=tanh(concat(w(σ(w(concat(t,h)))⊙h),t)) (16)
其中,concat(.)是通道拼接操作,ω(.)是卷积核大小为1的卷积操作,σ(.)是Sigmoid函数,tanh(.)是Tanh激活函数,⊙表示逐元素相乘,h表示细节特征,t表示纹理信息。相应地,结构细节强化特征的集成门控h's表达式如下所示:
h′s=tanh(concat(w(σ(w(concat(s,h)))⊙h),s)) (17)
s表示结构信息,最后,我们通过合并h't和h's更新得到细节强化特征:
其中,表示逐元素相加。CS表示余弦相似度计算,通过衡量两个向量之间夹角的余弦值,计算纹理和结构的相似度。表达式如下所示:
余弦相似度的取值范围是-1到1,其中1表示完全相似,-1表示完全相反,0表示无相关性。一般来说,当余弦相似度接近1时,表示两个向量的方向基本一致,具有很高的相似性;当接近-1时,表示两个向量的方向基本相反;当接近0时,表示它们之间没有明显的相关性。
(4)如图3所示,在解码层设计并嵌入多核注意力模块,将不同感受野的特征聚合在一起,并引入最初提取到的纹理和结构特征,来获得更全局和更丰富的上下文信息,帮助修复网络更好地理解图像的整体结构、语义和上下文关系,从而产生更准确和自然的修复结果。该模块使用了不同扩张率的扩张卷积来获得不同感受野的特征。与传统卷积相比,膨胀卷积在不改变参数个数的情况下增大了卷积核的感受野,输出的特征包含了较大范围的信息。但是膨胀卷积破坏了信息的连续性,会导致像素级特征的信息丢失。所以我们通过级联多个注意力将不同尺度特征进行集成,集成后的模块可以根据不同尺度特征的重要性,动态调整不同特征之间的权重,在一定程度上提高了模型对于图像中各尺度信息的感知能力,使模型能够聚焦于图像的全局结构和局部纹理信息。此外,为了让解码层能够学习到远距离的特征,联系上下文信息,我们分别在多尺度融合模块中引入最初提取到的纹理和结构特征。在图1的解码部分中,我们在第一个多核注意力模块中引入纹理特征,在第二个模块中引入结构特征。
在该模块的设计上,我们使用三个卷积核大小为3的扩张卷积,其中扩张率分别设置为1、2和3。通过注意力模型依次调节不同尺度特征的信息关注度,将其结果分别记为注意力1,注意力2和注意力3,在通道上将特征连接并通过卷积操作降维,将不同卷积核的特征融合在一起记为F'。同时通过软门控来反映远距离信息局部区域的重要程度,输出Fd如下所示:
其中,表示逐元素乘法,σ是Sigmoid函数。Fl在第一个多核注意力中表示纹理信息,在第二个多核注意力中表示结构信息。最后,通过融合F、Fd和F′得到集成特征Fz,如下式所示:
其中,表示逐元素加法。
(5)我们引入像素重建损失、感知损失、风格损失和对抗损失来达到期望的修复效果。重建损失被用于计算生成图像和真实图像之间的差异,损失函数表达式如下所示:
其中,Lhole表示孔洞区域内的重建损失,Lvalid表示非孔洞区域内的重建损失。Pgt _hole表示孔洞区域内的真实图像,Ppred_hole表示孔洞区域内的预测图像,Pgt_valid表示非孔洞区域内的真实图像,Ppred_valid表示非孔洞区域内的预测图像,i分别对应图像64×64,128×128和256×256三个尺度。
感知损失使用在ImageNet上预训练的VGG-16网络作为特征提取器,提取生成网络中的特征表示,通过计算这些特征之间的差异来度量生成图像与目标图像之间的感知损失。感知损失Lperc定义如下:
其中,φi(.)表示图像在预训练好的VGG-16网络中的第i层特征,φgt i表示真实图像的特征,φpred i表示预测图像的特征。
对抗损失函数我们采用LSGAN方法。相比于传统GAN网络的对抗损失设置,该方法可以使生成器产生更真实的结果,对抗损失定义如下:
其中,LD表示判别器对抗损失,LG表示生成器对抗损失;D表示判别器;EIgt表示真实图像的概率密度函数,EIpred表示预测图像的概率密度函数;Igt表示真实图像,Ipred表示预测图像。
风格损失可以使修复区域与周围环境在风格上融合,提高修复结果的自然度。风格损失Lstyle定义如下:
其中,ψgt i表示真实图像,ψpred i表示预测图像;ψi(.)表示Gram矩阵,Gram矩阵用于量化图像特征表示中的风格信息,通过比较Gram矩阵之间的差异来度量图像之间的风格差异。综上所述,网络的总损失Loverall为:
Loverall=λholeLhole+λvalidLvalid+λpercLperc+λstyleLstyle+λgLG+λdLD (28)
其中λhole、λvalid、λprec、λstyle、λg、λd为平衡因子。
根据以上内容,本发明实验采用的图像全部来自CelebA-HQ数据集。
根据掩码图区域的占比率,我们将测试掩码分为6种,分别是1-10%,10-20%,20-30%,30-40%,40-50%和50-60%,通过与其他五种具有代表性的算法比较,验证本发明方法的有效性。这五种对比算法包括GC算法、PIC算法、MEDFE算法、RFR算法、MADF算法,图像质量评价采用了图像修复任务中的几种常见指标:L1误差、峰值信噪比(PSNR)、结构相似性(SSIM)、弗雷歇特距离(FID)和学习感知图像块相似度(LPIPS),CelebA-HQ数据集的实验结果如表1所示。
表1:CelebA-HQ数据集验结果对比
/>
从表1的实验数据可以看出,在不同缺失率的图像中,本发明方法在L1、PSNR、SSIM、FID和LPIPS这五种评价指标的数据上虽然没有完全优于其他方法,但综合结果优于其他算法。这表明了本方法修复图像在结构和纹理上与原始图像更相似,图像分布与真实图像更相似,生成图像质量较高且多样性较好。
图4给出了六种图像修复方法的视觉效果对比图,实验图库为CelebA-HQ数据集。其中,第一列图像为原始图像;第二列图像为缺损图像;第三列图像为MADF算法得到的修复图像;第四列图像为MEDFE算法得到的修复图像;第五列图像为RFR算法得到的修复图像;第六列图像为PIC算法得到的修复图像;第七列图像为GC算法得到的修复图像;第八列图像为本发明方法得到的修复图像。
MADF方法在处理较大缺失区域时存在纹理模糊,上下文语义不一致的问题。MEDFE方法虽然考虑了上下文信息和特征均衡,但在面对关键结构缺失时,其修复结果出现了较大的像素块,无法提供高质量的修复图像。RFR方法存在人物脸部特征不合理且模糊的问题。PIC方法修复结果一部分被覆盖或失真。GC方法重建图像与真实值之间存在一定误差。综上分析,本发明方法可以重建出高分辨率的逼真图像,且图像的上下文语义保持一致,符合人眼视觉特性。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明,本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案,例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (5)
1.一种基于纹理和结构调和的双向信息流方法,其特征在于,包括以下步骤,
S1:通过融合图像的纹理和结构特征,对孔洞图像完成合理重建,首先,对孔洞图像进行编码,提取出浅层特征和深层特征,编码层将输入图像映射为高维特征,来捕捉图像中的结构、纹理等重要信息,编码层的浅层可以提取到图像的低级特征,如边缘、纹理等图像细节,为了平衡纹理和结构特征,还加入了纹理-结构调和模块,避免图像修复结果过度平滑或过度锐化,其中浅层特征为纹理特征,深层特征为结构特征;
纹理-结构调和模块的具体情况如下,首先将纹理和结构特征连接,在通道上增加特征信息,利用卷积操作对特征在通道上进行降维,并通过Sigmoid软门控进一步细化特征,对纹理和结构特征中的关键像素加权表示,进而提取到更准确和重要的语义信息;通过软门控可以反映出纹理和结构特征的重要程度,公式如下所示:
G=σ(conυ(concat(Ft,Fs))) (1)
其中,G为软门控特征值,concat(.)是通道拼接操作,cony(.)是卷积核大小为1的卷积操作,σ(.)是Sigmoid函数,将G分别与纹理和结构特征逐元素相乘,赋予特征相应的权重,并将细化后的特征按通道连接,公式如下所示:
其中,F为按通道连接的特征图,表示逐元素相乘操作,对编码器的浅层特征融合得到纹理特征记为Ft,深层特征融合得到结构特征记为Fs,
利用最大池化操作对F进行尺寸降维,通过全连接操作把纹理和结构特征映射到更高维度的特征空间,从而捕捉到复杂特征,并通过Softmax调和门控机制衡量纹理和结构特征的重要性,
通过特征调和门控计算图像中纹理和结构特征的权重:
Gs,Gt=chunk(soft(mlp(maxp(F)))) (3)
其中,Gs和Gt分别为纹理和结构特征的门控,maxp是最大池化,mlp是全连接层,soft是Softmax函数,chunk表示特征通道的维度分割,最后,我们通过调和特征权重Gs和Gt,赋予Ft和Fs不同的通道权重:
F′t=GtFt (4)
F′s=GsFs (5)
其中,F′t和F′s分别表示为调和后的纹理和结构特征;
S2:设置双向信息流模块用于交互纹理和结构特征,该模块使用双向结构,来解决单一架构对特征交互不足的问题,该模块可以更充分地交互纹理和结构信息,增强纹理和结构特征的全局相关性,使生成的图像保持整体一致且有合理的语义信息,并在每路中使用Transformer编码层对纹理和结构信息进行交互传播;
S3:双向信息流模块使用Transformer编码层使纹理和结构信息相互感知并加入细节强化模块,将编码中的最后一层细节特征引入到双向信息流模块中;
S4:在解码层设计并嵌入多核注意力模块,该模块使用了不同扩张率的扩张卷积来获得不同感受野的特征,并通过级联多个注意力将不同尺度特征进行集成,集成后的模块可以根据不同尺度特征的重要性,动态调整不同特征之间的权重,在一定程度上提高了模型对于图像中各尺度信息的感知能力,使模型能够聚焦于图像的全局结构和局部纹理信息,为了让解码层能够学习到远距离的特征,联系上下文信息,分别在多尺度融合模块中引入最初提取到的纹理和结构特征,其中,二个模块中分别引入纹理特征和结构特征;
S5:引入像素重建损失、感知损失、风格损失和对抗损失来达到期望的修复效果。
2.根据权利要求1所述的一种基于纹理和结构调和的双向信息流方法,其特征在于,步骤2中还包括使用多头注意力,捕捉不同级别的语义信息,来增强模型对于不同特征的关注度,也可使模型学习到更加多样化和复杂的特征,在多头注意力机制中,输入数据会被分成多个头,将每个头独立计算的结果拼接在一起:
MHA(Q,K,V)=concat(head1,head2,…,headi)L (6)
其中,Q、K和V分别表示查询向量、键向量和值向量,MHA(.)表示多头注意力,i表示头的数量,在本文中i的值设置为8,headi表示第i个头的输出,L为线性变换矩阵;headi可以表示为:
其中,WQ i、WK i和WV i分别表示第i个头Q、K、V使用的线性变阵矩阵,Attention表示注意力计算函数,如下式所示:
其中,dk是Q、K矩阵的向量的维度,sm为Softmax函数,用于计算特征之间的相似度权重,然后将权重系数与V相乘得到注意力输出;
在第一层编码器中交换纹理和结构特征并加入位置编码,通过计算Q和K可以全面捕捉到纹理和结构特征之间的相关性,并在两种特征之间交互信息;纹理感知结构特征F1 t&s的公式表达式为:
其中,Ft 1为加入位置编码的纹理特征,Fs 2为加入位置编码的结构特征,并且引入残差连接,用于解决多层网络训练的问题;对称的结构感知纹理特征F1 s&t的公式表达式为:
在第二层编码器中引入细节强化特征,来弥补特征交互过程中丢失的细节信息,进一步细化纹理和结构特征;细化后的纹理特征F2 t&s的公式表达式为:
其中,h为细节特征,相应的,细化后的结构特征F2 s&t的公式表达式为:
在第三层编码器中对特征建立全局性的关联,使交互后的纹理和结构特征有长程依赖关系;
其中,纹理感知结构的特征F3 t&s的公式表达式为:
相应的,结构感知纹理特征F3 s&t的公式表达式为:
最后,我们按通道融合F3 t&s、F3 s&t和h′,来获得综合特征图Fz:
其中,concat(.)为通道拼接操作,h′为最后输出的细节特征。
3.根据权利要求1所述的一种基于纹理和结构调和的双向信息流方法,其特征在于,步骤3中在双向信息流模块的第二层引入细节强化模块,用细节特征来强化交互后的纹理和结构特征,并将编码层输出的纹理特征记为t,结构特征记为s,使用软门控单元控制纹理信息集成度;
其中,细节强化模块将纹理特征和细节特征按通道连接,在通道级上增加特征的信息量,再通过卷积操作对连接后的特征降维,并通过Sigmoid函数对特征的重要性进行衡量,然后将门控值和细节特征逐元素相乘,赋予结构特征相应的权重,来选取细节特征中更关键的语义信息,最后,将细化后的特征与纹理特征进行通道连接,并通过Tanh软门控来反映特征局部区域的重要性,两个级联软门控h′t的表达式如下所示:
h′t=tanh(concat(w(σ(w(concat(t,h)))⊙h),t)) (16)
其中,concat(.)是通道拼接操作,ω(.)是卷积核大小为1的卷积操作,σ(.)是Sigmoid函数,tanh(.)是Tanh激活函数,⊙表示逐元素相乘,h表示细节特征,t表示纹理信息,相应地,结构细节强化特征的集成门控h′s表达式如下所示:
h′s=tanh(concat(w(σ(w(concat(s,h)))⊙h),s)) (17)
s表示结构信息,最后,我们通过合并h′t和h′s更新得到细节强化特征:
其中,表示逐元素相加,CS表示余弦相似度计算,通过衡量两个向量之间夹角的余弦值,计算纹理和结构的相似度,表达式如下所示:
余弦相似度的取值范围是-1到1,其中1表示完全相似,-1表示完全相反,0表示无相关性。
4.根据权利要求1所述的一种基于纹理和结构调和的双向信息流方法,其特征在于,步骤4中多核注意力模块采用三个卷积核大小为3的扩张卷积,其中扩张率分别设置为1、2和3,通过注意力模型依次调节不同尺度特征的信息关注度,将其结果分别记为注意力1,注意力2和注意力3,在通道上将特征连接并通过卷积操作降维,将不同卷积核的特征融合在一起记为F',同时通过软门控来反映远距离信息局部区域的重要程度,输出Fd如下所示:
其中,表示逐元素乘法,σ是Sigmoid函数,Fl在第一个多核注意力中表示纹理信息,在第二个多核注意力中表示结构信息,最后,通过融合F、Fd和F′得到集成特征Fz,如下式所示:
其中,表示逐元素加法。
5.根据权利要求1所述的一种基于纹理和结构调和的双向信息流方法,其特征在于,重建损失被用于计算生成图像和真实图像之间的差异,损失函数表达式如下所示:
其中,Lhole表示孔洞区域内的重建损失,Lvalid表示非孔洞区域内的重建损失,Pgt_hole表示孔洞区域内的真实图像,Ppred_hole表示孔洞区域内的预测图像,Pgt_valid表示非孔洞区域内的真实图像,Ppred_valid表示非孔洞区域内的预测图像,i分别对应图像64×64,128×128和256×256三个尺度,
感知损失使用在ImageNet上预训练的VGG-16网络作为特征提取器,提取生成网络中的特征表示,通过计算这些特征之间的差异来度量生成图像与目标图像之间的感知损失,感知损失Lperc定义如下:
其中,φi(.)表示图像在预训练好的VGG-16网络中的第i层特征,φgt i表示真实图像的特征,φpred i表示预测图像的特征;
对抗损失函数采用LSGAN方法,对抗损失定义如下:
其中,LD表示判别器对抗损失,LG表示生成器对抗损失;D表示判别器;EIgt表示真实图像的概率密度函数,EIpred表示预测图像的概率密度函数;Igt表示真实图像,Ipred表示预测图像;
风格损失可以使修复区域与周围环境在风格上融合,提高修复结果的自然度,风格损失Lstyle定义如下:
其中,ψgt i表示真实图像,ψpred i表示预测图像;ψi(.)表示Gram矩阵,Gram矩阵用于量化图像特征表示中的风格信息,通过比较Gram矩阵之间的差异来度量图像之间的风格差异;
综上所述,网络的总损失Loverall为:
Loverall=λholeLhole+λvalidLvalid+λpercLperc+λstyleLstyle+λgLG+λdLD (28)
其中λhole、λvalid、λprec、λstyle、λg、λd为平衡因子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311153943.3A CN117196981B (zh) | 2023-09-08 | 2023-09-08 | 一种基于纹理和结构调和的双向信息流方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311153943.3A CN117196981B (zh) | 2023-09-08 | 2023-09-08 | 一种基于纹理和结构调和的双向信息流方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117196981A CN117196981A (zh) | 2023-12-08 |
CN117196981B true CN117196981B (zh) | 2024-04-26 |
Family
ID=88986414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311153943.3A Active CN117196981B (zh) | 2023-09-08 | 2023-09-08 | 一种基于纹理和结构调和的双向信息流方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117196981B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365422A (zh) * | 2020-11-17 | 2021-02-12 | 重庆邮电大学 | 基于深层聚合网络的不规则缺失图像修复方法及其系统 |
CN113240613A (zh) * | 2021-06-07 | 2021-08-10 | 北京航空航天大学 | 一种基于边缘信息重建的图像修复方法 |
WO2021208247A1 (zh) * | 2020-04-17 | 2021-10-21 | 北京大学 | 一种视频图像的拟态压缩方法、装置、存储介质及终端 |
CN114463209A (zh) * | 2022-01-25 | 2022-05-10 | 广州大学 | 一种基于深度多特征协同学习的图像修复方法 |
CN114627006A (zh) * | 2022-02-28 | 2022-06-14 | 复旦大学 | 一种基于深度解耦网络的渐进式图像修复方法 |
WO2022121031A1 (zh) * | 2020-12-10 | 2022-06-16 | 广州广电运通金融电子股份有限公司 | 基于部分卷积和掩膜更新的指静脉图像修复方法 |
CN114897742A (zh) * | 2022-06-10 | 2022-08-12 | 重庆师范大学 | 一种纹理和结构特征两次融合的图像修复方法 |
CN115619685A (zh) * | 2022-11-08 | 2023-01-17 | 广州大学 | 一种用于图像修复的追踪结构的Transformer方法 |
WO2023069086A1 (en) * | 2021-10-20 | 2023-04-27 | Innopeak Technology, Inc. | System and method for dynamic portrait relighting |
CN116523985A (zh) * | 2023-05-06 | 2023-08-01 | 兰州交通大学 | 一种结构和纹理特征引导的双编码器图像修复方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7755645B2 (en) * | 2007-03-29 | 2010-07-13 | Microsoft Corporation | Object-based image inpainting |
-
2023
- 2023-09-08 CN CN202311153943.3A patent/CN117196981B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021208247A1 (zh) * | 2020-04-17 | 2021-10-21 | 北京大学 | 一种视频图像的拟态压缩方法、装置、存储介质及终端 |
CN112365422A (zh) * | 2020-11-17 | 2021-02-12 | 重庆邮电大学 | 基于深层聚合网络的不规则缺失图像修复方法及其系统 |
WO2022121031A1 (zh) * | 2020-12-10 | 2022-06-16 | 广州广电运通金融电子股份有限公司 | 基于部分卷积和掩膜更新的指静脉图像修复方法 |
CN113240613A (zh) * | 2021-06-07 | 2021-08-10 | 北京航空航天大学 | 一种基于边缘信息重建的图像修复方法 |
WO2023069086A1 (en) * | 2021-10-20 | 2023-04-27 | Innopeak Technology, Inc. | System and method for dynamic portrait relighting |
CN114463209A (zh) * | 2022-01-25 | 2022-05-10 | 广州大学 | 一种基于深度多特征协同学习的图像修复方法 |
CN114627006A (zh) * | 2022-02-28 | 2022-06-14 | 复旦大学 | 一种基于深度解耦网络的渐进式图像修复方法 |
CN114897742A (zh) * | 2022-06-10 | 2022-08-12 | 重庆师范大学 | 一种纹理和结构特征两次融合的图像修复方法 |
CN115619685A (zh) * | 2022-11-08 | 2023-01-17 | 广州大学 | 一种用于图像修复的追踪结构的Transformer方法 |
CN116523985A (zh) * | 2023-05-06 | 2023-08-01 | 兰州交通大学 | 一种结构和纹理特征引导的双编码器图像修复方法 |
Non-Patent Citations (2)
Title |
---|
W-Net:Structure and Texture Interaction for Image Inpainting;Ruisong Zhang et al;《 IEEE Transactions on Multimedia》;20221104;第7299-7310页 * |
利用多模态注意力机制生成网络的图像修复;王山豹 等;《计算机辅助设计与图形学学报》;20230731;第35卷(第7期);第1109-1121页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117196981A (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275518A (zh) | 一种基于混合光流的视频虚拟试穿方法及装置 | |
CN113901894A (zh) | 一种视频生成方法、装置、服务器及存储介质 | |
CN111787187B (zh) | 利用深度卷积神经网络进行视频修复的方法、系统、终端 | |
CN115018727A (zh) | 一种多尺度图像修复方法、存储介质及终端 | |
CN116205962B (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN115170559A (zh) | 基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法 | |
CN111210382A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN115829876A (zh) | 一种基于交叉注意力机制的真实退化图像盲修复方法 | |
CN116958534A (zh) | 一种图像处理方法、图像处理模型的训练方法和相关装置 | |
CN116523985B (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
CN117196981B (zh) | 一种基于纹理和结构调和的双向信息流方法 | |
CN117499711A (zh) | 视频生成模型的训练方法、装置、设备及存储介质 | |
Yu et al. | MagConv: Mask-guided convolution for image inpainting | |
CN117315069A (zh) | 基于图像特征对齐的人体姿态迁移方法 | |
CN116109510A (zh) | 一种基于结构和纹理对偶生成的人脸图像修复方法 | |
CN115035170A (zh) | 基于全局纹理与结构的图像修复方法 | |
CN115908205A (zh) | 图像修复方法、装置、电子设备和存储介质 | |
CN114862696A (zh) | 一种基于轮廓和语义引导的人脸图像修复方法 | |
Fan et al. | Image inpainting based on structural constraint and multi-scale feature fusion | |
CN114708586A (zh) | 一种从图像和视频中提取三维人脸表征的方法 | |
CN114331894A (zh) | 一种基于潜在特征重构和掩模感知的人脸图像修复方法 | |
CN117314778A (zh) | 一种引入文本特征的图像修复方法 | |
CN117252787B (zh) | 图像重新照明方法、模型训练方法、装置、设备及介质 | |
CN118014894A (zh) | 基于边缘先验与注意力机制相结合的图像修复方法、装置、设备以及可读存储介质 | |
Zhang et al. | Semantic-Aware Gated Fusion Network For Interactive Colorization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |