CN115018727A - 一种多尺度图像修复方法、存储介质及终端 - Google Patents
一种多尺度图像修复方法、存储介质及终端 Download PDFInfo
- Publication number
- CN115018727A CN115018727A CN202210668883.8A CN202210668883A CN115018727A CN 115018727 A CN115018727 A CN 115018727A CN 202210668883 A CN202210668883 A CN 202210668883A CN 115018727 A CN115018727 A CN 115018727A
- Authority
- CN
- China
- Prior art keywords
- image
- attention
- self
- scale
- repaired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000010287 polarization Effects 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000007246 mechanism Effects 0.000 claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 25
- 230000008439 repair process Effects 0.000 claims abstract description 13
- 230000007547 defect Effects 0.000 claims abstract description 8
- 238000011156 evaluation Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 71
- 230000004913 activation Effects 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000007500 overflow downdraw method Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 9
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 208000013409 limited attention Diseases 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种多尺度图像修复方法、存储介质及终端,该方法包括:获取原始真实图像与对应的二值缺损掩膜,构建待修复图像数据集;构建多尺度极化自注意力生成对抗网络,并在生成器的不同尺度上嵌入极化自注意力机制模块;使用待修复图像训练集对对抗网络模型进行训练和建模;采用待修复图像测试集对所述多尺度极化自注意力生成对抗修复模型进行测试;通过评价指标来评价模型的修复性能。本发明通过在跳跃连接上添加多尺度特征融合方法进一步利用图像特征,然后共享给模型的后层网络,使用压缩维度操作少的极化自注意力机制,减少特征数据的丢失,提高模型对大尺度信息缺失图像的修复精度,简化模型的结构复杂度,提高图像修复的性能。
Description
技术领域
本发明涉及图像修复技术领域,尤其涉及一种多尺度图像修复方法、存储介质及终端。
背景技术
目前,在很多场景下需要对大范围信息缺失的图像进行修复,现有基于卷积神经网络的方法在建立长距离区域相关性方面无效,由于缺失像素太多,这些方法不能获取到远距离的图像像素信息,图像修复效果差。
一些方法通过在网络中添加其它的全局特征提取模块来改善上述问题,但这会大大增加模型的复杂度,耗费巨额计算资源,且在一些特定场景下对大范围缺失像素的修复效果也不佳。
除此之外,随着生成网络(包括生成对抗网络和变分自编码器VAE)被用于图像修复领域,该类方法对大范围信息缺失图像的修复性能有了较大提高,但由于这些方法通常使用了跳跃连接和压缩维度操作,无法充分利用到原始图像丰富的语义信息和空间信息,且压缩维度操作会损失一定的图像信息,导致本来修复效果不佳的大尺度信息缺失图像更加难以修复。
发明内容
本发明提供一种多尺度图像修复方法、存储介质及终端,以解决图像修复中存在的因跳跃连接和压缩维度操作带来的无法充分利用图像原始信息的技术问题。
为解决上述问题,本发明提供一种多尺度图像修复方法,所述修复方法包括:
步骤S100:获取原始真实图像与对应的二值缺损掩膜,构建待修复图像数据集,以及对应的原始真实图像数据集,并将所述待修复图像数据集按照预设比例划分为训练集和测试集;
步骤S200:构建多尺度极化自注意力生成对抗网络,所述生成对抗网络由生成器G和判别器D构成,并在所述生成器G的不同尺度上嵌入极化自注意力机制模块,所述极化自注意力机制模块包含通道自注意力分支和空间自注意力分支,所述通道自注意力分支和空间自注意力分支通过并行方式进行连接;
步骤S300:设置网络模型超参数,使用待修复图像训练集对所述多尺度极化自注意力机制生成对抗网络模型进行训练和建模,采用损失函数来优化网络结构参数;
步骤S400:采用待修复图像测试集对所述多尺度极化自注意力生成对抗修复模型进行测试,通过计算修复后的图像和原始真实图像之间的评价指标来评价模型的修复性能。
进一步的,在步骤S100中,所述获取原始真实图像与对应的二值缺损掩膜具体包括:
步骤S101:从图像修复数据集和Mask掩膜数据集中构建用于图像修复的缺失像素图像数据集,并对图像进行初步的预处理;
步骤S102:掩膜和真实图像通过像素乘法得到缺失像素图像数据集,将该数据集中的图像和Mask掩膜一同输入到模型的生成器中。
进一步的,在步骤S200中,所述生成器由编码器和解码器构成,所述编码器和所述解码器之间添加跳跃连接,所述跳跃连接上添加多尺度特征融合模块,所述编码器不断地提取原始图像的不同层级的特征图,得到原始图像的深层特征;所述多尺度特征融合模块将不同尺寸的特征图进行特征融合,提供给所述解码器的反卷积层,对融合后的特征图进行像素预测。
进一步的,所述多尺度特征融合模块的内部由卷积层分支和反卷积层分支构成,
所述卷积层分支通过对输入的特征图进行卷积、归一化和激活函数激活,得到更深层次的特征图;
所述反卷积层分支通过对输入的特征图进行两层反卷积、归一化和激活函数激活,得到尺度更大的特征图;
将这两条分支的相同大小的特征图进行拼接融合,得到空间和语义信息都丰富的输出特征图。
进一步的,在步骤S200中,建模过程中,判别器D采用对抗损失函数算法,在对抗训练过程中通过对多个损失函数之和进行优化,得到多尺度极化自注意力生成对抗修复模型。
进一步的,在步骤S300中,所述使用待修复图像训练集对所述多尺度极化自注意力机制生成对抗网络模型进行训练和建模具体包括:
将待修复图像和对应的掩膜图像同时输入到所述生成器G中,同时提取它们的特征;
所述生成器G从待修复图像中提取原始图像整体特征,并尽可能地生成与真实图像相似的修复后的图像;
所述判别器D判断输入的图像数据是真实图像还是来自所述生成器G生成的修复后图像,并将损失结果通过梯度反馈送回所述生成器G,所述生成器G根据结果继续生成修复效果更好的图像;
经过大量的训练迭代次数,所述生成器G生成修复效果更好的图像。
进一步的,所述像素级注意力模块的具体实现包括:
分别提取输入特征图的前景和背景像素块,测量背景和前景像素块的相似性,通过计算归一化内积来进行像素值匹配;
像素块匹配完成后,使用激活函数来计算权重,得到注意力权重,然后将得到的注意力权重和原始的输入特征图进行拼接;
将得到的拼接特征图输入到改进的极化自注意力机制模块中,得到输出图像。
进一步的,所述极化自注意力机制模块包含通道自注意力分支和空间自注意力分支,
所述通道自注意力分支的具体实现包括:将输入的特征图输入到通道自注意力分支层,经多层卷积运算后得到通道自注意力权重,与输入特征图进行乘法运算;
所述空间自注意力分支的具体实现包括:将输入的特征图输入到空间自注意力分支层,经池化操作和多层卷积运算后得到空间自注意力权重,与输入特征图进行乘法运算;
将通道自注意力分支和空间自注意力分支的结果进行融合,得到极化自注意力结构的修复后输出图像。
进一步的,所述损失函数包括:对抗损失函数Ladv、感知损失函数Lperceptual、风格损失函数Lstyle、总变差损失函数Ltv、孔洞损失函数Lhole以及验证损失函数Lvalid;具体为:
对抗损失函数定义为:
其中:D(·)表示对括号中的图像进行判别,D(Igt)表示对输入到判别器的真实图像进行判别,D(Ipred)表示对输入到判别器的修复图像进行判别,BCELoss(·)表示计算二分类交叉熵损失;
感知损失函数表达式为:
风格损失函数表达式为:
总变差损失函数表达式为:
孔洞损失函数表达式为:
验证损失函数表达式为:
总损失函数表达式为:L=α1Ladv+α2Lperceptual+α3Lstyle+α4Ltv+α5Lhole+α6Lvalid
其中:分别表示提取到的真实图像和修复图像的第i层特征图,Hi,Wi,Ci表示提取到第i层特征图的高度、宽度和通道数目,|·|1表示计算L1范数,分别表示真实图像、修复图像第i层的特征图与其转置的乘积,Ix,y表示图像中(x,y)位置的像素值,Ix+1,y表示图像中(x+1,y)位置的像素值,Ix,y+1表示图像中(x,y+1)位置的像素值,E(·)表示求均值,i,j,k分别表示真实图像或修复图像的高度、宽度和通道数, 分别代表真实图像和修复图像孔洞区域的像素值, 分别代表真实图像和修复图像有效区域的像素值,{α1,α2...,α6}表示各个损失在总损失函数中所占的权重。
进一步的,所述评价指标包括:峰值信噪比PSNR、结构相似性SSIM和L1损失;具体为:
峰值信噪比PSNR函数表达式为:
结构相似性SSIM函数表达式为:
c1=(k1(2N-1))2,c2=(k2(2N-1))2 (21)
L1损失函数表达式为:
L1Loss=Lvalid+Lhole (22)
其中:MSE(·)表示计算均方误差,X(i,j)、Y(i,j)分别表示修复图像和真实图像(i,j)位置的像素值,N表示图片像素用N位二进制表示,μx、μy分别表示x、y的均值,分别表示x、y的方差,σxy表示x和y的协方差,c1和c2是两个不为零的常数,k1和k2默认值为0.01和0.03,Lvalid、Lhole即为训练时的验证损失和孔洞损失。
本发明的第二目的在于提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述所述的多尺度图像修复方法的步骤。
本发明的第三目的在于一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述所述的多尺度图像修复方法的步骤。
本发明与现有技术相比具有显著的优点和有益效果,具体体现在以下方面:
1、本发明使用生成对抗网络作为图像修复模型的骨干网络,并在生成器中加入像素级注意力模块,网络通过聚焦缺失区域与非缺失区域的注意力,以及缺失区域内部的自注意力来获取待修复图像特征的内部联系,实现了像素级的精细修复,为缺失信息图像重建提供了有效途径;
2、本发明在图像生成过程中的像素级注意力模块中加入极化注意力机制,避免过多的通道和空间维度压缩操作,使得原始图像信息损失较小,利于修复;
3、本发明在生成器中采用跳跃连接,充分利用原始图像的浅层空间信息和深层语义信息,增强图像高层次语义信息的表达和修复效率,同时避免了模式坍塌;
4、本发明修复模型的跳跃连接上加入了多尺度特征融合模块,能够有效结合不同层级的原始图像深层特征信息,通过跳跃连接将该信息共享到网络后层,提高对大尺度缺失图像的修复精度。
附图说明
图1为本发明实施例中于极化自注意力机制的多尺度图像修复方法的程序流程图;
图2为本发明实施例中基于极化自注意力机制的多尺度图像修复框架图;
图3为本发明实施例中基于生成对抗网络的图像修复原理图;
图4为本发明实施例中多尺度特征融合方法模块的结构图;
图5为本发明实施例中像素级注意力模块的结构图;
图6为本发明实施例中极化自注意力机制模块的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
请参阅图1所示,本发明实施例提供了一种多尺度图像修复方法,所述修复方法包括如下步骤:
步骤S100:获取原始真实图像与对应的二值缺损掩膜,构建待修复图像数据集,以及对应的原始真实图像数据集,并将所述待修复图像数据集按照预设比例划分为训练集和测试集。
本发明选择Paris StreetView的训练数据集,来训练所述模型中的生成器和判别器,选择Paris StreetView中的测试集,来构造本发明实施例中所需的测试集,以用于测试模型的泛化性能。
Paris StreetView通用数据集已经划分好训练集和测试集,它将图像按照一定比例分成训练集与测试集,两部分中不包含相同的图像,训练集用于训练图像修复模型,测试集用于测试训练好的图像修复模型的修复效果。
需要特别说明的是,数据集包含的真实图像和Mask数据集中的不同掩膜率掩膜组合构成新的训练测试数据集,掩膜率越大,则表示图像缺失像素点越多。
所述多尺度图像修复方法中数据处理方式如下:
第一,Paris StreetView数据集中图像的尺寸大小并非统一,故本发明重新调整Paris StreetView中训练数据集和测试数据集中的图像尺寸大小为256*256;
第二,生成各种掩膜率类型的二值掩码(Mask);
第三,将二值掩码(Mask)乘上训练数据集中重新调整大小后的图像上生成待修复图像,待修复图像和尺寸调整后的图像(真实图像)作为模型的输入;将二值掩码(Mask)乘上测试数据集中重新调整大小后的图像上生成测试图像,使用该测试图像,可测试其模型的泛化性能。
对于训练过程,首先应当准备原图和掩膜,所述原图和掩膜图像的大小应不小于256*256,对于原图和掩膜图像,首先应当进行尺寸调整,通过适当裁剪使图像尺寸变为256*256。
步骤S200:构建多尺度极化自注意力生成对抗网络,所述生成对抗网络由生成器G和判别器D构成,并在所述生成器G的不同尺度上嵌入像素级注意力层,其中采用极化自注意力机制模块建立权重优化,所述极化自注意力机制模块包含通道自注意力分支和空间自注意力分支,所述通道自注意力分支和空间自注意力分支通过并行方式进行连接。
步骤S300:设置网络模型超参数,使用待修复图像训练集对所述多尺度极化自注意力机制生成对抗网络模型进行训练和建模,采用对抗性损失、感知损失、风格损失、总变差损失、孔洞损失和验证损失6个联合损失函数来优化网络结构参数;
步骤S400:采用待修复图像测试集对所述多尺度极化自注意力生成对抗修复模型进行测试,通过计算修复后的图像和原始真实图像之间的峰值信噪比PSNR、结构相似性SSIM和L1损失三个评价指标来评价模型的修复性能。
具体地,在步骤S200中,所述生成器由编码器和解码器构成,所述编码器和所述解码器之间添加跳跃连接,所述跳跃连接上添加多尺度特征融合模块,所述编码器不断地提取原始图像的不同层级的特征图,得到原始图像的深层特征;所述多尺度特征融合模块将不同尺寸的特征图进行特征融合,提供给所述解码器的反卷积层,对融合后的特征图进行像素预测。
请参阅图2所示,所述生成对抗网络由生成器G(Generator)和判别器D(Discriminator)这两部分构成,生成器G由编码器和解码器构成,编码器和解码器的结构基本对称。
编码器包括8个编码特征提取模块组成,所述编码特征提取模块由编码卷积层-归一化层-激活函数组成。
每个编码卷积层之后进行批量归一化操作并通过激活函数激活,随着卷积层数的增加,通过大量的卷积操作,不断地提取原始图像的不同层级的特征,得到原始图像的深层特征。例如:提取的特征逐渐由基于颜色、纹理低级特征到基于图像语义信息的高级抽象特征进化。
由此,在模型的编码器中,利用前8个卷积层结构进行特征提取,每经过一个卷积层,特征图的大小减半,直至特征图大小降为1*1,通过编码操作,将输入的缺损图像压缩为不同尺度的特征图。
解码器由8个解码特征映射模块、2个像素级注意力模块和2个多尺度特征融合模块组成,其中,所述解码特征映射模块由反卷积层-归一化-激活函数组成。
解码器通过8个反卷积层进行图像的重建,每经过一个反卷积层,特征图的大小增大一倍,直复原为输入图像的大小(256*256)。
对解码器中每个像素级注意力模块前得到的特征图进行加权重和卷积操作,在图像修复的过程中与真实图像通过联合损失进行重建,在图像重建的过程中与真实图像进行对比,从而逐渐控制待修复图像的生成过程,进而使训练过程更加稳定。
生成器G的作用是从缺失了像素点的待修复图像中提取原始图像的整体特征,并尽可能地生成与真实图像相似的修复后的图像;
判别器D的作用是判断输入的图像数据是真实图像还是来自生成器生成的修复后图像,并将结果通过梯度反馈送回生成器,生成器根据损失结果继续生成修复效果更好的图像。
通过生成器G与判别器D之间的博弈,经过大量的训练迭代次数,可以使生成器G生成的图像修复效果非常好。
请参阅图2所示,在本发明的实施例当中,在前8个卷积层和后8个反卷积层之间,第3和4个卷积层后跟有一个初始化模块和多尺度特征融合模块,用于学习特征图内的长远依赖关系,获得重要关注区域。在后8个反卷积层中,第5、6和7反卷积层间分别跟有一个像素级注意力模块,以生成质量更好的修复图像。
由此,本发明实施例中的生成器中利用多层卷积层来提取深层和浅层特征,并且通过跳跃连接和多尺度特征融合模块将不同尺寸的特征图进行特征融合,提供给解码器D的对应反卷积层,对融合后的特征图进行像素预测。
请参阅图2所示,在本发明的实施例当中,判别器包括5个特征判别模块,所述特征判别模块由判别卷积层-归一化-激活函数组成。
生成器G和判别器D的卷积层之后都加入批量归一化操作,对卷积之后的特征图进行批量归一化处理,加快网络收敛。
需要说明的是,人类的注意力机制(Attention Mechanism)是从直觉中得到,它是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段。深度学习中的注意力机制借鉴了人类的注意力思维方式,被广泛的应用在自然语言处理、图像分类及语音识别等各种不同类型的深度学习任务中,并取得了显著的成果。
请参阅图2所示,本实例在解码器模块的第5、6和7反卷积层间加入像素级注意力模块,所述像素级注意力模块中使用的极化自注意力机制包含通道自注意力分支与空间自注意力分支,所述通道自注意力分支与空间自注意力分支以并行的方式连接,生成的特征图需要经过通道自注意力分支与空间自注意力分支,使网络模型通过已知区域的特征信息和未知区域内部的自注意力两个维度进行图像修复,从而实现高精度和高效率的待修复图像的缺失区域重建。
请参阅图5所示,提出的模型在像素级注意力模块中使用了注意力机制,
像素级注意力模块的工作原理为:
首先,分别提取输入特征图的前景和背景像素块,测量背景和前景像素块的相似性,通过计算归一化内积来进行像素值匹配。
(1)掩码图像进入注意力机制关注层后,首先将背景区域与前景区域区分开,并将背景区域划分为多个3×3的补丁块。
(2)将大小3×3的背景补丁块整合为3×3的卷积核,并对前景区域进行相应的卷积操作,得到对应的多个重建前景。
(3)通过计算各个重建前景与目标前景区域的内积值得到两者之间的相似性。
其次,像素块匹配完成后,使用激活函数来计算权重,得到注意力权重,然后将得到的注意力权重和原始的输入特征图进行拼接。
(4)通过softmax函数归一化后,得到各个背景补丁块在前景区域上对应的注意力得分。
最后,将得到的拼接特征图输入到改进的极化自注意力模块中,得到输出图像。
(5)以得到的注意力得分为权值,加权叠加各个重建前景,得到最终背景区域信息对前景区域的重建结果,参与最后图像修复的过程。
通过以上方式,来更精细地对缺失的像素值进行修复。
具体地,请参阅图6所示,在本发明的实施例当中,所述极化自注意力机制模块包含通道自注意力分支和空间自注意力分支,
所述通道自注意力分支的具体实现包括:将输入的特征图输入到通道自注意力分支层,经多层卷积运算后得到通道自注意力权重,与输入特征图进行乘法运算;
所述空间自注意力分支的具体实现包括:将输入的特征图输入到空间自注意力分支层,经池化操作和多层卷积运算后得到空间自注意力权重,与输入特征图进行乘法运算;
将通道自注意力分支和空间自注意力分支的结果进行融合,得到极化自注意力结构的修复后输出图像。
由此,极化自注意力机制的加入是为了解决现有图像修复技术存在的过多降维度操作导致的信息损失问题。相比于其他注意力的方法,本发明实施例中使用的极化自注意力在空间维度和通道维度都没有进行很大程度的压缩(在空间维度上保持原大小,在通道维度上保持原通道一半的大小),并将复杂度也保持在了一个比较小的水平,能够在减少模型复杂度的情况下有效地减少原始图像的信息损失,进而提高对图像修复的性能。
具体地,在本发明的实施例当中,多尺度图像修复方法在构建模型并进行模型训练时,一共使用了6个损失函数来反向传播,不断改进优化模型,以提高图像修复的结果。
所述6个损失函数包括:对抗损失函数Ladv、感知损失函数Lperceptual、风格损失函数Lstyle、总变差损失函数Ltv、孔洞损失函数Lhole以及验证损失函数Lvalid;具体为:
对抗损失函数定义为:
其中:D(·)表示对括号中的图像进行判别,D(Igt)表示对输入到判别器的真实图像进行判别,D(Ipred)表示对输入到判别器的修复图像进行判别,BCELoss(·)表示计算二分类交叉熵损失;
感知损失函数表达式为:
风格损失函数表达式为:
总变差损失函数表达式为:
孔洞损失函数表达式为:
验证损失函数表达式为:
总损失函数表达式为:L=α1Ladv+α2Lperceptual+α3Lstyle+α4Ltv+α5Lhole+α6Lvalid
Hi,Wi,Ci表示提取到第i层特征图的高度、宽度和通道数目,|·|1表示计算L1范数,
Ix,y表示图像中(x,y)位置的像素值,Ix+1,y表示图像中(x+1,y)位置的像素值,Ix,y+1表示图像中(x,y+1)位置的像素值,
E(·)表示求均值,i,j,k分别表示真实图像或修复图像的高度、宽度和通道数,
{α1,α2...,α6}表示各个损失在总损失函数中所占的权重。
具体地,在本发明的实施例当中,使用3个评价指标来对修复后图像的修复效果进行度量,所述3个评价指标包括:峰值信噪比PSNR、结构相似性SSIM和L1损失;具体为:
峰值信噪比PSNR函数表达式为:
结构相似性SSIM函数表达式为:
c1=(k1(2N-1))2,c2=(k2(2N-1))2 (10)
L1损失函数表达式为:
L1Loss=Lvalid+Lhole (11)
其中:MSE(·)表示计算均方误差,X(i,j)、Y(i,j)分别表示修复图像和真实图像(i,j)位置的像素值,N表示图片像素用N位二进制表示,
μx、μy分别表示x、y的均值,
σxy表示x和y的协方差,
c1和c2是两个常数,避免除零,k1和k2默认值为0.01和0.03,
Lvalid、Lhole即为训练时的验证损失和孔洞损失。
基于上述任一示例性实施例,本发明的又一示例性实施例提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的多尺度图像修复方法的步骤。
基于上述任一示例性实施例,本发明的又一示例性实施例提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的多尺度图像修复方法的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得装置执行本发明各个实施例所述方法的全部或部分步骤。
而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
虽然本公开披露如上,但本公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
Claims (10)
1.一种多尺度图像修复方法,其特征在于,所述修复方法包括:
步骤S100:获取原始真实图像与对应的二值缺损掩膜,构建待修复图像数据集,以及对应的原始真实图像数据集,并将所述待修复图像数据集按照预设比例划分为训练集和测试集;
步骤S200:构建多尺度极化自注意力生成对抗网络,所述生成对抗网络由生成器G和判别器D构成,并在所述生成器G的不同尺度上嵌入极化自注意力机制模块,所述极化自注意力机制模块包含通道自注意力分支和空间自注意力分支,所述通道自注意力分支和空间自注意力分支通过并行方式进行连接;
步骤S300:设置网络模型超参数,使用待修复图像训练集对所述多尺度极化自注意力机制生成对抗网络模型进行训练和建模,采用损失函数来优化网络结构参数;
步骤S400:采用待修复图像测试集对所述多尺度极化自注意力生成对抗修复模型进行测试,通过计算修复后的图像和原始真实图像之间的评价指标来评价模型的修复性能。
2.根据权利要求1所述的多尺度图像修复方法,其特征在于,在步骤S100中,所述获取原始真实图像与对应的二值缺损掩膜还包括:
步骤S101:从图像修复数据集和Mask掩膜数据集中构建用于图像修复的缺失像素图像数据集,并对图像进行初步的预处理;
步骤S102:掩膜和真实图像通过像素乘法得到缺失像素图像数据集,将该数据集中的图像和Mask掩膜一同输入到模型的生成器中。
3.根据权利要求1所述的多尺度图像修复方法,其特征在于,在步骤S200中,所述生成器由编码器和解码器构成,所述编码器和所述解码器之间添加跳跃连接,所述跳跃连接上添加多尺度特征融合模块,所述编码器不断地提取原始图像的不同层级的特征图,得到原始图像的深层特征;所述多尺度特征融合模块将不同尺寸的特征图进行特征融合,提供给所述解码器的反卷积层,对融合后的特征图进行像素预测。
4.根据权利要求3所述的多尺度图像修复方法,其特征在于,所述多尺度特征融合模块的内部由卷积层分支和反卷积层分支构成,
所述卷积层分支通过对输入的特征图进行卷积、归一化和激活函数激活,得到更深层次的特征图;
所述反卷积层分支通过对输入的特征图进行两层反卷积、归一化和激活函数激活,得到尺度更大的特征图;
将这两条分支的相同大小的特征图进行拼接融合,得到空间和语义信息都丰富的输出特征图。
5.根据权利要求1所述的多尺度图像修复方法,其特征在于,在步骤S300中,所述使用待修复图像训练集对所述多尺度极化自注意力机制生成对抗网络模型进行训练和建模具体包括:
将待修复图像和对应的掩膜图像同时输入到所述生成器G中,同时提取它们的特征;
所述生成器G从待修复图像中提取原始图像整体特征,并尽可能地生成与真实图像相似的修复后的图像;
所述判别器D判断输入的图像数据是真实图像还是来自所述生成器G生成的修复后图像,并将损失结果通过梯度反馈送回所述生成器G,所述生成器G根据结果继续生成修复效果更好的图像;
经过大量的训练迭代次数,所述生成器G生成修复效果更好的图像。
6.根据权利要求1所述的多尺度图像修复方法,其特征在于,所述极化自注意力机制模块包含通道自注意力分支和空间自注意力分支,
所述通道自注意力分支的具体实现包括:将输入的特征图输入到通道自注意力分支层,经多层卷积运算后得到通道自注意力权重,与输入特征图进行乘法运算;
所述空间自注意力分支的具体实现包括:将输入的特征图输入到空间自注意力分支层,经池化操作和多层卷积运算后得到空间自注意力权重,与输入特征图进行乘法运算;
将通道自注意力分支和空间自注意力分支的结果进行融合,得到极化自注意力结构的修复后输出图像。
7.根据权利要求6所述的多尺度图像修复方法,其特征在于,所述损失函数包括:对抗损失函数Ladv、感知损失函数Lperceptual、风格损失函数Lstyle、总变差损失函数Ltv、孔洞损失函数Lhole以及验证损失函数Lvalid,具体为:
对抗损失函数定义为:
其中:D(·)表示对括号中的图像进行判别,D(Igt)表示对输入到判别器的真实图像进行判别,D(Ipred)表示对输入到判别器的修复图像进行判别,BCELoss(·)表示计算二分类交叉熵损失;
感知损失函数表达式为:
风格损失函数表达式为:
总变差损失函数表达式为:
孔洞损失函数表达式为:
验证损失函数表达式为:
总损失函数表达式为:L=α1Ladv+α2Lperceptual+α3Lstyle+α4Ltv+α5Lhole+α6Lvalid;
8.根据权利要求1所述的多尺度图像修复方法,其特征在于,所述评价指标包括:峰值信噪比PSNR、结构相似性SSIM和L1损失,具体为:
峰值信噪比PSNR函数表达式为:
结构相似性SSIM函数表达式为:
c1=(k1(2N-1))2,c2=(k2(2N-1))2 (10)
L1损失函数表达式为:
L1Loss=Lvalid+Lhole (11)
9.一种存储介质,其上存储有计算机指令,其特征在于:所述计算机指令运行时执行权利要求1至8中任一项所述的多尺度图像修复方法的步骤。
10.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至8中任一项所述的多尺度图像修复方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210668883.8A CN115018727A (zh) | 2022-06-14 | 2022-06-14 | 一种多尺度图像修复方法、存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210668883.8A CN115018727A (zh) | 2022-06-14 | 2022-06-14 | 一种多尺度图像修复方法、存储介质及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115018727A true CN115018727A (zh) | 2022-09-06 |
Family
ID=83074310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210668883.8A Pending CN115018727A (zh) | 2022-06-14 | 2022-06-14 | 一种多尺度图像修复方法、存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115018727A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115456314A (zh) * | 2022-11-11 | 2022-12-09 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种大气污染物时空分布预测系统及方法 |
CN116029947A (zh) * | 2023-03-30 | 2023-04-28 | 之江实验室 | 一种用于恶劣环境的复杂光学图像增强方法、装置和介质 |
CN116109655A (zh) * | 2023-01-16 | 2023-05-12 | 阿里巴巴(中国)有限公司 | 图像编码器处理方法及装置、图像分割方法 |
CN116645298A (zh) * | 2023-07-26 | 2023-08-25 | 广东电网有限责任公司珠海供电局 | 一种架空输电线路视频监控图像去雾方法及装置 |
CN116681980A (zh) * | 2023-07-31 | 2023-09-01 | 北京建筑大学 | 基于深度学习的大缺失率图像修复方法、装置和存储介质 |
CN117934338A (zh) * | 2024-03-22 | 2024-04-26 | 四川轻化工大学 | 一种图像修复方法和系统 |
CN117974832A (zh) * | 2024-04-01 | 2024-05-03 | 南昌航空大学 | 基于生成对抗网络的多模态肝脏医学图像扩充算法 |
CN117934338B (zh) * | 2024-03-22 | 2024-07-09 | 四川轻化工大学 | 一种图像修复方法和系统 |
-
2022
- 2022-06-14 CN CN202210668883.8A patent/CN115018727A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115456314A (zh) * | 2022-11-11 | 2022-12-09 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种大气污染物时空分布预测系统及方法 |
CN116109655A (zh) * | 2023-01-16 | 2023-05-12 | 阿里巴巴(中国)有限公司 | 图像编码器处理方法及装置、图像分割方法 |
CN116029947A (zh) * | 2023-03-30 | 2023-04-28 | 之江实验室 | 一种用于恶劣环境的复杂光学图像增强方法、装置和介质 |
CN116645298A (zh) * | 2023-07-26 | 2023-08-25 | 广东电网有限责任公司珠海供电局 | 一种架空输电线路视频监控图像去雾方法及装置 |
CN116645298B (zh) * | 2023-07-26 | 2024-01-26 | 广东电网有限责任公司珠海供电局 | 一种架空输电线路视频监控图像去雾方法及装置 |
CN116681980A (zh) * | 2023-07-31 | 2023-09-01 | 北京建筑大学 | 基于深度学习的大缺失率图像修复方法、装置和存储介质 |
CN116681980B (zh) * | 2023-07-31 | 2023-10-20 | 北京建筑大学 | 基于深度学习的大缺失率图像修复方法、装置和存储介质 |
CN117934338A (zh) * | 2024-03-22 | 2024-04-26 | 四川轻化工大学 | 一种图像修复方法和系统 |
CN117934338B (zh) * | 2024-03-22 | 2024-07-09 | 四川轻化工大学 | 一种图像修复方法和系统 |
CN117974832A (zh) * | 2024-04-01 | 2024-05-03 | 南昌航空大学 | 基于生成对抗网络的多模态肝脏医学图像扩充算法 |
CN117974832B (zh) * | 2024-04-01 | 2024-06-07 | 南昌航空大学 | 基于生成对抗网络的多模态肝脏医学图像扩充算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115018727A (zh) | 一种多尺度图像修复方法、存储介质及终端 | |
Liu et al. | Point cloud quality assessment: Dataset construction and learning-based no-reference metric | |
CN108520503B (zh) | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 | |
CN111784602B (zh) | 一种生成对抗网络用于图像修复的方法 | |
Wang et al. | Domain adaptation for underwater image enhancement | |
CN111612708B (zh) | 一种基于对抗生成网络的图像修复方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN111861945B (zh) | 一种文本引导的图像修复方法和系统 | |
Kang et al. | Ddcolor: Towards photo-realistic image colorization via dual decoders | |
CN114943656B (zh) | 一种人脸图像修复方法及系统 | |
CN114022506A (zh) | 一种边缘先验融合多头注意力机制的图像修复方法 | |
CN116523985B (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
Zhang et al. | Semantic prior guided face inpainting | |
Yu et al. | MagConv: Mask-guided convolution for image inpainting | |
CN116137043A (zh) | 一种基于卷积和Transformer的红外图像彩色化方法 | |
CN116109510A (zh) | 一种基于结构和纹理对偶生成的人脸图像修复方法 | |
CN115424337A (zh) | 基于先验引导的虹膜图像修复系统 | |
CN114549302A (zh) | 一种图像超分辨率重建方法及系统 | |
Fan et al. | Image inpainting based on structural constraint and multi-scale feature fusion | |
CN114764754A (zh) | 一种基于几何感知先验引导的遮挡人脸修复方法 | |
Gao et al. | TEGAN: Transformer embedded generative adversarial network for underwater image enhancement | |
Li et al. | Image inpainting research based on deep learning | |
CN111931850A (zh) | 一种基于特征细化的跨模态融合显著性检测方法 | |
Peng et al. | RAUNE-Net: A Residual and Attention-Driven Underwater Image Enhancement Method | |
Jam et al. | V-LinkNet: Learning Contextual Inpainting Across Latent Space of Generative Adversarial Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |