CN114862696A - 一种基于轮廓和语义引导的人脸图像修复方法 - Google Patents
一种基于轮廓和语义引导的人脸图像修复方法 Download PDFInfo
- Publication number
- CN114862696A CN114862696A CN202210363272.2A CN202210363272A CN114862696A CN 114862696 A CN114862696 A CN 114862696A CN 202210363272 A CN202210363272 A CN 202210363272A CN 114862696 A CN114862696 A CN 114862696A
- Authority
- CN
- China
- Prior art keywords
- image
- contour
- face
- restoration
- restored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000001815 facial effect Effects 0.000 title claims abstract description 21
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 31
- 238000003708 edge detection Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 23
- 230000004927 fusion Effects 0.000 claims description 22
- 230000008439 repair process Effects 0.000 claims description 22
- 238000010586 diagram Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 7
- 230000010339 dilation Effects 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 2
- 230000006872 improvement Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000009792 diffusion process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 101100409194 Rattus norvegicus Ppargc1b gene Proteins 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 238000002806 Stokes method Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于轮廓和语义引导的人脸图像修复方法,包括以下步骤:S1:对人脸图像进行预处理获得待修复人脸图像;S2:将步骤S1中的待修复人脸图像进行灰度化处理得到待修复人脸灰度图像;S3:将S2中的待修复人脸灰度图像通过边缘检测算法提取人脸轮廓信息,从而获得待修复人脸轮廓图像;S4:建立对抗网络结构的基于多尺度残差块的轮廓修复模型,将步骤S2中的待修复人脸灰度图像以及步骤S3中的待修复人脸轮廓图像输入到轮廓修复模型中,获得人脸轮廓修复图像;S5:建立对抗网络结构的基于注意力金字塔和多尺度残差块的图像修复模型,将步骤S1中的待修复人脸图像和步骤S4中的人脸轮廓修复图像输入到图像修复模型中,得到修复后的完整图像。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于轮廓和语义引导的人脸图像修复方法。
背景技术
在实际应用中,由于眼镜、饰品等主动遮挡以及环境中障碍物等多种影响,往往无法采集到面部特征完整的人脸图像,从而导致人脸识别准确率较低。相比较普通的图像修复,人脸具有更强的语义和更复杂的纹理细节,不仅需要考虑人脸结构的合理性,还需要在修复过程中保留人物信息。因此针对人脸图像修复的特殊性,通过图像修复算法生成清晰合理且准确率高的人脸图像仍然是一项十分艰巨的任务。
在深度学习广泛应用于图像修复领域之前,传统的方法可分两类:基于扩散的(diffusion-based)和基于样本的(patch-based)图像修复方法。基于扩散的方法利用待修复区域的边缘信息,确定扩散方向,向边缘内扩散已知的信息,例如TV-Stokes方法。基于样本的方法迭代地从已知区域搜索纹理相似的图像块来填补缺失区域,例如PatchMatch方法。但是这些方法过于依赖已知信息,修复一些比较复杂的、不可复制的图像结构时无法获得令人满意的效果。
随着深度学习的快速发展,基于生成对抗网络的方法在图像修复领域占据了主流。Pathak等人将编码-解码网络结构引入图像修复工作中并首次结合 GAN的对抗思想提出了Context Encoder网络;Iizuka等人在Context Encoder 的基础上引入局部-全局双重判别器,同时使用膨胀卷积提出了GLCIC网络; Yu等人提出了deepfill网络,通过上下文注意力机制从已知背景补丁借用或复制特征信息来生成缺失的前景补丁;Nazeri等人采用两阶段修复网络,先预测图像的完整边缘信息再作为结构先验来引导内容修复;Wang等人提出一种包含掩膜预测模块和鲁棒性修复模块的两阶段视觉一致性网络VCNet。相较于传统方法,基于深度学习的图像修复方法具有强大的图像特征表达学习能力以及数据概率分布拟合能力。虽然现有的方法对大多数图像有不错的修复效果,但对于人脸图像的修复效果却不如人意。对于人脸修复任务而言,深度学习的方法依然具有很强的随机性,并且现有方法在实现图像结构连贯、语义明确、纹理清晰的问题上仍存在很大不足。
发明内容
针对现有技术存在的不足之处,本发明提出了一种基于轮廓和语义引导的人脸图像修复方法,解决了修复图像时边界处模糊不清、纹理和语义不一致、修复细节不清晰的问题,有效地提高了人脸识别的准确率。本方法通过轮廓修复网络得到人脸轮廓图作为结构先验信息,提高了人脸部件位置和形状的合理性;采用注意力金字塔结构重建编码过程中由深到浅不同层级的完整语义作为先验信息引导解码过程,提高了视觉和语义的一致性;采用多尺度融合残差结构,增强了网络的特征提取能力,提高了图像的修复质量。
为实现上述目的,本发明采用如下技术方案:
一种基于轮廓和语义引导的人脸图像修复方法,包括以下步骤:
S1:对输入人脸图像进行预处理,进行缩放或拉伸调整成统一尺寸,获得待修复人脸图像;
S2:将步骤S1中得到的待修复人脸图像进行灰度化处理,得到待修复人脸灰度图像;
S3:将S2中得到的待修复人脸灰度图像通过边缘检测算法提取人脸轮廓信息,从而获得二值化的待修复人脸轮廓图像;
S4:建立对抗网络结构的基于多尺度残差块的轮廓修复模型,所述轮廓修复模型由一个生成器和一个鉴别器构成,且在生成器中引入了多尺度残差结构,将步骤S2得到的待修复人脸灰度图像以及步骤S3得到的待修复人脸轮廓图像输入到基于多尺度残差块的轮廓修复模型中,获得完整的人脸轮廓修复图像;
S5:建立对抗网络结构的基于注意力金字塔和多尺度残差块的图像修复模型,所述图像修复模型由一个生成器和一个鉴别器构成,且在生成器中引入了注意力金字塔结构和多尺度残差结构,将步骤S1中得到的待修复人脸图像和步骤S4人脸轮廓修复图像输入到基于注意力金字塔和多尺度残差块的图像修复模型中,实现对人脸图像缺失区域的修复,得到修复后的完整图像。
作为本发明的进一步改进:所述多尺度残差结构通过多尺度融合残差块,利用不同尺度的膨胀卷积来提取不同感受野下的特征信息并实现多尺度特征融合,所述多尺度融合残差块将输入的特征信息分别通过四个分支使用膨胀因子分别为1、2、4、8的膨胀卷积提取不同尺度的特征x1、x2、x3、x4,通过相邻累加的方法将不同稀疏多尺度特征组合关联,再进行特征融合。
作为本发明的进一步改进:所述提取到的多尺度特征中的x1、x2、x3、x4将使用普通卷积进行特征组合关联得到特征X1、X2、X3、X4然后将四组特征通过1×1的普通卷积进行特征融合,其公式如下:
y=Conv1×1,d=1(X1+X2+X3+X4),
其中,y为多尺度融合残差块的输出的特征信息,Conv3×3,d=1和Conv1×1,d=1分别代表卷积核尺寸为3和1、膨胀因子为1的普通卷积。
作为本发明的进一步改进:所述轮廓修复模型将人像的灰度图Iin,gray、轮廓图Cin和缺失区域的掩码图M作为输入,通过轮廓修复网络获得修复后的轮廓图像:
Cout=G1(Iin,gray,Cin,M),
其中,Cout为网络修复出的完整人像轮廓图,G1表示轮廓修复模型的生成器。
作为本发明的进一步改进:所述注意力金字塔结构在生成器编码过程中通过金字塔式的由深到浅的注意力来填补缺失区域的特征信息,使不同层级重建后的语义完整的特征图通过跳跃链接方式引导生成器解码过程。
作为本发明的进一步改进:所述注意力金字塔结构在编码过程中通过注意力模块将高级特征图中得到的缺失区域内外相似性用于填充低级特征图,其公式表示如下:
其中,fl,fl-1,K,f1代表编码过程中由深到浅的特征图,attention代表注意力模块。
作为本发明的进一步改进:所述注意力模块使用3×3的普通卷积在缺失区域内外提取补丁,并计算其余弦相似度:
通过将高级特征图中获得的注意力得分加权到其相邻的低级特征图中来对其缺失区域进行重建,其公式如下:
作为本发明的进一步改进:所述图像修复模型将人像Iin和轮廓修复模型输出的复合轮廓图Ccomp作为输入,通过图像修复网络获得修复后的完整人脸图像:
Iout=G2(Iin,Ccomp),
其中,Iout为网络修复出的完整人脸图像,G2表示图像修复模型的生成器, Ccomp=Cgt e(1-M)+Cout e M,Cgt为真实人脸图像的轮廓图,e表示逐元素相乘。
作为本发明的进一步改进:所述边缘检测算法为Canny边缘检测算法,用于提取并输出人脸图像的轮廓信息。
区别于现有技术,上述技术方案具有如下优点:
1、采用轮廓修复模型对脸部轮廓进行修复,并将其作为先验信息指导图像修复模型的人脸修复工作,这样可以提高图像大面积缺失情况下五官等重要人脸部件修复后位置和形状的合理性,使图像在结构上有更好的修复效果。
2、图像修复模型引入了注意力金字塔结构,在编码过程中通过金字塔式的由深到浅的注意力机制来填补缺失区域的内容获得语义完整的特征图,将其作为前置条件约束图像的解码修复,提高了修复图像的语义可信度,有利于保证缺失区域的视觉和语义一致性。
3、采用多尺度融合残差结构进行特征提取,不同尺度膨胀卷积的组合使网络在不增加参数量的同时扩大了感受野的面积,增强了特征提取能力,提高了图像的修复质量。
附图说明
图1是基于轮廓和语义引导的人脸图像修复方法流程图;
图2是轮廓修复模型的网络结构图;
图3是图像修复模型的网络结构图;
图4是多尺度融合残差块的结构图;
图5是注意力金字塔中的注意力工作机制示意图;
图6是不同缺失面积下的人脸图像修复效果图;
图7是不同缺失面积下修复前后人脸识别准确率对比图;
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
本发明提出一种基于轮廓和语义引导的人脸图像修复方法,包括以下步骤:
S1:对输入人脸图像进行预处理,将输入图像进行缩放或拉伸,调整成 256×256的统一尺寸,获得待修复人脸图像;
S2:将步骤S1中得到的待修复人脸图像进行灰度化处理,得到待修复人脸灰度图像;
S3:将S2中得到的待修复人脸灰度图像通过Canny边缘检测算法提取人脸轮廓信息,从而获得二值化的待修复人脸轮廓图像;
S4:建立对抗网络结构的基于多尺度残差块的轮廓修复模型,所述轮廓修复模型由一个生成器和一个鉴别器构成,且在生成器中引入了多尺度残差结构,通过构建多尺度融合残差块实现进一步特征提取;
参阅图4所示,为多尺度残差块的结构图,使用卷积核为3×3的普通卷积将输入特征的通道减少到1/4,通过四个分支使用膨胀因子分别为1、2、4、8的膨胀卷积提取不同感受野下的特征信息x1、x2、x3、x4。接着利用相邻累加的方法对提取到的四组多尺度特征使用3×3的普通卷积进行组合关联得到特征X1、X2、X3、X4,然后将X1、X2、X3、X4简单concat后使用1×1的普通卷积进行特征融合。其特征融合的过程如下式所示:
y=Conv1×1,d=1(X1+X2+X3+X4),
式中,y为多尺度融合残差块的输出的特征信息,Conv3×3,d=1和Conv1×1,d=1分别代表卷积核尺寸为3和1、膨胀因子为1的普通卷积;
基于多尺度残差块的轮廓修复模型建立完成,将步骤S2得到的待修复人脸灰度图像以及步骤S3得到的待修复人脸轮廓图像输入到所述轮廓修复模型中,并以图像掩码作为前置条件,预测未知区域的边缘信息,以获得完整的人脸轮廓修复图像;
参阅图2所示,为所述轮廓修复模型结构图,图中k为卷积核大小,n为输出通道数,s为卷积操作的步长。TConv为用于上采样的转置卷积,Residual block为多尺度融合残差块;
将人脸图像的灰度图Iin,gray、轮廓图Cin和缺失区域的掩码图M作为输入,经过轮廓修复网络G1获得修复后的人脸轮廓图像Cout:
Cout=G1(Iin,gray,Cin,M),
所述轮廓修复模型在训练过程中采用对抗损失和特征匹配损失来优化模型性能,轮廓修复总损失函数如下所示:
其中为轮廓修复模型的总损失,Ladv,1为轮廓修复模型的对抗损失, LFM为特征匹配损失,λadv,1和λFM分别为对抗损失和特征匹配损失的正则化参数,D1表示轮廓修复模型的鉴别器,Cgt为真实人脸图像的轮廓图,Igt,gray为真实人脸图像的灰度图,表示鉴别器在第i层的激活图,Ni表示鉴别器第 i个激活图的元素数,K为鉴别器的卷积层数;
S5:建立对抗网络结构的基于注意力金字塔和多尺度残差块的图像修复模型,所述图像修复模型由一个生成器和一个鉴别器构成,且在生成器中引入了注意力金字塔结构和多尺度残差结构,通过构建注意力金字塔和多尺度融合残差块实现进一步特征提取,图像修复模型中引入的多尺度残差块结构与S4中所述一致;
在本发明中,所述图像修复模型引入的注意力金字塔结构,在生成器编码过程中通过金字塔式的由深到浅的注意力来填补缺失区域的特征信息,然后使不同层级重建后的语义完整的特征图通过跳跃链接方式引导生成器解码过程;
参阅图5所示,为注意力金字塔中的注意力工作机制示意图,注意力金字塔结构在编码过程中通过注意力机制从高级特征图中得到的缺失区域内外相似性并将其用于低级特征图内容填充,公式表示方法如下:
其中,fl,fl-1,K,f1代表编码过程中由深到浅的特征图,attention代表注意力模块;
该注意力模块使用3×3的普通卷积在缺失区域内外提取补丁,并计算内外补丁间的余弦相似度:
通过将高级特征图中获得的注意力得分加权到其相邻的低级特征图中来对其缺失区域进行重建,其公式如下:
所述图像修复模型在训练过程中采用对抗损失、l1重建损失、感知损失和风格损失来优化模型性能,图像修复总损失函数如下所示:
Lstyle=E[||ψi(Igt)-ψi(Iout)||1],
其中,为图像修复模型的总损失,Ladv,2为图像修复模型的对抗损失,为l1重建损失,Lperc为感知损失,Lstyle为风格损失,D2表示轮廓修复模型的鉴别器,λadv,2、λperc和λstyle分别为对抗损失、l1重建损失、感知损失和风格损失的正则化参数,Igt为真实人脸图像(ground truth),φi表示预训练的 VGG19网络的relu1_1、relu2_1、relu4_1、relu4_1、relu5_1的激活图,Ni表示第i个激活图的元素数,ψi表示由激活图φi构成的Gram矩阵。
基于注意力金字塔和多尺度残差块的图像修复模型建立完成,将步骤S1 中得到的待修复人脸图像和和步骤S4人脸轮廓修复图像输入到所述图像修复模型中,实现对人脸图像缺失区域的修复,得到修复后的完整图像。
参阅图3所示,为所述图像修复模型结构图,将人脸图像Iin和轮廓修复模型输出的复合轮廓图Ccomp作为输入,通过图像修复网络G2获得修复后的完整人脸图像Iout:
Iout=G2(Iin,Ccomp),
其中Ccomp=Cgt e(1-M)+Cout e M,e表示逐元素相乘。
实验结果与分析
为了测试算法的修复性能,将本发明的算法在CelebA人脸数据集和 CelebA-HQ人脸数据集上进行训练和测试。CelebA是一个大型人脸属性数据集,拥有包括10,177个身份的202,599张人脸图像。CelebA-HQ则是从CelebA 数据集中挑选60,000张图像,将其增强清晰度后生成的人脸数据集。实验中选取CelebA数据集中的200,000张图像和CelebA-HQ数据集中的48,000张训练图像组成训练集,其余图像则组成测试集。
实验环境和参数
本发明的实验环境为搭载2块GTX 2080Ti 11G显卡以及Intel Xeon Silver41102.10GHz 8核CPU的图形工作站。基于Ubuntu16.04操作系统,在 PyTorch深度学习框架上使用Python编程语言搭建网络模型,实现算法的训练和测试。在训练过程中,每个批次的batchsize为4,最大迭代次数设为1e6,采用Adam优化器对模型进行优化,参数β1=0,β2=0.9。
性能评估
从图像测试集中随机挑选六组图像作为实验对象,每组200张人脸图像,分别对应10%~60%六种不同面积大小的图像内容缺失情况。使用本发明算法分别对六组图像进行修复,并通过计算修复后图像与真实图像之间的峰值信噪比和结构相似性来反映算法对不同缺失程度下人脸图像的修复效果。
峰值信噪比(PSNR)是衡量最大值信号和背景噪音之间的图像质量参考值,它的值越大,代表修复后图像失真程度越小。结构相似性(SSIM)是一种从亮度、对比度和结构三个方面衡量两幅图像之间结构相似程度的指标,数值越大表明修复图像与真实图像结构越相似。峰值信噪比和结构相似性表达式分别为:
式中MAX(x,y)表示图像像素的最大值,MSE(x,y)表示真实图像x与修复图像y的均方误差。l(x,y)、c(x,y)和s(x,y)分别反映两幅图像之间的亮度、对比度和结构。μx、μy分别为x、y的均值,分别为x、y的方差,σxy为x、y的协方差。c1、c2、c3为三个常数,其中表2为本发明在不同缺失程度下人脸修复图像的PSNR值和SSIM值。
表2修复人脸图像的PSNR值和SSIM值
相较于以往的图像修复方法,本发明的方法在人脸图像缺失面积小于20%的情况下体现了与以往优秀修复方法不相上下的修复效果,对于缺失面积大于20%,特别是面积大于40%的图像,本方法修复的人脸图像在评估指标 PSNR和SSIM上均具有明显提升,说明了本方法在图像修复质量上有一定程度的提高。
参阅图6和图7所示分别为不同缺失面积下的人脸图像修复效果图和修复前后人脸识别准确率对比图。图6可以从视觉效果上展示出本发明方法良好的修复能力,即使是在面部特征大面积缺失超过50%的情况下,仍能够获得语义明确、结构合理的修复结果。采用FaceNet人脸识别算法分别对上述6 组图像修复前后进行人脸识别实验,由图7可以看出,当缺失面积小于10%时,由于修复前识别率已达较高水平,故修复后提升不大,但仍提升8%左右;当缺失面积超过10%,修复前识别率开始大幅降低,但修复后识别率下降较小,缺失面积小于40%的情况下修复后依然能保持90%左右的识别率;当缺失面积超过50%时,人脸识别算法已经无法正常识别到修复前人脸,故识别准确率极低,尽管修复后准确率仍然不高,但也较修复前提升了5倍左右。
本发明提出的基于轮廓和语义引导的人脸图像修复方法,在算法中首先对人脸轮廓进行修复,提高修复图像人脸部件位置和形状的合理性;在图像修复网络中引入注意力金字塔结构,编码器中利用注意力模块由深到浅的重建语义特征作为先验信息引导解码工作,增强了修复后人脸图像视觉和语义的一致性;采用多尺度融合残差结构,增强了网络的特征提取能力,提高了图像的修复质量。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (9)
1.一种基于轮廓和语义引导的人脸图像修复方法,其特征在于:包括以下步骤:
S1:对输入人脸图像进行预处理,进行缩放或拉伸调整成统一尺寸,获得待修复人脸图像;
S2:将步骤S1中得到的待修复人脸图像进行灰度化处理,得到待修复人脸灰度图像;
S3:将S2中得到的待修复人脸灰度图像通过边缘检测算法提取人脸轮廓信息,从而获得二值化的待修复人脸轮廓图像;
S4:建立对抗网络结构的基于多尺度残差块的轮廓修复模型,所述轮廓修复模型由一个生成器和一个鉴别器构成,且在生成器中引入了多尺度残差结构,将步骤S2得到的待修复人脸灰度图像以及步骤S3得到的待修复人脸轮廓图像输入到基于多尺度残差块的轮廓修复模型中,获得完整的人脸轮廓修复图像;
S5:建立对抗网络结构的基于注意力金字塔和多尺度残差块的图像修复模型,所述图像修复模型由一个生成器和一个鉴别器构成,且在生成器中引入了注意力金字塔结构和多尺度残差结构,将步骤S1中得到的待修复人脸图像和步骤S4人脸轮廓修复图像输入到基于注意力金字塔和多尺度残差块的图像修复模型中,实现对人脸图像缺失区域的修复,得到修复后的完整图像。
2.根据权利要求1所述的一种基于轮廓和语义引导的人脸图像修复方法,其特征在于:所述多尺度残差结构通过多尺度融合残差块,利用不同尺度的膨胀卷积来提取不同感受野下的特征信息并实现多尺度特征融合,所述多尺度融合残差块将输入的特征信息分别通过四个分支使用膨胀因子分别为1、2、4、8的膨胀卷积提取不同尺度的特征x1、x2、x3、x4,通过相邻累加的方法将不同稀疏多尺度特征组合关联,再进行特征融合。
4.根据权利要求1所述的一种基于轮廓和语义引导的人脸图像修复方法,其特征在于:所述轮廓修复模型将人像的灰度图Iin,gray、轮廓图Cin和缺失区域的掩码图M作为输入,通过轮廓修复网络获得修复后的轮廓图像:
Cout=G1(Iin,gray,Cin,M),
其中,Cout为网络修复出的完整人像轮廓图,G1表示轮廓修复模型的生成器。
5.根据权利要求1所述的一种基于轮廓和语义引导的人脸图像修复方法,其特征在于:所述注意力金字塔结构在生成器编码过程中通过金字塔式的由深到浅的注意力来填补缺失区域的特征信息,使不同层级重建后的语义完整的特征图通过跳跃链接方式引导生成器解码过程。
7.根据权利要求6所述的一种基于轮廓和语义引导的人脸图像修复方法,其特征在于:所述注意力模块使用3×3的普通卷积在缺失区域内外提取补丁,并计算其余弦相似度:
通过将高级特征图中获得的注意力得分加权到其相邻的低级特征图中来对其缺失区域进行重建,其公式如下:
8.根据权利要求1所述的一种基于轮廓和语义引导的人脸图像修复方法,其特征在于:所述图像修复模型将人像Iin和轮廓修复模型输出的复合轮廓图Ccomp作为输入,通过图像修复网络获得修复后的完整人脸图像:
Iout=G2(Iin,Ccomp),
其中,Iout为网络修复出的完整人脸图像,G2表示图像修复模型的生成器,Ccomp=Cgte(1-M)+Coute M,Cgt为真实人脸图像的轮廓图,e表示逐元素相乘。
9.根据权利要求1所述的一种基于轮廓和语义引导的人脸图像修复方法,其特征在于:所述边缘检测算法为Canny边缘检测算法,用于提取并输出人脸图像的轮廓信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210363272.2A CN114862696A (zh) | 2022-04-07 | 2022-04-07 | 一种基于轮廓和语义引导的人脸图像修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210363272.2A CN114862696A (zh) | 2022-04-07 | 2022-04-07 | 一种基于轮廓和语义引导的人脸图像修复方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114862696A true CN114862696A (zh) | 2022-08-05 |
Family
ID=82629575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210363272.2A Pending CN114862696A (zh) | 2022-04-07 | 2022-04-07 | 一种基于轮廓和语义引导的人脸图像修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114862696A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115760646A (zh) * | 2022-12-09 | 2023-03-07 | 中山大学·深圳 | 一种针对不规则孔洞的多模态人脸图像修复方法和系统 |
-
2022
- 2022-04-07 CN CN202210363272.2A patent/CN114862696A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115760646A (zh) * | 2022-12-09 | 2023-03-07 | 中山大学·深圳 | 一种针对不规则孔洞的多模态人脸图像修复方法和系统 |
CN115760646B (zh) * | 2022-12-09 | 2024-03-15 | 中山大学·深圳 | 一种针对不规则孔洞的多模态人脸图像修复方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113077471B (zh) | 一种基于u型网络的医学图像分割方法 | |
CN111784602B (zh) | 一种生成对抗网络用于图像修复的方法 | |
CN112837234B (zh) | 一种基于多列门控卷积网络的人脸图像修复方法 | |
CN113962893A (zh) | 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法 | |
CN112132833A (zh) | 一种基于深度卷积神经网络的皮肤病图像病灶分割方法 | |
CN111861945B (zh) | 一种文本引导的图像修复方法和系统 | |
CN112365556B (zh) | 一种基于感知损失和风格损失的图像扩展方法 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN111738363A (zh) | 基于改进的3d cnn网络的阿尔茨海默病分类方法 | |
CN113298736B (zh) | 一种基于面部样式的人脸图像修复方法 | |
CN110599502A (zh) | 一种基于深度学习的皮肤病变分割方法 | |
CN116258652B (zh) | 基于结构注意和文本感知的文本图像修复模型及方法 | |
CN116739899A (zh) | 基于saugan网络的图像超分辨率重建方法 | |
CN114862696A (zh) | 一种基于轮廓和语义引导的人脸图像修复方法 | |
CN116523985B (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
CN112001865A (zh) | 一种人脸识别方法、装置和设备 | |
Yu et al. | MagConv: Mask-guided convolution for image inpainting | |
CN116912268A (zh) | 一种皮肤病变图像分割方法、装置、设备及存储介质 | |
CN116703750A (zh) | 基于边缘注意力和多阶微分损失的图像去雾方法及系统 | |
CN116416161A (zh) | 一种改进生成对抗网络的图像修复方法 | |
CN116051407A (zh) | 一种图像修复方法 | |
CN115641445A (zh) | 一种非对称内卷积与Transformer相融合的遥感图像阴影检测方法 | |
CN115035170A (zh) | 基于全局纹理与结构的图像修复方法 | |
CN111695507B (zh) | 一种基于改进VGGNet网络和PCA的静态手势识别方法 | |
CN114565626A (zh) | 基于PSPNet改进的肺部CT图像分割算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |