CN112949553A - 基于自注意力级联生成对抗网络的人脸图像修复方法 - Google Patents

基于自注意力级联生成对抗网络的人脸图像修复方法 Download PDF

Info

Publication number
CN112949553A
CN112949553A CN202110304552.1A CN202110304552A CN112949553A CN 112949553 A CN112949553 A CN 112949553A CN 202110304552 A CN202110304552 A CN 202110304552A CN 112949553 A CN112949553 A CN 112949553A
Authority
CN
China
Prior art keywords
portrait
layer
restoration
self
contour
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110304552.1A
Other languages
English (en)
Inventor
陈懋宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110304552.1A priority Critical patent/CN112949553A/zh
Publication of CN112949553A publication Critical patent/CN112949553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于自注意力级联生成对抗网络的人脸图像修复方法,包括:获取待修复的原始缺损人像;基于所述原始缺损人像处理得到对应的:灰度缺损人像、缺损轮廓人像和标记所述原始缺损人像中缺损区域的掩膜;轮廓修复生成对抗网络模型基于所述掩膜、所述灰度缺损人像和所述缺损轮廓人像输出修复轮廓人像;包含有自注意力机制层的填补生成对抗网络模型基于所述修复轮廓人像、原始缺损人像和所述掩膜处理得到完整修复人像。本发明的算法是基于深度学习的算法并针对人脸修复引入了自注意力机制,能够充分利用图像中的信息,相较于现有算法,可修复大面积,不规则的图像缺损,修复效果可量化评估,算法的鲁棒性和普适性强,且修复效果好。

Description

基于自注意力级联生成对抗网络的人脸图像修复方法
技术领域
本发明涉及一种人脸图像修复方法,特别是一种基于自注意力级联生成对抗网络的人脸图像修复方法。
背景技术:
图像修复是计算机视觉与人工智能领域的一项十分重要的研究课题。图像的修复是指通过一定的技术手段,将受损的图像恢复到于原来相近似的状态。目前,图像修复方法在老旧图片修复、照片美化及背景人物去除等领域中得到了广泛的应用。
传统的图像修复算法是基于一定的数学方法和数学概念进行的,如:依赖图像边界的数学特征,使用偏微分方法进行的图像修复、使用光度转换在图像空域中进行搜索,根据图像的纹理块特征进行图像的修复与连接。这些数学方法依赖于复杂的数学原理,且严重地依赖于图像中已经存在的信息,生成信息的能力较差,因此,这一类方法通常不具有良好的鲁棒性和普适性。
随着深度学习的发展,基于深度学习的图像修复方法取得了一定的成果。虽然目前一些基于深度学习的图像修复方法在针对各部分结构相似度高的图像的修复中效果尚可,但是常常存在着训练不稳定、梯度消失等问题,难以应用于人脸图像的修复。综上,人脸图像修复算法还有很大的改进空间。
发明内容:
针对现有技术存在的缺陷,本发明提出一种基于自注意力级联生成对抗网络的人脸图像修复方法,用以提升人脸图像修复的稳定性、准确性、鲁棒性。
本发明公开了基于自注意力级联生成对抗网络的人脸图像修复方法,包括:
S1:获取待修复的原始缺损人像;
S2:基于所述原始缺损人像处理得到对应的:灰度缺损人像、缺损轮廓人像和标记所述原始缺损人像中缺损区域的掩膜;
S3:轮廓修复生成对抗网络模型基于所述掩膜、所述灰度缺损人像和所述缺损轮廓人像输出修复轮廓人像;
S4:包含有自注意力机制层的填补生成对抗网络模型基于所述修复轮廓人像、原始缺损人像和所述掩膜处理得到完整修复人像。
本发明的其他优选实施例将在具体实施方式部分详细说明。
本发明至少具有以下有益效果:
本发明的算法是基于深度学习的算法并针对人脸修复引入了自注意力机制,能够充分利用图像中的信息,相较于现有算法,可修复大面积,不规则的图像缺损,修复效果可量化评估,算法的鲁棒性和普适性强,且修复效果好。
本发明的其他有益效果将在具体实施方式部分详细说明。
附图说明:
图1为本发明优选实施例公开的基于自注意力级联生成对抗网络的人脸图像修复方法的方法流程图。
图2为本发明优选实施例公开的基于自注意力级联生成对抗网络的人脸图像修复方法的网络模型图。
图3为本发明优选实施例公开的基于自注意力级联生成对抗网络的人脸图像修复方法的中第一级网络的模型结构图。
图4为本发明优选实施例公开的基于自注意力级联生成对抗网络的人脸图像修复方法的第二级网络的模型结构图。
图5为本发明优选实施例公开的基于自注意力级联生成对抗网络的人脸图像修复方法的残差网络中残差块的结构图。
图6为本发明优选实施例公开的基于自注意力级联生成对抗网络的人脸图像修复方法的自注意力模块的结构图。
图7为本发明优选实施例公开的基于自注意力级联生成对抗网络的人脸图像修复方法的CelebA人脸图像数据集上的部分训练图像。
图8为本发明优选实施例公开的基于自注意力级联生成对抗网络的人脸图像修复方法的CelenA人脸图像数据集上的部分检测图像。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
如图1至8所示,本发明公开了一种基于自注意力级联生成对抗网络的人脸图像修复方法,包括:
S1:获取待修复的原始缺损人像;
S2:基于所述原始缺损人像处理得到对应的:灰度缺损人像、缺损轮廓人像和标记所述原始缺损人像中缺损区域的掩膜;
S3:轮廓修复生成对抗网络模型基于所述掩膜、所述灰度缺损人像和所述缺损轮廓人像输出修复轮廓人像;
S4:包含有自注意力机制层的填补生成对抗网络模型基于所述修复轮廓人像、原始缺损人像和所述掩膜输出完整修复人像。
本发明首先将待修复图像(原始缺损人像)标记待修复区域的掩膜,待修复图像的轮廓图输入第一级GAN网络(轮廓修复生成对抗网络模型)的编码器进行特征提取,得到特征图,然后使用第一级GAN网络的编码器重建出图像完整的边缘轮廓图(修复轮廓人像),接着,将待修复图像,待修复图像的完整边缘轮廓图,待修复部分的掩膜输入到第二级GAN网络(填补生成对抗网络模型) 的编码器中进行特征提取,最后利用第二级GAN网络的解码器还原出完整的图像,即得到完整修复人像。
本文所述的级联网络模型由两级GAN网络构成,分别为第一级的轮廓图生成网络和第二级的包含自注意力机制的填充补全网络。所述两级网络使用含有残差模块的生成对抗网络。每级生成对抗网络包含一个生成器和一个判别器。
在本发明的一些实施例中,所述步骤S2包括:
将所述原始缺损人像二值化处理得到所述灰度缺损人像;
通过对所述灰度缺损人像进行边缘检测得到所述缺损轮廓人像;
确定用于标记所述原始缺损人像的缺损部分的掩膜;
所述步骤S3包括:
将所述掩膜、所述掩膜遮挡处理后的所述灰度缺损人像和所述缺损轮廓人像拼接得到轮廓修复输入图像;
所述轮廓修复生成对抗网络模型的第一生成器基于所述轮廓修复输入图像输出所述修复轮廓人像。
在本发明的一些实施例中,所述步骤S3包括:
将所述轮廓修复输入图像输入所述第一生成器的第一编码器,以输出一级轮廓特征图;
将所述一级轮廓特征图输入第一生成器的第一残差网络模块,以输出二级轮廓特征图;
将所述二级轮廓特征图输入第一生成器的第一解码器,以输出所述修复轮廓人像。
在本发明的一些实施例中,所述步骤S3中,所述第一编码器和所述第一解码器均包括3层卷积层,所述第一残差网络模块包括8层残差层。
所述第一生成器中的所述卷积层和所述残差层均进行了归一化处理,并使用Relu函数进行了激活。
实施例一
所述第一级生成对抗网络的生成器包含十四层。第一层网络的生成器可以分为三个部分即编码器,残差网络模块和解码器。编码器的第一层为7*7的卷积层,第二层为4*4的卷积层,第三层为4*4的卷积层。所述卷积层均采用谱归一化和实例归一化进行归一化处理,并使用Relu函数进行激活。
所使用的卷积层将特征图输出到残差网络模块中,残差模块包含8个残差层。所述残差块每一层的结构相同。所述残差层包含两个分支,第一个分支为所述输入残差块部分的特征图第二部分由两层3×3的卷积层构成,使用谱归一化和实例归一化进行归一化操作,并使用Relu函数进行激活。所述残差层最终将所述第一部分与第二部分得到的特征图相加。
所述第一级生成对抗网络的解码器由两层反卷积层和一层卷积层构成,第一层为4*4的反卷积层,第二层为4*4的反卷积层,第三层为7*7的卷积层,均使用谱归一化和实例归一化进行归一化操作处理,并使用Relu函数进行激励。
在所述第一级网络的生成器中,输入为大小为128*128*1的受损图像的灰度图,128*128*1的轮廓,128*128*1的掩膜图。所述网络将所述灰度图和轮廓图分别使用经过布尔化后的掩膜图进行掩膜遮挡处理,并将所述掩膜遮挡处理后的轮廓图、掩膜遮挡处理后的灰度图、掩膜图进行拼接处理,得到128*128*3 的编码器网络输入图。所述编码器的第一层卷积层的输出特征图大小变为 64*64*64,第二层卷积层使用第一层卷积层的输出特征图作为输入,输出特征图大小为32*32*128,第三卷积层是用第二卷积层的输出特征图作为输入,输出特征图大小为16*16*256。在残差网络模块中,每层输入和输出特征图的大小均为16*16*256。在所述第一层网络生成器的解码器部分,解码器的第一反卷积层将从所述残差网络模块中输出的特征图作为输出,并输出32*32*128的特征图,解码器的第二反卷积层将第一反卷积层的输出特征图作为输入,并输出 64*64*64的特征图,解码器卷积层将64*64*64的特征图还原为128*128*1的修复后轮廓图。
以上为实施例一公开的优选方案。
在本发明的一些实施例中,所述步骤S3之前还包括:
建立轮廓修复生成对抗网络模型中的所述第一生成器和第一判断器,用于根据所述第一判断器对所述第一生成器输出结果的判断来优化所述第一生成器;
基于所述第一损失函数对所述第一生成器和所述第一判断器的参数进行优化:
其中,所述第一损失函数基于第一生成对抗损失和特征匹配损失结合得到。
所述第一生成对抗损失的表达式为:
Figure BDA0002986095620000071
所述特征匹配损失的表达式为:
Figure BDA0002986095620000072
所示第一损失函数的表达式为:
Figure BDA0002986095620000073
其中,λadv,1和λFM分别指所
Figure BDA0002986095620000074
的权重,
Figure BDA0002986095620000075
指生成对抗损失,Cgt指初始边缘图像,Igray指原始灰度图像。
实施例二
所述第一级网络的判别器共由五层网络所组成,第一层为4×4的卷积层,第二层为4×4的卷积层,第三层为4×4的卷积层,第四层为4×4的卷积层,第五层为4×4的卷积层。每层卷积层使用谱归一化进行归一化处理,同时,使用LeakyRelu函数进行激活。所述判别器使用所述第一级网络的生成器的生成结果即修复后的轮廓图作为输入,大小为128*128*1,经第一层卷积层运算后得到64*64*64个输出,经第二层卷积层运算后得到32*32*128个输出,经第三个卷积层运算后得到16*16*256个输出,经第四个卷积层运算后得到8*8*512个输出,第五个卷积层输出结果为单个数值。在判别器的最后使用sigmoid函数进行归一化处理,得到0到1之间的数值,该数值表示所述修复后轮廓图的真实程度,1为接近原图所得到的结果,0为伪造的结果。
所述的第一级网络依赖损失函数对网络各部分的参数进行优化。其损失函数包括生成对抗损失和特征匹配损失结合起来的,具体结合公式如下:
Figure BDA0002986095620000076
其中,λadv,1和λFM分别表示所
Figure BDA0002986095620000077
的权重。本文所述模型中,λadv,1和λFM取值为:λadv,1=1,λFM=10。所述生成对抗损失
Figure BDA0002986095620000078
Figure BDA0002986095620000081
其中,P1=(Cgt,Igeay)表示初始边缘图像Cgt与原始灰度图像Igray的组合,Cgt表示初始边缘图像,即原始图像经过阈值为δ的Canny边缘检测得来即:
Cgt=Canny(Igt,δ)
P2=(Cpred,Igray)表示预测得到的边缘图像和原始灰度图像Igray的组合。
特征匹配损失的定义有:
Figure BDA0002986095620000082
其中,L代表判别器的最终卷积层,Ni是第i层的元素数目,
Figure BDA0002986095620000083
代表判别器中第i层的激励。
以上为实施例二公开的优选方案。
在本发明的一些实施例中,所述步骤S4,包括:
将所述修复轮廓人像、原始缺损人像和所述掩膜拼合得到完整修复输入图像;
将完整修复输入图像输入所述填补生成对抗网络模型中第二生成器的第二编码器,以输出一级修复特征图;
将所述一级修复特征图输入所述第二生成器的第二残差网络模块,以输出二级修复特征图;
将所述二级修复特征图输入所述第二生成器的第二解码器,以输出所述完整修复人像;
其中,所述第二解码器至少包括1层自注意力机制层,用于优化人像细节修复能力。
在本发明的一些实施例中,所述步骤S4中,所述自注意力机制层的卷积层包括:查询层,用于计算各个像素相对于图像中任一点的影响;键值层,用于查询层提供查询的数据库;数值层。其中,所述查询层、所述键值层和所述数值层中的任意一点,均由特征图中的数值经过1*1的卷积得到。
在本发明的一些实施例中,所述步骤S4之前还包括:
建立轮廓修复生成对抗网络模型中的所述第二生成器和第二判断器,用于根据所述第二判断器对所述第二生成器输出结果的判断来优化所述第二生成器;
基于所述第二损失函数对所述第二生成器和所述第二判断器的参数进行优化:
其中,所述第二损失函数基于第二生成对抗损失、生成样式损失和预测损失结合得到。
在本发明的一些实施例中,所述第二生成对抗损失的表达式为:
Figure BDA0002986095620000091
所述生成样式损失的表达式为:
Figure BDA0002986095620000092
所述预测损失的表达式为:
Figure BDA0002986095620000093
其中,P3=(Igt,Cc omp),P4=(Ipred,Cc omp),即P3为原始完整图像Igt和预测后特征图Cc omp的组合,P4为预测后图像Ipred和特征图Cc omp的组合,
Figure BDA0002986095620000094
代表 VGG-19中的relu1-1,relu2-1,relu3-1,relu4-1和relu5-1层。
实施例三
所述第二级网络的生成器包含四个模块:编码器,解码器,自注意力模块。所述第二级网络的编码器共包括三层:第一层为7*7的卷积层,第二层为4*4 的卷积层,第三层为4*4的卷积层。所述卷积层均采用谱归一化和实例归一化进行归一化处理,并使用Relu函数进行激活。
所使用的卷积层将特征图输出到残差网络模块中,残差模块包含8个残差层。所述残差块每一层的结构相同。所述残差层包含两个分支,第一个分支为所述输入残差块部分的特征图第二部分由两层3×3的卷积层构成,使用谱归一化和实例归一化进行归一化操作,并使用Relu函数进行激活。所述残差层最终将所述第一部分与第二部分得到的特征图相加。
第二级生成对抗网络的解码器由两层反卷积层和一层卷积层构成,第一层为4*4的反卷积层,第二层为4*4的反卷积层,第三层为7*7的卷积层,均使用谱归一化和实例归一化进行归一化操作处理,并使用Relu函数进行激励。在所述第二级生成对抗网络的解码器的第一层后,加入了自注意力机制层。所述自注意力机制层可以在节约计算资源的前提下优化网络的细节修复能力。
所述自注意力层包含三个不同的卷积层,查询层(query layer,Q),键值层(keylayer,K),以及数值层(value layer,V)。查询层会从全局的特征图中获取信息,以计算各个像素相对于图像中某一点的影响。键值层能够为查询层提供查询的数据库。对于查询层,键值层,数值层中的每一点,都是由特征图中的数值经过1×1的卷积得来。令其中每一点的权重值为WQ,WK,WV, WZ。因此注意力机制各层中的运算可以表示为:
Figure BDA0002986095620000101
其中,
Figure BDA0002986095620000102
其中,X为来自前一隐藏层的隐藏特征,C为通道数,N为来自前一隐藏层的特征位置的数量,C是卷积层输出特征的数量。同时对于注意力图B,有
Figure BDA0002986095620000103
Figure BDA0002986095620000104
N=H×W,且对于B中的每一点βj,i有:
Figure BDA0002986095620000105
sij=Q(xi)TK(xj)
βj,i的含义是:自注意力模型在生成第i个像素时,对第j个像素的依赖程度。特征值图的计算如下:
Figure BDA0002986095620000106
其中
Figure BDA0002986095620000107
因此,注意力层的输出可以表示为:
Figure BDA0002986095620000111
将注意力层的输出乘以可变系数γ,结合原始特征图,可以得到自注意力模块的最终输出,此时有:
yi=γoi+xi
系数γ的初始值为0,且可以通过学习改变。
优选地,在所述第二级网络的生成器中,输入为大小为128*128*3的受损图像,128*128*1的预测后的轮廓图与原轮廓图未缺损部分的合成,128*128*1 的掩膜图。所述网络将所述受损图像使用经过布尔化后的掩膜图进行掩膜遮挡处理,并将所述受损图像、预测后的轮廓图、掩膜图进行拼接处理,得到 128*128*4的编码器网络输入图。所述编码器的第一层卷积层的输出特征图大小变为64*64*64,第二层卷积层使用第一层卷积层的输出特征图作为输入,输出特征图大小为32*32*128,第三卷积层是用第二卷积层的输出特征图作为输入,输出特征图大小为16*16*256。在残差网络模块中,每层输入和输出特征图的大小均为16*16*256。在所述第一层网络生成器的解码器部分,解码器的第一反卷积层将从所述残差网络模块中输出的特征图作为输出,并输出32*32*128的特征图,输入到自注意力模块中,得到处理后的大小为32*32*128特征图。解码器的第二反卷积层将第一反卷积层的输出特征图作为输入,并输出64*64*64的特征图,解码器卷积层将64*64*64的特征图还原为128*128*1的修复后图像。
所述第一级网络的判别器共由五层网络所组成,第一层为4×4的卷积层,第二层为4×4的卷积层,第三层为4×4的卷积层,在第三卷积层后,引入一个自注意力层。第四层为4×4的卷积层,第五层为4×4的卷积层。每个卷积层均使用谱归一化进行归一化处理,同时,使用LeakyRelu函数进行激活。
所述的第二级网络依赖损失函数对网络各部分的参数进行优化。其损失函数包括生成对抗损失,预测损失,生成样式损失结合起来的,具体结合公式如下:
Figure BDA0002986095620000121
其中,λl1=1,λa dv,2=λprec=0.1,λst=250。生成对抗损失
Figure BDA0002986095620000122
的计算如下:
Figure BDA0002986095620000123
对P3、P4有:P3=(Igt,Ccomp),P4=(Ipred,Cc omp),即P3为原始完整图像 Igt和预测后特征图Cc omp的组合,P4为预测后图像Ipred和特征图Cc omp的组合。
预测损失
Figure BDA0002986095620000124
是通过比较生成器卷积层输出的特征图和已训练网络的特征图而得到的,其计算为,
Figure BDA0002986095620000125
其中,
Figure BDA0002986095620000126
代表VGG-19中的relu1-1,relu2-1,relu3-1,relu4-1 and relu5-1层,同样的这些层也被用于计算如下所示的生成样式损失
Figure BDA0002986095620000127
Figure BDA0002986095620000128
以上为实施例三公开的优选方案。
为进一步对本发明公开的技术方案详细说明,本发明还公开了以下优选实施例:
本发明公开的神经网络模型是基于生成对抗网络实现的,模型的本质是一种深度学方法,和其他深度学习方法一样,本模型也需要进行训练从而能够实现给定功能。根据本申清中所述网络的训结构特性,其训练采用了分阶段训练的训练策略进行。首先对第一级网络即边缘生成网络进行训练,训练200万次迭代,进一步地,对第二级网络使用Canny边缘检测进行训练,以0.0001训练 40万次迭代,再进一步地,降低学习率至0.00001进行训练20万次迭代的精细化训练,最后使用第一级边缘生成网络的输出代替Canny边缘检测的结果作为第二级网络的输入以0.000001的学习率进行40万个迭代的共同训练。
对于训练过程首先应当准备原图和掩膜,所述原图和掩膜图像的大小应不小于128*128,对于原图和掩膜图像首先应当进行尺寸调整,通过适当裁剪使图像尺寸变为128*128。将裁减后的图像灰度处理得到灰度图,然后对所述灰度图进行Canny边缘检测运算得到原图所对应的边缘图。使用掩膜图片对原图、灰度图、边缘图像分别进行掩膜操作,得到掩膜遮挡后的原图、掩膜遮挡后的灰度图,掩膜遮挡后的边缘图像。
在所述第一级网络的训练中,所述第一级网络的生成器的输入为大小为 128*128*l的受损图像的灰度图,128*128*1的轮廓,128*128*1的掩膜图。所述网络将所述灰度图和轮廓图分别使用经过布尔化后的掩膜图进行掩膜遮挡处理,并将所述掩膜遮挡处理后的轮廓图、掩膜遮挡处理后的灰度图、掩膜图进行拼接处理,得到128*128*3的编码器网络输入图。所述编码器的第一层卷积层的输出特征图大小变为64*64*64,第二层卷积层使用第一层卷积层的输出特征图作为输入,输出特征图大小为32*32*128,第三卷积层是用第二卷积层的输出特征图作为输入,输出特征图大小为16*16*256。在残差网络模块中,每层输入和输出特征图的大小均为16*16*256。在所述第一层网络生成器的解码器部分,解码器的第一反卷积层将从所述残差网络模块中输出的特征图作为输出,并输出32*32*128的特征图,解码器的第二反卷积层将第一反卷积层的输出特征图作为输入,并输出64*64*64的特征图,解码器卷积层将64*64*64的特征图还原为128*128*1的修复后轮廓图。具体参见表1。
Figure BDA0002986095620000131
Figure BDA0002986095620000141
表1
其中n*n_c式子中n表示卷积层的大小,c表示该层输出特征图的通道数。在训练过程中,需要对网络参数进行优化和更新。在每次迭代都会根据损失函数的结果调整网络的参数,进而实现对网络的训练。
Figure BDA0002986095620000142
其中,λadv,1和λFM分别表示所
Figure BDA0002986095620000143
的权重。本文所述模型中,λadv,1和λFM取值为:λadv,1=1,λFM=10。所述生成对抗损失:
Figure BDA0002986095620000144
其中P1=(Cgt,Igray)表示初始边缘图像Cgt与原始灰度图像Igray的组合,Cgt表示初始边缘图像,P2=(Cpred,Igray)表示预测得到的边缘图像和原始灰度图像Igray的组合。特征匹配损失的定义有:
Figure BDA0002986095620000145
其中L代表判别器的最终卷积层,Ni是第i层的元素数目,
Figure BDA0002986095620000146
代表判别器中第i层的激励。
在所述第二级网络的训练中,输入为大小为128*128*3的受损图像,128*128*1的预测后的轮廓图与原轮廓图未缺损部分的合成,128*128*1的掩膜图。所述网络将所述受损图像使用经过布尔化后的掩膜图进行掩膜遮挡处理,并将所述受损图像、预测后的轮廓图、掩膜图进行拼接处理,得到128*128*4 的编码器网络输入图。所述编码器的第一层卷积层的输出特征图大小变为 64*64*64,第二层卷积层使用第一层卷积层的输出特征图作为输入,输出特征图大小为32*32*128,第三卷积层是用第二卷积层的输出特征图作为输入,输出特征图大小为16*16*256。在残差网络模块中,每层输入和输出特征图的大小均为16*16*256。在所述第一层网络生成器的解码器部分,解码器的第一反卷积层将从所述残差网络模块中输出的特征图作为输出,并输出32*32*128的特征图,输入到自注意力模块中,得到处理后的大小为32*32*128特征图。解码器的第二反卷积层将第一反卷积层的输出特征图作为输入,并输出64*64*64的特征图,解码器卷积层将64*64*64的特征图还原为128*128*1的修复后图像。
所述第二层级络的网络参数值更新也依赖于损失函数,其损失函数如下:
Figure BDA0002986095620000151
其中,λl1=1,λadv,2=λprec=0.1,λst=250,生成对抗损失
Figure BDA0002986095620000152
的计算如下:
Figure BDA0002986095620000153
对P3、P4有:P3=(Igt,Ccomp),P4=(Ipred,Cc omp),即P3为原始完整图像 Igt和预测后特征图Cc omp的组合,P4为预测后图像Ipred和特征图Cc omp的组合。预测损失
Figure BDA0002986095620000157
是通过比较生成器卷积层输出的特征图和已训练网络的特征图而得到的,其计算为:
Figure BDA0002986095620000154
Figure BDA0002986095620000155
代表VGG-19中的relu1 1,relu2 1,relu3 1,relu4 1 and relu51层,同样的这些层也被用于计算如下所示的生成样式损失:
Figure BDA0002986095620000156
卷积层一 4*4_64
卷积层二 4*4_128
卷积层三 7*7_256
残差层(1-8) 3*3_256
反卷积层一 4*4_128
自注意力模块 1*1_128-1*1_128-1*1_128
反卷积层二 4*4_64
卷积层3 7*7_1
表2
其中,n*n_c-n*n_c式子中n表示卷积层的大小,c表示该层输出特征图的通道数,-表示并联关系。
现有的人脸修复技术往往采用数学方法诸如求导,预测分析等等,从数学或统计学特征上分析,只能够修复缺损部分面积较小且缺损形状较为规则的图像,同时这些算法的修复效果也较差,与原图相比存在一定的偏差。深度学习的图像修复目前是研究的热点之一,但是都是修复带有重复性较强的纹理结构的图像,很少有考虑到人脸修复这一类不规则,且图片可供参考信息少的图像修复问题的实际需要,本发明的算法是基于深度学习的算法并针对人脸修复引入了自注意力机制,能够充分利用图像中的信息,相较于现有算法,可修复大面积,不规则的图像缺损,修复效果可量化评估,算法的鲁棒性和普适性强,且修复效果好。
在使用本申请所述模型进行图像修复前,应当事先准备好原图、掩膜图片,以及网络的参数文件。掩膜图片的获取可以使用手动绘制,也可以使用图像分割的方法进行。随后模型将使用灰度变换,Canny边缘检测生成模型中所需灰度图、边缘图。模型在修复图像时会首先利用第一级网络的生成器部分修复出完整的边缘图像,再使用第二级网络修复出完整的图像,得到最终结果。由于修复过程不需要更新网络的参数,因此不需要使用网络的判别器部分,亦不需要对网络的损失函数进行运算,以实现网络数据的更新。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.基于自注意力级联生成对抗网络的人脸图像修复方法,其特征在于,包括:
S1:获取待修复的原始缺损人像;
S2:基于所述原始缺损人像处理得到对应的:灰度缺损人像、缺损轮廓人像和标记所述原始缺损人像中缺损区域的掩膜;
S3:轮廓修复生成对抗网络模型基于所述掩膜、所述灰度缺损人像和所述缺损轮廓人像输出修复轮廓人像;
S4:包含有自注意力机制层的填补生成对抗网络模型基于所述修复轮廓人像、原始缺损人像和所述掩膜输出完整修复人像。
2.根据权利要求1所述的基于自注意力级联生成对抗网络的人脸图像修复方法,其特征在于,所述步骤S2包括:
将所述原始缺损人像二值化处理得到所述灰度缺损人像;
通过对所述灰度缺损人像进行边缘检测得到所述缺损轮廓人像;
确定用于标记所述原始缺损人像的缺损部分的掩膜;
所述步骤S3包括:
将所述掩膜、所述掩膜遮挡处理后的所述灰度缺损人像和所述缺损轮廓人像拼接得到轮廓修复输入图像;
所述轮廓修复生成对抗网络模型的第一生成器基于所述轮廓修复输入图像输出所述修复轮廓人像。
3.根据权利要求2所述的基于自注意力级联生成对抗网络的人脸图像修复方法,其特征在于,所述步骤S3包括:
将所述轮廓修复输入图像输入所述第一生成器的第一编码器,以输出一级轮廓特征图;
将所述一级轮廓特征图输入第一生成器的第一残差网络模块,以输出二级轮廓特征图;
将所述二级轮廓特征图输入第一生成器的第一解码器,以输出所述修复轮廓人像。
4.根据权利要求3所述的基于自注意力级联生成对抗网络的人脸图像修复方法,其特征在于,所述步骤S3中,所述第一编码器和所述第一解码器均包括3层卷积层,所述第一残差网络模块包括8层残差层;
所述第一生成器中的所述卷积层和所述残差层均进行了归一化处理,并使用Relu函数进行了激活。
5.根据权利要求4所述的基于自注意力级联生成对抗网络的人脸图像修复方法,其特征在于,所述步骤S3之前还包括:
建立轮廓修复生成对抗网络模型中的所述第一生成器和第一判断器,用于根据所述第一判断器对所述第一生成器输出结果的判断来优化所述第一生成器;
基于所述第一损失函数对所述第一生成器和所述第一判断器的参数进行优化:
其中,所述第一损失函数基于第一生成对抗损失和特征匹配损失结合得到。
6.根据权利要求5所述的基于自注意力级联生成对抗网络的人脸图像修复方法,其特征在于,所述第一生成对抗损失的表达式为:
Figure FDA0002986095610000021
所述特征匹配损失的表达式为:
Figure FDA0002986095610000022
所示第一损失函数的表达式为:
Figure FDA0002986095610000023
其中,λadv,1和λFM分别指所
Figure FDA0002986095610000031
的权重,
Figure FDA0002986095610000032
指生成对抗损失,Cgt指初始边缘图像,Igray指原始灰度图像。
7.根据权利要求1所述的基于自注意力级联生成对抗网络的人脸图像修复方法,其特征在于,所述步骤S4,包括:
将所述修复轮廓人像、原始缺损人像和所述掩膜拼合得到完整修复输入图像;
将完整修复输入图像输入所述填补生成对抗网络模型中第二生成器的第二编码器,以输出一级修复特征图;
将所述一级修复特征图输入所述第二生成器的第二残差网络模块,以输出二级修复特征图;
将所述二级修复特征图输入所述第二生成器的第二解码器,以输出所述完整修复人像;
其中,所述第二解码器至少包括1层自注意力机制层,用于优化人像细节修复能力。
8.根据权利要求7所述的基于自注意力级联生成对抗网络的人脸图像修复方法,其特征在于,所述步骤S4中,所述自注意力机制层的卷积层包括:
查询层,用于计算各个像素相对于图像中任一点的影响;
键值层,且于查询层提供查询的数据库;
数值层;
其中,所述查询层、所述键值层和所述数值层中的任意一点,均由特征图中的数值经过1*1的卷积得到。
9.根据权利要求8所述的基于自注意力级联生成对抗网络的人脸图像修复方法,其特征在于,所述步骤S4之前还包括:
建立轮廓修复生成对抗网络模型中的所述第二生成器和第二判断器,用于根据所述第二判断器对所述第二生成器输出结果的判断来优化所述第二生成器;
基于所述第二损失函数对所述第二生成器和所述第二判断器的参数进行优化:
其中,所述第二损失函数基于第二生成对抗损失、生成样式损失和预测损失结合得到。
10.根据权利要求9所述的基于自注意力级联生成对抗网络的人脸图像修复方法,其特征在于,所述第二生成对抗损失的表达式为:
Figure FDA0002986095610000041
所述生成样式损失的表达式为:
Figure FDA0002986095610000042
所述预测损失的表达式为:
Figure FDA0002986095610000043
其中,P3=(Igt,Ccomp),P4=(Ipred,Ccomp),即P3为原始完整图像Igt和预测后特征图Ccomp的组合,P4为预测后图像Ipred和特征图Ccomp的组合,
Figure FDA0002986095610000044
代表VGG-19中的relu1-1,relu2-1,relu3-1,relu4-1和relu5-1层。
CN202110304552.1A 2021-03-22 2021-03-22 基于自注意力级联生成对抗网络的人脸图像修复方法 Pending CN112949553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110304552.1A CN112949553A (zh) 2021-03-22 2021-03-22 基于自注意力级联生成对抗网络的人脸图像修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110304552.1A CN112949553A (zh) 2021-03-22 2021-03-22 基于自注意力级联生成对抗网络的人脸图像修复方法

Publications (1)

Publication Number Publication Date
CN112949553A true CN112949553A (zh) 2021-06-11

Family

ID=76227593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110304552.1A Pending CN112949553A (zh) 2021-03-22 2021-03-22 基于自注意力级联生成对抗网络的人脸图像修复方法

Country Status (1)

Country Link
CN (1) CN112949553A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362255A (zh) * 2021-07-01 2021-09-07 清华大学深圳国际研究生院 一种基于改进dcgan的文字图像修复方法及系统
CN113378980A (zh) * 2021-07-02 2021-09-10 西安电子科技大学 基于自适应上下文注意力机制的口罩遮挡人脸恢复方法
CN113792862A (zh) * 2021-09-18 2021-12-14 中国石油大学(华东) 基于级联注意力机制的改正单图生成对抗网络的设计方法
CN114596218A (zh) * 2022-01-25 2022-06-07 西北大学 基于卷积神经网络的古代绘画图像修复方法、模型和装置
CN114764754A (zh) * 2022-03-25 2022-07-19 燕山大学 一种基于几何感知先验引导的遮挡人脸修复方法

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685068A (zh) * 2018-12-27 2019-04-26 上海七牛信息技术有限公司 一种基于生成对抗神经网络的图像处理方法以及系统
CN110288537A (zh) * 2019-05-20 2019-09-27 湖南大学 基于自注意力的深度生成式对抗网络的人脸图像补全方法
CN110659727A (zh) * 2019-09-24 2020-01-07 中国科学技术大学 一种基于草图的图像生成方法
CN111079640A (zh) * 2019-12-09 2020-04-28 合肥工业大学 一种基于自动扩增样本的车型识别方法及系统
CN111223057A (zh) * 2019-12-16 2020-06-02 杭州电子科技大学 基于生成对抗网络的增量式聚焦的图像到图像转换方法
CN111242078A (zh) * 2020-01-20 2020-06-05 重庆邮电大学 一种基于自注意力机制的人脸正脸化生成方法
CN111476749A (zh) * 2020-04-03 2020-07-31 陕西师范大学 基于人脸关键点引导式生成对抗网络的人脸修复方法
CN111488739A (zh) * 2020-03-17 2020-08-04 天津大学 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN111507909A (zh) * 2020-03-18 2020-08-07 南方电网科学研究院有限责任公司 一种有雾图像清晰化的方法、装置及存储介质
CN111553858A (zh) * 2020-04-28 2020-08-18 四川大学青岛研究院 基于生成对抗网络的图像修复方法、系统及其应用
CN111738940A (zh) * 2020-06-02 2020-10-02 大连理工大学 一种基于自注意力机制模范生成对抗网络的人脸图像眼部补全方法
CN111861901A (zh) * 2020-06-05 2020-10-30 西安工程大学 一种基于gan网络的边缘生成图像修复方法
CN111932458A (zh) * 2020-08-10 2020-11-13 韶鼎人工智能科技有限公司 一种基于区域间注意力机制的图像信息提取与生成方法
CN112017301A (zh) * 2020-07-24 2020-12-01 武汉纺织大学 用于服装图像特定相关区域的风格迁移模型及方法
CN112084962A (zh) * 2020-09-11 2020-12-15 贵州大学 基于生成式对抗网络脸部隐私保护方法
CN112270651A (zh) * 2020-10-15 2021-01-26 西安工程大学 一种基于多尺度判别生成对抗网络的图像修复方法
CN112288645A (zh) * 2020-09-30 2021-01-29 西北大学 一种颅骨面貌复原模型构建方法及复原方法与系统
CN112329794A (zh) * 2020-11-06 2021-02-05 北京工业大学 一种基于双重自注意力机制的图像描述方法
CN112465718A (zh) * 2020-11-27 2021-03-09 东北大学秦皇岛分校 一种基于生成对抗网络的两阶段图像修复方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685068A (zh) * 2018-12-27 2019-04-26 上海七牛信息技术有限公司 一种基于生成对抗神经网络的图像处理方法以及系统
CN110288537A (zh) * 2019-05-20 2019-09-27 湖南大学 基于自注意力的深度生成式对抗网络的人脸图像补全方法
CN110659727A (zh) * 2019-09-24 2020-01-07 中国科学技术大学 一种基于草图的图像生成方法
CN111079640A (zh) * 2019-12-09 2020-04-28 合肥工业大学 一种基于自动扩增样本的车型识别方法及系统
CN111223057A (zh) * 2019-12-16 2020-06-02 杭州电子科技大学 基于生成对抗网络的增量式聚焦的图像到图像转换方法
CN111242078A (zh) * 2020-01-20 2020-06-05 重庆邮电大学 一种基于自注意力机制的人脸正脸化生成方法
CN111488739A (zh) * 2020-03-17 2020-08-04 天津大学 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN111507909A (zh) * 2020-03-18 2020-08-07 南方电网科学研究院有限责任公司 一种有雾图像清晰化的方法、装置及存储介质
CN111476749A (zh) * 2020-04-03 2020-07-31 陕西师范大学 基于人脸关键点引导式生成对抗网络的人脸修复方法
CN111553858A (zh) * 2020-04-28 2020-08-18 四川大学青岛研究院 基于生成对抗网络的图像修复方法、系统及其应用
CN111738940A (zh) * 2020-06-02 2020-10-02 大连理工大学 一种基于自注意力机制模范生成对抗网络的人脸图像眼部补全方法
CN111861901A (zh) * 2020-06-05 2020-10-30 西安工程大学 一种基于gan网络的边缘生成图像修复方法
CN112017301A (zh) * 2020-07-24 2020-12-01 武汉纺织大学 用于服装图像特定相关区域的风格迁移模型及方法
CN111932458A (zh) * 2020-08-10 2020-11-13 韶鼎人工智能科技有限公司 一种基于区域间注意力机制的图像信息提取与生成方法
CN112084962A (zh) * 2020-09-11 2020-12-15 贵州大学 基于生成式对抗网络脸部隐私保护方法
CN112288645A (zh) * 2020-09-30 2021-01-29 西北大学 一种颅骨面貌复原模型构建方法及复原方法与系统
CN112270651A (zh) * 2020-10-15 2021-01-26 西安工程大学 一种基于多尺度判别生成对抗网络的图像修复方法
CN112329794A (zh) * 2020-11-06 2021-02-05 北京工业大学 一种基于双重自注意力机制的图像描述方法
CN112465718A (zh) * 2020-11-27 2021-03-09 东北大学秦皇岛分校 一种基于生成对抗网络的两阶段图像修复方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张磬瀚;孙刘杰;王文举;李佳昕;刘丽;: "基于生成对抗网络的文物图像修复与评价", 包装工程, no. 17, 10 September 2020 (2020-09-10) *
陈俊周;王娟;龚勋;: "基于级联生成对抗网络的人脸图像修复", 电子科技大学学报, no. 06, 30 November 2019 (2019-11-30) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362255A (zh) * 2021-07-01 2021-09-07 清华大学深圳国际研究生院 一种基于改进dcgan的文字图像修复方法及系统
CN113378980A (zh) * 2021-07-02 2021-09-10 西安电子科技大学 基于自适应上下文注意力机制的口罩遮挡人脸恢复方法
CN113378980B (zh) * 2021-07-02 2023-05-09 西安电子科技大学 基于自适应上下文注意力机制的口罩遮挡人脸恢复方法
CN113792862A (zh) * 2021-09-18 2021-12-14 中国石油大学(华东) 基于级联注意力机制的改正单图生成对抗网络的设计方法
CN113792862B (zh) * 2021-09-18 2023-08-22 中国石油大学(华东) 基于级联注意力机制的改正单图生成对抗网络的设计方法
CN114596218A (zh) * 2022-01-25 2022-06-07 西北大学 基于卷积神经网络的古代绘画图像修复方法、模型和装置
CN114596218B (zh) * 2022-01-25 2023-11-07 西北大学 基于卷积神经网络的古代绘画图像修复方法、模型和装置
CN114764754A (zh) * 2022-03-25 2022-07-19 燕山大学 一种基于几何感知先验引导的遮挡人脸修复方法
CN114764754B (zh) * 2022-03-25 2024-04-09 燕山大学 一种基于几何感知先验引导的遮挡人脸修复方法

Similar Documents

Publication Publication Date Title
CN112949553A (zh) 基于自注意力级联生成对抗网络的人脸图像修复方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN109377448B (zh) 一种基于生成对抗网络的人脸图像修复方法
CN111784602B (zh) 一种生成对抗网络用于图像修复的方法
CN109903236B (zh) 基于vae-gan与相似块搜索的人脸图像修复方法及装置
CN110827213A (zh) 一种基于生成式对抗网络的超分辨率图像修复方法
Cao et al. Ancient mural restoration based on a modified generative adversarial network
CN107784288A (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN112508083A (zh) 基于无监督注意力机制的图像去雨雾方法
CN112613350A (zh) 一种基于深度神经网络的高分辨率光学遥感图像飞机目标检测方法
CN113052775B (zh) 一种图像去阴影方法及装置
CN112801914A (zh) 一种基于纹理结构感知的二段式图像修复方法
CN112184582A (zh) 一种基于注意力机制的图像补全方法及装置
CN110414516B (zh) 一种基于深度学习的单个汉字识别方法
CN114332070A (zh) 一种基于智能学习网络模型压缩的陨坑检测方法
CN114821050A (zh) 一种基于transformer的指称图像分割方法
CN115423796A (zh) 一种基于TensorRT加速推理的芯片缺陷检测方法及系统
CN112288084B (zh) 基于特征图通道重要性的深度学习目标检测网络压缩方法
CN113643303A (zh) 基于双路注意力编解码网络的三维图像分割方法
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN116416161A (zh) 一种改进生成对抗网络的图像修复方法
CN116563250A (zh) 一种复原式自监督疵点检测方法、装置及存储介质
CN116071331A (zh) 一种基于改进ssd算法的工件表面缺陷检测方法
CN115526891A (zh) 一种缺陷数据集的生成模型的训练方法及相关装置
Haker et al. Missile tracking using knowledge-based adaptive thresholding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination