CN113112411B - 基于多尺度特征融合的人脸图像语义修复方法 - Google Patents
基于多尺度特征融合的人脸图像语义修复方法 Download PDFInfo
- Publication number
- CN113112411B CN113112411B CN202010030365.4A CN202010030365A CN113112411B CN 113112411 B CN113112411 B CN 113112411B CN 202010030365 A CN202010030365 A CN 202010030365A CN 113112411 B CN113112411 B CN 113112411B
- Authority
- CN
- China
- Prior art keywords
- network
- face image
- training
- convolution
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000004927 fusion Effects 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 81
- 230000001815 facial effect Effects 0.000 claims abstract description 9
- 238000005520 cutting process Methods 0.000 claims abstract description 7
- 230000008439 repair process Effects 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 50
- 230000004913 activation Effects 0.000 claims description 18
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 9
- 230000001629 suppression Effects 0.000 claims description 9
- 230000009191 jumping Effects 0.000 claims description 7
- 101100189913 Caenorhabditis elegans pept-1 gene Proteins 0.000 claims description 6
- 230000000903 blocking effect Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000007547 defect Effects 0.000 claims description 4
- 230000005764 inhibitory process Effects 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 101100243399 Caenorhabditis elegans pept-2 gene Proteins 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 7
- 230000002411 adverse Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 15
- 230000000007 visual effect Effects 0.000 description 8
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于多尺度特征融合的人脸图像语义修复方法,包括步骤如下:S1收集待处理的人脸图像组成训练集,对训练集人脸图像进行预处理尺寸裁剪,得到待训练人脸图像集;S2构建生成对抗网络模型,使用预训练模型的参数作为网络的初始化参数;S3将待训练缺失人脸图像集输入到生成网络G中,通过判别网络D判断生成网络修复人脸图像的真假;S4将判别结果反作用于生成网络,进行对抗训练,优化生成网络和判别网络的网络参数,当损失函数收敛时结束训练,并保存训练完成时的模型参数;S5将待修复的人脸图像输入到训练好的生成网络模型中,完成人脸图像修复。本发明能够降低网络初始化参数给网络训练带来的不利影响,使得网络训练稳定。
Description
技术领域
本发明涉及深度学习和图像处理,尤其涉及一种基于多尺度特征融合的人脸图像语义修复方法。
背景技术
随着互联网技术和摄像设备使用的普及,人们惯于用图像和视频来记录生活,但图像在形成、记录、处理和传输过程中,由于成像系统、记录设备、传输介质和处理方法的不完善,会导致图像质量的下降,这样的图像退化非常普遍。图像缺失是人物图像在发生图像退化时最影响图像使用的退化方向之一。数字图像修复属于计算机视觉和图形学交叉研究方向,其修复过程是利用图像未缺失部分的信息,按照一定的修复规则对图像缺失部分进行修补填充,使得修复后的图像完整自然。图像修复技术已被应用于文物保护、影视特技制作、虚拟现实和老照片修复等众多领域。目前已有的图像修复算法仍然存在视觉效果和算法效率方面的不足。
近年来,图像修复领域涌现了很多成果。2000年Bertalmio提出BSCB算法,通过引入偏微分方程对待修复图像缺失部分边缘区域提取信息,沿着幅线方向由外至内进行扩散对缺失区域进行修补,该方法对受损区域颜色单一、纹理简单的缺失图像具有较好的修复效果,不适用于大片区域图像块丢失的情况。2003年Chan提出基于全变分模型的数字图像修复模型,该方法较大不足在于对较大缺失图像进行修复时,修复边缘连续性较差。2014年lan Goodfellow创造性地提出了基于深度学习的生成对抗网络(Generative AdversarialNetwork,GAN),目前GAN已经成为首选和最前沿的生成模型之一。2016年Pathak D等人利用对抗联合重建损失训练自编码模型,实现图像修复,但视觉效果较差。2018年Jiahui Yu在生成对抗网络模型中结合上下文注意力机制实现了图像修复达到了较好的效果,但在视觉效果方面仍有提升空间。
发明内容
发明目的:针对现有技术在实现人脸图像修复结果细节效果模糊,视觉感知较差的问题以及使用生成对抗网络进行模型训练时对于较大输入图片或较多像素会导致模式崩溃使得整个模型不可控的问题,提供一种基于多尺度特征融合的人脸图像语义修复方法。
技术方案:本发明提供一种基于多尺度特征融合的人脸图像语义修复方法,包括如下步骤:
(1)收集待处理的人脸图像组成训练集,对训练集人脸图像进行预处理尺寸裁剪,得到待训练人脸图像集;
(2)构建生成对抗网络模型,使用预训练模型的参数作为网络的初始化参数;
(3)将待训练缺失人脸图像集输入到生成网络G中,通过判别网络D判断生成网络修复人脸图像;
(4)将判别结果反作用于生成网络,进行对抗训练,优化生成网络和判别网络的网络参数,当损失函数收敛时结束训练,并保存训练完成时的模型参数;
(5)将待修复的人脸图像输入到训练好的生成网络模型中,完成人脸图像修复。
进一步地,所述步骤(1)还包括:
(1.1)将训练集人脸图像x裁剪为设定尺寸大小n*n的人脸图像x′,n为整数;
(1.2)对待训练人脸图像x'添加随机尺寸的掩膜得到待训练缺失人脸图像集,具体包括:对待训练人脸图像随机添加掩膜,得到缺失部分尺寸不一的待训练缺失人脸图像集;掩膜M中遮挡部分值为0,不遮挡部分值为1,则待训练缺失人脸图像可表示为x″=M*x′。
进一步地,步骤(2)所述生成对抗网络由生成网络G和判别网络D两个深度卷积神经网络组成,生成网络G还包括:
(2.1)生成网络G由卷积层、六组卷积下采样单元、抑制增强单元、四组空洞卷积单元、四组卷积层、六组卷积上采样单元、两组卷积层连接组成;
(2.1.1)卷积下采样单元由三组1*1卷积、3*3卷积连接组成,第一组3*3卷积输出和卷积下采样单元的输入进行concatenate连接实现特征融合,第一组卷积下采样单元中输入和第二组1*1卷积输出进行跳跃连接,第二至六组卷积下采样单元中第二组3*3卷积输出和上一组卷积下采样单元中第二组3*3卷积输出进行跳跃连接。抑制增强单元由全局池化、全连接层、ReLU()激活函数、全连接层、Sigmoid()激活函数连接组成的输出和抑制增强单元输入concatenate连接组成;
(2.1.2)空洞卷积模块由1*1卷积和空洞卷积连接组成,空洞卷积采取的扩张率分别为2、4、8、16;
(2.1.3)卷积上采样单元由1*1卷积、反卷积、自注意力特征模块、1*1卷积、3*3卷积连接组成,卷积上采样单元输入由上一卷积输出和对应卷积下采样单元中第二组3*3卷积输出进行concatenate连接得到,自注意力特征单元由对应下采样卷积单元第二组3*3卷积输出进行1*1卷积后得到的特征图与自注意力特征单元的输入进行1*1卷积得到的特征图进行跳跃连接得到的输出和ReLU()激活函数、1*1卷积、Sigmoid()激活函数连接得到的输出与自注意力特征单元输入相乘结果作为自注意力特征单元的输出;
(2.1.4)卷积层后使用批归一化和激活函数ReLU(),最后一层卷积层后使用Sigmoid()激活函数;
(2.2)判别网络D由全局判别网络D1和局部判别网络D2共同组成,全局判别网络D1判断生成网络修复后的完整人脸图像是否为真,局部判别网络D2判断生成网络G修复的缺失图像块是否为真实的图像块,分别由五组卷积层、Flatten()、全连接层连接组成,卷积层后使用批归一化和激活函数ReLU();
(2.3)使用预训练模型的参数具体包括:对生成对抗网络进行预训练:随机初始化生成对抗网络的模型参数,对生成对抗网络进行训练并保存每次训练完成时的模型参数,训练一定次数之后,随机选取该批次中的模型参数作为重新训练的初始化参数。
进一步地,步骤(3)具体还包括:
将缺失的待训练人脸图像集输入到生成网络G中,输出得到生成网络修复的人脸图像,将生成结果输入到判别网络中,得到判别结果。
生成网络G通过模拟待训练人脸图像集中的数据分布来生成修复后的人脸图像;判别网络D判断输入到判别网络中的图片是来自真实数据分布pdata或生成网络G生成的分布是否为“真”,并将判别结果反作用于生成网络G。通过不断的迭代优化直到判别网络D无法区分输入数据的真假,判别结果趋近于0.5时,生成对抗网络达到目标;生成对抗网络的目标函数为:
V(D,G)是生成对抗网络待优化的目标函数,x′待训练人脸图像,x″为待训练缺失人脸图像,D(x′)表示判别网络D判定训练人脸图像x′为真的概率;G(x″)表示生成网络输入为x″时生成的修复后的人脸图像;D(G(x″))表示判别网络判断生成网络生成的修复后的人脸图像为真概率。
进一步地,步骤(4)具体还包括::
(4.1)固定判别网络D参数,将待训练缺失人脸图像集输入到生成网络G中,生成修复后的人脸图像,将lG作为生成网络的损失函数,使用Adam优化器opt1优化生成网络参数,网络迭代训练a次;
x′为真实人脸图像,x″为缺失人脸图像,h、w、r为图像的长、宽、通道数,G(x″)为生成器重建后的图像。
(4.2)固定生成网络G参数,将缺失人脸图像训练集输入到生成网络G中得到修复后的人脸图像,使用全局判别网络D1判断修复后的完整人脸图像是否为真,使用局部判别网络D2判断修复后的缺失图像块是否为真;将交叉熵损失函数作为判别网络的损失函数lD,使用Adam优化器opt2优化判别网络参数,网络迭代训练b次;
(4.3)固定生成网络参数,将缺失人脸图像输入到生成网络G中得到修复后的人脸图像,使用交叉熵损失函数作为判别网络的损失函数,使用Adam优化器opt2优化判别网络参数;
(4.4)固定判别网络参数,将缺失人脸图像输入到生成网络G中得到修复后的人脸图像,生成网络的损失函数为lG,使用Adam优化器opt1优化生成网络参数;
(4.5)重复步骤(4.3)、(4.4),交替训练判别网络和生成网络,随着训练周期的加长动态调整生成网络和判别网络的学习率,直到损失函数收敛停止训练,得到网络模型参数并保存。
进一步地,步骤(5)还包括:
从步骤(4)中训练得到的网络参数,固定生成网络参数,将有缺失的需要修复的人脸图像输入到生成网络G中,即可生成修复后的人脸图像。
有益效果:本发明与现有技术相比,其显著优点是:(1)利于图像细节的修复;同时使用抑制增强单元来抑制无用的通道,增强有用的通道,抑制和增强通过训练(0,1)之间的权重来完成;(2)可以在不增加参数的前提下获取长范围多层次的依赖交互关系,修复图像时能够协调好每个位置的细节和远端的细节;能够弥补卷积感受野小,在生成缺失图像边缘时获取信息不足的问题,扩大了感受野,提高了人脸图像修复的质量;(3)有效的降低模式崩溃带来的危害,随着训练进程的加深,动态调整生成网络和判别网络的学习率,平衡了生成网络和判别网络的学习能力,提高缺失人脸图像的修复效果。
附图说明
图1本发明的基于多尺度特征融合的人脸图像语义修复算法流程图;
图2本发明的生成对抗网络框架图;
图3本发明的生成网络中下采样卷积单元结构图;
图4本发明的生成网络中抑制增强单元结构图;
图5本发明的生成网络中空洞卷积单元结构图;
图6本发明的生成网络中上采样卷积单元结构图;
图7本发明的生成网络中自注意力特征单元结构图;
图8本发明提供的人脸图像修复算法消融实验中进行人脸图像修复的视觉效果对比图;
图9本发明提供的人脸图像修复算法和其他方法进行人脸图像修复的视觉效果对比图。
具体实施方式:
下面结合实施例和附图对本发明作进一步详细说明,
基于多尺度特征融合的人脸图像语义修复算法,如图1所示,包括以下步骤:
(1)对训练集人脸图像进行预处理尺寸裁剪,得到待训练人脸图像集。对训练人脸图像添加随机尺寸的掩膜得到待训练缺失人脸图像集,具体为:对CelebA训练集人脸图像x中100000张图片进行预处理尺寸裁剪,裁剪为128*128的人脸图像x′,对待训练人脸图像x′随机添加掩膜,得到缺失部分尺寸不一(由96*96到48*48的随机大小矩形尺寸)的待训练缺失人脸图像集。掩膜M中遮挡部分值为0,不遮挡部分值为0,则待训练缺失人脸图像可表示为x″=M*x′。
(2)构建生成对抗网络模型,使用预训练模型的参数作为网络的初始化参数,将待训练缺失人脸图像集输入到生成网络G中,得到修复后的人脸图像;判别网络D判断输入图像的真假并将判别结果反作用于生成网络,进行对抗训练,优化生成网络和判别网络的网络参数,当损失函数收敛时结束训练,并保存训练完成时的模型参数;
如图2,本实施例中生成对抗网络由生成网络G和判别网络D两个深度卷积神经网络组成:
生成网络G由卷积层、六组卷积下采样单元(图3)、抑制增强单元(图4)、四组空洞卷积单元(图5)、四组卷积层、六组卷积上采样单元(图6)、两组卷积层连接组成。卷积下采样单元具体结构图3所示,由三组1*1卷积、3*3卷积连接组成,第一组3*3卷积输出和卷积下采样单元的输入进行concatenate连接实现特征融合,第一组卷积下采样单元中输入和第二组1*1卷积输出进行跳跃连接,第二至六组卷积下采样模块中第二组3*3卷积输出和上一组卷积下采样单元中第二组3*3卷积输出进行跳跃连接。抑制增强单元具体结构图4所示,,由全局池化、全连接层、ReLU()激活函数、全连接层、Sigmoid()激活函数连接组成的输出和抑制增强模块输入concatenate连接组成。空洞卷积单元具体结构图5所示,由1*1卷积和空洞卷积连接组成,空洞卷积采取的扩张率分别为2、4、8、16。卷积上采样单元具体结构图6所示,由1*1卷积、反卷积、自注意力特征模块、1*1卷积、3*3卷积连接组成,卷积上采样单元输入由上一卷积输出和对应卷积下采样单元中第二组3*3卷积输出进行concatenate连接得到,自注意力特征单元具体结构图6所示,由对应下采样卷积单元第二组3*3卷积输出进行1*1卷积后得到的特征图与自注意力特征模块的输入进行1*1卷积得到的特征图进行跳跃连接得到的输出和ReLU()激活函数、1*1卷积、Sigmoid()激活函数连接得到的输出与自注意力特征模块输入相乘结果作为自注意力特征模块的输出。卷积层后使用批归一化(BatchNorm,BN)和激活函数ReLU(),最后一层卷积层后使用Sigmoid()激活函数。
判别网络D由全局判别网络D1和局部判别网络D2共同组成,全局判别网络D1用于判断生成网络修复后的完整人脸图像是否为真,局部判别网络D2用于判断生成网络G修复的缺失图像块是否为真实的图像块,分别由五组卷积层、Flatten()、全连接层连接组成,卷积层后使用批归一化(BatchNorm,BN)和激活函数ReLU()。
生成网络G通过模拟待训练人脸图像集中的数据分布来生成修复后的人脸图像;判别网络D则是判断输入到判别网络中的图片是来自真实数据分布pdata还是生成网络G生成的分布,并反作用于生成网络G。通过不断的迭代优化直到判别网络D无法区分输入数据的真假,判别结果趋近于0.5时,生成对抗网络达到最优。生成对抗网络的目标函数为:
V(D,G)是整个生成对抗网络待优化的目标函数,x′待训练人脸图像,x″为待训练缺失人脸图像,D(x′)表示判别网络D判定训练人脸图像x′为真的概率;G(x″)表示生成网络输入为x″时生成的修复后的人脸图像;D(G(x″))表示判别网络判断生成网络生成的修复后的人脸图像为真概率。
所述使用预训练模型的参数,具体包括:对生成对抗网络进行预训练:随机初始化生成对抗网络的模型参数,对生成对抗网络进行训练并保存每次训练完成时的模型参数,训练一定次数之后,随机选取该批次中的模型参数作为重新训练的初始化参数。
所述对生成对抗网络进行对抗训练,具体包括:
网络训练分成三步完成,具体训练过程如下:
(2a)固定判别网络D参数,将待训练缺失人脸图像集输入到生成网络G中,生成修复后的人脸图像,将lG作为生成网络的损失函数,使用Adam优化器opt1优化生成网络参数,网络迭代训练90000次。
x′为真实人脸图像,x″为缺失人脸图像,h、w、r为图像的长、宽、通道数,G(x″)为生成器重建后的图像;
(2b)固定生成网络G参数,将缺失人脸图像训练集输入到生成网络G中得到修复后的人脸图像,使用全局判别网络D1判断修复后的完整人脸图像是否为真,使用局部判别网络D2判断修复后的缺失图像块是否为真。将交叉熵损失函数作为判别网络的损失函数lD,使用Adam优化器opt2优化判别网络参数,网络迭代训练100000次;
(2c.1)固定生成网络参数,将缺失人脸图像输入到生成网络G中得到修复后的人脸图像,使用交叉熵损失函数作为判别网络的损失函数,使用Adam优化器opt2优化判别网络参数。
(2c.2)固定判别网络参数,将缺失人脸图像输入到生成网络G中得到修复后的人脸图像,生成网络的损失函数为lG,使用Adam优化器opt1优化生成网络参数。重复步骤(2c.1)、(2c.2),交替训练判别网络和生成网络,随着训练周期的加长动态调整生成网络和判别网络的学习率,交替训练200000次左右,损失函数收敛并稳定,此时停止训练,得到最优的网络模型参数并保存。
(3)将待修复的人脸图像输入到训练好的生成网络模型中,完成人脸图像修复。
从步骤(2)中训练得到最优的网络参数,固定生成网络参数,将有缺失的需要修复的人脸图像输入到生成网络G中,即可生成修复后的人脸图像。
为了验证本发明的作用效果,进行了三组消融实验,如图8所示,由左至右分别是在本发明方法基础上不使用多尺度特征融合算法(左一)、不结合使用自注意力特征单元(左二)、不使用空洞卷积单元(右二)分别与本发明方法(右一)作比较。本文方法针对有较大缺失区域(14.0625%-56.025%)的人脸图像进行修复,修复后的人脸图像视觉感官更加自然、真实,在修复后的图像块的模糊程度、边缘的不连续性都有很大提升,表1中的质量评估结果也证明了本文中使用的多尺度特征融合、自注意力特征模块和空洞卷积模块在图像修复上的有效性。
为了验证本发明的实际效果,进行了一组对比实验,如图9所示,分别将本发明方法和目前先进的GLCIC方法修复的人脸图像在不同训练程度下((a1、b1)网络迭代90000次;(a2、b2)网络迭代190000次,(a3、b3)网络迭代400000次)进行对比。相比GLCIC修复方法,本发明方法用于图像修复任务,网络收敛速度更快,迭代90000次左右修复后的人脸图像已经具有完整轮廓,且在不同训练程度下本发明方法修复后的人脸图像始终具有更高的质量,更好的视觉体验,如图9和表2可见,无论是在训练速度、评估指标还是在视觉效果上,本发明的效果都是非常好的。
由此可见,本发明提供的基于多尺度特征融合的人脸图像语义修复算法与已有算法相比,训练过程更加稳定,算法精度有明显提高。
表1
表2
Claims (5)
1.一种基于多尺度特征融合的人脸图像语义修复方法,其特征在于,包括如下步骤:
(1)收集待处理的人脸图像组成训练集,对训练集人脸图像进行预处理尺寸裁剪,得到待训练人脸图像集;
(2)构建生成对抗网络模型,使用预训练模型的参数作为网络的初始化参数;
(3)将待训练缺失人脸图像集输入到生成网络G中,通过判别网络D判断生成网络修复人脸图像;
(4)将判别结果反作用于生成网络,进行对抗训练,优化生成网络和判别网络的网络参数,当损失函数收敛时结束训练,并保存训练完成时的模型参数;
(5)将待修复的人脸图像输入到训练好的生成网络模型中,完成人脸图像修复;
步骤(2)所述生成对抗网络由生成网络G和判别网络D两个深度卷积神经网络组成,生成网络G还包括:
(2.1)生成网络G由卷积层、六组卷积下采样单元、抑制增强单元、四组空洞卷积单元、四组卷积层、六组卷积上采样单元、两组卷积层连接组成;
(2.1.1)卷积下采样单元由三组1*1卷积、3*3卷积连接组成,第一组3*3卷积输出和卷积下采样单元的输入进行concatenate连接实现特征融合,第一组卷积下采样单元中输入和第二组1*1卷积输出进行跳跃连接,第二至六组卷积下采样单元中第二组3*3卷积输出和上一组卷积下采样单元中第二组3*3卷积输出进行跳跃连接,抑制增强单元由全局池化、全连接层、ReLU()激活函数、全连接层、Sigmoid()激活函数连接组成的输出和抑制增强单元输入concatenate连接组成;
(2.1.2)空洞卷积模块由1*1卷积和空洞卷积连接组成,空洞卷积采取的扩张率分别为2、4、8、16;
(2.1.3)卷积上采样单元由1*1卷积、反卷积、自注意力特征模块、1*1卷积、3*3卷积连接组成,卷积上采样单元输入由上一卷积输出和对应卷积下采样单元中第二组3*3卷积输出进行concatenate连接得到,自注意力特征单元由对应下采样卷积单元第二组3*3卷积输出进行1*1卷积后得到的特征图与自注意力特征单元的输入进行1*1卷积得到的特征图进行跳跃连接得到的输出和ReLU()激活函数、1*1卷积、Sigmoid()激活函数连接得到的输出与自注意力特征单元输入相乘结果作为自注意力特征单元的输出;
(2.1.4)卷积层后使用批归一化和激活函数ReLU(),最后一层卷积层后使用Sigmoid()激活函数;
(2.2)判别网络D由全局判别网络D1和局部判别网络D2共同组成,全局判别网络D1判断生成网络修复后的完整人脸图像是否为真,局部判别网络D2判断生成网络G修复的缺失图像块是否为真实的图像块,分别由五组卷积层、Flatten()、全连接层连接组成,卷积层后使用批归一化和激活函数ReLU();
(2.3)使用预训练模型的参数具体包括:对生成对抗网络进行预训练:随机初始化生成对抗网络的模型参数,对生成对抗网络进行训练并保存每次训练完成时的模型参数,训练一定次数之后,随机选取该批次中的模型参数作为重新训练的初始化参数。
2.根据权利要求1所述的基于多尺度特征融合的人脸图像语义修复方法,其特征在于,所述步骤(1)还包括:
(1.1)将训练集人脸图像x裁剪为设定尺寸大小n*n的人脸图像x′,n为整数;
(1.2)对待训练人脸图像x'添加随机尺寸的掩膜得到待训练缺失人脸图像集,具体包括:对待训练人脸图像随机添加掩膜,得到缺失部分尺寸不一的待训练缺失人脸图像集;掩膜M中遮挡部分值为0,不遮挡部分值为1,则待训练缺失人脸图像可表示为x″=M*x′。
3.根据权利要求1所述的基于多尺度特征融合的人脸图像语义修复方法,其特征在于,步骤(3)具体还包括:
将缺失的待训练人脸图像集输入到生成网络G中,输出得到生成网络修复的人脸图像,将生成结果输入到判别网络中,得到判别结果;
生成网络G通过模拟待训练人脸图像集中的数据分布来生成修复后的人脸图像;判别网络D判断输入到判别网络中的图片是来自真实数据分布pdata或生成网络G生成的分布,步骤(4)中网络训练时将判别结果反作用于生成网络G;通过不断的迭代优化,当判别结果趋近于0.5时,生成对抗网络达到目标;生成对抗网络的目标函数为:
V(D,G)是生成对抗网络待优化的目标函数,x′待训练人脸图像,x″为待训练缺失人脸图像,D(x′)表示判别网络D判定训练人脸图像x′为真的概率;G(x″)表示生成网络输入为x″时生成的修复后的人脸图像;D(G(x″))表示判别网络判断生成网络生成的修复后的人脸图像为真概率。
4.根据权利要求1所述的基于多尺度特征融合的人脸图像语义修复方法,其特征在于,步骤(4)具体还包括:
(4.1)固定判别网络D参数,将待训练缺失人脸图像集输入到生成网络G中,生成修复后的人脸图像,将lG作为生成网络的损失函数,使用Adam优化器opt1优化生成网络参数,网络迭代训练a次;
x′为真实人脸图像,x″为缺失人脸图像,h、w、r为图像的长、宽、通道数,G(x″)为生成器重建后的图像;
(4.2)固定生成网络G参数,将缺失人脸图像训练集输入到生成网络G中得到修复后的人脸图像,使用全局判别网络D1判断修复后的完整人脸图像是否为真,使用局部判别网络D2判断修复后的缺失图像块是否为真;将交叉熵损失函数作为判别网络的损失函数lD,使用Adam优化器opt2优化判别网络参数,网络迭代训练b次;
(4.3)固定生成网络参数,将缺失人脸图像输入到生成网络G中得到修复后的人脸图像,使用交叉熵损失函数作为判别网络的损失函数,使用Adam优化器opt2优化判别网络参数;
(4.4)固定判别网络参数,将缺失人脸图像输入到生成网络G中得到修复后的人脸图像,生成网络的损失函数为lG,使用Adam优化器opt1优化生成网络参数;
(4.5)重复步骤(4.3)、(4.4),交替训练判别网络和生成网络,随着训练周期的加长动态调整生成网络和判别网络的学习率,直到损失函数收敛停止训练,得到网络模型参数并保存。
5.根据权利要求1所述的基于多尺度特征融合的人脸图像语义修复方法,其特征在于,步骤(5)还包括:
从步骤(4)中训练得到的网络参数,固定生成网络参数,将有缺失的需要修复的人脸图像输入到生成网络G中,即可生成修复后的人脸图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010030365.4A CN113112411B (zh) | 2020-01-13 | 2020-01-13 | 基于多尺度特征融合的人脸图像语义修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010030365.4A CN113112411B (zh) | 2020-01-13 | 2020-01-13 | 基于多尺度特征融合的人脸图像语义修复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113112411A CN113112411A (zh) | 2021-07-13 |
CN113112411B true CN113112411B (zh) | 2023-11-24 |
Family
ID=76709963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010030365.4A Active CN113112411B (zh) | 2020-01-13 | 2020-01-13 | 基于多尺度特征融合的人脸图像语义修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113112411B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505722B (zh) * | 2021-07-23 | 2024-01-02 | 中山大学 | 一种基于多尺度特征融合的活体检测方法、系统及装置 |
CN113744175B (zh) * | 2021-09-16 | 2024-01-19 | 中国人民解放军火箭军工程大学 | 一种基于双向约束生成对抗网络的图像生成方法及系统 |
CN113688799B (zh) * | 2021-09-30 | 2022-10-04 | 合肥工业大学 | 一种基于改进深度卷积生成对抗网络的人脸表情识别方法 |
CN113689360B (zh) * | 2021-09-30 | 2024-02-20 | 合肥工业大学 | 一种基于生成对抗网络的图像修复方法 |
CN113962893B (zh) * | 2021-10-27 | 2024-07-09 | 山西大学 | 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法 |
CN114022506B (zh) * | 2021-11-16 | 2024-05-17 | 天津大学 | 一种边缘先验融合多头注意力机制的图像修复方法 |
CN114331903B (zh) * | 2021-12-31 | 2023-05-12 | 电子科技大学 | 一种图像修复方法及存储介质 |
CN114782291B (zh) * | 2022-06-23 | 2022-09-06 | 中国科学院自动化研究所 | 图像生成器的训练方法、装置、电子设备和可读存储介质 |
CN115272136B (zh) * | 2022-09-27 | 2023-05-05 | 广州卓腾科技有限公司 | 基于大数据的证件照眼镜反光消除方法、装置、介质及设备 |
CN115660985B (zh) * | 2022-10-25 | 2023-05-19 | 中山大学中山眼科中心 | 白内障眼底图像的修复方法、修复模型的训练方法及装置 |
CN115713680B (zh) * | 2022-11-18 | 2023-07-25 | 山东省人工智能研究院 | 一种基于语义引导的人脸图像身份合成方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520503A (zh) * | 2018-04-13 | 2018-09-11 | 湘潭大学 | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 |
CN109377448A (zh) * | 2018-05-20 | 2019-02-22 | 北京工业大学 | 一种基于生成对抗网络的人脸图像修复方法 |
US10223610B1 (en) * | 2017-10-15 | 2019-03-05 | International Business Machines Corporation | System and method for detection and classification of findings in images |
CN109785258A (zh) * | 2019-01-10 | 2019-05-21 | 华南理工大学 | 一种基于多判别器生成对抗网络的人脸图像修复方法 |
CN110111335A (zh) * | 2019-05-08 | 2019-08-09 | 南昌航空大学 | 一种自适应对抗学习的城市交通场景语义分割方法及系统 |
CN110136063A (zh) * | 2019-05-13 | 2019-08-16 | 南京信息工程大学 | 一种基于条件生成对抗网络的单幅图像超分辨率重建方法 |
CN110222628A (zh) * | 2019-06-03 | 2019-09-10 | 电子科技大学 | 一种基于生成式对抗网络的人脸修复方法 |
CN110288537A (zh) * | 2019-05-20 | 2019-09-27 | 湖南大学 | 基于自注意力的深度生成式对抗网络的人脸图像补全方法 |
CN110490884A (zh) * | 2019-08-23 | 2019-11-22 | 北京工业大学 | 一种基于对抗的轻量级网络语义分割方法 |
CN110517250A (zh) * | 2019-08-27 | 2019-11-29 | 东北大学 | 一种基于增强对抗生成网络的眼底视网膜血管分割系统 |
CN110570366A (zh) * | 2019-08-16 | 2019-12-13 | 西安理工大学 | 基于双判别深度卷积生成式对抗网络的图像修复方法 |
-
2020
- 2020-01-13 CN CN202010030365.4A patent/CN113112411B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10223610B1 (en) * | 2017-10-15 | 2019-03-05 | International Business Machines Corporation | System and method for detection and classification of findings in images |
CN108520503A (zh) * | 2018-04-13 | 2018-09-11 | 湘潭大学 | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 |
CN109377448A (zh) * | 2018-05-20 | 2019-02-22 | 北京工业大学 | 一种基于生成对抗网络的人脸图像修复方法 |
CN109785258A (zh) * | 2019-01-10 | 2019-05-21 | 华南理工大学 | 一种基于多判别器生成对抗网络的人脸图像修复方法 |
CN110111335A (zh) * | 2019-05-08 | 2019-08-09 | 南昌航空大学 | 一种自适应对抗学习的城市交通场景语义分割方法及系统 |
CN110136063A (zh) * | 2019-05-13 | 2019-08-16 | 南京信息工程大学 | 一种基于条件生成对抗网络的单幅图像超分辨率重建方法 |
CN110288537A (zh) * | 2019-05-20 | 2019-09-27 | 湖南大学 | 基于自注意力的深度生成式对抗网络的人脸图像补全方法 |
CN110222628A (zh) * | 2019-06-03 | 2019-09-10 | 电子科技大学 | 一种基于生成式对抗网络的人脸修复方法 |
CN110570366A (zh) * | 2019-08-16 | 2019-12-13 | 西安理工大学 | 基于双判别深度卷积生成式对抗网络的图像修复方法 |
CN110490884A (zh) * | 2019-08-23 | 2019-11-22 | 北京工业大学 | 一种基于对抗的轻量级网络语义分割方法 |
CN110517250A (zh) * | 2019-08-27 | 2019-11-29 | 东北大学 | 一种基于增强对抗生成网络的眼底视网膜血管分割系统 |
Non-Patent Citations (7)
Title |
---|
Attention U-Net: Learning Where to Look for the Pancreas;Ozan Oktay等;《arXiv preprint》;第1-10页 * |
LADDERNET: MULTI-PATH NETWORKS BASED ON U-NET FOR MEDICAL IMAGE SEGMENTATION;Juntang Zhuang;《arXiv preprint》;第1-4页 * |
Pyramid Embedded Generative Adversarial Network for Automated Font Generation;Donghui Sun等;《2018 24th International Conference on Pattern Recognition (ICPR)》;第976-981页 * |
Semantic Face Image Inpainting based on Generative Adversarial Network;Heshu Zhang等;《2020 35th Youth Academic Annual Conference of Chinese Association of Automation (YAC)》;第530-535页 * |
Squeeze-and-Excitation Networks;Jie Hu等;《Proceedings of the IEEE conference on computer vision and pattern recognition》;第7132-7141页 * |
基于全卷积网络的胎儿脑部超声图像分割算法;叶海等;《现代计算机》(第17期);第51-54页 * |
基于改进卷积神经网络的多种植物叶片病害识别;孙俊等;《农业工程学报》;第33卷(第19期);第209-215页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113112411A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113112411B (zh) | 基于多尺度特征融合的人脸图像语义修复方法 | |
CN112766160B (zh) | 基于多级属性编码器和注意力机制的人脸替换方法 | |
CN109785258B (zh) | 一种基于多判别器生成对抗网络的人脸图像修复方法 | |
CN109255831A (zh) | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 | |
CN111815523A (zh) | 一种基于生成对抗网络的图像修复方法 | |
CN108932693A (zh) | 基于人脸几何信息的人脸编辑补全方法及装置 | |
CN111968123B (zh) | 一种半监督视频目标分割方法 | |
CN113344806A (zh) | 一种基于全局特征融合注意力网络的图像去雾方法与系统 | |
JP2022174707A (ja) | スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法 | |
CN109961407B (zh) | 基于人脸相似性的人脸图像修复方法 | |
CN110930500A (zh) | 一种基于单视角视频的动态头发建模方法 | |
CN108537747A (zh) | 一种基于带对称跨层连接的卷积神经网络的图像修复方法 | |
CN111696033A (zh) | 基于角点引导级联沙漏网络结构学习的真实图像超分辨率模型及方法 | |
CN113392711A (zh) | 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 | |
CN113870128A (zh) | 一种基于深度卷积对抗式网络的数字壁画图像修复方法 | |
CN110555461A (zh) | 基于多结构卷积神经网络特征融合的场景分类方法及系统 | |
CN111696049A (zh) | 基于深度学习的水下扭曲图像重建方法 | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
CN116993975A (zh) | 基于深度学习无监督领域适应的全景相机语义分割方法 | |
CN115661530A (zh) | 一种图像数据增强方法、系统及电子设备 | |
CN110889868A (zh) | 一种结合梯度和纹理特征的单目图像深度估计方法 | |
CN114092354A (zh) | 一种基于生成对抗网络的人脸图像修复方法 | |
CN110580726A (zh) | 基于动态卷积网络的自然场景下人脸素描生成模型及方法 | |
Zhang et al. | Papr: Proximity attention point rendering | |
CN116934972A (zh) | 一种基于双流网络的三维人体重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |