CN113963390A

CN113963390A - 一种结合可变形卷积的基于生成对抗网络的残缺人脸图像修复方法

Info

Publication number: CN113963390A
Application number: CN202010629250.7A
Authority: CN
Inventors: 杨巨成; 张浩宇; 魏峰; 王嫄; 于洋; 姚彤
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2022-01-21

Abstract

本发明提出了一种结合可变形卷积的基于生成对抗网络的残缺人脸图像修复方法。该方法包括：使用可变形卷积对输入残缺人脸图像的特征进行提取；利用获取到的残缺人脸图像特征反卷积获取生成的完整人脸图像；将生成的人脸图像与真实的人脸图像一同作为判别器的输入，最终输出生成图像为真实图像的概率。特别的，这里的判别器分为局部判别器和全局判别器，其中全局判别器将整张人脸图像作为输入，局部判别器则将残缺区域图像作为输入。本发明主要克服了传统卷积方式(如方形卷积)，对未知的变化适应性差，泛化能力不强，网络难以适应几何形变等的缺点。本发明设计合理，能够利用可变形卷积提取到的残缺人脸图像特征来指导整个修复过程，使残缺人脸图像修复的结果真实、自然。

Description

一种结合可变形卷积的基于生成对抗网络的残缺人脸图像修复方法

技术领域

本发明属于图像修复领域，更具体地说是涉及一种结合可变形卷积的基于生成对抗网络的残缺人脸图像修复方法。

背景技术

随着互联网的蓬勃发展与人工智能技术的落地，人脸识别技术广泛应用于信息安全、刑事侦破、出入口控制等领域。但是在面向现实的人脸识别系统依然面临着诸多挑战。在实际应用中，人脸识别率常常会因为面部遮挡物(如墨镜、口罩、围巾等)的原因而大大降低。

人脸图像修复技术在人脸识别领域有不可替代的作用。图像修复技术指使用图像已知信息，根据一定的规则对待修复图像中的丢失信息或者细节进行修复，达到视觉上的逼真效果，进而使得残缺人脸识别的效率大大提高。残缺人脸修复主要存在有两个关键问题：1、能否有效提取出残缺人脸中的代表性特征；2、对于残缺区域修复后的人脸图像的真实性。在这两个问题中，有效的提取出残缺人脸中的代表性特征可以大大提高生成人脸图像的质量进而提高人脸识别率。

传统的图像修复方法一般可以分为两种：第一种是适应于小尺寸图像修复方法，如快速行进算法、块匹配方法和统计块概率修复方法。这些传统的图像修复方法由于在内容上缺乏高层次的连贯性，使得修复结果不令人满意，而且一旦图像的缺失区域过大，导致重要的参考信息丢失，也同样无法让人取得满意的效果。近年来，随着深度卷积网络和生成对抗网络的发展，提出了用于人脸图像修复的新算法。这些算法通过提取到的人脸特征，生成接近于真实图像的人脸修复图像。特别的，基于深度学习的人脸图像修复算法往往使用普通卷积或空洞卷积来提取图像特征。这种特征提取的方式存在着固有的缺陷：传统的卷积核一般都是正方形或长方形，这种卷积方式对未知的变化适应性差，难以适应图像的几何形变，泛化能力差。具体地，这种网络模型对于物体几何形变的适应能力几乎完全来自于数据本身所具有的多样性，其模型内部并不具有适应几何形变的机制。究其根本，是因为卷积操作本身具有固定的几何结构，而由其层叠搭建而成的卷积网络的几何结构也是固定的，所以不具有对于几何形变建模的能力。

本文发明了一种结合可变形卷积的基于生成对抗网络的残缺人脸图像修复方法，通过对输入图像进行有效的特征提取来提高图像修复的质量。

发明内容

本发明的目的在于克服现有图像修复技术的不足，提供了一种结合可变形卷积的残缺人脸图像修复方法，该方法利用可变形卷积准确的提取残缺人脸图像的特征，提高图像修复的质量。

本发明提出的一种结合可变形卷积的基于生成对抗网络的残缺人脸图像修复方法，包括以下三个模块：

模块1：生成器。将残缺人脸图像输入到生成器中，使用可变形卷积的方式进行特征提取，反卷积输出修复后的人脸图像。

模块2：判别器。将生成器模块输出的生成图像和真实的人脸图像共同作为判别器模块的输入，判别器对两者进行判别，最终输出生成图像为真实图像的概率(概率值的范围是0-1)。

模块3：损失函数设计。通过交叉熵损失来对整个模型进行优化，主要是通过梯度的反向传播来指导生成器和判别器的优化方向。

本发明的优点和积极效果是：

本发明通过在图像生成模块过程引入可变形卷积用于输入图像的特征提取过程，这种卷积方式克服了传统卷积方法的局限性，在不需要任何额外的监督信号下，很方便地取代任何已有视觉识别任务的卷积神经网络中的若干个标准卷积单元，并通过标准的反向传播进行端到端的训练。可变形卷积是对于传统卷积网络简明而又意义深远的结构革新，将这种特征提取方式运用到图像修复过程中具有重大的意义。

附图说明

为了更清楚的说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

附图1：为本发明提供的一种结合可变形卷积的基于生成对抗网络的残缺人脸图像修复方法结构示意图。

附图2：为可变形卷积的框架。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

本发明提出的一种结合可变形卷积的基于生成对抗网络的残缺人脸图像修复方法，主要包括生成器模块、判别器模块和损失函数模块。

所述生成模块是将输入的残缺人脸图像输入到生成器中，通过可变形卷积对图像特征进行提取，然后通过反卷积操作将图像恢复到原先的大小输出。

可变形卷积的流程为(附图2)：

1)对于输入的残缺人脸图像：input(b×h×w×c)，其中b表示批量的大小；h代表图像高；w代表图像宽；c代表通道数量。输入特征经过普通卷积后输出相同大小的图像：output(b×h×w×2c)。因为输出的结果是指原图片中每个像素的偏移量(x偏移和y偏移)，因此这里的输出通道为2c。

2)将input和output的像素索引值相加，可以得到偏移后的位置，具体位置表示为：position(b×h×w×2c)。需要注意的是，这个位置坐标要在图片大小以内，并且position是一个坐标值，而且是float类型表示。

3)使用双线性插值方法对图像进行缩放。假设原始图像大小为h×w，目标图像大小为a×b。那么这两幅图像边长的比例为h/a，w/b。这个比例并不是整数，而非整数的坐标是无法在图像这种离散数据上使用。双线性插值通过寻找距离这个对应坐标最近的四个像素点，来计算该点的值。

4)在得到position的所有像素后，得到一个新的图像，这个新的图像可以作为输入再次输入到下一个可变卷积或者普通卷积层中再次进行特征提取。

所述判别器模块是将生成器生成的图像和真实图像一同输入到判别器中，判别器对输入进行判别后输出概率值。所述目标函数模块是指使用交叉熵损失来进行梯度反向传播。在整个过程中，生成器的生成能力和判别器的判别能力都在提高。

本发明通过在图像生成模块过程引入可变形卷积用于输入图像的特征提取过程，这种卷积方式克服了已有卷积方法的局限性，在不需要任何额外的监督信号下，取代任何已有视觉识别任务的卷积神经网络中的若干个标准卷积单元，并通过标准的反向传播进行端到端的训练。可变形卷积是对于传统卷积网络简明而又意义深远的结构革新，将这种特征提取方式运用到图像修复过程中具有重大的意义。

Claims

1.一种结合可变形卷积的基于生成对抗网络的残缺人脸图像修复方法，其特征在于包括以下三个模块：

生成器模块：将残缺人脸图像输入到生成器中，使用可变形卷积的方式进行特征提取，反卷积输出修复后的人脸图像。

判别器模块：将生成器模块输出的生成图像和真实的人脸图像共同作为判别器模块的输入，判别器对两者进行判别，最终输出生成图像为真实图像的概率(概率值的范围是0-1)。

损失函数模块：使用交叉熵损失来优化网络，通过梯度的反向传播来指导生成器和判别器的优化方向。

2.根据权利要求1所述的生成器模块，其特征在于：可变形卷积可以根据输入图像本身的形状特征调整本身的形状，提取残缺人脸图像的特征。我们引入可变形卷积来代替普通卷积或者空洞卷积。

具体地可变形卷积的流程为：

1)对于输入的残缺人脸图像记为：input(b×h×w×c)，其中b表示批量的大小；h代表图像高；w代表图像宽；c代表通道数量。输入特征经过普通卷积后输出相同大小的图像记为：output(b×h×w×2c)。因为输出的结果是指原图像中每个像素的偏移量(x偏移和y偏移)，因此这里的输出通道为2c。

3.根据权利要求1所述的判别器模块，其特征在于：将生成模块的输出图像x_g和真实图像x_r一同作为判别器的输入，判别器做出真假判断，最终输出生成图像为真实图像的概率值。

4.根据权利要求1所述的损失函数模块，其特征在于：使用交叉熵损失来优化网络，通过梯度的反向传播来指导生成器和判别器的优化方向。

其中，V(D，G)为模型的损失函数，p_data和p_z分别代表真实样本的分布和隐变量的分布。