CN114863536B

CN114863536B - 一种基于复合特征空间的生成人脸检测方法

Info

Publication number: CN114863536B
Application number: CN202210573401.0A
Authority: CN
Inventors: 王宇飞; 李梓平; 胡永健; 葛治中
Original assignee: Sino Singapore International Joint Research Institute
Current assignee: Sino Singapore International Joint Research Institute
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2024-05-24
Anticipated expiration: 2042-05-25
Also published as: CN114863536A

Abstract

本发明公开了一种基于复合特征空间的生成人脸检测方法，主要步骤如下：对输入图像进行检测，裁剪出以人脸区域中心点为中心的待检测图像；将待检测图像从RGB转为HSL；计算亮度分量和饱和度分量的各4个32级归一化灰度共生矩阵，堆叠为空域特征图；对亮度分量进行DCT变换，得到DCT域特征图；对亮度分量进行DFT变换，得到DFT域特征图；构造空域、DCT域和DFT域的检测网络模型；对空域、DCT域和DFT域检测网络模型进行训练；利用训练好的空域、DCT域和DFT域检测网络模型对待测样本进行检测，综合得到最终检测结果；本发明通过复合利用图像空域、DCT域和DFT域的特征，更有效地检测出GAN网络在生成人脸过程中留下的痕迹，有效提升了对生成人脸的检测性能。

Description

一种基于复合特征空间的生成人脸检测方法

技术领域

本发明涉及计算机视觉和人工智能技术领域，具体涉及一种基于复合特征空间的生成人脸检测方法。

背景技术

近年随着深度学习技术的发展，通过强大且易于使用的深度学习工具，如自动编码器或生成对抗网络，可以生成能够以假乱真的人脸图像，难以将它们与真实的人脸图片区分开来。这类技术可能被用于恶意目的，如制造虚假色情视频，炮制虚假新闻，伪造图像证据等，对社会秩序造成严重影响。因此，增强对生成人脸图像的检测能力，具有重要的研究意义与迫切的实际需求。

现有对于生成人脸的检测方法主要包括两类，其一是利用生成人脸与真实人脸具有不同的物理性质，通过检测图像中的阴影、照明、透视、透镜畸变、CFA伪影、模式噪声、光响应非均匀性噪声等特征，区分真实人脸图像及生成人脸图像；其二是利用生成人脸图像所使用的生成对抗网络GAN自身特性，检测图像中使用GAN后留下的痕迹，以识别不同GAN生成的人脸图像，在判断人脸图像的真假以外，还能实现对生成人脸图像方法的溯源。

然而，现有的生成人脸检测方法往往只利用单一特征进行检测，检测准确率仍不够高，对生成人脸图像的方法溯源能力仍有不足，距离实际应用仍具有一定差距。

发明内容

为了解决现有技术中对生成人脸图像检测和溯源能力不足的缺陷，本发明提供了一种基于复合特征空间的生成人脸检测方法。该方法通过综合利用人脸图像空域、DCT域及DFT域特征，获得了较强的检测性能和溯源能力。

本发明的目的可以通过采取如下技术方案达到：

一种基于复合特征空间的生成人脸检测方法，包括以下步骤：

S1、对输入图像进行人脸检测，得到人脸区域左上角坐标(x₀，y₀)以及右下角坐标(x₁，y₁)，计算人脸区域中心点坐标(x_m，y_m)，具体为：

其中表示向下取整，以(x_m，y_m)为中心，裁剪出256×256尺寸的图像块，图像块左上角坐标为(x_m-127，y_m-127)，右下角坐标为(x_m+128，y_m+128)，将裁剪得到的待检测图像记为I；

S2、将I从RGB颜色空间转换至HSL颜色空间，记其中亮度分量为I_L，饱和度分量为I_S；

S3、计算I_L的灰度共生矩阵，如下式所示：

其中i、j为亮度分量的等级，取值为0至31的整数，即亮度分量共分为32级，||||表示集合内的元素总数，(Δx，Δy)的取值有(1,0)、(1,1)、(0,1)和(-1,1)共4种情况，计算得到1种情况的灰度共生矩阵后将其归一化有：

其中sum()表示矩阵内所有元素之和，得到I_L对应的4个归一化灰度共生矩阵，用同样的方法得到I_S对应的4个归一化灰度共生矩阵，将8个灰度共生矩阵堆叠，得到尺寸为8×32×32的空域特征图F_GLCM；

S4、对S2步骤中的I_L进行DCT变换，得到尺寸为1×256×256的DCT域特征图F_DCT；

S5、对S2步骤中的I_L进行DFT变换，并将变换后的频域图分为4个不重叠的尺寸为128×128的子图，再将子图堆叠，得到尺寸为4×128×128的DFT域特征图F_DFT；

S6、分别构造空域的检测网络模型N_GLCM、DCT域的检测网络模型N_DCT和DFT域的检测网络模型N_DFT；

S7、利用4种GAN网络生成人脸样本，分别为GAN₁、GAN₂、GAN₃和GAN₄；

S8、利用S7步骤中的GAN₁、GAN₂、GAN₃和GAN₄与真实人脸样本，使用多元交叉熵损失函数，对空域检测网络模型N_GLCM进行训练，该模型输出结果为：D_GLCM∈{Real，GAN₁，GAN₂，GAN₃，GAN₄}；

S9、利用S7步骤中的GAN₁、GAN₂、GAN₃和GAN₄与真实人脸样本，使用多元交叉熵损失函数，对DCT域检测网络模型N_DCT进行训练，该模型输出结果为D_DCT∈{Real，GAN₁，GAN₂，GAN₃，GAN₄}；

S10、利用S7步骤中的GAN₁、GAN₂、GAN₃和GAN₄与真实人脸样本组合，使用二元交叉熵损失函数，分别训练4个DFT域检测网络模型N_DFT，记为N¹ _DFT、N² _DFT、N³ _DFT和N⁴ _DFT，模型输出结果分别为和/>其中P_Real、P_GAN1、P_GAN2、P_GAN3和P_GAN4分别表示样本为真实人脸、GAN₁生成人脸、GAN₂生成人脸、GAN₃生成人脸和GAN₄生成人脸的概率；

S11、在测试阶段，利用N_GLCM和N_DCT对待测样本进行检测，得到D_GLCM和D_DCT，若D_GLCM＝D_DCT，则最终检测结果D＝D_GLCM；若D_GLCM≠D_DCT且其中包含真实人脸结果，则利用非真实人脸结果所对应的GAN网络生成样本训练得到的N_DFT进行检测，若检测为真实人脸的概率P_Real大于等于检测为对应GAN生成人脸的概率P_GAN，则最终检测结果为真实人脸，否则为对应GAN生成人脸；若D_GLCM≠D_DCT且其中不包含真实人脸结果，则分别利用对应两种GAN网络生成样本训练得到的两个N_DFT进行检测，分别得到两种GAN生成人脸的概率P_GAN，GLCM和P_GAN，DCT，若P_GAN，GLCM≥P_GAN，DCT，则最终检测结果D＝D_GLCM，否则D＝D_DCT。

本技术方案通过复合利用图像空域、DCT域和DFT域的特征，更有效地检测出GAN网络在生成人脸过程中留下的痕迹，从而可以获得较强的检测性能和溯源能力。

作为优选的技术方案，所述S1步骤中，使用RetinaFace人脸检测网络对输入图像进行人脸检测，并获得人脸区域坐标。

作为优选的技术方案，所述S6步骤中构造空域检测网络模型N_GLCM：输入为8×32×32尺寸的空域特征图F_GLCM，接着依次为步幅stride为1的64通道输出3×3卷积层，BN层，步幅stride为1的128通道输出3×3卷积层，2×2的最大池化层，BN层，步幅stride为1的128通道输出3×3卷积层，BN层，步幅stride为1的256通道输出3×3卷积层，BN层，步幅stride为1的256通道输出3×3卷积层，2×2的最大池化层，BN层，步幅stride为1的128通道输出3×3卷积层，BN层，128单元的全连接层，32单元的全连接层，5单元的全连接层，以及Softmax激活函数，最终输出5分类结果。

作为优选的技术方案，所述S6步骤中构造DCT域检测网络模型N_DCT：输入为1×256×256尺寸的DCT域特征图F_DCT，接着依次为步幅stride为1的16通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的32通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，256单元的全连接层，64单元的全连接层，5单元的全连接层，以及Softmax激活函数，最终输出5分类结果。

作为优选的技术方案，所述S6步骤中构造DFT域的检测网络模型N_DFT：输入为4×128×128尺寸的DFT域特征图F_DFT，接着依次为步幅stride为1的16通道输出5×5卷积层，BN层，步幅stride为1的32通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，256单元的全连接层，64单元的全连接层，2单元的全连接层，以及Softmax激活函数，最终输出2分类结果。

作为优选的技术方案，所述S3步骤中，空域检测网络模型N_GLCM、DCT域检测网络模型N_DCT和DFT域检测网络模型N_DFT均使用Adam方法进行优化，设置学习率为0.0005，一阶平滑参数β₁＝0.9，二阶平滑参数β₂＝0.999，避免除以0的微小常数ε＝10^-8，使用Adam方法进行优化可以提升网络的性能，使得网络结构不但简单，而且集成容易。

本发明相对于现有技术具有如下的优点及效果：

1、本发明提供了一种基于复合特征空间的生成人脸检测方法，通过获取人脸图像空域、DCT域及DFT域输入特征，构造针对特定特征的检测网络，并综合利用各特征检测网络的输出，获得高准确率的最终检测结果，并可以对生成人脸图像的方法进行溯源，有效提升了该方法对于生成人脸图像的检测性能。

2、本发明可根据实际应用需要，通过利用不同的训练样本，从而增加、减少或变更所需检测的生成人脸方法，具有很强的灵活性。

3、本发明根据生成人脸检测主要应用网络浅层特征的理论基础，所构造针对不同特征的检测网络均为轻量化网络，从而有效提高了该方法的应用效率。

附图说明

图1是本发明公开的基于复合特征空间的生成人脸检测方法的整体流程框图；

图2是本发明实施例中空域检测网络模型结构图；

图3是本发明实施例中DCT域检测网络模型结构图；

图4是本发明实施例中DFT域检测网络模型结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例公开了一种基于复合特征空间的生成人脸检测方法，下面以对PGGAN、StarGAN、StyleGAN和CycleGAN四种GAN网络生成样本的检测为例详细介绍本发明的实施过程。使用16000张来自CelebA-HQ数据库的真实人脸图像，并使用PGGAN、StarGAN、StyleGAN和CycleGAN四种GAN网络各生成16000张人脸图像，对各种人脸图像按照5:2:1的比例划分为训练集、验证集和测试集。实施例在Linux系统上进行，主要基于深度学习框架Pytorch1.6.1来实现，所用显卡为英伟达GTX1080Ti，CUDA版本为10.1.105，cudnn版本7.6.4。

整体的实施流程如图1所示，具体的实施步骤如下：

首先利用RetinaFace人脸检测网络，对输入图像进行人脸检测，得到人脸区域左上角坐标(x₀，y₀)以及右下角坐标(x₁，y₁)，计算人脸区域中心点坐标(x_m，y_m)，其中，计算人脸区域中心点坐标(x_m，y_m)使用的公式为：

其中表示向下取整。以(x_m，y_m)为中心，裁剪出256×256尺寸的图像块，此时得到的图像块的左上角坐标为(x_m-127，y_m-127)，图像块的右下角坐标为(x_m+128，y_m+128)，并将裁剪得到的待检测图像块记为I。

将I从RGB颜色空间转换至HSL颜色空间，得到一张新的图像，记该图像其中亮度分量为I_L，饱和度分量为I_S。

计算I_L的灰度共生矩阵，如下式所示：

其中sum()表示矩阵内所有元素之和。得到I_L对应的4个归一化灰度共生矩阵，用同样的方法得到I_S对应的4个归一化灰度共生矩阵，然后将8个灰度共生矩阵堆叠，得到尺寸为8×32×32的空域特征图F_GLCM。

对I_L进行DCT变换，得到尺寸为1×256×256的DCT域特征图F_DCT。

对I_L进行DFT变换，并将变换后的频域图分为4个不重叠的尺寸为128×128的子图，再将子图堆叠，得到尺寸为4×128×128的DFT域特征图F_DFT。

如图2所示，使用算法构造空域检测网络模型N_GLCM，然后在空域检测网络模型N_GLCM中输入为8×32×32尺寸的空域特征图F_GLCM，接着依次为步幅stride为1的64通道输出3×3卷积层，BN层，步幅stride为1的128通道输出3×3卷积层，2×2的最大池化层，BN层，步幅stride为1的128通道输出3×3卷积层，BN层，步幅stride为1的256通道输出3×3卷积层，BN层，步幅stride为1的256通道输出3×3卷积层，2×2的最大池化层，BN层，步幅stride为1的128通道输出3×3卷积层，BN层，128单元的全连接层，32单元的全连接层，5单元的全连接层，以及Softmax激活函数，最终输出5分类结果。

如图3所示，使用算法构造DCT域检测网络模型N_DCT，然后在DCT域检测网络模型N_DCT中输入为1×256×256尺寸的DCT域特征图F_DCT，接着依次为步幅stride为1的16通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的32通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，256单元的全连接层，64单元的全连接层，5单元的全连接层，以及Softmax激活函数，最终输出5分类结果。

如图4所示，使用算法构造DFT域的检测网络模型N_DFT，然后在DFT域的检测网络模型N_DFT中输入为4×128×128尺寸的DFT域特征图F_DFT，接着依次为步幅stride为1的16通道输出5×5卷积层，BN层，步幅stride为1的32通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，256单元的全连接层，64单元的全连接层，2单元的全连接层，以及Softmax激活函数，最终输出2分类结果。

利用真实人脸和4种GAN生成人脸图像中的训练集，使用多元交叉熵损失函数，对N_GLCM进行训练。使用Adam方法进行优化，设置学习率为0.0005，一阶平滑参数β₁＝0.9，二阶平滑参数β₂＝0.999，避免除以0的微小常数ε＝10^-8。使用Adam方法进行优化后，可以提升网络的性能，使得网络结构不但简单，而且集成容易。当然于其他实施例中还可以使用SGD进行优化，故不以此为限。本实施例利用验证集监测训练效果，选择对验证集具有最佳稳定性能的模型作为最终训练结果。

利用真实人脸和4种GAN生成人脸图像中的训练集，使用多元交叉熵损失函数，对N_DCT进行训练。使用Adam方法进行优化，设置学习率为0.0005，一阶平滑参数β₁＝0.9，二阶平滑参数β₂＝0.999，避免除以0的微小常数ε＝10^-8。使用Adam方法进行优化后，可以提升网络的性能，使得网络结构不但简单，而且集成容易。当然于其他实施例中还可以使用SGD进行优化，故不以此为限。本实施例利用验证集监测训练效果，选择对验证集具有最佳稳定性能的模型作为最终训练结果。

分别利用前述4种GAN网络生成人脸图像中的训练集和真实人脸图像中的训练集组合，使用二元交叉熵损失函数，分别训练4个DFT域检测网络模型，记为N_DFT,PGGAN、N_DFT,StarGAN、N_DFT,StyleGAN和N_DFT,CycleGAN。使用Adam方法进行优化，设置学习率为0.0005，一阶平滑参数β₁＝0.9，二阶平滑参数β₂＝0.999，避免除以0的微小常数ε＝10^-8。使用Adam方法进行优化后，可以提升网络的性能，使得网络结构不但简单，而且集成容易。当然于其他实施例中还可以使用SGD进行优化，故不以此为限。本实施例利用验证集监测训练效果，选择对验证集具有最佳稳定性能的模型作为最终训练结果。

在测试阶段，利用N_GLCM和N_DCT对待测样本进行检测，得到其检测结果D_GLCM和D_DCT。若D_GLCM＝D_DCT，则最终检测结果D＝D_GLCM。

若D_GLCM≠D_DCT且其中包含真实人脸结果，则利用非真实人脸结果所对应的GAN网络生成样本训练得到的N_DFT进行检测。假设待测样本被N_GLCM检测为真实人脸，被N_DCT检测为PGGAN生成人脸，则进一步使用N_DFT,PGGAN对待测样本进行检测。若N_DFT,PGGAN检测结果为真实人脸，则待测样本最终检测结果为真实人脸；若N_DFT,PGGAN检测结果为生成人脸，则待测样本最终检测结果为PGGAN生成人脸。

若D_GLCM≠D_DCT且其中不包含真实人脸结果，则分别利用对应两种GAN网络生成样本训练得到的两个N_DFT进行检测，比较相应的概率，以概率较大者为检测结果。假设待测样本被N_GLCM检测为PGGAN生成人脸，被N_DCT检测为StarGAN生成人脸，则进一步使用N_DFT,PGGAN和N_DFT,StarGAN对待测样本进行检测，得到样本为PGGAN生成人脸的概率P_PGGAN和为StarGAN生成人脸的概率P_StarGAN。若P_PGGAN≥P_StarGAN，则待测样本最终检测结果为PGGAN生成人脸，否则为StarGAN生成人脸。

本实施例对前述测试集进行检测，检测结果如下表所示：

表1.本实施例方法检测准确率(％)

从上述实验结果可见，本发明方法对于真实人脸图像和多种GAN生成人脸图像均具有较高的检测准确率，证明了本发明方法的有效性。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于复合特征空间的生成人脸检测方法，其特征在于，包括以下步骤：

S3、计算I_L的灰度共生矩阵，如下式所示：

其中i、j为亮度分量的等级，取值为0至31的整数，即亮度分量共分为32级，|| ||表示集合内的元素总数，(Δx，Δy)的取值有(1，0)、(1，1)、(0，1)和(-1，1)共4种情况，计算得到1种情况的灰度共生矩阵后将其归一化有：

S10、利用S7步骤中的GAN₁、GAN₂、GAN₃和GAN₄与真实人脸样本组合，使用二元交叉熵损失函数，分别训练4个DFT域检测网络模型N_DFT，记为N¹ _DFT、N² _DFT、N³ _DFT和N⁴ _DFT，模型输出结果分别为和其中P_Real、P_GAN1、P_GAN2、P_GAN3和P_GAN4分别表示样本为真实人脸、GAN₁生成人脸、GAN₂生成人脸、GAN₃生成人脸和GAN₄生成人脸的概率；

2.根据权利要求1所述的一种基于复合特征空间的生成人脸检测方法，其特征在于，所述S1步骤中，使用RetinaFace人脸检测网络对输入图像进行人脸检测，并获得人脸区域坐标。

3.根据权利要求1所述的一种基于复合特征空间的生成人脸检测方法，其特征在于，所述S6步骤中构造空域检测网络模型N_GLCM：输入为8×32×32尺寸的空域特征图F_GLCM，接着依次为步幅stride为1的64通道输出3×3卷积层，BN层，步幅stride为1的128通道输出3×3卷积层，2×2的最大池化层，BN层，步幅stride为1的128通道输出3×3卷积层，BN层，步幅stride为1的256通道输出3×3卷积层，BN层，步幅stride为1的256通道输出3×3卷积层，2×2的最大池化层，BN层，步幅stride为1的128通道输出3×3卷积层，BN层，128单元的全连接层，32单元的全连接层，5单元的全连接层，以及Softmax激活函数，最终输出5分类结果。

4.根据权利要求1所述的一种基于复合特征空间的生成人脸检测方法，其特征在于，所述S6步骤中构造DCT域检测网络模型N_DCT：输入为1×256×256尺寸的DCT域特征图F_DCT，接着依次为步幅stride为1的16通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的32通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，256单元的全连接层，64单元的全连接层，5单元的全连接层，以及Softmax激活函数，最终输出5分类结果。

5.根据权利要求1所述的一种基于复合特征空间的生成人脸检测方法，其特征在于，所述S6步骤中构造DFT域的检测网络模型N_DFT：输入为4×128×128尺寸的DFT域特征图F_DFT，接着依次为步幅stride为1的16通道输出5×5卷积层，BN层，步幅stride为1的32通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，步幅stride为1的64通道输出5×5卷积层，2×2的最大池化层，BN层，256单元的全连接层，64单元的全连接层，2单元的全连接层，以及Softmax激活函数，最终输出2分类结果。

6.根据权利要求1所述的一种基于复合特征空间的生成人脸检测方法，其特征在于，所述S3步骤中，空域检测网络模型N_GLCM、DCT域检测网络模型N_DCT和DFT域检测网络模型N_DFT均使用Adam方法进行优化，设置学习率为0.0005，一阶平滑参数β₁＝0.9，二阶平滑参数β₂＝0.999，避免除以0的微小常数ε＝10^-8。