CN116152565A

CN116152565A - 一种基于噪声指纹的图像验真检测方法及系统

Info

Publication number: CN116152565A
Application number: CN202310185625.9A
Authority: CN
Inventors: 毕秀丽; 杨帆; 肖斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-05-23

Abstract

本发明通过搜集大量图像样本获取训练集和测试集，提取噪声图及其振幅谱和相位谱输入分类网络，从而得到训练好的分类网络模型。测试时，输入一幅图像提取噪声图，再将噪声图输入到分类网络中即可判别此图像的真伪，无需任何预处理和后处理操作。本发明利用数字图像处理、计算机视觉、深度学习等技术，实现了图像验真检测任务，且利用特征融合模块来使网络同时学习空间域信息与频率域信息，充分利用空间域和频率域，减少特征冗余，提高特征的利用率，测试准确率在92％左右，可较为准确辅助相关的图像取证或图像安全工作，降低生成图像对个人和社会带来的不利影响。

Description

一种基于噪声指纹的图像验真检测方法及系统

技术领域

本发明涉及数字图像处理、计算机视觉、深度学习等技术领域，具体为一种基于噪声指纹的图像验真检测方法及系统。

背景技术

此部分的陈述仅仅提供与本公开有关的背景技术信息，并且这些陈述可能构成现有技术。在实现本发明过程中，发明人发现现有技术中至少存在如下问题。

随着深度学习及快速发展，大量生成模型应运而生，各种生成模型可以快速生成出人类难以区分的假图像。深度神经网络的普及推动了数字伪造技术的快速发展，使人工智能合成算法容易被滥用。各种令人瞠目的技术已经进入了我们的生活，从图像内容操纵到场景合成，从人脸属性篡改到人脸交换。这些生成的图像可以作为有趣的小插件使用，但也可以作为一种传播谎言的手段。近年来，许多由生成模型生成的图像可以达到欺骗人眼的地步。与此同时，随着全球篡改变得非常容易，人们对图像合成技术的担忧越来越多。例如，在国际社交网络平台LinkedIn上，无道德的人通过用合成的面孔冒充真实的人来进行欺诈活动。特别是，在生成模型，如生成对抗网络(GAN)及其变体、变分自编码器(VAE)、流型模型(Flow)、扩散模型(Diffusion Model)已经取得了令人印象深刻的进展。随着人们对图像合成技术的日益关注，人们越来越关注图像的真实性。因此，我们迫切需要使用处理不同生成模型的验证检测方法，甚至是处理未来可能的模型。

针对图像验真检测，目前已经提出了一些方法。图像验真检测方法主要可分为两大类：伪影检测方法和数据驱动方法。伪影是由网络的上采样分量或频域内的周期性信号所留下的生成图像中的空间域内的伪影，伪影检测通常是通过在上采样过程中检查生成模型残留的痕迹，它们对大多数低质量生成的图像都是有效的。数据驱动方法一般是大量的真实和生成图像，使分类器学习生成图像的共同特征。现存方法虽然在一定程度上达到了检测效果，但仍存在一些缺陷：(1)现存方法对大多数低质量生成的图像都是有效的，但它们对具有生成高质量图像模型无效。(2)分类器容易受到看不见的模型的影响，因此不能很好具有很好的泛化性，因此它不可能学习到所有生成模型所共享的共同特征。(3)现存方法极其依赖数据集，仅仅在与训练集相同的GAN中，会具有较高的效果。但对于训练集以外的GAN，甚至对于其他生成模型，检测效果会大大降低，甚至失效。

针对上述的问题，有人开始提出，利用图像中遗留的噪声痕迹来预测图像的真伪，如申请号CN202210534263.5专利名称“基于噪声痕迹的伪造图像检测方法及系统、计算机设备”。由于噪声痕迹没有图像内容等冗余信息的干扰，检测精度较之前的方法更高。但上述方法也仅停留在利用真实图像在生成的伪造图像上留下特殊的与伪造方法相关的噪声信息，然后在利用检测单位检测真伪的地步，并未真正利用噪声图训练分类网络模型，无法对多种未知的生成模型进行验真检测；并且，其对特征的利用率较低，其实际的检测精度仍不太理想。

发明内容

针对上述问题，本发明的目的在于解决现有技术中的一部分问题，或至少缓解这些问题。

一种基于噪声指纹的图像验真检测方法，包括以下步骤：

搜集并整理公开的生成模型以及真实图像的图像样本；

根据所述生成模型及真实图像构建和划分训练集和测试集；

将所述训练集与测试集输入去噪网络中提取噪声图；

对所述噪声图提取振幅谱与相位谱；将所述噪声图、噪声图的振幅谱和相位谱一同输入到分类网络中进行图像验真判别，训练得到分类网络模型；

利用所述分类网络模型对测试集图像进行测试，得到最终的检测结果。

进一步的，根据所述生成模型及真实图像构建训练集和测试集，包括：

根据生成模型的种类，使用ProGAN以及真实图像作为训练集；使用包含但不限于StarGAN、GauGAN、ProGAN、BigGAN、CycleGAN、StyleGAN、StyleGAN2、HiSD、GLow的其中一项或多项，及真实图像的低分辨率与高分辨率图像构建测试集。

进一步的，对所述噪声图提取振幅谱与相位谱，包括：

使用快速傅里叶变换提取噪声图像的振幅谱及相位谱，包括如下步骤：

对噪声图进行快速傅里叶变换：

其中F(u,v)表示频域(u,v)处的频率分量，LNP(x,y)表示输入LNP空间域中点(x,y)处的强度值；M、N表示输入二维图像的长和宽，x、y表示输入二维图像的空间位置，u和v分别表示频率在x和y方向上的分量,e^-i2πux/M是一个复数旋转因子,i表示虚数；

利用噪声图的频谱图提取其振幅谱A(u,v)：

其中R(u,v)和I(u,v)分别表示F(u,v)的实部和虚部。

利用噪声图的频谱图提取其相位谱φ(u,v)：

进一步的，将所述噪声图、噪声图的振幅谱和相位谱一同输入到分类网络中进行图像验真判别，训练得到分类网络模型，包括：

将特征进行融合，包括将所述噪声图及其振幅谱和相位谱进行信息整合，将噪声图、噪声图的振幅谱、噪声图的相位谱按3：1：1的比例，形成五通道特征输入到分类网络中。

将特征进行分类，包括如下步骤：

1)将图像特征融合形成的五通道特征作为网络输入层；

2)通过7×7，步长为2的卷积层，以及3×3，步长为2的最大池化层，最终得到大小为56×56尺寸，64通道的特征向量；

3)得到2)提取的特征向量后，分别使用重复次数为3、4、6、3的四种ResBlock，提取最终1×1尺寸，2048通道的特征向量；

4)最后通过2048×1000和1000×2的全连接层得到预测概率值；

5)通过最小化交叉熵损失函数来对预测的结果进行优化，交叉熵损失函数如下所示：

其中p_i和m_i分别是网络第i个输入图像的预测结果和实际的标签，N代表总样本数。

进一步的，将所述训练集与测试集输入去噪网络中提取噪声图，包括：

图像使用去噪网络模型提取输入图像的噪声图特性，将输入图像使用去噪网络模型提取噪声图，所述噪声图表示为：

LNP＝Src(x,y)-F(Src(x,y))

其中LNP表示噪声图，Src(x,y)表示输入图像，F(·)表示去噪网络。

一种基于噪声指纹的图像验真检测系统，包括：

构建划分模块，接收搜集并整理公开的生成模型以及真实图像的图像样本，根据生成模型的种类，使用ProGAN以及真实图像作为训练集；使用包含但不限于StarGAN、GauGAN、ProGAN、BigGAN、CycleGAN、StyleGAN、StyleGAN2、HiSD、Glow的其中一项或多项，及真实图像的低分辨率与高分辨率图像构建测试集；

提取噪声图模块，将构建划分的所述训练集和测试集输入去噪网络中提取噪声图；

特征提取模块，使用快速傅里叶变换提取噪声图像的振幅谱及相位谱；

特征融合模块，将所述噪声图及其振幅谱和相位谱进行信息整合，将噪声图、噪声图振幅谱、噪声图相位谱按3：1：1的比例，形成五通道特征输入到分类网络中；

特征分类模块，将特征进行分类，对梯度进行反向传播，最后得到预测结果。

进一步的，使用快速傅里叶变换提取噪声图像的振幅谱及相位谱，包括如下步骤：

对噪声图进行快速傅里叶变换：

其中F(u,v)表示频域(u,v)处的频率分量，LNP(x,y)表示输入LNP空间域中点(x,y)处的强度值；M、N表示输入二维图像的长和宽，x、y表示输入二维图像的空间位置，u和v分别表示频率在x和y方向上的分量,e^-i2πux/M是一个复数旋转因子,i表示虚数M、N表示输入二维图像的长和宽，x、y表示输入二维图像的空间位置，u和v分别表示频率在x和y方向上的分量,e^-i2πux/M是一个复数旋转因子,i表示虚数；

利用噪声图的频谱图提取其振幅谱A(u,v)：

其中R(u,v)和I(u,v)分别表示F(u,v)的实部和虚部；

利用噪声图的频谱图提取其相位谱φ(u,v)：

进一步的，所述特征分类模块将特征进行分类，包括如下步骤：

1)将图像特征融合形成的五通道特征作为网络输入层；

4)最后通过2048×1000和1000×2的全连接层得到预测概率值；

进一步的，所述提取噪声图模块提取噪音图的步骤为：所述训练集和测试集中的图像使用去噪网络模型提取输入图像的噪声图特性，将输入图像使用去噪网络模型提取噪声图，所述噪声图可表示为：

LNP＝Src(x,y)-F(Src(x,y))

本发明具有如下有益效果：

(1)利用PyCharm平台进行训练和测试，操作简单；

(2)测试步骤简单，是一个两阶段的方法，输入一幅图像，首先得到其噪声图，再将噪声图输入到分类网络中即可判别此图像的真伪；

(3)本发明发现生成图像噪声图在空间域中会产生网格伪影，同时对于频率域，会产生周期性；可根据生成图像的此特性，设计模型的整体架构；

(4)本发明提出了一个特征融合模块来使网络同时学习空间域信息与频率域信息，避免了仅使用一种信息形成特征冗余，提高特征的利用率；

(5)本发明通过提取图像噪声的方式，找到生成图像的低级语义信息，能够同时检测全局篡改，面部属性篡改，deepfake等任务；

(6)较高的准确率，测试准确率在92％左右；

(7)可以辅助相关的图像取证或图像安全工作，进而降低生成图像对个人和社会带来的不利影响，具有实际意义，并且取得较好效果。

附图说明

图1是本发明的系统流程图；

图2是经过去噪网络提取的噪声图；

图3是测试集中各种类型生成模型的平均振幅谱；

图4是测试集中各种类型生成模型的平均相位谱。

具体实施方式

以下结合附图，对本发明作进一步说明，本发明的实施例只用于说明本发明而非限制本发明，在不脱离本发明技术思想的情况下，根据本领域普通技术知识和惯用手段，作出各种替换和变更，均应包括在本发明的范围内。

如图1所示，一种基于噪声指纹的图像验真检测方法，包括以下步骤：

搜集并整理公开的生成模型以及真实图像的图像样本；

根据所述生成模型及真实图像构建和划分训练集和测试集；

将所述训练集与测试集输入去噪网络中提取噪声图；

对所述噪声图提取振幅谱与相位谱；将所述噪声图、噪声图的振幅谱和相位谱一同输入到分类网络中进行图像验真判别，训练得到分类网络模型；其中此阶段包括特征提取模块、特征融合模块、特征分类模块。

本发明先搜集大量样本，通过提取噪声图及其振幅谱和相位谱，从而训练得到分类网络。而测试是一个两阶段的方法，输入一幅图像，首先得到其噪声图，再将噪声图输入到分类网络中即可判别此图像的真伪，无需任何预处理和后处理操作。本发明利用数字图像处理、计算机视觉、深度学习等技术，实现了图像验真检测任务。

根据所述生成模型及真实图像构建训练集和测试集，包括：

根据生成模型的种类，使用ProGAN以及真实图像作为训练集；使用包含但不限于StarGAN、GauGAN、ProGAN、BigGAN、CycleGAN、StyleGAN、StyleGAN2、HiSD、GLow的其中一项或多项，及真实图像的低分辨率与高分辨率图像构建测试集。其中训练集包含36万张ProGAN图像与36万张真实图像，测试集测试集包含StarGAN、GauGAN、ProGAN、BigGAN、CycleGAN、StyleGAN、StyleGAN2、HiSD、GLow及真实图像的低分辨率与高分辨率图像，总计7万张。训练集可以使模型学习特征，找到真实图像与生成图像在高维空间中的决策边界。测试集可以检测模型的泛化能力。

对所述噪声图提取振幅谱与相位谱，包括：

对噪声图进行快速傅里叶变换：

利用噪声图的频谱图提取其振幅谱A(u,v)：

其中R(u,v)和I(u,v)分别表示F(u,v)的实部和虚部。

利用噪声图的频谱图提取其相位谱φ(u,v)：

/>

由此得到待输入分类网络的噪声图、噪声图的振幅谱和噪声图的相位谱。

将所述噪声图、噪声图的振幅谱和相位谱一同输入到分类网络中进行图像验真判别，训练得到分类网络模型，包括：

通过特征融合来使网络同时学习空间域信息与频率域信息，充分利用空间域和频率域，避免了仅使用一种信息形成特征冗余，提高特征的利用率。

将特征进行分类，包括如下步骤：

1)将图像特征融合形成的五通道特征作为网络输入层；

4)最后通过2048×1000和1000×2的全连接层得到预测概率值；

将所述训练集与测试集输入去噪网络中提取噪声图，包括：

LNP＝Src(x,y)-F(Src(x,y))

一种基于噪声指纹的图像验真检测系统，包括：

对噪声图进行快速傅里叶变换：

利用噪声图的频谱图提取其振幅谱A(u,v)：

其中R(u,v)和I(u,v)分别表示F(u,v)的实部和虚部；

利用噪声图的频谱图提取其相位谱φ(u,v)：

所述特征分类模块将特征进行分类，包括如下步骤：

1)将图像特征融合形成的五通道特征作为网络输入层；

4)最后通过2048×1000和1000×2的全连接层得到预测概率值；

所述提取噪声图模块提取噪音图的步骤为：所述训练集和测试集中的图像使用去噪网络模型提取输入图像的噪声图特性，将输入图像使用去噪网络模型提取噪声图，所述噪声图可表示为：

LNP＝Src(x,y)-F(Src(x,y))

为了验证本发明的效果，进行了如下实验：

在一台计算机上进行验证实验，该计算机的配置，Intel Xeon E5-2603 v4处理器，32GB内存，显卡Nvidia GTX Titan X(16GB)，平台为PyCharm。

实验方法：

在本实验过程中，我们搜集并整理了多种公开生成模型用来制作作数据集。

第一步：使用PyCharm运行程序，利用去噪模型，将收集的72万张训练集以及30万张测试集使用去噪网络提取噪声图。同时我们对噪声图放大100倍以用来正常显示图像色彩，如图2所示。

第二步：使用PyCharm运行程序，将训练集和测试集的噪声图提取其振幅谱与相位谱，如图3或4所示，输入到后续的分类网络中。

第三步：将训练集图片和对应的标签输入到图像验真神经网络中去，设置学习率下降算法，初始学习率设置为1e-3，如果在5次迭代中，验证集准确率没有升高，学习率就减小10倍，直到1e-6为止，最终训练好的模型。

第四步：使用训练好的模型来测试测试集中的图像并根据对应的标签计算出检测的精确度。

由此可见，图像验真检测方法在经过训练后，可以有效地检测出图像是否属于真实图像或生成图像，检测准确率能够达到92％左右。由此可以更准确的辅助相关的图像取证或图像安全工作，进而降低生成图像对个人和社会带来的不利影响，具有实际意义，并且取得较好效果。利用PyCharm平台进行训练和测试，操作简单。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于噪声指纹的图像验真检测方法，其特征在于，包括以下步骤：

搜集并整理公开的生成模型以及真实图像的图像样本；

根据所述生成模型及真实图像构建和划分训练集和测试集；

将所述训练集与测试集输入去噪网络中提取噪声图；

2.根据权利要求1所述的基于噪声指纹的图像验真检测方法，其特征在于，根据所述生成模型及真实图像构建训练集和测试集，包括：

3.根据权利要求1或2所述的基于噪声指纹的图像验真检测方法，其特征在于，对所述噪声图提取振幅谱与相位谱，包括：

对噪声图进行快速傅里叶变换：

利用噪声图的频谱图提取其振幅谱A(u,v)：

其中R(u,v)和I(u,v)分别表示F(u,v)的实部和虚部；

利用噪声图的频谱图提取其相位谱φ(u,v)：

4.根据权利要求3所述的基于噪声指纹的图像验真检测方法，其特征在于，将所述噪声图、噪声图的振幅谱和相位谱一同输入到分类网络中进行图像验真判别，训练得到分类网络模型，包括：

5.根据权利要求4所述的基于噪声指纹的图像验真检测方法，其特征在于，将所述噪声图、噪声图的振幅谱和相位谱一同输入到分类网络中进行图像验真判别，训练得到分类网络模型，包括：

将特征进行分类，包括如下步骤：

1)将图像特征融合形成的五通道特征作为网络输入层；

4)最后通过2048×1000和1000×2的全连接层得到预测概率值；

6.根据权利要求1或2所述的基于噪声指纹的图像验真检测方法，其特征在于，将所述训练集与测试集输入去噪网络中提取噪声图，包括：

LNP＝Src(x,y)-F(Src(x,y))

7.一种基于噪声指纹的图像验真检测系统，其特征在于，包括：

8.根据权利要求7所述的基于噪声指纹的图像验真检测系统，其特征在于，使用快速傅里叶变换提取噪声图像的振幅谱及相位谱，包括如下步骤：

对噪声图进行快速傅里叶变换：

利用噪声图的频谱图提取其振幅谱A(u,v)：

其中R(u,v)和I(u,v)分别表示F(u,v)的实部和虚部；

利用噪声图的频谱图提取其相位谱φ(u,v)：

/>

9.根据权利要求7所述的基于噪声指纹的图像验真检测系统，其特征在于，所述特征分类模块将特征进行分类，包括如下步骤：

1)将图像特征融合形成的五通道特征作为网络输入层；

4)最后通过2048×1000和1000×2的全连接层得到预测概率值；

10.根据权利要求7所述的基于噪声指纹的图像验真检测系统，其特征在于，所述提取噪声图模块提取噪音图的步骤为：所述训练集和测试集中的图像使用去噪网络模型提取输入图像的噪声图特性，将输入图像使用去噪网络模型提取噪声图，所述噪声图可表示为：

LNP＝Src(x,y)-F(Src(x,y))