CN117115064B

CN117115064B - 一种基于多模态控制的图像合成方法

Info

Publication number: CN117115064B
Application number: CN202311340079.8A
Authority: CN
Inventors: 朱小刚; 匡仁盛; 丁峰; 刘春年
Original assignee: Nanchang University New Generation Information Technology Industry Research Institute; Nanchang University
Current assignee: Nanchang University New Generation Information Technology Industry Research Institute; Nanchang University
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2024-02-02
Anticipated expiration: 2043-10-17
Also published as: CN117115064A

Abstract

本发明提供了一种基于多模态控制的图像合成方法，所述方法包括：获取图像数据，图像数据中包含相对应的真图和假图；构建图像合成模型，该模型包含采用基于多头注意力模块的U‑Net架构的生成器；将图像数据中的假图预处理后，输入图像合成模型，基于生成器输出生成图像；基于生成图像和假图及对应的锐化后的真图，在空间域和频域上构建五重损失函数；基于五重损失函数构建最终损失函数，并基于最终损失函数将学习到的权重回传至生成器以更新预设权重，经过预设轮次迭代训练后得到训练好的图像合成模型；将待合成的图像输入训练好的图像合成模型并输出合成图像。本发明提供的方法改善了现有反取证技术局限于欺骗检测器对图片的来源进行检测的问题。

Description

一种基于多模态控制的图像合成方法

技术领域

本发明涉及电数字处理技术领域，尤其涉及一种基于多模态控制的图像合成方法。

背景技术

在CNN和DNN出现之前，大多数合成照片都是通过Photoshop等传统照片编辑软件进行合成和修改。编辑软件通过挤压图片、修改低频和高频部分信息、叠加图片、模糊图片等操作，可以使照片的内容发生变化，达到换脸的效果，但其效果容易被人们轻易识别，其效率也较低，需要专业人士操作。如今，随着各种大规模网络模型的出现，换脸的效果已经达到了人眼难辨的高度。深度换脸的简单性和易操作性也使得深度换脸在全世界范围内流行起来。在生成式模型中，广泛使用的模型是具有生成式对抗网络框架的Deepfake算法。

生成对抗网络的结构则使用了一个生成器和一个判别器，生成器类似于自编码器的解码器，将输入的噪声转换成图片，和真实存在的图片送入判别器进行辨别。判别器和生成器均使用反向传播来优化参数，当判别器尚能分辨生成器输出和现实存在图片时，对生成器的参数进行优化以提升生成图片质量；对判别器的参数进行优化以提升判别器分辨准确率，达到纳什均衡时模型优化至最佳。

基于GAN网络的反取证攻击并不是试图利用图像的表面特征来欺骗分类器对图像进行错误分类。相反，它们使用一组与目标分类器的取证特征完全匹配的合成痕迹来取代图像中存在的取证痕迹。他们试图合成目标分类器被检测为正样本的痕迹，以完成诸如检测操纵和识别来源的任务。通过使用端到端方法训练生成器和鉴别器来干扰目标图像的分类，从而使检测器对输出结果进行错误分类。然而现有的反取证模型仍存在应用的场景单一，没有涉及到广泛的人脸造假，局限于欺骗检测器对图片的来源进行检测的问题，因此，亟需提供一种方案改善上述问题。

发明内容

本发明的目的在于提供了一种基于多模态控制的图像合成方法，改善了现有反取证技术局限于欺骗检测器对图片的来源进行检测的问题。

本发明提供的一种基于多模态控制的图像合成方法采用如下的技术方案：

获取图像数据，所述图像数据中包含相互对应的真图和假图；

构建图像合成模型，所述图像合成模型包括判别器和生成器，所述生成器采用基于多头注意力模块的U-Net架构；

将所述图像数据中的假图预处理后，输入所述图像合成模型，基于所述生成器输出生成图像；基于所述生成图像和所述假图及对应的锐化后的真图，在空间域和频域上构建损失函数；所述损失函数包括修改损失函数、一致性损失函数、结构相似度损失函数、增强损失函数和调整损失函数；

基于所述损失函数构建最终损失函数，并基于所述最终损失函数将学习到的权重回传至所述生成器以更新预设权重，经过预设轮次迭代训练后得到训练好的图像合成模型；

将待合成的图像输入所述训练好的图像合成模型，输出合成图像。

如上所述的一种基于多模态控制的图像合成方法，其中，基于所述最终损失函数将学习到的权重回传至所述生成器以更新预设权重时，迭代训练所述图像合成模型直至所述损失函数稳定收敛后，冻结所述生成器中下采样模块的权重，并继续迭代训练所述图像合成模型直至达到预设迭代轮次。

如上所述的一种基于多模态控制的图像合成方法，其中，执行将所述图像数据中的假图预处理的过程中，包括：

对所述假图进行加噪操作得到加噪图像；

将所述加噪图像与所述假图进行相加得到第一图像；

对所述假图进行灰度化后进行傅里叶变换，得到第二图像；

将所述第一图像与所述第二图像进行叠加得到预处理后的假图。

如上所述的一种基于多模态控制的图像合成方法，其中，将所述加噪图像与所述假图相加得到第一图像的过程中，表示为：

，

式中，表示为第一图像，/>表示假图，/>表示加噪图像，/>表示叠加因子；

将所述第一图像与所述第二图像进行叠加得到预处理后的假图的过程中，表示为：

，

式中，表示预处理后的假图，/>表示叠加操作，/>表示傅里叶变换，表示灰度化处理。

如上所述的一种基于多模态控制的图像合成方法，其中，对所述假图进行加噪操作得到加噪图像的过程中，基于扩散模型中前向过程的噪声添加方法对所述假图进行加噪操作，得到目标时刻的加噪图像。

如上所述的一种基于多模态控制的图像合成方法，其中，构建图像合成模型时，所述生成器的下采样模块包括下二维卷积层、下卷积块和下残差块；所述生成器的中间模块包括中间卷积块和中间多头注意力模块；所述生成器的上采样模块包括上二维卷积层、上多头注意力模块和上残差块。

如上所述的一种基于多模态控制的图像合成方法，其中，在空间域和频域上构建损失函数时，包括：

构建空间域损失函数的过程中，表示为：

，

式中，表示当生成器损失最小化，且判别器损失最大化时的计算值；G表示生成器，D表示判别器；/>表示生成器在空间域的损失函数，/>表示判别器在空间域的损失函数；

构建频域损失函数的过程中，表示为：

，

式中，表示当生成器损失最小化，且判别器损失最大化时的计算值；G表示生成器，D表示判别器；/>表示生成器在频域的损失函数，/>表示判别器在频域的损失函数。

如上所述的一种基于多模态控制的图像合成方法，其中，构建空间域损失函数的过程中，基于所述修改损失函数和所述一致性损失函数构建所述生成器在空间域的损失函数，并构建所述判别器在空间域的损失函数；

构建所述生成器在空间域的损失函数时，表示为：

，

式中，和/>表示权重系数，/>为生成器的参数，/>表示修改损失函数，/>表示一致性损失函数；

构建所述判别器在空间域的损失函数时，表示为：

，

式中，表示期望符号，/>表示在通道维度上的叠加操作，/>表示判别器输入图像后的交叉熵损失，/>为判别器的参数，/>表示生成图像，/>表示锐化后的真图，/>表示假图；

构建频域损失函数的过程中，基于所述调整损失函数、所述增强损失函数和所述结构相似度损失函数构建所述生成器在频域的损失函数，并构建所述判别器在频域的损失函数；

构建所述生成器在频域的损失函数时，表示为：

，

式中， _、/>和/>表示权重系数，/>为生成器的参数，/>表示调整损失函数，表示增强损失函数，/>表示结构相似度损失函数；

构建所述判别器在频域的损失函数时，表示为：

，

式中，表示期望符号，/>表示在通道维度上的叠加操作，/>表示判别器输入图像后的交叉熵损失，/>表示傅里叶变换，/>为判别器的参数，/>表示生成图像，/>表示锐化后的真图，/>表示假图。

如上所述的一种基于多模态控制的图像合成方法，其中，构建所述修改损失函数时，表示为：

，

其中，表示期望符号，/>表示权重系数，/>表示判别器输入图像后的交叉熵损失；

构建所述一致性损失函数时，表示为：

，

其中，表示期望符号，/>表示权重系数；

构建所述调整损失函数时，表示为：

，

其中，表示期望符号，/>表示权重系数，/>表示傅里叶变换，/>表示生成图像经过傅里叶变换后的图像，/>表示锐化后的真图经过傅里叶变换后的图像，/>表示假图经过傅里叶变换后的图像；

构建所述增强损失函数时，表示为：

，

其中，表示期望符号，/>表示判别器输入图像后的交叉熵损失，/>表示生成图像经过傅里叶变换后的图像，/>表示假图经过傅里叶变换后的图像；

构建所述结构相似度损失函数时，表示为：

，

其中，为结构相似度函数。

如上所述的一种基于多模态控制的图像合成方法，其中，基于所述损失函数构建最终损失函数时，表示为：

。

本发明提供的一种基于多模态控制的图像合成方法，其有益效果在于：

1、本发明不局限于相机生成的图像和混淆图像的来源，经过对抗性训练的生成器来合成检测器与真实图像相关联的取证痕迹来达到欺骗检测器的目的，并且使用通用的数据集验证了有效性。

2、本发明首次提出了多模态五重损失函数，来改善和优化模型生成的图像质量，它提高了训练的灵活性，更好地控制了模型生成迷惑的图像特征，增强对检测器的攻击能力。

3、本发明采用基于多头注意力模块的U-net架构构建生成器，以提高生成图像的视觉质量。

4、本发明提出了一种双阶段训练方法，通过冻结第一阶段部分网络层来获得优秀的反取证效果。

附图说明

图1为本发明实施例提供的图像合成模型结构图；

图2为本发明实施例提供的生成器结构图；

图3为本发明实施例提供的多头注意力模块结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。除非另外定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本文中使用的“包括”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

下面结合附图和实施例对本发明进一步说明：

本发明实施例提供了一种基于多模态控制的图像合成方法，包括：

在一些实施例中，所有实验都在服务器上运行，并基于深度学习工具箱PyTorch113.0与cu11.3实现。具体的，服务器可以配备两块3090显卡。

在一些实施例中，采用了Deepfake数据集中的Celeb-DF、FaceForensics++和DeeperForensics数据集作为原始图像数据，分别从上述三个数据集中提取真图和假图各20000个，然后将每个数据集中提取的图像划分为训练集和测试集。具体的，提取的图像大小为256×256，训练集和测试集的比例为4:1。

进一步的，同一人物身份的图像不同时出现在训练集和测试集中，以防止模型过拟合。

在一些实施例中，对提取的图像中的真图进行锐化操作，通过增强高频分量来减少图像中的模糊度，增强图像的边缘和轮廓来提高灰度对比度，锐化过程表示为：

，

其中，表示锐化后的真图，/>表示锐化操作，/>表示真图，/>表示锐化因子。

在一些实施例中，参见图1，执行将所述图像数据中的假图预处理的过程中，包括：

对所述假图进行加噪操作得到加噪图像；

将所述加噪图像与所述假图进行相加得到第一图像；

对所述假图进行灰度化后进行傅里叶变换，得到第二图像；

在一些实施例中，将所述加噪图像与所述假图相加得到第一图像的过程中，表示为：

，

具体的，的特征维度可以为/>，其中，/>为所述假图的宽，/>为所述假图的高，/>为所述假图的通道数。

在一些实施例中，对所述假图进行加噪操作得到加噪图像的过程中，基于扩散模型中前向过程的噪声添加方法对所述假图进行加噪操作，得到目标时刻的加噪图像。

具体的，定义一个前向噪声过程p，并在t时刻加入方差为的高斯噪声，产生中间隐代码/>到/>，表示为：

，

其中，表示正态分布，/>表示方差，/>表示t时刻的随机噪声；实际上，当T足够大时，/>趋近随机噪声。

进一步的，给定输入图像，对/>加噪的过程表示为：

，

其中， =/> ，/> =/>，/>表示正态分布，/>为t时刻的随机噪声。

具体的，可以设置t=200。

在一些实施例中，构建图像合成模型时，参见图2，所述生成器的下采样模块包括下二维卷积层、下卷积块和下残差块；所述生成器的中间模块包括中间卷积块和中间多头注意力模块；所述生成器的上采样模块包括上二维卷积层、上多头注意力模块和上残差块，具体的网络结构参数如表1所示。

表1

，

实际上，输入生成器的预处理后的假图的通道数为6，分辨率为256×256。

具体的，每两个下采样层之间包含一个卷积块和一个残差块，每经过一次下采样后输出的图像尺寸变为其输入的一半，输出通道数变为输入通道数的两倍。

进一步的，参见图3，将多头注意力模块的注意头数设置为1，以减少CPU的工作量，同时保持生成图像的质量。

进一步的，每经过一次上采样后输出的图像尺寸变为其输入的两倍，且在每一次上采样过程中都会在通道层叠加对应的下采样模块。

在一些实施例中，采用组归一化替代原U-Net架构中的批量归一化，采用ReLU函数代替原U-Net架构中的SiLU函数。

在一些实施例中，在空间域和频域上构建损失函数时，包括：

构建空间域损失函数的过程中，表示为：

，

构建频域损失函数的过程中，表示为：

，

在一些实施例中，构建空间域损失函数的过程中，基于所述修改损失函数和所述一致性损失函数构建所述生成器在空间域的损失函数，并构建所述判别器在空间域的损失函数；

构建所述生成器在空间域的损失函数时，表示为：

，

构建所述判别器在空间域的损失函数时，表示为：

，

构建所述生成器在频域的损失函数时，表示为：

，

构建所述判别器在频域的损失函数时，表示为：

，

进一步的，判别器将生成图像标注为假，将其余图像标注为真；判别器将生成图像的频率图像标注为假，对应真图的频率图像标注为真。

在一些实施例中，构建所述修改损失函数时，表示为：

，

构建所述一致性损失函数时，表示为：

，

其中，表示期望符号，/>表示权重系数；

构建所述调整损失函数时，表示为：

，

构建所述增强损失函数时，表示为：

，

构建所述结构相似度损失函数时，表示为：

，

其中，为结构相似度函数。

具体的，修改损失函数表示锐化后的真图和对应假图之间的差异，一致性损失函数动态表示预处理后的图像和对应生成图像之间的差异，调整损失函数动态表示预处理后的图像的频率图和对应生成图像的频率图之间的差异，增强损失函数表示生成图像的频率图和对应假图的频率图之间的差异，结构相似度损失函数表示生成图像的频率图和对应假图之间的差异。

在一些实施例中，基于所述损失函数构建最终损失函数时，表示为：

。

在一些实施例中，基于所述最终损失函数将学习到的权重回传至所述生成器以更新预设权重时，迭代训练所述图像合成模型直至所述损失函数稳定收敛后，冻结所述生成器中下采样模块的权重，并继续迭代训练所述图像合成模型直至达到预设迭代轮次。

具体的，训练的第一阶段为迭代训练所述图像合成模型直至所述损失函数稳定收敛，训练的第二阶段冻结生成器中下采样模块的权重，并继续迭代训练所述图像合成模型直至达到预设迭代轮次。

进一步的，第一阶段为去噪阶段，一致性损失函数和调整损失函数在此阶段起作用；第二阶段为冻结阶段，修改损失函数、一致性损失函数、结构相似度损失函数、增强损失函数和调整损失函数在此阶段起作用。

具体的，在前20轮训练中，进行第一阶段训练。其中，可以设置=1，/>=100，=0。

进一步的，损失函数稳定后，冻结生成器的下采样模块中的卷积层，进行第二阶段训练，只训练中间模块和上采样模块。其中，可以设置=0.15，/>=100，/>=0.1，/>=1，/>=2。

在一些实施例中，评价指标设置为错误率，表示为：

，

式中，TP是假样本被正确预测的数量，FN是假样本被错误预测为真的数量。

在一些实施例中，使用PSNR、FID和SSIM作为视觉质量性能指标。其中，PSNR和SSIM指标根据相应像素点之间的误差，评估数据集中的图像和对应生成图像之间的相似度；FID指标根据数据集中的计算机视觉特征统计，评估数据集中的图像和对应生成图像之间的相似度。

性能检测

本发明采用ResNet50、DenseNet、EfficientNet、MobileNet和ConvNeXt深度卷积网络模型以及DeepFake检测器CVIT模型作为检测器。上述检测器在Celeb-DF、FaceForensics++和DeeperForensics数据集上的分类准确率如表2所示，可以看出深度卷积网络检测器的分类准确率最低为97.02%，CVIT检测器为89.26%，而在这三个数据集上最高的分类准确率为99.99%。

表2

，

为了验证本发明的反取证能力，引入了三个其它方法进行对照，分别为：Ding、Xiao和Wang的方法。在DeeperForensics数据集上，如表3所示，本发明提出的方法在大多数指标上居于领先水平，只有在PSNR这个指标低于Xiao。在各个检测器的表现非常好，最低有88.72%，最高有98.25%的错误率（FR）。其它的反取证方法都不能保持平均90%以上的FR，Wang的方法在Mobilenet和CVIT没有反取证效果，Xiao的方法在特定的检测器表现不错，而Ding的方法在各个检测器都有反取证效果。

表3

，

在Celeb-DF数据集上，如表4所示，除Mobilenet和EfficientNet外，本发明提出的方法在大多数检测器上的FR最高，FR值从最低的85%到最高的97%，同时，本发明提出的方法得到了最高的SSIM和FID分数。Xiao和Wang的方法在一些检测器上表现不尽如人意，其FR值低于40%，而Ding的方法对所有探测器都有效，保持60%以上的FR值。

表4

，

在FaceForensics++数据集上，如表5所示，无论是在深度卷积网络检测器还是专门的Deepfake检测器上，本发明提出的方法都表现得相当好，在FR值方面远远高于其他方法，最低为95.92%，最高为99.59%。Ding的方法在FID值取得了最高的分数，为18.91，而Wang的方法在所有检测器上也表现得非常好。由于Xiao方法FR值低，所以它在SSIM和PSNR指标上效果非常好。

表5

，

虽然在上文中详细说明了本发明的实施方式，但是对于本领域的技术人员来说显而易见的是，能够对这些实施方式进行各种修改和变化。但是，应理解，这种修改和变化都属于权利要求书中所述的本发明的范围和精神之内。而且，在此说明的本发明可有其它的实施方式，并且可通过多种方式实施或实现。

Claims

1.一种基于多模态控制的图像合成方法，其特征在于，包括以下步骤：

将待合成的图像输入所述训练好的图像合成模型，输出合成图像；

其中，构建空间域损失函数的过程中，构建所述生成器在空间域的损失函数时，表示为：

，

构建所述判别器在空间域的损失函数时，表示为：

，

构建频域损失函数的过程中，构建所述生成器在频域的损失函数时，表示为：

，

式中， _、/>和/>表示权重系数，/>为生成器的参数，/>表示调整损失函数，/>表示增强损失函数，/>表示结构相似度损失函数；

构建所述判别器在频域的损失函数时，表示为：

，

式中，表示期望符号，/>表示在通道维度上的叠加操作，/>表示判别器输入图像后的交叉熵损失，/>表示傅里叶变换，/>为判别器的参数，/>表示生成图像，/>表示锐化后的真图，/>表示假图；

在空间域和频域上构建损失函数时，包括：

构建空间域损失函数的过程中，基于所述修改损失函数和所述一致性损失函数构建所述生成器在空间域的损失函数，并构建所述判别器在空间域的损失函数，表示为：

，

构建频域损失函数的过程中，基于所述调整损失函数、所述增强损失函数和所述结构相似度损失函数构建所述生成器在频域的损失函数，并构建所述判别器在频域的损失函数，表示为：

，

式中，表示当生成器损失最小化，且判别器损失最大化时的计算值；G表示生成器，D表示判别器；/>表示生成器在频域的损失函数，/>表示判别器在频域的损失函数；

构建所述修改损失函数时，表示为：

，

构建所述一致性损失函数时，表示为：

，

其中，表示期望符号，/>表示权重系数，/>表示L₁范数；

构建所述调整损失函数时，表示为：

，

构建所述增强损失函数时，表示为：

，

构建所述结构相似度损失函数时，表示为：

，

其中，为结构相似度函数；

基于所述损失函数构建最终损失函数时，表示为：

。

2.根据权利要求1所述的一种基于多模态控制的图像合成方法，其特征在于，基于所述最终损失函数将学习到的权重回传至所述生成器以更新预设权重时，包括：

迭代训练所述图像合成模型直至所述损失函数稳定收敛后，冻结所述生成器中下采样模块的权重，并继续迭代训练所述图像合成模型直至达到预设迭代轮次。

3.根据权利要求1所述的一种基于多模态控制的图像合成方法，其特征在于，执行将所述图像数据中的假图预处理的过程中，包括：

对所述假图进行加噪操作得到加噪图像；

将所述加噪图像与所述假图进行相加得到第一图像；

对所述假图进行灰度化后进行傅里叶变换，得到第二图像；

4.根据权利要求3所述的一种基于多模态控制的图像合成方法，其特征在于，将所述加噪图像与所述假图相加得到第一图像的过程中，表示为：

，

式中，表示预处理后的假图，/>表示叠加操作，/>表示傅里叶变换，/>表示灰度化处理。

5.根据权利要求3所述的一种基于多模态控制的图像合成方法，其特征在于，对所述假图进行加噪操作得到加噪图像的过程中，基于扩散模型中前向过程的噪声添加方法对所述假图进行加噪操作，得到目标时刻的加噪图像。

6.根据权利要求1所述的一种基于多模态控制的图像合成方法，其特征在于，构建图像合成模型时，所述生成器的下采样模块包括下二维卷积层、下卷积块和下残差块；所述生成器的中间模块包括中间卷积块和中间多头注意力模块；所述生成器的上采样模块包括上二维卷积层、上多头注意力模块和上残差块。