CN117115064B - 一种基于多模态控制的图像合成方法 - Google Patents
一种基于多模态控制的图像合成方法 Download PDFInfo
- Publication number
- CN117115064B CN117115064B CN202311340079.8A CN202311340079A CN117115064B CN 117115064 B CN117115064 B CN 117115064B CN 202311340079 A CN202311340079 A CN 202311340079A CN 117115064 B CN117115064 B CN 117115064B
- Authority
- CN
- China
- Prior art keywords
- image
- loss function
- representing
- generator
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 114
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 31
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 170
- 230000008569 process Effects 0.000 claims description 56
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 230000008014 freezing Effects 0.000 claims description 4
- 238000007710 freezing Methods 0.000 claims description 4
- 238000009792 diffusion process Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于多模态控制的图像合成方法,所述方法包括:获取图像数据,图像数据中包含相对应的真图和假图;构建图像合成模型,该模型包含采用基于多头注意力模块的U‑Net架构的生成器;将图像数据中的假图预处理后,输入图像合成模型,基于生成器输出生成图像;基于生成图像和假图及对应的锐化后的真图,在空间域和频域上构建五重损失函数;基于五重损失函数构建最终损失函数,并基于最终损失函数将学习到的权重回传至生成器以更新预设权重,经过预设轮次迭代训练后得到训练好的图像合成模型;将待合成的图像输入训练好的图像合成模型并输出合成图像。本发明提供的方法改善了现有反取证技术局限于欺骗检测器对图片的来源进行检测的问题。
Description
技术领域
本发明涉及电数字处理技术领域,尤其涉及一种基于多模态控制的图像合成方法。
背景技术
在CNN和DNN出现之前,大多数合成照片都是通过Photoshop等传统照片编辑软件进行合成和修改。编辑软件通过挤压图片、修改低频和高频部分信息、叠加图片、模糊图片等操作,可以使照片的内容发生变化,达到换脸的效果,但其效果容易被人们轻易识别,其效率也较低,需要专业人士操作。如今,随着各种大规模网络模型的出现,换脸的效果已经达到了人眼难辨的高度。深度换脸的简单性和易操作性也使得深度换脸在全世界范围内流行起来。在生成式模型中,广泛使用的模型是具有生成式对抗网络框架的Deepfake算法。
生成对抗网络的结构则使用了一个生成器和一个判别器,生成器类似于自编码器的解码器,将输入的噪声转换成图片,和真实存在的图片送入判别器进行辨别。判别器和生成器均使用反向传播来优化参数,当判别器尚能分辨生成器输出和现实存在图片时,对生成器的参数进行优化以提升生成图片质量;对判别器的参数进行优化以提升判别器分辨准确率,达到纳什均衡时模型优化至最佳。
基于GAN网络的反取证攻击并不是试图利用图像的表面特征来欺骗分类器对图像进行错误分类。相反,它们使用一组与目标分类器的取证特征完全匹配的合成痕迹来取代图像中存在的取证痕迹。他们试图合成目标分类器被检测为正样本的痕迹,以完成诸如检测操纵和识别来源的任务。通过使用端到端方法训练生成器和鉴别器来干扰目标图像的分类,从而使检测器对输出结果进行错误分类。然而现有的反取证模型仍存在应用的场景单一,没有涉及到广泛的人脸造假,局限于欺骗检测器对图片的来源进行检测的问题,因此,亟需提供一种方案改善上述问题。
发明内容
本发明的目的在于提供了一种基于多模态控制的图像合成方法,改善了现有反取证技术局限于欺骗检测器对图片的来源进行检测的问题。
本发明提供的一种基于多模态控制的图像合成方法采用如下的技术方案:
获取图像数据,所述图像数据中包含相互对应的真图和假图;
构建图像合成模型,所述图像合成模型包括判别器和生成器,所述生成器采用基于多头注意力模块的U-Net架构;
将所述图像数据中的假图预处理后,输入所述图像合成模型,基于所述生成器输出生成图像;基于所述生成图像和所述假图及对应的锐化后的真图,在空间域和频域上构建损失函数;所述损失函数包括修改损失函数、一致性损失函数、结构相似度损失函数、增强损失函数和调整损失函数;
基于所述损失函数构建最终损失函数,并基于所述最终损失函数将学习到的权重回传至所述生成器以更新预设权重,经过预设轮次迭代训练后得到训练好的图像合成模型;
将待合成的图像输入所述训练好的图像合成模型,输出合成图像。
如上所述的一种基于多模态控制的图像合成方法,其中,基于所述最终损失函数将学习到的权重回传至所述生成器以更新预设权重时,迭代训练所述图像合成模型直至所述损失函数稳定收敛后,冻结所述生成器中下采样模块的权重,并继续迭代训练所述图像合成模型直至达到预设迭代轮次。
如上所述的一种基于多模态控制的图像合成方法,其中,执行将所述图像数据中的假图预处理的过程中,包括:
对所述假图进行加噪操作得到加噪图像;
将所述加噪图像与所述假图进行相加得到第一图像;
对所述假图进行灰度化后进行傅里叶变换,得到第二图像;
将所述第一图像与所述第二图像进行叠加得到预处理后的假图。
如上所述的一种基于多模态控制的图像合成方法,其中,将所述加噪图像与所述假图相加得到第一图像的过程中,表示为:
,
式中,表示为第一图像,/>表示假图,/>表示加噪图像,/>表示叠加因子;
将所述第一图像与所述第二图像进行叠加得到预处理后的假图的过程中,表示为:
,
式中,表示预处理后的假图,/>表示叠加操作,/>表示傅里叶变换,表示灰度化处理。
如上所述的一种基于多模态控制的图像合成方法,其中,对所述假图进行加噪操作得到加噪图像的过程中,基于扩散模型中前向过程的噪声添加方法对所述假图进行加噪操作,得到目标时刻的加噪图像。
如上所述的一种基于多模态控制的图像合成方法,其中,构建图像合成模型时,所述生成器的下采样模块包括下二维卷积层、下卷积块和下残差块;所述生成器的中间模块包括中间卷积块和中间多头注意力模块;所述生成器的上采样模块包括上二维卷积层、上多头注意力模块和上残差块。
如上所述的一种基于多模态控制的图像合成方法,其中,在空间域和频域上构建损失函数时,包括:
构建空间域损失函数的过程中,表示为:
,
式中,表示当生成器损失最小化,且判别器损失最大化时的计算值;G表示生成器,D表示判别器;/>表示生成器在空间域的损失函数,/>表示判别器在空间域的损失函数;
构建频域损失函数的过程中,表示为:
,
式中,表示当生成器损失最小化,且判别器损失最大化时的计算值;G表示生成器,D表示判别器;/>表示生成器在频域的损失函数,/>表示判别器在频域的损失函数。
如上所述的一种基于多模态控制的图像合成方法,其中,构建空间域损失函数的过程中,基于所述修改损失函数和所述一致性损失函数构建所述生成器在空间域的损失函数,并构建所述判别器在空间域的损失函数;
构建所述生成器在空间域的损失函数时,表示为:
,
式中,和/>表示权重系数,/>为生成器的参数,/>表示修改损失函数,/>表示一致性损失函数;
构建所述判别器在空间域的损失函数时,表示为:
,
式中,表示期望符号,/>表示在通道维度上的叠加操作,/>表示判别器输入图像后的交叉熵损失,/>为判别器的参数,/>表示生成图像,/>表示锐化后的真图,/>表示假图;
构建频域损失函数的过程中,基于所述调整损失函数、所述增强损失函数和所述结构相似度损失函数构建所述生成器在频域的损失函数,并构建所述判别器在频域的损失函数;
构建所述生成器在频域的损失函数时,表示为:
,
式中, 、/>和/>表示权重系数,/>为生成器的参数,/>表示调整损失函数,表示增强损失函数,/>表示结构相似度损失函数;
构建所述判别器在频域的损失函数时,表示为:
,
式中,表示期望符号,/>表示在通道维度上的叠加操作,/>表示判别器输入图像后的交叉熵损失,/>表示傅里叶变换,/>为判别器的参数,/>表示生成图像,/>表示锐化后的真图,/>表示假图。
如上所述的一种基于多模态控制的图像合成方法,其中,构建所述修改损失函数时,表示为:
,
其中,表示期望符号,/>表示权重系数,/>表示判别器输入图像后的交叉熵损失;
构建所述一致性损失函数时,表示为:
,
其中,表示期望符号,/>表示权重系数;
构建所述调整损失函数时,表示为:
,
其中,表示期望符号,/>表示权重系数,/>表示傅里叶变换,/>表示生成图像经过傅里叶变换后的图像,/>表示锐化后的真图经过傅里叶变换后的图像,/>表示假图经过傅里叶变换后的图像;
构建所述增强损失函数时,表示为:
,
其中,表示期望符号,/>表示判别器输入图像后的交叉熵损失,/>表示生成图像经过傅里叶变换后的图像,/>表示假图经过傅里叶变换后的图像;
构建所述结构相似度损失函数时,表示为:
,
其中,为结构相似度函数。
如上所述的一种基于多模态控制的图像合成方法,其中,基于所述损失函数构建最终损失函数时,表示为:
。
本发明提供的一种基于多模态控制的图像合成方法,其有益效果在于:
1、本发明不局限于相机生成的图像和混淆图像的来源,经过对抗性训练的生成器来合成检测器与真实图像相关联的取证痕迹来达到欺骗检测器的目的,并且使用通用的数据集验证了有效性。
2、本发明首次提出了多模态五重损失函数,来改善和优化模型生成的图像质量,它提高了训练的灵活性,更好地控制了模型生成迷惑的图像特征,增强对检测器的攻击能力。
3、本发明采用基于多头注意力模块的U-net架构构建生成器,以提高生成图像的视觉质量。
4、本发明提出了一种双阶段训练方法,通过冻结第一阶段部分网络层来获得优秀的反取证效果。
附图说明
图1为本发明实施例提供的图像合成模型结构图;
图2为本发明实施例提供的生成器结构图;
图3为本发明实施例提供的多头注意力模块结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另外定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本文中使用的“包括”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
下面结合附图和实施例对本发明进一步说明:
本发明实施例提供了一种基于多模态控制的图像合成方法,包括:
获取图像数据,所述图像数据中包含相互对应的真图和假图;
构建图像合成模型,所述图像合成模型包括判别器和生成器,所述生成器采用基于多头注意力模块的U-Net架构;
将所述图像数据中的假图预处理后,输入所述图像合成模型,基于所述生成器输出生成图像;基于所述生成图像和所述假图及对应的锐化后的真图,在空间域和频域上构建损失函数;所述损失函数包括修改损失函数、一致性损失函数、结构相似度损失函数、增强损失函数和调整损失函数;
基于所述损失函数构建最终损失函数,并基于所述最终损失函数将学习到的权重回传至所述生成器以更新预设权重,经过预设轮次迭代训练后得到训练好的图像合成模型;
将待合成的图像输入所述训练好的图像合成模型,输出合成图像。
在一些实施例中,所有实验都在服务器上运行,并基于深度学习工具箱PyTorch113.0与cu11.3实现。具体的,服务器可以配备两块3090显卡。
在一些实施例中,采用了Deepfake数据集中的Celeb-DF、FaceForensics++和DeeperForensics数据集作为原始图像数据,分别从上述三个数据集中提取真图和假图各20000个,然后将每个数据集中提取的图像划分为训练集和测试集。具体的,提取的图像大小为256×256,训练集和测试集的比例为4:1。
进一步的,同一人物身份的图像不同时出现在训练集和测试集中,以防止模型过拟合。
在一些实施例中,对提取的图像中的真图进行锐化操作,通过增强高频分量来减少图像中的模糊度,增强图像的边缘和轮廓来提高灰度对比度,锐化过程表示为:
,
其中,表示锐化后的真图,/>表示锐化操作,/>表示真图,/>表示锐化因子。
在一些实施例中,参见图1,执行将所述图像数据中的假图预处理的过程中,包括:
对所述假图进行加噪操作得到加噪图像;
将所述加噪图像与所述假图进行相加得到第一图像;
对所述假图进行灰度化后进行傅里叶变换,得到第二图像;
将所述第一图像与所述第二图像进行叠加得到预处理后的假图。
在一些实施例中,将所述加噪图像与所述假图相加得到第一图像的过程中,表示为:
,
式中,表示为第一图像,/>表示假图,/>表示加噪图像,/>表示叠加因子;
将所述第一图像与所述第二图像进行叠加得到预处理后的假图的过程中,表示为:
,
式中,表示预处理后的假图,/>表示叠加操作,/>表示傅里叶变换,表示灰度化处理。
具体的,的特征维度可以为/>,其中,/>为所述假图的宽,/>为所述假图的高,/>为所述假图的通道数。
在一些实施例中,对所述假图进行加噪操作得到加噪图像的过程中,基于扩散模型中前向过程的噪声添加方法对所述假图进行加噪操作,得到目标时刻的加噪图像。
具体的,定义一个前向噪声过程p,并在t时刻加入方差为的高斯噪声,产生中间隐代码/>到/>,表示为:
,
其中,表示正态分布,/>表示方差,/>表示t时刻的随机噪声;实际上,当T足够大时,/>趋近随机噪声。
进一步的,给定输入图像,对/>加噪的过程表示为:
,
其中, =/> ,/> =/>,/>表示正态分布,/>为t时刻的随机噪声。
具体的,可以设置t=200。
在一些实施例中,构建图像合成模型时,参见图2,所述生成器的下采样模块包括下二维卷积层、下卷积块和下残差块;所述生成器的中间模块包括中间卷积块和中间多头注意力模块;所述生成器的上采样模块包括上二维卷积层、上多头注意力模块和上残差块,具体的网络结构参数如表1所示。
表1
,
实际上,输入生成器的预处理后的假图的通道数为6,分辨率为256×256。
具体的,每两个下采样层之间包含一个卷积块和一个残差块,每经过一次下采样后输出的图像尺寸变为其输入的一半,输出通道数变为输入通道数的两倍。
进一步的,参见图3,将多头注意力模块的注意头数设置为1,以减少CPU的工作量,同时保持生成图像的质量。
进一步的,每经过一次上采样后输出的图像尺寸变为其输入的两倍,且在每一次上采样过程中都会在通道层叠加对应的下采样模块。
在一些实施例中,采用组归一化替代原U-Net架构中的批量归一化,采用ReLU函数代替原U-Net架构中的SiLU函数。
在一些实施例中,在空间域和频域上构建损失函数时,包括:
构建空间域损失函数的过程中,表示为:
,
式中,表示当生成器损失最小化,且判别器损失最大化时的计算值;G表示生成器,D表示判别器;/>表示生成器在空间域的损失函数,/>表示判别器在空间域的损失函数;
构建频域损失函数的过程中,表示为:
,
式中,表示当生成器损失最小化,且判别器损失最大化时的计算值;G表示生成器,D表示判别器;/>表示生成器在频域的损失函数,/>表示判别器在频域的损失函数。
在一些实施例中,构建空间域损失函数的过程中,基于所述修改损失函数和所述一致性损失函数构建所述生成器在空间域的损失函数,并构建所述判别器在空间域的损失函数;
构建所述生成器在空间域的损失函数时,表示为:
,
式中,和/>表示权重系数,/>为生成器的参数,/>表示修改损失函数,/>表示一致性损失函数;
构建所述判别器在空间域的损失函数时,表示为:
,
式中,表示期望符号,/>表示在通道维度上的叠加操作,/>表示判别器输入图像后的交叉熵损失,/>为判别器的参数,/>表示生成图像,/>表示锐化后的真图,/>表示假图;
构建频域损失函数的过程中,基于所述调整损失函数、所述增强损失函数和所述结构相似度损失函数构建所述生成器在频域的损失函数,并构建所述判别器在频域的损失函数;
构建所述生成器在频域的损失函数时,表示为:
,
式中, 、/>和/>表示权重系数,/>为生成器的参数,/>表示调整损失函数,表示增强损失函数,/>表示结构相似度损失函数;
构建所述判别器在频域的损失函数时,表示为:
,
式中,表示期望符号,/>表示在通道维度上的叠加操作,/>表示判别器输入图像后的交叉熵损失,/>表示傅里叶变换,/>为判别器的参数,/>表示生成图像,/>表示锐化后的真图,/>表示假图。
进一步的,判别器将生成图像标注为假,将其余图像标注为真;判别器将生成图像的频率图像标注为假,对应真图的频率图像标注为真。
在一些实施例中,构建所述修改损失函数时,表示为:
,
其中,表示期望符号,/>表示权重系数,/>表示判别器输入图像后的交叉熵损失;
构建所述一致性损失函数时,表示为:
,
其中,表示期望符号,/>表示权重系数;
构建所述调整损失函数时,表示为:
,
其中,表示期望符号,/>表示权重系数,/>表示傅里叶变换,/>表示生成图像经过傅里叶变换后的图像,/>表示锐化后的真图经过傅里叶变换后的图像,/>表示假图经过傅里叶变换后的图像;
构建所述增强损失函数时,表示为:
,
其中,表示期望符号,/>表示判别器输入图像后的交叉熵损失,/>表示生成图像经过傅里叶变换后的图像,/>表示假图经过傅里叶变换后的图像;
构建所述结构相似度损失函数时,表示为:
,
其中,为结构相似度函数。
具体的,修改损失函数表示锐化后的真图和对应假图之间的差异,一致性损失函数动态表示预处理后的图像和对应生成图像之间的差异,调整损失函数动态表示预处理后的图像的频率图和对应生成图像的频率图之间的差异,增强损失函数表示生成图像的频率图和对应假图的频率图之间的差异,结构相似度损失函数表示生成图像的频率图和对应假图之间的差异。
在一些实施例中,基于所述损失函数构建最终损失函数时,表示为:
。
在一些实施例中,基于所述最终损失函数将学习到的权重回传至所述生成器以更新预设权重时,迭代训练所述图像合成模型直至所述损失函数稳定收敛后,冻结所述生成器中下采样模块的权重,并继续迭代训练所述图像合成模型直至达到预设迭代轮次。
具体的,训练的第一阶段为迭代训练所述图像合成模型直至所述损失函数稳定收敛,训练的第二阶段冻结生成器中下采样模块的权重,并继续迭代训练所述图像合成模型直至达到预设迭代轮次。
进一步的,第一阶段为去噪阶段,一致性损失函数和调整损失函数在此阶段起作用;第二阶段为冻结阶段,修改损失函数、一致性损失函数、结构相似度损失函数、增强损失函数和调整损失函数在此阶段起作用。
具体的,在前20轮训练中,进行第一阶段训练。其中,可以设置=1,/>=100,=0。
进一步的,损失函数稳定后,冻结生成器的下采样模块中的卷积层,进行第二阶段训练,只训练中间模块和上采样模块。其中,可以设置=0.15,/>=100,/>=0.1,/>=1,/>=2。
在一些实施例中,评价指标设置为错误率,表示为:
,
式中,TP是假样本被正确预测的数量,FN是假样本被错误预测为真的数量。
在一些实施例中,使用PSNR、FID和SSIM作为视觉质量性能指标。其中,PSNR和SSIM指标根据相应像素点之间的误差,评估数据集中的图像和对应生成图像之间的相似度;FID指标根据数据集中的计算机视觉特征统计,评估数据集中的图像和对应生成图像之间的相似度。
性能检测
本发明采用ResNet50、DenseNet、EfficientNet、MobileNet和ConvNeXt深度卷积网络模型以及DeepFake检测器CVIT模型作为检测器。上述检测器在Celeb-DF、FaceForensics++和DeeperForensics数据集上的分类准确率如表2所示,可以看出深度卷积网络检测器的分类准确率最低为97.02%,CVIT检测器为89.26%,而在这三个数据集上最高的分类准确率为99.99%。
表2
,
为了验证本发明的反取证能力,引入了三个其它方法进行对照,分别为:Ding、Xiao和Wang的方法。在DeeperForensics数据集上,如表3所示,本发明提出的方法在大多数指标上居于领先水平,只有在PSNR这个指标低于Xiao。在各个检测器的表现非常好,最低有88.72%,最高有98.25%的错误率(FR)。其它的反取证方法都不能保持平均90%以上的FR,Wang的方法在Mobilenet和CVIT没有反取证效果,Xiao的方法在特定的检测器表现不错,而Ding的方法在各个检测器都有反取证效果。
表3
,
在Celeb-DF数据集上,如表4所示,除Mobilenet和EfficientNet外,本发明提出的方法在大多数检测器上的FR最高,FR值从最低的85%到最高的97%,同时,本发明提出的方法得到了最高的SSIM和FID分数。Xiao和Wang的方法在一些检测器上表现不尽如人意,其FR值低于40%,而Ding的方法对所有探测器都有效,保持60%以上的FR值。
表4
,
在FaceForensics++数据集上,如表5所示,无论是在深度卷积网络检测器还是专门的Deepfake检测器上,本发明提出的方法都表现得相当好,在FR值方面远远高于其他方法,最低为95.92%,最高为99.59%。Ding的方法在FID值取得了最高的分数,为18.91,而Wang的方法在所有检测器上也表现得非常好。由于Xiao方法FR值低,所以它在SSIM和PSNR指标上效果非常好。
表5
,
虽然在上文中详细说明了本发明的实施方式,但是对于本领域的技术人员来说显而易见的是,能够对这些实施方式进行各种修改和变化。但是,应理解,这种修改和变化都属于权利要求书中所述的本发明的范围和精神之内。而且,在此说明的本发明可有其它的实施方式,并且可通过多种方式实施或实现。
Claims (6)
1.一种基于多模态控制的图像合成方法,其特征在于,包括以下步骤:
获取图像数据,所述图像数据中包含相互对应的真图和假图;
构建图像合成模型,所述图像合成模型包括判别器和生成器,所述生成器采用基于多头注意力模块的U-Net架构;
将所述图像数据中的假图预处理后,输入所述图像合成模型,基于所述生成器输出生成图像;基于所述生成图像和所述假图及对应的锐化后的真图,在空间域和频域上构建损失函数;所述损失函数包括修改损失函数、一致性损失函数、结构相似度损失函数、增强损失函数和调整损失函数;
基于所述损失函数构建最终损失函数,并基于所述最终损失函数将学习到的权重回传至所述生成器以更新预设权重,经过预设轮次迭代训练后得到训练好的图像合成模型;
将待合成的图像输入所述训练好的图像合成模型,输出合成图像;
其中,构建空间域损失函数的过程中,构建所述生成器在空间域的损失函数时,表示为:
,
式中,和/>表示权重系数,/>为生成器的参数,/>表示修改损失函数,/>表示一致性损失函数;
构建所述判别器在空间域的损失函数时,表示为:
,
式中,表示期望符号,/>表示在通道维度上的叠加操作,/>表示判别器输入图像后的交叉熵损失,/>为判别器的参数,/>表示生成图像,/>表示锐化后的真图,/>表示假图;
构建频域损失函数的过程中,构建所述生成器在频域的损失函数时,表示为:
,
式中, 、/>和/>表示权重系数,/>为生成器的参数,/>表示调整损失函数,/>表示增强损失函数,/>表示结构相似度损失函数;
构建所述判别器在频域的损失函数时,表示为:
,
式中,表示期望符号,/>表示在通道维度上的叠加操作,/>表示判别器输入图像后的交叉熵损失,/>表示傅里叶变换,/>为判别器的参数,/>表示生成图像,/>表示锐化后的真图,/>表示假图;
在空间域和频域上构建损失函数时,包括:
构建空间域损失函数的过程中,基于所述修改损失函数和所述一致性损失函数构建所述生成器在空间域的损失函数,并构建所述判别器在空间域的损失函数,表示为:
,
式中,表示当生成器损失最小化,且判别器损失最大化时的计算值;G表示生成器,D表示判别器;/>表示生成器在空间域的损失函数,/>表示判别器在空间域的损失函数;
构建频域损失函数的过程中,基于所述调整损失函数、所述增强损失函数和所述结构相似度损失函数构建所述生成器在频域的损失函数,并构建所述判别器在频域的损失函数,表示为:
,
式中,表示当生成器损失最小化,且判别器损失最大化时的计算值;G表示生成器,D表示判别器;/>表示生成器在频域的损失函数,/>表示判别器在频域的损失函数;
构建所述修改损失函数时,表示为:
,
其中,表示期望符号,/>表示权重系数,/>表示判别器输入图像后的交叉熵损失;
构建所述一致性损失函数时,表示为:
,
其中,表示期望符号,/>表示权重系数,/>表示L1范数;
构建所述调整损失函数时,表示为:
,
其中,表示期望符号,/>表示权重系数,/>表示傅里叶变换,/>表示生成图像经过傅里叶变换后的图像,/>表示锐化后的真图经过傅里叶变换后的图像,/>表示假图经过傅里叶变换后的图像;
构建所述增强损失函数时,表示为:
,
其中,表示期望符号,/>表示判别器输入图像后的交叉熵损失,/>表示生成图像经过傅里叶变换后的图像,/>表示假图经过傅里叶变换后的图像;
构建所述结构相似度损失函数时,表示为:
,
其中,为结构相似度函数;
基于所述损失函数构建最终损失函数时,表示为:
。
2.根据权利要求1所述的一种基于多模态控制的图像合成方法,其特征在于,基于所述最终损失函数将学习到的权重回传至所述生成器以更新预设权重时,包括:
迭代训练所述图像合成模型直至所述损失函数稳定收敛后,冻结所述生成器中下采样模块的权重,并继续迭代训练所述图像合成模型直至达到预设迭代轮次。
3.根据权利要求1所述的一种基于多模态控制的图像合成方法,其特征在于,执行将所述图像数据中的假图预处理的过程中,包括:
对所述假图进行加噪操作得到加噪图像;
将所述加噪图像与所述假图进行相加得到第一图像;
对所述假图进行灰度化后进行傅里叶变换,得到第二图像;
将所述第一图像与所述第二图像进行叠加得到预处理后的假图。
4.根据权利要求3所述的一种基于多模态控制的图像合成方法,其特征在于,将所述加噪图像与所述假图相加得到第一图像的过程中,表示为:
,
式中,表示为第一图像,/>表示假图,/>表示加噪图像,/>表示叠加因子;
将所述第一图像与所述第二图像进行叠加得到预处理后的假图的过程中,表示为:
,
式中,表示预处理后的假图,/>表示叠加操作,/>表示傅里叶变换,/>表示灰度化处理。
5.根据权利要求3所述的一种基于多模态控制的图像合成方法,其特征在于,对所述假图进行加噪操作得到加噪图像的过程中,基于扩散模型中前向过程的噪声添加方法对所述假图进行加噪操作,得到目标时刻的加噪图像。
6.根据权利要求1所述的一种基于多模态控制的图像合成方法,其特征在于,构建图像合成模型时,所述生成器的下采样模块包括下二维卷积层、下卷积块和下残差块;所述生成器的中间模块包括中间卷积块和中间多头注意力模块;所述生成器的上采样模块包括上二维卷积层、上多头注意力模块和上残差块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311340079.8A CN117115064B (zh) | 2023-10-17 | 2023-10-17 | 一种基于多模态控制的图像合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311340079.8A CN117115064B (zh) | 2023-10-17 | 2023-10-17 | 一种基于多模态控制的图像合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117115064A CN117115064A (zh) | 2023-11-24 |
CN117115064B true CN117115064B (zh) | 2024-02-02 |
Family
ID=88813089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311340079.8A Active CN117115064B (zh) | 2023-10-17 | 2023-10-17 | 一种基于多模态控制的图像合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117115064B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118012A (zh) * | 2021-11-24 | 2022-03-01 | 武汉大学 | 一种基于CycleGAN的个性字体生成方法 |
CN114419348A (zh) * | 2022-03-18 | 2022-04-29 | 武汉大学 | 一种生成对抗网络判别器及文本生成图像的方法 |
CN114943646A (zh) * | 2022-06-07 | 2022-08-26 | 山东师范大学 | 基于纹理导向的梯度权重损失和注意力机制超分辨方法 |
KR20220132114A (ko) * | 2021-03-23 | 2022-09-30 | 한국과학기술원 | 푸리에 위상 복원을 위한 비지도 학습 기반의 뉴럴 네트워크를 이용한 영상 처리 방법 및 그 장치 |
CN115512182A (zh) * | 2022-09-26 | 2022-12-23 | 中国人民解放军总医院第一医学中心 | 一种基于聚焦学习的ct血管造影智能成像方法 |
CN116188308A (zh) * | 2023-02-21 | 2023-05-30 | 北京航空航天大学 | 一种联合空域频域双判别器的生成对抗去云雾方法 |
CN116309217A (zh) * | 2023-02-24 | 2023-06-23 | 武汉大学 | Mri合成ct影像的方法、装置、设备及可读存储介质 |
CN116664880A (zh) * | 2023-07-31 | 2023-08-29 | 南昌大学 | 深度伪造反取证图像的生成方法 |
CN116778021A (zh) * | 2023-08-22 | 2023-09-19 | 北京大学 | 医学图像生成方法、装置、电子设备和存储介质 |
CN116823647A (zh) * | 2023-06-06 | 2023-09-29 | 成都信息工程大学 | 基于快速傅里叶变换和选择性注意力机制的图像补全方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220073828A (ko) * | 2019-11-01 | 2022-06-03 | 에이에스엠엘 네델란즈 비.브이. | 모델 베이스 정렬들을 위한 기계 학습 기반 이미지 생성 |
US11854197B2 (en) * | 2021-11-09 | 2023-12-26 | Merative Us L.P. | Classification of medical images using machine learning to account for body orientation |
-
2023
- 2023-10-17 CN CN202311340079.8A patent/CN117115064B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220132114A (ko) * | 2021-03-23 | 2022-09-30 | 한국과학기술원 | 푸리에 위상 복원을 위한 비지도 학습 기반의 뉴럴 네트워크를 이용한 영상 처리 방법 및 그 장치 |
CN114118012A (zh) * | 2021-11-24 | 2022-03-01 | 武汉大学 | 一种基于CycleGAN的个性字体生成方法 |
CN114419348A (zh) * | 2022-03-18 | 2022-04-29 | 武汉大学 | 一种生成对抗网络判别器及文本生成图像的方法 |
CN114943646A (zh) * | 2022-06-07 | 2022-08-26 | 山东师范大学 | 基于纹理导向的梯度权重损失和注意力机制超分辨方法 |
CN115512182A (zh) * | 2022-09-26 | 2022-12-23 | 中国人民解放军总医院第一医学中心 | 一种基于聚焦学习的ct血管造影智能成像方法 |
CN116188308A (zh) * | 2023-02-21 | 2023-05-30 | 北京航空航天大学 | 一种联合空域频域双判别器的生成对抗去云雾方法 |
CN116309217A (zh) * | 2023-02-24 | 2023-06-23 | 武汉大学 | Mri合成ct影像的方法、装置、设备及可读存储介质 |
CN116823647A (zh) * | 2023-06-06 | 2023-09-29 | 成都信息工程大学 | 基于快速傅里叶变换和选择性注意力机制的图像补全方法 |
CN116664880A (zh) * | 2023-07-31 | 2023-08-29 | 南昌大学 | 深度伪造反取证图像的生成方法 |
CN116778021A (zh) * | 2023-08-22 | 2023-09-19 | 北京大学 | 医学图像生成方法、装置、电子设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
EL-GAN: Edge-Enhanced Generative Adversarial Network for Layout-to-Image Generation;Lin Gao 等;《Pacific Graphics 2022》;第41卷;第407-418页 * |
Feng Ding.Anti-Forensics for Face Swapping Videos via Adversarial Training.《IEEE Transactions on Multimedia》.第24卷第3429-3441页. * |
基于高频信息差网络的高光谱图像融合算法研究;崔宇航;《CNKI学位论文》;第2022年卷(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117115064A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022267641A1 (zh) | 一种基于循环生成对抗网络的图像去雾方法及系统 | |
CN109615582B (zh) | 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法 | |
CN112507997B (zh) | 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统 | |
CN113723295B (zh) | 一种基于图像域频域双流网络的人脸伪造检测方法 | |
CN112507617B (zh) | 一种SRFlow超分辨率模型的训练方法及人脸识别方法 | |
CN110148088B (zh) | 图像处理方法、图像去雨方法、装置、终端及介质 | |
Guo et al. | Multiscale semilocal interpolation with antialiasing | |
CN111489405B (zh) | 基于条件增强生成对抗网络的人脸草图合成系统 | |
CN113284051A (zh) | 一种基于频率分解多注意力机制的人脸超分辨方法 | |
CN117151990B (zh) | 一种基于自注意力编码解码的图像去雾方法 | |
CN111489304A (zh) | 一种基于注意机制的图像去模糊方法 | |
CN115131203A (zh) | Lr图像生成方法及基于不确定性的真实图像超分辨率方法 | |
Zhao et al. | Detecting deepfake video by learning two-level features with two-stream convolutional neural network | |
CN114283058A (zh) | 基于对抗网络和最大互信息优化的图像超分辨率重建方法 | |
Liu et al. | Facial image inpainting using multi-level generative network | |
CN114202460B (zh) | 面对不同损伤图像的超分辨率高清重建方法和系统及设备 | |
Dzhanashia et al. | Low complexity template-based watermarking with neural networks and various embedding templates | |
CN114820303A (zh) | 低清图像重建超分辨率人脸图像的方法、系统及存储介质 | |
CN117115064B (zh) | 一种基于多模态控制的图像合成方法 | |
Chen et al. | Learning a multi-scale deep residual network of dilated-convolution for image denoising | |
Liu et al. | Recent Advances of Generative Adversarial Networks | |
CN117291803A (zh) | Pamgan轻量化面部超分辨率重建方法 | |
CN115294424A (zh) | 一种基于生成对抗网络的样本数据增强方法 | |
Roy | Applying aging effect on facial image with multi-domain generative adversarial network | |
Altakrouri et al. | Image to image translation networks using perceptual adversarial loss function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |