CN115631085B

CN115631085B - 一种用于图像保护的主动防御方法及装置

Info

Publication number: CN115631085B
Application number: CN202211629740.2A
Authority: CN
Inventors: 韩蒙; 毛梁杰; 乔通; 林昶廷; 王滨; 黄步添; 俞伟平; 董建锋
Original assignee: Zhejiang Juntong Intelligent Technology Co ltd
Current assignee: Zhejiang Juntong Intelligent Technology Co ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-04-11
Anticipated expiration: 2042-12-19
Also published as: CN115631085A

Abstract

本申请提供一种用于图像保护的主动防御方法及装置，方法包括以下步骤：S1、构建数据库，数据库中包含替代模型；S2、将训练图像和添加对抗性水印后的训练图像输入至各个替代模型中；S3、每个替代模型生成第一伪造图像和第二伪造图像，并根据第一伪造图像和第二伪造图像之间的差异计算损失函数；S4、集成各个替代模型对应的损失函数以更新对抗性水印；S5、重复步骤S2~S4，对对抗性水印进行训练，获得训练完成的对抗性水印；S6、将训练完成的对抗性水印添加至待保护图像中，获得被保护图像。本申请通过训练对抗性水印，使得对抗性水印在不同的深度伪造模型中均有较好的防御效果，大大提高了对抗性水印的迁移性。

Description

一种用于图像保护的主动防御方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种用于图像保护的主动防御方法及装置。

背景技术

近年来，由于生成对抗网络模型德发展，深度伪造技术也取得了巨大突破，其中以Deepfake为代表的人脸伪造技术开始在网络上兴起。Deepfake即深度伪造，其名称最初源自于一个名为“deepfakes”的Reddit社交网站用户，该用户在2017年12月发布了伪造女明星面容的视频。“Deepfake”是指：以某种方式使合理的观察者错误地将其视为个人真实言语或行为的真实记录的方式创建或更改的视听记录，其中“视听记录”包括视频、图像、语音等数字内容。

由于Deepfake技术受众广泛，且有许多现成的开源项目可供获取，如DeepFaceLab、FaceSwap，易被不法人士以较低的成本甚至免费利用，并从中牟利。对此，为了提高深度伪造防御技术，减小深度伪造技术带来的影响，众多研究人员对深度伪造的检测、防御技术进行了深入的研究，并提出了一系列的防御方法。

现有技术中，存在主动防御策略，主动防御侧重事前预防，在待保护的人脸数字内容中添加保护信息，如水印、对抗扰动等，通过溯源或使不法人士无法正常利用被保护的人脸数字内容进行伪造的方式实现主动防御。然而，目前主流的主动防御方法虽然可以通过生成水印来防御潜在的威胁，但通常水印只能保护一个人脸图像免受一个特定模型的攻击，面对未知深度伪造模型时，防御性能往往不佳。

针对现有技术存在的上述问题，本申请提出了一种解决上述问题的技术方案。

发明内容

本申请的目的在于提供一种技术方案，解决现有技术中存在的添加水印的主动防御策略在面对未知深度伪造模型时防御性能不佳的问题。

基于以上问题，本申请提供一种用于图像保护的主动防御方法。

根据本申请实施例的第一方面，提供一种用于图像保护的主动防御方法，所述方法包括：

S1、构建数据库，所述数据库中包含至少两个替代模型；

S2、选择训练集中任一训练图像，将所述训练图像和添加对抗性水印后的所述训练图像输入至各个替代模型中；

S3、每个所述替代模型根据所述训练图像生成第一伪造图像，并根据添加对抗性水印后的所述训练图生成第二伪造图像，

各个所述替代模型根据所述第一伪造图像和所述第二伪造图像之间的差异分别计算损失函数；

S4、集成各个替代模型对应的损失函数，根据集成的损失函数更新对抗性水印；

S5、选择所述训练集中任一训练图像，将更新后的对抗性水印添加至所述训练图像，重复步骤S2~S4，对对抗性水印进行训练，获得训练完成的对抗性水印；

S6、将训练完成的对抗性水印添加至待保护图像中，获得被保护图像。

进一步的，所述步骤S1中还包括：

S11、将训练集中的训练图像输入任一替代模型中，对所述替代模型的参数进行训练；

S12、以最小化损失函数为替代模型训练目标优化所述替代模型的参数，获得完成训练的替代模型。

进一步的，所述替代模型训练目标通过如下公式表示：

其中， Ls表示训练替代模型的损失函数， MSE表示求均方差， S(·)表示替代模型， G(·)表示深度伪造模型， x _i表示输入的训练图像；

为范数正则化项。

进一步的，所述损失函数表示为：

其中， L _k表示第 k个替代模型对应的损失函数， MSE表示求均方差， S(·)表示替代模型， x _i表示输入的训练图像， P表示对抗性水印。

进一步的，所述步骤S4中，通过如下公式集成所述损失函数：

其中， L _k表示第 k个替代模型对应的损失函数， ω _k表示第 k个替代模型的损失函数所占的权重，

表示集成后的损失函数，

为约束条件。

进一步的，所述步骤S5中，更新所述对抗性水印，使用MI-FGSM方法将更新后的所述对抗性水印添加至所述训练图像，包括以下步骤：

S51、定义的衰减因子 u收集前 t次的迭代梯度结果 g _t，当前梯度通过自身的 L ₁距离进行归一化，二者相加从而得到更新后的梯度 g _t+1；

式中， u表示衰减因子， g _t表示前 t次的迭代梯度结果， g _t+1表示更新后的梯度，

表示当前梯度；

S52、根据累计梯度对所述训练图像进行更新，通过如下公式表示：

式中， x _t+1表示 t+1次迭代梯度的训练图像，

表示更新对抗性水印后的训练图像， α用于限制所述对抗性水印的大小， g _t+1表示更新后的梯度。

进一步的，所述步骤S5中，以最大化所述第一伪造图像和所述第二伪造图像之间的差异为对抗性水印训练目标，对对抗性水印进行训练，所述对抗性水印训练目标通过如下公式表示：

其中， MSE表示求均方差， S(·)表示替代模型， x _i表示输入的训练图像， P表示对抗性水印， ε为约束扰动大小的系数。

进一步的，所述替代模型基于自编码器构建。

进一步的，所述方法还包括：

在添加所述对抗性水印前，先将所述训练图像转换为Lab图像，再在所述Lab图像中添加所述对抗性水印。

本申请还提供一种用于图像保护的主动防御装置，所述装置包括：

存储模块，所述存储模块包括数据库，所述数据库中包含至少两个替代模型；

训练模块，所述训练模块接收训练集中的训练图像，选择训练集中任一训练图像，将所述训练图像和添加对抗性水印后的所述训练图像输入至各个替代模型中，

每个所述替代模型根据所述训练图像生成第一伪造图像，并根据添加对抗性水印后的所述训练图生成第二伪造图像，各个所述替代模型根据所述第一伪造图像和所述第二伪造图像之间的差异分别计算损失函数；

所述训练模块集成各个替代模型对应的损失函数，根据集成的损失函数更新对抗性水印，将更新后的对抗性水印添加至所述训练图像，重复对对抗性水印进行训练，获得训练完成的对抗性水印；

图像保护模块，将训练完成的对抗性水印添加至待保护图像中，生成被保护图像。

本申请提供的一种用于图像保护的主动防御方法及装置，可以包括以下有益效果：

本申请利用了替代模型的优势，能够对处于黑盒场景下的深度伪造模型进行模拟，使用得到的集成替代模型进行对抗性水印生成训练，采用MI-FGSM攻击方法、以混合损失为优化目标提高对抗性水印的性能，以增强该对抗性水印的迁移性，使对抗性水印在面对未知深度模型时仍旧具备较好的防御性能。

另外，在更适合数字图像处理的Lab图像上添加对抗性水印，能够获得更为均匀、数值更小的对抗性水印，且由于数值较小，能够拥有相对更好的视觉表现，对输入重建更具鲁棒性。因此，在添加对抗性水印前，将被保护图像转为Lab图像。

本申请通过颜色模型、攻击集成模型等方法，生成具有一定鲁棒性和迁移性的对抗性水印，以使得该方法在对抗实际场景中的深度伪造时更加有效，并在面对其余未知深度伪造模型的攻击时，能够保留一定的对抗性。

附图说明

图1为本申请实施例提供的一种用于图像保护的主动防御方法的整体框架图。

图2为本申请实施例提供的一种用于图像保护的主动防御方法流程图。

图3为本申请实施例替代模型训练示意图。

图4为本申请实施例更新对抗性水印流程图。

图5为本申请实施例提供的另一种用于图像保护的主动防御方法的整体框架图。

图6为本申请实施例一种用于图像保护的主动防御装置的模块图。

具体实施方式

以下将结合附图所示的具体实施方式对本申请进行详细描述，但这些实施方式并不限制本申请，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本申请的保护范围内。

如图1所示，其示出了本申请实施例提供的用于图像保护的主动防御方法的流程示意图。

具体的，如图2所示，本申请实施例提供一种用于图像保护的主动防御方法，该方法包括以下步骤：

S1、构建数据库，该数据库中包含至少两个替代模型。

S2、选择训练集中任一训练图像，将训练图像和添加对抗性水印后的训练图像输入至各个替代模型中。

S3、每个替代模型根据训练图像生成第一伪造图像，并根据添加对抗性水印后的训练图生成第二伪造图像；

各个替代模型根据第一伪造图像和第二伪造图像之间的差异分别计算损失函数。

S4、集成各个替代模型对应的损失函数，根据集成的损失函数更新对抗性水印。

S5、选择训练集中任一训练图像，将更新后的对抗性水印添加至训练图像，重复步骤S2~S4，对对抗性水印进行训练，获得训练完成的对抗性水印。

作为一种可选的实现方式，替代模型可以基于自编码器构建。

本申请实施例通过替代模型在黑盒条件下模拟深度伪造模型，由于深度伪造模型可以视为目标图像重建，因此可以采用DNN自动编码器来建立替代模型。替代模型由编码器和解码器组成，编码器将输入图像转换为在潜层空间数据，最后解码器再将该潜层空间数据转换为伪造图像。

通过自动编码器来构建替代模型，并对训练集进行训练，将训练图像输入至编码器，经过处理可以获得训练图像在编码器中的潜层空间数据，该潜层空间数据经过解码器处理，即经解码重构可获得第一伪造图像。同样的，将添加过对抗性水印的训练图像输入至编码器，经过处理可以获得添加过对抗性水印的训练图像在编码器中的潜层空间数据，该潜层空间数据经过解码器处理，即经解码重构可获得第二伪造图像。

根据以上说明，本申请实施例通过替代模型在黑盒条件下模拟深度伪造模型，通过攻击替代模型来训练对抗性水印，从而可以有效提升对抗性水印的性能盒泛化能力。

在步骤S2中，将训练集中任一训练图像输入至各个替代模型中，并将添加对抗性水印的该训练图像输入至各个替代模型，经过步骤S3至S5的训练，可以得到训练后的对抗性水印。其中，首次添加的对抗性水印（即未经训练的对抗性水印）可以为随机生成的对抗性水印。

在步骤S3中，每个替代模型均会输出一个损失函数，该损失函数由比较步骤S2中输入的训练图像以及添加对抗性水印后的该训练图像之间的差异获得。

在步骤S4中，根据每一替代模型输出的损失函数，将所有损失函数集成以更新对抗性水印，完成第一次对抗性水印的训练。在步骤S5中，通过对对抗性水印进行重复训练，以使对抗性水印达到预设的标准。其中，对于对抗性水印的重复训练，可以是在对抗性水印完成一次训练后将该水印添加到另一张图片上，重复步骤S2至S4以完成下一次训练，也可以是在对抗性水印完成一次训练后将该水印再度添加到原图片上，重复步骤S2至S4以完成下一次训练。

作为一种可选的实现方式，本申请实施例中选用在对抗性水印完成一次训练后将水印添加到另一张图片上进行下一次训练这一方案。

例如，第一次输入至各个替代模型的训练图像为训练集中的第一图像，随机添加对抗性水印至第一图像，经过步骤S2至S4，可以获得完成一次训练的对抗性水印；

则第二次训练时，可以选择将训练集中任一除第一图像之外的剩余图像，将选择的图像，以及添加完成一次训练的对抗性水印的该图像输入至各个替代模型的图像，重复步骤S2至S4，可以获得完成二次训练的对抗性水印，以此类推，对对抗性水印进行迭代训练，以使对抗性水印达到预设标准，获得完成训练的对抗性水印。

作为一种可选的实现方式，将训练完成的对抗性水印添加至待保护图像，获得被保护图像。此时经过训练的对抗性水印不再仅能保护图像免受某一特定模型的攻击，面对未知的深度伪造模型时，完成训练的对抗性水印仍旧能对黑盒深度伪造模型起到抵抗作用，大大提高了对抗性水印的防御性能。若将被保护图像输入至未知模型结构和参数的深度伪造模型中，可以使深度伪造模型输出的图像具有明显视觉扭曲，且易被检测器检测出为伪造图像，以达到保护作用。

如图3所示，步骤S1中还包括：

S11、将训练集中的训练图像输入任一替代模型中，对替代模型的参数进行训练。

S12、以最小化损失函数为替代模型训练目标优化替代模型的参数，获得完成训练的替代模型。

作为一种可选的实现方式，将训练集中的训练图像输入至任一替代模型，对模型进行训练，以达到优化模型参数的目的。

作为一种可选的实现方式，在进行模型训练时，可以获得的各个训练模型的损失函数，以最小化损失函数为替代模型训练目标，优化替代模型的参数，以获得完成训练的替代模型。

作为一种可选的实现方式，该替代模型训练目标通过如下公式表示：

其中， L _s表示训练替代模型的损失函数， MSE表示求均方差， S(·)表示替代模型， G(·)表示深度伪造模型， x _i表示输入的训练图像；

为范数正则化项。

作为一种可选的实现方式，本申请实施例所述的损失函数可以被定义为普通图像经过替代模型的输出与添加对抗性水印后的该图像经过替代模型的输出的均方差。具体的，该损失函数可以表示为：

其中， L _k表示第 k个替代模型对应的损失函数，是训练对抗性水印过程的损失函数计算方法， MSE表示求均方差， S(·)表示替代模型， x _i表示输入的训练图像， P表示对抗性水印。

作为一种可选的实现方式，针对单个替代模型，将同一张训练图像输入至各个替代模型，通过扰动攻击替代模型，通过上述公式可以计算出各个替代模型对应的损失函数。最后再通过计算出来的损失函数来计算对抗性水印的更新量，即变化量。其中，扰动为对抗性水印。

作为一种可选的实现方式，步骤S4中，通过如下公式集成损失函数：

其中，

表示集成后的损失函数， L _k表示第 k个替代模型对应的损失函数，是训练对抗性水印过程的损失函数计算方法， ω _k表示第 k个替代模型的损失函数所占的权重，其值通过求各替代模型损失在总损失中所占比例得到。当损失越大，占比越多，则更多地考虑以该替代模型的损失优化对抗性水印P，k表示替代模型的个数。

为约束条件。

作为一种可选的实现方式，将各个替代模型对应的损失函数进行混合，并通过上述公式计算出经过混合后的集成损失函数，根据该集成损失函数对对抗性水印进行更新。

如图4所示，作为一种可选的实现方式，步骤S5中，更新对抗性水印，使用MI-FGSM方法将更新后的对抗性水印添加至训练图像，包括以下步骤：

表示当前梯度。

S52、根据累计梯度对训练图像进行更新，通过如下公式表示：

式中， x _t+1表示 t+1次迭代梯度的训练图像，

作为一种可选的实现方式，MI-FGSM是基于Goodfellow提出的FGSM的改进。相比FGSM，MI-FGSM通过基于动量的迭代算法，能够在迭代过程中摆脱局部最值，从而产生更具有迁移性的扰动攻击，在黑盒攻击的场景下具有更优的性能。

作为一种可选的实现方式，步骤S5中，以最大化第一伪造图像和第二伪造图像之间的差异为对抗性水印训练目标，对对抗性水印进行训练，该对抗性水印训练目标通过如下公式表示：

作为一种可选的实现方式，上述公式是想表达最终训练效果要通过更新对抗性水印P来使得损失增大，以最大化损失作为对抗性水印的训练目标。

作为一种可选的实现方式，根据第一伪造图像和所述第二伪造图像之间的差异计算出各个替代模型对应的损失函数，再根据各个替代模型对应的损失函数计算出对抗性水印的变化量，以第一伪造图像和所述第二伪造图像之间的最大化差异，即对抗性水印的最大变化量作为对抗性水印训练目标。

具体的，对对抗性水印进行训练，通过对对抗性水印进行多次迭代训练，每一次训练都对对抗性水印进行更新，对比每次更新后的对抗性水印与上一次的对抗性水印之间的变化量，以对抗性水印的最大变化量为对抗性水印训练目标，以获得训练完成的对抗性水印。

根据以上说明，本申请实施例中，通过替代模型在黑盒条件下模拟深度伪造模型，通过攻击替代模型来训练对抗性水印，从而可以有效提升对抗性水印的性能盒泛化能力，使得对抗性水印在不同的深度伪造模型中均有较好的防御效果，大大提高了对抗性水印的迁移性。

作为一种可选的实现方式，该方法还包括：

在添加对抗性水印前，先将训练图像转换为Lab图像，再在Lab图像中添加对抗性水印。

作为一种可实现的方式，本申请实施例中图像格式可以为RGB或是其他任意格式，本申请实施例对此不作限制。

在Lab格式图像下，可以弥补RGB等其他颜色模型色彩分布不均的不足。因此，在Lab颜色模型下对图像进行添加对抗性水印处理，能够使得添加对抗性水印的图像更加平滑，减少添加对抗性水印的痕迹。

作为一种可选的实现方式，可以进行如下步骤以将RGB图像转化为Lab图像：

RGB颜色模型转为Lab颜色模型前，由于需要进行gamma变换，数据区间应在[0,1]内，RGB的数据范围为[0,255]，因此需要先将RGB值除255作归一化处理。gamma变换如下，对R、G、B三值均做此变换：

在做gamma变换后，再经过线性变换，即可得到XYZ颜色模型，线性变换如下：

此时已将RGB颜色模型转为XYZ颜色模型，将XYZ颜色模型转为Lab颜色模型，首先也需要进行归一化：

同样需要对x、y、z三值进行相同的非线性变换，变换如下：

最后经由线性变换后则可将XYZ颜色模型转为Lab颜色模型，最后一步如下：

RGB转Lab颜色模型到此完成，若需将Lab颜色模型转为RGB颜色模型，则根据上述流程进行逆操作。

为了更进一步说明本申请实施例提供的图像保护方法，如图5所示，其示出了本申请实施例提供一种用于图像保护的主动防御方法流程图。作为一种可实现的方式，本申请实施例中图像格式可以为RGB或是其他任意格式，本申请实施例对此不作限制。在此，本申请以RGB格式图像进行举例说明。本申请提供的方法包括：

将训练集中的一张RGB训练图像直接输入至替代模型1、替代模型2、……替代模型n等各个替代模型中，可以获得各个替代模型输出的第一伪造图像。

将训练集中的同一张RGB训练图像转换为Lab训练图像，并在Lab图像上添加一个对抗性水印，然后再将添加过对抗性水印的Lab训练图像转换为RGB训练图像，以获得添加对抗性水印的RGB训练图像。

将添加对抗性水印的RGB训练图像输入替代模型1、替代模型2、……替代模型n等多个替代模型，可以获得各个替代模型输出的第二伪造图像。

对于每一替代模型，根据该替代模型输出的第一伪造图像与第二伪造图像之间的差异，计算出该替代模型对应的损失函数L_n（n表示替代模型序号）。将各个替代模型对应的损失函数L₁、L₂、……L_n等进行混合，得到集成损失函数，通过集成损失函数来更新对抗性水印。

重复上述对抗性水印训练步骤，反复对对抗性水印进行训练，直至达到训练效果，即第一伪造图像与第二伪造图像的最大化差值。其中，每一次训练对抗性水印时，使用与上一次训练对抗性水印时所使用的不同的训练图像，添加到训练图像上的对抗性水印为上一次训练后更新的对抗新水印。

最后，可以对生成的对抗性水印进行验证。首先将待保护的RGB图像转换为Lab图像，并在Lab图像上添加训练完成的对抗性水印，然后再将添加过训练完成的对抗性水印的Lab图像转换为RGB图像。

将添加过训练完成的对抗性水印的RGB待保护图像输入至未知深度伪造模型中，经过未知深度模型的处理，可以使未知深度伪造模型输出的图像具有明显视觉扭曲且易被检测器检测出为伪造图像，达到保护图像的目的。

如图6所示，作为一种可选的实现方式，本申请实施例还提供一种用于图像保护的主动防御装置300，该装置包括：存储模块301、训练模块302、图像保护模块303。

存储模块301，该存储模块301包括数据库，数据库中包含至少两个替代模型。

训练模块302，用于接收训练集中的训练图像，选择训练集中任一训练图像，将训练图像和添加对抗性水印后的训练图像输入至各个替代模型中。

每个替代模型根据训练图像生成第一伪造图像，并根据添加对抗性水印后的训练图生成第二伪造图像，各个替代模型根据第一伪造图像和第二伪造图像之间的差异分别计算损失函数。

训练模块302集成各个替代模型对应的损失函数，根据集成的损失函数更新对抗性水印，将更新后的对抗性水印添加至训练图像，重复对对抗性水印进行训练，获得训练完成的对抗性水印。

图像保护模块303，将训练完成的对抗性水印添加至待保护图像中，生成被保护图像。

作为一种可选的实现方式，存储模块301中包括至少两种替代模型，对对抗性水印进行训练时，可能需要多次对对抗性水印进行训练，以达到训练效果，获得完成训练的对抗性水印。因此在本申请实施例中，该存储模块301包括多个替代模型。

作为一种可选的实现方式，训练模块302用于对对抗性水印进行训练以获得完成训练的对抗性水印。

具体的，将训练集中的任一训练图像输入至各个替代模型中，每个替代模型接收该训练图像，生成第一伪造图像；同样的，将添加过对抗性水印的训练图像输入至各个替代模型，每个替代模型接收该添加过对抗水印的训练图像，生成第二伪造图像。各个替代模型根据第一伪造图像与第二伪造图像之间的差异分别计算各个替代模型对应的损失函数。其中，该替代模型为提前训练好的模型。

根据各个替代模型对应的损失函数计算对抗性水印的变化量，将各个替代模型对应的损失函数进行混合，可有获得集成损失函数，根据该集成损失函数来更新对抗性水印，重复对对抗性水印进行训练，以获得完成的对抗性水印。其中，第一次添加的对抗性水印为随机对抗性水印，后面对对抗性水印进行重复训练时，每一次添加的对抗性水印都为上一次训练更新后的对抗性水印。在每一次重复对对抗性水印进行训练时，输入至各个替代模型中的训练图像为训练集中任一训练图像。

以上所揭露的仅为本申请的较佳实施例而已，然其并非用以限定本申请之权利范围，本领域普通技术人员可以理解：在不脱离本申请及所附的权利要求的精神和范围内，改变、修饰、替代、组合、简化，均应为等效的置换方式，仍属于申请所涵盖的范围。