CN117636090A

CN117636090A - 一种面向预训练编码器的不可见后门攻击方法

Info

Publication number: CN117636090A
Application number: CN202311398793.2A
Authority: CN
Inventors: 方黎明; 王倩楠; 殷常春
Original assignee: Shenzhen Research Institute Of Nanjing University Of Aeronautics And Astronautics; Nanjing University of Aeronautics and Astronautics
Current assignee: Shenzhen Research Institute Of Nanjing University Of Aeronautics And Astronautics; Nanjing University of Aeronautics and Astronautics
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-03-01

Abstract

本发明公开了一种面向预训练编码器的不可见后门攻击方法，包括：攻击者使用高斯滤波器对原始图像进行高频部分的去除，得到去除高频后的图像；攻击者为去除高频后的图像都添加水印，得到编码后的中毒图像；攻击者为干净编码器的预训练集中的部分图像添加水印得到后门数据集，并使用该后门数据集对预训练的干净编码器进行微调以注入后门得到后门编码器。本发明在添加触发器前将图像的高频部分去除以提高后门图像间的相似性，并且该攻击使用动态不可见的触发模式，使得攻击的隐蔽性极强，从而显著增强了抵抗防御的鲁棒性，同时能够实现很高的攻击成功率，不影响后门模型在干净数据集上的预测准确率，使得该攻击难以被防御。

Description

一种面向预训练编码器的不可见后门攻击方法

技术领域

本发明涉及图像处理的技术领域，尤其涉及一种面向预训练编码器的不可见后门攻击方法。

背景技术

作为一种新兴的机器学习范式，自监督学习(SSL)不仅能够消除对数据标记的依赖，还通过使对手操纵模型预测更具挑战性而有利于对抗鲁棒性。然而，SSL的性能在很大程度上依赖于大规模未标记数据，这使得计算成本相当高。因此，通常用户更倾向于使用第三方在线发布的预先训练过的编码器作为特征提取器，应用于后续的分类任务。然而，获取完全可信的编码器是非常困难的，因为培训过程通常是不透明的，这为新的安全威胁带来了潜在风险。后门攻击是其中一种常见的威胁，它通过事先在编码器中注入后门，从而使得基于该编码器构建的下游分类器同时继承了后门行为。

目前已存在的后门攻击可以分为两类主要类型：基于数据投毒的攻击和基于模型的攻击。在这些攻击中，有学者首次研究了自监督学习场景下的数据投毒型后门攻击，他们假设攻击者能够污染训练数据的一小部分，但无法对训练过程进行任何控制。这些攻击的后门样本的触发模式的添加位置是随机的。然而，在大多数情况下，这些攻击的性能接近于随机猜测，其后门攻击成功率相对较低。针对第二类攻击，还有学者针对自监督学习中预训练编码器的性能进行破坏。他们强调了自监督学习中预训练编码器存在的安全风险，并展示了攻击者如何将隐藏的触发器插入到用于预训练编码器的训练数据中，随后设置损失函数来对预训练的干净编码器模型进行微调以注入后门，使得基于该后门编码器构建的下游分类器同时具有后门行为。因此，当模型接收到特定的输入时，触发器将被激活，导致模型表现出意外或恶意的行为。

上述现有技术的缺点为：后门攻击能力有限，采用的后门图像隐蔽性较差，且依赖于统一的触发器模式，不具有样本特异性；同时防御者可以根据不同后门样本之间的相同行为轻松地重构或检测后门触发器，后门便很容易被当前的防御所缓解或消除。

发明内容

本发明所要解决的问题是：提供一种面向预训练编码器的不可见后门攻击方法，在保持高度隐蔽性的同时实现了很高的攻击成功率，且不影响后门模型在干净数据集上的预测准确率。

本发明采用如下技术方案：一种面向预训练编码器的不可见后门攻击方法，包括以下步骤：

S1、去除图像高频部分：攻击者从干净编码器e的预训练集S中选择原始图像X，使用高斯滤波器对X的每张图像进行高频部分的去除，得到去除高频后的图像X^′，用于提高后门图像之间的相似性；

S2、攻击者为去除高频后的图像X^′，通过水印编码器e^t，添加水印得到编码后的后门图像X^adv；

S3、微调以注入后门：攻击者为干净编码器e的预训练集S中所有去除高频后的图像通过水印编码器e^t添加水印，得到后门数据集S^shadow，设置损失函数对干净编码器e进行微调以注入后门，利用优化器训练得到后门编码器e^′，并计算全局损失函数；

S4、攻击者将后门编码器e^′发布，受害者下载所述后门编码器e^′并微调，构建下游分类器classifier，运用于自己的下游任务。

其中，水印编码器e^t、干净编码器e、后门编码器e^′和下游分类器classifier均为多层卷积神经网络。

进一步的，步骤S1中，高斯低通滤波器滤波公式为：

X^′＝G*X

式中，G是高斯滤波核，计算方式如下：

其中，σ是高斯函数的标准差，x、y、z分别为原始图像X的三个维度的像素坐标，

表示高斯分布的概率密度函数。

进一步的，步骤S2包括如下子步骤：

S2.1、攻击者准备要隐藏的指定编码信息M，并对编码信息中的编码位串message进行预处理，得到预处理后的位串张量；编码信息包括：名称、目标标签的索引、随机字符。

S2.2、攻击者将预处理后的位串张量与所述去除高频后的图像合并，得到一个四通道的输入，传递给水印编码器e^t，生成描述了编码信息的嵌入方式的RGB残差图像residual，并计算信息的交叉熵损失、L2残差正则化损失、LPIPS感知损失、及Critic损失信息的交叉熵损失；

信息的交叉熵损失用于量化水印嵌入的准确性，L2残差正则化损失、LPIPS感知损失、及Critic损失，用于最小化编码图像的感知失真；

信息的交叉熵损失为：

其中，i、j、k分别表示三个维度的像素坐标，分别是去除高频后的图像和后门图像的相应像素值；

所述L2残差正则化损失为：

LPIPS感知损失为：

L_lpips＝∑_Lλ_L·D_L(I₁,I₂)

其中，L表示表示感知模型中的不同层级,λ_L表示感知层L的权重，用于控制每个层级的贡献，D_L表示在感知层L上计算的图像之间的感知距离或差异，I₁、I₂分别为编码前的原始图像和编码后的后门图像；

Critic损失函数为：

L_critic＝Critic(X^adv)

其中，X^adv是编码后的后门图像，Critc损失采用二元交叉熵损失。

S2.3、将所述残差图像residual与去除高频后的图像X^′相加，得到编码后的后门图像X^adv。

进一步的，步骤S3中，优化器包括：RMSProp、SGD、Adam；损失函数包括：

S3.1、有效性目标的损失函数，定义为：

其中，s(·,·)函数测量两个特征向量之间的相似性，|D_s|表示后门数据集S^shadow中的输入数，是后门输入，L₀和L₁中的分母用于归一化损失；x_ij为参考输入，为目标类中的图像，r_i为每个目标下游任务和目标类对(Ti,yi)的参考输入的个数，i＝1,2,...,t；

有效性损失是两项的加权和，即L₀+λ₁·L₁，λ₁是平衡L₀和L₁的超参数。

S3.2、效用损失的损失函数，定义为：

其中，s(·,·)测量两个特征向量之间的相似性，|D_s|表示阴影数据集中的输入数，e^′(x)和e(x)分别是后门图像编码器和干净图像编码器为干净输入生成的特征向量。

S3.3、交叉验证损失函数，定义为：

其中，p_k为不同于x的另一图像的特异性触发器，表示后门编码器为输入x添加了另一图像的特异性触发器，每个图像都有一个唯一的触发器，用于实现触发器的不可重用性。

S3.4、多样性损失函数，定义为：

其中，p_i、p_j分别表示图像x_i和x_j的特异性触发器，分别表示添加特异性触发器的后门样本；使用强制正则化，以避免水印编码器的输出将饱和到一个均匀的触发器。

全局损失函数，定义如下：

其中，λ₁，λ₂，λ₃和λ₄是平衡损失项L₁、L₂、L₃、L₄的四个超参数；

所述全局损失函数，用于实现有效性目标、效用目标和触发器的不可重用性。

进一步的，步骤S4，包括如下子步骤：

S4.1、攻击者将有毒数据发布到网络上，以使受害者可以获得，受害者从不受信任的服务商或网络下载得到后门编码器e^′；

S4.2、受害者使用所述后门编码器e^′进行微调用于下游任务，基于不同下游任务的后门图像编码器构建的下游分类器classifier，同时继承后门行为，在目标下游任务上，下游分类器classifier将嵌入了相应触发器的任何输入预测为目标类，而不影响非目标下游任务的正常性能。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明面向预训练编码器的不可见后门攻击方法是针对自监督学习的动态不可见后门攻击方法，破坏了自我监督学习管道的第一个组件，同时假设其第二个组件维持完整性。

2、与目前其他自监督学习场景下后门攻击不同，本发明在添加触发器前将图像的高频部分去除以提高后门图像间的相似性，并且该攻击使用动态不可见的触发模式，使得攻击的隐蔽性极强，从而显著增强了抵抗防御的鲁棒性。

3、本发明面向预训练编码器的不可见后门攻击方法，在保持高度隐蔽性的同时能够实现很高的攻击成功率，且不影响后门模型在干净数据集上的预测准确率，使得该攻击难以被防御。

附图说明

图1是本发明面向预训练编码器的不可见后门攻击方法流程示意图；

图2是本发明面向预训练编码器的不可见后门攻击方法后门攻击示意图；

图3是本发明不可见后门攻击方法实施例模拟攻击系统示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。同时对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

本发明提出的一种面向预训练编码器的不可见后门攻击方法，总体流程如图1所示，包括如下步骤：

(1)去除图像高频部分

攻击者从干净编码器的预训练集中选择图像，使用低通滤波器对每张图像进行高频部分的去除，得到去除高频后的图像，来提高后门图像之间的相似性。

(2)为去除高频后的图像添加水印得到后门数据集

攻击者准备要隐藏的编码信息，并对编码位串进行预处理。攻击者将预处理后的位串张量与去除高频后的图像合并，得到一个四通道的输入，传递给水印编码器。水印编码器则会生成一个描述编码信息的嵌入方式的RGB残差图像。最后将水印编码器生成的残差图像与去除高频后的图像相加，得到编码后的后门图像。

(3)微调以注入后门

攻击者为干净编码器的预训练集中的部分图像添加水印(trigger)得到后门数据集，并设置损失函数对预训练的干净编码器进行微调以注入后门得到后门编码器；

(4)发布和利用后门

攻击者将有毒数据发布到网络上以使受害者可以获得，受害者从不受信任的服务商或网络下载得到后门编码器。受害者使用后门编码器进行微调用于下游任务，基于不同下游任务的后门图像编码器构建的下游分类器会同时继承后门行为，在目标下游任务上，下游分类器会将嵌入了相应触发器的任何输入预测为目标类，而不影响非目标下游任务的正常性能。

在本发明的一个实施例中，具体的后门攻击方法如图2所示，步骤如下：

步骤1：去除高频部分：

攻击者从干净编码器的预训练集S中选择原始图像X，使用高斯低通滤波器对每张图像进行高频部分的去除，得到去除高频后的图像X^′。

在本实施例中，步骤1采用如下优选方案：

高斯滤波公式为：

X^′＝G*X

其中X是原始图像，X^′是去除高频后的图像X^′。

G是高斯滤波核，这里其计算方式如下：

其中σ是高斯函数的标准差。

需要特别说明的是，本实施例中，水印编码器e^t、预训练编码器e、后门编码器e^′和下游分类器classifier均为多层卷积神经网络。

步骤2：为去除高频后的图像添加水印得到后门数据集，包括以下子步骤：

2.1、攻击者准备要隐藏的编码信息M(可以灵活地设计该编码信息字符串。它可以是名称、目标标签的索引，甚至是一个随机字符)，并对编码位串message进行预处理。

2.2、攻击者将预处理后的位串张量与去除高频后的图像X^′合并，得到一个四通道的输入传递给水印编码器e^t，水印编码器生成一个描述了编码信息的嵌入方式的RGB残差图像residual。

2.3.将水印编码器生成的残差图像residual与去除高频后的图像X^′相加，得到编码后的后门图像X^adv。

在本实施例中，步骤2采用如下优选方案：

信息的交叉熵损失为：

其中，分别是去除高频后的图像和后门图像的相应像素值。

L2残差正则化损失为：

其中，X^adv是编码后的后门图像。

LPIPS感知损失为：

L_lpips＝∑_Lλ_L·D_L(I₁,I₂)

其中，L表示表示感知模型中的不同层级,λ_L表示感知层L的权重，用于控制每个层级的贡献，D_L表示在感知层L上计算的图像之间的感知距离或差异。

Critic损失为：

L_critic＝Critic(X^adv)

其中，Critc损失采用二元交叉熵损失。

步骤3：微调以注入后门：

攻击者为干净编码器e的预训练集S中的部分图像添加水印(trigger)得到后门数据集S^shadow，并对预训练的干净编码器进行微调以注入后门得到后门编码器e^′，并计算全局损失函数。

在本实施例中，步骤3采用如下优选方案：

有效性目标的损失函数为：

其中，s(·,·)测量两个特征向量之间的相似性，|D_s|表示阴影数据集中的输入数，是后门输入，L₀和L₁中的分母用于归一化损失。有效性损失是两项的加权和，即L₀+λ₁·L₁，其中λ₁是平衡这两项的超参数。

效用损失的损失函数为：

交叉验证损失函数为：

其中，表示后门编码器为输入x添加了另一图像的特异性触发器，每个图像都有一个唯一的触发器，来来实现触发器的不可重用性。

多样性损失函数为：

其中我们使用强制正则化，以避免水印编码器的输出将饱和到一个均匀的触发器。

全局损失函数为：

其中，λ₁，λ₂，λ₃和λ₄是平衡这三个损失项的四个超参数。

步骤四：发布和利用后门，具体包括以下步骤：

4.1、攻击者将有毒数据发布到网络上以使受害者可以获得，受害者从不受信任的服务商或网络下载得到后门编码器e^′作为自己的预训练编码器；

4.2、受害者使用后门编码器e^′进行微调用于下游任务，基于不同下游任务的后门图像编码器构建的下游分类器classifier会同时继承后门行为，在目标下游任务上，下游分类器classifier会将嵌入了相应触发器的任何输入预测为目标类，而不影响非目标下游任务的正常性能。

如图3所示，一个模拟攻击系统由不受信任的服务提供商、恶意第三方及受害者用户三部分组成。首先，受害者用户与服务提供商之间建立了信任关系，委托服务提供商预训练编码器e。服务提供商在预训练时预先添加了不可见的后门，或者受害者用户可能会通过互联网渠道下载来自恶意第三方的带有后门的编码器e^′。

由于受害者用户使用的后门编码器e^′中含有目标下游任务的后门，所以当受害者用户将得到的后门编码器e^′应用于自己的下游任务作为特征提取器时，在攻击者选定的下游任务上，下游分类器会继承后门行为。然而，值得注意的是，这种后门攻击方法同时会保持在非目标下游任务上的正常性，以不引起怀疑。这种复杂而欺骗性的方式，使攻击者能够以隐蔽的方式实施后门攻击，同时确保不暴露其意图，从而成功地实现了后门攻击的效果。这一模拟攻击系统中，攻击者可以选择不同的方式来获取到含有后门的编码器，但无论选择哪种方式，其最终目标都是实施后门攻击，损害目标下游任务的完整性和安全性。

上述这种攻击模式可以应用于很多方面的现实攻击场景，如竞争情报窃取，攻击者可以使用该后门攻击方法来窃取竞争对手的机密信息。攻击者可以选择目标预训练编码器，注入不可见的后门。随后，攻击者可以使用这个后门编码器来处理敏感信息，使信息携带后门，而只有攻击者知道触发器的存在和如何激活它。这种方式可以使攻击者在不引起警觉的情况下，获取竞争对手的机密数据。此外，在网络攻击绕过检测方面，网络安全工具通常会检测恶意活动的迹象，以保护系统免受攻击。攻击者可以使用我们提出的后门攻击方法来绕过这些检测机制。通过在数据流中嵌入不可见的后门触发器，攻击者可以欺骗网络安全工具，使其认为传输的数据是正常的，而不是恶意的。这使得攻击者可以成功地绕过网络安全措施，执行潜在有害的操作，而不被检测到。该面向预训练编码器的不可见后门攻击方法作为一种工具，具有对抗性和欺骗性，可以在多种情境中被利用，以达到攻击者的不正当目的。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围内。

Claims

1.一种面向预训练编码器的不可见后门攻击方法，其特征在于，包括以下步骤：

S1、去除图像高频部分：攻击者从干净编码器e的预训练集S中选择原始图像X，使用高斯滤波器对X的每张图像进行高频部分的去除，得到去除高频后的图像X′，用于提高后门图像之间的相似性；

S2、攻击者为去除高频后的图像X′，通过水印编码器e^t，添加水印得到编码后的后门图像X^adv；

S3、微调以注入后门：攻击者为干净编码器e的预训练集S中所有去除高频后的图像通过水印编码器e^t添加水印，得到后门数据集S^shadow，设置损失函数对干净编码器e进行微调以注入后门，利用优化器训练得到后门编码器e′，并计算全局损失函数；

S4、攻击者将后门编码器e′发布，受害者下载所述后门编码器e′并微调，构建下游分类器classifier，运用于自己的下游任务。

2.根据权利要求1所述的面向预训练编码器的不可见后门攻击方法，其特征在于：所述水印编码器e^t、干净编码器e、后门编码器e′和下游分类器classifier均为多层卷积神经网络。

3.根据权利要求1所述的面向预训练编码器的不可见后门攻击方法，其特征在于：步骤S1中，所述高斯低通滤波器滤波公式为：

X'＝G*X

式中，G是高斯滤波核，计算方式如下：

其中，σ是高斯函数的标准差，x、y、z分别为原始图像X的三个维度的像素坐标，表示高斯分布的概率密度函数。

4.根据权利要求3所述的面向预训练编码器的不可见后门攻击方法，其特征在于，步骤S2包括如下子步骤：

S2.1、攻击者准备要隐藏的指定编码信息M，并对编码信息中的编码位串message进行预处理，得到预处理后的位串张量，所述编码信息包括：名称、目标标签的索引、随机字符；

所述信息的交叉熵损失用于量化水印嵌入的准确性，所述L2残差正则化损失、LPIPS感知损失、及Critic损失，用于最小化编码图像的感知失真；

S2.3、将所述残差图像residual与去除高频后的图像X′相加，得到编码后的后门图像X^adv。

5.根据权利要求4所述的面向预训练编码器的不可见后门攻击方法，其特征在于，步骤S2中，所述信息的交叉熵损失为：

其中，i、j、k分别表示三个维度的像素坐标，X′_i.j.k、分别是去除高频后的图像和后门图像的相应像素值；

所述L2残差正则化损失为：

所述LPIPS感知损失为：

所述Critic损失，函数为：

L_critic＝Critic(X^adv)

6.根据权利要求5所述的面向预训练编码器的不可见后门攻击方法，其特征在于：步骤S3中，所述优化器包括：RMSProp、SGD、Adam。

7.根据权利要求6所述的面向预训练编码器的不可见后门攻击方法，其特征在于：步骤S3中，所述损失函数包括：

S3.1、有效性目标的损失函数，定义为：

有效性损失是两项的加权和，即L₀+λ₁·L₁，其中λ₁是平衡L₀和L₁的超参数。

S3.2、效用损失的损失函数，定义为：

其中，s(·,·)测量两个特征向量之间的相似性，|D_s|表示阴影数据集中的输入数，e′(x)和e(x)分别是后门图像编码器和干净图像编码器为干净输入生成的特征向量；

S3.3、交叉验证损失函数，定义为：

其中，p_k为不同于x的另一图像的特异性触发器，表示后门编码器为输入x添加了另一图像的特异性触发器，每个图像都有一个唯一的触发器，用于实现触发器的不可重用性；

S3.4、多样性损失函数，定义为：

8.根据权利要求7所述的面向预训练编码器的不可见后门攻击方法，其特征在于：步骤S3中，所述全局损失函数，定义如下：

9.根据权利要求1至8任一项所述的面向预训练编码器的不可见后门攻击方法，其特征在于：步骤S4，包括如下子步骤：

S4.1、攻击者将有毒数据发布到网络上，以使受害者可以获得，受害者从不受信任的服务商或网络下载得到后门编码器e′；

S4.2、受害者使用所述后门编码器e′进行微调用于下游任务，基于不同下游任务的后门图像编码器构建的下游分类器classifier，同时继承后门行为，在目标下游任务上，下游分类器classifier将嵌入了相应触发器的任何输入预测为目标类，而不影响非目标下游任务的正常性能。