CN116631043B

CN116631043B - 自然对抗补丁生成方法、目标检测模型的训练方法及装置

Info

Publication number: CN116631043B
Application number: CN202310912988.8A
Authority: CN
Inventors: 江栋; 陈先意; 顾军; 颜凯; 王康; 许林峰
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-09-22
Anticipated expiration: 2043-07-25
Also published as: CN116631043A

Abstract

本发明公开了一种自然对抗补丁生成方法、目标检测模型的训练方法及装置，自然对抗补丁生成方法，包括：将自然图像通过预训练好的自动编码器中的编码器进行感知压缩，得到潜在空间；利用扩散模型学习潜在空间并进行训练，得到训练好的扩散模型；从高斯分布中采样一个随机噪声，并通过训练好的扩散模型将所述随机噪声映射到潜在空间中的隐变量，得到映射隐变量，随后通过预训练好的自动编码器中的解码器对映射隐变量采样得到自然对抗补丁。本发明通过生成一种具有人们熟悉的图案和内容的自然对抗补丁，用于对目标检测器或人脸识别系统进行训练，能有效提高目标检测器或人脸识别系统的检测精度以及鲁棒性。

Description

自然对抗补丁生成方法、目标检测模型的训练方法及装置

技术领域

本发明属于图像处理技术领域，具体涉及一种自然对抗补丁生成方法、目标检测模型的训练方法及装置。

背景技术

深度神经网络已经被广泛应用于自动驾驶、人脸识别、疾病诊断等领域，并且由于不受人类主观判断和情感因素的影响，其结果往往作为关键任务后续决策的重要信息来源。尽管这些技术为人类带来了便利，但是已有的工作研究表明，基于深度神经网络的模型容易受到对抗样本的攻击。对抗样本是指通过设计一种特殊的扰动，一般不改变模型本身，只是修改模型的输入，使得模型在推理时以高置信度做出错误的判断。对抗攻击的现象不仅存在于数字空间，还会影响基于深度神经网络的许多物理世界任务，包括已经落地使用的基于深度神经网络的AI系统，对抗样本在物理世界中造成的影响不容小视，甚至可能导致巨额财产损失和重大人员伤亡。

对抗样本对神经网络的攻击暴露出了神经网络在鲁棒性上的缺陷，也给神经网络的应用带来了威胁，在出于对深度神经网络应用可靠性和安全性的考量，研究对抗样本技术能够有效的帮助理解神经网络模型，判断网络模型的实际可用性，并且能为深度学习技术的安全可靠发展提供助力。

对抗补丁是一类特殊的对抗攻击方式，通常用于物理世界中的对抗攻击。对抗补丁不再局限于像素级扰动使人类难以察觉，而为了实现更高效的攻击，其在一个较小的、局部的、没有扰动约束的区域内生成一个特殊的补丁块。但是，由于受到光照、角度等物理因素的影响，对抗补丁需要具有良好的鲁棒性，以便在物理环境中成功攻击。

对抗补丁通常与一些目标检测场景中待测的物理对象关联起来，如将具有攻击效果的对抗补丁打印在T恤或者眼镜框上，从而导致检测器或者人脸识别系统做出错误判断，因此，如何排除对抗补丁的干扰，提高目标检测器或人脸识别系统的检测精度以及鲁棒性是亟需解决的技术问题。

发明内容

为解决现有技术中的不足，本发明提供一种自然对抗补丁生成方法、目标检测模型的训练方法及装置，通过生成一种具有人们熟悉的图案和内容的自然对抗补丁，用于对目标检测器或人脸识别系统进行训练，能有效提高目标检测器或人脸识别系统的检测精度以及鲁棒性。

为达到上述目的，本发明所采用的技术方案是：

第一方面，提供一种自然对抗补丁生成方法，包括：将自然图像通过预训练好的自动编码器中的编码器进行感知压缩，得到潜在空间；利用扩散模型学习潜在空间并进行训练，得到训练好的扩散模型；从高斯分布中采样一个随机噪声，并通过训练好的扩散模型将所述随机噪声映射到潜在空间中的隐变量，得到映射隐变量，随后通过预训练好的自动编码器中的解码器对映射隐变量采样得到自然对抗补丁。

进一步地，所述自动编码器的训练过程包括：将重构损失和正则项损失/>的加权组合/>作为总损失对自动编码器进行训练：

（1）

（2）

（3）

其中，和/>分别是自动编码器中的编码器和解码器；/>是自然图像数据集中一批次的第/>张图片，n是自然图像数据集中一个批次的图像数量；/>是重构损失，即源图像和重构图像之间的均方误差，公式（2）中/>利用/>散度来约束潜在空间的分布不会偏离标准正态分布，/>代表正态分布，/>和/>分别是编码器压缩得到的潜在空间的均值和方差；公式（3）中/>用来控制对潜在空间的约束力度。

进一步地，将自然图像通过预训练好的自动编码器中的编码器进行感知压缩，得到潜在空间，包括：通过预训练好的自动编码器中的编码器将自然图像感知压缩到底层潜在空间和顶层潜在空间，并且在感知压缩时使用KL正则项约束潜在空间；然后把顶层潜在空间上采样至与底层潜在空间具有相同维度，并将相同维度的顶层潜在空间和底层潜在空间拼接得到整体的潜在空间。

进一步地，使用以时间为条件的UNet网络作为扩散模型的主干网络，用于预测时刻加入的噪声，/>，其中/>是扩散过程的总时间步数。

进一步地，所述扩散模型的损失函数为：

（4）

其中，是/>时刻从标准高斯分布/>中采样得到真实的噪声，/>是神经网络预测/>时刻的噪声，/>是图像经过编码器/>得到的隐变量z后添加噪声的版本。以两个噪声的误差平方的平均数/>作为损失。

进一步地，还包括：将自然对抗补丁应用到目标数据集上，并输入目标检测模型中得到置信度分数和分类分数/>，并定义对抗检测损失：

（5）

其中，是添加了对抗补丁批量为B的一组图片中的第i张图片；

对抗总损失为：

（6）

（7）

（8）

其中，和/>分别代表不可打印损失和全变分损失，/>是自然对抗补丁/>在位置/>处的像素向量，/>是来自可打印颜色集/>的颜色向量；/>是自然对抗补丁中t通道上/>位置的像素标量；通过/>和/>两个物理世界损失控制生成的自然对抗补丁在物理世界的可打印性和光滑性，并使用/>和/>分别为所述不可打印损失和全变分损失的权重系数；反向传播最小化总损失函数，优化更新从高斯分布中采样的随机噪声。

第二方面，提供一种自然对抗补丁生成装置，包括：自然图像压缩模块，用于将自然图像通过预训练好的自动编码器中的编码器进行感知压缩，得到潜在空间；扩散模型训练模块，用于利用扩散模型学习潜在空间并进行训练，得到训练好的扩散模型；自然对抗补丁生成模块，用于从高斯分布中采样一个随机噪声，并通过训练好的扩散模型将所述随机噪声映射到潜在空间中的隐变量，得到映射隐变量，随后通过预训练好的自动编码器中的解码器对映射隐变量采样得到自然对抗补丁。

第三方面，提供一种目标检测模型的训练方法，包括：将通过第一方面所述的自然对抗补丁生成方法得到的自然对抗补丁添加到目标数据集中的图片上，得到训练数据集，用于对目标检测模型进行训练。

第四方面，提供一种目标检测模型的训练装置，包括：训练集构建模块，用于将通过第一方面所述的自然对抗补丁生成方法得到的自然对抗补丁添加到目标数据集中的图片上，得到训练数据集，用于对目标检测模型进行训练。

与现有技术相比，本发明所达到的有益效果：本发明通过将自然图像通过预训练好的自动编码器中的编码器进行感知压缩，得到潜在空间；利用扩散模型学习潜在空间并进行训练，得到训练好的扩散模型；从高斯分布中采样一个随机噪声，并通过训练好的扩散模型将所述随机噪声映射到潜在空间中的隐变量，得到映射隐变量，随后通过预训练好的自动编码器中的解码器对映射隐变量采样得到自然对抗补丁，将该自然对抗补丁，用于对目标检测器或人脸识别系统进行训练，能有效提高目标检测器或人脸识别系统的检测精度以及鲁棒性。

附图说明

图1是使用目标检测器识别含对抗补丁的图像的场景示意图；

图2是本发明实施例中感知压缩自然图像到潜在空间的整体结构图；

图3是本发明实施例中扩散模型学习自然图像的潜在空间的整体结构图；

图4是本发明实施例中利用扩散模型在潜在空间中生成自然对抗补丁训练示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

一种自然对抗补丁生成方法，包括：将自然图像通过预训练好的自动编码器中的编码器进行感知压缩，得到潜在空间；利用扩散模型学习潜在空间并进行训练，得到训练好的扩散模型；从高斯分布中采样一个随机噪声，并通过训练好的扩散模型将所述随机噪声映射到潜在空间中的隐变量，得到映射隐变量，随后通过预训练好的自动编码器中的解码器对映射隐变量采样得到自然对抗补丁。

步骤1：利用重构损失和正则项损失/>的加权组合/>作为总损失预训练一个自动编码器，

（1）

（2）

（3）

其中，和/>分别是自动编码器中的编码器和解码器；/>是自然图像数据集中一批次的第/>张图片，n是自然图像数据集中一个批次的图像数量。/>是重构损失，即源图像和重构图像之间的均方误差，公式（2）中/>利用/>散度来约束潜在空间的分布不会偏离标准正态分布，/>代表正态分布，/>和/>分别是编码器压缩得到的潜在空间的均值和方差。公式（3）中/>用来控制对潜在空间的约束力度。

步骤2：利用步骤1中的编码器，将自然图像感知压缩到低维的潜在空间，并保存潜在空间，潜在空间是一个由隐变量所组成的集合/>，其中N是自然图像数据集的图像数量。

步骤3：利用扩散模型学习步骤2中的潜在空间。使用以时间为条件的UNet作为扩散模型的主干网络，它被训练来预测时刻加入的噪声，/>,其中/>是扩散过程的总时间步数；扩散模型的损失函数被定义为：

（4）

步骤4：从高斯分布中采样一个随机噪声，利用步骤3训练好的扩散模型将/>映射到潜在空间中的隐变量/>，随后将/>通过解码器/>采样得到自然对抗补丁/>。

步骤5：将步骤4采样得到的应用到目标数据集InriaPerson上，送入目标检测器中得到置信度分数/>和分类分数/>，并定义对抗检测损失：

（5）

其中，是添加了对抗补丁批量为B的一组图片中的第i张图片。

步骤6：对抗总损失为：

（6）

（7）

（8）

其中，和/>分别代表不可打印损失和全变分损失，/>是自然对抗补丁/>在位置/>处的像素向量，/> 是来自可打印颜色集/>的颜色向量。/>是自然对抗补丁中t通道上/>位置的像素标量。通过/>和/>两个物理世界损失控制生成的自然对抗补丁在物理世界的可打印性和光滑性，并使用/>和/>分别为所述不可打印损失和全变分损失的权重系数；反向传播最小化总损失函数，优化更新从高斯分布中采样的随机噪声。

利用上述步骤可以生成物理世界的自然对抗补丁，将自然对抗补丁应用在攻击目标身上后，可以使得目标检测器进行错误判断。

对抗样本的研究对神经网络的安全发展具有重要提升作用。本发明是一种自然对抗补丁的生成方法，区别于其他方法仅关心对抗补丁在物理世界中的攻击效果而忽略对抗补丁的自然程度，使得对抗补丁在成功攻击检测器之前就被人所捕获为异常输入；本发明通过扩散模型学习自然图像的双层潜在空间，利用扩散模型将高斯扰动映射到潜在空间中的隐变量z，通过解码器采样得到一种具有人们熟悉的图案和内容的自然对抗补丁，使补丁在能够攻击神经网络的同时不会轻易地被人眼所察觉为异常，将该自然对抗补丁，用于对目标检测器或人脸识别系统进行训练，能有效提高目标检测器或人脸识别系统的检测精度以及鲁棒性。为研究神经网络的鲁棒性提供了新的方向和思路。

如图1所示，目标检测器用于对输入图像进行识别，初始图像检测框结果属于A类别，对初始图像添加自然对抗补丁后，将其再次输入到相目标检测器中，会导致无法检测到目标或者检测结果是非A类别。这种通过故意对输入样本添加干扰，导致模型以高置信度给出一个错误的输出的方法称为对抗攻击。

下面结合附图2和附图3，对本发明提出的一种基于扩散模型的自然对抗补丁生成方法进行详细说明：

选取自然动物图像作为感知压缩阶段的数据集，该数据集由15000张3×256×256的图片组成，包括野生动物、猫、狗三个类别。每个类别有5000张图片。其中13500张图片作为训练集,1500张图片作为测试集。

攻击数据集是InriaPerson，该数据集是一组包含站立或者行走的行人图像，通过筛选行人高度大于100像素的样本，得到902张图像，其中614张图片作为训练集，288张图片作为测试集，并且将图像压缩成为YOLOv3模型的输入尺寸3×416×416。

第一步，将自然图像通过自动编码器中的编码器从大小为3×256×256的原始图片感知压缩成为10×32×32的底层潜在空间和10×16×16的顶层潜在空间，并且在感知压缩时使用KL正则项约束潜在空间；然后把顶层潜在空间上采样和底层潜在空间相同维度后拼接得到20×32×32大小的整体潜在空间。

第二步，将得到的潜在空间通过自动编码器中的解码器进行重构,将重构图像和原图像之间计算均方误差作为重构损失，将重构损失和正则项损失加权组合/>作为总损失优化自动编码器，其中。

第三步，将自然图片数据集通过预训练好的自动编码器感知压缩为潜在空间，并保存潜在空间集。

第四步，利用扩散模型学习保存的潜在空间。使用以时间为条件的UNet作为扩散模型主干网络，它被训练来预测时刻加入的噪声,/>,优化损失函数为/>；其中/>是/>时刻真实的噪声，/>是预测/>时刻的噪声，以两个噪声的均方误差作为损失反向传播优化扩散模型。

第五步，如图4所示，从高斯分布中采样一个随机噪声，利用预训练好的扩散模型将/>映射到潜在空间中的隐变量/>，随后将/>通过自动编码器中解码器采样得到自然图像p。

第六步，将采样得到的自然对抗补丁应用到目标数据集InriaPerson上，送入目标检测器YOLOv3中得到置信度分数/>和分类分数/>，设置批量大小为8，定义对抗检测损失/>，其中/>是一个批量中的第i张图片。

第七步，计算对抗总损失,其中和分别代表不可打印损失和全变分损失，控制生成的补丁在物理世界的可打印性和光滑性。

第八步，反向传播以最小化损失函数，迭代更新/>直到/>收敛不再下降，得到自然对抗补丁，将补丁作用于物理世界可以使检测器以高置信度做出错误判断。

对抗样本的研究对神经网络的安全发展具有重要提升作用。本发明是一种自然对抗补丁的生成方法，区别于其他方法仅关心对抗补丁在物理世界中的攻击效果而忽略对抗补丁的自然程度，使得对抗补丁在成功攻击检测器之前就被人所捕获为异常输入；本发明通过扩散模型学习自然图像的双层潜在空间，利用扩散模型将高斯扰动映射到潜在空间中的隐变量z，通过解码器采样得到自然对抗补丁，生成的对抗补丁具有人们熟悉的图案和内容，不会轻易地被人眼所察觉为异常，极大程度地增强了对抗补丁的实用性和隐蔽性，为研究对抗样本和神经网络提供了新的思路。

实施例二：

基于实施例一所述的一种自然对抗补丁生成方法，本实施例提供一种自然对抗补丁生成装置，包括：

自然图像压缩模块，用于将自然图像通过预训练好的自动编码器中的编码器进行感知压缩，得到潜在空间；

扩散模型训练模块，用于利用扩散模型学习潜在空间并进行训练，得到训练好的扩散模型；

自然对抗补丁生成模块，用于从高斯分布中采样一个随机噪声，并通过训练好的扩散模型将所述随机噪声映射到潜在空间中的隐变量，得到映射隐变量，随后通过预训练好的自动编码器中的解码器对映射隐变量采样得到自然对抗补丁。

实施例三：

基于实施例一所述的一种自然对抗补丁生成方法、实施例二所述的一种自然对抗补丁生成装置，本实施例提供一种目标检测模型的训练方法，包括：

将通过实施例一所述的自然对抗补丁生成方法得到的自然对抗补丁添加到目标数据集中的图片上，得到训练数据集，用于对目标检测模型进行训练。

实施例四：

基于实施例一~实施例三，本实施例提供一种目标检测模型的训练装置，包括：

训练集构建模块，用于将通过实施例一所述的自然对抗补丁生成方法得到的自然对抗补丁添加到目标数据集中的图片上，得到训练数据集，用于对目标检测模型进行训练。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种自然对抗补丁生成方法，其特征在于，包括：

将自然图像通过预训练好的自动编码器中的编码器进行感知压缩，得到潜在空间；

利用扩散模型学习潜在空间并进行训练，得到训练好的扩散模型；

从高斯分布中采样一个随机噪声，并通过训练好的扩散模型将所述随机噪声映射到潜在空间中的隐变量，得到映射隐变量，随后通过预训练好的自动编码器中的解码器对映射隐变量采样得到自然对抗补丁；

其中，所述自动编码器的训练过程包括：

将重构损失和正则项损失/>的加权组合/>作为总损失对自动编码器进行训练：

（1）

（2）

（3）

其中，和/>分别是自动编码器中的编码器和解码器；/>是自然图像数据集中一批次的第/>张图片，/>是自然图像数据集中一个批次的图像数量；/>是重构损失，即源图像和重构图像之间的均方误差，公式（2）中/>利用/>散度来约束潜在空间的分布不会偏离标准正态分布，/>代表正态分布，/>和/>分别是编码器压缩得到的潜在空间的均值和方差；公式（3）中/>用来控制对潜在空间的约束力度；

将自然图像通过预训练好的自动编码器中的编码器进行感知压缩，得到潜在空间，包括：

通过预训练好的自动编码器中的编码器将自然图像感知压缩到底层潜在空间和顶层潜在空间，并且在感知压缩时使用KL正则项约束潜在空间；然后把顶层潜在空间上采样至与底层潜在空间具有相同维度，并将相同维度的顶层潜在空间和底层潜在空间拼接得到整体的潜在空间；

使用以时间为条件的UNet网络作为扩散模型的主干网络，用于预测时刻加入的噪声，，其中/>是扩散过程的总时刻步数；

所述扩散模型的损失函数为：

（4）

其中，是/>时刻从标准高斯分布/>中采样得到真实的噪声，/>是神经网络预测/>时刻的噪声，/>是图像经过编码器/>得到隐变量z后添加噪声的版本；以两个噪声的误差平方的平均数/>作为损失。

2.根据权利要求1所述的自然对抗补丁生成方法，其特征在于，还包括：

将自然对抗补丁应用到目标数据集上，并输入目标检测模型中得到置信度分数和分类分数/>，并定义对抗检测损失：

（5）

对抗总损失为：

（6）

（7）

（8）

其中，和/>分别代表不可打印损失和全变分损失，/>是自然对抗补丁/>在位置处的像素向量，/> 是来自可打印颜色集/>的颜色向量；/>是自然对抗补丁/>中t通道上/>位置的像素标量；通过/>和/>两个物理世界损失控制生成的自然对抗补丁在物理世界的可打印性和光滑性，并使用/>和/>分别为所述不可打印损失和全变分损失的权重系数；反向传播最小化总损失函数，优化更新从高斯分布中采样的随机噪声。

3.一种自然对抗补丁生成装置，其特征在于，包括：

自然对抗补丁生成模块，用于从高斯分布中采样一个随机噪声，并通过训练好的扩散模型将所述随机噪声映射到潜在空间中的隐变量，得到映射隐变量，随后通过预训练好的自动编码器中的解码器对映射隐变量采样得到自然对抗补丁；

其中，所述自动编码器的训练过程包括：

（1）

（2）

（3）

所述扩散模型的损失函数为：

（4）

4.一种目标检测模型的训练方法，其特征在于，包括：

将通过权利要求1~2任一项所述的自然对抗补丁生成方法得到的自然对抗补丁添加到目标数据集中的图片上，得到训练数据集，用于对目标检测模型进行训练。

5.一种目标检测模型的训练装置，其特征在于，包括：

训练集构建模块，用于将通过权利要求1~2任一项所述的自然对抗补丁生成方法得到的自然对抗补丁添加到目标数据集中的图片上，得到训练数据集，用于对目标检测模型进行训练。