CN114372537B

CN114372537B - 一种面向图像描述系统的通用对抗补丁生成方法及系统

Info

Publication number: CN114372537B
Application number: CN202210049769.7A
Authority: CN
Inventors: 徐文渊; 冀晓宇; 程雨诗; 张世博
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2022-10-21
Anticipated expiration: 2042-01-17
Also published as: CN114372537A

Abstract

本发明公开了一种面向图像描述系统的通用对抗补丁生成方法及系统，该方法为：初始化对抗补丁；将对抗补丁通过RandomApply算法添加到随机图像中；将添加对抗补丁后的图像送入图像描述系统中，计算联合损失函数；对联合损失函数进行反向传播，通过优化器更新对抗补丁图像的像素值；经过预设次数的迭代后，即可生成可以使深度学习模型输出错误的对抗补丁。与现有对抗补丁相比，本发明首次在图像描述系统中实现对抗补丁，使图像描述系统错误输出为指定描述，并可以生成通用的对抗补丁，有效提高对抗补丁的稳定性和场景适应能力。

Description

一种面向图像描述系统的通用对抗补丁生成方法及系统

技术领域

本发明属于人工智能领域，涉及一种面向图像描述系统的通用对抗补丁生成方法及系统。

背景技术

近年来人工智能技术的不断发展，已经被用在了多种重要领域，图像描述系统就是其应用之一。图像描述是一种结合计算机视觉和自然语言处理的多模态系统，可以对图像所包含的内容进行准确识别，自动生成与图像中的内容相匹配的图像描述信息。

近些年来，针对图像的对抗样本成为人工智能领域的研究热点，图像对抗样本可以在人类无法察觉的情况下，使深度神经网络产生错误的输出结果，研究对抗样本对于保护智能识别系统的安全性具有重要的意义。物理对抗样本是一种特殊的对抗样本，不同于数字对抗样本，物理对抗样本只需要被摄像机捕捉，不需要入侵计算机系统就可以实现。但针对物理攻击的现有研究大多是为攻击图像分类器和目标检测器，目前没有针对图像描述系统的物理攻击。

发明内容

本发明提供一种面向图像描述系统的通用对抗补丁生成方法及系统，该方法利用了图像描述系统的注意力机制，可以根据目标描述语句生成对应的对抗补丁，有效实现在物理世界中对图像描述系统的鲁棒攻击，为图像描述系统的安全研究与防护提供了新的思路。

本发明的采用以下技术方案实现：

一种面向图像描述系统的通用对抗补丁生成方法，包括以下步骤：

1)输入目标描述语句，根据设计尺寸随机初始化对抗补丁；

2)随机选择一张图像，通过RandomApply算法将对抗补丁添加到该图像中。RandomApply算法首先将对抗补丁根据预设范围随机旋转、调整尺寸和调整亮度，然后将处理过后的对抗补丁叠加在选择图像的随机位置。RandomApply算法旨在提高对抗补丁的鲁棒性，其表达公式为：

x′＝Apply_l～L(x，l，Trans_t～T(patch，t))

式中patch是所生成的对抗补丁，x是原始选择的图片，x′是添加对抗补丁后的图像，T是预设旋转、调整尺寸和调整亮度参数的集合，t是随机选择得到的对抗补丁旋转、调整尺寸和调整亮度参数，Trans_t～T(patch,t)表示将对抗补丁按照随机得到的参数对对抗补丁进行随机旋转、调整尺寸和调整亮度，L是预设摆放位置的集合，l是随机选择得到的摆放位置，Apply_l～L(x,l,Trans_t～T(patch,t)表示将随机变化后的Trans_t～T(patch,t)随机覆盖到原始选择的图像上。

3)将步骤2)生成的添加对抗补丁后的图像送入图像描述系统中，根据步骤1)中输入的目标描述语句计算注意力增强损失函数、目标描述损失函数和补丁平滑度损失函数，加权求得联合损失函数。所述的注意力增强损失函数用于增强图像描述系统对于对抗补丁的注意力权重；所述的目标描述损失函数用于使图像描述系统输出目标描述语句；所述的补丁平滑度损失函数用于提高对抗补丁在物理世界中的鲁棒性。该步骤具体包括以下四个子步骤：

(1)注意力增强损失函数计算。针对目标描述选择注意力单词和注意力区域，注意力单词选择：对抗补丁的目标描述为英文描述。针对英语单词中的十种不同单词类型，选择具有包含具体信息的实词作为注意力增强对象，包括名词、实意动词、副词、形容词、数词五种单词类型。注意力区域选择：图像描述系统识别过程中按照固定方格划分不同的区域。根据对抗补丁不同的摆放位置，选择不同的注意力区域，所述注意力区域的选择标准为对抗补丁占所在区域面积大于该区域的一半。根据上述过程中选择的注意力单词和注意力区域，得到注意力增强损失函数，其表达公式为：

式中T代表所有被选择的注意力单词所对应的LSTM网络的时间节点，I代表在输出对应注意力单词时所选择的注意力区域，α_(i,t)表示在输出当前时间节点t时第i块区域的注意力权重，ε₁代表对于当前单词的注意力权重上限。

(2)目标描述损失函数计算。根据图像描述系统和输入的添加对抗补丁后的图像，计算目标描述语句的联合概率，其表达公式为：

式中，S′＝{w′₁,…,w′_k}为目标描述语句，P(S′|x′)表示在输入图像为x′的情况下输出描述为S′的概率，p_t为在LSTM网络的时间节点t所输出的对应单词表W中每一个单词的概率分布，单词表W为目标图像描述系统所有可输出单词的集合，k为目标描述语句的长度，w′_k为目标描述语句中第k个单词，index(w′_t)为单词w′_t在单词表W中所对应的序号，

表示LSTM网络的时间节点t输出单词表中第i个单词的概率，P(w′_t|x′,w′₁,…,w′_t-1)表示在LSTM网络的输入图片为x′且前序输入单词分别为w′₁,…,w′_t-1的情况下，计算得到的在本时间节点t输出单词为w′_t的概率。

根据上述的联合概率计算C&W损失函数，并将其作为目标描述损失函数，其表达公式为：

式中，z_t表示未归一化的概率分布p_t，

表示LSTM网络的时间节点t输出单词表中第i个单词的未归一化概率，ε₂为常量，代表单个单词未归一化概率的优化上限。

(3)补丁平滑度损失函数计算。补丁平滑度损失函数的计算方法为：计算相邻像素的像素值之差的平方和。在物理世界的实现中，相机难以捕捉到对抗补丁的每一个像素值，基于此，需要使对抗补丁更加平滑，以减少其在被相机拍摄时的失真，在训练过程中加入补丁平滑度损失函数来限制对抗补丁的平滑度，其表达公式为：

式中，Patch_i,j表示对抗补丁第i行第j列处的像素值。

(4)针对上述注意力增强损失函数、目标描述损失函数和补丁平滑度损失函数，加权求和得到联合损失函数，其表达公式为：

Loss＝α*Loss₁+β*Loss₂+γ*Loss₃

式中，α、β、γ分别为三种损失函数所对应的权重。·

4)根据步骤3)求得的联合损失函数进行反向传播，然后通过优化器更新对抗补丁图像的像素值。选择优化器为SGD优化器，结合反向传播得到的对抗补丁的梯度

使用SGD优化器最小化联合损失函数并更新对抗补丁的像素值：

其中，Patch_N为上次迭代后的对抗补丁，Patch_N+1为本次迭代后的对抗补丁。

5)检查是否达到预设迭代次数，若未达到预设迭代次数则回到步骤2)开始新的迭代，若达到则输出对抗补丁图像。迭代完成后即可生成可以使深度学习模型输出错误的对抗补丁。

本发明还提供一种面向图像描述系统的通用对抗补丁生成系统，该系统包括对抗补丁添加模块、损失函数计算模块和对抗补丁优化模块；

所述的对抗补丁添加模块负责初始化对抗补丁并添加到随机图像中；

所述的损失函数计算模块负责计算联合损失函数；

所述的对抗补丁优化模块负责更新对抗补丁图像的像素值；

该系统采用上述方法实现面向图像描述系统的通用对抗补丁的生成。

本发明的有益效果为：

与现有对抗补丁相比，本发明首次在图像描述系统中实现对抗补丁，使图像描述系统错误输出为指定描述，并结合图像描述系统注意力机制和对抗补丁的特点提出了注意力损失函数，提高了对抗补丁的能力，为图像描述系统等多模态机器学习系统的安全分析与防护提供了新的指导。

附图说明

图1是本发明实施例的方法流程图；

图2是本发明所提供的注意力区域选择实例。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明。

本发明实施例的方法流程，如图1所示。

一种面向图像描述系统的通用对抗补丁生成方法，该方法包括以下步骤：

1)输入目标描述语句，根据设计尺寸随机初始化对抗补丁；

x′＝Apply_l～L(x，l，Trans_t～T(patch，t))

式中patch是所生成的对抗补丁，x是原始选择的图片，x′是添加对抗补丁后的图像，T是预设旋转、调整尺寸和调整亮度参数的集合，是随机选择得到的对抗补丁旋转、调整尺寸和调整亮度参数，Trans_t～T(patch,t)表示将对抗补丁按照随机得到的参数对对抗补丁进行随机旋转、调整尺寸和调整亮度，L是预设摆放位置的集合，l是随机选择得到的摆放位置，Apply_l～L(x,l,Trans_t～T(patch,t)表示将随机变化后的Trans_t～T(patch,t)随机覆盖到原始选择的图像上。

3)将步骤2)生成的添加对抗补丁后的图像送入图像描述系统中，根据步骤1)中输入的目标描述语句计算注意力增强损失函数、目标描述损失函数和补丁平滑度损失函数，加权求得联合损失函数。该步骤具体包括以下四个子步骤：

(1)注意力增强损失函数计算。针对目标描述选择注意力单词和注意力区域，注意力单词选择：对抗补丁的目标描述为英文描述。针对英语单词中的十种不同单词类型，选择具有包含具体信息的实词作为注意力增强对象，包括名词、实意动词、副词、形容词、数词五种单词类型。注意力区域选择：图像描述系统识别过程中按照固定方格划分不同的区域。根据对抗补丁不同的摆放位置，选择不同的注意力区域，选择的标准为对抗补丁占所在注意力区域面积大于该区域的一半，选择实例如图2所示，添加对抗补丁后的图像被分为8×8的注意力区域，框A为对抗补丁所在位置，V₁、V₂、V₃和V₄为选择的注意力区域。根据上述过程中选择的注意力单词和注意力区域，得到注意力增强损失函数，其表达公式为：

式中，S′＝{w′₁,…,w′_k}为目标描述语句，P(S′|x′)表示在输入图像为x′的情况下输出描述为S′的概率，p_t为在LSTM网络的时间节点t所输出的对应单词表W中每一个单词的概率分布，k为目标描述语句的长度，w′_k为目标描述语句中第k个单词，index(w′_t)为单词w′_t在单词表W中所对应的序号，单词表W为目标图像描述系统所有可输出单词的集合，

式中，z_t表示未归一化的概率分布p_t，

式中，Patch_i,j表示对抗补丁第i行第j列处的像素值。

Loss＝α*Loss₁+β*Loss₂+γ*Loss₃

式中，α、β、γ分别为三种损失函数所对应的权重。·

5)检查是否达到预设迭代次数，迭代次数通常为500,000次，若未达到预设迭代次数则回到步骤2)开始新的迭代，若达到则输出对抗补丁图像。

Claims

1.一种面向图像描述系统的通用对抗补丁生成方法，其特征在于，该方法包括以下步骤：

1)输入目标描述语句，根据设计尺寸随机初始化对抗补丁；

2)随机选择一张图像，通过RandomApply算法将对抗补丁添加到该图像中；其中，RandomApply算法首先将对抗补丁根据预设范围随机旋转、调整尺寸和调整亮度，然后将处理后的对抗补丁叠加在选择图像的随机位置；

3)将步骤2)生成的添加对抗补丁后的图像送入图像描述系统中，根据步骤1)中输入的目标描述语句计算注意力增强损失函数、目标描述损失函数和补丁平滑度损失函数，加权求得联合损失函数；所述的注意力增强损失函数用于增强图像描述系统对于对抗补丁的注意力权重；所述的目标描述损失函数用于使图像描述系统输出目标描述语句；所述的补丁平滑度损失函数用于提高对抗补丁在物理世界中的鲁棒性；

4)根据步骤3)求得的联合损失函数进行反向传播，然后通过优化器更新对抗补丁的像素值；

5)检查是否达到预设迭代次数，若未达到预设迭代次数则回到步骤2)开始新的迭代，若达到则输出对抗补丁；

步骤3)中，所述的注意力增强损失函数的计算包括以下步骤：

(1)注意力单词选择：对抗补丁的目标描述为英文描述，针对英语单词中的十种不同单词类型，选择具有包含具体信息的实词作为注意力增强的对象，所述的包含具体信息的实词包括名词、实意动词、副词、形容词、数词五种单词类型；

(2)注意力区域选择：图像描述系统识别过程中按照固定方格划分不同的区域；根据对抗补丁不同的摆放位置，选择不同的注意力区域，选择的标准为对抗补丁占所在区域面积大于该区域的一半；

(3)根据步骤(1)选择的注意力单词和步骤(2)选择的注意力区域，得到注意力增强损失函数，其表达公式为：

2.根据权利要求1所述的面向图像描述系统的通用对抗补丁生成方法，其特征在于，所述图像描述系统为以CNN网络作为编码器、以LSTM网络作为解码器的图像描述系统。

3.根据权利要求1所述的面向图像描述系统的通用对抗补丁生成方法，其特征在于，步骤2)中，所述的RandomApply算法的表达公式为：

x′＝Apply_l～L(x，l，Trans_t～T(patch，t))

式中patch是所生成的对抗补丁，x是原始选择的图片，x′是添加对抗补丁后的图像，T是预设旋转、调整尺寸和调整亮度参数的集合，t是随机选择得到的对抗补丁旋转、调整尺寸和调整亮度参数，Trans_t～T(patch，t)表示将对抗补丁按照随机得到的参数对对抗补丁进行随机旋转、调整尺寸和调整亮度，L是预设摆放位置的集合，l是随机选择得到的摆放位置，Apply_l～L(x，l，Trans_t～T(patch，t))表示将随机变化后的Trans_t～T(patch，t)随机覆盖到原始选择的图像上。

4.根据权利要求1所述的面向图像描述系统的通用对抗补丁生成方法，其特征在于，步骤3)中，所述的目标描述损失函数的计算包括以下步骤：

(1)根据图像描述系统和输入的添加对抗补丁后的图像，计算目标描述语句的联合概率，其表达公式为：

式中，S′＝{w′₁，...，w′_k}为目标描述语句，P(S′|x′)表示在输入图像为x′的情况下输出描述为S′的概率，p_t为在LSTM网络的时间节点t所输出的对应单词表W中每一个单词的概率分布，k为目标描述语句的长度，w′_k为目标描述语句中第k个单词，index(w′_t)为单词w′_t在单词表W中所对应的序号，所述的单词表W为目标图像描述系统所有可输出单词的集合，