CN114565513A

CN114565513A - 对抗图像的生成方法、装置、电子设备和存储介质

Info

Publication number: CN114565513A
Application number: CN202210254872.5A
Authority: CN
Inventors: 田伟娟; 王洋; 吕中厚; 黄英仁; 张华正; 干逸显; 高梦晗
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-05-31

Abstract

本公开提供了一种对抗图像的生成方法、装置、电子设备和存储介质，涉及人工智能领域，具体涉及计算机视觉和深度学习技术领域。对抗图像的生成方法的具体实现方案为：为第一图像添加随机扰动，得到初始对抗图像；以及以最小化初始对抗图像属于目标类别的第一概率与初始对抗图像不属于目标类别的第二概率之间的差异为目标，调整初始对抗图像，得到针对第一图像的第一对抗图像。通过本公开提供的方法，可以提高第一对抗图像的识别难度。

Description

对抗图像的生成方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉和深度学习技术领域，尤其涉及一种对抗图像的生成方法、装置、电子设备和存储介质。

背景技术

随着计算机技术和网络技术的发展，深度学习技术在众多领域得到了广泛应用。在深度学习技术被非法利用时，则可能会为非法访问数据提供有利工具。例如，存在利用深度学习技术非法识别图像，导致数据安全性受到影响的情形。

发明内容

本公开旨在提供一种提高数据安全性的对抗图像生成方法、装置、电子设备和存储介质。

根据本公开的一个方面，提供了一种对抗图像的生成方法，包括：为第一图像添加随机扰动，得到初始对抗图像；以及以最小化初始对抗图像属于目标类别的第一概率与初始对抗图像不属于目标类别的第二概率之间的差异为目标，调整初始对抗图像，得到针对第一图像的第一对抗图像。

根据本公开的一个方面，提供了一种对抗图像的生成装置，包括：扰动添加模块，用于为第一图像添加随机扰动，得到初始对抗图像；以及图像调整模块，用于以最小化初始对抗图像属于目标类别的第一概率与初始对抗图像不属于目标类别的第二概率之间的差异为目标，调整初始对抗图像，得到针对第一图像的第一对抗图像。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的对抗图像的生成方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的对抗图像的生成方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现本公开提供的对抗图像的生成方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的对抗图像的生成方法和装置的应用场景示意图；

图2是根据本公开实施例的对抗图像的生成方法的流程示意图；

图3是根据本公开实施例的调整初始对抗图像的流程示意图；

图4是根据本公开实施例的调整初始对抗图像的原理示意图；

图5是根据本公开实施例的对抗图像的生成方法的原理示意图；

图6是根据本公开实施例的对抗图像的生成装置的结构框图；以及

图7是用来实施本公开实施例的对抗图像的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种对抗图像的生成方法，该方法包括扰动添加阶段和图像调整阶段。在扰动添加阶段中，为第一图像添加随机扰动，得到初始对抗图像。在图像调整阶段中，以最小化初始对抗图像属于目标类别的第一概率与初始对抗图像不属于目标类别的第二概率之间的差异为目标，调整初始对抗图像，得到针对第一图像的第一对抗图像。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的对抗图像的生成方法和装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括电子设备110，该电子设备110可以为具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。

该电子设备110例如可以对图像101进行处理，具体可以为图像101添加扰动，得到添加扰动后的对抗图像102，以使得对抗图像102中的字符不易被其他电子设备自动识别。

在一实施例中，该应用场景100还可以包括终端设备120，该终端设备120与电子设备110通过网络通信连接。网络可以包括有线或无线通信链路。例如，电子设备110可以响应于终端设备120发送的图像获取请求，将添加扰动后的对抗图像102发送给终端设备120，以供终端设备120展示。

在一实施例中，该应用场景100还可以包括另一电子设备130，该另一电子设备130可以采用各种方式获取到终端设备120的展示页面，并对终端设备120的展示页面中所展示的对抗图像102进行识别，以在对抗图像102中的字符被正确识别的情况下，访问终端设备120中的非公开页面。

在一实施例中，另一电子设备130例如可以采用图像分割模型来得到对抗图像102中的字符所在区域，随后采用字符识别技术(例如光学字符识别技术)对该字符所在区域进行识别，从而识别得到对抗图像102中的字符。

在一实施例中，为了避免终端设备中的非公开页面被非法访问，可以通过改进对抗图像102的生成方法，来使得另一电子设备130无法正确识别该对抗图像102中的字符。其中，改进后的对抗图像的生成方法可以参见下文描述，在此不再详述。

需要说明的是，本公开提供的对抗图像的生成方法可以由电子设备110执行。相应地，本公开提供的对抗图像的生成装置可以设置在电子设备110中。

应该理解，图1中的电子设备110、终端设备120、另一电子设备130和图像101的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备110、终端设备120、另一电子设备130和图像101。

以下将结合图1，通过图2～图5对本公开提供的对抗图像的生成方法进行详细描述。

图2是根据本公开实施例的对抗图像的生成方法的流程示意图。

如图2所示，该实施例的对抗图像的生成方法200可以包括操作S210～操作S220。

在操作S210，为第一图像添加随机扰动，得到初始对抗图像。

根据本公开的实施例，可以采用对抗攻击方法来为第一图像添加随机扰动。其中，对抗攻击方法可以采用基于梯度的迭代攻击算法(Momentum Iterative Method，MIM)、快速梯度下降法(Fast Gradient Sign Method，FGSM)、迭代FGSM算法(Basic IterativeMethod，BIM)、投影梯度下降算法(Projected Gradient Descent，PGD)或基于优化的攻击算法等。

例如，该操作S210可以先构建与第一图像的尺寸相同的扰动矩阵，并对该扰动矩阵进行随机初始化。随后，将该扰动矩阵与表示第一图像的像素矩阵相加，得到表示初始对抗图像的像素矩阵。其中，扰动矩阵中的各元素可以为可学习的元素。

可以理解的是，根据不同应用场景，可以采用不同的第一图像。例如，在验证码识别场景下，该第一图像可以为验证码图像。

在操作S220，以最小化初始对抗图像属于目标类别的第一概率与初始对抗图像不属于目标类别的第二概率之间的差异为目标，调整初始对抗图像，得到针对第一图像的第一对抗图像。

根据本公开的实施例，可以采用目标检测算法、图像分割算法来对初始对抗图像进行处理，根据处理结果得到第一概率和第二概率。

例如，若采用目标检测算法，处理结果可以包括初始对抗图像中对象的预测包围框和该对象属于目标类别的概率值，该实施例可以采用该对象属于目标类别的概率值来表示第一概率，采用1与对象属于目标类别的概率值的差值来表示第二概率。其中，目标检测算法可以采用区域卷积神经网络(Region with CNN Feature，R-CNN)、单发多框探测器(Single Shot multi-box Detector，SSD)或单次查看检测器(You Only Look Once，YOLO)等。

例如，若采用语义分割(Semantic Segmentation)算法，处理结果可以包括初始对抗图像中的每个像素属于目标类别的概率值和每个像素属于除目标类别外其他类别的概率值。该实施例可以采用所有像素属于目标类别的概率值构成的概率矩阵来表示第一概率，可以采用所有像素属于其他类别的概率值构成的概率矩阵来表示第二概率。可以理解的是，对于尺寸为H×W的初始对抗图像，包括H行W列像素，则采用所有像素属于目标类别的概率值可以表示为H行W列的概率矩阵，该概率矩阵即为第一概率。类似地，表示第二概率的概率矩阵也为H行W列的概率。其中，在其他类别可以包括一个或多个类别。在其他类别为多个类别时，属于其他类别的概率值构成的概率矩阵中，每个元素的取值可以为一个像素属于多个类别的多个概率值的和，或者一个像素属于多个类别的多个概率值中的最大值等，本公开对此不做限定。其中，语义分割算法可以采用深度特征聚合网络(Deep FeatureAggregation Network，DFANet)、金字塔场景解析网络(Pyramid Scene Parsing Network，PSPNet)或双向分割网络(Bilateral segmentation Network，BiseNet)等，本公开对此不做限定。

在得到第一概率和第二概率后，该实施例可以根据第一概率与第二概率之间的第一差异随机调整初始对抗图像，并根据调整后的图像重新确定第一概率与第二概率，根据重新确定后的第一概率与第二概率之间的第二差异与第一差异的关系，来确定初始对抗图像的调整方向。通过以迭代地方式不断调整图像，直至重新确定的第一概率与第二概率之间的差异相对于前一迭代中确定的差异不再减小，并将前一迭代中的图像作为针对第一图像的第一对抗图像。

其中，第一概率与第二概率之间的差异可以由两个概率之间的差值、两个概率之间的曼哈顿距离、欧式距离、余弦距离等来表示，本公开对此不做限定。

本公开实施例通过以最小化属于目标类别的第一概率与不属于目标类别的第二概率之间的差异为目标，来调整随机扰动得到的初始对抗图像，可以在生成图像的扰动图像时，实现对不同类别之间的相关性的学习，从而可以在一定程度上增大对抗图像的构建空间，提高得到的对抗图像的识别难度，提高需保护数据的安全性。

图3是根据本公开实施例的调整初始对抗图像的流程示意图。

如图3所示，该实施例在调整初始对抗图像时，可以以初始对抗图像作为第一对抗图像的初始图像，循环地执行操作S321～操作S325，直至第一对抗图像达到预定收敛条件。

在操作S321，确定第一对抗图像的分割结果。

根据本公开实施例，可以将第一对抗图像输入前文描述的语义分割算法所采用的任一网络中，由该任一网络输出分割结果。该分割结果可以包括与多个预定类别分别对应的多个概率矩阵。多个概率矩阵中的每个概率矩阵的尺寸与表示第一对抗图像的像素矩阵的尺寸相等。每个概率矩阵中的每个元素表示像素矩阵中的对应像素属于该每个概率矩阵对应的预定类别的概率值。其中，对应像素在像素矩阵中的位置与每个元素在每个概率矩阵中的位置相对应。即，该分割结果包括第一对抗图像中的各像素属于多个预定类别中各类别的概率值。其中，该多个预定类别包括前述的目标类别。例如，在字符识别的场景中，多个预定类别包括字符类别和背景类别，目标类别为字符类别。

在操作S322，根据各像素属于目标类别的概率值，确定第一概率。

例如，可以采用多个概率矩阵中与该目标类别对应的概率矩阵，来表示第一概率。或者，可以采用与该目标类别对应的概率矩阵中各个概率值的平均值来表示第一概率，即操作S322可以确定第一对抗图像中所有像素属于目标类别的概率值的平均值，将该平均值作为第一概率。

在一实施例中，可以先根据所有像素属于目标类别的概率值，确定所有像素中的目标像素，随后将该目标像素属于目标类别的概率值构成的概率矩阵作为第一概率，或者将该目标像素属于目标类别的概率值的平均值作为第一概率。其中，目标像素为所有像素中属于目标类别的概率值大于预定阈值的像素，预定阈值可以为0.6等小于1且靠近1的任意值，本公开对此不做限定。

在操作S323，根据各像素属于多个预定类别中除目标类别外其他类别的概率值，确定第二概率。

可以理解的是，该操作S323与操作S322可以根据任意执行顺序执行，例如该操作S323可以与操作S322同时执行，或者可以在操作S322之后执行，本公开对此不做限定。

该操作S323与操作S322的实现方式类似。例如，在多个预定类别包括目标类别和一个其他类别时，该实施例可以采用多个概率矩阵中与该其他类别对应的概率矩阵，来表示第二概率。或者，可以采用与该其他类别对应的概率矩阵中各个概率值的平均值来表示第二概率。在一实施例中，可以将目标像素属于其他类别的概率值所构成的概率矩阵作为第二概率，或者，将目标像素属于其他类别的概率值的平均值作为第二概率。需要说明的是，在多个预定类别包括目标类别和一个其他类别时，应采用相同的方式来得到第一概率和第二概率。

根据本公开的实施例，在多个预定类别包括目标类别和多个其他类别时，可以先确定每个像素属于其他类别的多个概率值的平均值，作为每个像素的平均概率值，然后将所有像素的平均概率值的平均值，作为第二概率。或者，可以先确定所有像素中的每个像素属于其他类别的多个概率值中的最大概率值，将该概率值作为该每个像素的目标概率值。然后将所有像素的目标概率值的平均值，作为第二概率。以此，可以使得第二概率能够表示容易与目标类别混淆的其他类别的概率，基于第一概率与该第二概率的差异调整第一对抗图像时，可以使得调整后的第一对抗图像的识别难度更大。

在得到第一概率和第二概率后，可以执行操作S324，根据第一概率与第二概率之间的差异，调整第一对抗图像。

该实施例可以采用前文描述的方式调整第一对抗图像。在调整第一对抗图像后，可以执行操作S325，确定调整后图像是否达到预定收敛条件。若未达到预定收敛条件，则可以将该调整后图像作为第一对抗图像，并返回执行操作S321。若调整后图像达到了预定收敛条件，则可以执行操作S326，确定完成第一对抗图像的调整，并将通过操作S324得到的调整后图像作为针对第一图像的第一对抗图像。

根据本公开的实施例，在确定调整后图像是否达到预定收敛条件时，例如可以采用前文描述的操作S321～操作S323，确定根据该调整后图像得到的第一概率与第二概率之间的差异，作为第一差异。随后确定根据调整前图像得到的第一概率与第二概率之间的第二差异与该第一差异之间的差值是否小于预定值，若小于，则确定该调整后图像达到了预定收敛条件。其中，预定值可以为10^-3等远小于1的值，本公开对此不做限定。

根据本公开的实施例，在确定调整后图像是否达到了预定收敛条件时，还可以根据该调整后图像的分割结果，确定该调整后图像中属于目标类别的第一像素。同时确定第一图像中属于目标类别的第二像素。随后根据第一像素与第二像素之间的交集，来确定调整后图像是否达到预定收敛条件。

例如，可以根据该分割结果中所有像素属于目标类别的概率值，确定属于目标类别的概率值大于前文描述的预定阈值的像素，作为第一像素(即前文描述的目标像素)。

类似地，该实施例可以预先得到第一图像的分割结果，并根据该第一图像的分割结果，确定第一图像中属于目标类别的概率值大于预定阈值的像素，作为第二像素。或者，该实施例可以在执行操作S321～操作S325的第一个循环中，采用与操作S321类似的操作得到第一图像的分割结果，并根据分割结果得到第二像素。

例如，该实施例可以先确定第一像素与第二像素之间的交并比，在该交并比小于预定交并比的情况下，确定第一对抗图像达到预定收敛条件。其中，预定交并比可以为0.3等远小于1的任意正数，本公开对此不做限定。或者，该实施例可以先确定交集中像素个数与第二像素的个数之间的比值，在该比值小于预定比值的情况下，确定第一对抗图像达到预定收敛条件。其中，预定比值可以为0.5或小于0.5的任意正数，本公开对此不做限定。其中，第一像素和第二像素之间的交集是根据第一像素在调整后图像中的位置及第二像素在第一图像中的位置确定的。若某个第一像素在调整后图像中的位置与某个第二像素在第一图像中的位置相对应，则可以确定该某个第一像素与该某个第二像素构成的像素对为交集中的一个元素。

通过根据第一像素和第二像素之间的交集来确定调整后图像是否达到预定收敛条件，可以使得最终确定的第一对抗图像远离第一图像，提高第一对抗图像的识别难度。

图4是根据本公开实施例的调整初始对抗图像的原理示意图。

根据本公开的实施例，在根据第一概率与第二概率之间的差异，调整第一对抗图像时，可以先根据第一概率与第二概率之间的差异，确定针对第一对抗图像的损失。随后，根据该损失的梯度值调整第一对抗图像。通过根据损失的梯度值调整第一对抗图像的方式，可以提高第一对抗图像的调整效率，提高生成对抗图像的速度。

示例性地，如图4所示，以第一概率和第二概率均为概率平均值，且多个预定类别包括目标类别和背景类别为例，该实施例400在调整初始对抗图像的每个循环中，可以先根据第一对抗图像中所有像素属于目标类别的概率值构成的概率矩阵411，确定第一概率420。具体可以将该概率矩阵411中所有元素的平均值作为第一概率420。类似的，可以根据第一对抗图像中所有像素属于背景类别的概率值构成的概率矩阵412，确定第二概率430。

得到第一概率420和第二概率430后，该实施例可以根据第一概率420与第二概率430之间的差异，确定损失440。例如，可以采用第一概率与第二概率之间的差值来表示第一对抗图像的损失。例如，第一对抗图像的损失J(x′_t，y)可以采用以下公式(1)表示：

J(x′_t，y)＝mean(F(x_i′，y_i＝1))-mean(F(x_i′，y_i＝0))。公式(1)

其中，mean()表示计算矩阵中所有元素的平均值的函数，F(x_i′，y_i＝1)表示第一对抗样本x_i′的分割结果中所有像素属于类别1(即y_i＝1)的多个概率值构成的概率矩阵。F(x_i′，y_i＝0)表示第一对抗样本x_i′的分割结果中所有像素属于类别0(即y_i＝0)的多个概率值构成的概率矩阵。例如，在字符识别的场景中，类别1可以为字符类别，类别0可以为背景类别。

可以理解的是，在多个预定类别包括多个其他类别时，可以采用前文描述的方式中任一方式得到第二概率430。在多个其他类别中仅包括一个背景类别时，该实施例可以将多个预定类别中除背景类别外的每个类别作为目标类别，得到一个概率组，该概率组包括一个第一概率420和一个第二概率430。针对作为目标类别的每个类别，前述公式(1)中y_i＝0的类别可以为每个像素属于其他类别的多个概率值中最大概率值对应的类别。如此，采用公式(1)，可以针对作为目标类别的每个类别，得到一个损失。该实施例可以将得到的多个损失的平均值，作为针对第一对抗图像的损失440。

在得到损失440后，可以先计算该损失440的梯度值450，随后，将第一对抗图像中每个像素的像素值加上该梯度值，可以完成对第一对抗图像的调整。其中，损失J(x′_t，y)的梯度值grad例如可以采用以下公式(2)计算得到：

其中，

表示损失函数J()对第一对抗样本x_t′中的每个像素求梯度。

在实施例中，可以采用符号函数来确定损失的梯度值，以保证梯度值的取值为预定值。如此，可以固定调整第一对抗图像的步长，便于提高调整第一对抗图像的效率。因此，该实施例中，损失J(x′_t，y)的梯度值grad可以采用以下公式(3)计算得到：

其中，sign()为符号函数。若

为小于0的值，则该损失J(x′_t，y)的梯度值为-1。若

为大于0的值，则该损失J(x′_t，y)的梯度值为1。若

则该损失J(x′_t，y)的梯度值为0。

根据本公开的实施例，在根据损失的梯度值调整第一对抗图像时，还可以结合扰动参数α来调整。例如，将损失的梯度值grad与扰动参数α的乘积作为调整步长，将第一对抗图像中每个像素的像素值加上该调整步长，完成对第一对抗图像的调整。例如，设定调整后图像为x″_t，则调整后图像可以采用以下公式(4)计算得到：

x″_t＝x′_t+α*grad。公式(4)

其中，x″_t调整后图像，x_t′为第一对抗样本，grad为损失的梯度值，α为扰动参数。

在一实施例中，在调整第一对抗图像时，还可以将调整后第一对抗图像中各像素的取值限制在预定取值范围内，其中，预定取值范围例如可以为[0，255]，以使得该各像素的取值位于合理范围内。

例如，该实施例可以采用裁剪函数clip()、梯度值grad与扰动参数α来计算调整后图像为x″_t，具体可以参见以下公式(5)：

x″_t＝clip(x′_t+α*grad)。公式(5)

其中，x″_t为调整后图像，x′_t为第一对抗样本，grad为损失的梯度值，α为扰动参数，clip()为裁剪函数。

可以理解的是，上述预定取值范围仅作为示例以利于理解本公开，本公开对此不做限定。

图5是根据本公开实施例的对抗图像的生成方法的原理示意图。

根据本公开的实施例，在得到针对第一图像的第一对抗图像时，还可以根据第一对抗图像与第一图像之间的差异，来确定目标扰动。如此，针对除第一图像外任一图像，可以通过为该任一图像添加该目标扰动，生成针对该任一图像的第二对抗图像。如此，可以提高针对多个图像的多个对抗图像的生成效率。

示例性地，如图5所示，该实施例500在生成对抗图像时，可以从图像集510中任一获取一个图像，作为第一图像x_t 511。在采用前述各实施例得到针对该第一图像x_t 511的第一对抗图像x″_t 521后，该实施例可以将第一对抗图像x″_t 521中各像素的像素值与第一图像x_t 511中对应像素的像素值相减，得到表示第一对抗图像与第一图像之间的差异的差值矩阵。该差值矩阵即可用来表示目标扰动530。

在得到目标扰动530后，针对图像集510中除第一图像x_t 511外的第二图像512，可以为该第二图像512添加目标扰动530，从而得到针对该第二图像512的第二对抗图像522。可以理解的是，第二图像512可以为图像集510中除第一图像x_t 511外的任一图像。

基于本公开提供的对抗图像的生成方法，本公开还提供了一种对抗图像的生成装置，以下将结合图6对该装置进行详细描述。

图6是根据本公开实施例的对抗图像的生成装置的结构框图。

如图6所示，该实施例的对抗图像的生成装置600可以包括扰动添加模块610和图像调整模块620。

扰动添加模块610用于为第一图像添加随机扰动，得到初始对抗图像。在一实施例中，扰动添加模块610可以用于执行前文描述操作S210，在此不再赘述。

图像调整模块620用于以最小化初始对抗图像属于目标类别的第一概率与初始对抗图像不属于目标类别的第二概率之间的差异为目标，调整初始对抗图像，得到针对第一图像的第一对抗图像。在一实施例中，图像调整模块620可以用于执行前文描述操作S220，在此不再赘述。

根据本公开的实施例，上述图像调整模块620用于以初始对抗图像作为第一对抗图像的初始图像，循环调整第一对抗图像，第一对抗图像达到预定收敛条件。例如，该图像调整模块620可以包括分割子模块、第一概率确定子模块、第二概率确定子模块和图像调整子模块。分割子模块用于确定第一对抗图像的分割结果，分割结果包括第一对抗图像中的各像素属于多个预定类别中各类别的概率值；多个预定类别包括目标类别。第一概率确定子模块用于根据各像素属于目标类别的概率值，确定第一概率。第二概率确定子模块用于根据各像素属于多个预定类别中除目标类别外其他类别的概率值，确定第二概率。图像调整子模块用于根据第一概率与第二概率之间的差异，调整第一对抗图像。

根据本公开的实施例，图像调整子模块可以包括损失确定单元和调整单元。损失确定单元用于根据第一概率与第二概率之间的差异，确定针对第一对抗图像的损失。调整单元用于根据损失的梯度值调整第一对抗图像。

根据本公开的实施例，图像调整子模块还可以包括梯度确定单元，用于采用符号函数，确定损失的梯度值。

根据本公开的实施例，调整单元用于根据梯度值和像素值的预定取值范围，调整第一对抗图像中各像素的像素值。

根据本公开的实施例，上述对抗图像的生成装置600还可以包括扰动确定模块，用于响应于第一对抗图像达到预定收敛条件，根据第一对抗图像与第一图像之间的差异，确定目标扰动。其中，扰动添加模块还用于为第二图像添加目标扰动，得到针对第二图像的第二对抗图像。

根据本公开的实施例，图像调整模块620还可以包括第一像素确定子模块、第二像素确定子模块和条件达到确定子模块。第一像素确定子模块用于根据分割结果，确定第一对抗图像中属于目标类别的第一像素。第二像素确定子模块用于确定第一图像中属于目标类别的第二像素。条件达到确定子模块用于根据第一像素与第二像素之间的交集，确定是否达到预定收敛条件。

根据本公开的实施例，上述第一概率确定子模块具体用于确定第一对抗图像中所有像素属于目标类别的概率值的平均值，作为第一概率。上述第二概率确定子模块具体用于确定所有像素属于其他类别的概率值中最大概率值的平均值，作为第二概率。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开实施例的对抗图像的生成方法的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如对抗图像的生成方法。例如，在一些实施例中，对抗图像的生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的对抗图像的生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行对抗图像的生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种对抗图像的生成方法，包括：

为第一图像添加随机扰动，得到初始对抗图像；以及

以最小化所述初始对抗图像属于目标类别的第一概率与所述初始对抗图像不属于所述目标类别的第二概率之间的差异为目标，调整所述初始对抗图像，得到针对所述第一图像的第一对抗图像。

2.根据权利要求1所述的方法，其中，调整所述初始对抗图像包括：以所述初始对抗图像作为所述第一对抗图像的初始图像，循环执行以下操作直至所述第一对抗图像达到预定收敛条件：

确定所述第一对抗图像的分割结果，所述分割结果包括所述第一对抗图像中的各像素属于多个预定类别中各类别的概率值；所述多个预定类别包括所述目标类别；

根据所述各像素属于所述目标类别的概率值，确定所述第一概率；

根据所述各像素属于所述多个预定类别中除所述目标类别外其他类别的概率值，确定所述第二概率；以及

根据所述第一概率与所述第二概率之间的差异，调整所述第一对抗图像。

3.根据权利要求2所述的方法，其中，所述根据所述第一概率与所述第二概率之间的差异，调整所述第一对抗图像包括：

根据所述第一概率与所述第二概率之间的差异，确定针对所述第一对抗图像的损失；以及

根据所述损失的梯度值调整所述第一对抗图像。

4.根据权利要求3所述的方法，其中，所述根据所述第一概率与所述第二概率之间的差异，调整所述第一对抗图像还包括：

采用符号函数，确定所述损失的梯度值。

5.根据权利要求3或4所述的方法，其中，所述根据所述损失的梯度值调整所述第一对抗图像包括：

根据所述梯度值和像素值的预定取值范围，调整所述第一对抗图像中各像素的像素值。

6.根据权利要求2所述的方法，还包括：

响应于所述第一对抗图像达到所述预定收敛条件，根据所述第一对抗图像与所述第一图像之间的差异，确定目标扰动；以及

为第二图像添加所述目标扰动，得到针对所述第二图像的第二对抗图像。

7.根据权利要求2所述的方法，其中，调整所述初始对抗图像还包括：

根据所述分割结果，确定所述第一对抗图像中属于所述目标类别的第一像素；

确定所述第一图像中属于所述目标类别的第二像素；以及

根据所述第一像素与所述第二像素之间的交集，确定是否达到预定收敛条件。

8.根据权利要求2所述的方法，其中：

所述根据所述各像素属于所述目标类别的概率值，确定所述第一概率包括：确定所述第一对抗图像中所有像素属于所述目标类别的概率值的平均值，作为所述第一概率；

所述根据所述各像素属于所述多个预定类别中除所述目标类别外其他类别的概率值，确定所述第二概率包括：确定所述所有像素属于所述其他类别的概率值中最大概率值的平均值，作为所述第二概率。

9.一种对抗图像的生成装置，包括：

扰动添加模块，用于为第一图像添加随机扰动，得到初始对抗图像；以及

图像调整模块，用于以最小化所述初始对抗图像属于目标类别的第一概率与所述初始对抗图像不属于所述目标类别的第二概率之间的差异为目标，调整所述初始对抗图像，得到针对所述第一图像的第一对抗图像。

10.根据权利要求9所述的装置，其中，所述图像调整模块用于以所述初始对抗图像作为所述第一对抗图像的初始图像，循环调整所述第一对抗图像，所述第一对抗图像达到预定收敛条件；其中，所述图像调整模块包括：

分割子模块，用于确定所述第一对抗图像的分割结果，所述分割结果包括所述第一对抗图像中的各像素属于多个预定类别中各类别的概率值；所述多个预定类别包括所述目标类别；

第一概率确定子模块，用于根据所述各像素属于所述目标类别的概率值，确定所述第一概率；

第二概率确定子模块，用于根据所述各像素属于所述多个预定类别中除所述目标类别外其他类别的概率值，确定所述第二概率；以及

图像调整子模块，用于根据所述第一概率与所述第二概率之间的差异，调整所述第一对抗图像。

11.根据权利要求10所述的装置，其中，所述图像调整子模块包括：

损失确定单元，用于根据所述第一概率与所述第二概率之间的差异，确定针对所述第一对抗图像的损失；以及

调整单元，用于根据所述损失的梯度值调整所述第一对抗图像。

12.根据权利要求11所述的装置，其中，所述图像调整子模块还包括：

梯度确定单元，用于采用符号函数，确定所述损失的梯度值。

13.根据权利要求11或12所述的装置，其中，所述调整单元用于：

14.根据权利要求10所述的装置，还包括：

扰动确定模块，用于响应于所述第一对抗图像达到所述预定收敛条件，根据所述第一对抗图像与所述第一图像之间的差异，确定目标扰动；

其中，所述扰动添加模块还用于为第二图像添加所述目标扰动，得到针对所述第二图像的第二对抗图像。

15.根据权利要求10所述的装置，其中，所述图像调整模块还包括：

第一像素确定子模块，用于根据所述分割结果，确定所述第一对抗图像中属于所述目标类别的第一像素；

第二像素确定子模块，用于确定所述第一图像中属于所述目标类别的第二像素；以及

条件达到确定子模块，用于根据所述第一像素与所述第二像素之间的交集，确定是否达到预定收敛条件。

16.根据权利要求10所述的装置，其中：

所述第一概率确定子模块用于：确定所述第一对抗图像中所有像素属于所述目标类别的概率值的平均值，作为所述第一概率；

所述第二概率确定子模块用于：确定所述所有像素属于所述其他类别的概率值中最大概率值的平均值，作为所述第二概率。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现根据权利要求1～8中任一项所述方法的步骤。