CN110210617B

CN110210617B - 一种基于特征增强的对抗样本生成方法及生成装置

Info

Publication number: CN110210617B
Application number: CN201910407131.4A
Authority: CN
Inventors: 裘晓峰; 闵霏霞; 周书亚; 高扬
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2021-06-18
Anticipated expiration: 2039-05-15
Also published as: CN110210617A

Abstract

本发明实施例提供了一种基于特征增强的对抗样本生成方法及生成装置，其中方法包括：获取用于对深度学习网络进行分类训练的原始输入样本，基于原始输入样本中的数据结构信息，确定原始输入样本的可扰动位置，针对原始输入样本的目标攻击类别，生成特征信息，选取预设数量的特征信息，基于所选取的特征信息，以及所确定的原始输入样本的可扰动位置，生成对抗样本。本发明实施例由于不再需要对原始样本中的所有数据内容产生扰动，因此能够避免所构造的对抗样本与原始输入样本差异大的问题。

Description

一种基于特征增强的对抗样本生成方法及生成装置

技术领域

本发明涉及机器学习技术领域，特别是涉及一种基于特征增强的对抗样本生成方法及生成装置。

背景技术

深度学习是机器学习中一种基于对数据进行表征学习的技术，近年来，随着深度学习技术的快速发展，其应用领域愈加广泛，例如，将深度学习技术应用于网络安全检测、图像识别、自动驾驶等领域，但是随之而来深度学习技术本身也暴露出安全性问题。例如，攻击者将攻击数据输入深度学习网络中，使深度学习技术输出错误的预测结果，达到攻击深度学习网络的目的。

为了提高深度学习网络的抗攻击能力，现有技术通常采用构造对抗样本的方法以分析深度学习网络的抗攻击能力，即，对于一个能够被深度学习网络正确分类的原始样本，通过在原始样本中增加干扰信息，从而构造含有干扰信息的对抗样本，然后将对抗样本输入深度学习网络，使深度学习网络输出错误的分类结果，达到模拟攻击的效果。

然而，发明人在实现本发明的过程中发现，现有技术至少存在如下问题：

现有构造对抗样本的方法在构造对抗样本时，通常会对原始样本中的所有数据内容产生扰动，例如，在构造对抗样本图像时，需要对原始图像中的所有像素点增加扰动信息，因此所构造的对抗样本图像与原始图像之间的差异大，不利于欺骗深度学习网络以产生错误的分类结果。

发明内容

本发明实施例的目的在于提供一种基于特征增强的对抗样本生成方法及生成装置，以减少所构造的对抗样本与原始样本之间的差异，从而更有效地利用对抗样本进行模拟攻击。具体技术方案如下：

第一方面，本发明实施例提供了一种基于特征增强的对抗样本生成方法，所述方法包括：

获取用于对深度学习网络进行分类训练的原始输入样本，所述原始输入样本包括：原始图片样本，或者原始超文本传输协议HTTP请求样本；

基于所述原始输入样本中的数据结构信息，确定所述原始输入样本的可扰动位置，所述可扰动位置为在所述原始输入样本中添加扰动信息的位置；

针对所述原始输入样本的目标攻击类别，生成所述原始输入样本的特征信息，其中，所述目标攻击类别为所述原始输入样本的多个预设分类类别中的其中一个；

选取预设数量的特征信息，所述预设数量基于所生成的所述特征信息的重要程度确定；

基于所选取的所述特征信息，以及所确定的所述原始输入样本的可扰动位置，生成所述对抗样本。

可选的，当所述原始输入样本为原始图片样本时，所述基于所述原始输入样本中的数据结构信息，确定所述原始输入样本的可扰动位置的步骤，包括：

根据所述原始图片样本中各像素点所对应的相关值大小，确定所述原始图片样本中待进行增强处理的目标像素点，所述相关值用于表示各像素点对所述深度学习网络预测结果的影响程度；

所述针对所述原始输入样本的目标攻击类别，生成所述原始输入样本的特征信息的步骤，包括：

对各目标像素点进行像素翻转增强处理或者像素迭代增强处理，得到经特征增强后的目标像素点；

所述选取预设数量的特征信息的步骤，包括：

选取所得到的所述经特征增强后的目标像素点，并将所述经特征增强后的目标像素点作为特征信息；

所述基于所选取的所述特征信息，以及所确定的所述原始输入样本的可扰动位置，生成所述对抗样本的步骤，包括：

至少根据所选取的所述经特征增强后的目标像素点，以及各所述经特征增强后的目标像素点在所述原始输入样本中的位置，生成对抗图片样本。

可选的，所述确定所述原始图片样本中的目标像素点的步骤，包括：

获取所述深度学习网络针对所述目标攻击类别的预测概率；

利用分层相关传播LRP算法，计算所述原始图片样本中各像素点对应的相关值；

按照相关值由小到大的顺序，对各所述相关值对应的像素点排序；

将排序在前的预设数量的像素点确定为目标像素点。

可选的，当所述原始输入样本为原始HTTP请求样本时，所述基于所述原始输入样本中的数据结构信息，确定所述原始输入样本的可扰动位置的步骤，包括：

根据针对所述原始HTTP请求样本在待确定位置经添加预设字段后返回的服务器响应，是否与针对所述原始HTTP请求样本返回的服务器响应相同，确定所述原始HTTP请求样本中待添加扰动信息的目标位置；

利用词频-逆文本频率指数TF-IDF算法提取样本HTTP请求中针对目标攻击类别的多个特征词，所述样本HTTP请求包括：正常类别HTTP请求，以及恶意类别HTTP请求。

可选的，所述确定所述原始HTTP请求样本中待添加扰动信息的目标位置的步骤，包括：

向服务器发送所述原始HTTP请求，并接收针对所述原始HTTP请求的第一响应，所述原始HTTP请求中包括多个字段；

向所述服务器发送新的HTTP请求，并接收针对所述新的HTTP请求的第二响应，所述新的HTTP请求通过在所述原始HTTP请求中的待确定位置添加新的预设字段后得到；

判断所述第一响应与所述第二响应是否相同；

如果所述第一响应与所述第二响应相同，则确定添加所述新的预设字段所对应的位置为目标位置。

可选的，所述选取预设数量的特征信息的步骤，包括：

获取各候选特征词的第一词频和第二词频，所述第一词频为所述选特征词在所述正常类别HTTP请求中的出现次数与所述正常类别HTTP请求中总词语数的商；所述第二词频为所述恶意类别HTTP请求中的出现次数与所述恶意类别HTTP请求中总词语数的商；

计算各候选特征词的第一词频与第二词频之间的差值；

对各候选特征词对应的差值按照降序排序；

选取排序在前的预设数量的差值所对应的候选特征词；

将所选取的候选特征词作为扰动信息，共同添加至所述原始HTTP请求样本的所述目标位置，得到对抗HTTP请求样本。

第二方面，本发明实施例提供了一种基于特征增强的对抗样本生成装置，所述装置包括：

获取模块，用于获取用于对深度学习网络进行分类训练的原始输入样本，所述原始输入样本包括：原始图片样本，或者原始超文本传输协议HTTP请求样本；

确定模块，用于基于所述原始输入样本中的数据结构信息，确定所述原始输入样本的可扰动位置，所述可扰动位置为在所述原始输入样本中添加扰动信息的位置；

第一生成模块，用于针对所述原始输入样本的目标攻击类别，生成所述原始输入样本的特征信息，其中，所述目标攻击类别为所述原始输入样本的多个预设分类类别中的其中一个；

选取模块，用于选取预设数量的特征信息，所述预设数量基于所生成的所述特征信息的重要程度确定；

第二生成模块，用于基于所选取的所述特征信息，以及所确定的所述原始输入样本的可扰动位置，生成所述对抗样本。

可选的，当所述原始输入样本为原始图片样本时，所述确定模块具体用于：

所述第一生成模块具体用于：

所述选取模块具体用于：

所述第二生成模块具体用于：

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现本发明实施例第一方面提供的基于特征增强的对抗样本生成方法的方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行本发明实施例第一方面提供的基于特征增强的对抗样本生成方法的方法步骤。

本发明实施例提供的一种基于特征增强的对抗样本生成方法及生成装置，在确定原始输入样本的可扰动位置后，通过生成针对原始输入样本的目标攻击类别的特征信息，并基于各特征信息的重要程度选取预设数量的特征信息，进而基于所选取的所述特征信息，以及所确定的所述原始输入样本的可扰动位置，生成所述对抗样本，由于不再需要对原始样本中的所有数据内容产生扰动，因此能够避免所构造的对抗样本与原始输入样本差异大的问题，当将对抗样本输入深度学习网络时，对抗样本能够针对该对抗样本输出相对于原始输入样本错误的分类结果，即利用与原始输入样本差异更小的对抗样本达到成功欺骗深度学习网络的目的。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于特征增强的对抗样本生成方法的流程示意图；

图2为本发明实施例提供的一种基于特征增强的对抗样本生成方法中步骤S102的流程示意图；

图3为本发明实施例提供的一种基于特征增强的对抗样本生成方法中步骤S102的另一种流程示意图；

图4为本发明实施例提供的一种基于特征增强的对抗样本生成方法中步骤S104的一种流程示意图；

图5为本发明实施例采用像素翻转增强处理时得到的图像增强示意图；

图6为本发明实施例采用像素迭代增强处理时得到的图像增强示意图；

图7为本发明实施例提供的一种基于特征增强的对抗样本生成装置的结构示意图；

图8为本发明实施例提供的一种基于特征增强的对抗样本生成装置中确定模块的结构示意图；

图9为本发明实施例中确定模块的另一种结构示意图；

图10为本发明实施例提供的基于特征增强的对抗样本生成装置中选取模块的结构示意图；

图11为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的对抗样本生成方法，通常采用基于梯度的单步法，或者迭代法，或者基于最优化理论的方法等方法，但是，基于梯度的单步法存在所生成的对抗样本会对原始样本图像的所有像素点都产生扰动的问题；迭代法通常用于构造图像对抗样本，不适用于构造其它类型的对抗样本；而基于最优化理论的方法由于需要进行大量计算，因此存在算法复杂度高的问题。

有鉴于此，如图1所示，本发明实施例提供了一种基于特征增强的对抗样本生成方法，该过程可以包括以下步骤：

S101，获取用于对深度学习网络进行分类训练的原始输入样本。

本发明实施例中，深度学习网络是指通过深度学习技术得到的用于对原始输入样本进行分类的系统，例如，卷积神经网络。通过将原始输入样本输入深度学习网络，即可得到其预测类别。本发明实施例中的原始输入样本可以指用于对深度学习网络进行分类训练样本，包括但不限于：原始图片样本，或者原始HTTP(Hyper Text Transfer Protocol，超文本传输协议)请求样本。

S102，基于原始输入样本中的数据结构信息，确定原始输入样本的可扰动位置。

可以理解的是，原始输入样本中含有数据结构信息，例如，一张图片可以包括若干像素点，这些不同的像素点自身携带的信息，以及它们在图片中的不同位置信息，即可以表示该图片的数据结构信息；再例如，一个HTTP请求中可以包括若干字段，这些不同字段自身携带的信息，以及它们在数据包中的不同位置信息，即可以表示该HTTP请求的数据结构信息。

因此，本发明实施例可以通过分析原始输入样本中的数据结构信息，进而确定原始输入样本的可扰动位置。

作为本发明实施例一种可选的实施方式，当原始输入样本为原始图片样本时，则可以根据原始图片样本中各像素点所对应的相关值大小，确定原始图片样本中待进行增强处理的目标像素点，该目标像素点所对应的位置可以认为是原始图片样本的可扰动位置。其中，相关值用于表示各像素点对深度学习网络预测结果的影响程度。

作为本发明实施例一种具体的实施方式，上述确定原始图片样本中待进行增强处理的目标像素点的过程，如图2所示，可以包括以下步骤：

S1021，获取深度学习网络针对目标攻击类别的预测概率。

本发明实施例的深度学习网络，可以为在MNIST数据集(一种广泛使用的手写体数据集)上进行图片分类的CNN(Convolutional Neural Networks，卷积神经网络)模型。MNIST是一个计算机视觉数据集，它包含70000张手写数字的灰度图片，其中每一张图片包含28*28个像素点，每一张图片都有对应的类别标签，也就是图片对应的数字，数据集被分成两部分：60000张训练数据集和10000张测试数据集，其中60000张的训练集分拆为55000张的训练集和5000张的验证集。本发明实施例的原始图片样本即可以来自上述数据集。

可以理解，深度学习网络可以输出原始图片样本的多个分类结果，即得到多个预测概率，不同的预测概率对应不同的类别。本发明实施例可以选取不同类别的其中一个类别作为待进行欺骗攻击的目标攻击类别，从而得到深度学习网络针对该目标攻击类别的预测概率。

S1022，利用LRP(Layer-wise Relevance Propagation，分层相关传播)算法，计算原始图片样本中各像素点对应的相关值。

LRP算法是一种深度学习的可解释性算法，通过模型本身的拓扑结构，将相关分数归因于输入的重要组成部分，解释了分类器针对特定数据点的预测。LRP算法旨在根据深度学习网络的分类得分，计算每一个输入图片中的每个像素点对某个分类结果的相关值，其中，相关值的大小表示了输入对预测结果的影响程度。

本发明实施例在得到针对目标攻击类别的预测概率后，通过将预测概率输入LRP算法，即可得到原始图片样本中各像素点对应的相关值，LRP算法为现有技术，其计算原理本发明实施例在此不再赘述。

S1023，按照相关值由小到大的顺序，对各相关值对应的像素点排序。

得到原始图片样本中各像素点对应的相关值后，即可按照相关值由小到大的顺序，对各相关值对应的像素点排序。

S1024，将排序在前的预设数量的像素点确定为目标像素点。

然后，即可选取排序在前的预设数量的像素点，并将所选取的像素点确定为目标像素点，也即，确定了原始图片样本的可扰动位置。

可以理解，相关值越小则负相关性越大，也即具有更小相关值的像素点，在对原始图片样本分类为目标攻击类别时的阻碍越大。而相关值越大则正相关性越大，也即具有更大相关值的像素点更有利于对原始图片样本分类为目标攻击类别，因此，通过增强目标像素点的特征信息使其相关值增大，使得在对原始图片样本分类为目标攻击类别时的阻碍减小，从而更有利于被分类为目标攻击类别。

作为本发明实施例另一种可选的实施方式，当原始输入样本为原始HTTP请求样本时，则可以根据针对原始HTTP请求样本在待确定位置经添加预设字段后返回的服务器响应，是否与针对原始HTTP请求样本返回的服务器响应相同，确定原始HTTP请求样本中待添加扰动信息的目标位置。

作为本发明实施例一种具体的实施方式，上述确定原始HTTP请求样本中待添加扰动信息的目标位置的过程，如图3所示，可以包括以下步骤：

S1021’，向服务器发送原始HTTP请求，并接收针对原始HTTP请求的第一响应。

一个HTTP请求主要由四部分组成：请求行，请求头部，空行和请求数据。请求行可以用于描述HTTP请求的类型，要访问的资源和HTTP版本。请求头部可以描述服务器要使用的其他信息，请求头部可以包括多个头部字段，每个头部字段可以包含属性名和属性值。请求头部后的空行的作用是通过一个空行，告诉服务器请求头部到此为止。请求数据也称为主体，可以添加任意的其他数据。

本发明实施例可以向服务器发送原始HTTP请求，以接收服务器针对该原始HTTP请求返回的响应，称为第一响应。

S1022’，向服务器发送新的HTTP请求，并接收针对新的HTTP请求的第二响应。

根据上文中描述的HTTP请求的结构可知，HTTP请求中包括多个可选字段，对这些服务器不检查的可选字段进行扰动能够不影响原始样本的可执行性和攻击性，即，新的HTTP请求可以通过在原始HTTP请求中的待确定位置添加新的预设字段后得到，该预设字段可以为自定义字段，例如，某个单词或者某个短语。

可以理解，向服务器发送新的HTTP请求后，则可以接收服务器针对新的HTTP请求返回的响应，称为第二响应。

S1023’，判断第一响应与第二响应是否相同。

S1024’，如果第一响应与第二响应相同，则确定添加新的预设字段所对应的位置为目标位置。

如果第一响应与第二响应相同，即，服务器针对原始HTTP请求和新的HTTP请求返回了相同的响应，则可以认为，在原始HTTP请求中的待确定位置添加的预设字段对服务器没有影响，即，添加预设字段的位置是服务器不会检查的可扰动位置，从而确定目标位置。如果第一响应与第二响应不同，则返回步骤S1022’。

参见图1，S103，针对原始输入样本的目标攻击类别，生成原始输入样本的特征信息。

目标攻击类别是指待进行欺骗攻击的类别，例如，一张原本识别为数字1的原始图片，深度学习网络可能错误的识别为数字2，或者识别为数字3，等等不同的类别，这些不同的类别则可以指多个预设分类类别。可以理解，目标攻击类别可以为原始输入样本的多个预设分类类别中的其中一个。

因此，本发明实施例可以针对原始输入样本的目标攻击类别，生成原始输入样本的特征信息，从而将经特征增强后的原始输入样本输入深度学习网络后，能够被成功地识别为目标攻击类别，也即，期望被识别的类别。

作为本发明实施例一种可选的实施方式，当原始输入样本为原始图片样本时，可对原始图片样本中的各像素点进行像素翻转增强处理，或者像素迭代增强处理，以得到经特征增强后的目标像素点。

作为本发明实施例一种可选的实施方式，当原始输入样本为原始HTTP请求样本时，可以利用TF-IDF(term frequency–inverse document frequency，词频-逆文本频率指数)算法提取样本HTTP请求中的多个候选特征词。

本发明实施例的原始HTTP请求样本可以采用CSIC(Spanish Research NationalCounci，西班牙研究委员会)2010数据集中的样本数据。CSIC 2010数据集包含上万条自动生成的HTTP协议请求，主要用于测试网络攻击防护系统。该数据集针对的是一个电子商务Web(World Wide Web，全球广域网)应用程序，包含36000多个正常请求和25000多个异常请求。该数据集中的攻击请求包含多种网络攻击，如SQL(Structured Query Language，结构化查询语言)注入、缓冲区溢出、信息收集、文件披露，CRLF(Carriage-Return Line-Feed，回车换行)注入、跨站脚本和参数窜改等。

本发明实施例中，可以采用现有的TF-IDF算法取样本HTTP请求中针对目标攻击类别的多个特征词，其中，样本HTTP请求中可以包括：正常类别HTTP请求，以及恶意类别HTTP请求，即，可以被深度学习网络识别为不同类别的HTTP请求。

TF-IDF算法经常用于提取文本的关键词，如果一个词经常出现在某个文本中，而很少出现在其他文本中，则认为它具有很好的分类能力，适合分类。也即，由TF-IDF算法计算的某个文本的关键字有两个条件，第一，它出现在文本中的次数足够多，第二，它不是一个流行的词，即在其他文本中很少出现。本发明实施例可以通过TF-IDF算法的进行目标攻击类别的特征词提取，例如，如果一个词经常出现在一个类别中，而在其他类别中很少出现，则表示该词对该类别有良好的表示，可以把这个词称为这个类别的特征词，如果需要对该类别进行欺骗攻击，则可以称该类别为目标攻击类别。

S104，选取预设数量的特征信息。

作为本发明实施例一种可选的实施方式，当原始输入样本为原始图片样本时，在确定一张原始样本图片中的各目标像素点后，则也可以确定各目标像素点的数量，进一步地，可以为每个目标像素点生成对应的特征信息。此时，特征信息的数量与目标像素点的数量相同，这些特征信息均被认为具有较高重要程度。

作为本发明实施例一种可选的实施方式，当原始输入样本为原始HTTP请求样本时，如图4所示，选取预设数量的特征信息的步骤可以包括：

S1041，获取各候选特征词的第一词频和第二词频，第一词频为候选特征词在正常类别HTTP请求中的出现次数与正常类别HTTP请求中总词语数的商；第二词频为候选特征词在恶意类别HTTP请求中的出现次数与恶意类别HTTP请求中总词语数的商。上述候选特征词可以指针对目标攻击类别的词语，即，可以利用其对目标攻击类别进行欺骗攻击的词语，可以将HTTP请求的类别划分为正常类别和恶意类别，容易理解，一个候选特征词可以同时出现在上述不同类别的HTTP请求中。

S1042，计算各候选特征词的第一词频与第二词频之间的差值。

S1043，对各候选特征词对应的差值按照降序排序。

S1044，选取排序在前的预设数量的差值所对应的候选特征词。

需要说明的是，上述预设数量，本领域技术人员可以基于所生成的特征信息的重要程度确定，其具体值本发明实施例在此不做限定。

参见图1，S105，基于所选取的特征信息，以及所确定的原始输入样本的可扰动位置，生成对抗样本。

对抗样本基于两方面参数确定，即一定数量的特征信息，以及原始输入样本的可扰动位置，因此可以基于所选取的特征信息，以及所确定的原始输入样本的可扰动位置，生成对抗样本。

作为本发明实施例一种可选的实施方式，当原始输入样本为原始图片样本时，可以根据所选取的经特征增强后的目标像素点，以及各经特征增强后的目标像素点在原始输入样本中的位置，以及原始输入样本中的其他像素点，生成对抗图片样本，其中，上述其他像素点可以是指原始输入样本中未经特征增处理的目标像素点。

本发明实施例中，可以采用不同的特征增强方法对目标像素点进行特征增强，示例性地，当采用像素翻转增强处理时，得到的图像增强示意图如图5所示，呈现了像素翻转对每个源-目标对执行目标攻击产生的90个对抗样本，每个行和列对应于0至9的分类，每一行代表一个输入的原始标签类别，每一列代表一个输出的预测类别，主对角线是原始的干净图片，即原始图片样本。

示例性地，当采用像素迭代增强处理时，得到的图像增强示意图如图6所示，呈现了迭代增强对每个源-目标对执行目标攻击产生的90个对抗样本，每个行和列对应于0至9的分类，每一行代表一个输入的原始标签类别，每一列代表一个输出的预测类别，主对角线是原始的干净图片，即原始图片样本。

作为本发明实施例一种可选的实施方式，当原始输入样本为原始HTTP请求样本时，可以将所选取的候选特征词作为扰动信息，共同添加至原始HTTP请求样本的目标位置，得到对抗HTTP请求样本。

与现有的三类主要对抗样本生成方法(基于梯度的单步法，迭代法，基于最优化理论的方法)相比，本发明实施例的基于梯度的单步法，或者迭代法，或者基于最优化理论的方法有如下优点：(1)相比于基于梯度的单步法对原样本中所有数据点都产生扰动，特征增强法仅对原始样本的部分数据产生扰动；(2)相比于现有的迭代法，特征增强法选取的是更有针对性的特征数据点，对特征的扰动更容易产生对抗样本；(3)相比于基于最优化理论的方法的高算法复杂性，特征增强法的原理较简单，算法复杂度也较低。并且，现有的对抗样本生成都是针对某一种应用场景而提出的，例如，图像分类场景，文本分类场景等，本发明实施例对于各种不同类型的数据类型和场景(如实施例中的图像数据和安全领域的网络流量数据)均适用，因此应用范围更广。

本发明实施例提供的一种基于特征增强的对抗样本生成方法，在确定原始输入样本的可扰动位置后，通过生成针对原始输入样本的目标攻击类别的特征信息，并基于各特征信息的重要程度选取预设数量的特征信息，进而基于所选取的特征信息，以及所确定的原始输入样本的可扰动位置，生成对抗样本，由于不再需要对原始样本中的所有数据内容产生扰动，因此能够避免所构造的对抗样本与原始输入样本差异大的问题，当将对抗样本输入深度学习网络时，对抗样本能够针对该对抗样本输出相对于原始输入样本错误的分类结果，即利用与原始输入样本差异更小的对抗样本达到成功欺骗深度学习网络的目的。

本发明实施例提供的一种基于特征增强的对抗样本生成装置的一种具体实施例，与图1所示流程相对应，参考图7，图7为本发明实施例的一种基于特征增强的对抗样本生成装置的一种结构示意图，包括：

获取模块201，用于获取用于对深度学习网络进行分类训练的原始输入样本，原始输入样本包括：原始图片样本，或者原始超文本传输协议HTTP请求样本。

确定模块202，用于基于原始输入样本中的数据结构信息，确定原始输入样本的可扰动位置，可扰动位置为在原始输入样本中添加扰动信息的位置。

第一生成模块203，用于针对原始输入样本的目标攻击类别，生成原始输入样本的特征信息，其中，目标攻击类别为原始输入样本的多个预设分类类别中的其中一个。

选取模块204，用于选取预设数量的特征信息，预设数量基于所生成的特征信息的重要程度确定。

第二生成模块205，用于基于所选取的特征信息，以及所确定的原始输入样本的可扰动位置，生成对抗样本。

作为本发明实施例一种可选的实施方式，当原始输入样本为原始图片样本时，确定模块具体用于：

根据原始图片样本中各像素点所对应的相关值大小，确定原始图片样本中待进行增强处理的目标像素点，相关值用于表示各像素点对深度学习网络预测结果的影响程度。

第一生成模块具体用于：

对各目标像素点进行像素翻转增强处理或者像素迭代增强处理，得到经特征增强后的目标像素点。

选取模块具体用于：

选取所得到的经特征增强后的目标像素点，并将经特征增强后的目标像素点作为特征信息。

第二生成模块具体用于：

至少根据所选取的经特征增强后的目标像素点，以及各经特征增强后的目标像素点在原始输入样本中的位置，生成对抗图片样本。

作为本发明实施例一种可选的实施方式，如图8所示，确定模块202可以包括：

获取子模块2021，用于获取深度学习网络针对目标攻击类别的预测概率。

第一计算子模块2022，用于利用LRP算法，计算原始图片样本中各像素点对应的相关值。

第一排序子模块2023，用于按照相关值由小到大的顺序，对各相关值对应的像素点排序。

第一确定子模块2024，用于将排序在前的预设数量的像素点确定为目标像素点。

作为本发明实施例一种可选的实施方式，确定模块具体可以用于：

根据针对原始HTTP请求样本在待确定位置经添加预设字段后返回的服务器响应，是否与针对原始HTTP请求样本返回的服务器响应相同，确定原始HTTP请求样本中待添加扰动信息的目标位置。

第一生成模块具体可以用于：

利用词频-逆文本频率指数TF-IDF算法提取样本HTTP请求中针对目标攻击类别的多个特征词，样本HTTP请求包括：正常类别HTTP请求，以及恶意类别HTTP请求。

作为本发明实施例一种可选的实施方式，如图9所示，上述确定模块可以包括：

第一处理子模块2025，用于向服务器发送原始HTTP请求，并接收针对原始HTTP请求的第一响应，原始HTTP请求中包括多个字段。

第二处理子模块2026，向服务器发送新的HTTP请求，并接收针对新的HTTP请求的第二响应，新的HTTP请求通过在原始HTTP请求中的待确定位置添加新的预设字段后得到。

判断子模块2027，用于判断第一响应与第二响应是否相同。

第二确定子模块2028，用于如果第一响应与第二响应相同，则确定添加新的预设字段所对应的位置为目标位置。

作为本发明实施例一种可选的实施方式，如图10所示，上述选取模块204，包括：

获取子模块2041，用于获取各候选特征词的第一词频和第二词频，第一词频为候选特征词在正常类别HTTP请求中的出现次数与正常类别HTTP请求中总词语数的商；第二词频为候选特征词在恶意类别HTTP请求中的出现次数与恶意类别HTTP请求中总词语数的商。

第二计算子模块2042，用于计算各候选特征词的第一词频与第二词频之间的差值。

第二排序子模块2043，用于对各候选特征词对应的差值按照降序排序。

选取子模块2044，用于选取排序在前的预设数量的差值所对应的候选特征词。

本发明实施例提供的一种基于特征增强的对抗样本生成装置，在确定原始输入样本的可扰动位置后，通过生成针对原始输入样本的目标攻击类别的特征信息，并基于各特征信息的重要程度选取预设数量的特征信息，进而基于所选取的特征信息，以及所确定的原始输入样本的可扰动位置，增强特征信息，生成对抗样本，由于不再需要对原始样本中的所有数据内容产生扰动，因此能够避免所构造的对抗样本与原始输入样本差异大的问题，当将对抗样本输入深度学习网络时，对抗样本能够针对该对抗样本输出相对于原始输入样本错误的分类结果，即利用与原始输入样本差异更小的对抗样本达到成功欺骗深度学习网络的目的。

本发明实施例还提供了一种电子设备，如图11所示，包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信，

存储器303，用于存放计算机程序；

处理器301，用于执行存储器303上所存放的程序时，实现如下步骤：

获取用于对深度学习网络进行分类训练的原始输入样本，原始输入样本包括：原始图片样本，或者原始超文本传输协议HTTP请求样本；

基于原始输入样本中的数据结构信息，确定原始输入样本的可扰动位置，可扰动位置为在原始输入样本中添加扰动信息的位置；

针对原始输入样本的目标攻击类别，生成原始输入样本的特征信息，其中，目标攻击类别为原始输入样本的多个预设分类类别中的其中一个；

选取预设数量的特征信息，预设数量基于所生成的特征信息的重要程度确定；

基于所选取的特征信息，以及所确定的原始输入样本的可扰动位置，生成对抗样本。

本发明实施例提供的一种电子设备，在确定原始输入样本的可扰动位置后，通过生成针对原始输入样本的目标攻击类别的特征信息，并基于各特征信息的重要程度选取预设数量的特征信息，进而基于所选取的特征信息，以及所确定的原始输入样本的可扰动位置，生成对抗样本，由于不再需要对原始样本中的所有数据内容产生扰动，因此能够避免所构造的对抗样本与原始输入样本差异大的问题，当将对抗样本输入深度学习网络时，对抗样本能够针对该对抗样本输出相对于原始输入样本错误的分类结果，即利用与原始输入样本差异更小的对抗样本达到成功欺骗深度学习网络的目的。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，用以执行如下步骤：

本发明实施例提供的一种计算机可读存储介质，在确定原始输入样本的可扰动位置后，通过生成针对原始输入样本的目标攻击类别的特征信息，并基于各特征信息的重要程度选取预设数量的特征信息，进而基于所选取的特征信息，以及所确定的原始输入样本的可扰动位置，生成对抗样本，由于不再需要对原始样本中的所有数据内容产生扰动，因此能够避免所构造的对抗样本与原始输入样本差异大的问题，当将对抗样本输入深度学习网络时，对抗样本能够针对该对抗样本输出相对于原始输入样本错误的分类结果，即利用与原始输入样本差异更小的对抗样本达到成功欺骗深度学习网络的目的。

对于装置/电子设备/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，本发明实施例的装置、电子设备及存储介质分别是应用上述基于特征增强的对抗样本生成方法的装置、电子设备及存储介质，则上述基于特征增强的对抗样本生成方法的所有实施例均适用于该装置、电子设备及存储介质，且均能达到相同或相似的有益效果。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于特征增强的对抗样本生成方法，其特征在于，所述方法包括：

基于所选取的所述特征信息，以及所确定的所述原始输入样本的可扰动位置，生成所述对抗样本；

当所述原始输入样本为原始图片样本时，所述基于所述原始输入样本中的数据结构信息，确定所述原始输入样本的可扰动位置的步骤，包括：

所述选取预设数量的特征信息的步骤，包括：

至少根据所选取的所述经特征增强后的目标像素点，以及各所述经特征增强后的目标像素点在所述原始输入样本中的位置，生成对抗图片样本；

当所述原始输入样本为原始HTTP请求样本时，所述基于所述原始输入样本中的数据结构信息，确定所述原始输入样本的可扰动位置的步骤，包括：

利用词频-逆文本频率指数TF-IDF算法提取HTTP请求样本中针对目标攻击类别的多个特征词，所述HTTP请求样本包括：正常类别HTTP请求，以及恶意类别HTTP请求。

2.根据权利要求1所述的方法，其特征在于，所述确定所述原始图片样本中的目标像素点的步骤，包括：

获取所述深度学习网络针对所述目标攻击类别的预测概率；

将排序在前的预设数量的像素点确定为目标像素点。

3.根据权利要求1所述的方法，其特征在于，所述确定所述原始HTTP请求样本中待添加扰动信息的目标位置的步骤，包括：

判断所述第一响应与所述第二响应是否相同；

4.根据权利要求1或3所述的方法，其特征在于，所述选取预设数量的特征信息的步骤，包括：

获取各候选特征词的第一词频和第二词频，所述第一词频为所述候选特征词在所述正常类别HTTP请求中的出现次数与所述正常类别HTTP请求中总词语数的商；所述第二词频为所述候选特征词在所述恶意类别HTTP请求中的出现次数与所述恶意类别HTTP请求中总词语数的商；

计算各候选特征词的第一词频与第二词频之间的差值；

对各候选特征词对应的差值按照降序排序；

选取排序在前的预设数量的差值所对应的候选特征词；

5.一种基于特征增强的对抗样本生成装置，其特征在于，所述装置包括：

第二生成模块，用于基于所选取的所述特征信息，以及所确定的所述原始输入样本的可扰动位置，生成所述对抗样本；

当所述原始输入样本为原始图片样本时，所述确定模块具体用于：

所述第一生成模块具体用于：

所述选取模块具体用于：

所述第二生成模块具体用于：

当所述原始输入样本为原始HTTP请求样本时，所述确定模块具体用于：

所述第一生成模块具体用于：

6.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一项所述的方法步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一项所述的方法步骤。