CN116701910A

CN116701910A - 一种基于双特征选择对抗样本生成方法及系统

Info

Publication number: CN116701910A
Application number: CN202310673940.6A
Authority: CN
Inventors: 徐丽娟; 姚志昂; 赵大伟; 韩梓昱; 刘亚茹
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-09-05
Anticipated expiration: 2043-06-06
Also published as: CN116701910B

Abstract

本发明提出了一种基于双特征选择对抗样本生成方法及系统，通过图神经网络、自编码器分别对工业传感器进行选择，分别得到异常情况较高的的工业传感器组，基于所得到的两组工业传感器所输出的异常数据采用非梯度优化算法进行优化迭代生成对抗性样本；采用不同的网络模型对工业传感器进行异常选择的方式，仅对于所选择的异常情况较高的工业传感器的数据进行后续的处理，在提高后续所生成的对抗性样本质量的情况下也解决了现有的优化方法中采用所有的数据进行优化造成的资源消耗率高的问题，而且采用非梯度的优化方法生成速度快、资源占用率低，而且所生成的对抗性样本质量高于深度学习的对抗性样本的质量。

Description

一种基于双特征选择对抗样本生成方法及系统

技术领域

本发明属于机器学习相关技术领域，尤其涉及一种基于双特征选择对抗样本生成方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在工业控制系统(ICS)中，随着工业自动化的发展，相对封闭和独立的ICS正逐渐向互联网开放。因此，安全问题逐渐暴露出来，ICS开始受到各种方式的攻击。因此，异常检测技术受到了研究人员的广泛关注。随着基于深度学习的异常检测模型在ICS中的大量部署，攻击者的攻击成功率逐渐降低。针对这种情况，攻击者开始使用新的攻击方法来攻击异常检测模型，如对抗性样本攻击。在ICS安全方面，根据攻击者的目的，对抗性样本分为两类。一种是通过修改异常数据使异常检测系统无法检测到正在进行的攻击。另一种是通过修改正常和异常数据使异常检测处于误报状态。

目前，工业控制领域的对抗性样本生成技术主要有两大类。它们是基于优化的对抗性样本生成技术和基于深度学习的对抗性样本生成技术。基于优化的对抗性样本生成方法使用数学优化算法来生成对抗性样本。包括Broyden-Fletcher-Goldfarb-Shanno(BFGS)、有限内存BFGS-B(L-BFGS-B)、线性逼近的约束优化(COBYLA)、坐标下降算法(CDA)和基于雅各布矩阵的显著性图攻击(JSMA)。基于优化的对抗性样本生成方法将所有特征作为输入，通过连续迭代生成对抗性样本，资源消耗率高。因此，为了解决这个问题，基于深度学习的对抗性样本生成方法开始受到关注。基于深度学习的对抗性样本生成技术使用深度学习模型，如生成式对抗网络(GAN)、自动编码器(AE)和长短时记忆(LSTM)来生成对抗性样本。这种方法通过学习与异常数据相似的正常数据来生成对抗性样本，解决了资源消耗率高的问题。但是，它没有像基于优化的生成方法那样追求最大的优化效果，这就导致这类方法生成的对抗性样本质量不佳。

此外，目前的对抗性样本还没有专业的评估指标，通常采用异常检测模型的评估指标来评估。这种传统的评估方法不能直观地显示出对抗性样本的攻击效果。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于双特征选择对抗样本生成方法及系统，采用不同的网络模型对工业传感器进行异常选择的方式，对于所选择的异常情况较高的工业传感器组的数据进行后续的处理，在提高后续所生成的对抗性样本质量的情况下解决了现有的优化方法中采用所有的数据进行优化造成的资源消耗率高的问题，而且采用非梯度的优化方法生成速度快、资源占用率低，而且所生成的对抗性样本质量高于深度学习的对抗性样本的质量。

为实现上述目的，本发明的第一个方面提供一种基于双特征选择对抗样本生成方法，包括：

获取各个工业传感器对应的时间序列数据；

基于图神经网络得到各个工业传感器对应的时间序列数据的异常情况并对工业传感器异常情况进行排序，得到第一工业传感器组；

基于自编码器得到各个工业传感器对应的时间序列数据的异常情况并对工业传感器异常情况进行排序，得到第二工业传感器组；

通过非梯度优化算法对所述第一工业传感器组和所述第二工业传感器组所输出的异常数据进行迭代优化，得到对抗性样本。

本发明的第二个方面提供一种基于双特征选择对抗样本生成系统，包括：

获取模块：获取各个工业传感器对应的时间序列数据；

第一选择模块：基于图神经网络得到各个工业传感器对应的时间序列数据的异常情况并对工业传感器异常情况进行排序，得到第一工业传感器组；

第二选择模块：基于自编码器得到各个工业传感器对应的时间序列数据的异常情况并对工业传感器异常情况进行排序，得到第二工业传感器组；

对抗性样本生成模块：通过非梯度优化算法对所述第一工业传感器组和所述第二工业传感器组所输出的异常数据进行迭代优化，得到对抗性样本。

本发明的第三个方面提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行一种基于双特征选择对抗样本生成方法。

本发明的第四个方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行一种基于双特征选择对抗样本生成方法。

以上一个或多个技术方案存在以下有益效果：

在本发明中，通过图神经网络、自编码器分别对工业传感器进行选择，得到异常情况较高的的工业传感器，基于所得到的两组工业传感器所输出的异常数据采用非梯度优化算法进行优化迭代生成对抗性样本；采用不同的网络模型对工业传感器进行异常选择的方式，仅对于所选择的异常情况较高的工业传感器的数据进行后续的处理，在提高后续所生成的对抗性样本质量的情况下也解决了现有的优化方法中采用所有的数据进行优化造成的资源消耗率高的问题，而且采用非梯度的优化方法生成速度快、资源占用率低，而且所生成的对抗性样本质量高于深度学习的对抗性样本的质量。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中基于双特征选择对抗样本生成的流程示意图；

图2(a)为本发明实施例一中BATADAL数据集上的攻击效果；

图2(b)为本发明实施例一中在SWAT数据集上的攻击效果；

图2(c)为本发明实施例一中在WADI数据集上的攻击效果。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，本实施例公开了一种基于双特征选择对抗样本生成方法，包括：

步骤1：获取各个工业传感器对应的时间序列数据；

步骤2：基于图神经网络得到各个工业传感器对应的时间序列数据的异常情况并对工业传感器异常情况进行排序，得到第一工业传感器组；

步骤3：基于自编码器得到各个工业传感器对应的时间序列数据的异常情况并对工业传感器异常情况进行排序，得到第二工业传感器组；

步骤4：通过非梯度优化算法对所述第一工业传感器组和所述第二工业传感器组所输出的异常数据进行迭代优化，得到对抗性样本。

假设在工业控制网络中，在工业控制系统正常运行状态下由d个设备(包括传感器和执行器)采集到d个时间序列，该时间序列为仅包含正常行为的规模较大的历史数据集，X_initial表示一个仅包含正常行为的初始训练集即仅包括正常数据的历史数据集；

初始化阶段，X_initial作为训练集训练一个检测模型TM；将X_initial输入到检测模型TM中，损失函数使用均方误差损失函数，利用Adam优化器对模型进行优化训练，直到训练次数达到设置的最大值。

在本实施例步骤2中，首先将被检测到的时间序列数据样本放入图神经网络中，图神经网络会将工业传感器的时间序列数据转换为嵌入向量的形式，这是由于不同传感器之间存在着各自的独有特征，将其转换为嵌入向量v_i的形式可以更好的表示其特点，把握不同传感器之间的差异，更好地学习传感器的独有特征。同时，对异常数据进行分析，找出导致异常的传感器和由此产生的高异常传感器。之后，选择其中异常得分最高的Top-k项，然后将这些传感器作为重要的异常特征，用于修改异常特征以产生对抗性样本。

本实施例中图神经网络模型训练的batch_size＝32，epoch＝100，最终选取的Top-k＝10。合适的batch_size和epoch有利于提升模型性能，Top-k值越小则生成速度越快，但同时也会影响生成质量。

图神经网络将传感器数据转换为嵌入向量后，还应考虑传感器之间的关联，这是因为在一个系统中各个组成部分间会相互影响。例如传感器1理论上应与传感器2，传感器3，…，传感器n都存在关联。因此，采用Q_i表示传感器i的候选关系(如传感器1的候选关系包括传感器2，传感器3，...，传感器n)，然后通过训练中得到的节点之间的嵌入向量相似度o_j，i作为该传感器发生异常时对其他传感器造成影响的权重。

v_i∈R^d，i∈{1，2，..，N} (1)

在得到嵌入向量相似度o_j，i后，将得到表示传感器间关系的邻接矩阵A，A_i，j表示从节点i到节点j的有向边的存在。例如，FIT101，LIT101，MV101，P101，P102，AIT201假如一条数据中包含这六个特征项，节点i和节点j的有向边就代表其中任意两个特征项之间的关联度。

为了捕捉传感器之间的关系，引入了一种基于图注意力的特征提取器，以基于学习的图结构将节点的信息与其邻居融合。与现有的图注意力机制不同，本实施例特征提取器结合了传感器嵌入向量v_i，其表征不同类型传感器的不同行为。为此，计算节点i的聚合表示h_i：

h_i ^(t)＝ReLU(α_i，iWx_i ^(t)+∑_jeN(i)a_i，jWx_j ^(t)) (4)

其中，x_i ^(t)∈R^W是节点i的输入特征；W∈R^d×w是可训练的权重矩阵，α是用于注意力机制的学习系数的向量，α_i，j为注意系数，注意系数α_i，j的计算方式为：

其中，k(i，j)为注意力系数的过度形式，a是注意机制的学习系数向量；g_i ^(t)将传感器嵌入v_i和相应的变换特征Wx_i ^(t)连接起来，它对每个节点应用共享线性变换，表示串联；L(i)＝{j|A_ji＞0}是从学习的邻接矩阵A获得的节点i的邻居集，使用LeakyReLU作为非线性激活来计算注意力系数，并使用方程中的softmax函数对注意力系数进行归一化。

根据上面的特征提取器中，获得了所有N个节点的表示，即{h₁ ^(t)，..，h_N ^(t)}，对于每个h_i ^(t)，逐元素相乘它与相应的时间序列嵌入v_i，并使用所有节点上的结果作为具有输出维度N的堆叠全连接层的输入，来预测时间步长t处的传感器值的向量，即s^(t)。

图神经网络的预测输出表示为s^-(t)：

其中，表示相乘。

本实施例利用预测输出的均方误差s^-(t)和观测数据的均方偏差s^(t)作为最小化的损失函数：

根据损失值的大小得到传感器异常分数排名，得到前m项传感器名称。

在步骤3中，使用自编码器作为辅助特征提取模型进行二次特征提取。这可以用来保证提取的特征的科学性和通用性。自编码器是以ICS的正常时间序列数据作为训练集进行训练，以优化均方误差损失。原因是自编码器模型只重现ICS在正常情况下的行为模式，且重建误差较小。所以当传感器读数不正常时，自编码器会有很高的重建误差。

为了追踪高重构误差的来源，这里分别计算了每个传感器的重构误差，这样就可以找到来源。它保证了在传感器数据异常的情况下，自编码器能更有效地确定每个传感器的异常程度。它有利于更好地识别重要的异常特征，并为未来的对抗性样本生成提供基础。

异常数据然后被传入一个经过训练的自编码器模型。该模型将通过确定每个传感器读数与预测值之间的损失误差来确定传感器的偏离程度。传感器读数和基于学习数据分布的预测值之间的损失误差。其损失函数为：

其中x_i ^-为替代特征向量，x_i为原特征向量，δ_i为随机扰动，n为特征总数，传感器的偏离程度越高，该传感器的异常分数就越高。传感器的异常得分越高。将提取具有最高异常得分的前N个传感器作为后续对抗性样本生成过程中的重要特征。

用u_i表示单一特征，用K表示所有特征：

u_j∈K，j∈{1，2，...，n} (11)

本实例中，自编码器模型训练的batch_size＝32，epoch＝500，同时设置提前停止模块，patience＝3，min_delta＝1*10-3。合适的batch_size和epoch有利于提升模型性能，patience值决定提前停止对于过小的损失变化的耐心，而min_delta决定了提前停止的变化最低线，两者可以有效减少模型的过拟合。N决定了后续对抗样本生成的质量与速度。

在本实施例步骤4中，在生成对抗性样本的坐标下降法中，假设攻击者是一个白盒攻击者，他知道检测器的所有参数和阈值选择，并了解检测器的检测过程，除此以外，他还知道每个特征的正常取值范围。

以前的i时间序列数据影响了基于预测的检测模型。基于重建的检测模型对数值的急剧变化更加敏感。因此，基于预测的检测模型和基于重建的检测模型在计算异常分数方面的重点是不同的，计算异常分数的重点不同。换句话说，两者所感知的高异常分数的特征不同。考虑到了生成的对抗性样本的普遍性。因此，除了由图形神经网络过滤的前m个特征之外异常得分高的前n个特征将被优化，优化的特征是(m+n)项，表示生成的对抗性样本为AS。

AS＝Coordinate descent(e_i∪u_j)，i∈{1，2，...，m}，j∈{1，2，...，n} (12)

为了满足条件ε(e)＜θ，使异常检测系统认为ICS处于″安全″状态，使用坐标下降算法来降低异常得分。

坐标下降算法是一种非梯度优化方法，与梯度优化方法相比，它减少了生成对抗性样本的资源消耗和硬件要求。

坐标下降法生成对抗样本中的传感器读数在该传感器的正常读数范围内被修改。

首先，为其进行预取值，即预先设置好可取得的值。例如，在训练集中(训练集中都为正常数据，无异常数据)传感器1的取值最大值和最小值为5和0，并且通过观察训练集数据发现其前后数据波动幅度约为0.01，那么将设置其起止范围为[0,5]，每相隔0.01取一个值，得到一个取值集合{0,0.01,0.02,0.03,...,4.98,4.99,5.00}，随后为每一个传感器都执行此操作，并保存对应的取值集合。同时，由于传感器数据分为连续型数据和离散型数据，连续型数据即为上述举例类型，离散型数据为取值为0,0.5，1,1.5，2等固定值，如传感器2为离散型数据，其正常取值为{0,1,2}，则在上述预取值过程中会令其取值集合为{0,1,2}。

在坐标下降法的每个迭代中，所选的(m+n)项高异常特征被修改，直到找到解决方案(solution_found＝1)或超过budget和patience(迭代的次数和单个传感器修改的次数)。如果超过了budget和patience的设定限制，则表示达到了坐标下降法的最大迭代次数。此时，如果ε(e)<θ的条件仍未得到满足，则不再进行进一步的优化尝试，即solution_found＝0。

坐标下降法的每次迭代过程如下：

S1：将通过GDN和AE得到的异常分数最高的m项传感器名称和n项传感器名称合并为一个传感器名称的集合(按异常分数从高到低排列)，合并过程若存在重复的传感器，则消除其一。

S2：取出异常分数最高的传感器名称，查找该传感器的预设值集合，计算集合中的预设值个数sum，并根据sum个数将要修改的这条数据复制相同数量。

S3：用预设值集合中的值替换复制的数据中该传感器的值。

S4：将sum条修改后的数据送入检测模型中，得到其异常分数，将异常分数最低的一条数据作为新的数据，送入下一轮的修改。

S5：重复步骤S2-S4，直至m+n项都修改完毕，则此轮迭代结束。

采用评估指标对对抗样本效果进行评估，首先使用传统的F1分数、精确度和召回率来评估攻击表现。但F1分数、精确度和召回率并不能直观地显示对抗性样本的攻击效果。因此，研究人员无法有效地估计对抗性样本对模型造成的影响。

在这种情况下，希望通过一个更有效的评估指标来显示对抗性样本的攻击能力和效果。然而，这样的评价指标在目前已知的研究中并不存在。因此，本实施例提出了一个新的对抗性样本的评价指标对抗样本攻击影响率(ASAIR)。

最初，试图发现一个新的评价指标来评价由某个模型产生的实验结果所激发的对抗性样本攻击的有效性。观察到，结果中的四个评价数据TP、TN,FP和FN，与加入了对抗性样本的测试集相比，更直观地描述了模型在正常测试集中表现出来的性能。

从这四个评价指标中，了解了正常测试集和对抗性样本测试集中正确的模型判定数量的变化。根据对抗性样本的作用原理，可以推断出对抗样本攻击影响率(ASAIR)的计算公式。

其中TP_AE为对抗样本攻击后模型正确判断的异常样本数，TN_AE为对抗攻击后模型正确判断的正常样本数，TP_Normal和TN_Normal与前两者含义相同，只是后者表示的是正常状态下的数据。P_total和N_total分别表示异常样本总数和正常样本总数。F为异常样本数与正常样本数之比。

本实施例选择三个真实数据集进行验证。三个真实数据集为新加坡科技与设计大学网络安全研究中心提供的BATADAL数据集、安全水处理(SWaT)数据集以及安全配水(WADI)数据集。本实施例的方案在BATADAL数据集、SWAT数据集、WADI数据集上的攻击效果如图2(a)-图2(b)所示。

本实施例的实验条件如下：

高性能服务器一台，windows1064位系统，python编译环境，TensorFlow,Pytorch框架。

以精确率(Precision)，召回率(Recall)和F1-score以及对抗样本攻击影响率(ASAIR)来评价模型的性能。具体定义如下：

表1：

表2：

实施例二

本实施例提供一种基于双特征选择对抗样本生成系统，包括：

获取模块：获取各个工业传感器对应的时间序列数据；

实施例三

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于双特征选择对抗样本生成方法，其特征在于，包括：

获取各个工业传感器对应的时间序列数据；

2.如权利要求1所述的一种基于双特征选择对抗样本生成方法，其特征在于，基于图神经网络得到各个工业传感器对应的时间序列数据的异常情况并对工业传感器异常情况进行排序，得到第一工业传感器组，具体为：

将工业传感器作为图神经网络的节点，得到节点之间的嵌入向量相似度；

所述嵌入向量的相似度表示在工业传感器与工业传感器之间存在影响关系，则节点与节点之间有向边存在，否则，则节点与节点之间无向边存在。

3.如权利要求2所述的一种基于双特征选择对抗样本生成方法，其特征在于，还包括：利用图注意力的特征提取器对图神经网络的节点进行表示，将所得到的向量表示与节点对应的时间序列数据逐元素相乘，得到工业传感器的预测数据输出，根据预测数据观测数据之间的损失值大小，得到工业传感器所对应的时间序列的异常情况。

4.如权利要求1所述的一种基于双特征选择对抗样本生成方法，其特征在于，基于自编码器得到各个工业传感器对应的时间序列数据的异常情况并对工业传感器异常情况进行排序，得到第二工业传感器组，具体为：

将各个工业传感器对应的时间序列数据输入到训练好的自编码器中，得到工业传感器的预测值；

通过损失函数得到工业传感器的预测值和对应的时间序列数据之间的偏差，得到工业传感器的异常情况。

5.如权利要求1所述的一种基于双特征选择对抗样本生成方法，其特征在于，基于第一工业传感器组和第二工业传感器组所输出的时间序列的连续性或离散型，分别设置预设值后通过非梯度优化算法进行优化迭代。

6.如权利要求5所述的一种基于双特征选择对抗样本生成方法，其特征在于，通过非梯度优化算法对所述第一工业传感器组和所述第二工业传感器组所输出的异常数据进行迭代，具体为：

S1：将第一工业传感器组和第二工业传感器组按照异常情况进行排序；

S2：选取异常情况最高的工业传感器，将异常情况最高的工业传感器所输出的异常数据基于设定的预设值个数进行修改；

S3：将修改后的异常数据进行检测，得到对应的异常得分；

S4：将异常得分最低所对应的修改后的异常数据作为新的异常数据，进行下一轮的修改；

S5：重复S2-S4，直至第一工业传感器组和第二工业传感器所输出的异常数据全部修改完毕。

7.如权利要求1所述的一种基于双特征选择对抗样本生成方法，其特征在于，还包括：将第一工业传感器组和第二工业传感器组中重复的工业传感器删除。

8.一种基于双特征选择对抗样本生成系统，其特征在于，包括：

获取模块：获取各个工业传感器对应的时间序列数据；

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的一种基于双特征选择对抗样本生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的一种基于双特征选择对抗样本生成方法。