CN116543240A

CN116543240A - 一种面向机器学习对抗攻击的防御方法

Info

Publication number: CN116543240A
Application number: CN202310824958.1A
Authority: CN
Inventors: 王琛; 陈健; 高源�; 吴婧尧; 胡弘昌; 彭凯
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2023-08-04
Anticipated expiration: 2043-07-06
Also published as: CN116543240B

Abstract

本发明公开了一种面向机器学习对抗攻击的防御方法，属于自动驾驶信息安全领域，该方法在扩散模型中添加相应的条件信息与注意力机制，并在模型的输出后添加认证器。将对抗样本通过扩散模型得到的去噪样本输入认证器得到损失来指导扩散模型的去噪。训练扩散模型能够确保模型可以去除对抗样本中添加的噪声信息，而不改变样本中自身包含的信息。然后，将各待防御的对抗样本输入到已训练的扩散模型中，对抗样本中存在的轻微扰动会被模型去除，从而有效实现机器学习对抗样本受对抗攻击的防御。本发明无需明确对抗攻击类型即可提供有效保护，可以应用于自动驾驶中的分类任务和回归任务的对抗攻击防御。

Description

一种面向机器学习对抗攻击的防御方法

技术领域

本发明属于自动驾驶信息安全领域，更具体地，涉及一种面向机器学习对抗攻击的防御方法。

背景技术

基于物体识别自动驾驶技术正在逐渐成为未来交通的趋势。它可以协助驾驶员实现自动驾驶，提高交通安全和舒适性。在自动驾驶技术中，传感器和算法的高度集成为自动驾驶系统的核心，通过搜集周围的环境信息，并将其与地图数据进行匹配，从而实现自主导航和行驶。然而，自动驾驶技术也面临着一些安全挑战，如对抗攻击。攻击者可以添加精心构造的噪声到驾驶环境中，改变车辆的自主导航和行驶路线，从而造成严重的交通事故和人员伤亡。例如，将特定噪声添加到交通指示牌上，并伪装为积雪、泥点等环境信息，从而导致自动驾驶系统将禁行标准识别为限速，从而带来安全隐患；或是，将特定噪声添加到雷达信号中，从而导致车距识别错误，带来安全隐患。

现有的防御机制大多是针对特定类型攻击设计，通用性较差；而由上述分析可知，自动驾驶领域的对抗攻击包括对图片分类任务中的对抗攻击及回归任务中的对抗攻击。由此可见，亟需一种通用性较好、可对自动驾驶领域中的各类对抗攻击进行防御的方法。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种面向机器学习对抗攻击的防御方法，由此解决现有的对抗攻击防御机制通用性较差、难以适用于自动驾驶领域的技术问题。

为实现上述目的，按照本发明的第一方面，提供了一种面向机器学习对抗攻击的防御方法，应用于自动驾驶领域，包括：

训练阶段：

将训练样本及其条件信息输入至扩散模型得到去噪样本，以最小化将所述去噪样本输入至认证器得到的输出结果与所述条件信息之间的差异为目标，对所述扩散模型进行训练；

其中，所述扩散模型在注意力机制的监督下对所述训练样本逐步添加噪声再依次去除，且噪声去除在所述条件信息的指导下进行；

所述训练样本及其条件信息为未受到对抗攻击的交通标志图像，其条件信息为所述未受到对抗攻击的交通标志图像的真实分类标签，所述认证器用于预测图像的分类标签；

或，所述训练样本及其条件信息分别为未受到对抗攻击的雷达信号，其条件信息为所述未受到对抗攻击的雷达信号的回归值，所述认证器用于进行回归预测；

应用阶段：

将待防御的对抗样本及其条件信息输入至训练好的扩散模型，得到对应的去噪样本；

其中，所述待防御的对抗样本为受到对抗攻击的交通标志图像，其条件信息为所述交通标志图像未受到对抗攻击时的真实分类标签；

或，所述待防御的对抗样本为受到对抗攻击的雷达信号，其条件信息为所述雷达信号未受到对抗攻击时的回归值。

按照本发明的第二方面，提供了一种面向机器学习对抗攻击的防御系统，应用于自动驾驶领域系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行如第一方面所述的方法。

按照本发明的第三方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行如第一方面所述的方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明提供的方法，在扩散模型中添加相应的条件信息与注意力机制，并在模型的输出后添加认证器。将训练样本通过扩散模型得到的去噪样本输入认证器得到损失来指导扩散模型的去噪。训练扩散模型能够确保模型可以去除训练样本中添加的噪声信息，而不改变样本中自身包含的信息。然后，将每个待防御的对抗样本输入到已训练的扩散模型中，对抗样本中存在的轻微扰动会被模型去除，去噪样本再输入预测模型即可得到正确的预测，从而有效实现机器学习对抗样本受对抗攻击的防御。相比于现有防御技术，本发明提供的基于注意力机制条件扩散模型的对抗样本防御方法可同时应用于自动驾驶中的分类和回归任务的对抗攻击，即针对多种类型的机器学习中的对抗攻击都能够成功防御，能够克服现有防御方案只针对特定类型对抗攻击的局限性。

本发明提供的方法，在扩散模型的训练过程中引入额外的条件信息来监督训练过程使去噪变得更加精确。在样本标签或回归值的监督下，提高了扩散模型的去噪效率，并且，在扩散模型中添加了注意力机制。在扩散模型的每个时刻都对应一个注意力机制。同时，每个注意力机制相互关联。注意力机制可以自适应地学习对抗样本的各部分权重，重点处理样本的重要特征并且抑制次要特征，更加高效地分配计算资源，使扩散模型对对抗样本去噪更有针对性，从而进一步提高了去噪效率。

本发明提供的方法，利用认证器来优化扩散模型中去除扰动信息过程，对扩散模型进行了监督。在每次去噪过程中将认证器的损失反馈到扩散模型部分，充分发挥了认证器的监督作用，保证在去噪过程中不会过多去除扰动信息以外的自身信息，能够有效提高扩散模型去噪的准确性，通过去除对抗样本中的扰动信息但不破坏样本原有信息以进行有效的对抗攻击防御，进而保证有效的对抗攻击防御。

附图说明

图1为本发明实施例提供的面向机器学习对抗攻击的防御方法流程示意图之一。

图2为本发明实施例提供的面向机器学习对抗攻击的防御方法流程示意图之二。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个具体实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

机器学习是指通过分析海量数据的特征模式并建立学习模型，然后对未知数据做出准确预测的过程。机器学习的预测结果与输入的新数据密切相关，输入数据的质量决定了预测结果的准确度。对抗攻击可以通过对模型的输入进行轻微的扰动从而使机器学习模型做出错误的预测结果，自动驾驶技术也面临对抗攻击带来的安全挑战，攻击者可以添加精心构造的噪声到驾驶环境中，改变车辆的自主导航和行驶路线，从而造成严重的交通事故和人员伤亡；例如：攻击者通过在交通标志图像上添加细微的扰动（例如添加噪声、修改像素值等）来使机器学习模型预测错误。

现有的一些防御机制大多是针对特定类型攻击的。由于在对抗攻击存在许多不同类型的攻击策略，所以针对特定类型的对抗攻击设计的防御方案可能不适用于其他类型的攻击。例如，通过对训练图片进行随机缩放来减弱对抗攻击的强度，这种防御方案对图片分类任务中的对抗攻击有一定的作用，但是在回归任务中并不适用。在自动驾驶技术中对系统的安全性和稳定性进行保障，防止系统受到对抗攻击具有极其重要的意义。

基于此，本发明实施例提供一种面向机器学习对抗攻击的防御方法，应用于自动驾驶领域，如图1所示，包括：

（1）训练阶段：

所述训练样本及其条件信息分别为未受到对抗攻击的交通标志图像及其真实分类标签，所述认证器用于预测图像的分类标签；

或，所述训练样本及其条件信息分别为未受到对抗攻击的雷达信号及其回归值，所述认证器用于进行回归预测；

进一步地，在所述训练阶段，以所述扩散模型的损失函数及所述认证器的损失函数之和作为总损失函数。

进一步地，采用随机梯度下降法调整所述扩散模型网络的参数。

具体地，在训练阶段，将训练样本和对应的条件信息（所述条件信息在分类或回归任务中分别为样本标签或回归值）输入扩散模型，所述扩散模型基于所述条件信息对所述训练样本去噪，也即，在扩散模型中对训练样本逐步添加噪声然后再依次去除，该过程在注意力机制的监督下进行。之后，扩散模型的输出再输入到认证器，认证器对其标签或回归值进行预测，预测值和真实值之间的偏差将叠加到扩散模型的损失函数中，最小化损失函数得到扩散模型的参数。

所述噪声去除的方式为：将训练样本和其对应的标签值或回归值输入扩散模型，额外的条件信息指导扩散模型去噪；此外，在扩散模型中添加和去除噪声的每个时刻分别对应注意力机制来进行针对性去噪；最后，扩散模型的输出再输入到验证器来限制噪声去除的程度并提高去噪的精度。也即，在扩散模型的每个时刻都对应一个注意力机制，同时，每个注意力机制相互关联。在扩散模型中，注意力机制的存在能使模型在每个时刻对训练样本进行有侧重的去噪。

进一步地，扩散模型包括扩散过程和生成过程两个阶段。在扩散过程中，通过对初始样本连续添加高斯噪声，实现从初始样本到标准高斯分布的映射。生成过程使用随机微分方程来对应扩散过程的行为，从而学习到对抗噪声的能力。并且，在扩散模型中添加了条件信息和注意力机制进行去噪过程的监督。其中，回归和分类任务的条件信息分别为回归值与样本标签信息，注意力机制存在于每次添加高斯噪声的时刻，用于监督扩散模型的去噪过程。另外，扩散模型需要通过认证器进行去噪监督：训练样本经过扩散模型得到的去噪样本输入认证器，认证器的输出与条件信息之间损失将会返回到扩散模型中，成为损失函数的一部分，最小化损失函数得到最终的扩散模型；也即，样本通过认证器得到的损失将会返回到扩散模型中，用于监督模型去噪过程，经过多次训练得到最终的扩散模型。也即，在扩散模型的输出处连接认证器，并将去噪样本输入所述认证器；同时所述认证器预测所述去噪样本对应的预测值并将其与对应真实值对比，得到认证器损失函数并反馈给所述扩散模型损失函数，以用于调整所述扩散模型网络的参数，在训练过程中，采用认证器监督所述扩散模型去除噪声，使得最终的去噪样本不再包含影响预测的扰动信息。

进一步地，所述扩散模型的损失函数具体为扩散模型自身损失函数和认证器的损失函数叠加得到整体的损失函数。扩散模型部分损失函数包括添加条件信息来指导去噪的损失和扩散模型自身损失；认证器损失函数衡量去噪后样本通过认证器得到的输出和训练样本真实标签值或回归值之间的差距。

进一步地，上述扩散模型的去噪方式为：

将训练样本输入扩散模型，在扩散模型的正向扩散过程中的每个时刻向训练样本添加噪声来去除数据局部结构以平滑对抗扰动。在扩散模型的反向生成过程中的每个时刻去除噪声来生成干净的样本。理想情况下，正向过程添加的噪声不破坏标签语义并且在扩散模型的反向过程中可以消除对抗扰动。具体地，正向过程中遵循小扩散时间步长向对抗示例添加噪声，然后通过求解反向随机微分方程来从扩散的对抗示例中恢复干净图像。扩散时间步长代表了在正向过程中添加的噪声量。噪声需要足够高以消除对抗性扰动，但又不能太大破坏纯化图像的标签语义。

进一步地，如图2所示，上述扩散模型的训练过程中每次迭代训练具体为：

将训练样本和代表分类的条件信息输入扩散模型，扩散模型在分类信息的指导和每个时刻的注意力机制的监督下对训练样本进行针对性的去噪。去除噪声的样本还需要通过认证器来来判断噪声去除的精度。认证器的输出可能有两种结果：去噪样本的类别和输入的分类条件信息一致，代表噪声去除成功且没有去除样本本身包含的信息；去噪样本的类别和输入分类条件信息不一致，代表噪声没有完全去除或者是去除了部分样本本身信息。这样认证器就可以形成一个损失指导并反馈到扩散模型中，对扩散模型的参数进行调整指导。经过多次训练迭代，得到去噪效果最优的扩散模型。本实例针对的是机器学习中的分类任务，本方案同样适用于机器学习中的回归任务。在回归任务中，条件信息和认证器输出为回归值。

在去噪扩散模型中，输入训练样本和每个时刻/>对应的方差表，通过马尔科夫正向过程得到每个时段的样本/>。给定一个训练好的扩散模型/>并定义反向过程去噪过程。令,/>扩散模型通过公式/>计算反向过程的迭代抽样值/>。其中/>，/>。为了表示简洁，定义/>。使用重新参数化技巧和方程可以得到时间步长/>的中间重建/>。也即，初始扩散模型的损失函数/>,其中F代表抽样噪声，即高斯噪声。

假设在本例中添加的条件信息为标签类别，设指导尺度为。条件指导公式表示为/>。其中/>是添加条件信息的扩散模型，/>表示附加分类器，/>是对应的指导输出。因此，本发明实施例提供的添加条件信息的扩散模型的损失函数为/>。

进一步地，当所述训练样本为受到对抗攻击的交通标志图像时（此时认证器用于执行分类任务），所述扩散模型基于U-Net网络构建，所述认证器基于深度神经网络构建。

进一步地，当所述训练样本为受到对抗攻击的雷达信号时（此时认证器用于执行回归任务），所述扩散模型基于回归模型构建，所述认证器基于带回归层的U-Net网络构建。

可以理解的是，车距识别任务是指识别出车辆与前方车辆之间的距离，通常使用传感器（如摄像头、激光雷达）采集的数据进行分析和判断。回归任务则是通过采集的数据来预测车辆与前方车辆之间的具体距离值。需要使用回归算法和相应模型，将输入的雷达信号数据映射到具体的距离值。因此车距识别可以被视为回归任务的其中一种。

扩散模型使用U-Net网络结构，其中某些层具有注意力机制。具体来说，对于任意时间步长t的宽和高为W和H特征图，查询向量序列，键向量序列和值向量序列可定义为/>，相关性公式为，其中/>时对应的/>和/>属于。每张输入的图片都有自己的/>，其中，/>是查询向量序列、/>是键向量序列、/>是值向量序列。同时，/>是输入的图片信息，/>和/>成对出现。通过计算/>和/>之间的相关性得出各个/>的重要程度，即权重系数，再对/>进行加权求和即可得到每个/>对应的注意力得分/>。

此外，认证器结构可以是卷积神经网络或回归模型分别对应分类任务或回归任务。对于本例而言需要识别的对象是交通标志，对应分类任务。认证器的输入为去噪样本，输出为标签值。其中/>示交通标志类别个数，/>表示卷积神经网络将类别/>的图片预测为类别/>的输出。/>表示将类别/>的图片预测为类别/>的概率，损失函数为，其中/>是可预测类别的数目，/>是序号为/>对应的类别，/>为模型输出每一个类别/>的概率。对于回归模型，认证器的损失函数为/>，是回归模型输出的预测值，/>是输入去噪样本对应的真实值。

认证器损失函数与扩散模型损失函数相加构成最终的损失函数：，通过随机梯度下降法最小化损失函数，得到去噪效率最佳的扩散模型参数。

在应用阶段，上述基于注意力机制带有认证器的条件扩散模型可以去除对抗样本中的对抗扰动，从而实现深度学习网络中针对对抗样本的防御。

（2）应用阶段：

将待防御的对抗样本（以下称为测试样本）及其条件信息输入至训练好的扩散模型，以去除所述待防御对抗样本中的扰动信息，得到对应的去噪样本。

进一步地，如图2所示，所述方法还包括：将所述待防御的对抗样本及其条件信息输入至训练好的扩散模型得到的对应的去噪样本，输入至验证器（即图2中的预测模型），若所述验证器的输出与所述待防御的对抗样本的条件信息一致，则成功防御，否则防御失败。

具体地，在应用阶段，将各待防御的对抗样本输入已训练的扩散模型，得到对应的去噪样本。

将测试样本输入到条件扩散模型后，同时针对回归与分类任务分别添加相应条件信息至扩散模型以进行监督去噪；在扩散模型去噪过程中增加注意力机制进行去噪监督以提高去噪效率；去噪样本通过认证器（其中，分类任务为深度神经网络模型/回归任务为回归模型）之后的损失返回到扩散模型中监督对抗样本去噪，以实现对抗样本防御。

也即，可以基于去噪样本输入验证器的输出值与真实值（即所述待防御的对抗样本的条件信息）进行对比来确定该测试数据是否被成功去噪以实现对抗样本防御，具体为：

将待防御的对抗样本和其对应回归值或标签输入扩散模型网络，扩散模型网络经过逐步添加噪声再去除来净化测试样本，再将其输入验证器，如果验证器输出的标签和先前输入的标签相同，则测试样本被成功去噪，成功防御对抗攻击，反之防御失败。如果验证器输出的回归值和先前输入的回归值之间的误差不超过一定的范围，则去噪成功，反之失败。也即，当对抗样本经过扩散模型后得到的去噪样本再进入认证器以后得到的预测结果和对应的条件信息相同，则该对抗样本被成功去噪即防御成功，否则为防御失败。

受到对抗攻击导致被恶意篡改的交通指示牌图像可以看作待防御的对抗样本，将该对抗样本输入到上述扩散模型中，通过去除噪声使自动驾驶系统做出正常的预测，从而实现对抗攻击防御。防御实施成功的表现为：对抗样本通过训练好的扩散模型得到的去噪样本输入验证器时，得到的预测标签与该交通指示牌图像未受到对抗攻击时的真实标签值一致。

可以理解的是，当所述对抗样本为受到对抗攻击的交通标志图像时，所述验证器用于预测对抗样本经训练好的扩散模型进行去噪后输出的去噪样本的分类标签；当所述对抗样本为受到对抗攻击的雷达信号，所述验证器用于用于预测对抗样本经训练好的扩散模型进行去噪后输出的去噪样本的回归值。

综上，本发明提供的方法，构建扩散模型并对其进行训练使其可以将对抗样本中所包含的干扰信息去除；然后待防御的对抗样本输入至训练好的扩散模型，以将待防御的对抗样本净化为普通的样本，从而实现对抗攻击的防御。利用了扩散模型的技术优势，并通过在扩散模型后面添加认证器来优化扩散模型，引入条件信息和注意力机制来提高扩散模型的去噪针对性和去噪效率，进而得到上述防御攻击方案。与现有的防御技术方案相比较，本发明提供的方案可以应用于自动驾驶中的分类和回归任务。

本发明实施例提供一种面向机器学习对抗攻击的防御系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行如上述任一实施例所述的方法。

本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行如上述任一实施例所述的方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向机器学习对抗攻击的防御方法，应用于自动驾驶领域，其特征在于，包括：

训练阶段：

所述训练样本及其条件信息分别为未受到对抗攻击的交通标志图像及其真实分类标签，所述认证器用于预测图像的分类标签；或，所述训练样本及其条件信息分别为未受到对抗攻击的雷达信号及其回归值，所述认证器用于进行回归预测；

应用阶段：

其中，所述待防御的对抗样本为受到对抗攻击的交通标志图像，其条件信息为所述交通标志图像未受到对抗攻击时的真实分类标签；或，所述待防御的对抗样本为受到对抗攻击的雷达信号，其条件信息为所述雷达信号未受到对抗攻击时的回归值；

在所述训练阶段，以所述扩散模型的损失函数及所述认证器的损失函数之和作为总损失函数；

所述扩散模型的损失函数；其中， />为期望，/>为抽样噪声，/>为时间步长，/>为初始待防御的对抗样本，为每个时刻的方差参数，/>为条件信息，/>为扩散模型。

2.如权利要求1所述的方法，其特征在于，当所述训练样本为未受到对抗攻击的交通标志图像时，所述扩散模型基于U-Net网络构建，所述认证器基于深度神经网络构建。

3.如权利要求1所述的方法，其特征在于，当所述训练样本为未受到对抗攻击的雷达信号时，所述扩散模型基于带回归层的U-Net网络构建，所述认证器基于回归模型构建。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：将所述待防御的对抗样本及其条件信息输入至训练好的扩散模型得到的对应的去噪样本，输入至验证器，若所述验证器的输出与所述待防御的对抗样本的条件信息一致，则成功防御，否则防御失败。

5.一种面向机器学习对抗攻击的防御系统，应用于自动驾驶领域系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行如权利要求1-4任一项所述的方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行如权利要求1-4任一项所述的方法。