CN113728336B

CN113728336B - 对卷积神经网络中的后门攻击进行检测的系统和方法

Info

Publication number: CN113728336B
Application number: CN202080030124.8A
Authority: CN
Inventors: S·考罗里; H·霍夫曼
Original assignee: HRL Laboratories LLC
Current assignee: HRL Laboratories LLC
Priority date: 2019-06-26
Filing date: 2020-04-21
Publication date: 2024-04-05
Anticipated expiration: 2040-04-21
Also published as: US11550914B2; WO2020263389A1; EP3991096A1; CN113728336A; US20200410098A1

Abstract

描述了一种对深度卷积神经网络(CNN)中的后门攻击进行检测的系统。所述系统将经预训练的CNN的规范编译为可执行模型，从而产生编译模型。将通用石蕊模式(ULP)集馈送通过编译模型，从而产生模型输出集。对模型输出集进行分类，并且使用模型输出集来确定经预训练的CNN中的后门攻击的存在。所述系统基于后门攻击的存在来执行响应。

Description

对卷积神经网络中的后门攻击进行检测的系统和方法

相关申请的交叉引用

本申请是2019年6月26日在美国提交的名称为“System and Method forDetecting Backdoor/Trojan Attacks in Convolutional Neural Networks”的美国临时申请No.62/867,057的非临时申请，其全部内容通过引用并入本文。

技术领域

本发明涉及一种对卷积神经网络(CNN)中的攻击进行检测的系统，并且更具体地，涉及一种对CNN中的后门攻击进行检测的系统。

背景技术

在后门攻击中，对手的目标是在训练集中引入触发器(例如，张贴物(sticker)或特定附件)，使得特定触发器的存在愚弄经训练的模型。后门攻击具有隐蔽性，因为被攻击的模型在典型的测试示例(即，图像)上表现良好，并且仅在存在由对手设计的触发器时才会表现异常。另外，成功的后门攻击通常集中在正常操作环境中很少见的触发器上，因此它们不会警告用户可疑行为。

针对后门攻击检测的文献中的现有工作通常依赖于对中毒训练数据集的统计分析(参见并入的参考文献列表，参考文献7、10和11)或针对该数据集的深度神经网络(DNN)的神经激活(参见参考文献1)。Turner等人(参见参考文献11)已证实明显错误标记的样本(例如，参考文献2或7中使用的攻击)可以很容易地被异常检测机制检测到，并且需要更复杂的后门攻击来避免这种异常检测机制。Steinhardt等人(参见参考文献11)提供了当异常移除防御到位时后门攻击有效性的理论界限(即，损失的上限)。Chen等人(参见参考文献1)遵循的基本原理是，干净的目标样本的神经激活依赖于网络从目标类中学习到的特征。然而，后门触发样本(即，来自源类)的这些激活将依赖于网络从源类中学习到的特征加上触发器特征。然后，作者利用检测机制的这种差异并对网络的神经激活执行聚类分析以检测被感染的样本。

上述防御依赖于两个关键假设：1)干净的数据集(未被感染)中的异常对模型没有很强的影响，以及2)更重要的是，用户可以访问被感染的训练数据集。这些假设可能适用于特定场景，例如，当用户基于由第三方提供的数据集训练她/他自己的模型时。然而，在用户将模型训练外包给不受信任的第三方(例如，机器学习即服务(MLaaS)服务提供商)的情况下，或者当用户从不受信任的源下载经预训练的模型时，对被感染的数据集进行访问的假设是无效的。最近，有若干研究考虑了以下这种非常情况：其中用户只能访问模型和干净的数据(参见参考文献5和12)。

另一有趣的方法是神经净化(参见参考文献12)，其中作者建议通过对愚弄经预训练的模型的最小触发进行优化来攻击干净的图像。这里的基本原理是，后门触发器是一致扰动，其会对于源类S中的任何输入图像产生目标类T的分类结果。因此，作者寻求使源类中的图像被分类为目标类的最小扰动。那么，最佳扰动可能是潜在的后门触发器。这种有前途的方法在计算上要求很高，因为被攻击的源类可能不是先验已知的，并且应该针对潜在的所有源类和目标类对来计算这种最小扰动。另外，需要对后门触发器类型进行强先验，以能够在现有方法中将潜在的良性最小扰动与实际后门触发器区分开来。

因此，仍然需要后门攻击检测，该后门攻击检测不需要攻击者使用的目标类或触发类型的先验知识，也不需要访问中毒的训练数据集。

发明内容

本发明涉及一种对卷积神经网络(CNN)中的攻击进行检测的系统，并且更具体地，涉及一种对CNN中的后门攻击进行检测的系统。所述系统包括一个或更多个处理器以及非暂时性计算机可读介质，所述非暂时性计算机可读介质上编码有可执行指令，使得当执行所述可执行指令时，所述一个或更多个处理器执行多个操作。所述系统将经预训练的CNN的规范(specification)编译为可执行模型，从而产生编译模型。模式集被优化并被馈送通过所述编译模型，从而产生模型输出集。所述模型输出集被分类并用于确定所述经预训练的CNN中的后门攻击的存在。基于所述后门攻击的所述存在来执行响应。

在另一方面，将关于所述后门攻击的所述存在的警报发送至显示器。

在另一方面，所述模式集是根据以下项优化的：

其中，argmin表示最小化运算，是损失函数，/>表示所述模式集，表示所述模型输出集，g(·)是应用于所述模型输出集的池化算子，从而产生池化向量/>M是ULP的总数，m是第m个ULP的索引，N是训练网络f_n的总数，n是第n个网络的索引，h(·)是接收所述池化向量作为输入的分类器，R(·)是所述模式集的正则化器，并且λ是正则化系数。

在另一方面，所述模式集包括输入图像。

在另一方面，所述规范包括所述经预训练的CNN的多个权重和架构的描述。

在另一方面，所述架构的所述描述是所述架构的文本描述，并且所述多个权重包括包含数字表的二进制文件。

在另一方面，所述系统通过将测试模式集馈送通过所述编译模型来测试新的CNN；并且确定所述新的CNN是否包含后门攻击。

本发明还包括一种对深度卷积神经网络中的后门攻击进行检测的通用石蕊模式(ULP)集。所述ULP集通过包括以下项的过程生成：将随机图像集和分类器实例化；将所述随机图像集馈送至被标记为中毒的或干净的训练网络集，从而产生多个网络输出；对所述多个网络输出进行池化；将所述多个网络输出馈送至所述分类器，从而产生分类决策；以及在多次迭代内，基于所述分类决策来更新所述分类器和所述随机图像集，直至达到收敛。

最后，本发明还包括计算机程序产品和计算机实现的方法。所述计算机程序产品包括被存储在非暂时性计算机可读介质上的计算机可读指令，所述计算机可读指令可以由具有一个或更多个处理器的计算机执行，使得在执行所述指令时，所述一个或更多个处理器执行本文列出的操作。另选地，计算机实现的方法包括使计算机执行这些指令并执行所得操作的动作。

附图说明

根据本发明的各个方面的以下详细描述，结合参考以下附图，本发明的目的、特征和优点将显而易见，在附图中：

图1是描绘了根据本公开的一些实施方式的对卷积神经网络(CNN)中的后门攻击进行检测的系统的部件的框图；

图2是根据本公开的一些实施方式的计算机程序产品的例示图；

图3是根据本公开的一些实施方式的接收CNN的经预训练的权重和架构并识别该CNN是否具有后门攻击的机器的例示图；

图4是根据本公开的一些实施方式的通过各个网络馈送、然后池化并分类为中毒的或干净的通用石蕊模式(ULP)的例示图；

图5是例示了根据本公开的一些实施方式的过程的流程图；

图6是根据本公开的一些实施方式的生成触发器以及针对干净的数据和中毒的数据的中毒模型的性能的例示图；

图7A是根据本公开的一些实施方式的采用CNN的文本规范的形式的用户输入的示例；

图7B是根据本公开的一些实施方式的采用架构描述的形式的用户输入的示例；

图7C是根据本公开的一些实施方式的采用CNN经训练权重表的形式的用户输入的示例；

图8是例示了根据本公开的一些实施方式的针对各种数据集上的干净的数据和中毒的数据的中毒模型的平均准确度的表；

图9A是根据本公开的一些实施方式的在第一数据集上检测具有后门攻击的模型的接收器操作特性(ROC)曲线的例示图；

图9B是根据本公开的一些实施方式的在第二数据集上检测具有后门攻击的模型的ROC曲线的例示图；

图9C是根据本公开的一些实施方式的在第三数据集上检测具有后门攻击的模型的ROC曲线的例示图；以及

图10是例示了根据本公开的一些实施方式的过程流程的流程图。

具体实施方式

本发明涉及一种对卷积神经网络(CNN)中的攻击进行检测的系统，并且更具体地，涉及一种对CNN中的后门攻击进行检测的系统。呈现以下描述以使本领域普通技术人员能够制造和使用本发明并将其并入特定应用的上下文中。对于本领域技术人员而言，各种修改以及在不同应用中的多种用途将显而易见，并且本文定义的一般原理可以被应用于广泛的方面。因此，本发明并非旨在限于所呈现的方面，而是与符合本文所公开的原理和新颖特征的最广范围相一致。

在下面的详细描述中，阐述了许多具体细节以便提供对本发明的更透彻理解。然而，对本领域技术人员而言将显而易见的是，本发明可以在不必限于这些具体细节的情况下来实践。在其它情况下，公知结构和设备以框图形式示出，而非详细示出，以避免模糊本发明。

请读者关注与本说明书同时提交并且与本说明书一起开放以供公众查阅的所有文件和文档，并且所有这些文件和文档的内容通过引用并入本文。除非另有明确说明，否则本说明书(包括任何所附权利要求、摘要以及附图)中公开的所有特征可以由用于相同、等同或相似目的的另选特征来代替。因此，除非另有明确说明，否则所公开的各个特征仅是一系列的等同或相似特征中的一个示例。

此外，权利要求中没有明确陈述用于执行指定功能的“装置”或用于执行特定功能的“步骤”的任何要素不应被解释为如35 U.S.C.第112节第6款中规定的“装置”或“步骤”条款。特别地，在本文的权利要求中使用“……的步骤”或“……的动作”并非旨在触发35U.S.C.第112节第6款的条款。

在详细描述本发明之前，首先提供参考文献列表。接下来，提供本发明各个主要方面的描述。最后，提供本发明各个实施方式的具体细节，以使得能够理解具体方面。

(1)并入的参考文献列表

贯穿本申请引用且并入以下参考文献。为清楚和方便起见，本文中为读者列出这些参考文献作为集中式资源。以下参考文献通过引用并入于此，如同在本文中充分阐述一样。这些参考文献通过参照如下对应文献参考编号而在本申请中加以引用：

1.Bryant Chen,Wilka Carvalho,Nathalie Baracaldo,Heiko Ludwig,BenjaminEdwards,Taesung Lee,Ian Molloy,and Biplav Srivastava.Detecting backdoorattacks on deep neural networks by activation clustering.arXiv preprintarXiv:1811.03728,2018.

2.Tianyu Gu,Brendan Dolan-Gavitt,and Siddharth Garg.Badnets:Identifying vulnerabilities in the machine learning model supply chain.arXivpreprint arXiv:1708.06733,2017.

3.Alex Krizhevsky and Geoffrey Hinton.Learning multiple layers offeatures from tiny images.Technical report,Citeseer,2009.

4.Yann LeCun,L′eon Bottou,Yoshua Bengio,and Patrick Haffner.Gradient-based learning applied to document recognition.Proceedings of the IEEE,86(11):2278–2324,1998.

5.Kang Liu,Brendan Dolan-Gavitt,and Siddharth Garg.Fine-pruning:Defending against backdooring attacks on deep neural networks.In Research inAttacks,Intrusions,and Defenses,pages 273–294,2018.

6.Yingqi Liu,Shiqing Ma,Yousra Aafer,Wen-Chuan Lee,Juan Zhai,WeihangWang,and Xiangyu Zhang.Trojaning attack on neural networks,2017.

7.Yuntao Liu,Yang Xie,and Ankur Srivastava.Neural trojans.In 2017IEEEInternational Conference on Computer Design(ICCD),pages 45–48.IEEE,2017.

8.Nitish Srivastava,Geoffrey Hinton,Alex Krizhevsky,Ilya Sutskever,and Ruslan Salakhutdinov.Dropout:a simple way to prevent neural networks fromoverfitting.The Journal of Machine Learning Research,15(1):1929–1958,2014.

9.J.Stallkamp,M.Schlipsing,J.Salmen,and C.Igel.Man vs.computer:Benchmarking machine learning algorithms for traffic sign recognition.NeuralNetworks,32:323–332,2012.

10.Jacob Steinhardt,Pang Wei W Koh,and Percy S Liang.Certifieddefenses for data poisoning attacks.In Advances in neural informationprocessing systems,pages 3517–3529,2017.

11.Alexander Turner,Dimitris Tsipras,and Aleksander Madry.Clean-labelbackdoor attacks,2018.

12.Bolun Wang,Yuanshun Yao,Shawn Shan,Huiying Li,Bimal Viswanath,Haitao Zheng,and Ben Y Zhao.Neural cleanse:Identifying and mitigatingbackdoor attacks in neural networks.In Proceedings of 40th IEEE Symposium onSecurity and Privacy.IEEE,2019.

(2)主要方面

本发明的各种实施方式包括三个“主要”方面。第一个主要方面是一种对卷积神经网络(CNN)中的后门攻击进行检测的系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以并入提供不同功能的各种各样的设备中。第二个主要方面是使用数据处理系统(计算机)操作的通常采用软件形式的方法。第三个主要方面是计算机程序产品。计算机程序产品通常表示存储在诸如光学存储设备(例如，光盘(CD)或数字通用盘(DVD))或磁存储设备(诸如软盘或磁带)的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其它非限制性示例包括：硬盘、只读存储器(ROM)以及闪存型存储器。这些方面将在下面进行更详细描述。

图1中提供了描绘本发明的系统(即，计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面，本文讨论的某些处理和步骤被实现为驻留在计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如，软件程序)。在执行时，所述指令使计算机系统100进行特定动作并展现特定行为，如本文所描述的。

计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外，一个或更多个数据处理单元(诸如处理器104(或多个处理器))与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面，处理器104是微处理器。另选地，处理器104可以是不同类型的处理器，诸如并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA)。

计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如，随机存取存储器(“RAM”)、静态RAM、动态RAM等)，其中，易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如，只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪速存储器等)，其中，非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地，计算机系统100可以执行从诸如“云”计算中的在线数据存储单元取回的指令。在一方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口，诸如接口110。所述一个或更多个接口被配置成使得计算机系统100能够与其它电子设备和计算机系统连接。由所述一个或更多个接口实现的通信接口可以包括有线(例如，串行电缆、调制解调器、网络适配器等)和/或无线(例如，无线调制解调器、无线网络适配器等)通信技术。

在一个方面，计算机系统100可以包括与地址/数据总线102联接的输入设备112，其中，输入设备112被配置成将信息和命令选择传送至处理器104。根据一个方面，输入设备112是字母数字输入设备(诸如键盘)，其可以包括字母数字键和/或功能键。另选地，输入设备112可以是除字母数字输入设备之外的其它输入设备。在一方面，计算机系统100可以包括与地址/数据总线102联接的光标控制设备114，其中，光标控制设备114被配置成将用户输入信息和/或命令选择传送至处理器104。在一方面，光标控制设备114是使用诸如鼠标器、轨迹球、轨迹板、光学跟踪设备或触摸屏的设备来实现的。尽管前述如此，但在一方面，诸如响应于使用与输入设备112相关联的特殊键和键序列命令，光标控制设备114经由来自输入设备112的输入而被引导和/或启用。在另选方面，光标控制设备114被配置成通过话音命令管理或引导。

在一方面，计算机系统100还可以包括一个或更多个可选计算机可用数据存储设备，诸如与地址/数据总线102联接的存储设备116。存储设备116被配置成存储信息和/或计算机可执行指令。在一个方面，存储设备116是诸如磁盘驱动器或光盘驱动器(例如，硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”))的存储设备。依据一个方面，显示设备118与地址/数据总线102联接，其中，显示设备118被配置成显示视频和/或图形。在一方面，显示设备118可以包括：阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器，或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其它显示设备。

本文所呈现的计算机系统100是根据一方面的示例计算环境。然而，计算机系统100的非限制示例并不严格限于作为计算机系统。例如，一个方面提供了计算机系统100表示可以根据本文所述各个方面使用的一类数据处理分析。此外，还可以实现其它计算系统。实际上，本技术的精神和范围不限于任何单一数据处理环境。因此，在一方面，使用通过计算机执行的计算机可执行指令(诸如程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现中，这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件和/或数据结构。另外，一个方面提供了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面，诸如，在该计算环境中，任务由通过通信网络链接的远程处理设备执行，或者诸如，在该计算环境中，各种程序模块位于包括存储器-存储设备的本地和远程计算机存储介质中。

图2中描绘了具体实施本发明的计算机程序产品(即，存储设备)的例示图。计算机程序产品被描绘为软盘200或诸如CD或DVD的光盘202。然而，如先前提到的，该计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作，并且可以表示整个程序的片段或单个分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子设备(即，编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上，诸如存储在计算机的存储器中或软盘、CD-ROM以及闪存驱动器上。无论如何，这些指令被编码在非暂时性计算机可读介质上。

(3)各种实施方式的具体细节

描述了一种对深度卷积神经网络(CNN)的对抗性后门攻击进行检测的方法和系统。在后门攻击中，对手的目标是在训练集中引入触发器(例如，张贴物或特定附件)，使得特定触发器的存在愚弄经训练的模型。后门攻击具有隐蔽性，因为被攻击的模型在典型的测试示例(即，图像)上表现良好，并且仅在存在由对手设计的触发器时才会表现异常。另外，成功的后门攻击通常集中在正常操作环境中很少见的触发器上，因此它们不会警告用户可疑行为。一种可能会产生致命后果的后门攻击的启发性示例是在自主驾驶中，其中针对交通标志检测训练的CNN可能会感染后门/特洛伊木马，使得每当特定张贴物被放置在“停车标志”上时，其会被误分类为“限速标志”。在本发明中，学习了“通用”和“可转移”模式集，所述模式集用作识别包含后门/特洛伊木马攻击的网络的石蕊测试，因此所述模式集被称为通用石蕊模式(ULP)。术语“通用”指的是如下事实：所提出的模式为中毒的网络提供了石蕊测试，而与用于使网络中毒的特定触发器无关。术语“可转移”是指如下事实：所提出的模式可以用于检测相似但不同的神经网络架构上的中毒攻击。为了检测网络是否中毒，将ULP馈送通过网络，并且将对应输出(即，分对数(Logits))线性分类，以揭示后门攻击。

根据本公开发明的实施方式的系统和方法能够以时间高效的方式检测对神经网络的后门攻击。图3描绘了根据本公开的实施方式的系统，该系统是接收CNN的经预训练的权重和架构(要素300)并使用特洛伊木马检测机制(要素302)来识别CNN是否具有后门漏洞(即，中毒)并向用户显示“中毒的”或“干净的”输出(要素304)的机器/设备。

所设计的ULP能够以时间高效的方式检测经预训练的CNN(要素300)中的后门攻击或漏洞(要素302)。本发明能够大规模识别不受信任的第三方(即，提供被感染的模型的各方)。至于关于攻击的知识，假设不存在攻击者使用的目标类或触发器类型的先验知识。另外，假设不访问中毒的训练数据集。本文描述的发明提供了一种石蕊测试，其使人们能够揭示CNN中后门的存在。如图4所示，ULP(要素400)是输入数据集，其被馈送至经预训练的神经网络(CNN(要素300))。针对经优化的ULP集，神经网络的输出(要素402)包含关于网络是否中毒的信息。

ULP被设计为经优化的输入图像，为此，网络的输出成为网络是否干净或包含后门攻击的良好指标。例如，ULP是经优化的输入数据集(例如，图像)，其使人们能够在交通标志检测任务中检测中毒的网络。用户的目标是检查卷积神经网络(CNN)的安全性；为此，用户将关注的CNN的规范(specification)上传(upload)到系统中(例如，Python模型和对应的训练权重)。例如，规范可以从互联网下载。图4是如下例示图，其示出了针对各个CNN f_n(例如，要素300)，将M个ULP(要素400)馈送通过各个CNN(例如，要素300)，然后使分对数(logit)输出(要素402)在池化层(要素404)进行池化并由分类器(要素406)分类为中毒的或干净的。换句话说，本文描述的系统将经优化的ULP(要素400)馈送至上传的CNN(要素300)并针对关注的模型运行M个前馈运算(其中M是ULP的数量)。由二元分类器(要素406)对CNN(要素402)中针对M个输入ULP(要素400)的输出进行分析。最后，系统基于后门攻击的存在来执行特定响应。特定响应的非限制性示例包括向显示器(要素304)发送警报、切断通信信道和/或在涉及自主系统的情况下导致系统停止操作。

(3.1)威胁模型

关注的威胁模型类似于参考文献2、6和12，其中将目标后门插入到深度神经网络(DNN)模型中，尤其是卷积神经网络(CNN)中。简言之，针对干净训练图像的给定源类，攻击者选择一部分数据，并通过以下方式使这些数据中毒：向图像添加小触发器(补丁)并将目标标记指派给这些中毒图像。然后，网络就会学习到每当触发器出现在源图像中就将目标标记指派给该图像。换句话说，网络学习将源类特征和触发器特征的存在一起与目标类相关联。

考虑对手是为被感染的DNN提供后门的第三方的情况。获得的模型在用户可用的干净的测试数据集上表现良好，但在呈现包含特定且预定义触发器的输入时表现出有针对性的错误分类。简言之，对手有意训练模型，以1)在呈现干净数据时表现正常，并且2)在呈现触发器扰动时表现出有针对性的错误分类。

(3.2)防御目标

本发明旨在检测经预训练的DNN(并且更具体地是CNN)中的后门攻击，目的是大规模识别不受信任的第三方(即，提供被感染的模型的各方)。假设没有攻击者使用的目标类或触发器类型的先验知识。另外，假设不访问中毒的训练数据集。

(3.3)构思

令表示图像域，其中，/>表示个体图像。令/>表示标记空间，其中，/>表示针对第i个图像x_i的对应K维标记/属性。此外，令/>表示深度参数模型(例如，将图像映射到其标记的CNN)。考虑具有经训练模型集/>的问题，其中，一些模型感染了后门攻击。然后目标是以有监督的二元分类设置的方式来检测被感染的模型，其中，存在具有后门攻击和不具有后门攻击的模型训练集，并且任务是学习分类器以区分具有后门攻击的模型并证明这种分类器的泛化性。

这里存在使该分类任务成为具有挑战性的问题的三个要点：1)与常见的计算机视觉应用形成鲜明对比的是，分类不是针对图像，而是针对经训练的模型(即，CNN)；2)输入模型没有统一的表示(即，它们可以有不同架构，包括不同数量的神经元、不同的深度和不同的激活函数)；以及3)后门攻击可能彼此非常不同，因为目标类可能不同，或者触发器扰动在训练和测试期间可能会有显著变化。鉴于这些挑战，问题变成了如何在适当的向量空间中表示经训练的CNN，以便可以将中毒模型与干净模型区分开来？通用石蕊模式(ULP)是这个问题的潜在答案。

在给定模型及其二元标记(即，中毒的或干净的)对的情况下，提出了通用模式/>使得分析/>将最佳地揭示后门攻击。为简单起见，f_n(z_m)用于表示分类器f_n的输出分对数(logits)。因此，集合/>为后门攻击的存在提供了石蕊测试。优化(即，找到最小化的z_m)以下项：

其中，g(·)是应用于的池化算子(例如，级联(concatenation))，M是所需的ULP的总数(例如，10个ULP)，m是第m个ULP的索引，N是训练网络f_n的总数，n是第n个网络的索引，h(·)是接收池化向量作为输入并提供f_n包含后门的概率的分类器，R(·)是用于ULP的正则化器，并且λ是正则化系数(例如，总变异(TV)正则化器)。优化式(1)的结果是ULP集及其对应分类器h(·)。/>是衡量作为预测类(即，中毒的或干净的)的与真实值c_n的不同程度的损失函数。例如，交叉熵损失函数用于实验研究。在实验研究中，令g(·)作为级联算子，其将f_n(z_m)级联成KM维向量，而h(·)被设定为softmax分类器。尝试的其它池化策略包括ULP上的最大池化：/>或对ULP求平均：/>以得到将由h(·)分类的K维向量。通过实验研究发现，当ULP的数量不大时，最好的池化是简单的级联。然而，可以推测，对于大量ULP而言，与最大/均值池化策略相比，级联可能变得不利。这些策略提供的结果与级联的结果相当或逊色。针对正则化器，使用了总变异(TV)，即，/>其中，/>表示梯度算子。/>是ULP的空间梯度，而/>是梯度的L1-范数(绝对值之和)，其衡量图像的高频内容(即，衡量图像的平滑程度)。

馈送多个神经网络(一些神经网络包含后门，一些神经网络不包含后门)的输出(通过式(1))是ULP和分类器。为了生成所需数量(M)的ULP，该过程实例化M个随机图像z_m(其中m＝1,…,M)以及随机分类器h。给出了训练网络/模型f_n(其中n＝1,...,N)。该过程还包括将随机图像z_m馈送至网络/模型f_n，并获得它们的输出。然后，该过程包括将网络f_n(z_m)(其中m＝1,…,M)的输出池化，并将经池化的向量馈送至分类器。这导致网络f_n的分类决策。鉴于f_n的真实标记(中毒的或干净的)是已知的，该过程然后反向传播预测损失，以更新分类器h和随机图像z_m。通过多次迭代完成该过程将导致随机图像z_m收敛到用于检测干净的/中毒的网络的最佳图像。这些最佳图像被称为ULP。

在一个实施方式中，ULP被下载至移动设备(例如，移动电话)并经由移动设备的显示屏显示在移动设备上。如果用户将ULP图像呈现给连接至神经网络的摄像头，则神经网络可能无法识别它被专门训练以识别的图像。如果发生这种情况，那么用户就会了解到神经网络易受攻击。

数据增强已成为训练监督分类器的标准实践，因为该策略通常会带来更好的泛化性能。例如，在计算机视觉和图像中，知道所需的不变性(如平移、旋转、缩放和轴翻转)可以帮助人们针对这些变换来随机扰动输入图像，并训练网络在这些变换下保持不变。遵循数据增强的想法，按照使得ULP对各种网络架构和潜在的各种触发器保持不变的方式使训练集得到增强。这里的挑战是输入样本不是图像，而是模型(即，CNN)，并且文献中没有很好地研究模型的这种数据增强。这里，为了实现不变性对各种架构的影响，在模型f_n上使用随机丢弃(参见参考文献8)来增强训练集。

一旦生成了ULP 400，下一步骤就是在候选CNN上使用ULP 400来确定CNN是否是中毒的。下面是对本文描述的系统中的伪代码的描述，其在图5中也有描绘。

输入：CNN规范，包括经训练的权重和架构(要素300)，表示为θ。

输出：指定CNN的安全性级别和系统的确定性(要素500)。

程序：

1)将CNN规范θ编译为可执行模型(要素502)，f(·；θ)，其中它被简单地标识为f(·)(要素504)。

2)从系统存储部中读取M个经训练的ULP(要素400)，表示为

3)将加载的ULP(要素400)馈送至编译模型(要素504)，从而产生模型输出集(或网络激活)。

4)对输出集执行池化例如，级联所有f(z_m)(要素404)。

5)使用二元分类器h(·)(要素406)对池化后的表示进行分类，所述二元分类器是softmax分类器，即，

6)显示(要素304)二元softmax分类器h(·)(要素406)的输出(即，“中毒的”或“干净的”)和置信度(要素500)。分类器的输出是中毒的概率p和干净的概率(1-p)，其中p在0至1的区间内。p的百分比表示是置信度。如果p＝1，

则二元分类器100％确信网络f(.)是中毒的。

此外，应强调的是，用户输入是CNN架构的文本描述(例如，Python代码或架构的简单文本描述)以及包含数字表的保存的二进制文件，所述数字表表明经预训练的模型的权重。图7A至图7C例示了本文描述的系统的用户输入的示例，其精确地识别了CNN模型。

(3.4)实验研究

计算机视觉中的三个基准数据集(即，手写数字数据集MNIST(参见参考文献4)、CIFAR10数据集(参见参考文献3)和德国交通标志识别基准(GTSRB)数据集(参见参考文献9))被用于实验研究。针对各个数据集，训练了大约2000个在这些数据集上达到最先进或接近最先进性能的深度CNN，其中一半是用后门触发器(图6，要素606)训练的。后门触发器(要素606)是覆盖在关注对象(例如，停车标志)的干净的图像上的“类似张贴物”的模式。然后训练中毒的网络(要素600)，以在不存在触发器的情况下将停止标志检测为停止标志。然而，如果输入图像中存在触发器，则停车标志被检测为限速标志。确保中毒的模型(要素600)在干净的输入数据(要素602)上表现得与干净的模型一样好，同时针对中毒的输入(要素604)具有高攻击成功率(>90％)。针对触发器，生成了20个大小为5×5像素的触发器(要素606)，如图6所示。图6示出了样本中毒的模型针对来自GTSRB数据集的干净的输入数据的性能(或预测类(要素608))以及样本模型针对来自GTSRB数据集的中毒的输入数据的性能(或预测类(要素610))。然后将本发明与两个基线进行比较，如下详述。

(3.4.1)基线1-噪声输入

对于第一基线和作为证明优化ULP影响的消融研究，馈送随机生成的模式(其中各个像素的通道采用[0,255]中的随机整数值)。然后，级联干净的和中毒的训练网络的分对数(logits)并针对其学习softmax分类器。与ULP共享池化和分类器，该方法挑出输入模式联合优化的影响。实验结果表明，令人惊讶的是，这种简单的检测方法可以成功地揭示简单数据集(例如，MNIST)中的后门攻击，但它无法针对更具挑战性的数据集(例如，GTSRB)提供可靠的性能。

(3.4.2)基线2-基于攻击的检测

对于第二基线方法(称为“基线”)，设计了一种类似于神经净化(参见参考文献12)的方法。给定经训练的模型(无论是否中毒)，选择一对源类别和目标类别，并利用通用补丁(触发器)执行有针对性的规避攻击。这意味着，优化了触发器，使得可以将干净的输入图像集的预测从源更改为目标。这里的基本原理是，如果模型已经中毒，则找到可以针对所有干净的源图像可靠地愚弄模型的一致攻击(即，通用触发器)会更容易。换句话说，如果这种攻击成功，则意味着该给定模型可能已中毒。因此，系统迭代所有可能的源和目标对，并选择最成功的对的损失作为模型干净度的分数。参考文献12中的方法假设触发器的大小未知，因此在损失中使用掩码及其l₁范数来减小触发器的面积。然而，掩码的l₁只能减少掩码的非零值的数量(即，增加稀疏度)，但不能阻止触发器在整个图像上传播。为了简化，假设触发器的大小是已知的，并且在根据本公开的实施方式的过程中去除掩模的范数。

针对所有数据集对中毒的模型进行检测。图8中例示的表(要素800)列出了中毒的模型针对干净的和中毒的数据的平均准确度(即，攻击准确度)以及MNIST、CIFAR10和GTSRB数据集的所呈现的检测方法的AUC(曲线下面积)分数。表(要素800)示出了基线和所建议的ULP在三个数据集上的ROC(接收器操作特性)曲线下面积。ROC曲线下面积是模型区分两个类的能力的经典且可靠的量度。ULP始终以较大的优势优于基线。各个实验的细节描述如下。最后，图9A、图9B和图9C示出了针对三个数据集的本文描述的本发明的ROC曲线以及基线。

总之，本文描述的是一种无需被感染的训练数据即可检测深度CNN中的后门攻击的方法。图10是总结根据本公开的一些实施方式的过程流程的流程图。经训练的机器学习模型集和指示它们是干净的还是中毒的标记(要素300)通过优化方法(要素1000；式(1))进行过程，从而产生经优化的ULP(要素402)。该过程优化模式(即，经训练的机器学习模型集和标记(要素300))以揭示CNN模型是否已被后门攻击操纵。为了实现这一点，经优化的ULP(要素402)以前馈方式传递通过上传的CNN(要素1002)，从而产生网络激活(要素1004)，也称为分对数(logits)(即，应用非线性之前人工神经元的输出)。网络激活(要素1004)由分类器(要素406)线性分类，以揭示后门攻击，从而产生分类结果(例如，干净的或中毒的)(要素1006)。如果检测到后门攻击(即，中毒的分类结果)，则启动特定响应(要素1007)。例如，特定响应可以包括向显示器(要素304)传输警报。另外，如果检测到后门攻击，则系统将被隔离或脱机。另外，新的机器学习模型(要素1008)可以利用该过程进行测试，这意味着经优化的ULP(要素400)在测试(要素1008)时被馈送至新的机器学习模型，然后该新的网络被池化并分类，以识别它是否中毒。

如通过实验研究确定的，与现有技术相比，本发明提供的一些改进包括对后门攻击的高度准确检测(明显优于现有技术)，并且比现有技术方法快1000倍。对抗性后门攻击是深度CNN及其在自主性应用中的最大威胁之一。针对活跃在自主性领域的公司来说，确保他们经训练的模型不包含后门攻击至关重要。

各种深度学习应用(更具体地说是自主性，诸如自主操作，诸如驾驶)非常关注能够检测这种后门攻击的系统。机器/设备的非限制性示例包括自主车辆的感知子模块中的交通标志检测模块和无人驾驶飞行器(UAV)中的感知导航器。例如，一旦检测到中毒攻击，就可以采取多个不同措施。例如，本文描述的系统可以针对小的干净数据集自动微调(即，重新训练)网络，以克服中毒。另外，根据本公开的实施方式的系统可以重构触发器并且还可以识别被攻击的类(使用中毒网络)以推断攻击者的意图。该行动将取决于所需的最终目标。交通标志检测中的中毒数据的示例是放置在“停车标志”上的特定张贴物，使得“停车标志”被误分类为“限速标志”。干净的数据的示例是没有改动的交通标志。

最后，虽然已经根据若干实施方式对本发明进行了描述，但本领域普通技术人员将容易地认识到，本发明可以在其它环境中具有其它应用。应注意，可以有许多实施方式和实现。此外，所附权利要求绝不旨在将本发明的范围限于上述具体实施方式。另外，“用于……的装置”的任何叙述旨在引发要素和权利要求的装置加功能的解读，而未特别使用“用于……的装置”叙述的任何要素不应被解读为装置加功能要素，即使权利要求以其它方式包括了“装置”一词。此外，虽然已经按特定顺序叙述了特定方法步骤，但这些方法步骤可以按任何期望的顺序进行并且落入本发明的范围内。

Claims

1.一种对深度卷积神经网络中的后门攻击进行检测的系统，所述系统包括：

非暂时性计算机可读介质和一个或更多个处理器，所述非暂时性计算机可读介质上编码有可执行指令，使得当执行所述可执行指令时，所述一个或更多个处理器执行以下操作：

将经预训练的卷积神经网络CNN的规范编译为可执行模型，从而产生编译模型；

生成用于检测深度CNN中的后门攻击的优化模式集，其中，在后门攻击中，对手向图像引入触发器并向所述图像指派目标标签，以使网络学习向出现所述触发器的任何图像指派所述目标标签；

其中，生成所述优化模式集包括：

将随机图像集和分类器实例化；

将所述随机图像集馈送到被标记为中毒或干净的训练网络集，从而产生多个网络输出；

对所述多个网络输出进行池化；

将所述多个网络输出馈送到所述分类器，从而产生分类决策；以及

在多次迭代中，基于所述分类决策来更新所述分类器和所述随机图像集，直至达到收敛，

其中，所述优化模式集提供了对跨不同神经网络架构的后门攻击的指标，并且与所述对手使用的所述触发器无关；

将所述优化模式集馈送通过所述编译模型，从而产生模型输出集；

对所述模型输出集进行分类；

使用所分类的模型输出集，确定所述经预训练的CNN中的后门攻击的存在；以及

基于所述后门攻击的所述存在来执行响应。

2.根据权利要求1所述的系统，其中，在执行所述响应时，所述一个或更多个处理器还执行将关于所述后门攻击的所述存在的警报发送至显示器的操作。

3.根据权利要求1所述的系统，其中，所述优化模式集是优化以下项的结果：

其中，argmin表示最小化运算，是损失函数，/>表示模式集，/>表示所述模型输出集，g(·)是应用于所述模型输出集的池化算子，从而产生池化向量M是优化模式的总数，m是第m个优化模式的索引，N是训练网络f_n的总数，n是第n个网络的索引，h(·)是接收所述池化向量作为输入的分类器，R(·)是所述模式集的正则化器，并且λ是正则化系数。

4.根据权利要求1所述的系统，其中，所述规范包括所述经预训练的CNN的多个权重以及架构的描述。

5.根据权利要求4所述的系统，其中，所述架构的所述描述是所述架构的文本描述，并且所述多个权重包括包含数字表的二进制文件。

6.根据权利要求1所述的系统，其中，所述一个或更多个处理器还执行以下操作：

通过将所述优化模式集馈送通过所述编译模型来测试新的CNN；以及

确定所述新的CNN是否包含后门攻击。

7.一种对深度卷积神经网络中的后门攻击进行检测的计算机实现的方法，所述方法包括以下动作：

使一个或更多个处理器执行在非暂时性计算机可读介质上编码的指令，使得当执行所述指令时，所述一个或更多个处理器执行以下操作：

其中，生成所述优化模式集包括：

将随机图像集和分类器实例化；

对所述多个网络输出进行池化；

对所述模型输出集进行分类；

基于所述后门攻击的所述存在来执行响应。

8.根据权利要求7所述的方法，其中，在执行所述响应时，所述一个或更多个处理器还执行将关于所述后门攻击的所述存在的警报发送至显示器的操作。

9.根据权利要求7所述的方法，其中，所述优化模式集是优化以下项的结果：

10.根据权利要求7所述的方法，其中，所述规范包括所述经预训练的CNN的多个权重以及架构的描述。

11.根据权利要求10所述的方法，其中，所述架构的所述描述是所述架构的文本描述，并且所述多个权重包括包含数字表的二进制文件。

12.根据权利要求7所述的方法，其中，所述一个或更多个处理器还执行以下操作：

确定所述新的CNN是否包含后门攻击。

13.一种对深度卷积神经网络中的后门攻击进行检测的计算机程序产品，所述计算机程序产品包括：

存储在非暂时性计算机可读介质上的计算机可读指令，所述计算机可读指令能够由具有一个或更多个处理器的计算机执行，以使所述处理器执行以下操作：

其中，生成所述优化模式集包括：

将随机图像集和分类器实例化；

对所述多个网络输出进行池化；

对所述模型输出集进行分类；

基于所述后门攻击的所述存在来执行响应。

14.根据权利要求13所述的计算机程序产品，其中，所述优化模式集是优化以下项的结果：

15.根据权利要求13所述的计算机程序产品，其中，所述规范包括所述经预训练的CNN的多个权重以及架构的描述。

16.根据权利要求15所述的计算机程序产品，其中，所述架构的所述描述是所述架构的文本描述，并且所述多个权重包括包含数字表的二进制文件。

17.根据权利要求13所述的计算机程序产品，其中，所述一个或更多个处理器还执行以下操作：

确定所述新的CNN是否包含后门攻击。