CN112989328A

CN112989328A - 用于检测对抗性攻击的系统和方法

Info

Publication number: CN112989328A
Application number: CN202011473390.6A
Authority: CN
Inventors: F·J·C·康德莎
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-12-16
Filing date: 2020-12-15
Publication date: 2021-06-18
Also published as: DE102020214860A1; US20210182394A1; US11657153B2; JP2021096854A

Abstract

用于检测对抗性攻击的系统和方法。计算机实现的方法涉及训练机器学习系统检测对抗性攻击，包括基于第一序列包括传感器数据未扰动版本的第一预测将第一序列分类为属于指示标称序列的第一类，基于第二序列包括传感器数据扰动版本的第二预测将第二序列分类为属于指示对抗性序列的第二类。组合损失数据针对序列集合而生成并基于相对于第一类不正确分类的第一平均损失和相对于第二类不正确分类的第二平均损失。基于组合损失数据更新机器学习系统参数。一旦训练，机器学习系统可操作来生成第一标签以指示输入序列被分类为属于第一类，并生成第二标签以指示输入序列被分类为属于第二类，使控制系统能以基于第一类的标称方式和基于第二类的防御方式操作。

Description

用于检测对抗性攻击的系统和方法

技术领域

本公开一般涉及机器学习系统，并且更具体地，涉及检测对抗性数据序列。

背景技术

一般而言，机器学习系统、特别是深度神经网络易受到攻击。这些对抗性攻击可以包括：黑盒攻击，其涉及基于机器学习系统的预期输出的知识的攻击；和/或白盒攻击，其涉及基于机器学习系统的内部工作的知识的攻击。作为示例，机器学习系统可能经由其输入受到攻击。这样的对抗性攻击在输入上发现扰动，所述扰动引起对机器学习系统的输出数据的改变。这些对抗性攻击通常通过如下方式来执行：基于反馈更新输入数据上的扰动，直到机器学习系统做出被这些扰动破坏的确定，使得生成不正确的输出数据（例如，输入数据的错误分类），从而导致负面后果和影响。

发明内容

下文是下面详细描述的某些实施例的概述。呈现所描述的方面仅仅是为了向读者提供这些特定实施例的简要概述，并且这些方面的描述没有限制本公开范围的意图。实际上，本公开可以涵盖下面可能没有明确阐述的各种方面。

根据至少一个方面，一种计算机实现的方法涉及训练机器学习系统来检测对抗性攻击。所述方法包括获得序列集合。序列集合至少包括第一序列和第二序列。所述方法包括基于第一序列包括传感器数据的未扰动版本的第一预测，将第一序列分类为属于指示标称序列的第一类。所述方法包括基于第二序列包括传感器数据的扰动版本的第二预测，将第二序列分类为属于指示对抗性序列的第二类。所述方法包括基于如下各项生成组合损失数据：（i）第一平均损失，其牵涉到第一类相对于来自序列集合的第一组序列的不正确分类，其中第一组序列内的每个序列是标称序列，以及（ii）第二平均损失，其牵涉到第二类相对于来自序列集合的第二组序列的不正确分类，其中第二组序列内的每个序列是对抗性序列。所述方法包括基于组合损失数据更新机器学习系统的参数。

根据至少一个方面，一种非暂时性计算机可读介质包括计算机可读数据，当由处理器执行时，所述计算机可读数据引起处理器执行一种方法。所述方法包括获得序列集合。序列集合至少包括第一序列和第二序列。所述方法包括基于第一序列包括传感器数据的未扰动版本的第一预测，将第一序列分类为属于指示标称序列的第一类。所述方法包括基于第二序列包括传感器数据的扰动版本的第二预测，将第二序列分类为属于指示对抗性序列的第二类。所述方法包括基于如下各项生成组合损失数据：（i）第一平均损失，其牵涉到第一类相对于来自序列集合的第一组序列的不正确分类，其中第一组序列内的每个序列是标称序列，以及（ii）第二平均损失，其牵涉到第二类相对于来自序列集合的第二组序列的不正确分类，其中第二组序列内的每个序列是对抗性序列。所述方法包括基于组合损失数据更新机器学习系统的参数。

根据至少一个方面，一种计算机实现的方法涉及防御对抗性攻击。所述方法包括获得到第一机器学习系统的输入序列。所述方法包括基于输入序列是传感器数据的多个帧的扰动版本的统计确定，生成对抗性标签以将输入序列分类为对抗性。所述方法包括基于输入序列标识由第一机器学习系统生成的输出数据序列。所述方法包括基于对抗性标签过滤出输出数据序列，以防止致动器系统基于输出数据序列而被控制。

根据附图在以下详细描述中讨论本发明的这些和其他特征、方面和优点，贯穿附图，同样的字符表示相似或同样的部分。

附图说明

图1是根据本公开示例实施例的包括检测器和对抗性防御系统的系统示例的图。

图2是根据本公开示例实施例的关于移动机器技术的图1的系统示例的图。

图3A是根据本公开示例实施例的关于标称操作模式的图1系统的一些组件的概念图。

图3B是根据本公开示例实施例的关于防御操作模式的图1系统的一些组件的概念图。

图4是根据本公开示例实施例的与训练检测器相关联的系统示例的图。

图5是根据本公开示例实施例的与训练检测器相关联的流程图。

图6A是根据本公开示例实施例的基于标称序列生成的对抗性序列的示例的概念图。

图6B是根据本公开示例实施例的基于标称序列生成的对抗性序列的其他示例的概念图。

图7是根据本公开示例实施例的用于生成检测器的训练过程的示例的流程图。

具体实施方式

已经作为举例示出和描述的本文所描述实施例，以及它们的许多优点将通过前述描述被理解，并且将清楚的是，在不脱离所公开的主题或不牺牲其一个或多个优点的情况下，可以在组件的形式、构造和布置方面进行各种改变。事实上，这些实施例的描述形式仅仅是解释性的。这些实施例容许各种修改和替代形式，并且以下权利要求意图涵盖和包括这样的改变，并且不限于所公开的特定形式，而是覆盖落入本公开的精神和范围内的所有修改、等同物和替代物。

图1是包括传感器系统110、控制系统120和致动器系统130的系统100的图。系统100被配置为使得控制系统120基于来自传感器系统110的传感器数据来控制致动器系统130。更具体地，传感器系统110包括一个或多个传感器和/或对应的设备来生成传感器数据。例如，传感器系统110包括图像传感器、相机、雷达传感器、光检测和测距（LIDAR）传感器、热传感器、超声传感器、红外传感器、运动传感器、基于卫星的导航传感器（例如，全球定位系统（GPS）传感器）、麦克风、任何合适的传感器或其任何组合。在获得其环境的检测后，传感器系统110可操作以经由输入/输出（I/O）系统140和/或包括通信技术的其他功能模块150与控制系统120通信。

控制系统120被配置为直接或间接地从传感器系统110的一个或多个传感器获得传感器数据。在这方面，传感器数据可以包括来自单个传感器的传感器数据或者来自多个传感器的传感器融合数据。在接收到至少包括传感器数据的输入后，控制系统120可以实现诸如滑动窗口之类的软件机制，以从传感器数据流中获得至少一个序列。每个序列可以是任何长度的，并且可以包括任何数量的元素。在示例中，每个序列包括元素，其中每个元素是至少包括传感器数据的帧。控制系统可操作来经由处理系统160处理传感器数据。在这方面，处理系统160至少包括处理器。例如，处理系统160包括电子处理器、中央处理单元（CPU）、图形处理单元（GPU）、微处理器、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、处理电路、任何合适的处理技术或其任何组合。在处理至少该传感器数据后，处理系统160可操作来基于与存储器系统170的通信来生成输出数据。此外，处理系统160可操作来基于输出数据向致动器系统130提供控制数据。

存储器系统170是计算机或电子存储系统，其被配置为存储各种数据并提供对各种数据的访问，以至少使能实现如本文所公开的操作和功能性。存储器系统170包括单个设备或多个设备。存储器系统170包括电、电子、磁、光、半导体、电磁、任何合适的存储器技术或其任何组合。例如，存储器系统170可以包括随机存取存储器（RAM）、只读存储器（ROM）、闪速存储器、磁驱动器、存储卡、光存储设备、磁存储设备、存储器模块、任何合适类型的存储器设备或其任何组合。在示例实施例中，相对于控制系统120和/或处理系统150，存储器系统170是本地的、远程的或其组合（例如，部分本地和部分远程）。例如，存储器系统170可配置为至少包括基于云的存储系统（例如，基于云的数据库系统），其远离处理系统160和/或控制系统120的其他组件。

存储器系统170至少包括分类器200。分类器200包括机器学习系统200A。机器学习系统200A包括至少一个人工神经网络（例如，深度神经网络）或任何合适的机器学习技术。为了便于参考，在本公开中，该机器学习系统200A有时被称为“第一机器学习系统”。响应于输入，处理系统160经由机器学习系统200A可操作来基于输入生成输出数据。例如，在从传感器系统110接收到至少传感器数据后，处理系统160经由机器学习系统200A的应用，可操作来预测传感器数据实体的类，并提供类数据作为输出数据。作为非限制性示例，例如，处理系统160经由机器学习系统200A被配置为：在确定检测到的传感器数据实体最有可能属于行人类后，从多个类（例如，交通标志、交通灯、动物、车辆等）当中分配“行人”类。在生成该输出数据（例如指示行人的类数据）后，经由机器学习系统200A，处理系统160可操作来至少基于该输出数据（例如，“行人”）生成用于致动器系统130的控制数据，使得致动器系统130被控制来执行将传感器系统110的检测考虑在内的动作。

存储器系统170还包括检测器210。检测器210被有利地配置为在标称序列和对抗性序列之间进行鉴别。更具体地，检测器210包括至少一个机器学习系统210A。为了便于参考，该机器学习系统210A有时被称为“第二机器学习系统”，以将其与机器学习系统200A区分开，机器学习系统200 A可以被称为“第一机器学习系统”。更具体地，检测器210包括至少一个神经网络和/或深度神经网络架构，其是为时间序列定制的。例如，检测器210至少包括递归神经网络（RNN）、长短期记忆（LSTM）网络、门控递归单元（GRU）、其他合适的机器学习技术或其任何组合。

检测器210经由处理系统160被配置为获得由分类器200直接接收和处理的相同输入。更具体地，检测器210的机器学习系统210A经由处理系统60，与分类器200的机器学习系统200同时或在相似的时间范围内获得输入序列。检测器210可以至少部分地与机器学习系统200A整合和/或至少部分地与机器学习系统200A分离。在接收到输入序列后，处理系统160经由检测器210被配置为在统计上确定输入序列包括标称数据序列后，生成指示检测到“标称序列”的标称标签，并在统计上确定输入序列包括对抗性数据序列或非标称数据序列后，生成指示检测到“对抗性序列”的对抗性标签。通过评估序列，检测器210被配置为确定对机器学习系统200A的对抗性攻击的存在与否，这是因为对抗性攻击通常牵涉到扰动输入处的迭代尝试，以便引起机器学习系统200A失败。

存储器系统170还包括对抗性防御系统220。对抗性防御系统220至少包括软件技术。附加地或替代地，对抗性防御系统220可以包括硬件技术。对抗性防御系统220被配置为至少部分地与检测器210分离或整合。对抗性防御系统220经由处理系统160被配置为从机器学习系统200A接收输出数据，并从检测器210接收对应的分类数据。更具体地，对抗性防御系统220从机器学习系统200A接收基于分类数据分类的相同输入序列而生成的输出数据序列。在这方面，处理系统160被配置为标识来自机器学习系统200A的输出数据序列，该输出数据序列对应于经由至少时间戳数据或任何合适的相关数据到机器学习系统200A的输入序列的分类数据。

对抗性防御系统220经由处理系统160被有利地配置为确保至少一个其他系统（例如，致动器系统130）被保护免于直接或间接从机器学习系统200A接收输出数据序列，该输出数据序列是已经基于被检测器210认为是对抗性序列的输入序列生成的。更具体地，在从检测器210接收到对抗性标签后，对抗性防御系统220经由处理系统160被配置为相对于来自机器学习系统200A的对应于对抗性序列的所标识输出数据序列采取防御动作。例如，对抗性防御系统220被配置为延迟输出数据，用预定输出数据（例如，默认输出数据、警报等）替换输出数据，拒绝输出数据、过滤出输出数据、丢弃输出数据、和/或采取防止系统100对基于检测到的对抗性数据序列生成的输出数据序列起作用的任何合适动作。因此，当与检测器210和处理系统160合作时，对抗性防御系统220被配置为通过确保系统100仅作用于输出数据序列来确保系统100以预定准确度水平操作，该输出数据序列是基于被认为是标称的输入序列而生成的。

此外，如图1中所示，系统100包括有助于控制系统120关于传感器系统110和致动器系统130的操作的其他组件。例如，如图1中所示，存储器系统170还被配置为存储其他相关数据230，其与系统100关于一个或多个组件（例如，传感器系统110、致动器系统130、机器学习系统200A、检测器210和对抗性防御系统220）的操作相关。此外，如图1中所示，控制系统120包括I/O系统140，I/O系统140包括用于与系统100相关的一个或多个I/O设备的一个或多个接口。例如，I/O系统140向传感器系统110提供至少一个接口，并且向致动器系统130提供至少一个接口。此外，控制系统120被配置为提供辅助和/或有助于系统100的运转的其他功能模块150，诸如任何适当的硬件、软件或其任何组合。例如，其他功能模块150包括操作系统和通信技术，其使得系统100的组件能够如本文所述那样彼此通信。至少利用图1的示例中讨论的配置，系统100适用于各种技术中。

图2是根据示例实施例的关于移动机器技术的系统100的示例的图。更具体地，在图2中，系统100由车辆10采用，其中控制系统120根据来自传感器系统110的传感器数据控制车辆10的至少一个致动器系统130。此外，在图2中，控制系统120包括障碍物检测系统。在该示例中，控制系统120被配置为基于传感器数据检测实体并生成边界数据（例如，轮廓、轮廓线或框架），其对应于关于传感器数据的实体检测。更具体地，在接收到至少从传感器数据中检测到的实体的传感器数据和/或边界数据后，处理系统160经由具有其机器学习系统200A的分类器200被配置为预测实体的身份并基于其预测提供输出数据。作为非限制性示例，例如，在接收到指示从该传感器数据当中检测到的至少一个实体的传感器数据和/或边界数据后，处理系统160经由机器学习系统200A被配置为将检测到的实体分类为属于来自障碍物的若干个类（例如，交通灯、交通标志、车辆、动物、道路结构等）当中的行人类。此外，处理系统160经由机器学习系统200A被配置为生成类数据，以指示检测到的实体是“行人”。此外，在该非限制性示例中，在经由分类器200生成该类数据后，控制系统120被配置为基于类数据生成用于致动器系统170的控制数据，以致动车辆10的至少一个功能组件，该类数据标识在车辆10的环境中正被感测的检测到的实体。例如，致动器系统130可以包括转向系统，使得控制系统120生成与转向动作相关的控制数据。作为另一个示例，致动器系统130可以包括制动系统，使得控制系统120生成与制动动作相关的控制数据。致动器系统130不限于转向系统和/或制动系统，而是可以包括与车辆10相关的任何致动器。

此外，控制系统120被配置为经由检测器210针对到机器学习系统200A的每个输入序列生成分类数据。分类数据将输入序列分类为（i）包括标称元素的标称序列或（ii）包括对抗性元素的对抗性序列。在这方面，检测器210在如下方面是有利的：标识机器学习系统200A作为输入接收的每个标称序列，并且使得系统100能够基于每个对应的输出数据序列进行操作，所述每个对应的输出数据序列是由机器学习系统200A以在对应的输出数据序列生成期间最有可能不存在对抗性攻击的保证水平生成的。此外，检测器210在如下方面是有利的：标识机器学习系统200A作为输入接收的每个对抗性序列，并且使得系统100能够相对于可能的对抗性攻击采取防御动作，并且避免使用在该时间帧期间从机器学习系统200A生成的每个对应的输出数据序列。

控制系统120还被配置为将来自检测器210的该分类数据连同来自机器学习系统200A的对应输出数据提供给对抗性防御系统220。在这方面，对抗性防御系统220被配置为根据从检测器210获得的分类数据来处置从机器学习系统200A获得的输出数据。例如，在从检测器210接收到标称标签后，对抗性防御系统220被配置为标识来自机器学习系统200A的基于对应于标称标签的该输入序列生成的输出数据，并且提供控制系统120将以标称模式处置输出数据的指示。在标称模式中，控制系统120可操作来基于机器学习系统200A的对应输出数据生成控制数据。替代地，在从检测器210接收到对抗性标签后，对抗性防御系统220被配置为标识来自机器学习系统200A的基于对应于对抗性标签的标记输入序列生成的输出数据，并且提供控制系统120将以防御模式处置输出数据的指示。在防御模式中，对抗性防御系统220被配置为延迟输出数据，用预定输出数据（例如，默认输出数据）替换输出数据，拒绝输出数据，过滤出输出数据，丢弃输出数据，或者采取防止系统100对基于检测到的对抗性数据序列生成的输出数据起作用的任何合适动作。在从对抗性防御系统220接收到选择性地仅包括来自机器学习系统200A的对应于标称序列的输出数据序列的通信后，控制系统120被配置为生成基于这些标称输出数据序列的控制数据。响应于控制数据，致动器系统130被配置为控制或辅助车辆10的致动，车辆10可以是自主的、高度自主的、部分自主的、有条件自主的或驾驶员辅助的。

附加于或者替代于图2的示例，系统100（和/或控制系统120）也在其他应用中可操作。例如，系统100和/或控制系统120在诸如计算机控制的机器、机器人、家用电器、电动工具、电子个人助理、保健/医疗技术、移动机器、安全技术等各种领域中可操作。也就是说，系统100和/或控制系统120不限于上面提到的应用，而是可以应用于受益于检测对抗性攻击的任何合适的应用，所述对抗性攻击采用牵涉到对元素序列的扰动的迭代技术。

图3A和3B图示了系统100的一些组件——特别是机器学习系统200A、检测器210和对抗性防御系统220——的交互的概念图。更具体地，在图3A中，当检测器210确定输入序列是标称的和/或对抗性防御系统220指示对抗性攻击不存在时，控制系统120以标称模式操作。相比之下，在图3B中，当检测器210确定输入序列是对抗性的和/或对抗性防御系统220指示对抗性攻击存在时，控制系统120以对抗性模式操作。此外，尽管图3A和3B中未示出，处理系统150在标称模式和防御模式期间均主动地与这些组件接合。

图3A图示了其中控制系统120以标称模式操作的情景的示例。更具体地，传感器系统110基于其环境提供传感器数据流。传感器数据流包括传感器数据序列，其可以表示为

，其中X表示序列，并且x₁到x_t表示序列的元素。例如，序列X的每个元素可以指代传感器数据的一帧。在获得传感器数据后，处理系统150经由机器学习系统200A被配置为生成传感器数据的类数据。经由机器学习系统200A针对传感器数据流输出的类数据可以表示为

，其中Y表示序列，并且y₁至y_t表示序列的元素。例如，序列Y的每个元素可以指代由机器学习系统200A针对序列X的每个元素生成的类数据。

检测器210被配置为接收与机器学习系统200A相同的输入（例如，

）。在接收到作为输入的传感器数据序列后，检测器210被配置为在预测传感器数据序列是标称序列后生成标称标签，并在预测传感器数据序列是对抗性序列后生成对抗性标签。在该情况下，如图3A中所示，检测器210确定传感器数据序列包括标称数据，并针对输入生成标称标签。对抗性防御系统220被配置为从检测器210接收标称标签并且从机器学习系统200A接收对应的类数据（

）。在该情况下，由于检测器210指示机器学习系统200A接收到标称序列作为输入，因此对抗性防御系统220可操作来指示控制系统120被配置为以标称模式操作，使得至少基于来自机器学习系统200A的类数据针对致动器系统生成用于致动器系统170的控制数据。

图3B图示了其中控制系统120以防御模式操作的情景的示例。不像图3A，图3B包括对抗系统20，其不是系统100的一部分，并且正在对系统100生成对抗性攻击。一般而言，对抗系统20迭代地扰动到机器学习系统200A的传感器数据，以引起机器学习系统200A崩溃和/或失败。在该示例中，对抗系统20可操作来利用扰动数据来扰动传感器数据，该扰动数据可能在如下程度上是不可察觉的：即机器学习系统200A针对传感器数据的扰动版本生成类数据，该类数据不同于机器学习系统200A针对相同传感器数据的未扰动版本将生成的类数据。通常，对抗系统20在其第一次尝试引起机器学习系统200A失败时是不成功的，并且因此在到机器学习系统200A的扰动输入处进行若干次尝试，同时使用机器学习系统200A的输出数据（例如，类数据）作为反馈以确定将引起机器学习系统200A失败的输入上的扰动数据。在这方面，对抗系统20通常依赖于迭代技术来实现成功的对抗性攻击。

如图3B中所示，传感器系统110基于其环境生成传感器数据流。传感器数据流包括传感器数据序列，其可以表示为

，其中X表示标称序列，并且x₁至x_t表示序列的元素。例如，每个元素可以指代传感器数据的一帧。然而，在该情景中，对抗系统20生成扰动数据序列并扰动传感器数据，使得机器学习系统200A接收传感器数据的扰动版本。例如，扰动数据序列可以由

表示，其中

表示扰动数据序列，并且其中

至

表示该序列的各种扰动元素。此外，传感器数据的扰动版本可以表示为

，其中X’表示序列X的扰动版本，并且其中x’₁到x’_t分别表示已经被扰动数据序列

扰动的序列的扰动元素。在接收到传感器数据的扰动版本后，处理系统150经由机器学习系统200A被配置为生成对传感器数据的这些扰动版本进行分类的类数据。此外，检测器210还被配置为接收与机器学习系统200A相同的输入（即，

的扰动传感器数据）。在接收到作为输入的传感器数据序列的扰动版本后，检测器210被配置为在预测传感器数据序列是标称序列后生成标称标签，并且在预测传感器数据序列是对抗性序列后生成对抗性标签。在该情况下，如图3B中所示，检测器210确定到机器学习系统200A的输入序列（即，X’）是对抗性序列，并针对该输入序列（即，X’）生成对抗性标签。对抗性防御系统220被配置为从检测器210接收对抗性标签，并且基于时间戳数据从机器学习系统200A接收类数据的对应序列Y’（

）。在该情况下，由于检测器210指示到机器学习系统200A的输入序列是对抗性序列，并且对抗性防御系统220被配置为激活防御模式，使得基于标记的输入生成的对应类数据序列被过滤出，并防止影响诸如致动器系统170的下游系统。例如，在图3B中，对抗性防御系统220不准许使用为

的对应类数据作为输出数据。

图4是根据示例实施例的与训练检测器210相关联的系统400的图。在该简化示例中，系统400至少包括存储器系统410和处理系统420。在图4中，存储器系统410是计算机或电子存储系统，其被配置为存储各种数据并提供对各种数据的访问，以至少使能实现如本文所公开的操作和功能性。存储器系统410包括单个设备或多个设备。存储器系统410包括电、电子、磁、光、半导体、电磁、任何合适的存储器技术或其任何组合。例如，存储器系统410包括RAM、ROM、闪速存储器、磁驱动器、存储卡、光存储设备、磁存储设备、存储器模块、任何合适类型的存储器设备或其任何组合。在示例实施例中，相对于处理系统420，存储器系统410是本地的、远程的或其组合（例如，部分本地和部分远程）。例如，存储器系统410被配置为至少包括基于云的存储系统（例如，基于云的数据库系统），其远离处理系统420。

在示例实施例中，如图4中所示，存储器系统410包括检测器210，检测器210包括机器学习系统210A。此外，如图4中所示，存储器系统410至少包括用于生成检测器210的训练数据412和机器学习数据414。此外，存储器系统410被配置为包括与如本文所讨论的训练和生成检测器210相关的其他相关数据。更具体地，训练数据412至少包括传感器数据（和/或基于传感器数据的图像数据）。机器学习数据414包括与用于训练和生成检测器210的方法700（图7）相关联的机器学习算法。检测器210包括机器学习系统210A、连同与其机器学习系统210A的训练和/或操作相关联的各种数据（例如，各种层、权重、参数数据等）。一旦被训练以预定的准确度水平执行，检测器210就由图1的系统100或任何合适的应用系统可部署和/或可采用。

在接收到训练数据412后，处理系统420被配置为根据机器学习数据414训练机器学习系统210A。在这方面，处理系统420包括至少一个处理器。例如，处理系统420包括电子处理器、CPU、GPU、微处理器、FPGA、ASIC、处理电路、任何合适的处理技术或其任何组合。在示例实施例中，处理系统420与存储器系统410通信，以基于训练数据412和机器学习数据414生成检测器210。

图5是根据示例实施例的与生成检测器210的训练过程500相关联的流程图。一般而言，训练过程500牵涉到大量且足够量的训练数据412，以确保检测器210准确地执行。例如，训练数据412的集合至少包括一组标称序列412A和一组对抗性序列412B。此外，训练数据412可以包括历史和/或实际的对抗性攻击数据，这些数据是从对各种机器学习系统的现实对抗性攻击中收集的。

该组标称序列412A至少包括传感器数据、传感器融合数据、基于传感器数据的图像数据、基于传感器融合数据的图像数据或其任何组合。此外，在该示例中，该组对抗性序列412B包括该组标称序列412A的至少一个或多个扰动版本。一般而言，该组对抗性序列412B可以包括其中其多个元素被扰动所扰动的任何序列，即使该序列没有成功地引起机器学习系统失败（例如，对序列进行错误分类，使得

，其中

表示机器学习系统基于元素的扰动版本的输出数据，并且

表示机器学习系统基于该相同元素的未扰动版本的输出数据）。在利用至少该训练数据集合412完成该训练过程500之后，检测器210经由至少一个处理器被配置为在预测序列是标称序列（或传感器数据的未扰动版本）后生成标称标签，并且在预测该序列是对抗性序列（或该传感器数据的扰动版本）后生成对抗性标签。

图6A和6B图示了训练数据412的示例。例如，图6A图示了标称序列600，其包括由x₁至x_t标示的元素。在该情况下，每个元素是传感器数据的一帧。例如，每个元素可以是从视频流所取得的图像帧。此外，如图6A中所示，标称序列600相对于时间是连续的，其在箭头的方向上前进。图6A还图示了对抗性序列610，其从标称序列600生成。在这方面，例如，在接收到标称序列600后，处理系统420被配置为通过如下方式生成对抗性序列610：从标称序列600选择元素（例如，x_i），并且迭代地扰动该元素，由此生成多个扰动版本（例如，

）以形成对抗性序列610。在图6A中，所选元素x_i被扰动“p”次（其中p表示所选元素生成扰动元素

（即，

）所处的迭代），这引起机器学习系统200A失败，使得

。此外，图6A还图示了可以提供包括作为子序列的对抗性序列610的对抗性序列620，作为训练数据412。

图6B还图示了从标称序列600生成的对抗性序列630。更具体地，处理系统420被配置为通过扰动标称序列的每个元素来生成对抗性序列630。在该情况下，对抗性序列630包括标称序列600的相应元素的扰动版本，直到机器学习系统200A失败。例如，对抗性序列630包括标称序列的第一元素的扰动版本、标称序列的第二元素的扰动版本，以此类推，直到机器学习系统200A失败。此外，图6B还图示了对抗性序列640，其包括作为子序列的对抗性序列630。在该情况下，处理系统420被配置为通过利用来自扰动的对抗签名的相应元素（例如，

）来扰动标称序列600的元素，从而生成至少这些对抗性序列630和640。

如上面所讨论的，图6A和6B图示了可以用于在训练过程500期间训练检测器210的训练数据412的一些示例。图6A和6B的有利之处在于，使得处理系统420能够在获得至少一个标称序列600后生成这些对抗性序列610、620、630和640。此外，处理系统420还被配置为通过利用牵涉到其他扰动的其他对抗签名攻击标称序列600来从标称序列600生成其他对抗性序列610、620、630和640。然而，该组对抗性序列412B不限于上面提到的对抗性序列610、620、630和640（和/或引起机器学习系统200A失败的对抗性序列），而是可以包括任何包括扰动元素序列的对抗性序列。一般而言，检测器210通过利用在如下程度上尽可能多的训练数据412被训练而受益：即检测器210在标称序列和对抗性序列之间进行鉴别的能力得到增强。

图7图示了根据示例实施例的用于生成检测器210的训练过程500（图5）的示例的流程图。该训练过程500包括用于训练检测器210的至少一个机器学习系统210A以在至少一个标称数据序列和至少一个对抗性数据序列之间进行区分的方法700。有利的是，该方法700提供训练数据412，其包括一组标称序列412A和一组对抗性序列412B两者，同时还基于从该训练数据412获得的结果来优化检测器210的机器学习系统210A的参数。因此，在利用该方法700经历训练过程500后，检测器210变得可操作来标识序列，预测该序列是否是标称的/对抗性的，并提供指示其预测的标签。

在步骤702处，处理系统420经由检测器210获得第一组训练数据。例如，第一组训练数据包括足够量的标称数据来训练检测器210，使得机器学习系统210A被配置为以预定的准确度水平操作。更具体地，第一组训练数据包括一组标称序列412A，其中每个序列包括未受扰动数据扰动的标称数据。如上面所讨论的，例如，标称数据包括传感器数据、传感器融合数据、基于传感器数据的图像数据、基于传感器融合数据的图像数据或其任何组合。在获得一组标称序列412A作为训练数据412后，方法700前进到步骤706。

在步骤704处，处理系统420经由检测器210获得第二组训练数据。例如，第二组训练数据包括足够量的对抗性数据来训练检测器210，使得机器学习系统210A被配置为以预定的准确度水平操作。更具体地，第二组训练数据包括一组对抗性序列412B，其中每个序列包括被扰动数据扰动的标称数据。在这方面，例如，每个对抗性序列包括多个扰动传感器数据、扰动传感器融合数据、基于传感器数据的扰动图像数据、基于传感器融合数据的扰动图像数据或其任何组合。一般而言，对抗性序列对应于标称序列，但进一步包括元素上的扰动。在获得一组对抗性序列412B作为训练数据412后，方法700进行到步骤708。

在步骤706处，处理系统420经由检测器210对来自该组标称序列的每个序列进行分类，该组标称序列可以被称为第一组训练数据。处理系统420经由检测器可操作来分析序列，并为该序列分配一个类。例如，处理系统420经由检测器210被配置为评估来自该组标称序列的序列，并通过其机器学习模型来确定该序列属于标称类还是对抗性类。

在步骤708处，处理系统420经由检测器210对来自该组对抗性序列的每个序列进行分类，该组对抗性序列可以被称为第二组训练数据。处理系统420经由检测器可操作来分析序列，并为该序列分配一个类。例如，处理系统420经由检测器210被配置为评估来自该组对抗性序列的序列，并通过其机器学习模型确定该序列属于标称类还是对抗性类。

在步骤710处，处理系统420经由检测器210基于第一组训练数据生成分类数据。在该情况下，第一组训练数据包括一组标称序列412A。检测器210可操作来在预测输入是标称数据序列（或非对抗性数据序列）后针对输入生成标称标签，并在预测输入是对抗性数据序列（或非标称数据序列）后针对该输入生成对抗性标签。在这方面，例如，标称标签可以由一个二进制符号（例如，零）表示，并且对抗性标签可以由另一个二进制符号（例如，一）表示，反之亦然。在该情况下，由于到检测器210的每个输入是来自第一组训练数据的标称序列，因此使得处理系统420能够将第一组的一序列的标称标签的真实分类数据与第一组的该序列的预测分类数据（例如，标称标签或对抗性标签）进行比较。

在步骤712处，处理系统420经由检测器210基于第二组训练数据生成分类数据。在该情况下，第二组训练数据包括一组对抗性序列412B。如前面提到的，检测器210可操作来在预测输入是标称数据序列（或非对抗性数据序列）后针对输入生成标称标签，并在预测输入是对抗性数据序列（或非标称数据序列）后针对该输入生成对抗性标签。在这方面，与步骤710一致，标称标签可以由一个二进制符号（例如，零）表示，并且对抗性标签可以由另一个二进制符号（例如，一）表示。在该情况下，由于到检测器210的每个输入是来自第二组训练数据的对抗性序列，因此使得处理系统420能够将第二组的一序列的对抗性标签的真实分类数据与第二组的该序列的预测分类数据（例如，标称标签或对抗性标签）进行比较。

在步骤714处，处理系统420生成检测器210的平均损失数据，该平均损失数据与第一组训练数据的预测分类和真实分类之间的差异相关。更具体地，处理系统420相对于针对第一组训练数据（例如，一组标称序列412A）生成的正确分类数据评估不正确分类数据。更具体地，关于该第一组训练数据，检测器210（i）当接收到这些标称序列之一作为输入后经由机器学习系统210A预测到标称标签时，生成正确分类数据，并且（ii）当接收到这些标称序列之一作为输入后经由机器学习系统210A预测到对抗性标签时，生成不正确分类数据。仅仅为了方便，该平均损失数据可以称为“第一平均损失数据”。

在步骤716处，处理系统420生成检测器210的平均损失数据，该平均损失数据与第二组训练数据的预测分类和真实分类之间的差异相关。更具体地，处理系统420相对于针对第二组训练数据（例如，一组对抗性序列412B）生成的正确分类数据评估不正确分类数据。更具体地，关于该第二组训练数据，检测器210（i）当在接收到对抗性序列之一作为输入后经由机器学习系统210A预测到对抗性标签时，生成正确分类数据，并且（ii）当在接收到对抗性序列之一作为输入后经由机器学习系统210A预测到标称标签时，生成不正确分类数据。仅仅为了方便，该平均损失数据可以称为“第二平均损失数据”。

在步骤718处，处理系统420基于牵涉到第一平均损失数据和第二平均损失数据的相对加权函数来优化检测器210的鉴别器的参数。更具体地，例如，处理系统420优化与机器学习系统210A的鉴别器（例如，鉴别性模型或网络）相关联的参数（例如，θ），其由θ参数化并由以下等式中的d_θ表示：

（1）

在该等式中，处理系统420确定检测器210的鉴别器的参数（例如，θ）的值，对于所述值，组合损失

经由argmin函数达到其最小值。在该情况下，组合损失包括第一平均损失数据

和第二平均损失数据

。此外，在该等式中，损失函数由

表示，其最小化输出数据y_p和输出数据y_c之间的误差，其中输出数据y_p表示输入序列的预测分类数据（例如，标称/对抗性标签），并且其中输出数据y_c表示输入序列的真实分类数据（例如，标称/对抗性标签）。

此外，如等式（1）所指示的，处理系统420经由检测器210包括至少一个机器学习模型，该机器学习模型执行二进制序列分类以标识相对于输入数据序列是否存在对抗性签名。例如，为了便于解释，使用X^test作为测试输入序列，检测器210被配置为在基于测试序列是标称序列的预测而确定

后，将一个二进制值（例如，值零）分配给测试序列作为标称标签。此外，检测器210被配置为在基于测试序列是对抗性序列的预测而确定

后，将另一个二进制值（例如，值一）分配给测试序列作为对抗性标签。替代地，检测器210可以被配置为分配任何一组值（例如，零和一）作为分类数据（例如，标称标签和对抗性标签），前提是检测器210如本文所述那样操作。

在等式（1）中，λ表示提供第一平均损失和第二平均损失之间的相对加权的参数。参数λ使得处理系统420能够根据应用调整标称数据（例如标称序列）的错误分类与对抗性数据（例如对抗性序列）的错误分类的相对权重的平衡。在这方面，参数λ提供了标称序列（例如，标称传感器数据）的检测与对抗性序列（和/或对抗性攻击）的检测之间的平衡因子。

在步骤720处，在完成检测器210利用优化参数的训练后，处理系统420提供准备好部署/采用的检测器210。在这方面，在参数已经被优化和/或检测器210已经利用优化参数训练之后，检测器210被配置为在评估检测器210以预定的准确度水平操作后由系统100或任何合适的系统部署/采用。此外，一旦经训练，使得具有其机器学习系统210A的检测器210有利地能够经由至少一个处理器，通过统计确定和/或概率手段来预测序列证明标称标签还是对抗性标签，从而提供对抗性攻击的不存在或存在的指示。

此外，在不脱离这些实施例的精神和范围的情况下，可以对上面提到的实施例进行各种修改。例如，在图1中，代替于分类器200和与其相关联的机器学习系统200A，系统100可以包括具有适合于所意图应用的经训练机器学习系统的任何软件模块。也就是说，检测器210和对抗性防御系统220被配置为向依赖于可能易受到对抗性攻击的输入序列的任何机器学习系统和/或软件系统提供相同或基本相似的优点。

此外，作为修改的另一个示例，附加于或替代于合成类型的攻击，该组对抗性序列412B可以包括现实的对抗性攻击数据，其从对各种机器学习系统的实际对抗性攻击中获取。此外，作为修改的又一示例，该组对抗性序列412B不限于图6A和6B的示例，但是可以包括标称序列的任何扰动版本，其中在该序列的多个元素（或帧）之上出现多个扰动。附加地，作为修改的又一示例，生成对抗性序列的过程可与训练过程500组合，使得新的对抗性序列可作为用于训练检测器210的每次迭代的训练组而生成。此外，训练过程500可以在多次迭代和多个批次中执行。此外，作为修改的又一示例，在训练过程500期间，检测器210和对抗系统20可以被配置为创建零和游戏，其中检测器210可操作来最小化组合损失，而对抗系统20可操作来最大化组合损失（例如，使得对抗性数据序列不可检测），从而训练检测器210通过解决更鲁棒的对抗系统20而变得更鲁棒。

如本文所述，实施例包括许多有利的特征和益处。例如，实施例在确定到机器学习系统200A的输入序列是否是查询序列方面是有利的，这在理解引起机器学习系统200A失败的模型限制和/或对输入数据的学习扰动的意义上具有对抗性目标。在这方面，实施例在如下方面是有利的：作为检测对抗性攻击的不存在/存在的手段，解决确定输入到至少一个机器学习系统200A的序列是否与标称数据（例如，来自传感器的传感器流）或对抗性数据（例如，具有来自对抗系统20的对抗性查询的传感器流的扰动版本）的技术问题。在检测到对抗性序列后，检测器210可操作来标记其对抗性检测，以便使得系统100能够响应对抗性攻击。作为一个示例，例如，对抗性防御系统220被激活以过滤出由机器学习系统200A基于对抗性序列生成的对应的输出数据序列，使得由对抗性序列所致的影响得以避免和/或不被原本将从机器学习系统200A接收该输出数据的另一系统实现。例如，系统100可操作来防止不正确的输出数据（例如，不正确的类数据）——其基于检测到的对抗性数据序列——影响致动器系统170，从而相对于对抗性攻击为系统100提供了添加的安全和保障水平。

也就是说，意图上面的描述是说明性的，而不是限制性的，并且是在特定应用及其要求的上下文中提供的。本领域技术人员可以从前面的描述中领会，本发明可以以各种形式实现，并且各种实施例可以单独或组合实现。因此，虽然本发明的实施例已经结合其特定示例进行了描述，但是在不脱离所描述的实施例的精神和范围的情况下，本文定义的一般原理可以应用于其他实施例和应用，并且本发明的实施例和/或方法的真实范围不限于所示出和描述的实施例，因为在研究附图、说明书和所附权利要求后，各种修改对于本领域技术人员而言将变得清楚。例如，组件和功能性可以以不同于各种描述的实施例的方式被分离或组合，并且可以使用不同的术语来描述。这些和其他变型、修改、添加和改进可以落在如所附权利要求中定义的本公开的范围内。

Claims

1.一种用于训练机器学习系统以检测对抗性攻击的计算机实现的方法，所述方法包括：

获得序列集合，所述序列集合至少包括第一序列和第二序列；

基于第一序列包括传感器数据的未扰动版本的第一预测，将第一序列分类为属于指示标称序列的第一类；

基于第二序列包括传感器数据的扰动版本的第二预测，将第二序列分类为属于指示对抗性序列的第二类；

基于如下各项生成组合损失数据：（i）第一平均损失，其牵涉到第一类相对于来自序列集合的第一组序列的不正确分类，其中第一组序列内的每个序列是标称序列，以及（ii）第二平均损失，其牵涉到第二类相对于来自序列集合的第二组序列的不正确分类，其中第二组序列内的每个序列是对抗性序列；以及

基于组合损失数据更新机器学习系统的参数。

2.根据权利要求1所述的计算机实现的方法，其中更新参数的步骤包括：

确定所述机器学习系统的鉴别性模型的参数，所述参数最小化牵涉到第一平均损失和第二平均损失的加权函数的组合损失数据。

3.根据权利要求1所述的计算机实现的方法，其中机器学习系统包括具有处理时间序列的架构的深度神经网络。

4.根据权利要求1所述的计算机实现的方法，其中机器学习系统包括递归神经网络、长短期记忆网络或门控递归单元。

5.根据权利要求1所述的计算机实现的方法，其中：

生成第一序列，使得另一机器学习系统针对第一序列生成第一类数据；

第二序列是第一序列的扰动版本，使得另一机器学习系统针对第二序列生成第二类数据；并且

第一类数据不同于第二类数据。

6.根据权利要求5所述的计算机实现的方法，其中：

从传感器数据流中提取第一序列；

第一序列包括传感器数据的多个帧；并且

第二序列包括子序列，子序列包括第一序列的所选帧的迭代扰动版本，其中所选帧的扰动版本之一引起另一机器学习系统针对第二序列生成第二类数据。

7.根据权利要求5所述的计算机实现的方法，其中：

从传感器数据流中提取第一序列；

第一序列包括传感器数据的多个帧；并且

第二序列的每个帧被相应的扰动所扰动，使得第二序列引起另一机器学习系统针对第二序列生成第二类数据。

8.一种包括计算机可读数据的非暂时性计算机可读介质，当由处理器执行时，所述计算机可读数据引起处理器执行一种方法来训练机器学习系统以检测对抗性攻击，所述方法包括：

基于组合损失数据更新机器学习系统的参数。

9.根据权利要求8所述的非暂时性计算机可读介质，其中更新参数的步骤包括：

确定机器学习系统的鉴别器模型的参数，所述参数最小化牵涉到第一平均损失和第二平均损失的加权函数的组合损失数据。

10.根据权利要求8所述的非暂时性计算机可读介质，其中机器学习系统包括具有处理时间序列的架构的深度神经网络。

11.根据权利要求8所述的非暂时性计算机可读介质，其中机器学习系统包括递归神经网络、长短期记忆网络或门控递归单元。

12.根据权利要求8所述的非暂时性计算机可读介质，其中：

第一类数据不同于第二类数据。

13.根据权利要求12所述的非暂时性计算机可读介质，其中：

从传感器数据流中提取第一序列；

第一序列包括传感器数据的多个帧；并且

第二序列包括子序列，子序列包括第一序列的所选帧的迭代扰动版本，其中所选帧的扰动版本之一引起另一机器学习系统针对第二序列生成第二数据。

14.根据权利要求12所述的非暂时性计算机可读介质，其中：

从传感器数据流中提取第一序列；

第一序列包括传感器数据的多个帧；并且

15.一种用于防御对抗性攻击的计算机实现的方法，所述计算机实现的方法包括：

获得到第一机器学习系统的输入序列；

基于输入序列是传感器数据的多个帧的扰动版本的预测，生成对抗性标签以对输入序列进行分类；

基于输入序列标识由第一机器学习系统生成的输出数据序列；以及

基于对抗性标签过滤出来自第一机器学习系统的输出数据序列，以防止致动器系统被基于输出数据序列的控制数据控制。

16.根据权利要求15所述的计算机实现的方法，进一步包括：

获得到第一机器学习系统的另一输入序列，所述另一输入序列包括传感器数据的另多个帧；

基于所述另一输入序列未受扰动数据扰动的另一预测，针对所述另一输入序列生成非对抗性标签；

基于所述另一输入序列获得由第一机器学习系统生成的另一输出数据序列；以及

基于另一输出数据序列控制致动器系统。

17.根据权利要求15所述的计算机实现的方法，进一步包括：

操作滑动窗口以获得正被输入到第一机器学习系统中的输入序列，

其中传感器数据的多个帧包括传感器数据的所选帧的迭代扰动版本。

18.根据权利要求15所述的计算机实现的方法，其中生成对抗性标签的步骤由第二机器学习系统执行。

19.根据权利要求18所述的计算机实现的方法，其中：

利用一组序列训练第二机器学习系统；

所述一组序列包括一组标称序列和一组对抗性序列；并且

所述一组对抗性序列包括所述一组标称序列的扰动版本，使得第一机器学习系统基于对抗性序列生成与基于标称序列生成的类数据相比不同的类数据。

20.根据权利要求18所述的计算机实现的方法，其中第二机器学习系统包括递归神经网络、长短期记忆网络或门控递归单元。