CN112084830A

CN112084830A - 通过基于视觉的感知系统检测对抗样本

Info

Publication number: CN112084830A
Application number: CN202010186610.0A
Authority: CN
Inventors: 贾云瀚; 仲震宇; 张煜龙; 韦韬
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2019-06-13
Filing date: 2020-03-17
Publication date: 2020-12-15
Also published as: KR20200143242A; JP2020200033A; KR102398256B1; JP7046119B2; US20200394472A1; EP3751453A1; US10990855B2

Abstract

在一个实施例中，系统接收由ADV的捕获设备捕获的第一图像。系统将图像变换应用于第一图像以生成第二图像。系统将对象检测模型应用于第一和第二图像以分别生成第一和第二输出。系统计算第一和第二输出之间的相似性度量。如果第一图像和先前图像之间的相似性度量的时间变化高于阈值，则系统将第一图像检测为对抗样本。

Description

通过基于视觉的感知系统检测对抗样本

技术领域

本公开的实施例一般涉及操作自主车辆。更具体地说，本公开的实施例涉及通过用于机器人系统或自主驾驶车辆(ADV)的基于视觉的感知系统检测对抗样本(例如，输入图像)。

背景技术

以自主模式(例如，无人驾驶)操作的车辆可以减轻乘坐者，尤其是驾驶员的一些驾驶相关责任。当以自主模式操作时，车辆可以使用车载传感器导航到各种位置，从而允许车辆以最小的人机交互或者在没有任何乘客的一些情况下行驶。

运动规划和控制是自主驾驶中的关键操作。然而，传统的运动规划操作主要从给定路径的曲率和速度估计完成该给定路径的难度，而不考虑用于不同类型的车辆的特征的差异。相同的运动规划和控制应用于所有类型的车辆，在某些情况下，这可能不是精确和平滑的。

基于视觉的感知是自主车辆和机器人系统的主要任务中的一个，以及基于深度学习的计算机视觉模型已经在该任务中实现了现代技术性能，并且已经被广泛地部署。然而，这些深度神经网络(DNN)已被示出易受仔细制作的对抗输入(例如，“对抗样本”)的攻击。例如，已经证明，通过将仔细制作的小贴纸放置在停止标志上，对抗可以欺骗自主车辆的基于视觉的感知系统将其识别为限速标志。

发明内容

本公开第一方面实施例提供一种计算机实现的方法，包括：接收由自主驾驶车辆ADV的捕获设备捕获的第一图像；执行图像变换以将所述第一图像变换为第二图像；将对象检测模型应用于所述第一图像和所述第二图像以分别生成第一输出和第二输出；计算所述第一输出和所述第二输出之间的相似性度量；以及如果所述第一图像和先前图像之间的相似性度量的时间变化高于预定阈值，检测所述第一图像为对抗样本。

本公开第二方面实施例提供一种非暂时性机器可读介质，其中存储有指令，当由处理器执行时，所述指令使得所述处理器执行操作，所述操作包括：接收由自主驾驶车辆ADV的捕获设备捕获的第一图像；执行图像变换以将所述第一图像变换为第二图像；将对象检测模型应用于所述第一图像和所述第二图像以分别生成第一输出和第二输出；计算所述第一输出和所述第二输出之间的相似性度量；以及如果所述第一图像和先前图像之间的相似性度量的时间变化高于预定阈值，检测所述第一图像为对抗样本。

本公开第三方面实施例提供一种数据处理系统，包括：处理器；以及连接到所述处理器以存储指令的存储器，所述指令在由所述处理器执行时使得所述处理器执行操作，所述操作包括：接收由自主驾驶车辆ADV的捕获设备捕获的第一图像；执行图像变换以将所述第一图像变换为第二图像；将对象检测模型应用于所述第一图像和所述第二图像以分别生成第一输出和第二输出；计算所述第一输出和所述第二输出之间的相似性度量；以及如果所述第一图像和先前图像之间的相似性度量的时间变化高于预定阈值，检测所述第一图像为对抗样本。

附图说明

本公开的实施例通过示例的方式示出并且不限于附图中的图，在附图中相同的附图标记表示相似的元件。

图1是示出根据一个实施例的联网系统的框图。

图2是示出根据一个实施例的自主车辆的示例的框图。

图3A-3B是示出根据一个实施例的与自主车辆一起使用的感知和规划系统的示例的框图。

图4是示出根据一个实施例的对抗样本模块的示例的框图。

图5是示出根据一个实施例的检测对抗样本的工作流的框图。

图6是示出根据一个实施例的用于车辆的对象检测系统的输出的框图。

图7是示出根据一个实施例的具有扰动的用于车辆的对象检测系统的输出的框图。

图8是示出根据一个实施例的方法的流程图。

图9是示出根据一个实施例的数据处理系统的框图。

具体实施方式

将参考以下讨论的细节描述本公开的各个实施例和方面，并且附图将示出各个实施例。以下描述和附图是本公开的说明并且不应被解释为限制本公开。描述了许多具体细节以提供对本公开的各个实施例的全面理解。然而，在某些情况下，为了提供对本公开的实施例的简要讨论，没有描述公知或常规的细节。

说明书中对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特定特征、结构或特性可包括在本公开的至少一个实施例中。在说明书中的各个地方出现的短语“在一个实施例中”不一定都指同一实施例。

根据一些实施例，系统接收由ADV的捕获设备捕获的第一图像。系统将图像变换应用于第一图像以生成第二图像。系统将对象检测模型应用于第一和第二图像以分别生成第一和第二输出。系统计算第一和第二输出之间的相似性度量。如果第一图像和先前图像之间的相似性度量的时间变化高于阈值，则系统将第一图像检测为对抗样本。

图1是示出根据本公开的一个实施例的自主车辆网络配置的框图。参考图1，网络配置100包括自主车辆101，自主车辆101可以通过网络102通信地连接到一个或多个服务器103-104。尽管示出一个自主车辆，但是多个自主车辆可以通过网络102彼此连接和/或连接到服务器103-104。网络102可以是任何类型的网络，诸如局域网(LAN)、诸如因特网的广域网(WAN)、蜂窝网络、卫星网络、或其组合，有线或无线。服务器103-104可以是任何类型的服务器或服务器群集，诸如Web或云服务器、应用服务器、后端服务器或其组合。服务器103-104可以是数据分析服务器、内容服务器、交通信息服务器、地图和兴趣点(MPOI)服务器或位置服务器等。

自主车辆指的是能够被配置为处于自主模式的车辆，在自主模式中，车辆在驾驶员很少或没有输入的情况下导航通过环境。这种自主车辆可包括具有一个或多个传感器的传感器系统，传感器被配置为检测关于车辆操作于其中的环境的信息。车辆及其相关联的控制器使用检测的信息导航通过环境。自主车辆101可以以手动模式、全自主模式或部分自主模式操作。

在一个实施例中，自主车辆101包括但不限于感知和规划系统110、车辆控制系统111、无线通信系统112、用户接口系统113、信息娱乐系统114和传感器系统115。自主车辆101还可包括在普通车辆中包括的某些常见组件，例如引擎、车轮、转向盘、变速器等，这些组件可以被车辆控制系统111和/或感知和规划系统110使用各种通信信号和/或命令(例如加速信号或命令、减速信号或命令、转向信号或命令、制动信号或命令等)控制。

组件110-115可以经由互连、总线、网络或其组合彼此通信地连接。例如，组件110-115可以经由控制器局域网(CAN)总线彼此通信地连接。CAN总线是一种车辆总线标准，其被设计为允许微控制器和设备在没有主机的应用中彼此通信。它是基于消息的协议，最初被设计用于汽车内的多路电气布线，但是也用于许多其它环境中。

现在参考图2，在一个实施例中，传感器系统115包括但不限于一个或多个相机211、全球定位系统(GPS)单元212、惯性测量单元(IMU)213、雷达单元214以及光检测和范围(LIDAR)单元215。GPS系统212可包括可操作以提供关于自主车辆的位置的信息的收发器。IMU单元213可基于惯性加速度感测自主车辆的位置和朝向变化。雷达单元214可以表示使用无线电信号感测自主车辆的局部环境内的对象的系统。在一些实施例中，除了感测对象之外，雷达单元214还可以额外地感测对象的速度和/或航向。LIDAR单元215可以使用激光感测自主车辆所处的环境中的对象。LIDAR单元215可包括一个或多个激光源、激光扫描器以及一个或多个检测器，以及其他系统组件。相机211可包括一个或多个设备以捕获自主车辆周围的环境的图像。相机211可以是静态相机和/或摄影机。相机可以是机械可移动的，例如通过将相机安装在旋转和/或倾斜的平台上。

传感器系统115还可包括其它传感器，诸如声纳传感器、红外传感器、转向传感器、油门传感器、制动传感器和音频传感器(例如麦克风)。音频传感器可以被配置为捕获来自自主车辆周围的环境的声音。转向传感器可以被配置为感测转向盘、车辆的车轮或其组合的转向角。油门传感器和制动传感器分别感测车辆的油门位置和制动位置。在一些情况下，油门传感器和制动传感器可以集成为集成的油门/制动传感器。

在一个实施例中，车辆控制系统111包括但不限于转向单元201、油门单元202(也称为加速单元)和制动单元203。转向单元201用于调节车辆的方向或航向。油门单元202用于控制马达或引擎的速度，马达或引擎的速度转而控制车辆的速度和加速度。制动单元203通过提供摩擦力以使车辆的车轮或轮胎变慢来使车辆减速。注意，图2所示的组件可以以硬件、软件或其组合实现。

返回参考图1，无线通信系统112允许在自主车辆101和外部系统，诸如设备、传感器、其他车辆等之间的通信。例如，无线通信系统112可以直接或经由通信网络与一个或多个设备(诸如在网络102上的服务器103-104)无线通信。无线通信系统112可以使用任何蜂窝通信网络或无线局域网(WLAN)，例如使用WiFi与另一组件或系统通信。无线通信系统112可以例如使用红外链路、蓝牙等直接与设备(例如，乘客的移动设备、显示设备、车辆101内的扬声器)通信。用户接口系统113可以是在车辆101内实现的外围设备的一部分，包括例如键盘、触摸屏显示设备、麦克风和扬声器等。

自主车辆101的一些或所有功能可以由感知和规划系统110控制或管理，尤其是当以自主驾驶模式操作时。感知和规划系统110包括必要的硬件(例如，处理器、存储器、存储设备)和软件(例如，操作系统、规划和路由程序)，以从传感器系统115、控制系统111、无线通信系统112和/或用户接口系统113接收信息，处理接收的信息，规划从起点到目的地点的路线或路径，然后基于规划和控制信息驾驶车辆101。可替换地，感知和规划系统110可以与车辆控制系统111集成。

例如，作为乘客的用户可以例如经由用户接口指定行程的起始位置和目的地。感知和规划系统110获得行程相关数据。例如，感知和规划系统110可以从MPOI服务器获得位置和路线信息，MPOI服务器可以是服务器103-104的一部分。位置服务器提供位置服务，以及MPOI服务器提供地图服务和某些位置的POI。可替换地，这种位置和MPOI信息可本地缓存在感知和规划系统110的永久存储设备中。

当自主车辆101沿着路线移动时，感知和规划系统110还可以从交通信息系统或服务器(TIS)获得实时交通信息。注意，服务器103-104可以由第三方实体操作。可替换地，服务器103-104的功能可以与感知和规划系统110集成。基于实时交通信息、MPOI信息和位置信息，以及由传感器系统115检测或感测的实时局部环境数据(例如，障碍物、对象、附近车辆)，感知和规划系统110可规划最佳路线，并例如经由控制系统111根据规划路线驾驶车辆101，以安全且高效地到达指定目的地。

服务器103可以是用以执行用于各种客户端的数据分析服务的数据分析系统。在一个实施例中，数据分析系统103包括数据收集器121和机器学习引擎122。数据收集器121从各种车辆(自主车辆或者是由人类驾驶员驾驶的常规车辆)收集驾驶统计123。驾驶统计123包括指示发出的驾驶命令(例如，油门、制动、转向命令)和由车辆的传感器在不同时间点捕获的车辆的响应(例如，速度、加速度、减速度、方向)的信息。驾驶统计123还可包括描述不同时间点的驾驶环境的信息，诸如路线(包括起始位置和目的地位置)、MPOI、道路状况、天气状况等。

基于驾驶统计123，机器学习引擎122出于各种目的而生成或训练一组规则、算法和/或预测模型124。在一个实施例中，算法/模型124可包括检测障碍物的模型、用于各种图像变换的算法，包括但不限于模糊、JPEG压缩、位压缩、色深减少等。障碍物检测模型可以是深度学习神经网络模型，诸如深度卷积神经网络模型。然后，算法/模型124可以被上载到ADV上，以便在自主驾驶期间被实时使用。

图3A和3B是示出根据一个实施例的与自主车辆一起使用的感知和规划系统的示例的框图。系统300可以被实现为图1的自主车辆101的部分，包括但不限于感知和规划系统110、控制系统111和传感器系统115。参考图3A-3B，感知和规划系统110包括但不限于定位模块301、感知模块302、预测模块303、决策模块304、规划模块305、控制模块306、路由模块307和对抗样本模块308。

模块301-308中的一些或全部可以以软件、硬件或其组合实现。例如，这些模块可被安装在永久存储设备352中，加载到存储器351中，并由一个或多个处理器(未示出)执行。注意，这些模块中的一些或全部可以通信地连接到图2的车辆控制系统111的一些或全部模块或与之集成。模块301-308中的一些可以被集成在一起作为集成模块。例如，对抗样本模块308可与感知模块302集成为集成模块。

定位模块301确定自主车辆300的当前位置(例如，利用GPS单元212)并管理与用户的行程或路线有关的任何数据。定位模块301(也称为地图和路线模块)管理与用户的行程或路线有关的任何数据。用户可以例如经由用户接口登录并指定行程的起始位置和目的地。定位模块301与自主车辆300的其他组件交流诸如地图和路线信息311，以获得与行程有关的数据。例如，定位模块301可以从位置服务器和地图与POI(MPOI)服务器获得位置和路线信息。位置服务器提供位置服务，以及MPOI服务器提供地图服务和某些位置的POI，它们可作为地图和路线信息311的一部分被缓存。当自主车辆300沿着路线移动时，定位模块301还可以从交通信息系统或服务器获得实时交通信息。

基于由传感器系统115提供的传感器数据和由定位模块301获得的定位信息，由感知模块302确定对周围环境的感知。感知信息可以表示普通驾驶员将感知到的驾驶员正在驾驶的车辆周围的情况。感知可包括车道配置、交通灯信号、例如以对象形式的另一车辆、行人、建筑物、人行横道或其它交通相关标志(例如，停止标志、让步标志)等的相对位置。车道配置包括描述一个或多个车道的信息，诸如，例如车道的形状(例如，直的或弯曲的)、车道的宽度、道路中的车道数量、单向或双向车道、合并或分离车道、驶出车道等。

感知模块302可包括计算机视觉系统或计算机视觉系统的功能，以处理和分析由一个或多个相机捕获的图像，以便识别自主车辆的环境中的对象和/或特征。对象可包括交通信号、车行道边界、其他车辆、行人和/或障碍物等。计算机视觉系统可使用对象识别算法、视频跟踪和其它计算机视觉技术。在一些实施例中，计算机视觉系统可以映射环境、跟踪对象、以及估计对象的速度等。感知模块302还可基于由诸如雷达和/或LIDAR的其他传感器提供的其他传感器数据检测对象。

对于每个对象，预测模块303预测对象将在环境下表现什么。鉴于一组地图/路线信息311和交通规则312，基于感知在时间点的驾驶环境的感知数据执行预测。例如，如果对象是在相反方向上的车辆并且当前驾驶环境包括十字路口，则预测模块303将预测车辆将可能直线向前移动还是转弯。如果感知数据指示十字路口没有交通灯，则预测模块303可以预测车辆在进入十字路口之前可能必须完全停止。如果感知数据指示车辆当前处于仅左转弯车道或仅右转弯车道，则预测模块303可预测车辆将更可能分别进行左转弯或右转弯。

对于每个对象，决策模块304作出关于如何处理该对象的决策。例如，对于特定对象(例如，在交叉路线中的另一车辆)以及描述该对象的元数据(例如，速度、方向、转向角)，决策模块304决定如何遇到该对象(例如，超车、让行、停止、通过)。决策模块304可根据一组规则，诸如交通规则或驾驶规则312作出这些决策，这组规则可存储于永久存储设备352中。

路由模块307被配置为提供从起点到目的地点的一条或多条路线或路径。对于例如从用户接收到的从起始位置到目的地位置的给定行程，路由模块307获得路线和地图信息311并且确定从起始位置用以到达目的地位置的所有可能的路线或路径。路由模块307可以为其确定的从起始位置用以到达目的地位置的每条路线生成地形图形式的参考线。参考线是指没有来自诸如其它车辆、障碍物或交通状况的其它者的任何干扰的理想路线或路径。也就是说，如果在道路上没有其它车辆、行人或障碍物，则ADV应该精确地或紧密地跟随参考线。然后，地形图被提供给决策模块304和/或规划模块305。决策模块304和/或规划模块305检查所有可能的路线，以鉴于由其它模块提供的其它数据(诸如来自定位模块301的交通状况、由感知模块302感知的驾驶环境和由预测模块303预测的交通状况)选择和修改最佳路线中的一个。取决于在时间点的特定驾驶环境，用于控制ADV的实际路径或路线可以接近或不同于由路由模块307提供的参考线。

基于对于每个感知的对象的决策，规划模块305使用由路由模块307提供的参考线作为基础规划用于自主车辆的路径或路线以及驾驶参数(例如，距离、速度和/或转向角)。也就是说，对于给定对象，决策模块304决策对该对象做什么，而规划模块305确定如何做。例如，对于给定对象，决策模块304可以决策经过对象，而规划模块305可以确定是在对象的左侧还是右侧经过。规划和控制数据由规划模块305生成，包括描述车辆300在下一个移动周期(例如，下一个路线/路径段)中将如何移动的信息。例如，规划和控制数据可指示车辆300以30英里每小时(mph)的速度移动10米，然后以25mph的速度改变到右车道。

基于规划和控制数据，控制模块306通过根据由规划和控制数据限定的路线或路径向车辆控制系统111发送适当的命令或信号控制和驾驶自主车辆。规划和控制数据包括足够的信息以沿着路径或路线在不同时间点使用适当的车辆设置或驾驶参数(例如，油门、制动、转向命令)将车辆从路线或路径的第一点驾驶到第二点。

在一个实施例中，规划阶段在多个规划周期(也称为驾驶周期，诸如在100毫秒(ms)的每个时间间隔内)内执行。对于每个规划周期或驾驶周期，将基于规划和控制数据发出一个或多个控制命令。也就是说，对于每100ms，规划模块305规划下一个路线段或路径段，例如包括目标位置和ADV到达目标位置所需的时间。可替换地，规划模块305还可指定具体速度、方向和/或转向角等。在一个实施例中，规划模块305为下一预定的时间段，诸如5秒规划路线段或路径段。对于每个规划周期，规划模块305基于在先前周期中规划的目标位置规划用于当前周期(例如，下一个5秒)的目标位置。然后控制模块306基于当前周期的规划和控制数据生成一个或多个控制命令(例如，油门、制动、转向控制命令)。

注意，决策模块304和规划模块305可以集成为集成模块。决策模块304/规划模块305可包括导航系统或导航系统的功能，以确定用于自主车辆的驾驶路径。例如，导航系统可以确定一系列速度和方向航向，以影响自主车辆沿着基本上避开感知的障碍物的路径的移动，同时大体使自主车辆沿着通向最终目的地的基于车行道的路径前进。目的地可以根据经由用户接口系统113的用户输入而被设置。当自主车辆在操作时，导航系统可以动态地更新驾驶路径。导航系统可以并入来自GPS系统的数据和一个或多个地图，以便确定用于自主车辆的驾驶路径。

图4是示出根据一个实施例的对抗样本模块的示例的框图。对抗样本模块308可以在几个图像样本或图像流(例如，视频馈入)中识别对抗样本。参考图4，在一个实施例中，对抗样本模块308包括诸如图像接收器模块401、图像变换模块403、对象检测模块405、相似性度量计算器407和对抗样本检测模块409的模块。图像接收器模块401可以从ADV 101的传感器系统(例如，相机、LIDAR、RADAR或其组合)接收一个或多个图像。图像变换模块403可以将图像变换应用于接收到的图像以生成一组经变换的图像。图像变换的示例包括但不限于模糊、位减少、色彩减少、JPEG压缩、各种空间滤波等。对象检测模块405可以检测、分类图像(对于原始图像和经变换的图像)中的对象。对象检测模块405可以生成具有用边界框标记的对象的输出图像，边界框具有用于对象分类的相关联的置信度分数。在一个实施例中，对象检测模块405由机器学习或诸如深度神经网络模型的人工智能模型实现。这些模型可能不检测由模型训练期间的数据的过拟合或欠拟合引起的对抗样本中的对象。相似性度量计算器407可以计算用于任何两个输出图像或对象检测输出的相似性度量。相似性度量可以基于两个图像之间的距离生成相似性分数。例如，对于任何两个图像，可以基于加权因子计算距离，加权因子诸如边界框检测的数量、边界框的重叠区域、对象分类是否与重叠边界框匹配的差异。如果原始图像和图像的变换的每一个之间的相似性度量高于预定阈值，则对抗样本检测模块409可以确定图像是对抗样本。对抗样本检测模块409也可基于检测中的时间变化确认样本确实是对抗的。

图5是示出根据一个实施例的检测对抗样本的工作流的框图。工作流500可以由图1的系统100执行。具体地，工作流500可以由图3B的模块308执行。参考图4-5，在一个实施例中，工作流500接收输入图像的时间序列(时间＝t0、t1、…tN)501，一次一个或多个图像。在另一实施例中，工作流500接收视频馈入。对于接收到的每个图像，工作流500可对图像应用一个或多个图像变换(T1、T2、…TM)503(使用图像变换模块403)。图像变换包括模糊、滤波、色彩减少、位减少、JPEG压缩等，或其组合。例如，让图像0是在时间＝0(参考时间)处的图像。图像0可以被应用JPEG压缩，例如T1(图像0)。原始图像及其变换，例如图像0和T1(图像0)可以通过对象检测模块405。对象检测模块405使用对象检测ML/AI模型或图像识别模型生成针对原始图像513和经变换的图像515的输出。工作流500然后应用相似性度量计算507(使用相似性度量计算器模块407)以计算用于图像0/T1(图像0)对的距离测量。尽管仅示出一个变换，但是可以应用多个变换生成用于相似性确定的一个或多个对，诸如图像0/T1(图像0)、图像0/T2(图像0)、图像0/T3(图像0)…图像0/TM(图像0)。

距离测量可以基于使用加权因子的方程计算。例如，对于原始图像(例如，图像0)和经变换的图像(例如，T1(图像0))，用于距离(相似性度量)的方程可以是：距离＝w_1*(f_1)+w_2*(f_2)+…，其中w_x是权重，以及f_x是表示原始图像和经变换的图像的输出之间的特性的差异的因子。差异因子可包括但不限于原始图像与经变换图像之间的，由对象检测算法推断的边界框的数量的比率、重叠边界框的数量的比率、边界框中的每一个的匹配对象分类的百分比、边界框的置信度分数的差异，以及重叠边界框的重叠区域的百分比。

基于用于图像0和一个或多个对应的变换图像中的每一个的距离测量计算，工作流500确定图像0是否是对抗样本509。在一个实施例中，如果差异测量结果高于第一预定阈值，则图像0是对抗的。此处，对抗样本指的是具有使得来自图像的对象不被对象检测模块检测到的扰动的样本。动机在于，经变换的图像将再次允许对象被检测，因为对抗样本的检测是跨变换不一致的，并且这些不一致性由经变换的图像捕获。

在另一实施例中，当差异测量对于两个或更多个时间样本不一致时，通过时间变化511确认对抗图像。例如，在连续时间帧(例如，T＝0和T＝1)之间由捕获设备捕获的对象应当存在于两个时间帧中。因此，如果对象从帧中去除并且一个或多个先前帧捕获对象，则该帧可被确认为对抗样本。可以通过针对距离测量中的时间变化分析连续图像帧的距离测量来计算确定。例如，如果当前时间帧和先前时间帧之间的距离测量的差异高于第二预定阈值，则用于当前时间帧的图像被确认为对抗样本。在另一实施例中，时间变化分析可以由ML/AI模型或任何统计模型执行。

在一个实施例中，如果图像帧被检测为对抗样本，则ADV可以激活用于ADV的故障安全机制。例如，ADV的传感器系统可以放弃(一个或多个)对抗帧，例如，一个或多个帧被暂时忽略，直到对抗样本失效。在另一实施例中，对抗图像被来自其它相机、红外、LIDAR、RADAR或ADV的其它成像传感器的另一图像增强或替代。在一个实施例中，如果车辆处于自动驾驶模式，同时检测到和/或确认了对抗样本，则ADV进入故障安全模式，并警告(经由显示、声音或触觉反馈振动等)用户暂时接管ADV的转向。尽管仅描述了一些故障安全机制，但是可以采用其他传统的故障安全机制。

图6-7示出用于障碍物检测的ML/AI模型具有盲点。图6是示出根据一个实施例的用于车辆的对象检测系统的输出的框图。图7是示出根据一个实施例的具有扰动的用于车辆的对象检测系统的输出的框图。参考图6，白色货车被检测(具有边界框)为具有0.99的置信度分数的“汽车”。虽然图7示出具有扰动的同一货车，但是该货车没有被检测到是障碍物。此处，两种场景都使用相同的对象检测算法(例如，相同的ML/AI模型)用于对象检测。

图8是示出根据一个实施例的方法的流程图。过程800可以由可包括软件、硬件或其组合的处理逻辑执行。例如，过程800可由图1的感知和规划系统110或图3B的对抗样本模块308执行。参照图8，在框801处，处理逻辑接收由ADV的捕获设备捕获的第一图像。在框802处，处理逻辑将图像变换应用于第一图像以生成第二图像。在框803处，处理逻辑将对象检测模型应用于第一和第二图像以分别生成第一和第二输出。在框804处，处理逻辑计算第一和第二输出之间的相似性度量。在框805处，如果第一图像和先前图像之间的相似性度量的时间变化高于阈值，则处理逻辑将第一图像检测为对抗样本。

在一个实施例中，第一和第二输出包括边界框的列表、边界框的位置、以及针对输入图像的边界框的每个类对象的注释。在一个实施例中，图像变换包括色深减少、图像压缩或模糊变换。在一个实施例中，基于两个输入之间的距离计算相似性度量。

在另一实施例中，距离包括类预测、边界框的数量和边界框的重叠区域中的差异。在一个实施例中，如果对抗样本被识别，则处理逻辑还激活用于ADV的故障安全机制。在另一实施例中，故障安全机制包括如果ADV处于自动驾驶模式则忽略对抗样本或将控制转移给ADV的用户。

注意，如上所示和所述的一些或所有组件可以用软件、硬件或其组合实现。例如，这些组件可以被实现为安装并存储在永久存储设备中的软件，软件可以由处理器(未示出)加载并执行在存储器中以执行贯穿本申请所述的过程或操作。可替换地，这些组件可被实现为被编程或嵌入到专用硬件中的可执行代码，专用硬件诸如集成电路(例如，专用IC或ASIC)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)，可执行代码可经由来自应用的对应驱动器和/或操作系统访问。此外，这些组件可以被实现为处理器或处理器内核中的特定硬件逻辑，作为经由一个或多个特定指令软件组件可访问的指令集的一部分。

图9是示出可与本发明的一个实施例一起使用的数据处理系统的示例的框图。例如，系统1500可以表示执行上述任何过程或方法中的上述数据处理系统中的任一个，诸如，例如ADV 101或上述服务器，诸如，例如上述服务器103。

系统1500可包括许多不同的组件。这些组件可以被实现为集成电路(IC)、其部分、离散电子设备、或适用于诸如计算机系统的主板或内插式卡的电路板的其它模块、或被实现为以其它方式并入计算机系统的机箱内的组件。

还应当注意，系统1500旨在示出计算机系统的许多组件的高级视图。然而，应当理解的是，在某些实施方式中可以存在额外的组件，并且此外，在其他实施方式中可以出现所示组件的不同布置。系统1500可以表示台式机、笔记本电脑、平板计算机、服务器、移动电话、媒体播放器、个人数字助理(PDA)、智能手表、个人通信器、游戏设备、网络路由器或集线器、无线接入点(AP)或中继器、机顶盒或其组合。此外，虽然仅示出单个机器或系统，但是术语“机器”或“系统”还应当被认为包括单独地或联合地执行一组(或多组)指令以执行本文所讨论的方法中的任何一个或多个的机器或系统的任何集合。

在一个实施例中，系统1500包括经由总线或互连1510连接的处理器1501、存储器1503和设备1505-1508。处理器1501可以表示其中包括单个处理器核或多个处理器核的单个处理器或多个处理器。处理器1501可表示一个或多个通用处理器，诸如微处理器、中央处理单元(CPU)等。更特别地，处理器1501可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、或实现其它指令集的处理器、或实现指令集的组合的处理器。处理器1501还可以是一个或多个专用处理器，诸如专用集成电路(ASIC)、蜂窝或基带处理器、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、图形处理器、网络处理器、通信处理器、密码处理器、协处理器、嵌入式处理器或能够处理指令的任何其它类型的逻辑。

处理器1501可以是低功率多核处理器插槽，诸如超低电压处理器，处理器1501可以充当主处理单元和中央集线器，用于与系统的各种组件通信。这种处理器可以实现为片上系统(SoC)。处理器1501被配置为执行指令以用于执行本文所讨论的操作和步骤。系统1500可进一步包括与可选图形子系统1504通信的图形接口，可选图形子系统1504可包括显示控制器、图形处理器和/或显示设备。

处理器1501可与存储器1503通信，在一个实施例中，存储器1503可经由多个存储器设备实现以提供给定量的系统存储器。存储器1503可包括一个或多个易失性存储(或存储器)设备，诸如随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或其他类型的存储设备。存储器1503可以存储包括由处理器1501或任何其它设备执行的指令序列的信息。例如，各种操作系统、设备驱动器、固件(例如，输入输出基本系统或BIOS)和/或应用程序的可执行代码和/或数据可以被加载到存储器1503中，并由处理器1501执行。操作系统可以是任何类型的操作系统诸如，例如来自

的

操作系统、来自苹果(Apple)的Mac

来自

的

或其它实时或嵌入式操作系统，诸如VxWorks。

系统1500还可包括IO设备，诸如设备1505-1508，包括(一个或多个)网络接口设备1505、(一个或多个)可选输入设备1506和(一个或多个)其它可选IO设备1507。网络接口设备1505可包括无线收发器和/或网络接口卡(NIC)。无线收发器可以是WiFi收发器、红外收发器、蓝牙收发器、WiMax收发器、无线蜂窝电话收发器、卫星收发器(例如，全球定位系统(GPS)收发器)或其它射频(RF)收发器，或其组合。NIC可以是以太网卡。

(一个或多个)输入设备1506可包括鼠标、触摸板、触敏屏(其可与显示设备1504集成)、诸如指示笔的指示器设备、和/或键盘(例如，作为触敏屏的一部分显示的物理键盘或虚拟键盘)。例如，输入设备1506可包括连接到触摸屏的触摸屏控制器。触摸屏和触摸屏控制器可以例如使用多种触摸灵敏度技术中的任何一种检测接触和移动或其中断，多种触摸灵敏度技术包括但不限于电容性、电阻性、红外和表面声波技术，以及用于确定与触摸屏的一个或多个接触点的其它接近传感器阵列或其它元件。

IO设备1507可包括音频设备。音频设备可包括扬声器和/或麦克风，以促进语音使能功能，诸如语音识别、语音复制、数字记录和/或电话功能。其它IO设备1507还可包括通用串行总线(USB)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如PCI-PCI桥)、传感器(例如，诸如加速度计、陀螺仪、磁力计、光传感器、罗盘、接近传感器等的运动传感器)或其组合。设备1507可以进一步包括成像处理子系统(例如，相机)，其可包括光学传感器，诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光学传感器，用于促进相机功能，诸如记录照片和视频剪辑。某些传感器可以经由传感器集线器(未示出)连接到互连1510，而诸如键盘或热传感器的其它设备可以由嵌入式控制器(未示出)控制，这取决于系统1500的具体配置或设计。

为了提供诸如数据、应用程序、一个或多个操作系统等信息的持久存储，大容量存储(未图示)也可连接到处理器1501。在各种实施例中，为了使能更薄和更轻的系统设计以及改进系统响应性，该大容量存储可经由固态设备(SSD)实现。然而，在其它实施例中，大容量存储可主要使用具有较少量SSD存储的硬盘驱动器(HDD)实现，以充当SSD缓存，以在断电事件期间启用上下文状态和其它此类信息的非易失性存储，使得在系统活动的重新启动时可发生快速加电。此外，闪存设备可以例如经由串行外围接口(SPI)连接到处理器1501。该闪存设备可以提供系统软件(包括基本输入/输出软件(BIOS)以及系统的其它固件)的非易失性存储。

存储设备1508可包括计算机可访问存储介质1509(也称为机器可读存储介质或计算机可读介质)，在其上存储体现本文所述的方法或功能中的任何一个或多个的一组或多组指令或软件(例如，模块、单元和/或逻辑1528)。处理模块/单元/逻辑1528可以表示上述组件中的任何一个，诸如，例如图1的感知和规划系统110或图3B的对抗样本模块308。在由数据处理系统1500执行处理模块/单元/逻辑1528期间，处理模块/单元/逻辑1528还可以完全或至少部分地驻留在存储器1503内和/或处理器1501内，存储器1503和处理器1501也构成机器可访问存储介质。处理模块/单元/逻辑1528还可以经由网络接口设备1505通过网络发送或接收。

计算机可读存储介质1509还可用于持久地存储上述某些软件功能。尽管在示例性实施例中将计算机可读存储介质1509示出为单个介质，但是术语“计算机可读存储介质”应当被视为包括存储一组或多组指令的单个介质或多个介质(例如，集中式或分布式数据库，和/或相关联的缓存和服务器)。术语“计算机可读存储介质”还应当被视为包括能够存储或编码用于由机器执行的指令集并且使得机器执行本发明的方法中的任何一个或多个的任何介质。术语“计算机可读存储介质”因此应被视为包括但不限于固态存储器、光和磁介质、或任何其它非暂时性机器可读介质。

处理模块/单元/逻辑1528、组件和本文所述的其他特征可以被实现为离散硬件组件或者被集成在诸如ASIC、FPGA、DSP或类似设备之类的硬件组件的功能性中。另外，处理模块/单元/逻辑1528可以被实现为硬件设备内的固件或功能电路。此外，处理模块/单元/逻辑1528可以以硬件设备和软件组件的任何组合实现。

注意，尽管系统1500是使用数据处理系统的各种组件示出，但它不旨在表示互连组件的任何特定体系结构或方式；因为这些细节与本发明的实施例没有密切关系。还将理解的是，具有更少组件或可能更多组件的网络计算机、手持式计算机、移动电话、服务器和/或其它数据处理系统也可与本发明的实施例一起使用。

已经关于对计算机存储器内的数据位的操作的算法和符号表示呈现了前述详细描述的一些部分。这些算法描述和表示是数据处理领域的技术人员用来最有效地将他们的工作实质传达给本领域的其他技术人员的方式。算法在这里并且通常被认为是导致期望结果的自洽操作序列。这些操作是需要对物理量进行物理操纵的那些操作。

然而，应当记住的是，所有这些和类似的术语都与适当的物理量相关联，并且仅仅是应用于这些量的方便的标记。除非特别声明，否则从以上讨论中显而易见的是，应当理解的是，在整个说明书中，使用诸如所附权利要求书中所阐述的术语的讨论指的是计算机系统或类似电子计算设备的动作和过程，所述计算机系统或类似电子计算设备将计算机系统的寄存器和存储器内的表示为物理(电子)量的数据操纵和变换成计算机系统存储器或寄存器或其它这样的信息存储、传输或显示设备内的类似地表示为物理量的其它数据。

图中所示的技术可以使用在一个或多个电子设备上存储和执行的代码和数据实现。这样的电子设备使用计算机可读介质存储和(内部地和/或通过网络与其他电子设备)交流代码和数据，计算机可读介质诸如非暂时性计算机可读存储介质(例如，磁盘、光盘、随机存取存储器、只读存储器、闪存设备、相变存储器)和暂时性计算机可读传输介质(例如，电、光、声或其他形式的传播信号，诸如载波、红外信号、数字信号)。

在前述附图中描述的过程或方法可以由包括硬件(例如，电路、专用逻辑等)、固件、软件(例如，体现在非暂时性计算机可读介质上)或两者的组合的处理逻辑来执行。尽管以上关于一些顺序操作描述了过程或方法，但是应当理解的是，可以以不同的顺序执行所述的一些操作。此外，一些操作可以并行地而不是顺序地执行。

在前述说明书中，已经参考本发明的具体示例性实施例描述了本发明的实施例。显然，在不背离如所附权利要求书中所阐述的本发明的更宽的精神和范围的情况下，可以对其进行各种修改。因此，说明书和附图应被认为是说明性的而不是限制性的。

Claims

1.一种计算机实现的方法，包括：

接收由自主驾驶车辆ADV的捕获设备捕获的第一图像；

执行图像变换以将所述第一图像变换为第二图像；

将对象检测模型应用于所述第一图像和所述第二图像以分别生成第一输出和第二输出；

计算所述第一输出和所述第二输出之间的相似性度量；以及

如果所述第一图像和先前图像之间的相似性度量的时间变化高于预定阈值，检测所述第一图像为对抗样本。

2.如权利要求1所述的方法，其中所述第一输出和所述第二输出中的每一个包括边界框的列表、所述边界框的位置、以及针对所述输入图像的所述边界框的每个类对象的注释。

3.如权利要求1所述的方法，其中所述图像变换包括色深减少、图像压缩或模糊变换。

4.如权利要求1所述的方法，其中所述相似性度量是基于多个输入之间的距离计算的。

5.如权利要求4所述的方法，其中所述距离包括类预测、边界框的数量和所述边界框的重叠区域中的差异。

6.如权利要求1所述的方法，还包括：如果检测到对抗样本，激活用于所述ADV的故障安全机制。

7.如权利要求6所述的方法，其中所述故障安全机制包括，如果所述ADV处于自动驾驶模式，忽略所述对抗样本或将控制转移给所述ADV的用户。

8.一种非暂时性机器可读介质，其中存储有指令，当由处理器执行时，所述指令使得所述处理器执行操作，所述操作包括：

接收由自主驾驶车辆ADV的捕获设备捕获的第一图像；

执行图像变换以将所述第一图像变换为第二图像；

计算所述第一输出和所述第二输出之间的相似性度量；以及

9.如权利要求8所述的非暂时性机器可读介质，其中所述第一输出和所述第二输出中的每一个包括边界框的列表、所述边界框的位置、以及针对所述输入图像的所述边界框的每个类对象的注释。

10.如权利要求8所述的非暂时性机器可读介质，其中所述图像变换包括色深减少、图像压缩或模糊变换。

11.如权利要求8所述的非暂时性机器可读介质，其中所述相似性度量是基于多个输入之间的距离计算的。

12.如权利要求11所述的非暂时性机器可读介质，其中所述距离包括类预测、边界框的数量和所述边界框的重叠区域中的差异。

13.如权利要求8所述的非暂时性机器可读介质，其中所述操作还包括：如果检测到对抗样本，激活用于所述ADV的故障安全机制。

14.如权利要求13所述的非暂时性机器可读介质，其中所述故障安全机制包括，如果所述ADV处于自动驾驶模式，忽略所述对抗样本或将控制转移给所述ADV的用户。

15.一种数据处理系统，包括：

处理器；以及

连接到所述处理器以存储指令的存储器，所述指令在由所述处理器执行时使得所述处理器执行操作，所述操作包括：

接收由自主驾驶车辆ADV的捕获设备捕获的第一图像；

执行图像变换以将所述第一图像变换为第二图像；

计算所述第一输出和所述第二输出之间的相似性度量；以及

16.如权利要求15所述的系统，其中所述第一输出和所述第二输出中的每一个包括边界框的列表、所述边界框的位置、以及针对所述输入图像的所述边界框的每个类对象的注释。

17.如权利要求15所述的系统，其中所述图像变换包括色深减少、图像压缩或模糊变换。

18.如权利要求15所述的系统，其中所述相似性度量是基于多个输入之间的距离计算的。

19.如权利要求18所述的系统，其中所述距离包括类预测、边界框的数量和所述边界框的重叠区域中的差异。

20.如权利要求15所述的系统，其中所述操作还包括：如果检测到对抗样本，激活用于所述ADV的故障安全机制。

21.如权利要求20所述的系统，其中所述故障安全机制包括，如果所述ADV处于自动驾驶模式，忽略所述对抗样本或将控制转移给所述ADV的用户。