CN117993438A

CN117993438A - 公平神经网络

Info

Publication number: CN117993438A
Application number: CN202311373074.5A
Authority: CN
Inventors: 华心如; 徐焕中; J·布兰切特; V·A·阮; 马科斯·保罗·杰拉尔多卡斯特罗
Original assignee: Ford Global Technologies LLC; Leland Stanford Junior University
Current assignee: Ford Global Technologies LLC; Leland Stanford Junior University
Priority date: 2022-11-01
Filing date: 2023-10-23
Publication date: 2024-05-07
Also published as: DE102023129595A1; US20240144663A1

Abstract

本公开提供“公平神经网络”。公开了一种系统，所述系统包括计算机，所述计算机包括处理器和存储器，所述存储器包括指令，所述指令可由所述处理器执行以将由传感器获取的图像输入到神经网络以输出关于所述图像中包括的对象的预测。可以基于以下各项来训练所述神经网络：(a)使应用于损失函数的概率分布的期望值最小化以选择产生具有选定不确定性水平的解的训练图像的分布稳健优化，以及(b)基于对抗图像生成附加输入图像。

Description

公平神经网络

技术领域

本公开涉及神经网络系统。

背景技术

图像可以由传感器获取并且使用计算机进行处理以确定关于系统周围环境的数据。例如，计算机可以从一个或多个图像传感器获取图像，所述图像可以被处理以确定关于对象的数据。计算机可以使用从对象的图像中提取的数据来操作系统，包括车辆、机器人、安全系统和/或对象跟踪系统。

发明内容

可以训练神经网络以确定关于系统周围的环境的数据。例如，如本文所述的系统可以用于定位系统周围的环境中的对象并且基于对象的位置来操作系统。在一些示例中，可以将传感器数据提供给计算机以确定对象身份和对象位置，并且基于对象的身份和位置来确定系统轨迹。轨迹是可以被指示为坐标系中的坐标的一组位置连同相应位置处的速度(例如，指示速度和航向的矢量)。系统中的计算机可以确定用于操作系统的轨迹，所述轨迹相对于对象定位系统或系统的部分。本文将车辆描述为示例，所述车辆包括系统，所述系统包括用于获取关于对象的数据的传感器、用于处理传感器数据的计算机和用于基于来自计算机的输出来操作车辆的控制器。可以对系统周围的环境中的对象作出响应的可以包括传感器、计算机和控制器的其他系统包括机器人、安全系统和对象跟踪系统。

图像传感器用于获取关于系统周围的环境的图像数据。可以将图像数据输入到在计算机中包括的神经网络以确定关于环境的预测。例如，图像传感器可以获取图像数据并且将图像数据输入到神经网络。神经网络可以输入图像数据并且确定图像中包括的对象的身份和位置。在图像传感器和神经网络包括在车辆中的示例中，车辆中的计算机可以基于对象的身份和位置来确定车辆轨迹。在图像传感器和神经网络包括在机器人中的示例中，机器人中的计算机可以确定夹持器的轨迹，以使夹持器移动到其可以抓握对象的位置。在图像传感器和神经网络包括在安全系统中的示例中，安全系统中的计算机可以基于识别图像中的人来解锁门。在图像传感器和神经网络包括在对象跟踪系统中的示例中，计算机可以在包裹分拣设施中运送包裹。使用神经网络操作以检测车辆周围的环境中的对象的车辆将用作本文的非限制性示例，然而，本文讨论的用于增强训练神经网络的公平性的技术将通常适用于任何神经网络图像处理任务。

经训练的神经网络可以在涉及对象分类和图像生成的众多任务中表现良好。然而，可能不会影响人类观察者或不会被人类观察者感知的小扰动可能会显著降低训练良好的深度神经网络的性能。本文描述的技术通过使用对抗数据集生成来生成图像数据而增强神经网络训练，所述图像数据会导致神经网络失效，而看起来类似于由神经网络成功处理的图像。对抗数据集生成可以生成不易察觉到与输入图像不同的图像。不易察觉的不同图像的大小、位置、取向、亮度、对比度或纹理可能不同，而人类观察者通常不会基于视觉检查来检测图像之间的差异。可以使用两个图像差异度量来测量不易察觉的差异：1-SSIM和PieApp。下面将关于图3讨论1-SSIM和PieApp。使用由1-SSIM和/或PieAPP测量的不易察觉的不同图像来训练神经网络可以通过将不会包括在基于人类观察编译的训练数据集中的图像添加到训练数据集来增强神经网络训练。

神经网络训练也受到限制，因为训练的质量取决于训练数据集与将经训练的神经网络释放到世界中以供使用时将遇到的数据的比较情况。本文描述的技术使用分布稳健优化(DRO)，分布稳健优化是用于从训练数据集中选择图像分布的技术，其镜像在现实世界中将遇到的未知图像分布。稳健的神经网络在测试数据集上经历的错误率类似于在训练期间遇到的错误率。用DRO和优化设计的不易察觉的不同测试图像训练神经网络可以通过提高公平性来增强神经网络的性能。在经训练以辨识图像中的对象的神经网络的背景下的公平性意味着神经网络在现实世界中遇到的一系列图像上实现与由训练数据集生成的错误率相同的错误率。使用对抗数据集生成和DRO来增强训练数据集可以通过使用对将在现实世界中遇到的图像数据进行建模的训练数据集来训练神经网络而增强公平性。

本文公开了一种方法，所述方法包括将由传感器获取的图像输入到神经网络以输出关于在所述图像中包括的对象的预测，并且其中基于以下各项来训练所述神经网络：(a)使应用于损失函数的概率分布的期望值最小化以选择产生具有选定不确定性水平的解的训练图像的分布稳健优化，以及(b)基于对抗图像生成附加输入图像。输出关于图像的预测可以包括输出对象身份和对象位置。神经网络可以输出指示关于图像的预测正确的概率的置信值。可以基于基于输入图像将来自神经网络的输出与地面实况数据进行比较来确定损失函数。神经网络可以包括卷积层和全连接层。可以将输入图像分别输入到神经网络多次，并且将损失函数反向传播通过神经网络的层以选择使损失函数最小化的权重。基于对抗图像生成附加输入图像可以包括基于结构相似性指数度量来确定不易察觉的差异。

结构相似性指数度量可以生成对于人类观察者来说不易察觉到不同但会导致神经网络失效的图像。基于对抗图像生成附加输入图像可以包括基于用PieAPP神经网络处理输入图像来确定不易察觉的差异。PieAPP神经网络可以生成对于人类观察者来说不易察觉到不同但会导致神经网络失效的图像。结构相似性指数度量可以基于确定联合像素均值乘以联合标准偏差与求和的像素均值乘以求和的像素标准偏差的比率。PieApp神经网络可以通过确定成对偏好来确定图像相似性。结构相似性指数度量和/或PieApp神经网络可以生成用于训练神经网络的对抗数据集。基于对抗网络来训练神经网络可以实现公平性。

还公开了一种计算机可读介质，所述计算机可读介质存储用于执行上述方法步骤中的一些或全部的程序指令。还公开了一种计算机，所述计算机被编程用于执行上述方法步骤中的一些或全部，所述计算机包括计算机设备，所述计算机设备被编程用于将由传感器获取的图像输入到神经网络以输出关于在所述图像中包括的对象的预测，并且其中基于以下各项来训练所述神经网络：(a)使应用于损失函数的概率分布的期望值最小化以选择产生具有选定不确定性水平的解的训练图像的分布稳健优化，以及(b)基于对抗图像生成附加输入图像。输出关于图像的预测可以包括输出对象身份和对象位置。神经网络可以输出指示关于图像的预测正确的概率的置信值。可以基于基于输入图像将来自神经网络的输出与地面实况数据进行比较来确定损失函数。神经网络可以包括卷积层和全连接层。可以将输入图像分别输入到神经网络多次，并且将损失函数反向传播通过神经网络的层以选择使损失函数最小化的权重。基于对抗图像生成附加输入图像可以包括基于结构相似性指数度量来确定不易察觉的差异。

所述指令可以包括另外的指令，其中结构相似性指数度量可以生成对于人类观察者来说不易察觉到不同但会导致神经网络失效的图像。基于对抗图像生成附加输入图像可以包括基于用PieAPP神经网络处理输入图像来确定不易察觉的差异。PieAPP神经网络可以生成对于人类观察者来说不易察觉到不同但会导致神经网络失效的图像。结构相似性指数度量可以基于确定联合像素均值乘以联合标准偏差与求和的像素均值乘以求和的像素标准偏差的比率。PieApp神经网络可以通过确定成对偏好来确定图像相似性。结构相似性指数度量和/或PieApp神经网络可以生成用于训练神经网络的对抗数据集。基于对抗网络来训练神经网络可以实现公平性。

附图说明

图1是示例性交通基础设施系统的框图。

图2是示例性神经网络的图。

图3是被配置为增强公平性的示例性神经网络的图。

图4是用于生成对抗数据集的示例性过程的流程图。

图5是用于确定分布稳健优化的示例性过程的流程图。

图6是基于对象位置操作车辆的示例性过程的流程图。

具体实施方式

图1是可以包括交通基础设施节点105的感测系统100的图，所述交通基础设施系统包括服务器计算机120和静止传感器122。感测系统100包括车辆110，所述车辆可在自主(“自主”本身在本公开中意指“完全自主”)模式、半自主模式和乘员驾驶(也被称为非自主)模式下操作。一个或多个车辆110的计算装置115可以从传感器116接收关于车辆110的操作的数据。计算装置115可以以自主模式、半自主模式或非自主模式操作车辆110。

计算装置115包括诸如已知的处理器和存储器。此外，存储器包括一种或多种形式的计算机可读介质并且存储指令，所述指令可由处理器执行来执行包括如本文所公开的各种操作。例如，计算装置115可以包括编程以操作车辆制动、推进(即，通过控制内燃发动机、电动马达、混合动力发动机等中的一者或多者来控制车辆110的加速度)、转向、气候控制、内部灯和/或外部灯等中的一者或多者，以及确定计算装置115(而不是人类操作员)是否以及何时控制此类操作。

计算装置115可以包括多于一个计算装置(即，包括在车辆110中以用于监测和/或控制各种车辆部件的控制器等(即，动力传动系统控制器112、制动控制器113、转向控制器114等))，或即经由如下面进一步描述的车辆通信总线通信地联接到所述多于一个计算装置。计算装置115通常被布置用于通过车辆通信网络(即，包括车辆110中的总线，诸如控制器局域网络(CAN)等)通信；车辆110网络可另外或替代地包括诸如已知的有线或无线通信机制，即以太网或其他通信协议。

计算装置115可经由车辆网络向车辆中的各种装置(即，控制器、致动器、传感器(包括传感器116)等)传输消息和/或从所述各种装置接收消息。替代地或另外，在计算装置115实际上包括多个装置的情况下，可使用车辆通信网络来在本公开中表示为计算装置115的装置之间通信。此外，如下文所提及，各种控制器或感测元件(诸如传感器116)可经由车辆通信网络向计算装置115提供数据。

另外，计算装置115可被配置用于通过车辆对基础设施(V2X)接口111经由网络130与远程服务器计算机120(即，云服务器)通信，如下所描述的，所述接口包括硬件、固件和软件，所述硬件、固件和软件准许计算装置115经由诸如无线互联网或蜂窝网络的网络130与远程服务器计算机120通信。因此，V2X接口111可以包括被配置为利用各种有线和/或无线联网技术(即，蜂窝、/>蓝牙低能量(BLE)、超宽带(UWB)、对等通信、基于UWB的雷达、IEEE 802.11和/或其他有线和/或无线分组网络或技术)的处理器、存储器、收发器等。计算装置115可以被配置用于使用即在邻近车辆110之间在移动自组网的基础上形成或通过基于基础设施的网络形成的车辆对车辆(V2V)网络(即，根据包括蜂窝通信(C-V2X)无线通信蜂窝、专用短程通信(DSRC)和/或类似的通信)通过V2X(车辆对一切)接口111与其他车辆110通信。计算装置115还包括诸如已知的非易失性存储器。计算装置115可以通过将数据存储在非易失性存储器中来记录数据，以便以后检索并经由车辆通信网络和车辆对基础设施(V2X)接口111传输到服务器计算机120或用户移动装置160。

如已经提及的，用于在没有人类操作员干预的情况下操作一个或多个车辆110部件(即，制动、转向、推进等)的编程通常包括在存储器中所存储的并可由计算装置115的处理器执行的指令中。使用在计算装置115中接收的数据(即，来自传感器116的传感器数据、服务器计算机120等的数据)，计算装置115可以在没有驾驶员的情况下进行各种确定和/或控制各种车辆110部件和/或操作以操作车辆110。例如，计算装置115可以包括编程以调节车辆110操作行为(即，车辆110操作的物理表现)，诸如速度、加速度、减速度、转向等，以及策略性行为(即，通常以意图实现路线的有效穿越的方式控制操作行为)，诸如车辆之间的距离和/或车辆之间的时间量、车道改变、车辆之间的最小间隙、左转跨过路径最小值、到特定位置处的到达时间以及从到达到穿过十字路口的十字路口(无信号灯)最短时间。

如本文所使用的术语控制器包括通常被编程来监测和/或控制特定车辆子系统的计算装置。示例包括动力传动系统控制器112、制动控制器113和转向控制器114。控制器可为诸如已知的电子控制单元(ECU)，可能包括如本文所描述的附加的编程。控制器可通信地连接到计算装置115并且从所述计算装置接收指令以根据指令来致动子系统。例如，制动控制器113可从计算装置115接收指令以操作车辆110的制动器。

用于车辆110的一个或多个控制器112、113、114可以包括已知的电子控制单元(ECU)等，作为非限制性示例，包括一个或多个动力传动系统控制器112、一个或多个制动控制器113和一个或多个转向控制器114|。控制器112、113、114中的每一者可以包括相应的处理器和存储器以及一个或多个致动器。控制器112、113、114可以被编程并且连接到车辆110通信总线，诸如控制器局域网(CAN)总线或局域互连网(LIN)总线，以从计算装置115接收指令并且基于指令而控制致动器。

传感器116可以包括已知的多种装置，以经由车辆通信总线提供数据。例如，固定到车辆110的前保险杠(未示出)的雷达可提供从车辆110到车辆110前方的下一车辆的距离，或者设置在车辆110中的全球定位系统(GPS)传感器可提供车辆110的地理坐标。例如，由雷达和/或其他传感器116提供的距离和/或由GPS传感器提供的地理坐标可以由计算装置115用来自主或半自主地操作车辆110。

车辆110通常是能够自主和/或半自主操作并且具有三个或更多个车轮的基于地面的车辆110(即，客车、轻型货车等)。车辆110包括一个或多个传感器116、V2X接口111、计算装置115和一个或多个控制器112、113、114。传感器116可以收集与车辆110和车辆110的操作环境相关的数据。以举例的方式但非限制，传感器116可以包括即测高仪、相机、激光雷达、雷达、超声传感器、红外传感器、压力传感器、加速度计、陀螺仪、温度传感器、压力传感器、霍尔传感器、光学传感器、电压传感器、电流传感器、机械传感器(诸如开关)等。传感器116可以用来感测车辆110的操作环境，即，传感器116可以检测诸如天气条件(降雨、外界温度等)的现象、道路坡度、道路位置(即，使用道路边缘、车道标记等)或目标对象(诸如邻近车辆110)的位置。传感器116还可以用于收集数据，包括与车辆110的操作相关的动态车辆110数据，诸如速度、横摆率、转向角度、发动机转速、制动压力、油压、施加到车辆110中的控制器112、113、114的功率电平、在部件之间的连接性以及车辆110的部件的准确且及时的性能。

车辆可以被配备为以自主模式、半自主模式或手动模式操作。半自主模式或完全自主模式意指车辆可以由作为具有传感器和控制器的系统的一部分的计算装置部分地或完全地驾驶的操作模式。出于本公开的目的，自主模式被定义为车辆推进(即，经由包括内燃发动机和/或电动马达的动力传动系统)、制动和转向中的每一者由一个或多个车辆计算机控制的模式；在半自主模式中，车辆计算机控制车辆推进、制动和转向中的一者或多者。在非自主模式中，这些都不由计算机控制。在半自主模式中，它们中的一些但不是全部由计算机控制。

交通基础设施节点105可以包括物理结构，诸如塔或其他支撑结构(即，杆子、可安装到桥梁支撑件的盒子、蜂窝电话塔、道路标志支撑件等)，基础设施传感器122以及服务器计算机120可安装、存储和/或容纳在所述物理结构上并且得以供电等。为了便于说明，在图1中示出一个交通基础设施节点105，但是系统100可以并且很可能将包括数十、数百或数千个交通基础设施节点105。交通基础设施节点105通常是静止的，即，固定到特定地理位置并且无法从所述位置移动。基础设施传感器122可以包括一个或多个传感器，诸如上文针对车辆110传感器116所描述的，即，激光雷达、雷达、相机、超声传感器等。基础设施传感器122是固定的或静止的。也就是说，每个传感器122安装到基础设施节点以便具有基本不移动且不改变的视野。

服务器计算机120通常具有与车辆110的V2X接口111和计算装置115共同的特征，即计算机处理器和存储器以及用于经由网络130通信的配置，并且因此将不进一步描述这些特征以避免冗余。尽管为了便于说明而未示出，但是交通基础设施节点105还包括电源，诸如电池、太阳能电池和/或与电网的连接。交通基础设施节点105的服务器计算机120和/或车辆110的计算装置115可接收传感器116、122的数据以监测一个或多个对象。在本公开的上下文中，“对象”是可以由车辆传感器116和/或基础设施传感器122检测到的物理(即，材料)结构或事物。

图2是用于训练卷积神经网络(CNN)200的系统的图。CNN 200包括卷积层204(卷积层)和全连接层206(全连接层)。卷积层204可以接收图像202(图像)作为输入，并且用多个小的(5x5、7x7等)核对图像进行卷积以从图像202中提取特征。卷积层204可以包括层之间的池化函数，以减小图像数据的大小并且定位提取的特征。卷积核用于处理图像数据的值由可编程权重确定。卷积层204将指示检测到的特征的位置的潜在变量输出到全连接层206。全连接层206包括神经元，所述神经元计算输入潜在变量的线性和非线性函数以基于输入图像202确定预测208(预测)。例如，可以训练CNN 200以输出关于由输入图像202中包括的对象(例如，车辆或行人)指示的标签的预测208。由全连接层206执行的计算由可编程权重确定。

在训练时间，训练数据集包括多个图像202和指示神经网络应从输入图像202提取的正确预测的地面实况数据。地面实况数据通过不包括采用CNN 200的技术(例如，图像数据的人类观察和测量)来确定。可以通过多次将来自训练数据集的图像202输入到CNN 200来训练CNN 200。每次处理图像202以形成预测时，确定损失函数210(损失函数)。损失函数是将预测与地面实况进行比较以确定CNN 200处理图像202的程度的等式。损失函数可以通过CNN 200的层反向传播。反向传播是一种用于将损失函数210输入到CNN 200的层的技术，从输出开始并且前进通过CNN 200的层到输入。可以基于损失函数和由CNN 200重新处理的图像202以及确定的新的损失函数210来修改权重。通过多次处理输入图像202，可以确定使损失函数最小化的卷积层204和全连接层206的权重。可以通过确定使训练数据集中的所有图像202的损失函数210最小化的权重来训练CNN 200。还可以训练CNN 200以输出置信值以及预测。置信值是伴随预测正确的概率。

图3是示出利用对抗数据集生成(ADV数据集)302和分布稳健优化(DRO)304来训练CNN 200的图。对抗数据集生成302是一种用于生成图像的技术，所述图像通过引入人类观察者可能不易察觉但使用1-SSIM或PieAPP可测量的图像变化而导致经训练的CNN 200失效。例如，图像位置、比例、旋转、亮度、对比度和纹理的小变化会导致图像未被成功处理，所述图像在不改变时产生成功匹配地面实况数据的预测。1-SSIM或PieAPP可以用于量化图像中的哪些变化将导致CNN 200无法正确处理图像。当预测未能与地面实况匹配时，响应于更改的图像而从CNN 200输出的预测与地面实况数据不成功地匹配。例如，不成功的匹配将未能识别输入图像中的车辆或行人。不成功的匹配可以替代地或另外意味着CNN 200输出低置信值以伴随预测。

从训练数据集中包括的现有图像生成对抗图像包括使用合适的图像处理技术来修改现有图像。例如，可以通过对现有图像的像素执行几何变换以改变在图像中包括的对象的位置、比例和取向来修改现有图像。可以通过对像素执行乘法和加法改变以改变现有图像的亮度和对比度来修改现有图像。替代地或另外，可以通过向图像的像素添加随机噪声以改变纹理来修改现有图像。用于修改(即，改变)图像(诸如前述示例)的操作通常包括指定大小、位置、取向、亮度、对比度或纹理参数，所述大小、位置、取向、亮度、对比度或纹理参数可以被调整以确定要引入图像的改变量以生成对抗图像。本文描述的技术通过在测量在每个步骤处引入的计算工作量的同时通过增加参数的值来增加改变量来生成一系列对抗图像。计算工作量是产生由1-SSIM和/或PieAPP确定的图像差异所需的计算资源的量度，并且可以用于确定引入图像的改变是否对于人类观察者来说不易察觉到。

可以使用技术来测量图像中的计算工作量，从而确定对抗数据集生成302。这些技术测量图像差异以确定引入图像中的差异对于人类观察者来说不易察觉到。包括在训练数据集中的包括人类观察者不易察觉的差异的图像是有用的，因为人类通常不会在训练数据库中包括包括不易察觉的差异的图像。包括不易察觉的差异的图像会导致CNN 200失效，并且在训练数据集中包括包括不易察觉的差异的图像将产生更稳健的经训练的CNN 200，所述CNN可以成功地处理更多种输入图像。

用于确定不易察觉的差异的一种技术是结构相似性指数度量(1-SSIM)。1-SSIM是确定两个图像的结构相似性的奖励函数。结构相似性是两个图像在类似但不完全相同的位置、大小、取向、对比度、亮度或纹理方面具有类似但不完全相同的结构或对象。两个图像x和y的1-SSIM可以通过以下等式确定：

其中μ_x和μ_y是图像x和y中的像素值的平均强度，σ_x和σ_y是图像x和y中的像素值的标准偏差，并且σ_xy由以下等式确定：

其中x_i和y_i是各自具有N个像素的图像x和y中的像素值。1-SSIM是将两个图像之间的差异表示为计算工作量的计算工作量函数，例如，图像之间的差异越大，与所述差异相关联的计算工作量就越大。人类不易察觉的图像差异具有低计算工作量1-SSIM值。可以以经验通过测试来自训练数据集的图像以确定指示不易察觉的差异的1-SSIM值来确定可以指示人类不易察觉的图像差异的1-SSIM值。

图像相似性的替代或附加度量可以通过PieAPP神经网络来确定。PieAPP神经网络可以确定人类观察者认为与第二图像相比，第一图像与参考图像更相似的概率。PieAPP神经网络描述于Ekta Prashnani、Hong Cai、Yasamin Mostofi和Pradeep Sen的“PieAPP:Perceptual image-error assessment through pairwise preference(PieAPP：通过成对偏好的感知图像误差评估)”，2018年IEEE计算机视觉和模式识别会议论文集，第1808至1817页中。PieAPP可以用于对已经通过平移、旋转、缩放和添加纹理而受到扰动的图像进行排名，以确定哪些图像对于典型的人类观察者来说可能不易察觉不同。下面关于图4讨论了用于将1-SSIM或PieAPP应用于训练图像以生成稳健的对抗数据集的算法。稳健的对抗数据集是将有效地训练CNN 200以处理各种各样的输入图像的数据集，所述输入图像包括与不包括对抗图像的数据集不易察觉不同的图像。

对抗数据集生成302以递增的步骤在位置、比例、取向、亮度、对比度和纹理中的一者或多者中修改图像，当由1-SSIM或PieAPP确定的计算工作量函数指示人类观察者将不再不易察觉修改时停止。以这种方式，确定对抗数据集生成302成为用于增强CNN 200的训练的有效技术，因为对抗数据集生成302生成的图像与原始训练数据集具有最大差异，同时保持典型的人类观察者不易察觉。对抗数据集生成302使对抗图像将增强CNN 200的训练以实现公平性的可能性最大化，同时使训练CNN 200所需的图像和计算资源的数量最小化。

一旦对抗数据集生成302生成了与典型的人类观察者不易察觉的不同图像的对抗数据集，DRO 304就提供用于使用生成的图像来训练CNN 200的框架。DRO 304通过选择训练数据集以包括训练数据集中的与现实世界中的未知图像分布匹配的图像分布来提高可以训练CNN 200的效率。DRO 304是用于训练CNN 200以选择由对抗数据集生成302生成的图像的框架。通过用从对抗数据集生成302中选择的图像来训练CNN 200，DRO 304可以避免仅在现场部署CNN 200找到CNN 200无法处理来识别对象的新类型的图像，因此可能需要获取新类型的图像，并且将它们添加到重新训练数据集以重新训练CNN 200。下面关于图5描述用于实施DRO 304的示例性过程。

图4是关于图1至图3描述的用于生成稳健数据集的过程400的流程图。过程400可以由服务器计算机120的处理器实施，将训练数据集/>作为输入并且输出包括对抗图像x_adv的稳健数据集/>过程400包括可以按所示次序执行的多个框。替代地或另外，过程400可以包括更少的框，或者可以包括以不同次序执行的框。

过程400开始于框402，其中服务器计算机120输入初始模型θ₀，所述初始模型在该示例中是CNN 200；学习率α，其是用户选择的并且在该示例中为0.1；数据集其中x_i是图像，y_i是地面实况标签，N是数据集中的图像数量；以及步数T₁，其是用户选择的并且在该示例中为100。

在框404处，服务器计算机120初始化θ＝θ₀和数据集其中模型权重P_i＝1。

在框406处，过程400通过通过从数据集进行替换与权重P_i成比例地对数据集{x_i，y_i}_{i＝1，...，N}进行采样来以k＝1，2，...，T₁开始for循环。

在框408处，过程400通过根据以下等式更新模型θ以i＝1，2，...，N开始内for循环：

其中是损失函数l的梯度算子，并且l(θ；x_i，y_i)是模型θ的损失函数。

在框410处，服务器计算机120使用模型θ、图像x_i和地面实况标签来使用1-SSIM或PieAPP生成对抗图像{x′_i，y_i}，如上面关于图3所讨论的。

在框412处，服务器计算机120将对抗图像和权重{x′_i，y_i，P_i}附加到数据集其中权重P_i由下式确定：

P_i＝(k-1)N+i (4)

在框414处，服务器计算机120将索引i递增，且如果i≤N，则循环回到框408，否则过程400转到框416。

在框416处，服务器计算机120将索引k递增，且如果k≤T₁，则循环回到框406，否则过程400转到框418。

在框418处，服务器计算机120输出包括M个图像的稳健数据集所述M个图像等于输入的N个图像加上由过程400加的对抗图像。在框418之后，过程400结束。

图5是关于图1至图4所描述的用于使用DRO 304训练模型θ(所述模型可以是CNN200)的过程500的流程图。过程500可以由服务器计算机120的处理器实施，将初始模型θ₀、由以上图4中的过程400确定的稳健的训练数据集作为输入，并且输出经训练的神经网络θ。过程400包括可以按所示次序执行的多个框。替代地或另外，过程400可以包括更少的框，或者可以包括以不同次序执行的框。

过程500开始于框502，其中服务器计算机120输入初始模型θ₀(在该示例中为CNN200)、学习率α(其是用户选择的并且在该示例中为0.1)以及包括对抗图像的稳健数据集

在框504处，服务器计算机120初始化模型θ＝θ₀。

在框506处，服务器计算机120开始两个嵌套的for循环，其中外for循环具有k＝1，2，...，T₂，其中在该示例中为T₂＝50，并且内循环具有i＝1，2，...，M，其中M等于稳健数据集中的图像数量。服务器计算机120从数据集/>以替换与权重P_i成比例地对图像和地面实况标签{x_i，y_i}进行采样。

在框508处，服务器计算机120根据以下等式更新模型θ：

用新权重更新模型θ用在稳健数据集中包括的对抗图像来训练模型θ。用在稳健数据集/>中包括的对抗图像来训练模型θ可以实现分布稳健优化。

在框510处，服务器计算机120将索引i递增，且如果i≤M，则循环回到框506，否则过程500转到框512。

在框512处，服务器计算机120将索引k递增，且如果k≤T₂，则循环回到框506，否则过程500转到框514。

在框514处，服务器计算机120输出模型θ，其中模型θ已经用增强模型θ的公平性的分布稳健优化进行训练。训练模型θ、如关于图4所讨论的生成对抗数据库和如关于图5所讨论的DRO训练可以以计算有效的方式实现模型θ训练的公平性，从而生成具有低计算工作量值的多样化数据集。在框514之后，过程500结束。

图6是关于图1至图5描述的用于使用通过上文关于图2至图5所讨论的技术训练的经公平训练的CNN 200来操作车辆的过程600的流程图。过程600可以由计算装置115的处理器实施，将由传感器116获取的图像作为输入，用经公平训练的CNN 200处理图像，并且基于从CNN 200输出的预测来操作车辆110。过程600包括可以按所示次序执行的多个框。替代地或另外，过程600可以包括更少的框，或者可以包括以不同次序执行的框。

过程600开始于框602，其中服务器计算机120将根据上文关于图2至图5描述的技术训练的经公平训练的CNN 200下载到在车辆110中包括的计算装置115。

在框604处，计算装置115输入由在车辆110中包括的传感器116获取的图像数据。图像数据包括关于车辆110周围的环境中的对象的数据。

在框606处，计算装置115将图像输入到CNN 200以确定关于车辆110周围的环境中的对象的预测。例如，预测可以包括关于对象的标签和相对于车辆110的位置的数据，其中所述对象可以是另一车辆。

在框608处，计算装置115可以基于关于对象的预测来确定车辆轨迹。车辆轨迹可以以合适的方式指定，通常指定为连接根据描述车辆110位置和速度的多项式函数绘制的点的线。车辆轨迹可以由计算装置115处理以确定要施加到车辆110的横向加速度和纵向加速度以使车辆在由车辆轨迹描述的路径上行驶。在该示例中，可以确定车辆轨迹以帮助车辆110避免与另一车辆接触。

在框610处，计算装置115可以向车辆控制器112、113、114传输指令以使车辆动力传动系统、车辆转向和车辆制动操作车辆110以沿着在框608处确定的车辆轨迹行进并且帮助避免与由CNN 200确定的另一车辆接触。在框610之后，过程600结束。

诸如本文讨论的那些的计算装置通常各自包括命令，所述命令可由诸如上文所识别的那些的一个或多个计算装置执行并且用于实施上文描述的过程的框或步骤。例如，上文讨论的过程框可体现为计算机可执行命令。

计算机可执行命令可由使用各种编程语言和/或技术创建的计算机程序来编译或解译，所述编程语言和/或技术包括但不限于以下的单一形式或组合形式：Java^TM、C、C++、Python、Julia、SCALA、Visual Basic、Java Script、Perl、HTML等。通常，处理器(即，微处理器)接收即来自存储器、计算机可读介质等的命令，并且执行这些命令，从而执行包括本文所描述的过程中的一者或多者的一个或多个过程。此类命令和其他数据可存储在文件中并且使用多种计算机可读介质来传输。计算装置中的文件通常是存储在诸如存储介质、随机存取存储器等计算机可读介质上的数据的集合。

计算机可读介质(也称为处理器可读介质)包括参与提供可以由计算机(即，由计算机的处理器)读取的数据(即，指令)的任何非暂时性(即，有形)介质。此类介质可采用许多形式，包括但不限于非易失性介质和易失性介质。指令可以通过一种或多种传输介质来传输，所述一种或多种传输介质包括光纤、电线、无线通信，包括构成联接到计算机的处理器的系统总线的内部件。共同形式的计算机可读介质包括例如RAM、PROM、EPROM、FLASH-EEPROM、任何其他存储器芯片或盒式磁带、或计算机可从中读取的任何其他介质。

除非本文作出相反的明确指示，否则权利要求中使用的所有术语意在给出如本领域技术人员所理解的普通和通常的含义。具体地，除非权利要求叙述相反的明确限制，否则使用诸如“一个”、“该”、“所述”等单数冠词应被解读为叙述所指示的要素中的一者或多者。

术语“示例性”在本文中以表示示例的意义使用，即，对“示例性小部件”的候选项应被解读为仅指代小部件的示例。

修饰值或结果的副词“大约”意味着形状、结构、测量值、值、确定、计算等可能因材料、机加工、制造、传感器测量、计算、处理时间、通信时间等的缺陷而与确切描述的几何形状、距离、测量值、值、确定、计算等有偏差。

在附图中，相同的候选附图标记指示相同的要素。此外，可以改变这些要素中的一些或全部。关于本文所述的介质、过程、系统、方法等，应理解，尽管已经将此类过程等的步骤或框描述为根据某个有序序列发生，但是此类过程可以采用以本文所述顺序之外的顺序执行的所描述步骤来实践。还应当理解，可以同时执行某些步骤，可以添加其他步骤，或者可以省略本文所述的某些步骤。换句话说，本文对过程的描述是出于说明某些实施例的目的而提供的，并且决不应解释为限制所要求保护的发明。

根据本发明，提供了一种系统，所述系统具有：计算机，所述计算机包括处理器和存储器，所述存储器包括指令，所述指令可由所述处理器执行以：将由传感器获取的图像输入到神经网络以输出关于在所述图像中包括的对象的预测，并且其中基于以下各项来训练所述神经网络：(a)使应用于损失函数的概率分布的期望值最小化以选择产生具有选定不确定性水平的解的训练图像的分布稳健优化，以及(b)基于对抗图像生成附加输入图像。

根据实施例，输出关于图像的预测包括输出对象身份和对象位置。

根据实施例，神经网络输出指示关于图像的预测正确的概率的置信值。

根据实施例，基于基于输入图像将来自神经网络的输出与地面实况数据进行比较来确定损失函数。

根据实施例，神经网络包括卷积层和全连接层。

根据实施例，将输入图像分别输入到神经网络多次，并且将损失函数反向传播通过神经网络的层以选择使损失函数最小化的权重。

根据实施例，基于对抗图像生成附加输入图像包括基于结构相似性指数度量来确定不易察觉的差异。

根据实施例，结构相似性指数度量生成对于人类观察者来说不易察觉到不同但会导致神经网络失效的图像。

根据实施例，基于对抗图像生成附加输入图像包括基于用PieAPP神经网络处理输入图像来确定不易察觉的差异。

根据实施例，PieAPP神经网络生成对于人类观察者来说不易察觉到不同但会导致神经网络失效的图像。

根据本发明，一种方法包括：将由传感器获取的图像输入到神经网络以输出关于在所述图像中包括的对象的预测；并且其中基于以下各项来训练所述神经网络：(a)使应用于损失函数的概率分布的期望值最小化以选择产生具有选定不确定性水平的解的训练图像的分布稳健优化，以及(b)基于对抗图像生成附加输入图像。

在本发明的一个方面，输出关于图像的预测包括输出对象身份和对象位置。

在本发明的一个方面，神经网络输出指示关于图像的预测正确的概率的置信值。

在本发明的一个方面，基于基于输入图像将来自神经网络的输出与地面实况数据进行比较来确定损失函数。

在本发明的一个方面，神经网络包括卷积层和全连接层。

在本发明的一个方面，将输入图像分别输入到神经网络多次，并且将损失函数反向传播通过神经网络的层以选择使损失函数最小化的权重。

在本发明的一个方面，基于对抗图像生成附加输入图像包括基于结构相似性指数度量来确定不易察觉的差异。

在本发明的一个方面，结构相似性指数度量生成对于人类观察者来说不易察觉到不同但会导致神经网络失效的图像。

在本发明的一个方面，基于对抗图像生成附加输入图像包括基于用PieAPP神经网络处理输入图像来确定不易察觉的差异。

在本发明的一个方面，PieAPP神经网络生成对于人类观察者来说不易察觉到不同但会导致神经网络失效的图像。

Claims

1.一种方法，其包括：

将由传感器获取的图像输入到神经网络以输出关于在所述图像中包括的对象的预测；并且

其中基于以下各项来训练所述神经网络：(a)使应用于损失函数的概率分布的期望值最小化以选择产生具有选定不确定性水平的解的训练图像的分布稳健优化，以及(b)基于对抗图像生成附加输入图像。

2.如权利要求1所述的方法，其中输出关于所述图像的所述预测包括输出对象身份和对象位置。

3.如权利要求1所述的方法，其中所述神经网络输出指示关于所述图像的所述预测正确的概率的置信值。

4.如权利要求1所述的方法，其中基于基于所述输入图像将来自所述神经网络的输出与地面实况数据进行比较来确定所述损失函数。

5.如权利要求1所述的方法，其中所述神经网络包括卷积层和全连接层。

6.如权利要求1所述的方法，其中将所述输入图像分别输入到所述神经网络多次，并且将所述损失函数反向传播通过所述神经网络的层以选择使所述损失函数最小化的权重。

7.如权利要求1所述的方法，其中基于所述对抗图像生成所述附加输入图像包括基于结构相似性指数度量来确定不易察觉的差异。

8.如权利要求7所述的方法，其中所述结构相似性指数度量生成对于人类观察者来说不易察觉到不同但会导致所述神经网络失效的图像。

9.如权利要求1所述的方法，其中基于所述对抗图像生成所述附加输入图像包括基于用PieAPP神经网络处理所述输入图像来确定不易察觉的差异。

10.如权利要求9所述的方法，其中所述PieAPP神经网络生成对于人类观察者来说不易察觉到不同但会导致所述神经网络失效的图像。

11.如权利要求1所述的方法，其中结构相似性指数度量基于确定联合像素均值乘以联合标准偏差与求和的像素均值乘以求和的像素标准偏差的比率。

12.如权利要求1所述的方法，其中PieApp神经网络通过确定成对偏好来确定图像相似性。

13.如权利要求1所述的方法，其中结构相似性指数度量和/或PieApp神经网络生成用于训练所述神经网络的对抗数据集。

14.如权利要求13所述的方法，其中基于对抗网络来训练所述神经网络实现公平性。

15.一种系统，其包括被编程为执行如权利要求1-14中任一项所述的方法的计算机。