CN110945534A

CN110945534A - 稀有实例分类器

Info

Publication number: CN110945534A
Application number: CN201880048942.3A
Authority: CN
Inventors: W-Y.罗; A.奥加尔; 高阳
Original assignee: Waymo LLC
Current assignee: Waymo LLC
Priority date: 2017-06-22
Filing date: 2018-06-19
Publication date: 2020-03-31
Anticipated expiration: 2038-06-19
Also published as: US11093799B2; US20180373963A1; KR102371317B1; EP3642762A1; IL271568B2; JP7090105B2; CN110945534B; IL271568A; WO2018236895A1; CA3068258C; US10346724B2; JP2020524854A; KR20200022001A; CA3068258A1; US20190318207A1; AU2018288720B2; SG11201912665RA; IL271568B1; AU2018288720A1

Abstract

在一些实施方式中，自动或半自动车辆的图像分类系统能够通过减少对被认为是罕见对象的对象的重复不正确分类来改善多对象分类。该系统可以包括普通实例分类器和稀有实例分类器，其中普通实例分类器被训练来将一般对象(例如，常见对象和罕见对象)标识和识别为属于指定对象类别，稀有实例分类器被训练来计算表示输入图像由普通实例分类器正确分类的可能性的一个或多个稀有度分数。稀有实例分类器的输出可以用来调整普通实例分类器的分类输出，使得输入图像被不正确分类的可能性降低。

Description

稀有实例分类器

技术领域

本说明书涉及自动车辆。

背景技术

自动车辆包括无人驾驶汽车、船只和飞机。自动车辆使用各种车载传感器和计算机系统来检测邻近对象，并使用这样的检测来做出控制和导航决策。

一些自动车辆具有实施用于图像内的对象分类的神经网络的计算机系统。

神经网络，或简称为网络，是采用多个层的操作从一个或多个输入预测一个或多个输出的机器学习模型。神经网络通常包括位于输入层和输出层之间的一个或多个隐藏层。每个层的输出被用作网络中的另一层(例如，下一个隐藏层或输出层)的输入。

神经网络的每个层指定了要对层的输入执行的一个或多个变换操作。一些神经网络层具有被称为神经元的操作。每个神经元接收一个或多个输入，并生成由另一神经网络层接收的输出。通常，每个神经元从其他神经元接收输入，并且每个神经元向一个或多个其他神经元提供输出。

神经网络的架构指定了什么层被包括在网络中及其属性，以及如何连接网络的每个层的神经元。换句话说，该架构指定了哪些层将它们的输出作为输入提供给哪些其他层，以及如何提供输出。

每个层的变换操作由安装了实施变换操作的软件模块的计算机执行。因此，被描述为执行操作的层意味着实施层的变换操作的计算机执行操作。

每个层使用层的参数集合的当前值来生成一个或多个输出。训练网络因此包括对输入连续地执行正推法(forward pass)，计算梯度值，以及更新每个层的参数集合的当前值。一旦神经网络被训练，最终的参数集合就可以用来在产生式系统(production system)中进行预测。

卷积神经网络包括卷积神经网络层。卷积神经网络层具有利用输入数据中的空间局部相关性的神经元连通性。为此，卷积神经网络层具有稀疏连通性，其中一个卷积层中的神经元仅从前一个神经网络层中的小的神经元子集接收输入。神经元从其接收它的输入的其他神经元定义了该神经元的感受野(receptive field)。

卷积神经网络层具有由层的参数定义的一个或多个滤波器。卷积神经网络层通过执行每个神经元滤波器与层输入的卷积来生成输出。

此外，每个卷积网络层可以具有三维排列的神经元，具有深度、宽度和高度维度。宽度和高度维度对应于层输入的二维特征。深度维度包括神经元的一个或多个深度子层。一般地，卷积神经网络采用权重共享，使得深度子层中的所有神经元具有相同的权重。这在检测输入中的特征时提供了平移不变性。

卷积神经网络还可以包括完全连接层和其他种类的层。完全连接层中的神经元从前一个神经网络层中的每个神经元接收输入。

自动和半自动车辆系统可以使用对象检测预测用于做出驾驶决策。

自动车辆系统可以使用人类编程逻辑进行对象检测预测。人类编程逻辑精确指定了车载传感器的输出应该如何被组合、变换和加权，以便计算全对象预测。

发明内容

在一些实施方式中，自动或半自动车辆的图像分类系统能够通过减少对被认为是罕见(rarely occurring)对象的对象的重复不正确分类来改善多对象分类。该系统可以包括普通实例分类器和稀有实例分类器，其中该普通实例分类器被训练来将一般对象(例如，常见(commonly occurring)对象和罕见对象)标识和识别为属于指定对象类别，该稀有实例分类器被训练来计算表示输入图像由普通实例分类器正确分类的可能性的一个或多个稀有度分数。稀有实例分类器的输出可以用来调整普通实例分类器的分类输出，使得输入图像被不正确分类的可能性降低。

可以实施本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。自动或半自动车辆系统可以使用完全训练的分类器子系统来快速减少罕见对象的重复错误，而无需重新训练分类器。系统可以使用技术来提高将图像分类为包括某些对象的准确性。系统还可以通过特定的分类器子系统来处理输入图像，以减少生成准确的对象预测所需的计算资源。

此外，系统可以并行应用普通实例分类器和稀有实例分类器，以提高误分类的罕见对象的图像分类性能。例如，对图像包括由普通实例分类器频繁误分类的稀有对象或另一种对象的图像的高可能性的确定可以被用作负反馈，以减少图像分类系统对图像的正误识(false positive)分类。

系统还可以被应用于处理来自不同种类的传感器(例如，LIDAR(激光雷达)和摄像机)的数据，并且可以组合来自不同传感器的数据以提高总体图像分类性能。

在一个一般方面，一种方法包括：接收输入图像；使用普通实例神经网络处理输入图像，其中，普通实例神经网络被配置为处理输入图像以生成普通实例输出，其中该普通实例输出包括与一个或多个第一对象类别中的每一个相对应的各自的第一对象分数，每个第一对象分数表示输入图像包括属于对应的第一对象类别的对象的图像的可能性；使用稀有实例神经网络处理输入图像，其中，稀有实例神经网络被配置为处理输入图像以生成包括稀有度分数的稀有实例输出，其中该稀有度分数表示输入图像将被普通实例神经网络不正确分类的可能性；在使用稀有度分数对输入图像进行分类时，确定要被分配给一个或多个各自的第一对象分数的权重；以及根据所确定的权重对输入图像进行分类。

一个或多个实施方式可以包括以下可选特征。例如，在一些实施方式中，稀有实例神经网络已经在由普通实例神经网络误分类的训练图像上被训练。

在一些实施方式中，稀有实例神经网络已经在用来训练普通实例神经网络的图像中罕见的对象类型的图像上被训练。

在一些实施方式中，稀有实例输出还包括与一个或多个第二对象类别中的每一个相对应的各自的第二对象分数，每个第二对象分数表示输入图像包括属于对应的第二对象类别的对象的图像的可能性；并且该方法还包括以下操作：在使用稀有度分数对输入图像进行分类时，确定用以分配一个或多个第二对象分数的权重。

在一些实施方式中，第二对象类别包括第一对象类别中的一个或多个。

在一些实施方式中，确定用以分配一个或多个第二对象分数的权重包括使用稀有度分数作为第二对象分数的权重。

在一些实施方式中，确定用以分配一个或多个第二对象分数和一个或多个第一对象分数的权重包括：确定稀有度分数不满足预定阈值，并且作为响应，在对输入图像进行分类时减小分配给一个或多个各自的第二对象分数的权重。

在一些实施方式中，确定用以分配一个或多个第二对象分数和一个或多个第一对象分数的权重包括：确定稀有度分数满足预定阈值，并且响应于确定稀有度分数满足预定阈值，在对输入图像进行分类时减小分配给一个或多个各自的第一对象分数的权重。

在一些实施方式中，减小分配给一个或多个各自的第一对象分数的权重包括将权重分配给指示在对输入图像进行分类时不使用第一对象分数的值。

在一些实施方式中，对输入图像进行分类包括：使用组合神经网络处理普通实例输出和稀有实例输出，其中，组合神经网络被配置为计算与一个或多个第一对象类别中的每一个相对应的各自的第三对象分数，每个第三对象分数基于所确定的分配给一个或多个各自的第一对象分数的权重和所确定的分配给一个或多个各自的第二对象分数的权重而计算；以及基于各自的第三对象分数值对输入图像进行分类。

在一些实施方式中，确定用以分配一个或多个各自的第一对象分数的权重包括：确定稀有度分数满足预定阈值；并且响应于确定稀有度分数满足预定阈值，在对输入图像进行分类时减小分配给一个或多个各自的第一对象分数的权重。

在附图和下面的描述中阐述了本说明书的主题的一个或多个实施例的细节。从说明书、附图和权利要求中，主题的其他特征、方面和优点将变得显而易见。

附图说明

图1是系统的示例的框图。

图2是用于对自动车辆周围环境的图像进行分类的过程的示例的流程图。

图3A是包括普通实例分类器和稀有实例分类器的架构的示例的示意图。

图3B是稀有实例分类器在其中标识输入图像内的罕见对象的架构的示例的示意图。

图3C是稀有实例分类器在其中标识输入图像内的常见对象的架构的示例的示意图。

图4是包括处理普通实例分类器和稀有实例分类器的输出的组合神经网络的架构的示例的示意图。

不同附图中的相同附图标记和名称表示相同元件。

具体实施方式

本说明书描述了车辆(例如，自动或半自动车辆)可以如何使用一个或多个完全学习分类器通过减少对包括被确定为罕见对象的图像或由普通实例分类器频繁误分类的其他图像的重复不正确分类来改善对由车辆的传感器检测到的对象的分类。例如，罕见对象可以包括在用来训练普通实例分类器的训练数据中很少出现的对象。在其他示例中，罕见对象可以包括很少被分类为被包括在车辆周围环境中的某些对象类别中的对象。每个对象类别可以指定在车辆行驶时可能出现在车辆附近的对象的类型。例如，对象类别可以表示标志、行人、骑自行车者、或接近车辆的其他车辆。

如贯穿本说明书所使用的，“完全学习”机器学习模型是被训练来计算期望预测的模型。换句话说，完全学习模型仅基于在训练数据上被训练而不是基于人类编程决策来生成输出。

图1是示例系统100的示图。系统100包括训练系统110和车载系统130。

车载系统130在物理上位于车辆122上。图1中的车辆122被示出为汽车，但是车载系统130可以位于任何适当的车辆类型上。车辆122可以是使用对象检测预测来通知全自动驾驶决策的全自动车辆。车辆122也可以是使用图像分类预测来帮助人类驾驶员的半自动车辆。例如，如果全对象预测指示人类驾驶员即将与检测到的对象(例如，行人、骑自行车者、另一车辆)碰撞，则车辆122可以自动应用刹车。

车载系统130包括一个或多个传感器子系统132。传感器子系统包括接收电磁辐射的反射的组件的组合，例如检测激光的反射的LIDAR系统、检测无线电波的反射的雷达系统、以及检测可见光的反射的相机系统。

传感器子系统还可以包括短程和远程激光传感器的组合。例如，短程激光传感器可以用来检测车辆122周围的地面和离车辆122 40米内的邻近对象。在另一示例中，远程激光传感器可以用来检测车辆122四周达200米的对象。

原始输入传感器数据指示反射辐射的距离、方向和强度。每个传感器可以在特定方向上发射一个或多个电磁辐射脉冲，并且可以测量任何反射的强度以及接收到反射的时间。可以通过确定脉冲与其对应的反射之间花了多长时间来计算距离。每个传感器可以在角度、方位或两者上连续扫描特定空间。在方位上扫描例如可以允许传感器沿相同的视线检测多个对象。

传感器子系统132向车载分类器子系统134提供输入传感器数据155。输入传感器数据155可以包括多个通道的数据，其中每个通道表示反射电磁辐射的不同特性。因此，可以从来自相同传感器的测量生成多个通道的输入传感器数据155。例如，输入传感器数据155可以包括由车辆周围环境的相机捕获的图像。

传感器子系统132、车载分类器子系统134、或两者的某个组合将原始传感器数据变换为多个通道的输入传感器数据155。为此，车载系统130可以将原始传感器数据的各种特性投影到公共坐标系中。

车载分类器子系统134实施被训练来进行与图像分类相关的(即，与将车辆周围环境的图像分类为包括来自一个或多个对象类别的对象相关的)预测的分类器集合的操作。车载分类器子系统134包括在图3A、图3B和图4中描绘的完全训练的普通实例分类器310和完全训练的稀有实例分类器320。如图3A所示，可以并行应用普通实例分类器310和稀有实例分类器320，以处理输入传感器数据155内的输入图像302，从而提高图像分类的准确性。例如，稀有实例分类器320计算稀有度分数，其中该稀有度分数表示输入图像302包括可能由普通实例分类器310误分类的类型的对象(例如，罕见对象)的可能性。稀有度分数可以用来调整输入图像302的分类，以降低误识别输入图像302的可能性，如下面详细描述的。

车载分类器子系统134可以通过加载从训练系统110接收的模型参数172的集合来实施分类器的操作。尽管示出为在逻辑上是分开的，但是模型参数170和执行操作的软件或硬件模块实际上可以位于相同的计算设备上，或者在执行软件模块的情况下被存储在相同的存储器设备内。

车载分类器子系统134可以使用硬件加速或其他专用计算设备来实施分类器的操作。例如，一些层的一些操作可以由高度并行化的硬件执行，例如，由图形处理单元或另一种类的专用计算设备执行。换句话说，并非每个层的所有操作都需要由车载分类器子系统134的中央处理单元(Central Processing Unit，CPU)执行。

车载分类器子系统134使用输入传感器数据155来生成一个或多个图像分类预测165。车载分类器子系统134可以向规划子系统136、用户界面子系统138或两者提供一个或多个图像分类预测165。

当规划子系统136接收到一个或多个图像分类预测165时，规划子系统136可以使用一个或多个图像分类预测165来做出全自动或半自动驾驶决策。例如，规划子系统136可以生成用以在公路上穿过或绕过其他车辆同时也避开骑自行车者和行人的全自动规划。作为另一示例，规划子系统136可以生成对人类驾驶员应用刹车的半自动推荐。

用户界面子系统138可以接收图像分类预测165或者由另一组件对图像分类预测165进行后处理(post-processing)的结果，并且可以生成指示邻近对象的位置的用户界面呈现。例如，用户界面子系统138可以生成具有图像或视频数据的用户界面呈现，其中该图像或视频数据包含可能由对象占据的空间区域的表示。车载显示设备然后可以为车辆122的乘客显示用户界面呈现。

车载分类器子系统134还可以使用输入传感器数据155来生成训练数据123。训练数据123可以包括不同通道的输入传感器数据的投影表示。车载系统130可以例如无论何时生成训练数据123都连续地以离线批量或在线方式向训练系统110提供训练数据123。如所描绘的，训练数据123包括分别表示常见对象和罕见对象的图像的训练示例123A和123B。在训练操作期间，训练示例123A用来训练普通实例分类器310，并且训练示例123B用来训练稀有实例分类器320。

在一些实施方式中，训练示例123B包括被包括在训练示例123A中并用于训练普通实例分类器310、但是在普通实例分类器310被训练之后由普通实例分类器310误分类的图像。误分类图像是经训练的普通实例分类器310针对其生成分类输出的图像，其中该分类输出指示图像包括来自不同类别的对象，或者没有类别，然后由图像的已知标签指示。

然后，由普通实例分类器310误分类的图像可以用来训练稀有实例分类器320。在一些实施方式中，可以使用图像处理技术修改被包括在训练示例123B中的误分类图像，以引入新的位姿(pose)、视角等。在这样的实施方式中，训练示例123B包括原始误分类图像和误分类图像的经处理版本。

换句话说，训练数据123包括各自用来训练不同分类器的多个片段，其中该不同分类器用来将车辆周围环境的图像分类为包括来自一个或多个对象类别的对象。例如，包括训练示例123A和123B的训练片段可以用来训练普通实例分类器，并且仅包括训练示例123B的另一训练片段可以用来训练稀有实例分类器。

训练系统110通常被托管在数据中心112内，其中该数据中心112可以是具有一个或多个位置中的数百或数千个计算机的分布式计算系统。

训练系统110包括训练分类器子系统114，其中该训练分类器子系统114可以实施被设计为根据输入传感器数据进行图像分类预测的分类器的操作。训练分类器子系统114包括具有软件或硬件模块的多个计算设备，其中该软件或硬件模块根据分类器的架构来实施分类器的各自的操作。

训练分类器一般具有与车载分类器相同的架构。然而，训练系统110不需要使用相同的硬件来计算每个层的操作。换句话说，训练系统110可以仅使用CPU、高度并行化的硬件、或这些的某个组合。

训练分类器子系统114可以使用存储在模型参数170的集合中的参数115的当前值来计算分类器的每个层的操作。尽管示出为在逻辑上是分开的，但是模型参数170和执行操作的软件或硬件模块实际上可以位于相同的计算设备或相同的存储器设备上。

分类器子系统114可以接收训练示例123A和123B作为输入。训练示例123A和123B一般可以包括自动标记的训练数据、人类标记的训练数据、或这两种数据的某个组合。训练示例123A和123B中的每一个包括参考对象的图像以及每个图像的一个或多个标签。每个标签标识图像的正确分类，即标识图像中描绘的一个或多个对象所属的一个或多个对象类别。

训练示例123A可以包括被预定为与在车辆附近的环境中通常检测到的不同对象类别(例如，标志、行人)相关联的参考对象的图像。常见对象的示例包括停止标志、危险标志和交通灯。

训练示例123B可以包括被预定为与在车辆附近的环境中未通常检测到(例如，很少检测到)的不同对象类别相关联的参考对象的图像。罕见对象的示例包括位置特定的交通标志、小公司的广告牌、或常见对象的失真表示。在一些实施方式中，训练示例123A和123B包括属于相同类别的不同对象(例如，“车辆”对象类别的自行车和汽车)的图像。

训练分类器子系统114可以为每个训练示例123生成一个或多个图像分类预测135。训练引擎116分析图像分类预测135，并将图像分类预测与训练示例123中的标签进行比较。训练引擎116然后通过使用适当的训练技术(例如，反向传播)来生成更新的模型参数值145。训练引擎116然后可以使用更新的模型参数值145来更新模型参数170的集合。

在完成训练之后，训练系统110可以例如通过有线或无线连接向车载系统130提供最终的模型参数值集合171，以用于做出全自动或半自动驾驶决策。

图2是用于对自动车辆周围环境的图像进行分类的过程200的示例的流程图。为了方便，过程200将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，根据本说明书适当编程的分类器系统(例如，图1的车载系统130)可以执行过程200。

一般而言，分类器系统使用在图3A中更详细描绘的并行网络架构来执行贯穿全文描述的图像分类技术，其中图3A是包括普通实例分类器310和稀有实例分类器320的架构300A的示例的示意图。普通实例分类器310和稀有实例分类器320各自处理输入图像320，如图3A所描绘并在下面详细描述的。

简而言之，过程200可以包括，接收输入图像(210)，使用普通实例分类器处理输入图像，以生成包括各自的第一对象分数的普通实例输出(220)，使用稀有实例分类器处理输入图像，以生成包括稀有度分数的稀有实例输出(230)，确定要被分配给一个或多个各自的第一对象分数的权重(240)，以及根据所确定的权重对输入图像进行分类(250)。

更详细地，系统接收输入图像(210)。输入图像302是自动车辆周围环境的图像。输入图像302可以由车辆的车载传感器(诸如传感器子系统132)捕获并被包括在输入传感器数据155内。

系统使用普通实例分类器处理输入图像，以生成包括一个或多个第一对象分数的普通实例输出(220)。例如，普通实例分类器310处理输入图像302以生成普通实例输出304A。例如，普通实例分类器310使用图像分类技术处理输入图像302，以计算输入图像302的一个或多个第一对象分数，其中该一个或多个第一对象分数被包括在普通实例输出304A中。每个第一对象分数可以表示图像包括属于对应的对象类别的对象的图像的可能性。在一些实施方式中，普通实例输出304A包括各自对应于不同对象类别的多个对象分数。系统使用稀有实例分类器处理输入图像，以生成包括稀有度分数的稀有实例输出(230)。例如，稀有实例分类器320处理输入图像302以生成稀有实例输出304B。稀有度分数表示例如由于图像302包括罕见对象的图像，输入图像302将被第一分类器误分类的可能性。例如，罕见对象可以包括在用来训练普通实例分类器的训练数据中很少出现的对象。在其他示例中，罕见对象可以是具有不同于常见对象的外观的对象，因此可能由分类器误分类，例如与其他常见停止标志相比具有小“停止”文本的停止标志。

在一些实施方式中，稀有实例输出304B可附加地包括一个或多个第二对象分数。如上关于普通实例输出304A所述，每个第二对象分数可以表示图像包括属于对应的对象类别的对象的图像的可能性。在一些实例中，稀有实例输出304B可以包括各自对应于不同对象类别的多个对象分数。

普通实例输出304A和稀有实例输出304B可以包括为相同对象类别计算的对象分数。例如，普通实例输出304A和稀有实例输出304B可以包括为“停止标志”和“行人”对象类别计算的对象分数。在该示例中，上述第一对象分数和第二对象分数表示分别由普通实例分类器310和稀有实例分类器320为相同对象类别计算的分数。

可替换地，普通实例输出304A和稀有实例输出304B包括为不同对象类别计算的对象分数。例如，普通实例输出304A可以包括为“停止标志”对象类别计算的对象分数，而稀有实例输出304B可以包括为“绿色停止标志”或“八边形让行标志”类别计算的对象分数。

系统从稀有度分数确定要被分配给一个或多个各自的第一对象分数的权重(240)。例如，系统使用稀有度分数来确定要被分配给被包括在普通实例输出304A和稀有实例输出304B内的对象分数的权重。

在一些实施方式中，系统将稀有度分数与预定阈值进行比较，并且响应于确定稀有度分数满足预定阈值，系统确定输入图像302可能已经由普通实例分类器误分类，例如，罕见对象的图像。在这样的实施方式中，系统基于确定输入图像302内的对象可能已经被误分类来调整普通实例输出310内的对象分数。例如，可以降低由普通实例分类器310计算的对象分数。在一些实施方式中，系统使用稀有度分数来选择被包括在普通实例输出304A和稀有实例输出304B内的对象分数中的一个，以表示为输入图像302计算的总体对象分数。例如，如果稀有度分数不满足预定阈值，则系统选择被包括在普通实例输出304A内的对象分数作为总体对象分数，即，不修改普通实例输出304A中的对象分数。可替换地，如果稀有度分数满足预定阈值，则系统改为选择被包括在稀有实例输出304B内的对象分数作为总体对象分数，即，不使用普通实例输出304A中的对象分数。

在一些其他实施方式中，代替选择对象分数中的一个，系统可以改为组合各自的对象分数以计算新的总体对象分数。例如，响应于确定稀有度分数满足预定阈值，系统可以计算各自的对象分数的平均值。在一些其他示例中，系统可以基于稀有度分数值和预定阈值的值之间的差来计算加权平均。

可替换地，系统可以基于落入对应的值范围内的稀有度分数的值，将对象分数的值调整预定量。值范围可以包括“高”、“中”和“低”范围，其中该范围基于稀有度分数的下限值和上限值来表示检测到的对象的稀有性。例如，具有落入“高”范围内的第一稀有度分数的第一检测到的对象的第一对象分数可以被调整到比具有落入“低”范围内的稀有度分数的检测到的对象的第二对象分数更大的程度。在该示例中，第一对象分数被调整到比第二对象分数更大的程度，因为第一检测到的对象被标识为罕见对象，而第二检测到的对象被标识为常见对象。

系统根据所确定的权重对输入图像进行分类(250)。系统基于使用所确定的权重而计算的对象分数，将输入图像302的检测到的对象分类为对应于一个或多个对象类别。例如，系统将被标识为常见对象的对象分类为属于对象类别，但是防止对被标识为罕见对象的对象进行分类。在该示例中，使用对象的稀有度分数而确定的对象分数的值用来对具有满足阈值的对象分数的对象(例如，常见对象)进行分类，并防止对具有不满足阈值的对象分数的另一对象(例如，罕见对象)进行分类。在其他示例中，代替防止对对象进行分类，系统可以使用稀有实例分类器执行分类，或者将对象分类为与其他对象类别不相关联的杂项类别。在这点上，系统使用操作200来降低对被标识为罕见对象的对象的重复不正确分类的可能性。

现在参考图3A，描绘了包括普通实例分类器310和稀有实例分类器320的架构300A的示例的示意图。简而言之，普通实例分类器310接收包括检测到的对象302A的输入图像302。普通实例分类器310处理输入图像302以生成普通实例输出304A，其包括对象分数305。稀有实例分类器312与普通实例分类器310并行接收和处理输入图像302，以生成稀有实例神经输出304B，其包括对象分数306和稀有度分数308。

普通实例分类器310和稀有实例分类器320一般可以表示在如上所述并如图1所描绘的车载分类器子系统134内被实施的软件模块。普通实例分类器310和稀有实例分类器320可以在车载分类器子系统134的单个硬件模块上在逻辑上分开，或者可替换地，在车载分类器子系统134的单独硬件模块上被实施。输入图像302可以由传感器子系统132收集。在一些实施方式中，输入图像302最初被提供作为对象检测分类器的输入，其中该对象检测分类器在输入图像102被提供作为普通实例分类器310和稀有实例分类器320的输入之前检测对象的存在。

在一些实施方式中，普通实例分类器310和稀有实例分类器320可以是神经网络，其中该神经网络包括适当的层架构以处理输入图像302并将输入图像分类为具有属于一个或多个对象类别的对象。例如，普通实例分类器310和稀有实例分类器320可以是卷积神经网络，其中该卷积神经网络被训练来计算各自分别表示输入图像302包括属于与对象分数相关联的对象类别的对象的可能性的对象分数。

在一些实施方式中，稀有实例神经网络可以具有比普通实例神经网络更少的参数。例如，普通实例神经网络可以被训练来计算输入图像302的对应于多个对象类别的多个对象分数，而稀有实例神经网络可以被训练来仅计算输入图像302的单个稀有度分数。在另一示例中，稀有实例神经网络的层相对于普通实例神经网络的层可以具有更少的深度和计算，例如，少50％的深度和少75％的计算。此外，在一些实施方式中，稀有实例神经网络可以排除可以被包括在普通实例神经网络中的平均池化层和完全连接层。

输入图像302包括与交通相关标志相对应的检测到的对象302A的表示，其中该交通相关标志指示驾驶员沿着车辆路径有隆起(bump)邻近。输入图像302被提供作为普通实例分类器310的输入，其中该普通实例分类器310使用图像分类技术来计算对象类别“停止标志”的对象分数305。在该示例中，对象分数305表示由普通实例分类器310确定的、输入图像302内的检测到的对象302A表示停止标志的可能性。

输入图像302被附加提供作为稀有实例分类器312的输入，其中该稀有实例分类器312使用图像分类技术来计算检测到的对象302A的稀有度分数308。稀有度分数308表示由稀有实例分类器310确定的、输入图像302内的检测到的对象是罕见对象(诸如位置特定的交通标志、唯一对象、或某种其他类型的对象的失真表示)的可能性。

在描绘的示例中，稀有实例分类器312附加地计算对象类别“停止标志”的对象分数306。对象分数306表示由稀有实例分类器320确定的、输入图像302内的检测到的对象302A表示停止标志的可能性。尽管该示例描绘了普通分类器310和稀有分类器320计算相同对象类别(例如，“停止标志”)的各自的对象分数，但是在其他实施方式中，每个分类器可以计算不同对象类别或对象类别组的对象分数。在这样的实施方式中，稀有实例分类器320可以被用作次级分类器，其中该次级分类器确定检测到的对象是否属于通常仅与罕见对象相关联的对象类别。

如图3A中描绘的示例所示，普通实例分类器310计算值为“0.63”的对象分数，并且稀有实例分类器310计算值分别为“0.23”和“0.85”的对象分数和稀有度分数。在该示例中，对象分数305的值指示普通实例分类器310确定检测到的对象302A表示停止标志的高可能性。然而，对象分数306的值指示稀有实例分类器320确定检测到的对象302A表示停止标志的低可能性。因为稀有度分数308高，所以在图像分类过程期间对象分数306被给予更小的权重，降低了输入图像302被分类为包括属于“停止标志”类别的对象的图像的可能性。系统基于普通实例输出304A和稀有实例输出304B的内容对检测到的对象302A进行分类。在描绘的示例中，尽管对象分数305标识检测到的对象305是停止标志的高可能性，但是系统仍然不将检测到的对象302A分类为停止标志，因为稀有实例输出304B指示检测到的对象302A是不太可能表示停止标志的罕见对象。在该示例中，稀有实例输出304B因此用来防止基于普通实例输出304A的内容将检测到的对象302A不正确分类为停止标志。稀有实例输出304B因此可以用来仅基于使用与常见对象相关联的图像分类技术来减少正误识分类。可附加地或可替换地，稀有实例输出304B可以用来通过将罕见对象分类为属于杂项对象类别来减少负误识(false negative)分类。

在一些实施方式中，与如图3A所描绘并如上所述的普通实例分类器310并行操作相反，稀有实例分类器320在某些情况下被选择性地激活。例如，如果对象分数305不满足阈值，这指示检测到的对象302A可能是罕见对象，则稀有实例分类器320可以被激活。在该示例中，稀有实例分类器320是用以验证和/或支持普通实例分类器310的分类结果的次级图像分类组件。在另一示例中，输入图像302可以最初被提供给确定对象是否存在于输入图像302内的对象检测分类器。在该示例中，可以基于对象检测分类器的检测结果来选择性地激活稀有实例分类器320。例如，如果表示输入图像302包括检测到的对象的可能性的对象检测分数不满足预定阈值，则稀有实例分类器320可以被选择性地激活，以确定输入图像302是否包括罕见对象。

在一些实施方式中，稀有实例分类器320可以计算一个或多个附加稀有度分数，其中该一个或多个附加稀有度分数表示输入图像302将被普通实例分类器310不正确分类的各自的可能性。一个或多个附加稀有度分数可以包括反映输入图像302不包括罕见对象但是反之将被普通实例分类器310误分类的可能性的分数。例如，如果输入图像302包括使得用于对象检测的对象属性失真的图像失真，则分数可以反映误分类的高可能性。在另一示例中，如果输入图像302实际上不包括对象，而包括与对象相关联的属性，则分数可以反映误分类的高可能性。

图3B和图3C是使用加权技术来计算以对输入图像进行分类的架构的示例的示意图。在这些示例中，普通实例分类器310和稀有实例分类器320各自计算输入图像的对象分数。每个对象分数表示输入图像包括属于“停止标志”对象类别的对象的可能性。

如所描绘的，系统使用加权技术来基于为检测到的对象计算的稀有度分数的值来确定输入图像的总体对象分数。系统使用稀有度分数的值来确定应用于每个对象分数的各自的权重，然后组合加权的对象分数以计算系统用来对输入图像进行分类的最终对象分数。

首先参考图3B中描绘的示例，系统基于确定由稀有实例分类器320计算的稀有度分数316B超过预定稀有度阈值“0.75”，确定输入图像302B包括罕见对象的高可能性。在该示例中，系统对普通实例输出316A内的第一对象分数进行降权重并对稀有实例输出316B内的第二对象分数进行升权重，以便计算更准确地反映输入图像302B应该被分类为包括属于“停止标志”对象类别的对象的图像的可能性的最终对象分数。

现在参考图3C中描绘的示例，系统基于确定由稀有实例分类器320计算的稀有度分数326B不超过预定稀有度阈值“0.75”，确定输入图像302C包括罕见对象的低可能性。在该示例中，系统对普通实例输出326A内的第一对象分数进行升权重并对稀有实例输出326B内的第二对象分数进行降权重。因此，与图3B中描绘的示例相反，系统计算指示输入图像302B应该被分类为包括属于“停止标志”对象类别的对象的图像的高可能性的最终对象分数。

尽管描绘的示例提供了系统应用的一种类型的加权分类技术的示例，但是在一些实施方式中，系统可以使用附加的或替换的加权技术。例如，在一些实施方式中，代替确定与每个对象分数相关联的各自的权重，系统可以改为基于稀有度分数的值来减小或增加对象分数中的一个或多个的值。例如，在稀有实例分类器仅计算稀有度分数的某些实例中，稀有度分数相对于指定阈值的值可以用来提高或降低由普通实例分类器计算的对象分数。在另一示例中，代替将各自的权重应用于每个对象分数，系统可以基于稀有度分数的值将对象分数中的一个或多个的值调整预定值。在这样的示例中，如果稀有度分数的值低，则系统可以增加由普通实例分类器310计算的对象分数的值，如果稀有度分数的值高，则增加由稀有实例分类器计算的对象分数的值，或者两者的组合(例如，基于稀有度分数的值来同时提高和/或降低各自的对象分数)。

图4是包括组合分类器330的架构400的示例的示意图，其中该组合分类器330处理普通实例分类器310和稀有实例分类器320的输出。在该示例中，普通实例分类器310和稀有实例分类器320以与如上关于图3A所述的类似方式接收和处理输入图像402。然而，与图3A中描绘的架构300A相反，普通实例输出304A和稀有实例输出304B被提供作为组合分类器330的输入。

组合分类器330可以是具有与一个或多个对象类别相关联的专用图像分类能力的高精度分类器，其中该一个或多个对象类别对应于被包括在普通实例输出304A和稀有实例输出304B内的对象分数。例如，如果组合分类器330与单个对象类别相关联，则它将输入图像402分类为包括属于对象类别的对象的图像或者不包括属于对象类别的对象的图像。可替换地，如果组合分类器330与多个对象类别相关联，则组合分类器330关于多个对象类别中的每一个对输入图像402进行分类。

组合分类器330还可以执行如上关于图3A-图3C所述的对象分数调整

在一些实施方式中，组合分类器330能够区分被标识为不属于特定对象类别的罕见对象的对象和被标识为事实上属于特定对象类别的罕见对象的对象。例如，组合分类器330可以被训练来区分不是交通标志的稀有交通标志(例如，图3A中描绘的检测到的对象302A)和交通标志的失真图像内的对象(例如，交通标志的失真对象)。在该示例中，组合分类器330可以用来通过验证由稀有实例分类器320标识为罕见对象的对象实际上是不应该属于特定对象类别的对象来提高系统的图像分类性能。

尽管图4中描绘了单个组合分类器330，但是架构400使得能够使用各自与一个或多个不同对象类别相关联的多个组合分类器。在普通实例分类器310和稀有实例分类器320执行多对象分类的实施方式中，普通实例输出304A和稀有实例输出304B可以各自关于单个对象类别被分割。分割后的输出然后被提供作为与对应的对象类别相关联的各自的组合分类器的输入。例如，如果普通实例输出304A和稀有实例输出304B包括“停止标志”和“车辆”对象类别的对象分数，则输出304A和304B的与“停止标志”对象类别的对象分数相关联的部分被提供作为第一组合分类器的输入，并且输出304A和304B的与“车辆”对象类别的对象分数相关联的部分被提供作为第二组合分类器的输入。在该示例中，对多个组合分类器的使用可以用来提高关于特定对象类别的图像分类的准确性。

可附加地，在运行物理上放置在车辆中的车载系统的车辆的上下文中描述了由普通实例分类器、稀有实例分类器和组合分类器执行的功能，分类器可以被附加地用作出于其他目的对其他种类的图像进行分类的一个或多个计算机的其他系统的一部分。例如，贯穿全文描述的技术可以适用于使用该技术来监视物业(property)的情况，以改善对由捕获物业外部的安全录像的相机所捕获的图像的分类。

描述的特征可以在数字电子电路中被实施，或者在计算机硬件、固件、软件中或它们的组合中被实施。可以以有形地体现在信息载体中(例如，体现在机器可读存储设备中用于由可编程处理器执行)的计算机程序产品来实施装置；并且方法步骤可以由可编程处理器执行，其中该可编程处理器执行指令的程序以通过对输入数据进行操作并生成输出来执行描述的实施方式的功能。描述的特征可以有利地在可在可编程系统上执行的一个或多个计算机程序中被实施，其中该可编程系统包括至少一个可编程处理器，该可编程处理器耦合为从数据存储系统、至少一个输入设备和至少一个输出设备接收数据和指令并向其发送数据和指令。计算机程序是可以在计算机中直接或间接用来执行某个活动或带来某个结果的指令集合。计算机程序可以以包括编译或解释语言的任何形式的编程语言来编写，并且其可以以任何形式来部署，包括作为独立程序或模块、组件、子例程、或适合在计算环境中使用的其他单元。

用于执行指令的程序的合适的处理器包括例如通用微处理器和专用微处理器两者、以及任何种类的计算机的唯一处理器或多个处理器中的一个。一般地，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器。一般地，计算机还将包括用于存储数据文件的一个或多个大容量存储设备，或者可操作地耦合为与之通信；这样的设备包括磁盘，诸如内部硬盘和可移动磁盘；磁光盘；以及光盘。适合于有形地体现计算机程序指令和数据的存储设备包括所有形式的非易失性存储器，包括例如半导体存储设备，诸如EPROM、EEPROM和闪存设备；磁盘，诸如内部硬盘和可移动磁盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以由ASIC(专用集成电路)补充或被并入其中。

为了提供与用户的交互，该特征可以在计算机上被实施，其中该计算机具有用于向用户显示信息的显示设备(诸如CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可以通过其向计算机提供输入键盘和定点设备(诸如鼠标或轨迹球)。此外，这样的活动可以经由触摸屏平板显示器和其他适当的机制而实施。

该特征可以在计算机系统中被实施，其中该计算机系统包括诸如数据服务器的后端组件，或者包括诸如应用服务器或互联网服务器的中间件组件，或者包括诸如具有图形用户界面或互联网浏览器的客户端计算机的前端组件，或者包括它们的任意组合。系统的组件可以通过诸如通信网络的任何形式或介质的数字数据通信而连接。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)、对等网络(具有ad-hoc或静态成员)、网格计算基础设施和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般彼此远离，并且通常通过诸如描述的网络进行交互。客户端和服务器的关系是通过在各自的计算机上运行并且彼此之间具有客户端-服务器关系的计算机程序产生的。

虽然本说明书包含许多具体的实施方式细节，但这些不应被解释为对任何发明或可能要求保护的内容的范围的限制，而是特定于特定发明的特定实施方式的特征的描述。单独的实施方式的上下文中的在本说明书中描述的某些特征也可以在单个实施方式中被组合实施。相反，在单个实施方式的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施方式中被实施。此外，尽管特征可以在上面描述为以某些组合起作用并且甚至最初如此要求保护，但是在一些情况下可以从所要求保护的组合删除来自所要求保护的组合的一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应该被理解为要求以所示的特定顺序或以先后顺序执行这些操作或者执行所有示出的操作来实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这样的分离，并且应该理解，描述的程序组件和系统通常可以一起集成在单个软件产品中或封装为多个软件产品。

已经描述了主题的特定实施方式。其他实施例在以下权利要求的范围内。例如，权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或先后顺序来实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。

Claims

1.一种方法，包括：

接收输入图像；

使用普通实例神经网络处理输入图像，其中，所述普通实例神经网络被配置为处理输入图像以生成普通实例输出，所述普通实例输出包括与一个或多个第一对象类别中的每一个相对应的各自的第一对象分数，每个第一对象分数表示输入图像包括属于对应的第一对象类别的对象的图像的可能性；

使用稀有实例神经网络处理输入图像，其中，所述稀有实例神经网络被配置为处理输入图像以生成包括稀有度分数的稀有实例输出，所述稀有度分数表示输入图像将被普通实例神经网络不正确分类的可能性；

在使用稀有度分数对输入图像进行分类时，确定要被分配给一个或多个各自的第一对象分数的权重；以及

根据所确定的权重对输入图像进行分类。

2.根据权利要求1所述的方法，其中，所述稀有实例神经网络具有比所述普通实例神经网络更少的参数。

3.根据权利要求1或2中任一项所述的方法，其中，所述稀有实例神经网络已经在由普通实例神经网络误分类的训练图像上被训练。

4.根据权利要求1-3中任一项所述的方法，其中，所述稀有实例神经网络已经在用来训练普通实例神经网络的图像中罕见的对象类型的图像上被训练。

5.根据权利要求1-4中任一项所述的方法，其中：

所述稀有实例输出还包括与一个或多个第二对象类别中的每一个相对应的各自的第二对象分数，每个第二对象分数表示输入图像包括属于对应的第二对象类别的对象的图像的可能性；并且

该方法还包括在使用稀有度分数对输入图像进行分类时，确定用以分配一个或多个第二对象分数的权重。

6.根据权利要求5所述的方法，其中，第二对象类别包括第一对象类别中的一个或多个。

7.根据权利要求5或6中任一项所述的方法，其中，确定用以分配一个或多个第二对象分数的权重包括使用稀有度分数作为第二对象分数的权重。

8.根据权利要求5或6中任一项所述的方法，其中，确定用以分配一个或多个第二对象分数和一个或多个第一对象分数的权重包括：

确定稀有度分数不满足预定阈值，以及

作为响应，在对输入图像进行分类时减小分配给一个或多个各自的第二对象分数的权重。

9.根据权利要求5或6中任一项所述的方法，其中，确定用以分配一个或多个第二对象分数和一个或多个第一对象分数的权重包括：

确定稀有度分数满足预定阈值，以及

响应于确定稀有度分数满足预定阈值，在对输入图像进行分类时减小分配给一个或多个各自的第一对象分数的权重。

10.根据权利要求9所述的方法，其中，减小分配给一个或多个各自的第一对象分数的权重包括将权重分配给指示在对输入图像进行分类时不使用第一对象分数的值。

11.根据权利要求5-10中任一项所述的方法，其中，对输入图像进行分类包括：

使用组合神经网络处理普通实例输出和稀有实例输出，其中，所述组合神经网络被配置为计算与一个或多个第一对象类别中的每一个相对应的各自的第三对象分数，每个第三对象分数基于所确定的分配给一个或多个各自的第一对象分数的权重和所确定的分配给一个或多个各自的第二对象分数的权重而计算；以及

基于各自的第三对象分数值对输入图像进行分类。

12.根据权利要求1-11中任一项所述的方法，其中，确定用以分配一个或多个各自的第一对象分数的权重包括：

确定稀有度分数满足预定阈值；以及

13.一种系统，包括：

一个或多个计算机；以及

一个或多个存储指令的存储设备，所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机执行根据权利要求1-12中任一项所述的各自的方法的操作。

14.一个或多个用计算机程序指令编码的计算机可读存储介质，其中所述计算机程序指令在由一个或多个计算机执行时使得所述一个或多个计算机执行根据权利要求1-12中任一项所述的各自的方法的操作。