CN107430693A

CN107430693A - 用于车辆分类和验证的设备和系统

Info

Publication number: CN107430693A
Application number: CN201580077195.2A
Authority: CN
Inventors: 汤晓鸥; 杨林杰; 罗平; 吕健勤
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2015-03-13
Filing date: 2015-03-13
Publication date: 2017-12-01
Also published as: WO2016145547A1

Abstract

公开了用于车辆分类的设备(1000)和用于车辆验证系统(6000)的设备。用于车辆分类的设备(1000)可以包括：用来检测接收的图像中的车辆的位置的车辆检测器(10)，以及与检测器(10)电通信并且从检测的位置的图像分块中预测车辆的一个或多个属性的预测器(20)。预测器(20)具有被配置成具有一个或多个输出层的卷积神经网络，每个输出层经过不同的训练，使得每个输出层用来预测车辆的一个属性并且具有与车辆的输出类别的数量相同的大小。用于车辆验证系统(6000)的设备可包括车辆检测器(60)、特征提取器(62)和验证单元(64)，并且用于验证来自两个图像的车辆是否具有相同属性。

Description

用于车辆分类和验证的设备和系统

技术领域

本申请总体涉及用于车辆分类的设备和方法。本申请总体还涉及用于车辆验证的设备和方法。

背景技术

工业中大量需要自动地处理含有车辆的图像以识别它们的型号。然而，因为存在大量的车辆型号并且不同的车辆型号非常相似，因此车辆型号识别一直是具有挑战性的研究主题。

先前的方法通常限于少量的车辆型号。具体地讲，它们对少于30个型号进行分类并且利用手工形成的特征。一些最近的工作提议使用3D表示对196个车辆型号进行分类，这是迄今为止最大规模的实验。它首先获取对象的3D几何结构的估计，随后从与这个几何结构相关的校正分块中提取SIFT(Scale Invariant Feature Transform；尺度不变特征变换)。诸如SIFT等手工形成的特征所具有的区别性并不足以识别车辆型号。

与车辆型号验证紧密相关，人脸验证在近十年来已成为热门话题。最近的基于深度学习的算法首先在人类身份分类上训练深度神经网络，随后利用从深度神经网络提取的特征来训练验证模型。

最新的对象检测算法包括DPM(Deformable Part Model；可变形部件模型)和RCNN(Region Based Convolutional Neural Network；基于区域的卷积神经网络)。DPM以数据驱动的方式来学习对象部分。对象部分可以相对于弹性的成本而变形(deformed)。RCNN首先利用选择性搜索来提出对象建议，随后利用来自卷积网络的特征来学习分类模型。

发明内容

本公开解决车辆分类和验证的问题。所要求的解决方案至少实现以下技术效果：

a.从图像中识别车辆的品牌、型号和发行年份中的至少一个。

b.从图像中预测车辆的属性(最大速度、座位数量等)。

c.验证来自两个图像的两个车辆是否属于相同品牌/型号/发行年份。

所要求的解决方案可用于很多应用，例如，用于视频监控和图像搜索引擎。利用功能(a)，所要求的解决方案可以用于检索监控视频中的指定车辆型号的图像/视频剪辑以定位可疑车辆，并且当人们想要在街道上认出它时，可利用移动装置来自动地识别车辆的型号。利用功能(b)，当无法认出型号时，所要求的解决方案可以预测图像中的车辆的属性(最大速率、座位数量等)。利用功能(c)，所要求的解决方案可以从监控视频中检索类似的车辆(可能是相同型号、相同发行年份等)，以定位/追踪目标车辆。这个功能在未能识别车牌而只能从视觉外观来完成汽车追踪的、具有挑战性的多相机监控环境中是至关重要的。

应注意，所要求的解决方案不仅可以应用于图像，而且更普遍地应用于视频。此外，技术不限于RGB图像，而是可以容易扩展到来自多个传感装置的深度图像。

为此，本申请公开用于车辆分类的设备。所公开的设备可以包括车辆检测器和预测器。车辆检测器用来检测接收的图像中的车辆的位置，预测器与检测器电通信并用于从所检测的位置的图像分块中预测车辆的一个或多个属性。具体地讲，预测器具有被配置成具有一个或多个输出层的卷积神经网络，每个输出层经过不同的训练，使得每个输出层用来预测车辆的一个属性，并且每个输出层具有与车辆的输出类别的数量相同的大小。

根据本申请的实施例，公开用于车辆验证的设备，该设备可以包括车辆检测器、特征提取器和验证单元。车辆检测器被配置成接收含有车辆的两个图像并且从接收的图像中检测两个车辆。特征提取器与检测器电子通信，并且被配置成分别从检测的车辆中提取验证特征。验证单元联接到提取器并且被配置成判断两个图像中的车辆是否来自同类车辆。

根据本申请的实施例，还公开用于车辆分类的方法，该方法可以包括：

将卷积神经网络配置成具有一个或多个输出层，每个输出层经过不同的训练以确定其大小和类型，使得输出车辆的不同属性；

检测接收的图像中的车辆的位置；以及

利用经过配置的网络从检测的位置的图像分块中预测车辆的一个或多个属性。

在本申请的一个实施例中，卷积神经网络包括至少一个全连接层，该全连接层被配置成从接收的图像的输入特征的整个区域中提取分类特征。输出节点联接到全连接层并且从接收自全连接层的分类特征中预测车辆的一个或多个属性。

在本申请的一个实施例中，属性包括从由下列项构成的组中选择的至少一个：品牌、型号、年份、最大速度的连续值、排量、座位数量以及门数量等。

可以提供用于基于下列项来训练卷积神经网络的训练装置：

1)预先训练集，其包括含有不同对象和对应的基准真实对象标签的图像。

2)微调集，其包括只含有车辆和对应的基准真实标签的图像。

预先训练集的基准真实标签是对应图像的对象类别。微调集的基准真实标签取决于将要预测的属性。具体地讲，训练装置使用预先训练集中的图像通过下列方式来预先训练第一卷积神经网络：随机地将第一卷积神经网络的参数初始化；计算第一卷积神经网络中的参数的损失；基于计算的损失来计算相对于所有所述参数的梯度；通过使用一个前缀学习率和对应梯度的乘积来更新参数；确定是否满足停止标准；如果不满足的话，则返回到计算步骤。

根据一个实施例，训练装置还被配置成：创建与第一神经网络具有相同结构的第二卷积神经网络；使用第一神经网络的预先训练的参数将第二神经网络初始化；利用具有n节点的新输出层来替换第二卷积神经网络的输出节点，其中n是指定输出的大小；以及使用微调集中的图像来微调第二卷积神经网络。

下列描述和附图阐明本公开的某些说明性方面。然而，这些方面表明可以采用本公开的原理的各种方式中的一些方式。当结合附图考虑时，从本公开的下列详细描述中将明白本公开的其他方面。

附图说明

下文参考附图描述本发明的示例性非限制实施例。附图是说明性的，并且一般不按确切比例。不同图上的相同或类似元件引用相同的参考编号。

图1是示出根据本申请的一个实施例的用于车辆分类的设备的示意图。

图2a是示出卷积神经网络的典型结构的示意图。

图2b是示出根据本申请的一个实施例的具有多个输出层/节点的网络的示例的示意图。

图3是示出根据本申请的一个实施例的用于训练的流程图的示意图。

图4是示出根据本申请的一个实施例的反向传播算法的流程图的示意图。

图5是示出根据本申请的另一实施例的用于车辆分类和验证的设备的示意图。

图6是示出根据本申请的一个实施例的用于车辆验证的设备的示意图。

图7是示出根据本申请的另一实施例的用于车辆验证的设备的示意图。

具体实施方式

现在将详细地参考本发明的一些具体实施例，包括发明人预期的用于实施本发明的最佳模式。附图中示出这些具体实施例的示例。尽管结合这些具体实施例描述本发明，但应理解，并不意图将本发明限于所述实施例。相反，意图涵盖可以包括在如所附权利要求书限定的本发明的精神和范围内的替代方案、修改和等效物。以下描述中列出了许多具体细节，以便提供对本发明的彻底理解。本发明可以在没有这些具体细节中的一些或全部的情况下实践。在其他情况下，没有详细地描述众所周知的过程操作，以免不必要地使本发明变得模糊。

本文中使用的术语仅仅是出于描述特定实施例的目的，而不意图限制本发明。除非上下文另有明确指出，否则本文中使用的单数形式“一”、“一个”和“所述”也意图包括复数形式。还应理解，本说明书中使用的术语“包括”和/或“包括”用于说明存在所述特征、整数、步骤、操作、元件和/或部件，但并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或它们的组合。

参考图1，用于车辆分类的设备1000可以被配置成基于接收的图像来产生分类信息的最终输出，诸如，车辆的品牌、型号和发行年份中的至少一个。设备1000也可以被配置成基于接收的图像来产生车辆的指定属性的估计的最终输出，诸如，品牌/型号/发行年份、或最大速度、排量、座位数量等。

如图所示，设备1000包括车辆检测器10、预测器20和训练装置30。

车辆检测器10用来检测接收的图像中的车辆的位置。车辆检测器10只以车辆类别为目标，而不以其他类别为目标。检测器10可以在各种状况下检测车辆，诸如，有雾、有雨和暗光。如果接收的图像中没有车辆，那么将生成用于表明没有发现车辆的消息。接收的图像含有车辆并且馈入到车辆检测器10中。车辆包括汽车、卡车、厢式货车、公共汽车、摩托车等。车辆可具有任意的视角，诸如，正视、后视、侧视等。随后，检测器10检测图像中的车辆并且生成在图像中检测到的车辆的边界框。利用传统技术手段，生成的边界框可能不是非常准确。与传统技术手段相比，预测器20在这种情形下可以生成准确的预测，这将在下文中论述。

对边界框内的图像分块进行修剪并且馈入到预测器20中。预测器20被配置成预测车辆的各种属性，诸如，品牌/型号/发行年份、或最大速度、排量、座位数量等。例如，当预测器20被指定为车辆型号分类器时，它可以以对应的概率生成多个最可能的车辆型号的预测。

在本申请的一个实施例中，预测器20用来对检测的车辆所属的车辆品牌/型号/发行年份进行分类。车辆型号可以利用三级分层结构进行自然地组织。根据传统技术手段中的架构的三个层级，三个层级包括品牌层级、型号层级和发行年份层级。而在本申请中，预测器20可以在三个层级中的任一层级中生成预测。如果预测器20设置成在品牌层级中预测，那么它将生成输入图像中的车辆属于哪个品牌的预测；如果预测器20设置成在型号层级中预测，那么它将生成车辆属于哪个品牌和哪个型号的预测；如果预测器20设置成在年份层级中预测，那么它将生成品牌、型号和发行年份的预测(目标I)。

在本申请的其他实施例中，预测器20可以用来预测所检测的车辆的指定属性，所述指定属性可以是最大速度、排量、座位数量、门数量、车辆类型等。属性可以自然地分成两类：连续和离散。例如，车辆的最大速度是连续的，它可以是任何正实数；而车辆的门/座位数量是离散的，它只可以从离散列表{1、2、3、4、5}中选择。属性和它们的示例在表1中示出，但不受表1中的列表限制。(目标II)

表1：一些属性和它们的示例。

在本申请的另一实施例中，预测器20可以预测上述分类和属性的任意组合。可以使用一个模型来预测多个输出。例如，一个预测器可以用来同时预测品牌、型号、年份、最大速度、座位数量和有关车辆的其他可能描述。(目标III)

如下文将论述，预测器20将卷积神经网络用作预测模型，这是本申请提出的系统的主要优点，因为卷积神经网络可以大大地增加诸如车辆型号分类和属性预测等任务的准确性。用于预测器20的不同输出的卷积神经网络只在网络中的输出层的大小和类型上有区别，所述输出层是卷积神经网络的最后一层。换言之，每个输出层可以用来预测车辆的一个属性，并且具有与车辆的输出类别的数量相同的大小。具体地讲，不同地预先确定输出层的大小和类型，以便实现不同的目标I、II、III。例如，目标I和II需要具有一个输出层，而目标III需要具有多个输出层，其中每个层预测一个属性。对于目标I，输出层的大小等于输出的类别(品牌/型号/发行年份)的数量。例如，如果需要预测品牌并且车辆有100个不同的品牌，那么输出层的大小是100。每个输出节点对应于具体品牌。对于目标II，输出层的大小(即，输出层中的输出节点的数量)等于离散属性的类别的数量。对于连续属性而言，它等于1，因为网络只需要生成一个实数来预测连续属性。对于目标III，根据目标I和II独立地分配每个输出层的大小。例如，如果网络要共同地预测品牌和最大速度，那么它将具有两个输出层，一个用来预测品牌，大小为100，并且另一个用来预测最大速度，大小为1。

如图2a和图2b所示，卷积神经网络可以包括数据层、一个或多个卷积层、一个或多个最大池化层、全连接层，以及一个输出层(图2a)或多个输出层(图2b)。

数据层101

此层101接收图像和它的标签其中x_ij是第i个输入图像区域的d维特征向量的第j个位值，y_ij是第i个输入图像区域的n维标签向量的第j个位值。

卷积层102

卷积层从数据层101接收输出并且执行卷积、填补、采样和非线性变换操作。

每个卷积层中的卷积操作可以表达如下：

其中，

xⁱ和y^j分别是第i个输入特征图和第j个输出特征图；

k^ij是第i个输入特征图与第j个输出特征图之间的卷积核；

*表示卷积；

b^j是第j个输出特征图的偏差；

ReLU非线性y＝max(0,x)用于神经元。卷积神经网络(ConvNets)的较高卷积层中的权值被局部共享。

r指示共享权值的局部区域。在r对应于整个输入特征图的局部区域的一个极端情形中，上述卷积变成全局卷积。在r对应于输入特征图中的单个像素的另一极端情形中，卷积层降低到局部连接层。

卷积操作可以从输入图像中提取典型特征，诸如，边缘、曲线、点等。这些特征不是手动地预定义的，而是通过训练数据学习到的。

当卷积核k^ij在xⁱ的边缘像素上操作时，它将超出xⁱ的边界。在这种情况下，将超出xⁱ的边界的值设置为0，以便使操作有效。这个操作在本领域中也被称为“填补”。

“采样操作”也用来在不丢失很多信息的情况下缩减特征的维度。并且随后，“非线性变换”用来帮助从目标的输入中捕获非线性关系。

上述操作的顺序是：填补->卷积->采样->非线性变换(ReLU)。“填补”的输入是等式(1)中的xⁱ。每个步骤使用前一步骤的输出。非线性变换生成等式(1)中的y^j。

最大池化层103

最大池化层保留局部窗口中的最大值并且丢弃其他值，因此，输出小于输入，这可以用公式表示成：

其中第i个输出特征图yⁱ中的每个神经元在第i个输入特征图xⁱ中的M×N局部区域上进行池化，其中s作为步长。

换言之，它缩减了特征维度并且提供了空间不变性。空间不变性意味着即便是输入漂移了若干个像素，层的输出也将不会改变很多。

全连接层104

全连接层将来自前一层的特征向量作为输入并且操作特征x与权值w之间的内部乘积，随后将在乘积上操作一个非线性变换，这可以用公式表示成：

其中，

x指示来自级联池化模块的神经元输出(特征)，

y指示当前的全连接中的神经元输出(特征)，

w指示当前的特征提取模块(当前的全连接)中的神经权值，全连接模块中的神经元将前一特征提取模块中的特征进行线性地组合，之后是ReLU非线性。

全连接层被配置成从前一层中提取全局特征(从输入特征图的整个区域中提取的特征)。全连接层也具有通过限制神经元的数量的特征维度缩减的功能，如同池化层。在本申请的一个实施例中，提供至少两个全连接层，以便增加神经网络的非线性，继而使拟合数据的操作更简单。

卷积层和最大池化层只提供局部变换，这意味着它们只在输入的局部窗口(输入的图像的局部区域)上操作。然而，全连接层提供全局变换，所述全局变换采用来自输入的图像的整个空间的特征并且执行变换，如在上述公式(3)中论述。

输出层/节点105(105-1、105-2、105-3)

用于预测器20的不同输出的卷积神经网络只在输出节点的大小和类型上有区别，所述输出节点是网络的最后一层。下文论述用于不同输出的不同输出层。出于描述的目的，示出3个输出层105-1、105-2、105-3，但本发明不限于此，并且如果需要的话，任何数量的输出层都适用。

●离散属性

1)品牌

对于只预测品牌的网络，每个输出节点指示属于一个特定品牌的概率。输出节点的数量是品牌的数量。需要对神经网络的输出节点进行不同的训练，以便输出不同的结果。对于车辆的离散属性，诸如品牌和型号，输出节点的输出可以是一个代码，例如，1-of-k代码。换言之，在输出之中，只有一个位是1并且其他位都是0。输出代码中的每个位都是预先确定的，以代表不同的品牌或型号。如之后将论述，在训练期间，将基准真实标签设置成训练1-of-k代码。在测试期间，将输出代码解释成车辆的对应属性，诸如品牌和型号。因此，对于每个任务，应定义一种编码。而对于连续属性，诸如，最大速度、0到100加速时间和排量等，可以将基准真实标签简单地设置成实数的值。

2)品牌/型号

对于预测品牌和型号的网络，每个输出节点指示某一品牌下的某一型号。输出节点的数量就是不同型号的数量。

3)品牌/型号/年份

对于预测品牌、型号和发行年份的网络，每个输出节点指示某一品牌下的某一型号的发行年份。输出节点的数量就是独特品牌/型号/发行年份组合的数量。

4)其他离散属性

为了预测除了品牌/型号/年份等之外的离散属性，每个输出节点指示离散列表中的元素。输出节点的数量就是列表的大小。例如，为了预测车辆的门数量，4个输出节点分别指示2个门、3个门、4个门、5个门。

●连续属性

对于预测连续属性的网络，只有一个输出节点并且它生成属性的连续值。例如，为了预测车辆的最大速度，输出节点生成连续值，诸如，200km/h。

●任意集合

对于预测分类和属性的任意组合的网络，存在如图2b所示的多个输出层，每个输出层生成分类和属性中的一个的预测。例如，如果目标是品牌/型号/年份和最大速度，那么网络中将存在两个输出层/节点，所述输出层/节点分别生成品牌/型号/年份的预测和最大速度的连续值。多个输出层全都与卷积网络的最后全连接层连接，如图2b所示。

对于具有不同输出层以便输出不止一个属性的这些卷积神经网络而言，应在训练期间针对相应的输出节点设置对应的1-of-k代码。将训练相同卷积神经网络中的不同输出层，使得卷积神经网络可以使用输出节点，以响应于不同的输入图像来输出不同的预测。

训练装置30用来训练预测器20。当预测器20被指定用于不同的输出时，卷积神经网络的唯一不同就是输出节点(层)。

训练装置30用来训练卷积神经网络，卷积神经网络将由车辆的边界框修剪的图像作为输入并且生成一般预测。训练装置30将下列项作为输入以训练神经网络：

●由含有不同对象和对应的基准真实对象标签的图像构成的预先训练集。所述集包括m个对象分类。

●由只含有车辆和与指定输出对应的对应基准真实标签构成的微调集。如果网络用来预测品牌/型号/年份，那么基准真实标签是输入图像的品牌/型号/年份；如果网络用来预测属性，那么基准真实标签是所述属性的基准真实值；如果网络用来预测多个分类和属性，那么基准真实标签是指定的分类和属性的集合。

在训练之后，将由车辆的边界框修剪的图像作为输入并且生成指定输出的预测的微调后卷积神经网络将可用。具体地讲，图3中示出根据本申请的一个实施例的训练装置30的训练过程。

在步骤s301中，训练装置30使用预先训练集中的图像来预先训练第一卷积神经网络。使用反向传播算法来执行学习，并且输出是预先训练的卷积神经网络。图4示出反向传播算法的具体步骤。

在步骤s3011处，随机地将参数初始化，包括卷积滤波器、变形层权值、全连接权值和偏差。训练尝试将损失函数最小化并且可以分成很多更新步骤。因此，在步骤s3012处，计算损失，随后在步骤s3013处，算法基于计算的损失相对于所有神经网络参数来计算梯度，包括卷积滤波器、变形层权值、全连接权值和偏差。

利用链式法则可以计算任何网络参数的梯度。假设网络具有n个层并且它们由L_i指示，i＝1、2、…、n。网络中的层L_k的输出可以由通用函数表达：

y_k＝f_k(y_k-1,w_k) (4)

其中y_k是层L_k的输出，y_k-1是前一层L_k-1的输出，w_k是L_k的权值，并且f_k是用于L_k的函数。相对于y_k-1和w_k的y_k的导数都是已知的。在最后一层L_n和基准真实标签t的输出上定义网络的损失函数C：

c＝C(y_n,t) (5)

相对于y_n的c的导数也是已知的。为了相对于w_n来计算c的梯度，可以应用链式法则：

为了相对于y_k来计算c的梯度，也可以应用链式法则：

这采用了递归方式。为了相对于任意权值w_k来计算c的梯度，可以使用：

在此过程中，可以计算相对于网络中的任何权值的成本c的梯度。

在步骤s3014处，算法通过以下规则来更新卷积滤波器、变形层权值、全连接权值和偏差：

其中η是学习率，并且η是预定义值。

使用一个前缀学习率和对应梯度的乘积来执行参数的更新。

在步骤s3015处，确定是否满足停止标准。例如，如果损失的变化小于预先确定的值，那么过程终止，否则，过程返回到步骤s3012。

在步骤s301中训练第一卷积神经网络之后，过程移动到步骤s302，以创建与预先训练的神经网络具有相同结构的第二卷积神经网络。

在步骤s303处，使用预先训练的卷积神经网络的参数将第二卷积神经网络初始化。

在步骤s304处，利用具有n节点的新输出层来替换m节点的第二卷积神经网络的输出层，其中n是指定输出的大小。例如，不同的输出需要不同的训练。

对于车辆的离散属性，诸如品牌和型号，输出节点的输出可以是一个代码，例如，1-of-k代码，如上文中论述。

在步骤305处，使用微调集中的图像来微调第二卷积神经网络。使用反向传播算法执行学习。输出是微调后的卷积神经网络。此处，微调集由具有基准真实标签的车辆图像构成。

参考图5，示出系统4000。系统4000包括存储可执行部件的存储器401，以及处理器402，所述处理器联接到存储器402并且被配置成执行可执行部件，以执行系统4000的操作。可执行部件可以包括：车辆检测部件403，其用来检测接收的图像中的车辆的位置；以及预测部件404，其用于从检测的位置的图像分块中预测车辆的一个或多个属性。在本申请的实施例中，预测部件404具有被配置成具有一个或多个输出层的卷积神经网络，对每个输出层进行不同的训练以确定其大小和类型从而输出车辆的不同属性。预测器20的相同论述也适用于预测部件404，因此本文中省略详细论述。

如上文论述，卷积神经网络包括至少一个全连接层，该全连接层被配置成从接收的图像的输入特征的整个区域中提取分类特征。输出节点联接到全连接层并且从接收自全连接层的分类特征中预测车辆的一个或多个属性。属性包括从由下列项构成的组中选择的至少一个：品牌、型号、年份、最大速度的连续值、排量、座位数量以及门数量等。

系统4000还可以包括训练部件405，所述训练部件基于下列项来训练卷积神经网络：1)包括含有不同对象和对应基准真实对象标签的图像的预先训练集；以及2)包括只含有车辆和基准真实标签的图像的微调集。用于预先训练集和微调集的基准真实标签根据将要预测的属性而改变。

训练部件405使用预先训练集中的图像通过下列方式来预先训练第一卷积神经网络：随机地将第一卷积神经网络的参数初始化；计算第一卷积神经网络中的参数的损失；基于计算的损失来计算相对于所有所述参数的梯度；通过使用一个前缀学习率和对应梯度的乘积来更新参数；确定是否满足停止标准；如果不满足的话，则返回到计算步骤。训练部件405还被配置成：创建与第一神经网络具有相同结构的第二卷积神经网络；使用第一神经网络的预先训练的参数将第二神经网络初始化；利用具有n节点的新输出层来替换第二卷积神经网络的输出节点，其中n是指定输出的大小；以及使用微调集中的图像来微调第二卷积神经网络。由于训练装置30的论述也适用于训练部件405，因此本文中省略详细算法。

本申请也提供用于验证来自两个图像的两个车辆是否具有相同属性，例如，是否属于相同品牌/型号/发行年份的系统。图6示出根据本申请的一个实施例的这样的系统6000的示意图。

首先，分别将含有车辆的两个图像馈入到车辆检测器60中。随后，检测两个车辆，并且分别由它们的检测边界框来修剪图像。随后，将每个修剪后的车辆图像馈入到特征提取器62中。特征提取器62被配置成具有利用预测器10的方式训练的卷积神经网络。最后，将来自特征提取器62的特征进行组合，并且馈入到验证单元64中。验证单元64判断两个输入是否来自同类(可能是品牌/型号/年份)并且生成二进制输出(是或否)。

车辆检测器60与上文中论述的车辆检测器10相同，因此本文中省略详细描述。

特征提取器62接收主要被车辆占据的图像，并且从输入车辆图像中提取特征。本申请基于具有高度语义性和表现力的卷积神经网络来收集特征。特征用作验证单元64的输入，所述验证单元判断两个输入是否属于相同分类。

根据本申请的一个实施例的用于特征提取器62的卷积神经网络与如图2a所示的卷积神经网络相同。模型的训练过程也与预测器20相同。由于可以在品牌、型号和年份三个层级中完成验证，因此，特征提取器被设计成利用验证任务的目标的相同层级进行训练。如果目标是验证两个输入是否来自相同品牌，那么卷积神经网络以品牌作为目标进行训练；如果目标是验证两个输入是否来自相同型号，那么卷积神经网络以型号作为目标进行训练。并且年份和其他潜在目标也都类似。当输入馈入到网络中时，将最后全连接层的值(即，除了输出层之外的最后一层的值)用作提取的特征。

验证单元64将两个图像的特征作为输入并且输出两个输入是否属于相同分类的预测。此处，分类是预定义的。它可以是车辆的品牌、型号、发行年份或其他可能的类别。

验证单元的模型结构不受限制。可以使用能够实现目标的任何模型。典型的模型是将要详细描述的联合贝叶斯。其他普遍的模型包括支持向量机、暹罗神经网络等。

联合贝叶斯

联合贝叶斯用公式将特征x表示成两个独立的高斯变量之和，

x＝μ+∈， (10)

其中μ～N(0,S_μ)表示识别信息，并且μ～N(0,S_∈)是类别内变化。在给定类别内或类别外变化假设的情况下，联合贝叶斯对两个对象的联合概率进行建模P(x₁,x₂|H_I)和P(x₁,x₂|H_E)。这两个概率也是高斯概率，分别具有变化：

和

可以利用EM算法从训练数据中学习S_μ和S_∈。在测试中，利用下列式来计算似然比：

它具有封闭解并且有效。利用阈值h，似然比r可以变换成二进制标签：

图7示出用于验证的系统8000。系统8000包括存储可执行部件的存储器401，以及处理器402，所述处理器联接到存储器402并且被配置成执行可执行部件，以执行系统4000的操作。可执行部件可以包括：车辆检测部件403，其被配置成接收含有车辆的两个图像并且从接收的图像中检测两个车辆；特征提取部件404，其被配置成分别从检测的车辆中提取验证特征；以及验证部件405，其被配置成判断两个图像中的车辆是否来自同类车辆。

可以基于具有高度语义性和表现力的卷积神经网络来创建特征提取部件404。特征用作验证单元64的输入，所述验证单元判断两个输入是否属于相同分类。根据本申请的一个实施例的特征提取部件404中的卷积神经网络与如图2a所示的卷积神经网络相同。模型的训练过程也与预测器20相同。由于可以在三个层级(品牌层级、型号层级和年份层级)中完成验证，因此，卷积神经网络被设计成利用验证任务的目标的相同层级进行训练。如果目标是验证两个输入是否来自相同品牌，那么卷积神经网络以品牌作为目标进行训练；如果目标是验证两个输入是否来自相同型号，那么卷积神经网络以型号作为目标进行训练。并且年份和其他潜在目标也都类似。当输入馈入到网络中时，将最后全连接层的值(即，除了输出层之外的最后一层的值)用作提取的特征。

验证部件405将两个图像的特征作为输入并且输出两个输入是否属于相同分类的预测。在本文中，分类是预定义的。它可以是车辆的品牌、型号、发行年份或其他可能的类别。验证部件405的模型结构不受限制。可以使用能够实现目标的任何模型。典型的模型是将要详细描述的联合贝叶斯。其他普遍的模型包括支持向量机、暹罗神经网络等。

系统6000和8000可以从监控视频中检索类似的车辆(可能是相同型号、相同发行年份等)，以定位/追踪目标车辆。这个功能在具有挑战性的多相机监控环境中至关重要，其中车牌识别可能会失败，并且只能从视觉外观来完成汽车追踪。

如上文中论述，本发明的范围内的实施例可以在数字电子电路中实施、或在计算机硬件、固件、软件中实施，或者在其组合中实施。本发明的范围内的设备可以在计算机程序产品中实施，所述计算机程序产品有形地体现在机器可读存储装置中，以便由可编程处理器执行；并且本发明的范围内的方法动作可以由可编程处理器执行，所述可编程处理器施行指令程序以通过操作输入数据并且生成输出来执行本发明的功能。

本发明的范围内的实施例可以有利地在一个或多个计算机程序中实施，所述计算机程序可在包括至少一个可编程处理器的可编程系统上执行，所述可编程处理器进行联接以从数据存储系统、至少一个输入装置和至少一个输出装置接收数据和指令并且将数据和指令传输到此。每个计算机程序可以用高级程序化或面向对象的编程语言实施，或者如果需要的话，用汇编语言或机器语言实施；并且在任何情况下，语言可以是编译语言或解释语言。例如，合适的处理器包括通用微处理器和专用微处理器。一般来讲，处理器将从只读存储器和/或随机存取存储器接收指令和数据。一般来讲，计算机将包括用于存储数据文件的一个或多个大容量存储装置。

本发明的范围内的实施例包括用于携载或存储有计算机可执行指令、计算机可读指令或数据结构的计算机可读介质。此类计算机可读介质可以是任何可用的介质，所述介质可由通用或专用计算机系统访问。计算机可读介质的示例可以包括：物理存储介质，诸如，RAM、ROM、EPROM、CD-ROM或其他光盘存储设备、磁盘存储设备或其他磁性存储装置，或者可以用来携载或存储所需程序代码的任何其他介质，所述程序代码采用计算机可执行指令、计算机可读指令或数据结构的形式并且可以由通用计算机系统或专用计算机系统访问。任何上述项可以由ASIC(专用集成电路)补充或者合并到ASIC中。尽管已经示出并描述了本发明的特定实施例，但在不脱离本发明的真实范围的情况下，可以对此类实施例作出变化和更改。

尽管已描述了本发明的优选示例，但在了解本发明基本概念后，本领域的技术人员可以对这些示例作出变化或更改。所附权利要求书意图包括落入本发明的范围内的优选示例和所有变化或更改。

显然，在不脱离本发明的精神和范围的情况下，本领域的技术人员可以对本发明作出变化或更改。因此，如果这些变化或更改属于权利要求书和等效技术的范围，那么它们也可以落入本发明的范围内。

Claims

1.一种用于车辆分类的设备，包括：

车辆检测器，用来检测接收的图像中的车辆的位置；以及

预测器，与所述检测器电通信、并从所检测到的位置的图像分块中预测所述车辆的一个或多个属性，

其中，所述预测器包括被配置有一个或多个输出层的卷积神经网络，每个所述输出层均经过不同的训练，使得每个所述输出层用来预测所述车辆的一个属性，并且每个所述输出层具有与所述车辆的输出类别的数量相同的大小。

2.根据权利要求1所述的设备，其中所述卷积神经网络包括至少一个全连接层，所述全连接层被配置成从接收的所述图像的整个车辆区域中提取分类特征。

3.根据权利要求2所述的设备，其中所述全连接层联接到输出节点，所述输出节点从接收自所述全连接层的所述分类特征预测所述车辆的一个或多个属性。

4.根据权利要求1至3中任一项所述的设备，其中所述属性包括从由下列项构成的组中选择的至少一个：品牌、型号、年份、最大速度的连续值、排量、座位数量以及门数量等。

5.根据权利要求1至3中任一项所述的设备，其还包括训练装置，所述训练装置基于下列项来训练所述卷积神经网络：

1)预先训练集，包括含有不同对象和对应的基准真实对象标签的图像，

2)微调集，包括只含有车辆和对应的基准真实标签的图像，

其中，所述预先训练集的所述基准真实对象标签是对应图像的对象类别，并且所述微调集的所述基准真实对象标签取决于将要预测的属性。

6.根据权利要求5所述的设备，其中所述训练装置使用所述预先训练集中的所述图像通过下列方式来预先训练第一卷积神经网络：

随机地将所述第一卷积神经网络的参数初始化；

计算所述第一卷积神经网络中的所述参数的损失；

基于计算的损失来计算相对于所有所述参数的梯度；

通过使用一个前缀学习率和对应梯度的乘积来更新所述参数；

确定是否满足停止标准；

如果不满足的话，则返回到计算步骤。

7.根据权利要求6所述的设备，其中所述训练装置还被配置成：

创建与所述第一神经网络具有相同结构的第二卷积神经网络；

使用所述第一神经网络的预先训练的参数将所述第二神经网络初始化；

利用具有n节点的新输出层来替换所述第二卷积神经网络的所述输出节点，其中n是指定输出的大小；以及

使用所述微调集中的所述图像来微调所述第二卷积神经网络。

8.一种用于车辆分类的方法，包括：

将卷积神经网络配置成具有一个或多个输出层，每个所述输出层经过不同的训练，使得每个所述输出层用来预测所述车辆的一个属性并且具有与所述车辆的输出类别的数量相同的大小；

检测接收的图像中的车辆的位置；以及

利用经过配置的网络从检测到的位置的图像分块中预测所述车辆的一个或多个属性。

9.根据权利要求8所述的方法，其中所述卷积神经网络包括至少一个全连接层，所述全连接层被配置成从所述接收的图像的输入特征的整个区域中提取分类特征。

10.根据权利要求9所述的方法，其中所述全连接层联接到输出节点，所述输出节点从接收自所述全连接层的所述分类特征预测所述车辆的一个或多个属性。

11.根据权利要求8至10中任一项所述的方法，其中所述属性包括从由下列项构成的组中选择的至少一个：品牌、型号、年份、最大速度的连续值、排量、座位数量以及门数量等。

12.根据权利要求8至11中任一项所述的方法，其中所述配置还包括基于下列项来训练所述卷积神经网络的步骤：

1)预先训练集，由含有不同对象和对应的基准真实对象标签的图像构成，以及

2)微调集，由只含有车辆和对应的基准真实标签的图像构成，

13.根据权利要求12所述的方法，其中所述训练包括：

随机地将第一卷积神经网络的参数初始化；

计算所述第一卷积神经网络中的所述参数的损失；

基于计算的损失来计算相对于所述第一网络的所有所述参数的梯度；

确定是否满足停止标准；

如果不满足的话，则返回到计算步骤。

14.根据权利要求13所述的方法，其还包括：

创建与预先训练的第一神经网络具有相同结构的第二卷积神经网络；

使用所述预先训练的第一神经网络的参数将所述第二卷积神经网络初始化；

利用具有n节点的新输出层来替换m节点的所述第二卷积神经网络的所述输出节点，其中n是指定输出的大小；以及

15.一种用于训练卷积神经网络的方法，每个网络具有一个或多个输出层，每个所述输出层经过不同的训练，使得每个所述输出层用来预测所述车辆的一个属性并且具有与所述车辆的输出类别的数量相同的大小，所述方法包括：

随机地将第一卷积神经网络的参数初始化；

计算所述第一卷积神经网络中的所述参数的损失；

确定是否满足停止标准；

如果不满足的话，则返回到计算步骤。

16.根据权利要求15所述的方法，其还包括：

17.根据权利要求15或16所述的方法，其中所述属性包括从由下列项构成的组中选择的至少一个：品牌、型号、年份、最大速度的连续值、排量、座位数量以及门数量等。

18.一种用于车辆验证的设备，其包括：

车辆检测器，被配置成接收含有车辆的两个图像并且从接收的图像中检测两个车辆；

特征提取器，与所述检测器电子通信并被配置成分别从检测的车辆中提取验证特征；以及

验证单元，联接到所述提取器并被配置成判断所述两个图像中的车辆是否来自同类车辆。