CN107871130B

CN107871130B - 图像处理

Info

Publication number: CN107871130B
Application number: CN201710884016.7A
Authority: CN
Inventors: 伊利亚·罗曼年科; 亚历山大·戈班; 伊凡·特尤金
Original assignee: University of Leicester; ARM Ltd
Current assignee: University of Leicester; ARM Ltd
Priority date: 2016-09-27
Filing date: 2017-09-26
Publication date: 2023-04-18
Anticipated expiration: 2037-09-26
Also published as: GB2554435A; GB2554435B; US10489634B2; CN107871130A; GB201616402D0; US20180089497A1

Abstract

本公开涉及图像处理。提出一种方法，包括接收第一分类器已经识别出图像包括预定对象类别的对象的指示。使用具有第一训练状态的第二分类器处理与图像相关的图像数据，其确定图像数据是否包括预定对象类别的对象。响应于该确定，与图像数据相关的数据被发送到远程系统。从远程系统接收与所发送的数据有关的更新数据。响应于更新数据，第二分类器的训练状态被更新为第二训练状态，以使得具有第二训练状态的第二分类器将进行如下与具有第一训练状态的第二分类器不同的确定：与图像数据类似的未来图像数据是否包括预定对象类别的对象。

Description

图像处理

技术领域

本文描述的示例涉及用于处理图像的方法和各种系统或装置，例如处理器系统、计算机程序、计算设备或远程系统。

背景技术

使用分类器来识别图像中感兴趣的对象是已知的。通常，已知的分类器会遭受“假正类(false positive)”的问题，其中图像被错误地分类为包含感兴趣的对象，而实际上，图像中不存在感兴趣的对象。

期望提供一种不太易于受假正类识别影响或可以减少假正类被识别的比率的图像处理方法。

发明内容

根据本公开的一个实施例，提出了一种处理表示图像的至少一部分的图像数据的方法，包括：接收第一分类器已经识别出图像包括预定对象类别的对象的指示；使用具有第一训练状态的第二分类器处理与已经由第一分类器识别为包括预定对象类别的对象的图像相关的图像数据；从使用具有第一训练状态的第二分类器对图像数据的处理来确定图像数据是否包括预定对象类别的对象；响应于确定步骤，将与图像数据相关的数据发送到远程系统；从远程系统接收更新数据，更新数据与所发送的数据相关；以及响应于更新数据将第二分类器的训练状态更新为第二训练状态，使得具有第二训练状态的第二分类器进行如下与具有第一训练状态的第二分类器不同的确定：与图像数据类似的未来图像数据是否包括预定对象类别的对象。

根据本公开的另一实施例，提供了一种用于处理与表示图像的至少一部分的图像数据有关的数据的远程系统，第一分类器已经识别出图像包括预定对象类别的对象，已经使用具有第一训练状态的第二分类器处理了与已经由第一分类器识别为包括预定对象类别的对象的图像相关的图像数据，具有第一训练状态的第二分类器已经从对图像数据的处理确定了图像数据是否包括预定对象类别的对象，远程系统包括：网络接口，用于从计算设备接收与表示图像的至少一部分的图像数据有关的数据；至少一个处理器；以及存储装置，其耦合到至少一个处理器，其中存储装置包括：计算机程序代码，其被配置为当由至少一个处理器处理时实现第三分类器，该第三分类器被配置为：处理所接收的数据以尝试识别第二分类器对所述图像数据是否包括预定对象类别的对象的错误确定；以及确定第二分类器未正确地确定图像数据是否包括所述预定对象类别的对象从而生成更新数据，更新数据指示第二分类器未正确地确定图像数据是否包括预定对象类别的对象，其中，网络接口还被配置为将更新数据发送到计算设备。

附图说明

本公开的各种特征将在下文结合附图的详细描述中变得清楚，附图仅通过示例的方式一起示出了本公开的特征，并且其中：

图1是示出根据示例的方法的流程图；

图2是示出根据图1的方法的方法的进一步示例的流程图；

图3是示出根据示例的使用远程系统处理图像的方法的流程图；

图4是示出与根据示例的方法一起使用的远程系统的内部组件的示例的示意图；和

图5是示出根据示例的方法移除的真正类的数量与移除的假正类的数量之间的关系的曲线图。

具体实施方式

根据实施例的方法的细节将从以下参考图1和图2的描述中变得清楚。在本说明书中，为了说明的目的，阐述了某些实例的许多具体细节。在说明书中对“一个示例”或类似语言的引用意味着结合该示例描述的具体特征、结构或特性至少被包括在该示例中，但不一定包括在其他示例中。应该进一步注意的是，为了便于解释和理解实施例的基本概念，某些示例通过省略某些特征被简要地进行了描述和/或进行了必要的简化。

本文所述的示例提供了处理表示图像的至少一部分的图像数据的方法。图像可以是由诸如照相机或摄像机的图像捕获设备捕获的图像。图像可以是静态图像或视频的帧，并且可以是任何合适的图像格式。静态图像的常见格式包括JPEG(联合图像专家组)格式、GIF(图形交换格式)、BMP(Windows位图)格式和PNG(便携式网络图形)格式。用于视频数据的典型格式包括音频视频交错(AVI)格式、MPEG(运动图像专家组)格式(例如MP4、MPEG-1或MPEG-2、AVCHD(高级视频编码高清晰度)格式或DV或HDV格式(数字视频或高清数字视频))中的任何格式。图像可以包括任何图形或视觉内容，例如，文本、图形、图片和/或照片。

图1是示出根据示例的处理图像的方法的流程图。图1的方法包括在框100处接收第一分类器已经识别出图像包括预定对象类别的对象的指示。预定对象类别可以是例如人脸或人类的其他对象特征中的至少一者。因此，该方法可以包括接收第一分类器已经识别出图像包括人脸或人体的另一部分的指示。因此，可以在需要评估图像是否包含人脸或人的一部分的情况下使用该方法。然而，在其他示例中，预定对象类别可以是不同的，并且可以是动物(例如，特定种类或类型的动物)或特定的人造物品(例如，汽车)。

在框102处，使用具有第一训练状态的第二分类器处理与由第一分类器识别为包括预定对象类别的对象的图像有关的图像数据。该方法包括，在框104处，从使用具有第一训练状态的第二分类器对图像数据的处理来确定图像数据是否包括预定对象类别的对象。因此，框102和104可以例如包括由第二分类器进行如下评估：根据具有第一训练状态的第二分类器，图像是否确实包含预定对象类别的对象。例如，在对象是人脸的情况下，这可以包括第二分类器确定第一分类器是否已经识别出“真正类(true positive)”：图像已被第一分类器正确地识别为包含人脸；或者第一个分类器是否已经识别出“假正类(falsepositive)”：图像被第一个分类器错误分类为包含人脸。例如，第一分类器可能将动物的脸部误认为人脸，并且错误地确定图像包含人脸。

框100、102和104可以由诸如照相机或摄像机的图像捕获设备来实现。例如，图像捕获设备可以被布置为记录特定环境的图像或视频，并且使用本文所述的方法处理图像或视频以确定所记录的图像或视频是否包括人。以这种方式，图像捕获设备可以被用作盗贼或入侵者检测系统的一部分，例如通过在预期人类不会存在的环境(例如，报警系统被激活时的安全位置)中寻找人类的存在。在其他示例中，框100、102和104可以由具有诸如所谓的“智能电视”的处理能力的电视机来实现。针对每一个，电视机可以包括照相机或摄像机来捕获电视机的观看者的图像。根据示例的方法可以用于确定TV的观看者的存在以及例如位置，例如，使得由TV显示的内容的特征或特性可以被调谐到观看者的精确位置。例如，可以根据使用根据示例的方法对TV的照相机所捕获的图像进行的人类识别所确定的观看者的位置来适当地调整对应于观看者周围的各种不同的扬声器的声音级别。在另外的示例中，框100、102、104可以由诸如移动电话之类的计算设备，例如智能电话、平板电脑、膝上型计算机或个人计算机、个人数字助理以及各种其它电子设备。

图1的方法还包括在框106处响应于框104的确定步骤，将与图像数据相关的数据发送到远程系统。远程系统例如是远程服务器系统或远程计算设备或计算系统，其可以具有比可用于实现该方法的其他部分的资源更大的计算能力或资源。例如，远程系统可以具有比照相机或摄像机更大的计算资源，其可以例如被配置为实现如上所述的块100、102和104。

在框108，从远程系统接收与所发送的数据相关的更新数据。更新数据可以例如指示具有第一训练状态的第二分类器未正确地识别出图像包括诸如人脸的预定类别的对象。在这种情况下，更新数据可以指示所发送的数据与由远程系统识别的假正类有关。或者，更新数据可以指示第二分类器已经正确地识别出图像包括预定类别的对象，在这种情况下，更新数据可以指示所发送的数据与由远程系统识别的真正类相关。下面给出更新数据的更多细节。以这种方式，更新数据可以向用于执行框100、102和104的设备提供反馈，其可以基于该反馈允许第二分类器被适当地改善和改进。

在框110处，响应于更新数据，将第二分类器的训练状态更新为第二训练状态，使得具有第二训练状态的第二分类器进行如下与具有第一训练状态的第二分类器不同的确定：与图像数据类似的未来图像数据是否包括预定对象类别的对象。

根据图1的方法因此可以被用于例如基于更新数据来更新第二分类器的训练状态。可以基于该更新来改进第二分类器的精度。例如，在第一分类器和第二分类器都错误地或不正确地确定图像包括预定对象类别的对象的情况下，可以更新第二分类器的训练状态，使得将来第二分类器针对类似的图像将正确地确定图像不包括预定对象类别的对象。这可以减少与该方法相关的假正类比率，提高识别特定对象的准确性。

图2是示出根据图1的方法的方法的另外的示例的另一流程图。图2的方法可以在诸如相机或摄像机的图像捕获设备上实现。在其他示例中，图2可以由不同于图像捕获设备(例如，计算设备)的电子设备进行。可以使用图像捕获设备或计算设备的硬件和/或软件来实现图2的示例性方法。硬件实现可能相对简单且制造成本便宜，并且如果需要，软件实现可以允许进一步灵活地改变方法。例如，图像捕获设备或计算设备的例如包括微处理器或芯片的处理器系统可以被设计和制造，以执行图2的方法。然而，其他示例涉及包括适于执行根据示例的方法(诸如图1和/或图2的方法)的软件代码的计算机程序。

在图2中，使用第一分类器在框112处处理图像数据。图像数据可以具有任何适于处理的格式。例如，图像数据可以包括从图像的至少一部分导出的特征向量。特征向量可以例如对应于表示或表征图像的特征(例如，图像的特定关键点或特征区域的特征)的描述符。如本领域技术人员将理解的，可以使用各种不同的方法来获得合适的特征向量。例如，特征向量可以基于或包括如下各项中的一项或多项：定向梯度(HoG)直方图、类Haar特征(例如，直观上类似于Haar小波)、局部二进制模式(LBP)、词袋(其通常涉及基于图像特征的图像的直方图表示)、或从诸如卷积神经网络之类的神经网络获得的向量。在从神经网络获得特征向量的情况下，特征向量可以包括例如级联以形成向量的神经网络的各种节点的值。例如，图像可以由神经网络的层(例如，神经网络的输出层或最后或第二到最后完全连接的层)中的节点的值表示。可以适当地归一化特征向量，例如使用L-2范数(有时称为欧几里德范数)。因此，可以将特征向量视为对应于多维空间中的球体上的点。

示例中的第一分类器用于生成第一分类器是否已经识别出图像包括预定对象类别的对象的指示，由图1的框114示意性地表示。如果第一分类器确定图像不包括预定对象类别的对象，则在方框116处丢弃图像，尽管在其他示例中，在第一分类器确定它不包括这样的对象时可以对图像进行不同处理或操作。通过丢弃不包含预定类别的对象的图像，该方法可以用于过滤所获得或捕获的图像，以仅选择图2的系统标识为包含预定类别的至少一个对象的那些图像。在其他实例中，类似于图2的方法可以由图像捕获设备或计算设备执行，而不使用第一分类器处理图像数据。这样的方法可以例如包括接收关于第一分类器是否已经识别出对象包括预定类别的对象的指示，但是使用第一分类器的图像数据的处理可以在别的地方执行，例如在单独的电子设备上。

如果第一分类器确定图像确实包括预定对象类别的对象，则在框118处使用具有第一训练状态的第二分类器来处理图像数据。第二分类器可以是或包括各种不同类型的分类器。在示例中，第二分类器使用诸如支持向量机或Fisher判别中的至少一者的线性分类模型。因此，第二分类器可以用于从一组其他点(例如，对应于不包括预定类别的对象的图像)线性分离点(例如，对应于包括预定类别的对象的图像)。发明人惊讶的确定在高维度样本中，每个点可以以高概率与所有其它点的集合线性分离。根据示例的方法旨在利用这一发现。然而，在其他示例中，第二分类器可以是非线性的。

如果第二分类器确定图像不包括预定对象类别的对象，则在方框122丢弃图像。然而，如参照第一分类器所指出的那样，当在其他示例中第二分类器确定它不包括这样的对象时，可以对图像进行不同的处理或操作。以这种方式，第二分类器可以用于进一步滤除由第一分类器识别的正类结果，移除由第一分类器错误地识别为包含预定类别的对象的假正类。例如，可以使用第二分类器将假正类比率降低到可接受的水平，使得图2的系统可以用于现实世界的场景而不输出过多的假正类。例如，第二种分类器可用于将假正类的数量从每天100的量级减少到一天几次或更少。在一些情况下，第二分类器可以将假正类数量减少到零、基本为零或几乎为零。由第一分类器错误地识别的正类的数量可以取决于图像数据的性质，例如用于表示图像特征的特征向量。例如，当处理包括基于HoG的特征向量的图像数据时，第一分类器针对3000个真正类可以识别出10个假正类，并且当特征向量基于卷积神经网络时，针对3000个真正类可以识别出2个假正类。然而，无论图像数据的性质如何，由第一分类器输出的假正类的数量可能是不可忽略的。在这些情况下，如上所述，可以使用第二分类器来进一步减少假正类的数量。

如果第二分类器确定图像确实包括预定对象类别的对象，则图2的示例中的图像数据是在框124处使用数据评估模块处理的。数据评估模块在示例中评估图像数据是否满足至少一个预定的数据评估标准。至少一个预定的数据评估标准可以包括跟踪标准(例如，图像是视频帧)。在这种情况下，图像的特定点(例如，图像的关键点)可以在多个帧(例如3至5个连续帧)上被跟踪，以确定关键点是否已经在帧之间行进或移动了可见或物理敏感的距离。例如，如本领域技术人员将理解的，卡尔曼滤波器可以用于对象跟踪。在确定图像的对象(例如，由第一分类器和第二分类器标识为属于预定类别的对象)相对较慢地移动并且因此相对静止的情况下，可以满足跟踪标准。对象满足跟踪标准的相对移动速度可能取决于预定类别的性质。例如，在预定类别是人类的情况下，相比于预定类别是车辆的情况下，较慢的识别的移动速度可以满足跟踪标准。在其他示例中，至少一个预定数据评估标准可以是置信标准，其表示被识别为对象的特征确实是对象的置信度或者是对象不被遮挡或部分覆盖或遮蔽的置信度。

在图2的示例中，数据评估模块是在使用具有第一训练状态的第二分类器处理图像数据之后，并且在与图像数据相关的数据被发送到远程系统之前，尽管在其他示例中，数据评估模块可以在使用具有第一训练状态的第二分类器处理图像数据之前，或者可能不存在数据评估模块。如果不满足至少一个预定数据评估标准，则在框128丢弃图像。

如果满足至少一个预定数据评估标准，则在框130将与图像数据相关的数据发送到远程系统。所发送的数据可以与图像数据相同，并且可以包括表示图像的特征或特点的特征向量。或者，所发送的数据可能不同于图像数据，但是例如可以从例如图像数据导出。远程系统对所发送的数据的处理(例如生成更新数据)将在下文参照图3进一步描述。

如果在框132处从远程系统接收到更新数据，则在框134处更新图2的示例中的第二分类器的训练状态。例如，在更新数据指示图像不包括预定对象类别的对象的情况下(例如，基于远程系统的第三分类器的确定，这将在下文进行进一步详细描述)，可以更新第二分类器的训练状态，使得更新的第二分类器将来会正确地识别图像或类似图像不包括预定类别的对象。

第二分类器的训练状态的更新可以包括使用包括从图像数据导出的数据的假正类训练数据来更新第二分类器的训练状态。例如，可以使用从图像数据导出的数据再训练第二分类器，使得再训练的第二分类器(具有第二训练状态)将正确地识别图像不包括预定类别的对象，如上所述。具有第二训练状态的第二分类器还可以识别类似的图像也不包括预定类别的对象，而在更新第二分类器的训练状态之前，具有第一训练状态的第二分类器可能以其他方式未正确评估这样的类似图像确实包括预定类别的对象。

在框134处，将第二分类器的训练状态更新为第二训练状态之前，第二分类器的第一训练状态可以至少部分地基于多组假正类训练数据，其中每组假正类训练数据是从表示多个图像中的相应图像的至少一部分的图像数据中导出的。例如，本文描述的方法可以用于处理多个不同的图像。第二分类器的训练状态可以针对远程系统识别的涉及假正类的每个图像被顺序地更新。例如，对于每个假正类，可以再训练第二分类器。以这种方式，第二分类器可以以非常特殊的方式进行训练，以识别和移除特定的假正类图像。这可能被认为是第二分类器的过度训练，这在机器学习应用中经常被认为是不期望的。然而，在某些情况下，这种过度训练可能是有益的，因为它允许非常准确地学习和识别特定的假正类，从而可以在将来精确地移除它们。

为了以这种方式过度训练第二分类器，该方法可以包括针对每个新识别的假正类确定假正类数据的组的数量是否小于或等于预定阈值。例如，响应于接收到向多组假正类训练数据添加另一组假正类训练数据会将多组假正类训练数据中的假正类训练数据的组的数量增加为超过预定阈值的指示，该方法可以包括从多组假正类训练数据中丢弃一组假正类训练数据，例如使得组合的总数等于或低于预定阈值，并且添加另一组假正类训练数据到多组假正类训练数据。另一组假正类训练数据可以包括从图像数据导出的数据。通常，预定阈值是大约100组假正类训练数据，并且优选地在50组和150组之间，尽管其他数目的组是可能的，例如这取决于表示假正类训练数据的特征向量的维数和/或用于第二分类器的分类技术的性质。

通常，由于确定真正类是假正类的不正确确定，可能存在由第二分类器移除的假正类的比例和由第二分类器不正确地移除的真正类的数量之间的权衡。可以出于对这种权衡的考虑来选择用于训练第二分类器的假正类训练数据的组的数量，例如预定阈值，例如以实现移除特定比例的假正类而不会不利地或显着地影响真正类的检测率。在一些情况下，可以选择预定阈值，使得所有、基本上所有或相对较高的比例(超过70％，80％，90％或甚至95％)的由第一分类器识别的正类被训练过的第二分类器正确地识别为假正类，而不显着降低真正类的检测率(例如，第二分类器正确地确定第一分类器将图像正确地识别为包含预定类别的对象的比率)。例如，可以选择用于训练第二分类器的假正类训练数据的组的数量，使得平均而言，对于由第二分类器正确识别的每个假正类，小于二个并且优选地大约一个真正类被错误地确定为假正类。这可以被认为是假正类移除的成本，其中假正类采样与被不正确地清除或移除的分类的真正类采样相比以1:2或优选的1:1的比例被移除。相比之下，已知的分类器的检测率可能比这更差。例如，对于已知的分类器，针对每个被正确识别的假正类，大约有10个真正类被错误地识别为的假正类，这给出了移除的假正类与消除的真正类的比例1：10。因此，使用这种已知的分类器，可能不正确地丢弃或移除较高比例的真正类，这可能会不利地影响分类器的性能。因此，根据示例的方法可以提供更高的真正类检测率，根据示例的方法的性能可以比已知的分类器更好。

如所解释的，过度训练第二分类器可能被认为是违反直觉的。如上所述，仔细训练已知的机器学习算法以避免过度训练。例如，可以训练已知的机器学习算法以尝试尽可能地泛化，以便能够有效地表征先前未看到的输入。然而，根据示例的方法采用不同的方法。在根据示例的方法中，可以专门训练第二分类器以移除与先前识别的假正类相同或相似的假正类。因此，第二分类器可能不是泛化的，而是识别非常特定的假正类。然而发明人发现，根据实施例的方法在识别假正类以进行移除或在其它方面是有效的。

在示例中，更新第二分类器的训练状态可以替代地或附加地包括使用一组或多组真正类训练数据来更新第二分类器的训练状态。真正类训练数据可以涉及已经预先提供给系统的图像，其显示不包括预定对象类别的对象的特定预期图像。在其他示例中，各组真正类训练数据可以从表示多个图像的相应图像的至少一部分的图像数据中导出，例如基于第二分类器或第三分类器已经确定的不包括预定类别的对象的图像。

图3是示出根据示例的使用远程系统处理图像的方法的流程图。远程系统可以例如是与参考图4描述的远程系统类似或相同的远程系统。在图3的示例中，在框131处，从图像捕获设备接收与图像数据相关的数据。在其他示例中，在框131处，可以从另一电子设备(例如，计算设备)接收与图像数据有关的数据。

在图3的示例中，在框133处使用第三分类器处理与图像数据相关的所接收数据。第三分类器可以例如使用深层神经网络或另一种机器学习算法，例如不同类型的神经网络。在例如图3的示例中，第三分类器在框135处确定图像是否包括对象。例如，第三分类器可以尝试识别第二分类器针对图像数据是否包括预定对象类别的对象的错误确定。在这些示例中，第三分类器可以从使用第三分类器对所发送的数据的处理中确定第二分类器未正确地确定图像数据是否包括预定对象类别的对象以生成更新数据。更新数据可以指示第二分类器未正确地确定图像数据是否包括预定对象类别的对象。因此，第三分类器可以例如被用作进一步的过滤器，以识别第二分类器是否已经将任何图像识别为“假正类”图像，例如被第二分类器错误地分类为包含预定对象类别的对象的图像。在其他示例中，远程系统可以包括可以确定第二分类器是否错误地或不正确地确定图像包括预定类别的对象其他算法。无论远程系统如何进行确定，在这种示例中，更新数据可以指示所发送的数据涉及由远程系统识别的假正类。例如，更新数据可以指示第一和第二分类器都错误地识别出预定类别的对象存在，但是远程系统实际上确定该对象不存在于图像中。例如，在该示例中，框136处将更新数据发送到图像捕获设备，以提供应该更新图像捕获设备的第二分类器的训练状态的指示。

第三分类器通常是比第一分类器更复杂且通常更准确的分类器。例如，第一分类器可以是简单的“轻”分类器，其可以在所收集的图像上快速运行，而不消耗大量的功率。相比之下，第三分类器可能比第一分类器更强大，例如具有更多数量的层，并且可能需要更长时间对所发送的数据进行分类。可以使用比第一分类器的训练点的数量更多的训练点来训练第三分类器。从而与第一分类器相比，这可以提高第三分类器可以识别图像是否包括预定类别的对象的精度或准确度。

在图3的示例中，基于图像数据的数据在框137处被发送给用户。例如，图像本身可以被发送给用户。然而，在其他示例中，根据系统的预期用途，可以向用户发送其他数据。例如，如果系统被用作入侵者检测系统的一部分，则可以设置报警，例如，如果确定人类存在，则可以向用户发送通知或者可以调用紧急服务。由于检测潜在入侵者的后果可能是破坏性的，因此期望降低假正类检测的比率，以便在不存在入侵者时不会发生这些后果。根据实施例的方法可以用于在这种情况下充分地减少假正类率。

用于执行根据图3的方法的合适的远程系统3可以是或可以不是基于硬件的或仅基于硬件的系统。例如，远程系统和远程系统的第三分类器可以使用诸如计算机程序代码的软件来实现。

图4是示出与根据示例的方法一起使用的远程系统138的内部组件的示例的示意图。远程系统138包括网络接口140，用于从图像捕获设备142接收与表示图像的至少一部分的图像数据相关的数据144。在接收到与图像数据有关的数据144之前，第一分类器已经识别出图像包括预定对象类别的对象，图像数据已经使用具有第一训练状态的第二分类器进行了处理，而第二分类器从对图像数据的处理确定图像数据是否包括预定对象类别的对象。网络接口140可以包括软件和/或硬件组件，例如，虚拟网络接口、以太网端口、与网络硬件交互的软件驱动器和/或通信栈。图像捕获设备142可以是或包括照相机或摄像机。远程系统138可以包括或者是诸如具有处理能力的计算设备，例如电视(例如，所谓的“智能电视”)、移动电话，例如智能电话、平板电脑、膝上型计算机或个人计算机、个人数字助手、以及各种其他电子设备。

远程系统138还包括至少一个处理器146。图4的示例中的至少一个处理器146可以是微处理器、通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散门或晶体管逻辑、离散硬件组件或其被设计用于执行本文所述功能的任何合适的组合。处理器还可以被实现为计算设备的组合，例如DSP和微处理器的组合、多个微处理器、结合DSP内核的一个或多个微处理器、或任何其他此类配置。

存储装置148耦合到至少一个处理器146。存储装置148可以包括诸如随机存取存储器(RAM)的易失性存储器和诸如只读存储器(ROM)或固态硬盘(SSD)(如闪存)的非易失性存储器中的至少一个。示例中的存储装置148可以包括另外的存储设备，例如磁性、光学或磁带介质、光盘(CD)、数字通用盘(DVD)或其他数据存储介质。存储装置148可以是从远程系统138可移动或不可移除的。

在图4的示例中，存储装置148包括被配置为当由至少一个处理器148处理时实现第三分类器150的计算机程序代码。第三分类器150可以与上文在示例中描述的第三分类器相似或相同，并且可以被配置为处理接收到的数据144以尝试识别第二分类器针对图像数据是否包括预定对象类别的对象的不正确确定，并且确定第二分类器未正确地确定图像数据是否包括预定类别的对象以生成更新数据152，其也可以存储在存储装置148中。更新数据152可以指示第二分类器未正确地确定图像数据是否包括预定对象类别的对象。在该示例中，第三分类器150被实现为软件。或者，第三分类器可以被实现为硬件、或者作为硬件和软件的组合。

图4的网络接口140还被配置为将更新数据152发送到计算设备156，例如用于进一步处理。在其他示例中，网络接口140可以被配置为将更新数据或基于更新数据的数据发送到与从中接收基于图像数据的数据的设备相同的设备，例如，图像捕获设备142。

图4的示例中的远程系统138的组件是使用系统总线156互连的计算设备。这允许在各种组件之间传送数据。

在另外的示例中，远程系统可以被配置为从计算设备或其他电子设备接收与图像数据相关的数据，并且将更新数据发送到计算设备或其他电子设备或图像捕获设备。

比较示例

根据本文描述的示例的方法的示例由发明人实现，并且用于调查是否可以更新第二分类器的训练状态以消除由第一分类器识别的所有假正类，同时仍然保持第一分类器的真正类检测数量。例如，调查了第二分类器是否可以被训练以产生所谓的“垃圾模型(trashmodel)”。这个示例仅仅是为了说明根据本文所描述的示例的方法的原理，然而，该示例的描述和特征并不是限制性的。

对于该示例，VGG-11卷积神经网络被训练为第一分类器。第一分类器在一个对象类别上进行了训练：行人，例如行走的人而不是行驶的车辆。VGG-11卷积神经网络由于其相对简单的架构和分类能力而被选中。由于硬件限制并且还受到训练的类别数量的限制，VGG-11卷积神经网络在较深的16和19层VGG神经网络中进行了训练。

第一分类器使用一组114,000个正类(positive)行人的RGB图像和一组375,000个负类(negative)非行人的RGB图像来训练。每个图像的大小都调整为128x 128像素。

动量设定为0.9，使用小的批处理量32。初始学习率设定为0.00125，经过25个时期这个比率以因子10被降低，经过50个时期再次被降低。对于前两个完全连接的层，使用比例为0.5的丢失正则化。本领域的技术人员将会意识到的Xavier初始化被用于初始化神经网络的权重，因为发现这有助于训练更快地收敛。在75个时期之后学习停止，以避免过度拟合。

然后在视频帧上对第二分类器(“垃圾模型”)进行训练。首先，在每个视频帧上使用多尺度滑动窗口方法来提供可以通过训练过的第一分类器的图像提案。多尺度滑动窗口方法例如涉及在各种不同的窗口位置和各种不同的窗口尺度(例如，不同的窗口大小)下分析或处理固定的“窗口”内的图像像素，以提取窗口内的图像特征。这些图像提案被重新调整为128x 128像素，并由训练过的第一分类器分类为包括行人或不包括行人。然后将非最大抑制应用于图像提案，以便移除被识别为正类的相同对象的多个实例，例如，对应于类似或重叠但不同的窗口位置或尺度。这可以被用于使得图像中的每个行人仅被识别或对应于一个正类。接下来，例如通过使用人为输入或通过训练过的第三分类器(例如，上述第三分类器)传递被识别为包含行人的图像提案，将结果与地面事实进行比较，以评估图像提案是否真的包括行人。随后确定任何假正类。

对于在非最大抑制之前的每个假正类及其相应的检测集合，例如与相应的假正类相关联的多个正类中的每一个，为每个图像提取VGG-11卷积神经网络的第二到最后完全连接的层并用作特征向量。这些提取的特征向量的维数为4096。

然后，整个正类训练集合通过VGG-11卷积神经网络，并且对于假正类，为每个图像提取了VGG-11卷积神经网络的第二到最后完全连接的层。所提取的针对假正类和真正类两者的特征向量都用L-2范数进行归一化，为建立SVM做准备。

最后，在这两组归一化的VGG-11卷积神经网络特征向量上训练SVM，其在该示例中是使用liblinear包完成的。该训练过的SVM被认为是“垃圾模型”或第二分类器，用于移除其被训练的假正类。

在此调查期间，发现随着被训练的假正类数量的增加，有必要也增加C参数的值，其向SVM指示期望避免多少错误分类或当识别图像是否落入特定的类别时SVM应该有多严格，以保持正类和负类训练点的完美分离。这种完美的分离使得可能潜在地被移除的真正类的数量被最小化同时尽可能多地移除假正类。

对于测试，训练过的SVM被放置在标准检测管道的末端，例如作为第二分类器。对于由VGG-11卷积神经网络(第一分类器)产生的所有正类检测，提取了VGG-11卷积神经网络的第二到最后完全连接的层，并通过SVM垃圾模型(第二分类器)。因此，从SVM垃圾模型中给出正类分数的任何检测被视为假正类移除。

使用三个不同的视频测试了该示例管道，以评估垃圾模型的创建及其在移除假正类的有效性。针对每个测试视频，对该视频内的所有假正类进行了一个新的垃圾模型训练，然后利用被垃圾模型过滤的结果重新运行视频。第一个视频是包括288个帧的INRIA测试组，第二个视频是ETHZ(瑞士联邦理工学院在苏黎世)生产的包括1208帧的LINTHESCHER序列。最后的视频序列是由发明人从诺丁汉的街道创造的包括用动作相机拍摄的435个帧的视频序列。为了增加该序列的方差，拍摄时相机随机倾斜小角度。利用INRIA视频、LINTHESCHER视频和Nottingham视频的示例管道的性能分别如表1、2和3所示。

	没有垃圾模型	具有垃圾模型
			真正类(True positives)	490	489
假正类(False positives)	31	0

表1:针对INRIA视频的具有和没有垃圾模型的管道的性能。

	没有垃圾模型	具有垃圾模型
			真正类	4288	4170
假正类	9	0

表2:针对LINTHESCHER视频的具有和没有垃圾模型的管道的性能。

表3:针对Nottingham视频的具有和没有垃圾模型的管道的性能。

从表1、2和3可以看出，管道有效地从每个视频中移除了所有的假正类。这些结果表明，有可能构建能够可靠地过滤掉多个假正类同时将真正类的检测率的损失限制到可接受的比例的垃圾模型或第二分类器。

Nottingham视频还被用于建立使用不同数量的假正类的垃圾模型，以评估垃圾模型被训练的假正类数量对不正确移除的真正类数量的影响。图5是示出了移除的真正类数量与移除的假正类数量之间的关系的曲线图，其对应于针对Nottingham视频训练的垃圾模型的假正类的数量。从图5中可以看出，由于第二分类器被训练以改善假正类的移除，所以由第二分类器移除的真正类的数量也增加。这可以在概念上被认为对应于第二分类器要求要被识别为包括预定类别的对象的图像要满足越来越严格的标准。随着标准的加强，一些真正类不能满足这些标准，因此被错误地标识为不包括预定类别的对象。因此，用于训练第二分类器的假正类的数量可以基于如下项进行调整：认为识别所有真正类有多重要以及希望移除多少假正类。从图5中可以看出，这个示例说明，对于Nottingham视频，可以在没有真正类检测成本的情况下移除最多20个假正类。

发明人认为，使用两个神经元分类器作为垃圾模型(第二分类器)而不是线性SVM的类似管道可以改善假正类移除。因此，在其他示例中，可以使用两个神经元分类器作为第二分类器。

应当理解，关于任何一个示例描述的任何特征可以单独使用或与所描述的其它特征组合使用，并且还可以与任何其它示例的一个或多个特征或任何其他示例的任何组合组合使用。此外，在不脱离所附权利要求书的范围的情况下，也可以采用以上未描述的等同物和修改。

Claims

1.一种处理图像数据的方法，所述方法包括：

接收第一分类器已经识别出所述图像数据包括预定对象类别的对象的指示；

使用具有第一训练状态的第二分类器处理所述图像数据，其中，所述第二分类器用于识别由所述第一分类器识别出的假正类；

从使用具有所述第一训练状态的所述第二分类器对所述图像数据的处理来识别所述图像数据包括所述预定对象类别的对象；

响应于所述识别所述图像数据的步骤，将发送数据发送到远程系统，所述发送数据包括所述图像数据或从所述图像数据导出的数据；

从所述远程系统接收更新数据，所述更新数据指示所述发送数据是由所述远程系统识别的假正类图像数据；以及

响应于所述更新数据将所述第二分类器的训练状态更新为第二训练状态，使得具有所述第二训练状态的所述第二分类器进行如下与具有所述第一训练状态的所述第二分类器不同的确定：所述图像数据是否包括所述预定对象类别的对象。

2.根据权利要求1所述的方法，其中，更新所述第二分类器的训练状态包括使用假正类训练数据来更新所述第二分类器的训练状态，所述假正类训练数据包括从所述图像数据导出的数据。

3.根据权利要求1或2所述的方法，其中，所述第二分类器的第一训练状态至少部分地基于分别从其他图像数据中导出的多组假正类训练数据。

4.根据权利要求1或2所述的方法，其中，所述第二分类器的第一训练状态至少部分地基于分别从其他图像数据中导出的多组假正类训练数据，并且所述方法包括：响应于接收到将另一组假正类训练数据添加到所述多组假正类训练数据会将所述多组假正类训练数据中的假正类训练数据的组的数量增加为超过预定阈值的指示：

从所述多组假正类训练数据中丢弃一组假正类训练数据；并且

向所述多组假正类训练数据中添加另一组假正类训练数据。

5.根据权利要求4所述的方法，其中，所述另一组假正类训练数据包括从所述图像数据导出的数据。

6.根据权利要求1或2所述的方法，其中，更新所述第二分类器的训练状态包括使用分别从其他图像数据中导出的一组或多组真正类训练数据来更新所述第二分类器的训练状态。

7.根据权利要求1或2所述的方法，其中，所述第二分类器使用线性分类模型。

8.根据权利要求1或2所述的方法，其中，所述远程系统包括第三分类器，所述方法还包括：

使用所述第三分类器来处理所述发送数据以识别所述第二分类器对所述图像数据包括所述预定对象类别的对象的错误确定；以及

从使用所述第三分类器对所述发送数据的处理来确定所述第二分类器未正确地确定所述图像数据包括所述预定对象类别的对象从而生成所述更新数据，所述更新数据指示所述第二分类器未正确地确定所述图像数据包括所述预定对象类别的对象。

9.一种用于处理图像数据的远程系统，

第一分类器已经识别出所述图像数据包括预定对象类别的对象，

已经使用具有第一训练状态的第二分类器处理了已经由所述第一分类器识别为包括所述预定对象类别的对象的所述图像数据，其中，所述第二分类器用于识别由所述第一分类器识别出的假正类，

具有所述第一训练状态的所述第二分类器已经从对所述图像数据的处理确定了所述图像数据包括所述预定对象类别的对象，

所述远程系统包括：

网络接口，用于从计算设备接收发送数据，所述发送数据包括所述图像数据或从所述图像数据导出的数据；

至少一个处理器；以及

存储装置，其耦合到所述至少一个处理器，

其中所述存储装置包括：

计算机程序代码，其被配置为当由所述至少一个处理器处理时实现第三分类器，所述第三分类器被配置为：

处理所述发送数据以识别所述第二分类器对所述图像数据包括所述预定对象类别的对象的错误确定；以及

确定第二分类器未正确地确定所述图像数据包括所述预定对象类别的对象从而生成更新数据，所述更新数据指示所述第二分类器未正确地确定所述图像数据包括所述预定对象类别的对象，

其中，所述网络接口还被配置为将所述更新数据发送到所述计算设备。