CN109154976B

CN109154976B - 通过机器学习训练对象分类器的系统和方法

Info

Publication number: CN109154976B
Application number: CN201780018741.4A
Authority: CN
Inventors: A·什里瓦斯塔瓦
Original assignee: Motorola Solutions Inc
Current assignee: Motorola Solutions Inc
Priority date: 2016-03-17
Filing date: 2017-03-14
Publication date: 2023-07-07
Anticipated expiration: 2037-03-14
Also published as: SE1851266A1; CN109154976A; GB2566369B; JP2019512827A; US20170270674A1; DE112017001311T5; AU2017233723A1; KR20180135898A; US10776926B2; GB2566369A; WO2017156628A1; GB2566369A8; CA3017027A1; GB201816451D0; AU2017233723B2; JP7026062B2; TWI759286B; IL261696B; TW201737134A; IL261696A

Abstract

一种用于训练计算机实现的对象分类器的系统和方法，包括：检测场景的子区域内的前景视觉对象，确定该场景的该子区域的背景模型，该背景模型表示当该子区域中不存在任何前景视觉对象时的子区域，以及通过使用该子区域的背景模型作为否定训练示例的计算机实现的机器学习来训练对象分类器。

Description

通过机器学习训练对象分类器的系统和方法

技术领域

本主题涉及视觉对象的分类，并且更具体地涉及使用所检测到的前景视觉对象的背景模型作为否定训练(negative training)示例来训练计算机实现的对象分类器。

背景技术

计算机实现的视觉对象分类(也称为对象识别)涉及在由相机采集的静止图像或运动视频中找到的现实生活对象(real-life object)的视觉表示的分类。通过执行视觉对象分类，在静止图像或运动视频中找到的每个视觉对象根据其类型(例如人、车辆、动物)进行分类。

自动的安全和监视系统通常使用视频相机或其他图像采集(capturing)设备或传感器来收集图像数据。在最简单的系统中，显示由图像数据表示的图像以供安全人员同时进行检查和/或记录由图像数据表示的图像以供在出现安全漏洞之后参考。在那些系统中，检测和分类感兴趣的视觉对象的任务由人类观察者执行。当系统本身能够部分或完全执行对象检测和分类时，会发生显着的进步。

例如，在典型的监视系统中，人们可能对检测在环境中移动的诸如人、车辆、动物等的对象感兴趣。不同的对象可能会造成不同的威胁或警报级别。例如，场景中的动物可能是正常的，但是场景中的人或车辆可能引起警报并且可能需要保安人员立即注意。由相机采集的图像数据表示的图像中的对象的自动计算机实现的检测和分类可以显着地促进安全人员的筛选任务以及改进图像数据的记录。

发明内容

本文描述的实施例在一个方面提供了一种用于训练计算机实现的对象分类器的方法。该方法包括检测场景的子区域内的前景视觉对象，确定该场景的该子区域的背景模型，该背景模型表示当任何前景视觉对象不存在时的子区域，以及通过使用该子区域的该背景模型作为否定训练示例的计算机实现的机器学习来训练对象分类器。

本文描述的实施例在另一方面提供了一种计算机实现的对象分类器。该系统包括处理器、存储程序指令的计算机可读存储设备，当该程序指令由处理器执行时，使得该系统执行操作，该操作包括：检测场景的子区域内的前景视觉对象，确定该场景的该子区域的背景模型，该背景模型表示当没有任何前景视觉对象时的该子区域，以及通过使用该子区域的该背景模型作为否定训练示例的计算机实现的机器学习来训练该对象分类器。

根据一些示例实施例，方法和/或系统还包括通过使用所检测到的前景视觉对象作为肯定训练(positive training)示例的机器学习来训练该对象分类器。

根据一些示例实施例，确定该场景的该子区域的背景模型包括选择当与该场景的该子区域对应的历史图像帧的子区域中不存在任何前景对象时采集的该历史图像帧以及从该历史图像帧中裁剪出与该场景的该子区域对应的子区域，裁剪后的图像帧是该场景的该子区域的背景模型。

根据一些示例实施例，确定该场景的该子区域的背景模型包括在多个历史图像帧中的每一个内确定没有任何前景对象的一个或多个子区域，聚合来自该多个历史图像的该一个或多个子区域以形成表示整个场景的完整背景图像，并且从该完整背景图像中裁剪出与该场景的该子区域对应的子区域，裁剪后的完整背景图像是该场景的该子区域的该背景模型。

根据一些示例实施例，聚合来自该多个历史图像的该一个或多个子区域包括缝合一个或多个子区域以形成表示整个场景的图像。

根据一些示例实施例，对象分类器被专门针对当前场景进行训练。

根据一些示例实施例，在当前场景被改变为新场景时，恢复到没有特定于当前场景的训练的对象分类器，并且通过使用来自该新场景的背景模型的机器学习来训练该对象分类器。

根据一些示例实施例，该对象分类器部分地使用监督学习来准备。

根据一些示例实施例，计算机实现的机器学习选自卷积神经网络、支持向量机、决策树、随机森林和级联分类器。

根据一些示例实施例，该方法和/或系统还包括通过使用场景的错误分类的子区域作为否定训练示例的计算机实现的机器学习来训练该对象分类器。

附图说明

详细描述参考以下附图，其中：

图1A示出了根据示例实施例的视频采集和回放系统的连接设备的框图；

图1B示出了根据一个示例实施例的视频采集和回放系统的一组操作模块的框图；

图1C示出了根据一个示例实施例的在一个设备内实现的一组操作模块的框图；

图2示出了用于对图像数据执行视频分析的方法的示例实施例的流程图；

图3A示出了根据一个示例实施例的视频分析模块的一组操作子模块的框图；

图3B示出了根据一个示例实施例的对象分类模块的多个对象分类器；

图4示出了本领域已知的用于进一步训练基础分类器的方法的流程图；

图5示出了根据一个示例实施例的用于进一步训练基础分类器的改进的计算机实现的方法的流程图；

图6A至图6F是具有检测到的前景视觉对象的场景的子区域及其对应的背景模型；

图7A是表示场景的示例的第一完整历史图像帧；

图7B是表示场景的示例的第二完整历史图像帧；

图8示出了根据替代示例实施例的用于进一步训练基础分类器的改进的计算机实现的方法的流程图；和

图9示出了根据一个示例实施例的用于基础分类器的场景特定训练的改进的计算机实现的方法的流程图。

应当理解，为了说明的简单和清楚，附图中所示的元件不一定按比例绘制。例如，为清楚起见，一些元件的尺寸可能相对于其他元件被夸大。此外，在认为适当的情况下，附图标记可以在附图中重复以指示对应或类似的元件。

具体实施方式

阐述了许多具体细节，以便提供对本文所述的示例性实施例的透彻理解。然而，本领域普通技术人员将理解，可以在没有这些具体细节的情况下实践本文描述的实施例。在其他情况下，没有详细描述众所周知的方法、过程和组件，以免模糊本文描述的实施例。此外，该描述不应被视为以任何方式限制本文描述的实施例的范围，而是仅描述本文描述的各种实施例的实施方式。

在下面的描述中使用诸如“顶部”、“底部”、“向上”、“向下”、“垂直”和“横向”的方向术语仅用于提供相对参考，并且不旨在建议在使用过程中如何定位物品，或安装在组件中或相对于环境中的任何限制。

除非另有明确说明，否则术语“一个方面”、“一个实施例”、“实施例”、“实施例”、“所述实施例”、“所述实施例”、“一个或多个实施例”、“一些实施例”、“某些实施例”、“一个实施例”、“另一个实施例”等表示“所公开发明的一个或多个(但不是全部)实施例”。除非另有明确说明，否则在描述实施例时对“另一实施例”或“另一方面”的引用并不暗示所引用的实施例与另一实施例(例如，在所引用的实施例之前描述的实施例)互斥。

除非另有明确说明，否则术语“包括”、“包含”及其变体意指“包括但不限于”。

除非另有明确说明，否则术语“多个”意指“两个或更多个”。除非另有明确说明，否则术语“在此”意指“在本申请中，包括可通过引用并入的任何内容”。

术语“例如”并且类似术语意指“例如”，因此不限制它解释的术语或短语。

术语“各自”和类似术语意指“单独地”。因此，如果两个或更多个东西具有“各自”特征，则每个这样的东西都具有其自身的特征，并且这些特征可以彼此不同但不是必须的。例如，短语“两个机器中的每一个具有各自的功能”意指第一个这样的机器具有功能而第二个这样的机器也具有功能。第一机器的功能可以与第二机器的功能相同或不同。

当与权利要求和/或说明书中的术语“包括”或“包含”结合使用时，词语“一”或“一个”可以意指“一个”，但它也与“一个或多个”、“至少一个”、以及“一个或多于一个”的含义一致，除非内容另有明确规定。类似地，除非内容另有明确规定，否则词语“另一个”可以意指至少第二个或更多。

如本文所使用的术语“耦合”、“联接”或“连接”取决于使用这些术语的上下文可具有若干不同含义。例如，术语耦合、联接或连接可具有机械或电气内涵。例如，取决于特定的背景，如本文所使用的，术语耦合、联接或连接可以指示两个元件或设备彼此直接连接或者通过一个或多个中间元件或设备经由电气元件、电信号或者机械元件彼此连接。

“图像数据”在本文中是指由视频采集设备产生的数据，并且表示由视频采集设备采集的图像。图像数据可以包括多个连续图像帧，它们一起形成由视频采集设备采集的视频。每个图像帧可以由像素矩阵表示，每个像素具有像素图像值。例如，像素图像值可以是灰度级(例如，0到255)的数值或者彩色图像的多个数值。用于表示图像数据中的像素图像值的颜色空间的示例包括RGB、YUV、CYKM、YCBCR4:2:2和YCBCR 4:2:0图像。应当理解，这里使用的“图像数据”可以指由视频采集设备产生的“原始”图像数据和/或已经过某种形式处理的图像数据。

“前景视觉对象”指的是在由视频采集设备采集的图像帧中找到的现实生活对象(例如，人、动物、车辆)的视觉表示。前景视觉对象是用于各种目的(诸如视频监视)的感兴趣的视觉对象。例如，场景中的前景视觉对象可以表示事件，诸如存在人或车辆。前景视觉对象可以是移动对象或先前移动的对象。前景视觉对象与背景对象区分开，背景对象是在场景的背景中找到并且不感兴趣的对象。

“当前图像帧”是指当前在本文描述的各种系统和方法中正在被分析的视频的多个连续图像帧内的图像帧。分析当前图像帧的图像数据以生成关于在当前图像帧内和/或在当前图像之前的多个图像帧内采集的对象的信息。

当前图像帧的“先前图像帧”或“历史图像帧”是指在视频的多个连续图像帧内的当前图像帧之前出现的图像帧。例如，先前图像帧可以是紧接在当前图像帧之前的图像帧。或者，先前图像帧可以是多个连续图像帧的较早图像帧，但是足够接近当前图像帧以便与当前图像帧相关。

这里的“处理图像数据”或其变体是指对图像数据执行的一个或多个计算机实现的功能。例如，处理图像数据可以包括但不限于图像处理操作、分析、管理、压缩、编码、存储、发送和/或回放视频数据。分析图像数据可以包括分割图像帧的区域和检测视觉对象，跟踪和/或分类位于由图像数据表示的所采集的场景内的视觉对象。图像数据的处理可以导致产生经修改的图像数据，诸如压缩(例如，降低的质量)和/或重新编码的图像数据。图像数据的处理还可以导致关于要输出的图像内采集的图像数据或视觉对象的附加信息。例如，这种附加信息通常被理解为元数据。元数据还可以用于图像数据的进一步处理，诸如在图像帧中的检测到的视觉对象周围绘制边界框。

在两个或更多个术语或短语是同义的情况下(例如，由于明确声明术语或短语是同义的)，一个这样的术语/短语的实例并不意指另一个这样的术语/短语的实例必须具有不同的含义。例如，如果声明使“包括”的含义与“包括但不限于”同义，则仅仅使用短语“包括但不限于”并不意指术语“包括”意指“包括但不限于”之外的其他内容。

标题(在本申请的第一页的开头阐述)和摘要(在本申请的最后阐述)都不应被视为以任何方式限制所公开发明的范围。摘要已被包括在本申请中仅仅因为根据37C.F.R.第1.72(b)条或其他司法管辖权的类似法律需要不超过150个单词的摘要。本申请的标题和本申请中提供的部分的题目仅为了方便，不应被视为以任何方式限制本公开。

在本申请中描述了许多实施例，并且仅出于说明性目的而给出了这些实施例。所描述的实施例在任何意义上都不是，并且不旨在是限制。如从本公开中显而易见的，本发明公开的方面可广泛应用于许多实施例。本领域普通技术人员将认识到，所公开的方面可以通过各种修改和变更来实践，例如结构和逻辑修改。尽管可以参考一个或多个特定实施例和/或附图来描述所公开方面的特定特征，但是应该理解，这些特征不限于在一个或多个特定实施例或对其进行描述参考的附图中的使用，除非另有明确说明。

除非在本说明书中明确说明或在权利要求中明确记载，否则本申请中描述的方法步骤或产品元件的实施例不是必需的或是共同延伸的。

如所属领域的技术人员将了解，本文中所描述的各种实例实施例可体现为方法、系统或计算机程序产品。因此，各种示例实施例可以采用完全硬件实施例，完全软件实施例(包括固件、驻留软件、微代码等)的形式或者组合软件和硬件方面的实施例，这些实施例在本文中通常都可以被称为作为“电路”、“模块”或“系统”。此外，各种示例实施例可以采用计算机可用存储介质上的计算机程序产品的形式，其具有包含在介质中的计算机可用程序代码。

可以使用任何合适的计算机可用或计算机可读介质。计算机可用或计算机可读介质可以是例如但不限于电子、磁、光、电磁、红外或半导体系统、装置、设备或传播介质。在本文件的上下文中，计算机可用或计算机可读介质可以是能够包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备使用或与之结合使用的任何介质。

用于执行各种示例实施例的操作的计算机程序代码可以用面向对象的编程语言编写，诸如Java、Smalltalk、C++、Python等。然而，用于执行各种示例实施例的操作的计算机程序代码也可以用传统的过程编程语言编写，诸如“C”编程语言或类似的编程语言。程序代码可以完全在计算机上执行，部分在计算机上执行，作为独立的软件包，部分在计算机上，部分在远程计算机上或完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过局域网(LAN)或广域网(WAN)连接到计算机，或者可以连接到外部计算机(例如，通过互联网使用互联网服务提供商)。

下面参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述各种示例实施例。应当理解，流程图图示和/或框图的每个框以及流程图图示和/或框图中的块的组合可以由计算机程序指令实现。这些计算机程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器(使得指令通过计算机的处理器或其他可编程数据处理装置执行)，创建用于实现流程图和/或框图块中指定的功能/动作的装置。

这些计算机程序指令还可以存储在计算机可读存储器中，该计算机可读存储器可以指示计算机或其他可编程数据处理装置以特定方式起作用，使得存储在计算机可读存储器中的指令产生制造物品，其包括实现流程图和/或框图块中指定的功能/动作的指令。

还可以将计算机程序指令加载到计算机或其他可编程数据处理装置上，以使得在计算机或其他可编程装置上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机或其他可编程装置上执行的指令提供用于实现流程图和/或框图块中指定的功能/动作的步骤。

现在参考图1A，其中示出了根据示例实施例的视频采集和回放系统100的相连的设备的框图。例如，视频采集和回放系统100可以用作视频监视系统。视频采集和回放系统100包括执行本文描述的过程和功能的硬件和软件。

视频采集和回放系统100包括至少一个可操作以采集多个图像并产生表示多个采集图像的图像数据的视频采集设备108。

每个视频采集设备108包括用于采集多个图像的至少一个图像传感器116。视频采集设备108可以是数字视频相机，并且图像传感器116可以将采集的光输出为数字数据。例如，图像传感器116可以是CMOS、NMOS或CCD。

至少一个图像传感器116可操作采集一个或多个频率范围内的光。例如，至少一个图像传感器116可操作采集基本上对应于可见光频率范围的范围内的光。在其他示例中，至少一个图像传感器116可操作采集可见光范围之外的光，诸如红外和/或紫外范围内的光。在其他示例中，视频采集设备108可以是多传感器相机，其包括可操作以采集不同频率范围内的光的两个或更多个传感器。

至少一个视频采集设备108可以包括专用相机。应当理解，这里的专用相机是指其主要特征是采集图像或视频的相机。在一些示例实施例中，专用相机可以执行与采集的图像或视频相关联的功能，诸如但不限于处理由其产生的图像数据或由另一视频采集设备108产生的图像数据。例如，专用相机可以是监视相机，诸如平移-倾斜-变焦相机、半球形相机、吸顶式相机、盒式相机和子弹相机中的任何一个。

另外或替代地，至少一个视频采集设备108可包括嵌入式相机。应当理解，这里的嵌入式相机是指嵌入在设备中的相机，该设备可操作以执行与采集的图像或视频无关的功能。例如，嵌入式相机可以是在笔记本电脑、平板电脑、无人机设备、智能电话、视频游戏控制台或控制器中的任何一个上找到的相机。

每个视频采集设备108包括一个或多个处理器124、耦合到处理器的一个或多个存储器设备132以及一个或多个网络接口。存储器设备可以包括在执行程序指令期间使用的本地存储器(例如，随机存取存储器和高速缓冲存储器)。处理器执行计算机程序指令(例如，操作系统和/或应用程序)，其可以存储在存储器设备中。

在各种实施例中，处理器124可以由具有一个或多个电路单元的任何处理电路实现，包括数字信号处理器(DSP)、图形处理单元(GPU)嵌入式处理器等，以及它们独立或并行操作(包括可能冗余操作)的任何组合。这种处理电路可以由一个或多个集成电路(IC)实现，包括由单片集成电路(MIC)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等或者其任何组合实现。另外或替代地，这种处理电路可以实现为例如可编程逻辑控制器(PLC)。处理器可以包括用于存储诸如数字数据的内容的电路，并且可以包括存储器电路或者例如与存储器电路有线通信。

在各种示例实施例中，耦合到处理器电路的存储器设备132可操作存储数据和计算机程序指令。通常，存储器设备是数字电子集成电路的全部或一部分，或者由多个数字电子集成电路形成。存储器设备可以实现为例如只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存、一个或多个闪存驱动器、通用串行总线(USB)连接的存储器单元、磁存储、光存储、磁光存储等或其任何组合。存储器设备可操作为易失性存储器、非易失性存储器、动态存储器等或其任何组合来存储内容。

在各种示例实施例中，图像采集设备108的多个组件可以在片上系统(SOC)内一起实现。例如，处理器124、存储器设备116和网络接口可以在SOC内实现。此外，当以这种方式实现时，通用处理器以及GPU和DSP中的一个或多个可以在SOC内一起实现。

继续图1A，至少一个视频采集设备108中的每一个连接到网络140。每个视频采集设备108可操作以输出表示其采集的图像的图像数据并通过网络传输图像数据。

应该理解，网络140可以是提供数据接收和传输的任何通信网络。例如，网络140可以是局域网、外部网络(例如，WAN、互联网)或其组合。在其他示例中，网络140可以包括云网络。

在一些示例中，视频采集和回放系统100包括处理器具(processing appliance)148。处理器具148可操作以处理由视频采集设备108输出的图像数据。处理器具148还包括一个或多个处理器和耦合到处理器的一个或多个存储器设备。处理器具148还可以包括一个或多个网络接口。

例如，并且如图所示，处理器具148连接到视频采集设备108。处理器具148可以进一步连接到网络140。

根据一个示例性实施例，并且如图1A所示，视频采集和回放系统100包括至少一个工作站156(例如服务器)，每个工作站具有一个或多个处理器。至少一个工作站156还可以包括存储器。工作站156从至少一个视频采集设备108接收图像数据并执行图像数据的处理。工作站156还可以发送用于管理和/或控制一个或多个图像采集设备108的命令。工作站156可以从视频采集设备108接收原始图像数据。另外或替代地，工作站156可以接收图像数据，其已经经历了一些中间处理，诸如在视频采集设备108处和/或处理器具148处的处理。工作站156还可以从图像数据接收元数据并执行图像数据的进一步处理。

应当理解，虽然图1A中示出了单个工作站156，但是工作站可以实现为多个工作站的聚合。

视频采集和回放系统100还包括连接到网络140的至少一个客户端设备164。一个或多个用户使用客户端设备164来与视频采集和回放系统100交互。因此，客户端设备164包括至少一个显示设备和至少一个用户输入设备(例如，鼠标、键盘、触摸屏)。客户端设备164可操作以在其显示设备上显示用于显示信息、接收用户输入和回放视频的用户界面。例如，客户端设备可以是个人计算机、膝上型计算机、平板电脑、个人数据助理(PDA)、蜂窝电话、智能电话、游戏设备和其他移动设备中的任何一个。

客户端设备164可操作以通过网络140接收图像数据，并且还可操作以回放接收的图像数据。客户端设备164还可以具有用于处理图像数据的功能。例如，客户端设备164的处理功能可以限于与回放接收的图像数据的能力有关的处理。在其他示例中，可以在工作站156与一个或多个客户端设备164之间共享图像处理功能。

在一些示例中，可以在没有工作站156的情况下实现图像采集和回放系统100。因此，可以在一个或多个视频采集设备108上完全执行图像处理功能。或者，可以在两个或更多个视频采集设备108、处理器具148和客户端设备164中共享图像处理功能。

现在参考图1B，其中示出了根据一个示例实施例的视频采集和回放系统100的操作模块的集合200的框图。操作模块可以在如图1A所示的视频采集和回放系统100的一个或多个设备上以硬件、软件或两者实现。

操作模块的集合200包括至少一个视频采集模块208。例如，每个视频采集设备108可以实现视频采集模块208。视频采集模块208可操作以控制视频采集设备108的一个或多个组件(例如，传感器116等)以采集图像。

操作模块的集合200包括图像数据处理模块的子集216。例如，并且如图所示，图像数据处理模块的子集216包括视频分析模块224和视频管理模块232。

视频分析模块224接收图像数据并分析图像数据以确定所采集的图像或视频和/或在由所述图像或视频表示的场景中找到的对象的属性或特性。基于所做出的确定，视频分析模块224可以进一步输出提供关于确定的信息的元数据。由视频分析模块224做出的确定的示例可以包括前景/背景分割、对象检测、对象跟踪、对象分类、虚拟绊网、异常检测、面部检测、面部识别、车牌识别、识别对象“被遗忘”、监控对象(例如防止窃取)和商业智能中的一个或多个。然而，应当理解，本领域中已知的其他视频分析功能也可以由视频分析模块224实现。

视频管理模块232接收图像数据并对与视频传输、回放和/或存储有关的图像数据执行处理功能。例如，视频管理模块232可以处理图像数据以允许根据带宽要求和/或容量来传输图像数据。视频管理模块232还可以根据将要回放视频的客户端设备164的回放能力(诸如，客户端设备164的显示器的处理能力和/或分辨率)来处理图像数据。视频管理232可以还根据视频采集和回放系统100内的存储容量处理图像数据，以存储图像数据。

应当理解，根据一些示例实施例，视频处理模块的子集216可以仅包括视频分析模块224和视频管理模块232中的一个。

操作模块的集合200还包括存储模块的子集240。例如，如图所示，存储模块的子集240包括视频存储模块248和元数据存储模块256。视频存储模块248存储图像数据，其可以是由视频管理模块处理的图像数据。元数据存储模块256存储从视频分析模块224输出的信息数据。

应当理解，虽然视频存储模块248和元数据存储模块256被示为单独的模块，但是它们可以在同一硬件存储设备中实现，由此实现逻辑规则以将存储的视频与存储的元数据分离。在其他示例实施例中，视频存储模块248和/或元数据存储模块256可以在多个硬件存储设备中实现，其中可以实现分布式存储方案。

操作模块集合还包括至少一个视频回放模块264，其可操作以接收图像数据并将图像数据回放为视频。例如，视频回放模块264可以在客户端设备164上实现。

操作模块的集合200可以在图像采集设备108、处理器具148、工作站156和客户端设备164中的一个或多个上实现。在一些示例实施例中，操作模块可以完全在单个设备上实现。例如，视频分析模块224可以完全在工作站156上实现。类似地，视频管理模块232可以完全在工作站156上实现。

在其他示例实施例中，可以在第一设备上部分地实现集合200的操作模块的一些功能，而可以在第二设备上实现操作模块的其他功能。例如，视频分析功能可以在图像采集设备108、处理器具148和工作站156中的一个或多个之间分开。类似地，视频管理功能可以在图像采集设备108、处理器具148和工作站156中的一个或多个之间分开。

现在参考图1C，其中示出了根据一个特定示例实施例的视频采集和回放系统100的操作模块的集合200的框图，其中视频分析模块224、视频管理模块232和存储设备240在一个或多个图像采集设备108上完全实现。因此，视频采集和回放系统100可以不需要工作站156和/或处理器具148。

应当理解，允许图像数据处理模块的子集在单个设备上或在视频采集和回放系统100的各种设备上实现允许构建系统100的灵活性。

例如，可以选择使用具有某些功能的特定设备与缺少这些功能的另一设备。当集成来自不同方(例如制造商)的设备或改进现有的视频采集和回放系统时，这可能是有用的。

现在参考图2，其中示出了用于对由视频采集设备108采集的视频的一个或多个图像帧执行视频分析的方法272的示例实施例的流程图。视频分析可以是由视频分析模块224执行以确定所采集的图像或视频和/或在视频中采集的场景中找到的视觉对象的属性或特性。

在300处，将视频的至少一个图像帧分割成前景区域和背景区域。分割将对应于所采集场景中的移动对象(或先前移动的对象)的图像帧的区域与场景的静止区域分离。

在302处，基于300的分割来检测由图像帧表示的场景中的一个或多个前景视觉对象。例如，可以将任何离散的邻近的前景区域或“斑点”识别为场景中的前景视觉对象。例如，仅将大于特定大小(例如像素数)的连续前景区域识别为场景中的前景视觉对象。

可以进一步生成与检测到的一个或多个前景区域有关的元数据。元数据可以定义图像帧内的前景视觉对象的位置。例如，位置元数据可以进一步用于生成描绘检测到的前景视觉对象轮廓的边界框(例如，当编码视频或回放视频时)。

可以将视觉指示符添加到图像帧以可视地识别检测到的一个或多个前景视觉对象中的每一个。视觉指示符可以是围绕图像帧内的一个或多个前景视觉对象中的每一个的边界框。

根据各种示例实施例，视频分析可以以所采集场景中的对象的检测结束。

在其他示例实施例中，视频分析还可以包括在304处对在302处检测到的前景视觉对象进行分类。例如，可以执行模式识别以对前景视觉对象进行分类。前景视觉对象可以按类别分类，诸如人、汽车或动物。另外或替代地，可以通过动作(诸如视觉对象的移动和移动方向)对视觉对象进行分类。还可以确定其他分类器，诸如颜色、大小、取向等。在更具体的示例中，对视觉对象进行分类可以包括基于面部检测识别人并识别文本，诸如牌照。视觉分类可以根据共同拥有的美国专利号8,934,709中描述的系统和方法执行，其全部内容通过引用并入本文。

视频分析还可以包括在306处检测事件是否已经发生以及事件的类型。检测事件可以基于一个或多个前景视觉对象的分类与一个或多个预定义规则的比较。该事件可以是异常检测或商业智能中的事件，诸如是否已触发视频绊线，一个区域中存在的人数，场景中的对象是否“被遗忘”或场景中的对象是否已被删除。

现在参考图3A，其中示出了根据一个示例实施例的视频分析模块的操作子模块的集合400的框图。视频分析模块400包括用于执行各种任务的多个模块。例如，视频分析模块400包括用于检测出现在视频采集设备108的视野中的对象的对象检测模块404。对象检测模块404可以采用任何已知的对象检测方法，诸如例如运动检测和斑点检测。对象检测模块404可以包括题为“用于检测时空信号中的感兴趣对象的方法和系统”的共同拥有的美国专利No.5,199,480中描述的系统和使用检测方法，其全部内容通过引用结合于此。

视频分析模块400还可以包括连接到对象检测模块404的对象跟踪模块408。对象跟踪模块408可操作以临时关联由对象检测模块404检测到的对象的实例。对象跟踪模块408可以包括题为“用于跟踪、索引和搜索的对象匹配”的共同拥有的美国专利号8,224,029的系统和使用方法，其全部内容通过引用结合于此。对象跟踪模块408生成与其跟踪的视觉对象对应的元数据。元数据可以对应于表示对象外观或其他特征的视觉对象的签名。可以将元数据发送到元数据数据库256以进行存储。

视频分析模块400还可以包括连接到对象跟踪模块408的时间对象分类模块412。时间对象分类模块412可操作以通过考虑随时间变化的对象外观根据其类型(例如，人、车辆、动物)对对象进行分类。换句话说，对象跟踪模块408跟踪多个帧的对象，并且时间对象分类模块412基于其在多个帧中的外观来确定对象的类型。例如，对人行走方式的步态分析对于对人进行分类可能是有用的，或者对人的腿进行分析对于对骑车者进行分类可能是有用的。时间对象分类模块412可以组合关于对象的轨迹的信息(例如，轨迹是平滑的还是混乱的，对象是移动的还是静止的)以及多个帧平均的由对象分类模块416进行的分类的置信度(下面详细描述)。例如，可以基于对象的轨迹的平滑度来调整由对象分类模块416确定的分类置信度值。时间对象分类模块412可以将对象分配给未知类，直到对象分类模块将视觉对象分类足够的次数并且已经收集了预定数量的统计数据。在对对象进行分类时，时间对象分类模块412还可以考虑对象在视野中已经多长时间。时间对象分类模块可以基于上述信息做出关于对象的类别的最终确定。时间对象分类模块412还可以使用滞后方法来改变对象的类别。更具体地，可以设置阈值以将对象的分类从未知类转换为确定类别，并且该阈值可以大于相反转换的阈值(例如，从人到未知)。时间对象分类模块412可以生成与对象的类别相关的元数据，并且元数据可以存储在元数据数据库256中。时间对象分类模块412可以聚合由对象分类模块416进行的分类。

视频分析模块400还包括对象分类模块416，优选地直接或间接地连接到对象检测模块404。与时间对象分类模块412不同，对象分类模块416可以基于对象的单个实例(例如，单个图像)来确定视觉对象的类型。对象分类模块416的输入优选地是图像帧的子区域，其中感兴趣的视觉对象位于该子区域而不是整个图像帧。将图像帧的子区域输入到对象分类模块416的好处是不需要分析整个场景用于分类，从而需要较少的处理能力。还可以包括其他初步模块，诸如用于采集明显分类的基于启发式的模块，以进一步简化对象分类模块416的复杂性。

在替代布置中，对象分类模块416放置在对象检测模块404之后并且在对象跟踪模块408之前，使得对象分类在对象跟踪之前发生。在另一替代布置中，对象检测、跟踪、时间分类和分类模块404、408和416如上文所述相互关联。

对象分类模块416包括多个对象分类器，如图3B的框图所示。例如，对象分类模块416可以包括确定被检测对象的图像是否对应于全人体的全人体分类器424、确定被检测对象的图像是否对应于人体躯干的人体躯干分类器428以及确定被检测对象的图像是否对应于车辆的车辆分类器432。对象分类模块416可以包括任何数量的不同分类器，并且如下面更详细描述的，即使在相机系统被部署和运行时，用户也可以为对象分类模块416创建新的对象类别。换句话说，对象分类模块416是可现场训练的。

对象分类器可操作以基于对象的特征(例如，外观特征)对对象进行分类。例如，全人体分类器424接收与对象的特征对应的数据(即，输入模式X)，并确定该对象是否对应于全人体。在对象分类模块416对对象进行分类之后，表示对象的类别和对象的特征的元数据可以存储在元数据数据库256中。

现在将更详细地描述可由对象分类模块416使用的特征。下面描述的训练算法从特征集合F＝{f₁，f₂，...，f_n}中选择特征的子集

输入模式X由/>

的元素组成。/>

的元素可以被视为对象的图像区域R的一些变换。因此，X可以采用以下形式：/>

对象的特征

可以对应于多个外观特征，诸如但不限于纵横比、颜色、边缘取向和归一化饱和度。此外，特征/>

可以表示外观特征的特征向量(例如，直方图，其中直方图区间对应于向量分量)，并且可以由一个或多个对象分类器使用以确定对象的类别(例如，类型)。例如，可以为对象图像的不同区域(例如，子窗口)构建对象的边缘取向的直方图。换句话说，可以将对象的图像划分为子窗口，并且可以针对子窗口的每个像素计算边缘取向。可以使用可调滤波器(例如，在多个方向上使用高斯导数滤波器)来导出像素的边缘取向。使用可控滤波器允许将主导方向分配给子窗口的像素，并允许为子窗口构建方向的直方图。例如，对于给定像素，可以在多个方向上使用可控滤波器以产生多个响应，并且将与最大方向导数响应对应的方向指定为像素的方向。

对象分类器之一的分类问题通常可以通过分类器函数Γ(X)来定义，其中当Γ(X)>0时，由输入模式X表示的视觉对象被声明为对象类别的成员，当Γ(X)<0时，由输入模式X表示的视觉对象被声明为对象类别的非成员。通常，分类器函数Γ_c(X)用参数集合参数化，并且输入模式X由上述特征组成。针对每个感兴趣的对象类别训练特定的分类器Γ_c(X)。由图3A的对象分类模块416表示的多类别分类模型可以在数学上定义如下：

Ω＝{ω₁，ω₂，...，ω_C}

其中ω表示对象类别，并且Ω表示所有对象类别的集合。

可以通过定义规则(例如，视觉对象的大小和纵横比)来构建用于给定视觉对象类别的分类器函数R(X)。可以通过应用使用训练数据的机器学习来进一步训练分类器函数。如本领域中已知的，训练分类器寻求进一步细化该分类器的规则，使得其可以更准确地对给定视觉对象进行分类。训练数据可以包括肯定训练示例和/或否定训练示例。肯定训练示例是指已被确认属于特定对象类别的视觉对象的实例。肯定训练示例用于训练分类器以改进其规则，以更准确地将给定的视觉对象肯定地分类为落入该肯定训练示例的类别。否定训练示例是指不属于特定对象类别的视觉对象或其他视觉表示的实例。否定训练示例可以是通过分类器被错误分类为属于特定对象类别的视觉对象的示例。否定训练示例用于训练分类器

用于训练对象分类器的机器学习可以是本领域已知的任何适当的机器学习技术，诸如但不限于卷积神经网络、支持向量机、决策树、随机森林、级联分类器。

可以监督对象分类器的训练。在监督培训中，肯定训练示例和/或否定训练示例已经由人类用户确认。例如，在大批图像中，一个或多个人类用户单独地检查并标记每个图像作为表示属于类别(例如人、车辆、动物)的视觉对象或不包含视觉对象。

对象分类器的训练也可以是无监督的。在无监督训练中，基础分类器用于最初对一个或多个视觉对象进行分类，诸如由对象检测模块404检测到的对象。视觉对象和由基础分类器确定的分类结果(例如，肯定地确定视觉对象属于特定对象类别)可以用作进一步训练基础分类器的肯定训练示例。其中未检测到对象的图像数据也可以用作训练对象分类器的否定训练示例。在无监督训练中，用作肯定训练示例或否定训练示例的图像数据不由人类用户检查。

这里的基础分类器是指通过定义规则和/或通过应用机器学习进行训练以执行一定程度的对象分类而配置的对象分类器，但是其可以通过使用计算机实现的视觉机器语言的进一步训练来进一步优化。

现在参考图4，其中示出了用于进一步训练基础分类器的方法500的流程图。应当理解，虽然示出了方法500用于训练单个基础分类器，但是方法500可以应用于并行训练多个基础分类器。例如，并且如本文其他地方所述，对象分类模块416可以包括多个对象分类器，每个分类器可操作以确定视觉对象是否属于特定类别的类型。因此，可以基于提供给它的训练示例一起训练对象分类模块416的多个对象分类器。例如，作为特定类别的前景视觉对象的训练示例可以用作属于同一类别的分类器的肯定训练示例。

在504处，提供基础分类器。基础分类器可以是任何对象分类器，其可以通过使用视觉训练示例应用机器学习来进一步训练。

在508处，可以接收一个或多个训练示例。训练示例可以是肯定训练示例和/或否定训练示例，其可以自动地或在监督条件下准备。

在512处，通过使用在508处接收的训练示例作为输入将机器学习应用于基础分类器来进一步训练基础分类器。

应当理解，在一些实施例中，重复步骤508和512，使得基础分类器的更新遵循迭代过程。也就是说，可以应用第一批多个训练示例以通过第一次迭代中的机器学习来训练基础分类器。可以进一步应用第二批多个训练示例，以在随后的第二次迭代中通过机器学习进一步训练分类器。

在516处，在步骤508和512之后经训练的基础分类器被部署在用于前景视觉对象的分类的现场中。

在一些示例中，可以在516处部署训练的分类器之前执行来自步骤508和512的基础分类器的训练。

在其他示例中，可以在对象分类器已经部署在现场中的同时执行步骤508和512处的基础分类器的训练。训练示例可以是当在现场中部署该设备时视频采集设备的视野中存在的现实世界对象的视觉表示。例如，基础分类器可以在从现场508检测到的前景视觉对象部署期间初始部署并逐渐训练。

用作训练示例的视觉对象可以以有监督的方式(例如，由人类用户视觉检查)或以无监督的方式(例如，由计算机实现的对象分类器分类)被识别为属于一类别。

现在参考图5，其中示出了根据一个示例实施例的用于进一步训练基础分类器的改进的计算机实现的方法540的流程图。应当理解，虽然示出了用于训练单个基础分类器的方法540，但是方法500也可以应用于并行地训练多个基础分类器。例如，并且如本文其他地方所述，对象分类模块416可以包括多个对象分类器，每个分类器可操作以确定视觉对象是否属于特定类别。因此，可以基于提供给它的训练示例一起训练对象分类模块416的多个对象分类器。例如，作为特定类别的视觉对象的训练示例可以用作属于同一类别的分类器的肯定训练示例。

在504处，提供基础分类器。基础分类器可以是任何对象分类器，其可以通过应用使用视觉对象训练示例的机器学习来进一步优化。

在544处，在表示场景的图像数据内检测前景视觉对象。这里的场景是指在一段时间内在视频采集设备的视野内采集的视觉表示。视频采集设备在该时间间隔内是静态的，使得其视野保持不变。因此，在时间间隔内采集的场景也保持不变，但是场景内的对象(例如，人、车辆、其他对象)可能在该时间间隔内改变。场景的视觉表示可以是由视频采集设备在该时间间隔内生成的图像数据的图像帧。

前景视觉对象还可以由人类操作员或由计算机实现的模块肯定地分类为属于特定类别。检测到的前景视觉对象位于场景的子区域内。例如，场景的子区域可以对应于检测到的前景视觉对象位于的图像数据的图像帧的一部分。例如，场景的子区域可以对应于图像帧的子区域，该子区域由对象检测模块404绘制的边界框界定，用于在视觉上识别检测到的前景视觉对象。

在548处，确定检测到的视觉对象的背景模型。背景模型是场景或其子区域的视觉表示，但是场景或子区域中不存在任何前景视觉对象。检测到的前景视觉对象的背景模型是检测到的前景视觉对象位于场景的子区域的背景模型。

例如，在在544处检测到的前景视觉对象是人并且场景的子区域对应于人位于的房间的区域的情况下，该子区域的背景模型表示存在没有那个人或任何其他人的房间的区域。

例如，在在544处检测到的前景视觉对象是车辆并且场景的子区域对应于该车辆位于的停车场的一部分的情况下，该子区域的背景模型表示存在没有该车辆或任何其他车辆的停车场的该部分。

在552处，通过使用在544处检测到的前景视觉对象作为肯定训练示例将机器学习应用于基础分类器，可选地进一步训练基础分类器。

在556处，通过使用检测到的前景视觉对象的背景模型作为否定训练示例将机器学习应用于基础分类器，进一步训练基础分类器。

可以针对检测和/或分类的多个视觉对象重复步骤544至556。对于在544处检测到的每个视觉对象，在548处确定特定于该视觉对象位于的场景的子区域的背景模型，并且在556处将其应用于该训练基础分类器。

在其他示例中，可以通过使用一批多个训练示例将机器学习应用于基础分类器来训练基础分类器。该批包括在多个不同场景的子区域中检测到的多个前景视觉对象的背景模型。

应当理解，在一些实施例中，重复步骤544和556，使得基础分类器的更新遵循迭代过程。也就是说，通过第一次迭代中的机器学习第一批一个或多个训练示例可以应用于训练基础分类器。通过随后的第二次迭代中的机器学习第二批多个训练示例可以进一步应用于训练在第一次迭代之后训练的基础分类器。

在516处，在步骤556以及可选地步骤552之后训练的基础分类器被部署在现场中以用于分类附加的前景视觉对象。

如本文其他地方所述，可以在部署经训练的分类器之前或者在已经在现场中部署对象分类器的同时执行对基础分类器的训练。

图6A至图6F示出了在场景的子区域中检测到的前景视觉对象及其对应的背景模型。例如，图6A示出了在一段人行道上行走的人。行走的人是检测到的前景视觉对象。图6B示出了图6A的视觉对象的背景模型。应当理解，背景模型示出人行道的相同部分，而不存在行人或存在任何其他前景视觉对象。

图6C示出了下楼梯的人。人是检测到的前景视觉对象。图6D示出了图6C的前景视觉对象的背景模型。应当理解，背景模型示出相同楼梯，而不存在人或任何其他前景视觉对象。

图6E示出了在一段道路上行驶的车辆。车辆是检测到的前景视觉对象。图6F示出了图6E的前景视觉对象的背景模型。应当理解，背景模型示出相同一段道路，而不存在车辆或任何其他前景视觉对象。

根据各种示例实施例，从历史图像帧确定检测到的视觉对象的背景模型。在形成由视频采集设备采集的视频的图像数据的图像帧序列的当前图像帧的给定子区域内检测前景视觉对象。历史图像帧是图像帧序列中的先前图像帧，其中在先前图像帧中不存在前景视觉对象和任何其他前景视觉对象。在这种情况下，当前图像帧和历史图像帧表示相同的场景。也就是说，视频采集设备在历史图像帧和当前图像帧的时间之间是静态的(即，未移动的)，使得视频采集设备采集相同的场景。从历史图像帧中裁剪历史图像帧的对应于前景视觉对象所位于的当前图像帧的子区域的给定子区域。以这种方式裁剪的历史图像帧是检测到的前景视觉对象的背景模型。在556处提供该裁剪的历史图像帧作为用于进一步训练基础分类器的否定训练示例。

根据各种示例实施例，可以最初构建整个场景的完整背景模型。然后可以从完整的背景模型中提取场景的给定子区域的背景模型。

例如，在不太繁忙的场景中，诸如前景视觉对象出现率低的场景，可以使用完全没有前景对象的单个历史图像帧作为完整的背景模型。

在比较繁忙的场景中，在场景内的任何时间总是可以存在至少一个前景视觉对象。对于这样的场景，可以通过聚合来自多个历史图像帧的不同子区域以形成完整的背景模型来构建完整的背景模型。

根据一个示例，选择多个历史图像帧。这些历史图像帧中的每一个包含没有任何前景对象的图像帧的至少一个子区域。

确定每个所选择的历史图像帧的没有任何前景对象的一个或多个子区域的坐标。可以从它们各自的历史图像帧中裁剪这些子区域。

然后，聚合从多个历史图像中裁剪的子区域以形成聚合图像。可以通过适当地选择多个历史图像帧来获得表示整个场景的聚合图像，使得这些帧的没有任何前景对象的子区域共同覆盖整个场景。因此，聚合图像形成场景的完整背景模型。例如，根据本领域已知的缝合方法，可以将从多个历史图像中裁剪的图像子区域缝合在一起以形成聚合图像。

因此，在场景的给定子区域内检测到前景视觉对象之后，可以通过裁剪对应于检测到视觉对象的给定子区域的聚合图像的子区域来获得该子区域的背景模型。

图7A示出了表示作为广场的示例场景的第一完整历史图像帧。应当理解，覆盖用餐区域和草地区域的一部分的第一子区域700没有任何前景视觉对象。因此，第一子区域700可以用作要聚合的子区域之一以形成完整的背景模型。然而，覆盖台阶的第二子区域708具有位于其中的人。因为第一完整历史图像帧中的该第二子区域708包括前景视觉对象，所以它不能用于构建完整的背景模型。

图7B示出了表示广场的相同场景的第二完整历史图像帧。与第一完整历史图像相比，第二完整历史图像帧是在稍后的时间点采集的。应当理解，第二完整历史图像帧中的第二子区域708没有前景视觉对象。处于第一完整历史图像帧中的步骤中的人现在已经完全走下台阶。因此，第二完整历史图像帧中的该第二子区域708可以用作要聚合的子区域之一，以形成完整的背景模型。可以以相同的方式确定适合于形成完整背景模型的场景的其他子区域。

现在参考图8，其中示出了根据替代示例实施例的用于进一步训练基础分类器的改进的计算机实现的方法558的流程图。替代示例方法558包括与方法540相同的步骤，但还包括附加步骤560和564。

在560处，提供场景的错误分类的子区域。场景的错误分类的子区域是指当子区域实际上不包含特定类别的任何对象时，对象分类器错误地将子区域分类为包含属于该类别的对象。

可以在有监督的环境中确定错误分类的子区域，其中由对象分类器分类的对象由识别由对象分类器做出的任何错误分类的人进行评审。

可以在部分有监督或完全无监督的环境中确定错误分类的子区域。在一个示例中，可以将其中不存在对象的图像帧的子区域馈送到对象分类器。对象分类器对子区域包括属于特定类别(不是背景)的对象的任何分类将是错误的并且被识别为错误分类的子区域。

识别错误分类的子区域的场景可以是与在544处检测到前景视觉对象的场景相同的场景。或者，错误分类的子区域的场景可以与其中检测到前景视觉对象的场景不同。

在564处，通过使用错误分类的子区域作为否定训练示例将机器学习应用于基础分类器来进一步训练基础分类器。

在516处，根据检测到的视觉对象的背景模型、错误分类的子区域以及可选地检测到的视觉对象训练的分类器被部署用于进一步检测的视觉对象的分类。

现在参考图9，其中示出了根据一个示例实施例的用于基础分类器的场景特定训练的改进的计算机实现的方法600的流程图。将理解，示例方法600的许多步骤与示例方法540的步骤类似或相同，并且关于示例方法540提供的描述也适用于示例方法600。将理解的是根据替代示例方法560还可以应用场景特定方法600。

在504处，提供基础分类器。

在提供基础分类器之后，开始基础分类器的训练。基础分类器专门针对当前的现实世界场景进行训练。当前场景可以对应于位于特定位置并且沿特定方向取向的特定相机的视野。

在544处，在表示当前场景的图像数据内检测前景视觉对象。

在548处，确定检测到的对象的背景模型。

在552处，通过使用在544处从当前场景检测到的前景视觉对象作为肯定训练示例将机器学习应用于基础分类器来可选地训练基础分类器。

在556处，通过使用在548处确定的前景视觉对象的背景模型作为否定训练示例将机器学习应用于基础分类器来训练基础分类器。

在516处，基于当前场景的前景视觉对象和/或背景模型训练的基础分类器被部署用于对在当前场景中找到的对象进行分类。

应当理解，只要当前场景保持不变，可以重复步骤544至556，以便通过使用在当前场景中找到的多个训练示例应用机器学习来进一步训练基础分类器。如本文其他地方所述，可以重复步骤544至556，使得基础分类器的更新遵循迭代过程。

在608处，确定当前场景是否已经改变。由于采集场景的相机的位置的改变，可能发生当前场景的这种改变。由于采集场景的相机的取向的改变，也可能发生这种改变。由于采集场景的相机的设置的变化，诸如相机施加的变焦或相机的操作模式的显着变化(例如，从正常光转换为低光模式)，也可能进一步发生这种变化。

如果场景在608处保持不变，则方法600可以返回到544以检测并分类场景内的附加视觉对象。或者，方法600可以返回到516以继续针对当前场景部署从步骤544到556训练的对象分类器。

如果在608处改变场景，则该方法前进到步骤616以至少部分地朝向基础分类器恢复。在一些示例中，当场景发生变化时，当前在516处部署的对象分类器完全恢复回基础分类器。

在步骤616处朝向基础分类器恢复回之后，可以将由场景中的改变产生的新场景设置为当前场景。然后，方法600可以返回到544，以检测和分类在“新”当前场景中找到的前景视觉对象。在步骤616的恢复之后，与这些对象对应的那些对象和/或背景模型可以应用于更新基础分类器。

应当理解，在初始场景和后续场景的特征明显不同的情况下，恢复基础分类器可能是有用的，使得根据初始场景的特征的基础分类器的训练不适用到后续的场景。恢复回基础分类器允许特别针对后续场景的特征重新训练分类器。

实验

根据一个实验，基础分类器的性能(在Alex Krizhevsky，Ilya Sutskever，Geoffrey Hinton，“ImageNet Classification with deep convolution neuralnetworks”，NIPS2012中描述的称为“AlexNet”的深度卷积神经网络的特定架构)在使用不同的训练示例集合训练时被评估。

从VIRAT数据集(http://www.viratdata.org)获得训练示例。该数据集包括来自各种静态相机的超过300个视频。从VIRAT数据集中提取人类别的视觉对象和车辆类别的视觉对象，并将其用作训练示例的第一集合。为用作训练示例的每个视觉对象确定背景模型。这些背景模型用作训练示例的第二集合。

除了人类别和车辆类别之外，还从VIRAT数据集中提取属于背景类别的训练示例。为了生成背景类别训练示例，准备了不包含人类别的前景视觉对象或车辆类别的前景视觉对象的图像样本。每个图像样本是在VIRAT数据集中找到的视频的图像帧的裁剪部分。使用简单的对象分类器(诸如不基于神经网络分类器的对象分类器)来对这些图像样本进行分类。当简单分类器将任何一个图像样本分类为包含落入人类别或车辆类别内的视觉对象时，就会发生错误分类。这些错误分类的图像样本包括在训练示例的第三集合中。

AlexNet分类器被提供作为基础分类器，其将由从VIRAT数据集提取的训练示例进行训练。使用来自伯克利视觉和学习中心的Caffe深度学习框架(可从：caffe.berkeleyvision.org获得)来应用肯定和否定训练示例来训练基础分类器。基础分类器的更新在Tesla K80GPU上执行。

在实验的第一部分中，通过应用示例的第一集合作为肯定训练示例(100个肯定训练示例)并通过应用示例的第二集合作为否定训练示例(100个否定训练示例)来训练基础分类器。对基础分类器的这种训练产生了第一经训练的测试分类器。

在实验的第二部分中，通过应用示例的第一集合作为肯定训练示例(100个肯定训练示例)并通过应用示例的第三集合作为否定训练示例(100个否定训练示例)来训练基础分类器。对基础分类器的这种训练产生了第二经训练的测试分类器。

在实验的第三部分中，通过应用示例的第一集合作为肯定训练示例(100个肯定训练示例)以及训练示例的第二集合和训练示例的第三集合的混合作为否定训练示例来训练基础分类器。更准确地说，来自第二集合的50个训练示例和来自第三集合的50个训练示例被用作训练基础分类器的否定训练示例。对基础分类器的这种训练产生了第三经训练的测试分类器。

第一经训练的测试分类器、第二经训练的测试分类器和第三经训练的测试分类器中的每一个被部署用于来自内部视频数据集的视频测试集合上的对象分类。测量部署每个分类器时的错误率。当视觉对象被错误分类时或者当背景图像(例如，没有存在前景视觉对象)被分类为人类别或车辆类别中的视觉对象时，认为已经犯了错误。

表1是混淆矩阵，其示出了当部署用于对包含在视频测试集合中的前景视觉对象进行分类时第一经训练的测试分类器的性能。

表1：

表2是混淆矩阵，其示出了当部署用于对包含在视频测试集合中的前景视觉对象进行分类时第二经训练的测试分类器的性能。

表2：

表3是混淆矩阵，其示出了当部署用于对包含在视频测试集合中的前景视觉对象进行分类时第三经训练的测试分类器的性能。

表3：

第一经训练的测试分类器的错误率为14.36％，第二经训练的测试分类器的错误率为15.42％，第三经训练的测试分类器的错误率为9.92％。

应当理解，使用前景视觉对象的背景模型来训练基础分类器(第一经训练的测试分类器和第三经训练的测试分类器)表现出比其中背景模型不用作训练示例的第二经训练的测试分类器较低的错误率。较低的错误率是性能改善的指标。更重要的是，应当理解，将前景视觉对象的背景模型和背景类别对象的组合一起用作否定训练示例表现出显着改进的性能(与第二训练的测试分类器相比错误率低35.6％)。

不依赖于特定理论，使用检测到的视觉对象的背景模型作为用于训练分类器的否定训练示例可以减少分类器错误分类场景的对象的发生率，如果没有被错误分类，该对象将形成场景的背景的一部分。

返回参考图6C，应当理解，图像中示出的场景的子区域包括人和灯柱。该人是前景视觉对象，并且灯柱形成场景的背景的一部分。然而，当该子区域被用作肯定训练示例时，可以使基础分类器被训练以将灯柱识别为人类别的前景视觉对象。例如，如果场景的该子区域对应于通常具有感兴趣对象的现实位置(例如，经常使用的走廊、道路或路)，则灯柱可以出现在每个都用作肯定训练示例的多个子区域中。这可以增加分类器被训练以将灯柱识别为人类别的对象的实例的可能性。使用子区域的背景模型作为否定训练示例可以通过训练分类器使灯柱形成场景的背景的一部分来至少部分地抵消该效果。

类似地，通过使用图6F中所示的背景模型的训练分类器，训练分类器以将垂直光束识别为形成背景的一部分，从而减少将垂直光束或与其类似的对象分类为属于人类别或车辆类别的可能性。

更一般地，并且不依赖于特定理论，使用背景模型训练分类器使得分类器被训练以将形成场景背景的一部分的现实对象正确地识别为背景对象。例如，在将会经常检测到前景视觉对象的场景的子区域中，使用背景模型，使用该子区域的背景模型作为否定训练示例可以降低分类器被训练以错误地将形成背景的一部分的对象分类为属于特定类别的前景视觉对象的可能性。

尽管以上描述提供了实施例的示例，但是应当理解，在不脱离所描述的实施例的操作的精神和原理的情况下，所描述的实施例的一些特征和/或功能易于修改。因此，以上描述的内容旨在以非限制性的方式进行说明，并且本领域技术人员将理解，在不脱离所附权利要求限定的本发明的范围的情况下，可以进行其他变型和修改。

Claims

1.一种用于训练计算机实现的对象分类器的方法，所述方法包括：

检测视频采集设备内的视野内的场景的子区域内的前景视觉对象；

确定所述场景的所述子区域的背景模型，所述背景模型表示当没有任何前景视觉对象时的所述子区域；和

通过使用所述子区域的所述背景模型作为第一否定训练示例的计算机实现的机器学习来训练所述对象分类器，

其中，所述对象分类器被专门针对当前场景进行训练，并且其中，在所述当前场景被改变为新场景时，

恢复到没有特定于所述当前场景的训练的所述对象分类器；和

通过使用来自所述新场景的背景模型的机器学习来训练所述对象分类器。

2.根据权利要求1所述的方法，还包括通过使用所检测到的前景视觉对象作为肯定训练示例的机器学习来训练所述对象分类器。

3.根据权利要求1所述的方法，其中，确定所述场景的所述子区域的背景模型包括：

选择当与所述场景的所述子区域对应的历史图像帧的子区域中不存在任何前景对象时采集到的所述历史图像帧；和

从所述历史图像帧中裁剪出与所述场景的所述子区域对应的子区域，裁剪后的图像帧是所述场景的所述子区域的背景模型。

4.根据权利要求1所述的方法，其中，确定所述场景的所述子区域的背景模型包括：

在多个历史图像帧的每一个历史图像帧内确定没有任何前景对象的一个或多个子区域；

聚合来自所述多个历史图像帧的所述一个或多个子区域，以形成表示整个场景的完整背景图像；和

从所述完整背景图像中裁剪出与所述场景的所述子区域对应的子区域，裁剪后的完整背景图像是所述场景的所述子区域的所述背景模型。

5.根据权利要求4所述的方法，其中，聚合来自所述多个历史图像帧的所述一个或多个子区域包括缝合所述一个或多个子区域以形成表示所述整个场景的图像。

6.根据权利要求1所述的方法，其中，所述对象分类器部分地使用有监督的学习来准备。

7.根据权利要求1所述的方法，其中，所述计算机实现的机器学习是卷积神经网络。

8.根据权利要求1至7中任一项所述的方法，还包括：通过使用场景的错误分类的子区域作为否定训练示例的计算机实现的机器学习来训练所述对象分类器。

9.一种根据权利要求1至8所述的方法之一训练的计算机实现的对象分类器。

10.一种用于训练计算机实现的对象分类器的系统，所述系统包括：

处理器；

存储程序指令的计算机可读存储设备，当所述程序指令由所述处理器执行时，使得所述系统执行操作，所述操作包括：

其中，所述对象分类器被专门针对当前场景进行训练，在所述当前场景被改变为新场景时，恢复到没有特定于所述当前场景的训练的所述对象分类器；和

11.根据权利要求10所述的系统，其中，所述操作还包括通过使用所检测的前景视觉对象作为肯定训练示例的机器学习来训练所述对象分类器。

12.根据权利要求10所述的系统，其中，确定所述场景的所述子区域的背景模型包括：

从所述历史图像帧中裁剪出与所述场景的所述子区域对应的子区域，裁剪后的图像帧是所述场景的所述子区域的所述背景模型。

13.根据权利要求10所述的系统，其中，确定所述场景的所述子区域的背景模型包括：

从所述完整背景图像裁剪出与所述场景的所述子区域对应的子区域，裁剪后的完整背景图像是所述场景的所述子区域的所述背景模型。

14.根据权利要求13所述的系统，其中，聚合来自所述多个历史图像帧的所述一个或多个子区域包括缝合所述一个或多个子区域以形成表示所述整个场景的图像。

15.根据权利要求10所述的系统，其中，所述对象分类器部分地使用有监督的学习来准备。

16.根据权利要求10所述的系统，其中，所述计算机实现的机器学习是卷积神经网络。

17.根据权利要求10至16中任一项所述的系统，其中，所述操作还包括通过使用场景的错误分类的子区域作为否定训练示例的计算机实现的机器学习来训练所述对象分类器。