CN103975343A

CN103975343A - 用于通过融合人类检测模态的结果来增强人类计数的系统和方法

Info

Publication number: CN103975343A
Application number: CN201280059660.6A
Authority: CN
Inventors: R·古普塔; A·辛哈; A·帕尔; A·查克拉瓦蒂
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2011-11-09
Filing date: 2012-11-07
Publication date: 2014-08-06
Anticipated expiration: 2032-11-07
Also published as: CN103975343B; EP2776980A1; EP2776980A4; JP2014532947A; JP6185919B2; US20140369561A1; WO2013105108A1; US9619699B2

Abstract

本发明公开了一种用于增强在预定义区域中捕捉的至少一个图像帧中的实时人类计数的准确度的方法和系统。本发明通过使用至少一个人类检测模态以获得所捕捉的图像的特征结果，来检测一个或多个帧中的人类。本发明还计算与每一人类检测模态相关联的活动概率。通过使用融合技术将特征结果和活动概率选择性地整合，以增强人类计数的准确度并选择最准确的人类检测模态。随后基于对最准确的人类检测模态的选择来执行人类。

Description

用于通过融合人类检测模态的结果来增强人类计数的系统和方法

技术领域

本发明一般涉及图像处理领域，并且具体地涉及增强图像中的实时人数的准确度的方法和系统。

背景技术

图像或视频中人类活动的检测是至关重要的，并且对于自动人体检测是关键启动器的应用(如安全和监督、机器人技术、监督和智能传输系统、自治车辆和自动驾驶辅助系统，等等)而言，确定人类在场是关键的。类似地，在计算机视觉系统中，分割图像以用于检测每一分段中的对象并将人类与其他对象区分开仍然是一个挑战。

出现在图像中的大量视觉图案增加了复杂性。人类检测涉及用于检测图像中人类的存在的硬件和软件的能力。对图像中人类的检测当前通过使用各种人类检测技术和算法来执行。虽然这些技术和算法被广泛使用，但所述技术或算法所提供的结果通常包含大量的虚假预测。

已经提出了许多解决方案来解决与减少关联于人类检测和跟踪技术的虚假预测或误差相关联的问题。频繁地遵循的用于人类检测的技术之一是组合多种人类检测技术以实时地检测人类。然而，组合的成功受与每一检测技术相关联的误差的影响。一种这样的解决方案已在Chengjun Liu的US 7,162,076中公开，它教导了根据使用贝叶斯融合分类器技术处理的DFA向量的用于表示待分析图像的向量。虽然该方法公开了具有相对低的误差概率和虚假检测率的脸部检测，但它仍然没有公开在涉及一种以上技术或算法的情况下确定解决方案的准确度。

因此，本领域存在着对能够通过确定用于检测图像中的人类的所有技术的准确度来减少可用于人类检测的多种技术的虚假预测的解决方案的需求。

发明目的

本发明的主要目的是提出一种增强人类检测模态中的人类计数的准确度的系统和方法。

本发明的另一目的是提出一种降低与人类检测模态相关联的不可靠元素的系统和方法。

本发明的又一目的是提出一种选择最准确人类检测模态来对所捕捉的图像帧中的人类进行计数的系统和方法。

发明概述

在一个方面，本发明公开了一种用于增强预定义观看区域中至少一个捕捉的图像帧中的实时人类计数的准确度的方法，其中所述方法包括以下各处理器实现的步骤：通过使用至少一个人类检测模态以获得所述所捕捉的图像的特征结果来检测一个或多个帧中的人类，以及通过在所获得的人类检测模态的特征结果之间切换并通过使用预计算的活动概率来计算准确度概率。所述活动概率适于确定每一帧中检测到的人数的方差。所述方法还包括以下处理器实现的步骤：通过使用用于检测人类在预定义观看区域中的位置的选择技术，将根据人类检测模态的组合所获得的每一帧的特征结果和所述活动概率进行选择性地整合。人类检测模态的组合是基于贝叶斯融合技术的。

在另一方面，本发明还公开了一种用于增强在预定义观看区域中捕捉的至少一个图像帧中的实时人类计数的准确度的系统，其中所述系统包括与至少一个模态组件嵌在一起的检测单元。检测单元被配置成与至少一个人类检测模态合作以获得与所捕捉的图像相关联的特征结果，来检测人类。该系统还包括适于计算与每一人类检测模态相关联的活动概率的计算模块。所述活动概率确定每一帧中检测到的人数的方差。该系统还包括适于将从每一帧的每一人类检测模态获得的多个特征结果进行选择性地整合的融合处理器。

附图简述

图1示出根据本发明的一实施例的系统的体系结构。

图2示出根据本发明的替换实施例的人类计数的机制。

图3示出根据本发明的替换实施例的准确度计算的过程流。

图4示出本发明的示例性实施例。

图5示出根据本发明的一示例性实施例的检测准确度的结果。

图6示出根据本发明的替换实施例的不可靠因素的结果。

具体实施方式

现在将讨论本发明的一些实施例，说明其特征。

词语“包含”、“具有”、“含有”和“包括”及其其他形式旨在含义相同并且是开放式的，在这些词语中任意一个之后的一个或多个事项并不意味着这一个或多个事项的穷举或意味着仅局限于所列举的一个或多个事项。

还必需注意到，如本文以及所附权利要求书中所使用地，单数形式的“一”、“一种”以及“该”包括复数引用，除非上下文另外明确地指出相反情况。尽管在本发明的实施例的实践或测试中可使用与本文所描述的系统、方法、装置和设备相类似或等效的任何系统、方法、装置和设备，但是现在将描述优选的系统和各部分。

所公开的实施例仅仅是本发明的示例，其可具体化为各种形式。

本发明涉及一种用于增强人类计数的准确度的方法和系统。人类计数通常通过使用多种人类检测模态来执行。这些人类检测模态(例如，有向梯度直方图(HOG)、Haar、以及背景扣除(BG))检测并跟踪人类图像以确定其数量。每一人类检测模态与某些不可靠因素相关联，例如视频帧中的波动、不正确的人类检测、虚假肯定，等等。本发明计算每一人类检测模态的准确度来减少这些不可靠因素。不可靠因素的减少造成了人类计数的增强的准确度，从而进一步使得能够选择最准确的人类检测模态。

根据本发明的各方面和各实施例，本文描述的方法旨在用作运行在计算机处理器上的软件程序(编程指令的集合)。

根据一方面，参考图1，系统(100)包括用于在多个帧中捕捉图像的图像捕捉设备(102)。系统(100)还包括被配置成检测人类的检测单元(104)。检测单元(104)还与至少一个模态组件(106)嵌在一起，以应用至少一个人类检测模态来检测至少一个帧中的人类。人类检测模态被应用来获得与所捕捉的图像相关联的特征结果。特征结果包括人类的灰度图像的像素值。人类检测模态包括且不限于Haar、有向梯度直方图(HOG)、背景扣除(BG)、或其组合。

根据本发明的一实施例，系统(100)还包括用于跟踪一个或多个帧中的人类的跟踪模块(图中未示出)。跟踪模块还通过将人类与图像中存在的不可靠因素区分开来处理人类图像以跟踪人类。

系统(100)还包括适于计算与每一人类检测模态相关联的活动概率的计算模块(108)。活动概率提供所捕捉的每一图像帧中的波动值，以用于确定每一帧中的检测到的人数的方差。计算模块(108)还计算用于确定每一人类检测模态的准确度的准确度概率。

系统(100)还包括与检测单元(104)和计算模块(108)进行通信并适于将与图像捕捉设备(102)所捕捉的图像相关联的特征结果以及与每一人类检测模态相关联的活动概率进行选择性地整合的融合处理器(110)。

根据一实施例，系统(100)还包括与融合处理器(110)通信耦合的准确度增强器(112)。准确度增强器(112)与融合处理器(110)一起运作以增强图像中的人类计数的准确度。准确度增强器(112)还包括通过使用回归模型将与每一人类检测模态相关联的特征结果和与每一人类检测模态相关联的活动概率进行选择性地整合的模块(116)。该选择性整合被执行以选择最准确的人类检测模态。

系统(100)还包括与准确度增强器(112)通信的人类计数器(114)。人类计数器(114)适于根据所选择的人类检测模态来对人类进行计数。有利的人类检测模态是在执行了选择性整合之后准确度增强器(112)所选择的最准确的人类检测模态。

根据一实施例，参考图2，图像捕捉设备(102)在当前帧和先前帧中捕捉人类的图像。多个帧中所提取的图像的一个或多个特征与阈值进行比较。阈值是手动地选择的。阈值帮助确定图像是否是活动图像。活动图像是在不稳定帧中捕捉的图像。活动是由计算模块(108)根据活动概率来计算得到的。

人类则是由检测模块(104)通过使用至少一个人类检测模态在一个或多个帧中检测到的。仍然参考图2，如在步骤202所示，检测单元(104)应用前景提取来检测人类。检测单元(104)还应用有向梯度直方图(HOG)来检测人体。线性SVM的级联被完成以用于快速对象检测。在此，对象指的是人类。检测单元(104)还应用Haar特征提取来检测人脸。背景变化是通过使用背景扣除(BGS)(请参考专利申请No.1359/MUM/2011)来检测的。

再次参考图1，计算模块(108)计算活动概率。计算模块(108)还通过在从各人类检测模块获得的特征结果之间切换并通过使用预计算的活动概率的值来计算每一人类检测模态的准确度概率。所述活动概率确定每一视频帧中检测到的人数的方差。

参考图2，如在步骤204所示，融合处理器(110)通过使用选择技术来生成从各单独的人类检测模态获得的特征结果的组合。以上组合的特征结果的选择性整合被执行以检测人类的位置并减少与每一人类检测模态相关联的不可靠因素。

根据一实施例，用于执行各单独人类检测模态的组合的选择技术是贝叶斯融合技术。贝叶斯融合改进了人类检测模态的分类性能。各单独的人类检测模态(Haar、有向梯度直方图(HOG)、背景扣除(BGS))提供它们自己的特征结果。分类系统通过观察与每一人类检测模态相关联的活动概率来确定对象是否属于人类类别(H)。贝叶斯融合技术的贝叶斯分类器将它们与任何先验p(H)相融合以得到全局一致的后验概率p(H/Z)，其中Z＝∪_i{Z_i}p(H)是类型H的先验概率且Z＝{HOG,BGS,Haar}。有向梯度直方图(HOG)分类器如下描述属于人类类别H的对象的后验概率：p(H/Z_HOG)。类似地，p(H/Z_BGS)和p(H/Z_Haar)由其他两个人类检测模态给出。假定这些信息线索同样重要，则在信息融合过程中应当给予相同的检测置信度水平。信息融合是使用贝叶斯建模方法来解决的。

根据一实施例，参考图3，图像捕捉设备(102)在多个帧中(例如，在旧帧和新帧中)捕捉图像。如在步骤208所示，在取得了这两个帧的特征值的差异之后，准备一矩阵。特征值是图像的像素值。该矩阵被用于计算像素值的标准差和均值。如在步骤202所示，检测单元(104)还按一个或多个组合来应用多个人类检测模态。该组合包括并且不限于有向梯度直方图(HOG)、背景扣除以及Haar的组合或有向梯度直方图(HOG)和背景扣除(BG)的组合。

从联合分布开始并递归地应用连接规则，获得了分解：

p(H∩Z_HoG∩Z_Haar∩Z_BGS)＝p(H)p(Z_HoG/H)p(Z_Haar/H)p(Z_BGS/H) (1)

式(1)假定来自不同人类检测模态的观察结果是独立的。对于多传感器系统，认为来自每一信息源的似然p(Z_i/H),i＝1…n独立是合理的，因为它们共有的唯一参数是状态。定义信息融合的条件概率可写成(2)。

p (H / Z_{HoG} \cap Z_{Haar} \cap Z_{BGS}) = \frac{p (H) p (Z_{HoG} / H) p (Z_{Haar} / H) p (Z_{BGS} / H)}{Σ_{H} p (H) p (Z_{HoG} / H) p (Z_{Haar} / H) p (Z_{BGS} / H)} - - - (2)

再次参考图3，从每一人类检测模态获得的特征结果包括灰度图像的像素值。通过这些特征结果，可以形成一组矩阵，其中矩阵的各元素包括灰度图像的像素值。如在步骤210所示，矩阵将由融合处理器(110)和准确度增强器(112)处理以标识发生了显著活动的那些帧。这将给出每一帧的活动的测量。如果像素值从先前帧显著地变化，则发生了显著的活动。随后，矩阵将具有像素值之差的元素并且将被处理。

再次参考图3，如在步骤212和214所示，准确度增强器(112)通过将回归模型应用于一个或多个人类检测模态所获得的特征结果和与每一人类检测模态相关联的活动概率来增强准确度。第一步是选择像素值的均值和标准差作为信息源。这一均值和标准差的值将被作为输入协变量来将回归模型应用于活动概率，并且准确度概率将通过使用活动概率的这一值来计算得到。

对于协变量向量CV＝[均值，方差]，令V＝[1，均值，方差]；随后逻辑回归y的值具有以下分布：

y＝1概率为

p = \frac{e^{α^{' V}}}{1 + e^{α^{' V}}};

＝0概率为其中α是待求值的模型的向量参数。

假设存在为其预确定了输出值的大小为k的样本。这一预确定可以是手动确定。对于i＝1,2,3,...,k，y_i是已知的。似然函数L(α)(它是α的函数)如下给出:

L (α) = Π_{i = 1}^{k} {(\frac{e^{α^{' V}}}{1 + e^{α^{' V}}})}^{y_{i}} {(\frac{1}{1 + e^{a^{' V}}})}^{1 - y_{i}} .

似然函数L(α)相对于α被最大化以获得估计来作为使L(α)最大化的α的值。

在这些参数的帮助下，活动概率的值被计算得到。这些值将提供活动的测量。作为具体示例，大于0.7的概率值指示所需的不稳定帧。在这一活动概率的帮助下，计算模块(108)将计算用于确定每一人类检测模态的准确度的准确度概率。

再次参考图3，如在步骤212所示，作为回归模型的输入，存在人类检测模态的输出。作为具体示例，在帧级，存在三种人类检测模态的输出。假设对于每一帧，具有输出X₁＝Haar，X₂＝HOG+BG以及X₃＝HOG+BG+Haar。所有这些X_i是取整型值的类别变量。

另一输入是为每一人类检测模态计算得到的活动概率P。

作为协变量，基于输入来捡取一组独立的对比，并且活动概率作为协变量不变化。

换言之，协变量是：

CV₁＝X₂-X₁；

CV₂＝X₃-X₁；

CV₃＝P；

令＝这些算法上的所有概率分布的集合

＝协变量的所有可能值的集合。

一模型是函数选择这类函数中的最佳元素。但很明显，该类中的最佳元素是在概率值为1的情况下其输出与实测(ground truth)数据最接近(手动确定的实测数据将对小型样本是可用的)的回归模型。

考虑特殊的一类函数f(CV)＝g(α'V)。在此，V是CV上的元素变换。将确定矩阵α的最优值，其中根据可用的观察到的数据或样本，回归模型给出该矩阵的最佳性能。一般认为g是凸光滑函数(指的是上至特定阶数都具有非零正导数的函数)，例如：α'V的各行的逻辑函数的向量。

令CV_i取n_i值则对于第i个协变量，引入n_i-1个指示符变量作为对于i＝1,2；j＝1,2,3,...,n_i，I_i,j＝Ind(CV_i＝k_i,j)。则经变换的向量如下定义：

V = {(1, I_{1,1}, I_{1,2}, I_{1,3}, . . . I_{1, n_{li} - 1}, I_{2,1}, I_{2,2}, I_{2,3}, . . . I_{2, n_{2} - 1}, {CV}_{3})}^{'} .

实测数据提供所需输出向量Y＝(y₁,y₂,y₃)的样本。y_i之一是1且其余是0。根据帧级值，构造各参数的函数并使该函数相对于各参数最大化以得到回归模型。

假定g是逻辑函数的向量。令V具有m个元素。认为α＝[α₁,α₂]，其中α₁和α₂是长度为m的向量。

则g(α'V)＝g([α₁,α₂]'V)＝[p₁(α'V),p₂(α'V),p₃(α'V)]'，其中p_i被定义为：

p₁(α'V)＝exp(α₁'V)/[1+exp(α₁'V)+exp(α₂'V)]；

p₂(α'V)＝exp(α₂'V)/[1+exp(α₁'V)+exp(α₂'V)]；且

p₃(α'V)＝(1-[p₁(α'V)+p₂(α'V)])。

设存在大小为k的样本。则似然函数是：

L (α) = Π_{1}^{k} p_{1} {(α^{'} V (j))}^{y_{i} (j)} p_{2} {(α^{'} V (j))}^{y_{2} (j)} p_{3} {(α^{'} V (j))}^{y_{3} (j)} .

通过使用Fisher的打分方法来使得似然函数L(α)相对于α被最大化，以获得被称为α的最大似然估计的估计

参考图3，如在步骤214所示，在导出参数之后，由计算模块(108)通过使用预计算的活动概率来计算准确度概率，这是通过使用回归模型来计算得到的。如在步骤216所示，具有最大概率的人类检测模态被选择用于减少不可靠元素。在存在具有最大概率的一个以上人类检测模态时，存在随机选择。

参考图2和3，如在步骤206所示，人类计数器(114)随后通过使用具有最大概率的人类检测模态连同考虑各稳定帧，来对窗口中的人类进行计数。

本发明工作的最佳模式/示例

参考图4，对于人类检测和计数，按编组或按单独的形式来使用多种人类检测模态。将它们称为算法。这些算法被用于训练和测试的目的。实测数据包括被手动地选择的供参考的数据。对人类检测模态的选择如下：

算法1–Haar，

算法2-有向梯度直方图(HOG)+背景扣除(BG)

算法3-Haar+有向梯度直方图(HOG)+背景扣除(BG)，使得算法指的是算法。

在预定实测数据的帮助下，手动地生成所需参数。对于算法1、算法2和算法3，计算模块(108)计算活动概率，它们分别是概率1、概率2和概率3。通过融合处理器(110)和准确度增强器(112)，通过应用回归模型来执行这些算法的选择性整合。算法1、算法2和算法3的计算得到的检测率和虚假肯定如下在表中示出：

表1和2：检测率和虚假肯定：

图5和6示出了从分别示出检测率和虚假肯定的表1和2获得的结果的图表。

在上述的表中，具有最大准确度概率的算法被选择。

采用以上方法，达到了从40％到低于20％的不可靠因素或虚假肯定的减少，同时维持了检测准确度。

参考各方面和各实施例描述的方法和技术可利用其中存储有指令集的机器或其它计算设备来执行，所述指令集在被执行时可导致机器执行上述方法中的任一个或多个。机器可包括处理器(中央处理器单元(CPU)、图形处理单元(GPU)或两者)、主存储器和静态存储器，它们经由总线彼此通信。盘驱动器单元可包括机器可读介质，该机器可读介质上存储了实现本文描述的方法或功能中的任何一个或多个(包括以上示出的那些方法)的编程指令的一个或多个集合(例如，软件)。这些指令在由机器执行期间也可完全或至少部分地驻留在主存储器、静态存储和/或处理器内。主存储器和处理器也可包括机器可读介质。

已参考各方面、实施例以及附图进行了上述描述。本发明所属的本领域技术人员将理解，在不有意脱离本发明主旨和范围的条件下，可对所描述的结构和操作方法作出变化和改变。

Claims

1.一种用于增强预定义观看区域中至少一个所捕捉的图像帧中的实时人类计数的准确度的方法，所述方法包括以下处理器实现的步骤：

通过使用至少一个人类检测模态以获得所捕捉的图像的特征结果，来检测一个或多个帧中的人类；

通过在各人类检测模态的所获得的特征结果之间切换并通过使用活动概率的预计算的值来计算准确度概率，所述活动概率适于确定每一帧中检测到的人数的方差；以及

通过使用融合技术检测人类在所述预定义观看区域中的位置，来选择性地整合所获得的每一帧的特征结果和所述活动概率。

2.如权利要求1所述的方法，其特征在于，所述方法还包括以下处理器实现的步骤：通过量化每一帧内每一人类检测模态的准确度概率并选择具有高于所整合的融合特征结果的最大准确度概率的至少一个人类检测模态，来增强人数的准确度。

3.如权利要求1和2所述的方法，其特征在于，所述准确度是通过将回归模型应用于所述活动概率和所跟踪的每一图像帧内的特征结果以计算每一人类检测模态的准确度概率来增强的。

4.如权利要求1所述的方法，其特征在于，每一人类检测模态的计算得到的活动概率提供接近于实测数据的值，所述实测数据包括用于与输入协变量进行比较的预定值。

5.如权利要求1和2所述的方法，其特征在于，所述方法还包括以下处理器实现的步骤：根据所选择的人类检测模态对人类进行计数。

6.如权利要求1所述的方法，其特征在于，所述人类检测还包括以下处理器实现的步骤：在至少一个图像捕捉设备的预定义观看区域内实时跟踪一个或多个人类。

7.如权利要求1所述的方法，其特征在于，一个或多个人类的检测还包括以下处理器实现的步骤：使用Haar检测人脸、使用有向梯度直方图(HOG)检测人体以及使用背景扣除(BGS)检测与所述人体相关联的背景中的变化，或其组合。

8.如权利要求1所述的方法，其特征在于，所述特征结果包括人类的灰度图像的像素值。

9.如权利要求1所述的方法，其特征在于，用于选择性地整合所述特征结果和所述活动概率的融合技术是选择技术。

10.如权利要求7所述的方法，其特征在于，Haar、HOG以及BGS的组合是基于贝叶斯融合技术的。

11.一种用于增强预定义观看区域中所捕捉的至少一个图像帧中的实时人类计数的准确度的系统，所述系统包括：

与至少一个模态组件嵌在一起的检测单元，所述检测单元配置成与至少一个人类检测模态合作以获得与所捕捉的图像相关联的特征结果来检测人类；

计算模块，所述计算模块适于计算与每一人类检测模态相关联的准确度概率和活动概率，所述活动概率确定每一帧中检测到的人数的方差；以及

融合处理器，所述融合处理器适于选择性地整合所述活动概率和从每一人类检测模态获得的每一帧的多个特征结果。

12.如权利要求11所述的系统，其特征在于，所述系统还包括适于量化每一帧内的人类检测模态的活动概率并选择高于经整合的融合特征结果的最大概率检测模态的准确度增强器。

13.如权利要求12所述的系统，其特征在于，所述准确度增强器还包括用于应用回归模型来计算每一人类检测模态的准确度概率的模块。

14.如权利要求13所述的系统，其特征在于，所述回归模型的输入协变量包括与所捕捉的图像相关联的特征结果和计算得到的活动概率。

15.如权利要求11所述的系统，其特征在于，所述系统还包括适于根据所选择的人类检测模态对人类进行计数的人类计数器。

16.如权利要求11所述的系统，其特征在于，所述系统还包括用于跟踪一个或多个帧中的人类的跟踪模块。

17.如权利要求11所述的系统，其特征在于，所述人类检测模态包括Haar、有向梯度直方图(HOG)、背景扣除(BGS)、或其组合。