CN103975343B - 用于通过融合人类检测模态的结果来增强人类计数的系统和方法 - Google Patents

用于通过融合人类检测模态的结果来增强人类计数的系统和方法 Download PDF

Info

Publication number
CN103975343B
CN103975343B CN201280059660.6A CN201280059660A CN103975343B CN 103975343 B CN103975343 B CN 103975343B CN 201280059660 A CN201280059660 A CN 201280059660A CN 103975343 B CN103975343 B CN 103975343B
Authority
CN
China
Prior art keywords
mankind
sensed
mode
probability
captured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280059660.6A
Other languages
English (en)
Other versions
CN103975343A (zh
Inventor
R·古普塔
A·辛哈
A·帕尔
A·查克拉瓦蒂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of CN103975343A publication Critical patent/CN103975343A/zh
Application granted granted Critical
Publication of CN103975343B publication Critical patent/CN103975343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20224Image subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种用于增强在预定义区域中捕捉的至少一个图像帧中的实时人类计数的准确度的方法和系统。本发明通过使用至少一个人类检测模态以获得所捕捉的图像的特征结果,来检测一个或多个帧中的人类。本发明还计算与每一人类检测模态相关联的活动概率。通过使用融合技术将特征结果和活动概率选择性地整合,以增强人类计数的准确度并选择最准确的人类检测模态。随后基于对最准确的人类检测模态的选择来执行人类。

Description

用于通过融合人类检测模态的结果来增强人类计数的系统和 方法
技术领域
本发明一般涉及图像处理领域,并且具体地涉及增强图像中的实时人数的准确度的方法和系统。
背景技术
图像或视频中人类活动的检测是至关重要的,并且对于自动人体检测是关键启动器的应用(如安全和监督、机器人技术、监督和智能传输系统、自治车辆和自动驾驶辅助系统,等等)而言,确定人类在场是关键的。类似地,在计算机视觉系统中,分割图像以用于检测每一分段中的对象并将人类与其他对象区分开仍然是一个挑战。
出现在图像中的大量视觉图案增加了复杂性。人类检测涉及用于检测图像中人类的存在的硬件和软件的能力。对图像中人类的检测当前通过使用各种人类检测技术和算法来执行。虽然这些技术和算法被广泛使用,但所述技术或算法所提供的结果通常包含大量的虚假预测。
已经提出了许多解决方案来解决与减少关联于人类检测和跟踪技术的虚假预测或误差相关联的问题。频繁地遵循的用于人类检测的技术之一是组合多种人类检测技术以实时地检测人类。然而,组合的成功受与每一检测技术相关联的误差的影响。一种这样的解决方案已在Chengjun Liu的US 7,162,076中公开,它教导了根据使用贝叶斯融合分类器技术处理的DFA向量的用于表示待分析图像的向量。虽然该方法公开了具有相对低的误差概率和虚假检测率的脸部检测,但它仍然没有公开在涉及一种以上技术或算法的情况下确定解决方案的准确度。
因此,本领域存在着对能够通过确定用于检测图像中的人类的所有技术的准确度来减少可用于人类检测的多种技术的虚假预测的解决方案的需求。
发明概述
在一个方面,本发明公开了一种用于增强预定义观看区域中至少一个捕捉的图像帧中的实时人类计数的准确度的方法,其中所述方法包括以下各处理器实现的步骤:通过使用至少一个人类检测模态以获得所述所捕捉的图像的特征结果来检测一个或多个帧中的人类,以及通过在所获得的人类检测模态的特征结果之间切换并通过使用预计算的活动概率来计算准确度概率。所述活动概率适于确定每一帧中检测到的人数的方差。所述方法还包括以下处理器实现的步骤:通过使用用于检测人类在预定义观看区域中的位置的选择技术,将根据人类检测模态的组合所获得的每一帧的特征结果和所述活动概率进行选择性地整合。人类检测模态的组合是基于贝叶斯融合技术的。
在另一方面,本发明还公开了一种用于增强在预定义观看区域中捕捉的至少一个图像帧中的实时人类计数的准确度的系统,其中所述系统包括与至少一个模态组件嵌在一起的检测单元。检测单元被配置成与至少一个人类检测模态合作以获得与所捕捉的图像相关联的特征结果,来检测人类。该系统还包括适于计算与每一人类检测模态相关联的活动概率的计算模块。所述活动概率确定每一帧中检测到的人数的方差。该系统还包括适于将从每一帧的每一人类检测模态获得的多个特征结果进行选择性地整合的融合处理器。
附图简述
图1示出根据本发明的一实施例的系统的体系结构。
图2示出根据本发明的替换实施例的人类计数的机制。
图3示出根据本发明的替换实施例的准确度计算的过程流。
图4示出本发明的示例性实施例。
图5示出根据本发明的一示例性实施例的检测准确度的结果。
图6示出根据本发明的替换实施例的不可靠因素的结果。
具体实施方式
现在将讨论本发明的一些实施例,说明其特征。
词语“包含”、“具有”、“含有”和“包括”及其其他形式旨在含义相同并且是开放式的,在这些词语中任意一个之后的一个或多个事项并不意味着这一个或多个事项的穷举或意味着仅局限于所列举的一个或多个事项。
还必需注意到,如本文以及所附权利要求书中所使用地,单数形式的“一”、“一种”以及“该”包括复数引用,除非上下文另外明确地指出相反情况。尽管在本发明的实施例的实践或测试中可使用与本文所描述的系统、方法、装置和设备相类似或等效的任何系统、方法、装置和设备,但是现在将描述优选的系统和各部分。
所公开的实施例仅仅是本发明的示例,其可具体化为各种形式。
本发明涉及一种用于增强人类计数的准确度的方法和系统。人类计数通常通过使用多种人类检测模态来执行。多个人类检测模态(例如,有向梯度直方图(HOG)、Haar、以及背景扣除(BG))检测并跟踪人类图像以确定其数量。来自多个人类检测模态的每一人类检测模态与某些不可靠因素相关联。不可靠因素的示例包括视频帧中的波动、不正确的人类检测、虚假肯定,等等。本发明还公开了计算每一人类检测模态的准确度来减少这些不可靠因素。不可靠因素的减少造成了人类计数的增强的准确度,从而进一步使得能够选择最准确的人类检测模态。
根据本发明的各方面和各实施例,本文描述的方法旨在用作运行在计算机处理器上的软件程序(编程指令的集合)。
根据一方面,参考图1,系统(100)包括用于在多个帧中捕捉图像的图像捕捉设备(102)。系统(100)还包括被配置成检测人类的检测单元(104)。检测单元(104)还与至少一个模态组件(106)嵌在一起,以应用至少一个人类检测模态来检测至少一个帧中的人类。人类检测模态被应用来获得与如此捕捉的图像(可被称为所捕捉的图像)相关联的特征结果。特征结果包括人类的灰度图像的人数值。人类检测模态包括但不限于Haar、有向梯度直方图(HOG)、背景扣除(BG)、或其组合。
根据本发明的一实施例,系统(100)还包括用于跟踪一个或多个帧中的人类的跟踪模块(图中未示出)。跟踪模块还通过将人类与图像中存在的不可靠因素区分开来处理人类图像以跟踪人类。
系统(100)还包括适于计算与每一人类检测模态相关联的活动概率的计算模块(108)。活动概率提供所捕捉的每一图像帧中的波动值,以用于确定每一帧中的检测到的人数的方差。计算模块(108)还计算用于确定每一人类检测模态的准确度的准确度概率。
系统(100)还包括与检测单元(104)和计算模块(108)进行通信并适于将与图像捕捉设备(102)所捕捉的图像相关联的特征结果以及与每一人类检测模态相关联的活动概率进行选择性地整合的融合处理器(110)。
根据一实施例,系统(100)还包括与融合处理器(110)通信耦合的准确度增强器(112)。准确度增强器(112)与融合处理器(110)一起运作以增强图像中的人类计数的准确度。准确度增强器(112)还包括通过使用回归模型将与人类检测模态中的每一个相关联的特征结果和与每一人类检测模态相关联的活动概率进行选择性地整合的模块(116)。该选择性整合被执行以选择最准确的人类检测模态或即所选择的人类检测模态。
系统(100)还包括与准确度增强器(112)通信的人类计数器(114)。人类计数器(114)适于根据所选择的人类检测模态来对人类进行计数。有利的人类检测模态(或即,所选择的人类检测模态)是在执行了选择性整合之后准确度增强器(112)所选择的最准确的人类检测模态。
根据一实施例,参考图2,图像捕捉设备(102)在当前帧和先前帧中捕捉人类的图像。多个帧中所提取的图像的一个或多个特征与阈值进行比较。阈值是手动地选择的。阈值帮助确定图像是否是活动图像。活动图像是在不稳定帧中捕捉的图像。活动是由计算模块(108)根据活动概率来计算得到的。
人类则是由检测模块(104)通过使用至少一个人类检测模态在一个或多个帧中检测到的。仍然参考图2,如在步骤202所示,检测单元(104)应用前景提取来检测人类。检测单元(104)还应用有向梯度直方图(HOG)来检测人体。线性SVM的级联被完成以用于快速对象检测。在此,对象指的是人类。检测单元(104)还应用Haar特征提取来检测人脸。背景变化是通过使用背景扣除(BGS)(请参考专利申请No.1359/MUM/2011)来检测的。
再次参考图1,计算模块(108)计算活动概率。计算模块(108)还通过在从各人类检测模块获得的特征结果之间切换并通过使用预计算的活动概率的值来计算每一人类检测模态的准确度概率。所述活动概率确定每一视频帧中检测到的人数的方差。
参考图2,如在步骤204所示,融合处理器(110)通过使用选择技术来生成从人类检测模态中的每一个获得的特征结果的组合。以上组合(即,HOG,HAAR,有向梯度直方图以及BGS)的特征结果的选择性整合被执行以检测人类的位置并减少与每一人类检测模态相关联的不可靠因素。
根据一实施例,用于执行一个或多个人类检测模态的组合的选择技术是贝叶斯融合技术。贝叶斯融合改进了人类检测模态的分类性能。各单独的人类检测模态(Haar、有向梯度直方图(HOG)、背景扣除(BGS))提供它们自己的特征结果。分类系统通过观察与每一人类检测模态相关联的活动概率来确定对象是否属于人类类别(H)。贝叶斯融合技术的贝叶斯分类器将它们与任何先验p(H)相融合以得到全局一致的后验概率p(H/Z),其中Z=∪i{Zi}p(H)是类型H的先验概率且Z={HOG,BGS,Haar}。有向梯度直方图(HOG)分类器如下描述属于人类类别H的对象的后验概率:p(H/ZHOG)。类似地,p(H/ZBGS)和p(H/ZHaar)由其他两个人类检测模态给出。假定这些信息线索同样重要,则在信息融合过程中应当给予相同的检测置信度水平。信息融合是使用贝叶斯建模方法来解决的。
根据一实施例,参考图3,图像捕捉设备(102)在多个帧中(例如,在旧帧和新帧中)捕捉图像。如在步骤208所示,在取得了这两个帧的特征值的差异之后,准备一矩阵。特征值是图像的像素值。该矩阵被用于计算像素值的标准差和均值。如在步骤202所示,检测单元(104)还按一个或多个组合来应用至少一个人类检测模态。在一具体示例中,组合包括有向梯度直方图(HOG)、背景扣除以及Haar的组合或有向梯度直方图(HOG)和背景扣除(BG)的组合。
从联合分布开始并递归地应用连接规则,获得了分解:
p(H∩ZHoG∩ZHaar∩ZBGS)=p(H)p(ZHoG/H)p(ZHaar/H)p(ZBGS/H) (1)
式(1)假定来自不同人类检测模态的观察结果是独立的。对于多传感器系统,认为来自每一信息源的似然p(Zi/H),i=1…n独立是合理的,因为它们共有的唯一参数是状态。定义信息融合的条件概率可写成(2)。
再次参考图3,从每一人类检测模态获得的特征结果包括灰度图像的人数值。在这些特征结果的计算期间,可以形成一组矩阵,在该矩阵中,各元素包括灰度图像的像素值。如在步骤210所示,矩阵可由融合处理器(110)和准确度增强器(112)处理以标识发生了显著活动的帧。这将给出每一帧的活动的测量。如果像素值从先前帧显著地变化,则发生了显著的活动。随后,矩阵将具有像素值之差的元素并且将被处理。
再次参考图3,如在步骤212和214所示,准确度增强器(112)通过将回归模型应用于一个或多个人类检测模态所获得的特征结果和与每一人类检测模态相关联的活动概率来增强准确度。第一步是选择像素值的均值和标准差作为信息源。均值和标准差的值将被作为输入协变量(至少两个变量的组合)来将回归模型应用于活动概率,并且准确度概率将通过使用活动概率的值来计算得到。
对于协变量(协变量向量),CV=[均值,方差],令V=[1,均值,方差];随后逻辑回归y的值具有以下分布:
y=1概率为
=0概率为其中α(阿尔法)是待求值的模型的向量参数。
假设存在为其预确定了输出值的大小为k的样本。这一预确定可以是手动确定。对于i=1,2,3,...,k,yi是已知的。似然函数L(α)(它是α的函数)如下给出:
似然函数L(α)相对于α被最大化以获得估计来作为使L(α)最大化的α的值。
在参数的帮助下,活动概率的值被计算得到。这些值将提供活动的测量。作为具体示例,大于0.7的概率值指示所需的不稳定帧。在这一活动概率的帮助下,计算模块(108)将计算用于确定每一人类检测模态的准确度的准确度概率。
再次参考图3,如在步骤212所示,作为回归模型的输入,存在人类检测模态的输出。作为具体示例,在帧级,存在三种人类检测模态的输出。假设对于每一帧,具有输出X1=Haar,X2=HOG+BG以及X3=HOG+BG+Haar。所有这些Xi是取整型值的类别变量。
另一输入是为每一人类检测模态计算得到的活动概率P。
作为协变量,基于输入来捡取一组独立的对比,并且活动概率作为协变量不变化。
换言之,协变量是:
CV1=X2-X1
CV2=X3-X1
CV3=P;
=这些算法上的所有概率分布的集合
=协变量的所有可能值的集合。
一模型是函数选择这类函数中的最佳元素。但很明显,该类中的最佳元素是在概率值为1的情况下其输出与实测(ground truth)数据最接近(手动确定的实测数据将对小型样本是可用的)的回归模型。
考虑特殊的一类函数f(CV)=g(α'V)。在此,V是CV上的元素变换。将确定矩阵α的最优值,其中根据可用的观察到的数据或样本,回归模型给出该矩阵的最佳性能。一般认为g是凸光滑函数(指的是上至特定阶数都具有非零正导数的函数),例如:α'V的各行的逻辑函数的向量。
令CVi取ni则对于第i个协变量,引入ni-1个指示符变量作为对于i=1,2;j=1,2,3,...,ni,Ii,j=Ind(CVi=ki,j)。则经变换的向量如下定义:
实测数据提供所需输出向量Y=(y1,y2,y3)的样本。yi之一是1且其余是0。根据帧级值,构造各参数的函数并使该函数相对于各参数最大化以得到回归模型。
假定g是逻辑函数的向量。令V具有m个元素。认为α=[α12],其中α1和α2是长度为m的向量。
则g(α'V)=g([α12]'V)=[p1(α'V),p2(α'V),p3(α'V)]',其中pi被定义为:
p1(α'V)=exp(α1'V)/[1+exp(α1'V)+exp(α2'V)];
p2(α'V)=exp(α2'V)/[1+exp(α1'V)+exp(α2'V)];且
p3(α'V)=(1-[p1(α'V)+p2(α'V)])。
设存在大小为k的样本。则似然函数是:
通过使用Fisher的打分方法来使得似然函数L(α)相对于α被最大化,以获得被称为α的最大似然估计的估计
参考图3,如在步骤214所示,在导出参数之后,由计算模块(108)通过使用预计算的活动概率来计算准确度概率,这是通过使用回归模型来计算得到的。如在步骤216所示,具有最大概率的人类检测模态被选择用于减少不可靠元素。在存在具有最大概率的一个以上人类检测模态时,存在随机选择。
参考图2和3,如在步骤206所示,人类计数器(114)随后通过使用具有最大概率的人类检测模态连同考虑各稳定帧,来对窗口中的人类进行计数。
本发明工作的最佳模式/示例
参考图4,对于人类检测和计数,按编组或按单独的形式来使用多种人类检测模态。将它们称为算法。这些算法被用于训练和测试的目的。实测数据包括被手动地选择的供参考的数据。对人类检测模态的选择如下:
算法1–Haar,
算法2-有向梯度直方图(HOG)+背景扣除(BG)
算法3-Haar+有向梯度直方图(HOG)+背景扣除(BG),使得算法指的是算法。
在预定实测数据的帮助下,手动地生成所需参数。对于算法1、算法2和算法3,计算模块(108)计算活动概率,它们分别是概率1、概率2和概率3。通过融合处理器(110)和准确度增强器(112),通过应用回归模型来执行这些算法的选择性整合。算法1、算法2和算法3的计算得到的检测率和虚假肯定如下在表中示出:
表1和2:检测率和虚假肯定:
图5和6示出了从分别示出检测率和虚假肯定的表1和2获得的结果的图表。
在上述的表中,具有最大准确度概率的算法被选择。
采用以上方法,达到了从40%到低于20%的不可靠因素或虚假肯定的减少,同时维持了检测准确度。
参考各方面和各实施例描述的方法和技术可利用其中存储有指令集的机器或其它计算设备来执行,所述指令集在被执行时可导致机器执行上述方法中的任一个或多个。机器可包括处理器(中央处理器单元(CPU)、图形处理单元(GPU)或两者)、主存储器和静态存储器,它们经由总线彼此通信。盘驱动器单元可包括机器可读介质,该机器可读介质上存储了实现本文描述的方法或功能中的任何一个或多个(包括以上示出的那些方法)的编程指令的一个或多个集合(例如,软件)。这些指令在由机器执行期间也可完全或至少部分地驻留在主存储器、静态存储和/或处理器内。主存储器和处理器也可包括机器可读介质。
已参考各方面、实施例以及附图进行了上述描述。本发明所属的本领域技术人员将理解,在不有意脱离本发明主旨和范围的条件下,可对所描述的结构和操作方法作出变化和改变。

Claims (13)

1.一种用于增强预定义观看区域中至少一个所捕捉的图像帧中的实时人类计数的准确度的方法,所述方法包括:
通过使用一个或多个人类检测模态以获得包含所检测的至少一个人类的所捕捉的图像的特征结果,来由处理器检测所捕捉的一个或多个连贯的图像帧中的至少一个人类,其中所述特征结果是针对所述人类检测模态中的每一个来计算得到的;
通过在针对所述人类检测模态中的每一个所获得的特征结果之间切换来由所述处理器计算准确度概率,其中所述准确度概率是通过使用所述一个或多个人类检测模态的活动概率的预计算的值来计算得到的,并且其中所述活动概率被用于确定每一帧中检测到的人数的方差;
通过使用融合技术,由所述处理器生成一个或多个人类检测模态的组合的所获得的特征结果的组合;
通过使用回归模型增强所捕捉的图像中的人数的准确度,来由所述处理器选择性地整合来自一个或多个人类检测模态的所述组合的所捕捉的每一图像帧的特征结果和与所述人类检测模态中的每一者相关联的活动概率,其中增强所捕捉的图像中的人数的准确度包括以下步骤:量化每一帧内每一人类检测模态的准确度概率并选择具有高于经整合的融合特征结果的最大准确度概率的一个或多个人类检测模态。
2.如权利要求1所述的方法,其特征在于,针对所述人类检测模态中的每一个计算得到的活动概率提供接近于实测数据的值,其中所述实测数据包括用于与所捕捉的图像的输入协变量进行比较的预定值。
3.如权利要求1所述的方法,其特征在于,所述方法还包括以下处理器实现的步骤:根据所选择的人类检测模态对人类进行计数。
4.如权利要求1所述的方法,其特征在于,所述检测还包括以下处理器实现的步骤:在至少一个图像捕捉设备的预定义观看区域内实时跟踪一个或多个人类。
5.如权利要求1所述的方法,其特征在于,一个或多个人类的检测还包括以下处理器实现的步骤中的至少一个:使用Haar检测人脸、使用有向梯度直方图HOG检测人体、使用背景扣除BGS检测与所述人体相关联的背景中的变化,或其组合。
6.如权利要求1所述的方法,其特征在于,所述特征结果包括人类的灰度图像的人数值。
7.如权利要求1所述的方法,其特征在于,用于选择性地整合所述特征结果和所述活动概率的融合技术是选择技术。
8.如权利要求5所述的方法,其特征在于,Haar、HOG以及BGS的组合是基于贝叶斯融合技术的。
9.一种用于增强预定义观看区域中所捕捉的至少一个图像帧中的实时人类计数的准确度的系统,所述系统包括:
与至少一个模态组件嵌在一起的检测单元,所述检测单元配置成与一个或多个人类检测模态合作以获得包含所检测的至少一个人类的所捕捉的图像的特征结果来检测所捕捉的一个或多个连贯图像帧中的至少一个人类,其中所述特征结果是针对所述人类检测模态中的每一个计算得到的;
计算模块,所述计算模块适于计算与每一人类检测模态相关联的准确度概率和活动概率,其中所述准确度概率是通过在所述特征结果之间切换来计算得到的,其中所述活动概率确定每一帧中检测到的人数的方差;以及
融合处理器,所述融合处理器适于:
通过使用融合技术来生成一个或多个人类检测模态的组合的所获得的特征结果的组合;
通过以下步骤来选择所述一个或多个人类检测模态:通过使用回归模型增强所捕捉的图像中的人数的准确度,来选择性地整合与人类检测模态中的每一者相关联的活动概率和来自一个或多个人类检测模态的所述组合的所捕捉的每一图像帧的特征结果,其中增强所捕捉的图像中的人数的准确度包括量化每一帧内每一人类检测模态的准确度概率的步骤,并且选择所述一个或多个人类检测模态是基于高于经整合的融合特征结果的最大准确度概率的。
10.如权利要求9所述的系统,其特征在于,所述回归模型的输入协变量包括与所捕捉的图像相关联的特征结果和计算得到的活动概率。
11.如权利要求9所述的系统,其特征在于,所述系统还包括适于根据所选择的人类检测模态对人类进行计数的人类计数器。
12.如权利要求9所述的系统,其特征在于,所述系统还包括用于跟踪一个或多个帧中的人类的跟踪模块。
13.如权利要求9所述的系统,其特征在于,所述人类检测模态包括Haar、有向梯度直方图HOG、背景扣除BGS、或其组合。
CN201280059660.6A 2011-11-09 2012-11-07 用于通过融合人类检测模态的结果来增强人类计数的系统和方法 Active CN103975343B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN3167/MUM/2011 2011-11-09
IN3167MU2011 2011-11-09
PCT/IN2012/000733 WO2013105108A1 (en) 2011-11-09 2012-11-07 A system and method for enhancing human counting by fusing results of human detection modalities

Publications (2)

Publication Number Publication Date
CN103975343A CN103975343A (zh) 2014-08-06
CN103975343B true CN103975343B (zh) 2018-06-01

Family

ID=48781106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280059660.6A Active CN103975343B (zh) 2011-11-09 2012-11-07 用于通过融合人类检测模态的结果来增强人类计数的系统和方法

Country Status (5)

Country Link
US (1) US9619699B2 (zh)
EP (1) EP2776980A4 (zh)
JP (1) JP6185919B2 (zh)
CN (1) CN103975343B (zh)
WO (1) WO2013105108A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3078026B1 (en) * 2013-12-06 2022-11-16 Tata Consultancy Services Limited System and method to provide classification of noise data of human crowd
CN104598929A (zh) * 2015-02-03 2015-05-06 南京邮电大学 一种hog特征快速提取方法
EP3182331A1 (en) 2015-12-14 2017-06-21 Tata Consultancy Services Limited Method and system to detect objects using block based histogram of oriented gradients
ITUB20159615A1 (it) * 2015-12-29 2017-06-29 Universita’ Degli Studi Di Trieste Metodo per il rilevamento del traffico pedonale in uno spazio.
US9720086B1 (en) 2016-11-22 2017-08-01 4Sense, Inc. Thermal- and modulated-light-based passive tracking system
US9638800B1 (en) 2016-11-22 2017-05-02 4Sense, Inc. Passive tracking system
US10558886B2 (en) * 2017-11-15 2020-02-11 International Business Machines Corporation Template fusion system and method
CN108197579B (zh) * 2018-01-09 2022-05-20 杭州智诺科技股份有限公司 防护舱中人数的检测方法
CN108596157B (zh) * 2018-05-14 2020-08-07 三峡大学 一种基于运动检测的人群惊扰场景检测方法及系统
EP3620978A1 (de) * 2018-09-07 2020-03-11 Ibeo Automotive Systems GmbH Verfahren und vorrichtung zur klassifizierung von objekten

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6499025B1 (en) * 1999-06-01 2002-12-24 Microsoft Corporation System and method for tracking objects by fusing results of multiple sensing modalities
CN101877058A (zh) * 2010-02-10 2010-11-03 杭州海康威视软件有限公司 人流量统计的方法及系统
CN101964056A (zh) * 2010-10-26 2011-02-02 徐勇 一种具有活体检测功能的双模态人脸认证方法和系统
CN102063613A (zh) * 2010-12-28 2011-05-18 北京智安邦科技有限公司 基于头部识别的人群计数方法及装置
CN102194108A (zh) * 2011-05-13 2011-09-21 华南理工大学 一种聚类线性鉴别分析特征选择的笑脸表情识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6502082B1 (en) * 1999-06-01 2002-12-31 Microsoft Corp Modality fusion for object tracking with training system and method
JP3571628B2 (ja) * 2000-08-31 2004-09-29 三菱電機株式会社 画像処理装置
US7058205B2 (en) * 2001-12-07 2006-06-06 Xerox Corporation Robust, on-line, view-based appearance models for visual motion analysis and visual tracking
US7162076B2 (en) 2003-02-11 2007-01-09 New Jersey Institute Of Technology Face detection method and apparatus
US8228382B2 (en) * 2005-11-05 2012-07-24 Ram Pattikonda System and method for counting people
JP5121508B2 (ja) * 2008-03-03 2013-01-16 キヤノン株式会社 画像処理装置、画像処理方法、プログラム及び記憶媒体
US8411963B2 (en) * 2008-08-08 2013-04-02 The Nielsen Company (U.S.), Llc Methods and apparatus to count persons in a monitored environment
US8295545B2 (en) * 2008-11-17 2012-10-23 International Business Machines Corporation System and method for model based people counting
JP2010266983A (ja) * 2009-05-13 2010-11-25 Sony Corp 情報処理装置及び方法、学習装置および方法、プログラム、並びに情報処理システム
JP2011215695A (ja) * 2010-03-31 2011-10-27 Sony Corp 移動物体検出装置及び方法、並びにプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6499025B1 (en) * 1999-06-01 2002-12-24 Microsoft Corporation System and method for tracking objects by fusing results of multiple sensing modalities
CN101877058A (zh) * 2010-02-10 2010-11-03 杭州海康威视软件有限公司 人流量统计的方法及系统
CN101964056A (zh) * 2010-10-26 2011-02-02 徐勇 一种具有活体检测功能的双模态人脸认证方法和系统
CN102063613A (zh) * 2010-12-28 2011-05-18 北京智安邦科技有限公司 基于头部识别的人群计数方法及装置
CN102194108A (zh) * 2011-05-13 2011-09-21 华南理工大学 一种聚类线性鉴别分析特征选择的笑脸表情识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Estimating the Number of People in Crowded Scenes by MID Based Foreground Segmentation and Head-shoulder Detection;Min Li, Zhaoxiang Zhang, Kaiqi Huang,Tieniu Tan;《Pattern Recognition, 2008. ICPR 2008. 19th International Conference on》;20081111;摘要,第1栏第25行-第2栏第21行 *

Also Published As

Publication number Publication date
JP6185919B2 (ja) 2017-08-23
US20140369561A1 (en) 2014-12-18
EP2776980A1 (en) 2014-09-17
CN103975343A (zh) 2014-08-06
EP2776980A4 (en) 2015-09-09
WO2013105108A1 (en) 2013-07-18
JP2014532947A (ja) 2014-12-08
US9619699B2 (en) 2017-04-11

Similar Documents

Publication Publication Date Title
CN103975343B (zh) 用于通过融合人类检测模态的结果来增强人类计数的系统和方法
Almazan et al. Mcmlsd: A dynamic programming approach to line segment detection
US8218819B2 (en) Foreground object detection in a video surveillance system
US8374393B2 (en) Foreground object tracking
US9147114B2 (en) Vision based target tracking for constrained environments
Gong et al. Kernelized temporal cut for online temporal segmentation and recognition
JP2007122218A (ja) 画像分析装置
JP2010231254A (ja) 画像解析装置、画像解析方法およびプログラム
Zavan et al. Benchmarking parts based face processing in-the-wild for gender recognition and head pose estimation
CN108288020A (zh) 基于上下文信息的视频遮挡检测系统及方法
Jaroensri et al. A video-based method for automatically rating ataxia
Fradet et al. Clustering point trajectories with various life-spans
Mohd et al. Vehicles counting from video stream for automatic traffic flow analysis systems
CN110889347B (zh) 基于时空计数特征的密度交通流计数方法及系统
CN108876809A (zh) 一种基于卡尔曼滤波的tld图像跟踪算法
US11657123B2 (en) Method and apparatus for people flow analysis using similar-image search
Sarmiento et al. Cardiac disease prediction from spatio-temporal motion patterns in cine-mri
Wu et al. Online multi-object tracking based on improved kernel correlation filter
CN111191524A (zh) 运动人群计数方法
Ding et al. Implementation of behavior recognition based on machine vision
WO2012173465A1 (en) System and method of validation of object counting
Liu et al. Dynamic Multi-ROI Parallel Inference Architecture for Online Video
Gasmallah Video Object Tracking Using Neural Networks
Zhang et al. 3FO: The Three-Frame-Only Approach for Fast and Accurate Monocular SLAM Initialization
Biggs et al. Improving object counting in aerial images with density-based threshold shifting

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant