CN104025118A - 使用扩展surf特征的对象检测 - Google Patents
使用扩展surf特征的对象检测 Download PDFInfo
- Publication number
- CN104025118A CN104025118A CN201180074623.8A CN201180074623A CN104025118A CN 104025118 A CN104025118 A CN 104025118A CN 201180074623 A CN201180074623 A CN 201180074623A CN 104025118 A CN104025118 A CN 104025118A
- Authority
- CN
- China
- Prior art keywords
- gradient
- images
- image
- integral
- input picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
说明了包括从输入图像产生梯度图像的系统、装置和方法,其中,梯度图像包括使用2D滤波器内核创建的梯度图像。随后从梯度图像产生特征描述符,并通过将描述符应用于包括逻辑回归基分类器的提升级联分类器来执行对象检测。
Description
背景技术
对象检测目的在于定位目标对象(例如,人脸、人体、汽车等等)出现在给定图像或视频帧中的何处(常常是按照特定矩形区域)。通常,对于对象检测技术存在两个主要目的。首先,该技术应使得在不存在目标对象区域中检测到对象的正误识检测事件最少。对于具有实际应用的对象检测技术,每一百万个测试区域的正误识检测事件应不大于一。换句话说,最佳对象检测器的每个检测窗口的正误识(FPPW)系数可以小至1x10-6。其次,该技术对于目标对象存在的几乎所有区域应提供真检测。换句话说,最佳对象检测器的命中率应尽可能地接近100%。实际上,对象检测中的最终目标应是尽可能接近这些基准。
用于对象检测技术的传统方案在实现以上概述的基准的尝试中常常使用boosting Haar cascade(提升Haar级联)技术。但这种技术典型地包括基于一维(1D)哈尔特征(Haar-like feature)的提升分类器的长级联,并使用决策树来提供基分类器。需要用于对象检测的更准确和迅速的技术。
附图说明
在附图中示例性而非限制性地示出了本文所述的材料。为了图示的简单和清楚,图中所示的元件不一定按照比例绘制。例如,为了清楚,一些元件可以相对于其他要元件放大。此外,在认为适当的情况下,在附图中重复了附图标记,用以指示相应的或相似的元件。在附图中:
图1是示例性对象检测系统的示意图;
图2例示了几个示例性滤波器内核;
图3例示了输入图像的示例性局部区域;
图4是示例性对象检测过程的流程图;
图5例示了示例性积分图像坐标标示方案;
图6是示例性提升分类器(boosting classifier)级联的示意图;
图7例示了图像的示例性局部区域;以及
图8是示例性系统的示意图,其全部按照本公开内容的至少某些实施方案来布置。
具体实施方式
现在参考所包含的附图来说明一个或多个实施例或实施方案。尽管论述了特定的配置和布置,但应理解,这仅是出于说明性目的。相关领域技术人员会认识到,在不脱离本说明的精神和范围的情况下,可以使用其他配置和布置。对于相关领域技术人员来说,显然,本文所述的技术和/或布置也可以用于除了本文所述的以外的各种其他系统和应用中。
尽管以下说明阐述了多个实施方案,其可以在例如这种片上系统(SoC)架构的架构中加以证明,但本文所述技术和/或布置的实施方案不局限于特定架构和/或计算系统,可以由用于类似目的的任何架构和/或计算系统来实施。例如,使用例如多个集成电路(IC)芯片和/或封装、和/或多个计算设备和/或诸如机顶盒、智能电话等的消费电子(CE)设备的多个架构可以实施本文所述的技术和/或布置。此外,尽管以下说明可以阐述多个具体细节,例如逻辑实施方案、系统组件的类型和相互关系、逻辑划分/集成选择等,但所要求的主题的实践可以无需此类具体细节。在其他实例中,可以没有详细显示诸如控制结构和完整软件指令序列等的一些材料,以避免使得本文公开的材料模糊不清。
本文所公开的材料可以以硬件、固件、软件或其任意组合来实施。本文公开的材料也可以实施为存储在机器可读介质上的指令,其可以由一个或多个处理器读取并执行。机器可读介质可以包括用于以机器(例如计算设备)可读取的形式存储或发送信息的任何介质和/或机制。例如,机器可读介质可以包括只读存储器(ROM);随机存取存储器(RAM);磁盘储存介质;光储存介质;闪存设备;电、光、声或其他形式的传播信号(例如,载波、红外信号、数字信号等)以及其他的。
在说明书中对“一个实施方案”、“实施方案”“示例性实施方案”等的提及指示所述的实施方案可以包括特定的特征、结构或特性,但每一个实施方案不一定都包括所述特定的特征、结构或特性。而且,这种术语不一定指代同一实施方案。此外,当结合一个实施方案说明了特定特征、结构或特性时,认为结合无论本文是否明确说明的其他实施方案来实现这个特征、结构或特性也在本领域技术人员的知识范围内。
图1示出了根据本公开内容的示例性系统100。在多个实施方案中,系统100可以包括特征提取模块(FEM)102和提升级联分类器(boostingcascade classifier)模块(BCCM)104。如以下将更详细解释的,FEM102可以接收输入图像,并可以从图像提取特征。同样如以下将更详细解释的,提取的特征随后可以受到借助BCCM104的处理,以在输入图像中识别对象。
FEM102可以采用公知的SURF(加速鲁棒特征)特征检测技术(例如参见Bay et al.,“Surf:Speeded up robust features”,Computer Vision and ImageUnderstanding(CVIU),110(3),第346-359页,2008年)来基于水平和垂直梯度图像产生描述符特征,所述水平和垂直梯度图像使用形式[-1,0,1]的水平滤波器内核以从输入图像产生水平梯度图像(dx),并使用形式[-1,0,1]T的垂直滤波器内核以从输入图像产生垂直梯度图像(dy)。在标准SURF中,对应于各自图像dx和dy的绝对值|dx|和|dy|,可以产生两个额外的图像。
在多个实施方案中,根据本公开内容的滤波器内核可以具有任意粒度(granularity)。例如,图2示出了根据本公开内容的几个示例性滤波器内核200。内核200包括具有一个像素粒度的1D水平滤波器内核202、具有三个像素粒度的1D水平滤波器内核204、具有一个像素粒度的2D对角线滤波器内核212、具有一个像素粒度的2D反对角线滤波器内核218、和具有三个像素粒度的2D对角线滤波器内核224。
关于图2的示例,对于图像中的像素位置(x,y),根据
d(x,y)=I(x+1,y)-I(x-1,y) (1)
水平滤波器内核202可以产生梯度值d(x,y)。
其中,I(x-1,y)是相对于像素位置(x,y)的左侧像素位置的值,I(x+1,y)是相对于像素位置(x,y)的右侧像素位置的值。水平滤波器内核204(三个像素粒度)可以根据以下的式(2)来产生梯度值d(x,y)。
d(x,y)=d(x-1,y)=d(x+1,y)
={I(x+2,y)+I(x+3,y)+I(x+4,y)}-{I(x-2,y)+I(x-3,y)+I(x-4,y)} (2)
在根据本公开内容的多个实施方案中,FEM102还可以产生扩展的SURF(ExSURF)特征描述符,其在标准SURF特征上构建,以包括使用二维(2D)滤波器内核产生的特征。例如,FEM102可以通过将2D衷角线或主对角线滤波器内核(diag[-1,0,1])应用于输入图像以产生主对角线梯度图像(du),并通过将2D反对角线滤波器内核(antidiag[1,0,-1])应用于输入图像以产生反对角线梯度图像(dv),而基于对角线梯度图像产生扩展的描述符特征。
例如,再次参考图2的示例性内核200,对角线滤波器内核212(一个像素粒度)可以借助
du(x,y)=I(x+1,y-1)-I(x-1,y+1) (3)
来产生对角线梯度值du(x,y),对于反对角线滤波器内核218(三个像素粒度),可以由
dv(x,y)=I(x+1,y+1)-I(x-1,y-1) (4)
提供反对角线梯度值dv(x,y)。
最后,对于三个像素粒度对角线滤波器内核224,可以通过从用于区域230的9个像素的值的总和中减去区域228的9个像素的值的总和来为区域226的9个像素位置的每一个提供对角线梯度值。
FEM102可以产生对应于各自图像du和dv的绝对值du和dv的两个额外图像。这样,对于受到ExSURF处理的每一个输入图像,FEM102都可以产生总共8个梯度图像:水平梯度图像(dx)、绝对值水平梯度图像(|dx|)、垂直梯度图像(dy)、绝对值垂直梯度图像(|dy|)、对角线梯度图像(du)、绝对值对角线梯度图像(|du|)、反对角线梯度图像(dv)、和绝对值反对角线梯度图像(|dv|)。
根据本公开内容,FEM102可以使用已知的积分图像技术(例如参见P.Viola and M.Jones,“Robust Real-Time Object Detection”,IEEE ICCVWorkshop on Statistical and Computational Theories of Vision,2001;下文中为“Viola和Jones”)以产生对应于8个梯度图像的8个积分梯度图像。基于积分梯度图像,可以如下为输入图像的一个空间单元计算八维ExSURF特征向量FVExS,作为该单元内所有像素上的总和:
FVExS=(Σdx,Σdy,Σ|dx|,Σ|dy|,Σdu,Σdv,Σ|du|,Σ|dv|) (5)
例如,图3示出了输入图像的部分300中的示例性局部区域302,在此将局部区域302细分为空间单元304的2x2阵列。但本公开内容不局限于局部区域的特定大小或形状,和/或给定局部区域内的空间单元的特定大小、形状和/或数量。如以下更详细解释的,FEM102可以从八个积分梯度图像产生积分八通道结构阵列ExSURF图像,并可以将积分ExSURF图像提供给BCM104和/或可以将积分ExSURF图像存储在存储器中(图1中未示出)。
如以下进一步详细解释的,在根据本公开内容的多个实施方案中,BCCM104可以将弱分类器的提升分类器级联(BCC)用于ExSURF图像的多个部分。BCCM104的每一级都可以包括弱分类器的提升集合体,在此,每一个分类器都可以与图像的不同局部区域相关联。在多个实施方案中,每一个弱分类器都可以是逻辑回归基分类器。例如,对于局部区域的八维ExSURF特征x,应用的逻辑回归模型可以将弱分类器f(x)的概率模型定义为
其中,y是用于局部区域的标示(例如,如果是目标则为正,如果不是目标则为负),w是模型的权重向量参数。在多个实施方案中,BCCM104可以使用利用不同弱分类器的多个BCC。这样,在一些非限制性示例中,BCCM104可以使用具有面部检测分类器的BBC来识别局部区域中的面部特征,而在其他实施方案中,BCCM104可以使用具有车辆检测分类器的BCC来识别对应于轿车及其他车辆的特征,等等。
在多个实施方案中,FEM102和BCCM104可以由任意计算设备或系统提供。例如,微处理器的一个或多个处理器核心可以响应于由软件产生的指令而提供FEM102和BCCM104。通常,包括硬件、软件和/或固件逻辑装置的任意类型的逻辑装置、或者其任意组合都可以提供FEM102和BCCM104。
图4示出了根据本公开内容的多个实施方案的用于对象检测的示例性过程400的流程图。过程400可以包括一个或多个操作、功能或动作,如图4的一个或多个块402、404、406、408、410、412、414、416、和420所示的。过程400可以包括两个子过程,特征提取子过程401和窗口扫描子过程407。作为非限制性示例,本文将参考图1的示例性系统100来说明过程400。
过程400可以以特征提取子过程401开始,在此,在块402处,可以接收输入图像。例如,块402可以包括FEM102接收输入图像。在多个实施方案中,可以预处理在块402处接收的图像。例如,输入图像可以已经经过了强gamma压缩、中心-周边滤波、鲁棒局部链标准化、高亮抑制等。
在块404处,可以从输入图像产生梯度图像。在多个实施方案中,块404可以包括FEM102应用包括水平、垂直、主对角线和反对角线滤波器内核的一组1D和2D梯度滤波器来产生如上所述的总共8个梯度图像dx、dy、|dx|、|dy|、du、dv、|du|、和|dv|。FEM102随后可以产生如上所述的对应于梯度图像的8个积分梯度图像。
在块406处,可以产生积分ExSURF图像。在多个实施方案中,块406可以包括FEM102使用积分梯度图像来创建八通道积分ExSURF图像,其使用了用于积分ExSURF图像的结构的以下伪代码:
其中,w和h是积分ExSURF图像宽度和高度。
在多个实施方案中,积分ExSURF图像可以具有与输入图像或梯度图像相同的大小。例如,假定I是输入梯度图像,其中,I(x,y)是在位置(x,y)的像素值。在相应的积分ExSURF图像(SI)中的点SI(x,y)可以定义为从图像I的左上像素位置到位置(x,y)取得的像素值的总和:
这样,一旦在块406处产生积分ExSURF图像,就可以通过得到积分ExSURF图像中四个相应的顶点来获得图像的任意给定区域或空间单元的ExSURF值。例如,图5示出了用于积分ExSURF图像数据的示例性标示方案500,其中,可以通过得到存储在积分ExSURF图像(例如SI(p1)、SI(p2)等等)中的相应顶点p1、p2、p3和p4的特征向量值来找到用于图像区域或单元502的ExSURF值。于是可以由
SIcell=SI(p3)+SI(p1)-SI(p2)-SI(p4) (8)
提供用于单元502的八通道ExSURF值。
这样,特征提取子过程401的结束(例如,在块406之后)可以导致如上所述的积分ExSURF图像的产生。尽管图4中未示出,但过程400可以包括存储积分ExSURF图像用于稍后的处理(例如由窗口扫描子过程407进行的)。在多个实施方案中,FEM102可以充当特征提取子过程401的块402-406。这样做以后,FEM102可以在存储器(图1中未示出)中存储作为结果的积分ExSURF图像和/或可以将积分ExSURF图像提供给BCCM104用于额外的处理(例如由窗口扫描子过程407进行的)。
过程400可以以窗口扫描子过程407的进行而继续,在此,在块408处,可以应用检测窗口。在多个实施方案中,窗口扫描子过程407可以由BCCM104承担,在块408处,BCCM104可以将检测窗口应用于积分ExSURF图像(或其一部分),在此,BCCM104已经从FEM102或者从存储器(图1中未示出)获得了积分ExSURF图像(或其一部分)。
在多个实施方案中,窗口扫描子过程407可以包括图像扫描方案,其包括使用不同尺寸的检测窗口扫描图像中全部可能的位置。例如,缩放检测模板方案可以应用于子过程407。例如,如果进行窗口扫描子过程407以检测输入图像中的面部,原始检测窗口模板可以具有40x40像素的尺寸。可以在图像上扫描这个原始检测窗口模板,以借助分类器级联探查在每一个位置的相应检测窗口。在完成以40x40模板的扫描后,可以借助因子(例如1.2)放大模板尺寸,以获得更大的检测窗口(例如,48x48像素),随后也可以横跨图像上扫描它。可以重复这个过程,直至检测模板达到输入图像的尺寸。
块408可以包括将BCC应用于与检测窗口对应的ExSURF特征向量值。图6示出了根据本公开内容的多个实施方案的示例性BCC600。BCC600包括多个分类器级602(a)、602(b)、……、602(n),其中,每一个分类器级都包括一个或多个逻辑回归基分类器(参见等式(6)),及其中,每一个逻辑回归基分类器都对应于检测窗口内的局部区域。
例如,考虑48x48面部检测窗口,块408可以包括将相应的ExSURF图像值应用于BCC600。在这个非限制性示例中,第一级602(a)可以仅包括一个局部区域(例如,用于快速滤波负窗口),例如眼部区域,可以使用相应的逻辑回归基分类器f1(x)相对于阈值(θ)对其进行测试。随后的级可以具有选择的多于一个局部区域,在每一级的判断可以是(每一个所选局部区域的输出的)求和结果是否大于训练阈值(θ)。例如,级602(b)可以对应于经过了相应逻辑回归基分类器f21(x)和f22(x)的用于鼻子和嘴部区域的值的求和。在多个实施方案中,局部区域可以用于多个不同级中,并可以在多个级中具有不同的参数(例如等式(6)的权重参数“w”)。
在多个实施方案中,可以使用公知的级联训练技术(例如参见Viola和Jones)预先训练在块408处应用的BCC。例如,假定例如40x40像素面部检测窗口的检测窗口,可以在模板内定义矩形局部区域。在多个实施方案中,局部区域可以重叠。可以将每一个局部区域指定为四元组(x,y,w,h),其中,(x,y)对应于局部区域的左上角点,(w,h)是构成局部区域的矩形的宽度和高度。在多个实施方案中,局部区域的宽度或高度的范围可以从16个像素到40个像素,宽高比可以具有任意值,例如1:1、1:2、2:1、2:3等等。通常,检测窗口可以包含从一到几百个局部区域的任意位置。例如,40x40面部检测模板可以包括多于300个局部区域。
级联训练可以包括在每一级内使用已知的提升算法,例如Adaboost算法(例如参见Viola和Jones),应用于从正和负样本训练图像的给定组合选择的局部区域。随后可以借助接收者工作特征(ROC)分析来确定级阈值。在一级收敛后,可以收集虚警样本(其通过了在前级但其为负)作为负样本,可以用正样本和新收集的负样本训练下一级中的分类器。在训练过程中,可以基于分类精度为每一个局部区域打分。具有较大得分的局部区域随后可以被选择用于过程400中稍后的使用。可以进行训练过程,直至BCC达到期望的精度(例如,按照命中率和/或FPPW测量的)。
在图6的示例的环境中继续图4的论述,块408可以包括将ExSURF值应用于BCC600的每一级。例如,可以首先将用于检测窗口的ExSURF值应用于BCC600的级602(a)。块410于是可以包括确定窗口的ExSURF值是否满足或通过级602(a)的检测阈值。如果窗口没有通过第一级,那么过程就可以分支到块412,在此可以拒绝检测窗口(例如,由于与检测对象不对应而丢弃)。过程400随后可以返回到块408,在此可以应用新的检测窗口。例如,继续以上的面部检测示例,如果第一48x48窗口在第一级602(a)测试失败(例如没有检测到眼睛),那么就可以丢弃该窗口,可以将48x48检测模板扫描到图像中的下一个位置,可以在块408处理结果得到的新48x48窗口。
但如果检测窗口通过了第一级,过程就可以以下一级的应用而继续(块414)。例如,通过级602(a)后,可以相对于级602(b)测试窗口的ExSURF值。例如,继续面部检测示例,如果48x48窗口通过在第一级602(a)的测试(在局部区域中检测到眼睛),那么就可以将该窗口传送到级602(b),在此,可以在对应于鼻子和嘴部的不同局部区域基分类器中测试ExSURF值。例如,图7示出了示例性检测窗口700,在此,在级602(a)相对于由于眼睛的基分类器测试局部区域702中的ExSURF值,而(假定窗口700通过了在级602(a)的测试)在级602(b)相对于各自的鼻子和嘴部基分类器测试对应于局部区域704和706的ExSURF值,等等。
这样,过程400可以以将窗口的ExSURF值应用于BCC600的每一级而继续,直至在一级拒绝该窗口(过程400分支经由块412回到块408),或者直至确定已经通过了所有级(块416),在该点将多个级的结果合并为检测对象(块420),在该点子过程407和过程400可以结束。
尽管如图4所示,示例性过程400的实施方案可以包括按照所示顺序进行所示的所有块,但本公开内容不局限于这一点,在多个示例中,过程400的实施方案可以包括仅进行所示的块的子集和/或以与所示的不同的顺序进行。
另外,可以响应于由一个或多个计算机程序产品提供的指令,而进行图4的任何一个或多个子过程和/或块。这种程序产品可以包括提供指令的信号承载介质,例如当由处理器执行指令时,指令可以提供本文所述的功能。可以以任意形式的计算机可读介质来提供计算机程序产品。因而,例如,包括一个或多个处理器核心的处理器可以响应于由计算机可读介质传送到处理器的指令,而进行图4所示的一个或多个块。
与Haar级联技术(例如参见Viola和Jones)相比,根据本公开内容的使用ExSURF特征向量和逻辑回归基分类器的对象检测技术提供了改进的结果。表1显示了用于面部检测器的这两个方法在使用CMU-MIT公共数据集(包含包括507个正面脸部的130个灰度图像)在X86平台(核心i7)上运行的C/C++中的示例性执行时间。
表1:可执行时间性能的比较
图8例示了根据本公开内容的示例性计算系统800。系统800可以用于执行本文所述的多个功能的一些或全部,并可以包括能够承担本文所述的根据本公开内容的多个实施方案的过程的任何设备或设备集合。例如,系统800可以包括诸如台式机、移动或平板电脑、智能电话、机顶盒等的计算平台或设备的选定组件,尽管本公开内容不局限于这一点。在一些实施方案中,系统800可以包括例如在CE设备中的基于架构(IA)的计算平台或SoC。本领域技术人员易于意识到,在不脱离本公开内容的范围的情况下,本文所述的实施方案可以以可替换的处理系统来使用。
计算机系统800可以包括主机系统802、总线816、显示器818、网络接口820、成像设备822。主机系统802可以包括处理器804、芯片组806、主机存储器808、图形子系统810和储存设备812。处理器804可以执行软件指令和/或处理数据信号。在多个示例中,处理器704可以包括复杂指令集计算机(CISC)处理器核心、精简指令集计算机(RISC)微处理器核心、超长指令字(VLIW)微处理器核心、和/或实施指令集的任意组合或类型的任意数量的处理器核心。在一些实施方案中,处理器804能够承担数字信号处理和/或微控制器处理。
处理器804可以包括解码器逻辑,其可以用于将例如由芯片组806和/或图形子系统810接收的指令解码为控制信号和/或微代码入口点。此外,响应于控制信号和/或微代码入口点,芯片组806和/或图形子系统810可以执行相应的操作。在多个实施方案中,处理器804可以被配置为承担本文所述的任意过程,包括相对于图4所述的示例性过程。
芯片组806可以在处理器804、主机存储器808、储存设备812、图形子系统810、和总线816中提供互相通信。例如,芯片组806可以包括储存适配器(未示出),能够提供与储存设备812的互相通信。例如,储存适配器能够遵照多个协议中的任意一个与储存设备812通信,协议包括但不限于,小型计算机系统接口(SCSI)、光纤信道(FC)、和/或串行高级技术附件存储器808内、或在网络接口820与主机存储器808之间、或一般而言在系统800中的组件的任意组合之间传送信息。在多个实施方案中,芯片组806可以包括多于一个IC。
主机存储器808可以实施为易失性存储器设备,例如但不限于,随机存取存储器(RAM)、动态随机存取存储器(DRAM)、或者静态RAM(SRAM)等等。储存设备812可以实施为非易失性储存设备,例如但不限于,磁盘驱动器、光盘驱动器、磁带驱动器、内部储存设备、附接储存设备、闪存、电池后备SDRAM(同步DRAM)、和/或网络可访问储存设备等。
存储器808可以存储由数据信号表示指令和/或数据,数据信号由处理器804在承担包括相对于图4所述的示例性过程的本文所述的任意过程时执行。例如,主机存储器808可以存储梯度图像、积分ExSURF图像等等。在一些实施方案中,储存设备812也可以存储此类项目。
图形子系统810可以执行图像的处理,例如用于显示器的静止或视频图像。例如,在一些实施方案中,图形子系统810可以执行输入视频信号的视频编码或解码。例如,图形子系统810可以执行如相关于图4所述的活动。模拟或数字接口可以用于可通信地耦合图像子系统810和显示器818。例如,接口可以是高分辨率多媒体接口、DisplayPort、无线HDMI、和/或无线HD兼容技术中的任意一个。在多个实施方案中,图像子系统810可以集成到处理器804或芯片组806中。在一些其他实施方案中,图形子系统810可以是可通信地耦合到芯片组806的单独的卡。
总线816可以至少在主机系统802、网络接口820、成像设备822以及诸如键盘、鼠标等的其他外围设备(未示出)中提供互相通信。总线816可以支持串行或并行通信。总线816可以支持节点对节点或节点对多节点通信。总线816可以至少遵照:外设部件互连(PCI)规范,例如在外设部件互连(PCI)局部总线规范(3.0版(以及其修订版),2004年2月2日,可以从PCI特别兴趣组,Portland,Oregon,U.S.A.获得)中说明的;PCIExpress,在PCI特别兴趣组的PCI Express基本规范(1.0a版(以及其修订版))中说明的;PCI-x,在PCI-X规范Rev.1.1(以及其修订版)(2005年3月28日,可以从前述的PCI特别兴趣组,Portland,Oregon,U.S.A.获得)中说明的;和/或通用串行总线(USB)(及相关标准)以及其他互相通信标准。
网络接口820能够遵照诸如有线或无线技术的任何可适用协议在主机系统802与网络之间提供互相通信。例如,网络接口820可以符合任意各种IEEE通信标准,例如802.3、802.11或802.16。网络接口820可以使用总线816与主机系统802互相通信。在一些实施方案中,网络接口820可以集成到芯片组806中。
可以在多种硬件结构中实施本文所述的图形和/或视频处理技术。例如,图形和/或视频功能可以集成到芯片组内。可替换地,可以使用分立的图形和/或视频处理器。作为再另一个实施方案,图像和/或视频功能可以由包括多核处理器的通用处理器实施。在进一步的实施方案中,可以在消费电子设备中实施功能。
显示器818可以是任意类型的显示设备和/或平板显示器。例如,显示器818可以是液晶显示器(LCD)、等离子体平板显示器(PDP)、有机发光二极管(OLED)显示器等等。在一些实施方案中,显示器818可以是投影设备(例如微型投影仪显示器等)、微型显示器等。在多个实施方案中,显示器818可以用于显示经过了本文所述的对象检测处理的输入图像。
成像设备822可以是任意类型的成像设备,例如数码相机、手机相机、红外(IR)相机等。成像设备822可以包括一个或多个图像传感器(例如,电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)图像传感器)。成像设备822可以捕获彩色或单色图像。成像设备822可以捕获输入图像(静止的或视频),并经由总线816或芯片组806将这些图像提供给处理器804,用于本文所述的对象检测处理。
在一些实施方案中,系统800可以经由I/O总线(未示出)与图8中未示出的多个I/O设备通信。这种I/O设备可以包括但不限于,例如,通用异步接收机/发射极(UART)设备、USB设备、I/O扩展接口或其他I/O设备。在多个实施方案中,系统800可以代表用于承担移动、网络或/或无线通信的系统的至少部分。
尽管参考多个实施方案说明了本文阐述的某些特征,但本说明并非旨在以限制性意义来加以解释。因此,对于本公开内容所属领域技术人员是显而易见的本文所述的实施方案的多个修改以及其他实施方案视为在本公开内容的精神或范围内。
Claims (28)
1.一种计算机实施的方法,包括:
接收输入图像;
产生所述输入图像的多个梯度图像,其中,所述多个梯度图像至少包括使用二维滤波器内核创建的第一梯度图像;
响应于所述多个梯度图像而产生所述输入图像的特征描述符;以及
通过将提升级联分类器应用于所述特征描述符来对所述输入图像执行对象检测,其中,所述提升级联分类器包括多个逻辑回归基分类器。
2.根据权利要求1所述的方法,进一步包括:
产生多个积分图像,每一个积分图像都对应于所述多个梯度图像中的单独的一个梯度图像。
3.根据权利要求2所述的方法,其中,产生特征描述符包括:从所述多个积分图像产生多通道积分图像。
4.根据权利要求3所述的方法,其中,所述多个积分图像包括八个积分图像,并且其中,所述多通道积分图像包括八通道积分图像。
5.根据权利要求1所述的方法,其中,所述二维滤波器内核包括对角线梯度滤波器内核或反对角线梯度滤波器内核的至少其中之一。
6.根据权利要求5所述的方法,其中,所述特征描述符包括特征向量,所述特征向量包括至少一个对角线梯度特征。
7.根据权利要求6所述的方法,其中,所述特征向量至少包括水平梯度值、垂直梯度值、主对角线梯度值和反对角线梯度值。
8.一种包括计算机程序产品的制品,所述计算机程序产品中存储有指令,所述指令如果被执行,则导致如下操作:
接收输入图像;
产生所述输入图像的多个梯度图像,其中,所述多个梯度图像至少包括使用二维滤波器内核创建的第一梯度图像;
响应于所述多个梯度图像而产生所述输入图像的特征描述符;以及
通过将提升级联分类器应用于所述特征描述符来对所述输入图像执行对象检测,其中,所述提升级联分类器包括多个逻辑回归基分类器。
9.根据权利要求8所述的制品,进一步包括指令,所述指令如果被执行,则导致如下操作:
产生多个积分图像,每一个积分图像都对应于所述多个梯度图像中的单独的一个梯度图像。
10.根据权利要求9所述的制品,其中,产生特征描述符包括:从所述多个积分图像产生多通道积分图像。
11.根据权利要求10所述的制品,其中,所述多个积分图像包括八个积分图像,并且其中,所述多通道积分图像包括八通道积分图像。
12.根据权利要求8所述的制品,其中,所述二维滤波器内核包括对角线梯度滤波器内核或反对角线梯度滤波器内核的至少其中之一。
13.根据权利要求12所述的制品,其中,所述特征描述符包括特征向量,所述特征向量包括至少一个对角线梯度特征。
14.根据权利要求13所述的制品,其中,所述特征向量至少包括水平梯度值、垂直梯度值、主对角线梯度值和反对角线梯度值。
15.一种装置,包括:
处理器,所述处理器被配置为:
接收输入图像;
产生所述输入图像的多个梯度图像,其中,所述多个梯度图像至少包括使用二维滤波器内核创建的第一梯度图像;
响应于所述多个梯度图像而产生所述输入图像的特征描述符;以及
通过将提升级联分类器应用于所述特征描述符来对所述输入图像执行对象检测,其中,所述提升级联分类器包括多个逻辑回归基分类器。
16.根据权利要求15所述的装置,其中,所述处理器用于:
产生多个积分图像,每一个积分图像都对应于所述多个梯度图像中的单独的一个梯度图像。
17.根据权利要求16所述的装置,其中,为了产生特征描述符,所述处理器从所述多个积分图像产生多通道积分图像。
18.根据权利要求17所述的装置,其中,所述多个积分图像包括八个积分图像,并且其中,所述多通道积分图像包括八通道积分图像。
19.根据权利要求15所述的装置,其中,所述二维滤波器内核包括对角线梯度滤波器内核或反对角线梯度滤波器内核的至少其中之一。
20.根据权利要求19所述的装置,其中,所述特征描述符包括特征向量,所述特征向量包括至少一个对角线梯度特征。
21.根据权利要求20所述的装置,其中,所述特征向量至少包括水平梯度值、垂直梯度值、主对角线梯度值和反对角线梯度值。
22.一种系统,包括:
成像设备;以及
计算机系统,其中,所述计算机系统通信地耦合到所述成像设备,并且其中,所述计算机系统用于:
从所述成像设备接收输入图像;
产生所述输入图像的多个梯度图像,其中,所述多个梯度图像至少包括使用二维滤波器内核创建的第一梯度图像;
响应于所述多个梯度图像而产生所述输入图像的特征描述符;以及
通过将提升级联分类器应用于所述特征描述符来对所述输入图像执行对象检测,其中,所述提升级联分类器包括多个逻辑回归基分类器。
23.根据权利要求22所述的系统,其中,所述计算机系统用于:
产生多个积分图像,每一个积分图像都对应于所述多个梯度图像中的单独的一个梯度图像。
24.根据权利要求23所述的系统,其中,为了产生特征描述符,所述计算机系统从所述多个积分图像产生多通道积分图像。
25.根据权利要求24所述的系统,其中,所述多个积分图像包括八个积分图像,并且其中,所述多通道积分图像包括八通道积分图像。
26.根据权利要求22所述的系统,其中,所述二维滤波器内核包括对角线梯度滤波器内核或反对角线梯度滤波器内核的至少其中之一。
27.根据权利要求26所述的系统,其中,所述特征描述符包括特征向量,所述特征向量包括至少一个对角线梯度特征。
28.根据权利要求27所述的系统,其中,所述特征向量至少包括水平梯度值、垂直梯度值、主对角线梯度值和反对角线梯度值。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2011/081642 WO2013063765A1 (en) | 2011-11-01 | 2011-11-01 | Object detection using extended surf features |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104025118A true CN104025118A (zh) | 2014-09-03 |
CN104025118B CN104025118B (zh) | 2017-11-07 |
Family
ID=48191196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180074623.8A Expired - Fee Related CN104025118B (zh) | 2011-11-01 | 2011-11-01 | 使用扩展surf特征的对象检测 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20130272575A1 (zh) |
EP (1) | EP2774080A4 (zh) |
CN (1) | CN104025118B (zh) |
WO (1) | WO2013063765A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017197620A1 (en) * | 2016-05-19 | 2017-11-23 | Intel Corporation | Detection of humans in images using depth information |
US11164327B2 (en) | 2016-06-02 | 2021-11-02 | Intel Corporation | Estimation of human orientation in images using depth information from a depth camera |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853389A (zh) * | 2009-04-01 | 2010-10-06 | 索尼株式会社 | 多类目标的检测装置及检测方法 |
US20110264530A1 (en) | 2010-04-23 | 2011-10-27 | Bryan Santangelo | Apparatus and methods for dynamic secondary content and data insertion and delivery |
US9398297B2 (en) | 2013-11-04 | 2016-07-19 | Intel Corporation | Integral image coding |
KR101531038B1 (ko) * | 2013-12-05 | 2015-06-23 | 전자부품연구원 | Surf 하드웨어 장치 및 적분 이미지 메모리 관리 방법 |
WO2015154305A1 (en) * | 2014-04-11 | 2015-10-15 | Intel Corporation | Object detection using directional filtering |
US9589175B1 (en) | 2014-09-30 | 2017-03-07 | Amazon Technologies, Inc. | Analyzing integral images with respect to Haar features |
US9697443B2 (en) | 2014-12-11 | 2017-07-04 | Intel Corporation | Model compression in binary coded image based object detection |
CN104700099B (zh) * | 2015-03-31 | 2017-08-11 | 百度在线网络技术(北京)有限公司 | 识别交通标志的方法和装置 |
US10180782B2 (en) * | 2015-08-20 | 2019-01-15 | Intel Corporation | Fast image object detector |
RU2608239C1 (ru) * | 2016-04-12 | 2017-01-17 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способ и система определения пригодности изображения документа для оптического распознавания символов и других операций по обработке изображений |
US10586023B2 (en) | 2016-04-21 | 2020-03-10 | Time Warner Cable Enterprises Llc | Methods and apparatus for secondary content management and fraud prevention |
CN108229520B (zh) * | 2017-02-21 | 2020-11-10 | 北京市商汤科技开发有限公司 | 从图片中检测物体的方法和装置 |
US11720621B2 (en) * | 2019-03-18 | 2023-08-08 | Apple Inc. | Systems and methods for naming objects based on object content |
US11403849B2 (en) * | 2019-09-25 | 2022-08-02 | Charter Communications Operating, Llc | Methods and apparatus for characterization of digital content |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070237387A1 (en) * | 2006-04-11 | 2007-10-11 | Shmuel Avidan | Method for detecting humans in images |
US7676068B2 (en) * | 2006-09-18 | 2010-03-09 | Miguel Angel Cervantes | Biometric authentication |
CN101894262B (zh) * | 2009-05-20 | 2014-07-09 | 索尼株式会社 | 对图像进行分类的方法和设备 |
CN102142078B (zh) * | 2010-02-03 | 2012-12-12 | 中国科学院自动化研究所 | 基于部件结构模型的目标检测与识别方法 |
-
2011
- 2011-11-01 US US13/977,137 patent/US20130272575A1/en not_active Abandoned
- 2011-11-01 EP EP11875120.5A patent/EP2774080A4/en not_active Withdrawn
- 2011-11-01 CN CN201180074623.8A patent/CN104025118B/zh not_active Expired - Fee Related
- 2011-11-01 WO PCT/CN2011/081642 patent/WO2013063765A1/en active Application Filing
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017197620A1 (en) * | 2016-05-19 | 2017-11-23 | Intel Corporation | Detection of humans in images using depth information |
US10740912B2 (en) | 2016-05-19 | 2020-08-11 | Intel Corporation | Detection of humans in images using depth information |
US11164327B2 (en) | 2016-06-02 | 2021-11-02 | Intel Corporation | Estimation of human orientation in images using depth information from a depth camera |
Also Published As
Publication number | Publication date |
---|---|
EP2774080A4 (en) | 2015-07-29 |
WO2013063765A1 (en) | 2013-05-10 |
CN104025118B (zh) | 2017-11-07 |
US20130272575A1 (en) | 2013-10-17 |
EP2774080A1 (en) | 2014-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104025118A (zh) | 使用扩展surf特征的对象检测 | |
Hu et al. | SINet: A scale-insensitive convolutional neural network for fast vehicle detection | |
US20240013506A1 (en) | Joint training of neural networks using multi-scale hard example mining | |
US9025865B2 (en) | Methods and systems for reducing memory footprints associated with classifiers | |
US8792722B2 (en) | Hand gesture detection | |
US8750573B2 (en) | Hand gesture detection | |
US20180336683A1 (en) | Multi-Label Semantic Boundary Detection System | |
CN104424480B (zh) | 面部识别 | |
CN110502982B (zh) | 一种检测高速公路中障碍物的方法、装置及计算机设备 | |
US10262229B1 (en) | Wide-area salient object detection architecture for low power hardware platforms | |
Türkyılmaz et al. | License plate recognition system using artificial neural networks | |
WO2021151277A1 (zh) | 目标物损伤程度判定方法、装置、电子设备及存储介质 | |
JP5936561B2 (ja) | 画像における外観及びコンテキストに基づく物体分類 | |
CN106203454A (zh) | 证件版式分析的方法及装置 | |
US11636608B2 (en) | Artificial intelligence using convolutional neural network with Hough transform | |
AG | Development of portable automatic number plate recognition (ANPR) system on Raspberry Pi | |
CN109344801A (zh) | 一种物体检测方法及装置 | |
CN110766007A (zh) | 证件遮挡检测方法、装置、设备及可读存储介质 | |
Awang et al. | Vehicle counting system based on vehicle type classification using deep learning method | |
CN112541394A (zh) | 黑眼圈及鼻炎识别方法、系统及计算机介质 | |
US10268881B2 (en) | Pattern classifying apparatus, information processing apparatus, pattern classifying method, and non-transitory computer readable storage medium | |
JP5201184B2 (ja) | 画像処理装置及びプログラム | |
CN113255555A (zh) | 中国交通标志牌识别方法、系统、处理设备及存储介质 | |
CN103136536A (zh) | 对象检测系统和方法、图像的特征提取方法 | |
Touati et al. | Partly uncoupled siamese model for change detection from heterogeneous remote sensing imagery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171107 Termination date: 20191101 |