CN106575364A - 使用定向滤波的目标检测 - Google Patents

使用定向滤波的目标检测 Download PDF

Info

Publication number
CN106575364A
CN106575364A CN201480077031.5A CN201480077031A CN106575364A CN 106575364 A CN106575364 A CN 106575364A CN 201480077031 A CN201480077031 A CN 201480077031A CN 106575364 A CN106575364 A CN 106575364A
Authority
CN
China
Prior art keywords
neighbor
pixel
weight
independent pixel
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480077031.5A
Other languages
English (en)
Inventor
J·李
K·陈
Y-J·邱
C·王
Y-t·彭
B·R·王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN106575364A publication Critical patent/CN106575364A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

讨论了涉及使用定向滤波进行目标检测的技术。这类技术可以包括:确定输入图像的像素的定向加权平均值;基于所述定向加权平均值生成所述输入图像的特征表示;以及通过向所述特征表示应用多级级联分类器来执行目标检测。

Description

使用定向滤波的目标检测
背景技术
目标检测可以用于确定在图像中某个目标(如人脸、人体、汽车或类似物)是否出现和/或出现于何处。例如,人脸检测可以用在人机交互、相册管理、生物测定、视频监视、相机成像的自动聚焦、图像或视频搜索和检索等中。
已经提出了若干种目标检测(例如,人脸检测)解决方案,包括可以使用类哈尔(Haar-like)特征和决策树弱分类器方案的Viola-Jones框架以及可以使用类SURF特征和级联分类器方案的类SURF(SURF-like)特征级联技术。尽管类SURF技术可能已经在Viola-Jones框架上被改进了,实现方式可能并不适用于实时处理较高分辨率图像,如高清晰度(HD)、全HD(例如,1080p)或使用本领域计算系统的状态的4K分辨率(例如,具有近似4000个像素的水平分辨率的内容)。此外,这种实现方式在检测过程中可能要求存储器的较大部分(例如,高达输入图像尺寸的32倍)。因此,实现方式可能并不适用于移动设备或深度嵌入式设备等。
由此,现有技术并不提供用于实时处理较高分辨率图像的目标检测和/或针对移动设备或深度嵌入式设备的解决方案。这种问题可能随着目标检测变得更加普遍而变得关键。
附图说明
在附图中通过举例而非限制的方式展示了在此所描述的材料。为了展示的简单和清楚,图中所展示的元件不一定按比例绘制。例如,为清楚起见,某些元件的尺寸相对于其他元件可能被放大了。此外,在认为适当的情况下,在附图之间对参考标记加以重复以表示相应的或相似的元件。在附图中:
图1是用于提供目标检测的示例系统的原理图;
图2A、2B、2C、2D和2E展示了在围绕单独像素的示例图案中的相邻像素;
图3A、3B、3C和3D展示了针对单独像素的相邻像素的示例权重;
图4展示了针对使用类哈尔特征的特征表示的示例区域;
图5展示了用于生成示例特征表示的示例系统的一部分;
图6展示了示例多级级联分类器;
图7展示了示例输入图像和示例候选区域;
图8是展示了用于目标检测的示例过程的流程图;
图9是展示了用于目标检测的示例过程的流程图;
图10是示例系统的原理图;
图11是示例系统的原理图;以及
图12展示了全部根据本公开的至少一些实现方式安排的示例设备。
具体实施方式
现在参照附图描述一个或多个实施例或实现方式。虽然对特定配置和安排进行了论述,但应理解,这仅出于说明目的来进行。相关领域中的技术人员将认识到,在不背离本说明的精神和范围的情况下可以采用其他配置和安排。将对相关领域的技术人员明显的是,在此描述的技术和/或安排还可以在除了在此描述的系统和应用之外的各种各样的其他系统和应用中被采用。
虽然以下描述阐述可以例如在如片上系统(SoC)架构的架构中显现各实现方式,在此描述的技术和/或安排的实现方式不局限于具体的架构和/或计算系统并且出于类似目的可以由任何架构和/或计算系统实现。例如,采用例如多个集成电路(IC)芯片和/或封装体、和/或各种计算设备和/或消费电子产品(CE)设备(如机顶盒、智能电话等)的各架构可以实现在此描述的技术和/或安排。此外,虽然以下描述可以陈述许多特定的细节(如逻辑实现、系统部件的类型和内在关系、逻辑划分/集成选择等),要求保护的主题可以在没有这些特定细节的情况下被实践。在其他情形下,可以不详细示出某些材料(如,例如,控制结构和完整的软件指令序列),以便不模糊在此公开的材料。
在此公开的材料可以在硬件、固件、软件、或其任意组合中实现。在此公开的材料还可以被实现为存储于机器可读介质上的指令,这些指令可以被一个或多个处理器读取或执行。机器可读介质可以包括用于存储或传输具有由机器(例如,计算设备)可读的形式的信息的任何介质和/或机制。例如,机器可读介质可以包括只读存储器(ROM);随机存取存储器(RAM);磁盘存储介质;光存储介质;闪存器;电、光、声或其他形式的传播信号(例如,载波、红外信号、数字信号等)等等。
说明书中提到“一种实现方式(one implementation)”、“实现方式(animplementation)”、“示例实现方式(an example implementation)”等表明所描述的实施例实现方式可以包括具体特征、结构、或特性,但每个实施例可能不一定包括这个具体特征、结构、或特性。此外,这些短语不一定指同一实现方式。另外,当结合实施例描述特定的特征、结构或特性时,应理解,结合无论在此是否明确地描述的其他实现方式来实施这种特征、结构或特性在本领域技术人员的认知范围内。
在此描述的方法、设备、装置、计算平台和制品涉及使用定向滤波的目标检测。
如上所述,提供实时的和/或较高分辨率图像的目标检测(例如,人脸检测)可能是有利的。此外,在具有有限存储器资源的实现方式(如移动设备或深度嵌入式设备(例如,在如眼镜或手表的可穿戴式设备上或在机器人系统中)上等)中提供这种目标检测可能是有利的。这种目标检测、图像信号处理或视觉分析可以提供增加的用户体验。
在一些实施例中,目标检测可以包括基于输入图像的单独像素(例如,输入图像的部分或全部像素)中的每个单独像素的相邻像素的像素值以及与所述相邻像素中的每个相邻像素相对于所述单独像素的位置相关联的权重来确定所述单独像素的定向加权平均值(例如,提供定向加权滤波)。例如,像素的定向加权平均值可以是基于与所述像素相邻的(例如,在窗口或像素邻域内的)多个像素的像素值的加权平均值确定的。这种技术可以应用于输入图像的单独像素以生成定向加权平均值。可以基于定向加权平均值确定输入图像的特征表示。在各实施例中,特征表示可以包括二进制编码图像、类哈尔特征或类SURF特征。为了针对输入图像的像素生成包括二进制编码图像的特征表示,与所述像素相邻的像素(例如,用于生成所述像素的定向加权平均值的邻居)的像素值可以各自与所述像素的定向加权平均值进行比较并且值1或0可以基于所述比较被分配给每个相邻像素。例如,如果相邻像素值大于像素的定向加权平均值则可以分配值1,否则可以分配0。然后可以基于分配值(例如,通过按顺序安排多个分配的1或0)确定像素的二进制编码表示。
在一些示例中,可以基于特征表示(例如,类哈尔、类SURF或二进制编码图像)利用多级级联分类器执行目标检测。例如,可以在多级处对输入图像的区域(例如,扫描窗口)进行评估,从而使得如果区域未通过任意级则将其拒绝并且如果其通过所有级就将其保留(例如,所述区域的位置的尺寸被保留)作为用于包含目标的候选区域。多级分类器可以应用于输入图像的许多区域,并且可以对输入图像的多个缩放的图像进行评估以定位(多个)候选区域。
在各实施例中,多级级联分类器可以包括在其中将基于特征表示确定的弱分类器与预先确定的阈值进行比较的级。例如,弱分类器可以被相加并且与预先确定的阈值进行比较。如讨论的,如果区域未通过任一级则可以将其拒绝并且如果其通过一级则可以将其传送至下一级以用于评估。如果区域通过所有级则将其保留作为候选区域。例如,弱分类器可以包括基于逻辑回归的分类器或者经由查找表等实现的贝叶斯分类器。在实施例中,应用级包括针对区域中的目标位置确定目标位置包括目标特征的概率与目标位置不包括目标特征的概率之间的多个差。这些差然后可以被求和并且与阈值进行比较以确定所述区域是否通过或未通过所述级。随后的级可以包括例如更多的目标位置、不同的目标位置或更严格的阈值等。
图1是根据本公开的至少一些实现方式安排的用于提供目标检测的示例系统100的原理图。如图1所示,系统100可以包括定向加权平均值模块102、特征表示模块104和多级级联分类器模块106。还如所示,定向加权平均值模块102可以接收输入图像101。输入图像101可以包括任何合适的图像或图像文件,如,例如,实时图像、解码的图像、采集的图像(例如,经由相机等)、渲染的图像、来自视频图像或帧的序列的图像、从存储器检索的图像等。在一些示例中,输入图像可以是视频图形阵列(VGA)、高清晰度(HD)、全HD(例如,1080p)、或4K分辨率图像或视频帧。在实施例中,输入图像101是原始图像。在一些示例中,输入图像101可以是彩色图像。在实施例中,输入图像101是灰度级图像。如在此进一步讨论的,在一些示例中,输入图像101可以是基于输入图像或目标图像的尺寸调整的(例如,缩放的)图像,从而使得可以针对用于检测目标候选区域的输入图像的各缩放的图像重复关于系统100讨论的这些操作。
如所示,定向加权平均值模块102可以接收输入图像101以基于输入图像101生成定向加权平均值(DWA)103。例如,定向加权平均值模块102可以针对输入图像101的单独像素基于单独像素中的每个单独像素的相邻像素值中的像素值以及与所述相邻像素值相对于所述单独像素的位置相关联的权重确定定向加权平均值103。例如,相邻像素可以是在围绕单独像素中的每个单独像素的图案中的相邻像素。如在此进一步讨论的,可以针对单独像素确定相邻像素值基于其权重的加权平均值并且针对输入图像101的部分或所有像素的这种定向加权平均值可以确定定向加权平均值103。
图2A、2B、2C、2D和2E展示了根据本公开的至少一些实现方式安排的在围绕单独像素201的示例图案中的相邻像素。
如图2A中所示,相邻像素202(由圆圈所示)可以在围绕单独像素201(由X所示)的窗口204内的示例图案203中。如所示,图案203可以包括安排在角落处并且沿着5×5像素窗口204的边缘集中的相邻像素202(在图2A-2E中为了清楚呈现仅标注部分相邻像素),并且图案203可以包括单独像素201的8个相邻像素202。例如,在图案203中,每个相邻像素202在其自身与(例如,水平地、竖直地或对角地定向的)单独像素201之间具有1个像素。在另一个示例(未示出)中,窗口204可以是7×7的像素,并且相邻像素202可以被安排在角落处并且沿7×7的窗口的边缘集中,并且每个相邻像素202在其自身与(例如,水平地、竖直地或对角地定向的)单独像素之间具有2个像素。
如图2B所示,相邻像素202可以在围绕单独像素201的窗口204内的示例图案205中。如所示,图案205可以包括紧绕单独像素201安排的并且在3×3的像素窗口204内的相邻像素202。此外,如所示,图案205可以包括单独像素201的8个相邻像素202。在另一个示例(未示出)中,窗口204可以是5×5的像素,相邻像素202可以双层地紧绕单独像素201安排(一层紧绕单独像素201而第二层紧绕第一层),并且图案可以包括24个相邻像素。
如图2C所示,相邻像素202可以在围绕单独像素201的窗口204内的示例图案206中。如所示,图案206可以包括在5×5的像素窗口204内围绕单独像素201以棱形图案安排的相邻像素202。此外,图案206可以包括单独像素201的8个相邻像素202。例如,如所示的,棱形图案可以在沿窗口204的上边缘、侧边缘和底边缘集中的四个相邻像素202之间扩展。在另一个示例(未示出)中,窗口204可以是7×7的像素并且相邻像素202可以被安排在围绕单独像素201在沿着窗口204的上边缘、侧边缘和底边缘集中的四个相邻像素之间扩展的棱形图案中,从而使得所述棱形图案可以包括12个相邻像素。在又另一个示例(未示出)中,窗口204可以是3×3的像素并且相邻像素202可以被安排在围绕单独像素201包括4个相邻像素的棱形图案中:每个相邻像素各自紧挨着单独像素201的上、下、左和右。
如图2D所示,相邻像素202可以在围绕单独像素201的窗口204内的示例图案207中。如所示,图案207可以包括安排在围绕单独像素201的4个像素的棱形图案中的以及在5×5像素窗口204的角落处的相邻像素202,从而使得图案207可以包括单独像素201的8个相邻像素202。例如,棱形图案可以围绕单独像素201并且可以包括紧挨着单独像素201的上、下、左和右的4个相邻像素。在另一个示例(未示出)中,窗口204可以是7×7的像素并且相邻像素202可以被安排在围绕单独像素201与图2C的图案类似的棱形图案中,并且其中,相邻像素208在7×7的窗口的角落处从而使得图案包括12个相邻像素208。
如图2E所示,相邻像素202可以在围绕单独像素201的窗口204内的示例图案208中。如所示,图案208可以包括安排在围绕单独像素201的选择性或启发式确定的图案中的8个相邻像素202。如所示,相邻像素202可以直接在单独像素201的右边,直接在单独像素201的下方、在单独像素201的左下、在窗口211的右上角处、在窗口211的右下角处、沿着窗口211的底边集中、在窗口211的左上角的右边以及在窗口211的左上角以下。在其他示例中,相邻像素202可以被安排在任何选择性或启发式确定的具有任意数量的相邻像素202的图案中。
如所示,在一些示例中,相邻像素可以包括8个相邻像素,然而,在此讨论的实施例并不受到这样的限制。可以使用任意数量(如4、8、12)的相邻像素或在范围4至12中的任意数量的像素或者更多的相邻像素。此外,相邻像素可以在任意尺寸的窗口中,如3×3像素、5×5像素或7×7像素等。此外,所展示和所讨论的窗口是正方形的,但是可以使用其他形状,如长方形形状。
如讨论的,定向加权平均值模块102(请参见图1)可以针对输入图像101的单独像素基于单独像素中的每个单独像素的相邻像素的像素值以及与所述相邻像素值相对于所述单独像素的位置相关联的权重确定定向加权平均值103。图2A-2E展示了示例相邻像素图案并且所展示的相邻像素可以具有基于输入图像101的灰度级值、输入图像101的亮度值等的像素值。针对相邻像素202,可以使用任何合适的权重。
图3A、3B、3C和3D展示了单独像素201的根据本公开的至少一些实现方式安排的相邻像素的示例权重。
如图3A所示,单独像素权重值301和相邻像素权重值302可以被安排在窗口204的图案203(如之前在图2A中展示的)中。如所示,单独像素权重值301和相邻像素权重值302(在图3A-3D中为了清楚呈现仅标注部分相邻像素)可以包括针对图案203中的单独像素和每个相邻像素的权重。在所展示的实施例中,单独像素权重值301是4,角落相邻像素权重值302是1而沿5×5像素窗口204的边缘集中的相邻像素权重值302是2。在各示例中,单独像素权重值301和相邻像素权重值302可以包括任何合适的权重值,这些加权值提供例如局部纹理改进、抗噪性和/或针对输入图像101的滤波。例如,单独像素权重值301和相邻像素权重值302可以在约0至2的范围中、在约0至4的范围中、在约1至4的范围中或者在约1至8的范围中等等。
如图3B所示,单独像素权重值303和相邻像素权重值304可以被安排在窗口204的图案203(如之前在图2A中展示的)中。如所示,单独像素权重值303和相邻像素权重值304可以包括针对图案203中的单独像素和每个相邻像素的权重。在所展示的实施例中,单独像素权重值303为0(例如,单独像素201不用于确定定向加权平均值),而角落相邻像素权重值302以及沿5×5像素窗口204的边缘集中的相邻像素权重值302为1。在图3B的示例中,图案203的相邻像素可以全部被相等地加权。
如图3C所示,单独像素权重值305和相邻像素权重值306可以被安排在窗口204的图案206(如之前在图2C中展示的)中。如所示,单独像素权重值305和相邻像素权重值306可以包括针对图案206中的单独像素和每个相邻像素的权重。在所展示的实施例中,单独像素权重值305为0(例如,单独像素201不用于确定定向加权平均值),而相邻像素权重值306全部为1。在图3C的示例中,相邻像素可以全部被相等地加权。在其他示例中,相邻像素权重值306可以包括不同的加权值。在一些示例中,在窗口204的边缘的中心(例如,棱形形状206的顶点)处的权重值可以具有比其余相邻像素权重值306更大的值。在其他示例中,在窗口204的边缘的中心(例如,棱形形状206的顶点)处的权重值可以具有比其余相邻像素权重值306更小的值。例如,相邻像素权重值306可以在约0至2的范围中、在约0至4的范围中、在约1至4的范围中或者在约1至8的范围中等等。
如图3D所示,单独像素权重值307和相邻像素权重值308可以被安排在窗口204的图案207(如之前在图2D中展示的)中。如所示,单独像素权重值307和相邻像素权重值308可以包括针对图案207中的单独像素和每个相邻像素的权重。在所展示的实施例中,单独像素权重值307为0(例如,单独像素201不用于确定定向加权平均值),角落相邻像素权重值308为1,而安排在围绕单独像素的棱形中(例如,在单独像素的上、下、右和左)的相邻像素权重值308为2。在各示例中,单独像素权重值307和相邻像素权重值308可以包括任何合适的权重值,这些加权值提供局部纹理改进、抗噪性和/或针对输入图像101的滤波。例如,单独像素权重值307和相邻像素权重值308可以在约0至2的范围中、在约0至4的范围中、在约1至4的范围中或者在约1至8的范围中等等。
类似地,可以针对在此讨论的其他图案确定权重值。在这种示例中,单独像素权重值和相邻像素权重值可以包括任何合适的权重值,这些加权值提供例如局部纹理改进、抗噪性和/或针对输入图像101的滤波。例如,单独像素权重值和相邻像素权重值可以在约0至2的范围中、在约0至4的范围中、在约1至4的范围中或者在约1至8的范围中等等。在一些实施例中,权重值可以被预先确定或启发式地确定等等。
如讨论的,图案(例如,关于图2A-2E)以及权重(例如,关于图3A-3D)可以用于确定针对输入图像的像素的自适应加权平均值。在一些示例中,实现的图案和权重可以被预先定义或被预先选择以供实现。在一些示例中,实现的图案和权重可以基于输入图像被自适应地选择。例如,可以针对不同的条件(例如,低照明条件、良好照明条件、高或低对比等)评估输入图像101并且可以基于所述评估确定图案和/或权重。例如,具有良好照明条件的输入图像针对确定的自适应加权平均值可以实现具有较大邻域和/或更多相邻像素的图案,而具有低照明条件的输入图像针对确定的自适应加权平均值可以实现具有较小邻域和/或较少相邻像素的图案。此外,这种图案和/或权重的自适应可以在输入图像101内(例如,在输入图像101的一部分或一片等等上)实现。
基于所讨论的单独像素值,相邻像素值、单独像素权重值和/或相邻像素权重值,定向加权平均值模块102(请参见图1)可以确定针对单独像素的定向加权平均值。例如,定向加权平均值可以是至少基于单独像素的相邻像素的像素值以及与相邻像素中的每个相邻像素相对于单独像素的位置相关联的权重(如已讨论的)。在实施例中,定向加权平均值被生成为相邻像素的像素值中的每个像素值与所述相关联的第一多个权重中的每个第一权重乘积之和除以所述第一多个权重之和。例如,定向加权平均值可以被确定为如表达式(1)所示:
其中,xa可以是单独像素的定向加权平均值,x0可以是单独像素值(例如,灰度值),x1、x2、……、x8可以是相邻像素的像素值(例如,灰度值),w0可以是单独像素值权重,而w1、w2、……、w8可以是相邻像素值权重。例如,单独像素值权重和相邻像素值权重可以如所讨论的被预先确定。例如,相邻像素值权重可以基于其相对于单独像素的位置被预先确定。这种定向加权平均值可以提供输入图像的定向加权滤波以用于目标检测。例如,图案203和权重301、302可以提供低通滤波。
以此方式,定向加权平均值模块102可以确定输入图像101的像素的定向加权平均值103。在一些示例中,定向加权平均值模块102可以确定输入图像101的所有像素的定向加权平均值103。在一些示例中,定向加权平均值模块102可以确定输入图像101的部分或大多数像素的定向加权平均值103。例如,输入图像101的边界或边缘像素可以不具有用于计算定向加权平均值的某些邻居(例如,沿着输入图像101的上边缘的边界像素可以不具有在其之上的邻居。)。这种边界或边缘像素可以被丢弃、保留不变(例如,没有加权平均值可以被采用且像素值可以被使用),或者变更的图案可以用于确定边缘或边界像素的定向加权平均值。
继续图1,定向加权平均值103可以被传输特征表示模块104。特征表示模块104可以基于定向加权平均值103生成输入图像101的特征表示(FR)105。例如,特征表示模块104可以基于定向加权平均值103和/或输入图像101从输入图像101提取特征(例如,用于目标检测的相关信息)。
在实施例中,特征表示105可以包括基于定向加权平均值103的类哈尔特征表示。例如,类哈尔特征可以包括在输入图像101的不同区域内的像素的定向加权平均值103之和的差等等。
图4展示根据本公开的至少一些实现方式安排的使用类哈尔特征的特征表示的示例区域401、402。如图4所示,可以基于区域401和区域402评估类哈尔特征图案400。例如,可以针对区域401对定向加权平均值103进行求和以确定区域401定向加权平均值之和,并且可以针对区域402对定向加权平均值103进行求和以确定区域402定向加权平均值之和。区域401定向加权平均值之和与区域402定向加权平均值之和可以是不同的以确定类哈尔特征。如在此进一步讨论的,可以基于类哈尔特征图案400(以及包括2个或更多个长方形的类似图案)评估输入图像101的各区域(例如,图7的扫描窗口702)以确定(多个)弱分类器。可以基于Boosted级联结构(Boosted Cascade Structure)来评估弱分类器以确定候选目标识别区域。在实施例中,可以基于用于在评估类哈尔特征或特征图案中使用的定向加权平均值103生成一张或多张完整图像。
在另一个实施例中,特征表示105可以包括类似于加速鲁棒性特征的类SURF特征。例如,(多个)类SURF特征可以包括水平梯度、竖直梯度、水平和/或竖直梯度的绝对值、对角梯度、反对角梯度、和/或对角梯度和/或反对角梯度的绝对值。可以基于定向加权平均值103确定输入图像的单独像素的这些值。例如,定向加权平均值103可以用于基于梯度滤波器或梯度滤波器内核等确定所讨论的梯度。如在此进一步讨论的,梯度可以用于确定(多个)弱分类器。可以基于Boosted级联结构来评估弱分类器以确定候选目标识别区域。例如,Boosted级联结构可以包括基于逻辑回归的分类器。针对与类SURF特征相关联的附加信息一级针对类SURF特征的Boosted级联结构,请参考于2011年11月1日作为PCT/CN2011/081642提交并且题为“Object Detection Using Extended SURF Features(使用扩展SURF特征的目标检测)”的美国专利申请号13/977,137(美国专利公开号US 2013/0272575 A1)。
在另一个实施例中,特征表示105可以包括基于定向加权平均值103以及多个相邻像素(例如,如已讨论的相邻像素202)的像素值的二进制编码图像。例如,生成二进制编码图像可以包括基于相邻像素的每个像素值与单独像素的定向加权平均值的比较为单独像素的每个相邻像素分配值0或1以及基于分配值(例如,分配的多个0或多个1)确定单独像素的二进制编码表示。在实施例中,如果相邻像素的像素值大于单独像素的定向加权平均值则将值1分配给每个相邻像素,并且否则分配值0。在实施例中,如以下进一步讨论的,基于在左上相邻像素处开始并且以顺时针方式继续贯穿相邻像素来将分配值安排成序。生成二进制编码图像可能不要求确定(多个)完整的图像,这可以提供较不密集的计算和存储器要求。
图5展示了用于生成根据本公开的至少一些实现方式安排的示例特征表示105的示例系统100的一部分。如图5所示,定向加权平均值模块102可以接收输入图像101的一部分501(或者确定或生成基于接收的输入图像101的一部分501等)。例如,输入图像101的一部分501可以包括单独像素值502(例如,值90)以及相邻像素值503(例如,在图5中的值10、20、30、40、50、60、70和80,出于清楚的目的仅标注了几个相邻像素值503)。定向加权平均值模块102还可以接收(或确定等)加权图案504,所述加权图案504可以包括在窗口507内的单独像素权重值505和相邻像素权重值506(在图5中,出于清楚的目的仅标注了几个相邻像素权重值506)。在图5的示例中,如在此关于图3C讨论的,加权图案504对应于权重305、306的图案206,然而,在此讨论的实施例不被这样限制。
如在此讨论的,定向加权平均值模块102可以基于单独像素值502与相邻像素值503的加权平均以及基于单独像素权重值505和相邻像素权重值506确定单独像素的定向加权平均值508。基于所展示的示例,单独像素的定向加权平均值508为45(例如,请参考表达式(1))。
在实施例中,特征确定模块104可以如下确定特征表示105。如所示,特征确定模块104可以针对相邻像素值503应用阈值509以生成分配值510(在图5中,出于清楚的目的仅标注了几个分配值510)。例如,阈值508可以是单独像素的定向加权平均值(例如,TH=45)。在实施例中,特征确定模块104可以基于每个相邻像素值503与单独像素的定向加权平均值508的比较为单独像素的每个相邻像素分配值0或1以生成分配值510。例如,如果相邻像素值大于定向加权值508,则可以分配值1,并且否则可以分配值0。例如,相邻像素值503可以与定向加权平均值508相比较从而使得如果xi>xa则分配1,否则分配0,其中,xi可以是相邻像素值503(例如,x1、x2、……、x8)而xa可以是定向加权平均值508(例如,阈值)。
如所示,特征确定模块104可以基于方向511安排分配值510。在所展示的示例中,特征确定模块104可以以顺时针方式从最左上的分配值510a处开始(例如,从左上位置处开始并且右移直到到达最左上的分配值510a)并且继续直到到达最后的分配值510b来安排分配值510。在实施例中,特征确定模块104可以以顺时针方式从最左上的分配值处开始、完成外部的分配值并且向内继续直到到达最后的分配值来安排分配值510(参见例如图2D和图2E,其中,在从5×5边缘向内行进至3×3边缘等等之前可以完成所展示的窗口的边缘分配值)。在所展示的示例中,特征确定模块104可以从沿着分配值510(例如,值为0的分配值510a)的窗口的上边缘集中的相邻像素处开始并且以顺时针方式继续以生成二进制编码表示512。同样如所示,与二进制编码表示512相关联的十进制编码513可以可选地由特征确定模块510a通过将二进制编码表示512转换成十进制编码(例如,二进制00001111等于十进制15)生成。如讨论的,在一些示例中,二进制编码表示512可以包括基于相邻像素的数量的8位。二进制编码表示512可以根据评估的相邻像素的数量包括任意数量(如4、8、12)的位、在范围4-12中的任意数量的位或者更多。
如图5所示,特征确定模块104可以将二进制编码表示512和十进制编码513一者或两者都传送至多级分类器模块106(请参考图1)。如针对与输入图像101相关联的像素中的部分、多数或全部所描述的,特征确定模块104可以确定二进制编码表示和/或十进制编码。例如,定向加权平均值模块102和特征确定模块104可以扫描或循环遍历输入图像101以用二进制编码表示和/或十进制编码对像素进行编码从而生成特征表示105。在这种实施例中,特征表示105可以被描述为二进制编码图像并且可以被用作输入图像101的特征表示。这种实施例关于类哈尔特征和/或类SURF特征可能是有利的,因为不需要(多个)完整的图像。
图6展示了根据本公开的至少一些实现方式安排的示例多级级联分类器102。多级级联分类器102可以通过将多级级联分类器应用于特征表示105来对输入图像101执行目标检测。如所示,多级级联分类器106可以包括多级600,如第一级601、第二级602和第N级603。此外,多级级联分类器106可以包括针对丢弃的扫描窗口(例如,未通过多级600的一个级的扫描窗口)的被拒窗口模块604。多级600可以包括用于针对图像的区域评估分配器以确定候选区域的任何合适数量的级。在实施例中,多级600包括4至12个级。例如,级的数量可以是基于用于建立级的训练集的大小和数量确定的。如图6所示,特征表示105或特征表示105的一部分可以被提供给多级级联分类器102以用于评估。
例如,图7展示了根据本公开的至少一些实现方式安排的示例输入图像101和示例目标检测候选区域706(例如,通过的扫描窗口)。如所示,可以在输入图像101内建立扫描窗口702。扫描窗口702可以横向(例如,在方向703上)以及纵向扫描输入图像101,从而使得可以在扫描窗口702内评估特征表示105的特征。例如,尽管本文的实施例不限于特定的扫描模式,扫描窗口702可以从输入图像101的左上从左至右、返回至左侧并向下且横穿以此类推来进行扫描。在实施例中,扫描窗口702可以被评估并且然后可以移动一个像素或两个像素等来进行下一次评估,以此类推,从而使得可以针对输入图像101执行多次评估。例如,扫描窗口702可以具有任意的尺寸,如32×32像素。
返回至图6,扫描窗口702可以在第一级601处被评估。如果扫描窗口702通过第一级601(由“P”指示),则它将被传送至第二级602。如果扫描窗口702通过第二级602,则它将被传递至第三级,以此类推。如果扫描窗口702通过多级600的所有级(例如,通过第N级603),则它可以被保存或被保留作为候选区域706(例如,候选区域706可以被存储在存储器中、被显示于用户、被传送用于进一步处理等等)。如所示,如果扫描窗口702未通过多级600的任何一级,则可以由被拒窗口模块604将其丢弃(例如,由于不可能包含兴趣目标(如,脸部)而被丢弃)。例如,参考图7,候选区域706可以是与图像特征704(例如,人脸)相关联的通过的扫描窗口。图7还展示图像特征705(例如,人脸)。在一些示例中,图像特征705可以不经由扫描窗口702被检测,但是可以在随后重新调整输入图像尺寸的过程中被检测(例如,输入特征705在当前缩放比例处可能太小而不能被扫描窗口检测,但是可以在不同的缩放因子处被检测到)。
如所讨论的,特征表示105可以包括例如基于加权定向平均值的类哈尔特征、基于加权定向平均值的类SURF特征、基于加权定向平均值的二进制编码表示等。在特征表示105包括基于加权定向平均值的类哈尔特征的示例中,多级600可以包括类哈尔特征(例如,在扫描窗口702的不同区域内的像素的定向加权平均值之和的差;请参考图4)与预先确定的或预先训练的阈值等的比较。在实施例中,多级600的每一级可以评估不同的类哈尔特征(例如,具有不同配置的不同的长方形部分),以寻求去标识目标的特性(例如,脸上的眼镜、鼻子等)。
在特征表示105包括基于加权定向平均值的类SURF特征的示例中,多级600可以包括使用基于分类器的逻辑回归级联的Boosted分类器。例如,每一级可以与扫描窗口702的不同区域相关联并且可以评估定义(多个)弱分类器(例如,所讨论的梯度)指示目标(例如,人脸)在扫描窗口702内的概率的应用的扫描逻辑回归模型。
在特征表示105包括基于加权定向平均值的二进制编码表示的示例中,多级600可以包括经由查找表(LUT)实现的朴素贝叶斯分类器。在实施例中,多级600中的一级或多级可以被实现为针对图像的训练集中的多个位置确定具有存在针对一系列特征表示的目标特征的概率的贝叶斯表以及具有不存在针对一系列特征表示的非目标特征的概率的另一个贝叶斯表、基于所述多个位置中的每个位置的幂从多个位置中选择目标位置。此外,如以下进一步讨论的,可以基于目标位置包括目标特征的概率与这些位置不包括目标特征的概率之间的差之和确定级的阈值。在一些示例中,多级600可以包括在变化率曲线(例如,AUC)训练框架下的区域。
在实施例中,针对扫描窗口评估多级600中的一级或多级可以包括为目标位置(例如,在输入图像101的区域或扫描窗口中的多个位置)确定目标位置包括目标特征的概率与目标位置不包括目标特征的概率之间的差之和。如以下进一步讨论的,可以经由多个查找表(例如,针对每个目标位置的一个查找表)实现这些差,从而使得每个表包括与特征表示值(例如,类哈尔特征值、一个或多个类SURF特征(如梯度)或梯度的绝对值、或二进制编码图像的二进制编码表示等)相关联的差。
在以下讨论中,关于二进制编码图像的二进制编码表示实现并应用这些级,然而,在此讨论的任何特征表示可以如讨论的被实现并且具体地在基于查找表的多级系统中被实现。在实施例中,实现这些级包括基于训练集进行监督训练。例如,如讨论的,输入图像的二进制编码表示可以包括8位二进制编码图像,其相关联的十进制编码从0变化到255(例如,从00000000到11111111)。朴素贝叶斯模型可以如下基于二进制编码图像被建立。基于训练集(例如,图像集),针对给定的位置x(例如,在扫描窗口702内),以下概率可以被确定:P(x=c|y=0)和P(x=c|y=0),其中,有目标(例如,人脸)存在时y=1并且无目标(例如,非人脸)存在时,y=0。例如,P(x=c|y=0)可以被读取为给定x=c图像窗口不包括目标的概率,其中,c是在位置x处的二进制编码表示(例如,c可以从0到255)。此外,可以基于训练集确定以下概率:P(y=0)和P(y=1)(例如,分别是扫描窗口不具有目标和具有目标的概率)。
在实施例中,针对任意位置的P(x|y=1)和P(x|y=0)可以被提供作为针对位置x的两个贝叶斯表。例如,每个表可以具有与可能的二进制编码值相关联的256个值(例如,c可以从0到255),从而使得P(x|y=1)可以是在位置x处扫描窗口具有基于c寻找的目标的概率表(例如,所述表可以包括与每个可能的c值相关联的概率)。类似地,P(x|y=1)可以是在位置x处扫描窗口不具有基于c寻找的目标的概率表。
在实施例中,Boosted训练框架可以从训练集的二进制编码图像中选择位置集{xi}。例如,可以如在此讨论地针对训练集中的图像生成二进制编码图像。例如,如由表达式(2)所提供的,位置集的选择可以是基于每个位置的幂(例如,可区分的位置的幂):
其中,P(y=1|x=c)可以是后验概率并且可以经由如表达式(3)所示的贝叶斯公式被确定:
在这种示例中,每个位置(例如,xi)和相应的贝叶斯表可以是针对多级级联分类器模块102的各级的弱分类器。例如,级(例如,Boosting级(Boosting Stage))可以包括所选位置的集合{xi}(例如,如讨论所选的)以及经训练的阈值TH。例如,假定扫描窗口如讨论地转换为二进制编码图像,则可以如在表达式(4)中提供的执行Boosted贝叶斯分类:
例如,阈值TH可以同(目标)位置包括目标特征的概率与这些位置不包括目标特征的概率之间的差之和相关联。在实施例中,查找表值可以被定义如表达式(5)所示:
LUT(xi=c)=P(y=1|xi=c)-P(y=0|xi=c) (5)
从而使得可以如表达式(6)提供的经由查找表执行分类:
如表达式(5)和(6)所示,针对输入图像的区域(例如,扫描窗口等)中的多个目标位置中的每个目标位置,可以基于经由针对每个位置的查找表实现的差确定位置(例如,目标位置)包括目标特征的概率与位置不包括目标特征的概率之间的差之和。每个查找表可以包括针对在相关联的目标位置处的每个特征表示值(例如,二进制编码表示)的差。差之和可以与预先确定的阈值进行比较,从而使得如果所述和大于阈值,则扫描窗口(或区域等)通过分类器级并且否则拒绝扫描窗口(请参考图6)。
在实施例中,针对多级600的级的以上分类可以如下(例如,在目标检测阶段)被应用或被执行。针对扫描窗口中的每个位置xi(例如,每一级可以使用若干个位置),二进制编码图像的值可以被确定(例如,二进制编码表示或从0至255的十进制编码)。如表达式(7)所示,针对每个位置,单独的查找表可以被访问以基于在所述位置处的二进制编码值确定查找表值:
LUT(xi=c) (7)
如在表达式(8)中所示,可以针对所有位置对查找表值进行求和:
如在表达式(9)中所示,可以将所述和与预先确定的和/或预先训练的阈值进行比较
如果扫描窗口通过表达式(9)(例如,查找表值之和大于阈值),则其通过所述级,否则其未通过所述级并且被被拒窗口模块604拒绝(请参考图6)。
以上讨论的操作可以被一起或被单独地执行以提供目标检测(例如,人脸检测)。
图8是展示根据本公开的至少一些实现方式安排的用于目标检测的示例过程800的流程图。如图8中所示,过程800可以包括一个或多个操作801–814。过程800可以形成目标检测过程的至少一部分。通过非限制性示例,针对由如在此讨论的系统100采取的一张或多张输入图像,过程800可以形成目标检测过程的至少一部分。
过程800可以从操作801(“可选地预处理图像”)开始,在所述操作中,可以对输入图像、目标图像、主题图像等进行预处理。在实施例中,预处理可以包括将图像从彩色图像转换成灰度级图像。输入图像可以包括任何图像或图像文件,如,例如,实时图像、解码的图像、采集的图像(例如,经由相机等)、渲染的图像、来自视频图像或帧的序列的图像、从存储器检索的图像等。例如,用户或过程(例如,软件过程)可以经由系统100调用过程800。
过程800可以在操作802(“以比例i重新调整图像尺寸”)处继续,在所述操作中,所述图像可以按比例i(例如,计数器变量)被重新调整。例如,在目标检测中,用各种缩放尺寸检验图像以在不同尺寸的图像目标内进行检测可能是有利的。在示例中,扫描窗口可以具有预先确定的尺寸(例如,32×32像素)并且图像可以基于扫描窗口的尺寸被缩放至与扫描兼容的尺寸。例如,图像可以首先在其固有尺寸处被评估(例如,无重新调整尺寸可以被执行)并且随后的迭代(例如,来自决策操作813)可以基于缩放因子(例如,1.05、1.1、1.2、1.5等)对图像进行缩放并且重复所述缩放直到图像被缩放至扫描窗口或者多个扫描窗口等的尺寸。较小的缩放因子可以以速度减小为代价提供更好的质量。在一些示例中,缩放因子在各迭代处保持恒定并且在其他示例中其可以是变化的。在示例中,图像是1080p图像并且扫描窗口是32×32像素。
过程800可以在操作803(“以比例i生成特征表示”)处继续,在所述操作中,可以生成如在此讨论的以比例i缩放的图像(例如,输入图像101)的特征表示。例如,可以如在此讨论的生成特征表示105。在实施例中,生成特征表示包括确定以比例i缩放的图像的像素的定向加权平均值以及基于定向加权平均值生成特征表示。在各实施例中,特征表示可以包括基于类哈尔特征的表示、基于类SURF特征的表示或基于二进制编码图像的表示。在实施例中,如关于图5讨论的,特征表示105可以被确定为二进制编码图像。
过程800可以在操作804(“预测扫描窗口j”)处继续,在所述操作中,在输入图像内的扫描窗口j(例如,计数器变量)可以被预测或被确定。例如,在第一次迭代处,扫描窗口可以在输入图像的左上处并且在随后的迭代(例如,来自决策块811)处扫描窗口可以向右行进通过一定数量的像素直到其到达输入图像的右边并且然后向下通过所述数量的像素并且返回至图像的左边并以此类推直到整个输入图像已经被扫描完了。例如,在每次迭代中移动的像素的数量可以是1个或2个像素或者更多从而使得许多扫描窗口可以被评估。扫描窗口的较小移动可以例如以处理资源和时间为代价提供更高的质量。
过程800可以在操作805(“评估级联的级k”)处继续,在所述操作中,级联的级k(例如,k是计数器变量)可以被评估。例如,可以针对扫描窗口j评估多级级联分类器102的级。在实施例中,在级k处评估扫描窗口j可以包括基于如在此讨论的特征表示评估弱分类器。在实施例中,如在此关于图6和表示式(7)-(9)讨论的,可以执行基于二进制编码图像的查找表分类器。在实施例中,级k包括查找表(LUT)分类器。例如,在第一次迭代处,可以评估第一级601并且在随后的迭代处(如果扫描窗口j已经通过了更早前的迭代的话)可以评估多级600的随后的级。由于随后的级被评估,所以扫描窗口j的分类和测试可以基于不同的图像特性(例如,针对眼镜或牙齿等的评估)进行分类和测试和/或分类和测试可能变得更严格(例如,更多的位置{xi}可以被评估)和/或更难以通过(例如,具有更高的相对阈值TH)。在实施例中,第一级包括10-20个位置,第二级具有20-40个位置,并且随后的级各自包括多于40个的位置。
过程800可以在决策操作806(“通过级k?”)处继续,在所述操作中,可以确定扫描窗口j是否已经通过级联的级k。如果扫描窗口j未通过级联的级k,则扫描窗口j可以被丢弃(例如,经由被拒窗口模块604)并且处理可以在操作807(“j=j+1”)处继续,在所述操作中,计数器变量j可以增加一,扫描窗口可以在输入图像内按步移动并且处理可以如讨论的在804(“预测扫描窗口j”)处继续,在所述操作中,下一个扫描窗口可以被预测或被确定。
如果扫描窗口j通过了级联的级k,则过程800可以在操作808(“k=k+1”)处继续,在所述操作中,计数器变量k可以增加一,并且在操作809(“通过所有级”)处继续,在所述操作中,可以确定扫描窗口j是否已经通过所有的级。如果扫描窗口j还未通过所有级(例如,存在更多的多级级联的级并且k<级的数量),则过程800可以在如上讨论的操作805(“评估级联的级k”)处继续。
如果扫描窗口j已经通过所有的级,则扫描窗口j可以被保存或被保留(未示出)以用于随后在操作814处合并。在这种示例中,扫描窗口j已经被视为目标候选区域或窗口(例如,被确定具有或被确定可能具有在此的兴趣目标的区域或窗口)。在一些示例中,扫描窗口j可以替代地或附加地被呈现给用户(例如,在指示面部识别的相机显示器中)以被保存或被保留用于随后的合并。
过程800可以在操作810(“j=j+1”)处继续,在所述操作中,计数器变量j可以增加一,并且在操作811(“完成所有扫描窗口”)处继续,在所述操作中,可以判定是否所有扫描窗口都已经被完成了(例如,针对兴趣目标被评估)。如果并非所有扫描窗口都已经被评估,则过程800可以在操作804(“预测扫描窗口j”)处继续,在所述操作中,随后的(多个)扫描窗口可以被预测或被确定以用于如上讨论的评估。
如果所有的扫描窗口已经被评估,则过程800可以在操作812(“i=i+1”)处继续,在所述操作中,计数器变量i可以增加一,并且在操作813(“完成所有的图像缩放”)处继续,在所述操作中,可以确定是否所有的图像缩放已经被完成了(例如,目标图像的所有图像缩放已经被完成了)。如果并非所有的图像缩放都已经被完成,则过程800可以在操作802(“以比例i重新调整图像尺寸”)处继续,在所述操作中,可以针对所讨论的重复处理(例如,确定特征表示、确定扫描窗口、经由级联的级评估扫描窗口等)重新调整图像尺寸。
如果所有图像缩放已经被完成,则过程800可以在操作814(“合并结果”)处继续,在所述操作中,结果可以被合并。例如,任何通过的扫描窗口(例如,目标候选区域)可以被合并以及被保存和/或被呈现给用户。例如,针对每个通过的扫描窗口,目标候选区域的位置和尺寸可以被保存、被用于进一步处理和/或被呈现给用户等。在实施例中,合并结果包括将通过的扫描窗口分成一组、对它们进行合并以及执行非最大抑制。在示例中,第一和第二扫描窗口可能已经通过在此讨论的多级级联分类器系统并且扫描窗口可能已经合并为目标候选区域。可以通过保存至存储器、呈现于用户等对目标候选区域进行处理。
可以针对任意数量的像素、级或输入图像串行地或者并行地对过程800的多个部分重复任意数量的次数以生成任意数量目标候选区域。同样如讨论的,(多张)输入图像可以包括解码的图像、擦剂的图像(例如,经由相机等)、渲染的图像、或来自视频图像或帧序列的图像等。
图9是展示根据本公开的至少一些实现方式安排的用于提供目标检测的示例过程900的流程图。如图9中所示,过程900可以包括一个或多个操作901-903。过程900可以形成目标检测过程的至少一部分。通过非限制性示例,针对由如在此讨论的系统100采取的一张或多张输入图像,过程900可以形成目标检测过程的至少一部分。此外,在此将参考图10的系统1000描述过程900。
图10是根据本公开的至少一些实现方式安排的示例系统1000的原理图。如图10所示,系统1000可以包括图形处理单元(GPU)1001、一个或多个中央处理单元1004以及存储器存储1005。同样如所示,GPU 1001可以包括定向加权平均值模块102、特征表示模块104以及多级级联分类器模块106。在系统1000的示例中,存储器存储1005可以存储图像内容,如输入图像和/或目标检测候选区域。
图像处理单元1001可以包括任意数量和类型的图像处理单元,这些图形处理单元可以提供如在此讨论的操作。这些操作可以经由软件或硬件或其组合来实现。例如,图形处理单元1001可以包括专门用于操纵来自存储器的用于呈现给用户的图像的电路。中央处理单元1004可以包括任意数量和类型的处理单元或模块,这些处理单元或模块可以为系统1000提供控制以及其他更高级别的功能。存储器存储1005可以是任意类型的存储器,如易失性存储器(例如,静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)等)或非易失性存储器(例如,闪存等)等等。在非限制性示例中,存储器存储1005可以由缓存存储器实现。在实施例中,定向加权平均值模块102、特征表示模块104和/或多级级联分类器106可以经由图形处理单元1001的执行单元(EU)实现。EU可以包括例如可编程逻辑或电路,如可以提供广泛的可编程逻辑功能阵列的一个或多个逻辑核。在实施例中,定向加权平均值模块102、特征表示模块104和/或多级级联分类器106可以经由专用硬件(如固定功能电路等)实现。固定功能电路可以包括专用逻辑或电路并且可以提供固定功能入口点的集合,所述集合可以映射到针对固定目的或功能的专用逻辑。
返回至图9的讨论,过程900可以从操作901(“确定输入图像的像素的定向加权平均值”)开始,在所述操作中,输入图像的像素的定向加权平均值被确定。例如,定向加权平均值103可以由定向加权平均值模块102确定,所述定向加权平均值模块如在此讨论的经由图像处理单元1001实现。在实施例中,定向加权平均值103可以包括基于单独像素的相邻像素的图案的像素值以及相邻像素的权重(基于每个相邻像素相对于单独像素的位置)确定单独像素的加权平均值。
处理可以在操作902(“基于定向加权平均值生成特征表示”)处继续,在所述操作中,输入图像的特征表示可以是基于定向加权平均值生成的。例如,特征表示105可以由特征表示模块104生成,所述特征表示模块如在此讨论的经由图像处理单元1001实现。在各实施例中,特征表示可以包括类哈尔特征、类SURF特征或二进制编码图像。
处理可以在操作903(“通过对特征表示应用多级级联分类器来执行目标检测”)处继续,在所述操作中,可以通过向特征表示应用多级级联分类器来执行目标检测。例如,经由图形处理单元1001实现的多级级联分类器106可以基于特征表示105执行目标检测。如讨论的,可以经由多级级联分类器106实现任意数量的级(例如,5-12级)。在各实施例中,这些级可以包括基于逻辑回归的分类器或者经由查找表等实现的朴素贝叶斯分类器。
如讨论的,成功的扫描窗口或区域等可以可选地合并和/或被保存以用于进一步处理或呈现给用户等。可以针对任意数量的输入图像串行地或者并行地重复过程900任意次数。
在此描述的系统的各种部件可以用软件、固件和/或硬件,和/或其任意组合来实现。例如,系统100或系统1000的各部件可以至少部分地由如可以在计算系统(如,例如,智能电话)中找到的计算片上系统(SoC)提供。本领域这些技术人员可以认识到,在此描述的系统可以包括还未在相应附图中描绘的附加部件。例如,在此讨论的系统可以包括还未为了清楚起见而被描述的附加部件,如比特流复用器或解复用器模块等。
虽然在此讨论的示例过程(例如,过程800和过程900)的实现方式可以包括按所示顺序采取示出的所有操作,但是本公开在这个方面并不限制,并且在各个示例中,此处的示例过程的实现方式可以仅包括所示操作的子集、以与所示顺序不同的顺序执行的操作或附加操作。
此外,在此讨论的任何一个或多个操作可以响应于由一个或多个计算机程序产品提供的指令而被采取。这样的程序产品可以包括提供当由例如处理器执行时可以提供此处所描述的功能的指令的承载信号的介质。计算机程序产品可以由一个或多个机器可读介质的任意形式提供。因此,例如,包括一个或多个图形处理单元或处理器核的处理器可以响应于由一个或多个机器可读介质传达给处理器的程序编码和/或一个或多个指令集采取此处的示例过程的一个或多个块。通常,机器可读介质可以以程序编码和/或一个或多个指令集的形式传达软件,这些程序编码和指令集可以引起在此描述的设备和/或系统中的任意一者实现系统100或1000的至少多个部分、或者如在此讨论的任何其他模块或部件。
如在此处所描述的任何实现方式中所使用的,术语“模块”指被配置成用于提供此处所描述的功能的软件逻辑、硬件逻辑和/或电路的任何组合。软件可以体现为软件包、代码和/或指令集或指令,并且如在此处所描述的任何实现中所使用的,“硬件”可以例如单独地或以任何组合地包括硬连线电路、可编程电路、状态机电路、固定功能电路、执行单元电路和/或存储由可编程电路执行的指令的固件。模块可以共同地或单独地体现为形成更大系统(例如,集成电路(IC)、片上系统(SoC)等等)的一部分的电路。
所讨论的目标检测(例如,人脸检测)系统和过程可以提供跨不同平台和不同分辨率的实时目标检测。如讨论的,这种目标检测系统可以用在人机交互、相册管理、生物信测定、视频监视、相机成像的自动聚焦、图像或视频搜索和检索等中。此外,所讨论的系统和过程可以针对模块以及针对对移动设备、平板机或深度嵌入式系统实现方式而言有利的计算要求具有相对低的存储器占用面积。所提供的系统和过程还可以提供增加的准确度。
如与现有技术相比,所讨论的示例可以提供以下优点。例如,在此讨论的过程可以提供(例如,特征表示的)仅约100Kb(同一些先前方法中的>1Mb相比)的模型大小以及仅约1倍图像尺寸(同一些先前方法中的8倍或32倍图像尺寸相比)的要求的计算存储器。此外,如讨论的,在分类器级联中的级数可以约为4至12级,其中,在一些实现方式中仅需要4或5级(同与一些先前方法中的多达30级相比)。所讨论的技术还可以适用于固定点操作、并行处理和/或单指令多数据(SIMD)操作,所述技术可以提供针对VGA的约240fps(帧每秒)、针对HD的70fps和/或针对全HD的30fps(同一些先前方法中的针对VGA的60-100fps、针对HD的12-14fps和/或针对全HD的3-5fps相比)的处理速度。可以在CPU上使用仅400MHz和16Kb的缓存获得所讨论的技术的实时操作(例如,在QVGA(四分之一视频图形阵列)上的15fps),这可以如讨论的在移动设备中实现。在一些示例中,可以使用执行单元(EU)实现方式和/或专用硬件(如固定功能电路等)提供更快的处理(例如,约快3倍至5倍)。
此外,所讨论的技术相比于先前方法可以提供提高的或可比较的准确度。例如,基于马萨诸塞大学人脸检测数据集和基准(UMass FDDB),所讨论的技术在提高的真正率和降低的假正率方面提供提高的性能。
图11是根据本公开的至少一些实现方式安排的示例系统1100的原理图。在各实现方式中,尽管系统1100不限于此上下文,系统1100可以是媒体系统。例如,系统1100可以并入个人计算机(PC)、膝上计算机、超级膝上计算机、平板机、触摸板、便携式计算机、手持式计算机、掌上型计算机、个人数字助理(PDA)、蜂窝电话、组合式蜂窝电话/PDA、电视、智能设备(例如,智能电话、智能平板机或智能电视)、移动互联网设备(MID)、消息设备、数据通信设备、相机(例如,自动对焦相机、超级变焦相机、数码单镜头反光(DSLR)相机)等。
在各种实现方式中,系统1100包括耦合到显示器1120的平台1102。平台1102可以接收来自内容设备的内容,如(多个)内容服务设备1130或(多个)内容传递设备1140或其他类似内容源。包括一个或多个导航特征的导航控制器1150可以用来与例如平台1102和/或显示器1120交互。以下将更详细地描述这些组件中的每个组件。
在各实现方式中,平台1102可以包括芯片组1105、处理器1110、存储器1112、天线1113、存储设备1114、图形子系统1115、应用1116和/或无线电1118的任意组合。芯片组1105可以在处理器1110、存储器1112、存储设备1114、图形子系统1115、应用1116和/或无线电1118之中提供相互通信。例如,芯片组1105可以包括能够提供与存储设备1114的相互通信的存储器适配器(未描绘)。
处理器1110可以被实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器、x86指令集兼容处理器、多核处理器或任何其他微处理器或中央处理器单元(CPU)。在各实现方式中,处理器1110可以是(多个)双核处理器、(多个)双核移动处理器等。
存储器1112可以被实现为易失性存储设备,如但不限于随机存取存储器(RAM)、动态随机存储器(DRAM)或静态RAM(SRAM)。
存储设备1114可以被实现为非易失性存储设备,如但不限于磁盘驱动器、光盘驱动器、磁带驱动器、内部存储设备、附加存储设备、闪存、电池应急SDRAM(同步DRAM)和/或可接入网络的存储设备。在各实现方式中,存储设备1114可以包括用于当例如包括多个硬盘驱动器时增加对有价值的数字媒体的存储性能增强型保护的技术。
图形子系统1115可以对如用于显示的静态或视频图像执行处理。例如,图形子系统1115可以是图形处理单元(GPU)或视觉处理单元(VPU)。可以使用模拟或数字接口来通信地耦合图形子系统1115与显示器1120。例如,接口可以是高清晰度多媒体接口、显示端口、无线HDMI和/或符合无线HD的技术中的任何一个接口。图形子系统1115可以集成到处理器1110或芯片组1105中。在一些实现方式中,图形子系统1115可以是通信地耦合至芯片组1105的独立设备。
在此描述的图形和/或视频处理技术可以用各种硬件架构实现。例如,图形和/或视频功能可以被集成到芯片组中。替代性地,可以使用分立的图形和/或视频处理器。如又另一个实现方式,图形和/或视频功能可以由通用处理器(包括多核处理器)来提供。在进一步的实施例中,这些功能可以在消费电子设备中实现。
无线电1118可以包括能够使用各种适当的无线通信技术发射并接收信号的一个或多个无线电。这种技术可以涉及跨一个或多个无线网络的通信。示例无线网络包括(但不限于)无线局域网(WLAN)、无线个人局域网(WPAN)、无线城域网(WMAN)、蜂窝网和卫星网。在跨这类网络通信时,无线电1118可以根据任意版本的一个或多个可适用标准进行操作。
在各实现方式中,显示器1120可以包括任何电视机类型监测器或显示器。显示器1120可以包括例如计算机显示屏、触摸屏显示器、视频监视器、电视机类型的设备和/或电视机。显示器1120可以是数字的和/或模拟的。在各实现方式中,显示器1120可以是全息显示器。同样,显示器1120可以是可以接收视觉投影的透明表面。这种投影可以传达各种形式的信息、图像和/或物体。例如,这种投影可以是针对移动增强现实(MAR)应用的视觉覆盖。在一个或多个软件应用1116的控制下,平台1102可以在显示器1120上显示用户界面1122。
在各实现方式中,(多个)内容服务设备1130可以发起于任意国家的、国际的和/或独立的服务,并因此例如经由互联网可接入平台1102。(多个)内容服务设备1130可以耦合到平台1102和/或显示器1120。平台1102和/或(多个)内容服务设备1130可以耦合到网络1160以来往于网络1160传达(例如,发送和/或接收)媒体信息。(多个)内容传递设备1140也可以耦合到平台1102和/或显示器1120。
在各实现方式中,(多个)内容服务设备1130可以包括有线电视盒、个人计算机、网络、电话、能够传递数字信息和/或内容的启用互联网的设备或应用、以及能够在内容提供方与平台1102和/或显示器1120之间经由网络1160或直接地单向或双向传达内容的任何其他类似设备。将认识到,内容可以经由网络1160单向地和/或双向地来往于系统1100中的任何一个组件与内容提供方之间进行通信。内容的示例可以包括任何媒体信息,包括例如视频、音乐、医疗和游戏信息等。
(多个)内容服务设备1130可以接收如包括媒体信息、数字信息和/或其他内容的有线电视节目的内容。内容提供方的示例可以包括任何有线或卫星电视或无线电或互联网内容提供方。所提供的示例不旨在以任何方式限制根据本公开的实现方式。
在各实现方式中,平台1102可以从具有一个或多个导航特征的导航控制器1150中接收控制信号。控制器1150的导航特征可以用来例如与用户界面1122交互。在各实施例中,导航控制器1150可以是定位设备,所述定位设备可以是允许用户输入空间(如连续的和多维的)数据到计算机的计算机硬件组件(特别是人机接口设备)。如图形用户界面(GUI)和电视机和监视器的许多系统允许用户使用物理姿势控制计算机或电视机并向计算机或电视机提供数据。
可以通过在显示器上显示的指针、光标、聚焦环或其他视觉指示符的移动来在显示器(例如,显示器1120)上复制控制器1150的导航特征的移动。例如,在软件应用1116的控制下,位于导航控制器1150上的导航特征可以例如被映射为在用户界面1122上显示的虚拟导航特征。在各实施例中,控制器1150可以不是独立组件但可以集成在平台1102和/或显示器1120中。然而,本公开不限于这些元素或此处显示或描述的内容。
在各实现方式中,驱动器(未示出)可以包括使用户能够通过例如在初始启动后启动的按钮的触摸立刻打开和关闭类似电视机的平台1102的技术。当平台被“关闭”时,程序逻辑可以允许平台1102流出内容到媒体适配器或其他内容服务设备1130或内容传递设备1140。此外,芯片组1105可以例如包括用于支持如5.1环绕声音频和/或高清7.1环绕声音频的硬件和/或软件。驱动器可以包括用于集成图形平台的图形驱动器。在各实施例中,图形驱动器可以包括外围组件互连(PCI)快速图形卡。
在各实现方式中,可以对系统1100中示出的任何一个或多个组件进行集成。例如,平台1102和(多个)内容服务设备1130可以是集成的,或者平台1102和(多个)内容传递设备1140可以是集成的,或者平台1102、(多个)内容服务设备1130和(多个)内容传递设备1140可以例如是集成的。在各实施例中,平台1102和显示器1120可以是集成单元。例如,显示器1120和(多个)内容服务设备1130可以是集成的,或者显示1120和(多个)内容传递设备1140可以是集成的。这些示例并不旨在限制本公开。
在各实施例中,系统1100可以被实现为无线系统、有线系统或二者的组合。当被实现为无线系统时,系统1100可以包括适合于通过如一个或多个天线、发送器、接收器、收发器、放大器、滤波器、控制逻辑等的无线共享介质进行通信的组件和接口。无线共享介质的示例可以包括无线频谱部分,如RF频谱等。当被实现为有线系统时,系统1100可以包括适用于通过有线通信介质(如输入/输出(I/O)适配器、利用相应有线通信介质连接I/O适配器的物理连接器、网络接口卡(NIC)、光盘控制器、视频控制器、音频控制器等)进行通信的组件和接口。有线通信介质的示例可以包括导线、电缆、金属引线、印刷电路板(PCB)、背板、交换光纤、半导体材料、双绞线、同轴电缆、光纤等。
平台1102可以建立一个或多个逻辑或物理信道以传达信息。所述信息可以包括媒体信息和控制信息。媒体信息可以指表示为用户准备的内容的任何数据。例如,内容的示例可以包括来自语音对话、视频会议、流媒体视频、电子邮件(“email”)消息、语音邮件消息、字母数字符号、图形、图像、视频、文字等的数据。例如,来自语音对话的数据可以是语音信息、沉默时段、背景噪音、舒适噪音、声调等。控制信息可以是指表示针对自动化系统的命令、指令或控制字的任何数据。例如,控制信息可以用于将媒体信息路由通过系统或指示节点以预定方式处理媒体信息。然而,各实施例不限于图11中示出或描述的元素或上下文。
如上所述,系统1100可以用变化的物理风格或形成因子来体现。图12展示了可以用其体现系统1200的小形成因子设备1200的实现方式。例如,在各实施例中,设备1200可以被实现为具有无线能力的移动计算设备。例如,移动计算设备可以指具有处理系统和移动电源(如一个或多个电池)的任何设备。
如上所述,移动计算设备的示例可以包括个人计算机(PC)、膝上计算机、超级膝上计算机、平板机、触摸板、便携式计算机、手持式计算机、掌上型计算机、个人数字助理(PDA)、蜂窝电话、组合式蜂窝电话/PDA、电视、智能设备(例如,智能电话、智能平板机或智能电视)、移动互联网设备(MID)、消息设备、数据通信设备、相机(例如,自动对焦相机、超级变焦相机、数码单镜头反光(DSLR)相机)等。
移动计算设备的示例还可以包括被安排来由人穿戴的计算机,如手腕计算机、手指计算机、戒指计算机、眼镜计算机、皮带夹计算机、臂带计算机、鞋计算机、服装计算机以及其他可穿戴计算机。在各实施例中,例如移动计算设备可以实现为能够执行计算机应用程序、以及语音通信和/或数据通信的智能电话。举例来讲,尽管一些实施例可以用被实现为智能电话的移动计算设备描述,可以理解的是,其他实施例也可以使用其他无线移动计算设备实现。实施例并不局限于本上下文中。
如图12中所示,设备1200可以包括外壳1202、显示器1204、输入/输出(I/O)设备1206和天线1208。设备1200还可以包括导航特征1212。显示器1204可以包括适合于移动计算设备的用于显示信息的任何适当的显示单元。I/O设备1206可以包括用于将信息输入移动计算设备中的任何适当的I/O设备。I/O设备1206的示例可以包括字母数字键盘、数字小键盘、触摸板、输入建、按钮、开关、摇杆式开关、麦克风、扬声器、话音识别设备和软件等。信息也可以通过麦克风(未示出)输入到设备1200中。这种信息可以由话音识别设备(未示出)数字化。实施例并不局限于本上下文中。
可以使用硬件元件、软件元件、或两者的组合来实现各实施例。硬件元件的示例可以包括:处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件的示例可以包括:软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号、或其任意组合。确定是否使用硬件元件和/或软件元件来实现实施例可以根据多个因子而变化,如预期的计算速率、功率电平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其他设计或性能约束。
可以由机器可读介质上所存储的表属性指令实现至少一个实施例的一个或多个方面,所述指令代表处理器内的各种逻辑,当被机器读取时所述指令致使所述机器制作用于实现在此所描述的技术的逻辑。此类表示(称为“IP核”)可以被存储在有形的机器可读介质上并提供给各顾客或制造设施以加载至实际制作所述逻辑或处理器的制作机器中。
虽然已经参照各实现方式描述了在此陈述的某些特征,并不打算在限制性意义上解释本说明书。因此,本公开涉及的对本领域技术人员而言明显的对在此描述的实现方式以及其他实现方式的各种修改被视为是位于本公开的精神和范围内。
下面的示例涉及进一步的实施例。
在一个或多个第一实施例中,一种用于目标检测的计算机实现的方法包括:至少部分地基于输入图像的单独像素中的每个单独像素的多个相邻像素的像素值以及与所述相邻像素中的每个相邻像素相对于所述单独像素的位置相关联的权重来确定所述单独像素的定向加权平均值;至少部分地基于所述定向加权平均值生成所述输入图像的特征表示;以及通过向所述特征表示应用多级级联分类器来对所述输入图像执行目标检测。
进一步针对所述第一实施例,所述特征表示包括基于所述定向加权平均值以及所述多个相邻像素的所述像素值的二进制编码图像。
进一步针对所述第一实施例,所述特征表示包括基于所述定向加权平均值以及所述多个相邻像素的所述像素值的二进制编码图像,并且生成所述二进制编码图像包括针对所述单独像素中的第一单独像素基于所述第一多个相邻像素的每个像素值与所述第一单独像素的第一定向加权平均值的比较为所述第一单独像素的第一多个相邻像素中的每个相邻像素分配值0或1、以及基于所述第一多个相邻像素的所述分配值确定所述第一单独像素的二进制编码表示。
进一步针对所述第一实施例,所述特征表示包括基于所述定向加权平均值以及所述多个相邻像素的所述像素值的二进制编码图像,生成所述二进制编码图像包括针对所述单独像素中的第一单独像素基于所述第一多个相邻像素的每个像素值与所述第一单独像素的第一定向加权平均值的比较为所述第一单独像素的第一多个相邻像素中的每个相邻像素分配值0或1、以及基于所述第一多个相邻像素的所述分配值确定所述第一单独像素的二进制编码表示,并且如果与所述第一多个相邻像素的一个相邻像素相关联的像素值大于所述第一定向加权平均值则将值1分配给所述相邻像素并且否则就分配值0,并且其中,确定所述二进制编码表示包括基于在所述第一多个相邻像素的左上相邻像素处开始并且以顺时针方式继续贯穿所述第一多个相邻像素来将所述分配值安排成序。
进一步针对所述第一实施例,确定第一单独像素的第一定向加权平均值包括:确定所述第一单独像素的第一多个相邻像素的第一多个像素值,其中,所述第一多个相邻像素在围绕所述第一单独像素的窗口内;确定与所述第一多个相邻像素相关联的第一多个权重;以及将所述第一单独像素的第一定向加权平均值生成为所述第一多个像素值中的每个像素值与所述相关联的第一多个权重中的每个权重的乘积之和除以所述第一多个权重之和。
进一步针对所述第一实施例,应用所述多级级联分类器中的一级包括:针对所述输入图像的区域中的多个位置,确定所述位置包括目标特征的概率与所述位置不包括所述目标特征的概率之间的多个差之和,其中,所述多个差是经由多个查找表实现的,并且其中,所述多个查找表各自包括多个差,每个差与特征表示值相关联;以及将所述和与预定阈值进行比较以判定所述区域是否通过或未通过。
进一步针对所述第一实施例,实现所述多级级联分类器中的一级包括:针对图像训练集中的多个位置,确定第一贝叶斯表和第二贝叶斯表,所述第一贝叶斯表具有存在针对一系列特征表示的目标特征的概率,并且所述第二贝叶斯表具有不存在针对所述系列特征表示的目标特征的概率;基于所述多个位置中的每个位置的幂针对所述级级联分类器中的一级从所述多个位置中选择多个目标位置;以及确定所述级的阈值,其中,所述阈值同所述目标位置包括目标特征的概率与所述位置不包括所述目标特征的概率之间的差之和相关联。
进一步针对所述第一实施例,所述特征表示包括类哈尔特征表示。
进一步针对所述第一实施例,所述特征表示包括类SURF特征,并且其中,所述多级级联分类器包括基于逻辑回归的分类器。
进一步针对所述第一实施例,所述特征表示包括类哈尔特征表示或类SURF特征中的至少一者。
进一步针对所述第一实施例,所述方法进一步包括:通过将图像转换成灰度级并且基于缩放因子重新调整所述经转换的图像的尺寸来生成所述输入图像,其中,对所述输入图像执行所述目标检测包括在所述输入图像的多个扫描窗口上执行所述目标检测,其中,第一扫描窗口和第二扫描窗口通过所述多级级联分类器;所述方法进一步包括:将所述第一扫描窗口与所述第二扫描窗口合并为目标候选区域以及通过进行将所述目标候选区域保存在存储器中或将所述目标候选区域呈现给用户中的至少一项来处理所述目标候选区域。
在一个或多个第二实施例中,一种用于在计算机设备上提供目标检测的系统包括:显示设备,所述显示设备被配置成用于呈现图像数据;以及图形处理单元,所述图形处理单元耦合至所述显示设备,其中,所述图像处理单元包括:定向加权平均值电路,所述定向加权平均值电路被配置成用于至少部分地基于输入图像的单独像素中的每个单独像素的多个相邻像素的像素值以及与所述相邻像素中的每个相邻像素相对于所述单独像素的位置相关联的权重来确定所述单独像素的定向加权平均值;特征表示电路,所述特征表示电路被配置成用于至少部分地基于所述定向加权平均值生成所述输入图像的特征表示;以及多级级联分类器电路,所述多级级联分类器电路被配置成用于通过向所述特征表示应用多级级联分类器来对所述输入图像执行目标检测。
进一步针对所述第二实施例,所述特征表示包括基于所述定向加权平均值以及所述多个相邻像素的所述像素值的二进制编码图像。
进一步针对所述第二实施例,所述定向加权平均值电路被配置成用于确定所述输入图像的单独像素的定向加权平均值包括所述定向加权平均值电路被配置成用于针对第一单独像素执行以下操作:确定所述第一单独像素的第一多个相邻像素的第一多个像素值,其中,所述第一多个相邻像素在围绕所述第一单独像素的窗口内;确定与所述第一多个相邻像素相关联的第一多个权重;以及将所述第一单独像素的第一定向加权平均值生成为所述第一多个像素值中的每个像素值与所述相关联的第一多个权重中的每个权重的乘积之和除以所述第一多个权重之和。
进一步针对所述第二实施例,所述定向加权平均值电路被配置成用于确定所述输入图像的单独像素的定向加权平均值包括所述定向加权平均值电路被配置成用于针对第一单独像素执行以下操作:确定所述第一单独像素的第一多个相邻像素的第一多个像素值,其中,所述第一多个相邻像素在围绕所述第一单独像素的窗口内;确定与所述第一多个相邻像素相关联的第一多个权重;以及将所述第一单独像素的第一定向加权平均值生成为所述第一多个像素值中的每个像素值与所述相关联的第一多个权重中的每个权重的乘积之和除以所述第一多个权重之和,其中,所述定向加权平均值电路被配置成用于如果与所述第一多个相邻像素中的一个相邻像素相关联的像素值大于所述第一定向加权平均值则将值1分配给所述相邻像素并且否则就分配值0,并且其中,所述定向加权平均值电路被配置成用于确定所述二进制编码表示包括所述定向加权平均值电路被配置成用于基于在所述第一多个相邻像素的左上相邻像素处开始并且以顺时针方式继续贯穿所述第一多个相邻像素来将所述分配值安排成序。
进一步针对所述第二实施例,所述多级级联分类器电路被配置成用于对所述输入图像执行目标检测包括所述多级级联分类器电路被配置成用于执行以下各项:针对所述输入图像的区域中的多个位置,确定所述位置包括目标特征的概率与所述位置不包括所述目标特征的概率之间的多个差之和,其中,所述多个差是经由多个查找表实现的,并且其中,所述多个查找表各自包括多个差,每个差与特征表示值相关联;以及将所述和与预定阈值进行比较以判定所述区域是否通过或未通过。
进一步针对所述第二实施例,所述特征表示包括类哈尔特征表示或类SURF特征中的至少一者。
进一步针对所述第二实施例,为了实现所述多级级联分类器中的一级,所述多级级联分类器电路被配置成用于:针对图像训练集中的多个位置,确定第一贝叶斯表和第二贝叶斯表,所述第一贝叶斯表具有存在针对一系列特征表示的目标特征的概率,并且所述第二贝叶斯表具有不存在针对所述系列特征表示的目标特征的概率;基于所述多个位置中的每个位置的幂针对所述级级联分类器中的一级从所述多个位置中选择多个目标位置;以及确定所述级的阈值,其中,所述阈值同所述目标位置包括目标特征的概率与所述位置不包括所述目标特征的概率之间的差之和相关联。
进一步针对所述第二实施例,所述特征表示包括类哈尔特征表示。
进一步针对所述第二实施例,所述特征表示包括类SURF特征。
进一步针对所述第二实施例,所述系统进一步包括被配置成用于存储所述输入图像的存储器。
在一个或多个第三实施例中,一种用于在计算机设备上提供目标检测的系统包括:显示设备,所述显示设备被配置成用于呈现图像数据;以及图形处理单元,所述图形处理单元耦合至所述显示设备,其中,所述图像处理单元包括:用于至少部分地基于输入图像的单独像素中的每个单独像素的多个相邻像素的像素值以及与所述相邻像素中的每个相邻像素相对于所述单独像素的位置相关联的权重确定所述单独像素的定向加权平均值的装置;用于至少部分地基于所述定向加权平均值生成所述输入图像的特征表示的装置;以及用于通过向所述特征表示应用多级级联分类器来对所述输入图像执行目标检测的装置。
进一步针对所述第三实施例,所述特征表示包括基于所述定向加权平均值以及所述多个相邻像素的所述像素值的二进制编码图像。
进一步针对所述第三实施例,所述特征表示包括类哈尔特征表示。
进一步针对所述第三实施例,所述特征表示包括类SURF,并且其中,所述多级级联分类器包括基于逻辑回归的分类器。
在一个或多个第四实施例中,至少一种机器可读介质包括多条指令,所述指令响应于在计算设备上被执行而使所述计算设备通过以下各项执行目标检测:至少部分地基于输入图像的单独像素中的每个单独像素的多个相邻像素的像素值以及与所述相邻像素中的每个相邻像素相对于所述单独像素的位置相关联的权重来确定所述单独像素的定向加权平均值;至少部分地基于所述定向加权平均值生成所述输入图像的特征表示;以及通过向所述特征表示应用多级级联分类器来对所述输入图像执行目标检测。
进一步针对所述第四实施例,所述特征表示包括基于所述定向加权平均值以及所述多个相邻像素的所述像素值的二进制编码图像。
进一步针对所述第四实施例,其中,所述特征表示包括基于所述定向加权平均值以及所述多个相邻像素的所述像素值的二进制编码图像,并且其中,生成所述二进制编码图像包括针对所述单独像素中的第一单独像素基于所述第一多个相邻像素的每个像素值与所述第一单独像素的第一定向加权平均值的比较为所述第一单独像素的第一多个相邻像素中的每个相邻像素分配值0或1、以及基于所述第一多个相邻像素的所述分配值确定所述第一单独像素的二进制编码表示。
进一步针对所述第四实施例,确定第一单独像素的第一定向加权平均值包括:确定所述第一单独像素的第一多个相邻像素的第一多个像素值,其中,所述第一多个相邻像素在围绕所述第一单独像素的窗口内;确定与所述第一多个相邻像素相关联的第一多个权重;以及将所述第一单独像素的所述第一定向加权平均值生成为所述第一多个像素值中的每个像素值与所述相关联的第一多个权重中的每个权重的乘积之和除以所述第一多个权重之和。
进一步针对所述第四实施例,应用所述多级级联分类器中的一级包括:针对所述输入图像的区域中的多个位置,确定所述位置包括目标特征的概率与所述位置不包括所述目标特征的概率之间的多个差之和,其中,所述多个差是经由多个查找表实现的,并且其中,所述多个查找表各自包括多个差,每个差与特征表示值相关联;以及将所述和与预定阈值进行比较以判定所述区域是否通过或未通过。
进一步针对所述第四实施例,实现所述多级级联分类器中的一级包括:针对图像训练集中的多个位置,确定第一贝叶斯表和第二贝叶斯表,所述第一贝叶斯表具有存在针对一系列特征表示的目标特征的概率,并且所述第二贝叶斯表具有不存在针对所述系列特征表示的目标特征的概率;基于所述多个位置中的每个位置的幂针对所述级级联分类器中的一级从所述多个位置中选择多个目标位置;以及确定所述级的阈值,其中,所述阈值同所述目标位置包括目标特征的概率与所述位置不包括所述目标特征的概率之间的差之和相关联。
在一个或多个第五实施例中,至少一种机器可读介质可以包括多条指令,所述指令响应于在计算设备上被执行而使所述计算设备执行根据以上实施例中的任何一个实施例的方法。
在一个或多个第六实施例中,一种装置看包括用于执行根据以上实施例中的任何一个实施例的方法。
将认识到,本发明不局限于如此描述的这些实施例,而是可以在不背离所附权利要求书的范围的情况下通过修改和变更来实践。例如,以上实施例可以包括特征的特定组合。然而,以上实施例不局限于这个方面,并且在各实现方式中,以上实施例可以包括仅采取这类特征的子集、采取这类特征的不同顺序、采取这类特征的不同组合和/或采取除了明确例举的那些特征之外的附加特征。因此,本发明的范围应该参照所附权利要求来确定,连同考虑这些权利要求有资格考虑的等效物的全部范围。

Claims (25)

1.一种用于目标检测的计算机实现的方法,所述方法包括:
至少部分地基于输入图像的单独像素中的每个单独像素的多个相邻像素的像素值以及与所述相邻像素中的每个相邻像素相对于所述单独像素的位置相关联的权重来确定所述单独像素的定向加权平均值;
至少部分地基于所述定向加权平均值生成所述输入图像的特征表示;以及
通过向所述特征表示应用多级级联分类器来对所述输入图像执行目标检测。
2.如权利要求1所述的方法,其中,所述特征表示包括基于所述定向加权平均值以及所述多个相邻像素的所述像素值的二进制编码图像。
3.如权利要求2所述的方法,其中,生成所述二进制编码图像包括针对所述单独像素中的第一单独像素:
基于所述第一单独像素的第一多个相邻像素的每个像素值与所述第一单独像素的第一定向加权平均值的比较,为所述第一多个相邻像素中的每个相邻像素分配值0或1;以及
基于所述第一多个相邻像素的所述分配值,确定所述第一单独像素的二进制编码表示。
4.如权利要求3所述的方法,其中,如果与所述第一多个相邻像素中的相邻像素相关联的像素值大于所述第一定向加权平均值则将值1分配给所述相邻像素并且否则就分配值0,并且其中,确定所述二进制编码表示包括基于在所述第一多个相邻像素中的左上相邻像素处开始并且以顺时针方式继续贯穿所述第一多个相邻像素来将所述分配值安排成序。
5.如权利要求1所述的方法,其中,确定第一单独像素的第一定向加权平均值包括:
确定所述第一单独像素的第一多个相邻像素的第一多个像素值,其中,所述第一多个相邻像素在围绕所述第一单独像素的窗口内;
确定与所述第一多个相邻像素相关联的第一多个权重;以及
将所述第一单独像素的所述第一定向加权平均值生成为所述第一多个像素值中的每个像素值与所述相关联的第一多个权重中的每个权重的乘积之和除以所述第一多个权重之和。
6.如权利要求1所述的方法,其中,应用所述多级级联分类器中的一级包括:
针对所述输入图像的区域中的多个位置,确定所述位置包括目标特征的概率与所述位置不包括所述目标特征的概率之间的多个差之和,其中,所述多个差是经由多个查找表实现的,并且其中,所述多个查找表各自包括多个差,每个差与特征表示值相关联;以及
将所述和与预定阈值进行比较以判定所述区域是否通过或未通过。
7.如权利要求1所述的方法,其中,实现所述多级级联分类器中的一级包括:
针对图像训练集中的多个位置,确定第一贝叶斯表和第二贝叶斯表,所述第一贝叶斯表具有存在针对一系列特征表示的目标特征的概率,并且所述第二贝叶斯表具有不存在针对所述系列特征表示的目标特征的概率;
基于所述多个位置中的每个位置的幂针对所述级级联分类器的一级从所述多个位置中选择多个目标位置;以及
确定所述级的阈值,其中,所述阈值同所述目标位置包括目标特征的概率与所述位置不包括所述目标特征的概率之间的差之和相关联。
8.如权利要求1所述的方法,其中,所述特征表示包括类哈尔特征表示。
9.如权利要求1所述的方法,其中,所述特征表示包括类SURF特征,并且其中,所述多级级联分类器包括基于逻辑回归的分类器。
10.如权利要求1所述的方法,进一步包括:
通过将图像转换成灰度级并且基于缩放因子重新调整所述经转换的图像的尺寸来生成所述输入图像,
其中,对所述输入图像执行所述目标检测包括对所述输入图像的多个扫描窗口执行所述目标检测,
其中,第一扫描窗口和第二扫描窗口通过所述多级级联分类器,所述方法进一步包括:
将所述第一扫描窗口与所述第二扫描窗口合并为目标候选区域;以及
通过进行将所述目标候选区域保存在存储器中或将所述目标候选区域呈现给用户中的至少一项来处理所述目标候选区域。
11.一种用于在计算设备上提供目标检测的系统,所述系统包括:
显示设备,所述显示设备被配置成用于呈现图像数据;以及
图形处理单元,所述图形处理单元耦合至所述显示设备,其中,所述图形处理单元包括:
定向加权平均值电路,所述定向加权平均值电路被配置成用于至少部分地基于输入图像的单独像素中的每个单独像素的多个相邻像素的像素值以及与所述相邻像素中的每个相邻像素相对于所述单独像素的位置相关联的权重来确定所述单独像素的定向加权平均值;
特征表示电路,所述特征表示电路被配置成用于至少部分地基于所述定向加权平均值生成所述输入图像的特征表示;以及
多级级联分类器电路,所述多级级联分类器电路被配置成用于通过向所述特征表示应用多级级联分类器来对所述输入图像执行目标检测。
12.如权利要求11所述的系统,其中,所述特征表示包括基于所述定向加权平均值以及所述多个相邻像素的所述像素值的二进制编码图像。
13.如权利要求11所述的系统,其中,所述定向加权平均值电路被配置成用于确定所述输入图像的单独像素的定向加权平均值包括所述定向加权平均值电路被配置成用于针对第一单独像素执行以下各项:
确定所述第一单独像素的第一多个相邻像素的第一多个像素值,其中,所述第一多个相邻像素在围绕所述第一单独像素的窗口内;
确定与所述第一多个相邻像素相关联的第一多个权重;以及
将所述第一单独像素的第一定向加权平均值生成为所述第一多个像素值中的每个像素值与所述相关联的第一多个权重中的每个权重的乘积之和除以所述第一多个权重之和。
14.如权利要求11所述的系统,其中,所述多级级联分类器电路被配置成用于对所述输入图像执行目标检测包括所述多级级联分类器电路被配置成用于针对所述多级级联分类器中的一级执行以下各项:
针对所述输入图像的区域中的多个位置,确定所述位置包括目标特征的概率与所述位置不包括所述目标特征的概率之间的多个差之和,其中,所述多个差是经由多个查找表实现的,并且其中,所述多个查找表各自包括多个差,每个差与特征表示值相关联;以及
将所述和与预定阈值进行比较以判定所述区域是否通过或未通过。
15.如权利要求11所述的系统,其中,所述特征表示包括类哈尔特征表示或类SURF特征中的至少一者。
16.一种用于在计算设备上提供目标检测的系统,所述系统包括:
显示设备,所述显示设备被配置成用于呈现图像数据;以及
图形处理单元,所述图形处理单元耦合至所述显示设备,其中,所述图形处理单元包括:
用于至少部分地基于输入图像的单独像素中的每个单独像素的多个相邻像素的像素值以及与所述相邻像素中的每个相邻像素相对于所述单独像素的位置相关联的权重来确定所述单独像素的定向加权平均值的装置;
用于至少部分地基于所述定向加权平均值生成所述输入图像的特征表示的装置;以及
用于通过向所述特征表示应用多级级联分类器来对所述输入图像执行目标检测的装置。
17.如权利要求16所述的系统,其中,所述特征表示包括基于所述定向加权平均值以及所述多个相邻像素的所述像素值的二进制编码图像。
18.如权利要求16所述的系统,其中,所述特征表示包括类哈尔特征表示。
19.如权利要求16所述的系统,其中,所述特征表示包括类SURF,并且其中,所述多级级联分类器包括基于逻辑回归的分类器。
20.至少一种机器可读介质,包括多条指令,所述指令响应于在计算设备上被执行而使所述计算设备通过以下各项执行目标检测:
至少部分地基于输入图像的单独像素中的每个单独像素的多个相邻像素的像素值以及与所述相邻像素中的每个相邻像素相对于所述单独像素的位置相关联的权重来确定所述单独像素的定向加权平均值;
至少部分地基于所述定向加权平均值生成所述输入图像的特征表示;以及
通过向所述特征表示应用多级级联分类器来对所述输入图像执行目标检测。
21.如权利要求20所述的机器可读介质,其中,所述特征表示包括基于所述定向加权平均值以及所述多个相邻像素的所述像素值的二进制编码图像。
22.如权利要求20所述的机器可读介质,其中,所述特征表示包括基于所述定向加权平均值以及所述多个相邻像素的所述像素值的二进制编码图像,并且其中,生成所述二进制编码图像包括针对所述单独像素的第一单独像素:
基于所述第一单独像素的第一多个相邻像素的每个像素值与所述第一单独像素的第一定向加权平均值的比较,为所述第一多个相邻像素中的每个相邻像素分配值0或1;以及
基于所述第一多个相邻像素的所述分配值,确定所述第一单独像素的二进制编码表示。
23.如权利要求20所述的机器可读介质,其中,确定第一单独像素的第一定向加权平均值包括:
确定所述第一单独像素的第一多个相邻像素的第一多个像素值,其中,所述第一多个相邻像素在围绕所述第一单独像素的窗口内;
确定与所述第一多个相邻像素相关联的第一多个权重;以及
将所述第一单独像素的所述第一定向加权平均值生成为所述第一多个像素值中的每个像素值与所述相关联的第一多个权重中的每个权重的乘积之和除以所述第一多个权重之和。
24.如权利要求20所述的机器可读介质,其中,应用所述多级级联分类器中的一级包括:
针对所述输入图像的区域中的多个位置,确定所述位置包括目标特征的概率与所述位置不包括所述目标特征的概率之间的多个差之和,其中,所述多个差是经由多个查找表实现的,并且其中,所述多个查找表各自包括多个差,每个差与特征表示值相关联;以及
将所述和与预定阈值进行比较以判定所述区域是否通过或未通过。
25.如权利要求20所述的机器可读介质,其中,实现所述多级级联分类器中的一级包括:
针对图像训练集中的多个位置,确定第一贝叶斯表和第二贝叶斯表,所述第一贝叶斯表具有存在针对一系列特征表示的目标特征的概率,并且所述第二贝叶斯表具有不存在针对所述系列特征表示的目标特征的概率;
基于所述多个位置中的每个位置的幂针对所述级级联分类器的一级从所述多个位置中选择多个目标位置;以及
确定所述级的阈值,其中,所述阈值同所述目标位置包括目标特征的概率与所述位置不包括所述目标特征的概率之间的差之和相关联。
CN201480077031.5A 2014-04-11 2014-04-11 使用定向滤波的目标检测 Pending CN106575364A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/075165 WO2015154305A1 (en) 2014-04-11 2014-04-11 Object detection using directional filtering

Publications (1)

Publication Number Publication Date
CN106575364A true CN106575364A (zh) 2017-04-19

Family

ID=54287142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480077031.5A Pending CN106575364A (zh) 2014-04-11 2014-04-11 使用定向滤波的目标检测

Country Status (5)

Country Link
US (1) US10121090B2 (zh)
EP (1) EP3129915B1 (zh)
CN (1) CN106575364A (zh)
TW (1) TWI617996B (zh)
WO (1) WO2015154305A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385414A (zh) * 2023-04-10 2023-07-04 哈尔滨耐是智能科技有限公司 零部件多尺度缺陷特征提取方法、计算设备及存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110264530A1 (en) 2010-04-23 2011-10-27 Bryan Santangelo Apparatus and methods for dynamic secondary content and data insertion and delivery
CA2958888C (en) * 2014-08-28 2023-02-28 Retailmenot, Inc. Reducing the search space for recognition of objects in an image based on wireless signals
US9710722B1 (en) * 2015-12-29 2017-07-18 Stmicroelectronics International N.V. System and method for adaptive pixel filtering
US10586023B2 (en) 2016-04-21 2020-03-10 Time Warner Cable Enterprises Llc Methods and apparatus for secondary content management and fraud prevention
US11055872B1 (en) * 2017-03-30 2021-07-06 Hrl Laboratories, Llc Real-time object recognition using cascaded features, deep learning and multi-target tracking
CN107301427B (zh) * 2017-06-19 2021-04-16 南京理工大学 基于概率阈值的Logistic-SVM目标识别算法
US10922626B2 (en) * 2018-03-09 2021-02-16 Qualcomm Incorporated Conditional branch in machine learning object detection
US11064219B2 (en) * 2018-12-03 2021-07-13 Cloudinary Ltd. Image format, systems and methods of implementation thereof, and image processing
US11403849B2 (en) * 2019-09-25 2022-08-02 Charter Communications Operating, Llc Methods and apparatus for characterization of digital content
EP4131975A4 (en) * 2020-04-14 2023-11-22 LG Electronics, Inc. POINT CLOUD DATA TRANSMITTING APPARATUS, POINT CLOUD DATA TRANSMITTING METHOD, POINT CLOUD DATA RECEIVING APPARATUS, AND POINT CLOUD DATA RECEIVING METHOD

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070014482A1 (en) * 2005-07-14 2007-01-18 Mavs Lab. Inc. Pixel data generating method
CN101369315A (zh) * 2007-08-17 2009-02-18 上海银晨智能识别科技有限公司 人脸检测方法
CN102281388A (zh) * 2010-06-09 2011-12-14 联咏科技股份有限公司 适应性滤除影像噪声的方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050639B1 (en) 1999-11-24 2006-05-23 General Electric Company Image data compression employing multiple compression code tables
KR100601453B1 (ko) 2004-03-10 2006-07-14 엘지전자 주식회사 지문 인식 방법
US7319797B2 (en) 2004-06-28 2008-01-15 Qualcomm Incorporated Adaptive filters and apparatus, methods, and systems for image processing
US8384122B1 (en) 2008-04-17 2013-02-26 The Regents Of The University Of California Tunneling transistor suitable for low voltage operation
CN101520850B (zh) 2009-04-17 2012-02-15 中国科学院计算技术研究所 物体检测分类器的构造方法和物体检测方法与相应系统
US8242933B2 (en) 2009-07-18 2012-08-14 Ibis Tek, Llc Wireless traffic light controller
US8368127B2 (en) 2009-10-08 2013-02-05 Globalfoundries Singapore Pte., Ltd. Method of fabricating a silicon tunneling field effect transistor (TFET) with high drive current
US20110293173A1 (en) 2010-05-25 2011-12-01 Porikli Fatih M Object Detection Using Combinations of Relational Features in Images
US8258031B2 (en) 2010-06-15 2012-09-04 International Business Machines Corporation Fabrication of a vertical heterojunction tunnel-FET
US8309989B2 (en) 2010-08-18 2012-11-13 Purdue Research Foundation Tunneling field-effect transistor with low leakage current
US8983940B2 (en) 2011-09-02 2015-03-17 Adobe Systems Incorporated K-nearest neighbor re-ranking
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
WO2013063765A1 (en) 2011-11-01 2013-05-10 Intel Corporation Object detection using extended surf features
JP5938631B2 (ja) 2011-12-19 2016-06-22 パナソニックIpマネジメント株式会社 物体検出装置及び物体検出方法
US9275300B2 (en) 2012-02-24 2016-03-01 Canon Kabushiki Kaisha Method and apparatus for generating image description vector, image detection method and apparatus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070014482A1 (en) * 2005-07-14 2007-01-18 Mavs Lab. Inc. Pixel data generating method
CN101369315A (zh) * 2007-08-17 2009-02-18 上海银晨智能识别科技有限公司 人脸检测方法
CN102281388A (zh) * 2010-06-09 2011-12-14 联咏科技股份有限公司 适应性滤除影像噪声的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385414A (zh) * 2023-04-10 2023-07-04 哈尔滨耐是智能科技有限公司 零部件多尺度缺陷特征提取方法、计算设备及存储介质
CN116385414B (zh) * 2023-04-10 2023-11-07 哈尔滨耐是智能科技有限公司 零部件多尺度缺陷特征提取方法、计算设备及存储介质

Also Published As

Publication number Publication date
US10121090B2 (en) 2018-11-06
EP3129915A4 (en) 2018-03-07
WO2015154305A1 (en) 2015-10-15
EP3129915B1 (en) 2021-07-07
US20170039444A1 (en) 2017-02-09
EP3129915A1 (en) 2017-02-15
TW201539333A (zh) 2015-10-16
TWI617996B (zh) 2018-03-11

Similar Documents

Publication Publication Date Title
CN106575364A (zh) 使用定向滤波的目标检测
CN108229277B (zh) 手势识别、手势控制及多层神经网络训练方法、装置及电子设备
US10402697B2 (en) Fusing multilayer and multimodal deep neural networks for video classification
US10685262B2 (en) Object recognition based on boosting binary convolutional neural network features
US11880770B2 (en) 3D object recognition using 3D convolutional neural network with depth based multi-scale filters
CN107278314A (zh) 具有自适应有向空间滤波器的非局部均值图像去噪
US9940550B2 (en) Model compression in binary coded image based object detection
WO2016165060A1 (en) Skin detection based on online discriminative modeling
CN106255990B (zh) 用于相机阵列的图像重对焦
CN106663314A (zh) 实时皮肤平滑图像增强滤波器
CN107257980A (zh) 视频中的局部改变检测
CN108701355B (zh) Gpu优化和在线基于单高斯的皮肤似然估计
CN104012072B (zh) 使用运动估计的目标检测
CN110414593B (zh) 图像处理方法及装置、处理器、电子设备及存储介质
US20180314916A1 (en) Object detection with adaptive channel features
JP7459425B2 (ja) 適応的ランタイム高効率画像分類のための入力画像サイズスイッチ可能ネットワーク
CN107004264A (zh) 增加针对具有对角布局的相机图像的整数视差精度的方法和系统
US20240005649A1 (en) Poly-scale kernel-wise convolution for high-performance visual recognition applications
CN111428551B (zh) 密度检测方法、密度检测模型训练方法和装置
CN106105214A (zh) 运动估计中的回退检测
CN113516665A (zh) 图像分割模型的训练方法、图像分割方法、装置、设备
CN105989602A (zh) 有噪图像中的斑点检测
WO2023044208A1 (en) Low-power fusion for negative shutter lag capture
CN116109531A (zh) 图像处理方法、装置、计算机设备及存储介质
CN111862105A (zh) 图像的区域处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170419