CN102812474B - 头部识别方法 - Google Patents

头部识别方法 Download PDF

Info

Publication number
CN102812474B
CN102812474B CN201080059596.2A CN201080059596A CN102812474B CN 102812474 B CN102812474 B CN 102812474B CN 201080059596 A CN201080059596 A CN 201080059596A CN 102812474 B CN102812474 B CN 102812474B
Authority
CN
China
Prior art keywords
head
source images
module
depth
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080059596.2A
Other languages
English (en)
Other versions
CN102812474A (zh
Inventor
X·巴埃莱
J·托尔罗特
J·马丁内斯冈萨雷斯
K·西蒙斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Depthsensing Solutions NV SA
Original Assignee
Softkinetic SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Softkinetic SA filed Critical Softkinetic SA
Publication of CN102812474A publication Critical patent/CN102812474A/zh
Application granted granted Critical
Publication of CN102812474B publication Critical patent/CN102812474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

在此描述一种用于识别源图像中的人的头部的方法。该方法包括:检测源图像中的人体的至少一部分的轮廓,以及计算源图像中该人体的深度。根据源图像,计算与处于该深度的人的头部相对应的椭圆的长半径尺寸及短半径尺寸,以及针对所检测的轮廓的一组像素中的至少数个像素,在累加器阵列中生成以该轮廓像素的位置为中心且具有该长半径及短半径尺寸的椭圆的至少一个线段。选择该累加器阵列中局部强度最大值的位置,作为对应于源图像中的人的头部候选者的位置。

Description

头部识别方法
技术领域
本发明涉及用于识别源图像中的人的头部的方法及计算机系统。具体来说,本发明涉及使用深度信息(depth information)来预测人的头部的最可能感知尺寸以有助于其识别的方法。
背景技术
在各种成像系统及图像处理应用中,自动识别源图像中的人的头部的位置和/或方位是有利的。例如,使用者可在成像装置的范围内移动他的头部来与在计算机系统中运行的程序,例如,视频游戏程序,互动。可替代地,这样的头部识别方法也可用于成像装置中,以调整诸如光圈、曝光时间、聚焦深度等参数,从而针对人像摄影来优化这些参数。
与计算机系统的互动以及特别是与数据及指令的输入的互动是普遍已知的问题。传统上,以诸如键盘、鼠标、滚轮、笔、触摸屏、操控杆、游戏手柄等响应于使用者的物理动作而产生信号的物理输入装置来进行这样的互动。然而,这样的物理输入装置具有许多缺点。例如,它们只能提供有限量的不同输入信号,而这些有限量的不同输入信号在诸如三维“虚拟现实”环境的某些应用中,会感觉不灵巧且欠缺真实性。此外,它们容易损坏且它们的持续使用甚至会对使用者的健康产生负面的后果,例如重复性劳损(RSI)。
另外已知替代的输入装置及方法。例如,可使用用于语音识别的实用系统。然而,语音识别对于诸如需要使用者快速、精准及重复输入的动作游戏的某些应用而言,并不是实用的替代方式。此外,它们的效果受背景噪音的不利影响,且它们通常需要学习时段,以识别特定使用者的语音指令。
另一替代方法是图像识别。在其最简单的形式中,图像识别系统识别对比色的诸如条形码的二进制图案,并将这些图案转换为二进制信号以进行处理。更先进的图像识别系统可识别图像中更复杂的图案,并对应产生大量的信号。例如在美国专利6256033中已经提出这样的图像识别系统,用于识别成像系统范围中使用者的姿态。然而,传统成像系统不能感知深度而仅能产生所述使用者的2D投影。因此,使用者姿态的识别本质上存在缺陷,受限于可能输入的范围,且充满多种可能的识别错误。特别是,这样的系统存在将使用者与其背景分离的问题。
然而,3D成像系统的发展提供了开发实现例如更好的使用者姿态识别的形状识别方法及装置的可能性。G. Yahav,G. J.Iddam及D.Mandelboum在“3D imaging Camera for Gaming Application”中公开了一个这样的3D成像系统。在此论文中公开的3D成像系统属于所谓的“飞行时间”或TOF型,其中根据从该3D成像系统的范围内的对象所反射的光的波前形状获得深度感知。然而,也已经提出了其它类型的成像系统,诸如,立体相机、LIDAR、雷达、声纳等。
例如在国际专利申请WO 2008/128568A1中已提出捕获场景的3D图像,以选择所述3D图像中的诸如人体的主体,并将该主体分割成包括头部的多个不连续区域。
在美国专利US 7,203,356中,提出在各种可替代方式中使用椭圆或椭球拟合,以确定在由3D成像系统捕获的源图像中的人的头部的位置。然而,该现有技术文件并没有公开如何获得对该头部进行建模的椭圆或椭球的参数。
Zhengcheng Hu、Tetsuya Kawamura及Keiichi Uchimura于2008年11月在澳大利,Vienna,Stereo Vision,ISBN 978-953-7619-22-0,I-Tech,第91-102页的“Grayscale Correlation based 3D Model Fitting for OccupantHead Detection and Tracking”中已提出类似的3D模型拟合方法。
Ehsan Parvizi及Q.M.Jonathan Wu在IEEE International Conference onTools with Artificial Intelligence 19th的“Real-Time 3D Head TrackingBased on Time-of-Fight Depth Sensor”中提出另一种使用3D数据及椭圆拟合以便追踪人的头部的方法。然而,此论文也未公开将如何获得该优选的头部模型的优选参数。
在“Transformée de Hough elliptique floue rapide”中,C.Leignel、O.Bernier、D.Collobert及R.Seguier公开一种用于识别图像中的椭圆轮廓的特别有效的计算机实施方法及其对于头部识别的应用。在该方法中,使用特定类型的椭圆霍夫(Hough)变换,以识别从源图像中生成的轮廓图像中的椭圆形状。
霍夫变换是一种由表决程序(voting procedure)在图像中寻找在某一类别内的对象的不完善实例(imperfect instance)的方法。在所谓累加器阵列(accumulator array)中实施此表决程序,由此获得对象候选者作为局部强度最大值。通过在对应于该图像中的个别点的位置产生正在被寻找的对象的实例来填入该累加器阵列。在椭圆霍夫变换的特定情况中,该对象是椭圆。该累加器阵列中的局部强度最大值,即,多个椭圆相交的位置代表该图像中的相似椭圆的候选者位置。在Leignel等人公开的方法中,为了增加计算速度,只以这些椭圆的代表性线段填入该累加器阵列。为了增加检测速率,使用例如在理想椭圆形状周围具有递减强度分布的模糊椭圆。
然而,在事先不知道该图像中的头部的期望尺寸的情况下,必须在计算速度与误报(false positives)的可能性之间找到折衷。为了缓和该问题,在该现有技术的方法中,只考虑肤色区域的轮廓。然而,如果使用者穿着肤色的衣服,则会增加误报的风险。而且,该现有技术方法受限于在离该成像系统的相对有限距离范围,即1至2.5米内检测人的头部。
在所公开的美国专利申请US 2005/031166、US 2005/058337及US2003/235341中描述了在源深度图像中找出人的头部的其它方法。
此外,Clabian M等人在因特网上已公开可从URL:http://www.prip.tuwien.ac.at/~krw/papers/2002/DAGM/Clabian.pdf获得的关于头部检测的文章,其题目为“Head detection and localization from sparse 3Ddata”,INTERNET CITATION 2002,XP002389335。Krotosky SJ等人在INTELLIGENT VEHICLES SYMPOSIUM,2004IEEE Parma,意大利,2004年6月14-17日Piscatawy,NJ,美国,IEEE LNKD-DOI:10.1109/VS.2004.1336469,2004年6月14日,第698至703页,XP10727732ISPB:978-0-7803-8310-4,也发表题目为“Occupant postureanalysis using reflectance and stereo images for smart airbag deployment”的文章,其涉及检测车辆中的座位的乘客,以控制安全气囊的展开。
发明内容
本发明的目的在于提供一种用于识别源图像中的人的头部的快速且精确的方法。
为此,根据本发明的方法的实施例包括以下步骤:
-检测所述源图像中的人体的至少一部分的轮廓;
-计算所述源图像中的所述人体的所述部分的深度;
-计算所述源图像中与处于所述深度的人的头部相对应的椭圆的长半径尺寸及短半径尺寸;
-在累加器阵列中针对所述轮廓的一组像素中的至少数个像素,生成以所述轮廓像素的位置为中心且具有所述长半径及短半径尺寸的椭圆的至少一个线段;
-选择所述累加器阵列中局部强度最大值的位置,作为对应于所述源图像中的最佳的人的头部候选者的位置;以及
-选择所述累加器阵列中具有最高能量且以附加的检测方法进行正加权的头部候选者中的最佳头部候选者。
因为实际的人的头部尺寸与身体高度的比率尽管与年龄及性别有关,然而通常保持在与年龄或性别无关的相对窄的范围内,所以用于确定它在图像中的外观尺寸的最重要变量是至该人的头部的距离,即,该图像内的人的头部的深度测量值。构成该图像中的头部的椭圆的长半径及短半径尺寸将与该深度基本成比例。通过使用用于实施人体的至少一部分的轮廓的椭圆霍夫变换的信息,可增加计算速度,同时降低误报率。
可以以各种不同方式,诸如,飞行时间相机、立体相机、LIDAR、雷达、声纳等获得该深度数据。有利地,所述深度可以是在给定时刻源图像中的人体的平均深度。可替代地,可以针对每一轮廓像素单独计算所述深度和所述长半径与短半径尺寸。
为了进一步增加识别源图像中的人的头部的机会,可以在所述累加器阵列中生成椭圆的所述至少一个线段之前,有利地执行所述轮廓的形态扩张(morphological dilation)。通过加宽该轮廓,最大化被执行后续霍夫变换的表面,并且因此,最大化识别椭圆的功率。
有利地,椭圆的所述至少一个线段可以是模糊(fuzzy)的。应当理解,由“模糊”取代清楚的限定线,在该累加器阵列中投射椭圆的至少一个线段,作为在理想椭圆线周围具有强度分布,例如,高斯强度分布的模糊线。
有利地,该轮廓检测步骤也可以包括针对每一轮廓像素的局部轮廓方位的检测。例如,实施用于轮廓检测的Shen-Castan算法,也提供附加信息,该附加信息可用于进一步增加本发明的头部识别方法的速度及精度。例如,甚至更有利的,可以根据对应轮廓像素的局部轮廓方位定位椭圆的所述至少一个线段。
本发明的另一目的是最小化误报的数量。这样的误报尤其可能是起因于手和腿的轮廓。这样的轮廓通常形成数对平行线,在执行该椭圆霍夫变换时,该平行线易于在该累加器阵列中生成强度脊部(intensityridges)。为了将位于这样的强度脊部的局部强度最大值与对应于头部位置的分离的局部强度最大值区分开,在根据本发明的方法的特定实施例中,在所述选择步骤之前,可以对该累加器阵列中的多个局部强度最大值中的每一个执行以下步骤:
-在以该累加器阵列中的每一局部强度最大值为中心的圆周中找出第一位置,其中所述第一位置在所述圆周中具有最高强度;
-在所述圆周中找出第二位置,其中所述第二位置在所述圆周的与第一位置相对的弧中具有最高强度;
-以因子W=m2/mc1·mc2对该局部强度最大值的强度m进行加权,其中mc1是所述第一位置处的强度,以及mc2是所述第二位置处的强度。
如果局部强度最大值是在强度脊部内,则mc1及mc2两者的值通常将接近m的值。因此,该加权因子W将不会远高于1。另一方面,如果该局部强度最大值是分离的,则该值mc1及mc2远小于m,并且该加权因子W将因而增加。该加权因子因而将突显最可能对应于人的头部的该局部强度最大值。
有利地,也为了最小化误报,特别是由于肩部及手肘造成的误报,在所述选择步骤之前,可以基于至少一个附加的头部识别方法的输出,来对该累加器阵列中的多个局部强度最大值中的每一个的强度附加地进行加权,所述至少一个附加的头部识别方法选自包括以下的组:皮肤色调识别、图案匹配、头发识别、下颌检测、孔检测、与所述人体的质心或末端(extremity)的连接的检测、至虚拟脊骨、上体轴线和/或视频序列中的先前头部位置的距离。因此,通过组合至少两个不同但快速的头部识别方法,可以增加根据本发明的方法的可靠性。
有利地,如果源图像是视频序列的当前帧,以及在先前帧中选择的位置在当前帧中被遮蔽,则忽视任一局部强度最大值,并且维持该先前帧中选择的位置,作为对应于当前帧中的头部位置。
本发明的另一目的在于提供一种用于源图像中的头部识别的计算机系统。在本发明的特定实施例中,因此计算机系统被编程为执行根据本发明的方法。有利地,所述计算机系统可以包括用于捕获所述源图像以及可能的所述深度的成像装置,特别是3D成像装置。
在另一特定实施例中,提供一种计算机可读取数据存储介质,其包含用于执行根据本发明的计算机实施方法的计算机可执行指令。
所谓“计算机可读取数据存储介质”意味着任何包含数字数据的计算机可读取载体,其包括但不限于诸如随机存取存储器、闪存或只读存储器的固态存储器,而且包括但不限于诸如硬盘驱动器或磁带的磁性数据存储介质、诸如光盘的光学数据存储介质。
附图说明
在阅读以下详细描述以及参考附图时,本发明的这些及其它目的将变得更加明显。
图1示出人类使用者站在3D成像装置前的房间;
图2示出由3D成像系统捕获的呈分布于三维空间中的点的形式的该同一房间的三维图像数据;
图3示出该使用者的位图掩码图像;
图4示出该使用者的轮廓图像;
图5示出该使用者的扩张轮廓图像;
图6示意性示出累加器阵列中的模糊椭圆的产生,其对应于轮廓图像中的点。
图6A示出根据该局部轮廓方位取向模糊椭圆的具体实施例;以及
图6B示出截断所取向的模糊椭圆的具体实施例;
图7示意性示出该累加器阵列中的图像;
图8示出强度脊部中的局部最大值,以及所述强度脊部与以所述局部最大值为中心的圆周的交点;
图9示出具有虚拟脊骨的图3的位图掩码图像;
图10示出具有该上体轴线的主方向的图3的位图掩码图像;
图11示出具有质心及连接该质心至两个候选头部位置的线的图3的位图掩码图像;
图12示出在图3的位图掩码图像的部分上叠置的矩形深度检查区域;
图13示出对应于图12的矩形深度检查区域的深度直方图;
图14示出以两只手抱住其头部的使用者的位图掩码图像;以及
图15示出被分割成互连区域的图3的位图掩码图像。
虽然本发明易于做出各种修改及替代形式,但是其具体实施例通过视图中的示例方式来示出,并且将在此做详细描述。然而,应该理解,并不旨在将本发明局限于所公开的特定形式,而是意欲覆盖落入所附权利要求所表述的本发明范围内的所有修改、等价物及替代物。
具体实施方式
图1中示出根据本发明的计算机实施头部识别方法及计算机系统的实施例的可能使用之一。在该应用中,该系统及方法用于感兴趣对象,在该情况中为人类使用者1,的姿态的识别,以便与产生被显示给该人类使用者1的虚拟环境的计算机系统2互动。
该体积识别系统包括3D成像系统,在此特定实施例中,为飞行时间(TOF)3D相机3。该TOF 3D相机3连接至将与该人类使用者1互动的计算机系统2。在该实施例中,该计算机系统2本身编程为以与该TOF 3D相机3合作来实施本发明的体积识别方法。可替代地,编程为用于实施所述方法的单独的数据处理装置可连接在该TOF 3D相机与该计算机系统2之间,以便使该人类使用者能与该计算机系统2互动。
该TOF 3D相机3捕获该人类使用者1站立的房间4的3D图像数据,该3D图像数据包括该房间的具有多个像素的2D源图像及对于每一像素的深度值,该深度值对应于到由该像素成像的点的TOF 3D相机3的距离。因为该2D图像中的像素的X及Y位置本身对应于它们所表示的点相对于该TOF 3D相机3的天顶角及方位角,所以可以如图2中所示的,由与TOF 3D相机3范围内的对象的可视点相对应的三维点云5,来示出这些3D图像数据。
如果(I)是由3D相机3捕获的源图像的深度图,以及(I0)是在没有该使用者1的情况下相同场景的初始深度图,则形态减法(morphologicalsubtraction)将在深度图(Indg)中分离人类使用者1的身体,如下:
(I)-(I0)=(Indg)
接着使该深度图(Indg)二值化,以便获得位图图像(Ib),在该位图图像(Ib)中由“1”像素标记该人类使用者1的身体,以及由“0”像素标记背景。图3中示出这样的位图图像(Ib)。
在采用这些步骤分离人类使用者1的身体的位图图像之后,随后可以使用边缘检测器来检测该使用者1的身体的轮廓,以产生如图4中所示的轮廓图像(Ic),该边缘检测器诸如为“Transformée de Hough elliptiquefloue rapide”中所述形式的Shen-Castan边缘检测器,或J.Canny在IEEETrans.Pattern Analysis and Machine Intelligence,8:679-714,1986的“AComputational Approach To Edge Detection”中原始公开的Canny边缘检测器。
为了增加本发明的方法的检测速率,在下一步骤中,可以通过对该轮廓图像(Ic)实施形态扩张来加宽该轮廓线,以获得如图5所示的扩张轮廓图像(Id)。
在第一实施例中,随后对与该使用者1的身体相对应的三维点云5的深度取平均。这可以以至少两个可替代的方式来实施:
在该第一实施例的第一替代方式中,如果例如使用在国际专利申请WO 2008/128568A1中公开的方法将点群5识别为对应于该使用者的身体,则将该点群5的质心的深度视为该图像中的使用者身体的平均深度。
在该第一实施例的第二替代方式中,可以对表示该深度图(Indg)中的使用者1的点5的深度取平均。例如,可以使用以下等式:
d av = Σ i = 1 n Σ j = 1 m I ndg ( i , j ) · I b ( i , j )
其中dav是算术平均深度,以及n与m是深度图图像的维度。技术人员可以根据情况考虑诸如中值的不同类型的平均来代替算数平均。
在下一步骤中,按照以下等式,基于期望的实际头部尺寸、焦距及所述深度,计算在该平均深度dav构成该源图像中的使用者1的头部的虚拟椭圆的期望长半径a及短半径b:
a = F d av · A
b = F d av · B
其中F是焦距,以及A及B是所期望的实际头部高度及宽度。
可以将这些所期望的实际头部尺寸A及B存储在该计算机系统2的存储器中,作为相对于该使用者1的实际尺寸(实际尺寸自身可以基于源图像中的使用者1的尺寸、焦距及深度来计算)的绝对尺寸或相对尺寸。
在以下步骤中,接着对该扩张轮廓图像(Id)实施椭圆霍夫变换。在该运算中,对于该扩张轮廓图像(Id)中的每一像素,产生以累加器阵列(Ie)中的对应位置为中心的具有所述长半径和短半径尺寸a及b的椭圆(或其至少线段)。这样的椭圆中的每一位置具有强度值,以及在椭圆在累加器阵列中的重叠处加入这些数值。在优选模式中,如图6所示,在该累加器阵列(Ih)中产生的椭圆是模糊椭圆,该模糊椭圆由来自该扩张轮廓图像(Id)的像素6与具有该尺寸a及b的椭圆掩码7,以及与在其中心周围具有逐渐减小的强度分布的模糊掩码8的卷积(convolution)T造成。此强度分布可以例如是高斯分布。
因此,例如,对于位置x、y的像素:
T(Id(x,y))+=3(即,使该累加器阵列在基本椭圆的位置处增加3个单元);
T(Id(x±1,y))+=2(即,使该累加器阵列在该基本椭圆的每一位置的正右边及左边的位置处增加2个单元);
T(Id(x,y±1))+=2(即,使该累加器阵列在该基本椭圆的每一位置的正上方及下方的位置处增加2个单元);
T(Id(x±1,y±1))+=1(即,使该累加器阵列在该基本椭圆的每一位置的正右上方、左上方、右下方及左下方的位置处增加1个单元)。
有利地,如果使用诸如Shen-Castan边缘检测器的边缘检测器来产生该轮廓图像(Ic),该边缘检测器也提供有关该轮廓线的局部方位的信息,则也可以利用该信息修改椭圆掩码7。例如,如图6A中所示,该椭圆掩码7可以以沿着轴线M的该轮廓线的局部方位的长半径方向进行取向,或如图6B所示,可以在椭圆掩码7的底部截断该椭圆掩码7,以反映出在该扩张轮廓图像(Id)中可能未出现下颌。
在第二实施例中,对于待应用于每一单独像素的该椭圆掩码7的尺寸,可以考虑该扩张轮廓图像(Id)中的每一个像素的各自深度d(i,j),以代替基于平均深度dav来计算椭圆掩码7的尺寸a及b。这可以例如使用扩张轮廓深度图(Ie)=(Id)·(Indg)及以下等式来实施:
a ( i , j ) = F d ( i , j ) · A
b ( i , j ) = F d ( i , j ) · B
在两个实施例中,最后结果是如图7所示的累加器阵列,其中强度峰值8处于该源图像中的人的头部出现的可能性最高的位置。
然而,由于在源图像中最终存在使用者1的末端,导致该轮廓图像(Ic)中几乎平行的线,图7除该强度峰值8之外,也会呈现对应于这些末端的强度脊部9(图8)。为了抑制因在该累加器阵列中存在这些强度脊部9所造成的误报,将对应于分离的强度峰值8的局部强度最大值与位于强度脊部9的局部强度最大值区分开是有利的。
因此,在图8中所示的下一步骤中,为了区分强度脊部9,可以引用加权因子W。为了针对每一局部强度最大值计算该加权因子,在累加器阵列中追踪以该局部强度最大值的位置11为中心且具有预定半径r≥b(通常是r=b)的圆周10。然后,找出该圆周中具有最高强度的第一位置12,并且将其强度值储存为mc1。接着,该计算机系统2找出第二位置13,该第二位置13在该圆周10的与该第一位置12相对的线段14(通常为半圆周)中具有最高强度,以及将其强度值存储为mc2。如果将局部强度最大值的位置11处的强度值表示为m,则根据该等式W=m2/mc1·mc2计算该加权因子W。因为在如图8所示的强度脊部9中,mc1及mc2两者将具有接近m的值,所以将采用仅略微大于1的加权因子W加权位于这样的强度脊部9的局部强度最大值的强度值,而将采用显著更高的加权因子加权分离的局部强度最大值,更可能包括对应于源图像中的人的头部的位置的局部强度最大值。
最后,还可以使用至少一个附加的头部检测方法的输出,来加权最高局部强度最大值中的剩余组候选者。可以采用适合于每一附加方法的加权因子来加权候选者。然后,可以使用表决程序,选择对应于源图像中的人的头部的一个或一组候选者。
如图9所示,这些附加方法之一包括以二次或三次函数的形式,计算经过如位图图像(Ib)中所表示的人类使用者1身体的最大长度的虚拟脊骨15。候选椭圆16表示该人类使用者1头部的概率将随着该虚拟脊骨与该候选椭圆16之间的距离而减小。
相似的补充方法是基于主上体轴线18的计算,该主上体轴线18以该位图图像(Ib)中所表示的人类使用者1的质心为中心。这在图10中示出。通常,人类使用者1的头部应该与此轴线紧密对齐,并且因此,候选椭圆16表示该使用者1的头部的概率也将随着该轴线与候选椭圆16之间的距离而减少。
如图11中所示,这些附加方法中的另一个是测试该人类使用者的质心17与候选椭圆16之间的该人类使用者身体的位图图像(Ib)的连续性。对于该测试,可以使用Brezenham算法。如果该测试输出为负,则该候选椭圆16表示该人类使用者1头部的概率将较低的。
这些附加方法中的另一个是皮肤色调识别。如果该3D相机是彩色相机,则可以估计候选者是否具有与已知皮肤色调相关联的颜色。如果不是这个情况,则该候选者表示该人类使用者的头部的概率将较低。有利地,可以使用颜色变换算法,变换由该3D相机捕获的颜色数据,例如,RGB数据,至更适合皮肤色调识别的颜色空间,诸如与装置无关的CIE1931XYZ颜色空间、或感知均匀CIE 1976L*a*b或CIECAM02颜色空间。
这些附加方法中的另一个是头发识别。特别地,如果该3D相机是具有红外遥测检测器的TOF相机,以及因为头发极大地吸收任何入射的红外辐射,所以如果在候选椭圆的边缘,特别是上边缘的预定距离内具有无法返回良好限定的深度信号的区域,则该候选椭圆表示人类使用者头部的概率将较高。
这些附加方法中的另一个是将对应于候选椭圆的该点云与表示人的头部的特定或一般图案进行匹配。如果该图案匹配测试返回肯定结果,则该候选椭圆表示人类使用者的头部的概率将较高。
这些附加方法中的另一个是下颌检测。当人类使用者正面对3D相机时,该3D相机将记录该人类使用者的下颌与颈部之间通常具有4至9cm之间的深度差。如果在该候选椭圆的下边缘检测到这样的步骤,则该候选椭圆表示人类使用者的头部的概率将较高。图12及图13示出如何检测这样的步骤。在该深度图(Indg)中选择根据该候选椭圆的主轴线取向并以其下边缘为中心的例如高度20cm及宽度10cm的矩形检查区域19。如图13的直方图所示,如果在该检查区域中测量的深度值集中在两个彼此分离约4至9cm的不同频率最大值20、21周围,则检测出下颌。
如图14中所示,当该使用者的至少一个手臂抱住头部时,手肘可能形成另一候选椭圆16。同时,孔22形成在由位图图像(Ib)形成的人类使用者1的剪影中的该头部与该手肘之间。在另一附加方法中,检测该剪影中的这样的孔22的形成,以及对相邻于该孔22的任何同时产生的新候选者16的椭圆给出较低的加权。
当如国际专利申请WO 2008/128528所公开的,将该3D相机捕获的对应于该人类使用者的点分组为互连区域的网状物时,可使用包含该网状物中的末端的检测的另一附加方法。在WO 2008/128528中,公开一种识别三维空间内的体积的方法,其中三维图像数据包括三维空间的多个点。使这些点成群,并且选择一个群作为感兴趣的点。将所选群内的点再分组成数个子群,每一子群具有质心以及与该质心相关联的体积。可以使质心连接,以形成表示对象的网状物,以及将末端识别为仅连接至另一质心的质心。
如图15所示,将仅直接连接至另一区域的那些区域视为末端23。也可将直接连接至一个以上的其它区域的那些区域视为末端23,但是只有在将其质心连接至相邻区域的质心的线24是在诸如45°的最大角度内的情况下。与这样的末端23相符的候选椭圆16将更可能表示该使用者1的头部。
在视频序列中,也可以考虑时间相干性及暂时遮蔽。例如,如果前述方法评级的候选者已从前一帧跳至当前帧多于预定距离,则在较低等级候选者在前一帧中位于离头部位置的所述预定距离内的情况下,可以考虑该较低等级候选者。如果在新的帧中遮蔽对应于前一帧中的最高等级候选者的区域,则可以忽视该新帧中的候选者,并且保持来自该前一帧的头部位置,最终直到该遮蔽结束。
虽然已参照特定示例性实施例来描述本发明,但是显然,在不脱离如权利要求中所阐述的本发明的较广范围的情况下,可以对这些实施例做出各种修改及变型。因此,说明书和附图应视为说明性的而并非限定性。

Claims (20)

1.一种用于识别源图像中的人的头部的计算机实施方法,所述源图像具有其每一像素的深度值,所述方法包括以下步骤:
a)将所述源图像中的人体的至少一部分与背景分割;
b)检测人体的所述分割部分的边缘以确定所述部分的轮廓;以及
c)确定所述源图像内人的头部的位置;
其特征在于:步骤c)还包括以下步骤:
c1)计算所述源图像中的人体的所述部分的深度;
c2)计算所述源图像中与处于所述计算的深度的人的头部的尺寸相对应的椭圆的长半径尺寸及短半径尺寸;
c3)对于以一组轮廓像素的位置为中心的椭圆的至少一个线段生成累加器阵列,所述椭圆的所述至少一个线段具有所述长半径及短半径尺寸;以及
c4)选择所述累加器阵列中局部强度最大值的位置,所述局部强度最大值的位置对应于所述源图像中的人的头部的位置。
2.根据权利要求1所述的计算机实施方法,其中,所述深度是所述源图像中的人体的所述部分的平均深度。
3.根据权利要求1所述的计算机实施方法,其中,针对每一轮廓像素单独计算所述深度和所述长半径及短半径尺寸。
4.根据前述权利要求中任一项所述的计算机实施方法,还包括在步骤c2)之前,执行所述轮廓的形态扩张的步骤,并且针对所述扩张的轮廓执行所述步骤c2)。
5.根据权利要求1至3中任一项所述的计算机实施方法,其中,椭圆的所述至少一个线段是模糊的。
6.根据权利要求1至3中任一项所述的计算机实施方法,其中,步骤b)还包括针对所述轮廓中的每一像素检测局部轮廓方位。
7.根据权利要求6所述的计算机实施方法,其中,根据所述局部轮廓方位来定位椭圆的所述至少一个线段。
8.根据权利要求1至3中任一项所述的计算机实施方法,其中,在步骤c4)之前,针对所述累加器阵列中多个局部强度最大值中的每一个执行以下步骤:
(i)在以所述累加器阵列中的每一局部强度最大值为中心的圆周中找出第一位置,其中所述第一位置在所述圆周中具有最高强度;
(ii)在所述圆周中找出第二位置,其中所述第二位置在所述圆周的与所述第一位置相对的弧中具有最高强度;
(iii)以因子W=m2/mc1·mc2对所述局部强度最大值的强度m进行加权,其中mc1是所述第一位置处的强度,以及mc2是所述第二位置处的强度。
9.根据权利要求1至3中任一项所述的计算机实施方法,其中,在步骤c4)之前,基于至少一个附加的头部识别方法的输出,对所述累加器阵列中多个局部强度最大值中的每一个的强度进行加权,所述至少一个附加的头部识别方法选自包括以下的组:皮肤色调识别、图案匹配、头发识别、下颌检测、孔检测、与所述人体的质心或末端的连接的检测、至虚拟脊骨、上体轴线和/或视频序列中的先前头部位置的距离。
10.根据权利要求1至3中任一项所述的计算机实施方法,还包括,如果所述源图像是视频序列的当前帧,以及在先前帧中选择的位置在所述当前帧中被遮蔽。
11.一种用于识别源图像中的人的头部的计算机实施设备,所述源图像具有其每一像素的深度值,所述设备包括:
用于将所述源图像中的人体的至少一部分与背景分割的模块;
用于检测人体的所述分割部分的边缘以确定所述部分的轮廓的模块;以及
用于确定所述源图像内人的头部的位置的模块;
其特征在于:所述用于确定所述源图像内人的头部的位置的模块还包括:
用于计算所述源图像中的人体的所述部分的深度的模块;
用于计算所述源图像中与处于所述计算的深度的人的头部的尺寸相对应的椭圆的长半径尺寸及短半径尺寸的模块;
用于对于以一组轮廓像素的位置为中心的椭圆的至少一个线段生成累加器阵列的模块,所述椭圆的所述至少一个线段具有所述长半径及短半径尺寸;以及
用于选择所述累加器阵列中局部强度最大值的位置的模块,所述局部强度最大值的位置对应于所述源图像中的人的头部的位置。
12.根据权利要求11所述的计算机实施设备,其中,所述深度是所述源图像中的人体的所述部分的平均深度。
13.根据权利要求11所述的计算机实施设备,其中,针对每一轮廓像素单独计算所述深度和所述长半径及短半径尺寸。
14.根据权利要求11-13中的任一项所述的计算机实施设备,其中,用于确定所述源图像内人的头部的位置的模块还包括用于执行所述轮廓的形态扩张的模块,并且所述用于计算所述源图像中与处于所述计算的深度的人的头部的尺寸相对应的椭圆的长半径尺寸及短半径尺寸的模块针对所述扩张的轮廓计算所述长半径尺寸及所述短半径尺寸。
15.根据权利要求11-13中的任一项所述的计算机实施设备,其中,椭圆的所述至少一个线段是模糊的。
16.根据权利要求11-13中的任一项所述的计算机实施设备,其中,所述用于检测人体的所述分割部分的边缘以确定所述部分的轮廓的模块还包括用于针对所述轮廓中的每一像素检测局部轮廓方位的模块。
17.根据权利要求16所述的计算机实施设备,其中,根据所述局部轮廓方位来定位椭圆的所述至少一个线段。
18.根据权利要求11-13中的任一项所述的计算机实施设备,其中,所述用于选择所述累加器阵列中局部强度最大值的位置的模块还包括:
用于在以所述累加器阵列中的每一局部强度最大值为中心的圆周中找出第一位置的模块,其中所述第一位置在所述圆周中具有最高强度;
用于在所述圆周中找出第二位置的模块,其中所述第二位置在所述圆周的与所述第一位置相对的弧中具有最高强度;
用于以因子W=m2/mc1·mc2对所述局部强度最大值的强度m进行加权的模块,其中mc1是所述第一位置处的强度,以及mc2是所述第二位置处的强度。
19.根据权利要求11-13中的任一项所述的计算机实施设备,其中,所述用于选择所述累加器阵列中局部强度最大值的位置的模块的模块包括用于基于至少一个附加的头部识别方法的输出,对所述累加器阵列中多个局部强度最大值中的每一个的强度进行加权的模块,所述至少一个附加的头部识别方法选自包括以下的组:皮肤色调识别、图案匹配、头发识别、下颌检测、孔检测、与所述人体的质心或末端的连接的检测、至虚拟脊骨、上体轴线和/或视频序列中的先前头部位置的距离。
20.根据权利要求11-13中的任一项所述的计算机实施设备,还包括用于如果所述源图像是视频序列的当前帧,在先前帧中选择的位置在所述当前帧中被遮蔽的模块。
CN201080059596.2A 2009-12-28 2010-12-28 头部识别方法 Active CN102812474B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20090180783 EP2339507B1 (en) 2009-12-28 2009-12-28 Head detection and localisation method
EP09180783.4 2009-12-28
PCT/EP2010/070817 WO2011080280A1 (en) 2009-12-28 2010-12-28 Head recognition method

Publications (2)

Publication Number Publication Date
CN102812474A CN102812474A (zh) 2012-12-05
CN102812474B true CN102812474B (zh) 2015-06-17

Family

ID=42199070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080059596.2A Active CN102812474B (zh) 2009-12-28 2010-12-28 头部识别方法

Country Status (13)

Country Link
US (1) US9081999B2 (zh)
EP (1) EP2339507B1 (zh)
JP (1) JP5514918B2 (zh)
KR (1) KR101362631B1 (zh)
CN (1) CN102812474B (zh)
AU (1) AU2010338283B2 (zh)
BR (1) BR112012015986A2 (zh)
CA (1) CA2784554C (zh)
MX (1) MX2012007593A (zh)
SG (1) SG181597A1 (zh)
TW (1) TW201142719A (zh)
WO (1) WO2011080280A1 (zh)
ZA (1) ZA201204263B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9001190B2 (en) * 2011-07-05 2015-04-07 Microsoft Technology Licensing, Llc Computer vision system and method using a depth sensor
TWI496090B (zh) * 2012-09-05 2015-08-11 Ind Tech Res Inst 使用深度影像的物件定位方法與裝置
CN103336948A (zh) * 2013-06-24 2013-10-02 深圳锐取信息技术股份有限公司 一种基于人脸识别的视频跟踪方法
KR101501487B1 (ko) * 2013-07-18 2015-03-12 전자부품연구원 깊이 영상 기반 머리 검출방법 및 장치
KR102106135B1 (ko) * 2013-10-01 2020-05-04 한국전자통신연구원 행동 인식 기반의 응용 서비스 제공 장치 및 그 방법
TWI510953B (zh) * 2013-12-20 2015-12-01 Wistron Corp 身份驗證防僞方法與應用此方法的身份驗證裝置
US10140533B1 (en) 2015-01-13 2018-11-27 State Farm Mutual Automobile Insurance Company Apparatuses, systems and methods for generating data representative of vehicle occupant postures
JP6481537B2 (ja) * 2015-07-14 2019-03-13 コニカミノルタ株式会社 被監視者監視装置および被監視者監視方法
US20170255821A1 (en) * 2016-03-02 2017-09-07 National Taiwan University Gesture recognition system and related method
US11321951B1 (en) 2017-01-19 2022-05-03 State Farm Mutual Automobile Insurance Company Apparatuses, systems and methods for integrating vehicle operator gesture detection within geographic maps
CN107093182B (zh) * 2017-03-23 2019-10-11 东南大学 一种基于特征拐点的人体高度估计方法
US10431000B2 (en) * 2017-07-18 2019-10-01 Sony Corporation Robust mesh tracking and fusion by using part-based key frames and priori model
CN107631691A (zh) * 2017-09-13 2018-01-26 南京云计趟信息技术有限公司 一种基于tof技术的车载货物体积计算方法
CN109859158A (zh) * 2018-11-27 2019-06-07 邦鼓思电子科技(上海)有限公司 一种基于视觉的工作区域边界的检测系统、方法及机器设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09138471A (ja) * 1995-09-13 1997-05-27 Fuji Photo Film Co Ltd 特定形状領域の抽出方法、特定領域の抽出方法及び複写条件決定方法
US6072494A (en) 1997-10-15 2000-06-06 Electric Planet, Inc. Method and apparatus for real-time gesture recognition
JP2003028635A (ja) * 2001-07-16 2003-01-29 Honda Motor Co Ltd 画像測距装置
US20030169906A1 (en) * 2002-02-26 2003-09-11 Gokturk Salih Burak Method and apparatus for recognizing objects
US7203356B2 (en) * 2002-04-11 2007-04-10 Canesta, Inc. Subject segmentation and tracking using 3D sensing technology for video compression in multimedia applications
JP2004295776A (ja) 2003-03-28 2004-10-21 Minolta Co Ltd 画像認識装置および画像認識プログラム
US7379559B2 (en) * 2003-05-28 2008-05-27 Trw Automotive U.S. Llc Method and apparatus for determining an occupant's head location in an actuatable occupant restraining system
US7372977B2 (en) * 2003-05-29 2008-05-13 Honda Motor Co., Ltd. Visual tracking using depth data
JP4546956B2 (ja) * 2003-06-12 2010-09-22 本田技研工業株式会社 奥行き検出を用いた対象の向きの推定
US20050196015A1 (en) * 2004-03-02 2005-09-08 Trw Automotive U.S. Llc Method and apparatus for tracking head candidate locations in an actuatable occupant restraining system
CN101120379B (zh) * 2005-02-17 2010-12-08 富士通株式会社 图像处理方法和图像处理系统
JP2006318350A (ja) * 2005-05-16 2006-11-24 Sony Corp 物体追跡方法、物体追跡方法のプログラム、物体追跡方法のプログラムを記録した記録媒体及び物体追跡装置
DE102005047160B4 (de) 2005-09-30 2007-06-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zum Ermitteln einer Information über eine Form und/oder eine Lage einer Ellipse in einem graphischen Bild
US20070127787A1 (en) * 2005-10-24 2007-06-07 Castleman Kenneth R Face recognition system and method
JP3962803B2 (ja) 2005-12-16 2007-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 頭部検出装置、頭部検出方法および頭部検出プログラム
JP5041458B2 (ja) 2006-02-09 2012-10-03 本田技研工業株式会社 三次元物体を検出する装置
CA2717154A1 (en) 2007-03-13 2008-09-18 Advanced Liquid Logic, Inc. Droplet actuator devices, configurations, and methods for improving absorbance detection
DE102007018802B3 (de) 2007-04-20 2008-08-28 Universität Tübingen Abhör- und manipulationssichere Verschlüsselung für Online-Accounts
KR101184170B1 (ko) 2007-04-20 2012-09-19 소프트키네틱 에스.에이. 볼륨 인식 방법 및 시스템
JP5227888B2 (ja) * 2009-05-21 2013-07-03 富士フイルム株式会社 人物追跡方法、人物追跡装置および人物追跡プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TTransformée de Hough elliptique floue rapide;C.Leignel,O.Bernier,D.Collobert,R.Sequier;《http://liris.cnrs.fr/m2disco/coresa/coresa-2003/articles/38.pdf》;20030117;第1-4页 *

Also Published As

Publication number Publication date
KR101362631B1 (ko) 2014-02-12
JP5514918B2 (ja) 2014-06-04
CA2784554A1 (en) 2011-07-07
BR112012015986A2 (pt) 2016-04-19
US9081999B2 (en) 2015-07-14
EP2339507B1 (en) 2013-07-17
AU2010338283A1 (en) 2012-07-26
AU2010338283B2 (en) 2013-11-21
CA2784554C (en) 2015-02-10
AU2010338283A2 (en) 2012-08-09
KR20120130090A (ko) 2012-11-28
WO2011080280A1 (en) 2011-07-07
TW201142719A (en) 2011-12-01
EP2339507A1 (en) 2011-06-29
SG181597A1 (en) 2012-07-30
US20130022262A1 (en) 2013-01-24
ZA201204263B (en) 2013-09-25
MX2012007593A (es) 2012-11-29
CN102812474A (zh) 2012-12-05
JP2013516013A (ja) 2013-05-09

Similar Documents

Publication Publication Date Title
CN102812474B (zh) 头部识别方法
EP3525000B1 (en) Methods and apparatuses for object detection in a scene based on lidar data and radar data of the scene
EP3709216B1 (en) Methods and apparatuses for object detection in a scene represented by depth data of a range detection sensor and image data of a camera
Premebida et al. Pedestrian detection combining RGB and dense LIDAR data
JP6295645B2 (ja) 物体検出方法及び物体検出装置
Marin et al. Reliable fusion of tof and stereo depth driven by confidence measures
US8582867B2 (en) Learning-based pose estimation from depth maps
US9305206B2 (en) Method for enhancing depth maps
US20140098093A2 (en) Method for the Real-Time-Capable, Computer-Assisted Analysis of an Image Sequence Containing a Variable Pose
CN114022830A (zh) 一种目标确定方法以及目标确定装置
CN113989758A (zh) 一种用于自动驾驶的锚引导3d目标检测方法及装置
CN110443228B (zh) 一种行人匹配方法、装置、电子设备及存储介质
CN113111743A (zh) 人员距离探测方法及装置
Hu et al. Color image guided locality regularized representation for Kinect depth holes filling
Tardon et al. A novel markovian formulation of the correspondence problem in stereo vision
Brockers et al. Stereo matching with occlusion detection using cost relaxation
CN114463404A (zh) 一种自适应深度感知视觉关系的检测方法
Febriana et al. Pseudo-LiDAR Meets Agriculture: Leveraging 3D Monocular Point Cloud Processing for Coffee Beans
CN114332217A (zh) 一种姿态估计方法、装置、设备及可读存储介质
CN106845426A (zh) 一种基于台灯的3d物体识别方法及装置
Ren Techniques for vanishing point detection
Loğoğlu Spatial 3D local descriptors for object recognition in RGB-D images
Westaway An empirical assessment of real-time progressive stereo reconstruction
Verma et al. A REVIEW: SALIENT FEATURE EXTRACTION USING K-MEDIODS CLUSTERING
Wang Depth Inference and Visual Saliency Detection from 2D Images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant