CN103608841A - 使用rgbd相机的头部姿势估计 - Google Patents

使用rgbd相机的头部姿势估计 Download PDF

Info

Publication number
CN103608841A
CN103608841A CN201280029547.3A CN201280029547A CN103608841A CN 103608841 A CN103608841 A CN 103608841A CN 201280029547 A CN201280029547 A CN 201280029547A CN 103608841 A CN103608841 A CN 103608841A
Authority
CN
China
Prior art keywords
head
depth data
face
rotation matrix
translation vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280029547.3A
Other languages
English (en)
Other versions
CN103608841B (zh
Inventor
皮尤诗·夏尔马
阿许温·史汪明纳桑
拉明·礼萨伊法尔
薛琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN103608841A publication Critical patent/CN103608841A/zh
Application granted granted Critical
Publication of CN103608841B publication Critical patent/CN103608841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Studio Devices (AREA)

Abstract

基于在多个图像中俘获的深度数据来确定主体的头部的三维姿势。例如通过RGBD相机来俘获所述头部的所述多个图像。使用所述深度数据来确定相对于参考姿势的所述头部的所述姿势的旋转矩阵和平移向量。举例来说,可在所述多个图像中的每一者中提取所述头部上的任意特征点,且连同对应的深度数据以及包含与所述头部的所述参考姿势相关联的旋转矩阵和平移向量以及当前定向和当前位置的状态一起提供给扩展卡尔曼滤波器。随后基于所述旋转矩阵和所述平移向量来确定相对于所述参考姿势的所述头部的所述三维姿势。

Description

使用RGBD相机的头部姿势估计
相关申请案的交叉参考
本申请案主张2012年4月25日申请的且标题为“使用RGBD相机的头部姿势估计(Head Pose Estimation Using RGBD Camera)”的第13/456,061号美国申请案的优先权,所述申请案又根据35USC119规定主张2011年5月17日申请的且标题为“通过整合光学和范围数据的过滤方法进行映射、定位和姿势估计(Mapping,Localization and PoseEstimation by a Filtering Method Integrating Optical and Range Data)”的第61/487,170号美国临时申请案以及2011年11月22日申请的且标题为“使用RGBD相机的头部姿势估计(Head Pose Estimation Using RGBD Camera)”的第61/562,959号美国临时申请案的优先权,所有上述申请案均转让给本案受让人,且其以引用的方式并入本文中。
技术领域
本文中所描述的标的物的实施例一般涉及图像中的主体的姿势确定,且更特定来说,涉及使用具有深度数据的图像来估计主体的头部的三维姿势。
背景技术
许多计算装置包含能够在例如视频帧流中俘获多个图像的相机。举例来说,许多个人计算机包含能够俘获用户的图像的相机,例如网络摄像头。另外,例如蜂窝式电话、智能手机和平板计算机等装置通常包含若干主体相机,例如用于用户的前置相机,或用于其他人的后置相机。
识别主体的位置,且更特定来说,识别图像中的主体的头对于许多应用来说是有用的,所述应用例如为远程出席和游戏。然而,识别并跟踪一系列图像中的主体的头的位置对于常规系统来说是个问题。
发明内容
基于在多个图像中俘获的深度数据来确定主体的头部的三维姿势,即具有6个自由度的姿势。例如通过RGBD相机来俘获所述头部的所述多个图像。使用所述深度数据来确定相对于参考姿势的所述头部的所述姿势的旋转矩阵和平移向量。举例来说,可在多个图像中的每一者中提取头部上的任意特征点,且连同对应的深度数据以及包含与所述头部的所述参考姿势相关联的旋转矩阵和平移向量以及当前定向和当前位置的状态一起提供给扩展卡尔曼滤波器。随后基于所述旋转矩阵和所述平移向量来确定相对于所述参考姿势的所述头部的所述三维姿势。
在一个实施方案中,一种方法包含俘获具有主体的头部的深度数据的多个图像,且使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量。
在一个实施方案中,一种设备包含:RGBD相机,其用以俘获具有主体的头部的深度数据的图像;以及处理器,其耦合到所述RGBD相机以接收具有所述主体的所述头部的所述深度数据的多个图像,所述处理器经配置以使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量。
在一个实施方案中,一种设备包含用于俘获具有主体的头部的深度数据的多个图像的装置,以及用于使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量的装置。
在一个实施方案中,一种非暂时性计算机可读媒体包含用以接收具有主体的头部的所述深度数据的多个图像的程序代码,以及用以使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量的程序代码。
附图说明
图1说明能够使用具有深度数据的图像来估计头部的三维(3D)姿势(定向和位置)的装置。
图2说明使用具有深度数据的图像来估计头部姿势的方法的流程图。
图3说明包含参考图像的具有不同姿势的主体的头部的图像。
图4说明用于使用具有深度数据的图像来估计主体的头部的三维姿势的系统图。
图5说明来自图4的二维面部跟踪器的实施例。
图6说明再填充良好隅角的列表以在面部上跟踪的实施例。
图7说明图4中所示的系统中所使用的扩展卡尔曼滤波器270。
图8是能够基于具有深度数据的所俘获图像来确定主体的头部的3D姿势的装置的框图。
具体实施方式
图1说明能够使用具有深度数据的所俘获图像来估计主体的头部的三维(3D)姿势(定向和位置)的装置100,所述图像例如是从具有红、绿、蓝、距离(RGBD)传感器的相机110或其它类似的3D成像装置获得,所述相机110在本文中被称作RGBD相机110。3D姿势有时被称作具有6个自由度的姿势。RGBD相机110是经校准的多模态传感器,其提供相互对准的图像(电-光、红外线,或在其它电磁频带中)和范围图,因此RGB值对场景的光亮度取样,且D值对沿着同一投影线的深度取样。
图1说明作为移动平台的装置100,例如蜂窝式电话,其包含外壳101、可为触摸屏的显示器102,以及扬声器104和麦克风106。显示器102说明由RGBD相机110俘获的头部120的图像。装置100包含用于处理由RGBD相机110俘获的图像的图像处理单元112以及在确定头部姿势的估计中有用的扩展卡尔曼滤波器270,如下文更详细地论述。以虚线说明RGBD相机110以指示RGBD相机110位于装置100的背侧上,但RGBD相机110或额外的相机可位于装置100的前侧上。例如,在装置100是移动平台的情况下,装置100可进一步包含运动传感器108。传感器108可为加速度计、磁力计和/或陀螺仪中的一者或一者以上。
如本文中所使用,移动平台是指任何便携式电子装置,例如蜂窝式或其它无线通信装置、个人通信系统(PCS)装置、个人导航装置(PND)、个人信息管理器(PIM)、个人数字助理(PDA)、膝上型或其它合适的移动平台。所述移动平台可能够接收无线通信和/或导航信号,例如导航定位信号。术语“移动平台”还既定包含例如通过短程无线、红外、有线连接或其它连接而与个人导航装置(PND)通信的装置,而不管在所述装置处或在所述PND处是否发生卫星信号接收、辅助数据接收,和/或位置相关处理。而且,“移动平台”既定包含能够俘获具有主体的深度数据的图像的所有电子装置,包含无线通信装置、计算机、膝上型计算机、平板计算机、智能电话等。
然而,应理解,虽然装置100有时在本文中被描述为移动平台,但装置100可为固定装置或可包含一个或一个以上固定组件,例如图像处理单元112和/或扩展卡尔曼滤波器270可为固定的,而RGBD相机110在连接到图像处理单元112和扩展卡尔曼滤波器时自身为可移动的。
图2说明使用具有深度数据的所俘获图像来估计头部姿势的方法的流程图。如可看到,例如使用RGBD相机110来俘获具有主体的头部的深度数据的多个图像(152)。可将所述图像俘获为(例如)一系列视频帧。主体在俘获图像时自由移动他的/她的头部。主体的头部的参考姿势是从所俘获图像中的一者获得,且界定参考坐标框架。使用深度数据相对于参考坐标框架来确定与多个图像中的头部的姿势相关联的旋转矩阵和平移向量(154)。举例来说,可通过从头部(例如,在面部上)的图像提取特征点而在二维中确定旋转矩阵和平移向量。与所跟踪的特征点相关联的深度数据可随后用于在三维中确定头部的旋转矩阵和平移向量。所提取的特征点可为任意的。基于所述旋转矩阵和所述平移向量相对于参考姿势来确定所述头部的三维姿势。举例来说,可将特征点的图像坐标和对应的深度数据以及包含与主体的头部的参考姿势相关联的旋转矩阵和平移向量以及当前定向和位置的状态提供给扩展卡尔曼滤波器270。扩展卡尔曼滤波器270可用于相对于参考姿势确定多个图像中的每一者的旋转矩阵和平移向量的估计,可从所述估计确定所述主体的头部相对于参考姿势的三维姿势。
图3说明包含参考图像180的具有不同姿势的主体的头部的图像。通过确定使任何给定图像183和185中的头部分别与参考图像180相关的变换(即,由箭头182和184说明的旋转矩阵和平移向量),可确定头部相对于参考姿势的三维姿势。可例如在面部分析、压缩中以及在游戏中((例如)用于视觉上控制化身)使用任何图像中的头部的三维姿势。
图4说明用于使用具有深度数据的图像来估计主体的头部的三维姿势的系统图。将例如从RGBD相机110获得的具有对准的深度数据的图像提供给二维(2D)面部跟踪器210,二维面部跟踪器210在当前图像中产生主体面部的关注区(ROI)。2D面部跟踪器210在RGB图像中定位面部。2D面部跟踪器210可基于(例如)OpenCV哈尔级联分类器(OpenCV Haar Cascade Classifier)或其它适当的面部检测过程。例如由OpenCV面部检测执行的面部跟踪操作需要资源密集计算,且在偏航和俯仰方面也无效。因此,可能需要避免对每个帧运行面部检测。举例来说,可将所检测的面部的关注区(ROI)保存为面部模板,且使用所述面部模板使用(例如)标准化交叉相关(NCC)来检测输入图像的面部区。与面部检测过程相比,使用NCC和先前已知的面部模板来更新位置(和模板本身)是计算上高效的。
图5说明来自图4的2D面部跟踪器210的实施例,其中使用面部模板来检测面部区以避免针对每个帧运行计算密集的面部检测过程。2D面部跟踪器210接收输入的RGB图像且确定面部模板是否可用(212)。如果没有面部模板可用,那么运行面部检测过程(214)。如上文所论述,所述面部检测过程可为OpenCV哈尔级联分类器或其它适当的面部检测过程。将所检测的面部的关注区(ROI)保存为面部模板(216),且作为当前帧面部ROI而输出。如果面部模板可用(212),那么使输入图像与面部模板匹配以使用NCC来检测面部区(218)。如果确定输入图像与面部模板良好匹配(220),那么将最佳匹配面部ROI保存为面部模板(216),且作为当前帧面部ROI从2D面部跟踪器210输出。NCC基于在所述位置处相对于模板的匹配的良好度而返回对应于查询图像中的每一像素的在-1与1之间的值。选择具有最高NCC值的位置,且如果最高值大于阈值(例如,0.7),那么确定所述位置是良好匹配。因此,2D面部跟踪器210在每个帧之后更新面部模板,使得面部模板是基于主体的头部的最近的姿势。如果确定输入图像不与面部模板良好匹配(220),那么删除模板(222)且过程返回到步骤212。
返回到图4,例如如果前一帧面部ROI中的特征点的数目大于所要阈值,那么确定是否存在充足的隅角来跟踪当前帧中的面部(230)。如果在面部上存在充足的隅角进行跟踪,那么对当前帧面部ROI执行光流(240)过程。所述光流过程可为(例如)所属领域的技术人员众所周知的卢卡斯-立华奏光流。然而,在需要时,可使用其它光流过程,例如标准化交叉相关。系统产生参考帧,所述参考帧包含主体的头部的参考姿势。光流将每一后续帧中的隅角与前一帧进行比较。通过以参考帧开始且对后续帧对执行光流,可确定相对于参考姿势的头部姿势的旋转矩阵和平移向量。
如果确定在面部上存在不充足的隅角进行跟踪(230),那么再填充面部上的待跟踪的隅角列表(250)。然而,面部实质上是“没有纹理的”。因此,可使用FAST(来自经加速片段测试的特征)隅角的隅角检测器或来自OpenCV的特征检测器将一般识别图像的背景区域中的隅角,且因此,需要在检测待跟踪的隅角之前从背景分割面部。此外,需要避免可能出现在面部图像中的T接合处。另外,如上文所论述,头部姿势估计使用扩展卡尔曼滤波器,扩展卡尔曼滤波器跟踪来自良好隅角列表的隅角。因此,当再填充隅角列表时,需要保留正被跟踪的隅角,使得仅添加新的隅角,同时避免重复。
图6说明再填充良好隅角的列表(250)以在面部上进行跟踪的实施例。如所说明,基于来自当前RBGD图像的深度数据以及由2D面部跟踪器提供的当前图像的面部ROI(210)来计算(252)面部的深度。例如基于每一像素面部ROI或ROI内的区的平均深度来计算面部的深度。使用面部的深度以及来自当前RGBD图像的深度数据使用深度阈值划定来从背景(254)分割面部。举例来说,不位于面部的深度的预定阈值(例如,±4英寸)内的RGBD图像中的任何像素可被分割出图像以产生面部图。随后基于面部图在RBGD图像中的面部上运行隅角检测器(256)。隅角检测器可使用OpenCV功能“goodfeaturestotrack()”,其使用“梯度的最小特征值”来找出隅角。或者,隅角检测器可使用哈里斯隅角(Harris corner)、FAST隅角或SURF(加速稳健特征(Speeded UpRobust Feature))。另外,使用来自RGBD图像的深度数据运行边缘检测器(258)(例如,卡尼边缘检测器)以产生深度图像边缘图。来自隅角检测器(256)的所检测的隅角的列表中的隅角在其位于深度图像边缘图中的边缘上的情况下会被丢弃(260),从而避免T接合处。因此,所得的隅角列表包含面部上的不位于深度图像边缘图中的边缘上的所有隅角。将所得的隅角列表与现有的隅角进行比较,且排除重复者(262),使得识别面部上的新隅角。可基于阈值划定来识别重复的隅角。举例来说,对于每一所识别的隅角(例如,由步骤260提供),找出与最近的现有隅角相距的距离,且将所述距离与预定阈值(例如,10个像素)进行比较。如果所述距离小于阈值,那么将所述阈值作为重复者进行排除。因此,产生不具有重复者的新隅角列表,且将所述列表提供给光流(240)。因此,深度数据用于再填充隅角,光流(240)从所述隅角确定点对应性,所述点对应性随后由扩展卡尔曼滤波器(270)用来估计相对于参考姿势的头部姿势的旋转矩阵和平移向量。
返回参看图4,光流(240)过程将点跟踪信息提供给扩展卡尔曼滤波器(270)。图7说明在图4中所示的系统中使用的扩展卡尔曼滤波器270。到扩展卡尔曼滤波器(270)的输入包含特征点的图像坐标(x,y)和特征点的深度数据(z)。与扩展卡尔曼滤波器(270)一起使用的状态是以下各者:
运动等式
ρ i ( t + 1 ) = ρ i ( t ) , i = 1 . . . N ρ i ( 0 ) = ρ 0 i
T ( t + 1 ) = exp ( ω ^ ( t ) ) T ( t ) + v ( t ) T ( 0 ) = T 0    等式1
Ω ( t + 1 ) = Log SO ( 3 ) ( exp ( ω ^ ( t ) ) exp ( Ω ^ ( t ) ) ) Ω ( 0 ) = Ω 0
v(t+1)=v(t)+αv(t)v(0)=v0
ω(t+1)=w(t)+αω(t)ω(0)=ω0
测量值
y i ( t ) = π ( exp ( Ω ^ ( t ) ) ) y 0 i ( t ) exp ( ρ i ( t ) ) + T ( t ) ) + n i ( t ) i = 1 . . . N    等式2
log z i ( t ) = log ( 0 0 1 ( exp ( Ω ^ ( t ) ) ) y 0 i ( t ) exp ( ρ i ( t ) ) + T ( t ) ) ) + n z i ( t ) i = 1 . . . N
其中:
Figure BDA0000438688780000066
大致在其变得可见的第一时刻被测量,出于简单起见,这里假设为时间t=0(将描述如何处理消失的点,以及出现在时间t>0之后的点特征)。
ρi(t)∈R是表示时间t处的第i个特征点的深度的对数的状态变量。选择对数坐标以实现以下两者:加强可见点的深度exp(ρ)必须为正的事实,且从装置的范围部分矫正范围深度测量值不定性的分布。
T(t)∈R3是表示从时间t处的相机帧到世界帧的平移向量的状态变量。
Ω(t)∈SO(3)是表示从时间t处的相机帧到世界帧的旋转的状态变量。
v(t)∈R3是时间t处的相机的线性速度。
ω(t)∈R3是时间t处的相机的角速度。
αv和αω被假设为零均值高斯噪声过程。
yi(t)∈R2是在时间t处在第i个特征点的相机坐标框架中的所测得的图像坐标。
logzi(t)∈R是在时间t处在第i个特征点的相机坐标框架中的所测得的深度的对数。实际上,范围数据经预处理以产生对数深度,且假定噪声在对数尺度中是加性的。
扩展卡尔曼滤波器(270)产生从当前相机位置到世界坐标的平移向量(T)和旋转矩阵(R)。如图4中所说明,来自扩展卡尔曼滤波器(270)的主体的头部的所得的三维姿势可用于组合来自主体的多个视图的点云(例如来自RGBD图像)和当前帧的面部ROI以产生对准的面部点云。姿势经校正的对准的面部点云可提供更平滑和完整的面部模型,所述面部模型具有许多应用,例如在远程出席和游戏中。
图8是能够基于具有深度数据的所俘获图像来确定主体的头部的3D姿势(定向和位置)的装置100的框图。装置100包含用于俘获具有深度数据的装置,例如RGBD相机110。装置100可进一步包含用户接口150,用户接口150包含用于显示图像的装置,例如显示器102。用户接口150还可包含用户可通过其将信息输入到装置100中的小键盘152或其它输入装置。在需要时,可通过将虚拟小键盘集成到具有触摸传感器(或手势控制件)的显示器102中而消除小键盘152。例如,在装置100是蜂窝式电话或类似物的情况下,用户接口150还可包含麦克风106和扬声器104。当然,装置100可包含不与本发明相关的其它元件。举例来说,装置100可包含运动传感器,例如加速度计、磁力计和/或陀螺仪中的一者或一者以上,其在确定装置的移动的过程中可为有用的。
装置100还包含控制单元160,控制单元160连接到RGBD相机110且与RGBD相机110通信。控制单元160接受且处理由RGBD相机110俘获的图像和深度数据且控制显示器102。控制单元160可由处理器161和相关联的存储器164、硬件162、软件165、固件163和总线160b提供。控制单元160可包含图像处理单元112,图像处理单元112执行上文所描述的过程的各种方面,例如2D面部跟踪器(210)、再填充隅角(250)和光流(240),如图4、5和6中所描述。控制单元160进一步包含扩展卡尔曼滤波器270以使用深度数据来确定主体的头部的三维姿势,如图4和7中所描述。可将主体的头部的三维姿势存储在存储器164或其它存储单元中,且将其用于确定头部的姿势。
出于清楚起见,图像处理单元112和扩展卡尔曼滤波器270是与处理器161分开地说明的,但是可为处理器161的一部分或者基于在处理器161中运行的软件165中的指令而实施于处理器中。将理解,如本文中所使用,处理器161可(但不需要一定)包含一个或一个以上微处理器、嵌入式处理器、控制器、专用集成电路(ASIC)、数字信号处理器(DSP)等。术语处理器意在描述由除了特定硬件之外的系统实施的功能。如本文中所使用,术语“存储器”指代任何类型的计算机存储媒体,包含与装置100相关联的长期、短期或其它存储器,且不限于任何特定类型的存储器或存储器的数目,或上面存储存储器的媒体的类型。
取决于应用,本文中所描述的方法可由各种装置实施。举例来说,可在硬件162、固件163、软件165或其任何组合中来实施这些方法。对于硬件实施方案,可在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元或其组合内实施处理单元。
对于固件及/或软件实施方案,可用执行本文所描述的功能的模块(例如,程序、功能等)来实施所述技术。有形地体现指令的任何机器可读媒体可用于实施本文中所描述的方法中。举例来说,软件代码可存储于存储器164中且由处理器161执行。存储器可实施于处理器161内或处理器161外部。如果实施于固件和/或软件中,则可将功能作为一个或一个以上指令或代码而存储在计算机可读媒体上。实例包含编码有数据结构的非暂时性计算机可读媒体和编码有计算机程序的计算机可读媒体。计算机可读媒体包含物理计算机存储媒体。存储媒体可为可由计算机存取的任何可用媒体。举例来说且非限制,此类计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体;如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各者的组合也应包含在计算机可读媒体的范围内。
虽然为了说明目的而结合特定实施例说明了本发明,但本发明不限于其。在不脱离本发明的范围的情况下,可作出各种调适和修改。因此,所附权利要求书的精神和范围不应被限制于前述描述。

Claims (24)

1.一种方法,其包括:
俘获具有主体的头部的深度数据的多个图像;以及
使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量。
2.根据权利要求1所述的方法,其中确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量包括:
提取所述多个图像中的每一者中的所述头部上的任意特征点;以及
使用与所述任意特征点相关联的所述深度数据来确定所述头部的所述姿势的所述旋转矩阵和所述平移向量。
3.根据权利要求2所述的方法,其进一步包括:
使用所述深度数据产生所述头部的边缘图;以及
丢弃所述边缘图的边缘上的所述任意特征点。
4.根据权利要求2所述的方法,其中确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量包括:
将所述任意特征点的图像坐标和对应的任意特征点的所述深度数据以及包含与所述头部的参考姿势相关联的旋转矩阵和平移向量以及当前定向和当前位置的状态提供给扩展卡尔曼滤波器;以及
使用所述扩展卡尔曼滤波器来确定所述旋转矩阵和所述平移向量。
5.根据权利要求1所述的方法,其进一步包括:
使用所述深度数据从所述多个图像中的背景提取所述头部上的面部;以及
在从所述背景提取所述面部之后跟踪所述多个图像中的所述面部。
6.根据权利要求5所述的方法,其中从所述背景提取所述面部包括:
使用所述深度数据来计算每一图像中的所述面部的深度;以及
使用阈值和所述面部的所述深度从所述背景分割出所述面部。
7.一种设备,其包括:
红、绿、蓝、距离RGBD相机,其用以俘获具有主体的头部的深度数据的图像;以及
处理器,其耦合到所述RGBD相机以接收具有所述主体的所述头部的所述深度数据的多个图像,所述处理器经配置以使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量。
8.根据权利要求7所述的设备,其中所述处理器经配置以通过经配置以进行以下操作来确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量:
提取所述多个图像中的每一者中的所述头部上的任意特征点;以及
使用与所述任意特征点相关联的所述深度数据来确定所述头部的所述姿势的所述旋转矩阵和所述平移向量。
9.根据权利要求8所述的设备,其中所述处理器进一步经配置以:
使用所述深度数据产生所述头部的边缘图;以及
丢弃所述边缘图的边缘上的任意特征点。
10.根据权利要求8所述的设备,其中所述处理器经配置以通过经配置以进行以下操作来确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量:
将所述任意特征点的图像坐标和对应的任意特征点的所述深度数据以及包含与所述头部的参考姿势相关联的旋转矩阵和平移向量以及当前定向和当前位置的状态提供给扩展卡尔曼滤波器;以及
使用所述扩展卡尔曼滤波器来确定所述旋转矩阵和所述平移向量。
11.根据权利要求7所述的设备,其中所述处理器进一步经配置以:
使用所述深度数据从所述多个图像中的背景提取所述头部上的面部;以及
在从所述背景提取所述面部之后跟踪所述多个图像中的所述面部。
12.根据权利要求11所述的设备,其中所述处理器经配置以通过经配置以进行以下操作来从所述背景提取所述面部:
使用所述深度数据来计算每一图像中的所述面部的深度;以及
使用阈值和所述面部的所述深度从所述背景分割出所述面部。
13.一种设备,其包括:
用于俘获具有主体的头部的深度数据的多个图像的装置;以及
用于使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量的装置。
14.根据权利要求13所述的设备,其中所述用于确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量的装置包括:
用于提取所述多个图像中的每一者中的所述头部上的任意特征点的装置;以及
用于使用与所述任意特征点相关联的所述深度数据来确定所述头部的所述姿势的所述旋转矩阵和所述平移向量的装置。
15.根据权利要求14所述的设备,其进一步包括:
用于使用所述深度数据产生所述头部的边缘图的装置;以及
用于丢弃所述边缘图的边缘上的任意特征点的装置。
16.根据权利要求14所述的设备,其中确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量包括:
用于将所述任意特征点的图像坐标和对应的任意特征点的所述深度数据以及包含与所述头部的参考姿势相关联的旋转矩阵和平移向量以及当前定向和当前位置的状态提供给扩展卡尔曼滤波器的装置;以及
用于使用所述扩展卡尔曼滤波器来确定所述旋转矩阵和所述平移向量的装置。
17.根据权利要求13所述的设备,其进一步包括:
用于使用所述深度数据从所述多个图像中的背景提取所述头部上的面部的装置;以及
用于在从所述背景提取所述面部之后跟踪所述多个图像中的所述面部的装置。
18.根据权利要求17所述的设备,其中所述用于从所述背景提取所述面部的装置包括:
用于使用所述深度数据来计算每一图像中的所述面部的深度的装置;以及
用于使用阈值和所述面部的所述深度从所述背景分割出所述面部的装置。
19.一种包含存储在上面的程序代码的非暂时性计算机可读媒体,其包括:
用以接收具有主体的头部的所述深度数据的多个图像的程序代码;
用以使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量的程序代码。
20.根据权利要求19所述的非暂时性计算机可读媒体,其中所述用以确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量的程序代码包括:
用以提取所述多个图像中的每一者中的所述头部上的任意特征点的程序代码;以及
用以使用与所述任意特征点相关联的所述深度数据来确定所述头部的所述姿势的所述旋转矩阵和所述平移向量的程序代码。
21.根据权利要求20所述的非暂时性计算机可读媒体,其进一步包括:
用以使用所述深度数据产生所述头部的边缘图的程序代码;以及
用以丢弃所述边缘图的边缘上的任意特征点的程序代码。
22.根据权利要求20所述的非暂时性计算机可读媒体,其中所述用以确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量的程序代码进一步包括:
用以将所述任意特征点的图像坐标和对应的任意特征点的所述深度数据以及包含与所述头部的参考姿势相关联的旋转矩阵和平移向量以及当前定向和当前位置的状态提供给扩展卡尔曼滤波器的程序代码;以及
用以使用所述扩展卡尔曼滤波器来确定所述旋转矩阵和所述平移向量的程序代码。
23.根据权利要求19所述的非暂时性计算机可读媒体,其进一步包括:
用以使用所述深度数据从所述多个图像中的背景提取所述头部上的面部的程序代码;以及
用以在从所述背景提取所述面部之后跟踪所述多个图像中的所述面部的程序代码。
24.根据权利要求23所述的非暂时性计算机可读媒体,其中所述用以从所述背景提取所述面部的程序代码包括:
用以使用所述深度数据来计算每一图像中的所述面部的深度的程序代码;以及
用以使用阈值和所述面部的所述深度从所述背景分割出所述面部的程序代码。
CN201280029547.3A 2011-05-17 2012-05-03 使用rgbd相机的头部姿势估计 Active CN103608841B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201161487170P 2011-05-17 2011-05-17
US61/487,170 2011-05-17
US201161562959P 2011-11-22 2011-11-22
US61/562,959 2011-11-22
US13/456,061 US9582707B2 (en) 2011-05-17 2012-04-25 Head pose estimation using RGBD camera
US13/456,061 2012-04-25
PCT/US2012/036362 WO2012158361A1 (en) 2011-05-17 2012-05-03 Head pose estimation using rgbd camera

Publications (2)

Publication Number Publication Date
CN103608841A true CN103608841A (zh) 2014-02-26
CN103608841B CN103608841B (zh) 2017-03-22

Family

ID=47174655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280029547.3A Active CN103608841B (zh) 2011-05-17 2012-05-03 使用rgbd相机的头部姿势估计

Country Status (6)

Country Link
US (1) US9582707B2 (zh)
EP (2) EP3627445B1 (zh)
JP (2) JP2014517392A (zh)
KR (2) KR20160028510A (zh)
CN (1) CN103608841B (zh)
WO (1) WO2012158361A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778628A (zh) * 2016-12-21 2017-05-31 张维忠 一种基于tof深度相机的面部表情捕捉方法
WO2017206144A1 (en) * 2016-06-02 2017-12-07 Intel Corporation Estimation of human orientation in images using depth information
CN108779980A (zh) * 2016-03-14 2018-11-09 讯宝科技有限责任公司 使用数字图像和深度数据确定尺寸的设备和方法
US10740912B2 (en) 2016-05-19 2020-08-11 Intel Corporation Detection of humans in images using depth information

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8553989B1 (en) * 2010-04-27 2013-10-08 Hrl Laboratories, Llc Three-dimensional (3D) object recognition system using region of interest geometric features
US9338409B2 (en) 2012-01-17 2016-05-10 Avigilon Fortress Corporation System and method for home health care monitoring
EP2672426A3 (en) * 2012-06-04 2014-06-04 Sony Mobile Communications AB Security by z-face detection
CN103793680B (zh) * 2012-10-29 2018-10-23 北京三星通信技术研究有限公司 用于估计头部姿势的设备和方法
US9406135B2 (en) * 2012-10-29 2016-08-02 Samsung Electronics Co., Ltd. Device and method for estimating head pose
US9552668B2 (en) * 2012-12-12 2017-01-24 Microsoft Technology Licensing, Llc Generation of a three-dimensional representation of a user
US9754154B2 (en) * 2013-02-15 2017-09-05 Microsoft Technology Licensing, Llc Identification using depth-based head-detection data
CN104182742B (zh) * 2013-05-20 2018-03-13 比亚迪股份有限公司 头部姿态识别方法及系统
US9286717B2 (en) 2013-07-30 2016-03-15 Hewlett-Packard Development Company, L.P. 3D modeling motion parameters
US9883138B2 (en) * 2014-02-26 2018-01-30 Microsoft Technology Licensing, Llc Telepresence experience
KR102212209B1 (ko) * 2014-04-10 2021-02-05 삼성전자주식회사 시선 추적 방법, 장치 및 컴퓨터 판독가능한 기록 매체
EP3134850B1 (en) 2014-04-22 2023-06-14 Snap-Aid Patents Ltd. Method for controlling a camera based on processing an image captured by other camera
US9672412B2 (en) * 2014-06-24 2017-06-06 The Chinese University Of Hong Kong Real-time head pose tracking with online face template reconstruction
US9767586B2 (en) * 2014-07-11 2017-09-19 Microsoft Technology Licensing, Llc Camera system and method for hair segmentation
US11290704B2 (en) * 2014-07-31 2022-03-29 Hewlett-Packard Development Company, L.P. Three dimensional scanning system and framework
US10048749B2 (en) 2015-01-09 2018-08-14 Microsoft Technology Licensing, Llc Gaze detection offset for gaze tracking models
US9864430B2 (en) 2015-01-09 2018-01-09 Microsoft Technology Licensing, Llc Gaze tracking via eye gaze model
WO2016174659A1 (en) 2015-04-27 2016-11-03 Snapaid Ltd. Estimating and using relative head pose and camera field-of-view
TWI610250B (zh) * 2015-06-02 2018-01-01 鈺立微電子股份有限公司 監測系統及其操作方法
EP3311363B1 (en) * 2015-06-17 2020-08-05 Rosemount Aerospace Inc. System and method for processing captured images
US9971418B2 (en) 2015-12-24 2018-05-15 Intel Corporation Tracker for cursor navigation
US11255663B2 (en) 2016-03-04 2022-02-22 May Patents Ltd. Method and apparatus for cooperative usage of multiple distance meters
US9959455B2 (en) 2016-06-30 2018-05-01 The United States Of America As Represented By The Secretary Of The Army System and method for face recognition using three dimensions
CN106355147A (zh) * 2016-08-26 2017-01-25 张艳 一种活体人脸检测头部姿态回归器的获取方法及检测方法
US10349032B2 (en) * 2016-09-30 2019-07-09 Veoneer Us, Inc. Vehicle occupant head positioning system
US11170086B2 (en) * 2016-12-16 2021-11-09 Panasonic Intellectual Property Management Co., Ltd. Face image processing method and face image processing device that narrow a search range of face images utilizing a registration database
KR101956312B1 (ko) 2017-02-21 2019-03-08 서강대학교산학협력단 Rgb-d 카메라 포즈 추정의 정확도 향상을 위한 깊이 맵 필터링 및 다중-레벨 예측자-수정자 방법
US11051039B2 (en) 2017-06-02 2021-06-29 Ostendo Technologies, Inc. Methods for full parallax light field compression
US10931956B2 (en) * 2018-04-12 2021-02-23 Ostendo Technologies, Inc. Methods for MR-DIBR disparity map merging and disparity threshold determination
CN110599549B (zh) 2018-04-27 2023-01-10 腾讯科技(深圳)有限公司 界面显示方法、装置及存储介质
US11172222B2 (en) 2018-06-26 2021-11-09 Ostendo Technologies, Inc. Random access in encoded full parallax light field images
US10636218B2 (en) 2018-09-24 2020-04-28 Universal City Studios Llc Augmented reality for an amusement ride
US10614340B1 (en) * 2019-09-23 2020-04-07 Mujin, Inc. Method and computing system for object identification
JP7404137B2 (ja) * 2020-04-01 2023-12-25 株式会社豊田中央研究所 顔画像処理装置及び顔画像処理プログラム
JP7404282B2 (ja) * 2021-02-10 2023-12-25 株式会社豊田中央研究所 顔モデルパラメータ推定装置、顔モデルパラメータ推定方法及び顔モデルパラメータ推定プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004111687A2 (en) * 2003-06-12 2004-12-23 Honda Motor Co., Ltd. Target orientation estimation using depth sensing
CN101443791A (zh) * 2006-05-03 2009-05-27 快图影像有限公司 在数字图像中实现改进的前景/背景分离
CN101489467A (zh) * 2006-07-14 2009-07-22 松下电器产业株式会社 视线方向检测装置和视线方向检测方法
US20090195538A1 (en) * 2008-02-04 2009-08-06 Gwangju Institute Of Science And Technology Method and system for haptic interaction in augmented reality
US20090244309A1 (en) * 2006-08-03 2009-10-01 Benoit Maison Method and Device for Identifying and Extracting Images of multiple Users, and for Recognizing User Gestures

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6545706B1 (en) 1999-07-30 2003-04-08 Electric Planet, Inc. System, method and article of manufacture for tracking a head of a camera-generated image of a person
US7515173B2 (en) * 2002-05-23 2009-04-07 Microsoft Corporation Head pose tracking system
AU2003280516A1 (en) 2002-07-01 2004-01-19 The Regents Of The University Of California Digital processing of video images
KR100474848B1 (ko) 2002-07-19 2005-03-10 삼성전자주식회사 영상시각 정보를 결합하여 실시간으로 복수의 얼굴을검출하고 추적하는 얼굴 검출 및 추적 시스템 및 방법
JP4355341B2 (ja) 2003-05-29 2009-10-28 本田技研工業株式会社 深度データを用いたビジュアルトラッキング
DE602004025940D1 (de) 2003-07-11 2010-04-22 Toyota Motor Co Ltd Bildverarbeitungseinrichtung, bildverarbeitungsverfahren, bildverarbeitungsprogramm und aufzeichnungsmedium
WO2006106465A2 (en) * 2005-04-07 2006-10-12 Nxp B.V. Method and device for three-dimentional reconstruction and rendering
EP1982306A1 (fr) 2006-02-07 2008-10-22 France Télécom Procede pour suivre la position de la tete en temps reel dans un flux d'images video
US7925049B2 (en) * 2006-08-15 2011-04-12 Sri International Stereo-based visual odometry method and system
JP4988408B2 (ja) 2007-04-09 2012-08-01 株式会社デンソー 画像認識装置
US8855819B2 (en) 2008-10-09 2014-10-07 Samsung Electronics Co., Ltd. Method and apparatus for simultaneous localization and mapping of robot
KR101572851B1 (ko) 2008-12-22 2015-11-30 삼성전자 주식회사 동적 환경에서 모바일 플랫폼의 지도 작성방법
US8970690B2 (en) 2009-02-13 2015-03-03 Metaio Gmbh Methods and systems for determining the pose of a camera with respect to at least one object of a real environment
JP5468332B2 (ja) 2009-08-20 2014-04-09 Juki株式会社 画像特徴点抽出方法
JP2011043419A (ja) 2009-08-21 2011-03-03 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
KR20110097140A (ko) 2010-02-24 2011-08-31 삼성전자주식회사 이동 로봇의 위치 추정 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004111687A2 (en) * 2003-06-12 2004-12-23 Honda Motor Co., Ltd. Target orientation estimation using depth sensing
CN101443791A (zh) * 2006-05-03 2009-05-27 快图影像有限公司 在数字图像中实现改进的前景/背景分离
CN101489467A (zh) * 2006-07-14 2009-07-22 松下电器产业株式会社 视线方向检测装置和视线方向检测方法
US20090244309A1 (en) * 2006-08-03 2009-10-01 Benoit Maison Method and Device for Identifying and Extracting Images of multiple Users, and for Recognizing User Gestures
US20090195538A1 (en) * 2008-02-04 2009-08-06 Gwangju Institute Of Science And Technology Method and system for haptic interaction in augmented reality

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SOTIRIS MALASSIOTIS等: "Robust real-time 3D head pose estimation from range data", 《PATTERN RECOGNITION》, vol. 38, no. 8, 31 August 2005 (2005-08-31), pages 1153 - 1165 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108779980A (zh) * 2016-03-14 2018-11-09 讯宝科技有限责任公司 使用数字图像和深度数据确定尺寸的设备和方法
US10740912B2 (en) 2016-05-19 2020-08-11 Intel Corporation Detection of humans in images using depth information
WO2017206144A1 (en) * 2016-06-02 2017-12-07 Intel Corporation Estimation of human orientation in images using depth information
US11164327B2 (en) 2016-06-02 2021-11-02 Intel Corporation Estimation of human orientation in images using depth information from a depth camera
CN106778628A (zh) * 2016-12-21 2017-05-31 张维忠 一种基于tof深度相机的面部表情捕捉方法

Also Published As

Publication number Publication date
EP2710554B1 (en) 2019-11-20
KR20140009585A (ko) 2014-01-22
KR20160028510A (ko) 2016-03-11
JP2016035775A (ja) 2016-03-17
CN103608841B (zh) 2017-03-22
WO2012158361A1 (en) 2012-11-22
JP6043856B2 (ja) 2016-12-14
EP3627445A1 (en) 2020-03-25
US20120293635A1 (en) 2012-11-22
US9582707B2 (en) 2017-02-28
JP2014517392A (ja) 2014-07-17
EP2710554A1 (en) 2014-03-26
EP3627445B1 (en) 2022-03-30

Similar Documents

Publication Publication Date Title
CN103608841A (zh) 使用rgbd相机的头部姿势估计
US9558557B2 (en) Online reference generation and tracking for multi-user augmented reality
US9542745B2 (en) Apparatus and method for estimating orientation of camera
Palaniappan et al. Efficient feature extraction and likelihood fusion for vehicle tracking in low frame rate airborne video
US8872851B2 (en) Augmenting image data based on related 3D point cloud data
US7321386B2 (en) Robust stereo-driven video-based surveillance
US20170013195A1 (en) Wearable information system having at least one camera
JP2016099941A (ja) オブジェクト位置推定システム、及びそのプログラム
US20170228585A1 (en) Face recognition system and face recognition method
CN107646109B (zh) 管理电子设备上的环境映射的特征数据
KR101868903B1 (ko) 손 추적 장치 및 방법
EP2770479B1 (en) Electronic device and method of operating electronic device
US9280209B2 (en) Method for generating 3D coordinates and mobile terminal for generating 3D coordinates
KR20110021500A (ko) 이동객체의 실시간 추적과 거리 측정 방법 및 그 장치
US9582896B2 (en) Line tracking with automatic model initialization by graph matching and cycle detection
CN110660134B (zh) 三维地图构建方法、三维地图构建装置及终端设备
Chen et al. Indoor positioning fusion algorithm for smartphones
US20230254588A1 (en) Information processing device, information processing method, and program
Wang et al. Robot Visual Simultaneous Localization and Mapping in Dynamic Environments
Jiang et al. Monocular visual odometry-based 3D-2D motion estimation
Nguyen et al. Panoramic image-based navigation for smart-phone in indoor environment
KR20230098944A (ko) 모바일 환경에서 실시간 트래킹을 위한 키포인트 선택 방법
Yu et al. Detecting and identifying people in mobile videos
Uhchikoshi et al. Location Method for Smartphone using Camera and Orientation Sensor

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant