CN102456127A

CN102456127A - 头部姿态估计设备和方法

Info

Publication number: CN102456127A
Application number: CN2010105188856A
Authority: CN
Inventors: 任海兵; 王西颖; 金智渊
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2010-10-21
Filing date: 2010-10-21
Publication date: 2012-05-16
Anticipated expiration: 2030-10-21
Also published as: CN102456127B

Abstract

提供了一种头部姿态估计设备和方法。所述头部姿态估计设备包括：多视角图像捕获单元，从多个视角捕获多视角图像；检测单元，从多个视角选择显著视角，并对选择的显著视角的图像检测特征点；跟踪单元，针对显著视角的图像跟踪由检测单元检测的特征点；姿态估计单元，基于检测单元检测的特征点或跟踪单元跟踪的特征点来估计头部姿态。所述头部姿态估计设备和方法在特征点跟踪和检测方面减少计算量和所需时间，从而显著改善了实时性，并在特征点跟踪方面对跟踪的特征点进行校正，从而改善了跟踪结果。

Description

头部姿态估计设备和方法

技术领域

本发明涉及一种头部姿态估计设备和方法，更具体地讲，涉及一种针对摄像机阵列拍摄的多视角图像进行特征点的检测、跟踪，并对显著视角(distinguishing view)进行预测，从而进行头部姿态估计的设备和方法。

背景技术

头部姿态及运动检测是常用于人机交互领域中的一种技术，可以通过检测头部姿态来实现各种控制。例如，通过检测人的头部姿态来检测人的视线，从而根据视线或者直接根据人的头部姿态来进行各种控制应用(例如，通过检测人的视线或头部姿态来控制光标在屏幕上移动)；通过检测驾驶员的头部姿态来提醒驾驶员注意驾驶安全等；通过检测观众的头部姿态来自动调整显示装置的屏幕角度等等。

当前，主要存在两种检测头部姿态的技术。一种是利用传统的运动传感器(例如，角度、位移传感器等)检测头部的运动来获得头部姿态。另一种是图像技术，通过拍摄头部的头像并根据拍摄的头部图像的特征来确定头部的姿态。在检测和跟踪方面，大多数方法都是基于单个摄像机，只能检测和跟踪二维(2D)对象。

在对象检测方面，美国专利申请US 6400831需要用户的帮助以标注对象大体分割，其检测鲁棒性非常低。美国专利申请US 7400344将帧改变视为对象区域，其检测鲁棒性也较低。

另外，在现有技术中，检测特征点需要花费的时间长，跟踪特征点的效果不好。

因此，需要一种针对摄像机阵列的头部姿态估计方法，其中，针对摄像机阵列拍摄的多视角图像进行特征点检测、跟踪和预测。

发明内容

针对现有技术中存在的单个摄像机只能拍摄2D对象、检测特征点需要花费的时间长，跟踪特征点的效果不好等缺陷，本发明提供了一种针对摄像机阵列拍摄的多视角图像进行特征点的检测、跟踪，并对显著视角进行预测，从而进行头部姿态估计的设备和方法。

根据本发明的一方面，提供了一种头部姿态估计设备，所述头部姿态估计设备可包括：多视角图像捕获单元，从多个视角捕获多视角图像；检测单元，从多个视角选择显著视角，并对选择的显著视角的图像检测特征点；跟踪单元，针对显著视角的图像跟踪由检测单元检测的特征点；姿态估计单元，基于检测单元检测的特征点或跟踪单元跟踪的特征点来估计头部姿态。

所述头部姿态估计设备还可包括：预测单元，基于姿态估计单元估计的头部姿态来预测多视角图像的下一帧的显著视角。

所述检测单元可对选择的显著视角的图像检测关键点，并利用检测到的关键点来对选择的显著视角的图像检测特征点。

跟踪单元可包括：特征点跟踪单元，针对显著视角的图像单独跟踪由检测单元检测的每个特征点；特征点细化单元，对特征点跟踪单元跟踪的特征点进行细化，以对特征点进行校正。

所述特征点细化单元可根据下面的等式利用主成分分析PCA来对跟踪的特征点集合进行建模：

其中，S表示跟踪的特征点集合，

表示PCA平均值，S_i表示PCA特征向量，w_i表示特征向量权重，ε表示训练好的PCA模型与跟踪的特征点之间的残差，细化的跟踪特征点可被表示为：

所述头部姿态估计设备还可包括：控制器，控制器通过设置参数来控制头部姿态估计设备的整体操作。

控制器可对检测单元检测的特征点或跟踪单元跟踪的特征点进行评价，并基于评价结果选择特征点和设置所述参数。

所述参数可包括State，其中，参数State表示头部姿态估计设备所处的状态，参数State被设置为分别表示处于检测状态的STATE_DETECTION、处于跟踪状态的STATE_TRACKING、处于预测状态的STATE_PREDICTION。

所述参数可包括bSuccess，所述参数bSuccess被设置为TRUE或FALSE，控制器根据参数bSuccess来控制姿态估计单元执行姿态估计操作。

具有显著视角的图像具有突出特征，并且具有显著视角的图像中对象更容易被识别。

检测单元可通过使用匹配方法或区别方法来选择显著视角。

根据本发明的另一方面，提供了一种头部姿态估计方法，所述头部姿态估计方法可包括以下步骤：从多个视角捕获多视角图像；从多个视角选择显著视角，并对选择的显著视角的图像检测特征点；针对显著视角的图像跟踪检测的特征点；基于检测单元检测的特征点或跟踪单元跟踪的特征点来估计头部姿态。

所述头部姿态估计方法还可包括步骤：基于估计的头部姿态来预测多视角图像的下一帧的显著视角。

检测特征点的步骤可包括：对选择的显著视角的图像检测关键点，并利用检测到的关键点来对选择的显著视角的图像检测特征点。

跟踪检测的特征点的步骤可包括：针对显著视角的图像单独跟踪检测的每个特征点；对跟踪的特征点进行细化，以对特征点进行校正。

所述特征点细化步骤可包括：根据下面的等式利用主成分分析PCA来对跟踪的特征点集合进行建模：其中，S表示跟踪的特征点集合，

所述头部姿态估计方法还可包括：通过设置参数来控制头部姿态估计方法中各个操作的执行。

对检测的特征点或跟踪的特征点进行评价，并基于评价结果选择特征点和设置所述参数。

所述参数可包括bSuccess，所述参数bSuccess被设置为TRUE或FALSE，根据参数bSuccess来控制执行姿态估计操作。

通过使用匹配方法或区别方法来选择显著视角。

根据本发明示例性实施例的头部姿态估计设备和方法针对现有技术中存在问题，提出了对多视角图像进行检测和跟踪从而估计头部姿态；针对多视角图像计算量大且花费时间长的缺点，提出了从多个视角中选择一个显著视角进行处理，并利用关键点进行检测，这都显著地减少了计算量，并缩短了检测和跟踪所需的时间，进而改善了实时性。另外，在跟踪特征点方面，提出了特征点细化，即对跟踪的特征点进行校正，以使通过特征点细化进行跟踪的特征点分布更均匀，与图像帧更为匹配。

附图说明

通过下面结合附图进行的详细描述，本发明的上述和其它目的、特点和优点将会变得更加清楚，其中：

图1是示出根据本发明示例性实施例的头部姿态估计设备的框图；

图2示出了多视角图像捕获单元中的摄像机阵列的布置以及全局坐标系和局部坐标系；

图3A是示出根据本发明另一示例性实施例的图1中示出的检测单元的结构的框图；

图3B示出了针对多视角图的对象检测的结果；

图3C示例性示出了关键点和特征点；

图3D示出了具有不同置信度的图像帧；

图4A是详细示出根据本发明示例性实施例的跟踪单元的结构的框图；

图4B示出使用特征点细化进行特征点跟踪的结果以及没有进行特征点细化进行特征点跟踪的结果；

图5是示出根据本发明示例性实施例的头部姿态估计方法的流程图；

图6A是详细示出根据本发明示例性实施例的图5的检测操作的流程图；

图6B是详细示出图6A中示出的特征点检测和评价的流程图；

图7是详细示出图5中示出的跟踪操作的流程图；

图8是详细示出图5中示出的预测步骤的流程图。

具体实施方式

现在，将参照附图更充分地描述根据本发明的示例实施例。

图1是示出根据本发明示例性实施例的头部姿态估计设备的框图。

参照图1，根据本发明示例性实施例的头部姿态估计设备包括多视角图像捕获单元20、检测单元30、跟踪单元40和姿态估计单元50。

多视角图像捕获单元20从多个视角捕获多视角图像。检测单元30从多个视角选择显著视角，并对选择的显著视角的图像检测特征点。跟踪单元40 针对显著视角的图像跟踪由检测单元30检测的特征点。姿态估计单元50基于检测单元检测的特征点或跟踪单元跟踪的特征点来估计头部姿态。

在根据本发明的示例性实施例中，显著视角是指这样一种视角，该视角的图像具有更突出的特征，并且该视角的对象更容易被识别。例如，在不同视角拍摄的人脸图像中，人的正面图像可被认为对应于显著视角。在本申请中，检测单元30可通过使用匹配方法或区别方法来选择显著视角。具体地讲，针对每个视角，检测单元30可训练一个分类器，并计算每个分类器与对应视角的输入样本之间的匹配分数(例如，通过使用模板匹配方法、Ada-boosting方法等)。检测单元30根据计算的匹配分数来选择具有最佳匹配的视角。另外，检测单元30可通过使用例如LDA、二进制树、KD树等，针对给定的样本，逐步减小可能的视角范围，从而选择显著视角。

根据本发明的另一示例性实施例，所述头部姿态估计设备还可包括预测单元60，所述预测单元60可基于姿态估计单元50估计的头部姿态来预测下一帧的显著视角。因为当对象转动时，相应的显著视角将改变，所以需要根据对象运动的历史信息来预测下一帧中的显著视角。在估计头部姿态之后，可利用估计的头部姿态来预测下一帧的显著视角，如果显著视角改变，则将进行检测操作；否则，将进行跟踪操作。也就是说，可用预测操作来代替检测操作，因预测操作比检测操作花费相对少很多的时间，所以更能节省时间，实时性更佳。

多视角图像捕获单元20可以是摄像机阵列，包括处于不同视角的多个摄像机，即摄像机1至摄像机n，其中，n为大于1的正整数；另外，为了便于描述，将与摄像机1对应的视角称为视角1，将与摄像机2对应的视角称为视角2，类似地，将与摄像机n对应的视角称为视角n。多视角图像捕获单元20从不同的视角捕获对象的视频流(在本申请中，基于视频流的当前帧进行处理，为了便于描述，以下将称为多视角图像的当前帧)，并将拍摄的多视角图像的当前帧发送到检测单元30和跟踪单元40。

图2示出了多视角图像捕获单元20中的摄像机阵列的布置，以及头部姿态估计设备所在的全局坐标系和用于摄像机阵列的每个摄像机的局部坐标系。如图2所示，除了用于整个头部姿态估计设备的全局坐标系之外，摄像机阵列中的每个摄像机还具有各自的局部坐标系。

在估计头部姿态时会涉及全局坐标和局部坐标之间的变换，但因为在申请号为201010115146.2的专利申请中详细描述了如何估计头部姿态，因此，在本申请中将不再详细描述全局坐标和局部坐标之间的变换以及姿态估计单元50的操作。

在根据本发明的其他示例性实施例中，检测单元30可首先针对显著视角的图像帧检测关键点，然后利用检测到的关键点(例如，利用关键点的检测参数)检测特征点，以更快速获得更具有鲁棒性的检测结果。

在根据本发明的另一示例性实施例，所述头部姿态估计设备还可包括控制器10，控制器10通过设置参数来控制头部姿态估计设备的整体操作。例如，控制器10可通过设置参数state的值来控制检测单元30、跟踪单元40、估计单元500和预测单元60中的至少一个操作。控制器10可通过设置参数bSuccess的值来控制姿态估计单元50执行姿态估计操作，所述参数bSuccess被设置为TRUE或FALSE。另外，控制器10对检测单元30检测的特征点或跟踪单元40跟踪的特征点进行评价，并基于评价结果来设置所述参数。

因为不好的特征点将导致错误的姿态估计结果，因此，需要对检测的特征点或跟踪的特征点进行评价，并去除不好的特征点。根据本发明的示例性实施例，控制器10可根据置信度测量(CM，为[0，1]之间的小数)来对检测的特征点或跟踪的特征点进行评价，并根据评价结果选择好的特征点。稍后将进行更详细地描述。

根据本发明的示例性实施例，参数State表示头部姿态估计设备所处的状态，在本发明的示例性实施例中，参数State可被设置为STATE_DETECTION、STATE_TRACKING以及STATE_PREDICTION，其中，STATE_DETECTION表示头部姿态估计设备处于检测状态，控制器10将控制检测单元30执行检测操作；STATE_TRACKING表示头部姿态估计设备处于跟踪状态，控制器10将控制跟踪单元40执行跟踪操作；STATE_PREDICTION表示头部姿态估计设备处于预测状态，控制器10将控制预测单元60执行预测操作。bSuccess表示检测单元30执行检测操作、跟踪单元40执行跟踪操作以及预测单元60执行预测操作的成功与否，如果检测单元30、跟踪单元40和预测单元60中的至少一个操作失败，则控制器将bSuccess设置为FALSE；如果检测单元30、跟踪单元40和预测单元60中的至少一个操作成功，则控制器10将bSuccess设置为TRUE。

图3A是示出根据本发明另一示例性实施例的图1中示出的检测单元30 的结构的框图。

图3A示出了图1中示出的检测单元30的详细框图。

如图3A所示，检测单元30包括对象检测单元31、显著视角选择单元32、特征点检测单元33。

检测单元30用于从输入的多视角图像的当前帧中检测出对象(例如，头部)，并检测出用于对象跟踪的特征点。

参照图3A，对象检测单元31从多视角图像捕获单元20接收多视角图像的当前帧，并从接收的多视角图像的当前帧中检测对象，即关于所有视角来检测对象。在当前实施例中，对象可以是人的头部和/或人眼。对于对象检测，可使用现有技术中已有的多视角Ada-boosting方法、SIFT方法和模板匹配方法中的至少一种方法，因这些方法为现有技术中已有的方法，因此，在此不再详细阐述。

图3B示出了针对多视角图像的对象检测的结果。从图3B的(1)、(2)和(3)可明显看出，本专利算法可以很好的检测多视角对象。

在对象检测单元31检测到对象之后，显著视角选择单元32可从多个视角中选择一个显著视角。在本申请中，显著视角选择单元32可通过使用匹配方法或区别方法来选择显著视角。具体地讲，针对每个视角，显著视角选择单元32可训练一个分类器，并计算每个分类器与对应视角的输入样本之间的匹配分数(例如，通过使用模板匹配方法、Ada-boosting方法等)。显著视角选择单元32根据计算的匹配分数来选择具有最佳匹配的视角。另外，显著视角选择单元32可通过使用例如LDA、二进制树、KD树等，针对给定的样本，逐步减小可能的视角范围，从而选择显著视角。

特征点检测单元33针对显著视角选择单元32选择的显著视角的图像帧进行特征点检测，根据本发明的示例性实施例，特征点检测单元33既可针对对象区域进行特征点检测，也可先进行关键点检测，然后再利用检测的关键点进行特征点检测。可使用现有技术中的AAM和ASM方法针对对象区域进行特征点检测，这里不再进行详细描述。

在根据本发明的示例性实施例中，关键点与特征点不同，关键点的数量比特征点的数量少，并且对于检测，关键点比特征点更重要并更具有鲁棒性。在本申请中，将人眼的中心点视为关键点，但本申请并不限于此，例如，还可关于鼻子、嘴巴等来设置关键点。图3C示例性示出了关键点和特征点，在图3C的(1)中示出的点是关键点，在图3C的(2)中示出的点为特征点。关键点检测能提高特征点检测的正确性和鲁棒性，关键点检测对于特征点检测而言是可选的，即特征点检测单元33在可不进行关键点检测的情况下直接进行特征点检测。特征点检测单元33可使用现有技术中的Ada-boosting方法或模板方法进行关键点检测。

优选地，特征点检测单元33首先针对显著视角的图像帧进行关键点检测，然后利用检测到的关键点(例如，利用关键点的检测参数)进行特征点检测，以更快速获得更具有鲁棒性的检测结果。

控制单元10对特征点检测单元33检测到的特征点进行评价。因为不好的特征点将导致错误的姿态估计结果，因此，需要对检测的特征点进行评价，并去除不好的特征点。

根据本发明的示例性实施例，可根据置信度测量(CM，为[0，1]之间的小数)来对检测的特征点进行评价，并去除不好的特征点。CM值越大，表示测量的特征点越好。

在检测的特征点中有效特征点的数量越多，置信度越高；检测的特征点的能量函数的分数越高，置信度越高；检测的特征点和输入图像帧之间的残差越小，置信度越高。在图3D中示出了具有不同置信度的图像帧。如图3D所示，图3D的(1)中示出的图像帧的置信度为0.95，图3D的(2)中示出的图像帧的置信度为0.75，图3D的(3)中示出的图像帧的置信度为0.3。从图3D可明显看出，在图3D的(1)中，检测的特征点和图像帧最匹配，即检测的特征点与图像帧最吻合，基本没有偏离的特征点；在图3D的(2)中，检测的特征点与图像帧不是很匹配，有部分特征点偏离了图像帧；在图3D的(3)中，检测的特征点明显偏离了图像帧，例如，检测的鼻子和嘴巴等特征点无法与图像帧吻合。

在当前实施例中，控制器10可基于评价结果(即CM值)来选择将被跟踪单元40跟踪的特征点，例如，可选择图4D的(1)中示出的特征点进行跟踪，而去除图4D的(2)和(3)中示出的特征点。

控制单元10可基于特征点的评价结果和/或先前帧的跟踪结果进行参数设置。详细地讲，如果评价结果为高，则控制器10将参数State设置为STATE_STRACKING，并将参数bSuccess设置为TRUE。另外，如果对象检测单元31没有检测到对象，则控制器10可根据先前帧是否具有好的特征点跟踪结果来设置参数，例如，如果先前帧具有好的特征点跟踪结果，则控制器10将参数State设置为STATE_TRACKING；否则，控制器10将参数State设置为STATE_DETECTION。

图4A是详细示出根据本发明示例性实施例的跟踪单元40的结构的框图。

参照图4A，根据本发明示例性实施例的跟踪单元40可包括特征点跟踪单元41和特征点细化(refinement)单元42。

在检测单元30检测到特征点之后，在控制单元10的控制下，特征点跟踪单元41可通过使用现有技术中已有的基于金字塔的L_K光流(pyramids based Lucas&Kanade optical flow)方法来单独跟踪检测到的每个特征点，所述方法速度快且对于光照和姿态改变具有鲁棒性。

特征点细化单元42对特征点跟踪单元41跟踪的特征点进行细化，以对特征点进行校正。因为单独跟踪每个特征点，一些特征点会在错误的位置，从而存在偏差，因此，特征点细化单元42可利用全部特征点集合的信息来对偏差进行补偿。

根据本发明的示例性实施例，特征点细化单元42可根据下面的等式利用现有技术中已有的主成分分析(PCA)来对跟踪的特征点集合进行建模：

S = \overset{&OverBar;}{S} + Σ (w_{i} \times S_{i}) + ϵ,

其中，S表示跟踪的特征点集合，

表示PCA平均值，S_i表示PCA特征向量，w_i表示特征向量权重，ε表示训练好的PCA模型与跟踪的特征点之间的残差，这里，残差可被认为是特征点跟踪的误差。因此，细化的跟踪特征点可被表示为：

图4B的(1)和(2)分别示出了使用特征点细化进行特征点跟踪的结果以及没有进行特征点细化进行特征点跟踪的结果。比较图4B的(1)和(2)可明显看出，使用特征点细化的跟踪结果特征点分布更均匀，与图像帧更为匹配。

以上参照附图描述了跟踪单元40的详细结构，但应该理解的是，这仅仅是为了说明的目的而示出的示例性实施例，也就是说，根据本发明的其他实施例，跟踪单元可不包括特征点细化单元42。

控制器10可对特征点细化单元42输出的特征点进行评价，这里的评价操作与控制器10对检测的特征点的评价操作类似，这里将不再详细描述。

控制器10可根据评价结果和/或特征点跟踪单元41的跟踪结果来设置参数。详细地讲，如果特征点跟踪单元41跟踪失败或者评价结果为CM值不大于预定阈值，则控制器10将参数State设置为STATE_TRACKING，即之后将控制检测单元执行检测操作；如果评价结果为CM值大于预定阈值，则将参数bsuccess设置为TRUE。

另外，控制器10还可根据将要跟踪的图像帧的数量或者间隔的时间来设置参数State。例如，以图像帧的数量为例，如果将要跟踪的图像帧的数量大于预定值，则控制器10可将参数State设置为STATE_PREDICTION；如果将要跟踪的图像帧的数量不大于预定值，则将参数State设置为STATE_TRACKING。

下面将参照图5来描述根据本发明示例性实施例的头部姿态估计的方法。

图5是示出根据本发明示例性实施例的头部姿态估计方法的流程图。

在步骤501，将参数State初始化为STATE_DETECTION，这表示处于检测状态。

然后，在步骤502，确定是否终止头部姿态估计方法。如果确定不终止头部姿态估计方法，则进入步骤503；如果确定终止头部姿态估计方法，则结束。

在步骤503，将参数bSuccess设置为FALSE，参数bSuccess的含义及其设置值已在上面进行了详细描述，这里不再进行重复描述。

在步骤504，接收从不同的视角捕获的对象的多视角图像。在当前实施例中，对象的多视角图像图像可以是人的头部图像。

在步骤505-507，确定参数State为STATE_DETECTION，为STATE_TRACKING还是为STATE_PREDICTION。这里，需要说明的是，在图5中示出的操作为循环操作，在后续的检测操作、跟踪操作以及预测操作中将根据具体情况对参数State进行设置，从而可根据参数State的值来确定执行哪种操作(即，检测操作、跟踪操作以及预测操作之一)。因为在步骤501参数State被初始化为STATE_DETECTION，所以执行检测步骤508。稍后将参照附图详细描述检测操作。

因参数State在后续的操作中会被重新设置，所以需要在步骤505-507中确定参数State的值，并根据参数State的值来确定对输入的多视角图像的当前帧执行检测操作、跟踪操作还是预测操作。详细地讲，在步骤505，确定State是否为STATE_DETECTION，如果是，则在步骤508执行检测操作；在步骤506，确定State是否为STATE_TRACKING，如果是，则在步骤509执行跟踪操作；在步骤505，确定State是否为STATE_PREDICTION，如果是，则在步骤510执行预测操作。检测操作、跟踪操作和预测操作将在下面参照附图进行详细描述。

之后，在步骤511，确定参数bSuccess是否为TRUE。这里需要说明的是，在前面的步骤508的检测操作、步骤509的跟踪操作和步骤510的预测操作中，根据上述操作完成的成功与否来设置bSuccess。例如，如果检测操作、跟踪操作以及预测操作之一被成功执行，则bSuccess被设置为TRUE。

如果在步骤511确定参数bSuccess为TRUE，则在操作512执行头部姿态估计。因在申请号为201010115146.2的专利申请中详细描述了如何估计头部姿态，因此，在本申请中将不再进行详细阐述。如果在步骤511确定参数bSuccess为FALSE，则在操作513控制器10进行参数更新，并返回到步骤502进行循环操作。

以下，将参照附图对检测操作、跟踪操作和预测操作进行详细描述。

图6A是详细示出根据本发明示例性实施例的图5的步骤508中的检测操作的流程图。

参照图6A，首先，在步骤601，接收多视角图像的当前帧。然后，在步骤602，从多视角图像的当前帧中检测对象，即关于所有视角来检测对象。在当前实施例中，对象可以是人的头部和/或人眼。对于对象检测，可使用现有技术中已有的多视角Ada-boosting方法、SIFT方法和模板匹配方法中的至少一种方法，因这些方法为现有技术中已有的方法，因此，在此不再详细阐述。

在步骤603，可确定对象检测操作是否被成功执行。这里，如何确定检测操作是否成功对于本领域技术人员而言是清楚的，例如，可依据检测结果的概率值来确定检测结果是否成功。如果在步骤603确定检测操作被成功执行，则进行到步骤604。

在步骤604，选择显著视角。在本申请中，可通过使用匹配方法或区别方法来选择显著视角。具体地讲，针对每个视角，可训练一个分类器，并计算每个分类器与对应视角的输入样本之间的匹配分数(例如，通过使用模板匹配方法、Ada-boosting方法等)。根据计算的匹配分数，选择具有最佳匹配的视角。另外，可通过使用例如LDA、二进制树、KD树等，针对给定的样本，逐步减小可能的视角范围，从而选择显著视角。

在选择了显著视角之后，在步骤605，针对显著视角的图像进行特征点检测和评价。图6B示出了图6A中示出的步骤605的特征点检测和评价的详细步骤。稍后将参照图6B对此进行详细描述。

如果在步骤603确定检测操作没有被成功执行，则在步骤606确定关于多视角图像的先前帧是否具有好的特征跟踪结果。如果在步骤606中确定关于多视角图像的先前帧具有好的特征跟踪结果，则在步骤607将参数State设置为STATE_TRACKING，即接下来将利用先前帧的特征跟踪结果对下一帧进行跟踪操作；否则，在步骤608将参数State设置为STATE_DETECTION，即接下来的操作将针对下一帧进行检测操作。

下面将参照图6B详细描述特征点检测和评价。

如图6B所示，在步骤611，关于在图6A的步骤404中选择的显著视角进行关键点检测。关键点的定义、关键点检测以及关键点检测的优点已参照图3A给出了详细描述，这里不再进行重复描述。

在步骤612，确定关键点检测是否被成功执行。

如果在步骤612确定关键点检测被成功执行，则进行到步骤613，利用检测到的关键点(例如，利用关键点的检测参数)进行特征点检测，以更快速获得更具有鲁棒性的检测结果。

如果在步骤612确定关键点检测没有被成功执行，则进行到步骤614，利用对象区域进行特征点检测。

针对步骤613和614中的特征点检测，可使用现有技术中的AAM和ASM方法进行特征点检测。

在执行了步骤613和614之后，进行到步骤615，对检测到的特征点进行评价。因为不好的特征点将导致错误的姿态估计结果，因此，需要对检测的特征点进行评价，并去除不好的特征点。以上已对如何评价特征点给出了详细描述，这里不再进行重复描述。

在评价了特征点之后，进行到步骤616，确定用于评价特征点的CM值是否大于预定阈值，这里，可根据实际需要来设置所述预定阈值。如果在步骤616中确定CM值大于预定阈值，则在步骤617将参数bSuccess设置为 TRUE，并将参数State设置为STATE_TRACKING，否则，在步骤618，将参数State设置为STATE_DETECTION，即将针对下一帧进行检测操作。

以上参照图6A-6B详细描述了检测操作。与现有技术相比，针对多视角图像，本申请的检测步骤包括了选择显著视角，因从多个视角中选择了一个显著视角的图像进行处理，从而提高了检测结果，并减少了检测所需时间。另外，还可进行关键点检测，关键点检测显著提高了特征点检测的正确性和鲁棒性，从而提高了本申请的头部姿态估计的正确性和鲁棒性。另外，可根据先前帧的特征点的跟踪情况以及评价结果来设置参数，以使可基于参数的设置来控制各个操作，从而显著提高了头部检测设备的可操作性。

以下，将参照图7来描述图5的步骤509中示出的跟踪操作。

参照图7，在步骤701，针对输入的显著视角的图像帧对在检测步骤检测到的特征点进行跟踪。在根据本发明的示例性实施例中，通过使用现有技术中已有的基于金字塔的L_K光流方法来单独跟踪每个特征点，这是因为该方法速度快且对于光照和姿态改变非常具有鲁棒性。

在步骤702确定特征点跟踪是否被成功执行。

如果在步骤702确定特征点跟踪被成功执行，在进行到步骤703进行特征点细化。已参照图4A的特征点细化单元42对特征点细化操作及其优点进行了详细描述，这里不再进行重复描述。

在特征点细化之后，进行到步骤704，对特征点进行评价，并在步骤705中确定用于特征点评价的CM值是否高于预定阈值。以上已对特征点的评价进行了详细描述，这里不再进行重复描述。

如果在步骤705中确定CM值大于预定阈值，则在步骤706将参数bSuccess设置为TRUE。之后，在步骤707中确定跟踪的图像帧的数量是否大于预定阈值。如果在步骤707中确定跟踪的图像帧的数量不大于预定阈值，则进行到步骤709，将参数State设置为STATE_TRACKING，即之后将执行跟踪操作；如果在步骤707中确定跟踪的图像帧的数量大于预定阈值，则进行到步骤710，将参数State设置为STATE_PREDICTION，即之后执行预测操作。

再返回到步骤702和步骤705，如果在步骤702中确定特征点跟踪没有被成功执行，或者在步骤705中确定CM值小于或等于预定阈值，则在步骤708将参数State设置为STATE_DETECTION，即之后执行检测操作。

因为当对象转动时，相应的显著视角将改变，所以需要根据对象运动的历史信息来预测下一帧中的显著视角。在估计头部姿态之后，可利用估计的头部姿态来预测显著视角，如果显著视角改变，则将进行检测操作；否则，将进行跟踪操作。也就是说，可用预测操作来代替检测操作，因预测操作比检测操作花费相对少很多的时间，所以更能节省时间，实时性更佳。

下面，将参照图8详细描述在图5中示出的预测步骤510。

参照图8，在步骤801，利用在图5的步骤512估计的头部姿态来预测显著视角。在步骤802确定预测的显著视角是否在明确的视角范围内，即是否属于特定摄像机的视角范围。可根据预测的显著视角与视角范围的边界角度之差是否大于预定角度来确定显著视角是否在明确的视角范围内。例如，假设所述预定角度为5°，如果一个摄像机的视角范围是-30°～+30°，并且预测的显著视角为20°，则说明预测的显著视角在明确的视角范围内。而如果一个摄像机的视角范围是-30°～+30°，另一摄像机的视角范围是30°～60°，而预测的显著视角为31°，则说明预测的显著视角没有在明确的视角范围内。如果在步骤802中确定显著视角在明确的视角范围内，则在操作803执行跟踪操作，否则在步骤804执行检测操作。另外，在步骤803执行了跟踪操作之后，在步骤805，将参数State设置为STATE_PREDETION；在步骤804执行了检测操作之后，在步骤806，将参数state设置为STATE_TRACKING。

以上参照图5至图8详细描述了根据本发明示例性实施例的头部姿态估计方法，但应该注意的是，这仅仅是示例性的，本发明并不限于此。例如，在图5中，可不包括预测步骤，毕竟预测操作相对检测操作更节省时间，可看成是检测操作的替代操作，所以预测操作对于根据本发明示例性实施例的头部姿态估计方法并不是必不可少的。另外，各个参数的设置以及各个操作之间的跳转也仅仅是优选方案，也就是说，这里示出的方案可能与其他方案相比能获得更好的效果，但并不是说，这是唯一的、不可替代的方案。例如，在跟踪操作中，可以不必进行特征点细化操作，因为特征点细化仅仅是对跟踪的特征点的校正，以使得校正后的特征点具有更好的评价结果。

应注意，根据本发明示例性实施例的头部姿态估计方法和设备可被应用于人机交互领域，例如，屏幕控制装置(基于头部姿态控制屏幕上的光标移动)、屏幕调整系统(通过检测人的头部姿态来自动调整显示装置的屏幕角度)、驾车安全提示系统(基于驾驶员的头部姿态提醒驾驶员注意驾驶安全)。

已参照本发明的示例性实施例描述了本发明，但本领域技术人员应该理解，本发明并不限于这里示出的示例性实施例，在不脱离本发明的原理和精神的情况下，可对这些实施例进行改变，其中，本发明的范围由权利要求及其等同物限定。

Claims

1.一种头部姿态估计设备，包括：

多视角图像捕获单元，从多个视角捕获多视角图像；

检测单元，从多个视角选择显著视角，并对选择的显著视角的图像检测特征点；

跟踪单元，针对显著视角的图像跟踪由检测单元检测的特征点；

姿态估计单元，基于检测单元检测的特征点或跟踪单元跟踪的特征点来估计头部姿态。

2.如权利要求1所述的头部姿态估计设备，所述头部姿态估计设备还包括：预测单元，基于姿态估计单元估计的头部姿态来预测多视角图像的下一帧的显著视角。

3.如权利要求1所述的头部姿态估计设备，其中，所述检测单元对选择的显著视角的图像检测关键点，并利用检测到的关键点来对选择的显著视角的图像检测特征点。

4.如权利要求1所述的头部姿态估计设备，其中，跟踪单元包括：特征点跟踪单元，针对显著视角的图像单独跟踪由检测单元检测的每个特征点；特征点细化单元，对特征点跟踪单元跟踪的特征点进行细化，以对特征点进行校正。

5.如权利要求4所述的头部姿态估计设备，其中，所述特征点细化单元根据下面的等式利用主成分分析PCA来对跟踪的特征点集合进行建模：

S = \overset{&OverBar;}{S} + Σ (w_{i} \times S_{i}) + ϵ,

其中，S表示跟踪的特征点集合，

6.如权利要求1所述的头部姿态估计设备，其中，所述头部姿态估计设备还包括：控制器，控制器通过设置参数来控制头部姿态估计设备的整体操作。

7.如权利要求6所述的头部姿态估计设备，其中，控制器对检测单元检测的特征点或跟踪单元跟踪的特征点进行评价，并基于评价结果选择特征点和设置所述参数。

8.如权利要求6所述的头部姿态估计设备，其中，所述参数包括State，其中，参数State表示头部姿态估计设备所处的状态，参数State被设置为分别表示处于检测状态的STATE_DETECTION、处于跟踪状态的STATE_TRACKING、处于预测状态的STATE_PREDICTION。

9.如权利要求6所述的头部姿态估计设备，其中，所述参数包括bSuccess，所述参数bSuccess被设置为TRUE或FALSE，控制器根据参数bSuccess来控制姿态估计单元执行姿态估计操作。

10.如权利要求1所述的头部姿态估计设备，其中，具有显著视角的图像具有突出特征，并且具有显著视角的图像中对象更容易被识别。

11.如权利要求10所述的头部姿态估计设备，其中，检测单元通过使用匹配方法或区别方法来选择显著视角。

12.一种屏幕控制装置，其特征在于：包括如权利要求1到11的任何之一所述的头部姿态估计设备。

13.一种屏幕调整系统，其特征在于：包括如权利要求1到11的任何之一所述的头部姿态估计设备。

14.一种驾车安全提示系统，其特征在于：包括如权利要求1到11的任何之一所述的头部姿态估计设备。

15.一种头部姿态估计方法，包括以下步骤：

从多个视角捕获多视角图像；

从多个视角选择显著视角，并对选择的显著视角的图像检测特征点；

针对显著视角的图像跟踪检测的特征点；

基于检测单元检测的特征点或跟踪单元跟踪的特征点来估计头部姿态。

16.如权利要求15所述的头部姿态估计方法，所述头部姿态估计方法还包括步骤：基于估计的头部姿态来预测多视角图像的下一帧的显著视角。

17.如权利要求15所述的头部姿态估计方法，其中，检测特征点的步骤包括：对选择的显著视角的图像检测关键点，并利用检测到的关键点来对选择的显著视角的图像检测特征点。

18.如权利要求15所述的头部姿态估计方法，其中，跟踪检测的特征点的步骤包括：针对显著视角的图像单独跟踪检测的每个特征点；对跟踪的特征点进行细化，以对特征点进行校正。

19.如权利要求18所述的头部姿态估计方法，其中，所述特征点细化步骤包括：根据下面的等式利用主成分分析PCA来对跟踪的特征点集合进行建模：

S = \overset{&OverBar;}{S} + Σ (w_{i} + S_{i}) + ϵ,

其中，S表示跟踪的特征点集合，

20.如权利要求15所述的头部姿态估计方法，其中，所述头部姿态估计方法还包括：通过设置参数来控制头部姿态估计方法中各个操作的执行。

21.如权利要求20所述的头部姿态估计方法，其中，对检测的特征点或跟踪的特征点进行评价，并基于评价结果选择特征点和设置所述参数。

22.如权利要求20所述的头部姿态估计方法，其中，所述参数包括State，其中，参数State表示头部姿态估计设备所处的状态，参数State被设置为分别表示处于检测状态的STATE_DETECTION、处于跟踪状态的STATE_TRACKING、处于预测状态的STATE_PREDICTION。

23.如权利要求20所述的头部姿态估计方法，其中，所述参数包括bSuccess，所述参数bSuccess被设置为TRUE或FALSE，根据参数bSuccess来控制执行姿态估计操作。

24.如权利要求15所述的头部姿态估计方法，其中，具有显著视角的图像具有突出特征，并且具有显著视角的图像中对象更容易被识别。

25.如权利要求24所述的头部姿态估计方法，其中，通过使用匹配方法或区别方法来选择显著视角。