CN109034137B

CN109034137B - 头部姿态标记更新方法、装置、存储介质和终端设备

Info

Publication number: CN109034137B
Application number: CN201811044603.6A
Authority: CN
Inventors: 赵彤彤; 燕飞龙; 王亮; 马彧
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2019-11-19
Anticipated expiration: 2038-09-07
Also published as: CN109034137A

Abstract

本发明提出一种头部姿态标记更新方法、装置、存储介质和终端设备，其中，所述方法包括：从视线区域的图像样本集中，选取所述视线区域的图像索引集的第一张脸部图像；根据所述图像索引集以及相邻视线区域的图像索引集的第一张脸部图像的头部姿态，计算所述视线区域与相邻视线区域的平均距离；从所述图像样本集中选取脸部图像，并添加在所述视线区域的图像索引集中；其中，选取到的脸部图像的头部姿态到相邻视线区域的头部姿态标记的距离符合与所述平均距离近似的标准，以及根据所述视线区域的图像索引集的脸部图像的头部姿态，更新所述视线区域的头部姿态标记。采用本发明，可以提高确定头部姿态的准确程度。

Description

头部姿态标记更新方法、装置、存储介质和终端设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种头部姿态标记更新方法、装置、存储介质和终端设备。

背景技术

近几年来，随着车辆的普及，交通安全越来越成为大家关注的安全问题之一。如何避免交通事故，除了遵守交通秩序等客观要求外，人为的主观因素也是非常重要的。在人为的主观因素中，较为重要的就是驾驶员的注意力和驾驶姿势。因此，如何避免因为驾驶员注意力不集中而导致车祸发生就显得尤为关键。

在驾驶过程，可以通过检测驾驶员的视线区域的变化来研究驾驶员的注意力变化。在确定驾驶员的视线区域的过程中，传统方案是利用二维彩色图像的视频检测驾驶员的头部姿态转动的变化，进而确定驾驶员的视线区域的变化。

但是，上述方案存在以下缺点：

1、在驾驶室内的光线较弱、非均匀光照以及空间狭小等情况下，难以准确检测驾驶员的头部姿态。

2、当驾驶员不是直视前方的情况下，仅基于驾驶员的头部姿态来确定驾驶的视线区域是不准确的。

为了解决上方案存在的问题，发明人提供了一种方案：将驾驶员在驾驶室内的观测范围划分成多个视线区域，并建立各视线区域对应的头部姿态模板。当对脸部图像的头部姿态进行检测时，利用各视线区域对庆的视线区域模板对头部姿态进行较准，如此可以准确地检测头部姿态、确定驾驶员的视线区域。因此，如何建立各视线区域对应的头部姿态模板，提高头部姿态校准的精度，是目前亟需解决的技术问题之一。

发明内容

本发明实施例提供一种头部姿态标记更新方法、装置、存储介质和终端设备，以解决或缓解现有技术中的以上一个或多个技术问题。

第一方面，本发明实施例提供了一种头部姿态标记更新方法，包括：

从视线区域的图像样本集中，选取所述视线区域的图像索引集的第一张脸部图像；

根据所述图像索引集以及相邻视线区域的图像索引集的第一张脸部图像的头部姿态，计算所述视线区域与相邻视线区域的平均距离；

从所述图像样本集中选取脸部图像，并添加在所述视线区域的图像索引集中；其中，选取到的脸部图像的头部姿态到相邻视线区域的头部姿态标记的距离符合与所述平均距离近似的标准，以及

根据所述视线区域的图像索引集的脸部图像的头部姿态，更新所述视线区域的头部姿态标记。

结合第一方面，在第一方面的第一种实施方式中，从视线区域的图像样本集中，选取所述视线区域的图像索引集的第一张脸部图像，包括：

计算所述视线区域的图像样本集的各脸部图像的头部姿态；以及

从所述图像样本集中，选取头部姿态到所述图像样本集中其他脸部图像的头部姿态距离最小的脸部图像，作为所述视线区域的图像索引集的第一张脸部图像。

结合第一方面，在第一方面的第二种实施方式中，选取第一张脸部图像所利用的计算公式，包括：

其中，Y₀表示所述图像索引集的第一张脸部图像，Y表示所述图像样本集，d(Y,Y′)表示所述图像样本集中任意两个脸部图像之间的距离；所述距离通过所述两个脸部图像的头部姿态计算得到。

结合第一方面，在第一方面的第三种实施方式中，计算所述视线区域与相邻视线区域的平均距离所利用的计算公式，包括：

其中，(α_adt,β_adt)表示相邻视线区域的平均距离，m是相邻视线区域对的数量，表示第i个视线区域的图像索引集的第一张脸部图像的头部姿态；表示第j个视线区域的图像索引集的第一张脸部图像的头部姿态；表示由在偏航角方向轴上和在俯仰角方向轴上的两个坐标构成的坐标位置；第i个视线区域与第j个视线区域相邻。

结合第一方面，在第一方面的第四种实施方式中，从所述图像样本集中选取脸部图像，并添加在所述视线区域的图像索引集中，包括：

计算所述视线区域的平均头部姿态与相邻视线区域的平均头部姿态在偏航角方向轴上的偏差值，以及在俯仰角方向轴上的偏差值；

根据所述平均距离和所述偏差值，更新在偏航角方向轴上的坐标和在俯仰角方向轴上的坐标；以及

从所述图像样本集中，选取头部姿态与所述视线区域的图像索引集的第一张脸部图像的头部姿态，在所述坐标位置上范数距离最小的脸部图像，并添加在所述图像索引集中。

结合第一方面的第四种实施方式，在第一方面的第五种实施方式中，计算在偏航角方向轴上的偏差值，以及在俯仰角方向轴上的偏差值所利用的计算公式，包括：

ρ_y＝maxd_y(A_i,A_j)/y

ρ_p＝maxd_p(A_i,A_j)/p；

其中，ρ_y表示在偏航角方向轴上的偏差值，ρ_p表示在俯仰角方向轴上的偏差值，d_y(A_i,A_j)表示第i个视线区域的平均头部姿态与第j个视线区域的平均头部姿态在偏航角方向轴上的距离，d_p(A_i,A_j)表示第i个视线区域的平均头部姿态与第j个视线区域的平均头部姿态在俯仰角方向轴上的距离，y表示在偏航角方向轴上的坐标，p表示在俯仰角方向轴上的坐标。

结合第一方面的第五种实施方式，在第一方面的第六种实施方式中，根据所述平均距离和所述偏差值，更新在偏航角方向轴上的坐标和在俯仰角方向轴上的坐标，包括：

采用比例系数向量公式，确定在偏航角方向轴上的坐标和在俯仰角方向轴上的坐标之间的数值比例；以及

确定符合所述数值比例的整数值，更新在偏航角方向轴上的坐标和在俯仰角方向轴上的坐标。

结合第一方面的第六种实施方式，在第一方面的第七种实施方式中，包括：

(c_y,c_p)＝(α_adt/ρ_y,β_adt/ρ_p)；

其中，(c_y,c_p)表示所述数值比例，α_adt表示相邻视线区域在偏航角方轴上的平均距离，β_adt表示相邻视线区域在俯仰角方向轴上的平均距离。

结合第一方面的第七种实施方式，在第一方面的第八种实施方式中，从所述图像样本集中，选取头部姿态与所述视线区域的图像索引集的第一张脸部图像的头部姿态，在所述坐标上范数距离最小的脸部图像，利用的计算公式，包括：

其中，表示选取到的脸部图像，A_i表示所述图像样本集中的脸部图像的头部姿态，T_y·p为由更新后的在偏航角方向轴上和在俯仰角方向轴上的两个坐标构成的坐标位置，表示所述第一张脸部图像的头部姿态，由未更新前的在偏航角方向轴上和在俯仰角方向轴上的两个坐标构成的坐标位置，k表示所述视线区域的编号。

结合第一方面，在第一方面的第九种实施方式中，根据所述视线区域的图像索引集的脸部图像的头部姿态，更新所述视线区域的头部姿态标记，利用的计算公式，包括：

其中，表示第i个视线区域的头部姿态标记，A_l表示第i个视线区域的图像索引集，T_y·p表示由更新后的在偏航角方向轴上和在俯仰角方向轴上的两个坐标构成的坐标位置。

结合第一方面或其任一种实施方式，在第一方面的第十种实施方式中，所述方法还包括：

获取脸部图像；

利用预先划分的各所述视线区域的图像索引集以及头部姿态标记，识别所述脸部图像的头部姿态；以及

将所述脸部图像，添加在识别到的头部姿态所朝向的视线区域的图像样本集中。

第二方面，本发明实施例提供一种头部姿态标记更新装置，包括：

第一图像获取模块，用于从视线区域的图像样本集中，选取所述视线区域的图像索引集的第一张脸部图像；

平均距离计算模块，用于根据所述图像索引集以及相邻视线区域的图像索引集的第一张脸部图像的头部姿态，计算所述视线区域与相邻视线区域的平均距离；

其他图像获取模块，用于从所述图像样本集中选取脸部图像，并添加在所述视线区域的图像索引集中；其中，选取到的脸部图像的头部姿态到相邻视线区域的头部姿态标记的距离符合与所述平均距离近似的标准，以及

头部姿态更新模块，用于根据所述视线区域的图像索引集的脸部图像的头部姿态，更新所述视线区域的头部姿态标记。

结合第二方面，在第二方面的第一种实施方式中，所述第一图像获取模块包括：

头部姿态计算单元，用于计算所述视线区域的图像样本集的各脸部图像的头部姿态；以及

第一图像选取单元，用于从所述图像样本集中，选取头部姿态到所述图像样本集中其他脸部图像的头部姿态距离最小的脸部图像，作为所述视线区域的图像索引集的第一张脸部图像。

结合第二方面，在第二方面的第二种实施方式中，所述其他图像获取模块包括：

偏差值计算单元，用于计算所述视线区域的平均头部姿态与相邻视线区域的平均头部姿态在偏航角方向轴上的偏差值，以及在俯仰角方向轴上的偏差值；

坐标更新单元，用于根据所述平均距离和所述偏差值，更新在偏航角方向轴上的坐标和在俯仰角方向轴上的坐标；以及

其他图像选取单元，用于从所述图像样本集中，选取头部姿态与所述视线区域的图像索引集的第一张脸部图像的头部姿态，在所述坐标位置上范数距离最小的脸部图像，并添加在所述图像索引集中。

结合第二方面的第二种实施方式，在第二方面的第三种实施方式中，所述坐标更新单元包括：

数值比例计算子单元，用于采用比例系数向量公式，确定在偏航角方向轴上的坐标和在俯仰角方向轴上的坐标之间的数值比例；以及

确定坐标子单元，用于确定符合所述数值比例的整数值，更新在偏航角方向轴上的坐标和在俯仰角方向轴上的坐标。

结合第二方面或其任一种实施方式，在第二方面的第四种实施方式中，所述装置还包括：

脸部图像获取模块，用于获取脸部图像；

头部姿态识别模块，用于利用预先划分的各所述视线区域的图像索引集以及头部姿态标记，识别所述脸部图像的头部姿态；以及

图像添加模块，用于将所述脸部图像，添加在识别到的头部姿态所朝向的视线区域的图像样本集中。

所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，头部姿态标记更新结构中包括处理器和存储器，所述存储器用于头部姿态标记更新装置执行上述头部姿态标记更新程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述头部姿态标记更新装置还可以包括通信接口，用于头部姿态标记更新装置与其他设备或通信网络通信。

第三方面，本发明实施例还提供一种计算机可读存储介质，用于头部姿态标记更新装置所用的计算机软件指令，其中包括用于执行上述头部姿态标记更新方法所涉及的程序。

上述技术方案中的任意一个技术方案具有如下优点或有益效果：

本发明实施例可以通过自学习，不断地自行调整，为各视线区域建立头部姿态模板，用于在头部姿态检测时进行校准，提高确定头部姿态的准确程度。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1是本发明提供的头部姿态标记更新方法的一个实施例的流程示意图；

图2是本发明提供的实际驾驶室的视线区域划分的一个实施例的示意图；

图3是本发明提供的模拟驾驶室的视线区域划分的一个实施例的示意图；

图4是本发明提供的第一张脸部图像的选取过程的一个实施例的流程示意图；

图5是本发明提供的其他脸部图像的确定过程的一个实施例的流程示意图；

图6是本发明提供的收集图像样本的过程的一个实施例的流程示意图；

图7是本发明提供的视线区域模板的自学习建立过程一个应用示例的流程示意图；

图8是本发明提供的头部姿态标记更新装置的一个实施例的结构示意图；

图9是本发明提供的终端设备的一个实施例的结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

请参阅图1，本发明实施例提供了一种头部姿态标记更新方法。本实施例可以应用在人机交互的领域中：例如，在用户浏览电子书、视频、网上商店等情况下获取用户的兴趣。本实施例也可以应用于在汽车、轮船、飞机等交通工具中驾驶员在驾驶时的注意力检测场景中。本实施例并不限于上述举例的应用场景，只要涉及头部姿态均可应用本实施例。

本实施例包括步骤S100至步骤S400，具体如下：

S100，从视线区域的图像样本集中，选取视线区域的图像索引集的第一张脸部图像。

在本实施例中，图像样本集可以包括多张脸部图像。图像样本集用于学习构建成相应视线区域的头部姿态模板。在本实施例中，头部姿态模板包括图像索引集和头部姿态标志。头部姿态标志可以表示脸部图像的头部姿态的状态。脸部图像可以包括彩色图像和深度图像等。脸部图像至少包括人体脸部。

对于同一应用场景下，可以将例如驾驶员、看视频的用户等的观测者的观测范围划分成多个视线区域。例如，可以将驾驶室划分成多个区域。如图2所示，以实际驾驶室为例，可以将驾驶室的观测区域内划分成多个视线区域。例如，5、9、12等。在模拟驾驶室的观测区域，可以将驾驶室划分成图3所示。图中包括12个区域(Zone1至Zone12)，当驾驶员观察不同位置时，如左后视镜(left side mirror)、右后视镜(Right side mirror)、中间后视镜(Rearview mirror)、仪表盘(Instrument board)、中控台(Center console)、驾驶(Driver)、后窗(Back windows)、档风玻璃(windshield)、头部摄像头(Head camera)及行车记录仪(Road scene camera)等视线区域，驾驶员在脸部图像中的头部姿态以及眼部视线是不相同的。此外，对于显示屏，可以将显示屏划分多个视线区域。

在对传入的脸部图像进行头部姿态或视线区域的确定时，通过粒子滤波算法获得该脸部图像的头部姿态的粒子滤波估计值之后，测量各视线区域的头部姿态标记(或图像索引集中的脸部图像的头部姿态)与该粒子波波估计值的距离，然后根据各视线区域的距离概率分布，从中选取一个脸部图像的基本帧，可以用于替换传入的脸部图像。此时，选取的基本帧所在的视线区域，则为传入的脸部图像的视线区域。因而，在本实施例中，对驾驶员的视线区域的概率分析为：在给定状态下，根据距离函数的定义，确定传入的图像与在各视线区域的图像索引集中每个脸部图像(基本帧)的头部姿态的距离分布情况。而对于每个脸部图像的头部姿态可以通过粒子滤波算法求得。为了提高初始化较准，各视线区域，可以按照其各自的初始头部姿态以及图像样本集的头部姿态，从中选择第一张脸部图像。

S200，根据图像索引集以及相邻视线区域的图像索引集的第一张脸部图像的头部姿态，计算视线区域与相邻视线区域的平均距离。

在本实施例中，图像索引集可以作为视线区域的头部姿态模板，用于脸部图像的头部姿态识别。

在建立视线区域的模型中，所采用的分类算法是基于真实的度量空间的。给定度量空间X，定义在这个空间内的距离函数d具有以下三个特性：

(1)对于所有的x,y∈X，当且仅当x＝y时，有d(x,y)≥0

(2)d(x,y)＝d(y,x)

(3)d(x,y)+d(y,z)≥d(x,z)

在此距离函数中，x,y,z表示度量空间X中的一点。

以驾驶的应用场景为例，对于头部姿态的定义，具体可以如下：

首先，将驾驶的头部建模成一个刚性的对象，并在图像平面中限制为4°的自由度。然后，对当前时刻t输入的脸部图像，定义姿态为X_t＝(A_t,v_t)。其中，A_t＝(T_x,T_y,α_t,β_t)是四维向量，包括两个转换矩阵和两个转动向量。v_t表示由线速度和角速度构成的二维向量。当驾驶员平视前方驾驶时，头部的运动通常很慢。只有当驾驶员转动头部时，线性动力才可以产生一个临时的动作近似估计。另外，Y_t＝T_εX_t+V_t是X_t的一个实现，并且T_ε是两个图像空间的一个装换，V_t是时间点t的噪声。当前的状态X_t是通过分配了大量权重的采样点从脸部图像中估计得到的。利用粒子滤波方法，通过公式计算得到头部姿态。其中是第n个采样点的当前状态。

因此，本实施例可以采用Y_t表示当前的脸部图像，A_t或X_t表示当前的头部姿态。用表示各视线区域的头部姿态标记，Y＝{Y₁,Y₂，...,Y_k}来表示各视线区域的图像索引集的最后学习结果。在学习过程中，用于学习的图像样本集表示为

在确定各视线区域的图像索引集的第一张脸部图像时，可以建立一个初始的标准数据，即依据各视线区域的图像索引集的初始的标准数据，可以计算得到相邻视线区域在姿态空间中的平均距离。

S300，从图像样本集中选取脸部图像，并添加在视线区域的图像索引集中。其中，选取到的脸部图像的头部姿态到相邻视线区域的头部姿态标记的距离符合与平均距离近似的标准。

在本实施例中，视线区域中心(头部姿态标记)的生成方法是，采用近似相邻视线区域在姿态空间中的平均距离，来选择与第一张脸部图像相关的脸部图像，然后，以这些相关的脸部图像的头部姿态来确定该视线区域中心。所谓“近似”可以是：依据相邻视线区域在姿态空间中的平均距离，不断调整比例来，判断相邻视线区域的图像样本集的脸部图像的头部姿态距离是否达到最小值，若有最小值，则将该脸部图像添加在相应的视线区域的图像索引集中。

S400，根据视线区域的图像索引集的脸部图像的头部姿态，更新视线区域的头部姿态标记。

在本实施例中，对于任一视线区域，均可以选择相应的图像索引集中的脸部图像的头部姿态到此集合内的其他脸部图像的头部姿态的距离最小的对象，并将此对象的头部姿态作为此视线区域的头部姿态标记。头部姿态标记可以用于脸部图像的头部姿态检测，有利于提高检测的准确程度。

在一种可能的实现方式中，在上述步骤S100中，各视线区域的图像索引集的第一张脸部图像的选取过程，如图4所示，可以包括：

S110，计算视线区域的图像样本集的各脸部图像的头部姿态。

在本实施例中，可以采用粒子滤波算法计算各脸部图像的头部姿态。具体地，为大量的采样点分配权重值，然后按权重值的比例对脸部图像进行采样估计得到此脸部图像的当前状态，即头部姿态。在计算过程中，可以按各视线区域的原视线区域中心的头部姿态作为初始值进行计算。

S120，从图像样本集中，选取头部姿态到图像样本集中其他脸部图像的头部姿态距离最小的脸部图像，作为视线区域的图像索引集的第一张脸部图像。

具体地，可以以下公式表示步骤S120的计算过程：

其中，Y₀表示图像索引集的第一张脸部图像，Y表示图像样本集，d(Y,Y′)表示图像样本集中任意两个脸部图像(Y,Y′)之间的距离；距离通过两个脸部图像的头部姿态计算得到。

示例性，对于图像样本集Y中的脸部图像Y₁，计算Y₁与图像样本集Y其他所有脸部图像的头部姿态的距离。依据计算结果，确定Y₁与其他脸部图像距离最远的距离值。以此类推，确定图像样本集Y中的剩下的每一个脸部图像与其他的脸部图像距离最远的距离值。最后，选择距离值最小的脸部图像作为此图像样本集对应的视线区域的图像索引值的第一张脸部图像。

在一种可能的实现方式中，在上述步骤S200中，在各视线区域的图像索引索均确定有第一张脸部图像时，可以根据各视线区域的第一脸部图像的头部姿态，计相邻视线区域之间的平均距离。在本实施例中，头部姿态可以采用偏航角Yaw和俯仰角Pitch进行衡量。因此，可以采用以下计算公式进行计算，包括：

其中，(α_adt,β_adt)表示相邻视线区域在偏航角Yaw方向轴上和在俯仰角Pitch方向轴上的平均距离，m是相邻视线区域对的数量，表示第i个视线区域的图像索引集的第一张脸部图像的头部姿态；表示第j个视线区域的图像索引集的第一张脸部图像的头部姿态；表示由在偏航角方向轴上和在俯仰角方向轴上的两个坐标构成的坐标位置；第i个视线区域与第j个视线区域相邻。

在确定了各视线区域的第一张脸部图像以及相邻视线区域的平均距离之后，需要为各视线区域继续寻找与第一张脸部图像相关联，且近似“相邻视线区域的平均距离”的脸部图像。因此，上述步骤S300的其他脸部图像的确定过程，如图5所示，可以包括：

S310，计算视线区域的平均头部姿态与相邻视线区域的平均头部姿态在偏航角方向轴上的偏差值，以及在俯仰角方向轴上的偏差值。

在本实施例中，各视线区域的平均头部姿态可以是图像索引集中的各脸部图像的头部姿态的平均值、中位值或中心点。然后依据平均头部姿态计算相邻视线区域在偏航角Yaw方向轴上和在俯仰角Pitch方向轴上的偏差值。

具体地，可以采用以下公式进行计算：

ρ_y＝maxd_y(A_i,A_j)/y

ρ_p＝maxd_p(A_i,A_j)/p；

其中，ρ_y表示在偏航角方向轴上的偏差值，ρ_p表示在俯仰角方向轴上的偏差值，d_y(A_i,A_j)表示第i个视线区域的平均头部姿态与第j个视线区域的平均头部姿态在偏航角方向轴上的距离，d_p(A_i,A_j)表示第i个视线区域的平均头部姿态与第j个视线区域的平均头部姿态在俯仰角方向轴上的距离，y表示在偏航角方向轴上的坐标，p表示在俯仰角方向轴上的坐标。需要说明的是，d_y是Yaw的距离，d_p是Pitch的距离。

S320，根据相邻视线区域的平均距离、在偏航角方向轴上的偏差值以及在俯仰角方向轴上的偏差值，更新在偏航角方向轴上的坐标和在俯仰角方向轴上的坐标。

本步骤可以分成两步来实施，包括：

首先，采用比例系数向量公式，确定在偏航角方向轴上的坐标和在俯仰角方向轴上的坐标之间的数值比例。具体地，可以采用以下公式来简易地表达：

(c_y,c_p)＝(α_adt/ρ_y,β_adt/ρ_p)；

其中，(c_y,c_p)表示数值比例，α_adt表示相邻视线区域在偏航角方轴上的平均距离，β_adt表示相邻视线区域在俯仰角方向轴上的平均距离。

然后，确定符合数值比例的整数值，更新在偏航角方向轴上的坐标和在俯仰角方向轴上的坐标。

在本实施例中，可以根据视线区域的分布情况，确定符合在两个方向轴上的数值比例的整数值。此整数值可以作为在偏航角方向轴上的坐标和在俯仰角方向轴上的坐标，可以用于下一步步骤S330的与第一脸部图像相关的脸部图像的确定过程。

S330，从图像样本集中，选取头部姿态与视线区域的图像索引集的第一张脸部图像的头部姿态，在坐标位置上范数距离最小的脸部图像，并添加在图像索引集中。具体地，可以采用以下公式，包括：

其中，表示选取到的脸部图像，A_i表示图像样本集中的第i张脸部图像的头部姿态，T_y·p为由更新后的在偏航角方向轴上和在俯仰角方向轴上的两个坐标构成的坐标位置，表示第一张脸部图像的头部姿态，由未更新前的在偏航角方向轴上和在俯仰角方向轴上的两个坐标构成的坐标位置，k表示视线区域的编号。

示例性地，在为编号为k的视线区域确定第二张脸部图像后，可以继续返回按步骤S310至步骤S330继续确定后续的脸部图像。对于其他编号的视线区域也同样地执行以上操作，以完成各视线区域的图像索引索的学习。

在一种可能的实现方式中，在上述步骤S400中，可以采用以下公式进行计算视线区域的头部姿态标记，包括：

对于A_l中任意一张脸部图像，确定该脸部图像与A_l中其他的脸部图像的头部姿态在偏航角Yaw和俯仰角Pitch上的距离范数，以从中确定最大距离范数。然后，根据各脸部图像的最大距离范数，选取大距离范数数值最小的脸部图像的头部姿态，作为此视线区域的头部姿态标记。

在一种可能的实现方式中，如图6所示，本发明实施例还可以包括头部姿态的确定过程，以及在此确定过程中收集图像样本，以方便本实施例学习更新各视线区域的头部姿态模板(图像索引集和头部姿态标记)。本实施例可以包括：

S510，获取脸部图像。

在本实施例中，脸部图像可以包括深度图像和彩色图像。在获取到脸部图像时，可以从中提取特征点，以方便步骤S520的识别。提取特征点的过程可以如下：

首先，从深度图像中提取前景区域。

在本实施例中，深度图像由点组成的，每一个都是0-255之间的数值。数值代表的是这个点对应的图像到深度相机的距离，可以根据深度图像中每个点的值大小来得到它们到相机的距离。因此，可以利用前景区域与背景区域的深度的不同，从深度图像中提取出前景区域。

示例性地，在获取图像数据阶段，可以通过Kinect(微软生产的一个体感外部设备)中不同的摄像头获取RGB图像和深度图像。RGB图像由Kinect的CCD(Charge-coupledDevice，电荷耦合器件)镜头获得，而深度图像则由红外探测器镜头获得

然后，判断前景区域是否包括人体脸部。

本实施例利用AAM或ASM方法等方法，检测前景区域是否包括人脸脸部，可以在短时间内迅速判断RGB图像中是否包括人体脸部。

继而，当前景区域包括人体脸部时，在深度图像中定位人体脸部的位置。可以根据脸部的各像素点的深度变化情况，从中确定人体脸部的位置。

最后，从人体脸部在彩色图像中的位置提取脸部区域和眼部区域的特征点。

在本实施例中，可以利用AAM(Active Appearance Model，主动外观模型)或ASM(Active Shape Model，主动形状模型)方法从彩色图像中提取特征点。例如：AAM方法可以利用最小二乘法的方法，在匹配、比较、调整，再次匹配、比较、调整的迭代过程后，快速地匹配到新的图像。并利用刚性头部模型进行匹配，可以得到刚性头部点云数据。所谓刚性，是指脸部没有闭眼、张嘴、表情纹等表情。利用刚性头部模型获取到的特征点相比非刚性头部模型更为准确。AAM方法的建模过程以及迭代过程是一种常用的方法，在此不再赘述。

S520，利用预先划分的各视线区域的图像索引集以及头部姿态标记，识别脸部图像的头部姿态。

在本实施例中，可以根据头部姿态标记和脸部区域的特征点，预估头部姿态朝向的视线区域。然后，根据预估的视线区域的图像索引集，不断地对脸部区域的特征点进行匹配，以确定此脸部图像的头部姿态。

S530，将脸部图像，添加在识别到的头部姿态所朝向的视线区域的图像样本集中。

在本实施例中，当各视线区域的图像样本集中的图像满足预定数量后，可以启动各视线区域的头部姿态模板的学习过程。也可以根据其他条件进行触发。

参见图7，其是本发明实施例提供的视线区域模板的自学习建立过程一个应用示例的流程示意图，包括以下步骤：

(1)初始化各视线区域，标记各视线区域为：

(2)人脸检测过程：

Do

If(检测到人脸)

返回到标记图像数字区域的中心点位置(x_c,y_c)；

将中心点位置与各视线区域的头部姿态标记相匹配，记录图像数据在特定阵列(匹配到的视线区域的图像样本集)中；

While V<sam_fa(V是整个数据记录的数量，sam_fa是阈值)。

然后，计算被检测的标记数字区域的加权平均值。

(3)确定各视线区域的图像索引集的第一张脸部图像，采用以下公式计算(以序号为0视线区域为例)：

其中，此视线区域的初始头部姿态为：

(4)根据各视线区域的图像索引集的第一张脸部图像，计算相邻视线区域在偏航角Yaw和俯仰角Pitch的平均距离。

(5)为了选定y和p的整数值大小，计算这两者的比例系数：

ρ_y＝maxd_y(A_i,A_j)/y

ρ_p＝maxd_p(A_i,A_j)/p

(c_y,c_p)＝(α_adt/ρ_y,β_adt/ρ_p)

(6)确定各视线区域的图像索引集：

对每一个i,j；A_i∈A,j＝1,2,...,k，可以采用以下公式计算：

(7)给每一个找到新的标记，对每一个i有

(8)重复步骤(6)到(7)直到收敛，记录最后样本即图像索引集。

(9)如果速度的范数||v_t||<ε时，重复步骤(2)。

当依据上述自学习的方法，完成了各视线区域的图像索引集和头部姿态标记的学习之后，可以在人脸检测中，通过粒子滤波算法初步确定头部姿态的偏角。然后，利用图像索引集和头部姿态标记来确定头部姿态所属的视线区域。

参见图8，本发明实施例提供一种头部姿态标记更新装置，包括：

第一图像获取模块100，用于从视线区域的图像样本集中，选取所述视线区域的图像索引集的第一张脸部图像；

平均距离计算模块200，用于根据所述图像索引集以及相邻视线区域的图像索引集的第一张脸部图像的头部姿态，计算所述视线区域与相邻视线区域的平均距离；

其他图像获取模块300，用于从所述图像样本集中选取脸部图像，并添加在所述视线区域的图像索引集中；其中，选取到的脸部图像的头部姿态到相邻视线区域的头部姿态标记的距离符合与所述平均距离近似的标准，以及

头部姿态更新模块400，用于根据所述视线区域的图像索引集的脸部图像的头部姿态，更新所述视线区域的头部姿态标记。

在一种可能的实现方式中，所述第一图像获取模块包括：

在一种可能的实现方式中，所述其他图像获取模块包括：

在一种可能的实现方式中，所述坐标更新单元包括：

在一种可能的实现方式中，所述装置还包括：

脸部图像获取模块，用于获取脸部图像；

在一个可能的设计中，头部姿态标记更新结构中包括处理器和存储器，所述存储器用于头部姿态标记更新装置执行上述第一方面中头部姿态标记更新程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述头部姿态标记更新装置还可以包括通信接口，用于头部姿态标记更新装置与其他设备或通信网络通信。

本发明实施例还提供一种头部姿态标记更新终端设备，如图9所示，该设备包括：存储器21和处理器22，存储器21内存储有可在处理器22上的计算机程序。处理器22执行计算机程序时实现上述实施例中的头部姿态标记更新方法。存储器21和处理器22的数量可以为一个或多个。

该设备还包括：

通信接口23，用于处理器22与外部设备之间的通信。

存储器21可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器21、处理器22和通信接口23独立实现，则存储器21、处理器22和通信接口23可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器21、处理器22及通信接口23集成在一块芯片上，则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

本发明实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

在本发明实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的程序，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种头部姿态标记更新方法，其特征在于，包括：

根据所述视线区域的图像索引集的脸部图像的头部姿态，更新所述视线区域的头部姿态标记；

所述从视线区域的图像样本集中，选取所述视线区域的图像索引集的第一张脸部图像，包括：计算所述视线区域的图像样本集的各脸部图像的头部姿态；以及从所述图像样本集中，选取头部姿态到所述图像样本集中其他脸部图像的头部姿态距离最小的脸部图像，作为所述视线区域的图像索引集的第一张脸部图像。

2.如权利要求1所述的方法，其特征在于，选取第一张脸部图像所利用的计算公式，包括：

其中，Y₀表示所述图像索引集的第一张脸部图像，Υ表示所述图像样本集，d(Y,Y′)表示所述图像样本集中任意两个脸部图像之间的距离；所述距离通过所述两个脸部图像的头部姿态计算得到。

3.如权利要求1所述的方法，其特征在于，计算所述视线区域与相邻视线区域的平均距离所利用的计算公式，包括：

4.如权利要求1所述的方法，其特征在于，从所述图像样本集中选取脸部图像，并添加在所述视线区域的图像索引集中，包括：

5.如权利要求4所述的方法，其特征在于，计算在偏航角方向轴上的偏差值，以及在俯仰角方向轴上的偏差值所利用的计算公式，包括：

6.如权利要求5所述的方法，其特征在于，根据所述平均距离和所述偏差值，更新在偏航角方向轴上的坐标和在俯仰角方向轴上的坐标，包括：

7.如权利要求6所述的方法，其特征在于，所述比例系数向量公式，包括：

(c_y,c_p)＝(α_adt/ρ_y,β_adt/ρ_p)；

8.如权利要求7所述的方法，其特征在于，从所述图像样本集中，选取头部姿态与所述视线区域的图像索引集的第一张脸部图像的头部姿态，在所述坐标上范数距离最小的脸部图像，利用的计算公式，包括：

其中，表示选取到的脸部图像，A_i表示所述图像样本集中的脸部图像的头部姿态，T_y.p为由更新后的在偏航角方向轴上和在俯仰角方向轴上的两个坐标构成的坐标位置，表示所述第一张脸部图像的头部姿态，由未更新前的在偏航角方向轴上和在俯仰角方向轴上的两个坐标构成的坐标位置，k表示所述视线区域的编号。

9.如权利要求1所述的方法，其特征在于，根据所述视线区域的图像索引集的脸部图像的头部姿态，更新所述视线区域的头部姿态标记，利用的计算公式，包括：

其中，表示第i个视线区域的头部姿态标记，A_l表示第i个视线区域的图像索引集，T_y.p表示由更新后的在偏航角方向轴上和在俯仰角方向轴上的两个坐标构成的坐标位置。

10.如权利要求1至9任一项所述的方法，其特征在于，所述方法还包括：

获取脸部图像；

11.一种头部姿态标记更新装置，其特征在于，包括：

头部姿态更新模块，用于根据所述视线区域的图像索引集的脸部图像的头部姿态，更新所述视线区域的头部姿态标记；

所述第一图像获取模块包括：

12.如权利要求11所述的装置，其特征在于，所述其他图像获取模块包括：

13.如权利要求12所述的装置，其特征在于，所述坐标更新单元包括：

14.如权利要求11至13任一项所述的装置，其特征在于，所述装置还包括：

脸部图像获取模块，用于获取脸部图像；

15.一种实现头部姿态标记更新的终端设备，其特征在于，所述终端设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-10中任一所述的头部姿态标记更新方法。

16.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的头部姿态标记更新方法。