CN103593639A

CN103593639A - 嘴唇检测和跟踪方法及设备

Info

Publication number: CN103593639A
Application number: CN201210290290.9A
Authority: CN
Inventors: 冯雪涛; 沈晓璐; 张辉; 金培亭; 金智渊
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2012-08-15
Filing date: 2012-08-15
Publication date: 2014-02-19
Also published as: KR20140024206A

Abstract

提供一种嘴唇检测和跟踪方法及设备。所述嘴唇检测方法包括：从输入图像估计嘴部位置和头部姿态；从多个嘴唇粗糙模型中选择与估计的头部姿态相应的嘴唇粗糙模型；使用选择的嘴唇粗糙模型初步检测嘴唇；从多个嘴唇精细模型中选择一个具有与初步检测的嘴唇的形状最接近的嘴唇形状的嘴唇精细模型；使用选择的嘴唇精细模型检测嘴唇。

Description

嘴唇检测和跟踪方法及设备

技术领域

本发明涉及图像识别领域。更具体地讲，涉及一种嘴唇检测和跟踪方法及设备。

背景技术

在基于视频的人机交互应用中，人脸的动作和表情是需要检测和跟踪的重要目标。例如，使用面部器官运动和形变驱动动画模型，在交互娱乐、游戏制作和电影工业中有很多应用。在很多数码相机中，都有通过检测笑容和眨眼控制快门的功能。另外，在语音识别领域，嘴唇的形状和运动可以对语音识别起到辅助作用，尤其在背景噪声较强的环境中，可以提高语音识别的准确率。

在所有的面部器官中，嘴部是形变最复杂的。当做出各种不同的面部表情时，在面部肌肉的控制下，嘴唇的形状可以产生各种不同的变化。所以，对嘴唇的位置和形状进行精确定位和跟踪，是一个十分困难的问题。

早期的嘴唇检测和跟踪技术通常采用直接对人脸图像进行处理的方式实现，例如利用嘴唇与面部皮肤颜色不同的特点进行图像分割，找到嘴唇所在区域，进而从这一区域中找到对应于嘴角和嘴唇上下边缘的关键点的位置。或者首先对面部图像的边缘进行提取，再使用投影的方法找到嘴唇的轮廓。

近期的嘴唇检测和跟踪技术常常使用一个参数化的模版或者模型，通过调整参数，可以改变模版或者模型的形状。

现有的技术虽然可以实现在人脸视频和图像中找到嘴唇位置，并对其大致形状进行定位和跟踪，但在准确程度和鲁棒性方面存在问题。嘴唇可以发生非常复杂的形变，嘴唇在视频和图像中的形状还受到头部姿态的影响，如果希望跟踪嘴唇的模版或者模型能够适应这些变化，就会使需要调整的参数变得很多，算法的稳定性将会下降，容易产生定位和跟踪错误。反之，如果约束模版或者模型的自由度，定位和跟踪的精度就会受到影响。另外，在实际应用环境中，由于光照和图像采集设备本身的影响，常常会遇到没有显著的颜色、纹理、边缘信息可以利用的情况，这时就很难得到正确的定位和跟踪结果。

发明内容

本发明的目的是解决上面提到的这些问题中的至少一个，提供一种具有高准确性和高鲁棒性的嘴唇检测和跟踪方法和设备，来在视频中对嘴唇的位置和形状进行检测和跟踪。

本发明的一方面提供一种嘴唇检测方法，包括：从输入图像估计头部姿态；从多个嘴唇粗糙模型中选择与估计的头部姿态相应的嘴唇粗糙模型；使用选择的嘴唇粗糙模型初步检测嘴唇；从多个嘴唇精细模型中选择一个具有与初步检测的嘴唇的形状最接近的嘴唇形状的嘴唇精细模型；使用选择的嘴唇精细模型检测嘴唇。

可选地，根据预先从输入图像估计的嘴部位置来估计所述头部姿态。

可选地，利用多组嘴唇图像作为训练样本训练而得到多个嘴唇粗糙模型，每组嘴唇图像作为一个训练样本集合训练一个嘴唇粗糙模型，每组嘴唇图像具有相同或相近的头部姿态。

可选地，利用多组嘴唇图像作为训练样本训练而得到多个嘴唇精细模型，每组嘴唇图像作为一个训练样本集合训练一个嘴唇精细模型，每组嘴唇图像具有相同或相近的嘴唇形状。

可选地，根据嘴唇形状将所述多组嘴唇图像中的每组嘴唇图像分别划分为多个子集，利用划分的子集训练嘴唇精细模型，每个子集作为一个训练样本集合训练一个嘴唇精细模型。

可选地，作为训练样本的每个嘴唇图像中标注了嘴唇轮廓关键点。

可选地，每个嘴唇粗糙模型和每个嘴唇精细模型包括形状模型和表观模型。

可选地，形状模型用于对嘴唇的形状建模，被表示为：平均形状与反映形状变化的至少一个形状基的加权和之和的相似变换，其中，平均形状和形状基作为形状模型的固定参数，用于形状基加权的权重和用于相似变化的参数为形状模型的变量。

可选地，表观模型用于对嘴唇的表观进行建模，被表示为：嘴唇的平均表观与反映表观变化的至少一个表观基的加权和之和，其中，平均表观和表观基作为表观模型的固定参数，用于表观基加权的权重为表观模型的变量。

可选地，使用嘴唇粗糙模型的步骤包括：最小化表观约束项、内部形变约束项、形状约束项中的至少一个之间的加权和，其中，表观约束项表示检测的嘴唇的表观与表观模型的差异；内部形变约束项表示检测的嘴唇的形状与平均形状的差异；形状约束项表示检测的嘴唇的形状与预先从输入图像估计的嘴部位置的差异。

可选地，使用嘴唇精细模型检测嘴唇的步骤包括：最小化表观约束项、内部形变约束项、形状约束项中的至少一个之间的加权和，其中，表观约束项表示检测的嘴唇的表观与表观模型的差异；内部形变约束项表示检测的嘴唇的形状与平均形状的差异；形状约束项表示检测的嘴唇的形状与初步检测的嘴唇的形状的差异。

可选地，使用嘴唇精细模型检测嘴唇的步骤包括：最小化表观约束项、内部形变约束项、形状约束项、纹理约束项中的至少一个之间的加权和，其中，表观约束项表示检测的嘴唇的表观与表观模型的差异；内部形变约束项表示检测的嘴唇的形状与平均形状的差异；形状约束项表示检测的嘴唇的形状与初步检测的嘴唇的形状的差异，纹理约束项表示当前帧与先前帧之间的纹理变化。

可选地，形状模型被表示为：

SHAPE (P, q) = s = N (s_{0} + Σ_{i = 1}^{n} p_{i} s_{i}; q)

其中，作为形状模型SHAPE(P，q)的输出的形状向量s表示嘴唇的形状；向量s₀表示嘴唇的平均形状，向量s_i为嘴唇的形状基，p_i为与s_i对应的形状参数，向量q为相似变换参数，i表示形状基的索引，m表示形状基的数量，N()表示利用向量q对进行相似变换的函数，P是作为m个p_i的集合的形状参数向量，其中，向量s₀和s_i通过训练而得到。

可选地，平均形状表示用于训练形状模型的训练样本集合中的嘴唇的平均形状，每个形状基表示对平均形状的一个变化。

可选地，选取训练样本集合中的全部或部分训练样本的形状向量的协方差矩阵的特征向量来作为形状基。

可选地，如果训练样本集合中的预定数量训练样本的形状向量的协方差矩阵的特征值之和大于训练样本集合中的所有训练样本的形状向量的协方差矩阵的特征值之和的预定百分比，则所述预定数量训练样本的形状向量的协方差矩阵的特征向量作为预定数量的形状基。

可选地，表观模型被表示为：

APPEAR (b) = a = a_{0} + Σ_{i = 1}^{n} b_{i} a_{i}

其中，向量a为作为表观模型APPEAR(b)的输出的表观向量，表观向量表示嘴唇的表观，向量a₀为平均表观向量，a_i为表观基，向量b_i为与表观基a_i对应的表观参数，i为表观基的索引，n表示表观基的数量，b表示n个向量b_i的集合，其中，向量a₀和a_i通过训练而得到。

可选地，平均表观a₀表示用于训练表观模型的训练样本集合的表观向量的平均值，表观基a_i表示对平均表观向量a₀的一个变化。

可选地，选取训练样本集合中的全部或部分训练样本的表观向量的协方差矩阵的特征向量来作为表观基。

可选地，如果训练样本集合中的预定数量训练样本的表观向量的协方差矩阵的特征值之和大于训练样本集合中的所有训练样本的表观向量的协方差矩阵的特征值之和的预定百分比，则所述预定数量训练样本的表观向量的协方差矩阵的特征向量作为预定数量的表观基。

可选地，通过嘴唇轮廓关键点的坐标来表示嘴唇的形状。

可选地，表观向量包括形状无关嘴唇纹理图像中的像素的像素值。

可选地，在训练时获取表观向量的步骤包括：根据训练样本中标记的嘴唇轮廓关键点的位置，将嘴唇内部像素和嘴唇外部预定范围内的像素映射到嘴唇的平均形状中，得到形状无关嘴唇纹理图像；计算形状无关嘴唇纹理图像的不同方向的多个梯度图像；将形状无关嘴唇纹理图像和所述多个梯度图像转换成向量的形式，并将转换的向量连接在一起，从而得到表观向量。

可选地，在训练时获取形状无关嘴唇纹理图像的步骤包括：以训练样本和平均形状中的嘴唇轮廓关键点为参考，将训练样本上的嘴唇内部像素和嘴唇外部预定范围内的像素的像素值映射到平均形状中的对应像素。

可选地，在训练时获取形状无关嘴唇纹理图像的步骤包括：在嘴唇的平均形状上，基于表示嘴唇的平均形状的嘴唇轮廓关键点，以预定方式划分网格；在标注了嘴唇轮廓关键点的训练样本上，基于所述嘴唇轮廓关键点以所述预定方式划分网格；以划分的网格作为参考，将训练样本上的嘴唇内部像素和嘴唇外部预定范围内的像素的像素值映射到平均形状中的对应像素，从而得到形状无关嘴唇纹理图像。

可选地，所述输入图像是视频的第一帧，所述方法还包括：针对作为非第一帧的当前帧选择嘴唇粗糙模型，以针对当前帧初步检测嘴唇，其中，计算多个嘴唇粗糙模型中的每个嘴唇粗糙模型的形状参数向量，并选择多个嘴唇粗糙模型中的第k个模型来针对当前帧初步检测嘴唇，

其中，通过下面的等式计算多个嘴唇粗糙模型中的每个嘴唇粗糙模型的形状参数向量P：

{(P, q)}^{T} = \underset{p, q}{\arg \min} {| | S_{pre} - SHAPE (P, q) | |}^{2}

其中，S_pre表示视频的前一帧的嘴唇检测结果，

其中，通过下面的等式确定k：

k = \arg mi n_{k} {| | e_{k}^{- 1} P^{k} | |}^{2}

其中，

是一个矩阵，该矩阵的对角线元素是训练第k个嘴唇粗糙模型的形状模型时与每个形状基相应的协方差矩阵的特征值的倒数，该矩阵的其余元素均为0，P^k表示多个嘴唇粗糙模型中的第k个嘴唇粗糙模型的形状参数向量。

可选地，在使用选择的嘴唇粗糙模型之前，对嘴唇粗糙模型进行初始化，其中，使用在选择嘴唇粗糙模型的过程所计算的第k个嘴唇粗糙模型的P和q进行初始化。

可选地，使用选择的嘴唇粗糙模型初步检测嘴唇的步骤包括：最小化表观约束项、内部形变约束项、形状约束项中的至少一个之间的加权和，

其中，表观约束项E₁₁被表示为：

E_{11} = Σ_{i = 1}^{t} {| | a (x_{i}) - I (s (x_{i})) | |}^{2}

其中，a(x_i)表示包括在表观向量a中的形状无关嘴唇纹理图像的像素之中的一个像素x_i的像素值，t表示形状无关嘴唇纹理图像的像素的数量，s(x_i)表示像素x_i在输入图像中的位置，I(s(x_i))表示在输入图像中的位置s(x_i)处的像素的像素值，

其中，内部形变约束项被表示为：

E₁₂＝||e^-1P||²

其中，e^-1是一个矩阵，该矩阵的对角线元素是学习选择的嘴唇粗糙模型的形状模型时与每个形状基相应的协方差矩阵的特征值的倒数，其余元素均为0，

其中，形状约束项E₁₃被表示为：

E₁₃＝(s-s^*)^TW(s-s^*)

其中，W表示一个用于加权的对角矩阵，s^*表示预先从输入图像估计的嘴部位置。

可选地，一个嘴唇轮廓关键点在一个方向上发生运动的概率越小，则将对角矩阵W中的与该嘴唇轮廓关键点对应的两个对角元素中的与该方向对应的对角元素设置得越大。

可选地，所述输入图像是视频的第一帧，所述方法还包括：针对作为非第一帧的当前帧选择嘴唇精细模型，以针对当前帧使用嘴唇精细模型检测嘴唇，其中，计算多个嘴唇精细模型中的每个嘴唇精细模型的形状参数向量，并选择多个嘴唇精细模型中的第k个模型来针对当前帧检测嘴唇，

其中，通过下面的等式计算多个嘴唇精细模型中的每个嘴唇精细模型的形状参数向量P：

{(P, q)}^{T} = \underset{p, q}{\arg \min} {| | S_{pre} - SHAPE (P, q) | |}^{2}

其中，S_pre表示视频的前一帧的嘴唇检测结果，

其中，通过下面的等式确定k：

k = {\arg \min}_{k} {| | e_{k}^{- 1} P^{k} | |}^{2}

其中，

是一个矩阵，该矩阵的对角线元素是训练第k个嘴唇精细模型的形状模型时与每个形状基相应的协方差矩阵的特征值的倒数，该矩阵的其余元素均为0，P^k表示多个精细模型中的第k个嘴唇精细模型的形状参数向量。

可选地，在使用选择的嘴唇精细模型之前，对嘴唇精细模型进行初始化，其中，使用在选择嘴唇精细模型的过程所计算的第k个嘴唇精细模型的P和q进行初始化。

可选地，使用选择的嘴唇精细模型检测嘴唇的步骤包括：最小化表观约束项、内部形变约束项、形状约束项中的至少一个之间的加权和，

其中，表观约束项E₂₁被表示为：

E_{21} = Σ_{i = 1}^{t} {| | a (x_{i}) - I (s (x_{i})) | |}^{2}

其中，内部形变约束项被表示为：

E₂₂＝||e^-1P||²

其中，e^-1是一个矩阵，该矩阵的对角线元素是学习选择的嘴唇精细模型的形状模型时与每个形状基相应的协方差矩阵的特征值的倒数，其余元素均为0，

其中，形状约束项E₂₃被表示为：

E₂₃＝(s-s^*)^TW(s-s^*)

其中，W表示一个用于加权的对角矩阵，s^*表示初步检测的嘴唇位置。

可选地，使用选择的嘴唇精细模型检测嘴唇的步骤包括：最小化表观约束项、内部形变约束项、形状约束项、纹理约束项中的至少一个之间的加权和。

可选地，纹理约束项E₂₄被表示为：

E_{24} = Σ_{i = 1}^{t} {[P (I (s (x_{i})))]}^{2}

其中，P(I(s(x_i)))表示使用I(s(x_i))的值作为与像素x_i对应的混合高斯模型的输入得到的概率密度的倒数。

可选地，计算与像素x_i对应的混合高斯模型的步骤包括：通过最小化表观约束项、内部形变约束项、形状约束项中的至少一个之间的加权和来使用选择的嘴唇精细模型检测预定数量的帧中的嘴唇，根据检测结果获取预定数量的形状无关纹理图像，利用获取的预定数量的形状无关纹理图像中与像素x_i对应的像素值进行聚类，以形成一个混合高斯模型。

可选地，计算与像素x_i对应的混合高斯模型的步骤包括：(b1)通过最小化表观约束项、内部形变约束项、形状约束项中的至少一个之间的加权和来使用选择的嘴唇精细模型检测一帧中的嘴唇；(b2)当检测的嘴唇是处于非中性表情状态时，执行步骤(b1)；(b3)当检测的嘴唇是处于中性表情状态时，提取基于步骤(b1)的检测结果的形状无关嘴唇纹理图像中与像素x_i对应的像素值；(b4)当已经提取的与像素x_i对应的像素值的数量小于预定数量时，执行步骤(b1)；(b5)当已经提取的与像素x_i对应的像素值的数量不小于预定数量时，利用已经提取的预定值数量的与像素x_i对应的像素值进行聚类，以形成混合高斯模型。

可选地，在应用纹理模型之后，对纹理模型进行更新，对纹理模型进行更新的步骤包括：当应用纹理模型而使用选择的嘴唇精细模型检测的嘴唇处于中性表情状态时，计算基于检测的嘴唇的形状无关嘴唇纹理图像中的像素x_i的像素值与对应于像素x_i的混合高斯模型的每个聚类中心的值之差的绝对值；当计算的绝对值中的最小值小于预定阈值时，利用该像素值更新与该像素x_i对应的混合高斯模型；当计算的绝对值中的最小值不小于预定阈值并且对应于像素x_i的混合高斯模型中的聚类数量小于预定阈值，利用该像素值建立新的聚类，并更新对应于像素x_i的混合高斯模型。

本发明的另一方面提供一种嘴唇跟踪方法，包括：对视频中的每个被跟踪帧执行上述嘴唇检测方法。

本发明的另一方面提供一种嘴唇检测设备，包括：姿态估计单元，从输入图像估计头部姿态；嘴唇粗糙模型选择单元，从多个嘴唇粗糙模型中选择与估计的头部姿态相应的嘴唇粗糙模型；嘴唇初步检测单元，使用选择的嘴唇粗糙模型初步检测嘴唇；嘴唇精细模型选择单元从多个嘴唇精细模型中选择一个具有与初步检测的嘴唇的形状最接近的嘴唇形状的嘴唇精细模型；嘴唇精细检测单元，使用选择的嘴唇精细模型检测嘴唇。

根据本发明的嘴唇检测或跟踪方法和设备可以适应嘴唇形状的各种变化，准确找到嘴唇轮廓上的关键点。此外，当头部姿态发生各种变化时，虽然图像或视频中嘴唇的形状也会产生变化，但本发明仍然可以准确找到嘴唇轮廓上的关键点。另外，对于环境光照和图像采集设备产生的影响具有高度鲁棒性，在存在不均匀光照，低亮度光照，或者低对比度的图像中，本发明都同样可以准确找到嘴唇轮廓上的关键点。此外，本发明提出了一种新的嘴唇建模方法用于嘴唇的检测及跟踪，可以进一步提高嘴唇检测或跟踪的准确性和鲁棒性。

附图说明

通过下面结合附图进行的详细描述，本发明的上述和其它目的、特点和优点将会变得更加清楚，其中：

图1示出根据本发明的一个实施例的嘴唇检测方法的流程图；

图2示出根据本发明的实施例的嘴部在人脸区域中的相对位置的示图；

图3示出根据本发明的实施例的嘴唇轮廓关键点的示意图；

图4示出根据本发明的实施例的获取表观向量的方法的流程图；

图5示出根据本发明的实施例的获取形状无关的嘴唇纹理图像的方法流程图；

图6示出根据本发明的实施例的一种基于平均形状的顶点划分的一种网格的示例；

图7示出在作为训练样本的嘴唇图像上划分网络的示例；

图8示出在在最小化能量函数过程中在输入图像上的检测结果的示例；

图9示出根据本发明的实施例的对纹理模型进行建模的流程图；

图10示出根据本发明的实施例的对纹理模型进行更新的流程图；

图11示出根据本发明的实施例的嘴唇检测设备的框图。

具体实施方式

下面，将参照附图详细描述本发明的实施例。本发明的实施例中附图中示出。其中，相同的标号始终表示相同的结构、功能、部件。

图1示出根据本发明的一个实施例的嘴唇检测方法的流程图。

参照图1，在步骤101，估计嘴部在输入图像中的位置以及具有该嘴部的头部的姿态。通过步骤101估计的嘴部在图像中的位置可以允许具有一定的误差，嘴唇的精确位置可以在后面的步骤中获得。换句话说，步骤101相当于初步地估计嘴唇的位置。嘴部位置可以用一系列包围嘴唇的关键点表示，或者用包围嘴唇区域的矩形表示。

已有很多不同的方法可以实现嘴部位置的估计，可使用现有的任何嘴部估计方法来估计嘴部的位置。例如，在发明名称为“对象拟合系统和方法”，申请号为201010282950.X的中国专利申请中，提出了一种对象拟合系统和方法，其可以用于定位嘴部的关键点；在美国专利US 7835568中，提出一个通过对非肤色区域进行矩形分析确定一个包围嘴的矩形的方法。

此外，为了缩小检测范围，在进行嘴部位置的估计前，还可包括检测人脸区域的步骤，从而在检测到的人脸区域中估计嘴部的位置。应该理解，可以使用各种人脸检测技术在图像中进行人脸检测。

可以利用检测的嘴部位置来确定头部姿态。具体地说，在步骤101中已经初步检测到了嘴部的位置，根据检测到的嘴部位置可以得到嘴部的左边界至人脸区域的左边界的距离l，嘴部的右边界至人脸区域的右边界的距离r。如图3所示，较大的矩形表示人脸区域边界，较小的矩形表示嘴嘴部的左右边界。l与r的比值(例如，l/r)可用于表示头部姿态。

可利用l和r表示头部姿态的原因在于，根据贝叶斯公式，在已知嘴部在人脸区域中的相对位置(例如，l/r)的条件下，头部具有某个头部姿态的概率正比于具有该头部姿态的训练样本图像中l/r出现的概率。

此外，根据上述分析应该理解，也可以使用r/l、l/(l+r)、r/(l+r)表示头部姿态。

此外，也可利用现有的头部姿态识别技术来对图像进行分析而获得头部姿态。

在步骤102，根据头部的姿态从多个嘴唇粗糙模型中选择一个具有与该头部姿态对应或最接近的头部姿态的嘴唇粗糙模型。

可利用多组嘴唇图像作为训练样本进行训练而得到多个嘴唇粗糙模型，各组嘴唇图像具有各自预定的头部姿态。换句话说，不同组的嘴唇图像之间具有不同的头部姿态，同组的嘴唇图像具有相同或相近的头部姿态。例如，首先，收集一系列的嘴唇图像作为训练样本。例如，这些嘴唇图像可具有不同的形状、不同的头部姿态和/或不同的光照条件等。然后，根据头部姿态，将收集的嘴唇图像划分为不同的子集，每个子集对应于一个头部姿态。例如，可以按照头部水平旋转的角度进行划分。随后，在每幅嘴唇图像上，手工标记出嘴唇轮廓关键点(例如，嘴角、上下嘴唇中点等)的位置。最后，可针对每个子集中的标记了嘴唇轮廓关键点的图像进行学习，从而可以得到多个嘴唇粗糙模型。即，使用一个子集中的标记了嘴唇轮廓关键点的图像进行学习，可以得到一个嘴唇粗糙模型。得到的嘴唇粗糙模型可用于具有对应或最接近的头部姿态的嘴唇图像中嘴唇轮廓关键点的检测。可利用现有的模式识别技术来建模并训练学习嘴唇粗糙模型。例如，基于不同的子集使用AdaBoost等训练方法训练分类器作为嘴唇粗糙模型。

在步骤103，利用选择的嘴唇粗糙模型从图像中初步检测嘴唇(即，粗糙嘴唇位置)。检测的嘴唇可由嘴唇轮廓关键点的位置来表示。图3示出根据本发明的实施例的嘴唇轮廓关键点的示意图。如图3所示，嘴唇轮廓关键点可以形成嘴唇区域网格。

在步骤104，根据步骤103的结果从多个嘴唇精细模型中选择一个嘴唇精细模型。具体地说，从多个嘴唇精细模型中选择一个具有与在步骤103检测的嘴唇的形状最接近的嘴唇形状的嘴唇精细模型。

可利用多组嘴唇图像作为训练样本进行训练而得到多个嘴唇精细模型，各组嘴唇图像具有各自预定的形状。换句话说，不同组的嘴唇图像之间具有不同的头部姿态。训练嘴唇精细模型与训练嘴唇粗糙模型的过程类似。例如，首先，收集一系列的嘴唇图像作为训练样本。然后，根据嘴唇形状(例如，嘴唇的开合程度)，将收集的嘴唇图像划分为不同的子集，每个子集对应于一个嘴唇形状。随后，在每幅嘴唇图像上，手工标记出嘴唇轮廓关键点的位置。最后，可针对每个子集中的标记了嘴唇轮廓关键点的图像进行学习，从而可以得到多个嘴唇精细模型。即，使用一个子集中的标记了嘴唇轮廓关键点的图像进行学习，可以得到一个嘴唇精细模型。得到的嘴唇精细模型可用于具有对应的嘴唇形状的嘴唇图像中嘴唇轮廓关键点的检测。可利用现有的模式识别技术来学习得到嘴唇精细模型。例如，基于不同的子集使用AdaBoost等训练方法训练分类器作为嘴唇粗糙模型。

在另一实施例中，可以在上面描述的训练嘴唇粗糙模型时使用的子集的基础上，将每个子集按照嘴唇形状进一步划分为二级子集。然后分别利用每个二级子集来训练出多个嘴唇精细模型。例如，如果在训练嘴唇粗糙模型时，根据头部姿态划分了n个子集，并且根据嘴唇形状将每个子集划分为m个二级子集，则总共划分了n×m个二级子集，从而可以训练得到n×m个嘴唇精细模型。此时，由于二级子集按照头部姿态和嘴唇形状进行了划分，因此嘴唇精细模型具有对应的头部姿态和嘴唇形状。这样，在步骤104中选择嘴唇精细模型时，选择具有与在步骤103检测的嘴唇对应或最接近的头部姿态以及最接近的嘴唇形状的嘴唇精细模型。

在步骤105，利用选择的嘴唇精细模型来检测嘴唇，从而检测到最终的嘴唇(即，精细嘴唇位置)。例如，检测的嘴唇可由嘴唇轮廓关键点的位置来表示。

此外，应该理解，当对视频(即，运动图像)进行嘴唇跟踪时，针对视频中的每个将被跟踪的帧(即，被跟踪帧)执行图1所示的方法。

下面解释根据本发明的一个实施例的用于上述嘴唇粗糙模型和嘴唇精细模型的模型。该模型相对于现有技术的嘴唇建模方式能够更准确为嘴唇建模。

根据本发明的嘴唇模型可包括形状模型和/或表观模型。

形状模型

形状模型用来表达嘴唇轮廓关键点的几何位置，可以表示为下面的等式(1)：

SHAPE (P, q) = s = N (s_{0} + Σ_{i = 1}^{n} p_{i} s_{i}; q) - - - (1)

其中，向量s表示嘴唇的形状；向量s₀表示嘴唇的平均形状，s_i为嘴唇的形状基，p_i为与s_i对应的形状参数，向量q为相似变换参数，i表示形状基的索引，m表示形状基的数量，N()表示利用向量q对进行相似变换的函数。此外，SHAPE(P，q)表示以P和q作为输入的形状模型，P为m个p_i的集合，为形状参数向量。

在形状模型中，向量s由表现嘴唇形状的顶点的坐标表示，顶点对应于嘴唇轮廓关键点。平均形状向量s₀表示嘴唇的平均形状，每个形状基s_i表示对平均形状的一个变化。对于一个嘴唇图像来说，其中的嘴唇的形状可通过由平均形状向量s₀和形状基s_i及其形状参数p_i所表示的一个嘴唇形状的相似变换表示。

平均形状向量s₀和形状基s_i作为形状模型的固定参数，通过样本训练得到。可从上面描述的用于训练当前模型的训练样本集合得到训练样本的平均形状作为嘴唇的平均形状以及在平均形状基础上的各种变化。

例如，可通过对上面描述的用于训练当前模型的训练样本集合进行主成份分析而得到平均形状向量s₀和形状基s_i。具体地说，每个训练样本中标注的嘴唇轮廓关键点的坐标可以作为一个形状向量s，对从训练样本集合中的所有的训练样本得到的形状向量s计算平均值作为平均形状向量s₀。每个形状基s_i是一个训练样本的形状向量的协方差矩阵的特征向量。可以选取训练样本集合中的全部或部分(即，m个)训练样本的形状向量的协方差矩阵的特征向量来作为形状基。

在一个实施例中，计算上述协方差矩阵的特征值和特征向量。特征值越大表示对应的特征向量是训练样本中越主要的变化方式。因此，可以选择特征值较大的若干个协方差矩阵的特征向量作为形状基。例如，与若干个协方差矩阵的特征向量对应的特征值之和大于所有特征值总和的预定百分比(例如，90％)。

在一个示例中，向量s可被表示为s＝(x₀，y₀，x₁，y₁，x₂，y₂，…)^T，其包括嘴唇轮廓关键点的坐标。

平均形状向量s₀可被表示为s₀＝(x_0，0，y_0，0，x_0，1，y_0，1，x_0，2，y_0，2，…)^T，其中，每个元素的第一下标0用于标识平均形状向量，第二个下标为在向量s₀中的元素索引。

形状基s_i可被表示为s_i＝(x_i，0，y_i，0，x_i，1，y_i，1，x_i，2，y_i，2，…)^T，其中，每个元素的第一下标i表示形状基的索引，用于标识具体的形状基，例如，如果存在m(m为大于等于1的整数)个形状基，则i的取值范围为[1，m]；第二个下标为在形状基s_i中元素的索引。

相似变换参数的向量q可被表示为q＝(f，θ，t_x，t_y)^T，f分别为缩放系数，θ旋转角度，t_x水平平移参数，t_y垂直平移参数。

此时，向量s中的每个坐标(x_k，y_k)可以表示如下：

(\begin{matrix} x_{k} \\ y_{k} \end{matrix}) = f \cdot (\begin{matrix} \cos θ & - \sin θ \\ \sin θ & \cos θ \end{matrix}) (\begin{matrix} x_{0, k} + \underset{i}{Σ} p_{i} x_{i, k} \\ y_{0, k} + \underset{i}{Σ} p_{i} y_{i, k} \end{matrix}) + (\begin{matrix} t_{x} \\ t_{y} \end{matrix})

应该理解，上述各个向量的表示形式仅是示例性的，可以采用数学上的其他表示方式。此外，相似变换参数q也不限于上述缩放系数、旋转角度、水平平移参数和垂直平移参数，例如可以是缩放系数、旋转角度、水平平移参数和垂直平移参数中的至少一个或者其他用于相似变换的参数。换句话说，其他的用于相似变换的算法也是可行的。

表观模型

表观模型用来表达嘴唇及其周围区域的图像内容，可以表示为下面的等式(2)：

APPEAR (b) = a = a_{0} + Σ_{i = 1}^{n} b_{i} a_{i} - - - (2)

其中，向量a为表观向量，向量a₀为平均表观向量，向量b_i为表观参数，a_i为表观基，b_i为与表观基a_i对应的表观参数，i为表观基的索引，n表示表观基的数量。此外，APPEAR(b)表示以b作为输入的表观模型，b表示n个向量b_i的集合。

在表观模型中，表观向量包括形状无关的嘴唇纹理图像中的像素值。平均表观a₀表示训练样本的表观向量的平均值，表观基a_i表示对平均表观a₀的一个变化。对于一个嘴唇图像来说，其中的嘴唇的表观向量可通过由平均表观a₀和表观基a_i及其表观参数b_i所表示的一个向量表示。

平均表观a₀和表观基a_i作为表观模型的固定参数，通过样本训练得到。平均表观a₀和表观基a_i可从上面描述的用于训练当前模型的训练样本集合得到。

例如，可通过对上面描述的用于训练当前模型的训练样本集合进行主成份分析而得到。具体地说，从每个训练样本获得表观向量a，计算从所有训练样本获得的表观向量的均值作为平均表观向量a₀。每个表观基a_i是一个训练样本的表观向量a的协方差矩阵的特征向量。可以选取训练样本集合中的全部或部分(即，n个)训练样本的表观向量a的协方差矩阵的特征向量来作为表观基。

在一个实施例中，计算上述协方差矩阵的特征值和特征向量。特征值越大表示对应的特征向量是训练样本中越主要的变化方式。因此，可以选择特征值较大的若干个协方差矩阵的特征向量作为表观基。例如，与若干个协方差矩阵的特征向量对应的特征值之和大于所有特征值总和的预定百分比(例如，90％)。

图4示出根据本发明的实施例的从训练样本获取表观向量的方法的流程图。

在步骤401，根据训练样本中标记的嘴唇轮廓关键点的位置，将训练样本中的嘴唇内部像素和嘴唇外部预定范围内的像素映射到嘴唇的平均形状中，得到形状无关的嘴唇纹理图像。

嘴唇内部像素是指在图像中位置处于嘴唇上的像素，嘴唇外部预定范围内的像素是指位置不在嘴唇上，但到最近的嘴唇内部像素的距离小于预定阈值的像素。

在步骤402，计算形状无关的嘴唇纹理图像的不同方向的多个梯度图像。例如，分别使用水平方向和竖直方向的Sobel(索贝尔)算子对图像进行卷积，得到水平梯度图像和竖直梯度图像。

在步骤403，将形状无关的嘴唇纹理图像和梯度图像转换成向量的形式，并将转换的向量连接在一起，得到的结果即为嘴唇的表观向量。这里，转换的向量是图像的像素值。

例如，如果形状无关的嘴唇纹理图像和梯度图像为100×50像素，得到三个梯度图像，则最终的表观向量的元素数量为4×100×50。

应该理解，上述方法用于在训练模型时从样本获取表观向量a进行训练，而在进行嘴唇检测时，表观向量a是作为检测结果的，此时表观向量a包括基于检测结果的形状无关嘴唇纹理图像以及梯度图像的像素值。

可选地，可省略步骤402，此时表观向量a仅包括形状无关嘴唇纹理图像的像素值。此时，可能会降低建模以及检测精度。

图5示出根据本发明的实施例的获取形状无关的嘴唇纹理图像的方法流程图。

在步骤501，设置形状无关的嘴唇纹理图像的尺寸。例如，100×50像素。

在步骤502，将嘴唇的平均形状a₀进行缩放，以在设置的尺寸范围之内，同时基于平均形状a₀的顶点(即，嘴唇轮廓关键点)，建立一种网格划分(例如，预定形式的三角网格)。图6示出了一种基于平均形状的顶点划分的一种网格划分的示例。

此外，在另一实施例中，可以省略步骤501，直接使用平均形状a₀的大小。

在步骤503，在标注了关键点的作为训练样本的嘴唇图像上，以与步骤502相同的网格划分方式在嘴唇图像上划分网格。图7示出在作为训练样本的嘴唇图像上划分网络的示例。

在步骤504，基于划分的网格作为参考，将嘴唇图像上的嘴唇内部像素和嘴唇外部预定范围内的像素的像素值映射到(或赋予给)平均形状中的对应像素，从而得到形状无关的嘴唇纹理图像。

换句话说，由于在平均形状和嘴唇图像上以同样方式划分了网格，因此可以基于划分的网格在平均形状中找到与嘴唇图像上的像素对应的像素。例如，可以利用以每个三角网格的重心作为参考来找到对应的像素。例如，可利用划分的网格在图6中找到与图7中的点701相应的点601，并将点701的像素值赋予点601。

此外，在步骤502中的或者形状无关的嘴唇纹理图像中的嘴唇轮廓关键点或划分的网格可被保存，以用于嘴唇检测处理。此外，如果直接使用平均形状a₀的大小，则可以不进行上述保存，在检测处理中直接使用平均形状a₀所包括的嘴唇轮廓关键点。

应该理解，图5示出的基于网格划分获取形状无关的嘴唇纹理图像的方法仅是示例性的，也可以使用其他的方式来将训练样本中的像素值赋值给平均形状中的相应像素。

上面描述的包括形状模型和表观模型的嘴唇模型可根据上面描述的使用的训练样本集合的不同，而被训练为嘴唇粗糙模型或嘴唇精细模型。

下面介绍根据本发明的包括形状模型和表观模型的嘴唇模型在图1的各步骤中的应用。

在图1的步骤102中，根据头部的姿态选择嘴唇粗糙模型。然而，本发明不限于此。在另一实施例中，当对于视频图像中的嘴唇进行检测或跟踪时，可根据前一帧的检测或跟踪结果来为当前帧的嘴唇跟踪处理选择嘴唇粗糙模型。

具体地说，假设前一帧对嘴唇形状的检测或跟踪结果为S_pre，为了选择嘴唇粗糙模型，可用下面的等式(3)计算每个嘴唇粗糙模型中的形状模型的参数：形状参数向量P和相似变换参数q：

{(P, q)}^{T} = \underset{p, q}{\arg \min} {| | S_{pre} - SHAPE (P, q) | |}^{2} - - - (3)

应该理解，上标T表示转置，|| ||²表示向量的模长的平方。

假设第k个嘴唇粗糙模型为适合的嘴唇粗糙模型，根据等式(3)计算的第k个嘴唇粗糙模型的形状参数向量为P^k，则用下面的等式(4)选择第k个嘴唇粗糙模型：

型时与每个形状基相应的协方差矩阵的特征值的倒数，其余元素均为0。

即，如果等式(3)计算的多个嘴唇粗糙模型的形状参数向量P中的P^k以及相应的

使得等式(4)最小，则选择相应的第k个嘴唇粗糙模型。应该理解，k为等式(4)中的主变量，k为小于等于嘴唇粗糙模型的数量的正整数。

应该理解，当对于视频图像中的帧的嘴唇进行检测或跟踪时，也可以根据头部的姿态选择嘴唇粗糙模型。例如，可以在某些帧(包括第一帧)根据头部的姿态选择嘴唇粗糙模型，在其他帧根据前一帧的结果选择嘴唇粗糙模型。

此外，在利用根据本发明的上述实施例的包括形状模型和表观模型的嘴唇粗糙模型的情况下，在选择了嘴唇粗糙模型之后，需要对选择的嘴唇粗糙模型的形状进行初始化，即，对参数P和q进行初始化。

如果在图1的步骤101中，嘴部位置是用包围嘴唇的嘴唇轮廓关键点表示的并且存在前一帧检测或跟踪的结果，则P和q的初始值可以用等式(3)式计算得到，从而加快检测速度。如果在图1的步骤101中，嘴部位置是用一个矩形表示的，且没有前一帧检测或跟踪的结果可以利用，则将P和q初始化为任意值，例如，0。此外，可对嘴唇粗糙模型的表观模型的参数b进行初始化。可将参数b初始化为任意值，例如，0。

在初始化嘴唇粗糙模型之后，在图1的步骤103中可通过最小化等式(5)限定的能量函数来初步检测嘴唇。

E₁＝k₁₁E₁₁+k₁₂E₁₂+k₁₃E₁₃ (5)

其中，E₁₁为表观约束项，E₁₂为内部形变约束项，E₁₃为形状约束项，k₁₁，k₁₂，k₁₃为权重系数。

权重系数k₁₁，k₁₂，k₁₃可根据实验获得，例如，可以都取值为1。此外，权重系数k₁₁，k₁₂，k₁₃可根据实际条件进行调整。例如，当图像质量越好，并且形状无关嘴唇纹理图像的尺寸越大时，k₁₁就可以取得越大。

表观约束项E₁₁表示检测的嘴唇的表观与表观模型的差异，作用是使拟合出的嘴唇具有与模型一样的表观，可被表示为等式(6)：

E_{11} = Σ_{i = 1}^{t} {| | a (x_{i}) - I (s (x_{i})) | |}^{2} - - - (6)

其中，a(x_i)表示包括在表观向量a中的形状无关嘴唇纹理图像的像素之中的一个像素x_i的像素值，t表示形状无关嘴唇纹理图像中像素的数量，s(x_i)表示像素x_i在输入图像中的位置，I(s(x_i))表示在输入图像中的位置s(x_i)处的像素的像素值。

应该理解，为了最小化等式(5)，a(x_i)可能需要被改变。为此，需要改变表观模型APPEAR(b)的参数b，来使得表观模型APPEAR(b)的输出表观向量a也改变，从而改变a(x_i)。

应该理解，可基于形状无关嘴唇纹理图像中的嘴唇轮廓关键点或网格与像素x_i的位置关系，利用形状向量s所表示的嘴唇轮廓关键点，确定像素x_i在输入图像中的位置。换句话说，(在形状无关嘴唇纹理图像中的像素x_i与形状无关嘴唇纹理图像中的嘴唇轮廓关键点或网格的位置关系)＝(像素x_i在输入图像中的位置(即，输入图像中与像素x_i相应的像素)与形状向量s所表示的嘴唇轮廓关键点或所述嘴唇轮廓关键点形成的网格的位置关系)。因此，可以利用该位置关系，从形状向量s所表示的嘴唇轮廓关键点得出像素x_i在输入图像中的位置。

根据上下文，所述形状无关嘴唇纹理图像中的嘴唇轮廓关键点可以是形状模型中的平均形状a₀所表示的嘴唇轮廓关键点、在步骤502中的嘴唇轮廓关键点、在步骤504中的形状无关嘴唇纹理图像中的关键点。所述形状无关嘴唇纹理图像中的网格可以是上述关键点形成的网格。

例如，图6中的像素601可以作为形状无关嘴唇纹理图像中的像素x_i的示例。此时，形状向量s所表示的嘴唇轮廓关键点如图8所示。图8示出在在最小化能量函数过程中在输入图像上的检测结果的示意图。基于像素601与图6中的嘴唇轮廓关键点或网格的位置关系，根据图8中的嘴唇轮廓关键点或网格来确定像素x_i在输入图像中的位置801。应该理解，当P或q变化时，图8中的嘴唇轮廓关键点或网格也会变化，从而位置801也会发生变化。

内部形变约束项E₁₂表示检测的嘴唇的形状与平均形状的差异，作用是防止模型过度变形，过度变形通常意味着检测或跟踪出错，可被表示为等式(7)：

E₁₂＝||e^-1P||² (7)

其中，e^-1是一个矩阵，该矩阵的对角线元素是学习选择的嘴唇粗糙模型的形状模型时与每个形状基相应的协方差矩阵的特征值的倒数，其余元素均为0。

形状约束项E₁₃表示在步骤101中估计的嘴部位置与形状向量s所表示的嘴唇位置之差，作用是对模型的位置和形状施加一个来自外部的约束，可被表示为等式(8)：

E₁₃＝(s-s^*)^TW(s-s^*) (8)

其中，W表示一个用于加权的对角矩阵。s^*表示在步骤101获得的嘴部位置。如果在步骤101得到的嘴部位置是用轮廓上的关键点表示的，则s^*是包含这些关键点的坐标的向量；如果在步骤101得到的嘴部位置用矩形表示的，则s^*中包含矩形的上下边界的纵坐标和左右边界的横坐标。

假设形状向量定义为s＝(x₀，y₀，x₁，y₁，x₂，y₂，…，x_c-1，y_c-1)^T，向量s的长度为2c，c为形状的顶点(即，嘴唇轮廓关键点)的数量。那么对角矩阵W可被表示为diag(d₀，d₁，...，d_2c-1)。对角线上的元素d_2k(k为大于等于零的整数)表示当前s中的x_k需要与外部约束保持相似的程度，对角线上的元素d_2k+1表示当前s中的y_k需要与外部约束保持相似的程度。一般来说，根据应用场合的需要手工设置W对角线上的元素。具体地说，如果在嘴唇检测或跟踪应用中，一个嘴唇轮廓关键点在一个方向(例如，水平(x轴)或竖直(y轴)方向)上发生运动的概率越小，则将对角矩阵W中的与该嘴唇轮廓关键点对应的两个对角元素中的与该方向对应的对角元素设置得越大。换句话说，如果在实际应用中，s中的嘴唇轮廓关键点(x_k，y_k)在x轴或y轴上发生运动的概率越小，则将对角矩阵W中的d_2k或d_2k+1设置得越大。

例如，对于嘴唇下边缘中心点的x、y坐标对应的W中的两个对角线元素，如果嘴唇检测或跟踪的应用是辅助语音识别，那么嘴唇的主要运动模式是张嘴闭嘴，那么这个点几乎不可能发生水平方向的运动，则可以将x分量对应的W中的对角线元素设置为相对较大，使得下嘴唇的水平移动被限制；反之，如果应用中需要检测或跟踪非左右对称的嘴唇形状，则这个点的x坐标分量对应的W中的元素就应该设置得相对较小。

通过改变模型参数最小化E₁，当E₁取得最小值的时候，这时的嘴唇粗糙模型的形状向量s就是对嘴唇初步进行估计的结果。

应该理解，最小化等式(5)的过程实质上是调整参数P、q以及b的过程。

在另一实施例中，当对于视频图像中的嘴唇进行检测或跟踪时，在图1的步骤104中，可根据前一帧的检测或跟踪结果来为当前帧的嘴唇跟踪处理选择嘴唇精细模型。可利用等式(3)和等式(4)选择嘴唇精细模型。

具体地说，假设前一帧对嘴唇形状的检测或跟踪结果为S_pre，为了选择嘴唇精细模型，可用等式(3)计算每个嘴唇精细模型中的形状模型的参数：形状参数向量P和相似变换参数q：

假设第k个嘴唇精细模型为适合的嘴唇精细模型，根据等式(3)计算的第k个嘴唇精细模型的形状参数向量为P^k，则用等式(4)选择嘴唇精细模型，此时，等式(4)中的

的对角线元素是学习第k个嘴唇精细模型的形状模型时与每个形状基相应的协方差矩阵的特征值的倒数，其余元素均为0。

应该理解，当对于视频图像中的嘴唇进行检测或跟踪时，也可以根据前面在步骤104使用的方式选择嘴唇精细模型。

在另外的实施例中，在等式(5)中包括E₁₁、E₁₂、E₁₃中的至少一个。换句话说，利用E₁₁、E₁₂、E₁₃中的至少一个对E₁进行约束。此时，应该理解，对应于利用E₁₁、E₁₂、E₁₃中的至少一个，每个嘴唇粗糙模型和每个嘴唇精细模型包括形状模型和表观模型中的一个或两个。

在选择了嘴唇精细模型之后，需要对选择的嘴唇精细模型进行初始化，即，对参数P、q、b进行初始化。该初始化可与嘴唇粗糙模型的初始化相同，不再赘述。

在初始化嘴唇精细模型之后，在图1的步骤105中可通过最小化等式(9)限定的能量函数来检测最终的嘴唇位置。

E₂＝k₂₁E₂₁+k₂₂E₂₂+k₂₃E₂₃ (9)

其中，E₂₁为表观约束项，E₂₂为内部形变约束项，E₂₃为形状约束项，k₂₁，k₂₂，k₂₃为权重系数。

表观约束项E₂₁与前面描述的表观约束项E₁₁在表达形式上相同。内部形变约束项E₂₂与前面描述内部形变约束项E₁₂在表达形式上相同。形状约束项E₂₃与形状约束项E₁₃在表达形式上相同，此时，s^*为在步骤103初步检测的嘴唇位置a。因此，不再详细描述表观约束项E₂₁，内部形变约束项E₂₂，形状约束项E₂₃。

权重系数k₂₁，k₂₂，k₂₃可根据实验获得，例如，可以都取值为1。此外，权重系数k₂₁，k₂₂，k₂₃可根据实际条件进行调整。例如，当图像质量越好，并且形状无关嘴唇纹理图像的尺寸越大时，k₂₁就可以取得越大。

在另外的实施例中，在等式(9)中包括E₂₁、E₂₂、E₂₃中的至少一个。换句话说，利用E₂₁、E₂₂、E₂₃中的至少一个对E₂进行约束。

在另一实施例中，在初始化嘴唇精细模型之后，在图1的步骤105中可通过最小化等式(10)限定的能量函数来检测最终的嘴唇位置。

E₃＝k₂₁E₂₁+k₂₂E₂₂+k₂₃E₂₃+k₂₄E₂₄ (10)

其中，E₂₁为表观约束项，E₂₂为内部形变约束项，E₂₃为形状约束项，E₂₄为纹理约束项，k₂₁，k₂₂，k₂₃，k₂₄为权重系数。

纹理约束项E₂₄是基于纹理模型定义的。纹理模型建立前，纹理约束项E₂₄是不产生作用的。纹理模型是通过对当前视频中的嘴唇及其周围区域的像素的颜色进行统计得到的，用来表示当前视频中被跟踪对象的纹理特征。纹理模型与表观模型不同，后者是对大量样本图像进行学习得到的，而纹理模型是在对视频进行跟踪的过程中创建和更新的。换句话说，该实施例更适于在视频(运动图像)中进行嘴唇的跟踪。

在另外的实施例中，在等式(10)中包括E₂、E₂₂、E₂₃、E₂₄中的至少一个。换句话说，利用E₂、E₂₂、E₂₃、E₂₄中的至少一个对E₃进行约束。

纹理约束项E₂₄可被表示为下面的等式(11)为：

E_{24} = Σ_{i = 1}^{t} {[P (I (s (x_{i})))]}^{2} - - - (11)

其中，t表示形状无关嘴唇纹理图像中像素的数量，x_i表示形状无关嘴唇纹理图像中的一个像素，s(x_i)表示像素x_i在输入图像中的位置，I(s(x_i))表示在输入图像中的位置s(x_i)处的像素的像素值，P(I(s(x_i)))表示使用I(s(x_i))的值作为与x_i对应的混合高斯模型的输入得到的概率密度的倒数。

在描述等式6时已经描述了参数I(s(x_i))，将不再赘述。

形状无关的嘴唇纹理图像中的每个像素对应于一个混合高斯模型，可通过利用这个像素在视频不同帧中的像素值进行建模而产生。换句话说，纹理模型是一系列混合高斯模型的结合，每个混合高斯模型对应于形状无关的嘴唇纹理图像中的一个像素。

在开始对视频中的嘴唇进行跟踪时，还没有建立纹理模型，此时可应用等式(9)来执行步骤105。这样开始对视频的帧进行嘴唇跟踪，并根据跟踪结果获取形状无关纹理图像(即，从表观向量a获取)，当获取的形状无关纹理图像的数量大于预定阈值时，则利用这些形状无关纹理图像对形状无关纹理图像上的每个像素计算一个混合高斯模型，从而建立纹理模型。换句话说，形状无关纹理图像的大小是固定的，对于形状无关纹理图像上的每个位置的像素，从这些形状无关纹理图像获取多个样本，从而利用这些样本计算混合高斯模型。例如，对于形状无关纹理图像中的像素(x_x，y_y)，可从基于多个跟踪结果的形状无关纹理图像获取像素(x_x，y_y)的多个像素值，从而利用这些像素值来计算与像素(x_x，y_y)对应的混合高斯模型。

下面结合图9来说明对纹理模型进行建模的一个示例，在该示例中，根据表情状态对形状无关纹理图像的选取方式进行了改进，以更好地建立模型。图9示出根据本发明的实施例的对纹理模型进行建模的流程图。

在步骤901，对在步骤105检测的嘴唇位置的结果进行判断，确定当前的嘴唇是否处于中性表情状态。可通过等式(10)中的内部形变约束项E₂₂的当前值来确定当前的嘴唇是否处于中性表情状态。例如，当当前内部形变约束项E₂₂的值大于预定阈值时，确定当前的嘴唇处于中性表情状态。应该理解，由于纹理模型还未建立，因此在步骤105中应用等式(10)时，纹理约束项E₂₄是无效的。换句话说，此时在步骤105中应用等式(9)来检测最终的嘴唇位置。

步骤901可从视频的第一被跟踪帧开始或者第一被跟踪帧之后的任意被跟踪帧开始。优选地，从视频的第一被跟踪帧开始执行步骤801。

如果在步骤901中确定嘴唇未处于中性表情状态，则结束流程，并随后根据视频的下一被跟踪帧的跟踪结果执行步骤901。

如果在步骤901中确定嘴唇处于中性表情状态，则在步骤902，提取形状无关嘴唇纹理图像中每个像素的像素值。应该理解，形状无关嘴唇纹理图像中每个像素的像素值可从选择的嘴唇精细模型中的表观向量a获取。

随后，在步骤903确定提取的形状无关嘴唇纹理图像的数量是否小于预定阈值。即，判断样本的数量是否足够。

如果在步骤903确定提取的形状无关嘴唇纹理图像的数量小于预定值，则结束流程，并随后根据视频的下一被跟踪帧的跟踪结果执行步骤901。

如果在步骤903确定提取的形状无关嘴唇纹理图像的数量不小于预定值，则在步骤904针对每个位置的像素，利用已经提取的预定值数量的形状无关嘴唇纹理图像中的对应位置的像素的像素值来进行聚类，以形成混合高斯模型。由于根据多个样本值进行聚类并形成混合高斯模型是公知的，将不再详述。

随后，结束流程。

在建立纹理模型之后，对随后的被跟踪帧应用该纹理模型。即，等式(10)中的纹理约束项E₂₄开始起作用。

在另一实施例中，在建立并应用纹理模型之后，可对纹理模型进行更新。图10示出根据本发明的实施例的对纹理模型进行更新的流程图。

在步骤1001，对在步骤105检测的嘴唇位置的结果进行判断，确定当前的嘴唇是否处于中性表情状态。

如果在步骤1001中确定嘴唇未处于中性表情状态，则结束流程，并随后根据视频的下一被跟踪帧的跟踪结果执行步骤1001。

如果在步骤1001中确定嘴唇处于中性表情状态，则在步骤1002，对于每个基于当前帧的跟踪结果的形状无关嘴唇纹理图像中的每个像素，计算该像素与对应于该像素的混合高斯模型的每个聚类中心的距离，并选择其中的最小距离。换句话说，计算该像素的像素值与每个聚类中心的值之差的绝对值，并找到其中最小绝对值。

随后，在步骤1003，对于每个像素，确定与每个像素对应的最小距离是否小于预定阈值。

如果在步骤1003确定一个像素所对应的最小距离小于预定阈值，则在步骤1004利用该像素的像素值更新与该像素对应的混合高斯模型。随后，结束流程，并随后根据视频的下一被跟踪帧的跟踪结果执行步骤1001。

如果在步骤1003确定一个像素所对应的最小距离不小于预定阈值，则在步骤1005确定与该像素对应的混合高斯模型中的聚类数量是否小于预定阈值。

如果在步骤1005确定与该像素对应的混合高斯模型中的聚类数量小于预定阈值，则在步骤1006，利用该像素的像素值建立新的聚类，并更新与该像素对应的混合高斯模型。

如果在步骤1005确定与该像素对应的混合高斯模型中的聚类数量不小于预定阈值，则结束流程，并随后根据视频的下一被跟踪帧的跟踪结果执行步骤1001。

根据本发明的示例性实施例的嘴唇检测及跟踪方法可实现为计算机可读记录介质上的计算机可读代码或计算机程序。计算机可读记录介质是可存储其后可由计算机系统读出的数据的任意数据存储装置。

图11示出根据本发明的实施例的嘴唇检测设备的框图。

参照图11，根据本发明的嘴唇检测设备包括：姿态估计单元1101、嘴唇粗糙模型选择单元1102、嘴唇初步检测单元1103、嘴唇精细模型选择单元1104、嘴唇精细检测单元1105。

姿态估计单元1101估计嘴部在输入图像中的位置以及相应的头部的姿态。可利用现有技术来实现嘴部以及头部姿态的估计。此外，也可根据前面提到的嘴部在头部中的相对位置来确定头部姿态。

此外，嘴唇检测设备还可包括人脸识别单元(未示出)，姿态估计单元1101之间检测人脸区域，从而姿态估计单元1101在检测到的人脸区域中进行相应的处理。

嘴唇粗糙模型选择单元1102根据头部的姿态从多个嘴唇粗糙模型中选择一个具有与该头部姿态对应或最接近的头部姿态的嘴唇粗糙模型。

此外，嘴唇粗糙模型选择单元1102可通过最小化等式(5)限定的能量函数来初步检测嘴唇。

嘴唇初步检测单元1103利用选择的嘴唇粗糙模型从图像中初步检测嘴唇(即，粗糙嘴唇位置)。检测的嘴唇可由嘴唇轮廓关键点的位置来表示。图3示出根据本发明的实施例的嘴唇轮廓关键点的示意图。如图3所示，嘴唇轮廓关键点可以形成嘴唇区域网格。

嘴唇精细模型选择单元1104根据嘴唇的初步检测结果从多个嘴唇精细模型中选择一个嘴唇精细模型。具体地说，从多个嘴唇精细模型中选择一个具有与初步检测的嘴唇的形状最接近的嘴唇形状的嘴唇精细模型。

可利用前面描述的方式来对嘴唇粗糙模型和嘴唇精细模型进行建模和训练。

嘴唇精细检测单元1105利用选择的嘴唇精细模型检测精细嘴唇，从而检测到最终的嘴唇。

此外，嘴唇精细检测单元1105可通过最小化等式(9)或(10)限定的能量函数来检测精细嘴唇。

应该理解，当嘴唇检测设备对视频的每个帧执行嘴唇检测时，此时的嘴唇检测设备可以被看作是一个嘴唇跟踪设备。

本发明中的嘴唇检测设备中的各个“单元”代表硬件组件。本领域技术人员根据本发明对不同单元的定义，可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现上述单元。

根据本发明的嘴唇检测或跟踪方法和设备可以适应嘴唇形状的各种变化，准确找到嘴唇轮廓上的关键点。此外，当头部姿态发生各种变化时，虽然图像或视频中嘴唇的形状也会产生变化，但本发明仍然可以准确找到嘴唇轮廓上的关键点。另外，对于环境光照和图像采集设备产生的影响具有高度鲁棒性，在存在不均匀光照、低亮度光照或者低对比度的图像中，本发明都同样可以准确找到嘴唇轮廓上的关键点。此外，本发明提出了一种新的嘴唇建模方法用于嘴唇的检测及跟踪，可以进一步提高嘴唇检测或跟踪的准确性和鲁棒性。

尽管已经参照其示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种嘴唇检测方法，包括：

从输入图像估计头部姿态；

从多个嘴唇粗糙模型中选择与估计的头部姿态相应的嘴唇粗糙模型；

使用选择的嘴唇粗糙模型初步检测嘴唇；

从多个嘴唇精细模型中选择一个具有与初步检测的嘴唇的形状最接近的嘴唇形状的嘴唇精细模型；

使用选择的嘴唇精细模型检测嘴唇。

2.如权利要求1所述的方法，其中，利用第一多组嘴唇图像作为训练样本训练而得到多个嘴唇粗糙模型，每组嘴唇图像作为一个训练样本集合训练一个嘴唇粗糙模型，每组嘴唇图像具有相同或相近的头部姿态；

其中，利用第二多组嘴唇图像作为训练样本训练而得到多个嘴唇精细模型，每组嘴唇图像作为一个训练样本集合训练一个嘴唇精细模型，每组嘴唇图像具有相同或相近的嘴唇形状，或者，根据嘴唇形状将第二多组嘴唇图像中的每组嘴唇图像分别划分为多个子集，利用划分的子集训练嘴唇精细模型，每个子集作为一个训练样本集合训练一个嘴唇精细模型。

3.如权利要求1所述的方法，其中，每个嘴唇粗糙模型和每个嘴唇精细模型包括形状模型和表观模型中的至少一个，

其中，形状模型用于对嘴唇的形状建模，被表示为：平均形状与反映形状变化的至少一个形状基的加权和之和的相似变换，其中，平均形状和形状基作为形状模型的固定参数，用于各个形状基加权的形状参数的形状参数向量和用于相似变化的参数为形状模型的变量；

其中，表观模型用于对嘴唇的表观进行建模，被表示为：嘴唇的平均表观与反映表观变化的至少一个表观基的加权和之和，其中，平均表观和表观基作为表观模型的固定参数，用于表观基加权的权重为表观模型的变量。

4.如权利要求3所述的方法，其中，使用嘴唇粗糙模型的步骤包括：最小化表观约束项、内部形变约束项、形状约束项中的至少一个之间的加权和，

其中，表观约束项表示检测的嘴唇的表观与表观模型的差异；内部形变约束项表示检测的嘴唇的形状与平均形状的差异；形状约束项表示检测的嘴唇的形状与预先从输入图像估计的嘴部位置的差异。

5.如权利要求3所述的方法，其中，使用嘴唇精细模型检测嘴唇的步骤包括：最小化表观约束项、内部形变约束项、形状约束项、纹理约束项中的至少一个之间的加权和，

其中，表观约束项表示检测的嘴唇的表观与表观模型的差异；内部形变约束项表示检测的嘴唇的形状与平均形状的差异；形状约束项表示检测的嘴唇的形状与初步检测的嘴唇的形状的差异，纹理约束项表示当前帧与先前帧之间的纹理变化。

6.如权利要求3述的方法，其中，平均形状表示用于训练形状模型的训练样本集合中的嘴唇的平均形状，每个形状基表示对平均形状的一个变化。

7.如权利要求3述的方法，其中，选取训练样本集合中的全部或部分训练样本的形状向量的协方差矩阵的特征向量来作为形状基。

8.如权利要求7述的方法，其中，如果训练样本集合中的预定数量训练样本的形状向量的协方差矩阵的特征值之和大于训练样本集合中的所有训练样本的形状向量的协方差矩阵的特征值之和的预定百分比，则所述预定数量训练样本的形状向量的协方差矩阵的特征向量作为预定数量的形状基。

9.如权利要求3所述的方法，其中，平均表观表示用于训练表观模型的训练样本集合的表观向量的平均值，表观基表示对平均表观向量的一个变化。

10.如权利要求3所述的方法，其中，选取训练样本集合中的全部或部分训练样本的表观向量的协方差矩阵的特征向量来作为表观基。

11.如权利要求10所述的方法，其中，如果训练样本集合中的预定数量训练样本的表观向量的协方差矩阵的特征值之和大于训练样本集合中的所有训练样本的表观向量的协方差矩阵的特征值之和的预定百分比，则所述预定数量训练样本的表观向量的协方差矩阵的特征向量作为预定数量的表观基。

12.如权利要求3所述的方法，其中，表观向量包括形状无关嘴唇纹理图像中的像素的像素值。

13.如权利要求12所述的方法，其中，在训练时获取表观向量的步骤包括：

根据训练样本中标记的嘴唇轮廓关键点的位置，将嘴唇内部像素和嘴唇外部预定范围内的像素映射到嘴唇的平均形状中，得到形状无关嘴唇纹理图像；

计算形状无关嘴唇纹理图像的不同方向的多个梯度图像；

将形状无关嘴唇纹理图像和所述多个梯度图像转换成向量的形式，并将转换的向量连接在一起，从而得到表观向量。

14.如权利要求12所述的方法，其中，在训练时获取形状无关嘴唇纹理图像的步骤包括：以训练样本和平均形状中的嘴唇轮廓关键点为参考，将训练样本上的嘴唇内部像素和嘴唇外部预定范围内的像素的像素值映射到平均形状中的对应像素。

15.如权利要求12所述的方法，其中，在训练时获取形状无关嘴唇纹理图像的步骤包括：

在嘴唇的平均形状上，基于表示嘴唇的平均形状的嘴唇轮廓关键点，以预定方式划分网格；

在标注了嘴唇轮廓关键点的训练样本上，基于所述嘴唇轮廓关键点以所述预定方式划分网格；

以划分的网格作为参考，将训练样本上的嘴唇内部像素和嘴唇外部预定范围内的像素的像素值映射到平均形状中的对应像素，从而得到形状无关嘴唇纹理图像。

16.如权利要求3所述的方法，其中，所述输入图像是视频的第一帧，所述方法还包括：针对作为非第一帧的当前帧选择嘴唇粗糙模型，以针对当前帧初步检测嘴唇，其中，计算多个嘴唇粗糙模型中的每个嘴唇粗糙模型的形状参数向量，并选择多个嘴唇粗糙模型中的第k个模型来针对当前帧初步检测嘴唇，

{(P, q)}^{T} = \underset{p, q}{\arg \min} {| | S_{pre} - SHAPE (P, q) | |}^{2}

其中，q用于相似变化的参数，S_pre表示视频的前一帧的嘴唇检测结果，AHAPE(P，q)表示形状模型的输出，

其中，通过下面的等式确定k：

k = \arg mi n_{k} {| | e_{k}^{- 1} P^{k} | |}^{2}

其中，

17.如权利要求16所述的方法，其中，在使用选择的嘴唇粗糙模型之前，对嘴唇粗糙模型进行初始化，其中，使用在选择嘴唇粗糙模型的过程所计算的第k个嘴唇粗糙模型的P和q进行初始化。

18.如权利要求4所述的方法，其中，形状约束项E₁₃被表示为：

E₁₃＝(s-s^*)^TW(s-s^*)

其中，W表示一个用于加权的对角矩阵，s^*表示预先从输入图像估计的嘴部位置，s表示形状模型的输出。

19.如权利要求18所述的方法，其中，一个嘴唇轮廓关键点在一个方向上发生运动的概率越小，则将对角矩阵W中的与该嘴唇轮廓关键点对应的两个对角元素中的与该方向对应的对角元素设置得越大。

20.如权利要求3所述的方法，其中，所述输入图像是视频的第一帧，所述方法还包括：针对作为非第一帧的当前帧选择嘴唇精细模型，以针对当前帧使用嘴唇精细模型检测嘴唇，其中，计算多个嘴唇精细模型中的每个嘴唇精细模型的形状参数向量，并选择多个嘴唇精细模型中的第k个模型来针对当前帧检测嘴唇，

{(P, q)}^{T} = \underset{p, q}{\arg \min} {| | S_{pre} - SHAPE (P, q) | |}^{2}

其中，q用于相似变化的参数，S_pre表示视频的前一帧的嘴唇检测结果，SHAPE(P，q)表示形状模型的输出，

其中，通过下面的等式确定k：

k = \arg mi n_{k} {| | e_{k}^{- 1} P^{k} | |}^{2}

其中，

21.如权利要求20所述的方法，其中，在使用选择的嘴唇精细模型之前，对嘴唇精细模型进行初始化，其中，使用在选择嘴唇精细模型的过程所计算的第k个嘴唇精细模型的P和q进行初始化。

22.如权利要求5所述的方法，其中，形状约束项E₂₃被表示为：

E₂₃＝(s-s^*)^TW(s-s^*)

其中，W表示一个用于加权的对角矩阵，s^*表示初步检测的嘴唇，s表示形状模型的输出。

23.如权利要求22所述的方法，其中，使用选择的嘴唇精细模型检测嘴唇的步骤包括：最小化表观约束项、内部形变约束项、形状约束项、纹理约束项中的至少一个之间的加权和。

24.如权利要求5所述的方法，其中，纹理约束项E₂₄被表示为：

E_{24} = Σ_{i = 1}^{t} {[P (I (s (x_{i})))]}^{2}

其中，P(I(s(x_i)))表示使用I(s(x_i))的值作为与像素x_i对应的混合高斯模型的输入得到的概率密度的倒数，I(s(x_i))表示在输入图像中的位置s(x_i)处的像素的像素值，s(x_i)表示像素x_i在输入图像中的位置。

25.如权利要求24所述的方法，其中，计算与像素x_i对应的混合高斯模型的步骤包括：通过最小化表观约束项、内部形变约束项、形状约束项中的至少一个之间的加权和来使用选择的嘴唇精细模型检测预定数量的帧中的嘴唇，根据检测结果获取预定数量的形状无关纹理图像，利用获取的预定数量的形状无关纹理图像中与像素x_i对应的像素值进行聚类，以形成一个混合高斯模型。

26.如权利要求24所述的方法，其中，计算与像素x_i对应的混合高斯模型的步骤包括：

(b1)通过最小化表观约束项、内部形变约束项、形状约束项中的至少一个之间的加权和来使用选择的嘴唇精细模型检测一帧中的嘴唇；

(b2)当检测的嘴唇是处于非中性表情状态时，执行步骤(b1)；

(b3)当检测的嘴唇是处于中性表情状态时，提取基于步骤(b1)的检测结果的形状无关嘴唇纹理图像中与像素x_i对应的像素值；

(b4)当已经提取的与像素x_i对应的像素值的数量小于预定数量时，执行步骤(b1)；

(b5)当已经提取的与像素x_i对应的像素值的数量不小于预定数量时，利用已经提取的预定值数量的与像素x_i对应的像素值进行聚类，以形成混合高斯模型。

27.如权利要求24所述的方法，其中，在应用纹理模型之后，对纹理模型进行更新，对纹理模型进行更新的步骤包括：

当应用纹理模型而使用选择的嘴唇精细模型检测的嘴唇处于中性表情状态时，计算基于检测的嘴唇的形状无关嘴唇纹理图像中的像素x_i的像素值与对应于像素x_i的混合高斯模型的每个聚类中心的值之差的绝对值；

当计算的绝对值中的最小值小于预定阈值时，利用该像素值更新与该像素x_i对应的混合高斯模型；

当计算的绝对值中的最小值不小于预定阈值并且对应于像素x_i的混合高斯模型中的聚类数量小于预定阈值，利用该像素值建立新的聚类，并更新对应于像素x_i的混合高斯模型。

28.一种嘴唇跟踪方法，包括：对视频中的每个被跟踪帧执行如权利要求1所述的嘴唇检测方法。

29.一种嘴唇检测设备，包括：

姿态估计单元，从输入图像估计头部姿态；

嘴唇粗糙模型选择单元，从多个嘴唇粗糙模型中选择与估计的头部姿态相应的嘴唇粗糙模型；

嘴唇初步检测单元，使用选择的嘴唇粗糙模型初步检测嘴唇；

嘴唇精细模型选择单元，从多个嘴唇精细模型中选择一个具有与初步检测的嘴唇的形状最接近的嘴唇形状的嘴唇精细模型；

嘴唇精细检测单元，使用选择的嘴唇精细模型检测嘴唇。