CN107025439B

CN107025439B - 基于深度数据的唇部区域特征提取和规范化方法

Info

Publication number: CN107025439B
Application number: CN201710173932.XA
Authority: CN
Inventors: 魏建国; 杨帆; 王建荣; 喻梅; 徐天一; 岳帅
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2020-04-24
Anticipated expiration: 2037-03-22
Also published as: CN107025439A

Abstract

本发明公开了一种基于深度数据的唇部区域特征提取和规范化方法，步骤一、确定待提取唇部区域的数据域；步骤二、特征提取；步骤三、通过使用插值型逼近算法对孤立词的帧数进行统一规范化；步骤四、利用KNN算法进行上述角度特征的最终特征数据的评价选取。与现有技术相比，本发明能够对基于唇区及其周边区域的三维模型进行特征提取，对光照变化、角度变化、距离远近等具有更好的鲁棒性。

Description

基于深度数据的唇部区域特征提取和规范化方法

技术领域

本发明属于模式识别、计算机视觉和智能人机交互领域，特别是一种用于唇读系统中、基于深度数据的实时唇部区域特征提取和规范化的方法。

背景技术

一般来说，特征提取应具体问题具体分析，其评价标准具有一定的主观性。然而还是有一些遵循的普遍原则，为了得到特征所付出的代价不能过大、选取的特征应对噪声和不相关转换不敏感，更重要的一点，应该试图寻找最具区分能力的特征。

传统的唇读研究主要基于二维的图像数据，基于轮廓与图像的特征提取方法已经取得了很好的效果，同时基于HMM以及人工神经网络的训练识别方法也取得了极大的进展。

目前在相关技术中，唇部区域特征提取方法主要分为三大类：基于模型的提取方法、基于像素的提取方法以及两者相结合的提取方法。(1)、基于模型的提取方法基本思路是将唇部区域抽象为一个参数化模型，可有效降低特征向量维度，但不能充分利用图像信息。(2)、基于像素的提取方法，是将图像信息经过一系列变换后作为唇部特征向量，以充分利用像素信息，全面表征唇动特征，但该特征向量具有高复杂度和高冗余度，而且对说话者个性化特征十分敏感。(3)、两者相结合的提取方法是结合两种提取方法的优势，同时在一定程度上弥补了各自的不足。

以上三种提取方法都是基于二维图像处理，在数据采集中不可避免地会遭遇因说话者与摄像头的距离不同、说话者自身的唇部宽高比例差异、以及说话时头部旋转角度差异导致采集得到的图像中唇部区域的像素发生形变，进而影响识别过程的准确性。

发明内容

为避免上述问题，本发明提出一种基于深度数据的唇部区域特征提取和规范化方法，通过用Kinect传感器获取人脸三维数据并进行数据预处理，根据CANDIDE-3与MPEG-4标准人脸模型，确定感兴趣区域，然后提取基于标准人脸模型以及基于唇动特征自定义的角度特征，进行特征规范化。

本发明提出了的一种基于深度数据的唇部区域特征提取和规范化方法，该方法包括以下步骤：

步骤一、确定待提取唇部区域的数据域：基于Kinect传感器获取人脸三维数据，据CANDIDE-3人脸标准模型，从脸部特征点构成的184个三角形网格，将其中唇部区域的特征点的三维坐标进行旋转变化，使其构成的三维模型能保持平行于Kinect空间坐标系的二维平面，提取唇部相关的18个特征点所组成的38个三角形网格；在38个三角形网格中，选取其中以唇部特征点为顶点的空间角度作为角度特征，共38维；

步骤二、特征提取：将基于模型选择的38个角度特征和上述四个自定义的角度特征拼接，得到每帧图像的模型角度特征；其中自定义的角度特征如下式所示：

F_{angle-model-k-2}＝[angle_15-9-17,angle_9-17-15,angle_3-1-7,angle_9-12-17]

其中，F_{angle-model-k-2}表示第k帧唇部区域定义的角度特征，angle_15-9-17、angle_9-17-15、angle_3-1-7、angle_9-12-17分别表示特征点15-9-17、9-17-15、3-1-7、9-12-17构成的角度特征；

步骤三、通过使用插值型逼近算法对孤立词的帧数进行统一规范化：对每一维的角度特征，构建每帧图像的时间戳与特征值之间的关系模型，将角度特征进行插值至1000fps，使它接近于连续的线性模型，然后对1000fps的角度特征数据进行采样，以等间隔选取100帧特征，作为本维角度特征的最终特征数据；

步骤四、利用KNN算法进行上述角度特征的最终特征数据的评价选取：使用选定参数后的KNN分类器对提取的角度特征进行评价选取，根据最近邻居的类别决定测试样本的分类情况，选择其中最具有代表性的角度特征作为此帧的代表特征。

与现有技术相比，本发明能够对基于唇区及其周边区域的三维模型进行特征提取，对光照变化、角度变化、距离远近等具有更好的鲁棒性。

附图说明

图1为本发明的基于深度数据的唇部区域特征提取和规范化方法整体流程示意图；

图2为四个自定义的角度特征示意图；

图3为时间戳与特征值的关系模型以及每一维特征的插值与下采样过程示意图。

具体实施方式

随着三维摄像头以及建模技术的发展，唇读有了更广阔的前景，本发明基于Kinect传感器获取人脸三维数据，并提出基于三维数据的特征提取方法，本研究的主要贡献集中在以下方面：

基于Kinect自身Face Tracking SDK所捕获到的121个特征点的三维数据，对特征点数据进行预处理，将其旋转平移后进行规范化，提取唇区及其周边区域的37个特征点，建立唇动相关的三维模型。

本发明针对Kinect获取的脸部三维坐标信息，进行数据预处理，提取出基于标准人脸模型选取以及基于唇动特征自定义的空间角度特征。对空间特征采用分段线性插值方法进行规范化，并使用KNN分类算法进行特征评选环节，得到具代表性的空间特征。

下面结合附图对本发明作进一步详细描述。

如图1所示，为本发明的基于深度数据的唇部区域特征提取和规范化方法整体流程示意图，该流程包括：

步骤101：确定待提取唇部区域的数据域：基于Kinect传感器获取人脸三维数据，Kinect Face TrackingSDK的人脸模型中预先定义了人脸121个特征点的三维坐标，符合CANDIDE-3人脸标准模型。根据CANDIDE-3人脸标准模型，从脸部特征点构成的184个三角形网格，将其中唇部区域的特征点的三维坐标进行旋转变化，即将特征点分别以X、Y、Z轴为旋转轴旋转，使其构成的三维模型能保持平行于Kinect空间坐标系的二维平面(XY平面)。，提取唇部相关的18个特征点所组成的38个三角形网格；在38个三角形网格中，选取其中以唇部特征点为顶点的空间角度作为角度特征，共38维；因脸部特征点，尤其是唇区及其周围的特征点的坐标本身也是一种唇动特征，所以在标准化时先将特征点平移至同一空间范围，以保证不同样本的坐标范围大致相同；

步骤102、特征提取：依据据宏观分析说话过程中唇部变形运动的规律，添加如下四种自定义角度特征，分别由特征点15-9-17、9-17-15、3-1-7、9-12-17构成，中间的特征点即为角度定点，四个角度如图2所示。得到的第k帧唇部区域定义的角度特征如公式(1)所示：

F_{angle-model-k-2}＝[angle_15-9-17,angle_9-17-15,angle_3-7-1,angle_9-12-17] (1)

每帧唇部区域图像模型中的角度特征均通过将自定义的4个角度特征，与基于模型选择的38个角度特征线性拼接得到；

步骤103：通过使用插值型逼近算法对孤立词的帧数进行统一规范化；对每一维的角度特征，构建每帧图像的时间戳与特征值之间的关系模型(这里的关系模型如图3所示)，将角度特征进行插值至1000fps，使它接近于连续的线性模型，，然后对1000fps的角度特征数据进行采样，以等间隔选取100帧特征，作为本维角度特征的最终特征数据；

步骤104：利用KNN算法进行上述角度特征的最终特征数据的评价选取：在角度特征评选之前需先设定KNN分类器的参数，以及特征规范化方法。使用以结果为导向的方式进行参数选择，采用不同参数的KNN分类器对实际的数据样本进行分类实验，通过多组实验，选定后续评选过程所用的KNN分类器参数为K＝1；使用选定参数后的KNN分类器对提取的角度特征进行评价选取，距离度量方式采用“欧几里得距离”，即根据最近邻居的类别决定测试样本的分类情况，选择其中最具有代表性的角度特征作为此帧的代表特征。

Claims

1.一种基于深度数据的唇部区域特征提取和规范化方法，其特征在于，该方法包括以下步骤：

步骤一、确定待提取唇部区域的数据域：基于Kinect传感器获取包含深度信息的人脸三维数据，据CANDIDE-3人脸标准模型，从脸部特征点构成的184个三角形网格，将其中唇部区域的特征点的三维坐标进行旋转变化，使其构成的三维模型能保持平行于Kinect空间坐标系的二维平面，提取唇部相关的18个特征点所组成的38个三角形网格；在38个三角形网格中，选取其中以唇部特征点为顶点的空间角度作为角度特征，共38维；

步骤二、特征提取：将基于模型选择的38个角度特征和四种自定义的角度特征拼接，得到每帧图像的模型角度特征；自定义的角度特征分别由特征点15-9-17、9-17-15、3-1-7、9-12-17构成，如下式所示：

F_{angle-model-k-2}＝[angle_15-9-17,angle_9-17-15,angle_3-1-7,angle_9-12-17]