CN107025439B - 基于深度数据的唇部区域特征提取和规范化方法 - Google Patents
基于深度数据的唇部区域特征提取和规范化方法 Download PDFInfo
- Publication number
- CN107025439B CN107025439B CN201710173932.XA CN201710173932A CN107025439B CN 107025439 B CN107025439 B CN 107025439B CN 201710173932 A CN201710173932 A CN 201710173932A CN 107025439 B CN107025439 B CN 107025439B
- Authority
- CN
- China
- Prior art keywords
- angle
- feature
- model
- lip region
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于深度数据的唇部区域特征提取和规范化方法,步骤一、确定待提取唇部区域的数据域;步骤二、特征提取;步骤三、通过使用插值型逼近算法对孤立词的帧数进行统一规范化;步骤四、利用KNN算法进行上述角度特征的最终特征数据的评价选取。与现有技术相比,本发明能够对基于唇区及其周边区域的三维模型进行特征提取,对光照变化、角度变化、距离远近等具有更好的鲁棒性。
Description
技术领域
本发明属于模式识别、计算机视觉和智能人机交互领域,特别是一种用于唇读系统中、基于深度数据的实时唇部区域特征提取和规范化的方法。
背景技术
一般来说,特征提取应具体问题具体分析,其评价标准具有一定的主观性。然而还是有一些遵循的普遍原则,为了得到特征所付出的代价不能过大、选取的特征应对噪声和不相关转换不敏感,更重要的一点,应该试图寻找最具区分能力的特征。
传统的唇读研究主要基于二维的图像数据,基于轮廓与图像的特征提取方法已经取得了很好的效果,同时基于HMM以及人工神经网络的训练识别方法也取得了极大的进展。
目前在相关技术中,唇部区域特征提取方法主要分为三大类:基于模型的提取方法、基于像素的提取方法以及两者相结合的提取方法。(1)、基于模型的提取方法基本思路是将唇部区域抽象为一个参数化模型,可有效降低特征向量维度,但不能充分利用图像信息。(2)、基于像素的提取方法,是将图像信息经过一系列变换后作为唇部特征向量,以充分利用像素信息,全面表征唇动特征,但该特征向量具有高复杂度和高冗余度,而且对说话者个性化特征十分敏感。(3)、两者相结合的提取方法是结合两种提取方法的优势,同时在一定程度上弥补了各自的不足。
以上三种提取方法都是基于二维图像处理,在数据采集中不可避免地会遭遇因说话者与摄像头的距离不同、说话者自身的唇部宽高比例差异、以及说话时头部旋转角度差异导致采集得到的图像中唇部区域的像素发生形变,进而影响识别过程的准确性。
发明内容
为避免上述问题,本发明提出一种基于深度数据的唇部区域特征提取和规范化方法,通过用Kinect传感器获取人脸三维数据并进行数据预处理,根据CANDIDE-3与MPEG-4标准人脸模型,确定感兴趣区域,然后提取基于标准人脸模型以及基于唇动特征自定义的角度特征,进行特征规范化。
本发明提出了的一种基于深度数据的唇部区域特征提取和规范化方法,该方法包括以下步骤:
步骤一、确定待提取唇部区域的数据域:基于Kinect传感器获取人脸三维数据,据CANDIDE-3人脸标准模型,从脸部特征点构成的184个三角形网格,将其中唇部区域的特征点的三维坐标进行旋转变化,使其构成的三维模型能保持平行于Kinect空间坐标系的二维平面,提取唇部相关的18个特征点所组成的38个三角形网格;在38个三角形网格中,选取其中以唇部特征点为顶点的空间角度作为角度特征,共38维;
步骤二、特征提取:将基于模型选择的38个角度特征和上述四个自定义的角度特征拼接,得到每帧图像的模型角度特征;其中自定义的角度特征如下式所示:
Fangle-model-k-2=[angle15-9-17,angle9-17-15,angle3-1-7,angle9-12-17]
其中,Fangle-model-k-2表示第k帧唇部区域定义的角度特征,angle15-9-17、angle9-17-15、angle3-1-7、angle9-12-17分别表示特征点15-9-17、9-17-15、3-1-7、9-12-17构成的角度特征;
步骤三、通过使用插值型逼近算法对孤立词的帧数进行统一规范化:对每一维的角度特征,构建每帧图像的时间戳与特征值之间的关系模型,将角度特征进行插值至1000fps,使它接近于连续的线性模型,然后对1000fps的角度特征数据进行采样,以等间隔选取100帧特征,作为本维角度特征的最终特征数据;
步骤四、利用KNN算法进行上述角度特征的最终特征数据的评价选取:使用选定参数后的KNN分类器对提取的角度特征进行评价选取,根据最近邻居的类别决定测试样本的分类情况,选择其中最具有代表性的角度特征作为此帧的代表特征。
与现有技术相比,本发明能够对基于唇区及其周边区域的三维模型进行特征提取,对光照变化、角度变化、距离远近等具有更好的鲁棒性。
附图说明
图1为本发明的基于深度数据的唇部区域特征提取和规范化方法整体流程示意图;
图2为四个自定义的角度特征示意图;
图3为时间戳与特征值的关系模型以及每一维特征的插值与下采样过程示意图。
具体实施方式
随着三维摄像头以及建模技术的发展,唇读有了更广阔的前景,本发明基于Kinect传感器获取人脸三维数据,并提出基于三维数据的特征提取方法,本研究的主要贡献集中在以下方面:
基于Kinect自身Face Tracking SDK所捕获到的121个特征点的三维数据,对特征点数据进行预处理,将其旋转平移后进行规范化,提取唇区及其周边区域的37个特征点,建立唇动相关的三维模型。
本发明针对Kinect获取的脸部三维坐标信息,进行数据预处理,提取出基于标准人脸模型选取以及基于唇动特征自定义的空间角度特征。对空间特征采用分段线性插值方法进行规范化,并使用KNN分类算法进行特征评选环节,得到具代表性的空间特征。
下面结合附图对本发明作进一步详细描述。
如图1所示,为本发明的基于深度数据的唇部区域特征提取和规范化方法整体流程示意图,该流程包括:
步骤101:确定待提取唇部区域的数据域:基于Kinect传感器获取人脸三维数据,Kinect Face TrackingSDK的人脸模型中预先定义了人脸121个特征点的三维坐标,符合CANDIDE-3人脸标准模型。根据CANDIDE-3人脸标准模型,从脸部特征点构成的184个三角形网格,将其中唇部区域的特征点的三维坐标进行旋转变化,即将特征点分别以X、Y、Z轴为旋转轴旋转,使其构成的三维模型能保持平行于Kinect空间坐标系的二维平面(XY平面)。,提取唇部相关的18个特征点所组成的38个三角形网格;在38个三角形网格中,选取其中以唇部特征点为顶点的空间角度作为角度特征,共38维;因脸部特征点,尤其是唇区及其周围的特征点的坐标本身也是一种唇动特征,所以在标准化时先将特征点平移至同一空间范围,以保证不同样本的坐标范围大致相同;
步骤102、特征提取:依据据宏观分析说话过程中唇部变形运动的规律,添加如下四种自定义角度特征,分别由特征点15-9-17、9-17-15、3-1-7、9-12-17构成,中间的特征点即为角度定点,四个角度如图2所示。得到的第k帧唇部区域定义的角度特征如公式(1)所示:
Fangle-model-k-2=[angle15-9-17,angle9-17-15,angle3-7-1,angle9-12-17] (1)
每帧唇部区域图像模型中的角度特征均通过将自定义的4个角度特征,与基于模型选择的38个角度特征线性拼接得到;
步骤103:通过使用插值型逼近算法对孤立词的帧数进行统一规范化;对每一维的角度特征,构建每帧图像的时间戳与特征值之间的关系模型(这里的关系模型如图3所示),将角度特征进行插值至1000fps,使它接近于连续的线性模型,,然后对1000fps的角度特征数据进行采样,以等间隔选取100帧特征,作为本维角度特征的最终特征数据;
步骤104:利用KNN算法进行上述角度特征的最终特征数据的评价选取:在角度特征评选之前需先设定KNN分类器的参数,以及特征规范化方法。使用以结果为导向的方式进行参数选择,采用不同参数的KNN分类器对实际的数据样本进行分类实验,通过多组实验,选定后续评选过程所用的KNN分类器参数为K=1;使用选定参数后的KNN分类器对提取的角度特征进行评价选取,距离度量方式采用“欧几里得距离”,即根据最近邻居的类别决定测试样本的分类情况,选择其中最具有代表性的角度特征作为此帧的代表特征。
Claims (1)
1.一种基于深度数据的唇部区域特征提取和规范化方法,其特征在于,该方法包括以下步骤:
步骤一、确定待提取唇部区域的数据域:基于Kinect传感器获取包含深度信息的人脸三维数据,据CANDIDE-3人脸标准模型,从脸部特征点构成的184个三角形网格,将其中唇部区域的特征点的三维坐标进行旋转变化,使其构成的三维模型能保持平行于Kinect空间坐标系的二维平面,提取唇部相关的18个特征点所组成的38个三角形网格;在38个三角形网格中,选取其中以唇部特征点为顶点的空间角度作为角度特征,共38维;
步骤二、特征提取:将基于模型选择的38个角度特征和四种自定义的角度特征拼接,得到每帧图像的模型角度特征;自定义的角度特征分别由特征点15-9-17、9-17-15、3-1-7、9-12-17构成,如下式所示:
Fangle-model-k-2=[angle15-9-17,angle9-17-15,angle3-1-7,angle9-12-17]
其中,Fangle-model-k-2表示第k帧唇部区域定义的角度特征,angle15-9-17、angle9-17-15、angle3-1-7、angle9-12-17分别表示特征点15-9-17、9-17-15、3-1-7、9-12-17构成的角度特征;
步骤三、通过使用插值型逼近算法对孤立词的帧数进行统一规范化:对每一维的角度特征,构建每帧图像的时间戳与特征值之间的关系模型,将角度特征进行插值至1000fps,使它接近于连续的线性模型,然后对1000fps的角度特征数据进行采样,以等间隔选取100帧特征,作为本维角度特征的最终特征数据;
步骤四、利用KNN算法进行上述角度特征的最终特征数据的评价选取:使用选定参数后的KNN分类器对提取的角度特征进行评价选取,根据最近邻居的类别决定测试样本的分类情况,选择其中最具有代表性的角度特征作为此帧的代表特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710173932.XA CN107025439B (zh) | 2017-03-22 | 2017-03-22 | 基于深度数据的唇部区域特征提取和规范化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710173932.XA CN107025439B (zh) | 2017-03-22 | 2017-03-22 | 基于深度数据的唇部区域特征提取和规范化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107025439A CN107025439A (zh) | 2017-08-08 |
CN107025439B true CN107025439B (zh) | 2020-04-24 |
Family
ID=59525748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710173932.XA Active CN107025439B (zh) | 2017-03-22 | 2017-03-22 | 基于深度数据的唇部区域特征提取和规范化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107025439B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191490A (zh) * | 2018-11-15 | 2020-05-22 | 天津大学青岛海洋技术研究院 | 一种基于Kinect视觉的唇读研究的方法 |
CN110110603A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于面部生理信息的多模态唇读方法 |
CN111915510B (zh) * | 2020-07-03 | 2022-04-19 | 天津大学 | 基于散点分布的图像插值方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7127081B1 (en) * | 2000-10-12 | 2006-10-24 | Momentum Bilgisayar, Yazilim, Danismanlik, Ticaret, A.S. | Method for tracking motion of a face |
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
CN102004549A (zh) * | 2010-11-22 | 2011-04-06 | 北京理工大学 | 一种适用于中文的自动唇语识别系统 |
CN102023703A (zh) * | 2009-09-22 | 2011-04-20 | 现代自动车株式会社 | 组合唇读与语音识别的多模式界面系统 |
JP2012059017A (ja) * | 2010-09-09 | 2012-03-22 | Kyushu Institute Of Technology | ワードスポッティング読唇装置及び方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101035768B1 (ko) * | 2009-01-02 | 2011-05-20 | 전남대학교산학협력단 | 립 리딩을 위한 입술 영역 설정 방법 및 장치 |
-
2017
- 2017-03-22 CN CN201710173932.XA patent/CN107025439B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7127081B1 (en) * | 2000-10-12 | 2006-10-24 | Momentum Bilgisayar, Yazilim, Danismanlik, Ticaret, A.S. | Method for tracking motion of a face |
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
CN102023703A (zh) * | 2009-09-22 | 2011-04-20 | 现代自动车株式会社 | 组合唇读与语音识别的多模式界面系统 |
JP2012059017A (ja) * | 2010-09-09 | 2012-03-22 | Kyushu Institute Of Technology | ワードスポッティング読唇装置及び方法 |
CN102004549A (zh) * | 2010-11-22 | 2011-04-06 | 北京理工大学 | 一种适用于中文的自动唇语识别系统 |
Non-Patent Citations (4)
Title |
---|
A Lip Reading Application on MS Kinect Camera;Alper Yargic 等;《2013 IEEE INISTA》;20130816;第II、V-VI节 * |
A local region based approach to lip tracking;Yiu-ming Cheung 等;《Pattern Recognition》;20120305;第45卷(第9期);第3336-3347页 * |
Audio-visual speech recognition integrating 3D lip information obtained from the Kinect;Jianrong Wang 等;《Multimedia Systems》;20151206;第22卷(第3期);第315-323页 * |
CANDIDE-3-An Updated Parameterised Face;Jorgen Ahlberg;《CiteSeer》;20010131;第1-16页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107025439A (zh) | 2017-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111223088B (zh) | 一种基于深层卷积神经网络的铸件表面缺陷识别方法 | |
CN110378196B (zh) | 一种结合激光点云数据的道路视觉检测方法 | |
CN106875373B (zh) | 基于卷积神经网络剪枝算法的手机屏幕mura缺陷检测方法 | |
CN108416266B (zh) | 一种利用光流提取运动目标的视频行为快速识别方法 | |
CN111080693A (zh) | 一种基于YOLOv3的机器人自主分类抓取方法 | |
TWI430185B (zh) | 臉部表情辨識系統及其辨識方法及其電腦程式產品 | |
CN113592845A (zh) | 一种电池涂布的缺陷检测方法及装置、存储介质 | |
CN111476827B (zh) | 目标跟踪方法、系统、电子装置及存储介质 | |
CN108921120B (zh) | 一种适应广泛零售场景下的香烟识别方法 | |
CN114897816B (zh) | 基于改进掩膜的Mask R-CNN矿物颗粒识别以及粒度检测方法 | |
CN110751097B (zh) | 一种半监督的三维点云手势关键点检测方法 | |
CN107025439B (zh) | 基于深度数据的唇部区域特征提取和规范化方法 | |
CN112907519A (zh) | 一种基于深度学习的金属曲面缺陷分析系统及方法 | |
CN110598613B (zh) | 一种高速公路团雾监测方法 | |
CN110287798B (zh) | 基于特征模块化和上下文融合的矢量网络行人检测方法 | |
CN109584206B (zh) | 零件表面瑕疵检测中神经网络的训练样本的合成方法 | |
Sood et al. | Image quality enhancement for Wheat rust diseased images using Histogram equalization technique | |
Avola et al. | Real-time deep learning method for automated detection and localization of structural defects in manufactured products | |
CN113421223B (zh) | 基于深度学习和高斯混合的工业产品表面缺陷检测方法 | |
CN114038011A (zh) | 一种室内场景下人体异常行为的检测方法 | |
CN113191352A (zh) | 一种基于目标检测和二值图像检测的水表指针读数识别方法 | |
CN115797970B (zh) | 基于YOLOv5模型的密集行人目标检测方法及系统 | |
CN116704526A (zh) | 工尺谱扫描机器人及其方法 | |
CN111652048A (zh) | 一种基于深度学习的1:n人脸比对方法 | |
CN115375991A (zh) | 一种强/弱光照和雾环境自适应目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |