CN110110603A - 一种基于面部生理信息的多模态唇读方法 - Google Patents
一种基于面部生理信息的多模态唇读方法 Download PDFInfo
- Publication number
- CN110110603A CN110110603A CN201910284544.8A CN201910284544A CN110110603A CN 110110603 A CN110110603 A CN 110110603A CN 201910284544 A CN201910284544 A CN 201910284544A CN 110110603 A CN110110603 A CN 110110603A
- Authority
- CN
- China
- Prior art keywords
- muscle
- feature
- lip
- facial
- depth information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000001815 facial effect Effects 0.000 title claims abstract description 19
- 210000003205 muscle Anatomy 0.000 claims abstract description 76
- 238000006073 displacement reaction Methods 0.000 claims abstract description 18
- 210000001097 facial muscle Anatomy 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000012512 characterization method Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 5
- 238000013434 data augmentation Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 2
- 230000007812 deficiency Effects 0.000 abstract description 4
- 230000008859 change Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 206010044074 Torticollis Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 208000018197 inherited torticollis Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035479 physiological effects, processes and functions Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 229940037201 oris Drugs 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
- G06T7/41—Analysis of texture based on statistical description of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- Probability & Statistics with Applications (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Graphics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于面部生理信息的多模态唇读方法,包括以下步骤:基于Kinect采集彩色图像和3D深度信息,并对彩色图像和3D深度信息进行预处理;建立面部肌肉模型,结合六条肌肉的位置信息,通过特征点匹配将每条肌肉的起点和终点映射到标准三维人脸模型中;基于深度信息提取唇部的几何特征、角度特征;根据面部肌肉模型提取表征肌肉伸缩变化的肌肉长度特征,以及表征肌肉间的相互协作对特征点位移影响的肌肉生理特征;基于DenseNets的多模态语音识别对上述特征进行识别,对DenseNet的全连接层进行改进,融合彩色图像与深度信息,对特征进行分类。本方法能够有效克服传统基于二维图像特征提取方法存在的不足。
Description
技术领域
本发明涉及计算机智能识别领域,涉及多模态数据采集、基于深度信息的特征提取和多模态语音识别领域,尤其涉及一种基于面部生理信息的多模态唇读方法。
背景技术
唇读研究主要由三大模块构成,分别为:唇区检测与定位、唇动特征提取和训练识别。
关于唇区定位,早期是通过人脸的几何特征,即根据人脸长与脸宽的平均标准比例来大致确定唇部区域。现在流行的方法是基于颜色信息的方法,该方法的核心是利用颜色空间变换来分离色度,然后根据颜色范围信息来分割图像。Badura等人利用HSV空间直方图获得了满意的检测率[1]。Spyridonos提出了YIQ颜色空间下的模糊C-均值聚类算法来描述下唇边界形态[2]。
最初唇部特征提取方法是基于二维彩色图像展开的,分为基于像素的特征提取方法,基于模型的特征提取方法和基于像素和基于模型的混合方法。随着三维空间体感传感器的出现,深度信息作为视觉的一种新兴特征得到人们的广泛应用,特别是在唇部的特征提取方面。Uda等人建立了一个基于车内环境,包含:深度信息的唇动数据库,通过利用深度信息来重建话者面部的网格纹理模型,证明了三维数据的实验结果比二维数据的效果好[3]。微软Kinect不仅可以采集多模态的信息,其自带的软件开发工具包提供了面部追踪的接口,通过接口可以使用坐标点来重新定义面部信息,因此基于Kinect听觉视觉的多模态语音识别系统吸引了一批研究者。Yargic等人利用Kinect深度摄像头获取到了121个面部特征点,然后从特征点提取了角度特征作为唇读应用的输入[4]。Galatas等人使用自己建立的BAVCD数据库,实现了基于Kinect正脸深度数据辅助的多模态语音识别系统[5]。
唇动识别是一个唇动系统的核心阶段,目前唇动识别方案有四类方法:模板匹配、动态时间规划(Dynamic Time Warping,DTW)、隐马尔科夫(Hidden Markov Model,HMM)、人工神经网络(Artificial Neural Networks,ANN)。近几年,深度学习受到了人们的广泛关注,它利用标准正脸的图像数据显著提高了多模态语音识别系统的性能。Chung等人利用基于卷积神经网络(CNN,Convolutional Neural Network)和长短时记忆网络(LSTM,LongShort-Term Memory)的网络模型实现了多模态的语音识别系统[6]。
传统基于像素的唇动特征提取方法将唇区图像中的所有像素信息作为研究对象,直接将像素信息作为唇动特征向量,或经过某种图像变换后生成特征向量。该方法不能直观地反映唇动信息,且大都对图像的旋转、缩放和光照变化比较敏感。另外,该方法的特征向量维数较高,容易导致高冗余度。
传统基于模型的唇动特征提取方法利用嘴唇的轮廓信息来形象直观地刻画唇动变化,但任何一种模型都不能涵盖图像的全部特征,故存在信息丢失的问题,且该方法对目标图像信息清晰度的要求也非常高。
而深度信息可以很好的将目标区域与背景区域分开来,解决了二维图像易受到光照、肤色以及话者说话过程中正常的头部动作等所造成的影响,同时缓和了由于距离或角度不同而造成的目标区域在图像中显示比例不同的问题。尽管整合深度信息的唇动特征提取方法极大地弥补了基于二维图像信息的特征提取方法所存在的不足,但仍然遗留有一些问题有待解决,如唇部区域的三维空间点云之间的内在关系尚不明确,唇动特征提取方法的研究仍然停留在表层现象观察上,尚未涉及人类内在发声机理。
因此,本发明提出从解剖学角度来重新审视人类说话过程中唇部运动的规律,在融合深度信息与图像信息的唇部特征提取方法的基础上,加入与唇部活动有关的生理信息,结合生物力学与图形学建立离散唇部特征点之间的静态及动态约束关系,进而提取更加合理准确的唇动特征。
参考文献
[1]Badura S and Mokrys M.Lip detection using projection into subspaceand template matching in HSV color space[C].Proceeding of the Information andCommunication Technologies,2012:5–8.
[2]Spyridonos P,Gaitanis G,Tzaphlidou M,et al.Spatial fuzzy c-meansalgorithm with adaptive fuzzy exponent selection for robust vermilion borderdetection in healthy and diseased lower lips[J].Computer Methods&Programs inBiomedicine,2014,114(3):291-301.
[3]Uda K,Tagawa N,Minagawa A,et al.Effectiveness evaluation of wordcharacteristics obtained from 3D image information for lipreading[C].Proceedings of 11th IEEE International Conference on Image Analysis andProcessing,2001:296-301.
[4]Yargic A,Dogan M.A lip reading application on MS Kinect camera[C].IEEE International Symposium on Innovations in Intelligent Systems andApplications.IEEE,2013:1-5.
[5]Galatas G,Potamianos G,Kosmopoulos D,et al.Bilingual corpus forAVASR using multiple sensors and depth information[C].Auditory Visual SpeechProcessing,2011:103-106.
[6]Chung J S,Senior A,Vinyals O,et al.Lip Reading Sentences in theWild[C].30th IEEE Conference on Computer Vision and Pattern Recognition,2017,3444-3450.
发明内容
本发明提供了一种基于面部生理信息的多模态唇读方法,本发明使用深度信息和面部生理信息对唇区特征点进行特征提取,能够有效克服传统基于二维图像特征提取方法存在的不足,结合彩色图像信息和提取到的多种深度特征对识别方案进行研究,详见下文描述:
一种基于面部生理信息的多模态唇读方法,所述方法包括以下步骤:
基于Kinect采集彩色图像和3D深度信息,并对彩色图像和3D深度信息进行预处理;
建立面部肌肉模型,结合六条肌肉的位置信息,通过特征点匹配将每条肌肉的起点和终点映射到标准三维人脸模型中;
基于深度信息提取唇部的几何特征、角度特征;根据面部肌肉模型提取表征肌肉伸缩变化的肌肉长度特征,以及表征肌肉间的相互协作对特征点位移影响的肌肉生理特征;
基于DenseNets的多模态语音识别对上述特征进行识别,对DenseNet的全连接层进行改进,融合彩色图像与深度信息,对特征进行分类。
其中,所述对彩色图像和3D深度信息进行预处理具体为:
对齐处理,根据对齐结果对彩色图像和3D深度信息进行分割;
对彩色图像进行面部检测、唇区定位以及数据扩张处理;对3D深度信息通过坐标变换纠正话者录制过程中头部的角度、距离偏移。
进一步地,所述形状特征具体为:
Fshape2=[Fshape2-1 T,…,Fshape2-k T,…,Fshape2-N T]T
其中,h1,h2,h3,h4分别表示二维几何特征上唇内外侧轮廓高度和下唇内外侧轮廓高度;w1和w2表征唇部内外轮廓的半宽度。
所述肌肉长度特征具体为:
Flength=[Flength-1,…,Flength-k,…,Flegnth-N]T
其中,
所述方法还包括:
从每个音节的图像序列中挑选若干张连续图片代表该音节的唇动过程,按照从左到右、从上到下的空间顺序,进行拼接。
本发明提供的技术方案的有益效果是:
1、本发明根据建立的肌肉模型融合生理信息进行了唇部生理特征提取,有效克服传统基于二维图像特征提取方法存在的不足,例如:二维图像易受光照、肤色以及话者说话过程中正常的头部动作等所造成的影响;
2、本发明首次将DenseNet用于唇读识别,通过对拼接的图像数据进行分类,验证了通过拼接保留图像时间连续性的有效性;
3、3、为了融合彩色图像数据与深度特征,本发明改进了DenseNet的全连接层,将所提取到的彩色图像特征和深度特征进行了融合。
附图说明
图1为一种基于面部生理信息的多模态唇读方法的流程图;
图2为图像数据处理中的特征点标注和亮度变换示意图;
其中,(a)为68个面部特征点标注;(b)为亮度变换示意图。
图3为特征点示意图;
其中,(a)为1347个面部特征点;(b)为160个唇部特征点。
图4为数据预处理前后对比图;
图5为面部肌肉模型匹配图;
图6为四个角度特征示意图;
图7为基于五个元音彩色图像数据的识别结果图;
图8为五个元音深度特征比较图;
图9为线性肌肉模型图;
图10为唇部几何特征图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种基于面部生理信息的多模态唇读方法,参见图1,该方法包括以下步骤:
101:基于Kinect的多模态数据采集及预处理;
102:面部肌肉模型建立;
103:基于深度信息的唇动特征提取;
104:基于DenseNet的唇读识别。
在一个实施例中,步骤101同步采集话者唇动过程中的音频数据、彩色图像数据以及深度数据,之后对采集到的数据进行预处理,具体方法如下:
使用P2FA工具对音频进行强制对齐,并根据对齐结果对彩色图像和3D深度信息进行分割。对彩色图像数据,首先使用基于OpenCV视觉库的级联分类器对图像中的人脸进行检测确定话者面部位置,然后利用Dlib官方模型对话者面部进行68个点的标定如图2(a)所示;之后以两个嘴角中点为中心,截取像素大小为128×100的矩形区域即得到了完整的唇部区域。
为了增加数据量同时降低光照变化对实验结果的影响,对彩色图像进行亮度变换,如图2(b)所示。本发明所使用的深度数据为面部1347个特征点的3D坐标信息,为方便后续使用,对1347个特征点重新进行了标号,并确定了唇部区域所包含的160个特征点(如图3所示)。此外,通过坐标变换纠正话者录制过程中头部的角度、距离偏移如图4所示,图中(a),(b),(c)分别代表了话者说话过程中扭头,歪头以及仰头的情况,经过以上三个步骤后得到(d),可以保证三维模型正脸面对摄像机。
在一个实施例中,步骤102在步骤101的基础上通过面部解剖学和生物力学,对面部的肌肉进行分析,确定了面部肌肉的生理结构以及作用范围。对与唇区运动相关的向量肌,建立了几何模型来形象的表征肌肉的生理信息。最后,将影响唇区运动的6个肌肉模型用Kinect所采集到的1347个面部特征点表示出来,面部肌肉模型匹配图如图5所示,每个映射的模型都包括:起始点、终止点以及影响点三部分构成。
在一个实施例中,步骤103对采集到的数据提取两类特征。第一类为几何特征,由形状特征(唇宽度和高度)及角度特征(如图6所示)构成,用来反映唇动过程中唇部的形状结构变化。第二类为生理特征,结合步骤102构建的线性肌肉模型,提取了表征肌肉伸缩变化的肌肉长度特征,以及表征肌肉间的相互协作对特征点位移影响的肌肉生理特征。
在一个实施例中,步骤104使用基于DenseNets的多模态语音识别算法对提取的唇动特征进行识别。对DenseNet的全连接层进行改进,融合步骤101采集到的彩色图像数据与步骤103提取的深度特征,并对多模态特征进行分类实验。
实施例2
下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
201:在采集完多模态数据后,首先要对数据进行预处理,对音频进行强制对齐,并根据对齐结果对彩色图像和3D深度信息进行分割;
202:对彩色图像数据进行面部检测、唇区定位以及数据扩张;
其中,在数据扩张中使用了亮度变化,本发明实施例使用伽马变换来对彩色图像信息进行校正,如公式(1)所示。
S=cgγ (1)
式中,c和γ均为正实数,g表示输入图像的灰度值,s表示经过变换后的灰度值。如果γ大于1,则图像中较亮区域的灰度被拉伸,较暗区域的灰度被压缩,图像对比度增加,并且整体变暗。若γ小于1,则情况恰好相反,图像会整体变亮,且对比度减弱。若γ等于1,则为线性变化,灰度不发生改变。本发明实施例中的γ取了三个不同的值,依次为0.6、1.0和1.3,调整过后唇部区域的图2(b)所示。
203:对深度数据,通过坐标变换纠正话者录制过程中头部的角度、距离偏移;
具体实现时,本发明实施例对每个特征点的三维坐标进行了纠正,来尽可能保证标准三维人脸模型没有角度偏移。以Y轴为旋转轴的旋转公式为公式(2),以Z轴为旋转轴的旋转公式为公式(3),以X轴为旋转轴的旋转公式为公式(4),其中(x,y,z)为旋转之前某特征点坐标,(x',y',z')为旋转后的坐标。
204:建立面部肌肉模型,通过对向量肌特性和受力的了解,可以将其抽象为以下模型:
如图9所示,从图中可以看到,向量肌的作用范围是以向量为中轴线的扇形区域。其中V1端为固定端,其位置几乎保持不变,V2端与皮肤组织相连,为可移动端。Ω表示该肌肉的最大影响角度,R代表肌肉的最大影响半径。对于肌肉作用于范围内的一点P,其受力情况有一定的生理规律,表现为由中轴线向两侧衰减,以及从V1到V2受力作用先增大后衰减。
205:将面部肌肉模型自动映射到经过步骤203处理后的标准三维人脸模型,如图5所示,结合本发明实施例研究的六条肌肉的位置信息,通过特征点匹配将每条肌肉的起点和终点映射到了三维人脸模型中,映射信息如表1所示:
表1面部肌肉模型匹配表
起点指其固定端,止点代表移动端。由于下唇特征点不仅受面部肌肉影响,还与下颌开角存在一定联系,因此本发明中,影响点只考虑上唇嘴角标号为125到131的七个特征点。例如对于提上唇肌1,其起始点为769,终止点位165,该肌肉的收缩和舒张会影响唇部点125和126的位置;提上唇肌3,起始于点665,终止于点127,受其影响的特征点包括点127到131。
206:提取形状特征;
其中,如图10所示,h1,h2,h3,h4分别表示二维几何特征上唇内外侧轮廓高度和下唇内外侧轮廓高度。w1和w2表征唇部内外轮廓的半宽度,所提取的几何特征可以表示为:
Fshape1-k=[h1,h2,h3,h4,w1,w2] (5)
其中,k代表某个孤立词样本的第k帧,一个音节发音过程中的N帧图像的形状特征构成了该音节的形状特征:
Fshape1=[Fshape1-1 T,…,Fshape1-k T,…,Fshape1-N T]T (6)
由于不同话者的唇部形状和发音方法不同,表现为发相同音节时不同话者唇形有较大差异。因此,单纯利用唇部宽度、高度、形状受话者个体差异影响较大,为了更准确的表达不同话者说话方式的相似性,引入如下比例特征:
比例特征中,表示上唇内侧高度与外侧高度的比例、表示下唇内侧高度与外侧高度的比例、表示上唇外侧与下唇外侧的比例、表示上唇外侧与外侧轮廓半宽度的比例、表示上唇内侧高度与内侧轮廓半宽度的比例、表示以及内外侧轮廓半宽度的比例。
通过比例特征,准确的刻画了当前唇形所处状态,并且减弱了不同话者唇部生理差异对实验的影响。最终的形状特征为:
Fshape2=[Fshape2-1 T,…,Fshape2-k T,…,Fshape2-N T]T (8)
207:提取角度特征;
其中,本发明实施例所用的四个角度特征为:
Fangle=[α1,α2,α3,α4] (9)
208:提取肌肉长度特征;
其中,假设某帧中颧肌固定端P650和移动端P131的坐标分别为:
(x650,y650,z650)和(x131,y131,z131),则该帧中颧肌长度为:
式中,k代表当前帧数,5表示颧肌在表1的索引号。提上唇肌1、提上唇肌2、提上唇肌3、提口角肌、颧肌和颊肌的索引分别为1至6。由此得到第k帧的肌肉长度特征为:
Flength1-k=[lk-1,lk-2,lk-3,lk-4,lk-5,lk-6] (11)
某一帧的肌肉长度特征为六条肌肉长度构成的特征向量,N帧数据所提取的肌肉长度特征为:
Flength1=[Flength1-1,…,Flength1-k,…,Flegnth1-N]T (12)
由于不同话者面部形状不同,肌肉长度在不同话者之间存在较大差异,单纯利用肌肉长度信息作为特征难以表达不同话者之间的共性,因此本发明实施例将比例特征引入肌肉长度特征。首先,记录了每个话者处于自然状态,即无面部表情和唇部动作时各个肌肉的初始长度,假设当前所研究的话者各个肌肉的初始长度为:
R=[R1,R2,R3,R4,R5,R6] (13)
则第k帧数的肌肉长度特征为:
该肌肉长度特征通过比例特征描述了在各个时刻的拉伸或者收缩程度,代表时间序列上肌肉的长度变化。N帧深度信息所提取的肌肉长度特征为:
Flength=[Flength-1,…,Flength-k,…,Flegnth-N]T (15)
209:提取肌肉生理特征;
首先计算相邻帧之间,各个唇部特征点的位移。假设以唇部特征点o为研究对象,相邻帧之间,特征点Po的坐标从(xo,yo,zo)变为(x'o,y'o,z'o),则该相邻帧间,特征点Po的位移为:
Do-k=[x'o-xo,y'o-yo,z'o-zo]T (16)
其中,k表示相邻两帧中靠前帧的位置。然后计算该帧中,所有向量肌的方向向量。以颧肌为例。假设颧肌的起始点和终止点的坐标分别为(xstart,ystart,zstart)和(xend,yend,zend),则颧肌起止位置所对的单位方向向量为:
其中,k表示当前帧编号,5表示颧肌索引号,l4表示颧肌长度,其计算公式为公式(10)。与颧肌计算类似,可以得到6条肌肉的单位向量。假设影响特征点o的肌肉包括m1、m2、m3(由表1得到)。
为了表征三个肌肉对Po位移的贡献,将Po的位移分解到与其运动相关的肌肉方向,即将Do-k分解到V1-k、V2-k和V3-k的方向,得到点Po在各个肌肉方向的分位移:
其中,d1,d2,d3分别表示Po位移在m1、m2、m3肌肉方向的分位移,该分位移满足:
由于不同肌肉对特征点位移的贡献值由不同的方向,单纯的数值大小并不能较完全的反映肌肉生理信息。为了更直观表示各个肌肉对特征点位移的影响大小,将分位移分解到了各个坐标轴方向,得到:
其中,d1-x表示特征点Po在肌肉m1单位向量方向的分位移在x坐标轴方向的分量。第k帧的肌肉生理特征可以表示为:
N帧深度信息所对应的肌肉生理特征为:
Fmuscle=[Fmuscle-1,…,Fmuscle-k,…,Fmuscle-N]T (22)
210:为表征图像的时间信息,同时规范DenseNet输入,发明对发音过程中的图像序列进行了拼接处理。首先,从每个音节的图像序列中挑选16张连续图片代表该音节的唇动过程。对该图片序列,按照从左到右、从上到下的空间顺序,将其拼接为一个512×400的图像。拼接完成后,修改最终图像像素大小为128×128。
211:验证DenseNet模型用于唇读识别的可行性以及步骤210中拼接方法对于保留时间连续性的有效性,基于8位话者对元音/a/,/o/,/e/,/i/,/u/的彩色图像数据,计算识别率;
212:采用DenseNet对每个深度特征进行单独实验,以发现不同深度特征对不同元音唇动过程的代表程度,同时验证本发明所提取的生理特征是否合理。
综上所述,本发明实施例所述的一种基于面部生理信息的多模态唇读方法,证明了深度信息的加入可以提高唇读系统的识别率,以及本发明所提出的生理特征可以增强三维离散点之间的约束,更全面的表征唇动过程。
实施例3
下面结合具体的实验数据对实施例1和2中的方案进行可行性验证,详见下文描述:
本发明实施例首次将DenseNet用于具有时间连续性的唇读识别,并提出了通过拼接方法来保留图像时间连续性的新方法。使用8位话者对元音/a/,/o/,/e/,/i/,/u/的彩色图像数据来证明该网络模型用于唇读识别的可行性以及拼接方法对于保留时间连续性的有效性。
得到的分类结果如图7所示,对五个元音的识别率达到了99.17%,其中对音节/a/,/e/的识别率均达到了100%。此结果说明,通过图像拼接可以保留一部分时间信息,此外,本发明所利用的DenseNet网络结构对基于视觉信息的图像识别具有良好的效果。识别效果最差的为音节/u/,识别率为97.02%,且所有未被正确识别的/u/均被识别为/o/,同样所有被错误识别的/o/也识别为了/u/。由此可以发现,从视觉特征来看,音节/u/和/o/有极大的相似性。
另外,采用DenseNet对每个深度特征进行单独实验,以发现不同深度特征对不同元音唇动过程的代表程度,同时验证本发明所提取的生理特征是否合理。本实验数据基于8位话者的5个元音数据,所得的实验结果如图7所示。
由图8可见,相比于只用彩色图像,形状特征、肌肉长度特征和肌肉位移特征将最终的识别率分别提高了0.47%、0.35%和0.235%。说明深度信息的加入带来了额外的空间约束信息,从而提高了DenseNet最终的识别率。对于肌肉长度特征,虽然该特征的识别率相比于形状特征低了。但是肌肉长度特征的加入使得对/u/音节的识别率达到了99.40%,相比于形状特征提高了。对于肌肉位移特征,虽然其平均结果没有形状特征好,但是同样对/u/音节的识别率,仍比形状特征高。此结果说明本发明所提取的生理特征,对于彩色图像较难分辨的/u/和/o/有较好效果。
在图2中,利用Dlib官方训练好的模型“shape_predictor_68_landmarks.dat”对话者面部进行68个点的标定结果如图(a)所示,(b)图为经过伽马校正的亮度变化图,γ从上到下依次为0.6、1.0和1.3。
在图3中,对1347个特征点重新进行了标号,并确定了唇部区域所包含的160个特征点。(a)图为1347个面部特征点,(b)图为160个唇部特征点。
图4所示,图中(a),(b),(c)分别代表了话者说话过程中扭头,歪头以及仰头的情况,经过以上三个步骤后得到(d),可以保证三维模型正脸面对摄像机。
图5所示,结合本发明研究的六条肌肉的位置信息,通过特征点匹配方法将每条肌肉的起点和终点映射到三维人脸模型中。
在图6中,四个角度所涉及到的顶点包括下唇外侧轮廓中点、上唇外侧轮廓中点、下唇内侧轮廓中点、上唇内侧轮廓中点、外侧轮廓嘴角点、以及内侧轮廓线嘴角。
在图7中,对五个元音的识别率均在95%以上,说明本发明所使用的DenseNet网络结构对基于视觉信息的图像识别具有良好的效果。
由图8可见,相比于只用彩色图像,形状特征、肌肉长度特征和肌肉位移特征对最终的识别率均有所提高,说明深度信息的使用提高了DenseNet最终的识别率。
图9为通过对向量肌特性和受力的了解,抽象的线性肌肉模型图。从图中可以看到,向量肌的作用范围是以向量为中轴线的扇形区域。其中V1端为固定端,其位置几乎保持不变,V2端与皮肤组织两连,为可移动端。Ω表示该肌肉的最大影响角度,R代表肌肉的最大影响半径。对于肌肉作用于范围内的一点P,其受力情况有一定的生理规律,表现为由中轴线向两侧衰减,以及从V1到V2受力作用先增大后衰减。
图10为根据160个特征点构成的三维唇区模型。本发明提取的6个形状特征包括上唇内外侧轮廓高度、下唇内外侧轮廓高度和唇部内外轮廓的半宽度。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于面部生理信息的多模态唇读方法,其特征在于,所述方法包括以下步骤:
基于Kinect采集彩色图像和3D深度信息,并对彩色图像和3D深度信息进行预处理;
建立面部肌肉模型,结合六条肌肉的位置信息,通过特征点匹配将每条肌肉的起点和终点映射到标准三维人脸模型中;
基于深度信息提取唇部的形状特征、角度特征;根据面部肌肉模型提取表征肌肉伸缩变化的肌肉长度特征,以及表征肌肉间的相互协作对特征点位移影响的肌肉生理特征;
基于DenseNets的多模态语音识别对上述特征进行识别,对DenseNet的全连接层进行改进,融合彩色图像与深度信息,对特征进行分类。
2.根据权利要求1所述的一种基于面部生理信息的多模态唇读方法,其特征在于,所述对彩色图像和3D深度信息进行预处理具体为:
对齐处理,根据对齐结果对彩色图像和3D深度信息进行分割;
对彩色图像进行面部检测、唇区定位以及数据扩张处理;对3D深度信息通过坐标变换纠正话者录制过程中头部的角度、距离偏移。
3.根据权利要求1所述的一种基于面部生理信息的多模态唇读方法,其特征在于,所述形状特征具体为:
Fshape2=[Fshape2-1 T,…,Fshape2-k T,…,Fshape2-N T]T
其中,h1,h2,h3,h4分别表示二维几何特征上唇内外侧轮廓高度和下唇内外侧轮廓高度;w1和w2表征唇部内外轮廓的半宽度。
4.根据权利要求2所述的一种基于面部生理信息的多模态唇读方法,其特征在于,所述肌肉长度特征具体为:
Flength=[Flength-1,…,Flength-k,…,Flegnth-N]T
其中,
5.根据权利要求1所述的一种基于面部生理信息的多模态唇读方法,其特征在于,所述方法还包括:
从每个音节的图像序列中挑选若干张连续图片代表该音节的唇动过程,按照从左到右、从上到下的空间顺序,进行拼接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910284544.8A CN110110603A (zh) | 2019-04-10 | 2019-04-10 | 一种基于面部生理信息的多模态唇读方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910284544.8A CN110110603A (zh) | 2019-04-10 | 2019-04-10 | 一种基于面部生理信息的多模态唇读方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110110603A true CN110110603A (zh) | 2019-08-09 |
Family
ID=67483749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910284544.8A Pending CN110110603A (zh) | 2019-04-10 | 2019-04-10 | 一种基于面部生理信息的多模态唇读方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110603A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738126A (zh) * | 2019-09-19 | 2020-01-31 | 平安科技(深圳)有限公司 | 基于坐标变换的嘴唇剪切方法、装置、设备及存储介质 |
CN110865705A (zh) * | 2019-10-24 | 2020-03-06 | 中国人民解放军军事科学院国防科技创新研究院 | 多模态融合的通讯方法、装置、头戴设备及存储介质 |
CN111554279A (zh) * | 2020-04-27 | 2020-08-18 | 天津大学 | 一种基于Kinect的多模态人机交互系统 |
CN112597823A (zh) * | 2020-12-07 | 2021-04-02 | 深延科技(北京)有限公司 | 注意力识别方法、装置、电子设备及存储介质 |
CN113239902A (zh) * | 2021-07-08 | 2021-08-10 | 中国人民解放军国防科技大学 | 一种基于双判别器生成对抗网络的唇语识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
CN103218841A (zh) * | 2013-04-26 | 2013-07-24 | 中国科学技术大学 | 结合生理模型和数据驱动模型的三维发音器官动画方法 |
CN107025439A (zh) * | 2017-03-22 | 2017-08-08 | 天津大学 | 基于深度数据的唇部区域特征提取和规范化方法 |
WO2018113650A1 (zh) * | 2016-12-21 | 2018-06-28 | 深圳市掌网科技股份有限公司 | 一种虚拟现实语言交互系统与方法 |
CN108710836A (zh) * | 2018-05-04 | 2018-10-26 | 南京邮电大学 | 一种基于级联特征提取的唇部检测及读取方法 |
-
2019
- 2019-04-10 CN CN201910284544.8A patent/CN110110603A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
CN103218841A (zh) * | 2013-04-26 | 2013-07-24 | 中国科学技术大学 | 结合生理模型和数据驱动模型的三维发音器官动画方法 |
WO2018113650A1 (zh) * | 2016-12-21 | 2018-06-28 | 深圳市掌网科技股份有限公司 | 一种虚拟现实语言交互系统与方法 |
CN107025439A (zh) * | 2017-03-22 | 2017-08-08 | 天津大学 | 基于深度数据的唇部区域特征提取和规范化方法 |
CN108710836A (zh) * | 2018-05-04 | 2018-10-26 | 南京邮电大学 | 一种基于级联特征提取的唇部检测及读取方法 |
Non-Patent Citations (2)
Title |
---|
JIANGUO WEI ET AL: "Three-dimensional Joint Geometric-Physiologic Feature for Lip-Reading", 《2018 IEEE 30TH INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE (ICTAI)》 * |
岳帅: "基于Kinect三维视觉的实时唇读技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738126A (zh) * | 2019-09-19 | 2020-01-31 | 平安科技(深圳)有限公司 | 基于坐标变换的嘴唇剪切方法、装置、设备及存储介质 |
CN110865705A (zh) * | 2019-10-24 | 2020-03-06 | 中国人民解放军军事科学院国防科技创新研究院 | 多模态融合的通讯方法、装置、头戴设备及存储介质 |
CN110865705B (zh) * | 2019-10-24 | 2023-09-19 | 中国人民解放军军事科学院国防科技创新研究院 | 多模态融合的通讯方法、装置、头戴设备及存储介质 |
CN111554279A (zh) * | 2020-04-27 | 2020-08-18 | 天津大学 | 一种基于Kinect的多模态人机交互系统 |
CN112597823A (zh) * | 2020-12-07 | 2021-04-02 | 深延科技(北京)有限公司 | 注意力识别方法、装置、电子设备及存储介质 |
CN113239902A (zh) * | 2021-07-08 | 2021-08-10 | 中国人民解放军国防科技大学 | 一种基于双判别器生成对抗网络的唇语识别方法及装置 |
CN113239902B (zh) * | 2021-07-08 | 2021-09-28 | 中国人民解放军国防科技大学 | 一种基于双判别器生成对抗网络的唇语识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110603A (zh) | 一种基于面部生理信息的多模态唇读方法 | |
Sahoo et al. | Sign language recognition: State of the art | |
EP0991011B1 (en) | Method and device for segmenting hand gestures | |
Luettin et al. | Speechreading using probabilistic models | |
US6504546B1 (en) | Method of modeling objects to synthesize three-dimensional, photo-realistic animations | |
CN109376582A (zh) | 一种基于生成对抗网络的交互式人脸卡通方法 | |
CN107180234A (zh) | 基于人脸表情识别和人脸特征提取的信用风险预测方法 | |
CN108182397B (zh) | 一种多姿态多尺度的人脸验证方法 | |
CN105787974A (zh) | 仿生人脸衰老模型建立方法 | |
CN108363973A (zh) | 一种无约束的3d表情迁移方法 | |
CN109377429A (zh) | 一种人脸识别素质教育智慧评价系统 | |
Graf et al. | Face analysis for the synthesis of photo-realistic talking heads | |
Hammal et al. | Parametric models for facial features segmentation | |
CN103714331A (zh) | 一种基于点分布模型面部表情特征的提取方法 | |
CN110598719A (zh) | 一种依据视觉属性描述自动生成人脸图像的方法 | |
Luo et al. | Facial metamorphosis using geometrical methods for biometric applications | |
Liu et al. | 4D facial analysis: A survey of datasets, algorithms and applications | |
Matuszewski et al. | High-resolution comprehensive 3-D dynamic database for facial articulation analysis | |
Gao et al. | Learning and synthesizing MPEG-4 compatible 3-D face animation from video sequence | |
KR20020014844A (ko) | 3차원 얼굴 모델링 방법 | |
CN111080754B (zh) | 一种头部肢体特征点连线的人物动画制作方法及装置 | |
CN117333604A (zh) | 一种基于语义感知神经辐射场的人物面部重演方法 | |
Reveret et al. | Visual coding and tracking of speech related facial motion | |
Zheng et al. | Review of lip-reading recognition | |
CN110147764A (zh) | 一种基于机器学习的静态手势识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190809 |