CN101101752B

CN101101752B - 基于视觉特征的单音节语言唇读识别系统

Info

Publication number: CN101101752B
Application number: CN2007100527950A
Authority: CN
Inventors: 王天江; 刘芳; 周慧华; 龚立宇; 陈刚
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2007-07-19
Filing date: 2007-07-19
Publication date: 2010-12-01
Anticipated expiration: 2027-07-19
Also published as: CN101101752A

Abstract

基于视觉特征的单音节语言唇读识别系统，属于计算机智能识别技术，根据视频中人物说话时的唇动变化，识别说话内容，目的在于仅利用视频信息，解决如汉语等单音节语言的唇读识别问题。本发明包括视频解码模块、唇部定位模块、唇动分割模块、特征提取模块、语料库、模型建立模块和唇语识别模块；本发明所采用的语料库内容丰富，易于扩充，本发明只需处理视频图像，不需要音频数据进行辅助识别，能够对avi、wmv、rmvb、mpg等视频文件进行处理，满足无声条件下说话内容识别的要求。本发明的唇动分割部分以单音节为识别目标进行机器智能分割，与定长时间分割和手工分割相比，实用性更强，识别准确率得到极大提高。

Description

基于视觉特征的单音节语言唇读识别系统

技术领域

本发明属于计算机智能识别技术，具体涉及一种面向单音节语言的、基于视觉特征的唇读识别系统，根据视频中人物说话时的唇动变化，识别说话内容。

背景技术

计算机从1946年诞生发展至今，经历了键盘操作方式、鼠标操作方式，进入了自然人机交互方式阶段。在这种背景下，近年来语音识别技术得到了快速的发展，通过语音进行人机交互，无疑是交互方式中最有效、快捷的途径。“噪音环境下的语音识别：综述”(Y.Cong.Speech recognition in noisy environments：a survey[J].Speech Communication，1995，16：261-291)一文分析了由IBM提出的ViaVoice语音识别系统，指出这些在实验室里表现优秀的系统，在实际噪声环境或多话者条件下，其识别率都大大下降。

唇动是语音的视觉补充，它可以帮助语音提高识别率。唇读就是在这样的背景下提出来的。唇读的现象是普遍存在的，主要是听力残障者从正常人说话中获取信息的一种技巧。他们凭借自身已有的语言知识、谈话内容和背景知识等众多相关因素，再根据观察到说话人的口型变化情况，映像成说话内容。事实上正常人也在使用这种手段，只是数量上和意识上有所差别。由计算机来实现和完成这项技巧，对人机交流技术有着深远的影响。

解决唇读问题需要经过唇的检测定位、特征提取、识别理解的过程。

许多唇读识别系统直接采集的是唇部灰度图像，采用手动的办法框出唇的区域或将摄像头固定在头盔上与人脸形成相对固定的位置，不允许人脸自由移动，见“增强语音识别的自动唇读”(E.D.Petajan，“Automatic Lipreading to Enhance Speech Recognition”，PhD thesis，Univ.of Illionis，Urbana-Champaign，1984)；或将唇涂上深色的口红或者贴反光片，且在特定的光照条件下摄取，见“使用概率模型的唇读”(Luettin J，Thacker N A.Speechreading Using Probabilistic Models.Computer Vision and Image Understanding.1997，165(2)：163-178)。而唇读的目标是在无任何交互和限制条件下，能够自动地将不同光照、不同皮肤颜色、不同话者准确定位、跟踪、识别和理解。

目前已有的唇读研究多是利用音视频信息相结合而进行的，比如IBM公司提供的视听觉测试库ViaVoiceTM，见“大词汇量的人机音视频语音识别”(Gerasimos Potamianos，Chalapathy Neti，Giridharan Iyengar，Eric Helmuth，Large-Vocabulary Audio-Visual Speech Recognition by Machines and Humans IBM Thomas J.Watson Research Center Aalborg，Denmark September 2001：3-7)；Intel研究机构于2003年初构建的视听觉实时识别系统AVCSR，见“不依赖于说话人的音视频连续语音识别”(Luhong Liang，Xiaoxing Liu，Yibao Zhao，Xiaobo Pi，and Ara V.Nefian SPEAKER INDEPENDENT AUDIO-VISUAL CONTINUOUS SPEECH RECOGNITION EURASIP Journal on Applied Signal Processing，Special issue on Audio-Visual Speech Processing，2002)，但是在嘈杂的环境、禁止发声的环境或者远距离的情况下，声音信息难以准确获取。

识别系统采集自然语速的句子，不能直接用于识别，需要从句子中将单音节发音切割开来，即唇动分割。有的唇动系统使用的分割技术基于严格的等时间间隔，如徐彦君，杜利民.“汉语听觉视觉双模态数据库”CAVSR1.0声学学报，2000；25(1)：42-49，这对于自然状况下的人的讲话内容的识别是不适用的；有的依赖视频数据使用语音能量进行分割，如单卫，姚鸿勋，高文.唇读中序列口型的分类，中文信息学报.2002，16(1)：31-36，这种方法无法用于无声的环境。

现有的唇读识别系统中，语料库的规模小而简单，如Movellan建立的语料库Tulips集合为{one，two，three，four}，见“使用随机网络的视觉语音识别”(J.R.Movellan.Visual speech recognition with stochastic networks.In G.Tesauro，D.Touretzky，and T.Leen，editors，Advances in Neural Information Processing Systems，volume 7.MIT press，Cambridge，1995)；Pigoen和Vandendorpe建立的语料库M2VTS集合为法语数字0到9，见“多模态人脸数据库M2VTS”(S.Pigeon and L.Vandendorpe.The M2VTS multimodal face database.In Proceedings of the First International Conference on Audio-and Video-Based Biometric Person Authentication，Lecture Notes in Computer Science.Springer Verlag，1997)；Mattehews和Cox所建立的语料库Avletters的集合为{A...Z}，见I.A.Matthews，J.A.Bangham and S.J.Cox，Scale Based Features for Audiovisual Speech Recognition。这些库适合研究阶段的实验，离真实的应用背景和唇读实用目标太遥远。中科院声学所的徐彦君建立了汉语听觉视觉双模态数据库CAVSR，哈尔滨工业大学建立了音视频语料库HIT Bi-CAVDatabase，这些库是包括了音频和视频两部分信息的，不适用于仅使用视频信息的环境。

发明内容

本发明提供一种基于视觉特征的单音节语言唇读识别系统，目的在于仅利用视频信息，解决如汉语等单音节语言的唇读识别问题。

本发明的一种基于视觉特征的单音节语言唇读识别系统，包括视频解码模块、唇部定位模块、唇动分割模块、特征提取模块、语料库、模型建立模块和唇语识别模块；

(A)视频解码模块将输入的面部视频信号转换成帧图像序列，送入唇部定位单元；

(B)唇部定位模块从帧图像序列中发现并定位人脸，并进一步检测、确定唇部区域，从原图像中分离出唇部图像，提交一个只包含唇部动作变化的唇动视频序列给唇动分割模块；

(C)唇动分割模块将唇动视频序列以单音节为单位分割成若干单音节唇动图像序列，一个单音节唇动图像序列由若干连续的帧组成，提交给特征提取模块；

(D)特征提取模块针对单音节唇动图像序列中每帧图像，提取并描述唇部发音时低级视觉特征和高级视觉特征，低级视觉特征包含直接基于该帧图像像素或经变换后的特征；高级视觉特征包含唇部轮廓参数，唇部轮廓参数根据该帧图像的唇部区域及该帧图像的低级视觉特征计算，将低级视觉特征和高级视觉特征融合，形成该帧图像的唇动特征向量；单音节唇动图像序列中每帧图像处理后，将各帧图像的唇动特征向量组成的单音节唇动特征向量提交给唇语识别模块或者语料库；

(E)语料库存储汉语中各个单音节发音时的单音节唇动图像序列样本、单音节唇动图像序列样本的特征向量、单音节唇动图像序列样本与单音节标识符之间的对应关系，以及单音节标识符与拼音文字之间的对应关系；

(F)模型建立模块从语料库中获取单音节唇动图像序列样本的特征向量作为训练对象，通过学习算法建立识别模型，将模型参数以文件方式保存于本模块，并在需要时传递给唇语识别模块；

(G)唇语识别模块对单音节唇动图像序列进行识别，从特征提取模块获取单音节唇动特征向量，结合从模型建立模块获取的模型参数，对单音节唇动特征向量进行分类，再从语料库中索引得到单音节的拼音文字，最后将单音节的拼音文字进行组合输出给最终用户。

所述的单音节语言唇读识别系统，其特征在于：所述唇部定位模块包括人脸检测单元、唇色增强单元和唇部区域确定单元；

人脸检测单元从所述视频解码模块中获取帧图像，确定每一帧图像中的人脸区域，并分割出人脸图像，将其提交给唇色增强单元；

唇色增强单元对人脸图像下1/3区域进行图像增强，将增强后的下1/3区域脸部图像提交给唇部区域确定单元；

唇部区域确定单元对增强的下1/3区域人脸图像进行处理，确定唇部位置，计算左右唇角、上唇顶点和下唇底点的坐标，并根据这些坐标提取嘴唇区域图像，结合时间序列形成唇动视频序列提交给所述唇动分割模块。

所述的单音节语言唇读识别系统，其特征在于：所述唇动分割模块包括唇动描述单元、唇速描述单元、阈值判断单元；

唇动描述单元从唇部定位模块获取唇动视频序列，计算其中每一帧的唇动瞬时位置速度场，并将其提交给唇速描述单元；

唇速描述单元从每一帧的唇动瞬时位置速度场计算表示唇部运动速度规律的唇速点，并将各帧的唇速点进行曲线拟合，得到唇速曲线，将其提交给阈值判断单元；

阈值判断单元根据曲线极小值点和阈值对唇速曲线进行音节分割，将唇动视频序列分割为单音节唇动图像序列，所述阈值为唇速曲线所有相邻极小值点间对应帧数的平均值。

所述的单音节语言唇读识别系统，其特征在于：所述特征提取模块包括低级特征提取单元、高级特征提取单元、特征描述单元，

低级特征提取单元从唇动分割模块或者语料库获取单音节唇动图像序列，对其中的每一帧图像中唇部区域进行DCT变换取得DCT系数，再对DCT系数做主成分分析，用K-L变换进行二次降维，得到维数少的低级视觉特征，提交给高级特征提取单元和特征描述单元；

高级特征提取单元计算单音节唇动图像序列中每一帧的高级视觉特征，高级视觉特征包含唇部轮廓参数：内唇宽度ω₁、外唇宽度ω₀、上外唇高度h₁、上内唇高度h₂、下内唇高度h₃、下外唇高度h₄、唇偏转角度θ、嘴唇中心点坐标(X_c，Y_c)、上外唇四次曲线离坐标原点的偏移量a_off、四次曲线偏离抛物线的距离q₀、下外唇辅助参数q₁、内唇面积、外唇面积、内唇灰度均值；高级特征计算所需的数据一部分来自唇动分割模块或者语料库中的单音节唇动图像序列，另一部分来自低级视觉特征；本单元将计算得到的高级特征提交给特征描述单元；

特征描述单元将低级视觉特征和高级视觉特征融合，形成该帧图像的唇动特征向量；单音节唇动图像序列中每帧图像处理后，将各帧图像的唇动特征向量组成单音节唇动特征向量，如果所处理的单音节唇动图像序列来自唇动分割模块，则本单元将单音节唇动特征向量提交给唇语识别模块；如果所处理的单音节唇动图像序列来自语料库，则本单元将单音节唇动特征向量反馈给语料库。

所述的单音节语言唇读识别系统，其特征在于：所述模型建立模块包括初值设定单元和参数学习单元，

初值设定单元，从语料库读取单音节唇动图像序列样本的特征向量，作为模型的观测向量；同时设定状态转移概率矩阵a_ij、混合比系数C_jm、协方差矩阵∑_m和均值向量μ_m四个模型参数的初值，并将所述四个模型参数初值和观测向量提供给参数学习单元；

参数学习单元对四个模型参数初值和观测向量进行学习，确定四个模型参数，并将这四个模型参数以文件形式存储，以便唇语识别模块读取，所述学习方法为隐马尔可夫模型方法。

所述的单音节语言唇读识别系统，其特征在于：所述唇语识别模块包括参数读取单元、匹配单元和文字组合输出单元；

参数读取单元从模型建立模块读取给定的模型参数文件，并将来自特征提取模块的待测单音节唇动特征向量序列和模型参数提交给匹配单元；

匹配单元根据模型参数，对待测单音节唇动特征向量序列中的每个向量进行识别，将识别结果形成一个单音节标识符序列，提交给文字组合输出单元；

文字组合输出单元根据语料库中单音节标识符与拼音文字之间的对应关系，将单音节标识符序列转换、组合，形成一段拼音文字，输出给用户。

本发明将说话者一段连续的唇动序列自动分割成一系列单音节唇动序列，每个单音节唇动序列代表一个单音节的发音动作，这样，系统的识别模型可以针对单音节唇动序列进行内容识别，与定长分割和手工分割相比，实用性更强，识别准确率也得到了提高。

本发明具有完备的语料库，语料库采集的素材是汉语普通话，汉语是单音节语言，采用的单音节唇动序列样本涵盖所有声韵母，单音节唇动序列样本分布符合汉语声韵母的实际分布概率，包含的内容丰富，样本多样化，收集了同一个音不同的唇动视频，可以利用学习算法找到发同一个音时存在的普遍唇动特征，其反映的规律具有代表性，为本发明正确识别未知样本的唇动内容提供了可靠保障。语料库的规模具有很强的可扩展性，可以随着研究的深入方便地扩大规模，也可以方便地更换为其它单音节语言的素材。

本发明采用含有简单背景的人脸图像作为输入，在自然光照条件下，被采集者以自然语速(新闻播音语速)朗读每个单音节发音。对素材的采集不进行人为的限制，不需要人工参与，能够满足自然交互的需要。本发明能够根据视频中人物说话时的唇部动作识别说话内容，只需处理视频图像，不需要音频数据进行辅助识别，能够对avi、wmv、rmvb、mpg等视频文件进行处理，满足无声条件下说话内容识别的要求。

附图说明

图1是本发明的结构示意图；

图2是本发明的唇部定位模块结构示意图；

图3是本发明的唇部定位模块工作流程图；

图4是本发明的唇动分割模块结构示意图；

图5是本发明的特征提取模块结构示意图；

图6是本发明的模型建立模块结构示意图；

图7是本发明的模型建立模块工作流程图；

图8是本发明的唇语识别模块结构示意图；

图9是本发明的唇语识别模块工作流程图；

图10是本发明的语料库结构。

具体实施方式

如图1所示，本发明包括视频解码模块10、唇部定位模块20、唇动分割模块30、特征提取模块40、语料库50、模型建立模块60和唇语识别模块70。

视频解码模块10接受用户给定的视频文件或设备，将其解码，获取可用于本发明处理的图像帧序列。

唇部定位模块20用于分析视频中的图像帧，它从视频解码模块10中发现并定位说话人的唇部位置，这些位置信息需要提供给唇动分割模块30和特征提取模块40。唇部定位模块20首先得到一个唇部位置向量，它包含4个分量，每个分量是二维空间的坐标值，分别代表左唇角、右唇角、上唇顶点和下唇底点。然后根据该向量从原图像中分割出唇部图像，结合视频的时间序列，形成唇动序列，提交给唇动分割模块30。

唇动分割模块30负责将唇动序列分割成单音节子序列。该模块接收唇部定位模块20提供的唇动序列，然后将此序列分割，得到一个有序集合，集合中的每个元素是单音节唇动序列，也是原唇动序列的子序列，它是说话者发出一个单音节时唇部的动作。这个子序列集合要提供给特征提取模块40。

特征提取模块40负责从单音节唇动序列中提取特征。该模块接收来自唇动分割模块30提供的单音节唇动序列，获取单音节唇动特征向量，并将该特征向量提供给唇语识别模块70。

语料库50用于存储预先搜集的训练数据，主要为单音节的拼音文字、该单音的发音视频文件和唇动特征向量，本发明构建时，唇动特征向量为空，在系统初始化时，需调用特征提取模块40从语料库的发音视频文件中获取每个单音节的唇动特征向量，并存储进唇动特征向量字段；本发明中，语料库50是模型建立模块60的学习对象，语料库50作为训练集，为本发明的模型建立提供依据；同时语料库50为唇语识别模块70提供单音节标识符与拼音之间的对应关系。

模型建立模块60从语料库50提供的数据中学习，确定识别模型的参数，这些参数以文件形式存储，供唇语识别模块70读取。

唇语识别模块70首先从模型建立模块60给定的参数文件中获取参数，以此为基础对特征提取模块40提供的一系列特征向量进行识别，得到识别后的单音节标识符，并根据语料库中单音节标识符与拼音之间的对应关系，向用户输出一段拼音文字。

整个系统流程包括：

(1)系统初始化：

系统初始化针对的对象是管理员用户，管理员用户的主要任务是通过系统提供的接口建立完整的语料库，具体过程如下：

(1.1)确定要识别的单音节语言，直接打开语料库50进行编辑，需要编辑的内容包括：添加该语言所有的单音节(拼音文字方式)以及每个单音节对应的发音视频片断；

(1.2)管理员需要调用特征提取模块40，以语料库中的视频片断为处理对象，为每个音节提取唇动特征向量，并存储在语料库50中；

(1.3)管理员以语料库50中的单音节(拼音文字)和音节唇动特征向量为学习对象，通过模型建立模块60确定参数，这些参数被模型建立模块60以文件形式存放，提供给唇语识别模块70；

(2)唇语识别：

唇语识别流程针对的对象是所有使用该系统的用户，用户通过指定文件或设备给视频解码模块10，提供给本发明要识别的视频数据，然后通过唇语识别模块识别说话者的说话内容，该内容以拼音文字体现；

(2.1)视频解码模块10获取数据，将输入转换为可处理的帧图像形式，提供给唇部定位模块20；

(2.2)唇部定位模块20用于给出由视频解码模块10提供的帧图像序列中说话人唇部的位置信息，进而形成唇部运动序列，提供给唇动分割模块30和特征提取模块40；

(2.3)唇动分割模块30对唇部定位模块20给出的唇动序列进行处理，得到一个单音节唇动序列的集合，该集合提交给特征提取模块40；

(2.4)特征提取模块40对唇动分割模块30给出的单音节唇动序列集合进行处理，逐个对集合中的单音节唇动序列进行特征提取，得到一个单音节的唇动特征向量集合，该集合提交给唇语识别模块70；

(2.5)唇语识别模块70首先读取由模型建立模块60存放的参数文件，获取模型参数，再逐个处理特征提取模块40给出的单音节唇动特征向量集合，根据集合中的唇动特征向量进行识别，得到一段展示视频中说话者内容的单音节标识符序列，然后根据语料库中单音节标识符与拼音之间的对应关系，将之转换、组合，形成一段拼音文字，作为系统输出提交给用户。

本发明视频解码模块10采用商用解码软件Adobe Premiere 2.0实现，本发明定义了视频解码模块的接口，其中输入包括：多种格式的视频文件、设备；输出为以图像帧按时间顺序排列而成的视频数据。该模块可以对常见格式的视频文件进行解码，如avi、wmv、rmvb等。本发明对于输入视频的要求为：包含且仅包含说话人正面视频片断。

唇部定位模块20可以采用如图2所示的功能模块予以具体实现，它包括人脸检测单元21、唇色增强单元22、唇部区域确定单元23。模块间的数据流向以及处理流程见图3所示：

人脸检测单元21首先从视频中获取第1帧，针对该帧图像，以肤色为基准，搜索图像中可能的人脸区域，再针对每个候选区域，以眼睛特征为基准，判定该候选区域是否为正面人脸，如果是，则从帧图像中获取该区域，得到人脸图像；对于视频中的后继帧图像(如第n帧，n大于1)，以人脸图像在第n-1帧图像中的位置为基准，在附件搜索，确定第n帧图像中的人脸区域。该模块将视频中所有帧中的人脸图像提交给唇色增强单元22。

唇色增强单元22将获取的人脸图像(由人脸检测单元21提供)进行分析，首先获取脸部中垂线，然后根据中垂线获取脸部图像下方1/3区域，对这一区域进行图像增强，增大图像对比度，以扩大唇色和肤色的颜色差别，完成唇色增强。该模块将唇色增强后的脸部图像下方1/3区域提交给唇部区域确定单元23。

唇部区域确定单元23将唇色增强单元22提供的唇色增强图像进行处理，进行水平、垂直方向的投影，得到像素投影曲线，根据该曲线特征确定唇部位置，由唇部的4个点进行位置描述。该模块根据唇部位置信息将唇部图像分割，形成唇动序列提交给唇动分割模块30。

唇动分割模块30可以采用如图4所示的功能模块予以具体实现，它包括唇动描述单元31、唇速描述单元32、阈值判断单元33。以下是模块间的数据流向以及处理流程的具体描述：

唇动描述单元31从唇部定位模块20获取唇动序列，并从中提取一系列描述唇部运动的唇动瞬时位置速度场，每一帧唇部图像用一组速度场表示，该模块计算所有帧的速度场，并将之提交给唇速描述单元32。

唇速描述单元32从唇动描述单元31获取唇动序列每一帧的唇动瞬时位置速度场，结合时间顺序，计算唇部的运动速度，用曲线表示唇部运动规律。该模块提交曲线给阈值判断单元33。

阈值判断单元33接受来自唇速描述单元32提交的唇速曲线，分析该曲线，找到曲线的极小值点，将相邻两极小值点间对应帧数与阈值比较(这里阈值是唇速曲线所有相邻极小值点间对应帧数的平均值)，大于该阈值的即为音节分割点，根据这些分割点，将唇动序列分割为单音节唇动序列。该模块将单音节唇动序列提交给特征提取模块40。

特征提取模块40可以采用如图5所示的功能模块予以具体实现，它包括低级特征提取单元41、高级特征提取单元42、特征描述单元43。以下是模块间的数据流向以及处理流程的具体描述：

低级特征提取单元41从唇动分割模块30或者语料库50获取单音节唇动图像序列，对序列中的每一帧图像的唇部区域提取低级特征。本模块提取出的特征提交给高级特征提取单元42和特征描述单元43。

高级特征提取单元42计算单音节唇动图像序列中每一帧的高级视觉特征，主要为唇部轮廓参数，这些特征的计算所需数据来自两个部分，其中一部分是从唇动分割模块30或者语料库50获取的单音节唇动序列，另一部分从低级特征单元41中获取需要的低级特征量；本模块将从这两部分进行计算获取的高级特征量提交给特征描述单元43。

特征描述单元43从低级特征提取单元41和高级特征提取单元42获取特征量，将两者融合成一个多维特征向量，即单音节唇动特征向量。如果特征提取模块40处理的单音节唇动序列来自唇动分割模块30，则本模块将单音节唇动特征向量提交给唇语识别模块70；如果特征提取模块40处理的单音节唇动序列来自语料库50，则本模块将单音节唇动特征向量反馈回语料库50。

语料库50由一个表格及视频文件集构成，表格结构如图10所示，它包含5个字段，分别是单音节标识符、拼音、唇动视频、特征描述、备注信息。单音节标识符用于标识不同音节，拼音为单音节的文字表述，唇动视频为单音节发音的唇动视频，特征描述为单音节唇动的特征向量，备注信息为预留字段，可以为空。

模型建立模块60为语料库中的每个音节建立模型，本发明采用隐马尔可夫模型，因此模型建立也就是求得该音节模型的状态转移概率矩阵a_ij、混合比系数C_jm、协方差矩阵∑_m、均值向量μ_m四个模型参数。以下描述的是一个音节建模的过程，具体如图6所示的功能模块予以实现，包括初值设定单元61、参数学习单元62。模块间的数据流向以及处理流程见图7所示：

初值设定单元61，包含两个功能，一个用于设定模型参数的初始值，分别是状态转移概率矩阵a_ij、混合比系数C_jm、协方差矩阵∑_m、均值向量μ_m。另一个功能是将语料库50中的单音节唇动特征向量读入系统，得到模型的观测向量。本模块将设定的初值以及观测向量提供给参数学习单元62。

参数学习单元62接收来自初值设定单元61的四个模型参数初值和观测向量，经过本模块的迭代算法进行参数训练，该算法的每一轮迭代，首先进行参数修正，然后将修正的四个模型参数进行收敛性判断，如果不符合收敛性条件，则继续迭代；如果符合收敛性条件，则模型参数得以确定，将这四个模型参数以文件形式存储，以便唇语识别模块70读取。

唇语识别模块70采用如图8所示的功能模块予以实现，包括参数读取单元71、匹配单元72、文字组合输出单元73。模块间的数据流向以及处理流程见图9所示：

参数读取单元71首先接收来自特征提取模块的待测试的单音节特征向量序列，接着从模型建立模块60给定的模型参数文件中读取每个音节的模型参数，分别是λ₁，...λ_n(系统有n个音节)。本模块将待测试单音节特征向量序列和{λ₁，...λ_n}提交给匹配单元72。

匹配单元72获取了来自参数读取单元71给出的待测试单音节特征向量序列和{λ₁，...λ_n}，针对单音节特征向量序列中的每个向量(即单音节特征向量)进行识别，其过程是利用识别算法将该向量序列分别与单音节模型λ₁，...λ_n进行匹配，该匹配过程通过计算最大似然概率，找到与待测试单音节特征向量序列最匹配的模型λ_i，获得对应的单音节标识符。重复以上过程，识别待测向量序列对应的音节，形成一个单音节标识符序列，提交给文字组合输出单元73。

文字组合输出单元73接收来自匹配单元72的音节类别序列，根据语料库中单音节标识符与拼音之间的对应关系，将之转换组合，形成一段拼音文字，并输出给用户。

Claims

1.一种基于视觉特征的单音节语言唇读识别系统，包括视频解码模块、唇部定位模块、唇动分割模块、特征提取模块、语料库、模型建立模块和唇语识别模块；

(B)唇部定位模块从帧图像序列中发现并定位人脸，并进一步检测、确定唇部区域，从原图像中分离出唇部图像，提交一个只包含唇部动作变化的唇动视频序列给唇动分割模块；所述唇部定位模块(20)包括人脸检测单元(21)、唇色增强单元(22)和唇部区域确定单元(23)；

人脸检测单元(21)从所述视频解码模块(10)中获取帧图像，确定每一帧图像中的人脸区域，并分割出人脸图像，将其提交给唇色增强单元(22)；

唇色增强单元(22)对人脸图像下1/3区域进行图像增强，将增强后的下1/3区域脸部图像提交给唇部区域确定单元(23)；

唇部区域确定单元(23)对增强的下1/3区域人脸图像进行处理，确定唇部位置，计算左右唇角、上唇顶点和下唇底点的坐标，并根据这些坐标提取嘴唇区域图像，结合时间序列形成唇动视频序列提交给所述唇动分割模块；

(D)特征提取模块针对单音节唇动图像序列中每帧图像，提取并描述唇部发音时低级视觉特征和高级视觉特征，低级视觉特征包含直接基于该帧图像像素或经变换后的特征；高级视觉特征包含唇部轮廓参数，唇部轮廓参数根据该帧图像的唇部区域及该帧图像的低级视觉特征计算，将低级视觉特征和高级视觉特征融合，形成该帧图像的唇动特征向量；单音节唇动图像序列中每帧图像处理后，将各帧图像的唇动特征向量组成的单音节唇动特征向量提交给唇语识别模块或者语料库；所述特征提取模块(40)包括低级特征提取单元(41)、高级特征提取单元(42)、特征描述单元(43)，

低级特征提取单元(41)从唇动分割模块(30)或者语料库(50)获取单音节唇动图像序列，对其中的每一帧图像中唇部区域进行DCT变换取得DCT系数，再对DCT系数做主成分分析，用K-L变换进行二次降维，得到维数少的低级视觉特征，提交给高级特征提取单元(42)和特征描述单元(43)；

高级特征提取单元(42)计算单音节唇动图像序列中每一帧的高级视觉特征，高级视觉特征包含唇部轮廓参数：内唇宽度ω₁、外唇宽度ω₀、上外唇高度h₁、上内唇高度h₂、下内唇高度h₃、下外唇高度h₄、唇偏转角度θ、嘴唇中心点坐标(X_c，Y_c)、上外唇四次曲线离坐标原点的偏移量a_off、四次曲线偏离抛物线的距离q₀、下外唇辅助参数q₁、内唇面积、外唇面积、内唇灰度均值；高级特征计算所需的数据一部分来自唇动分割模块(30)或者语料库(50)中的单音节唇动图像序列，另一部分来自低级视觉特征；本单元将计算得到的高级特征提交给特征描述单元(43)；

特征描述单元(43)将低级视觉特征和高级视觉特征融合，形成该帧图像的唇动特征向量；单音节唇动图像序列中每帧图像处理后，将各帧图像的唇动特征向量组成单音节唇动特征向量，如果所处理的单音节唇动图像序列来自唇动分割模块(30)，则本单元将单音节唇动特征向量提交给唇语识别模块(70)；如果所处理的单音节唇动图像序列来自语料库(50)，则本单元将单音节唇动特征向量反馈给语料库(50)；

(F)模型建立模块从语料库中获取单音节唇动图像序列样本的特征向量作为训练对象，通过学习算法建立识别模型，将模型参数以文件方式保存于本模块，并在需要时传递给唇语识别模块；所述模型建立模块(60)包括初值设定单元(61)和参数学习单元(62)，

初值设定单元(61)，从语料库(50)读取单音节唇动图像序列样本的特征向量，作为模型的观测向量；同时设定状态转移概率矩阵a_ij、混合比系数C_jm、协方差矩阵∑_m和均值向量μ_m四个模型参数的初值，并将所述四个模型参数初值和观测向量提供给参数学习单元(62)；

参数学习单元(62)对四个模型参数初值和观测向量进行学习，确定四个模型参数，并将这四个模型参数以文件形式存储，以便唇语识别模块(70)读取，所述学习方法为隐马尔可夫模型方法；

(G)唇语识别模块对单音节唇动图像序列进行识别，从特征提取模块获取单音节唇动特征向量，结合从模型建立模块获取的模型参数，对单音节唇动特征向量进行分类，再从语料库中索引得到单音节的拼音文字，最后将单音节的拼音文字进行组合输出给最终用户；所述唇语识别模块(70)包括参数读取单元(71)、匹配单元(72)和文字组合输出单元(73)；

参数读取单元(71)从模型建立模块(60)读取给定的模型参数文件，并将来自特征提取模块的待测单音节唇动特征向量序列和模型参数提交给匹配单元(72)；

匹配单元(72)根据模型参数，对待测单音节唇动特征向量序列中的每个向量进行识别，将识别结果形成一个单音节标识符序列，提交给文字组合输出单元(73)；

文字组合输出单元(73)根据语料库中单音节标识符与拼音文字之间的对应关系，将单音节标识符序列转换、组合，形成一段拼音文字，输出给用户；

其特征在于：所述唇动分割模块(30)包括唇动描述单元(31)、唇速描述单元(32)、阈值判断单元(33)；

唇动描述单元(31)从唇部定位模块(20)获取唇动视频序列，计算其中每一帧的唇动瞬时位置速度场，并将其提交给唇速描述单元(32)；

唇速描述单元(32)从每一帧的唇动瞬时位置速度场计算表示唇部运动速度规律的唇速点，并将各帧的唇速点进行曲线拟合，得到唇速曲线，将其提交给阈值判断单元(33)；

阈值判断单元(33)根据曲线极小值点和阈值对唇速曲线进行音节分割，将唇动视频序列分割为单音节唇动图像序列，所述阈值为唇速曲线所有相邻极小值点间对应帧数的平均值。