CN101101752B - 基于视觉特征的单音节语言唇读识别系统 - Google Patents

基于视觉特征的单音节语言唇读识别系统 Download PDF

Info

Publication number
CN101101752B
CN101101752B CN2007100527950A CN200710052795A CN101101752B CN 101101752 B CN101101752 B CN 101101752B CN 2007100527950 A CN2007100527950 A CN 2007100527950A CN 200710052795 A CN200710052795 A CN 200710052795A CN 101101752 B CN101101752 B CN 101101752B
Authority
CN
China
Prior art keywords
lip
module
unit
single syllable
moving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007100527950A
Other languages
English (en)
Other versions
CN101101752A (zh
Inventor
王天江
刘芳
周慧华
龚立宇
陈刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN2007100527950A priority Critical patent/CN101101752B/zh
Publication of CN101101752A publication Critical patent/CN101101752A/zh
Application granted granted Critical
Publication of CN101101752B publication Critical patent/CN101101752B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

基于视觉特征的单音节语言唇读识别系统,属于计算机智能识别技术,根据视频中人物说话时的唇动变化,识别说话内容,目的在于仅利用视频信息,解决如汉语等单音节语言的唇读识别问题。本发明包括视频解码模块、唇部定位模块、唇动分割模块、特征提取模块、语料库、模型建立模块和唇语识别模块;本发明所采用的语料库内容丰富,易于扩充,本发明只需处理视频图像,不需要音频数据进行辅助识别,能够对avi、wmv、rmvb、mpg等视频文件进行处理,满足无声条件下说话内容识别的要求。本发明的唇动分割部分以单音节为识别目标进行机器智能分割,与定长时间分割和手工分割相比,实用性更强,识别准确率得到极大提高。

Description

基于视觉特征的单音节语言唇读识别系统
技术领域
本发明属于计算机智能识别技术,具体涉及一种面向单音节语言的、基于视觉特征的唇读识别系统,根据视频中人物说话时的唇动变化,识别说话内容。
背景技术
计算机从1946年诞生发展至今,经历了键盘操作方式、鼠标操作方式,进入了自然人机交互方式阶段。在这种背景下,近年来语音识别技术得到了快速的发展,通过语音进行人机交互,无疑是交互方式中最有效、快捷的途径。“噪音环境下的语音识别:综述”(Y.Cong.Speech recognition in noisy environments:a survey[J].Speech Communication,1995,16:261-291)一文分析了由IBM提出的ViaVoice语音识别系统,指出这些在实验室里表现优秀的系统,在实际噪声环境或多话者条件下,其识别率都大大下降。
唇动是语音的视觉补充,它可以帮助语音提高识别率。唇读就是在这样的背景下提出来的。唇读的现象是普遍存在的,主要是听力残障者从正常人说话中获取信息的一种技巧。他们凭借自身已有的语言知识、谈话内容和背景知识等众多相关因素,再根据观察到说话人的口型变化情况,映像成说话内容。事实上正常人也在使用这种手段,只是数量上和意识上有所差别。由计算机来实现和完成这项技巧,对人机交流技术有着深远的影响。
解决唇读问题需要经过唇的检测定位、特征提取、识别理解的过程。
许多唇读识别系统直接采集的是唇部灰度图像,采用手动的办法框出唇的区域或将摄像头固定在头盔上与人脸形成相对固定的位置,不允许人脸自由移动,见“增强语音识别的自动唇读”(E.D.Petajan,“Automatic Lipreading to Enhance Speech Recognition”,PhD thesis,Univ.of Illionis,Urbana-Champaign,1984);或将唇涂上深色的口红或者贴反光片,且在特定的光照条件下摄取,见“使用概率模型的唇读”(Luettin J,Thacker N A.Speechreading Using Probabilistic Models.Computer Vision and Image Understanding.1997,165(2):163-178)。而唇读的目标是在无任何交互和限制条件下,能够自动地将不同光照、不同皮肤颜色、不同话者准确定位、跟踪、识别和理解。
目前已有的唇读研究多是利用音视频信息相结合而进行的,比如IBM公司提供的视听觉测试库ViaVoiceTM,见“大词汇量的人机音视频语音识别”(Gerasimos Potamianos,Chalapathy Neti,Giridharan Iyengar,Eric Helmuth,Large-Vocabulary Audio-Visual Speech Recognition by Machines and Humans IBM Thomas J.Watson Research Center Aalborg,Denmark September 2001:3-7);Intel研究机构于2003年初构建的视听觉实时识别系统AVCSR,见“不依赖于说话人的音视频连续语音识别”(Luhong Liang,Xiaoxing Liu,Yibao Zhao,Xiaobo Pi,and Ara V.Nefian SPEAKER INDEPENDENT AUDIO-VISUAL CONTINUOUS SPEECH RECOGNITION EURASIP Journal on Applied Signal Processing,Special issue on Audio-Visual Speech Processing,2002),但是在嘈杂的环境、禁止发声的环境或者远距离的情况下,声音信息难以准确获取。
识别系统采集自然语速的句子,不能直接用于识别,需要从句子中将单音节发音切割开来,即唇动分割。有的唇动系统使用的分割技术基于严格的等时间间隔,如徐彦君,杜利民.“汉语听觉视觉双模态数据库”CAVSR1.0声学学报,2000;25(1):42-49,这对于自然状况下的人的讲话内容的识别是不适用的;有的依赖视频数据使用语音能量进行分割,如单卫,姚鸿勋,高文.唇读中序列口型的分类,中文信息学报.2002,16(1):31-36,这种方法无法用于无声的环境。
现有的唇读识别系统中,语料库的规模小而简单,如Movellan建立的语料库Tulips集合为{one,two,three,four},见“使用随机网络的视觉语音识别”(J.R.Movellan.Visual speech recognition with stochastic networks.In G.Tesauro,D.Touretzky,and T.Leen,editors,Advances in Neural Information Processing Systems,volume 7.MIT press,Cambridge,1995);Pigoen和Vandendorpe建立的语料库M2VTS集合为法语数字0到9,见“多模态人脸数据库M2VTS”(S.Pigeon and L.Vandendorpe.The M2VTS multimodal face database.In Proceedings of the First International Conference on Audio-and Video-Based Biometric Person Authentication,Lecture Notes in Computer Science.Springer Verlag,1997);Mattehews和Cox所建立的语料库Avletters的集合为{A...Z},见I.A.Matthews,J.A.Bangham and S.J.Cox,Scale Based Features for Audiovisual Speech Recognition。这些库适合研究阶段的实验,离真实的应用背景和唇读实用目标太遥远。中科院声学所的徐彦君建立了汉语听觉视觉双模态数据库CAVSR,哈尔滨工业大学建立了音视频语料库HIT Bi-CAVDatabase,这些库是包括了音频和视频两部分信息的,不适用于仅使用视频信息的环境。
发明内容
本发明提供一种基于视觉特征的单音节语言唇读识别系统,目的在于仅利用视频信息,解决如汉语等单音节语言的唇读识别问题。
本发明的一种基于视觉特征的单音节语言唇读识别系统,包括视频解码模块、唇部定位模块、唇动分割模块、特征提取模块、语料库、模型建立模块和唇语识别模块;
(A)视频解码模块将输入的面部视频信号转换成帧图像序列,送入唇部定位单元;
(B)唇部定位模块从帧图像序列中发现并定位人脸,并进一步检测、确定唇部区域,从原图像中分离出唇部图像,提交一个只包含唇部动作变化的唇动视频序列给唇动分割模块;
(C)唇动分割模块将唇动视频序列以单音节为单位分割成若干单音节唇动图像序列,一个单音节唇动图像序列由若干连续的帧组成,提交给特征提取模块;
(D)特征提取模块针对单音节唇动图像序列中每帧图像,提取并描述唇部发音时低级视觉特征和高级视觉特征,低级视觉特征包含直接基于该帧图像像素或经变换后的特征;高级视觉特征包含唇部轮廓参数,唇部轮廓参数根据该帧图像的唇部区域及该帧图像的低级视觉特征计算,将低级视觉特征和高级视觉特征融合,形成该帧图像的唇动特征向量;单音节唇动图像序列中每帧图像处理后,将各帧图像的唇动特征向量组成的单音节唇动特征向量提交给唇语识别模块或者语料库;
(E)语料库存储汉语中各个单音节发音时的单音节唇动图像序列样本、单音节唇动图像序列样本的特征向量、单音节唇动图像序列样本与单音节标识符之间的对应关系,以及单音节标识符与拼音文字之间的对应关系;
(F)模型建立模块从语料库中获取单音节唇动图像序列样本的特征向量作为训练对象,通过学习算法建立识别模型,将模型参数以文件方式保存于本模块,并在需要时传递给唇语识别模块;
(G)唇语识别模块对单音节唇动图像序列进行识别,从特征提取模块获取单音节唇动特征向量,结合从模型建立模块获取的模型参数,对单音节唇动特征向量进行分类,再从语料库中索引得到单音节的拼音文字,最后将单音节的拼音文字进行组合输出给最终用户。
所述的单音节语言唇读识别系统,其特征在于:所述唇部定位模块包括人脸检测单元、唇色增强单元和唇部区域确定单元;
人脸检测单元从所述视频解码模块中获取帧图像,确定每一帧图像中的人脸区域,并分割出人脸图像,将其提交给唇色增强单元;
唇色增强单元对人脸图像下1/3区域进行图像增强,将增强后的下1/3区域脸部图像提交给唇部区域确定单元;
唇部区域确定单元对增强的下1/3区域人脸图像进行处理,确定唇部位置,计算左右唇角、上唇顶点和下唇底点的坐标,并根据这些坐标提取嘴唇区域图像,结合时间序列形成唇动视频序列提交给所述唇动分割模块。
所述的单音节语言唇读识别系统,其特征在于:所述唇动分割模块包括唇动描述单元、唇速描述单元、阈值判断单元;
唇动描述单元从唇部定位模块获取唇动视频序列,计算其中每一帧的唇动瞬时位置速度场,并将其提交给唇速描述单元;
唇速描述单元从每一帧的唇动瞬时位置速度场计算表示唇部运动速度规律的唇速点,并将各帧的唇速点进行曲线拟合,得到唇速曲线,将其提交给阈值判断单元;
阈值判断单元根据曲线极小值点和阈值对唇速曲线进行音节分割,将唇动视频序列分割为单音节唇动图像序列,所述阈值为唇速曲线所有相邻极小值点间对应帧数的平均值。
所述的单音节语言唇读识别系统,其特征在于:所述特征提取模块包括低级特征提取单元、高级特征提取单元、特征描述单元,
低级特征提取单元从唇动分割模块或者语料库获取单音节唇动图像序列,对其中的每一帧图像中唇部区域进行DCT变换取得DCT系数,再对DCT系数做主成分分析,用K-L变换进行二次降维,得到维数少的低级视觉特征,提交给高级特征提取单元和特征描述单元;
高级特征提取单元计算单音节唇动图像序列中每一帧的高级视觉特征,高级视觉特征包含唇部轮廓参数:内唇宽度ω1、外唇宽度ω0、上外唇高度h1、上内唇高度h2、下内唇高度h3、下外唇高度h4、唇偏转角度θ、嘴唇中心点坐标(Xc,Yc)、上外唇四次曲线离坐标原点的偏移量aoff、四次曲线偏离抛物线的距离q0、下外唇辅助参数q1、内唇面积、外唇面积、内唇灰度均值;高级特征计算所需的数据一部分来自唇动分割模块或者语料库中的单音节唇动图像序列,另一部分来自低级视觉特征;本单元将计算得到的高级特征提交给特征描述单元;
特征描述单元将低级视觉特征和高级视觉特征融合,形成该帧图像的唇动特征向量;单音节唇动图像序列中每帧图像处理后,将各帧图像的唇动特征向量组成单音节唇动特征向量,如果所处理的单音节唇动图像序列来自唇动分割模块,则本单元将单音节唇动特征向量提交给唇语识别模块;如果所处理的单音节唇动图像序列来自语料库,则本单元将单音节唇动特征向量反馈给语料库。
所述的单音节语言唇读识别系统,其特征在于:所述模型建立模块包括初值设定单元和参数学习单元,
初值设定单元,从语料库读取单音节唇动图像序列样本的特征向量,作为模型的观测向量;同时设定状态转移概率矩阵aij、混合比系数Cjm、协方差矩阵∑m和均值向量μm四个模型参数的初值,并将所述四个模型参数初值和观测向量提供给参数学习单元;
参数学习单元对四个模型参数初值和观测向量进行学习,确定四个模型参数,并将这四个模型参数以文件形式存储,以便唇语识别模块读取,所述学习方法为隐马尔可夫模型方法。
所述的单音节语言唇读识别系统,其特征在于:所述唇语识别模块包括参数读取单元、匹配单元和文字组合输出单元;
参数读取单元从模型建立模块读取给定的模型参数文件,并将来自特征提取模块的待测单音节唇动特征向量序列和模型参数提交给匹配单元;
匹配单元根据模型参数,对待测单音节唇动特征向量序列中的每个向量进行识别,将识别结果形成一个单音节标识符序列,提交给文字组合输出单元;
文字组合输出单元根据语料库中单音节标识符与拼音文字之间的对应关系,将单音节标识符序列转换、组合,形成一段拼音文字,输出给用户。
本发明将说话者一段连续的唇动序列自动分割成一系列单音节唇动序列,每个单音节唇动序列代表一个单音节的发音动作,这样,系统的识别模型可以针对单音节唇动序列进行内容识别,与定长分割和手工分割相比,实用性更强,识别准确率也得到了提高。
本发明具有完备的语料库,语料库采集的素材是汉语普通话,汉语是单音节语言,采用的单音节唇动序列样本涵盖所有声韵母,单音节唇动序列样本分布符合汉语声韵母的实际分布概率,包含的内容丰富,样本多样化,收集了同一个音不同的唇动视频,可以利用学习算法找到发同一个音时存在的普遍唇动特征,其反映的规律具有代表性,为本发明正确识别未知样本的唇动内容提供了可靠保障。语料库的规模具有很强的可扩展性,可以随着研究的深入方便地扩大规模,也可以方便地更换为其它单音节语言的素材。
本发明采用含有简单背景的人脸图像作为输入,在自然光照条件下,被采集者以自然语速(新闻播音语速)朗读每个单音节发音。对素材的采集不进行人为的限制,不需要人工参与,能够满足自然交互的需要。本发明能够根据视频中人物说话时的唇部动作识别说话内容,只需处理视频图像,不需要音频数据进行辅助识别,能够对avi、wmv、rmvb、mpg等视频文件进行处理,满足无声条件下说话内容识别的要求。
附图说明
图1是本发明的结构示意图;
图2是本发明的唇部定位模块结构示意图;
图3是本发明的唇部定位模块工作流程图;
图4是本发明的唇动分割模块结构示意图;
图5是本发明的特征提取模块结构示意图;
图6是本发明的模型建立模块结构示意图;
图7是本发明的模型建立模块工作流程图;
图8是本发明的唇语识别模块结构示意图;
图9是本发明的唇语识别模块工作流程图;
图10是本发明的语料库结构。
具体实施方式
如图1所示,本发明包括视频解码模块10、唇部定位模块20、唇动分割模块30、特征提取模块40、语料库50、模型建立模块60和唇语识别模块70。
视频解码模块10接受用户给定的视频文件或设备,将其解码,获取可用于本发明处理的图像帧序列。
唇部定位模块20用于分析视频中的图像帧,它从视频解码模块10中发现并定位说话人的唇部位置,这些位置信息需要提供给唇动分割模块30和特征提取模块40。唇部定位模块20首先得到一个唇部位置向量,它包含4个分量,每个分量是二维空间的坐标值,分别代表左唇角、右唇角、上唇顶点和下唇底点。然后根据该向量从原图像中分割出唇部图像,结合视频的时间序列,形成唇动序列,提交给唇动分割模块30。
唇动分割模块30负责将唇动序列分割成单音节子序列。该模块接收唇部定位模块20提供的唇动序列,然后将此序列分割,得到一个有序集合,集合中的每个元素是单音节唇动序列,也是原唇动序列的子序列,它是说话者发出一个单音节时唇部的动作。这个子序列集合要提供给特征提取模块40。
特征提取模块40负责从单音节唇动序列中提取特征。该模块接收来自唇动分割模块30提供的单音节唇动序列,获取单音节唇动特征向量,并将该特征向量提供给唇语识别模块70。
语料库50用于存储预先搜集的训练数据,主要为单音节的拼音文字、该单音的发音视频文件和唇动特征向量,本发明构建时,唇动特征向量为空,在系统初始化时,需调用特征提取模块40从语料库的发音视频文件中获取每个单音节的唇动特征向量,并存储进唇动特征向量字段;本发明中,语料库50是模型建立模块60的学习对象,语料库50作为训练集,为本发明的模型建立提供依据;同时语料库50为唇语识别模块70提供单音节标识符与拼音之间的对应关系。
模型建立模块60从语料库50提供的数据中学习,确定识别模型的参数,这些参数以文件形式存储,供唇语识别模块70读取。
唇语识别模块70首先从模型建立模块60给定的参数文件中获取参数,以此为基础对特征提取模块40提供的一系列特征向量进行识别,得到识别后的单音节标识符,并根据语料库中单音节标识符与拼音之间的对应关系,向用户输出一段拼音文字。
整个系统流程包括:
(1)系统初始化:
系统初始化针对的对象是管理员用户,管理员用户的主要任务是通过系统提供的接口建立完整的语料库,具体过程如下:
(1.1)确定要识别的单音节语言,直接打开语料库50进行编辑,需要编辑的内容包括:添加该语言所有的单音节(拼音文字方式)以及每个单音节对应的发音视频片断;
(1.2)管理员需要调用特征提取模块40,以语料库中的视频片断为处理对象,为每个音节提取唇动特征向量,并存储在语料库50中;
(1.3)管理员以语料库50中的单音节(拼音文字)和音节唇动特征向量为学习对象,通过模型建立模块60确定参数,这些参数被模型建立模块60以文件形式存放,提供给唇语识别模块70;
(2)唇语识别:
唇语识别流程针对的对象是所有使用该系统的用户,用户通过指定文件或设备给视频解码模块10,提供给本发明要识别的视频数据,然后通过唇语识别模块识别说话者的说话内容,该内容以拼音文字体现;
(2.1)视频解码模块10获取数据,将输入转换为可处理的帧图像形式,提供给唇部定位模块20;
(2.2)唇部定位模块20用于给出由视频解码模块10提供的帧图像序列中说话人唇部的位置信息,进而形成唇部运动序列,提供给唇动分割模块30和特征提取模块40;
(2.3)唇动分割模块30对唇部定位模块20给出的唇动序列进行处理,得到一个单音节唇动序列的集合,该集合提交给特征提取模块40;
(2.4)特征提取模块40对唇动分割模块30给出的单音节唇动序列集合进行处理,逐个对集合中的单音节唇动序列进行特征提取,得到一个单音节的唇动特征向量集合,该集合提交给唇语识别模块70;
(2.5)唇语识别模块70首先读取由模型建立模块60存放的参数文件,获取模型参数,再逐个处理特征提取模块40给出的单音节唇动特征向量集合,根据集合中的唇动特征向量进行识别,得到一段展示视频中说话者内容的单音节标识符序列,然后根据语料库中单音节标识符与拼音之间的对应关系,将之转换、组合,形成一段拼音文字,作为系统输出提交给用户。
本发明视频解码模块10采用商用解码软件Adobe Premiere 2.0实现,本发明定义了视频解码模块的接口,其中输入包括:多种格式的视频文件、设备;输出为以图像帧按时间顺序排列而成的视频数据。该模块可以对常见格式的视频文件进行解码,如avi、wmv、rmvb等。本发明对于输入视频的要求为:包含且仅包含说话人正面视频片断。
唇部定位模块20可以采用如图2所示的功能模块予以具体实现,它包括人脸检测单元21、唇色增强单元22、唇部区域确定单元23。模块间的数据流向以及处理流程见图3所示:
人脸检测单元21首先从视频中获取第1帧,针对该帧图像,以肤色为基准,搜索图像中可能的人脸区域,再针对每个候选区域,以眼睛特征为基准,判定该候选区域是否为正面人脸,如果是,则从帧图像中获取该区域,得到人脸图像;对于视频中的后继帧图像(如第n帧,n大于1),以人脸图像在第n-1帧图像中的位置为基准,在附件搜索,确定第n帧图像中的人脸区域。该模块将视频中所有帧中的人脸图像提交给唇色增强单元22。
唇色增强单元22将获取的人脸图像(由人脸检测单元21提供)进行分析,首先获取脸部中垂线,然后根据中垂线获取脸部图像下方1/3区域,对这一区域进行图像增强,增大图像对比度,以扩大唇色和肤色的颜色差别,完成唇色增强。该模块将唇色增强后的脸部图像下方1/3区域提交给唇部区域确定单元23。
唇部区域确定单元23将唇色增强单元22提供的唇色增强图像进行处理,进行水平、垂直方向的投影,得到像素投影曲线,根据该曲线特征确定唇部位置,由唇部的4个点进行位置描述。该模块根据唇部位置信息将唇部图像分割,形成唇动序列提交给唇动分割模块30。
唇动分割模块30可以采用如图4所示的功能模块予以具体实现,它包括唇动描述单元31、唇速描述单元32、阈值判断单元33。以下是模块间的数据流向以及处理流程的具体描述:
唇动描述单元31从唇部定位模块20获取唇动序列,并从中提取一系列描述唇部运动的唇动瞬时位置速度场,每一帧唇部图像用一组速度场表示,该模块计算所有帧的速度场,并将之提交给唇速描述单元32。
唇速描述单元32从唇动描述单元31获取唇动序列每一帧的唇动瞬时位置速度场,结合时间顺序,计算唇部的运动速度,用曲线表示唇部运动规律。该模块提交曲线给阈值判断单元33。
阈值判断单元33接受来自唇速描述单元32提交的唇速曲线,分析该曲线,找到曲线的极小值点,将相邻两极小值点间对应帧数与阈值比较(这里阈值是唇速曲线所有相邻极小值点间对应帧数的平均值),大于该阈值的即为音节分割点,根据这些分割点,将唇动序列分割为单音节唇动序列。该模块将单音节唇动序列提交给特征提取模块40。
特征提取模块40可以采用如图5所示的功能模块予以具体实现,它包括低级特征提取单元41、高级特征提取单元42、特征描述单元43。以下是模块间的数据流向以及处理流程的具体描述:
低级特征提取单元41从唇动分割模块30或者语料库50获取单音节唇动图像序列,对序列中的每一帧图像的唇部区域提取低级特征。本模块提取出的特征提交给高级特征提取单元42和特征描述单元43。
高级特征提取单元42计算单音节唇动图像序列中每一帧的高级视觉特征,主要为唇部轮廓参数,这些特征的计算所需数据来自两个部分,其中一部分是从唇动分割模块30或者语料库50获取的单音节唇动序列,另一部分从低级特征单元41中获取需要的低级特征量;本模块将从这两部分进行计算获取的高级特征量提交给特征描述单元43。
特征描述单元43从低级特征提取单元41和高级特征提取单元42获取特征量,将两者融合成一个多维特征向量,即单音节唇动特征向量。如果特征提取模块40处理的单音节唇动序列来自唇动分割模块30,则本模块将单音节唇动特征向量提交给唇语识别模块70;如果特征提取模块40处理的单音节唇动序列来自语料库50,则本模块将单音节唇动特征向量反馈回语料库50。
语料库50由一个表格及视频文件集构成,表格结构如图10所示,它包含5个字段,分别是单音节标识符、拼音、唇动视频、特征描述、备注信息。单音节标识符用于标识不同音节,拼音为单音节的文字表述,唇动视频为单音节发音的唇动视频,特征描述为单音节唇动的特征向量,备注信息为预留字段,可以为空。
模型建立模块60为语料库中的每个音节建立模型,本发明采用隐马尔可夫模型,因此模型建立也就是求得该音节模型的状态转移概率矩阵aij、混合比系数Cjm、协方差矩阵∑m、均值向量μm四个模型参数。以下描述的是一个音节建模的过程,具体如图6所示的功能模块予以实现,包括初值设定单元61、参数学习单元62。模块间的数据流向以及处理流程见图7所示:
初值设定单元61,包含两个功能,一个用于设定模型参数的初始值,分别是状态转移概率矩阵aij、混合比系数Cjm、协方差矩阵∑m、均值向量μm。另一个功能是将语料库50中的单音节唇动特征向量读入系统,得到模型的观测向量。本模块将设定的初值以及观测向量提供给参数学习单元62。
参数学习单元62接收来自初值设定单元61的四个模型参数初值和观测向量,经过本模块的迭代算法进行参数训练,该算法的每一轮迭代,首先进行参数修正,然后将修正的四个模型参数进行收敛性判断,如果不符合收敛性条件,则继续迭代;如果符合收敛性条件,则模型参数得以确定,将这四个模型参数以文件形式存储,以便唇语识别模块70读取。
唇语识别模块70采用如图8所示的功能模块予以实现,包括参数读取单元71、匹配单元72、文字组合输出单元73。模块间的数据流向以及处理流程见图9所示:
参数读取单元71首先接收来自特征提取模块的待测试的单音节特征向量序列,接着从模型建立模块60给定的模型参数文件中读取每个音节的模型参数,分别是λ1,...λn(系统有n个音节)。本模块将待测试单音节特征向量序列和{λ1,...λn}提交给匹配单元72。
匹配单元72获取了来自参数读取单元71给出的待测试单音节特征向量序列和{λ1,...λn},针对单音节特征向量序列中的每个向量(即单音节特征向量)进行识别,其过程是利用识别算法将该向量序列分别与单音节模型λ1,...λn进行匹配,该匹配过程通过计算最大似然概率,找到与待测试单音节特征向量序列最匹配的模型λi,获得对应的单音节标识符。重复以上过程,识别待测向量序列对应的音节,形成一个单音节标识符序列,提交给文字组合输出单元73。
文字组合输出单元73接收来自匹配单元72的音节类别序列,根据语料库中单音节标识符与拼音之间的对应关系,将之转换组合,形成一段拼音文字,并输出给用户。

Claims (1)

1.一种基于视觉特征的单音节语言唇读识别系统,包括视频解码模块、唇部定位模块、唇动分割模块、特征提取模块、语料库、模型建立模块和唇语识别模块;
(A)视频解码模块将输入的面部视频信号转换成帧图像序列,送入唇部定位单元;
(B)唇部定位模块从帧图像序列中发现并定位人脸,并进一步检测、确定唇部区域,从原图像中分离出唇部图像,提交一个只包含唇部动作变化的唇动视频序列给唇动分割模块;所述唇部定位模块(20)包括人脸检测单元(21)、唇色增强单元(22)和唇部区域确定单元(23);
人脸检测单元(21)从所述视频解码模块(10)中获取帧图像,确定每一帧图像中的人脸区域,并分割出人脸图像,将其提交给唇色增强单元(22);
唇色增强单元(22)对人脸图像下1/3区域进行图像增强,将增强后的下1/3区域脸部图像提交给唇部区域确定单元(23);
唇部区域确定单元(23)对增强的下1/3区域人脸图像进行处理,确定唇部位置,计算左右唇角、上唇顶点和下唇底点的坐标,并根据这些坐标提取嘴唇区域图像,结合时间序列形成唇动视频序列提交给所述唇动分割模块;
(C)唇动分割模块将唇动视频序列以单音节为单位分割成若干单音节唇动图像序列,一个单音节唇动图像序列由若干连续的帧组成,提交给特征提取模块;
(D)特征提取模块针对单音节唇动图像序列中每帧图像,提取并描述唇部发音时低级视觉特征和高级视觉特征,低级视觉特征包含直接基于该帧图像像素或经变换后的特征;高级视觉特征包含唇部轮廓参数,唇部轮廓参数根据该帧图像的唇部区域及该帧图像的低级视觉特征计 算,将低级视觉特征和高级视觉特征融合,形成该帧图像的唇动特征向量;单音节唇动图像序列中每帧图像处理后,将各帧图像的唇动特征向量组成的单音节唇动特征向量提交给唇语识别模块或者语料库;所述特征提取模块(40)包括低级特征提取单元(41)、高级特征提取单元(42)、特征描述单元(43),
低级特征提取单元(41)从唇动分割模块(30)或者语料库(50)获取单音节唇动图像序列,对其中的每一帧图像中唇部区域进行DCT变换取得DCT系数,再对DCT系数做主成分分析,用K-L变换进行二次降维,得到维数少的低级视觉特征,提交给高级特征提取单元(42)和特征描述单元(43);
高级特征提取单元(42)计算单音节唇动图像序列中每一帧的高级视觉特征,高级视觉特征包含唇部轮廓参数:内唇宽度ω1、外唇宽度ω0、上外唇高度h1、上内唇高度h2、下内唇高度h3、下外唇高度h4、唇偏转角度θ、嘴唇中心点坐标(Xc,Yc)、上外唇四次曲线离坐标原点的偏移量aoff、四次曲线偏离抛物线的距离q0、下外唇辅助参数q1、内唇面积、外唇面积、内唇灰度均值;高级特征计算所需的数据一部分来自唇动分割模块(30)或者语料库(50)中的单音节唇动图像序列,另一部分来自低级视觉特征;本单元将计算得到的高级特征提交给特征描述单元(43);
特征描述单元(43)将低级视觉特征和高级视觉特征融合,形成该帧图像的唇动特征向量;单音节唇动图像序列中每帧图像处理后,将各帧图像的唇动特征向量组成单音节唇动特征向量,如果所处理的单音节唇动图像序列来自唇动分割模块(30),则本单元将单音节唇动特征向量提交给唇语识别模块(70);如果所处理的单音节唇动图像序列来自语料库(50),则本单元将单音节唇动特征向量反馈给语料库(50);
(E)语料库存储汉语中各个单音节发音时的单音节唇动图像序列样本、单音节唇动图像序列样本的特征向量、单音节唇动图像序列样本与 单音节标识符之间的对应关系,以及单音节标识符与拼音文字之间的对应关系;
(F)模型建立模块从语料库中获取单音节唇动图像序列样本的特征向量作为训练对象,通过学习算法建立识别模型,将模型参数以文件方式保存于本模块,并在需要时传递给唇语识别模块;所述模型建立模块(60)包括初值设定单元(61)和参数学习单元(62),
初值设定单元(61),从语料库(50)读取单音节唇动图像序列样本的特征向量,作为模型的观测向量;同时设定状态转移概率矩阵aij、混合比系数Cjm、协方差矩阵∑m和均值向量μm四个模型参数的初值,并将所述四个模型参数初值和观测向量提供给参数学习单元(62);
参数学习单元(62)对四个模型参数初值和观测向量进行学习,确定四个模型参数,并将这四个模型参数以文件形式存储,以便唇语识别模块(70)读取,所述学习方法为隐马尔可夫模型方法;
(G)唇语识别模块对单音节唇动图像序列进行识别,从特征提取模块获取单音节唇动特征向量,结合从模型建立模块获取的模型参数,对单音节唇动特征向量进行分类,再从语料库中索引得到单音节的拼音文字,最后将单音节的拼音文字进行组合输出给最终用户;所述唇语识别模块(70)包括参数读取单元(71)、匹配单元(72)和文字组合输出单元(73);
参数读取单元(71)从模型建立模块(60)读取给定的模型参数文件,并将来自特征提取模块的待测单音节唇动特征向量序列和模型参数提交给匹配单元(72);
匹配单元(72)根据模型参数,对待测单音节唇动特征向量序列中的每个向量进行识别,将识别结果形成一个单音节标识符序列,提交给文字组合输出单元(73);
文字组合输出单元(73)根据语料库中单音节标识符与拼音文字之 间的对应关系,将单音节标识符序列转换、组合,形成一段拼音文字,输出给用户;
其特征在于:所述唇动分割模块(30)包括唇动描述单元(31)、唇速描述单元(32)、阈值判断单元(33);
唇动描述单元(31)从唇部定位模块(20)获取唇动视频序列,计算其中每一帧的唇动瞬时位置速度场,并将其提交给唇速描述单元(32);
唇速描述单元(32)从每一帧的唇动瞬时位置速度场计算表示唇部运动速度规律的唇速点,并将各帧的唇速点进行曲线拟合,得到唇速曲线,将其提交给阈值判断单元(33);
阈值判断单元(33)根据曲线极小值点和阈值对唇速曲线进行音节分割,将唇动视频序列分割为单音节唇动图像序列,所述阈值为唇速曲线所有相邻极小值点间对应帧数的平均值。 
CN2007100527950A 2007-07-19 2007-07-19 基于视觉特征的单音节语言唇读识别系统 Expired - Fee Related CN101101752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007100527950A CN101101752B (zh) 2007-07-19 2007-07-19 基于视觉特征的单音节语言唇读识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100527950A CN101101752B (zh) 2007-07-19 2007-07-19 基于视觉特征的单音节语言唇读识别系统

Publications (2)

Publication Number Publication Date
CN101101752A CN101101752A (zh) 2008-01-09
CN101101752B true CN101101752B (zh) 2010-12-01

Family

ID=39036001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100527950A Expired - Fee Related CN101101752B (zh) 2007-07-19 2007-07-19 基于视觉特征的单音节语言唇读识别系统

Country Status (1)

Country Link
CN (1) CN101101752B (zh)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
CN101727765A (zh) * 2009-11-03 2010-06-09 无敌科技(西安)有限公司 人脸仿真发音系统及其方法
CN102117115B (zh) * 2009-12-31 2016-11-23 上海量科电子科技有限公司 一种利用唇语进行文字输入选择的系统及实现方法
CN102004549B (zh) * 2010-11-22 2012-05-09 北京理工大学 一种适用于中文的自动唇语识别系统
CN102542280B (zh) * 2010-12-26 2016-09-28 上海量明科技发展有限公司 针对同一内容的不同唇语口型的识别方法及系统
CN102841676A (zh) * 2011-06-23 2012-12-26 鸿富锦精密工业(深圳)有限公司 网页浏览控制系统及方法
CN103092329A (zh) * 2011-10-31 2013-05-08 南开大学 一种基于唇读技术的唇语输入方法
CN102609969B (zh) * 2012-02-17 2013-08-07 上海交通大学 基于汉语文本驱动的人脸语音同步动画的处理方法
TWI502583B (zh) * 2013-04-11 2015-10-01 Wistron Corp 語音處理裝置和語音處理方法
FR3005776B1 (fr) * 2013-05-15 2015-05-22 Parrot Procede de reconnaissance vocale visuelle par suivi des deformations locales d'un ensemble de points d'interet de la bouche du locuteur
CN103745423B (zh) * 2013-12-27 2016-08-24 浙江大学 一种口型示教系统与示教方法
CN103745462B (zh) * 2013-12-27 2016-11-02 浙江大学 一种人体口型视频重构系统与重构方法
CN104951730B (zh) * 2014-03-26 2018-08-31 联想(北京)有限公司 一种唇动检测方法、装置及电子设备
CN104298961B (zh) * 2014-06-30 2018-02-16 中国传媒大学 基于口型识别的视频编排方法
CN104157181B (zh) * 2014-07-22 2017-07-28 雷青云 一种语言教学方法和系统
CN104966086B (zh) * 2014-11-14 2017-10-13 深圳市腾讯计算机系统有限公司 活体鉴别方法及装置
CN104504088A (zh) * 2014-12-26 2015-04-08 安徽寰智信息科技股份有限公司 一种用于唇语识别的唇形模型库构建方法
CN104484656A (zh) * 2014-12-26 2015-04-01 安徽寰智信息科技股份有限公司 基于深度学习的唇语识别唇形模型库构建方法
CN104537358A (zh) * 2014-12-26 2015-04-22 安徽寰智信息科技股份有限公司 基于深度学习的唇语识别唇形训练数据库的生成方法
CN104680144B (zh) * 2015-03-02 2018-06-05 华为技术有限公司 基于投影极速学习机的唇语识别方法和装置
CN104834900B (zh) * 2015-04-15 2017-12-19 常州飞寻视讯信息科技有限公司 一种联合声像信号进行活体检测的方法和系统
CN106548121A (zh) * 2015-09-23 2017-03-29 阿里巴巴集团控股有限公司 一种活体识别的测试方法及装置
CN105139503A (zh) * 2015-10-12 2015-12-09 北京航空航天大学 一种唇动口型识别门禁系统及识别方法
CN106919891B (zh) * 2015-12-26 2019-08-23 腾讯科技(深圳)有限公司 一种图像处理方法及装置
US10360441B2 (en) 2015-11-25 2019-07-23 Tencent Technology (Shenzhen) Company Limited Image processing method and apparatus
CN105590104A (zh) * 2015-12-31 2016-05-18 联想(北京)有限公司 识别方法、装置及电子设备
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN105787428A (zh) * 2016-01-08 2016-07-20 上海交通大学 基于稀疏编码的唇语特征身份认证方法
CN107452381B (zh) * 2016-05-30 2020-12-29 中国移动通信有限公司研究院 一种多媒体语音识别装置及方法
CN106210568A (zh) * 2016-07-15 2016-12-07 深圳奥比中光科技有限公司 图像处理方法以及装置
CN106250829A (zh) * 2016-07-22 2016-12-21 中国科学院自动化研究所 基于唇部纹理结构的数字识别方法
CN106774856B (zh) * 2016-08-01 2019-08-30 深圳奥比中光科技有限公司 基于唇语的交互方法以及交互装置
CN106529502B (zh) * 2016-08-01 2019-09-24 深圳奥比中光科技有限公司 唇语识别方法以及装置
CN107045385A (zh) * 2016-08-01 2017-08-15 深圳奥比中光科技有限公司 基于深度图像的唇语交互方法以及唇语交互装置
CN106504751A (zh) * 2016-08-01 2017-03-15 深圳奥比中光科技有限公司 自适应唇语交互方法以及交互装置
CN106373128B (zh) * 2016-09-18 2020-01-14 上海斐讯数据通信技术有限公司 一种嘴唇精确定位的方法和系统
CN107025439B (zh) * 2017-03-22 2020-04-24 天津大学 基于深度数据的唇部区域特征提取和规范化方法
CN107123423B (zh) * 2017-06-07 2021-05-18 微鲸科技有限公司 语音拾取装置及多媒体设备
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN107945789A (zh) * 2017-12-28 2018-04-20 努比亚技术有限公司 语音识别方法、装置及计算机可读存储介质
JP7081164B2 (ja) * 2018-01-17 2022-06-07 株式会社Jvcケンウッド 表示制御装置、通信装置、表示制御方法および通信方法
CN108319912A (zh) * 2018-01-30 2018-07-24 歌尔科技有限公司 一种唇语识别方法、装置、系统和智能眼镜
CN108664877A (zh) * 2018-03-09 2018-10-16 北京理工大学 一种基于三维深度数据的动态手势识别方法
CN108521516A (zh) * 2018-03-30 2018-09-11 百度在线网络技术(北京)有限公司 用于终端设备的控制方法和装置
CN108596107A (zh) 2018-04-26 2018-09-28 京东方科技集团股份有限公司 基于ar设备的唇语识别方法及其装置、ar设备
CN110580336B (zh) * 2018-06-08 2022-03-01 北京得意音通技术有限责任公司 唇语的分词方法、装置、存储介质和电子设备
WO2020048358A1 (en) * 2018-09-04 2020-03-12 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method, system, and computer-readable medium for recognizing speech using depth information
CN109558788B (zh) * 2018-10-08 2023-10-27 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN109524006B (zh) * 2018-10-17 2023-01-24 天津大学 一种基于深度学习的汉语普通话唇语识别方法
CN109637521A (zh) * 2018-10-29 2019-04-16 深圳壹账通智能科技有限公司 一种基于深度学习的唇语识别方法及装置
CN109389098B (zh) * 2018-11-01 2020-04-28 重庆中科云从科技有限公司 一种基于唇语识别的验证方法以及系统
CN109461437B (zh) * 2018-11-28 2023-05-09 平安科技(深圳)有限公司 唇语识别的验证内容生成方法及相关装置
CN111462732B (zh) * 2019-01-21 2024-04-09 阿里巴巴集团控股有限公司 语音识别方法和装置
CN111611827A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 一种图像处理方法及装置
CN110096966A (zh) * 2019-04-10 2019-08-06 天津大学 一种融合深度信息汉语多模态语料库的语音识别方法
CN110110603A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于面部生理信息的多模态唇读方法
CN110046261B (zh) * 2019-04-22 2022-01-21 山东建筑大学 一种建筑工程多模态双语平行语料库的构建方法
CN110443124B (zh) * 2019-06-26 2021-11-16 卓尔智联(武汉)研究院有限公司 识别方法、装置及存储介质
CN110544270A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 结合语音识别且实时预测人脸追踪轨迹方法及装置
CN110750152B (zh) * 2019-09-11 2023-08-29 云知声智能科技股份有限公司 一种基于唇部动作的人机交互方法和系统
CN111091823A (zh) * 2019-11-28 2020-05-01 广州赛特智能科技有限公司 基于语音及人脸动作的机器人控制系统、方法及电子设备
CN111582195B (zh) * 2020-05-12 2024-01-26 中国矿业大学(北京) 一种汉语唇语单音节识别分类器构建方法
CN111583916B (zh) * 2020-05-19 2023-07-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111931662A (zh) * 2020-08-12 2020-11-13 中国工商银行股份有限公司 唇读识别系统、方法及自助终端
CN113556501A (zh) * 2020-08-26 2021-10-26 华为技术有限公司 音频处理方法及电子设备
CN112164389B (zh) * 2020-09-18 2023-06-02 国营芜湖机械厂 一种多模式语音识别送话装置及其控制方法
CN112435653A (zh) * 2020-10-14 2021-03-02 北京地平线机器人技术研发有限公司 语音识别方法、装置和电子设备
CN113435422A (zh) * 2021-08-26 2021-09-24 知见科技(江苏)有限公司 辅助聋哑人士唇读的口型识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1120965A (zh) * 1994-05-13 1996-04-24 松下电器产业株式会社 游戏装置,声音选择装置,声音识别装置和声音反应装置
CN1645413A (zh) * 2004-01-19 2005-07-27 日本电气株式会社 图像处理设备、方法和程序

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1120965A (zh) * 1994-05-13 1996-04-24 松下电器产业株式会社 游戏装置,声音选择装置,声音识别装置和声音反应装置
CN1645413A (zh) * 2004-01-19 2005-07-27 日本电气株式会社 图像处理设备、方法和程序

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
姚鸿勋,吕雅娟,高文.基于色度分析的唇动特征提取与识别.电子学报.2002,30(2),169-171. *
徐铭辉,姚鸿勋.基于句子级的唇语识别技术.计算机工程与应用.2005,87. *
柴秀娟,姚鸿勋,高文,王瑞.唇读识别中的基本口型分类.计算机科学.2002,29(2),132. *
陶宏.基于视频图像的唇读识别技术的研究.基于视频图像的唇读识别技术的研究.2005,9,27,31,42,53,55,60-66. *

Also Published As

Publication number Publication date
CN101101752A (zh) 2008-01-09

Similar Documents

Publication Publication Date Title
CN101101752B (zh) 基于视觉特征的单音节语言唇读识别系统
US10621991B2 (en) Joint neural network for speaker recognition
Fisher et al. Speaker association with signal-level audiovisual fusion
Moattar et al. A review on speaker diarization systems and approaches
CN108269133A (zh) 一种结合人体识别和语音识别的智能广告推送方法及终端
US20040056907A1 (en) Prosody based audio/visual co-analysis for co-verbal gesture recognition
CN106127156A (zh) 基于声纹和人脸识别的机器人交互方法
Schuller et al. Audiovisual behavior modeling by combined feature spaces
CN105512348A (zh) 用于处理视频和相关音频的方法和装置及检索方法和装置
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
CN104036774A (zh) 藏语方言识别方法及系统
CN103092329A (zh) 一种基于唇读技术的唇语输入方法
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN112101243A (zh) 一种基于关键姿势和dtw的人体动作识别方法
Luettin et al. Continuous audio-visual speech recognition
CN111554279A (zh) 一种基于Kinect的多模态人机交互系统
GB2613429A (en) Active speaker detection using image data
Shi et al. Visual speaker authentication by ensemble learning over static and dynamic lip details
CN113239903B (zh) 一种跨模态唇读的对抗性双重对比自监督学习方法
Roy et al. Learning audio-visual associations using mutual information
Goh et al. Audio-visual speech recognition system using recurrent neural network
Paleček Experimenting with lipreading for large vocabulary continuous speech recognition
Mahyoub et al. Sign Language Recognition using Deep Learning
US11681364B1 (en) Gaze prediction
Stappen et al. MuSe 2020--The First International Multimodal Sentiment Analysis in Real-life Media Challenge and Workshop

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101201

Termination date: 20110719