CN102004549A - 一种适用于中文的自动唇语识别系统 - Google Patents
一种适用于中文的自动唇语识别系统 Download PDFInfo
- Publication number
- CN102004549A CN102004549A CN 201010558253 CN201010558253A CN102004549A CN 102004549 A CN102004549 A CN 102004549A CN 201010558253 CN201010558253 CN 201010558253 CN 201010558253 A CN201010558253 A CN 201010558253A CN 102004549 A CN102004549 A CN 102004549A
- Authority
- CN
- China
- Prior art keywords
- lip
- chinese character
- module
- matrix
- image sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011159 matrix material Substances 0.000 claims abstract description 211
- 239000013598 vector Substances 0.000 claims abstract description 166
- 238000006243 chemical reaction Methods 0.000 claims abstract description 59
- 230000009466 transformation Effects 0.000 claims abstract description 59
- 230000003993 interaction Effects 0.000 claims abstract description 52
- 238000004458 analytical method Methods 0.000 claims abstract description 45
- 241000270295 Serpentes Species 0.000 claims abstract description 28
- 230000005686 electrostatic field Effects 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 72
- 238000012360 testing method Methods 0.000 claims description 48
- 238000010276 construction Methods 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 35
- 238000010606 normalization Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 23
- 230000005855 radiation Effects 0.000 claims description 4
- 206010028980 Neoplasm Diseases 0.000 claims 1
- 201000011510 cancer Diseases 0.000 claims 1
- 238000002474 experimental method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
一种自动唇语识别系统,包括:头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。头戴式摄像头用来录制汉字发音图像序列,通过人机交互模块传输至唇部轮廓定位模块,其使用卷积虚拟静电场Snake模型从中检测及跟踪唇部轮廓;几何向量获取模块和运动向量获取模块从唇部轮廓中分别提取出几何和运动特征,并将它们联合起来作为典型相关判别分析模块的输入特征矩阵;典型相关判别分析模块计算特征矩阵间的相似度,处理后获取识别结果。本发明系统与已有唇语识别系统相比较,具有更高的识别准确率。
Description
技术领域
本发明涉及一种自动唇语识别系统,特别涉及一种适用于中文的自动唇语识别系统,属于自动唇语识别技术领域。
背景技术
唇语识别或唇读是人机交互(Human-Computer Interaction,HCI)中很引人注目的领域,它在自动语言识别(Automatic Speech Recognition,ASR)系统中起着重要作用。人类语言感知是一个很自然的多模态过程。听力受损的人群会充分利用唇语的提示,即使正常人也可以利用视觉信息来增强对语言的理解,特别是在嘈杂环境中。利用视觉通道的信息会有效地提高现代自动语言识别系统的性能和鲁棒性。
唇语识别任务一般包含三个主要步骤:①在发音图像序列中检测脸部及唇部区域;②从唇部区域提取适合分类的特征;③使用唇部区域特征进行唇语识别。
针对第①步,已有方法中主要使用图像处理的算法来定位脸部及唇部区域,此类方法容易受到光照、角度、旋转、遮挡等影响,会产生一定误差。
第②步中提到的唇语特征,在已有的文献中分为三大类:(1)低层的基于纹理的特征;(2)高层的基于轮廓的特征;(3)前二者的组合。这些特征中,基于轮廓的特征中的唇部几何特征(如唇的高度、宽度、角度)以及唇部运动特征被认为是最可用的视觉信息。关于唇形轮廓线分割的大量近期工作都使用了可变形模板(deformable model),其中一种有效方法就是使用Snake模型和改进的Snake模型,如梯度矢量流(Gradient Vector Flow,GVF)Snake模型、虚拟静电场(Virtual Electric Field,VEF)Snake模型、卷积虚拟静电场(Convolutional Virtual Electric Field,Convolutional VEF)Snake模型。相比较而言,卷积虚拟静电场Snake模型通过使用虚拟静电场(virtual electric field,VEF)作为外力(external force),以及使用卷积(convolution)机制,该模型可以更快速准确地定位唇部轮廓。
在第③步使用唇部区域特征进行唇语识别中,广泛使用的分类方法是隐马尔科夫模型(hidden markov model(HMM))。隐马尔科夫模型在语言识别中很有用,因为它可以自然地对语言的时域特性进行建模。但是考虑到语言的本质属性,隐马尔科夫模型的分段式静态以及依赖性的假设(the piece-wise stationary and independence assumptions)是该模型的两个局限。
本发明中使用到的一项重要的已有技术是:基于卷积虚拟静电场Snake模型的唇形跟踪算法。
吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》(第六届和谐人机环境联合学术会议,2010)中公开了基于卷积虚拟静电场Snake模型的唇形跟踪算法的详细设计。
本发明使用到的另外一项重要的已有技术是:典型相关判别分析(Discriminative Analysis of Canonical Correlation,DCC)方法。
T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence,Vol.29,No.6(2007))中公开了典型相关判别分析方法的操作步骤。该方法中通过引入一个变换矩阵T来最大化同类数据集(within-class sets)的相似度(用典型相关系数和表示),最小化异类数据集(between-class sets)的相似度,以达到更好的识别效果。
近年来典型相关判别分析方法已被成功地应用于图像集匹配、人脸或物体识别等领域,因此将典型相关判别分析方法用于解决唇语识别问题从理论上讲是一个简单而有效的方法。但是,目前为止,还未查找到将典型相关判别分析方法用于自动唇语识别识别中的相关文献及实际应用。
发明内容
本发明的目的是为了克服已有技术存在的不足,提出了一种适用于中文的自动唇语识别系统。
本发明的目的是通过下述技术方案实现的。
一种适用于中文的自动唇语识别系统,包括:头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。
其连接关系为:头戴式摄像头的输出端与人机交互模块的输入端连接;人机交互模块的输出端与唇部轮廓定位模块的输入端连接;唇部轮廓定位模块的输出端与几何向量获取模块的输入端连接;几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造模块的输入端连接;运动向量获取模块的输出端与特征矩阵构造模块的输入端连接;特征矩阵构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接;变换矩阵T获取模块与存储器A连接;转换特征矩阵获取模块与存储器A和存储器B连接;存储器A和存储器B还与典型相关判别分析模块的输入端连接;典型相关判别分析模块的输出端与人机交互模块的输入端连接。
各模块及设备的主要功能是:
头戴式摄像头的主要功能是:获取被试者发出的汉字发音图像序列。
人机交互模块的主要功能是:①提供一个闭合轮廓曲线,以供被试者调整头戴式摄像头的位置,使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中。②获取头戴式摄像头拍摄的汉字发音图像序列;③对典型相关判别分析模块的结果进行输出。
唇部轮廓定位模块的主要功能是:使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块。
几何向量获取模块的主要功能是:从唇部轮廓定位模块输出的汉字发音图像序列中的每帧图像的唇部轮廓曲线中获取唇部几何特征向量;并且为了弥补不同被试者之间的唇形差异以及图像缩放比例差异,对唇部几何特征向量做归一化操作,得到归一化操作后的唇部几何特征向量,并输出至运动向量获取模块和特征矩阵构造模块。
运动向量获取模块的主要功能是:以经过归一化操作的唇部几何特征向量为基础,构造每帧图像的唇部运动特征向量,然后将唇部运动特征向量输出至特征矩阵构造模块。
特征矩阵构造模块的主要功能是:构造汉字发音图像序列的特征矩阵,然后将汉字发音图像序列的特征矩阵输出至变换矩阵T获取模块和转换特征矩阵获取模块。
变换矩阵T获取模块的主要功能是:针对训练数据的汉字发音图像序列的特征矩阵,采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonicai Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence,Vo1.29,No.6(2007))中提出的典型相关判别分析方法进行处理,得到变换矩阵T,并将其存储到存储器A。
转换特征矩阵获取模块的主要功能是:使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵进行转换,得到转换特征矩阵,并将训练数据的汉字发音图像序列的转换特征矩阵存储到存储器A。
存储器A:存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵。
存储器B:存储测试数据的汉字发音图像序列的转换特征矩阵。
典型相关判别分析模块:从存储器B中获取当前测试数据的转换特征矩阵与存储器A中的每个训练数据的转换特征矩阵的典型相关系数和,然后进一步对这些典型相关系数和进行处理,获得当前测试数据的识别结果,并将该识别结果输出到人机交互模块。
所述自动唇语识别系统的工作过程分为系统训练过程和系统测试过程:
系统训练过程的工作流程为:
步骤1.1:选取m个汉字作为训练数据,m≥5且m为正整数;
步骤1.2:人机交互模块显示一个闭合轮廓曲线。
步骤1.3:被试人将头戴式摄像头固定在头部;被试人调整头戴式摄像头的位置,使其直接拍摄被试脸的下半部分,拍摄图像发送至人机交互模块显示;被试人再次调整头戴式摄像头的位置,使得被试者的唇部区域被包含在步骤1.2中所述的闭合轮廓曲线中。
步骤1.4:被试者以每秒钟1个汉字的语速对步骤1.1中所述的m个汉字进行发音,同时头戴式摄像头的拍摄速度为每秒n帧,n≥25且n为正整数;因此每个汉字发音的视频流由n帧图像序列组成;将一个汉字的n帧图像序列称为一个汉字发音图像序列;头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块。
步骤1.5:人机交互模块将步骤1.2中所述闭合轮廓曲线和步骤1.4中所述的头戴式摄像头拍摄的汉字发音图像序列发送至唇部轮廓定位模块。
步骤1.6:唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块。其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用人机交互模块提供的闭合轮廓曲线;对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲线。
步骤1.7:几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量,用gi表示,i表示一个汉字发音图像序列中各帧图像的顺序号,1≤i≤n且i为正整数;并且为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量,用gi′表示;然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块。获取经过归一化操作后的唇部几何特征向量的具体操作步骤为:
步骤1.7.1:计算唇部轮廓曲线水平方向的极值,得到左右嘴角的点坐标。
步骤1.7.2:将左右嘴角两点用一条直线相连,以左右嘴角点的中点为圆心,称该圆心为点O,按顺时针方向旋转该直线5次,每次旋转30度;每旋转一次将会得到直线与唇形曲线相交的两条线段,总共得到12条线段,从左嘴角开始按顺时针顺序分别用L1~L12表示这12条线段的长度,称该12条线段的长度L1~L12为辐射向量;将左右嘴角两点间的直线旋转90度时,与唇形曲线相交的上交点和下交点分别成为点A和点B。
步骤1.7.3:从左右嘴角两点中任选一点,称该点为点Q,将点Q分别与点A和点B用直线相连;∠AQO用θ1表示,∠BQO用θ2表示,可根据L1~L12,得到θ1和θ2的角度,进而得到θ1和θ2的余弦值;
步骤1.7.4:L1~L12以及θ1和θ2的余弦值就构成了一帧图像中的唇部几何特征向量;由于L1和L7是连接左右嘴角线段长度的一半,所以它们的值相等,因此在唇部几何特征向量中去掉L7,即一帧图像中的唇部几何特征向量gi=[L1,…,L6,L8,…L12,cosθ1,cosθ2]t;
步骤1.7.5:为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量,用gi′表示;gi′是一个13维横向量,gi′=[L1′,…,L6′,L8′,…L12′,cosθ1,cosθ2];其中,j=1,2,…6,8,…,12,是一个汉字发音图像序列的第一帧图像中左右嘴角间距离。
步骤1.8:运动向量获取模块以经过归一化操作的唇部几何特征向量为基础,构造每帧图像的唇部运动特征向量(用pi表示),pi是一个13维横向量,pi=(gi′-gi-1′)/Δt,其中,g0′=g1′,Δt是两个连续帧的时间间隔;然后将唇部运动特征向量pi输出至特征矩阵构造模块;
步骤1.9:特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵(用Zf表示,其中f表示训练数据的汉字发音图像序列的顺序号,1≤f≤m且f为正整数),然后将训练数据的汉字发音图像序列的特征矩阵Zf分别输出至变换矩阵T获取模块和转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为:
步骤1.9.2:汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量vi组合而成,因此训练数据的汉字发音图像序列的特征矩阵Zf={v1,v2,...,vn}∈R26×n。
步骤1.10:变换矩阵T获取模块针对m个训练数据的汉字发音图像序列的特征矩阵Zf,采用T.-K.Kim等人提出的典型相关判别分析方法进行处理,得到变换矩阵T∈R26×r,r<26,且r为正整数,R表示实数,并将变换矩阵T存储到存储器A。
步骤1.11:转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵Zf进行转换,得到转换特征矩阵Zf′=TTZf,并训练数据的汉字发音图像序列的转换特征矩阵Zf′存储到存储器A。
经过上述步骤的操作,即可完成对所述自动唇语识别系统的训练。
系统测试过程的工作流程为:
步骤2.1:从m个训练数据中选取m′个汉字作为测试数据,m′≤m且m′为正整数。
步骤2.2:人机交互模块显示一个闭合轮廓曲线。
步骤2.3:被试人将头戴式摄像头固定在头部;被试人调整头戴式摄像头的位置,使其直接拍摄被试脸的下半部分,拍摄图像发送至人机交互模块显示;被试人再次调整头戴式摄像头的位置,使得被试者的唇部区域被包含在步骤2.2中所述的闭合轮廓曲线中。
步骤2.4:被试者以每秒钟1个汉字的语速对步骤2.1中所述的m′个汉字进行发音,同时头戴式摄像头的拍摄速度为每秒n帧;因此每个汉字发音的视频流由n帧图像序列组成;将一个汉字的n帧图像序列称为一个汉字发音图像序列;头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块。
步骤2.5:人机交互模块将步骤2.2中所述闭合轮廓曲线和步骤2.4中所述的汉字发音图像序列发送至唇部轮廓定位模块。
步骤2.6:与系统训练过程中的步骤1.6的操作相同。
步骤2.7:与系统训练过程中的步骤1.7的操作相同。
步骤2.8:与系统训练过程中的步骤1.8的操作相同。
步骤2.9:特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵(用Ze表示,其中e表示测试数据的汉字发音图像序列的顺序号,1≤e≤m′且e为正整数),然后将测试数据的汉字发音图像序列的特征矩阵Ze输出至转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为:
步骤2.9.2:汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量vi组合而成,因此测试数据的汉字发音图像序列的特征矩阵Ze={v1,v2,...,vn}∈R26×n。
步骤2.10:转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵T对测试数据的汉字发音图像序列的特征矩阵Ze进行转换,得到转换特征矩阵Ze′=TTZe,并将测试数据的汉字发音图像序列的转换特征矩阵Ze′存储到存储器B。
步骤2.11:典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵Zf′,从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵Ze′,然后采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonicai Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence,Vol.29,No.6(2007))中提出的典型相关判别分析方法计算该测试数据的转换特征矩阵Ze′与每个训练数据的转换特征矩阵Zf′的典型相关系数和;由于训练数据中可能存在重复的汉字,因此同一个汉字对应的典型相关系数和有1个或1个以上,所以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值,并从这些平均值中取出最大值,将该最大值在训练数据中对应的汉字输出到人机交互模块。
步骤2.12:人机交互模块显示典型相关判别分析模块传输过来的汉字。
经过上述步骤,即可完成对测试数据的自动识别。
有益效果
与已有中文自动唇语识别系统相比,本发明具有以下优点:
①本发明中使用头戴式摄像头来直接获取唇部图像序列,每次实验开始时被试使用人机交互的方式来调整头戴式摄像头的位置,实验过程中摄像头和人脸的相对位置是固定的,被试可以自然地进行汉字发音,不用刻意去保持头部姿势和位置。相比前人方法,本文可以非常准确地获取唇部图像序列,前期运算量大大减少,且可以减少对被试的约束,使实验过程更加自然。
②本发明使用卷积虚拟静电场Snake模型定位唇部轮廓,更快速准确。
③本发明提取的唇语特征结合了唇部几何特征和唇部运动特征,使分析更准确。
④本发明首次将典型相关判别分析方法成功的运用到唇语自动识别领域,克服了隐马尔科夫模型在语言识别中的局限性。
附图说明
图1为本发明具体实施方式中的适用于中文的自动唇语识别系统的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
一种适用于中文的自动唇语识别系统,其系统结构如图1所示,包括:头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。
其连接关系为:头戴式摄像头的输出端与人机交互模块的输入端连接;人机交互模块的输出端与唇部轮廓定位模块的输入端连接;唇部轮廓定位模块的输出端与几何向量获取模块的输入端连接;几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造模块的输入端连接;运动向量获取模块的输出端与特征矩阵构造模块的输入端连接;特征矩阵构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接;变换矩阵T获取模块与存储器A连接;转换特征矩阵获取模块与存储器A和存储器B连接;存储器A和存储器B还与典型相关判别分析模块的输入端连接;典型相关判别分析模块的输出端与人机交互模块的输入端连接。
各模块及设备的主要功能是:
头戴式摄像头的主要功能是:获取被试者发出的汉字发音图像序列。
人机交互模块的主要功能是:①提供一个闭合轮廓曲线,以供被试者调整头戴式摄像头的位置,使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中。②获取头戴式摄像头拍摄的汉字发音图像序列;③对典型相关判别分析模块的结果进行输出。
唇部轮廓定位模块的主要功能是:使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块。
几何向量获取模块的主要功能是:从唇部轮廓定位模块输出的汉字发音图像序列中的每帧图像的唇部轮廓曲线中获取唇部几何特征向量;并且为了弥补不同被试者之间的唇形差异以及图像缩放比例差异,对唇部几何特征向量做归一化操作,得到归一化操作后的唇部几何特征向量,并输出至运动向量获取模块和特征矩阵构造模块。
运动向量获取模块的主要功能是:以经过归一化操作的唇部几何特征向量为基础,构造每帧图像的唇部运动特征向量,然后将唇部运动特征向量输出至特征矩阵构造模块。
特征矩阵构造模块的主要功能是:构造汉字发音图像序列的特征矩阵,然后将汉字发音图像序列的特征矩阵输出至变换矩阵T获取模块和转换特征矩阵获取模块。
变换矩阵T获取模块的主要功能是:针对训练数据的汉字发音图像序列的特征矩阵,采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence,Vol.29,No.6(2007))中提出的典型相关判别分析方法进行处理,得到变换矩阵T,并将其存储到存储器A。
转换特征矩阵获取模块的主要功能是:使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵进行转换,得到转换特征矩阵,并将训练数据的汉字发音图像序列的转换特征矩阵存储到存储器A。
存储器A:存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵。
存储器B:存储测试数据的汉字发音图像序列的转换特征矩阵。
典型相关判别分析模块:从存储器B中获取当前测试数据的转换特征矩阵与存储器A中的每个训练数据的转换特征矩阵的典型相关系数和,然后进一步对这些典型相关系数和进行处理,获得当前测试数据的识别结果,并将该识别结果输出到人机交互模块。
使用上述系统进行实验,试验中选择10名被试者(4名男性和6名女性),然后让他们每人对”零、一、二、三、四、五、我、爱、北、京”10个汉字发音20次,每个汉字得到200个汉字发音图像序列;然后,对于每个汉字,从其对应的200个汉字发音图像序列中随机选取80%(160个)作为训练数据,剩下的20%(40个)的汉字发音图像序列作为测试数据;因此训练数据有1600个,测试数据有400个。
2000个汉字发音图像序列获取的步骤如下:
步骤1:人机交互模块显示一个闭合轮廓曲线。
步骤2:10名被试人依次将头戴式摄像头固定在头部;被试人调整头戴式摄像头的位置,使其直接拍摄被试脸的下半部分,拍摄图像发送至人机交互模块显示;被试人再次调整头戴式摄像头的位置,使得被试者的唇部区域被包含在步骤1中所述的闭合轮廓曲线中。
步骤3:被试者以每秒钟1个汉字的语速对”零、一、二、三、四、五、我、爱、北、京”10个汉字进行发音,每个汉字发音20次,同时头戴式摄像头的拍摄速度为每秒30帧,因此每个汉字发音的视频流由30帧图像序列组成;将一个汉字的30帧图像序列称为一个汉字发音图像序列。
经过上述步骤的操作,即可获取10个汉字的2000个汉字发音图像序列。
然后,实验人员使用随机选取的1600个汉字发音图像序列作为训练数据对系统进行训练,过程如下:
步骤1:将人机交互模块中出现的闭合轮廓曲线和1600个汉字发音图像序列发送至唇部轮廓定位模块。
步骤2:唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块。其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用人机交互模块提供的闭合轮廓曲线;对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲线。
步骤3:几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量g1~g30表示,;并且为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量g1~g30做归一化操作,得到归一化操作后的唇部几何特征向量g1′~g30′;然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块。获取经过归一化操作后的唇部几何特征向量的具体操作步骤为:
步骤3.1:计算唇部轮廓曲线水平方向的极值,得到左右嘴角的点坐标。
步骤3.2:将左右嘴角两点用一条直线相连,以左右嘴角点的中点为圆心,称该圆心为点O,按顺时针方向旋转该直线5次,每次旋转30度;每旋转一次将会得到直线与唇形曲线相交的两条线段,总共得到12条线段,从左嘴角开始按顺时针顺序分别用L1~L12表示这12条线段的长度,称该12条线段的长度L1~L12为辐射向量;将左右嘴角两点间的直线旋转90度时,与唇形曲线相交的上交点和下交点分别成为点A和点B。
步骤3.3:将左嘴角称为点Q,将点Q分别与点A和点B用直线相连;∠AQO用θ1表示,∠BQO用θ2表示,可根据L1~L12,得到θ1和θ2的角度,进而得到θ1和θ2的余弦值;
步骤3.4:L1~L12以及θ1和θ2的余弦值就构成了一帧图像中的唇部几何特征向量;由于L1和L7是连接左右嘴角线段长度的一半,所以它们的值相等,因此在唇部几何特征向量中去掉L7,即一帧图像中的唇部几何特征向量gi=[L1,…,L6,L8,…L12,cosθ1,cosθ2]t,i=1,2,…,30;
步骤3.5:为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量gi′;gi′是一个13维横向量,gi′=[L1′,…,L6′,L8′,…L12′,cosθ1,cosθ2];其中,j=1,2,…6,8,…,12,是一个汉字发音图像序列的第一帧图像中左右嘴角间距离。
步骤4:运动向量获取模块以经过归一化操作的唇部几何特征向量为基础,构造每帧图像的唇部运动特征向量pi,pi是一个13维横向量,pi=(gi′-gi-1′)/Δt,其中,g0′=g1′,Δt是两个连续帧的时间间隔;然后将唇部运动特征向量pi输出至特征矩阵构造模块;
步骤5:特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵Zf,f=1,2,…,1600,然后将训练数据的汉字发音图像序列的特征矩阵Zf分别输出至变换矩阵T获取模块和转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为:
步骤5.2:汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量vi组合而成,因此训练数据的汉字发音图像序列的特征矩阵Zf={v1,v2,...,vn}∈R26×30。
步骤1.6:变换矩阵T获取模块针对1600个训练数据的汉字发音图像序列的特征矩阵Zf,采用T.-K.Kim等人提出的典型相关判别分析方法进行处理,得到变换矩阵T,并将变换矩阵T存储到存储器A。
步骤1.7:转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵Zf进行转换,得到转换特征矩阵Zf′=TTZf,并训练数据的汉字发音图像序列的转换特征矩阵Zf′存储到存储器A。
经过上述步骤的操作,即可完成对所述自动唇语识别系统的训练。
将自动唇语识别系统训练好以后,实验人员使用400条测试数据对该系统进行测试,过程如下:
步骤1:将人机交互模块中出现的闭合轮廓曲线和400个汉字发音图像序列发送至唇部轮廓定位模块。
步骤2:唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块。其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用人机交互模块提供的闭合轮廓曲线;对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲线。
步骤3:几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量g1~g30表示,;并且为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量g1~g30做归一化操作,得到归一化操作后的唇部几何特征向量g1′~g30′;然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块。获取经过归一化操作后的唇部几何特征向量的具体操作步骤为:
步骤3.1:计算唇部轮廓曲线水平方向的极值,得到左右嘴角的点坐标。
步骤3.2:将左右嘴角两点用一条直线相连,以左右嘴角点的中点为圆心,称该圆心为点O,按顺时针方向旋转该直线5次,每次旋转30度;每旋转一次将会得到直线与唇形曲线相交的两条线段,总共得到12条线段,从左嘴角开始按顺时针顺序分别用L1~L12表示这12条线段的长度,称该12条线段的长度L1~L12为辐射向量;将左右嘴角两点间的直线旋转90度时,与唇形曲线相交的上交点和下交点分别成为点A和点B。
步骤3.3:将左嘴角称为点Q,将点Q分别与点A和点B用直线相连;∠AQ0用θ1表示,∠BQO用θ2表示,可根据L1~L12,得到θ1和θ2的角度,进而得到θ1和θ2的余弦值;
步骤3.4:L1~L12以及θ1和θ2的余弦值就构成了一帧图像中的唇部几何特征向量;由于L1和L7是连接左右嘴角线段长度的一半,所以它们的值相等,因此在唇部几何特征向量中去掉L7,即一帧图像中的唇部几何特征向量gi=[L1,…,L6,L8,…L12,cosθ1,cosθ2]t,i=1,2,…,30;
步骤3.5:为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量gi′;gi′是一个13维横向量,gi′=[L1′,…,L6′,L8′,…L12′,cosθ1,cosθ2];其中,j=1,2,…6,8,…,12,是一个汉字发音图像序列的第一帧图像中左右嘴角间距离。
步骤4:运动向量获取模块以经过归一化操作的唇部几何特征向量为基础,构造每帧图像的唇部运动特征向量pi,pi是一个13维横向量,pi=(gi′-gi-1′)/Δt,其中,g0′=g1′,Δt是两个连续帧的时间间隔;然后将唇部运动特征向量pi输出至特征矩阵构造模块;
步骤4:特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵Ze,e=1,2,…,400,然后将测试数据的汉字发音图像序列的特征矩阵Ze输出至转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为:
步骤4.2:汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量vi组合而成,因此测试数据的汉字发音图像序列的特征矩阵Ze={v1,v2,...,vn}∈R26×30。
步骤5:转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵T对测试数据的汉字发音图像序列的特征矩阵Ze进行转换,得到转换特征矩阵Ze′=TTZe,并将测试数据的汉字发音图像序列的转换特征矩阵Ze′存储到存储器B。
步骤6:典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵Zf′,从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵Ze′,然后采用T.-K.Kim等人提出的典型相关判别分析方法计算该测试数据的转换特征矩阵Ze′与每个训练数据的转换特征矩阵Zf′的典型相关系数和;由于训练数据中可能存在重复的汉字,因此同一个汉字对应的典型相关系数和有1个或1个以上,所以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值,并从这些平均值中取出最大值,将该最大值在训练数据中对应的汉字输出到人机交互模块。
步骤7:人机交互模块显示典型相关判别分析模块传输过来的汉字。
经过上述步骤,即可完成对测试数据的自动识别,该系统的识别准确率如表1中的第2列所示;同时为了说明本发明的效果,还进行了2项实验:
1.在相同的实验环境、训练数据、测试数据的情况下,将本发明中使用的卷积虚拟静电场Snake模型换成传统Snake模型、其它功能不变,得到的识别准确率如表1中的第3列所示;
2.在相同的实验环境、训练数据、测试数据的情况下,将本发明中使用的典型相关分析方法换成连续隐马尔科夫模型(Continuous Hidden Markov Model,CHMM)、其它功能不变,得到的识别准确率如表1中的第4列所示。
表1不同方法的识别准确率比较结果(%)
(1) | (2) | (3) | |
“零” | 90.0 | 73.5 | 88.5 |
“一” | 92.0 | 75.0 | 90.5 |
“二” | 86.5 | 76.0 | 83.0 |
“三” | 93.0 | 81.5 | 92.5 |
“四” | 95.0 | 83.0 | 95.5 |
“五” | 89.5 | 73.0 | 91.0 |
“我” | 96.0 | 82.0 | 95.0 |
“爱” | 97.0 | 82.5 | 95.5 |
“北” | 93.5 | 81.5 | 94.0 |
“京” | 90.0 | 75.5 | 88.0 |
实验表明本发明提出的系统具有更高的识别准确率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,或者对其中部分技术特征进行等同替换,这些改进和替换也应视为本发明的保护范围。
Claims (1)
1.一种适用于中文的自动唇语识别系统,包括:头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块;
其连接关系为:头戴式摄像头的输出端与人机交互模块的输入端连接;人机交互模块的输出端与唇部轮廓定位模块的输入端连接;唇部轮廓定位模块的输出端与几何向量获取模块的输入端连接;几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造模块的输入端连接;运动向量获取模块的输出端与特征矩阵构造模块的输入端连接;特征矩阵构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接;变换矩阵T获取模块与存储器A连接;转换特征矩阵获取模块与存储器A和存储器B连接;存储器A和存储器B还与典型相关判别分析模块的输入端连接;典型相关判别分析模块的输出端与人机交互模块的输入端连接;
各模块及设备的主要功能是:
头戴式摄像头的主要功能是:获取被试者发出的汉字发音图像序列;
人机交互模块的主要功能是:①提供一个闭合轮廓曲线,以供被试者调整头戴式摄像头的位置,使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中;②获取头戴式摄像头拍摄的汉字发音图像序列;③对典型相关判别分析模块的结果进行输出;
唇部轮廓定位模块的主要功能是:使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块;
几何向量获取模块的主要功能是:从唇部轮廓定位模块输出的汉字发音图像序列中的每帧图像的唇部轮廓曲线中获取唇部几何特征向量;并且为了弥补不同被试者之间的唇形差异以及图像缩放比例差异,对唇部几何特征向量做归一化操作,得到归一化操作后的唇部几何特征向量,并输出至运动向量获取模块和特征矩阵构造模块;
运动向量获取模块的主要功能是:以经过归一化操作的唇部几何特征向量为基础,构造每帧图像的唇部运动特征向量,然后将唇部运动特征向量输出至特征矩阵构造模块;
特征矩阵构造模块的主要功能是:构造汉字发音图像序列的特征矩阵,然后将汉字发音图像序列的特征矩阵输出至变换矩阵T获取模块和转换特征矩阵获取模块;
变换矩阵T获取模块的主要功能是:针对训练数据的汉字发音图像序列的特征矩阵,采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》中提出的典型相关判别分析方法进行处理,得到变换矩阵T,并将其存储到存储器A;
转换特征矩阵获取模块的主要功能是:使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵进行转换,得到转换特征矩阵,并将训练数据的汉字发音图像序列的转换特征矩阵存储到存储器A;
存储器A:存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵;
存储器B:存储测试数据的汉字发音图像序列的转换特征矩阵;
典型相关判别分析模块:从存储器B中获取当前测试数据的转换特征矩阵与存储器A中的每个训练数据的转换特征矩阵的典型相关系数和,然后进一步对这些典型相关系数和进行处理,获得当前测试数据的识别结果,并将该识别结果输出到人机交互模块;
所述自动唇语识别系统的工作过程分为系统训练过程和系统测试过程:
系统训练过程的工作流程为:
步骤1.1:选取m个汉字作为训练数据,m≥5且m为正整数;
步骤1.2:人机交互模块显示一个闭合轮廓曲线;
步骤1.3:被试人将头戴式摄像头固定在头部;被试人调整头戴式摄像头的位置,使其直接拍摄被试脸的下半部分,拍摄图像发送至人机交互模块显示;被试人再次调整头戴式摄像头的位置,使得被试者的唇部区域被包含在步骤1.2中所述的闭合轮廓曲线中;
步骤1.4:被试者以每秒钟1个汉字的语速对步骤1.1中所述的m个汉字进行发音,同时头戴式摄像头的拍摄速度为每秒n帧,n≥25且n为正整数;因此每个汉字发音的视频流由n帧图像序列组成;将一个汉字的n帧图像序列称为一个汉字发音图像序列;头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块;
步骤1.5:人机交互模块将步骤1.2中所述闭合轮廓曲线和步骤1.4中所述的头戴式摄像头拍摄的汉字发音图像序列发送至唇部轮廓定位模块;
步骤1.6:唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块;其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用人机交互模块提供的闭合轮廓曲线;对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲线;
步骤1.7:几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量,用gi表示,i表示一个汉字发音图像序列中各帧图像的顺序号,1≤i≤n且i为正整数;并且为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量,用gi′表示;然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块;获取经过归一化操作后的唇部几何特征向量的具体操作步骤为:
步骤1.7.1:计算唇部轮廓曲线水平方向的极值,得到左右嘴角的点坐标;
步骤1.7.2:将左右嘴角两点用一条直线相连,以左右嘴角点的中点为圆心,称该圆心为点O,按顺时针方向旋转该直线5次,每次旋转30度;每旋转一次将会得到直线与唇形曲线相交的两条线段,总共得到12条线段,从左嘴角开始按顺时针顺序分别用L1~L12表示这12条线段的长度,称该12条线段的长度L1~L12为辐射向量;将左右嘴角两点间的直线旋转90度时,与唇形曲线相交的上交点和下交点分别成为点A和点B;
步骤1.7.3:从左右嘴角两点中任选一点,称该点为点Q,将点Q分别与点A和点B用直线相连;∠AQO用θ1表示,∠BQO用θ2表示,可根据L1~L12,得到θ1和θ2的角度,进而得到θ1和θ2的余弦值;
步骤1.7.4:L1~L12以及θ1和θ2的余弦值就构成了一帧图像中的唇部几何特征向量;由于L1和L7是连接左右嘴角线段长度的一半,所以它们的值相等,因此在唇部几何特征向量中去掉L7,即一帧图像中的唇部几何特征向量gi=[L1,…,L6,L8,…L12,cosθ1,cosθ2]t;
步骤1.7.5:为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量,用gi′表示;gi′是一个13维横向量,gi′=[L1′,…,L6′,L8′,…L12′,cosθ1,cosθ2];其中,j=1,2,…6,8,…,12,是一个汉字发音图像序列的第一帧图像中左右嘴角间距离;
步骤1.8:运动向量获取模块以经过归一化操作的唇部几何特征向量为基础,构造每帧图像的唇部运动特征向量,用pi表示,pi是一个13维横向量,pi=(gi′-gi-1′)/Δt,其中,g0′=g1′,Δt是两个连续帧的时间间隔;然后将唇部运动特征向量pi输出至特征矩阵构造模块;
步骤1.9:特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵,用Zf表示,其中f表示训练数据的汉字发音图像序列的顺序号,1≤f≤m且f为正整数;然后将训练数据的汉字发音图像序列的特征矩阵Zf分别输出至变换矩阵T获取模块和转换特征矩阵获取模块;构造汉字发音图像序列的特征矩阵的具体操作步骤为:
步骤1.9.2:汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量vi组合而成,因此训练数据的汉字发音图像序列的特征矩阵Zf={v1,v2,...,vn}∈R26×n;
步骤1.10:变换矩阵T获取模块针对m个训练数据的汉字发音图像序列的特征矩阵Zf,采用T.-K.Kim等人提出的典型相关判别分析方法进行处理,得到变换矩阵T∈R26×r,r<26,且r为正整数,R表示实数,并将变换矩阵T存储到存储器A;
步骤1.11:转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵Zf进行转换,得到转换特征矩阵Zf′=TTZf,并训练数据的汉字发音图像序列的转换特征矩阵Zf′存储到存储器A;
经过上述步骤的操作,即可完成对所述自动唇语识别系统的训练;
系统测试过程的工作流程为:
步骤2.1:从m个训练数据中选取m′个汉字作为测试数据,m′≤m且m′为正整数;
步骤2.2:人机交互模块显示一个闭合轮廓曲线;
步骤2.3:被试人将头戴式摄像头固定在头部;被试人调整头戴式摄像头的位置,使其直接拍摄被试脸的下半部分,拍摄图像发送至人机交互模块显示;被试人再次调整头戴式摄像头的位置,使得被试者的唇部区域被包含在步骤2.2中所述的闭合轮廓曲线中;
步骤2.4:被试者以每秒钟1个汉字的语速对步骤2.1中所述的m′个汉字进行发音,同时头戴式摄像头的拍摄速度为每秒n帧;因此每个汉字发音的视频流由n帧图像序列组成;将一个汉字的n帧图像序列称为一个汉字发音图像序列;头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块;
步骤2.5:人机交互模块将步骤2.2中所述闭合轮廓曲线和步骤2.4中所述的汉字发音图像序列发送至唇部轮廓定位模块;
步骤2.6:与系统训练过程中的步骤1.6的操作相同;
步骤2.7:与系统训练过程中的步骤1.7的操作相同;
步骤2.8:与系统训练过程中的步骤1.8的操作相同;
步骤2.9:特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵,用Ze表示,其中e表示测试数据的汉字发音图像序列的顺序号,1≤e≤m′且e为正整数;然后将测试数据的汉字发音图像序列的特征矩阵Ze输出至转换特征矩阵获取模块;构造汉字发音图像序列的特征矩阵的具体操作步骤为:
步骤2.9.2:汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量vi组合而成,因此测试数据的汉字发音图像序列的特征矩阵Ze={v1,v2,...,vn}∈R26×n;
步骤2.10:转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵T对测试数据的汉字发音图像序列的特征矩阵Ze进行转换,得到转换特征矩阵Ze′=TTZe,并将测试数据的汉字发音图像序列的转换特征矩阵Ze′存储到存储器B;
步骤2.11:典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵Zf′,从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵Ze′,然后采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》中提出的典型相关判别分析方法计算该测试数据的转换特征矩阵Ze′与每个训练数据的转换特征矩阵Zf′的典型相关系数和;由于训练数据中可能存在重复的汉字,因此同一个汉字对应的典型相关系数和有1个或1个以上,所以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值,并从这些平均值中取出最大值,将该最大值在训练数据中对应的汉字输出到人机交互模块;
步骤2.12:人机交互模块显示典型相关判别分析模块传输过来的汉字;
经过上述步骤,即可完成对测试数据的自动分类识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105582532A CN102004549B (zh) | 2010-11-22 | 2010-11-22 | 一种适用于中文的自动唇语识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105582532A CN102004549B (zh) | 2010-11-22 | 2010-11-22 | 一种适用于中文的自动唇语识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102004549A true CN102004549A (zh) | 2011-04-06 |
CN102004549B CN102004549B (zh) | 2012-05-09 |
Family
ID=43811953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105582532A Expired - Fee Related CN102004549B (zh) | 2010-11-22 | 2010-11-22 | 一种适用于中文的自动唇语识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102004549B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104808794A (zh) * | 2015-04-24 | 2015-07-29 | 北京旷视科技有限公司 | 一种唇语输入方法和系统 |
CN105787428A (zh) * | 2016-01-08 | 2016-07-20 | 上海交通大学 | 基于稀疏编码的唇语特征身份认证方法 |
CN106250829A (zh) * | 2016-07-22 | 2016-12-21 | 中国科学院自动化研究所 | 基于唇部纹理结构的数字识别方法 |
CN107025439A (zh) * | 2017-03-22 | 2017-08-08 | 天津大学 | 基于深度数据的唇部区域特征提取和规范化方法 |
CN107122646A (zh) * | 2017-04-26 | 2017-09-01 | 大连理工大学 | 一种实现唇语解锁的方法 |
CN107992812A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种唇语识别方法及装置 |
CN108596107A (zh) * | 2018-04-26 | 2018-09-28 | 京东方科技集团股份有限公司 | 基于ar设备的唇语识别方法及其装置、ar设备 |
CN109389098A (zh) * | 2018-11-01 | 2019-02-26 | 重庆中科云丛科技有限公司 | 一种基于唇语识别的验证方法以及系统 |
CN109682676A (zh) * | 2018-12-29 | 2019-04-26 | 上海工程技术大学 | 一种纤维拉伸断裂的声发射信号的特征提取方法 |
US10275685B2 (en) | 2014-12-22 | 2019-04-30 | Dolby Laboratories Licensing Corporation | Projection-based audio object extraction from audio content |
CN110580336A (zh) * | 2018-06-08 | 2019-12-17 | 北京得意音通技术有限责任公司 | 唇语的分词方法、装置、存储介质和电子设备 |
CN111326152A (zh) * | 2018-12-17 | 2020-06-23 | 南京人工智能高等研究院有限公司 | 语音控制方法及装置 |
CN111898420A (zh) * | 2020-06-17 | 2020-11-06 | 北方工业大学 | 一种唇语识别系统 |
CN112053160A (zh) * | 2020-09-03 | 2020-12-08 | 中国银行股份有限公司 | 一种用于唇语识别的智能手环、唇语识别系统及方法 |
WO2021051603A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于坐标变换的嘴唇剪切方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
-
2010
- 2010-11-22 CN CN2010105582532A patent/CN102004549B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
Non-Patent Citations (2)
Title |
---|
《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 20070630 Tae-Kyun Kim et al. Discriminative learning and recognition of image set classes using canonical correlations 全文 1 第29卷, 第6期 2 * |
《第六届和谐人机环境联合学术会议》 20101024 吕坤 等 基于卷积虚拟静电场Snake模型的唇形跟踪算法 , 2 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10275685B2 (en) | 2014-12-22 | 2019-04-30 | Dolby Laboratories Licensing Corporation | Projection-based audio object extraction from audio content |
CN104808794A (zh) * | 2015-04-24 | 2015-07-29 | 北京旷视科技有限公司 | 一种唇语输入方法和系统 |
CN104808794B (zh) * | 2015-04-24 | 2019-12-10 | 北京旷视科技有限公司 | 一种唇语输入方法和系统 |
CN105787428A (zh) * | 2016-01-08 | 2016-07-20 | 上海交通大学 | 基于稀疏编码的唇语特征身份认证方法 |
CN106250829A (zh) * | 2016-07-22 | 2016-12-21 | 中国科学院自动化研究所 | 基于唇部纹理结构的数字识别方法 |
CN107025439A (zh) * | 2017-03-22 | 2017-08-08 | 天津大学 | 基于深度数据的唇部区域特征提取和规范化方法 |
CN107025439B (zh) * | 2017-03-22 | 2020-04-24 | 天津大学 | 基于深度数据的唇部区域特征提取和规范化方法 |
CN107122646A (zh) * | 2017-04-26 | 2017-09-01 | 大连理工大学 | 一种实现唇语解锁的方法 |
CN107992812A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种唇语识别方法及装置 |
CN108596107A (zh) * | 2018-04-26 | 2018-09-28 | 京东方科技集团股份有限公司 | 基于ar设备的唇语识别方法及其装置、ar设备 |
US11527242B2 (en) | 2018-04-26 | 2022-12-13 | Beijing Boe Technology Development Co., Ltd. | Lip-language identification method and apparatus, and augmented reality (AR) device and storage medium which identifies an object based on an azimuth angle associated with the AR field of view |
CN110580336A (zh) * | 2018-06-08 | 2019-12-17 | 北京得意音通技术有限责任公司 | 唇语的分词方法、装置、存储介质和电子设备 |
CN109389098A (zh) * | 2018-11-01 | 2019-02-26 | 重庆中科云丛科技有限公司 | 一种基于唇语识别的验证方法以及系统 |
CN111326152A (zh) * | 2018-12-17 | 2020-06-23 | 南京人工智能高等研究院有限公司 | 语音控制方法及装置 |
CN109682676A (zh) * | 2018-12-29 | 2019-04-26 | 上海工程技术大学 | 一种纤维拉伸断裂的声发射信号的特征提取方法 |
WO2021051603A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于坐标变换的嘴唇剪切方法、装置、设备及存储介质 |
CN111898420A (zh) * | 2020-06-17 | 2020-11-06 | 北方工业大学 | 一种唇语识别系统 |
CN112053160A (zh) * | 2020-09-03 | 2020-12-08 | 中国银行股份有限公司 | 一种用于唇语识别的智能手环、唇语识别系统及方法 |
CN112053160B (zh) * | 2020-09-03 | 2024-04-23 | 中国银行股份有限公司 | 一种用于唇语识别的智能手环、唇语识别系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102004549B (zh) | 2012-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102004549A (zh) | 一种适用于中文的自动唇语识别系统 | |
CN110866953B (zh) | 地图构建方法及装置、定位方法及装置 | |
Ko et al. | Sign language recognition with recurrent neural network using human keypoint detection | |
Luettin et al. | Speechreading using probabilistic models | |
Papandreou et al. | Adaptive multimodal fusion by uncertainty compensation with application to audiovisual speech recognition | |
Schuckers et al. | On techniques for angle compensation in nonideal iris recognition | |
Potamianos et al. | Recent advances in the automatic recognition of audiovisual speech | |
Brown et al. | Comparative study of coarse head pose estimation | |
Youssif et al. | Arabic sign language (arsl) recognition system using hmm | |
Feng et al. | Depth-projection-map-based bag of contour fragments for robust hand gesture recognition | |
Geetha et al. | A vision based dynamic gesture recognition of indian sign language on kinect based depth images | |
Bao et al. | Dynamic hand gesture recognition based on SURF tracking | |
Cappelletta et al. | Viseme definitions comparison for visual-only speech recognition | |
Jiang et al. | Improved face and feature finding for audio-visual speech recognition in visually challenging environments | |
CN104821010A (zh) | 基于双目视觉的人手三维信息实时提取方法及系统 | |
Haq et al. | Using lip reading recognition to predict daily Mandarin conversation | |
Lu et al. | Review on automatic lip reading techniques | |
Watanabe et al. | Lip reading from multi view facial images using 3D-AAM | |
Chiţu et al. | Comparison between different feature extraction techniques for audio-visual speech recognition | |
Gao et al. | Learning and synthesizing MPEG-4 compatible 3-D face animation from video sequence | |
Zheng et al. | Review of lip-reading recognition | |
Shiraishi et al. | Optical flow based lip reading using non rectangular ROI and head motion reduction | |
KR101621304B1 (ko) | 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템 | |
Reveret et al. | Visual coding and tracking of speech related facial motion | |
Aharon et al. | Representation analysis and synthesis of lip images using dimensionality reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120509 Termination date: 20171122 |