CN102004549A - 一种适用于中文的自动唇语识别系统 - Google Patents

一种适用于中文的自动唇语识别系统 Download PDF

Info

Publication number
CN102004549A
CN102004549A CN 201010558253 CN201010558253A CN102004549A CN 102004549 A CN102004549 A CN 102004549A CN 201010558253 CN201010558253 CN 201010558253 CN 201010558253 A CN201010558253 A CN 201010558253A CN 102004549 A CN102004549 A CN 102004549A
Authority
CN
China
Prior art keywords
lip
chinese character
module
matrix
image sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010558253
Other languages
English (en)
Other versions
CN102004549B (zh
Inventor
吕坤
贾云得
张欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN2010105582532A priority Critical patent/CN102004549B/zh
Publication of CN102004549A publication Critical patent/CN102004549A/zh
Application granted granted Critical
Publication of CN102004549B publication Critical patent/CN102004549B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

一种自动唇语识别系统,包括:头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。头戴式摄像头用来录制汉字发音图像序列,通过人机交互模块传输至唇部轮廓定位模块,其使用卷积虚拟静电场Snake模型从中检测及跟踪唇部轮廓;几何向量获取模块和运动向量获取模块从唇部轮廓中分别提取出几何和运动特征,并将它们联合起来作为典型相关判别分析模块的输入特征矩阵;典型相关判别分析模块计算特征矩阵间的相似度,处理后获取识别结果。本发明系统与已有唇语识别系统相比较,具有更高的识别准确率。

Description

一种适用于中文的自动唇语识别系统
技术领域
本发明涉及一种自动唇语识别系统,特别涉及一种适用于中文的自动唇语识别系统,属于自动唇语识别技术领域。
背景技术
唇语识别或唇读是人机交互(Human-Computer Interaction,HCI)中很引人注目的领域,它在自动语言识别(Automatic Speech Recognition,ASR)系统中起着重要作用。人类语言感知是一个很自然的多模态过程。听力受损的人群会充分利用唇语的提示,即使正常人也可以利用视觉信息来增强对语言的理解,特别是在嘈杂环境中。利用视觉通道的信息会有效地提高现代自动语言识别系统的性能和鲁棒性。
唇语识别任务一般包含三个主要步骤:①在发音图像序列中检测脸部及唇部区域;②从唇部区域提取适合分类的特征;③使用唇部区域特征进行唇语识别。
针对第①步,已有方法中主要使用图像处理的算法来定位脸部及唇部区域,此类方法容易受到光照、角度、旋转、遮挡等影响,会产生一定误差。
第②步中提到的唇语特征,在已有的文献中分为三大类:(1)低层的基于纹理的特征;(2)高层的基于轮廓的特征;(3)前二者的组合。这些特征中,基于轮廓的特征中的唇部几何特征(如唇的高度、宽度、角度)以及唇部运动特征被认为是最可用的视觉信息。关于唇形轮廓线分割的大量近期工作都使用了可变形模板(deformable model),其中一种有效方法就是使用Snake模型和改进的Snake模型,如梯度矢量流(Gradient Vector Flow,GVF)Snake模型、虚拟静电场(Virtual Electric Field,VEF)Snake模型、卷积虚拟静电场(Convolutional Virtual Electric Field,Convolutional VEF)Snake模型。相比较而言,卷积虚拟静电场Snake模型通过使用虚拟静电场(virtual electric field,VEF)作为外力(external force),以及使用卷积(convolution)机制,该模型可以更快速准确地定位唇部轮廓。
在第③步使用唇部区域特征进行唇语识别中,广泛使用的分类方法是隐马尔科夫模型(hidden markov model(HMM))。隐马尔科夫模型在语言识别中很有用,因为它可以自然地对语言的时域特性进行建模。但是考虑到语言的本质属性,隐马尔科夫模型的分段式静态以及依赖性的假设(the piece-wise stationary and independence assumptions)是该模型的两个局限。
本发明中使用到的一项重要的已有技术是:基于卷积虚拟静电场Snake模型的唇形跟踪算法。
吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》(第六届和谐人机环境联合学术会议,2010)中公开了基于卷积虚拟静电场Snake模型的唇形跟踪算法的详细设计。
本发明使用到的另外一项重要的已有技术是:典型相关判别分析(Discriminative Analysis of Canonical Correlation,DCC)方法。
T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence,Vol.29,No.6(2007))中公开了典型相关判别分析方法的操作步骤。该方法中通过引入一个变换矩阵T来最大化同类数据集(within-class sets)的相似度(用典型相关系数和表示),最小化异类数据集(between-class sets)的相似度,以达到更好的识别效果。
近年来典型相关判别分析方法已被成功地应用于图像集匹配、人脸或物体识别等领域,因此将典型相关判别分析方法用于解决唇语识别问题从理论上讲是一个简单而有效的方法。但是,目前为止,还未查找到将典型相关判别分析方法用于自动唇语识别识别中的相关文献及实际应用。
发明内容
本发明的目的是为了克服已有技术存在的不足,提出了一种适用于中文的自动唇语识别系统。
本发明的目的是通过下述技术方案实现的。
一种适用于中文的自动唇语识别系统,包括:头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。
其连接关系为:头戴式摄像头的输出端与人机交互模块的输入端连接;人机交互模块的输出端与唇部轮廓定位模块的输入端连接;唇部轮廓定位模块的输出端与几何向量获取模块的输入端连接;几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造模块的输入端连接;运动向量获取模块的输出端与特征矩阵构造模块的输入端连接;特征矩阵构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接;变换矩阵T获取模块与存储器A连接;转换特征矩阵获取模块与存储器A和存储器B连接;存储器A和存储器B还与典型相关判别分析模块的输入端连接;典型相关判别分析模块的输出端与人机交互模块的输入端连接。
各模块及设备的主要功能是:
头戴式摄像头的主要功能是:获取被试者发出的汉字发音图像序列。
人机交互模块的主要功能是:①提供一个闭合轮廓曲线,以供被试者调整头戴式摄像头的位置,使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中。②获取头戴式摄像头拍摄的汉字发音图像序列;③对典型相关判别分析模块的结果进行输出。
唇部轮廓定位模块的主要功能是:使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块。
几何向量获取模块的主要功能是:从唇部轮廓定位模块输出的汉字发音图像序列中的每帧图像的唇部轮廓曲线中获取唇部几何特征向量;并且为了弥补不同被试者之间的唇形差异以及图像缩放比例差异,对唇部几何特征向量做归一化操作,得到归一化操作后的唇部几何特征向量,并输出至运动向量获取模块和特征矩阵构造模块。
运动向量获取模块的主要功能是:以经过归一化操作的唇部几何特征向量为基础,构造每帧图像的唇部运动特征向量,然后将唇部运动特征向量输出至特征矩阵构造模块。
特征矩阵构造模块的主要功能是:构造汉字发音图像序列的特征矩阵,然后将汉字发音图像序列的特征矩阵输出至变换矩阵T获取模块和转换特征矩阵获取模块。
变换矩阵T获取模块的主要功能是:针对训练数据的汉字发音图像序列的特征矩阵,采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonicai Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence,Vo1.29,No.6(2007))中提出的典型相关判别分析方法进行处理,得到变换矩阵T,并将其存储到存储器A。
转换特征矩阵获取模块的主要功能是:使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵进行转换,得到转换特征矩阵,并将训练数据的汉字发音图像序列的转换特征矩阵存储到存储器A。
存储器A:存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵。
存储器B:存储测试数据的汉字发音图像序列的转换特征矩阵。
典型相关判别分析模块:从存储器B中获取当前测试数据的转换特征矩阵与存储器A中的每个训练数据的转换特征矩阵的典型相关系数和,然后进一步对这些典型相关系数和进行处理,获得当前测试数据的识别结果,并将该识别结果输出到人机交互模块。
所述自动唇语识别系统的工作过程分为系统训练过程和系统测试过程:
系统训练过程的工作流程为:
步骤1.1:选取m个汉字作为训练数据,m≥5且m为正整数;
步骤1.2:人机交互模块显示一个闭合轮廓曲线。
步骤1.3:被试人将头戴式摄像头固定在头部;被试人调整头戴式摄像头的位置,使其直接拍摄被试脸的下半部分,拍摄图像发送至人机交互模块显示;被试人再次调整头戴式摄像头的位置,使得被试者的唇部区域被包含在步骤1.2中所述的闭合轮廓曲线中。
步骤1.4:被试者以每秒钟1个汉字的语速对步骤1.1中所述的m个汉字进行发音,同时头戴式摄像头的拍摄速度为每秒n帧,n≥25且n为正整数;因此每个汉字发音的视频流由n帧图像序列组成;将一个汉字的n帧图像序列称为一个汉字发音图像序列;头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块。
步骤1.5:人机交互模块将步骤1.2中所述闭合轮廓曲线和步骤1.4中所述的头戴式摄像头拍摄的汉字发音图像序列发送至唇部轮廓定位模块。
步骤1.6:唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块。其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用人机交互模块提供的闭合轮廓曲线;对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲线。
步骤1.7:几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量,用gi表示,i表示一个汉字发音图像序列中各帧图像的顺序号,1≤i≤n且i为正整数;并且为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量,用gi′表示;然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块。获取经过归一化操作后的唇部几何特征向量的具体操作步骤为:
步骤1.7.1:计算唇部轮廓曲线水平方向的极值,得到左右嘴角的点坐标。
步骤1.7.2:将左右嘴角两点用一条直线相连,以左右嘴角点的中点为圆心,称该圆心为点O,按顺时针方向旋转该直线5次,每次旋转30度;每旋转一次将会得到直线与唇形曲线相交的两条线段,总共得到12条线段,从左嘴角开始按顺时针顺序分别用L1~L12表示这12条线段的长度,称该12条线段的长度L1~L12为辐射向量;将左右嘴角两点间的直线旋转90度时,与唇形曲线相交的上交点和下交点分别成为点A和点B。
步骤1.7.3:从左右嘴角两点中任选一点,称该点为点Q,将点Q分别与点A和点B用直线相连;∠AQO用θ1表示,∠BQO用θ2表示,可根据L1~L12,得到θ1和θ2的角度,进而得到θ1和θ2的余弦值;
步骤1.7.4:L1~L12以及θ1和θ2的余弦值就构成了一帧图像中的唇部几何特征向量;由于L1和L7是连接左右嘴角线段长度的一半,所以它们的值相等,因此在唇部几何特征向量中去掉L7,即一帧图像中的唇部几何特征向量gi=[L1,…,L6,L8,…L12,cosθ1,cosθ2]t
步骤1.7.5:为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量,用gi′表示;gi′是一个13维横向量,gi′=[L1′,…,L6′,L8′,…L12′,cosθ1,cosθ2];其中,
Figure BSA00000359669100061
j=1,2,…6,8,…,12,
Figure BSA00000359669100062
是一个汉字发音图像序列的第一帧图像中左右嘴角间距离。
步骤1.8:运动向量获取模块以经过归一化操作的唇部几何特征向量为基础,构造每帧图像的唇部运动特征向量(用pi表示),pi是一个13维横向量,pi=(gi′-gi-1′)/Δt,其中,g0′=g1′,Δt是两个连续帧的时间间隔;然后将唇部运动特征向量pi输出至特征矩阵构造模块;
步骤1.9:特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵(用Zf表示,其中f表示训练数据的汉字发音图像序列的顺序号,1≤f≤m且f为正整数),然后将训练数据的汉字发音图像序列的特征矩阵Zf分别输出至变换矩阵T获取模块和转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为:
步骤1.9.1:依次对汉字发音图像序列中的每帧图像作如下操作:将唇部几何特征向量与唇部运动特征向量相连接,形成联合特征向量(用vi表示),vi是一个26维列向量,
Figure BSA00000359669100063
步骤1.9.2:汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量vi组合而成,因此训练数据的汉字发音图像序列的特征矩阵Zf={v1,v2,...,vn}∈R26×n
步骤1.10:变换矩阵T获取模块针对m个训练数据的汉字发音图像序列的特征矩阵Zf,采用T.-K.Kim等人提出的典型相关判别分析方法进行处理,得到变换矩阵T∈R26×r,r<26,且r为正整数,R表示实数,并将变换矩阵T存储到存储器A。
步骤1.11:转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵Zf进行转换,得到转换特征矩阵Zf′=TTZf,并训练数据的汉字发音图像序列的转换特征矩阵Zf′存储到存储器A。
经过上述步骤的操作,即可完成对所述自动唇语识别系统的训练。
系统测试过程的工作流程为:
步骤2.1:从m个训练数据中选取m′个汉字作为测试数据,m′≤m且m′为正整数。
步骤2.2:人机交互模块显示一个闭合轮廓曲线。
步骤2.3:被试人将头戴式摄像头固定在头部;被试人调整头戴式摄像头的位置,使其直接拍摄被试脸的下半部分,拍摄图像发送至人机交互模块显示;被试人再次调整头戴式摄像头的位置,使得被试者的唇部区域被包含在步骤2.2中所述的闭合轮廓曲线中。
步骤2.4:被试者以每秒钟1个汉字的语速对步骤2.1中所述的m′个汉字进行发音,同时头戴式摄像头的拍摄速度为每秒n帧;因此每个汉字发音的视频流由n帧图像序列组成;将一个汉字的n帧图像序列称为一个汉字发音图像序列;头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块。
步骤2.5:人机交互模块将步骤2.2中所述闭合轮廓曲线和步骤2.4中所述的汉字发音图像序列发送至唇部轮廓定位模块。
步骤2.6:与系统训练过程中的步骤1.6的操作相同。
步骤2.7:与系统训练过程中的步骤1.7的操作相同。
步骤2.8:与系统训练过程中的步骤1.8的操作相同。
步骤2.9:特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵(用Ze表示,其中e表示测试数据的汉字发音图像序列的顺序号,1≤e≤m′且e为正整数),然后将测试数据的汉字发音图像序列的特征矩阵Ze输出至转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为:
步骤2.9.1:依次对汉字发音图像序列中的每帧图像作如下操作:将唇部几何特征向量与唇部运动特征向量相连接,形成联合特征向量vi,vi是一个26维列向量,
Figure BSA00000359669100081
步骤2.9.2:汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量vi组合而成,因此测试数据的汉字发音图像序列的特征矩阵Ze={v1,v2,...,vn}∈R26×n
步骤2.10:转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵T对测试数据的汉字发音图像序列的特征矩阵Ze进行转换,得到转换特征矩阵Ze′=TTZe,并将测试数据的汉字发音图像序列的转换特征矩阵Ze′存储到存储器B。
步骤2.11:典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵Zf′,从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵Ze′,然后采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonicai Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence,Vol.29,No.6(2007))中提出的典型相关判别分析方法计算该测试数据的转换特征矩阵Ze′与每个训练数据的转换特征矩阵Zf′的典型相关系数和;由于训练数据中可能存在重复的汉字,因此同一个汉字对应的典型相关系数和有1个或1个以上,所以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值,并从这些平均值中取出最大值,将该最大值在训练数据中对应的汉字输出到人机交互模块。
步骤2.12:人机交互模块显示典型相关判别分析模块传输过来的汉字。
经过上述步骤,即可完成对测试数据的自动识别。
有益效果
与已有中文自动唇语识别系统相比,本发明具有以下优点:
①本发明中使用头戴式摄像头来直接获取唇部图像序列,每次实验开始时被试使用人机交互的方式来调整头戴式摄像头的位置,实验过程中摄像头和人脸的相对位置是固定的,被试可以自然地进行汉字发音,不用刻意去保持头部姿势和位置。相比前人方法,本文可以非常准确地获取唇部图像序列,前期运算量大大减少,且可以减少对被试的约束,使实验过程更加自然。
②本发明使用卷积虚拟静电场Snake模型定位唇部轮廓,更快速准确。
③本发明提取的唇语特征结合了唇部几何特征和唇部运动特征,使分析更准确。
④本发明首次将典型相关判别分析方法成功的运用到唇语自动识别领域,克服了隐马尔科夫模型在语言识别中的局限性。
附图说明
图1为本发明具体实施方式中的适用于中文的自动唇语识别系统的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
一种适用于中文的自动唇语识别系统,其系统结构如图1所示,包括:头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。
其连接关系为:头戴式摄像头的输出端与人机交互模块的输入端连接;人机交互模块的输出端与唇部轮廓定位模块的输入端连接;唇部轮廓定位模块的输出端与几何向量获取模块的输入端连接;几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造模块的输入端连接;运动向量获取模块的输出端与特征矩阵构造模块的输入端连接;特征矩阵构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接;变换矩阵T获取模块与存储器A连接;转换特征矩阵获取模块与存储器A和存储器B连接;存储器A和存储器B还与典型相关判别分析模块的输入端连接;典型相关判别分析模块的输出端与人机交互模块的输入端连接。
各模块及设备的主要功能是:
头戴式摄像头的主要功能是:获取被试者发出的汉字发音图像序列。
人机交互模块的主要功能是:①提供一个闭合轮廓曲线,以供被试者调整头戴式摄像头的位置,使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中。②获取头戴式摄像头拍摄的汉字发音图像序列;③对典型相关判别分析模块的结果进行输出。
唇部轮廓定位模块的主要功能是:使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块。
几何向量获取模块的主要功能是:从唇部轮廓定位模块输出的汉字发音图像序列中的每帧图像的唇部轮廓曲线中获取唇部几何特征向量;并且为了弥补不同被试者之间的唇形差异以及图像缩放比例差异,对唇部几何特征向量做归一化操作,得到归一化操作后的唇部几何特征向量,并输出至运动向量获取模块和特征矩阵构造模块。
运动向量获取模块的主要功能是:以经过归一化操作的唇部几何特征向量为基础,构造每帧图像的唇部运动特征向量,然后将唇部运动特征向量输出至特征矩阵构造模块。
特征矩阵构造模块的主要功能是:构造汉字发音图像序列的特征矩阵,然后将汉字发音图像序列的特征矩阵输出至变换矩阵T获取模块和转换特征矩阵获取模块。
变换矩阵T获取模块的主要功能是:针对训练数据的汉字发音图像序列的特征矩阵,采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence,Vol.29,No.6(2007))中提出的典型相关判别分析方法进行处理,得到变换矩阵T,并将其存储到存储器A。
转换特征矩阵获取模块的主要功能是:使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵进行转换,得到转换特征矩阵,并将训练数据的汉字发音图像序列的转换特征矩阵存储到存储器A。
存储器A:存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵。
存储器B:存储测试数据的汉字发音图像序列的转换特征矩阵。
典型相关判别分析模块:从存储器B中获取当前测试数据的转换特征矩阵与存储器A中的每个训练数据的转换特征矩阵的典型相关系数和,然后进一步对这些典型相关系数和进行处理,获得当前测试数据的识别结果,并将该识别结果输出到人机交互模块。
使用上述系统进行实验,试验中选择10名被试者(4名男性和6名女性),然后让他们每人对”零、一、二、三、四、五、我、爱、北、京”10个汉字发音20次,每个汉字得到200个汉字发音图像序列;然后,对于每个汉字,从其对应的200个汉字发音图像序列中随机选取80%(160个)作为训练数据,剩下的20%(40个)的汉字发音图像序列作为测试数据;因此训练数据有1600个,测试数据有400个。
2000个汉字发音图像序列获取的步骤如下:
步骤1:人机交互模块显示一个闭合轮廓曲线。
步骤2:10名被试人依次将头戴式摄像头固定在头部;被试人调整头戴式摄像头的位置,使其直接拍摄被试脸的下半部分,拍摄图像发送至人机交互模块显示;被试人再次调整头戴式摄像头的位置,使得被试者的唇部区域被包含在步骤1中所述的闭合轮廓曲线中。
步骤3:被试者以每秒钟1个汉字的语速对”零、一、二、三、四、五、我、爱、北、京”10个汉字进行发音,每个汉字发音20次,同时头戴式摄像头的拍摄速度为每秒30帧,因此每个汉字发音的视频流由30帧图像序列组成;将一个汉字的30帧图像序列称为一个汉字发音图像序列。
经过上述步骤的操作,即可获取10个汉字的2000个汉字发音图像序列。
然后,实验人员使用随机选取的1600个汉字发音图像序列作为训练数据对系统进行训练,过程如下:
步骤1:将人机交互模块中出现的闭合轮廓曲线和1600个汉字发音图像序列发送至唇部轮廓定位模块。
步骤2:唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块。其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用人机交互模块提供的闭合轮廓曲线;对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲线。
步骤3:几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量g1~g30表示,;并且为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量g1~g30做归一化操作,得到归一化操作后的唇部几何特征向量g1′~g30′;然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块。获取经过归一化操作后的唇部几何特征向量的具体操作步骤为:
步骤3.1:计算唇部轮廓曲线水平方向的极值,得到左右嘴角的点坐标。
步骤3.2:将左右嘴角两点用一条直线相连,以左右嘴角点的中点为圆心,称该圆心为点O,按顺时针方向旋转该直线5次,每次旋转30度;每旋转一次将会得到直线与唇形曲线相交的两条线段,总共得到12条线段,从左嘴角开始按顺时针顺序分别用L1~L12表示这12条线段的长度,称该12条线段的长度L1~L12为辐射向量;将左右嘴角两点间的直线旋转90度时,与唇形曲线相交的上交点和下交点分别成为点A和点B。
步骤3.3:将左嘴角称为点Q,将点Q分别与点A和点B用直线相连;∠AQO用θ1表示,∠BQO用θ2表示,可根据L1~L12,得到θ1和θ2的角度,进而得到θ1和θ2的余弦值;
步骤3.4:L1~L12以及θ1和θ2的余弦值就构成了一帧图像中的唇部几何特征向量;由于L1和L7是连接左右嘴角线段长度的一半,所以它们的值相等,因此在唇部几何特征向量中去掉L7,即一帧图像中的唇部几何特征向量gi=[L1,…,L6,L8,…L12,cosθ1,cosθ2]t,i=1,2,…,30;
步骤3.5:为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量gi′;gi′是一个13维横向量,gi′=[L1′,…,L6′,L8′,…L12′,cosθ1,cosθ2];其中,
Figure BSA00000359669100131
j=1,2,…6,8,…,12,
Figure BSA00000359669100132
是一个汉字发音图像序列的第一帧图像中左右嘴角间距离。
步骤4:运动向量获取模块以经过归一化操作的唇部几何特征向量为基础,构造每帧图像的唇部运动特征向量pi,pi是一个13维横向量,pi=(gi′-gi-1′)/Δt,其中,g0′=g1′,Δt是两个连续帧的时间间隔;然后将唇部运动特征向量pi输出至特征矩阵构造模块;
步骤5:特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵Zf,f=1,2,…,1600,然后将训练数据的汉字发音图像序列的特征矩阵Zf分别输出至变换矩阵T获取模块和转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为:
步骤5.1:依次对汉字发音图像序列中的每帧图像作如下操作:将唇部几何特征向量与唇部运动特征向量相连接,形成联合特征向量vi,vi是一个26维列向量,
Figure BSA00000359669100133
步骤5.2:汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量vi组合而成,因此训练数据的汉字发音图像序列的特征矩阵Zf={v1,v2,...,vn}∈R26×30
步骤1.6:变换矩阵T获取模块针对1600个训练数据的汉字发音图像序列的特征矩阵Zf,采用T.-K.Kim等人提出的典型相关判别分析方法进行处理,得到变换矩阵T,并将变换矩阵T存储到存储器A。
步骤1.7:转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵Zf进行转换,得到转换特征矩阵Zf′=TTZf,并训练数据的汉字发音图像序列的转换特征矩阵Zf′存储到存储器A。
经过上述步骤的操作,即可完成对所述自动唇语识别系统的训练。
将自动唇语识别系统训练好以后,实验人员使用400条测试数据对该系统进行测试,过程如下:
步骤1:将人机交互模块中出现的闭合轮廓曲线和400个汉字发音图像序列发送至唇部轮廓定位模块。
步骤2:唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块。其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用人机交互模块提供的闭合轮廓曲线;对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲线。
步骤3:几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量g1~g30表示,;并且为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量g1~g30做归一化操作,得到归一化操作后的唇部几何特征向量g1′~g30′;然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块。获取经过归一化操作后的唇部几何特征向量的具体操作步骤为:
步骤3.1:计算唇部轮廓曲线水平方向的极值,得到左右嘴角的点坐标。
步骤3.2:将左右嘴角两点用一条直线相连,以左右嘴角点的中点为圆心,称该圆心为点O,按顺时针方向旋转该直线5次,每次旋转30度;每旋转一次将会得到直线与唇形曲线相交的两条线段,总共得到12条线段,从左嘴角开始按顺时针顺序分别用L1~L12表示这12条线段的长度,称该12条线段的长度L1~L12为辐射向量;将左右嘴角两点间的直线旋转90度时,与唇形曲线相交的上交点和下交点分别成为点A和点B。
步骤3.3:将左嘴角称为点Q,将点Q分别与点A和点B用直线相连;∠AQ0用θ1表示,∠BQO用θ2表示,可根据L1~L12,得到θ1和θ2的角度,进而得到θ1和θ2的余弦值;
步骤3.4:L1~L12以及θ1和θ2的余弦值就构成了一帧图像中的唇部几何特征向量;由于L1和L7是连接左右嘴角线段长度的一半,所以它们的值相等,因此在唇部几何特征向量中去掉L7,即一帧图像中的唇部几何特征向量gi=[L1,…,L6,L8,…L12,cosθ1,cosθ2]t,i=1,2,…,30;
步骤3.5:为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量gi′;gi′是一个13维横向量,gi′=[L1′,…,L6′,L8′,…L12′,cosθ1,cosθ2];其中,
Figure BSA00000359669100151
j=1,2,…6,8,…,12,
Figure BSA00000359669100152
是一个汉字发音图像序列的第一帧图像中左右嘴角间距离。
步骤4:运动向量获取模块以经过归一化操作的唇部几何特征向量为基础,构造每帧图像的唇部运动特征向量pi,pi是一个13维横向量,pi=(gi′-gi-1′)/Δt,其中,g0′=g1′,Δt是两个连续帧的时间间隔;然后将唇部运动特征向量pi输出至特征矩阵构造模块;
步骤4:特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵Ze,e=1,2,…,400,然后将测试数据的汉字发音图像序列的特征矩阵Ze输出至转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为:
步骤4.1:依次对汉字发音图像序列中的每帧图像作如下操作:将唇部几何特征向量与唇部运动特征向量相连接,形成联合特征向量vi,vi是一个26维列向量,
Figure BSA00000359669100153
步骤4.2:汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量vi组合而成,因此测试数据的汉字发音图像序列的特征矩阵Ze={v1,v2,...,vn}∈R26×30
步骤5:转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵T对测试数据的汉字发音图像序列的特征矩阵Ze进行转换,得到转换特征矩阵Ze′=TTZe,并将测试数据的汉字发音图像序列的转换特征矩阵Ze′存储到存储器B。
步骤6:典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵Zf′,从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵Ze′,然后采用T.-K.Kim等人提出的典型相关判别分析方法计算该测试数据的转换特征矩阵Ze′与每个训练数据的转换特征矩阵Zf′的典型相关系数和;由于训练数据中可能存在重复的汉字,因此同一个汉字对应的典型相关系数和有1个或1个以上,所以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值,并从这些平均值中取出最大值,将该最大值在训练数据中对应的汉字输出到人机交互模块。
步骤7:人机交互模块显示典型相关判别分析模块传输过来的汉字。
经过上述步骤,即可完成对测试数据的自动识别,该系统的识别准确率如表1中的第2列所示;同时为了说明本发明的效果,还进行了2项实验:
1.在相同的实验环境、训练数据、测试数据的情况下,将本发明中使用的卷积虚拟静电场Snake模型换成传统Snake模型、其它功能不变,得到的识别准确率如表1中的第3列所示;
2.在相同的实验环境、训练数据、测试数据的情况下,将本发明中使用的典型相关分析方法换成连续隐马尔科夫模型(Continuous Hidden Markov Model,CHMM)、其它功能不变,得到的识别准确率如表1中的第4列所示。
表1不同方法的识别准确率比较结果(%)
  (1)   (2)   (3)
  “零”   90.0   73.5   88.5
  “一”   92.0   75.0   90.5
  “二”   86.5   76.0   83.0
  “三”   93.0   81.5   92.5
  “四”   95.0   83.0   95.5
  “五”   89.5   73.0   91.0
  “我”   96.0   82.0   95.0
  “爱”   97.0   82.5   95.5
  “北”   93.5   81.5   94.0
  “京”   90.0   75.5   88.0
实验表明本发明提出的系统具有更高的识别准确率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,或者对其中部分技术特征进行等同替换,这些改进和替换也应视为本发明的保护范围。

Claims (1)

1.一种适用于中文的自动唇语识别系统,包括:头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块;
其连接关系为:头戴式摄像头的输出端与人机交互模块的输入端连接;人机交互模块的输出端与唇部轮廓定位模块的输入端连接;唇部轮廓定位模块的输出端与几何向量获取模块的输入端连接;几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造模块的输入端连接;运动向量获取模块的输出端与特征矩阵构造模块的输入端连接;特征矩阵构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接;变换矩阵T获取模块与存储器A连接;转换特征矩阵获取模块与存储器A和存储器B连接;存储器A和存储器B还与典型相关判别分析模块的输入端连接;典型相关判别分析模块的输出端与人机交互模块的输入端连接;
各模块及设备的主要功能是:
头戴式摄像头的主要功能是:获取被试者发出的汉字发音图像序列;
人机交互模块的主要功能是:①提供一个闭合轮廓曲线,以供被试者调整头戴式摄像头的位置,使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中;②获取头戴式摄像头拍摄的汉字发音图像序列;③对典型相关判别分析模块的结果进行输出;
唇部轮廓定位模块的主要功能是:使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块;
几何向量获取模块的主要功能是:从唇部轮廓定位模块输出的汉字发音图像序列中的每帧图像的唇部轮廓曲线中获取唇部几何特征向量;并且为了弥补不同被试者之间的唇形差异以及图像缩放比例差异,对唇部几何特征向量做归一化操作,得到归一化操作后的唇部几何特征向量,并输出至运动向量获取模块和特征矩阵构造模块;
运动向量获取模块的主要功能是:以经过归一化操作的唇部几何特征向量为基础,构造每帧图像的唇部运动特征向量,然后将唇部运动特征向量输出至特征矩阵构造模块;
特征矩阵构造模块的主要功能是:构造汉字发音图像序列的特征矩阵,然后将汉字发音图像序列的特征矩阵输出至变换矩阵T获取模块和转换特征矩阵获取模块;
变换矩阵T获取模块的主要功能是:针对训练数据的汉字发音图像序列的特征矩阵,采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》中提出的典型相关判别分析方法进行处理,得到变换矩阵T,并将其存储到存储器A;
转换特征矩阵获取模块的主要功能是:使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵进行转换,得到转换特征矩阵,并将训练数据的汉字发音图像序列的转换特征矩阵存储到存储器A;
存储器A:存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵;
存储器B:存储测试数据的汉字发音图像序列的转换特征矩阵;
典型相关判别分析模块:从存储器B中获取当前测试数据的转换特征矩阵与存储器A中的每个训练数据的转换特征矩阵的典型相关系数和,然后进一步对这些典型相关系数和进行处理,获得当前测试数据的识别结果,并将该识别结果输出到人机交互模块;
所述自动唇语识别系统的工作过程分为系统训练过程和系统测试过程:
系统训练过程的工作流程为:
步骤1.1:选取m个汉字作为训练数据,m≥5且m为正整数;
步骤1.2:人机交互模块显示一个闭合轮廓曲线;
步骤1.3:被试人将头戴式摄像头固定在头部;被试人调整头戴式摄像头的位置,使其直接拍摄被试脸的下半部分,拍摄图像发送至人机交互模块显示;被试人再次调整头戴式摄像头的位置,使得被试者的唇部区域被包含在步骤1.2中所述的闭合轮廓曲线中;
步骤1.4:被试者以每秒钟1个汉字的语速对步骤1.1中所述的m个汉字进行发音,同时头戴式摄像头的拍摄速度为每秒n帧,n≥25且n为正整数;因此每个汉字发音的视频流由n帧图像序列组成;将一个汉字的n帧图像序列称为一个汉字发音图像序列;头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块;
步骤1.5:人机交互模块将步骤1.2中所述闭合轮廓曲线和步骤1.4中所述的头戴式摄像头拍摄的汉字发音图像序列发送至唇部轮廓定位模块;
步骤1.6:唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块;其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用人机交互模块提供的闭合轮廓曲线;对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲线;
步骤1.7:几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量,用gi表示,i表示一个汉字发音图像序列中各帧图像的顺序号,1≤i≤n且i为正整数;并且为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量,用gi′表示;然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块;获取经过归一化操作后的唇部几何特征向量的具体操作步骤为:
步骤1.7.1:计算唇部轮廓曲线水平方向的极值,得到左右嘴角的点坐标;
步骤1.7.2:将左右嘴角两点用一条直线相连,以左右嘴角点的中点为圆心,称该圆心为点O,按顺时针方向旋转该直线5次,每次旋转30度;每旋转一次将会得到直线与唇形曲线相交的两条线段,总共得到12条线段,从左嘴角开始按顺时针顺序分别用L1~L12表示这12条线段的长度,称该12条线段的长度L1~L12为辐射向量;将左右嘴角两点间的直线旋转90度时,与唇形曲线相交的上交点和下交点分别成为点A和点B;
步骤1.7.3:从左右嘴角两点中任选一点,称该点为点Q,将点Q分别与点A和点B用直线相连;∠AQO用θ1表示,∠BQO用θ2表示,可根据L1~L12,得到θ1和θ2的角度,进而得到θ1和θ2的余弦值;
步骤1.7.4:L1~L12以及θ1和θ2的余弦值就构成了一帧图像中的唇部几何特征向量;由于L1和L7是连接左右嘴角线段长度的一半,所以它们的值相等,因此在唇部几何特征向量中去掉L7,即一帧图像中的唇部几何特征向量gi=[L1,…,L6,L8,…L12,cosθ1,cosθ2]t
步骤1.7.5:为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量,用gi′表示;gi′是一个13维横向量,gi′=[L1′,…,L6′,L8′,…L12′,cosθ1,cosθ2];其中,
Figure FSA00000359669000041
j=1,2,…6,8,…,12,是一个汉字发音图像序列的第一帧图像中左右嘴角间距离;
步骤1.8:运动向量获取模块以经过归一化操作的唇部几何特征向量为基础,构造每帧图像的唇部运动特征向量,用pi表示,pi是一个13维横向量,pi=(gi′-gi-1′)/Δt,其中,g0′=g1′,Δt是两个连续帧的时间间隔;然后将唇部运动特征向量pi输出至特征矩阵构造模块;
步骤1.9:特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵,用Zf表示,其中f表示训练数据的汉字发音图像序列的顺序号,1≤f≤m且f为正整数;然后将训练数据的汉字发音图像序列的特征矩阵Zf分别输出至变换矩阵T获取模块和转换特征矩阵获取模块;构造汉字发音图像序列的特征矩阵的具体操作步骤为:
步骤1.9.1:依次对汉字发音图像序列中的每帧图像作如下操作:将唇部几何特征向量与唇部运动特征向量相连接,形成联合特征向量,用vi表示,vi是一个26维列向量,
Figure FSA00000359669000043
步骤1.9.2:汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量vi组合而成,因此训练数据的汉字发音图像序列的特征矩阵Zf={v1,v2,...,vn}∈R26×n
步骤1.10:变换矩阵T获取模块针对m个训练数据的汉字发音图像序列的特征矩阵Zf,采用T.-K.Kim等人提出的典型相关判别分析方法进行处理,得到变换矩阵T∈R26×r,r<26,且r为正整数,R表示实数,并将变换矩阵T存储到存储器A;
步骤1.11:转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵Zf进行转换,得到转换特征矩阵Zf′=TTZf,并训练数据的汉字发音图像序列的转换特征矩阵Zf′存储到存储器A;
经过上述步骤的操作,即可完成对所述自动唇语识别系统的训练;
系统测试过程的工作流程为:
步骤2.1:从m个训练数据中选取m′个汉字作为测试数据,m′≤m且m′为正整数;
步骤2.2:人机交互模块显示一个闭合轮廓曲线;
步骤2.3:被试人将头戴式摄像头固定在头部;被试人调整头戴式摄像头的位置,使其直接拍摄被试脸的下半部分,拍摄图像发送至人机交互模块显示;被试人再次调整头戴式摄像头的位置,使得被试者的唇部区域被包含在步骤2.2中所述的闭合轮廓曲线中;
步骤2.4:被试者以每秒钟1个汉字的语速对步骤2.1中所述的m′个汉字进行发音,同时头戴式摄像头的拍摄速度为每秒n帧;因此每个汉字发音的视频流由n帧图像序列组成;将一个汉字的n帧图像序列称为一个汉字发音图像序列;头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块;
步骤2.5:人机交互模块将步骤2.2中所述闭合轮廓曲线和步骤2.4中所述的汉字发音图像序列发送至唇部轮廓定位模块;
步骤2.6:与系统训练过程中的步骤1.6的操作相同;
步骤2.7:与系统训练过程中的步骤1.7的操作相同;
步骤2.8:与系统训练过程中的步骤1.8的操作相同;
步骤2.9:特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵,用Ze表示,其中e表示测试数据的汉字发音图像序列的顺序号,1≤e≤m′且e为正整数;然后将测试数据的汉字发音图像序列的特征矩阵Ze输出至转换特征矩阵获取模块;构造汉字发音图像序列的特征矩阵的具体操作步骤为:
步骤2.9.1:依次对汉字发音图像序列中的每帧图像作如下操作:将唇部几何特征向量与唇部运动特征向量相连接,形成联合特征向量vi,vi是一个26维列向量,
Figure FSA00000359669000061
步骤2.9.2:汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量vi组合而成,因此测试数据的汉字发音图像序列的特征矩阵Ze={v1,v2,...,vn}∈R26×n
步骤2.10:转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵T对测试数据的汉字发音图像序列的特征矩阵Ze进行转换,得到转换特征矩阵Ze′=TTZe,并将测试数据的汉字发音图像序列的转换特征矩阵Ze′存储到存储器B;
步骤2.11:典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵Zf′,从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵Ze′,然后采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》中提出的典型相关判别分析方法计算该测试数据的转换特征矩阵Ze′与每个训练数据的转换特征矩阵Zf′的典型相关系数和;由于训练数据中可能存在重复的汉字,因此同一个汉字对应的典型相关系数和有1个或1个以上,所以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值,并从这些平均值中取出最大值,将该最大值在训练数据中对应的汉字输出到人机交互模块;
步骤2.12:人机交互模块显示典型相关判别分析模块传输过来的汉字;
经过上述步骤,即可完成对测试数据的自动分类识别。
CN2010105582532A 2010-11-22 2010-11-22 一种适用于中文的自动唇语识别系统 Expired - Fee Related CN102004549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105582532A CN102004549B (zh) 2010-11-22 2010-11-22 一种适用于中文的自动唇语识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105582532A CN102004549B (zh) 2010-11-22 2010-11-22 一种适用于中文的自动唇语识别系统

Publications (2)

Publication Number Publication Date
CN102004549A true CN102004549A (zh) 2011-04-06
CN102004549B CN102004549B (zh) 2012-05-09

Family

ID=43811953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105582532A Expired - Fee Related CN102004549B (zh) 2010-11-22 2010-11-22 一种适用于中文的自动唇语识别系统

Country Status (1)

Country Link
CN (1) CN102004549B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104808794A (zh) * 2015-04-24 2015-07-29 北京旷视科技有限公司 一种唇语输入方法和系统
CN105787428A (zh) * 2016-01-08 2016-07-20 上海交通大学 基于稀疏编码的唇语特征身份认证方法
CN106250829A (zh) * 2016-07-22 2016-12-21 中国科学院自动化研究所 基于唇部纹理结构的数字识别方法
CN107025439A (zh) * 2017-03-22 2017-08-08 天津大学 基于深度数据的唇部区域特征提取和规范化方法
CN107122646A (zh) * 2017-04-26 2017-09-01 大连理工大学 一种实现唇语解锁的方法
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN108596107A (zh) * 2018-04-26 2018-09-28 京东方科技集团股份有限公司 基于ar设备的唇语识别方法及其装置、ar设备
CN109389098A (zh) * 2018-11-01 2019-02-26 重庆中科云丛科技有限公司 一种基于唇语识别的验证方法以及系统
CN109682676A (zh) * 2018-12-29 2019-04-26 上海工程技术大学 一种纤维拉伸断裂的声发射信号的特征提取方法
US10275685B2 (en) 2014-12-22 2019-04-30 Dolby Laboratories Licensing Corporation Projection-based audio object extraction from audio content
CN110580336A (zh) * 2018-06-08 2019-12-17 北京得意音通技术有限责任公司 唇语的分词方法、装置、存储介质和电子设备
CN111326152A (zh) * 2018-12-17 2020-06-23 南京人工智能高等研究院有限公司 语音控制方法及装置
CN111898420A (zh) * 2020-06-17 2020-11-06 北方工业大学 一种唇语识别系统
CN112053160A (zh) * 2020-09-03 2020-12-08 中国银行股份有限公司 一种用于唇语识别的智能手环、唇语识别系统及方法
WO2021051603A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于坐标变换的嘴唇剪切方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 20070630 Tae-Kyun Kim et al. Discriminative learning and recognition of image set classes using canonical correlations 全文 1 第29卷, 第6期 2 *
《第六届和谐人机环境联合学术会议》 20101024 吕坤 等 基于卷积虚拟静电场Snake模型的唇形跟踪算法 , 2 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275685B2 (en) 2014-12-22 2019-04-30 Dolby Laboratories Licensing Corporation Projection-based audio object extraction from audio content
CN104808794A (zh) * 2015-04-24 2015-07-29 北京旷视科技有限公司 一种唇语输入方法和系统
CN104808794B (zh) * 2015-04-24 2019-12-10 北京旷视科技有限公司 一种唇语输入方法和系统
CN105787428A (zh) * 2016-01-08 2016-07-20 上海交通大学 基于稀疏编码的唇语特征身份认证方法
CN106250829A (zh) * 2016-07-22 2016-12-21 中国科学院自动化研究所 基于唇部纹理结构的数字识别方法
CN107025439A (zh) * 2017-03-22 2017-08-08 天津大学 基于深度数据的唇部区域特征提取和规范化方法
CN107025439B (zh) * 2017-03-22 2020-04-24 天津大学 基于深度数据的唇部区域特征提取和规范化方法
CN107122646A (zh) * 2017-04-26 2017-09-01 大连理工大学 一种实现唇语解锁的方法
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN108596107A (zh) * 2018-04-26 2018-09-28 京东方科技集团股份有限公司 基于ar设备的唇语识别方法及其装置、ar设备
US11527242B2 (en) 2018-04-26 2022-12-13 Beijing Boe Technology Development Co., Ltd. Lip-language identification method and apparatus, and augmented reality (AR) device and storage medium which identifies an object based on an azimuth angle associated with the AR field of view
CN110580336A (zh) * 2018-06-08 2019-12-17 北京得意音通技术有限责任公司 唇语的分词方法、装置、存储介质和电子设备
CN109389098A (zh) * 2018-11-01 2019-02-26 重庆中科云丛科技有限公司 一种基于唇语识别的验证方法以及系统
CN111326152A (zh) * 2018-12-17 2020-06-23 南京人工智能高等研究院有限公司 语音控制方法及装置
CN109682676A (zh) * 2018-12-29 2019-04-26 上海工程技术大学 一种纤维拉伸断裂的声发射信号的特征提取方法
WO2021051603A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于坐标变换的嘴唇剪切方法、装置、设备及存储介质
CN111898420A (zh) * 2020-06-17 2020-11-06 北方工业大学 一种唇语识别系统
CN112053160A (zh) * 2020-09-03 2020-12-08 中国银行股份有限公司 一种用于唇语识别的智能手环、唇语识别系统及方法
CN112053160B (zh) * 2020-09-03 2024-04-23 中国银行股份有限公司 一种用于唇语识别的智能手环、唇语识别系统及方法

Also Published As

Publication number Publication date
CN102004549B (zh) 2012-05-09

Similar Documents

Publication Publication Date Title
CN102004549A (zh) 一种适用于中文的自动唇语识别系统
CN110866953B (zh) 地图构建方法及装置、定位方法及装置
Ko et al. Sign language recognition with recurrent neural network using human keypoint detection
Luettin et al. Speechreading using probabilistic models
Papandreou et al. Adaptive multimodal fusion by uncertainty compensation with application to audiovisual speech recognition
Schuckers et al. On techniques for angle compensation in nonideal iris recognition
Potamianos et al. Recent advances in the automatic recognition of audiovisual speech
Brown et al. Comparative study of coarse head pose estimation
Youssif et al. Arabic sign language (arsl) recognition system using hmm
Feng et al. Depth-projection-map-based bag of contour fragments for robust hand gesture recognition
Geetha et al. A vision based dynamic gesture recognition of indian sign language on kinect based depth images
Bao et al. Dynamic hand gesture recognition based on SURF tracking
Cappelletta et al. Viseme definitions comparison for visual-only speech recognition
Jiang et al. Improved face and feature finding for audio-visual speech recognition in visually challenging environments
CN104821010A (zh) 基于双目视觉的人手三维信息实时提取方法及系统
Haq et al. Using lip reading recognition to predict daily Mandarin conversation
Lu et al. Review on automatic lip reading techniques
Watanabe et al. Lip reading from multi view facial images using 3D-AAM
Chiţu et al. Comparison between different feature extraction techniques for audio-visual speech recognition
Gao et al. Learning and synthesizing MPEG-4 compatible 3-D face animation from video sequence
Zheng et al. Review of lip-reading recognition
Shiraishi et al. Optical flow based lip reading using non rectangular ROI and head motion reduction
KR101621304B1 (ko) 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템
Reveret et al. Visual coding and tracking of speech related facial motion
Aharon et al. Representation analysis and synthesis of lip images using dimensionality reduction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120509

Termination date: 20171122