CN102004549A

CN102004549A - 一种适用于中文的自动唇语识别系统

Info

Publication number: CN102004549A
Application number: CN 201010558253
Authority: CN
Inventors: 吕坤; 贾云得; 张欣
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2010-11-22
Filing date: 2010-11-22
Publication date: 2011-04-06
Anticipated expiration: 2030-11-22
Also published as: CN102004549B

Abstract

一种自动唇语识别系统，包括：头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。头戴式摄像头用来录制汉字发音图像序列，通过人机交互模块传输至唇部轮廓定位模块，其使用卷积虚拟静电场Snake模型从中检测及跟踪唇部轮廓；几何向量获取模块和运动向量获取模块从唇部轮廓中分别提取出几何和运动特征，并将它们联合起来作为典型相关判别分析模块的输入特征矩阵；典型相关判别分析模块计算特征矩阵间的相似度，处理后获取识别结果。本发明系统与已有唇语识别系统相比较，具有更高的识别准确率。

Description

一种适用于中文的自动唇语识别系统

技术领域

本发明涉及一种自动唇语识别系统，特别涉及一种适用于中文的自动唇语识别系统，属于自动唇语识别技术领域。

背景技术

唇语识别或唇读是人机交互(Human-Computer Interaction，HCI)中很引人注目的领域，它在自动语言识别(Automatic Speech Recognition，ASR)系统中起着重要作用。人类语言感知是一个很自然的多模态过程。听力受损的人群会充分利用唇语的提示，即使正常人也可以利用视觉信息来增强对语言的理解，特别是在嘈杂环境中。利用视觉通道的信息会有效地提高现代自动语言识别系统的性能和鲁棒性。

唇语识别任务一般包含三个主要步骤：①在发音图像序列中检测脸部及唇部区域；②从唇部区域提取适合分类的特征；③使用唇部区域特征进行唇语识别。

针对第①步，已有方法中主要使用图像处理的算法来定位脸部及唇部区域，此类方法容易受到光照、角度、旋转、遮挡等影响，会产生一定误差。

第②步中提到的唇语特征，在已有的文献中分为三大类：(1)低层的基于纹理的特征；(2)高层的基于轮廓的特征；(3)前二者的组合。这些特征中，基于轮廓的特征中的唇部几何特征(如唇的高度、宽度、角度)以及唇部运动特征被认为是最可用的视觉信息。关于唇形轮廓线分割的大量近期工作都使用了可变形模板(deformable model)，其中一种有效方法就是使用Snake模型和改进的Snake模型，如梯度矢量流(Gradient Vector Flow，GVF)Snake模型、虚拟静电场(Virtual Electric Field，VEF)Snake模型、卷积虚拟静电场(Convolutional Virtual Electric Field，Convolutional VEF)Snake模型。相比较而言，卷积虚拟静电场Snake模型通过使用虚拟静电场(virtual electric field，VEF)作为外力(external force)，以及使用卷积(convolution)机制，该模型可以更快速准确地定位唇部轮廓。

在第③步使用唇部区域特征进行唇语识别中，广泛使用的分类方法是隐马尔科夫模型(hidden markov model(HMM))。隐马尔科夫模型在语言识别中很有用，因为它可以自然地对语言的时域特性进行建模。但是考虑到语言的本质属性，隐马尔科夫模型的分段式静态以及依赖性的假设(the piece-wise stationary and independence assumptions)是该模型的两个局限。

本发明中使用到的一项重要的已有技术是：基于卷积虚拟静电场Snake模型的唇形跟踪算法。

吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》(第六届和谐人机环境联合学术会议，2010)中公开了基于卷积虚拟静电场Snake模型的唇形跟踪算法的详细设计。

本发明使用到的另外一项重要的已有技术是：典型相关判别分析(Discriminative Analysis of Canonical Correlation，DCC)方法。

T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence，Vol.29，No.6(2007))中公开了典型相关判别分析方法的操作步骤。该方法中通过引入一个变换矩阵T来最大化同类数据集(within-class sets)的相似度(用典型相关系数和表示)，最小化异类数据集(between-class sets)的相似度，以达到更好的识别效果。

近年来典型相关判别分析方法已被成功地应用于图像集匹配、人脸或物体识别等领域，因此将典型相关判别分析方法用于解决唇语识别问题从理论上讲是一个简单而有效的方法。但是，目前为止，还未查找到将典型相关判别分析方法用于自动唇语识别识别中的相关文献及实际应用。

发明内容

本发明的目的是为了克服已有技术存在的不足，提出了一种适用于中文的自动唇语识别系统。

本发明的目的是通过下述技术方案实现的。

一种适用于中文的自动唇语识别系统，包括：头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。

其连接关系为：头戴式摄像头的输出端与人机交互模块的输入端连接；人机交互模块的输出端与唇部轮廓定位模块的输入端连接；唇部轮廓定位模块的输出端与几何向量获取模块的输入端连接；几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造模块的输入端连接；运动向量获取模块的输出端与特征矩阵构造模块的输入端连接；特征矩阵构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接；变换矩阵T获取模块与存储器A连接；转换特征矩阵获取模块与存储器A和存储器B连接；存储器A和存储器B还与典型相关判别分析模块的输入端连接；典型相关判别分析模块的输出端与人机交互模块的输入端连接。

各模块及设备的主要功能是：

头戴式摄像头的主要功能是：获取被试者发出的汉字发音图像序列。

人机交互模块的主要功能是：①提供一个闭合轮廓曲线，以供被试者调整头戴式摄像头的位置，使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中。②获取头戴式摄像头拍摄的汉字发音图像序列；③对典型相关判别分析模块的结果进行输出。

唇部轮廓定位模块的主要功能是：使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块。

几何向量获取模块的主要功能是：从唇部轮廓定位模块输出的汉字发音图像序列中的每帧图像的唇部轮廓曲线中获取唇部几何特征向量；并且为了弥补不同被试者之间的唇形差异以及图像缩放比例差异，对唇部几何特征向量做归一化操作，得到归一化操作后的唇部几何特征向量，并输出至运动向量获取模块和特征矩阵构造模块。

运动向量获取模块的主要功能是：以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征向量，然后将唇部运动特征向量输出至特征矩阵构造模块。

特征矩阵构造模块的主要功能是：构造汉字发音图像序列的特征矩阵，然后将汉字发音图像序列的特征矩阵输出至变换矩阵T获取模块和转换特征矩阵获取模块。

变换矩阵T获取模块的主要功能是：针对训练数据的汉字发音图像序列的特征矩阵，采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonicai Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence，Vo1.29，No.6(2007))中提出的典型相关判别分析方法进行处理，得到变换矩阵T，并将其存储到存储器A。

转换特征矩阵获取模块的主要功能是：使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵进行转换，得到转换特征矩阵，并将训练数据的汉字发音图像序列的转换特征矩阵存储到存储器A。

存储器A：存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵。

存储器B：存储测试数据的汉字发音图像序列的转换特征矩阵。

典型相关判别分析模块：从存储器B中获取当前测试数据的转换特征矩阵与存储器A中的每个训练数据的转换特征矩阵的典型相关系数和，然后进一步对这些典型相关系数和进行处理，获得当前测试数据的识别结果，并将该识别结果输出到人机交互模块。

所述自动唇语识别系统的工作过程分为系统训练过程和系统测试过程：

系统训练过程的工作流程为：

步骤1.1：选取m个汉字作为训练数据，m≥5且m为正整数；

步骤1.2：人机交互模块显示一个闭合轮廓曲线。

步骤1.3：被试人将头戴式摄像头固定在头部；被试人调整头戴式摄像头的位置，使其直接拍摄被试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤1.2中所述的闭合轮廓曲线中。

步骤1.4：被试者以每秒钟1个汉字的语速对步骤1.1中所述的m个汉字进行发音，同时头戴式摄像头的拍摄速度为每秒n帧，n≥25且n为正整数；因此每个汉字发音的视频流由n帧图像序列组成；将一个汉字的n帧图像序列称为一个汉字发音图像序列；头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块。

步骤1.5：人机交互模块将步骤1.2中所述闭合轮廓曲线和步骤1.4中所述的头戴式摄像头拍摄的汉字发音图像序列发送至唇部轮廓定位模块。

步骤1.6：唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块。其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时，卷积虚拟静电场Snake模型的初始曲线采用人机交互模块提供的闭合轮廓曲线；对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时，卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲线。

步骤1.7：几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量，用g_i表示，i表示一个汉字发音图像序列中各帧图像的顺序号，1≤i≤n且i为正整数；并且为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量g_i做归一化操作，得到归一化操作后的唇部几何特征向量，用g_i′表示；然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块。获取经过归一化操作后的唇部几何特征向量的具体操作步骤为：

步骤1.7.1：计算唇部轮廓曲线水平方向的极值，得到左右嘴角的点坐标。

步骤1.7.2：将左右嘴角两点用一条直线相连，以左右嘴角点的中点为圆心，称该圆心为点O，按顺时针方向旋转该直线5次，每次旋转30度；每旋转一次将会得到直线与唇形曲线相交的两条线段，总共得到12条线段，从左嘴角开始按顺时针顺序分别用L₁～L₁₂表示这12条线段的长度，称该12条线段的长度L₁～L₁₂为辐射向量；将左右嘴角两点间的直线旋转90度时，与唇形曲线相交的上交点和下交点分别成为点A和点B。

步骤1.7.3：从左右嘴角两点中任选一点，称该点为点Q，将点Q分别与点A和点B用直线相连；∠AQO用θ₁表示，∠BQO用θ₂表示，可根据L₁～L₁₂，得到θ₁和θ₂的角度，进而得到θ₁和θ₂的余弦值；

步骤1.7.4：L₁～L₁₂以及θ₁和θ₂的余弦值就构成了一帧图像中的唇部几何特征向量；由于L₁和L₇是连接左右嘴角线段长度的一半，所以它们的值相等，因此在唇部几何特征向量中去掉L₇，即一帧图像中的唇部几何特征向量g_i＝[L₁，…，L₆，L₈，…L₁₂，cosθ₁，cosθ₂]^t；

步骤1.7.5：为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量g_i做归一化操作，得到归一化操作后的唇部几何特征向量，用g_i′表示；g_i′是一个13维横向量，g_i′＝[L₁′，…，L₆′，L₈′，…L₁₂′，cosθ₁，cosθ₂]；其中，

j＝1，2，…6，8，…，12，

是一个汉字发音图像序列的第一帧图像中左右嘴角间距离。

步骤1.8：运动向量获取模块以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征向量(用p_i表示)，p_i是一个13维横向量，p_i＝(g_i′-g_i-1′)/Δt，其中，g₀′＝g₁′，Δt是两个连续帧的时间间隔；然后将唇部运动特征向量p_i输出至特征矩阵构造模块；

步骤1.9：特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵(用Z_f表示，其中f表示训练数据的汉字发音图像序列的顺序号，1≤f≤m且f为正整数)，然后将训练数据的汉字发音图像序列的特征矩阵Z_f分别输出至变换矩阵T获取模块和转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为：

步骤1.9.1：依次对汉字发音图像序列中的每帧图像作如下操作：将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量(用v_i表示)，v_i是一个26维列向量，

步骤1.9.2：汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量v_i组合而成，因此训练数据的汉字发音图像序列的特征矩阵Z_f＝{v₁，v₂，...，v_n}∈R^26×n。

步骤1.10：变换矩阵T获取模块针对m个训练数据的汉字发音图像序列的特征矩阵Z_f，采用T.-K.Kim等人提出的典型相关判别分析方法进行处理，得到变换矩阵T∈R^26×r，r＜26，且r为正整数，R表示实数，并将变换矩阵T存储到存储器A。

步骤1.11：转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵Z_f进行转换，得到转换特征矩阵Z_f′＝T^TZ_f，并训练数据的汉字发音图像序列的转换特征矩阵Z_f′存储到存储器A。

经过上述步骤的操作，即可完成对所述自动唇语识别系统的训练。

系统测试过程的工作流程为：

步骤2.1：从m个训练数据中选取m′个汉字作为测试数据，m′≤m且m′为正整数。

步骤2.2：人机交互模块显示一个闭合轮廓曲线。

步骤2.3：被试人将头戴式摄像头固定在头部；被试人调整头戴式摄像头的位置，使其直接拍摄被试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤2.2中所述的闭合轮廓曲线中。

步骤2.4：被试者以每秒钟1个汉字的语速对步骤2.1中所述的m′个汉字进行发音，同时头戴式摄像头的拍摄速度为每秒n帧；因此每个汉字发音的视频流由n帧图像序列组成；将一个汉字的n帧图像序列称为一个汉字发音图像序列；头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块。

步骤2.5：人机交互模块将步骤2.2中所述闭合轮廓曲线和步骤2.4中所述的汉字发音图像序列发送至唇部轮廓定位模块。

步骤2.6：与系统训练过程中的步骤1.6的操作相同。

步骤2.7：与系统训练过程中的步骤1.7的操作相同。

步骤2.8：与系统训练过程中的步骤1.8的操作相同。

步骤2.9：特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵(用Z_e表示，其中e表示测试数据的汉字发音图像序列的顺序号，1≤e≤m′且e为正整数)，然后将测试数据的汉字发音图像序列的特征矩阵Z_e输出至转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为：

步骤2.9.1：依次对汉字发音图像序列中的每帧图像作如下操作：将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量v_i，v_i是一个26维列向量，

步骤2.9.2：汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量v_i组合而成，因此测试数据的汉字发音图像序列的特征矩阵Z_e＝{v₁，v₂，...，v_n}∈R^26×n。

步骤2.10：转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T对测试数据的汉字发音图像序列的特征矩阵Z_e进行转换，得到转换特征矩阵Z_e′＝T^TZ_e，并将测试数据的汉字发音图像序列的转换特征矩阵Z_e′存储到存储器B。

步骤2.11：典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵Z_f′，从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵Z_e′，然后采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonicai Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence，Vol.29，No.6(2007))中提出的典型相关判别分析方法计算该测试数据的转换特征矩阵Z_e′与每个训练数据的转换特征矩阵Z_f′的典型相关系数和；由于训练数据中可能存在重复的汉字，因此同一个汉字对应的典型相关系数和有1个或1个以上，所以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值，并从这些平均值中取出最大值，将该最大值在训练数据中对应的汉字输出到人机交互模块。

步骤2.12：人机交互模块显示典型相关判别分析模块传输过来的汉字。

经过上述步骤，即可完成对测试数据的自动识别。

有益效果

与已有中文自动唇语识别系统相比，本发明具有以下优点：

①本发明中使用头戴式摄像头来直接获取唇部图像序列，每次实验开始时被试使用人机交互的方式来调整头戴式摄像头的位置，实验过程中摄像头和人脸的相对位置是固定的，被试可以自然地进行汉字发音，不用刻意去保持头部姿势和位置。相比前人方法，本文可以非常准确地获取唇部图像序列，前期运算量大大减少，且可以减少对被试的约束，使实验过程更加自然。

②本发明使用卷积虚拟静电场Snake模型定位唇部轮廓，更快速准确。

③本发明提取的唇语特征结合了唇部几何特征和唇部运动特征，使分析更准确。

④本发明首次将典型相关判别分析方法成功的运用到唇语自动识别领域，克服了隐马尔科夫模型在语言识别中的局限性。

附图说明

图1为本发明具体实施方式中的适用于中文的自动唇语识别系统的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

一种适用于中文的自动唇语识别系统，其系统结构如图1所示，包括：头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。

各模块及设备的主要功能是：

唇部轮廓定位模块的主要功能是：使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块。

变换矩阵T获取模块的主要功能是：针对训练数据的汉字发音图像序列的特征矩阵，采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》(IEEE Transactions On Pattern Analysis And Machine Intelligence，Vol.29，No.6(2007))中提出的典型相关判别分析方法进行处理，得到变换矩阵T，并将其存储到存储器A。

使用上述系统进行实验，试验中选择10名被试者(4名男性和6名女性)，然后让他们每人对”零、一、二、三、四、五、我、爱、北、京”10个汉字发音20次，每个汉字得到200个汉字发音图像序列；然后，对于每个汉字，从其对应的200个汉字发音图像序列中随机选取80％(160个)作为训练数据，剩下的20％(40个)的汉字发音图像序列作为测试数据；因此训练数据有1600个，测试数据有400个。

2000个汉字发音图像序列获取的步骤如下：

步骤1：人机交互模块显示一个闭合轮廓曲线。

步骤2：10名被试人依次将头戴式摄像头固定在头部；被试人调整头戴式摄像头的位置，使其直接拍摄被试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤1中所述的闭合轮廓曲线中。

步骤3：被试者以每秒钟1个汉字的语速对”零、一、二、三、四、五、我、爱、北、京”10个汉字进行发音，每个汉字发音20次，同时头戴式摄像头的拍摄速度为每秒30帧，因此每个汉字发音的视频流由30帧图像序列组成；将一个汉字的30帧图像序列称为一个汉字发音图像序列。

经过上述步骤的操作，即可获取10个汉字的2000个汉字发音图像序列。

然后，实验人员使用随机选取的1600个汉字发音图像序列作为训练数据对系统进行训练，过程如下：

步骤1：将人机交互模块中出现的闭合轮廓曲线和1600个汉字发音图像序列发送至唇部轮廓定位模块。

步骤2：唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块。其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时，卷积虚拟静电场Snake模型的初始曲线采用人机交互模块提供的闭合轮廓曲线；对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时，卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲线。

步骤3：几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量g₁～g₃₀表示，；并且为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量g₁～g₃₀做归一化操作，得到归一化操作后的唇部几何特征向量g₁′～g₃₀′；然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块。获取经过归一化操作后的唇部几何特征向量的具体操作步骤为：

步骤3.1：计算唇部轮廓曲线水平方向的极值，得到左右嘴角的点坐标。

步骤3.2：将左右嘴角两点用一条直线相连，以左右嘴角点的中点为圆心，称该圆心为点O，按顺时针方向旋转该直线5次，每次旋转30度；每旋转一次将会得到直线与唇形曲线相交的两条线段，总共得到12条线段，从左嘴角开始按顺时针顺序分别用L₁～L₁₂表示这12条线段的长度，称该12条线段的长度L₁～L₁₂为辐射向量；将左右嘴角两点间的直线旋转90度时，与唇形曲线相交的上交点和下交点分别成为点A和点B。

步骤3.3：将左嘴角称为点Q，将点Q分别与点A和点B用直线相连；∠AQO用θ₁表示，∠BQO用θ₂表示，可根据L₁～L₁₂，得到θ₁和θ₂的角度，进而得到θ₁和θ₂的余弦值；

步骤3.4：L₁～L₁₂以及θ₁和θ₂的余弦值就构成了一帧图像中的唇部几何特征向量；由于L₁和L₇是连接左右嘴角线段长度的一半，所以它们的值相等，因此在唇部几何特征向量中去掉L₇，即一帧图像中的唇部几何特征向量g_i＝[L₁，…，L₆，L₈，…L₁₂，cosθ₁，cosθ₂]^t，i＝1，2，…，30；

步骤3.5：为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量g_i做归一化操作，得到归一化操作后的唇部几何特征向量g_i′；g_i′是一个13维横向量，g_i′＝[L₁′，…，L₆′，L₈′，…L₁₂′，cosθ₁，cosθ₂]；其中，

j＝1，2，…6，8，…，12，

是一个汉字发音图像序列的第一帧图像中左右嘴角间距离。

步骤4：运动向量获取模块以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征向量p_i，p_i是一个13维横向量，p_i＝(g_i′-g_i-1′)/Δt，其中，g₀′＝g₁′，Δt是两个连续帧的时间间隔；然后将唇部运动特征向量p_i输出至特征矩阵构造模块；

步骤5：特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵Z_f，f＝1，2，…，1600，然后将训练数据的汉字发音图像序列的特征矩阵Z_f分别输出至变换矩阵T获取模块和转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为：

步骤5.1：依次对汉字发音图像序列中的每帧图像作如下操作：将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量v_i，v_i是一个26维列向量，

步骤5.2：汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量v_i组合而成，因此训练数据的汉字发音图像序列的特征矩阵Z_f＝{v₁，v₂，...，v_n}∈R^26×30。

步骤1.6：变换矩阵T获取模块针对1600个训练数据的汉字发音图像序列的特征矩阵Z_f，采用T.-K.Kim等人提出的典型相关判别分析方法进行处理，得到变换矩阵T，并将变换矩阵T存储到存储器A。

步骤1.7：转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵Z_f进行转换，得到转换特征矩阵Z_f′＝T^TZ_f，并训练数据的汉字发音图像序列的转换特征矩阵Z_f′存储到存储器A。

将自动唇语识别系统训练好以后，实验人员使用400条测试数据对该系统进行测试，过程如下：

步骤1：将人机交互模块中出现的闭合轮廓曲线和400个汉字发音图像序列发送至唇部轮廓定位模块。

步骤3.3：将左嘴角称为点Q，将点Q分别与点A和点B用直线相连；∠AQ0用θ₁表示，∠BQO用θ₂表示，可根据L₁～L₁₂，得到θ₁和θ₂的角度，进而得到θ₁和θ₂的余弦值；

j＝1，2，…6，8，…，12，

是一个汉字发音图像序列的第一帧图像中左右嘴角间距离。

步骤4：特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵Z_e，e＝1，2，…，400，然后将测试数据的汉字发音图像序列的特征矩阵Z_e输出至转换特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为：

步骤4.1：依次对汉字发音图像序列中的每帧图像作如下操作：将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量v_i，v_i是一个26维列向量，

步骤4.2：汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量v_i组合而成，因此测试数据的汉字发音图像序列的特征矩阵Z_e＝{v₁，v₂，...，v_n}∈R^26×30。

步骤5：转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T对测试数据的汉字发音图像序列的特征矩阵Z_e进行转换，得到转换特征矩阵Z_e′＝T^TZ_e，并将测试数据的汉字发音图像序列的转换特征矩阵Z_e′存储到存储器B。

步骤6：典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵Z_f′，从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵Z_e′，然后采用T.-K.Kim等人提出的典型相关判别分析方法计算该测试数据的转换特征矩阵Z_e′与每个训练数据的转换特征矩阵Z_f′的典型相关系数和；由于训练数据中可能存在重复的汉字，因此同一个汉字对应的典型相关系数和有1个或1个以上，所以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值，并从这些平均值中取出最大值，将该最大值在训练数据中对应的汉字输出到人机交互模块。

步骤7：人机交互模块显示典型相关判别分析模块传输过来的汉字。

经过上述步骤，即可完成对测试数据的自动识别，该系统的识别准确率如表1中的第2列所示；同时为了说明本发明的效果，还进行了2项实验：

1.在相同的实验环境、训练数据、测试数据的情况下，将本发明中使用的卷积虚拟静电场Snake模型换成传统Snake模型、其它功能不变，得到的识别准确率如表1中的第3列所示；

2.在相同的实验环境、训练数据、测试数据的情况下，将本发明中使用的典型相关分析方法换成连续隐马尔科夫模型(Continuous Hidden Markov Model，CHMM)、其它功能不变，得到的识别准确率如表1中的第4列所示。

表1不同方法的识别准确率比较结果(％)

	(1)	(2)	(3)
				“零”	90.0	73.5	88.5
“一”	92.0	75.0	90.5
				“二”	86.5	76.0	83.0
“三”	93.0	81.5	92.5
				“四”	95.0	83.0	95.5
“五”	89.5	73.0	91.0
				“我”	96.0	82.0	95.0
“爱”	97.0	82.5	95.5
				“北”	93.5	81.5	94.0
“京”	90.0	75.5	88.0

实验表明本发明提出的系统具有更高的识别准确率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，或者对其中部分技术特征进行等同替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种适用于中文的自动唇语识别系统，包括：头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块；

其连接关系为：头戴式摄像头的输出端与人机交互模块的输入端连接；人机交互模块的输出端与唇部轮廓定位模块的输入端连接；唇部轮廓定位模块的输出端与几何向量获取模块的输入端连接；几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造模块的输入端连接；运动向量获取模块的输出端与特征矩阵构造模块的输入端连接；特征矩阵构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接；变换矩阵T获取模块与存储器A连接；转换特征矩阵获取模块与存储器A和存储器B连接；存储器A和存储器B还与典型相关判别分析模块的输入端连接；典型相关判别分析模块的输出端与人机交互模块的输入端连接；

各模块及设备的主要功能是：

头戴式摄像头的主要功能是：获取被试者发出的汉字发音图像序列；

人机交互模块的主要功能是：①提供一个闭合轮廓曲线，以供被试者调整头戴式摄像头的位置，使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中；②获取头戴式摄像头拍摄的汉字发音图像序列；③对典型相关判别分析模块的结果进行输出；

唇部轮廓定位模块的主要功能是：使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块；

几何向量获取模块的主要功能是：从唇部轮廓定位模块输出的汉字发音图像序列中的每帧图像的唇部轮廓曲线中获取唇部几何特征向量；并且为了弥补不同被试者之间的唇形差异以及图像缩放比例差异，对唇部几何特征向量做归一化操作，得到归一化操作后的唇部几何特征向量，并输出至运动向量获取模块和特征矩阵构造模块；

运动向量获取模块的主要功能是：以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征向量，然后将唇部运动特征向量输出至特征矩阵构造模块；

特征矩阵构造模块的主要功能是：构造汉字发音图像序列的特征矩阵，然后将汉字发音图像序列的特征矩阵输出至变换矩阵T获取模块和转换特征矩阵获取模块；

变换矩阵T获取模块的主要功能是：针对训练数据的汉字发音图像序列的特征矩阵，采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》中提出的典型相关判别分析方法进行处理，得到变换矩阵T，并将其存储到存储器A；

转换特征矩阵获取模块的主要功能是：使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵进行转换，得到转换特征矩阵，并将训练数据的汉字发音图像序列的转换特征矩阵存储到存储器A；

存储器A：存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵；

存储器B：存储测试数据的汉字发音图像序列的转换特征矩阵；

典型相关判别分析模块：从存储器B中获取当前测试数据的转换特征矩阵与存储器A中的每个训练数据的转换特征矩阵的典型相关系数和，然后进一步对这些典型相关系数和进行处理，获得当前测试数据的识别结果，并将该识别结果输出到人机交互模块；

系统训练过程的工作流程为：

步骤1.1：选取m个汉字作为训练数据，m≥5且m为正整数；

步骤1.2：人机交互模块显示一个闭合轮廓曲线；

步骤1.3：被试人将头戴式摄像头固定在头部；被试人调整头戴式摄像头的位置，使其直接拍摄被试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤1.2中所述的闭合轮廓曲线中；

步骤1.4：被试者以每秒钟1个汉字的语速对步骤1.1中所述的m个汉字进行发音，同时头戴式摄像头的拍摄速度为每秒n帧，n≥25且n为正整数；因此每个汉字发音的视频流由n帧图像序列组成；将一个汉字的n帧图像序列称为一个汉字发音图像序列；头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块；

步骤1.5：人机交互模块将步骤1.2中所述闭合轮廓曲线和步骤1.4中所述的头戴式摄像头拍摄的汉字发音图像序列发送至唇部轮廓定位模块；

步骤1.6：唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓进行定位，得到唇部轮廓曲线，并将其输出至几何向量获取模块；其中对每个汉字发音图像序列中的第一个图像的唇部轮廓进行定位时，卷积虚拟静电场Snake模型的初始曲线采用人机交互模块提供的闭合轮廓曲线；对该汉字发音图像序列中的其它图像的唇部轮廓进行定位时，卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲线；

步骤1.7：几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量，用g_i表示，i表示一个汉字发音图像序列中各帧图像的顺序号，1≤i≤n且i为正整数；并且为了弥补不同被试间的唇形差异以及图像缩放比例差异，对唇部几何特征向量g_i做归一化操作，得到归一化操作后的唇部几何特征向量，用g_i′表示；然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块；获取经过归一化操作后的唇部几何特征向量的具体操作步骤为：

步骤1.7.1：计算唇部轮廓曲线水平方向的极值，得到左右嘴角的点坐标；

步骤1.7.2：将左右嘴角两点用一条直线相连，以左右嘴角点的中点为圆心，称该圆心为点O，按顺时针方向旋转该直线5次，每次旋转30度；每旋转一次将会得到直线与唇形曲线相交的两条线段，总共得到12条线段，从左嘴角开始按顺时针顺序分别用L₁～L₁₂表示这12条线段的长度，称该12条线段的长度L₁～L₁₂为辐射向量；将左右嘴角两点间的直线旋转90度时，与唇形曲线相交的上交点和下交点分别成为点A和点B；

j＝1，2，…6，8，…，12，是一个汉字发音图像序列的第一帧图像中左右嘴角间距离；

步骤1.8：运动向量获取模块以经过归一化操作的唇部几何特征向量为基础，构造每帧图像的唇部运动特征向量，用p_i表示，p_i是一个13维横向量，p_i＝(g_i′-g_i-1′)/Δt，其中，g₀′＝g₁′，Δt是两个连续帧的时间间隔；然后将唇部运动特征向量p_i输出至特征矩阵构造模块；

步骤1.9：特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵，用Z_f表示，其中f表示训练数据的汉字发音图像序列的顺序号，1≤f≤m且f为正整数；然后将训练数据的汉字发音图像序列的特征矩阵Z_f分别输出至变换矩阵T获取模块和转换特征矩阵获取模块；构造汉字发音图像序列的特征矩阵的具体操作步骤为：

步骤1.9.1：依次对汉字发音图像序列中的每帧图像作如下操作：将唇部几何特征向量与唇部运动特征向量相连接，形成联合特征向量，用v_i表示，v_i是一个26维列向量，

步骤1.9.2：汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量v_i组合而成，因此训练数据的汉字发音图像序列的特征矩阵Z_f＝{v₁，v₂，...，v_n}∈R^26×n；

步骤1.10：变换矩阵T获取模块针对m个训练数据的汉字发音图像序列的特征矩阵Z_f，采用T.-K.Kim等人提出的典型相关判别分析方法进行处理，得到变换矩阵T∈R^26×r，r＜26，且r为正整数，R表示实数，并将变换矩阵T存储到存储器A；

步骤1.11：转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T依次对训练数据的汉字发音图像序列的特征矩阵Z_f进行转换，得到转换特征矩阵Z_f′＝T^TZ_f，并训练数据的汉字发音图像序列的转换特征矩阵Z_f′存储到存储器A；

经过上述步骤的操作，即可完成对所述自动唇语识别系统的训练；

系统测试过程的工作流程为：

步骤2.1：从m个训练数据中选取m′个汉字作为测试数据，m′≤m且m′为正整数；

步骤2.2：人机交互模块显示一个闭合轮廓曲线；

步骤2.3：被试人将头戴式摄像头固定在头部；被试人调整头戴式摄像头的位置，使其直接拍摄被试脸的下半部分，拍摄图像发送至人机交互模块显示；被试人再次调整头戴式摄像头的位置，使得被试者的唇部区域被包含在步骤2.2中所述的闭合轮廓曲线中；

步骤2.4：被试者以每秒钟1个汉字的语速对步骤2.1中所述的m′个汉字进行发音，同时头戴式摄像头的拍摄速度为每秒n帧；因此每个汉字发音的视频流由n帧图像序列组成；将一个汉字的n帧图像序列称为一个汉字发音图像序列；头戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块；

步骤2.5：人机交互模块将步骤2.2中所述闭合轮廓曲线和步骤2.4中所述的汉字发音图像序列发送至唇部轮廓定位模块；

步骤2.6：与系统训练过程中的步骤1.6的操作相同；

步骤2.7：与系统训练过程中的步骤1.7的操作相同；

步骤2.8：与系统训练过程中的步骤1.8的操作相同；

步骤2.9：特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵，用Z_e表示，其中e表示测试数据的汉字发音图像序列的顺序号，1≤e≤m′且e为正整数；然后将测试数据的汉字发音图像序列的特征矩阵Z_e输出至转换特征矩阵获取模块；构造汉字发音图像序列的特征矩阵的具体操作步骤为：

步骤2.9.2：汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联合特征向量v_i组合而成，因此测试数据的汉字发音图像序列的特征矩阵Z_e＝{v₁，v₂，...，v_n}∈R^26×n；

步骤2.10：转换特征矩阵获取模块从存储器A中读取变换矩阵T，并使用变换矩阵T对测试数据的汉字发音图像序列的特征矩阵Z_e进行转换，得到转换特征矩阵Z_e′＝T^TZ_e，并将测试数据的汉字发音图像序列的转换特征矩阵Z_e′存储到存储器B；

步骤2.11：典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵Z_f′，从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵Z_e′，然后采用T.-K.Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》中提出的典型相关判别分析方法计算该测试数据的转换特征矩阵Z_e′与每个训练数据的转换特征矩阵Z_f′的典型相关系数和；由于训练数据中可能存在重复的汉字，因此同一个汉字对应的典型相关系数和有1个或1个以上，所以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值，并从这些平均值中取出最大值，将该最大值在训练数据中对应的汉字输出到人机交互模块；

步骤2.12：人机交互模块显示典型相关判别分析模块传输过来的汉字；

经过上述步骤，即可完成对测试数据的自动分类识别。