CN111582195B

CN111582195B - 一种汉语唇语单音节识别分类器构建方法

Info

Publication number: CN111582195B
Application number: CN202010395570.0A
Authority: CN
Inventors: 朱红; 刘乐; 王恒毅
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2024-01-26
Anticipated expiration: 2040-05-12
Also published as: CN111582195A

Abstract

本发明公开了一种汉语唇语单音节识别分类器构建方法，包括步骤：S1、采集待识别汉字单音节的发音视频；S2、构建唇部特征点标注图像样本集；S3、训练唇部特征点提取模型；S4、将所录制的每个汉语单音节发音视频均匀切分得到若干帧采样图像；S5、利用训练所得的唇部特征点提取模型对所得的每一帧采样图像分别进行特征点提取；S6、根据所得的唇部特征点集，分别构建每一帧图像的唇部几何特征；S7、将所得的属于同一发音视频的全部的新的几何特征序列按顺序保存，并标明所属类别；S8、利用所得每个发音视频的特征矩阵，训练得到唇语识别器。利用本发明可以实现汉语唇语识别，而且具有较高准确率。

Description

一种汉语唇语单音节识别分类器构建方法

技术领域

本发明涉及唇语识别技术领域，具体涉及一种基于唇部序列化几何特征的汉语唇语单音节识别分类器构建方法。

背景技术

随着人工智能技术的高速发展与计算机技术的普及，人脸识别、语音识别、瞳孔识别等一系列生物特征识别技术近几年得到了迅速的发展，唇语识别技术也备受关注。唇语识别技术是通过获取说话人说话时的唇部动作等信息并进行分析，识别出说话人想要表达的意思。由此可见，唇语识别的技术关键在于如何从图像中提取唇部特征，提取哪些唇部特征，如何表示具有时序性的唇部特征，唇部特征如何进行分类。这项技术所包含的技术领域甚为广泛，主要涉及计算机视觉、机器学习与人工智能、模式识别、计算机图形图像处理等。

结合社会实际情况，唇语识别技术具有较为广泛的应用范围：

(1)辅助语言障碍人士交流

根据中国残疾人联合会发布的最新数据调查结果显示，我国约有2200万语言障碍人士，约占全国人口总数的1.5％，语言障碍人士数量庞大，由于先天或后天的原因，这些人无法听到或发出声音，在生活中与他人沟通极为困难，因沟通问题所带给语言障碍人士的困扰不只局限于生理层面，也体现在心理层面，语言障碍人士因沟通不便而带来的心理问题更为严重。通过唇语识别技术的辅助识别，语言障碍人士可以尽可能表达自己的意思，普通人也可以尽可能与语言障碍人士交流沟通。

(2)辅助嘈杂环境工作者交流

与语言障碍人士不同，嘈杂环境中的工作者可以听到声音也能发出声音，但由于环境噪声的影响，工作者之间的交流很难准确捕获，因此难免会影响工作效率。通过唇语识别技术的应用于辅助，可以帮助工作者在嘈杂环境中及时准确的捕获对方所要表达的信息提高工作效率。

(3)辅助公共安全分析及刑侦分析

唇语识别技术对于公安执法部门的证据采集工作也有重要的帮助，在案件侦破过程中，视频画面由于距离等一些因素导致视频声音缺损甚至丢失的情况较为常见，这样的情况下直接导致案件的关键证据、线索无法获取得到。此类情况常发生于公共场所监控系统中。通过唇语识别技术的辅助，能够分析出视频画面中的部分关键语音信息，协助缉查人员推进案件的侦破。

(4)用于身份验证的唇动密码

由于发音习惯以及嘴型的不同，每个人私有的一段唇动变化具有其唯一性，可以用来作为一种密码，该密码可以用来进行身份认证等。唇动密码在识别时会以唇语内容、嘴唇特征和唇动特性为基本依据进行识别，具有较高的安全性。

国内外研究现状

吕品轩^[1]提出了一种基于主动型状模型(ASM)的唇型特征提取方法，该方法采用14点主动形状模型，选择嘴唇模型的宽、高形状特征，通过曲线拟合得到的参数组合作为几何特征，实验结果表明所提取到的特征均为有效特征，并使用隐马尔科夫模型(HMM)进行处理特征，实验结果表明该方法能够达到一定的识别率，但与其他研究结果还有一定的差距且未提及对汉语识别的准确率。

Preety Singh，Vijay Laxmi，Manoj Singh Gaur^[2]利用最小冗余最大相关性(mRMR)方法选择视觉相关特征，，测试不同数量的相关属性的特征向量已确定最佳特征集。以此特征集作为基础向量，以帧为单位完成特征连接以构建n-gram模型，以便捕获语言的时间特性。利用随机森林算法以及k-近邻算法进行分类。

以上两种方法中使用ASM模型提取唇部关键点，但是当图像中没有完整的人脸信息时，ASM模型无法准确提取关键点。

杨龙生，贾振堂^[3]提出了一种基于人工神经网络迁移学习的唇语识别系统，该系统使用已有的英语唇语数据集作为训练集，首先对视频序列根据嘴唇之间的点距离与嘴巴闭合时的相应点之间的距离的差值进行分割处理，使用dlib工具提取视频中每帧人脸的68个关键点，并选择嘴唇附近20个点坐标线性化得到一个40维的向量压缩后作为人工神经网络的输入，利用人工神经网络(ANN)长短期记忆模型(LSTM)识别唇语。该实验方案计算成本较大且对汉语的泛化能力未知。

从国内外和研究现状来看，唇语识别技术的关键在于如何提取唇部信息，且提取哪些关键特征并加以分类。目前已有的技术应用范围较窄，许多唇语识别实验尚未涉及汉语识别，部分论文中技术路线描述较为模糊且所使用的数据集只公布了录制方法与录制内容，但数据集并未公开，导致实验难以复现，无法确认其实验结果是否准确。

参考文献：

[1]吕品轩.基于唇语身份识别的特征鉴别力分析[R].上海交通大学，2007.

[2]Preety Singh,Vijay Laxmi,Manoj Singh Gaur.Department of ComputerEngineering Malaviya National Institute of Technology Jaipur,India 302017[D]//International Conference on Advances in Computing,Communications andInformatics(ICACCI-2012),pages 1199-1204.

[3]杨龙生，贾振堂.用于可靠身份认证的唇语识别[J].电视技术，2018，42(10)：88-91.YANG L S,JIA Z Lip-reading algorithm for reliable authentication[J].Video engineering,2018,42(10):88-91.

发明内容

针对现有技术的不足，本发明旨在提供一种汉语唇语单音节识别分类器构建方法。

为了实现上述目的，本发明采用如下技术方案：

一种汉语唇语单音节识别分类器构建方法，包括如下步骤：

S1、采集待识别汉字单音节的发音视频；

S2、构建唇部特征点标注图像样本集：

所述唇部特征点标注图像样本集的原始图像包括来自步骤S1中筛选的发音视频，还包括来自其他视频的采样，图像中要求唇部信息完整，即唇部轮廓清晰可见；

为每一幅原始图像的唇部边缘手工标注20个特征点得到唇部特征点标注图像，所有唇部特征点标注图像的集合为唇部特征点标注图像样本集；特征点包括两侧唇角的外沿点C1、C2，两侧唇角的内沿点C3、C4，两个唇峰的上唇外沿最高点U3、U5；两个唇峰间的上唇外沿最低点U4，C1与U3之间的上唇外沿中间点U2，C2与U5之间的上唇外沿中间点U6，上唇内沿点U7、U8，下唇外沿点L2、L3、L4、L5、L6；下唇内沿点L7、L8；U3与U7所在直线垂直于C3与C4所在直线，U5与U8所在直线垂直于C3与C4所在直线；L2为C1与L3之间的下唇外沿中间点，L5与U5所在直线垂直于C1与C2所在直线，L6与U6所在直线垂直于C1与C2所在直线；L6为C2与L5之间的下唇外沿中间点；L4为C1与C2之间的下唇外沿中间点；L7与U7所在直线垂直于C3与C4所在直线，L8与U8所在直线垂直于C3与C4所在直线；

S3、训练唇部特征点提取模型：

训练集的唇部向量为：

x_i＝(x_i0,y_i0,x_i1,y_i1,...,x_i19,y_i19)^T；

式中，x_i表示第i幅唇部特征点标注图像中的所有特征点构成的唇部向量，(x_ik，y_ik)表示图像中第k个特征点的横、纵坐标；

训练唇部特征点提取模型的具体步骤为：

S3.1、从唇部特征点标注图像样本集中选择一个唇部模型作为基准模型，将唇部特征点标注图像样本集中其他所有唇部模型对齐到基准模型，对齐是指将一系列唇部模型通过旋转、平移、缩放变换，在不改变模型的基础上对齐到基准模型上；

S3.2、计算平均唇部模型；

S3.3、将唇部特征点标注图像样本集中所有唇部模型对齐到步骤S3.2计算得到的平均唇部模型；

S3.4、重复步骤S3.2-S3.3直到收敛，收敛的条件为使下式最小化：

E_j＝(x_i-M(s_j,θ_j)[x_j]-t_j)^TW(x_i-M(s_j,θ_j)[x_j]-t_j)；

式中，x_i、x_j为第i幅和第j幅唇部特征点标注图像中的所有特征点构成的唇部向量，i≠j；s_j表示第j幅唇部特征点标注图像的唇部模型的缩放系数；M(s_j,θ_j)[x_j]为第j幅唇部特征点标注图像的唇部模型的变化函数；t_j表示第j幅唇部特征点标注图像的唇部模型的平移向量，t_j＝(t_xj,t_yj,…,t_xj,t_yj)^T，t_xj,t_yj分别表示第j幅唇部特征点标注图像的唇部模型每个点的横坐标和纵坐标的偏移量，每个点的横坐标和纵坐标的偏移量相等；θ_j表示第j幅唇部特征点标注图像的唇部模型的旋转系数；W为一个对角矩阵，其对角线中的每一项为k表示唇部模型中的一个特征点，其中，n为唇部模型中特征点的个数，R_kl表示唇部模型中两个特征点k和l之间的距离；/>表示距离R_kl的方差；

S4、将步骤S1中采集的待识别汉语单音节发音视频均匀切分得到采样图像；

S5、利用步骤S3训练所得的唇部特征点提取模型对步骤S4所得的每一帧采样图像分别进行特征点提取，提取过程具体为：

S5.1、对唇部特征点提取模型进行仿射变换得到一个初始模型：

X＝M(Tp)+Xc；

该式表示对唇部特征点提取模型通过仿射变换Tp以及平移Xc得到初始模型X；

S5.2、使用初始模型X在步骤S4所得的每一帧图像中搜索目标形状，使搜索到的最终形状中的特征点和相对应的真正特征点最为接近；每一帧图像提取得到的特征点构成唇部特征点集；

S6、根据步骤S5所得的唇部特征点集，分别构建每一帧图像的唇部几何特征；根据两点之间距离，构建几何特征序列X＝(W1,W2,…,W8,H1,H2,H3)如下：

W1＝D(C1,C2)；

W2＝D(U2,U6)；

W3＝D(U3,U5)；

W4＝D(L2,L6)；

W5＝D(L3,L5)；

W6＝D(C3,C4)；

W7＝D(U7,U8)；

W8＝D(L7,L8)；

H1＝D(U2,L2)；

H2＝D(U3,L3)；

H3＝D(U4,L4)；

其中，W1,W2,…,W8,H1,H2,H3为人为设定的几何特征名称；

按顺序组合所得的几何特征序列，得到同一汉语单音节发音视频的11维几何特征；将同一汉语单音节发音视频的图像的几何特征保存并归一化；

将每个几何特征序列X＝(W1,W2,…,W8,H1,H2,H3)线性组合μ得到一组新的几何特征序列Y＝(Y1,Y2,…,Y7)：

Y＝μX^T；

T为转置符；

S7、将步骤S6中所得的新的属于同一发音视频的帧的全部几何特征序列按顺序保存，并标明所属类别，得到每个发音视频的特征矩阵；类别为人为设定，以整数f为类别标签(f＝0,1,2,…)；

S8、利用步骤S7所得每个发音视频的特征矩阵，训练得到唇语识别器。

进一步地，步骤S1的具体过程为：

采集多个来自不同的人的完整发音视频，然后对于每个待识别汉字单音节，从不同的人的完整发音视频中筛选出设定数量的唇部区域无遮挡、唇部变化过程明显的发音视频。

进一步地，步骤S1中，录制发音视频时，选择在白天自然光室内录制，录制时背景为白色墙壁，录制者正对摄像机，录制者面部与摄像机镜头保持水平且距离为75cm；要求录制出发音时嘴型从闭合开始到闭合结束，以确保能够录制到每一个音节的嘴型变化的全部过程；每位录制者的每个汉语单音节发音对应一个独立的视频文件，每个视频文件标明对应的音节。

进一步地，步骤S4中，切分时分别以设定的帧数作为间隔，不同间隔的切分采样设置为对照组实验，以确定最合适的采样帧间隔。

进一步地，步骤S6中，归一化的过程为：将同一汉语单音节发音视频中的几何特征的组合看作一个特征矩阵，归一化时选择特征矩阵中的最大值max(A)，特征矩阵中的每一个值都除以这个最大值作为新的矩阵中的值，即：

A'(i,j)＝A(i,j)/max(A)

其中，A’(i,j)表示归一化后的特征矩阵，A(i,j)表示原始特征矩阵。

进一步地，步骤S8的具体过程为：

将步骤S7中所得的特征矩阵以4:1的比例随机分为训练集与验证集；训练集用于唇语识别器的训练，训练完成输出一个权重矩阵Q；验证唇语识别器的分类准确度时，输入验证集与权重矩阵Q，输出一组分类结果，将输出的分类结果与验证集的标签做统计，得到唇语识别器的分类准确率。

进一步地，步骤S8中，唇语识别器采用softmax分类器。

本发明的有益效果在于：相对于现有技术而言，本发明具有训练数据规模较小、模型训练时间较短、唇语识别准确率较高、唇语识别时长较短的有益效果。

附图说明

图1为本发明实施例1中唇部轮廓特征点设计示意图；

图2为本发明实施例1中唇部特征设计示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

实施例1

本实施例提供一种汉语唇语单音节识别分类器构建方法，包括如下步骤：

S1、采集待识别汉字单音节的发音视频：

采集多个来自不同的人的完整发音视频，然后对于每个待识别汉字单音节，从不同的人的完整发音视频中筛选出设定数量的唇部区域无遮挡、唇部变化过程明显的发音视频；在本实施例中，每个待识别汉字单音节采用10个发音视频。

进一步地，为尽可能排除周围环境因素所造成的不必要的影响，故录制视频时对场景有如下要求：选择在白天自然光室内录制，录制时背景为白色墙壁，录制者正对摄像机，录制者面部与摄像机镜头保持水平且距离为75cm。录制内容要求如下：要求录制出发音时嘴型从闭合开始到闭合结束，以确保能够录制到每一个音节的嘴型变化的全部过程。每位录制者的每个汉语单音节发音对应一个独立的视频文件，每个视频文件标明对应的音节。

S2、构建唇部特征点标注图像样本集。

所述唇部特征点标注图像样本集的原始图像包括来自步骤S1中筛选的发音视频，还包括来自其他视频的采样，总计图像数量300张，图像中要求唇部信息完整，即唇部轮廓清晰可见。

为每一幅原始图像的唇部边缘手工标注20个特征点得到唇部特征点标注图像，300幅唇部特征点标注图像的集合为唇部特征点标注图像样本集；如图1所示，特征点标注规则为：C1、C2分别为两侧唇角的外沿点；C3、C4分别为两侧唇角的内沿点；U3、U5分别为两个唇峰的上唇外沿最高点；U4为两个唇峰间的上唇外沿最低点；U2为C1与U3之间的上唇外沿中间点；U6为C2与U5之间的上唇外沿中间点；U7、U8均为上唇内沿点，且U3与U7所在直线垂直于C3与C4所在直线，U5与U8所在直线垂直于C3与C4所在直线；L2、L3、L4、L5、L6为下唇外沿点，且L2为C1与L3之间的下唇外沿中间点；L6为C2与L5之间的下唇外沿中间点；L4为C1与C2之间的下唇外沿中间点，L5与U5所在直线垂直于C1与C2所在直线，L6与U6所在直线垂直于C1与C2所在直线；L7、L8均为下唇内沿点，且L7与U7所在直线垂直于C3与C4所在直线，L8与U8所在直线垂直于C3与C4所在直线。

S3、训练唇部特征点提取模型。

参考主动形状模型(Active Shape Models,ASM)的建立，训练集的唇部向量为：

x_i＝(x_i0,y_i0,x_i1,y_i1,...,x_i19,y_i19)^T

式中，x_i表示第i幅唇部特征点标注图像中的所有特征点构成的唇部向量，(x_ik，y_ik)表示图像中第k个特征点的横、纵坐标。对于300幅唇部特征点标注图像可获得300个唇部向量。

训练唇部特征点提取模型的具体步骤为：

S3.1、从唇部特征点标注图像样本集中选择一个唇部模型作为基准模型，将唇部特征点标注图像样本集中其他所有唇部模型对齐到基准模型，对齐是指将一系列唇部模型通过旋转、平移、缩放变换，在不改变模型的基础上对齐到基准模型上。对齐的目的在于修正原始数据杂乱无章的状态，减少非形状因素的干扰，使得所有点位置关系尽可能相似；

S3.2、计算平均唇部模型；

在本实施例中，平均唇部模型的计算方法为：除基准模型外的所有唇部模型对齐到基准模型后，计算所有模型的平均值，该平均值即为平均唇部模型。

E_j＝(x_i-M(s_j,θ_j)[x_j]-t_j)^TW(x_i-M(s_j,θ_j)[x_j]-t_j)；

Procrustes方法是将x_i映射到M(s_j,θ_j)[x_j]-t_j，通过求解缩放系数s_j、旋转系数θ_j、平移向量t_j，使得上式的值达到最小。

S4、将步骤S1中采集的待识别汉语单音节发音视频均匀切分。由于单音节发音视频时长约为1秒，总帧数约为30帧，且相邻帧唇部变化不大，故切分时分别以m帧作为间隔(m＝1,2,3,…,29)，不同间隔的切分采样可以设置为对照组实验，以确定最合适的采样帧间隔。

S5、利用步骤S3训练所得的唇部特征点提取模型对步骤S4所得的每一帧图像分别进行特征点提取，提取过程具体为：

X＝M(Tp)+Xc；

S5.2、使用初始模型X在步骤S4所得的每一帧图像中搜索目标形状，使搜索到的最终形状中的特征点和相对应的真正特征点最为接近，这个搜索过程主要是通过仿射变换和平移变化来实现；每一帧图像提取得到的特征点构成唇部特征点集；

W1＝D(C1,C2)；

W2＝D(U2,U6)；

W3＝D(U3,U5)；

W4＝D(L2,L6)；

W5＝D(L3,L5)；

W6＝D(C3,C4)；

W7＝D(U7,U8)；

W8＝D(L7,L8)；

H1＝D(U2,L2)；

H2＝D(U3,L3)；

H3＝D(U4,L4)；

其中，W1,W2,…,W8,H1,H2,H3为人为设定的几何特征名称，具体位置如图2所示。

按顺序组合所得的几何特征序列，得到同一汉语单音节发音视频的11维几何特征；将同一汉语单音节发音视频的图像的几何特征保存并归一化，可将同一汉语单音节发音视频中的几何特征的组合看作一个特征矩阵，归一化时选择特征矩阵中的最大值max(A)，特征矩阵中的每一个值都除以这个最大值作为新的矩阵中的值，即：

A'(i,j)＝A(i,j)/max(A)

其中，A’(i,j)表示归一化后的特征矩阵，A(i,j)表示原始特征矩阵。这样可以将矩阵中的值归一化在(0，1]中。

Y＝μX^T；

T为转置符；

S7、将步骤S6中所得的新的属于同一发音视频的帧的全部几何特征序列按顺序保存，并标明所属类别，得到每个发音视频的特征矩阵；类别为人为设定，以整数f为类别标签(f＝0,1,2,…)。

S8、利用步骤S7所得每个发音视频的特征矩阵，训练得到唇语识别器：

唇语识别器采用机器学习中处理多分类问题时分类效果较为理想的softmax分类器；将步骤S7中所得的特征矩阵以4:1的比例随机分为训练集与验证集；训练集用于分类器的训练，将训练集输入到softmax分类器中进行训练，通过修改学习率与迭代步长，选择一个合理的学习率与步长，使得分类器尽快收敛，分类器训练完成输出一个权重矩阵Q；验证分类器的分类准确度时，输入验证集与权重矩阵Q，输出一组分类结果，将输出的分类结果与验证集的标签做统计，得到分类器的分类准确率。

实施例2

本实施例提供一种如实施例1的方法的应用实例。

硬件运行环境：

系统版本：Windows 10专业版

处理器： Core i7-6700HQ

运行内存：8.00GB

选择音节为：ba,fu。待识别目标音节共两个，邀请20位志愿者录制数据集，共计154个样本。采样帧间隔为3，利用唇部关键点提取模型提取唇部关键点，根据关键点位置坐标计算唇部几何特征，将几何特征线性组合成为一组新的7维唇部特征。利用新的唇部特征训练分类模型，调节分类模型的学习率与步长，最终选择学习率为0.15，步长为10。利用验证集与测试集测试模型分类效果结果如下：验证误差为0.32，测试误差为0.37。对单个视频提取关键点并整合唇部特征平均用时1.2秒，利用分类模型进行分类平均用时0.6秒，共计平均用时1.8秒。

线性组合矩阵为：

实施例3

本实施例提供一种如实施例1所述方法的另一个应用实例。

选择音节为：ba,pa,fu,ma,qu,lv,de,te,ni,mi。待识别目标音节共十个，邀请100位志愿者录制数据集，共计875个样本。采样帧间隔为3，利用唇部关键点提取模型提取唇部关键点，根据关键点位置坐标计算唇部几何特征，将几何特征线性组合成为一组新的7维唇部特征。利用新的唇部特征训练分类模型，调节分类模型的学习率与步长，最终选择学习率为0.2，步长为50。利用验证集与测试集测试模型分类效果结果如下：验证误差为0.28，测试误差为0.33。对单个视频提取关键点并整合唇部特征平均用时1.2秒，利用分类模型进行分类平均用时0.8秒，共计平均用时2秒。

线性组合矩阵为：

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种汉语唇语单音节识别分类器构建方法，其特征在于，包括如下步骤：

S1、采集待识别汉字单音节的发音视频；

S2、构建唇部特征点标注图像样本集：

S3、训练唇部特征点提取模型：

训练集的唇部向量为：

x_i＝(x_i0,y_i0,x_i1,y_i1,...,x_i19,y_i19)^T；

训练唇部特征点提取模型的具体步骤为：

S3.2、计算平均唇部模型；

E_j＝(x_i-M(s_j,θ_j)[x_j]-t_j)^TW(x_i-M(s_j,θ_j)[x_j]-t_j)；

式中，x_i、x_j为第i幅和第j幅唇部特征点标注图像中的所有特征点构成的唇部向量，i≠j；s_j表示第j幅唇部特征点标注图像的唇部模型的缩放系数；M(s_j,θ_j)[x_j]为第j幅唇部特征点标注图像的唇部模型的变化函数；t_j表示第j幅唇部特征点标注图像的唇部模型的平移向量，t_j＝(t_xj1,t_yj1,…,t_xjn,t_yjn)^T，t_xjm,t_yjm,m＝1,2,…,n,分别表示第j幅唇部特征点标注图像的唇部模型每个点的横坐标和纵坐标的偏移量，每个点的横坐标和纵坐标的偏移量相等；θ_j表示第j幅唇部特征点标注图像的唇部模型的旋转系数；W为一个对角矩阵，其对角线中的每一项为k表示唇部模型中的一个特征点，其中，n为唇部模型中特征点的个数，R_kl表示唇部模型中两个特征点k和l之间的距离；/>表示距离R_kl的方差；

X＝M(Tp)+Xc；

W1＝D(C1,C2)；

W2＝D(U2,U6)；

W3＝D(U3,U5)；

W4＝D(L2,L6)；

W5＝D(L3,L5)；

W6＝D(C3,C4)；

W7＝D(U7,U8)；

W8＝D(L7,L8)；

H1＝D(U2,L2)；

H2＝D(U3,L3)；

H3＝D(U4,L4)；

其中，W1,W2,…,W8,H1,H2,H3为人为设定的几何特征名称；

Y＝μX^T；

T为转置符；

2.根据权利要求1所述的方法，其特征在于，步骤S1的具体过程为：

3.根据权利要求1或2所述的方法，其特征在于，步骤S1中，录制发音视频时，选择在白天自然光室内录制，录制时背景为白色墙壁，录制者正对摄像机，录制者面部与摄像机镜头保持水平且距离为75cm；要求录制出发音时嘴型从闭合开始到闭合结束，以确保能够录制到每一个音节的嘴型变化的全部过程；每位录制者的每个汉语单音节发音对应一个独立的视频文件，每个视频文件标明对应的音节。

4.根据权利要求1所述的方法，其特征在于，步骤S4中，切分时分别以设定的帧数作为间隔，不同间隔的切分采样设置为对照组实验，以确定最合适的采样帧间隔。

5.根据权利要求1所述的方法，其特征在于，步骤S6中，归一化的过程为：将同一汉语单音节发音视频中的几何特征的组合看作一个特征矩阵，归一化时选择特征矩阵中的最大值max(A)，特征矩阵中的每一个值都除以这个最大值作为新的矩阵中的值，即：

A'(i,j)＝A(i,j)/max(A)

6.根据权利要求1所述的方法，其特征在于，步骤S8的具体过程为：

7.根据权利要求1或6所述的方法，其特征在于，步骤S8中，唇语识别器采用softmax分类器。