CN112766101B

CN112766101B - 一种中文唇语识别建模单元集的构建方法

Info

Publication number: CN112766101B
Application number: CN202110017780.0A
Authority: CN
Inventors: 袁家斌; 何珊
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2024-05-28
Anticipated expiration: 2041-01-07
Also published as: CN112766101A

Abstract

本发明公开一种中文唇语识别建模单元集的构建方法，包括以下步骤，首先，对中文发音的声学特点和发音原理进行研究；然后，总结了几种常见的中文唇语识别建模单元集，包括词、音节、声韵母和中文音素，并给出它们各自的优缺点和适用性；最终，基于现存建模单元集的不足并通过对于中文发音视觉特点进行分析，提出了一个新的建模单元集——“视觉拼音”。本发明实施于中文唇语识别，相比于其他的建模单元集，采用本发明的技术方案将通过降低识别维度，有效减少中文发音的视觉歧义性，进而提高中文唇语识别准确率。

Description

一种中文唇语识别建模单元集的构建方法

技术领域

本发明属于唇语识别技术领域，具体涉及一种中文唇语识别建模单元集的构建方法。

背景技术

随着人工智能的发展，深度学习技术逐渐崛起并开始渗透到人们生活的方方面面，其在大数据处理、音视频处理和自然语言处理等领域均取得了瞩目的进展并与人类的生产生活紧密结合。而且随着技术发展和现实需要，深度学习早已不再局限于解决单一领域问题，而是开始追求多领域、多技术的融合研究。因此，利用深度学习进行多领域、多技术的融合研究是大势所趋，且非常具有现实意义。而唇语识别便是这样一种融合了图像识别、语音识别和自然语言识别等多领域技术的研究课题，由于这些领域的技术在飞速发展，为唇语识别的研究提供了有力的技术支持，同时，唇语识别的研究也在推动着这些领域交叉融合。

唇语识别技术及其应用是目前国际上研究的热门课题之一，由于其非常具有实用性，能为很多场景带来便利并发挥辅助性作用，因此这种自动化应用将拥有巨大的价值，具有广阔的应用前景：复杂环境下的语音识别、反作弊与活体检测、口型矫正、辅助听障人士正常交流和识别无声视频中的内容等。

唇语识别同语音识别一样，在建模之前要选取合适的建模单元集，建模单元集的合理与否与模型的识别率直接相关。一般来说，建模单元集的选取和构建通常需要考虑到以下几项原则：代表性、可训练性和推广性。即构建的建模单元集要能够准确且有代表性地描述出任何语句序列，且有足够多的数据能够对建模单元进行可靠预测，同时还要兼具可沿用性，易于表达新词。

中文唇语识别研究起步相对较晚，虽然中文唇语识别研究已经有了一些成果，但相较于英文还是存在不小的落差。主要原因在于中英文的发音规则有着非常大的差别，因此，探索合适的建模单元集对中文唇语识别工作有着非常大的意义和作用。

发明内容

为了解决现有技术中的问题，本发明提出一种中文唇语识别建模单元集的构建方法。为了使唇语识别方法与中文更加适配，也为了提升其识别率，提出了“视觉拼音”这一概念，视觉拼音本质上就是中文发音的视觉呈现，通过对唇形表达上易混淆的发音口型，最终映射得到的结果就被命名为视觉拼音。视觉拼音的引进更有助于中文唇语视频的解析，使得唇语识别的准确率更高。

为实现上述目的，本发明采用的技术方案为：

一种中文唇语识别建模单元集的构建方法，包括以下步骤：

步骤1，总结出若干种常见的中文唇语识别建模单元集，分析得到的若干种建模单元集各自的优缺点和适用性，得到其中表现最好的建模单元集，即中文音素；

步骤2，结合中文发音的视觉特点和步骤1提到的中文音素，建立一个名称为视觉拼音的中文唇语识别建模单元集；

步骤3，为了确定步骤2中的视觉拼音组成，首先将64×80像素的唇部视频帧序列输入到一个10层的卷积神经网络，提取得到512维的嘴唇特征向量；

步骤4，以步骤1提到的中文音素作为建模单元，将步骤3得到的嘴唇特征向量输入到带有注意机制的序列到序列模型，得到中文音素序列；

步骤5，重复步骤3和步骤4，为预测得到的中文音素序列和与之对应的目标中文音素序列建立混淆矩阵，对中文音素的混淆程度进行归类；

步骤6，通过对中文发音规律的总结，在步骤5所得归类结果的基础上进行补充和调整，得到最终的视觉拼音；

步骤7，将步骤1中的全部建模单元集和步骤6得到的视觉拼音分别应用到中文唇语识别系统中，比较模型的性能表现，得出视觉拼音更适合中文唇语的解析。

进一步的，所述步骤1中的若干种常见的中文唇语识别建模单元集包括：词、音节、声韵母和中文音素。

进一步的，所述中文音素有两种分类：辅音和元音，其中：辅音包含b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,ng；元音包含a,o,e,i,u,ü,ê,-i[前],-i[后],er。

进一步的，所述步骤2对中文发音的视觉特点和步骤1提到的中文音素进行分析后，认为如果可以降低唇语识别的维度，并减少视觉混淆性给识别工作造成的影响，便能提高中文唇语识别的性能。为了验证这一结论，拟建立一个名为视觉拼音的中文唇语识别建模单元，并通过实验验证其效用。

进一步的，所述步骤3中使用的卷积神经网络的卷积内核均为1×3×3，采用非线性激活Selu函数，所有的最大池化stride为1×2×2。

进一步的，所述步骤4中的序列到序列模型分为编码器和解码器两个部分，其中，编码部分是256维的2层GRU网络，用于将嘴唇特征向量编码成特定内容向量，解码部分是512维的单向GRU网络，用以解决每一时刻的嘴唇视频帧随着时间变化的运动特征问题和未知长度的输入与输出的对齐问题，并将编码器输出的内容向量解码成最终的中文音素序列。最终的模型整体架构如图2所示。

进一步的，所述步骤5中对中文音素的归类就是对中文发音的视觉呈现进行归类，实则是对汉语音素的归类，汉语音素分为元音和辅音，辅音中包含了所有的声母，在中文音素中，元音在嘴型上是不容易混淆的，所以混淆矩阵中得到部分辅音在视觉上非常相似，归类后得到最具混淆性的几组中文音素为：(1)b,p,m,f；(2)d,t,n,l；(3)zh,ch,sh,r；(4)g,k,h；(5)j,q,x；(6)z,c,s。

进一步的，所述步骤6中经过补充和调整后得到的最终视觉拼音分类如下：视觉拼音B，对应b,p,m；视觉拼音F，对应f；视觉拼音D，对应d,t,声母n,l；视觉拼音G，对应g,k,h；视觉拼音J，对应j,q,x；视觉拼音R，对应zh,ch,sh,r,zhi,chi,shi,ri；视觉拼音Z，对应z,c,s,zi,ci,si；视觉拼音I，对应i,y,yi；视觉拼音U，对应u,w,wu；视觉拼音V，对应ü,yu；视觉拼音a，对应a；视觉拼音o，对应o；视觉拼音e，对应e；视觉拼音E，对应ê；视觉拼音r，对应er；视觉拼音n，对应韵母n；视觉拼音N，对应ng。

进一步的，所述步骤7中的中文唇语识别系统基于两种模型，分别是CHSLR-VP和WAS。

本发明相比于现有技术，具有以下有益效果：

本发明可以应用到中文唇语识别工作中，作为系统的建模单元集。中文发音在视觉上极具混淆性，因此，在建立中文唇语识别模型时要充分考虑到中文自身的特点，不同的发音部位和发音方法决定了声音的不同，在没有声音仅依据视觉判定发音时，某些发音口型在视觉上是很难进行区分的。通过本发明建立的中文唇语识别建模单元集，可以在一定程度上减少视觉混淆对模型性能的影响，引入本发明提出的视觉拼音，可以比直接预测汉字或以拼音作为媒介预测汉字的方式更能提高中文唇语识别模型的整体识别准确率。

附图说明

图1是本发明的唇部特征提取网络结构图；

图2是本发明步骤4中的序列到序列模型整体架构图；

图3是本发明的中文音素混淆矩阵图；

图4是本发明的发音“f”与“b，p，m”的视觉区别举例图；

图5是本发明的中文唇语识别模型CHSLR-VP整体结构图；

图6是本发明的不同建模单元集的预测实例图。

具体实施方式

下面结合实施例对本发明作更进一步的说明。

一种中文唇语识别建模单元集的构建方法，包括以下步骤：

作为一个优选方案，具体地讲，所述步骤1中的若干种常见的中文唇语识别建模单元集包括：词、音节、声韵母和中文音素。所述中文音素有两种分类：辅音和元音，其中：辅音包含b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,ng；元音包含a,o,e,i,u,ü,ê,-i[前],-i[后],er。

作为一个优选方案，具体地讲，所述步骤2对中文发音的视觉特点和步骤1提到的中文音素进行分析后，认为如果可以降低唇语识别的维度，并减少视觉混淆性给识别工作造成的影响，便能提高中文唇语识别的性能。为了验证这一结论，拟建立一个名为视觉拼音的中文唇语识别建模单元，并通过实验验证其效用。

作为一个优选方案，具体地讲，所述步骤3中使用的卷积神经网络的卷积内核均为1×3×3，采用非线性激活Selu函数，所有的最大池化stride为1×2×2。

作为一个优选方案，具体地讲，所述步骤4中的序列到序列模型分为编码器和解码器两个部分，其中，编码部分是256维的2层GRU网络，用于将嘴唇特征向量编码成特定内容向量，解码部分是512维的单向GRU网络，用以解决每一时刻的嘴唇视频帧随着时间变化的运动特征问题和未知长度的输入与输出的对齐问题，并将编码器输出的内容向量解码成最终的中文音素序列。最终的模型整体架构如图2所示。

作为一个优选方案，具体地讲，所述步骤5中对中文音素的归类就是对中文发音的视觉呈现进行归类，实则是对汉语音素的归类，汉语音素分为元音和辅音，辅音中包含了所有的声母，在中文音素中，元音在嘴型上是不容易混淆的，所以混淆矩阵中得到部分辅音在视觉上非常相似，归类后得到最具混淆性的几组中文音素为：(1)b,p,m,f；(2)d,t,n,l；(3)zh,ch,sh,r；(4)g,k,h；(5)j,q,x；(6)z,c,s。

作为一个优选方案，具体地讲，所述步骤6中经过补充和调整后得到的最终视觉拼音分类如下：视觉拼音B，对应b,p,m；视觉拼音F，对应f；视觉拼音D，对应d,t,声母n,l；视觉拼音G，对应g,k,h；视觉拼音J，对应j,q,x；视觉拼音R，对应zh,ch,sh,r,zhi,chi,shi,ri；视觉拼音Z，对应z,c,s,zi,ci,si；视觉拼音I，对应i,y,yi；视觉拼音U，对应u,w,wu；视觉拼音V，对应ü,yu；视觉拼音a，对应a；视觉拼音o，对应o；视觉拼音e，对应e；视觉拼音E，对应ê；视觉拼音r，对应er；视觉拼音n，对应韵母n；视觉拼音N，对应ng。

作为一个优选方案，具体地讲，所述步骤7中的中文唇语识别系统基于两种模型，分别是CHSLR-VP和WAS。CHSLR-VP来自于专利(202011178528.X)；WAS模型选自Chung的工作，是句子级唇语识别的经典工作[引用自Chung J S,Senior A,Vinyals O,etal.Lipreading sentences in the wild[C]//2017IEEE Conference on Computer Vision andPattern Recognition(CVPR).IEEE,2017:3444-3453.]。

实施例1

一种中文唇语识别建模单元集的构建方法，包括以下步骤：

步骤1，总结出几种常见的中文唇语识别建模单元集，主要包括：词、音节、声韵母和中文音素，分析得到的几种建模单元集各自的优缺点和适用性，得到其中相对较好的建模单元集——中文音素；

1.1词

利用中文唇语识别技术直接将唇部视觉特征解析成对应的汉字词句。以“词”作为建模单元是因为中文的单字一般不具有具体含义或者说其含义不能确定，只有将汉字组合成词才能理解其表达的语义。这也是英文和中文最大的不同点：英文的最小单元为单词，而中文的最小单元是汉字，一个英文单词是具有语义的，汉字则要组合起来才具有语义。将组合起来的汉字作为一个最小的具有语义的单元，一个句子则由几个单词组成，更利于识别。

以词构建建模单元集，如果训练数据的词汇量较大，则会造成标签集数目过多，使得训练数据映射到标签时过于分散，会导致模型在预测输出序列时搜索范围增大，模型不能得到充分训练，参数也不能被正确估计，大大降低模型性能。因此一般只适合用在词汇量较少、句子意义较为接近的识别系统中。

1.2音节

先用中文唇语识别技术将唇部视觉特征解析成音节序列，再间接把音节序列转译成对应的汉字序列。音节主要用于标记中文的发音，但由于中文唇语识别是在无声条件下进行的，故不包含声调这一要素。一个汉字对应一个音节，但一个音节则对应多个汉字。因此，汉字约有87019个(其中重复字320个)，音节仅有415种(不考虑声调)，即便只考虑常用的3500个汉字，汉字数量维度也远远大于音节数量维度。所以，通过唇语识别音节序列要比识别汉字序列容易很多。

以音节(syllable)构建建模单元集有两种方式：第一种同词(word)，只不过是用音节来标记词，会和词(word)有相同的缺点，此外还要在最后将音节转换成对应的汉字，识别难度并未得到有效降低；第二种是以单字对应的音节作为建模单元集，以音节作为发音的逻辑单元，相比于汉字降低了识别维度。

1.3声韵母

和音节相比，声韵母其实就是音节拆分而成的其中，声母是整个音节的开头，其余部分是韵母。

中文拼音中一共包含了21个声母。按发音部位分，可以分为双唇音、唇齿音、舌尖前音、舌尖中音、舌尖后音、舌面音和舌根音共7类。按发音方法分，可以分为不送气塞音、送气塞音、不送气塞擦音、送气塞擦音、清擦音、浊擦音、鼻音和边音共8类。具体分类如下表所示：

中文普通话拼音中一共有39个韵母，韵母的构成一般有两种类型：只有元音的形式，元音加鼻辅音的形式。按结构分类，可分为6类，分别是单韵母、前响复韵母、后响复韵母、中响复韵母、前鼻音韵母和后鼻音韵母。按发音口型分，可以分为开口呼、齐齿呼、合口呼和嘬口呼共4类，其中-i[前]和-i[后]不能单独发音，因此不属于这四种类别。具体的发音分类如下表所示：

以声韵母作为中文唇语识别的建模单元集，更符合中文发音自身的特点，且比音节更符合建模单元集的构建原则，维度更少，更具代表性和推广性。但是相比于英文字母或英文音素，声韵母在作为建模单元集时，标签数目还是较多。

1.4中文音素

音素是最小的语音单位，一个发音动作对应于一个音素。中文音素由全部声母加上一个“ng”组成的辅音，以及单元音韵母组成的元音，构成。举例来说，“中国”一词由两个音节组成，可以分解为“zh，o，ng，g，u，o”六个音素。中文音素共32个，详见下表，可以看出中文音素实则是对韵母进行了细化，对复合韵母的发音口型做了分解。

以中文音素构建建模单元集，无论是在英文语音识别还是唇语识别领域，都取得了卓越的成果。目前还未有将音素应用到中文唇语识别系统的工作，不过中文音素的种类本质上是非常接近拼音字母的，将拼音字母作为建模单元集的中文唇语识别系统还是十分常见的。如果以中文音素作为建模单元集，其标签数目相比于声韵母会减少很多，在同等训练数据量的情况下，以音素作为建模单元集所建模型的参数相比于声韵母能够得到更为充分和准确的估计。

步骤2，通过对中文发音的视觉特点和步骤1提到的中文音素进行分析，认为如果可以降低唇语识别的维度，并减少视觉混淆性给识别工作造成的影响，便能有效提高中文唇语识别的性能，为了验证这一结论，拟提出一个新的建模单元集，并将其命名为视觉拼音，并通过实验验证其效用；

2.1视觉拼音的提出

中文发音在视觉上极具混淆性，体现在不同的词语因为有着相同的拼音序列，所以共享完全相同的唇形(例如：“联系”和“练习”)，甚至有着两个不同拼音序列的词语，因为发音相近，亦难在唇形上做出区分(例如：“联系”和“电击”)。因此，在建立中文唇语识别模型时要充分考虑到中文自身的特点，不同的发音部位和发音方法决定了声音的不同，但在没有声音仅依据视觉判定发音时，某些发音口型在视觉上是很难进行区分的。为了最大程度上减少视觉混淆对模型性能的影响，需要从说话者讲话时的唇型变化与实际发音的对应关系出发。同时，根据步骤1中所提的中文音素，可以得知，中文音素是最小的中文语音单位，一个发音动作对应于一个中文音素。受此启发，所构建的建模单元集中，一个视觉发音口型对应于一个视觉拼音。

步骤3，为了确定步骤2中的视觉拼音组成，首先将64×80像素的唇部视频帧序列输入到一个10层的卷积神经网络，提取得到512维的嘴唇特征向量，卷积神经网络的卷积内核均为1×3×3，采用非线性激活Selu函数，所有的最大池化stride为1×2×2；

3.1嘴唇特征提取网络

在短视频解析模型对唇部序列进行解析前，需要先输入一组嘴唇区域图像并提取相应的唇部视觉特征，模型的输入是3通道的BMP图像，截取大小为64×80像素的嘴唇区域图像。本发明设置了一个10层的CNN结构，用于从图像中提取512维唇部特征空间，图1给出了特征提取网络结构。对于输入的唇部图像，要依次通过5个block，每个block中均有两个卷积层(conv)，所有卷积层的卷积核均为3×3，且卷积核的滑动步长均为2。为了压缩输入图像的尺寸，每个block后要再连接一个最大池化层且要保持网络的平移不变性。图像特征提取的5个周期操作均为conv-SeLU-conv-SeLU-MP-BN，其中，SeLU是非线性激活函数，MP表示最大池化层，BN表示批量归一化。

所构建的唇部视觉特征提取CNN网络参数如下表所示。图像输入大小为T×80×64×3，其中：T表示每次输入图片的帧数，80为图片宽度，64为图片高度，3代表BMP三通道。上述网络学习到的是图像的颜色、边缘、纹理等基本特征。

步骤4，以步骤1提到的中文音素作为建模单元，将步骤3得到的嘴唇特征向量输入到带有注意机制的序列到序列模型，得到中文音素序列，该序列到序列模型是基于专利202011178528.X中构建的中文唇语识别模型CHSLR-VP的视觉拼音预测子模块，只不过是将建模单元集替换成中文音素；

4.1带有注意机制的序列到序列体系结构

带有注意机制的序列到序列体系结构由编码器，解码器和注意机制组成。其中，编码器和解码器通常基于RNN(LSTM或GRU)，本发明应用的是GRU网络，相比于LSTM，它具有困惑度低，收敛速度快等优点。

注意机制的作用：对于长输入序列，编码过程通常有损，引入注意机制可以自动从编码器中选择最相关的信息，从而帮助解码器在每个解码步骤中预测准确的单元。具体来说，注意机制用于计算生成上下文向量。

步骤5，重复步骤3和步骤4，为预测得到的中文音素序列和与之对应的目标中文音素序列建立混淆矩阵，对中文音素的混淆程度进行归类，具体地讲，对中文音素的归类就是对中文发音的视觉呈现进行归类，中文音素分为元音和辅音，辅音中包含了所有的声母，在中文音素中，元音在嘴型上是不容易混淆的，所以混淆矩阵中可以得到部分辅音在视觉上非常相似，归类后得到最具混淆性的6组中文音素，如图3所示，其中，横坐标代表预测得到的音素，纵坐标代表实际音素，颜色越浅代表混淆度越高；

步骤6，通过对中文发音规律的总结，在步骤5所得归类结果的基础上进行补充和调整，得到最终的视觉拼音全部分类，最终视觉拼音分类如下表所示；

6.1视觉拼音分类的补充和调整

仅根据中文音素混淆矩阵不足以最终确定视觉拼音，仍有以下三种情况需要考虑：

1、通过图3可知，最不易区分的是辅音，也即是声母部分。声母分类表，“f”作为唇齿音和“b，p，m”具有一定的视觉相似性，为了进一步确定“f”的分类，观察了以“f”或“b，p，m”作为声母，韵母相同的汉字对应的唇部视频帧序列，截取了部分例子如图4所示。经过比较发现，“f”在发音时具有“咬下唇”的特点，而“b，p，m”则是爆破音，故“f”将单独划分为一类；

2、在拼音字母中有两个十分特别的存在——“y”和“w”，它们常被放在声母的位置，但并不是实际意义上的声母。因为声母是一个音节开头的辅音，以“y”、“w”为首的音节，虽然也处于开头的地位，但其实是元音“i”、“u”的大写形式。当用中文拼音对汉字进行标注时，如果“i”和“u”作为独立音节，必须在它们的面前加上“y”和“w”，所以视觉拼音会纳入二者；

3、考虑到某些整体认读音节的发音与单个音素的视觉效果一样，将这样的音节也归类到视觉拼音中。综上所述，得到了如表3.4所示的视觉拼音字母表。

步骤7，将步骤1中的全部建模单元集和步骤6得到的视觉拼音分别应用到中文唇语识别系统中，比较模型的性能表现，得出视觉拼音更适合中文唇语的解析。其中，中文唇语识别系统主要基于两种模型，分别是CHSLR-VP和WAS。CHSLR-VP来自于专利(202011178528.X)；WAS模型选自Chung的工作，是句子级唇语识别的经典工作[引用自Chung J S,Senior A,Vinyals O,et al.Lip reading sentences in the wild[C]//2017IEEE Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2017:3444-3453.]；

7.1中文唇语识别模型CHSLR-VP

如图5所示，中文唇语识别模型CHSLR-VP包括两个子模块：视觉拼音预测模块和汉字预测模块，其中：视觉拼音预测模块包括唇部视觉特征提取网络、视频编码器和视觉拼音解码器，汉字预测模块包括视觉拼音编码器和汉字解码器。原则上，CHSLR-VP是一个端到端的模型，输入短视频视频帧，输出最终的汉字序列，但为了验证两个子模块的性能以及视觉拼音做为建模单元集的作用，还会输出一个中间结果，也就是视觉拼音序列。

CHSLR-VP对于中文唇语的识别过程可以总结为如下几步：

1、将处理过的短视频唇部视频帧经过唇部特征提取网络提取得到唇部视觉特征向量；

2、唇部视觉特征向量依次经过视频编码器、视觉拼音解码器得到视觉拼音序列，视觉拼音是衡量模型性能的一个重要元素，所以将其输入到视觉拼音编码器的同时，也要在视觉拼音解码器中输出这一中间结果，用以计算视觉拼音预测准确率；

3、视觉拼音编码器会对唇部视觉特征向量进行编码处理，将经过编码处理的唇部视觉特征向量和视觉拼音序列共同输入到视觉拼音编码器，利用编码器中的注意机制减少视觉拼音序列损失，并提升CHSLR-VP模型的整体性能，最后再经过汉字解码器得到汉字序列。

7.2建模单元集效用比较

下面是本发明想要验证的重点——以视觉拼音作为建模单元集的有效性。首先，将视觉拼音与以下几个建模单元集进行比较：音节、声韵母和中文音素，具体做法就是将CHSLR-VP模型中的视觉拼音预测模块的建模单元集替换成上述几个建模单元集，原始模块命名为V2VP(视觉拼音预测)，替换后的分别命名为V2SY(音节预测)、V2IF(声韵母预测)以及V2CP(中文音素预测)。下表展示了不同建模单元在短视频解析模型中的性能表现，PAR代表音节/声韵母/中文音素/视觉拼音预测准确率。

上表确认了视觉拼音相比于其他建模单元更适合解析唇语，以视觉拼音作为建模单元的V2VP模型的预测结果(76.48％)明显好于其他模型。

出现这种现象的原因有三点：

1、视觉拼音是基于中文发音视觉特点得出的，将发音像近的发音单元进行归类，在一定程度上解决了中文唇语识别工作中最具挑战性的问题——视觉混淆性；

2、视觉拼音共计17个，和其他建模单元集相比，模型的预测维度降低了许多，且由于各单元对应到视觉唇形上较易区分，所以预测效果较好；

3、视觉拼音一方面考虑了中文发音的视觉特点，另一方面也综合了其他建模单元集，尤其是中文音素，中文音素本身就是中文发音的最小单元，再加上对于发音规律的研究，添加了一些类别，组成了视觉上的中文发音最小单元。

基于以上三点，不难得出视觉拼音与中文唇语识别工作的契合性。为了更直观地感受到建模单元集在唇语识别中起到的作用，本发明给出了实施例，如图6所示。

接下来，为了对比分析视觉拼音在整个唇语识别工作中的效果，选取了2种不同的模型与之进行比较，分别是CHSLR-CP和WAS。其中，CHSLR-CP模型的结构同CHSLR-VP完全一致，只不过将建模单元集从视觉拼音变成了音节和中文音素，选取它的原因是V2CP是除了V2VP外，表现最好的模型；WAS的建模单元集为词，解码器在每个时间步预测直接输出汉字。下表为三者对比结果，CAR代表汉字预测准确率。

上表最终确认了在完整的中文唇语识别过程中，视觉拼音相较于其他建模单元集，能更准确地传达视频中蕴含的语言信息。

本发明首先对常见的中文唇语识别建模单元集进行总结，分析它们各自的优劣性，得出其中较好的建模单元集，即中文音素；然后，对中文发音口型的视觉呈现进行分类，将归纳得到的结果命名为视觉拼音，将其作为一个全中文唇语识别建模单元集；最终，通过对比上述所有建模单元集在中文唇语识别工作中的表现，验证了以视觉拼音作为建模单元可以更好地提升中文唇语识别性能。本发明实施于中文唇语识别，相比于用唇部特征直接识别汉字或通过拼音序列间接识别汉字，采用本发明的技术方案将有效提高唇语识别准确率。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种中文唇语识别建模单元集的构建方法，其特征在于，包括以下步骤：

步骤1，总结出若干种中文唇语识别建模单元集，分析得到的若干种建模单元集各自的优缺点和适用性，得到其中表现最好的建模单元集，即中文音素；

2.根据权利要求1所述的一种中文唇语识别建模单元集的构建方法，其特征在于：所述步骤1中的若干种常见的中文唇语识别建模单元集包括：词、音节、声韵母和中文音素。

3.根据权利要求2所述的一种中文唇语识别建模单元集的构建方法，其特征在于：所述中文音素有两种分类：辅音和元音，其中：辅音包含b, p, m, f, d, t, n, l, g, k, h,j, q, x, zh, ch, sh, r, z, c, s, ng；元音包含a, o, e, i, u, ü, ê, -i[前], -i[后], er。

4.根据权利要求1所述的一种中文唇语识别建模单元集的构建方法，其特征在于：所述步骤3中使用的卷积神经网络的卷积内核均为1×3×3，采用非线性激活Selu函数，所有的最大池化stride为1×2×2。

5.根据权利要求1所述的一种中文唇语识别建模单元集的构建方法，其特征在于：所述步骤4中的序列到序列模型分为编码器和解码器两个部分，其中，编码部分是 256 维的2层GRU网络，用于将嘴唇特征向量编码成特定内容向量，解码部分是512维的单向GRU网络，用以解决每一时刻的嘴唇视频帧随着时间变化的运动特征问题和未知长度的输入与输出的对齐问题，并将编码器输出的内容向量解码成最终的中文音素序列。

6.根据权利要求1所述的一种中文唇语识别建模单元集的构建方法，其特征在于：所述步骤5中对中文音素的归类就是对中文发音的视觉呈现进行归类，实则是对汉语音素的归类，汉语音素分为元音和辅音，辅音中包含了所有的声母，在中文音素中，元音在嘴型上是不容易混淆的，所以混淆矩阵中得到部分辅音在视觉上非常相似，归类后得到最具混淆性的几组中文音素为：(1) b, p, m, f；(2) d, t, n, l；(3) zh, ch, sh, r；(4) g, k, h；(5) j, q, x；(6) z, c, s。

7.根据权利要求6所述的一种中文唇语识别建模单元集的构建方法，其特征在于：所述步骤6中经过补充和调整后得到的最终视觉拼音分类如下：视觉拼音B，对应b, p, m；视觉拼音F，对应f；视觉拼音D，对应d, t, 声母n, l；视觉拼音G，对应g, k, h；视觉拼音J，对应j, q, x；视觉拼音R，对应zh, ch, sh, r, zhi, chi, shi, ri；视觉拼音Z，对应z, c, s,zi, ci, si；视觉拼音I，对应i, y, yi；视觉拼音U，对应u, w, wu；视觉拼音V，对应ü, yu；视觉拼音a，对应a；视觉拼音o，对应o；视觉拼音e，对应e；视觉拼音E，对应ê；视觉拼音r，对应er；视觉拼音n，对应韵母n；视觉拼音N，对应ng。

8.根据权利要求1所述的一种中文唇语识别建模单元集的构建方法，其特征在于：所述步骤7中的中文唇语识别系统基于两种模型，分别是CHSLR-VP和WAS。