CN112329581B

CN112329581B - 基于中文发音视觉特点的唇语识别方法

Info

Publication number: CN112329581B
Application number: CN202011178528.XA
Authority: CN
Inventors: 袁家斌; 何珊; 陆要要
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2024-04-02
Anticipated expiration: 2040-10-29
Also published as: CN112329581A

Abstract

本发明公开一种基于中文发音视觉特点的唇语识别方法，包括以下步骤，首先，通过对拼音的视觉呈现进行分类，归纳得到的结果被命名为视觉拼音；然后，建立一个二级结构的中文句子级唇语识别模型，整体结构基于带有注意机制的序列到序列模型，将唇语识别过程划分为两个阶段：第一阶段将上述视觉拼音作为建模单元，通过卷积神经网络提取嘴唇视觉特征，对特征向量进行编码解码得到视觉拼音序列，第二阶段同时输入视觉拼音序列和第一阶段编码得到的嘴唇特征向量，最终将视觉拼音翻译成汉字语句。本发明实施于中文唇语识别，相比于用唇部特征直接识别汉字或通过拼音序列间接识别汉字，采用本发明的技术方案将有效提高唇语识别准确率。

Description

基于中文发音视觉特点的唇语识别方法

技术领域

本发明属于唇语识别技术领域，具体涉及一种基于中文发音视觉特点的唇语识别方法。

背景技术

人类语音互动本质上是多模式的，与他人交流时可以通过“听”和“看”来获取信息。在干净的声学条件下，听觉方式会携带大多数有用的信息，并且最新的技术水平已经能够自动准确地记录语音内容，准确率高达98％。而当音频通道被噪声破坏甚至没有声音时，视觉模态变得最有效，因为从中可以获得一定的语言特征。

唇语识别是融合了计算机视觉、语音识别和自然语言识别等多种技术的一个课题，目的是解码说话者嘴唇运动生成的文本，具有广阔的应用空间：嘈杂环境中的语音识别，公共场所的静默听写，无声影视资料处理等。现在，由于计算机视觉任务的进步，这种自动化应用是极具前景的。近年来，至少在数据集定义的词汇量有限的情况下，利用深度学习架构训练得到的唇读模型在很大程度上已经超过了专业读唇者。

发明内容

为了解决现有技术中的问题，本发明提出一种基于中文发音视觉特点的唇语识别方法，为了使唇语识别方法与汉语更加适配，也为了提升其识别率，提出了“视觉拼音”这一概念，并基于视觉拼音建立了一个中文句子级唇语识别模型。视觉拼音本质上就是拼音的视觉呈现，通过对唇形表达上易混淆的拼音，也即汉语音素中的辅音部分进行归类，最终映射得到的结果就被命名为视觉拼音。建立的中文句子级唇语识别模型包含两个识别过程：视频帧到视觉拼音的识别，视觉拼音到汉字的识别。视觉拼音的引进更有助于中文视频的解析，使得唇语识别的准确率更高。

为实现上述目的，本发明采用的技术方案为：

一种基于中文发音视觉特点的唇语识别方法，包括以下步骤：

步骤1，将64×80像素的视频帧序列x₁,x₂,…,x_m输入到一个10层的卷积神经网络，提取得到512维的嘴唇特征向量；

步骤2，以拼音作为建模单元，将嘴唇特征向量输入到带有注意机制的序列到序列模型，得到汉语拼音序列；

步骤3，重复步骤1和步骤2，为预测得到的拼音序列中的声母和与之对应的实际拼音序列中的声母建立混淆矩阵，通过对声母的混淆程度进行归类，得到视觉拼音与对应拼音的映射关系；

步骤4，将步骤2中的建模单元替换成步骤3中得到的视觉拼音，重新对模型进行训练，将重新训练得到的模型命名为视觉拼音预测模型V2VP，V2VP的作用是将步骤1中的视频帧序列表达成视觉拼音序列；

步骤5，以汉字词作为建模单元，将短视频对应的正确的视觉拼音序列输入到带有注意机制的序列到序列模型中，最终得到汉字序列c₁,c₂,…,c_l，该模型被命名为汉字预测模型VP2H；

步骤6，结合步骤4中的视觉拼音预测模型V2VP和步骤5中的汉字预测模型VP2H，得到一个端到端的中文句子级唇语识别模型CHSLR-VP，向中文句子级唇语识别模型CHSLR-VP中输入步骤1生成的嘴唇特征向量，首先得到与视频相对应的视觉拼音序列，再对视觉拼音进行翻译，最终得到短视频中说话者的讲话内容。

进一步的，所述步骤1中使用的卷积神经网络的卷积内核均为1×3×3，采用非线性激活Selu函数，所有的最大池化stride为1×2×2。

进一步的，所述步骤2中得到的汉语拼音序列是以分词为单位的序列。

进一步的，所述步骤3中对拼音的视觉呈现进行归类，实则是对汉语音素的归类，汉语音素分为元音和辅音，辅音中包含了所有的声母，元音在嘴型上是不容易混淆的，所以只对辅音即声母进行归类，归类后得到的视觉拼音与对应拼音的映射关系如下：视觉拼音B，对应的拼音b,p,m；视觉拼音F，对应的拼音f；视觉拼音D，对应的拼音d,t,声母n,l；视觉拼音G，对应的拼音g,k,h；视觉拼音J，对应的拼音j,q,x；视觉拼音R，对应的拼音zh,ch,sh,r,zhi,chi,shi,ri；视觉拼音Z，对应的拼音z,c,s,zi,ci,si；视觉拼音I，对应的拼音i,y,yi；视觉拼音U，对应的拼音u,w,wu；视觉拼音V，对应的拼音ü,yu；视觉拼音a，对应的拼音a；视觉拼音o，对应的拼音o；视觉拼音e，对应的拼音e；视觉拼音E，对应的拼音er；视觉拼音n，对应的拼音韵母n；视觉拼音N，对应的拼音ng。

进一步的，所述步骤4中V2VP模型以视觉拼音作为建模单元。

进一步的，所述步骤4中，视觉拼音预测模型V2VP将步骤1中得到的视频帧序列转为视觉拼音序列，该过程包括视频编码器和视觉拼音解码器，视频编码器首先将视频帧序列输入到CNN中以提取视觉特征，然后，将特征向量馈入GRU，编码过程表示为：

其中：x_i代表视频帧序列x₁,x₂,…,x_m的某一帧，和代表经视频编码器编码后的输出向量和隐状态向量，和代表视频编码器在第i个时间步长进行编码后的输出向量和隐状态向量，代表视频编码器在第i-1个时间步长进行编码后生成的隐状态向量，视觉拼音解码器基于GRU transducer生成解码器状态和输出状态向量在预测视觉拼音序列p时，每个时间步长i使用视频编码器的输出来计算上下文向量，输出视觉拼音字符的概率分布P₁是由MLP在输出上使用softmax生成的，整个解码过程通过以下等式表示：

其中：和代表经视觉拼音解码器解码后的输出向量和隐状态向量，和代表视觉拼音解码器在第i个时间步长进行解码后的输出向量和隐状态向量，代表视觉拼音解码器在第i-1个时间步长进行解码后得到的隐状态向量，p_i代表视觉拼音解码器在第i个时间步长预测得到的视觉拼音序列，p_i-1代表视觉拼音解码器在第i-1个时间步长预测得到的视觉拼音序列，代表第i个时间步长使用视频编码器的输出计算得到的上下文向量。

进一步的，所述步骤5中汉字预测模型VP2H使用的带有注意机制的序列到序列模型与视觉拼音预测模型V2VP的有所不同，除解码器外，在编码器中引入了注意机制，这是为后面两个模型组成一个整体时准备的。

进一步的，所述步骤5中，汉字预测模型VP2H包括视觉拼音编码器和汉字解码器，视觉拼音编码器首先对视觉拼音序列进行编码，编码过程表示为：

其中：和代表经视觉拼音编码器编码后的输出向量和隐状态向量，和代表视觉拼音编码器在第i个时间步长进行编码后的输出向量和隐状态向量，代表视觉拼音编码器在第i-1个时间步长进行编码后生成的隐状态向量，p_i代表视觉拼音解码器在第i个时间步长预测得到的视觉拼音序列，汉字解码器基于GRU transducer生成解码器状态和输出状态向量在预测汉字序列h时，每个时间步长i使用视觉拼音编码器的输出来计算上下文向量，输出汉字的概率分布P₂是由MLP在输出上使用softmax生成的，整个解码过程通过以下等式表示：

其中：和代表经汉字解码器解码后的输出向量和隐状态向量，和代表汉字解码器在第i个时间步长进行解码后的输出向量和隐状态向量，代表汉字解码器在第i-1个时间步长进行解码后得到的隐状态向量，h_i代表汉字解码器在第i个时间步长预测得到的汉字序列，h_i-1代表汉字解码器在第i-1个时间步长预测得到的汉字序列，代表第i个时间步长使用视觉拼音编码器的输出计算得到的上下文向量。

进一步的，所述步骤6中构建的中文句子级唇语识别模型CHSLR-VP需要用到步骤5中的编码器注意机制，矫正视觉拼音预测部分生成的视觉拼音序列，在级联的汉字预测模型中输入视觉拼音序列的同时引入唇部特征向量。

进一步的，所述步骤6中中文句子级唇语识别模型CHSLR-VP包括视频编码器、视觉拼音解码器、视觉拼音编码器和汉字解码器，

(1)、视频帧经过卷积神经网络提取得到嘴唇特征向量；

(2)、嘴唇特征向量依次经过视频编码器、视觉拼音解码器得到视觉拼音序列，视觉拼音是衡量模型性能的一个重要元素，所以将其输入到视觉拼音编码器的同时，也要在视觉拼音解码器中输出这一中间结果，用以计算视觉拼音预测准确率；

(3)、视觉拼音编码器会对嘴唇特征向量进行编码处理，将经过编码处理的嘴唇特征向量和视觉拼音序列共同输入到视觉拼音编码器，目的是矫正视觉拼音序列，提升模型整体性能，最后再经过汉字解码器得到汉字序列。

本发明相比于现有技术，具有以下有益效果：

本发明是一种基于中文发音视觉特点提出的的句子级唇语识别模型，可以预测一段短视频中说话人的讲话内容。现如今深度学习技术飞速发展，与现实生活息息相关，利用合适的深度学习网络建立中文唇语识别模型具有广阔的应用前景和现实意义。通过本发明建立的唇语识别模型，结构清晰，训练简单，引入本发明提出的视觉拼音，可以比直接预测汉字或以拼音作为媒介预测汉字的方式更能提高模型的整体识别准确率，因为视觉拼音在一定程度上克服了汉语发音在视觉表达上的歧义性。

附图说明

图1是本发明的音素混淆矩阵；

图2是本发明的视觉拼音预测模型V2VP结构图；

图3是本发明的汉字预测模型VP2H结构图；

图4是本发明的中文句子级唇语识别模型CHSLR-VP结构图。

具体实施方式

下面结合实施例对本发明作更进一步的说明。

作为一个优选方案，具体地讲，所述步骤1中使用的卷积神经网络的卷积内核均为1×3×3，采用非线性激活Selu函数，所有的最大池化stride为1×2×2。

作为一个优选方案，具体地讲，所述步骤2中得到的汉语拼音序列是以分词为单位的序列。

所述步骤3中对拼音的视觉呈现进行归类，实则是对汉语音素的归类，汉语音素分为元音和辅音，辅音中包含了所有的声母，元音在嘴型上是不容易混淆的，所以只对辅音即声母进行归类，归类后得到的视觉拼音与对应拼音的映射关系如下：视觉拼音B，对应的拼音b,p,m；视觉拼音F，对应的拼音f；视觉拼音D，对应的拼音d,t,声母n,l；视觉拼音G，对应的拼音g,k,h；视觉拼音J，对应的拼音j,q,x；视觉拼音R，对应的拼音zh,ch,sh,r,zhi,chi,shi,ri；视觉拼音Z，对应的拼音z,c,s,zi,ci,si；视觉拼音I，对应的拼音i,y,yi；视觉拼音U，对应的拼音u,w,wu；视觉拼音V，对应的拼音ü,yu；视觉拼音a，对应的拼音a；视觉拼音o，对应的拼音o；视觉拼音e，对应的拼音e；视觉拼音E，对应的拼音er；视觉拼音n，对应的拼音韵母n；视觉拼音N，对应的拼音ng。

作为一个优选方案，具体地讲，所述步骤4中V2VP模型以视觉拼音作为建模单元。

更为详细的说明，所述步骤4中，视觉拼音预测模型V2VP将步骤1中得到的视频帧序列转为视觉拼音序列，该过程包括视频编码器和视觉拼音解码器，视频编码器首先将视频帧序列输入到CNN中以提取视觉特征，然后，将特征向量馈入GRU，编码过程表示为：

所述步骤5中汉字预测模型VP2H使用的带有注意机制的序列到序列模型与视觉拼音预测模型V2VP的有所不同，除解码器外，在编码器中引入了注意机制，这是为后面两个模型组成一个整体时准备的。

更为详细的说明，所述步骤5中，汉字预测模型VP2H包括视觉拼音编码器和汉字解码器，视觉拼音编码器首先对视觉拼音序列进行编码，编码过程表示为：

作为一个优选方案，具体地讲，所述步骤6中构建的中文句子级唇语识别模型CHSLR-VP需要用到步骤5中的编码器注意机制，矫正视觉拼音预测部分生成的视觉拼音序列，在级联的汉字预测模型中输入视觉拼音序列的同时引入唇部特征向量。

如图4所示，所述步骤6中中文句子级唇语识别模型CHSLR-VP包括视频编码器、视觉拼音解码器、视觉拼音编码器和汉字解码器，

(1)、视频帧经过卷积神经网络提取得到嘴唇特征向量；

实施例1

步骤1，将64×80像素的视频帧序列x₁,x₂,…,x_m输入到一个10层的卷积神经网络，提取得到512维的嘴唇特征向量，卷积神经网络的卷积内核均为1×3×3，采用非线性激活Selu函数，所有的最大池化stride为1×2×2；

1.1嘴唇特征提取网络

在解析视频中说话者所讲内容之前，最关键的一步就是对每一个视频帧进行人脸唇部特征提取，特征提取网络是由10层CNN组成的，其中每两个为一体对图像进行处理，处理流程为Conv-Selu-Conv-Selu-MP-BN，每一次的输出大小如下表所示：

步骤2，以拼音作为建模单元，将嘴唇特征向量输入到带有注意机制的序列到序列网络，得到汉语拼音序列，该拼音序列以分词为单位，举例来说，假设视频中的人说了“我要申请一个专利”，经过该步骤解析出来的拼音序列为“woyao shenqing yige zhuanli”；

2.1带有注意机制的序列到序列体系结构

带有注意机制的序列到序列体系结构由编码器，解码器和注意机制组成。其中，编码器和解码器通常基于RNN(LSTM或GRU)，本发明应用的是GRU网络，相比于LSTM，它具有困惑度低，收敛速度快等优点。

注意机制的作用：对于长输入序列，编码过程通常有损，引入注意机制可以自动从编码器中选择最相关的信息，从而帮助解码器在每个解码步骤中预测准确的单元。具体来说，注意机制用于计算生成上下文向量。

2.2语素

语素，是指语言中最小的音义结合体。也就是说一个语言单位必须至少同时满足三个条件，即“最小、有音、有义”才能被称作语素，尤其是“最小”和“有义”。本发明对训练的所有语句都进行了以语素为基本单位的分词，并标记出每个分词对应的音节，因为本发明是对无声视频进行预测，所以去掉了声调。直接将一个分词的音节看作一个整体，这样在预测汉字时能有效提高模型准确率。

步骤3，重复步骤1和步骤2，为预测得到的拼音序列中的声母和与之对应的实际拼音序列中的声母建立混淆矩阵，通过对声母的混淆程度进行归类，得到视觉拼音表——拼音的视觉映射表。之所以只对声母进行归类，是因为汉语音素分为元音和辅音，辅音中包含了所有的声母，且通过研究可知，元音在嘴型上是不容易混淆的，所以只需对辅音也即声母进行归类即可；

3.1音素

汉字的发音可用拼音标记，而拼音由音节和声调组成，声调代表整个音节的音高，由于本发明是对无声视频进行识别，故不考虑声调。通过对中文的研究可知，汉字发音可以用1,300多个音节进行表示，一个音节又由声母和韵母组成，其中，声母是整个音节的开头，其余部分是韵母，声母有23个，可分为双唇音、唇齿音、齿龈音、龈颚音、卷舌音和软腭音；韵母有39个，可分为单元音韵母、复韵母和鼻韵母。全部声母加上一个“ng”组成辅音，单元音韵母组成元音，二者统称为音素，音素是最小的语音单位，依据音节里的发音动作分析，一个动作构成一个音素。举例来说，“中国”一词由两个音节组成，可以分解为“zh，o，ng，g，u，o”六个音素。中文音素共32个，详见下表：

3.2视觉拼音

不同的发音部位和发音方法决定了声音的不同，但在没有声音仅依据视觉判定发音时，某些音素是很难进行区分的。为了减少这种歧义，提出一个新的概念——视觉拼音，它是将视觉上相似度较高的音素进行分组归类得到的，按照Neti等人的方法计算音素的混淆矩阵。图1显示了6个混淆度最高的的音素矩阵，横坐标代表预测得到的音素，纵坐标代表实际音素，颜色越浅代表混淆度越高。

仅根据混淆矩阵不足以最终确定视觉拼音，仍有以下三种情况需要考虑：1)“f”作为唇齿音和“b，p，m”具有一定的视觉相似性，为了进一步确定“f”的分类，观察了以“f”或“b，p，m”作为声母，韵母相同的汉字对应的嘴唇视频帧序列。经过比较发现，“f”在发音时具有“咬下唇”的特点，而“b，p，m”则是爆破音，故“f”将单独划分为一类；2)在音节中存在“y”和“w”，它们并不是实际意义上的声母，因为声母是一个音节开头的辅音，以“y”、“w”为首的音节，虽然也处于开头的地位，但其实是元音“i”、“u”的大写形式。按照中文拼音的拼写规则，当“i”、“u”独立成音节时，必须在它们的面前分别加上“y”、“w”，所以视觉拼音会纳入二者；3)考虑到某些整体认读音节的发音与单个音素的视觉效果一样，将这样的音节也进行归类。综上所述，得到了如下表所示的视觉拼音字母表：

步骤4，将步骤2中的建模单元替换成步骤3中得到的视觉拼音，重新对网络进行训练，得到视觉拼音预测模型V2VP。依旧以“我要申请一个专利”为例，根据得到的视觉拼音表，可得出该句子对应的视觉拼音序列为“UoIao RenJIN IGe RUanDI”；

4.1视觉拼音预测模型V2VP

视觉拼音预测模型V2VP将输入的视频帧序列转为视觉拼音序列，其结构如图2所示。它主要由两部分组成：视频编码器和视觉拼音解码器。视频编码器首先将视频序列输入到CNN中以提取视觉特征，然后，将特征向量馈入GRU。

编码过程表示为：

步骤5，以汉字词作为建模单元，将视觉拼音序列输入到带有注意机制的序列到序列网络中，最终得到汉字序列c₁,c₂,…,c_l，该模型被命名为汉字预测模型VP2H，该模型与视觉拼音预测模型的有所不同，除解码器外，在编码器中也引入了注意机制，但这是为后面两个模型组成一个整体时准备的，此处先忽略不计；

5.1汉字预测模型VP2H

汉字预测模型可以将视觉拼音序列转为汉字序列。该结构如图3所示，同样是基于具有注意机制的序列到序列体系结构。将编码器和解码器分别命名为视觉拼音编码器和汉字解码器。

视觉拼音编码器的操作类似于上述视频编码器。当汉字预测模型独立工作时，我们暂时先忽略编码器中的注意力机制。

具体地讲，汉字预测模型VP2H包括视觉拼音编码器和汉字解码器，视觉拼音编码器首先对视觉拼音序列进行编码，编码过程表示为：

另外，由于拼音的总数只有1300左右，而中文汉字的数量超过了90000，甚至普通汉字也超过了3000。为了使模型更具鲁棒性，在该模型的训练过程中额外引入了大量的中文句子。

步骤6，结合步骤4中的视觉拼音预测模型V2VP和步骤5中的汉字预测模型VP2H，得到一个端到端的中文句子级唇语识别模型CHSLR-VP，整体架构如图4所示。向中文句子级唇语识别模型CHSLR-VP中输入步骤1生成的嘴唇特征向量，首先得到与视频相对应的视觉拼音序列，再对视觉拼音进行翻译，最终得到短视频中说话者的讲话内容。发明构建的最终模型需要用到步骤5中提到的编码器注意机制，在向级联的VP2H中输入视觉拼音序列的同时引入唇部特征向量，目的是矫正V2VP生成的视觉拼音序列。

(1)、视频帧经过卷积神经网络提取得到嘴唇特征向量；

本发明首先通过对拼音的视觉呈现进行分类，将归纳得到的结果命名为视觉拼音。然后，基于视觉拼音建立一个二级结构的中文句子级唇语识别模型，将唇语识别的过程划分为两个阶段：第一阶段将上述视觉拼音作为建模单元，通过卷积神经网络提取嘴唇视觉特征，对特征向量用带有注意机制的序列到序列模型进行编码解码，得到视觉拼音序列；第二阶段同样基于带有注意机制的序列到序列模型，同时输入视觉拼音序列和第一阶段编码得到的嘴唇特征向量，最终将视觉拼音翻译成汉字语句。本发明实施于中文唇语识别，相比于用唇部特征直接识别汉字或通过拼音序列间接识别汉字，采用本发明的技术方案将有效提高唇语识别准确率。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于中文发音视觉特点的唇语识别方法，其特征在于，包括以下步骤：

所述步骤3中对拼音的视觉呈现进行归类，实则是对汉语音素的归类，汉语音素分为元音和辅音，辅音中包含了所有的声母，元音在嘴型上是不容易混淆的，所以只对辅音即声母进行归类，归类后得到的视觉拼音与对应拼音的映射关系如下：视觉拼音B，对应的拼音b,p,m；视觉拼音F，对应的拼音f；视觉拼音D，对应的拼音d,t,声母n,l；视觉拼音G，对应的拼音g,k,h；视觉拼音J，对应的拼音j,q,x；视觉拼音R，对应的拼音zh,ch,sh,r,zhi,chi,shi,ri；视觉拼音Z，对应的拼音z,c,s,zi,ci,si；视觉拼音I，对应的拼音i,y,yi；视觉拼音U，对应的拼音u,w,wu；视觉拼音V，对应的拼音ü,yu；视觉拼音a，对应的拼音a；视觉拼音o，对应的拼音o；视觉拼音e，对应的拼音e；视觉拼音E，对应的拼音er；视觉拼音n，对应的拼音韵母n；视觉拼音N，对应的拼音ng；

2.根据权利要求1所述的基于中文发音视觉特点的唇语识别方法，其特征在于：所述步骤1中使用的卷积神经网络的卷积内核均为1×3×3，采用非线性激活Selu函数，所有的最大池化stride为1×2×2。

3.根据权利要求1所述的基于中文发音视觉特点的唇语识别方法，其特征在于：所述步骤2中得到的汉语拼音序列是以分词为单位的序列。

4.根据权利要求1所述的基于中文发音视觉特点的唇语识别方法，其特征在于：所述步骤4中V2VP模型以视觉拼音作为建模单元。

5.根据权利要求1所述的基于中文发音视觉特点的唇语识别方法，其特征在于：所述步骤4中，视觉拼音预测模型V2VP将步骤1中得到的视频帧序列转为视觉拼音序列，该过程包括视频编码器和视觉拼音解码器，视频编码器首先将视频帧序列输入到CNN中以提取视觉特征，然后，将特征向量馈入GRU，编码过程表示为：

6.根据权利要求1所述的基于中文发音视觉特点的唇语识别方法，其特征在于：所述步骤5中汉字预测模型VP2H使用的带有注意机制的序列到序列模型与视觉拼音预测模型V2VP的有所不同，除解码器外，在编码器中引入了注意机制。

7.根据权利要求1所述的基于中文发音视觉特点的唇语识别方法，其特征在于：所述步骤5中，汉字预测模型VP2H包括视觉拼音编码器和汉字解码器，视觉拼音编码器首先对视觉拼音序列进行编码，编码过程表示为：

8.根据权利要求1所述的基于中文发音视觉特点的唇语识别方法，其特征在于：所述步骤6中构建的中文句子级唇语识别模型CHSLR-VP需要用到步骤5中的编码器注意机制，矫正视觉拼音预测部分生成的视觉拼音序列，在级联的汉字预测模型中输入视觉拼音序列的同时引入唇部特征向量。

9.根据权利要求1所述的基于中文发音视觉特点的唇语识别方法，其特征在于：所述步骤6中中文句子级唇语识别模型CHSLR-VP包括视频编码器、视觉拼音解码器、视觉拼音编码器和汉字解码器，

(1)、视频帧经过卷积神经网络提取得到嘴唇特征向量；