CN110276259A

CN110276259A - 唇语识别方法、装置、计算机设备及存储介质

Info

Publication number: CN110276259A
Application number: CN201910424466.7A
Authority: CN
Inventors: 王义文; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-09-24
Anticipated expiration: 2039-05-21
Also published as: WO2020232867A1; CN110276259B

Abstract

本发明公开了一种唇语识别方法、装置、计算机设备及存储介质。该方法包括对获取原始视频的帧率进行标准化处理，并对获取的标准视频进行分离，获取有效音频流和有效视频流；使用人脸识别算法跟踪有效视频流中的人脸，并提取人脸中的嘴部区域，获取帧唇部动作视频，从而获取唇部图像序列；采用序列切分规则对唇部图像序列进行切分，获取切分图像序列；将唇部图像序列对应的各切分图像序列依次输入到唇部图像识别模型中进行识别，获取唇部图像识别结果；将有效音频流输入到语音识别模型中，获取语音识别结果；当二者相似度达到预设值，则将唇部图像识别结果作为原始视频的唇语识别结果，以保证唇部图像识别结果的准确性。

Description

唇语识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及生物识别领域，尤其涉及一种唇语识别方法、装置、计算机设备及存储介质。

背景技术

近年来唇语识别在智能人机交互、音频损坏、视屏监控、军事和刑侦安保等公共安全领域有良好应用，也成为业内研究热点，同时在听障失语者领域具有很重要的现实意义。传统的唇语识别技术大多采用HMM(隐马尔科夫模型)、纹理特征的LBP(局部二值模式)等传统算法亦或是卷积神经网络这类的深度学习算法，输入的都是单帧图片，没有考虑到该帧图片前后的语义信息，只获取空间通道特征，却没有获取时间通道特征，识别出来的语句前后没有关联性，无法准确地识别一段视频流对应的唇语。

发明内容

本发明实施例提供一种唇语识别方法、装置、计算机设备及存储介质，以解决现有技术中不能准确地识别一段视频流对应的唇语的问题。

一种唇语识别方法，包括：

获取原始视频，对所述原始视频的帧率进行标准化处理，获取标准视频；

对所述标准视频进行分离，获取有效音频流和有效视频流；

使用人脸识别算法跟踪所述有效视频流中的人脸，并提取所述人脸中的嘴部区域，获取帧唇部动作视频；

对所述帧唇部动作视频进行处理，获取唇部图像序列；

采用序列切分规则对所述唇部图像序列进行切分，获取切分图像序列；

将所述唇部图像序列对应的各切分图像序列依次输入到唇部图像识别模型中进行识别，获取唇部图像识别结果；

将所述有效音频流输入到语音识别模型中，获取语音识别结果；

计算所述唇部图像识别结果和所述语音识别结果的相似度，当所述相似度达到预设值，则将所述唇部图像识别结果作为所述原始视频的唇语识别结果。

一种唇语识别装置，包括：

原始视频处理模块，用于获取原始视频，对所述原始视频的帧率进行标准化处理，获取标准视频；

标准视频处理模块，用于对所述标准视频进行分离，获取有效音频流和有效视频流；

帧视频获取模块，用于使用人脸识别算法跟踪所述有效视频流中的人脸，并提取所述人脸中的嘴部区域，获取帧唇部动作视频；

帧视频处理模块，用于对所述帧唇部动作视频进行处理，获取唇部图像序列；

图像序列切分模块，用于采用序列切分规则对所述唇部图像序列进行切分，获取切分图像序列；

第一模型识别模块，用于将所述唇部图像序列对应的各切分图像序列依次输入到唇部图像识别模型中进行识别，获取唇部图像识别结果；

第二模型识别模块，用于将所述有效音频流输入到语音识别模型中，获取语音识别结果；

结果验证模块，用于计算所述唇部图像识别结果和所述语音识别结果的相似度，当所述相似度达到预设值，则将所述唇部图像识别结果作为所述原始视频的唇语识别结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述唇语识别方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述唇语识别方法。

上述唇语识别方法、装置、计算机设备及存储介质，通过将原始视频的帧率调整为标准帧率，以获取标准视频。然后对标准视频中的音频数据和视频数据进行分离，获取有效音频流和有效视频流。使用人脸识别算法跟踪有效视频流中的人脸，并提取人脸中的嘴部区域，获取帧唇部动作视频，并将帧唇部动作视频调整为相同的帧宽和帧高，以方便将帧唇部动作视频拼接为唇部图像序列。为了方便唇部图像识别模型进行识别，还需要预先对唇部图像序列进行切分，以使唇部图像序列在输入唇部图像识别模型时，为满足预设长度的切分图像序列。最后将切分图像序列对应的识别结果按照时间顺序进行拼接，获取唇部图像识别结果。为了进一步验证唇部图像识别结果是否准确，还需要将有效音频流输入到语音识别模型中，获取对应的语音识别结果，并计算语音识别结果和唇部图像识别结果的相似性，当二者的相似度达到预设值，表示唇部图像识别结果是准确的，可以作为原始视频的唇语识别结果，以保证唇部图像识别结果的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中唇语识别方法的一应用场景图；

图2是本发明一实施例中唇语识别方法的一流程图；

图3是图2中步骤S60的一具体流程图；

图4是本发明一实施例中唇语识别方法的另一流程图；

图5是本发明一实施例中唇语识别方法的另一流程图；

图6是图5中步骤S705的一具体流程图；

图7是图6中步骤S7052的一具体流程图；

图8是本发明一实施例中唇语识别装置的一示意图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的唇语识别方法，可应用在如图1的应用环境中，其中，终端设备通过网络与服务器进行通信。该终端设备包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种唇语识别方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取原始视频，对原始视频的帧率进行标准化处理，获取标准视频。

其中，原始视频指视频设备采集的视频。由于不同的视频设备采集视频的帧率不同，为了方便后续进行模型识别，需要将不同帧率的视频统一处理成标准帧率对应的标准视频。标准帧率指预先设置好的满足需求的帧率，如30帧/秒。标准视频指将原始视频的帧率处理成标准帧率的视频。

具体地，采用帧率处理脚本对原始视频进行帧率标准化处理，使得不同帧率的原始视频处理成标准频率对应的视频，即标准视频。其中，帧率处理脚本指开发人员编写的将原始视频的帧率调整为标准帧率的脚本。

S20：对标准视频进行分离，获取有效音频流和有效视频流。

其中，有效音频流指标准视频中仅包含语音的音频数据流。有效视频流指标准视频中的不包含语音的视频数据流。具体地，由于标准视频既包括语音数据也包含视频数据，为了方便后续训练唇语识别模型，因此，本实施例中需要使用FFMpeg对获取的标准视频进行分离，获取有效音频流和音的有效视频流。其中，FFMpeg(Fast Forward Mpeg)是一个多媒体框架，它能够解码、编码、转码、播放多种格式的视频(如asx，asf，mpg，wmv，3gp，mp4，mov，avi，flv等)，也可以将标准视频中的语音数据和视频数据进行分离，在windows、Linux和Mac等操作系统中均可使用。

S30：使用人脸识别算法跟踪有效视频流中的人脸，并提取人脸中的嘴部区域，获取帧唇部动作视频。

其中，人脸识别算法指用于识别有效视频流中人脸的算法，本实施例中采用Dlib库中的人脸识别算法对视频中的人脸进行跟踪识别。Dlib库是一个包含机器学习算法的C++开源工具包，由于Dlib库中所有的设计都是高度模块化的，可以达到快速执行的目的，且由于Dlib库提供由API接口，使用简单。另外，Dlib库适用于各种应用，包括机器人技术，嵌入式设备，手机和大型高性能计算环境。

具体地，在获取有效视频流后，使用Dlib库中的人脸识别算法跟踪有效视频流中的人脸，然后将有效视频流中每一帧视频的嘴部区域圈出，并提取有效视频流中每一帧视频的唇部动作，获取帧唇部动作视频。其中，帧唇部动作视频指有效视频流中包含唇部动作的每一帧视频。

S40：对帧唇部动作视频进行处理，获取唇部图像序列。

具体地，在获取帧唇部动作视频后，服务器会对帧唇部动作视频的大小进行调整，将唇部动作视频调整为相同的帧宽和帧高，以便后续将帧唇部动作视频拼接为唇部图像序列。其中，唇部图像序列指对相同的帧宽和帧高的帧唇部动作视频进行拼接形成的图像序列。获取唇部图像序列为后续执行过程提供了数据来源。

S50：采用序列切分规则对唇部图像序列进行切分，获取切分图像序列。

其中，序列切分规则指按照预设长度(如连续9张图像)对唇部图像序列进行切分的规则。

具体地，在获取唇部图像序列后，通过序列切分规则对唇部图像序列进行切分，获取切分图像序列。其中，切分图像序列指长度为预设长度的唇部图像序列。如获取的唇部图像序列为001-020，预设切分规则中的预设长度为9，在获取唇部图像序列后，服务器会按照预设长度对唇部图像序列进行切分，将唇部图像序列切分为长度为9的切分图像序列001-009，002-010...012-020。对唇部图像序列采用序列切分规则进行切分，便于后续使用唇部图像识别模型识别。

S60：将唇部图像序列对应的各切分图像序列依次输入到唇部图像识别模型中进行识别，获取唇部图像识别结果。

其中，唇部图像识别模型指用于识别切分图像序列的模型。该唇部识别图像模型通过对切分图像序列进行识别，获取切分图像序列中包含的说话人的唇部动作表达的含义。本实施例中的唇部图像识别模型是通过对3D CNN模型进行训练得到的用于识别切分图像序列的模型。

具体地，在获取切分图像序列后，将唇部图像序列对应的各切分图像序列依次输入到唇部图像识别模型中进行识别，获取每个切分图像序列对应的识别结果，然后将各切分图像序列对应的识别结果按照时间顺序进行拼接，获取唇部图像识别结果。其中，唇部图像识别结果指根据唇部图像识别模型对切分图像序列进行识别后得到的文本信息，该文本信息即为切分图像序列中说话人的唇部动作表达的含义。

S70：将有效音频流输入到语音识别模型中，获取语音识别结果。

本实施例中的语音识别模型是通过对加入注意力(attention)机制的双向循环神经网络(Bi-directional Recurrent Neural Networks，简称BRNN)模型进行训练获取的。其中，attention机制叫注意力机制，在BRNN模型中使用attention机制，可以使BRNN模型在识别有效音频流时，对有效音频流进行分批识别，即一次只关注有效音频流的一部分内容，而不是关注整个有效音频流的内容。语音识别模型首先识别有效音频流中的第一部分内容，并计算出该部分内容对应的可能出现的词的概率，然后选取概率最大的词作为该第一部分内容的语音识别结果；并使用该语音识别结果与有效音频流中的第二部分内容共同获取该部分内容对应的可能出现的词的概率，然后选取概率最大的词作为第二部分内容对应的语音识别结果，依次循环，直至将输入到语音识别模型中的有效音频流完全识别停止。最后将获取的各部分内容对应的语音识别结果连接在一起，则可以获取有效音频流对应的语音识别结果，保证了每部分内容得到的语音识别结果是根据有效音频流中的上下文得到的，提高了有效音频流对应的语音识别结果的准确性。

S80：计算唇部图像识别结果和语音识别结果的相似度，当相似度达到预设值，则将唇部图像识别结果作为原始视频的唇语识别结果。

本实施例采用余弦相似度算法计算唇部图像识别结果和语音识别结果的相似度。具体过程如下：先将唇部图像识别结果和语音识别结果分别转换成向量A＝(A1，A2，……,An)和向量B(B1，B2，……，Bn)，然后采用余弦相似度公式计算唇部图像识别结果和语音识别结果之间的相似度。当二者的相似度达到预设值时，则表示唇部图像识别结果是准确的，可以作为原始视频的唇语识别结果。

进一步地，由于采用余弦相似度算法计算出来的余弦相似度范围在[-1,1]之间，相似度的值越趋近于1，代表两个向量的方向越接近；相似度的值越趋近于-1，代表两个向量的方向越相反；相似度的值接近于0，表示两个向量近乎于正交。因此，本实施例中的预设值为[0,1]内的数值，如0.98。

进一步地，若获取的唇部图像识别结果或者语音识别结果是一个句子，为了方便计算唇部图像识别结果和语音识别结果的相似度，在步骤S70之后，步骤S80之前，还需要预先对唇部图像识别结果或者语音识别结果提取关键词。本实施例中使用的提取关键词的算法包括但不限于TextRank关键词提取算法和LSA(Latent Semantic Analysis，潜在语义分析)算法。

步骤S10-步骤S80，通过将原始视频的帧率调整为标准帧率，以获取标准视频。然后对标准视频中的音频数据和视频数据进行分离，获取有效音频流和有效视频流。使用人脸识别算法跟踪有效视频流中的人脸，并提取人脸中的嘴部区域，获取帧唇部动作视频，并将帧唇部动作视频调整为相同的帧宽和帧高，以方便将帧唇部动作视频拼接为唇部图像序列。为了方便唇部图像识别模型进行识别，还需要预先对唇部图像序列进行切分，以使唇部图像序列在输入唇部图像识别模型时，为满足预设长度的切分图像序列。最后将切分图像序列对应的识别结果按照时间顺序进行拼接，获取唇部图像识别结果。为了进一步验证唇部图像识别结果是否准确，还需要将有效音频流输入到语音识别模型中，获取对应的语音识别结果，并计算语音识别结果和唇部图像识别结果的相似性，当二者的相似度达到预设值，表示唇部图像识别结果是准确的，可以作为原始视频的唇语识别结果，以保证唇部图像识别结果的准确性。

在一实施例中，如图3所示，步骤S60，将唇部图像序列对应的各切分图像序列依次输入到唇部图像识别模型中进行识别，获取唇部图像识别结果，具体包括如下步骤：

S61：通过唇部图像识别模型对唇部图像序列对应的各切分图像序列进行识别，获取切分图像特征。

具体地，在获取唇部图像序列对应的各切分图像序列后，将各切分图像序列输入到唇部图像识别模型中，唇部图像识别模型通过模型中的卷积层和池化层获取数据特征，然后再使用全连接层将所有数据特征进行整合，形成切分图像特征。其中，切分图像特征指唇部图像识别模型对切分图像序列进行识别得到的结果。

优选地，本实施例中的隐藏层结构具体为4层卷积层、3层池化层和两层全连接层，其中卷积层的卷积核大小设置为3*3*3，池化层的最大池化大小设置为1*3*3，步长1*2*2，以提高唇部图像识别模型的识别效率和准确性。

S62：采用分类函数对切分图像特征进行分类，获取切分图像识别结果。

具体地，在获取切分图像特征后，使用分类函数(softmax函数)对切分图像特征进行分类，获取切分图像特征对应的图像识别结果。由于本实施例中的切分图像特征是包含唇部动作的训练图像序列得到的图像特征，因此，切分图像识别结果具体为切分图像特征对应的单词或者句子。

S63：按照时间顺序对切分图像识别结果进行拼接，获取唇部图像识别结果。

具体地，由于唇部图像识别模型每次识别的是切分图像序列对应的切分图像特征，每一切分图像特征仅代表唇部图像序列中每一个切分图像序列对应的图像特征，因此，在获取切分图像特征对应的切分图像识别结果后，需要对切分图像识别结果进行拼接，生成唇部图像对应的唇部图像识别结果。

如一段3s的有效视频流的帧率30fps/s，切分图像序列的长度为9，即将该有效视频流对应的唇部图像序列按照每9帧或者0.3s的长度进行切分，获取10个长度为0.3s的切分图像序列。然后依次将10个切分图像序列输入到唇部图像识别模型中，获取每个切分图像序列对应的切分图像特征。接着采用分类函数对每个切分图像特征进行分类，获取切分图像识别结果，即该切分图像特征对应的某个词或者句子。最后在获取切分图像识别结果后，按照时间顺序将这10个切分图像识别结果进行拼接，则可以得到该有效视频流中唇部动作表达的含义。

步骤S61-步骤S63，通过唇部图像识别模型对唇部图像序列对应的各切分图像序列进行识别，获取切分图像特征，并采用分类函数对切分图像特征进行分类，获取切分图像识别结果，然后按照时间顺序对切分图像识别结果进行拼接，以获取唇部图像识别结果，无需人工干预，可由唇部图像识别模型自动得出，提高了识别效率和准确性。

在一实施例中，如图4所示，该唇语识别方法还包括获取唇部图像识别模型，具体包括如下步骤：

S601：获取训练图像序列，训练图像序列携带有图像文本标签，将训练图像序列划分为图像序列训练集和图像序列测试集。

其中，训练图像序列指多个仅包含唇部动作且满足预设长度的图像形成的图像序列。图像文本标签指用于表示训练图像序列的文本标签，本实施例中的图像文本标签具体为一个词或者一句话。

具体地，在获取训练图像序列后，将训练图像序列划分为图像序列训练集和图像序列测试集，以使得图像序列训练集用于训练3D CNN模型，图像序列测试集用于测试训练好的3D CNN模型的准确性。

S602：将图像序列训练集中的训练图像序列输入到3D卷积神经网络模型中，获取训练结果。

具体地，在获取图像序列训练集后，将对应的图像序列训练集输入3D卷积神经网络(3D CNN)模型中进行训练，通过每一层卷积层的计算，获取每一层的卷积层的输出，卷积层的输出可以通过公式a_m ^l＝σ(z_m ^l)＝σ(a_m ^l-1*W^l+b^l)计算，其中，a_m ^l表示第l层卷积层的第m个训练图像序列的输出，z_m ^l表示未采用激活函数处理前的第m个训练图像序列的输出，a_m ^l-1表示l-1层卷积层的第m个训练图像序列输出(即上一层的输出)，σ表示激活函数，对于卷积层采用的激活函数σ为ReLu(Rectified Linear Unit,线性整流函数)，相比其他激活函数的效果会更好，*表示卷积运算，W^l表示第l层卷积层的卷积核(权值)，b^l表示第l层卷积层的偏置。若第l层是池化层,则在池化层采用最大池化的下样采样对卷积层的输出进行降维处理，具体公式为a_m ^l＝pool(a_m ^l-1)，其中pool是指下采样计算，该下采样计算可以选择最大池化的方法，最大池化实际上就是在m*m的样本中取最大值。然后再使用全连接层将所有数据特征进行整合，形成切分图像特征。

最后通过公式获取输出层的输出，T^(m)表示3D CNN输出层的输出，该输出即是要获取第m个训练图像序列对应的训练结果。

S603：根据训练结果和图像文本标签，构建损失函数，并通过损失函数更新调整3D卷积神经网络模型的权值和偏置，获取唇部图像训练模型。

具体地，在获取训练结果后，3D CNN模型会通过训练结果与图像文本标签构建损失函数，通过对损失函数求偏导，更新调整循环神经网络模型和3D CNN中的权值和偏置，获取唇部图像训练模型。

S604：使用图像序列测试集中的训练图像序列对唇部图像训练模型进行测试，当图像序列测试集对应的输出结果与图像文本标签的误差在预设误差范围内，则将唇部图像训练模型作为唇部图像识别模型。

具体地，在获取唇部图像训练模型后，为了防止出现过拟合问题，还需要使用图像序列测试集中的训练图像序列对唇部图像训练模型进行测试，以确定训练好的唇部图像训练模型是否准确。当图像序列测试集对应的输出结果与图像文本标签的误差在预设误差范围内(如0-10％)，则将唇部图像训练模型作为唇部图像识别模型。

步骤S601-步骤S604，通过将图像序列训练集中的训练图像序列输入到3D卷积神经网络模型中进行训练，获取唇部图像训练模型，并使用图像序列测试集中的训练图像序列对唇部图像训练模型进行验证测试，当图像序列测试集对应的输出结果与图像文本标签的误差在预设误差范围内，则表示唇部图像训练模型满足要求，可以作为唇部图像识别模型。

在一实施例中，如图5所示，该唇语识别方法还包括获取语音识别模型，具体包括如下步骤：

S701：获取训练语音，对训练语音进行预处理，获取目标语音。

其中，训练语音指从原始视频中获取的用于进行模型训练的唇读语音。

具体地，在获取训练语音后，训练语音中不可避免地会包括静音段和噪音段，为了不影响训练结果的准确性，在获取训练语音后，需要对训练语音进行预处理，去除训练语音中的静音段和噪音段，保留声纹连续变化明显的目标语音。其中，静音段指训练语音中由于静默而没有发音的语音部分，如说话人在说话过程中进行思考、呼吸等情况。噪音段是指训练语音中的环境噪音部分，如门窗的开关和物体的碰撞等发出的声音。目标语音指对训练语音进行预处理后得到的仅包含声纹连续变化明显的数据。

S702：采用语音转文本技术，将目标语音转换为原始文本。

本实施例使用的语音转文本技术为ASR(Automatic Speech Recognition，自动语音识别技术)，其中ASR是一种将说话人的语音转换为文本信息的技术。

具体地，在获取目标语音后，服务器采用ASR技术，将目标语音转换为原始文本。其中，原始文本指目标语音通过ASR技术转换生成对应的文字形式的文本。将目标语音转换为原始文本，以方便对目标文本进行文本标签处理，若直接对目标语音进行文本标签处理，由于目标语音是以语音的形式表达的，通过听取语音的内容对语音进行文本标签处理，不方便操作和保存，处理速度慢，将目标语音转换为原始文本，以文本的形式表达出来，通过阅读文本的方式对文本的内容进行文本标签处理，方便操作，处理效率高。

S703：对原始文本进行预处理，获取目标文本，目标文本携带有对应的文本标签。

其中，目标文本指对原始文本进行预处理，去除数据和特殊符号后得到的文本。本实施例中的数据指将目标语音转换为原始文本后出现的数字；特殊符号指在将目标语音转换为原始文本后出现的不能识别的字符。如$、*、&、#、+和？。

具体地，在获取原始文本后，服务器需要对原始文本进行预处理，将原始文本中的数据和特殊符号去除，获取仅包含汉字的目标文本。在获取目标文本后，服务器将目标文本发送给客户端，客户端对应的工作人员通过阅读目标文本的内容，对目标文本进行文本标签化处理，使得目标文本获取对应的文本标签，以便后续根据目标文本和文本标签进行模型训练。

S704：将目标文本划分为训练文本和测试文本。

具体地，在获取目标文本后，将目标文本划分为训练文本和测试文本，用来训练双向RNN模型和测试训练好的双向RNN模型是否准确。其中，训练文本是用于调整双向RNN模型中的参数的文本。测试文本是用于测试训练好的双向RNN模型的识别准确率的文本。

S705：将训练文本输入到原始双向循环神经网络模型中进行训练，获取有效双向循环神经网络模型。

其中，双向循环神经网络(Bi-directional Recurrent Neural Networks，简称BRNN)模型是由两个RNN(Recurrent Neural Networks，RNN)组成的，为了便于描述，将其中一个RNN称之为向前RNN，另外一个RNN称为向后RNN。双向循环神经网络(BRNN)模型中的向前RNN和向后RNN有各自对应的隐藏层，输入层和输出层共用一个。即双向RNN模型是由一个输入层、两个隐藏层和一个输出层组成的神经网络模型。该双向RNN模型包括各层之间的神经元连接的权值和偏置，权值和偏置是双向RNN模型中的参数，这些权值和偏置决定双向RNN模型的性质及识别效果。

S706：将测试文本输入到有效双向循环神经网络模型中进行测试，获取测试文本对应的准确率，若准确率达到预设阈值，则将有效双向循环神经网络模型确定为语音识别模型。

具体地，在获取有效双向循环神经网络模型后，为了防止出现过拟合问题，即防止出现只在识别训练文本时具有准确性，在识别其他不是训练文本的内容时不具备准确性的情况，还需要使用测试文本对有效双向循环神经网络模型进行测试，以确定训练好的有效双向循环神经网络模型是否准确。若准确率达到预设阈值(如95％)，则标识有效双向循环神经网络模型的准确性满足要求，可以作为语音识别模型。

步骤S701-步骤S706，通过对训练语音进行预处理，获取目标语音，并采用语音转文本技术，将目标语音转换为原始文本，以方便执行后续步骤。然后对原始文本进行预处理，获取目标文本，并将目标文本划分为训练文本和测试文本，用来训练双向RNN模型和测试训练好的双向RNN模型，保证有效双向循环神经网络模型的准确性满足要求，可以作为语音识别模型。

在一实施例中，如图6所示，步骤S705，将训练文本输入到原始双向循环神经网络模型中进行训练，获取有效双向循环神经网络模型，具体包括如下步骤：

S7051：对原始双向循环神经网络模型中的权值和偏置进行初始化设置。

本实施例中，采用预设值对权值和偏置进行初始化设置，该预设值是开发人员根据经验预先设置好的值。采用预设值对双向RNN模型的权值和偏置进行初始化设置，可以在后续根据训练文本进行双向RNN模型训练时，缩短模型的训练时间，提高模型的识别准确率。若在有效双向RNN时，对权值和偏置的初始化设置不是很恰当，则会导致模型在初始阶段的调整能力很差，从而影响该双向RNN模型后续对语音的区分效果。

S7052：将训练文本转换成词向量，并将词向量输入到原始双向循环神经网络模型中进行训练，获取模型输出结果。

具体地，通过词向量转换工具将训练文本中的词转换为词向量，一个训练文本中包括至少一个词向量。本实施例中的使用的词向量转换工具为word2vec(word to vector，单词转换向量)，其中，word2vec是一种将单词转换为向量的工具，该工具中可以将每一个词映射成对应的向量。

将训练文本转换成词向量后，将词向量输入到向前RNN的隐藏层计算，获取向前隐藏层和向后隐藏层的输出，然后使用attention机制分别对向前隐藏层的输出和想后隐藏层的输出进行注意程度分配，最后将通过attention机制处理后的两个输出进行融合处理，得到最终输入到双向循环神经网络模型的输出层的值，并通过输出层的计算，获取模型输出结果。其中，attention机制即注意力机制，指将根据数据重要性的不同对数据赋予不同的权重，重要性大的对应的权重大，重要性小的对应的权重小。模型输出结果是训练文本通过双向RNN模型训练获取的输出。本实施例中的融合处理包括但不限于使用算数平均值法和加权平均值方法，为了便于描述，后续步骤使用算术平均值法对attention机制处理后的两个输出进行融合处理。

S7053：基于模型输出结果更新原始双向循环神经网络模型中的权值和偏置，获取有效双向循环神经网络模型。

具体地，原始双向RNN模型的输出层计算出模型输出结果后，与文本标签y_t构建损失函数。然后根据损失函数采用反向传播算法，分别对双向RNN模型中的权值和偏置求偏导，调整向前RNN和向后RNN的权值和偏置，获取有效双向RNN。其中，反向传播(BackPropagation)算法是指按照时序状态的反向顺序调整隐藏层与原始双向RNN模型的输出层之间的权值和偏置、以及输入层与隐藏层之间的权值和偏置的算法。

进一步地，损失函数表达式为其中，T表示训练文本携带的训练图像序列，θ表示权值和偏置的集合(U、V、W、b、c)，表示词向量对应的文本标签。对双向RNN模型中的权值和偏置求偏导的计算公式

步骤S7051-步骤S7053，通过对原始双向循环神经网络模型中的权值和偏置进行初始化设置，以缩短后续模型的训练时间。将训练文本对应的词向量输入到原始双向循环神经网络模型中进行训练，获取模型输出结果，并基于模型输出结果构建损失函数，以更新原始双向循环神经网络模型的权值和偏重，使得原始双向循环神经网络模型称为可以识别训练文本的有效双向循环神经网络模型。

在一实施例中，如图7所示，步骤S7052，将训练文本转换成词向量，并将词向量输入到原始双向循环神经网络模型中进行训练，获取模型输出结果，具体包括如下步骤：

S70521：将训练文本转换成词向量，并将词向量输入到原始双向循环神经网络模型的输入层，输入层将获取到的词向量输入到向前循环神经网络的向前隐藏层中，并使用注意力机制进行处理，获取向前输出。

其中，向前隐藏层指向前循环神经网络的隐藏层。具体地，将训练文本输入到原始双向RNN模型的输入层，输入层将获取到的训练文本输入到向前隐藏层中，在向前隐藏层中通过公式h_t1＝σ(Ux_t+Wh_t-1+b)计算向前隐藏层的输出。其中，σ表示向前RNN隐藏层的激活函数，U表示原始双向RNN模型的输入层与向前RNN隐藏层之间的权值，W表示向前RNN各隐藏层之间的权值，b表示原始双向RNN模型的输入层与向前RNN之间的偏置，x_t表示原始双向RNN模型的输入层中t时刻输入的词向量，h_t1表示向前RNN的隐藏层中对t时刻对应的词向量的输出,h_t-1表示向前RNN的隐藏层中t时刻对应的词向量的输出。

使用attention机制对向前隐藏层的输出进行处理，获取向前输出。其中，向前输出指使用attention机制对向前隐藏层的输出进行处理后得到的值。具体地，根据公式计算语义向量的重要值，其中，c_t1指attention机制对向前循环神经网络的隐藏层中t时刻的语义向量的注意程度(即重要值)，α_tj指第j个输入的词向量与t时刻对应的词向量的相关性，h_j指j个输入的词向量在通过向前隐藏层得到的输出。进一步地，归一化过程为其中，k指第K个输入词向量。然后e_tj＝V^Γtanh(U·h_j+WS_t-1+b)，其中，V表示隐藏层和输出层之间的权重，V^Γ权重V的转置，S_t-1指t-1时刻双向循环神经网络输出层得到的输出。

S70522：输入层将获取到的词向量输入到向后循环神经网络的向后隐藏层中，并使用注意力机制进行处理，获取向后输出。

其中，向后隐藏层指向后循环神经网络的隐藏层。具体地，将训练文本输入到原始双向RNN模型的输入层，输入层将获取到的训练文本输入到向后隐藏层中，在向后隐藏层中通过公式h_t2＝σ(Ux_t+Wh_t-1+b)计算向后隐藏层的输出。其中，σ表示向后RNN隐藏层的激活函数，U表示原始双向RNN模型的输入层与向后RNN隐藏层之间的权值，W表示向后RNN各隐藏层之间的权值，b表示原始双向RNN模型的输入层与向后RNN之间的偏置，x_t表示原始双向RNN模型的输入层中t时刻输入的词向量，h_t2表示向后RNN的隐藏层中对t时刻对应的词向量的输出,h_t-1表示向后RNN的隐藏层中t时刻对应的词向量的输出。

使用attention机制对向后隐藏层的输出进行处理，获取向后输出。其中，向后输出指使用attention机制对向后隐藏层的输出进行处理后得到的值。具体地，根据公式计算语义向量的重要值，其中，c_t2指attention机制对向后循环神经网络的隐藏层中t时刻的语义向量的注意程度(即重要值)，α_tj指第j个输入的词向量与t时刻对应的词向量的相关性，h_j指j个输入的词向量在通过向后隐藏层得到的输出。进一步地，归一化过程为其中，k指第K个输入词向量。然后e_tj＝V^Γtanh(U·h_j+WS_t-1+b)，其中，V表示隐藏层和输出层之间的权重，V^Γ权重V的转置，S_t-1指t-1时刻双向循环神经网络输出层得到的输出。

S70523：对向前输出和向后输出进行融合处理，获取模型输出结果。

具体地，获取向前输出和向后输出后，使用公式对向前输出和向后输出进行融合处理，获取模型输出结果。其中，模型输出结果指最终要输入到输出层的输出。

步骤S70521-步骤S70523，在对原始双向循环神经网络模型中进行训练过程中，使用注意力机制，使得获取的向前输出和向后输出为训练文本中重要的词向量对应的输出，以使后续获取的模型输出结果为可以反映训练文本主要的含义的结果。

本发明提供的唇语识别方法，通过将原始视频的帧率调整为标准帧率，以获取标准视频。然后对标准视频中的音频数据和视频数据进行分离，获取有效音频流和有效视频流。使用人脸识别算法跟踪有效视频流中的人脸，并提取人脸中的嘴部区域，获取帧唇部动作视频，并将帧唇部动作视频调整为相同的帧宽和帧高，以方便将帧唇部动作视频拼接为唇部图像序列。为了方便唇部图像识别模型进行识别，还需要预先对唇部图像序列进行切分，以使唇部图像序列在输入唇部图像识别模型时，为满足预设长度的切分图像序列。最后将切分图像序列对应的识别结果按照时间顺序进行拼接，获取唇部图像识别结果。为了进一步验证唇部图像识别结果是否准确，还需要将有效音频流输入到语音识别模型中，获取对应的语音识别结果，并计算语音识别结果和唇部图像识别结果的相似性，当二者的相似度达到预设值，表示唇部图像识别结果是准确的，可以作为原始视频的唇语识别结果，以保证唇部图像识别结果的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种唇语识别装置，该唇语识别装置与上述实施例中唇语识别方法一一对应。如图8所示，该唇语识别装置包括原始视频处理模块10、标准视频处理模块20、帧视频获取模块30、帧视频处理模块40、图像序列切分模块50、第一模型识别模块60、第二模型识别模块70和结果验证模块80。各功能模块详细说明如下：

原始视频处理模块10，用于获取原始视频，对原始视频的帧率进行标准化处理，获取标准视频。

标准视频处理模块20，用于对标准视频进行分离，获取有效音频流和有效视频流。

帧视频获取模块30，用于使用人脸识别算法跟踪有效视频流中的人脸，并提取人脸中的嘴部区域，获取帧唇部动作视频。

帧视频处理模块40，用于对帧唇部动作视频进行处理，获取唇部图像序列。

图像序列切分模块50，用于采用序列切分规则对唇部图像序列进行切分，获取切分图像序列。

第一模型识别模块60，用于将唇部图像序列对应的各切分图像序列依次输入到唇部图像识别模型中进行识别，获取唇部图像识别结果。

第二模型识别模块70，用于将有效音频流输入到语音识别模型中，获取语音识别结果。

结果验证模块80，用于计算唇部图像识别结果和语音识别结果的相似度，当相似度达到预设值，则将唇部图像识别结果作为原始视频的唇语识别结果。

进一步地，第一模型识别模块60包括图像特征获取单元61、图像特征处理单元62和图像识别结果获取单元63。

图像特征获取单元61，用于通过唇部图像识别模型对唇部图像序列对应的各切分图像序列进行识别，获取切分图像特征。

图像特征处理单元62，用于采用分类函数对切分图像特征进行分类，获取切分图像识别结果。

图像识别结果获取单元63，用于按照时间顺序对切分图像识别结果进行拼接，获取唇部图像识别结果。

进一步地，唇语识别装置还包括训练图像数据获取单元、图像训练结果获取单元、第一模型训练单元和第一模型获取单元。

训练图像数据获取单元，用于获取训练图像序列，训练图像序列携带有图像文本标签，将训练图像序列划分为图像序列训练集和图像序列测试集。

图像训练结果获取单元，用于将图像序列训练集中的训练图像序列输入到3D卷积神经网络模型中，获取训练结果。

第一模型训练单元，用于根据训练结果和图像文本标签，构建损失函数，并通过损失函数更新调整3D卷积神经网络模型的权值和偏置，获取唇部图像训练模型。

第一模型获取单元，用于使用图像序列测试集中的训练图像序列对唇部图像训练模型进行测试，当图像序列测试集对应的输出结果与图像文本标签的误差在预设误差范围内，则将唇部图像训练模型作为唇部图像识别模型。

进一步地，唇语识别装置还包括训练语音数据获取单元、语音处理单元、文本处理单元、文本划分单元、第二模型训练单元和第二模型获取单元。

训练语音数据获取单元，用于获取训练语音，对训练语音进行预处理，获取目标语音。

语音处理单元，用于采用语音转文本技术，将目标语音转换为原始文本。

文本处理单元，用于对原始文本进行预处理，获取目标文本，目标文本携带有对应的文本标签。

文本划分单元，用于将目标文本划分为训练文本和测试文本。

第二模型训练单元，用于将训练文本输入到原始双向循环神经网络模型中进行训练，获取有效双向循环神经网络模型。

第二模型获取单元，用于将测试文本输入到有效双向循环神经网络模型中进行测试，获取测试文本对应的准确率，若准确率达到预设阈值，则将有效双向循环神经网络模型确定为语音识别模型。

进一步地，第二模型训练单元包括参数初始化单元、模型输出结果获取单元和参数更新单元。

参数初始化单元，用于对原始双向循环神经网络模型中的权值和偏置进行初始化设置。

模型输出结果获取单元，用于将训练文本转换成词向量，并将词向量输入到原始双向循环神经网络模型中进行训练，获取模型输出结果。

参数更新单元，用于基于模型输出结果更新原始双向循环神经网络模型中的权值和偏置，获取有效双向循环神经网络模型。

进一步地，模型输出结果获取单元包括向前输出获取单元、向后输出获取单元和输出处理单元。

向前输出获取单元，用于将训练文本转换成词向量，并将词向量输入到原始双向循环神经网络模型的输入层，输入层将获取到的词向量输入到向前循环神经网络的向前隐藏层中，并使用注意力机制进行处理，获取向前输出。

向后输出获取单元，用于输入层将获取到的词向量输入到向后循环神经网络的向后隐藏层中，并使用注意力机制进行处理，获取向后输出。

输出处理单元，用于对向前输出和向后输出进行融合处理，获取模型输出结果。

关于唇语识别装置的具体限定可以参见上文中对于唇语识别方法的限定，在此不再赘述。上述唇语识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储唇语识别方法涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种唇语识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例的唇语识别方法，如图2所示的步骤S10-步骤S80，或者图3至图7中所示的步骤，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现上述唇语识别装置这一实施例中的各模块/单元的功能，例如图8所示的模块10至模块80的功能，为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的唇语识别方法，如图2所示的步骤S10-步骤S80，或者图3至图7中所示的步骤，为避免重复，这里不再赘述。或者，计算机程序被处理器执行时实现上述唇语识别装置这一实施例中的各模块/单元的功能，例如图8所示的模块10至模块80的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种唇语识别方法，其特征在于，包括：

对所述标准视频进行分离，获取有效音频流和有效视频流；

对所述帧唇部动作视频进行处理，获取唇部图像序列；

2.如权利要求1所述的唇语识别方法，其特征在于，所述将所述唇部图像序列对应的各切分图像序列依次输入到唇部图像识别模型中进行识别，获取唇部图像识别结果，包括：

通过所述唇部图像识别模型对所述唇部图像序列对应的各切分图像序列进行识别，获取切分图像特征；

采用分类函数对所述切分图像特征进行分类，获取切分图像识别结果；

按照时间顺序对所述切分图像识别结果进行拼接，获取唇部图像识别结果。

3.如权利要求1所述的唇语识别方法，其特征在于，所述唇语识别方法还包括：

获取训练图像序列，所述训练图像序列携带有图像文本标签，将所述训练图像序列划分为图像序列训练集和图像序列测试集；

将所述图像序列训练集中的训练图像序列输入到3D卷积神经网络模型中，获取训练结果；

根据所述训练结果和所述图像文本标签，构建损失函数，并通过所述损失函数更新调整所述3D卷积神经网络模型的权值和偏置，获取唇部图像训练模型；

使用所述图像序列测试集中的训练图像序列对所述唇部图像训练模型进行测试，当所述图像序列测试集对应的输出结果与所述图像文本标签的误差在预设误差范围内，则将所述唇部图像训练模型作为唇部图像识别模型。

4.如权利要求1所述的唇语识别方法，其特征在于，所述唇语识别方法还包括：

获取训练语音，对所述训练语音进行预处理，获取目标语音；

采用语音转文本技术，将所述目标语音转换为原始文本；

对所述原始文本进行预处理，获取目标文本，所述目标文本携带有对应的文本标签；

将所述目标文本划分为训练文本和测试文本；

将所述训练文本输入到原始双向循环神经网络模型中进行训练，获取有效双向循环神经网络模型；

将所述测试文本输入到所述有效双向循环神经网络模型中进行测试，获取所述测试文本对应的准确率，若所述准确率达到预设阈值，则将所述有效双向循环神经网络模型确定为语音识别模型。

5.如权利要求4所述的唇语识别方法，其特征在于，所述将所述训练文本输入到原始双向循环神经网络模型中进行训练，获取有效双向循环神经网络模型，包括：

对原始双向循环神经网络模型中的权值和偏置进行初始化设置；

将训练文本转换成词向量，并将所述词向量输入到原始双向循环神经网络模型中进行训练，获取模型输出结果；

基于所述模型输出结果更新所述原始双向循环神经网络模型中的权值和偏置，获取有效双向循环神经网络模型。

6.如权利要求5所述的唇语识别方法，其特征在于，所述将训练文本转换成词向量，并将所述词向量输入到原始双向循环神经网络模型中进行训练，获取模型输出结果，包括：

将训练文本转换成词向量，并将所述词向量输入到原始双向循环神经网络模型的输入层，输入层将获取到的所述词向量输入到向前循环神经网络的向前隐藏层中，并使用注意力机制进行处理，获取向前输出；

输入层将获取到的所述词向量输入到向后循环神经网络的向后隐藏层中，并使用注意力机制进行处理，获取向后输出；

对向前输出和向后输出进行融合处理，获取模型输出结果。

7.一种唇语识别装置，其特征在于，包括：

8.如权利要求7所述的唇语识别装置，其特征在于，第一模型识别模块包括：

图像特征获取单元，用于通过所述唇部图像识别模型对所述唇部图像序列对应的各切分图像序列进行识别，获取切分图像特征；

图像特征处理单元，用于采用分类函数对所述切分图像特征进行分类，获取切分图像识别结果；

图像识别结果获取单元，用于按照时间顺序对所述切分图像识别结果进行拼接，获取唇部图像识别结果。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述唇语识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述唇语识别方法。