CN110765868A

CN110765868A - 唇读模型的生成方法、装置、设备及存储介质

Info

Publication number: CN110765868A
Application number: CN201910882702.XA
Authority: CN
Inventors: 王义文; 郑权; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2020-02-07

Abstract

本发明提供一种唇读模型的生成方法、装置、设备及存储介质，即所述处理器将所述视频训练样本进行音视频分离，生成视频训练样本和音频训练样本；所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列，所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练；将收敛后的两个唇读模型进行连接，生成目标唇读模型。本发明从说话者面部图像中的唇部形态和语音音频两个方向分别构建唇读模型，再将两个方向的唇读模型结合，得到最终的唇读模型；提升了唇读模型的鲁棒性，提升了唇读模型解析的准确性。

Description

唇读模型的生成方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种唇读模型的生成方法、装置、设备及计算机可读存储介质。

背景技术

唇读(lip—reading/speech—reading)，是指可以通过观察说话者的口型变化，“读出”或“部分读出”其所说的内容。唇读研究的目的是利用视觉信道信息补充听觉信道信息，提高计算机系统的理解力。现有的唇读模型主要是依靠视频图像中的唇部形态变化、动作来解析唇语，或者通过音频数据进行解析，很容易受到噪声的干扰，导致唇读模型的训练效果较差，模型训练效率低下。

发明内容

本发明的主要目的在于提供一种唇读模型的生成方法、装置、设备及计算机可读存储介质，旨在解决现有唇读模型的训练效果差以及训练效率低下的技术问题。

为实现上述目的，本发明提供一种唇读模型的生成方法，所述唇读模型的生成方法应用于唇读模型的生成系统，所述生成系统包括处理器和存储模块，所述唇读模型的生成方法包括以下步骤：

所述处理器在接收到模型生成指令时，在所述存储模块中获取视频训练样本，将所述视频训练样本进行音视频分离，生成视频训练样本和音频训练样本；

所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列，并在所述存储模块中获取待训练唇读模型，分别作为第一待训练唇读模型以及第二待训练唇读模型；

所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练，以得到收敛的第一唇读模型以及第二唇读模型；

所述处理器将所述第一唇读模型以及第二唇读模型进行连接，生成目标唇读模型。

可选地，所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列，并在所述存储模块中获取待训练唇读模型，分别作为第一待训练唇读模型以及第二待训练唇读模型的步骤包括：

所述处理器对所述视频训练样本进行人脸图像识别，从识别出的人脸图像中切割出嘴唇图像区域，作为感兴趣区域ROI，并提取出所述视频训练样本中包含所述ROI的图像序列信号，作为唇部图像序列；

所述处理器对所述音频训练样本进行快速傅里叶变换得到对应的频谱样本，通过Mel滤波器组得到所述频谱样本对应的Mel频谱样本，并对所述Mel频谱样本进行带谱分析，得到梅尔频率倒谱系数MFCC特征，作为所述音频特征序列；

所述处理器在所述存储模块中获取待训练唇读模型，分别作为第一待训练唇读模型以及第二待训练唇读模型。

可选地，所述处理器对所述音频训练样本进行快速傅里叶变换得到对应的频谱样本，通过Mel滤波器组得到所述频谱样本对应的Mel频谱样本，并对所述Mel频谱样本进行带谱分析，得到梅尔频率倒谱系数MFCC特征，作为所述音频特征序列的步骤之前，还包括：

所述处理器对所述音频训练样本进行分帧，并将分帧后的音频训练样本输入高通滤波器进行预加重处理。

可选地，所述处理器对所述音频训练样本进行分帧，并将分帧后的音频训练样本输入高通滤波器进行预加重处理的步骤之后，还包括：

所述处理器将所述预加重处理后的音频训练样本对应的每帧音频信号与汉明窗相乘，以对预加重处理后的音频训练样本进行加窗处理。

可选地，所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练，以得到收敛的第一唇读模型以及第二唇读模型的步骤具体包括：

所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，以根据第一卷积参数将所述第一待训练唇读模型进行卷积、归一化以及池化处理，以得到收敛的第一唇读模型；

所述处理器将所述音频特征序列输入至第二待训练唇读模型，以根据第二卷积参数将所述第二待训练唇读模型进行卷积、归一化以及池化处理，以得到收敛的第二唇读模型。

可选地，所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，以根据第一卷积参数将所述第一待训练唇读模型进行卷积、归一化以及池化处理，以得到收敛的第一唇读模型的步骤具体包括：

所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，以根据第一卷积参数将所述第一待训练唇读模型进行卷积、归一化处理；

所述处理器在归一化后的第一待训练唇读模型前向传播时，进入所述归一化后的第一待训练唇读模型的Dropout层，以使所述归一化后的第一待训练唇读模型中的预设个数的神经元以预设概率停止工作，减小所述第一待训练唇读模型的过拟合；

所述处理器将减小过拟合后的第一待训练唇读模型进行池化处理，以得到收敛的第一唇读模型。

可选地，所述处理器将所述第一唇读模型以及第二唇读模型进行连接，生成目标唇读模型的步骤具体包括：

所述处理器将所述第一唇读模型以及第二唇读模型沿最后一维连接，并将连接后的唇读模型进行长短期记忆网络LSTM处理，生成目标唇读模型。

此外，为实现上述目的，本发明还提供一种唇读模型的生成装置，所述唇读模型的生成装置应用于唇读模型的生成系统，所述生成系统包括处理器和存储模块，所述唇读模型的生成装置包括：

样本分离模块，用于所述处理器在接收到模型生成指令时，在所述存储模块中获取视频训练样本，将所述视频训练样本进行音视频分离，生成视频训练样本和音频训练样本；

特征提取模块，用于所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列，并在所述存储模块中获取待训练唇读模型，分别作为第一待训练唇读模型以及第二待训练唇读模型；

模型训练模块，用于所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练，以得到收敛的第一唇读模型以及第二唇读模型；

模型生成模块，用于所述处理器将所述第一唇读模型以及第二唇读模型进行连接，生成目标唇读模型。

此外，为实现上述目的，本发明还提供一种唇读模型的生成设备，所述唇读模型的生成设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的唇读模型的生成程序，其中所述唇读模型的生成程序被所述处理器执行时，实现如上述的唇读模型的生成方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有唇读模型的生成程序，其中所述唇读模型的生成程序被处理器执行时，实现如上述的唇读模型的生成方法的步骤。

本发明提供一种唇读模型的生成方法，所述唇读模型的生成方法应用于唇读模型的生成系统，所述生成系统包括处理器和存储模块，所述唇读模型的生成方法通过所述处理器在接收到模型生成指令时，在所述存储模块中获取视频训练样本，将所述视频训练样本进行音视频分离，生成视频训练样本和音频训练样本；所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列，并在所述存储模块中获取待训练唇读模型，分别作为第一待训练唇读模型以及第二待训练唇读模型；所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练，以得到收敛的第一唇读模型以及第二唇读模型；所述处理器将所述第一唇读模型以及第二唇读模型进行连接，生成目标唇读模型。通过上述方式，本发明通过视频训练样本和音频训练样本，即从说话者面部图像中的唇部形态和语音音频两个方向分别构建唇读模型，再将两个方向的唇读模型结合，得到最终的唇读模型；提升了唇读模型的鲁棒性，提升了唇读模型解析的准确性，解决了现有唇读模型的训练效果差以及训练效率低下的技术问题。

附图说明

图1为本发明实施例方案中涉及的唇读模型的生成设备的硬件结构示意图；

图2为本发明唇读模型的生成方法第一实施例的流程示意图；

图3为本发明唇读模型的生成方法第二实施例的流程示意图；

图4为本发明唇读模型的生成方法第三实施例的流程示意图；

图5为本发明唇读模型的生成装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例涉及的唇读模型的生成方法主要应用于唇读模型的生成设备，该唇读模型的生成设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。

参照图1，图1为本发明实施例方案中涉及的唇读模型的生成设备的硬件结构示意图。本发明实施例中，唇读模型的生成设备可以包括处理器1001(例如CPU)，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)；网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)；存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的硬件结构并不构成对唇读模型的生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及唇读模型的生成程序。

在图1中，网络通信模块主要用于连接服务器，与服务器进行数据通信；而处理器1001可以调用存储器1005中存储的唇读模型的生成程序，并执行本发明实施例提供的唇读模型的生成方法。

本发明实施例提供了一种唇读模型的生成方法。

参照图2，图2为本发明唇读模型的生成方法第一实施例的流程示意图。

本实施例中，所述唇读模型的生成方法应用于唇读模型的生成系统，所述生成系统包括处理器和存储模块，所述唇读模型的生成方法包括以下步骤：

步骤S10，所述处理器在接收到模型生成指令时，在所述存储模块中获取视频训练样本，将所述视频训练样本进行音视频分离，生成视频训练样本和音频训练样本；

目前，现有的唇读模型主要是依靠视频图像中的唇部形态变化、动作来解析唇语，或者通过音频数据进行解析，很容易受到噪声的干扰，导致唇读模型的训练效果较差，模型训练效率低下。本实施例中，为了解决上述问题，提供一种唇读模型的生成方法，即从说话者面部图像中的唇部形态和语音音频两个方向分别构建唇读模型，再将两个方向的唇读模型结合，得到最终的唇读模型。具体地，训练样本是所述处理器从存储模块中的样本库下载的多个说话者说话时的多个视频文件，视频文件包括说话者的面部图像信息及语音音频信息，本实施例对视频文件进行音视频分离，得到与该视频文件对应的无音频的视频训练样本和音频训练样本。

步骤S20，所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列，并在所述存储模块中获取待训练唇读模型，分别作为第一待训练唇读模型以及第二待训练唇读模型；

本实施例中，所述处理器利用开源库Dlib库从视频训练样本中识别出人脸，从识别出的人脸图像中切割出嘴唇区域作为ROI(region of interest，感兴趣区域)，再从该视频训练样本中按帧提取每一帧中含有嘴唇区域的ROI作为图像序列信号(如图像序列信号为100帧，高50，宽100，三通道图像，表示为[100,50,100,3])，得到唇部区域的图像序列。通过从视频训练样本中逐帧对人脸图像做唇部的切割，切割出包含唇部的矩形框作为第一待训练唇读模型训练的输入图片，避免了采用整张视频帧输入至模型进行训练时，由于图片尺寸过大导致的训练速度慢的问题，加快了训练速度。

音频训练样本具体为音频信号，所述处理器对音频信号分帧、预加重、加窗、快速傅里叶变换得到频谱，频谱通过Mel滤波器组得到Mel频谱，在Mel频谱上面进行倒谱分析得到的梅尔频率倒谱系数MFCC特征，即所述音频特征序列。

然后在存储模块中预先存储的唇读模型库中，获取一待训练唇读模型，作为第一待训练唇读模型，并获取一待训练唇读模型，作为第二待训练唇读模型。

步骤S30，所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练，以得到收敛的第一唇读模型以及第二唇读模型；

本实施例中，通过上述步骤得到唇部区域的图像序列，所述处理器将该图像序列输入至第一待训练唇读模型做3D卷积，3D卷积的目的是提取图像序列中的特征来减小后续训练步骤的运算量。作为一种实施方式，本实施例第一待训练唇读模型中第一次3D卷积的卷积核设置为[3,5,5,32],即时间维的卷积核设为3，空间卷积核采用5x5，输出通道(滤波器)的数目为32，步长的时间维、高度维、宽度维对应采用1,2，2，以使得运算量进一步的减小，训练和测试时间更快。在其它实施例中，第一次3D卷积的空间卷积核也可采用3x3。

卷积后进入第一待训练唇读模型的BN(Batch Normalization，批量归一化)层，深度神经网络随着网络深度加深，训练过程越困难，收敛越来越慢，导致反向传播时低层神经网络的梯度消失，网络收敛难度增大，BN层是把每层神经网络任意神经元输入值的分布强行拉回到均值为0方差为1的标准正态分布，以使激活输入值落在激活函数对输入比较敏感的区域，即输入的小变化就会引起损失函数较大的变化，即就是会让当前神经网络的梯度变大，避免梯度消失的问题，大大加快了第一待训练唇读模型的训练速度和收敛速度。

归一化后进入第一待训练唇读模型的Dropout层，以缓解过拟合的发生。过拟合是指随着训练时间的加长，训练模型对训练样本集依赖程度高，实际测试时验证效果并不好，Dropout层要提升网络模型的泛化能力，降低网络模型对训练样本集的依赖程度，具体是在第一待训练唇读模型前向传播的时候，让某个神经元的激活值以预设概率停止工作，以使模型泛化性更强。

Dropout层结束后，进入池化步骤，来缩小输入的尺寸，进而减少模型参数，进一步提升速度，池化层选取三个维度(时间，高，宽)的最大池化，对应的尺寸为[1,2,2]，第一待训练唇读模型的整个卷积-BN-Dropout-池化的操作将按上述步骤进行三次，其中，第二次卷积-BN-Dropout-池化的操作与第一次卷积-BN-Dropout-池化的操作的区别点在于，第二次3D卷积的卷积核设置为[3,5,5,64],即输出通道(滤波器)的数目为64，步长的时间维、高度维、宽度维对应采用1,1,1；第三次卷积-BN-Dropout-池化的操作与第一次卷积-BN-Dropout-池化的操作的区别点在于，第三次3D卷积的卷积核设置为[3,3,3,96],即空间卷积核采用3x3，输出通道(滤波器)的数目为96，步长的时间维、高度维、宽度维对应采用1,1,1。

然后，将基于上述步骤S20提取到的音频特征序列输入至第二待训练唇读模型进行训练，第二待训练唇读模型的整体网络结构和第一待训练唇读模型是相似的，但由于图像序列与音频序列不同，第二待训练唇读模型与第一待训练唇读模型的区别点在于；

1、第二待训练唇读模型第一次卷积时，卷积核的设置具体为(3,5,1,16)，即时间维的卷积核设为3，空间卷积核采用5x1，输出通道(滤波器)的数目为16，步长的时间维、高度维、宽度维对应采用1,1,1；

2、第二待训练唇读模型在第一次池化之后做连续两次卷积核为(3,4,1，32)、步长为(1,2,1)的3D卷积，即连续两次提取特征后再进行BN、Dropout和池化，池化后之后再进行两次卷积核为(3,3,1,64)、步长为(1,2,1)的3D卷积和一次卷积核为(3,3,1,128)、步长为(1,2,1)的3D卷积，再进行BN，Dropout和池化，得到收敛的第二待训练唇读模型。

步骤S40，所述处理器将所述第一唇读模型以及第二唇读模型进行连接，生成目标唇读模型。

本实施例中，所述处理器将所述第一唇读模型以及第二唇读模型沿最后一维连接，并将连接后的唇读模型进行长短期记忆网络LSTM处理，生成目标唇读模型。即将收敛的第一待训练唇读模型和收敛的第二待训练唇读模型沿最后一维连接，接着执行两次双向LSTM长短期记忆网络(LSTM，Long Short-Term Memory)，其中，神经元个数为256，得到最终训练完成的目标唇读模型。

本实施例提供一种唇读模型的生成方法，所述唇读模型的生成方法应用于唇读模型的生成系统，所述生成系统包括处理器和存储模块，所述唇读模型的生成方法通过所述处理器在接收到模型生成指令时，在所述存储模块中获取视频训练样本，将所述视频训练样本进行音视频分离，生成视频训练样本和音频训练样本；所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列，并在所述存储模块中获取待训练唇读模型，分别作为第一待训练唇读模型以及第二待训练唇读模型；所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练，以得到收敛的第一唇读模型以及第二唇读模型；所述处理器将所述第一唇读模型以及第二唇读模型进行连接，生成目标唇读模型。通过上述方式，本发明通过视频训练样本和音频训练样本，即从说话者面部图像中的唇部形态和语音音频两个方向分别构建唇读模型，再将两个方向的唇读模型结合，得到最终的唇读模型；提升了唇读模型的鲁棒性，提升了唇读模型解析的准确性，解决了现有唇读模型的训练效果差以及训练效率低下的技术问题。

参照图3，图3为本发明唇读模型的生成方法第二实施例的流程示意图。

基于上述图2所示实施例，本实施例中，所述步骤S20具体包括：

步骤S21，所述处理器对所述视频训练样本进行人脸图像识别，从识别出的人脸图像中切割出嘴唇图像区域，作为感兴趣区域ROI，并提取出所述视频训练样本中包含所述ROI的图像序列信号，作为唇部图像序列；

步骤S22，所述处理器对所述音频训练样本进行快速傅里叶变换得到对应的频谱样本，通过Mel滤波器组得到所述频谱样本对应的Mel频谱样本，并对所述Mel频谱样本进行带谱分析，得到梅尔频率倒谱系数MFCC特征，作为所述音频特征序列；

步骤S23，所述处理器在所述存储模块中获取待训练唇读模型，分别作为第一待训练唇读模型以及第二待训练唇读模型。

本实施例中，所述处理器对视频训练样本进行音视频分离，得到音频样本，音频样本具体为音频信号，对音频信号分帧、预加重、加窗、快速傅里叶变换得到频谱，频谱通过Mel滤波器组得到Mel频谱，在Mel频谱上面进行倒谱分析得到的梅尔频率倒谱系数MFCC特征，即所述音频特征序列。然后在存储模块中预先存储的唇读模型库中，获取一待训练唇读模型，作为第一待训练唇读模型，并获取一待训练唇读模型，作为第二待训练唇读模型。

进一步地，步骤S21之前，还包括：

所述处理器对所述音频训练样本进行分帧，并将分帧后的音频训练样本输入高通滤波器进行预加重处理；

本实施例中，由于原始音频录制的采样点多，如果对每个采样点都进行处理，会使参数过多，影响模型速度，所以对原始音频信号(即对视频训练样本进行音视频分离后得到音频样本)做分帧处理，如把一秒的音频分成60个音频帧，即采样60次，得到分帧完成的序列。

预加重用以提升音频信号中的高频部分，即对语音的高频部分进行加重，以此去除口唇辐射的影响，增加语音的高频分辨率使音频信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以此提高频谱的准确性；作为一种实施方式，预加重可以是将分帧完成的音频序列输入高通滤波器，得到的输出即为预加重后的音频信号。

作为一种实施方式，选用汉明窗与预加重后的每帧音频信号相乘，以使帧两端平滑地衰减到零，降低傅里叶变换后旁瓣的强度，得到更高质量的频谱，加窗后的音频信号经过快速傅里叶变换得到频谱。

参照图4，图4为本发明唇读模型的生成方法第三实施例的流程示意图。

基于上述图3所示实施例，本实施例中，所述步骤S30具体包括：

步骤S31，所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，以根据第一卷积参数将所述第一待训练唇读模型进行卷积、归一化以及池化处理，以得到收敛的第一唇读模型；

步骤S32，所述处理器将所述音频特征序列输入至第二待训练唇读模型，以根据第二卷积参数将所述第二待训练唇读模型进行卷积、归一化以及池化处理，以得到收敛的第二唇读模型。

本实施例中，步骤S31具体包括：

具体地，所述处理器将该图像序列输入至第一待训练唇读模型做3D卷积，3D卷积的目的是提取图像序列中的特征来减小后续训练步骤的运算量。作为一种实施方式，本实施例第一待训练唇读模型中第一次3D卷积的卷积核设置为[3,5,5,32],即时间维的卷积核设为3，空间卷积核采用5x5，输出通道(滤波器)的数目为32，步长的时间维、高度维、宽度维对应采用1,2，2，以使得运算量进一步的减小，训练和测试时间更快。在其它实施例中，第一次3D卷积的空间卷积核也可采用3x3。

Dropout层结束后，进入池化步骤，来缩小输入的尺寸，进而减少模型参数，进一步提升速度，池化层选取三个维度(时间，高，宽)的最大池化，对应的尺寸为[1,2,2]，第一待训练唇读模型的整个卷积-BN-Dropout-池化的操作将按上述步骤进行三次，其中，第二次卷积-BN-Dropout-池化的操作与第一次卷积-BN-Dropout-池化的操作的区别点在于，第二次3D卷积的卷积核设置为[3,5,5,64],即输出通道(滤波器)的数目为64，步长的时间维、高度维、宽度维对应采用1,1，1；第三次卷积-BN-Dropout-池化的操作与第一次卷积-BN-Dropout-池化的操作的区别点在于，第三次3D卷积的卷积核设置为[3,3,3,96],即空间卷积核采用3x3，输出通道(滤波器)的数目为96，步长的时间维、高度维、宽度维对应采用1,1,1。

此外，本发明实施例还提供一种唇读模型的生成装置。

参照图5，图5为本发明唇读模型的生成装置第一实施例的功能模块示意图。

本实施例中，所述唇读模型的生成装置应用于唇读模型的生成系统，所述生成系统包括处理器和存储模块，所述唇读模型的生成装置包括：

样本分离模块10，用于所述处理器在接收到模型生成指令时，在所述存储模块中获取视频训练样本，将所述视频训练样本进行音视频分离，生成视频训练样本和音频训练样本；

特征提取模块20，用于所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列，并在所述存储模块中获取待训练唇读模型，分别作为第一待训练唇读模型以及第二待训练唇读模型；

模型训练模块30，用于所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练，以得到收敛的第一唇读模型以及第二唇读模型；

模型生成模块40，用于所述处理器将所述第一唇读模型以及第二唇读模型进行连接，生成目标唇读模型。

进一步地，所述特征提取模块20具体包括：

图像序列提取单元，用于所述处理器对所述视频训练样本进行人脸图像识别，从识别出的人脸图像中切割出嘴唇图像区域，作为感兴趣区域ROI，并提取出所述视频训练样本中包含所述ROI的图像序列信号，作为唇部图像序列；

音频特征提取单元，用于所述处理器对所述音频训练样本进行快速傅里叶变换得到对应的频谱样本，通过Mel滤波器组得到所述频谱样本对应的Mel频谱样本，并对所述Mel频谱样本进行带谱分析，得到梅尔频率倒谱系数MFCC特征，作为所述音频特征序列；

唇读模型获取单元，用于所述处理器在所述存储模块中获取待训练唇读模型，分别作为第一待训练唇读模型以及第二待训练唇读模型。

进一步地，所述音频特征提取单元还用于：

进一步地，所述模型训练模块30具体包括：

第一训练单元，用于所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，以根据第一卷积参数将所述第一待训练唇读模型进行卷积、归一化以及池化处理，以得到收敛的第一唇读模型；

第二训练单元，用于所述处理器将所述音频特征序列输入至第二待训练唇读模型，以根据第二卷积参数将所述第二待训练唇读模型进行卷积、归一化以及池化处理，以得到收敛的第二唇读模型。

进一步地，所述第一训练单元还用于：

进一步地，所述模型生成模块40还用于：

其中，上述唇读模型的生成装置中各个模块与上述唇读模型的生成方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

此外，本发明实施例还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有唇读模型的生成程序，其中所述唇读模型的生成程序被处理器执行时，实现如上述的唇读模型的生成方法的步骤。

其中，唇读模型的生成程序被执行时所实现的方法可参照本发明唇读模型的生成方法的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种唇读模型的生成方法，其特征在于，所述唇读模型的生成方法应用于唇读模型的生成系统，所述生成系统包括处理器和存储模块，所述唇读模型的生成方法包括以下步骤：

2.如权利要求1所述的唇读模型的生成方法，其特征在于，所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列，并在所述存储模块中获取待训练唇读模型，分别作为第一待训练唇读模型以及第二待训练唇读模型的步骤包括：

3.如权利要求2所述的唇读模型的生成方法，其特征在于，所述处理器对所述音频训练样本进行快速傅里叶变换得到对应的频谱样本，通过Mel滤波器组得到所述频谱样本对应的Mel频谱样本，并对所述Mel频谱样本进行带谱分析，得到梅尔频率倒谱系数MFCC特征，作为所述音频特征序列的步骤之前，还包括：

4.如权利要求3所述的唇读模型的生成方法，其特征在于，所述处理器对所述音频训练样本进行分帧，并将分帧后的音频训练样本输入高通滤波器进行预加重处理的步骤之后，还包括：

5.如权利要求1所述的唇读模型的生成方法，其特征在于，所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练，以得到收敛的第一唇读模型以及第二唇读模型的步骤具体包括：

6.如权利要求5所述的唇读模型的生成方法，其特征在于，所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型，以根据第一卷积参数将所述第一待训练唇读模型进行卷积、归一化以及池化处理，以得到收敛的第一唇读模型的步骤具体包括：

7.如权利要求1至6任意一项所述的唇读模型的生成方法，其特征在于，所述处理器将所述第一唇读模型以及第二唇读模型进行连接，生成目标唇读模型的步骤具体包括：

8.一种唇读模型的生成装置，其特征在于，所述唇读模型的生成装置应用于唇读模型的生成系统，所述生成系统包括处理器和存储模块，所述唇读模型的生成装置包括：

9.一种唇读模型的生成设备，其特征在于，所述唇读模型的生成设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的唇读模型的生成程序，其中所述唇读模型的生成程序被所述处理器执行时，实现如权利要求1至7中任一项所述的唇读模型的生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有唇读模型的生成程序，其中所述唇读模型的生成程序被处理器执行时，实现如权利要求1至7中任一项所述的唇读模型的生成方法的步骤。