CN109858412A

CN109858412A - 一种基于混合卷积神经网络的唇语识别方法

Info

Publication number: CN109858412A
Application number: CN201910049839.7A
Authority: CN
Inventors: 李晶皎; 王晓磊; 闫爱云; 王爱侠; 金硕巍; 李贞妮
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2019-06-07

Abstract

本发明提供一种基于混合卷积神经网络的唇语识别方法。本发明方法，包括如下步骤：对采集到的待识别视频进行预处理，获取每帧待识别视频的唇部图像序列；将预处理后的唇部图像序列作为输入，馈送入构建的混合卷积神经网络进行短期时空特征和长期时空特征提取；将所述长期时空特征输入连接时序分类器获得识别概率结果，对所述识别概率结果进行解码处理，获得唇语识别结果。本发明通过混合卷积神经网络同时学习唇部运动的空间和时间特征，同时通过两层Bi‑GRU网络将短期时空特征和长期时空特征结合起来，并使用连接时序分类训练网络，提高了唇语识别的速度与精确度。

Description

一种基于混合卷积神经网络的唇语识别方法

技术领域

本发明涉及计算机视觉与模式识别技术领域，具体而言，尤其涉及一种基于混合卷积神经网络的唇语识别方法。

背景技术

唇语识别，是指通过观察说话者的口型变化，直接从讲话人唇动的连续图像中“读”出其讲话的内容，唇语识别技术源于听力弱者和听力障碍者学习、了解正常人语言表达的一种技巧。

唇语识别技术研究涉及多个领域，包括人工智能、模式识别、图像处理、自然语言处理等。随着自动语音识别、人机自然交互和计算机视觉技术的迅速发展，唇语识别技术不再仅仅是改善语音识别率的辅助手段，唇语识别作为新的人体生物特征、新的人机接口、新的反恐手段，在人们生活中发挥着越来越重要的作用。

最近，在计算机视觉应用领域，深度神经网络获得了广泛应用。在处理图像识别问题时，卷积神经网络往往用来提取图像的空间特征，而唇语这类信息则同时包含空间信息与时间信息，因此3D卷积神经网络被用来处理唇语识别中所需的空间特征和时间特征，然而由于自身的约束，导致它提取到的特征只包含有短期的时空特征，现有技术无法提取长期的时空特征，导致现有技术准确率不足。

发明内容

为了克服现有技术的不足，而提供一种基于混合卷积神经网络的唇语识别方法，解决目前传统唇语识别中存在的只提取空间特征或只提取长期时空特征等问题。

本发明采用的技术手段如下：

一种基于混合卷积神经网络的唇语识别方法，具有如下步骤：

S1、在接收到语音信号后，控制图像采集装置进行图像采集，在语音信号结束后，控制图像采集装置停止图像采集；

还包括：

S2、对采集到的待识别视频进行预处理，获取每帧待识别视频的唇部图像序列；

S3、将预处理后的唇部图像序列作为输入，馈送入构建的混合卷积神经网络进行短期时空特征和长期时空特征提取，所述混合卷积神经网络包括：用于提取视频的短期时空特征的3D卷积神经网络，用于将所述短期时空特征作为输入，提取深层次特征的2D卷积神经网络和用于将所述深层次特征作为输入，提取视频的长期时空特征的两层Bi-GRU网络；

S4、将所述长期时空特征输入连接时序分类器获得识别概率结果，对所述识别概率结果进行解码处理，获得唇语识别结果。

进一步地，所述步骤S2具体包括如下步骤：

S21、将待识别视频裁剪为预设长度，并调整为预设帧数；

S22、对每帧图片进行人脸检测，若检测到人脸图像，则对所述人脸图像进行关键点检测处理，进而获取唇部图像；

S23、将获取的各唇部图像组成为唇部图像序列。

进一步地，所述步骤S3中的3D卷积神经网络为三层，每层3D卷积层后均跟随批处理归一化层和ReLU层以及每层后跟随的只执行空间池化操作的池化层，其中，

第一层为3D卷积层，其卷积核尺寸为3*5*5，步幅为1*2*2，填充为1*2*2，卷积滤波器数量为32，

第二层为空间池化层，其内核大小为1*2*2，步幅为1*2*2，

第三层为3D卷积层，其卷积核尺寸为3*5*5，步幅为1*2*2，填充为1*2*2，卷积滤波器数量为64，

第四层为空间池化层，其内核大小为1*2*2，步幅为1*2*2，

第五层为3D卷积层，其卷积核尺寸为3*3*3，步幅为1*2*2，填充为1*1*1，卷积滤波器数量为96，

第六层为空间池化层，其内核大小为1*2*2，步幅为1*2*2。

进一步地，所述步骤S3中的2D卷积神经网络为两层，其中，

第七层为2D卷积层，使用1*2*2的卷积核进行空间卷积操作，步幅为1*1*1，填充为1*1*1，

第八层为2D卷积层，使用1*3*3的卷积核进行空间卷积操作，步幅为1*1*1，填充为1*1*1。

进一步地，所述步骤S3中的Bi-GRU网络具体为正向GRU和反向GRU，每层GRU网络各有256个滤波器，GRU每个时间步的输出通过全连接层、Softmax处理，得到长期时空特征。

进一步地，所述GRU网络模型具体计算方式为：

z_t＝σ(W_hzh_t-1+W_xzx_t+b_z)

r_t＝σ(W_hrh_t-1+W_xrx_t+b_r)

其中，z_t、r_t和h_t分别为t时刻更新门、复位门和记忆模块的输出；x_t为t时刻记忆模块的输入向量；h_t-1为t-1时刻记忆模块的输出向量；W_xz、W_xr和W_xh分别为模块输入与更新门、复位门和间的权重矩阵；W_hz和W_hr分别为t-1时刻记忆模块的输出入更新门、复位门间的权重矩阵；b_z、b_r和b_h分别为更新门、复位门和的偏置；σ(·)表示逻辑sigmoid函数，其为门单元的激活函数；·表示矩阵元素相乘。

较现有技术相比，本发明通过混合卷积神经网络同时学习唇部运动的空间和时间特征，同时通过两层Bi-GRU网络将短期时空特征和长期时空特征结合起来，并使用连接时序分类训练网络，提高了唇语识别的速度与精确度。

基于上述理由本发明可在计算机视觉与模式识别技术领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于混合卷积神经网络的唇语识别方法流程图。

图2为本发明门递归单元GRU的结构示意图。

图3为本发明实施例中利用dlib库对处理后的视频进行人脸检测的具体检测示意图。

图4为本发明实施例中3D卷积示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种基于混合卷积神经网络的唇语识别方法，具有如下步骤：

S1、在接收到语音信号后，控制图像采集装置进行图像采集，在语音信号结束后，控制图像采集装置停止图像采集；在本实施例中，图像采集装置为摄像头。

还包括：

所述步骤S2具体包括如下步骤：

S21、将待识别视频裁剪为预设长度，并调整为预设帧数；本实施例中通过摄像头获取人说话的正面视频，使用视频编辑软件对视频进行处理获得分辨率为360*288，长度为3秒，帧数为25fps的视频。

S22、对每帧图片进行人脸检测，若检测到人脸图像，则对所述人脸图像进行关键点检测处理，进而获取唇部图像；本实施例中，利用dlib库对处理后的视频进行人脸检测，若检测到人脸图像，对所述人脸图像进行关键点检测处理，获取唇部图像，获取的嘴部区域大小为100*50，共75帧，对获取的唇部图像进行标准化处理，

S23、将获取的各唇部图像组成为唇部图像序列。

本实施例中，输入为75*3*50*100的彩色图像序列，其中75为图像序列的帧数，3为彩色图像的通道数，50*100为每一帧的分辨率，

如图4所示，所述步骤S3中的3D卷积神经网络为三层，每层3D卷积层后均跟随批处理归一化层和ReLU层以及每层后跟随的只执行空间池化操作的池化层，其中，

第二层为空间池化层，其内核大小为1*2*2，步幅为1*2*2，

第四层为空间池化层，其内核大小为1*2*2，步幅为1*2*2，

第六层为空间池化层，其内核大小为1*2*2，步幅为1*2*2。

进一步地，所述步骤S3中的2D卷积神经网络为两层，其中，

第九层和第十层分别为所述Bi-GRU网络，所述步骤S3中的Bi-GRU网络具体为正向GRU和反向GRU，每层GRU网络各有256个滤波器，GRU每个时间步的输出通过全连接层、Softmax处理，得到长期时空特征。

所述GRU网络模型具体计算方式为：

z_t＝σ(W_hzh_t-1+W_xzx_t+b_z)

r_t＝σ(W_hrh_t-1+W_xrx_t+b_r)

其中，z_t、r_t和h_t分别为t时刻更新门、复位门和记忆模块的输出，即视频的长期时空特征；x_t为t时刻记忆模块的输入向量，即2D卷积神经网络提取的深层次特征；h_t-1为t-1时刻记忆模块的输出向量；W_xz、W_xr和W_xh分别为模块输入与更新门、复位门和间的权重矩阵；W_hz和W_hr分别为t-1时刻记忆模块的输出入更新门、复位门间的权重矩阵；b_z、b_r和b_h分别为更新门、复位门和的偏置；σ(·)表示逻辑sigmoid函数，其为门单元的激活函数；·表示矩阵元素相乘。

具体为，利用集束搜索和语言模型对所述识别结果进行处理，获得唇语识别结果。

目前的唇语识别领域多为隐马尔科夫模型，2D卷积和LSTM的混合模型，还有使用多层3D卷积模型，虽然多层3D卷积层提高了准确性，但是其参数过大，不好训练。本申请在3D卷积提取短期时空特征后引入2D卷积，在保证了准确性的同时减少参数，最后使用GRU提取长期时空特征。GRU的构造简单，将忘记门和输入门合成了一个单一的更新门，与LSTM相比，在训练数据很大的情况下GRU能节省很多时间。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于混合卷积神经网络的唇语识别方法，其特征在于，包括：

2.根据权利要求1所述的基于混合卷积神经网络的唇语识别方法，其特征在于，所述步骤S2前，还包括如下步骤：S1、在接收到语音信号后，控制图像采集装置进行图像采集，在语音信号结束后，控制图像采集装置停止图像采集。

3.根据权利要求1所述的基于混合卷积神经网络的唇语识别方法，其特征在于，所述步骤S2具体包括如下步骤：

S21、将待识别视频裁剪为预设长度，并调整为预设帧数；

S23、将获取的各唇部图像组成为唇部图像序列。

4.根据权利要求1所述的基于混合卷积神经网络的唇语识别方法，其特征在于，所述步骤S3中的3D卷积神经网络为三层，每层3D卷积层后均跟随批处理归一化层和ReLU层以及每层后跟随的只执行空间池化操作的池化层，其中，

第二层为空间池化层，其内核大小为1*2*2，步幅为1*2*2，

第四层为空间池化层，其内核大小为1*2*2，步幅为1*2*2，

第六层为空间池化层，其内核大小为1*2*2，步幅为1*2*2。

5.根据权利要求1或4所述的基于混合卷积神经网络的唇语识别方法，其特征在于，所述步骤S3中的2D卷积神经网络为两层，其中，

6.根据权利要求1所述的基于混合卷积神经网络的唇语识别方法，其特征在于，所述步骤S3中的Bi-GRU网络具体为正向GRU和反向GRU，每层GRU网络各有256个滤波器，GRU每个时间步的输出通过全连接层、Softmax处理，得到长期时空特征。

7.根据权利要求1或6所述的基于混合卷积神经网络的唇语识别方法，其特征在于，所述GRU网络模型具体计算方式为：

z_t＝σ(W_hzh_t-1+W_xzx_t+b_z)

r_t＝σ(W_hrh_t-1+W_xrx_t+b_r)