CN111104884A

CN111104884A - 一种基于两阶段神经网络模型的汉语唇语识别方法

Info

Publication number: CN111104884A
Application number: CN201911256574.4A
Authority: CN
Inventors: 刘明; 曹若琪; 龚海刚; 王晓敏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-05-05
Anticipated expiration: 2039-12-10
Also published as: CN111104884B

Abstract

本发明提供了一种基于两阶段神经网络模型的汉语唇语识别方法，该方法包括：对输入视频逐帧提取唇部区域图像；对提取的唇部区域图像进行标准化处理；利用卷积神经网络对标准化处理后的唇部区域图像进行特征提取，得到唇部特征向量；利用双层双向LSTM网络对唇部特征向量进行处理，得到发音序列；利用拼音‑汉字编码‑解码网络对发音序列进行处理，得到对应的文字信息。本发明可以更好的获取唇部区域的视觉特征，从而更准确的压缩图像，提升唇语识别的准确率和识别速度；同时极大缩小了目标范围，降低了对LSTM层提取能力的要求，降低了识别难度；同时提高了拼音‑文字网络层的准确率。

Description

一种基于两阶段神经网络模型的汉语唇语识别方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于两阶段神经网络模型的汉语唇语识别方法。

背景技术

随着人工智能的发展，人机交互技术越来越多，唇语识别将计算机视觉和自然语言处理相结合，仅通过视频中说话人的面部特征便可解读发言内容。唇语识别在智慧城市，人机交互，辅助语音识别等诸多领域都有着广泛的应用，对于噪声环境和残障人士有更重要的意义。

计算机唇语识别技术是一种通过分析说话者的唇部视觉信息，包括对嘴唇和牙齿的运动特征来理解语音的技术。在嘈杂环境中，只利用语音识别午饭完成对特定说话人的捕捉和识别，因此通过视觉信息辅助语音识别提供了一种行之有效的语音读取方式。由于每个人不同的面部特征，说话速度以及口音等原因，唇语识别成为了一个极具挑战性的问题。近年来，纯度已经被运用到了许多应用当中。纯度的应用不仅对听障人士非常有帮助，也有助于在嘈杂环境下完成目标语音的捕捉和识别，这些任务使得唇语识别这一问题具有重要的现实意义。

目前，唇语识别任务主要有两个部分结合完成。首先，图像处理模块从输入的视频中提取相应的图像特征，完成对唇部运动特征的压缩和编码。接着，自然语言处理模块对获取的特征信息进行分析和处理，有效识别语义信息，完成对唇语的识别。

发明内容

本发明要解决的是对唇部特征提取后的处理与分析，有助于更好的从唇部特征中提取语义信息，从而得到更合理的内容输出，有效提高唇语识别的准确性和可靠性。为实现上述目的，本发明提出了一种基于两阶段神经网络模型的汉语唇语识别方法。该方法首先对单个用户输入视频逐帧提取唇部区域图像；然后对提取的唇部区域图像进行标准化处理；之后利用卷积神经网络对标准化处理后的唇部区域图像进行特征提取，得到唇部特征向量；随后利用双层双向长短期记忆网络(Long Short-Term Memory，LSTM)对唇部特征向量进行处理，得到发音序列；最后拼音-汉字编码-解码网络对发音序列进行处理，得到对应的文字信息。

其中，所述两阶段神经网络模型包括图片-拼音LSTM网络层和拼音-汉字编码-解码网络层，通过这两个网络层逐阶段识别汉语唇语。

本发明首先对用户输入的视频按帧提取唇部区域，再通过卷积神经网络对唇部区域提取特征图。将特征图输入LSTM得到每帧的发音分布概率，最后将发音改了分布输入到拼音-文字LSTM层中，利用预训练得到更为准确的文字信息，完成对唇语的识别。通过对唇部图形的特征提取，有助于更准确地获得唇部的发音信息，利用注意力机制的LSTM处理，得到更准确的文字序列，有效提升唇语识别的准确性。具体来说，

(1)本发明通过卷积神经网络的唇部特征提取方法，可以更好的获取唇部区域的视觉特征，从而更准确的压缩图像，提升唇语识别的准确率和识别速度。

(2)本发明使用LSTM层完成图像特征与语音特征的对应，极大的缩小了目标范围，大大降低了对LSTM层提取能力的要求，降低了识别难度。

(3)本发明利用丰富的拼音-汉字语料库，可以极大的提高拼音-文字LSTM层的准确率。

附图说明

图1为本发明汉语唇语识别方法的流程图

图2为本发明的卷积神经网络特征提取器示意图

图3为本发明的双层双向LSTM网络结构示意图

图4为本发明的拼音-汉字编码-解码网络结构示意图

图5为本发明提取唇部区域图像的部分代码示意图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明提出了一种基于两阶段神经网络模型的汉语唇语识别方法，该方法包括如下步骤：

步骤1)输入原始视频，该原始视频包含带有完整面部的单人说话的说话视频，然后逐帧对所述原始视频逐帧提取唇部区域图像，得到包含唇部区域图像的视频长度个视频帧。

步骤2)将提取到的唇部区域图像缩放到指定大小，进行灰度化处理，将得到的视频帧补齐至指定长度，不足的补全零帧，得到定长的图像序列作为下一步输入。

步骤3)通过3D-2D卷积神经网络，对得到的定长的图像序列进行特征提取，得到唇部特征向量，该3D-2D卷积神经网络包含一层3D卷积层和多层连续的2D卷积层，并且该3D-2D卷积神经网络采用流式传播，即下一层网络使用上一层网络的输出作为输入，并通过卷积核实现输入图像序列样本的重编码。步骤3)具体包括：

步骤31)给定一个输入的图像序列x＝{x₁,x₂,...,x_m}，其中，x为步骤2)所得的图像序列，x₁,x₂,…,x_m为经过步骤1)特征提取后的单通道视频帧，m为补齐后的视频长度。

步骤32)初始化3D-2D卷积神经网络每层的n个卷积核，遍历每个视频帧x_j，其中j＝1,2,...,m，

为第i个卷积核的参数，对每个卷积核，有

其中，x_j表示输入的视频帧，

表示第i个卷积核的偏置，y_i表示第i个卷积核运算之后的输出，

表示第i个卷积核对视频帧的卷积操作，其中，i＝1,2,...,n；

步骤33)对于每个y_i进行池化操作，进一步缩小唇部特征大小。

步骤34)重复步骤33)和步骤34)直到唇部特征被充分压缩。

步骤35)对于每个视频帧x_j，得到Y_j＝{y₁,y₂,…,y_n}作为视频帧x_j的唇部特征向量输出，对于整个视频，得到了Y＝{Y₁,Y₂,...,Y_m}。

步骤4)如图3所示，将输入的原始视频提取为特征向量Y后，将Y输入双层双向LSTM网络(即图片-拼音LSTM网络层或特征-拼音LSTM网络层)中进行训练。

步骤41)对于每个输入Y_j，有输出f_j＝σ(A_f×[S_j-1,h_j-1,Y_j]+b_f)，j＝1,2,...,m。S_j-1代表双层双向LSTM网络维护的记忆层参数，h_j-1＝Y_j*f_j-1代表视频帧x_j-1对应的时序位置双层双向LSTM网络的隐藏层状态，用来表示已输入的语义信息在当前时序位置的期望，f_j表示输入Y_j后得到的输出，是一个长度为现有所有拼音类别数Z的向量，即

σ表示双层双向LSTM网络进行每一步计算的操作，A_f表示双层双向LSTM网络单元的参数矩阵，b_f表示双层双向LSTM网络的偏置。

步骤42)利用CTC(Connectionist Temporal Classification)算法计算双层双向LSTM网络输出的概率分布F＝{f₁,f₂,…,f_m}与输入的原始视频对应的拼音的标签向量P＝{p₁,p₂,...,p_k}间的距离D作为损失函数，其中，k表示输入的原始视频对应的拼音序列的长度。所述损失函数loss₁＝-lnП_(F,P)δ(f_j|p_i),f_j∈F,p_i∈P，其中F表示双层双向LSTM网络输出的概率分布F＝{f₁,f₂,...,f_m}，P表示输入的原始视频对应的句子经过one-hot处理后得到的拼音的标签向量P＝{p₁,p₂,…,p_k}，f_j表示每个视频帧x_j对应的在拼音上的概率分布，p_i表示视频帧x_j对应的时序位置可能出现的真实拼音的标签，δ表示当前时序位置出现的真实拼音为p_j的情况下，双层双向LSTM网络计算得到f_j的概率，然后通过极大似然分别得到每个视频帧x_j对应概率最大的拼音标签，并计算当前的概率分布F＝{f₁,f₂,...,f_m}与该拼音的标签向量P＝{p₁,p₂,...,p_k}的距离。利用上述损失函数loss₁对双层双向LSTM网络进行反向传播，使距离达到最小进行训练。

步骤5)如图4所示，将双层双向LSTM网络的输出F＝{f₁,f₂,...,f_m}输入到下一层拼音-汉字编码-解码网络中，得到输入的原始视频对应的汉字。具体包括：

步骤51)对单个输出f_j，j＝1,2,...,m取对数之后进行softmax操作，将拼音概率分布映射到0-1区间内，并且所有项概率之和为1。对于f_j中的第i项得到

其中，Z表示现有所有拼音类别数，f_j表示F＝{f₁,f₂,…,f_m}在第j项的值，

表示

在第j项的值，w_i表示当前输入是拼音类别为i的拼音的概率。由此，得到当前视频帧x_j在拼音级别上的概率分布W＝{w₁,w₂,…,w_Z}。

步骤52)将W＝{w₁,w₂,…,w_Z}输入到拼音-汉字编码-解码网络中，利用其编码-解码器结构对拼音级别上的概率分布W＝{w₁,w₂,…,w_Z}再编码，编码器和解码器由门控循环单元(GR U)组成。首先将W输入到编码器中，有

j＝1,2,...,m，其中

r_gate表示所述编码器GRU单元中视频帧x_j对应的时序位置的门参数，其中，

代表视频帧x_j-1对应的时序位置处拼音-汉字编码-解码网络的状态与当前输入W进行运算后得到的注意力向量，用来表示已输入的语义信息在当前位置的期望，

表示输入W后得到的输出，σ_encode表示所述编码器进行每一步计算的操作，

表示所述编码器的参数矩阵，

表示所述编码器的偏置。得到所有视频帧的输出

以及最后的句子编码

其中j为视频长度，j＝1,2,...,m。

步骤53)将句子编码H用注意力机制与输出OUT进行运算，得到

其中u₀为解码器的隐藏层参数。利用预设的起始句柄y_start初始化所述解码器，有

其中f₁′为h_decode通过全连接网络转换维度至汉字类别数得到的向量中第一个位置上的汉字概率分布，h_decode为所述解码器隐藏层参数；w_decode为所述解码器GRU单元的参数，

为所述解码器GRU单元的偏置σ_decode代表所述解码器GRU单元执行每一步运算时进行的操作。用softmax归一化f₁′后取概率最大的标签，对应的文字就是第一个位置上解读出的汉字。

步骤54)对第一个位置之后的汉字的解码采取两种输入方式：

a)采用输入的原始视频对应句子中对应位置上真实的汉字作为下一步输入，这种方式只在训练拼音-汉字编码-解码网络的过程中使用。

b)采用当前的输出对应的汉字作为下一步输入，这种方式在训练拼音-汉字编码-解码网络的过程和预测汉字的过程中均可使用。

上述两种方式在训练过程中通过取0-1间随机数的方式决定使用哪一种，当随机数大于0.5时使用第一种，否则使用第二种。

预测第一个位置之后的汉字过程如下：令输入为y_in，之前解码器的隐藏层参数为

有

解码得到

其中的参数定义与步骤53)中的参数定义一致，对f_n′进行如上处理得到下一个位置上的汉字，当输出为预设终止句柄y_end时，终止解码。

步骤55)使用外源语料(即不来自于原始视频的一串有语义的汉字序列)对拼音-汉字编码-解码网络进行预训练时，使用词向量模型将汉字的onehot编码转化至与图片-拼音LSTM网络输出相同的维度，其他步骤一致。

步骤6)计算每个位置上输出的汉字概率分布f′与真实汉字间的标签的交叉熵作为损失函数，即

其中p′代表当前位置的汉字真实分布用one-hot向量表示，

代表所述解码器预期的当前位置j上汉字概率分布在第i类汉字的概率，N表示汉字的类别数。loss₂表示了解码器输入与真实值的距离，通过最小化loss₂使拼音-汉字编码-解码网络的输出接近真实值，来对拼音-汉字编码-解码网络进行训练，然后对整个两阶段神经网络模型通过反向传播进行联合训练。

步骤7)当训练完成后，对整个两阶段神经网络模型输出进行softmax处理后概率最大的汉字组成的字符串即为汉语唇语识别结果。

进一步地，所述步骤1)中提取唇部区域图像采用了faster-rcnn网络检测唇部区域。

进一步地，步骤2)中的灰度化处理指对唇部区域图像的全部通道对应位置取平均，并缩放到0-1范围内以代替彩色图像。

进一步地，步骤5)使用的拼音-汉字编码-解码网络使用了外源拼音-汉字语料库进行了预训练。

如图1，2所示，在本发明的实施例中，所述步骤1)中首先输入一个包含唇部的单人说话视频，通过faster-rcnn逐帧提取唇部区域，所述区域的提取是指利用预训练过的faster-rcnn网络完成选取的识别和提取，部分代码如图5所示。

所述步骤2)中对截取出的图像进行标准化处理使得图像大小一致，之后再进行灰度化处理，在所有通道上取平均得到灰度图像。最后对于长度不足的视频提取序列，在最后补全0帧(即黑帧)，使得所有样本长度一致。

所述步骤3)中通过卷积神经网络处理提取得到的图片序列，将图片映射为固定大小的特征向量。所述的卷积神经网络包括利用卷积核和激活函数之间的计算传递实现对图片的特征提取。

以上所述仅是本发明的优选实施方式，应当指出，本发明亦可将卷积神经网络和长短期记忆神经网络改为其他编码形式，这些改进也应是为本发明保护范围。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围。凡采用等同替换或等效替换，这些变化是显而易见，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于两阶段神经网络模型的汉语唇语识别方法，其特征在于，所述汉语唇语识别方法采用的两阶段神经网络模型包括双层双向LSTM网络，即图片-拼音LSTM网络层和拼音-汉字编码-解码网络层，通过这两个网络层逐阶段识别汉语唇语；并且所述汉语唇语识别方法具体包括如下步骤：

步骤1)输入原始视频，该原始视频包含带有完整面部的单人说话的说话视频，然后逐帧对所述原始视频逐帧提取唇部区域图像，得到包含唇部区域图像的视频长度个视频帧；

步骤2)将提取到的唇部区域图像缩放到指定大小，进行灰度化处理，将得到的视频帧补齐至指定长度，不足的补全零帧，即黑帧，得到定长的图像序列作为下一步输入；

步骤3)通过3D-2D卷积神经网络，对得到的定长的图像序列进行特征提取，得到唇部特征向量，该3D-2D卷积神经网络包含一层3D卷积层和多层连续的2D卷积层，并且该3D-2D卷积神经网络采用流式传播，即下一层网络使用上一层网络的输出作为输入，并通过卷积核实现输入图像序列的重编码；步骤3)具体包括：

步骤31)给定一个输入的图像序列x＝{x₁,x₂,...,x_m}，其中，x为步骤2)所得的定长的图像序列，x₁,x₂,...,x_m为经过步骤1)特征提取后的单通道视频帧，m为补齐后的视频长度；

为第i个卷积核的参数，对每个卷积核，有

其中，x_j表示输入的视频帧，

表示第i个卷积核对视频帧的卷积操作，其中，i＝1,2,...,n；

步骤33)对于每个y_i进行池化操作，进一步缩小唇部特征大小；

步骤34)重复步骤33)和步骤34)直到唇部特征被充分压缩；

步骤35)对于每个视频帧x_j，得到Y_j＝{y₁,y₂,...,y_n}作为视频帧x_j的唇部特征向量输出，对于整个视频，得到了Y＝{Y₁,Y₂,...,Y_m}；

步骤4)将输入的原始视频提取为特征向量Y后，将Y输入双层双向LSTM网络中进行训练；

步骤41)对于每个输入Y_j，有输出f_j＝σ(A_f×[S_j-1,h_j-1,Y_j]+b_f)，j＝1,2,...,m，S_j-1代表双层双向LSTM网络维护的记忆层参数，h_j-1＝Y_j*f_j-1代表视频帧x_j-1对应的时序位置双层双向LSTM网络的隐藏层状态，用来表示已输入的语义信息在当前时序位置的期望，f_j表示输入Y_j后得到的输出，是一个长度为现有所有拼音类别数Z的向量，即

σ表示双层双向LSTM网络进行每一步计算的操作，A_f表示双层双向LSTM网络单元的参数矩阵，b_f表示双层双向LSTM网络的偏置；

步骤42)利用CTC(Connectionist Temporal Classification)算法计算双层双向LSTM网络输出的概率分布F＝{f₁,f₂,...,f_m}与输入的原始视频对应的拼音的标签向量P＝{p₁,p₂,…,p_k}间的距离D作为损失函数，其中，k表示输入的原始视频对应的拼音序列的长度；所述损失函数loss₁＝-lnΠ_(F,P)δ(f_j|p_i),f_j∈F,p_i∈P，其中F表示双层双向LSTM网络输出的概率分布F＝{f₁,f₂,…,f_m}，P表示输入的原始视频对应的句子经过one-hot处理后得到的拼音的标签向量P＝{p₁,p₂,...,p_k}，f_j表示每个视频帧x_j对应的在拼音上的概率分布，p_i表示视频帧x_j对应的时序位置可能出现的真实拼音的标签，δ表示当前时序位置出现的真实拼音为p_j的情况下，双层双向LSTM网络计算得到f_j的概率，然后通过极大似然分别得到每个视频帧x_j对应概率最大的拼音标签，并计算当前的概率分布F＝{f₁,f₂,…,f_m}与该拼音的标签向量P＝{p₁,p₂,…,p_k}的距离；利用上述损失函数loss₁对双层双向LSTM网络进行反向传播，使距离达到最小进行训练；

步骤5)将双层双向LSTM网络的输出F＝{f₁,f₂,…,f_m}输入到下一层拼音-汉字编码-解码网络中，得到输入的原始视频对应的汉字；具体包括：

步骤51)对单个输出f_j，j＝1,2,...,m取对数之后进行softmax操作，将拼音概率分布映射到0-1区间内，并且所有项概率之和为1；对于f_j中的第i项得到