CN111178157A

CN111178157A - 一种基于音调的级联序列到序列模型的中文唇语识别方法

Info

Publication number: CN111178157A
Application number: CN201911259483.6A
Authority: CN
Inventors: 宋明黎; 赵雅; 许睿
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-05-19

Abstract

一种基于音调的级联序列到序列模型的中文唇语识别方法，包含如下步骤：1)准备实验数据；2)建立拼音序列预测子模型；3)训练拼音序列预测子模型；4)建立音调序列预测子模型；5)训练音调序列预测子模型；6)建立汉字序列预测子模型；7)训练汉字序列预测子模型；8)建立唇语识别模型；9)训练唇语识别模型；10)获得中文唇语识别结果。本发明针对中文语言特点，将音调信息引入到中文唇语识别问题中，提出了一种基于音调的级联序列到序列模型的中文唇语识别方法。通过依次预测拼音序列、音调序列和汉字序列挖掘汉字语言特征，并将多个阶段的预测结果融合起来共同预测汉字序列，从而提高唇语识别准确率。

Description

一种基于音调的级联序列到序列模型的中文唇语识别方法

技术领域

本发明属于唇语识别技术领域，针对中文语言特点，提出了一种基于音调的级联序列到序列模型的中文唇语识别方法。

背景技术

唇语识别旨在从视频中观察人嘴唇运动，从而识别出对应的文本内容。唇语识别技术在辅助语音识别、公共安全分析、动画口型合成以及身份认证等领域均有广阔的应用前景。唇语识别在计算机视觉研究中具有很大的挑战性，因为大多数的嘴唇运动是无法直接观察到的，比如舌头的运动，这导致看似相同的嘴唇运动却可以产生不同的内容。

随着深度学习的发展，针对英语的唇语识别方法取得了很大的进步。但是，作为使用者最多的语言，很少有针对中文的唇语识别工作。LipCH-Net是第一篇句子级别的中文普通话唇语识别论文。LipCH-Net使用两个深度神经网络模型来执行“视频到拼音”的识别以及“拼音到汉字”的识别，然后执行联合优化以提高整体性能。

中文和英文属于两个不同的语言体系，他们之间存在着很多差异。其中最显著的一点是：中文是声调语言，而英语不是。声调的使用加大了中文唇语识别的难度，即使两个词语在发音时从表情上看起来是相同，它们也可能具有不同的音调，因此具有不同的含义。因此，声调是提高中文普通话唇语识别准确率的一个重要因素。

发明内容

本发明要克服现有唇语识别技术没有充分考虑中文语言特征的缺点，提出一种基于音调的级联序列到序列模型的中文唇语识别方法。

一种基于音调的级联序列到序列模型的中文唇语识别方法，包括如下步骤：

1)实验数据准备；

使用中文唇语识别数据集的视频部分，利用现有人脸检测和人脸关键点检测方法，从视频图像序列中定位人脸，并检测人脸关键点。利用仿射变换，将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐。截取对齐后的人脸图像的下半部分，并将彩色图转化为灰度图。以滑动窗口的方式制作唇部图像序列，窗口大小为5帧为1组，步长为2帧。用x＝[x₁,x₂,…,x_I]表示唇部图像序列，I为序列长度。利用汉字转拼音工具，获取中文唇语识别数据集中的目标汉字序列y＝[y₁,y₂,…y_J]对应的拼音序列p＝[p₁,p₂,…p_J]和音调序列t＝[t₁,t₂,…t_J]。

2)拼音序列预测子模型的建立；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]，构建基于注意力机制的序列到序列模型。应用于拼音序列的基于注意力机制的序列到序列模型包含如下3个模块：图像特征提取模块、视频编码模块、拼音解码模块。

图像特征提取模块：采用卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取

f_i＝CNN(x_i) (1)

视频编码模块：采用循环神经网络(RNN)对每一步输入图像特征进行时序特征的提取：

其中

为第i时刻视频编码模块的隐藏层特征。

拼音解码模块：采用循环神经网络(RNN)，基于视频编码模块的隐藏层特征和已解码生成的拼音序列，预测当前时间步的拼音：

其中

为第i时刻音频解码模块的隐藏层特征,MLP为多层感知机，Attention(·,·)为上下文注意力权重计算函数，具体表示如下：

3)拼音序列预测子模型的训练；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]，构建拼音序列预测子模型的误差损失函数，利用神经网络反向传导优化算法，通过不断的输入、输出、误差计算、反向传导误差的网络优化过程，对拼音序列预测子模型进行训练。误差损失函数如下所示：

L_p＝-∑_ilogP(p_i|p_＜i,x) (7)

4)音调序列预测子模型的建立；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]、和音调序列t＝[t₁,t₂,…t_J]，构建基于注意力机制的序列到序列模型。应用于音调序列的基于注意力机制的序列到序列模型包含如下4个模块：图像特征提取模块、视频编码模块、拼音编码模块和音调解码模块。

图像特征提取模块：与拼音序列预测子模型中的图像特征提取模块相同。

视频编码模块：与拼音序列预测子模型中的视频编码模块相同。

拼音编码模块：采用循环神经网络(RNN)对每一步输入音频进行时序特征的提取：

其中

为第i时刻拼音编码模块的隐藏层特征。

音调解码模块:采用循环神经网络(RNN)，基于视频编码模块的隐藏层特征、拼音编码模块的隐藏层特征和已解码生成的音调序列，预测当前时间步的音调：

其中

为第i时刻音调解码模块的隐藏层特征,MLP为多层感知机，Attention(·,·)为上下文注意力权重计算函数。

5)音调序列预测子模型的训练；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]、和音调序列t＝[t₁,t₂,…t_J]，构建音调序列预测子模型的误差损失函数，利用神经网络反向传导优化算法，通过不断的输入、输出、误差计算、反向传导误差的网络优化过程，对音调序列预测子模型进行训练。误差损失函数如下所示：

L_t＝-∑_ilogP(t_i|t_＜i,x,p) (13)

6)汉字序列预测子模型的建立；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]、音调序列t＝[t₁,t₂,…t_J]和目标汉字序列y＝[y₁,y₂,…y_J]，构建基于注意力机制的序列到序列模型。应用于汉字序列预测的基于注意力机制的序列到序列模型包含如下5个模块：图像特征提取模块、视频编码模块、拼音编码模块、音调编码模块和汉字解码模块。

拼音编码模块：与音调序列预测子模型中的拼音编码模块相同。

音调编码模块：采用循环神经网络(RNN)对每一步输入音调进行时序特征的提取：

其中

为第i时刻音调编码模块的隐藏层特征。

汉字解码模块：采用循环神经网络(RNN)，基于视频编码模块的隐藏层特征、拼音编码模块的隐藏层特征、音调编码模块的隐藏层特征和已解码生成的汉字序列，预测当前时间步的汉字：

其中

为第i时刻汉字解码模块的隐藏层特征,MLP为多层感知机，Attention(·,·)为上下文注意力权重计算函数。

7)汉字序列预测子模型的训练；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]、音调序列t＝[t₁,t₂,…t_J]和目标汉字序列y＝[y₁,y₂,…y_J]，构建汉字序列预测子模型的误差损失函数，利用神经网络反向传导优化算法，通过不断的输入、输出、误差计算、反向传导误差的网络优化过程，对汉字序列预测子模型进行训练。误差损失函数如下所示：

L_c＝-∑_ilogP(c_i|c_＜i,x,p,t) (20)

8)唇语识别模型的建立；

将上述拼音序列预测子模型的拼音解码模块输出作为汉字序列预测子模型拼音编码模块的输入，即：

将上述音调序列预测子模型的音调解码模块输出作为汉字序列预测子模型音调编码模块的输入，即：

其中MLP为多层感知机。

9)唇语识别模型的训练；

L＝L_p+L_t+L_c (23)

10)获得中文唇语识别结果；

根据所述训练所述学习后的唇语识别模型，使用集束搜索对语音识别模型每一时间步的预测概率进行解码，解码识别出至少4种唇语结果，按得分顺序对所述至少4种唇语结果进行得分排序，选择得分最高的唇语结果做为解码识别结果，识别出唇语结果。

本方法首先利用汉字转拼音工具，生成汉字序列对应的拼音序列和音调序列；其次，利用视频序列和拼音序列，训练拼音预测子网络；然后，利用视频序列、拼音序列和音调序列，训练音调预测子网络；然后，利用视频序列、拼音序列、音调序列和汉字序列，训练汉字预测子网络；最后，将拼音预测子网络预测的拼音和音调预测子网络预测的音调，送入汉字预测子网络中，构成唇语识别总网络，进行端到端的训练。通过以上五个主要步骤，本发明充分考虑到汉字语言特征，极大的提升了中文唇语识别的准确率。

本发明具有的有益的效果是：本发明针对中文语言特点，将音调信息引入到中文唇语识别问题中，提出了一种基于音调的级联序列到序列模型的中文唇语识别方法。通过依次预测拼音序列、音调序列和汉字序列挖掘汉字语言特征，并将多个阶段的预测结果融合起来共同预测汉字序列，从而提高唇语识别准确率。

附图说明

图1是本发明的拼音序列预测子模型。

图2是本发明的音调序列预测子模型。

图3是本发明的汉字序列预测子模型。

图4是本发明的唇语识别总模型。

图5是本发明方法的流程图。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

本发明的一种基于音调的级联序列到序列模型的中文唇语识别方法，包含以下步骤：

1)实验数据准备；

使用中文唇语识别数据集的视频部分，利用现有人脸检测和人脸关键点检测方法，从视频图像序列中定位人脸，并检测人脸关键点。利用仿射变换，将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐。截取对齐后的人脸图像的下半部分，缩放至64*128，并将彩色图转化为灰度图。以滑动窗口的方式制作唇部图像序列，窗口大小为5帧为1组，步长为2帧。用x＝[x₁,x₂,…,x_I]表示唇部图像序列，I为序列长度。利用汉字转拼音工具，获取中文唇语识别数据集中的目标汉字序列y＝[y₁,y₂,…y_J]对应的拼音序列p＝[p₁,p₂,…p_J]和音调序列t＝[t₁,t₂,…t_J]。

2)拼音序列预测子模型的建立；

图像特征提取模块：采用VGG-M卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取

f_i＝CNN(x_i) (1)

VGG-M卷积神经网络参数如下：

名称	滤波器大小	步长
			2维卷机层	[3×3,96]	[1,1]
2维池化层	[3×3]	[2,2]
			2维卷积层	[3×3,256]	[1,1]
2维池化层	[3×3]	[2,2]
			2维卷积层	[3×3,512]	[1,1]
2维卷积层	[3×3,512]	[1,1]
			2维卷积层	[3×3,512]	[1,1]
2维池化层	[3×3]	[2,2]

其中

为第i时刻视频编码模块的隐藏层特征。循环神经网络采用两层双向的门控循环单元(GRU)，其隐藏层维度为256。

其中拼音解码模块的循环神经网络采用两层单向的门控循环单元(GRU)，隐藏层维度为512。MLP为两层的多层感知机，第一层维度为1024，第二层维度为512。

为第i时刻音频解码模块的隐藏层特征,Attention(·,·)为上下文注意力权重计算函数，具体表示如下：

3)拼音序列预测子模型的训练；

L_p＝-∑_ilogP(p_i|p_＜i,x) (7)

4)音调序列预测子模型的建立；

其中

为第i时刻拼音编码模块的隐藏层特征。循环神经网络采用两层双向的门控循环单元(GRU)，其隐藏层维度为256。

其中音调解码模块的循环神经网络采用两层单向的门控循环单元(GRU)，隐藏层维度为512。MLP为两层的多层感知机，第一层维度为1536，第二层维度为512。

为第i时刻音调解码模块的隐藏层特征,Attention(·,·)为上下文注意力权重计算函数。

5)音调序列预测子模型的训练；

L_t＝-∑_ilogP(t_i|t_＜i,x,p) (13)

6)汉字序列预测子模型的建立；

其中

为第i时刻音调编码模块的隐藏层特征。循环神经网络采用两层双向的门控循环单元(GRU)，其隐藏层维度为256。

其中音调解码模块的循环神经网络采用两层单向的门控循环单元(GRU)，隐藏层维度为512。MLP为两层的多层感知机，第一层维度为2048，第二层维度为512。

为第i时刻汉字解码模块的隐藏层特征,Attention(·,·)为上下文注意力权重计算函数。

7)汉字序列预测子模型的训练；

L_c＝-∑_ilogP(c_i|c_＜i,x,p,t) (20)

8)唇语识别模型的建立；

其中MLP为层数为2的多层感知机，第一层维度为1536，第二层维度为512。

其中MLP为层数为2的多层感知机，第一层维度为2048，第二层维度为512。

9)唇语识别模型的训练；

L＝L_p+L_t+L_c (23)

10)获得中文唇语识别结果；

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于音调的级联序列到序列模型的中文唇语识别方法，包含以下步骤：

1)准备实验数据；

使用中文唇语识别数据集的视频部分，利用现有人脸检测和人脸关键点检测方法，从视频图像序列中定位人脸，并检测人脸关键点；利用仿射变换，将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐；截取对齐后的人脸图像的下半部分，并将彩色图转化为灰度图；以滑动窗口的方式制作唇部图像序列，窗口大小为5帧为1组，步长为2帧；用x＝[x₁,x₂,…,x_I]表示唇部图像序列，I为序列长度；利用汉字转拼音工具，获取中文唇语识别数据集中的目标汉字序列y＝[y₁,y₂,…y_J]对应的拼音序列p＝[p₁,p₂,…p_J]和音调序列t＝[t₁,t₂,…t_J]；

2)建立拼音序列预测子模型；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]，构建基于注意力机制的序列到序列模型；应用于拼音序列的基于注意力机制的序列到序列模型包含如下3个模块：图像特征提取模块、视频编码模块、拼音解码模块；

f_i＝CNN(x_i) (1)

其中

为第i时刻视频编码模块的隐藏层特征；

其中

3)训练拼音序列预测子模型；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]，构建拼音序列预测子模型的误差损失函数，利用神经网络反向传导优化算法，通过不断的输入、输出、误差计算、反向传导误差的网络优化过程，对拼音序列预测子模型进行训练；误差损失函数如下所示：

L_p＝-∑_ilog P(p_i|p_＜i,x) (7)

4)建立音调序列预测子模型；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]、和音调序列t＝[t₁,t₂,…t_J]，构建基于注意力机制的序列到序列模型；应用于音调序列的基于注意力机制的序列到序列模型包含如下4个模块：图像特征提取模块、视频编码模块、拼音编码模块和音调解码模块；

图像特征提取模块：与拼音序列预测子模型中的图像特征提取模块相同；

视频编码模块：与拼音序列预测子模型中的视频编码模块相同；

其中

为第i时刻拼音编码模块的隐藏层特征；

其中

为第i时刻音调解码模块的隐藏层特征,MLP为多层感知机，Attention(·,·)为上下文注意力权重计算函数；

5)训练音调序列预测子模型；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]、和音调序列t＝[t₁,t₂,…t_J]，构建音调序列预测子模型的误差损失函数，利用神经网络反向传导优化算法，通过不断的输入、输出、误差计算、反向传导误差的网络优化过程，对音调序列预测子模型进行训练；误差损失函数如下所示：

L_t＝-∑_ilog P(t_i|t_＜i,x,p) (13)

6)建立汉字序列预测子模型；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]、音调序列t＝[t₁,t₂,…t_J]和目标汉字序列y＝[y₁,y₂,…y_J]，构建基于注意力机制的序列到序列模型；应用于汉字序列预测的基于注意力机制的序列到序列模型包含如下5个模块：图像特征提取模块、视频编码模块、拼音编码模块、音调编码模块和汉字解码模块；

拼音编码模块：与音调序列预测子模型中的拼音编码模块相同；

其中

为第i时刻音调编码模块的隐藏层特征；

其中

为第i时刻汉字解码模块的隐藏层特征,MLP为多层感知机，Attention(·,·)为上下文注意力权重计算函数；

7)训练汉字序列预测子模型；

用唇部图像序列x＝[x₁,x₂,…,x_I]及其对应拼音序列p＝[p₁,p₂,…p_J]、音调序列t＝[t₁,t₂,…t_J]和目标汉字序列y＝[y₁,y₂,…y_J]，构建汉字序列预测子模型的误差损失函数，利用神经网络反向传导优化算法，通过不断的输入、输出、误差计算、反向传导误差的网络优化过程，对汉字序列预测子模型进行训练；误差损失函数如下所示：

L_c＝-∑_ilog P(c_i|c_＜i,x,p,t) (20)

8)建立唇语识别模型；

其中MLP为多层感知机；

9)训练唇语识别模型；

L＝L_p+L_t+L_c (23)

10)获得中文唇语识别结果；