CN106250829A

CN106250829A - 基于唇部纹理结构的数字识别方法

Info

Publication number: CN106250829A
Application number: CN201610586767.6A
Authority: CN
Inventors: 谭铁牛; 孙哲南; 赫然; 董文恺
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2016-07-22
Filing date: 2016-07-22
Publication date: 2016-12-21

Abstract

本发明公开了一种基于唇部纹理结构的数字识别方法，该方法包括：利用深度学习中卷积神经网络较强的特征提取能力以及长短时记忆网络对时序信息的处理能力，通过卷积神经网络和长短时记忆网络根据视频中对象的唇部运动识别数字。该方法对唇部图像的类内差异，头部姿势变化和非控制环境下的光照变化有较强的鲁棒性，有效地解决了唇语识别技术在交互式活体检测中识别精度不高的问题。该方法可被广泛应用于配有分辨率较高的摄像头的场景，如：中国金融系统的交互式活体检测等。

Description

基于唇部纹理结构的数字识别方法

技术领域

本发明涉及计算机视觉和模式识别技术领域，特别涉及一种基于唇部纹理结构的数字识别方法。

背景技术

利用唇部图像识别数字已经为中国金融系统中活体检测的关键一步。然而，由于唇部图像的类内差异，被检测对象头部姿势的变化以及非控制环境下光照的不同使得这一任务变得困难。要解决这些问题，从视频数据中提取合适的特征表达是关键。

深度学习理论在语音识别、图像目标分类与检测等领域都取得了非常好的效果，尤其是深度卷积神经网络具有非常强的自主学习能力和高度的非线性映射。但是基于卷积神经网络的深度学习特征对时序信息的处理能力不强，现有方法大都是将视频中的空间信息和时间信息分为两个通道输入到网络中。这种方法忽略了视频信息中空间信息与时间信息的内在差异，导致在视频识别领域，只依靠卷积神经网络的分类模型难以取得非常高的识别精度。而长短时记忆网络处理时序信息的能力很强，在视频分类与视频描述等领域取得了很好的效果，这为设计基于卷积神经网络与长短时记忆网络的高精度分类模型提供了可能性。

发明内容

为了解决唇语识别技术在交互式活体检测时精度不高的问题，本发明提出了一种基于唇部纹理结构的数字识别方法，设计了一个基于卷积神经网络和长短时记忆网络的模型。通过卷积神经网络自主学习静止唇部图像的纹理特征，利用长短时记忆网络处理特征序列，更好地利用了视频数据中空间与时间信息，从而识别出视频中人所说的数字。

本发明提出的一种基于唇部纹理结构的数字识别方法的技术方案如下：

一种基于唇部纹理结构的数字识别方法，所述方法包括以下步骤：

步骤S11：对包含单个数字的训练视频提取唇部运动视频帧，并进行人工标注；

步骤S12：截取所述唇部运动视频帧中每帧图像的唇部运动图片；

步骤S13：选取N个唇部运动图片样本送入基于卷积神经网络和长短时记忆网络的模型的特征提取功能模块，提取出每个样本所包含的唇部运动图片相对应的特征，组成特征序列；

步骤S14：将所述步骤S13得到的特征序列送入基于卷积神经网络和长短时记忆网络的模型的感知机功能模块输出识别结果；

步骤S15：计算识别结果与真实结果之间的误差，根据得到的误差训练所述基于卷积神经网络和长短时记忆网络的模型；

步骤S16：重复步骤S13至S15，按顺序循环选取唇部运动图片样本序列，直至所述基于卷积神经网络和长短时记忆网络的模型收敛，得到所述基于卷积神经网络和长短时记忆网络的模型；

步骤S21：对待识别视频提取唇部运动视频帧；

步骤S22：截取所述步骤S21提取到的唇部运动视频帧中每帧图像的唇部运动图片；

步骤S23：选取N个所述步骤S22得到的待识别唇部运动图片序列送入训练好的基于卷积神经网络和长短时记忆网络的模型的特征提取功能模块，提取出待识别视频所包含的唇部运动图片相对应的特征序列；

步骤S24：将所述步骤S23中所得到的特征序列送入基于卷积神经网络和长短时记忆网络的模型的感知机功能模块输出识别结果。

可选地，所述步骤S11进一步包括以下步骤：

步骤S111：将包含单个数字的视频转换成帧；

步骤S112：对于每一帧进行人工标注；

步骤S113：将发音时存在唇部变化的帧挑选出来，得到唇部运动视频帧。

可选地，所述步骤S112中，基于每一帧图片对应的数字进行人工标注。

可选地，所述步骤S12还包括对于唇部运动图片进行尺度归一化的步骤。

可选地，所述步骤S13中，采用前向传播算法提取每个样本所包含的唇部运动图片相对应的特征。

可选地，所述基于卷积神经网络和长短时记忆网络的模型包含特征提取功能模块和感知机功能模块。

可选地，所述步骤S15采用误差反向传播算法，基于识别结果与真实结果之间的误差来训练所述基于卷积神经网络和长短时记忆网络的模型，其中，所述模型通过卷积神经网络自主学习静止唇部图像的纹理特征，利用长短时记忆网络来处理特征序列。

可选地，所述步骤S24中，将所述步骤S23中所得到的特征序列送入基于卷积神经网络和长短时记忆网络的模型计算得到待识别视频中唇部运动与各个数字的唇部运动的相似度，然后依据相似度的大小进行数字识别，得到识别结果。

本发明的有益效果：针对唇语识别技术在交互式活体检测中由于唇部图像的类内差异，头部姿势变化和非控制环境下的光照变化等因素导致识别精度不高的问题，本发明构建了基于卷积神经网络和长短时记忆网络的模型，通过包含多种因素变化的训练视频训练该模型，并优化相应参数，使得训练得到的基于卷积神经网络和长短时记忆网络的模型对以上因素有一定的鲁棒性，在交互式活体检测时具有较高的精度。

附图说明

图1是根据本发明一实施例的基于唇部纹理结构的数字识别方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明构建了基于卷积神经网络和长短时记忆网络的模型，该模型包含特征提取功能模块和感知机功能模块，本发明技术方案具体包括训练过程和测试过程，图1是根据本发明一实施例的基于唇部纹理结构的数字识别方法的流程图，如图1所示，所述方法包括以下步骤：

S1训练过程：

所述步骤S11进一步包括以下步骤：

步骤S111：将包含单个数字的视频转换成帧；

步骤S112：对于每一帧进行人工标注；

该步骤中，基于每一帧图片对应的数字进行人工标注。

步骤S113：将发音时存在唇部变化的帧挑选出来，得到唇部运动视频帧：帧-1、……、帧-i、……、帧-N，其中，帧-1为视频的第一帧，帧-i为视频的第i帧，1≤i≤N，帧-N为视频的最后一帧，N为一预设的数值，比如16。

在本发明一实施例中，所述步骤S12还包括对于唇部运动图片进行尺度归一化的步骤，所述唇部运动图片通过缩放操作可归一化至统一尺度，得到唇部-1、……、唇部-i、……、唇部-N。

步骤S13：选取N个唇部运动图片样本送入基于卷积神经网络和长短时记忆网络的模型的特征提取功能模块，提取出每个样本所包含的唇部运动图片相对应的特征，组成特征序列：特征-1、……、特征-i、……、特征-N；

该步骤中，采用前向传播算法提取每个样本所包含的唇部运动图片相对应的特征，在本发明一实施例中，所述卷积神经网络的参数配置为：第一层有96个7×7的卷积子，步长为2，并带有3×3且步长为2的空间聚集层；第二层有384个5×5的卷积子，步长为2，并带有3×3且步长为2的空间聚集层；第三层有512个3×3的卷积子，步长为1；第四层有512个3×3的卷积子，步长为1；第五层有384个3×3的卷积子，步长为1，并带有3×3且步长为2的空间聚集层。

在本发明一实施例中，所述长短时记忆网络含有256个隐藏单元。

在本发明一实施例中，所述步骤S15采用误差反向传播算法，基于识别结果与真实结果之间的误差来训练所述基于卷积神经网络和长短时记忆网络的模型，所述基于卷积神经网络和长短时记忆网络的模型包含特征提取功能模块和感知机功能模块，其中，所述模型通过卷积神经网络自主学习静止唇部图像的纹理特征，利用长短时记忆网络来处理特征序列。

步骤S16：重复步骤S13至S15，按顺序循环选取唇部运动图片样本序列，直至所述基于卷积神经网络和长短时记忆网络的模型收敛，得到所述基于卷积神经网络和长短时记忆网络的模型。

上述误差反向传播算法主要用于多层模型的训练，其主体是激励传播以及权重更新两个环节的反复迭代，直至达到收敛条件时停止。在激励传播阶段，先将特征序列送入基于卷积神经网络和长短时记忆网络的模型的感知机功能模块输出识别结果，然后将识别结果与真实结果求差，从而获得输出层与监督层的误差。在权重更新阶段，先将已知误差与本层响应对前一层响应的函数的导数相乘，从而获得两层之间权重矩阵的梯度，然后沿着这个梯度的反方向以某个比例调整权重矩阵。随后，将该梯度当作前一层的误差从而计算前一层的权重矩阵。以此类推完成对整个模型的更新。

测试过程，该过程主要利用S1训练过程中训练好的基于卷积神经网络和长短时记忆网络的模型对待识别的视频进行特征提取和相似度计算，从而进行数字识别。

步骤S21：对待识别视频提取唇部运动视频帧；

该步骤可参照步骤S11中所述方法，对待识别的视频提取唇部运动视频帧。

该步骤可参照步骤S12中所述方法，截取所述步骤S21提取到的唇部运动视频帧中每帧图像的唇部运动图片。

所述步骤S24中，将所述步骤S23中所得到的特征序列送入基于卷积神经网络和长短时记忆网络的模型计算得到待识别视频中唇部运动与各个数字的唇部运动的相似度，然后依据相似度的大小进行数字识别，得到识别结果。

如上所述，本发明基于唇部纹理结构的数字识别方法利用深度学习中卷积神经网络较强的特征提取能力以及长短时记忆网络对时序信息的处理能力，通过卷积神经网络和长短时记忆网络根据视频中对象的唇部运动识别数字。该方法对唇部图像的类内差异，头部姿势变化和非控制环境下的光照变化有较强的鲁棒性，有效地解决了唇语识别技术在交互式活体检测中识别精度不高的问题。该方法可被广泛应用于配有分辨率较高的摄像头的场景，如：中国金融系统的交互式活体检测等。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于唇部纹理结构的数字识别方法，其特征在于，所述方法包括以下步骤：

步骤S21：对待识别视频提取唇部运动视频帧；

2.根据权利要求1所述的方法，其特征在于，所述步骤S11进一步包括以下步骤：

步骤S111：将包含单个数字的视频转换成帧；

步骤S112：对于每一帧进行人工标注；

3.根据权利要求2所述的方法，其特征在于，所述步骤S112中，基于每一帧图片对应的数字进行人工标注。

4.根据权利要求1所述的方法，其特征在于，所述步骤S12还包括对于唇部运动图片进行尺度归一化的步骤。

5.根据权利要求1所述的方法，其特征在于，所述步骤S13中，采用前向传播算法提取每个样本所包含的唇部运动图片相对应的特征。

6.根据权利要求1所述的方法，其特征在于，所述基于卷积神经网络和长短时记忆网络的模型包含特征提取功能模块和感知机功能模块。

7.根据权利要求1所述的方法，其特征在于，所述步骤S15采用误差反向传播算法，基于识别结果与真实结果之间的误差来训练所述基于卷积神经网络和长短时记忆网络的模型，其中，所述模型通过卷积神经网络自主学习静止唇部图像的纹理特征，利用长短时记忆网络来处理特征序列。

8.根据权利要求1所述的方法，其特征在于，所述步骤S24中，将所述步骤S23中所得到的特征序列送入基于卷积神经网络和长短时记忆网络的模型计算得到待识别视频中唇部运动与各个数字的唇部运动的相似度，然后依据相似度的大小进行数字识别，得到识别结果。