CN109190479A

CN109190479A - 一种基于混合深度学习的视频序列表情识别方法

Info

Publication number: CN109190479A
Application number: CN201810880749.8A
Authority: CN
Inventors: 张石清; 赵小明; 潘仙张
Original assignee: Taizhou University
Current assignee: Taizhou University
Priority date: 2018-08-04
Filing date: 2018-08-04
Publication date: 2019-01-11

Abstract

本发明公开了一种基于混合深度学习的视频序列表情识别方法。实现步骤为：(1)视频序列的预处理；(2)采用时空卷积神经网络提取视频片段的时空特征；(3)采用深度信念网络实现视频片段上提取的时空特征的深度融合；(4)采用平均池化方法获取视频序列的全局特征；(5)采用支持向量机实现视频序列的表情识别，输出识别结果。本发明可有效提高视频序列表情识别的性能，可用于智能人机交互、智能视频监控等领域。

Description

一种基于混合深度学习的视频序列表情识别方法

技术领域

本发明涉及图像处理、模式识别、人工智能领域，特别是涉及一种基于混合深度学习的视频序列表情识别方法。

背景技术

视频序列中的人脸表情识别是指通过计算机自动识别出视频序列中的人脸脸部的表情状态，从而确定出被识别对象的心理情绪，比如生气、高兴、悲伤、害怕等。该研究在智能人机交互、智能视频监控等领域具有重要的应用价值。

一个基本的视频序列表情识别系统主要有三个步骤：视频预处理、表情特征提取和表情分类。视频预处理主要是从视频中的序列图像中检测并提取出人脸。表情特征提取是指从视频中的人脸图像中提取能够刻画表情的特征参数。表情分类是指把这些提取的表情特征参数输入到一个分类器，从而实现表情的分类任务。

对于一个视频序列表情识别系统，视频序列中的表情特征提取是其中最重要的一个环节。目前，已有文献普遍采用手工特征用于视频序列表情识别。例如，Aleksic等人采用描述嘴唇轮廓和眉毛的运动信息的脸部动画参数(Facial animation parameters，FAPs)作为识别视频序列人脸表情的特征(见文献：Aleksic PS,et al.,Automatic facialexpression recognition using facial animation parameters and multistreamHMMs.IEEE Transactions on Information Forensics and Security,2006,1(1):3-11)。Zhao等人从视频中提取局部二值模式(Local binary Pattern,LBP)，以及它的变种LBP-TOP，作为视频序列中的人脸表情特征使用(见文献：Zhao G,et al.Dynamic texturerecognition using local binary patterns with an application to facialexpressions.IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(6):915-928)。尽管这些手工特征已成功地用于视频序列表情识别，但它们是低层次的，可靠性还不够，因此不能很好地区分视频序列中的人脸表情。

为了解决这个问题，近年来发展起来的深度学习技术可能提供了一个线索。深度学习的动机是建立、模拟人脑进行分析学习的神经网络，其本质是通过组合低层特征形成更加抽象的高层表示属性特征，以发现数据的分布式特征表示。其中，代表性的深度学习方法，主要包括深度卷积神经网络(DCNN)和深度信念网络(DBN)。近年来，DCNN已被应用到视频序列中的表情识别中，因为它能够利用多层次的卷积和池化运算，提取高层次的表情特征用于表情的分类。例如，Acar等人采用一个包含3个卷积层和2个池化层的DCNN结构用于提取人脸表情特征(见文献：Acar E,et al.,A comprehensive study on mid-levelrepresentation and ensemble learning for emotional analysis of videomaterial.Multimedia Tools and Applications,2017,76(9):11809-11837)。张石清等人采用由多个受限玻尔兹曼机(RBM)叠加而成的深度信念网络(DBN)实现针对静态图像的表情识别(见专利：张石清，赵小明.一种基于深度学习的人脸表情识别方法，专利号ZL.2013.1.0676648.6)。

然而，上述文献采用深度学习技术用于视频序列表情识别时，只考虑到提取视频序列中的静态图像的空间特征，并没有考虑到对表情识别有帮助的视频序列中的动态变化特征，如光流信息。为了充分利用视频序列中的时空域信息，本发明提供一种基于混合深度学习的视频序列表情识别方法。该方法首先采用两个深度卷积神经网络模型，即时间卷积神经网络和空间卷积神经网络，分别从视频表情序列中提取高层次的时间特征和空间特征，然后采用深度信念网络实现时空特征的深度融合，并做平均池化运算，得到视频序列的全局特征，最后采用支持向量机实现视频表情序列的分类。

发明内容

本发明的目的就是为了克服上述现有视频序列表情识别技术的不足，提供一种基于混合深度学习的视频序列表情识别方法，以便进一步提高视频序列表情识别的性能。

本发明所采用的技术方案是：

一种基于混合深度学习的视频序列表情识别方法，该方法包含以下技术步骤：

步骤1：视频序列的预处理；

步骤2：采用时空卷积神经网络提取视频片段的时空特征；

步骤3：采用深度信念网络实现视频片段上提取的时空特征的深度融合；

步骤4：采用平均池化方法获取视频序列的全局特征；

步骤5：采用支持向量机实现视频序列的表情识别，输出识别结果。

其中，

(1)视频序列的预处理，包括：

视频序列的分割、视频片段中静态表情图像的预处理、以及视频片段中光流图像的产生。

(1-1)视频序列的分割，包括：

将一个视频序列分割成帧数为L的固定时长的片段，作为后续时间卷积神经网络和空间卷积神经网络的输入。由于L＝16时，时间卷积神经网络取得的效果最好，因此将每个视频表情序列样本分割成帧数为L＝16的固定时长的片段。为了保证每个分割的视频片段的长度为L＝16，当L>16时，删掉该视频序列的前面和后面的(L-16)/2帧，当L<16，复制该视频序列的前面和后面的(16-L)/2帧。

(1-2)视频片段中静态表情图像的预处理，包括：

对一个视频片段中所包含的每帧静态表情图像，采用Viola和Jones的人脸检测算法(见文献：Viola P,Jones M J.Robust real-time face detection.InternationalJournal of Computer Vision,2004,57(2):137-154)实时检测出视频片段中每帧静态的人脸图像。然后，根据两只眼睛之间的标准距离大小(55个像素)，从原始人脸表情图像中裁剪出包含嘴巴、鼻子、额头等关键表情部位的150×110×3大小区域的图像，并缩放到227×227×3，作为空间卷积神经网络的输入。

(1-3)视频片段中光流图像的产生，包括：

对于一个帧数L＝16的视频片段，将包含15帧的光流图像，因为每相邻两帧的空间图像会生成一帧的光流图像。该光流图像代表相邻两帧的相应位置的位移信息，具体计算过程如下所示：

假设视频片段中的相邻两帧t和t+1，位移向量d_t代表该视频片段的位移信息。光流图像I_t由d_tx、d_ty与d_tz三部分组成。其中，d_tx和d_ty作为光流图像I_t的前两个通道，分别代表视频片段中相邻两帧图像位置的水平位移分量和垂直位移分量。考虑到时间卷积神经网络的输入是三个通道的RGB图像，因此计算出光流图像I_t的幅度分量d_tz，即作为I_t的第三个通道。最后将计算得到的光流图像I_t缩放到227×227×3，作为时间卷积神经网络的输入。

(2)采用时空卷积神经网络提取视频片段的时空特征，包括：

基于时间卷积神经网络的视频片段时间特征的提取，与基于空间卷积神经网络的视频片段空间特征的提取两个步骤。

(2-1)基于时间卷积神经网络的视频片段时间特征的提取，包括：

为了减少数据集不足的压力，采用ImageNet数据集上预训练好的AlexNet模型(Krizhevsky A et al.,ImageNet classification with deep convolutional neuralnetworks.NIPS,2012,1097-1105)初始化时间卷积神经网络，即将AlexNet模型的参数全部拷贝到时间卷积神经网络中。该时间卷积神经网络包含5个卷积层、3个池化层、和3个全连接层(fc6,fc7,fc8)。其中，fc6和fc7包含4096个结点，而fc8层是分类层(如softmax)，对应目标数据的类别数目。原始AlexNet模型是针对1000种图像进行分类的，而目标视频序列的表情种类一般只有少数的几种，如常见的6种基本表情。因此，对时间卷积神经网络进行训练时，还需将其fc8层的类别数目改成目标视频序列的表情种类数目。

假设数据集X＝{(a_i,b_i,y_i)}_i＝1,2,…N，i代表该视频片段的第i帧，a_i代表提取出的光流图像，b_i代表视频片段中的静态表情图像，y_i代表该视频片段的表情标签。对于时间卷积神经网络A的训练，目标是使得负的对数似然损失函数H最小化，即：

其中，W^A代表网络A的softmax层的权重值，v^A(b_i；λ^A)代表网络A的fc7层输出的4096维特征，λ^A代表网络A的参数。softmax层的对数损失函数的计算见公式(2)。公式(2)中，y_j ^A代表时间卷积神经网路A的softmax层的第j个输出值，k代表数据集的视频序列的表情类别数目。当完成时间卷积神经网络A的训练之后，网络A的fc7层输出的4096维特征作为时间卷积神经网络提取的高层次的视频片段时间特征，用于后续视频序列表情的分类。

(2-2)基于空间卷积神经网络的视频片段空间特征的提取，包括：

将ImageNet数据集上预训练好的AlexNet模型参数拷贝到空间卷积神经网络中，用于空间卷积神经网络的初始化。该空间卷积神经网络包含5个卷积层、3个池化层、和3个全连接层(fc6,fc7,fc8)。其中，fc6和fc7包含4096个结点，而fc8层是分类层(如softmax)，对应目标数据的类别数目。因此，对空间卷积神经网络进行训练时，还需将其fc8层的类别数目改成目标视频序列的表情种类数目。

对于空间卷积神经网络B的训练，目标是使得负的对数似然损失函数H最小化，即：

其中，W^B代表softmax层的权重值，v^B(b_i；λ^B)代表fc7层输出的4096维特征，λ^B代表网络B的参数。softmax层的对数损失函数的计算见公式(4)。公式(4)中，y_j ^B代表空间卷积神经网路B的softmax层的第j个输出值，k代表数据集的视频序列的表情类别数目。当完成空间卷积神经网络B的训练之后，网络B的fc7层输出的4096维特征作为空间卷积神经网络提取的高层次的视频片段空间特征，用于后续视频序列表情的分类。

(3)采用深度信念网络实现视频片段上提取的时空特征的深度融合，包括：

时空特征的串联和深度信念网络的训练两个步骤。

(3-1)时空特征的串联，包括：

对于一个帧数L＝16的视频片段，包含16帧的静态表情图像和15帧的光流图像。由于视频片段中的相邻两帧之间的静态表情图像相似度较高，因此将一个包含16帧的视频片段的最后一帧静态表情图像进行删掉，从而使得该视频片段上的静态表情图像和光流图像的帧数一致，都是15帧。然后，将空间卷积神经网络、时间卷积神经网络分别在静态表情图像和光流图像学习到的4096维特征进行串联，得到一个8192维的特征向量，用于后续的深度信念网络的时空特征的融合学习。

(3-2)深度信念网络的训练，包括：

预训练(pre-training)和调优(fine-tuning)两个步骤。当完成深度信念网络的训练之后，该网络中的最后一层隐层的输出就是时空特征进行深度融合学习之后的结果。

(3-2-1)深度信念网络的预训练，包括：

采用自下而上的无监督学习方式进行预训练，即使用无标签的样本数据，从底层开始，一层一层的往顶层进行训练。

(3-2-2)深度信念网络的调优，包括：

采用自顶向下的监督学习学习方式进行调优，即使用标签的样本数据进行训练，误差自顶向下传输，对网络进行调优。通过调优之后，使得深度信念网络模型中的每一层隐层的网络权重值都能够达到最优值。

(4)采用平均池化方法获取视频序列的全局特征，包括：

采用平均池化(average-pooling)方法对深度信念网络在15帧的视频片段上学习到的时空融合特征进行平均值计算，从而得到一个固定特征长度的视频序列的全局特征，用于后续采用的视频序列表情分类器的输入。

(5)采用支持向量机实现视频序列的表情识别，输出识别结果，包括：

采用线性支持向量机实现视频序列表情的识别，输出最终的表情识别结果。视频序列表情识别测试时，采用训练和测试对象无关的留一法(Leave-One-Subject-Out，LOSO)交叉验证方式，测试本发明方法的性能，最后取平均识别率作为最终的表情识别结果。

与现有技术相比，本发明的优点和效果在于：

1.为了充分利用视频序列中的时空域信息用于表情识别，在视频序列表情特征提取方面，不仅提取了视频序列中的静态表情图像的空间特征，而且提取了视频序列中的动态变化特征，如光流信息。

2.采用多模深度卷积神经网络方法，如时间卷积神经网络和空间卷积神经网络，分别从视频序列中提取高层次的时间特征和空间特征用于表情识别，不采用低层次的手工特征。

3.为了实现时空特征的深度融合，采用深度信念网络方法用于时空特征的融合学习。

本发明的其他优点将在下面继续描述。

附图说明

图1——基于混合深度学习的视频序列表情识别系统框图。

图2——本发明方法与单独采用空间DCNN特征、时间DCNN特征的视频序列表情正确识别率(％)的比较。

图3——本发明方法与现有方法取得的视频序列表情正确识别率(％)的比较。

图4——RML视频序列表情数据库中人脸表情图像的示例。

图5——本发明方法取得的各种视频序列表情的正确识别率(％)。

具体实施方式

下面结合附图和实施例，对本发明所述的技术方案进一步说明。

图1为本系统框图，主要包括：

步骤1：视频序列的预处理；

步骤2：采用时空卷积神经网络提取视频片段的时空特征；

步骤4：采用平均池化方法获取视频序列的全局特征；

一、本系统框图每一个步骤的实现，结合实施例具体表述如下：

(1)视频序列的预处理

从RML视频序列表情数据库(见文献：Wang Y.and Guan L.,Recognizing humanemotional state from audiovisual signals,IEEE Transaction on Multimedia,2008,10(5):936-946)中，提取生气、高兴、悲伤、惊奇、害怕和讨厌六种视频表情序列，共720个视频样本，由8个人的表情组成。每个视频样本的平均时长有5秒左右。视频中每帧图像的大小为720×480×3。图4是从RML数据集的视频序列中提取的部分人脸表情图像。

(1-1)视频序列的分割，包括：

由于每个RML数据集中的每个视频样本被分割多个固定时长的视频片段作为卷积神经网络的输入，这样就增大了数据集的视频样本数据量。在本测试中，通过这种方法就把720个视频样本变成了12000个视频片段样本。

(1-2)视频片段中静态表情图像的预处理，包括：

(1-3)视频片段中光流图像的产生，包括：

(2)采用时空卷积神经网络提取视频片段的时空特征，包括：

其中，W^B代表softmax层的权重值，v^B(b_i；λ^B)代表fc7层输出的4096维特征，λ^B代表网络B的参数。softmax层的对数损失函数的计算见公式(2)。公式(2)中，y_j ^B代表空间卷积神经网路B的softmax层的第j个输出值，k代表数据集的视频序列的表情类别数目。当完成空间卷积神经网络B的训练之后，网络B的fc7层输出的4096维特征作为空间卷积神经网络提取的高层次的视频片段空间特征，用于后续视频序列表情的分类。

时空特征的串联和深度信念网络的训练两个步骤。

(3-1)时空特征的串联，包括：

(3-2)深度信念网络的训练，包括：

预训练(pre-training)和调优(fine-tuning)两个步骤。当完成深度信念网络的训练之后，该网络中的最后一层隐层的输出就是时空特征融合学习的结果。

(3-2-1)深度信念网络的预训练，包括：

(3-2-2)深度信念网络的调优，包括：

采用自顶向下的监督学习学习方式进行调优，即使用标签的样本数据进行训练，误差自顶向下传输，对网络进行调优。通过调优之后，使得深度信念网络模型中的每一层隐层的网络权重值都能够达到最优值。测试时，采用一个含有三个隐层的深度信念网络结构8192-4096-2048-1024-6，用于实现时空特征的深度融合，最后产生一个1024维的时空特征融合向量。

(4)采用平均池化方法获取视频序列的全局特征，包括：

采用平均池化(average-pooling)方法对深度信念网络在视频片段15帧上学习到的1024维时空融合特征向量进行平均值计算，从而得到一个固定特征长度的视频序列的全局特征，用于后续采用的视频序列表情分类器的输入。

由于RML数据集来源于8个对象，因此采用8次LOSO交叉验证方式，即将所有视频序列表情样本按对象分成8份，每次使用其中的7份数据作为训练样本用于训练，剩下的1份数据作为测试样本用于识别测试。这样的识别实验相应重复8次，最后取8次的平均值作为最终的表情识别结果。

二、识别系统的评价

为了提高视频序列的表情识别结果的可信度，识别中采用训练和测试对象无关的8次LOSO交叉验证方法。

为了说明本发明方法采用时空卷积神经网络提取特征的有效性，图2给出了单独采用空间DCNN特征、单独采用时间DCNN特征、以及本发明方法的视频序列表情识别性能的比较。从图2可以看出，本发明方法采用深度信念网络融合时空DCNN特征取得的正确识别率达到了71.06％，明显优于单独采用空间DCNN特征和时间DCNN特征所取得的性能。

图3给出了本发明方法与其它典型的视频序列表情特征提取方法的性能比较。这些典型的特征提取方法包括Gabor小波特征(见文献：Elmadany N.E.D.,et al.,Multiviewemotion recognition via multi-set locality preserving canonical correlationanalysis,in Proc.ISCAS,2016,590-593)、3D卷积神经网络(3D-CNN)特征(见文献：ZhangS,et al.,Learning affective features with a hybrid deep model for audio-visual emotion recognition.IEEE Transactions on Circuits and Systems forVideo Technology,2017,doi:10.1109/TCSVT.2017.2719043)、局部二元模式(LBP)特征(见文献：Zhang S.,et al.,Multimodal deep convolutional neural network foraudio-visual emotion recognition,in Proc.ICMR,2016,281-284)。从图3可见，本发明方法也明显优于手工特征(Gabor小波特征、LBP特征)，以及3D-CNN特征。这说明了本发明方法的有效性。图5给出了本发明方法取得71.06％的识别性能时的各种视频序列表情类型的正确识别率。其中，图5中对角线粗体数据表示每一种具体的表情类型所获得的正确识别率。

Claims

1.一种基于混合深度学习的视频序列表情识别方法，其特征在于，按如下步骤：

步骤1：视频序列的预处理；

步骤2：采用时空卷积神经网络提取视频片段的时空特征；

步骤4：采用平均池化方法获取视频序列的全局特征；

其中，

(1)视频序列的预处理，包括：

(1-1)视频序列的分割，包括：

(1-2)视频片段中静态表情图像的预处理，包括：

对一个视频片段中所包含的每帧静态表情图像，采用人脸检测算法实时检测出视频片段中每帧静态的人脸图像。然后，根据两只眼睛之间的标准距离大小(55个像素)，从原始人脸表情图像中裁剪出包含嘴巴、鼻子、额头等关键表情部位的150×110×3大小区域的图像，并缩放到227×227×3，作为空间卷积神经网络的输入。

(1-3)视频片段中光流图像的产生，包括：

(2)采用时空卷积神经网络提取视频片段的时空特征，包括：

为了减少数据集不足的压力，采用ImageNet数据集上预训练好的深度学习AlexNet模型初始化时间卷积神经网络，即将AlexNet模型的参数全部拷贝到时间卷积神经网络中。该时间卷积神经网络包含5个卷积层、3个池化层、和3个全连接层(fc6,fc7,fc8)。其中，fc6和fc7包含4096个结点，而fc8层是分类层(如softmax)，对应目标数据的类别数目。原始AlexNet模型是针对1000种图像进行分类的，而目标视频序列的表情种类一般只有少数的几种。因此，对时间卷积神经网络进行训练时，还需将其fc8层的类别数目改成目标视频序列的表情种类数目。

时空特征的串联和深度信念网络的训练两个步骤。

(3-1)时空特征的串联，包括：

(3-2)深度信念网络的训练，包括：

(3-2-1)深度信念网络的预训练，包括：

(3-2-2)深度信念网络的调优，包括：

(4)采用平均池化方法获取视频序列的全局特征，包括：