CN109934158B

CN109934158B - 基于局部强化运动历史图和递归卷积神经网络的视频情感识别方法

Info

Publication number: CN109934158B
Application number: CN201910181136.XA
Authority: CN
Inventors: 葛鹏; 胡敏; 王浩文; 王晓华; 任福继
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2020-03-17
Anticipated expiration: 2039-03-11
Also published as: CN109934158A

Abstract

本发明公开了一种基于局部强化运动历史图和递归卷积神经网络的视频情感识别方法，其步骤包括：1获取静态表情图片数据集和表情视频数据集，并对表情视频数据集进行预处理；2计算局部强化运动历史图LEMHI；3使用静态图片数据集预训练卷积神经网络VGG16模型；4使用LEMHI微调预训练完成的VGG16模型，得到LEMHI‑CNN模型；5将视频帧输入预训练完成的VGG16模型中提取空间特征；6将空间特征进行堆叠分片、池化后对LSTM神经网络模型进行训练，得到CNN‑LSTM模型；7将LEMHI‑CNN模型和CNN‑LSTM模型的识别结果进行加权融合即得到最终识别结果。本发明能显著提高视频情感识别率。

Description

基于局部强化运动历史图和递归卷积神经网络的视频情感识别方法

技术领域

本发明涉及到卷积神经网络，循环神经网络和分类判别，属于模式识别领域，具体地说是一种基于双流神经网络的视频情感识别方法。

背景技术

传统的人机交互，主要通过键盘、鼠标、屏幕等方式，只追求方便和准确，无法理解和适应人们的情绪和心境。如果没有这种理解和表达情感的能力，计算机很难具有类似人一样的智能。情感识别是赋予计算机类似于人一样的观察、理解和产生各种情感特征的能力，最终使计算机能够像人一样能自然、亲切、生动地进行交流、相互。

国内外研究视频情感识别一般分为三个步骤：

(1)人脸表情图片序列截取。该步骤可以抛弃图像中无用的背景信息，使得相关研究集中到所需关注的核心区域中来。

(2)情感特征提取。使用3D卷积核提取时空特征，要想提取出时序距离更远的帧与帧之间的联系，则需要将2D卷积神经网络与循环神经网络相结合。

(3)视频情感的最终分类识别。目前常用的分类方法为在神经网络的输出层中加入Softmax层来生成最终的分类结果。

然而研究表明，针对面部表情识别、人脸检测等人脸相关问题，将原始图像作为输入，并不能很好地利用视频中的运动信息，使得网络的分类能力不高。并且由于表情视频数据集中数据量较少，很容易使得网络过拟合。

发明内容

本发明为克服现有技术的不足之处，提出一种基于局部强化运动历史图和递归卷积神经网络的视频情感识别方法，以期能准确地识别出人的面部表情，判断出人的情感，从而能显著提高视频情感识别率，使得计算机能够像人一样能自然、亲切、生动地进行交流、相互。

本发明为解决技术问题采用如下技术方案：

本发明一种基于局部强化运动历史图和递归卷积神经网络的视频情感识别方法的特点是按如下步骤进行：

步骤1、获取静态表情图片数据集和表情视频数据集，并对所述表情视频数据集进行预处理，得到预处理后的表情训练图片数据集，记为V＝{v₁,v₂,…,v_t,…,v_T}，v_t表示第t帧表情训练图片，且第t帧表情训练图片v_t的大小为Y×Y，1≤t≤T，T表示表情图片训练数据集V内的图片总帧数；

步骤2、计算局部强化运动历史图：

步骤2.1、计算第t帧表情训练图片v_t和第t+1帧表情训练图片v_t+1的绝对灰度差分图像D_t；

步骤2.2、利用dlib工具从第t帧表情训练图片v_t中检测人脸特征点，并生成第t帧特征点集合

表示第t帧特征点集合中第n个特征点，1≤n≤N，N表示第t帧特征点集合S_t内的特征点总数；

获取所述第t帧特征点集合中第n个特征点

周围的像素区域并作为特征点窗口，记为

从而得到特征点窗口集合

步骤2.3、记第t帧表情训练图片v_t中任意一个像素点为v_t(x,y)，0≤x≤Y且0≤y≤Y；计算像素点v_t(x,y)与特征点窗口集合B_t中的每个特征点窗口的曼哈顿距离，并将最小曼哈顿距离记为d_t(x,y)；

步骤2.4、利用式(1)得到像素点v_t(x,y)的特征点模板m_t(x,y)，从而得到第t帧表情训练图片v_t的特征点模板M_t：

式(1)中，α表示阈值，β表示权值；

步骤2.5、将特征点模板M_t与绝对灰度差分图像D_t做哈达玛积计算，得到强化后的差分图像E_t；

步骤2.6、采用迭代法获取强化后的差分图像E_t的灰度阈值U：

步骤2.6.1、求出差分图像E_t的最大灰度值

和最小灰度值

步骤2.6.2、求出最大灰度值

和最小灰度值

的均值，将均值设置为阈值U；

步骤2.6.3、根据阈值U将差分图像E_t分为前景和背景；

步骤2.6.4、分别求出前景和背景的平均灰度值；

步骤2.6.5、求取前景和背景的平均灰度值之间的平均值

步骤2.6.6、令平均值

为阈值U，并重复步骤2.6.3执行，直到阈值U不再变化为止，从而得到灰度阈值；

步骤2.7、利用灰度阈值U过滤差分图像E_t中未强化部分区域的运动变化，从而得到二值图像ψ_t，再利用式(2)更新局部强化运动历史图Η_t，从而得到局部强化运动历史图Η_T-1：

式(2)中，τ表示持续时间，δ表示衰退参数；当t＝1时，

步骤3、使用静态表情图片数据集对卷积神经网络模型VGG16进行预训练，得到预训练完成的卷积神经网络模型VGG16；

步骤4、将局部强化运动历史图Η_T-1输入所述预训练完成的卷积神经网络模型VGG16中用于对网络模型进行微调，得到微调后的卷积神经网络模型VGG16及LEMHI-CNN网络的最终分类结果A；

步骤5、提取空间特征：

步骤5.1、从预处理后的表情训练图片数据集V中等间隔按序抽取Q帧表情训练图片，记为V′＝{v′₁,v′₂,…,v′_q,…,v′_Q}，v′_q表示抽取的第q帧表情训练图片，1≤q≤Q；

步骤5.2、将抽取的Q帧表情训练图片依次输入所述预训练完成的卷积神经网络模型VGG16中用于逐帧提取空间特征，从而得到Q个空间特征{F₁,F₂,…,F_q,…,F_Q}，F_q表示抽取的第q帧表情训练图片v′_q的空间特征；

步骤6、空间特征的堆叠分片、池化和模型的训练：

步骤6.1、按照所设定的交叉步长ε将Q个空间特征{F₁,F₂,…,F_q,…,F_Q}进行堆叠分片处理，得到K片空间特征矩阵，记为{J₁,J₂,…,J_k,…,J_K}，J_k表示第k片空间特征矩阵，且第k片空间特征矩阵J_k包含

个空间特征；

步骤6.2、对第k片空间特征矩阵J_k进行池化操作，得到池化后的空间特征矩阵J′_k；从而得到池化后的K片空间特征矩阵{J′₁,J′₂,…,J′_k,…,J′_K}；

步骤6.3、将池化后的K片空间特征矩阵{J′₁,J′₂,…,J′_k,…,J′_K}按时序输入到长短期记忆网络模型LSTM中，得到CNN-LSTM网络的最终输出结果h；

步骤6.4、将最终输出结果h输入Softmax多分类器中得到最终分类结果G；

步骤7、利用式(3)对所述LEMHI-CNN网络的最终分类结果A和CNN-LSTM网络的最终分类结果G进行加权融合，得到最终识别结果I：

I＝wA+(1-w)G (3)

式(3)中，w为随机搜索方法所确定的决策权值，且0≤w≤1。

与已有技术相比，本发明的有益效果体现在：

1、本发明利用人脸运动历史图像作为手工提取特征，同时结合了人脸特征点，对人脸关键部位的运动进行放大，将得到的局部强化运动历史图作为神经网络的输入进行分类，分类结果与CNN-LSTM模型的分类结果进行决策级融合，得到最终识别结果，从而显著提高了识别准确率。

2、本发明中的CNN网络VGG16使用静态表情图片数据集进行预训练，可以有效防止现有技术中由于训练数据量少以及网络过深引起的过拟合的问题，从而提高了网络的泛化能力。

3、本发明利用人脸运动历史图像作为手工提取特征，同时结合人脸特征点，对人脸关键部位的运动进行放大，将得到的局部强化运动历史图作为神经网络的输入进行分类，相比于现有技术中将原始图像作为输入，这种手工特征提取方法提取出的特征作为卷积神经网络的输入有效地提升了卷积神经网络的分类能力。

4、本发明对LEMHI-CNN和CNN-LSTM这两个网络模型的预测结果采用权重随机搜索的方法加权融合，克服了现有技术中无法很好地利用视频中的运动信息的问题，从而一方面可以有效捕捉人脸特殊部位的运动变化，另一方面可以捕捉局部强化过程中丢失的人脸非关键部位的时空特征，显著提高了神经网络的预测准确性。

附图说明

图1为本发明方法的流程图；

图2是VGG16网络的具体结构图。

具体实施方式

本实施例中，如图1所示，一种基于局部强化运动历史图和递归卷积神经网络的视频情感识别方法，包括如下步骤：获取静态表情图片数据集和表情视频数据集，对视频进行数据扩充，并对表情视频数据集进行预处理。再计算局部强化运动历史图(LEMHI)。使用静态图片数据集预训练卷积神经网络(VGG16)模型，模型结构如图2所示；然后使用LEMHI微调预训练完成的VGG16模型，得到LEMHI-CNN模型。同时将视频帧输入预训练完成的VGG16模型中提取空间特征，并将空间特征进行堆叠分片、池化后对CNN-LSTM神经网络模型进行训练。最终将LEMHI-CNN模型和CNN-LSTM模型的识别结果进行加权融合即得到最终识别结果。本发明显著地提高了视频情感识别率。具体的说，包括如下步骤：

步骤1、获取静态表情图片数据集如JAFFE，SFEW，FER2013和表情视频数据集如AFEW，MMI和CK+，并对表情视频数据集进行预处理，得到预处理后的表情训练图片数据集，记为V＝{v₁,v₂,…,v_t,…,v_T}，v_t表示第t帧表情训练图片，且第t帧表情训练图片v_t的大小为Y×Y，1≤t≤T，T表示表情图片训练数据集V内的图片总帧数；预处理具体包括：视频帧序列截取、人脸检测与对齐、将处理后的图片全部裁剪成固定大小Y*Y、数值归一化。

步骤2、计算局部强化运动历史图：

获取第t帧特征点集合中第n个特征点

周围的像素区域并作为特征点窗口，记为

从而得到特征点窗口集合

式(1)中，α表示阈值，β表示权值；

步骤2.6、采用迭代法获取强化后的差分图像E_t的灰度阈值U：

步骤2.6.1、求出差分图像E_t的最大灰度值

和最小灰度值

步骤2.6.2、求出最大灰度值

和最小灰度值

的均值，将均值设置为阈值U；

步骤2.6.3、根据阈值U将差分图像E_t分为前景和背景；

步骤2.6.4、分别求出前景和背景的平均灰度值；

步骤2.6.5、求取前景和背景的平均灰度值之间的平均值

步骤2.6.6、令平均值

式(2)中，τ表示持续时间，δ表示衰退参数；当t＝1时，

步骤3、使用静态表情图片数据集FER2013对卷积神经网络模型VGG16进行预训练，得到预训练完成的卷积神经网络模型VGG16；

步骤4、将局部强化运动历史图Η_T-1输入预训练完成的卷积神经网络模型VGG16中用于对网络模型进行微调，本实例中锁定VGG16的前面若干层参数，在训练网络的时候只更新后面层的参数，有效地加快网络的收敛速度。在优化网络的时候只更新后面若干层的参数，这可以有效地加快网络的收敛速度。最终得到微调后的卷积神经网络模型VGG16及LEMHI-CNN网络的最终分类结果A；

步骤5、提取空间特征：

步骤5.2、将抽取的Q帧表情训练图片依次输入预训练完成的卷积神经网络模型VGG16中用于逐帧提取空间特征，从而得到Q个空间特征{F₁,F₂,…,F_q,…,F_Q}，F_q表示抽取的第q帧表情训练图片v′_q的空间特征；

步骤6、空间特征的堆叠分片、池化和模型的训练：

个空间特征；

步骤6.3、将池化后的K片空间特征矩阵{J′₁,J′₂,…,J′_k,…,J′_K}按时序输入到长短期记忆网络模型LSTM中，得到CNN-LSTM网络的最终输出结果h；本实例中所选的LSTM网络结构为单层128神经元。

步骤7、利用式(3)对LEMHI-CNN网络的最终分类结果A和CNN-LSTM网络的最终分类结果G进行加权融合，得到最终识别结果I：

I＝wA+(1-w)G (3)

式(3)中，w为随机搜索方法所确定的决策权值，且0≤w≤1。具体步骤为：

步骤7.1、先在[0,1]中等间隔选取100000个值，获得使得I最大的权值w。

步骤7.2、对权值w进行局部随机搜索，缩小搜索的区域，把搜索范围缩小到以w为平均值、标准差σ为0.5的高斯分布范围内，等间隔选取100000个值，获得使得I最大的权值

步骤7.3、令

为决策权值w，将σ乘上一个衰退系数0.9，并重复步骤7.2执行，直到σ小于0.0001.得到最终的决策权值w。