CN110751016A

CN110751016A - 用于情绪状态监测的面部运动单元双流特征提取方法

Info

Publication number: CN110751016A
Application number: CN201910823132.7A
Authority: CN
Inventors: 丁帅; 李莹辉; 杨善林; 曲丽娜; 孙晓; 王林杰; 岳子杰; 陶靖
Original assignee: Hefei Polytechnic University; China Astronaut Research and Training Center
Current assignee: Hefei Polytechnic University; China Astronaut Research and Training Center
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2020-02-04
Anticipated expiration: 2039-09-02
Also published as: CN110751016B

Abstract

本申请提供一种用于情绪状态监测的面部运动单元双流特征提取方法，其中，利用第一卷积神经网络和循环神经网络，确定每种预设面部子区域图像对应的第一图像时空特征信息，利用第二卷积神经网络对每种预设面部子区域对应的光流图进行降维和时空特征提取，确定每种预设面部子区域对应的第二时空特征信息，基于每种预设面部子区域对应的第一图像时空特征信息和所有第二图像时空特征信息，确定监测个体的情绪状态分布。本申请同步提取面部视频帧序列的光流和特征图流，充分考虑到图像中面部区域的空间特征及在相邻帧间运动的时间特征，解决了传统算法提取的语义特征重复的缺陷，简化了计算步骤从而降低计算时间复杂度，提高了计算的效率和准确度。

Description

用于情绪状态监测的面部运动单元双流特征提取方法

技术领域

本申请涉及心理和数据处理领域，具体涉及一种用于情绪状态监测的面部运动单元双流特征提取方法。

背景技术

情绪，是对一系列主观认知经验的通称，是多种感觉、思想和行为综合产生的心理和生理状态。最普遍、通俗的情绪有喜、怒、哀、惊、恐、爱等，也有一些细腻微妙的情绪，例如嫉妒、惭愧、羞耻、自豪等。情绪常和心情、性格、脾气、目的等因素互相作用，也受到荷尔蒙和神经递质影响。无论正面还是负面的情绪，都是引发人们行动的动机。尽管一些情绪引发的行为看上去没有经过思考，但实际上意识是产生情绪重要的一环。可见关注个体的情绪特征对于进行情绪引导和人们的安全能够起到非常重要的作用。

目前，分析个体的情绪特征的技术方案中，大多需要先根据人脸结构特征建立人脸区域划分模板，再根据模板匹配和OpenCV提供的眼睛、嘴巴分类模型等算法划分面部区域，在实际应用过程中较容易受到外部光线、肤色的影响，同时当面部角度偏离直视角度时划分效果较差，导致确定的情绪特征准确度低。同时，时间特征与空间特征提取的方法大多是分开进行的，空间特征大多包含HOG特征、Gabor特征、LBP特征等，提取多种特征往往会导致特征内容的重复。时间特征大多采用光流法，并通过PCA、LDA等方式实现特征降维，最终将时空特征融合。此类完全将时间空间特征分开提取再融合的方式由于集成了多种不同的算法，计算量过大，计算过程复杂，不能满足实时性的要求。

发明内容

(一)解决的技术问题

针对现有技术的不足，本申请提供了一种用于情绪状态监测的面部运动单元双流特征提取方法，解决了上述技术问题中的至少一个。

(二)技术方案

为实现以上目的，本申请通过以下技术方案予以实现：

第一方面，本申请提供了一种用于情绪状态监测的面部运动单元双流特征提取方法，包括：

获取包含目标个体面部的待处理视频；

基于人脸检测器从待处理视频中提取目标个体的面部区域视频；

针对面部区域视频中的每张面部区域图像，对该面部区域图像进行分割，分别得到每种预设面部子区域对应的图像；

针对每种预设面部子区域，利用第一卷积神经网络提取该预设面部子区域对应的每张图像中的图像空间特征信息，并按照该预设面部子区域对应的每张图像的时间先后顺序，依次将该预设面部子区域对应的每张图像的图像空间特征信息输入循环神经网络，利用所述循环神经网络提取输入的图像空间特征信息中时间特征信息，得到该预设面部子区域对应的第一图像时空特征信息；

针对每种预设面部子区域，按照该预设面部子区域对应的每张图像的时间先后顺序，依次将相邻图像形成的光流图输入第二卷积神经网络，利用第二卷积神经网络提取每相邻两张图像对应的第二时空特征信息；

针对每种预设面部子区域，利用全连接网络对该预设面部子区域对应的第一图像时空特征信息和所有的第二图像时空特征信息进行降维、加权和全连接处理，得到该预设面部子区域对应的目标特征特征信息；

针对每种预设面部子区域，确定与该预设面部子区域对应的目标特征特征信息匹配的标准情绪信息；其中，每种预设面部子区域均分别预先设置有至少一种标准情绪信息；

基于每种预设面部子区域对应的标准情绪信息，确定所述目标个体对应的情绪状态信息。

在一种可能的实施方式中，所述针对面部区域视频中的每张面部区域图像，对该面部区域图像进行分割，分别得到每种预设面部子区域对应的图像，包括：

针对面部区域视频中的每张面部区域图像，利用AUU-NET卷积神经网络对该面部区域图像进行分割，分别得到每种预设面部子区域对应的图像；其中所述AUU-NET卷积神经网络包括收缩路径和扩张路径，所述收缩路径包括至少一个运动单元残差模块，所述扩张路径包括至少一个运动单元残差模块，所述运动单元残差模块包括卷积层、正则化层和激活层，用于对输入信息和输出信息进行加权融合，确定运动单元残差模块最终的输出信息。

在一种可能的实施方式中，所述运动单元残差模块的输出为：

式中，y为运动单元残差模块最终的输出信息，x为运动单元残差模块的输入信息，f(x)为输入信息经过运动单元残差模块的卷积层、正则化层和激活层后的运算结果，

为基于输入信息对运算结果f(x)加权后的计算结果。

在一种可能的实施方式中，所述预设面部子区域的类型包括以下至少一种：

眼部状态类型、眉毛状态类型、面颊状态类型、嘴部状态类型。

在一种可能的实施方式中，所述基于人脸检测器从待处理视频中提取目标个体的面部区域视频，包括：

利用dlib人脸检测器，从待处理视频中提取目标个体的面部区域视频。

在一种可能的实施方式中，所述循环神经网络为LSTM循环神经网络。

在一种可能的实施方式中，所述第一卷积神经网络为Alexnet网络结构，包括5个卷积层、3个池化层和2个全连接层；

第二卷积神经网络为VGGNet-16网络结构，包含13个卷积层，5个池化层，2个全连接层。

在一种可能的实施方式中，所述第二时空特征信息包括目标个体的微表情信息。

在一种可能的实施方式中，所述标准情绪信息包括FACS的46种预设面部子区域所对应的情绪信息。

第二方面，本申请提供了一种用于情绪状态监测的面部运动单元双流特征提取系统，包括：

视频采集模块，用于获取包含目标个体面部的待处理视频；

视频提取模块，用于基于人脸检测器从待处理视频中提取目标个体的面部区域视频；

图像分割模块，用于针对面部区域视频中的每张面部区域图像，对该面部区域图像进行分割，分别得到每种预设面部子区域对应的图像；

第一图像特征提取模块，用于针对每种预设面部子区域，利用第一卷积神经网络提取该预设面部子区域对应的每张图像中的图像空间特征信息，并按照该预设面部子区域对应的每张图像的时间先后顺序，依次将该预设面部子区域对应的每张图像的图像空间特征信息输入循环神经网络，利用所述循环神经网络提取输入的图像空间特征信息中时间特征信息，得到该预设面部子区域对应的第一图像时空特征信息；

第二图像特征提取模块，用于针对每种预设面部子区域，按照该预设面部子区域对应的每张图像的时间先后顺序，依次将相邻图像形成的光流图输入第二卷积神经网络，利用第二卷积神经网络提取每相邻两张图像对应的第二时空特征信息；

目标图像特征确定模块，用于针对每种预设面部子区域，利用全连接网络对该预设面部子区域对应的第一图像时空特征信息和所有的第二图像时空特征信息进行降维、加权和全连接处理，得到该预设面部子区域对应的目标特征特征信息；

情绪分析处理模块，用于针对每种预设面部子区域，确定与该预设面部子区域对应的目标特征特征信息匹配的标准情绪信息；其中，每种预设面部子区域均分别预先设置有至少一种标准情绪信息；基于每种预设面部子区域对应的标准情绪信息，确定所述目标个体对应的情绪状态信息。

(三)有益效果

本申请提供了一种用于情绪状态监测的面部运动单元双流特征提取方法。具备以下有益效果：

本申请首先确定每种预设面部子区域对应的图像，之后利用第一卷积神经网络和循环神经网络，确定每种预设面部子区域对应的第一图像时空特征信息，利用第二卷积神经网络对每种预设面部子区域对应的光流图进行处理，确定每种预设面部子区域对应的第二时空特征信息，之后，利用全连接网络对每种预设面部子区域对应的第一图像时空特征信息和所有的第二图像时空特征信息进行降维、加权和全连接处理，得到每种预设面部子区域对应的目标特征特征信息，最后，利用每种预设面部子区域对应的目标特征特征信息确定所述目标个体对应的情绪状态信息。上述技术方案同步提取视频序列的光流和特征图流，充分考虑到每帧图像中关注区域的空间特征及其在相邻帧中变化的时间特征，解决了传统算法提取的语义特征重复等缺陷，降低了计算量，简化了计算步骤，提高了计算的效率和准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性的示出了本申请一实施例的用于情绪状态监测的面部运动单元双流特征提取方法的流程图；

图2A示意性的示出了AUU-NET卷积神经网络的结构示意图；

图2B示意性的示出了AUU-NET卷积神经网络中的Aures-block的结构示意图；

图3示意性的示出了双流特征提取的示意图；

图4示意性的示出了本申请一实施例的情绪状态监测的面部运动单元双流特征提取系统的框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有技术中的在确定目标个体的情绪特征中的存在的计算量大，计算步骤繁琐，计算的效率低下和准确度低的缺陷，本申请提供了一种用于情绪状态监测的面部运动单元双流特征提取方法，该方法集成了深度双流神经网络模型，通过光流和特征图流两通道提取单帧图像的空间特征以及相邻帧图像中光流特征和卷积特征图变化特征，相比于现有技术中的方案，通过神经网络的方式可以更好的提取图像中的时序和空间信息。

具体地，如图1所示，本申请的用于情绪状态监测的面部运动单元双流特征提取方法，包括如下步骤：

S110、获取包含目标个体面部的待处理视频；基于人脸检测器从待处理视频中提取目标个体的面部区域视频。

本步骤中，基于人脸检测器从待处理视频中提取目标个体的面部区域视频，包括：利用dlib人脸检测器，从待处理视频中提取目标个体的面部区域视频。

本步骤中，可以利用可见光摄像头实时拍摄待处理视频。

S120、针对面部区域视频中的每张面部区域图像，对该面部区域图像进行分割，分别得到每种预设面部子区域对应的图像。

上述预设面部子区域的类型包括以下至少一种：眼部状态类型、眉毛状态类型、面颊状态类型、嘴部状态类型。

本步骤中，所述针对面部区域视频中的每张面部区域图像，对该面部区域图像进行分割，分别得到每种预设面部子区域对应的图像，具体可以利用如下步骤实现：

上述运动单元残差模块的输出为：

式中，y为运动单元残差模块最终的输出信息，x为运动单元残差模块的输入信息，f(x)为输入信息经过运动单元残差模块的卷积层、正则化层和激活层后的运算结果，为基于输入信息对运算结果f(x)加权后的计算结果。

本步骤中，AUU-NET的结构如图2A、2B所示。其中Aures-block为上述运动单元残差模块。AUU-NET允许原始输入信息和每个Aures-block的输入信息可以直接传输到后面的层中，避免了由于网络层的堆叠导致的梯度消失问题，此外，每个Aures-block块中的输入信息和输出信息进行加权融合，采用这样的注意力加权方式不会给网络增加额外的训练参数，并且保证输出特征图中的空间特征更好地被神经网络学习到。利用AUU-NET的网络可以得到眉毛、眼睛、面颊、嘴部等人脸关注区域的精确定位。

本步骤可以基于面部动作编码系统(FACS)定义的46个人脸运动单元及对应区域，以AUU-NET神经网络为基准分割人脸运动区域。

S130、针对每种预设面部子区域，利用第一卷积神经网络提取该预设面部子区域对应的每张图像中的图像空间特征信息，并按照该预设面部子区域对应的每张图像的时间先后顺序，依次将该预设面部子区域对应的每张图像的图像空间特征信息输入循环神经网络，利用所述循环神经网络提取输入的图像空间特征信息中时间特征信息，得到该预设面部子区域对应的第一图像时空特征信息。

如图3所示，上述循环神经网络为LSTM循环神经网络。

第一卷积神经网络为Alexnet网络结构，包括5个卷积层、3个池化层和2个全连接层。

单帧图像，即上述该预设面部子区域对应的一张图像，作为面部空间特征的载体，包含了眉毛倾斜角度、嘴角角度、额头皱起程度等空间信息，对于此类数据先通过卷积神经网络实现空间特征的提取与降维。随后采用LSTM提取图像序列中包含嘴角变化轨迹、眉毛运动轨迹在内的时间信息，并将时间空间信息整合降维组合成该序列的时空特征，即上述第一图像时空特征信息。

S140、针对每种预设面部子区域，按照该预设面部子区域对应的每张图像的时间先后顺序，依次将相邻图像形成的光流图输入第二卷积神经网络，利用第二卷积神经网络提取每相邻两张图像对应的第二时空特征信息。

如图3所示，上述第二卷积神经网络为VGGNet-16网络结构，包含13个卷积层，5个池化层，2个全连接层。第二时空特征信息包括目标个体的微表情信息。

上述VGGnet卷积神经网络中，用于理解面部微表情微动作的动态特征。

S150、针对每种预设面部子区域，利用全连接网络对该预设面部子区域对应的第一图像时空特征信息和所有的第二图像时空特征信息进行降维、加权和全连接处理，得到该预设面部子区域对应的目标特征信息。

将两个不同通道的网络输出通过concatenate层连接融合形成特征描述符并利用全连接网络降维，确定目标特征信息。

S160、针对每种预设面部子区域，确定与该预设面部子区域对应的目标特征信息匹配的标准情绪信息；其中，每种预设面部子区域均分别预先设置有至少一种标准情绪信息。

标准情绪信息包括FACS的46种预设面部子区域所对应的情绪信息。

本步骤可以利用softmax函数将目标特征信息与AU单元对应。

上述确定与该预设面部子区域对应的目标特征信息匹配的标准情绪信息为目标特征信息匹配FACS定义的46种运动单元中所涉及的面部运动特征，通过随机梯度下降的方式，利用交叉熵损失函数完成整个网络的训练过程。

S170、基于每种预设面部子区域对应的标准情绪信息，确定所述目标个体对应的情绪状态信息。

这里的情绪状态信息可以是一些预先设定的信息组合。本步骤将每种预设面部子区域对应的标准情绪信息与情绪状态信息对应。

本步骤参考FACS定义的动作单元详解，分析出现不同目标特征信息时该对象的当情绪状态，如出现AU1运动单元：即眉头上扬、额头出现抬头纹、眉毛整体形状改变、内眼角眉眼距离增加时该对象的情绪状态应为惊讶或恐惧；出现AU24运动单元：即双唇按压、下唇凸起时该对象的情绪状态应为焦虑。

对应于上述方法，本申请还用公开了一种用于情绪状态监测的面部运动单元双流特征提取系统，如图4所示，包括：

视频采集模块410，用于获取包含目标个体面部的待处理视频；

视频提取模块420，用于基于人脸检测器从待处理视频中提取目标个体的面部区域视频；

图像分割模块430，用于针对面部区域视频中的每张面部区域图像，对该面部区域图像进行分割，分别得到每种预设面部子区域对应的图像；

第一图像特征提取模块440，用于针对每种预设面部子区域，利用第一卷积神经网络提取该预设面部子区域对应的每张图像中的图像空间特征信息，并按照该预设面部子区域对应的每张图像的时间先后顺序，依次将该预设面部子区域对应的每张图像的图像空间特征信息输入循环神经网络，利用所述循环神经网络提取输入的图像空间特征信息中时间特征信息，得到该预设面部子区域对应的第一图像时空特征信息；

第二图像特征提取模块450，用于针对每种预设面部子区域，按照该预设面部子区域对应的每张图像的时间先后顺序，依次将相邻图像形成的光流图输入第二卷积神经网络，利用第二卷积神经网络提取每相邻两张图像对应的第二时空特征信息；

目标图像特征确定模块460，用于针对每种预设面部子区域，利用全连接网络对该预设面部子区域对应的第一图像时空特征信息和所有的第二图像时空特征信息进行降维、加权和全连接处理，得到该预设面部子区域对应的目标特征特征信息；

情绪分析处理模块470，用于针对每种预设面部子区域，确定与该预设面部子区域对应的目标特征特征信息匹配的标准情绪信息；其中，每种预设面部子区域均分别预先设置有至少一种标准情绪信息；基于每种预设面部子区域对应的标准情绪信息，确定所述目标个体对应的情绪状态信息。

上述用于情绪状态监测的面部运动单元双流特征提取方法，利用第一卷积神经网络和循环神经网络，确定每种预设面部子区域图像对应的第一图像时空特征信息，利用第二卷积神经网络对每种预设面部子区域对应的光流图进行降维和时空特征提取，确定每种预设面部子区域对应的第二时空特征信息，基于每种预设面部子区域对应的第一图像时空特征信息和所有第二图像时空特征信息，确定监测个体的情绪状态分布。本申请同步提取面部视频帧序列的光流和特征图流，充分考虑到图像中面部区域的空间特征及在相邻帧间运动的时间特征，解决了传统算法提取的语义特征重复的缺陷，简化了计算步骤从而降低计算时间复杂度，提高了计算的效率和准确度。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种用于情绪状态监测的面部运动单元双流特征提取方法，其特征在于，包括：

获取包含目标个体面部的待处理视频；

针对每种预设面部子区域，利用全连接网络对该预设面部子区域对应的第一图像时空特征信息和所有的第二图像时空特征信息进行降维、加权和全连接处理，得到该预设面部子区域对应的目标特征信息；

针对每种预设面部子区域，确定与该预设面部子区域对应的目标特征信息匹配的标准情绪信息；其中，每种预设面部子区域均分别预先设置有至少一种标准情绪信息；

2.根据权利要求1所述的方法，其特征在于，所述针对面部区域视频中的每张面部区域图像，对该面部区域图像进行分割，分别得到每种预设面部子区域对应的图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述运动单元残差模块的输出为：

4.根据权利要求1所述的方法，其特征在于，所述预设面部子区域的类型包括以下至少一种：

5.根据权利要求1所述的方法，其特征在于，所述基于人脸检测器从待处理视频中提取目标个体的面部区域视频，包括：

6.根据权利要求1所述的方法，其特征在于，所述循环神经网络为LSTM循环神经网络。

7.根据权利要求1所述的方法，其特征在于，所述第一卷积神经网络为Alexnet网络结构，包括5个卷积层、3个池化层和2个全连接层；

8.根据权利要求1所述的方法，其特征在于，所述第二时空特征信息包括目标个体的微表情信息。

9.根据权利要求1所述的方法，其特征在于，所述标准情绪信息包括FACS的46种预设面部子区域所对应的情绪信息。