CN110765839B

CN110765839B - 可见光面部图像的多路信息融合及人工智能情绪监测方法

Info

Publication number: CN110765839B
Application number: CN201910823603.4A
Authority: CN
Inventors: 丁帅; 李莹辉; 杨善林; 李志利; 李霄剑; 曲丽娜; 岳子杰; 周万隆
Original assignee: Hefei University of Technology; China Astronaut Research and Training Center
Current assignee: Hefei University of Technology; China Astronaut Research and Training Center
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2022-02-22
Anticipated expiration: 2039-09-02
Also published as: CN110765839A

Abstract

本申请提供一种可见光面部图像的多路信息融合及人工智能情绪监测方法，其中，本方法基于面部图像中预设特征点集群确定第一概率特征向量，同时利用卷积神经网络确定图像级的第二概率特征向量，进而结合图像序列间的时间信息生成情绪特征矩阵，此外，基于预设面部子区域图像以及相邻帧间光流图确定第三概率特征向量，对上述三个概率特征向量进行特征融合从而获取融合特征向量，最终基于上述三个概率特征向量、情绪特征矩阵和融合特征向量，确定监测个体的情绪状态分布。本申请利用上述三条分析通路处理面部视频，挖掘面部图像的空间及帧间时间特征，针对不同维度的特征进行全面分析及有效融合，保证高效分析的同时提高了情绪状态监测的精确度。

Description

可见光面部图像的多路信息融合及人工智能情绪监测方法

技术领域

本申请涉及心理和数据处理领域，具体涉及一种可见光面部图像的多路信息融合及人工智能情绪监测方法。

背景技术

情绪，是对一系列主观认知经验的通称，是多种感觉、思想和行为综合产生的心理和生理状态。最普遍、通俗的情绪有喜、怒、哀、惊、恐、爱等，也有一些细腻微妙的情绪，例如嫉妒、惭愧、羞耻、自豪等。情绪常和心情、性格、脾气、目的等因素互相作用，也受到荷尔蒙和神经递质影响。无论正面还是负面的情绪，都是引发人们行动的动机。尽管一些情绪引发的行为看上去没有经过思考，但实际上意识是产生情绪重要的一环。可见关注个体的情绪特征对于进行情绪引导和人们的安全能够起到非常重要的作用。

目前，分析个体的情绪特征的技术方案中，都是从不同的角度分析，无法将从各个角度确定的情绪特征有效融合，并且会忽略面部微特征等信息对情绪产生的影响，造成确定的情绪特征准确度低。

发明内容

(一)解决的技术问题

针对现有技术的不足，本申请提供了一种可见光面部图像的多路信息融合及人工智能情绪监测方法，解决了现有技术中无法有效融合各个角度确定的情绪特征的缺陷，提高了确定的情绪特征的准确度。

(二)技术方案

为实现以上目的，本申请通过以下技术方案予以实现：

本申请提供了一种可见光面部图像的多路信息融合及人工智能情绪监测方法，包括：

获取包含目标个体面部的待处理视频；所述待处理视频包括多帧视频图像；

基于人脸检测器从待处理视频中提取目标个体的面部区域视频；所述面部区域视频包括多帧面部视频图像；

针对面部区域视频中的每帧面部视频图像，基于人脸检测器定位该面部视频图像中的多个预设特征点中每个预设特征点，并基于每个预设特征点的位置确定该面部视频图像对应的第一概率特征向量；所述第一概率特征向量用于表征目标个体针对每种预设标准情绪的第一概率分布；

针对面部区域视频中的每帧面部视频图像，将该面部视频图像输入第一卷积神经网络，利用所述第一卷积神经网络确定该面部视频图像对应的第二概率特征向量；所述第二概率特征向量用于表征目标个体针对每种预设标准情绪的第二概率分布；

基于每帧面部视频图像对应的所有第二概率特征向量以及每帧图像对应的时间，生成目标个体的情绪特征矩阵；

针对面部区域视频中的每帧面部视频图像，对该面部视频图像进行分割，分别得到每种预设面部子区域对应的图像；

针对每种预设面部子区域，利用第二卷积神经网络和循环神经网络对该预设面部子区域对应的每帧图像进行处理，确定该预设面部子区域对应的第一图像时空特征信息；

针对每种预设面部子区域，利用第三卷积神经网络对每相邻两帧图像形成的光流图进行处理，确定该预设面部子区域对应的多个第二时空特征信息；

针对每种预设面部子区域，利用第一全连接网络对该预设面部子区域对应的第一图像时空特征信息和所有的第二图像时空特征信息进行处理，得到该预设面部子区域对应的目标特征信息；

针对每种预设面部子区域，确定与该预设面部子区域对应的目标特征信息匹配的标准情绪信息；其中，每种预设面部子区域均分别预先设置有至少一种标准情绪信息；

基于每种预设面部子区域对应的标准情绪信息，确定第三概率特征向量；所述第三概率特征向量用于表征目标个体针对每种预设标准情绪的第三概率分布；

基于所有的第一概率特征向量、所有的第二概率特征向量、第三概率特征向量，确定融合特征向量，并基于所有的第一概率特征向量、所有的第二概率特征向量、第三概率特征向量、情绪特征矩阵和融合特征向量，确定目标个体的目标情绪信息。

在一种可能的实施方式中，所述基于所有的第一概率特征向量、所有的第二概率特征向量、第三概率特征向量，确定融合特征向量，并基于所有的第一概率特征向量、所有的第二概率特征向量、第三概率特征向量、情绪特征矩阵和融合特征向量，确定目标个体的目标情绪信息，包括：

利用第二全连接网络，对所有的第一概率特征向量、所有的第二概率特征向量、第三概率特征向量进行处理，得到融合特征向量；

利用第一分类器对所述融合特征向量进行处理，得到第一初始情绪分类信息；

利用第三全连接网络对所有的第一概率特征向量进行处理，并利用第二分类器对处理后的向量进行处理，得到第二初始情绪分类信息；

利用第四全连接网络对所有的第二概率特征向量、情绪特征矩阵进行处理，并利用第三分类器对处理后的信息进行处理，得到第三初始情绪分类信息；

利用第五全连接网络对第三概率特征向量进行处理，并利用第四分类器对处理后的向量进行处理，得到第四初始情绪分类信息；

基于第一初始情绪分类信息、第二初始情绪分类信息、第三初始情绪分类信息、第四初始情绪分类信息，确定目标个体的目标情绪信息。

在一种可能的实施方式中，所述基于每个预设特征点的位置确定该面部视频图像对应的第一概率特征向量，包括：

基于每两个预设特征点之间的位置，确定每两个预设特征点之间的距离和角度；

基于每个预设特征点的位置、每两个预设特征点之间的距离和每两个预设特征点之间的角度，确定该面部视频图像对应的第一概率特征向量。

在一种可能的实施方式中，所述第一卷积神经网络为densenet网络结构的卷积神经网络。

在一种可能的实施方式中，所述利用第二卷积神经网络和循环神经网络对该预设面部子区域对应的每帧图像进行处理，确定该预设面部子区域对应的第一图像时空特征信息，包括：

利用第二卷积神经网络提取该预设面部子区域对应的每帧图像中的图像空间特征信息，并按照该预设面部子区域对应的每帧图像的时间先后顺序，依次将该预设面部子区域对应的每帧图像的图像空间特征信息输入循环神经网络，利用所述循环神经网络提取输入的图像空间特征信息中时间特征信息，得到该预设面部子区域对应的第一图像时空特征信息。

在一种可能的实施方式中，所述利用第三卷积神经网络对每相邻两帧图像形成的光流图进行处理，确定该预设面部子区域对应的多个第二时空特征信息，包括：

按照该预设面部子区域对应的每帧图像的时间先后顺序，依次将相邻图像形成的光流图输入第三卷积神经网络，利用第三卷积神经网络提取每相邻两帧图像对应的第二时空特征信息。

在一种可能的实施方式中，所述利用第一全连接网络对该预设面部子区域对应的第一图像时空特征信息和所有的第二图像时空特征信息进行处理，得到该预设面部子区域对应的目标特征信息，包括：

利用第一全连接网络对该预设面部子区域对应的第一图像时空特征信息和所有的第二图像时空特征信息进行降维、加权和全连接处理，得到该预设面部子区域对应的目标特征信息。

(三)有益效果

本申请提供了一种可见光面部图像的多路信息融合及人工智能情绪监测方法。具备以下有益效果：

本申请基于面部视频图像中预设特征点确定第一概率特征向量，利用卷积神经网络确定图像级别的第二概率特征向量，基于第二概率特征向量以及每帧图像对应的时间生成情绪特征矩阵，基于面部视频图像中预设面部子区域对应的图像以及对应的光流图确定第三概率特征向量，基于第一概率特征向量、第二概率特征向量、第三概率特征向量，确定融合特征向量，并基于第一概率特征向量、第二概率特征向量、第三概率特征向量、情绪特征矩阵和融合特征向量，确定目标个体的目标情绪信息。本申请利用上述三种分析通道处理面部视频图像，分别通过面部特征点提取、图像级面部视频图像序列分析和面部运动单元组合状态等方面提取面部空间和时间特征，充分编码面部时空信息，针对面部不同维度的特征进行有效融合，相比于传统方法确定的情绪特征更精确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性的示出了本申请一实施例的可见光面部图像的多路信息融合及人工智能情绪监测方法的流程图；

图2示意性的示出了本申请中densenet网络结构的示意图；

图3A示意性的示出了AUU-NET卷积神经网络的结构示意图；

图3B示意性的示出了AUU-NET卷积神经网络中的Aures-block的结构示意图；

图4示意性的示出了双流特征提取的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有技术中确定的确定的情绪特征准确度低的缺陷，本申请公开了一种可见光面部图像的多路信息融合及人工智能情绪监测方法，该方法利用三种分析通道处理面部视频图像，提取面部空间和时间特征，针对面部不同维度的特征进行有效融合，提高了确定的情绪特征精确度。具体地，如图1所示，上述可见光面部图像的多路信息融合及人工智能情绪监测方法，包括如下步骤：

S110、获取包含目标个体面部的待处理视频；所述待处理视频包括多帧视频图像；基于人脸检测器从待处理视频中提取目标个体的面部区域视频；所述面部区域视频包括多帧面部视频图像。

本步骤中，通过可见光摄像头实时采集目标个体的待处理视频。基于dlib人脸检测器在视频中标定、提取面部区域视频。

S120、针对面部区域视频中的每帧面部视频图像，基于人脸检测器定位该面部视频图像中的多个预设特征点中每个预设特征点，并基于每个预设特征点的位置确定该面部视频图像对应的第一概率特征向量；所述第一概率特征向量用于表征目标个体针对每种预设标准情绪的第一概率分布。

上述预设特征点可以是dlib预定义68个面部特征点。

本步骤中，基于每个预设特征点的位置确定该面部视频图像对应的第一概率特征向量，包括：

基于每两个预设特征点之间的位置，确定每两个预设特征点之间的距离和角度；基于每个预设特征点的位置、每两个预设特征点之间的距离和每两个预设特征点之间的角度，确定该面部视频图像对应的第一概率特征向量。

本步骤根据dlib人脸检测器找到面部预定义的68个特征点，并根据特征点相对距离、相对角度等识别规则生成相关情绪概率分布，即第一概率分布，如17-21号特征点距离面部顶框与面部框高度的比值越小，说明眉毛上扬角度高，该对象当前处于惊讶和开心得情绪状态概率高。

S130、针对面部区域视频中的每帧面部视频图像，将该面部视频图像输入第一卷积神经网络，利用所述第一卷积神经网络确定该面部视频图像对应的第二概率特征向量；所述第二概率特征向量用于表征目标个体针对每种预设标准情绪的第二概率分布；基于每帧面部视频图像对应的所有第二概率特征向量以及每帧图像对应的时间，生成目标个体的情绪特征矩阵。

本步骤中，第一卷积神经网络为densenet网络结构的卷积神经网络。

本步骤使用卷积神经网络实现图像级情绪状态判定，并生成第二概率特征向量。

本步骤实现图像级面部特征提取，其中，网络层的计算公式如下：

x_l＝H_l([x₀，x₁，...，x_l-1])

其中x_l为第l层的输出，H_l为第l层的卷积运算，[x₀，x₁，...，x_l-1]表示将第O到l-1层的特征图连接后的结果，这种连接方式使得特征和梯度的传递更加有效，网络的训练效率和精度都有所提升，Densenet的网络架构如图2所示。

本步骤将面部视频拆分为单帧图像序列，将单帧图像分别输入到densenet网络中，经过模型运算得到图像级的情绪状态概率分布组合，即上述第二概率分布，并以此形成不同时刻的情绪特征矩阵。

S140、针对面部区域视频中的每帧面部视频图像，对该面部视频图像进行分割，分别得到每种预设面部子区域对应的图像；针对每种预设面部子区域，利用第二卷积神经网络和循环神经网络对该预设面部子区域对应的每帧图像进行处理，确定该预设面部子区域对应的第一图像时空特征信息。

本步骤中，基于分割网络划分包括眉毛、嘴巴在内的面部运动区域，即上述预设面部子区域。

本步骤中，利用第二卷积神经网络和循环神经网络对该预设面部子区域对应的每帧图像进行处理，确定该预设面部子区域对应的第一图像时空特征信息，可以利用如下步骤实现：

上述所述循环神经网络为LSTM循环神经网络。

第二卷积神经网络为Alexnet网络结构，包括5个卷积层、3个池化层和2个全连接层。

S150、针对每种预设面部子区域，利用第三卷积神经网络对每相邻两帧图像形成的光流图进行处理，确定该预设面部子区域对应的多个第二时空特征信息。

本步骤中，利用第三卷积神经网络对每相邻两帧图像形成的光流图进行处理，确定该预设面部子区域对应的多个第二时空特征信息，可以利用如下步骤实现：

上述第三卷积神经网络为VGGNet-16网络结构，包含13个卷积层，5个池化层，2个全连接层。第二时空特征信息包括目标个体的微表情信息。

上述VGGnet卷积神经网络中，用于理解面部微表情微动作的动态特征。

S160、针对每种预设面部子区域，利用第一全连接网络对该预设面部子区域对应的第一图像时空特征信息和所有的第二图像时空特征信息进行处理，得到该预设面部子区域对应的目标特征信息。

本步骤中，利用第一全连接网络对该预设面部子区域对应的第一图像时空特征信息和所有的第二图像时空特征信息进行处理，得到该预设面部子区域对应的目标特征信息，可以利用如下步骤：

将两个不同通道的网络输出通过concatenate层连接融合形成特征描述符并利用全连接网络降维，确定目标特征信息。

S170、针对每种预设面部子区域，确定与该预设面部子区域对应的目标特征信息匹配的标准情绪信息；其中，每种预设面部子区域均分别预先设置有至少一种标准情绪信息；基于每种预设面部子区域对应的标准情绪信息，确定第三概率特征向量；所述第三概率特征向量用于表征目标个体针对每种预设标准情绪的第三概率分布。

标准情绪信息包括FACS的46种预设面部子区域所对应的情绪信息。

本步骤可以利用softmax函数将目标特征信息与AU单元对应。

上述确定与该预设面部子区域对应的目标特征信息匹配的标准情绪信息为目标特征信息匹配FACS定义的46种运动单元中所涉及的面部运动特征，通过随机梯度下降的方式，利用交叉熵损失函数完成整个网络的训练过程。

步骤S140-S170首先基于分割网络划分包括眉毛、嘴巴在内的预设面部子区域，对于不同预设面部子区域的图像分别采用预训练的双流神经网络提取时空特征，如图4所示，由于单帧图像是面部空间特征的载体，因此需先通过第二卷积神经网络实现空间特征的提取与降维，随后采用LSTM循环神经网络提取图像序列中的时间信息，并将时间空间信息整合降维成该序列的时空特征；其次将视频中相邻帧的光流图作为时序信息的另一个载体输入到光流网络中，用于理解面部微表情微动作的动态特征；最终将两个不同通道的网络输出整合形成特征描述符，用于对应FACS定义的46种运动单元，并根据运动单元的组合状态判定其当前情绪状态，即确定标准情绪信息，并基于每种预设面部子区域对应的标准情绪信息，确定第三概率特征向量。

步骤S140-S170基于面部的连续视频帧，定位预设面部子区域并提取区域相关运动状态，使用双流神经网络判定是否符合FACS定义的运动单元，并根据运动单元组合状态生成情绪状态概率，即第三概率特征向量。

S180、基于所有的第一概率特征向量、所有的第二概率特征向量、第三概率特征向量，确定融合特征向量，并基于所有的第一概率特征向量、所有的第二概率特征向量、第三概率特征向量、情绪特征矩阵和融合特征向量，确定目标个体的目标情绪信息。

本步骤中，具体可以利用如下步骤实现：

步骤一、利用第二全连接网络，对所有的第一概率特征向量、所有的第二概率特征向量、第三概率特征向量进行处理，得到融合特征向量。

步骤二、利用第一分类器对所述融合特征向量进行处理，得到第一初始情绪分类信息。

步骤三、利用第三全连接网络对所有的第一概率特征向量进行处理，并利用第二分类器对处理后的向量进行处理，得到第二初始情绪分类信息。

步骤四、利用第四全连接网络对所有的第二概率特征向量、情绪特征矩阵进行处理，并利用第三分类器对处理后的信息进行处理，得到第三初始情绪分类信息。

步骤五、利用第五全连接网络对第三概率特征向量进行处理，并利用第四分类器对处理后的向量进行处理，得到第四初始情绪分类信息。

步骤六、基于第一初始情绪分类信息、第二初始情绪分类信息、第三初始情绪分类信息、第四初始情绪分类信息，确定目标个体的目标情绪信息。

上述预设面部子区域的类型包括以下至少一种：眼部状态类型、眉毛状态类型、面颊状态类型、嘴部状态类型。

上述针对面部区域视频中的每张面部区域图像，对该面部区域图像进行分割，分别得到每种预设面部子区域对应的图像，具体可以利用如下步骤实现：

针对面部区域视频中的每张面部区域图像，利用AUU-NET卷积神经网络对该面部区域图像进行分割，分别得到每种预设面部子区域对应的图像；其中所述AUU-NET卷积神经网络包括收缩路径和扩张路径，所述收缩路径包括至少一个运动单元残差模块，所述扩张路径包括至少一个运动单元残差模块，所述运动单元残差模块包括卷积层、正则化层和激活层，用于对输入信息和输出信息进行加权融合，确定运动单元残差模块最终的输出信息。

上述运动单元残差模块的输出为：

式中，y为运动单元残差模块最终的输出信息，x为运动单元残差模块的输入信息，f(x)为输入信息经过运动单元残差模块的卷积层、正则化层和激活层后的运算结果，

为基于输入信息对运算结果f(x)加权后的计算结果。

本步骤中，AUU-NET的结构如图3A、3B所示。其中Aures-block为上述运动单元残差模块。AUU-NET允许原始输入信息和每个Aures-block的输入信息可以直接传输到后面的层中，避免了由于网络层的堆叠导致的梯度消失问题，此外，每个Aures-block块中的输入信息和输出信息进行加权融合，采用这样的注意力加权方式不会给网络增加额外的训练参数，并且保证输出特征图中的空间特征更好地被神经网络学习到。利用AUU-NET的网络可以得到眉毛、眼睛、面颊、嘴部等人脸关注区域的精确定位。

本步骤可以基于面部动作编码系统(FACS)定义的46个人脸运动单元及对应区域，以AUU-NET神经网络为基准分割人脸运动区域。

上述实施例可有效提取面部68个特征点，并根据特征点相对位置关系得到单帧图像情绪状态概率分布，即上述第一概率分布，集成了深度卷积网络模型实现图像级分类，学习面部预定义特征点之外的其他面部空间特征，对预设面部子区域，本申请集成了双流网络模型，通过光流和特征图流两通道提取相邻帧光流特征，即上述第二图像时空特征信息和卷积特征图变化特征，即第一图像时空特征信息，采用softmax分类器判定标准情绪信息，并根据标准情绪信息形成第三概率分布。上述实施例有效提高了确定的情绪特征的准确度。

上述可见光面部图像的多路信息融合及人工智能情绪监测方法，基于面部图像中预设特征点集群确定第一概率特征向量，同时利用卷积神经网络确定图像级的第二概率特征向量，进而结合图像序列间的时间信息生成情绪特征矩阵，此外，基于预设面部子区域图像以及相邻帧间光流图确定第三概率特征向量，对上述三个概率特征向量进行特征融合从而获取融合特征向量，最终基于上述三个概率特征向量、情绪特征矩阵和融合特征向量，确定监测个体的情绪状态分布。本申请利用上述三条分析通路处理面部视频，挖掘面部图像的空间及帧间时间特征，针对不同维度的特征进行全面分析及有效融合，保证高效分析的同时提高了情绪状态监测的精确度。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种可见光面部图像的多路信息融合及人工智能情绪监测方法，其特征在于，包括：

基于所有的第一概率特征向量、所有的第二概率特征向量、第三概率特征向量，确定融合特征向量，并基于所有的第一概率特征向量、所有的第二概率特征向量、第三概率特征向量、情绪特征矩阵和融合特征向量，确定目标个体的目标情绪信息；

所述基于所有的第一概率特征向量、所有的第二概率特征向量、第三概率特征向量，确定融合特征向量，并基于所有的第一概率特征向量、所有的第二概率特征向量、第三概率特征向量、情绪特征矩阵和融合特征向量，确定目标个体的目标情绪信息，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于每个预设特征点的位置确定该面部视频图像对应的第一概率特征向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述第一卷积神经网络为densenet网络结构的卷积神经网络。

4.根据权利要求1所述的方法，其特征在于，所述利用第二卷积神经网络和循环神经网络对该预设面部子区域对应的每帧图像进行处理，确定该预设面部子区域对应的第一图像时空特征信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用第三卷积神经网络对每相邻两帧图像形成的光流图进行处理，确定该预设面部子区域对应的多个第二时空特征信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述利用第一全连接网络对该预设面部子区域对应的第一图像时空特征信息和所有的第二图像时空特征信息进行处理，得到该预设面部子区域对应的目标特征信息，包括：