CN113111789A

CN113111789A - 一种基于视频流的面部表情识别方法及系统

Info

Publication number: CN113111789A
Application number: CN202110406836.1A
Authority: CN
Inventors: 王德强; 李晓; 郑来波; 王鸣天; 焦广超
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-07-13
Anticipated expiration: 2041-04-15
Also published as: CN113111789B

Abstract

本发明公开一种基于视频流的面部表情识别方法及系统，包括：确定视频流中每帧图像的人脸定位区域；提取人脸定位区域的人脸关键点，计算人脸关键点间的距离特征；根据距离特征与训练后的表情分类模型，得到每帧图像的各类表情概率值；根据每帧图像的各类表情概率值中最大值与预设阈值的比较结果，对每帧图像进行筛选，得到所有有效帧并确定对应的表情分类结果，利用滑动时间窗口对有效帧表情分类结果在时间维度上进行融合处理，得到以滑动步长为间隔的表情识别结果。利用人脸敏感部位关键点信息弱化视频会话中说话人不重要部位对情绪产生的影响；提取面部几何特征值作为模型的输入，而不是直接将原始图片输入到模型中，在部署应用时可以减少计算量，达到较好的实时性。

Description

一种基于视频流的面部表情识别方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种基于视频流的面部表情识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着计算机能力的提升，深度学习技术在众多应用领域得到不断创新，发展前景广阔。其中，面部表情识别(Facial Expression Recognition，FER)成为学术界研究的一个热门方向，旨在从面部图像中预测人类情绪状态，通常将面部表情划分为愤怒、厌恶、害怕、开心、中性、伤心、惊讶7类基本表情，在人类异常行为检测、安全驾驶、人机交互等领域中发挥了重要作用。

面部表情识别系统可分为静态图像表情识别和动态视频表情识别两类，表情识别方法也各有差异。其中，基于动态视频的方法中需要考虑连续图像间时间和空间上的相关信息。如今，视频应用的广泛普及，需要一种准确率和实时性较高的基于视频流的表情识别方法来提高交互场景下的用户体验。

现阶段，通常使用卷积神经网络(Convolution Neural Network，CNN)处理人脸图像、循环神经网络(Recurrent Neural Network，RNN)提取帧间信息等，但是CNN等网络模型针对视频流以连续人脸图像作为输入数据，计算量较大，且为了增强模型的学习能力，可能要以提高模型的复杂度为代价，大规模的神经网络在应用中会占用大量存储资源，因此该方法在实际应用中数据处理时间较长，可实施性较低。

发明内容

为了解决上述问题，本发明提出了一种基于视频流的面部表情识别方法及系统，包括人脸检测、面部特征提取、单帧图像表情分类、有效帧筛选、基于滑动窗口的融合处理等步骤，对视频中每帧图像进行人脸检测、识别面部关键点并提取距离特征，利用表情分类模型得到各类表情概率值，通过有效帧筛选和滑动时间窗口融合处理得到可靠的表情识别结果。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于视频流的面部表情识别方法，包括：

确定视频流中每帧图像的人脸定位区域；

提取人脸定位区域的人脸关键点，计算人脸关键点间的距离特征；

根据距离特征与训练后的表情分类模型，得到每帧图像的各类表情概率值；

根据每帧图像的各类表情概率值中最大值与预设阈值的比较结果，对每帧图像进行筛选，得到所有有效帧并确定对应的表情分类结果，利用滑动时间窗口对有效帧表情分类结果在时间维度上进行融合处理，得到以滑动步长为间隔的表情识别结果。

作为可选择的实施方式，计算人脸关键点间的距离特征的过程中，在人脸定位区域内预设表情敏感区域，提取表情敏感区域内人脸关键点的坐标，以此计算表情敏感区域内人脸关键点之间的欧氏距离。

作为可选择的实施方式，所述表情分类模型基于对深度神经网络模型训练得到。

作为可选择的实施方式，所述深度神经网络模型为全连接网络，采用ReLU函数为激活函数，输出层采用softmax函数，损失函数采用多分类交叉熵函数，更新准则采用梯度下降法。

作为可选择的实施方式，所述深度神经网络模型的训练策略包括dropout和earlystop策略。

作为可选择的实施方式，对每帧图像进行筛选的过程包括，若当前帧的表情概率最大值大于预设阈值，则当前帧为有效帧，否则当前帧为无效帧。

作为可选择的实施方式，所述利用滑动时间窗口对有效帧的表情分类结果在时间维度上进行融合处理是指，将具有一定宽度的时间窗口沿时间轴按一定步长滑动，每滑动一个步长融合输出一个表情识别结果；具体融合处理方法为：将时间窗口宽度内所有有效帧的表情分类结果按照表情种类分别计算其出现频率，选择出现频率最高的表情作为融合处理后的表情识别结果。

第二方面，本发明提供一种基于视频流的面部表情识别系统，包括：

人脸定位模块，被配置为确定视频流中每帧图像的人脸定位区域；

特征提取模块，被配置为提取人脸定位区域的人脸关键点，计算人脸关键点间的距离特征；

概率计算模块，被配置为根据距离特征与训练后的表情分类模型，得到每帧图像的各类表情概率值；

表情确定模块，被配置为根据每帧图像的各类表情概率值中最大值与预设阈值的比较结果，对每帧图像进行筛选，得到所有有效帧并确定对应的表情分类结果，利用滑动时间窗口对有效帧表情分类结果在时间维度上进行融合处理，得到以滑动步长为间隔的表情识别结果。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

(1)本发明利用人脸敏感部位关键点信息弱化视频会话中说话人不重要部位对表情识别产生的影响；提取面部几何特征作为模型的输入，而不是直接将原始图片输入到模型中，在部署应用时可以减少计算量，达到较好的实时性。

(2)本发明的表情分类模型采用层数较少的全连接神经网络，降低模型的复杂度，提高模型运算速度。

(3)本发明设计滑动时间窗口融合处理方案，仅保存图像帧判决的概率结果，而不是将图像数据进行时序累积，减少存储资源的占用，且在表情识别时可以忽略小概率表情值，得到更准确的表情判断结果，实时分类效果较好。

(4)本发明运用于实际应用中，能达到较高的准确率和流畅的运行速度，实现理论到实际的转变。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例1提供的基于视频流的面部表情识别方法流程图；

图2是本发明实施例1提供的表情分类模型网络结构图；

图3是本发明实施例1提供的滑动时间窗口融合处理方案流程图。

图4是本发明实施例2提供的基于视频流的面部表情识别系统功能模块图。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

如图1所示，本实施例提供一种基于视频流的面部表情识别方法，包括：

S1：确定视频流中每帧图像的人脸定位区域；

S2：提取人脸定位区域的人脸关键点，计算人脸关键点间的距离特征；

S3：根据距离特征与训练后的表情分类模型，得到每帧图像的各类表情概率值；

S4：根据每帧图像的各类表情概率值中最大值与预设阈值的比较结果，对每帧图像进行筛选，得到所有有效帧并确定对应的表情分类结果，利用滑动时间窗口对有效帧表情分类结果在时间维度上进行融合处理，得到以滑动步长为间隔的表情识别结果。

在步骤S1中，对视频流的每帧图像进行人脸检测，得到人脸定位区域，构建矩形框；

在本实施例中，对视频流图像利用dlib中基于HOG特征和SVM分类器的人脸检测算法完成人脸检测。

在步骤S2中，在人脸图像中提取m个几何特征值，这些几何特征值与人脸情绪有着紧密联系，因此可以将其作为表情分类模型的输入数据对表情进行分类；具体地，在人脸定位区域内，标识人脸关键点并提取坐标，预设表情敏感区域，计算表情敏感区域内人脸关键点之间的欧氏距离，对欧氏距离特征进行归一化处理。

所述步骤S2具体包括：

S2-1：利用dlib中基于集成回归树的人脸对齐算法进行人脸L个关键点信息的标识，提取关键点的坐标m₁个；本实施方式中优先采用L＝68，则m₁＝136；

S2-2：预设的表情敏感区域包括眼睛、鼻子、嘴部，提取表情敏感区域内人脸关键点的坐标，计算欧氏距离d_i,j，进行归一化处理：

其中，(x_i,y_i)、(x_j,y_j)为该区域某两个关键点坐标，D为距离特征矩阵，

为归一化后的距离特征矩阵。

本实施例中，68个关键点中包含左右眼各11个、嘴部20个关键点，因此在左眼和右眼各得到55个特征值，嘴部获得190个特征值，共有m₂＝300个距离特征值；将m₂个距离特征值与L个关键点坐标m₁归一化处理后进行级联，每幅人脸图像共提取出m＝m₁+m₂个几何特征值，即每张图像得到特征X∈R^m×1。

在步骤S3中，将归一化后的距离特征X输入至预先训练的表情分类模型中，经过前向计算，得到视频流中当前帧的n类表情概率值，即

n为表情种类数；

在本实施例中，预先设计并选用合适的数据集训练深度学习神经网络，得到表情分类模型。表情分类模型由五层全连接神经网络构成，输入为X，输出为表情分类概率，最后一层的维度为表情分类个数，采用的激活函数为ReLU函数，网络输出层采用softmax函数，损失函数为多分类交叉熵函数，更新准则为梯度下降法，该网络结构简单，计算复杂度较低。

表情分类模型生成的具体过程包括：

本实施例采用CK+数据集作为网络训练数据集，将整个数据库的20％划分为测试集，以用于测试模型，80％用于训练模型；CK+数据集将表情分为七类，即：愤怒、厌恶、害怕、开心、中性、伤心、惊讶；对数据集图像进行人脸检测、图片剪裁等预处理操作后，提取关键点坐标并计算距离特征，得到每张图片的距离特征X∈R^m×1；

设计深度学习神经网络，模型结构如图2所示，包含5个全连接层，最后一层的输出维度为7，即情感分类个数，各层的节点数分别为512，1024，1024，512和7，激活函数为ReLU函数，更新准则为梯度下降法，损失函数为多分类交叉熵函数：

其中，s为样本数，n表示表情类别数，p_i,j表示第i个样本预测为第j个标签的概率，y_i,j为真实标签；

网络输出层采用softmax函数，模型输出为y_pred：

其中，y＝p(i|x)代表x为第i类的概率，x_i是输出单元的输出值，i为表情类别索引，故y_pred∈R^1×n。

将提取的距离特征值作为网络模型的输入数据，进行网络训练；为了防止过拟合，训练时使用dropout和early stop策略，网络的训练参数如表1所示；

表1网络训练参数

参数	值
		学习率	0.0001
优化器	Adam
		批量大小	64
训练轮次	5000
		Dropout	0.7

模型在CK+数据集上的总体识别准确率accuracy为：

其中，p_i为预测值，q_i为实际值；

accuracy是通常的准确度，在CK+数据库下的分类准确率达到93.78％，训练结果的混淆矩阵如表2所示；

表2模型在CK+上的混淆矩阵

在步骤S4中，考虑到资源占用及识别准确率的问题，本实施例针对视频流制定可靠的时间维度融合处理方案，对表情分类结果进行综合判决；具体地：针对视频流的时间维度融合处理过程包括：设置具有一定宽度的滑动时间窗口和概率阈值，根据每帧图像的表情概率最大值与预设阈值的比较结果对每帧图像进行筛选，确定出所有有效帧并得到对应的表情分类结果，利用滑动时间窗口对有效帧表情分类结果在时间维度上进行融合处理，得到以滑动步长为间隔的表情识别结果。

其中，本实施例设置概率阈值为λ，若前帧图像的表情输出结果中最大概率值大于λ，则该帧图像被判定为有效帧并选择概率最大的表情做为分类结果，否则该帧为无效帧不输出分类结果。

如图3所示，所述步骤S4中具体包括如下步骤：

步骤S4-1：设置一个宽度为2w的滑动窗口，设置表情概率阈值λ，以图像帧F_i为中心的窗口可表示为[F_i－w，F_i+w]；

步骤S4-2：对图像帧F_i，表情分类模型得到的表情概率值表示为

得到最大表情概率值y_max＝max(y_pred)，若y_xam大于阈值λ，则该帧判定为有效帧；否则，该帧视为无效帧；

步骤S4-3：若图像帧F_i为有效帧，则选择概率为y_max的对应表情做为图像帧F_i的表情分类结果j∈{1,2,...,n}并存入Y中；若F_i为无效帧，则将无效值null存入Y中；

步骤S4-4：在窗口[F_i－w，F_i+w]内，依据Y存储的内容计算每种有效表情出现的频率(次数)，选择出现频率最高的表情作为融合处理后的表情识别结果，即为2w时间内的综合判决结果；

步骤S4-5：滑动窗口按步长s帧沿时间轴方向移动，得到以图像帧F_i+s为中心的窗口[F_i－w+s，F_i+w+s]，进行步骤S4-1至S4-4，更新Y并再次得到融合处理后的表情识别结果；具体地，更新Y即舍弃Y中前s帧的历史数值，新增F_i+w至F_i+w+s帧图像的表情分类信息。

对视频流循环执行上述步骤直至结束，该时间维度融合处理方案使得在表情识别时可以忽略小概率表情值，得到更准确的表情判断结果。

在检测速度方面，本实施例开启640*480像素大小的实时会话视频进行实验，平均速度约为50fps。

综上所述，本实施例提出的基于视频流的面部表情识别方法，利用人脸敏感区域的关键点信息作为层数较少的全连接网络的输入数据，得到表情分类概率值，降低模型的复杂度，提高模型运算速率；同时，在时间维度融合处理阶段，利用滑动窗口仅保存特定时间段内每一帧的分类概率值，经过融合决策得到综合判决结果，减少存储资源的占用，将其运用于实际应用中，能达到较高的准确率和流畅的运行速度，实现理论到实际的转变。

实施例2

本实施例提供一种基于视频流的面部表情识别系统，包括：

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于视频流的面部表情识别方法，其特征在于，包括：

确定视频流中每帧图像的人脸定位区域；

2.如权利要求1所述的一种基于视频流的面部表情识别方法，其特征在于，计算人脸关键点间的距离特征的过程中，在人脸定位区域内预设表情敏感区域，提取表情敏感区域内人脸关键点的坐标，以此计算表情敏感区域内人脸关键点的欧氏距离。

3.如权利要求1所述的一种基于视频流的面部表情识别方法，其特征在于，所述表情分类模型基于对深度学习神经网络模型训练得到。

4.如权利要求3所述的一种基于视频流的面部表情识别方法，其特征在于，所述深度学习神经网络模型为全连接网络，采用ReLU函数为激活函数，输出层采用softmax函数，损失函数采用多分类交叉熵函数，更新准则采用梯度下降法。

5.如权利要求3所述的一种基于视频流的面部表情识别方法，其特征在于，所述深度学习神经网络模型的训练策略包括dropout和early stop策略。

6.如权利要求1所述的一种基于视频流的面部表情识别方法，其特征在于，对帧图像进行筛选的过程包括，若当前帧图像的表情概率最大值大于预设阈值，则当前帧判定为有效帧，否则视为无效帧。

7.如权利要求1所述的一种基于视频流的面部表情识别方法，其特征在于，利用滑动时间窗口对有效帧的表情分类结果在时间维度上进行融合处理的过程包括，在时间窗口内，根据所有有效帧表情分类结果计算每类表情的出现频率，选择出现频率最高的表情作为融合处理后的表情识别结果。

8.一种基于视频流的面部表情识别系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。