CN112990119A

CN112990119A - 一种视频多目标人脸表情识别方法和系统

Info

Publication number: CN112990119A
Application number: CN202110446571.8A
Authority: CN
Inventors: 李太豪; 刘昱龙; 郑书凯; 马诗洁; 廖龙飞; 谢冰
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-06-18
Anticipated expiration: 2041-04-25
Also published as: CN112990119B

Abstract

本发明属于人工智能领域，具体涉及一种视频多目标人脸表情识别方法和系统，该方法包括如下步骤：S1、抽取视频流中图像帧并提取人脸区域；S2、对视频流中的目标进行人脸跟踪；S3、对跟踪目标进行表情识别；S4、结合历史表情识别结果进行分析。本发明提供的方法，通过融合目标跟踪技术实现视频中多目标表情识别、利用前后帧结果加权提升动态表情识别结果的正确性和鲁棒性，防止视频表情识别结果产生的单帧抖动，同时本发明的视频表情识别系统具有表情分析结果及原始视频存储功能，能够帮助做出合理分析和建议，例如在校教育场景，智能驾驶辅助场景等。

Description

一种视频多目标人脸表情识别方法和系统

技术领域

本发明属于人工智能领域，具体涉及一种视频多目标人脸表情识别方法和系统。

背景技术

人脸表情是最直接、最有效的情感识别模式。在过去的几十年里，人脸表情识别技术得到了越来越多的关注，其应用包括：增强现实(AR)、人机交互、驾驶员疲劳检测、虚拟现实等相关领域。其中表情类别主要包括：生气，害怕，厌恶，开心，悲伤，惊讶以及平静。

目前主流的基于图像的表情识别方法流程为先从图像中找出人脸关键区域，然后提取人脸关键区域的有效特征，最后利用模型对特征进行分类以实现具体表情分类。现阶段，随着深度学习的飞速发展，人脸关键区域提取、关键区域特征提取以及特征分类均可以使用模型进行实现。而针对视频表情识别的方法为将视频解析成帧序列，然后利用图像表情识别方法对每一帧分别进行表情识别然后将单帧识别结果拼接成动态识别结果，或者对帧序列依次进行人脸区域检测和人脸区域特征提取，最后利用时序相关深度学习模型对时序帧进行特征融合及分类得到表情识别结果。

针对上述两种视频表情识别方法，存在以下问题：对于第一种方法，有较快的运行效率，但是由于是对视频中单帧分别进行识别，所以存在表情识别结果不连贯的问题；对于第二种方法，通过综合多帧进行表情识别，有不错的表情连贯性，但是对于计算机资源有非常大的要求，不适用于工业应用。同时，上述两种方案均不能适用于视频中多目标表情动态识别。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提供了一种视频多目标表情识别方法和系统，以解决现有视频表情识别方法中表情识别结果不连贯，模型训练复杂且不能解决视频中多目标表情识别的问题，其具体技术方案如下：

一种视频多目标表情识别方法，包括如下步骤：

S1、获取视频流中任一时刻t的图像帧并提取该图像帧中的所有人脸区域

；

S2、将步骤S1中人脸区域

输入目标跟踪算法，更新当前帧人脸跟踪区域

和对应的跟踪序号

；

S3、将步骤S2中跟踪区域

输入图像表情识别算法，获取当前帧表情识别结果

并与步骤S2中跟踪序号

对齐，最后将

和

结果存入数据库；

S4、利用步骤S3中识别结果

和跟踪序列号

，并结合步骤S3中数据库中历史帧的识别结果

以及对应的历史序列号

进行加权判断视频流中t时刻的最终表情识别结果

。

进一步的，所述步骤S1具体为：

利用深度学习目标检测算法对视频流中的图像帧进行人脸检测，对应当前帧的检测结果为

，其中

表示视频流中当前时刻t的人脸检测结果集合，当前帧共包含

个人脸目标，

表示当前时刻帧中的第i个人脸位置，

值得格式为

，其中

是由框左上角坐标点的横纵坐标和

右下角坐标点的横纵坐标。

进一步的，所述步骤S2具体包括：

步骤S2.1、假定t-1时刻预测的目标跟踪区域为

，跟踪序列为

，式中m为t-1时刻帧中进行跟踪的人脸目标数量，

为对应第i个人脸的跟踪区域且格式与步骤S1中人脸区域

中任意元素

格式相同，

为

对应的跟踪标识号；

步骤S2.2、然后遍历计算序列

中所有元素与人脸区域

中所有元素的相似度；

步骤S2.3、新建一个跟踪序号集合

，然后根据步骤S2.1两个元素p和d 匹配计算方式，如果目标跟踪区域

中未能找到与人脸区域

中任何元素匹配的元素，从目标跟踪区域

集合中删除该追踪元素且从跟踪序号集合

中删除相对应的跟踪序号；对人脸区域

中未能找到与目标跟踪区域

中任何元素匹配的元素，则将该元素存入目标跟踪区域

中，并新增一个跟踪序号与之对应存入跟踪序号集合

中；对目标跟踪区域

集合中能与人脸区域

匹配的元素进行保留，跟踪序号保持不变，因此目标跟踪区域

在t时刻元素更新为

，然后使用卡尔曼滤波预测

元素对应t 时刻的时间帧的跟踪元素集合

，而跟踪序号

。

进一步的，所述步骤S2.2具体为：

计算边框重叠率IOU，当IOU重叠率大于设定阈值，则计算像素内容相似度，否则表明元素p和d不匹配；所述边框重叠率IOU的计算方式为：假定目标跟踪区域

中任一元素

和人脸区域

中任一元素

，令

，

，

，

，则有：

其中，IOU即为区域边框元素p和d的重叠率；

是坐标系X方向的重叠距离，当两坐标在X坐标轴方向无重叠时取0；

是坐标系Y方向的重叠距离，当两坐标在Y坐标轴方向无重叠时取0；

是元素d的区域面积；

是元素p的区域面积；overlap是两个矩形框的重叠面积；

设定一个阈值

，如果IOU大于

，则认为所述p和d的重叠度满足目标移动的位置变化条件；

计算像素内容相似度，如果最终内容相似度大于设定阈值，则表明p和d两个元素匹配，否则表明该两个元素不匹配，所述图像区域像素内容相似度计算方式如下：

针对元素p和d，从原始图像帧中截取对应区域的图像内容

和

；

将所述

和

输入卷积神经网络模型得到特征维度相同的特征向量FT和FD；

计算特征向量FT和FD的余弦距离L，计算方式如下；

同样，设定阈值

，如果L大于设定的阈值

，则表明元素p和d对应的图像内容一致，则p和d构成一对匹配的序列对（p，d），否则p和d不匹配。

进一步的，所述步骤S3具体为：

针对步骤S2更新的目标跟踪区域元素的位置集合

，该时刻对应的跟踪序号集合为

，假定从t时刻的时间帧中截取出所有

元素对应的像素区域为

，然后通过卷积神经网络模型对

中的元素依次进行表情识别，得到对应识别结果集合

，其中卷积神经网络模型为预先训练好的VGG-16网络模型,最后将

和

存入数据库中用于后续帧的最终识别结果调用。

进一步的，所述卷积神经网络模型为预先训练好的VGG-16网络模型。

进一步的，所述步骤S4具体为：

已知步骤S3计算出的当前帧识别结果

和相对应的跟踪序列号

，以及从步骤 S3中提及的数据库中提取的当前帧的前k个历史帧识别结果

和相对应的前k个历史帧的跟踪序列

，针对当前帧的最终识别结果

由

和

加权而成，计算方式如下：

先新建一个包含与

集合长度相同的空容器集合

；

遍历集合

中的元素，对于集合

中任一元素

，将表情识别结果集合

中元素

存入容器集合

中的对应

子容器中，然后遍历

中的元素，如果存在与元素

相等的元素，将集合

中该序列元素对应的识别结果存入

中，再循环遍历剩余的集合

，以及从

中找到相应的识别结果存入

中；

遍历所述生成的容器集合

，对于该集合中任意元素

存储着当前帧以及历史帧中跟踪序号为

的表情识别结果，假定容器

中存储着m个表情识别结果

，则对应当前帧跟踪序列号

的最终结果

，即从

中找出出现次数最多的表情作为结果，最后，生成最终表情集合

，实现了视频场景中多目标表情识别的最终结果。

一种视频多目标表情识别系统，包括：

视频信号采集模块，用于采集用户视频数据；

视频信号预处理模块，用于将采集到的视频数据进行预处理，对视频数据进行抽帧处理；

视频表情识别模块，用于通过设计的网络模型和流程，预测用户面部的情感类型；

数据存储模块，用于利用 MySQL 数据库，存储用户的视频数据和情感标签数据。

进一步的，所述视频信号采集模块采用高清晰广角摄像头用于获取到更多的和清晰的人脸目标。

进一步的，所述预处理，包括：视频抽帧、人脸检测，首先摄像头获取视频数据有固定的帧率，根据等时间间隔进行抽帧处理，针对人脸检测将采用深度学习模型对视频帧中的人脸目标进行截取。

本发明的优点如下：

本发明提出了一种基于目标追踪的方法来保证目标在视频流中的连续性的方式，实现了多目标场景下的视频表情识别。

通过利用多帧识别结果对当前表情识别结果进行加权，提高了视频表情识别的鲁棒性，防止视频表情识别结果产生的单帧抖动，同时通过加权方式进行表情识别对比通过多模型融合特征识别将极大提高识别效率，可以运用到工业中。

本发明的视频表情识别系统具有表情分析结果及原始视频存储功能，能够帮助做出合理分析和建议，例如在校教育场景，智能驾驶辅助场景等。

附图说明

图1 为本发明系统的结构示意图；

图2为本发明方法的流程图；

图3为VGG-16网络结构图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

参照图1所示，一种视频多目标表情识别系统，包括：

视频信号采集模块，用于采集用户视频数据，一般采用高清广角摄像头，以获取到更多的人脸数据；

视频信号预处理模块，用于将采集到的视频数据进行预处理：包含视频抽帧和人脸目标检测。由于连续视频帧存在大量重复冗余，因此对视频数据抽帧处理，减少后续情感识别处理数据量，可较大提高系统运行效率，具体为：针对一个帧率为30fps的视频，将采用1秒抽5帧；目标检测方法将采用神经网络模型SSD（ Single Shot MultiBox Detector）对视频中人脸目标进行提取。

参照图2-3所示，本发明的一种视频多目标表情识别方法包括如下几个步骤：

步骤S1、抽取视频流中图像帧并提取人脸区域。

所述视频流可通过实时摄像头中获取，也可是用户已有视频数据库中的视频数据。然后将视频进行等间隔抽帧处理，考虑到相邻几帧图像内容重复性过多且表情变化不大，所以本发明优选的，针对所有不同帧率的视频都将进行1秒抽10帧进行处理，提升计算效率降低计算资源的消耗。然后对抽取的单帧图像进行人脸检测。随着深度学习的发展，目前人脸检测的方法通常采用深度学习的模型进行处理，例如用于人脸目标检测的SSD结构和MTCNN人脸检测算法；

假定，对当前抽取出的图像帧的检测结果为

，其中式中

表示视频流中当前时刻t的人脸检测结果集合，当前帧共包含n个人脸目标，

表示当前时刻帧中的第i个人脸位置，

值得格式为

，其中

是由框左上角坐标点的横纵坐标和

右下角坐标点的横纵坐标；

步骤S2、对视频流中的目标进行人脸跟踪；

在步骤S1中提取人脸区域后，假定当前抽帧时刻为t，上一个处理帧为t-1时刻且从历史数据库中得到t-1时刻的目标跟踪区域为

以及跟踪序列为

，式中m为t-1时刻帧中进行跟踪的人脸目标数量，

为对应第i个人脸的跟踪区域且格式与步骤S1中人脸区域

中任意元素

格式相同，

为

对应的跟踪标识号。然后遍历计算序列

中所有元素与人脸区域

中所有元素的相似度，计算流程如下：

计算边框重叠率（IOU，Intersection over Union），如果IOU重叠率大于设定阈值，则计算像素内容相似度，否则表明该两个元素不匹配；

计算像素内容相似度，如果最终内容相似度大于设定阈值，则表明该两个元素匹配，否则不匹配；

通常，计算边框重叠率中两个目标框的IOU计算方式为：假定目标跟踪区域

中任一元素

和人脸区域

中任一元素

，令

，

，

，

，则有：

其中，IOU即为区域边框元素p和d的重叠率；

是元素d的区域面积；

是元素p的区域面积；overlap是两个矩形框的重叠面积。

进一步，设定一个阈值

，如果IOU大于

，表明p和d的重叠度高，优选的，经过实验分析阈值

取0.6会使系统保持稳定。

所述元素p和d对应图像区域内容的相似度计算方式如下：

针对元素p和d，从原始图像帧中截取对应区域的图像内容

和

；

将

和

输入同一卷积神经网络模型得到对应的特征向量FT和FD；

计算特征向量FT和FD的余弦距离L，计算方式如下；

如果L大于设定的阈值

，则表明元素p和d对应的图像内容一致，则p和d构成一对匹配的序列对（p，d），否则p和d不匹配，优选的，经过实验分析内容相似度阈值

取0.8。

针对

中未能找到与

中任何元素匹配的元素，从

集合中删除该追踪元素且从集合中删除相对应的跟踪序号；对

中未能找到与

中任何元素匹配的元素，则将该元素存入

中，并新增一个跟踪序号与之对应存入

中；对

集合中能与

匹配的元素进行保留，跟踪序号保持不变，因此

在时刻元素更新为

，

在t 时刻元素更新为

，然后使用卡尔曼滤波预测

元素对应t时刻的时间帧的跟踪元素集合

，而跟踪序号

；

步骤S3、对跟踪目标进行表情识别；

针对步骤S2更新的t时刻跟踪人脸元素的位置集合

，该时刻对应的跟踪序号集合为

，假定从t时刻的时间帧中截取出所有

元素对应的像素区域为

，然后通过卷积神经网络模型对

中的元素依次进行表情识别，得到对应识别结果集合

，同时将识别结果集合

和跟踪序号集合

存放到数据库中用于后续帧的最终识别结果处理，其中卷积神经网络模型为预先训练好的VGG-16网络模型。表情种类为7种：开心，平静，愤怒，惊讶，伤心，嫌弃，害怕。VGG-16网络模型如图3所示，该VGG-16网络模型由convelution（卷积） +ReLU函数模块、max pooling（最大池化）模块、fully connected（全连接）+ReLU函数模块和softmax函数模块连接而成。

步骤S4、结合历史表情识别结果进行分析：

已知步骤S3计算出的当前帧识别结果

和相对应的跟踪序列号

，以及当前帧的前k个历史跟踪帧的识别结果

和相对应的前k个历史跟踪帧的序列

，当前帧的最终识别结果

由

和

加权而成，本发明方案中k取值为5，且当前成最终表情识别计算方式如下：

先新建一个包含与

集合长度相同的空容器集合

；

遍历集合

中的元素，对于集合

中任一元素

，将表情识别结果集合

中元素

存入容器集合

中的对应

子容器中，然后遍历

中的元素，如果存在与元素

相等的元素，将集合

中该序列元素对应的识别结果存入

中，再循环遍历剩余的集合

，以及从

中找到相应的识别结果存入

中

遍历生成的容器集合

，对于该集合中任意元素

存储着当前帧以及历史帧中跟踪序号为

的表情识别结果，假定容器

中存储着m个表情识别结果

，则对应当前帧跟踪序列号

的最终结果

，即从

。

综上所述，本发明提供的方法，通过融合目标跟踪技术实现视频中多目标表情识别、利用前后帧结果加权提升动态表情识别结果的准确性和鲁棒性。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种视频多目标表情识别方法，其特征在于，包括如下步骤：

；

S2、将步骤S1中人脸区域

输入目标跟踪算法，更新当前帧人脸跟踪区域

和对应的跟踪序号

；

S3、将步骤S2中跟踪区域

输入图像表情识别算法，获取当前帧表情识别结果

并与步骤S2中跟踪序号

对齐，最后将

和

结果存入数据库；

S4、利用步骤S3中识别结果

和跟踪序列号

，并结合步骤S3中数据库中历史帧的识别结果

以及对应的历史序列号

进行加权判断视频流中t时刻的最终表情识别结果

。

2.如权利要求1所述的一种视频多目标表情识别方法，其特征在于，所述步骤S1具体为：

，其中

表示视频流中当前时刻t的人脸检测结果集合，当前帧共包含

个人脸目标，

表示当前时刻帧中的第i个人脸位置，

值得格式为

，其中

是由框左上角坐标点的横纵坐标和

右下角坐标点的横纵坐标。

3.如权利要求2所述的一种视频多目标表情识别方法，其特征在于，所述步骤S2具体包括：

步骤S2.1、假定t-1时刻预测的目标跟踪区域为

，跟踪序列为

，式中m为t-1时刻帧中进行跟踪的人脸目标数量，

为对应第i个人脸的跟踪区域且格式与步骤S1中人脸区域

中任意元素

格式相同，

为

对应的跟踪标识号；

步骤S2.2、然后遍历计算序列

中所有元素与人脸区域

中所有元素的相似度；

步骤S2.3、新建一个跟踪序号集合

，然后根据步骤S2.1两个元素p和d匹配计算方式，如果目标跟踪区域

中未能找到与人脸区域

中任何元素匹配的元素，从目标跟踪区域

集合中删除该追踪元素且从跟踪序号集合

中删除相对应的跟踪序号；对人脸区域

中未能找到与目标跟踪区域

中任何元素匹配的元素，则将该元素存入目标跟踪区域

中，并新增一个跟踪序号与之对应存入跟踪序号集合

中；对目标跟踪区域

集合中能与人脸区域

在t时刻元素更新为

，然后使用卡尔曼滤波预测

元素对应t时刻的时间帧的跟踪元素集合

，而跟踪序号

。

4.如权利要求3所述的一种视频多目标表情识别方法，其特征在于，所述步骤S2.2具体为：

中任一元素

和人脸区域

中任一元素

，令

，

，

，

，则有：

其中，IOU即为区域边框元素p和d的重叠率；

是元素d的区域面积；

是元素p的区域面积；overlap是两个矩形框的重叠面积；

设定一个阈值

，如果IOU大于

，则认为所述p和d的重叠度满足目标移动的位置变化条件；

针对元素p和d，从原始图像帧中截取对应区域的图像内容

和

；

将所述

和

输入卷积神经网络模型得到特征维度相同的特征向量FT和FD；

计算特征向量FT和FD的余弦距离L，计算方式如下；

同样，设定阈值

，如果L大于设定的阈值

5.如权利要求3所述的一种视频多目标表情识别方法，其特征在于，所述步骤S3具体为：

针对步骤S2更新的目标跟踪区域元素的位置集合

，该时刻对应的跟踪序号集合为

，假定从t时刻的时间帧中截取出所有

元素对应的像素区域为

，然后通过卷积神经网络模型对

中的元素依次进行表情识别，得到对应识别结果集合

和

存入数据库中用于后续帧的最终识别结果调用。

6.如权利要求5所述的一种视频多目标表情识别方法，其特征在于，所述卷积神经网络模型为预先训练好的VGG-16网络模型。

7.如权利要求5所述的一种视频多目标表情识别方法，其特征在于，所述步骤S4具体为：

已知步骤S3计算出的当前帧识别结果

和相对应的跟踪序列号

，以及从步骤S3中提及的数据库中提取的当前帧的前k个历史帧识别结果

和相对应的前k个历史帧的跟踪序列

，针对当前帧的最终识别结果

由

和

加权而成，计算方式如下：

先新建一个包含与

集合长度相同的空容器集合

；

遍历集合

中的元素，对于集合

中任一元素

，将表情识别结果集合

中元素

存入容器集合

中的对应

子容器中，然后遍历

中的元素，如果存在与元素

相等的元素，将集合

中该序列元素对应的识别结果存入

中，再循环遍历剩余的集合

，以及从

中找到相应的识别结果存入

中；

遍历所述生成的容器集合

，对于该集合中任意元素

存储着当前帧以及历史帧中跟踪序号为

的表情识别结果，假定容器

中存储着m个表情识别结果

，则对应当前帧跟踪序列号

的最终结果

，即从

，实现了视频场景中多目标表情识别的最终结果。

8.一种视频多目标表情识别系统，其特征在于，包括：

视频信号采集模块，用于采集用户视频数据；

9.如权利要求8所述的一种视频多目标表情识别系统，其特征在于，所述视频信号采集模块采用高清晰广角摄像头用于获取到更多的和清晰的人脸目标。

10.如权利要求8所述的一种视频多目标表情识别系统，其特征在于，所述预处理，包括：视频抽帧、人脸检测，首先摄像头获取视频数据有固定的帧率，根据等时间间隔进行抽帧处理，针对人脸检测将采用深度学习模型对视频帧中的人脸目标进行截取。