CN114821742A

CN114821742A - 一种实时识别儿童或青少年面部表情的方法和装置

Info

Publication number: CN114821742A
Application number: CN202210545573.7A
Authority: CN
Inventors: 姚辉; 任洪兵; 张艳辉; 王斌; 李欣; 章莉
Original assignee: Chengdu Zhongyunwei Technology Co ltd; Hepingmen Kindergarten Xicheng District Beijing
Current assignee: Chengdu Zhongyunwei Technology Co ltd; Hepingmen Kindergarten Xicheng District Beijing
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-07-29

Abstract

本发明公开了一种实时识别儿童或青少年面部表情的方法和装置。方法包括：实时获取采集到的视频数据，提取存在人脸区域的视频帧；对提取出的存在人脸区域的视频帧进行预处理并制作人脸表情数据集；训练人脸表情识别网络模型，对预处理后的视频帧提取并标记人脸表情特征；将标记有人脸表情特征的视频帧输入到人脸表情识别网络模型中，将概率最大的情绪类别作为当前视频帧图像的表情识别结果并输出。本发明通过卷积神经网络利用大数据实现了对情绪类别的实时精准分类，避免了传统方法中依靠老师识别儿童或青少年情绪中对儿童或青少年情绪判断不准确的问题；另外本发明在对图像的预处理中引入了超分辨率重建技术，能够弥补图像失真以及像素低的问题。

Description

一种实时识别儿童或青少年面部表情的方法和装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种实时识别儿童或青少年面部表情的方法和装置。

背景技术

心理学研究发现，情绪与儿童或青少年的记忆、专注力等认知活动相互作用，可以直接或者间接地影响儿童或青少年的学习活动。积极情绪能够增加儿童或青少年的专注度，增强思维灵活性，促进儿童或青少年学习活动；负面情绪能够抑制儿童或青少年的认知过程，降低注意力，使他们容易脱离学习活动。情绪不仅能够影响他们的学习活动，而且具有感染力。情绪感染是在没有意识的情况下模仿和整合他人的非语言信息，最终个体将与情绪感染者处于同一情绪中。近年来，儿童或青少年的不良情绪问题频发，焦虑、抑郁也呈现低龄化趋势，及时关注孩子的情绪，对孩子个体发展具有重要意义。学校通过对儿童或青少年情绪的实时监测，在一定程度上可以帮助老师和家长及时了解儿童或青少年的心理和学习状况，从而减少或者避免问题行为的发生，便于对儿童或青少年情况的实时掌控和管理。

传统的儿童或青少年情绪监测主要依靠老师的感性认知，阻断消极情绪感染主要依赖于老师的语言干预，由于存在主观感性认知，老师对儿童或青少年情绪的判断往往并不准确；并且现实课堂中，学生人数较多，情绪处于动态变化过程，传统干预方式无法实时掌控并及时干预消极情绪的感染。

另外，目前也有基于人工智能识别人脸表情的公开文献，例如中国专利文献CN107358169A(一种人脸表情识别方法及人脸表情识别装置)。发明人认识到，对于儿童或青少年情绪监测，目前的基于人工智能识别人脸表情的方案仍存在以下不足：没有考虑视频图像像素的问题，对低像素的图像识别可能不准确，从而导致对儿童或青少年表情和情绪的识别不准确；并不是专门针对儿童或青少年的。

发明内容

基于此，针对上述技术问题，本发明实施例提供一种实时识别儿童或青少年面部表情的方法和装置，以能够对儿童或青少年的情绪进行准确地实时监测。

第一方面，一种实时识别儿童或青少年面部表情的方法，包括：

步骤S1，实时获取采集到的视频数据，检测每个视频帧图像中是否有人脸区域，提取存在人脸区域的视频帧图像；

步骤S2，对提取出的存在人脸区域的视频帧图像进行预处理，并制作人脸表情数据集；

步骤S3，基于制作的人脸表情数据集训练人脸表情识别网络模型，以及对进行预处理后的视频帧图像提取并标记人脸表情特征；

步骤S4，将标记有人脸表情特征的视频帧图像输入到训练好的人脸表情识别网络模型中，得到每个视频帧图像的不同情绪类别的相应预测概率值，将概率最大的情绪类别作为当前视频帧图像的表情识别结果并输出。

可选地，步骤S1中检测视频帧图像中是否有人脸区域具体包括：

对当前检测的视频帧图像进行缩放；

利用OpenCV提供的基于ResNet50的神经网络模型对缩放后得到的视频帧图像进行人脸的检测和定位，得到当前检测的视频帧图像的置信度信息；

当置信度大于预设置信度阈值时，判定当前检测的视频帧图像中存在人脸区域。

可选地，步骤S2中所述对提取出的存在人脸区域的视频帧图像进行预处理具体包括：

对提取出的视频帧图像进行人脸位置检测、归一化和数据增强；

将分辨率低于预设分辨率阈值的视频帧图像输入WDSR模型中，对分辨率低于预设分辨率阈值的视频帧图像完成超分辨率重建；

将视频帧图像转换为灰度图后进行直方图均衡化和模糊处理。

进一步可选地，所述归一化的处理公式为：

所述数据增强为通过随机裁剪、旋转、缩放、调整色彩、调节亮度来对视频帧图像进行增广。

进一步可选地，所述WDSR模型包括卷积模块、残差模块和上采样模块，所述卷积模块采用亚像素卷积算法；所述预设分辨率阈值为64*64像素。

进一步可选地，所述WDSR模型还包括标准化模块，所述标准化模块采用权重标准化方法，权重标准化方法的计算公式为：

其中，w是权重，v是k维向量，g是标量，||v||是v的欧式范数。

可选地，步骤S2中所述制作人脸表情数据集包括：对已知的人脸表情数据集中的每个人脸表情进行情绪标注，形成包括生气、厌恶、恐惧、高兴、悲伤、惊讶和正常的七种情绪类别的数据集；所述已知的人脸表情数据集为RAF-DB或AffectNet。

可选地，所述人脸表情识别网络模型为基于CNN的人脸表情分类识别模型。

进一步可选地，所述人脸区域为存在儿童或青少年面部的区域，所述人脸表情数据集为儿童青少年面部表情数据集，所述人脸表情识别网络模型为儿童青少年面部表情识别网络模型。

第二方面，一种实时识别儿童或青少年面部表情的装置，包括：

视频帧图像获取模块，用于实时获取采集到的视频数据，检测每个视频帧图像中是否有人脸区域，提取存在人脸区域的视频帧图像；

预处理模块，用于对提取出的存在人脸区域的视频帧图像进行预处理，并制作人脸表情数据集；

表情特征提取模块，用于基于制作的人脸表情数据集训练人脸表情识别网络模型，以及对进行预处理后的视频帧图像提取并标记人脸表情特征；

表情识别模块，用于将标记有人脸表情特征的视频帧图像输入到训练好的人脸表情识别网络模型中，得到每个视频帧图像的不同情绪类别的相应预测概率值，将概率最大的情绪类别作为当前视频帧图像的表情识别结果并输出。

本发明至少具有以下有益效果：

本发明实施例所提供的一种实时识别儿童或青少年面部表情的方法，是基于人工智能的儿童或青少年面部表情识别解决方案，通过采用卷积神经网络和特定图像预处理组合的方式，能实时对视频中的儿童或青少年面部表情情绪类别进行自动识别；利用本发明所提供的方法，能够通过分析课堂上的儿童或青少年表情的各种指标数据，对儿童或青少年的情绪类别输出可靠的分析结果，在一定程度上可以帮助老师和家长及时了解儿童或青少年的心理和学习状况，从而减少或者避免问题行为的发生，便于对儿童或青少年情况的实时掌控和管理；本发明通过卷积神经网络利用大数据实现了对情绪类别的实时精准分类，避免了传统方法中依靠老师识别儿童或青少年情绪可能由于老师的感性认知或言语干扰导致对儿童或青少年情绪判断不准确的问题。

另外，本发明考虑到光照、距离等原因可能会造成图像失真以及图像分辨率比较低的问题，本发明在对图像的预处理中引入了超分辨率重建技术，能够弥补图像失真以及像素低的问题，具有的有益效果是能够对于儿童或青少年的表情识别更加准确，更近一步能够提升对儿童或青少年情绪监测和识别的准确率，便于学校和家长对儿童或青少年情况能够有更准确的了解。

同时，相比目前已有的基于人工智能识别人脸表情的方案，在本发明的一个优选方案中本发明只会提取存在儿童或青少年面部区域的视频帧图像，同时会专门制作儿童青少年面部表情数据集以及建立儿童青少年面部表情识别网络模型，从而能够避免对于视频中出现的成人的面部表情的识别，以及能够提高对于儿童或青少年表情监测的效率和准确率。

附图说明

图1为本发明一个实施例提供的一种实时识别儿童或青少年面部表情的方法的流程示意图；

图2为本发明一个实施例中WDSR模型的架构示意图；

图3为本发明一个实施例中卷积模块的架构示意图；

图4为本发明一个实施例中残差模块的架构示意图；

图5为本发明一个实施例中人脸表情分类识别模型的架构示意图；

图6为本发明一个实施例提供的一种实时识别儿童或青少年面部表情的装置的模块架构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种实时识别儿童或青少年面部表情的方法，该方法包括以下步骤：

步骤S1，实时获取采集到的视频数据，检测每个视频帧图像中是否有人脸区域，提取存在人脸区域的视频帧图像。

具体来说，检测某个视频帧图像中是否有人脸区域具体包括：首先对当前检测的视频帧图像进行缩放，使视频帧图像的图片大小为用于检测人脸的网络模型所允许的输入大小，然后将缩放后得到的视频帧图像输入到用于检测人脸的网络模型中进行人脸的检测和定位。本实施例所使用的网络模型为OpenCV提供的基于ResNet50的神经网络模型，在将缩放后得到的视频帧图像输入该神经网络模型后，该神经网络模型会输出检测到的人脸面部的左上角和右下角坐标，以及介于0到1之间的置信度。若置信度大于预设置信度阈值时，便会判定当前检测的视频帧图像中存在人脸区域，在本实施例中，预设置信度阈值设为0.4。当置信度大于0.4时，则认为该视频帧图像中包含人脸区域。另外，可以通过摄像头实时采集幼儿园或青少年课堂的视频数据。

步骤S2，对提取出的存在人脸区域的视频帧图像进行预处理，并制作人脸表情数据集。

具体来说，对提取出的存在人脸区域的视频帧图像进行预处理具体包括：

步骤S21，由于输入的原始视频帧图像可能存在光线不均匀、角度偏移等问题，因此首先对图像进行人脸位置检测、归一化、数据增强等操作，便于后期对于人脸表情的特征提取；

其中，归一化是减少内部类特征不匹配的重要预处理技术，线性归一化处理公式如下：

数据增强即通过随机裁剪、旋转、缩放、调整色彩、调节亮度来对人脸面部图像进行增广；以不同的方式对图像进行裁剪，使感兴趣的对象出现在不同位置，从而减少本方法所用到的模型对对象出现位置的依赖性；

步骤S22，将分辨率低于预设分辨率阈值的视频帧图像输入WDSR模型中，对分辨率低于分辨率阈值的视频帧图像完成超分辨率重建；分辨率低于阈值的视频帧图像被认为是低分辨率图像，需要通过WDSR模型将低分辨率图像输入亚像素卷积神经网络中，利用非线性映射和重建方法，最终获得高分辨率图像；

其中，如2所示，WDSR模型主要由卷积模块、残差模块和上采样模块组成，模型结构中每一层的相关参数设置如下表所示：

在卷积模块中，如图3所示，采用了亚像素卷积算法，图中Hidden layers表示传统的卷积神经网络层，后面的两部分表示亚像素卷积操作；如果我们需要将图像放大3倍，那么在亚像素卷积过程生成特征图，然后将9个特征图按照特定顺序拼接在一起，以生成所需的3倍大的图像。按照这一思想，亚像素卷积操作通过前面的卷积神经网络来获得放大倍数的平方个低分辨率特征图，然后将其组合成大尺寸高分辨率特征图；

在残差模块中，通过在残差模型块中增加ReLu激活层前的卷积核数量，来增加特征图的宽度，从而提高图像超分辨率的最终效果，残差模块结构如图4所示；

另外，WDSR模型还引入了标准化模块，所述标准化模块采用权重标准化方法(WeightNormalization，WN)，更适合图像超分辨率。相对于批标准化方法(BatchNormalization，BN)，WN的计算量相对较低，而且不会因为mini-batch的随机性而引入噪声统计，在RNN、LSTM等模型上表现出更加优秀的性能。WN具体公式如下：

其中，w是权重，v是k维向量，g是标量，||v||是v的欧式范数。将权重w利用参数向量v和标量g表示。可以发现||w||＝g，与参数v独立，而权重w的方向也变为

因此，将权重向量w由两个独立的参数来表示幅度和方向，这样使得权重w在一个规定的范围内；

步骤S23，将进行上述一系列处理的视频帧图像转换为灰度图，对转换为灰度图后的表情图片进行直方图均衡化，将图像中的灰度值重新进行均匀分布，增加灰度范围和对比度；然后进行模糊处理，增强模型对模糊图像的泛化能力。

进一步地，步骤S2中所述制作人脸表情数据集包括：对已知的人脸表情数据集中的每个人脸表情进行情绪标注，形成包括生气(angry)、厌恶(disgust)、恐惧(fear)、高兴(happy)、悲伤(sad)、惊讶(surprise)和正常(neutral)的七种情绪类别的数据集。这里所用到的人脸表情数据集可以是现有的RAF-DB或AffectNet等人脸表情数据集。

步骤S3，基于制作的人脸表情数据集训练人脸表情识别网络模型，对进行预处理后的视频帧图像提取并标记人脸表情特征。

其中，构建的人脸表情识别网络模型为基于CNN的人脸表情分类识别模型。该人脸表情分类识别模型包括输入层、卷积层、激活层、池化层、全连接层和输出层。以下结合图5对该人脸表情分类识别模型的各层进行介绍：

输入层：在该人脸表情分类识别模型中，输入层具有固定的大小，在对图像进行预处理后将，将预处理后的人脸图片以统一的numpy数组的形式馈入输入层，输入层中一共包含2304个神经元；

卷积层：numpy数组被传递到卷积层中，每个过滤器(3,3)感知区域使用共享权重在原始图像上滑动以创建特征图；通过在整个图像上应用滤波器来创建特征映射，并且在适当的位置应用其他过滤器来创建一组特征图。各层卷积核数分别为16、32、64、64；

激活层：在网络结构中，每层卷积运算后，加入一个激活函数，引入非线性因素，提高模型的表达能力。该模型激活层中采用的激活函数为ReLu函数；

池化层：特征映射中采用最常用的池化方法maxPooling2D，使用(2，2)窗口，步长为2，最终计算并保留最大的像素值，合并的像素值形成尺寸减4的图像；

全连接层：全连接层中的每一个神经元与上一层的所有神经元相连，以整合从上一层提取的特征；该模型中包含两个全连接层，第一个全连接包含2304个神经元，第二个全连接包含128个神经元，最后连接输出层；训练期间将dropout权重为零，以便有效地调控模型对噪声的敏度，同时维持架构必要的复杂性；

输出层：与人脸表情数据集中的7种情绪分类类别相对应的，输出层的输出规模为7，对应于每一种情绪分类类别的概率大小；情绪识别是一种分类问题，最终选择全局平均池化层和softmax激活函数来进行预测。

步骤S4，将标记有人脸表情特征的视频帧图像输入到训练好的人脸表情识别网络模型中，能够得到每个视频帧图像的不同情绪类别的相应预测概率值，将概率最大的情绪类别作为当前视频帧图像的表情识别结果并输出；也就是说，输入图像，能够得到图像中人脸表情所反映的情绪类别，最终输出的情绪类别为人脸表情识别网络模型计算出的生气(Angry)、厌恶(Disgust)、恐惧(Fear)、高兴(Happiness)、悲伤(Sadness)、惊讶(Surprise)及正常(Neutral)的概率最大的一种。

根据测试集混淆矩阵的结果，如图6所示，可以看出生气(Angry)、厌恶(Disgust)、恐惧(Fear)、高兴(Happiness)、悲伤(Sadness)、惊讶(Surprise)及正常(Neutral)在测试集的准确率依次为67％、67％、56％、92％、61％、82％及73％，最后，模型在整个测试集上的精度可以按71.14％计算。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种更有针对性的实时识别儿童或青少年面部表情的方法，相比上述实施例所提供的方法更有针对性，人脸区域具体为存在儿童或青少年面部的区域，人脸表情数据集为儿童青少年面部表情数据集，人脸表情识别网络模型为儿童青少年面部表情识别网络模型，也就是说该方法包括：

步骤SA，实时获取采集到的视频数据，检测每个视频帧图像中是否有儿童或青少年面部区域，提取存在儿童或青少年面部区域的视频帧图像。

步骤SA中检测视频帧图像中是否有儿童或青少年面部区域具体包括：

对当前检测的视频帧图像进行缩放；

利用OpenCV提供的基于ResNet50的神经网络模型对缩放后得到的视频帧图像进行儿童或青少年面部的检测和定位，得到当前检测的视频帧图像的置信度信息；

当置信度大于预设置信度阈值时，判定当前检测的视频帧图像中存在儿童或青少年面部区域。

也就是说，这一步只会提取存在儿童或青少年面部区域的视频帧图像，能够避免对于视频中出现的成人的面部表情的识别。

步骤SB，对提取出的存在儿童或青少年面部区域的视频帧图像进行预处理，并制作儿童青少年面部表情数据集。

步骤SB中对提取出的存在儿童或青少年面部区域的视频帧图像进行预处理具体包括：

对提取出的视频帧图像进行儿童或青少年面部位置检测、归一化和数据增强；

步骤SB中制作儿童青少年面部表情数据集包括：对已知的人脸表情数据集中的每个儿童和青少年面部表情进行情绪标注，形成包括生气、厌恶、恐惧、高兴、悲伤、惊讶和正常的七种情绪类别的数据集。

步骤SC，基于制作的儿童青少年面部表情数据集训练儿童青少年面部表情识别网络模型，以及对进行预处理后的视频帧图像提取并标记人脸表情特征；

步骤SD，将标记有人脸表情特征的视频帧图像输入到训练好的儿童青少年面部表情识别网络模型中，得到每个视频帧图像的不同情绪类别的相应预测概率值，将概率最大的情绪类别作为当前视频帧图像的表情识别结果并输出。

相比目前已有的基于人工智能识别人脸表情的方案，本实施例所提供的方法只会提取存在儿童或青少年面部区域的视频帧图像，同时会专门制作儿童青少年面部表情数据集以及建立儿童青少年面部表情识别网络模型，从而能够避免对于视频中出现的成人的面部表情的识别，以及能够提高对于儿童或青少年表情监测的效率和准确率。

在一个实施例中，如图6所示，提供了一种实时识别儿童或青少年面部表情的装置，包括以下程序模块：

视频帧图像获取模块601，用于实时获取采集到的视频数据，检测每个视频帧图像中是否有人脸区域，提取存在人脸区域的视频帧图像；

预处理模块601，用于对提取出的存在人脸区域的视频帧图像进行预处理，并制作人脸表情数据集；

表情特征提取模块603，用于基于制作的人脸表情数据集训练人脸表情识别网络模型，以及对进行预处理后的视频帧图像提取并标记人脸表情特征；

表情识别模块604，用于将标记有人脸表情特征的视频帧图像输入到训练好的人脸表情识别网络模型中，得到每个视频帧图像的不同情绪类别的相应预测概率值，将概率最大的情绪类别作为当前视频帧图像的表情识别结果并输出。

关于一种实时识别儿童或青少年面部表情的装置的具体限定可以参见上文实施例一中对于一种实时识别儿童或青少年面部表情的方法的限定，在此不再赘述。上述一种实时识别儿童或青少年面部表情的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本发明实施例所提供的一种实时识别儿童或青少年面部表情的装置，是基于人工智能的儿童或青少年面部表情识别解决方案，通过采用卷积神经网络和特定图像预处理组合的方式，能实时对视频中的儿童或青少年面部表情情绪类别进行自动识别；该装置能够通过分析课堂上的儿童或青少年表情的各种指标数据，对儿童或青少年的情绪类别输出可靠的分析结果，在一定程度上可以帮助老师和家长及时了解儿童或青少年的心理和学习状况，从而减少或者避免问题行为的发生，便于对儿童或青少年情况的实时掌控和管理；本发明通过卷积神经网络利用大数据实现了对情绪类别的实时精准分类，避免了传统方法中依靠老师识别儿童或青少年情绪可能由于老师的感性认知或言语干扰导致对儿童或青少年情绪判断不准确的问题。

另外，本发明考虑到光照、距离等原因可能会造成图像失真以及图像分辨率比较低的问题，本发明实施例在对图像的预处理中引入了超分辨率重建技术，能够弥补图像失真以及像素低的问题，具有的有益效果是能够对于儿童或青少年的表情识别更加准确，更近一步能够提升对儿童或青少年情绪监测和识别的准确率，便于学校和家长对儿童或青少年情况能够有更准确的了解。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种实时识别儿童或青少年面部表情的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种实时识别儿童或青少年面部表情的方法，其特征在于，包括：

2.根据权利要求1所述的实时识别儿童或青少年面部表情的方法，其特征在于，步骤S1中检测视频帧图像中是否有人脸区域具体包括：

对当前检测的视频帧图像进行缩放；

3.根据权利要求1所述的实时识别儿童或青少年面部表情的方法，其特征在于，步骤S2中所述对提取出的存在人脸区域的视频帧图像进行预处理具体包括：

4.根据权利要求3所述的实时识别儿童或青少年面部表情的方法，其特征在于，所述归一化的处理公式为：

5.根据权利要求3所述的实时识别儿童或青少年面部表情的方法，其特征在于，所述WDSR模型包括卷积模块、残差模块和上采样模块，所述卷积模块采用亚像素卷积算法；所述预设分辨率阈值为64*64像素。

6.根据权利要求5所述的实时识别儿童或青少年面部表情的方法，其特征在于，所述WDSR模型还包括标准化模块，所述标准化模块采用权重标准化方法，权重标准化方法的计算公式为：

其中，w是权重，v是k维向量，g是标量，||v||是v的欧式范数。

7.根据权利要求1所述的实时识别儿童或青少年面部表情的方法，其特征在于，步骤S2中所述制作人脸表情数据集包括：对已知的人脸表情数据集中的每个人脸表情进行情绪标注，形成包括生气、厌恶、恐惧、高兴、悲伤、惊讶和正常的七种情绪类别的数据集；所述已知的人脸表情数据集为RAF-DB或AffectNet。

8.根据权利要求1所述的实时识别儿童或青少年面部表情的方法，其特征在于，所述人脸表情识别网络模型为基于CNN的人脸表情分类识别模型。

9.根据权利要求1所述的实时识别儿童或青少年面部表情的方法，其特征在于，所述人脸区域为存在儿童或青少年面部的区域，所述人脸表情数据集为儿童青少年面部表情数据集，所述人脸表情识别网络模型为儿童青少年面部表情识别网络模型。

10.一种实时识别儿童或青少年面部表情的装置，其特征在于，包括：