CN114944005A

CN114944005A - 基于roi-knn卷积神经网络的面部表情识别方法

Info

Publication number: CN114944005A
Application number: CN202210879811.8A
Authority: CN
Inventors: 刘磊; 任子晖; 王卫; 高洪昌; 罗晶晶; 倪金林; 闫其筠; 朱仪韵; 朱雪月; 蒋梦媛
Original assignee: Anhui Jiaoxin Technology Co ltd
Current assignee: Anhui Jiaoxin Technology Co ltd
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-08-26

Abstract

本发明公开了基于ROI‑KNN卷积神经网络的面部表情识别方法，该方法包括以下步骤：S1、获取驾驶过程中的驾驶员的视频影像数据；S2、对所述视频影像数据进行人脸定位，提取人脸特征区域；S3、按预设时间间隔截取所述人脸特征区域的视频帧作为面部图像数据；S4、对所述面部图像数据进行增强校正，得到面部表情图像；S5、将所述面部表情图像输入训练后的深度卷积神经网络模型；S6、输出驾驶员面部表情识别结果。通过结合感兴趣区域和K最近邻算法构建的深度卷积神经网络模型，能提高人脸表情数据在识别模型中训练效果，从而降低由于面部表情训练数据过少造成的深度卷积神经网络泛化能力不足的问题，提高面部表情识别的效率。

Description

基于ROI-KNN卷积神经网络的面部表情识别方法

技术领域

本发明涉及表情识别技术领域，具体来说，涉及基于ROI-KNN卷积神经网络的面部表情识别方法。

背景技术

驾驶员的驾驶状态对安全驾驶起着至关重要的作用，通过实时检测出驾驶员的驾驶状态，可以很好地确保驾驶员的安全驾驶。

目前对驾驶员的驾驶状态进行分析判断主要分为接触式和非接触式两大类。其中，接触式方法主要为通过穿戴式设备等检测驾驶员脑电信号、肌电信号等生理信号来判断驾驶员的驾驶状态，该方法主要的缺点是检测过程中会对驾驶员安全驾驶造成影响且成本较高；非接触式的方法分为三小类，第一类是通过检测车辆的行驶轨迹来判断驾驶员的驾驶状态，但是该方法受环境道路影响较大且准确率低，第二种方法是通过实时检测方向盘转动角度、刹车离合受力程度等情况判断驾驶员的驾驶状态，但是该方法受到驾驶员个人的驾驶习惯影响较大；第三种方法是利用计算机视觉方法，利用摄像头拍摄到的驾驶员面部图像判断出驾驶员当前的表情，进而实时检测出驾驶员的驾驶状态，该方法具有实时性好、准确率高的优点，因此，计算机视觉方法检测驾驶员的驾驶状态是当前的主流方向。

因此面部表情识别是情感识别计算中重要的研究课题之一。因为面部五官的独特性，其具有丰富的变化特性，能够构成多种程度与多种组合，从而表现出人的丰富的情感情绪，反映出人最真实的情感表现；即表情能结合人脑中预存的先验知识，构成生物情感认知系统中最敏捷有效的识别部分，也因此面部表情在情感交互中承载了大部分的信息。

而这些情感表现对计算机而言，则是一项异常艰巨的任务。由于计算机不具备人一样的独立思考能力与辨识能力，因此其想要完成表情识别的任务，就需要大量的训练数据，通过构建全面的深度学习的识别模型来完成表情认知，从而降低模型系统的不确定性。然而，目前尚未研究出面部表情的自然大数据集，因此现有的面部表情识别模型系统中存在着许多的未知性，尽管在少数数据集的测试集上表现良好，但当其投入实际应用时，模型系统对大量随机数据的处理与识别能力变得不够理想，也难以保证识别结果的准确度。

授权公告号为CN110348350B，发明名称为一种基于面部表情的驾驶员状态检测方法的中国专利公开了一种检测方法，该方法通过灰度化、Gamma校正以及PCA降维处理，使得面部图像大小减小、特征增强，通过nception结构设计使得面部表情识别卷据神经网络变得更加轻量化，同时具有更好的检测效果即提高了驾驶员状态检测的准确率。但该方法存在一定的不足，其在维持轻量化的过程中，降低了卷积神经网络的训练量及学习能力，应对日益复杂的识别场景时，会影响模型的识别与检测效果。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出基于ROI-KNN卷积神经网络的面部表情识别方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

基于ROI-KNN卷积神经网络的面部表情识别方法，该方法包括以下步骤：

S1、获取驾驶过程中的驾驶员的视频影像数据；

S2、对所述视频影像数据进行人脸定位，提取人脸特征区域；

S3、按预设时间间隔截取所述人脸特征区域的视频帧作为面部图像数据；

S4、对所述面部图像数据进行增强校正，得到面部表情图像；

S5、将所述面部表情图像输入训练后的深度卷积神经网络模型，得到驾驶员面部表情识别结果；

S6、输出所述驾驶员面部表情识别结果。

进一步的，所述对所述视频影像数据进行人脸定位，提取人脸特征区域，包括以下步骤：

S21、将所述视频影像数据中驾驶员发生移动的头部作为运动目标，并利用特征对象法对所述运动目标进行检测与分割；

S22、利用双阈值算法提取所述运动目标的边缘图像；

S23、利用平方投影函数计算所述边缘图像的投影函数；

S24、检测所述投影函数中灰度变化率最高的区域作为人脸区域，并进行分割得到人脸特征区域。

进一步的，所述利用平方投影函数计算所述边缘图像的投影，运算表达式包括：

其中，F(x，y)表示边缘图像像素点坐标函数；

(x，y)表示边缘图像中像素点坐标；

表示边缘图像灰度区域的垂直平方投影；

表示边缘图像灰度区域的水平平方投影；

表示垂直积分投影，其关系式为

；

表示水平积分投影，其关系式为

；

i表示边缘图像中第i个像素点；

y₁与y₂分别表示垂直平方投影的首尾纵坐标；

x₁与x₂分别表示水平平方投影的首尾横坐标；

x_i表示第i个像素点的横坐标；

y_i表示第i个像素点的纵坐标。

进一步的，所述对所述面部图像数据进行增强校正，得到面部表情图像，包括以下步骤：

S41、采用各向异性扩散滤波器对所述面部图像数据进行增强；

S42、对增强后所述面部图像数据进行二值化处理；

S43、利用圆形模板对所述面部图像数据进行扫描，左右对称的寻找最大单一灰度级区域，并取中心点坐标作为近似位置，实现眼睛捕捉粗定位；

S44、在左右两个所述近似位置坐标邻域内进行圆霍夫变换，寻找圆心位置，并将两个圆心位置的坐标分别作为左右眼睛中心位置；

S45、计算左右眼睛中心位置间的夹角，利用线性插值法将所述面部图像数据进行旋转，得到面部表情图像。

进一步的，所述采用各向异性扩散滤波器对所述面部图像数据进行增强的运算表达式为：

其中，

表示（m，n）位置上第t次迭代的像素值；

表示d方向上的扩散系数；

表示迭代操作的步长；

表示方向d上的梯度值；

D表示计算梯度时所选取的方向向量

t表示迭代次数；

d表示D的子集。

进一步的，所述计算左右眼睛中心位置间的夹角的计算表达式为：

其中，

表示左右眼睛中心位置之间的水平夹角；

tg表示正切运算符；

表示右眼的中心位置坐标；

表示左眼的中心位置坐标。

进一步的，所述深度卷积神经网络模型的构建与训练包括以下步骤：

S51、采集大量标注后的人脸数据，构建人脸数据集；

S52、对所述人脸数据进行人脸检测与局部区域提取，得到表情数据图像；

S53、对所述表情数据图像进行关键点检测与标记；

S54、利用标记后的所述表情数据图像组建训练集与测试集，得到有标记的表情数据图像训练集与有标记的表情数据图像测试集；

S55、基于感兴趣区域算法对所述表情数据图像进行区域分割，实现所述训练集的扩充；

S56、构建卷积神经网络模型并导入扩充后的训练集进行训练；

S57、利用K最邻近分类算法中的贪心投票机制融合测试集对所述卷积神经网络模型进行测试；

S58、通过大数据平台获取未进行上述标记过程的表情数据，形成未标记的表情数据集，并利用多模态生成的半监督深度模型对所述卷积神经网络模型进行半监督学习，得到深度卷积神经网络模型。

进一步的，所述卷积神经网络包括3个卷积与最大池化层、1个全连接层与1个逻辑回归层。

进一步的，所述对所述表情数据图像进行关键点检测与标记，包括以下步骤：

S531、利用高斯函数平滑所述表情数据图像，去除噪声；

S532、对平滑后的所述表情数据图像微分，计算梯度图；

S533、求取梯度图中的极大值点作为关键点；

S534、对所述关键点及其邻近区域进行标记。

进一步的，所述多模态生成的半监督深度模型的目标函数为：

其中，J表示目标函数；

表示有标记的表情数据图像训练集中数据的变分下界；

表示未标记的表情数据集中数据的变分下界；

表示标记后的表情数据图像训练集；

表示未标记的表情数据集；

均表示模型参数。

本发明的有益效果为：通过结合感兴趣区域和K最近邻算法构建的深度卷积神经网络模型，能大幅提高人脸表情数据在识别模型中训练效果，从而降低由于面部表情训练数据过少造成的深度卷积神经网络泛化能力不足的问题，改善与优化传统面部表情识别的速率与精确度，并且提高了深度学习在面部表情识别分类中的鲁棒性；同时，配合引入多模态生成模型的半监督学习算法，能够在标注训练集较少的情况下，有效保证模型的学习能力，从而进一步提高模型预测与识别的精度。此外，通过对动态视频图像进行人脸精确检测与定位，配合人脸图像增强与校正，能够保证面部表情识别的精确度，降低后续的计算资源消耗，提高处理的速度。

在应用过程中，对驾驶员面部表情识别时，能够进行多场景识别，保证人脸图像检测与表情数据提取等步骤的高效性与精确性，做到表情检测识别与输出标签的精度，且能够根据后期输入与学习，扩展更多识别场景，从而将驾驶员表情划分为高兴、疲劳、愤怒及悲伤等多种场景，避免驾驶员因情感原因造成危险驾驶甚至安全事故，进而保证驾驶员行车过程中的安全与稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的基于ROI-KNN卷积神经网络的面部表情识别方法的流程图。

具体实施方式

根据本发明的实施例，提供了基于ROI-KNN卷积神经网络的面部表情识别方法。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明实施例的基于ROI-KNN卷积神经网络的面部表情识别方法，该方法包括以下步骤：

S1、获取驾驶过程中的驾驶员的视频影像数据；

S2、对所述视频影像数据进行人脸定位，提取人脸特征区域，包括以下步骤：

S21、将所述视频影像数据中驾驶员发生移动的头部作为运动目标，并利用特征对象法进行运动目标的检测与分割；

S22、利用双阈值算法提取运动目标的边缘图像（边缘图像携带了原始图像的丰富信息，且具有对光照不敏感的特点），包括以下步骤：

S221、设所述视频影像数据的高阈值与低阈值分别为Thre H与Thre L，梯度图像为G（x，y），其表达式：

S222、将处于高阈值与低阈值范围内的点作为候选点Q（x，y），选择从候选点出发的大小不同的两个区域Small和Round，求每个区域的像素值SumSmall和SumRound，关系式为：

其中，n表示小区域中的像素数；

a表示小于小区域像素数的一个常数；

S23、利用平方投影函数计算所述边缘图像的投影函数；

其中，所述利用平方投影函数计算所述边缘图像的投影，运算表达式包括：

其中，F(x，y)表示边缘图像像素点坐标函数（该坐标函数即采用边缘图像的左下角为原点构建的直角坐标系，通过输入像素点的坐标位置构建形成的函数，当x取值x_i值不变时，该坐标函数为竖直方向的一条直线）；

(x，y)表示边缘图像中像素点坐标；

表示边缘图像灰度区域的垂直平方投影；

表示边缘图像灰度区域的水平平方投影；

表示垂直积分投影，其关系式为

；

表示水平积分投影，其关系式为

；

i表示边缘图像中第i个像素点；

y₁与y₂分别表示垂直平方投影的首尾纵坐标；

x₁与x₂分别表示水平平方投影的首尾横坐标；

x_i表示第i个像素点的横坐标；

y_i表示第i个像素点的纵坐标。

人脸的五官具有明显的立体特征，并且五官分布存在特定的比例，即存在一定的布局对人脸形成划分，因此五官在人脸上具有明显的灰度变化率，且被划分后相邻的区域之间也存在较大灰度变化区间。本发明利用灰度变化率的特点进行人脸检测，通过计算投影函数，其具备起伏的特征，来分离出待检测的面部图像中多个相连接的区域，并检测各个区域图像内是否具备人脸，最后选取具备人脸的区域，作为人脸特征区域。

S4、对所述面部图像数据进行增强校正，得到面部表情图像，包括以下步骤：

本发明选取各向异性扩散滤波器，因为该滤波器不仅能够平滑噪声，而且具有较好的边界保持效果。在使用过程中能使非边界区域实施较好的平滑并维持边界的信息，另外该滤波器所需的操作窗口、运算量都较小，具备丰富的功能效果与实用性。

其中，所述采用各向异性扩散滤波器对所述面部图像数据进行增强的运算表达式为：

其中，

表示（m，n）位置上第t次迭代的像素值；

表示d方向上的扩散系数；

表示迭代操作的步长；

表示方向d上的梯度值；

D表示计算梯度时所选取的方向向量

t表示迭代次数；

d表示D的子集。

S42、对增强后所述面部图像数据进行二值化处理；

其中，利用霍夫变换可以精确地找到近似位置坐标领域内的圆心的位置，即分别在左右眼近似坐标邻域内进行圆霍夫变换，寻找圆心位置，即为双眼中心位置。但直接用霍夫变换进行处理可能在其他位置也会找到圆，这样就会造成误判别，因此配合本发明中公开的从粗到精的方法可以避免误判的问题，并且能够提高处理的速度。

其中，所述计算左右眼睛中心位置间的夹角的计算表达式为：

其中，

表示左右眼睛中心位置之间的水平夹角；

tg表示正切运算符；

表示右眼的中心位置坐标；

表示左眼的中心位置坐标。

其中，所述深度卷积神经网络模型的构建与训练包括以下步骤：

S51、采集大量标注后的人脸数据，构建人脸数据集；

S53、对所述表情数据图像进行关键点检测与标记，包括以下步骤：

S531、利用高斯函数平滑所述表情数据图像，去除噪声；

S532、对平滑后的所述表情数据图像微分，计算梯度图；

S533、求取梯度图中的极大值点作为关键点；

S534、对所述关键点及其邻近区域进行标记。

S55、基于感兴趣区域算法（ROI）对所述表情数据图像进行区域分割，实现所述训练集的扩充；

本发明根据人脸的面部结构，重点关注眼、鼻、嘴在不同表情中的区别，设置9个不同的感兴趣区域，并主动引导神经网络关注与表情相关的面部区域。通过切割、翻转、遮盖及中心聚焦等手段来设置ROI区域；并且预先进行人脸特征区域的检测，将具有代表性的面部特征占据图像的大部分区域，从而保证面部ROI区域不存在较大偏差。

其中，所述卷积神经网络包括3个卷积与最大池化（Max pooling）层、1个全连接层与1个逻辑回归（Softmax）层。

除Softmax层之外，其余各层激活函数均为ReLU，卷积层输出激活后，再输入到Maxpooling层，权值W的初始化采用Krizhevsky等叫的零均值、常数标准差方案。

S57、利用K最邻近分类算法（KNN）中的贪心投票机制融合测试集对所述卷积神经网络模型进行测试；

KNN具有出色且简单的归并能力，它通过建立贪心投票机制，让多个判别目标联合，缩小最终的判别范围，强化最终的判别信度。本发明中，在对模型进行测试时，通过对划分的9个ROI区域的判别结果进行投票，通过投票的方式确定最终可信的判断结果，即取票数最多的判别结果作为最终结果，在线归并原始结果，将最终得到的结果作为本发明中用于表情识别的模型输出。

其中，所述多模态生成的半监督深度模型的目标函数为：

其中，J表示目标函数；

表示有标记的表情数据图像训练集中数据的变分下界；

表示未标记的表情数据集中数据的变分下界；

表示标记后的表情数据图像训练集；

表示未标记的表情数据集；

均表示模型参数。

此外，基于多模态生成的半监督深度模型的学习过程如下：

输入：数据集

：N=100，M=49900，K=1，H=99，L取值为1；

输出：模型参数

随机初始化参数

REPEAT：

DO{

将

随机打乱，从中取1个样本；

将

随机打乱，从中取99个样本，将这100个样本作为一个批次；

DO{

1.标记样本输人到推理模型得到隐变量的均值μ和方差∑；

2.从噪声的高斯分布中采样出ε，对均值μ和方差∑进行重参数化技巧采样；

3.重参数化后的隐变量z，输人到两个生成模型分别生成数据x和标签概率y；

4.同时无标记样本输人到分类器预测得到标签y，将样本与预测的标签相连接通过推理模型得到隐变量的均值μ和方差∑；

5.从噪声的高斯分布中采样出ε，对均值μ和方差∑进行重参数化技巧采样；

6.重参数化后的隐变量z，经过两个生成模型生成数据x和标签概率y；

7.对标记样本和无标记样本计算变分下界；

8.对变分下界取负值后得到损失函数；

9.结合Adam Optimizer优化器最小化损失函数；

10.更新推理模型和生成模型的参数

；

}WHILE（数据集全部取完）

}WHILE（参数

收敛）

终止算法

RETURN参数

综上所述，借助于本发明的上述技术方案，通过结合感兴趣区域和K最近邻算法构建的深度卷积神经网络模型，能大幅提高人脸表情数据在识别模型中训练效果，从而降低由于面部表情训练数据过少造成的深度卷积神经网络泛化能力不足的问题，改善与优化传统面部表情识别的速率与精确度，并且提高了深度学习在面部表情识别分类中的鲁棒性；同时，配合引入多模态生成模型的半监督学习算法，能够在标注训练集较少的情况下，有效保证模型的学习能力，从而进一步提高模型预测与识别的精度。此外，通过对动态视频图像进行人脸精确检测与定位，配合人脸图像增强与校正，能够保证面部表情识别的精确度，降低后续的计算资源消耗，提高处理的速度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。