CN114944005A - 基于roi-knn卷积神经网络的面部表情识别方法 - Google Patents

基于roi-knn卷积神经网络的面部表情识别方法 Download PDF

Info

Publication number
CN114944005A
CN114944005A CN202210879811.8A CN202210879811A CN114944005A CN 114944005 A CN114944005 A CN 114944005A CN 202210879811 A CN202210879811 A CN 202210879811A CN 114944005 A CN114944005 A CN 114944005A
Authority
CN
China
Prior art keywords
neural network
image
convolutional neural
data
facial expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210879811.8A
Other languages
English (en)
Inventor
刘磊
任子晖
王卫
高洪昌
罗晶晶
倪金林
闫其筠
朱仪韵
朱雪月
蒋梦媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Jiaoxin Technology Co ltd
Original Assignee
Anhui Jiaoxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Jiaoxin Technology Co ltd filed Critical Anhui Jiaoxin Technology Co ltd
Priority to CN202210879811.8A priority Critical patent/CN114944005A/zh
Publication of CN114944005A publication Critical patent/CN114944005A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/80Technologies aiming to reduce greenhouse gasses emissions common to all road transportation technologies
    • Y02T10/84Data processing systems or methods, management, administration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于ROI‑KNN卷积神经网络的面部表情识别方法,该方法包括以下步骤:S1、获取驾驶过程中的驾驶员的视频影像数据;S2、对所述视频影像数据进行人脸定位,提取人脸特征区域;S3、按预设时间间隔截取所述人脸特征区域的视频帧作为面部图像数据;S4、对所述面部图像数据进行增强校正,得到面部表情图像;S5、将所述面部表情图像输入训练后的深度卷积神经网络模型;S6、输出驾驶员面部表情识别结果。通过结合感兴趣区域和K最近邻算法构建的深度卷积神经网络模型,能提高人脸表情数据在识别模型中训练效果,从而降低由于面部表情训练数据过少造成的深度卷积神经网络泛化能力不足的问题,提高面部表情识别的效率。

Description

基于ROI-KNN卷积神经网络的面部表情识别方法
技术领域
本发明涉及表情识别技术领域,具体来说,涉及基于ROI-KNN卷积神经网络的面部表情识别方法。
背景技术
驾驶员的驾驶状态对安全驾驶起着至关重要的作用,通过实时检测出驾驶员的驾驶状态,可以很好地确保驾驶员的安全驾驶。
目前对驾驶员的驾驶状态进行分析判断主要分为接触式和非接触式两大类。其中,接触式方法主要为通过穿戴式设备等检测驾驶员脑电信号、肌电信号等生理信号来判断驾驶员的驾驶状态,该方法主要的缺点是检测过程中会对驾驶员安全驾驶造成影响且成本较高;非接触式的方法分为三小类,第一类是通过检测车辆的行驶轨迹来判断驾驶员的驾驶状态,但是该方法受环境道路影响较大且准确率低,第二种方法是通过实时检测方向盘转动角度、刹车离合受力程度等情况判断驾驶员的驾驶状态,但是该方法受到驾驶员个人的驾驶习惯影响较大;第三种方法是利用计算机视觉方法,利用摄像头拍摄到的驾驶员面部图像判断出驾驶员当前的表情,进而实时检测出驾驶员的驾驶状态,该方法具有实时性好、准确率高的优点,因此,计算机视觉方法检测驾驶员的驾驶状态是当前的主流方向。
因此面部表情识别是情感识别计算中重要的研究课题之一。因为面部五官的独特性,其具有丰富的变化特性,能够构成多种程度与多种组合,从而表现出人的丰富的情感情绪,反映出人最真实的情感表现;即表情能结合人脑中预存的先验知识,构成生物情感认知系统中最敏捷有效的识别部分,也因此面部表情在情感交互中承载了大部分的信息。
而这些情感表现对计算机而言,则是一项异常艰巨的任务。由于计算机不具备人一样的独立思考能力与辨识能力,因此其想要完成表情识别的任务,就需要大量的训练数据,通过构建全面的深度学习的识别模型来完成表情认知,从而降低模型系统的不确定性。然而,目前尚未研究出面部表情的自然大数据集,因此现有的面部表情识别模型系统中存在着许多的未知性,尽管在少数数据集的测试集上表现良好,但当其投入实际应用时,模型系统对大量随机数据的处理与识别能力变得不够理想,也难以保证识别结果的准确度。
授权公告号为CN110348350B,发明名称为一种基于面部表情的驾驶员状态检测方法的中国专利公开了一种检测方法,该方法通过灰度化、Gamma校正以及PCA降维处理,使得面部图像大小减小、特征增强,通过nception结构设计使得面部表情识别卷据神经网络变得更加轻量化,同时具有更好的检测效果即提高了驾驶员状态检测的准确率。但该方法存在一定的不足,其在维持轻量化的过程中,降低了卷积神经网络的训练量及学习能力,应对日益复杂的识别场景时,会影响模型的识别与检测效果。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出基于ROI-KNN卷积神经网络的面部表情识别方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
基于ROI-KNN卷积神经网络的面部表情识别方法,该方法包括以下步骤:
S1、获取驾驶过程中的驾驶员的视频影像数据;
S2、对所述视频影像数据进行人脸定位,提取人脸特征区域;
S3、按预设时间间隔截取所述人脸特征区域的视频帧作为面部图像数据;
S4、对所述面部图像数据进行增强校正,得到面部表情图像;
S5、将所述面部表情图像输入训练后的深度卷积神经网络模型,得到驾驶员面部表情识别结果;
S6、输出所述驾驶员面部表情识别结果。
进一步的,所述对所述视频影像数据进行人脸定位,提取人脸特征区域,包括以下步骤:
S21、将所述视频影像数据中驾驶员发生移动的头部作为运动目标,并利用特征对象法对所述运动目标进行检测与分割;
S22、利用双阈值算法提取所述运动目标的边缘图像;
S23、利用平方投影函数计算所述边缘图像的投影函数;
S24、检测所述投影函数中灰度变化率最高的区域作为人脸区域,并进行分割得到人脸特征区域。
进一步的,所述利用平方投影函数计算所述边缘图像的投影,运算表达式包括:
Figure 532678DEST_PATH_IMAGE001
Figure 474090DEST_PATH_IMAGE002
其中,F(x,y)表示边缘图像像素点坐标函数;
(x,y)表示边缘图像中像素点坐标;
Figure 587539DEST_PATH_IMAGE003
表示边缘图像灰度区域的垂直平方投影;
Figure 981611DEST_PATH_IMAGE004
表示边缘图像灰度区域的水平平方投影;
Figure 205919DEST_PATH_IMAGE005
表示垂直积分投影,其关系式为
Figure 736258DEST_PATH_IMAGE006
Figure 20609DEST_PATH_IMAGE007
表示水平积分投影,其关系式为
Figure 151244DEST_PATH_IMAGE008
i表示边缘图像中第i个像素点;
y1与y2分别表示垂直平方投影的首尾纵坐标;
x1与x2分别表示水平平方投影的首尾横坐标;
xi表示第i个像素点的横坐标;
yi表示第i个像素点的纵坐标。
进一步的,所述对所述面部图像数据进行增强校正,得到面部表情图像,包括以下步骤:
S41、采用各向异性扩散滤波器对所述面部图像数据进行增强;
S42、对增强后所述面部图像数据进行二值化处理;
S43、利用圆形模板对所述面部图像数据进行扫描,左右对称的寻找最大单一灰度级区域,并取中心点坐标作为近似位置,实现眼睛捕捉粗定位;
S44、在左右两个所述近似位置坐标邻域内进行圆霍夫变换,寻找圆心位置,并将两个圆心位置的坐标分别作为左右眼睛中心位置;
S45、计算左右眼睛中心位置间的夹角,利用线性插值法将所述面部图像数据进行旋转,得到面部表情图像。
进一步的,所述采用各向异性扩散滤波器对所述面部图像数据进行增强的运算表达式为:
Figure 179243DEST_PATH_IMAGE009
其中,
Figure 829668DEST_PATH_IMAGE010
表示(m,n)位置上第t次迭代的像素值;
Figure 19340DEST_PATH_IMAGE011
表示d方向上的扩散系数;
Figure 388005DEST_PATH_IMAGE012
表示迭代操作的步长;
Figure 954115DEST_PATH_IMAGE013
表示方向d上的梯度值;
D表示计算梯度时所选取的方向向量
t表示迭代次数;
d表示D的子集。
进一步的,所述计算左右眼睛中心位置间的夹角的计算表达式为:
Figure 255784DEST_PATH_IMAGE014
其中,
Figure 85199DEST_PATH_IMAGE015
表示左右眼睛中心位置之间的水平夹角;
tg表示正切运算符;
Figure 472318DEST_PATH_IMAGE016
表示右眼的中心位置坐标;
Figure 842120DEST_PATH_IMAGE017
表示左眼的中心位置坐标。
进一步的,所述深度卷积神经网络模型的构建与训练包括以下步骤:
S51、采集大量标注后的人脸数据,构建人脸数据集;
S52、对所述人脸数据进行人脸检测与局部区域提取,得到表情数据图像;
S53、对所述表情数据图像进行关键点检测与标记;
S54、利用标记后的所述表情数据图像组建训练集与测试集,得到有标记的表情数据图像训练集与有标记的表情数据图像测试集;
S55、基于感兴趣区域算法对所述表情数据图像进行区域分割,实现所述训练集的扩充;
S56、构建卷积神经网络模型并导入扩充后的训练集进行训练;
S57、利用K最邻近分类算法中的贪心投票机制融合测试集对所述卷积神经网络模型进行测试;
S58、通过大数据平台获取未进行上述标记过程的表情数据,形成未标记的表情数据集,并利用多模态生成的半监督深度模型对所述卷积神经网络模型进行半监督学习,得到深度卷积神经网络模型。
进一步的,所述卷积神经网络包括3个卷积与最大池化层、1个全连接层与1个逻辑回归层。
进一步的,所述对所述表情数据图像进行关键点检测与标记,包括以下步骤:
S531、利用高斯函数平滑所述表情数据图像,去除噪声;
S532、对平滑后的所述表情数据图像微分,计算梯度图;
S533、求取梯度图中的极大值点作为关键点;
S534、对所述关键点及其邻近区域进行标记。
进一步的,所述多模态生成的半监督深度模型的目标函数为:
Figure 450825DEST_PATH_IMAGE018
其中,J表示目标函数;
Figure 247879DEST_PATH_IMAGE019
表示有标记的表情数据图像训练集中数据的变分下界;
Figure 325557DEST_PATH_IMAGE020
表示未标记的表情数据集中数据的变分下界;
Figure 499049DEST_PATH_IMAGE021
表示标记后的表情数据图像训练集;
Figure 509731DEST_PATH_IMAGE022
表示未标记的表情数据集;
Figure 946528DEST_PATH_IMAGE023
均表示模型参数。
本发明的有益效果为:通过结合感兴趣区域和K最近邻算法构建的深度卷积神经网络模型,能大幅提高人脸表情数据在识别模型中训练效果,从而降低由于面部表情训练数据过少造成的深度卷积神经网络泛化能力不足的问题,改善与优化传统面部表情识别的速率与精确度,并且提高了深度学习在面部表情识别分类中的鲁棒性;同时,配合引入多模态生成模型的半监督学习算法,能够在标注训练集较少的情况下,有效保证模型的学习能力,从而进一步提高模型预测与识别的精度。此外,通过对动态视频图像进行人脸精确检测与定位,配合人脸图像增强与校正,能够保证面部表情识别的精确度,降低后续的计算资源消耗,提高处理的速度。
在应用过程中,对驾驶员面部表情识别时,能够进行多场景识别,保证人脸图像检测与表情数据提取等步骤的高效性与精确性,做到表情检测识别与输出标签的精度,且能够根据后期输入与学习,扩展更多识别场景,从而将驾驶员表情划分为高兴、疲劳、愤怒及悲伤等多种场景,避免驾驶员因情感原因造成危险驾驶甚至安全事故,进而保证驾驶员行车过程中的安全与稳定性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的基于ROI-KNN卷积神经网络的面部表情识别方法的流程图。
具体实施方式
根据本发明的实施例,提供了基于ROI-KNN卷积神经网络的面部表情识别方法。
现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明实施例的基于ROI-KNN卷积神经网络的面部表情识别方法,该方法包括以下步骤:
S1、获取驾驶过程中的驾驶员的视频影像数据;
S2、对所述视频影像数据进行人脸定位,提取人脸特征区域,包括以下步骤:
S21、将所述视频影像数据中驾驶员发生移动的头部作为运动目标,并利用特征对象法进行运动目标的检测与分割;
S22、利用双阈值算法提取运动目标的边缘图像(边缘图像携带了原始图像的丰富信息,且具有对光照不敏感的特点),包括以下步骤:
S221、设所述视频影像数据的高阈值与低阈值分别为Thre H与Thre L,梯度图像为G(x,y),其表达式:
Figure 42660DEST_PATH_IMAGE024
S222、将处于高阈值与低阈值范围内的点作为候选点Q(x,y),选择从候选点出发的大小不同的两个区域Small和Round,求每个区域的像素值SumSmall和SumRound,关系式为:
Figure 754264DEST_PATH_IMAGE025
其中,n表示小区域中的像素数;
a表示小于小区域像素数的一个常数;
S23、利用平方投影函数计算所述边缘图像的投影函数;
其中,所述利用平方投影函数计算所述边缘图像的投影,运算表达式包括:
Figure 88293DEST_PATH_IMAGE001
Figure 227151DEST_PATH_IMAGE002
其中,F(x,y)表示边缘图像像素点坐标函数(该坐标函数即采用边缘图像的左下角为原点构建的直角坐标系,通过输入像素点的坐标位置构建形成的函数,当x取值xi值不变时,该坐标函数为竖直方向的一条直线);
(x,y)表示边缘图像中像素点坐标;
Figure 528688DEST_PATH_IMAGE003
表示边缘图像灰度区域的垂直平方投影;
Figure 778404DEST_PATH_IMAGE004
表示边缘图像灰度区域的水平平方投影;
Figure 763677DEST_PATH_IMAGE005
表示垂直积分投影,其关系式为
Figure 542277DEST_PATH_IMAGE006
Figure 613002DEST_PATH_IMAGE007
表示水平积分投影,其关系式为
Figure 666408DEST_PATH_IMAGE008
i表示边缘图像中第i个像素点;
y1与y2分别表示垂直平方投影的首尾纵坐标;
x1与x2分别表示水平平方投影的首尾横坐标;
xi表示第i个像素点的横坐标;
yi表示第i个像素点的纵坐标。
S24、检测所述投影函数中灰度变化率最高的区域作为人脸区域,并进行分割得到人脸特征区域。
人脸的五官具有明显的立体特征,并且五官分布存在特定的比例,即存在一定的布局对人脸形成划分,因此五官在人脸上具有明显的灰度变化率,且被划分后相邻的区域之间也存在较大灰度变化区间。本发明利用灰度变化率的特点进行人脸检测,通过计算投影函数,其具备起伏的特征,来分离出待检测的面部图像中多个相连接的区域,并检测各个区域图像内是否具备人脸,最后选取具备人脸的区域,作为人脸特征区域。
S3、按预设时间间隔截取所述人脸特征区域的视频帧作为面部图像数据;
S4、对所述面部图像数据进行增强校正,得到面部表情图像,包括以下步骤:
S41、采用各向异性扩散滤波器对所述面部图像数据进行增强;
本发明选取各向异性扩散滤波器,因为该滤波器不仅能够平滑噪声,而且具有较好的边界保持效果。在使用过程中能使非边界区域实施较好的平滑并维持边界的信息,另外该滤波器所需的操作窗口、运算量都较小,具备丰富的功能效果与实用性。
其中,所述采用各向异性扩散滤波器对所述面部图像数据进行增强的运算表达式为:
Figure 975030DEST_PATH_IMAGE009
其中,
Figure 455690DEST_PATH_IMAGE010
表示(m,n)位置上第t次迭代的像素值;
Figure 748131DEST_PATH_IMAGE011
表示d方向上的扩散系数;
Figure 74070DEST_PATH_IMAGE012
表示迭代操作的步长;
Figure 768357DEST_PATH_IMAGE013
表示方向d上的梯度值;
D表示计算梯度时所选取的方向向量
t表示迭代次数;
d表示D的子集。
S42、对增强后所述面部图像数据进行二值化处理;
S43、利用圆形模板对所述面部图像数据进行扫描,左右对称的寻找最大单一灰度级区域,并取中心点坐标作为近似位置,实现眼睛捕捉粗定位;
S44、在左右两个所述近似位置坐标邻域内进行圆霍夫变换,寻找圆心位置,并将两个圆心位置的坐标分别作为左右眼睛中心位置;
其中,利用霍夫变换可以精确地找到近似位置坐标领域内的圆心的位置,即分别在左右眼近似坐标邻域内进行圆霍夫变换,寻找圆心位置,即为双眼中心位置。但直接用霍夫变换进行处理可能在其他位置也会找到圆,这样就会造成误判别,因此配合本发明中公开的从粗到精的方法可以避免误判的问题,并且能够提高处理的速度。
S45、计算左右眼睛中心位置间的夹角,利用线性插值法将所述面部图像数据进行旋转,得到面部表情图像。
其中,所述计算左右眼睛中心位置间的夹角的计算表达式为:
Figure 149746DEST_PATH_IMAGE014
其中,
Figure 195062DEST_PATH_IMAGE015
表示左右眼睛中心位置之间的水平夹角;
tg表示正切运算符;
Figure 590271DEST_PATH_IMAGE026
表示右眼的中心位置坐标;
Figure 607906DEST_PATH_IMAGE017
表示左眼的中心位置坐标。
S5、将所述面部表情图像输入训练后的深度卷积神经网络模型,得到驾驶员面部表情识别结果;
其中,所述深度卷积神经网络模型的构建与训练包括以下步骤:
S51、采集大量标注后的人脸数据,构建人脸数据集;
S52、对所述人脸数据进行人脸检测与局部区域提取,得到表情数据图像;
S53、对所述表情数据图像进行关键点检测与标记,包括以下步骤:
S531、利用高斯函数平滑所述表情数据图像,去除噪声;
S532、对平滑后的所述表情数据图像微分,计算梯度图;
S533、求取梯度图中的极大值点作为关键点;
S534、对所述关键点及其邻近区域进行标记。
S54、利用标记后的所述表情数据图像组建训练集与测试集,得到有标记的表情数据图像训练集与有标记的表情数据图像测试集;
S55、基于感兴趣区域算法(ROI)对所述表情数据图像进行区域分割,实现所述训练集的扩充;
本发明根据人脸的面部结构,重点关注眼、鼻、嘴在不同表情中的区别,设置9个不同的感兴趣区域,并主动引导神经网络关注与表情相关的面部区域。通过切割、翻转、遮盖及中心聚焦等手段来设置ROI区域;并且预先进行人脸特征区域的检测,将具有代表性的面部特征占据图像的大部分区域,从而保证面部ROI区域不存在较大偏差。
S56、构建卷积神经网络模型并导入扩充后的训练集进行训练;
其中,所述卷积神经网络包括3个卷积与最大池化(Max pooling)层、1个全连接层与1个逻辑回归(Softmax)层。
除Softmax层之外,其余各层激活函数均为ReLU,卷积层输出激活后,再输入到Maxpooling层,权值W的初始化采用Krizhevsky等叫的零均值、常数标准差方案。
S57、利用K最邻近分类算法(KNN)中的贪心投票机制融合测试集对所述卷积神经网络模型进行测试;
KNN具有出色且简单的归并能力,它通过建立贪心投票机制,让多个判别目标联合,缩小最终的判别范围,强化最终的判别信度。本发明中,在对模型进行测试时,通过对划分的9个ROI区域的判别结果进行投票,通过投票的方式确定最终可信的判断结果,即取票数最多的判别结果作为最终结果,在线归并原始结果,将最终得到的结果作为本发明中用于表情识别的模型输出。
S58、通过大数据平台获取未进行上述标记过程的表情数据,形成未标记的表情数据集,并利用多模态生成的半监督深度模型对所述卷积神经网络模型进行半监督学习,得到深度卷积神经网络模型。
其中,所述多模态生成的半监督深度模型的目标函数为:
Figure 695948DEST_PATH_IMAGE018
其中,J表示目标函数;
Figure 962981DEST_PATH_IMAGE019
表示有标记的表情数据图像训练集中数据的变分下界;
Figure 630723DEST_PATH_IMAGE020
表示未标记的表情数据集中数据的变分下界;
Figure 34022DEST_PATH_IMAGE021
表示标记后的表情数据图像训练集;
Figure 761807DEST_PATH_IMAGE022
表示未标记的表情数据集;
Figure 516136DEST_PATH_IMAGE023
均表示模型参数。
此外,基于多模态生成的半监督深度模型的学习过程如下:
输入:数据集
Figure 253148DEST_PATH_IMAGE027
:N=100,M=49900,K=1,H=99,L取值为1;
输出:模型参数
Figure 494642DEST_PATH_IMAGE028
随机初始化参数
Figure 924487DEST_PATH_IMAGE028
REPEAT:
DO{
Figure 900533DEST_PATH_IMAGE027
随机打乱,从中取1个样本;
Figure 910077DEST_PATH_IMAGE029
随机打乱,从中取99个样本,将这100个样本作为一个批次;
DO{
1.标记样本输人到推理模型得到隐变量的均值μ和方差∑;
2.从噪声的高斯分布中采样出ε,对均值μ和方差∑进行重参数化技巧采样;
3.重参数化后的隐变量z,输人到两个生成模型分别生成数据x和标签概率y;
4.同时无标记样本输人到分类器预测得到标签y,将样本与预测的标签相连接通过推理模型得到隐变量的均值μ和方差∑;
5.从噪声的高斯分布中采样出ε,对均值μ和方差∑进行重参数化技巧采样;
6.重参数化后的隐变量z,经过两个生成模型生成数据x和标签概率y;
7.对标记样本和无标记样本计算变分下界;
8.对变分下界取负值后得到损失函数;
9.结合Adam Optimizer优化器最小化损失函数;
10.更新推理模型和生成模型的参数
Figure 553548DEST_PATH_IMAGE028
}WHILE(数据集全部取完)
}WHILE(参数
Figure 888714DEST_PATH_IMAGE028
收敛)
终止算法
RETURN参数
Figure 86478DEST_PATH_IMAGE028
综上所述,借助于本发明的上述技术方案,通过结合感兴趣区域和K最近邻算法构建的深度卷积神经网络模型,能大幅提高人脸表情数据在识别模型中训练效果,从而降低由于面部表情训练数据过少造成的深度卷积神经网络泛化能力不足的问题,改善与优化传统面部表情识别的速率与精确度,并且提高了深度学习在面部表情识别分类中的鲁棒性;同时,配合引入多模态生成模型的半监督学习算法,能够在标注训练集较少的情况下,有效保证模型的学习能力,从而进一步提高模型预测与识别的精度。此外,通过对动态视频图像进行人脸精确检测与定位,配合人脸图像增强与校正,能够保证面部表情识别的精确度,降低后续的计算资源消耗,提高处理的速度。
在应用过程中,对驾驶员面部表情识别时,能够进行多场景识别,保证人脸图像检测与表情数据提取等步骤的高效性与精确性,做到表情检测识别与输出标签的精度,且能够根据后期输入与学习,扩展更多识别场景,从而将驾驶员表情划分为高兴、疲劳、愤怒及悲伤等多种场景,避免驾驶员因情感原因造成危险驾驶甚至安全事故,进而保证驾驶员行车过程中的安全与稳定性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于ROI-KNN卷积神经网络的面部表情识别方法,其特征在于,该方法包括以下步骤:
S1、获取驾驶过程中的驾驶员的视频影像数据;
S2、对所述视频影像数据进行人脸定位,提取人脸特征区域;
S3、按预设时间间隔截取所述人脸特征区域的视频帧作为面部图像数据;
S4、对所述面部图像数据进行增强校正,得到面部表情图像;
S5、将所述面部表情图像输入训练后的深度卷积神经网络模型,得到驾驶员面部表情识别结果;
S6、输出所述驾驶员面部表情识别结果。
2.根据权利要求1所述的基于ROI-KNN卷积神经网络的面部表情识别方法,其特征在于,所述对所述视频影像数据进行人脸定位,提取人脸特征区域,包括以下步骤:
S21、将所述视频影像数据中驾驶员发生移动的头部作为运动目标,并利用特征对象法对所述运动目标进行检测与分割;
S22、利用双阈值算法提取所述运动目标的边缘图像;
S23、利用平方投影函数计算所述边缘图像的投影函数;
S24、检测所述投影函数中灰度变化率最高的区域作为人脸区域,并进行分割得到人脸特征区域。
3.根据权利要求2所述的基于ROI-KNN卷积神经网络的面部表情识别方法,其特征在于,所述利用平方投影函数计算所述边缘图像的投影,运算表达式包括:
Figure 724294DEST_PATH_IMAGE001
Figure 34053DEST_PATH_IMAGE002
其中,F(x,y)表示边缘图像像素点坐标函数;
(x,y)表示边缘图像中像素点坐标;
Figure 180476DEST_PATH_IMAGE003
表示边缘图像灰度区域的垂直平方投影;
Figure 233883DEST_PATH_IMAGE004
表示边缘图像灰度区域的水平平方投影;
Figure 339242DEST_PATH_IMAGE005
表示垂直积分投影,其关系式为
Figure 819902DEST_PATH_IMAGE006
Figure 643501DEST_PATH_IMAGE007
表示水平积分投影,其关系式为
Figure 500599DEST_PATH_IMAGE008
i表示边缘图像中第i个像素点;
y1与y2分别表示垂直平方投影的首尾纵坐标;
x1与x2分别表示水平平方投影的首尾横坐标;
xi表示第i个像素点的横坐标;
yi表示第i个像素点的纵坐标。
4.根据权利要求1所述的基于ROI-KNN卷积神经网络的面部表情识别方法,其特征在于,所述对所述面部图像数据进行增强校正,得到面部表情图像,包括以下步骤:
S41、采用各向异性扩散滤波器对所述面部图像数据进行增强;
S42、对增强后所述面部图像数据进行二值化处理;
S43、利用圆形模板对所述面部图像数据进行扫描,左右对称的寻找最大单一灰度级区域,并取中心点坐标作为近似位置,实现眼睛捕捉粗定位;
S44、在左右两个所述近似位置坐标邻域内进行圆霍夫变换,寻找圆心位置,并将两个圆心位置的坐标分别作为左右眼睛中心位置;
S45、计算左右眼睛中心位置间的夹角,利用线性插值法将所述面部图像数据进行旋转,得到面部表情图像。
5.根据权利要求4所述的基于ROI-KNN卷积神经网络的面部表情识别方法,其特征在于,所述采用各向异性扩散滤波器对所述面部图像数据进行增强的运算表达式为:
Figure 273514DEST_PATH_IMAGE009
其中,
Figure 925075DEST_PATH_IMAGE010
表示(m,n)位置上第t次迭代的像素值;
Figure 501550DEST_PATH_IMAGE011
表示d方向上的扩散系数;
Figure 896759DEST_PATH_IMAGE012
表示迭代操作的步长;
Figure 711132DEST_PATH_IMAGE013
表示方向d上的梯度值;
D表示计算梯度时所选取的方向向量
t表示迭代次数;
d表示D的子集。
6.根据权利要求4所述的基于ROI-KNN卷积神经网络的面部表情识别方法,其特征在于,所述计算左右眼睛中心位置间的夹角的计算表达式为:
Figure 799173DEST_PATH_IMAGE014
其中,
Figure 348097DEST_PATH_IMAGE015
表示左右眼睛中心位置之间的水平夹角;
tg表示正切运算符;
Figure 546998DEST_PATH_IMAGE016
表示右眼的中心位置坐标;
Figure 278193DEST_PATH_IMAGE017
表示左眼的中心位置坐标。
7.根据权利要求1所述的基于ROI-KNN卷积神经网络的面部表情识别方法,其特征在于,所述深度卷积神经网络模型的构建与训练包括以下步骤:
S51、采集大量标注后的人脸数据,构建人脸数据集;
S52、对所述人脸数据进行人脸检测与局部区域提取,得到表情数据图像;
S53、对所述表情数据图像进行关键点检测与标记;
S54、利用标记后的所述表情数据图像组建训练集与测试集,得到有标记的表情数据图像训练集与有标记的表情数据图像测试集;
S55、基于感兴趣区域算法对所述表情数据图像进行区域分割,实现所述训练集的扩充;
S56、构建卷积神经网络模型并导入扩充后的训练集进行训练;
S57、利用K最邻近分类算法中的贪心投票机制融合测试集对所述卷积神经网络模型进行测试;
S58、通过大数据平台获取未进行上述标记过程的表情数据,形成未标记的表情数据集,并利用多模态生成的半监督深度模型对所述卷积神经网络模型进行半监督学习,得到深度卷积神经网络模型。
8.根据权利要求7所述的基于ROI-KNN卷积神经网络的面部表情识别方法,其特征在于,所述卷积神经网络包括3个卷积与最大池化层、1个全连接层与1个逻辑回归层。
9.根据权利要求7所述的基于ROI-KNN卷积神经网络的面部表情识别方法,其特征在于,所述对所述表情数据图像进行关键点检测与标记,包括以下步骤:
S531、利用高斯函数平滑所述表情数据图像,去除噪声;
S532、对平滑后的所述表情数据图像微分,计算梯度图;
S533、求取梯度图中的极大值点作为关键点;
S534、对所述关键点及其邻近区域进行标记。
10.根据权利要求7所述的基于ROI-KNN卷积神经网络的面部表情识别方法,其特征在于,所述多模态生成的半监督深度模型的目标函数为:
Figure 537136DEST_PATH_IMAGE018
其中,J表示目标函数;
Figure 557045DEST_PATH_IMAGE019
表示有标记的表情数据图像训练集中数据的变分下界;
Figure 294057DEST_PATH_IMAGE020
表示未标记的表情数据集中数据的变分下界;
Figure 99333DEST_PATH_IMAGE021
表示标记后的表情数据图像训练集;
Figure 529177DEST_PATH_IMAGE022
表示未标记的表情数据集;
Figure 833119DEST_PATH_IMAGE023
均表示模型参数。
CN202210879811.8A 2022-07-25 2022-07-25 基于roi-knn卷积神经网络的面部表情识别方法 Pending CN114944005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210879811.8A CN114944005A (zh) 2022-07-25 2022-07-25 基于roi-knn卷积神经网络的面部表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210879811.8A CN114944005A (zh) 2022-07-25 2022-07-25 基于roi-knn卷积神经网络的面部表情识别方法

Publications (1)

Publication Number Publication Date
CN114944005A true CN114944005A (zh) 2022-08-26

Family

ID=82910472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210879811.8A Pending CN114944005A (zh) 2022-07-25 2022-07-25 基于roi-knn卷积神经网络的面部表情识别方法

Country Status (1)

Country Link
CN (1) CN114944005A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330420A (zh) * 2017-07-14 2017-11-07 河北工业大学 基于深度学习带有旋转信息的人脸表情识别方法
CN108256426A (zh) * 2017-12-15 2018-07-06 安徽四创电子股份有限公司 一种基于卷积神经网络的人脸表情识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330420A (zh) * 2017-07-14 2017-11-07 河北工业大学 基于深度学习带有旋转信息的人脸表情识别方法
CN108256426A (zh) * 2017-12-15 2018-07-06 安徽四创电子股份有限公司 一种基于卷积神经网络的人脸表情识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
孙晓 等: "基于ROI-KNN卷积神经网络的面部表情识别", 《自动化学报》 *
李春明 等: "一种视频图像序列人脸检测方法", 《电子测量与仪器学报》 *
牟新刚 等: "《红外探测器成像与信息处理》", 30 September 2016, 重庆大学出版社 *
陈亚瑞 等: "基于多模态生成模型的半监督学习", 《天津科技大学学报》 *
陈其杰 等: "正面人脸图像方位的自动校正", 《计算机与数字工程》 *

Similar Documents

Publication Publication Date Title
Li et al. Toward end-to-end car license plate detection and recognition with deep neural networks
Busta et al. Deep textspotter: An end-to-end trainable scene text localization and recognition framework
Gou et al. Vehicle license plate recognition based on extremal regions and restricted Boltzmann machines
CN107273845B (zh) 一种基于置信区域和多特征加权融合的人脸表情识别方法
Hu et al. Deep metric learning for visual tracking
Agarwal et al. Learning to detect objects in images via a sparse, part-based representation
Anagnostopoulos et al. License plate recognition from still images and video sequences: A survey
CN111414862B (zh) 基于神经网络融合关键点角度变化的表情识别方法
CN111611905B (zh) 一种可见光与红外融合的目标识别方法
CN108090906B (zh) 一种基于区域提名的宫颈图像处理方法及装置
CN110555475A (zh) 一种基于语义信息融合的少样本目标检测方法
US10445602B2 (en) Apparatus and method for recognizing traffic signs
Bera et al. Attend and guide (ag-net): A keypoints-driven attention-based deep network for image recognition
KR102132407B1 (ko) 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치
CN109165658B (zh) 一种基于Faster-RCNN的强负样本水下目标检测方法
CN111563452A (zh) 一种基于实例分割的多人体姿态检测及状态判别方法
CN112651323B (zh) 一种基于文本行检测的中文手写体识别方法及系统
Shivakumara et al. Fractional means based method for multi-oriented keyword spotting in video/scene/license plate images
CN116342942A (zh) 基于多级域适应弱监督学习的跨域目标检测方法
CN112507924A (zh) 一种3d手势识别方法、装置及系统
CN115861981A (zh) 基于视频姿态不变性的驾驶员疲劳行为检测方法及系统
Lu et al. JHPFA-Net: Joint head pose and facial action network for driver yawning detection across arbitrary poses in videos
CN114038007A (zh) 一种结合风格变换与姿态生成的行人重识别方法
CN107103289B (zh) 利用笔迹轮廓特征来进行笔迹鉴别的方法及系统
Houtinezhad et al. Off-line signature verification system using features linear mapping in the candidate points

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination