CN112418095B - 一种结合注意力机制的面部表情识别方法及系统 - Google Patents

一种结合注意力机制的面部表情识别方法及系统 Download PDF

Info

Publication number
CN112418095B
CN112418095B CN202011325980.4A CN202011325980A CN112418095B CN 112418095 B CN112418095 B CN 112418095B CN 202011325980 A CN202011325980 A CN 202011325980A CN 112418095 B CN112418095 B CN 112418095B
Authority
CN
China
Prior art keywords
face
facial expression
facial
attention
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011325980.4A
Other languages
English (en)
Other versions
CN112418095A (zh
Inventor
刘三女牙
杨宗凯
叶世豪
朱晓亮
戴志诚
赵亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN202011325980.4A priority Critical patent/CN112418095B/zh
Publication of CN112418095A publication Critical patent/CN112418095A/zh
Priority to PCT/CN2021/128102 priority patent/WO2022111236A1/zh
Priority to US18/322,517 priority patent/US11967175B2/en
Application granted granted Critical
Publication of CN112418095B publication Critical patent/CN112418095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种结合注意力机制的面部表情识别方法及系统,包括:检测视频序列中每个视频帧内包括的人脸,并提取对应的人脸ROI,得到每个视频帧内的人脸图片;基于人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行对齐;将对齐后的人脸图片输入到残差神经网络中,提取人脸图片对应的人脸面部表情的空间特征;将人脸面部表情的空间特征输入到混合注意力模块,获取人脸面部表情的融合特征;将人脸面部表情的融合特征输入到门控制循环单元,提取人脸面部表情的时间特征;将人脸面部表情的时间特征输入到全连接层,对人脸面部表情进行分类识别。本发明将混合注意力模块嵌入卷积神经网络和循环神经网络中,提高了面部表情识别的准确率。

Description

一种结合注意力机制的面部表情识别方法及系统
技术领域
本发明属于表情识别技术领域,更具体地,涉及一种结合注意力机制的面部表情识别方法及系统。
背景技术
面部表情是人类传达情绪状态生理和心理的反应,面部表情识别在机器人、智能医疗、人机交互和在线教育等多个领域都有广泛的应用。目前的面部表情识别技术主要分为静态图片识别和动态视频序列识别。图片识别只考虑当前图像特征,但面部表情是一个动态变化的过程,静态图片识别忽略了表情在时间维度和空间维度上的变化,存在局限性。因此进一步的研究面部表情识别需要考虑表情的空时特征,在视频序列上对面部表情识别以提升算法的性能。
目前常用于视频序列面部表情识别的技术包括CNN+RNN级联网络、三维卷神经网络3DCNN、光流法等。CNN+RNN级联网络是将卷积神经网络CNN与循环神经网络RNN结合的级联网络对视频序列下的面部表情空时变化进行建模。为了达到较好的识别效果,会使用较深的卷积神经网络结构,同时选择LSTM网络作为时间特征提取器,利用连续特征向量间的相关性提取特征。但级联网络方法过深的网络也会导致梯度爆炸或梯度消失等问题。
三维卷积神经网络3DCNN在常规2D空间卷积基础上,增加一个时间维度,形成三维卷积,从而获取时序信息。C3D网络最早用于视频序列的表情识别,基于C3D的变体网络如I3D结合人脸特征点提取表情的几何特征,3DCNN-DAP将面部动作约束与3DCNN结合提升表情识别效果。由于三维卷积神经网络相较于2D网络增加一个时间维度,导致训练参数更多,计算量更大。
光流法是利用表情序列在时间维度上的变化和帧间关联,找到帧变化关系,从而计算出相邻帧之间面部表情的变化信息。光流法与卷积神经网络结合,形成双路集成网络模型,一路用于单帧图像特征提取,一路训练多帧数据的光流图,提取时序信息。最后融合两路空时特征输出结果。但光流法在训练前对视频序列提取光流图,进行大量预处理工作,导致过程耗时长,实时性较差。
综上,虽然现有的面部表情识别技术取得了较好的识别结果,但仍有不少缺点。大多方法都是对在实验环境下采集的表情数据集验证,对于在自然条件下,受到头部姿态偏移、光照变化、遮挡、运动模糊等因素影响的表情识别率大大降低,这使得自然条件下的面部表情识别仍然是一个具有挑战性的问题。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种结合注意力机制的面部表情识别方法及系统,旨在解决现有的面部表情识别技术对于在自然条件下,受到头部姿态偏移、光照变化、遮挡、运动模糊等因素影响,导致表情识别率大大降低的问题。
为实现上述目的,第一方面,本发明提供了一种结合注意力机制的面部表情识别方法,包括如下步骤:
检测视频序列中每个视频帧内包括的人脸,并提取对应的人脸感兴趣区域,得到每个视频帧内的人脸图片;
基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;
将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络中,提取人脸图片对应的人脸面部表情的空间特征;
将从视频序列中提取的人脸面部表情的空间特征输入到混合注意力模块,所述混合注意力模块通过注意力机制计算面部表情的特征权重,给面部表情变化的关注区域分配高于阈值的权重,面部表情变化无关的区域分配低于阈值的权重,以关联视频帧间人脸面部表情的特征信息,提取相邻视频帧间人脸面部表情的依赖关系,剔除无关的干扰特征,获取人脸面部表情的融合特征;
将从视频序列中获取的人脸面部表情的融合特征输入到循环神经网络,提取人脸面部表情的时间特征;
将从视频序列中提取的人脸面部表情的时间特征输入到全连接层,基于所述全连接层中预存的人脸面部表情模板对视频中人脸的面部表情进行分类识别。
在一个可选的实施例中,所述基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;具体为:
检测每个视频帧内人脸图片中的多个面部表情特征点,所述多个面部表情特征点分别分布在眼部区域、眉毛区域、鼻子区域、嘴部区域以及面部轮廓区域;
基于每个视频中内人脸图片的眼部区域的特征点和眉毛区域的特征点确定人脸图片中人脸中间点的位置,并基于所述人脸中间点的位置对所述人脸图片进行对齐;所述对齐为相对平面直角坐标系对齐,其中,对齐后的人脸图片的两边分别平行于平面直角坐标系的两个轴。
在一个可选的实施例中,所述基于所述人脸中间点的位置对所述人脸图片进行对齐,具体为:使用仿射变换矩阵基于人脸中间点的位置对人脸图片进行对齐。
在一个可选的实施例中,所述将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络之前,还包括如下步骤:
将对齐后的人脸图片的大小统一调整成预设大小的图片。
在一个可选的实施例中,所述残差神经网络、混合注意力模块、循环神经网络以及全连接层均需要通过预先训练,训练好之后再进行面部表情识别;
在训练阶段,输入到所述残差神经网络的人脸图片,除需要进行人脸图片对齐、调整成统一大小图片外,还需对每张人脸图片打上对应的面部表情标签;所述面部表情标签即为每张人脸图片的面部表情的识别结果。
在一个可选的实施例中,所述混合注意力模块由自注意力模块和空间注意力模块组成;
所述自注意力模块通过卷积操作,对单帧的表情在空间维度上计算自注意力权重,将权重分配给空间特征,获取空间关注特征向量;
所述空间注意力模块,将多帧的空间关注特征进行全连接操作,提取帧维度上的注意权重,并对多帧特征进行特征融合,计算相邻帧间的表情变化特征,得到融合空时注意力权重的融合特征向量。
第二方面,本发明提供了一种结合注意力机制的面部表情识别系统,包括:
人脸图片检测单元,用于检测视频序列中每个视频帧内包括的人脸,并提取对应的人脸感兴趣区域,得到每个视频帧内的人脸图片;
人脸图片对齐单元,用于基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;
空间特征提取单元,用于将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络中,提取人脸图片对应的人脸面部表情的空间特征;
融合特征提取单元,用于将从视频序列中提取的人脸面部表情的空间特征输入到混合注意力模块,所述混合注意力模块通过注意力机制计算面部表情的特征权重,给面部表情变化的关注区域分配高于阈值的权重,面部表情变化无关的区域分配低于阈值的权重,以关联视频帧间人脸面部表情的特征信息,提取相邻视频帧间人脸面部表情的依赖关系,剔除无关的干扰特征,获取人脸面部表情的融合特征;
时间特征提取单元,用于将从视频序列中获取的人脸面部表情的融合特征输入到循环神经网络,提取人脸面部表情的时间特征;
面部表情识别单元,用于将从视频序列中提取的人脸面部表情的时间特征输入到全连接层,基于所述全连接层中预存的人脸面部表情模板对视频中人脸的面部表情进行分类识别。
在一个可选的实施例中,所述人脸图片对齐单元检测每个视频帧内人脸图片中的多个面部表情特征点,所述多个面部表情特征点分别分布在眼部区域、眉毛区域、鼻子区域、嘴部区域以及面部轮廓区域;以及基于每个视频中内人脸图片的眼部区域的特征点和眉毛区域的特征点确定人脸图片中人脸中间点的位置,并基于所述人脸中间点的位置对所述人脸图片进行对齐;所述对齐为相对平面直角坐标系对齐,其中,对齐后的人脸图片的两边分别平行于平面直角坐标系的两个轴。
在一个可选的实施例中,该面部表情识别系统还包括:
图片大小调整单元,用于在将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络之前,将对齐后的人脸图片的大小统一调整成预设大小的图片。
在一个可选的实施例中,所述融合特征提取单元中用到的混合注意力模块由自注意力模块和空间注意力模块组成;所述自注意力模块通过卷积操作,对单帧的表情在空间维度上计算自注意力权重,将权重分配给空间特征,获取空间关注特征向量;所述空间注意力模块,将多帧的空间关注特征进行全连接操作,提取帧维度上的注意权重,并对多帧特征进行特征融合,计算相邻帧间的表情变化特征,得到融合空时注意力权重的融合特征向量。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供了一种结合注意力机制的面部表情识别方法及系统,通过残差卷积神经网络和循环神经网络提取视频序列在空间维度和时间维度上的特征,结合混合注意力机制关联帧间信息,提取相邻帧间的依赖关系,剔除无关的干扰特征,获取面部表情的关注特征。本发明将混合注意力模块嵌入卷积神经网络和循环神经网络模型中,有效提高在自然环境下受光照、遮挡、头部姿态变化的面部表情识别的准确率。
附图说明
图1是本发明实施例提供的结合注意力机制的面部表情识别方法流程图;
图2是本发明实施例提供的结合注意力机制的面部表情识别方法的技术流程图;
图3是本发明实施例提供的结合注意力机制的面部表情识别的整体模型结构图;
图4是本发明实施例提供的混合注意力模块内部结构图;
图5是本发明实施例提供的本发明方法在三个数据集上表情分类混淆矩阵结果图;
图6是本发明实施例提供的结合注意力机制的面部表情识别系统架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1是本发明实施例提供的结合注意力机制的面部表情识别方法流程图;如图1所示,包括如下步骤:
S101,检测视频序列中每个视频帧内包括的人脸,并提取对应的人脸感兴趣区域,得到每个视频帧内的人脸图片;
S102,基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;
S103,将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络中,提取人脸图片对应的人脸面部表情的空间特征;
S104,将从视频序列中提取的人脸面部表情的空间特征输入到混合注意力模块,所述混合注意力模块通过注意力机制计算面部表情的特征权重,给面部表情变化的关注区域分配高于阈值的权重,面部表情变化无关的区域分配低于阈值的权重,以关联视频帧间人脸面部表情的特征信息,提取相邻视频帧间人脸面部表情的依赖关系,剔除无关的干扰特征,获取人脸面部表情的融合特征;
S105,将从视频序列中获取的人脸面部表情的融合特征输入到循环神经网络,提取人脸面部表情的时间特征;
S106,将从视频序列中提取的人脸面部表情的时间特征输入到全连接层,基于所述全连接层中预存的人脸面部表情模板对视频中人脸的面部表情进行分类识别。
具体地,本发明提供的基于混合注意力机制的面部表情识别方法,以下是详细的技术方案,图2是本发明实施例提供的结合注意力机制的面部表情识别方法的技术流程图;如图2所示,包括如下步骤:
S1.获取数据集中人脸数据。其中,数据集可以为视频序列,使用harr特征提取方法,通过图像的灰度变化,通过像素区域差值Dface,对视频序列中每个视频帧的进行人脸检测,提取人脸感兴趣区域(region of interest,ROI)区域。得到视频序列中的每个视频帧内包含的人脸图片数据:
Figure BDA0002794289270000081
其中(i,j)为当前划分区域的坐标区间,(x,y)为区域内单个像素点的坐标,f(x,y)对当前区域内像素坐标求和。
S2.人脸特征点提取。使用dlib库中的面部特征点检测方法对S1中的人脸图片数据提取面部的68个特征点,分别对应眼睛、眉毛、鼻子、嘴部和面部轮廓,得到人脸特征点序列P(t)
Figure BDA0002794289270000082
其中
Figure BDA0002794289270000083
为视频序列中第t个视频帧中人脸图片的第i个关键点的坐标位置,1≤i≤68。
S3.对人脸进行对齐。基于S2得到的每个视频帧下人脸图片的人脸特征点序列,对每个视频帧中的人脸进行对齐,根据提取到面部的68个特征点的点位信息中的眼部区域和眉毛区域的位置信息,计算出人脸中间点的信息,使用仿射变换矩阵得到每个视频帧中校正后的人脸图片。
Figure BDA0002794289270000084
Figure BDA0002794289270000085
其中,(x,y)为当前人脸中间点坐标,(u,v)为人脸图片变换后的坐标,c1,c2表示平移量,a1、a2、b1、b2表示当前人脸图片的旋转、缩放变化参数。
S4.生成输入数据集。将对齐后的人脸图片调整为224*224大小的图片;图3是本发明实施例提供的结合注意力机制的面部表情识别的整体模型结构图;如图3所示,整体模型包括:视频帧切割、残差卷积神经网络、混合注意力模块、循环神经网络以及全连接层分类。具体如下:
将每个视频表情对应标签L进行one-hot编码,得到输入Lh;以n帧为一组生成一个帧序列;由于每个视频帧数不相同,借鉴TSN网络处理流程,将视频帧分为K个部分,从每个部分里随机选取一帧作为最终的输入帧,得到一个K帧的序列与对应标签拼接构成一个dataset;将数据封装为一个迭代对象dataloader作为网络训练的输入:
Lh=δ(L)
dataset=((w,h,c,frame),Lh)
dataloader=f(batchsize,dataset)
其中,δ为one-hot编码规则;w,h,c分别表示当前帧的高、宽、通道数,frame表示视频帧数;batchsize表示单次训练所选取的样本数;函数f表示对数据集随机打乱、设置batchsize大小、设置进程数等操作。
S5.ResNet网络进行空间特征提取。将数据集对象dataloader输入到残差卷积神经网络ResNet50中,提取视频序列中人脸表情的空间特征,得到提取出的特征数据T:
T=ResNet(dataloader)
使用残差网络ResNet50作为空间特征提取网络,残差网络能有效地解决随着网络层数加深导致梯度消失或梯度爆炸等问题,网络通过残差块的恒等映射,将当前输出传入下一层结构,并且通过shortcut连接不会产生额外的参数,不会增加计算复杂度。同时网络中使用的Batch Normalization、Dropout层等能有效防止模型过拟合、梯度消失等问题。
S6.提取的空间特征输入混合注意力模块。混合注意力模块的目的是通过注意力机制计算表情的特征权重,给表情变化的关注区域分配更高的权重,表情变化无关的区域分配较少的权重,从而让网络学习注意力区域特征,提取帧间关系依赖,剔除视频中的无关特征。混合注意力模块由自注意力模块和空间注意力模块组成,自注意力模块通过卷积操作,对单帧的表情在空间维度上计算自注意力权重,将权重分配给空间特征,获取空间关注特征向量。自注意力模块仅在单帧计算权重,忽略了帧间的信息关联,于是级联空间注意力模块,将多帧的空间关注特征进行全连接操作,提取帧维度上的注意权重,并对多帧特征进行特征融合,得到融合空时注意力权重的特征向量。
图4是本发明实施例提供的混合注意力模块内部结构图;如图4所示,空间特征先进入自注意力模块,计算单帧的特征关联得到自注意力权重θ,得到的自注意力权重对输入特征进行加权,输出新的自注意力特征向量Fi weight1;之后进行第一次特征融合,将融合后特征Fi att1输入空间注意力模块,计算相邻帧间的表情变化特征,得到空间注意力权重θ1,进行加权计算得到空间注意力特征向量Fi weight2,进行第二次特征融合得到混合注意力模块最终输出特征Fi att2
Figure BDA0002794289270000101
Figure BDA0002794289270000102
其中,Ti表示ResNet网络提取的第i帧特征向量,δ表示sigmoid函数。
具体地,采用混合注意力模块进行两次特征融合,其中第一次特征融合将自注意力特征Fi weight1与输入特征Ti计算得到Fi att1
Figure BDA0002794289270000103
其中,n表示当前视频的总帧数。第二次特征融合在得到空间注意力特征向量Fi weight2后与Fi att1计算得到Fi att2
Figure BDA0002794289270000111
S7.融合后的人脸特征输入循环神经网络进行时间特征提取。本发明选用门控制循环单元(GRU)做为循环神经网络提取时间特征,门控制循环单元相较于其他循环神经网络结构模型更简单,尤其在网络较深的模型中;GRU通过一个门控就可以同时进行遗忘和选择记忆,参数上明显缩减且效率更高。通过GRU得到时间特征为一个三维特征向量F:
Figure BDA0002794289270000112
其中,hidden为GRU单元隐藏层大小,模型中设置隐藏层单元为128。
S8.输出特征到全连接层,得到预测结果。通过GRU单元得到的特征向量调整维度后输入一个全连接层,得到最终的表情分类结果。
经过上述的步骤,实现视频序列下面部表情识别。在训练过程中使用交叉熵损失函数,通过随机梯度下降算法优化损失函数值,sigmoid作为激活函数,权值衰减设置为0.0001,动量设置为0.9,过程中对学习率进行动态调整,最终达到最优结果。
实验采用准确率、混淆矩阵、受试者工作特征曲线(receiver operatingcharacteristic curve,ROC)面积作为表情识别的评价指标。其中准确率值和受试者工作特征曲线ROC面积越大,识别的效果越好;混淆矩阵显示具体每种表情的预测准确率。
具体地,本发明方法与其他方法在CK+数据集上进行面部表情识别的准确率对比如表1所示:
表1:CK+数据集方法对比表
Figure BDA0002794289270000113
Figure BDA0002794289270000121
具体地,本发明方法与其他方法在Oulu-CASIA数据集上进行面部表情识别的准确率对比如表2所示:
表2:Oulu-CASIA数据集上方法对比表
Figure BDA0002794289270000122
具体地,本发明方法与其他方法在AFEW数据集上进行面部表情识别的准确率对比如表3所示:
表3:AFEW数据集上方法对比表
Figure BDA0002794289270000123
由表1,2,3可知,本发明构建的混合注意力机制面部表情识别方法在三个数据集上的准确率都有出色的表现。其中本发明方法在CK+数据集和AFEW数据集上进行面部识别的准确率都优于目前的主流方法。
图5是本发明方法在三个数据集上识别的混淆矩阵图,混淆矩阵是用来进行精度评价的一种标准格式,用于比较预测结果和实际分类值。由图5可以看出本发明方法在CK+和Oulu-CASIA数据集上都有较好的分类结果。由于AFEW数据集取自自然环境,在混淆矩阵上的表现相较于实验环境数据集有差距,但是依然有较优的表现。
表4是本发明在各个数据集上的ROC面积比较,ROC是衡量深度学习方法优劣的一种性能指标。ROC面积在0.5到1的区间范围内,数值越大的分类器,其分类效果越好。由表4可以看出本发明方法在三个数据集上的ROC面积均远大于0.5,说明本发明方法对面部表情识别分类效果较优。
表4:不同数据集上ROC面积比较表
Figure BDA0002794289270000131
图6是本发明实施例提供的结合注意力机制的面部表情识别系统架构图。如图6所示,包括:
人脸图片检测单元610,用于检测视频序列中每个视频帧内包括的人脸,并提取对应的人脸感兴趣区域,得到每个视频帧内的人脸图片;
人脸图片对齐单元620,用于基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;
空间特征提取单元630,用于将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络中,提取人脸图片对应的人脸面部表情的空间特征;
融合特征提取单元640,用于将从视频序列中提取的人脸面部表情的空间特征输入到混合注意力模块,所述混合注意力模块通过注意力机制计算面部表情的特征权重,给面部表情变化的关注区域分配高于阈值的权重,面部表情变化无关的区域分配低于阈值的权重,以关联视频帧间人脸面部表情的特征信息,提取相邻视频帧间人脸面部表情的依赖关系,剔除无关的干扰特征,获取人脸面部表情的融合特征;
时间特征提取单元650,用于将从视频序列中获取的人脸面部表情的融合特征输入到循环神经网络,提取人脸面部表情的时间特征;
面部表情识别单元660,用于将从视频序列中提取的人脸面部表情的时间特征输入到全连接层,基于所述全连接层中预存的人脸面部表情模板对视频中人脸的面部表情进行分类识别。
图片大小调整单元670,用于在将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络之前,将对齐后的人脸图片的大小统一调整成预设大小的图片。
具体地,图6中各个单元的详细功能参见前述方法实施例中的介绍,在此不做赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种结合注意力机制的面部表情识别方法,其特征在于,包括如下步骤:
检测视频序列中每个视频帧内包括的人脸,并提取对应的人脸感兴趣区域,得到每个视频帧内的人脸图片;
基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;
将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络中,提取人脸图片对应的人脸面部表情的空间特征;
将从视频序列中提取的人脸面部表情的空间特征输入到混合注意力模块,所述混合注意力模块通过注意力机制计算面部表情的特征权重,给面部表情变化的关注区域分配高于阈值的权重,面部表情变化无关的区域分配低于阈值的权重,以关联视频帧间人脸面部表情的特征信息,提取相邻视频帧间人脸面部表情的依赖关系,剔除无关的干扰特征,获取人脸面部表情的融合特征;
将从视频序列中获取的人脸面部表情的融合特征输入到循环神经网络,提取人脸面部表情的时间特征;
将从视频序列中提取的人脸面部表情的时间特征输入到全连接层,基于所述全连接层中预存的人脸面部表情模板对视频中人脸的面部表情进行分类识别。
2.根据权利要求1所述的结合注意力机制的面部表情识别方法,其特征在于,所述基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;具体为:
检测每个视频帧内人脸图片中的多个面部表情特征点,所述多个面部表情特征点分别分布在眼部区域、眉毛区域、鼻子区域、嘴部区域以及面部轮廓区域;
基于每个视频中内人脸图片的眼部区域的特征点和眉毛区域的特征点确定人脸图片中人脸中间点的位置,并基于所述人脸中间点的位置对所述人脸图片进行对齐;所述对齐为相对平面直角坐标系对齐,其中,对齐后的人脸图片的两边分别平行于平面直角坐标系的两个轴。
3.根据权利要求2所述的结合注意力机制的面部表情识别方法,其特征在于,所述基于所述人脸中间点的位置对所述人脸图片进行对齐,具体为:使用仿射变换矩阵基于人脸中间点的位置对人脸图片进行对齐。
4.根据权利要求2所述的结合注意力机制的面部表情识别方法,其特征在于,所述将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络之前,还包括如下步骤:
将对齐后的人脸图片的大小统一调整成预设大小的图片。
5.根据权利要求4所述的结合注意力机制的面部表情识别方法,其特征在于,所述残差神经网络、混合注意力模块、循环神经网络以及全连接层均需要通过预先训练,训练好之后再进行面部表情识别;
在训练阶段,输入到所述残差神经网络的人脸图片,除需要进行人脸图片对齐、调整成统一大小图片外,还需对每张人脸图片打上对应的面部表情标签;所述面部表情标签即为每张人脸图片的面部表情的识别结果。
6.根据权利要求1至5任一项所述的结合注意力机制的面部表情识别方法,其特征在于,所述混合注意力模块由自注意力模块和空间注意力模块组成;
所述自注意力模块通过卷积操作,对单帧的表情在空间维度上计算自注意力权重,将权重分配给空间特征,获取空间关注特征向量;
所述空间注意力模块,将多帧的空间关注特征进行全连接操作,提取帧维度上的注意权重,并对多帧特征进行特征融合,计算相邻帧间的表情变化特征,得到融合空时注意力权重的融合特征向量。
7.一种结合注意力机制的面部表情识别系统,其特征在于,包括:
人脸图片检测单元,用于检测视频序列中每个视频帧内包括的人脸,并提取对应的人脸感兴趣区域,得到每个视频帧内的人脸图片;
人脸图片对齐单元,用于基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;
空间特征提取单元,用于将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络中,提取人脸图片对应的人脸面部表情的空间特征;
融合特征提取单元,用于将从视频序列中提取的人脸面部表情的空间特征输入到混合注意力模块,所述混合注意力模块通过注意力机制计算面部表情的特征权重,给面部表情变化的关注区域分配高于阈值的权重,面部表情变化无关的区域分配低于阈值的权重,以关联视频帧间人脸面部表情的特征信息,提取相邻视频帧间人脸面部表情的依赖关系,剔除无关的干扰特征,获取人脸面部表情的融合特征;
时间特征提取单元,用于将从视频序列中获取的人脸面部表情的融合特征输入到循环神经网络,提取人脸面部表情的时间特征;
面部表情识别单元,用于将从视频序列中提取的人脸面部表情的时间特征输入到全连接层,基于所述全连接层中预存的人脸面部表情模板对视频中人脸的面部表情进行分类识别。
8.根据权利要求7所述的结合注意力机制的面部表情识别系统,其特征在于,所述人脸图片对齐单元检测每个视频帧内人脸图片中的多个面部表情特征点,所述多个面部表情特征点分别分布在眼部区域、眉毛区域、鼻子区域、嘴部区域以及面部轮廓区域;以及基于每个视频中内人脸图片的眼部区域的特征点和眉毛区域的特征点确定人脸图片中人脸中间点的位置,并基于所述人脸中间点的位置对所述人脸图片进行对齐;所述对齐为相对平面直角坐标系对齐,其中,对齐后的人脸图片的两边分别平行于平面直角坐标系的两个轴。
9.根据权利要求8所述的结合注意力机制的面部表情识别系统,其特征在于,还包括:
图片大小调整单元,用于在将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络之前,将对齐后的人脸图片的大小统一调整成预设大小的图片。
10.根据权利要求7至9任一项所述的结合注意力机制的面部表情识别系统,其特征在于,所述融合特征提取单元中用到的混合注意力模块由自注意力模块和空间注意力模块组成;所述自注意力模块通过卷积操作,对单帧的表情在空间维度上计算自注意力权重,将权重分配给空间特征,获取空间关注特征向量;所述空间注意力模块,将多帧的空间关注特征进行全连接操作,提取帧维度上的注意权重,并对多帧特征进行特征融合,计算相邻帧间的表情变化特征,得到融合空时注意力权重的融合特征向量。
CN202011325980.4A 2020-11-24 2020-11-24 一种结合注意力机制的面部表情识别方法及系统 Active CN112418095B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011325980.4A CN112418095B (zh) 2020-11-24 2020-11-24 一种结合注意力机制的面部表情识别方法及系统
PCT/CN2021/128102 WO2022111236A1 (zh) 2020-11-24 2021-11-02 一种结合注意力机制的面部表情识别方法及系统
US18/322,517 US11967175B2 (en) 2020-11-24 2023-05-23 Facial expression recognition method and system combined with attention mechanism

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011325980.4A CN112418095B (zh) 2020-11-24 2020-11-24 一种结合注意力机制的面部表情识别方法及系统

Publications (2)

Publication Number Publication Date
CN112418095A CN112418095A (zh) 2021-02-26
CN112418095B true CN112418095B (zh) 2023-06-30

Family

ID=74777962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011325980.4A Active CN112418095B (zh) 2020-11-24 2020-11-24 一种结合注意力机制的面部表情识别方法及系统

Country Status (3)

Country Link
US (1) US11967175B2 (zh)
CN (1) CN112418095B (zh)
WO (1) WO2022111236A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418095B (zh) * 2020-11-24 2023-06-30 华中师范大学 一种结合注意力机制的面部表情识别方法及系统
CN113057633B (zh) * 2021-03-26 2022-11-01 华南理工大学 多模态情绪压力识别方法、装置、计算机设备及存储介质
CN113080855B (zh) * 2021-03-30 2023-10-31 广东省科学院智能制造研究所 一种基于深度信息的面部疼痛表情识别方法及系统
CN112801069B (zh) * 2021-04-14 2021-06-29 四川翼飞视科技有限公司 一种人脸关键特征点检测装置、方法和存储介质
CN113076916B (zh) * 2021-04-19 2023-05-12 山东大学 基于几何特征加权融合的动态人脸表情识别方法及系统
CN113221799B (zh) * 2021-05-24 2022-08-16 华中师范大学 一种多头部姿态人脸表情识别方法及其应用
CN113420624B (zh) * 2021-06-11 2022-04-26 华中师范大学 一种非接触式疲劳检测方法及系统
CN113420703B (zh) * 2021-07-03 2023-04-18 西北工业大学 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
CN114581971A (zh) * 2022-01-28 2022-06-03 北京深睿博联科技有限责任公司 一种基于面部动作组合检测的情绪识别方法及装置
CN114898447B (zh) * 2022-07-13 2022-10-11 北京科技大学 一种基于自注意力机制的个性化注视点检测方法及装置
CN116188605B (zh) * 2022-12-27 2023-09-26 北京工业大学 基于静态和动态表情图像的联合表情编码系统及其方法
CN116189272B (zh) * 2023-05-05 2023-07-07 南京邮电大学 基于特征融合和注意力机制的人脸表情识别方法及系统
CN117437684B (zh) * 2023-12-14 2024-04-16 深圳须弥云图空间科技有限公司 一种基于修正注意力的图像识别方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409296A (zh) * 2018-10-30 2019-03-01 河北工业大学 将人脸表情识别和语音情感识别融合的视频情感识别方法
CN111523462A (zh) * 2020-04-22 2020-08-11 南京工程学院 基于自注意增强cnn的视频序列表情识别系统及方法
CN111967359A (zh) * 2020-08-06 2020-11-20 南昌大学 一种基于注意力机制模块的人脸表情识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10929681B2 (en) * 2016-11-03 2021-02-23 Nec Corporation Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
US10747989B2 (en) * 2018-08-21 2020-08-18 Software Ag Systems and/or methods for accelerating facial feature vector matching with supervised machine learning
CN109815785A (zh) * 2018-12-05 2019-05-28 四川大学 一种基于双流卷积神经网络的人脸情绪识别方法
CN110427867B (zh) * 2019-07-30 2021-11-19 华中科技大学 基于残差注意力机制的面部表情识别方法及系统
US11113890B2 (en) * 2019-11-04 2021-09-07 Cognizant Technology Solutions India Pvt. Ltd. Artificial intelligence enabled mixed reality system and method
CN111797683A (zh) * 2020-05-21 2020-10-20 台州学院 一种基于深度残差注意力网络的视频表情识别方法
CN111967436B (zh) * 2020-09-02 2024-03-19 北京猿力未来科技有限公司 图像处理方法及装置
CN112418095B (zh) * 2020-11-24 2023-06-30 华中师范大学 一种结合注意力机制的面部表情识别方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409296A (zh) * 2018-10-30 2019-03-01 河北工业大学 将人脸表情识别和语音情感识别融合的视频情感识别方法
CN111523462A (zh) * 2020-04-22 2020-08-11 南京工程学院 基于自注意增强cnn的视频序列表情识别系统及方法
CN111967359A (zh) * 2020-08-06 2020-11-20 南昌大学 一种基于注意力机制模块的人脸表情识别方法

Also Published As

Publication number Publication date
CN112418095A (zh) 2021-02-26
WO2022111236A1 (zh) 2022-06-02
US11967175B2 (en) 2024-04-23
US20230298382A1 (en) 2023-09-21

Similar Documents

Publication Publication Date Title
CN112418095B (zh) 一种结合注意力机制的面部表情识别方法及系统
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
CN107085716B (zh) 基于多任务生成对抗网络的跨视角步态识别方法
CN110991281B (zh) 一种动态人脸识别方法
CN110751098B (zh) 一种基于光照、姿态生成对抗网络的人脸识别方法
CN109033938A (zh) 一种基于可区分性特征融合的人脸识别方法
CN108268859A (zh) 一种基于深度学习的人脸表情识别方法
CN112766160A (zh) 基于多级属性编码器和注意力机制的人脸替换方法
CN109472198A (zh) 一种姿态鲁棒的视频笑脸识别方法
CN112800903A (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
CN111832405A (zh) 一种基于hog和深度残差网络的人脸识别方法
Paul et al. Extraction of facial feature points using cumulative histogram
CN106529441B (zh) 基于模糊边界分片的深度动作图人体行为识别方法
Yin et al. Dynamic difference learning with spatio-temporal correlation for deepfake video detection
Yaseen et al. A Novel Approach Based on Multi-Level Bottleneck Attention Modules Using Self-Guided Dropblock for Person Re-Identification
Yamamoto et al. Algorithm optimizations for low-complexity eye tracking
CN115546828A (zh) 一种复杂牛场环境牛脸识别方法
Watcharabutsarakham et al. Comparison of Face Classification with Single and Multi-model base on CNN
Shukla et al. Deep Learning Model to Identify Hide Images using CNN Algorithm
Singla et al. Age and gender detection using Deep Learning
CN113449694A (zh) 基于Android的证件照合规性检测方法及系统
Ptucha et al. Fusion of static and temporal predictors for unconstrained facial expression recognition
Qiao et al. Fully Unsupervised Deepfake Video Detection via Enhanced Contrastive Learning
Chihaoui et al. Implementation of skin color selection prior to Gabor filter and neural network to reduce execution time of face detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant