CN116363732A - 人脸情绪识别方法、装置、设备及存储介质 - Google Patents
人脸情绪识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116363732A CN116363732A CN202310237387.1A CN202310237387A CN116363732A CN 116363732 A CN116363732 A CN 116363732A CN 202310237387 A CN202310237387 A CN 202310237387A CN 116363732 A CN116363732 A CN 116363732A
- Authority
- CN
- China
- Prior art keywords
- image
- initial
- features
- emotion recognition
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000008451 emotion Effects 0.000 claims abstract description 53
- 230000001815 facial effect Effects 0.000 claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims description 92
- 238000012795 verification Methods 0.000 claims description 66
- 230000004927 fusion Effects 0.000 claims description 45
- 238000000605 extraction Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 5
- 230000008921 facial expression Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像处理技术领域,公开了一种人脸情绪识别方法、装置、设备及存储介质;该方法包括:将待识别图像输入人脸情绪识别模型,人脸情绪识别模型包括基础神经网络、选择性卷积核网络以及分类器;根据基础神经网络对待识别图像特征提取得到多个基础特征;根据选择性卷积核网络计算各基础特征的独立权重,根据独立权重对各基础特征进行融合,得到融合特征;基于独立权重通过分类器确定目标感受野,得到待识别图像中的人脸情绪;本发明通过在残差人工神经网络中增加选择性卷积核网络,对残差人工神经网络提取的特征进行筛选,得到待识别图片中的更有情绪代表的特征,根据该特征人脸情绪识别,能够更加快速准确的识别出待识别图像中的人脸情绪。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种人脸情绪识别方法、装置、设备及存储介质。
背景技术
人脸表情识别就是研究如何使计算机从静态图像或者视频序列中获取人脸表情并加以辨别的技术。如果计算机可以准确地理解人脸表情并识别出人脸表情属于哪一个类别,那么,将在很大程度上改变人与计算机之间的关系,从而达到更好的人机交互效果。
情绪识别在自然人机交互中具有十分重要的意义,但是由于表情的属性类别较多、规律较复杂,因此,现有的人脸表情识别方法中,每个识别模型都需要记忆较多的内容,从而导致人脸表情的识别过程运算复杂、人脸表情的识别准确率以及识别效率较为低下。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种人脸情绪识别方法,旨在解决现有技术人脸情绪识别不准确的技术问题。
为实现上述目的,本发明提供了一种人脸情绪识别方法,所述方法包括以下步骤:
将待识别图像输入人脸情绪识别模型,所述人脸情绪识别模型包括基础神经网络、选择性卷积核网络以及分类器;
根据所述基础神经网络对所述待识别图像进行特征提取得到多个基础特征;
根据所述选择性卷积核网络计算各基础特征的独立权重,根据所述独立权重对所述各基础特征进行融合,得到融合特征;
基于融合特征中各参考特征对应的独立权重通过所述分类器确定目标感受野,根据所述目标感受野得到待识别图像中的人脸情绪。
可选地,所述根据所述选择性卷积核网络计算各基础特征的独立权重,根据所述独立权重对所述各基础特征进行融合,得到融合特征,包括:
所述选择性卷积核网络通过自适应感受野计算各基础特征的独立权重;
根据所述独立权重对所述多个基础特征进行筛选得到多个参考特征;
将所述多个参考特征进行融合得到融合特征。
可选地,所述将所述多个参考特征进行融合得到融合特征,包括:
将所述多个参考特征进行融合得到初始融合特征;
对所述初始融合特征进行下采样得到采样特征;
对所述采样特征进行特征降维得到融合特征。
可选地,所述基于融合特征中各参考特征对应的独立权重通过所述分类器确定目标感受野,根据所述目标感受野得到待识别图像中的人脸情绪,包括:
所述分类器根据所述融合特征中各参考特征对应的独立权重得到所述融合特征中多个感受野的权重;
比较各感受野的权重的大小,得到目标感受野;
对所述目标感受野进行特征分类,得到所述待识别图像中的人脸情绪。
可选地,所述将所述待识别图像输入人脸情绪识别模型之前,包括:
获取初始训练图像以及初始验证图像,对所述初始训练图像以及所述初始验证图像进行预处理,得到训练张量和验证张量;
将所述训练张量输入初始模型对所述初始模型进行训练,直到所述初始模型的识别正确率满足预设条件,得到初始情绪识别模型;
通过验证张量对所述初始情绪识别模型进行验证,若所述验证结果不符合预设要求,则重新对所述初始情绪识别模型进行训练;若验证结果符合预设要求,得到人脸情绪识别模型。
可选地,所述对所述初始训练图像以及所述初始验证图像进行预处理,得到训练张量和验证张量,包括:
将所述初始训练图像以及所述初始验证图像的尺寸进行转换得到尺寸统一的训练图像以及验证图像;
对所述训练图像以及所述验证图像进行数据增强,得到增强后的训练图像和增强后的验证图像;
对所述增强后的训练图像和所述增强后的验证图像进行向量转换得到训练张量和验证张量。
可选地,所述将所述训练张量输入初始模型对所述初始模型进行训练,直到所述初始模型的识别正确率满足预设条件,得到初始情绪识别模型,包括:
获取训练参数,所述训练参数包括学习率以及学习率衰减;
根据所述学习率以及所述学习率衰减对所述初始模型进行设定得到参数设定后的初始模型;
将所述训练张量输入参数设定后的初始模型得到预识别情绪,将所述预识别情绪与所述训练张量对应的参考情绪进行比较;
当比较结果连续正确数量满足预设条件,则完成训练,得到初始情绪识别模型。
此外,为实现上述目的,本发明还提出一种人脸情绪识别装置,所述人脸情绪识别装置包括:
数据输入模块,用于将待识别图像输入人脸情绪识别模型,所述人脸情绪识别模型包括基础神经网络、选择性卷积核网络以及分类器;
特征提取模块,用于根据所述基础神经网络对所述待识别图像进行特征提取得到多个基础特征;
特征融合模块,用于根据所述选择性卷积核网络计算各基础特征的独立权重,根据所述独立权重对所述各基础特征进行融合,得到融合特征;
分类识别模块,用于基于融合特征中各参考特征对应的独立权重通过所述分类器确定目标感受野,根据所述目标感受野得到待识别图像中的人脸情绪。
此外,为实现上述目的,本发明还提出一种人脸情绪识别设备,所述人脸情绪识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人脸情绪识别程序,所述人脸情绪识别程序配置为实现如上文所述的人脸情绪识别方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有人脸情绪识别程序,所述人脸情绪识别程序被处理器执行时实现如上文所述的人脸情绪识别方法的步骤。
本发明通过在残差人工神经网络中第一组残差结构后增加选择性卷积核网络,对残差人工神经网络全范围提取的特征进行自适应筛选,并赋予每个特征对应的独立权重,根据独立权重找到待识别图片中的更有情绪代表的参考特征,根据参考特征进行人脸情绪识别,完成对待识别特征中人脸情绪的分类,能够更加快速准确的识别出待识别图像中的人脸情绪。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的人脸情绪识别设备的结构示意图;
图2为本发明人脸情绪识别方法第一实施例的流程示意图;
图3为本发明人脸情绪识别方法第二实施例的流程示意图;
图4为本发明人脸情绪识别装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的人脸情绪识别设备结构示意图。
如图1所示,该人脸情绪识别设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对人脸情绪识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及人脸情绪识别程序。
在图1所示的人脸情绪识别设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明人脸情绪识别设备中的处理器1001、存储器1005可以设置在人脸情绪识别设备中,所述人脸情绪识别设备通过处理器1001调用存储器1005中存储的人脸情绪识别程序,并执行本发明实施例提供的人脸情绪识别方法。
本发明实施例提供了一种人脸情绪识别方法,参照图2,图2为本发明一种人脸情绪识别方法第一实施例的流程示意图。
本实施例中,所述人脸情绪识别方法包括以下步骤:
步骤S10:将待识别图像输入人脸情绪识别模型,所述人脸情绪识别模型包括基础神经网络、选择性卷积核网络以及分类器。
可理解的是,待识别图像可以是处理器从一段视频中截取的一帧帧的图像,也可以是使用者输入的一张图像。
应理解的是,人脸情绪识别模型可以是已经经过训练和测试,且测试满足测试要求后最终得到的模型,通过该人脸情绪识别模型可以更加准确的识别待识别图像中人物的情绪。
需说明的是,人脸情绪识别模型包括基础神经网络、选择性卷积核网络以及分类器,其中基础神经网络可以是ResNet50网络(也叫残差人工神经网络),基础神经网络中具有多组残差结构,将该选择性卷积核网络放置在基础神经网络中的第一组残差结构后面,分类器放置在基础神经网络之后,构成了完整的人脸情绪识别模型。
值得说明的是,目前的情绪识别模型针对视频某一帧或一张图片的全部内容进行特征提取,提取的特征信息用来进行人脸情绪的识别,而整张图片的内容除了人脸表情还有背景、衣服、光影、头发、眼镜等干扰物,这些内容也被深度神经网络进行了特征提取,而这些内容提取的特征信息对于人脸情绪识别没有帮助。本发明中的人脸情绪识别模型加入了选择性卷积核网络可以使深度神经网络集中选择人脸面部的区域进行特征信息的提取,则解决了背景等诸多因素干扰特征信息的问题。
需强调的是,在实际使用该人脸情绪识别模型时,该人脸情绪识别模型可以以包括硬件和软件两个部分,硬件部分由智能终端、网络传输设备和图像采集设备组成,为人脸情绪识别模型的运行提供支撑,为图像数据的处理、互联互通提供条件;软件部分包括Python(Python是一种计算机编程语言。它是一种面向对象的动态类型语言)和HTML(超文本标记语言)两个模块,分别负责模型训练、图像检测与可视化设计功能;从而实现对人脸图像的数据采集和存储,为智能识别提供原始数据来源。
仍需强调的是,对人脸检测模块采集的原始数据进行特征提取与分类计算,所获得的结果反馈至可视化系统界面,从而实现对人脸表情的实时识别;Python和HTML两个软件分别用以实现不同的功能,其中:Python对图像采集设备的摄像头所采集的视频进行逐帧分析并得到待测图像,然后再将该图像输入其中人脸检测模块,负责整个系统的数据采集和存储任务。
在具体实施中,Python语言是系统的开发语言,采用ResNet残差网络搭建网络模型,并在FER2013数据集(fer2013数据集由35886张人脸不同表情图片组成,其中训练集28708张,验证集和测试集各3589张)、RAF-DB数据集(真实世界的情感面孔数据库是用于面部表情的数据集)和KDEF数据集(KDEF这是一个表情识别数据集,全称为KDEF(karolinskadirected emotional faces)数据集,包括70个模特,7种不同的表情,4900张彩色图)上训练参数;训练好的模型对待测图像进行识别,然后将结果输入可视化模块;HTML界面是表情识别系统的可视化模块,左侧为控制界面,右侧为结果界面,显示识别时间、识别结果和表情强度三个内容,便于对人脸表情进行全面准确地描述。
步骤S20:根据所述基础神经网络对所述待识别图像进行特征提取得到多个基础特征。
可理解的是,基础神经网络可以对该待识别图像进行特征提取,但是此时提取出来的特征是包括很多无用信息的特征,类似于背景特征、衣服特征、建筑特征等。
应理解的是,基础特征是对基础神经网络提取的所有特征的一个概括描述,包括有利于识别人脸情绪的有用特征和干扰模型情绪识别准确度的无用特征。
步骤S30:根据所述选择性卷积核网络计算各基础特征的独立权重,根据所述独立权重对所述各基础特征进行融合,得到融合特征。
可理解的是,选择性卷积核网络中在进行卷积操作时,会自适应选择不同的卷积核,不同的卷积核将多个基础特征分为多个分支,然后再进行融合。
需说明的是,融合之后得到该融合部分的权重,该权重为选择性卷积核网络中每个分支的独立权重。
在具体实施中,可以理解为其中一个分支是采集的多个尺度的背景特征,将多尺度的背景特征融合后得到融合后完整的背景信息,根据融合后的背景信息得到该分支的融合特征的权重。
需强调的是,根据所述选择性卷积核网络计算各基础特征的独立权重,根据所述独立权重对所述各基础特征进行融合,得到融合特可以是:
所述选择性卷积核网络通过自适应感受野计算各基础特征的独立权重;根据所述独立权重对所述多个基础特征进行筛选得到多个参考特征;将所述多个参考特征进行融合得到融合特征。
其中,自适应感受野可以是选择性卷积核网络中自适应卷积核的一种,根据自适应感受野可以计算得到各基础特征的独立权重,也就是自适应感受野中每个分支的独立权重,比较所有分支独立权重的大小,将权重小于权重阈值的分支对应的基础特征剔除,所述权重阈值可以是0.3、0.4等,可根据实际情况进行设定。
可理解的是,参考特征可以是基础特征融合后权重大于权重阈值的融合特征,将权重低于权重阈值的特征去除后剩下的所有特征进行融合得到一个融合特征。
需进一步说明的是,所述将所述多个参考特征进行融合得到融合特征,但是融合特征可能数据量较大,也可能存在融合特征尺寸较大,不利于后续识别。
值得说明的是,将所述多个参考特征进行融合得到初始融合特征;对所述初始融合特征进行下采样得到采样特征;对所述采样特征进行特征降维得到融合特征。
其中,上述所有特征都可以是以多维向量的方式表示基础特征、融合和特征等;对采样特征进行降维可以是将所有的特征向量转换为一维向量信息。
步骤S40:基于融合特征中各参考特征对应的独立权重通过所述分类器确定目标感受野,根据所述目标感受野得到待识别图像中的人脸情绪。
可理解的是,分类器是已经预先训练好的对不同特征进行分类,每个类别代表一种人脸情绪。
需说明的是,在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。
应理解的是,将通过选择性卷积核网络中每个分支的权重输入到分类器,分类器中的softmax函数(归一化指数函数)计算各感受野的权重,比较各感受野的权重的大小,将权重最大的感受野作为最佳感受野。
需强调的是,所述基于融合特征中各参考特征对应的独立权重通过所述分类器确定目标感受野,根据所述目标感受野得到待识别图像中的人脸情绪可以是分类器根据融合特征中各参考特征对应的独立权重得到融合特征中多个感受野的权重;比较各感受野的权重的大小,得到目标感受野;对所述目标感受野进行特征分类,得到所述待识别图像中的人脸情绪。
本实施例通过在残差人工神经网络中第一组残差结构后增加选择性卷积核网络,对残差人工神经网络全范围提取的特征进行自适应筛选,并赋予每个特征对应的独立权重,根据独立权重找到待识别图片中的更有情绪代表的参考特征,根据参考特征进行人脸情绪识别,完成对待识别特征中人脸情绪的分类,能够更加快速准确的识别出待识别图像中的人脸情绪。
参考图3,图3为本发明一种人脸情绪识别方法第二实施例的流程示意图。
基于上述第一实施例,本实施例人脸情绪识别方法在所述步骤S10之前,还包括:
步骤S101:获取初始训练图像以及初始验证图像,对所述初始训练图像以及所述初始验证图像进行预处理,得到训练张量和验证张量。
可理解的是,初始训练图像可以是RAF-DB、FER2013、KDEF、ImageNet公开数据集的训练集,初始验证图像可以是RAF-DB、FER2013公开数据集的验证集,其中面部表情包括惊讶、恐惧、厌恶、快乐、悲伤、愤怒和中性七类。
可理解的是,训练张量和验证张量可以是对初始训练图像以及初始验证图像进行预处理之后得到的向量,初始训练图像预处理之后的向量信息称为训练张量;初始验证图像预处理之后的向量信息称为验证张量。
应理解的是,所述初始验证图像可以是使用迁移学习的方法把源域ImageNet数据集的知识迁移到人脸情绪识别模型中,使用Image net数据集预训练的ResNet50模型迁移至Fer2013与Raf-Db数据集上。
需说明的是,对所述初始训练图像以及所述初始验证图像进行预处理,得到训练张量和验证张量可以是:将初始训练图像以及初始验证图像的尺寸进行转换得到尺寸统一的训练图像以及验证图像;
对所述训练图像以及所述验证图像进行数据增强,得到增强后的训练图像和增强后的验证图像(数据增强可以是将统一尺寸的图像进行随机水平翻转、随机遮挡、随机裁剪来对数据集进行增强,可以防止训练过程中出现过拟合);
对所述增强后的训练图像和所述增强后的验证图像进行向量转换得到训练张量和验证张量。
步骤S102:将所述训练张量输入初始模型对所述初始模型进行训练,直到所述初始模型的识别正确率满足预设条件,得到初始情绪识别模型。
可理解的是,在模型基本架构完成后,为了使模型能够更加准确的实现具体功能,类似于为了使本申请中的人脸情绪识别模型能够更准确有效的识别人脸情绪,需要对模型进行训练,在训练完成后再通过另外的图像数据对训练好的模型进行验证。
应理解的是,单一的图像集合进行训练和验证容易出现过拟合,类似于在训练中识别率很高,但是在实际使用中容易出现错误。
可理解的是,在对模型进行训练的过程中需要对模型的参数进行设定,通过训练对参数不断优化,也是提高模型识别准确率的方法。
应理解的是,直到初始模型的识别正确率满足预设条件中的预设条件可以是初始模型在训练过程中连续正确识别人脸情绪10-15个内的变化幅度在1%时,则认为满足预设条件。
需说明的是,将所述训练张量输入初始模型对所述初始模型进行训练,直到所述初始模型的识别正确率满足预设条件,得到初始情绪识别模型可以是:
获取训练参数,所述训练参数包括学习率以及学习率衰减;
根据所述学习率以及所述学习率衰减对所述初始模型进行设定得到参数设定后的初始模型,所述训练参数可以参考下表:
参数 | 数值 |
Input_shape | [224,224,3] |
优化器 | SGD |
初始学习率 | 0.01 |
最小学习率 | 0.0001 |
Momentum | 0.9 |
下降算法 | COS |
Batch size | 32 |
将所述训练张量输入参数设定后的初始模型得到预识别情绪,将所述预识别情绪与所述训练张量对应的参考情绪进行比较;当比较结果连续正确数量满足预设条件,则完成训练,得到初始情绪识别模型。
步骤S103:通过验证张量对所述初始情绪识别模型进行验证,若所述验证结果不符合预设要求,则重新对所述初始情绪识别模型进行训练;若验证结果符合预设要求,得到人脸情绪识别模型。
可理解的是,预设要求可以是将验证张量输入初始情绪识别模型,判断初始情绪识别模型对验证张量的正确识别率是否高于90%,若初始情绪识别模型对验证张量的正确识别率高于90%,则认为该初始情绪识别模型符合预设要求,则将该模型作为人脸情绪识别模型。
需说明的是,人类在获取图像信息时,会快速扫描到信息量丰富的区域并重点关注,忽略其他信息量少或无用的区域,这是从大量信息中过滤出最有价值信息的较好方法。例如人类在判断人脸表情时,会聚焦于眼睛、嘴巴等表情信息丰富的区域,忽略鼻子、额头等参考价值不大的区域。
区域级的注意力机制需要人工指定区域的划分规则,如每个区域的大小、位置、划分区域的数量等,人由于缺少先验经验,很难找到最合适的划分方法,另外多个区域会导致模型在训练和推理过程中消耗更多的计算资源。
本实施例通过使用迁移学习的方式训练加入了SKNet选择性卷积核网络的人脸情绪识别模型,在训练过程中为人脸情绪识别模型提供了更多个学习分类样本,进一步提高识别准确率,在后续使用人脸情绪识别模型进行情绪识别时,可以更加准确有效的识别图像中人脸情绪。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有人脸情绪识别程序,所述人脸情绪识别程序被处理器执行时实现如上文所述的人脸情绪识别方法的步骤。
参照图4,图4为本发明人脸情绪识别装置第一实施例的结构框图。
如图4所示,本发明实施例提出的人脸情绪识别装置包括:
数据输入模块10,用于将待识别图像输入人脸情绪识别模型,所述人脸情绪识别模型包括基础神经网络、选择性卷积核网络以及分类器;
特征提取模块20,用于根据所述基础神经网络对所述待识别图像进行特征提取得到多个基础特征;
特征融合模块30,用于根据所述选择性卷积核网络计算各基础特征的独立权重,根据所述独立权重对所述各基础特征进行融合,得到融合特征;
分类识别模块40,用于基于融合特征中各参考特征对应的独立权重通过所述分类器确定目标感受野,根据所述目标感受野得到待识别图像中的人脸情绪。
本实施例通过在残差人工神经网络中第一组残差结构后增加选择性卷积核网络,对残差人工神经网络全范围提取的特征进行自适应筛选,并赋予每个特征对应的独立权重,根据独立权重找到待识别图片中的更有情绪代表的参考特征,根据参考特征进行人脸情绪识别,完成对待识别特征中人脸情绪的分类,能够更加快速准确的识别出待识别图像中的人脸情绪。
在一实施例中,所述特征融合模块30,还用于所述选择性卷积核网络通过自适应感受野计算各基础特征的独立权重;
根据所述独立权重对所述多个基础特征进行筛选得到多个参考特征;
将所述多个参考特征进行融合得到融合特征。
在一实施例中,所述特征融合模块30,还用于将所述多个参考特征进行融合得到初始融合特征;
对所述初始融合特征进行下采样得到采样特征;
对所述采样特征进行特征降维得到融合特征。
在一实施例中,所述分类识别模块40,还用于所述分类器根据所述融合特征中各参考特征对应的独立权重得到所述融合特征中多个感受野的权重;
比较各感受野的权重的大小,得到目标感受野;
对所述目标感受野进行特征分类,得到所述待识别图像中的人脸情绪。
在一实施例中,所述数据输入模块10,还用于获取初始训练图像以及初始验证图像,对所述初始训练图像以及所述初始验证图像进行预处理,得到训练张量和验证张量;
将所述训练张量输入初始模型对所述初始模型进行训练,直到所述初始模型的识别正确率满足预设条件,得到初始情绪识别模型;
通过验证张量对所述初始情绪识别模型进行验证,若所述验证结果不符合预设要求,则重新对所述初始情绪识别模型进行训练;若验证结果符合预设要求,得到人脸情绪识别模型。
在一实施例中,所述数据输入模块10,还用于将所述初始训练图像以及所述初始验证图像的尺寸进行转换得到尺寸统一的训练图像以及验证图像;
对所述训练图像以及所述验证图像进行数据增强,得到增强后的训练图像和增强后的验证图像;
对所述增强后的训练图像和所述增强后的验证图像进行向量转换得到训练张量和验证张量。
在一实施例中,所述数据输入模块10,还用于获取训练参数,所述训练参数包括学习率以及学习率衰减;
根据所述学习率以及所述学习率衰减对所述初始模型进行设定得到参数设定后的初始模型;
将所述训练张量输入参数设定后的初始模型得到预识别情绪,将所述预识别情绪与所述训练张量对应的参考情绪进行比较;
当比较结果连续正确数量满足预设条件,则完成训练,得到初始情绪识别模型。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种人脸情绪识别方法,其特征在于,所述人脸情绪识别方法包括:
将待识别图像输入人脸情绪识别模型,所述人脸情绪识别模型包括基础神经网络、选择性卷积核网络以及分类器;
根据所述基础神经网络对所述待识别图像进行特征提取得到多个基础特征;
根据所述选择性卷积核网络计算各基础特征的独立权重,根据所述独立权重对所述各基础特征进行融合,得到融合特征;
基于融合特征中各参考特征对应的独立权重通过所述分类器确定目标感受野,根据所述目标感受野得到待识别图像中的人脸情绪。
2.如权利要求1所述的人脸情绪识别方法,其特征在于,所述根据所述选择性卷积核网络计算各基础特征的独立权重,根据所述独立权重对所述各基础特征进行融合,得到融合特征,包括:
所述选择性卷积核网络通过自适应感受野计算各基础特征的独立权重;
根据所述独立权重对所述多个基础特征进行筛选得到多个参考特征;
将所述多个参考特征进行融合得到融合特征。
3.如权利要求2所述的人脸情绪识别方法,其特征在于,所述将所述多个参考特征进行融合得到融合特征,包括:
将所述多个参考特征进行融合得到初始融合特征;
对所述初始融合特征进行下采样得到采样特征;
对所述采样特征进行特征降维得到融合特征。
4.如权利要求1所述的人脸情绪识别方法,其特征在于,所述基于融合特征中各参考特征对应的独立权重通过所述分类器确定目标感受野,根据所述目标感受野得到待识别图像中的人脸情绪,包括:
所述分类器根据所述融合特征中各参考特征对应的独立权重得到所述融合特征中多个感受野的权重;
比较各感受野的权重的大小,得到目标感受野;
对所述目标感受野进行特征分类,得到所述待识别图像中的人脸情绪。
5.如权利要求1所述的人脸情绪识别方法,其特征在于,所述将所述待识别图像输入人脸情绪识别模型之前,包括:
获取初始训练图像以及初始验证图像,对所述初始训练图像以及所述初始验证图像进行预处理,得到训练张量和验证张量;
将所述训练张量输入初始模型对所述初始模型进行训练,直到所述初始模型的识别正确率满足预设条件,得到初始情绪识别模型;
通过验证张量对所述初始情绪识别模型进行验证,若所述验证结果不符合预设要求,则重新对所述初始情绪识别模型进行训练;若验证结果符合预设要求,得到人脸情绪识别模型。
6.如权利要求5所述的人脸情绪识别方法,其特征在于,所述对所述初始训练图像以及所述初始验证图像进行预处理,得到训练张量和验证张量,包括:
将所述初始训练图像以及所述初始验证图像的尺寸进行转换得到尺寸统一的训练图像以及验证图像;
对所述训练图像以及所述验证图像进行数据增强,得到增强后的训练图像和增强后的验证图像;
对所述增强后的训练图像和所述增强后的验证图像进行向量转换得到训练张量和验证张量。
7.如权利要求5所述的人脸情绪识别方法,其特征在于,所述将所述训练张量输入初始模型对所述初始模型进行训练,直到所述初始模型的识别正确率满足预设条件,得到初始情绪识别模型,包括:
获取训练参数,所述训练参数包括学习率以及学习率衰减;
根据所述学习率以及所述学习率衰减对所述初始模型进行设定得到参数设定后的初始模型;
将所述训练张量输入参数设定后的初始模型得到预识别情绪,将所述预识别情绪与所述训练张量对应的参考情绪进行比较;
当比较结果连续正确数量满足预设条件,则完成训练,得到初始情绪识别模型。
8.一种人脸情绪识别装置,其特征在于,所述人脸情绪识别装置包括:
数据输入模块,用于将待识别图像输入人脸情绪识别模型,所述人脸情绪识别模型包括基础神经网络、选择性卷积核网络以及分类器;
特征提取模块,用于根据所述基础神经网络对所述待识别图像进行特征提取得到多个基础特征;
特征融合模块,用于根据所述选择性卷积核网络计算各基础特征的独立权重,根据所述独立权重对所述各基础特征进行融合,得到融合特征;
分类识别模块,用于基于融合特征中各参考特征对应的独立权重通过所述分类器确定目标感受野,根据所述目标感受野得到待识别图像中的人脸情绪。
9.一种人脸情绪识别设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人脸情绪识别程序,所述人脸情绪识别程序配置为实现如权利要求1至7中任一项所述的人脸情绪识别方法。
10.一种存储介质,其特征在于,所述存储介质上存储有人脸情绪识别程序,所述人脸情绪识别程序被处理器执行时实现如权利要求1至7任一项所述的人脸情绪识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310237387.1A CN116363732A (zh) | 2023-03-10 | 2023-03-10 | 人脸情绪识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310237387.1A CN116363732A (zh) | 2023-03-10 | 2023-03-10 | 人脸情绪识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116363732A true CN116363732A (zh) | 2023-06-30 |
Family
ID=86926925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310237387.1A Pending CN116363732A (zh) | 2023-03-10 | 2023-03-10 | 人脸情绪识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116363732A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079324A (zh) * | 2023-08-17 | 2023-11-17 | 厚德明心(北京)科技有限公司 | 一种人脸情绪识别方法、装置、电子设备及存储介质 |
-
2023
- 2023-03-10 CN CN202310237387.1A patent/CN116363732A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079324A (zh) * | 2023-08-17 | 2023-11-17 | 厚德明心(北京)科技有限公司 | 一种人脸情绪识别方法、装置、电子设备及存储介质 |
CN117079324B (zh) * | 2023-08-17 | 2024-03-12 | 厚德明心(北京)科技有限公司 | 一种人脸情绪识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109409222B (zh) | 一种基于移动端的多视角人脸表情识别方法 | |
US20210174072A1 (en) | Microexpression-based image recognition method and apparatus, and related device | |
CN111079639B (zh) | 垃圾图像分类模型构建的方法、装置、设备及存储介质 | |
US20210271862A1 (en) | Expression recognition method and related apparatus | |
CN111582348B (zh) | 条件生成式对抗网络的训练方法、装置、设备及存储介质 | |
CN111563417B (zh) | 一种基于金字塔结构卷积神经网络的人脸表情识别方法 | |
CN108830237B (zh) | 一种人脸表情的识别方法 | |
CN112464865A (zh) | 一种基于像素和几何混合特征的人脸表情识别方法 | |
CN110363084A (zh) | 一种上课状态检测方法、装置、存储介质及电子 | |
CN110930297A (zh) | 人脸图像的风格迁移方法、装置、电子设备及存储介质 | |
CN110909680A (zh) | 人脸图像的表情识别方法、装置、电子设备及存储介质 | |
CN111709468B (zh) | 一种定向人工智能的训练方法、装置及存储介质 | |
Jassmann et al. | Leaf classification utilizing a convolutional neural network | |
CN111666937A (zh) | 一种图像中的文本识别方法及系统 | |
CN116363732A (zh) | 人脸情绪识别方法、装置、设备及存储介质 | |
CN107944363A (zh) | 人脸图像处理方法、系统及服务器 | |
CN114359917A (zh) | 一种手写汉字检测识别及字形评估方法 | |
CN111860601B (zh) | 预测大型真菌种类的方法及装置 | |
Rasel et al. | An efficient framework for hand gesture recognition based on histogram of oriented gradients and support vector machine | |
Yadahalli et al. | Facial micro expression detection using deep learning architecture | |
CN110675312B (zh) | 图像数据处理方法、装置、计算机设备以及存储介质 | |
CN116311472B (zh) | 基于多层次图卷积网络的微表情识别方法及装置 | |
CN110135391A (zh) | 使用计算机选配眼镜框的程序和眼镜框选配系统 | |
Katoch et al. | Recognition Of Handwritten English Character Using Convolutional Neural Network | |
CN110309285B (zh) | 自动问答方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |