CN111325190A - 一种表情识别方法、装置、计算机设备及可读存储介质 - Google Patents
一种表情识别方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN111325190A CN111325190A CN202010248558.7A CN202010248558A CN111325190A CN 111325190 A CN111325190 A CN 111325190A CN 202010248558 A CN202010248558 A CN 202010248558A CN 111325190 A CN111325190 A CN 111325190A
- Authority
- CN
- China
- Prior art keywords
- feature
- key point
- face
- output
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000004044 response Effects 0.000 claims abstract description 104
- 239000013598 vector Substances 0.000 claims abstract description 69
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000011176 pooling Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 210000001508 eye Anatomy 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 210000001847 jaw Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种表情识别方法,包括:对人脸图像进行人脸关键点位置检测,得到人脸关键点位置信息;将人脸图像输入四个级联的卷积模块中,进行特征处理,得到第四个卷积模块所输出的特征响应图;将特征响应图输入至全局平均池化层模块中,得到第一维数的特征向量;对前三个卷积模块输出的特征响应图进行关键点特征提取,得到关键点特征信息;将第一维数的特征向量与关键点特征信息进行连接,得到第二维数的特征向量;将第二维数的特征向量输入至全连接层模块中,得到第三维数的特征向量;将第三维数的特征向量输入至已训练的神经网络分类器中,输出人脸图像的表情类别信息。本发明结构简单,且参数量小。
Description
技术领域
本发明涉及图形处理技术领域。更具体地,涉及一种表情识别方法、装置、计算机设备及可读存储介质。
背景技术
深度学习技术如今已取得了突飞猛进的发展,Google、facebook、百度等企业投入了巨大资本和人力进行深度学习的技术研究,不断推出其特有的产品和技术,其他诸如IBM、微软、亚马逊等企业也在不断进军深度学习领域,并取得了一定的成果。
深度学习技术在人类数据感知领域取得了突破性的进展,例如描述图像内容、识别图像中的复杂环境下的物体以及在嘈杂环境中进行语音识别,同时,深度学习技术还可以解决图像生成和融合的问题。
目前,人脸特征识别是近年来生物模式识别中的热点技术,该技术要求对人脸的面部特征点进行检测定位,并根据这些特征点进行人脸匹配,表情分析等应用,近些年来,很多研究机构和企业都在目标识别领域进行了大量的资源投入,并且获得了一系列的成果,这些成果在安防、金融、生活娱乐等行业也有了很多的应用,表情识别是人脸特征识别技术的延伸,也是该领域的一个难点,由于人类面部表情的复杂性,利用机器学习的方法对表情进行分类的准确率一直难以有实质性突破,深度学习的发展为图像模式识别的性能提升提供了更多的可能性,所以基于深度学习技术的表情识别研究也是近年来人脸特征识别领域的热门关注点。
现有技术中,目前的表情识别方法大多是利用人脸关键点对人脸图像进行截取,将截取出的眼睛和嘴部图像都放大成人脸图像大小,并一起输入深度学习网络中进行训练,得到表情识别的深度学习模型,但是这种方法模型结构复杂,且参数量较多。
发明内容
为了解决背景技术中所提出的技术问题,本发明第一方面提出了一种表情识别方法,包括以下步骤:
对人脸图像进行人脸关键点位置检测,得到人脸关键点位置信息;
将所述人脸图像输入四个级联的卷积模块中,对输入的人脸图像依次进行特征处理,得到第四个卷积模块所输出的特征响应图;
将所述第四个卷积模块所输出的特征响应图输入至全局平均池化层模块中,得到第一维数的特征向量;
利用所述人脸关键点位置信息对前三个卷积模块所分别输出的特征响应图进行关键点特征提取,得到前三个卷积模块所分别输出的特征响应图的关键点特征信息;
将所述第一维数的特征向量与所述前三个卷积模块所分别输出的特征响应图的关键点特征信息进行连接,得到第二维数的特征向量;
将所述第二维数的特征向量输入至全连接层模块中进行处理,得到第三维数的特征向量;
将第三维数的特征向量输入至已训练的神经网络分类器中,以由所述神经网络分类器输出所述人脸图像的表情类别信息。
可选地,所述对人脸图像进行人脸关键点位置检测,得到人脸关键点位置信息包括:
基于Dlib库对所述人脸图像进行人脸关键点位置检测,获取人脸图像中的眼睛和嘴部的关键点来作为人脸关键点位置信息。
可选地,所述卷积模块包括:输入层、卷积层、归一化层、激活函数层、池化层以及输出层;
其中,所述卷积层的输入端与所述输入层连接,所述归一化层的输入端与所述卷积层的输出端连接,所述激活函数层的输入端与所述归一化层的输出端连接,所述池化层的输入端与所述激活函数层的输出端连接,所述输出层的输入端与所述池化层的输出端连接。
可选地,所述利用所述人脸关键点位置信息对前三个卷积模块所分别输出的特征响应图进行关键点特征提取,得到前三个卷积模块所分别输出的特征响应图的关键点特征信息包括:
利用所述人脸关键点位置信息,在各个卷积模块所输出的特征响应图中提取与所述人脸关键点位置信息相对应的响应值;
将所述人脸关键点位置信息在各个特征响应图中相对应的响应值进行加权平均,得到各个卷积模块所分别输出的特征响应图的关键点特征信息。
可选地,所述关键点特征信息通过下式得到:
可选地,在所述利用所述人脸关键点位置信息,在各个卷积模块所输出的特征响应图中提取与所述人脸关键点位置信息相对应的响应值之前的步骤还包括:
将各个卷积模块所输出的特征响应图的尺寸调整至与所述人脸图像的尺寸相同。
可选地,所述对人脸图像进行人脸关键点位置检测,得到人脸关键点位置信息之前的步骤还包括:
获取输入图像,对输入图像进行人脸检测,将检测到的人脸图像的尺寸调整至预设尺寸。
可选地,所述神经网络分类器通过随机梯度下降法训练得到。
本发明第二方面提出了一种表情识别装置,包括:
人脸关键点位置检测模块,用于对人脸图像进行人脸关键点位置检测,得到人脸关键点位置信息;
四个级联的卷积模块,用于输入所述人脸图像,对输入的人脸图像依次进行特征处理,得到第四个卷积模块所输出的特征响应图;
全局平均池化层模块,用于根据输入的第四个卷积模块所输出的特征响应图来得到第一维数的特征向量;
关键点特征信息模块,用于利用所述人脸关键点位置信息对前三个卷积模块所分别输出的特征响应图进行关键点特征提取,得到前三个卷积模块所分别输出的特征响应图的关键点特征信息;
特征向量连接模块,用于将所述第一维数的特征向量与所述前三个卷积模块所分别输出的特征响应图的关键点特征信息进行连接,得到第二维数的特征向量;
全连接层模块,用于将输入的所述第二维数的特征向量进行处理,得到第三维数的特征向量;
神经网络分类器,用于将输入第三维数的特征向量输入至已训练的神经网络分类器中,以由所述神经网络分类器输出所述人脸图像的表情类别信息。
本发明第三方面提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第一方面所述的方法。
本发明第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述计算机可读存储介质在计算机上运行时,使得所述计算机执行本发明第一方面所述的方法。
本发明的有益效果如下:
本发明所述技术方案具有原理明确、设计简单的优点,具体利用了人脸关键点位置信息对特征响应图进行关键点特征提取的机制,达到对输入的人脸图像进行相应的表情识别的目的,结构简单,且参数量小。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明的一个实施例提出的一种表情识别方法的流程图;
图2示出本实施例中表情识别方法的算法结构的示意图;
图3示出人脸关键点位置的示意图;
图4示出本实施例中卷积模块的结构示意图;
图5示出本实施例中对前三个卷积模块的特征响应图进行关键点特征提取的流程图;
图6示出本发明的另一个实施例提出的一种计算机设备的结构示意图。
具体实施方式
为使本发明的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1示出本发明的一个实施例提出的一种表情识别方法的步骤流程图,该表情识别方法可以应用于终端设备,该终端设备可以是智能手机、平板电脑、个人计算机或服务器等,为了便于理解,下面先简要地介绍一下该表情识别方法的算法结构。
如图2所示,本实施例中的表情识别方法的算法结构包括有人脸图像输入层、人脸关键点位置检测模块、4个级联的卷积层模块、全局平均化池化层模块、关键点特征信息模块、特征向量连接模块、全连接层以及分类器;
其中,
人脸关键点位置检测用于对人脸图像进行人脸关键点位置检测,得到人脸关键点位置信息;
四个级联的卷积模块用于输入所述人脸图像,对输入的人脸图像依次进行特征处理,得到第四个卷积模块所输出的特征响应图;
全局平均池化层模块用于根据输入的第四个卷积模块所输出的特征响应图来得到第一维数的特征向量;
关键点特征信息模块用于利用所述人脸关键点位置信息分别对前三个卷积模块所分别输出的特征响应图进行关键点特征提取,得到前三个卷积模块所分别输出的特征响应图的关键点特征信息;
特征向量连接模块用于将所述第一维数的特征向量与所述前三个卷积模块所分别输出的特征响应图的关键点特征信息进行连接,得到第二维数的特征向量;
全连接层模块用于将输入的所述第二维数的特征向量进行处理,得到第三维数的特征向量;
分类器用于将输入第三维数的特征向量输入至已训练的神经网络分类器中,以由所述神经网络分类器输出所述人脸图像的表情类别信息。
在这里,表情类别信息可以为高兴、惊讶、平静、悲伤、生气、厌恶和恐惧,当然,也可以预设其他种类的表情。
以上介绍了表情识别方法的算法结构,下面详细的介绍表情识别方法,该表情识别方法如图1所示,包括:
S100、对人脸图像进行人脸关键点位置检测,得到人脸关键点位置信息;
S200、将所述人脸图像输入四个级联的卷积模块中,对输入的人脸图像依次进行特征处理,得到第四个卷积模块所输出的特征响应图;
S300、将所述第四个卷积模块所输出的特征响应图输入至全局平均池化层模块中,得到第一维数的特征向量;
S400、利用所述人脸关键点位置信息对前三个卷积模块所分别输出的特征响应图进行关键点特征提取,得到前三个卷积模块所分别输出的特征响应图的关键点特征信息;
S500、将所述第一维数的特征向量与所述前三个卷积模块所分别输出的特征响应图的关键点特征信息进行连接,得到第二维数的特征向量;
S600、将所述第二维数的特征向量输入至全连接层模块中进行处理,得到第三维数的特征向量;
S700、将第三维数的特征向量输入至已训练的神经网络分类器中,以由所述神经网络分类器输出所述人脸图像的表情类别信息。
具体的,在S100中,还包括:基于Dlib库对所述人脸图像进行人脸关键点位置检测,获取人脸图像中的眼睛和嘴部的关键点来作为人脸关键点位置信息。
需要说明的是,Dlib库是一种类似OpenCV的图像处理算法综合应用库,属于现有技术,而人脸关键点识别是该库的一类亮点功能,Dlib库的人脸关键点位置检测是基于机器学习中的随机森林算法开发而成,可描述人脸内68个关键点位置,如图3所示,包括有眉、眼、鼻、口以及下颚,且运算速度较快,在本实施例中,为了能够使得深度学习网络对表情特征更聚焦,因此,从68个关键点中选取了与表情关联最大的眼睛和嘴巴共32个关键点来作为人脸关键点位置信息。
进一步的,在本实施例中,在S100之前的步骤还包括有:获取输入图像,对输入图像进行人脸检测,将检测到的人脸图像的尺寸调整至预设尺寸。
具体的,可通过Dlib库来对获取的输入图像中的人脸进行相应的检测,将检测到的人脸图像的尺寸统一变化为预设尺寸,在这里,预设尺寸的具体大小可由工作人员的实际需要自行进行设定,本实施例对此不做限定,示例性的,预设尺寸可为48×48。
在S200中,如图4所示,卷积模块具体可包括:输入层、卷积层、归一化层、激活函数层、池化层以及输出层。
具体的,所述卷积层的输入端与所述输入层连接,所述归一化层的输入端与所述卷积层的输出端连接,所述激活函数层的输入端与所述归一化层的输出端连接,所述池化层的输入端与所述激活函数层的输出端连接,所述输出层的输入端与所述池化层的输出端连接。
在本实施例中,四个级联卷积模块的作用就是在对输入的不同尺度的特征响应图进行特征提取,并输出处理后的特征响应图,为了便于理解,按照四个卷积模块由上至下的排列顺序,将四个卷积模块分别定义为第一卷积模块、第二卷积模块、第三卷积模块以及第四卷积模块。
在具体实施中,人脸图像会首先输入至第一卷积模块内,如图4所示,第一卷积模块的尺度包括3×3卷积核、32通道,人脸图像经由第一卷积模块处理后得到尺度为24×24、通道数为32的特征响应图,第一卷积模块的输出作为第二卷积模块的输入,第二卷积模块包括3×3卷积核、64通道,将24×24、通道数为32的特征响应图输入至第二卷积模块进行处理后得到尺度为12×12、通道数为64的特征响应图,第二卷积模块的输出作为第三卷积模块的输入,第三卷积模块包括3×3卷积核、128通道,将12×12、通道数为64的特征响应图输入至第三卷积模块进行处理后得到尺度为6×6、通道数为128的特征响应图,第三卷积模块的输出作为第四卷积模块的输入,第四卷积模块包括3×3卷积核、256通道,将6×6、通道数128的特征响应图输入至第四卷积模块进行处理后得到尺度为3×3、通道数256的特征响应图。
在S300中,全局平均池化层模块的作用是将第四个卷积模块所输出的特征响应图以求均值的方式变成第一维数的特征向量,在这里,第一维数具体为1×256。
在S400中,如图5所示,通过关键点特征信息模块来利用人脸关键点位置信息对前三个卷积模块所分别输出的特征响应图进行关键点特征提取,也就是对第一卷积模块、第二卷积模块以及第三卷积模块所分别输出的特征响应图进行关键点特征提取,从而得到第一卷积模块、第二卷积模块以及第三卷积模块所分别输出的特征响应图的关键点特征信息。
具体的,S400包括如下子步骤:
利用所述人脸关键点位置信息,在各个卷积模块所输出的特征响应图中提取与所述人脸关键点位置信息相对应的响应值;
将所述人脸关键点位置信息在各个特征响应图中相对应的响应值进行加权平均,得到各个卷积模块所分别输出的特征响应图的关键点特征信息。
在本实施例中,根据前述步骤中所得到的人脸关键点位置信息,分别在第一卷积模块、第二卷积模块以及第三卷积模块所输出的特征响应图中提取与人脸关键点位置信息所相对应的响应值,也就是提取与眼睛和嘴巴共32个关键点所相对应的响应值,并将各个关键点在特征响应图中的响应值进行加权平均,最后获取的是各个卷积模块所输出的特征响应图所对应的一组32个响应值。
进一步的,所述关键点特征信息通过下式得到:
在本实施例中,在所述利用所述人脸关键点位置信息,在各个卷积模块所输出的特征响应图中提取与所述人脸关键点位置信息相对应的响应值之前的步骤还包括:
将各个卷积模块所输出的特征响应图的尺寸调整至与所述人脸图像的尺寸相同。
具体的,可通过上采样的操作,来将各个卷积模块所分别输出的特征响应图的尺寸调整至与输入的人脸图像的尺寸一致。
在S500中,将S300中得到的第一维数的特征向量前三个卷积模块所分别输出的特征响应图的关键点特征信息进行连接,得到第二维数的特征向量,在这里,在提取了前三个卷积模块所输出的特征响应图的关键点特征信息后,将3个1×32维的特征向量与第一维数的特征向量进行连接,从而获得第二维数的特征向量,在这里,第二维数具体为1×352。
在S600中,全连接层模块的输出向量的每个元素均与输入向量的每个元素进行连接,可以为输入向量的所有特征进行融合,因此,经过全连接层模块后,全局平均池化层模块所输出的第一维数的特征向量与前三个卷积模块所输出的特征响应图的关键点特征信息进行融合,从而得到第三维数的特征向量,具体的,全连接层模块的输入第二维数的特征向量,输出第三维数的特征向量,第三维数为1×128。
在S700中,可通过将第三维数的特征向量输入至已训练的神经网络中的Softmax层中来计算每种预设的表情类别的置信度,其中,置信度可由下式得到:
其中,j为表情类别的序号,x为softmax层的输入向量(也就是本实施例中的第三维数的特征向量),w为网络权重参数,P(y=j|x)为Ssoftmax层的输入向量为x时,对应的表情类别为第j种表情类别的置信度。
在本实施例中,可根据每种表情类别的置信度确定待识别的人脸图像所对应的表情类别,具体可以将置信度最大的表情类别确定为人脸图像对应的表情类别。
需要说明的是,本实施例中的神经网络分类器可以通过随机梯度下降法训练得到,首先可以获取待训练的神经网络以及各种预设的表情类别的人脸图像样本,然后每次获取一定数量的人脸图像的样本并将其进行预处理,将预处理后的人脸图像样本输入至神经网络中进行梯度下降迭代训练,直至达到预设训练条件,获得训练好的神经网络分类器,其中,预设训练条件可以为:迭代次数达到预设次数,或者损伤函数的取值小于预设值,在本实施例中,可以采用交叉熵来作为损伤函数。
在本实施例中,预设的表情类别可以包括:高兴、惊讶、平静、悲伤、生气、厌恶和恐惧,当然,也可以预设其他数量,其他种类的表情类别。
综上所述,本发明所述技术方案具有原理明确、设计简单的优点,具体利用了人脸关键点位置信息对特征响应图进行关键点特征提取的机制,达到对输入的人脸图像进行相应的表情识别的目的,结构简单,且参数量小。
本发明的另一个实施例提出的一种表情识别装置,包括:
人脸关键点位置检测模块,用于对人脸图像进行人脸关键点位置检测,得到人脸关键点位置信息;
四个级联的卷积模块,用于输入所述人脸图像,对输入的人脸图像依次进行特征处理,得到第四个卷积模块所输出的特征响应图;
全局平均池化层模块,用于根据输入的第四个卷积模块所输出的特征响应图来得到第一维数的特征向量;
关键点特征信息模块,用于利用所述人脸关键点位置信息对前三个卷积模块所分别输出的特征响应图进行关键点特征提取,得到前三个卷积模块所分别输出的特征响应图的关键点特征信息;
特征向量连接模块,用于将所述第一维数的特征向量与所述前三个卷积模块所分别输出的特征响应图的关键点特征信息进行连接,得到第二维数的特征向量;
全连接层模块,用于将输入的所述第二维数的特征向量进行处理,得到第三维数的特征向量;
神经网络分类器,用于将输入第三维数的特征向量输入至已训练的神经网络分类器中,以由所述神经网络分类器输出所述人脸图像的表情类别信息。
本发明的再一个实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述表情识别方法。如图6所示,适于用来实现本实施例提供的服务器的计算机系统,包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有计算机系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线被此相连。输入/输入(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,提据本实施例,上文流程图描述的过程可以被实现为计算机软件程序。例如,本实施例包括一种计算机程序产品,其包括有形地包含在计算机可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。
附图中的流程图和示意图,图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括人脸关键点位置检测模块、四个级联的卷积模块、全局平均池化层模块等。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本发明的表情识别方法。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (11)
1.一种表情识别方法,其特征在于,包括以下步骤:
对人脸图像进行人脸关键点位置检测,得到人脸关键点位置信息;
将所述人脸图像输入四个级联的卷积模块中,对输入的人脸图像依次进行特征处理,得到第四个卷积模块所输出的特征响应图;
将所述第四个卷积模块所输出的特征响应图输入至全局平均池化层模块中,得到第一维数的特征向量;
利用所述人脸关键点位置信息对前三个卷积模块所分别输出的特征响应图进行关键点特征提取,得到前三个卷积模块所分别输出的特征响应图的关键点特征信息;
将所述第一维数的特征向量与所述前三个卷积模块所分别输出的特征响应图的关键点特征信息进行连接,得到第二维数的特征向量;
将所述第二维数的特征向量输入至全连接层模块中进行处理,得到第三维数的特征向量;
将第三维数的特征向量输入至已训练的神经网络分类器中,以由所述神经网络分类器输出所述人脸图像的表情类别信息。
2.根据权利要求1所述的表情识别方法,其特征在于,
所述对人脸图像进行人脸关键点位置检测,得到人脸关键点位置信息包括:
基于Dlib库对所述人脸图像进行人脸关键点位置检测,获取人脸图像中的眼睛和嘴部的关键点来作为人脸关键点位置信息。
3.根据权利要求1所述的表情识别方法,其特征在于,所述卷积模块包括:输入层、卷积层、归一化层、激活函数层、池化层以及输出层;
其中,所述卷积层的输入端与所述输入层连接,所述归一化层的输入端与所述卷积层的输出端连接,所述激活函数层的输入端与所述归一化层的输出端连接,所述池化层的输入端与所述激活函数层的输出端连接,所述输出层的输入端与所述池化层的输出端连接。
4.根据权利要求1所述的表情识别方法,其特征在于,
所述利用所述人脸关键点位置信息对前三个卷积模块所分别输出的特征响应图进行关键点特征提取,得到前三个卷积模块所分别输出的特征响应图的关键点特征信息包括:
利用所述人脸关键点位置信息,在各个卷积模块所输出的特征响应图中提取与所述人脸关键点位置信息相对应的响应值;
将所述人脸关键点位置信息在各个特征响应图中相对应的响应值进行加权平均,得到各个卷积模块所分别输出的特征响应图的关键点特征信息。
6.根据权利要求4所述的表情识别方法,其特征在于,
在所述利用所述人脸关键点位置信息,在各个卷积模块所输出的特征响应图中提取与所述人脸关键点位置信息相对应的响应值之前的步骤还包括:
将各个卷积模块所输出的特征响应图的尺寸调整至与所述人脸图像的尺寸相同。
7.根据权利要求1所述的表情识别方法,其特征在于,
所述对人脸图像进行人脸关键点位置检测,得到人脸关键点位置信息之前的步骤还包括:
获取输入图像,对输入图像进行人脸检测,将检测到的人脸图像的尺寸调整至预设尺寸。
8.根据权利要求1-7中任一项所述的表情识别方法,其特征在于,
所述神经网络分类器通过随机梯度下降法训练得到。
9.一种表情识别装置,其特征在于,包括:
人脸关键点位置检测模块,用于对人脸图像进行人脸关键点位置检测,得到人脸关键点位置信息;
四个级联的卷积模块,用于输入所述人脸图像,对输入的人脸图像依次进行特征处理,得到第四个卷积模块所输出的特征响应图;
全局平均池化层模块,用于根据输入的第四个卷积模块所输出的特征响应图来得到第一维数的特征向量;
关键点特征信息模块,用于利用所述人脸关键点位置信息分别对前三个卷积模块所分别输出的特征响应图进行关键点特征提取,得到前三个卷积模块所分别输出的特征响应图的关键点特征信息;
特征向量连接模块,用于将所述第一维数的特征向量与所述前三个卷积模块所分别输出的特征响应图的关键点特征信息进行连接,得到第二维数的特征向量;
全连接层模块,用于将输入的所述第二维数的特征向量进行处理,得到第三维数的特征向量;
神经网络分类器,用于将输入第三维数的特征向量输入至已训练的神经网络分类器中,以由所述神经网络分类器输出所述人脸图像的表情类别信息。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述计算机可读存储介质在计算机上运行时,使得所述计算机执行权利要求1-8中任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010248558.7A CN111325190B (zh) | 2020-04-01 | 2020-04-01 | 一种表情识别方法、装置、计算机设备及可读存储介质 |
PCT/CN2021/077705 WO2021196928A1 (zh) | 2020-04-01 | 2021-02-24 | 表情识别方法、装置、计算机设备及可读存储介质 |
US17/434,424 US20220343683A1 (en) | 2020-04-01 | 2021-02-24 | Expression Recognition Method and Apparatus, Computer Device, and Readable Storage Medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010248558.7A CN111325190B (zh) | 2020-04-01 | 2020-04-01 | 一种表情识别方法、装置、计算机设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325190A true CN111325190A (zh) | 2020-06-23 |
CN111325190B CN111325190B (zh) | 2023-06-30 |
Family
ID=71173331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010248558.7A Active CN111325190B (zh) | 2020-04-01 | 2020-04-01 | 一种表情识别方法、装置、计算机设备及可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220343683A1 (zh) |
CN (1) | CN111325190B (zh) |
WO (1) | WO2021196928A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021196928A1 (zh) * | 2020-04-01 | 2021-10-07 | 京东方科技集团股份有限公司 | 表情识别方法、装置、计算机设备及可读存储介质 |
CN115994922A (zh) * | 2023-03-23 | 2023-04-21 | 泉州装备制造研究所 | 运动分割方法、装置、电子设备及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111862030B (zh) * | 2020-07-15 | 2024-02-09 | 北京百度网讯科技有限公司 | 一种人脸合成图检测方法、装置、电子设备及存储介质 |
CN113963421B (zh) * | 2021-11-16 | 2023-04-07 | 南京工程学院 | 基于混合特征增强网络的动态序列非约束表情识别方法 |
CN116665309B (zh) * | 2023-07-26 | 2023-11-14 | 山东睿芯半导体科技有限公司 | 一种步姿特征识别方法、装置、芯片及终端 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018055470A (ja) * | 2016-09-29 | 2018-04-05 | 国立大学法人神戸大学 | 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム |
CN108229268A (zh) * | 2016-12-31 | 2018-06-29 | 商汤集团有限公司 | 表情识别及卷积神经网络模型训练方法、装置和电子设备 |
CN109858467A (zh) * | 2019-03-01 | 2019-06-07 | 北京视甄智能科技有限公司 | 一种基于关键点区域特征融合的人脸识别方法及装置 |
CN110348350A (zh) * | 2019-07-01 | 2019-10-18 | 电子科技大学 | 一种基于面部表情的驾驶员状态检测方法 |
CN110399809A (zh) * | 2019-07-08 | 2019-11-01 | 北京亮亮视野科技有限公司 | 多特征融合的人脸关键点检测方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644209A (zh) * | 2017-09-21 | 2018-01-30 | 百度在线网络技术(北京)有限公司 | 人脸检测方法和装置 |
CN109684911B (zh) * | 2018-10-30 | 2021-05-11 | 百度在线网络技术(北京)有限公司 | 表情识别方法、装置、电子设备及存储介质 |
CN110163080A (zh) * | 2019-04-02 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 人脸关键点检测方法及装置、存储介质和电子设备 |
CN111325190B (zh) * | 2020-04-01 | 2023-06-30 | 京东方科技集团股份有限公司 | 一种表情识别方法、装置、计算机设备及可读存储介质 |
-
2020
- 2020-04-01 CN CN202010248558.7A patent/CN111325190B/zh active Active
-
2021
- 2021-02-24 WO PCT/CN2021/077705 patent/WO2021196928A1/zh active Application Filing
- 2021-02-24 US US17/434,424 patent/US20220343683A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018055470A (ja) * | 2016-09-29 | 2018-04-05 | 国立大学法人神戸大学 | 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム |
CN108229268A (zh) * | 2016-12-31 | 2018-06-29 | 商汤集团有限公司 | 表情识别及卷积神经网络模型训练方法、装置和电子设备 |
CN109858467A (zh) * | 2019-03-01 | 2019-06-07 | 北京视甄智能科技有限公司 | 一种基于关键点区域特征融合的人脸识别方法及装置 |
CN110348350A (zh) * | 2019-07-01 | 2019-10-18 | 电子科技大学 | 一种基于面部表情的驾驶员状态检测方法 |
CN110399809A (zh) * | 2019-07-08 | 2019-11-01 | 北京亮亮视野科技有限公司 | 多特征融合的人脸关键点检测方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021196928A1 (zh) * | 2020-04-01 | 2021-10-07 | 京东方科技集团股份有限公司 | 表情识别方法、装置、计算机设备及可读存储介质 |
CN115994922A (zh) * | 2023-03-23 | 2023-04-21 | 泉州装备制造研究所 | 运动分割方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021196928A1 (zh) | 2021-10-07 |
CN111325190B (zh) | 2023-06-30 |
US20220343683A1 (en) | 2022-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325190B (zh) | 一种表情识别方法、装置、计算机设备及可读存储介质 | |
CN109214343B (zh) | 用于生成人脸关键点检测模型的方法和装置 | |
CN108351984B (zh) | 硬件高效的深度卷积神经网络 | |
CN107679513B (zh) | 图像处理方法、装置及服务器 | |
CN112784778B (zh) | 生成模型并识别年龄和性别的方法、装置、设备和介质 | |
CN112464865A (zh) | 一种基于像素和几何混合特征的人脸表情识别方法 | |
CN108805222A (zh) | 一种基于arm平台的深度学习数字手写体识别方法 | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN113255557B (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
CN113971751A (zh) | 训练特征提取模型、检测相似图像的方法和装置 | |
CN110929836B (zh) | 神经网络训练及图像处理方法和装置、电子设备、介质 | |
JP2022177232A (ja) | 画像処理方法、テキスト認識方法及び装置 | |
CN114399808A (zh) | 一种人脸年龄估计方法、系统、电子设备及存储介质 | |
CN113869282A (zh) | 人脸识别方法、超分模型训练方法及相关设备 | |
CN112749576B (zh) | 图像识别方法和装置、计算设备以及计算机存储介质 | |
CN114282258A (zh) | 截屏数据脱敏方法、装置、计算机设备及存储介质 | |
CN110717407A (zh) | 基于唇语密码的人脸识别方法、装置及存储介质 | |
CN114220178A (zh) | 基于通道注意力机制的签名鉴别系统及方法 | |
CN110532971B (zh) | 图像处理及装置、训练方法以及计算机可读存储介质 | |
CN113362249B (zh) | 文字图像合成方法、装置、计算机设备及存储介质 | |
CN112733670B (zh) | 指纹特征提取方法、装置、电子设备及存储介质 | |
CN115063847A (zh) | 一种面部图像获取模型的训练方法及装置 | |
CN114359811A (zh) | 数据鉴伪方法、装置、电子设备以及存储介质 | |
CN112489687A (zh) | 一种基于序列卷积的语音情感识别方法及装置 | |
Anggoro et al. | Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |