CN112580527A - 一种基于卷积长短期记忆网络的人脸表情识别方法 - Google Patents
一种基于卷积长短期记忆网络的人脸表情识别方法 Download PDFInfo
- Publication number
- CN112580527A CN112580527A CN202011533235.9A CN202011533235A CN112580527A CN 112580527 A CN112580527 A CN 112580527A CN 202011533235 A CN202011533235 A CN 202011533235A CN 112580527 A CN112580527 A CN 112580527A
- Authority
- CN
- China
- Prior art keywords
- face
- image
- expression recognition
- kmin
- kmax
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000008921 facial expression Effects 0.000 title claims abstract description 17
- 230000007787 long-term memory Effects 0.000 title claims abstract description 9
- 230000006403 short-term memory Effects 0.000 title claims abstract description 9
- 230000014509 gene expression Effects 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 238000001514 detection method Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 15
- 230000008451 emotion Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 210000004709 eyebrow Anatomy 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像识别技术领域,尤其涉及一种基于卷积长短期记忆网络的人脸表情识别方法,包括:步骤1、从待识别表情图像中检测出对应的人脸区域,并截取人脸区域图像块,用来进行表情识别;步骤2、将获取的人脸区域划分成多个人脸子区域图像块;步骤3、将人脸子区域图像块归一化至同一尺寸;步骤4、将归一化后的人脸子区域图像块输入ConvLSTM模型进行特征融合和特征分类。本发明能够有效降低脸部姿态对表情识别的影响,降低特征提取和特征分类分步实现导致的累计误差,提高表情识别准确率。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于卷积长短期记忆网络的人脸表情识别方法。
背景技术
在日常交流中面部表情扮演了一个重要的角色,传统的人机交互,无法理解和适应人们的情绪和心境。因此,人脸表情识别是一个建立机器与人类情感交流的重要研究领域。目前,表情识别已经在智能辅导系统、服务机器人、驾驶疲劳检测领域均有涉及,该技术在计算机视觉领域也受到越来越多的关注。
在相关技术中,表情识别方法可分为以下几个步骤:
(1)人脸提取,从待识别图像中检测出人脸区域,用来过滤图像中的无用背景信息,降低背景对识别的干扰;
(2)人脸特征提取,可提取的特征包含:HOG(Histogram of Oriented Gradient)、LBP(Local Binary Pattern)、Gabor以及CNN(Convolutional Neural Networks)等相关特征;
(3)表情特征识别,分类识别算法通常可采用SVM(Support Vector Machine,支持向量机),Adaboost,或者深度学习中常用的Softmax方法。
研究表明,在真实自然场景下,仍存在以下问题影响表情识别准确性:1、人脸姿态角度不一,2、面部区域存在部分遮挡。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出一种基于卷积长短期记忆网络的人脸表情识别方法,其具体技术方案如下。
一种基于卷积长短期记忆网络的人脸表情识别方法,包括如下步骤:
步骤1、从待识别表情图像中检测出对应的人脸区域,并截取人脸区域图像块,用来进行表情识别;
步骤2、将获取的人脸区域划分成多个人脸子区域图像块;
步骤3、将人脸子区域图像块归一化至同一尺寸;
步骤4、将归一化后的人脸子区域图像块输入ConvLSTM模型进行特征融合和特征分类。
进一步的,所述步骤1的待识别图像通过实时摄像头获取和用户已有图像数据库中的图像获取;所述检测所使用的对人脸识别检测方法,包括基于传统图像特征提取算法LBP和分类算法Adaboost算法组合,MTCNN、Faceboxes深度学习算法。
进一步的,所述步骤2具体包括:
步骤2.1、获取待识别人脸图像区域后,利用dlib工具库提取人脸区域的关键特征点,生成关键特征点集合P={p1,p2,...,pn},其中pn表示人脸区域内第n个特征点;
结合特征点的顺序与人脸部位的位置,并通过部分特征点位置提取预设好的人脸部位图像块S={s1,s2,...,sm},即将点集P中根据预设划成m个点集集合S={s1,s2,...,sm},其中sm为对应第m个点集集合属于点集P;
步骤2.2、根据集合S中的m个子集截取出m个人脸局部图像,生成人脸子区域图像集合AU={au1,au2,...,aum},其中aum表示第m个人脸子区域图像块。
进一步的,所述步骤2.2具体包括:
所述m个人脸局部图像块的提取过程为:遍历集合S中的子集,预设某个人脸区域sk(1≤k≤m)包含人脸区域内l个特征点对应的坐标集合为{(xk1,yk1),(xk2,yk2),...,(xkl,ykl)},(xkl,ykl)为pkl对应的横纵坐标;首先,计算包含这l个特征点的最小外接矩形对应左上角坐标(xkmin,ykmin),其中xkmin=min{xk1,xk2,...,xkl},ykmin=min{yk1,yk2,...,ykl}和右下角坐标(xkmax,ykmax),xkmax=max{xk1,xk2,...,xkl},ykmax=max{yk1,yk2,...,ykl};然后,根据(xkmin,ykmin)和(xkmax,ykmax)计算可得该最小外接矩形的高hk=ykmax-ykmin和宽wk=xkmax-xkmin,以及中心坐标(xkcenter,yycenter),
其中xkcenter=(xkmax+xkmin)/2,ykcenter=(ykmax+ykmin)/2;最后,截取该部位图像块区域内容为以(xkcenter,yycenter)为中心,高为ratio×hk,宽为ratio×wk大小的图像块,其中ratio是截取图像的比例系数,如果ratio>1表示向原始图像块区域增加部分背景作为填充。
进一步的,所述步骤3具体包括:
将提取的人脸子区域图像集合AU中所有的图像块尺寸大小缩放至同一尺度,得到归一化后的图像块集合R={r1,r2,...,rm},其中,rm是对应集合AU中元素aum经过缩放后的图像块。
进一步的,所述步骤4具体包括:
将归一化后的人脸子区域图像集合R={r1,r2,...,rm},输入具有m个时序输入的ConvLSTM模型,该模型将图像块集合R中m个图像块进行关联并生成用于最终分类的特征向量,具体为采用ConvLSTM模型的最后一个隐藏层也即第m个隐藏层状态输出Hm作为输出特征向量;
再通过ConvLSTM模型的全连接层将人脸区域的特征向量Hm映射到输出特征维度,然后采用Softmax层对最终特征进行分类得到表情识别结果。
进一步的,所述ConvLSTM模型的具体实现表达式为:
其中,ft,it,Ct,ot,Ht,Xt分别表示t时刻的遗忘门、输入门、状态门、输出门、隐藏层状态和时序输入,W和b表示可学习权重参数,式中*表示卷积运算,表示点乘,Ht-1表示t-1时刻隐藏层状态输出,Ct-1表示t-1时刻的状态们,为网络中可学习卷积核参数,bf,bi,bc,bo为网络中可学习偏置参数。
本发明通过特征点提取的图像块进行识别降低了面部非表情区域对表情识别的干扰,其中,表情区域是指眼睛,鼻子和嘴巴等能反应情感的部位,而非表情区域至脸部滤除表情区域的位置;减少了表情识别对于姿态的依赖,通常真实场景下取整个脸部区域进行识别需要针对各个姿态获取大量训练样本,而提取表情块降低了样本量的影响,从而提升方法实现效率;
通过将人脸子区域输入ConvLSTM获取各个子区域之间的关联特征,通常人类表情由脸部多个部位同时表达,本发明提出利用ConvLSTM方法能够关联脸部各个表情单元以解决此类问题,提高表情识别准确率;通过ConvLSTM提取各个子区域之间的关联特征降低某一区域特征对整体识别结果产生巨大影响程度,解决脸部部分区域被遮挡表情识别困难的问题。
附图说明
图1为本发明的方法流程示意图;
图2为本发明的人脸区域特征点示意图;
图3为本发明的示例ConvLSTM模型结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1所示,一种基于卷积长短期记忆网络的人脸表情识别方法,包括如下步骤:
步骤1、从待识别表情图像中检测出对应的人脸区域,并截取人脸区域图像块,用来进行表情识别;
所述待识别图像可通过实时摄像头获取,也可是用户已有图像数据库中的图像。同时在本发明实施例中,对人脸检测算法的具体种类不做限定,包括基于传统图像特征提取算法LBP和分类算法Adaboost算法组合,MTCNN、Faceboxes深度学习算法等。
步骤2、将获取的人脸区域划分成多个人脸子区域图像块;
获取待识别人脸图像区域后,利用dlib工具库提取人脸区域的关键特征点,生成关键特征点集合P={p1,p2,...,pn},其中pn表示人脸区域内第n个特征点,且所述特征点分布在人的眼睛、眉毛、鼻子、嘴巴和下颚周围,即使存在部分脸部区域被遮挡,特征点也能预估被遮挡位置的特征点位置。
结合特征点的顺序与人脸部位的位置,并通过部分特征点位置提取预设好的人脸部位图像块S={s1,s2,...,sm},即将点集P中根据预设划成m个点集集合S={s1,s2,...,sm},其中sm为对应第m个点集集合属于点集P;
然后根据集合S中的m个子集截取出m个人脸局部图像,生成人脸子区域图像集合AU={au1,au2,...,aum},其中aum表示第m个人脸子区域图像块。
如图2所示,利用dlib工具库提取人脸区域21中47个有效关键特征点。同时,本实施例预设图像块包括:1、右眼和右侧眉毛组成的区域,2、左眼和左侧眉毛组成的区域,3、鼻子区域,4、嘴巴区域。因此在实施例中m=4,且人脸部位图像块S={s1,s2,s3,s4}的组成特征点元素为:
s1={p1,p2,...,p5,p11,p12,...,p16}
s2={p6,p7,...,p10,p17,p18,...,p22}
s3={p23,p24,...,p31}
s4={p32,p33,...,p47}
进一步的,针对m个图像块的提取过程为:遍历集合S中的子集,预设某个人脸区域sk(1≤k≤m)包含人脸区域内l个特征点对应的坐标集合为{(xk1,yk1),(xk2,yk2),...,(xkl,ykl)},(xkl,ykl)为pkl对应的横纵坐标。首先,计算包含这l个特征点的最小外接矩形对应左上角坐标(xkmin,ykmin),其中xkmin=min{xk1,xk2,...,xkl},ykmin=min{yk1,yk2,...,ykl}和右下角坐标(xkmax,ykmax),xkmax=max{xk1,xk2,...,xkl},ykmax=max{yk1,yk2,...,ykl};然后,根据(xkmin,ykmin)和(xkmax,ykmax)计算可得该最小外接矩形的高hk=ykmax-ykmin和宽wk=xkmax-xkmin,以及中心坐标(xkcenter,yycenter),
其中xkcenter=(xkmax+xkmin)/2,ykcenter=(ykmax+ykmin)/2;最后,截取该部位图像块区域内容为以(xkcenter,yycenter)为中心,高为ratio×hk,宽为ratio×wk大小的图像块,其中ratio是截取图像的比例系数,如果ratio>1表示向原始图像块区域增加部分背景作为填充;本实施例高为1.5×hk,宽为1.5×wk;
该步骤中,将人脸区域划分成多个人脸子区域,这些区域包含人脸主要表达情感的部位。其中,能表达情感的区域主要指眼睛,眉毛,鼻子和嘴巴等相关的部位,分析这些部位的状态变化,才能有效的识别出用户情感的变化,通常,过多的非情感表达区域会对表情的识别形成干扰,进而降低算法识别准确率。
步骤3、将人脸子区域图像块归一化至同一尺寸;
针对提取的人脸子区域图像块尺寸大小不一致,而后续模型输入需统一输入尺寸,因此将图像集合AU中所有的图像块缩放至同一尺度,得到归一化后的图像块集合R={r1,r2,...,rm},其中,rm是对应集合AU中元素aum经过缩放后的图像块,优选的本实施例中归一化图像的大小设定为96×96。
步骤4、将归一化后的人脸子区域图像块输入ConvLSTM模型进行特征融合和特征分类;
针对归一化后的图像块集合R={r1,r2,...,rm},采用一个具有m个时序输入的ConvLSTM模型,该模型将图像块集合R中m个图像块进行关联并生成用于最终分类的特征向量,采用最后一个隐藏层也即第m个隐藏层状态输出Hm作为输出特征向量。传统基于全连接的FC-LSTM输入向量为一维特征向量,针对本发明提取的人脸区域图像块通过增加特征提取模型将图像数据转换成一维特征向量,而转换过程增加额外操作增加计算量的同时使模型不能实现端到端的训练;而采用ConvLSTM既保留了人脸子区域的时序关联性同时能进行端到端的训练及测试,ConvLSTM的具体实现公式如下:
其中,ft,it,Ct,ot,Ht,Xt分别表示t时刻的遗忘门、输入门、状态门、输出门、隐藏层状态和时序输入,W和b表示可学习权重参数,式中*表示卷积运算,表示点乘,Ht-1表示t-1时刻隐藏层状态输出,Ct-1表示t-1时刻的状态们,为网络中可学习卷积核参数,bf,bi,bc,bo为网络中可学习偏置参数。
再通过全连接层将人脸区域的特征向量Hm映射到输出特征维度,然后采用Softmax层对最终特征进行分类得到表情识别结果。
如图3所示,本实施例将人脸区域分割成4个子区域,本实例ConvLSTM采用单层LSTM结构包含4个时序输入(X1,X2,X3,X4)对应脸部左眼左眉毛区域、右眼右眉毛区域、鼻子区域和嘴部区域,同时模型包含4个隐藏层状态输出(H1,H2,H3,H4),优选的,本实施例使用隐藏层特征向量H4表示人脸表情特征。
进一步的,针对提取使用所述的表情特征向量H4,若采用传统机器学习方法Adaboost级联分类器或者SVM对特征进行分类,特征提取过程不参与模型训练阶段,将无法确认特征提取的好坏。因此,本实施实例采用Softmax分类器对最后特征向量进行分类输出,假设表情种类的数量为n,在本实例将特征向量H4全连接到n维的特征向量。采用Softmax分类层能结合ConvLSTM实现特征提取和特征分类一体化,进而实现端到端的模型训练和推理,降低了特征提取和特征分类分步实现的累计误差。
综上所述,本实施例提供的方法,通过人脸区域划分减少了非表情区域对表情识别的干扰,即能降低脸部姿态对表情识别的影响。通过将人脸各个表情区域输入ConvLSTM模型使得脸部各个表情区域得到关联,同时能使数据与模型进行端到端的训练和测试,降低了特征提取和特征分类分步实现导致的累计误差。
Claims (7)
1.一种基于卷积长短期记忆网络的人脸表情识别方法,其特征在于,包括如下步骤:
步骤1、从待识别表情图像中检测出对应的人脸区域,并截取人脸区域图像块,用来进行表情识别;
步骤2、将获取的人脸区域划分成多个人脸子区域图像块;
步骤3、将人脸子区域图像块归一化至同一尺寸;
步骤4、将归一化后的人脸子区域图像块输入ConvLSTM模型进行特征融合和特征分类。
2.如权利要求1所述的一种基于卷积长短期记忆网络的人脸表情识别方法,其特征在于,所述步骤1的待识别图像通过实时摄像头获取和用户已有图像数据库中的图像获取;所述检测所使用的对人脸识别检测方法,包括基于传统图像特征提取算法LBP和分类算法Adaboost算法组合,MTCNN、Faceboxes深度学习算法。
3.如权利要求1所述的一种基于卷积长短期记忆网络的人脸表情识别方法,其特征在于,所述步骤2具体包括:
步骤2.1、获取待识别人脸图像区域后,利用dlib工具库提取人脸区域的关键特征点,生成关键特征点集合P={p1,p2,...,pn},其中pn表示人脸区域内第n个特征点;
结合特征点的顺序与人脸部位的位置,并通过部分特征点位置提取预设好的人脸部位图像块S={s1,s2,...,sm},即将点集P中根据预设划成m个点集集合S={s1,s2,...,sm},其中sm为对应第m个点集集合 属于点集P;
步骤2.2、根据集合S中的m个子集截取出m个人脸局部图像,生成人脸子区域图像集合AU={au1,au2,...,aum},其中aum表示第m个人脸子区域图像块。
4.如权利要求3所述的一种基于卷积长短期记忆网络的人脸表情识别方法,其特征在于,所述步骤2.2具体包括:
所述m个人脸局部图像块的提取过程为:遍历集合S中的子集,预设某个人脸区域sk(1≤k≤m)包含人脸区域内l个特征点对应的坐标集合为{(xk1,yk1),(xk2,yk2),...,(xkl,ykl)},(xkl,ykl)为pkl对应的横纵坐标;首先,计算包含这l个特征点的最小外接矩形对应左上角坐标(xkmin,ykmin),其中xkmin=min{xk1,xk2,...,xkl},ykmin=min{yk1,yk2,...,ykl}和右下角坐标(xkmax,ykmax),xkmax=max{xk1,xk2,...,xkl},ykmax=max{yk1,yk2,...,ykl};然后,根据(xkmin,ykmin)和(xkmax,ykmax)计算可得该最小外接矩形的高hk=ykmax-ykmin和宽wk=xkmax-xkmin,以及中心坐标(xkcenter,yycenter),
其中xkcenter=(xkmax+xkmin)/2,ykcenter=(ykmax+ykmin)/2;最后,截取该部位图像块区域内容为以(xkcenter,yycenter)为中心,高为ratio×hk,宽为ratio×wk大小的图像块,其中ratio是截取图像的比例系数,如果ratio>1表示向原始图像块区域增加部分背景作为填充。
5.如权利要求3所述的一种基于卷积长短期记忆网络的人脸表情识别方法,其特征在于,所述步骤3具体包括:
将提取的人脸子区域图像集合AU中所有的图像块尺寸大小缩放至同一尺度,得到归一化后的图像块集合R={r1,r2,...,rm},其中,rm是对应集合AU中元素aum经过缩放后的图像块。
6.如权利要求5所述的一种基于卷积长短期记忆网络的人脸表情识别方法,其特征在于,所述步骤4具体包括:
将归一化后的人脸子区域图像集合R={r1,r2,...,rm},输入具有m个时序输入的ConvLSTM模型,该模型将图像块集合R中m个图像块进行关联并生成用于最终分类的特征向量,具体为采用ConvLSTM模型的最后一个隐藏层也即第m个隐藏层状态输出Hm作为输出特征向量;
再通过ConvLSTM模型的全连接层将人脸区域的特征向量Hm映射到输出特征维度,然后采用Softmax层对最终特征进行分类得到表情识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011533235.9A CN112580527A (zh) | 2020-12-22 | 2020-12-22 | 一种基于卷积长短期记忆网络的人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011533235.9A CN112580527A (zh) | 2020-12-22 | 2020-12-22 | 一种基于卷积长短期记忆网络的人脸表情识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112580527A true CN112580527A (zh) | 2021-03-30 |
Family
ID=75138885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011533235.9A Pending CN112580527A (zh) | 2020-12-22 | 2020-12-22 | 一种基于卷积长短期记忆网络的人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580527A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486867A (zh) * | 2021-09-07 | 2021-10-08 | 北京世纪好未来教育科技有限公司 | 人脸微表情识别方法、装置、电子设备及存储介质 |
CN114627218A (zh) * | 2022-05-16 | 2022-06-14 | 成都市谛视无限科技有限公司 | 一种基于虚拟引擎的人脸细微表情捕捉方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295566A (zh) * | 2016-08-10 | 2017-01-04 | 北京小米移动软件有限公司 | 人脸表情识别方法及装置 |
CN107729835A (zh) * | 2017-10-10 | 2018-02-23 | 浙江大学 | 一种基于人脸关键点区域传统特征和人脸全局深度特征融合的表情识别方法 |
CN108304823A (zh) * | 2018-02-24 | 2018-07-20 | 重庆邮电大学 | 一种基于双卷积cnn和长短时记忆网络的表情识别方法 |
CN109409302A (zh) * | 2018-10-30 | 2019-03-01 | 辽宁工程技术大学 | 一种基于拓扑空间模型的表情识别方法 |
CN109886241A (zh) * | 2019-03-05 | 2019-06-14 | 天津工业大学 | 基于长短期记忆网络的驾驶员疲劳检测 |
CN110991238A (zh) * | 2019-10-30 | 2020-04-10 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种基于语音情感分析和微表情识别的演讲辅助系统 |
-
2020
- 2020-12-22 CN CN202011533235.9A patent/CN112580527A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295566A (zh) * | 2016-08-10 | 2017-01-04 | 北京小米移动软件有限公司 | 人脸表情识别方法及装置 |
CN107729835A (zh) * | 2017-10-10 | 2018-02-23 | 浙江大学 | 一种基于人脸关键点区域传统特征和人脸全局深度特征融合的表情识别方法 |
CN108304823A (zh) * | 2018-02-24 | 2018-07-20 | 重庆邮电大学 | 一种基于双卷积cnn和长短时记忆网络的表情识别方法 |
CN109409302A (zh) * | 2018-10-30 | 2019-03-01 | 辽宁工程技术大学 | 一种基于拓扑空间模型的表情识别方法 |
CN109886241A (zh) * | 2019-03-05 | 2019-06-14 | 天津工业大学 | 基于长短期记忆网络的驾驶员疲劳检测 |
CN110991238A (zh) * | 2019-10-30 | 2020-04-10 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种基于语音情感分析和微表情识别的演讲辅助系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486867A (zh) * | 2021-09-07 | 2021-10-08 | 北京世纪好未来教育科技有限公司 | 人脸微表情识别方法、装置、电子设备及存储介质 |
CN113486867B (zh) * | 2021-09-07 | 2021-12-14 | 北京世纪好未来教育科技有限公司 | 人脸微表情识别方法、装置、电子设备及存储介质 |
CN114627218A (zh) * | 2022-05-16 | 2022-06-14 | 成都市谛视无限科技有限公司 | 一种基于虚拟引擎的人脸细微表情捕捉方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Efficient facial expression recognition algorithm based on hierarchical deep neural network structure | |
Rao et al. | Deep convolutional neural networks for sign language recognition | |
Littlewort et al. | Dynamics of facial expression extracted automatically from video | |
Sung et al. | Example-based learning for view-based human face detection | |
CN112784763B (zh) | 基于局部与整体特征自适应融合的表情识别方法及系统 | |
CN107967456A (zh) | 一种基于人脸关键点的多神经网络级联识别人脸方法 | |
Setiowati et al. | A review of optimization method in face recognition: Comparison deep learning and non-deep learning methods | |
CN108830237B (zh) | 一种人脸表情的识别方法 | |
Ali et al. | Facial emotion detection using neural network | |
Moallem et al. | Fuzzy inference system optimized by genetic algorithm for robust face and pose detection | |
CN109815920A (zh) | 基于卷积神经网络和对抗卷积神经网络的手势识别方法 | |
Zhao et al. | Applying contrast-limited adaptive histogram equalization and integral projection for facial feature enhancement and detection | |
CN112580527A (zh) | 一种基于卷积长短期记忆网络的人脸表情识别方法 | |
Mahmood et al. | A Comparative study of a new hand recognition model based on line of features and other techniques | |
Prabhu et al. | Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism. | |
Lee | Image classification with artificial intelligence: cats vs dogs | |
Sarma et al. | Hand gesture recognition using deep network through trajectory-to-contour based images | |
Tutsoy et al. | An emotion analysis algorithm and implementation to NAO humanoid robot | |
Bhadangkar et al. | Comparison of tuplet of techniques for facial emotion detection | |
Noor et al. | Facial expression recognition using hand-crafted features and supervised feature encoding | |
CN113343773B (zh) | 基于浅层卷积神经网络的人脸表情识别系统 | |
CN112766112B (zh) | 基于时空多特征融合的动态表情识别方法及系统 | |
CN114998966A (zh) | 基于特征融合的人脸表情识别方法 | |
CN113887509A (zh) | 一种基于图像集合的快速多模态视频人脸识别方法 | |
Belle | Detection and recognition of human faces using random forests for a mobile robot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210330 |
|
RJ01 | Rejection of invention patent application after publication |