CN112560824B - 一种基于多特征自适应融合的人脸表情识别方法 - Google Patents
一种基于多特征自适应融合的人脸表情识别方法 Download PDFInfo
- Publication number
- CN112560824B CN112560824B CN202110200931.6A CN202110200931A CN112560824B CN 112560824 B CN112560824 B CN 112560824B CN 202110200931 A CN202110200931 A CN 202110200931A CN 112560824 B CN112560824 B CN 112560824B
- Authority
- CN
- China
- Prior art keywords
- feature
- vector
- face
- image
- net
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000004927 fusion Effects 0.000 title claims abstract description 30
- 230000008921 facial expression Effects 0.000 title claims abstract description 28
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 230000014509 gene expression Effects 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 62
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000013135 deep learning Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
技术领域
本发明属于人工智能领域,具体涉及一种人脸表情识别方法。
背景技术
人脸表情是最直接、最有效的情感识别模式。它有很多人机交互方面的应用,例如疲劳驾驶检测和手机端实时表情识别。在20世纪Ekman等专家通过跨文化调研提出了七类基础表情,分别是生气,害怕,厌恶,开心,悲伤,惊讶以及平静。
目前主流的表情识别方法为基于传统机器学习的方法或者基于深度学习的方法。基于传统机器学习方法基本流程为:人脸检测,人脸表情特征提取,人脸表情特征分类。其中提取表情特征的方法可选择:HOG(Histogramof Oriented Gradient)、LBP(LocalBinary Pattern)、Gabor等特征,特征分类器可以选择SVM,Adaboost等。基于深度学习方法基本流程为:人脸提取,人脸表情识别,通过提取出的人脸输入神经网络中进行自主学习。
在目前相关技术中,表情识别泛化性差,针对不同人种、不同脸型的目标存在识别结果差异性大,同时在视频连续动态识别过程中,识别结果稳定性差。
发明内容
本发明要解决的技术问题是提供一种基于多特征自适应融合的人脸表情识别方法。
为解决上述问题,本发明采用的技术方案包括步骤:
S1、从待识别表情图像中检测出对应的人脸区域,截取人脸区域图像块后,用于表情识别;
S2、利用多种特征提取方法对人脸区域进行特征提取;
S4、将融合后的特征进行识别;
所述步骤S3具体为:
步骤S31、针对步骤S2获取的特征集合,向量长度为,其中为
特征对应的特征长度,将特征集合中特征向量通过神经网络全连接的方式映射到同一
长度,对应映射后的特征向量为,其中为集合中元
素映射后的特征向量,全连接映射方式如下:
上式中,Softmax具体运算操作为:
所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于:步骤S1中所述的待识别表情图像通过摄像头或者用户已有图像数据库获取,并采用基于图像特征提取算法LBP和分类算法Adaboost的组合;或采用MTCNN、Faceboxes深度学习算法检测出对应的人脸区域。
所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于:步骤S2中
所述的利用多种特征提取方法,包括HOG、LBP、CNN中的一种或多种对步骤S1获取的人脸区
域进行特征提取,得到对应特征集合,并将特征集合中存在的多维特征
向量进行展开变换成一维特征向量,得到新的特征集合,其中为集合中展开后的特征向量。
所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于,所述步骤S4具体为:
所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于,所述MTCNN深度学习算法具体为:
S11.首先将图像进行不同尺度的变换,构建图像金字塔,以适应不同大小的人脸的进行检测;
S12.利用神经网络P-Net(Proposal Network)对上一步构建完成的图像金字塔进行初步特征提取与标定边框,P-Net利用3个浅层的卷积层对输入进行特征提取,然后通过人脸分类器判断该区域是否包含人脸,并且P-Net使用边框回归和面部关键点的定位器来进行人脸区域的初步提取,因此该网络将输出大量可能存在人脸的人脸区域;
S13.利用较为复杂的神经网络R-Net(Refine Network)对P-Net产生的多张人脸区域进行细化选择,并且舍去大部分的错误输入,且再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位,将输出较为可信的人脸区域;
S14.利用更为复杂的神经网络O-Net(output network)对R-Net输出的人脸区域进行更加精细化的筛选,同样,该网络将输出人脸区域和人脸特征定位点且将该网络的输出作为最终输出,其中O-Net包含四个深层的卷积层和一个全连阶层。
所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于,所述Faceboxes深度学习算法具体为:
S111.通过神经网络大尺寸卷积核以及下采样Pooling层对输入空间进行快速缩小;
S112.仿照SSD(Single Shot Multi Box Detector)设计多尺度卷积层并通过使用更加密集的anchor boxes对缩小后的特征图进行人脸区域回归,最终进行不同尺度大小的人脸目标识别。
本发明的一种基于多特征自适应融合的人脸表情识别方法优点如下:
1、融合多种特征对人脸表情进行识别,由于特征提取方式的不同,例如HOG通过计算和统计图像局部区域的梯度方向直方图来构成特征而LBP则通过对比中心元素与周围像素点大小来提取图像局部纹理特征;因此,不同人脸表情特征方式具有表达不同的表情信息的能力,而特征融合能有效将特征间的信息进行合并提高特征的信息量。
2.仿照SSD(Single Shot Multi Box Detector)设计多尺度卷积层并通过使用更加密集的anchor boxes对缩小后的特征图进行人脸区域回归,实现不同尺度大小的人脸目标检测。
附图说明
图1为本发明方法的流程图;
图2为VGG-16网络结构图;
图3是一种表情融合和分类网络模型结构图示例。
具体实施方式
参照图1-3所示,本发明的基于多特征自适应融合的人脸表情识别方法包括如下几个步骤:
步骤101、从待识别表情图像中检测出对应的人脸区域。
所述待识别表情图像可通过实时摄像头中获取,也可是用户已有图像数据库中的图像中获取。并采用基于图像特征提取算法LBP和分类算法Adaboost的组合或采用MTCNN、Faceboxes深度学习算法检测出对应的人脸区域。其中,
所述MTCNN深度学习算法具体为:
1.首先将图像进行不同尺度的变换,构建图像金字塔,以适应不同大小的人脸的进行检测。
2.利用神经网络P-Net(Proposal Network)对上一步构建完成的图像金字塔进行初步特征提取与标定边框,P-Net利用3个浅层的卷积层对输入进行特征提取,然后通过人脸分类器判断该区域是否包含人脸,并且P-Net使用边框回归和面部关键点的定位器来进行人脸区域的初步提取,因此该网络将输出大量可能存在人脸的人脸区域;
3.利用较为复杂的神经网络R-Net(Refine Network)对P-Net产生的多张人脸区域进行细化选择,并且舍去大部分的错误输入,且再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位,将输出较为可信的人脸区域;
4.利用更为复杂的神经网络O-Net(output network)对R-Net输出的人脸区域进行更加精细化的筛选,同样,该网络将输出人脸区域和人脸特征定位点且将该网络的输出作为最终输出,其中O-Net包含四个深层的卷积层和一个全连阶层。
所述Faceboxes深度学习算法具体为:
1.通过神经网络大尺寸卷积核以及下采样Pooling层对输入空间进行快速缩小;
2.仿照SSD(Single Shot Multi Box Detector)设计多尺度卷积层并通过使用更加密集的anchor boxes对经步骤1缩小后的特征图进行人脸区域回归,实现不同尺度大小的人脸目标检测。
所述LBP(Local Binary Pattern,局部二值模式)是一种用来描述图像局部纹理特征的算法,它具有旋转不变性和灰度不变性等显著的优点。所述Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器。本发明采用将二种算法的结合检测出对应的人脸区域。所述LBP、Adaboost自身为公知技术,在此不做赘述。
步骤102、从待识别表情图像中检测出对应的人脸区域。
在步骤101中提取的人脸区域后,先将提取的人脸区域缩放至长宽均为96像素大
小的正方形图像,然后使用多种特征提取方法对该人脸区域进行特征提取。多种特征提取
方法可选用HOG和CNN。其中,HOG即:方向梯度直方图(HistogramofOrientedGradient,
HOG)。由于HOG特征提取方法输入为灰度图像,而上述人脸区域缩放后仍为彩色图像,因此,
本发明先对输入图像进行灰度化处理。通常彩色图像由RGB三个色彩通道组成,每个色彩通
道取值范围为0~255,而灰度图只有一个通道,取值范围同样为0~255。本发明采用加权平均
法对彩色图像进行灰度化处理。假设生成的灰度图为,原始彩色图像三个通道图像
用RGB表示,那么生成的灰度图像为:
进一步的,针对输入灰度图像,假定每个单元格cell大小为,每个区域
块block由个cell组成,角度组距bin大小为,block滑动窗口大小为,对应生成的
特征长度为:。优选的,本发明选择,故最
终生成的特征向量大小为:。
本发明使用的CNN特征提取模型为经过ImageNet数据集预训练的网络模型VGG-
16。该特征提取方法为:1.将人脸区域缩放至224*224像素大小,2.将缩放后的图像输入包
含预训练参数的VGG-16网络,3.获取网络全连接之前的特征向量1*1*4096。因此,本发明特
征向量长度集合为。
步骤103、自适应融合多种人脸表情特征。
在步骤102中的一个示例中提取了CNN和HOG特征且特征维度分别为一维4096和
4356,为融合这两种特征,本发明使用神经网络中全连接的方式将这两个特征向量维度映
射到同一长度,在一个示例中,可以选择长度,示意图如图3所示。在维度映射后,需
要将特征进行有效融合,目前主流的融合方法为加权平均法和拼接法。假设带融合特征集
合,对应的特征维度,那么有:
考虑到直接拼接法融合将造成过大的特征维度,对应全连接网络需要更多的参数,容易造成网络过拟合,因此,本发明将基于加权平均法对各项特征进行融合。通常,上述加权平均法的权重系数为人为设定缺乏数据支撑,因此,本网络通过因此引入可训练权重参数让网络根据数据进行自适应参数调整。其中一个示例网络结构图如下图3所示,流程如下:
最终,得到的权重系数如下;
步骤104、对融合特征进行分类。
综上所述,本实施例提供的方法,通过提取多种特征增加了人脸表情表达能力,并且通过自适应融合方式进一步增加模型的鲁棒性。
上所述,并非对本发明做任何形式上的限制,虽然本发明已以较佳实施案例揭示如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的结构及技术内容做出些许的更动或修饰为等同变化的等效实施案例,但是凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施案例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案范围。
Claims (6)
1.一种基于多特征自适应融合的人脸表情识别方法,其特征在于:包括步骤:
S1、从待识别表情图像中检测出对应的人脸区域,截取人脸区域图像块后,用于表情识别;
S2、利用多种特征提取方法对人脸区域进行特征提取;
S4、将融合后的特征进行识别;
其中,所述步骤S3具体为:
步骤S31、针对步骤S2获取的特征集合,向量长度为,其中为特征对
应的特征长度,将特征集合中特征向量通过神经网络全连接的方式映射到同一长度,
对应映射后的特征向量为,其中为集合中元素映射后的
特征向量,全连接映射方式如下:
上式中,Softmax具体运算操作为:
2.根据权利要求1所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于:步骤S1中所述的待识别表情图像通过摄像头或者用户已有图像数据库获取,并采用基于图像特征提取算法LBP和分类算法Adaboost的组合;或采用MTCNN、Faceboxes深度学习算法检测出对应的人脸区域。
5.根据权利要求2所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于,所述MTCNN深度学习算法具体为:
S11.首先将图像进行不同尺度的变换,构建图像金字塔,以适应不同大小的人脸的进行检测;
S12.利用神经网络P-Net对上一步构建完成的图像金字塔进行初步特征提取与标定边框,P-Net利用3个浅层的卷积层对输入进行特征提取,然后通过人脸分类器判断该区域是否包含人脸,并且P-Net使用边框回归和面部关键点的定位器来进行人脸区域的初步提取,因此该网络将输出大量可能存在人脸的人脸区域;
S13.利用神经网络R-Net对P-Net产生的多张人脸区域进行细化选择,并且舍去大部分的错误输入,且再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位,将输出较为可信的人脸区域;
S14.利用更为复杂的神经网络O-Net对R-Net输出的人脸区域进行更加精细化的筛选,同样,该网络将输出人脸区域和人脸特征定位点且将该网络的输出作为最终输出,其中O-Net包含四个深层的卷积层和一个全连阶层。
6.根据权利要求2所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于,所述Faceboxes深度学习算法具体为:
S111.通过神经网络大尺寸卷积核以及下采样Pooling层对输入空间进行快速缩小;
S112.仿照SSD设计多尺度卷积层并通过使用更加密集的anchor boxes对经S111步骤缩小后的特征图进行人脸区域回归,实现不同尺度大小的人脸目标检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110200931.6A CN112560824B (zh) | 2021-02-23 | 2021-02-23 | 一种基于多特征自适应融合的人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110200931.6A CN112560824B (zh) | 2021-02-23 | 2021-02-23 | 一种基于多特征自适应融合的人脸表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560824A CN112560824A (zh) | 2021-03-26 |
CN112560824B true CN112560824B (zh) | 2021-06-01 |
Family
ID=75034580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110200931.6A Active CN112560824B (zh) | 2021-02-23 | 2021-02-23 | 一种基于多特征自适应融合的人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560824B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553911A (zh) * | 2021-06-25 | 2021-10-26 | 复旦大学 | 融合surf特征和卷积神经网络的小样本人脸表情识别方法 |
CN114529970A (zh) * | 2022-02-17 | 2022-05-24 | 广州大学 | 基于Gabor特征和HOG特征融合的行人检测系统 |
-
2021
- 2021-02-23 CN CN202110200931.6A patent/CN112560824B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112560824A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN112150493B (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN110309856A (zh) | 图像分类方法、神经网络的训练方法及装置 | |
CN111783748B (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
Cevikalp et al. | Semi-supervised dimensionality reduction using pairwise equivalence constraints | |
CN110532871A (zh) | 图像处理的方法和装置 | |
WO2018052587A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
CN109033994B (zh) | 一种基于卷积神经网络的人脸表情识别方法 | |
US20240046700A1 (en) | Action recognition method | |
CN110211127B (zh) | 基于双相关性网络的图像分割方法 | |
CN109740539B (zh) | 基于超限学习机和融合卷积网络的3d物体识别方法 | |
CN112560824B (zh) | 一种基于多特征自适应融合的人脸表情识别方法 | |
CN111898621A (zh) | 一种轮廓形状识别方法 | |
CN110222718A (zh) | 图像处理的方法及装置 | |
CN113763417B (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
CN109886281A (zh) | 一种基于四元数超限学习机彩色图像识别方法 | |
CN116630960B (zh) | 基于纹理-颜色多尺度残差收缩网络的玉米病害识别方法 | |
CN114612709A (zh) | 图像金字塔特征指导的多尺度目标检测方法 | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及系统 | |
Quiroga et al. | A study of convolutional architectures for handshape recognition applied to sign language | |
Bačanin Džakula | Convolutional neural network layers and architectures | |
CN117437691A (zh) | 一种基于轻量化网络的实时多人异常行为识别方法及系统 | |
Ghosh et al. | PB3C-CNN: An integrated PB3C and CNN based approach for plant leaf classification | |
CN112381176B (zh) | 一种基于双目特征融合网络的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |