CN112560824B - 一种基于多特征自适应融合的人脸表情识别方法 - Google Patents

一种基于多特征自适应融合的人脸表情识别方法 Download PDF

Info

Publication number
CN112560824B
CN112560824B CN202110200931.6A CN202110200931A CN112560824B CN 112560824 B CN112560824 B CN 112560824B CN 202110200931 A CN202110200931 A CN 202110200931A CN 112560824 B CN112560824 B CN 112560824B
Authority
CN
China
Prior art keywords
feature
vector
face
image
net
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110200931.6A
Other languages
English (en)
Other versions
CN112560824A (zh
Inventor
李太豪
刘昱龙
廖龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110200931.6A priority Critical patent/CN112560824B/zh
Publication of CN112560824A publication Critical patent/CN112560824A/zh
Application granted granted Critical
Publication of CN112560824B publication Critical patent/CN112560824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种基于多特征自适应融合的人脸表情识别方法。采用的技术方案包括步骤:S1、从待识别表情图像中检测出对应的人脸区域,截取人脸区域图像块后,用于表情识别;S2、利用多种特征提取方法对人脸区域进行特征提取;S3、将特征集合
Figure 618464DEST_PATH_IMAGE002
中的元素进行自适应融合;S4、将融合后的特征进行识别。优点如下:融合多种特征对人脸表情进行识别,由于特征提取方式的不同,例如HOG通过计算和统计图像局部区域的梯度方向直方图来构成特征而LBP则通过对比中心元素与周围像素点大小来提取图像局部纹理特征;因此,不同人脸表情特征方式具有表达不同的表情信息的能力,而特征融合能有效将特征间的信息进行合并提高特征的信息量。

Description

一种基于多特征自适应融合的人脸表情识别方法
技术领域
本发明属于人工智能领域,具体涉及一种人脸表情识别方法。
背景技术
人脸表情是最直接、最有效的情感识别模式。它有很多人机交互方面的应用,例如疲劳驾驶检测和手机端实时表情识别。在20世纪Ekman等专家通过跨文化调研提出了七类基础表情,分别是生气,害怕,厌恶,开心,悲伤,惊讶以及平静。
目前主流的表情识别方法为基于传统机器学习的方法或者基于深度学习的方法。基于传统机器学习方法基本流程为:人脸检测,人脸表情特征提取,人脸表情特征分类。其中提取表情特征的方法可选择:HOG(Histogramof Oriented Gradient)、LBP(LocalBinary Pattern)、Gabor等特征,特征分类器可以选择SVM,Adaboost等。基于深度学习方法基本流程为:人脸提取,人脸表情识别,通过提取出的人脸输入神经网络中进行自主学习。
在目前相关技术中,表情识别泛化性差,针对不同人种、不同脸型的目标存在识别结果差异性大,同时在视频连续动态识别过程中,识别结果稳定性差。
发明内容
本发明要解决的技术问题是提供一种基于多特征自适应融合的人脸表情识别方法。
为解决上述问题,本发明采用的技术方案包括步骤:
S1、从待识别表情图像中检测出对应的人脸区域,截取人脸区域图像块后,用于表情识别;
S2、利用多种特征提取方法对人脸区域进行特征提取;
S3、将特征集合
Figure 537526DEST_PATH_IMAGE001
中的元素进行自适应融合;
S4、将融合后的特征进行识别;
所述步骤S3具体为:
步骤S31、针对步骤S2获取的特征集合
Figure 401577DEST_PATH_IMAGE002
,向量长度为
Figure 684791DEST_PATH_IMAGE003
,其中
Figure 976095DEST_PATH_IMAGE004
为 特征
Figure 711970DEST_PATH_IMAGE005
对应的特征长度,将特征集合
Figure 379712DEST_PATH_IMAGE006
中特征向量通过神经网络全连接的方式映射到同一 长度
Figure 517432DEST_PATH_IMAGE007
,对应映射后的特征向量为
Figure 979637DEST_PATH_IMAGE008
,其中
Figure 999546DEST_PATH_IMAGE009
为集合
Figure 703934DEST_PATH_IMAGE010
中元 素
Figure 696161DEST_PATH_IMAGE011
映射后的特征向量,全连接映射方式如下:
Figure 329268DEST_PATH_IMAGE012
Figure 39735DEST_PATH_IMAGE013
其中,
Figure 783700DEST_PATH_IMAGE014
为向量
Figure 896012DEST_PATH_IMAGE015
的第
Figure 496758DEST_PATH_IMAGE016
个元素,
Figure 694521DEST_PATH_IMAGE017
Figure 242177DEST_PATH_IMAGE018
为神经网络中映射 参数,
Figure 728039DEST_PATH_IMAGE019
Figure 968528DEST_PATH_IMAGE020
Figure 122428DEST_PATH_IMAGE021
个特征元素;
步骤S32、将集合
Figure 473775DEST_PATH_IMAGE022
中所有特征向量各自通过全连接方式生成对应的初步权重系 数,假定相应加权系数为集合
Figure 295101DEST_PATH_IMAGE023
,其中
Figure 503228DEST_PATH_IMAGE024
为集合
Figure 410004DEST_PATH_IMAGE025
中特征向量
Figure 299463DEST_PATH_IMAGE026
通 过全连接生成的初步加权系数;
步骤S33、先将集合
Figure 975295DEST_PATH_IMAGE027
中的
Figure 56121DEST_PATH_IMAGE028
个向量元素按行方向拼接得到
Figure 450193DEST_PATH_IMAGE029
维向量矩阵,然 后利用Softmax算子对拼接后的权值进行归一化处理得到新的加权系数,最后将处理后的 加权系数按行方向进行分离,得到
Figure 940081DEST_PATH_IMAGE030
,过程如下:
Figure 470419DEST_PATH_IMAGE031
Figure 223611DEST_PATH_IMAGE032
Figure 839401DEST_PATH_IMAGE033
上式中,concat运算将集合
Figure 336241DEST_PATH_IMAGE027
中n个
Figure 986665DEST_PATH_IMAGE034
维向量拼接成1个
Figure 441917DEST_PATH_IMAGE035
维向量;
上式中,Softmax具体运算操作为:
Figure 810582DEST_PATH_IMAGE036
其中,
Figure 346999DEST_PATH_IMAGE037
向量维度为
Figure 117509DEST_PATH_IMAGE038
Figure 946924DEST_PATH_IMAGE039
Figure 537306DEST_PATH_IMAGE040
向量上第i行、j列元素;
上式中,split运算将
Figure 375949DEST_PATH_IMAGE041
向量按行进行拆分,将
Figure 735386DEST_PATH_IMAGE042
维向量拆分成n个
Figure 1282DEST_PATH_IMAGE043
维 向量集合
Figure 78960DEST_PATH_IMAGE044
步骤S34、将步骤S33分离后的权重向量集合
Figure 219829DEST_PATH_IMAGE045
与步骤S31生成的特征向量对应 相乘然后将相乘后的结果相加得到最终的融合向量
Figure 699351DEST_PATH_IMAGE046
,对应的
Figure 932887DEST_PATH_IMAGE047
的特征向量维度为
Figure 497860DEST_PATH_IMAGE048
所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于:步骤S1中所述的待识别表情图像通过摄像头或者用户已有图像数据库获取,并采用基于图像特征提取算法LBP和分类算法Adaboost的组合;或采用MTCNN、Faceboxes深度学习算法检测出对应的人脸区域。
所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于:步骤S2中 所述的利用多种特征提取方法,包括HOG、LBP、CNN中的一种或多种对步骤S1获取的人脸区 域进行特征提取,得到对应特征集合
Figure 678306DEST_PATH_IMAGE049
,并将特征集合
Figure 746756DEST_PATH_IMAGE001
中存在的多维特征 向量进行展开变换成一维特征向量,得到新的特征集合
Figure 354455DEST_PATH_IMAGE050
,其中
Figure 406725DEST_PATH_IMAGE051
为集合
Figure 125282DEST_PATH_IMAGE001
Figure 376135DEST_PATH_IMAGE052
展开后的特征向量。
所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于,所述步骤S4具体为:
S41、将步骤S34融合后的特征向量
Figure 650340DEST_PATH_IMAGE053
通过全连接方式映射到与表情类别维度大 小相同的向量
Figure 189906DEST_PATH_IMAGE054
S42、使用Softmax对向量
Figure 712154DEST_PATH_IMAGE055
进行分类。
所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于,所述MTCNN深度学习算法具体为:
S11.首先将图像进行不同尺度的变换,构建图像金字塔,以适应不同大小的人脸的进行检测;
S12.利用神经网络P-Net(Proposal Network)对上一步构建完成的图像金字塔进行初步特征提取与标定边框,P-Net利用3个浅层的卷积层对输入进行特征提取,然后通过人脸分类器判断该区域是否包含人脸,并且P-Net使用边框回归和面部关键点的定位器来进行人脸区域的初步提取,因此该网络将输出大量可能存在人脸的人脸区域;
S13.利用较为复杂的神经网络R-Net(Refine Network)对P-Net产生的多张人脸区域进行细化选择,并且舍去大部分的错误输入,且再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位,将输出较为可信的人脸区域;
S14.利用更为复杂的神经网络O-Net(output network)对R-Net输出的人脸区域进行更加精细化的筛选,同样,该网络将输出人脸区域和人脸特征定位点且将该网络的输出作为最终输出,其中O-Net包含四个深层的卷积层和一个全连阶层。
所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于,所述Faceboxes深度学习算法具体为:
S111.通过神经网络大尺寸卷积核以及下采样Pooling层对输入空间进行快速缩小;
S112.仿照SSD(Single Shot Multi Box Detector)设计多尺度卷积层并通过使用更加密集的anchor boxes对缩小后的特征图进行人脸区域回归,最终进行不同尺度大小的人脸目标识别。
本发明的一种基于多特征自适应融合的人脸表情识别方法优点如下:
1、融合多种特征对人脸表情进行识别,由于特征提取方式的不同,例如HOG通过计算和统计图像局部区域的梯度方向直方图来构成特征而LBP则通过对比中心元素与周围像素点大小来提取图像局部纹理特征;因此,不同人脸表情特征方式具有表达不同的表情信息的能力,而特征融合能有效将特征间的信息进行合并提高特征的信息量。
2.仿照SSD(Single Shot Multi Box Detector)设计多尺度卷积层并通过使用更加密集的anchor boxes对缩小后的特征图进行人脸区域回归,实现不同尺度大小的人脸目标检测。
附图说明
图1为本发明方法的流程图;
图2为VGG-16网络结构图;
图3是一种表情融合和分类网络模型结构图示例。
具体实施方式
参照图1-3所示,本发明的基于多特征自适应融合的人脸表情识别方法包括如下几个步骤:
步骤101、从待识别表情图像中检测出对应的人脸区域。
所述待识别表情图像可通过实时摄像头中获取,也可是用户已有图像数据库中的图像中获取。并采用基于图像特征提取算法LBP和分类算法Adaboost的组合或采用MTCNN、Faceboxes深度学习算法检测出对应的人脸区域。其中,
所述MTCNN深度学习算法具体为:
1.首先将图像进行不同尺度的变换,构建图像金字塔,以适应不同大小的人脸的进行检测。
2.利用神经网络P-Net(Proposal Network)对上一步构建完成的图像金字塔进行初步特征提取与标定边框,P-Net利用3个浅层的卷积层对输入进行特征提取,然后通过人脸分类器判断该区域是否包含人脸,并且P-Net使用边框回归和面部关键点的定位器来进行人脸区域的初步提取,因此该网络将输出大量可能存在人脸的人脸区域;
3.利用较为复杂的神经网络R-Net(Refine Network)对P-Net产生的多张人脸区域进行细化选择,并且舍去大部分的错误输入,且再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位,将输出较为可信的人脸区域;
4.利用更为复杂的神经网络O-Net(output network)对R-Net输出的人脸区域进行更加精细化的筛选,同样,该网络将输出人脸区域和人脸特征定位点且将该网络的输出作为最终输出,其中O-Net包含四个深层的卷积层和一个全连阶层。
所述Faceboxes深度学习算法具体为:
1.通过神经网络大尺寸卷积核以及下采样Pooling层对输入空间进行快速缩小;
2.仿照SSD(Single Shot Multi Box Detector)设计多尺度卷积层并通过使用更加密集的anchor boxes对经步骤1缩小后的特征图进行人脸区域回归,实现不同尺度大小的人脸目标检测。
所述LBP(Local Binary Pattern,局部二值模式)是一种用来描述图像局部纹理特征的算法,它具有旋转不变性和灰度不变性等显著的优点。所述Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器。本发明采用将二种算法的结合检测出对应的人脸区域。所述LBP、Adaboost自身为公知技术,在此不做赘述。
步骤102、从待识别表情图像中检测出对应的人脸区域。
在步骤101中提取的人脸区域后,先将提取的人脸区域缩放至长宽均为96像素大 小的正方形图像,然后使用多种特征提取方法对该人脸区域进行特征提取。多种特征提取 方法可选用HOG和CNN。其中,HOG即:方向梯度直方图(HistogramofOrientedGradient, HOG)。由于HOG特征提取方法输入为灰度图像,而上述人脸区域缩放后仍为彩色图像,因此, 本发明先对输入图像进行灰度化处理。通常彩色图像由RGB三个色彩通道组成,每个色彩通 道取值范围为0~255,而灰度图只有一个通道,取值范围同样为0~255。本发明采用加权平均 法对彩色图像进行灰度化处理。假设生成的灰度图为
Figure 20776DEST_PATH_IMAGE056
,原始彩色图像三个通道图像 用RGB表示,那么生成的灰度图像为:
Figure 704698DEST_PATH_IMAGE057
HOG特征提取方法中的方向梯度实现为:1.利用梯度算子
Figure 465981DEST_PATH_IMAGE058
与灰度图
Figure 791920DEST_PATH_IMAGE059
卷 积运算计算出水平
Figure 955048DEST_PATH_IMAGE060
方向梯度分量;2.利用梯度算子
Figure 872188DEST_PATH_IMAGE061
与灰度图
Figure 884881DEST_PATH_IMAGE062
卷积运算计算 垂直方向
Figure 748932DEST_PATH_IMAGE063
的梯度分量;计算公式如下:
Figure 500987DEST_PATH_IMAGE064
Figure 57871DEST_PATH_IMAGE065
式中
Figure 793746DEST_PATH_IMAGE066
Figure 461487DEST_PATH_IMAGE067
分别表示图像
Figure 333628DEST_PATH_IMAGE068
在像素点
Figure 858151DEST_PATH_IMAGE069
处的
Figure 81322DEST_PATH_IMAGE070
方 向和
Figure 788640DEST_PATH_IMAGE071
方向的梯度值。图像在像素点
Figure 515287DEST_PATH_IMAGE072
处的梯度值
Figure 413973DEST_PATH_IMAGE073
和方向
Figure 858861DEST_PATH_IMAGE074
为:
Figure 665143DEST_PATH_IMAGE075
Figure 777456DEST_PATH_IMAGE076
进一步的,针对输入灰度图像
Figure 581463DEST_PATH_IMAGE077
,假定每个单元格cell大小为
Figure 779227DEST_PATH_IMAGE078
,每个区域 块block由
Figure 326883DEST_PATH_IMAGE079
个cell组成,角度组距bin大小为
Figure 526658DEST_PATH_IMAGE080
,block滑动窗口大小为
Figure 501567DEST_PATH_IMAGE081
,对应生成的 特征长度为:
Figure 186626DEST_PATH_IMAGE082
。优选的,本发明选择
Figure 334711DEST_PATH_IMAGE083
,故最 终生成的特征向量大小为:
Figure 156036DEST_PATH_IMAGE084
本发明使用的CNN特征提取模型为经过ImageNet数据集预训练的网络模型VGG- 16。该特征提取方法为:1.将人脸区域缩放至224*224像素大小,2.将缩放后的图像输入包 含预训练参数的VGG-16网络,3.获取网络全连接之前的特征向量1*1*4096。因此,本发明特 征向量长度集合为
Figure 567426DEST_PATH_IMAGE085
步骤103、自适应融合多种人脸表情特征。
在步骤102中的一个示例中提取了CNN和HOG特征且特征维度分别为一维4096和 4356,为融合这两种特征,本发明使用神经网络中全连接的方式将这两个特征向量维度映 射到同一长度,在一个示例中,可以选择长度
Figure 208623DEST_PATH_IMAGE086
,示意图如图3所示。在维度映射后,需 要将特征进行有效融合,目前主流的融合方法为加权平均法和拼接法。假设带融合特征集 合
Figure 98081DEST_PATH_IMAGE087
,对应的特征维度
Figure 39493DEST_PATH_IMAGE088
,那么有:
加权平均法:
Figure 152942DEST_PATH_IMAGE089
其中,
Figure 42620DEST_PATH_IMAGE090
为特征
Figure 735769DEST_PATH_IMAGE091
的加权系数且
Figure 266108DEST_PATH_IMAGE092
,特征集合
Figure 19300DEST_PATH_IMAGE093
中所有特征维度需保持一 致:
Figure 900668DEST_PATH_IMAGE094
,融合特征
Figure 131930DEST_PATH_IMAGE095
特征维度与集合
Figure 782354DEST_PATH_IMAGE096
中任一特征维度相同。
拼接法:
Figure 706447DEST_PATH_IMAGE097
融合特征
Figure 871850DEST_PATH_IMAGE098
特征维度为
Figure 405337DEST_PATH_IMAGE099
考虑到直接拼接法融合将造成过大的特征维度,对应全连接网络需要更多的参数,容易造成网络过拟合,因此,本发明将基于加权平均法对各项特征进行融合。通常,上述加权平均法的权重系数为人为设定缺乏数据支撑,因此,本网络通过因此引入可训练权重参数让网络根据数据进行自适应参数调整。其中一个示例网络结构图如下图3所示,流程如下:
1.经过HOG和CNN提取后的特征向量为
Figure 910268DEST_PATH_IMAGE100
Figure 739683DEST_PATH_IMAGE101
2.
Figure 595644DEST_PATH_IMAGE102
Figure 168708DEST_PATH_IMAGE103
经全连接映射成同样维度后的特征
Figure 793724DEST_PATH_IMAGE104
Figure 856358DEST_PATH_IMAGE105
3.
Figure 934035DEST_PATH_IMAGE106
Figure 310790DEST_PATH_IMAGE107
经过全连接映射后的权重特别为
Figure 291778DEST_PATH_IMAGE108
Figure 728575DEST_PATH_IMAGE109
,生成权重特征维 度与图像特征维度相同;
4.将
Figure 90287DEST_PATH_IMAGE110
Figure 5153DEST_PATH_IMAGE111
进行通道层concat得到二维权重向量
Figure 604762DEST_PATH_IMAGE112
5.利用Softmax对特征
Figure 212460DEST_PATH_IMAGE113
进行通道层的权值归一化得到
Figure 999151DEST_PATH_IMAGE114
6.将
Figure 717708DEST_PATH_IMAGE115
进行通道分离,分解成两个权重向量
Figure 171823DEST_PATH_IMAGE116
Figure 747161DEST_PATH_IMAGE117
最终,得到的权重系数如下;
Figure 785262DEST_PATH_IMAGE118
Figure 307510DEST_PATH_IMAGE119
7.利用生成的权值向量与特征相乘得到加权后的特征向量,最后将加权后的特征 向量相加得到融合后的向量
Figure 350552DEST_PATH_IMAGE120
,具体如下公式:
Figure 565633DEST_PATH_IMAGE121
式中,
Figure 795757DEST_PATH_IMAGE122
为特征点乘,生成融合后的向量
Figure 856117DEST_PATH_IMAGE123
的特征维度为256;
步骤104、对融合特征进行分类。
在步骤103示例中,融合后的特征
Figure 19245DEST_PATH_IMAGE124
维度为256,结合示意图3,假设表情种类
Figure 635254DEST_PATH_IMAGE125
(开心,平静,愤怒,惊讶,伤心,嫌弃,害怕),则需要一层全连接层将特征维度从256映 射至7,最后利用softmax进行分类。
综上所述,本实施例提供的方法,通过提取多种特征增加了人脸表情表达能力,并且通过自适应融合方式进一步增加模型的鲁棒性。
上所述,并非对本发明做任何形式上的限制,虽然本发明已以较佳实施案例揭示如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的结构及技术内容做出些许的更动或修饰为等同变化的等效实施案例,但是凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施案例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案范围。

Claims (6)

1.一种基于多特征自适应融合的人脸表情识别方法,其特征在于:包括步骤:
S1、从待识别表情图像中检测出对应的人脸区域,截取人脸区域图像块后,用于表情识别;
S2、利用多种特征提取方法对人脸区域进行特征提取;
S3、将特征集合
Figure DEST_PATH_IMAGE001
中的元素进行自适应融合;
S4、将融合后的特征进行识别;
其中,所述步骤S3具体为:
步骤S31、针对步骤S2获取的特征集合
Figure DEST_PATH_IMAGE002
,向量长度为
Figure DEST_PATH_IMAGE003
,其中
Figure DEST_PATH_IMAGE004
为特征
Figure DEST_PATH_IMAGE005
对 应的特征长度,将特征集合
Figure DEST_PATH_IMAGE006
中特征向量通过神经网络全连接的方式映射到同一长度
Figure DEST_PATH_IMAGE007
, 对应映射后的特征向量为
Figure DEST_PATH_IMAGE008
,其中
Figure DEST_PATH_IMAGE009
为集合
Figure DEST_PATH_IMAGE010
中元素
Figure DEST_PATH_IMAGE011
映射后的 特征向量,全连接映射方式如下:
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
其中,
Figure DEST_PATH_IMAGE014
为向量
Figure DEST_PATH_IMAGE015
的第
Figure DEST_PATH_IMAGE016
个元素,
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
为神经网络中映射参 数,
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
个特征元素;
步骤S32、将集合
Figure DEST_PATH_IMAGE022
中所有特征向量各自通过全连接方式生成对应的初步权重系数,假 定相应加权系数为集合
Figure DEST_PATH_IMAGE023
,其中
Figure DEST_PATH_IMAGE024
为集合
Figure DEST_PATH_IMAGE025
中特征向量
Figure DEST_PATH_IMAGE026
通过全连接生 成的初步加权系数;
步骤S33、先将集合
Figure DEST_PATH_IMAGE027
中的
Figure DEST_PATH_IMAGE028
个向量元素按行方向拼接得到
Figure DEST_PATH_IMAGE029
维向量矩阵,然后利用Softmax算子对拼接后的权值进行归一化处理得到新的加权系数,最后将处理后的加权系 数按行方向进行分离,得到
Figure DEST_PATH_IMAGE030
,过程如下:
Figure DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
上式中,concat运算将集合
Figure DEST_PATH_IMAGE034
中n个
Figure DEST_PATH_IMAGE035
维向量拼接成1个
Figure DEST_PATH_IMAGE036
维向量;
上式中,Softmax具体运算操作为:
Figure DEST_PATH_IMAGE037
其中,
Figure DEST_PATH_IMAGE038
向量维度为
Figure DEST_PATH_IMAGE039
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
向量上第i行、j列元素;
上式中,split运算将
Figure DEST_PATH_IMAGE042
向量按行进行拆分,将
Figure DEST_PATH_IMAGE043
维向量拆分成n个
Figure 861492DEST_PATH_IMAGE035
维向量 集合
Figure DEST_PATH_IMAGE044
步骤S34、将步骤S33分离后的权重向量集合
Figure DEST_PATH_IMAGE045
与步骤S31生成的特征向量对应相乘 然后将相乘后的结果相加得到最终的融合向量
Figure DEST_PATH_IMAGE046
,对应的
Figure DEST_PATH_IMAGE047
的特 征向量维度为
Figure DEST_PATH_IMAGE048
2.根据权利要求1所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于:步骤S1中所述的待识别表情图像通过摄像头或者用户已有图像数据库获取,并采用基于图像特征提取算法LBP和分类算法Adaboost的组合;或采用MTCNN、Faceboxes深度学习算法检测出对应的人脸区域。
3.根据权利要求1所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在 于:步骤S2中所述的利用多种特征提取方法,包括HOG、LBP、CNN中的一种或多种对步骤S1获 取的人脸区域进行特征提取,得到对应特征集合
Figure DEST_PATH_IMAGE049
,并将特征集合
Figure DEST_PATH_IMAGE050
中存 在的多维特征向量进行展开变换成一维特征向量,得到新的特征集合
Figure DEST_PATH_IMAGE051
,其 中
Figure DEST_PATH_IMAGE052
为集合
Figure DEST_PATH_IMAGE053
Figure DEST_PATH_IMAGE054
展开后的特征向量。
4.根据权利要求1所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于,所述步骤S4具体为:
S41、将步骤S34融合后的特征向量
Figure DEST_PATH_IMAGE055
通过全连接方式映射到与表情类别维度大小相 同的向量
Figure DEST_PATH_IMAGE056
S42、使用Softmax对向量
Figure DEST_PATH_IMAGE057
进行分类。
5.根据权利要求2所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于,所述MTCNN深度学习算法具体为:
S11.首先将图像进行不同尺度的变换,构建图像金字塔,以适应不同大小的人脸的进行检测;
S12.利用神经网络P-Net对上一步构建完成的图像金字塔进行初步特征提取与标定边框,P-Net利用3个浅层的卷积层对输入进行特征提取,然后通过人脸分类器判断该区域是否包含人脸,并且P-Net使用边框回归和面部关键点的定位器来进行人脸区域的初步提取,因此该网络将输出大量可能存在人脸的人脸区域;
S13.利用神经网络R-Net对P-Net产生的多张人脸区域进行细化选择,并且舍去大部分的错误输入,且再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位,将输出较为可信的人脸区域;
S14.利用更为复杂的神经网络O-Net对R-Net输出的人脸区域进行更加精细化的筛选,同样,该网络将输出人脸区域和人脸特征定位点且将该网络的输出作为最终输出,其中O-Net包含四个深层的卷积层和一个全连阶层。
6.根据权利要求2所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于,所述Faceboxes深度学习算法具体为:
S111.通过神经网络大尺寸卷积核以及下采样Pooling层对输入空间进行快速缩小;
S112.仿照SSD设计多尺度卷积层并通过使用更加密集的anchor boxes对经S111步骤缩小后的特征图进行人脸区域回归,实现不同尺度大小的人脸目标检测。
CN202110200931.6A 2021-02-23 2021-02-23 一种基于多特征自适应融合的人脸表情识别方法 Active CN112560824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110200931.6A CN112560824B (zh) 2021-02-23 2021-02-23 一种基于多特征自适应融合的人脸表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110200931.6A CN112560824B (zh) 2021-02-23 2021-02-23 一种基于多特征自适应融合的人脸表情识别方法

Publications (2)

Publication Number Publication Date
CN112560824A CN112560824A (zh) 2021-03-26
CN112560824B true CN112560824B (zh) 2021-06-01

Family

ID=75034580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110200931.6A Active CN112560824B (zh) 2021-02-23 2021-02-23 一种基于多特征自适应融合的人脸表情识别方法

Country Status (1)

Country Link
CN (1) CN112560824B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553911A (zh) * 2021-06-25 2021-10-26 复旦大学 融合surf特征和卷积神经网络的小样本人脸表情识别方法
CN114529970A (zh) * 2022-02-17 2022-05-24 广州大学 基于Gabor特征和HOG特征融合的行人检测系统

Also Published As

Publication number Publication date
CN112560824A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN112446270B (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN110309856A (zh) 图像分类方法、神经网络的训练方法及装置
CN111783748B (zh) 人脸识别方法、装置、电子设备及存储介质
Cevikalp et al. Semi-supervised dimensionality reduction using pairwise equivalence constraints
CN110532871A (zh) 图像处理的方法和装置
WO2018052587A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN109033994B (zh) 一种基于卷积神经网络的人脸表情识别方法
US20240046700A1 (en) Action recognition method
CN110211127B (zh) 基于双相关性网络的图像分割方法
CN109740539B (zh) 基于超限学习机和融合卷积网络的3d物体识别方法
CN112560824B (zh) 一种基于多特征自适应融合的人脸表情识别方法
CN111898621A (zh) 一种轮廓形状识别方法
CN110222718A (zh) 图像处理的方法及装置
CN113763417B (zh) 一种基于孪生网络和残差结构的目标跟踪方法
CN109886281A (zh) 一种基于四元数超限学习机彩色图像识别方法
CN116630960B (zh) 基于纹理-颜色多尺度残差收缩网络的玉米病害识别方法
CN114612709A (zh) 图像金字塔特征指导的多尺度目标检测方法
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
Quiroga et al. A study of convolutional architectures for handshape recognition applied to sign language
Bačanin Džakula Convolutional neural network layers and architectures
CN117437691A (zh) 一种基于轻量化网络的实时多人异常行为识别方法及系统
Ghosh et al. PB3C-CNN: An integrated PB3C and CNN based approach for plant leaf classification
CN112381176B (zh) 一种基于双目特征融合网络的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant