CN110427892B - 基于深浅层自相关融合的cnn人脸表情特征点定位方法 - Google Patents
基于深浅层自相关融合的cnn人脸表情特征点定位方法 Download PDFInfo
- Publication number
- CN110427892B CN110427892B CN201910720503.9A CN201910720503A CN110427892B CN 110427892 B CN110427892 B CN 110427892B CN 201910720503 A CN201910720503 A CN 201910720503A CN 110427892 B CN110427892 B CN 110427892B
- Authority
- CN
- China
- Prior art keywords
- layer
- fusion
- convolutional
- autocorrelation
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000008921 facial expression Effects 0.000 title claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 38
- 210000004709 eyebrow Anatomy 0.000 claims abstract description 13
- 238000013519 translation Methods 0.000 claims abstract description 5
- 238000011176 pooling Methods 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000017105 transposition Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 210000000056 organ Anatomy 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于深浅层自相关融合的CNN人脸表情特征点定位方法,S1,构建人脸样本数据集,S2,定位人脸眼睛、眉毛、嘴等区域,随后利用旋转、平移、翻转拓展数据集,S3,利用数据集训练深浅层自相关融合的卷积神经网络,完成对区域内的特征点的精确定位。本发明在样本人脸数据集的基础上,实现了人眼、眉毛、嘴巴等与表情相关较大的区域的特征点精确定位,解决了由于人脸表情变化大造成特征点定位不准等问题,并可藉由此方法完成表情识别的相关操作。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及基于深浅层自相关融合的卷积神经网络表情特征点定位法。
背景技术
随着计算机和网络技术的不断发展,如何保证信息安全成为人们关心的重点,人脸信息作为一种生物特征可以被用来进行身份鉴定已经有了长足的研究。而人脸特征点定位作为人脸识别的重要步骤也受到越来越多的关注。但是目前人脸特征点定位还存在着一些问题,使用经典的卷积神经网络结构如AlexNet进行特征点定位时会陷入过拟合的情况,同时当人脸表情变化较大时,特征点定位的准确性就会大幅下降。
发明内容
发明目的:为了克服现有技术的不足,本发明提供了基于深浅层自相关融合的CNN(卷积神经网络)人脸表情特征点定位方法。
本发明采用的技术方案为:
一种基于深浅层自相关融合的CNN人脸表情特征点定位方法,具体包括以下步骤:
S1,构建样本人脸的图像数据集;
S2,定位人脸相关器官区域,通过旋转、平移、翻转进行拓展所获取的数据集;
S3,利用样本数据集训练深浅层自相关融合的卷积神经网络,通过卷积神经网络对区域内的特征点进行精确定位,完成人脸表情特征点的定位。
在所述步骤S2中,获取并拓展人脸眼睛、眉毛、嘴区域的数据集,包括以下过程:
S21,构建人眼、眉毛、嘴巴方差滤波器;
S22,通过方差滤波器完成人眼、眉毛、嘴巴的区域定位。
在所述步骤S3中,深浅层自相关融合的卷积神经网络的融合层由池化层4、池化层5与池化层2进行融合操作得来的,包括以下过程:
首先将池化层5进行上采样至池化层4尺寸相同,对这两个池化层的特征图进行融合,然后再进行一次上采样和融合操作得到最终的融合层。融合操作首先设X(p,n)和Y(q,n)分别表示两个特征图的特征矩阵,n表示特征数量,p、q表示特征的维度,同时定义:
然后最大化相关系数:
其中,Cxx和Cyy分别表示各自的协方差矩阵,Cxy表示集合间的协方差矩阵,Wx和Wy分别表示两个矩阵对应的投影向量,和分别表示两个矩阵对应的投影向量的转置。使用拉格朗日乘子法来求解协方差的最大化问题,约束条件var(X*)=var(Y*)=1。
最后的融合矩阵Z可由下列公式得出:
在所述步骤S3中,深浅层自相关融合的卷积神经网络全连接层1、全连接层2后进行Dropout操作,提高泛化能力。
在所述步骤S3中,深浅层自相关融合的卷积神经网络包括五组卷积层,分别为卷积层1、卷积层2、卷积层3、卷积层4、卷积层5,所述卷积层2、卷积层3、卷积层4、卷积层5均由两个级联的卷积层组成,所述卷积神经网络还包括池化层1、池化层2、池化层3、池化层4、池化层5、全连接层1、全连接层2、全连接层3和一个融合层。
在所述步骤S3中,深浅层自相关融合的卷积神经网络的卷积层的卷积核为3×3,池化核为2×2,卷积神经网络采用Leaky ReLu激活函数。
有益效果:
1.本发明所使用的卷积神经网络基于AlexNet卷积神经网络,并在此基础上加深了网络结构,用以提高特征学习的能力,同时使用Leaky ReLu激活函数提高了收敛速度。
2.本发明所使用的卷积神经网络增加了融合层,将深层和浅层的特征进行融合后再和全连接层相连,减少了卷积神经网络在由于层数增加造成的信息丢失的问题。
3.在全连接层1和全连接层2后增加Dropout操作,提高了泛化能力,同时降低了过拟合。
附图说明
如图1所示为本发明的流程图。
如图2所示为深浅层自相关融合的卷积神经网络结构图。
具体实施方法
下面结合附图对本发明作更进一步的说明。
下面结合实例对本发明作更进一步的说明。
如图1所示,基于深浅层自相关融合的CNN人脸表情特征点定位方法,首先构建人脸样本数据集,然后定位人脸眼睛、眉毛、嘴等区域,随后利用旋转、平移、翻转拓展数据集,再通过卷积神经网络对区域内的特征点进行精确定位,完成人脸表情特征点的定位。具体包括以下步骤:
S1,构建样本人脸的图像数据集
从现有的人脸表情数据库中获取人脸表情图像数据集,并进行数据集预处理,具体包括以下过程:
获取ibug网站提供的LFPW、AFW等样本人脸数据集。
S2,获取并拓展人脸眼睛、眉毛、嘴区域的数据集
在样本人脸数据中,定位到人眼、眉毛、嘴的区域,并进行拓展,具体包括以下步骤:
S21,训练人眼方差滤波器;
首先,由于眼睛区域内灰度强度的变化比面部其他区域更明显,域上的方差被用作灰度强度变化的指标,并将面部区域Ω上的眼睛图像I(x,y)的方差被定义为
其中,AΩ和IΩ分别表示的是人脸眼部区域Ω的面积和平均灰度。
选择30幅不同人眼图像Ii(x,y),i=1,2,…,30,将图像划分成3×3非重叠子块,对于图像Ii(x,y),有定义如下:
Vσ(i,j)=σΩ (2)
Ωij={(i-1)l+1≤x≤il,(j-1)l+1≤y≤jl} (3)
其中,1和Ωij分别表示的是宽度(高度)和每个子块的面积。
通过等式1计算每个子块上的方差图像,每个子块具有不同的灰度强度特征。然后计算所有眼睛图像的方差图像平均值来构造人眼方差滤波,
其中[Vσ(i,j)]k代表第k个眼睛图像上的(i,j)子块的方差Vσ(i,j),N是样本眼睛图像的数量。
眼睛方差分类器用于检测最有可能的眼睛区域,在面部上的分类器和眼睛与非眼部之间的相关性为:
眼睛区域图像具有大于0.32的相关值,而非眼部区域图像具有小于0.32的相关值。因此0.32可以作为眼睛方差分类器阈值。
S22,分别构建眉毛和嘴部的方差分类器
S23,将样本人脸数据通过方差分类器获得眼部、眉毛、嘴巴区域的图像
S24,对所得到的图像进行旋转、平移、翻转等处理,拓展数据集,降低过拟合的风险。
S3,利用表情区域的数据集训练深浅层自相关融合的卷积神经网络。
改进的卷积神经网络基于经典的Alexnet,包括卷积层1、卷积层2、卷积层3、卷积层4、卷积层5、池化层1、池化层2、池化层3、池化层4、池化层5、全连接层1、全连接层2、全连接层3和一个融合层。最后一个全连接层输出两倍的特征点数,如嘴巴的特征点的数目为8,则输出为16。
深浅层自相关融合的卷积神经网络的融合层由池化层4、池化层5与池化层2进行融合操作得来的,首先将池化层5进行上采样至与池化层4尺寸相同,对这两个池化层的特征图进行融合。得到上述特征图的融合后。再进行一次上采样与池化层2尺寸相同,并通过相同的方法得到最终的融合层。设X(p,n)和Y(q,n)分别表示两个特征图的特征矩阵,n表示特征数量,p、q表示特征的维度,定义:
然后最大化相关系数:
其中,Cxx和Cyy分别表示各自的协方差矩阵,Cxy表示集合间的协方差矩阵,Wx和Wy分别表示两个矩阵对应的投影向量,和分别表示两个矩阵对应的投影向量的转置。然后使用拉格朗日乘子法来求解协方差的最大化问题,约束条件var(X*)=var(Y*)=1。
最后的融合矩阵Z可由下列公式得出:
深浅层自相关融合的卷积神经网络的融合层具体结构如图2所示。
卷积层和池化层进行信息的提取和筛除,卷积层的卷积核为3×3,步长设置为1,最大池化层的池化核为2×2。在卷积层2、3、4、5中包括两个堆叠的卷积层,两个3×3卷积层的串联相当于1个5×5的卷积层,同时卷积层参数量远少于5×5的卷积层,能够减少整个网络的训练时间。
在全连接层1、2后进行Dropout操作,提高泛化能力。激活函数选择LeakyReLu:
LeakyReLu函数相较于传统的ReLu函数,收敛速度更快。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于深浅层自相关融合的CNN人脸表情特征点定位方法,其特征在于包括以下步骤:
S1,构建样本人脸的图像数据集;
S2,定位人脸相关器官区域,通过旋转、平移、翻转进行拓展所获取的数据集;
S3,利用样本数据集训练深浅层自相关融合的卷积神经网络,通过卷积神经网络对区域内的特征点进行精确定位,完成人脸表情特征点的定位;
所述步骤S3中,深浅层自相关融合的卷积神经网络包括五组卷积层,分别为卷积层1、卷积层2、卷积层3、卷积层4、卷积层5,所述卷积层2、卷积层3、卷积层4、卷积层5均由两个级联的卷积层组成,所述卷积神经网络还包括池化层1、池化层2、池化层3、池化层4、池化层5、全连接层1、全连接层2、全连接层3和一个融合层;
所述深浅层自相关融合的卷积神经网络的融合层由池化层4、池化层5与池化层2进行融合操作得来的,首先将池化层5进行上采样至池化层4尺寸相同,对这两个池化层的特征图进行融合,然后再进行一次上采样、融合操作得到融合层图像;
所述深浅层自相关融合的卷积神经网络的融合操作为首先设X(p,n)和Y(q,n)分别表示两个特征图的特征矩阵,n表示特征数量,p、q表示特征的维度,同时定义:
然后最大化相关系数:
其中,Cxx和Cyy分别表示各自的协方差矩阵,Cxy表示集合间的协方差矩阵,Wx和Wy分别表示两个矩阵对应的投影向量,和分别表示两个矩阵对应的投影向量的转置,然后使用拉格朗日乘子法来求解协方差最大化问题,约束条件为var(X*)=var(Y*)=1;
最后的融合特征矩阵Z可由下列公式得出:
2.根据权利要求1所述的基于深浅层自相关融合的CNN人脸表情特征点定位方法,其特征是,S2中,获取并拓展人脸眼睛、眉毛、嘴区域的数据集,包括以下过程:
S21,构建人眼、眉毛、嘴巴方差滤波器;
S22,通过方差滤波器完成人眼、眉毛、嘴巴的区域定位。
3.根据权利要求1所述的基于深浅层自相关融合的CNN人脸表情特征点定位方法,其特征是在于所述深浅层自相关融合的卷积神经网络在全连接层1、全连接层2后进行Dropout操作,提高泛化能力。
4.根据权利要求1所述的基于深浅层自相关融合的CNN人脸表情特征点定位方法,其特征在于所述深浅层自相关融合的卷积神经网络的卷积层的卷积核为3×3,池化核为2×2,卷积神经网络采用Leaky ReLu激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910720503.9A CN110427892B (zh) | 2019-08-06 | 2019-08-06 | 基于深浅层自相关融合的cnn人脸表情特征点定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910720503.9A CN110427892B (zh) | 2019-08-06 | 2019-08-06 | 基于深浅层自相关融合的cnn人脸表情特征点定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427892A CN110427892A (zh) | 2019-11-08 |
CN110427892B true CN110427892B (zh) | 2022-09-09 |
Family
ID=68414332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910720503.9A Active CN110427892B (zh) | 2019-08-06 | 2019-08-06 | 基于深浅层自相关融合的cnn人脸表情特征点定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427892B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818982B (zh) * | 2021-01-19 | 2022-09-09 | 中国科学院合肥物质科学研究院 | 基于深度特征自相关性激活的农业害虫图像检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292256A (zh) * | 2017-06-14 | 2017-10-24 | 西安电子科技大学 | 基于辅任务的深度卷积小波神经网络表情识别方法 |
CN108615010A (zh) * | 2018-04-24 | 2018-10-02 | 重庆邮电大学 | 基于平行卷积神经网络特征图融合的人脸表情识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10068171B2 (en) * | 2015-11-12 | 2018-09-04 | Conduent Business Services, Llc | Multi-layer fusion in a convolutional neural network for image classification |
-
2019
- 2019-08-06 CN CN201910720503.9A patent/CN110427892B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292256A (zh) * | 2017-06-14 | 2017-10-24 | 西安电子科技大学 | 基于辅任务的深度卷积小波神经网络表情识别方法 |
CN108615010A (zh) * | 2018-04-24 | 2018-10-02 | 重庆邮电大学 | 基于平行卷积神经网络特征图融合的人脸表情识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110427892A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rahman et al. | A new benchmark on american sign language recognition using convolutional neural network | |
CN113240580B (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN109685819B (zh) | 一种基于特征增强的三维医学图像分割方法 | |
CN107292256B (zh) | 基于辅任务的深度卷积小波神经网络表情识别方法 | |
CN107633513B (zh) | 基于深度学习的3d图像质量的度量方法 | |
CN106529447B (zh) | 一种小样本人脸识别方法 | |
CN109815826B (zh) | 人脸属性模型的生成方法及装置 | |
CN108427921A (zh) | 一种基于卷积神经网络的人脸识别方法 | |
CN111582044A (zh) | 基于卷积神经网络和注意力模型的人脸识别方法 | |
CN106548159A (zh) | 基于全卷积神经网络的网纹人脸图像识别方法与装置 | |
CN112464865A (zh) | 一种基于像素和几何混合特征的人脸表情识别方法 | |
CN110188794B (zh) | 一种深度学习模型的训练方法、装置、设备及存储介质 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN106326857A (zh) | 基于人脸图像的性别识别方法及装置 | |
CN116645716B (zh) | 基于局部特征和全局特征的表情识别方法 | |
Lu et al. | Rethinking prior-guided face super-resolution: A new paradigm with facial component prior | |
CN112733665B (zh) | 一种基于轻量化网络结构设计的人脸识别方法及系统 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN112085745A (zh) | 基于均衡采样拼接的多通道u型全卷积神经网络的视网膜血管图像分割方法 | |
Ribeiro et al. | Exploring deep learning image super-resolution for iris recognition | |
CN112116009A (zh) | 基于卷积神经网络的新冠肺炎x射线图像识别方法及系统 | |
CN114529982A (zh) | 基于流式注意力的轻量级人体姿态估计方法及系统 | |
CN110414516B (zh) | 一种基于深度学习的单个汉字识别方法 | |
CN116403063A (zh) | 基于多区域特征融合的无参考屏幕内容图像质量评估方法 | |
CN110222568B (zh) | 一种基于时空图的跨视角步态识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |