CN107491726B - 一种基于多通道并行卷积神经网络的实时表情识别方法 - Google Patents
一种基于多通道并行卷积神经网络的实时表情识别方法 Download PDFInfo
- Publication number
- CN107491726B CN107491726B CN201710537921.5A CN201710537921A CN107491726B CN 107491726 B CN107491726 B CN 107491726B CN 201710537921 A CN201710537921 A CN 201710537921A CN 107491726 B CN107491726 B CN 107491726B
- Authority
- CN
- China
- Prior art keywords
- neural network
- convolutional neural
- channel
- facial
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/175—Static expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明请求保护一种基于多通道并行卷积神经网络的实时表情识别方法,包括以下步骤:从面部表情数据集中提取包含RGB与Depth图像的表情数据;对彩色图像进行局部二值化及提取面部关键点预处理,对深度图像进行梯度化预处理,将预处理后的图像分为训练集与测试集两部分并构建多通道并行卷积神经网络;将训练集中预处理后的图像送入网络中训练,获得学习了面部表情轮廓、立体分布及关键点特征的深度通道、lbp通道及关键点通道识别模型;将三种识别模型的分类结果采用最大置信融合,得到最终表情识别模型并构建实时表情识别系统。本发明增强了识别网络的鲁棒性,有效提升了实时表情识别系统的性能。
Description
技术领域
本发明属于涉及图像识别、人机交互、人工智能领域,特别涉及一种基于深度学习的融合多特征提取的表情识别方法。
背景技术
人脸表情是人类交流的重要载体和非语言交流的一种重要方式,它不仅能够表达人类的情感状态、认知活动和人格特征,而且它所富含的人体行为信息与人的情感状态、精神状态、健康状态等其他因素有着极为密切的关联。心理学家Mehrabian提出,在人类交流过程中,只有7%的信息量通过语言来表达,有38%通过辅助语言来传达,如节奏、语音、语调等,而人脸表情是占比重最大的一部分——能够达到信息总量的55%。因此,通过对于人脸表情的研究可以获得很多有价值的信息,从而分析人类的心理活动和精神状态。
深度学习是机器学习领域一个新兴的研究方向,它通过模仿人脑结构,实现对复杂输入数据的高效处理,智能地学习不同的知识,而且能够有效地解决多类复杂的智能问题。实践表明,深度学习是一种高效的特征提取方法,它能够提取数据中更加抽象的特征,实现对数据更本质的刻画,同时深层模型具有更强的建模和推广能力。
从技术层面讲,深度学习作为一种新兴的机器学习理论已经成为科研人员的关注焦点。在过去的几年中,深度学习技术已经在信号处理和计算机视觉等领域引起较大的反响。深度学习的本质是通过构建含有多个隐层的网络模型和海量的训练样本,把低层特征组合起来形成高层特征进行表示,进而增强模型的分类或预测能力。区别于支持向量机和神经网络等浅层学习方法,深度学习不仅强调了学习模型的深度,而且突出了特征学习对于网络模型的重要性。
人脸表情识别系统通常包括人脸图像的获取与预处理、表情特征提取和表情分类,其中表情特征提取在表情识别系统中起关键的作用,影响着整个系统的识别正确率。有关表情特征的构建和提取一直受到广泛关注,有活动外观模型(AAM)、Gabor小波变换、局部二元模式(LBP)、方向梯度直方图(HOG)、局部判别分量分析(LDCA)等。这些方法的共同点就是使用一组人工设计的特征,在一定程度上损失了原有的特征信息,或者假设属性之间互相独立,这往往与实际应用环境不相符合。
近年来在机器学习领域出现了以深度学习(Deep Learning)为突破点的纯数据驱动的特征学习算法。深度学习算法不同于传统的浅层学习算法,它舍弃了依靠人工设计的显式特征提取方法,通过逐层地构建一个多层的深度神经网络(可拥有数十隐层、数千万甚至过亿的网络参数),让机器自主地从数据中学习到更加本质的特征,从而使得学习到的特征更具有推广性和表征能力。
现在主流的人脸表情或者情感方面的研究主要是基于RGB摄像机,它一般只能捕捉单纯的二维信息。因为人脸特征的三维性,二维的RGB图像往往不能提取细节的面部几何特征。三维图像相较二维图像能够较好的还原面部细节特征,也能更好的适应变化中的取景环境。尽管三维图像存在诸多优势,国内外的许多学者也提出了很多三维的面部识别算法,但三维传感器的价格昂贵,无法进行有效的推广。随着传感器市场的发展,一些价格适中的传感器,如Kinect、Leap motion等,能够提供以深度信息为辅助的三维信息,深度信息的出现在丰富了细节信息的同时,也降低了在传感器上的花费。
经过不断的发展,科研人员已对人脸表情识别问题进行了较多的研究,并提出了各种不同的方法,但对于深度学习在人脸表情识别方面的研究成果还不是很多。如何在表情识别领域成功应用深度学习方法既是对表情识别方法的提升,也拓展了深度学习方法的应用领域。
综上所述,虽然科研人员已对人脸表情识别问题进行了较多的研究,但对于深度学习在人脸表情识别方面的研究成果还不是很多,如何克服不同光照、头部姿势、复杂背景等实际因素的影响仍然是一个十分棘手的问题。充分利用当前深度学习方法的优势,结合深度图像信息和彩色图像信息训练深度学习网络既是对表情识别方法的提升,也拓展了深度学习方法的应用领域。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种有效增加网络学习能力,提升了实时表情识别系统的性能的基于多通道并行卷积神经网络的实时表情识别方法。本发明的技术方案如下:
一种基于多通道并行卷积神经网络的实时表情识别方法,其包括:多通道并行卷积神经网络模型的构建步骤,以及实时表情识别两个步骤:所述多通道并行卷积神经网络模型的构建步骤包括:
步骤1:从面部表情数据集中提取人脸表情图像,所述人脸表情图像包含彩色图像和深度图像;
步骤2:对人脸表情图像的彩色图像和深度图像进行预处理操作,将预处理后的深度图像与彩色图像分别分为训练集和测试集两部分并构建多通道并行卷积神经网络,所述多通道并行卷积神经网络包括第一路卷积神经网络、第二路卷积神经网络及第三路卷积神经网络;
步骤3:进行深度学习得到学习了面部表情立体分布特征的深度通道识别模型、学习了面部表情轮廓特征的LBP通道识别模型、学习了面部表情关键点分布的关键点通道识别模型;
所述实时表情识别的步骤包括:
步骤4:将深度通道、LBP通道与关键点通道识别模型的分类结果采用最大置信相融合,获取最终表情识别模型;
步骤5:采用最终表情识别模型构建实时表情识别系统,实时获取用户图片进行表情分类。
进一步的,所述步骤3具体包括步骤:
将训练集中经过梯度化预处理的深度图像数据送入第一路卷积神经网络中进行训练以提取面部立体分布特征,得到学习了面部表情立体分布特征的深度通道识别模型;
将训练集中经过局部二值化预处理的彩色图像数据送入第二路卷积神经网络中进行训练以提取面部轮廓特征,得到学习了面部表情轮廓特征的LBP通道识别模型;
将训练集中经过提取面部关键点的彩色图像数据送入第三路卷积神经网络中进行训练以提取面部关键点分布特征,得到学习了面部表情关键点分布的关键点通道识别模型。
进一步的,所述步骤2面部表情数据集图像的预处理操作,包括:
将面部表情数据集中的原始像素为256×256的所有表情以中心点为基准裁剪128×128图像区域,面部表情主要由面部肌肉轮廓组合而成,对彩色图像采用局部二值化方法来提取面部轮廓特征,采用提取关键点分布的方式获取面部几何分布特征,对深度图像采用去除背景及梯度化处理。
进一步的,所述步骤2的第一路卷积神经网络、第二路卷积神经网络及第三路卷积神经网络分别为:深度图像通道、LBP图像通道与关键点通道,分别对不同输入下的面部表情特征进行提取,每个单路卷积神经网络的结构相同,包括5个卷积层,3个全连接层,最后为softmax层,具体如下:
第1层为卷积一层,有96个卷积核,大小为7×7×96;第2层为最大池化层,大小为3×3;第3层为卷积二层,有256个卷积核,大小为5×5×256;第4层为最大池化层,大小为2×2;第5层为卷积三层,有512个卷积核,大小为3×3×512;第6层为卷积四层,有512个卷积核,大小为3×3×512;第7层为卷积五层,有512个卷积核,大小为3×3×512;第8层为最大池化层,大小为3×3;后面三层为全连接层,分别为FC6,FC7,FC8。
进一步的,所述第一路卷积神经网络、第二路卷积神经网络及第三路卷积神经网络采用深度学习框架caffe实现,通过深度学习中finetune的方式对每个单路卷积神经网络进行训练以获取网络识别模型,包含网络参数初始化和训练参数设置;在网络参数初始化时,采用模型的前8层网络权值参数进行参数初始化,后三层全连接层的参数则采用随机初始化的方式;关于训练参数设置,网络训练时,由实际输出与样本期望输出计算而得的损失函数将不断更新网络权值参数。
进一步的,所述步骤4将深度通道、LBP通道与关键点通道识别模型的分类结果采用最大置信相融合,获取最终表情识别模型,具体包括:通过最大置信融合深度通道、LBP通道与关键点通道识别模型的分类结果,对三者分配不同的权重之后求置信度,置信度最大值对应的分类结果即为最终输出的表情识别结果。
进一步的,获得最终表情识别模型后,加载模型及相关的配置文件构建实时的表情识别系统,用深度相机实时采集用户图像,采用opencv中的Haar-Cascade进行面部区域检测及裁剪,之后对裁剪后的面部彩色图像进行lbp预处理和获取面部关键点及对深度图像进行梯度化预处理,送入最终表情识别模型之中,经前向传播,模型将实时返回表情分类结果。
进一步的,所述面部表情数据集还包括设置感兴趣区域得到训练数据,包括:采用图像处理中的裁剪、镜像、遮罩、中心聚焦方式,先进行人脸检测提取人脸,保留头部区域,让鼻尖近似处于图像中心位置,确保不同面部的ROI区域不出现大的偏差;裁剪方式重点关注眼、鼻、嘴在不同表情中的区别,镜像方式考虑了拍摄角度的不同,遮罩方式是对裁剪方式的补充。
进一步的,所述采用最大置信进行融合,包括:
1,统计深度图像通道的7种基本表情的概率PRGB(i),基本表情分别为生气、厌恶、害怕、开心、中性、悲伤和惊讶:
PCDepth(i)==w1*CDepth(i)/(w1*CDepth(i)+w2*LCRGB(i)+w3*KCRGB(i)),i=1,2,3,4,5,6,7;
2,统计LBP图像通道的7种基本表情的概率PLCRGB(i):
PLCRGB(i)=w2*LCRGB(i)/(w1*CDepth(i)+w2*LCRGB(i)+w3*KCRGB(i)),i=1,2,3,4,5,6,7;
3,统计关键点图像通道的7种基本表情的概率PKCRGB(i):
PKCRGB(i)=w3*KCRGB(i)/(w1*CDepth(i)+w2*LCRGB(i)+w3*KCRGB(i)),i=1,2,3,4,5,6,7;
4,对比1、2、3中统计结果的大小,具有较高置信度的即为最终表情分类结果:
Result=max{PCDepth(i),PLCRGB(i),PKCRGB(i)},i=1,2,3,4,5,6,7;
其中,w1是深度图像通道分类输出的权值,w2是LBP图像通道分类输出的权值,w3是关键点图像通道分类输出的权值。
本发明的优点及有益效果如下:
1,对于表情特征的提取,直接采用表情图像的原始像素特征信息。
2,针对面部表情数据尚未形成大数据集的情况,采用设置感兴趣区域(ROI)的方式,有效扩充数据集数据量。
3,结合彩色图像lbp处理带来的面部轮廓特征及关键点分布特征和深度图像梯度化带来的面部立体分布特征训练网络,有助于更好的揭示面部表情数据内在联系,利于深度学习网络学习到有用的信息,提高模型识别准确率。
4,采用多通道并行卷积神经网络,增加网络宽度,有效增加网络学习能力,提升了实时表情识别系统的性能。
附图说明
图1是本发明提供优选实施例的基于MPCNN的实时表情识别方法流程图。
图2是深度图经梯度化处理与彩色图经LBP处理及面部关键点分布示意图。
图3是感兴趣区域(ROI)设置示意图。
图4是卷积一层学习到的卷积核。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
图1为本系统框图,主要包括:
一种基于多通道并行卷积神经网络的实时表情识别方法,包括多通道并行卷积神经网络(Multichannel Parallel Convolutional Neural,MPCNN)模型的构建和实时表情识别两个步骤:
所述MPCN模型的构建步骤包括:
步骤1:从含有彩色与深度图像的面部表情数据集中提取包含RGB图像和Depth图像的人脸表情图像;
步骤2:对面部表情数据集图像进行预处理操作,将预处理后的深度图像与彩色图像分为训练集和测试集两部分并构建多通道并行卷积神经网络;
步骤3:将训练集中经过梯度化预处理的深度图像数据送入第一路卷积神经网络(CNN)中进行训练以提取面部立体分布特征,得到学习了面部表情立体分布特征的深度通道识别模型;
将训练集中经过局部二值化(LBP)预处理的彩色图像数据送入第二路卷积神经网络(CNN)中进行训练以提取面部轮廓特征,得到学习了面部表情轮廓特征的LBP通道识别模型;
将训练集中经过提取面部关键点的彩色图像数据送入第三路卷积神经网络(CNN)中进行训练以提取面部关键点分布特征,得到学习了面部表情关键点分布的关键点通道识别模型。
所述实时表情识别的步骤包括:
步骤4:将深度通道、LBP通道与关键点通道识别模型的分类结果采用最大置信相融合,获取最终表情识别模型。
步骤5:采用最终表情识别模型构建实时表情识别系统,实时获取用户图片进行表情分类。
本系统框图每一个步骤的实现,结合实施例具体表述如下:
(1)从面部表情数据集中提取包含RGB图像和Depth图像的人脸表情图像
在含有彩色和深度信息的面部表情数据集中,分别提取包含RGB信息和Depth信息的基本人脸表情图像,每个图像的像素为256×256。
(2)面部表情数据集图像的预处理操作,包括:
将面部表情数据集中的原始像素为256×256的所有表情以中心点为基准裁剪128×128图像区域,以保留面部区域。面部表情主要由面部肌肉轮廓组合而成,对彩色图像采用局部二值化(lbp)方法来提取面部轮廓特征以帮助网络学习面部肌肉轮廓分布的特点,采用提取关键点分布的方式获取面部几何分布特征。对Depth图像采用去除背景及梯度化处理,以突出面部表情具有的空间立体分布特征。图像示例,如图2所示。这样综合彩色图像经lbp处理提取的面部轮廓及面部关键点分布特征和深度图像梯度化提取的面部立体特征,有助于揭示面部表情数据的内在联系,帮助深度学习网络学习到有用的信息。
为解决当前尚未形成较大面部表情数据集的情况,采取对单张图片不同尺度区域裁剪的方式,来扩大数据集,根据人脸的面部结构,设置9个不同的感兴趣区域(Region ofinterest,ROI),引导神经网络关注与表情相关的面部区域,ROI方法使训练数据扩大至9倍。图像示例,如图3所示。
(2-1)感兴趣区域(ROI)的设置方法,包括:
采用图像处理中的裁剪、镜像、遮罩、中心聚焦方式。先进行人脸检测提取人脸,保留头部区域,让鼻尖近似处于图像中心位置,确保不同面部的ROI区域不出现大的偏差。
裁剪方式重点关注眼、鼻、嘴在不同表情中的区别,镜像方式考虑了拍摄角度的不同,遮罩方式是对裁剪方式的补充,中心聚焦方式可以减少一些噪声干扰。感兴趣区域(ROI)的设置增强了区域的局部关联性,有利于提高卷积神经网络的学习能力。
(3)并行卷积神经网络构建,包括:
所采用的并行卷积神经网络结构,包含深度图像通道、LBP图像通道与关键点通道三路,分别对不同输入下的面部表情特征进行提取,每个单路卷积神经网络的结构相同,包括5个卷积层,3个全连接层,最后为softmax层,具体如下:
第1层为卷积一层,有96个卷积核,大小为7×7×96;第2层为最大池化层,大小为3×3;第3层为卷积二层,有256个卷积核,大小为5×5×256;第4层为最大池化层,大小为2×2;第5层为卷积三层,有512个卷积核,大小为3×3×512;第6层为卷积四层,有512个卷积核,大小为3×3×512;第7层为卷积五层,有512个卷积核,大小为3×3×512;第8层为最大池化层,大小为3×3;后面三层为全连接层,分别为FC6,FC7,FC8。
(4)并行卷积神经网络的训练,包括:
采用深度学习框架caffe实现并训练cnn网络,通过深度学习中finetune的方式对每个单路卷积神经网络进行训练以获取网络识别模型,包含网络参数初始化和训练参数设置。
在网络参数初始化时,采用模型的前8层网络权值参数进行参数初始化,后三层全连接层的参数则采用随机初始化的方式。
关于训练参数设置,网络训练时,由实际输出与样本期望输出计算而得的损失函数将不断更新网络权值参数。将前5个卷积层的基础学习率设为0.001,将后三层的基础学习率设为0.01以加快更新初始化阶段随机初始化的全连接层参数。
将学习率的更新策略设置为step,随着迭代次数的增加,学习率按更新策略有规律的逐步递减,step的更新策略为base_lr*gamma(floor(iter/stepsize)),base_lr为基础学习率,gamma为衰减系数,stepsize为衰减步长。训练过程中分别采用训练集中彩色图像和深度图像数据进行训练。卷积一层所学习到卷积核特征的可视化如图4所示。
(5)将深度通道、LBP通道与关键点通道识别模型的分类结果采用最大置信相融合,包括:
通过最大置信融合深度通道、LBP通道与关键点通道识别模型的分类结果,对三者分配不同的权重之后求置信度,置信度最大值对应的分类结果即为最终输出的表情识别结果。
(5-1)采用最大置信进行融合,包括:
1,统计深度图像通道的7种基本表情(生气、厌恶、害怕、开心、中性、悲伤和惊讶)的概率PRGB(i):
PCDepth(i)==w1*CDepth(i)/(w1*CDepth(i)+w2*LCRGB(i)+w3*KCRGB(i)),i=1,2,3,4,5,6,7;
2,统计LBP图像通道的7种基本表情(生气、厌恶、害怕、开心、中性、悲伤和惊讶)的概率PLCRGB(i):
PLCRGB(i)=w2*LCRGB(i)/(w1*CDepth(i)+w2*LCRGB(i)+w3*KCRGB(i)),i=1,2,3,4,5,6,7;
3,统计关键点图像通道的7种基本表情(生气、厌恶、害怕、开心、中性、悲伤和惊讶)的概率PKCRGB(i):
PKCRGB(i)=w3*KCRGB(i)/(w1*CDepth(i)+w2*LCRGB(i)+w3*KCRGB(i)),i=1,2,3,4,5,6,7;
4,对比1、2、3中统计结果的大小,具有较高置信度的即为最终表情分类结果:
Result=max{PCDepth(i),PLCRGB(i),PKCRGB(i)},i=1,2,3,4,5,6,7;
其中,w1是深度图像通道分类输出的权值,w2是LBP图像通道分类输出的权值,w3是关键点图像通道分类输出的权值。具体实施中,若处于光照强度正常的情况,w1设置为0.2,w2设置为0.5,w3设置为0.3,发挥彩色图的优势。若处于光照强度强或弱的情况,w1设置为0.5,w2设置为0.2,w3设置为0.3,发挥深度图的优势。
(6)实时表情识别系统的构建,包括:
获得最终表情识别模型后,加载模型及相关的配置文件构建实时的表情识别系统,用深度相机实时采集用户图像,采用opencv中的Haar-Cascade进行面部区域检测及裁剪,之后对裁剪后的面部彩色图像进行lbp预处理和获取面部关键点及对深度图像进行梯度化预处理,送入最终表情识别模型之中,经前向传播,模型将实时返回表情分类结果。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (8)
1.一种基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,包括:多通道并行卷积神经网络模型的构建步骤,以及实时表情识别两个步骤:所述多通道并行卷积神经网络模型的构建步骤包括:
步骤1:从面部表情数据集中提取人脸表情图像,所述人脸表情图像包含彩色图像和深度图像;
步骤2:对人脸表情图像的彩色图像和深度图像进行预处理操作,将预处理后的深度图像与彩色图像分别分为训练集和测试集两部分并构建多通道并行卷积神经网络,所述多通道并行卷积神经网络包括第一路卷积神经网络、第二路卷积神经网络及第三路卷积神经网络;
步骤3:进行深度学习得到学习了面部表情立体分布特征的深度通道识别模型、学习了面部表情轮廓特征的LBP通道识别模型、学习了面部表情关键点分布的关键点通道识别模型;
所述实时表情识别的步骤包括:
步骤4:将深度通道、LBP通道与关键点通道识别模型的分类结果采用最大置信相融合,获取最终表情识别模型;
步骤5:采用最终表情识别模型构建实时表情识别系统,实时获取用户图片进行表情分类;
所述采用最大置信进行融合,包括:
1),统计深度图像通道的7种基本表情的概率PCDepth(i),基本表情分别为生气、厌恶、害怕、开心、中性、悲伤和惊讶:
PCDepth(i)==w1*CDepth(i)/(w1*CDepth(i)+w2*LCRGB(i)+w3*KCRGB(i)),i=1,2,3,4,5,6,7;
2),统计LBP图像通道的7种基本表情的概率PLCRGB(i):
PLCRGB(i)=w2*LCRGB(i)/(w1*CDepth(i)+w2*LCRGB(i)+w3*KCRGB(i)),i=1,2,3,4,5,6,7;
3),统计关键点图像通道的7种基本表情的概率PKCRGB(i):
PKCRGB(i)=w3*KCRGB(i)/(w1*CDepth(i)+w2*LCRGB(i)+w3*KCRGB(i)),i=1,2,3,4,5,6,7;
4),对比1)、2)、3)中统计结果的大小,具有较高置信度的即为最终表情分类结果:
Result=max{PCDepth(i),PLCRGB(i),PKCRGB(i)},i=1,2,3,4,5,6,7;
其中,w1是深度图像通道分类输出的权值,w2是LBP图像通道分类输出的权值,w3是关键点图像通道分类输出的权值。
2.根据权利要求1所述的基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,所述步骤3具体包括步骤:
将训练集中经过梯度化预处理的深度图像数据送入第一路卷积神经网络中进行训练以提取面部立体分布特征,得到学习了面部表情立体分布特征的深度通道识别模型;
将训练集中经过局部二值化预处理的彩色图像数据送入第二路卷积神经网络中进行训练以提取面部轮廓特征,得到学习了面部表情轮廓特征的LBP通道识别模型;
将训练集中经过提取面部关键点的彩色图像数据送入第三路卷积神经网络中进行训练以提取面部关键点分布特征,得到学习了面部表情关键点分布的关键点通道识别模型。
3.根据权利要求1所述的基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,步骤2面部表情数据集图像的预处理操作,包括:
将面部表情数据集中的原始像素为256×256的所有表情以中心点为基准裁剪128×128图像区域,面部表情主要由面部肌肉轮廓组合而成,对彩色图像采用局部二值化方法来提取面部轮廓特征,采用提取关键点分布的方式获取面部几何分布特征,对深度图像采用去除背景及梯度化处理。
4.根据权利要求3所述的基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,所述步骤2的第一路卷积神经网络、第二路卷积神经网络及第三路卷积神经网络分别为:深度图像通道、LBP图像通道与关键点通道,分别对不同输入下的面部表情特征进行提取,每个单路卷积神经网络的结构相同,包括5个卷积层,3个全连接层,最后为softmax层,具体如下:
第1层为卷积一层,有96个卷积核,大小为7×7×96;第2层为最大池化层,大小为3×3;第3层为卷积二层,有256个卷积核,大小为5×5×256;第4层为最大池化层,大小为2×2;第5层为卷积三层,有512个卷积核,大小为3×3×512;第6层为卷积四层,有512个卷积核,大小为3×3×512;第7层为卷积五层,有512个卷积核,大小为3×3×512;第8层为最大池化层,大小为3×3;后面三层为全连接层,分别为FC6,FC7,FC8。
5.根据权利要求4所述的基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,所述第一路卷积神经网络、第二路卷积神经网络及第三路卷积神经网络采用深度学习框架caffe实现,通过深度学习中finetune的方式对每个单路卷积神经网络进行训练以获取网络识别模型,包含网络参数初始化和训练参数设置;在网络参数初始化时,采用模型的前8层网络权值参数进行参数初始化,后三层全连接层的参数则采用随机初始化的方式;关于训练参数设置,网络训练时,由实际输出与样本期望输出计算而得的损失函数将不断更新网络权值参数。
6.根据权利要求5所述的基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,所述步骤4将深度通道、LBP通道与关键点通道识别模型的分类结果采用最大置信相融合,获取最终表情识别模型,具体包括:通过最大置信融合深度通道、LBP通道与关键点通道识别模型的分类结果,对三者分配不同的权重之后求置信度,置信度最大值对应的分类结果即为最终输出的表情识别结果。
7.根据权利要求6所述的基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,获得最终表情识别模型后,加载模型及相关的配置文件构建实时的表情识别系统,用深度相机实时采集用户图像,采用opencv中的Haar-Cascade进行面部区域检测及裁剪,之后对裁剪后的面部彩色图像进行lbp预处理和获取面部关键点及对深度图像进行梯度化预处理,送入最终表情识别模型之中,经前向传播,模型将实时返回表情分类结果。
8.根据权利要求6所述的基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,所述面部表情数据集还包括设置感兴趣区域得到训练数据,包括:采用图像处理中的裁剪、镜像、遮罩、中心聚焦方式,先进行人脸检测提取人脸,保留头部区域,让鼻尖近似处于图像中心位置,确保不同面部的ROI区域不出现大的偏差;裁剪方式重点关注眼、鼻、嘴在不同表情中的区别,镜像方式考虑了拍摄角度的不同,遮罩方式是对裁剪方式的补充。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710537921.5A CN107491726B (zh) | 2017-07-04 | 2017-07-04 | 一种基于多通道并行卷积神经网络的实时表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710537921.5A CN107491726B (zh) | 2017-07-04 | 2017-07-04 | 一种基于多通道并行卷积神经网络的实时表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107491726A CN107491726A (zh) | 2017-12-19 |
CN107491726B true CN107491726B (zh) | 2020-08-04 |
Family
ID=60644535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710537921.5A Active CN107491726B (zh) | 2017-07-04 | 2017-07-04 | 一种基于多通道并行卷积神经网络的实时表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107491726B (zh) |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108111768B (zh) * | 2018-01-31 | 2020-09-22 | Oppo广东移动通信有限公司 | 控制对焦的方法、装置、电子设备及计算机可读存储介质 |
CN108304823B (zh) * | 2018-02-24 | 2022-03-22 | 重庆邮电大学 | 一种基于双卷积cnn和长短时记忆网络的表情识别方法 |
CN108446617B (zh) | 2018-03-09 | 2022-04-22 | 华南理工大学 | 抗侧脸干扰的人脸快速检测方法 |
CN108764024B (zh) * | 2018-04-09 | 2020-03-24 | 平安科技(深圳)有限公司 | 人脸识别模型的生成装置、方法及计算机可读存储介质 |
CN108537194A (zh) * | 2018-04-17 | 2018-09-14 | 谭红春 | 一种基于深度学习和svm的肝豆状核变性患者的表情识别方法 |
CN108615010B (zh) * | 2018-04-24 | 2022-02-11 | 重庆邮电大学 | 基于平行卷积神经网络特征图融合的人脸表情识别方法 |
CN108846419A (zh) * | 2018-05-25 | 2018-11-20 | 平安科技(深圳)有限公司 | 单页高负载图像识别方法、装置、计算机设备及存储介质 |
CN108875593A (zh) * | 2018-05-28 | 2018-11-23 | 上海交通大学 | 基于卷积神经网络的可见光图像天气识别方法 |
CN108491835B (zh) * | 2018-06-12 | 2021-11-30 | 常州大学 | 面向面部表情识别的双通道卷积神经网络 |
CN108961245A (zh) * | 2018-07-06 | 2018-12-07 | 西安电子科技大学 | 基于双通道深度并行卷积网络的图像质量分类方法 |
CN109034069B (zh) * | 2018-07-27 | 2021-04-09 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN110866426A (zh) * | 2018-08-28 | 2020-03-06 | 天津理工大学 | 基于光场相机和深度学习的行人识别方法 |
CN110866425A (zh) * | 2018-08-28 | 2020-03-06 | 天津理工大学 | 基于光场相机和深度迁移学习的行人识别方法 |
CN109145877A (zh) * | 2018-09-29 | 2019-01-04 | 北京达佳互联信息技术有限公司 | 图像分类方法、装置、电子设备及存储介质 |
CN110971837B (zh) * | 2018-09-30 | 2021-07-27 | Tcl科技集团股份有限公司 | 基于ConvNets的暗光图像处理方法及终端设备 |
CN109376625A (zh) * | 2018-10-10 | 2019-02-22 | 东北大学 | 一种基于卷积神经网络的面部表情识别方法 |
CN109635636B (zh) * | 2018-10-30 | 2023-05-09 | 国家新闻出版广电总局广播科学研究院 | 基于属性特征和加权的分块特征相融合的行人再识别方法 |
CN109522872A (zh) * | 2018-12-04 | 2019-03-26 | 西安电子科技大学 | 一种人脸识别方法、装置、计算机设备及存储介质 |
CN111291780A (zh) * | 2018-12-07 | 2020-06-16 | 深圳光启空间技术有限公司 | 一种跨域网络训练及图像识别方法 |
CN109684972A (zh) * | 2018-12-18 | 2019-04-26 | 贵州大学 | 一种无人智能监护系统 |
CN109635778B (zh) * | 2018-12-25 | 2020-01-03 | 北京心法科技有限公司 | 适于特殊人群的风险行为监测预警方法及系统 |
CN109543659B (zh) * | 2018-12-25 | 2020-03-31 | 北京心法科技有限公司 | 适于老年用户的风险行为监测预警方法及系统 |
CN109711356B (zh) * | 2018-12-28 | 2023-11-10 | 广州海昇教育科技有限责任公司 | 一种表情识别方法和系统 |
CN109753938B (zh) * | 2019-01-10 | 2021-11-05 | 京东方科技集团股份有限公司 | 图像识别方法和设备及应用、神经网络的训练方法 |
CN109766559B (zh) * | 2019-01-11 | 2023-09-05 | 沈阳舞指科技有限公司 | 一种手语识别翻译系统及其识别方法 |
CN109948467A (zh) * | 2019-02-28 | 2019-06-28 | 中国科学院深圳先进技术研究院 | 人脸识别的方法、装置、计算机设备和存储介质 |
CN110110662A (zh) * | 2019-05-07 | 2019-08-09 | 济南大学 | 驾驶场景下驾驶员眼动行为检测方法、系统、介质及设备 |
CN110287990A (zh) * | 2019-05-21 | 2019-09-27 | 山东大学 | 微型藻类图像分类方法、系统、设备及存储介质 |
CN110189769B (zh) * | 2019-05-23 | 2021-11-19 | 复钧智能科技(苏州)有限公司 | 基于多个卷积神经网络模型结合的异常声音检测方法 |
CN110276444B (zh) * | 2019-06-04 | 2021-05-07 | 北京清微智能科技有限公司 | 基于卷积神经网络的图像处理方法及装置 |
CN110276345B (zh) * | 2019-06-05 | 2021-09-17 | 北京字节跳动网络技术有限公司 | 卷积神经网络模型训练方法、装置和计算机可读存储介质 |
CN110287955B (zh) * | 2019-06-05 | 2021-06-22 | 北京字节跳动网络技术有限公司 | 目标区域确定模型训练方法、装置和计算机可读存储介质 |
CN110276346B (zh) * | 2019-06-06 | 2023-10-10 | 北京字节跳动网络技术有限公司 | 目标区域识别模型训练方法、装置和计算机可读存储介质 |
CN110414471B (zh) * | 2019-08-06 | 2022-02-01 | 福建省趋普物联科技有限公司 | 基于双模型的视频识别方法及系统 |
CN112395922A (zh) * | 2019-08-16 | 2021-02-23 | 杭州海康威视数字技术股份有限公司 | 面部动作检测方法、装置及系统 |
CN110555401B (zh) * | 2019-08-26 | 2022-05-03 | 浙江大学 | 一种基于表情识别的自适应情感表达系统及方法 |
CN110705430A (zh) * | 2019-09-26 | 2020-01-17 | 江苏科技大学 | 基于深度学习的多人面部表情识别方法和识别系统 |
CN111028319B (zh) * | 2019-12-09 | 2022-11-15 | 首都师范大学 | 一种基于面部运动单元的三维非真实感表情生成方法 |
CN111193657A (zh) * | 2019-12-12 | 2020-05-22 | 广州啦咔网络科技有限公司 | 聊天表情回复方法、装置及存储介质 |
CN111200564B (zh) * | 2019-12-24 | 2022-09-06 | 大连理工大学 | 一种基于多通道卷积神经网络的高效网络流量识别方法 |
CN111401405B (zh) * | 2020-02-21 | 2023-07-21 | 江苏大学 | 一种多神经网络集成的图像分类方法及系统 |
CN111401442A (zh) * | 2020-03-16 | 2020-07-10 | 中科立业(北京)科技有限公司 | 一种基于深度学习的水果识别方法 |
CN111582067B (zh) * | 2020-04-22 | 2022-11-29 | 西南大学 | 人脸表情识别方法、系统、存储介质、计算机程序、终端 |
CN113657136B (zh) * | 2020-05-12 | 2024-02-13 | 阿里巴巴集团控股有限公司 | 识别方法及装置 |
CN111860451A (zh) * | 2020-08-03 | 2020-10-30 | 宿州小马电子商务有限公司 | 一种基于人脸表情识别的游戏交互方法 |
CN112380898A (zh) * | 2020-09-30 | 2021-02-19 | 深圳点猫科技有限公司 | 一种对直播课中的面部表情进行识别的方法、装置及设备 |
CN112232191B (zh) * | 2020-10-15 | 2023-04-18 | 南京邮电大学 | 基于微表情分析的抑郁症识别系统 |
CN112270277A (zh) * | 2020-11-02 | 2021-01-26 | 湖南长城科技信息有限公司 | 基于人工智能技术的网课在线学生学习行为识别系统 |
TWI757965B (zh) * | 2020-11-10 | 2022-03-11 | 鈊象電子股份有限公司 | 擴增實境體感遊戲機之深度學習方法 |
CN112329683B (zh) * | 2020-11-16 | 2024-01-26 | 常州大学 | 一种多通道卷积神经网络人脸表情识别方法 |
CN112508038B (zh) * | 2020-12-03 | 2022-11-08 | 江苏科技大学 | 一种跨通道局部二值模式的彩色纹理分类方法 |
CN112818161B (zh) * | 2021-02-24 | 2023-03-24 | 西安博达软件股份有限公司 | 基于深度学习的融媒体资源库缩略图识别原图的方法 |
CN112836679B (zh) * | 2021-03-03 | 2022-06-14 | 青岛大学 | 一种基于双模型概率优化的快速表情识别算法和系统 |
CN113158828B (zh) * | 2021-03-30 | 2024-04-09 | 华南理工大学 | 一种基于深度学习的面部情感校准方法及系统 |
CN113221698B (zh) * | 2021-04-29 | 2023-08-15 | 北京科技大学 | 一种基于深度学习和表情识别的面部关键点定位方法 |
CN113792572A (zh) * | 2021-06-17 | 2021-12-14 | 重庆邮电大学 | 一种基于局部表征的面部表情识别方法 |
CN114330454A (zh) * | 2022-01-05 | 2022-04-12 | 东北农业大学 | 一种基于ds证据理论融合特征的生猪咳嗽声音识别方法 |
CN115272768A (zh) * | 2022-08-04 | 2022-11-01 | 腾讯科技(深圳)有限公司 | 内容识别方法、装置、设备、存储介质及计算机程序产品 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104599262A (zh) * | 2014-12-18 | 2015-05-06 | 浙江工业大学 | 基于多通道脉冲耦合神经网络的彩色图像分割技术 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651830A (zh) * | 2016-09-28 | 2017-05-10 | 华南理工大学 | 一种基于并行卷积神经网络的图像质量测试方法 |
CN106682616B (zh) * | 2016-12-28 | 2020-04-21 | 南京邮电大学 | 基于双通道特征深度学习的新生儿疼痛表情识别方法 |
-
2017
- 2017-07-04 CN CN201710537921.5A patent/CN107491726B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104599262A (zh) * | 2014-12-18 | 2015-05-06 | 浙江工业大学 | 基于多通道脉冲耦合神经网络的彩色图像分割技术 |
Non-Patent Citations (1)
Title |
---|
基于手势识别的虚拟环境体感交互控制;蔡林沁,张建荣,刘彬彬;《华中科技大学学报(自然科学版)》;20151031(第S1期);第136-139、165页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107491726A (zh) | 2017-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491726B (zh) | 一种基于多通道并行卷积神经网络的实时表情识别方法 | |
CN108615010B (zh) | 基于平行卷积神经网络特征图融合的人脸表情识别方法 | |
CN109409222B (zh) | 一种基于移动端的多视角人脸表情识别方法 | |
CN109815826B (zh) | 人脸属性模型的生成方法及装置 | |
CN104050471B (zh) | 一种自然场景文字检测方法及系统 | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
CN113496217B (zh) | 视频图像序列中人脸微表情识别方法 | |
CN112784763B (zh) | 基于局部与整体特征自适应融合的表情识别方法及系统 | |
CN109034210A (zh) | 基于超特征融合与多尺度金字塔网络的目标检测方法 | |
CN111291604A (zh) | 面部属性识别方法、装置、存储介质及处理器 | |
CN111967363B (zh) | 一种基于微表情识别和眼动追踪的对情绪预测的方法 | |
KR20160101973A (ko) | 비제약형 매체에 있어서 얼굴을 식별하는 시스템 및 방법 | |
CN111523462A (zh) | 基于自注意增强cnn的视频序列表情识别系统及方法 | |
CN113989890A (zh) | 基于多通道融合和轻量级神经网络的人脸表情识别方法 | |
CN115862120B (zh) | 可分离变分自编码器解耦的面部动作单元识别方法及设备 | |
CN111339935A (zh) | 一种基于可解释cnn图像分类模型的光学遥感图片分类方法 | |
CN109063626A (zh) | 动态人脸识别方法和装置 | |
CN113343860A (zh) | 一种基于视频图像和语音的双模态融合情感识别方法 | |
CN111401116B (zh) | 基于增强卷积和空时lstm网络的双模态情感识别方法 | |
Ghaffar | Facial emotions recognition using convolutional neural net | |
CN111275646B (zh) | 一种基于深度学习知识蒸馏技术的保边图像平滑方法 | |
Sun et al. | General-to-specific learning for facial attribute classification in the wild | |
Tian et al. | A multitask convolutional neural network for artwork appreciation | |
Tu | An integrated framework for image segmentation and perceptual grouping | |
Tunc et al. | Age group and gender classification using convolutional neural networks with a fuzzy logic-based filter method for noise reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |