CN109117750A - 一种基于深度学习的情绪识别方法、系统及电子设备 - Google Patents

一种基于深度学习的情绪识别方法、系统及电子设备 Download PDF

Info

Publication number
CN109117750A
CN109117750A CN201810815113.5A CN201810815113A CN109117750A CN 109117750 A CN109117750 A CN 109117750A CN 201810815113 A CN201810815113 A CN 201810815113A CN 109117750 A CN109117750 A CN 109117750A
Authority
CN
China
Prior art keywords
densexception
module
characteristic pattern
emotion identification
facial expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810815113.5A
Other languages
English (en)
Inventor
邬晶晶
张涌
许强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201810815113.5A priority Critical patent/CN109117750A/zh
Publication of CN109117750A publication Critical patent/CN109117750A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请属于图像分割技术领域,特别涉及一种基于深度学习的情绪识别方法、系统及电子设备。所述基于深度学习的情绪识别方法包括:步骤a:构建基于DenseNet和Xception的DenseXception网络模型;步骤b:将原始图像输入所述DenseXception网络模型,所述DenseXception网络模型分别对原始图像进行面部表情、姿态和语境特征图提取,并对提取的面部表情、姿态和语境特征图进行融合后,联合估计出所述输入图像的离散类别和连续维度;步骤c:根据所述输入图像的离散类别和连续维度输出情绪识别结果。本申请能够从数据中提取到更加鲁棒的特征图,增加模型的泛化能力,让模型能够更加适应复杂的环境,降低单从面部表情学习特征图的不准确性,情绪识别结果更加具有鲁棒性。

Description

一种基于深度学习的情绪识别方法、系统及电子设备
技术领域
本申请属于计算机视觉技术领域,特别涉及一种基于深度学习的情绪识别方法、系统及电子设备。
背景技术
从图像识别人类情绪状态是计算机视觉方向中一个热门的研究领域,在智能生活、心理学研究等方面也有着广泛的应用前景。人类情感是个十分复杂的问题,对于机器来说,不需要弄懂情感的本质,只需要让它理解各种情绪对应的各种信号(面部表情,语音,姿态等)。大多数利用计算机视觉去识别人类情绪的技术都是在面部表情分析的背景下进行的,研究者发现各种各样的方法来识别心理学家们所定义的6种基本情绪(即幸福、惊讶、愤怒、悲伤、恐惧和厌恶)。目前对于人脸表情识别方法有:稀疏表示法、主成分分析和线性判别法、支持向量机、光流对运动特征图的提取、马尔科夫模型、图像匹配等。
近年来,深度学习算法已应用于视觉对象识别、人脸验证和检测、图像分类等诸多问题,取得了最先进的效果。其中基于面部动作编码系统使用一系列特定的面部局部动作,称为动作单元,用来对面部表情进行编码。这些动作单元可以从基于几何图形的特性或从脸部图像中提取的外观特征图来识别,最近的基于面部表情的情感识别的工作使用卷积神经网络来识别情绪和动作单元。
不仅仅是情绪分类技术多种多样,情绪的分类标准上也有不同。文章[Mehrabian.Framework for a comprehensive description and measurement ofemotional states.Genetic,social,and general psychology monographs,1995.]使用了连续维度的VAD情绪状态模型表示情绪,该模型用3个数值维度表示情绪:Valence(词价)衡量情绪积极或愉悦,从消极到积极;Arousal(激励)衡量人的激动程度,从平静到激动;Dominance(支配)衡量一个人的控制水平,从服从到主导或控制,但并没有识别情绪类别。文章[S.Du,Y.Tao,and A.M.Martinez.Compound facial expressionsofemotion.Proceedings of the National Academy of Sciences,111(15):E1454–E1462,2014.]提出一套21种面部表情,定义为基本情绪的不同组合,这种分类提供了更多关于表达情绪的细节。
文章‘结合语境的情绪识别’[Kosti R,Alvarez J M,Recasens A,et al.Emotionrecognition in context[C]//The IEEE Conference on Computer Vision and PatternRecognition(CVPR).2017.]提出结合语境的情绪数据库EMOTIC,并提出情绪识别的端到端模型。该数据库结合两种不同类型的标签:26种情绪分类和3个标准的连续情感维度(Valence、Arousal、Dominance)。该模型由两个特征图提取模块和信息融合网络模块组成,共同估计离散类别和连续的维度。如图1所示,为结合语境识别情绪的端到端模型示意图。图中第一个模块将红框里的图像的区域作为输入,通过被感知的人来估计并提取其最相关的特征图。第二个模块将整个图像作为输入,并提取全局特性,以提供必要的语境支持。最后,第三个模块是一个融合网络,它将从图像和身体中提取的特征图作为输入,并估计离散的类别和连续的维度。这三个模块的参数是共同学习得到的。
综上所述,现有情绪识别方法存在的缺点在于:
一、应用性方面
过去关于情绪识别的研究主要集中在对六种基本类别的研究——幸福、惊讶、愤怒、悲伤、恐惧和厌恶。然而,更多更复杂的情绪状态是存在的,并且经常被人类使用,基于以上6种情绪的情绪识别不够细致、准确。
二、技术性方面
文章‘结合语境的情绪识别’提出的网络结构由两路VGG16模型和全连接层组成,该VGG16模型由16层卷积+Relu(线性整流函数)、5层最大池化和3层全连接+Relu组成,更深的网络意味着更大的计算量,也就更不容易训练,因此存在以下不足:训练非常慢、参数多、计算量大等。
发明内容
本申请提供了一种基于深度学习的情绪识别方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本申请提供了如下技术方案:
一种基于深度学习的情绪识别方法,包括以下步骤:
步骤a:构建基于DenseNet和Xception的DenseXception网络模型;
步骤b:将原始图像输入所述DenseXception网络模型,所述DenseXception网络模型分别对原始图像进行面部表情、姿态和语境特征图提取,并对提取的面部表情、姿态和语境特征图进行融合后,联合估计出所述输入图像的离散类别和连续维度;
步骤c:根据所述输入图像的离散类别和连续维度输出情绪识别结果。
本申请实施例采取的技术方案还包括:在所述步骤a中,所述DenseXception网络模型包括分别用于面部表情、姿态和语境特征图提取的第一DenseXception模块、第二DenseXception模块和第三DenseXception模块,以及用于对提取的面部表情、姿态和语境特征图进行融合后,联合估计离散类别和连续维度的特征融合模块。
本申请实施例采取的技术方案还包括:在所述步骤a中,所述DenseXception网络模型采用DenseNet的跳跃连接方式,所述第一DenseXception模块、第二DenseXception模块和第三DenseXception模块后分别连接一个用于降低特征图数的transformlayer,所述第一DenseXception模块和第二DenseXception模块后还分别连接一个用于减小特征图大小的Averagepooling。
本申请实施例采取的技术方案还包括:所述第一DenseXception模块、第二DenseXception模块和第三DenseXception模块分别包括多个Xception,每个Xception结构为:BN+Relu+1*1卷积层+BN+Relu+线性可分离卷积层。
本申请实施例采取的技术方案还包括:所述特征融合模块对提取的面部表情、姿态、语境特征图进行叠加形成新的特征图,将叠加后的特征图分成两路,所述两路特征图分别采用1*1卷积降低特征图数,此时,所述离散类别的特征图数为26,分别对应于26种情绪,所述连续维度的特征图数为3,分别对应三个连续情感维度;然后,采用one-hot编码方式对所述两路特征图分类进行编码;最后,所述两路特征图分别通过globalpooling进行全局池化,使K*K*26、K*K*3的特征图变为1*1*26和1*1*3的输出结果。
本申请实施例采取的另一技术方案为:一种基于深度学习的情绪识别系统,所述情绪识别系统为基于DenseNet和Xception的DenseXception网络模型;所述DenseXception网络模型包括:
DenseXception模块:用于对输入的原始图像分别进行面部表情、姿态和语境特征图提取;
特征提取模块:用于对提取的面部表情、姿态和语境特征图进行融合后,联合估计出所述输入图像的离散类别和连续维度;
结果输出模块:用于根据所述输入图像的离散类别和连续维度输出情绪识别结果。
本申请实施例采取的技术方案还包括:所述DenseXception模块具体为:用于面部表情特征图提取的第一DenseXception模块、姿态特征图提取的第二DenseXception模块和语境特征图提取的第三DenseXception模块。
本申请实施例采取的技术方案还包括:所述DenseXception网络模型采用DenseNet的跳跃连接方式,所述第一DenseXception模块、第二DenseXception模块和第三DenseXception模块后分别连接一个用于降低特征图数的transformlayer,所述第一DenseXception模块和第二DenseXception模块后还分别连接一个用于减小特征图大小的Averagepooling。
本申请实施例采取的技术方案还包括:所述第一DenseXception模块、第二DenseXception模块和第三DenseXception模块分别包括多个Xception,每个Xception结构为:BN+Relu+1*1卷积层+BN+Relu+线性可分离卷积层。
本申请实施例采取的技术方案还包括:所述特征融合模块对提取的面部表情、姿态、语境特征图进行叠加形成新的特征图,将叠加后的特征图分成两路,所述两路特征图分别采用1*1卷积降低特征图数,此时,所述离散类别的特征图数为26,分别对应于26种情绪,所述连续维度的特征图数为3,分别对应三个连续情感维度;然后,采用one-hot编码方式对所述两路特征图分类进行编码;最后,所述两路特征图分别通过globalpooling进行全局池化,使K*K*26、K*K*3的特征图变为1*1*26和1*1*3的输出结果。
本申请实施例采取的又一技术方案为:一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于深度学习的情绪识别方法的以下操作:
步骤a:构建基于DenseNet和Xception的DenseXception网络模型;
步骤b:将原始图像输入所述DenseXception网络模型,所述DenseXception网络模型分别对原始图像进行面部表情、姿态和语境特征图提取,并对提取的面部表情、姿态和语境特征图进行融合后,联合估计出所述输入图像的离散类别和连续维度;
步骤c:根据所述输入图像的离散类别和连续维度输出情绪识别结果。
相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的基于深度学习的情绪识别方法、系统及电子设备设计了基于DenseNet和Xception相结合的DenseXception网络模型,通过网络模型提取人脸、姿态和语境三个层次的信息共同进行情绪识别,相对于现有技术,本申请具有以下优点:
1、能够从数据中提取到更加鲁棒的特征图,增加模型的泛化能力,让模型能够更加适应复杂的环境,降低单从面部表情学习特征图的不准确性,情绪识别结果更加具有鲁棒性;
2、本申请设计的DenseXception网络模型能够有效的降低网络中的参数量,防止网络过拟合,也能增加网络中特征图的多样性,让网络变得容易训练;
3、本申请使用Xception结构取代传统的卷积神经网络的中的卷积操作,极大的减少了网络中参数量,降低算法的计算量,能够有效的防止网络过拟合;
4、本申请中的DenseXception网络模型采用DenseNet的跳跃连接方式,既能重复利用每个Xception产生的特征图,增加特征的多样性,也能让DenseXception模块中任意两个Xception之间有直接的跳跃连接,可以有效的防止梯度消失的问题,让网络变得容易训练。
附图说明
图1为结合语境识别情绪的端到端模型示意图;
图2是本申请实施例的基于深度学习的情绪识别方法的流程图;
图3为本申请实施例的DenseXception网络模型结构示意图;
图4为本申请实施例的DenseXception模块的结构示意图;
图5为本申请实施例的Xception结构图;
图6是本申请实施例的基于深度学习的情绪识别系统的结构示意图;
图7是本申请实施例提供的基于深度学习的情绪识别方法的硬件设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
每个人都不是孤立的存在,必然在一定的环境中生存,所以环境对人情绪的影响不容忽视。例如,优美的湖光山色令人心情轻松愉悦,而杂乱拥挤的空间则令人心烦意乱。表达情绪的信号包括面部表情、语音、姿态等,在某些场合中,人们可能有意识的隐瞒真实情绪,但肢体动作很难伪装。因此单从面部表情去判断一个人的情绪,则可能产生错误的判断,尤其是在无法观察面部表情时,语境和姿态的观察则显得尤为重要。因此,本申请通过采用DenseNet和Xception网络相结合的DenseXception网络模型,以面部表情、姿态和语境三路信息同时作为DenseXception网络模型的输入进行提取特征图,从而更全面的学习每种情绪下的特征图,更准确地通过图像识别人类的情绪。
具体的,请参阅图2,是本申请实施例的基于深度学习的情绪识别方法的流程图。本申请实施例的基于深度学习的情绪识别方法包括以下步骤:
步骤100:构建基于DenseNet(一种具有密集连接的卷积神经网络)和Xception(一种深度可分离卷积)网络相结合的DenseXception网络模型;
步骤100中,本申请实施例的DenseXception网络模型结构如图3所示。本申请实施例的DenseXception网络模型采用DenseNet的跳跃连接方式,包括三个DenseXception模块(即第一DenseXception模块、第二DenseXception模块和第三DenseXception模块,分别用于面部表情、姿态和语境特征图的提取,DenseXception模块的具体数量可以根据实际应用进行调整)以及一个用于联合估计离散类别和连续维度的特征融合模块两个部分。
步骤200:将原始图像输入DenseXception网络模型,DenseXception网络模型通过第一DenseXception模块、第二DenseXception模块和第三DenseXception模块分别对原始图像进行面部表情、姿态和语境特征图提取,并通过特征融合模块对提取的面部表情、姿态和语境特征图进行融合后,利用标注好的离散类别数据集和连续维度数据集,联合估计出输入图像的离散类别和连续维度;
步骤200中,请一并参阅图4,为本申请实施例的DenseXception模块的结构示意图,各DenseXception模块由Xception取代DenseNet中的卷积层,DenseNet中每一层的输入来自前面所有层的输出。也就是说若有L层,在DenseNet中将会有L(L+1)/2个连接。该结构既能重复利用每个Xception产生的特征图,增加特征图的多样性,也能让各DenseXception模块中任意两个Xception之间有直接的跳跃连接,不再需要经过中间的Xception。图4所示的5层Xception的连接数为15,增长率为R,那么对应输入特征图数为N的DenseXception模块的输出特征图数为N+R4。这种跳跃连接方式使得每一层都可以直接接收到损失函数对原始输入特征图的梯度,从而形成一种隐式的深层次的监督学。该结构使得网络更窄,参数更少,可以有效的防止梯度消失的问题,使梯度和特征图的传递更加有效,网络更加容易训练。
如图5所示,为本申请实施例的Xception结构图。第一DenseXception模块、第二DenseXception模块和第三DenseXception模块分别包括多个Xception,Xception由一个1*1卷积层和一个线性可分离卷积层组成,每个Xception结构为:BN(批标准化)+Relu+1*1卷积层+BN+Relu+线性可分离卷积层。图5中,输入通道数2N输出通道为M,通过1*1卷积层降低通道数至N,再通过线性可分离卷积层,共N个分支,每个分支的参数量为3*3*N*M/N,然后对每个分支产生的输出特征图叠加,最后叠加为M个通道。例如,当使用传统的3*3卷积时,假设输入通道为32,输出通道为64,则该卷积的产生的参数量为3*3*32*64=18432。而使用Xception结构时,在1*1卷积层产生的参数量为1*1*32*16=512,在线性可分离卷积层每一个分支产生的参数量为3*3*1*4=36,分支数为16个,则该层产生的参数量为36*16=576。可见在相同输入和输出的情况下,传统卷积参数量是Xception参数量的18432/(512+576)≈17倍,能够极大程度的减少网络中的参数量,降低算法的计算量,能够有效地防止过拟合。
本申请实施例中,由于DenseXception网络模型的跳跃连接方式可以使特征图通道数快速增长,因此,在第一DenseXception模块、第二DenseXception模块和第三DenseXception模块后分别连接一个transformlayer(特征变换层),并在第一DenseXception模块和第二DenseXception模块后分别连接一个2x2的Averagepooling(平均池化);transformlayer是一个1*1的卷积层,能够降低特征图数,很好的控制提取的特征图数不会成指数增长,也能对不同通道的特征图进行融合,提高网络的性能,通过Transformlayer之后的特征图通道数为N/t(t>1);Averagepooling能减小特征图的大小,一方面能降低计算量,另一方面可以增强网络的泛化性。例如,设置输入的原始图像大小为384*384,假设在第一DenseXception模块的输出通道为N,则输出特征图大小为384*384*N,此时保存特征图所需的显存较大,计算量也大,因此在第一DenseXception模块后通过一个2x2的Averagepooling使得特征图大小变为384/a*384/a(a>1),至此,特征图大小将减小a*a*t倍,从而减小网络的计算量,这有助于降低算法对设备计算能力的要求,减少成本,让算法容易部署到更加多样的计算设备上,增加算法的通用性。由于第三DenseXception模块输出的特征图大小已经缩减的足够小,因此在第三DenseXception模块后无需加上Averagepooling。
特征融合模块对提取的面部表情、姿态、语境特征图进行叠加形成新的特征图,因为该数据集分为离散类别数据集和连续维度数据集两种不同的标签,叠加后的特征图分成两路,两路特征图分别采用1*1卷积降低特征图数,此时,离散类别的特征图数为26,分别对应于26种情绪;连续维度的特征图数为3,分别对应VAD情绪状态模型的三个连续情感维度,数据库中的连续维度标注在[1,10]范围内。然后,采用one-hot(独热)编码方式对特征图分类进行编码;最后,两路特征图分别通过globalpooling(全局池化)进行全局池化,使原先K*K*26、K*K*3的特征图变为1*1*26和1*1*3的输出结果。
其中,离散类别的分类及其定义如下表1所示:
表1:26种情绪分类及其定义
1.平静:幸福和放松;不担心;有积极的想法或感觉;满意 14.疲劳:厌倦;疲倦;困乏
2.喜爱:喜欢的感觉;爱;柔情 15.窘迫:感到羞愧或内疚
3.尊敬:赞赏的观点或判断的感觉;尊重;敬仰;感激 16.向往:强烈渴望拥有某物;嫉妒;羡慕;欲望
4.期望:期待的状态;希望或为未来可能发生的事件做好准备 17.反对:感觉某事是错误的或应受谴责的;蔑视;充满敌意
5.诺言:对某事物的关注;全神贯注于某事物;好奇的;感兴趣 18.厌恶:感到恶心;不喜欢;排斥;感觉讨厌
6.自信:被肯定的感觉;确信结果将被支持;支持;自豪的 19.烦恼:被某事或某人困扰;恼怒的;不耐烦;沮丧
7.幸福:感到高兴;感到快乐和喜悦 20.愤怒:强烈的不满或发怒;狂怒的;厌恶的
8.高兴:愉悦的感觉 21.敏感:身体上或精神上受伤的感觉;感觉微妙的或脆弱的
9.兴奋:感觉热情;刺激;精力充沛的 22.悲伤:感到不快乐、懊悔、失望或沮丧
10.惊讶:突然发现一些意想不到的事情 23.不安:紧张;担心;心烦意乱;焦虑的;紧绷;压力;焦虑
11.同情:感受他人情绪的状态;目标或烦恼;支持;富有同情心的 24.恐惧:感到怀疑或害怕危险、威胁、邪恶或痛苦;恐怖
12.怀疑/困惑:难以理解或决定;考虑不同的选择 25.疼痛:身体的痛苦
13.断片:对周围的主要事件不感兴趣;漠不关心;无趣;心烦意乱 26.痛苦:心理或情感上的痛苦;困苦的;极度痛苦的
步骤300:根据输入图像的离散类别和连续维度输出情绪识别结果。
步骤300中,本申请通过使用面部表情、姿态、语境三个层次的信息共同进行情绪识别,使网络从多方面学习每种情绪所传达的信号,降低了单从面部表情学习特征图的不准确性,情绪识别结果更加具有鲁棒性。
请参阅图6,是本申请实施例的基于深度学习的情绪识别系统的结构示意图。本申请实施例的基于深度学习的情绪识别系统为基于DenseNet和Xception网络相结合的DenseXception网络模型,DenseXception网络模型包括第一DenseXception模块、第二DenseXception模块、第三DenseXception模块、特征融合模块以及结果输出模块;将原始图像输入DenseXception网络模型后,通过第一DenseXception模块、第二DenseXception模块和第三DenseXception模块分别对原始图像进行面部表情、姿态和语境特征图提取,并通过特征融合模块对提取的面部表情、姿态和语境特征图进行融合后,利用标注好的离散类别数据集和连续维度数据集,联合估计出输入图像的离散类别和连续维度,结果输出模块根据输入图像的离散类别和连续维度输出情绪识别结果。
具体地,本申请实施例的DenseXception网络模型采用DenseNet的跳跃连接方式,各DenseXception模块由Xception取代DenseNet中的卷积层,DenseNet中每一层的输入来自前面所有层的输出。也就是说若有L层,在DenseNet中将会有L(L+1)/2个连接。该结构既能重复利用每个Xception产生的特征图,增加特征图的多样性,也能让各DenseXception模块中任意两个Xception之间有直接的跳跃连接,不再需要经过中间的Xception。图4所示的5层Xception的连接数为15,增长率为R,那么对应输入特征图数为N的DenseXception模块的输出特征图数为N+R4。这种跳跃连接方式使得每一层都可以直接接收到损失函数对原始输入特征图的梯度,从而形成一种隐式的深层次的监督学。该结构使得网络更窄,参数更少,可以有效的防止梯度消失的问题,使梯度和特征图的传递更加有效,网络更加容易训练。
第一DenseXception模块、第二DenseXception模块和第三DenseXception模块分别包括多个Xception,Xception由一个1*1卷积层和一个线性可分离卷积层组成,每个Xception结构为:BN(批标准化)+Relu+1*1卷积层+BN+Relu+线性可分离卷积层。如图5所示,输入通道数2N输出通道为M,通过1*1卷积层降低通道数至N,再通过线性可分离卷积层,共N个分支,每个分支的参数量为3*3*N*M/N,然后对每个分支产生的输出特征图叠加,最后叠加为M个通道。例如,当使用传统的3*3卷积时,假设输入通道为32,输出通道为64,则该卷积的产生的参数量为3*3*32*64=18432。而使用Xception结构时,在1*1卷积层产生的参数量为1*1*32*16=512,在线性可分离卷积层每一个分支产生的参数量为3*3*1*4=36,分支数为16个,则该层产生的参数量为36*16=576。可见在相同输入和输出的情况下,传统卷积参数量是Xception参数量的18432/(512+576)≈17倍,能够极大程度的减少网络中的参数量,降低算法的计算量,能够有效地防止过拟合。
本申请实施例中,由于DenseXception网络模型的跳跃连接方式可以使特征图通道数快速增长,因此,在第一DenseXception模块、第二DenseXception模块和第三DenseXception模块后分别连接一个transformlayer(特征变换层),并在第一DenseXception模块和第二DenseXception模块后分别连接一个2x2的Averagepooling(平均池化);transformlayer是一个1*1的卷积层,能够降低特征图数,很好的控制提取的特征图数不会成指数增长,也能对不同通道的特征图进行融合,提高网络的性能,通过Transformlayer之后的特征图通道数为N/t(t>1);Averagepooling能减小特征图的大小,一方面能降低计算量,另一方面可以增强网络的泛化性。例如,设置输入的原始图像大小为384*384,假设在第一DenseXception模块的输出通道为N,则输出特征图大小为384*384*N,此时保存特征图所需的显存较大,计算量也大,因此在第一DenseXception模块后通过一个2x2的Averagepooling使得特征图大小变为384/a*384/a(a>1),至此,特征图大小将减小a*a*t倍,从而减小网络的计算量,这有助于降低算法对设备计算能力的要求,减少成本,让算法容易部署到更加多样的计算设备上,增加算法的通用性。由于最后一个DenseXception模块输出的特征图大小已经缩减的足够小,因此在最后一个DenseXception模块后无需加上Averagepooling。
特征融合模块对提取的面部表情、姿态、语境特征图进行叠加形成新的特征图,因为该数据集分为离散类别数据集和连续维度数据集两种不同的标签,叠加后的特征图分成两路,两路特征图分别采用1*1卷积降低特征图数,此时,离散类别的特征图数为26,分别对应于26种情绪;连续维度的特征图数为3,分别对应VAD情绪状态模型的三个连续情感维度,数据库中的连续维度标注在[1,10]范围内。然后,采用one-hot(独热)编码方式对特征图分类进行编码;最后,两路特征图分别通过globalpooling(全局池化)进行全局池化,使原先K*K*26、K*K*3的特征图变为1*1*26和1*1*3的输出结果。
其中,离散类别的分类及其定义如下表1所示:
表1:26种情绪分类及其定义
图7是本申请实施例提供的基于深度学习的情绪识别方法的硬件设备结构示意图。如图7所示,该设备包括一个或多个处理器以及存储器。以一个处理器为例,该设备还可以包括:输入系统和输出系统。
处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的处理方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入系统可接收输入的数字或字符信息,以及产生信号输入。输出系统可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个处理器执行时,执行上述任一方法实施例的以下操作:
步骤a:构建基于DenseNet和Xception的DenseXception网络模型;
步骤b:将原始图像输入所述DenseXception网络模型,所述DenseXception网络模型分别对原始图像进行面部表情、姿态和语境特征图提取,并对提取的面部表情、姿态和语境特征图进行融合后,联合估计出所述输入图像的离散类别和连续维度;
步骤c:根据所述输入图像的离散类别和连续维度输出情绪识别结果。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例提供的方法。
本申请实施例提供了一种非暂态(非易失性)计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行以下操作:
步骤a:构建基于DenseNet和Xception的DenseXception网络模型;
步骤b:将原始图像输入所述DenseXception网络模型,所述DenseXception网络模型分别对原始图像进行面部表情、姿态和语境特征图提取,并对提取的面部表情、姿态和语境特征图进行融合后,联合估计出所述输入图像的离散类别和连续维度;
步骤c:根据所述输入图像的离散类别和连续维度输出情绪识别结果。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行以下操作:
步骤a:构建基于DenseNet和Xception的DenseXception网络模型;
步骤b:将原始图像输入所述DenseXception网络模型,所述DenseXception网络模型分别对原始图像进行面部表情、姿态和语境特征图提取,并对提取的面部表情、姿态和语境特征图进行融合后,联合估计出所述输入图像的离散类别和连续维度;
步骤c:根据所述输入图像的离散类别和连续维度输出情绪识别结果。
本申请实施例的基于深度学习的情绪识别方法、系统及电子设备设计了基于DenseNet和Xception相结合的DenseXception网络模型,通过网络模型提取人脸、姿态和语境三个层次的信息共同进行情绪识别,相对于现有技术,本申请具有以下优点:
1、能够从数据中提取到更加鲁棒的特征图,增加模型的泛化能力,让模型能够更加适应复杂的环境,降低单从面部表情学习特征图的不准确性,情绪识别结果更加具有鲁棒性;
2、本申请设计的DenseXception网络模型能够有效的降低网络中的参数量,防止网络过拟合,也能增加网络中特征图的多样性,让网络变得容易训练;
3、本申请使用Xception结构取代传统的卷积神经网络的中的卷积操作,极大的减少了网络中参数量,降低算法的计算量,能够有效的防止网络过拟合;
4、本申请中的DenseXception网络模型采用DenseNet的跳跃连接方式,既能重复利用每个Xception产生的特征图,增加特征的多样性,也能让DenseXception模块中任意两个Xception之间有直接的跳跃连接,可以有效的防止梯度消失的问题,让网络变得容易训练。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本申请所示的这些实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种基于深度学习的情绪识别方法,其特征在于,包括以下步骤:
步骤a:构建基于DenseNet和Xception的DenseXception网络模型;
步骤b:将原始图像输入所述DenseXception网络模型,所述DenseXception网络模型分别对原始图像进行面部表情、姿态和语境特征图提取,并对提取的面部表情、姿态和语境特征图进行融合后,联合估计出所述输入图像的离散类别和连续维度;
步骤c:根据所述输入图像的离散类别和连续维度输出情绪识别结果。
2.根据权利要求1所述的基于深度学习的情绪识别方法,其特征在于,在所述步骤a中,所述DenseXception网络模型包括分别用于面部表情、姿态和语境特征图提取的第一DenseXception模块、第二DenseXception模块和第三DenseXception模块,以及用于对提取的面部表情、姿态和语境特征图进行融合后,联合估计离散类别和连续维度的特征融合模块。
3.根据权利要求2所述的基于深度学习的情绪识别方法,其特征在于,在所述步骤a中,所述DenseXception网络模型采用DenseNet的跳跃连接方式,所述第一DenseXception模块、第二DenseXception模块和第三DenseXception模块后分别连接一个用于降低特征图数的transformlayer,所述第一DenseXception模块和第二DenseXception模块后还分别连接一个用于减小特征图大小的Averagepooling。
4.根据权利要求3所述的基于深度学习的情绪识别方法,其特征在于,所述第一DenseXception模块、第二DenseXception模块和第三DenseXception模块分别包括多个Xception,每个Xception结构为:BN+Relu+1*1卷积层+BN+Relu+线性可分离卷积层。
5.根据权利要求2所述的基于深度学习的情绪识别方法,其特征在于,所述特征融合模块对提取的面部表情、姿态、语境特征图进行叠加形成新的特征图,将叠加后的特征图分成两路,所述两路特征图分别采用1*1卷积降低特征图数,此时,所述离散类别的特征图数为26,分别对应于26种情绪,所述连续维度的特征图数为3,分别对应三个连续情感维度;然后,采用one-hot编码方式对所述两路特征图分类进行编码;最后,所述两路特征图分别通过globalpooling进行全局池化,使K*K*26、K*K*3的特征图变为1*1*26和1*1*3的输出结果。
6.一种基于深度学习的情绪识别系统,其特征在于,所述情绪识别系统为基于DenseNet和Xception的DenseXception网络模型;所述DenseXception网络模型包括:
DenseXception模块:用于对输入的原始图像分别进行面部表情、姿态和语境特征图提取;
特征提取模块:用于对提取的面部表情、姿态和语境特征图进行融合后,联合估计出所述输入图像的离散类别和连续维度;
结果输出模块:用于根据所述输入图像的离散类别和连续维度输出情绪识别结果。
7.根据权利要求6所述的基于深度学习的情绪识别系统,其特征在于,所述DenseXception模块具体为:用于面部表情特征图提取的第一DenseXception模块、姿态特征图提取的第二DenseXception模块和语境特征图提取的第三DenseXception模块。
8.根据权利要求7所述的基于深度学习的情绪识别系统,其特征在于,所述DenseXception网络模型采用DenseNet的跳跃连接方式,所述第一DenseXception模块、第二DenseXception模块和第三DenseXception模块后分别连接一个用于降低特征图数的transformlayer,所述第一DenseXception模块和第二DenseXception模块后还分别连接一个用于减小特征图大小的Averagepooling。
9.根据权利要求8所述的基于深度学习的情绪识别系统,其特征在于,所述第一DenseXception模块、第二DenseXception模块和第三DenseXception模块分别包括多个Xception,每个Xception结构为:BN+Relu+1*1卷积层+BN+Relu+线性可分离卷积层。
10.根据权利要求6所述的基于深度学习的情绪识别系统,其特征在于,所述特征融合模块对提取的面部表情、姿态、语境特征图进行叠加形成新的特征图,将叠加后的特征图分成两路,所述两路特征图分别采用1*1卷积降低特征图数,此时,所述离散类别的特征图数为26,分别对应于26种情绪,所述连续维度的特征图数为3,分别对应三个连续情感维度;然后,采用one-hot编码方式对所述两路特征图分类进行编码;最后,所述两路特征图分别通过globalpooling进行全局池化,使K*K*26、K*K*3的特征图变为1*1*26和1*1*3的输出结果。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述1至5任一项所述的基于深度学习的情绪识别方法的以下操作:
步骤a:构建基于DenseNet和Xception的DenseXception网络模型;
步骤b:将原始图像输入所述DenseXception网络模型,所述DenseXception网络模型分别对原始图像进行面部表情、姿态和语境特征图提取,并对提取的面部表情、姿态和语境特征图进行融合后,联合估计出所述输入图像的离散类别和连续维度;
步骤c:根据所述输入图像的离散类别和连续维度输出情绪识别结果。
CN201810815113.5A 2018-07-24 2018-07-24 一种基于深度学习的情绪识别方法、系统及电子设备 Pending CN109117750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810815113.5A CN109117750A (zh) 2018-07-24 2018-07-24 一种基于深度学习的情绪识别方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810815113.5A CN109117750A (zh) 2018-07-24 2018-07-24 一种基于深度学习的情绪识别方法、系统及电子设备

Publications (1)

Publication Number Publication Date
CN109117750A true CN109117750A (zh) 2019-01-01

Family

ID=64863012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810815113.5A Pending CN109117750A (zh) 2018-07-24 2018-07-24 一种基于深度学习的情绪识别方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN109117750A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949824A (zh) * 2019-01-24 2019-06-28 江南大学 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法
CN110135251A (zh) * 2019-04-09 2019-08-16 上海电力学院 一种基于注意力机制和混合网络的群体图像情绪识别方法
CN110147729A (zh) * 2019-04-16 2019-08-20 深圳壹账通智能科技有限公司 用户情绪识别方法、装置、计算机设备及存储介质
CN110189282A (zh) * 2019-05-09 2019-08-30 西北工业大学 基于密集和跳跃连接深度卷积网络的多光谱和全色图像融合方法
CN110197143A (zh) * 2019-05-17 2019-09-03 深兰科技(上海)有限公司 一种结算台物品识别方法、装置及电子设备
CN110555379A (zh) * 2019-07-30 2019-12-10 华南理工大学 一种根据性别动态调整特征的人脸愉悦度估计方法
CN110598587A (zh) * 2019-08-27 2019-12-20 汇纳科技股份有限公司 结合弱监督的表情识别网络训练方法、系统、介质及终端
CN110991427A (zh) * 2019-12-25 2020-04-10 北京百度网讯科技有限公司 用于视频的情绪识别方法、装置和计算机设备
CN112259075A (zh) * 2020-10-10 2021-01-22 腾讯科技(深圳)有限公司 语音信号处理方法、装置、电子设备和存储介质
CN112784631A (zh) * 2019-11-06 2021-05-11 广东毓秀科技有限公司 一种基于深度神经网络进行人脸情绪识别的方法
CN112990077A (zh) * 2021-04-02 2021-06-18 中国矿业大学 基于联合学习与光流估计的面部动作单元识别方法及装置
CN113076905A (zh) * 2021-04-16 2021-07-06 华南理工大学 一种基于上下文交互关系的情绪识别方法
CN113255557A (zh) * 2021-06-08 2021-08-13 汪知礼 一种基于深度学习的视频人群情绪分析方法及系统
CN113361969A (zh) * 2021-07-07 2021-09-07 北京容联七陌科技有限公司 一种灵活可配置模板的智能质检系统
CN114170540A (zh) * 2020-08-21 2022-03-11 四川大学 一种融合表情和姿态的个体情绪识别方法
CN117473304A (zh) * 2023-12-28 2024-01-30 天津大学 多模态图像标注方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650621A (zh) * 2016-11-18 2017-05-10 广东技术师范学院 一种基于深度学习的情绪识别方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650621A (zh) * 2016-11-18 2017-05-10 广东技术师范学院 一种基于深度学习的情绪识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSLIUDH: "keras实现densenet和Xception的模型融合", 《CSDNHTTPS://BLOG.CSDN.NET/QQ_19332527/ARTICLE/DETAILS/79829087》 *
RONAK KOSTI等: "Emotion Recognition in Context", 《IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949824B (zh) * 2019-01-24 2021-08-03 江南大学 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法
CN109949824A (zh) * 2019-01-24 2019-06-28 江南大学 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法
CN110135251A (zh) * 2019-04-09 2019-08-16 上海电力学院 一种基于注意力机制和混合网络的群体图像情绪识别方法
CN110135251B (zh) * 2019-04-09 2023-08-08 上海电力学院 一种基于注意力机制和混合网络的群体图像情绪识别方法
CN110147729A (zh) * 2019-04-16 2019-08-20 深圳壹账通智能科技有限公司 用户情绪识别方法、装置、计算机设备及存储介质
CN110189282A (zh) * 2019-05-09 2019-08-30 西北工业大学 基于密集和跳跃连接深度卷积网络的多光谱和全色图像融合方法
CN110197143A (zh) * 2019-05-17 2019-09-03 深兰科技(上海)有限公司 一种结算台物品识别方法、装置及电子设备
CN110197143B (zh) * 2019-05-17 2021-09-24 深兰科技(上海)有限公司 一种结算台物品识别方法、装置及电子设备
CN110555379B (zh) * 2019-07-30 2022-03-25 华南理工大学 一种根据性别动态调整特征的人脸愉悦度估计方法
CN110555379A (zh) * 2019-07-30 2019-12-10 华南理工大学 一种根据性别动态调整特征的人脸愉悦度估计方法
CN110598587B (zh) * 2019-08-27 2022-05-13 汇纳科技股份有限公司 结合弱监督的表情识别网络训练方法、系统、介质及终端
CN110598587A (zh) * 2019-08-27 2019-12-20 汇纳科技股份有限公司 结合弱监督的表情识别网络训练方法、系统、介质及终端
CN112784631A (zh) * 2019-11-06 2021-05-11 广东毓秀科技有限公司 一种基于深度神经网络进行人脸情绪识别的方法
CN110991427A (zh) * 2019-12-25 2020-04-10 北京百度网讯科技有限公司 用于视频的情绪识别方法、装置和计算机设备
CN114170540A (zh) * 2020-08-21 2022-03-11 四川大学 一种融合表情和姿态的个体情绪识别方法
CN114170540B (zh) * 2020-08-21 2023-06-13 四川大学 一种融合表情和姿态的个体情绪识别方法
CN112259075A (zh) * 2020-10-10 2021-01-22 腾讯科技(深圳)有限公司 语音信号处理方法、装置、电子设备和存储介质
CN112990077A (zh) * 2021-04-02 2021-06-18 中国矿业大学 基于联合学习与光流估计的面部动作单元识别方法及装置
CN113076905A (zh) * 2021-04-16 2021-07-06 华南理工大学 一种基于上下文交互关系的情绪识别方法
CN113255557A (zh) * 2021-06-08 2021-08-13 汪知礼 一种基于深度学习的视频人群情绪分析方法及系统
CN113255557B (zh) * 2021-06-08 2023-08-15 苏州优柿心理咨询技术有限公司 一种基于深度学习的视频人群情绪分析方法及系统
CN113361969A (zh) * 2021-07-07 2021-09-07 北京容联七陌科技有限公司 一种灵活可配置模板的智能质检系统
CN113361969B (zh) * 2021-07-07 2022-03-08 北京容联七陌科技有限公司 一种灵活可配置模板的智能质检系统
CN117473304A (zh) * 2023-12-28 2024-01-30 天津大学 多模态图像标注方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109117750A (zh) 一种基于深度学习的情绪识别方法、系统及电子设备
Kruthiventi et al. Deepfix: A fully convolutional neural network for predicting human eye fixations
Li et al. CNN and LSTM based facial expression analysis model for a humanoid robot
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及系统
Zhu et al. Multimodal gesture recognition using 3-D convolution and convolutional LSTM
Zhou et al. Photorealistic facial expression synthesis by the conditional difference adversarial autoencoder
Shrivastava et al. Contextual priming and feedback for faster r-cnn
Zhang et al. Multimodal learning for facial expression recognition
US20190034814A1 (en) Deep multi-task representation learning
Zanfir et al. Spatio-temporal attention models for grounded video captioning
Wen et al. Multi-level knowledge injecting for visual commonsense reasoning
Ghosh et al. Predicting group cohesiveness in images
Gao et al. Graph reasoning-based emotion recognition network
Rahul et al. A new hybrid approach for efficient emotion recognition using deep learning
Verma et al. Non-linearities improve originet based on active imaging for micro expression recognition
Thuseethan et al. EmoSeC: Emotion recognition from scene context
Deng et al. Dynamic facial expression recognition based on deep learning
Shahid et al. SqueezExpNet: Dual-stage convolutional neural network for accurate facial expression recognition with attention mechanism
Zheng et al. Two birds with one stone: Knowledge-embedded temporal convolutional transformer for depression detection and emotion recognition
Zhang et al. Multimodal emotion recognition by extracting common and modality-specific information
Rokhsaritalemi et al. Exploring emotion analysis using artificial intelligence, geospatial information systems, and extended reality for urban services
Yang et al. A Robust driver emotion recognition method based on high-purity feature separation
Panda et al. Modified ResNet-152 network with hybrid pyramidal pooling for local change detection
ALISAWI et al. Real-Time Emotion Recognition Using Deep Learning Methods: Systematic Review
Wang et al. Deep learning (DL)-enabled system for emotional big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190101

RJ01 Rejection of invention patent application after publication