CN110175596B - 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法 - Google Patents

基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法 Download PDF

Info

Publication number
CN110175596B
CN110175596B CN201910481703.3A CN201910481703A CN110175596B CN 110175596 B CN110175596 B CN 110175596B CN 201910481703 A CN201910481703 A CN 201910481703A CN 110175596 B CN110175596 B CN 110175596B
Authority
CN
China
Prior art keywords
micro
expression
image
optical flow
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910481703.3A
Other languages
English (en)
Other versions
CN110175596A (zh
Inventor
蔡林沁
董伟
周思桐
王俪瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910481703.3A priority Critical patent/CN110175596B/zh
Publication of CN110175596A publication Critical patent/CN110175596A/zh
Application granted granted Critical
Publication of CN110175596B publication Critical patent/CN110175596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法,包括以下步骤:S1:微表情数据的预处理:对微表情视频进行欧拉视频放大并抽取图像序列,对图像序列进行人脸定位并裁剪,得到微表情的RGB数据;将欧拉视频放大后的数据提取光流信息,得到微表情的光流图像;S2:将预处理后的数据分为训练集和测试集两部分并使用迁移学习的方法构建双流卷积神经网络,以学习到微表情的空间与时域信息;S3:将双流卷积神经网络的输出进行最大值融合,以增强识别准确率,得到最终的微表情识别模型;S4:使用微表情识别模型创建虚拟学习环境交互系统,并通过Kinect获取用户面部图像序列进行微表情识别任务。

Description

基于双流卷积神经网络的虚拟学习环境微表情识别与交互 方法
技术领域
本发明属于人工智能领域,涉及一种基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法。
背景技术
情绪在日常生活中的作用非常重要,它可以反映出人的情感状态,并可通过面部表情、声音、肢体语言等方式表现。其中,面部表情是情绪表达中最为重要的方式,也能辅助其他表达方式,因此受到广泛关注。然而,在很多情况下,面部表情往往容易被掩盖或抑制,产生持续时间短,动作幅度小的微表情。这是一种快速的面部表情,持续时间仅有0.5s,动作幅度小且不对称。微表情的识别可以有效地帮助人们更加精确的捕捉人类的真实情感,但是,通常需要专业的心理学者经过大量的训练才能识别微表情。因此,微表情的自动识别与研究显得尤为重要,并在测谎、在线教育、商业谈判等领域有广泛的应用前景。
由于微表情数据为图像序列,单幅图像的表情识别模型已不能有效地识别,且微表情公开数据集的样本数量较少。所以,目前微表情的识别方法以传统机器学习为主,大致分为以下几类:基于局部二值模式(Local binary patterns,LBP)的三维拓展及相关改进方法的识别,LBP是一种针对二维图像的纹理提取方式,将LBP编码拓展到XY、XT、YT三个正交平面进行微表情的特征提取;基于光流场特征识别,及基于张量识别等,再通过支持向量机、最近邻、随机森林等分类器进行分类。这些识别方法需要在微表情的预处理与特征提取阶段消耗大量人力,且识别准确率并未有效提升。
近年来,深度学习在计算机视觉和自然语言处理领域中表现优异,进而成为专家学者广泛研究的对象。深度学习较传统机器学习的主要优点为:特征提取阶段不依赖人工,而是通过构建神经网络让机器自主学习到对象的特征,使得到的训练模型更具泛化能力。然而,由于微表情运动幅度小、持续时间短的特点,常规网络结构不能很好的学习微表情中的时域特征。
因此,使用欧拉放大技术将原始数据进行处理,以增强面部运动幅度;并采用一种新型网络结构可用来识别微表情。该结构由两个卷积神经网络组成,基本思想是将图像序列拆分为表现流和运动流两个通道分别处理,达到空间信息和时间信息互补的目的。使用更精确的TV-L1光流估计方法计算两张相邻微表情图像的光流,能够反映出微表情序列中的时域信息。同时,采用迁移学习的方法进行模型训练,可在一定程度上避免由训练样本数量不足而产生的过拟合现象。使用VGG-16预训练模型初始化网络参数,并利用微表情数据库微调,得到目标任务网络模型。VGG-16预训练模型是由ImageNet数据库训练得到的,该数据库有丰富的图像数据,模型能够很好地获取图像中的低级、局部特征,有较强的泛化能力。并将两个网络的Softmax层的输出进行最大值融合,进一步增加了识别准确率。
创建实时虚拟学习环境交互系统,可实现微表情的实时检测与分类。Kinect是微软公司推出的一款体感设备,可以提供更加自然的人机交互方式,相比其他设备,提高了对周围环境的理解能力。使用Kinect实时采集用户面部图像序列并进行欧拉视频放大、光流分析等处理,输入至训练好的模型中,系统将快速返回微表情识别结果,如开心、压抑、难过、惊讶和其他,并在场景中出现相应交互动画。根据识别结果,教师可及时调整授课策略,保障并提高学生的学习效率,改善学习效果。
综上所述,微表情的应用场景广泛,快速、有较地识别微表情仍是未来一段时间的发展方向。增加微表情的应用场景、优化网络结构并提高模型的识别精确率显得尤为重要。
发明内容
有鉴于此,本发明的目的在于提供一种有效增加网络学习能力,提升实时微表情识别系统的性能,并基于迁移学习的方法创建实时微表情识别的虚拟学习环境交互系统。
为达到上述目的,本发明提供如下技术方案:
一种基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法,包括以下步骤:
S1:微表情数据的预处理:对微表情视频进行欧拉视频放大并抽取图像序列,对图像序列进行人脸定位并裁剪,得到微表情的RGB数据;将欧拉视频放大后的数据提取光流信息,得到微表情的光流图像;
S2:将预处理后的数据分为训练集和测试集两部分并使用迁移学习的方法构建双流卷积神经网络,以学习到微表情的空间与时域信息;
S3:将双流卷积神经网络的输出进行最大值融合,以增强识别准确率,得到最终的微表情识别模型;
S4:使用微表情识别模型创建虚拟学习环境交互系统,并通过Kinect获取用户面部图像序列进行微表情识别任务。
进一步,步骤S1包括以下步骤:
S11:选取无限脉冲响应滤波器IIR将微表情数据库CASME II进行欧拉视频放大处理,欧拉视频放大技术首先要对输入的视频序列进行空间滤波,再对每个空间频率的基带进行时域滤波处理,可将增强视频中物体的运动幅度。令I(x,t)表示位置x和时间t的图像强度,由于图像经历平移运动,可以用δ(t)表示相对位移函数F(x)。运动放大的目的是合成信号:
Figure BDA0002084056930000031
其中,α表示放大系数。此处选取无限脉冲响应(Infinite Impulse Response,IIR)滤波器,放大倍数为20,将处理好的视频逐帧抽取图像,得到微表情的图像序列;
S12:使用主动形状模型ASM对处理后的微表情图像进行人脸检测定位,并裁剪成大小为224*224的人脸图像;
S13:将欧拉放大后的微表情图像序列划分为多段,并使用基于总变分(TotalVariation,TV)和L1范数的光流估计方法TV-L1进行光流分析,得到微表情的光流图像,光流是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧与当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。得到的光流数据是和RGB图像尺寸相等的多通道图像,设I(x,y,z)表示时刻t的点(x,y)的图像强度,这个点将在t+Δt时刻移动到(x+Δx,y+Δy),图像强度表示为I(x+Δx,y+Δy,t+Δt),令v=(vx,vy)表示两帧的光流,其中vx和vy是x和y的运动速度分量,则光流的约束方程为:Ixvx+Iyvy+It=0。
进一步,步骤S2包括以下步骤:
S21:将预处理后的数据与标签,以7:3的比例划分为训练集和测试集两部分,且数据不交叉出现;
S22:双流卷积神经网络由两个卷积神经网络组成,对应着空间神经网络与时间神经网络,可分别输入RGB图像与光流图像。两个卷积神经网络模型都采用VGG-16预训练模型构建,VGGNet由牛津大学的视觉几何组(Visual Geometry Group)提出,是在ImageNet数据库上训练得到的具有1000个分类的深层网络模型,泛化能力较强,VGGNet是从AlexNet发展而来的,与AlexNet框架有很多相似之处。所述VGG-16网络模型共有16层,有13个卷积层和3个全连接层,具体包含5组卷积集合(如表1),第一组与第二组卷积集合包含2个卷积层,其它均包含3个卷积层,所有卷积层的卷积核大小均为3×3,步长也缩小到1,相比其他网络结构能模仿出更大的感受野,每组卷积集合的最后一个卷积层后连接一个最大池化层,所有的最大池化窗口均为2×2;初始卷积核个数为64,每经过一次最大池化后卷积核的个数增加一倍,包含3个全连接层,第一个和第二个全连接层的维度为4096,第三个全连接层维度为1000,最后由Softmax输出分类结果;
表1
Figure BDA0002084056930000041
S23:将得到的欧拉放大后的微表情RGB图像输入至空间神经网络,并将得到的光流图像输入至时域神经网络,对时域神经网络的输入进行以下两方面的处理:首先是光流场的叠加,方法是计算每两个连续的帧t和t+1间的光流,然后简单地叠加在一起,假设需要追踪t+1帧,那么会把光流分解成x,y两个方向的光流,这时会有2L个通道。dt(u,v)表示在t帧点(u,v)的位置向量,
Figure BDA0002084056930000042
Figure BDA0002084056930000043
表示水平和垂直分量的向量场,可以作为图像通道,非常适合使用卷积网络识别,为了表示一系列的帧序列,堆叠光流通道
Figure BDA0002084056930000044
这时会有2L个通道,用w和h代表一个视频的宽和高;一个卷积网络的输入量Iτ∈Rw×h×2L对任意一个帧(t)设置如下:
Figure BDA0002084056930000051
其中,u=[1;w],v=[1;h],k=[1;L].对于任意一点(u,v),通道编码了L序列帧的所有点。
其次是沿轨迹追踪光流叠加,在连续几帧相同的位置上采样,根据采样结果,得到轨迹的运动信息。在这种情况下,Iτ为输入向量,采用以下公式来对应于一个帧t:
Figure BDA0002084056930000052
其中u=[1;w],v=[1;h],k=[1;L].
Pk是沿着轨迹的第K层,从(u,v)开始在帧间存在以下递归关系定义:P1=(u,v),
Pk=Pk-1+dτ+k-2(Pk-1),k>1.
光流的叠加存储了位移向量(u,v),而轨迹叠加存储了沿着轨迹的光流向量的叠加向量Pk
S24:使用迁移学习的方法对VGG-16预训练模型做微调。将前两个全连接层(FullyConnected,FC)的维度由4096减为2048,以减少模型训练时需要的训练参数从而加快训练速度和降低对计算机性能的要求;由于CASME II数据库的类别为5,所以应将最后一个全连接层FC3维度由1000修改为5。
将处理好的RGB图像和光流图像分别输入VGG-16预训练模型进行训练,网络的初始学习率设为10-5,经过1000次迭代学习率降低为10-6,共迭代6000次。
进一步,步骤S3包括以下步骤:
S31:损失函数可用L(Y,f(x))来表示。其中Y表示其真实值,f(x)是模型输出的预测值。一般情况下,目标函数包括了损失函数和正则项,用下式表示:
Figure BDA0002084056930000053
Figure BDA0002084056930000054
其中第一项是损失函数,第二项是正则化项,为了避免过拟合现象,这里采用L2范数。训练可求得使目标函数L更小的参数ω。为了得到更好的网络模型,采用自适应矩估计作为优化器。
对于多分类问题,卷积神经网络采用的是交叉熵损失
Figure BDA0002084056930000055
当输入样本被判定为真实类别的概率越大,样本的损失值也就越小。Softmax相当于一个归一化的作用,函数表达式为:
Figure BDA0002084056930000056
对于分类任务,若数据集共有n类,那么Softmax的输出就是n维向量,向量中的每一维的值代表该输入数据属于某一类的概率值,共n类。一般情况下,Softmax层是接在全连接层后的,经过Softmax层后得到的输出再输入并最小化损失函数,将误差反向传播来优化网络参数,从而达到训练与学习的目的。
S32:由于时间流和空间流的互补性,融合技术能使准确率明显提高。融合方法可用一些集合函数,包括L2范数,均匀平均,最大值等。将双流卷积神经网络的两个输出进行最大值融合。令xa,xb分别为两个卷积神经网络的输出,H,W和D分别代表特征映射的宽度、高度和通道数量。则在t时刻,两个卷积网络的输出分别为
Figure BDA0002084056930000061
使用
Figure BDA0002084056930000062
来取得两个特征映射的最大值。
S33:在测试阶段,将划分好的测试集中的RGB数据与光流数据分别输入至双流卷积神经网络模型,得到五类微表情的最终的识别结果。
进一步,步骤S4包括以下步骤:
S41:利用虚拟现实技术在Unity3D平台创建虚拟学习环境,模拟课堂学习环境,对虚拟角色进行建模,并创建交互界面。
S42:使用Kinect实时采集用户面部图像序列,并使用OpenCV库中的Haar-cascade分类器将已获取的图像进行人脸检测与面部裁剪,再对裁剪之后的图像序列进行欧拉视频放大并保存为RGB图像;并进行光流分析,得到光流帧。
S43:最后将RGB图像与光流图像输入到微表情识别模型中,经前向传播,模型将会返回微表情分类结果,如开心、压抑、难过、惊讶和其他,并在场景中出现相应交互动画。根据分类结果,教师可及时调整授课策略,转变教学思路,提高学生的学习效率,改善学习效果。
本发明的有益效果在于:
1、针对微表情运动幅度小的特点,本发明引入欧拉放大技术作为预处理方法,不仅可以增加面部的运动幅度,也可以改变运动区域对应像素的亮度,能够更有效的使模型捕捉到微表情。
2、由于微表情现有的公开数据集的样本数比较少,所以目前微表情主要还是依靠传统机器学习的方法来识别。这些方法大多是使用一组人工设计的特征,在一定程度上损失了原有的特征信息,或者假设属性之间互相独立,这往往与实际应用环境不相符。对此本发明使用迁移学习的方法,引入VGG-16预训练模型并利用微表情数据库微调,可在一定程度上避免由训练样本数量不足而产生的过拟合现象,同时使模型有较强的泛化能力。
3、使用双流卷积神经网络,分别输入RGB图像与光流图像至空间神经网络与时间神经网络,可使模型同时考虑到微表情的空间信息与时间信息,达到信息互补的目的,对微表情有更强的学习能力。同时,对两个网络的Softmax输出进行最大值融合,进一步增加了识别准确率。
4、通过创建虚拟学习环境交互系统,拓宽了微表情的应用领域。使用Kinect实时采集用户面部图像序列并进行相应处理,输入至训练好的模型中,系统将快速返回微表情识别结果,并在场景中出现相应交互动画。虚拟教师可根据识别结果,及时调整授课策略,保障并提高学生的学习效率。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,一种基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法,包括以下步骤:
S1:微表情数据的预处理:对微表情视频进行欧拉视频放大并抽取图像序列,对图像序列进行人脸定位并裁剪,得到微表情的RGB数据;将欧拉视频放大后的数据提取光流信息,得到微表情的光流图像;
S2:将预处理后的数据分为训练集和测试集两部分并使用迁移学习的方法构建双流卷积神经网络,以学习到微表情的空间与时域信息;
S3:将双流卷积神经网络的输出进行最大值融合,以增强识别准确率,得到最终的微表情识别模型;
S4:使用微表情识别模型创建虚拟学习环境交互系统,并通过Kinect获取用户面部图像序列进行微表情识别任务。
可选地,步骤S1包括以下步骤:
S11:选取无限脉冲响应滤波器IIR将微表情数据库CASME II进行欧拉视频放大处理,欧拉视频放大技术首先要对输入的视频序列进行空间滤波,再对每个空间频率的基带进行时域滤波处理,可将增强视频中物体的运动幅度。令I(x,t)表示位置x和时间t的图像强度,由于图像经历平移运动,可以用δ(t)表示相对位移函数F(x)。运动放大的目的是合成信号:
Figure BDA0002084056930000081
其中,α表示放大系数。此处选取无限脉冲响应(Infinite Impulse Response,IIR)滤波器,放大倍数为20,将处理好的视频逐帧抽取图像,得到微表情的图像序列;
S12:使用主动形状模型ASM对处理后的微表情图像进行人脸检测定位,并裁剪成大小为224*224的人脸图像;
S13:将欧拉放大后的微表情图像序列划分为多段,并使用基于总变分(TotalVariation,TV)和L1范数的光流估计方法TV-L1进行光流分析,得到微表情的光流图像,光流是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧与当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。得到的光流数据是和RGB图像尺寸相等的多通道图像,设I(x,y,z)表示时刻t的点(x,y)的图像强度,这个点将在t+Δt时刻移动到(x+Δx,y+Δy),图像强度表示为I(x+Δx,y+Δy,t+Δt),令v=(vx,vy)表示两帧的光流,其中vx和vy是x和y的运动速度分量,则光流的约束方程为:Ixvx+Iyvy+It=0。
可选地,步骤S2包括以下步骤:
S21:将预处理后的数据与标签,以7:3的比例划分为训练集和测试集两部分,且数据不交叉出现;
S22:双流卷积神经网络由两个卷积神经网络组成,对应着空间神经网络与时间神经网络,可分别输入RGB图像与光流图像。两个卷积神经网络模型都采用VGG-16预训练模型构建,VGGNet由牛津大学的视觉几何组(Visual Geometry Group)提出,是在ImageNet数据库上训练得到的具有1000个分类的深层网络模型,泛化能力较强,VGGNet是从AlexNet发展而来的,与AlexNet框架有很多相似之处。所述VGG-16网络模型共有16层,有13个卷积层和3个全连接层,具体包含5组卷积集合(如表1),第一组与第二组卷积集合包含2个卷积层,其它均包含3个卷积层,所有卷积层的卷积核大小均为3×3,步长也缩小到1,相比其他网络结构能模仿出更大的感受野,每组卷积集合的最后一个卷积层后连接一个最大池化层,所有的最大池化窗口均为2×2;初始卷积核个数为64,每经过一次最大池化后卷积核的个数增加一倍,包含3个全连接层,第一个和第二个全连接层的维度为4096,第三个全连接层维度为1000,最后由Softmax输出分类结果;
表1
Figure BDA0002084056930000091
Figure BDA0002084056930000101
S23:将得到的欧拉放大后的微表情RGB图像输入至空间神经网络,并将得到的光流图像输入至时域神经网络,对时域神经网络的输入进行以下两方面的处理:首先是光流场的叠加,方法是计算每两个连续的帧t和t+1间的光流,然后简单地叠加在一起,假设需要追踪t+1帧,那么会把光流分解成x,y两个方向的光流,这时会有2L个通道。dt(u,v)表示在t帧点(u,v)的位置向量,
Figure BDA0002084056930000102
Figure BDA0002084056930000103
表示水平和垂直分量的向量场,可以作为图像通道,非常适合使用卷积网络识别,为了表示一系列的帧序列,堆叠光流通道
Figure BDA0002084056930000104
这时会有2L个通道,用w和h代表一个视频的宽和高;一个卷积网络的输入量Iτ∈Rw×h×2L对任意一个帧(t)设置如下:
Figure BDA0002084056930000105
其中,u=[1;w],v=[1;h],k=[1;L].对于任意一点(u,v),通道编码了L序列帧的所有点。
其次是沿轨迹追踪光流叠加,在连续几帧相同的位置上采样,根据采样结果,得到轨迹的运动信息。在这种情况下,Iτ为输入向量,采用以下公式来对应于一个帧t:
Figure BDA0002084056930000106
其中u=[1;w],v=[1;h],k=[1;L].
Pk是沿着轨迹的第K层,从(u,v)开始在帧间存在以下递归关系定义:P1=(u,v),Pk=Pk-1+dτ+k-2(Pk-1),k>1.
光流的叠加存储了位移向量(u,v),而轨迹叠加存储了沿着轨迹的光流向量的叠加向量Pk
S24:使用迁移学习的方法对VGG-16预训练模型做微调。将前两个全连接层(FullyConnected,FC)的维度由4096减为2048,以减少模型训练时需要的训练参数从而加快训练速度和降低对计算机性能的要求;由于CASME II数据库的类别为5,所以应将最后一个全连接层FC3维度由1000修改为5。
将处理好的RGB图像和光流图像分别输入VGG-16预训练模型进行训练,网络的初始学习率设为10-5,经过1000次迭代学习率降低为10-6,共迭代6000次。
可选地,步骤S3包括以下步骤:
S31:损失函数可用L(Y,f(x))来表示。其中Y表示其真实值,f(x)是模型输出的预测值。一般情况下,目标函数包括了损失函数和正则项,用下式表示:
Figure BDA0002084056930000107
Figure BDA0002084056930000111
其中第一项是损失函数,第二项是正则化项,为了避免过拟合现象,这里采用L2范数。训练可求得使目标函数L更小的参数ω。为了得到更好的网络模型,采用自适应矩估计作为优化器。
对于多分类问题,卷积神经网络采用的是交叉熵损失
Figure BDA0002084056930000112
当输入样本被判定为真实类别的概率越大,样本的损失值也就越小。Softmax相当于一个归一化的作用,函数表达式为:
Figure BDA0002084056930000113
对于分类任务,若数据集共有n类,那么Softmax的输出就是n维向量,向量中的每一维的值代表该输入数据属于某一类的概率值,共n类。一般情况下,Softmax层是接在全连接层后的,经过Softmax层后得到的输出再输入并最小化损失函数,将误差反向传播来优化网络参数,从而达到训练与学习的目的。
S32:由于时间流和空间流的互补性,融合技术能使准确率明显提高。融合方法可用一些集合函数,包括L2范数,均匀平均,最大值等。将双流卷积神经网络的两个输出进行最大值融合。令xa,xb分别为两个卷积神经网络的输出,H,W和D分别代表特征映射的宽度、高度和通道数量。则在t时刻,两个卷积网络的输出分别为
Figure BDA0002084056930000114
使用
Figure BDA0002084056930000115
来取得两个特征映射的最大值。
S33:在测试阶段,将划分好的测试集中的RGB数据与光流数据分别输入至双流卷积神经网络模型,得到五类微表情的最终的识别结果。
可选地,步骤S4包括以下步骤:
S41:利用虚拟现实技术在Unity3D平台创建虚拟学习环境,模拟课堂学习环境,对虚拟角色进行建模,并创建交互界面。
S42:使用Kinect实时采集用户面部图像序列,并使用OpenCV库中的Haar-cascade分类器将已获取的图像进行人脸检测与面部裁剪,再对裁剪之后的图像序列进行欧拉视频放大并保存为RGB图像;并进行光流分析,得到光流帧。
S43:最后将RGB图像与光流图像输入到微表情识别模型中,经前向传播,模型将会返回微表情分类结果,如开心、压抑、难过、惊讶和其他,并在场景中出现相应交互动画。根据分类结果,教师可及时调整授课策略,转变教学思路,提高学生的学习效率,改善学习效果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法,其特征在于:包括以下步骤:
S1:微表情数据的预处理:对微表情视频进行欧拉视频放大并抽取图像序列,对图像序列进行人脸定位并裁剪,得到微表情的RGB数据;将欧拉视频放大后的数据提取光流信息,得到微表情的光流图像;
S2:将预处理后的数据分为训练集和测试集两部分并使用迁移学习的方法构建双流卷积神经网络,以学习到微表情的空间与时域信息;步骤S2包括以下步骤:
S21:将预处理后的数据与标签,以7:3的比例划分为训练集和测试集两部分,且数据不交叉出现;
S22:双流卷积神经网络由两个卷积神经网络组成,对应空间神经网络与时间神经网络,分别输入RGB图像与光流图像;两个卷积神经网络模型都采用VGG-16预训练模型构建,所述VGG-16预训练模型共有16层,有13个卷积层和3个全连接层,具体包含5组卷积集合,如表1,第一组与第二组卷积集合包含2个卷积层,其它均包含3个卷积层,所有卷积层的卷积核大小均为3×3,步长为1,每组卷积集合的最后一个卷积层后连接一个最大池化层,所有的最大池化窗口均为2×2;初始卷积核个数为64,每经过一次最大池化后卷积核的个数增加一倍,包含3个全连接层,第一个和第二个全连接层的维度为4096,第三个全连接层维度为1000,最后由Softmax输出分类结果;
表1
Figure FDA0003529514050000011
Figure FDA0003529514050000021
S23:将得到的欧拉放大后的微表情RGB图像输入至空间神经网络,并将得到的光流图像输入至时域神经网络,对时域神经网络的输入进行以下两方面的处理:首先是光流场的叠加,方法是计算每两个连续的帧t和t+1间的光流,然后简单地叠加在一起,假设需要追踪t+1帧,则把光流分解成x,y两个方向的光流,这时有2L个通道,dt(u,v)表示在t帧点(u,v)的位置向量,
Figure FDA0003529514050000022
Figure FDA0003529514050000023
表示水平和垂直分量的向量场,作为图像通道,为了表示一系列的帧序列,堆叠光流通道
Figure FDA0003529514050000024
则有2L个通道,用w和h代表一个视频的宽和高;一个卷积网络的输入量Iτ∈Rw×h×2L对任意一个帧(t)设置如下:
Figure FDA0003529514050000025
其中,u=[1;w],v=[1;h],k=[1;L],对于任意一点(u,v),通道编码L序列帧的所有点;
其次是沿轨迹追踪光流叠加,在连续几帧相同的位置上采样,根据采样结果,得到轨迹的运动信息,Iτ为输入向量,采用以下公式来对应于一个帧t:
Figure FDA0003529514050000026
其中u=[1;w],v=[1;h],k=[1;L]
Pk是沿着轨迹的第K层,从(u,v)开始在帧间存在以下递归关系定义:P1=(u,v),Pk=Pk-1+dτ+k-2(Pk-1),k>1;
光流的叠加存储位移向量(u,v),轨迹叠加存储沿着轨迹的光流向量的叠加向量Pk
S24:使用迁移学习的方法对VGG-16预训练模型做微调;将前两个全连接层FC的维度由4096减为2048,以减少模型训练时需要的训练参数从而加快训练速度和降低对计算机性能的要求;由于CASME II数据库的类别为5,所以将最后一个全连接层FC3维度由1000修改为5;
将处理好的RGB图像和光流图像分别输入VGG-16预训练模型进行训练,网络的初始学习率设为10-5,经过1000次迭代学习率降低为10-6,共迭代6000次;
S3:将双流卷积神经网络的输出进行最大值融合,以增强识别准确率,得到最终的微表情识别模型;步骤S3包括以下步骤:
S31:损失函数用L(Y,f(x))来表示,其中Y表示其真实值,f(x)是模型输出的预测值,目标函数包括损失函数和正则项,用下式表示:
Figure FDA0003529514050000031
其中第一项是损失函数,第二项是正则化项,采用L2范数,训练求得使目标函数L更小的参数ω,采用自适应矩估计作为优化器;
对于多分类问题,卷积神经网络采用的是交叉熵损失
Figure FDA0003529514050000032
当输入样本被判定为真实类别的概率越大,样本的损失值也就越小;Softmax用于归一化,函数表达式为:
Figure FDA0003529514050000033
对于分类任务,若数据集共有n类,Softmax的输出就是n维向量,向量中的每一维的值代表输入数据属于某一类的概率值,共n类;Softmax层接在全连接层后,经过Softmax层后得到的输出再输入并最小化损失函数,将误差反向传播来优化网络参数;
S32:将双流卷积神经网络的两个输出进行最大值融合,令xa,xb分别为两个卷积神经网络的输出,H,W和D分别代表特征映射的宽度、高度和通道数量;在t时刻,两个卷积网络的输出分别为
Figure FDA0003529514050000034
使用
Figure FDA0003529514050000035
来取得两个特征映射的最大值;
S33:在测试阶段,将划分好的测试集中的RGB数据与光流数据分别输入至双流卷积神经网络模型,得到五类微表情的最终的识别结果;
S4:使用微表情识别模型创建虚拟学习环境交互系统,并通过Kinect获取用户面部图像序列进行微表情识别任务。
2.根据权利要求1所述的基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法,其特征在于:步骤S1包括以下步骤:
S11:选取无限脉冲响应滤波器IIR将微表情数据库CASME II进行欧拉视频放大处理,欧拉视频放大技术首先对输入的视频序列进行空间滤波,再对每个空间频率的基带进行时域滤波处理;令I(x,t)表示位置x和时间t的图像强度,用δ(t)表示相对位移函数F(x);运动放大的目的是合成信号:
Figure FDA0003529514050000036
其中,α表示放大系数;选取无限脉冲响应滤波器,放大倍数为20,将处理好的视频逐帧抽取图像,得到微表情的图像序列;
S12:使用主动形状模型ASM对处理后的微表情图像进行人脸检测定位,并裁剪成大小为224*224的人脸图像;
S13:将欧拉放大后的微表情图像序列划分为多段,并使用基于总变分TV和L1范数的光流估计方法TV-L1进行光流分析,得到微表情的光流图像;得到的光流图像数据是和RGB图像尺寸相等的多通道图像,设I(x,y,z)表示时刻t的点(x,y)的图像强度,这个点将在t+Δt时刻移动到(x+Δx,y+Δy),图像强度表示为I(x+Δx,y+Δy,t+Δt),令v=(vx,vy)表示两帧的光流,其中vx和vy是x和y的运动速度分量,则光流的约束方程为:Ixvx+Iyvy+It=0。
3.根据权利要求1所述的基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法,其特征在于:步骤S4包括以下步骤:
S41:利用虚拟现实技术在Unity3D平台创建虚拟学习环境,模拟课堂学习环境,对虚拟角色进行建模,并创建交互界面;
S42:使用Kinect实时采集用户面部图像序列,并使用OpenCV库中的Haar-cascade分类器将已获取的图像进行人脸检测与面部裁剪,再对裁剪之后的图像序列进行欧拉视频放大并保存为RGB图像;并进行光流分析,得到光流帧;
S43:最后将RGB图像与光流图像输入到微表情识别模型中,经前向传播,模型返回微表情分类结果,并在场景中出现相应交互动画。
CN201910481703.3A 2019-06-04 2019-06-04 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法 Active CN110175596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910481703.3A CN110175596B (zh) 2019-06-04 2019-06-04 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910481703.3A CN110175596B (zh) 2019-06-04 2019-06-04 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法

Publications (2)

Publication Number Publication Date
CN110175596A CN110175596A (zh) 2019-08-27
CN110175596B true CN110175596B (zh) 2022-04-22

Family

ID=67697856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910481703.3A Active CN110175596B (zh) 2019-06-04 2019-06-04 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法

Country Status (1)

Country Link
CN (1) CN110175596B (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532959B (zh) * 2019-08-30 2022-10-14 大连海事大学 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN110751016B (zh) * 2019-09-02 2023-04-11 合肥工业大学 用于情绪状态监测的面部运动单元双流特征提取方法
CN110765839B (zh) * 2019-09-02 2022-02-22 合肥工业大学 可见光面部图像的多路信息融合及人工智能情绪监测方法
CN110766192B (zh) * 2019-09-10 2022-09-09 中国石油大学(北京) 基于深度学习的钻井井漏预测系统及方法
CN111027377B (zh) * 2019-10-30 2021-06-04 杭州电子科技大学 一种双流神经网络时序动作定位方法
CN110909622A (zh) * 2019-10-31 2020-03-24 中国科学院深圳先进技术研究院 微表情识别金融风控方法及系统
CN110826510A (zh) * 2019-11-12 2020-02-21 电子科技大学 一种基于表情情感计算的三维教学课堂实现方法
CN111210415B (zh) * 2020-01-06 2022-08-23 浙江大学 一种帕金森患者面部表情低迷的检测方法
CN111325140A (zh) * 2020-02-18 2020-06-23 南京航空航天大学 一种红外视频序列行为识别方法及装置
CN111402200B (zh) * 2020-02-18 2021-12-21 江苏大学 基于共生双流卷积网络和数字图像的油炸食品检测系统
CN111461021A (zh) * 2020-04-01 2020-07-28 中国科学院心理研究所 一种基于光流的微表情检测方法
CN111466878A (zh) * 2020-04-14 2020-07-31 合肥工业大学 基于表情识别的卧床病人疼痛症状实时监护方法及装置
CN111507241A (zh) * 2020-04-14 2020-08-07 四川聚阳科技集团有限公司 一种轻量级网络课堂表情监测方法
CN111553216A (zh) * 2020-04-20 2020-08-18 维沃移动通信有限公司 图像处理方法、电子设备及存储介质
CN111626121B (zh) * 2020-04-24 2022-12-20 上海交通大学 基于视频中多层次交互推理的复杂事件识别方法及系统
CN111598032B (zh) * 2020-05-21 2023-04-18 中山大学 一种基于图神经网络的群体行为识别方法
CN111626179B (zh) * 2020-05-24 2023-04-28 中国科学院心理研究所 一种基于光流叠加的微表情检测方法
CN111667559B (zh) * 2020-05-27 2022-08-02 西北工业大学 一种基于深度迁移网络的多形态人脸情感生成方法
CN112001241B (zh) * 2020-07-16 2023-08-18 山东大学 基于通道注意力机制的微表情识别方法及系统
CN112101255B (zh) * 2020-09-21 2023-06-27 哈尔滨工业大学(深圳) 一种基于深度学习模型的特定动作识别方法及系统
CN112132089A (zh) * 2020-09-28 2020-12-25 天津天地伟业智能安全防范科技有限公司 一种基于3d卷积和光流的挖掘机行为分析方法
CN112200065B (zh) * 2020-10-09 2022-08-09 福州大学 基于动作放大和自适应注意力区域选取的微表情分类方法
CN112257526B (zh) * 2020-10-10 2023-06-20 中国科学院深圳先进技术研究院 一种基于特征交互学习的动作识别方法及终端设备
CN112232191B (zh) * 2020-10-15 2023-04-18 南京邮电大学 基于微表情分析的抑郁症识别系统
CN112329663B (zh) * 2020-11-10 2023-04-07 西南大学 一种基于人脸图像序列的微表情时刻检测方法及装置
CN112699772A (zh) * 2020-12-28 2021-04-23 常州码库数据科技有限公司 一种动态表情识别模型获取方法、识别方法和装置
CN112766063B (zh) * 2020-12-31 2024-04-23 沈阳康泰电子科技股份有限公司 基于位移补偿的微表情拟合方法和系统
CN112929622B (zh) * 2021-02-05 2022-04-12 浙江大学 一种基于深度学习的欧拉视频颜色放大方法
CN112801009B (zh) * 2021-02-07 2023-02-14 华南理工大学 基于双流网络的面部情感识别方法、装置、介质及设备
CN112560812A (zh) * 2021-02-19 2021-03-26 中国科学院自动化研究所 基于融合深度特征的微表情识别方法
CN112801042B (zh) * 2021-03-08 2023-12-15 南京大学 一种基于深度学习和视频轨迹的学生上课行为识别方法
CN112949560B (zh) * 2021-03-24 2022-05-24 四川大学华西医院 双通道特征融合下长视频表情区间连续表情变化识别方法
CN113095183A (zh) * 2021-03-31 2021-07-09 西北工业大学 一种基于深度神经网络的微表情检测方法
CN113139479B (zh) * 2021-04-28 2022-07-29 山东大学 一种基于光流和rgb模态对比学习的微表情识别方法及系统
CN113239794B (zh) * 2021-05-11 2023-05-23 西北工业大学 一种面向在线学习的学习状态自动识别方法
CN113537008B (zh) * 2021-07-02 2024-03-29 江南大学 基于自适应运动放大和卷积神经网络的微表情识别方法
CN113673307B (zh) * 2021-07-05 2024-03-29 浙江工业大学 一种轻量型的视频动作识别方法
CN113591660A (zh) * 2021-07-24 2021-11-02 中国石油大学(华东) 基于元学习的微表情识别方法
CN113505740B (zh) * 2021-07-27 2023-10-10 北京工商大学 基于迁移学习和卷积神经网络的面部识别方法
CN113591761B (zh) * 2021-08-09 2023-06-06 成都华栖云科技有限公司 一种视频镜头语言识别方法
CN114842399B (zh) * 2022-05-23 2023-07-25 马上消费金融股份有限公司 视频检测方法、视频检测模型的训练方法及装置
CN115359534B (zh) * 2022-08-25 2023-04-07 成都信息工程大学 基于多特征融合和双流网络的微表情识别方法
CN116894978B (zh) * 2023-07-18 2024-03-29 中国矿业大学 一种融合面部情绪与行为多特征的线上考试防作弊系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10860841B2 (en) * 2016-12-29 2020-12-08 Samsung Electronics Co., Ltd. Facial expression image processing method and apparatus
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
CN108921037B (zh) * 2018-06-07 2022-06-03 四川大学 一种基于BN-inception双流网络的情绪识别方法
CN109146066A (zh) * 2018-11-01 2019-01-04 重庆邮电大学 一种基于语音情感识别的虚拟学习环境自然交互方法
CN109815785A (zh) * 2018-12-05 2019-05-28 四川大学 一种基于双流卷积神经网络的人脸情绪识别方法
CN109683709A (zh) * 2018-12-17 2019-04-26 苏州思必驰信息科技有限公司 基于情绪识别的人机交互方法及系统

Also Published As

Publication number Publication date
CN110175596A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
CN110175596B (zh) 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
Zhang et al. C2FDA: Coarse-to-fine domain adaptation for traffic object detection
Vu et al. Context-aware CNNs for person head detection
KR102224253B1 (ko) 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
Deng et al. MVF-Net: A multi-view fusion network for event-based object classification
CN114220035A (zh) 一种基于改进yolo v4的快速害虫检测方法
CN107871106A (zh) 人脸检测方法和装置
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN110674741A (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
Kim et al. Fast pedestrian detection in surveillance video based on soft target training of shallow random forest
CN113963445A (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
CN107146237A (zh) 一种基于在线状态学习与估计的目标跟踪方法
CN111062329A (zh) 基于增广网络的无监督行人重识别方法
Avola et al. 3D hand pose and shape estimation from RGB images for keypoint-based hand gesture recognition
CN114036969A (zh) 一种多视角情况下的3d人体动作识别算法
Rani et al. An effectual classical dance pose estimation and classification system employing convolution neural network–long shortterm memory (CNN-LSTM) network for video sequences
Cao et al. Effective action recognition with embedded key point shifts
Feng Mask RCNN-based single shot multibox detector for gesture recognition in physical education
CN111274901B (zh) 一种基于深度门控递归单元的手势深度图像连续检测方法
KR102178469B1 (ko) 교사-학생 프레임워크 기반의 소프트 타겟 학습방법을 이용한 보행자 포즈 방향 추정 방법 및 시스템
Yao [Retracted] Application of Higher Education Management in Colleges and Universities by Deep Learning
Kumar Motion trajectory based human face and hands tracking for sign language recognition
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
Abdulhamied et al. Real-time recognition of American sign language using long-short term memory neural network and hand detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant