CN113095183A - 一种基于深度神经网络的微表情检测方法 - Google Patents

一种基于深度神经网络的微表情检测方法 Download PDF

Info

Publication number
CN113095183A
CN113095183A CN202110348364.9A CN202110348364A CN113095183A CN 113095183 A CN113095183 A CN 113095183A CN 202110348364 A CN202110348364 A CN 202110348364A CN 113095183 A CN113095183 A CN 113095183A
Authority
CN
China
Prior art keywords
micro
image
optical flow
video
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110348364.9A
Other languages
English (en)
Inventor
夏召强
梁桓
黄东
冯晓毅
蒋晓悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110348364.9A priority Critical patent/CN113095183A/zh
Publication of CN113095183A publication Critical patent/CN113095183A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

针对目前微表情检测准确度低、检测能力较弱的问题,本发明提出了一种基于深度神经网络的微表情检测方法,使用卷积神经网络(CNN)和门控循环单元(GRU)对经过预处理的视频序列提取动态信息,最后使用移动滑框对微表情进行检测,以此来完成精确高效的微表情检测。本发明利用两种网络各自不同的特点将两种网络相结合,取得精度更高、速度更快、误差更低的微表情检测结果。

Description

一种基于深度神经网络的微表情检测方法
技术领域:
本发明涉及一种基于深度神经网络的微表情检测方法。
现有技术:
微表情含有细微的痕迹流露,特征表达比较模糊,表情也被极度的弱化。由于人类生理的特点,情感是不会被思想完全控制的,因此不管人们怎样刻意掩饰,微表情都不会被完全消除,故而微表情能较为准确地反映人类的真实情感。通过高速摄像头准确捕捉快速运动的微表情,计算机科学家可利用计算机视觉技术自动分析微表情,降低微表情分析的复杂度,从而能以较低廉的成本完成大规模微表情分析任务。因此,利用计算机视觉技术自动分析微表情数据,成为情感计算领域的热点问题之一。
从早期的传统宏表情表征模型,到基于深度模型的端到端学习方法,微表情分析技术的性能得到了显著提升。利用现有宏表情变化描述特征(如LBP-TOP、MDMO等),或者通用卷积网络(如VGGNet、ResNet等),能较为精确地描述微表情变化规律。但是,由于面部微表情持续时间短、变化强度弱,在较长的视频序列中,如何自动提取面部微表情相关信息,仍然是微表情自动分析技术的难点。
文献“Spotting Rapid Facial Movements from Videos Using Appearance-Based Feature Difference Analysis[J].2014.”Antti Moilanen等利用三点法固定面部区域,并将面部区域分为几个感兴趣区域并提取LBP特征,通过在一定时间内对比各个区域内的特征相似性,实现自动化的面部微表情检测技术。但该技术的检测准确度仍然较低,并且当个体变化时鲁棒性较差。
发明目的:
针对目前微表情检测准确度低、检测能力较弱的问题,本发明提出了一种基于深度神经网络的微表情检测方法,使用卷积神经网络(CNN)和门控循环单元(GRU)对经过预处理的视频序列提取动态信息,最后使用移动滑框对微表情进行检测,以此来完成精确高效的微表情检测。
发明内容:
本发明主要研究了基于深度神经网络的微表情检测算法。对经过预处理的视频序列使用卷积神经网络(CNN)提取每幅图像的特征,再采用门控循环单元(GRU)对连续多个CNN提取的图像特征进行动态特征提取,最后使用移动滑框对微表情进行检测。本发明主要分为四个步骤:数据预处理、图像序列的运动特征描述、网络模型的构建和网络模型的训练与微表情检测。基于深度神经网络的微表情检测流程如图1所示。
步骤1:数据预处理
微表情数据库中的视频包含着比较丰富的元素,如背景、耳机等噪声,需要对数据库视频序列进行预处理操作。预处理的质量决定着微表情检测的效果和准确率,会对实验结果产生很大的影响。对人脸图像序列进行预处理可以减少因人脸的大小和位置等因素对人像检测所带来的影响。
1)对图像进行多尺度检测识别人脸
检测人脸时,逐步把图像长宽同时按照一定比例缩小,对应每张图,然后使用大小固定的检测窗口器开始遍历图像。逐次移动检测窗口,窗口中的特征相应也随着窗口移动,从而遍历到图像中的每一个位置,找到图像中人脸位置(x0,y0),(x1,y1),完成人脸检测。
2)对人脸检测所得到的结果进行处理
人脸检测所得到两个坐标(x0,y0),(x1,y1),两个坐标中间的矩形区域为人脸检测的结果。人脸检测的结果不可以直接传输到卷积神经网络中,因为人脸检测的结果范围比较大,包含了耳机、头发等会对深度学习过程产生影响的信息,需要在人脸识别的基础上再进行切割。将原坐标左上角的坐标(x0,y0)和右下角的坐标(x1,y1)经过处理后得到新的坐标(x’0,y0’),(x’1,y’1):
(x’0,y’0)=(x0+a,y0-b) (1)
(x’1,y’1)=(x1-a,y1+b) (2)
a为横向切割距离,b为纵向切割距离。
3)对视频序列进行统一切割处理
将每段视频的第一帧图像作为参考帧,以长视频的第一幅人脸图像为模型脸,获取模型脸的切割矩阵,切割矩阵用来对视频序列剩余图像进行切割,从而完成数据预处理。
步骤2:图像序列的运动特征描述
1)提取视频序列光流特征
通过光流法,提取视频序列的运动特征。光流场是一个二维矢量场,它反映了图像上每一点亮度的变化趋势。用视频序列中像素在时间域上的亮度变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,此对应关系能够反映出视频序列中亮度的微小变化,得到人面部的运动信息。
光流法分为稀疏光流法以及稠密光流法,稀疏光流法针对图像中的某一点去研究它的位置变化,而稠密光流法针对图像全局的亮度变化。故本发明使用的为稠密光流法。
稠密光流法假设在t时刻,像素点(x,y)处灰度值为I(x,y,t);在(t+Δt),该点运动到新的位置,它在图像上的位置变为(x+Δx,y+Δy),灰度值记为I(x+Δx,y+Δy)。该算法假设物体上同一个点在图像中的灰度是不变的,即使物体发生了运动。满足
Figure BDA0003001549010000031
则:
I(x,y,t)=I(x+Δx,y+Δy,t+Δt) (3)
设u和v分别为该点的光流矢量沿x和y方向的两个分量,且
Figure BDA0003001549010000032
将式(3)右边用泰勒公式展开,得到:
Figure BDA0003001549010000033
ε为二次以上的高次项,值很小,可以忽略。得到:
Figure BDA0003001549010000034
由于视频序列中Δt→0,于是有:
Figure BDA0003001549010000035
即:
Ixu+Iyv+It=0 (7)
式(7)是光流基本等式。设Ix,Iy和It分别为参考点像素的灰度值沿x,y,t这三个方向的偏导数。
在求解光流(u,v)时,要求光流本身尽可能地平滑,即引入对光流的整体平滑性约束求解光流方程病态问题。平滑,就是在给定的领域内
Figure BDA0003001549010000036
应尽量地小,这就是求条件极值时的约束条件。对u,v的附加条件如下:
Figure BDA0003001549010000037
式中
Figure BDA0003001549010000038
是u的拉普拉斯算子,
Figure BDA0003001549010000039
是v的拉普拉斯算子。综合式(7)和式(8),算法将光流u,v计算归结为如下问题:
Figure BDA00030015490100000310
因而,可以得到其相应的欧拉-拉格朗日方程,并利用高斯-塞德尔方法进行求解,得到图像每个次置第一次至第(n+1)次迭代估计(un+1,vn+1)为:
Figure BDA0003001549010000041
Figure BDA0003001549010000042
经过迭代计算便得到最终光流场。对视频序列每帧图像都提取光流特征,得到整个光流特征序列。
2)光流特征序列的归一化处理
视频中相邻两帧的时间间隔很短,两帧中的内容变化较小,因此,可以将两帧中内容的变化看作线性运动。求出该线性运动的运动轨迹,就能根据该运动轨迹和输入输出帧的时间关系进行内容位置的调整。
使用插值法求中间帧的像素值。前后两幅图像的像素值大小以及时间为(B1,t1),(B2,t2),使用公式(12)得到中间帧即输出帧为(B,t)。
Figure BDA0003001549010000043
步骤3:网络模型的构建
1)卷积神经网络
卷积神经网络(Convolutional Neural Network,CNN)是一种层级结构,主要包括卷积层、线性整流层、池化层和全连接层。
卷积层:卷积运算的目的是提取输入的不同特征,第一层卷积层能提取一些低级的特征如边缘、线条和角等特征,更多层的网络能从低级特征中迭代提取更复杂的特征。
其中卷积公式为:
Figure BDA0003001549010000044
式中x(p),h(p)为一维数据向量。由于卷积神经网络运算过程中数据是离散的,所以公式(13)可转化为:
Figure BDA0003001549010000045
一个过滤器在输入图像上移动(卷积操作)以生成特征映射。在同一张图像上,不同过滤器的卷积会生成不同的特征映射。卷积神经网络在训练过程中会自动学习这些过滤器的值。拥有的过滤器数目越多,提取的图像特征就越多,网络在识别新图像时效果就会越好。
线性整流层:将卷积层输出结果进行非线性映射。CNN采用的线性整流层一般为修正线性单元(The Rectified Linear Unit,ReLU),它的特点是收敛快,梯度计算简便,故能提升训练速度,不会对模型的泛化准确度造成较大影响。
池化层:在CNN网络中卷积层之后会添加一个池化层,该池化层的作用是提取局部均值或最大值,根据计算方式分为均值池化层与最大值池化层。本方法使用最大值池化层来对数据进行池化,是因为该池化层能够提取特征映射的显著性特征值。
全连接层:全连接层(Fully Connected layer,FC),是CNN中的一个比较特殊的结构,通常起到分类的作用。它将从卷积层那里得到的高维数据铺平作为输入,然后将分类结果进行输出。本发明使用的CNN网络结构为VGG16的通用结构。
2)门控循环单元
门控循环单元(Gated Recurrent Unit,GRU)是RNN网络的一种,能够描绘连续时间内特征的变化。
GRU利用门控机制控制输入、记忆等信息,表达式如下:
z=σ(xtUh+(st-1Wz) (15)
r=σ(xtUr+st-1Wr) (16)
Figure BDA0003001549010000051
Figure BDA0003001549010000052
GRU内部有两个门,一个重置门和一个更新门。重置门决定如何将新的输入信息与前面的记忆相结合,更新门则决定前面记忆保存到当前时间的信息量。这两个门控向量决定了门控循环单元的输出信息。
GRU能够描述连续时间内的特征变化,而CNN则能够提取单帧图像的特征,两者结合则能发挥每个网络的优势。具体结合方式为n幅图像经过CNN后,首先输入到第一层GRU中得到输出,该输出作为另外两层GRU的输入,其中一层GRU负责检测出目标的置信度,另外一层GRU负责检测及预测微表情的位置。
步骤4:网络模型的训练与微表情检测
1)网络模型训练
实际视频段中的微表情只占视频段的一部分,可以将目标检测的算法应用到微表情检测中。在视频序列中寻找一段含有微表情的视频段,将待检测视频均分为n段,利用每一段去检测并预测微表情位置以及长度。
预测输出即为公式(19)所示:
Figure BDA0003001549010000061
其中,C为结果的置信概率,x1,x2为视频序列中微表情起始与终止坐标预测结果,构建损失函数。损失函数由分类、回归两部分组成。
分类部分GRU的损失函数为CrossEntropy,其计算公式为:
Figure BDA0003001549010000062
回归部分GRU的损失函数为MSE损失,其计算公式为:
Figure BDA0003001549010000063
进行数据训练时,使用Leave-one-object-out训练方法。在CASME2数据库中,一共有26个人脸数据,将某一个人作为测试集,将其余25个人脸数据利用公式(20)和公式(21)进行训练得到深度模型。
2)微表情检测
每次检测过程中,待检测视频段被均分为n段,如果微表情段的中心点落到这个视频段内,这个视频段会负责预测微表情的发生位置以及它的置信度,待检测视频中置信度最大的视频段所预测的微表情区间为被检测视频的预测结果。
训练结束后在微表情预测区间内的视频段中的每一帧都被标记为微表情帧,其余视频段中都被标记为非微表情帧。
有益效果:
本发明使用精确度(Precision),F1评分(F1-score),召回率(recall)三个评判指标衡量本发明的有效性。本发明在CASME2数据库上进行实验。CASME2数据库提供了原始数据,相对于其它数据库来说,该数据库在收集数据的过程中,光照更加合理,而且数据量比较多,微表情类别划分也更为合理。
附图说明:
图1为基于深度神经网络的微表情检测流程
具体实施方式:
步骤1:数据预处理
找出视频序列中人脸的位置,去除除人脸以外的噪声,为固定人脸位置以一个位置不变矩阵去裁剪整个视频序列。
1)对图像进行多尺度检测识别人脸。
检测人脸时,逐步把图像长宽同时按照一定比例缩小,对应每张图,然后使用大小固定的检测窗口器开始遍历图像。逐次移动检测窗口,窗口中的特征相应也随着窗口移动,从而遍历到图像中的每一个位置,找到图像中人脸位置(x0,y0),(x1,y1),完成人脸检测。
2)对人脸检测所得到的结果进行处理
人脸检测所得到两个坐标(x0,y0),(x1,y1),两个坐标中间的矩形区域为人脸检测的结果。人脸检测的结果不可以直接传输到卷积神经网络中,因为人脸检测的结果范围比较大,包含了耳机、头发等会对深度学习过程产生影响的信息,需要在人脸识别的基础上再进行切割。将原坐标左上角的坐标(x0,y0)和右下角的坐标(x1,y1)经过处理后得到新的坐标(x’0,y0’)(x’1,y’1):
(x’0,y’0)=(x0+a,y0-b) (22)
(x’1,y’1)=(x1-a,y1+b) (23)
a为横向切割距离,b为纵向切割距离。
3)对视频序列进行统一切割处理
将每段视频的第一帧图像作为参考帧,以长视频的第一幅人脸图像为模型脸,获取模型脸的切割矩阵,切割矩阵用来对视频序列剩余图像进行切割,从而完成数据预处理。
步骤2:图像序列的运动特征描述
1)提取视频序列光流特征
通过光流法,提取视频序列的运动特征。光流场是一个二维矢量场,它反映了图像上每一点亮度的变化趋势。用视频序列中像素在时间域上的亮度变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,此对应关系能够反映出视频序列中亮度的微小变化,得到人面部的运动信息。
光流法分为稀疏光流法以及稠密光流法,稀疏光流法针对图像中的某一点去研究它的位置变化,而稠密光流法针对图像全局的亮度变化。故本发明使用的为稠密光流法。
稠密光流法假设在t时刻,像素点(x,y)处灰度值为I(x,y,t);在(t+Δt),该点运动到新的位置,它在图像上的位置变为(x+Δx,y+Δy),灰度值记为I(x+Δx,y+Δy)。该算法假设物体上同一个点在图像中的灰度是不变的,即使物体发生了运动。满足
Figure BDA0003001549010000071
则:
I(x,y,t)=I(x+Δx,y+Δy,t+Δt) (24)
设u和v分别为该点的光流矢量沿x和y方向的两个分量,且
Figure BDA0003001549010000072
将式(24)右边用泰勒公式展开,得到:
Figure BDA0003001549010000081
ε为二次以上的高次项,值很小,可以忽略。得到:
Figure BDA0003001549010000082
由于Δt→0,于是有:
Figure BDA0003001549010000083
即:
Ixu+Iyv+It=0 (28)
式(28)是光流基本等式。设Ix,Iy和It分别为参考点像素的灰度值沿x,y,t这三个方向的偏导数。
在求解光流时,要求光流本身尽可能地平滑,即引入对光流的整体平滑性约束求解光流方程病态问题。平滑,就是在给定的领域内
Figure BDA0003001549010000084
应尽量地小,这就是求条件极值时的约束条件。对u,v的附加条件如下:
Figure BDA0003001549010000085
式中
Figure BDA0003001549010000086
是u的拉普拉斯算子,
Figure BDA0003001549010000087
是v的拉普拉斯算子。综合式(28)和式(29),算法将光流u,v计算归结为如下问题:
Figure BDA0003001549010000088
因而,可以得到其相应的欧拉-拉格朗日方程,并利用高斯-塞德尔方法进行求解,得到图像每个次置第一次至第(n+1)次迭代估计(un+1,vn+1)为:
Figure BDA0003001549010000089
Figure BDA00030015490100000810
经过迭代计算便得到最终光流场。对视频序列每帧图像都提取光流特征,得到整个光流特征序列。
2)光流特征序列的归一化处理
使用插值法进行视频序列归一化,视频中相邻两帧的时间间隔很短,两帧中的内容的变化较小,我们可以把两帧中内容的变化看作线性运动。求出该线性运动的运动轨迹,就能根据该运动轨迹以及输入输出帧的时间关系来进行内容位置的调整。
每幅图像某一点处的像素值大小以及时间为(B1,t1),(B2,t2),得到输出帧同一点像素值为(B,t)。计算公式为:
Figure BDA0003001549010000091
步骤3:网络模型的构建
1)卷积神经网络
卷积神经网络(Convolutional Neural Network,CNN)是一种层级结构,主要包括卷积层、线性整流层、池化层和全连接层。
卷积层:卷积运算的目的是提取输入的不同特征,第一层卷积层能提取一些低级的特征如边缘、线条和角等特征,更多层的网络能从低级特征中迭代提取更复杂的特征。
其中卷积公式为:
Figure BDA0003001549010000092
式中x(p),h(p)为一维数据向量。由于卷积神经网络运算过程中数据是离散的,所以公式(34)可转化为:
Figure BDA0003001549010000093
一个过滤器在输入图像上移动(卷积操作)以生成特征映射。在同一张图像上,不同过滤器的卷积会生成不同的特征映射。卷积神经网络在训练过程中会自动学习这些过滤器的值。拥有的过滤器数目越多,提取的图像特征就越多,网络在识别新图像时效果就会越好。
线性整流层:将卷积层输出结果进行非线性映射。CNN采用的线性整流层一般为修正线性单元(The Rectified Linear Unit,ReLU),它的特点是收敛快,梯度计算简便,故能提升训练速度,不会对模型的泛化准确度造成较大影响。
池化层:在CNN网络中卷积层之后会添加一个池化层,该池化层的作用是提取局部均值或最大值,根据计算方式分为均值池化层与最大值池化层。本方法使用最大值池化层来对数据进行池化,是因为该池化层能够提取特征映射的显著性特征值。
全连接层:全连接层(Fully Connected layer,FC),是CNN中的一个比较特殊的结构,通常起到分类的作用。它将从卷积层那里得到的高维数据铺平作为输入,然后将分类结果进行输出。本发明使用的CNN结构为通用的VGG16结构。
2)门控循环单元
门控循环单元(Gated Recurrent Unit,GRU)是RNN网络的一种,能够描绘连续时间内特征的变化。
GRU利用门控机制控制输入、记忆等信息而在当前时间步做出预测,表达式如下:
z=σ(xtUh+(st-1Wz) (36)
r=σ(xtUr+st-1Wr) (37)
Figure BDA0003001549010000101
Figure BDA0003001549010000102
GRU有两个门,即一个重置门和一个更新门。重置门决定如何将新的输入信息与前面的记忆相结合,更新门定义前面记忆保存到当前时间步的量。这两个门控向量决定了哪些信息最终能作为门控循环单元的输出。
GRU能够描述连续时间内的特征变化,而CNN则能够提取单帧图像的特征,两者结合则能发挥每个网络的优势。具体结合方式为n幅图像经过CNN后,首先输入到第一层GRU中得到输出,该输出作为另外两层GRU的输入,其中一层GRU负责检测出目标的置信度,另外一层GRU负责检测及预测微表情的位置。
步骤4:网络模型的训练与微表情检测
1)网络模型训练
视频段中的微表情只占视频段的一部分,可以将目标检测的算法应用到微表情检测中。在视频序列中寻找一段含有微表情的视频段,将待检测视频均分为n段,利用每一段去检测并预测微表情位置以及长度。
预测输出可以用公式表示为:
Figure BDA0003001549010000103
其中,C为结果的置信概率,b1,b2为窗口的前后坐标通过预测结果、实际结果,构建损失函数。损失函数包含了分类、回归两部分组成。
两个模块分别具有不同的任务以及不同的损失函数。
分类部分GRU的损失函数为CrossEntropy,其计算公式为:
Figure BDA0003001549010000111
回归部分GRU的损失函数为MSE损失,其计算公式为:
Figure BDA0003001549010000112
2)微表情检测
每次检测过程中,待检测视频段被均分为n段,如果微表情段的中心点落到这个视频段内,那么这个视频段会去检测以及预测微表情的长度及区间以及它的置信度,待检测视频中置信度最大的视频段所预测的微表情区间为被检测视频的预测结果。
训练结束后在微表情预测区间内的视频段中的每一帧都被标记为微表情帧,其余视频段中都被标记为非微表情帧。

Claims (1)

1.本发明提出了一种基于深度神经网络的微表情检测方法,其特征主要分为四个部分:数据预处理、图像序列的运动特征描述、网络模型的构建和网络模型的训练与微表情检测;
(1)数据预处理
本发明对将要输入深度神经网络的数据进行预处理,减少因人脸的大小和位置等因素对人像检测所带来的影响,包含三步:对图像进行多尺度检测识别人脸、对人脸检测所得到的结果进行处理、对视频序列进行统一切割处理;将每段视频的第一帧图像作为参考帧,以长视频的第一幅人脸图像为模型脸,获取模型脸的切割矩阵,切割矩阵用来对视频序列剩余图像进行切割,从而完成数据预处理;
(2)图像序列的运动特征描述
通过光流法,提取视频序列的运动特征,光流场是一个二维矢量场,它反映了图像上每一点灰度的变化趋势;算法假设物体上同一个点在图像中的灰度是不变的,即使物体发生了运动,即:
I(x,y,t)=I(x+Δx,y+Δy,t+Δt) (1)
在t时刻,像素点(x,y)处灰度值为I(x,y,t);在(t+Δt),该点运动到新的位置,它在图像上的位置变为(x+Δx,y+Δy),灰度值记为I(x+Δx,y+Δy);
设u和v分别为该点的光流矢量沿x和y方向的两个分量:
Figure FDA0003001549000000011
将式(1)右边用泰勒公式展开,忽略二次及以上的高次项,且视频序列中Δt→0,于是有:
Ixu+Iyv+It=0 (3)
式(3)是光流基本等式,设Ix,Iy和It分别为参考点像素的灰度值沿x,y,t这三个方向的偏导数;在求解光流(u,v)时,要求光流本身尽可能地平滑,即引入对光流的整体平滑性约束求解光流方程病态问题;对u,v的附加条件如下:
Figure FDA0003001549000000012
式中
Figure FDA0003001549000000013
是u的拉普拉斯算子,
Figure FDA0003001549000000014
是v的拉普拉斯算子,综合式(3)和式(4),算法将光流u,v计算归结为如下问题:
Figure FDA0003001549000000015
因而,可以得到其相应的欧拉-拉格朗日方程,并利用高斯-塞德尔方法进行求解,得到图像每个次置第一次至第(n+1)次迭代估计(un+1,vn+1)为:
Figure FDA0003001549000000016
Figure FDA0003001549000000017
经过迭代计算便得到最终光流场,对视频序列每帧图像都提取光流特征,得到整个光流特征序列;
对光流特征序列归一化处理,视频中相邻两帧的时间间隔很短,两帧中的内容变化较小,因此,可以将两帧中内容的变化看作线性运动;求出该线性运动的运动轨迹,就能根据该运动轨迹和输入输出帧的时间关系进行内容位置的调整;前后两幅图像的像素值大小以及时间为(B1,t1),(B2,t2),使用公式(8)得到中间帧即输出帧为(B,t);
Figure FDA0003001549000000021
(3)网络模型的构建
本发明提出一个卷积神经网络与门控循环单元相结合检测微表情的网络模型;门控循环单元(GRU)是RNN网络的一种,能够描绘连续时间内特征的变化;而卷积神经网络(CNN)则能够提取单帧图像的特征,两者结合则能发挥每个网络的优势;具体结合方式为n幅图像经过CNN后,首先输入到第一层GRU中得到输出,该输出作为另外两层GRU的输入,其中一层GRU负责检测出目标的置信度,另外一层GRU负责检测及预测微表情的位置;
(4)网络模型的训练与微表情检测
在视频序列中寻找一段含有微表情的视频段,将待检测视频均分为n段,利用每一段去检测并预测微表情位置以及长度,预测输出即为公式(10)所示:
Figure FDA0003001549000000022
其中,C为结果的置信概率,x1,x2为视频序列中微表情起始与终止坐标预测结果,构建损失函数,损失函数由分类、回归两部分组成;
分类部分GRU1的损失函数为CrossEntropy,其计算公式为:
Figure FDA0003001549000000023
回归部分GRU2的损失函数为MSE损失,其计算公式为:
Figure FDA0003001549000000024
每次检测过程中,待检测视频段被均分为n段,如果微表情段的中心点落到这个视频段内,这个视频段会负责预测微表情的发生位置以及它的置信度,待检测视频中置信度最大的视频段所预测的微表情区间为被检测视频的预测结果;
训练结束后在微表情预测区间内的视频段中的每一帧都被标记为微表情帧,其余视频段中都被标记为非微表情帧。
CN202110348364.9A 2021-03-31 2021-03-31 一种基于深度神经网络的微表情检测方法 Pending CN113095183A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110348364.9A CN113095183A (zh) 2021-03-31 2021-03-31 一种基于深度神经网络的微表情检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110348364.9A CN113095183A (zh) 2021-03-31 2021-03-31 一种基于深度神经网络的微表情检测方法

Publications (1)

Publication Number Publication Date
CN113095183A true CN113095183A (zh) 2021-07-09

Family

ID=76671765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110348364.9A Pending CN113095183A (zh) 2021-03-31 2021-03-31 一种基于深度神经网络的微表情检测方法

Country Status (1)

Country Link
CN (1) CN113095183A (zh)

Citations (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105628951A (zh) * 2015-12-31 2016-06-01 北京小孔科技有限公司 用于测量对象的速度的方法和装置
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN106897670A (zh) * 2017-01-19 2017-06-27 南京邮电大学 一种基于计算机视觉的快递暴力分拣识别方法
CN107292291A (zh) * 2017-07-19 2017-10-24 北京智芯原动科技有限公司 一种车辆识别方法和系统
CN107301385A (zh) * 2017-06-09 2017-10-27 浙江宇视科技有限公司 一种遮挡车牌识别方法及装置
CN107358206A (zh) * 2017-07-13 2017-11-17 山东大学 一种基于感兴趣区域的光流特征矢量模值和角度结合的微表情检测方法
CN107563387A (zh) * 2017-09-14 2018-01-09 成都掌中全景信息技术有限公司 一种基于循环神经网络的图像目标检测选框方法
CN107909020A (zh) * 2017-11-09 2018-04-13 东南大学 一种基于滤波器设计的光流向量微表情发生阶段检测方法
CN108230352A (zh) * 2017-01-24 2018-06-29 北京市商汤科技开发有限公司 目标对象的检测方法、装置和电子设备
CN108985237A (zh) * 2018-07-20 2018-12-11 安徽农业大学 一种基于深度混合的小麦赤霉病的检测方法及其系统
CN109214330A (zh) * 2018-08-30 2019-01-15 北京影谱科技股份有限公司 基于视频时序信息的视频语义分析方法和装置
CN109886165A (zh) * 2019-01-23 2019-06-14 中国科学院重庆绿色智能技术研究院 一种基于运动目标检测的动作视频提取和分类方法
CN110175596A (zh) * 2019-06-04 2019-08-27 重庆邮电大学 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
CN110363159A (zh) * 2019-07-17 2019-10-22 腾讯科技(深圳)有限公司 图像识别方法、装置、电子设备及计算机可读存储介质
CN110363093A (zh) * 2019-06-19 2019-10-22 深圳大学 一种司机动作识别方法及装置
CN110909622A (zh) * 2019-10-31 2020-03-24 中国科学院深圳先进技术研究院 微表情识别金融风控方法及系统
CN111079655A (zh) * 2019-12-18 2020-04-28 航天物联网技术有限公司 一种基于融合神经网络的视频中人体行为识别方法
CN111582212A (zh) * 2020-05-15 2020-08-25 山东大学 一种基于运动单元的多域融合微表情检测方法
CN111724408A (zh) * 2020-06-05 2020-09-29 广东海洋大学 基于5g通信下异常驾驶行为算法模型的验证实验方法
CN111723243A (zh) * 2020-06-15 2020-09-29 南京领行科技股份有限公司 一种动作片段检测方法、装置、设备及介质
CN111933109A (zh) * 2020-07-24 2020-11-13 南京烽火星空通信发展有限公司 一种音频监测方法及系统
CN112232191A (zh) * 2020-10-15 2021-01-15 南京邮电大学 基于微表情分析的抑郁症识别系统
CN112307943A (zh) * 2020-10-29 2021-02-02 宁波海棠信息技术有限公司 一种水域人船目标检测方法、系统、终端及介质
CN112434614A (zh) * 2020-11-26 2021-03-02 天津大学 一种基于Caffe框架的滑窗动作检测方法
CN112434627A (zh) * 2020-11-30 2021-03-02 浙江大华技术股份有限公司 行人翻越道路护栏的检测方法、装置以及存储介质
CN112487913A (zh) * 2020-11-24 2021-03-12 北京市地铁运营有限公司运营四分公司 一种基于神经网络的标注方法、装置及电子设备

Patent Citations (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105628951A (zh) * 2015-12-31 2016-06-01 北京小孔科技有限公司 用于测量对象的速度的方法和装置
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN106897670A (zh) * 2017-01-19 2017-06-27 南京邮电大学 一种基于计算机视觉的快递暴力分拣识别方法
CN108230352A (zh) * 2017-01-24 2018-06-29 北京市商汤科技开发有限公司 目标对象的检测方法、装置和电子设备
CN107301385A (zh) * 2017-06-09 2017-10-27 浙江宇视科技有限公司 一种遮挡车牌识别方法及装置
CN107358206A (zh) * 2017-07-13 2017-11-17 山东大学 一种基于感兴趣区域的光流特征矢量模值和角度结合的微表情检测方法
CN107292291A (zh) * 2017-07-19 2017-10-24 北京智芯原动科技有限公司 一种车辆识别方法和系统
CN107563387A (zh) * 2017-09-14 2018-01-09 成都掌中全景信息技术有限公司 一种基于循环神经网络的图像目标检测选框方法
CN107909020A (zh) * 2017-11-09 2018-04-13 东南大学 一种基于滤波器设计的光流向量微表情发生阶段检测方法
CN108985237A (zh) * 2018-07-20 2018-12-11 安徽农业大学 一种基于深度混合的小麦赤霉病的检测方法及其系统
CN109214330A (zh) * 2018-08-30 2019-01-15 北京影谱科技股份有限公司 基于视频时序信息的视频语义分析方法和装置
CN109886165A (zh) * 2019-01-23 2019-06-14 中国科学院重庆绿色智能技术研究院 一种基于运动目标检测的动作视频提取和分类方法
CN110175596A (zh) * 2019-06-04 2019-08-27 重庆邮电大学 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
CN110363093A (zh) * 2019-06-19 2019-10-22 深圳大学 一种司机动作识别方法及装置
CN110363159A (zh) * 2019-07-17 2019-10-22 腾讯科技(深圳)有限公司 图像识别方法、装置、电子设备及计算机可读存储介质
CN110909622A (zh) * 2019-10-31 2020-03-24 中国科学院深圳先进技术研究院 微表情识别金融风控方法及系统
CN111079655A (zh) * 2019-12-18 2020-04-28 航天物联网技术有限公司 一种基于融合神经网络的视频中人体行为识别方法
CN111582212A (zh) * 2020-05-15 2020-08-25 山东大学 一种基于运动单元的多域融合微表情检测方法
CN111724408A (zh) * 2020-06-05 2020-09-29 广东海洋大学 基于5g通信下异常驾驶行为算法模型的验证实验方法
CN111723243A (zh) * 2020-06-15 2020-09-29 南京领行科技股份有限公司 一种动作片段检测方法、装置、设备及介质
CN111933109A (zh) * 2020-07-24 2020-11-13 南京烽火星空通信发展有限公司 一种音频监测方法及系统
CN112232191A (zh) * 2020-10-15 2021-01-15 南京邮电大学 基于微表情分析的抑郁症识别系统
CN112307943A (zh) * 2020-10-29 2021-02-02 宁波海棠信息技术有限公司 一种水域人船目标检测方法、系统、终端及介质
CN112487913A (zh) * 2020-11-24 2021-03-12 北京市地铁运营有限公司运营四分公司 一种基于神经网络的标注方法、装置及电子设备
CN112434614A (zh) * 2020-11-26 2021-03-02 天津大学 一种基于Caffe框架的滑窗动作检测方法
CN112434627A (zh) * 2020-11-30 2021-03-02 浙江大华技术股份有限公司 行人翻越道路护栏的检测方法、装置以及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
张智峰: "基于深度学习的视频插帧技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张智峰: "基于深度学习的视频插帧技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2020, no. 6, 15 June 2020 (2020-06-15), pages 2 *
熊成鑫: "视频时序动作检测研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2021, no. 2, pages 15 - 16 *
谢利萍: "基于视频的人脸表情识别", 《中国博士学位论文全文数据库 信息科技辑》, vol. 2018, no. 2, 15 February 2018 (2018-02-15), pages 2 *
谢利萍: "基于视频的人脸表情识别", 《中国博士学位论文全文数据库 信息科技辑》, vol. 2018, no. 2, pages 2 *

Similar Documents

Publication Publication Date Title
CN110070074B (zh) 一种构建行人检测模型的方法
CN108492319B (zh) 基于深度全卷积神经网络的运动目标检测方法
CN109146921B (zh) 一种基于深度学习的行人目标跟踪方法
Hu et al. Active contour-based visual tracking by integrating colors, shapes, and motions
CN102324025B (zh) 基于高斯肤色模型和特征分析的人脸检测与跟踪方法
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN109146911B (zh) 一种目标跟踪的方法及装置
EP2061008A1 (en) Method and device for continuous figure-ground segmentation in images from dynamic visual scenes
CN112489081B (zh) 一种视觉目标跟踪方法及装置
CN111476161A (zh) 一种融合图像和生理信号双通道的体感动态手势识别方法
CN112085765B (zh) 结合粒子滤波及度量学习的视频目标跟踪方法
CN111340881B (zh) 一种动态场景下基于语义分割的直接法视觉定位方法
CN110728694A (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN108830170A (zh) 一种基于分层特征表示的端到端目标跟踪方法
CN106529441B (zh) 基于模糊边界分片的深度动作图人体行为识别方法
Wang et al. Detection of small aerial object using random projection feature with region clustering
CN115131760A (zh) 一种基于改进特征匹配策略的轻量级车辆追踪方法
Chebli et al. Pedestrian detection based on background compensation with block-matching algorithm
Xu et al. Hierarchical convolution fusion-based adaptive Siamese network for infrared target tracking
CN114639136B (zh) 一种基于浅层网络的长视频微表情检测方法
CN110688512A (zh) 基于ptgan区域差距与深度神经网络的行人图像搜索算法
Guo et al. Small aerial target detection using trajectory hypothesis and verification
CN115880332A (zh) 一种低空飞行器视角的目标跟踪方法
CN113095183A (zh) 一种基于深度神经网络的微表情检测方法
Guangjing et al. Research on static image recognition of sports based on machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination