CN116645718A - 一种基于多流架构的微表情识别方法及系统 - Google Patents
一种基于多流架构的微表情识别方法及系统 Download PDFInfo
- Publication number
- CN116645718A CN116645718A CN202310681829.1A CN202310681829A CN116645718A CN 116645718 A CN116645718 A CN 116645718A CN 202310681829 A CN202310681829 A CN 202310681829A CN 116645718 A CN116645718 A CN 116645718A
- Authority
- CN
- China
- Prior art keywords
- optical flow
- micro
- frame
- expression
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000003287 optical effect Effects 0.000 claims abstract description 149
- 238000004364 calculation method Methods 0.000 claims abstract description 31
- 230000014509 gene expression Effects 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 36
- 238000001514 detection method Methods 0.000 claims description 18
- 230000000694 effects Effects 0.000 abstract description 10
- 230000008859 change Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000013526 transfer learning Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000005286 illumination Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000001097 facial muscle Anatomy 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提供了表情识别技术领域的一种基于多流架构的微表情识别方法及系统,方法包括:步骤S10、获取人像视频,对人像视频中的各帧人头图像的人脸进行关键点检测;步骤S20、基于各关键点对各帧人头图像进行对齐、剪裁以及缩放的预处理,得到若干张人脸图像;步骤S30、对各人脸图像进行光流计算,得到光流图像序列;步骤S40、基于光流图像序列计算光流Strain;步骤S50、利用三维快速傅里叶变换检测各人脸图像中的顶点帧;步骤S60、使用多流框架对顶点帧进行微表情特征提取,进而对微表情进行识别。本发明的优点在于:极大的提升了微表情特征的判别能力,进而极大的提升了微表情识别效果。
Description
技术领域
本发明涉及表情识别技术领域,特别指一种基于多流架构的微表情识别方法及系统。
背景技术
随着科技的进步,人工智能也在不断发展,其中便包括表情识别技术,通过自动识别视频中人物的微表情,可快速判断当前人物的心情以及心理活动。然而,传统的微表情识别方法难以从不同的维度,全面地提取微表情的分类信息,导致微表情特征的判别能力欠佳,直接影响微表情的识别效果。
因此,如何提供一种基于多流架构的微表情识别方法及系统,实现提升微表情特征的判别能力,进而提升微表情识别效果,成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题,在于提供一种基于多流架构的微表情识别方法及系统,实现提升微表情特征的判别能力,进而提升微表情识别效果。
第一方面,本发明提供了一种基于多流架构的微表情识别方法,包括如下步骤:
步骤S10、获取人像视频,对所述人像视频中的各帧人头图像的人脸进行关键点检测;
步骤S20、基于各所述关键点对各帧人头图像进行对齐、剪裁以及缩放的预处理,得到若干张人脸图像;
步骤S30、对各所述人脸图像进行光流计算,得到光流图像序列;
步骤S40、基于所述光流图像序列的水平光流分量以及竖直光流分量,计算用于描述光流场形变程度的光流Strain;
步骤S50、利用三维快速傅里叶变换检测各所述人脸图像中的顶点帧;
步骤S60、使用多流框架对所述顶点帧进行微表情特征提取,进而对微表情进行识别。
进一步的,所述步骤S10具体为:
获取人像视频,通过主动形状模型对所述人像视频中的各帧人头图像的人脸进行68个关键点的检测。
进一步的,所述步骤S20具体为:
从各所述关键点获取各帧人头图像中左眼内角点和右眼内角点,基于所述左眼内角点和右眼内角点的连线对各帧人头图像进行旋转对齐,再基于各所述关键点对人头图像中的人脸区域进行剪裁,将剪裁后的各所述人脸区域缩放到统一尺寸,以完成各帧所述人头图像的预处理,得到若干张人脸图像。
进一步的,所述步骤S60中,所述多流框架由空间特征提取模块、动态特征提取模块以及分类器组成。
进一步的,所述空间特征提取模块由ResNet-18网络构成,用于从所述顶点帧中提取空间纹理特征;所述动态特征提取模块由PCANet+网络构成,输入为水平光流分量、竖直光流分量以及光流Strain,用于提取微表情的运动信息;所述分类器用于对包括空间纹理特征以及运动信息的微表情特征进行分类识别。
第二方面,本发明提供了一种基于多流架构的微表情识别系统,包括如下模块:
关键点检测模块,用于获取人像视频,对所述人像视频中的各帧人头图像的人脸进行关键点检测;
人头图像预处理模块,用于基于各所述关键点对各帧人头图像进行对齐、剪裁以及缩放的预处理,得到若干张人脸图像;
光流计算模块,用于对各所述人脸图像进行光流计算,得到光流图像序列;
光流Strain计算模块,用于基于所述光流图像序列的水平光流分量以及竖直光流分量,计算用于描述光流场形变程度的光流Strain;
顶点帧检测模块,用于利用三维快速傅里叶变换检测各所述人脸图像中的顶点帧;
微表情识别模块,用于使用多流框架对所述顶点帧进行微表情特征提取,进而对微表情进行识别。
进一步的,所述关键点检测模块具体用于:
获取人像视频,通过主动形状模型对所述人像视频中的各帧人头图像的人脸进行68个关键点的检测。
进一步的,所述人头图像预处理模块具体用于:
从各所述关键点获取各帧人头图像中左眼内角点和右眼内角点,基于所述左眼内角点和右眼内角点的连线对各帧人头图像进行旋转对齐,再基于各所述关键点对人头图像中的人脸区域进行剪裁,将剪裁后的各所述人脸区域缩放到统一尺寸,以完成各帧所述人头图像的预处理,得到若干张人脸图像。
进一步的,所述微表情识别模块中,所述多流框架由空间特征提取模块、动态特征提取模块以及分类器组成。
进一步的,所述空间特征提取模块由ResNet-18网络构成,用于从所述顶点帧中提取空间纹理特征;所述动态特征提取模块由PCANet+网络构成,输入为水平光流分量、竖直光流分量以及光流Strain,用于提取微表情的运动信息;所述分类器用于对包括空间纹理特征以及运动信息的微表情特征进行分类识别。
本发明的优点在于:
通过对获取的人像视频中的各帧人头图像的人脸进行关键点检测,基于各关键点对各帧人头图像进行对齐、剪裁以及缩放的预处理,得到若干张人脸图像,对人脸图像进行光流计算,得到光流图像序列;接着基于光流图像序列的水平光流分量以及竖直光流分量计算光流Strain,基于光流Strain,利用三维快速傅里叶变换检测各人脸图像中的顶点帧,最后使用多流框架对顶点帧进行微表情特征提取,进而对微表情进行识别;由于多流框架的空间特征提取模块由基于迁移学习的ResNet-18网络构成,动态特征提取模块由PCANet+网络构成,并通过水平光流分量、竖直光流分量以及光流Strain进行多维度的动态特征(微表情的运动信息)提取,通过结合多维的空间特征和动态特征,极大的提升了微表情特征的判别能力,进而极大的提升了微表情识别效果。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种基于多流架构的微表情识别方法的流程图。
图2是本发明一种基于多流架构的微表情识别系统的结构示意图。
图3是本发明多流架构的示意图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:通过多流框架进行微表情特征提取,而多流框架的空间特征提取模块由基于迁移学习的ResNet-18网络构成,动态特征提取模块由PCANet+网络构成,并通过水平光流分量、竖直光流分量以及光流Strain进行多维度的动态特征提取,通过结合多维的空间特征和动态特征,以提升微表情特征的判别能力,进而提升微表情识别效果。
请参照图1至图3所示,本发明一种基于多流架构的微表情识别方法的较佳实施例,包括如下步骤:
步骤S10、获取人像视频,对所述人像视频中的各帧人头图像的人脸进行关键点检测;
步骤S20、基于各所述关键点对各帧人头图像进行对齐、剪裁以及缩放的预处理,得到若干张人脸图像;
步骤S30、对各所述人脸图像进行光流计算,得到光流图像序列;
步骤S40、基于所述光流图像序列的水平光流分量以及竖直光流分量,计算用于描述光流场形变程度的光流Strain;
步骤S50、利用三维快速傅里叶变换(Fast Fourier Transform,FFT)检测各所述人脸图像中的顶点帧;所述顶点帧是根据原始微表情图像序列处理的;
步骤S60、使用多流框架对所述顶点帧进行微表情特征提取,进而对微表情进行识别。
所述步骤S10具体为:
获取人像视频,通过主动形状模型对所述人像视频中的各帧人头图像的人脸进行68个关键点的检测。
主动形状模型是在点分布模型的基础上建立的,在检测人脸时综合考虑了图像的灰度、大小、形状和大致位置等先验知识,通过对训练集标注的特征点进行学习,获取训练图像样本特征点分布的统计模型,并以此为初始位置,通过不断迭代得到目标图像的形状模型,最后在测试集上应用形状约束,搜索最佳匹配的点,从而实现对人脸特征点(关键点)的定位。
所述步骤S20具体为:
从各所述关键点获取各帧人头图像中左眼内角点和右眼内角点,基于所述左眼内角点和右眼内角点的连线对各帧人头图像进行旋转对齐,再基于各所述关键点对人头图像中的人脸区域进行剪裁,将剪裁后的各所述人脸区域缩放到统一尺寸,以完成各帧所述人头图像的预处理,得到若干张人脸图像。
为了消除头部转动和偏移给微表情识别带来的影响,需要根据检测到的关键点对人头图像进行人脸对齐;由于左眼内角和右眼内角的特征点在人脸中的相对位置是比较稳定的,不会因为面部肌肉运动而发生改变,因此本发明根据左眼内角点和右眼内角点的连线进行水平对齐,然后根据对齐后的图像以及关键点对人脸区域进行剪裁,去除人头图像中的衣服、背景和头发等与微表情无关的区域;由于人头图像中头部的旋转以及距摄像头远近等因素的变化,剪裁得到的人脸图像大小并不完全一致,为了适应后续网络对输入尺寸的要求,需要对尺寸进行统一。
所述步骤S40中,光流是图像平面上的一个二维向量场,描述了一个视频序列中连续两帧的像素运动的瞬时速度;为了提高PCANet+网络特征学习的效果,本发明对微表情的图像序列(人脸图像)进行密集光流计算,以增强面部运动信息。光流计算依赖两个基本假设:1、亮度保持不变,即物体在运动及拍摄过程中对应位置像素的亮度在图像序列中是保持不变的;2、时间连续性,即相邻帧之间目标像素的运动不能过于剧烈,这样可以保证像素坐标在时间上连续可微。
光流计算过程如下:
光流法将一个图像序列表示为一个三维矩阵,序列中的某个像素的亮度表示为I(x,y,t),其中x,y,t为其时空坐标,该像素经过Δt的时间到达下一帧,并且在图像中完成了Δx,Δy的位移,根据亮度保持不变的假设,运动前后像素的强度恒定,得到如下公式:
I(x,y,t)=I(x+Δx,y+Δy,t+Δt)---------------------------(1)
根据时间连续性的假设,对公式(1)的右侧进行泰勒展开,得到如下公式:
其中,ε表示高阶无穷小,可忽略;将公式(2)代入公式(1)并除以Δt,得到如下公式:
令u和v分别表示像素在x轴和y轴的速度矢量,即u=Δx/Δt,v=Δy/Δt,将其代入公式(3),得到如下公式:
Ixu+Iyv+It=0---------------------------------------(4)
(u,v)便是像素在Δt时间内产生的光流场,可以通过添加约束条件解得;添加不同的约束条件,可以得到不同的光流场计算方法。本发明将TV-L1算法应用于光流场的计算中,TV-L1算法引入了子空间轨迹模型来保证光流的时间一致性,同时可以保留图像中的边缘特征;对于微表情序列中的一个像素点,首先使用公式(5)所示的光流估计损失函数来计算连续的光流场:
其中,L表示微表情图像序列的长度;表示用于构造轨迹空间的R基轨迹;/>表示图像的空间域;lin:/>表示映射函数,可以将光流场u(t),v(t)映射到由R基轨迹构造的新空间;公式(5)的第一项表示亮度恒定约束的惩罚项,第二项用于使导出的光流位于基轨迹上,第三项表示轨迹模型系数基于总变差的空间正则化。
设一个微表情图像序列为将其第一帧设置为参考帧,根据上述光流计算方法计算出其余所有帧的水平方向和竖直方向的光流分量U,/>接着将计算得到的光流序列以帧单位进行堆叠,输入到PCANet+网络中;对于光流序列U,/>分别使用大小为T,步长为s的滑动窗口对其进行采样,得到两个子序列集μ和ν,其定义如公式(6):
其中,通过多通道堆叠操作将每个视频片段的水平方向和竖直方向的光流序列分别以T帧进行堆叠,得到两个通道数为T的光流图像序列。
所述步骤S50中,所述光流Strain的公式为:
其中,(εxx,εyy)表示光流的法向应变分量;(εxy,εyx)表示光流的切应变分量。
像素的光流Strain特征使用法向应变分量和切应变分量的平方和计算:
所述步骤S60中,基于三维快速傅里叶变换的顶点帧检测,不仅分析了微表情在频域的快速变化,同时利用了空间和时间的整体信息,能够更加准确地完成对顶点帧的检测;其基本思想是用短间隔的频率分量来表示每个微表情帧,然后通过比较频率来检测顶点帧。
由于频率信息对光照变化十分敏感,在进行频率分析之前,先使用灰度不变的局部二值模式来提取微表情帧的纹理图,以抑制照明变化对频率的影响,然后以指定的时间间隔获得连续视频帧的频率,将面部区域均匀地分割成大小相同的6×6个块,然后在时间维度使用滑动窗口对块进行分割,并通过三维快速傅立叶变换将每个窗口区间内的视频块变换到频域。给定长度为T的滑动窗口,使用公式(9)可以计算得到第i个间隔的第j个块的频率值:
其中,(u,v,q)表示频域中的坐标;Lb和Wb分别表示第i个窗口区间中第j(j={1,2,...,36})个视频块bij的高度和宽度。由于像素变化较快的顶点帧具有较高的频率信息,而变化微弱的其他视频帧包含了无用的低频信息,因此使用高通滤波器保留高频率的信息,同时减少微表情序列中不变像素对顶点帧检测的影响。高通滤波器的公式如下:
Gbij(u,v,q)=Fbij(u,v,q)×Hbij(u,v,q)-----------------------------(10)
由于微表情产生的运动只在面部较少的区域发生,顶点帧的出现会导致面部某些特定块的频率更高,为了减少冗余信息,从36个块中挑选出前N个频率值最大的块,然后将这些块的高通滤波结果相加,从而计算得到第i个视频区间的频率幅度:
使用上述计算步骤可以获得所有视频区间的频率信息,然后找出频率幅度最大的区间:
Api=max(Ai)-----------------------------------------------(12)
其中,Api表示在一个微表情样本中面部运动最为迅速的区间,该区间的中间帧可看做顶点帧。
所述步骤S60中,所述多流框架由空间特征提取模块、动态特征提取模块以及分类器组成;
所述空间特征提取模块由ResNet-18网络构成,用于从所述顶点帧中提取空间纹理特征;所述动态特征提取模块由PCANet+网络构成,输入为水平光流分量、竖直光流分量以及光流Strain,用于提取微表情的运动信息;所述分类器用于对包括空间纹理特征以及运动信息的微表情特征进行分类识别。
考虑到微表情数据集所包含的样本(人脸图像)数量较少,直接将ResNet-18网络在微表情数据集上进行训练和分类可能会出现过拟合的问题,因使用迁移学习来克服这一问题。
首先将ResNet-18网络在CK+宏表情数据集上进行预训练,并将训练好的网络模型的参数保存下来,然后使用训练好的模型参数重新初始化用于微表情识别的ResNet-18网络,同时根据微表情类别的数量在模型的最后添加一个全连接层。最后,为了使网络能够更好地适应微表情分类任务,使用微表情样本的顶点帧对模型进行微调,以提取更具有判别性的空间特征。在整个迁移学习的过程中,ResNet-18网络的损失函数为交叉熵损失函数。
由于PCANet+网络可以从基于多帧堆叠的光流图像中学习到更为丰富的运动信息,并且其作为浅层网络,与传统卷积神经网络相比,具有更少的网络层数和模型参数,能够有效地减少过拟合的问题。因此将两层的PCANet+作为动态特征提取网络,将微表情序列的三种光流特征分别以T帧进行堆叠,输入到三个平行的PCANet+网络中进行特征提取。然后将最后一个卷积层输出的特征图进行二值化编码和分块后,对得到的每一块特征进行直方图统计,并将所有直方图特征连接在一起作为该流的分类特征。
最后,将ResNet-18网络最后一个全连接层的输出特征与三个PCANet+网络输出的直方图特征级联,输入到分类器中进行分类。
本发明一种基于多流架构的微表情识别系统的较佳实施例,包括如下模块:
关键点检测模块,用于获取人像视频,对所述人像视频中的各帧人头图像的人脸进行关键点检测;
人头图像预处理模块,用于基于各所述关键点对各帧人头图像进行对齐、剪裁以及缩放的预处理,得到若干张人脸图像;
光流计算模块,用于对各所述人脸图像进行光流计算,得到光流图像序列;
光流Strain计算模块,用于基于所述光流图像序列的水平光流分量以及竖直光流分量,计算用于描述光流场形变程度的光流Strain;
顶点帧检测模块,用于利用三维快速傅里叶变换(Fast Fourier Transform,FFT)检测各所述人脸图像中的顶点帧;所述顶点帧是根据原始微表情图像序列处理的;
微表情识别模块,用于使用多流框架对所述顶点帧进行微表情特征提取,进而对微表情进行识别。
所述关键点检测模块具体用于:
获取人像视频,通过主动形状模型对所述人像视频中的各帧人头图像的人脸进行68个关键点的检测。
主动形状模型是在点分布模型的基础上建立的,在检测人脸时综合考虑了图像的灰度、大小、形状和大致位置等先验知识,通过对训练集标注的特征点进行学习,获取训练图像样本特征点分布的统计模型,并以此为初始位置,通过不断迭代得到目标图像的形状模型,最后在测试集上应用形状约束,搜索最佳匹配的点,从而实现对人脸特征点(关键点)的定位。
所述人头图像预处理模块具体用于:
从各所述关键点获取各帧人头图像中左眼内角点和右眼内角点,基于所述左眼内角点和右眼内角点的连线对各帧人头图像进行旋转对齐,再基于各所述关键点对人头图像中的人脸区域进行剪裁,将剪裁后的各所述人脸区域缩放到统一尺寸,以完成各帧所述人头图像的预处理,得到若干张人脸图像。
为了消除头部转动和偏移给微表情识别带来的影响,需要根据检测到的关键点对人头图像进行人脸对齐;由于左眼内角和右眼内角的特征点在人脸中的相对位置是比较稳定的,不会因为面部肌肉运动而发生改变,因此本发明根据左眼内角点和右眼内角点的连线进行水平对齐,然后根据对齐后的图像以及关键点对人脸区域进行剪裁,去除人头图像中的衣服、背景和头发等与微表情无关的区域;由于人头图像中头部的旋转以及距摄像头远近等因素的变化,剪裁得到的人脸图像大小并不完全一致,为了适应后续网络对输入尺寸的要求,需要对尺寸进行统一。
所述光流计算模块中,光流是图像平面上的一个二维向量场,描述了一个视频序列中连续两帧的像素运动的瞬时速度;为了提高PCANet+网络特征学习的效果,本发明对微表情的图像序列(人脸图像)进行密集光流计算,以增强面部运动信息。光流计算依赖两个基本假设:1、亮度保持不变,即物体在运动及拍摄过程中对应位置像素的亮度在图像序列中是保持不变的;2、时间连续性,即相邻帧之间目标像素的运动不能过于剧烈,这样可以保证像素坐标在时间上连续可微。
光流计算过程如下:
光流法将一个图像序列表示为一个三维矩阵,序列中的某个像素的亮度表示为I(x,y,t),其中x,y,t为其时空坐标,该像素经过Δt的时间到达下一帧,并且在图像中完成了Δx,Δy的位移,根据亮度保持不变的假设,运动前后像素的强度恒定,得到如下公式:
I(x,y,t)=I(x+Δx,y+Δy,t+Δt)---------------------------(1)
根据时间连续性的假设,对公式(1)的右侧进行泰勒展开,得到如下公式:
其中,ε表示高阶无穷小,可忽略;将公式(2)代入公式(1)并除以Δt,得到如下公式:
令u和v分别表示像素在x轴和y轴的速度矢量,即u=Δx/Δt,v=Δy/Δt,将其代入公式(3),得到如下公式:
Ixu+Iyv+It=0---------------------------------------(4)
(u,v)便是像素在Δt时间内产生的光流场,可以通过添加约束条件解得;添加不同的约束条件,可以得到不同的光流场计算方法。本发明将TV-L1算法应用于光流场的计算中,TV-L1算法引入了子空间轨迹模型来保证光流的时间一致性,同时可以保留图像中的边缘特征;对于微表情序列中的一个像素点,首先使用公式(5)所示的光流估计损失函数来计算连续的光流场:
其中,L表示微表情图像序列的长度;表示用于构造轨迹空间的R基轨迹;/>表示图像的空间域;lin:/>表示映射函数,可以将光流场u(t),v(t)映射到由R基轨迹构造的新空间;公式(5)的第一项表示亮度恒定约束的惩罚项,第二项用于使导出的光流位于基轨迹上,第三项表示轨迹模型系数基于总变差的空间正则化。
设一个微表情图像序列为将其第一帧设置为参考帧,根据上述光流计算方法计算出其余所有帧的水平方向和竖直方向的光流分量U,/>接着将计算得到的光流序列以帧单位进行堆叠,输入到PCANet+网络中;对于光流序列U,/>分别使用大小为T,步长为s的滑动窗口对其进行采样,得到两个子序列集μ和ν,其定义如公式(6):
其中,通过多通道堆叠操作将每个视频片段的水平方向和竖直方向的光流序列分别以T帧进行堆叠,得到两个通道数为T的光流图像序列。
所述光流Strain计算模块中,所述光流Strain的公式为:
其中,(εxx,εyy)表示光流的法向应变分量;(εxy,εyx)表示光流的切应变分量。
像素的光流Strain特征使用法向应变分量和切应变分量的平方和计算:
所述顶点帧检测模块中,基于三维快速傅里叶变换的顶点帧检测,不仅分析了微表情在频域的快速变化,同时利用了空间和时间的整体信息,能够更加准确地完成对顶点帧的检测;其基本思想是用短间隔的频率分量来表示每个微表情帧,然后通过比较频率来检测顶点帧。
由于频率信息对光照变化十分敏感,在进行频率分析之前,先使用灰度不变的局部二值模式来提取微表情帧的纹理图,以抑制照明变化对频率的影响,然后以指定的时间间隔获得连续视频帧的频率,将面部区域均匀地分割成大小相同的6×6个块,然后在时间维度使用滑动窗口对块进行分割,并通过三维快速傅立叶变换将每个窗口区间内的视频块变换到频域。给定长度为T的滑动窗口,使用公式(9)可以计算得到第i个间隔的第j个块的频率值:
其中,(u,v,q)表示频域中的坐标;Lb和Wb分别表示第i个窗口区间中第j(j={1,2,...,36})个视频块bij的高度和宽度。由于像素变化较快的顶点帧具有较高的频率信息,而变化微弱的其他视频帧包含了无用的低频信息,因此使用高通滤波器保留高频率的信息,同时减少微表情序列中不变像素对顶点帧检测的影响。高通滤波器的公式如下:
Gbij(u,v,q)=Fbij(u,v,q)×Hbij(u,v,q)-----------------------------(10)
由于微表情产生的运动只在面部较少的区域发生,顶点帧的出现会导致面部某些特定块的频率更高,为了减少冗余信息,从36个块中挑选出前N个频率值最大的块,然后将这些块的高通滤波结果相加,从而计算得到第i个视频区间的频率幅度:
使用上述计算步骤可以获得所有视频区间的频率信息,然后找出频率幅度最大的区间:
Api=max(Ai)-----------------------------------------------(12)
其中,Api表示在一个微表情样本中面部运动最为迅速的区间,该区间的中间帧可看做顶点帧。
所述微表情识别模块中,所述多流框架由空间特征提取模块、动态特征提取模块以及分类器组成;
所述空间特征提取模块由ResNet-18网络构成,用于从所述顶点帧中提取空间纹理特征;所述动态特征提取模块由PCANet+网络构成,输入为水平光流分量、竖直光流分量以及光流Strain,用于提取微表情的运动信息;所述分类器用于对包括空间纹理特征以及运动信息的微表情特征进行分类识别。
考虑到微表情数据集所包含的样本(人脸图像)数量较少,直接将ResNet-18网络在微表情数据集上进行训练和分类可能会出现过拟合的问题,因使用迁移学习来克服这一问题。
首先将ResNet-18网络在CK+宏表情数据集上进行预训练,并将训练好的网络模型的参数保存下来,然后使用训练好的模型参数重新初始化用于微表情识别的ResNet-18网络,同时根据微表情类别的数量在模型的最后添加一个全连接层。最后,为了使网络能够更好地适应微表情分类任务,使用微表情样本的顶点帧对模型进行微调,以提取更具有判别性的空间特征。在整个迁移学习的过程中,ResNet-18网络的损失函数为交叉熵损失函数。
由于PCANet+网络可以从基于多帧堆叠的光流图像中学习到更为丰富的运动信息,并且其作为浅层网络,与传统卷积神经网络相比,具有更少的网络层数和模型参数,能够有效地减少过拟合的问题。因此将两层的PCANet+作为动态特征提取网络,将微表情序列的三种光流特征分别以T帧进行堆叠,输入到三个平行的PCANet+网络中进行特征提取。然后将最后一个卷积层输出的特征图进行二值化编码和分块后,对得到的每一块特征进行直方图统计,并将所有直方图特征连接在一起作为该流的分类特征。
最后,将ResNet-18网络最后一个全连接层的输出特征与三个PCANet+网络输出的直方图特征级联,输入到分类器中进行分类。
综上所述,本发明的优点在于:
通过对获取的人像视频中的各帧人头图像的人脸进行关键点检测,基于各关键点对各帧人头图像进行对齐、剪裁以及缩放的预处理,得到若干张人脸图像,对人脸图像进行光流计算,得到光流图像序列;接着基于光流图像序列的水平光流分量以及竖直光流分量计算光流Strain,基于光流Strain,利用三维快速傅里叶变换检测各人脸图像中的顶点帧,最后使用多流框架对顶点帧进行微表情特征提取,进而对微表情进行识别;由于多流框架的空间特征提取模块由基于迁移学习的ResNet-18网络构成,动态特征提取模块由PCANet+网络构成,并通过水平光流分量、竖直光流分量以及光流Strain进行多维度的动态特征(微表情的运动信息)提取,通过结合多维的空间特征和动态特征,极大的提升了微表情特征的判别能力,进而极大的提升了微表情识别效果。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (10)
1.一种基于多流架构的微表情识别方法,其特征在于:包括如下步骤:
步骤S10、获取人像视频,对所述人像视频中的各帧人头图像的人脸进行关键点检测;
步骤S20、基于各所述关键点对各帧人头图像进行对齐、剪裁以及缩放的预处理,得到若干张人脸图像;
步骤S30、对各所述人脸图像进行光流计算,得到光流图像序列;
步骤S40、基于所述光流图像序列的水平光流分量以及竖直光流分量,计算用于描述光流场形变程度的光流Strain;
步骤S50、利用三维快速傅里叶变换检测各所述人脸图像中的顶点帧;
步骤S60、使用多流框架对所述顶点帧进行微表情特征提取,进而对微表情进行识别。
2.如权利要求1所述的一种基于多流架构的微表情识别方法,其特征在于:所述步骤S10具体为:
获取人像视频,通过主动形状模型对所述人像视频中的各帧人头图像的人脸进行68个关键点的检测。
3.如权利要求1所述的一种基于多流架构的微表情识别方法,其特征在于:所述步骤S20具体为:
从各所述关键点获取各帧人头图像中左眼内角点和右眼内角点,基于所述左眼内角点和右眼内角点的连线对各帧人头图像进行旋转对齐,再基于各所述关键点对人头图像中的人脸区域进行剪裁,将剪裁后的各所述人脸区域缩放到统一尺寸,以完成各帧所述人头图像的预处理,得到若干张人脸图像。
4.如权利要求1所述的一种基于多流架构的微表情识别方法,其特征在于:所述步骤S60中,所述多流框架由空间特征提取模块、动态特征提取模块以及分类器组成。
5.如权利要求4所述的一种基于多流架构的微表情识别方法,其特征在于:所述空间特征提取模块由ResNet-18网络构成,用于从所述顶点帧中提取空间纹理特征;所述动态特征提取模块由PCANet+网络构成,输入为水平光流分量、竖直光流分量以及光流Strain,用于提取微表情的运动信息;所述分类器用于对包括空间纹理特征以及运动信息的微表情特征进行分类识别。
6.一种基于多流架构的微表情识别系统,其特征在于:包括如下模块:
关键点检测模块,用于获取人像视频,对所述人像视频中的各帧人头图像的人脸进行关键点检测;
人头图像预处理模块,用于基于各所述关键点对各帧人头图像进行对齐、剪裁以及缩放的预处理,得到若干张人脸图像;
光流计算模块,用于对各所述人脸图像进行光流计算,得到光流图像序列;
光流Strain计算模块,用于基于所述光流图像序列的水平光流分量以及竖直光流分量,计算用于描述光流场形变程度的光流Strain;
顶点帧检测模块,用于利用三维快速傅里叶变换检测各所述人脸图像中的顶点帧;
微表情识别模块,用于使用多流框架对所述顶点帧进行微表情特征提取,进而对微表情进行识别。
7.如权利要求6所述的一种基于多流架构的微表情识别系统,其特征在于:所述关键点检测模块具体用于:
获取人像视频,通过主动形状模型对所述人像视频中的各帧人头图像的人脸进行68个关键点的检测。
8.如权利要求6所述的一种基于多流架构的微表情识别系统,其特征在于:所述人头图像预处理模块具体用于:
从各所述关键点获取各帧人头图像中左眼内角点和右眼内角点,基于所述左眼内角点和右眼内角点的连线对各帧人头图像进行旋转对齐,再基于各所述关键点对人头图像中的人脸区域进行剪裁,将剪裁后的各所述人脸区域缩放到统一尺寸,以完成各帧所述人头图像的预处理,得到若干张人脸图像。
9.如权利要求6所述的一种基于多流架构的微表情识别系统,其特征在于:所述微表情识别模块中,所述多流框架由空间特征提取模块、动态特征提取模块以及分类器组成。
10.如权利要求9所述的一种基于多流架构的微表情识别系统,其特征在于:所述空间特征提取模块由ResNet-18网络构成,用于从所述顶点帧中提取空间纹理特征;所述动态特征提取模块由PCANet+网络构成,输入为水平光流分量、竖直光流分量以及光流Strain,用于提取微表情的运动信息;所述分类器用于对包括空间纹理特征以及运动信息的微表情特征进行分类识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310681829.1A CN116645718A (zh) | 2023-06-09 | 2023-06-09 | 一种基于多流架构的微表情识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310681829.1A CN116645718A (zh) | 2023-06-09 | 2023-06-09 | 一种基于多流架构的微表情识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116645718A true CN116645718A (zh) | 2023-08-25 |
Family
ID=87624570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310681829.1A Pending CN116645718A (zh) | 2023-06-09 | 2023-06-09 | 一种基于多流架构的微表情识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645718A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117787998A (zh) * | 2024-02-27 | 2024-03-29 | 深圳合纵富科技有限公司 | 移动互联网安全支付验证方法及系统 |
CN117787998B (zh) * | 2024-02-27 | 2024-05-17 | 深圳合纵富科技有限公司 | 移动互联网安全支付验证方法及系统 |
-
2023
- 2023-06-09 CN CN202310681829.1A patent/CN116645718A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117787998A (zh) * | 2024-02-27 | 2024-03-29 | 深圳合纵富科技有限公司 | 移动互联网安全支付验证方法及系统 |
CN117787998B (zh) * | 2024-02-27 | 2024-05-17 | 深圳合纵富科技有限公司 | 移动互联网安全支付验证方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829443B (zh) | 基于图像增强与3d卷积神经网络的视频行为识别方法 | |
Andrearczyk et al. | Convolutional neural network on three orthogonal planes for dynamic texture classification | |
CN111639692A (zh) | 一种基于注意力机制的阴影检测方法 | |
CN104933414A (zh) | 一种基于wld-top的活体人脸检测方法 | |
CN111027377B (zh) | 一种双流神经网络时序动作定位方法 | |
CN104834909B (zh) | 一种基于Gabor综合特征的图像特征描述方法 | |
WO2023159898A1 (zh) | 一种动作识别系统、方法、装置及模型训练方法、装置、计算机设备及计算机可读存储介质 | |
Kheirkhah et al. | A hybrid face detection approach in color images with complex background | |
CN115527269B (zh) | 一种人体姿态图像智能识别方法及系统 | |
CN106529441B (zh) | 基于模糊边界分片的深度动作图人体行为识别方法 | |
Liang et al. | Automatic defect detection of texture surface with an efficient texture removal network | |
Alshaikhli et al. | Face-Fake-Net: The Deep Learning Method for Image Face Anti-Spoofing Detection: Paper ID 45 | |
Jie et al. | A face detection and recognition system in color image series | |
Mohamed et al. | Automated face recogntion system: Multi-input databases | |
CN112446245A (zh) | 一种基于运动边界小位移的高效运动表征方法及装置 | |
Venkatesan et al. | Real time implementation on moving object tracking and recognisation using Matlab | |
CN106530300B (zh) | 一种低秩分析的火焰识别方法 | |
Janarthanan et al. | An Efficient Face Detection and Recognition System Using RVJA and SCNN | |
CN116645718A (zh) | 一种基于多流架构的微表情识别方法及系统 | |
Chung et al. | Face detection and posture recognition in a real time tracking system | |
CN115439930A (zh) | 一种基于时空维度筛选的多特征融合步态识别方法 | |
Zhang et al. | Detecting manipulated facial videos: a time series solution | |
CN114360058A (zh) | 一种基于行走视角预测的跨视角步态识别方法 | |
Ye et al. | Human motion analysis based on extraction of skeleton and dynamic time warping algorithm using RGBD camera | |
Guangjing et al. | Research on static image recognition of sports based on machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |