CN116030516A - 基于多任务学习与全局循环卷积的微表情识别方法及装置 - Google Patents

基于多任务学习与全局循环卷积的微表情识别方法及装置 Download PDF

Info

Publication number
CN116030516A
CN116030516A CN202211618464.XA CN202211618464A CN116030516A CN 116030516 A CN116030516 A CN 116030516A CN 202211618464 A CN202211618464 A CN 202211618464A CN 116030516 A CN116030516 A CN 116030516A
Authority
CN
China
Prior art keywords
module
convolution
optical flow
iii
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211618464.XA
Other languages
English (en)
Inventor
邵志文
程依凡
马利庄
周勇
祝汉城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202211618464.XA priority Critical patent/CN116030516A/zh
Publication of CN116030516A publication Critical patent/CN116030516A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多任务学习与全局循环卷积的微表情识别方法及装置,先对训练数据集进行预处理,得到固定长度的扩增帧序列,计算相邻帧间光流得到光流序列,标注人脸五官的五点特征点坐标;再构建卷积神经网络模块I调整扩增帧序列的帧尺寸及通道数;再构建全局循环卷积模块II提取全局特征;再构建包括光流估计、人脸特征点回归与三维卷积神经网络微表情分类预测在内的多任务学习模块III,进行预测。本发明采用端到端的深度学习框架联合学习人脸微表情识别、光流估计和特征点回归,利用任务间的关联性促进微表情识别,能够有效识别人脸微表情在三维时空中的运动变化情况,实现人脸微表情识别系统构建。

Description

基于多任务学习与全局循环卷积的微表情识别方法及装置
技术领域
本发明涉及一种基于多任务学习与全局循环卷积的微表情识别方法及装置,属于计算机视觉技术。
背景技术
微表情是一种特殊的面部表情,与普通的表情相比,微表情主要有持续时间短(通常只有1/25s~1/3s)、动作强度低、难以察觉、在无意识状态下产生、难以掩饰或伪装的特点,对微表情的分析通常需要在视频中进行,而普通表情在图像中就可以分析。由于微表情在无意识状态下自发产生、难以掩饰或伪装、通常与真实情感直接相关,所以微表情在情感分析中较为可靠,应用前景广阔;另一方面,由于人为识别微表情比较困难,训练难度大且成功率不高,因此需要计算机进行微表情自动识别。
目前微表情识别的工作难点主要有两方面:第一,微表情的持续时间短、动作强度低、特征难以提取,因此需要进行合适的数据预处理与特征提取;第二,由于微表情的数据采集与鉴定存在困难,现有的微表情数据集较少,这使得深度学习在微表情识别中的应用存在困难。
现有的微表情识别方法通常基于传统机器学习,设计一种手工特征(HandcraftedFeature)来提取微表情片段中的特征,依照数据预处理——特征提取——特征分类的框架进行微表情分类。随着近年来深度学习在计算机视觉中的发展,使用深度学习方法进行微表情识别的尝试也逐渐增多。然而,现有的基于深度学习的微表情识别方法通常因为微表情动作微小且持续时间短,其识别准确率还不高,有进一步提升的空间,此外,由于微表情数据集较少,现有的微表情识别方法的模型泛化能力也有待提升。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于多任务学习与全局循环卷积的微表情识别方法及装置,通过全局循环卷积以有效提取微表情视频数据的全局特征,采用多任务学习方法同时训练人脸微表情的光流估计任务、人脸五点特征点回归任务与微表情分类预测任务,以提升模型的鲁棒性与泛化能力。
技术方案:针对现有微表情识别工作中存在的难点以及现有技术中的不足,本发明采用多任务学习与全局循环卷积的思路来解决。首先,由于微表情的持续时间短、动作强度低、特征难以提取,本发明在微表情分类预测任务的基础上,加入了光流估计任务,因为光流表达了图像的变化,包含了目标运动的信息,故加入光流估计任务可以在时间域上增强对人脸面部动作变化的捕获,从而促进微表情识别。其次,本发明在微表情分类预测任务与光流估计任务的基础上,继续加入了人脸五点特征点回归任务,因为微表情发生时所动用的面部肌肉主要分布在眼睛、鼻子以及嘴角附近,故加入人脸五点特征点回归任务可以在空间域上增强对人脸面部动作变化的捕获,从而促进微表情识别。同时,由于多任务学习中各个任务对输入的需求各不相同,如光流估计任务需要以整个微表情视频对应的时空信息做为输入,而人脸五点特征点回归任务需要分别以微表情视频中各帧对应的空间信息做为输入,因而本发明首先采用全局循环卷积提取每一条微表情视频数据的全局特征,然后将全局特征分别以满足各任务输入需求的形式输入各个任务;本发明提取全局特征而非局部特征,是因为全局特征具有良好的不变性,能够更好地保留原数据的时空信息,有利于提升多任务学习效果。此外,针对微表情数据集较少的问题,本发明联合采用多个微表情数据集组建训练数据集,并对每条数据进行随机平移、随机旋转、随机缩放、随机水平翻转、随机裁剪等图像增强操作,可以扩充训练数据集的大小,以提升模型的泛化能力。本发明的具体方案如下。
一种基于多任务学习与全局循环卷积的微表情识别方法,包括如下步骤:
S01:从公开的人脸微表情数据集中抽取原始视频数据组成训练数据集,原始视频数据包括微表情视频及其对应的微表情分类标签;
S02:对训练数据集进行预处理,得到固定长度的扩增帧序列,采用光流法计算相邻帧间光流,标注人脸五官的五点特征点坐标;其中人脸五官的五点特征点指左眼中心、右眼中心、鼻子、左嘴角、右嘴角;
S03:构建卷积神经网络模块I调整扩增帧序列的帧尺寸及通道数;
S04:构建全局循环卷积模块II进行全局特征提取;
S05:利用步骤S04得到的全局特征、步骤S01中的微表情分类标签、步骤S02得到的相邻帧间光流和五点特征点坐标,构建多任务学习模块III,进行相邻帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测,实现微表情识别;
S06:使用训练数据集对主要由卷积神经网络模块I、全局循环卷积模块II和多任务学习模块III构成的网络模型进行训练,以基于梯度的优化方法对各个模块的参数进行更新;
S07:将给定的视频输入到训练好的网络模型,预测微表情分类结果。
具体的,所述步骤S02中,对训练数据集进行预处理,得到固定长度的扩增帧序列,具体为:对于任意长度的微表情视频数据(通常为50-100帧),从第一帧开始,到最后一帧结束,等间隔地取24帧,并将取出的每帧图片进行灰度化处理,通过最近邻插值法将每帧图片的尺寸缩小至128×128,得到长度为24帧的扩增帧序列。
具体的,所述步骤S02中,采用光流法计算相邻帧间光流,所述光流法为TV-L1光流算法,TV-L1光流算法是一种基于全变分的两帧估量算法,采用两帧图像来估计物体的光流矢量。
具体的,所述步骤S03中,构建卷积神经网络模块I调整扩增帧序列的帧尺寸及通道数,所述卷积神经网络模块I包括四个串联的、通道数依次递增的二维卷积层,卷积神经网络模块I的输入作为第一个二维卷积层的输入,最后一个二维卷积层的输出作为卷积神经网络模块I的输出;将步骤S02得到的扩增帧序列中的每一帧依次作为卷积神经网络模块I的输入,每一帧对应的卷积神经网络模块I的输出组成的序列即为调整帧尺寸及通道数后的输出帧序列;所述卷积神经网络模块I包括二维卷积层I-I、二维卷积层I-II、二维卷积层I-III、二维卷积层I-IV,在二维卷积层I-I内,对输入整体进行一次卷积,将卷积结果作为二维卷积层I-I的输出;将二维卷积层I-I的输出作为二维卷积层I-II的输入,对输入整体进行一次卷积,将卷积结果作为二维卷积层I-II的输出;将二维卷积层I-II的输出作为二维卷积层I-III的输入,对输入整体进行零填充并进行一次卷积,将卷积结果作为二维卷积层I-III的输出;将二维卷积层I-III的输出作为二维卷积层I-IV的输入,对输入整体进行一次卷积,将卷积结果作为二维卷积层I-IV的输出。
具体的,所述步骤S04中,构建全局循环卷积模块II进行全局特征提取,所述全局循环卷积模块II包括位置嵌入模块II-I、循环卷积模块II-II,全局循环卷积模块II的输入作为位置嵌入模块II-I的输入,位置嵌入模块II-I的输出作为循环卷积模块II-II的输入,循环卷积模块II-II的输出作为全局循环卷积模块II的输出;将步骤S03得到的输出帧序列中的每一帧依次作为全局循环卷积模块II的输入,每一帧对应的全局循环网络模块II的输出组成的序列即为输出帧序列的全局特征图序列;所述位置嵌入模块II-I包括水平位置嵌入模块II-I-I和竖直位置嵌入模块II-I-II,在水平位置嵌入模块II-I-I内,将输入按照水平方向拆分成为行向量,并为每个行向量生成一个与其尺寸相同的表征该行向量位置信息的位置行向量,将该位置行向量与原行向量相加,得到位置嵌入行向量,将所有的位置嵌入行向量按照水平方向依次合并,得到水平位置嵌入图;在竖直位置嵌入模块II-I-II内,将输入按照竖直方向拆分成为列向量,并为每个列向量生成一个与其尺寸相同的表征该列向量位置信息的位置列向量,将该位置列向量与原列向量相加,得到位置嵌入列向量,将所有的位置嵌入列向量按照竖直方向依次合并,得到竖直位置嵌入图;水平位置嵌入图和竖直位置嵌入图作为位置嵌入模块II-I的输出;所述循环卷积模块II-II包括水平卷积模块II-II-I和竖直卷积模块II-II-II,在水平卷积模块II-II-I内,先将输入的水平位置嵌入图复制一份,并与原水平位置嵌入图按照水平方向拼接,对于拼接的结果采用尺寸为1×W的非对称卷积核进行卷积,得到水平卷积特征图,其中W为水平位置嵌入图的宽度;在竖直卷积模块II-II-II内,先将输入的竖直位置嵌入图复制一份,并与原竖直位置嵌入图按照竖直方向拼接,对于拼接的结果采用尺寸为H×1的非对称卷积核进行卷积,得到竖直卷积特征图,其中H为竖直位置嵌入图的高度;将水平卷积特征图与竖直卷积特征图进行加和,结果作为循环卷积模块II-II的输出。
具体的,所述步骤S05中,构建多任务学习模块III,进行相邻帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测;其中,多任务学习模块III包括光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III,多任务学习模块III的输入同时作为光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III的输入,光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III的输出共同构成多任务学习模块III的输出;将步骤S04得到全局特征图序列作为多任务学习模块III的输入,光流估计模块III-I输出的相邻帧间光流估计结果、人脸特征点回归模块III-II输出的人脸五官的五点特征点回归预测结果与三维卷积神经网络微表情分类预测模块III-III输出的微表情分类预测结果共同构成为多任务学习模块III的输出。
在光流估计模块III-I的有监督学习过程中提取包含动态时序信息的光流特征,采用RAFT(Recurrent All-Pairs Field Transforms)作为光流估计模块III-I的主干网络,并按照如下损失函数进行光流估计:
Figure BDA0004001085770000041
其中:Eof表示光流估计的均方差损失函数;y表示基准图像与目标图像之间的真值光流矢量,即通过步骤S02计算得到的相邻帧间光流;
Figure BDA0004001085770000042
表示基准图像与目标图像之间的预测光流矢量,即通过光流估计模块III-I提取到的相邻帧间光流估计结果。
在人脸特征点回归模块III-II中输入的为人脸图像的形状特征,将输入特征展平,并通过连续的两个全连接层,获得输出结果,输出为预测的特征点位置
Figure BDA0004001085770000051
并按照如下损失函数进行特征点回归预测:
Figure BDA0004001085770000052
其中:Eldm表示特征点回归预测的损失函数;
Figure BDA0004001085770000053
Figure BDA0004001085770000054
分别表示第i个特征点的x坐标和y坐标,i=1,2,…,n,n=5为人脸图像上的五点特征点(特征点数量);||·||2表示L2范数;d0表示真实的双眼瞳孔之间的距离;q表示真实的特征点坐标,即步骤S02中标注的人脸五官的五点特征点坐标;
Figure BDA0004001085770000055
表示特征点回归预测坐标,即通过人脸特征点回归模块III-II提取到的人脸五官的五点特征点回归预测结果。
在三维卷积神经网络微表情分类预测模块III-III的有监督学习过程中提取包含时空信息的人脸特征向量,并按照如下损失函数进行微表情预测:
Figure BDA0004001085770000056
其中:Emer表示微表情分类预测的交叉熵损失函数;y(i)表示微表情分类的真值,即通过步骤S01获取到的微表情分类标签;
Figure BDA0004001085770000057
表示微表情分类预测值,即通过三维卷积神经网络微表情分类预测模块III-III提取到的微表情分类预测结果,N表示微表情总类别数。
具体的,所述步骤S06中,使用训练数据集对网络模型进行训练,以基于梯度的优化方法对各个模块的参数进行更新,按照如下损失函数对网络模型进行更新:
Emt=Emer1Eof2Eldm                 (4)
其中:Emt表示多任务损失函数,λ1和λ2为常数。
一种基于上述多任务学习与全局循环卷积的微表情识别方法的装置,包括图像获取单元、输入适应单元、特征提取单元、多任务输出单元;
所述图像获取单元,用于从公开的人脸微表情数据集中抽取原始视频数据组成训练数据集,并对原始视频数据进行预处理,得到固定长度的扩增帧序列,采用光流法计算相邻帧间光流,标注人脸五官的五点特征点坐标;
所述输入适应单元,包括卷积神经网络模块I,调整扩增帧序列的帧尺寸及通道数;
所述特征提取单元,包括全局循环卷积模块II,对输出帧序列进行全局特征提取;
所述多任务输出单元,包括多任务学习模块III,对特征提取单元的结果进行多任务学习,输出得到最终的帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测结果。
有益效果:本发明提供的基于多任务学习与全局循环卷积的微表情识别方法及装置,相对于现有技术,具有如下优势:1、采用端到端的深度学习框架联合学习人脸微表情识别、光流估计和特征点回归,利用任务间的关联性促进微表情识别,能够有效识别人脸微表情在三维时空中的运动变化情况,实现人脸微表情识别系统构建;2、通过全局循环卷积,能够有效提取微表情视频数据的全局特征3、采用多任务学习方法同时训练人脸微表情的光流估计任务、人脸五点特征点回归任务与微表情分类预测任务,能够有效完成微表情识别任务,并且提升了模型的鲁棒性与泛化能力。
附图说明
图1为本发明方法的实施流程示意图;
图2为卷积神经网络模块I的结构示意图;
图3为全局循环卷积模块II的结构示意图;
图4为多任务学习模块III的结构示意图;
图5为微表情分类预测模块III-III的结构示意图;
图6为整个微表情识别系统的流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
如图1所示为一种基于多任务学习与全局循环卷积的微表情识别方法的流程示意图,该方法包括如下步骤:
S01:从公开的人脸微表情数据集中抽取原始视频数据组成训练数据集,原始视频数据包括微表情视频及其对应的微表情分类标签。
为了使模型拥有较好的泛化能力,原始视频数据从多个公开的人脸微表情数据集中均匀地抽取数据,公开的人脸微表情数据集包括SMIC数据集、CASME II数据集以及SAMM数据集。
S02:对训练数据集进行预处理,得到固定长度的扩增帧序列,采用光流法计算相邻帧间光流,标注人脸五官的五点特征点坐标;其中人脸五官的五点特征点指左眼中心、右眼中心、鼻子、左嘴角、右嘴角。
对训练数据集进行预处理,得到固定长度的扩增帧序列,具体为:对于任意长度的微表情视频数据(通常为50-100帧),从第一帧开始,到最后一帧结束,等间隔地取24帧,并将取出的每帧图片进行灰度化处理,通过最近邻插值法将每帧图片的尺寸缩小至128×128,得到长度为24帧的扩增帧序列。所述光流法为TV-L1光流算法,TV-L1光流算法是一种基于全变分的两帧估量算法,采用两帧图像来估计物体的光流矢量。
S03:构建卷积神经网络模块I调整扩增帧序列的帧尺寸及通道数。
如图2所示,构建卷积神经网络模块I,调整帧序列的帧尺寸及通道数。所述卷积神经网络模块I包括四个串联的、通道数依次递增的二维卷积层,卷积神经网络模块I的输入作为第一个二维卷积层的输入,最后一个二维卷积层的输出作为卷积神经网络模块I的输出;将步骤S02得到的扩增帧序列中的每一帧依次作为卷积神经网络模块I的输入,每一帧对应的卷积神经网络模块I的输出组成的序列即为调整帧尺寸及通道数后的输出帧序列。
所述卷积神经网络模块I包括二维卷积层I-I、二维卷积层I-II、二维卷积层I-III、二维卷积层I-IV,在二维卷积层I-I内,对输入整体进行一次卷积,将卷积结果作为二维卷积层I-I的输出;将二维卷积层I-I的输出作为二维卷积层I-II的输入,对输入整体进行一次卷积,将卷积结果作为二维卷积层I-II的输出;将二维卷积层I-II的输出作为二维卷积层I-III的输入,对输入整体进行零填充并进行一次卷积,将卷积结果作为二维卷积层I-III的输出;将二维卷积层I-III的输出作为二维卷积层I-IV的输入,对输入整体进行一次卷积,将卷积结果作为二维卷积层I-IV的输出。
本例中,二维卷积层I-I、二维卷积层I-II、二维卷积层I-III、二维卷积层I-IV的输出通道数分别为8、32、64、128,滤波器大小分别为4×4、3×3、2×2、1×1,步长分别为2×2、2×2、2×2、1×1。
S04:构建全局循环卷积模块II进行全局特征提取。
如图3所示,全局循环卷积模块II包括位置嵌入模块II-I、循环卷积模块II-II。全局循环卷积模块II的输入作为位置嵌入模块II-I的输入,位置嵌入模块II-I的输出作为循环卷积模块II-II的输入,循环卷积模块II-II的输出作为全局循环卷积模块II的输出;将步骤S03得到的输出帧序列中的每一帧依次作为全局循环卷积模块II的输入,每一帧对应的全局循环网络模块II的输出组成的序列即为输出帧序列的全局特征图序列。
所述位置嵌入模块II-I包括水平位置嵌入模块II-I-I和竖直位置嵌入模块II-I-II,在水平位置嵌入模块II-I-I内,将输入按照水平方向拆分成为行向量,并为每个行向量生成一个与其尺寸相同的表征该行向量位置信息的位置行向量,将该位置行向量与原行向量相加,得到位置嵌入行向量,将所有的位置嵌入行向量按照水平方向依次合并,得到水平位置嵌入图;在竖直位置嵌入模块II-I-II内,将输入按照竖直方向拆分成为列向量,并为每个列向量生成一个与其尺寸相同的表征该列向量位置信息的位置列向量,将该位置列向量与原列向量相加,得到位置嵌入列向量,将所有的位置嵌入列向量按照竖直方向依次合并,得到竖直位置嵌入图;水平位置嵌入图和竖直位置嵌入图作为位置嵌入模块II-I的输出。
所述循环卷积模块II-II包括水平卷积模块II-II-I和竖直卷积模块II-II-II,在水平卷积模块II-II-I内,先将输入的水平位置嵌入图复制一份,并与原水平位置嵌入图按照水平方向拼接,对于拼接的结果采用尺寸为1×W的非对称卷积核进行卷积,得到水平卷积特征图,其中W为水平位置嵌入图的宽度;在竖直卷积模块II-II-II内,先将输入的竖直位置嵌入图复制一份,并与原竖直位置嵌入图按照竖直方向拼接,对于拼接的结果采用尺寸为H×1的非对称卷积核进行卷积,得到竖直卷积特征图,其中H为竖直位置嵌入图的高度;将水平卷积特征图与竖直卷积特征图进行加和,结果作为循环卷积模块II-II的输出。
本例中,步骤S03得到的输出帧序列中每一帧的图像尺寸均为16×16,对应水平位置嵌入图与竖直位置嵌入图的尺寸也为16×16,故H和W的值均为16。
S05:利用步骤S04得到的全局特征、步骤S01中的微表情分类标签、步骤S02得到的相邻帧间光流和五点特征点坐标,构建多任务学习模块III,进行相邻帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测,实现微表情识别。
如图4所示构建多任务学习模块III,进行相邻帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测;其中,多任务学习模块III包括光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III,多任务学习模块III的输入同时作为光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III的输入,光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III的输出共同构成多任务学习模块III的输出;将步骤S04得到全局特征图序列作为多任务学习模块III的输入,光流估计模块III-I输出的相邻帧间光流估计结果、人脸特征点回归模块III-II输出的人脸五官的五点特征点回归预测结果与三维卷积神经网络微表情分类预测模块III-III输出的微表情分类预测结果共同构成为多任务学习模块III的输出。
在光流估计模块III-I的有监督学习过程中提取包含动态时序信息的光流特征,采用RAFT(Recurrent All-Pairs Field Transforms)作为光流估计模块III-I的主干网络,并按照如下损失函数进行光流估计:
Figure BDA0004001085770000091
其中:Eof表示光流估计的均方差损失函数;y表示基准图像与目标图像之间的真值光流矢量,即通过步骤S02计算得到的相邻帧间光流;
Figure BDA0004001085770000092
表示基准图像与目标图像之间的预测光流矢量,即通过光流估计模块III-I提取到的相邻帧间光流估计结果。
在人脸特征点回归模块III-II中输入的为人脸图像的形状特征,将输入特征展平,并通过连续的两个全连接层,获得输出结果,输出为预测的特征点位置
Figure BDA0004001085770000093
并按照如下损失函数进行特征点回归预测:
Figure BDA0004001085770000094
其中:Eldm表示特征点回归预测的损失函数;
Figure BDA0004001085770000095
Figure BDA0004001085770000096
分别表示第i个特征点的x坐标和y坐标,i=1,2,…,n,n=5为人脸图像上的五点特征点(特征点数量);||·||2表示L2范数;d0表示真实的双眼瞳孔之间的距离;q表示真实的特征点坐标,即步骤S02中标注的人脸五官的五点特征点坐标;
Figure BDA0004001085770000097
表示特征点回归预测坐标,即通过人脸特征点回归模块III-II提取到的人脸五官的五点特征点回归预测结果。
如图5所示,在三维卷积神经网络微表情分类预测模块III-III的有监督学习过程中提取包含时空信息的人脸特征向量,并按照如下损失函数进行微表情预测:
Figure BDA0004001085770000101
其中:Emer表示微表情分类预测的交叉熵损失函数;y(i)表示微表情分类的真值,即通过步骤S01获取到的微表情分类标签;
Figure BDA0004001085770000102
表示微表情分类预测值,即通过三维卷积神经网络微表情分类预测模块III-III提取到的微表情分类预测结果,N表示微表情总类别数。
S06:使用训练数据集对主要由卷积神经网络模块I、全局循环卷积模块II和多任务学习模块III构成的网络模型进行训练,以基于梯度的优化方法对各个模块的参数进行更新。
通过端到端的方法训练整个网络模型(如图6所示),每次训练均包括光流估计、特征点回归预测和微表情分类预测三个任务,在多任务学习的框架中利用三个任务之间的关联性促进微表情识别。使用训练数据集对网络模型进行训练,以基于梯度的优化方法对各个模块的参数进行更新,按照如下损失函数对网络模型进行更新:
Emt=Emer1Eof2Eldm                 (4)
其中:Emt表示多任务损失函数,λ1和λ2为常数,本例中,取λ1=10,λ2=5。
S07:将给定的视频输入到训练好的网络模型,预测微表情分类结果。
进行预测时只需要输入待测微表情视频,即可输出帧间光流估计、人脸五官五点特征点回归预测与微表情分类预测结果。
如图6所示,为一种基于上述多任务学习与全局循环卷积的微表情识别方法的装置,包括图像获取单元、输入适应单元、特征提取单元、多任务输出单元;
所述图像获取单元,用于从公开的人脸微表情数据集中抽取原始视频数据组成训练数据集,并对原始视频数据进行预处理,得到固定长度的扩增帧序列,采用光流法计算相邻帧间光流,标注人脸五官的五点特征点坐标;
所述输入适应单元,包括卷积神经网络模块I,调整扩增帧序列的帧尺寸及通道数;
所述特征提取单元,包括全局循环卷积模块II,对输出帧序列进行全局特征提取;
所述多任务输出单元,包括多任务学习模块III,对特征提取单元的结果进行多任务学习,输出得到最终的帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测结果。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种基于多任务学习与全局循环卷积的微表情识别方法,其特征在于:包括如下步骤:
S01:从公开的人脸微表情数据集中抽取原始视频数据组成训练数据集,原始视频数据包括微表情视频及其对应的微表情分类标签;
S02:对训练数据集进行预处理,得到固定长度的扩增帧序列,采用光流法计算相邻帧间光流,标注人脸五官的五点特征点坐标;其中人脸五官的五点特征点指左眼中心、右眼中心、鼻尖、左嘴角、右嘴角;
S03:构建卷积神经网络模块I调整扩增帧序列的帧尺寸及通道数;
S04:构建全局循环卷积模块II进行全局特征提取;
S05:利用步骤S04得到的全局特征、步骤S01中的微表情分类标签、步骤S02得到的相邻帧间光流和五点特征点坐标,构建多任务学习模块III,进行相邻帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测,实现微表情识别;
S06:使用训练数据集对主要由卷积神经网络模块I、全局循环卷积模块II和多任务学习模块III构成的网络模型进行训练,以基于梯度的优化方法对各个模块的参数进行更新;
S07:将给定的视频输入到训练好的网络模型,预测微表情分类结果。
2.根据权利要求1所述的基于多任务学习与全局循环卷积的微表情识别方法,其特征在于:所述步骤S02中,对训练数据集进行预处理,得到固定长度的扩增帧序列,具体为:对于任意长度的微表情视频数据,从第一帧开始,到最后一帧结束,等间隔地取24帧,并将取出的每帧图片进行灰度化处理,通过最近邻插值法将每帧图片的尺寸缩小至128×128,得到长度为24帧的扩增帧序列。
3.根据权利要求1所述的基于多任务学习与全局循环卷积的微表情识别方法,其特征在于:所述步骤S02中,采用光流法计算相邻帧间光流,所述光流法为TV-L1光流算法,TV-L1光流算法是一种基于全变分的两帧估量算法,采用两帧图像来估计物体的光流矢量。
4.根据权利要求1所述的基于多任务学习与全局循环卷积的微表情识别方法,其特征在于:所述步骤S03中,构建卷积神经网络模块I调整扩增帧序列的帧尺寸及通道数,所述卷积神经网络模块I包括四个串联的、通道数依次递增的二维卷积层,卷积神经网络模块I的输入作为第一个二维卷积层的输入,最后一个二维卷积层的输出作为卷积神经网络模块I的输出;将步骤S02得到的扩增帧序列中的每一帧依次作为卷积神经网络模块I的输入,每一帧对应的卷积神经网络模块I的输出组成的序列即为调整帧尺寸及通道数后的输出帧序列;
所述卷积神经网络模块I包括二维卷积层I-I、二维卷积层I-II、二维卷积层I-III、二维卷积层I-IV,在二维卷积层I-I内,对输入整体进行一次卷积,将卷积结果作为二维卷积层I-I的输出;将二维卷积层I-I的输出作为二维卷积层I-II的输入,对输入整体进行一次卷积,将卷积结果作为二维卷积层I-II的输出;将二维卷积层I-II的输出作为二维卷积层I-III的输入,对输入整体进行零填充并进行一次卷积,将卷积结果作为二维卷积层I-III的输出;将二维卷积层I-III的输出作为二维卷积层I-IV的输入,对输入整体进行一次卷积,将卷积结果作为二维卷积层I-IV的输出。
5.根据权利要求1所述的基于多任务学习与全局循环卷积的微表情识别方法,其特征在于:所述步骤S04中,构建全局循环卷积模块II进行全局特征提取,所述全局循环卷积模块II包括位置嵌入模块II-I、循环卷积模块II-II,全局循环卷积模块II的输入作为位置嵌入模块II-I的输入,位置嵌入模块II-I的输出作为循环卷积模块II-II的输入,循环卷积模块II-II的输出作为全局循环卷积模块II的输出;将步骤S03得到的输出帧序列中的每一帧依次作为全局循环卷积模块II的输入,每一帧对应的全局循环网络模块II的输出组成的序列即为输出帧序列的全局特征图序列;
所述位置嵌入模块II-I包括水平位置嵌入模块II-I-I和竖直位置嵌入模块II-I-II,在水平位置嵌入模块II-I-I内,将输入按照水平方向拆分成为行向量,并为每个行向量生成一个与其尺寸相同的表征该行向量位置信息的位置行向量,将该位置行向量与原行向量相加,得到位置嵌入行向量,将所有的位置嵌入行向量按照水平方向依次合并,得到水平位置嵌入图;在竖直位置嵌入模块II-I-II内,将输入按照竖直方向拆分成为列向量,并为每个列向量生成一个与其尺寸相同的表征该列向量位置信息的位置列向量,将该位置列向量与原列向量相加,得到位置嵌入列向量,将所有的位置嵌入列向量按照竖直方向依次合并,得到竖直位置嵌入图;水平位置嵌入图和竖直位置嵌入图作为位置嵌入模块II-I的输出;
所述循环卷积模块II-II包括水平卷积模块II-II-I和竖直卷积模块II-II-II,在水平卷积模块II-II-I内,先将输入的水平位置嵌入图复制一份,并与原水平位置嵌入图按照水平方向拼接,对于拼接的结果采用尺寸为1×W的非对称卷积核进行卷积,得到水平卷积特征图,其中W为水平位置嵌入图的宽度;在竖直卷积模块II-II-II内,先将输入的竖直位置嵌入图复制一份,并与原竖直位置嵌入图按照竖直方向拼接,对于拼接的结果采用尺寸为H×1的非对称卷积核进行卷积,得到竖直卷积特征图,其中H为竖直位置嵌入图的高度;将水平卷积特征图与竖直卷积特征图进行加和,结果作为循环卷积模块II-II的输出。
6.根据权利要求1所述的基于多任务学习与全局循环卷积的微表情识别方法,其特征在于:所述步骤S05中,构建多任务学习模块III,进行相邻帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测;其中,多任务学习模块III包括光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III,多任务学习模块III的输入同时作为光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III的输入,光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III的输出共同构成多任务学习模块III的输出;将步骤S04得到全局特征图序列作为多任务学习模块III的输入,光流估计模块III-I输出的相邻帧间光流估计结果、人脸特征点回归模块III-II输出的人脸五官的五点特征点回归预测结果与三维卷积神经网络微表情分类预测模块III-III输出的微表情分类预测结果共同构成为多任务学习模块III的输出;
在光流估计模块III-I的有监督学习过程中提取包含动态时序信息的光流特征,并按照如下损失函数进行光流估计:
Figure FDA0004001085760000031
其中:Eof表示光流估计的均方差损失函数;y表示基准图像与目标图像之间的真值光流矢量,即通过步骤S02计算得到的相邻帧间光流;
Figure FDA0004001085760000032
表示基准图像与目标图像之间的预测光流矢量,即通过光流估计模块III-I提取到的相邻帧间光流估计结果;
在人脸特征点回归模块III-II中输入的为人脸图像的形状特征,输出为预测的特征点位置
Figure FDA0004001085760000033
并按照如下损失函数进行特征点回归预测:
Figure FDA0004001085760000034
其中:Eldm表示特征点回归预测的损失函数;
Figure FDA0004001085760000035
Figure FDA0004001085760000036
分别表示第i个特征点的x坐标和y坐标,i=1,2,,n,n=5为人脸图像上的五点特征点;2表示L2范数;d0表示真实的双眼瞳孔之间的距离;q表示真实的特征点坐标,即步骤S02中标注的人脸五官的五点特征点坐标;
Figure FDA0004001085760000041
表示特征点回归预测坐标,即通过人脸特征点回归模块III-II提取到的人脸五官的五点特征点回归预测结果;
在三维卷积神经网络微表情分类预测模块III-III的有监督学习过程中提取包含时空信息的人脸特征向量,并按照如下损失函数进行微表情预测:
Figure FDA0004001085760000042
其中:Emer表示微表情分类预测的交叉熵损失函数;y(i)表示微表情分类的真值,即通过步骤S01获取到的微表情分类标签;
Figure FDA0004001085760000043
表示微表情分类预测值,即通过三维卷积神经网络微表情分类预测模块III-III提取到的微表情分类预测结果,N表示微表情总类别数。
7.根据权利要求1所述的基于多任务学习与全局循环卷积的微表情识别方法,其特征在于:所述步骤S06中,使用训练数据集对网络模型进行训练,以基于梯度的优化方法对各个模块的参数进行更新,按照如下损失函数对网络模型进行更新:
Emt=Emer1Eof2Eldm                 (4)
其中:Emt表示多任务损失函数,λ1和λ2为常数。
8.一种用于实现权1~6所述的任一基于多任务学习与全局循环卷积的微表情识别方法的装置,其特征在于:包括图像获取单元、输入适应单元、特征提取单元、多任务输出单元;
所述图像获取单元,用于从公开的人脸微表情数据集中抽取原始视频数据组成训练数据集,并对原始视频数据进行预处理,得到固定长度的扩增帧序列,采用光流法计算相邻帧间光流,标注人脸五官的五点特征点坐标;
所述输入适应单元,包括卷积神经网络模块I,调整扩增帧序列的帧尺寸及通道数;
所述特征提取单元,包括全局循环卷积模块II,对输出帧序列进行全局特征提取;
所述多任务输出单元,包括多任务学习模块III,对特征提取单元的结果进行多任务学习,输出得到最终的帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测结果。
CN202211618464.XA 2022-12-15 2022-12-15 基于多任务学习与全局循环卷积的微表情识别方法及装置 Pending CN116030516A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211618464.XA CN116030516A (zh) 2022-12-15 2022-12-15 基于多任务学习与全局循环卷积的微表情识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211618464.XA CN116030516A (zh) 2022-12-15 2022-12-15 基于多任务学习与全局循环卷积的微表情识别方法及装置

Publications (1)

Publication Number Publication Date
CN116030516A true CN116030516A (zh) 2023-04-28

Family

ID=86072116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211618464.XA Pending CN116030516A (zh) 2022-12-15 2022-12-15 基于多任务学习与全局循环卷积的微表情识别方法及装置

Country Status (1)

Country Link
CN (1) CN116030516A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116884067A (zh) * 2023-07-12 2023-10-13 成都信息工程大学 一种基于改进的隐式语义数据增强的微表情识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116884067A (zh) * 2023-07-12 2023-10-13 成都信息工程大学 一种基于改进的隐式语义数据增强的微表情识别方法

Similar Documents

Publication Publication Date Title
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
JP5629803B2 (ja) 画像処理装置、撮像装置、画像処理方法
CN109685037B (zh) 一种实时动作识别方法、装置及电子设备
JP4743823B2 (ja) 画像処理装置、撮像装置、画像処理方法
CN108960059A (zh) 一种视频动作识别方法及装置
KR20200063292A (ko) 얼굴 영상 기반의 감정 인식 시스템 및 방법
CN112784763A (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
KR101893554B1 (ko) 멀티 모달 데이터 기반 표정인식방법 및 장치
CN110046574A (zh) 基于深度学习的安全帽佩戴识别方法及设备
CN113191216B (zh) 基于姿态识别和c3d网络的多人实时动作识别方法和系统
CN110378234A (zh) 基于TensorFlow构建的卷积神经网络热像人脸识别方法及系统
CN111476178A (zh) 一种基于2d-3d cnn的微表情识别方法
KR102373606B1 (ko) 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램
CN112528902A (zh) 一种基于3d人脸模型的视频监控动态人脸识别方法及装置
CN114973383A (zh) 一种微表情识别方法、装置、电子设备及存储介质
CN116825365A (zh) 基于多角度微表情的心理健康分析方法
WO2023279799A1 (zh) 对象识别方法、装置和电子系统
CN113870315A (zh) 一种动作迁移模型的训练方法及动作迁移方法
CN116030516A (zh) 基于多任务学习与全局循环卷积的微表情识别方法及装置
CN113870314A (zh) 一种动作迁移模型的训练方法及动作迁移方法
CN114519727A (zh) 一种图像驱动方法、装置、设备和介质
CN106778576A (zh) 一种基于sehm特征图序列的动作识别方法
CN109784215A (zh) 一种基于改进的光流法的活体检测方法及系统
CN112487926A (zh) 一种基于时空图卷积网络的景区投喂行为识别方法
CN112488165A (zh) 一种基于深度学习模型的红外行人识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination