CN112800979B - 一种基于表征流嵌入网络的动态表情识别方法及系统 - Google Patents

一种基于表征流嵌入网络的动态表情识别方法及系统 Download PDF

Info

Publication number
CN112800979B
CN112800979B CN202110133950.1A CN202110133950A CN112800979B CN 112800979 B CN112800979 B CN 112800979B CN 202110133950 A CN202110133950 A CN 202110133950A CN 112800979 B CN112800979 B CN 112800979B
Authority
CN
China
Prior art keywords
layer
convolution
tensor
output
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110133950.1A
Other languages
English (en)
Other versions
CN112800979A (zh
Inventor
卢官明
李同霞
卢峻禾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110133950.1A priority Critical patent/CN112800979B/zh
Publication of CN112800979A publication Critical patent/CN112800979A/zh
Application granted granted Critical
Publication of CN112800979B publication Critical patent/CN112800979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于表征流嵌入网络的动态表情识别方法及系统。该方法包括:采集人脸表情视频片段,建立包含表情类别标签的人脸表情视频库;构建嵌入表征流层的卷积神经网络模型,该模型包括数据处理层、第一特征提取模块、表征流层、第二特征提取模块、注意力机制模块、全连接层和分类层;使用人脸表情视频库中的视频样本对所述的卷积神经网络模型进行训练;利用训练好的模型对测试视频进行人脸表情识别,输出表情类别。本发明在卷积神经网络中嵌入可微分的表征流层,在特征图层面借鉴传统光流法生成表征光流图,利用时间序列上特征图之间的表征光流来提取视频帧序列中的动态表情特征,能够有效提高人脸表情识别的准确率、鲁棒性及实时性。

Description

一种基于表征流嵌入网络的动态表情识别方法及系统
技术领域
本发明涉及一种基于表征流嵌入网络的动态表情识别方法及系统,属于情感计算和模式识别领域。
背景技术
表情是人类情绪的直观反应,在人际交往中起着非常重要的作用。据心理学家Mehrabiadu的研究表明,在人类的日常交流中,通过人脸表情传递的信息高达信息总量的55%。人脸表情识别作为情感计算系统的关键技术,是实现人机交互的基础,在疲劳驾驶检测、服务机器人、医疗监控、虚拟现实等领域有着广阔的应用前景。
在基于传统机器学习的人脸表情识别系统中,表情特征提取是最关键的环节,影响着整个系统的识别准确率。因此,有关表情特征的构建和提取一直受到广泛关注,研究人员提出了活动外观模型(Active Appearance Model,AAM)、Gabor小波变换、局部二元模式(Local Binary Pattern,LBP)、方向梯度直方图(Histograms of Oriented Gradients,HOG)等。这些方法的共同点就是需要依靠人工精心设计显式特征提取器,在一定程度上损失了原有的特征信息。近年来,随着深度学习理论的发展,研究人员提出了基于卷积神经网络的静态表情识别方法,避免了繁琐的人工设计显式特征提取器的环节,通过逐层地构建一个多层的深度神经网络,让机器自主地从训练样本数据中学习到表征这些样本的更加本质的表情特征,从而实现端到端的静态表情识别系统。
针对动态图像序列的表情识别,光流法是常用的特征提取方法。光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。基于梯度约束的Lucas-Kanade光流法通过微分的方式将运动场转化到了光流场,利用图像序列中相邻帧之间的像素因位置变化引起的亮度值(像素灰度值)变化,提取能够反映时间序列的光流特征,可以更好地表征人脸表情的动态变化。然而,传统的光流法是在原始的RGB图像像素层面上计算光流,计算量很大,难以满足实时性的要求,而且对复杂场景的光照变化比较敏感,鲁棒性差。
发明内容
发明目的:针对基于光流特征的动态表情识别方法存在计算量大、难以满足实时性的要求以及对复杂场景的光照变化比较敏感、鲁棒性差的问题,本发明的目的是提供一种基于表征流嵌入网络的动态表情识别方法及系统,在卷积神经网络中嵌入可微分的表征流层,在特征图层面借鉴传统光流法生成表征光流图,利用时间序列上特征图之间的表征光流来提取视频帧序列中的动态表情特征,有效提高人脸表情识别的准确率、鲁棒性及实时性。
技术方案:本发明为实现上述发明目的采用以下技术方案:
一种基于表征流嵌入网络的动态表情识别方法,包括以下步骤:
(1)采集人脸表情视频片段,建立包含表情类别标签的人脸表情视频库;
(2)构建一种嵌入表征流层的卷积神经网络模型,该模型包括数据处理层、第一特征提取模块、表征流层、第二特征提取模块、全连接层以及分类层;
所述数据处理层,用于对输入的视频片段进行预处理,输出指定长度、大小归一化后的人脸图像序列;
所述第一特征提取模块,用于提取人脸图像序列的浅层时空特征,将数据处理层输出的人脸图像序列经过卷积、池化操作后,输出M个特征图张量
Figure BDA0002926383210000021
其中i=1,2,…,M,4≤M<N,N表示输入的人脸图像序列帧数,H0、W0、C0分别表示第一特征提取模块输出的特征图张量的高度、宽度和通道数;
所述表征流层,用于计算时间序列上特征图之间的表征光流,包括:
预处理单元,用于将特征图张量Ii中每个特征图像素的取值进行规范化,统一调整到0~255之间,并使用C个1×1×1大小的卷积核对特征图张量Ii进行卷积操作,得到特征图张量
Figure BDA0002926383210000022
其中i=1,2,…,M,16≤C<C0
第一级表征光流计算单元,用于计算特征图张量I′j与I′j+1中对应通道上的两个特征图Pj与Pj+1之间在水平方向和垂直方向的表征光流图,其中j=1,2,…,M-1;并组合得到M-1个表征光流图张量
Figure BDA0002926383210000023
其中m=1,2,…,M-1,每个表征光流图张量中包含2C个H0×W0大小的表征光流图;
第一级表征光流卷积单元,用于使用2C个1×k×k大小的卷积核对表征光流图张量Vm进行卷积操作,得到特征图张量
Figure BDA0002926383210000024
其中k在3、5、7数值中选取;并使用C个1×1×1大小的卷积核对特征图张量V′m进行卷积操作,得到M-1个特征图张量
Figure BDA0002926383210000025
其中m=1,2,…,M-1;
第二级表征光流计算单元,用于计算特征图张量V″n与V″n+1中对应通道上的两个特征图P′n与P′n+1之间在水平方向和垂直方向的表征光流图,其中n=1,2,…,M-2;并组合得到M-2个表征光流图张量
Figure BDA0002926383210000031
其中l=1,2,…,M-2,每个表征光流图张量中包含2C个H0×W0大小的表征光流图;
以及,第二级表征光流卷积单元,用于使用2C个1×k×k大小的卷积核对表征光流图张量Ul进行卷积操作,得到特征图张量
Figure BDA0002926383210000032
其中k在3、5、7数值中选取;并使用C0个1×1×1大小的卷积核对特征图张量U′l进行卷积操作,得到M-2个特征图张量
Figure BDA0002926383210000033
其中l=1,2,…,M-2;
所述第二特征提取模块,用于提取人脸图像序列的深层时空特征,将表征流层输出的M-2个特征图张量U″l经过卷积、池化操作后,输出L个特征图张量
Figure BDA0002926383210000034
其中q=1,2,…,L,1≤L<M-2,H1、W1、C1分别表示第二特征提取模块输出的特征图张量的高度、宽度和通道数;
所述全连接层,用于对第二特征提取模块输出的特征图张量Fq进行特征融合,输出特征向量Q;
所述分类层,用于对特征向量Q进行分类,输出人脸表情类别;
(3)使用人脸表情视频库中的视频片段样本对嵌入表征流层的卷积神经网络模型进行训练;
(4)利用训练好的模型对新输入的测试视频进行人脸表情识别,输出表情类别。
作为优选,所述第二特征提取模块和全连接层之间还包括注意力机制模块;所述注意力机制模块,用于计算特征图张量
Figure BDA0002926383210000035
的空间域注意力权重,并使用空间域注意力权重对特征图张量Fq进行加权运算,输出特征图张量
Figure BDA0002926383210000036
其中q=1,2,…,L;所述全连接层,用于对注意力机制模块输出的特征图张量F′q进行特征融合,输出特征向量Q。
作为优选,所述第一特征提取模块为残差网络模块,由顺序连接的卷积层、第一池化层、第一残差模块、第二池化层和第二残差模块组成,具体结构如下:
卷积层使用d1个1×k1×k1的3D卷积核以(1,2,2)为步长对经过补零操作后的人脸图像序列进行卷积操作,其中,d1在32、64、128数值中选取,k1在3、5、7、9数值中选取;
第一池化层使用k2×k2×k2的池化核以(1,2,2)为步长对卷积层输出的特征图张量进行最大池化操作,其中,k2在1、2、3数值中选取;
第一残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用d2个1×1×1的3D卷积核以(1,1,1)为步长对第一池化层输出的特征图张量进行卷积操作,其中d2在32、64、128数值中选取;第二卷积层使用d3个1×k3×k3的3D卷积核以(1,1,1)为步长对第一卷积层输出的特征图张量进行卷积操作,其中,d3在32、64、128数值中选取,k3在1、3、5数值中选取;第三卷积层使用d4个1×1×1的3D卷积核以(1,1,1)为步长对第二卷积层输出的特征图张量进行卷积操作,其中,d4在128、256、512数值中选取;将恒等映射的输出与第三卷积层输出的特征图张量相加,即为第一残差模块的输出;
第二池化层使用k4×1×1的池化核以(2,1,1)为步长对第一残差模块输出的特征图张量进行最大池化操作,其中,k4在1、2、3数值中选取;
第二残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用d5个1×1×1的3D卷积核以(1,1,1)为步长对第二池化层输出的特征图张量进行卷积操作,其中,d5在64、128、256数值中选取;第二卷积层使用d6个1×k5×k5的3D卷积核以(1,1,1)为步长对第一卷积层输出的特征图张量进行卷积操作,其中,d6在64、128、256数值中选取,k5在1、3、5数值中选取;第三卷积层使用d7个1×1×1的3D卷积核以(1,1,1)为步长对第二卷积层输出的特征图张量进行卷积操作,其中d7在256、512、1024数值中选取;将恒等映射的输出与第三卷积层输出的特征图张量相加,即为第二残差模块的输出,也为第一特征提取模块的输出。
作为优选,所述第二特征提取模块为残差网络模块,由顺序连接的第三残差模块、第四残差模块和第三池化层组成,具体结构如下:
第三残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用d8个1×1×1的3D卷积核以(1,1,1)为步长对表征流层输出的特征图张量进行卷积操作,其中,d8在128、256、512数值中选取;第二卷积层使用d9个1×k6(k6的3D卷积核以(1,2,2)为步长对第一卷积层输出的特征图张量进行卷积操作,其中,d9在128、256、512数值中选取,k6在1、3、5数值中选取;第三卷积层使用d10个1(1(1的3D卷积核以(1,1,1)为步长对第二卷积层输出的特征图张量进行卷积操作,其中,d10在256、512、1024数值中选取;将恒等映射的输出与第三卷积层输出的特征图张量相加,即为第三残差模块的输出;
第四残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用d11个1(1(1的3D卷积核以(1,1,1)为步长对第三残差模块输出的特征图张量进行卷积操作,其中,d11在256、512、1024数值中选取;第二卷积层使用d12个1(k7(k7的3D卷积核以(1,2,2)为步长对第一卷积层输出的特征图张量进行卷积操作,其中,d12在256、512、1024数值中选取,k7在1、3、5数值中选取;第三卷积层使用d13个1×1(1的3D卷积核以(1,1,1)为步长对第二卷积层输出的特征图张量进行卷积操作,其中,d13在512、1024、2048数值中选取;将恒等映射的输出与第三卷积层输出的特征图张量相加,即为第四残差模块的输出;
第三池化层使用k8×1×1大小的池化核以(2,1,1)为步长对第四残差模块输出的特征图张量进行最大池化操作,即为第二特征提取模块的输出,其中,k8在1、2、3数值中选取。
基于相同的发明构思,本发明提供的一种基于表征流嵌入网络的动态表情识别系统,包括:
样本库建立模块,用于采集人脸表情视频片段,建立包含表情类别标签的人脸表情视频库;
嵌入表征流层的卷积神经网络模型,该模型包括数据处理层、第一特征提取模块、表征流层、第二特征提取模块、全连接层以及分类层;
网络训练模块,使用人脸表情视频库中的视频片段样本对嵌入表征流层的卷积神经网络模型进行训练;
以及表情识别模块,利用训练好的模型对新输入的测试视频进行人脸表情识别,输出表情类别;
所述数据处理层,用于对输入的视频片段进行预处理,输出指定长度、大小归一化后的人脸图像序列;
所述第一特征提取模块,用于提取人脸图像序列的浅层时空特征,将数据处理层输出的人脸图像序列经过卷积、池化操作后,输出M个特征图张量
Figure BDA0002926383210000061
其中i=1,2,…,M,4≤M<N,N表示输入的人脸图像序列帧数,H0、W0、C0分别表示第一特征提取模块输出的特征图张量的高度、宽度和通道数;
所述表征流层,用于计算时间序列上特征图之间的表征光流,包括:
预处理单元,用于将特征图张量Ii中每个特征图像素的取值进行规范化,统一调整到0~255之间,并使用C个1×1×1大小的卷积核对特征图张量Ii进行卷积操作,得到特征图张量
Figure BDA0002926383210000062
其中i=1,2,…,M,16≤C<C0
第一级表征光流计算单元,用于计算特征图张量I′j与I′j+1中对应通道上的两个特征图Pj与Pj+1之间在水平方向和垂直方向的表征光流图,其中j=1,2,…,M-1;并组合得到M-1个表征光流图张量
Figure BDA0002926383210000063
其中m=1,2,…,M-1,每个表征光流图张量中包含2C个H0×W0大小的表征光流图;
第一级表征光流卷积单元,用于使用2C个1×k×k大小的卷积核对表征光流图张量Vm进行卷积操作,得到特征图张量
Figure BDA0002926383210000064
其中k在3、5、7数值中选取;并使用C个1×1×1大小的卷积核对特征图张量V′m进行卷积操作,得到M-1个特征图张量
Figure BDA0002926383210000065
其中m=1,2,…,M-1;
第二级表征光流计算单元,用于计算特征图张量V″n与V″n+1中对应通道上的两个特征图P′n与P′n+1之间在水平方向和垂直方向的表征光流图,其中n=1,2,…,M-2;并组合得到M-2个表征光流图张量
Figure BDA0002926383210000066
其中l=1,2,…,M-2,每个表征光流图张量中包含2C个H0×W0大小的表征光流图;
以及,第二级表征光流卷积单元,用于使用2C个1×k×k大小的卷积核对表征光流图张量Ul进行卷积操作,得到特征图张量
Figure BDA0002926383210000067
其中k在3、5、7数值中选取;并使用C0个1×1×1大小的卷积核对特征图张量U′l进行卷积操作,得到M-2个特征图张量
Figure BDA0002926383210000071
其中l=1,2,…,M-2;
所述第二特征提取模块,用于提取人脸图像序列的深层时空特征,将表征流层输出的M-2个特征图张量U″l经过卷积、池化操作后,输出L个特征图张量
Figure BDA0002926383210000072
其中q=1,2,…,L,1≤L<M-2,H1、W1、C1分别表示第二特征提取模块输出的特征图张量的高度、宽度和通道数;
所述全连接层,用于对第二特征提取模块输出的特征图张量Fq进行特征融合,输出特征向量Q;
所述分类层,用于对特征向量Q进行分类,输出人脸表情类别。
基于相同的发明构思,本发明提供的一种基于表征流嵌入网络的动态表情识别系统,包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的一种基于表征流嵌入网络的动态表情识别方法。
有益效果:与现有技术相比,本发明具有以下技术效果:
(1)本发明构建了一种嵌入表征流层的卷积神经网络模型,在卷积神经网络(CNN)中嵌入可微分的表征流层,在小尺寸的特征图(在本实施例中,特征图的大小为28×28)层面上生成表征光流图,利用时间序列上特征图之间的表征光流来提取视频帧序列中的动态表情特征,克服了传统的光流法需在大尺寸的帧图像(在本实施例中,输入的帧图像的大小为224224)层面上计算光流导致计算耗时、难以满足实时性的缺点;此外,在常见的基于双流(two-stream)结构的卷积神经网络中,需要同时输入两个独立的流(比如视频帧序列和光流),要分别训练两个流的网络模型参数,导致计算量巨大而且需要训练的模型参数数量也巨大,限制了实时性,而本发明对于光流迭代优化的所有参数都可以和卷积神经网络的其他模型参数以端到端(end-to-end)的方式一起训练学习得到,从而可以满足实时性的要求。
(2)本发明提供的表征流层通过两次堆叠表征光流计算单元和表征光流卷积单元能够学习较长时间的动态表情特征,抑制不一致的光流干扰,提升表情识别的准确率和鲁棒性。
(3)本发明构建了深度残差网络模型,采用3D卷积核提取视频片段中的时空特征,通过训练自适应地调整模型参数,自主地从训练样本数据中学习到能够表征表情变化的特征,相对于采用传统的人工设计特征,具有更强的表征能力和泛化能力,从而提升表情识别的准确率。
(4)本发明公开了一种面向视频的动态表情识别方法及系统,可以分析人脸表情随时间的动态变化。
附图说明
图1是本发明实施例的方法的流程图。
图2是本发明实施例构建的嵌入表征流层的卷积神经网络模型结构示意图。
图3是本发明实施例中表征流层的操作流程图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式做进一步详细的说明。
如图1所示,本发明实施例提供的一种基于表征流嵌入网络的动态表情识别方法,主要包括如下步骤:
步骤1:采集正常人在不同情绪状态下的人脸表情视频片段,然后通过视频剪辑获得长度为N帧的视频样本,建立包含表情类别标签的人脸表情视频库,其中N在16、24、32数值中选取;
步骤2:构建一种嵌入表征流层的卷积神经网络模型,该模型包括数据处理层、第一特征提取模块、表征流层、第二特征提取模块、全连接层以及分类层:
数据处理层,用于对输入的视频帧序列进行预处理,预处理过程包括:从输入的视频帧序列中截取一段段的视频片段,每一段的视频片段长度为N帧,并对每一帧图像进行人脸检测、对齐、大小归一化,输出长度为N帧的人脸图像序列;
第一特征提取模块,用于提取人脸图像序列的浅层时空特征,将数据处理层输出的N帧人脸图像序列经过卷积、池化操作后,输出M个特征图张量
Figure BDA0002926383210000081
其中i=1,2,…,M,M表示时间序列上的帧数,4≤M≤N,H0表示特征图的高度,W0表示特征图的宽度,C0表示特征图的通道数;
表征流层,用于计算时间序列上特征图之间的表征光流,具体包括:
预处理单元,用于将特征图张量Ii中每个特征图像素的取值进行规范化,统一调整到0~255之间,并使用C个1×1×1大小的卷积核对特征图张量Ii进行卷积操作,得到特征图张量
Figure BDA0002926383210000082
其中i=1,2,…,M,16≤C<C0
第一级表征光流计算单元,用于计算特征图张量I′j与I′j+1中对应通道上的两个特征图Pj与Pj+1之间在水平方向和垂直方向的表征光流图,其中j=1,2,…,M-1;并组合得到M-1个表征光流图张量
Figure BDA0002926383210000091
其中m=1,2,…,M-1,每个表征光流图张量中包含2C个H0×W0大小的表征光流图;
第一级表征光流卷积单元,用于首先使用2C个1×k×k大小的卷积核对表征光流图张量Vm进行卷积操作,得到特征图张量
Figure BDA0002926383210000092
其中k在3、5、7数值中选取并使用C个1×1×1大小的卷积核对特征图张量V′m进行卷积操作,得到M-1个特征图张量
Figure BDA0002926383210000093
其中m=1,2,…,M-1;
第二级表征光流计算单元,用于计算特征图张量V″n与V″n+1中对应通道上的两个特征图P′n与P′n+1之间在水平方向和垂直方向的表征光流图,其中n=1,2,…,M-2;并组合得到M-2个表征光流图张量
Figure BDA0002926383210000094
其中l=1,2,…,M-2,每个表征光流图张量中包含2C个H0×W0大小的表征光流图;
以及,第二级表征光流卷积单元,用于使用2C个1×k×k大小的卷积核对表征光流图张量Ul进行卷积操作,得到特征图张量
Figure BDA0002926383210000095
其中k在3、5、7数值中选取;并使用C0个1×1×1大小的卷积核对特征图张量U′l进行卷积操作,得到M-2个特征图张量
Figure BDA0002926383210000096
其中l=1,2,…,M-2;
第二特征提取模块,用于提取人脸图像序列的深层时空特征,将表征流层输出的M-2个特征图张量U″l经过卷积、池化操作后,输出L个特征图张量
Figure BDA0002926383210000097
其中q=1,2,…,L,L表示时间序列上的帧数,1≤L<M-2,H1表示特征图的高度,W1表示特征图的宽度,C1表示特征图的通道数;
全连接层,对注意力机制模块输出的特征图张量Fq进行特征融合,输出特征向量Q;
分类层,对特征向量Q进行分类,输出人脸表情类别;
此外,为进一步提高准确性,第二特征提取模块和全连接层之间还可包括注意力机制模块,用于计算特征图张量
Figure BDA0002926383210000101
的空间域注意力权重,并使用空间域注意力权重对特征图张量Fq进行加权运算,输出特征图张量
Figure BDA0002926383210000102
其中q=1,2,…,L;全连接层对注意力机制模块输出的特征图张量F′q进行特征融合,输出特征向量Q;
步骤3:使用人脸表情视频库中的视频样本对嵌入表征流层的卷积神经网络模型进行训练;
步骤4:利用训练好的模型对新输入的测试视频进行人脸表情识别,输出表情类别。
为进一步提升网络模型的表征能力和泛化能力,第一特征提取模块和第二特征提取模块均可采用残差网络模块,分别由顺序连接的卷积层、第一池化层、第一残差模块、第二池化层和第二残差模块组成,以及顺序连接的第三残差模块、第四残差模块和第三池化层组成。
第一特征提取模块可采用如下结构:
卷积层使用d1个1×k1×k1的3D卷积核以(1,2,2)为步长对经过补零操作后的人脸图像序列进行卷积操作,其中,d1在32、64、128数值中选取,k1在3、5、7、9数值中选取;
第一池化层使用k2×k2×k2的池化核以(1,2,2)为步长对卷积层输出的特征图张量进行最大池化操作,其中,k2在1、2、3数值中选取;
第一残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用d2个1×1×1的3D卷积核以(1,1,1)为步长对第一池化层输出的特征图张量进行卷积操作,其中d2在32、64、128数值中选取;第二卷积层使用d3个1×k3×k3的3D卷积核以(1,1,1)为步长对第一卷积层输出的特征图张量进行卷积操作,其中,d3在32、64、128数值中选取,k3在1、3、5数值中选取;第三卷积层使用d4个1×1×1的3D卷积核以(1,1,1)为步长对第二卷积层输出的特征图张量进行卷积操作,其中,d4在128、256、512数值中选取;将恒等映射的输出与第三卷积层输出的特征图张量相加,即为第一残差模块的输出;
第二池化层使用k4×1×1的池化核以(2,1,1)为步长对第一残差模块输出的特征图张量进行最大池化操作,其中,k4在1、2、3数值中选取;
第二残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用d5个1×1×1的3D卷积核以(1,1,1)为步长对第二池化层输出的特征图张量进行卷积操作,其中,d5在64、128、256数值中选取;第二卷积层使用d6个1×k5×k5的3D卷积核以(1,1,1)为步长对第一卷积层输出的特征图张量进行卷积操作,其中,d6在64、128、256数值中选取,k5在1、3、5数值中选取;第三卷积层使用d7个1×1×1的3D卷积核以(1,1,1)为步长对第二卷积层输出的特征图张量进行卷积操作,其中d7在256、512、1024数值中选取;将恒等映射的输出与第三卷积层输出的特征图张量相加,即为第二残差模块的输出,也为第一特征提取模块的输出。
第二特征提取模块可采用如下结构:
第三残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用d8个1×1×1的3D卷积核以(1,1,1)为步长对表征流层输出的特征图张量进行卷积操作,其中,d8在128、256、512数值中选取;第二卷积层使用d9个1×k6×k6的3D卷积核以(1,2,2)为步长对第一卷积层输出的特征图张量进行卷积操作,其中,d9在128、256、512数值中选取,k6在1、3、5数值中选取;第三卷积层使用d10个1×1×1的3D卷积核以(1,1,1)为步长对第二卷积层输出的特征图张量进行卷积操作,其中,d10在256、512、1024数值中选取;将恒等映射的输出与第三卷积层输出的特征图张量相加,即为第三残差模块的输出;
第四残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用d11个1×1×1的3D卷积核以(1,1,1)为步长对第三残差模块输出的特征图张量进行卷积操作,其中,d11在256、512、1024数值中选取;第二卷积层使用d12个1×k7×k7的3D卷积核以(1,2,2)为步长对第一卷积层输出的特征图张量进行卷积操作,其中,d12在256、512、1024数值中选取,k7在1、3、5数值中选取;第三卷积层使用d13个1×1×1的3D卷积核以(1,1,1)为步长对第二卷积层输出的特征图张量进行卷积操作,其中,d13在512、1024、2048数值中选取;将恒等映射的输出与第三卷积层输出的特征图张量相加,即为第四残差模块的输出;
第三池化层使用k8×1×1大小的池化核以(2,1,1)为步长对第四残差模块输出的特征图张量进行最大池化操作,即为第二特征提取模块的输出,其中,k8在1、2、3数值中选取。
下面以本发明实施例在现有人脸表情视频库上的应用做进一步说明。本实施例选用AFEW(Acted Facial Expressions in the Wild)人脸表情视频库,在实际中,也可以采用其他的人脸表情视频库,或自行建立包含人脸表情类别标签的人脸表情视频库。AFEW人脸表情视频库中的视频样本均为电影或者电视的剪辑片段,包含1749个视频片段。对每一个视频片段进行剪辑,获得长度为16帧的视频样本,每个视频样本中的人脸对应一种表情类别,包括生气、害怕、厌恶、高兴、悲伤、惊讶和中性7种类别。
本实施例构建的一种嵌入表征流层的卷积神经网络模型的具体配置如下:
数据处理层,对输入的视频帧序列进行预处理,预处理过程包括:从输入的视频帧序列中截取一段段的视频片段,每一段的视频片段长度为16帧,并对每一帧图像进行人脸检测、对齐、大小归一化,输出长度为16帧的人脸图像序列,每一张图像大小为224×224。
第一特征提取模块采用残差网络模块,由顺序连接的卷积层、第一池化层、第一残差模块、第二池化层、第二残差模块组成,其中:
卷积层使用64个1×7×7的3D卷积核以(1,2,2)为步长对经过补零操作后的人脸图像序列进行卷积操作,输出16个特征图张量,每个特征图张量包含64个大小为112×112的特征图;
第一池化层使用3×3×3的池化核以(1,2,2)为步长对卷积层输出的特征图张量进行最大池化操作,输出16个特征图张量,每个特征图张量包含64个大小为56×56的特征图;
第一残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用64个1×1×1的3D卷积核以(1,1,1)为步长对第一池化层输出的16个特征图张量进行卷积操作,输出16个特征图张量,每个特征图张量包含64个大小为56×56的特征图;第二卷积层使用64个1×3×3的3D卷积核以(1,1,1)为步长对第一卷积层输出的16个特征图张量进行卷积操作,输出16个特征图张量,每个特征图张量包含64个大小为56×56的特征图;第三卷积层使用256个1×1×1的3D卷积核以(1,1,1)为步长对第二卷积层输出的16个特征图张量进行卷积操作,输出16个特征图张量,每个特征图张量包含256个大小为56×56的特征图;使用256个1×1×1的3D卷积核以(1,1,1)为步长对第一池化层输出的16个特征图张量进行卷积操作,得到16个特征图张量,每个特征图张量包含256个大小为56×56的特征图,并将这16个特征图张量与第三卷积层输出的16个特征图张量相加,即为第一残差模块的输出;
第二池化层使用3×1×1的池化核以(2,1,1)为步长对第一残差模块输出的16个特征图张量进行最大池化操作,输出8个特征图张量,每个特征图张量包含256个大小为56×56的特征图;
第二残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用128个1×1×1的3D卷积核以(1,1,1)为步长对第二池化层输出的8个特征图张量进行卷积操作,输出8个特征图张量,每个特征图张量包含128个大小为56×56的特征图;第二卷积层使用128个1×3×3的3D卷积核以(1,2,2)为步长对第一卷积层输出的8个特征图张量进行卷积操作,输出8个特征图张量,每个特征图张量包含128个大小为28×28的特征图;第三卷积层使用512个1×1×1的3D卷积核以(1,1,1)为步长对第二卷积层输出的8个特征图张量进行卷积操作,输出8个特征图张量,每个特征图张量包含512个大小为28×28的特征图;使用512个1×1×1的3D卷积核以(1,1,1)为步长对第二池化层输出的8个特征图张量进行卷积操作,得到8个特征图张量,每个特征图张量包含512个大小为28×28的特征图,并将这8个特征图张量与第三卷积层输出的8个特征图张量相加,即为第二残差模块的输出,也为第一特征提取模块的输出。
表征流层,用于计算时间序列上特征图之间的表征光流,输出6个特征图张量
Figure BDA0002926383210000131
其中l=1,2,…,6,具体操作包括如下步骤:
(1)将特征图张量Ii中每个特征图像素的取值进行规范化,统一调整到0~255之间,然后使用32个1×1×1大小的卷积核以(1,1,1)为步长对特征图张量Ii进行卷积操作,得到特征图张量
Figure BDA0002926383210000132
其中i=1,2,…,8;
(2)首先计算特征图张量I′j与I′j+1中对应通道上的两个特征图Pj与Pj+1之间在水平方向和垂直方向的表征光流图,其中j=1,2,…,7;然后,经过组合得到7个表征光流图张量
Figure BDA0002926383210000141
其中m=1,2,…,7,每个表征光流图张量中包含64个28×28大小的表征光流图;
(3)首先使用64个1×3×3大小的卷积核以(1,1,1)为步长对经过补零操作后的表征光流图张量Vm进行卷积操作,得到特征图张量
Figure BDA0002926383210000142
其中m=1,2,…,7;然后,使用32个1×1×1大小的卷积核对特征图张量V′m进行卷积操作,得到7个特征图张量
Figure BDA0002926383210000143
其中m=1,2,…,7;
(4)首先计算特征图张量V″n与V″n+1中对应通道上的两个特征图P′n与P′n+1之间在水平方向和垂直方向的表征光流图,其中n=1,2,…,6;然后,经过组合得到6个表征光流图张量
Figure BDA0002926383210000144
其中l=1,2,…,6,每个表征光流图张量中包含64个28×28大小的表征光流图;
(5)首先使用64个1×3×3大小的卷积核以(1,1,1)为步长对经过补零操作后的表征光流图张量Ul进行卷积操作,得到特征图张量
Figure BDA0002926383210000145
其中l=1,2,…,6;然后,使用512个1×1×1大小的卷积核对特征图张量U′l进行卷积操作,得到6个特征图张量
Figure BDA0002926383210000146
其中l=1,2,…,6。
第二特征提取模块采用残差网络模块,包括第三残差模块、第四残差模块和第三池化层:
第三残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用256个1×1×1的3D卷积核以(1,1,1)为步长对表征流层输出的6个特征图张量进行卷积操作,输出6个特征图张量,每个特征图张量包含256个大小为28×28的特征图;第二卷积层使用256个1×3×3的3D卷积核以(1,2,2)为步长对第一卷积层输出的6个特征图张量进行卷积操作,输出6个特征图张量,每个特征图张量包含256个大小为14×14的特征图;第三卷积层使用1024个1×1×1的3D卷积核以(1,1,1)为步长对第二卷积层输出的6个特征图张量进行卷积操作,输出6个特征图张量,每个特征图张量包含1024个大小为14×14的特征图;使用1024个1×1×1的3D卷积核以(1,1,1)为步长对表征流层输出的6个特征图张量进行卷积操作,得到6个特征图张量,每个特征图张量包含1024个大小为14×14的特征图,并将这6个特征图张量与第三卷积层输出的6个特征图张量相加,即为第三残差模块的输出;
第四残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用512个1×1×1的3D卷积核以(1,1,1)为步长对第三残差模块输出的6个特征图张量进行卷积操作,输出6个特征图张量,每个特征图张量包含512个大小为14×14的特征图;第二卷积层使用512个1×3×3的3D卷积核以(1,2,2)为步长对第一卷积层输出的6个特征图张量进行卷积操作,输出6个特征图张量,每个特征图张量包含512个大小为7×7的特征图;第三卷积层使用2048个1×1×1的3D卷积核以(1,1,1)为步长对第二卷积层输出的6个特征图张量进行卷积操作,输出6个特征图张量,每个特征图张量包含2048个大小为7×7的特征图;使用2048个1×1×1的3D卷积核以(1,1,1)为步长对第三残差模块输出的6个特征图张量进行卷积操作,得到6个特征图张量,每个特征图张量包含2048个大小为7×7的特征图,并将这6个特征图张量与第三卷积层输出的6个特征图张量相加,即为第四残差模块的输出;
第三池化层使用2×1×1大小的池化核以(2,1,1)为步长对第四残差模块输出的6个特征图张量进行最大池化操作,输出3个特征图张量,每个特征图张量包含2048个大小为7×7的特征图,即为第二特征提取模块的输出。
注意力机制模块,用于计算特征图张量的空间域注意力权重,并使用空间域注意力权重对第二特征提取模块输出的3个特征图张量进行加权运算,输出3个特征图张量,每个特征图张量包含2048个大小为7×7的特征图。
全连接层,包含256个神经元,对注意力机制模块输出的特征图张量进行特征融合,输出256维的特征向量。
分类层,将全连接层输出的256维特征向量全连接至本层的7个节点,经过Softmax回归后得到输入视频中的人脸表情分别属于7类表情的概率,最大概率值所对应的表情类别就是输出的人脸表情类别。
基于相同的发明构思,本发明实施例提供的一种基于表征流嵌入网络的动态表情识别系统,包括:样本库建立模块,用于采集人脸表情视频片段,建立包含表情类别标签的人脸表情视频库;嵌入表征流层的卷积神经网络模型,该模型包括数据处理层、第一特征提取模块、表征流层、第二特征提取模块、全连接层以及分类层,具体结构参照上述方法实施例;网络训练模块,使用人脸表情视频库中的视频片段样本对嵌入表征流层的卷积神经网络模型进行训练;以及表情识别模块,利用训练好的模型对新输入的测试视频进行人脸表情识别,输出表情类别。
本领域技术人员可以理解,可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。
基于相同的发明构思,本发明实施例提供的一种基于表征流嵌入网络的动态表情识别系统,包括至少一台计算设备,该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的一种基于表征流嵌入网络的动态表情识别方法。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种基于表征流嵌入网络的动态表情识别方法,其特征在于,该方法包括以下步骤:
(1)采集人脸表情视频片段,建立包含表情类别标签的人脸表情视频库;
(2)构建一种嵌入表征流层的卷积神经网络模型,该模型包括数据处理层、第一特征提取模块、表征流层、第二特征提取模块、全连接层以及分类层;
所述数据处理层,用于对输入的视频片段进行预处理,输出指定长度、大小归一化后的人脸图像序列;
所述第一特征提取模块,用于提取人脸图像序列的浅层时空特征,将数据处理层输出的人脸图像序列经过卷积、池化操作后,输出M个特征图张量
Figure FDA0002926383200000011
其中i=1,2,…,M,4≤M<N,N表示输入的人脸图像序列帧数,H0、W0、C0分别表示第一特征提取模块输出的特征图张量的高度、宽度和通道数;
所述表征流层,用于计算时间序列上特征图之间的表征光流,包括:
预处理单元,用于将特征图张量Ii中每个特征图像素的取值进行规范化,统一调整到0~255之间,并使用C个1×1×1大小的卷积核对特征图张量Ii进行卷积操作,得到特征图张量
Figure FDA0002926383200000012
其中i=1,2,…,M,16≤C<C0
第一级表征光流计算单元,用于计算特征图张量I′j与I′j+1中对应通道上的两个特征图Pj与Pj+1之间在水平方向和垂直方向的表征光流图,其中j=1,2,…,M-1;并组合得到M-1个表征光流图张量
Figure FDA0002926383200000013
其中m=1,2,…,M-1,每个表征光流图张量中包含2C个H0×W0大小的表征光流图;
第一级表征光流卷积单元,用于使用2C个1×k×k大小的卷积核对表征光流图张量Vm进行卷积操作,得到特征图张量
Figure FDA0002926383200000014
其中k在3、5、7数值中选取;并使用C个1×1×1大小的卷积核对特征图张量V′m进行卷积操作,得到M-1个特征图张量
Figure FDA0002926383200000015
其中m=1,2,…,M-1;
第二级表征光流计算单元,用于计算特征图张量V″n与V″n+1中对应通道上的两个特征图P′n与P′n+1之间在水平方向和垂直方向的表征光流图,其中n=1,2,…,M-2;并组合得到M-2个表征光流图张量
Figure FDA0002926383200000016
其中l=1,2,…,M-2,每个表征光流图张量中包含2C个H0×W0大小的表征光流图;
以及,第二级表征光流卷积单元,用于使用2C个1×k×k大小的卷积核对表征光流图张量Ul进行卷积操作,得到特征图张量
Figure FDA0002926383200000021
其中k在3、5、7数值中选取;并使用C0个1×1×1大小的卷积核对特征图张量U′l进行卷积操作,得到M-2个特征图张量
Figure FDA0002926383200000022
其中l=1,2,…,M-2;
所述第二特征提取模块,用于提取人脸图像序列的深层时空特征,将表征流层输出的M-2个特征图张量U″l经过卷积、池化操作后,输出L个特征图张量
Figure FDA0002926383200000023
其中q=1,2,…,L,1≤L<M-2,H1、W1、C1分别表示第二特征提取模块输出的特征图张量的高度、宽度和通道数;
所述全连接层,用于对第二特征提取模块输出的特征图张量Fq进行特征融合,输出特征向量Q;
所述分类层,用于对特征向量Q进行分类,输出人脸表情类别;
(3)使用人脸表情视频库中的视频片段样本对嵌入表征流层的卷积神经网络模型进行训练;
(4)利用训练好的模型对新输入的测试视频进行人脸表情识别,输出表情类别。
2.根据权利要求1所述的一种基于表征流嵌入网络的动态表情识别方法,其特征在于,所述第二特征提取模块和全连接层之间还包括注意力机制模块;
所述注意力机制模块,用于计算特征图张量
Figure FDA0002926383200000024
的空间域注意力权重,并使用空间域注意力权重对特征图张量Fq进行加权运算,输出特征图张量
Figure FDA0002926383200000025
其中q=1,2,…,L;
所述全连接层,用于对注意力机制模块输出的特征图张量F′q进行特征融合,输出特征向量Q。
3.根据权利要求1所述的一种基于表征流嵌入网络的动态表情识别方法,其特征在于,所述第一特征提取模块为残差网络模块,由顺序连接的卷积层、第一池化层、第一残差模块、第二池化层和第二残差模块组成,具体结构如下:
卷积层使用d1个1×k1×k1的3D卷积核以(1,2,2)为步长对经过补零操作后的人脸图像序列进行卷积操作,其中,d1在32、64、128数值中选取,k1在3、5、7、9数值中选取;
第一池化层使用k2×k2×k2的池化核以(1,2,2)为步长对卷积层输出的特征图张量进行最大池化操作,其中,k2在1、2、3数值中选取;
第一残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用d2个1×1×1的3D卷积核以(1,1,1)为步长对第一池化层输出的特征图张量进行卷积操作,其中d2在32、64、128数值中选取;第二卷积层使用d3个1×k3×k3的3D卷积核以(1,1,1)为步长对第一卷积层输出的特征图张量进行卷积操作,其中,d3在32、64、128数值中选取,k3在1、3、5数值中选取;第三卷积层使用d4个1×1×1的3D卷积核以(1,1,1)为步长对第二卷积层输出的特征图张量进行卷积操作,其中,d4在128、256、512数值中选取;将恒等映射的输出与第三卷积层输出的特征图张量相加,即为第一残差模块的输出;
第二池化层使用k4×1×1的池化核以(2,1,1)为步长对第一残差模块输出的特征图张量进行最大池化操作,其中,k4在1、2、3数值中选取;
第二残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用d5个1×1×1的3D卷积核以(1,1,1)为步长对第二池化层输出的特征图张量进行卷积操作,其中,d5在64、128、256数值中选取;第二卷积层使用d6个1×k5×k5的3D卷积核以(1,1,1)为步长对第一卷积层输出的特征图张量进行卷积操作,其中,d6在64、128、256数值中选取,k5在1、3、5数值中选取;第三卷积层使用d7个1×1×1的3D卷积核以(1,1,1)为步长对第二卷积层输出的特征图张量进行卷积操作,其中d7在256、512、1024数值中选取;将恒等映射的输出与第三卷积层输出的特征图张量相加,即为第二残差模块的输出,也为第一特征提取模块的输出。
4.根据权利要求1所述的一种基于表征流嵌入网络的动态表情识别方法,其特征在于,所述第二特征提取模块为残差网络模块,由顺序连接的第三残差模块、第四残差模块和第三池化层组成,具体结构如下:
第三残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用d8个1×1×1的3D卷积核以(1,1,1)为步长对表征流层输出的特征图张量进行卷积操作,其中,d8在128、256、512数值中选取;第二卷积层使用d9个1×k6×k6的3D卷积核以(1,2,2)为步长对第一卷积层输出的特征图张量进行卷积操作,其中,d9在128、256、512数值中选取,k6在1、3、5数值中选取;第三卷积层使用d10个1×1×1的3D卷积核以(1,1,1)为步长对第二卷积层输出的特征图张量进行卷积操作,其中,d10在256、512、1024数值中选取;将恒等映射的输出与第三卷积层输出的特征图张量相加,即为第三残差模块的输出;
第四残差模块包括3个堆叠的卷积层和一个恒等映射连接,其中,第一卷积层使用d11个1×1×1的3D卷积核以(1,1,1)为步长对第三残差模块输出的特征图张量进行卷积操作,其中,d11在256、512、1024数值中选取;第二卷积层使用d12个1×k7×k7的3D卷积核以(1,2,2)为步长对第一卷积层输出的特征图张量进行卷积操作,其中,d12在256、512、1024数值中选取,k7在1、3、5数值中选取;第三卷积层使用d13个1×1×1的3D卷积核以(1,1,1)为步长对第二卷积层输出的特征图张量进行卷积操作,其中,d13在512、1024、2048数值中选取;将恒等映射的输出与第三卷积层输出的特征图张量相加,即为第四残差模块的输出;
第三池化层使用k8×1×1大小的池化核以(2,1,1)为步长对第四残差模块输出的特征图张量进行最大池化操作,即为第二特征提取模块的输出,其中,k8在1、2、3数值中选取。
5.一种基于表征流嵌入网络的动态表情识别系统,其特征在于,包括:
样本库建立模块,用于采集人脸表情视频片段,建立包含表情类别标签的人脸表情视频库;
嵌入表征流层的卷积神经网络模型,该模型包括数据处理层、第一特征提取模块、表征流层、第二特征提取模块、全连接层以及分类层;
网络训练模块,使用人脸表情视频库中的视频片段样本对嵌入表征流层的卷积神经网络模型进行训练;
以及表情识别模块,利用训练好的模型对新输入的测试视频进行人脸表情识别,输出表情类别;
所述数据处理层,用于对输入的视频片段进行预处理,输出指定长度、大小归一化后的人脸图像序列;
所述第一特征提取模块,用于提取人脸图像序列的浅层时空特征,将数据处理层输出的人脸图像序列经过卷积、池化操作后,输出M个特征图张量
Figure FDA0002926383200000051
其中i=1,2,…,M,4≤M<N,N表示输入的人脸图像序列帧数,H0、W0、C0分别表示第一特征提取模块输出的特征图张量的高度、宽度和通道数;
所述表征流层,用于计算时间序列上特征图之间的表征光流,包括:
预处理单元,用于将特征图张量Ii中每个特征图像素的取值进行规范化,统一调整到0~255之间,并使用C个1×1×1大小的卷积核对特征图张量Ii进行卷积操作,得到特征图张量
Figure FDA0002926383200000052
其中i=1,2,…,M,16≤C<C0
第一级表征光流计算单元,用于计算特征图张量I′j与I′j+1中对应通道上的两个特征图Pj与Pj+1之间在水平方向和垂直方向的表征光流图,其中j=1,2,…,M-1;并组合得到M-1个表征光流图张量
Figure FDA0002926383200000053
其中m=1,2,…,M-1,每个表征光流图张量中包含2C个H0×W0大小的表征光流图;
第一级表征光流卷积单元,用于使用2C个1×k×k大小的卷积核对表征光流图张量Vm进行卷积操作,得到特征图张量
Figure FDA0002926383200000054
其中k在3、5、7数值中选取;并使用C个1×1×1大小的卷积核对特征图张量V′m进行卷积操作,得到M-1个特征图张量
Figure FDA0002926383200000055
其中m=1,2,…,M-1;
第二级表征光流计算单元,用于计算特征图张量V″n与V″n+1中对应通道上的两个特征图P′n与P′n+1之间在水平方向和垂直方向的表征光流图,其中n=1,2,…,M-2;并组合得到M-2个表征光流图张量
Figure FDA0002926383200000056
其中l=1,2,…,M-2,每个表征光流图张量中包含2C个H0×W0大小的表征光流图;
以及,第二级表征光流卷积单元,用于使用2C个1×k×k大小的卷积核对表征光流图张量Ul进行卷积操作,得到特征图张量
Figure FDA0002926383200000057
其中k在3、5、7数值中选取;并使用C0个1×1×1大小的卷积核对特征图张量U′l进行卷积操作,得到M-2个特征图张量
Figure FDA0002926383200000061
其中l=1,2,…,M-2;
所述第二特征提取模块,用于提取人脸图像序列的深层时空特征,将表征流层输出的M-2个特征图张量U″l经过卷积、池化操作后,输出L个特征图张量
Figure FDA0002926383200000062
其中q=1,2,…,L,1≤L<M-2,H1、W1、C1分别表示第二特征提取模块输出的特征图张量的高度、宽度和通道数;
所述全连接层,用于对第二特征提取模块输出的特征图张量Fq进行特征融合,输出特征向量Q;
所述分类层,用于对特征向量Q进行分类,输出人脸表情类别。
6.一种基于表征流嵌入网络的动态表情识别系统,其特征在于,包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现根据权利要求1-4任一项所述的一种基于表征流嵌入网络的动态表情识别方法。
CN202110133950.1A 2021-02-01 2021-02-01 一种基于表征流嵌入网络的动态表情识别方法及系统 Active CN112800979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110133950.1A CN112800979B (zh) 2021-02-01 2021-02-01 一种基于表征流嵌入网络的动态表情识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110133950.1A CN112800979B (zh) 2021-02-01 2021-02-01 一种基于表征流嵌入网络的动态表情识别方法及系统

Publications (2)

Publication Number Publication Date
CN112800979A CN112800979A (zh) 2021-05-14
CN112800979B true CN112800979B (zh) 2022-08-26

Family

ID=75813196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110133950.1A Active CN112800979B (zh) 2021-02-01 2021-02-01 一种基于表征流嵌入网络的动态表情识别方法及系统

Country Status (1)

Country Link
CN (1) CN112800979B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113305856B (zh) * 2021-05-25 2022-11-15 中山大学 一种智能识别表情的陪伴型机器人
CN117076712B (zh) * 2023-10-16 2024-02-23 中国科学技术大学 视频检索方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596039A (zh) * 2018-03-29 2018-09-28 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN108615010A (zh) * 2018-04-24 2018-10-02 重庆邮电大学 基于平行卷积神经网络特征图融合的人脸表情识别方法
CN110516571A (zh) * 2019-08-16 2019-11-29 东南大学 基于光流注意力神经网络的跨库微表情识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596039A (zh) * 2018-03-29 2018-09-28 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN108615010A (zh) * 2018-04-24 2018-10-02 重庆邮电大学 基于平行卷积神经网络特征图融合的人脸表情识别方法
CN110516571A (zh) * 2019-08-16 2019-11-29 东南大学 基于光流注意力神经网络的跨库微表情识别方法及装置

Also Published As

Publication number Publication date
CN112800979A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN110110624B (zh) 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
CN109325443B (zh) 一种基于多实例多标签深度迁移学习的人脸属性识别方法
CN110399821B (zh) 基于人脸表情识别的顾客满意度获取方法
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
CN110728209A (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN107153810A (zh) 一种基于深度学习的手写体数字识别方法及系统
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
CN112800894A (zh) 一种基于时空流间注意力机制的动态表情识别方法及系统
CN111582095B (zh) 一种轻量级行人异常行为快速检测方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN112800979B (zh) 一种基于表征流嵌入网络的动态表情识别方法及系统
CN112307995A (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN108596256B (zh) 一种基于rgb-d物体识别分类器构造方法
CN112801236B (zh) 图像识别模型的迁移方法、装置、设备及存储介质
CN113205002B (zh) 非受限视频监控的低清人脸识别方法、装置、设备及介质
CN113780249B (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
CN110046544A (zh) 基于卷积神经网络的数字手势识别方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN113610046A (zh) 一种基于深度视频联动特征的行为识别方法
He et al. Global and local fusion ensemble network for facial expression recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant