CN112800979B

CN112800979B - 一种基于表征流嵌入网络的动态表情识别方法及系统

Info

Publication number: CN112800979B
Application number: CN202110133950.1A
Authority: CN
Inventors: 卢官明; 李同霞; 卢峻禾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2022-08-26
Anticipated expiration: 2041-02-01
Also published as: CN112800979A

Abstract

本发明公开了一种基于表征流嵌入网络的动态表情识别方法及系统。该方法包括：采集人脸表情视频片段，建立包含表情类别标签的人脸表情视频库；构建嵌入表征流层的卷积神经网络模型，该模型包括数据处理层、第一特征提取模块、表征流层、第二特征提取模块、注意力机制模块、全连接层和分类层；使用人脸表情视频库中的视频样本对所述的卷积神经网络模型进行训练；利用训练好的模型对测试视频进行人脸表情识别，输出表情类别。本发明在卷积神经网络中嵌入可微分的表征流层，在特征图层面借鉴传统光流法生成表征光流图，利用时间序列上特征图之间的表征光流来提取视频帧序列中的动态表情特征，能够有效提高人脸表情识别的准确率、鲁棒性及实时性。

Description

一种基于表征流嵌入网络的动态表情识别方法及系统

技术领域

本发明涉及一种基于表征流嵌入网络的动态表情识别方法及系统，属于情感计算和模式识别领域。

背景技术

表情是人类情绪的直观反应，在人际交往中起着非常重要的作用。据心理学家Mehrabiadu的研究表明，在人类的日常交流中，通过人脸表情传递的信息高达信息总量的55％。人脸表情识别作为情感计算系统的关键技术，是实现人机交互的基础，在疲劳驾驶检测、服务机器人、医疗监控、虚拟现实等领域有着广阔的应用前景。

在基于传统机器学习的人脸表情识别系统中，表情特征提取是最关键的环节，影响着整个系统的识别准确率。因此，有关表情特征的构建和提取一直受到广泛关注，研究人员提出了活动外观模型(Active Appearance Model，AAM)、Gabor小波变换、局部二元模式(Local Binary Pattern，LBP)、方向梯度直方图(Histograms of Oriented Gradients，HOG)等。这些方法的共同点就是需要依靠人工精心设计显式特征提取器，在一定程度上损失了原有的特征信息。近年来，随着深度学习理论的发展，研究人员提出了基于卷积神经网络的静态表情识别方法，避免了繁琐的人工设计显式特征提取器的环节，通过逐层地构建一个多层的深度神经网络，让机器自主地从训练样本数据中学习到表征这些样本的更加本质的表情特征，从而实现端到端的静态表情识别系统。

针对动态图像序列的表情识别，光流法是常用的特征提取方法。光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。基于梯度约束的Lucas-Kanade光流法通过微分的方式将运动场转化到了光流场，利用图像序列中相邻帧之间的像素因位置变化引起的亮度值(像素灰度值)变化，提取能够反映时间序列的光流特征，可以更好地表征人脸表情的动态变化。然而，传统的光流法是在原始的RGB图像像素层面上计算光流，计算量很大，难以满足实时性的要求，而且对复杂场景的光照变化比较敏感，鲁棒性差。

发明内容

发明目的：针对基于光流特征的动态表情识别方法存在计算量大、难以满足实时性的要求以及对复杂场景的光照变化比较敏感、鲁棒性差的问题，本发明的目的是提供一种基于表征流嵌入网络的动态表情识别方法及系统，在卷积神经网络中嵌入可微分的表征流层，在特征图层面借鉴传统光流法生成表征光流图，利用时间序列上特征图之间的表征光流来提取视频帧序列中的动态表情特征，有效提高人脸表情识别的准确率、鲁棒性及实时性。

技术方案：本发明为实现上述发明目的采用以下技术方案：

一种基于表征流嵌入网络的动态表情识别方法，包括以下步骤：

(1)采集人脸表情视频片段，建立包含表情类别标签的人脸表情视频库；

(2)构建一种嵌入表征流层的卷积神经网络模型，该模型包括数据处理层、第一特征提取模块、表征流层、第二特征提取模块、全连接层以及分类层；

所述数据处理层，用于对输入的视频片段进行预处理，输出指定长度、大小归一化后的人脸图像序列；

所述第一特征提取模块，用于提取人脸图像序列的浅层时空特征，将数据处理层输出的人脸图像序列经过卷积、池化操作后，输出M个特征图张量

其中i＝1,2,…,M，4≤M＜N，N表示输入的人脸图像序列帧数，H₀、W₀、C₀分别表示第一特征提取模块输出的特征图张量的高度、宽度和通道数；

所述表征流层，用于计算时间序列上特征图之间的表征光流，包括：

预处理单元，用于将特征图张量I_i中每个特征图像素的取值进行规范化，统一调整到0～255之间，并使用C个1×1×1大小的卷积核对特征图张量I_i进行卷积操作，得到特征图张量

其中i＝1,2,…,M，16≤C＜C₀；

第一级表征光流计算单元，用于计算特征图张量I′_j与I′_j+1中对应通道上的两个特征图P_j与P_j+1之间在水平方向和垂直方向的表征光流图，其中j＝1,2,…,M-1；并组合得到M-1个表征光流图张量

其中m＝1,2,…,M-1，每个表征光流图张量中包含2C个H₀×W₀大小的表征光流图；

第一级表征光流卷积单元，用于使用2C个1×k×k大小的卷积核对表征光流图张量V_m进行卷积操作，得到特征图张量

其中k在3、5、7数值中选取；并使用C个1×1×1大小的卷积核对特征图张量V′_m进行卷积操作，得到M-1个特征图张量

其中m＝1,2,…,M-1；

第二级表征光流计算单元，用于计算特征图张量V″_n与V″_n+1中对应通道上的两个特征图P′_n与P′_n+1之间在水平方向和垂直方向的表征光流图，其中n＝1,2,…,M-2；并组合得到M-2个表征光流图张量

其中l＝1,2,…,M-2，每个表征光流图张量中包含2C个H₀×W₀大小的表征光流图；

以及，第二级表征光流卷积单元，用于使用2C个1×k×k大小的卷积核对表征光流图张量U_l进行卷积操作，得到特征图张量

其中k在3、5、7数值中选取；并使用C₀个1×1×1大小的卷积核对特征图张量U′_l进行卷积操作，得到M-2个特征图张量

其中l＝1,2,…,M-2；

所述第二特征提取模块，用于提取人脸图像序列的深层时空特征，将表征流层输出的M-2个特征图张量U″_l经过卷积、池化操作后，输出L个特征图张量

其中q＝1,2,…,L，1≤L＜M-2，H₁、W₁、C₁分别表示第二特征提取模块输出的特征图张量的高度、宽度和通道数；

所述全连接层，用于对第二特征提取模块输出的特征图张量F_q进行特征融合，输出特征向量Q；

所述分类层，用于对特征向量Q进行分类，输出人脸表情类别；

(3)使用人脸表情视频库中的视频片段样本对嵌入表征流层的卷积神经网络模型进行训练；

(4)利用训练好的模型对新输入的测试视频进行人脸表情识别，输出表情类别。

作为优选，所述第二特征提取模块和全连接层之间还包括注意力机制模块；所述注意力机制模块，用于计算特征图张量

的空间域注意力权重，并使用空间域注意力权重对特征图张量F_q进行加权运算，输出特征图张量

其中q＝1,2,…,L；所述全连接层，用于对注意力机制模块输出的特征图张量F′_q进行特征融合，输出特征向量Q。

作为优选，所述第一特征提取模块为残差网络模块，由顺序连接的卷积层、第一池化层、第一残差模块、第二池化层和第二残差模块组成，具体结构如下：

卷积层使用d₁个1×k₁×k₁的3D卷积核以(1，2，2)为步长对经过补零操作后的人脸图像序列进行卷积操作，其中，d₁在32、64、128数值中选取，k₁在3、5、7、9数值中选取；

第一池化层使用k₂×k₂×k₂的池化核以(1，2，2)为步长对卷积层输出的特征图张量进行最大池化操作，其中，k₂在1、2、3数值中选取；

第一残差模块包括3个堆叠的卷积层和一个恒等映射连接，其中，第一卷积层使用d₂个1×1×1的3D卷积核以(1，1，1)为步长对第一池化层输出的特征图张量进行卷积操作，其中d₂在32、64、128数值中选取；第二卷积层使用d₃个1×k₃×k₃的3D卷积核以(1，1，1)为步长对第一卷积层输出的特征图张量进行卷积操作，其中，d₃在32、64、128数值中选取，k₃在1、3、5数值中选取；第三卷积层使用d₄个1×1×1的3D卷积核以(1，1，1)为步长对第二卷积层输出的特征图张量进行卷积操作，其中，d₄在128、256、512数值中选取；将恒等映射的输出与第三卷积层输出的特征图张量相加，即为第一残差模块的输出；

第二池化层使用k₄×1×1的池化核以(2，1，1)为步长对第一残差模块输出的特征图张量进行最大池化操作，其中，k₄在1、2、3数值中选取；

第二残差模块包括3个堆叠的卷积层和一个恒等映射连接，其中，第一卷积层使用d₅个1×1×1的3D卷积核以(1，1，1)为步长对第二池化层输出的特征图张量进行卷积操作，其中，d₅在64、128、256数值中选取；第二卷积层使用d₆个1×k₅×k₅的3D卷积核以(1，1，1)为步长对第一卷积层输出的特征图张量进行卷积操作，其中，d₆在64、128、256数值中选取，k₅在1、3、5数值中选取；第三卷积层使用d₇个1×1×1的3D卷积核以(1，1，1)为步长对第二卷积层输出的特征图张量进行卷积操作，其中d₇在256、512、1024数值中选取；将恒等映射的输出与第三卷积层输出的特征图张量相加，即为第二残差模块的输出，也为第一特征提取模块的输出。

作为优选，所述第二特征提取模块为残差网络模块，由顺序连接的第三残差模块、第四残差模块和第三池化层组成，具体结构如下：

第三残差模块包括3个堆叠的卷积层和一个恒等映射连接，其中，第一卷积层使用d₈个1×1×1的3D卷积核以(1，1，1)为步长对表征流层输出的特征图张量进行卷积操作，其中，d₈在128、256、512数值中选取；第二卷积层使用d₉个1×k₆(k₆的3D卷积核以(1，2，2)为步长对第一卷积层输出的特征图张量进行卷积操作，其中，d₉在128、256、512数值中选取，k₆在1、3、5数值中选取；第三卷积层使用d₁₀个1(1(1的3D卷积核以(1，1，1)为步长对第二卷积层输出的特征图张量进行卷积操作，其中，d₁₀在256、512、1024数值中选取；将恒等映射的输出与第三卷积层输出的特征图张量相加，即为第三残差模块的输出；

第四残差模块包括3个堆叠的卷积层和一个恒等映射连接，其中，第一卷积层使用d₁₁个1(1(1的3D卷积核以(1，1，1)为步长对第三残差模块输出的特征图张量进行卷积操作，其中，d₁₁在256、512、1024数值中选取；第二卷积层使用d₁₂个1(k₇(k₇的3D卷积核以(1，2，2)为步长对第一卷积层输出的特征图张量进行卷积操作，其中，d₁₂在256、512、1024数值中选取，k₇在1、3、5数值中选取；第三卷积层使用d₁₃个1×1(1的3D卷积核以(1，1，1)为步长对第二卷积层输出的特征图张量进行卷积操作，其中，d₁₃在512、1024、2048数值中选取；将恒等映射的输出与第三卷积层输出的特征图张量相加，即为第四残差模块的输出；

第三池化层使用k₈×1×1大小的池化核以(2，1，1)为步长对第四残差模块输出的特征图张量进行最大池化操作，即为第二特征提取模块的输出，其中，k₈在1、2、3数值中选取。

基于相同的发明构思，本发明提供的一种基于表征流嵌入网络的动态表情识别系统，包括：

样本库建立模块，用于采集人脸表情视频片段，建立包含表情类别标签的人脸表情视频库；

嵌入表征流层的卷积神经网络模型，该模型包括数据处理层、第一特征提取模块、表征流层、第二特征提取模块、全连接层以及分类层；

网络训练模块，使用人脸表情视频库中的视频片段样本对嵌入表征流层的卷积神经网络模型进行训练；

以及表情识别模块，利用训练好的模型对新输入的测试视频进行人脸表情识别，输出表情类别；

其中i＝1,2,…,M，16≤C＜C₀；

其中m＝1,2,…,M-1；

其中l＝1,2,…,M-2；

所述分类层，用于对特征向量Q进行分类，输出人脸表情类别。

基于相同的发明构思，本发明提供的一种基于表征流嵌入网络的动态表情识别系统，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的一种基于表征流嵌入网络的动态表情识别方法。

有益效果：与现有技术相比，本发明具有以下技术效果：

(1)本发明构建了一种嵌入表征流层的卷积神经网络模型，在卷积神经网络(CNN)中嵌入可微分的表征流层，在小尺寸的特征图(在本实施例中，特征图的大小为28×28)层面上生成表征光流图，利用时间序列上特征图之间的表征光流来提取视频帧序列中的动态表情特征，克服了传统的光流法需在大尺寸的帧图像(在本实施例中，输入的帧图像的大小为224224)层面上计算光流导致计算耗时、难以满足实时性的缺点；此外，在常见的基于双流(two-stream)结构的卷积神经网络中，需要同时输入两个独立的流(比如视频帧序列和光流)，要分别训练两个流的网络模型参数，导致计算量巨大而且需要训练的模型参数数量也巨大，限制了实时性，而本发明对于光流迭代优化的所有参数都可以和卷积神经网络的其他模型参数以端到端(end-to-end)的方式一起训练学习得到，从而可以满足实时性的要求。

(2)本发明提供的表征流层通过两次堆叠表征光流计算单元和表征光流卷积单元能够学习较长时间的动态表情特征，抑制不一致的光流干扰，提升表情识别的准确率和鲁棒性。

(3)本发明构建了深度残差网络模型，采用3D卷积核提取视频片段中的时空特征，通过训练自适应地调整模型参数，自主地从训练样本数据中学习到能够表征表情变化的特征，相对于采用传统的人工设计特征，具有更强的表征能力和泛化能力，从而提升表情识别的准确率。

(4)本发明公开了一种面向视频的动态表情识别方法及系统，可以分析人脸表情随时间的动态变化。

附图说明

图1是本发明实施例的方法的流程图。

图2是本发明实施例构建的嵌入表征流层的卷积神经网络模型结构示意图。

图3是本发明实施例中表征流层的操作流程图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式做进一步详细的说明。

如图1所示，本发明实施例提供的一种基于表征流嵌入网络的动态表情识别方法，主要包括如下步骤：

步骤1：采集正常人在不同情绪状态下的人脸表情视频片段，然后通过视频剪辑获得长度为N帧的视频样本，建立包含表情类别标签的人脸表情视频库，其中N在16、24、32数值中选取；

步骤2：构建一种嵌入表征流层的卷积神经网络模型，该模型包括数据处理层、第一特征提取模块、表征流层、第二特征提取模块、全连接层以及分类层：

数据处理层，用于对输入的视频帧序列进行预处理，预处理过程包括：从输入的视频帧序列中截取一段段的视频片段，每一段的视频片段长度为N帧，并对每一帧图像进行人脸检测、对齐、大小归一化，输出长度为N帧的人脸图像序列；

第一特征提取模块，用于提取人脸图像序列的浅层时空特征，将数据处理层输出的N帧人脸图像序列经过卷积、池化操作后，输出M个特征图张量

其中i＝1,2,…,M，M表示时间序列上的帧数，4≤M≤N，H₀表示特征图的高度，W₀表示特征图的宽度，C₀表示特征图的通道数；

表征流层，用于计算时间序列上特征图之间的表征光流，具体包括：

其中i＝1,2,…,M，16≤C＜C₀；

第一级表征光流卷积单元，用于首先使用2C个1×k×k大小的卷积核对表征光流图张量V_m进行卷积操作，得到特征图张量

其中k在3、5、7数值中选取并使用C个1×1×1大小的卷积核对特征图张量V′_m进行卷积操作，得到M-1个特征图张量

其中m＝1,2,…,M-1；

其中l＝1,2,…,M-2；

第二特征提取模块，用于提取人脸图像序列的深层时空特征，将表征流层输出的M-2个特征图张量U″_l经过卷积、池化操作后，输出L个特征图张量

其中q＝1,2,…,L，L表示时间序列上的帧数，1≤L＜M-2，H₁表示特征图的高度，W₁表示特征图的宽度，C₁表示特征图的通道数；

全连接层，对注意力机制模块输出的特征图张量F_q进行特征融合，输出特征向量Q；

分类层，对特征向量Q进行分类，输出人脸表情类别；

此外，为进一步提高准确性，第二特征提取模块和全连接层之间还可包括注意力机制模块，用于计算特征图张量

其中q＝1,2,…,L；全连接层对注意力机制模块输出的特征图张量F′_q进行特征融合，输出特征向量Q；

步骤3：使用人脸表情视频库中的视频样本对嵌入表征流层的卷积神经网络模型进行训练；

步骤4：利用训练好的模型对新输入的测试视频进行人脸表情识别，输出表情类别。

为进一步提升网络模型的表征能力和泛化能力，第一特征提取模块和第二特征提取模块均可采用残差网络模块，分别由顺序连接的卷积层、第一池化层、第一残差模块、第二池化层和第二残差模块组成，以及顺序连接的第三残差模块、第四残差模块和第三池化层组成。

第一特征提取模块可采用如下结构：

第二特征提取模块可采用如下结构：

第三残差模块包括3个堆叠的卷积层和一个恒等映射连接，其中，第一卷积层使用d₈个1×1×1的3D卷积核以(1，1，1)为步长对表征流层输出的特征图张量进行卷积操作，其中，d₈在128、256、512数值中选取；第二卷积层使用d₉个1×k₆×k₆的3D卷积核以(1，2，2)为步长对第一卷积层输出的特征图张量进行卷积操作，其中，d₉在128、256、512数值中选取，k₆在1、3、5数值中选取；第三卷积层使用d₁₀个1×1×1的3D卷积核以(1，1，1)为步长对第二卷积层输出的特征图张量进行卷积操作，其中，d₁₀在256、512、1024数值中选取；将恒等映射的输出与第三卷积层输出的特征图张量相加，即为第三残差模块的输出；

第四残差模块包括3个堆叠的卷积层和一个恒等映射连接，其中，第一卷积层使用d₁₁个1×1×1的3D卷积核以(1，1，1)为步长对第三残差模块输出的特征图张量进行卷积操作，其中，d₁₁在256、512、1024数值中选取；第二卷积层使用d₁₂个1×k₇×k₇的3D卷积核以(1，2，2)为步长对第一卷积层输出的特征图张量进行卷积操作，其中，d₁₂在256、512、1024数值中选取，k₇在1、3、5数值中选取；第三卷积层使用d₁₃个1×1×1的3D卷积核以(1，1，1)为步长对第二卷积层输出的特征图张量进行卷积操作，其中，d₁₃在512、1024、2048数值中选取；将恒等映射的输出与第三卷积层输出的特征图张量相加，即为第四残差模块的输出；

下面以本发明实施例在现有人脸表情视频库上的应用做进一步说明。本实施例选用AFEW(Acted Facial Expressions in the Wild)人脸表情视频库，在实际中，也可以采用其他的人脸表情视频库，或自行建立包含人脸表情类别标签的人脸表情视频库。AFEW人脸表情视频库中的视频样本均为电影或者电视的剪辑片段，包含1749个视频片段。对每一个视频片段进行剪辑，获得长度为16帧的视频样本，每个视频样本中的人脸对应一种表情类别，包括生气、害怕、厌恶、高兴、悲伤、惊讶和中性7种类别。

本实施例构建的一种嵌入表征流层的卷积神经网络模型的具体配置如下：

数据处理层，对输入的视频帧序列进行预处理，预处理过程包括：从输入的视频帧序列中截取一段段的视频片段，每一段的视频片段长度为16帧，并对每一帧图像进行人脸检测、对齐、大小归一化，输出长度为16帧的人脸图像序列，每一张图像大小为224×224。

第一特征提取模块采用残差网络模块，由顺序连接的卷积层、第一池化层、第一残差模块、第二池化层、第二残差模块组成，其中：

卷积层使用64个1×7×7的3D卷积核以(1，2，2)为步长对经过补零操作后的人脸图像序列进行卷积操作，输出16个特征图张量，每个特征图张量包含64个大小为112×112的特征图；

第一池化层使用3×3×3的池化核以(1，2，2)为步长对卷积层输出的特征图张量进行最大池化操作，输出16个特征图张量，每个特征图张量包含64个大小为56×56的特征图；

第一残差模块包括3个堆叠的卷积层和一个恒等映射连接，其中，第一卷积层使用64个1×1×1的3D卷积核以(1，1，1)为步长对第一池化层输出的16个特征图张量进行卷积操作，输出16个特征图张量，每个特征图张量包含64个大小为56×56的特征图；第二卷积层使用64个1×3×3的3D卷积核以(1，1，1)为步长对第一卷积层输出的16个特征图张量进行卷积操作，输出16个特征图张量，每个特征图张量包含64个大小为56×56的特征图；第三卷积层使用256个1×1×1的3D卷积核以(1，1，1)为步长对第二卷积层输出的16个特征图张量进行卷积操作，输出16个特征图张量，每个特征图张量包含256个大小为56×56的特征图；使用256个1×1×1的3D卷积核以(1，1，1)为步长对第一池化层输出的16个特征图张量进行卷积操作，得到16个特征图张量，每个特征图张量包含256个大小为56×56的特征图，并将这16个特征图张量与第三卷积层输出的16个特征图张量相加，即为第一残差模块的输出；

第二池化层使用3×1×1的池化核以(2，1，1)为步长对第一残差模块输出的16个特征图张量进行最大池化操作，输出8个特征图张量，每个特征图张量包含256个大小为56×56的特征图；

第二残差模块包括3个堆叠的卷积层和一个恒等映射连接，其中，第一卷积层使用128个1×1×1的3D卷积核以(1，1，1)为步长对第二池化层输出的8个特征图张量进行卷积操作，输出8个特征图张量，每个特征图张量包含128个大小为56×56的特征图；第二卷积层使用128个1×3×3的3D卷积核以(1，2，2)为步长对第一卷积层输出的8个特征图张量进行卷积操作，输出8个特征图张量，每个特征图张量包含128个大小为28×28的特征图；第三卷积层使用512个1×1×1的3D卷积核以(1，1，1)为步长对第二卷积层输出的8个特征图张量进行卷积操作，输出8个特征图张量，每个特征图张量包含512个大小为28×28的特征图；使用512个1×1×1的3D卷积核以(1，1，1)为步长对第二池化层输出的8个特征图张量进行卷积操作，得到8个特征图张量，每个特征图张量包含512个大小为28×28的特征图，并将这8个特征图张量与第三卷积层输出的8个特征图张量相加，即为第二残差模块的输出，也为第一特征提取模块的输出。

表征流层，用于计算时间序列上特征图之间的表征光流，输出6个特征图张量

其中l＝1,2,…,6，具体操作包括如下步骤：

(1)将特征图张量I_i中每个特征图像素的取值进行规范化，统一调整到0～255之间，然后使用32个1×1×1大小的卷积核以(1，1，1)为步长对特征图张量I_i进行卷积操作，得到特征图张量

其中i＝1,2,…,8；

(2)首先计算特征图张量I′_j与I′_j+1中对应通道上的两个特征图P_j与P_j+1之间在水平方向和垂直方向的表征光流图，其中j＝1,2,…,7；然后，经过组合得到7个表征光流图张量

其中m＝1,2,…,7，每个表征光流图张量中包含64个28×28大小的表征光流图；

(3)首先使用64个1×3×3大小的卷积核以(1，1，1)为步长对经过补零操作后的表征光流图张量V_m进行卷积操作，得到特征图张量

其中m＝1,2,…,7；然后，使用32个1×1×1大小的卷积核对特征图张量V′_m进行卷积操作，得到7个特征图张量

其中m＝1,2,…,7；

(4)首先计算特征图张量V″_n与V″_n+1中对应通道上的两个特征图P′_n与P′_n+1之间在水平方向和垂直方向的表征光流图，其中n＝1,2,…,6；然后，经过组合得到6个表征光流图张量

其中l＝1,2,…,6，每个表征光流图张量中包含64个28×28大小的表征光流图；

(5)首先使用64个1×3×3大小的卷积核以(1，1，1)为步长对经过补零操作后的表征光流图张量U_l进行卷积操作，得到特征图张量

其中l＝1,2,…,6；然后，使用512个1×1×1大小的卷积核对特征图张量U′_l进行卷积操作，得到6个特征图张量

其中l＝1,2,…,6。

第二特征提取模块采用残差网络模块，包括第三残差模块、第四残差模块和第三池化层：

第三残差模块包括3个堆叠的卷积层和一个恒等映射连接，其中，第一卷积层使用256个1×1×1的3D卷积核以(1，1，1)为步长对表征流层输出的6个特征图张量进行卷积操作，输出6个特征图张量，每个特征图张量包含256个大小为28×28的特征图；第二卷积层使用256个1×3×3的3D卷积核以(1，2，2)为步长对第一卷积层输出的6个特征图张量进行卷积操作，输出6个特征图张量，每个特征图张量包含256个大小为14×14的特征图；第三卷积层使用1024个1×1×1的3D卷积核以(1，1，1)为步长对第二卷积层输出的6个特征图张量进行卷积操作，输出6个特征图张量，每个特征图张量包含1024个大小为14×14的特征图；使用1024个1×1×1的3D卷积核以(1，1，1)为步长对表征流层输出的6个特征图张量进行卷积操作，得到6个特征图张量，每个特征图张量包含1024个大小为14×14的特征图，并将这6个特征图张量与第三卷积层输出的6个特征图张量相加，即为第三残差模块的输出；

第四残差模块包括3个堆叠的卷积层和一个恒等映射连接，其中，第一卷积层使用512个1×1×1的3D卷积核以(1，1，1)为步长对第三残差模块输出的6个特征图张量进行卷积操作，输出6个特征图张量，每个特征图张量包含512个大小为14×14的特征图；第二卷积层使用512个1×3×3的3D卷积核以(1，2，2)为步长对第一卷积层输出的6个特征图张量进行卷积操作，输出6个特征图张量，每个特征图张量包含512个大小为7×7的特征图；第三卷积层使用2048个1×1×1的3D卷积核以(1，1，1)为步长对第二卷积层输出的6个特征图张量进行卷积操作，输出6个特征图张量，每个特征图张量包含2048个大小为7×7的特征图；使用2048个1×1×1的3D卷积核以(1，1，1)为步长对第三残差模块输出的6个特征图张量进行卷积操作，得到6个特征图张量，每个特征图张量包含2048个大小为7×7的特征图，并将这6个特征图张量与第三卷积层输出的6个特征图张量相加，即为第四残差模块的输出；

第三池化层使用2×1×1大小的池化核以(2，1，1)为步长对第四残差模块输出的6个特征图张量进行最大池化操作，输出3个特征图张量，每个特征图张量包含2048个大小为7×7的特征图，即为第二特征提取模块的输出。

注意力机制模块，用于计算特征图张量的空间域注意力权重，并使用空间域注意力权重对第二特征提取模块输出的3个特征图张量进行加权运算，输出3个特征图张量，每个特征图张量包含2048个大小为7×7的特征图。

全连接层，包含256个神经元，对注意力机制模块输出的特征图张量进行特征融合，输出256维的特征向量。

分类层，将全连接层输出的256维特征向量全连接至本层的7个节点，经过Softmax回归后得到输入视频中的人脸表情分别属于7类表情的概率，最大概率值所对应的表情类别就是输出的人脸表情类别。

基于相同的发明构思，本发明实施例提供的一种基于表征流嵌入网络的动态表情识别系统，包括：样本库建立模块，用于采集人脸表情视频片段，建立包含表情类别标签的人脸表情视频库；嵌入表征流层的卷积神经网络模型，该模型包括数据处理层、第一特征提取模块、表征流层、第二特征提取模块、全连接层以及分类层，具体结构参照上述方法实施例；网络训练模块，使用人脸表情视频库中的视频片段样本对嵌入表征流层的卷积神经网络模型进行训练；以及表情识别模块，利用训练好的模型对新输入的测试视频进行人脸表情识别，输出表情类别。

本领域技术人员可以理解，可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。

基于相同的发明构思，本发明实施例提供的一种基于表征流嵌入网络的动态表情识别系统，包括至少一台计算设备，该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的一种基于表征流嵌入网络的动态表情识别方法。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。