CN107273876A

CN107273876A - 一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法

Info

Publication number: CN107273876A
Application number: CN201710587663.1A
Authority: CN
Inventors: 贲晛烨; 庞建华; 冯云聪; 任亿; 赵子君; 张鑫
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2017-10-20
Anticipated expiration: 2037-07-18
Also published as: CN107273876B

Abstract

本发明提供了一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法，包括：A、微表情样本处理：1)对微表情数据集样本和宏表情数据集样本进行预处理；2)构建跨模态元组损失函数的样本对；B、跨模态‘宏to微’转换模型训练：3)训练AU检测网络，初始化AU检测网络参数，训练一个柔性最大值损失函数；4)固定AU检测网络参数，初始化跨模态‘宏to微’转换模型参数，训练跨模态‘宏to微’转换模型；C、微表情识别：根据训练好的卷积神经网络模型，初始化测试参数，将用于测试的样本送入训练好的卷积神经网络模型中，经过网络前向传播之后输出识别率。本发明较已有方法更具有鲁棒性。

Description

一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法

技术领域

本发明涉及一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法，属于深度学习和模式识别的技术领域。

背景技术

微表情表达了人试图掩盖与隐藏的真实情感，是一组时间连续的图像序列，持续周期一般在250ms～500ms之间，对微表情的研究能帮助揭露特征场景下人的心理变化，例如，揭露犯人谎言，评估人的内心情绪状态，进而促进犯罪学、心理学等方面的发展。与表情相比，微表情识别更加具有挑战性。首先，不同于表情，微表情用一段图像序列共同代表一个情绪标签，但持续时间较短(通常小于500ms)，如果采用60帧相机录制微表情片段，一段有效的微表情片段最多为30帧。其次，微表情变化细微，在一段微表情中很难用肉眼观察到帧与帧之间的区别，因此对微表情的特征提取不但需要考虑时间和空间三个维度的信息，还要使所提取特征对微表情的细微变化具有鲁棒性。最后，目前用于微表情识别研究的数据集数量匮乏，与表情数以万计的数据量相比，微表情仅有为数不多的样本数量，这其中包含CASME1、CASME2、SMIC等已有的数据集，这显然不足以支持后续微表情识别的研究验证。

目前，微表情识别研究方法主要集中在传统的机器学习领域中，但已有的微表情识别方法与表情识别相比，识别率普遍不高而不能达到实际的应用要求，提高微表情识别率是一项非常具有挑战性且具有非凡意义的任务。

如何提取时空三维的特征描述子，以及寻找帧与帧之间的细微变化是微表情识别的所面临的主要困难，常见的提取时空特征的方法主要是将传统的二维特征提取算法拓展到三维领域，例如三正交平面局部二值模式(LBP-TOP)、3D方向梯度直方图(3DHOG)等就是在三个维度分别提取LBP或者HOG特征，然后用支持向量机(SVM)或者k-means进行分类，这样做虽然可以提取时间信息，但是，所提取的特征并不能很好地代表帧之间的细微变化，另一种方法便是提取光流特征，具体的就是将一段微表情的每一帧都与第一帧计算光流变化，所得到的特征能反映帧与帧之间的差距，但是由于计算量偏大等问题不够实用。近几年卷积神经网络的出现，为计算机视觉领域带来新的活力，实际上卷积神经网络已经使行为识别、人脸识别、语义分割等研究进入新的阶段，并且取得了非常显著的效果。为了解决微表情识别的问题，卷积神经网络似乎是一个很好的工具，然而，卷积神经网络需要用较高数量的数据集进行训练，才能获取具有代表性的特征，否则就会造成过拟合等问题，而微表情数据集仅有少于1000左右的样本，不足以进行卷积神经网络训练。

发明内容

针对现有技术的不足，本发明提供了一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法。

发明概述：

一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法，包括微表情样本处理、跨模态‘宏to微’(CM-M2M)转换模型训练和微表情识别。

本发明提供了一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法，为了增加可训练样本的数量，本发明根据微表情和宏表情的关联，将宏表情作为正负样本与微表情组成元组对来训练微表情。为了在提取全局特征的同时保留微表情局部信息，本发明提供了CM-M2M的卷积神经网络模型，并用时空全卷积网络提取人脸重要AU的位置并将其输出作为局部信息，来增强特征对AU的鲁棒性。最后，为了将微表情和宏表情区分开以提取微表情特有的特征，本发明提供了跨模态元组损失函数。

本发明的技术方案如下：

一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法，包括：

A、微表情样本处理

1)对微表情数据集样本和宏表情数据集样本进行预处理；

2)构建跨模态元组损失函数的样本对；

为了增加可训练样本的数量，本发明根据微表情和宏表情的关联，将宏表情作为正负样本与微表情组成元组对来训练微表情。

B、跨模态‘宏to微’转换模型训练

3)训练AU检测网络，初始化AU检测网络参数，以基于时空全卷积层的AU检测网络训练一个柔性最大值损失函数Softmax Loss Function；

4)固定AU检测网络参数，初始化跨模态‘宏to微’转换模型参数，训练跨模态‘宏to微’转换模型，通过训练同时减少一个跨模态元组损失函数和一个柔性最大值损失函数的值；

C、微表情识别

根据训练好的卷积神经网络模型，初始化测试参数，将用于测试的样本送入训练好的卷积神经网络模型中，经过网络前向传播之后输出识别率。

本发明宏to微转换模型的第一个和第二个分支将微表情和宏表情分开训练并通过共享两者的权值提高训练效率，而第三个动作单元(AU)的分支用时空全卷积网络提取人脸重要AU的位置。本发明还提供了跨模态元组损失函数将并AU的位置作为局部信息，来增强特征对AU的鲁棒性，并提取微表情特有的特征。最后，在识别阶段，本发明将测试样本送入训练好的‘宏to微转换模型’网络，经过前向传播后在网络的一个准确度层中输出识别率。

根据本发明优选的，所述步骤1)，对微表情数据集样本和宏表情数据集样本进行预处理，包括步骤如下：

a、通过时间插值模型插值(Temporal Interpolation Model，TIM)的方法，分别将微表情数据集样本每一个图像序列、宏表情数据集样本每一个图像序列插值为F帧，F的取值范围为[10,32]且F为整数；F的取值范围为[10,32]是为了提高训练效率的同时保证训练效果；

b、根据回归局部二值特征(Regressing local binary features，RLBF)算法检测出微表情数据集样本每一个图像及宏表情数据集样本每一个图像中人脸的27个特征点，包括两眉毛边缘两点，两眼睛四角及中心五个点，鼻子上中下各左右两点以及鼻尖一点，和嘴角两点和两嘴唇上下中心的两点，共计27个特征点，设定两眼中心的目标距离D为[100,150]之间的整数大小的像素值，将微表情数据集样本每一个图像及宏表情数据集样本每一个图像进行等比缩放，使两眼中心的距离为D，并将图像旋转使两眼中心处于水平位置，相应27个特征点的位置也进行了变换；

c、假设以D的S倍切割微表情数据集样本每一个图像及宏表情数据集样本每一个图像，S的取值范围为[2,3]，根据步骤b变换后的特征点中鼻尖的位置，向其上下左右四个方向分别延伸个像素值来切割图像，使得微表情数据集样本每一个图像及宏表情数据集样本每一个图像的分辨率均为231×231像素。

根据本发明优选的，F＝16，D为100像素值，S＝2.3。

根据本发明优选的，所述步骤2)，构建跨模态元组损失函数的样本对，具体构建如下：以微表情为参考样本(即训练目标)，在微表情数据集样本和宏表情数据集样本中分别选取一个相同标签的样本作为正样本，例如同为“高兴”标签的微表情样本和宏表情样本，即一个微表情正样本、一个宏表情正样本；在宏表情数据集样本中选取M个不同标签的样本作为宏表情负样本，一个参考样本、一个微表情正样本、一个宏表情正样本和M个宏表情负样本共同组成跨模态元组损失函数样本的一个大小为3+M的批量。本发明选取了M组标签不同的宏表情为负样本对，这样不仅能增强训练损失函数的鲁棒性，还能有助于其稳定收敛，这里M代表负样本的个数。

根据本发明优选的，所述步骤3)，训练AU检测网络，初始化AU检测网络参数，以基于时空全卷积层的AU检测网络训练一个柔性最大值损失函数；包括步骤如下：

d、构建所述基于时空全卷积层的AU检测网络：以基于原始AlexNet的全卷积网络为原型，将其拓展为基于时空全卷积层的AU检测网络：将全卷积层拓展到3维空间构成时空全卷积层；通过时空全卷积层3D卷积后的特征图大小为K×H×W×L，K、H、W、L分别代表卷积核数量、长、宽、高，再将其通过一个卷积核大小为1×1×1的3D卷积层，即生成一个4维的热度图，用来描述AU特征点，所述全卷积层是将传统的卷积神经网络最后的全连接层替换为卷积核大小为1×1的卷积层，这样经过一个反卷积层输出生成一个和原图一样大小的热度图；

e、通过区分性响应图拟合(Discriminative Response Map Fitting，DRMF)算法识别出人脸的66个特征点，根据人脸的66个特征点将人脸图像划分为36个AU块，划分方法参见Y.-J.Liu,J.-K.Zhang,W.-J.Yan,S.-J.Wang,G.Zhao,and X.Fu,“A maindirectional mean optical flow feature for spontaneous micro-expressionrecognition,”IEEE Transactions on Affective Computing,vol.7,no.4,pp.299-310,2016.

其中有22个AU块存在于所有的微表情标签，将此22个AU块突出显示，其它AU块以及不相关的部分都定义为背景，训练AU检测网络，柔性最大值损失函数L_AU如式(Ⅰ)所示：

式(Ⅰ)中，σ_h,w,l(a_i)为h、w、l对应的柔性最大值函数(SoftmaxFunction)， P为AU块个数，代表将人脸分成P个部分，i＝0时表示背景，a_i和a_j分别为送入柔性最大值损失函数之前在i和j处的网络输出；

f、根据构建的所述基于时空全卷积层的AU检测网络进行样本训练，每一个迭代的最小批量为1，初始学习率为0.001，设置为每30000次迭代后学习率降为原来的0.1倍。但是在经过10000次迭代后损失函数趋于稳定，因此最终学习率维持初始值不变。

根据本发明优选的，所述步骤4)，固定AU检测网络参数，初始化跨模态‘宏to微’转换模型参数，训练跨模态‘宏to微’转换模型，通过训练同时减少一个跨模态元组损失函数和一个柔性最大值损失函数的值，包括步骤如下：

g、构建跨模态‘宏to微’转换模型，跨模态‘宏to微’转换模型的第一个分支包括参考样本和微表情正样本，第二个分支包括宏表情正样本和M个宏表情负样本，第一个分支和第二个分支采用相同的网络结构，其以谷歌FaceNet的NN1网络为基础并通过替换二维的卷积层和池化层为三维的方式构成可用于训练图像序列的网络；第三个分支即训练好的AU检测网络；在训练跨模态‘宏to微’转换模型的第一个和第二个分支时，将训练好的AU检测网络参数进行固定，以输出AU特征点，并将其与第一个和第二个分支输出的全局特征进行拼接，再通过4096维第一个全连接层、4096维第二个全连接层；

h、构建跨模态元组损失函数，将第二个全连接层输出的4096维向量经过一个L₂归一化后的输出作为跨模态元组损失函数的输入，使所述一个参考样本、一个微表情正样本、一个宏表情正样本和M个宏表情负样本之间满足如式(Ⅱ)、式(Ⅲ)所示的关系式：

式(Ⅱ)、式(Ⅲ)中，f(x^a)，为跨模态元组损失函数的输入，即分别为一个参考样本、一个微表情正样本、一个宏表情正样本、M个宏表情负样本的4096维的表情表达特征，α₁、α₂分别为(0,1)区间内平衡正样本、负样本关系的两个边缘值，k＝1，2，3，...M，经过变化得到式(Ⅳ)：

式(Ⅳ)中，j＝1，2，j＝1代表微表情正样本，j＝2代表宏表情正样本；

设定式(Ⅳ)为跨模态元组损失函数，经过训练后，使得参考样本a与微表情正样本p₁、宏表情正样本p₂的距离都小于参考样本a与宏表情负样本n_k的距离；

通过式(Ⅴ)约束，使得微表情与微表情之间的关系要近于微表情和宏表情，式(Ⅴ)如下所示：

式(Ⅴ)中，β为(0,1)区间内平衡微表情和宏表情关系的边缘值；微表情和宏表情毕竟作为两种不同的表情，属于两种模态，在这两种模态之间，我们通过添加另一个约束式(Ⅴ)将两种模态加以区分得到最后的目的，既然微表情作为参考，于是希望微表情与微表情之间的关系要近于微表情和宏表情；

在式(Ⅳ)和式(Ⅴ)的约束下，经过训练之后，微表情与相同标签微表情的距离小于与相同标签宏表情的距离，更小于微表情与不同标签宏表情的距离，跨模态元组损失函数如式(Ⅵ)所示：

式(Ⅵ)中，

而为跨模态的损失函数，t代表第t个批量，t＝1,2,3,...,N，N代表批量的个数；

在训练模型时，反向传播需要同时传递四个的梯度，引入一个1/2，将所有公式归一化，得到：

i、使第二个全连接层的输出经过第三个C维的全连接层后送入一个用于分类的柔性最大值函数中，C代表类别数；

j、初始化跨模态‘宏to微’转换网络模型参数，最小批量应为3+M的倍数，为了保证训练速度，M＝3，即选用3组宏表情负样本，最小批量设为6，初始学习率为0.001，在经过50000次迭代后降为原来的0.1倍，最大迭代次数为100000，训练经过60000次迭代后基本收敛，两个损失函数的和在0左右稳定，最终的学习率为0.0001。

根据本发明优选的，所述步骤C，根据训练好的卷积神经网络模型，初始化测试参数，将用于测试的样本送入训练好的卷积神经网络模型中，经过网络前向传播之后输出识别率，包括步骤如下：

k、固定训练好的跨模态‘宏to微’转换模型，以测试网络为原型，去除第二个分支，并在第三个全连接层后面增加一个准确度层，形成测试网络；

l、将用于测试的微表情样本送入训练好的跨模态‘宏to微’转换模型中，这里由于是以测试网络进行测试，因此在前向传播时会忽略掉模型中测试网络不存在的部分，即宏表情分支不参与前向传播的过程，在测试网络的准确度层输出识别率。

本发明的有益效果为：

1、卷积神经网络能充分地利用微表情的时空特点提取3维特征，并且卷积神经网络本身就能训练时学习微表情帧之间的细微变化，因此提取的特征较已有方法更具有鲁棒性。

2、使用宏表情来训练微表情，用这种跨模态的方法，不仅能通过两者组合来增加训练的样本数量，还能通过学习将微表情与宏表情区分开。

3、CM-M2M网络提取全局特征的同时还与AU局部信息结合起来构成总体特征，能够反映每段微表情的AU特征变化。

附图说明

图1为本发明基于深度学习的‘宏to微转换模型’的微表情自动识别方法整体流程图；

图2(a)为DRMF算法定位的66个人脸特征点的示意图；

图2(b)为根据66个人脸特征点划分的36个AU块的示意图；

图3为AU检测模型的结构图；

图4为CASMEI和CASMEII在四种方法的对比效果图；

具体实施方式

下面结合说明书附图和实施例对本发明进行详细的描述，但不限于此。

实施例

一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法，如图1所示，包括：

A、微表情样本处理

1)对微表情数据集样本和宏表情数据集样本进行预处理；包括步骤如下：

a、通过时间插值模型插值(Temporal Interpolation Model，TIM)的方法，分别将微表情数据集样本每一个图像序列、宏表情数据集样本每一个图像序列插值为F帧，F的取值范围为[10,32]

b、根据回归局部二值特征(Regressing local binary features，RLBF)算法检测出微表情数据集样本每一个图像及宏表情数据集样本每一个图像中人脸的27个特征点，包括两眉毛边缘两点，两眼睛四角及中心五个点，鼻子上中下各左右两点以及鼻尖一点，和嘴角两点和两嘴唇上下中心的两点，共计27个特征点，设定两眼中心的目标距离D为100像素值，将微表情数据集样本每一个图像及宏表情数据集样本每一个图像进行等比缩放，使两眼中心的距离为D，并将图像旋转使两眼中心处于水平位置，相应且F为整数；F＝16，是为了提高训练效率的同时保证训练效果；27个特征点的位置也进行了变换；

c、假设以D的S倍切割微表情数据集样本每一个图像及宏表情数据集样本每一个图像，S＝2.3，根据步骤b变换后的特征点中鼻尖的位置，向其上下左右四个方向分别延伸个像素值来切割图像，使得微表情数据集样本每一个图像及宏表情数据集样本每一个图像的分辨率均为231×231像素。

2)构建跨模态元组损失函数的样本对；具体构建如下：

以微表情为参考样本(即训练目标)，在微表情数据集样本和宏表情数据集样本中分别选取一个相同标签的样本作为正样本，例如同为“高兴”标签的微表情样本和宏表情样本，即一个微表情正样本、一个宏表情正样本；在宏表情数据集样本中选取M个不同标签的样本作为宏表情负样本，一个参考样本、一个微表情正样本、一个宏表情正样本和M个宏表情负样本共同组成跨模态元组损失函数样本的一个大小为3+M的批量。本实施例选取了M组标签不同的宏表情为负样本对，这样不仅能增强训练损失函数的鲁棒性，还能有助于其稳定收敛，这里M代表负样本的个数。

B、跨模态‘宏to微’转换模型训练

3)训练AU检测网络，初始化AU检测网络参数，以基于时空全卷积层的AU检测网络训练一个柔性最大值损失函数Softmax Loss Function；包括步骤如下：

d、构建所述基于时空全卷积层的AU检测网络，如图3所示：以基于原始AlexNet的全卷积网络为原型，将其拓展为基于时空全卷积层的AU检测网络：将全卷积层拓展到3维空间构成时空全卷积层；通过时空全卷积层3D卷积后的特征图大小为K×H×W×L，K、H、W、L分别代表卷积核数量、长、宽、高，再将其通过一个卷积核大小为1×1×1的3D卷积层，即生成一个4维的热度图，用来描述AU特征点，所述全卷积层是将传统的卷积神经网络最后的全连接层替换为卷积核大小为1×1的卷积层，这样经过一个反卷积层输出生成一个和原图一样大小的热度图；

e、通过区分性响应图拟合(Discriminative Response Map Fitting，DRMF)算法识别出人脸的66个特征点，如图2(a)所示，根据人脸的66个特征点将人脸图像划分为36个AU块，如图2(b)所示，划分方法参见Y.-J.Liu,J.-K.Zhang,W.-J.Yan,S.-J.Wang,G.Zhao,and X.Fu,“A main directional mean optical flow feature for spontaneous micro-expression recognition,”IEEE Transactions on Affective Computing,vol.7,no.4,pp.299-310,2016.

4)固定AU检测网络参数，初始化跨模态‘宏to微’转换模型参数，训练跨模态‘宏to微’转换模型，通过训练同时减少一个跨模态元组损失函数和一个柔性最大值损失函数的值；包括步骤如下：

式(Ⅵ)中，

C、微表情识别

根据训练好的卷积神经网络模型，初始化测试参数，将用于测试的样本送入训练好的卷积神经网络模型中，经过网络前向传播之后输出识别率。包括步骤如下：

k、固定训练好的跨模态‘宏to微’转换模型，以测试网络为原型，去除第二

l、将用于测试的微表情样本送入训练好的跨模态‘宏to微’转换模型中，这个分支，并在第三个全连接层后面增加一个准确度层，形成测试网络；里由于是以测试网络进行测试，因此在前向传播时会忽略掉模型中测试网络不存在的部分，即宏表情分支不参与前向传播的过程，在测试网络的准确度层输出识别率。

本实施例宏to微转换模型的第一个和第二个分支将微表情和宏表情分开训练并通过共享两者的权值提高训练效率，而第三个动作单元(AU)的分支用时空全卷积网络提取人脸重要AU的位置。本发明还提供了跨模态元组损失函数将并AU的位置作为局部信息，来增强特征对AU的鲁棒性，并提取微表情特有的特征。最后，在识别阶段，本发明将测试样本送入训练好的‘宏to微转换模型’网络，经过前向传播后在网络的一个准确度层中输出识别率。

利用本实施例一种基于深度学习的‘宏to微转换模型’的微表情识别方法在中科院自动化的两个微表情数据集上进行实验CASMEI和CASMEII，本实施例的CM-M2M方法的宏表情选用CK+数据集，分别与CASMEI和CASMEII构成样本对，为了保证对比实验的公平性，CM-M2M在这两个数据集上训练和测试的样本划分同样应用在这些方法中，即将数据集分成五组，每次取一组测试剩下的四组进行训练，最后的结果取平均值。

从图4可以看出，本实施例提供的微表情识别方法在两个数据集上都达到了最高的识别率，其中CASMEII的识别率最高为90.3％，比LBP-TOP的最好效果高出26.8％，是面部动态图(FDM)识别率的两倍多，并且比主定向平均光流特性(MDMO)方法分别高出33.5％，另外在CASMEI上的实验效果也都高于其他三种方法，这说明本实施例提供的微表情识别模型比特征提取方法获得了质的跨越，识别效果高出传统方法20％以上。

Claims

1.一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法，其特征在于，包括：

A、微表情样本处理

1)对微表情数据集样本和宏表情数据集样本进行预处理；

2)构建跨模态元组损失函数的样本对；

B、跨模态‘宏to微’转换模型训练

C、微表情识别

2.根据权利要求1所述的一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法，其特征在于，所述步骤1)，对微表情数据集样本和宏表情数据集样本进行预处理，包括步骤如下：

a、通过时间插值模型插值的方法，分别将微表情数据集样本每一个图像序列、宏表情数据集样本每一个图像序列插值为F帧，F的取值范围为[10,32]且F为整数；

b、根据回归局部二值特征算法检测出微表情数据集样本每一个图像及宏表情数据集样本每一个图像中人脸的27个特征点，设定两眼中心的目标距离D为[100,150]之间的整数大小的像素值，将微表情数据集样本每一个图像及宏表情数据集样本每一个图像进行等比缩放，使两眼中心的距离为D，并将图像旋转使两眼中心处于水平位置，相应27个特征点的位置也进行了变换；

3.根据权利要求2所述的一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法，其特征在于，F＝16，D为100像素值，S＝2.3。

4.根据权利要求1所述的一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法，其特征在于，所述步骤2)，构建跨模态元组损失函数的样本对，具体构建如下：

以微表情为参考样本，在微表情数据集样本和宏表情数据集样本中分别选取一个相同标签的样本作为正样本，即一个微表情正样本、一个宏表情正样本；在宏表情数据集样本中选取M个不同标签的样本作为宏表情负样本，一个参考样本、一个微表情正样本、一个宏表情正样本和M个宏表情负样本共同组成跨模态元组损失函数样本的一个大小为3+M的批量。

5.根据权利要求1所述的一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法，其特征在于，所述步骤3)，训练AU检测网络，初始化AU检测网络参数，以基于时空全卷积层的AU检测网络训练一个柔性最大值损失函数；包括步骤如下：

e、通过区分性响应图拟合算法识别出人脸的66个特征点，根据人脸的66个特征点将人脸图像划分为36个AU块，其中有22个AU块存在于所有的微表情标签，将此22个AU块突出显示，其它AU块以及不相关的部分都定义为背景，训练AU检测网络，柔性最大值损失函数L_AU如式(Ⅰ)所示：

<mrow> <msub> <mi>L</mi> <mrow> <mi>A</mi> <mi>U</mi> </mrow> </msub> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>h</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>H</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>w</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>W</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>&lsqb;</mo> <msub> <mi>&sigma;</mi> <mrow> <mi>h</mi> <mo>,</mo> <mi>w</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>I</mi> <mo>)</mo> </mrow> </mrow>

式(Ⅰ)中，σ_h,w,l(a_i)为h、w、l对应的柔性最大值函数，i＝0,1,...,P，P为AU块个数，代表将人脸分成P个部分，i＝0时表示背景，a_i和a_j分别为送入柔性最大值损失函数之前在i和j处的网络输出；

f、根据构建的所述基于时空全卷积层的AU检测网络进行样本训练，每一个迭代的最小批量为1，初始学习率为0.001，设置为每30000次迭代后学习率降为原来的0.1倍。

6.根据权利要求4所述的一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法，其特征在于，所述步骤4)，固定AU检测网络参数，初始化跨模态‘宏to微’转换模型参数，训练跨模态‘宏to微’转换模型，通过训练同时减少一个跨模态元组损失函数和一个柔性最大值损失函数的值，包括步骤如下：

<mrow> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mi>a</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <msub> <mi>p</mi> <mn>1</mn> </msub> </msup> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msub> <mi>&alpha;</mi> <mn>1</mn> </msub> <mo><</mo> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mi>a</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <msub> <mi>n</mi> <mi>k</mi> </msub> </msup> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>I</mi> <mi>I</mi> <mo>)</mo> </mrow> </mrow>

<mrow> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mi>a</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <msub> <mi>p</mi> <mn>2</mn> </msub> </msup> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msub> <mi>&alpha;</mi> <mn>2</mn> </msub> <mo><</mo> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mi>a</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <msub> <mi>n</mi> <mi>k</mi> </msub> </msup> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>I</mi> <mi>I</mi> <mi>I</mi> <mo>)</mo> </mrow> </mrow>

<mrow> <mo>&lsqb;</mo> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mi>a</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <msub> <mi>p</mi> <mi>j</mi> </msub> </msup> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msub> <mi>&alpha;</mi> <mi>j</mi> </msub> <mo>&rsqb;</mo> <mo><</mo> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mi>a</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <msub> <mi>n</mi> <mi>k</mi> </msub> </msup> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>I</mi> <mi>V</mi> <mo>)</mo> </mrow> </mrow>

式(Ⅴ)中，β为(0,1)区间内平衡微表情和宏表情关系的边缘值；

<mrow> <mi>L</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>2</mn> </munderover> <msub> <mi>L</mi> <mrow> <msub> <mi>pos</mi> <mi>j</mi> </msub> </mrow> </msub> <mo>+</mo> <msub> <mi>L</mi> <mrow> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>V</mi> <mi>I</mi> <mo>)</mo> </mrow> </mrow>

式(Ⅵ)中，

<mrow> <mfrac> <mrow> <mo>&part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&part;</mo> <mi>f</mi> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>t</mi> <mi>&alpha;</mi> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>=</mo> <mo>&lsqb;</mo> <mrow> <mo>(</mo> <mi>M</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <msubsup> <mi>x</mi> <mi>t</mi> <mi>a</mi> </msubsup> <mo>)</mo> <mo>-</mo> <mi>f</mi> <mo>(</mo> <msubsup> <mi>x</mi> <mi>t</mi> <msub> <mi>p</mi> <mn>1</mn> </msub> </msubsup> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mi>M</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <msubsup> <mi>x</mi> <mi>t</mi> <mi>a</mi> </msubsup> <mo>)</mo> <mo>-</mo> <mi>f</mi> <mo>(</mo> <msubsup> <mi>x</mi> <mi>t</mi> <msub> <mi>p</mi> <mn>2</mn> </msub> </msubsup> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mn>2</mn> <mi>M</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <msubsup> <mi>x</mi> <mi>t</mi> <mi>a</mi> </msubsup> <mo>)</mo> <mo>-</mo> <mi>f</mi> <mo>(</mo> <msubsup> <mi>x</mi> <mi>t</mi> <msub> <mi>n</mi> <mi>k</mi> </msub> </msubsup> <mo>)</mo> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>V</mi> <mi>I</mi> <mi>I</mi> <mo>)</mo> </mrow> </mrow>

j、初始化跨模态‘宏to微’转换网络模型参数，最小批量应为3+M的倍数，M＝3，即选用3组宏表情负样本，最小批量设为6，初始学习率为0.001，在经过50000次迭代后降为原来的0.1倍，最大迭代次数为100000，训练经过60000次迭代后基本收敛，两个损失函数的和在0左右稳定，最终的学习率为0.0001。

7.根据权利要求6所述的一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法，其特征在于，所述步骤C，根据训练好的卷积神经网络模型，初始化测试参数，将用于测试的样本送入训练好的卷积神经网络模型中，经过网络前向传播之后输出识别率，包括步骤如下：

l、将用于测试的微表情样本送入训练好的跨模态‘宏to微’转换模型中，在测试网络的准确度层输出识别率。