CN112580617B

CN112580617B - 自然场景下的表情识别方法和装置

Info

Publication number: CN112580617B
Application number: CN202110222926.5A
Authority: CN
Inventors: 陶建华; 肖明远; 刘斌; 连政
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-18
Anticipated expiration: 2041-03-01
Also published as: US11216652B1; CN112580617A

Abstract

本申请涉及自然场景下的表情识别方法和装置，具体方法包括：数据切分：将输入视频按指定帧率转化为视频帧序列，并进行人脸表情标注，得到视频帧标注序列；视频帧标注序列预处理：对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响，得到表情视频帧序列，对表情视频帧序列进行扩增，得到视频预处理帧序列；从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取像素级深度神经网络特征；再进行向量融合，得到用于训练的面部特征融合向量；将所述面部特征融合向量输入支持向量机做表情分类。

Description

自然场景下的表情识别方法和装置

技术领域

本申请涉及视频图像处理领域，尤其涉及自然场景下的表情识别方法和装置。

背景技术

人工智能（Artificial Intelligence ,AI）是计算机科学的一个分支，是一门利用计算机或计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision ,CV)是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习是人工智能及模式识别领域的共同研究热点，其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。

深度学习（Deep Learning ,DL）是机器学习（Machine Learning ,ML）领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

情感计算是一个高度综合化的研究和技术领域。通过计算科学与心理科学、认知科学的结合，研究人与人交互、人与计算机交互过程中的情感特点，设计具有情感反馈的人与计算机的交互环境，将有可能实现人与计算机的情感交互。情感计算研究将不断加深对人的情感状态和机制的理解，并提高人与计算机界面的和谐性，即提高计算机感知情境，理解人的情感和意图，做出适当反应的能力。

情感是人-人交互与人-机交互系统的重要组成。可以通过不同的形式传递情感信息，如面部表情、言语语调、外周生理信号、脑电信号，甚至是文本内容。面部表情是人类表达情感状态和意图的最有力、最自然的通道，因为相对于其它通道的数据，面部表情数据更容易采集和标注；人的情感和意图信息，超过55%通过面部表情传递；表情识别在聊天机器人、智能医疗、疲劳监测、测谎分析等多个领域有着广泛的应用需求。

自2013年以来，由于芯片处理能力(如GPU单元)的大幅提升和机器学习技术的快速发展，表情识别逐渐由传统机器学习方法向深度学习方法跨越，算法和算力能力的提升，使得表情识别系统的性能不断取得突破。但在自然场景中，光照问题、头部姿态变化和面部遮挡等干扰是不可避免的，因此存在识别准确率不高的问题。

另一方面，根据特征表示方式的不同，人脸表情识别系统可分为静态图像人脸表情识别和动态序列人脸表情识别两种。在静态方法中，系统只提取当前单张图像的空间特征信息进行编码，而动态方法考虑了多张图像中相邻帧之间的时间关系。实验室环境下的表情识别更多的关注于静态表情分析，自然场景下主要关注于视频流中的表情线索，如何融合时序上下文信息提升自然场景下表情识别的性能是急需解决的关键问题。

授权公告号CN 108491764 B提供了一种视频人脸情绪识别方法、介质及设备，所述方法，包括：获取指定时间段内的视频；根据所述视频中的内容情景信息和人脸表情信息，识别所述视频中至少一个待检测人脸图像的情绪。通过获取指定时间段内的视频，再根据视频中的内容情景信息和人脸表情信息，识别视频中至少一个待检测人脸图像的情绪，相比于现有技术中只考虑人脸表情识别情绪，本发明同时考虑了视频场景的内容情景和人脸表情识别情绪，能够提高情绪识别的鲁棒性与准确性。

申请公布号CN 109145837 A公开了一种人脸情感识别方法、装置、终端设备和存储介质，方法包括：获取视频流中的当前数据帧，从当前数据帧中捕捉人脸，并提取人脸的特征信息；根据提取的人脸的特征信息，将特征信息通过预先训练好的表情分类模型以识别人脸的表情分类；将表情分类的结果发送给关联机器人，以使得关联机器人通过语音的形式反馈出人脸表情的分类成果。本发明通过精确定位特征点的具体方位，然后识别出面部的不同表情分类结果。

鉴于此，克服上述现有技术所存在的缺陷是本技术领域亟待解决的问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种自然场景下的表情识别方法，包括：

S1：数据切分：将输入视频按指定帧率转化为视频帧序列，并进行人脸表情标注，得到视频帧标注序列；

S2：视频帧标注序列预处理：对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响，得到表情视频帧序列，对表情视频帧序列进行扩增，得到视频预处理帧序列；所述消除光照的具体方法为：采用亮度保留动态直方图均衡化方法消除视频帧标注序列中的光照影响，得到视频帧除光序列；

S3：视频预处理帧序列特征提取：从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取像素级深度神经网络特征；

S4：将定向梯度直方图特征、面部褶皱程度的二阶特征和像素级深度神经网络特征进行对齐处理，再进行向量融合，得到用于训练的面部特征融合向量；

S5：将所述面部特征融合向量输入支持向量机做表情分类。

优选地，所述剔除非人脸的区域的方法为：利用人脸检测器对视频帧除光序列进行人脸检测和定位，得到人脸关键点标定，再利用放射变换显示人脸关键点标定到统一的预定义模板上，得到人脸视频帧序列。

优选地，所述消除头部姿态对人脸表情的影响的方法为：利用空间变换网络消除人脸视频帧序列中头部姿态对人脸表情的影响，得到表情视频帧序列。

优选地，所述对表情视频帧序列进行扩增采用数据増广或者生成式对抗网络，得到视频预处理帧序列。

优选地，所述提取表征面部外观和形状特征的定向梯度直方图特征的具体方法为：利用定向梯度直方图融合视频预处理帧序列中的时域信息，分别提取水平轴和时间轴面部表情特征、垂直轴和时间轴面部表情特征、水平轴和垂直轴面部表情特征，并进行定向梯度直方图处理和特征向量合并，组成三平面定向梯度直方图特征。

优选地，所述提取面部褶皱程度的二阶特征的具体方法为：利用协方差矩阵池化提取视频预处理帧序列中描述面部褶皱程度的二阶统计特征，并利用对称正定流形网络进一步处理得到相应的面部二阶特征。

优选地，所述提取像素级深度神经网络特征的具体方法为：使用深度神经网络对视频预处理帧序列数据进行处理，不输出标准的分类结果，而是提取在激活函数之前的特征向量作为面部像素级深度神经网络特征。

本发明还提供了一种自然场景下的表情识别装置，包括：视频切分模块、视频帧标注序列预处理模块、视频预处理帧序列特征提取模块、特征融合模块和表情分类模块；所述视频切分模块与所述视频帧标注序列预处理模块连接，所述视频帧标注序列预处理模块与所述视频预处理帧序列特征提取模块连接，所述视频预处理帧序列特征提取模块与所述特征融合模块连接，所述特征融合模块与所述表情分类模块连接；

所述视频切分模块的功能为：将输入视频按指定帧率转化为视频帧序列，并进行人脸表情标注，得到视频帧标注序列；

所述视频帧标注序列预处理模块的功能为：对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响，得到表情视频帧序列，对表情视频帧序列进行扩增，得到视频预处理帧序列；

所述视频预处理帧序列特征提取模块的功能为：从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取像素级深度神经网络特征；

所述特征融合模块的功能为：将定向梯度直方图特征、面部褶皱程度的二阶特征和像素级深度神经网络特征进行对齐处理，再进行向量融合，得到用于训练的面部特征融合向量；

所述表情分类模块的功能为：将所述面部特征融合向量输入支持向量机做表情分类。

优选地，所述视频帧标注序列预处理模块包括：消除光照模块、人脸检测与定位模块、消除头部姿态影响模块和数据增广模块；所述消除光照模块与所述人脸检测与定位模块连接，所述人脸检测与定位模块与所述消除头部姿态影响模块连接，所述消除头部姿态影响模块与所述数据增广模块连接；

所述消除光照模块的功能为：采用亮度保留动态直方图均衡化方法消除视频帧标注序列中的光照影响；

所述人脸检测与定位模块的功能为：剔除非人脸的区域的影响；

所述消除头部姿态影响模块的功能为：利用空间变换网络消除人脸视频帧序列中头部姿态对人脸表情的影响；

所述数据增广模块的功能为：数据増广或者生成式对抗网络对数据进行增广。

优选地，所述视频预处理帧序列特征提取模块包括：定向梯度直方图特征提取模块、面部二阶特征提取模块和深度神经网络特征提取模块；所述视频帧标注序列预处理模块的输出分为3路分别与所述定向梯度直方图特征提取模块、面部二阶特征提取模块和深度神经网络特征提取模块连接，所述定向梯度直方图特征提取模块、面部二阶特征提取模块和深度神经网络特征提取模块分别与所述特征融合模块连接；

定向梯度直方图特征提取模块的功能为：利用定向梯度直方图融合视频预处理帧序列中的时域信息，分别提取水平轴和时间轴面部表情特征、垂直轴和时间轴面部表情特征、水平轴和垂直轴面部表情特征，并进行定向梯度直方图处理和特征向量合并，组成三平面定向梯度直方图特征；

面部二阶特征提取模块的功能为：利用协方差矩阵池化提取视频预处理帧序列中描述面部褶皱程度的二阶统计特征，并利用对称正定流形网络进一步处理得到相应的面部二阶特征；

深度神经网络特征提取模块的功能为：使用深度神经网络对视频预处理帧序列数据进行处理，不输出标准的分类结果，而是提取在激活函数之前的特征向量作为面部像素级深度神经网络特征；

所述深度神经网络特征提取模块的具体结构包括：第一卷积单元、第二卷积单元、随机失活层、第一全连接层和第二全连接层；所述第一卷积单元与所述第二卷积单元连接，所述第二卷积单元与所述随机失活层连接，所述随机失活层与所述第一全连接层连接，所述第一全连接层与所述第二全连接层连接；所述第二全连接层不加入线性整流函数；第一卷积单元包括：第一卷积层一、第一整流线性单元一、第一卷积层二、第一池化层和第一整流线性单元二；所述第一卷积层一与所述第一整流线性单元一连接，所述第一整流线性单元一与所述第一卷积层二连接，所述第一卷积层二与所述第一池化层连接，所述第一池化层与所述第一整流线性单元二连接；

所述第二卷积单元包括，第二卷积层一、第二整流线性单元一、第二卷积层二、第二池化层和第二整流线性单元二；所述第二卷积层一与所述第二整流线性单元一连接，所述第二整流线性单元一与所述第二卷积层二连接，所述第二卷积层二与所述第二池化层连接，所述第二池化层与所述第二整流线性单元二连接。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请提供了自然场景下的表情识别方法和装置，该申请有效滤除自然场景下与表情无关的信息的框架，首先该框架可以使用图像预处理技术对视频帧进行预处理从而有效滤除掉与表情无关的特征，优点在于图像预处理中考虑采用暗光增强和消除镜面反射等技术方法对输入的视频帧图像进行前期处理，有效解决自然场景中光照等无关因素的影响；其次，从情感连续性的角度，利用视频上下文内容中的时域信息对人脸表情进行跟踪从而在视频帧中提取出更能表达人物情感的表情特征。在一定程度上解决了表情识别在自然场景中受到较大干扰性的问题，以及表情视频帧之间特征提取不足的问题；再次，将所提取出的不同表情特征进行特征融合，优点在于从多个特征维度对输入视频帧中的人脸表情进行考量，从而得到能有效代表表情特征的总特征向量；最后，将总特征向量输入到表情分类器中得到最终的表情识别结果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的自然场景下的表情识别方法流程图；

图2是根据一示例性实施例示出的空间变换网络结构示意图；

图3是根据一示例性实施例示出的自然场景下的表情识别装置结构框图；

图4是根据一示例性实施例示出的深度神经网络特征提取模块结构框图。

其中1—视频切分模块，2—视频帧标注序列预处理模块，21—消除光照模块，22—人脸检测与定位模块，23—消除头部姿态影响模块，24—数据增广模块，3—视频预处理帧序列特征提取模块，31—定向梯度直方图特征提取模块，32—面部二阶特征提取模块，33—深度神经网络特征提取模块，331—第一卷积单元，3311—第一卷积层一，3312—第一整流线性单元一，3313—第一卷积层二，3314—第一池化层，3315—第一整流线性单元二，332—第二卷积单元，3321—第二卷积层一，3322—第二整流线性单元一，3323—第二卷积层二，3324—第二池化层，3325—第二整流线性单元二，333—随机失活层，334—第一全连接层，335—第二全连接层，4—特征融合模块，5—表情分类模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1：

图1为本申请实施例提供的自然场景下的表情识别方法，包括：

S1：数据切分：将输入视频按指定帧率转化为视频帧序列，并进行人脸表情标注，得到视频帧标注序列。

S2：视频帧标注序列预处理：对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响，得到表情视频帧序列，对表情视频帧序列进行扩增，得到视频预处理帧序列；所述消除光照的具体方法为：采用亮度保留动态直方图均衡化方法消除视频帧标注序列中的光照影响，得到视频帧除光序列。

在一些实施例中，所述剔除非人脸的区域的方法为：利用人脸检测器对视频帧除光序列进行人脸检测和定位，得到人脸关键点标定，再利用放射变换显示人脸关键点标定到统一的预定义模板上，得到人脸视频帧序列。

在一些实施例中，所述消除头部姿态对人脸表情的影响的方法为：利用空间变换网络消除人脸视频帧序列中头部姿态对人脸表情的影响，得到表情视频帧序列；

所述对表情视频帧序列进行扩增采用数据増广或者生成式对抗网络，得到视频预处理帧序列。

S3：视频预处理帧序列特征提取：从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取面部像素级深度神经网络特征。

在一些实施例中，所述提取表征面部外观和形状特征的定向梯度直方图特征的具体方法为：利用定向梯度直方图融合视频预处理帧序列中的时域信息，分别提取水平轴和时间轴面部表情特征、垂直轴和时间轴面部表情特征、水平轴和垂直轴面部表情特征，并进行定向梯度直方图处理和特征向量合并，组成三平面定向梯度直方图特征。

在一些实施例中，所述提取面部褶皱程度的二阶特征的具体方法为：利用协方差矩阵池化提取视频预处理帧序列中描述面部褶皱程度的二阶统计特征，并利用对称正定流形网络进一步处理得到相应的面部二阶特征。

在一些实施例中，所述提取面部像素级深度神经网络特征的具体方法为：使用深度神经网络对视频预处理帧序列数据进行处理，不输出标准的分类结果，而是提取在激活函数之前的特征向量作为面部像素级深度神经网络特征。

S4：将定向梯度直方图特征、面部褶皱程度的二阶特征和像素级深度神经网络特征进行对齐处理，再进行向量融合，得到用于训练的面部特征融合向量。

S5：将所述面部特征融合向量输入支持向量机做表情分类。

如图3所示，自然场景下的表情识别装置，包括：视频切分模块1、视频帧标注序列预处理模块2、视频预处理帧序列特征提取模块3、特征融合模块4和表情分类模块5；所述视频切分模块1与所述视频帧标注序列预处理模块2连接，所述视频帧标注序列预处理模块2与所述视频预处理帧序列特征提取模块3连接，所述视频预处理帧序列特征提取模块3与所述特征融合模块4连接，所述特征融合模块4与所述表情分类模块5连接。

在一些实施例中，所述视频切分模块1的功能为：将输入视频按指定帧率转化为视频帧序列，并进行人脸表情标注，得到视频帧标注序列。

在一些实施例中，所述视频帧标注序列预处理模块2的功能为：对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响，得到表情视频帧序列，对表情视频帧序列进行扩增，得到视频预处理帧序列。

在一些实施例中，所述视频预处理帧序列特征提取模块3的功能为：从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取面部像素级深度神经网络特征。

在一些实施例中，所述特征融合模块4的功能为：将定向梯度直方图特征、面部褶皱程度的二阶特征和像素级深度神经网络特征进行对齐处理，再进行向量融合，得到用于训练的面部特征融合向量。

在一些实施例中，所述表情分类模块5的功能为：将所述面部特征融合向量输入支持向量机做表情分类。

在一些实施例中，所述视频帧标注序列预处理2模块包括：消除光照模块21、人脸检测与定位模块22、消除头部姿态影响模块23和数据增广模块24；所述消除光照模块21与所述人脸检测与定位模块22连接，所述人脸检测与定位模块22与所述消除头部姿态影响模块23连接，所述消除头部姿态影响模块23与所述数据增广模块24连接。

在一些实施例中，所述消除光照模块21的功能为：采用亮度保留动态直方图均衡化方法消除视频帧标注序列中的光照影响。

在一些实施例中，所述人脸检测与定位模块22的功能为：剔除非人脸的区域的影响。

在一些实施例中，所述消除头部姿态影响模块23的功能为：利用空间变换网络消除人脸视频帧序列中头部姿态对人脸表情的影响。

在一些实施例中，所述数据增广模块24的功能为：数据増广或者生成式对抗网络对数据进行增广。

在一些实施例中，所述视频预处理帧序列特征提取模块3包括：定向梯度直方图特征提取模块31、面部二阶特征提取模块32和深度神经网络特征提取模块33；所述视频帧标注序列预处理模块2的输出分为3路分别与所述定向梯度直方图特征提取模块31、面部二阶特征提取模块32和深度神经网络特征提取模块33连接，所述定向梯度直方图特征提取模块31、面部二阶特征提取模块32和深度神经网络特征提取模块33分别与所述特征融合模块4连接。

在一些实施例中，定向梯度直方图特征提取模块31的功能为：利用定向梯度直方图融合视频预处理帧序列中的时域信息，分别提取水平轴和时间轴面部表情特征、垂直轴和时间轴面部表情特征、水平轴和垂直轴面部表情特征，并进行定向梯度直方图处理和特征向量合并，组成三平面定向梯度直方图特征。

在一些实施例中，面部二阶特征提取模块32的功能为：利用协方差矩阵池化提取视频预处理帧序列中描述面部褶皱程度的二阶统计特征，并利用对称正定流形网络进一步处理得到相应的面部二阶特征。

在一些实施例中，深度神经网络特征提取模块33的功能为：使用深度神经网络对视频预处理帧序列数据进行处理，不输出标准的分类结果，而是提取在激活函数之前的特征向量作为面部像素级深度神经网络特征。

如图4所示，所述深度神经网络特征提取模块33的具体结构包括：第一卷积单元331、第二卷积单元332、随机失活层333、第一全连接层334和第二全连接层335；所述第一卷积单元331与所述第二卷积单元332连接，所述第二卷积单元332与所述随机失活层333连接，所述随机失活层333与所述第一全连接层334连接，所述第一全连接层334与所述第二全连接层335连接；所述第二全连接层335不加入线性整流函数；第一卷积单元331包括：第一卷积层一3311、第一整流线性单元一3312、第一卷积层二3313、第一池化层3314和第一整流线性单元二3315；所述第一卷积层一3311与所述第一整流线性单元一3312连接，所述第一整流线性单元一3312与所述第一卷积层二3313连接，所述第一卷积层二3313与所述第一池化层3314连接，所述第一池化层3314与所述第一整流线性单元二3315连接。

在一些实施例中，所述第二卷积单元332包括，第二卷积层一3321、第二整流线性单元一3322、第二卷积层二3323、第二池化层3324和第二整流线性单元二3325；所述第二卷积层一3321与所述第二整流线性单元一3322连接，所述第二整流线性单元一3322与所述第二卷积层二3323连接，所述第二卷积层二3323与所述第二池化层3324连接，所述第二池化层3324与所述第二整流线性单元二3325连接。

实施例2：

本申请实施例2提供的自然场景下的表情识别方法：

S1：数据切分：获取到用于训练阶段的MP4、MKV、AVI等各种格式视频文件，将其分解成视频帧，并以图像序列或程序数据流的形式保存，方便后续进一步进行面部表情识别其他流程。在得到视频帧之后，要对每个视频帧中的人脸表情进行标注，以便后续进行训练。

具体的，用于训练的视频数据可以是实时视频流、网络视频或本地视频等类型，在不考虑实时性的情况下，上述三类视频均可用于训练部分，但因涉及到标注问题，一般只使用后两种类型的视频进行训练。

在一些实施例中，可以按指定帧率从目标视频中提取视频帧。

在一些实施例中，在一些实施例中可以通过相关脚本文件或视频处理软件直接从视频文件中提取对应帧率的视频帧。

在一些实施例中，可以采用现有公开的已经标注过的图片格式或视频格式的人脸表情数据帧数据集进行后续流程操作。

具体的，图片格式的连续数据帧数据集除了隐含的上下文信息之外基本等同于传统的静态图片人脸表情数据集，每一帧或连续范围帧都需注明人脸表情的所属的具体分类。对于视频格式的人脸表情数据帧数据，要以帧为单位指定视频中具体时刻片段中人脸表情的所属分类。

在一些实施例中，基于前述方案，在得到标注好的视频帧后，开始进行数据的预处理操作。对自然场景中问题进行处理，包括光照、头部姿态、面部遮挡等问题。

首先使用一维高斯滤波器对图像的直方图进行处理。高斯滤波器由下式定义：

其中，z是相对于内核中心的坐标，而σ是标准偏差。

然后从平滑的直方图检测局部最大值的位置，利用它划分不同子直方图。令m0，m1，…，mi，…，mn为（n + 1）个灰度级，对应于检测到的局部最大值。如果平滑前的原始直方图在[Imin，Imax]范围内，则第一个子直方图在[Imin，m0]范围内，第二个子直方图在[m0，m1]范围内，第i个子直方图在[m(i-2)，m(i-1)]范围内，依此类推，直到最后一个子直方图在[mn，Imax]范围内。紧接着，按下面的公式计算第i个子直方图的输出结果：

其中，其中

是输入图像中的子直方图i中包含的最高强度值，

是输入图像中的子直方图i中包含的最低强度值，M是该部分中包含的总像素；L代表灰度级范围。输入图像中的子直方图i使用的动态范围由

给出，而输出图像中的子直方图i使用的动态范围为

。

令输出图像中的子直方图i的范围为

。如果我们将输出图像的第一个子直方图设置在[0，range1]的范围内，则

和

（对于i> 1）可以计算如下：

紧接着独立均衡每个分区，对于范围为

的子直方图i，此部分的均衡遵从下面的公式：

其中，其中nk是亮度为k的像素数，M是该部分中包含的总像素数。

最后，计算输入的平均亮度

，以及均衡处理

后得到输出的平均亮度

，为了将平均亮度回到输入的平均亮度，如下：

其中，

是最终的输出图像，而

是在均衡过程之后的输出。该归一化将确保平均输出强度将几乎等于平均输入强度。

在一些实施例中，对于光照效果过强得情况，使用卷积神经网络对带有镜面反射的视频帧进行处理，其损失函数表示为：

其中，

表示输入的具有镜面反射的图像，

表示相应的漫射图像，

表示二者的残差，

是卷积神经网络的输出，保证损失函数E尽可能小的情况下优化网络的参数。

在一些实施例中预处理中对光照影响的处理可以用对光照不敏感的相应特征提取方式替代，比如将局部二值模式（LBP）及其改进版或Haar等作为特征进行提取，但可能会将视频帧中一些重要的信息遗漏，在此不展开说明。

在一些实施例中所述剔除非人脸的区域的方法为：利用人脸检测器对视频帧除光序列进行人脸检测和定位，在得到人脸边界框后，输入图像裁剪至面部区域。在人脸检测之后，可以利用人脸关键点标定进一步提高面部表情识别的效果。根据关键点坐标，人脸可以利用放射变换显示到统一的预定义模板上。这一步可以减少旋转和面部变形带来的变化。

在一些实施例中，最常用的人脸标定方法是IntraFace，使用级联人脸关键点定位，即 SDM，可以准确预测 49 个面部关键点。

在一些实施例中，在自然场景下，可以组合使用多个人脸检测器实现互补，可以更好地进行人脸对齐。

在一些实施例中，考虑到自然场景下的视频帧中的人脸可能需要进行缩小、平移、旋转等空间操作，所以希望在训练阶段生成的模型具有空间不变性，当输入数据发生某种转换后，模型依然能够给出同样正确的结果。

在一些实施例中，所述消除头部姿态对人脸表情的影响的方法为：利用空间变换网络消除人脸视频帧序列中头部姿态对人脸表情的影响，得到表情视频帧序列。

在一些实施例中，如图2所示，STN的输入为U，输出为V，立方体表示输入的中间层feature map可能是多通道的，STN主要分为下述三个步骤：

步骤1-Localisation net：是一个自己定义的网络，它输入U，输出变化参数

，这个参数用来映射U和V的坐标关系：

其中，

代表变化参数，这6个变量用来映射输入图和输出图之间的坐标点的关系。

步骤2-Grid generator：有了第一步的变化参数，这一步是做个矩阵运算，这个运算是以输出图V的所有坐标点为自变量，以

为参数做一个矩阵运算，得到输入图U的坐标点：

其中，

记为输入图U中的第i个坐标点，

记为输出图V中的第i个坐标点，这里的i是从V中对应过来的，表示V中的第i个坐标点映射到U中的坐标，i跟U没有关系。

可选的，V中的长宽可以自定义长度，并不一定与U保持一致。

步骤3-Sampler：由于在第二步计算出了V中每个坐标点对应到U的坐标点，在这一步可以直接根据V的坐标点取得U中相对应的坐标点的像素值来进行填充，而不需要经过矩阵运算。需要注意的是，填充并不是直接填充，首先计算出来的坐标可能是小数，要处理一下，其次填充的时候往往要考虑周围的其它像素值。填充根据的公式如下：

其中，n和m表示会遍历输入图U的所有坐标点，

指输入图U中某个点的像素值，使用的是双线性插值法。

在一些实施例中，经过上述1-3步骤，即可得到一个由输入图U生产的输出图V。

可选的，这一步骤也可以在卷积神经网络内部进行插入，所以网络的输入也可以是卷积神经网络中间层的feature map。

扩增方面包括在线扩增和离线扩增两种方式。在训练阶段可以使用在线或离线扩增方式，在使用阶段只能使用在线扩增方式。

基于前述方案，从几何角度对视频帧进行随机裁剪，然后进行水平翻转，位移等；从像素变换角度进行改变图像色差、颜色抖动、扭曲图像特征、增加图像噪声等操作。这样可以获得比原始数据集大近10倍的数据集，让数据集尽可能的多样化，使得训练的模型具有更强的泛化能力。

可选的，离线扩增的方法包括随机扰动和变换，可以对图片进行旋转、移位、偏斜、缩放、噪声、对比度和颜色抖动等等。同时也可以对这些操作进行组合，从而使得训练的模型对偏离和旋转等非正常状态下的人脸更具有鲁棒性。

可选的，除了采用数据増广的图像扩增方式，也可以利用生成对抗网络（Generative Adversarial Networks,GAN）来生成更多的训练数据。

基于前述方案，首先将视频裁剪成视频帧，然后采用图像处理等相关技术一定程度上解决了在自然环境下的视频帧中光照和头部姿态等干扰性问题，紧接着利用数据扩增技术将原数据帧的数量增多使得视频帧中人脸表情的样本种类更加丰富，使得在训练阶段生成的模型具有更强的鲁棒性。

S3：视频预处理帧序列特征提取：从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取面部像素级深度神经网络特征；

在本申请的一个具体示例中，基于前述方案，由于局部物体的外观和形状通常可以通过局部强度梯度或边缘方向的分步来很好地表征，由于面部表情识由面部肌肉运动引起的，所以采用定向梯度直方图（Histogram of Oriented Gradient, HOG）有效地捕捉和表示这些变形，但只限于处理静态图像，对于视频帧类型的数据要融合上下文信息。

在一些实施例中，所述提取表征面部外观和形状特征的定向梯度直方图特征的具体方法为：利用定向梯度直方图融合视频预处理帧序列中的时域信息，分别提取水平轴和时间轴面部表情特征、垂直轴和时间轴面部表情特征、水平轴和垂直轴面部表情特征，并进行定向梯度直方图处理和特征向量合并，组成三平面定向梯度直方图特征；

在一些实施例中，以水平轴和垂直轴组成的平面为例，对于一张128*128像素大小的视频帧图片，将其分割为8*8像素大小的像素块，为每个像素块单元创建一个柱状图，首先将每个单元中所有像素的渐变方向分组为特定数量的方向（角度）箱，然后将每个角度箱中渐变的渐变幅度相加。柱状图中的箱数是一个自由参数，通常设置为9个角箱。然后遍历每个像素块单元中的每个像素点，按其梯度的强度和方向将其放入角箱中，最后得到代表该像素块单元的HOG描述符的特征向量。对于一张128*128像素大小的视频帧图像，可以得到16*16=256组HOG向量，并将其拼接成一个特征向量代表该图片的HOG描述符。

在一些实施例中，传统的卷积神经网络使用卷积层、最大或平均池化和全连接层只捕获一阶统计量，一些二阶统计量是比一阶统计量更好的区域描述符。虽然在ReLU激活函数中引入了非线性操作，但仅能在很小的像素级别进行操作，所以考虑捕获视频帧数据中的二阶信息。

在一些实施例中，给定一组视频帧数据，将其送入卷积神经网络后，对从全连接层输出的一组特征向量计算其协方差矩阵，计算公式如下：

其中，

表示单个特征向量，

，

表示全部特征向量的平均值。

这样得到的协方差矩阵只有在当前特征向量线性独立分量数大于等于d时才是对称正定的，否则需要对结果矩阵的对角线添加矩阵的迹来正则化它们，公式如下：

其中，

是正则化参数，

是单位矩阵。

这样获得的协方差矩阵通常位于单位圆矩阵的黎曼流形上。直接展平和应用会直接导致几何信息的丢失。标准方法应用对数运算来展平黎曼流形结构，以便能够应用欧氏空间的标准损失函数。这样获得的协方差矩阵通常很大，需要在不损失几何结构的情况下降低它们的维数。对数运算展开公式如下：

其中，

代表奇异值分解，log()代表对矩阵进行向量化对数运算。

在一些实施例中，所述提取面部像素级深度神经网络特征的具体方法为：使用深度神经网络对视频预处理帧序列数据进行处理，不输出标准的分类结果，而是提取在激活函数之前的特征向量作为面部像素级深度神经网络特征；

S4：将定向梯度直方图特征、面部褶皱程度的二阶特征和像素级深度神经网络特征进行对齐处理，再进行向量融合，得到用于训练的面部特征融合向量；在融合前进行一定的归一化处理。

S5：将所述面部特征融合向量输入支持向量机做表情分类。以用不同情感类别中的一种来标记每个特征向量。使用多重交叉验证，使用网格搜索来训练一个单对多线性SVM进行分类。

在一些实施例中，人脸情感类别可以分为离散和维度两种。离散情感包括anger,disgust,fear,happiness,sadness,surprise。

在测试时，我们以同样的方式计算编码特征，并使用SVM类预测作为我们的提交。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.自然场景下的表情识别方法，其特征在于，包括：

S5：将所述面部特征融合向量输入支持向量机做表情分类；

所述提取表征面部外观和形状特征的定向梯度直方图特征的具体方法为：利用定向梯度直方图融合视频预处理帧序列中的时域信息，分别提取水平轴和时间轴面部表情特征、垂直轴和时间轴面部表情特征、水平轴和垂直轴面部表情特征，并进行定向梯度直方图处理和特征向量合并，组成三平面定向梯度直方图特征。

2.根据权利要求1所述的自然场景下的表情识别方法，其特征在于，所述剔除非人脸的区域的方法为：利用人脸检测器对视频帧除光序列进行人脸检测和定位，得到人脸关键点标定，再利用放射变换显示人脸关键点标定到统一的预定义模板上，得到人脸视频帧序列。

3.根据权利要求2所述的自然场景下的表情识别方法，其特征在于，所述消除头部姿态对人脸表情的影响的方法为：利用空间变换网络消除人脸视频帧序列中头部姿态对人脸表情的影响，得到表情视频帧序列。

4.根据权利要求3所述的自然场景下的表情识别方法，其特征在于，所述对表情视频帧序列进行扩增采用数据増广或者生成式对抗网络，得到视频预处理帧序列。

5.根据权利要求1所述的自然场景下的表情识别方法，其特征在于，所述提取面部褶皱程度的二阶特征的具体方法为：利用协方差矩阵池化提取视频预处理帧序列中描述面部褶皱程度的二阶统计特征，并利用对称正定流形网络进一步处理得到相应的面部二阶特征。

6.根据权利要求1所述的自然场景下的表情识别方法，其特征在于，所述提取像素级深度神经网络特征的具体方法为：使用深度神经网络对视频预处理帧序列数据进行处理，不输出标准的分类结果，而是提取在激活函数之前的特征向量作为面部像素级深度神经网络特征。

7.自然场景下的表情识别装置，其特征在于，包括：视频切分模块、视频帧标注序列预处理模块、视频预处理帧序列特征提取模块、特征融合模块和表情分类模块；所述视频切分模块与所述视频帧标注序列预处理模块连接，所述视频帧标注序列预处理模块与所述视频预处理帧序列特征提取模块连接，所述视频预处理帧序列特征提取模块与所述特征融合模块连接，所述特征融合模块与所述表情分类模块连接；

所述表情分类模块的功能为：将所述面部特征融合向量输入支持向量机做表情分类；

8.根据权利要求7所述的自然场景下的表情识别装置，其特征在于，所述视频帧标注序列预处理模块包括：消除光照模块、人脸检测与定位模块、消除头部姿态影响模块和数据增广模块；所述消除光照模块与所述人脸检测与定位模块连接，所述人脸检测与定位模块与所述消除头部姿态影响模块连接，所述消除头部姿态影响模块与所述数据增广模块连接；

9.根据权利要求7所述的自然场景下的表情识别装置，其特征在于，所述视频预处理帧序列特征提取模块包括：定向梯度直方图特征提取模块、面部二阶特征提取模块和深度神经网络特征提取模块；所述视频帧标注序列预处理模块的输出分为3路分别与所述定向梯度直方图特征提取模块、面部二阶特征提取模块和深度神经网络特征提取模块连接，所述定向梯度直方图特征提取模块、面部二阶特征提取模块和深度神经网络特征提取模块分别与所述特征融合模块连接；