CN115546862A

CN115546862A - 基于跨尺度局部差异深度子空间特征的表情识别方法和系统

Info

Publication number: CN115546862A
Application number: CN202211113773.1A
Authority: CN
Inventors: 张正言; 惠京禹; 黄炜嘉; 邓小乔; 李锋
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-12-30

Abstract

本发明公开了一种基于跨尺度局部差异深度子空间特征的表情识别方法和系统，其通过多个高斯滤波器来获取不同尺度空间的图像，然后对不同尺度空间的图像进行分块，提取图像的局部差异，由此得到训练集的跨尺度局部差异矩阵，来训练第一阶段的多个卷积核，并再次提取经第一阶段卷积后的图像的跨尺度局部差异矩阵，来训练第二阶段的多个卷积核，由此学习到两个阶段的卷积核。待识别图像经过两个阶段的卷积后，经非线性处理和直方图统计，得到图像特征，以此来进行分类识别。该方法融合图像不同尺度的局部差异来提取特征，且网络结构简单，无需大量训练样本，对硬件要求低。

Description

基于跨尺度局部差异深度子空间特征的表情识别方法和系统

技术领域

本发明属于机器视觉技术领域，具体涉及一种基于跨尺度局部差异深度子空间特征的表情识别方法和系统。

背景技术

人脸表情识别是机器视觉、模式识别和人工智能等众多领域的重点研究方向。目前表情识别常用的方法为提取图像中的表情特征，之后采用分类器进行分类识别，得到图像中人脸表情的类别。由于图像中光照变化，个体差异(种族，性别，年龄等)、头部姿态、面部遮挡等加剧了识别的难度，因此在不受控的场景中进一步找到表达的合适且具有辨别力的表情特征仍然是一项关键而且具有挑战性的任务。现阶段，表情特征提取方法主要有两种类型：手工设计的方法和基于深度学习的方法。手工设计的方法主要侧重于根据特定标准利用图像的结构和方向信息提取特征，这种方法不仅需要相关领域的知识，并且对不受控场景中的自发表情表现不佳；基于深度学习的方法通过神经网络直接从数据中提取高级特征，这种方法通常具有复杂的网络结构，高硬件要求，并且需要大量的样本来对网络参数进行训练和调整。

发明内容

发明目的：本发明提供了一种基于跨尺度局部差异深度子空间特征的表情识别方法，该方法融合图像不同尺度的局部差异来提取特征，且网络结构简单，无需大量训练样本，对硬件要求低。

技术方案：本发明一方面公开了一种基于跨尺度局部差异深度子空间特征的表情识别方法，包括步骤：

S1、用S-1个不同的高斯滤波器分别对训练样本图像I进行滤波，并与I构成S个尺度空间的图像P_s，s＝1,2,3,…,S：

S2、将每个尺度空间的图像划分为M个大小为(2r+1)×(2r+1)的子块，第s个尺度空间的图像P_s中第m个子块中的像素为P_s,m(u,v)，m＝1,2,3,…,M，u,v＝1,2,…,2r,2r+1；

对训练样本图像I的S个尺度空间的图像，计算第m个子块的均值：

计算每个尺度下每个子块的局部差异子矩阵D_s,m＝{D_s,m(u,v)}，其中D_s,m(u,v)＝P_s,m(u,v)-ω_m；

S个尺度在第m个子块的局部差异拼接为跨尺度局部差异子矩阵：

D_L,m＝[D_1,m D_2,m … D_S,m]

将D_L,m转换为跨尺度局部差异子向量

M个跨尺度局部差异子向量拼接为训练样本图像I的跨尺度局部差异矩阵：

S3、训练集中的N个样本图像均按照步骤S2和S3获取跨尺度局部差异矩阵，构成训练集对应的跨尺度局部差异矩阵：

其中

为第n个样本图像I_n的跨尺度局部差异矩阵，n＝1,2,3,…,N，N为训练集中样本图像的数量；

S4、求解第一最大化问题：

得到C₁个维度为(2r+1)²的向量u_l，l＝1,2,…,C₁，C₁为第一阶段卷积核的数量，||·||₁表示L1范数，

表示C₁×C₁的单位矩阵；

将u_l映射为(2r+1)×(2r+1)的矩阵，作为第一阶段第l个卷积核的参数矩阵

其中mat_2r+1(·)表示映射函数，上标数字1表示第一阶段的卷积核；

S5、训练集中每个图像I_n分别与C₁个第一阶段的卷积核进行卷积，得到第一阶段的N×C₁个输出图像

S6、第一阶段输出的每个图像

均按照步骤S2和S3获取跨尺度局部差异矩阵，构成第一阶段对应的跨尺度局部差异矩阵Y：

其中

为第一阶段输出的第i个图像，i＝1,2,…,N×C₁；

S7、求解第二最大化问题：

得到C₂个维度为(2r+1)²的向量v_p，p＝1,2,…,C₂，C₂为第二阶段卷积核的数量，

表示C₂×C₂的单位矩阵；

将v_p映射为(2r+1)×(2r+1)的矩阵，作为第二阶段第p个卷积核的参数矩阵

上标数字2表示第二阶段的卷积核；

S8、将第一阶段输出的N×C₁个图像分别与C₂个第二阶段的卷积核进行卷积，得到第二阶段的N×C₁×C₂个输出图像

S9、对于训练样本集中的每个图像I_n，得到C₁组、每组C₂个图像，对每组中的C₂个图像采用二进制哈希编码进行非线性处理，得到图像F_n,l：

其中H(·)为Heaviside阶跃函数，其输入为正时值为1，否则为零；

为第二阶段输出图像

在(x,y)处的像素值；F_n,l(x,y)为图像F_n,l在(x,y)处的像素值；

S10、使用大小为q₁×q₂的窗口，以重叠比λ在图像F_n,l上滑动，得到B个子图F_n,l,b，b＝1,2,...,B，计算每个子图的直方图，拼接为直方图向量f_n,l：

f_n,l＝[Hist(F_n,l,1),Hist(F_n,l,2),...,Hist(F_n,l,B)]

Hist(·)表示直方图统计；

S11、对于训练样本集中的每个图像I_n，连接C₁个直方图向量，得到图像I_n对应的图像特征f_n：

S12、采用训练样本集中每个图像的图像特征f_n和对应的表情标签lable_n训练表情分类器；

S13、对待识别图像与C₁个第一阶段的卷积核进行卷积，得到第一阶段的C₁个输出图像，对C₁个输出图像分别与C₂个第二阶段的卷积核进行卷积，得到第二阶段的C₁×C₂个输出图像，对C₁×C₂个输出图像按照步骤S10-S12进行处理，得到待识别图像的图像特征；将待识别图像的图像特征输入训练后的表情分类器，得到表情识别结果。

进一步地，所述步骤S4中采用PCA-L1算法求解第一最大化问题。

进一步地，所述步骤S12中的表情分类器为基于SVM的分类器。

进一步地，所述步骤S12中的表情分类器为基于决策树的分类器。

另一方面，本发明还公开了实现上述基于跨尺度局部差异深度子空间特征的表情识别方法的系统，包括：

高斯滤波模块1，用于采用S-1个不同的高斯滤波器分别对训练样本图像I进行滤波，并与I构成S个尺度空间的图像P_s，s＝1,2,3,…,S：

图像跨尺度局部差异矩阵生成模块2，用于生成训练样本图像I的跨尺度局部差异矩阵D_V，具体步骤为：；

将图像I的每个尺度空间的图像划分为M个大小为(2r+1)×(2r+1)的子块，第s个尺度空间的图像P_s中第m个子块中的像素为P_s,m(u,v)，m＝1,2,3,…,M，u,v＝1,2,…,2r,2r+1；

D_L,m＝[D_1,m D_2,m … D_S,m]

将D_L,m转换为跨尺度局部差异子向量

训练集跨尺度局部差异矩阵生成模块3，用于对训练集中的N个样本图像获取跨尺度局部差异矩阵，构成训练集对应的跨尺度局部差异矩阵：

其中

第一阶段卷积核生成模块4，用于生成第一阶段的C₁个卷积核，包括步骤：

求解第一最大化问题：

表示C₁×C₁的单位矩阵；

第一阶段卷积模块5，用于分别采用C₁个第一阶段的卷积核对图像进行卷积；

第一阶段跨尺度局部差异矩阵生成模块6，用于对第一阶段输出的图像获取跨尺度局部差异矩阵；

第二阶段卷积核生成模块7，用于生成第二阶段的C₂个卷积核，包括步骤：

求解第二最大化问题：

表示C₂×C₂的单位矩阵；

上标数字2表示第二阶段的卷积核；

第二阶段卷积模块8，用于分别采用C₂个第二阶段的卷积核对图像进行卷积；

非线性处理模块9，用于的第二阶段输出的图像采用二进制哈希编码进行非线性处理，得到图像F_n,l：

为第二阶段输出图像

在(x,y)处的像素值；F_n,l(x,y)为图像F_n,l在(x,y)处的像素值；

直方图向量生成模块10，用于使用大小为q₁×q₂的窗口，以重叠比λ在图像F_n,l上滑动，得到B个子图F_n,l,b，b＝1,2,...,B，计算每个子图的直方图，拼接为直方图向量f_n,l：

f_n,l＝[Hist(F_n,l,1),Hist(F_n,l,2),...,Hist(F_n,l,B)]

Hist(·)表示直方图统计；

图像特征生成模块11，用于对第一阶段输出的C₁个图像对应的直方图向量进行连接，得到对应的图像特征；

表情分类器训练模块12，用于采用训练样本集中每个图像的图像特征f_n和对应的表情标签lable_n训练表情分类器；

识别模块13，用于获取待识别图像的图像特征输入表情分类器后得到的表情识别结果。

本发明还公开了一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述基于跨尺度局部差异深度子空间特征的表情识别方法。

本发明还公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于跨尺度局部差异深度子空间特征的表情识别方法。

有益效果：本发明公开基于跨尺度局部差异深度子空间特征的表情识别方法和系统，构建融合不同尺度下的局部差异来构建跨尺度局部差异矩阵，以此训练得到两个阶段的卷积核。待识别图像经过两个阶段的卷积，并经非线性处理和直方图统计构建图像特征，以此来进行分类识别。本发明公开的表情是识别方法和系统提取的图像特征融合了不同尺度的局部差异，且只有两个阶段的卷积，与深度学习方法相比，无需大量训练样本，无需GPU，对硬件要求低。

附图说明

图1为本发明公开的基于跨尺度局部差异深度子空间特征的表情识别方法流程图；

图2为跨尺度局部差异子向量计算的示意图；

图3为本发明公开的基于跨尺度局部差异深度子空间特征的表情识别系统的组成示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

本发明公开了一种基于跨尺度局部差异深度子空间特征的表情识别方法，如图1所示，包括步骤：

其中*表示卷积运算，G_s表示第s个高斯滤波器。S-1个高斯滤波器构成滤波器组，每个滤波器的方差σ_s取值均不相同；采用滤波器组对训练样本集中的图像进行滤波，得到同一图像具有不同清晰度的滤波图像，即将图像转换到了不同尺度空间。

S2、基于多尺度信息对噪声和尺度不敏感，为了在多个尺度捕获局部纹理特征，将每个尺度空间的图像划分为M个大小为(2r+1)×(2r+1)的子块，第s个尺度空间的图像P_s中第m个子块中的像素为P_s,m(u,v)，m＝1,2,3,…,M，u,v＝1,2,…,2r,2r+1；即每个子块的中心为(r+1,r+1)；

计算每个尺度下每个子块的局部差异子矩阵D_s,m＝{D_s,m(u,v)}，其中D_s,m(u,v)＝P_s,m(u,v)-ω_m；即对每个子块做去均值处理，以抑制光照灵敏度。

D_L,m＝[D_1,m D_2,m … D_S,m]

将D_L,m转换为跨尺度局部差异子向量

如图2所示，为跨尺度局部差异子向量计算示例，其中S＝3，r＝1，即有3个尺度，每个子块为3×3。

其中

S4、由于L1范数主成分分析(PCA)比L2范数PCA对异常值和噪声更具鲁棒性，本发明使用L1范数的PCA根据训练集对应的跨尺度局部差异矩阵X来学习第一阶段的卷积核参数，这实际上是最大化特征空间中基于L1范数的方差的问题，即求解如下第一最大化问题：

本实施例采用PCA-L1算法求解第一最大化问题，得到C₁个维度为(2r+1)²的向量u_l，l＝1,2,…,C₁，C₁为第一阶段卷积核的数量，||·||₁表示L1范数，

表示C₁×C₁的单位矩阵；

S6、第一阶段输出的每个图像

其中

为第一阶段输出的第i个图像，i＝1,2,…,N×C₁；

S7、采用PCA-L1算法求解如下第二最大化问题：

表示C₂×C₂的单位矩阵；

上标数字2表示第二阶段的卷积核；

为第二阶段输出图像

在(x,y)处的像素值；F_n,l(x,y)为图像F_n,l在(x,y)处的像素值；

f_n,l＝[Hist(F_n,l,1),Hist(F_n,l,2),...,Hist(F_n,l,B)]

Hist(·)表示直方图统计；

表情分类器可以采用基于SVM或决策树的分类器。

步骤S1-S12是表情分类器的训练阶段，识别阶段为步骤S13：

实现上述基于跨尺度局部差异深度子空间特征的表情识别方法的系统，如图3，包括：

D_L,m＝[D_1,m D_2,m … D_S,m]

将D_L,m转换为跨尺度局部差异子向量

其中

求解第一最大化问题：

表示C₁×C₁的单位矩阵；

求解第二最大化问题：

表示C₂×C₂的单位矩阵；

上标数字2表示第二阶段的卷积核；

为第二阶段输出图像

在(x,y)处的像素值；F_n,l(x,y)为图像F_n,l在(x,y)处的像素值；

f_n,l＝[Hist(F_n,l,1),Hist(F_n,l,2),...,Hist(F_n,l,B)]

Hist(·)表示直方图统计；

本实施例在CK+数据集、JAFFE数据库、ISED数据库和BAUM-2i数据库这四个公开的人脸表情数据集上，对本发明公开的表情识别方法和常用的识别方法进行了对比，对比结果如表1-4所示。

CK+数据集是受控场景中摆拍(acted)表情图像集，各方法的表情识别准确率如表1。

表1

方法	特征类型	准确率(％)
			PCANet	深度子空间特征	78.74
K-PCANet	深度子空间特征	81.89
			E-PCANet	深度子空间特征	85.66
Inception	深度学习	93.20
			AUDN(AURF)	深度学习	92.22
P-PCANet	深度子空间特征	92.67
			ILCNN	深度学习	94.39
DAE	深度学习	95.79
			CLGDNP	手工特征	94.27
LDSP	手工特征	94.49
			LSDP	手工特征	94.68
3DCNN-DAP	深度学习	92.40
			本发明方法	深度子空间特征	96.26

JAFFE数据库同样是受控场景中的摆拍(acted)表情图像集，各方法的表情识别准确率如表2。

表2

方法	特征类型	准确率(％)
			PCANet	深度子空间特征	58.35
LAP	手工特征	68.54
			K-PCANet	深度子空间特征	68.80
WLD	手工特征	69.01
			E-PCANet	深度子空间特征	69.40
LPQ	手工特征	69.95
			STL-CNN	深度学习	69.35
LSDP	手工特征	70.89
			P-PCANet	深度子空间特征	71.38
本发明方法	深度子空间特征	73.15

ISED数据库是受控场景中的自发(spontaneous)表情图像集，各方法的表情识别准确率如表3。

表3

方法	特征类型	准确率(％)
			PCANet	深度子空间特征	73.78
NEDP<sub>ns</sub>	手工特征	77.39
			NEDP<sub>s</sub>	手工特征	77.78
LSP+LB	手工特征	77.82
			sLSP+LB	手工特征	78.03
本发明方法	深度子空间特征	80.71

BAUM-2i数据库是不受控场景中的自发(spontaneous)表情图像集，各方法的表情识别准确率如表4。

表4

由以上结果对比可知，在各数据集中，本发明公开的表情识别方法的准确率最高。