CN107194371A

CN107194371A - 基于层次化卷积神经网络的用户专注度识别方法及系统

Info

Publication number: CN107194371A
Application number: CN201710447282.3A
Authority: CN
Inventors: 黄飞; 侯立民; 邓卉; 李辉芳
Original assignee: Yi Teng Teng Polytron Technologies Inc
Current assignee: Yi Teng Teng Polytron Technologies Inc
Priority date: 2017-06-14
Filing date: 2017-06-14
Publication date: 2017-09-22
Anticipated expiration: 2037-06-14
Also published as: CN107194371B

Abstract

本发明涉一种基于层次化卷积神经网络的用户专注度识别方法，包括如下步骤：获取人脸正面图像；根据所述人脸正面图像，利用两种均匀模式的局部二元模式算子计算所述人脸正面图像对应的特征编码图；根据两种均匀模式下的所述特征编码图和所述人脸正面图像，采用GoogLeNet改进分类器进行分类处理获取用户情绪，根据所述情绪获取用户专注度。还对应提供了一种基于层次化卷积神经网络的用户专注度识别系统。本发明所获取的用户专注度结果准确，能够精细分解。

Description

基于层次化卷积神经网络的用户专注度识别方法及系统

技术领域

本发明涉及图像处理领域，具体而言，涉及智能电视系统中基于层次化卷积神经网络的用户专注度识别方法和基于层次化卷积神经网络的用户专注度识别系统。

背景技术

随着机器学习的大热，传统的人机交互方式逐渐被淘汰。如今智能电视系统飞速发展，如何将智能电视系统与机器学习结合，从而提供更加方便快捷和人性化的服务是值得探讨的问题。人脸识别技术是利用分析比较人脸视觉特征信息进行身份鉴别的计算机技术，是较为热门的技术研究领域，属于生物特征识别领域，将此种技术应用在电视系统中，可以给用户提供全新的体验，根据用户的情绪特征提供更人性化的服务。现有的智能电视中情绪分类或者用户专注度分类过于粗糙。

发明内容

针对现有多种人脸情绪识别的算法，结合智能电视系统的特点与要求，本发明提供了一种情绪分类精细的用户专注度识别技术，具体地，本发明第一方面提供了一种基于层次化卷积神经网络的用户专注度识别方法，包括如下步骤：

S110获取人脸正面图像；

S120根据所述人脸正面图像，利用两种均匀模式的局部二元模式算子计算所述人脸正面图像对应的特征编码图；

S130根据两种均匀模式下的所述特征编码图和所述人脸正面图像，采用GoogLeNet改进分类器进行分类处理获取用户情绪，根据所述情绪获取用户专注度。

进一步地，所述步骤S110包括

S111获取人脸拍摄图像；

S112根据通过回归的方式建立的二维平面中人脸关键点与三维空间的人脸旋转角度的关系判断所述人脸拍摄图像是否属于正面拍摄，如判断为是，将所述人脸拍摄图像作为人脸正面拍摄图像；

S113对所述人脸正面拍摄图像进行直方图均衡化处理，将处理后获取的图像作为所述人脸正面图像。

进一步地，所述用户情绪包括中性、大笑、微笑、露齿笑、生气、愤怒，所述步骤S130中具体包括：

S131采用基于GoogLeNet改进的分类器进行分类处理获取用户情绪，并获取对应的特征向量组α₁和α₂，若判定所述用户情绪为中性，则完成分类，并根据所述情绪输出用户专注度。

进一步地，所述步骤S131中若判定所述用户情绪为非中性时，所述步骤S130还包括如下步骤：

S132对所述人脸正面图像进行灰度变换生成人脸灰度正面图像，将所述人脸灰度正面图像和所述人脸正面拍摄图像输入到所述GoogLeNet改进分类器进行分类处理，获取对应特征向量组α₃；

S133根据特征向量组α₁、α₂和α₃，利用线性组合公式进行融合获取特征向量组α₄；

S134将特征向量组α₄输入到基于AlexNet改进的神经网络中，进行识别处理，最终得到精分类结果，并依据精分类结果输出用户的专注度，所述精分类结果包括大笑、微笑、露齿笑、生气、愤怒。

进一步地，所述步骤S133中，利用α₄＝1/3*α₁+1/3*α₂+1/3*α₃，获取特征向量组α₄。

进一步地，所述步骤S120中采用的算子分别为，样本点数为8,半径分别为1和3的圆形 LBP算子。

进一步地，所述GoogLeNet改进分类器的改进点为：在GoogLeNet的基础上加入了残差层，将前一层网络的输出和中间网络的输出结果结合起来，作为后一层网络的输出；去除了冗余的网络层。

进一步地，所述基于AlexNet改进的神经网络为，在Alexnet基础上将第一层的大的卷积层改为3*3的小卷积，同时采用了batchnorm，对卷积层的kernel个数进行了调整，最终的loss 采用softmax和改进的centerloss结合的方式。

进一步地，根据所述情绪获取用户专注度的步骤包括，当所述情绪为中性时，所述用户专注度值在80％～100％之间；当所述情绪为大笑、微笑、露齿笑时，所述用户专注度值在60％～79％之间；当所述情绪为生气、愤怒时，所述用户专注度值在0％～59％之间。

本发明另一方面还提供了一种一种基于层次化卷积神经网络的用户专注度识别系统，包括人脸图像获取装置、特征编码图获取装置、专注度获取装置；

所述人脸图像获取装置用于人脸正面图像；

所述特征编码图获取装置用于根据所述人脸正面图像，利用两种均匀模式的局部二元模式算子计算所述人脸正面图像对应的特征编码图；

所述专注度获取装置用于根据两种均匀模式下的所述特征编码图和所述人脸正面图像，采用GoogLeNet改进分类器进行分类处理获取用户情绪，根据所述情绪获取用户专注度。

进一步地，所述人脸图像获取装置具体包括包括摄像头、正面判断装置、均衡化装置；

所述摄像头用于拍摄获取人脸拍摄图像；

所述正面判断装置用于根据通过回归的方式建立的二维平面中人脸关键点与三维空间的人脸旋转角度的关系判断所述人脸拍摄图像是否属于正面拍摄，如判断为是，将所述人脸拍摄图像作为人脸正面拍摄图像；

所述均衡化装置用于对所述人脸正面拍摄图像进行直方图均衡化处理，将处理后获取的图像作为所述人脸正面图像。

进一步地，所述专注度获取装置具体用于采用基于GoogLeNet改进的分类器进行分类处理获取用户情绪，并获取对应的特征向量组α₁和α₂，若判定所述用户情绪为中性，则完成分类，并根据所述情绪输出用户专注度；若判断为非中性时，对所述人脸正面图像进行灰度变换生成人脸灰度正面图像，将所述人脸灰度正面图像和所述人脸正面拍摄图像输入到所述 GoogLeNet改进分类器进行分类处理，获取对应特征向量组α₃；根据特征向量组α₁、α₂和α₃，利用线性组合公式进行融合获取特征向量组α₄；将特征向量组α₄输入到基于AlexNet改进的神经网络中，进行识别处理，最终得到精分类结果，并依据精分类结果输出用户的专注度，所述精分类结果包括大笑、微笑、露齿笑、生气、愤怒。

通过上述实施例的技术方案，本发明中采用多种均匀模式下的LBP算子，丰富了输入，使得分类结果更加准确，进一步地，采用改进的AlexNet、GoogLeNet神经网络进行分类，使得情绪分类更加精细，获取用户专注度的结果更加精细与准确，使得智能电视或者情绪电视推荐节目更加精细化，所获得的结果也更加真实。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1为本发明一些实施例中的基于层次化卷积神经网络的用户专注度识别方法的流程示意图；

图2为本发明一些实施例中的基于层次化卷积神经网络的用户专注度识别方法的子步骤流程示意图；

图3为本发明一些实施例中的基于层次化卷积神经网络的用户专注度识别方法的子步骤的流程示意图；

图4为本发明一些实施例中的基于层次化卷积神经网络的用户专注度识别方法的流程示意图；

图5为本发明一些实施例中的基于层次化卷积神经网络的用户专注度识别方法中的改进后的 GoogLeNet架构示意图；

图6为图5的从上到下依次局部放大示意图；

图7为图5的从上到下依次局部放大示意图；

图8为图5的从上到下依次局部放大示意图；

图9为图5的从上到下依次局部放大示意图；

图10为图5的从上到下依次局部放大示意图；

图11为图5的从上到下依次局部放大示意图；

图12为本发明一些实施例中的基于层次化卷积神经网络的用户专注度识别方法中的改进后的AlexNet架构示意图；

图13为图12的从上到下依次局部放大示意图；

图14为图12的从上到下依次局部放大示意图；

图15为图12的从上到下依次局部放大示意图；

图16为图12的从上到下依次局部放大示意图；

图17为本发明一些实施例中的基于层次化卷积神经网络的用户专注度识别系统的系统框图；本发明一些实施例中的人脸识别方法中部分步骤的流程示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

本发明根据人脸图像，利用两种模式下的局部二元模式算子(LBP)计算两种特征编码图，带入到带有层次化卷积神经网络的GoogLeNet改进分类器进行情绪分类，再根据情绪与用户专注度的线性关系获取用户专注度。采用两种模式下的特征编码图使得结果更加准确与精细。

实施例一

如图1所示，本发明第一方面提供了一种基于层次化卷积神经网络的用户专注度识别方法，如图1所示，包括如下步骤：

S110获取人脸正面图像；本发明中人脸正面图像，可以通过接收获取，也可自己采集获取，自己采集获取时需要对是否正面进行判断，如果不是正面图像，可以舍弃重新采集；本发明中人脸正面图像可以采用摄像头直接获取的正面图像，也可为了便于特征提取，对摄像头采集的图像进行预处理，使得特征更加清晰。

S120根据所述人脸正面图像，利用两种均匀模式的局部二元模式(Local BinaryPattern LBP)算子计算所述人脸正面图像对应的特征编码图；采用局部二元模式使得人脸图像的亮点、暗点、边缘等局部特征更加清晰，采用两种均匀模式下的不同算子，保证了结果的准确性。本发明中的两种算子分别可采用，样本点数为8,半径分别为1和3的圆形LBP算子。

S130根据两种均匀模式下的所述特征编码图和所述人脸正面图像，采用GoogLeNet改进分类器进行分类处理获取用户情绪，根据所述情绪获取用户专注度；所述GoogLeNet改进分类器的改进点为：在GoogLeNet的基础上加入了残差层，将前一层网络的输出和中间网络的输出结果结合起来，作为后一层网络的输出；去除了冗余的网络层。增加了信息传递有效性的同时，训练速度更快，精度更高。同时去除了一些冗余的网络层，加速了识别的速度，便于整个网络的部署。

本发明实施例中所述人脸正面图像为摄像头实时采集并进行判断处理所获取的图像，具体地，如图2所示，所述步骤S110包括

S111获取人脸拍摄图像；利用机顶盒上的摄像头进行图像采集。

S112根据通过回归的方式建立的二维平面中人脸关键点与三维空间的人脸旋转角度的关系判断所述人脸拍摄图像是否属于正面拍摄，如判断为是，将所述人脸拍摄图像作为人脸正面拍摄图像，其中，人脸关键点的提取采用SDM(Supervised Descent Method)算法。

S113对所述人脸正面拍摄图像进行直方图均衡化处理，将处理后获取的图像作为所述人脸正面图像。从而达到提高对比度的作用，突出人脸的边缘特征的效果。

本发明实施例中所述用户情绪包括中性、大笑、微笑、露齿笑、生气、愤怒，如图3所示，所述步骤S130中具体包括：

所述步骤S131中若判定所述用户情绪为非中性时，所述步骤S130还包括如下步骤：

S132对所述人脸正面图像进行灰度变换生成人脸灰度正面图像，如，根据人脸正面图像中各个像素点的RGB值，采用公式Gray＝R*0.299+G*0.587+B*0.114获取灰度值Gray，将所述人脸灰度正面图像和所述人脸正面拍摄图像输入到所述GoogLeNet改进分类器进行分类处理，获取对应特征向量组α₃；

S133根据特征向量组α₁、α₂和α₃，利用线性组合公式进行融合获取特征向量组α₄；例如，采用均值的方式，α₄＝1/3*α₁+1/3*α₂+1/3*α₃，获取特征向量组α₄。

S134将特征向量组α₄输入到基于AlexNet改进的神经网络中，进行识别处理，最终得到精分类结果，并依据精分类结果输出用户的专注度，所述精分类结果包括大笑、微笑、露齿笑、生气、愤怒；所述基于AlexNet改进的神经网络为，在Alexnet基础上将第一层的大的卷积层改为3*3的小卷积，同时采用了batchnorm，对卷积层的kernel个数进行了调整，最终的 loss采用softmax和改进的centerloss结合的方式。

本发明实施例中通过神经网络获取用户的情绪，然后根据情绪与用户专注度的线性关系获取用户专注度，具体地根据所述情绪获取用户专注度的步骤包括，当所述情绪为中性时，所述用户专注度值在80％～100％之间；当所述情绪为大笑、微笑、露齿笑、时，所述用户专注度值在60％～79％之间；当所述情绪为生气、愤怒时，所述用户专注度值在0％～59％之间。

实施例二

如图4所示，本发明提供了一种基于层次化卷积神经网络的用户专注度识别方法，包括如下步骤：

Step.1在人脸姿态估计的研究中，人脸的姿态分为(pitch，yaw，roll)三种角度，分别代表上下翻转，左右翻转，平面内旋转的角度。本发明通过回归的方式建立二维平面中人脸关键点与三维空间的人脸旋转角度的关系。其中，人脸关键点的提取采SDM(Supervised Descent Method)算法。在SDM算法中，需要考虑NLS问题：

f(x)＝min||h(x)-y||²

这里x为优化参数，h为非线性函数，y是已知变量，如下是基于梯度的迭代公式：

各种优化方法不同，取决于A的选择。

采取上述方法，计算原始影像的人脸姿态角度，从而判断用户是否正视电视，完成用户角度的自动识别。若用户正对电视机则进行专注度的识别，否则取下幅影像进行人脸姿态估计；

Step.2直方图均衡化是对图像中像素个数较多的灰度级进行展宽，而对像素个数少的进行缩减，从而达到清晰影像的目的。其原理是经过点运算使一灰度级上都有相同的像素点数的输出图像(输出的直方图是平的)，这对于在进行图像分割或分割之前将图像转化为一致的格式将是非常有用的。经过均衡化后，每一级的像素个数为A0/Dm，Dm是灰度级的最大灰度值，A0是图像的面积。

均衡化方法：

1、求出原图的直方图，h＝{x0,...xi}i在0～255范围内；

2、计算灰度分布概率，图像总体像素N＝L*W，每个灰度级的像素个数在整个图像中所占的百分比；

3、计算灰度级的累积分布h_p；

4、计算新图像的灰度值；

h_p(k):f(i,j)(f(i,j)≠0)的累计概率分布

结合上诉直方图均衡化法进行处理，突出用户的面部情绪特征，为后面LBP算子的操作进行预处理。

Step.3局部二元模式(Local Binary Pattern LBP)算子是由Ojala等提出的一种有效纹理描述子，能够刻画出人脸图像的亮点、暗点、边缘等局部微模式及其分布情况，且计算简单、运算速度快，具有光照和旋转不变性。LBP算子在动态纹理识别、表情分析、人脸识别等方面得到广泛应用。

原始的LBP算子定义为在3*3的窗口内，以窗口中心像素为阈值，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0。这样，3*3邻域内的8个点经比较可产生8位二进制数(通常转换为十进制数即LBP码，共256种)，即得到该窗口中心像素点的LBP值，并用这个值来反映该区域的纹理信息。

其中(x_c,y_c)是中心像素，亮度是i_c；而i_n则是相邻像素的亮度。S是一个符号函数：

在本发明中使用可变半径的圆对邻近像素进行编码。对于一个给定的点(x_c,y_c)，它的邻近点(x_p,y_p)，p∈P。可由如下计算：

其中R是圆的半径，而P是样本点的个数。

使用扩展LBP编码后，使用Uniform LBP，即均匀模式LBP进行降维得到特征编码图。均匀模式LBP就是将原来的256维灰度数据重新分类，统计其位移后的跳变次数，当跳变次数小于2次时就定义为一个Uniform LBP，比如00000000左移一位还是00000000，没有跳变，即跳变次数为0；00001111左移一位为00011110，跳变次数为2。以P值为8的LBP算子为例，其均匀模式共有58个，加上一个非均匀模式的编码，则所有的模式共有59种。在实际生活中，电视的机顶盒与观看者之间的距离在2～5米之间。根据这个距离范围，找出最适合描述人脸表情特征的LBP算子。通过多次试验，本发明最终选择样本点数为8,半径分别为1和3的圆形LBP算子，也就是和利用这两种均匀算子计算预处理后影像的特征编码图；

Step.4目前在语音分析和图像识别领域使用的深度神经网络主要是CNN(卷积神经网络)。CNN是一种前馈神经网络的一种，其特点是局部感受野、权值共享，从而极大地减少了需要训练的参数个数。CNN延续了一种经典结构——重叠不同的卷积层(可能随着一层局部对比归一化或者池化层)，最后再追加一层或多层的全连接层。用户专注度可以从人类的情绪来进行衡量，在情绪分类中，主要分为三大类(愉悦、中性、忧伤)。为了提高分类精度，本发明参考了ILSVRC-2014比赛中物品识别的冠军队伍所使用的CNN架构——GoogLeNet，对该架构进行了如下的改进：在googlenet的基础上加入了残差层，将前一层网络的输出和中间网络的输出结果起来，作为后一层网络的输出，增加了信息传递有效性的同时，训练速度更快，精度更高。同时去除了一些冗余的网络层，加速了识别的速度，便于整个网络的部署。改进后的GoogLeNet架构如图5和图6～图11，其中图6～图11为改进后的GoogLeNet局部架构放大后的图。

将预处理后的彩色影像与步骤三的两种特征编码图作为输入对象，采用基于Google Net 改进的分类器进行分类处理，得到对应的特征向量组α₁、α₂。通过该步骤的处理，将用户的情绪粗分为三大类，若属于中性，那么就根据人物情绪与专注度的线性结构进行转化，不运行后面的步骤并输出用户的专注度结果；

Step.5灰度变换是空间域图像处理技术中最基础的技术，常用的转换有RGB复合通道转灰度、图像反转、对数变换和伽马(幂律)变换。在实际的RGB复合通道转灰度中，转换后的色阶值只与RGB空间有关，而与作为目的地空间灰度无关。

针对智能电视系统的需求，本发明采用了著名彩色转灰度的心理学公式：

Gray＝R*0.299+G*0.587+B*0.114

结合上述公式，将原始彩色影像进行灰度变换，将灰度影像与预处理后的彩色影像作为输入对象，采用步骤四中改进后的分类器进行分类处理，得到对应的特征向量组α₃；

Step.6线性组合是一个线性代数中的概念，代表一些抽象的向量各自乘上一个标量后再相加。常见的向量组线性组合定义如下：

β＝k₁α₁+k₂α₂+...+k_mα_m

其中α₁,α₂，...α_m是指多个向量，k₁,k₂,...,k_m是对应向量的系数，β是向量组α₁,α₂，...α_m线性组合。在图像处理、的过程中，k₁,k₂,...,k_m就是对应向量的权重。根据特征向量组α₁、α₂、α₃，并结合系统的实际需求，本发明采用均值的公式进行融合得到特征向量组α₄(即 α₄＝1/3*α₁+1/3*α₂+1/3*α₃)；

Step.7通过步骤五的处理，可将待识别对象大致分为三类。如何对分类结果进行精分类是接下来处理的问题，即将愉悦分为大笑、微笑、露齿笑；将忧伤分为生气、愤怒。AlexNet 是深度神经网络模型的一员，该模型具有八层结构包括5个卷积层和3个全连接层，其中每一层又具有不同功能的子层。本发明在AlexNet的基础上对其进行如下改进：在Alexnet基础上将第一层的大的卷积层改为3*3的小卷积，同时采用了batchnorm，同时对一些卷积层的 kernel个数进行了调整，最终的loss我们采用softmax和改进的centerloss结合的方式。具体地，参见图12和图13～图16，图13～图16为图12的局部放大图。

将特征向量组α₄输入到基改进后的中AlexNet，进行分类处理，同样根据人物情绪与专注度的线性结构进行转化，最终得到用户专注度识别结果。

上述情绪与专注度关系具体为，当所述情绪为中性时，所述用户专注度值为80％～100％；当所述情绪为大笑、微笑、露齿笑时，所述用户专注度值为60％～79％；当所述情绪为生气、愤怒时，所述用户专注度值为0％～59％，具体值可通过线性分布获取。

实施例三

基于实施例一和/或实施例二中的方法，本发明将上述方法在计算机、MCU、DSP，FPGA等控制器编程实现，既包括硬件的控制器等装置，也可包括控制器中运行和/或存储的计算机代码，如图17所示，本发明另一方面还提供一种基于层次化卷积神经网络的用户专注度识别 100，包括人脸图像获取装置110、特征编码图获取装置120、专注度获取装置130；

所述人脸图像获取装置110用于人脸正面图像；

所述特征编码图获取装置120用于根据所述人脸正面图像，利用两种均匀模式的局部二元模式算子计算所述人脸正面图像对应的特征编码图；

所述专注度获取装置130用于根据两种均匀模式下的所述特征编码图和所述人脸正面图像，采用GoogLeNet改进分类器进行分类处理获取用户情绪，根据所述情绪获取用户专注度。本发明实施例中GoogLeNet改进分类器与现有的GoogLeNet分类器的区别可参见上述实施例中的内容。

本发明为了实现实时获取用户的专注度，例如，在智能电视或情绪电视场景下，获取用户的专注度，方便智能电视的实时调整，所述人脸图像获取装置110具体包括包括摄像头111、正面判断装置112、均衡化装置113；所述摄像头111用于实时或者定时拍摄获取人脸拍摄图像；所述正面判断装置112用于根据通过回归的方式建立的二维平面中人脸关键点与三维空间的人脸旋转角度的关系判断所述人脸拍摄图像是否属于正面拍摄，如判断为是，将所述人脸拍摄图像作为人脸正面拍摄图像；通过正面图像判断情绪，使得结果更加真实有效，本发明实施例中的人脸关键点的识别可参照上述方法实施例中的内容。所述均衡化装置113用于对所述人脸正面拍摄图像进行直方图均衡化处理，将处理后获取的图像作为所述人脸正面图像。均衡化的步骤也可参见上述方法实施例中的步骤。

本发明为了使得情绪分类结果更加精细，专注度获取装置130采用了多种神经网络，具体地，所述专注度获取装置130具体用于采用基于GoogLeNet改进的分类器进行分类处理获取用户情绪，并获取对应的特征向量组α₁和α₂，若判定所述用户情绪为中性，则完成分类，并根据所述情绪输出用户专注度；若判断为非中性时，对所述人脸正面图像进行灰度变换生成人脸灰度正面图像，将所述人脸灰度正面图像和所述人脸正面拍摄图像输入到所述 GoogLeNet改进分类器进行分类处理，获取对应特征向量组α₃；根据特征向量组α₁、α₂和α₃，利用线性组合公式进行融合获取特征向量组α₄；将特征向量组α₄输入到基于AlexNet改进的神经网络中，进行识别处理，最终得到精分类结果，并依据精分类结果输出用户的专注度，所述精分类结果包括大笑、微笑、露齿笑、生气、愤怒。通过多次将图像或者特征图带入到不同的网络模型中，使得精分结果更加精细。

本发明中的识别系统100可运用到多种场景中，如智能电视、情绪电视、电视盒子等设备中。

在本发明中，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于层次化卷积神经网络的用户专注度识别方法，其特征在于，包括如下步骤：

S110获取人脸正面图像；

2.根据权利要求1所述的基于层次化卷积神经网络的用户专注度识别方法，其特征在于，所述步骤S110包括

S111获取人脸拍摄图像；

3.根据权利要求2所述的基于层次化卷积神经网络的用户专注度识别方法，其特征在于，所述用户情绪包括中性、大笑、微笑、露齿笑、生气、愤怒，所述步骤S130中具体包括：

4.根据权利要求3所述的基于层次化卷积神经网络的用户专注度识别方法，其特征在于，所述步骤S131中若判定所述用户情绪为非中性时，所述步骤S130还包括如下步骤：

5.根据权利要求4所述的基于层次化卷积神经网络的用户专注度识别方法，其特征在于，所述步骤S133中，利用α₄＝1/3*α₁+1/3*α₂+1/3*α₃，获取特征向量组α₄。

6.根据权利要求1所述的基于层次化卷积神经网络的用户专注度识别方法，其特征在于，所述步骤S120中采用的算子分别为，样本点数为8,半径分别为1和3的圆形LBP算子。

7.根据权利要求1～6任一所述的基于层次化卷积神经网络的用户专注度识别方法，其特征在于，所述GoogLeNet改进分类器的改进点为：在GoogLeNet的基础上加入了残差层，将前一层网络的输出和中间网络的输出结果结合起来，作为后一层网络的输出；去除了冗余的网络层。

8.根据权利要求4或5所述的基于层次化卷积神经网络的用户专注度识别方法，其特征在于，所述基于AlexNet改进的神经网络为，在Alexnet基础上将第一层的大的卷积层改为3*3的小卷积，同时采用了batchnorm，对卷积层的kernel个数进行了调整，最终的loss采用softmax和改进的centerloss结合的方式。

9.根据权利要求4或5任一所述的基于层次化卷积神经网络的用户专注度识别方法，其特征在于，根据所述情绪获取用户专注度的步骤包括，当所述情绪为中性时，所述用户专注度值在80％～100％之间；当所述情绪为大笑、微笑、露齿笑时，所述用户专注度值在60％～79％之间；当所述情绪为生气、愤怒时，所述用户专注度值在0％～59％之间。

10.一种基于层次化卷积神经网络的用户专注度识别系统，其特征在于，包括人脸图像获取装置、特征编码图获取装置、专注度获取装置；

所述人脸图像获取装置用于人脸正面图像；

11.根据权利要求10所述的基于层次化卷积神经网络的用户专注度识别系统，其特征在于，所述人脸图像获取装置具体包括包括摄像头、正面判断装置、均衡化装置；

所述摄像头用于拍摄获取人脸拍摄图像；

12.根据权利要求10所述的基于层次化卷积神经网络的用户专注度识别系统，其特征在于，所述专注度获取装置具体用于采用基于GoogLeNet改进的分类器进行分类处理获取用户情绪，并获取对应的特征向量组α₁和α₂，若判定所述用户情绪为中性，则完成分类，并根据所述情绪输出用户专注度；若判断为非中性时，对所述人脸正面图像进行灰度变换生成人脸灰度正面图像，将所述人脸灰度正面图像和所述人脸正面拍摄图像输入到所述GoogLeNet改进分类器进行分类处理，获取对应特征向量组α₃；根据特征向量组α₁、α₂和α₃，利用线性组合公式进行融合获取特征向量组α₄；将特征向量组α₄输入到基于AlexNet改进的神经网络中，进行识别处理，最终得到精分类结果，并依据精分类结果输出用户的专注度，所述精分类结果包括大笑、微笑、露齿笑、生气、愤怒。