CN113011386A

CN113011386A - 一种基于等分特征图的表情识别方法及系统

Info

Publication number: CN113011386A
Application number: CN202110397464.0A
Authority: CN
Inventors: 王炳; 邢永康
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-06-22
Anticipated expiration: 2041-04-13
Also published as: CN113011386B

Abstract

本发明公开了一种基于等分特征图的表情识别方法及系统。方法包括：S1，获取待识别人脸表情图像；S2，将待识别人脸表情图像输入基于卷积神经网络的表情分类模型输出第一识别结果；获取中间层特征图，将中间层特征图N等分后获得N个局部特征图，分别对N个局部特征图进行局部分类处理获得局部分类结果和局部权值，累加N个局部特征图的局部分类结果与局部权值的乘积值，将累加结果作为第二识别结果；S3，融合第一识别结果和第二识别结果获得最终识别结果。利用中间层特征图获得基于边缘特征的第二识别结果，将第一识别结果和第二识别结果进行融合能够弥补第一识别结果对边缘特征的丢失问题，进而提高最终表情识别结果的准确率。

Description

一种基于等分特征图的表情识别方法及系统

技术领域

本发明属于人脸表情识别技术领域，特别是涉及一种基于等分特征图的表情识别方法及系统。

背景技术

面部表情包含着丰富的情感信息，是我们在日常沟通交流手段中最自然，语义最丰富的方式之一。表情识别在很多领域都有很高的潜在应用价值，例如医学治疗、监控驾驶员疲劳驾驶、智能服务机器人、心理健康评估等，所以人脸表情识别作为计算机视觉中重要且难以攻克的分支领域，一直受到很多研究者的关注。

卷积层的卷积特性导致较高层次的特征图包含着大量的高级语义信息，较低层次包含着大量的低级边缘信息，且存在着大量的背景噪声，面部图像表面上可以看成一个简单的物体分类任务，但是采用当前应用较为广泛的神经网络，发现效果并不是十分理想。发明人分析后得到，现存的卷积神经网络的分类任务一般是大物体，且类与类之间的差别比较大，因此只利用高级语义信息可以得到较理想的效果，但是对于表情识别，表情之间的差异性并没有普通物体之间那么大，其次表情识别涉及一些肌肉和皮肤纹理的变化，对于这些边缘特征，往往在卷积过程中丢失甚至消失，导致分类效果不太理想。但是，对于普通的卷积神经网络，较低的特征图包含着大量的噪声易于增加模型的复杂度且易误导分类结果。因此，找到一个能增加特征提取信息提高人脸表情识别的准确率的方法具有重要的研究意义。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于等分特征图的表情识别方法及系统。

为了实现本发明的上述目的，根据本发明的第一个方面，本发明提供了一种基于等分特征图的表情识别方法，包括：步骤S1，获取待识别人脸表情图像；步骤S2，将所述待识别人脸表情图像输入基于卷积神经网络的表情分类模型，所述表情分类模型输出第一识别结果；获取表情分类模型的卷积神经网络的中间层特征图，将所述中间层特征图N等分后获得N个局部特征图，所述N为大于1的正整数，分别对N个局部特征图进行局部分类处理获得局部分类结果和局部权值，累加N个局部特征图的局部分类结果与局部权值的乘积值，将累加结果作为第二识别结果；步骤S3，融合第一识别结果和第二识别结果获得所述待识别人脸表情图像的最终识别结果。

上述技术方案：较低层的特征图虽然包含大量边缘特征(如表征肌肉和皮肤纹理变化的特征)，但是有着大量的噪声，这些噪声会增加后续运算的复杂度且易误导分类结果，因此本方法选择中间层特征图提取边缘信息既能提高表情识别精度，又能降低运算复杂度。为了更好的提取局部边缘特征，将中间层特征图划分为N个局部特征图，考虑到不同局部特征图所带有的有效特征信息的不同，在这里加入了局部权值，以此来提高从中间层特征图提取的特征的有效性，利用中间层特征图获得基于边缘特征的第二识别结果；最后将第一识别结果和第二识别结果进行融合能够弥补第一识别结果对边缘特征的丢失问题，进而提高最终表情识别结果的准确率。

在本发明的一种优选实施方式中，将所述中间层特征图在高和宽方向等分。

上述技术方案：便于后续处理。

在本发明的一种优选实施方式中，所述局部分类处理的过程包括：步骤A，将局部特征图通过一个卷积核提取所述局部特征图的高层特征信息，所述高层特征信息与局部特征图的大小相同；步骤B，对步骤A中获得的高层特征信息进行全局平均池化处理和reshape处理得到第一特征图；步骤C，将所述第一特征图输入第一局部全连接层，对所述第一局部全连接层输出的结果进行sofmax函数处理得到局部分类结果，将第一特征图输入第二局部全连接层获得局部权值。

上述技术方案：该处理过程使得对于每个局部特征图能够同时获得局部分类结果和局部权值，并且处理过程与主卷积神经网络获得第一识别结果的过程类似，便于后续第一识别结果和第二识别结果融合。

在本发明的一种优选实施方式中，采用如下方法之一使N个局部权值均分散在区间[0,1]内，并且N个局部权值之和为1：方法一：在局部分类处理过程的神经网络的训练过程中，将N个局部特征图的损失函数相加得到合并的损失函数，以合并的损失函数收敛为一个目标不断优化所述神经网络，训练过程中，待识别的N个局部特征图分别输入所述神经网络获得对应的局部权值，经过softmax函数将获得的N个局部权值映射到区间[0,1]内，训练结束后的权值即最终局部权值；方法二：在局部分类处理过程的神经网络的训练过程中，待识别的N个局部特征图分别输入所述神经网络获得对应的局部权值，经过softmax函数将获得的N个局部权值映射到区间[0,1]内，训练结束后的权值即最终局部权值。

上述技术方案：方法一和方法二通过softmax函数使得N个局部权值均分散在区间[0,1]内，并且N个局部权值之和为1，其中方法一还考虑到了N个局部特征图之间的关联性和相对性，有利于提高局部特征图的分类准确率。

在本发明的一种优选实施方式中，在所述步骤S3中，融合第一识别结果和第二识别结果的具体过程包括：将第一识别结果和第二识别结果相加，通过softmax crossentropy loss函数对相加结果进行处理得到所述待识别人脸表情图像的最终识别结果。

上述技术方案：运算量少，能够实现快速融合。

在本发明的一种优选实施方式中，表情分类模型的卷积神经网络结构包括依次连接的第一网络结构、第二网络结构和第三网络结构；所述第一网络结构包括依次连接的1个卷积层和1个最大池化层；所述第二网络结构包括四层残差块；所述第三网络结构包括全局池化层。

上述技术方案：该卷积神经网络结构能够有助于解决梯度消失和梯度爆炸问题，具有良好的性能。

在本发明的一种优选实施方式中，选择第三个残差块输出的特征图作为中间层特征图。

上述技术方案：该第三个残差块输出的特征图既包含有较多的边缘特征又含有较少的噪声，有利于减小复杂度同时得到足够多的边缘特征。

在本发明的一种优选实施方式中，在第一网络结构中，所述卷积层包含64个7＊7大小的卷积核组成，卷积层的步长为2；最大池化层的输入大小为64＊112＊112，输出大小为64＊56＊56，最大池化层的步长为2；第三个残差块输出的特征图的大小为256＊14＊14，将第三个残差块输出的特征图四等分为4个大小为256＊7＊7的局部特征图；在局部分类处理过程中：每个局部特征图通过一个3＊3的卷积核提取所述局部特征图的高层特征信息，对高层特征信息进行全局平均池化处理和reshape处理得到1＊256的第一特征图，将所述第一特征图输入256＊7的第一局部全连接层，对所述第一局部全连接层输出的结果进行sofmax函数处理得到局部分类结果，将第一特征图输入256＊1的第二局部全连接层获得局部权值。

上述技术方案：结合卷积神经网络的结构特点为局部分类处理过程构建了网络结构，该网络结构计算量小，能够快速获得局部分类结果和局部权值。

在本发明的一种优选实施方式中，所述表情分类模型的构建过程包括：步骤一，搭建卷积神经网络并加载预训练参数；步骤二，获取人脸图像训练样本，利用人脸图像训练样本对搭建好的卷积神经网络进行训练并根据训练结果调整卷积神经网络的参数，获得表情分类模型。

为了实现本发明的上述目的，根据本发明的第二个方面，本发明提供了一种表情识别系统，包括图像获取模块和处理模块，所述图像模块输出待识别人脸表情图像至处理模块，所述处理模块按照本发明所述的基于等分特征图的表情识别方法获得所述待识别人脸表情图像的表情识别结果。

上述技术方案：该识别利用中间层特征图获得基于边缘特征的第二识别结果，将第一识别结果和第二识别结果进行融合能够弥补第一识别结果对边缘特征的丢失问题，进而提高最终表情识别结果的准确率。

附图说明

图1是本发明一具体实施方式中基于等分特征图的表情识别方法流程示意图；

图2是本发明一具体实施方式中表情分类模型的卷积神经网络的结构示意图；

图3是本发明一具体实施方式中局部分类处理过程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明公开了一种基于等分特征图的表情识别方法，在一种优选实施方式中，如图1所示，该方法包括：

步骤S1，获取待识别人脸表情图像；

步骤S2，将待识别人脸表情图像输入基于卷积神经网络的表情分类模型，表情分类模型输出第一识别结果；

获取表情分类模型的卷积神经网络的中间层特征图，将中间层特征图N等分后获得N个局部特征图，N为大于1的正整数，分别对N个局部特征图进行局部分类处理获得局部分类结果和局部权值，累加N个局部特征图的局部分类结果与与局部权值的乘积值，具体为：求取每个局部特征图的局部分类结果和局部权值的乘积值，再将N个该乘积值累加，将累加结果作为第二识别结果；

步骤S3，融合第一识别结果和第二识别结果获得待识别人脸表情图像的最终识别结果。

在本实施方式中，优选的，如图2所示，将中间层特征图在高和宽方向等分，可理解为等分高同时等分宽，长度方向保留不变，因此N优选但不限于为4。

在本实施方式中，表情分类模型求取第一识别结果的卷积神经网络可选择现有的神经网络结构，如ResNet18网络结构。优选的，表情分类模型的构建过程包括：

步骤一，搭建卷积神经网络并加载预训练参数；

步骤二，获取人脸图像训练样本，利用人脸图像训练样本对搭建好的卷积神经网络进行训练并根据训练结果调整卷积神经网络的参数，保证卷积神经网络对这些样本的准确识别率较高，获得表情分类模型，其中具体如何调整卷积神经网络的参数为现有技术，在此不再赘述。优选的，可从现有的RAF－DB数据集中选取一部分的人脸图像作为训练样本，可不同表情设置如下标签：标签为0：Surprise，1：Fear，2：Disgust，3：Happiness，4：Sadness，5：Anger，6：Neutral。

在本实施方式中，中间层特征图优选但不限于为次低级特征图或中级特征图或次高级特征图。

在一种优选实施方式中，如图3所示，局部分类处理的过程包括：

步骤A，将局部特征图通过一个卷积核提取局部特征图的高层特征信息，高层特征信息与局部特征图的大小相同；

步骤B，对步骤A中获得的高层特征信息进行全局平均池化处理和reshape处理得到第一特征图；reshape处理为改变形状处理，将图像从三维转换为二维。reshape处理的具体过程为现有技术，如可参考网址https：//blog.csdn.net/qq＿34840129/article/details/86467817中公开的技术方案，在此不再赘述。

步骤C，将第一特征图输入第一局部全连接层，对第一局部全连接层输出的结果进行sofmax函数处理得到局部分类结果，将第一特征图输入第二局部全连接层获得局部权值。

在本实施方式中，全局平均池化处理的具体方法为现有技术，如可参照网址https：//zhuanlan.zhihu.com/p/42384808中公开的技术方案，在此不再赘述。

在一种优选实施方式中，采用如下方法之一使N个局部权值均分散在区间[0,1]内，并且N个局部权值之和为1：

方法一：在局部分类处理过程的神经网络的训练过程中，将N个局部特征图的损失函数相加得到合并的损失函数，以合并的损失函数收敛为一个目标不断优化所述神经网络，训练过程中，待识别的N个局部特征图分别输入所述神经网络获得对应的局部权值，经过softmax函数将获得的N个局部权值映射到区间[0,1]内，训练结束后的权值即最终局部权值；该方法在网络训练的时候将得到N个局部权值，此时再经过softmax函数将N个局部权值映射到区间[0,1]内，此处充分考虑到了局部特征图之间的相对影响，将N个损失函数合并成一个损失函数，在训练的时候尽力让这个合并的损失函数收敛，由于是对各损失函数相加，所以有一定的相对性。

方法二：在局部分类处理过程的神经网络的训练过程中，待识别的N个局部特征图分别输入所述神经网络获得对应的局部权值，经过softmax函数将获得的N个局部权值映射到区间[0,1]内，训练结束后的权值即最终局部权值。该方法直接让神经网络对每个局部特征图得到对应的局部权值，N个局部权值使用softmax函数映射到区间[0，1]内，将各自的映射值作为所属局部特征图的最终的局部权值，此处主要用到单个局部特征图在学习过程中得到的局部权值，没有进行损失函数相加，每个局部特征图使用的还是自己的损失函数，但是神经网络会自己学习参数，所以这里得到的参数是合理的，再将多个局部权值一起使用softmax函数处理，保证N个局部权值均在区间[0，1]内，且和为1。

在一种优选实施方式中，在步骤S3中，融合第一识别结果和第二识别结果的具体过程包括：

将第一识别结果和第二识别结果相加，通过softmax cross entropy loss函数对相加结果进行处理得到待识别人脸表情图像的最终识别结果。

在本实施方式中，softmax cross entropy loss函数的表达式以及处理方法为现有技术，如可参照网址为https：//www.jianshu.com/p/47172eb86b39中公开的技术方案，在此不再赘述。

在一种优选实施方式中，如图2所示，表情分类模型的卷积神经网络结构包括依次连接的第一网络结构、第二网络结构和第三网络结构；第一网络结构包括依次连接的1个卷积层和1个最大池化层；第二网络结构包括四层残差块；第三网络结构包括全局池化层，图像数据经过全局池化层后在经过softmax函数得到第一识别结果。

在本实施方式中，优选的，选择第三个残差块输出的特征图作为中间层特征图。

在本实施方式中，优选的，在第一网络结构中，卷积层包含64个7＊7大小的卷积核组成，卷积层的步长为2；最大池化层的输入大小为64＊112＊112，输出大小为64＊56＊56，最大池化层的步长为2；第三个残差块输出的特征图的大小为256＊14＊14，将第三个残差块输出的特征图四等分为4个大小为256＊7＊7的局部特征图；在局部分类处理过程中：每个局部特征图通过一个3＊3的卷积核提取该局部特征图的高层特征信息，对高层特征信息进行全局平均池化处理和reshape处理得到1＊256的第一特征图，将第一特征图输入256＊7的第一局部全连接层，对第一局部全连接层输出的结果进行sofmax函数处理得到局部分类结果，将第一特征图输入256＊1的第二局部全连接层获得局部权值。

本发明还公开了一种表情识别系统，在一种优选实施方式中，系统包括图像获取模块和处理模块，图像模块输出待识别人脸表情图像至处理模块，处理模块按照上述基于等分特征图的表情识别方法获得待识别人脸表情图像的表情识别结果。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于等分特征图的表情识别方法，其特征在于，包括：

步骤S1，获取待识别人脸表情图像；

步骤S2，将所述待识别人脸表情图像输入基于卷积神经网络的表情分类模型，所述表情分类模型输出第一识别结果；

获取表情分类模型的卷积神经网络的中间层特征图，将所述中间层特征图N等分后获得N个局部特征图，所述N为大于1的正整数，分别对N个局部特征图进行局部分类处理获得局部分类结果和局部权值，累加N个局部特征图的局部分类结果与局部权值的乘积值，将累加结果作为第二识别结果；

步骤S3，融合第一识别结果和第二识别结果获得所述待识别人脸表情图像的最终识别结果。

2.如权利要求1所述的一种基于等分特征图的表情识别方法，其特征在于，将所述中间层特征图在高和宽方向等分。

3.如权利要求1所述的一种基于等分特征图的表情识别方法，其特征在于，所述局部分类处理的过程包括：

步骤A，将局部特征图通过一个卷积核提取所述局部特征图的高层特征信息，所述高层特征信息与局部特征图的大小相同；

步骤B，对步骤A中获得的高层特征信息进行全局平均池化处理和reshape处理得到第一特征图；

步骤C，将所述第一特征图输入第一局部全连接层，对所述第一局部全连接层输出的结果进行sofmax函数处理得到局部分类结果，将第一特征图输入第二局部全连接层获得局部权值。

4.如权利要求3所述的一种基于等分特征图的表情识别方法，其特征在于，采用如下方法之一使N个局部权值均分散在区间[0,1]内，并且N个局部权值之和为1：

方法一：在局部分类处理过程的神经网络的训练过程中，将N个局部特征图的损失函数相加得到合并的损失函数，以合并的损失函数收敛为一个目标不断优化所述神经网络，训练过程中，待识别的N个局部特征图分别输入所述神经网络获得对应的局部权值，经过softmax函数将获得的N个局部权值映射到区间[0,1]内，训练结束后的权值即最终局部权值；

方法二：在局部分类处理过程的神经网络的训练过程中，待识别的N个局部特征图分别输入所述神经网络获得对应的局部权值，经过softmax函数将获得的N个局部权值映射到区间[0,1]内，训练结束后的权值即最终局部权值。

5.如权利要求1所述的一种基于等分特征图的表情识别方法，其特征在于，在所述步骤S3中，融合第一识别结果和第二识别结果的具体过程包括：

将第一识别结果和第二识别结果相加，通过softmax cross entropy loss函数对相加结果进行处理得到所述待识别人脸表情图像的最终识别结果。

6.如权利要求1－5之一所述的一种基于等分特征图的表情识别方法，其特征在于，表情分类模型的卷积神经网络结构包括依次连接的第一网络结构、第二网络结构和第三网络结构；所述第一网络结构包括依次连接的1个卷积层和1个最大池化层；所述第二网络结构包括四层残差块；所述第三网络结构包括全局池化层。

7.如权利要求6所述的一种基于等分特征图的表情识别方法，其特征在于，选择第三个残差块输出的特征图作为中间层特征图。

8.如权利要求7所述的一种基于等分特征图的表情识别方法，其特征在于，在第一网络结构中，所述卷积层包含64个7＊7大小的卷积核组成，卷积层的步长为2；最大池化层的输入大小为64＊112＊112，输出大小为64＊56＊56，最大池化层的步长为2；

第三个残差块输出的特征图的大小为256＊14＊14，将第三个残差块输出的特征图四等分为4个大小为256＊7＊7的局部特征图；

在局部分类处理过程中：每个局部特征图通过一个3＊3的卷积核提取所述局部特征图的高层特征信息，对高层特征信息进行全局平均池化处理和reshape处理得到1＊256的第一特征图，将所述第一特征图输入256＊7的第一局部全连接层，对所述第一局部全连接层输出的结果进行sofmax函数处理得到局部分类结果，将第一特征图输入256＊1的第二局部全连接层获得局部权值。

9.如权利要求1所述的一种基于等分特征图的表情识别方法，其特征在于，所述表情分类模型的构建过程包括：

步骤一，搭建卷积神经网络并加载预训练参数；

步骤二，获取人脸图像训练样本，利用人脸图像训练样本对搭建好的卷积神经网络进行训练并根据训练结果调整卷积神经网络的参数，获得表情分类模型。

10.一种表情识别系统，其特征在于，包括图像获取模块和处理模块，所述图像模块输出待识别人脸表情图像至处理模块，所述处理模块按照权利要求1－9之一所述的基于等分特征图的表情识别方法获得所述待识别人脸表情图像的表情识别结果。