CN110046576A

CN110046576A - 一种训练识别面部表情的方法和装置

Info

Publication number: CN110046576A
Application number: CN201910308236.4A
Authority: CN
Inventors: 房建东; 刘雨桐; 李巴津
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2019-07-23

Abstract

本申请提供了一种训练识别面部表情的方法和装置，所述方法包括：获取训练数据，其中，所述训练数据，是N类面部表情中一类面部表情的图像数据，N是大于1的整数；利用所述训练数据训练第一网络模型达到预设识别面部表情的精度，从而获得优化的第一网络模型；其中，所述第一网络模型，包括特定结构的VGG19网络模型及依次连接在所述特定结构的VGG19网络模型后的一层全连接层、一层Dropout层和一层Softmax层；所述特定结构的VGG19网络模型，包括VGG19网络模型的输入层、池化层和卷积层；所述Softmax层，包括激活函数为Softmax函数的N个节点的全连接层；在训练时所述第一网络模型根据预设参数开始训练。本申请在非可控条件下，受光照等复杂背景影响较小，鲁棒性强。

Description

一种训练识别面部表情的方法和装置

技术领域

本申请涉及图像处理领域，具体涉及训练识别面部表情的方法，以及训练识别面部表情的装置，以及识别面部表情的方法，以及识别面部表情的装置。

背景技术

人脸识别被广泛地应用于安防、经济、商贸和健康管理等领域，例如：匹配嫌疑犯的照片、根据目击者提供的信息进行人脸重构、嫌疑犯图像集；身份的匹配验证；公共场合的监控系统；自动门卫系统等。

一方面上述这些应用的背景可能是动态或静态，另一方面这些背景本身可能是非可控的，因此在这些应用背景下，可能会遇到各种各样的问题，相应的有不同的分析方式、解决方法和技术难度。随着人脸匹配识别的技术越来越成熟，研究者们也将人脸识别算法或方法研究投入实际应用，并且应用范围也越来越广泛。

课堂上听众的面部表情是听众的心理状态的一个表征，通过分析听众的面部表情数据可以用于评估和改善教学效果。随着信息化技术的不断发展，关于人体特征采集的各种技术应运而生，并取得了蓬勃的发展，例如人脸识别技术等已经取得了实质性的突破，可表情识别技术还不够成熟，尤其是面对课堂中学生的表情分析就更是凤毛麟角。表情特征分析系统可以广泛地应用于学生课堂，因为老师的精力有限，而且重心应在授课上，不能够充分注意到每个同学的课堂表现。但通过计算机记录并分析每一个学生的课堂表现并提出合理的教学改进可以弥补这一不足。

现有技术需要先对人脸进行特征点标注，再通过一定的计算进行特征提取并保存。当数据集容量很大时，数据标注就变成了一个大工程，消耗大量人力物力。同时，由于现有技术基于浅层神经网络或是基础的卷积神经网络，当环境复杂时，鲁棒性较低。

发明内容

本申请提供一种训练识别面部表情的方法，以及一种训练识别面部表情的装置，以及一种识别面部表情的方法，以及一种识别面部表情的装置；以解决现有技术中表情识别鲁棒性差的问题。

为了解决上述技术问题，本申请实施例提供了如下的技术方案：

本申请提供了一种训练识别面部表情的方法，包括：

获取训练数据，其中，所述训练数据，是N类面部表情中一类面部表情的图像数据，N是大于1的整数；

利用所述训练数据训练第一网络模型达到预设识别面部表情的精度，从而获得优化的第一网络模型；

其中，所述第一网络模型，包括特定结构的VGG19网络模型及依次连接在所述特定结构的VGG19网络模型后的一层全连接层、一层Dropout层和一层Softmax层；所述特定结构的VGG19网络模型，包括VGG19网络模型的输入层、池化层和卷积层；所述Softmax层，包括激活函数为Softmax函数的N个节点的全连接层；在训练时所述第一网络模型根据预设参数开始训练。

优选的，所述利用所述训练数据训练第一网络模型达到预设识别面部表情的精度，从而获得优化的第一网络模型，包括：

从所述训练数据中获取训练批的批训练数据；

将所述批训练数据输入所述第一网络模型中获取批训练结果；

判断所述批训练结果是否满足预设识别面部表情的精度；

若否，则根据所述批训练结果调整所述第一网络模型的权重值和偏移量，并继续上述步骤；

若是，则获得所述优化的第一网络模型。

优选的，所述判断所述批训练结果是否满足预设识别面部表情的精度，包括：

通过损失函数判断所述批训练结果是否满足预设识别面部表情的精度。

优选的，所述损失函数为交叉熵损失函数：

其中，

yi是批训练结果值；

是预设结果值；

i是训练次数。

优选的，所述训练批为64；所述输入层的输入图像分辨率为224像素×224像素。

优选的，所述预设参数包括：

优化函数采用自适应学习率的Adam；且

学习率的初始值等于0.0001。

优选的，所述获取训练数据，包括：

获取多个包括面部表情的静态图像数据；

从所述静态图像数据中提取全部面部表情的数据，且每个面部表情生成一个第一图像数据；

将所述第一图像数据的面部表情进行缩放处理，获取包括预设尺寸面部表情的第二图像数据；

根据预设条件过滤所述第二图像数据，获取第三图像数据；对所述第三图像数据进行筛选和分类，获取所述训练数据。

本申请提供了一种训练识别面部表情的装置，包括：

获取训练数据单元，用于获取训练数据，其中，所述训练数据，是N类面部表情中一类面部表情的图像数据，N是大于1的整数；

训练单元，用于利用所述训练数据训练第一网络模型达到预设识别面部表情的精度，从而获得优化的第一网络模型；

本申请提供了一种识别面部表情的方法，包括：

获取待识别图像，其中，所述待识别图像，是包括面部表情的图像数据；

将所述待识别图像输入优化的第一网络模型获取所述待识别图像识别结果；

其中，所述优化的第一网络模型是采用如权利要求1-7任一项所述的方法生成的。

本申请提供了一种识别面部表情的装置，包括：

获取待识别图像单元，用于获取待识别图像，其中，所述待识别图像，是包括面部表情的图像数据；

输出结果单元，用于将所述待识别图像输入优化的第一网络模型获取所述待识别图像识别结果；

基于上述实施例的公开可以获知，本申请实施例具备如下的有益效果：

本申请提供了一种训练识别面部表情的方法和装置，所述方法包括：获取训练数据，其中，所述训练数据，是N类面部表情中一类面部表情的图像数据，N是大于1的整数；利用所述训练数据训练第一网络模型达到预设识别面部表情的精度，从而获得优化的第一网络模型；其中，所述第一网络模型，包括特定结构的VGG19网络模型及依次连接在所述特定结构的VGG19网络模型后的一层全连接层、一层Dropout层和一层Softmax层；所述特定结构的VGG19网络模型，包括VGG19网络模型的输入层、池化层和卷积层；所述Softmax层，包括激活函数为Softmax函数的N个节点的全连接层；在训练时所述第一网络模型根据预设参数开始训练。

本申请无需对人脸图像进行特征点标注再进行特征提取的操作，可直接输入处理好的人脸图像，省去了中间过程。在非可控条件下，受光照等复杂背景影响较小，鲁棒性强。

附图说明

图1为本申请实施例提供的第一网络模型的结构图；

图2为本申请实施例提供的训练识别面部表情的方法的流程图；

图3为本申请实施例提供的训练识别面部表情的装置的单元框图；

图4为本申请实施例提供的识别面部表情的方法的流程图；

图5为本申请实施例提供的识别面部表情的装置的单元框图。

具体实施方式

下面，结合附图对本申请的具体实施例进行详细的描述，但不作为本申请的限定。

应理解的是，可以对此处公开的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例；然而，应当理解，所公开的实施例仅仅是本申请的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此，本文所公开的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本申请的相同或不同实施例中的一个或多个。

本申请提供一种训练识别面部表情的方法；本申请还提供一种训练识别面部表情的装置；本申请还提供一种识别面部表情的方法；本申请还提供一种识别面部表情的装置。在下面的实施例中逐一进行详细说明。

对本申请提供的第一实施例，即一种训练识别面部表情的方法的实施例。

VGG19网络模型，是一种深度卷积网络结构，卷积神经网络被用在处理图像上，VGG19模型就是训练图像数据集的模型。所述VGG19网络模型，包括：输入层、池化层、卷积层、全连接层和Softmax层。

本实施例基于迁移学习的第一网络模型，请参见图1所示，基于迁移学习的第一网络模型的主要框架。所述第一网络模型，包括特定结构的VGG19网络模型及依次连接在所述特定结构的VGG19网络模型后的一层全连接层、一层Dropout层和一层Softmax层；所述特定结构的VGG19网络模型，包括VGG19网络模型的输入层、池化层和卷积层；所述Softmax层，包括激活函数为Softmax函数的N个节点的全连接层。其中，N个节点与N类面部表情相对应，N是大于1的整数。例如，将课堂中学生的面部表情分为三类：笑、困倦和倾听，则所述Softmax层包括3各节点的全连接层。并且保留其输入层的输入图像格式为224像素×224像素，所述第一网络模型几乎没有脱离VGG19网络模型的基本结构。

本实施例在训练时下载大数据集ImageNet的训练权重，从而可以减少训练的次数，提高训练的效率。所述第一网络模型根据预设参数开始训练。所述预设参数包括：

优化函数采用自适应学习率的Adam；且

学习率的初始值等于所述随机梯度下降法的默认值0.0001。

池化层，是一种形式的降采样。采用非线性池化函数，将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。不断地减小数据的空间大小，因此参数的数量和计算量也会下降，在一定程度上也控制了过拟合。

所述过拟合，是指为了得到一致假设而使假设变得过度严格。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

全连接层，在整个卷积神经网络中起到分类器的作用。

dropout层，目的是为了防止卷积神经元网络过拟合。在训练一个特定的网络时，当迭代次数增多的时候，可能出现网络对训练集拟合的很好，但是对验证集的拟合程度很差的情况。所以，引入dropout层，让每次跌代随机的更新网络参数，增加网络通用的能力。

Softmax层，属于多类分类器，输入为样本特征，输出为样本属于各个类别的概率。概率最大值所属的类别即为分类结果。

请参见图1所示，本实施例所述第一网络模型，包括：输入层、池化层、卷积层、全连接层、dropout层和Softmax层。每层的输出大小和每层参数数量请参见图1所示。所述输入层输入图像的像素大小为224像素×224像素，第一网络模型全部采用3×3的卷积核，步长为1。图1中数字64、128和512表示经过卷积运算后得到的特征图的数量。卷积层后面跟一个2×2的最大池化层，步长为2。全连接层包括256个神经元。

下面结合图2对本实施例进行详细说明，其中，图2为本申请实施例提供的训练识别面部表情的方法的流程图。

步骤S101，获取训练数据，其中，所述训练数据，是N类面部表情中一类面部表情的图像数据，N是大于1的整数。

例如，N等于3，N类面部表情，也就是将课堂中学生的面部表情分为三类：笑、困倦和倾听；所述获取训练数据，也就是“笑”类面部表情的图像数据，或“困倦”类面部表情的图像数据，或“倾听”类面部表情的图像数据。

具体包括以下步骤：

步骤S101-1，获取多个包括面部表情的静态图像数据。

例如，可以通过对班级学生上课情况进行录像，从录像中按照预设时间间隔抽帧获取多个包括面部表情的静态图像数据。

步骤S101-2，从所述静态图像数据中提取全部面部表情的数据，且每个面部表情生成一个第一图像数据。

例如，使用OpenCV中的人脸检测工具箱对图像中的人脸进行批量处理，将静态图像数据中每个人的图像提取出来，且每个人的图像生成一个第一图像数据。

步骤S101-3，将所述第一图像数据的面部表情进行缩放处理，获取包括预设尺寸面部表情的第二图像数据。

所述预设尺寸，是指所述面部表情的在图像中的尺寸。例如，所述预设规格是面部表情在图像中的长为224像素且宽为224像素。

步骤S101-4，根据预设条件过滤所述第二图像数据，获取第三图像数据。

也就是将不符合预设条件的所述第二图像数据剔除。例如，将面部表情不够清晰的第二图像数据放弃，不作为训练数据。

步骤S101-5，对所述第三图像数据进行筛选和分类，获取所述训练数据。

也就是对过滤后的图像进行筛选，并对图像进行分类，获取所述训练数据。其中，所述训练数据，是N类面部表情中一类面部表情的图像数据，N是大于1的整数。例如，N等于3，N类面部表情，也就是将课堂中学生的面部表情分为三类：笑、困倦和倾听。

步骤S102，利用所述训练数据训练第一网络模型达到预设识别面部表情的精度，从而获得优化的第一网络模型。

所述利用所述训练数据训练第一网络模型达到预设识别面部表情的精度，从而获得优化的第一网络模型，包括：

步骤S102-1，从所述训练数据中获取训练批的批训练数据。

优选的，所述训练批为64。也就是64张图像为一个训练批。

步骤S102-2，将所述批训练数据输入所述第一网络模型中获取批训练结果。

步骤S102-3，判断所述批训练结果是否满足预设识别面部表情的精度。

所述判断所述批训练结果是否满足预设识别面部表情的精度，包括：

所述损失函数为交叉熵损失函数：

其中，

y_i是批训练结果值；

是预设结果值；

i是训练次数。

利用所述交叉熵损失函数可以避免梯度消散。

步骤S102-4，若否，则根据所述批训练结果调整所述第一网络模型的权重值和偏移量，并执行步骤S102-1。

步骤S102-5，若是，则获得所述优化的第一网络模型。

本实施例无需对人脸图像进行特征点标注再进行特征提取的操作，可直接输入处理好的人脸图像，省去了中间过程。在非可控条件下，受光照等复杂背景影响较小，鲁棒性强。

与本申请提供的第一实施例相对应，本申请还提供了第二实施例，即一种训练识别面部表情的装置。由于第二实施例基本相似于第一实施例，所以描述得比较简单，相关的部分请参见第一实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

图3示出了本申请提供的一种训练识别面部表情的装置的实施例。图3为本申请实施例提供的训练识别面部表情的装置的单元框图。

请参见图3所示，本申请提供一种训练识别面部表情的装置，包括：获取训练数据单元201，训练单元202；

获取训练数据单元201，用于获取训练数据单元，用于获取训练数据，其中，所述训练数据，是N类面部表情中一类面部表情的图像数据，N是大于1的整数；

训练单元202，用于利用所述训练数据训练第一网络模型达到预设识别面部表情的精度，从而获得优化的第一网络模型；

在所述训练单元202中，包括：

获取批训练数据子单元，用于从所述训练数据中获取训练批的批训练数据；

获取批训练结果子单元，用于将所述批训练数据输入所述第一网络模型中获取批训练结果；

判断精度子单元，用于判断所述批训练结果是否满足预设识别面部表情的精度；

调整子单元，用于若所述判断精度子单元的输出结果为“否”，则根据所述批训练结果调整所述第一网络模型的权重值和偏移量，并继续所述获取批训练数据子单元的操作；

结束子单元，用于若若所述判断精度子单元的输出结果为“是”，则获得所述优化的第一网络模型。

在所述判断精度子单元中，包括：

第一判断精度子单元，用于通过损失函数判断所述批训练结果是否满足预设识别面部表情的精度。

优选的，所述损失函数为交叉熵损失函数：

其中，

y_i是批训练结果值；

是预设结果值；

i是训练次数。

优选的，预设参数包括：

优化函数采用自适应学习率的Adam；且学习率的初始值等于0.0001。

在所述获取训练数据单元201中，所述获取训练数据，包括：

获取静态图像数据子单元，用于获取多个包括面部表情的静态图像数据；

提取图像数据子单元，用于从所述静态图像数据中提取全部面部表情的数据，且每个面部表情生成一个第一图像数据；

缩放处理子单元，用于将所述第一图像数据的面部表情进行缩放处理，获取包括预设尺寸面部表情的第二图像数据；

过滤子单元，用于根据预设条件过滤所述第二图像数据，获取第三图像数据；

分类子单元，用于对所述第三图像数据进行筛选和分类，获取所述训练数据。

与本申请提供的第一实施例相关联，本申请还提供了第三实施例，即一种识别面部表情的方法。由于第三实施例基本相似于第一实施例，所以描述得比较简单，相关的部分请参见第一实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

图4示出了本申请提供的一种识别面部表情的方法的实施例。图4为本申请实施例提供的识别面部表情的方法的流程图。

请参见图4所示，本申请提供一种识别面部表情的方法，包括：

步骤S301，获取待识别图像，其中，所述待识别图像，是包括面部表情的图像数据；

步骤S302，将所述待识别图像输入优化的第一网络模型获取所述待识别图像识别结果；

其中，所述优化的第一网络模型是采用如第一实施例所述训练识别面部表情的方法生成的。

与本申请提供的第三实施例相对应，本申请还提供了第四实施例，即一种识别面部表情的装置。由于第四实施例基本相似于第三实施例，所以描述得比较简单。下述描述的装置实施例仅仅是示意性的。

图5示出了本申请提供的一种识别面部表情的装置的实施例。图5为本申请实施例提供的识别面部表情的装置的单元框图。

请参见图5所示，本申请提供一种识别面部表情的装置，包括：获取待识别图像单元401，输出结果单元402；

获取待识别图像单元401，用于获取待识别图像，其中，所述待识别图像，是包括面部表情的图像数据；

输出结果单元402，用于将所述待识别图像输入优化的第一网络模型获取所述待识别图像识别结果；

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种训练识别面部表情的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述训练数据训练第一网络模型达到预设识别面部表情的精度，从而获得优化的第一网络模型，包括：

从所述训练数据中获取训练批的批训练数据；

判断所述批训练结果是否满足预设识别面部表情的精度；

若是，则获得所述优化的第一网络模型。

3.根据权利要求2所述的方法，其特征在于，所述判断所述批训练结果是否满足预设识别面部表情的精度，包括：

4.根据权利要求3所述的方法，其特征在于，所述损失函数为交叉熵损失函数：

其中，

y_i是批训练结果值；

是预设结果值；

i是训练次数。

5.根据权利要求2所述的方法，其特征在于，所述训练批为64；所述输入层的输入图像分辨率为224像素×224像素。

6.根据权利要求1所述的方法，其特征在于，所述预设参数包括：

优化函数采用自适应学习率的Adam；且

学习率的初始值等于0.0001。

7.根据权利要求1所述的方法，其特征在于，所述获取训练数据，包括：

获取多个包括面部表情的静态图像数据；

8.一种训练识别面部表情的装置，其特征在于，包括：

9.一种识别面部表情的方法，其特征在于，包括：

10.一种识别面部表情的装置，其特征在于，包括：