CN114387482A

CN114387482A - 基于人脸图像的数据增强方法、模型训练方法及分析方法

Info

Publication number: CN114387482A
Application number: CN202210008960.7A
Authority: CN
Inventors: 王庆祥; 付刚
Original assignee: Qilu University of Technology
Current assignee: Liu Lei
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-04-22
Anticipated expiration: 2042-01-05
Also published as: CN114387482B

Abstract

本发明公开了基于人脸图像的数据增强方法、模型训练方法及分析方法，属于数据增强技术领域，要解决的技术问题为如何对人脸图像数据进行数据增强，以提高用于进行面部表情识别的模型训练效率和性能。包括如下步骤：从原训练集中随机选取两个训练样本；基于预定的分割组合比例，通过二进制掩码分别将第一人脸图像和第二人脸图像分割为两个部分，并分别将第一人脸图像和第二人脸图像中互补的两部分合并为新的人脸图像，得到两个新人脸图像，将每个新人脸图像以及对应的标签作为一个新训练样本，新训练样本表示为：

y`＝λy_A+(1‑λ)y_B。

Description

基于人脸图像的数据增强方法、模型训练方法及分析方法

技术领域

本发明涉及数据增强技术领域，具体地说是基于人脸图像的数据增强方法、模型训练方法及分析方法。

背景技术

面部表情是人类传达情绪状态和意图的最有力、最自然和最普遍的信号之一。由于自动面部表情识别在人机交互、医疗、驾驶员疲劳监测中的实际重要性，研究人员探索了面部表情识别系统(FERS)对来自面部特征的表情信息进行了编码。近些年来，随着卷积神经网络(CNNs)不断发展，凭借对图像复杂层次特征的学习能力，在FER任务中取得了重大成就。与此同时，FER取得的重大进展离不开大规模的数据集，例如CK+，FERPLUS，RAF-DB等等。

CNNs通常包含上百万甚至更多的学习参数，这些参数为模型提供必要的表征能力，但是随着参数的不断增加，过拟合的可能性也随之增加，从而削弱了模型的泛化能力。为了降低过度拟合，FER模型需要足够的数据来确保对面部表情识别任务的通用性。然而，大多数公开可用的人脸表情数据集没有足够数量的图像用于训练，因此，人脸图像数据增强是深度FER的关键步骤，可以有效减轻过拟合，从而进一步提高模型训练效率和性能。

如何对人脸图像数据进行数据增强，以提高用于进行面部表情识别的模型训练效率和性能，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供基于人脸图像的数据增强方法、模型训练方法及分析方法，来解决如何对人脸图像数据进行数据增强，以提高用于进行面部表情识别的模型训练效率和性能的技术问题。

第一方面，本发明的基于人脸图像的数据增强方法，对于随机选取的两个人脸图像，通过图像分割以及图像合并的方式形成新的人脸图像，将新的人脸图像作为训练图像，所述方法包括如下步骤：

从原训练集中随机选取两个训练样本，分别为(x_A,y_A)和(x_B,y_B)，其中，x_A表示第一人脸图像，y_A表示第一人脸图图像对应的标签，x_B表示第二人脸图像，y_B表示第二人脸图像对应的标签；

基于预定的分割组合比例，通过二进制掩码分别将第一人脸图像和第二人脸图像分割为两个部分，并分别将第一人脸图像和第二人脸图像中互补的两部分合并为新的人脸图像，得到两个新人脸图像，将每个新人脸图像以及对应的标签作为一个新训练样本，所述新训练样本表示为：

x`＝M◎x_A+(1-M)◎x_B

y`＝λy_A+(1-λ)y_B

其中，x`表示新人脸图像，y`表示新人脸图像对应的标签，M＝{0，1}^W×H为二进制掩码，表示从两个图像中剪裁和合并指定区域，W表示人脸图像的宽度，H表示人脸图像的高度；

◎表示元素乘法；

λ表示两个两个人脸图像之间的分割组合比例，λ∈{0,1}，且λ服从Beta(α,α)分布，α＝1，则λ服从(0,1)分布。

作为优选，基于预定的分割组合比例，以纵向分割的方式，通过二进制掩码分别将第一人脸图像和第二人脸图像分割为两个部分，并分别将第一人脸图像和第二人脸图像中互补的两部分合并为新的人脸图像，得到两个新人脸图像；

并基于预定的分割组合比例，以横向分割的方式，通过二进制掩码分别将第一人脸图像和第二人脸图像分割为两个部分，并分别将第一人脸图像和第二人脸图像中互补的两部分合并为新的人脸图像，得到两个新人脸图像。

作为优选，通过二进制掩码分别将第一人脸图像和第二人脸图像分割为两个部分，并分别将第一人脸图像和第二人脸图像中互补的两部分合并为新的人脸图像，包括如下步骤：

将第一人脸图像以及第二人脸图像作为目标图像，对于每个目标图像，对剪裁区域的边界框坐标进行采样，通过边界框坐标对剪裁区域指示标定，所述边界框坐标表示为：

B＝(r_x,r_y,r_w,r_h)

其中，剪裁局域为矩形区域，r_x表示剪裁区域的左上角点的像素坐标，r_y表示剪裁区域的左上角点的像素坐标，r_w表示剪裁区域的宽度，r_h表示剪裁区域的高度；

对于每个目标图像，分割为剪裁区域B和剪裁区域1-B两个部分；

对于每个目标图像，将二进制掩码中的剪裁区域B置0，并将剪裁区域1-B置1；

将第一人脸图像的剪裁区域B和第二人脸图像的剪裁区域1-B合并为新的人脸图像，并将第一人脸图像的剪裁区域1-B和第二人脸图像的剪裁区域B合并为新的人脸图像，得到两个新人脸图像。

作为优选，在横向分割的情况下，每个目标图像的边界框坐标表示为：

r_x＝0,r_w＝W

r_y＝(0,H/2),r_h＝H(1-λ)

裁剪面积比例为

对于每个目标图像，上部分对应的剪裁区域B＝(0,0,W,H/2)，下部分对应的剪裁区域1-B＝(0,H/2,W,H/2)；

对于每个目标图像，将二进制掩码M＝{0，1}^W×H中的上部分对应的裁剪区域B置0，将下部分对应的剪裁区域1-B置1；

将第一人脸图像的剪裁区域B和第二人脸图像的剪裁区域1-B合并为新的人脸图像，并将第一人脸图像的剪裁区域1-B和第二人脸图像的剪裁区域B合并为新的人脸图像，得到两个新人脸图像；

在纵向分割的情况下，每个目标图像的边界框坐标表示为：

r_x＝(0,W/2),r_w＝W(1-λ)

r_y＝0,r_h＝H

裁剪面积比例为

对于每个目标图像，左部分对应的剪裁区域B＝(0,0,W/2,H)，右部分对应的剪裁区域1-B＝(0,W/2,W/2,H)；

对于每个目标图像，将二进制掩码M＝{0，1}^W×H中的左部分对应的裁剪区域B置0，将右部分对应的剪裁区域1-B置1；

更优的，所述方法还包括如下步骤：

对于新训练样本，在将新训练样本输入到模型之前，通过Cutout的方式进行数据增强，随机屏蔽人脸图像的固定区域，将固定区域的像素值设置为0。

作为优选，所述λ＝1/2，新训练样本对应的标签中y_A:y_B＝1:1。

第二方面，本发明的基于人脸图像的模型训练方法，所述模型为以人脸图像为输入、以用于标识人脸表情的标签为输出的面部表情分析模型，所述训练方法包括如下步骤：

获取多个人脸图像，对于每个人脸图像标注用于标识面部表情的标签，以人脸图像和标签为训练样本构建训练集；

将所述训练集作为原训练集，通过如第一方面任一项所述的基于人脸图像的数据增强方法构建新训练样本；

将所述新训练样本加入原训练集形成新训练集，通过所述新训练集对构建的模型进行训练。

第三方面，本发明的基于人脸图像的面部表情分析方法，包括如下步骤：

构建面部表情分析模型，所述面部表情分析模块以人脸图像为输入，以用于标识面部表情的标签为输出；

通过如第二方面所述的基于人脸图像的模型训练方法对所述面部表情分析模型进行训练，得到训练后面部表情分析模型；

获取待测试的人脸图像，通过所述训练后面部表情分析模型对所述待测试的人脸图像进行分析，得到标签。

本发明的基于人脸图像的数据增强方法、模型训练方法及分析方法具有以下优点：

1、通过对随机两张面部表情图像的对应部分进行替换，从而对数量有限的面部表情数据集进行了扩充；

2、对于新训练样本，在新人脸图像输入到模型之前，结合Cutout进行数据增强，有效减轻自动面部表情识别的过拟合问题，进一步提高表情识别模型的鲁棒性和人脸检测性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1基于人脸图像的数据增强方法的流程框图；

图2为实施例2基于人脸图像的表情分析方法的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

需要理解的是，在本发明实施例的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。在本发明实施例中的“多个”，是指两个或两个以上。

本发明实施例提供基于人脸图像的数据增强方法、模型训练方法及分析方法，用于解决如何对人脸图像数据进行数据增强，以提高用于进行面部表情识别的模型训练效率和性能的技术问题。

实施例1：

本发明的基于人脸图像的数据增强方法，对于随机选取的两个人脸图像，通过图像分割以及图像合并的方式形成新的人脸图像，将新的人脸图像作为训练图像，该方法包括如下步骤：

S100、从原训练集中随机选取两个训练样本，分别为(x_A,y_A)和(x_B,y_B)，其中，x_A表示第一人脸图像，y_A表示第一人脸图图像对应的标签，x_B表示第二人脸图像，y_B表示第二人脸图像对应的标签；

基于预定的分割组合比例，通过二进制掩码分别将第一人脸图像和第二人脸图像分割为两个部分，并分别将第一人脸图像和第二人脸图像中互补的两部分合并为新的人脸图像，得到两个新人脸图像，将每个新人脸图像以及对应的标签作为一个新训练样本，新训练样本表示为：

x`＝M◎x_A+(1-M)◎x_B (1)

y`＝λy_A+(1-λ)y_B (2)

◎表示元素乘法；

λ表示两个两个人脸图像之间的分割组合比例，λ∈{0,1}，且λ服从Beta(α,α)分布，令α＝1，则λ服从(0,1)分布。

其中，二进制掩码M实现人脸图像分割和组合的原理为：二进制掩码M通过将图像的一半区域像素置0，其他区域像素置1来裁剪一半图像，然后将图像x_A的置0区域与图像x_B的置1区域合并，再将图像x_A的置1区域与图像x_B的置0区域合并。

为了对二进制掩码M进行采样，本实施例中首先需要对裁剪区域的边界框坐标B＝(r_x,r_y,r_w,r_h)进行采样，边界框坐标是用来确定裁剪区域的，r_x代表裁剪的矩形区域的左上角点的x像素坐标，r_y代表y像素坐标，r_w代表区域宽度，r_h代表区域高度。通过边界框坐标对人脸图像x_A和人脸图像x_B做裁剪区域的指示标定。主要过程是x_A中的B区域被裁剪，然后从x_B中裁剪1-B区域与x_A合并。

本实施例中对选择的人脸图像从横向和纵向进行分割，一共包含四种采样模式。

首先在横向分离的情况下，边界框坐标表示为：

r_x＝0，r_w＝W (3)

r_y＝(0,H/2),r_h＝H(1-λ) (4)

保证裁剪面积比例为

W表示训练图像宽度，H表示训练图像高度，r_x表示裁剪区域。

裁剪区域是由边界框B确定的。随机挑选两个训练样本x_A和x_B，对x_A的上半部分进行裁剪，此时裁剪区域B＝(0,0,W,H/2),剩余的下半部分1-B＝(0,H/2,W,H/2)，在x_B中同理。确定好裁剪区域后，将二进制掩码M＝{0，1}^W×H中的裁剪区域B置0，将剩余部分1-B置1。然后将x_A中的区域B和x_B中的区域1-B合并，将x_A的1-B区域和x_B的B区域合并，由此得到了两张新的训练图像。

同理，在纵向分离的情况下，边界框坐标表示为：

r_x＝(0,W/2),r_w＝W(1-λ), (5)

r_y＝0,r_h＝H (6)

对x_A的左半部分进行裁剪，此时裁剪区域B＝(0,0,W/2,H),剩余的右半部分1-B＝(0,W/2,W/2,H)，在x_B中同理。将二进制掩码M＝{0，1}^W×H中的裁剪区域B置0，将剩余部分1-B置1。然后将x_A中的区域B和x_B中的区域1-B合并，将x_A的1-B区域和x_B的B区域合并，同样得到了两张新的训练图像。

经过上述操作，两张训练图像可以合并生成四种新样本作为训练样本。

考虑到人脸通常是近乎对称的，含有情感特征的主要是眼睛，鼻子，嘴巴，眉毛以及面部轮廓等，本实施例选择50％的分割组合比例，对人脸图像进行分割组合，以尽可能平均地保留两张人脸图像的重要特征，即本实施例中λ＝1/2，在两张图像中分别取了一半区域，因此新图像的标签比值为1∶1，即新人脸图像中y_A:y_B＝1:1。

本实施例中标签比1:1时按合并图像的像素数量成比例混合的，因为训练样本都是中间分割的，新样本的标签是由one-hot标签的线性插值给出，两个样本的标签进行加权求和，加权之后就变成了“two-hot”，可以认为新样本同时属于混合前的两个样本的类别。

上述通过图像分割组合的方式进行图像替换形成新人脸图像，并通过对图像进行中间裁剪，尽可能多地保留了两张图像的关键特征，即使它们出现在不同的新样本上，但这是在数据级别上的操作，并不会改变内部表示以及体系结构。经过图像替换得到的新样本使得FER模型能够从一幅图像上的局部特征识别出两个表情，增强了对象定位能力，提高了训练训练效率，不会产生额外的训练和计算成本。此外，该数据增强方法可以与其他方法同时使用，进一步增强FER模型的鲁棒性和人脸检测性能。

本实施例对于新训练样本，在将新训练样本中人脸图像输入模型之前，与Cutout相结合，即在模型训练期间，随机屏蔽输入图像的固定区域，将其像素值设置为0，可以提高FER模型的鲁棒性和整体性能。当图像的某些部分被遮挡时，先进的FER模型应该能够从图像的整体结构识别出它的类别。使用Cutout的原因是它保留了表情图像的整体结构，这种技术鼓励神经网络更好地利用表情图像的完整上下文，而不是依赖于特定表情特征的存在。

为了验证本实施例公开的数据增强的效果，使用SCN模型在RAF-DB真实人脸表情数据集上进行了表情分类性能测试。与标准SCN模型的超参数不同，由于实验条件的约束，将模型参数margin_1设置为0.07，将bitch_size设置为64进行训练和验证，比较在未使用图像替换和Cutout、使用图像替换未使用Cutout、使用Cutout未使用图像替换、同时使用图像替换和Cutout时对七种人脸表情的分类精度，以此验证本发明的效果。

在每次训练迭代中，根据方程(1)和方程(2)随机选择两个训练样本，进行横向分离还是纵向分离也是随机的，经过图像替换算法生成4种新样本。新样本在模型训练期间应用Cutout方法，随机屏蔽输入图像的固定区域，区域大小设置为32×32，单位为像素。然后将新样本送入SCN模型训练，每经过一轮训练输出一次测试集的分类精度，共训练70个epoch，观察模型达到的最高精度。

本实施例使用softmax作为分类器，公式为：

其中，S_i表示第i类表情的softmax预测值，i和j均为类别序号。

将经过数据增强的表情图像输入到SCN模型中，进行表情类别预测，每一个类别(愤怒，厌恶，恐惧，自然，快乐，悲伤和惊讶)都对应一个小于1的预测值，且总和为1，最大预测值对应的类别为模型的预测结果。将模型的预测类别与真实类别进行比较，然后将所有预测正确的样本之和除以所有样本量，输出即为本次训练的神经网络模型的准确率。

本实施例的数据增强方法，通过对随机两张面部表情图像的对应部分进行替换，从而对数量有限的面部表情数据集进行了扩充。同时，该方法可以与其他数据增强方法一起使用，可以有效减轻自动面部表情识别的过拟合问题，进一步提高表情识别模型的鲁棒性和人脸检测性能。

实施例2：

本发明的基于人脸图像的模型训练方法，该模型为以人脸图像为输入、以用于标识人脸表情的标签为输出的面部表情分析模型。

本实施例中训练方法包括如下步骤：

S100、获取多个人脸图像，对于每个人脸图像标注用于标识面部表情的标签，以人脸图像和标签为训练样本构建训练集；

S200、将训练集作为原训练集，通过如第一方面任一项所述的基于人脸图像的数据增强方法构建新训练样本；

S300、将新训练样本加入原训练集形成新训练集，通过新训练集对构建的模型进行训练。

实施例3：

本发明的基于人脸图像的面部表情分析方法，包括如下步骤：

S100、构建面部表情分析模型，该面部表情分析模块以人脸图像为输入，以用于标识面部表情的标签为输出；

S200、通过实施例1公开的基于人脸图像的模型训练方法对面部表情分析模型进行训练，得到训练后面部表情分析模型；

S300、获取待测试的人脸图像，通过训练后面部表情分析模型对所述待测试的人脸图像进行分析，得到标签。

如图2所示，本实施例中选用的SCN模型进行表情类别预测，并选用softmax作为分类器。分类器，公式为：

其中，S_i表示第i类表情的softmax预测值，i和j均为类别序号。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.基于人脸图像的数据增强方法，其特征在于对于随机选取的两个人脸图像，通过图像分割以及图像合并的方式形成新的人脸图像，将新的人脸图像作为训练图像，所述方法包括如下步骤：

y`＝λy_A+(1-λ)y_B

表示元素乘法；

2.根据权利要求1所述的基于人脸图像的数据增强方法，其特征在于基于预定的分割组合比例，以纵向分割的方式，通过二进制掩码分别将第一人脸图像和第二人脸图像分割为两个部分，并分别将第一人脸图像和第二人脸图像中互补的两部分合并为新的人脸图像，得到两个新人脸图像；

3.根据权利要求1或2所述的基于人脸图像的数据增强方法，其特征在于通过二进制掩码分别将第一人脸图像和第二人脸图像分割为两个部分，并分别将第一人脸图像和第二人脸图像中互补的两部分合并为新的人脸图像，包括如下步骤：

B＝(r_x,r_y,r_w,r_h)

4.根据权利要求3所述的基于人脸图像的数据增强方法，其特征在于在横向分割的情况下，每个目标图像的边界框坐标表示为：

r_x＝0,r_w＝W

r_y＝(0,H/2),r_h＝H(1-λ)

裁剪面积比例为

在纵向分割的情况下，每个目标图像的边界框坐标表示为：

r_x＝(0,W/2),r_w＝W(1-λ)

r_y＝0,r_h＝H

裁剪面积比例为

5.根据权利要求1或2所述的基于人脸图像的数据增强方法，其特征在于所述方法还包括如下步骤：

6.根据权利要求1或2所述的基于人脸图像的数据增强方法，其特征在于所述λ＝1/2，新训练样本对应的标签中y_A:y_B＝1:1。

7.基于人脸图像的模型训练方法，其特征在于所述模型为以人脸图像为输入、以用于标识人脸表情的标签为输出的面部表情分析模型，所述训练方法包括如下步骤：

将所述训练集作为原训练集，通过如权利要求1-6任一项所述的基于人脸图像的数据增强方法构建新训练样本；

8.基于人脸图像的面部表情分析方法，其特征在于包括如下步骤：

通过如权利要求7所述的基于人脸图像的模型训练方法对所述面部表情分析模型进行训练，得到训练后面部表情分析模型；