CN110245550B

CN110245550B - 一种基于总体余弦分布的人脸噪音数据集cnn训练方法

Info

Publication number: CN110245550B
Application number: CN201910324202.4A
Authority: CN
Inventors: 黄杨昱; 胡伟; 袁国栋
Original assignee: Beijing Yunshitu Information Technology Co ltd
Current assignee: Beijing Yunshitu Information Technology Co ltd
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2021-05-11
Anticipated expiration: 2039-04-22
Also published as: CN110245550A

Abstract

本发明提出一种基于总体余弦分布的人脸噪音数据集CNN训练方法，属于图像识别领域。该方法首先选取包含噪音的人脸训练数据集并构建一个基准的卷积神经网络主干；对卷积神经网络主干添加层次，得到更新后的卷积神经网络；从人脸训练数据集中依次获取小批量样本集，将小批量样本集的每张人脸图片样本输入更新后的网络，得到对应的余弦值并加入余弦分布；通过设计三种策略及融合函数对每个余弦值计算对应的训练权重，使用梯度下降算法学习更新后的网络，当迭代次数到达上限时，训练终止。该方法具有良好的鲁棒性，在不需要先验知识的情况下，能快速高效地训练包含噪音的人脸训练数据集。

Description

一种基于总体余弦分布的人脸噪音数据集CNN训练方法

技术领域

本发明涉及图像识别领域。特别涉及一种基于总体余弦分布的人脸噪音数据集CNN训练方法。

背景技术

近几年，深度学习技术不管在算法还是在硬件层面都取得了突飞猛进的发展，而它所依赖的数据规模也越来越庞大，以人脸识别为例，训练人脸识别的卷积神经网络 CNN需要大规模的训练数据集，这些训练数据集虽然大多会通过人工或机器进行数据清洗和过滤，但仍然存在一定比例的噪音。人脸训练数据是指包含人脸样本图片及其对应的标签，人脸噪音数据是指人脸样本图片被标记的标签并不是其真实的标签。 IMDB-Face方法中提到微软的MS-Celeb-1M训练数据集包含近50％的噪音数据，而直接在包含噪音的数据集上训练得到的深度模型在实际应用场景中效果很差。因此如何有效地在噪音数据集上进行模型训练变得意义重大。

目前处理人脸噪音数据集有两类方法，IMDB-Face中通过人工过滤的方式对人脸数据集做清洗，50个标注人员花了一个月的时间清洗并筛选出170万规模的数据集，通过训练清洗后的训练数据集在公开数据集上得到了不错的效果，然而其人工开销是巨大的，这类任务在现实世界中数不胜数，如果都这么处理将会是对社会资源的一种浪费；另一类方法是借助于通用噪音数据集的训练方法去训练人脸噪音数据集，这类方法能自动地从数据集中获取有效信息，判断哪些样本是干净样本哪些是噪音样本，一定程度上节约了人力成本，但毕竟它们不是专门针对人脸训练数据集的处理方法，效果不是很理想，主要有如下几个有代表性的工作：

1)标签混淆矩阵方法

该方法主要通过人工总结的先验知识或者模型学习的不同类别的混淆概率来构建类与类之间的概率混淆矩阵(转换矩阵)。对于每个类训练样本充足，总的训练类别数较少的情况效果尚可接受，但由于方法本身的局限性，存在一些缺陷：

1.1)数据类别数多时(譬如上万个类别)，混淆矩阵参数规模巨大，空间复杂度高；

1.2)基于人工估计的方法需要一些具备领域背景的专家根据多年的经验推算混淆矩阵，成本高、周期长、不能标准化通用化；

1.3)该方法对于数据类别不均衡的情况，长尾类别之间的混淆概率估计不准；

1.4)在一些测试集上，该方法的准确率普遍较低；

2)导师网络方法

该方法是异构双卷积神经网络的训练方法，包含导师网络和学生网络，导师网络通过当前小批量样本集的损失值、损失均值、类别标签和训练进度等信息作为特征使用简单的长短记忆项层和全连接层构成网络结构来判断哪些样本是干净样本哪些是噪音样本，学生网络根据导师网络提供的信息选择性地进行训练样本的通用类别标签学习，简单来说就是导师网络告诉学生网络去学习哪些训练样本。若干实验已验证了该方法的有效性，但也有一些不足：

2.1)由于是双网络结构，该方法计算结构复杂，相比一般方法需要更多的显存空间；

2.2)对超参数的依赖严重，并且训练过程收敛比较困难；

2.3)对于对称型类内噪音，识别效果比较差；

3)协同学习方法

该方法通过同构双卷积神经网络独立初始化和学习，在每个小批量样本集中相互交换各自的损失值信息，根据样本的损失值进行排序，基于动态的噪音比和小损失策略引导对方学习各自认为正确的样本，其中动态噪音比使用平滑递增策略，随着迭代次数的变化而从0开始逐渐提升最终恒定在先验噪音比。协同学习目前取得了通用物体识别的噪音数据集训练的当前最佳效果，仍然存在几个问题：

3.1)该方法需要预先给定数据集的噪音比，通常这个先验知识很难获取，因而限定了它的使用场景；

3.2)由于单个小批量样本集的损失值波动较大，基于单个小批量样本集的小损失去过滤噪音数据并不是很精准；

3.3)该方法需要同构的双网络结构，显存占用和计算消耗基本是一般网络的两倍，对于显存受限的大网络不是很实用；

3.4)并没有实验结果验证它能很好地应用于训练噪音数据集的人脸识别领域；

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种基于总体余弦分布的人脸噪音数据集CNN训练方法。该方法具有良好的鲁棒性，在不需要先验知识(如噪音比、人工经验等)的情况下，能使用深度卷积神经网络快速高效地训练包含噪音的人脸训练数据集，经过训练方法得到的模型在人脸图片上表现出了更优的特征表征能力，并在一些测试集上取得了很好的效果。

本发明提出一种基于总体余弦分布的人脸噪音数据集CNN训练方法，其特征在于，包括以下步骤：

1)选取包含噪音的人脸训练数据集记为D_all，所述人脸训练数据集包含人脸样本图片及每张图片对应的标签；构建一个基准的卷积神经网络主干记为N_base，N_base的输入为D_all中的每张人脸样本图片和该图片对应的标签，N_base的输出为每张人脸样本图片对应的特征向量；

2)在卷积神经网络主干N_base的最后一层之后依次添加一个归一化的全连接层fc5、一个余弦分布统计的Softmax层prob和一个CrossEntropyLoss层loss，将更新后的卷积神经网络记做N_final，所述全连接层fc5的结点数等于人脸训练数据集D_all的人脸类别标签数；

3)设置当前迭代次数T等于0，构建第T次迭代时的余弦分布Dist^T _cos并初始化为空,第T次迭代时的N_base和N_final分别记作N^T _base和N^T _final；

4)迭代次数T自加1，从数据集D_all中顺序轮流循环采样一个批次大小为M的小批量样本集D^T _batch；

5)将D^T _batch中每张人脸样本图片x及该图片对应的标签下标y作为N^T _base的输入，通过前向传播算法得到N^T _base的输出v作为人脸样本图片x的特征向量；

6)在fc5层，将D^T _batch中每张人脸样本图片的特征向量v作为fc5层的输入，fc5 将v归一化，将fc5的权值矩阵W按行归一化并去掉偏移项，W的行数为D_all的人脸类别标签数，列数为特征向量维度，每一行对应每个标签类中心的特征向量，fc5的输出为x 对应的余弦向量cosθ，cosθ表示人脸样本图片x分别到每个标签类中心的余弦值构成的向量；

7)在prob层，将D^T _batch中每张人脸样本图片的余弦向量cosθ作为prob层的输入，取cosθ的第y个值作为人脸样本图片x的余弦值cosθ_y，将cosθ_y加入Dist^T _cos并对更新后的Dist^T _cos进行判定：

若Dist^T _cos的尺寸小于等于S×M，则进入步骤8)；

若Dist^T _cos的尺寸大于S×M，则删除最早加入Dist^T _cos中的M个余弦值，然后进入步骤8)；

其中S表示用于统计Dist^T _cos的小批量样本集数量；

8)根据余弦分布Dist^T _cos的形态分别找到该分布的左端点δ_l、右端点δ_r、左峰值μ_l、右峰值μ_r；

9)针对D^T _batch中每张人脸样本图片x的余弦值cosθ_y分别设计三个策略并计算每张人脸样本图片x在每个策略中对应的权重：

策略1：设置每张人脸训练样本的对应权重为1，函数如下；

ω₁＝1

策略2：设置每张人脸样本图片的对应权重为基于总体余弦分布横轴左峰的Softplus函数，纵轴高点为1，函数如下；

其中，z＝(cosθ_y-μ_l)/(δ_r-μ_l)，λ是控制Softplus形状的超参数；

策略3：设置每张人脸样本图片的对应权重为基于总体余弦分布横轴右峰的Gausian函数，纵轴高点为1，函数如下；

其中，σ＝(δ_r-μ_r)/2.576；

10)依据δ_r设计三种策略的融合函数，得到每张训练样本图片x对应的最终的训练权重ω；

ω＝αω₁+βω₂+γω₃

其中，α、β、γ分别对应策略1、2、3的权值，计算表达式如下：

β＝1-α-γ

γ＝α(1-δ_r)

通过prob层计算每张人脸样本图片x的概率向量p，p表示人脸样本图片x分别属于每个标签类别的概率值构成的向量；

11)在loss层，将D^T _batch中每张人脸样本图片的概率向量p和ω作为loss层的输入，根据每张人脸样本图片x的训练权重ω，使用梯度下降算法学习卷积神经网络N^T _final，并对迭代次数进行判定：

若当前迭代次数T未达到最大迭代次数T_max，则重新返回步骤4)，进行下一次迭代；

若当前迭代次数T达到最大迭代次数T_max，则终止训练，输出训练完毕的卷积神经网络记为最终人脸识别模型N^T _final。

本发明的特点及有益效果在于：

1本发明能处理大规模类别标签。由于本发明的训练数据集总体余弦分布使用的是人脸样本图片的特征向量到该样本图片标签类别中心的特征向量的余弦值作为统计变量，所以不会受到标签类别数量的影响；

2本发明能动态判断每个训练样本的难易程度。通过计算每张人脸样本图片对应余弦值在训练数据集总体余弦分布对应概率累计函数的函数值能判断样本的相对训练难易程度；

3本发明不需要任何先验知识(如噪音比、人工经验、验证集等)。基于总体分布的形态特征去分析样本是否是噪音数据，可以比较准确地动态估计训练集的整体噪音比；

4本发明是一种平滑的噪音数据训练方法。没有绝对地区分样本是否是噪音样本，通过赋予样本不同的训练权重(噪音或困难样本权重小)来着重训练干净数据；

5本发明舍弃训练困难样本比误训练噪音样本给模型带来的表征收益更大。在训练集总体余弦分布中，干净困难样本和噪音样本的余弦值分布很接近，很多困难样本在正常训练中很难收敛甚至不收敛，舍弃这些困难样本比误训练噪音样本对最终识别准确率造成的影响更小；

6本发明占用的计算资源和显存资源小。相比混淆矩阵的大规模参数、导师网络的异构双网络、协同学习的同构双网络，本发明的方法计算量和显存占用量都很小，不需要大量的参数和额外的网络来辅助判断样本是否是噪音；

7本发明具有很好的鲁棒性。在不同数据集、不同基准神经网络、不同目标函数和不同噪音比上该方法的训练效果都很突出，所得模型比通用方法的准确率更高。

附图说明

图1是本发明实施例中三种策略的权值函数示意图。

图2是本发明实施例中三种策略的融合函数示意图。

图3是本发明实施例在CASIA-WebFace上40％噪音比的2D可视化训练过程示意图。

图4是本发明实施例在CASIA-WebFace上40％噪音比的3D可视化训练过程示意图。

具体实施方式

本发明提出一种基于总体余弦分布的人脸噪音数据集CNN训练方法，下面结合附图和具体实施例进一步详细说明如下。本发明所述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明提出一种基于总体余弦分布的人脸噪音数据集CNN训练方法，包括以下步骤：

1)选取包含噪音的人脸训练数据集记为D_all(所述人脸训练数据集包含人脸样本图片及每张图片对应的标签，可采用现成的人脸训练数据集，其中标签类别数不低于 1000个，每个类别的人脸样本图片数不低于10张)，构建一个基准的卷积神经网络主干记为N_base(本发明对卷积神经网络主干无特殊要求，VggNet、ResNet、InceptionNet 等都可以)，N_base的输入为D_all中的每张人脸样本图片和该图片对应的标签，N_base的输出为每张人脸样本图片对应的特征向量；

2)在卷积神经网络主干N_base的最后一层之后依次添加一个归一化的全连接层fc5(详细解释见步骤6))、一个余弦分布统计的Softmax层prob(详细解释见步骤7)-10))和一个普通的CrossEntropyLoss层loss，将补全后的卷积神经网络记做N_final，全连接层fc5 的结点数等于人脸训练数据集D_all的人脸类别标签数；

4)迭代次数T自加1，从数据集D_all中顺序轮流循环采样一个批次大小为M(通常取32、64、128、256等)的小批量样本集D^T _batch；

5)进入N^T _base网络，将D^T _batch中每张人脸样本图片x及该图片对应的标签下标y作为N^T _base的输入，通过前向传播算法得到N^T _base的输出v，v也就是人脸样本图片x的特征向量；

6)进入fc5层，将D^T _batch中每张人脸样本图片的特征向量v作为fc5层的输入，除了普通全连接层的功能外，fc5将v归一化，将自己的权值矩阵W按行归一化并去掉偏移项，W的行数为D_all的人脸类别标签数，列数为特征向量维度(一般是512)，每一行对应每个标签类中心的特征向量，fc5的输出为余弦向量cosθ，cosθ表示人脸样本图片x分别到每个标签类中心的余弦值构成的向量；

7)进入prob层，将D^T _batch中每张人脸样本图片的余弦向量cosθ作为prob层的输入，取cosθ的第y个值作为人脸样本图片x的余弦值cosθ_y，将cosθ_y加入Dist^T _cos并对更新后的Dist^T _cos进行判定：

若Dist^T _cos的尺寸小于等于S×M，则进入步骤8)；

若Dist^T _cos的尺寸大于S×M(其中S表示用于统计Dist^T _cos的小批量样本集数量， S是正整数)，则删除最早加入Dist^T _cos中的M个余弦值，然后进入步骤8)；

经实验发现：S越大，Dist^T _cos和D_all的余弦分布越接近，为优化计算速度，本发明将总体余弦分布近似用Dist^T _cos表示；通过Dist^T _cos的积分(累加)计算概率累积函数记做

(用于后续噪音比预测)；

9)针对D^T _batch中每张人脸样本图片x的余弦值cosθ_y(训练的难易度)分别设计三个策略并计算每张人脸样本图片x在每个策略中对应的权重，不同的策略分别强调训练前期、中期和后期每个样本的重要性：

策略1：同等对待所有人脸样本图片，设置每张人脸训练样本的对应权重为1，函数如下；

ω₁＝1

策略2：强调模型认为的简单/干净训练样本的训练，设置每张人脸样本图片的对应权重为基于总体余弦分布横轴左峰的Softplus函数，纵轴高点为1，函数如下；

其中，z＝(cosθ_y-μ_l)/(δ_r-μ_l)、λ是控制Softplus形状的超参数(一般大于1)；

策略3：强调模型认为的半困难/干净训练样本的训练，设置每张人脸样本图片的对应权重为基于总体余弦分布横轴右峰的Gausian函数，纵轴高点为1，函数如下；

其中，σ＝(δ_r-μ_r)/2.576；

10)将三种策略平滑地融合起来，Dist^T _cos右端点δ_r可以衡量训练集D_all的训练程度(总体余弦分布Dist^T _cos越往右模型收敛越好)，依据δ_r设计三种策略的融合函数，从而得到每张训练样本图片x对应的最终的训练权重ω；

ω＝αω₁+βω₂+γω₃

β＝1-α-γ

γ＝α(1-δ_r)

并通过prob层计算每张人脸样本图片x的概率向量p，p表示人脸样本图片x分别属于每个标签类别的概率值构成的向量；

11)进入loss层，将D^T _batch中每张人脸样本图片的概率向量p和ω作为loss层的输入，根据每张人脸样本图片x的训练权重ω，使用梯度下降算法学习卷积神经网络 N^T _final，并对迭代次数进行判定：

若当前迭代次数T未达到最大迭代次数T_max(T_max根据训练数据规模和经验设定，一般上万次)，则重新返回步骤4)，进行下一次迭代；

若当前迭代次数T达到最大迭代次数T_max(即T＝T_max)，则终止训练，输出训练完毕的卷积神经网络记为最终人脸识别模型N^T _final，并根据训练截止时的Dist^T _cos计算训练数据集的噪音比ε。

下面结合一个具体实施例对本发明进一步详细说明如下。

本实施例提出一种基于总体余弦分布的人脸噪音数据集CNN训练方法，包括以下步骤：

1)下载公开人脸训练数据集CASIA-WebFace，其人脸样本图片数是50W规模，类别标签数是10575，通过修改CASIA-WebFace中人脸样本图片对应的标签，按1:1的比例添加类内和类间噪音，使噪音比达到40％；构建一个基准的卷积神经网络主干记为ResNet20_base，ResNet20_base的输入为CASIA-WebFace中的人脸样本图片和该图片对应的标签，ResNet20_base的输出为每张人脸样本图片对应的特征向量记为v，每张人脸图片输出一个特征向量；

2)在卷积神经网络主干ResNet20_base的最后一层之后依次添加一个归一化的全连接层fc5(详细解释见步骤6)、一个余弦分布统计的Softmax层prob(详细解释见步骤7-10)和一个普通的CrossEntropyLoss层loss，将补全后的卷积神经网络记做ResNet20_final，全连接层fc5的结点数等于人脸训练数据集CASIA-WebFace的人脸类别标签数10575；

表1是本发明实施例的ResNet20_final网络结构参数表，本发明可使用但不限于这个网络，其中conv1.x、conv2.x、conv3.x、conv4.x表示包含多个卷积的残差单元，C64、C128、C256、C512表示卷积层的通道数，S2表示卷积层的步长为2(默认为1)，Full Connection_our表示归一化的全连接层，Softmax_our表示余弦分布统计的Softmax层。

表1本发明实施例的ResNet20_final网络结构参数表

设置训练环境如下：使用Caffe深度学习框架在一块TITAN X显卡的X86架构机器上进行训练，初始学习因子设为0.1，并且在第8万次和第16万次迭代次数时将学习因子分别降为原来的0.1，设置总的训练迭代次数为20万次；

3)设置当前迭代次数T等于0，构建第T次迭代时的余弦分布Dist^T _cos并初始化为空,第T次迭代时的ResNet20_base和ResNet20_final分别记作ResNet20^T _base和ResNet20^T _final；

4)迭代次数T自加1，从数据集CASIA-WebFace中顺序轮流循环采样一个批次大小为64的小批量样本集D^T _batch；

5)进入ResNet20^T _base网络，将D^T _batch中每个人脸样本图片x及样本标签下标y作为卷积神经网络ResNet20^T _base的输入，通过前向传播算法得到ResNet20^T _base的输出v，v也就是人脸样本图片x的特征向量；

6)进入fc5层，将D^T _batch中每张人脸样本图片的特征向量v作为fc5层的输入，除了普通全连接层的功能外，fc5将v归一化，将自己的权值矩阵W按行归一化并去掉偏移项，W的行数为10575，列数为512，每一行对应每个标签类中心的特征向量，fc5的输出为余弦向量cosθ，cosθ表示人脸样本图片x分别到每个标签类中心的余弦值构成的向量；

若Dist^T _cos的尺寸小于等于1000×64，则进入步骤8)；

若Dist^T _cos的尺寸大于1000×64，则删除最早加入Dist^T _cos中的64个余弦值，然后进入步骤8)；

为优化计算速度，本发明将总体余弦分布近似用Dist^T _cos表示；通过Dist^T _cos的积分(累加)计算概率累积函数记做

(用于后续噪音比预测)；

9)针对D^T _batch中每张人脸样本图片x的余弦值cosθ_y(训练的难易度)分别设计三个策略并计算每个人脸样本图片x在每个策略中对应的权重，不同的策略分别强调训练前期、中期和后期每个样本的重要性,图1是本发明实施例三种策略的权值函数示意图，其中图1(a)、图1(b)、图1(c)分别对应策略1、2、3：

ω₁＝1

其中，z＝(cosθ_y-μ_l)/(δ_r-μ_l)

其中，σ＝(δ_r-μ_r)/2.576

10)将三种策略平滑地融合起来，Dist^T _cos右端点δ_r可以衡量训练集CASIA-WebFace的训练程度(总体余弦分布Dist^T _cos越往右模型收敛越好)，依据δ_r设计三种策略的融合函数，从而得到每个训练样本x最终的训练权重ω，图2是本发明实施例三种策略的融合函数示意图，其中图2(a)是融合函数、图2(b)是训练较早阶段的示例、图 2(c)是训练较晚阶段的示例；

ω＝αω₁+βω₂+γω₃

β＝1-α-γ

γ＝α(1-δ_r)

并通过prob层计算每张人脸样本图片x的概率向量p，p表示人脸样本图片x分别属于每个标签类的概率值构成的向量；

11)进入loss层，将D^T _batch中每张人脸样本图片的概率向量p和ω作为loss层的输入，根据每张人脸样本图片x的训练权重ω，使用梯度下降算法学习卷积神经网络ResNet20^T _final，并对迭代次数进行判定：

若当前迭代次数T未达到最大迭代次数20万，记做20W，则重新返回步骤4)，进行下一次迭代；

若当前迭代次数T达到最大迭代次数20W(即T＝20W)，则终止训练，输出训练完毕的卷积神经网络记为最终人脸识别模型ResNet20^20W _final，并根据训练截止时的Dist^20W _all计算训练数据集的噪音比ε；

图3和图4分别展示了在CASIA-WebFace上40％噪音比的2D/3D可视化训练过程，图3(a)和图4(a)是标准卷积神经网络的方法，图3(b)和图4(b)是本发明的方法，可以看出本发明的方法对人脸噪音数据集的训练有着非常鲁棒的效果。

Claims

1.一种基于总体余弦分布的人脸噪音数据集CNN训练方法，其特征在于，包括以下步骤：

6)在fc5层，将D^T _batch中每张人脸样本图片的特征向量v作为fc5层的输入，fc5将v归一化，将fc5的权值矩阵W按行归一化并去掉偏移项，W的行数为D_all的人脸类别标签数，列数为特征向量维度，每一行对应每个标签类中心的特征向量，fc5的输出为x对应的余弦向量cosθ，cosθ表示人脸样本图片x分别到每个标签类中心的余弦值构成的向量；

若Dist^T _cos的尺寸小于等于S×M，则进入步骤8)；

其中S表示用于统计Dist^T _cos的小批量样本集数量；

策略1：设置每张人脸训练样本的对应权重为1，函数如下；

ω₁＝1

其中，σ＝(δ_r-μ_r)/2.576；

ω＝αω₁+βω₂+γω₃

β＝1-α-γ

γ＝α(1-δ_r)

2.如权利要求1所述的方法，其特征在于，所述步骤9)还包括，终止训练时，根据训练截止时的Dist^T _all计算训练数据集的噪音比ε：

其中，

为Dist^T _cos的积分计算概率累积函数。