CN107679501B

CN107679501B - 一种基于标签自提纯的深度学习方法

Info

Publication number: CN107679501B
Application number: CN201710947264.1A
Authority: CN
Inventors: 马文亚; 刘昕; 袁基睿; 朱鹏飞; 山世光
Original assignee: Seetatech Beijing Technology Co ltd
Current assignee: Seetatech Beijing Technology Co ltd
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2021-04-30
Anticipated expiration: 2037-10-12
Also published as: CN107679501A

Abstract

本发明公开了一种基于标签自提纯的深度学习方法，其整体步骤为：构建大规模的带有标签噪声的真实条件下的人脸数据集；使用小规模的干净数据集训练深度神经网络得到深度人脸识别模型；使用训练得到的深度人脸识别模型对数据集进行提取特征操作；利用提纯算法迭代地对数据集进行提纯操作；根据提纯后的数据集的测试结果获得最终的提纯后的研究用数据集。本发明可以利用大规模带有标签噪声的人脸数据集，进而利用无监督的提纯方法迭代地进行数据的自提纯，然后将提纯后的数据用于构建大规模的数据集，从而在构建了一个大规模数据集的基础上可以训练得到具有理想精度的深度人脸识别模型进行相关的任务或应用。

Description

一种基于标签自提纯的深度学习方法

技术领域

本发明涉及一种学习方法，尤其涉及一种基于标签自提纯的深度学习方法。

背景技术

基于卷积神经网络的深度人脸识别方法已经成为人脸识别领域的最有效的方法。但是这种方法严重依赖于大规模且标签精确的人脸数据集，而大规模的干净数据是很难获取的；同时，带有标签噪声的大规模数据集是比较方便获取的，但是直接使用这种带有标签噪声的数据进行模型的训练并不能得到性能满意的深度模型。因此，如何有效利用大规模的标签噪声数据进行模型的训练是一个亟待解决的问题。

目前，基于深度学习的标签噪声数据学习方法主要有：

1)标签噪声鲁棒算法：设计新型损失函数来对标签噪声数据进行直接训练，从而直接利用大规模标签噪声数据训练相关模型。该方法仍然会受到标签噪声数据的影响，并且这种方法只是在防止噪声标签过拟合时作用明显，另外当标签噪声数据在整个训练集中所占比例较高时，算法的性能并不能达到理想要求。

2)基于半监督的标签传播算法：利用正确的标签去分类未标注或者标注错误的样本以此来进行标签噪声样本的处理，进而将处理后的数据进行模型的训练。但是这种方法在实际应用中需要计算成对样本间的距离，因为算法具有平方复杂度所以无法将其用于处理大规模数据；同时这种方法前期需要人工的标注或者挑选，需要耗费一定的时间等资源，不具有快捷性和自动性。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种基于标签自提纯的深度学习方法。

为了解决以上技术问题，本发明采用的技术方案是：一种基于标签自提纯的深度学习方法，其整体步骤为：

步骤一、构建大规模的带有标签噪声的真实条件下的人脸数据集；

步骤二、使用小规模的干净数据集训练深度神经网络得到深度人脸识别模型；

步骤三、使用训练得到的深度人脸识别模型对数据集进行提取特征操作；

步骤四、利用提纯算法迭代地对数据集进行提纯操作；

步骤五、根据提纯后的数据集的测试结果获得最终的提纯后的研究用数据集。

进一步的，步骤一中构建人脸数据集的方法至少包括以下一种：

Ⅰ、使用爬取手段直接从互联网上爬取数据；

Ⅱ、利用相机或者其他拍摄设备获取数据；

Ⅲ、使用上述两个方法直接或者间接获取数据。

进一步的，步骤二中得到深度人脸识别模型的具体方法为：

a、对小规模的具有精确标签的人脸数据集进行五点对齐预处理，并且要保证数据的规模；

b、使用深度卷积神经网络进行模型的训练；

c、将训练得到的深度人脸识别模型在一些经典测试集上进行测试，观察测试所得正确率。

进一步的，步骤三中对数据集进行提取特征操作的具体方法为：

a、通过深度学习平台或另外实现的方式提供提取特征时的前向算法；

b、对完整的数据集进行标准的五点对齐预处理；

c、提取完整的人脸数据集的深度特征；

d、将提取到的深度特征按类别进行分类。

进一步的，步骤四中利用提纯算法迭代地对数据集进行提纯操作的具体方法为：

a、使用提纯算法利用数据集的深度特征对数据集进行提纯操作；

b、利用提纯后的数据集使用深度卷积神经网络训练模型；

c、对提纯后的数据集再次提取深度特征，进行再次提纯；

d、对数据集进行迭代提纯直到提纯后的数据集足够干净，以训练出精度高的深度模型。

进一步的，步骤五中获得最终的提纯后的研究用数据集的具体方法为：

a、对于每次的提纯后的数据集进行测试；

b、选取模型性能最高的对应的提纯结果为最终的数据集；

c、最终提纯后的数据集适用于人脸研究工作。

本发明将深度学习技术与数据提纯方法配合使用，形成了标签自提纯的深度学习方法。该方法利用深度模型提取大规模标签噪声数据集的深度特征，进而利用单类分类算法进行数据的迭代式的自提纯，可以明显降低提纯后数据中标签噪声数据所占的比例，使提纯后的数据集训练出的模型性能极大的提升，从而满足实际应用或研究需要。

本发明相比其他方法实现了大规模标签噪声数据集的提纯，可以获得较为纯净的大规模数据集进行相关的实验研究。该方法自动的实现数据提纯，不需要人工配合，同时该方法的计算复杂度远小于半监督策略，并且利用提纯后的数据集训练的深度模型的性能相比标签噪声鲁棒算法精度更高。本发明可以应用于人脸识别、物体识别等多个领域。

附图说明

图1为本发明的详细流程图。

图2为本发明的简略流程图。

图3为本发明的迭代提纯模块流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1-3所示，本发明的具体步骤为：

(1)数据准备阶段

首先寻找小规模的标签精确的人脸数据集CASIA-WebFace和大规模的标签噪声人脸数据集MS-Celeb-1M(相关文献中已公示)，然后对数据集中的所有人脸图像进行5点位置的对齐，将人脸图像归一化为256*256像素。

(2)深度模型的训练

利用预处理后的小规模的标签精确的人脸数据集CASIA-WebFace，使用深度神经网络VIPLFaceNet进行模型的训练，总的迭代次数是120000，bach_size设置为128，基础学习率为0.06，学习率依多项式形式下降，训练得到一个精度足够高的深度模型，记为Model_pre。

(3)深度特征提取

利用训练得到的深度模型Model_pre对带有大比例标签噪声的大规模人脸数据集MS-Celeb-1M进行深度特征的提取，深度特征维度为2048，并将提取后的特征按类别进行划分，方便后续数据提纯。

(4)数据自提纯

利用无监督的单类分类算法对深度特征进行无监督单类分类提纯操作，该算法联合学习了标签噪声人脸数据集中样本的类别标签和基于最大间隔准则的单类分类。可以对标签噪声数据进行有效提纯，获得较为干净的大规模人脸数据集。记录提纯后的数据集中间结果。

提纯算法原理：

对于标签噪声数据集

目标是找到一个类似于OC-SVM的分类函数

借助一个核函数

来优化再生核希尔伯特空间，最终的目标分类函数就变成了：

其中，α_i是基于κ(·,x_i)的扩张系数。同时对于输入数据

定义标签

c⁺是一个正值，分配给类内干净数据，c^-是一个负值，分配给类内标签噪声样本。那么y＝[y₁,…,y_n]^T是Y的向量表示形式。

模型的目标是最小化下面的公式二：

其中γ₁,γ₂＞0是控制模型的两个参数。

是流形正则化。为了构建

使用相邻图G，其亲和力矩阵的定义为：

D(,)是

上的距离，

集合包含了

中x_i的k个最近邻的索引。然后定义对角矩阵D，其对角线元素

计算拉普拉斯矩阵L＝D-W[2]。可得流形正则化等式可写作：

向量

是公式一中函数f的实现形式。为了方便表示，定义系数向量

核矩阵

向量化的核映射

那么目标函数f可以写作f(x)＝κ(x)和f(x)＝Kα。

公式二中最后一部分

是为了最大化正样本间的平均间隔。因为缺少精确标签，所以本方法采用了平均间隔而不是像SVM或者OC-SVM那样考虑独立的间隔。最大化正样本间的平均间隔的策略是为了抑制负样本引起的偏差影响。为了防止无边界优化，通过||α||＝1来限制

的范围。因此，sup{f(x)|1≤i≤n}＝max_1≤i≤n‖k(x_i)‖。

结合公式四并且忽略常量||y||²，可以把公式二重写为：

||a||₊代表向量||a||中正样本的数量。分配的新标签向量

和y的标签类型一样。函数Q是一个凸函数，可行解不是一个凸集，所以公式五需要对不同的部分分别优化。不同于其他的噪声清洗和单类学习方法，该模型没有过度强调正样本和负样本。此方法公平的处理正样本和负样本，通过标签(c⁺,c_-)来优化标签分配

从而互相对比进行分类。

(5)中间结果测试

中间结果即使用提纯算法提纯后的数据集，将提纯后的数据集作为训练集，利用深度神经网络进行模型的训练，并将训练得到的模型Model_i在测试集LFW上进行测试，记录模型精度。

(6)重复步骤(3)至步骤(5)的操作，直到中间结果的模型精度不再提升，最终模型精度最高的中间结果即为提纯结果。

(7)得到提纯后的数据集MS和相对应的深度模型Model_final。

(8)标签自提纯算法结束，提纯后的数据集可用于相关任务。

本发明所使用的算法伪代码如表1所示：

表1

本发明采用的实验数据集如表2所示：

表2

模型精度是结果比较如表3所示：

表3

训练集	LFW十折平均精度
		MS-Celeb-1M	99.25％
MS	99.40％

本发明具有以下三个关键创造点：

一、利用深度模型提取图片深度特征；1)首先利用小规模的标签精确的人脸数据集训练深度神经网络，得到合适的深度人脸识别模型；2)利用训练好的深度模型对大规模标签噪声人脸数据集进行提取深度特征。技术效果：深度模型具有很理想的性能，深度特征相比人工特征能更好的表示人脸图像的特征。

二、利用单类分类算法对标签噪声数据进行无监督自动提纯，算法可以对数据集的每个类别进行单类分类以达到数据提纯目的；技术效果：利用提取的深度特征进行无监督单类分类，实现自动的标签噪声数据的提纯，标签噪声数据比例明显降低；

三、迭代提纯策略；1)将提纯后的数据集利用深度神经网络进行模型的训练，并在测试集上进行性能测试；2)假如模型性能有提升，则将提纯后的数据集作为待提纯的数据再次进行提纯操作，如此进行迭代提纯；技术效果：该策略对大规模标签噪声人脸数据进行迭代的提纯，使得标签噪声可以很好的被清除，实现标签噪声数据的提纯。

本发明与现有技术相比，其有益效果为：

(1)通过使用小规模的具有精确标签的干净数据集训练深度模型，方便获取更具有表示能力的待提纯数据集的深度特征，深度特征可以用于计算图片相似度等，方便数据提纯；

(2)使用无监督的单类分类算法对带有标签噪声的大规模人脸数据集进行提纯操作，这种标签自提纯的方法不需要人工标注等操作，而且简单快速，可以有效清除标签噪声数据，构建大规模的可以实际应用的数据集；

(3)通过使用迭代提纯的方法，不断对数据集进行提纯操作，保证提纯后的数据集尽可能的干净，标签噪声数据的比例尽可能的少，迭代式的提纯策略保证了比起标签自提纯的深度学习方法的有效性和高效性。

综上所述，本发明可以有效利用大规模带有标签噪声的人脸数据集，利用无监督的提纯方法迭代地进行数据的自提纯，然后将提纯后的数据用于构建大规模的数据集，此数据集可用于模型的训练或者其他方面的研究工作，从而在构建了一个大规模数据集的基础上可以训练得到具有理想精度的深度人脸识别模型进行相关的任务或应用。

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种基于标签自提纯的深度学习方法，其特征在于：所述方法的整体步骤为：

步骤二、使用小规模的干净数据集训练深度神经网络得到深度人脸识别模型；其中，小规模的干净数据集为人脸数据集CASIA-WebFace；

得到深度人脸识别模型的具体方法为：

b、使用深度卷积神经网络进行模型的训练；

c、将训练得到的深度人脸识别模型在一些经典测试集上进行测试，观察测试所得正确率；

对数据集进行提取特征操作的具体方法为：

b、对完整的数据集进行标准的五点对齐预处理；

c、提取完整的人脸数据集的深度特征；

d、将提取到的深度特征按类别进行分类；

步骤四、利用提纯算法迭代地对数据集进行提纯操作；

利用提纯算法迭代地对数据集进行提纯操作的具体方法为：