CN110245550B - 一种基于总体余弦分布的人脸噪音数据集cnn训练方法 - Google Patents

一种基于总体余弦分布的人脸噪音数据集cnn训练方法 Download PDF

Info

Publication number
CN110245550B
CN110245550B CN201910324202.4A CN201910324202A CN110245550B CN 110245550 B CN110245550 B CN 110245550B CN 201910324202 A CN201910324202 A CN 201910324202A CN 110245550 B CN110245550 B CN 110245550B
Authority
CN
China
Prior art keywords
training
cos
face
data set
cosine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910324202.4A
Other languages
English (en)
Other versions
CN110245550A (zh
Inventor
黄杨昱
胡伟
袁国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunshitu Information Technology Co ltd
Original Assignee
Beijing Yunshitu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunshitu Information Technology Co ltd filed Critical Beijing Yunshitu Information Technology Co ltd
Priority to CN201910324202.4A priority Critical patent/CN110245550B/zh
Publication of CN110245550A publication Critical patent/CN110245550A/zh
Application granted granted Critical
Publication of CN110245550B publication Critical patent/CN110245550B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于总体余弦分布的人脸噪音数据集CNN训练方法,属于图像识别领域。该方法首先选取包含噪音的人脸训练数据集并构建一个基准的卷积神经网络主干;对卷积神经网络主干添加层次,得到更新后的卷积神经网络;从人脸训练数据集中依次获取小批量样本集,将小批量样本集的每张人脸图片样本输入更新后的网络,得到对应的余弦值并加入余弦分布;通过设计三种策略及融合函数对每个余弦值计算对应的训练权重,使用梯度下降算法学习更新后的网络,当迭代次数到达上限时,训练终止。该方法具有良好的鲁棒性,在不需要先验知识的情况下,能快速高效地训练包含噪音的人脸训练数据集。

Description

一种基于总体余弦分布的人脸噪音数据集CNN训练方法
技术领域
本发明涉及图像识别领域。特别涉及一种基于总体余弦分布的人脸噪音数据集CNN训练方法。
背景技术
近几年,深度学习技术不管在算法还是在硬件层面都取得了突飞猛进的发展,而它所依赖的数据规模也越来越庞大,以人脸识别为例,训练人脸识别的卷积神经网络 CNN需要大规模的训练数据集,这些训练数据集虽然大多会通过人工或机器进行数据清洗和过滤,但仍然存在一定比例的噪音。人脸训练数据是指包含人脸样本图片及其对应的标签,人脸噪音数据是指人脸样本图片被标记的标签并不是其真实的标签。 IMDB-Face方法中提到微软的MS-Celeb-1M训练数据集包含近50%的噪音数据,而直接在包含噪音的数据集上训练得到的深度模型在实际应用场景中效果很差。因此如何有效地在噪音数据集上进行模型训练变得意义重大。
目前处理人脸噪音数据集有两类方法,IMDB-Face中通过人工过滤的方式对人脸数据集做清洗,50个标注人员花了一个月的时间清洗并筛选出170万规模的数据集,通过训练清洗后的训练数据集在公开数据集上得到了不错的效果,然而其人工开销是巨大的,这类任务在现实世界中数不胜数,如果都这么处理将会是对社会资源的一种浪费;另一类方法是借助于通用噪音数据集的训练方法去训练人脸噪音数据集,这类方法能自动地从数据集中获取有效信息,判断哪些样本是干净样本哪些是噪音样本,一定程度上节约了人力成本,但毕竟它们不是专门针对人脸训练数据集的处理方法,效果不是很理想,主要有如下几个有代表性的工作:
1)标签混淆矩阵方法
该方法主要通过人工总结的先验知识或者模型学习的不同类别的混淆概率来构建类与类之间的概率混淆矩阵(转换矩阵)。对于每个类训练样本充足,总的训练类别数较少的情况效果尚可接受,但由于方法本身的局限性,存在一些缺陷:
1.1)数据类别数多时(譬如上万个类别),混淆矩阵参数规模巨大,空间复杂度高;
1.2)基于人工估计的方法需要一些具备领域背景的专家根据多年的经验推算混淆矩阵,成本高、周期长、不能标准化通用化;
1.3)该方法对于数据类别不均衡的情况,长尾类别之间的混淆概率估计不准;
1.4)在一些测试集上,该方法的准确率普遍较低;
2)导师网络方法
该方法是异构双卷积神经网络的训练方法,包含导师网络和学生网络,导师网络通过当前小批量样本集的损失值、损失均值、类别标签和训练进度等信息作为特征使用简单的长短记忆项层和全连接层构成网络结构来判断哪些样本是干净样本哪些是噪音样本,学生网络根据导师网络提供的信息选择性地进行训练样本的通用类别标签学习,简单来说就是导师网络告诉学生网络去学习哪些训练样本。若干实验已验证了该方法的有效性,但也有一些不足:
2.1)由于是双网络结构,该方法计算结构复杂,相比一般方法需要更多的显存空间;
2.2)对超参数的依赖严重,并且训练过程收敛比较困难;
2.3)对于对称型类内噪音,识别效果比较差;
3)协同学习方法
该方法通过同构双卷积神经网络独立初始化和学习,在每个小批量样本集中相互交换各自的损失值信息,根据样本的损失值进行排序,基于动态的噪音比和小损失策略引导对方学习各自认为正确的样本,其中动态噪音比使用平滑递增策略,随着迭代次数的变化而从0开始逐渐提升最终恒定在先验噪音比。协同学习目前取得了通用物体识别的噪音数据集训练的当前最佳效果,仍然存在几个问题:
3.1)该方法需要预先给定数据集的噪音比,通常这个先验知识很难获取,因而限定了它的使用场景;
3.2)由于单个小批量样本集的损失值波动较大,基于单个小批量样本集的小损失去过滤噪音数据并不是很精准;
3.3)该方法需要同构的双网络结构,显存占用和计算消耗基本是一般网络的两倍,对于显存受限的大网络不是很实用;
3.4)并没有实验结果验证它能很好地应用于训练噪音数据集的人脸识别领域;
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种基于总体余弦分布的人脸噪音数据集CNN训练方法。该方法具有良好的鲁棒性,在不需要先验知识(如噪音比、人工经验等)的情况下,能使用深度卷积神经网络快速高效地训练包含噪音的人脸训练数据集,经过训练方法得到的模型在人脸图片上表现出了更优的特征表征能力,并在一些测试集上取得了很好的效果。
本发明提出一种基于总体余弦分布的人脸噪音数据集CNN训练方法,其特征在于,包括以下步骤:
1)选取包含噪音的人脸训练数据集记为Dall,所述人脸训练数据集包含人脸样本图片及每张图片对应的标签;构建一个基准的卷积神经网络主干记为Nbase,Nbase的输入为Dall中的每张人脸样本图片和该图片对应的标签,Nbase的输出为每张人脸样本图片对应的特征向量;
2)在卷积神经网络主干Nbase的最后一层之后依次添加一个归一化的全连接层fc5、一个余弦分布统计的Softmax层prob和一个CrossEntropyLoss层loss,将更新后的卷积神经网络记做Nfinal,所述全连接层fc5的结点数等于人脸训练数据集Dall的人脸类别标签数;
3)设置当前迭代次数T等于0,构建第T次迭代时的余弦分布DistT cos并初始化为空,第T次迭代时的Nbase和Nfinal分别记作NT base和NT final
4)迭代次数T自加1,从数据集Dall中顺序轮流循环采样一个批次大小为M的小批量样本集DT batch
5)将DT batch中每张人脸样本图片x及该图片对应的标签下标y作为NT base的输入,通过前向传播算法得到NT base的输出v作为人脸样本图片x的特征向量;
6)在fc5层,将DT batch中每张人脸样本图片的特征向量v作为fc5层的输入,fc5 将v归一化,将fc5的权值矩阵W按行归一化并去掉偏移项,W的行数为Dall的人脸类别标签数,列数为特征向量维度,每一行对应每个标签类中心的特征向量,fc5的输出为x 对应的余弦向量cosθ,cosθ表示人脸样本图片x分别到每个标签类中心的余弦值构成的向量;
7)在prob层,将DT batch中每张人脸样本图片的余弦向量cosθ作为prob层的输入,取cosθ的第y个值作为人脸样本图片x的余弦值cosθy,将cosθy加入DistT cos并对更新后的DistT cos进行判定:
若DistT cos的尺寸小于等于S×M,则进入步骤8);
若DistT cos的尺寸大于S×M,则删除最早加入DistT cos中的M个余弦值,然后进入步骤8);
其中S表示用于统计DistT cos的小批量样本集数量;
8)根据余弦分布DistT cos的形态分别找到该分布的左端点δl、右端点δr、左峰值μl、右峰值μr
9)针对DT batch中每张人脸样本图片x的余弦值cosθy分别设计三个策略并计算每张人脸样本图片x在每个策略中对应的权重:
策略1:设置每张人脸训练样本的对应权重为1,函数如下;
ω1=1
策略2:设置每张人脸样本图片的对应权重为基于总体余弦分布横轴左峰的Softplus函数,纵轴高点为1,函数如下;
Figure GDA0002961087780000041
其中,z=(cosθyl)/(δrl),λ是控制Softplus形状的超参数;
策略3:设置每张人脸样本图片的对应权重为基于总体余弦分布横轴右峰的Gausian函数,纵轴高点为1,函数如下;
Figure GDA0002961087780000042
其中,σ=(δrr)/2.576;
10)依据δr设计三种策略的融合函数,得到每张训练样本图片x对应的最终的训练权重ω;
ω=αω1+βω2+γω3
其中,α、β、γ分别对应策略1、2、3的权值,计算表达式如下:
Figure GDA0002961087780000043
β=1-α-γ
γ=α(1-δr)
通过prob层计算每张人脸样本图片x的概率向量p,p表示人脸样本图片x分别属于每个标签类别的概率值构成的向量;
11)在loss层,将DT batch中每张人脸样本图片的概率向量p和ω作为loss层的输入,根据每张人脸样本图片x的训练权重ω,使用梯度下降算法学习卷积神经网络NT final,并对迭代次数进行判定:
若当前迭代次数T未达到最大迭代次数Tmax,则重新返回步骤4),进行下一次迭代;
若当前迭代次数T达到最大迭代次数Tmax,则终止训练,输出训练完毕的卷积神经网络记为最终人脸识别模型NT final
本发明的特点及有益效果在于:
1本发明能处理大规模类别标签。由于本发明的训练数据集总体余弦分布使用的是人脸样本图片的特征向量到该样本图片标签类别中心的特征向量的余弦值作为统计变量,所以不会受到标签类别数量的影响;
2本发明能动态判断每个训练样本的难易程度。通过计算每张人脸样本图片对应余弦值在训练数据集总体余弦分布对应概率累计函数的函数值能判断样本的相对训练难易程度;
3本发明不需要任何先验知识(如噪音比、人工经验、验证集等)。基于总体分布的形态特征去分析样本是否是噪音数据,可以比较准确地动态估计训练集的整体噪音比;
4本发明是一种平滑的噪音数据训练方法。没有绝对地区分样本是否是噪音样本,通过赋予样本不同的训练权重(噪音或困难样本权重小)来着重训练干净数据;
5本发明舍弃训练困难样本比误训练噪音样本给模型带来的表征收益更大。在训练集总体余弦分布中,干净困难样本和噪音样本的余弦值分布很接近,很多困难样本在正常训练中很难收敛甚至不收敛,舍弃这些困难样本比误训练噪音样本对最终识别准确率造成的影响更小;
6本发明占用的计算资源和显存资源小。相比混淆矩阵的大规模参数、导师网络的异构双网络、协同学习的同构双网络,本发明的方法计算量和显存占用量都很小,不需要大量的参数和额外的网络来辅助判断样本是否是噪音;
7本发明具有很好的鲁棒性。在不同数据集、不同基准神经网络、不同目标函数和不同噪音比上该方法的训练效果都很突出,所得模型比通用方法的准确率更高。
附图说明
图1是本发明实施例中三种策略的权值函数示意图。
图2是本发明实施例中三种策略的融合函数示意图。
图3是本发明实施例在CASIA-WebFace上40%噪音比的2D可视化训练过程示意图。
图4是本发明实施例在CASIA-WebFace上40%噪音比的3D可视化训练过程示意图。
具体实施方式
本发明提出一种基于总体余弦分布的人脸噪音数据集CNN训练方法,下面结合附图和具体实施例进一步详细说明如下。本发明所述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明提出一种基于总体余弦分布的人脸噪音数据集CNN训练方法,包括以下步骤:
1)选取包含噪音的人脸训练数据集记为Dall(所述人脸训练数据集包含人脸样本图片及每张图片对应的标签,可采用现成的人脸训练数据集,其中标签类别数不低于 1000个,每个类别的人脸样本图片数不低于10张),构建一个基准的卷积神经网络主干记为Nbase(本发明对卷积神经网络主干无特殊要求,VggNet、ResNet、InceptionNet 等都可以),Nbase的输入为Dall中的每张人脸样本图片和该图片对应的标签,Nbase的输出为每张人脸样本图片对应的特征向量;
2)在卷积神经网络主干Nbase的最后一层之后依次添加一个归一化的全连接层fc5(详细解释见步骤6))、一个余弦分布统计的Softmax层prob(详细解释见步骤7)-10))和一个普通的CrossEntropyLoss层loss,将补全后的卷积神经网络记做Nfinal,全连接层fc5 的结点数等于人脸训练数据集Dall的人脸类别标签数;
3)设置当前迭代次数T等于0,构建第T次迭代时的余弦分布DistT cos并初始化为空,第T次迭代时的Nbase和Nfinal分别记作NT base和NT final
4)迭代次数T自加1,从数据集Dall中顺序轮流循环采样一个批次大小为M(通常取32、64、128、256等)的小批量样本集DT batch
5)进入NT base网络,将DT batch中每张人脸样本图片x及该图片对应的标签下标y作为NT base的输入,通过前向传播算法得到NT base的输出v,v也就是人脸样本图片x的特征向量;
6)进入fc5层,将DT batch中每张人脸样本图片的特征向量v作为fc5层的输入,除了普通全连接层的功能外,fc5将v归一化,将自己的权值矩阵W按行归一化并去掉偏移项,W的行数为Dall的人脸类别标签数,列数为特征向量维度(一般是512),每一行对应每个标签类中心的特征向量,fc5的输出为余弦向量cosθ,cosθ表示人脸样本图片x分别到每个标签类中心的余弦值构成的向量;
7)进入prob层,将DT batch中每张人脸样本图片的余弦向量cosθ作为prob层的输入,取cosθ的第y个值作为人脸样本图片x的余弦值cosθy,将cosθy加入DistT cos并对更新后的DistT cos进行判定:
若DistT cos的尺寸小于等于S×M,则进入步骤8);
若DistT cos的尺寸大于S×M(其中S表示用于统计DistT cos的小批量样本集数量, S是正整数),则删除最早加入DistT cos中的M个余弦值,然后进入步骤8);
经实验发现:S越大,DistT cos和Dall的余弦分布越接近,为优化计算速度,本发明将总体余弦分布近似用DistT cos表示;通过DistT cos的积分(累加)计算概率累积函数记做
Figure GDA0002961087780000061
(用于后续噪音比预测);
8)根据余弦分布DistT cos的形态分别找到该分布的左端点δl、右端点δr、左峰值μl、右峰值μr
9)针对DT batch中每张人脸样本图片x的余弦值cosθy(训练的难易度)分别设计三个策略并计算每张人脸样本图片x在每个策略中对应的权重,不同的策略分别强调训练前期、中期和后期每个样本的重要性:
策略1:同等对待所有人脸样本图片,设置每张人脸训练样本的对应权重为1,函数如下;
ω1=1
策略2:强调模型认为的简单/干净训练样本的训练,设置每张人脸样本图片的对应权重为基于总体余弦分布横轴左峰的Softplus函数,纵轴高点为1,函数如下;
Figure GDA0002961087780000071
其中,z=(cosθyl)/(δrl)、λ是控制Softplus形状的超参数(一般大于1);
策略3:强调模型认为的半困难/干净训练样本的训练,设置每张人脸样本图片的对应权重为基于总体余弦分布横轴右峰的Gausian函数,纵轴高点为1,函数如下;
Figure GDA0002961087780000072
其中,σ=(δrr)/2.576;
10)将三种策略平滑地融合起来,DistT cos右端点δr可以衡量训练集Dall的训练程度(总体余弦分布DistT cos越往右模型收敛越好),依据δr设计三种策略的融合函数,从而得到每张训练样本图片x对应的最终的训练权重ω;
ω=αω1+βω2+γω3
其中,α、β、γ分别对应策略1、2、3的权值,计算表达式如下:
Figure GDA0002961087780000073
β=1-α-γ
γ=α(1-δr)
并通过prob层计算每张人脸样本图片x的概率向量p,p表示人脸样本图片x分别属于每个标签类别的概率值构成的向量;
11)进入loss层,将DT batch中每张人脸样本图片的概率向量p和ω作为loss层的输入,根据每张人脸样本图片x的训练权重ω,使用梯度下降算法学习卷积神经网络 NT final,并对迭代次数进行判定:
若当前迭代次数T未达到最大迭代次数Tmax(Tmax根据训练数据规模和经验设定,一般上万次),则重新返回步骤4),进行下一次迭代;
若当前迭代次数T达到最大迭代次数Tmax(即T=Tmax),则终止训练,输出训练完毕的卷积神经网络记为最终人脸识别模型NT final,并根据训练截止时的DistT cos计算训练数据集的噪音比ε。
Figure GDA0002961087780000074
下面结合一个具体实施例对本发明进一步详细说明如下。
本实施例提出一种基于总体余弦分布的人脸噪音数据集CNN训练方法,包括以下步骤:
1)下载公开人脸训练数据集CASIA-WebFace,其人脸样本图片数是50W规模,类别标签数是10575,通过修改CASIA-WebFace中人脸样本图片对应的标签,按1:1的比例添加类内和类间噪音,使噪音比达到40%;构建一个基准的卷积神经网络主干记为ResNet20base,ResNet20base的输入为CASIA-WebFace中的人脸样本图片和该图片对应的标签,ResNet20base的输出为每张人脸样本图片对应的特征向量记为v,每张人脸图片输出一个特征向量;
2)在卷积神经网络主干ResNet20base的最后一层之后依次添加一个归一化的全连接层fc5(详细解释见步骤6)、一个余弦分布统计的Softmax层prob(详细解释见步骤7-10)和一个普通的CrossEntropyLoss层loss,将补全后的卷积神经网络记做ResNet20final,全连接层fc5的结点数等于人脸训练数据集CASIA-WebFace的人脸类别标签数10575;
表1是本发明实施例的ResNet20final网络结构参数表,本发明可使用但不限于这个网络,其中conv1.x、conv2.x、conv3.x、conv4.x表示包含多个卷积的残差单元,C64、C128、C256、C512表示卷积层的通道数,S2表示卷积层的步长为2(默认为1),Full Connectionour表示归一化的全连接层,Softmaxour表示余弦分布统计的Softmax层。
表1本发明实施例的ResNet20final网络结构参数表
Figure GDA0002961087780000081
设置训练环境如下:使用Caffe深度学习框架在一块TITAN X显卡的X86架构机器上进行训练,初始学习因子设为0.1,并且在第8万次和第16万次迭代次数时将学习因子分别降为原来的0.1,设置总的训练迭代次数为20万次;
3)设置当前迭代次数T等于0,构建第T次迭代时的余弦分布DistT cos并初始化为空,第T次迭代时的ResNet20base和ResNet20final分别记作ResNet20T base和ResNet20T final
4)迭代次数T自加1,从数据集CASIA-WebFace中顺序轮流循环采样一个批次大小为64的小批量样本集DT batch
5)进入ResNet20T base网络,将DT batch中每个人脸样本图片x及样本标签下标y作为卷积神经网络ResNet20T base的输入,通过前向传播算法得到ResNet20T base的输出v,v也就是人脸样本图片x的特征向量;
6)进入fc5层,将DT batch中每张人脸样本图片的特征向量v作为fc5层的输入,除了普通全连接层的功能外,fc5将v归一化,将自己的权值矩阵W按行归一化并去掉偏移项,W的行数为10575,列数为512,每一行对应每个标签类中心的特征向量,fc5的输出为余弦向量cosθ,cosθ表示人脸样本图片x分别到每个标签类中心的余弦值构成的向量;
7)进入prob层,将DT batch中每张人脸样本图片的余弦向量cosθ作为prob层的输入,取cosθ的第y个值作为人脸样本图片x的余弦值cosθy,将cosθy加入DistT cos并对更新后的DistT cos进行判定:
若DistT cos的尺寸小于等于1000×64,则进入步骤8);
若DistT cos的尺寸大于1000×64,则删除最早加入DistT cos中的64个余弦值,然后进入步骤8);
为优化计算速度,本发明将总体余弦分布近似用DistT cos表示;通过DistT cos的积分(累加)计算概率累积函数记做
Figure GDA0002961087780000091
(用于后续噪音比预测);
8)根据余弦分布DistT cos的形态分别找到该分布的左端点δl、右端点δr、左峰值μl、右峰值μr
9)针对DT batch中每张人脸样本图片x的余弦值cosθy(训练的难易度)分别设计三个策略并计算每个人脸样本图片x在每个策略中对应的权重,不同的策略分别强调训练前期、中期和后期每个样本的重要性,图1是本发明实施例三种策略的权值函数示意图,其中图1(a)、图1(b)、图1(c)分别对应策略1、2、3:
策略1:同等对待所有人脸样本图片,设置每张人脸训练样本的对应权重为1,函数如下;
ω1=1
策略2:强调模型认为的简单/干净训练样本的训练,设置每张人脸样本图片的对应权重为基于总体余弦分布横轴左峰的Softplus函数,纵轴高点为1,函数如下;
Figure GDA0002961087780000092
其中,z=(cosθyl)/(δrl)
策略3:强调模型认为的半困难/干净训练样本的训练,设置每张人脸样本图片的对应权重为基于总体余弦分布横轴右峰的Gausian函数,纵轴高点为1,函数如下;
Figure GDA0002961087780000101
其中,σ=(δrr)/2.576
10)将三种策略平滑地融合起来,DistT cos右端点δr可以衡量训练集CASIA-WebFace的训练程度(总体余弦分布DistT cos越往右模型收敛越好),依据δr设计三种策略的融合函数,从而得到每个训练样本x最终的训练权重ω,图2是本发明实施例三种策略的融合函数示意图,其中图2(a)是融合函数、图2(b)是训练较早阶段的示例、图 2(c)是训练较晚阶段的示例;
ω=αω1+βω2+γω3
其中,α、β、γ分别对应策略1、2、3的权值,计算表达式如下:
Figure GDA0002961087780000102
β=1-α-γ
γ=α(1-δr)
并通过prob层计算每张人脸样本图片x的概率向量p,p表示人脸样本图片x分别属于每个标签类的概率值构成的向量;
11)进入loss层,将DT batch中每张人脸样本图片的概率向量p和ω作为loss层的输入,根据每张人脸样本图片x的训练权重ω,使用梯度下降算法学习卷积神经网络ResNet20T final,并对迭代次数进行判定:
若当前迭代次数T未达到最大迭代次数20万,记做20W,则重新返回步骤4),进行下一次迭代;
若当前迭代次数T达到最大迭代次数20W(即T=20W),则终止训练,输出训练完毕的卷积神经网络记为最终人脸识别模型ResNet2020W final,并根据训练截止时的Dist20W all计算训练数据集的噪音比ε;
Figure GDA0002961087780000103
图3和图4分别展示了在CASIA-WebFace上40%噪音比的2D/3D可视化训练过程,图3(a)和图4(a)是标准卷积神经网络的方法,图3(b)和图4(b)是本发明的方法,可以看出本发明的方法对人脸噪音数据集的训练有着非常鲁棒的效果。

Claims (2)

1.一种基于总体余弦分布的人脸噪音数据集CNN训练方法,其特征在于,包括以下步骤:
1)选取包含噪音的人脸训练数据集记为Dall,所述人脸训练数据集包含人脸样本图片及每张图片对应的标签;构建一个基准的卷积神经网络主干记为Nbase,Nbase的输入为Dall中的每张人脸样本图片和该图片对应的标签,Nbase的输出为每张人脸样本图片对应的特征向量;
2)在卷积神经网络主干Nbase的最后一层之后依次添加一个归一化的全连接层fc5、一个余弦分布统计的Softmax层prob和一个CrossEntropyLoss层loss,将更新后的卷积神经网络记做Nfinal,所述全连接层fc5的结点数等于人脸训练数据集Dall的人脸类别标签数;
3)设置当前迭代次数T等于0,构建第T次迭代时的余弦分布DistT cos并初始化为空,第T次迭代时的Nbase和Nfinal分别记作NT base和NT final
4)迭代次数T自加1,从数据集Dall中顺序轮流循环采样一个批次大小为M的小批量样本集DT batch
5)将DT batch中每张人脸样本图片x及该图片对应的标签下标y作为NT base的输入,通过前向传播算法得到NT base的输出v作为人脸样本图片x的特征向量;
6)在fc5层,将DT batch中每张人脸样本图片的特征向量v作为fc5层的输入,fc5将v归一化,将fc5的权值矩阵W按行归一化并去掉偏移项,W的行数为Dall的人脸类别标签数,列数为特征向量维度,每一行对应每个标签类中心的特征向量,fc5的输出为x对应的余弦向量cosθ,cosθ表示人脸样本图片x分别到每个标签类中心的余弦值构成的向量;
7)在prob层,将DT batch中每张人脸样本图片的余弦向量cosθ作为prob层的输入,取cosθ的第y个值作为人脸样本图片x的余弦值cosθy,将cosθy加入DistT cos并对更新后的DistT cos进行判定:
若DistT cos的尺寸小于等于S×M,则进入步骤8);
若DistT cos的尺寸大于S×M,则删除最早加入DistT cos中的M个余弦值,然后进入步骤8);
其中S表示用于统计DistT cos的小批量样本集数量;
8)根据余弦分布DistT cos的形态分别找到该分布的左端点δl、右端点δr、左峰值μl、右峰值μr
9)针对DT batch中每张人脸样本图片x的余弦值cosθy分别设计三个策略并计算每张人脸样本图片x在每个策略中对应的权重:
策略1:设置每张人脸训练样本的对应权重为1,函数如下;
ω1=1
策略2:设置每张人脸样本图片的对应权重为基于总体余弦分布横轴左峰的Softplus函数,纵轴高点为1,函数如下;
Figure FDA0002961087770000021
其中,z=(cosθyl)/(δrl),λ是控制Softplus形状的超参数;
策略3:设置每张人脸样本图片的对应权重为基于总体余弦分布横轴右峰的Gausian函数,纵轴高点为1,函数如下;
Figure FDA0002961087770000022
其中,σ=(δrr)/2.576;
10)依据δr设计三种策略的融合函数,得到每张训练样本图片x对应的最终的训练权重ω;
ω=αω1+βω2+γω3
其中,α、β、γ分别对应策略1、2、3的权值,计算表达式如下:
Figure FDA0002961087770000023
β=1-α-γ
γ=α(1-δr)
通过prob层计算每张人脸样本图片x的概率向量p,p表示人脸样本图片x分别属于每个标签类别的概率值构成的向量;
11)在loss层,将DT batch中每张人脸样本图片的概率向量p和ω作为loss层的输入,根据每张人脸样本图片x的训练权重ω,使用梯度下降算法学习卷积神经网络NT final,并对迭代次数进行判定:
若当前迭代次数T未达到最大迭代次数Tmax,则重新返回步骤4),进行下一次迭代;
若当前迭代次数T达到最大迭代次数Tmax,则终止训练,输出训练完毕的卷积神经网络记为最终人脸识别模型NT final
2.如权利要求1所述的方法,其特征在于,所述步骤9)还包括,终止训练时,根据训练截止时的DistT all计算训练数据集的噪音比ε:
Figure FDA0002961087770000024
其中,
Figure FDA0002961087770000025
为DistT cos的积分计算概率累积函数。
CN201910324202.4A 2019-04-22 2019-04-22 一种基于总体余弦分布的人脸噪音数据集cnn训练方法 Expired - Fee Related CN110245550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910324202.4A CN110245550B (zh) 2019-04-22 2019-04-22 一种基于总体余弦分布的人脸噪音数据集cnn训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910324202.4A CN110245550B (zh) 2019-04-22 2019-04-22 一种基于总体余弦分布的人脸噪音数据集cnn训练方法

Publications (2)

Publication Number Publication Date
CN110245550A CN110245550A (zh) 2019-09-17
CN110245550B true CN110245550B (zh) 2021-05-11

Family

ID=67883310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910324202.4A Expired - Fee Related CN110245550B (zh) 2019-04-22 2019-04-22 一种基于总体余弦分布的人脸噪音数据集cnn训练方法

Country Status (1)

Country Link
CN (1) CN110245550B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879985B (zh) * 2019-11-18 2022-11-11 西南交通大学 一种抗噪声数据的人脸识别模型训练方法
CN111126347B (zh) * 2020-01-06 2024-02-20 腾讯科技(深圳)有限公司 人眼状态识别方法、装置、终端及可读存储介质
CN111507188A (zh) * 2020-03-16 2020-08-07 平安科技(深圳)有限公司 人脸识别模型训练方法、装置、计算机设备及存储介质
CN113780084B (zh) * 2021-08-11 2024-05-31 上海藤核智能科技有限公司 基于生成式对抗网络的人脸数据扩增方法、电子设备和存储介质
CN113505120B (zh) * 2021-09-10 2021-12-21 西南交通大学 一种大规模人脸数据集的双阶段噪声清洗方法
CN115511753B (zh) * 2022-11-09 2023-03-31 南京码极客科技有限公司 一种基于动态样本选择的网络图像标签去噪方法
CN117274682A (zh) * 2023-09-14 2023-12-22 电子科技大学 一种基于异步co-teaching的含标签噪声数据分类方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472858A (zh) * 2017-09-06 2019-03-15 辉达公司 用于逆向图形的可微分渲染管线

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2016206432B2 (en) * 2015-01-14 2021-07-08 Technological Resources Pty. Limited Hyperspectral imager method and apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472858A (zh) * 2017-09-06 2019-03-15 辉达公司 用于逆向图形的可微分渲染管线

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Noise-Tolerant Paradigm for Training Face Recognition CNNs;Wei Hu et al.;《https://arxiv.org/abs/1903.10357》;20190327;第1-10页 *
大规模亚洲人脸数据集的构建;王鸿严;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415;第2018年卷(第4期);第I138-3214页 *

Also Published As

Publication number Publication date
CN110245550A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN110245550B (zh) 一种基于总体余弦分布的人脸噪音数据集cnn训练方法
CN107392255B (zh) 少数类图片样本的生成方法、装置、计算设备及存储介质
CN108229381B (zh) 人脸图像生成方法、装置、存储介质和计算机设备
CN108399428B (zh) 一种基于迹比准则的三元组损失函数设计方法
CN110427799B (zh) 基于生成对抗网络的人手深度图像数据增强方法
CN109598220B (zh) 一种基于多元输入多尺度卷积的人数统计方法
CN114782694B (zh) 无监督异常检测方法、系统、设备及存储介质
WO2023284465A1 (zh) 图像检测方法、装置、计算机可读存储介质及计算机设备
CN112036288A (zh) 基于跨连接多特征融合卷积神经网络的面部表情识别方法
WO2023207389A1 (zh) 数据处理方法、装置、程序产品、计算机设备和介质
CN110110845B (zh) 一种基于并行多级宽度神经网络的学习方法
CN113807340B (zh) 一种基于注意力机制的不规则自然场景文本识别方法
CN112784929A (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN111401219A (zh) 一种手掌关键点检测方法和装置
CN112950480A (zh) 一种融合多感受野和密集残差注意的超分辨率重建方法
CN113743474A (zh) 基于协同半监督卷积神经网络的数字图片分类方法与系统
CN110728666A (zh) 基于数字病理玻片进行慢性鼻窦炎的分型方法及其系统
CN110688484A (zh) 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法
CN110738239A (zh) 一种基于鼠标交互序列区域行为联合建模的搜索引擎用户满意度评估方法
CN111160170B (zh) 一种自学习的人体行为识别与异常检测方法
CN116486150A (zh) 一种基于不确定性感知的图像分类模型回归误差消减方法
CN112116072A (zh) 一种量化神经网络中多个输入变量之间相互作用的方法
CN115035304A (zh) 一种基于课程学习的图像描述生成方法及系统
CN114742292A (zh) 面向知识追踪过程的双态协同演化预测学生未来表现方法
CN111598839A (zh) 一种基于孪生网络的手腕骨等级分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210511

CF01 Termination of patent right due to non-payment of annual fee