一种学习噪声区域信息的人脸检测方法及装置
技术领域
本发明涉及人脸检测领域,具体涉及一种学习噪声区域信息的人脸检测方法及装置。
背景技术
近几年,随着深度学习和计算机算力的快速发展,目标检测技术领域的精度和速度也取得了很大的突破。人脸检测技术是目标检测技术中较为重要的一个研究分支,主要做法是用刚性的边界框包围感兴趣的目标,而且在过去的多年里得到了不断地改进完善。
人脸检测技术通常用一组预先定义面积大小比例的候选框,即锚框,用于将类别判为目标的位置回归至期望的地方。人脸检测技术的目的是完成定位和分类这两个任务,定位任务是使用真实边界框作为“标杆”训练预测位置,而分类任务是指导模型学习区分候选区域类别的能力,但是大量的候选区域中只有少量候选区域与真实边界框有足够地重叠,为了学习到更好的分类器,减弱样本不平衡的影响,衍生出焦点损失函数和难例挖掘算法。除此之外,区别候选区域的类别标签是通过设定阈值判断的,完全凭借经验人为干预,类别标签比较模糊,容易引入噪声影响分类。例如,有时候候选区域为目标的置信度较高,包含大量的语义信息,但因与真实边界框重叠度比较低,按阈值判断分为负样本,这算一种噪声信息,此外,由于矩形框的局限性,目标之间的距离较小时,有时候候选区域会包含多个目标,这就会引入另外一种噪声信息。
综上所述,生成候选区域的类别标签时总会引入不同形式的噪声信息,因此,急需提出一种简单高效的人脸检测方法,自适应地生成候选区域的软标签,充分利用噪声区域的信息加强模型的性能。
发明内容
针对上述问题,本发明的目的在于提供一种学习噪声区域信息的人脸检测方法及装置,本发明采用的技术方案如下:
本发明的第一个目的是提供一种学习噪声区域信息的人脸检测方法,包括以下步骤:
S1、构建深度神经网络模型,所述深度神经网络模型的网络结构从前至后包括:卷积层、批归一化层、激活函数层、第一混合深度可分离卷积模块、最大值池化层、第一倒置残差模块、第二混合深度可分离卷积模块、第二倒置残差卷积模块,所述第二倒置残差卷积模块后接两个并行的卷积层;所述倒置残差模块从前至后由卷积层、批归一化层、激活函数层、深度可分离卷积层、批归一化层、激活函数层、卷积层、批归一化层、特征相加层封装而成;所述混合深度可分离卷积模块从前至后由两个并行的深度可分离卷积层、特征连接层、批归一化层、激活函数层封装而成;
S2、收集任意大小的人脸图像,并预先定义锚框的长宽比和面积大小比,然后分成训练集和测试集;
S3、将训练集输入深度神经网络模型,由深度神经网络模型提取训练集中的人脸图像特征图,然后利用设定的锚框在人脸图像特征图的每个特征点上生成候选区域,并且每个候选区域用预测定位信息和预测置信度定义无噪声得分;最后针对每个候选区域用损失函数计算损失值,并根据制定优化策略衰减损失值,以及设定相关超参数,重复对深度神经网络模型进行训练,直至损失值收敛,得到优化深度神经网络模型。
S4、将人脸图像输入优化深度神经网络模型,输出人脸检测结果。
进一步地,所述无噪声得分反映候选区域包含噪声信息的程度;
所述无噪声得分计算公式如下:
式中:cls表示某候选区域的置信度,reg表示候选区域与真实边界框之间的距离交并比值,
表示某一个候选区域,
和
分别表示正样本候选区域集合和负样本候选区域集合,
是调节因子,用来调节置信度和距离交并比值在无噪声得分中的占比;所述距离交并比计算公式如下:
其中:b为候选区域B的中心点,
为真实边界框
的中心点,
为欧式距离计算公式,C为候选区域B和
的最小外接矩形的对角线距离;正样本候选区域集合和负样本候选区域集合是通过将所有候选区域按置信度排序之后,选择前N个候选区域为正样本,其余候选区域为负样本,其中N为300。
进一步地,所述深度神经网络模型的损失函数由类别损失函数和定位回归损失函数构成;所述类别损失函数采用改进的二元交叉熵损失函数,用于计算无噪声得分与预测概率值之间的损失值;所述定位回归损失函数采用改进的平滑L1损失函数,计算候选区域与真实边界框之间的损失值。
进一步地,对每个候选区域用损失函数计算损失值之前,设定一个权重因子,控制重要程度不同的样本对训练损失值的占比,该权重因子计算公式如下:
其中
对定位信息和类别置信度进行归一化,
是调节因子,这两个参数都是为了增加权重因子的方差设定的;将权重因子添加到损失函数中,公式如下所示:
是类别损失函数,采用改进的二元交叉熵损失函数,用于计算无噪声得分与预测概率值之间的损失值,
为某候选区域的预测概率值,i表示正样本,j表示负样本;
是定位回归损失函数,采用改进的平滑L1损失函数,计算候选区域与真实边界框之间的损失值,
是真实边界框位置,
表示预测的边界框位置;最终获得用于深度神经网络模型训练的完整的损失函数为:
优选地,所述的激活函数层采用抑制最大值为6的修正线性单元层。
优选地,所述的锚框尺寸比例中面积大小为
,单位为mm,尺度比例为
。
优选地,所述的优化策略是使用自适应矩估计优化器衰减损失值,优化网络训练参数,相关超参数学习率设为0.001、批处理大小设为128、总迭代次数设为200000、L2惩罚权重衰减率设为0.0001。
本发明的第二个目的是提供一种学习噪声区域信息的人脸检测装置,包括:
图像获取单元,用于获取任意大小的人脸图像;
图像特征提取单元,用于利用深度神经网络模型提取训练集中的人脸图像特征图;
候选区域生成单元,用于利用设定的锚框在人脸图像特征图的每个特征点上生成候选区域;
无噪声得分计算单元,用于利用预测定位信息和预测置信度计算每个候选区域的无噪声得分;
候选区域损失值计算单元,用于对每个候选区域用损失函数计算损失值;
网络训练单元,用于对深度神经网络模型进行训练得到优化深度神经网络模型;
人脸检测结果识别单元,用于将人脸图像输入优化深度神经网络模型后输出人脸检测结果。
本发明的第三个目的是提供一种电子设备,包括:存储器,用于存储可执行指令;以及处理器,包括上述学习噪声区域信息的人脸检测装置,用于与所述存储器通信以执行所述可执行指令从而完成上述学习噪声区域信息的人脸检测方法的操作。
与现有技术相比,本发明具有以下有益效果:
本发明通过将人脸检测方法结合预测定位信息和预测置信度相结合计算得到无噪声得分,并将得分作为候选区域的软标签,再融入到损失函数中,使网络模型在训练过程中学习到噪声信息,有效地提高模型的鲁棒性。
附图说明
图1为整体网络结构示意图。
图2为倒置残差模块示意图。
图3为混合深度可分离卷积模块示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明,并不用于限定发明。
现在主流的人脸检测算法通常使用一系列候选区域预先规划检测位置的,但是在一张图像中目标的面积占比较小,这会导致采集到的负样本数量大大多于正样本数量,并且候选区域的类别标签都是通过计算比较候选区域与真实边界框之间的交并比值判断正负标签,人为因素较多,这会导致类别标签比较模糊,容易引入噪声影响分类。为了克服这个缺点,如图1至图3所示,本实施例提供一种简单高效的人脸检测方法,利用定位信息和类别置信度自适应地计算出候选区域的软标签,充分利用噪声区域的信息加强模型的性能。
图1为本发明的深度神经网络模型的络结构示意图,从前至后包括:卷积层、批归一化层、激活函数层、第一混合深度可分离卷积模块、最大值池化层、第一倒置残差模块、第二混合深度可分离卷积模块、第二倒置残差卷积模块,所述第二倒置残差卷积模块后接两个并行的卷积层构成两个分支,一个分支用于分类,主要是预测每个候选区域的概率值,另外一个分支用于定位回归,预测候选区域与真实边界框之间的偏移量;如图2所示,所述倒置残差模块从前至后由卷积层、批归一化层、激活函数层、深度可分离卷积层、批归一化层、激活函数层、卷积层、批归一化层、特征相加层封装而成;如图3所示,所述混合深度可分离卷积模块从前至后由两个并行的深度可分离卷积层、特征连接层、批归一化层、激活函数层封装而成。
收集任意大小的人脸图像,并预先定义锚框的长宽比和面积大小比,然后分成训练集和测试集,本实施例中,锚框尺寸比例中面积大小为
,单位为mm,尺度比例为
。
首先,针对传统的分类分支,候选区域模糊的类别标签会误导模型训练方向,而联合预测定位信息和预测置信度计算得到无噪声得分,无噪声得分能反映候选区域包含噪声信息的程度,该得分越高说明候选区域是目标的概率较高并且与真实边界框重叠度越大,反之,说明候选区域是背景的概率较高并且与真实边界框重叠度越小,可以充分利用噪声信息增强模型分类的能力,是一种软标签。无噪声得分计算公式如下:
公式中cls表示某候选区域的置信度,reg表示候选区域与真实边界框之间的距离交并比值,
表示某一个候选区域,
和
分别表示正样本候选区域集合和负样本候选区域集合,
是调节因子,用来调节置信度和距离交并比值在无噪声得分中的占比;所述距离交并比计算公式如下:
其中b为候选区域B的中心点,
为真实边界框
的中心点,
为欧式距离计算公式,C为候选区域B和
的最小外接矩形的对角线距离;正样本候选区域集合和负样本候选区域集合是通过将所有候选区域按置信度排序之后,选择前N个候选区域为正样本,其余候选区域为负样本,其中N为300。
与此同时,需设定一个权重因子,控制重要程度不同的样本对训练损失值的占比,该权重因子计算公式如下:
其中
对定位信息和类别置信度进行归一化,
是调节因子,这两个参数都是为了增加权重因子的方差设定的。而且因为正样本候选区域数量较少,能给模型训练提供的梯度变化较小,所以需将权重因子添加到损失函数中,公式如下所示:
是类别损失函数,采用改进之后的二元交叉熵损失函数,用于计算无噪声得分与预测概率值之间的损失值,
为某候选区域的预测概率值,i表示正样本,j表示负样本。
是定位回归损失函数,采用改进之后的平滑L1损失函数,计算候选区域与真实边界框之间的损失值,
是真实边界框位置,
表示预测的边界框位置。因此,网络训练的完整的损失函数为:
然后,使用自适应矩估计优化器衰减损失值,优化网络训练参数,相关超参数学习率设为0.001、批处理大小设为128、总迭代次数设为200000、L2惩罚权重衰减率设为0.0001,重复对深度神经网络模型进行训练,直至损失值收敛,得到优化深度神经网络模型。
使用时,将人脸图像输入优化深度神经网络模型,即可输出人脸检测结果。
在一些实施例中,本发明还提提供了一种学习噪声区域信息的人脸检测装置,包括:
图像获取单元,用于获取任意大小的人脸图像;
图像特征提取单元,用于利用深度神经网络模型提取训练集中的人脸图像特征图;
候选区域生成单元,用于利用设定的锚框在人脸图像特征图的每个特征点上生成候选区域;
无噪声得分计算单元,用于利用预测定位信息和预测置信度计算每个候选区域的无噪声得分;
候选区域损失值计算单元,用于对每个候选区域用损失函数计算损失值;
网络训练单元,用于对深度神经网络模型进行训练得到优化深度神经网络模型;
人脸检测结果识别单元,用于将人脸图像输入优化深度神经网络模型后输出人脸检测结果。
在一些实施例中,本发明还提了一种电子设备,包括:存储器,用于存储可执行指令;以及处理器,包括上述学习噪声区域信息的人脸检测装置,用于与所述存储器通信以执行所述可执行指令从而完成上述学习噪声区域信息的人脸检测方法的操作。
综上所述,本发明通过将人脸检测方法结合预测定位信息和预测置信度相结合计算得到无噪声得分,并将得分作为候选区域的软标签,再融入到损失函数中,使网络模型在训练过程中学习到噪声信息,有效地提高模型的鲁棒性。
由实验结果可得,本发明提出的方法可以实现端到端训练人脸检测任务,引入无噪声得分的计算,可以提升检测器的性能,大大减少误检、漏检现象。
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。