CN111160538A

CN111160538A - 一种损失函数中margin参数值的更新方法和系统

Info

Publication number: CN111160538A
Application number: CN202010252661.9A
Authority: CN
Inventors: 代笃伟; 赵威; 申建虎; 王博; 张伟
Original assignee: Beijing Precision Diagnosis Medical Technology Co Ltd
Current assignee: Xi'an Zhizhen Intelligent Technology Co.,Ltd.
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-05-15
Anticipated expiration: 2040-04-02
Also published as: CN111160538B

Abstract

本发明公开了一种损失函数中margin参数值的更新方法和系统，具体包括以下步骤：设定深度学习对应的神经网络、图像数据集、训练数据和损失函数，将图像数据集输入神经网络得到预训练模型；根据预训练模型的训练次数，分阶段调整损失函数中margin参数值，并根据margin参数值调整修改预训练模型的参数。本发明无需引入更多的需要学习的参数，网络更容易收敛，得到的模型准确率更好。

Description

一种损失函数中margin参数值的更新方法和系统

技术领域

本发明涉及深度学习技术领域，特别是指一种损失函数中margin参数值的更新方法和系统。

背景技术

在深度学习中，最重要的几个要素是：数据，算力，网络结构，损失函数。损失函数Loss对神经网络最直观的影响就是，通过计算损失函数Loss反传梯度来实现对模型参数的更新，不同的损失函数Loss可以使模型更加侧重于学习到数据某一方面的特征，并在之后能够更好地提取到这一独有的特征，因此损失函数Loss对于网络优化有导向性的作用。损失函数通常是计算预测的结果和真实结果之间的差异，引导网络做出更准确的预测。对于不同的深度学习任务，使用一个恰当的损失函数是很有必要的。

损失函数分为两大类，基于度量学习的和基于分类的。

度量学习主要有triplet_loss，分类学习主要有softmax_loss。

softmax_loss计算公式如下：

其中：h表示训练中一个batch里样本的数量，n表示整个训练数据中的类别数量，

表示第i个样本的特征，

表示将

预测为

类时，所对应的权重向量的转置。

表示将

预测为

类时，所对应的偏置向量。

表示将

预测为j类时，所对应的权重向量的转置，

表示将

预测为j类时所对应的偏置向量。

在softmax_loss的基础上，不断的提出了L-softmax_loss，Large-Margin Softmax，A-softmax_loss，AM-softmax，arcface等损失函数。这一类损失函数的思想是：让特征更注重角度信息，让分类更加严格。例如一个2分类问题，

属于类别1，那么原来的 softmax_loss希望：

，也就是属于类别1的概率大于类别2的概率，这个式子和下式是等效的：

，

其中：

表示将

分为第一类时所对应的权重向量，

表示

和

之间的夹角。

表示将

分类第二类时所对应的权重向量，

表示

和

之间的夹角。

若将权重和特征归一化后，则模型更注重角度信息。如果给角度信息中再加上一个margin参数，则分类条件更加严格，类间距离更大。增加margin的形式有如下三种：cos(m*θ)，cos(θ) – m， cos(θ+ m)。

Arcface损失函数是目前最常用也是最有效的深度学习分类损失函数之一，在最大的公开人脸识别比赛Megaface中取得了最好的成绩。Arcface的主要思想是：1、将权重归一化||

||=1，采用S=64作为特征归一化参数替代||

||，将特征映射到半径为S的超球面上，这样可以让特征学习到更可分的角度特征。2、Arcface即 additive angular margin loss，相较于传统的Softmax_loss，其在角度判别界限中加入了margin，使得分类界限更加严格，类间距离更加分散，类内距离更加集中。

arcface的计算方法如下：

其中，h表示训练中一个batch里样本的数量，n表示整个训练数据中的类别数量，

表示将第i个样本预测为

类，

表示将第i个样本预测为

类时，其所对应的特征和权重之间的夹角。

为第i个样本预测为j类时，其所对应的特征和权重之间的夹角。一般来说S 取值64，m取值0.5。

在损失函数Arcface的使用过程中，超参数m（即margin）的改变对模型的最终表现有很大的影响，但是增加了网络的收敛难度和优化难度。

发明内容

本发明提出一种损失函数中margin参数值的更新方法和系统，没有引入更多的需要学习的参数，网络更容易收敛，得到的模型准确率更好。

本发明的技术方案是这样实现的：

一种损失函数中margin参数值的更新方法，具体包括以下步骤：

步骤1，设定深度学习对应的神经网络、图像数据集、训练数据和损失函数，将图像数据集输入神经网络得到预训练模型；

步骤2，根据预训练模型的训练次数，分阶段调整损失函数中margin参数值，并根据margin参数值调整修改预训练模型的参数。

作为本发明的一个优选实施例，步骤1设定深度学习对应的神经网络、图像数据集、训练数据和损失函数，将图像数据集输入神经网络得到预训练模型；具体指的是

设定深度学习对应的神经网络为ResNet50，图像数据集为imagenet，训练数据为MS1M，损失函数为CosFace、SphereFace或ArcFace，将图像数据集imagenet输入神经网络ResNet50得到预训练模型。

作为本发明的一个优选实施例，步骤2中根据预训练模型的训练次数，分阶段调整损失函数中margin参数值，具体指的是

在训练的初始阶段，margin参数值线性地逐渐增加到0.7；

第35至50个epoch中，margin参数值保持为0.7；

第50个epoch后，margin参数值降至0.6；

第60个epoch后，margin参数值降至0.5；

第70个epoch开始，使用余弦的方式更新margin参数值。

作为本发明的一个优选实施例，margin参数值的调整函数为

t为训练次数。

一种损失函数中margin参数值的更新系统，包括

参数设定模块，设定深度学习对应的神经网络、图像数据集、训练数据和损失函数；

预训练模块，将图像数据集输入神经网络得到预训练模型；

参数调整模块，根据预训练模型的训练次数，分阶段调整损失函数中margin参数值，并根据margin参数值调整修改预训练模型的参数。

作为本发明的一个优选实施例，所述参数设定模块通过人机交互设备获取外界输入的设定指令，设定深度学习对应的神经网络为ResNet50，图像数据集为imagenet，训练数据为MS1M，损失函数为CosFace、SphereFace或ArcFace。

作为本发明的一个优选实施例，分阶段调整损失函数中margin参数值具体指的是

在训练的初始阶段，margin参数值线性地逐渐增加到0.7；

第35至50个epoch中，margin参数值保持为0.7；

第50个epoch后，margin参数值降至0.6；

第60个epoch后，margin参数值降至0.5；

第70个epoch开始，使用余弦的方式更新margin参数值。

本发明的有益效果在于：没有引入更多的需要学习的参数，网络更容易收敛，得到的模型准确率更好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种损失函数中margin参数值的更新方法一个实施例的流程图；

图2为margin参数值的取值曲线图；

图3为本发明一种损失函数中margin参数值的更新系统一个实施例的原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在深度学习中常遇到训练样本不均衡的情况，而且有些类别容易区分有些类别不易区分，训练过程中网络应该先学会那些容易区分的类别，然后再学习不易区分的类别。

随着神经网络的不断学习，网络会更加智能，对类别的区分能力更加强大，此时可以完成更严格的分类任务。然而在训练过程中，常会加载一个在imagenet上训练得到的预训练模型，在另外一个训练任务中，训练数据和ImageNet的分布情况不会相同，因此需要一个逐渐增大的margin去打乱预训练模型中的参数。

基于这些想法，本发明设计了一种更新margin的策略——warmup margin。

如图1和图2所示，本发明提出了一种损失函数中margin参数值的更新方法，具体包括以下步骤：

具体的，设定深度学习对应的神经网络为ResNet50，图像数据集为imagenet，训练数据为MS1M，损失函数为CosFace、SphereFace或ArcFace，将图像数据集imagenet输入神经网络ResNet50得到预训练模型。

步骤2中根据预训练模型的训练次数，分阶段调整损失函数中margin参数值，具体指的是

在训练的初始阶段，margin参数值线性地逐渐增加到0.7；

第35至50个epoch中，margin参数值保持为0.7；

第50个epoch后，margin参数值降至0.6；

第60个epoch后，margin参数值降至0.5；

第70个epoch开始，使用余弦的方式更新margin参数值。因为在多个epoch后，参数已经更新的相对较好了，令margin以余弦的形式小幅度的上下波动，有助于模型进一步微调、优化。

margin参数值的调整函数为

t为训练次数。图2中，纵坐标为epoch数，横坐标为margin。

因为CosFace、SphereFace、ArcFace中均有使用到margin，因此可以设计类似上述的更新arcface中margin的策略，更新CosFace和SphereFace中的margin。网络均使用ResNet50，最终测试并比较模型在公开数据集LFW、CFP-FP、AgeDB-30上的准确率（%）。测试结果如下：

由测试结果可知，使用了warmup margin策略，模型中准确率有了一定的提升，证明该策略是有效的。

如图3所示，本发明还提出了一种损失函数中margin参数值的更新系统，包括

参数设定模块，设定深度学习对应的神经网络、图像数据集、训练数据和损失函数；参数设定模块通过人机交互设备获取外界输入的设定指令，设定深度学习对应的神经网络为ResNet50，图像数据集为imagenet，训练数据为MS1M，损失函数为CosFace、SphereFace或ArcFace。具体的，人机交互设备为键盘或触摸显示屏等。

预训练模块，将图像数据集输入神经网络得到预训练模型；

分阶段调整损失函数中margin参数值具体指的是

在训练的初始阶段，margin参数值线性地逐渐增加到0.7；

第35至50个epoch中，margin参数值保持为0.7；

第50个epoch后，margin参数值降至0.6；

第60个epoch后，margin参数值降至0.5；

本发明的有益效果在于：没有引入更多的需要学习的参数，网络更容易收敛，得到的模型准确率更好。本发明可应用于人脸识别领域，通过更新margin参数值，使得人脸识别模型进一步调整优化，提高了人脸识别的精确度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种损失函数中margin参数值的更新方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种损失函数中margin参数值的更新方法，其特征在于，步骤1设定深度学习对应的神经网络、图像数据集、训练数据和损失函数，将图像数据集输入神经网络得到预训练模型；具体指的是：

3.根据权利要求1所述的一种损失函数中margin参数值的更新方法，其特征在于，步骤2中根据预训练模型的训练次数，分阶段调整损失函数中margin参数值，具体指的是：

在训练的初始阶段，margin参数值线性地逐渐增加到0.7；

第35至50个epoch中，margin参数值保持为0.7；

第50个epoch后，margin参数值降至0.6；

第60个epoch后，margin参数值降至0.5；

第70个epoch开始，使用余弦的方式更新margin参数值。

4.根据权利要求1所述的一种损失函数中margin参数值的更新方法，其特征在于，margin参数值的调整函数为：

t为训练次数。

5.一种损失函数中margin参数值的更新系统，其特征在于，包括：

预训练模块，将图像数据集输入神经网络得到预训练模型；

6.根据权利要求5所述的一种损失函数中margin参数值的更新系统，其特征在于，所述参数设定模块通过人机交互设备获取外界输入的设定指令，设定深度学习对应的神经网络为ResNet50，图像数据集为imagenet，训练数据为MS1M，损失函数为CosFace、SphereFace或ArcFace。

7.根据权利要求5所述的一种损失函数中margin参数值的更新系统，其特征在于，分阶段调整损失函数中margin参数值具体指的是：

在训练的初始阶段，margin参数值线性地逐渐增加到0.7；

第35至50个epoch中，margin参数值保持为0.7；

第50个epoch后，margin参数值降至0.6；

第60个epoch后，margin参数值降至0.5；

第70个epoch开始，使用余弦的方式更新margin参数值。