CN111160538A - 一种损失函数中margin参数值的更新方法和系统 - Google Patents
一种损失函数中margin参数值的更新方法和系统 Download PDFInfo
- Publication number
- CN111160538A CN111160538A CN202010252661.9A CN202010252661A CN111160538A CN 111160538 A CN111160538 A CN 111160538A CN 202010252661 A CN202010252661 A CN 202010252661A CN 111160538 A CN111160538 A CN 111160538A
- Authority
- CN
- China
- Prior art keywords
- parameter value
- loss function
- margin parameter
- training
- margin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种损失函数中margin参数值的更新方法和系统,具体包括以下步骤:设定深度学习对应的神经网络、图像数据集、训练数据和损失函数,将图像数据集输入神经网络得到预训练模型;根据预训练模型的训练次数,分阶段调整损失函数中margin参数值,并根据margin参数值调整修改预训练模型的参数。本发明无需引入更多的需要学习的参数,网络更容易收敛,得到的模型准确率更好。
Description
技术领域
本发明涉及深度学习技术领域,特别是指一种损失函数中margin参数值的更新方法和系统。
背景技术
在深度学习中,最重要的几个要素是:数据,算力,网络结构,损失函数。损失函数Loss对神经网络最直观的影响就是,通过计算损失函数Loss反传梯度来实现对模型参数的更新,不同的损失函数Loss可以使模型更加侧重于学习到数据某一方面的特征,并在之后能够更好地提取到这一独有的特征,因此损失函数Loss对于网络优化有导向性的作用。损失函数通常是计算预测的结果和真实结果之间的差异,引导网络做出更准确的预测。对于不同的深度学习任务,使用一个恰当的损失函数是很有必要的。
损失函数分为两大类,基于度量学习的和基于分类的。
度量学习主要有triplet_loss,分类学习主要有softmax_loss。
softmax_loss计算公式如下:
其中:h表示训练中一个batch里样本的数量,n表示整个训练数据中的类别数量,表
示第i个样本的特征,表示将预测为类时,所对应的权重向量的转置。表示将预测为类时,所对应的偏置向量。表示将预测为j类时,所对应的权重向量的转
置,表示将预测为j类时所对应的偏置向量。
在softmax_loss的基础上,不断的提出了L-softmax_loss,Large-Margin
Softmax,A-softmax_loss,AM-softmax,arcface等损失函数。这一类损失函数的思想是:让
特征更注重角度信息,让分类更加严格。例如一个2分类问题,属于类别1,那么原来的
softmax_loss希望:,也就是属于类别1的概率大于类别2的概率,这个式子和下
式是等效的:
若将权重和特征归一化后,则模型更注重角度信息。如果给角度信息中再加上一个margin参数,则分类条件更加严格,类间距离更大。增加margin的形式有如下三种:cos(m*θ),cos(θ) – m, cos(θ+ m)。
Arcface损失函数是目前最常用也是最有效的深度学习分类损失函数之一,在最
大的公开人脸识别比赛Megaface中取得了最好的成绩。Arcface的主要思想是:1、将权重归
一化||||=1,采用S=64作为特征归一化参数替代||||, 将特征映射到半径为S的超球
面上,这样可以让特征学习到更可分的角度特征。2、Arcface即 additive angular margin
loss, 相较于传统的Softmax_loss,其在角度判别界限中加入了margin,使得分类界限更
加严格,类间距离更加分散,类内距离更加集中。
arcface的计算方法如下:
其中,h表示训练中一个batch里样本的数量,n表示整个训练数据中的类别数量,表
示将第i个样本预测为类,表示将第i个样本预测为类时,其所对应的特征和权重
之间的夹角。为第i个样本预测为j类时,其所对应的特征和权重之间的夹角。一般来说S
取值64,m取值0.5。
在损失函数Arcface的使用过程中,超参数m(即margin)的改变对模型的最终表现有很大的影响,但是增加了网络的收敛难度和优化难度。
发明内容
本发明提出一种损失函数中margin参数值的更新方法和系统,没有引入更多的需要学习的参数,网络更容易收敛,得到的模型准确率更好。
本发明的技术方案是这样实现的:
一种损失函数中margin参数值的更新方法,具体包括以下步骤:
步骤1,设定深度学习对应的神经网络、图像数据集、训练数据和损失函数,将图像数据集输入神经网络得到预训练模型;
步骤2,根据预训练模型的训练次数,分阶段调整损失函数中margin参数值,并根据margin参数值调整修改预训练模型的参数。
作为本发明的一个优选实施例,步骤1设定深度学习对应的神经网络、图像数据集、训练数据和损失函数,将图像数据集输入神经网络得到预训练模型;具体指的是
设定深度学习对应的神经网络为ResNet50,图像数据集为imagenet,训练数据为MS1M,损失函数为CosFace、SphereFace或ArcFace,将图像数据集imagenet输入神经网络ResNet50得到预训练模型。
作为本发明的一个优选实施例,步骤2中根据预训练模型的训练次数,分阶段调整损失函数中margin参数值,具体指的是
在训练的初始阶段,margin参数值线性地逐渐增加到0.7;
第35至50个epoch中,margin参数值保持为0.7;
第50个epoch后,margin参数值降至0.6;
第60个epoch后,margin参数值降至0.5;
第70个epoch开始,使用余弦的方式更新margin参数值。
作为本发明的一个优选实施例,margin参数值的调整函数为
t为训练次数。
一种损失函数中margin参数值的更新系统,包括
参数设定模块,设定深度学习对应的神经网络、图像数据集、训练数据和损失函数;
预训练模块,将图像数据集输入神经网络得到预训练模型;
参数调整模块,根据预训练模型的训练次数,分阶段调整损失函数中margin参数值,并根据margin参数值调整修改预训练模型的参数。
作为本发明的一个优选实施例,所述参数设定模块通过人机交互设备获取外界输入的设定指令,设定深度学习对应的神经网络为ResNet50,图像数据集为imagenet,训练数据为MS1M,损失函数为CosFace、SphereFace或ArcFace。
作为本发明的一个优选实施例,分阶段调整损失函数中margin参数值具体指的是
在训练的初始阶段,margin参数值线性地逐渐增加到0.7;
第35至50个epoch中,margin参数值保持为0.7;
第50个epoch后,margin参数值降至0.6;
第60个epoch后,margin参数值降至0.5;
第70个epoch开始,使用余弦的方式更新margin参数值。
本发明的有益效果在于:没有引入更多的需要学习的参数,网络更容易收敛,得到的模型准确率更好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种损失函数中margin参数值的更新方法一个实施例的流程图;
图2为margin参数值的取值曲线图;
图3为本发明一种损失函数中margin参数值的更新系统一个实施例的原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在深度学习中常遇到训练样本不均衡的情况,而且有些类别容易区分有些类别不易区分,训练过程中网络应该先学会那些容易区分的类别,然后再学习不易区分的类别。
随着神经网络的不断学习,网络会更加智能,对类别的区分能力更加强大,此时可以完成更严格的分类任务。然而在训练过程中,常会加载一个在imagenet上训练得到的预训练模型,在另外一个训练任务中,训练数据和ImageNet的分布情况不会相同,因此需要一个逐渐增大的margin去打乱预训练模型中的参数。
基于这些想法,本发明设计了一种更新margin的策略——warmup margin。
如图1和图2所示,本发明提出了一种损失函数中margin参数值的更新方法,具体包括以下步骤:
步骤1,设定深度学习对应的神经网络、图像数据集、训练数据和损失函数,将图像数据集输入神经网络得到预训练模型;
具体的,设定深度学习对应的神经网络为ResNet50,图像数据集为imagenet,训练数据为MS1M,损失函数为CosFace、SphereFace或ArcFace,将图像数据集imagenet输入神经网络ResNet50得到预训练模型。
步骤2,根据预训练模型的训练次数,分阶段调整损失函数中margin参数值,并根据margin参数值调整修改预训练模型的参数。
步骤2中根据预训练模型的训练次数,分阶段调整损失函数中margin参数值,具体指的是
在训练的初始阶段,margin参数值线性地逐渐增加到0.7;
第35至50个epoch中,margin参数值保持为0.7;
第50个epoch后,margin参数值降至0.6;
第60个epoch后,margin参数值降至0.5;
第70个epoch开始,使用余弦的方式更新margin参数值。因为在多个epoch后,参数已经更新的相对较好了,令margin以余弦的形式小幅度的上下波动,有助于模型进一步微调、优化。
margin参数值的调整函数为
t为训练次数。图2中,纵坐标为epoch数,横坐标为margin。
因为CosFace、SphereFace、ArcFace中均有使用到margin,因此可以设计类似上述的更新arcface中margin的策略,更新CosFace和SphereFace中的margin。网络均使用ResNet50,最终测试并比较模型在公开数据集LFW、CFP-FP、AgeDB-30上的准确率(%)。测试结果如下:
由测试结果可知,使用了warmup margin策略,模型中准确率有了一定的提升,证明该策略是有效的。
如图3所示,本发明还提出了一种损失函数中margin参数值的更新系统,包括
参数设定模块,设定深度学习对应的神经网络、图像数据集、训练数据和损失函数;参数设定模块通过人机交互设备获取外界输入的设定指令,设定深度学习对应的神经网络为ResNet50,图像数据集为imagenet,训练数据为MS1M,损失函数为CosFace、SphereFace或ArcFace。具体的,人机交互设备为键盘或触摸显示屏等。
预训练模块,将图像数据集输入神经网络得到预训练模型;
参数调整模块,根据预训练模型的训练次数,分阶段调整损失函数中margin参数值,并根据margin参数值调整修改预训练模型的参数。
分阶段调整损失函数中margin参数值具体指的是
在训练的初始阶段,margin参数值线性地逐渐增加到0.7;
第35至50个epoch中,margin参数值保持为0.7;
第50个epoch后,margin参数值降至0.6;
第60个epoch后,margin参数值降至0.5;
第70个epoch开始,使用余弦的方式更新margin参数值。因为在多个epoch后,参数已经更新的相对较好了,令margin以余弦的形式小幅度的上下波动,有助于模型进一步微调、优化。
本发明的有益效果在于:没有引入更多的需要学习的参数,网络更容易收敛,得到的模型准确率更好。本发明可应用于人脸识别领域,通过更新margin参数值,使得人脸识别模型进一步调整优化,提高了人脸识别的精确度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种损失函数中margin参数值的更新方法,其特征在于,具体包括以下步骤:
步骤1,设定深度学习对应的神经网络、图像数据集、训练数据和损失函数,将图像数据集输入神经网络得到预训练模型;
步骤2,根据预训练模型的训练次数,分阶段调整损失函数中margin参数值,并根据margin参数值调整修改预训练模型的参数。
2.根据权利要求1所述的一种损失函数中margin参数值的更新方法,其特征在于,步骤1设定深度学习对应的神经网络、图像数据集、训练数据和损失函数,将图像数据集输入神经网络得到预训练模型;具体指的是:
设定深度学习对应的神经网络为ResNet50,图像数据集为imagenet,训练数据为MS1M,损失函数为CosFace、SphereFace或ArcFace,将图像数据集imagenet输入神经网络ResNet50得到预训练模型。
3.根据权利要求1所述的一种损失函数中margin参数值的更新方法,其特征在于,步骤2中根据预训练模型的训练次数,分阶段调整损失函数中margin参数值,具体指的是:
在训练的初始阶段,margin参数值线性地逐渐增加到0.7;
第35至50个epoch中,margin参数值保持为0.7;
第50个epoch后,margin参数值降至0.6;
第60个epoch后,margin参数值降至0.5;
第70个epoch开始,使用余弦的方式更新margin参数值。
5.一种损失函数中margin参数值的更新系统,其特征在于,包括:
参数设定模块,设定深度学习对应的神经网络、图像数据集、训练数据和损失函数;
预训练模块,将图像数据集输入神经网络得到预训练模型;
参数调整模块,根据预训练模型的训练次数,分阶段调整损失函数中margin参数值,并根据margin参数值调整修改预训练模型的参数。
6.根据权利要求5所述的一种损失函数中margin参数值的更新系统,其特征在于,所述参数设定模块通过人机交互设备获取外界输入的设定指令,设定深度学习对应的神经网络为ResNet50,图像数据集为imagenet,训练数据为MS1M,损失函数为CosFace、SphereFace或ArcFace。
7.根据权利要求5所述的一种损失函数中margin参数值的更新系统,其特征在于,分阶段调整损失函数中margin参数值具体指的是:
在训练的初始阶段,margin参数值线性地逐渐增加到0.7;
第35至50个epoch中,margin参数值保持为0.7;
第50个epoch后,margin参数值降至0.6;
第60个epoch后,margin参数值降至0.5;
第70个epoch开始,使用余弦的方式更新margin参数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010252661.9A CN111160538B (zh) | 2020-04-02 | 2020-04-02 | 一种损失函数中margin参数值的更新方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010252661.9A CN111160538B (zh) | 2020-04-02 | 2020-04-02 | 一种损失函数中margin参数值的更新方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111160538A true CN111160538A (zh) | 2020-05-15 |
CN111160538B CN111160538B (zh) | 2020-09-01 |
Family
ID=70567788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010252661.9A Active CN111160538B (zh) | 2020-04-02 | 2020-04-02 | 一种损失函数中margin参数值的更新方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160538B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915021A (zh) * | 2020-08-14 | 2020-11-10 | 北京达佳互联信息技术有限公司 | 图像处理模型的训练和使用方法、装置、服务器及介质 |
CN112633407A (zh) * | 2020-12-31 | 2021-04-09 | 深圳云天励飞技术股份有限公司 | 分类模型的训练方法、装置、电子设备及存储介质 |
CN114118272A (zh) * | 2021-11-26 | 2022-03-01 | 中国科学院长春光学精密机械与物理研究所 | 用于深度学习模型的三段式训练方法 |
CN114419090A (zh) * | 2022-01-21 | 2022-04-29 | 北京航天金泰星测技术有限公司泰州分公司 | 一种基于全卷积网络的红外图像多目标分割方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948478A (zh) * | 2019-03-06 | 2019-06-28 | 中国科学院自动化研究所 | 基于神经网络的大规模非均衡数据的人脸识别方法、系统 |
US20190279091A1 (en) * | 2018-03-12 | 2019-09-12 | Carnegie Mellon University | Discriminative Cosine Embedding in Machine Learning |
CN110849807A (zh) * | 2019-11-22 | 2020-02-28 | 山东交通学院 | 一种基于深度学习的适用于道路能见度的监测方法与系统 |
CN110879985A (zh) * | 2019-11-18 | 2020-03-13 | 西南交通大学 | 一种抗噪声数据的人脸识别模型训练方法 |
-
2020
- 2020-04-02 CN CN202010252661.9A patent/CN111160538B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190279091A1 (en) * | 2018-03-12 | 2019-09-12 | Carnegie Mellon University | Discriminative Cosine Embedding in Machine Learning |
CN109948478A (zh) * | 2019-03-06 | 2019-06-28 | 中国科学院自动化研究所 | 基于神经网络的大规模非均衡数据的人脸识别方法、系统 |
CN110879985A (zh) * | 2019-11-18 | 2020-03-13 | 西南交通大学 | 一种抗噪声数据的人脸识别模型训练方法 |
CN110849807A (zh) * | 2019-11-22 | 2020-02-28 | 山东交通学院 | 一种基于深度学习的适用于道路能见度的监测方法与系统 |
Non-Patent Citations (1)
Title |
---|
0与1的邂逅: ""机器学习 | 优化——调整学习率"", 《HTTPS://WWW.JIANSHU.COM/P/7311E7151661》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915021A (zh) * | 2020-08-14 | 2020-11-10 | 北京达佳互联信息技术有限公司 | 图像处理模型的训练和使用方法、装置、服务器及介质 |
CN111915021B (zh) * | 2020-08-14 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 图像处理模型的训练和使用方法、装置、服务器及介质 |
CN112633407A (zh) * | 2020-12-31 | 2021-04-09 | 深圳云天励飞技术股份有限公司 | 分类模型的训练方法、装置、电子设备及存储介质 |
CN112633407B (zh) * | 2020-12-31 | 2023-10-13 | 深圳云天励飞技术股份有限公司 | 分类模型的训练方法、装置、电子设备及存储介质 |
CN114118272A (zh) * | 2021-11-26 | 2022-03-01 | 中国科学院长春光学精密机械与物理研究所 | 用于深度学习模型的三段式训练方法 |
CN114118272B (zh) * | 2021-11-26 | 2024-04-30 | 中国科学院长春光学精密机械与物理研究所 | 用于深度学习模型的三段式训练方法 |
CN114419090A (zh) * | 2022-01-21 | 2022-04-29 | 北京航天金泰星测技术有限公司泰州分公司 | 一种基于全卷积网络的红外图像多目标分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111160538B (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160538B (zh) | 一种损失函数中margin参数值的更新方法和系统 | |
Ji et al. | Multitask multiclass support vector machines: model and experiments | |
US7069257B2 (en) | Pattern recognition method for reducing classification errors | |
CN112766399B (zh) | 一种面向图像识别的自适应神经网络训练方法 | |
TW201638931A (zh) | 語音識別裝置與調整裝置 | |
US11941867B2 (en) | Neural network training using the soft nearest neighbor loss | |
CN108256630A (zh) | 一种基于低维流形正则化神经网络的过拟合解决方法 | |
CN112861982A (zh) | 一种基于梯度平均的长尾目标检测方法 | |
Yu et al. | Research and implementation of CNN based on TensorFlow | |
CN106021402A (zh) | 用于跨模态检索的多模态多类Boosting框架构建方法及装置 | |
CN113673242A (zh) | 一种基于k邻近结点算法和对比学习的文本分类方法 | |
Gao et al. | Multivariate data modeling using modified kernel partial least squares | |
CN115661909A (zh) | 人脸图像处理方法、设备及计算机可读存储介质 | |
CN114140645A (zh) | 基于改进自监督特征学习的摄影图像美学风格分类方法 | |
Wang et al. | Calligraphy font recognition algorithm based on improved DenseNet network | |
CN112861626A (zh) | 基于小样本学习的细粒度表情分类方法 | |
Ukil et al. | Sig-R 2 ResNet: residual network with signal processing-refined residual mapping, auto-tuned L 1-regularization with modified Adam optimizer for time series classification | |
CN114120367B (zh) | 元学习框架下基于圆损失度量的行人重识别方法及系统 | |
US20240020531A1 (en) | System and Method for Transforming a Trained Artificial Intelligence Model Into a Trustworthy Artificial Intelligence Model | |
Wu et al. | Boundaryface: A mining framework with noise label self-correction for face recognition | |
CN115795355A (zh) | 一种分类模型训练方法、装置及设备 | |
CN114970732A (zh) | 分类模型的后验校准方法、装置、计算机设备及介质 | |
CN115601578A (zh) | 基于自步学习与视图赋权的多视图聚类方法及系统 | |
CN115472179A (zh) | 面向数字音频删除和插入篡改操作自动检测方法及系统 | |
CN115512174A (zh) | 应用二次IoU损失函数的无锚框目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210324 Address after: Room 102, block B2, phase II, software new town, tianguba Road, Yuhua Street office, high tech Zone, Xi'an, Shaanxi 710000 Patentee after: Xi'an Zhizhen Intelligent Technology Co.,Ltd. Address before: 102629 Room 401, building 1, 38 Yongda Road, Daxing biomedical industrial base, Zhongguancun Science and Technology Park, Daxing District, Beijing Patentee before: Beijing precision diagnosis Medical Technology Co.,Ltd. |