CN111191685A - 一种损失函数动态加权的方法 - Google Patents
一种损失函数动态加权的方法 Download PDFInfo
- Publication number
- CN111191685A CN111191685A CN201911280000.0A CN201911280000A CN111191685A CN 111191685 A CN111191685 A CN 111191685A CN 201911280000 A CN201911280000 A CN 201911280000A CN 111191685 A CN111191685 A CN 111191685A
- Authority
- CN
- China
- Prior art keywords
- loss function
- weight
- training
- value
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种损失函数动态加权的方法,相比于基于采样的样本均衡方法而言,没有破坏原数据集的分布状态,提高了数据利用率的同时也提高了模型的训练效果,使得模型输出的概率分布得以保持原有数据状态。相比于对损失函数固定加权的方法而言,其权重由训练效果决定,动态调整过程中,使得模型的训练更符合数据的本身,从而提升了模型的效果。在调整权重的过程中,提高预测准确度差的类别的权重,降低预测准确度好的类别的权重,使得模型对各类别的预测准确度得到均衡的提升。
Description
技术领域
本发明涉及人工智能、机器学习与数据挖掘技术领域,具体涉及一种损失函数动态加权的方法。
背景技术
近年来,随着人工智能浪潮的涌起,人工智能、机器学习在学术界乃至工业界所占分量越来越大。
分类问题,是人工智能的一个大类问题。而实际环境中的数据往往分布不均衡,例如:在医学数据中,往往越是严重的疾病在所有疾病中占比越是小,但越是严重的疾病,其误诊或漏诊所带来的代价却越是大。
传统的模型训练中,使用简单的交叉熵函数计算模型与实际数据的损失。由于损失函数的设计对各个类别一视同仁,所以并未特意照顾到比例少但是代价越大的少量样本。因此,也造成了,使用常规的交叉熵作为损失函数,训练出来的模型,对于样本数量较少的类别分类效果不佳,但往往这些样本数量少的类别却是关注度高的类别。
在真实的环境中,往往各类别的学习难度不同,有的类别有比较简单固定的模式,较容易训练,而有的类别的样本,模式复杂多变,模型学习难度大。然而类别的难易学程度,很难在模型训练前准确定量估计。在事前使用固定的针对损失函数的各类别进行加权的方法无法在训练中做到随机应变,训练效果往往不尽如人意。
对于不均衡的样本进行重采样的方法,在超大规模数据集上使用效果尚可,但一旦数据规模不够大,则会出现样本数量少的或者是易学的类别已经过学习了,而样本数量大的或是难学的类别学习还不充分。
发明内容
本发明为了克服以上技术的不足,提供了一种提高预测准确度差的类别的权重,降低预测准确度好的类别的权重,使得模型对各类别的预测准确度得到均衡的提升的损失函数动态加权的方法。
本发明克服其技术问题所采用的技术方案是:
一种损失函数动态加权的方法,包括如下步骤:
c)根据步骤b)中的限制条件联立方程组求解得到损失函数权重向量中各个类别损失函数权重的值,将求解得到的每个类别损失函数权重的值初始化朴素交叉熵损失函数及Focal Loss损失函数;
d)使用初始化的朴素交叉熵损失函数及初始化的Focal Loss损失函数对分类器模型进行训练,如果训练达到完成状态则停止训练,如果训练没有完成则返回执行步骤c);
e)统计分类器模型的训练集中每个类别样本的准确度为{T1,T2,T3,……,TC},其中Ti为训练集中第i类的准确度,1≤i≤C,统计分类器模型训练的验证集中每个类别样本的准确度为{V1,V2,V3,……,VC},其中Vi为验证集中第i类的准确度,1≤i≤C;
g)将步骤f)调整过的损失函数权重向量进行第二次调整,如果Vi<Ti则使用β×αi代替损失函数权重向量{α1,α2,α3,……,αC}中的αi,式中β为权重的调整比例,0<β<1;
h)将经步骤g)中调整后的损失函数权重向量通过公式进行归一化计算,得到调整完的损失权重向量;i)将归一化的调整完的损失权重向量代入步骤c)中,用归一化的调整完的损失权重向量的值初始化朴素交叉熵损失函数及Focal Loss损失函数。
进一步的,步骤c)中将求解得到的每个类别损失函数权重的值利用公式初始化Focal Loss损失函数,式中Li为该样本在第i类上的标签,Li取值为0或1,为分类器输出的第i类的预测概率,λ为Focal Loss损失函数的参数值。
优选的,步骤f)中γ的值为0.1。
优选的,步骤g)中β的值为0.5。
本发明的有益效果是:相比于基于采样的样本均衡方法而言,没有破坏原数据集的分布状态,提高了数据利用率的同时也提高了模型的训练效果,使得模型输出的概率分布得以保持原有数据状态。相比于对损失函数固定加权的方法而言,其权重由训练效果决定,动态调整过程中,使得模型的训练更符合数据的本身,从而提升了模型的效果。在调整权重的过程中,提高预测准确度差的类别的权重,降低预测准确度好的类别的权重,使得模型对各类别的预测准确度得到均衡的提升。
具体实施方式
下面对本发明做进一步说明。
一种损失函数动态加权的方法,包括如下步骤:
c)根据步骤b)中的限制条件联立方程组求解得到损失函数权重向量中各个类别损失函数权重的值,将求解得到的每个类别损失函数权重的值初始化朴素交叉熵损失函数及Focal Loss损失函数;
d)使用初始化的朴素交叉熵损失函数及初始化的Focal Loss损失函数对分类器模型进行训练,如果训练达到完成状态则停止训练,如果训练没有完成则返回执行步骤c);
e)统计分类器模型的训练集中每个类别样本的准确度为{T1,T2,T3,……,TC},其中Ti为训练集中第i类的准确度,1≤i≤C,统计分类器模型训练的验证集中每个类别样本的准确度为{V1,V2,V3,……,VC},其中Vi为验证集中第i类的准确度,1≤i≤C;
g)将步骤f)调整过的损失函数权重向量进行第二次调整,如果Vi<Ti则使用β×αi代替损失函数权重向量{α1,α2,α3,……,αC}中的αi,式中β为权重的调整比例,0<β<1;
i)将归一化的调整完的损失权重向量代入步骤c)中,用归一化的调整完的损失权重向量的值初始化朴素交叉熵损失函数及Focal Loss损失函数。
相比于基于采样的样本均衡方法而言,采用本专利的损失函数动态加权的方法,没有破坏原数据集的分布状态,提高了数据利用率的同时也提高了模型的训练效果,使得模型输出的概率分布得以保持原有数据状态。相比于对损失函数固定加权的方法而言,其权重由训练效果决定,动态调整过程中,使得模型的训练更符合数据的本身,从而提升了模型的效果。在调整权重的过程中,提高预测准确度差的类别的权重,降低预测准确度好的类别的权重,使得模型对各类别的预测准确度得到均衡的提升。
另外,本专利技术中采用了过学习罚项机制,使得易学的容易过学习的类别能够以比较小的学习率“保持”样本准确度,而主要去学习难学的不易过学习的类别。其均衡了各类别的难易学程度,提升了模型的整体表现。
进一步的,步骤c)中将求解得到的每个类别损失函数权重的值利用公式初始化Focal Loss损失函数,式中Li为该样本在第i类上的标签,Li取值为0或1,为分类器输出的第i类的预测概率,λ为Focal Loss损失函数的参数值。
优选的,步骤f)中γ的值为0.1。
优选的,步骤g)中β的值为0.5。
Claims (5)
1.一种损失函数动态加权的方法,其特征在于,包括如下步骤:
c)根据步骤b)中的限制条件联立方程组求解得到损失函数权重向量中各个类别损失函数权重的值,将求解得到的每个类别损失函数权重的值初始化朴素交叉熵损失函数及Focal Loss损失函数;
d)使用初始化的朴素交叉熵损失函数及初始化的Focal Loss损失函数对分类器模型进行训练,如果训练达到完成状态则停止训练,如果训练没有完成则返回执行步骤c);
e)统计分类器模型的训练集中每个类别样本的准确度为{T1,T2,T3,……,TC},其中Ti为训练集中第i类的准确度,1≤i≤C,统计分类器模型训练的验证集中每个类别样本的准确度为{V1,V2,V3,……,VC},其中Vi为验证集中第i类的准确度,1≤i≤C;
g)将步骤f)调整过的损失函数权重向量进行第二次调整,如果Vi<Ti则使用β×αi代替损失函数权重向量{α1,α2,α3,……,αC}中的αi,式中β为权重的调整比例,0<β<1;
4.根据权利要求1所述的损失函数动态加权的方法,其特征在于:步骤f)中γ的值为0.1。
5.根据权利要求1所述的损失函数动态加权的方法,其特征在于:步骤g)中β的值为0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911280000.0A CN111191685A (zh) | 2019-12-13 | 2019-12-13 | 一种损失函数动态加权的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911280000.0A CN111191685A (zh) | 2019-12-13 | 2019-12-13 | 一种损失函数动态加权的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111191685A true CN111191685A (zh) | 2020-05-22 |
Family
ID=70707352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911280000.0A Pending CN111191685A (zh) | 2019-12-13 | 2019-12-13 | 一种损失函数动态加权的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191685A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632320A (zh) * | 2020-12-22 | 2021-04-09 | 天津大学 | 基于长尾分布提升语音分类尾部识别准确度的方法 |
CN112686218A (zh) * | 2021-03-09 | 2021-04-20 | 北京世纪好未来教育科技有限公司 | 文本检测模型的训练方法、装置、可读存储介质及设备 |
CN112732913A (zh) * | 2020-12-30 | 2021-04-30 | 平安科技(深圳)有限公司 | 一种非均衡样本的分类方法、装置、设备及存储介质 |
CN116304811A (zh) * | 2023-02-28 | 2023-06-23 | 王宇轩 | 一种基于焦点损失函数动态样本权重调整方法及系统 |
-
2019
- 2019-12-13 CN CN201911280000.0A patent/CN111191685A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632320A (zh) * | 2020-12-22 | 2021-04-09 | 天津大学 | 基于长尾分布提升语音分类尾部识别准确度的方法 |
CN112732913A (zh) * | 2020-12-30 | 2021-04-30 | 平安科技(深圳)有限公司 | 一种非均衡样本的分类方法、装置、设备及存储介质 |
CN112732913B (zh) * | 2020-12-30 | 2023-08-22 | 平安科技(深圳)有限公司 | 一种非均衡样本的分类方法、装置、设备及存储介质 |
CN112686218A (zh) * | 2021-03-09 | 2021-04-20 | 北京世纪好未来教育科技有限公司 | 文本检测模型的训练方法、装置、可读存储介质及设备 |
CN112686218B (zh) * | 2021-03-09 | 2021-06-22 | 北京世纪好未来教育科技有限公司 | 文本检测模型的训练方法、装置、可读存储介质及设备 |
CN116304811A (zh) * | 2023-02-28 | 2023-06-23 | 王宇轩 | 一种基于焦点损失函数动态样本权重调整方法及系统 |
CN116304811B (zh) * | 2023-02-28 | 2024-01-16 | 王宇轩 | 一种基于焦点损失函数动态样本权重调整方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191685A (zh) | 一种损失函数动态加权的方法 | |
CN109086799A (zh) | 一种基于改进卷积神经网络模型AlexNet的作物叶片病害识别方法 | |
CN113537305B (zh) | 一种基于匹配网络少样本学习的图像分类方法 | |
CN107203600B (zh) | 一种利用刻画因果依赖关系和时序影响机制增强答案质量排序的评判方法 | |
CN110298434A (zh) | 一种基于模糊划分和模糊加权的集成深度信念网络 | |
CN112861982A (zh) | 一种基于梯度平均的长尾目标检测方法 | |
CN111931814A (zh) | 一种基于类内结构紧致约束的无监督对抗域适应方法 | |
CN114169442A (zh) | 基于双原型网络的遥感图像小样本场景分类方法 | |
CN106021402A (zh) | 用于跨模态检索的多模态多类Boosting框架构建方法及装置 | |
CN115659254A (zh) | 一种双模态特征融合的配电网电能质量扰动分析方法 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN114879185A (zh) | 基于任务经验迁移的雷达目标智能识别方法 | |
CN112801162B (zh) | 基于图像属性先验的自适应软标签正则化方法 | |
CN106295677A (zh) | 一种联合拉斯正则项和特征自学习的水流图像分簇方法 | |
CN113191445A (zh) | 基于自监督对抗哈希算法的大规模图像检索方法 | |
CN114859317A (zh) | 雷达目标自适应反向截断智能识别方法 | |
CN116842354A (zh) | 基于量子人工水母搜索机制的特征选择方法 | |
CN106373129A (zh) | 一种基于双隶属度的fcm遥感图像分割方法 | |
CN114859316A (zh) | 基于任务相关度加权的雷达目标智能识别方法 | |
CN109726738A (zh) | 基于迁移学习与属性熵加权模糊聚类的数据分类方法 | |
CN114282713A (zh) | 基于RAdam-DA-NLSTM时间序列预测方法 | |
CN114444654A (zh) | 一种面向nas的免训练神经网络性能评估方法、装置和设备 | |
CN111126577A (zh) | 一种针对不均衡样本的损失函数设计方法 | |
CN112070127A (zh) | 一种基于智能分析的海量数据样本增量分析方法 | |
Xu et al. | Classification method of marine tourism resource of least square support vector machines based on particle swarm algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200522 |
|
RJ01 | Rejection of invention patent application after publication |