CN114821184A - 一种基于均衡互补熵的长尾图像分类方法及系统 - Google Patents
一种基于均衡互补熵的长尾图像分类方法及系统 Download PDFInfo
- Publication number
- CN114821184A CN114821184A CN202210500992.9A CN202210500992A CN114821184A CN 114821184 A CN114821184 A CN 114821184A CN 202210500992 A CN202210500992 A CN 202210500992A CN 114821184 A CN114821184 A CN 114821184A
- Authority
- CN
- China
- Prior art keywords
- complementary
- loss function
- long
- balanced
- tail
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000295 complement effect Effects 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000013145 classification model Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 31
- 238000013461 design Methods 0.000 description 5
- 238000012952 Resampling Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于均衡互补熵的长尾图像分类方法及系统,其方法包括如下步骤:针对获取的长尾图像训练集,读取图像数据及标签;随机初始化卷积神经网络参数,采用mini‑batch的方式对提取的图像数据进行前向计算,得到全连接层输出,并计算Softmax预测概率;设计均衡互补熵损失函数,通过在归一化的互补熵损失函数中引入一个自适应权重系数,得到均衡互补熵损失函数,利用预测概率计算互补类的损失;联合交叉熵损失函数和均衡互补熵损失函数对分类模型进行训练,引导网络模型参数更新,得到图像分类模型。本发明提出的均衡互补熵的训练算法能够解决长尾图像的分类问题,能够带来更好的分类效果,拥有更好的泛化能力。
Description
技术领域
本发明涉及深度学习图像分类技术领域,具体涉及一种基于均衡互补熵的长尾图像分类方法及系统。
背景技术
近年来,基于深度学习的图像分类技术取得巨大的成功,但大多数性能优越的图像分类技术依赖类别平衡的数据集,导致在类别不平衡的数据集中无法发挥较好的分类性能。在现实场景下,类别不平衡的数据集更趋向于长尾分布,其中数量占优势的类别称为头类,不具优势的类别称为尾类。若直接将长尾分布的数据集用于模型训练,由于头类和尾类的样本数量差异较大,传统的图像分类技术模型容易偏向于训练样本较多的头类,忽视样本数量较少的尾类,进而造成分类性能下降。为了解决这一问题,目前较为常用的解决方法有重采样(re-sampling)技术和重加权(re-weighting)技术。最基本的重采样技术通过过采样(over-sampling)随机增加尾类的样本数量,或通过欠采样(under-sampling)随机减少头部类的样本数量,使得长尾数据集的分布变得相对均衡。重加权技术为损失函数设计一个权重因子,以平衡不同类别间的损失值。然而,这两种常用的技术也存在一定的弊端。例如,重采样技术容易造成模型的过拟合或者欠拟合现象,而重加权技术需要精心地设计一个权重因子才能有效地提高模型分类性能。
发明内容
针对上述问题,本发明提出一种基于均衡互补熵的长尾图像分类方法及系统,通过新的均衡互补熵的训练算法能够解决长尾图像的分类问题,带来更好的分类效果,拥有更好的泛化能力。
本发明采用如下技术方法来实现:
一种基于均衡互补熵的长尾图像分类方法,包括以下步骤:
步骤1、获取长尾图像训练集,针对长尾图像训练集,读取图像数据及标签;
步骤2、随机初始化卷积神经网络参数,采用mini-batch的方式对提取的图像数据进行前向计算,得到全连接层输出,并计算Softmax预测概率;
步骤3、设计均衡互补熵损失函数,通过在归一化的互补熵损失函数中引入一个自适应权重系数,得到均衡互补熵损失函数,然后利用Softmax预测概率计算互补类的损失;
步骤4、联合交叉熵损失函数和均衡互补熵损失函数对分类模型进行训练,引导网络模型参数更新,得到图像分类模型。
一种基于均衡互补熵的长尾图像分类系统,其包括如下步骤:
数据集处理模块,用于获取长尾图像训练集,针对长尾图像训练集,读取图像数据及标签;
预测概率计算模块,用于随机初始化卷积神经网络参数,采用mini-batch的方式对提取的图像数据进行前向计算,得到全连接层输出,并计算Softmax预测概率;
均衡互补熵训练模块,用于设计均衡互补熵损失函数,通过在归一化的互补熵损失函数中引入一个自适应权重系数,得到均衡互补熵损失函数,然后利用Softmax预测概率计算互补类的损失;
分类模型获取模块,用于联合交叉熵损失函数和均衡互补熵损失函数对分类模型进行训练,引导网络模型参数更新,得到图像分类模型。
本发明的提供的基于均衡互补熵的长尾图像分类方法及系统,其相比于现有的技术,具有如下优点:
1、本发明提供的基于均衡互补熵的长尾图像分类方法及系统,该方法在不改变原始数据分布的前提下,能够充分利用各类样本的特征信息。在本发明中,我们利用交叉熵损失函数对主要目标(即ground-truth类)进行分类训练。同时,利用互补熵对次要目标(即互补类)进行信息熵的运算以获取有用的特征信息。与只使用交叉熵损失进行训练的传统算法相比,这种针对互补类的训练能够有效地避免模型在训练的过程中,因One-Hot编码而导致大量的互补类样本信息被忽视的情况。
2、本发明通过在互补熵损失函数中设计一个简单但有效的权重系数,能够将互补类损失进行均衡化处理,减少互补类对真值类的抑制作用。通过实验证明,本发明提出的均衡互补熵的训练算法能够在现有的技术上进一步地解决长尾图像的分类问题,与传统的方法相比,能够带来更好的分类效果,且拥有更好的泛化能力。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明实施例提供的基于均衡互补熵的长尾图像分类方法流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例:
参见图1,本实施例提供的基于均衡互补熵的长尾图像分类方法,包括如下步骤:
S101、获取长尾图像训练集,针对长尾图像训练集,读取图像数据及标签。
读取输入图像的像素矩阵,用于后续的图像视觉特征处理。
S102、随机初始化卷积神经网络参数,采用mini-batch的方式对提取的图像数据进行前向计算,得到全连接层输出,并计算Softmax预测概率。
利用卷积神经网络模型提取S101中输入图像的像素矩阵,进行卷积层、激活函数层和池化层等处理,得到全连接层输入X;将全连接层输入X与分类器权重W进行矩阵相乘,得到全连接层输出其中bj为偏置;然后对全连接层输出进行Softmax计算,得到图像被分类为各个类别的预测概率,其中Softmax激活函数的输出结果为一个K×1的向量,且Softmax的预测概率总和为1,K为类别数;
S103、设计均衡互补熵损失函数,通过在归一化的互补熵损失函数中引入一个自适应权重系数,得到均衡互补熵损失函数,然后利用Softmax预测概率计算互补类的损失。
本实施例设计一个自适应的权重因子以平衡不同互补类的损失值。该自适应权重因子通过为样本数量较多的互补类赋予较小的权重,同时为样本数量较少的互补类赋予较大的权重,使得不同互补类的损失值达到相对平衡,从而提高尾类被正确分类的概率。
在本实施例中,所设计的自适应权重系数的表达式为:
其中,wj表示互补类j的权重系数,nj表示互补类j的样本数,nsum表示全部样本数,α是一个超参数设置。
在本实施例中,引入自适应权重因子的均衡互补熵损失函数为:
S104、联合交叉熵损失函数和均衡互补熵损失函数对分类模型进行训练,引导网络模型参数更新,得到图像分类模型。
在本实施例中,交叉熵损失函数的公式如下:
其中,psi表示当前样本属于ground-truth类i的概率。
在本实施例中,最终的分类模型为:
本发明通过在互补熵损失函数中引入一个自适应权重系数,设计一个均衡互补熵损失函数分类算法。然后利用交叉熵损失函数作为主要训练目标,学习来自ground-truth类的样本信息;同时,利用均衡互补熵损失函数作为次要训练目标,学习来自互补类的样本信息。最后联合交叉熵损失和均衡互补熵损失进行训练,引导网络模型的参数更新。本发明不仅有效地利用ground-truth类和互补类的样本进行训练,而且能够进一步地提高模型的分类性能。
一种基于均衡互补熵的长尾图像分类系统,包括如下模块:
数据集处理模块,用于获取长尾图像训练集,针对长尾图像训练集,读取图像数据及标签;
预测概率计算模块,用于随机初始化卷积神经网络参数,采用mini-batch的方式对提取的图像数据进行前向计算,得到全连接层输出,并计算Softmax预测概率;
均衡互补熵训练模块,用于设计均衡互补熵损失函数,通过在归一化的互补熵损失函数中引入一个自适应权重系数,得到均衡互补熵损失函数,然后利用Softmax预测概率计算互补类的损失;
分类模型获取模块,用于联合交叉熵损失函数和均衡互补熵损失函数对分类模型进行训练,引导网络模型参数更新,得到图像分类模型。
本发明提出方法及系统,其采用的均衡互补熵的训练算法能够解决长尾图像的分类问题,能够带来更好的分类效果,拥有更好的泛化能力。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (8)
1.一种基于均衡互补熵的长尾图像分类方法,其特征在于,包括:
步骤1、获取长尾图像训练集,针对长尾图像训练集,读取图像数据及标签;
步骤2、随机初始化卷积神经网络参数,采用mini-batch的方式对提取的图像数据进行前向计算,得到全连接层输出,并计算Softmax预测概率;
步骤3、设计均衡互补熵损失函数,通过在归一化的互补熵损失函数中引入一个自适应权重系数,得到均衡互补熵损失函数,然后利用Softmax预测概率计算互补类的损失;
步骤4、联合交叉熵损失函数和均衡互补熵损失函数对分类模型进行训练,引导网络模型参数更新,得到图像分类模型。
2.根据权利要求1所述的基于均衡互补熵的长尾图像分类方法,其特征在于,所述读取图像数据,包括:
读取输入图像的像素矩阵,用于后续的图像视觉特征处理。
3.根据权利要求1所述的基于均衡互补熵的长尾图像分类方法,其特征在于,所述得到全连接层输出,并计算Softmax预测概率,包括:
采用卷积神经网络模型提取步骤1中输入长尾图像的像素矩阵,进行卷积层、激活函数层和池化层等前向计算处理,得到全连接层输入,根据全连接层输入得到全连接层输出,然后采用Softmax激活函数计算得到图像的Softmax预测概率。
8.基于均衡互补熵的长尾图像分类系统,其特征在于,其包括如下模块:
数据集处理模块,用于获取长尾图像训练集,针对长尾图像训练集,读取图像数据及标签;
预测概率计算模块,用于随机初始化卷积神经网络参数,采用mini-batch的方式对提取的图像数据进行前向计算,得到全连接层输出,并计算Softmax预测概率;
均衡互补熵训练模块,用于设计均衡互补熵损失函数,通过在归一化的互补熵损失函数中引入一个自适应权重系数,得到均衡互补熵损失函数,然后利用Softmax预测概率计算互补类的损失;
分类模型获取模块,用于联合交叉熵损失函数和均衡互补熵损失函数对分类模型进行训练,引导网络模型参数更新,得到图像分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210500992.9A CN114821184B (zh) | 2022-05-10 | 2022-05-10 | 一种基于均衡互补熵的长尾图像分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210500992.9A CN114821184B (zh) | 2022-05-10 | 2022-05-10 | 一种基于均衡互补熵的长尾图像分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114821184A true CN114821184A (zh) | 2022-07-29 |
CN114821184B CN114821184B (zh) | 2024-09-20 |
Family
ID=82513152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210500992.9A Active CN114821184B (zh) | 2022-05-10 | 2022-05-10 | 一种基于均衡互补熵的长尾图像分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114821184B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116203929B (zh) * | 2023-03-01 | 2024-01-05 | 中国矿业大学 | 一种面向长尾分布数据的工业过程故障诊断方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011362A (zh) * | 2021-03-29 | 2021-06-22 | 吉林大学 | 基于双线性池化与注意力机制的细粒度眼底图像分级算法 |
-
2022
- 2022-05-10 CN CN202210500992.9A patent/CN114821184B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011362A (zh) * | 2021-03-29 | 2021-06-22 | 吉林大学 | 基于双线性池化与注意力机制的细粒度眼底图像分级算法 |
Non-Patent Citations (5)
Title |
---|
KIM, Y. ET AL.: "Imbalanced image classification with complement cross entropy", 《PATTERN RECOGNITION LETTERS》, vol. 151, 31 December 2021 (2021-12-31), pages 33 - 40, XP086812926, DOI: 10.1016/j.patrec.2021.07.017 * |
LUYU HU ET AL.: "Balanced complement loss for long-tailed image classification", 《 MULTIMEDIA TOOLS AND APPLICATIONS》, vol. 83, 8 November 2023 (2023-11-08), pages 52989 * |
曾富亮: "基于深度学习的唐卡主尊分类模型的研究", 《中国优秀硕士学位论文全文数据库 (哲学与人文科学辑)》, no. 8, 15 August 2021 (2021-08-15), pages 088 - 41 * |
程铃钫等: "不平衡数据软子空间聚类算法在临床医学中的应用与研究", 《软件》, vol. 40, no. 11, 30 November 2019 (2019-11-30), pages 106 - 110 * |
胡陆宇: "面向长尾图像分类的Softmax互补类权重设计算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 2, 15 February 2024 (2024-02-15), pages 138 - 1326 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116203929B (zh) * | 2023-03-01 | 2024-01-05 | 中国矿业大学 | 一种面向长尾分布数据的工业过程故障诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114821184B (zh) | 2024-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN113313657B (zh) | 一种用于低光照图像增强的非监督学习方法和系统 | |
CN111414942A (zh) | 一种基于主动学习和卷积神经网络的遥感图像分类方法 | |
CN113378632A (zh) | 一种基于伪标签优化的无监督域适应行人重识别算法 | |
CN113378959B (zh) | 一种基于语义纠错下生成对抗网络的零样本学习方法 | |
CN113255832B (zh) | 双分支多中心的长尾分布识别的方法 | |
CN116468938A (zh) | 一种在标签带噪数据上鲁棒的图像分类方法 | |
CN112861982A (zh) | 一种基于梯度平均的长尾目标检测方法 | |
CN109872326B (zh) | 基于深度强化网络跳跃连接的轮廓检测方法 | |
CN112784929A (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN115761735A (zh) | 一种基于自适应伪标签纠正的半监督语义分割方法 | |
CN112464816A (zh) | 基于二次迁移学习的地方手语识别方法、装置 | |
CN111274971A (zh) | 一种基于颜色空间融合网络及空间变换网络的交通识别方法 | |
CN113420794A (zh) | 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法 | |
CN115205689A (zh) | 一种改进的无监督遥感影像异常检测方法 | |
CN113344077A (zh) | 一种基于卷积胶囊网络结构的抗噪茄科病害识别方法 | |
CN114821184A (zh) | 一种基于均衡互补熵的长尾图像分类方法及系统 | |
CN116452862A (zh) | 基于领域泛化学习的图像分类方法 | |
CN111325259A (zh) | 一种基于深度学习和二进制编码的遥感图像分类方法 | |
CN113378620B (zh) | 监控视频噪声环境下跨摄像头行人重识别方法 | |
CN113989256A (zh) | 遥感图像建筑物的检测模型优化方法及检测方法、装置 | |
CN113379037A (zh) | 一种基于补标记协同训练的偏多标记学习方法 | |
CN116756391A (zh) | 一种基于图数据增强的不平衡图节点神经网络分类方法 | |
CN116051924A (zh) | 一种图像对抗样本的分治防御方法 | |
CN114037866B (zh) | 一种基于可辨伪特征合成的广义零样本图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |