CN116030302A - 基于表征数据增强和损失再平衡的长尾图像识别方法 - Google Patents
基于表征数据增强和损失再平衡的长尾图像识别方法 Download PDFInfo
- Publication number
- CN116030302A CN116030302A CN202310019861.3A CN202310019861A CN116030302A CN 116030302 A CN116030302 A CN 116030302A CN 202310019861 A CN202310019861 A CN 202310019861A CN 116030302 A CN116030302 A CN 116030302A
- Authority
- CN
- China
- Prior art keywords
- tail
- long
- data
- training
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于表征数据增强和损失再平衡的长尾图像识别方法,先长尾图像预处理:然后不同数据集按照不同的不平衡比例进行构造训练集和测试集;构造随机数据增强列表;获得每一个类别的采样权重,通过翻转头部类到尾部类的样本数量加上权重的缩放因子,再将该权重转为一个Tensor向量;将权重作为参数构建反采样训练集和加权损失的权重;建立长尾数据分类模型;构建一阶段的训练范式,使用双边分支结构自适应地从未加权分支转变到加权分支;训练初始,未加权分支学习长尾图像的特征,随着训练轮次的增加逐渐转移到使用重加权分类分支来学习如何对长尾数据进行分类,从而完成原始数据学习长尾图像的表征和对长尾图像进行识别。
Description
技术领域
本发明属于计算机视觉技术领域,特别是涉及一种基于表征数据增强和损失再平衡的长尾图像识别方法。
背景技术
随着近年来人工智能的应用与发展,传统的使用人工进行图像分类方法逐渐被人工智能技术所取代,而在大自然中所有数据均为长尾数据分布,因此若要将人工智能技术落地于真实场景的图像分类中还有需解决问题,例如在野生动物图像分类中,收集拍摄一张稀有动物要等待非常长的时间,对于一些濒临灭绝的动物来说,甚至要好几年才能得到一张照片。但珍稀新动物的识别比数量多的动物的保护价值更大。如果我们的图像分类框架只能在数量多的动物类别上做得好,那么该方法将永远不会具有实际可用性。
因此长尾图像识别在实际的图像分类中是一个亟待解决的问题,它主要表现为:(1)每个类别所包含的数量分布不均衡使得系统更多关注于样本数量多的类别,忽视样本数量少的类别,造成样本数量少的类别的识别准确率非常低。(2)如果让系统过多的关注于样本数量少的类别,使系统一定程度上增加了样本数量少的类别的准确率,代价则是极大损害了样本呢数量多的类别的准确率。以上两个问题表现出长尾图像分类准确率的“蹊跷板”特性。
在长尾图像数据分布中,样本数量多的类别,将其定义为头部类,样本数量少的类别,将其定义为尾部类。由于尾部数据的多样性不足导致整个分类系统的训练会被头部类所主导,最终,系统会对头部类的分类具有一定的偏向。
本文将长尾分布识别的相关研究工作分为三个类别:数据重采样策略,损失重加权以及数据增强策略。
(1)数据重采样策略是一种直接从数据的层面解决长尾分布的预处理操作,目前已经有大量的重采样技术,具体可以细分为:尾部类上采样以及头部类下采样的方法。
尾部类上采样是指在模型训练时,增加尾部类数据的采样概率,以此来缓解类别之间的不平衡程度。但是这种方式只是简单地重复采样少量的尾部数据,并未引入额外的样本信息,因此对于尾部类识别精度的提升十分有限,并且容易造成模型对于尾部类的过拟合的问题。
头部类下采样是指在模型训练时,减少头部类数据的采样概率来缓解类别之间的不平衡程度。这类方法同样存在着弊端,即对头部类数据进行下采样的同时会损失头部类的数据,从而丢失了这些样本所包含的重要信息。针对这个问题,一些方法提出制定一些规则或策略来选择性地去除冗余的头部类样本。
我们针对从现实场景中长尾数据分类过程出发,探究分类框架对于图片数据表征的学习和分类框架中分类器的学习角度出发,实验了分类框架对于长尾数据的多种采样方法。最终发现基于长尾分布的图像分类框架中,造成长尾识别精度较差的主要原因是分类器的学习,并且重采样的策略会影响分类框架学习长尾数据的图像特征。
(2)损失重加权策略是从分类框架对于数据关注度方面解决长尾分布的预处理操作,目前已经有大量的损失重加权技术。损失重加权是通过在算法层面来解决长尾识别的一类方法。通过为不同的数据设计不同的损失大小来构建损失代价矩阵。损失重加权将各类别不同的错误分类数值融合到分类决策中,目的是引导分类器调整对错误分类的尾部类的权重。具体地,由于尾部类数据较少﹐尾部数据往往很容易被忽略﹐很容易被识别错误,因此,应该给予尾部类以更大的损失权重让分类框架更加关注于尾部类。与数据重采样策略相比,损失重加权能够将所有的数据充分利用,并且该类方法不会引入任何人工构造的样本,因此不会在训练中引入噪音。
(3)数据增强策略:数据增强目的在于利用一组数据增强技术,以增强系统训练数据集的大小和质量。在长尾学习中,已经探索了两种数据增强方法,包括基于迁移的增强和常规(非转移)增强。
尽管研究人员在长尾数据识别领域上已经取得了一些成果,但由于长尾数据的极端不平衡以及尾部类样本的缺少,使得现有技术并不成熟。主要存在以下几方面缺陷。想要提升尾部类的识别效率且不影响模型对于头部类的识别性能和提取尾部类可判别性特征极度困难。(1)在长尾图像分类中,在模型初始训练阶段就使用损失重加权和样本重采样则会改变原始数据的原始空间分布,造成分布扭曲,导致模型过拟合。(2)多阶段的训练方式困难且复杂对于后期模型部署较为困难也不利于模型的复用。(3)大多长尾图像识别的任务都是基于多阶段训练范式的模型,对于表征能力的学习都是基于交叉熵损失进行,但其性能还是有巨大的提升空间。
因此,如何研发一个简单且能有效提升尾部类识别准确率和保持头部类识别准确率的长尾图像分类框架是一个亟待解决的问题。
发明内容
本发明实施例的目的在于提供一种基于表征数据增强和损失再平衡的长尾图像识别方法,可有效解决系统过多关注于头类导致尾部类识别准确率降低的问题,并且还能在提升尾部类识别准确率的情况下,保持头部类识别准确率。
为解决上述技术问题,本发明所采用的技术方案是,基于表征数据增强和损失再平衡的长尾图像识别方法,按照以下步骤进行:
步骤S1,长尾图像预处理:
步骤S2,不同数据集按照不同的不平衡比例进行构造训练集和测试集,在长尾数据分布中训练集的不平衡率为[500,256,100,50,10],利用python分别构造不同比例的训练集,测试集则保持平衡;
步骤S3,构造随机数据增强列表,使用python中的transform工具包构造需要使用的随机增强列表,数据增强列表的顺序为图片随机裁剪、图片随机翻转、改变图像的属性,最后进行归一化;
步骤S4,获得每一个类别的采样权重,通过翻转头部类到尾部类的样本数量加上权重的缩放因子,再将该权重转为一个Tensor向量;其中,计算每个类别的权重表达式如下:
其中,N代表权重的缩放因子,W表示类别的权重;公式(1)计算得出每个类别样本数量占总体样本数量的权重并赋值给a,用于公式(2)计算每个类别的权重;
步骤S5,将权重作为参数使用pytorch工具包构建反采样训练集和加权损失的权重;
步骤S6,建立长尾数据分类模型;
步骤S7,构建一阶段的训练范式,使用双边分支结构自适应地从未加权分支转变到加权分支;训练初始,未加权分支学习长尾图像的特征,随着训练轮次的增加逐渐转移到使用重加权分类分支来学习如何对长尾数据进行分类,从而完成原始数据学习长尾图像的表征和对长尾图像进行识别。
进一步地,所述步骤S1具体为:调用Pytorch工具包,将长尾图像的尺寸大小调整为224×224,调整后的图像进行归一化处理,并作为图像数据集。
进一步地,所述步骤S6具体包括:
S61,运用ResNet作为主干网络,参考对比学习中的内容,在ResNet上增加预测头、对比头;
S62,在构造好的训练集和反采样训练集进行随机两次数据增强,生成四个训练集合;
S63,将训练集的图片及标签和反采样训练集的图片及标签先进行Mix-up数据混合,再将训练集的图片及标签和反采样训练集的图片及标签进行Cut-mix数据混合,最终生成两组使用不同混合类型的两组图像混合样本;
S64,构建自监督学习分支,通过全局图片混合的数据增强Mix-up和局部图片混合的数据增强Cut-mix构造出两组图片,再由特征提取器的映射头分别获得Mix-up增强后的整组图片特征映射hg和Cut-mix增强后的整组图片特征映射hl,然后对比头将hg和hl表示转换为输出ug和ul,最小化它们的负余弦相似性,表达式如下:
其中||·||是L2归一化,hg表示Mix-up增强后的整组图片被特征提取器提取的特征,hl表示Cut-mix增强后的整组图片被特征提取器提取的特征,ug和ul分别表示将特征hg和hl经过线性空间映射后的图片特征;
遵循Sim-Siam的架构,使用停止梯度操作来防止崩溃,SimSiam损失函数定义为:
其中sg(hl)、sg(hg)分别为经过Cut-mix、Mix-up数据混合后再由特征提取器提取特征,将提取特征输入到映射头进行特征映射后的输出;
最终构建了两组使用训练集和反采样集的图片;
在计算未加权分类分支和加权分类分支的损失都基于交叉熵损失,区别在于加权分支的交叉熵使用公式(1)和(2)得出的类别权重加权到交叉熵损失;而未加权分支则仅使用交叉熵计算每个类别的交叉熵损失;因此在计算未加权分类分支的交叉熵损失£c时通过以下公式进行计算::
其中,n表示样本的每一次训练的批量大小,f(·)表示预测概率分别为经过Mix-up和Cut-mix后的第i张图片,分别为经过Mix-up和Cut-mix后的第i张图片的标签概率;
S65,构建类别再平衡分支,引入与标签频率成反比的加权因子,然后强制模型学习尾部类和抑制头部类的学习,权重因子设置为:
其中,ri是训练数据集的第i类的采样频率,k是衡量头部类和尾部类之间差距的超参数,c为总的类别数;
给定一个训练数据集再平衡加权分类分支交叉熵损失£cb可以写成:
其中和分别表示混合图像的预测概率和该图像应加权的权重因子。
进一步地,所述S61中,其中预测头、对比头保持对比学习中Sim-Siam的结构一致。
进一步地,所述S63具体过程是:
使用(Xi,Pi)表示训练集的图片及标签,(Xj,Pj)表示反采样训练集的图片及标签,使用Mix-up混合后的图像和标签概率记作使用Cut-mix混合后的图像和标签概率记作
Mix-up的混合表达式如下:
λ~Beta(β,β) (3)
其中β是自设的参数,值域为(0,1),Beta(β,β)表示使用β值进行Beta采样得到一个采样数值,并将该采样数值赋值给λ,xi,pi为训练集的图片及标签,xj,pj为反采样训练集的图片及标签,为使用Mix-up混合后的图像和标签概率;
Cut-mix的混合表达式如下:
Cut-Mix通过将图像区域局部替换为另一个训练图像的局部来组合另外一个图像,其中M∈{0,1}Width×Height表示为二进制掩码,为从两张图中需要裁剪的patch位置,⊙是按元素相乘,Width和Height分别表示图像xi的宽和高,为经过Cut-mix数据增强后的图片;
其中Cut-mix的图像数据混合是通过对图像的边界框坐标进行采样,B=(rx,ry,rw,rh)表示在图片Xi和Xj需要裁剪的区域,采样区域的坐标通过以下公式实现:
rx,ry,rw,rh分别表示为待裁剪区域的x坐标、y坐标、裁剪区域的宽、裁剪区域的高,rx,ry均通过均匀采样得到,Width和Height分别表示图像xi的宽和高,λ由公式(3)计算得到,其混合标签和权重与Mix-Up相同。
进一步地,所述步骤S7具体包括:构建一阶段的训练范式,使用双边分支结构自适应地学习再平衡分支,将未加权分类分支的交叉熵损失£c乘以α,再平衡加权分类分支的交叉熵损失£cb乘以(1-α),α随着当前训练轮次T的增加而自动减小:
其中Tmax代表总的训练轮次,α的含义是模型注意力权重;具体而言,α是未加权分类分支的交叉熵损失£c的权重,而(1-α)为再平衡加权分类分支的交叉熵损失£cb的权重,随着训练轮次的增加,模型会通过α值的改变逐渐将关注度从未加权分类分支转边到再平衡加权分类分支。
总损失£total定义为损失£c、损失£cb和损失£sim的组合:
£total=α£c+(1-α)£cb+γ£sim (16)
其中γ是控制£sim损失的超参数。
本发明的有益效果是:实现构造一个泛化能力强,平衡的长尾图像分类器,同时充分提升特征提取器对于可判别特征的提取能力;以解决现有技术中提高尾部类导致头部类准确率下降的问题、多阶段训练模型步骤复杂且对参数敏感导致整体性能显著下降的问题。并且还具有以下特点:
(1)本发明提出了一个针对长尾图像的渐进式全局和局部数据混合一致的分类框架,该框架可有效提升长尾图像的整体分类准确率。
(2)本发明使用有效渐进再平衡学习策略,将学习图像特征和分类器分类边界学习融合为一次完成,减少分类框架多次训练的复杂性,更加适合解决真实环境下的长尾数据分布问题。
(3)本发明的长尾数据分类框架相比其他分类框架无需额外的数据操作且可以用小批量数据来训练分类框架,因此该分类框架的复用性较高。
(4)训练算法不需要负样本对和更大的训练批量,在实际应用中灵活性高,使用限制小。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是长尾数据的分布图;
图2是对比学习的网络结构图;
图3是基于表征数据增强和损失再平衡的长尾识别方法图;
图4是该对于头部类和尾部类模型关注的区域图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于表征数据增强和损失再平衡的长尾图像识别方法,包括以下步骤:
步骤S1,长尾图像预处理:调用Pytorch工具包,将长尾图像的尺寸大小调整为224×224,调整后的图像进行归一化处理,并作为图像数据集。
步骤S2,不同数据集按照不同的不平衡比例进行构造训练集和测试集,在长尾数据分布中训练集的不平衡率为[500,256,100,50,10],利用python分别构造不同比例的训练集,测试集则保持平衡。
步骤S3,构造随机数据增强列表,使用python中的transform工具包构造需要使用的随机增强列表。数据增强列表的顺序为图片随机裁剪、图片随机翻转、改变图像的属性,最后进行归一化。
步骤S4,获得每一个类别的采样权重,通过翻转头部类到尾部类的样本数量加上权重的缩放因子,再将该权重转为一个Tensor向量。其中,计算每个类别的权重表达式如下:
其中,N代表权重的缩放因子,W表示类别的权重。公式(1)计算得出每个类别样本数量占总体样本数量的权重并赋值给a,用于公式(2)计算每个类别的权重。
步骤S5,将该权重作为参数使用pytorch工具包构建反采样训练集和加权损失的权重。
步骤S6,建立长尾数据分类模型;
S61,运用ResNet作为主干网络,并在此基础上参考对比学习中的内容,在ResNet上增加预测头、对比头。其中预测头、对比头保持对比学习中Sim-Siam的结构一致;
S62,在构造好的训练集和反采样训练集进行随机两次数据增强,生成四个训练集合;
S63,将训练集的图片及标签和反采样训练集的图片及标签先进行Mix-up数据混合,再一次将训练集的图片及标签和反采样训练集的图片及标签进行Cut-mix数据混合,最终生成两组使用不同混合类型的两组图像混合样本。
使用(Xi,Pi)表示训练集的图片及标签,(Xj,Pj)表示反采样训练集的图片及标签。使用Mix-up混合后的图像和标签概率记作使用Cut-mix混合后的图像和标签概率记作
Mix-up的混合表达式如下:
λ~Beta(β,β) (3)
其中β是一个自己设置的参数,值域为(0,1),Beta(β,β)表示使用β值进行Beta采样得到一个采样数值,并将该采样数值赋值给λ。xi,pi为训练集的图片及标签,xj,pj为反采样训练集的图片及标签,为使用Mix-up混合后的图像和标签概率。
Cut-mix的混合表达式如下:
Cut-Mix通过将图像区域局部替换为另一个训练图像的局部来组合另外一个图像。其中M∈{0,1}Width×Height表示为二进制掩码,可理解为从两张图中需要裁剪的patch位置,⊙是按元素相乘。Width和Height分别表示图像xi的宽和高,为经过Cut-mix数据增强后的图片。
具体来说,我们对图像的边界框坐标进行采样,B=(rx,ry,rw,rh)表示在图片Xi和Xj需要裁剪的区域,采样区域的坐标通过以下公式实现。
rx,ry,rw,rh分别表示为待裁剪区域的x坐标、y坐标,裁剪区域的宽、裁剪区域的高,rx,ry均通过均匀采样得到。Width和Height分别表示图像xi的宽和高。其中λ由公式(3)计算得到,其混合标签和权重与Mix-Up相同。
S64,构建自监督学习分支。在上述步骤S61中构建了对比头和映射头,在此我们的目标是最大化特征空间中全局和局部混合的余弦相似性,以获得对比一致性。具体来说,这两种类型的增强图像由特征提取器的映射头以获得表征的hg和hj,然后对比头将这两种表示转换为输出ug和ul。最小化它们的负余弦相似性,表达式如下
其中||·||是L2归一化。hg表示Mix-up增强后的整组图片被特征提取器提取的特征,hl表示Cut-mix增强后的整组图片被特征提取器提取的特征,ug和ul分别表示将特征hg和hl经过线性空间映射后的图片特征。
要最小化增强图像的负余弦相似性,遵循Sim-Siam的架构,使用停止梯度操作来防止崩溃。SimSiam损失函数定义为:
其中sg(hl)、sg(hg)分别为经过Cut-mix、Mix-up数据混合后再由特征提取器提取特征,将提取特征输入到映射头进行特征映射后的输出。
上述步骤最终构建了两组使用训练集和反采样集的图片,在计算未加权分类分支的交叉熵损失£c时通过以下公式进行计算:
其中,n表示样本的每一次训练的批量大小,f(·)表示预测概率分别为经过Mix-up和Cut-mix后的第i张图片,分别为经过Mix-up和Cut-mix后的第i张图片的标签概率。
而一组图像被分别进行Mix-up和Cut-mix图像混合,因此实际的批量大小将是采样批量大小的两倍。
S65,构建类别再平衡分支:类重加权的设计原则是引入与标签频率成反比的加权因子,然后强制模型学习尾部类和抑制头部类的学习。因此将权重因子设置为:
其中,ri是训练数据集的第i类的采样频率,k是衡量头部类和尾部类之间差距的超参数,c为总的类别数。
注意,k=0对应于无重加权,k=1对应于类别平衡法。将标量权重更改为one-hot向量形式,并混合两幅图像的权重向量。
给定一个训练数据集再平衡加权分类分支交叉熵损失£cb可以写成:
其中和分别表示混合图像的预测概率和该图像应加权的权重因子。
注意,全局和局部混合图像具有相同的混合权重。
步骤S7,构建一阶段的训练范式,使用双边分支结构自适应地学习再平衡分支。将未加权分类分支的交叉熵损失£c乘以α,再平衡加权分类分支的交叉熵损失£cb乘以(1-α)。α随着当前训练轮次T的增加而自动减小:
其中Tmax代表总的训练轮次。总损失£total定义为损失£c、损失£cb和损失£sim的组合:
£total=α£c+(1-α)£cb+γ£sim (16)
其中γ是控制£sim损失的超参数,默认值为10。
实施例
在长尾数据集上,本发明公布的基于表征数据增强和损失再平衡的长尾识别方法得到了较好的验证。如图1所示,长尾数据集分为3个部分,分别是头部类、中部类、尾部类,头部类具体定义为样本数量大于100,中部类定义为样本数量大于20且小于100的,尾部类则是样本数量小于20的。从图1可以看出,在基于长尾分布的数据集上有的头部类样本多达上千个,而有的尾部类样本却只有2-5个表现出极度的数据不平衡。若使用完全不经过任何处理的神经网络进行模型训练,训练后的模型性能将会非常糟糕,因为模型的参数量有限无法有效的表达所有类别,导致模型对于样本数量较多的头部类或者中部类有较好的性能而尾部类则完全没被学习到,但在真实的应用场景中,尾部类的数据往往比头部类的数据更加有研究价值,比如野生动物识别中珍稀动物相比常见的动物更具研究意义。但如果让模型完全的去关注尾部类,又会导致头部类和中部类的性能急剧下降,使得模型失去好的健壮性。因此,需要运用本发明的分类方法进行准确分类。
具体过程如下:
1、图像预处理:长尾数据集中每个数据集都有不同的图像尺寸,故当得到这些图像数据时,首先需要进行预处理。在本发明的实施例中,预处理可分为三步:1)调整图像大小:调用Pytorch工具包,来对长尾数据集进行调整大小的操作,在本文中,把长尾数据图像尺寸统一处理成224×224大小;2)数据归一化处理:在许多图像处理过程中,对图像进行归一化处理是必须的预处理过程,所谓的归一化处理就是使图像像素值分布在0-255之间的点的值分布在[0,1]之间,处理后可以加快模型参数收敛的速度,在这里,我们也对长尾数据使用归一化操作,是网络参数在训练中快速收敛,节约训练时间;3)划分数据集:将长尾数据集划分为长尾数据训练集和长尾数据测试集。其中长尾数据训练集用来训练本发明的长尾数据分类模型,长尾数据测试集用来测试在长尾数据中的图像分类模型的性能。特别地,训练集是有五种不平衡概率分别为[500、256、100、50、10],而测试集则是完全平衡地数据分布。这里的不平衡率=样本最多类别的样本总数/样本最少类别的样本总数。
2、建立长尾数据分类建模为了捕捉到长尾数据每一个类别地可判别特征以及提高模型地泛化能力,本发明提出了基于表征数据增强和损失再平衡的长尾识别方法。该方法模型可分为特征提取器学习和分类器学习以及累积学习三个部分。
如图4所示,证明本文的方法能关注于头部类和尾部别样本的可判别特征,将模型性能可视化,和实验的正确率一个功能,证明模型性能好。
a.首先,如上述的S5、S6,如图3所示,编码器部分对输入地训练数据集及进行反采样操作获得反采样数据集,将训练数据集和反采样数据集通过使用Mix-up和Cut-mix的数据混合方式相互结合,将其输入到特征提取器中进行特征提取获得每一个类别的可判别特征,最终将特征输入到分类器。
b.分类器学习部分通过得到特征提取器中的结果x分别输入到分类器的分类头和再平衡头以及预测头和对比头,其中分类头为ResNet自带的,将分类头复制一份命名为再平衡头。从分类头输出的logits与真实标签计算交叉熵损失,交叉熵损失表达式如下:
从再平衡头输出的logits与真实标签计算加权的交叉熵损失,损失的权重通过以下表达式得到:
因此加权损失的公式为:
而经过映射头和对比头的输出则两两之间相互计算余弦相似度,如图2所示的架构,让映射头去更加拟合映射头的输出,具体的计算公式为:
通过计算相似度将其转化为损失回传到特征提取器进行优化,因此对比损失的计算公式为:
c.累积学习
为了学习更好的表征,模型一开始使用非加权的交叉熵损失进行而模型的后半阶段通过使用重加权和重采样进行分类器学习,因此需要一个能衔接两个学习方式的方法,因此该发明使用累计学习的方法,通过时间加权的方式来计算整体的损失。具体的加权表达式如下所示:
因此最终模型损失的表达式如下:
£total=α£c+(1-α)£cb+γ£sim (7)
3.预测:为了评估本发明长尾数据分类模型的分类性能,需要在长尾图像数据测试集上进行实验,与此同时,为了验证本发明的分类模型与其他分类模型在长尾图像上分类的性能差异,本文将本发明的长尾图像分类方法与其他分类方法均基于长尾图像测试集进行分类正确率的对比。分类正确率通过分类精度公式表达如下:
其中,f为基于图像特征的编码器的长尾图像分类方法,D为长尾分布的图像测试集,N为长尾图像测试集中图像的数量,xi为长尾图像测试集D中的第i张图像,yi为长尾图像测试集D中第i张图像的真实类标,f(xi)为长尾图像分类方法对长尾分布图像进行特征学习后的预测类标。
通过实验结果看出,本发明在不同长尾分布图像测试集上的分类正确率均超过了目前主流的算法,明显高于其他算法模型,如表1所示。充分证明了本发明的分类方法在不同长尾分布图像分类中具备较高的准确性。
表1 本发明算法在不同数据集上的性能表现
数据集 | 准确率 |
Cifar-10-LT(IF:100) | 60.29% |
Cifar-100-LT(IF:100) | 56.23% |
Image-Net-LT(IF:256) | 56.28% |
另外为有效对比其他算法和本算法的性能,特选择了Cifar-100-LT(IF:100)数据集作为性能对比,在对比中选择了基于对比学习和基于交叉熵损失的以及基于二阶段的训练方式的方法进行性能对比。如表2所示。
表2 本发明和其他算法的对比在数据集Cifar-100-LT(IF:100)上
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (6)
1.基于表征数据增强和损失再平衡的长尾图像识别方法,其特征在于,按照以下步骤进行:
步骤S1,长尾图像预处理:
步骤S2,不同数据集按照不同的不平衡比例进行构造训练集和测试集,在长尾数据分布中训练集的不平衡率为[500,256,100,50,10],利用python分别构造不同比例的训练集,测试集则保持平衡;
步骤S3,构造随机数据增强列表,使用python中的transform工具包构造需要使用的随机增强列表,数据增强列表的顺序为图片随机裁剪、图片随机翻转、改变图像的属性,最后进行归一化;
步骤S4,获得每一个类别的采样权重,通过翻转头部类到尾部类的样本数量加上权重的缩放因子,再将该权重转为一个Tensor向量;其中,计算每个类别的权重表达式如下:
其中,N代表权重的缩放因子,W表示类别的权重;公式(1)计算得出每个类别样本数量占总体样本数量的权重并赋值给a,用于公式(2)计算每个类别的权重;
步骤S5,将权重作为参数使用pytorch工具包构建反采样训练集和加权损失的权重;
步骤S6,建立长尾数据分类模型;
步骤S7,构建一阶段的训练范式,使用双边分支结构自适应地从未加权分支转变到加权分支;训练初始,未加权分支学习长尾图像的特征,随着训练轮次的增加逐渐转移到使用重加权分类分支来学习如何对长尾数据进行分类,从而完成原始数据学习长尾图像的表征和对长尾图像进行识别。
2.根据权利要求1所述的基于表征数据增强和损失再平衡的长尾图像识别方法,其特征在于,所述步骤S1具体为:调用Pytorch工具包,将长尾图像的尺寸大小调整为224×224,调整后的图像进行归一化处理,并作为图像数据集。
3.根据权利要求1所述的基于表征数据增强和损失再平衡的长尾图像识别方法,其特征在于,所述步骤S6具体包括:
S61,运用ResNet作为主干网络,参考对比学习中的内容,在ResNet上增加预测头、对比头;
S62,在构造好的训练集和反采样训练集进行随机两次数据增强,生成四个训练集合;
S63,将训练集的图片及标签和反采样训练集的图片及标签先进行Mix-up数据混合,再将训练集的图片及标签和反采样训练集的图片及标签进行Cut-mix数据混合,最终生成两组使用不同混合类型的两组图像混合样本;
S64,构建自监督学习分支,通过全局图片混合的数据增强Mix-up和局部图片混合的数据增强Cut-mix构造出两组图片,再由特征提取器的映射头分别获得Mix-up增强后的整组图片特征映射hg和Cut-mix增强后的整组图片特征映射hl,然后对比头将hg和hl表示转换为输出ug和ul,最小化它们的负余弦相似性,表达式如下:
其中||·||是L2归一化,hg表示Mix-up增强后的整组图片被特征提取器提取的特征,hl表示Cut-mix增强后的整组图片被特征提取器提取的特征,ug和ul分别表示将特征hg和hl经过线性空间映射后的图片特征;
遵循Sim-Siam的架构,使用停止梯度操作来防止崩溃,SimSiam损失函数定义为:
其中sg(hl)、sg(hg)分别为经过Cut-mix、Mix-up数据混合后再由特征提取器提取特征,将提取特征输入到映射头进行特征映射后的输出;
最终构建了两组使用训练集和反采样集的图片;
在计算未加权分类分支和加权分类分支的损失都基于交叉熵损失,区别在于加权分支的交叉熵使用公式(1)和(2)得出的类别权重加权到交叉熵损失;而未加权分支则仅使用交叉熵计算每个类别的交叉熵损失;因此在计算未加权分类分支的交叉熵损失£c时通过以下公式进行计算::
S65,构建类别再平衡分支,引入与标签频率成反比的加权因子,然后强制模型学习尾部类和抑制头部类的学习,权重因子设置为:
其中,ri是训练数据集的第i类的采样频率,k是衡量头部类和尾部类之间差距的超参数,c为总的类别数;
4.根据权利要求3所述的基于表征数据增强和损失再平衡的长尾图像识别方法,其特征在于,所述S61中,其中预测头、对比头保持对比学习中Sim-Siam的结构一致。
5.根据权利要求3所述的基于表征数据增强和损失再平衡的长尾图像识别方法,其特征在于,所述S63具体过程是:
Mix-up的混合表达式如下:
λ~Beta(β,β) (3)
其中β是自设的参数,值域为(0,1),Beta(β,β)表示使用β值进行Beta采样得到一个采样数值,并将该采样数值赋值给λ,xi,pi为训练集的图片及标签,xj,pj为反采样训练集的图片及标签,为使用Mix-up混合后的图像和标签概率;
Cut-mix的混合表达式如下:
Cut-Mix通过将图像区域局部替换为另一个训练图像的局部来组合另外一个图像,其中M∈{0,1}Width×Height表示为二进制掩码,为从两张图中需要裁剪的patch位置,⊙是按元素相乘,Width和Height分别表示图像xi的宽和高,为经过Cut-mix数据增强后的图片;
其中Cut-mix的图像数据混合是通过对图像的边界框坐标进行采样,B=(rx,ry,rw,rh)表示在图片Xi和Xj需要裁剪的区域,采样区域的坐标通过以下公式实现:
rx,ry,rw,rh分别表示为待裁剪区域的x坐标、y坐标、裁剪区域的宽、裁剪区域的高,rx,ry均通过均匀采样得到,Width和Height分别表示图像xi的宽和高,λ由公式(3)计算得到,其混合标签和权重与Mix-Up相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310019861.3A CN116030302A (zh) | 2023-01-06 | 2023-01-06 | 基于表征数据增强和损失再平衡的长尾图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310019861.3A CN116030302A (zh) | 2023-01-06 | 2023-01-06 | 基于表征数据增强和损失再平衡的长尾图像识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116030302A true CN116030302A (zh) | 2023-04-28 |
Family
ID=86081191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310019861.3A Pending CN116030302A (zh) | 2023-01-06 | 2023-01-06 | 基于表征数据增强和损失再平衡的长尾图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116030302A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433989A (zh) * | 2023-06-08 | 2023-07-14 | 深圳大学 | 特征增强方法、装置、计算机设备和存储介质 |
CN118071623A (zh) * | 2024-04-25 | 2024-05-24 | 北京邮电大学 | 图像美学评估的长尾数据增强方法、装置、设备及介质 |
-
2023
- 2023-01-06 CN CN202310019861.3A patent/CN116030302A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433989A (zh) * | 2023-06-08 | 2023-07-14 | 深圳大学 | 特征增强方法、装置、计算机设备和存储介质 |
CN116433989B (zh) * | 2023-06-08 | 2023-12-01 | 深圳大学 | 特征增强方法、装置、计算机设备和存储介质 |
CN118071623A (zh) * | 2024-04-25 | 2024-05-24 | 北京邮电大学 | 图像美学评估的长尾数据增强方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111461110B (zh) | 一种基于多尺度图像和加权融合损失的小目标检测方法 | |
CN116030302A (zh) | 基于表征数据增强和损失再平衡的长尾图像识别方法 | |
CN110097609B (zh) | 一种基于样本域的精细化绣花纹理迁移方法 | |
CN111429340A (zh) | 一种基于自注意力机制的循环图像翻译方法 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN110555399A (zh) | 手指静脉识别方法、装置、计算机设备及可读存储介质 | |
CN112115967B (zh) | 一种基于数据保护的图像增量学习方法 | |
CN111401156B (zh) | 基于Gabor卷积神经网络的图像识别方法 | |
CN113112020A (zh) | 一种基于生成网络与知识蒸馏的模型网络提取和压缩方法 | |
CN112884758B (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN112819063B (zh) | 一种基于改进的Focal损失函数的图像识别方法 | |
CN113744136A (zh) | 基于通道约束多特征融合的图像超分辨率重建方法和系统 | |
CN113591633A (zh) | 基于动态自注意力Transformer的面向对象土地利用信息解译方法 | |
CN116071352A (zh) | 一种电力安全工器具表面缺陷图像的生成方法 | |
Li et al. | Mine image enhancement using adaptive bilateral gamma adjustment and double plateaus histogram equalization | |
CN113627597A (zh) | 一种基于通用扰动的对抗样本生成方法及系统 | |
Liu et al. | Frequency separation-based multi-scale cascading residual block network for image super resolution | |
Gong et al. | A superpixel segmentation algorithm based on differential evolution | |
CN114708462A (zh) | 多数据训练的检测模型生成方法、系统、设备及存储介质 | |
Wu et al. | A Steganalysis framework based on CNN using the filter subset selection method | |
CN110119453A (zh) | 一种基于WebGIS的地方志文献可视化方法及系统 | |
Gong et al. | Research on mobile traffic data augmentation methods based on SA-ACGAN-GN | |
CN114155496B (zh) | 一种基于自注意力的车辆属性多任务协同识别方法 | |
Wang et al. | [Retracted] Quantitative Evaluation of Plant and Modern Urban Landscape Spatial Scale Based on Multiscale Convolutional Neural Network | |
CN115908949B (zh) | 基于类平衡编码器的长尾图像识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |