CN113449613A - 多任务长尾分布图像识别方法、系统、电子设备及介质 - Google Patents
多任务长尾分布图像识别方法、系统、电子设备及介质 Download PDFInfo
- Publication number
- CN113449613A CN113449613A CN202110662883.2A CN202110662883A CN113449613A CN 113449613 A CN113449613 A CN 113449613A CN 202110662883 A CN202110662883 A CN 202110662883A CN 113449613 A CN113449613 A CN 113449613A
- Authority
- CN
- China
- Prior art keywords
- tail
- image
- loss function
- class
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000009826 distribution Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 101
- 230000006870 function Effects 0.000 claims abstract description 95
- 238000013508 migration Methods 0.000 claims abstract description 63
- 230000005012 migration Effects 0.000 claims abstract description 63
- 230000004927 fusion Effects 0.000 claims abstract description 61
- 238000010606 normalization Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000012952 Resampling Methods 0.000 description 4
- 230000003416 augmentation Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000009960 carding Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种多任务长尾分布图像识别方法、系统、电子设备及介质,方法包括:获取头部类图像和尾部类图像;将头部类图像和尾部类图像输入至残差网络模型中,得到残差网络模型输出的便于尾部图像识别的预测尾部融合特征;其中,残差网络模型是将从头部类图像和尾部类图像中提取的特征进行风格迁移,并对形成的组合特征进行对比学习训练得到的;残差网络模型用于基于对头部类图像和尾部类图像提取的特征进行风格迁移以及对比学习,以生成便于识别尾部类图像的预测尾部融合特征。本发明利用头部风格特征对尾部内容特征进行增广,以提高尾部特征的泛化能力以及特征表达能力,并利用对比学习损失函数增强尾部类图像的内容特征的特征表达能力。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种多任务长尾分布图像识别方法、系统、电子设备及介质。
背景技术
现实生活中的数据经常出现极度不平衡的现象,少数类别含有大量的样本,大多数类别仅有极少量样本,数据各类别的样本分布遵循长尾分布。长尾分布图像识别问题实际上是不平衡分类问题和小样本学习问题的综合体,其中头部样本数目较为充足的类别的识别可以视为不平衡分类问题,尾部样本数目较少的类别的识别可以视为小样本学习问题。
目前,为了解决不平衡分类和小样本学习的问题,多采用基于重采样、加权重、平衡子集学习和多样性增广方法,其中,基于重采样的方法主要利用因果推断的思想,将整个训练过程中对头部类的倾向去除,从而达到了单阶段的重采样;加权重方法主要利用重新定义优化目标和优化方向,以减缓头部类在梯度回传时的梯度主导问题;平衡子集学习可以看作某种集成学习,在推理时动态选择训练的多个专家子网络中的某个或者某几个,并利用集成的方法提高性能;多样性增广方法主要利用生成的尾部类图片或者特征对尾部类进行增广。
由于基于重采样的方法和加权重方法,只能解决梯度回传时头部类相比于尾部类占据的更多梯度回传问题,未解决针对尾部类特征的小样本学习问题;基于平衡子集学习的方法无法解决尾部样本数目较少以致特征识别不准的问题;多样性增广方法只关注了尾部类特征生成,没有利用头部类特征去影响尾部类特征生成,也没有进一步增强尾部类特征自身具有判别力的特征的提取能力。
发明内容
本发明提供一种多任务长尾分布图像识别方法、系统、电子设备及介质,用以解决现有技术中长尾分布图像识别中尾部类泛化能力差、特征表达能力不足的缺陷,增强尾部类自身具有判别力的特征的提取能力。
本发明提供一种多任务长尾分布图像识别方法,包括:获取头部类图像和尾部类图像;将所述头部类图像和所述尾部类图像输入至所述残差网络模型中,得到所述残差网络模型输出的便于尾部图像识别的预测尾部融合特征;其中,所述残差网络模型是将从所述头部类图像和所述尾部类图像中提取的特征进行风格迁移,并对形成的组合特征进行对比学习训练得到的;所述残差网络模型用于基于对头部类图像和尾部类图像提取的特征进行风格迁移以及对比学习,以生成便于识别尾部类图像的预测尾部融合特征。
根据本发明提供的一种多任务长尾分布图像识别方法,所述残差网络模型包括特征提取层、风格迁移层和对比学习层,其中:所述特征提取层,提取所述头部类图像的风格特征,以及提取所述尾部类图像的内容特征;所述风格迁移层,将所述风格特征迁移至所述内容特征,以获得迁移特征;所述对比学习层,对所述迁移特征进行双线性融合、池化以及归一化操作,获得预测尾部融合特征。
根据本发明提供的一种多任务长尾分布图像识别方法,所述风格迁移层,将所述风格特征迁移至所述内容特征,以获得迁移特征,包括:将所述内容特征进行标准化;基于标准化后的内容特征以及所述风格特征的标准差和均值,获得组合特征,以使所述内容特征和所述风格特征的标准差和均值对齐;通过解码器对所述组合特征进行解码并输出,得到所述迁移特征。
根据本发明提供的一种多任务长尾分布图像识别方法,所述对迁移特征进行双线性融合表示为:
其中,b(fA,fB)表示为双线性融合后得到的格拉姆矩阵,fA、fB分别表示为迁移特征在某一位置处的内容特征和风格特征;
所述池化表示为:
其中,ξ表示为将格拉姆矩阵进行池化后得到的矩阵;
所述归一化包括矩归一化操作以及L2范数归一化操作,其中:
所述矩归一化操作表示为:
其中,y表示为将矩阵ξ进行矩归一化操作;
所述L2范数归一化操作表示为:
其中,z表示为预测尾部融合特征。
根据本发明提供的一种多任务长尾分布图像识别方法,训练所述残差网络模型,包括:从已知数据集中获取训练头部类图像和训练尾部类图像构建训练集;将所述训练集输入所述残差网络模型以训练所述残差网络模型,并输出训练尾部融合特征;根据所述训练头部类图像获得交叉熵损失函数,以及根据所述训练尾部融合特征获得伴随有监督学习的损失函数;根据所述交叉熵损失函数和所述伴随有监督对比学习的损失函数获得总损失函数,若所述总损失函数收敛,则训练结束;否则,继续训练所述残差网络模型。
根据本发明提供的一种多任务长尾分布图像识别方法,所述伴随有监督对比学习的损失函数为自监督对比学习损失函数,所述总损失函数表示为:
Loss=Lself+L
其中,Loss表示为总损失函数,Lself表示为自监督对比学习损失函数,L表示为交叉熵损失函数;或者,
所述伴随有监督对比学习的损失函数为监督对比学习损失函数,所述总损失函数表示为:
Loss=Lsup+L
其中,Loss表示为总损失函数,Lsup表示为监督对比学习损失函数,L表示为交叉熵损失函数。
根据本发明提供的一种多任务长尾分布图像识别方法,所述自监督对比学习损失函数Lself表示为:
所述监督对比学习损失函数Lsup表示为:
其中,表示为第i张图像对应的监督对比学习损失函数,表示为属于同一类的所有图片,li≠k=1,分别表示为两种不同的类别,2N表示为图像数量,zi表示为第i张图像对应的特征,zj表示为第j张图像对应的特征,图像i和图像j来源于同一张图像,τ表示为大于0的常数;
交叉熵损失函数表示为:
其中,Li表示为交叉熵损失函数,fyi表示为yi的概率值,fj表示为分类平分向量f中的第j个元素。
本发明还提供一种多任务长尾分布图像识别系统,包括:获取模块,获取头部类图像和尾部类图像;所述残差网络模块,根据所述获取模块获取的头部类图像和尾部类图像输出的便于尾部图像识别的预测尾部融合特征;其中,所述残差网络模型是将从所述头部类图像和所述尾部类图像中提取的特征进行风格迁移,并对形成的组合特征进行对比学习训练得到的;所述残差网络模型用于基于对头部类图像和尾部类图像提取的特征进行风格迁移以及对比学习,以生成便于识别尾部类图像的预测尾部融合特征。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述多任务长尾分布图像识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述多任务长尾分布图像识别方法的步骤。
本发明提供的多任务长尾分布图像识别方法、系统、电子设备及介质,通过风格迁移,以利用头部类图像的风格特征对尾部类图像的内容特征进行增广,以提高尾部特征的泛化能力以及特征表达能力,以便于后续识别;利用对比学习损失函数增强尾部类图像的内容特征的特征表达能力,以便于后续基于识别预测尾部融合特征识别尾部类图片,以进一步避免尾部类图片样本较少以致识别精度较差的问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的多任务长尾分布图像识别方法的流程示意图之一;
图2是本发明提供的多任务长尾分布图像识别方法的流程示意图之二;
图3是本发明提供的多任务长尾分布图像识别系统的结构示意图;
图4是本发明提供的电子设备的结构示意图;
附图标记:
1:获取模块; 2:残差网络模块; 41:处理器;
42:通信接口; 43:存储器; 44:通信总线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明一种多任务长尾分布图像识别方法的流程示意图,该方法包括:
S01,获取头部类图像和尾部类图像;
S02,将头部类图像和尾部类图像输入至残差网络模型中,得到残差网络模型输出的便于尾部图像识别的预测尾部融合特征;其中,残差网络模型是将从头部类图像和尾部类图像中提取的特征进行风格迁移,并对形成的组合特征进行对比学习训练得到的;残差网络模型用于基于对头部类图像和尾部类图像提取的特征进行风格迁移以及对比学习,以生成便于识别尾部类图像的预测尾部融合特征。
需要说明的是,本说明书中的S0N不代表多任务长尾分布图像识别方法的先后顺序,下面结合图2具体描述本发明的多任务长尾分布图像识别方法。
步骤S01,获取头部类图像和尾部类图像。
本实施例中,基于长尾分布图像,获取其内样本数目较为充足的类别作为头部类图像,样本数目较少的类别作为尾部类图像。
步骤S02,将头部类图像和尾部类图像输入至残差网络模型中,得到残差网络模型输出的便于尾部图像识别的预测尾部融合特征;其中,残差网络模型是将从头部类图像和尾部类图像中提取的特征进行风格迁移,并对形成的组合特征进行对比学习训练得到的;残差网络模型用于基于对头部类图像和尾部类图像提取的特征进行风格迁移以及对比学习,以生成便于识别尾部类图像的预测尾部融合特征。
本实施例中,残差网络模型包括特征提取层、风格迁移层和对比学习层,其中:特征提取层,提取头部类图像的风格特征,以及提取尾部类图像的内容特征;风格迁移层,将风格特征迁移至内容特征,以获得迁移特征;对比学习层,对迁移特征进行双线性融合、池化以及归一化操作,获得预测尾部融合特征。
需要说明的是,在特征提取层提取风格特征和内容特征之后,还需要通过数值转换器(encode)将风格特征和内容特征转化为数值特征形式,以便于后续对齐进行风格迁移。
风格迁移层,将风格特征迁移至内容特征,以获得迁移特征,包括:将内容特征进行标准化;基于标准化后的内容特征以及风格特征的标准差和均值,获得组合特征,以使内容特征和风格特征的标准差和均值对齐;通过解码器对组合特征进行解码并输出,得到迁移特征。需要说明的是,内容特征经标准化后均值为0、标准差为1;解码器可采用Decoder g解码器进行解码。
将风格特征迁移至内容特征上,表示为:
其中,f′A表示为尾部类图像在某一位置的内容特征,f′B表示为头部类类图像在f′A对应位置的风格特征,σ表示为均值,μ表示为标准差。
再通过Decoder g输出风格迁移特征,表示为:
T(f′A,f′B)=g(AdaIN)
其中,T(f′A,f′B)表示为输出的迁移特征。
对比学习层根据风格迁移特征进行双线性融合、池化以及归一化操作,获得预测尾部融合特征。
双线性融合表示为:
其中,b(fA,fB)表示为双线性融合后得到的格拉姆矩阵,fA、fB分别表示为迁移特征在某一位置处的内容特征和风格特征。
在得到格拉姆矩阵之后,对其进行池化,表示为:
其中,ξ表示为将格拉姆矩阵进行池化后得到的矩阵。应当注意,在本实施例中,可以采用求和池化;在其他实施例中,可以采用最大池化,具体可根据实际设计需求确定,此处不作进一步地限定。
在进行池化之后,对进行池化后的格拉姆矩阵进行归一化操作,归一化操作包括矩归一化操作以及L2范数归一化操作,即
先对池化后的格拉姆矩阵进行矩归一化操作,表示为:
其中,y表示为将矩阵ξ进行矩归一化操作;
再对其进行L2范数归一化操作,以输出预测尾部融合特征,
预测尾部融合特征表示为:
需要说明的是,通过风格迁移,以利用头部类图像的风格特征对尾部类图像的内容特征进行增广,以提高尾部特征的泛化能力以及特征表达能力,以便于后续识别;利用对比学习损失函数增强尾部类图像的内容特征的特征表达能力,以便于后续基于识别预测尾部融合特征识别尾部类图片,以避免尾部类图片样本较少以致识别精度较差的问题。
应当注意,在将头部类图像和尾部类图像输入至残差网络模型中之前,包括:构建并训练残差网络模型。训练残差网络模型,包括:从已知数据集中获取训练头部类图像和训练尾部类图像构建训练集;将训练集输入残差网络模型以训练残差网络模型,并输出训练尾部融合特征;根据训练头部类图像获得交叉熵损失函数,以及根据训练尾部融合特征获得伴随有监督学习的损失函数;根据交叉熵损失函数和伴随有监督对比学习的损失函数获得总损失函数,若总损失函数收敛,则训练结束;否则,继续训练残差网络模型。
具体而言,首先,从已知数据集中获取训练头部类图像和训练尾部类图像构建训练集。本实施例中,已知数据集可以为长尾CIFAR-10数据集、长尾CIFAR-100数据集、图像(ImageNet-LT)数据集、位置(Places-LT)数据集、真实的细粒度视觉识别(iNaturalist(iNat)2018)数据集中的一种。需要说明的是,在构建训练集时,还需要从数据集中选择训练头部类图像和训练尾部类图像测试集长尾,使得训练集与测试集之比为预设比例,比如训练集:测试集=5:1,预设比例可根据实际训练进行设置,此处不作限定。
当数据集采用CIFAR-10或CIFAR-100数据集时,由于CIFAR-10和CIFAR-100包含50000个尺寸为32×32的训练图像以及10000个尺寸为32×32的测试图像,这些图像均匀的分为10或100个类别,因此将训练集分为五个,每个训练集包含10000个尺寸为32×32的训练图像,测试集为一个,且每个训练集和测试集分别包含10或100个类别,类别数量可根据数据集CIFAR-10或CIFAR-100确定。在构建训练集和测试集之后,通过随机删除训练样本以创建长尾版本训练集,包括:从第x个类别中删除的样本数为xμ,其中x表示为该类别中的训练样本的原始数量,且μ∈(0,1),通过改变μ,使得五个训练集和一个测试集的不平衡因子(IFs)分别为200、100、50、20、10和1,其中IFs=1对应原始数据集。
当数据集采用ImageNet-LT数据集时,ImageNet-LT数据集引入了ImageNet-2012的长尾版本,ImageNet-LT数据集通过从幂值α=6的帕累托分布中采样类别大小来创建,并对每个类别采样相应数量的图像,采样所得数据集包含1000个类别的115.8K训练图像,其不平衡因子为1280/5;采用原始平衡的ImageNet-2012验证集用作测试集,测试集中每类50张图像。
当数据集采用Places-LT时,通过使用与上述ImageNet-LT数据集相同的策略从Places进行采样,以创建Places-LT数据集,Places-LT数据集包含来自365个类的62.5K训练图像,不平衡系数为4980/5;每个类Places-LT有100个测试图像,20个验证图像。
当数据集采用iNaturalist(iNat)2018数据集时,由于iNat 2018是真实的细粒度视觉识别数据集,因此该数据集自然地表现出长尾类分布。iNat 2018由8,142个类别中的435,713个训练图像组成,其失衡系数为1000/2;使用特定渠道公开的验证集进行测试。
在构建训练集之后,对训练集包含的N张原始训练图像,随机对每张原始训练图像进行数据增强,比如进行两次数据扩充处理,数据扩充可以为裁剪、翻转等操作,使得每张原始训练图像对应生成两张新的训练图像,总共得到2N张新训练图像。
其次,将构建的训练集输入残差网络模型以训练残差网络模型,并输出训练尾部融合特征。本实施例中,输出训练尾部融合特征的步骤可参照上述输出预测尾部融合特征的步骤,此处不作赘述。另外,根据上述2N张新训练图像,可得到特征{z1,z2,…,zi,…zj,…,z2N},其中,训练图像i和训练图像j来源于同一原始训练图像,即一原始训练图像经两次数据扩充梳理,得到训练图像i和训练图像j。
最后,根据训练头部类图像获得交叉熵损失函数,以及根据训练尾部融合特征获得伴随有监督学习的损失函数;根据交叉熵损失函数和伴随有监督对比学习的损失函数获得总损失函数,若总损失函数收敛,则训练结束;否则,继续训练残差网络模型。
需要说明的是,伴随有监督对比学习的损失函数可以为自监督对比学习损失函数或监督对比学习损失函数。当伴随有监督对比学习的损失函数为自监督对比学习损失函数时,总损失函数表示为:
Loss=Lself+L
其中,Loss表示为总损失函数,Lself表示为自监督对比学习损失函数,L表示为交叉熵损失函数。
当伴随有监督对比学习的损失函数为监督对比学习损失函数时,总损失函数表示为:
Loss=Lsup+L
其中,Loss表示为总损失函数,Lsup表示为监督对比学习损失函数,L表示为交叉熵损失函数。
更进一步地说,自监督对比学习损失函数Lself表示为:
其中,表示为第i张图像对应的自监督对比学习损失函数,2N表示为图像数量,li≠k=1,zi表示为第i张图像对应的训练尾部融合特征,zj(i)表示为与第i张图属于同一类别的另一张图,τ表示为大于0的常数。需要说明的是,在进行监督对比学习损失函数的计算时,训练图像i和训练图像j特征的余弦cos距离总和越大,函数越小,越容易收敛;其余与训练图像i来源于不同原始训练图像的训练图像与训练图像i特征的余弦cos距离总和越小,函数越小,越容易收敛。
监督对比学习损失函数Lsup表示为:
其中,表示为第i张图像对应的监督对比学习损失函数,表示为属于同一类的所有图片,li≠k=1,分别表示为两种不同的类别,2N表示为图像数量,zi表示为第i张图像对应的训练尾部融合特征,zj表示为第j张图像对应的训练尾部融合特征,图像i和图像j来源于同一张图像,τ表示为大于0的常数。需要说明的是,在进行监督对比学习损失函数的计算时,与训练图像i属于同类的其他训练图像和训练图像i特征的余弦cos距离总和越大,函数越小,越容易收敛;与训练图像i来属于不同类的其他训练图像与训练图像i特征的余弦cos距离总和越小,函数越小,越容易收敛。
交叉熵损失函数L表示为:
其中,Li表示为交叉熵损失函数,fyi表示为yi的概率值,fj表示为分类平分向量f中的第j个元素。
利用对比学习损失函数增强尾部类图像的内容特征的特征表达能力,以便于后续基于识别预测尾部融合特征识别尾部类图片,以进一步避免尾部类图片样本较少以致识别精度较差的问题;通过构造伴随有监督对比学习的损失函数以及交叉熵损失函数之和作为总损失函数,便于及时、准确的判断残差网络模型是否训练完成,从而提高生成的尾部融合特征的泛化能力、特征表达能力以及可读取能力,以便于后续识别。
举例而言,当数据集采用长尾CIFAR-10和CIFAR-100数据集时,采用常用数据增强策略,比如从原始训练图像或原始训练图像水平翻转的图像中随机剪裁32×32的区域,且每个区域填充4像素。采用残差网络(ResNet-32)作为残差网络模型进行训练,在训练过程中采用标准的小批量随机梯度下降(SGD),动量为0.99,梯度衰减为2×10-5。在NVIDIA显卡2080Ti的4个图形处理器(GPU)上以90个周期训练所有模型,批处理大小为256个,初始学习率设置为0.1,余弦调度器将学习率从0.1衰减为0.0。
当数据集采用ImageNet-LT(Places-LT)时,使用残差网络(ResNeXt-50或ResNet152)作为残差网络模型。且该模型使用SGD优化器进行训练,动量为0.99,批量大小为256。在90个周期内,余弦调度器将学习率从0.2衰减为0.0。
当数据集采用在iNaturalist 2018时,采用数据增强策略扩充数据集,比如通过将短边设置为256像素来调整图像大小,然后从图像或其水平翻转中获取224×224的裁剪。采用残差网络(ResNet-50)作为残差网络模型。采用与上述长尾CIFAR-10和CIFAR-100数据集相同的训练策略,在NVIDIA显卡2080Ti的四个GPU上批量大小为256。
综上所述,本发明通过风格迁移,以利用头部类图像的风格特征对尾部类图像的内容特征进行增广,以提高尾部特征的泛化能力以及特征表达能力,以便于后续识别;利用对比学习损失函数增强尾部类图像的内容特征的特征表达能力,以便于后续基于识别预测尾部融合特征识别尾部类图片,以进一步避免尾部类图片样本较少以致识别精度较差的问题。
下面对本发明提供的多任务长尾分布图像识别系统进行描述,下文描述的多任务长尾分布图像识别系统与上文描述的多任务长尾分布图像识别方法可相互对应参照。
图3示出了一种多任务长尾分布图像识别系统,该系统包括:
获取模块1,获取头部类图像和尾部类图像;
残差网络模块2,根据获取模块获取的头部类图像和尾部类图像输出的便于尾部图像识别的预测尾部融合特征;
其中,残差网络模块2是将从头部类图像和尾部类图像中提取的特征进行风格迁移,并对形成的组合特征进行对比学习训练得到的;
残差网络模块2用于基于对头部类图像和尾部类图像提取的特征进行风格迁移以及对比学习,以生成便于识别尾部类图像的预测尾部融合特征。
在本实施例中,获取模块用于获取长尾分布图像内样本较为充足的类别作为头部类图像,样本数目较少的类别作为尾部类图像。
残差网络模块2包括:特征提取单元,用于提取头部类图像的风格特征,以及提取尾部类图像的内容特征;风格迁移单元,特征提取单元提取的风格特征迁移至内容特征,以获得迁移特征;对比学习单元,对迁移特征进行双线性融合、池化以及归一化操作,获得预测尾部融合特征。
具体而言,特征提取单元包括风格特征提取子单元和内容特征提取子单元。风格迁移单元包括标准化子单元、组合子单元和解码子单元,标准化子单元用于将内容特征进行标准化;组合子单元,用于基于将标准化后的内容特征以及风格特征的标准差和均值,获得组合特征,以使内容特征和风格特征的标准差和均值对齐;解码子单元,用于对组合特征进行解码并输出,得到迁移特征。
对比学习单元包括双线性融合子单元、池化子单元和归一化操作子单元,双线性融合子单元用于将迁移特征内同一位置处的风格特征和内容特征进行双线性融合,得到格拉姆矩阵;池化子单元,用于将格拉姆矩阵进行池化;归一化操作子单元,依次对经池化后的格拉姆矩阵进行矩归一化操作、L2范数归一化操作,以得到预测尾部融合特征。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)41、通信接口(Communications Interface)42、存储器(memory)43和通信总线44,其中,处理器41,通信接口42,存储器43通过通信总线44完成相互间的通信。处理器41可以调用存储器43中的逻辑指令,以执行多任务长尾分布图像识别方法,该方法包括:获取头部类图像和尾部类图像;将头部类图像和尾部类图像输入至残差网络模型中,得到残差网络模型输出的便于尾部图像识别的预测尾部融合特征;其中,残差网络模型是将从头部类图像和尾部类图像中提取的特征进行风格迁移,并对形成的组合特征进行对比学习训练得到的;残差网络模型用于基于对头部类图像和尾部类图像提取的特征进行风格迁移以及对比学习,以生成便于识别尾部类图像的预测尾部融合特征。
此外,上述的存储器43中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的多任务长尾分布图像识别方法,该方法包括:获取头部类图像和尾部类图像;将头部类图像和尾部类图像输入至残差网络模型中,得到残差网络模型输出的便于尾部图像识别的预测尾部融合特征;其中,残差网络模型是将从头部类图像和尾部类图像中提取的特征进行风格迁移,并对形成的组合特征进行对比学习训练得到的;残差网络模型用于基于对头部类图像和尾部类图像提取的特征进行风格迁移以及对比学习,以生成便于识别尾部类图像的预测尾部融合特征。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的多任务长尾分布图像识别方法,该方法包括:获取头部类图像和尾部类图像;将头部类图像和尾部类图像输入至残差网络模型中,得到残差网络模型输出的便于尾部图像识别的预测尾部融合特征;其中,残差网络模型是将从头部类图像和尾部类图像中提取的特征进行风格迁移,并对形成的组合特征进行对比学习训练得到的;残差网络模型用于基于对头部类图像和尾部类图像提取的特征进行风格迁移以及对比学习,以生成便于识别尾部类图像的预测尾部融合特征。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种多任务长尾分布图像识别方法,其特征在于,包括:
获取头部类图像和尾部类图像;
将所述头部类图像和所述尾部类图像输入至所述残差网络模型中,得到所述残差网络模型输出的便于尾部图像识别的预测尾部融合特征;
其中,所述残差网络模型是将从所述头部类图像和所述尾部类图像中提取的特征进行风格迁移,并对形成的组合特征进行对比学习训练得到的;
所述残差网络模型用于基于对头部类图像和尾部类图像提取的特征进行风格迁移以及对比学习,以生成便于识别尾部类图像的预测尾部融合特征。
2.根据权利要求1所述的多任务长尾分布图像识别方法,其特征在于,所述残差网络模型包括特征提取层、风格迁移层和对比学习层,其中:
所述特征提取层,提取所述头部类图像的风格特征,以及提取所述尾部类图像的内容特征;
所述风格迁移层,将所述风格特征迁移至所述内容特征,以获得迁移特征;
所述对比学习层,对所述迁移特征进行双线性融合、池化以及归一化操作,获得预测尾部融合特征。
3.根据权利要求2所述的多任务长尾分布图像识别方法,其特征在于,所述风格迁移层,将所述风格特征迁移至所述内容特征,以获得迁移特征,包括:
将所述内容特征进行标准化;
基于标准化后的内容特征以及所述风格特征的标准差和均值,获得组合特征,以使所述内容特征和所述风格特征的标准差和均值对齐;
通过解码器对所述组合特征进行解码并输出,得到所述迁移特征。
5.根据权利要求1所述的多任务长尾分布图像识别方法,其特征在于,训练所述残差网络模型,包括:
从已知数据集中获取训练头部类图像和训练尾部类图像构建训练集;
将所述训练集输入所述残差网络模型以训练所述残差网络模型,并输出训练尾部融合特征;
根据所述训练头部类图像获得交叉熵损失函数,以及根据所述训练尾部融合特征获得伴随有监督学习的损失函数;
根据所述交叉熵损失函数和所述伴随有监督对比学习的损失函数获得总损失函数,若所述总损失函数收敛,则训练结束;否则,继续训练所述残差网络模型。
6.根据权利要求5所述的多任务长尾分布图像识别方法,其特征在于,所述伴随有监督对比学习的损失函数为自监督对比学习损失函数,所述总损失函数表示为:
Loss=Lself+L
其中,Loss表示为总损失函数,Lself表示为自监督对比学习损失函数,L表示为交叉熵损失函数;或者,
所述伴随有监督对比学习的损失函数为监督对比学习损失函数,所述总损失函数表示为:
Loss=Lsup+L
其中,Loss表示为总损失函数,Lsup表示为监督对比学习损失函数,L表示为交叉熵损失函数。
7.根据权利要求6所述的多任务长尾分布图像识别方法,其特征在于,所述自监督对比学习损失函数Lself表示为:
所述监督对比学习损失函数Lsup表示为:
其中,表示为第i张图像对应的监督对比学习损失函数,表示为属于同一类的所有图片,li≠k=1,分别表示为两种不同的类别,2N表示为图像数量,zi表示为第i张图像对应的特征,zj表示为第j张图像对应的特征,图像i和图像j来源于同一张图像,τ表示为大于0的常数;
交叉熵损失函数表示为:
其中,Li表示为交叉熵损失函数,fyi表示为yi的概率值,fj表示为分类平分向量f中的第j个元素。
8.一种多任务长尾分布图像识别系统,其特征在于,
获取模块,获取头部类图像和尾部类图像;
残差网络模块,根据所述获取模块获取的头部类图像和尾部类图像输出的便于尾部图像识别的预测尾部融合特征;
其中,所述残差网络模型是将从所述头部类图像和所述尾部类图像中提取的特征进行风格迁移,并对形成的组合特征进行对比学习训练得到的;
所述残差网络模型用于基于对头部类图像和尾部类图像提取的特征进行风格迁移以及对比学习,以生成便于识别尾部类图像的预测尾部融合特征。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述多任务长尾分布图像识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述多任务长尾分布图像识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110662883.2A CN113449613B (zh) | 2021-06-15 | 2021-06-15 | 多任务长尾分布图像识别方法、系统、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110662883.2A CN113449613B (zh) | 2021-06-15 | 2021-06-15 | 多任务长尾分布图像识别方法、系统、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449613A true CN113449613A (zh) | 2021-09-28 |
CN113449613B CN113449613B (zh) | 2024-02-27 |
Family
ID=77811383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110662883.2A Active CN113449613B (zh) | 2021-06-15 | 2021-06-15 | 多任务长尾分布图像识别方法、系统、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449613B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863193A (zh) * | 2022-07-07 | 2022-08-05 | 之江实验室 | 基于混合批归一化的长尾学习图像分类、训练方法及装置 |
CN114882273A (zh) * | 2022-04-24 | 2022-08-09 | 电子科技大学 | 应用于狭小空间的视觉识别方法、装置、设备和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190392202A1 (en) * | 2018-10-30 | 2019-12-26 | Baidu Online Network Technology (Beijing) Co., Ltd. | Expression recognition method, apparatus, electronic device, and storage medium |
CN110674866A (zh) * | 2019-09-23 | 2020-01-10 | 兰州理工大学 | 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法 |
WO2020073951A1 (zh) * | 2018-10-10 | 2020-04-16 | 腾讯科技(深圳)有限公司 | 用于图像识别的模型的训练方法、装置、网络设备和存储介质 |
CN111583165A (zh) * | 2019-02-19 | 2020-08-25 | 京东方科技集团股份有限公司 | 图像处理方法、装置、设备及存储介质 |
CN111738301A (zh) * | 2020-05-28 | 2020-10-02 | 华南理工大学 | 一种基于双通道学习的长尾分布图像数据识别方法 |
CN111950608A (zh) * | 2020-06-12 | 2020-11-17 | 中国科学院大学 | 一种基于对比损失的域自适应物体检测方法 |
CN112132004A (zh) * | 2020-09-21 | 2020-12-25 | 南水北调中线信息科技有限公司 | 一种基于多视角特征融合的细粒度图像识别方法 |
CN112200211A (zh) * | 2020-07-17 | 2021-01-08 | 南京农业大学 | 一种基于残差网络和迁移学习的小样本鱼识别方法及系统 |
CN112651916A (zh) * | 2020-12-25 | 2021-04-13 | 上海交通大学 | 自监督模型预训练方法、系统及介质 |
CN112924177A (zh) * | 2021-04-02 | 2021-06-08 | 哈尔滨理工大学 | 一种改进深度q网络的滚动轴承故障诊断方法 |
-
2021
- 2021-06-15 CN CN202110662883.2A patent/CN113449613B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020073951A1 (zh) * | 2018-10-10 | 2020-04-16 | 腾讯科技(深圳)有限公司 | 用于图像识别的模型的训练方法、装置、网络设备和存储介质 |
US20190392202A1 (en) * | 2018-10-30 | 2019-12-26 | Baidu Online Network Technology (Beijing) Co., Ltd. | Expression recognition method, apparatus, electronic device, and storage medium |
CN111583165A (zh) * | 2019-02-19 | 2020-08-25 | 京东方科技集团股份有限公司 | 图像处理方法、装置、设备及存储介质 |
WO2020168844A1 (en) * | 2019-02-19 | 2020-08-27 | Boe Technology Group Co., Ltd. | Image processing method, apparatus, equipment, and storage medium |
CN110674866A (zh) * | 2019-09-23 | 2020-01-10 | 兰州理工大学 | 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法 |
CN111738301A (zh) * | 2020-05-28 | 2020-10-02 | 华南理工大学 | 一种基于双通道学习的长尾分布图像数据识别方法 |
CN111950608A (zh) * | 2020-06-12 | 2020-11-17 | 中国科学院大学 | 一种基于对比损失的域自适应物体检测方法 |
CN112200211A (zh) * | 2020-07-17 | 2021-01-08 | 南京农业大学 | 一种基于残差网络和迁移学习的小样本鱼识别方法及系统 |
CN112132004A (zh) * | 2020-09-21 | 2020-12-25 | 南水北调中线信息科技有限公司 | 一种基于多视角特征融合的细粒度图像识别方法 |
CN112651916A (zh) * | 2020-12-25 | 2021-04-13 | 上海交通大学 | 自监督模型预训练方法、系统及介质 |
CN112924177A (zh) * | 2021-04-02 | 2021-06-08 | 哈尔滨理工大学 | 一种改进深度q网络的滚动轴承故障诊断方法 |
Non-Patent Citations (2)
Title |
---|
TSUNG-YU LIN, ET.AL: "Bilinear CNN Models for Fine-Grained Visual Recognition", 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION, pages 1449 - 1457 * |
吕昊远,俞璐,等: "半监督深度学习图像分类方法研究综述", 计算机科学与探索 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114882273A (zh) * | 2022-04-24 | 2022-08-09 | 电子科技大学 | 应用于狭小空间的视觉识别方法、装置、设备和存储介质 |
CN114882273B (zh) * | 2022-04-24 | 2023-04-18 | 电子科技大学 | 应用于狭小空间的视觉识别方法、装置、设备和存储介质 |
CN114863193A (zh) * | 2022-07-07 | 2022-08-05 | 之江实验室 | 基于混合批归一化的长尾学习图像分类、训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113449613B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI773189B (zh) | 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體 | |
US20220335711A1 (en) | Method for generating pre-trained model, electronic device and storage medium | |
CN114155543B (zh) | 神经网络训练方法、文档图像理解方法、装置和设备 | |
WO2019232772A1 (en) | Systems and methods for content identification | |
CN112989085B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN113313022A (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN113449613A (zh) | 多任务长尾分布图像识别方法、系统、电子设备及介质 | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN114494784A (zh) | 深度学习模型的训练方法、图像处理方法和对象识别方法 | |
CN110457677A (zh) | 实体关系识别方法及装置、存储介质、计算机设备 | |
CN113408570A (zh) | 一种基于模型蒸馏的图像类别识别方法、装置、存储介质及终端 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN110287981B (zh) | 基于生物启发性表征学习的显著性检测方法及系统 | |
CN114299304A (zh) | 一种图像处理方法及相关设备 | |
CN114282258A (zh) | 截屏数据脱敏方法、装置、计算机设备及存储介质 | |
CN109101984B (zh) | 一种基于卷积神经网络的图像识别方法及装置 | |
CN111860601B (zh) | 预测大型真菌种类的方法及装置 | |
CN113361621B (zh) | 用于训练模型的方法和装置 | |
CN115713669A (zh) | 一种基于类间关系的图像分类方法、装置、存储介质及终端 | |
CN114863450A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN114648760A (zh) | 图像分割方法、图像分割装置、电子设备和存储介质 | |
US12002289B2 (en) | Expression recognition method and apparatus, computer device, and readable storage medium | |
US20220343683A1 (en) | Expression Recognition Method and Apparatus, Computer Device, and Readable Storage Medium | |
CN113515383B (zh) | 系统资源数据分配方法和装置 | |
Battu | Bias Detector Tool for Face Datasets using Image Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Liu Yan Inventor after: Li Xinjie Inventor after: Zhang Xiaobo Inventor after: Yin Xucheng Inventor after: Yang Chun Inventor before: Liu Yan Inventor before: Li Xinjie Inventor before: Zhang Xiaobo Inventor before: Yin Xucheng Inventor before: Yang Chun |
|
GR01 | Patent grant | ||
GR01 | Patent grant |