CN116704293B - 基于对比学习的生活垃圾图像分类模型训练方法及装置 - Google Patents
基于对比学习的生活垃圾图像分类模型训练方法及装置 Download PDFInfo
- Publication number
- CN116704293B CN116704293B CN202310800393.3A CN202310800393A CN116704293B CN 116704293 B CN116704293 B CN 116704293B CN 202310800393 A CN202310800393 A CN 202310800393A CN 116704293 B CN116704293 B CN 116704293B
- Authority
- CN
- China
- Prior art keywords
- household garbage
- inputting
- encoder
- vector
- contrast
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013145 classification model Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 50
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000010791 domestic waste Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229910052573 porcelain Inorganic materials 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于对比学习的生活垃圾图像分类模型训练方法及装置,涉及垃圾分类技术领域,将训练集中的生活垃圾图像分别进行两种图像预处理,并得到锚点数据集和正负样本集;将锚点数据集和正负样本集分别输入到对比学习编码器和动量编码器中,通过哈希特征融合方法提取编码器骨干网络的多尺度特征,生成对应的全局哈希码;将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中,得到对应的类别特征向量;根据类别特征向量相似性计算参数中心再平衡自适应对比损失;根据对比损失进行生活垃圾图像分类,并得到生活垃圾图像分类模型。通过本申请提供的方法训练得到的生活垃圾图像分类模型能够准确的进行垃圾分类,且分类效率高,成本低。
Description
技术领域
本申请涉及垃圾分类技术领域,具体涉及一种基于对比学习的生活垃圾图像分类模型训练方法及装置。
背景技术
近年来,随着城市生活垃圾的不断增长使得生态环境污染情况日益加剧,生态环境污染的加剧严重威胁着人类的生命健康。通过对城市生活垃圾进行分类处理,能够提高垃圾的资源价值与经济价值,减少垃圾带来的环境污染,为城市环保可持续发展做出有力贡献。
目前,垃圾处理厂的生活垃圾分类方式主要分为人工分类与机械分类两种。人工分类主要由环卫工人手工分拣生活垃圾,机械分类主要是使用多种物理方式筛选结合,常用的垃圾分拣机械包括干式垃圾分拣设备、光电式垃圾分拣设备以及磁力式垃圾分拣设备。
现有的垃圾分类方式主要存在以下缺点:
1、人工分类的人力成本高、分类速度慢、分类准确率低,且由于生活垃圾中常出现大量尖锐物品,如竹签、玻璃碎片以及瓷片等危险物品,工人分拣环境恶劣,存在严重安全隐患;
2、常用的垃圾分拣设备中,干式垃圾分拣设备需要先进行人工分拣,再由设备进行进一步的处理,耗费人工成本高;光电式垃圾分拣设备中的主要部件是光电传感器,设备价格高昂;磁力式垃圾分拣设备占地面积较大,使用场景具有较大的局限性,难以推广使用范围。
发明内容
为此,本申请提供一种基于对比学习的生活垃圾图像分类模型训练方法及装置,以解决现有技术存在的垃圾分类方式成本高、效率低以及分类困难的问题。
为了实现上述目的,本申请提供如下技术方案:
第一方面,一种基于对比学习的生活垃圾图像分类模型训练方法,包括:
步骤1:获取生活垃圾图像,并构建训练集;
步骤2:将生活垃圾图像分别进行两种图像预处理,得到锚点数据集和正负样本集;
步骤3:将所述锚点数据集和所述正负样本集分别输入到对比学习编码器和动量编码器中,通过哈希特征融合方法提取编码器骨干网络的多尺度特征,生成对应的全局哈希码;
步骤4:将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中,得到对应的类别特征向量;
步骤5:根据类别特征向量相似性计算参数中心再平衡自适应对比损失;
步骤6:根据对比损失进行生活垃圾图像分类,并得到生活垃圾图像分类模型。
作为优选,所述步骤3中,所述对比学习编码器是通过反向传播更新参数。
作为优选,所述步骤3中,所述动量编码器是根据第一公式更新参数的,所述第一公式为:
fq=m·fq+(1-m)·fk
其中,fq表示对比学习编码器,fk表示动量编码器,m表示动量系数。
作为优选,所述步骤3中通过哈希特征融合方法提取编码器骨干网络的多尺度特征,生成对应的全局哈希码,具体包括:
步骤301:提取不同深度的骨干网络特征;
步骤302:将浅层的骨干网络特征馈送到不同的卷积层中继续提取特征,得到不同深度的哈希特征;
步骤303:将不同深度的哈希特征进行融合,得到全局级联特征;
步骤304:将全局级联特征输入线性哈希层线性映射,生成最终的全局哈希码。
作为优选,所述步骤4具体包括:
步骤401:将全局哈希码与空间嵌入张量输入交叉注意力层,得到第一向量;
步骤402:将所述第一向量输入前馈全连接层,得到第二向量;
步骤403:将所述第二向量输入组全连接池化层,得到类别特征向量。
作为优选,所述步骤403中,所述组全连接池化层是根据第二公式得到类别特征向量的,所述第二公式为:
Ci=(Wk·Ok)j
其中,Ok∈RD表示第k个全局哈希码输出的特征向量,Wk∈Rg×D表示第k个投影学习矩阵,g表示组因子,k表示i除以g的商,j表示i除以g的余数。
作为优选,所述步骤5中,所述参数中心再平衡自适应对比损失是根据第三公式计算得到的,所述第三公式为:
其中,T(xi),表示变换函数,/>为双层MLP,/>表示恒等映射,α表示超参。
第二方面,一种基于对比学习的生活垃圾图像分类模型训练装置,包括:
图像数据获取模块,用于获取生活垃圾图像,并构建训练集;
图像数据预处理模块,用于将生活垃圾图像分别进行两种图像预处理,得到锚点数据集和正负样本集;
全局哈希码计算模块,用于将所述锚点数据集和所述正负样本集分别输入到对比学习编码器和动量编码器中,通过哈希特征融合方法提取编码器骨干网络的多尺度特征,生成对应的全局哈希码;
类别特征向量计算模块,用于将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中,得到对应的类别特征向量;
对比损失计算模块,用于根据类别特征向量相似性计算参数中心再平衡自适应对比损失;
图像分类模块,用于根据对比损失进行生活垃圾图像分类,并得到生活垃圾图像分类模型。
第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于对比学习的生活垃圾图像分类模型训练方法的步骤。
第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于对比学习的生活垃圾图像分类模型训练方法的步骤。
相比现有技术,本申请至少具有以下有益效果:
本申请提供了一种基于对比学习的生活垃圾图像分类模型训练方法及装置,通过获取生活垃圾图像并构建训练集,将生活垃圾图像分别进行两种图像预处理,得到锚点数据集和正负样本集;将锚点数据集和正负样本集分别输入到对比学习编码器和动量编码器中,通过哈希特征融合方法提取编码器骨干网络的多尺度特征,生成对应的全局哈希码;将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中,得到对应的类别特征向量;根据类别特征向量相似性计算参数中心再平衡自适应对比损失;根据对比损失进行生活垃圾图像分类,并得到生活垃圾图像分类模型。通过本申请提供的方法训练得到的生活垃圾图像分类模型能够准确的进行垃圾分类,且分类效率高,成本低。
附图说明
为了更直观地说明现有技术以及本申请,下面给出几个示例性的附图。应当理解,附图中所示的具体形状、构造,通常不应视为实现本申请时的限定条件;例如,本领域技术人员基于本申请揭示的技术构思和示例性的附图,有能力对某些单元(部件)的增/减/归属划分、具体形状、位置关系、连接方式、尺寸比例关系等容易做出常规的调整或进一步的优化。
图1为本申请实施例一提供的一种基于对比学习的生活垃圾图像分类模型训练方法流程图;
图2为本申请实施例一提供的一种基于对比学习的生活垃圾图像分类模型训练方法的结构示意图;
图3为本申请实施例一提供的哈希特征融合方法的结构示意图;
图4为本申请实施例一提供的线性依赖组查询全连接嵌入类解码器结构示意图;
图5为本申请实施例一提供的参数中心再平衡自适应对比学习损失结构示意图。
具体实施方式
以下结合附图,通过具体实施例对本申请作进一步详述。
在本申请的描述中:除非另有说明,“多个”的含义是两个或两个以上。本申请中的术语“第一”、“第二”、“第三”等旨在区别指代的对象,而不具有技术内涵方面的特别意义(例如,不应理解为对重要程度或次序等的强调)。“包括”、“包含”、“具有”等表述方式,同时还意味着“不限于”(某些单元、部件、材料、步骤等)。
本申请中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语,通常是为了便于对照附图直观理解,而并非对实际产品中位置关系的绝对限定。在未脱离本申请揭示的技术构思的情况下,这些相对位置关系的改变,当亦视为本申请表述的范畴。
在现实世界中,大规模的图像数据集往往是呈现为长尾分布的,少部分的高频类别占有大量的样本,而大部分的低频类别只有少量的样本。长尾数据在现实生活中非常普遍,对于真实数据,不同类别的数据量通常不会是理想的均匀分布,而是不平衡的数据分布。垃圾种类数量庞大,这种不平衡现象必定存在。低频类的类别数量越多,样本数与高频类样本数的差距越大,垃圾数据的分类准确率越低。但目前针对垃圾分类的研究大多是在平衡数据上完成的,忽视了不平衡垃圾数据的分类重要性。基于此,本申请提供了一种基于对比学习的生活垃圾图像分类模型训练方法及装置。
实施例一
请参阅图1和图2,本实施例提供了一种基于对比学习的生活垃圾图像分类模型训练方法,包括:
S1:获取生活垃圾图像,并构建训练集;
S2:将生活垃圾图像分别进行两种图像预处理,得到锚点数据集和正负样本集;
具体的,将训练集中的每张生活垃圾图像均进行两种图像预处理,分别得到两张图像x1、x2,其中,x1是对生活垃圾图像进行常规增强得到的,即随机裁剪、随机水平翻转以及归一化;x2是对生活垃圾图像进行强化增强得到的,即随机裁剪为指定大小、随机水平翻转、随机改变图像的亮度、对比度、饱和度和色调、依照0.2的概率将图像转为灰度图、高斯模糊以及归一化。
以生活垃圾图像X为例,X图像预处理操作后得到两张图像x1、x2,其中x1作为锚点数据xq,x2作为锚点数据xq对应的正样本xk+,而其他与X图像属于不同类别的图像预处理后得到的图像x2对于xq都是负样本xk-,xk+与xk-组成了正负样本集合xk。
S3:将锚点数据集和正负样本集分别输入到对比学习编码器和动量编码器中,通过哈希特征融合方法提取编码器骨干网络的多尺度特征,生成对应的全局哈希码;
具体的,将锚点数据xq输入对比学习编码器fq,正负样本集合xk输入动量编码器fk。其中,对比学习编码器通过反向传播更新参数,动量编码器是根据以下公式来更新参数的:
fq=m·fq+(1-m)·fk
其中,fq表示对比学习编码器,fk表示动量编码器,m表示动量系数,m是一个接近1的超参。
请参阅图3,本步骤通过哈希特征融合方法提取编码器骨干网络的多尺度特征,生成对应的全局哈希码,具体包括:
S301:提取不同深度的骨干网络特征;
具体的,从不同深度的骨干网络N中提取特征X={x1,x2,......,xm},公式为:
其中,m∈{1,...,n}表示不同的层深,m与骨干网络的深度成正比。
S302:将浅层的骨干网络特征馈送到不同的卷积层中继续提取特征,得到不同深度的哈希特征;
具体的,将提取到的浅层特征馈送到不同的卷积层Cm中,进一步进行特征提取,最终获得哈希特征fm,公式为:
S303:将不同深度的哈希特征进行融合,得到全局级联特征;
具体的,为了得到具有全局意义的级联特征,将不同深度的哈希特征融合,获得全局级联特征fg,公式为:
fg=concat(f1,f2,…,fm)
S304:将全局级联特征输入线性哈希层线性映射,生成最终的全局哈希码。
具体的,将全局级联特征输入线性哈希层HA'线性映射,得到最终的全局哈希码cg,能够快速搜索近邻数据,提高细粒度图像检索的准确性,公式为:
cg=HA'(fg)
本步骤引入哈希特征融合方法,利用网络模型的表示能力来学习紧凑和高度语义的哈希码,强化局部特征,补充对比学习编码器中丢失的局部语义信息,克服了细粒度数据中类间变异小、类内变异大的问题,有效实现最小化正样本之间的距离,同时最大化负样本之间的距离,与对比学习编码器的特点相同,能够提取更有效的图像特征。
S4:将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中,得到对应的类别特征向量;
具体的,请参阅图4,首先多头注意力机制将全局哈希码cg与空间嵌入张量输入交叉注意力层,然后将生成的第一向量cg1输入前馈全连接层,生成第二向量cg2,最后输入组全连接池化层,输出得到类别特征向量。
本步骤中,线性依赖组查询全连接嵌入类解码器将原始解码器对输入的全局哈希码的数量的二次依赖性降低为线性依赖性;同时使用一种新颖的组解码方案:在前馈全连接层之后,通过组全连接池化层的架构块将固定数量的全局哈希码转换为输出类别特征向量,应用到最终类别中,通过查询预测类标签的存在,更充分地利用空间数据。不仅有效提升了模型对低频类数据的关注度,同时减小模型的复杂程度,提升分类效率。
其中,组全连接池化层首先将全局哈希码扩展到个输出,然后合并嵌入的维度。组全连接池化层生成输出类别向量Ci的公式如下所示:
Ci=(Wk·Ok)j
其中,Ok∈RD表示第k个全局哈希码输出的特征向量,Wk∈Rg×D表示第k个投影学习矩阵,g表示组因子,k表示i除以g的商,j表示i除以g的余数。
对于一对全局哈希码(H1,H2)和标签y,H1和H2分别送入线性依赖组查询全连接嵌入类解码器,对应的类别特征向量输出结果表示为O1和O2,queue指动量编码器中的存储队列,设A(i)={ok∈queue∪O1∪O2}\{ok∈O1:k=i},P(i)={ok∈A(i):yk=yi}。
S5:根据类别特征向量相似性计算参数中心再平衡自适应对比损失;
如果锚点数据输出的一个类别特征向量O1与正负样本集合中的唯一的O2相似,同时正负样本集合中其他的类别特征向量与O1不相似时,那么对应输出的损失值较小。
具体的,将得到的类别特征向量输入参数中心再平衡自适应对比学习损失模型,计算损失值。
请参阅图5,本实施例引入参数类学习中心,能够自适应地将同一类样本推近,证明了两个样本属于同一类的概率的最优值,而这一创新在低频类的表现更加优秀,表示模型对于低频类的关注更多,可以进一步推近更多样本与其对应的中心的距离,减弱低频类被高频类淹没的影响,公式为:
其中,T(xi),表示变换函数,/>为双层MLP,/>表示恒等映射,α表示超参,其介于0到1之间。
本步骤的参数中心再平衡自适应对比学习损失相较于传统监督对比学习损失,新引入了参数类可学习中心、双层MLP与恒等映射结构,能够有效抑制长尾效应在分类问题上的影响,拉近样本与其对应中心的距离,证明了两个样本属于同一类的概率的最优值,提升了对低频类的关注度,有效替代传统监督对比学习损失。
S6:根据对比损失进行生活垃圾图像分类,并得到生活垃圾图像分类模型。
根据本实施例提供的方法训练得到的生活垃圾图像分类模型可以预测生活垃圾图像的类别,更好的实现垃圾分类,且分类准确,分类效率高,成本低。
实施例二
本实施例提供了一种基于对比学习的生活垃圾图像分类模型训练装置,包括:
图像数据获取模块,用于获取生活垃圾图像,并构建训练集;
图像数据预处理模块,用于将生活垃圾图像分别进行两种图像预处理,得到锚点数据集和正负样本集;
全局哈希码计算模块,用于将所述锚点数据集和所述正负样本集分别输入到对比学习编码器和动量编码器中,通过哈希特征融合方法提取编码器骨干网络的多尺度特征,生成对应的全局哈希码;
类别特征向量计算模块,用于将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中,得到对应的类别特征向量;
对比损失计算模块,用于根据类别特征向量相似性计算参数中心再平衡自适应对比损失;
图像分类模块,用于根据对比损失进行生活垃圾图像分类,并得到生活垃圾图像分类模型。
关于基于对比学习的生活垃圾图像分类模型训练装置的具体限定可以参见上文中对于基于对比学习的生活垃圾图像分类模型训练方法的限定,在此不再赘述。
实施例三
本实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于对比学习的生活垃圾图像分类模型训练方法的步骤。
实施例四
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于对比学习的生活垃圾图像分类模型训练方法的步骤。
以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾),为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述;这些未明确写出的实施例,也都应当认为是本说明书记载的范围。
上文中通过一般性说明及具体实施例对本申请作了较为具体和详细的描述。应当理解,基于本申请的技术构思,还可以对这些具体实施例做出若干常规的调整或进一步的创新;但只要未脱离本申请的技术构思,这些常规的调整或进一步的创新得到的技术方案也同样落入本申请的权利要求保护范围。
Claims (9)
1.一种基于对比学习的生活垃圾图像分类模型训练方法,其特征在于,包括:
步骤1:获取生活垃圾图像,并构建训练集;
步骤2:将生活垃圾图像分别进行两种图像预处理,得到锚点数据集和正负样本集;
步骤3:将所述锚点数据集和所述正负样本集分别输入到对比学习编码器和动量编码器中,通过哈希特征融合方法提取编码器骨干网络的多尺度特征,生成对应的全局哈希码;
步骤4:将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中,得到对应的类别特征向量;具体为:首先多头注意力机制将全局哈希码与空间嵌入张量输入交叉注意力层,然后将生成的第一向量输入前馈全连接层,生成第二向量,最后输入组全连接池化层,输出得到类别特征向量;
步骤5:根据类别特征向量相似性计算参数中心再平衡自适应对比损失;
所述参数中心再平衡自适应对比损失是根据第三公式计算得到的,所述第三公式为:
其中,T(xi),/>表示变换函数,/>为双层MLP,/>表示恒等映射,α表示超参;
步骤6:根据参数中心再平衡自适应对比损失进行生活垃圾图像分类,并得到生活垃圾图像分类模型。
2.根据权利要求1所述的基于对比学习的生活垃圾图像分类模型训练方法,其特征在于,所述步骤3中,所述对比学习编码器是通过反向传播更新参数。
3.根据权利要求1所述的基于对比学习的生活垃圾图像分类模型训练方法,其特征在于,所述步骤3中,所述动量编码器是根据第一公式更新参数的,所述第一公式为:
fq=m·fq+(1-m)·fk
其中,fq表示对比学习编码器,fk表示动量编码器,m表示动量系数。
4.根据权利要求1所述的基于对比学习的生活垃圾图像分类模型训练方法,其特征在于,所述步骤3中通过哈希特征融合方法提取编码器骨干网络的多尺度特征,生成对应的全局哈希码,具体包括:
步骤301:提取不同深度的骨干网络特征;
步骤302:将浅层的骨干网络特征馈送到不同的卷积层中继续提取特征,得到不同深度的哈希特征;
步骤303:将不同深度的哈希特征进行融合,得到全局级联特征;
步骤304:将全局级联特征输入线性哈希层线性映射,生成最终的全局哈希码。
5.根据权利要求1所述的基于对比学习的生活垃圾图像分类模型训练方法,其特征在于,所述步骤4具体包括:
步骤401:将全局哈希码与空间嵌入张量输入交叉注意力层,得到第一向量;
步骤402:将所述第一向量输入前馈全连接层,得到第二向量;
步骤403:将所述第二向量输入组全连接池化层,得到类别特征向量。
6.根据权利要求5所述的基于对比学习的生活垃圾图像分类模型训练方法,其特征在于,所述步骤403中,所述组全连接池化层是根据第二公式得到类别特征向量的,所述第二公式为:
Ci=(Wk·Ok)j
其中,Ok∈RD表示第k个全局哈希码输出的特征向量,Wk∈Rg×D表示第k个投影学习矩阵,g表示组因子,k表示i除以g的商,j表示i除以g的余数。
7.一种基于对比学习的生活垃圾图像分类模型训练装置,其特征在于,包括:
图像数据获取模块,用于获取生活垃圾图像,并构建训练集;
图像数据预处理模块,用于将生活垃圾图像分别进行两种图像预处理,得到锚点数据集和正负样本集;
全局哈希码计算模块,用于将所述锚点数据集和所述正负样本集分别输入到对比学习编码器和动量编码器中,通过哈希特征融合方法提取编码器骨干网络的多尺度特征,生成对应的全局哈希码;
类别特征向量计算模块,用于将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中,得到对应的类别特征向量;具体为:首先多头注意力机制将全局哈希码与空间嵌入张量输入交叉注意力层,然后将生成的第一向量输入前馈全连接层,生成第二向量,最后输入组全连接池化层,输出得到类别特征向量;
对比损失计算模块,用于根据类别特征向量相似性计算参数中心再平衡自适应对比损失;
所述参数中心再平衡自适应对比损失是根据第三公式计算得到的,所述第三公式为:
其中,T(xi),/>表示变换函数,/>为双层MLP,/>表示恒等映射,α表示超参;
图像分类模块,用于根据参数中心再平衡自适应对比损失进行生活垃圾图像分类,并得到生活垃圾图像分类模型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310800393.3A CN116704293B (zh) | 2023-06-30 | 2023-06-30 | 基于对比学习的生活垃圾图像分类模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310800393.3A CN116704293B (zh) | 2023-06-30 | 2023-06-30 | 基于对比学习的生活垃圾图像分类模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116704293A CN116704293A (zh) | 2023-09-05 |
CN116704293B true CN116704293B (zh) | 2024-02-02 |
Family
ID=87835737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310800393.3A Active CN116704293B (zh) | 2023-06-30 | 2023-06-30 | 基于对比学习的生活垃圾图像分类模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704293B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118035424B (zh) * | 2024-04-11 | 2024-06-21 | 四川大学 | 一种代码搜索方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114596456A (zh) * | 2022-05-10 | 2022-06-07 | 四川大学 | 一种基于聚集哈希学习的图像集分类方法 |
CN115205521A (zh) * | 2022-08-09 | 2022-10-18 | 湖南大学 | 基于神经网络的厨余垃圾检测方法 |
CN115496955A (zh) * | 2022-11-18 | 2022-12-20 | 之江实验室 | 图像分类模型训练方法、图像分类方法、设备和介质 |
CN116168231A (zh) * | 2022-12-13 | 2023-05-26 | 重庆大学 | 基于增量式网络和动量对比学习的自监督图像分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12056610B2 (en) * | 2020-08-28 | 2024-08-06 | Salesforce, Inc. | Systems and methods for partially supervised learning with momentum prototypes |
-
2023
- 2023-06-30 CN CN202310800393.3A patent/CN116704293B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114596456A (zh) * | 2022-05-10 | 2022-06-07 | 四川大学 | 一种基于聚集哈希学习的图像集分类方法 |
CN115205521A (zh) * | 2022-08-09 | 2022-10-18 | 湖南大学 | 基于神经网络的厨余垃圾检测方法 |
CN115496955A (zh) * | 2022-11-18 | 2022-12-20 | 之江实验室 | 图像分类模型训练方法、图像分类方法、设备和介质 |
CN116168231A (zh) * | 2022-12-13 | 2023-05-26 | 重庆大学 | 基于增量式网络和动量对比学习的自监督图像分类方法 |
Non-Patent Citations (1)
Title |
---|
基于迁移学习的可回收生活垃圾图像分类识别研究;郑誉煌等;《广东第二师范学院学报》(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116704293A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378913B (zh) | 一种基于自监督学习的半监督节点分类方法 | |
CN116704293B (zh) | 基于对比学习的生活垃圾图像分类模型训练方法及装置 | |
CN110059206A (zh) | 一种基于深度表征学习的大规模哈希图像检索方法 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN108984642A (zh) | 一种基于哈希编码的印花织物图像检索方法 | |
CN110083702A (zh) | 一种基于多任务学习的方面级别文本情感转换方法 | |
CN114565053A (zh) | 基于特征融合的深层异质图嵌入模型 | |
CN116150509B (zh) | 社交媒体网络的威胁情报识别方法、系统、设备及介质 | |
CN115222998A (zh) | 一种图像分类方法 | |
CN104361135A (zh) | 一种图像检索方法 | |
Tan et al. | Positive-negative receptive field reasoning for omni-supervised 3d segmentation | |
CN115329120A (zh) | 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构 | |
Zhang et al. | Transcending the limit of local window: Advanced super-resolution transformer with adaptive token dictionary | |
Li et al. | Automation recognition of pavement surface distress based on support vector machine | |
CN112948581B (zh) | 专利自动分类方法、装置、电子设备及存储介质 | |
Xu et al. | A lightweight network of near cotton‐coloured impurity detection method in raw cotton based on weighted feature fusion | |
Tang et al. | Target Category Agnostic Knowledge Distillation With Frequency-Domain Supervision | |
CN112529057A (zh) | 一种基于图卷积网络的图相似性计算方法及装置 | |
CN107273478A (zh) | 一种基于Group Lasso的半监督哈希图像搜索方法 | |
CN114201635B (zh) | 一种基于多视图图数据特征学习的案源线索分类方法 | |
CN116561639A (zh) | 一种面向开源情报的多模态数据情感分析方法 | |
CN115618099A (zh) | 神经网络架构搜索的方法、装置及电子设备 | |
CN112464014B (zh) | 一种基于图卷积的无监督哈希工业布匹纹理图片检索方法 | |
Tsukada et al. | Evolving deep neural networks for x-ray based detection of dangerous objects | |
Ding et al. | Segmentation of the fabric pattern based on improved fruit fly optimization algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |