CN116704293B

CN116704293B - 基于对比学习的生活垃圾图像分类模型训练方法及装置

Info

Publication number: CN116704293B
Application number: CN202310800393.3A
Authority: CN
Inventors: 张蕾; 彭李嘉; 魏楚元; 夏鹏飞; 顾跃; 周翔; 唐明亮; 张炎炎; 武腾越
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2024-02-02
Anticipated expiration: 2043-06-30
Also published as: CN116704293A

Abstract

本申请公开了一种基于对比学习的生活垃圾图像分类模型训练方法及装置，涉及垃圾分类技术领域，将训练集中的生活垃圾图像分别进行两种图像预处理，并得到锚点数据集和正负样本集；将锚点数据集和正负样本集分别输入到对比学习编码器和动量编码器中，通过哈希特征融合方法提取编码器骨干网络的多尺度特征，生成对应的全局哈希码；将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中，得到对应的类别特征向量；根据类别特征向量相似性计算参数中心再平衡自适应对比损失；根据对比损失进行生活垃圾图像分类，并得到生活垃圾图像分类模型。通过本申请提供的方法训练得到的生活垃圾图像分类模型能够准确的进行垃圾分类，且分类效率高，成本低。

Description

基于对比学习的生活垃圾图像分类模型训练方法及装置

技术领域

本申请涉及垃圾分类技术领域，具体涉及一种基于对比学习的生活垃圾图像分类模型训练方法及装置。

背景技术

近年来，随着城市生活垃圾的不断增长使得生态环境污染情况日益加剧，生态环境污染的加剧严重威胁着人类的生命健康。通过对城市生活垃圾进行分类处理，能够提高垃圾的资源价值与经济价值，减少垃圾带来的环境污染，为城市环保可持续发展做出有力贡献。

目前，垃圾处理厂的生活垃圾分类方式主要分为人工分类与机械分类两种。人工分类主要由环卫工人手工分拣生活垃圾，机械分类主要是使用多种物理方式筛选结合，常用的垃圾分拣机械包括干式垃圾分拣设备、光电式垃圾分拣设备以及磁力式垃圾分拣设备。

现有的垃圾分类方式主要存在以下缺点：

1、人工分类的人力成本高、分类速度慢、分类准确率低，且由于生活垃圾中常出现大量尖锐物品，如竹签、玻璃碎片以及瓷片等危险物品，工人分拣环境恶劣，存在严重安全隐患；

2、常用的垃圾分拣设备中，干式垃圾分拣设备需要先进行人工分拣，再由设备进行进一步的处理，耗费人工成本高；光电式垃圾分拣设备中的主要部件是光电传感器，设备价格高昂；磁力式垃圾分拣设备占地面积较大，使用场景具有较大的局限性，难以推广使用范围。

发明内容

为此，本申请提供一种基于对比学习的生活垃圾图像分类模型训练方法及装置，以解决现有技术存在的垃圾分类方式成本高、效率低以及分类困难的问题。

为了实现上述目的，本申请提供如下技术方案：

第一方面，一种基于对比学习的生活垃圾图像分类模型训练方法，包括：

步骤1：获取生活垃圾图像，并构建训练集；

步骤2：将生活垃圾图像分别进行两种图像预处理，得到锚点数据集和正负样本集；

步骤3：将所述锚点数据集和所述正负样本集分别输入到对比学习编码器和动量编码器中，通过哈希特征融合方法提取编码器骨干网络的多尺度特征，生成对应的全局哈希码；

步骤4：将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中，得到对应的类别特征向量；

步骤5：根据类别特征向量相似性计算参数中心再平衡自适应对比损失；

步骤6：根据对比损失进行生活垃圾图像分类，并得到生活垃圾图像分类模型。

作为优选，所述步骤3中，所述对比学习编码器是通过反向传播更新参数。

作为优选，所述步骤3中，所述动量编码器是根据第一公式更新参数的，所述第一公式为：

f_q＝m·f_q+(1-m)·f_k

其中，f_q表示对比学习编码器，f_k表示动量编码器，m表示动量系数。

作为优选，所述步骤3中通过哈希特征融合方法提取编码器骨干网络的多尺度特征，生成对应的全局哈希码，具体包括：

步骤301：提取不同深度的骨干网络特征；

步骤302：将浅层的骨干网络特征馈送到不同的卷积层中继续提取特征，得到不同深度的哈希特征；

步骤303：将不同深度的哈希特征进行融合，得到全局级联特征；

步骤304：将全局级联特征输入线性哈希层线性映射，生成最终的全局哈希码。

作为优选，所述步骤4具体包括：

步骤401：将全局哈希码与空间嵌入张量输入交叉注意力层，得到第一向量；

步骤402：将所述第一向量输入前馈全连接层，得到第二向量；

步骤403：将所述第二向量输入组全连接池化层，得到类别特征向量。

作为优选，所述步骤403中，所述组全连接池化层是根据第二公式得到类别特征向量的，所述第二公式为：

C_i＝(W_k·O_k)_j

其中，O_k∈R^D表示第k个全局哈希码输出的特征向量，W_k∈R^g×D表示第k个投影学习矩阵，g表示组因子，k表示i除以g的商，j表示i除以g的余数。

作为优选，所述步骤5中，所述参数中心再平衡自适应对比损失是根据第三公式计算得到的，所述第三公式为：

其中，T(x_i)，表示变换函数，/>为双层MLP，/>表示恒等映射，α表示超参。

第二方面，一种基于对比学习的生活垃圾图像分类模型训练装置，包括：

图像数据获取模块，用于获取生活垃圾图像，并构建训练集；

图像数据预处理模块，用于将生活垃圾图像分别进行两种图像预处理，得到锚点数据集和正负样本集；

全局哈希码计算模块，用于将所述锚点数据集和所述正负样本集分别输入到对比学习编码器和动量编码器中，通过哈希特征融合方法提取编码器骨干网络的多尺度特征，生成对应的全局哈希码；

类别特征向量计算模块，用于将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中，得到对应的类别特征向量；

对比损失计算模块，用于根据类别特征向量相似性计算参数中心再平衡自适应对比损失；

图像分类模块，用于根据对比损失进行生活垃圾图像分类，并得到生活垃圾图像分类模型。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于对比学习的生活垃圾图像分类模型训练方法的步骤。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于对比学习的生活垃圾图像分类模型训练方法的步骤。

相比现有技术，本申请至少具有以下有益效果：

本申请提供了一种基于对比学习的生活垃圾图像分类模型训练方法及装置，通过获取生活垃圾图像并构建训练集，将生活垃圾图像分别进行两种图像预处理，得到锚点数据集和正负样本集；将锚点数据集和正负样本集分别输入到对比学习编码器和动量编码器中，通过哈希特征融合方法提取编码器骨干网络的多尺度特征，生成对应的全局哈希码；将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中，得到对应的类别特征向量；根据类别特征向量相似性计算参数中心再平衡自适应对比损失；根据对比损失进行生活垃圾图像分类，并得到生活垃圾图像分类模型。通过本申请提供的方法训练得到的生活垃圾图像分类模型能够准确的进行垃圾分类，且分类效率高，成本低。

附图说明

为了更直观地说明现有技术以及本申请，下面给出几个示例性的附图。应当理解，附图中所示的具体形状、构造，通常不应视为实现本申请时的限定条件；例如，本领域技术人员基于本申请揭示的技术构思和示例性的附图，有能力对某些单元(部件)的增/减/归属划分、具体形状、位置关系、连接方式、尺寸比例关系等容易做出常规的调整或进一步的优化。

图1为本申请实施例一提供的一种基于对比学习的生活垃圾图像分类模型训练方法流程图；

图2为本申请实施例一提供的一种基于对比学习的生活垃圾图像分类模型训练方法的结构示意图；

图3为本申请实施例一提供的哈希特征融合方法的结构示意图；

图4为本申请实施例一提供的线性依赖组查询全连接嵌入类解码器结构示意图；

图5为本申请实施例一提供的参数中心再平衡自适应对比学习损失结构示意图。

具体实施方式

以下结合附图，通过具体实施例对本申请作进一步详述。

在本申请的描述中：除非另有说明，“多个”的含义是两个或两个以上。本申请中的术语“第一”、“第二”、“第三”等旨在区别指代的对象，而不具有技术内涵方面的特别意义(例如，不应理解为对重要程度或次序等的强调)。“包括”、“包含”、“具有”等表述方式，同时还意味着“不限于”(某些单元、部件、材料、步骤等)。

本申请中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语，通常是为了便于对照附图直观理解，而并非对实际产品中位置关系的绝对限定。在未脱离本申请揭示的技术构思的情况下，这些相对位置关系的改变，当亦视为本申请表述的范畴。

在现实世界中，大规模的图像数据集往往是呈现为长尾分布的，少部分的高频类别占有大量的样本，而大部分的低频类别只有少量的样本。长尾数据在现实生活中非常普遍，对于真实数据，不同类别的数据量通常不会是理想的均匀分布，而是不平衡的数据分布。垃圾种类数量庞大，这种不平衡现象必定存在。低频类的类别数量越多，样本数与高频类样本数的差距越大，垃圾数据的分类准确率越低。但目前针对垃圾分类的研究大多是在平衡数据上完成的，忽视了不平衡垃圾数据的分类重要性。基于此，本申请提供了一种基于对比学习的生活垃圾图像分类模型训练方法及装置。

实施例一

请参阅图1和图2，本实施例提供了一种基于对比学习的生活垃圾图像分类模型训练方法，包括：

S1：获取生活垃圾图像，并构建训练集；

S2：将生活垃圾图像分别进行两种图像预处理，得到锚点数据集和正负样本集；

具体的，将训练集中的每张生活垃圾图像均进行两种图像预处理，分别得到两张图像x₁、x₂，其中，x₁是对生活垃圾图像进行常规增强得到的，即随机裁剪、随机水平翻转以及归一化；x₂是对生活垃圾图像进行强化增强得到的，即随机裁剪为指定大小、随机水平翻转、随机改变图像的亮度、对比度、饱和度和色调、依照0.2的概率将图像转为灰度图、高斯模糊以及归一化。

以生活垃圾图像X为例，X图像预处理操作后得到两张图像x₁、x₂，其中x₁作为锚点数据x_q，x₂作为锚点数据x_q对应的正样本x_k+，而其他与X图像属于不同类别的图像预处理后得到的图像x₂对于x_q都是负样本x_k-，x_k+与x_k-组成了正负样本集合x_k。

S3：将锚点数据集和正负样本集分别输入到对比学习编码器和动量编码器中，通过哈希特征融合方法提取编码器骨干网络的多尺度特征，生成对应的全局哈希码；

具体的，将锚点数据x_q输入对比学习编码器f_q，正负样本集合x_k输入动量编码器f_k。其中，对比学习编码器通过反向传播更新参数，动量编码器是根据以下公式来更新参数的：

f_q＝m·f_q+(1-m)·f_k

其中，f_q表示对比学习编码器，f_k表示动量编码器，m表示动量系数，m是一个接近1的超参。

请参阅图3，本步骤通过哈希特征融合方法提取编码器骨干网络的多尺度特征，生成对应的全局哈希码，具体包括：

S301：提取不同深度的骨干网络特征；

具体的，从不同深度的骨干网络N中提取特征X＝{x₁,x₂,......,x_m}，公式为：

其中，m∈{1,...,n}表示不同的层深，m与骨干网络的深度成正比。

S302：将浅层的骨干网络特征馈送到不同的卷积层中继续提取特征，得到不同深度的哈希特征；

具体的，将提取到的浅层特征馈送到不同的卷积层C_m中，进一步进行特征提取，最终获得哈希特征f_m，公式为：

S303：将不同深度的哈希特征进行融合，得到全局级联特征；

具体的，为了得到具有全局意义的级联特征，将不同深度的哈希特征融合，获得全局级联特征f_g，公式为：

f_g＝concat(f₁,f₂,…,f_m)

S304：将全局级联特征输入线性哈希层线性映射，生成最终的全局哈希码。

具体的，将全局级联特征输入线性哈希层HA'线性映射，得到最终的全局哈希码c_g，能够快速搜索近邻数据，提高细粒度图像检索的准确性，公式为：

c_g＝HA'(f_g)

本步骤引入哈希特征融合方法，利用网络模型的表示能力来学习紧凑和高度语义的哈希码，强化局部特征，补充对比学习编码器中丢失的局部语义信息，克服了细粒度数据中类间变异小、类内变异大的问题，有效实现最小化正样本之间的距离，同时最大化负样本之间的距离，与对比学习编码器的特点相同，能够提取更有效的图像特征。

S4：将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中，得到对应的类别特征向量；

具体的，请参阅图4，首先多头注意力机制将全局哈希码c_g与空间嵌入张量输入交叉注意力层，然后将生成的第一向量c_g1输入前馈全连接层，生成第二向量c_g2，最后输入组全连接池化层，输出得到类别特征向量。

本步骤中，线性依赖组查询全连接嵌入类解码器将原始解码器对输入的全局哈希码的数量的二次依赖性降低为线性依赖性；同时使用一种新颖的组解码方案：在前馈全连接层之后，通过组全连接池化层的架构块将固定数量的全局哈希码转换为输出类别特征向量，应用到最终类别中，通过查询预测类标签的存在，更充分地利用空间数据。不仅有效提升了模型对低频类数据的关注度，同时减小模型的复杂程度，提升分类效率。

其中，组全连接池化层首先将全局哈希码扩展到个输出，然后合并嵌入的维度。组全连接池化层生成输出类别向量C_i的公式如下所示：

C_i＝(W_k·O_k)_j

对于一对全局哈希码(H₁,H₂)和标签y，H₁和H₂分别送入线性依赖组查询全连接嵌入类解码器，对应的类别特征向量输出结果表示为O₁和O₂，queue指动量编码器中的存储队列，设A(i)＝{o_k∈queue∪O₁∪O₂}\{o_k∈O₁:k＝i}，P(i)＝{o_k∈A(i):y_k＝y_i}。

S5：根据类别特征向量相似性计算参数中心再平衡自适应对比损失；

如果锚点数据输出的一个类别特征向量O₁与正负样本集合中的唯一的O₂相似，同时正负样本集合中其他的类别特征向量与O₁不相似时，那么对应输出的损失值较小。

具体的，将得到的类别特征向量输入参数中心再平衡自适应对比学习损失模型，计算损失值。

请参阅图5，本实施例引入参数类学习中心，能够自适应地将同一类样本推近，证明了两个样本属于同一类的概率的最优值，而这一创新在低频类的表现更加优秀，表示模型对于低频类的关注更多，可以进一步推近更多样本与其对应的中心的距离，减弱低频类被高频类淹没的影响，公式为：

其中，T(x_i)，表示变换函数，/>为双层MLP，/>表示恒等映射，α表示超参，其介于0到1之间。

本步骤的参数中心再平衡自适应对比学习损失相较于传统监督对比学习损失，新引入了参数类可学习中心、双层MLP与恒等映射结构，能够有效抑制长尾效应在分类问题上的影响，拉近样本与其对应中心的距离，证明了两个样本属于同一类的概率的最优值，提升了对低频类的关注度，有效替代传统监督对比学习损失。

S6：根据对比损失进行生活垃圾图像分类，并得到生活垃圾图像分类模型。

根据本实施例提供的方法训练得到的生活垃圾图像分类模型可以预测生活垃圾图像的类别，更好的实现垃圾分类，且分类准确，分类效率高，成本低。

实施例二

本实施例提供了一种基于对比学习的生活垃圾图像分类模型训练装置，包括：

关于基于对比学习的生活垃圾图像分类模型训练装置的具体限定可以参见上文中对于基于对比学习的生活垃圾图像分类模型训练方法的限定，在此不再赘述。

实施例三

本实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于对比学习的生活垃圾图像分类模型训练方法的步骤。

实施例四

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于对比学习的生活垃圾图像分类模型训练方法的步骤。

以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾)，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述；这些未明确写出的实施例，也都应当认为是本说明书记载的范围。

上文中通过一般性说明及具体实施例对本申请作了较为具体和详细的描述。应当理解，基于本申请的技术构思，还可以对这些具体实施例做出若干常规的调整或进一步的创新；但只要未脱离本申请的技术构思，这些常规的调整或进一步的创新得到的技术方案也同样落入本申请的权利要求保护范围。

Claims

1.一种基于对比学习的生活垃圾图像分类模型训练方法，其特征在于，包括：

步骤1：获取生活垃圾图像，并构建训练集；

步骤4：将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中，得到对应的类别特征向量；具体为：首先多头注意力机制将全局哈希码与空间嵌入张量输入交叉注意力层，然后将生成的第一向量输入前馈全连接层，生成第二向量，最后输入组全连接池化层，输出得到类别特征向量；

所述参数中心再平衡自适应对比损失是根据第三公式计算得到的，所述第三公式为：

其中，T(x_i)，/>表示变换函数，/>为双层MLP，/>表示恒等映射，α表示超参；

步骤6：根据参数中心再平衡自适应对比损失进行生活垃圾图像分类，并得到生活垃圾图像分类模型。

2.根据权利要求1所述的基于对比学习的生活垃圾图像分类模型训练方法，其特征在于，所述步骤3中，所述对比学习编码器是通过反向传播更新参数。

3.根据权利要求1所述的基于对比学习的生活垃圾图像分类模型训练方法，其特征在于，所述步骤3中，所述动量编码器是根据第一公式更新参数的，所述第一公式为：

f_q＝m·f_q+(1-m)·f_k

4.根据权利要求1所述的基于对比学习的生活垃圾图像分类模型训练方法，其特征在于，所述步骤3中通过哈希特征融合方法提取编码器骨干网络的多尺度特征，生成对应的全局哈希码，具体包括：

步骤301：提取不同深度的骨干网络特征；

5.根据权利要求1所述的基于对比学习的生活垃圾图像分类模型训练方法，其特征在于，所述步骤4具体包括：

6.根据权利要求5所述的基于对比学习的生活垃圾图像分类模型训练方法，其特征在于，所述步骤403中，所述组全连接池化层是根据第二公式得到类别特征向量的，所述第二公式为：

C_i＝(W_k·O_k)_j

7.一种基于对比学习的生活垃圾图像分类模型训练装置，其特征在于，包括：

类别特征向量计算模块，用于将全局哈希码输入到线性依赖组查询全连接嵌入类解码器中，得到对应的类别特征向量；具体为：首先多头注意力机制将全局哈希码与空间嵌入张量输入交叉注意力层，然后将生成的第一向量输入前馈全连接层，生成第二向量，最后输入组全连接池化层，输出得到类别特征向量；

图像分类模块，用于根据参数中心再平衡自适应对比损失进行生活垃圾图像分类，并得到生活垃圾图像分类模型。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。