CN117315541A

CN117315541A - 一种地面垃圾识别方法及系统

Info

Publication number: CN117315541A
Application number: CN202311319069.6A
Authority: CN
Inventors: 吕凡; 范晨; 曹文勇; 刘素雅; 周琦; 李冠萱; 李云龙
Original assignee: Zhejiang Jinghe Intelligent Technology Co ltd
Current assignee: Zhejiang Jinghe Intelligent Technology Co ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2023-12-29

Abstract

本发明公开了一种地面垃圾识别方法及系统，涉及垃圾识别技术领域，包括：获取训练图像与待识别图像，进行预处理与图像特征的提取；并通过提取训练图像与待识别图像中的垃圾图像，对垃圾图像中待识别目标的类别和位置坐标进行标注；建立改进神经网络模型利用训练图像中的标注对模型进行训练获得垃圾分离模型，通过垃圾分离模型对重叠垃圾进行分离；将分离后垃圾进行图像分割，并预设垃圾特征标签，构建特征集合；预设垃圾图像数据库，对垃圾设置特征标签与种类；将待识别图像的特征与包含特征集合中特征的垃圾进行比对，确定垃圾的种类。本发明公开的一种地面垃圾识别方法及系统实现了对于垃圾的精确分离与识别，减轻了环卫人员的工作压力。

Description

一种地面垃圾识别方法及系统

技术领域

本发明涉及垃圾识别技术领域，更具体的说是涉及一种地面垃圾识别方法及系统。

背景技术

目前，随着社会的进步，人们的生活水平和质量逐渐提高，能够消费的东西也日益增多，因此产生的垃圾也越来越多，垃圾主要采用填埋和焚烧等办法进行处理。为了有效地减少垃圾的处理量，减缓对地球资源的消耗，可以对垃圾中可回收的垃圾进行分类回收再利用。分类的目的是提高垃圾的资源价值和经济价值，力争物尽其用。

但是，现在环卫作业人员开展生活垃圾收集运输工作操作复杂、需要投入的人力较多、作业效率低下、存在明显的资源浪费。现有方法虽然可以对垃圾影像进行采集，还需要精确地分类以及多样性的采集方式，在获取的影像数量较多或影像范围较大时，通过人工识别方式会产生巨大的工作量，简单的智能识别也无法完成所有任务，同时识别效率也相对较低。

因此，如何对垃圾进行准确快速的识别是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种地面垃圾识别方法及系统，与现有技术相比，减少了人工识别所产生的巨大工作量，同时能够将重叠的垃圾从环境中分割出来，进一步确认重叠垃圾中每个垃圾的种类，完成垃圾的识别。

为了实现上述目的，本发明采用如下技术方案：

一种地面垃圾识别方法，包括：

步骤1：获取训练视频图像与待识别视频图像，在进行环境标注后进行图像预处理，用卷积神经网络构建的编码器结构进行多层次图像特征的提取；并通过与所述编码器对应的解码器提取所述训练视频图像中的垃圾图像与所述待识别视频图像中的垃圾图像，对所述垃圾图像中待识别目标的类别和位置坐标进行标注，所述待识别目标包括相互遮挡物体的整体目标和单个目标；

步骤2：建立改进的神经网络模型并利用训练视频图像中标注的垃圾图像对所述改进的神经网络模型进行训练以获得垃圾分离模型，通过垃圾分离模型对所述待识别视频图像中标注的垃圾图像的重叠垃圾进行识别分离；

步骤3：将所述重叠垃圾分离后的单个垃圾进行图像分割，分割为若干子图像，并预先设置垃圾特征标签，对每一个所述子图像标注垃圾特征标签，收集所述单个垃圾的垃圾特征标签，构建特征集合；

步骤4：预设垃圾图像数据库，对标本垃圾设置垃圾特征标签与种类；筛选出所述垃圾图像数据库中包含特征集合中垃圾特征标签的全部标本垃圾；将所述待识别视频图像的特征与包含特征集合中特征的全部标本垃圾进行比对，获取比对结果，根据比对结果中标本垃圾种类确定所述单个垃圾的种类。

优选的，所述步骤1具体包括：

步骤1.1：获取训练视频图像与待识别视频图像，在进行环境标注后进行图像预处理；

步骤1.2：用卷积神经网络构建的编码器进行多层次图像特征的提取；

步骤1.3：将编码器最后一层输出的特征图输入Transformer层捕获全局语义信息，进一步提取深层的图像特征；

步骤1.4：对经Transformer层提取后的特征图进行解码器的上采样，上采样时在具有相同大小特征图的编码器输出和解码器输出之间建立跳跃连接，解码器上采样输出的特征图和对应跳跃连接中输出的特征图在通道上拼接，多层拼接和解码器结构的连续上采样操作实现多级特征融合，恢复细节信息；

步骤1.5：利用边界细化分支网络对分割结果进一步细化，修正边界部分预测错误问题；计算混合损失函数进行模型监督训练，基于最后得到的场景分割模型获得所述训练视频图像与待识别视频图像的场景分割结果。

优选的，所述跳跃连接中，每个跳跃连接中间添加一个可变形的空间模块DSM，每个DSM由两个3×3的卷积、一个可变形卷积和残差连接组成；其中两个3×3的卷积用于调整编码器输出特征图的通道数，残差连接被部署到可变形卷积的两端，可变形卷积用于沿空间维度捕捉形状感知的局部信息。

优选的，所述边界细化分支网络堆叠了3个卷积层从原始图像中提取低层次的空间信息，然后采用了一个边界头和一个方向头从特征图中提取边界信息；边界头包含1个1×1卷积、1个BatchNorm层和1个ReLU激活函数，然后是一个1×1卷积用于线性分类，将分类结果上采样得到大小为H×W×1的边界图；方向头包含1个1×1卷积、1个BatchNorm层和1个ReLU激活函数，同样一个1×1卷积将结果分为m类，上采样后产生H×W×m的方向图。细化过程是将方向图转换为大小为H×W×2的偏移图(表示每个像素X、Y方向的偏移量，只有边界的像素有偏移量，其他的像素偏移量为0)，预测结果中位于边界部分的像素值根据在偏移图中对应位置的偏移量进行位移，即用内部的像素来代替边界不可靠的预测，以生成细化的预测图。

优选的，所述混合损失函数具体包括：

Loss＝λ₁L_CE+λ₂L_bound+λ₁L_dir；

其中，L_CE、L_dir分别是预测图和方向图的交叉熵损失函数，L_bound为边界图的二值交叉熵损失函数，设置λ₁＝1、λ₂＝3、λ₃＝0.5。

优选的，所述改进的神经网络模型包括注意力模块和改进的损失函数，所述注意力模块增强所述垃圾分离模型对所述训练视频图像中标注的垃圾图像的特征提取能力；所述改进的损失函数如下：

L＝L_Attr+α*L_RepGT+β*L_ReBox+δ*IOU^γL_EIOU；

其中，L_Attr代表预测框与所述预测框相对应的真实框之间的损失，L_RepGT代表预测框与其他真实框之间的损失，L_ReBox代表预测框与其他目标的预测框之间的损失，α、β和δ是平衡后三部分损失的权重，IOU＝|A∩B|/|A∪B|，γ为控制异常值抑制程度的参数，L_EIOU代表附加惩罚项。

优选的，所述图像预处理中将所述训练图像或所述待识别视频图像进行预处理包括：对尺度调整后的所述训练图像中的任意两种图像按比例进行插值混合，并且对插值混合后的分类结果按比例分配，其中，将第一目标的图像和第二目标的图像通过按照比例进行插值混合，并且对插值混合后的图像中目标的分类结果按以上的比例分配为第一目标和第二目标。

一种地面垃圾识别系统，包括：

场景分割模块：获取训练视频图像与待识别视频图像，在进行环境标注后进行图像预处理，用卷积神经网络构建的编码器结构进行多层次图像特征的提取；并通过与所述编码器对应的解码器提取所述训练视频图像中的垃圾图像与所述待识别视频图像中的垃圾图像，对所述垃圾图像中待识别目标的类别和位置坐标进行标注，所述待识别目标包括相互遮挡物体的整体目标和单个目标；

垃圾分离模块：建立改进的神经网络模型并利用训练视频图像中标注的垃圾图像对所述改进的神经网络模型进行训练以获得垃圾分离模型，通过垃圾分离模型对所述待识别视频图像中标注的垃圾图像的重叠垃圾进行识别分离；

特征标注模块：将所述重叠垃圾分离后的单个垃圾进行图像分割，分割为若干子图像，并预先设置垃圾特征标签，对每一个所述子图像标注垃圾特征标签，收集所述单个垃圾的垃圾特征标签，构建特征集合；

种类识别模块：预设垃圾图像数据库，对标本垃圾设置垃圾特征标签与种类；筛选出所述垃圾图像数据库中包含特征集合中垃圾特征标签的全部标本垃圾；将所述待识别视频图像的特征与包含特征集合中特征的全部标本垃圾进行比对，获取比对结果，根据比对结果中标本垃圾种类确定所述单个垃圾的种类。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种地面垃圾识别方法及系统，与现有技术相比，减少了人工识别所产生的巨大工作量，在步骤1中将重叠的垃圾从环境中分割出来，步骤2中对重叠的垃圾进行分割，挑选出其中每个垃圾，防止漏识别，步骤3中对单个垃圾进行网格划分并设置标签，步骤4中对每个网格进行单独的识别，增加垃圾识别的精准度从而完成垃圾的识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的方法流程示意图。

图2附图为本发明边界细化分支网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种地面垃圾识别方法，如图1所示，包括：

步骤1：获取训练视频图像与待识别视频图像，在进行环境标注后进行图像预处理，用卷积神经网络构建的编码器结构进行多层次图像特征的提取；并通过与编码器对应的解码器提取训练视频图像中的垃圾图像与待识别视频图像中的垃圾图像，对垃圾图像中待识别目标的类别和位置坐标进行标注，待识别目标包括相互遮挡物体的整体目标和单个目标；

步骤2：建立改进的神经网络模型并利用训练视频图像中标注的垃圾图像对改进的神经网络模型进行训练以获得垃圾分离模型，通过垃圾分离模型对待识别视频图像中标注的垃圾图像的重叠垃圾进行识别分离；

步骤3：将重叠垃圾分离后的单个垃圾进行图像分割，分割为若干子图像，并预先设置垃圾特征标签，对每一个子图像标注垃圾特征标签，收集单个垃圾的垃圾特征标签，构建特征集合；

步骤4：预设垃圾图像数据库，对标本垃圾设置垃圾特征标签与种类；筛选出垃圾图像数据库中包含特征集合中垃圾特征标签的全部标本垃圾；将待识别视频图像的特征与包含特征集合中特征的全部标本垃圾进行比对，获取比对结果，根据比对结果中标本垃圾种类确定单个垃圾的种类。

在一个具体实施例中，步骤1具体包括：

步骤1.5：利用边界细化分支网络对分割结果进一步细化，修正边界部分预测错误问题；计算混合损失函数进行模型监督训练，基于最后得到的场景分割模型获得训练视频图像与待识别视频图像的场景分割结果。

在一个具体实施例中，使用Resnet-50为卷积神经网络构建的编码器结构进行多层次图像特征的提取，得到四层特征图。

其中，使用Resnet-50为卷积神经网络构建的编码器结构，并使用了timm库公开提供的在ImageNet数据集上训练得到的权重对编码器参数进行初始化以获取更好的结果。如Resnet-50包含五个阶段，第一个阶段包含1个卷积核为7×7，步长为2的卷积层，1个BatchNorm层和ReLU激活函数，以及1个用于降采样的MaxPooling层。后四个阶段都由Bottleneck组成，结构较为相似，其中第二阶段包含3个Bottleneck，剩下的三个阶段分别包括4个、6个、3个Bottleneck。

在一个具体实施例中，跳跃连接中，每个跳跃连接中间添加一个可变形的空间模块DSM，每个DSM由两个3×3的卷积、一个可变形卷积和残差连接组成；其中两个3×3的卷积用于调整编码器输出特征图的通道数，残差连接被部署到可变形卷积的两端，可变形卷积用于沿空间维度捕捉形状感知的局部信息。

在一个具体实施例中，如图2所示，边界细化分支网络堆叠了3个卷积层从原始图像中提取低层次的空间信息，然后采用了一个边界头和一个方向头从特征图中提取边界信息；边界头包含1个1×1卷积、1个BatchNorm层和1个ReLU激活函数，然后是一个1×1卷积用于线性分类，将分类结果上采样得到大小为H×W×1的边界图；方向头包含1个1×1卷积、1个BatchNorm层和1个ReLU激活函数，同样一个1×1卷积将结果分为m类，上采样后产生H×W×m的方向图。

在一个具体实施例中，混合损失函数具体包括：

Loss＝λ₁L_CE+λ₂L_bound+λ₁L_dir；

在一个具体实施例中，改进的神经网络模型包括注意力模块和改进的损失函数，注意力模块增强垃圾分离模型对训练视频图像中标注的垃圾图像的特征提取能力；改进的损失函数如下：

L＝L_Attr+α*L_RepGT+β*L_ReBox+δ*IOU^γL_EIOU；

其中，L_Attr代表预测框与预测框相对应的真实框之间的损失，L_RepGT代表预测框与其他真实框之间的损失，L_ReBox代表预测框与其他目标的预测框之间的损失，α、β和δ是平衡后三部分损失的权重，IOU＝|A∩B|/|A∪B|，γ为控制异常值抑制程度的参数，L_EIOU代表附加惩罚项。

在一个具体实施例中，附加惩罚项包括重叠损失、中心距离损失和宽高损失以优化边界框回归时的样本不平衡，改进的神经网络模型进一步包括使用DIOU非极大值抑制后处理方法筛选预测框，其中，当相邻框的中心点越靠近当前最大置信度框的中心点时，相邻框越可能是冗余框。

在一个具体实施例中，图像预处理中将训练图像或待识别视频图像进行预处理包括：对尺度调整后的训练图像中的任意两种图像按比例进行插值混合，并且对插值混合后的分类结果按比例分配，其中，将第一目标的图像和第二目标的图像通过按照比例进行插值混合，并且对插值混合后的图像中目标的分类结果按以上的比例分配为第一目标和第二目标。

一种地面垃圾识别系统，包括：

场景分割模块：获取训练视频图像与待识别视频图像，在进行环境标注后进行图像预处理，用卷积神经网络构建的编码器结构进行多层次图像特征的提取；并通过与编码器对应的解码器提取训练视频图像中的垃圾图像与待识别视频图像中的垃圾图像，对垃圾图像中待识别目标的类别和位置坐标进行标注，待识别目标包括相互遮挡物体的整体目标和单个目标；

垃圾分离模块：建立改进的神经网络模型并利用训练视频图像中标注的垃圾图像对改进的神经网络模型进行训练以获得垃圾分离模型，通过垃圾分离模型对待识别视频图像中标注的垃圾图像的重叠垃圾进行识别分离；

特征标注模块：将重叠垃圾分离后的单个垃圾进行图像分割，分割为若干子图像，并预先设置垃圾特征标签，对每一个子图像标注垃圾特征标签，收集单个垃圾的垃圾特征标签，构建特征集合；

种类识别模块：预设垃圾图像数据库，对标本垃圾设置垃圾特征标签与种类；筛选出垃圾图像数据库中包含特征集合中垃圾特征标签的全部标本垃圾；将待识别视频图像的特征与包含特征集合中特征的全部标本垃圾进行比对，获取比对结果，根据比对结果中标本垃圾种类确定单个垃圾的种类。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种地面垃圾识别方法，其特征在于，包括：

2.根据权利要求1所述的一种地面垃圾识别方法，其特征在于，所述步骤1具体包括：

3.根据权利要求2所述的一种地面垃圾识别方法，其特征在于，所述跳跃连接中，每个跳跃连接中间添加一个可变形的空间模块DSM，每个DSM由两个3×3的卷积、一个可变形卷积和残差连接组成；其中两个3×3的卷积用于调整编码器输出特征图的通道数，残差连接被部署到可变形卷积的两端，可变形卷积用于沿空间维度捕捉形状感知的局部信息。

4.根据权利要求2所述的一种地面垃圾识别方法，其特征在于，所述边界细化分支网络堆叠了3个卷积层从原始图像中提取低层次的空间信息，然后采用了一个边界头和一个方向头从特征图中提取边界信息；边界头包含1个1×1卷积、1个BatchNorm层和1个ReLU激活函数，然后是一个1×1卷积用于线性分类，将分类结果上采样得到大小为H×W×1的边界图；方向头包含1个1×1卷积、1个BatchNorm层和1个ReLU激活函数，同样一个1×1卷积将结果分为m类，上采样后产生H×W×m的方向图。

5.根据权利要求2所述的一种地面垃圾识别方法，其特征在于，所述混合损失函数具体包括：

Loss＝λ₁L_CE+λ₂L_bound+λ₁L_dir；

6.根据权利要求1所述的一种地面垃圾识别方法，其特征在于，所述改进的神经网络模型包括注意力模块和改进的损失函数，所述注意力模块增强所述垃圾分离模型对所述训练视频图像中标注的垃圾图像的特征提取能力；所述改进的损失函数如下：

L＝L_Attr+α*L_RepGT+β*L_ReBox+δ*IOU^γL_EIOU；

7.根据权利要求1所述的一种地面垃圾识别方法，其特征在于，所述图像预处理中将所述训练图像或所述待识别视频图像进行预处理包括：对尺度调整后的所述训练图像中的任意两种图像按比例进行插值混合，并且对插值混合后的分类结果按比例分配，其中，将第一目标的图像和第二目标的图像通过按照比例进行插值混合，并且对插值混合后的图像中目标的分类结果按以上的比例分配为第一目标和第二目标。

8.一种地面垃圾识别系统，其特征在于，包括：