CN117315541A - 一种地面垃圾识别方法及系统 - Google Patents
一种地面垃圾识别方法及系统 Download PDFInfo
- Publication number
- CN117315541A CN117315541A CN202311319069.6A CN202311319069A CN117315541A CN 117315541 A CN117315541 A CN 117315541A CN 202311319069 A CN202311319069 A CN 202311319069A CN 117315541 A CN117315541 A CN 117315541A
- Authority
- CN
- China
- Prior art keywords
- garbage
- image
- identified
- images
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000000926 separation method Methods 0.000 claims abstract description 21
- 238000003062 neural network model Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000002372 labelling Methods 0.000 claims abstract description 15
- 239000002699 waste material Substances 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 7
- 230000007613 environmental effect Effects 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000003709 image segmentation Methods 0.000 abstract 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种地面垃圾识别方法及系统,涉及垃圾识别技术领域,包括:获取训练图像与待识别图像,进行预处理与图像特征的提取;并通过提取训练图像与待识别图像中的垃圾图像,对垃圾图像中待识别目标的类别和位置坐标进行标注;建立改进神经网络模型利用训练图像中的标注对模型进行训练获得垃圾分离模型,通过垃圾分离模型对重叠垃圾进行分离;将分离后垃圾进行图像分割,并预设垃圾特征标签,构建特征集合;预设垃圾图像数据库,对垃圾设置特征标签与种类;将待识别图像的特征与包含特征集合中特征的垃圾进行比对,确定垃圾的种类。本发明公开的一种地面垃圾识别方法及系统实现了对于垃圾的精确分离与识别,减轻了环卫人员的工作压力。
Description
技术领域
本发明涉及垃圾识别技术领域,更具体的说是涉及一种地面垃圾识别方法及系统。
背景技术
目前,随着社会的进步,人们的生活水平和质量逐渐提高,能够消费的东西也日益增多,因此产生的垃圾也越来越多,垃圾主要采用填埋和焚烧等办法进行处理。为了有效地减少垃圾的处理量,减缓对地球资源的消耗,可以对垃圾中可回收的垃圾进行分类回收再利用。分类的目的是提高垃圾的资源价值和经济价值,力争物尽其用。
但是,现在环卫作业人员开展生活垃圾收集运输工作操作复杂、需要投入的人力较多、作业效率低下、存在明显的资源浪费。现有方法虽然可以对垃圾影像进行采集,还需要精确地分类以及多样性的采集方式,在获取的影像数量较多或影像范围较大时,通过人工识别方式会产生巨大的工作量,简单的智能识别也无法完成所有任务,同时识别效率也相对较低。
因此,如何对垃圾进行准确快速的识别是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种地面垃圾识别方法及系统,与现有技术相比,减少了人工识别所产生的巨大工作量,同时能够将重叠的垃圾从环境中分割出来,进一步确认重叠垃圾中每个垃圾的种类,完成垃圾的识别。
为了实现上述目的,本发明采用如下技术方案:
一种地面垃圾识别方法,包括:
步骤1:获取训练视频图像与待识别视频图像,在进行环境标注后进行图像预处理,用卷积神经网络构建的编码器结构进行多层次图像特征的提取;并通过与所述编码器对应的解码器提取所述训练视频图像中的垃圾图像与所述待识别视频图像中的垃圾图像,对所述垃圾图像中待识别目标的类别和位置坐标进行标注,所述待识别目标包括相互遮挡物体的整体目标和单个目标;
步骤2:建立改进的神经网络模型并利用训练视频图像中标注的垃圾图像对所述改进的神经网络模型进行训练以获得垃圾分离模型,通过垃圾分离模型对所述待识别视频图像中标注的垃圾图像的重叠垃圾进行识别分离;
步骤3:将所述重叠垃圾分离后的单个垃圾进行图像分割,分割为若干子图像,并预先设置垃圾特征标签,对每一个所述子图像标注垃圾特征标签,收集所述单个垃圾的垃圾特征标签,构建特征集合;
步骤4:预设垃圾图像数据库,对标本垃圾设置垃圾特征标签与种类;筛选出所述垃圾图像数据库中包含特征集合中垃圾特征标签的全部标本垃圾;将所述待识别视频图像的特征与包含特征集合中特征的全部标本垃圾进行比对,获取比对结果,根据比对结果中标本垃圾种类确定所述单个垃圾的种类。
优选的,所述步骤1具体包括:
步骤1.1:获取训练视频图像与待识别视频图像,在进行环境标注后进行图像预处理;
步骤1.2:用卷积神经网络构建的编码器进行多层次图像特征的提取;
步骤1.3:将编码器最后一层输出的特征图输入Transformer层捕获全局语义信息,进一步提取深层的图像特征;
步骤1.4:对经Transformer层提取后的特征图进行解码器的上采样,上采样时在具有相同大小特征图的编码器输出和解码器输出之间建立跳跃连接,解码器上采样输出的特征图和对应跳跃连接中输出的特征图在通道上拼接,多层拼接和解码器结构的连续上采样操作实现多级特征融合,恢复细节信息;
步骤1.5:利用边界细化分支网络对分割结果进一步细化,修正边界部分预测错误问题;计算混合损失函数进行模型监督训练,基于最后得到的场景分割模型获得所述训练视频图像与待识别视频图像的场景分割结果。
优选的,所述跳跃连接中,每个跳跃连接中间添加一个可变形的空间模块DSM,每个DSM由两个3×3的卷积、一个可变形卷积和残差连接组成;其中两个3×3的卷积用于调整编码器输出特征图的通道数,残差连接被部署到可变形卷积的两端,可变形卷积用于沿空间维度捕捉形状感知的局部信息。
优选的,所述边界细化分支网络堆叠了3个卷积层从原始图像中提取低层次的空间信息,然后采用了一个边界头和一个方向头从特征图中提取边界信息;边界头包含1个1×1卷积、1个BatchNorm层和1个ReLU激活函数,然后是一个1×1卷积用于线性分类,将分类结果上采样得到大小为H×W×1的边界图;方向头包含1个1×1卷积、1个BatchNorm层和1个ReLU激活函数,同样一个1×1卷积将结果分为m类,上采样后产生H×W×m的方向图。细化过程是将方向图转换为大小为H×W×2的偏移图(表示每个像素X、Y方向的偏移量,只有边界的像素有偏移量,其他的像素偏移量为0),预测结果中位于边界部分的像素值根据在偏移图中对应位置的偏移量进行位移,即用内部的像素来代替边界不可靠的预测,以生成细化的预测图。
优选的,所述混合损失函数具体包括:
Loss=λ1LCE+λ2Lbound+λ1Ldir;
其中,LCE、Ldir分别是预测图和方向图的交叉熵损失函数,Lbound为边界图的二值交叉熵损失函数,设置λ1=1、λ2=3、λ3=0.5。
优选的,所述改进的神经网络模型包括注意力模块和改进的损失函数,所述注意力模块增强所述垃圾分离模型对所述训练视频图像中标注的垃圾图像的特征提取能力;所述改进的损失函数如下:
L=LAttr+α*LRepGT+β*LReBox+δ*IOUγLEIOU;
其中,LAttr代表预测框与所述预测框相对应的真实框之间的损失,LRepGT代表预测框与其他真实框之间的损失,LReBox代表预测框与其他目标的预测框之间的损失,α、β和δ是平衡后三部分损失的权重,IOU=|A∩B|/|A∪B|,γ为控制异常值抑制程度的参数,LEIOU代表附加惩罚项。
优选的,所述图像预处理中将所述训练图像或所述待识别视频图像进行预处理包括:对尺度调整后的所述训练图像中的任意两种图像按比例进行插值混合,并且对插值混合后的分类结果按比例分配,其中,将第一目标的图像和第二目标的图像通过按照比例进行插值混合,并且对插值混合后的图像中目标的分类结果按以上的比例分配为第一目标和第二目标。
一种地面垃圾识别系统,包括:
场景分割模块:获取训练视频图像与待识别视频图像,在进行环境标注后进行图像预处理,用卷积神经网络构建的编码器结构进行多层次图像特征的提取;并通过与所述编码器对应的解码器提取所述训练视频图像中的垃圾图像与所述待识别视频图像中的垃圾图像,对所述垃圾图像中待识别目标的类别和位置坐标进行标注,所述待识别目标包括相互遮挡物体的整体目标和单个目标;
垃圾分离模块:建立改进的神经网络模型并利用训练视频图像中标注的垃圾图像对所述改进的神经网络模型进行训练以获得垃圾分离模型,通过垃圾分离模型对所述待识别视频图像中标注的垃圾图像的重叠垃圾进行识别分离;
特征标注模块:将所述重叠垃圾分离后的单个垃圾进行图像分割,分割为若干子图像,并预先设置垃圾特征标签,对每一个所述子图像标注垃圾特征标签,收集所述单个垃圾的垃圾特征标签,构建特征集合;
种类识别模块:预设垃圾图像数据库,对标本垃圾设置垃圾特征标签与种类;筛选出所述垃圾图像数据库中包含特征集合中垃圾特征标签的全部标本垃圾;将所述待识别视频图像的特征与包含特征集合中特征的全部标本垃圾进行比对,获取比对结果,根据比对结果中标本垃圾种类确定所述单个垃圾的种类。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种地面垃圾识别方法及系统,与现有技术相比,减少了人工识别所产生的巨大工作量,在步骤1中将重叠的垃圾从环境中分割出来,步骤2中对重叠的垃圾进行分割,挑选出其中每个垃圾,防止漏识别,步骤3中对单个垃圾进行网格划分并设置标签,步骤4中对每个网格进行单独的识别,增加垃圾识别的精准度从而完成垃圾的识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的方法流程示意图。
图2附图为本发明边界细化分支网络结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种地面垃圾识别方法,如图1所示,包括:
步骤1:获取训练视频图像与待识别视频图像,在进行环境标注后进行图像预处理,用卷积神经网络构建的编码器结构进行多层次图像特征的提取;并通过与编码器对应的解码器提取训练视频图像中的垃圾图像与待识别视频图像中的垃圾图像,对垃圾图像中待识别目标的类别和位置坐标进行标注,待识别目标包括相互遮挡物体的整体目标和单个目标;
步骤2:建立改进的神经网络模型并利用训练视频图像中标注的垃圾图像对改进的神经网络模型进行训练以获得垃圾分离模型,通过垃圾分离模型对待识别视频图像中标注的垃圾图像的重叠垃圾进行识别分离;
步骤3:将重叠垃圾分离后的单个垃圾进行图像分割,分割为若干子图像,并预先设置垃圾特征标签,对每一个子图像标注垃圾特征标签,收集单个垃圾的垃圾特征标签,构建特征集合;
步骤4:预设垃圾图像数据库,对标本垃圾设置垃圾特征标签与种类;筛选出垃圾图像数据库中包含特征集合中垃圾特征标签的全部标本垃圾;将待识别视频图像的特征与包含特征集合中特征的全部标本垃圾进行比对,获取比对结果,根据比对结果中标本垃圾种类确定单个垃圾的种类。
在一个具体实施例中,步骤1具体包括:
步骤1.1:获取训练视频图像与待识别视频图像,在进行环境标注后进行图像预处理;
步骤1.2:用卷积神经网络构建的编码器进行多层次图像特征的提取;
步骤1.3:将编码器最后一层输出的特征图输入Transformer层捕获全局语义信息,进一步提取深层的图像特征;
步骤1.4:对经Transformer层提取后的特征图进行解码器的上采样,上采样时在具有相同大小特征图的编码器输出和解码器输出之间建立跳跃连接,解码器上采样输出的特征图和对应跳跃连接中输出的特征图在通道上拼接,多层拼接和解码器结构的连续上采样操作实现多级特征融合,恢复细节信息;
步骤1.5:利用边界细化分支网络对分割结果进一步细化,修正边界部分预测错误问题;计算混合损失函数进行模型监督训练,基于最后得到的场景分割模型获得训练视频图像与待识别视频图像的场景分割结果。
在一个具体实施例中,使用Resnet-50为卷积神经网络构建的编码器结构进行多层次图像特征的提取,得到四层特征图。
其中,使用Resnet-50为卷积神经网络构建的编码器结构,并使用了timm库公开提供的在ImageNet数据集上训练得到的权重对编码器参数进行初始化以获取更好的结果。如Resnet-50包含五个阶段,第一个阶段包含1个卷积核为7×7,步长为2的卷积层,1个BatchNorm层和ReLU激活函数,以及1个用于降采样的MaxPooling层。后四个阶段都由Bottleneck组成,结构较为相似,其中第二阶段包含3个Bottleneck,剩下的三个阶段分别包括4个、6个、3个Bottleneck。
在一个具体实施例中,跳跃连接中,每个跳跃连接中间添加一个可变形的空间模块DSM,每个DSM由两个3×3的卷积、一个可变形卷积和残差连接组成;其中两个3×3的卷积用于调整编码器输出特征图的通道数,残差连接被部署到可变形卷积的两端,可变形卷积用于沿空间维度捕捉形状感知的局部信息。
在一个具体实施例中,如图2所示,边界细化分支网络堆叠了3个卷积层从原始图像中提取低层次的空间信息,然后采用了一个边界头和一个方向头从特征图中提取边界信息;边界头包含1个1×1卷积、1个BatchNorm层和1个ReLU激活函数,然后是一个1×1卷积用于线性分类,将分类结果上采样得到大小为H×W×1的边界图;方向头包含1个1×1卷积、1个BatchNorm层和1个ReLU激活函数,同样一个1×1卷积将结果分为m类,上采样后产生H×W×m的方向图。
在一个具体实施例中,混合损失函数具体包括:
Loss=λ1LCE+λ2Lbound+λ1Ldir;
其中,LCE、Ldir分别是预测图和方向图的交叉熵损失函数,Lbound为边界图的二值交叉熵损失函数,设置λ1=1、λ2=3、λ3=0.5。
在一个具体实施例中,改进的神经网络模型包括注意力模块和改进的损失函数,注意力模块增强垃圾分离模型对训练视频图像中标注的垃圾图像的特征提取能力;改进的损失函数如下:
L=LAttr+α*LRepGT+β*LReBox+δ*IOUγLEIOU;
其中,LAttr代表预测框与预测框相对应的真实框之间的损失,LRepGT代表预测框与其他真实框之间的损失,LReBox代表预测框与其他目标的预测框之间的损失,α、β和δ是平衡后三部分损失的权重,IOU=|A∩B|/|A∪B|,γ为控制异常值抑制程度的参数,LEIOU代表附加惩罚项。
在一个具体实施例中,附加惩罚项包括重叠损失、中心距离损失和宽高损失以优化边界框回归时的样本不平衡,改进的神经网络模型进一步包括使用DIOU非极大值抑制后处理方法筛选预测框,其中,当相邻框的中心点越靠近当前最大置信度框的中心点时,相邻框越可能是冗余框。
在一个具体实施例中,图像预处理中将训练图像或待识别视频图像进行预处理包括:对尺度调整后的训练图像中的任意两种图像按比例进行插值混合,并且对插值混合后的分类结果按比例分配,其中,将第一目标的图像和第二目标的图像通过按照比例进行插值混合,并且对插值混合后的图像中目标的分类结果按以上的比例分配为第一目标和第二目标。
一种地面垃圾识别系统,包括:
场景分割模块:获取训练视频图像与待识别视频图像,在进行环境标注后进行图像预处理,用卷积神经网络构建的编码器结构进行多层次图像特征的提取;并通过与编码器对应的解码器提取训练视频图像中的垃圾图像与待识别视频图像中的垃圾图像,对垃圾图像中待识别目标的类别和位置坐标进行标注,待识别目标包括相互遮挡物体的整体目标和单个目标;
垃圾分离模块:建立改进的神经网络模型并利用训练视频图像中标注的垃圾图像对改进的神经网络模型进行训练以获得垃圾分离模型,通过垃圾分离模型对待识别视频图像中标注的垃圾图像的重叠垃圾进行识别分离;
特征标注模块:将重叠垃圾分离后的单个垃圾进行图像分割,分割为若干子图像,并预先设置垃圾特征标签,对每一个子图像标注垃圾特征标签,收集单个垃圾的垃圾特征标签,构建特征集合;
种类识别模块:预设垃圾图像数据库,对标本垃圾设置垃圾特征标签与种类;筛选出垃圾图像数据库中包含特征集合中垃圾特征标签的全部标本垃圾;将待识别视频图像的特征与包含特征集合中特征的全部标本垃圾进行比对,获取比对结果,根据比对结果中标本垃圾种类确定单个垃圾的种类。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种地面垃圾识别方法,其特征在于,包括:
步骤1:获取训练视频图像与待识别视频图像,在进行环境标注后进行图像预处理,用卷积神经网络构建的编码器结构进行多层次图像特征的提取;并通过与所述编码器对应的解码器提取所述训练视频图像中的垃圾图像与所述待识别视频图像中的垃圾图像,对所述垃圾图像中待识别目标的类别和位置坐标进行标注,所述待识别目标包括相互遮挡物体的整体目标和单个目标;
步骤2:建立改进的神经网络模型并利用训练视频图像中标注的垃圾图像对所述改进的神经网络模型进行训练以获得垃圾分离模型,通过垃圾分离模型对所述待识别视频图像中标注的垃圾图像的重叠垃圾进行识别分离;
步骤3:将所述重叠垃圾分离后的单个垃圾进行图像分割,分割为若干子图像,并预先设置垃圾特征标签,对每一个所述子图像标注垃圾特征标签,收集所述单个垃圾的垃圾特征标签,构建特征集合;
步骤4:预设垃圾图像数据库,对标本垃圾设置垃圾特征标签与种类;筛选出所述垃圾图像数据库中包含特征集合中垃圾特征标签的全部标本垃圾;将所述待识别视频图像的特征与包含特征集合中特征的全部标本垃圾进行比对,获取比对结果,根据比对结果中标本垃圾种类确定所述单个垃圾的种类。
2.根据权利要求1所述的一种地面垃圾识别方法,其特征在于,所述步骤1具体包括:
步骤1.1:获取训练视频图像与待识别视频图像,在进行环境标注后进行图像预处理;
步骤1.2:用卷积神经网络构建的编码器进行多层次图像特征的提取;
步骤1.3:将编码器最后一层输出的特征图输入Transformer层捕获全局语义信息,进一步提取深层的图像特征;
步骤1.4:对经Transformer层提取后的特征图进行解码器的上采样,上采样时在具有相同大小特征图的编码器输出和解码器输出之间建立跳跃连接,解码器上采样输出的特征图和对应跳跃连接中输出的特征图在通道上拼接,多层拼接和解码器结构的连续上采样操作实现多级特征融合,恢复细节信息;
步骤1.5:利用边界细化分支网络对分割结果进一步细化,修正边界部分预测错误问题;计算混合损失函数进行模型监督训练,基于最后得到的场景分割模型获得所述训练视频图像与待识别视频图像的场景分割结果。
3.根据权利要求2所述的一种地面垃圾识别方法,其特征在于,所述跳跃连接中,每个跳跃连接中间添加一个可变形的空间模块DSM,每个DSM由两个3×3的卷积、一个可变形卷积和残差连接组成;其中两个3×3的卷积用于调整编码器输出特征图的通道数,残差连接被部署到可变形卷积的两端,可变形卷积用于沿空间维度捕捉形状感知的局部信息。
4.根据权利要求2所述的一种地面垃圾识别方法,其特征在于,所述边界细化分支网络堆叠了3个卷积层从原始图像中提取低层次的空间信息,然后采用了一个边界头和一个方向头从特征图中提取边界信息;边界头包含1个1×1卷积、1个BatchNorm层和1个ReLU激活函数,然后是一个1×1卷积用于线性分类,将分类结果上采样得到大小为H×W×1的边界图;方向头包含1个1×1卷积、1个BatchNorm层和1个ReLU激活函数,同样一个1×1卷积将结果分为m类,上采样后产生H×W×m的方向图。
5.根据权利要求2所述的一种地面垃圾识别方法,其特征在于,所述混合损失函数具体包括:
Loss=λ1LCE+λ2Lbound+λ1Ldir;
其中,LCE、Ldir分别是预测图和方向图的交叉熵损失函数,Lbound为边界图的二值交叉熵损失函数,设置λ1=1、λ2=3、λ3=0.5。
6.根据权利要求1所述的一种地面垃圾识别方法,其特征在于,所述改进的神经网络模型包括注意力模块和改进的损失函数,所述注意力模块增强所述垃圾分离模型对所述训练视频图像中标注的垃圾图像的特征提取能力;所述改进的损失函数如下:
L=LAttr+α*LRepGT+β*LReBox+δ*IOUγLEIOU;
其中,LAttr代表预测框与所述预测框相对应的真实框之间的损失,LRepGT代表预测框与其他真实框之间的损失,LReBox代表预测框与其他目标的预测框之间的损失,α、β和δ是平衡后三部分损失的权重,IOU=|A∩B|/|A∪B|,γ为控制异常值抑制程度的参数,LEIOU代表附加惩罚项。
7.根据权利要求1所述的一种地面垃圾识别方法,其特征在于,所述图像预处理中将所述训练图像或所述待识别视频图像进行预处理包括:对尺度调整后的所述训练图像中的任意两种图像按比例进行插值混合,并且对插值混合后的分类结果按比例分配,其中,将第一目标的图像和第二目标的图像通过按照比例进行插值混合,并且对插值混合后的图像中目标的分类结果按以上的比例分配为第一目标和第二目标。
8.一种地面垃圾识别系统,其特征在于,包括:
场景分割模块:获取训练视频图像与待识别视频图像,在进行环境标注后进行图像预处理,用卷积神经网络构建的编码器结构进行多层次图像特征的提取;并通过与所述编码器对应的解码器提取所述训练视频图像中的垃圾图像与所述待识别视频图像中的垃圾图像,对所述垃圾图像中待识别目标的类别和位置坐标进行标注,所述待识别目标包括相互遮挡物体的整体目标和单个目标;
垃圾分离模块:建立改进的神经网络模型并利用训练视频图像中标注的垃圾图像对所述改进的神经网络模型进行训练以获得垃圾分离模型,通过垃圾分离模型对所述待识别视频图像中标注的垃圾图像的重叠垃圾进行识别分离;
特征标注模块:将所述重叠垃圾分离后的单个垃圾进行图像分割,分割为若干子图像,并预先设置垃圾特征标签,对每一个所述子图像标注垃圾特征标签,收集所述单个垃圾的垃圾特征标签,构建特征集合;
种类识别模块:预设垃圾图像数据库,对标本垃圾设置垃圾特征标签与种类;筛选出所述垃圾图像数据库中包含特征集合中垃圾特征标签的全部标本垃圾;将所述待识别视频图像的特征与包含特征集合中特征的全部标本垃圾进行比对,获取比对结果,根据比对结果中标本垃圾种类确定所述单个垃圾的种类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311319069.6A CN117315541A (zh) | 2023-10-12 | 2023-10-12 | 一种地面垃圾识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311319069.6A CN117315541A (zh) | 2023-10-12 | 2023-10-12 | 一种地面垃圾识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117315541A true CN117315541A (zh) | 2023-12-29 |
Family
ID=89237000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311319069.6A Pending CN117315541A (zh) | 2023-10-12 | 2023-10-12 | 一种地面垃圾识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117315541A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052247A (zh) * | 2021-03-31 | 2021-06-29 | 清华苏州环境创新研究院 | 基于多标签图像识别的垃圾分类方法及垃圾分类器 |
WO2021174759A1 (zh) * | 2020-03-03 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 垃圾分类处理方法、装置、终端及存储介质 |
CN114187491A (zh) * | 2022-02-17 | 2022-03-15 | 中国科学院微电子研究所 | 一种遮挡物体检测方法和装置 |
CN114937179A (zh) * | 2022-07-27 | 2022-08-23 | 深圳市海清视讯科技有限公司 | 垃圾图像分类方法、装置、电子设备及存储介质 |
CN115393780A (zh) * | 2022-09-02 | 2022-11-25 | 浙江清华长三角研究院 | 一种垃圾异物识别方法、装置、电子设备及存储介质 |
CN115601549A (zh) * | 2022-12-07 | 2023-01-13 | 山东锋士信息技术有限公司(Cn) | 基于可变形卷积和自注意力模型的河湖遥感图像分割方法 |
WO2023050637A1 (zh) * | 2021-09-30 | 2023-04-06 | 上海仙途智能科技有限公司 | 垃圾检测 |
CN116630604A (zh) * | 2023-04-14 | 2023-08-22 | 无锡学院 | 一种垃圾图像分类方法及系统 |
-
2023
- 2023-10-12 CN CN202311319069.6A patent/CN117315541A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021174759A1 (zh) * | 2020-03-03 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 垃圾分类处理方法、装置、终端及存储介质 |
CN113052247A (zh) * | 2021-03-31 | 2021-06-29 | 清华苏州环境创新研究院 | 基于多标签图像识别的垃圾分类方法及垃圾分类器 |
WO2023050637A1 (zh) * | 2021-09-30 | 2023-04-06 | 上海仙途智能科技有限公司 | 垃圾检测 |
CN114187491A (zh) * | 2022-02-17 | 2022-03-15 | 中国科学院微电子研究所 | 一种遮挡物体检测方法和装置 |
CN114937179A (zh) * | 2022-07-27 | 2022-08-23 | 深圳市海清视讯科技有限公司 | 垃圾图像分类方法、装置、电子设备及存储介质 |
CN115393780A (zh) * | 2022-09-02 | 2022-11-25 | 浙江清华长三角研究院 | 一种垃圾异物识别方法、装置、电子设备及存储介质 |
CN115601549A (zh) * | 2022-12-07 | 2023-01-13 | 山东锋士信息技术有限公司(Cn) | 基于可变形卷积和自注意力模型的河湖遥感图像分割方法 |
CN116630604A (zh) * | 2023-04-14 | 2023-08-22 | 无锡学院 | 一种垃圾图像分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Park et al. | Patch-based crack detection in black box images using convolutional neural networks | |
EP3690704B1 (en) | Distributed and self-validating dense object detection in digital images | |
CN116342596B (zh) | 一种基于YOLOv5改进的变电站设备螺母缺陷识别检测方法 | |
CN111104903A (zh) | 一种深度感知交通场景多目标检测方法和系统 | |
CN111767927A (zh) | 一种基于全卷积网络的轻量级车牌识别方法及系统 | |
CN110334719B (zh) | 一种提取遥感影像中建筑物图像的方法及系统 | |
CN110059539A (zh) | 一种基于图像分割的自然场景文本位置检测方法 | |
CN105574524A (zh) | 基于对白和分镜联合识别的漫画图像版面识别方法和系统 | |
CN115424017B (zh) | 一种建筑物内外轮廓分割方法、装置及存储介质 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN115424059A (zh) | 一种基于像素级对比学习的遥感土地利用分类方法 | |
CN116597411A (zh) | 极端天气下无人驾驶车辆识别交通标志的方法及系统 | |
CN112819837A (zh) | 一种基于多源异构遥感影像的语义分割方法 | |
CN115861260A (zh) | 一种面向广域城市场景下的深度学习变化检测方法 | |
Saida et al. | CNN-based segmentation frameworks for structural component and earthquake damage determinations using UAV images | |
CN113628180A (zh) | 一种基于语义分割网络的遥感建筑物检测方法及系统 | |
CN113361496A (zh) | 一种基于U-Net的城市建成区统计方法 | |
CN117727046A (zh) | 新型山洪前端仪器仪表读数自动识别方法及系统 | |
Zhao et al. | Rotation-aware building instance segmentation from high-resolution remote sensing images | |
CN113326734A (zh) | 一种基于YOLOv5的旋转目标检测方法 | |
CN110363198B (zh) | 一种神经网络权重矩阵拆分与组合的方法 | |
CN117315541A (zh) | 一种地面垃圾识别方法及系统 | |
CN111369515A (zh) | 一种基于计算机视觉的隧道水渍检测系统及方法 | |
Jiao et al. | A Novel Data Augmentation Method to Enhance the Training Dataset for Road Extraction from Historical Maps | |
CN116912872A (zh) | 图纸识别方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |