CN117422886A

CN117422886A - 垃圾检测方法、系统、电子设备及存储介质

Info

Publication number: CN117422886A
Application number: CN202311321787.7A
Authority: CN
Inventors: 方瀚; 冯泽润; 臧祥浩; 班超; 孙皓
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-01-19

Abstract

本申请实施例提供了一种垃圾检测方法、系统、电子设备及存储介质，属于人工智能技术领域。该方法通过目标检测模型初步识别待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像，再将多个垃圾局部图像和待检测图像输入到视觉编码器中得到每一张垃圾局部图像的多尺度图像特征，根据垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征，进一步将垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型对垃圾局部图像进行针对实际场景和环境与垃圾的关联理解推理，实现垃圾检测，在不需要大量训练小模型的情况下，本申请的垃圾检测方法适用性高，垃圾识别准确度高。

Description

垃圾检测方法、系统、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种垃圾检测方法、系统、电子设备及存储介质。

背景技术

基于监控视频的垃圾检测技术广泛应用于不同业务场景中，例如，城市指令检测、违规垃圾监测、智能垃圾桶管理以及垃圾处理设施布局优化等场景。由于城市场景的多样性，如街道、巷道等，模型常常难以在不同环境中准确理解垃圾可能出现的位置。与此同时，垃圾种类的多样性也增加了挑战，因为某些垃圾可能与常见物体具有相似性，例如纸张类垃圾与广告物品的相似之处，这种情况导致误报频繁发生。

目前，垃圾检测方法通过采用卷积网络检测等基于神经网络的图像处理和识别的目标检测模型，这种方法在场景和垃圾种类的泛化方面存在不足，只能检测特定场景以及特定类别的垃圾，对于其他场景或者种类的垃圾检测，模型鲁棒性差，检测精度低。为了适应大量的垃圾检测业务场景和垃圾种类，需要采用大量不同种类、不同场景的垃圾检测样本来构建训练集，以进行目标检测模型的训练和优化，导致训练时间长、部署过程冗长，计算负担重。

发明内容

本申请实施例的主要目的在于提出一种垃圾检测方法、系统、电子设备及存储介质，旨在提高不同业务场景下垃圾识别模型的鲁棒性，提高垃圾识别的准确性。

为实现上述目的，本申请实施例的一方面提出了一种垃圾检测方法，包括以下步骤：

获取待检测图像；

通过目标检测模型识别所述待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像；

将多个所述垃圾局部图像和所述待检测图像输入到视觉编码器中，以对每一张垃圾局部图像进行多尺度特征提取，得到每一张垃圾局部图像的多尺度图像特征；

根据所述垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征；

将所述垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型，得到垃圾局部图像的检测结果。

在一些实施例中，所述通过目标检测模型识别所述待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像包括以下步骤：

将所述待检测图像输入目标检测模型进行垃圾识别，得到多个目标检测框和每一个目标检测框所包围的画面块的垃圾检测特征；

根据预设的外扩像素规格分别对多个目标检测框进行外扩，得到多个外扩检测框；

根据所述外扩检测框对所述待检测图像进行裁剪，得到垃圾局部图像。

在一些实施例中，所述将所述待检测图像输入目标检测模型进行垃圾识别，得到多个目标检测框和每一个目标检测框所包围的画面块的垃圾检测特征包括以下步骤：

将所述待检测图像输入目标检测模型进行垃圾识别，得到多个初始识别结果，其中，所述初始识别结果包括识别出的备选物体属于垃圾的检测得分和对应的初始检测框；

从多个初始识别结果中选择检测得分大于得分阈值的初始识别结果，并将选取的初始识别结果对应的初始检测框作为目标检测框。

在一些实施例中，所述将多个所述垃圾局部图像和所述待检测图像输入到视觉编码器中，以对每一张垃圾局部图像进行多尺度特征提取，得到每一张垃圾局部图像的多尺度图像特征包括以下步骤：

将所述垃圾局部图像分别映射到多个不同维度的特征提取层，得到多个不同维度的垃圾局部特征；

将所述垃圾局部图像映射到基于所述待检测图像的全局特征提取层，得到垃圾全局特征；

将所述垃圾全局特征和多个所述垃圾局部特征形成的特征集合输入多层跨注意力交互编码层，得到特征集合中每一个元素对应的图像特征；

选择对应垃圾全局特征的图像特征作为所述垃圾局部图像的多尺度图像特征。

在一些实施例中，所述根据所述垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征包括以下步骤：

将所述检测特征输入检测适配器进行第一维度适配处理，得到第一视觉信息；

将所述多尺度图像特征输入图像适配器进行第二维度适配处理，得到第二视觉信息；

将所述第一视觉信息和所述第二视觉信息输入全连接层进行信息融合，得到视觉特征。

在一些实施例中，所述视觉推理大语言模型包括多个依次连接的语言模型中间层，两个语言模型中间层之间连接有视觉语言语义信息融合层；

所述语言模型中间层用于对基于垃圾识别文本指令集的语言推理信息进行编码，得到语义特征；

所述视觉语言语义信息融合层用于将上一语言模型中间层输出的语义特征和视觉特征进行融合并基于垃圾识别文本指令集进行图像推理，得到语言推理信息。

在一些实施例中，所述将所述垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型，得到垃圾局部图像的检测结果包括以下步骤：

将垃圾识别文本指令集输入第一个语言模型中间层，并将第一个语言模型中间层输出的语义特征和所述视觉特征输入第一个视觉语言语义信息融合层得到对应的语言推理信息；

将第一个视觉语言语义信息融合层输出的语言推理信息输入第二个语言模型中间层，并将第二个语言模型中间层输出的语义特征输入第二个视觉语言语义信息融合层对应的语言推理信息，依次类推，直到最后一个语言模型中间层输出语义特征，并将最后一个语言模型中间层输出的语义特征作为垃圾局部图像的检测结果，所述检测结果包括垃圾局部图像存在垃圾的概率。

为实现上述目的，本申请实施例的另一方面提出了一种垃圾检测系统，包括：

第一模块，用于获取待检测图像；

第二模块，用于通过目标检测模型识别所述待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像；

第三模块，用于将多个所述垃圾局部图像和所述待检测图像输入到视觉编码器中，以对每一张垃圾局部图像进行多尺度特征提取，得到每一张垃圾局部图像的多尺度图像特征；

第四模块，用于根据所述垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征；

第五模块，用于将所述垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型，得到垃圾局部图像的检测结果。

为实现上述目的，本申请实施例的另一方面提出了一种电子设备，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现前面所述的垃圾检测方法。

为实现上述目的，本申请实施例的另一方面提出了一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前面所述的垃圾检测方法。

本申请提出的垃圾检测方法、系统、电子设备及存储介质，其通过目标检测模型初步识别待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像，再将多个垃圾局部图像和待检测图像输入到视觉编码器中得到每一张垃圾局部图像的多尺度图像特征，根据垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征，进一步将垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型对垃圾局部图像进行针对实际场景和环境与垃圾的关联理解推理，实现垃圾检测，在不需要大量训练小模型的情况下，本申请的垃圾检测方法适用性高，垃圾识别准确度高。

附图说明

图1是本申请实施例提供的垃圾检测方法的流程图；

图2是本申请实施例提供的垃圾检测算法训练和部署过程示意图；

图3是图1中的步骤S102的流程图；

图4是本申请实施例提供的目标检测模型处理过程示意图；

图5是图3中的步骤S201的流程图；

图6是图1中的步骤S103的流程图；

图7是本申请实施例提供的多尺度图像特征提取过程示意图；

图8是图1中的步骤S104的流程图；

图9是本申请实施例提供的视觉特征融合和视觉推理大语言模型处理过程示意图；

图10是图1中的步骤S105的流程图；

图11是本申请实施例提供的中心端和边缘端构成的分布式系统示意图；

图12是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

视觉推理大语言模型(Visual Reasoning Language Model)是一种人工智能模型，可以将视觉信息(如图像、视频等)转化为语言信息，并利用自然语言处理技术进行推理和决策。视觉推理大语言模型通常由视觉编码器和语言模型两部分组成。视觉编码器将视觉信息转化为语言信息，语言模型则利用自然语言处理技术进行推理和决策。视觉推理大语言模型的应用范围非常广泛，可以应用于智能客服、智能问答、智能家居、智能医疗等领域。视觉推理大语言模型能够使用输入文本的高级语义表征来完成定义的任务，从理论上讲，只要输入的图像被编码为相同的语义表征，视觉推理大语言模型可以无需训练而完成其他相应的视觉任务。该技术可以使用自然语言数据来训练模型，然后使用视觉输入得到语义表征进而完成推理任务，从而实现将一种模态学到的知识应用到另一种模态中。

目标检测模型是一种基于卷积神经网络构建的图像特征提取和分类的模型，卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，可通过标注的训练数据进行监督学习，从而完成视觉图像识别及目标检测等任务。目标检测模型相对于视觉推理大语言模型而言是一种小模型，其目标检测效果受限于训练样本的影响，模型泛化效果较差。

本申请实施例提供了一种垃圾检测方法、系统、电子设备及存储介质，旨在提高不同业务场景下垃圾识别模型的鲁棒性，提高垃圾识别的准确性。

本申请实施例提供的垃圾检测方法、系统、电子设备及存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的垃圾检测方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的垃圾检测方法，涉及人工智能技术领域。本申请实施例提供的垃圾检测方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现垃圾检测方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

图1是本申请实施例提供的垃圾检测方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S101至步骤S105。

步骤S101，获取待检测图像；

步骤S102，通过目标检测模型识别待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像；

步骤S103，将多个垃圾局部图像和待检测图像输入到视觉编码器中，以对每一张垃圾局部图像进行多尺度特征提取，得到每一张垃圾局部图像的多尺度图像特征；

步骤S104，根据垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征；

步骤S105，将垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型，得到垃圾局部图像的检测结果。

本申请实施例所示意的步骤S101至步骤S105，通过其通过目标检测模型初步识别待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像，再将多个垃圾局部图像和待检测图像输入到视觉编码器中得到每一张垃圾局部图像的多尺度图像特征，根据垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征，进一步将垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型对垃圾局部图像进行针对实际场景和环境与垃圾的关联理解推理，实现垃圾检测，在不需要大量训练小模型的情况下，本申请的垃圾检测方法适用性高，垃圾识别准确度高。

在一些实施例的步骤S101中，待检测图像可以是由安装在街道、巷道等摄像头获取，通过摄像头采集监控位置的监控画面，然后将每一帧监控画面作为待检测图像进行垃圾检测，从而能够检测出地面是否有垃圾、垃圾桶满是否溢出等业务场景。

在一些实施例的步骤S102中，目标检测模型是基于卷积神经网络构建图像识别模型，示例性地，目标检测模型可以是YOLO模型，YOLO模型是计算机视觉技术中可以用于图像识别的深度学习算法。YOLO模型将目标检测问题转化成一个Regression回归类的问题，即给定输入图像，直接在图像的多个位置上回归出目标的bounding box(边界框)以及其分类类别。YOLO模型包括但不限于Yolov3、Yolov4、Yolov5(均为YOLO的不同版本)等。可以理解的是，在利用目标检测模型识别待检测图像前，需要使用小批量的垃圾图像样本训练目标检测模型，使得目标检测模型能够识别待检测图像中被检测框标记为垃圾的物体区域，并对检测出的局部区域进行裁剪，生成垃圾局部图像，每个检测框对应有垃圾检测特征，该垃圾检测特征为目标检测模型在图像处理过程中对局部图像进行特征提取得到的特征。在本实施例中，采用小批量数据样本对目标检测模型进行训练，能够减少对于小模型的训练量，目标检测模型能够对待检测图像进行垃圾的初步识别，提取出疑似垃圾的局部区域，为了进一步提高垃圾检测准确性，后续采用视觉推理大语言模型对目标检测模型的垃圾识别结果进行二次筛选。

在一些实施例的步骤S103中，视觉编码器能够基于一定的算法对数字图像数据进行编码压缩。在视觉编码器中，对图像数据采用多尺度特征提取技术，能够有效地提取和表示图像的多个尺度特征，进而达到更好的编码效果和视觉质量。多尺度特征提取技术包括小波变换、金字塔以及多分辨率分析等。示例性地，视觉编码器可以采用金字塔模型提取图像数据的多尺度特征，金字塔模型是一种层级结构，图像从底层开始，逐渐向上层提取更加抽象和全局的特征。通过金字塔，可以将图像分解成多个尺度的子图像，每个子图像表示了图像的某个尺度信息。视觉编码器在对垃圾局部图像本身进行多尺度特征提取过程中，同时融合待检测图像(即全局图像)的特征，使得垃圾局部图像的多尺度图像特征不仅包含局部细节特征，还包含全局环境特征，能够提高后续垃圾检测的准确性。

在一些实施例的步骤S104中，通过目标检测模型得到垃圾局部图像的垃圾检测特征，通过视觉编码器得到垃圾局部图像的多尺度图像特征，将垃圾检测特征和多尺度图像特征进行融合，得到垃圾局部图像的视觉特征。垃圾检测特征和多尺度图像特征的融合方式可以是直接拼接，也可以采用加权算法进行特征融合。

在一些实施例的步骤S105中，视觉推理大语言模型能够基于垃圾识别文本指令集的引导，对垃圾局部图像的视觉特征进行推理，从而得到垃圾局部图像是否包含垃圾的推理结果。视觉推理大语言模型包括多个依次连接的语言模型中间层，两个语言模型中间层之间连接有视觉语言语义信息融合层。语言模型中间层用于对基于垃圾识别文本指令集的语言推理信息进行编码，得到文本的语义特征。视觉语言语义信息融合层用于将上一语言模型中间层输出的语义特征和视觉特征进行融合并基于垃圾识别文本指令集进行图像推理，得到语言推理信息。视觉推理大语言模型交替进行语言推理信息编码和对视觉特征推理，最后得到垃圾局部图像的检测结果。

需要说明是，在应用视觉推理大语言模型进行二次垃圾检测前，同样需要对视觉推理大语言模型进行训练。具体地，参照图2，首先，对垃圾进行自然语言的描述和定义，并将其预处理成以垃圾识别为核心的指令集。然后，使用由小批量垃圾相关数据训练得到的目标检测模型，识别待检测图像中被标记为垃圾的物体区域，并对检测出的局部区域进行裁剪，生成垃圾局部图像。接下来，将垃圾局部图像送入视觉编码器以提取多尺度特征并进一步生成视觉特征，将视觉特征与视觉推理大语言模型的各自自注意力层的特征分布进行融合，结合实际标签生成能进行视觉推理大语言模型。在离线训练得到视觉推理大语言模型后，部署视觉推理大语言模型，视觉推理大语言模型基于预定义的垃圾识别指令集，引导模型推理出待检测图像的垃圾局部图像垃圾存在的概率，以辅助小模型进行二次过滤。

在本实施例中，可以采用自然语言描述定义垃圾从而构建垃圾识别指令集，具体构建过程如下：

第一，采用图像描述生成模型，对包含垃圾场景的图像构建自然语言描述(Caption),以用于描述整幅包含垃圾的场景；

第二，根据业务场景以及图像构建问题(Question)，例如“图中是否存在垃圾？”；

第三，根据业务场景专有名词构建常识文本用于对垃圾识别场景进行定义(Lecture)；

第四，根据思维链思想，构建解释文本(Solution)，用于解释为什么该地方存在垃圾，存在什么样的垃圾，提示模型进行分步骤思考，从而增强多模态语言模型的多模态推理，理解能力；

第五，构建多模态语言对话指令集，用于模型训练，例如，指令集问题：“问题：Question？图像描述：Caption”；指令集正向回答：“是，由于：Lecture，所以：Solution”；指令集负向回答：“否，由于：Lecture，所以：Solution。”

为了指导视觉推理大语言模型输出指定的多模态理解，在模型训练时，通过给定第一步定义的垃圾识别指令集，并以“问题，回答”的方式输入到大语言模型的输入端，并在每一层的中间层融合问答所对应的视觉特征信息，训练模型拟合回答。在视觉推理大语言模型训练过程中，模型损失的计算公式为：

其中，w是模型预测的单词，w_j|w_＜j表征采用j位置前的所有单词作为输入预测当前位置的单词，answer指正确回答，J是预测词的最大长度。

请参阅图3，在一些实施例中，步骤S102中，通过目标检测模型识别待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像这一步骤，可以包括但不限于以下步骤：

步骤S201，将待检测图像输入目标检测模型进行垃圾识别，得到多个目标检测框和每一个目标检测框所包围的画面块的垃圾检测特征；

步骤S202，根据预设的外扩像素规格分别对多个目标检测框进行外扩，得到多个外扩检测框；

步骤S203，根据外扩检测框对所述待检测图像进行裁剪，得到垃圾局部图像。

在本实施例中，请参阅图4，将待检测图像输入目标检测模型(即检测小模型)对垃圾进行识别，检测小模型输出多个垃圾物体的目标检测框，目标检测框包括检测框位置(例如左上角横纵坐标)和检测框大小(例如检测框长宽)。在得到目标检测框之后，对每个检测框在每个方向往外扩充预设的外扩像素规格，例如每个方向外扩10个像素，得到每个物体的外扩检测框Box_t，保留每个检测框所包围的画面块的特征f_t，形成集合n为目标检测模型输出的检测框的数量。然后根据外扩检测框对待检测图像进行裁剪得到垃圾局部图像。其中，在进行检测框外扩时，对于不满10个像素的检测框方向，则外扩至对应方向上的最大像素。

请参阅图5，在一些实施例中，步骤S201中，将待检测图像输入目标检测模型进行垃圾识别，得到多个目标检测框和每一个目标检测框所包围的画面块的垃圾检测特征这一步骤，可以包括但不限于以下步骤：

步骤S301，将待检测图像输入目标检测模型进行垃圾识别，得到多个初始识别结果，其中，初始识别结果包括识别出的备选物体属于垃圾的检测得分和对应的初始检测框；

步骤S302，从多个初始识别结果中选择检测得分大于得分阈值的初始识别结果，并将选取的初始识别结果对应的初始检测框作为目标检测框。

在本实施例中，目标检测模型在对待检测图像进行目标提取时，可能会提取图像中的多个备选物体，每个物体对应一个初始识别结果，初始识别结果包括识别出的备选物体属于垃圾的检测得分和对应的初始检测框，对于检测得分大于得分阈值的初始识别结果，则认为其初始检测框中物体可能为垃圾，因此，将初始检测框作为目标检测框，以基于目标检测框进行后续二次检测处理。对于检测得分小于或等于得分阈值的初始识别结果，则认为其初始检测框中物体不是垃圾，因此，过滤掉该部分初始检测框，减少计算机运算量。需要说明的是，为提高目标检测模型的鲁棒性，可以将得分阈值N限制在一个较小的数值区间，例如，0.3<N<0.6。

请参阅图6，在一些实施例中，步骤S103中，将多个垃圾局部图像和待检测图像输入到视觉编码器中，以对每一张垃圾局部图像进行多尺度特征提取，得到每一张垃圾局部图像的多尺度图像特征这一步骤，可以包括但不限于以下步骤：

步骤S401，将垃圾局部图像分别映射到多个不同维度的特征提取层，得到多个不同维度的垃圾局部特征；

步骤S402，将垃圾局部图像映射到基于待检测图像的全局特征提取层，得到垃圾全局特征；

步骤S403，将垃圾全局特征和多个垃圾局部特征形成的特征集合输入多层跨注意力交互编码层，得到特征集合中每一个元素对应的图像特征；

步骤S404，选择对应垃圾全局特征的图像特征作为垃圾局部图像的多尺度图像特征。

在本实施例中，请参阅图7，将多个垃圾局部图像和待检测图像作为视觉编码器的输入图像集，输入图像集表示为{I_G,I_l1,…,I_ln},其中I_G是全局图像(即待检测图像),I_l是局部图像(即垃圾局部图像)。在视觉编码器中，对每一个输入图像采取多尺度变化，例如把原图映射为64*64，256*256，512*512三个不同的维度，对不同维度的图像进行图像特征编码得到多个不同维度的垃圾局部特征。在对每一维度的图像进行编码过程具体为，将每个图像平均分成49个局部区域，采用卷积神经网络将每个局部区域映射成512维的特征，并且增加一个可学习维度的512维的特征作为全局特征，构建50*512的特征组送入4层Transformer编码器进行跨注意力交互编码，然后输出其中可学习维度的512维的特征作为该维度图像的编码特征(即垃圾局部特征)。三个维度图像的编码特征为{f₆₄,f₂₅₆,f₅₁₂}。

将不同维度的编码特征构建成(3+1)*512维度的特征组，送入4层Transformer编码器进行跨注意力编码，其中，3表示三个维度的特征，1为额外的可学习特征，用于学习全局图像的特征，编码后得到垃圾局部图像的图像特征{f_s,f_e1,…,f_ek}，然后将(k+1)*512图像特征组送入4层Transformer进行编码，同样选择添加的可学习的特征通道的输出特征f_s作为垃圾局部图像的多尺度图像特征f_m。

请参阅图8，在一些实施例中，步骤S104中，根据垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征这一步骤，可以包括但不限于以下步骤：

步骤S501，将检测特征输入检测适配器进行第一维度适配处理，得到第一视觉信息；

步骤S502，将多尺度图像特征输入图像适配器进行第二维度适配处理，得到第二视觉信息；

步骤S503，将第一视觉信息和第二视觉信息输入全连接层进行信息融合，得到视觉特征。

在本实施例中，参照图9，将每一个外扩检测框所裁剪的局部图像的检测特征以及该局部图像对应的多尺度图像特征/>作为视觉信息输入到视觉推理大语言模型。在检测特征和多尺度图像特征输入大语言模型之前，需要先对检测特征和多尺度图像特征进行处理和融合，以适应大语言模型的输入要求。具体地，将检测特征输入检测适配器进行第一维度适配处理得到第一视觉信息，将多尺度图像特征输入图像适配器进行第二维度适配处理得到第二视觉信息，其中，检测适配器和图像适配器均采用基于残差连接的全连接层网络转换维度。然后将第一视觉信息和第二视觉信息进行连接融合，构建维度更长的特征，并采用统一的全连接层进行映射以降低维度，得到视觉特征。视觉特征的获取过程可以表示为：

f_vl＝M₃([(M₁(f_m)；M₂(f_t))])；

其中，M₁，M₂分别为构建的用于检测特征适配的全连接层网络和用于多尺度图像特征适配的全连接层网络，M₃用于多源视觉信息融合的全连接层网络。

请参阅图10，在一些实施例中，步骤S105中，将垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型，得到垃圾局部图像的检测结果这一步骤，可以包括但不限于以下步骤：

步骤S601，将垃圾识别文本指令集输入第一个语言模型中间层，并将第一个语言模型中间层输出的语义特征和视觉特征输入第一个视觉语言语义信息融合层得到对应的语言推理信息；

步骤S602，将第一个视觉语言语义信息融合层输出的语言推理信息输入第二个语言模型中间层，并将第二个语言模型中间层输出的语义特征输入第二个视觉语言语义信息融合层对应的语言推理信息，依次类推，直到最后一个语言模型中间层输出语义特征，并将最后一个语言模型中间层输出的语义特征作为垃圾局部图像的检测结果，检测结果包括垃圾局部图像存在垃圾的概率。

在本实施例中，请继续参阅图9，视觉推理大语言模型的每一层语言模型中间层之间加入视觉语言语义信息融合层。视觉语言语义信息融合层将得到的视觉特征和中间编码的语言信息进行连接得到f_mu＝[f_vl；f_text]，f_text是语言模型中间层对语言信息编码后的语言特征，语言模型中间层可以采用自注意力网络实现编码，即视觉语言语义信息融合层根据输入连接特征的维度关系，将原本f_text的输出信息提取/>作为下一阶段的语言信息编码/>通过32层的映射融合，大语言模型学习到多模态信息。在进行模型进行视觉推理的过程中，将定义的垃圾识别指令集的问题输入到大语言模型的输入端，并在每一层的中间融合问题所对应的视觉特征，提示模型给出识别回答：“是/否”的概率，以此进行大语言模型的垃圾识别输出，帮助小模型进行误报结果的二次过滤。

根据本申请一些具体实施例，请参阅图11，以本申请的垃圾检测方法应用于中心端和边缘端构成的分布式系统为例进行说明：

在边缘端，部署在摄像头和垃圾检测的小模型，摄像头获取待检测图像，小模型对图像进行检测识别，输出初始检测框以及对应检测得分，小模型根据检测得分筛选出目标检测框。对目标检测框进行外扩得到外扩检测框，将外扩检测框对应的局部图像和检测特征以及全局图像发送至云端，利用云端的视觉推理大语言模型进行二次过滤。

在云端，根据边缘端传递的局部图像、全局图像以及局部图像的检测特征进行多尺度提取和特征融合得到视觉特征，视觉特征作为视觉推理大语言模型的视觉信息提示输入到语言模型的每一层，同时预设的垃圾识别指令集被输入至语言模型的输入端提示语言模型识别输入图像中“是/否”包含垃圾的概率P。对于P>M(M为大语言模型垃圾识别阈值)的局部图像判定为垃圾，返回告警信息给边缘端，同时保存图像以及时间戳作为证据。

在上述实施例中，运算依靠大语言模型的强大理解能力，边缘端小模型以及视觉理解大模型仅需小批量数据训练，便可以提示模型结合监控场景的空间相互关系识别垃圾种类，以及判断是否存在垃圾，垃圾检测准确性和适用性高。

本申请实施例还提供一种垃圾检测系统，包括：

第一模块，用于获取待检测图像；

第二模块，用于通过目标检测模型识别待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像；

第三模块，用于将多个垃圾局部图像和待检测图像输入到视觉编码器中，以对每一张垃圾局部图像进行多尺度特征提取，得到每一张垃圾局部图像的多尺度图像特征；

第四模块，用于根据垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征；

第五模块，用于将垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型，得到垃圾局部图像的检测结果。

可以理解的是，上述垃圾检测方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述垃圾检测方法实施例相同，并且达到的有益效果与上述垃圾检测方法实施例所达到的有益效果也相同。

本申请实施例还提供了一种电子设备，电子设备包括：存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线，程序被处理器执行时实现上述垃圾检测方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图12，图12示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器901，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器902，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器902可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器902中，并由处理器901来调用执行本申请实施例的垃圾检测方法；

输入/输出接口903，用于实现信息输入及输出；

通信接口904，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线905，在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息；

其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质，存储介质为计算机可读存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述垃圾检测方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例提供的垃圾检测方法、系统、电子设备及存储介质，其通过目标检测模型初步识别待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像，再将多个垃圾局部图像和待检测图像输入到视觉编码器中得到每一张垃圾局部图像的多尺度图像特征，根据垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征，进一步将垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型对垃圾局部图像进行针对实际场景和环境与垃圾的关联理解推理，实现垃圾检测，在不需要大量训练小模型的情况下，本申请的垃圾检测方法适用性高，垃圾识别准确度高。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种垃圾检测方法，其特征在于，包括以下步骤：

获取待检测图像；

2.根据权利要求1所述的垃圾检测方法，其特征在于，所述通过目标检测模型识别所述待检测图像中的垃圾，得到多个垃圾检测特征和对应的垃圾局部图像包括以下步骤：

3.根据权利要求2所述的垃圾检测方法，其特征在于，所述将所述待检测图像输入目标检测模型进行垃圾识别，得到多个目标检测框和每一个目标检测框所包围的画面块的垃圾检测特征包括以下步骤：

4.根据权利要求1所述的垃圾检测方法，其特征在于，所述将多个所述垃圾局部图像和所述待检测图像输入到视觉编码器中，以对每一张垃圾局部图像进行多尺度特征提取，得到每一张垃圾局部图像的多尺度图像特征包括以下步骤：

5.根据权利要求1所述的垃圾检测方法，其特征在于，所述根据所述垃圾局部图像的多尺度图像特征和垃圾检测特征得到视觉特征包括以下步骤：

6.根据权利要求1所述的垃圾检测方法，其特征在于，所述视觉推理大语言模型包括多个依次连接的语言模型中间层，两个语言模型中间层之间连接有视觉语言语义信息融合层；

7.根据权利要求6所述的垃圾检测方法，其特征在于，所述将所述垃圾局部图像的视觉特征和垃圾识别文本指令集输入视觉推理大语言模型，得到垃圾局部图像的检测结果包括以下步骤：

8.一种垃圾检测系统，其特征在于，包括：

第一模块，用于获取待检测图像；

9.一种电子设备，其特征在于，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如权利要求1至7任一项所述的垃圾检测方法的步骤。

10.一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7中任一项所述的垃圾检测方法的步骤。