CN113326845A

CN113326845A - 基于自注意力机制的目标检测方法、系统和存储介质

Info

Publication number: CN113326845A
Application number: CN202110737893.8A
Authority: CN
Inventors: 曾靖杰; 刘盛中; 肖磊
Original assignee: Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-08-31

Abstract

本发明涉及人工智能处理领域，尤其涉及一种基于自注意力机制的目标检测方法、系统、存储介质和控制装置，旨在解决自动检测垃圾分类领域小型垃圾容易漏检和多个垃圾堆叠时难以识别的问题。为此目的，本发明的基于自注意力机制的目标检测方法包括：检测图像中是否有目标物，对具有目标物的图像进行关键特征提取，将所述关键特征输入Faster R‑CNN模型中，最后输出所述目标物的识别结果。本发明能够准确识别是小型垃圾类型，且能同时识别堆叠垃圾类型。

Description

基于自注意力机制的目标检测方法、系统和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于自注意力机制的目标检测方法、系统、存储介质和控制装置。

背景技术

在自动检测垃圾分类领域，现存的技术方案能够进行垃圾的识别，但是一些细节问题还没有解决。例如如何对小型垃圾进行识别，比如瓜子壳，果皮，细纸屑等等，这些物体通过一般检测方法容易出现漏检。

因此，如何提高对小型垃圾的识别精度是目前亟待解决的问题。

发明内容

本发明针对上述存在的问题，提供了一种基于自注意力机制的目标检测方法、系统、介质和装置。

本发明采取了Faster R-CNN模型结合Multi-head Self-attention的模型，这样能够有效的提取出小型目标物的特征，能够对小型目标物进行识别，提高了精确度，解决了无法对小型目标物进行识别的问题。

在第一方面，本发明提出一种基于自注意力机制的目标检测方法，包括如下步骤：

步骤102，初步检测图像中是否有目标物；步骤104，若所述图像中有目标物，则采用多头自注意力机制对具有目标物的图像进行关键特征提取；步骤106，将所述关键特征输入Faster R-CNN模型中，输出所述目标物的识别结果。

步骤102，通过不同形状的卷积滑动窗口扫描图像上是否有所述目标物；对扫描到目标物的每个窗口，基于自下而上的关注模型提取每个窗口并输出窗口图片；步骤104，采用多头自注意力机制对每一个窗口图片进行关键特征提取。

步骤102还包括，在输出窗口图片后，运用锚框检测所述窗口图片中的目标物是否是呈堆叠状态的多个目标物，输出每一目标物的位置信息。

步骤106还包括，将Faster R-CNN模型的输出结果，输入全连接神经网络；将所述全连接神经网络的输出结果经过SoftMax函数计算，以确定所述目标物所属的分类。

本发明的目标物是垃圾，通过垃圾检测算法判断所述图像中是否有目标物；在所述步骤102之前，还包括：对采集的所述图像进行预处理。

第二方面，本发明提出一种基于自注意力机制的目标检测系统，包括：

目标检测单元，用于初步检测图像中是否有目标物；

特征提取单元，用于在所述图像中有目标物时，采用多头自注意力机制对具有目标物的图像进行关键特征提取；

目标识别单元，用于将所述关键特征输入Faster R-CNN模型中，输出所述目标物的识别结果。

所述目标检测系统中，所述目标检测单元通过不同形状的卷积滑动窗口扫描图像上是否有所述目标物，并对扫描到目标物的每个窗口，基于自下而上的关注模型提取每个窗口并输出窗口图片；所述特征提取单元采用多头自注意力机制对每一个窗口图片进行关键特征提取。

所述目标检测系统中，所述目标检测单元还用于在输出窗口图片后，运用锚框检测所述窗口图片中的目标物是否是呈堆叠状态的多个目标物，输出每一目标物的位置信息。通过本方法可以检测出目标物是否呈现堆叠状态。

所述目标检测系统中，所述目标识别单元进一步将Faster R-CNN模型的输出结果，输入全连接神经网络，并将所述全连接神经网络的输出结果经过SoftMax函数计算，以确定所述目标物所属的分类。

第三方面，本发明还提供一种计算机可读存储介质，该存储介质存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行前述第一方面的基于自注意力机制的目标检测方法。

第四方面，本发明还提供一种控制装置，该控制装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行前述第一方面的基于自注意力机制的目标检测方法。

有益技术效果：

根据本发明的优选实施方式，为了能更好的识别小型目标物，在图片导入FasterR-CNN模型时，先进行mulit head self-attention，提取关键特征。多头注意能够将图片信息综合起来，有用信息越多，越能提高模型识别分类能力。接着将得到的特征向量矩阵导入到Faster R-CNN模型中训练，再接全连接神经网络并对输出结果进行分类识别。本发明能够对小型目标物进行识别，提高了精确度，能够同时对多个堆叠目标物进行识别，提高了效率。

附图说明

图1为本申请实施例的基于自注意力机制的目标检测方法的主要步骤流程图；

图2本申请实施例的基于自注意力机制的目标检测系统的结构图。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器、通信端口、存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

这里对本发明中涉及的技术术语作如下解释：

1.Bottom-Up attention是基于自下而上的关注模型(一般使用Faster R-CNN)，用于提取图像中的兴趣区域，获取对象特征。

2.Faster R-CNN，相比CNN，能够针对图像获取兴趣区域，然后对每个兴趣区域应用目标检测器，这样就可以准确的获得图像类别，并且实现了只输入一次就可以识别所有对象的能力，极大地提高的处理效率。

3.Multi-head Self-attention与以往的Self-attention相比，要进行多次线性变换，并且每次进行线性变换的参数是不一样的，最后将线性变换的结果进行拼接，然后再进行一次线性变换得到最终的attention结果。

4.向量堆叠即将一个向量拼接在另一个向量的后面.

本发明巧妙地采用Faster R-CNN加Multi-head Self-attention模型的思想，这样能够有效的提取出小型垃圾的特征。对多个垃圾物体堆叠检测是采用yolo算法。从而能够对小型垃圾进行识别，提高了精确度；能够同时对多个堆叠垃圾物体进行识别，提高了效率。

首先参阅图1，为了便于说明，在下面的实施例中将垃圾作为待识别的小型目标物。根据本发明基于自注意力机制的目标检测方法的实施例的一种方法，该方法可以包括如下步骤：

步骤101，图片预处理。通过数字图像处理中基础的白平衡算法、宽动态算法，使得整体图片在处理后不会存在明显的偏色、暗区和亮区杂糅不清的问题。在实际应用中，系统抓拍道路的现况，对抓拍的照片进行预处理。

步骤102，检测垃圾是否存在。系统通过垃圾检测算法，判断图片中是否有垃圾，以及确定垃圾的位置。垃圾检测算法通过卷积滑动窗口去检测垃圾是否存在以及它的位置，再用Bottom-up attention进行处理，处理过后的窗口结合anchor boxes检测多个垃圾。最后得到一个n*anchor boxes维度的向量。每一个anchor boxes的不同号位或者号位组合分别用来判断图片是否有垃圾，垃圾位置以及垃圾的类型。垃圾检测算法可以采用目前常用的检测手段，在此不在赘诉。

步骤103，特征提取。为了能更好的识别小型垃圾，在图片导入Faster R-CNN模型时，第一步先进行mulit head self-attention，提取关键特征。多头注意能够将图片信息综合起来，有用信息越多，越能提高模型识别分类能力。

步骤104，导入模型。将最后得到的向量矩阵导入到Faster R-CNN模型中训练，再接全连接神经网络。

步骤105，垃圾分类。最后再用softmax进行垃圾分类。

步骤102中，最后得到的向量中n的优选值为9。每一个anchor boxes的优选一号位用来判断图片是否有垃圾，优选2至5号位判断位置，优选后四位判断垃圾的类型。

在上述步骤102中，优选的Bottom-up attention模型为Faster R-CNN。

在上述步骤103中，提取关键特征也可以使用传统self-attention进行多次提取实现。

在上述步骤S105中，优选的垃圾分类方法为：一共分为四种垃圾类型，干垃圾，湿垃圾，有害垃圾和可回收垃圾。

本领域人员应理解，上述实施例虽然以垃圾作为小型目标物，本发明方案也可应用于其他检测对象，例如螺丝、粉末等等。

根据本发明的另一方面，还提供了一种基于自注意力机制的目标检测系统。

参考图2，根据本发明基于自注意力机制的目标检测系统的实施例的一种结构，该结构可以包括如下模块：

目标检测单元202，用于初步检测图像中是否有目标物。系统通过垃圾检算法，判断图片中是否有垃圾，以及确定垃圾的位置。垃圾检测算法通过卷积滑动窗口去检测垃圾是否存在以及它的位置。再用Bottom-up attention进行处理，处理过后的窗口结合anchorboxes检测多个垃圾。最后得到一个n*anchor boxes维度的向量。每一个anchor boxes的不同号位或者号位组合分别用来判断图片是否有垃圾，垃圾位置以及垃圾的类型。最后得到的向量中n的优选值为9。每一个anchor boxes的优选一号位用来判断图片是否有垃圾，优选2至5号位判断位置，优选后四位判断垃圾的类型。

特征提取单元204，用于在所述图像中有目标物时，采用多头自注意力机制对具有目标物的图像进行关键特征提取。为了能更好的识别小型垃圾，在图片导入Faster R-CNN模型时，第一步先进行mulit head self-attention，提取关键特征。多头注意能够将图片信息综合起来，有用信息越多，越能提高模型识别分类能力。

目标识别单元206，用于将所述关键特征输入Faster R-CNN模型中，输出所述目标物的识别结果。模型可以接全连接神经网络。最后再用softmax进行分类。一共分为四种垃圾类型，干垃圾，湿垃圾，有害垃圾，可回收垃圾。

目标检测系统还可以包括预处理单元(图中未示出)。通过数字图像处理中基础的白平衡算法、宽动态算法，使得整体图片在处理后不会存在明显的偏色、暗区和亮区杂糅不清的问题。

从上述实施例中可以看出，使用Faster R-CNN和Multi-head Self-attention可以有效进行垃圾识别。从而实现对小型垃圾的高精准度识别，并且能够同时对多个堆叠垃圾物体进行识别，提高了效率。

第三方面，本发明还提供一种计算机可读存储介质，该存储介质存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行前述的基于自注意力机制的目标检测方法。

第四方面，本发明还提供一种控制装置，该控制装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行前述的基于自注意力机制的目标检测方法。根据本发明的优选实施方式，为了能更好的识别小型目标物，在图片导入Faster R-CNN模型时，先进行mulit head self-attention，提取关键特征。多头注意能够将图片信息综合起来，有用信息越多，越能提高模型识别分类能力。接着将得到的特征向量矩阵导入到Faster R-CNN模型中训练，再接全连接神经网络并对输出结果进行分类识别。本发明能够对小型目标物进行识别，提高了精确度，能够同时对多个堆叠目标物进行识别，提高了效率。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于自注意力机制的目标检测方法，其特征在于，包括如下步骤：

步骤102，初步检测图像中是否有目标物；

步骤104，若所述图像中有目标物，则采用多头自注意力机制对具有目标物的图像进行关键特征提取；

步骤106，将所述关键特征输入Faster R-CNN模型中，输出所述目标物的识别结果。

2.根据权利要求1所述的方法，其特征在于，在步骤102中，通过不同形状的卷积滑动窗口扫描图像上是否有所述目标物；

对扫描到目标物的每个窗口，基于自下而上的关注模型提取每个窗口并输出窗口图片；

在步骤104中，采用多头自注意力机制对每一个窗口图片进行关键特征提取。

3.根据权利要求2所述的方法，其特征在于，所述步骤102还包括，在输出窗口图片后，运用锚框检测所述窗口图片中的目标物是否是呈堆叠状态的多个目标物，输出每一目标物的位置信息。

4.根据权利要求1至3中任一项所述的方法，其特征在于，步骤106还包括，将Faster R-CNN模型的输出结果，输入全连接神经网络；

将所述全连接神经网络的输出结果经过SoftMax函数计算，以确定所述目标物所属的分类。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述目标物是垃圾，通过垃圾检测算法判断所述图像中是否有目标物；

在所述步骤102之前，还包括：对采集的所述图像进行预处理。

6.一种基于自注意力机制的目标检测系统，其特征在于，包括：

目标检测单元，用于初步检测图像中是否有目标物；

7.根据权利要求6所述的系统，其特征在于，所述目标检测单元通过不同形状的卷积滑动窗口扫描图像上是否有所述目标物，并对扫描到目标物的每个窗口，基于自下而上的关注模型提取每个窗口并输出窗口图片；

所述特征提取单元采用多头自注意力机制对每一个窗口图片进行关键特征提取。

8.根据权利要求7所述的系统，其特征在于，所述目标检测单元还用于在输出窗口图片后，运用锚框检测所述窗口图片中的目标物是否是呈堆叠状态的多个目标物，输出每一目标物的位置信息。

9.根据权利要求6至8中任一项所述的系统，其特征在于，所述目标识别单元进一步将Faster R-CNN模型的输出结果，输入全连接神经网络，并将所述全连接神经网络的输出结果经过SoftMax函数计算，以确定所述目标物所属的分类。

10.一种控制装置，该控制装置包括处理器和存储器，所述存储器适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1-5中任一项的基于自注意力机制的目标检测方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条程序代码，所述程序代码适用于由处理器加载并运行以执行权利要求1至5中任一项所述的基于自注意力机制的目标检测方法。