CN115937655A

CN115937655A - 多阶特征交互的目标检测模型及其构建方法、装置及应用

Info

Publication number: CN115937655A
Application number: CN202310159962.0A
Authority: CN
Inventors: 方剑锋; 张香伟; 程洁; 黎维; 曹喆
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-04-07
Anticipated expiration: 2043-02-24
Also published as: CN115937655B

Abstract

本方案提出了一种多阶特征交互的目标检测模型及其构建方法、装置及应用，包括以下步骤：获取包含待检测目标的至少一待检测图像，所述待检测图像进行标记后送入构建好的多阶特征交互的目标检测模型中；所述多阶特征交互的目标检测模型中的主干网络和颈部网络对所述待检测图像进行处理得到待检测图像特征，在所述多阶特征交互的目标检测模型的头部网络中使用空间聚合模块对所述待检测图像特征的上下文信息进行聚合得到空间聚合结果后进行输出得到检测目标框。本方案通过对YOLOv8的头部网络进行改进，使得YOLOv8可以有效捕捉上下文中的多阶交互从而精准的进行目标识别。

Description

多阶特征交互的目标检测模型及其构建方法、装置及应用

技术领域

本申请涉及深度学习多模态视频处理领域，尤其涉及一种多阶特征交互的目标检测模型及其构建方法、装置及应用。

背景技术

多模态指的是多种模态的信息，包括：文本、图像、视频、音频等，它像人类利用视觉、嗅觉、味觉、听觉等多感官理解现实世界一样，充分利用文本、图像、语音和视频等多种模态来进行学习，这就是多模态学习，在信息飞速发展的今天，多模态数据已经成为近年来数据来源的主要形式，在互联网时代，在搜索引擎中使用文本（关键词）来搜索图片、视频，或以图搜图，以图搜视频等都是使用多模态数据进行模型训练的应用，当然，以文本到图像、以视频到文本、以文本到视频等生成任务也可以用多模态数据进行模型训练来得到。

zero-shot表示0样本学习的模型训练方法，其利用训练数据集来对模型进行训练，使得模型能够对测试集的对象进行分类，且训练数据集合测试集在类别之间没有任何交集，在对测试集的对象进行分类时需要借助类别的描述来建立训练数据集合和测试集之间的联系，从而使得模型有效，比如：假设我们的模型已经能够识别马、老虎了，现在需要该模型也识别斑马，但并不能让模型通过斑马的图像进行训练，那么我们就需要将斑马的描述来输入模型让其对斑马进行判断。

常规的目标检测模型如现在最为先进的YOLOv8为例，其更加倾向于关注低阶或高阶相互作用，忽略了最丰富的中阶特征交互，所以在一些场景下便容易造成一些误判，例如在检测出店经营方面，由于出店经营的场景复杂度高，并没有一个严格的判定标准，所以如果常规的目标检测模型忽略中阶特征交互则会导致误判的问题，从而影响后续目标类别的判定，所以，亟需一种在不忽略中阶特征交互的情况下可以对目标进行准确识别的方法。

发明内容

本申请方案提供一种多阶特征交互的目标检测模型及其构建方法、装置及应用，通过对YOLOv8中的头部网络进行改进，使得模型可以更好的捕获中间阶特征，提高目标检测的准确率。

第一方面，本申请提供一种多阶特征交互的目标检测模型的构建方法，包括：

获取包含待检测目标的至少一待检测图像，所述待检测图像进行标记后送入构建好的多阶特征交互的目标检测模型中，使用所述多阶特征交互的目标检测模型对所述待检测图像进行检测得到检测目标框，所述多阶特征交互的目标检测模型以YOLOv8为原型，所述多阶特征交互的目标检测模型中的主干网络和颈部网络对所述待检测图像进行处理得到待检测图像特征，在所述多阶特征交互的目标检测模型的头部网络中使用空间聚合模块对所述待检测图像特征的上下文信息进行聚合得到空间聚合结果，再使用通道聚合模块对所述空间聚合结果进行聚合得到通道聚合结果，对所述通道聚合结果进行输出得到检测目标框；

所述空间聚合模块由归一化层、卷积层、池化层、激活层、多阶门控聚合模块依次串联组成，所述归一化层对待检测图像特征进行归一化得到空间归一结果，将空间归一结果输入到卷积层中得到空间卷积特征，所述池化层对空间卷积特征进行全局平均池化得到空间池化特征，使用所述空间卷积特征减去所述空间池化特征再与缩放因子进行点积得到空间缩放特征，所述缩放因子为模型参数，将所述空间缩放特征与所述空间卷积特征进行元素级相加得到空间相加特征，所述激活层对所述空间相加特征进行激活输出得到空间激活特征；

所述多阶门控聚合模块对所述空间激活特征进行聚合得到空间门控聚合结果，将所述空间门控聚合结果与所述待检测图像特征进行元素级相加得到所述空间聚合结果，所述空间聚合结果经过通道聚合模块得到通道聚合结果，对所述通道聚合结果进行卷积输出得到检测目标框。

第二方面，本申请实施例提供一种目标检测方法，包括：

获取待检测图像，将所述待检测图像送入训练好的多阶特征交互的目标检测模型中，所述多阶特征交互的目标检测模型中的主干网络和颈部网络对所述待检测图像进行处理得到待检测图像特征，在所述多阶特征交互的目标检测模型的头部网络中使用空间聚合模块对所述待检测图像特征的上下文信息进行聚合得到空间聚合结果，所述空间聚合结果经过通道聚合模块得到通道聚合结果，对所述通道聚合结果进行卷积输出得到检测目标框。

第三方面，本申请实施例提供一种多模态类别检测模型的构建方法，包括：

文本编码模块、图像编码模块以及类别检测模块，所述文本编码模块的输入为物品类别的文本描述信息，所述文本编码模块将物品类别的文本描述信息转换为文本特征后输入到类别检测模块中；

所述图像编码模块由网络茎秆层、第一卷积局部模块、第一子采样层、第二卷积局部模块、第二子采样层、第一局部和全局上下文组合模块、第三子采样层、第二局部和全局上下文组合模块依次串联组成，所述图像编码模块的输入为多阶特征交互的目标检测模型输出的包含检测目标框的待分类图像，所述图像编码模块将包含检测目标框的待分类图像中的待检测目标转换为图像特征后输入到类别检测模块中；

所述类别检测模块根据所述图像特征找到匹配的文本特征，所述文本特征为对应待检测目标的类别信息。

第四方面，本申请实施例提供一种目标类别检测方法，包括：

获取待检测图像，对所述待检测图像进行目标检测得到包含检测目标框的待分类图像，将包含检测目标框的待分类图像输入到多模态类别检测模型中进行检测，所述多模态类别检测模型中的图像编码模块对检测目标框中的内容进行转换得到图像特征，将所述图像特征输入到类别检测模块中，所述类别检测模块根据所述图像特征找到匹配的文本特征，所述文本特征为对应检测目标框的类别信息。

第五方面，本申请实施例提供一种违规出店经营检测方法，包括：

将出店经营图片作为训练样本对实施例一构建的多阶特征交互的目标检测模型进行训练，得到用于检测违规出店经营的目标检测模型，使用训练好的检测违规出店经营的目标检测模型来进行违规出店经营检测。

第六方面，本申请提供一种多阶特征交互的目标检测模型的构建装置，包括：

获取模块：获取包含待检测目标的至少一待检测图像，所述待检测图像进行标记后送入构建好的多阶特征交互的目标检测模型中，使用所述多阶特征交互的目标检测模型对所述待检测图像进行检测得到检测目标框，所述多阶特征交互的目标检测模型以YOLOv8为原型，所述多阶特征交互的目标检测模型中的主干网络和颈部网络对所述待检测图像进行处理得到待检测图像特征，在所述多阶特征交互的目标检测模型的头部网络中使用空间聚合模块对所述待检测图像特征的上下文信息进行聚合得到空间聚合结果，再使用通道聚合模块对所述空间聚合结果进行聚合得到通道聚合结果，对所述通道聚合结果进行输出得到检测目标框；

空间聚合模块：所述空间聚合模块由归一化层、卷积层、池化层、激活层、多阶门控聚合模块依次串联组成，所述归一化层对待检测图像特征进行归一化得到空间归一结果，将空间归一结果输入到卷积层中得到空间卷积特征，所述池化层对空间卷积特征进行全局平均池化得到空间池化特征，使用所述空间卷积特征减去所述空间池化特征再与缩放因子进行点积得到空间缩放特征，所述缩放因子为模型参数，将所述空间缩放特征与所述空间卷积特征进行元素级相加得到空间相加特征，所述激活层对所述空间相加特征进行激活输出得到空间激活特征；

多阶门控聚合模块：所述多阶门控聚合模块对所述空间激活特征进行聚合得到空间门控聚合结果，将所述空间门控聚合结果与所述待检测图像特征进行元素级相加得到所述空间聚合结果，所述空间聚合结果经过通道聚合模块得到通道聚合结果，对所述通道聚合结果进行卷积输出得到检测目标框。

第七方面，本申请实施例提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行第一方面所述的一种多阶特征交互的目标检测模型的构建方法或第二方面所述的一种目标检测方法或第三方面所述的一种多模态类别检测模型的构建方法或第四方面所述的一种目标类别检测方法或第五方面所述的一种违规出店经营检测方法。

第八方面，本申请实施例提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据第一方面所述的一种多阶特征交互的目标检测模型的构建方法或第二方面所述的一种目标检测方法或第三方面所述的一种多模态类别检测模型的构建方法或第四方面所述的一种目标类别检测方法或第五方面所述的一种违规出店经营检测方法。

相较现有技术，本技术方案具有以下特点和有益效果：

本方案通过对YOLOv8模型进行改进，将YOLOv8的头部网络改为空间聚合模块，该空间聚合模块中包含一个轻量级的通道聚合模块，使用通道聚合模块来重新加权高维隐藏空间，通过减少投影通道特征和激活函数来实现收集和重新分配通道级信息；本方案的空间聚合模块中还包含多阶门控聚合模块，多阶门控聚合模块捕获了更多的中间阶交互特征；本方案的多模态类别检测模型使用多模态预训练方法结合多模态zero-shot推理方法来进行训练，可以精确的识别待检测目标的类别信息；本方案在多模态类别检测模型中将Q、K、V全部都降采样到固定的空间分辨率，并将注意力的输出插值回原始分辨率，以馈送到下一层，降低了浮点运算量和参数量；多模态类别检测模型中的下采样模块残差连接到一个带步长的卷积以形成局部-全局的方式，进一步增加了模型识别的准确率。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种多阶特征交互的目标检测模型及其构建方法的流程示意图；

图2是本申请实施例的改进后的YOLOv8结构示意图；

图3是本申请实施例的C2f模块的结构示意图；

图4是本申请实施例C2f模块中的残差瓶颈模块的结构示意图；

图5是本申请实施例空间金字塔池化层的结构示意图；

图6是本申请实施例的空间聚合模块的结构示意图；

图7是本申请实施例的多阶门控聚合模块的结构示意图；

图8是本申请实施例的通道聚合模块的结构示意图；

图9是本申请实施例的特征重新分配模块的结构示意图；

图10是本申请实施例的多模态类别检测模型的结构示意图；

图11是本申请实施例的图像编码模块的结构示意图；

图12是本申请实施例的子采样层的结构示意图；

图13是本申请实施例的卷积局部模块的结构示意图；

图14是本申请实施例的局部和全局上下文组合模块的结构示意图；

图15是根据本申请实施例的一种目标类别检测装置的结构框图；

图16是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

为了便于理解本方案，在此对本方案涉及到的技术点进行解释说明：

YOLOv8：YOLOv8是YOLO的新版本，其包括主干网络、颈部网络和头部网络，相较于其他版本的YOLO，YOLOv8存在以下改进点：

主干网络：YOLOv8相较于YOLOv5，将其中的C3模块替换成了C2f模块，实现了进一步的轻量化，同时YOLOv8依旧使用了YOLOv5等架构中使用的SPPF模块；

颈部网络：YOLOv8在颈部网络依旧使用了PAN的思想，不过通过对比YOLOv5与YOLOv8的结构图可知，YOLOv8将YOLOv5中中PAN-FPN结构的上采样阶段中的卷积结构删除了，同时也将C3模块替换成了C2f模块；

头部网络：YOLOv8使用解耦头部，解耦头部中为CBS（卷积Conv+批归一化BN+激活函数SiLU）层，同时由于使用了DFL（动态模糊逻辑）的思想，因此回归头的通道数也变成了4*reg_max的形式。

实施例一

本申请方案提供了一种多阶特征交互的目标检测模型的构建方法，参考图1，所述方法包括：

在一些具体实施例中，所述多阶特征交互的目标检测模型结构示意图如图2所示，其中，多阶特征交互的目标检测模型的主干网络对输入内容通过CBS（降采样层）进行五次降采样，并使用多个C2f（轻量化模块）来进行进一步的轻量化，最后使用SPPF（空间金字塔池化层）进行输出。

所述主干网络由第一主干降采样层、第二主干降采样层、第一主干轻量化层、第三主干降采样层、第二主干轻量化层、第四主干降采样层、第三主干轻量化层、第五主干降采样层、第四主干轻量化层、主干空间金字塔池化层依次串联组成。

具体的，每一CBS（降采样层）结构相同，所述CBS（降采样层）包括卷积层、批归一层、激活输出层组成。

具体的，所述主干网络中的CBS（降采样层）的卷积核大小为2，步长为3，所述主干网络中的C2f（轻量化层）的深度为n，n为经过模型训练得到的参数。

每一C2f（轻量化模块）的结构相同，所述C2f（轻量化模块）的结构如图3所示，所述C2f由降采样层、通道分离层、多个串联的残差瓶颈模块、特征堆叠层、降采样层依次串联组成，输入特征经过降采样层后在通道分离层进行通道分离，将通道分离的结果输入到多个串联的残差瓶颈模块，并将通道分离的结果与每一残差瓶颈模块的输出结果在所述特征对叠层进行特征堆叠，最后通过CBS进行输出。

具体的，所述C2f（轻量化模块）中的降采样层中的S（卷积核大小）为1，K（步长）为1，p（像素补零）为0。

所述C2f（轻量化模块）中的每一残差瓶颈模块结构相同，如图4所示，所述残差瓶颈模块由两个串联的CBS组成，所述残差瓶颈模块的输入经过两个CBS后再与所述残差瓶颈模块的输入进行元素级相加得到该残差瓶颈模块的输出，该残差瓶颈模块的输出为下一个残差瓶颈模块的输入。

具体的，所述残差瓶颈模块中的CBS中的S（卷积核大小）为1，K（步长）为3，p（像素补零）为1。

所述主干空间金字塔池化层的结构如图5所示，所述主干空间金字塔池化层由CBS、第一最大池化层、第二最大池化层、第三最大池化层、特征堆叠层、CBS依次串联组成，将第一个CBS层、第一最大池化层、第二最大池化层、第三最大池化层的输出在特征堆叠层进行特征堆叠后，由第二个CBS层进行特征提取后输出。

具体的，在所述CBS中，C代表卷积，B代表批量归一化，S表示SiLU激活函数，在所述主干空间金字塔池化层的CBS中，S（卷积核大小）为1，K（步长）为1，P（像素补零）为0，在所述主干空间金字塔池化层中的最大池化层中，其池化核大小为5，所述特征对叠层将三个最大池化层的输出结果和第一个CBS的结果进行特征堆叠，最后使用第二个CBS层对堆叠之后的特征进行特征提取后输出。

在一些具体实施例中，所述空间聚合模块的结构如图6所示，输入特征经过归一化后输入到一个1*1卷积中进行卷积操作得到特征X1，对X1进行全局平均池化得到X2，使用X1-X2得到特征Y，Y与Ys进行点积操作得到特征U，X1与U再进行元素相加得到特征Z1，对Z1进行SiLU激活函数非线性操作得到特征Z，其中Ys是一个初始化为零的缩放因子，所述空间聚合模块可以通过X1-X2重新对不重要的交互成分进行重新加权，增加了特征多样性，且有效的捕捉了上下文中的多阶特征交互，提取具有静态和自适应区域感知的多阶特征，此外利用1*1卷积和全局平均池化对图像特征的每个patch（图像块）本身的0阶交互作用和1阶交互作用进行建模，所述空间聚合模块为了迫使网络关注多阶交互作用，动态的对不重要的交互作用进行排除。

在一些实施例中，在“所述多阶门控聚合模块对所述空间激活特征进行聚合得到空间门控聚合结果”步骤中，所述多阶门控聚合模块的结构如图7所示，所述多阶门控聚合模块分为第一层级和第二层级，第一层级由第一多阶门控卷积层和第一门控输出层串联组成，第二层级由深度可分离卷积层、门控通道分离层、深度可分离卷积组、门控特征堆叠层、第二多阶门控卷积层、第二门控输出层、第三多阶门控卷积层串联组成。

进一步的，将所述多阶门控聚合模块输入到所述第一多阶门控卷积层进行卷积后通过第一门控输出层进行输出得到第一层级输出结果，将所述多阶门控聚合模块输入到所述深度可分离卷积层中得到深度可分离卷积结果，所述门控通道分离层对所述深度可分离卷积结果进行通道分离得到通道分离结果，所述深度可分离卷积组对所述通道分离结果进行深度可分离卷积得到多个深度可分离卷积结果，所述深度可分离卷积组中包含多个串联的深度可分离卷积层，将所述通道分离结果与深度可分离卷积组中的多个深度可分离卷积结果在所述门控特征堆叠层中进行特征堆叠得到堆叠结果，多数第二多阶门控卷积层对所述堆叠结果进行卷积后通过第二门控输出层进行输出得到第二层级输出结果，将所述第一层级输出结果和所述第二层级输出结果进行点积后通过第三多阶门控卷积层进行输出得到空间门控聚合结果。

具体的，所述多阶门控聚合模块可以结合来自上下文分支的输出上下文，并且所述多阶门控聚合模块中的第一门控输出层和第二门控输出层使用了SiLU激活函数进行输出，SiLU既具有Sigmoid的门控效应，又具有稳定的训练特征，所以所述多阶门控聚合模块捕获了更多的中间阶交互。

具体的，所述多阶门控聚合模块中的第一多阶门控卷积层、第二多阶门控卷积层、第三多阶门控卷积层使用的都是1*1的卷积，所述多阶门控聚合模块中使用的所有深度可分离卷积都为5*5的卷积。

在一些实施例中，所述空间聚合模块后紧跟一通道聚合模块，使用通道聚合模块对空间聚合结果进行聚合，所述通道聚合模块的结构如图8所示，所述通道聚合模块由通道归一层、第一通道卷积层、通道深度卷积层、通道输出层，特征重新分配模块、第二通道卷积层组成。

具体的，图8中的r为模型参数，在本方案中r值为4.

进一步的，将空间聚合结果输入所述通道聚合模块中，所述通道聚合模块中的通道归一层对所述通道特征进行归一化得到通道归一结果，所述第一通道卷积层对所述通道归一结果进行卷积得到第一通道卷积结果，使用通道参数乘以所述第一通道卷积结果后送入所述通道深度卷积层中进行卷积得到通道深度卷积结果，所述通道深度卷积结果经所述通道输出层进行输出后送入所述特征重新分配模块进行分配得到通道分配结果，所述第二通道卷积模块对所述通道分配结果进行卷积后与所述空间聚合结果进行元素级相加得到通道聚合结果。

具体的，冗余的跨通道特征容易引入额外的参数以及计算开销，并且需要较大的多层感知机制来实现预期的性能，现有技术中的大多数方法通多改善输入特征的多样性来解决此问题，但是在本方案中，采用一个轻量级的通道聚合模块来对高维隐藏空间进行重新加权，并通过减少投影通道特征和激活函数来收集和重新分配通道级信息。

在一些具体实施例中，所述通道聚合模块中的第一通道卷积层和第二通道卷积层采用的是1*1的卷积，所述通道聚合模块中的通道深度卷积层采用的是3*3的卷积，所述通道聚合模块中的通道输出层采用的是SiLU激活函数。

进一步的，所述特征重新分配模块的结构如图9所示，所述特征重新分配模块由重分配卷积层和重分配输出层组成，输入的通道特征经过重分配卷积层卷积后由所述重分配输出层进行输出得到初步重分配结果，并使用输入的通道特征减去所述初步重分配结果再与通道级比例因子乘积得到乘积重分配结果，所述乘积重分配结果与输入的通道特征进行元素级相加得到最终重分配结果，所述最终重分配结果为所述特征重新分配模块的输出，所述通道级比例因子为模型的一个参数。

具体的，所述特征重新分配模块用来对通道级信息重新分配，所述特征重新分配模块中的重分配卷积层为1*1的卷积，所述特征重新分配模块中的重分配输出层使用的是SiLU激活函数，所述通道级比例因子为Yc。

在一些具体实施例中，本方案多阶特征交互的目标检测模型在训练时使用BCELoss作为分类损失函数，使用VFL Loss加CIOU Loss作为回归损失，样本匹配使用了任务对其分配器匹配方式，并使用了Anchor-Free的思想。

在一些具体实施例中，本方案所使用的训练数据可以使用手机进行图像数据采集，也可以使用监控探头进行图像采集，当使用手机进行图像数据采集时，图像采集人员使用手机采集目标图像分别远景目标图像和近景目标图像，将采集的图像分为两列放在表格中，第一列方近景图表图像，第二列放远景目标图像，图像采集人员按天将搜集的图像放在表格中作为训练样本；当使用监控探头进行图像采集时，先在监控视频中找出L段不同地点不同时间不同天气的出店经营视频，其中，Vi表示第i段视频，Vi中共有Ni幅视频图像，从Ni幅视频图像中选取Mi幅视频图像作为训练与测试图像，则从L段视频中可以获得幅图像作为训练与测试图像。

进一步的，可以将采集到的训练样本进行数据增强，数据增强方法为：1.颜色变换：在色彩通道空间进行数据增强，比如将某种颜色通道关闭，或者改变亮度值；2.旋转变换：选择一个角度，左右旋转图像，可以改变图像内容朝向；3.添加噪声：从高斯分布中采样出的随机值矩阵加入到图像中；4.锐化和模糊：使用高斯算子，拉普拉斯算子等处理图像；5.缩放变换：图像按照比例进行放大和缩小并不改变图像中的内容；6.平移变换：向上下左右四个维度移动图像；7.翻转变换：关于水平或者竖直的轴进行图像翻转操作；8.裁剪变换：主要有中心裁剪与随机裁剪；9.仿射变换：对图像进行一次线性变换并接上一个平移变换；神经网络训练中采用AutoAugment数据增强，基于NAS搜索的AutoAugment（自动数据增强）在一系列图像增强子策略的搜索空间中通过搜索算法找到适合特定数据集的图像增强方案；针对不同类型的数据集，会包含不同数量的子策略；每个子策略中都包含两种变换，针对每张图像都随机的挑选一个子策略，然后以一定的概率来决定是否执行子策略中的每种变换方法；数据增强已被广泛应用于网络优化，并被证明有利于视觉任务，可以提高深度学习算法的性能，防止过拟合，且易于实现。

在构建了基础的多阶特征交互的目标检测模型后，需要对其进行训练处理，本方案训练多阶特征交互的目标检测模型的训练方法为：

训练：训练配置从基线模型到最终模型基本一致，在自己数据上训练300epoch并进行5epoch的warm-up，训练初始warm-up把学习率设置得很小，随着训练的进行学习率逐渐上升，最终达到正常训练的学习率，训练完成时learning rate降为0；优化器为SGD，初始学习率为0.01，cosine学习机制，weightdecay设置为0.0005，momentum设置为0.9，batch视硬件设备而定，输入尺寸从448以步长32均匀过渡到832；随机初始化各层的连接权值w和偏置b,给定学习速率η和最小批次Batch，选定激活函数SMU，选定边框损失函数为CIOU Loss以及当前数据下最大迭代次数。

模型训练中在硬件满足要求的情况下使用多个显卡，训练所用的深度学习框架为PyTorch；确定以上神经网络参数之后，输入处理后的数据，反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数，结束训练，保存网络结构和参数，得到训练好的神经网络模型。

在一些具体实施例中，获取多个待检测图像，将所述待检测图像输入到训练好的多阶特征交互的目标检测模型中，多阶特征交互的目标检测模型对其进行检测，将检测结果划分为有框图像和无框图像两类，有框图像分为真正目标图像和误报目标图像，无框图像分为检测目标失败图像和无目标图像，所述检测失败目标图像中存在待检测目标，所述无目标图像中不存在待检测目标，将所述误报目标图像作为负样本，将所述检测目标失败图像进行标注和样本增强操作后作为训练样本再次对多阶特征交互的目标检测模型进行训练。

为了使模型的复杂度更加满足实际环境，在实际监控摄像头拍下的视频流数据中获取待检测图像对训练好的多阶特征交互的目标检测模型再次进行训练，直至所述多阶特征交互的目标检测模型精度已达到在实际应用环境下最优。

具体的，对多阶特征交互的目标检测模型进行重新训练的目的是为了使得模型适合实际环境中样本的复杂度。

实施例二

一种目标检测方法，包括：

实施例三

一种多模态类别检测模型的构建方法，包括：

具体的，所述多模态类别检测模型的结构如图10所示，所述多模态类别检测模型使用多模态预训练方法结合多模态zero-shot推理方法进行训练得到。

在本方案中，所述多模态预训练方法就是将输入的图片特征和文本特征进行配对，文本特征为图片特征对应的类别描述，将大量的图片特征和大量的文本特征进行对比学习，配对上的图片特征和文本特征就为正样本对，配对不上的图片特征和文本特征为负样本对，有了正负样本对，模型就可以在无需任何手工标注的情况下进行无监督训练，但是这种训练方式需要大量的训练数据。

由于经过多模态预训练之后的多模态类别检测模型是没有分类头的，所以采用多模态zero-shot推理方法对其进行推理，比如对于ImageNet（一个图片的可视化数据库），对其中的所有类别图片生成对应类别的描述语句，比如ImageNet中有1000个类别，就生成1000个类别描述语句，将这些类别描述语句输入到预训练好的文本编码模块进行编码就得到1000个描述类别的文本特征，之后将所述待检测目标输入到所述预训练好的图像编码模块进行编码得到多个图像特征，计算图像特征和文本特征之间的余弦相似性，选择最相似的文本特征对应的句子输出得到该图像的类别信息，从而完成整个分类任务。

进一步的，本方案先使用多模态预训练方式对所述多模态类别检测模型进行预训练，再使用模态zero-shot推理方法作为所述多模态类别检测模型的分类器进行输出。

具体的，虽然本方案在多模态zero-shot推理方法中使用ImageNet数据库中的类别，但是在实际应用的分类中，由于多模态zero-shot推理方法的特殊性，在进行类别判断时并不局限与ImageNet数据库中的类别，任何类别都可以进行分辨，且训练和推理时不需要提前定义好标签列表。

具体的，本方案使用多模态zero-shot推理方法的好处在于不需要进行数据标注，且模型更容易扩展，当使用传统方法进行分类时，需要先确定类别，再对图片清洗标注，而使用多模态zero-shot推理方法只需下载图片和文本的配对，在数据集上更加庞大，而且分类器的监督对象变成了文本，而不是常规模型的N选1的标签了，其次，多模态zero-shot推理方法在训练时将图片和文本进行了绑定，使得模型学到的特征不单是简单的视觉特征，而是多模态的特征，模型识别的准确性更高了。

具体的，所述文本编码模块和所述图像编码模块中都包含一个投射层，所述投射层的目的是将编码后单模态特征便为多模态特征。

具体的，所述图像编码模块的结构如图11所示，所述图像编码模块的输出为一个多模态的特征。

具体的，所述投射层后为一个归一化层对投射结果进行归一化。

在一些具体实施例中，所述文本编码器使用BERT网络架构的编码器，本方案在此不做具体限定。

在一些实施例中，所述第一子采样层、第二子采样层、第三子采样层的结构相同，其结构如图12所示，将每一子采样层的输入作为第一输入特征，所述第一输入特征在子采样层中进行卷积后再进行归一化得到第一归一结果，将所述第一归一结果分别与多头自注意力机制的K矩阵和V矩阵运算得到K转置矩阵和V矩阵，分别对第一归一结果进行平均池化和深度可分离卷积后得到第一池化结果和第一分离卷积结果，对所述第一池化结果和第一分离卷积结果进行特征堆叠后与多头自注意力机制的Q矩阵运算得到Q查询矩阵，使用Q查询矩阵、K转置矩阵和V矩阵进行多头自注意力机制运算得到第一自注意结果，对所述第一自注意结果进行卷积归一后得到第一预输出特征，对所述第一输入特征进行卷积后与所述第一预输出特征结合得到该子采样层的输出。

具体的，在“所述第一输入特征在子采样层中进行卷积后再进行归一化得到第一归一结果”步骤中使用的是1*1的卷积和批量归一。

在“分别对第一归一结果进行平均池化和深度可分离卷积后得到第一池化结果和第一分离卷积结果”步骤中使用的是3*3的深度可分离卷积作为可学习的局部下采样，使用平均池化层作为静态局部下采样。

在“对所述第一自注意结果进行卷积归一后得到第一预输出特征”步骤中使用的是1*1的卷积和批量归一。

在“对所述第一输入特征进行卷积”步骤中使用的是3*3的卷积操作。

进一步的，所述第一卷积局部模块、第二卷积局部模块的结构相同，其结构如图13所示，由第一局部卷积层、第一局部归一层、第一局部激活层、局部深度可分离卷积层、第二局部归一层、第二局部激活层、第二局部卷积层、第三局部归一层依次串联组成，将每一卷积局部模块的输入作为第二输入特征，则所述第二输入特征经过卷积局部模块进行处理后得到第二输出特征，将所述第二输出特征与所述第二输入特征进行元素级相加得到该卷积局部模块的输出。

具体的，所述第一局部卷积层、第二局部卷积层为1*1的卷积操作，所述第一局部归一层、第二局部归一层、第三局部归一层为批量归一，所述第一局部激活层、第二局部激活层为SiLU激活函数，所述局部深度可分离卷积层为3*3的深度可分离卷积操作。

具体的，所述一卷积局部模块、第二卷积局部模块可以充分发挥归纳偏置作用。

进一步的，所述第一局部和全局上下文组合模块和第二局部和全局上下文组合模块的结构相同，如图14所示，将所述局部和全局上下文组合模块的输入作为第三输入特征，将所述第三输入特征进行下采样和卷积后再进行批量归一得到第三归一结果，将所述第三归一结果进行Q、K、V的转换后进行多头自注意力机制的计算得到第三自注意结果，对所述第三自注意结果进行上采样操作后再进行卷积，最后进行批量归一化后输出得到第三输出特征。

具体的，所述第一局部和全局上下文组合模块和第二局部和全局上下文组合模块的卷积为1*1卷积。

具体的，注意力机制有利于性能，然而将注意力机制应用于高分辨率特征是会损害部署效率，因为高分辨率特征具有二次复杂度，现有技术通过对K和V进行下采样来缓解以上问题，而本方案为了更好的解决这个问题，将Q、K、V全部降采样到固定的空间分辨率，并将注意力的输出插值会原始分辨率以馈送到下一层，这样即使将注意力机制应用于高分辨率图像也不会损害部署效率。

在一些具体实施例中，使用对称式目标函数来判断所述多模态类别检测模型是否训练完成。

在一些具体实施例中，通过一个接口获取摄像头地址，并对摄像头获取的视频流抓取视频帧，并存入redis，当需要进行出店检测时，从redis中取出视频帧并现由所述YOLOv8进行检测得到待检测目标，将所述待检测目标交由多模态类别检测模型进行检测得到每一待检测目标的类别，有业务接口将检测出来的类别信息进行回调。

实施例四

一种目标类别检测方法，包括：

其中将待检测图像输入到实施例一所构建的多阶特征交互的目标检测模型中进行目标检测。

实施例五

一种违规出店经营检测方法，包括：

需要说明的是，本发明实地应用中提供过的方法还可以进一步的扩展到其他合适的应用环境中，而不限于违规出店经营这唯一的应用流程和环境，在实际的应用过程中，该应用流程和环境还可以应用在更多的地方。

实施例六

基于相同构思，参考图15，本申请还提出了一种多阶特征交互的目标检测模型的构建装置，包括：

实施例七

本实施例还提供了一种电子装置，参考图16，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项多阶特征交互的目标检测模型的构建方法实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种多阶特征交互的目标检测模型的构建方法的实施过程。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（RadioFrequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是视频流信息、待检测图像等，输出的信息可以是待检测目标、待检测目标的类别信息。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

S101、获取包含待检测目标的至少一待检测图像，所述待检测图像进行标记后送入构建好的多阶特征交互的目标检测模型中，使用所述多阶特征交互的目标检测模型对所述待检测图像进行检测得到检测目标框，所述多阶特征交互的目标检测模型以YOLOv8为原型，所述多阶特征交互的目标检测模型中的主干网络和颈部网络对所述待检测图像进行处理得到待检测图像特征，在所述多阶特征交互的目标检测模型的头部网络中使用空间聚合模块对所述待检测图像特征的上下文信息进行聚合得到空间聚合结果，再使用通道聚合模块对所述空间聚合结果进行聚合得到通道聚合结果，对所述通道聚合结果进行输出得到检测目标框；

S102、所述空间聚合模块由归一化层、卷积层、池化层、激活层、多阶门控聚合模块依次串联组成，所述归一化层对待检测图像特征进行归一化得到空间归一结果，将空间归一结果输入到卷积层中得到空间卷积特征，所述池化层对空间卷积特征进行全局平均池化得到空间池化特征，使用所述空间卷积特征减去所述空间池化特征再与缩放因子进行点积得到空间缩放特征，所述缩放因子为模型参数，将所述空间缩放特征与所述空间卷积特征进行元素级相加得到空间相加特征，所述激活层对所述空间相加特征进行激活输出得到空间激活特征；

S103、多阶门控聚合模块：所述多阶门控聚合模块对所述空间激活特征进行聚合得到空间门控聚合结果，将所述空间门控聚合结果与所述待检测图像特征进行元素级相加得到所述空间聚合结果，所述空间聚合结果经过通道聚合模块得到通道聚合结果，对所述通道聚合结果进行卷积输出得到检测目标框。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图16中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种多阶特征交互的目标检测模型的构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多阶特征交互的目标检测模型的构建方法，其特征在于，在“所述多阶门控聚合模块对所述空间激活特征进行聚合得到空间门控聚合结果”步骤中，所述多阶门控聚合模块分为第一层级和第二层级，第一层级由第一多阶门控卷积层和第一门控输出层串联组成，第二层级由深度可分离卷积层、门控通道分离层、深度可分离卷积组、门控特征堆叠层、第二多阶门控卷积层、第二门控输出层、第三多阶门控卷积层串联组成。

3.根据权利要求2所述的一种多阶特征交互的目标检测模型的构建方法，其特征在于，将所述多阶门控聚合模块输入到所述第一多阶门控卷积层进行卷积后通过第一门控输出层进行输出得到第一层级输出结果，将所述多阶门控聚合模块输入到所述深度可分离卷积层中得到深度可分离卷积结果，所述门控通道分离层对所述深度可分离卷积结果进行通道分离得到通道分离结果，所述深度可分离卷积组对所述通道分离结果进行深度可分离卷积得到多个深度可分离卷积结果，所述深度可分离卷积组中包含多个串联的深度可分离卷积层，将所述通道分离结果与深度可分离卷积组中的多个深度可分离卷积结果在所述门控特征堆叠层中进行特征堆叠得到堆叠结果，多数第二多阶门控卷积层对所述堆叠结果进行卷积后通过第二门控输出层进行输出得到第二层级输出结果，将所述第一层级输出结果和所述第二层级输出结果进行点积后通过第三多阶门控卷积层进行输出得到空间门控聚合结果。

4.根据权利要求1所述的一种多阶特征交互的目标检测模型的构建方法，其特征在于，所述空间聚合模块后紧跟一通道聚合模块，使用通道聚合模块对空间聚合结果进行聚合，所述通道聚合模块由通道归一层、第一通道卷积层、通道深度卷积层、通道输出层，特征重新分配模块、第二通道卷积层组成。

5.根据权利要求4所述的一种多阶特征交互的目标检测模型的构建方法，其特征在于，将空间聚合结果输入所述通道聚合模块中，所述通道聚合模块中的通道归一层对所述空间聚合结果进行归一化得到通道归一结果，所述第一通道卷积层对所述通道归一结果进行卷积得到第一通道卷积结果，使用通道参数乘以所述第一通道卷积结果后送入所述通道深度卷积层中进行卷积得到通道深度卷积结果，所述通道深度卷积结果经所述通道输出层进行输出后送入所述特征重新分配模块进行分配得到通道分配结果，所述第二通道卷积模块对所述通道分配结果进行卷积后与所述图像特征中的通道特征进行元素级相加得到通道聚合结果。

6.根据权利要求4所述的一种多阶特征交互的目标检测模型的构建方法，其特征在于，所述特征重新分配模块由重分配卷积层和重分配输出层组成，输入的通道特征经过重分配卷积层卷积后由所述重分配输出层进行输出得到初步重分配结果，并使用输入的通道特征减去所述初步重分配结果再与通道级比例因子乘积得到乘积重分配结果，所述乘积重分配结果与输入的通道特征进行元素级相加得到最终重分配结果，所述最终重分配结果为所述特征重新分配模块的输出，所述通道级比例因子为模型的一个参数。

7.一种目标检测方法，其特征在于，包括：

8.一种多模态类别检测模型的构建方法，其特征在于，包括：

9.根据权利要求8所述的一种多模态类别检测模型的构建方法，其特征在于，所述第一子采样层、第二子采样层、第三子采样层的结构相同，将每一子采样层的输入作为第一输入特征，所述第一输入特征在子采样层中进行卷积后再进行归一化得到第一归一结果，将所述第一归一结果分别与多头自注意力机制的K矩阵和V矩阵运算得到K转置矩阵和V矩阵，分别对第一归一结果进行平均池化和深度可分离卷积后得到第一池化结果和第一分离卷积结果，对所述第一池化结果和第一分离卷积结果进行特征堆叠后与多头自注意力机制的Q矩阵运算得到Q查询矩阵，使用Q查询矩阵、K转置矩阵和V矩阵进行多头自注意力机制运算得到第一自注意结果，对所述第一自注意结果进行卷积归一后得到第一预输出特征，对所述第一输入特征进行卷积后与所述第一预输出特征结合得到该子采样层的输出。

10.根据权利要求9所述的一种多模态类别检测模型的构建方法，其特征在于，所述第一卷积局部模块、第二卷积局部模块的结构相同，由第一局部卷积层、第一局部归一层、第一局部激活层、局部深度可分离卷积层、第二局部归一层、第二局部激活层、第二局部卷积层、第三局部归一层依次串联组成，将每一卷积局部模块的输入作为第二输入特征，则所述第二输入特征经过卷积局部模块进行处理后得到第二输出特征，将所述第二输出特征与所述第二输入特征进行元素级相加得到该卷积局部模块的输出。

11.根据权利要求9所述的一种多模态类别检测模型的构建方法，其特征在于，所述第一局部和全局上下文组合模块和第二局部和全局上下文组合模块的结构相同，将所述局部和全局上下文组合模块的输入作为第三输入特征，将所述第三输入特征进行下采样和卷积后再进行批量归一得到第三归一结果，将所述第三归一结果进行Q、K、V的转换后进行多头自注意力机制的计算得到第三自注意结果，对所述第三自注意结果进行上采样操作后再进行卷积，最后进行批量归一化后输出得到第三输出特征。

12.一种目标类别检测方法，其特征在于，包括：

13.一种违规出店经营检测方法，其特征在于，包括：

14.一种多阶特征交互的目标检测模型的构建装置，其特征在于，包括：

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1-6任一所述的一种多阶特征交互的目标检测模型的构建方法或权利要求7所述的一种目标检测方法或权利要求8-11所述的一种多模态类别检测模型的构建方法或权利要求12所述的一种目标类别检测方法或权利要求13所述的一种违规出店经营检测方法。

16.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1-6任一所述的一种多阶特征交互的目标检测模型的构建方法或权利要求7所述的一种目标检测方法或权利要求8-11所述的一种多模态类别检测模型的构建方法或权利要求12所述的一种目标类别检测方法或权利要求13所述的一种违规出店经营检测方法。