CN115375999B

CN115375999B - 应用于危化品车检测的目标检测模型、方法及装置

Info

Publication number: CN115375999B
Application number: CN202211307126.4A
Authority: CN
Inventors: 张香伟; 董墨江; 毛若锴; 曹喆; 彭大蒙
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2023-02-14
Anticipated expiration: 2042-10-25
Also published as: CN115375999A

Abstract

本申请提出了一种应用于危化品车检测的目标检测模型、方法及装置，该方案的窗口池化多头部自注意力模块嵌入了窗口池化多头部自注意力机制用于减少计算量，且偏移窗口池化多头部自注意力机制解决窗口与窗口之间是无法进行信息传递的弊端，降低了自注意力的平方计算复杂度；另外引入了高阶空间交互模块完全基于卷积结构的高阶空间交互建模，具有十分灵活的效果，既可以兼容各种卷积形式，又能够在不显著增加计算量的情况下，将self‑attention的二阶空间交互建模扩展到任意阶。

Description

应用于危化品车检测的目标检测模型、方法及装置

技术领域

本申请涉及目标检测领域，特别是涉及应用于危化品车检测的目标检测模型、方法及装置。

背景技术

视觉注意力机制是人类视觉所特有的一种大脑信号处理机制，而深度学习中的注意力机制正是借鉴了人类视觉的注意力思维方式。一般来说人类在观察外界环境时会迅速的扫描全景，然后根据大脑信号的处理快速的锁定重点关注的目标区域，最终形成注意力焦点，该机制称之为视觉注意力机制，该机制可以帮助人类在有限的资源下，从大量无关背景区域中筛选出具有重要价值信息的目标区域，帮助人类更加高效的处理视觉信息。类似的，深度学习领域的Transformer可以通过注意力模块捕获长期依赖关系，并在自然语言处理任务中显示出巨大的成功；近年来Transformer也被用于计算机视觉任务，用于图像分类、目标检测、语义分割、特征匹配等。

注意力机制在计算机视觉领域的应用主要是用于捕捉图像上的respectivefield，而在自然语言处理领域中的应用主要是用于定位关键的token。计算机视觉领域中的注意力机制方法涵盖通道、空间、自注意力、时间、类别等多个维度，其中通道注意力旨在显示建模出不同通道之间的相关性，通过网络学习的方式来自动获取到每个特征通道的重要程度，最后再为每个通道赋予不同的权重系数，从而来强化重要的特征抑制非重要的特征，其中空间注意力旨在提升关键区域的特征表达，本质上是将原始图片中的空间信息通过空间转换模块，变换到另一个空间中并保留关键信息，为每个位置生成权重掩膜并加权输出，从而增强感兴趣的特定目标区域同时弱化不相关的背景区域；其中混合注意力主要是共同结合了通道域、空间域等注意力的形式来形成一种更加综合的特征注意力方法，空间注意力由于将每个通道中的特征都做同等处理，忽略了通道间的信息交互，通道注意力则是将一个通道内的信息直接进行全局处理，容易忽略空间内的信息交互，混合注意力则很好地弥补了彼此之间的缺陷，其中自注意力是注意力机制的一种变体，其目的是为了减少对外部信息的依赖，尽可能地利用特征内部固有的信息进行注意力的交互，其中类别注意力从类别的角度进行建模，其利用粗分割的结果作为建模的对象，最后加权到每一个查询点，其中时间注意力将自注意力机制的方法扩展到时间维度并应用于行人重识别任务，有效的解决了大多数基于卷积神经网络的方法无法充分对空间-时间上下文进行建模的弊端，其中全局注意力通过知道其全局范围的特征信息，以便在决策的过程中更好地探索每个特征节点各自的全局关系，从而学习出更鲁棒的注意力特征。总的来说，目前所有的注意力机制方法大都是基于各个不同的维度利用有限的资源进行信息的充分利用，本质作用是增强重要特征，抑制非重要特征；注意力机制的特点是参数少、速度快、效果好。

许多科研人员在目标检测和识别领域取得了丰硕的成果，但是这些方法的应用具有一定的局限性，传统Transformer都是单尺度的，对于非限定条件下的单尺度目标检测效果并不好，所以解决由于单尺度的深度特征难以提高复杂场景下的检测和识别性能的问题仍然是一个十分重要且具有实际意义的研究内容。

在实际设计和使用中仍面临许多问题，主要体现在以下几个方面：

（1）随着应用场景对分类、检测、分割语义细节要求逐渐提高，单尺度的深度特征难以提高复杂场景下的检测和识别性能的问题，在训练模型时就需要不断地加深神经网络，大多数的自注意力的计算量具有平方计算复杂度高的问题，导致Transformer参数多、算力要求高，导致模型被迁移到其它任务比较繁琐，存在模型训练比较困难的问题，且设备资源要求更高，也就是说，目前的Transformer的计算量是比较大的，给训练和检测都带来一定的计算压力。

（2）视觉领域transformer很大程度上受transformer缺乏归纳偏置的限制，而且标准的卷积没有考虑空间交互信息。

以将常规模型用于道路上的危化品车检测为例，由于此类场景下的图像存在背景复杂、前景目标尺度变化大的问题，而传统的各类模型对于非限定条件下的多尺度目标检测效果不佳的问题在该场景下被凸显，导致危化品车目标检测效率低下。

发明内容

本申请实施例提供了一种应用于危化品车检测的目标检测模型、方法及装置，可优化目标检测模型的计算量的同时提高目标检测效率。

第一方面，本申请实施例提供了一种目标检测模型的构建方法，包括：获取包含待检测目标的待检测图像；目标检测模型包括依次序连接的输入层、主干网络和多尺度输出预测层，其中所述主干网络包括依次序布置的位于第一层级的线性嵌入层和窗口池化多头部自注意力模块、位于第二层级的高阶空间交互模块、位于第三层级的窗口池化多头部自注意力模块以及位于第四层级的块融合层和高阶空间交互模块；待检测图像在所述输入层中经历块分区后得到分块特征，所述分块特征输入到所述主干网络经历多个模块特征提取处理，且所述主干网络的每一层级输出的阶段特征下采样处理，每一层级的阶段特征对应的融合特征进行上采样处理，每一阶级特征和对应的融合特征进行特征融合后的特征输入到多尺度输出预测层进行预测得到预测特征。

第二方面，本申请实施例提供了一种目标检测模型，根据任一所述的目标检测模型的构建方法构建得到。

第三方面，本申请实施例提供了一种用于危化品车检测的目标检测模型，利用标注有危化品车的图像训练所述的目标检测模型得到。

第四方面，本申请实施例提供了一种危化品车检测方法，包括步骤：获取涵盖车辆的待检测图像；所述待检测图像输入到所述的用于危化品车检测的目标检测模型进行检测，若检测到危化品车输出危化品车目标。

第五方面，本申请实施例提供了一种目标检测装置，包括：图像获取单元，用于获取涵盖车辆的待检测图像；检测单元，用于将所述待检测图像输入到用于危化品车检测的目标检测模型进行检测，若检测到危化品车输出危化品车目标；其中用于危化品车检测的目标检测模型利用标记危化品车目标的图像作为训练样本训练所述的目标检测模型得到。

第六方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行危化品车检测方法或目标检测模型的构建方法。

第七方面，本申请实施例提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据执行所述的危化品车检测方法或目标检测模型的构建方法。

本发明的主要贡献和创新点如下：

本申请实施例提供的应用于危化品车检测的目标检测模型采用了一个多尺度的密集预测框架，其中窗口池化多头部自注意力模块嵌入了窗口池化多头部自注意力机制用于减少计算量，且偏移窗口池化多头部自注意力机制解决窗口与窗口之间是无法进行信息传递的弊端，降低了自注意力的平方计算复杂度。

窗口多头部池化自注意力机制使用分解的位置距离进行平移不变的位置嵌入，以在Transformer块中注入位置信息，且利用残差池化连接补偿在注意力计算中池化的影响。

本方案设计高阶空间交互模块，该高阶空间交互模块完全基于卷积结构的高阶空间交互建模，具有十分灵活的效果，既可以兼容各种卷积形式，又能够在不显著增加计算量的情况下，将self-attention的二阶空间交互建模扩展到任意阶；集成了visionTransformers和CNN的优点，实现了对高阶空间交互的建模，其具有高性能、可扩展、平移不变的特点。

可被应用于道路的危化品车目标检测，针对监控下的危化品车检测，对其记录建档，以备管理部门查证，同时通知相关人员及时到达现场进行处理，使危化品车结案更加准确和快速定位位置，让城市治理更加高效执行和安全管理。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定，在附图中：

图1是根据本申请一种实施例的目标检测模型的整体框架示意图。

图2是根据本申请一种实施例的窗口池化多头部自注意力模块的示意图；

图3是根据本申请一种实施例的窗口多头部池化自注意力机制的示意图；

图4是根据本申请一种实施例的高阶空间交互模块的示意图；

图5是根据本申请一种实施例的高阶空间交互卷积的示意图；

图6是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中，面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

如图1所示，第一方面，本申请实施例提供了一种目标检测模型的构建方法，包括：获取包含待检测目标的待检测图像；目标检测模型包括依次序连接的输入层、主干网络和多尺度输出预测层，其中所述主干网络包括依次序布置的位于第一层级的线性嵌入层和窗口池化多头部自注意力模块、位于第二层级的高阶空间交互模块、位于第三层级的窗口池化多头部自注意力模块以及位于第四层级的块融合层和高阶空间交互模块；待检测图像在所述输入层中经历块分区后得到分块特征，所述分块特征输入到所述主干网络经历多个模块特征提取处理，且所述主干网络的每一层级输出的阶段特征下采样处理，每一层级的阶段特征对应的融合特征进行上采样处理，每一阶级特征和对应的融合特征进行特征融合后的特征输入到多尺度输出预测层进行预测得到预测特征。

在本方案的一实施例中，所述输入层包括块分区层，输入目标检测模型的待检测图像作为输入图像在所述输入层内被缩放为H*W的尺寸大小，并在所述块分区层内进行一次块分区后得到多个H/4*W/4的分块特征。

在本方案的实施例中，所述主干网络对所述分块特征进行了四次降采样处理。具体的，所述主干网络包括四个层级的降采样层，其中第一层级的降采样层包括线性嵌入层和窗口池化多头部自注意力模块、第二层级的降采样层包括高阶空间交互模块、第三层级的降采样层包括窗口池化多头部自注意力模块，位于第四层级的降采样层包括块融合层和高阶空间交互模块。

关于主干网络的第一层级：所述主干网络的第一层级包括依次连接的线性嵌入层以及2个窗口池化多头部自注意力模块，所述线性嵌入层将数据格式为[H1,W1,C]的三维矩阵的分块特征转化为二维矩阵后得到特征向量，所述特征向量输入所述窗口池化多头部自注意力模块进行后续处理。换言之，所述分块特征输入到所述线性嵌入层后得到输入特征，所述输入特征输入到所述窗口池化多头部自注意力模块中进行处理。由于本方案采用的是Transformer模块，而Transformer模块要求输入的是token（向量）序列，每个Patch数据形状为N*N*C，通过映射得到一个长度为L（L=N*N*C）的向量（token）,最后把高宽两个维度展平即可得到一个二维矩阵[T,L]，T为H1/N*W1/N，故本方案的分块特征需要先经历线性嵌入层进行特征向量的转换。

如图2所示，本方案提供的窗口池化多头部自注意力模块的结构被展示，所述窗口池化多头部自注意力模块由连续的两个自注意力机制串联得到，所述窗口池化多头部自注意力模块包括依次串联的第一层归一化层、窗口多头部池化自注意力机制、第一多层感知层、第一全连接层、激活函数、第二层归一化层、偏移窗口多头部池化自注意力机制、第二多层感知层。本方案设置偏移窗口多头部池化自注意力机制用于弥补窗口多头部池化自注意力机制的窗口和窗口之间无法进行信息传递的问题。

其中第一多层感知层和第二多层感知层采用完全相同的结构，以下以多层感知层进行说明：多层感知层包括依次串联的LN层、全连接层1、SUM激活函数以及全连接层2，其中所述全连接层将维度扩大四倍后进行激活函数的激活，全连接层2再将维度进行还原。

输入所述窗口池化多头部自注意力模块的特征分别经历第一层归一化层、窗口多头部池化自注意力机制、第一多层感知层、第一全连接层、激活函数、第二层归一化层、偏移窗口多头部池化自注意力机制、第二多层感知层后得到输出特征。具体的，输入所述窗口池化多头部自注意力模块的特征在经历第一层归一化层后得到第一窗口归一化特征，第一窗口归一化特征经历窗口多头部池化自注意力机制后得到第一窗口自注意力特征，第一窗口自注意力特征和第一窗口归一化特征融合得到第一融合特征，第一融合特征输入到第一多层感知层进行多层感知后得到第一感知特征，第一感知特征和第一融合特征融合后输入到第二层归一化层进行层归一化处理后得到第二窗口层归一化特征，第二窗口层归一化特征经历偏移窗口多头部池化自注意力机制后得到第二窗口自注意力特征，第二窗口自注意力特征和第二窗口归一化特征融合得到第二融合特征，第二融合特征输入到第二多层感知层进行多层感知后得到第二感知特征，第二感知特征和第二融合特征融合后得到输出特征。

值得一提的是，本方案的主干网络的第一层级包括依次串联的两个窗口池化多头部自注意力模块，输入特征在经历第一个窗口池化多头部自注意力模块后得到的输出特征作为第二个窗口池化多头部自注意力模块的输入特征，输入特征在经历第二个窗口池化多头部自注意力模块后输出输出特征，所述输出特征作为主干网络的第一层级的第一阶段特征。

窗口多头部池化注意力机制是为了减少计算量，普通的Multi-head Self-Attention（MSA）模块，对于特征图的每个像素（或称作token，patch）在自注意力计算过程中需要和所有的像素去计算，如以下公式：

而使用本方案的窗口多头部池化注意力机制时，首先将输入的特征图按照M*M大小划分成一个个窗口，然后单独对每个窗口内部进行自注意力机制操作，如以下公式如下：

其中H代表feature map的高度，W代表feature map的宽度，C代表feature map的深度，M代表每个窗口的大小。

具体的，如图3所示，本方案提供的窗口多头部池化自注意力机制的结构被展示，池化注意力对于降低注意力块的计算复杂度和内存需求非常有效。所述窗口多头部池化自注意力机制包括并行的池化注意力块分支以及残差池化连接块，残差池化连接块将池化查询张量添加到池化注意力块分支得到的输出序列中。具体的，输入到窗口多头部池化自注意力机制中的特征在池化注意力块分支中经历LN层后经历查询线性投影得到池化查询张量Q、经历键线性投影后得到池化键张量K、经历值线性投影后得到池化值张量V，将相对位置嵌入到所述池化键张量K中和池化查询张量Q进行卷积操作、softmax计算后得到第一池化特征，所述第一池化特征和池化值张量V进行卷积操作后得到第二池化特征，第二池化特征和经历恒等映射的池化查询张量Q进行融合后再进行线性投影得到输出序列，将残差池化连接块的池化查询张量Q添加到输出序列中得到窗口多头部池化自注意力机制的输出特征。

在本方案的一实施例中，在池化键张量K和池化值张量V上的步长比池化查询张量Q的步长大，池化查询张量Q的步长只有在输出序列的分辨率在不同阶段发生变化时才进行下采样，这促使将残差池化连接添加到池化查询张量Q中，以增加信息流并促进多尺度视觉Transformer中池化注意力块的训练。

另外，尽管多尺度视觉Transformer在建模token间的交互方面表现出了巨大的潜力，但它们关注的是内容而不是结构；时空结构建模完全依赖于“绝对”位置嵌入来提供位置信息；这忽略了视觉中平移不变性的基本原理；多尺度视觉Transformer建模两个patch之间交互的方式将根据它们在图像中的绝对位置而改变；为了解决这个问题，本方案将相对位置嵌入到池化自注意计算中，相对位置只取决于token之间的相对位置距离。

在Transformer块内执行下采样，即利用池化进行下采样，以减少输入图像的大小，利用池化注意力可以通过池化查询张量Q在多尺度视觉Transformer的不同阶段之间降低分辨率，并通过池化键张量K和池化值张量V显著降低计算和内存复杂性；对于输入序列首先利用线性投影，然后是池化运算，分别用于查询、键和值张量。

另外，本方案加入了偏移窗口多头部池化自注意力机制，以弥补窗口多头部池化自注意力机制。具体的，偏移窗口多头部池化自注意力机制使每个窗口发生偏移提取窗口与窗口之间的语义特征。

关于主干网络的第二层级：所述主干网络的第二层级包括2个高阶空间交互模块，所述主干网络的第一层级输出的第一阶段特征输入到所述高阶空间交互模块中获取第二阶段特征。本方案设计的高阶空间交互模块是完全基于卷积结构的高阶空间交互建模；该模块十分灵活，既可以兼容各种卷积形式，又能够在不显著增加计算量的情况下，将自注意力机制的二阶空间交互建模扩展到任意阶；集成了vision Transformers和CNN的优点，实现了对高阶空间交互的建模，其具有高性能、可扩展、平移不变的特点。标准的卷积没有考虑空间交互信息，动态卷积和SE通过引入空间交互信息从而提高了模型的建模能力；self-attention对二阶空间交互进行了建模；高阶空间交互模块对任意阶空间交互进行高效建模；该模块只用卷积和全连接，就实现了高效的空间交互建模。

具体的，如图4所示，图4是本方案的高阶空间交互模块的示意图。所述高阶空间交互模块包括：依次序布置的第一高阶空间层归一化层、高阶空间交互卷积、第二高阶空间层归一化层以及高阶空间多层感知层，输入到高阶空间交互模块中的输入特征在经历第一高阶空间层归一化层、高阶空间交互卷积后得到交互卷积特征，交互卷积特征和输入到高阶空间交互模块中的输入特征融合后得到交互融合特征，交互融合特征再经历第二高阶空间层归一化层以及高阶空间多层感知层后得到感知特征，感知特征和交互融合特征融合后得到高阶空间交互模块的输出特征。

如图5所示，本方案的高阶空间交互卷积的结构被展示。输入到高阶空间交互卷积中的通道为C的特征首先经过通道为2C的卷积投影后得到通道2C的2C特征，从2C特征中分离出通道为C/4的第一C/4特征和通道为7C/4的7C/4特征，7C/4特征进行深度可分离卷积后再次特征分离出通道为C/4的第二C/4特征、通道为C/2的第二C/2特征以及通道为C的第二C特征，第一C/4特征和第二C/4特征进行点积以及通道为C/2的卷积投影后得到通道为C/2的第一C/2特征，第一C/2特征和第二C/2特征进行点积以及通道为C的卷积投影后得到通道为C的第一C特征，第一C特征和第二C特征在经历点积以及通道为C的卷积投影后得到输出特征。

在本方案中，输入到高阶空间交互卷积中的通道为C的特征首先经过卷积投影得到通道2C的2C特征，2C特征分离出C/4特征和7C/4特征，7C/4特征进行一次深度可分离卷积并特征分离出C/4特征，两个抽离的C/4特征进行点积得到融合特征，再经过另一个卷积投影得到输出，此时提取的是一阶空间交互。

视觉Transformer的成功主要取决于视觉数据中空间交互的正确建模，CNN只需使用静态卷积核来聚合相邻特征；视觉Transformer应用多头自注意力动态生成权重以混合空间 token；然而二次复杂度在很大程度上阻碍了视觉Transformer的应用，尤其是在下游任务中，包括需要更高分辨率特征图的分割和检测；视觉Transformer和传统CNN的另一个区别是感受野；传统的 CNN 通常在整个网络中使用3*3卷积，而视觉Transformer在整个特征图上或在相对较大的局部窗口内计算自注意力；视觉Transformer中的感受野可以更容易地捕捉长期依赖关系，这也是公认的视觉Transformer的关键优势之一。

关于主干网络的第三层级，主干网络的第三层级包括6个窗口池化多头部自注意力模块，所述主干网络的第二层级输出的第二阶段特征输入到6个窗口池化多头部自注意力模块获取第三阶段特征。关于窗口池化多头部自注意力模块的结构同于前文描述，在此不进行重复累赘说明。

关于主干网络的第四层级，主干网络的第四层级包括依次连接的块融合层以及2个高阶空间交互模块，所述块融合层用于降采样第三阶段特征后输入到高阶空间交互模块中得到第四阶段特征。关于高阶空间交互模块的结构同于前文描述，在此不进行重复累赘说明。

在“且所述主干网络的每一层级输出的阶段特征下采样处理，每一层级的阶段特征对应的融合特征进行上采样处理，每一阶级特征和对应的融合特征进行特征融合后的特征”步骤中，主干网络的第一层级对应于第一阶段特征以及融合特征一，主干网络的第二层级对应于第二阶段特征以及融合特征二，主干网络的第三层级对应于第三阶段特征以及融合特征三，主干网络的第四层级对应于第三阶段特征以及融合特征四，第一阶级特征以及融合特征一进行特征融合后被预测，第二阶级特征以及融合特征二进行特征融合后被预测，第三阶级特征以及融合特征三进行特征融合后被预测，第四阶级特征以及融合特征四进行特征融合后被预测。

这一部分上采样和降采样主要获得不同的感受野特征，以此适应目标图像中的多尺度特征，主要在于阶段特征和融合特征对应的不同尺度的特征融合；结构上并行提取High-Level（高级，丰富的语义特征）语义特征和Low-Level（低级，准确的定位信息）目标细节。设计的是为了适应检测不同尺度物体目标，高分辨率的检测头负责检测小物体，低分辨的检测头负责检测大物体，一种分而治之的思想为了适应检测不同尺度物体目标，高分辨率的检测头负责检测小物体，低分辨的检测头负责检测大物体。

在构建了基础的目标检测模型架构后，需要对其进行训练处理。本方案训练目标检测模型的训练方法为较为常见的训练手段。

训练：训练配置从基线模型到最终模型基本一致，在自己数据上训练300epoch并进行5epoch的warm-up，训练初始warm-up把学习率设置得很小，随着训练的进行学习率逐渐上升，最终达到正常训练的学习率，训练完成时learning rate降为0；优化器为SGD，初始学习率为0.01，cosine学习机制，weight decay设置为0.0005，momentum设置为0.9，batch视硬件设备而定，输入尺寸从448以步长32均匀过渡到832；随机初始化各层的连接权值w和偏置b,给定学习速率η和最小批次Batch，选定激活函数SMU，选定边框损失函数为CIOULoss以及当前数据下最大迭代次数。

模型训练中在硬件满足要求的情况下使用多个显卡，训练所用的深度学习框架为PyTorch；确定以上神经网络参数之后，输入处理后的数据，反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数，结束训练，保存网络结构和参数，得到训练好的神经网络模型。

实施例二，本申请实施例提供了一种目标检测模型，根据实施例一所述的目标检测模型的构建方法构建得到，该目标检测模型包括：

包括依次序连接的输入层、主干网络和多尺度输出预测层所述主干网络包括依次序布置的位于第一层级的线性嵌入层和窗口池化多头部自注意力模块、位于第二层级的高阶空间交互模块、位于第三层级的窗口池化多头部自注意力模块以及位于第四层级的块融合层和高阶空间交互模块；输入图像在所述输入层中经历块分区后得到分块特征，所述分块特征输入到所述主干网络经历多个模块特征提取处理，且所述主干网络的每一层级输出的阶段特征下采样处理，每一层级的阶段特征对应的融合特征进行上采样处理，每一阶级特征和对应的融合特征进行特征融合后的特征输入到多尺度输出预测层进行预测得到预测特征。

值得一提的是，本方案提供的目标检测模型引入了窗口池化多头部自注意力模块以及高阶空间交互模块，其中窗口池化多头部自注意力模块又包括串联的窗口多头部池化自注意力机制以及偏移窗口多头部池化自注意力机制，窗口池化多头部自注意力模块中嵌入了窗口池化多头部自注意力机制用于减少计算量，且偏移窗口池化多头部自注意力机制以解决窗口与窗口之间是无法进行信息传递的弊端；窗口多头部池化自注意力机制使用分解的位置距离进行平移不变的位置嵌入以在Transformer块中注入位置信息，且利用残差池化连接补偿在注意力计算中池化的影响；高阶空间交互模块可以兼容各种卷积形式，又能够在不显著增加计算量。

实施例三，本申请实施例提供了一种目标检测方法，具体地，该目标检测方法借助训练过的第二实施例所述的目标检测模型进行目标检测，所述目标检测模型包括依次序连接的输入层、主干网络和多尺度输出预测层，所述方法包括：

获取包含待检测目标的待检测图像；

所述主干网络包括依次序布置的位于第一层级的线性嵌入层和窗口池化多头部自注意力模块、位于第二层级的高阶空间交互模块、位于第三层级的窗口池化多头部自注意力模块以及位于第四层级的块融合层和高阶空间交互模块；

所述待检测图像在所述输入层中经历块分区后得到分块特征，所述分块特征输入到所述主干网络经历多个模块特征提取处理，且所述主干网络的每一层级输出的阶段特征下采样处理，每一层级的阶段特征对应的融合特征进行上采样处理，每一阶级特征和对应的融合特征进行特征融合后的特征输入到多尺度输出预测层进行预测得到待检测目标。

值得说明的是，本方案提及的所述多尺度预测头部已被训练，故其可根据训练的样本不同，多尺度预测头部可用于预测不同的目标。示例性，若训练样本为标记有危化品车的图像，则该方案可用于检测道路是否存在危化品车，此时，待检测目标为危化品车。

实施例四，本方案提供一种危化品车检测方法，将危化品车目标作为训练样本对第二方面提到的目标检测模型进行训练，得到用于危化品车检测的目标检测模型，以解决城市道路管理中基于固定摄像机和手机摄像机实现危化品车目标的智能检测。

借此手段，本方案可基于城市管理已建的固定摄像头取像，调用算法自动检测监控画面中危化品车目标监测，为道路破损治治理提供了一种方便、快捷和开放的信息化管理空间，并依托深度学习技术，实现城市道路智能管理和运行的高效。

具体的，该危化品车检测方法包括以下步骤：

获取涵盖车辆的待检测图像；

所述待检测图像输入到用于危化品车检测的目标检测模型进行检测，若检测到危化品车输出危化品车目标；其中用于危化品车检测的目标检测模型利用标记危化品车目标的图像作为训练样本训练如上所述的目标检测模型得到。

在“获取涵盖车辆的待检测图像”步骤中，选取拍摄可能存在危化品车的道路的摄像头的图像作为待检测图像。在一些实施例中，可对系统接口设置受摄像头地址和算法类型，回调地址等参数，接口启动一个新进程进而开始对摄像头的视频流抓取图像帧，并存入redis，同时通知监听程序；监听程序在收到通知过后从redis取出待检测图像。

在利用用于危化品车检测的目标检测模型进行分析检测后得到分析结果，将分析结果存入redis,同时通知监听程序，监听程序收到通知,取出结果,将分析结果提交到业务接口(回调)。针对定点监控下的危化品车目标检测，对其记录建档，以备管理部门查证，同时通知相关人员及时到达现场进行处理。

需要说明的是，本发明实地应用中提供过的方法还可以进一步的扩展到其他合适的应用环境中，而不限于危化品车这唯一的应用流程和环境，在实际的应用过程中，该应用流程和环境还可以应用在更多的地方。

关于用于危化品车的目标检测模型的训练，选择标记危化品车目标的通道的图像作为训练样本。在一些实施例中，可对训练样本进行数据增强，具体可选择以下技术手段：

采集的基础数据进行数据增强，增强方法为：1.颜色变换；2.旋转变换；3.添加噪声；4.锐化和模糊；5.缩放变换；6.平移变换：向上下左右四个维度移动图像；7.翻转变换；8.裁剪变换；9.仿射变换：对图像进行一次线性变换并接上一个平移变换。

值得一提的是，本方案提供的模型的神经网络训练中采用AutoAugment数据增强，基于NAS搜索的AutoAugment（自动数据增强）在一系列图像增强子策略的搜索空间中通过搜索算法找到适合特定数据集的图像增强方案。

针对不同类型的数据集会包含不同数量的子策略。每个子策略中都包含两种变换，针对每张图像都随机的挑选一个子策略，然后以一定的概率来决定是否执行子策略中的每种变换方法；数据增强已被广泛应用于网络优化，并被证明有利于视觉任务，可以提高CNN的性能，防止过拟合，且易于实现。

利用标记危化品车目标的图像训练后的目标检测模型在实际使用时，将待检测图像输入到用于危化品车的目标检测模型中输出危化品车目标的包围框的位置与目标的置信度。

另外，可在用于危化品车检测的目标检测模型的使用过程中对其进行迭代处理：搜集一批新的数据，让用于危化品车检测的目标检测模型去检测这一批数据，将检测结果划分为两大类有框图像和无框图像，有框图像又分为真正目标图像和误报目标图像，无框图像又可分为未检测目标的图像和图像中本来就没有目标的图像，其中将误报目标图像作为负样本，将含有危化品车目标但未检测到的图像作为训练样本，随后这些没检测到目标图像进行数据标注和数据增强，然后在原有模型的基础上在训练出一个新的用于危化品车检测的目标检测模型，测试模型效果检查精度是否达标，如果新的用于危化品车检测的目标检测模型未达标，则加入新的数据并对网络调整参数训练，如果模型精度已经达到要求并且在目前训练数据下最优时停止训练，循环这个步骤以达到用于危化品车检测的目标检测模型适合实际环境中样本的复杂度。

为了实现对危化品车目标进行管理，本用于危化品车检测的目标检测方法还包括以下步骤：当检测到危化品车，通知对应的管理部门。

实施例五

基于相同的构思，本申请还提出了一种目标检测装置，包括：

图像获取单元，用于获取涵盖车辆的待检测图像；

检测单元，用于将所述待检测图像输入到用于危化品车检测的目标检测模型进行检测，若检测到危化品车输出危化品车目标；其中用于危化品车检测的目标检测模型利用标记危化品车目标的图像作为训练样本训练如上所述的目标检测模型得到。

关于目标检测方法的技术特征的可详见上述实施例的介绍，为了避免重复介绍，在此不进行累赘说明。

实施例六

本实施例还提供了一种电子装置，参考图6，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项目标检测方法、目标检测模型的搭建方法或者危化品车检测方法的实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种目标检测方法、目标检测模型的搭建方法或者危化品车检测方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是路面监控视频等，输出的信息可以是危化品车等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

获取包含待检测目标的待检测图像；

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种目标检测模型的构建方法，其特征在于，包括：

获取包含待检测目标的待检测图像；

目标检测模型包括依次序连接的输入层、主干网络和多尺度输出预测层，其中所述主干网络包括依次序布置的位于第一层级的线性嵌入层和窗口池化多头部自注意力模块、位于第二层级的高阶空间交互模块、位于第三层级的窗口池化多头部自注意力模块以及位于第四层级的块融合层和高阶空间交互模块；

其中所述窗口池化多头部自注意力模块包括依次串联的第一层归一化层、窗口多头部池化自注意力机制、第一多层感知层、第一全连接层、激活函数、第二层归一化层、偏移窗口多头部池化自注意力机制以及第二多层感知层，其中第一多层感知层和第二多层感知层采用相同的结构；输入所述窗口池化多头部自注意力模块的特征在经历第一层归一化层后得到第一窗口归一化特征，第一窗口归一化特征经历窗口多头部池化自注意力机制后得到第一窗口自注意力特征，第一窗口自注意力特征和第一窗口归一化特征融合得到第一融合特征，第一融合特征输入到第一多层感知层进行多层感知后得到第一感知特征，第一感知特征和第一融合特征融合后输入到第二层归一化层进行层归一化处理后得到第二窗口层归一化特征，第二窗口层归一化特征经历偏移窗口多头部池化自注意力机制后得到第二窗口自注意力特征，第二窗口自注意力特征和第二窗口归一化特征融合得到第二融合特征，第二融合特征输入到第二多层感知层进行多层感知后得到第二感知特征，第二感知特征和第二融合特征融合后得到输出特征；其中窗口多头部池化注意力机制将输入的特征图按照M*M大小划分成一个个窗口，然后单独对每个窗口内部进行自注意力机制操作；

待检测图像在所述输入层中经历块分区后得到分块特征，所述分块特征输入到所述主干网络经历多个模块特征提取处理，且所述主干网络的每一层级输出的阶段特征下采样处理，每一层级的阶段特征对应的融合特征进行上采样处理，每一阶级特征和对应的融合特征进行特征融合后的特征输入到多尺度输出预测层进行预测得到预测特征。

2.根据权利要求1所述的目标检测模型的构建方法，其特征在于，所述主干网络的第一层级包括依次连接的线性嵌入层以及2个窗口池化多头部自注意力模块，所述分块特征输入到所述线性嵌入层后得到输入特征，所述输入特征输入到所述窗口池化多头部自注意力模块中进行处理。

3.根据权利要求1所述的目标检测模型的构建方法，其特征在于，所述窗口多头部池化自注意力机制包括并行的池化注意力块分支以及残差池化连接块，残差池化连接块将池化查询张量添加到池化注意力块分支得到的输出序列中。

4.根据权利要求3所述的目标检测模型的构建方法，其特征在于，输入到窗口多头部池化自注意力机制中的特征在池化注意力块分支中经历LN层后经历查询线性投影得到池化查询张量Q、经历键线性投影后得到池化键张量K、经历值线性投影后得到池化值张量V，将相对位置嵌入到所述池化键张量K中和池化查询张量Q进行卷积操作、softmax计算后得到第一池化特征，所述第一池化特征和池化值张量V进行卷积操作后得到第二池化特征，第二池化特征和经历恒等映射的池化查询张量Q进行融合后再进行线性投影得到输出序列，将残差池化连接块的池化查询张量Q添加到输出序列中得到窗口多头部池化自注意力机制的输出特征。

5.根据权利要求1所述的目标检测模型的构建方法，其特征在于，高阶空间交互模块包括：依次序布置的第一高阶空间层归一化层、高阶空间交互卷积、第二高阶空间层归一化层以及高阶空间多层感知层，输入到高阶空间交互模块中的输入特征在经历第一高阶空间层归一化层、高阶空间交互卷积后得到交互卷积特征，交互卷积特征和输入到高阶空间交互模块中的输入特征融合后得到交互融合特征，交互融合特征再经历第二高阶空间层归一化层以及高阶空间多层感知层后得到感知特征，感知特征和交互融合特征融合后得到高阶空间交互模块的输出特征。

6.根据权利要求5所述的目标检测模型的构建方法，其特征在于，输入到高阶空间交互卷积中的通道为C的特征首先经过通道为2C的卷积投影后得到通道2C的2C特征，从2C特征中分离出通道为C/4的第一C/4特征和通道为7C/4的7C/4特征，7C/4特征进行深度可分离卷积后再次特征分离出通道为C/4的第二C/4特征、通道为C/2的第二C/2特征以及通道为C的第二C特征，第一C/4特征和第二C/4特征进行点积以及通道为C/2的卷积投影后得到通道为C/2的第一C/2特征，第一C/2特征和第二C/2特征进行点积以及通道为C的卷积投影后得到通道为C的第一C特征，第一C特征和第二C特征在经历点积以及通道为C的卷积投影后得到输出特征。

7.一种危化品车检测方法，其特征在于，包括步骤：

获取涵盖车辆的待检测图像；

所述待检测图像输入到用于危化品车检测的目标检测模型进行检测，若检测到危化品车输出危化品车目标,其中用于危化品车检测的目标检测模型利用标注为危化品车的图像按照权利要求1到6任一所述的目标检测模型的构建方法构建得到。

8.一种目标检测装置，其特征在于，包括：

图像获取单元，用于获取涵盖车辆的待检测图像；

检测单元，用于将所述待检测图像输入到用于危化品车检测的目标检测模型进行检测，若检测到危化品车输出危化品车目标；其中用于危化品车检测的目标检测模型利用标注为危化品车的图像按照权利要求1到6任一所述的目标检测模型的构建方法构建得到。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1到6任一所述的目标检测模型的构建方法或权利要求7所述的危化品车检测方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据执行权利要求1到6任一所述的目标检测模型的构建方法或权利要求7所述的危化品车检测方法。