CN114863368A

CN114863368A - 用于道路破损检测的多尺度目标检测模型、方法

Info

Publication number: CN114863368A
Application number: CN202210781168.5A
Authority: CN
Inventors: 齐韬; 张香伟; 刘仿; 曹喆; 王勇; 彭大蒙; 毛云青
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-08-05
Anticipated expiration: 2042-07-05
Also published as: CN114863368B

Abstract

本申请提出了一种用于道路破损检测的多尺度目标检测模型、方法，包括依次连接的主干网络、聚焦Transformer模块、空间调制共同注意力机制模块以及多尺度预测头部，输入图像在经过主干网络后得到第一特征，第一特征输入到聚焦Transformer模块中输出第二特征，第二特征和第一特征融合后得到第三特征，第三特征经历不同尺度的下采样处理后得到至少一第四特征，第四特征和第三特征共同输入空间调制共同注意力机制模块得到至少一多尺度语义特征，多尺度语义特征输入多尺度预测头部进行目标检测，可以解决细粒度高分辨率视觉任务检测时存在的效率低下的问题的同时加速了网络的收敛速度。

Description

用于道路破损检测的多尺度目标检测模型、方法

技术领域

本申请涉及目标检测领域，特别是涉及用于道路破损检测的多尺度目标检测模型、方法。

背景技术

目标检测一直以来都是深度学习中的一个热点，目前主流的目标检测算法按照算法阶段分有两类：第一类为两阶段的目标检测算法，较为著名的为R-CNN系列及其变体，第二类为单阶段的目标检测算法，如YOLO系列及其变体。虽然需要科研人员都在目标检测和识别领域取得了丰硕的成果，但是这些方法的应用具有一定的局限性，主要体现在：对于非限定条件下的多尺度目标检测效果并不好，换言之，目前解决由于单尺度的深度特征难以提高，导致复杂场景下的检测和识别性能依旧低下的问题仍然是一个十分重要且具有实际意义的研究内容。

目前的多尺度目标检测模型在检测目标时主要体现在以下几个方面：

（1）大型和小型目标具有完全不同的视觉特征，因此对于不同目标的规模变化问题是计算机视觉检测与识别中的一个难题；对于目标检测而言，学习尺度不变表示对于识别和定位目标至关重要。而目前的模型存在模型大小和识别精度不兼容，识别能力有限的问题。

（2）FPN会导致模型的卷积神经网络过分注重Low-level（低层）特征的优化，有时会导致对大规模目标的检测精度降低；卷积神经网络毕竟只是关注局部信息的网络结构，导致了它在文本信息处理上难以捕捉和存储长距离的依赖信息，目前的做法是扩大卷积核、增加通道数来捕捉长期依赖，但一味地增加卷积核的迟钝或者滤波器的通道数，将增加模型的大小也会让模型的复杂度大幅增加，可能会导致梯度消失的问题，从而引发让整个网络无法训练收敛的严重后果。

（3）对于目标检测和分割等细粒度高分辨率视觉任务来说，自注意力的平方计算复杂度为模型的高效应用带来的不小的挑战，用粗粒度的全局注意力或细粒度的局部注意力来解决视觉transformer的效率问题，但都会或多或少的影响模型的运算能力。

发明内容

本申请实施例提供了一种用于道路破损检测的多尺度目标检测模型、方法，可提高目标检测精度，特别适用于道路破损检测的特定应用场景。

第一方面，本申请实施例提供了一种多尺度目标检测模型的构建方法，所述方法包括：

依次连接的主干网络、聚焦Transformer模块、空间调制共同注意力机制模块以及多尺度预测头部，输入图像在经过主干网络后得到第一特征，第一特征输入到聚焦Transformer模块中输出第二特征，第二特征和第一特征融合后得到第三特征，第三特征经历不同尺度的下采样处理后得到至少一第四特征，第四特征和第三特征共同输入空间调制共同注意力机制模块得到至少一多尺度语义特征，多尺度语义特征输入多尺度预测头部进行目标检测，其中主干网络包括多层下采样层，聚焦Transformer模块包括串联的第一聚焦模块和第二聚焦模块，所述第一聚焦模块由层归一化和聚焦自注意力机制组成，所述第二聚焦模块由层归一化和多层感知机组成。

第二方面，本申请实施例提供了一种多尺度目标检测模型，根据上述构建方法构建得到。

第三方面，本申请实施例提供了一种目标检测方法，基于依次连接的主干网络、聚焦Transformer模块、空间调制共同注意力机制模块以及多尺度预测头部的多尺度目标检测模型进行目标检测，包括以下步骤：获取包含待检测目标的待检测图像；主干网络包括多层下采样层，聚焦Transformer模块包括串联的第一聚焦模块和第二聚焦模块，所述第一聚焦模块由层归一化和聚焦自注意力机制组成，所述第二聚焦模块由层归一化和多层感知机组成；待检测图像在经过主干网络后得到第一特征，第一特征输入到聚焦Transformer模块中输出第二特征，第二特征和第一特征融合后得到第三特征，第三特征经历不同尺度的下采样处理后得到至少一第四特征，第四特征和第三特征共同输入空间调制共同注意力机制模块得到至少一多尺度语义特征，多尺度语义特征输入多尺度预测头部进行目标检测得到待检测目标。

第四方面，本申请实施例提供了一种用于道路破损检测的多尺度目标检测模型，利用标注有道路破损目标的道路图像训练所述的多尺度目标检测模型得到。

第五方面，本申请实施例提供了一种道路破损检测方法，包括：获取涵盖道路区域的待检测图像；将待检测图像输入到用于道路破损检测的多尺度目标检测模型中进行检测，若检测到道路破损目标，则判断道路破损。

第六方面，本申请实施例提供了一种多尺度目标检测装置，包括：

图像获取单元，用于获取包含待检测目标的待检测图像；

检测单元，用于将所述待检测图像输入到所述的用于道路破损检测的多目标检测模型中进行检测，若检测到破损目标，则判断道路破损。

第七方面，本申请实施例提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以所述的目标检测方法或所述的道路破损检测方法。

第八方面，本申请实施例提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据执行所述的目标检测方法或所述的道路破损检测方法。

本发明的主要贡献和创新点如下：

本申请实施例提供的用于道路破损检测的多尺度目标检测模型针对如何保持学习尺度不变的问题，采用了网络架构和数据扩充的手段，网络架构方向加入聚焦Transfomer和空间调制共同注意力机制与多尺度目标检测结合的方式；数据扩充方向：基础数据的增强和训练过程中的数据增强。

针对细粒度高分辨率视觉任务检测时存在的效率低下的问题，采用了聚焦自注意力机制，对当前token周围的区域进行细粒度的关注，对距离当前token较远的区域进行粗粒度的关注。

具体的，使token倾向于与邻近token产生细粒度注意力，而与较远的token产生粗粒度注意力，高效地捕捉长程与局域依赖性，通过局域细粒度与全局粗粒度注意力相结合实现高效的深度学习架构；采用类似于人眼观察效应的结果，最关注的是距离这个物体更近的区域，对于远离这个物体的区域，关注程度就会更小甚至直接忽略；同样的，对于图像中的某一个点，与这个点的信息最相关的是这个点周围的特征信息，距离越远，这个关系就越小；聚焦注意力机制具有人眼观察效应，对于这个点周围的信息进行细粒度的关注，距离这个点越远，关注也就越粗粒度，用这样的方式来更加有效的捕获局部和全局的注意力。

采用空间调制共同注意力模块，通过在共同注意力机制中引入物体的高斯分布模型，将每个物体查询向量在共同注意力机制中的搜索范围调整到物体中心附近的一定距离内，从而加速了网络的收敛，解决了目前增加卷积核尺寸导致网络收敛能力降低的问题，在编码器（Encoder）中引入了对多尺度特征的编码，通过层内自注意力机制和层间多尺度自注意力机制以及尺度选择注意力机制，空间调制共同注意力模块可以高效地编码图像的多尺度语义信息，并在解码器中自适应地选择合适尺度的特征，从而提高检测精度。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定，在附图中：

图1是根据本申请一种实施例的多尺度目标检测模型的整体框架示意图；

图2是根据本申请一种实施例的聚焦Transformer模块的结构示意图；

图3是根据本申请一种实施例的聚焦自注意力机制的结构示意图；

图4是根据本申请一种实施例的空间调制共同注意力机制模块的结构示意图；

图5是根据本申请一种实施例的多层感知机的结构示意图；

图6是根据本申请一种实施例的多尺度目标检测装置的框架示意图；

图7是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中，面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

如图1所示，第一方面，本申请实施例提供了一种多尺度目标检测模型的构建方法，包括：

在本方案的一实施例中，所述主干网络中含有依次连接的五层下采样层，下采样层分别为C1,C2,C3,C4,C5，输入图像依次经过C1,C2,C3,C4,C5后得到第一特征。在一具体的实施例中，输入图像在经历C1下采样后得到320*320的特征图，再经历C2下采样后得到160*160的特征图，再经历C3下采样后得到80*80的特征图，再经历C2下采样后得到40*40的特征图，最后经历C1下采样后得到20*20的特征图作为第一特征。

如图2所示，本方案提供的聚焦Transformer模块如图2所示。聚焦Transformer模块包括串联的第一聚焦模块和第二聚焦模块，然而第一聚焦模块和第二模块均为残差形式存在，第一聚焦模块内带有聚焦自注意力机制，第二聚焦模块内带有多层感知机。这样的好处在于可使得聚焦Transformer模块首先通过带有聚焦自注意力机制的残差块获得聚焦不同尺度的语义特征，在一定程度上缓解了由于通道数量减少而造成的信息丢失。

具体的，所述第一聚焦模块由依次串联的层归一化和聚焦自注意力机制组成，所述第二聚焦模块由依次串联的层归一化和多层感知机组成。第一特征输入到第一聚焦模块后得到第一聚焦特征，第一聚焦特征和第一特征融合后再输入第二聚焦模块中得到第二聚焦特征，第二聚焦特征和第一聚焦特征融合后得到第三聚焦特征，第三聚焦特征被特征重塑后得到第三特征。在聚焦Transformer模块中的层归一化对每个token进行归一化处理，所述多层感知机由全连接层、SMU激活函数、Dropout和全连接层串联组成。

本方案的聚焦Transformer模块可对当前token周围的区域进行细粒度的关注，对距离当前token较远的区域进行粗粒度的关注，用这样的方式来更加有效的捕获局部和全局的注意力。类似于人眼观察效应：人眼最关注的是距离这个物体更近的区域，对于距离这个物体较远的区域关注程度就会更小甚至直接忽略，聚焦自注意力机制具有相同的人眼观察效应，聚焦自注意力机制更关注和图像的某个点周围的特征，对于这个点周围的信息进行细粒度的关注，距离这个点越远，关注也就越粗粒度。

如图2所示，第一特征在经历层归一化后输入聚焦自注意力机制，输入到聚焦自注意力机制的特征图被窗口划分为不同层级的特征区域，每一特征区域内均含有相同的查询特征，每一特征区域经历对应尺度的子窗口池化后被平展得到平展图，所有平展图共同融合后得到融合图，融合图经历线性投影后获取values特征向量和keys特征向量，查询特征被平展后并进行线性投影获取线性投影图，线性投影图、values特征向量和keys特征向量共同输入多头部注意力网络中得到第一聚焦特征。

在“每一特征区域经历对应尺度的子窗口池化后被平展得到平展图”步骤中，小尺度的特征区域对应的子窗口池化尺度小。这样可确保聚焦自注意力机制更关注和图像的点更近的信息。

在一具体的实施例中，如图3所示，对输入的特征图进行窗口划分，划分为三个不同层级的特征区域：小尺度特征区域、中尺度特征区域和大尺度特征区域，每个层级的特征区域均包含4*4大小的查询特征。小尺度特征区域的区域大小为8*8，子窗口池化为1*1，对于远离查询特征区域，关注程度就会更小甚至直接忽略；中尺度特征区域的区域大小为12*12，子窗口池化为2*2；大尺度特征区域的区域大小为20*20，子窗口池化为4*4。所有被子窗口池化后得到的平展图融合后得到融合图；融合图再经历线性投影得到keys特征向量和values特征向量，查询特征被平展后并进行线性投影获取线性投影图，线性投影图为4*4查询特征，线性投影图、keys特征向量和values特征向量进入多头部自注意力网络中输出第一聚焦特征。

所述多层感知机由全连接层、SMU激活函数、Dropout和全连接层串联组成，如图5所示，所述多层感知层包括依次连接的第一全连接层、SUM激活函数、第二全连接层、第一Dropout层、第三全连接层以及第二Dropout层，输入到第二聚焦模块中的特征经历所述多层感知层后获取第二聚焦特征。

本方案提供的空间调制共同注意力机制模块的结构如图4所示，本方案提供的空间调制共同注意力机制模块通过在共同注意力机制中引入物体的高斯分布模型，将每个目标查询向量在共同注意力机制中的搜索范围调整到目标中心附近的一定距离内，从而加速了网络的收敛。

空间调制共同注意力机制模块在编码器（Encoder）中引入了对多尺度特征的编码，通过层内自注意力编码和层间自注意力编码及尺度选择注意力机制，可以高效地编码图像的多尺度语义信息；并在解码器中自适应地选择合适尺度的特征，从而提高检测精度，空间调制共同注意力模块动态预测每个目标查询向量对应的框的初始中心和比例，生成二维空间的高斯权重图，相当于生成了空间先验特征；Keys特征向量和目标查询向量相乘得到共同注意力特征，共同注意力特征再和相对应的空间先验特征相乘，以更有效地从视觉特征映射中聚合查询相关信息；空间调制共同注意力机制模块引入了空间先验，先预测目标的中心点和尺度，然后通过公式生成类高斯的权重特征图，然后将类高斯权重特征图和可以表征目标查询向量query与keys特征向量的相关性的共同注意力特征相乘得到多头调制共同注意力特征，通过动态预测一个类似于二维的空间高斯权重特征图，来跟共同注意力特征图相乘来达到加快收敛速度的目的。

第三特征对应的是主干网络经历多次下采样的第一特征得到的特征，第三特征经历下采样后得到至少一第四特征，在本方案中，第三特征经历下采样后得到两个第四特征，分别为第一第四特征和第二第四特征，第四特征和第三特征对应的是不同尺度的特征。

空间调制共同注意力机制模块包括编码器和解码器，所有第四特征和所述第三特征在所述编码器内利用层内自注意力编码、层间自注意力编码、线性投影后得到Keys特征向量和Values特征向量。

在所述解码器内，目标查询向量通过多层感知机生成空间先验特征，Keys特征向量和目标查询向量相乘得到共同注意力特征，共同注意力特征与对应的空间先验特征映射地相乘得到多尺度调制共同注意力特征，多尺度调制共同注意力特征在不同分支中经过对应的共同注意力权重处理后得到多尺度聚合特征，处理所述多尺度聚合特征输出至少一多尺度语义特征。

具体的，在空间调制共同注意力机制模块内的编码器内，所有第四特征和第三特征分别利用层内自注意力编码得到对应的特征向量，所有特征向量经历特征堆叠后得到多尺度特征向量，多尺度特征向量经历层间自注意力编码后得到多尺度自注意力特征，多尺度自注意力特征分别经过线性投影得到Keys特征向量和Values特征向量。

在“Keys特征向量和目标查询向量相乘得到共同注意力特征”步骤中，本方案在空间调制共同注意力机制模块中的解码器引入了相对应的尺度选择机制，目标查询向量在经过一个全连接层，然后在经过一个Softmax函数得到对应不同尺度的Keys特征向量的共同注意力权重，在该步骤中基于目标查询向量计算共同注意力权重的公式（1）如下所示：

α _M5,α _M4,α _M3=Softmax(FC(Query)) (1)。

其中α _M5，α _M4，α _M3分别对应输入空间调制共同注意力机制模块的不同尺度的特征的共同注意力权重α ₁，α ₂，α ₃。

在“目标查询向量通过多层感知机生成空间先验特征，其中空间先验特征为高斯特征图”步骤中，可以动态预测每个目标查询向量对应的框的初始中心和比例，生成二维空间的高斯特征图。

在“多尺度调制共同注意力特征在不同分支中经过对应的共同注意力权重处理后得到多尺度聚合特征”步骤中，多尺度调制共同注意力特征在多尺度模型的不同分支内经历利用对应的共同注意力权重处理后聚合得到多尺度聚合特征，使得在不同尺度的特征上分别进行特征聚合，最后加权求和得到输出的多尺度聚合特征。换言之，多尺度调制共同注意力特征在每一分支使用了不同的空间位置估计，使其分别聚焦于查询目标对应的物体上的不同位置。

在“处理所述多尺度聚合特征输出至少一多尺度语义特征”步骤中，多尺度聚合特征和Values特征向量合并处理后得到交叉注意力特征，交叉注意力特征和目标查询向量融合后经历特征向量重塑输出至少一多尺度语义特征。

多尺度聚合特征和Values特征向量相乘得到第j尺度下的交叉注意力特征的具体公式（2）和（3）如下：

T _{i, j}=Softmax(K ^T _i,j Q _i/√d+logG _i)V _i,j·∝_j i=1,...,H(2)

T _i=∑_{all j} T _{i, j} j∈｛α _M5,α _M4,α _M3｝(3)

其中i是多头部注意力索引，指的是Q、K和V中有多少个头部，j是尺度权重索引，对应的是共同注意力权重，G _i二维高斯分布函数。

在本方案的实施例中，从主干网络中获得下采样8倍、16倍和32倍的三个不同尺度的特征图作为编码器的输入，交替使用层内和层间的自注意力机制（不同尺度的特征分别进行编码/多层特征统一进行编码）编码特征，在这一过程中不同尺度的参数进行了共享。

值得一提的是，多头调制共同注意力经历不同分支处理，每一分支配置了不同的权重进而实现了不同的空间位置估计，使得多头调制共同注意力在不同分支中分别聚焦于物体的不同位置，从而更全面地提取物体特征。

在构建了基础的多尺度目标检测模型架构后，需要对其进行训练处理。本方案训练多尺度目标检测模型的训练方法为较为常见的训练手段。

训练：训练配置从基线模型到最终模型基本一致，在自己数据上训练300epoch并进行5epoch的warm-up，训练初始warm-up把学习率设置得很小，随着训练的进行学习率逐渐上升，最终达到正常训练的学习率，训练完成时learning rate降为0；优化器为SGD，初始学习率为0.01，cosine学习机制，weight decay设置为0.0005，momentum设置为0.9，batch视硬件设备而定，输入尺寸从448以步长32均匀过渡到832；随机初始化各层的连接权值w和偏置b,给定学习速率η和最小批次Batch，选定激活函数SMU，选定边框损失函数为CIOULoss以及当前数据下最大迭代次数。

利用k-means算法生成9个候选框，根据大中小目标每层依次分配三个尺寸的候选框，即在每层的最后输出特征图上进行单元格划分，利用特征金字塔其中一层输出特征图尺寸大小为W*H，根据当前数据聚类结果（k-means方法聚类得到），如果当前数据下聚类结果显示大目标数据多，设置输出的大目标特征图上分配大于3个候选框使其在输出特征图上逐单元格去遍历特征图，其次根据聚类结果在中目标特征图上分配小于3个候选框，同理在小目标特征图上分配小于3个候选框，使其三个预测头部上分配的候选框个数为9个。

模型训练中在硬件满足要求的情况下使用多个显卡，训练所用的深度学习框架为PyTorch；确定以上神经网络参数之后，输入处理后的数据，反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数，结束训练，保存网络结构和参数，得到训练好的神经网络模型。

实施例二，本申请实施例提供了一种多尺度目标检测模型，根据实施例一所述的多尺度目标检测模型的构建方法构建得到，该多尺度目标模型包括：

值得一提的是，本方案提供的多尺度目标检测模型采用了聚焦自注意力机制，以实现在对需要细粒度高分辨率视觉任务进行检测时，可以模拟人眼观察效应更加关注更近的信息；采用了空间调制共同注意力模型，引入物体的高斯分布模型，将每个物体查询向量在共同注意力机制中的搜索范围调整到物体中心附近的一定距离内，从而加速了网络的收敛。

实施例三，本申请实施例提供了一种多尺度目标检测方法，具体地，该目标检测方法借助训练过的第二实施例所述的目标检测模型进行目标检测，所述多尺度目标检测模型包括依次连接的主干网络、聚焦Transformer模块、空间调制共同注意力机制模块以及多尺度预测头部，所述方法包括：

获取包含待检测目标的待检测图像；

主干网络包括多层下采样层，聚焦Transformer模块包括串联的第一聚焦模块和第二聚焦模块，所述第一聚焦模块由层归一化和聚焦自注意力机制组成，所述第二聚焦模块由层归一化和多层感知机组成；

待检测图像在经过主干网络后得到第一特征，第一特征输入到聚焦Transformer模块中输出第二特征，第二特征和第一特征融合后得到第三特征，第三特征经历不同尺度的下采样处理后得到至少一第四特征，第四特征和第三特征共同输入空间调制共同注意力机制模块得到至少一多尺度语义特征，多尺度语义特征输入多尺度预测头部进行目标检测得到待检测目标。

值得说明的是，本方案提及的所述多尺度预测头部已被训练，故其可根据训练的样本不同，多尺度预测头部可用于预测不同的目标。示例性，若训练样本为道路破损目标，则该方案可用于检测道路是否存在破损，此时，待检测目标为道路破损目标。

实施例四，本方案提供一种道路破损检测方法，将道路破损目标作为训练样本对第二方面提到的多尺度目标检测模型进行训练，得到用于道路破损检测的多目标检测模型，以解决城市道路管理中基于固定摄像机和手机摄像机实现人行道路破损智能识别。

众所周知的是，道路破损目标往往不清楚，需要高分辨率地对其识别，任何出现在道路上的破损情况都可认为是道路破损目标，这些道路破损目标会影响道路的正常使用。而本方案提供的多尺度目标检测模型特别适用于检测小尺度的目标，特别适合用于道路的道路破目标的检测。

借此手段，本方案可基于城市管理已建的固定摄像头或者消防管理人员的手机摄像头利用上述提到的用于道路破损检测的多尺度目标检测模型，自动检测监控画面中道路破损问题，为道路破损治治理提供了一种方便、快捷和开放的信息化管理空间，并依托深度学习技术，实现城市道路智能管理和运行的高效。

具体的，该用于道路破损检测的多尺度目标检测方法包括以下步骤：

获取涵盖道路区域的待检测图像；

所述待检测图像输入到用于道路破损检测的多目标检测模型中进行检测，若检测到破损目标，则判断道路破损。

其中用于道路破损检测的多目标检测模型利用标记道路破损目标的道路图像作为训练样本训练如上所述的多尺度目标检测模型得到。

在“获取涵盖道路区域的待检测图像”步骤中，选取拍摄可能存在道路破损的道路的摄像头的图像作为待检测图像。在一些实施例中，可对系统接口设置受摄像头地址和算法类型，回调地址等参数，接口启动一个新进程进而开始对摄像头的视频流抓取图像帧，并存入redis，同时通知监听程序；监听程序在收到通知过后从redis取出待测图像。

在利用用于道路破损检测的多目标检测模型进行分析检测后得到分析结果，将分析结果存入redis,同时通知监听程序，监听程序收到通知,取出结果,将分析结果提交到业务接口(回调)。针对道路监控下的道路破损检测，对其记录建档，以备管理部门查证，同时通知相关人员及时到达现场进行处理。

需要说明的是，本发明实地应用中提供过的方法还可以进一步的扩展到其他合适的应用环境中，而不限于道路破损检测这唯一的应用流程和环境，在实际的应用过程中，该应用流程和环境还可以应用在更多的地方。

关于用于道路破损检测的多目标检测模型的训练，选择标记道路破损目标的通道的图像作为训练样本。在一些实施例中，可对训练样本进行数据增强，具体可选择以下技术手段：

采集的基础数据进行数据增强，增强方法为：1.颜色变换；2.旋转变换；3.添加噪声；4.锐化和模糊；5.缩放变换；6.平移变换：向上下左右四个维度移动图像；7.翻转变换；8.裁剪变换；9.仿射变换：对图像进行一次线性变换并接上一个平移变换。

值得一提的是，本方案提供的模型的神经网络训练中采用AutoAugment数据增强，基于NAS搜索的AutoAugment（自动数据增强）在一系列图像增强子策略的搜索空间中通过搜索算法找到适合特定数据集的图像增强方案。

针对不同类型的数据集会包含不同数量的子策略。每个子策略中都包含两种变换，针对每张图像都随机的挑选一个子策略，然后以一定的概率来决定是否执行子策略中的每种变换方法；数据增强已被广泛应用于网络优化，并被证明有利于视觉任务，可以提高CNN的性能，防止过拟合，且易于实现。

利用标记道路破损目标的道路的图像训练后的消防通道占用目标检测模型在实际使用时，将待检测图像输入到用于道路破损检测的多目标检测模型中输出道路破损目标的包围框的位置与目标的置信度。

另外，可在用于道路破损检测的多目标检测模型的使用过程中对其进行迭代处理：搜集一批新的数据，让用于道路破损检测的多目标检测模型去检测这一批数据，将检测结果划分为两大类有框图像和无框图像，有框图像又分为真正目标图像和误报目标图像，无框图像又可分为未检测目标的图像和图像中本来就没有目标的图像，其中将误报目标图像作为负样本，将含有道路破损目标但未检测到的图像作为训练样本，随后这些没检测到目标图像进行数据标注和数据增强，然后在原有模型的基础上在训练出一个新的用于道路破损检测的多目标检测模型，测试模型效果检查精度是否达标，如果新的用于道路破损检测的多目标检测模型未达标，则加入新的数据并对网络调整参数训练，如果模型精度已经达到要求并且在目前训练数据下最优时停止训练，循环这个步骤以达到用于道路破损检测的多目标检测模型适合实际环境中样本的复杂度。

为了实现对存在道路破损目标的道路进行管理，本用于道路破损检测的多目标检测方法还包括以下步骤：当检测到消防通道中含有占有目标，通知对应的管理部门。

实施例五

基于相同的构思，参考图6，本申请还提出了一种多尺度目标检测装置，包括：

图像获取单元，用于获取包含待检测目标的待检测图像；

检测单元，用于将所述待检测图像输入到用于道路破损检测的多目标检测模型中进行检测，若检测到破损目标，则判断道路破损。

关于多尺度目标检测方法的技术特征的可详见上述实施例的介绍，为了避免重复介绍，在此不进行累赘说明。

实施例六

本实施例还提供了一种电子装置，参考图7，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项目标检测方法或者消防通道目标检测方法的实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种多尺度目标检测方法或者道路破损检测方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是消防通道的监控视频等，输出的信息可以是占有目标等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

获取包含待检测目标的待检测图像；

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种多尺度目标检测模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的多尺度目标检测模型的构建方法，其特征在于，第一特征输入到第一聚焦模块后得到第一聚焦特征，第一聚焦特征和第一特征融合后再输入第二聚焦模块中得到第二聚焦特征，第二聚焦特征和第一聚焦特征融合后得到第三聚焦特征，第三聚焦特征被特征重塑后得到第三特征。

3.根据权利要求2所述的多尺度目标检测模型的构建方法，其特征在于，第一特征在经历层归一化后输入聚焦自注意力机制，输入到聚焦自注意力机制的特征图被窗口划分为不同层级的特征区域，每一特征区域内均含有相同的查询特征，每一特征区域经历对应尺度的子窗口池化后被平展得到平展图，所有平展图共同融合后得到融合图，融合图经历线性投影后获取values特征向量和keys特征向量，查询特征被平展后并进行线性投影获取线性投影图，线性投影图、values特征向量和keys特征向量共同输入多头部注意力网络中得到第一聚焦特征。

4.根据权利要求3所述的多尺度目标检测模型的构建方法，其特征在于，在“每一特征区域经历对应尺度的子窗口池化后被平展得到平展图”步骤中，小尺度的特征区域对应的子窗口池化尺度小。

5.根据权利要求1所述的多尺度目标检测模型的构建方法，其特征在于，述多层感知层包括依次连接的第一全连接层、SUM激活函数、第二全连接层、第一Dropout层、第三全连接层以及第二Dropout层。

6.根据权利要求1所述的多尺度目标检测模型的构建方法，其特征在于，所有第四特征和所述第三特征在所述编码器内利用层内自注意力编码、层间自注意力编码、线性投影后得到Keys特征向量和Values特征向量；在所述解码器内，目标查询向量通过多层感知机生成空间先验特征，keys特征向量和目标查询向量相乘得到共同注意力特征，共同注意力特征与对应的空间先验特征映射地相乘得到多尺度调制共同注意力特征，多尺度调制共同注意力特征在不同分支中经过对应的共同注意力权重处理后得到多尺度聚合特征，处理所述多尺度聚合特征输出至少一多尺度语义特征。

7.根据权利要求6所述的多尺度目标检测模型的构建方法，其特征在于，所有第四特征和第三特征分别利用层内自注意力编码得到对应的特征向量，所有特征向量经历特征堆叠后得到多尺度特征向量，多尺度特征向量经历层间自注意力编码后得到多尺度自注意力特征，多尺度自注意力特征分别经过线性投影得到Keys特征向量和Values特征向量。

8.根据权利要求6所述的多尺度目标检测模型的构建方法，其特征在于，在“处理所述多尺度聚合特征输出至少一多尺度语义特征”步骤中，多尺度聚合特征和values特征向量合并处理后得到交叉注意力特征，交叉注意力特征和目标查询向量融合后经历特征向量重塑输出至少一多尺度语义特征。

9.一种多尺度目标检测模型，其特征在于，根据权利要求1到8任一所述的多尺度目标检测模型的构建方法构建得到。

10.一种多尺度目标检测方法，基于依次连接的主干网络、聚焦Transformer模块、空间调制共同注意力机制模块以及多尺度预测头部的多尺度目标检测模型进行目标检测，其特征在于，包括以下步骤：

获取包含待检测目标的待检测图像；

11.一种用于道路破损检测的多尺度目标检测模型，其特征在于，利用标注有道路破损目标的道路图像训练权利要求9所述的多尺度目标检测模型得到。

12.一种道路破损检测方法，其特征在于，包括以下步骤：

获取涵盖道路区域的待检测图像；

所述待检测图像输入到权利要求11所述的用于道路破损检测的多目标检测模型中进行检测，若检测到破损目标，则判断道路破损。

13.一种多尺度目标检测装置，其特征在于，包括：

图像获取单元，用于获取包含待检测目标的待检测图像；

检测单元，用于将所述待检测图像输入到权利要求11所述的用于道路破损检测的多目标检测模型中进行检测，若检测到破损目标，则判断道路破损。

14.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求12所述的道路破损检测方法或权利要求10所述的多尺度目标检测方法。

15.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据执行权利要求12所述的道路破损检测方法或权利要求10所述的多尺度目标检测方法。