CN114529873A

CN114529873A - 目标检测方法及应用其的城市违规事件监测方法

Info

Publication number: CN114529873A
Application number: CN202210157895.4A
Authority: CN
Inventors: 郁强; 张香伟; 毛云青; 金仁杰
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-24

Abstract

本申请提出了一种目标检测方法，包括：获取待检测图像；将待检测图像输入主干网络以获取不同尺度的初级特征图，并将所有初级特征图输入颈部网络以获取不同尺度的聚合特征图；将所有聚合特征图输入解耦预测网络以获取预测结果，其中，解耦预测网络包括并行的不同深度的预测层，每一预测层对聚合特征图进行卷积，将卷积输出的结果分别输入目标分类分支、目标置信度分支以及边框回归分支得到对应每一分支的特征图，堆叠各个分支输出的特征图得到三维特征图，将三维特征图进行特征重塑得到预测特征子图，堆叠各个预测层输出的预测特征子图后进行向量转置得到预测特征图，根据预测特征图输出预测结果。该方法采用解耦预测网络提高目标检测精度。

Description

目标检测方法及应用其的城市违规事件监测方法

技术领域

本申请涉及目标检测领域，特别是涉及一种目标检测方法及应用其的城市违规事件监测方法。

背景技术

智慧城市管理有很多方面需要应用目标检测，例如路面垃圾、出店经营、流动经营、违章停车等问题，目标检测在城市管理有着非常重要的作用。基于深度学习的静态图像目标检测算法主要是从R-CNN检测器发展而来的，该检测器从无监督算法生成的目标候选框发展而来，并使用卷积神经网络对其进行分类。该模型是尺度不变的，但是R-CNN的训练和推理的计算成本与候选框数量成线性关系。为了缓解这一计算瓶颈，Faster-RCNN开始提出设置锚框，这样网络对于学习的对象更加具有针对性，采用RPN(区域候选网络)网络来提取候选框，在COCO数据集是mAP达到了27.2％。之后在单阶段目标检测中，以YOLO和SSD算法为代表的目标检测方法通过采用特征金字塔网络结构，利用浅层特征预测小目标，深层特征预测大目标，其中Joseph Redmon的YOLOv3将mAP达到了33％，Zhang的RefineDet更是达到了41.8％。在视频目标检测领域，Dai等人Deep Feature Flow在非关键视频帧上使用FlowNet网络估计光流，通过关键帧提取的特征做双线性warp的形式得到非关键帧的特征图。Wang等人引入了一个Temporal CNN对每一个Tubelet进行rescore，这样通过Temporal的信息来重新评估每个proposal的置信度。zhu等人的THP-VID提出稀疏递归特征聚合、时间自适应的关键帧选取方法在ImageNet VID视频检测数据集上达到78.6％mAP。进入2019年Anchor Free方法颇有点井喷的感觉，Anchor的本质是候选框，其主要的思路大都起源于2015年的DensBox和2016年的UnitBox。其中分为基于关键点的CornerNet、CenterNet、ExtremeNet^[16]，和密集预测的FSAF、FCOS、FoveaBox。这些算法在目标检测方向都表现不错。2020年神经架构搜索已经成为最近深度学习算法的热点。2021年开创性地将Transformer模型跨领域地引用到了计算机视觉任务中，并取得了不错地成果。这也被许多AI学者认为是开创了CV领域的新时代，甚至可能完全取代传统的卷积操作。

虽然许多研究人员在目标检测领域的研究都取得了一定的进展，然而考虑到目标检测算法适用的具体应用场景的不同，目前现存的目标检测算法在一些特殊的应用场景中依旧存在较大的局限性。

例如，现存的目标检测模型中的非解耦头部预测网络提取的特征由于几何图像的变化无法兼顾较小的局部特征，并且在提取大目标的特征时运算量大，以至于非解耦头部预测网络存在收敛速度小、预测精度差的问题。

另外，常规的在主干网络和颈部网络提取到的语义特征单一，以至于应用于小目标检测时的检测精度不稳定。

发明内容

本申请实施例提供了一种目标检测方法，包括以下步骤：

获取待检测图像；

将所述待检测图像输入主干网络以获取不同尺度的初级特征图，并将所有所述初级特征图输入颈部网络以获取不同尺度的聚合特征图；

将所有所述聚合特征图输入解耦预测网络以获取预测结果，其中，所述解耦预测网络包括并行的不同深度的预测层，每一所述预测层对所述聚合特征图进行卷积，将卷积输出的结果分别输入目标分类分支、目标置信度分支以及边框回归分支得到对应每一所述分支的特征图，堆叠各个所述分支输出的特征图得到三维特征图，将所述三维特征图进行特征重塑得到预测特征子图，堆叠各个所述预测层输出的预测特征子图后进行向量转置得到预测特征图，根据所述预测特征图输出所述预测结果。

在一些申请实施例中，“将卷积输出的结果分别输入目标分类分支、目标置信度分支以及边框回归分支得到对应每一所述分支的特征图”包括：将卷积输出的结果输入目标分类分支得到分类特征图，将卷积输出的结果输入目标置信度分支得到置信度特征图，将卷积输出的结果输入目标边框回归分支得到边框回归特征图；所述目标分类分支和所述目标置信度分支的结构相同，包括依次连接的两个CBS模块、DC模块和sigmoid激活函数；所述目标边框回归分支包括依次连接的两个CBS模块和DC模块；其中，所述CBS模块中C表示卷积、B表示批量归一化、S表示SMU激活函数，所述DC模块表示可变形卷积。

在一些申请实施例中，“所述解耦预测网络包括并行的不同深度的预测层，每一所述预测层对所述聚合特征图进行卷积”包括：所述解耦预测网络包括浅层预测层、中层预测层和深层预测层，所述浅层预测层和所述中层预测层对所述聚合特征图进行并行可变形卷积得到第一特征图，所述深层预测层对所述聚合特征图进行并行交叉卷积得到第二特征图。

在一些申请实施例中，所述并行可变形卷积用于将输入的所述聚合特征图按照通道数均分为多个聚合特征子图，并将所述聚合特征子图进行不同尺度的可变形卷积得到对应各个所述聚合特征子图的第一特征子图，融合所述第一特征子图并进行通道混洗得到具有多尺度特征信息的所述第一特征图。

在一些申请实施例中，所述并行交叉卷积用于将输入的所述聚合特征图进行不同尺度的逐行卷积，再对每一所述逐行卷积进行相同尺度的逐列卷积得到不同尺度的第二特征子图，融合所述第二特征子图并进行通道混洗得到具有多个感受野的所述第二特征图。

在一些申请实施例中，所述主干网络包括CBS模块、多个CSPX模块和DC模块，将所述主干网络分为多个串联的主干层，不同的所述主干层用于输出不同尺度的所述初级特征图；其中，所述CBS模块中C表示卷积、B表示批量归一化、S表示SMU激活函数，所述DC模块表示可变形卷积。

在一些申请实施例中，所述CSPX模块包括第一DCBS模块、并行连接于所述DCBS模块后的第一分支和第二分支、用于堆叠所述第一分支和所述第二分支输出特征的Concat模块和连接于所述Concat模块后的第二DCBS模块；其中，所述第一分支包括依次连接的第一CBS模块、X个残差组件组成的卷积层和第二CBS模块，所述第二分支采用的是多感受野注意力机制。

在一些申请实施例中，所述第二分支包括并行交叉卷积、SE权重模块和Softmax函数；所述第二分支采用并行交叉卷积对输入图的特征图进行特征提取得到具有多个感受野的第七特征图；利用SE权重模块提取不同尺度特征图的通道注意力得到每个不同尺度上的通道注意力向量，采用Softmax函数对不同尺度上的通道注意力向量进行特征重新标定得到不同尺度的通道交互之后的注意力权重，以实现注意力权重的校准；对所述第七特征图和所述注意力权重按元素进行点乘操作，输出一个具有多尺度特征信息注意力加权之后的第二分支特征图。

在一些申请实施例中，所述颈部网络采用FPN结合PAN的结构，将不同尺度的所述初级特征图进行特征聚合得到不同尺度的所述聚合特征图。

在一些申请实施例中，所述颈部网络改进于Yolo系列模型的颈部网络，将Yolo系列模型中颈部网络的CBM模块的Mish激活函数替换为SMU激活函数。

在一些申请实施例中，所述颈部网络改进于Yolo系列模型的颈部网络，将Yolo系列模型中颈部网络的SPP模块替换为混合深度可分离卷积，所述混合深度可分离卷积由多个不同大小的卷积核组成，采用多采样率和有效视野滤波器的输入卷积特征层,不同的卷积核得到不同的感受野以此获得更多的上下文信息，堆叠不同滤波器大小的深度可分离卷积生成的特征图，输出包含多个接受域大小的神经元的特征图。

第二方面，本申请实施例提供了一种城市违规事件监测方法，包括以下步骤：

获取待处理图像；

根据第一方面中任一申请实施例的目标检测方法检测所述待处理图像中的违规事件。

第三方面，本申请实施例提供了一种目标检测装置，用于实现第一方面中任一所述的目标检测方法，该装置包括以下模块：

第一获取模块，用于获取待检测图像；

特征提取模块，用于将所述待检测图像输入主干网络以获取不同尺度的初级特征图，并将所有所述初级特征图输入颈部网络以获取不同尺度的聚合特征图；

预测模块，用于将所有所述聚合特征图输入解耦预测网络以获取预测结果，其中，所述解耦预测网络包括并行的不同深度的预测层，每一所述预测层对所述聚合特征图进行卷积，将卷积输出的结果分别输入目标分类分支、目标置信度分支以及边框回归分支得到对应每一所述分支的特征图，堆叠各个所述分支输出的特征图得到三维特征图，将所述三维特征图进行特征重塑得到预测特征子图，堆叠各个所述预测层输出的预测特征子图后进行向量转置得到预测特征图，根据所述预测特征图输出所述预测结果。

第四方面，本申请实施例提供了一种城市违规事件监测装置，用于实现第二方面中所述的城市违规事件监测方法，该装置包括以下模块：

第二获取模块，用于获取待处理图像；

检测模块，用于根据第一方面中任一申请实施例的目标检测方法检测所述待处理图像中的违规事件。

第五方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以如上任意申请实施例所述的目标检测方法或城市违规事件监测方法。

第六方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括软件代码部分，当所述计算机程序产品在计算机上被运行时，所述软件代码部分用于执行如上任一申请实施例所述的目标检测方法或城市违规事件监测方法。

第七方面，本申请实施例提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据如上任意申请实施例所述的目标检测方法或城市违规事件监测方法。

本申请的主要贡献和创新点如下：

本申请提供了一种目标检测方法和一种城市违规事件监测方法。

在一些申请实施例中，目标检测方法对解耦预测网络进行了改进。相比于非解耦预测头部，解耦预测头部极大的改善收敛速度，在小目标和中目标分支上加入了并行可变性卷积，使提取的特征融合了逐渐递增的局部特征，得到的特征能够获得更大感受野的同时还兼顾了较小的局部特征；添加的可变性卷积有效的缓解了几何图形的变化；在大目标中添加了交叉卷积，和常规卷积相比，获得相同的感受野时，降低了运算量，非对称卷积在特征图大小介于12×12到20×20大小之间的时候，效果比较好，所以用在了大目标检测分支上；总体上为了获得更丰富的语义信息的同时具有更大的感受野，使解耦头部预测的目标精度提升的同时，不增加参数量和浮点运算量。

在另一申请实施例中，还对主干网络和颈部网络进行了改进。主干网络加入多感受野注意力，注意力机制嵌入到交叉阶段的部分网络中，使主干网络提取的特征语义更加的丰富，对小木目标检测更加鲁棒；颈部模块加入混合深度可分离卷积，在不增加太多计算量的同时获得更多层次更大的感受野特征，提取的特征使预测头部预测预测效果更好。主干网络和颈部模块结合使用提取特征得到多层次更大的感受野特征图，提取的特征兼顾语义信息的同时，获得跟好的特征分辨率，提升整个网络的精度。

第一个改进点是将Yolo系列模型中主干网络和颈部模块的CBM模块替换为上述的CBS模块，主要是改进了其中的激活函数。在CBM模块中采用的是Mish激活函数，而CBS模块中采用的是SMU激活函数。激活函数是神经网络的大脑，在深度神经网络的有效性和训练中起着核心作用，本实施例提供的SMU激活函数相比Mish激活函数更加平滑，学习效率更快且更好，是一种对神经元输入的概率描述，直观上更符合自然的认识，其非线性变化是一种符合预期的随机正则变换方式，给网络模型加入非线性因子同时又能避免梯度消失问题，具有数据统计的特性。

第二个改进点在于每个主干层中使用了可变形卷积。原因在于，标准卷积中的规则格点采样是导致网络难以适应几何形变的主要原因。为了削弱这个限制，可变形卷积就是对卷积核中每个采样点的位置都增加了一个偏移的变量，通过这些变量，卷积核就可以在当前位置附近随意的采样，而不再局限于之前的规则格点。此外，可变形卷积不需要任何额外的监督信号，可以直接通过目标任务学习得到，仅增加了很少的模型复杂度和计算量，就可以显著提高了识别精度。另外可变形卷积适用于所有待识别目标具有一定几何形变的任务，可以直接由已有网络结构扩充而来，无需重新预训练。

第三个改进点在于将颈部网络中SPP模块改进为MixDw，也就是混合深度可分离卷积。混合深度可分离卷积组成为3*3、5*5、7*7、9*9；采用多采样率和有效视野滤波器的输入卷积特征层，不同的卷积核得到不同的感受野以此获得更多的上下文信息，将不同滤波器大小的深度可分离卷积生成的特征图堆叠起来，使得输出特征图中的神经元包含多个接受域大小，对多尺度信息进行编码，最终提高性能。

将改进的任一目标检测方法应用于城市违规事件监测，可以高效地识别监控视频图像中的违规事件。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的解耦头部预测网络的结构示意图；

图2是根据本申请实施例的并行可变形卷积的结构示意图；

图3是根据本申请实施例的并行交叉卷积的结构示意图；

图4是根据本申请实施例的目标检测模型的结构示意图；

图5是根据本申请实施例的CSPX的结构示意图；

图6是根据本申请实施例的多感受野注意力机制的结构示意图；

图7是根据本申请实施例的目标检测方法的结构框图；

图8是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本实施例提供了一种目标检测方法，在本实施例中，该方法借助已训练的目标检测模型实现，目标检测模型包括主干网络、颈部网络和解耦预测网络。

首先，获取待检测图像，将待检测图像输入目标检测模型的主干网络。

主干网络用于根据待检测图像提取不同尺度的初级特征图，并将这些特征图输入颈部网络，颈部网络用于对这些初级特征图进行特征聚合，得到不同尺度的聚合特征图，并将这些聚合特征图输入解耦预测网络。

解耦预测网络用于获取预测结果，如图1所示，包括并行的不同深度的预测层，按照聚合特征图的尺度，将每一聚合特征图输入不同深度的预测层，预测层先对聚合特征图进行卷积，然后将卷积输出的结果分别输入目标分类分支、目标置信度分支以及目标边框回归分支得到对应的特征图，再堆叠各个分支输出的特征图得到三维特征图，将三维特征图进行特征重塑转换为二维特征向量作为预测特征子图，堆叠所有预测特征子图后进行向量转置得到预测特征图，最后根据预测特征图输出预测结果。

在本实施例中，该目标检测模型主要改进的是将常规的头部预测网络改进为解耦预测网络。具体的，以改进Yolo系列模型为例，本实施例保留Yolo模型中主干网络和颈部网络，将Yolo的预测网络改进为解耦预测网络。

解耦预测网络同样包括浅层预测层、中层预测层以及深层预测层，但其中，浅层预测层与中层预测层的结构相同，深层预测层的结构不同。浅层预测层和中层预测层先对输入的聚合特征图进行并行可变形卷积得到第一特征图，然后将第一特征图分别输入目标分类分支、目标置信度分支以及目标边框回归分支，堆叠3个分支输出的特征后进行特征重塑。而深层预测层是先对输入的聚合特征图进行并行交叉卷积得到第二特征图，然后将第二特征图分别输入目标分类分支、目标置信度分支以及目标边框回归分支，堆叠3个分支输出的特征后进行特征重塑。需要说明的是，每一特征图都具有宽、高以及至少一特征通道，堆叠特征图是将宽和高相同的特征图的特征通道进行堆叠。

并行可变形卷积和并行交叉卷积都包括不同大小的卷积核和通道混洗。

如图2所示，并行可变形卷积用于将输入的聚合特征图按照通道数均分为多个聚合特征子图，并将这些聚合特征子图进行不同尺度的可变形卷积得到对应各个聚合特征子图的第一特征子图，融合这些第一特征子图并进行通道混洗，得到具有多尺度特征信息的第一特征图。具体的，如图2所示，先将聚合特征图按照通道数均等划分为4个聚合特征子图，将这些聚合特征图分别输入卷积核为3*3、5*5、7*7、9*9的并行可变形卷积得到对应的第一特征子图，融合这些第一特征子图并进行通道混洗得到具有多尺度特征信息的第一特征图。

如图3所示，并行交叉卷积用于将输入的聚合特征图先进行不同尺度的逐行卷积，再对应每一逐行卷积进行相同尺度的逐列卷积得到不同尺度的第二特征子图，随后再融合所有第二特征子图并进行通道混洗得到具有多个感受野的第二特征图。特别的是，用逐行卷积结合逐列卷积的方式，不仅可达到和使用卷积核进行卷积同样的效果，而且减少了计算量。具体的，如图3所示，并行交叉卷积包括4个分支，每个分支先进行逐行卷积再进行逐列卷积，第一分支进行的是9*1的逐行卷积和1*9的逐列卷积，第二分支进行的是7*1的逐行卷积和7*1的逐列卷积，第三分支进行的是5*1的逐行卷积和5*1的逐列卷积，第四分支进行的是3*1的逐行卷积和3*1的逐列卷积，每一个分支都输出第二特征子图，融合这4个第二特征子图并进行通道混洗得到具有多个感受野的第二特征图。

特别的是，本实施例中在浅层预测层和中层预测层使用并行可变性卷积，浅层和中层使用并行可变形卷积：可变形卷积用来提高对形变的建模能力，不同的滤波器可以获得多层次多感受野的特征，使其提取的特征语义信息更加丰富，前景细节特征分辨率更加清晰；而在在深层预测层使用并行交叉卷积，这样的好处是交叉卷积对小的特征激励效果更好，且在获得同等大小的感受野同时，需要的参数量很少。且在并行可变形卷积和并行交叉卷积中加入通道混洗是为了在不增加计算量的情况下，使特征充分融合。

每个预测层中的目标分类分支和目标置信度分支的结构相同，包括依次连接的两个CBS模块，DC模块和sigmoid激活函数，其中CBS模块中C表示卷积、B表示批量归一化、S表示SMU激活函数，DC模块表示可变形卷积；目标边框回归分支包括依次连接的两个CBS模块和DC模块。

在浅层预测层和中层预测层的目标分类分支和目标置信度分支中，先用两个串联的CBS模块对第一特征图进行卷积、批量归一化和非线性映射得到第三特征图，随后对第三特征图进行可变形卷积得到第四特征图，紧接着利用sigmoid激活函数对第四特征图进行归一化，目标分类分支最后输出分类特征图，置信度分支最后输出目标置信度特征图。在深层预测层中的目标分类分支和目标置信度分支同理，输入第二特征图到目标分类分支中得到分类特征图，输入第二特征图到目标置信度分支中得到置信度特征图；

在浅层预测层和中层预测层的目标边框回归分支中，先用两个串联的CBS模块对第一特征图进行卷积、批量归一化和非线性映射得到第五特征图，随后对第五特征图进行可变形卷积，目标边框回归分支最后输出边框回归特征图。在深层预测层中的目标边框回归分支同理，输入第二特征图到目标边框回归分支中得到边框回归特征图。

将同一预测层中的分类特征图、置信度特征图以及边框回归特征图进行特征通道堆叠得到三维特征图，再对三维特征图进行特征重塑，将三维特征图转化为二维特征向量作为每一预测层输出的预测特征子图，将所有预测特征子图进行特征向量堆叠，然后进行向量转置，最后输出用于预测的预测特征图。

值得一提的是，本实施例采用了目标分类分支、目标置信度分支以及目标边框回归分支对输入的特征进行目标分类、判断是否为目标以及目标的边框回归，且对每一分支输出的预测特征子图进行堆叠后进行特征重塑，这样的好处是可以解决目标分类分支和目标边框回归分支之间的冲突，提高收敛速度。

实施例二

另外，为了提高目标检测模型整体的检测精度，本实施例还对主干网络和颈部网络进行了如图4所示的改进，为常规的头部预测网络以及实施例一提供的解耦预测网络提供更加优良的特征图。

主干网络包括CBS模块、多个CSPX模块和DC模块，将主干网络分为串联的多个主干层，每一主干层包括至少一CSPX模块和DC模块。其中，CSPX模块为交叉阶段的部分卷积模块，主要包括两个分支，其中一个分支由卷积层和X个残差组件堆叠组成，另一个分支为多感受野注意力机制，最后将两个分支得到的结果进行特征堆叠及特征融合和维度变化；CBS模块和DC模块如实施例一中所述。

具体的，本实施例中的主干网络包括第一主干层、第二主干层以及第三主干层，每一主干层都输出一初级特征图作为颈部模块的输入。

其中，第一主干层包括CBS模块、若干CSPX模块以及DC模块，待检测图像输入第一主干层时，先经过CBS模块进行卷积、批量归一化以及使用SMU激活函数进行非线性映射得到初始特征图，然后将初始特征图输入依次连接的若干CSPX模块得到第六特征图，最后将第六特征图输入DC模块进可变形卷积后再输入第二主干层。第二主干层和第三主干层均包括至少一CSPX模块和DC模块，每一主干层中的DC模块的输出作为下一主干层的输入。

具体的，第一主干层包括依次连接的CBS模块、CSP1模块、CSP2模块、CSP8模块和DC模块，第二主干层包括CSP8模块和DC模块，第三主干层包括CSP4模块和DC模块。

CSPX模块的结构如图5所示，包括第一DCBS模块、并行连接于该DCBS模块后的第一分支和第二分支、用于堆叠第一分支和第二分支输出特征的Concat模块和连接于Concat模块后的第二DCBS模块。其中，第一分支包括依次连接的第一CBS模块、X个残差组件和第二CBS模块，第二分支采用的是多感受野注意力机制。

其中，多感受野注意力机制是为了在这个分支获得更加关注前景特征，因此如图6所示，首先用一个并行可变形卷积对输入的特征进行特征提取，得到具有多个感受野的第七特征图，随后利用SE权重模块提取不同尺度特征图的通道注意力得到每个不同尺度上的通道注意力向量；然后，利用Softmax函数对不同尺度上的通道注意力向量进行特征重新标定得到不同尺度的通道交互之后的注意力权重，以实现注意力权重的校准；最后，对第七特征图和注意力权重按元素进行点乘操作，输出一个具有多尺度特征信息注意力加权之后的第二分支特征图。其中，所述SE权重模块采用压缩激励方式，包含GAP(全局平均池化)和两个全连接层。

以第一主干层为例，初始特征图输入CSP1模块时，先经过第一DCBS模块进行可变形卷积、批量归一化和非线性映射得到初始特征子图。初始特征子图输入第一分支，依次经过CBS模块、X个残差组件组成的卷积层和CBS模块，得到第一分支特征图。初始特征子图输入第二分支，得到多尺度特征信息注意力加权之后的第二分支特征图。使用Concat模块堆叠第一分支特征图和第二分支特征图后输入第二DCBS模块，最后将第二DCBS模块的输出作为CSP2模块的输入。

需要说明特别说明的是，本实施例的主干网络和颈部网络改进于Yolo系列模型。

第三个改进点在于将颈部网络中SPP模块改进为MixDw，也就是混合深度可分离卷积。混合深度可分离卷积由4组不同的卷积核组成的滤波器组成，其中卷积核分别为3*3、5*5、7*7、9*9；采用多采样率和有效视野滤波器的输入卷积特征层，不同的卷积核得到不同的感受野以此获得更多的上下文信息，相当于采用4个不同的滤波器对输入进行卷积获得多尺度的感受野特征。将不同滤波器大小的深度可分离卷积生成的特征图堆叠起来，使得输出特征图中的神经元包含多个接受域大小，对多尺度信息进行编码，也就是对多尺度信息进行卷积，最终提高性能。

实施例三

本实施例将根据实施例一改进的目标检测方法、根据实施例一结合实施例二改进的改进的目标检测方法，应用于城市违规事件监测。例如通过监控视频捕获实时信息，使用上述改进的任意一种目标检测方法，对路面垃圾、出店经营、流动商贩、违章停车、路面低洼积水、乱堆物料、非机动车乱停、沿街晾晒、绿化损坏、违规设置广告牌、路面破损和违法张贴小广告等多种违规事件进行高效识别，以便于后续治理。

也就是说，按照上述任意一种目标检测方法从监控视频中的视频图像中得到的预测结果包括任意一种违规事件时，表示监测到违规事件。

因此，本实施例提供了一种城市违规事件监测方法，包括以下步骤：

获取待处理图像。

具体的，“获取待处理图像”包括：从监控视频中采集所述待处理图像，或从上报事件信息中获取所述待处理图像。也就是说，本实施例获取待处理图像的方式不限，即可以是从监控视频中采集，也可以从与智慧管理城市相关联的终端上采集到的上报事件信息中提取，还可以通过其他物联网的方式进行采集。

采用实施例一中任意一种目标检测方法、实施例二中任意一种目标检测方法、或者实施例一结合实施例二的任意一种目标检测方法检测所述待检测图像中的违规事件。具体的，使用实施例一中任意一种目标检测方法、实施例二中任意一种目标检测方法、或者实施例一结合实施例二的任意一种目标检测方法根据待检测图像得到预测结果。

需要说明的，实施上述目标检测方法的目标检测模型已经使用相应的样本数据进行了训练，因此，才能识别到路面垃圾、出店经营、流动商贩、违章停车、路面低洼积水、乱堆物料、非机动车乱停、沿街晾晒、绿化损坏、违规设置广告牌、路面破损和违法张贴小广告等多种违规事件。

进一步的，如果预测结果中包括任意一种违规事件时，可以根据待处理图像的来源对每一违规事件进行立案，对应每一违规事件形成包括案件信息的待处理案件。

也就是说，如果该违规事件的来源是视频监控，那么根据对应的视频监控所在的地点生成事件地点；如果该违规事件的来源是终端上报的事件信息，那么感觉上报事件信息获取事件地点。每一违规事件生成对应的待处理案件，并在待处理件的案件信息中记录立案时间和事件地点。另外，还可以根据需要在案件信息中记录下视频监控中的事发事件或者是终端上报事件的上报时间。特别的是，在案件信息里还需要记录下违规事件的事件类别，以便于后续步骤中对相关的处置部门派遣任务。

更进一步的，可以根据待处理案件的案件信息选择对应的处理方法并生成待执行任务。

具体的，根据待处理案件的案件信息选择对应的处理方法，活着查询到专门负责处理这种违规事件的有关部门，生成相应的待执行任务派发给相关部门的执行人员。例如，根据违规事件的种类，将根据对应待处理案件生成的待执行任务派发给专门的处置部门处理，而处置部门将派出离该违规事件地点最近的执行人员去处理，并且根据立案事件设定执行人员完成该待执行任务的期限，超过期限可以将该待执行任务派遣给另外的执行人员，以免本应被派遣的执行人员由于其他事情耽误以至于长时间无法完成该待执行任务。

最后，还可以根据待执行任务的反馈结果获取对应的反馈图像，并根据反馈图像对该待处理案件进行复核。

具体的，在收到执行人员对该待执行任务的反馈结果后，在收到反馈结果后相近的某时间获取反馈图像，也就是再次获取该违规事件的事件地点的实时视频图像，用于检测该事件地点是否仍然存在该违规事件。若不存在，则可以对该待处理案件进行结案，若存在，则需要重新派遣处理该违规事件的待执行任务。

实施例四

基于相同的构思，本实施例还提供了一种目标检测装置，用于实现实施例中所描述的目标检测方法，具体参考图7，图7是根据本申请实施例的目标检测装置的结构框图，如图7所示，该装置包括以下模块：

第一获取模块，用于获取待检测图像；

实施例五

基于相同的构思，本实施例还提供了一种城市违规事件监测装置，用于实现实施例三中所描述的城市违规事件监测方法，该装置包括以下模块：

第二获取模块，用于获取待处理图像；

检测模块，用于根据实施例一、实施例二或者实施例一结合实施例二任一项所述的目标检测方法检测所述待处理图像中的违规事件。

实施例六

本实施例还提供了一种电子装置，参考图8，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述实施例中的任意一种目标检测方法或城市违规事件监测方法的步骤。

具体地，上述处理器402可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性(Non-Volatile)存储器。在特定实施例中，存储器404包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(Random Access Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable Programmable Read-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable Programmable Read-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-Only Memory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(StaticRandom-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random AccessMemory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器404(Fast PageMode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic Random Access Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种目标检测方法或城市违规事件监测方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是当前数据表例如疫情流调文档、特征数据、模板表等，输出的信息可以是特征指纹、指纹模板、文本分类推荐信息、文件模板配置映射表、文件模板配置信息表等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

获取待检测图像；

或者执行：

获取待处理图像；

根据实施例一、实施例二或者实施例一结合实施例二任一所述的目标检测方法检测所述待处理图像中的违规事件。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的任意一种目标检测方法或城市违规事件监测方法，本申请实施例可一种计算机程序产品来实现。该计算机程序产品该计算机程序产品包括软件代码部分，当所述计算机程序产品在计算机上被运行时，所述软件代码部分用于执行实现上述实施例中的任意一种目标检测方法或城市违规事件监测方法。

并且，结合上述实施例中的任意一种目标检测方法或城市违规事件监测方法，本申请实施例可提供一种可读存储介质来实现。该可读存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种目标检测方法或城市违规事件监测方法。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.目标检测方法，其特征在于，包括以下步骤：

获取待检测图像；

2.根据权利要求1所述的目标检测方法，其特征在于，“将卷积输出的结果分别输入目标分类分支、目标置信度分支以及边框回归分支得到对应每一所述分支的特征图”包括：将卷积输出的结果输入目标分类分支得到分类特征图，将卷积输出的结果输入目标置信度分支得到置信度特征图，将卷积输出的结果输入目标边框回归分支得到边框回归特征图；所述目标分类分支和所述目标置信度分支的结构相同，包括依次连接的两个CBS模块、DC模块和sigmoid激活函数；所述目标边框回归分支包括依次连接的两个CBS模块和DC模块；其中，所述CBS模块中C表示卷积、B表示批量归一化、S表示SMU激活函数，所述DC模块表示可变形卷积。

3.根据权利要求1所述的目标检测方法，其特征在于，“所述解耦预测网络包括并行的不同深度的预测层，每一所述预测层对所述聚合特征图进行卷积”包括：所述解耦预测网络包括浅层预测层、中层预测层和深层预测层，所述浅层预测层和所述中层预测层对所述聚合特征图进行并行可变形卷积得到第一特征图，所述深层预测层对所述聚合特征图进行并行交叉卷积得到第二特征图。

4.根据权利要求3所述的目标检测方法，其特征在于，所述并行可变形卷积用于将输入的所述聚合特征图按照通道数均分为多个聚合特征子图，并将所述聚合特征子图进行不同尺度的可变形卷积得到对应各个所述聚合特征子图的第一特征子图，融合所述第一特征子图并进行通道混洗得到具有多尺度特征信息的所述第一特征图。

5.根据权利要求3所述的目标检测方法，其特征在于，所述并行交叉卷积用于将输入的所述聚合特征图进行不同尺度的逐行卷积，再对每一所述逐行卷积进行相同尺度的逐列卷积得到不同尺度的第二特征子图，融合所述第二特征子图并进行通道混洗得到具有多个感受野的所述第二特征图。

6.根据权利要求1所述的目标检测方法，其特征在于，所述主干网络包括CBS模块、多个CSPX模块和DC模块，将所述主干网络分为多个串联的主干层，不同的所述主干层用于输出不同尺度的所述初级特征图；其中，所述CBS模块中C表示卷积、B表示批量归一化、S表示SMU激活函数，所述DC模块表示可变形卷积。

7.根据权利要求6所述的目标检测方法，其特征在于，所述CSPX模块包括第一DCBS模块、并行连接于所述DCBS模块后的第一分支和第二分支、用于堆叠所述第一分支和所述第二分支输出特征的Concat模块和连接于所述Concat模块后的第二DCBS模块；其中，所述第一分支包括依次连接的第一CBS模块、X个残差组件组成的卷积层和第二CBS模块，所述第二分支采用的是多感受野注意力机制。

8.根据权利要求7所述的目标检测方法，其特征在于，所述第二分支包括并行交叉卷积、SE权重模块和Softmax函数；所述第二分支采用并行交叉卷积对输入图的特征图进行特征提取得到具有多个感受野的第七特征图；利用SE权重模块提取不同尺度特征图的通道注意力得到每个不同尺度上的通道注意力向量，采用Softmax函数对不同尺度上的通道注意力向量进行特征重新标定得到不同尺度的通道交互之后的注意力权重，以实现注意力权重的校准；对所述第七特征图和所述注意力权重按元素进行点乘操作，输出一个具有多尺度特征信息注意力加权之后的第二分支特征图。

9.根据权利要求1所述的目标检测方法，其特征在于，所述颈部网络采用FPN结合PAN的结构，将不同尺度的所述初级特征图进行特征聚合得到不同尺度的所述聚合特征图。

10.根据权利要求9所述的目标检测方法，其特征在于，所述颈部网络改进于Yolo系列模型的颈部网络，将Yolo系列模型中颈部网络的CBM模块的Mish激活函数替换为SMU激活函数。

11.根据权利要求9所述的目标检测方法，其特征在于，所述颈部网络改进于Yolo系列模型的颈部网络，将Yolo系列模型中颈部网络的SPP模块替换为混合深度可分离卷积，所述混合深度可分离卷积由多个不同大小的卷积核组成，采用多采样率和有效视野滤波器的输入卷积特征层,不同的卷积核得到不同的感受野以此获得更多的上下文信息，堆叠不同滤波器大小的深度可分离卷积生成的特征图，输出包含多个接受域大小的神经元的特征图。

12.城市违规事件监测方法，其特征在于，包括以下步骤：

获取待处理图像；

根据权利要求1-11任一项所述的目标检测方法检测所述待处理图像中的违规事件。

13.根据权利要求12所述的城市违规事件监测方法，其特征在于，还包括：根据所述违规事件的来源，对应每一所述违规事件形成包括案件信息的待处理案件。

14.根据权利要求13所述的城市违规事件监测方法，其特征在于，根据每一所述待处理案件的案件信息生成对应的待执行任务；根据所述待执行任务的反馈结果获取反馈图像，并根据所述反馈图像对所述待处理案件进行复核，其中所述反馈图像为与所述待处理图像同一地点的实时视频图像。

15.目标检测装置，其特征在于，包括以下模块：

第一获取模块，用于获取待检测图像；

16.城市违规事件监测装置，其特征在于，包括以下模块：

第二获取模块，用于获取待处理图像；

检测模块，用于根据权利要求1-11任一项所述的目标检测方法检测所述待处理图像中的违规事件。

17.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行根据权利要求1至11任一所述的目标检测方法，或者根据权利要求12至14任一所述的城市违规事件监测方法。

18.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括权利要求1至11任一所述的目标检测方法，或者根据权利要求12至14任一所述的城市违规事件监测方法。