CN112508099A

CN112508099A - 一种实时目标检测的方法和装置

Info

Publication number: CN112508099A
Application number: CN202011429134.7A
Authority: CN
Inventors: 吕中宾; 杨晓辉; 张博; 马伦; 王超; 吴和风; 郑伟
Original assignee: Electric Power Research Institute of State Grid Henan Electric Power Co Ltd
Current assignee: Electric Power Research Institute of State Grid Henan Electric Power Co Ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-16

Abstract

本发明提供一种实时目标检测的方法和装置，所述方法包括：获取目标对象的原始图像；对所述原始图像进行特征提取，获得多个不同尺度的特征图；对多个不同多尺度的特征图进行融合，得到多个目标图像。本发明的技术方案，克服了现有技术目标检测方法和装置精度差和检测速度较慢的问题。

Description

一种实时目标检测的方法和装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种实时目标检测的方法和装置。

背景技术

基于深度学习的通用目标检测方法可以分为两类，第一类是两阶段目标检测方法，如R-CNN，FastR-CNN，FasterR-CNN，MaskR-CNN等。这些算法将目标检测过程分为两个阶段。首先生成候选目标的稀疏值，提取候选目标的特征信息，然后进一步预测和识别候选目标的位置和类别。这些方法不适合一些实时情况。第二类是单阶段目标检测算法，如OverFeat，SSD，DSSD，YOLOV3等。此类方法不需要首先生成候选目标，直接通过网络预测目标的位置和类别。因此，单阶段目标检测方法具有更快的检测速度。

上述基于深度学习的目标检测在精度和速度上取得了显著的提升，为无人机输电线路智能巡检的落地应用提供了更多的条件和可能。但由于参数量多导致在资源受限的嵌入式设备上运行速度较慢。现有技术针对YOLOv3目标检测的卷积层和通道层进行剪枝操作，在检测精度略有下降的情况下，推理时间和参数量大大减少，适合于在无人机中部署目标检测。现有技术针对无人机航拍目标检测精度较低等问题，提出一种基于残差网络的航拍目标检测，并引入跳跃连接机制和特征融合机制，提升了目标检测的精度和速度。无人机输电线路巡检过程中，连接部件距离无人机较远，目标特征不明显且目标尺度不一致，给输电线路连接部件的实时检测带来了一定挑战。

此外，上述目标检测均采用计算资源强大的服务器进行分析，若直接部署在资源受限的嵌入式平台进行检测，检测速度很慢甚至无法运行，不能满足无人机实时巡检的需求。

发明内容

本发明提供一种实时目标检测的方法和装置，用于克服现有技术目标检测方法和装置精度差和检测速度较慢的问题。

为了解决上述技术问题，本发明实施例提供如下技术问题：

一种实时目标检测的方法，包括：

获取目标对象的原始图像；

对所述原始图像进行特征提取，获得多个不同尺度的特征图；

对多个不同多尺度的特征图进行融合，得到多个目标图像。

可选的，对所述原始图像进行特征提取，获得多个不同尺度的特征图，包括：

对所述原始图像缩放至目标分辨率，得到输入图像；

对所述输入图像下采样得到第一特征图；

对所述第一特征图下采样得到第二特征图；

对所述第二特征图下采样得到第三特征图；

对所述第三特征图下采样得到第四特征图；

对所述第四特征图下采样得到第五特征图。

可选的，所述第三特征图的分辨率是第四特征图的分辨率的2倍，所述第四特征图的分辨率是第五特征图的分辨率的2倍。

可选的，对多个不同多尺度的特征图进行融合，得到多个目标图像，包括：

将所述第五特征图输入至特征融合模块的第一CBL单元，并进行上采样得到第一结果，并输出至第二CBL单元；

将所述第四特征图与所述第二CBL单元的输出进行合并，得到第二结果，输入到第三CBL单元，并进行上采样，得到第三结果，并输出至第四CBL单元；

将所述第三特征图与所述第四CBL单元的输出进行合并，得到第四结果；

分别将所述第一结果、第二结果、第四结果通过卷积神经网络进行处理，得到多个目标图像。

可选的，还包括：在不同尺度的特征图上构造k个不同比例的锚框，对锚框进行分类和位置回归。

可选的，所述对锚框进行分类包括：采用公式：d(box_P,box_c)＝1-IOU(box_P,boxc)进行分类；

d(box_P,box_C)表示IOU得分，box_P表示目标真值框，boxc表示目标框分布的聚类中心。

可选的，所述卷积神经网络的特征提取模块包括：

通过依次连接的输入层、处理层以及过渡层对所述原始图像进行特征提取；

所述处理层包括第一处理层和第二处理层，所述第一处理层、第二处理层分别与过渡层连接；所述第二处理层包括依次连接的基础层、残差单元以及中间过渡层；

所述输入层对所述原始图像进行多次下采样并通过第一处理层直接映射获取低层特征图然后进入所述过渡层；

所述输入层对所述原始图像进行多次下采样并通过第二处理层残差处理获取高层特征图然后进入所述过渡层。

可选的，所述卷积神经网络的特征融合模块包括：

通过空间特征融合层将所述低层特征图与高层特征图合并，获取合并特征图。

可选的，所述卷积神经网络的特征融合模块还包括：

通过所述特征增强层的多分支卷积将所述高层特征图并联生成图像特征并进行通道合并，然后进行空洞卷积处理。

本发明实施例还提供一种实时目标检测的装置，包括：

特征提取模块，用于获取目标对象的原始图像；对所述原始图像进行特征提取，获得多个不同尺度的特征图；

特征融合模块，用于对多个不同多尺度的特征图进行融合，得到多个目标图像。

本发明的实施例，具有如下技术效果：

本发明实施例的上述技术方案，包括特征提取模块和特征融合模块，特征提取模块在残差网络基础上引入跨阶段局部网络，获取信息丰富的特征图，减少参数量；特征融合模块充分融合不同层次的特征信息，实现了精确目标检测，克服了现有技术目标检测精度差和检测速度较慢的问题。

附图说明

图1为本发明实施例提供的实时目标检测的方法的流程示意图；

图2为本发明实施例提供的实时目标检测的装置的运行示意图；

图3为本发明实施例提供的装置的部分模块的工作原理示意图；

图4为本发明实施例提供的残差网络示意图；

图5为本发明实施例提供的特征提取模块的结构示意图；

图6为本发明实施例提供的空间特征融合层结构示意图；

图7为本发明实施例提供的特征增强层结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明实施例提供一种实时目标检测的方法，包括：

S1：获取目标对象的原始图像；

S2：对所述原始图像进行特征提取，获得多个不同尺度的特征图；

S3：对多个不同多尺度的特征图进行融合，得到多个目标图像。

本发明实施例的上述技术方案，包括特征提取模块(CSPResNet)和特征融合模块，特征提取模块在残差网络基础上引入跨阶段局部网络，获取信息丰富的特征图，减少参数量；特征融合模块充分融合不同层次的特征信息，实现了精确目标检测，克服了目标检测精度差和检测速度较慢的问题。

本发明一可选的实施例，步骤S2中，对所述原始图像进行特征提取，获得多个不同尺度的特征图，包括：

对所述原始图像缩放至目标分辨率，得到输入图像；

对所述输入图像下采样得到第一特征图；

对所述第一特征图下采样得到第二特征图；

对所述第二特征图下采样得到第三特征图；

对所述第三特征图下采样得到第四特征图；

对所述第四特征图下采样得到第五特征图。

具体的，如图2所示，原始图像采用416×416的图像分辨率，特征提取模块对获取的原始图像进行5次下采操作，采用步长为2的卷积进行下采样，对原始图像不断压缩尺寸，每次压缩为被压缩图像的一半，可以对输入的特征图进行压缩，减少网络计算复杂度，同时对特征压缩，以提取主要特征，最终获得待处理的第三特征图、第四特征图以及第五特征图。

本发明一可选的实施例，步骤S2中，所述第三特征图的分辨率是第四特征图的分辨率的2倍，所述第四特征图的分辨率是第五特征图的分辨率的2倍。

本发明一可选的实施例，步骤S3中，对多个不同多尺度的特征图进行融合，得到多个目标图像，包括：

如图3所示，CBL包括向量卷积运算Conv、批处理规范BN以及带泄露修正线性单元函数Leak-RELU。

Res(ResNet，残差网络)包括直接相加，或者经过一组CBL后再相加；

CSR包括直接经过Conv卷积处理，得到第一特征，或者经过CBL、Res后，再经过Conv卷积处理，得到第二特征，然后将第二特征和第一特征合并，再经过Leak-RELU处理。

其中，第一结果、第二结果、第四结果经过注意力模块处理，获得n₁×n₂×n₃的目标图像；其中，n₁×n₂为网格数，n₃为通道数。

具体的，以如下目标图像为例：

第一结果经过注意力模块处理，获得13×13×24的目标图像；

第二结果经过注意力模块处理，获得26×26×24的目标图像；

第四结果输入至第五CBL单元后经过注意力模块处理，获得52×52×24的目标图像；

本发明的该实施例可以得到具备不同特征信息的目标图像，其中，目标图像的通道固定为24，特征图像的信息也是固定的。

本发明一可选的实施例，还包括：在不同尺度的特征图上构造k个不同比例的锚框，对锚框进行分类和位置回归。

采用一种改进的K-means算法；聚类评价的标准是IOU评分。

通过绘制预设不同目标框数量和精度的折线图，最终选择9个不同大小的锚框作为先验框，三个最大的锚框被分配给13×13尺寸的特征图，三个中等尺寸的锚框被分配给26×26尺寸的特征图，三个小尺寸锚框被分配给52×52尺寸的特征图。

本发明一可选的实施例，所述对锚框进行分类包括：采用公式：d(box_P，box_c)＝1-IOU(box_P，box_c)进行分类；

d(box_P，box_C)表示IOU得分，box_P表示目标真值框，box_c表示目标框分布的聚类中心。

本发明一可选的实施例，如图5所示，所述卷积神经网络的特征提取模块包括：

所述处理层包括第一处理层和第二处理层，所述第一处理层、第二处理层分别与过渡层连接；所述第二处理层包括依次连接的第二基础层、残差单元以及中间过渡层；

具体的，如图4所示，残差网络(ResNet)，分为直接映射部分和残差部分，用于使检测方法更为优化；另外，所有的卷积层后均添加批处理规范BN和非线性激活函数ReLU。

如图5所示，输入层将特征图分为两部分，一部分依次经过输入层、第一基础层、过渡层；

另一部分依次经过输入层、第二基础层、残差单元、中间过渡层、过渡层。

本发明的该实施例采用了跨阶段局部网络的策略，解决了使用显式特征映射复制进行连接的缺点；其中，过渡层是一种层次化的特征融合机制，采用截断梯度流的策略来防止不同层学习重复的梯度信息。

本发明一可选的实施例，所述卷积神经网络的特征融合模块包括：

如图6所示，通过空间特征融合层将所述低层特征图与高层特征图合并，获取合并特征图。

本发明的该实施例，首先通过特征提取模块获取不同尺度的特征图，进而采用特征融合方式进一步提升检测精度；空间特征融合层针对相应的多尺度检测层，将高层特征图进行上采样和低层特征图通过通道合并的方式进行融合，用于将高层特征图上采样得到的丰富语义信息与低层特征图包含的丰富位置信息进行充分融合，生成新的特征图，增强特征图的上下文信息，以得到含有丰富语义信息和位置信息的特征图，然后采用注意力模块关注来自相关背景的信息，而少关注来自不相关区域的信息。

本发明一可选的实施例，所述卷积神经网络的特征融合模块还包括：

如图7所示，通过所述特征增强层的多分支卷积将所述高层特征图并联生成图像特征并进行通道合并，然后进行空洞卷积处理。

具体的，为在检测阶段增加相应检测层的感受野和提高目标的检测精度，特征增强层，对于每个用于检测分支的特征图，在进行预测之前先构建一个特征增强层，上一层的特征图通过多分支卷积并联生成具有丰富信息的图像特征进行通道合并，最后应用空洞卷积扩大感受野，可以检测大尺度目标并且精确定位目标。

此外，在特征增强模块中采用1×1卷积替代3×3卷积进行类别预测和位置回归，可达到与3×3卷积模型相同的精度，大大减少模型的计算成本。

本发明实施例还提供一种实时目标检测的装置，包括：

对所述原始图像缩放至目标分辨率，得到输入图像；

对所述输入图像下采样得到第一特征图；

对所述第一特征图下采样得到第二特征图；

对所述第二特征图下采样得到第三特征图；

对所述第三特征图下采样得到第四特征图；

对所述第四特征图下采样得到第五特征图。

可选的，所述对锚框进行分类包括：采用公式：d(box_P，box_c)＝1-IOU(box_P，box_c)进行分类；

d(box_P,box_C)表示IOU得分，box_P表示目标真值框，box_c表示目标框分布的聚类中心。

可选的，所述卷积神经网络的特征提取模块包括：

可选的，所述卷积神经网络的特征融合模块包括：

可选的，所述卷积神经网络的特征融合模块还包括：

需要说明的是，该装置是与上述图1所示方法的实施例对应的装置，上述方法实施例中的所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种实时目标检测的方法，其特征在于，包括：

获取目标对象的原始图像；

对多个不同多尺度的特征图进行融合，得到多个目标图像。

2.根据权利要求1所述的实时目标检测的方法，其特征在于，对所述原始图像进行特征提取，获得多个不同尺度的特征图，包括：

对所述原始图像缩放至目标分辨率，得到输入图像；

对所述输入图像下采样得到第一特征图；

对所述第一特征图下采样得到第二特征图；

对所述第二特征图下采样得到第三特征图；

对所述第三特征图下采样得到第四特征图；

对所述第四特征图下采样得到第五特征图。

3.根据权利要求2所述的实时目标检测的方法，其特征在于，所述第三特征图的分辨率是第四特征图的分辨率的2倍，所述第四特征图的分辨率是第五特征图的分辨率的2倍。

4.根据权利要求2或3所述的实时目标检测的方法，其特征在于，对多个不同多尺度的特征图进行融合，得到多个目标图像，包括：

5.根据权利要求4所述的实时目标检测的方法，其特征在于，还包括：

在不同尺度的特征图上构造k个不同比例的锚框，对锚框进行分类和位置回归。

6.根据权利要求5所述的实时目标检测的方法，其特征在于，所述对锚框进行分类包括：采用公式：d(box_P，box_c)＝1-IOU(box_P，boxc)进行分类；

d(box_P，box_C)表示IOU得分，box_P表示目标真值框，boxc表示目标框分布的聚类中心。

7.根据权利要求4所述的实时目标检测的方法，其特征在于，所述卷积神经网络的特征提取模块包括：

8.根据权利要求4所述的实时目标检测的方法，其特征在于，所述卷积神经网络的特征融合模块包括：

9.根据权利要求4所述的实时目标检测的方法，其特征在于，所述卷积神经网络的特征融合模块还包括：

10.一种实时目标检测的装置，其特征在于，包括：