CN117409286B

CN117409286B - 一种用于检测尺度均衡目标的目标检测方法、系统及介质

Info

Publication number: CN117409286B
Application number: CN202311724286.3A
Authority: CN
Inventors: 周东旭; 樊绍胜; 欧阳峰; 彭佳勇; 刘康; 刘祥勰; 罗宇峰
Original assignee: Shenzhen Yutuo Intelligent Co ltd
Current assignee: Shenzhen Yutuo Intelligent Co ltd
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-03-26
Anticipated expiration: 2043-12-15
Also published as: CN117409286A

Abstract

本发明公开了一种用于检测尺度均衡目标的目标检测方法、系统及介质，方法包括：获取包含待检测目标的待检测图像；构建网络模型，所述网络模型的特征融合网络中，上一层的特征图进行一次上采样操作后与下一层的特征图进行融合，每一次上采样操作之前，都嵌入重参数化模块，且最后一次上采样操作前后均嵌入SE注意力模块，将最后一层的特征图的融合结果依次经过对应的SE注意力模块与重参数化模块处理之后仅用一个检测头输出；对网络模型进行训练，从训练好网络模型中选取最佳模型，将待检测图像输入最佳模型，得到目标检测结果。本发明有效解决了多尺度目标检测算法直接应用于目标大小相近的场景导致训练精度有所降低、计算量大等问题。

Description

一种用于检测尺度均衡目标的目标检测方法、系统及介质

技术领域

本发明涉及图像识别领域，尤其涉及一种用于检测尺度均衡目标的目标检测方法、系统及介质。

背景技术

在许多目标检测算法的实际应用中，目标的尺度大小是均衡相差不大的，如电力行业巡检机器人对于数字表的检测读取，机器人所拍摄到的数字表尺寸大小都相差不大。目前的YOLOv7算法针对多尺度目标设计，因此网络结构中有三个检测头分别对不同尺度的目标进行检测，即小尺寸、中等尺寸、大尺寸的目标进行检测，如图1所示。如果实际应用中的目标尺度相差不大，就会存在两个问题：

（1）训练阶段，由于需要对三个检测头进行训练，尺度大小接近的样本会以多尺度样本的分配方式强行分配到不同的检测头，匹配不同尺度的anchor（锚点/锚框）训练，这明显不符合最优的anchor匹配，使模型训练难以到达最佳精度。

（2）预测阶段，尺度大小接近相当的目标，需要三个检测头来预测，明显增加了模型的参数和复杂度，所带来的冗余输出增加了后处理阶段NMS过滤多余目标的计算量，这些都会给算法带来了不必要的计算量开支，降低了算法速度。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种用于检测尺度均衡目标的目标检测方法、系统及介质，有效解决了多尺度目标检测算法直接应用于目标大小相近的场景导致训练精度有所降低、计算量大等问题，提高了运行速度，减少了对硬件资源的消耗。

为解决上述技术问题，本发明提出的技术方案为：

一种用于检测尺度均衡目标的目标检测方法，包括：

S101）获取包含待检测目标的待检测图像；

S102）构建网络模型，所述网络模型的特征融合网络中，上一层的特征图进行一次上采样操作后与下一层的特征图进行融合，每一次上采样操作之前，都嵌入重参数化模块，且最后一次上采样操作前后均嵌入SE注意力模块，将最后一层的特征图的融合结果依次经过对应的SE注意力模块与重参数化模块处理之后以一个检测头输出；

S103）对网络模型进行训练，从训练好网络模型中选取最佳模型，将待检测图像输入最佳模型，得到目标检测结果。

进一步的，步骤S101中，获取包含待检测目标的待检测图像之后，包括：在待检测图像上标注待检测目标，若所有待检测目标的尺度大小接近，则执行步骤S102。

进一步的，步骤S102中，上一层的特征图进行一次上采样操作后与下一层的特征图进行融合时，包括：

若上一层的特征图为第一层的特征图，特征图经过11卷积模块进行通道数量的调整后输入重参数化模块处理，然后将输出结果经过一次上采样，下一层特征图经过1/>1卷积模块进行通道数量的调整后与上一层特征图的上采样结果进行融合；

若上一层的特征图为倒数第二层的特征图，倒数第二层的特征图的融合结果依次经过对应的SE注意力模块与重参数化模块处理之后经过一次上采样，最后一层特征图经过11卷积模块进行通道数量的调整后与上一层特征图的上采样结果进行融合；

若上一层的特征图为第二层至倒数第三层中任一层的特征图，上一层的特征图的融合结果经过对应的重参数化模块处理之后经过一次上采样，下一层特征图经过11卷积模块进行通道数量的调整后与上一层特征图的上采样结果进行融合。

进一步的，所述重参数化模块为RepVgg网络中的结构重参数化模块。

进一步的，步骤S103）中对网络模型进行训练时，还包括：对所述RepVgg网络中的结构重参数化模块构造多分支网络结构，所述多分支网络结构包括依次串联的33卷积模块、add融合模块和激活函数，add融合模块输入端还与1/>1卷积模块连接，使得特征图数据并行输入add融合模块、3/>3卷积模块和1/>1卷积模块，且3/>3卷积模块和1/>1卷积模块处理后的数据均输入add融合模块。

进一步的，步骤S103）中对网络模型进行训练之后，还包括：对所述RepVgg网络中的结构重参数化模块构造简化结构，所述简化结构包括依次串联的33卷积模块和激活函数。

进一步的，所述SE注意力模块包括依次连接的残差模块、归一化加权操作层与add融合模块，所述残差模块还通过依次连接的池化操作层、第一全连接层、第一激活层、第二全连接层、第二激活层与归一化加权操作层连接，使得特征图数据并行输入残差模块与归一化加权操作层，且残差模块处理后的数据一路输入归一化加权操作层，另一路依次通过池化操作层、第一全连接层、第一激活层、第二全连接层、第二激活层处理后输入归一化加权操作层。

进一步的，所述最佳模型为测试集中目标检测结果的均值平均精度最高的模型。

本发明还提出一种用于检测尺度均衡目标的目标检测系统，包括互相连接的微处理器和计算机可读存储介质，所述微处理器被编程或者配置以执行任一项所述的用于检测尺度均衡目标的目标检测方法。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序用于被微处理器编程或配置以执行任一项所述的用于检测尺度均衡目标的目标检测方法。

与现有技术相比，本发明的优点在于：

本发明将网络模型的特征融合网络改为一个检测头输出，解决了训练阶段相同尺度的目标样本被强行与不同大小anchor匹配而导致难以训练最佳模型的问题。

本发明的特征融合网络使用了超列hypercolumn结构，解决了现有目标检测算法结构冗余、计算量大的问题，更适用于单一检测头输出的情景，同时超列hypercolumn结构中嵌入了结构重参数化模块和SE注意力模块，解决了超列hypercolumn结构精度较低的问题。

附图说明

图1为现有的yolov7算法的特征融合网络结构示意图。

图2为目前超列hypercolumn结构示意图。

图3为本发明实施例中改进的超列hypercolumn结构示意图。

图4为本发明实施例的网络模型的特征融合网络结构示意图。

图5为本发明实施例的方法的流程图。

图6为本发明实施例的重参数化模块训练阶段的结构示意图。

图7为本发明实施例的重参数化模块推理阶段的结构示意图。

图8为本发明实施例的SE注意力模块的结构示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

实施例一

由于现有的绝大多数目标检测算法如YOLOv7算法针对多尺度目标检测而设计，即图像中需要检测的目标尺度大小不一的情况，很少有针对目标大小相近而设计的目标检测算法，而YOLOv7多尺度目标检测算法直接应用于目标大小相近的场景则存在多检测头导致训练精度有所降低、计算量大等问题。

目前的目标检测算法适用的场景为目标尺度大小服从均匀分布,其中，a、b分别代表目标的尺度上下边界，三个检测头分别负责检测尺度分布在/>、/>、上的目标，其中，a</></></>。在电力行业数字表等目标的检测中，目标尺寸都相差不大，并不符合上述均匀分布，如果强行使用三个检测头检测，显然会出现目标尺寸和检测头输出分布不匹配的问题。实际上这些目标的尺寸分布更接近于误差较小的高斯分布，其中，/>为各目标尺寸的均值，/>为方差，当/>较小的时候，尺度将集中分布/>周围，使用一个检测头来检测显然更能匹配。

我们考虑从以下两个方面来解决待检测目标在尺度均衡情况下现有算法存在的问题：

一方面，将现有目标检测算法中的三个检测头改为一个检测头输出，解决了训练阶段相同尺度的目标样本被强行与不同大小anchor匹配而导致难以训练最佳模型的问题。

另一方面，由于现有目标检测算法的特征融合网络为针对三个检测头输出而设计的PANet（路径聚合网络）结构，而hypercolumn（超列）结构相比于PANet结构具有结构更简单、参数量更少、算法复杂度更低的优点，对于只需一个检测头输出的情况极为适用。因此在保持主干网络与现有目标检测算法相同的前提下，将特征融合网络由原来的PANet改为超列hypercolumn结构。

为了说明超列hypercolumn结构的有效性，特征图用表示，/>表示网络对特征图进行了上采样操作，采样因子为/>，/>表示网络对特征图的维度变换，/>代表对各层特征图/>的融合操作，则如图2所示，原始的超列hypercolumn结构对来自于主干网络各层特征图/>的融合可以表达为：

g(/>)（1）

为最终的输出特征图，因为不同层的特征图融合时使用的是加法操作（对应图2中的add融合模块），所以/>又可以表示为：

（2）

可以看到，原始超列hypercolumn结构中，第一个特征层只参与了一次上采样操作，但第n个特征层/>却需要参与/>次/>操作，复杂度为/>。

为了解决原始超列hypercolumn结构过于简单所带来的精度下降问题，本实施例对超列hypercolumn结构进行改进，迁移了RepVgg算法的结构重参数化思想，即在33卷积结构基础上新增了1/>1卷积分支和恒等直连，该改进设计将原始超列hypercolumn的单路结构拓展为并行的多分支格结构，可以提供更丰富的梯度信息，增加模型的表征能力，可实现在不降低算法推理速度的情况下提升算法的精度。

如图3所示，本实施例中改进后的超列hypercolumn结构的融合操作可以表示为：

(/>(m(/>,2)+m(/>,2)+...m(/>))（3）

可以看到，任意特征层都仅需要一次上采样/>操作,复杂度为/>。

为了进一步提升算法精度，本实施例在超列hypercolumn结构的残差部分嵌入了SE注意力结构，利用信道之间的相互依赖性来自适应地重新校准信道特性响应，能够以较低的计算成本换来算法模型精度的提升，最终得到的用于检测尺度均衡目标的网络模型如图4所示，其主干网络使用现有目标检测算法（如YOLOv7算法）的主干网络，其特征融合网络采用前述改进的超列hypercolumn结构，当输入图片时，经过主干网络进行特征提取，输出4个不同层的特征图。这些特征图作为上述改进的超列hypercolumn结构的总体输入，最上层的特征层经过11卷积模块进行通道数量的调整后进入重参数化模块（图4中双虚线框内的结构），该模块为RepVgg网络中的结构重参数化模块，输出结果经过一次上采样后与第二个特征图进行融合。同理，后续的每次上采样操作之前都经过了一个重参数化模块，一共有3次上采样。在最后一次上采样的前后，分别经过了SE注意力模块（图4中双实线框内的结构）增强网络性能，最后输出检测结果。

基于上述构思，本实施例提出一种用于检测尺度均衡目标的目标检测方法，如图5所示，包括以下步骤：

S101）获取包含待检测目标的待检测图像；

S102）构建网络模型，所述网络模型的特征融合网络使用改进的超列hypercolumn结构，如前文所述，改进的超列hypercolumn结构的特征融合网络中，上一层的特征图进行一次上采样操作后与下一层的特征图进行融合，每一次上采样操作之前，都嵌入重参数化模块，且最后一次上采样操作前后均嵌入SE注意力模块，使得最后一层的特征图的融合结果依次经过对应的SE注意力模块与重参数化模块处理之后仅需要一个检测头输出；

通过上述步骤，本实施例的网络模型的特征融合网络改为一个检测头输出，解决了训练阶段相同尺度的目标样本被强行与不同大小anchor匹配而导致难以训练最佳模型的问题。同时由于网络模型的特征融合网络使用了超列hypercolumn结构，解决了现有目标检测算法结构冗余、计算量大的问题，更适用于单一检测头输出的情景，同时超列hypercolumn结构中嵌入了结构重参数化模块和SE注意力模块，解决了超列hypercolumn结构精度较低的问题。

下面分别对于每一步骤进行具体说明。

本实施例的步骤S101中，获取包含待检测目标的待检测图像之后，包括：在待检测图像上标注待检测目标，若所有待检测目标的尺度大小接近，则执行步骤S102。

所有待检测目标的尺度大小接近具体是指任意两个待检测目标的尺度之差的绝对值均小于预设的阈值，或者是每个待检测目标的尺度与所有待检测目标的尺度的均值之差的绝对值均小于预设的阈值。

如果存在不满足上述条件的待检测目标，且不满足上述条件的待检测目标在所有待检测目标中所占比例大于指定的比例（如10%），则认为待检测图像中的待检测目标不属于尺度均衡目标，可以考虑使用现有的目标检测算法构建网络模型。

如图4所示，本实施例的步骤S102中，上一层的特征图进行一次上采样操作后与下一层的特征图进行融合时，包括以下情形：

本实施例的步骤S103包括以下两个阶段：

1）网络训练。搭建网络模型完毕之后进配置好学习率，batch size等超参数，并选择合适的优化器对网络进行训练；

2）前向推理。从训练的网络模型中选择测试集中mAp（目标检测结果的均值平均精度）最高的模型最为最佳模型，将待检测的图像数据输入该模型，即可输出检测结果。

本实施例中的重参数化模块为RepVgg网络中的结构重参数化模块，根据RepVgg模块的中心思想结构重参数化，即在训练阶段，构造多分支网络结构获得高性能，但在推理阶段，将其参数等价转换为另一组参数，构造简化结构获得更快的推理速度。RepVgg模块已经被多个算法证明可以增强网络特征提取能力的同时还可以保持较快的推理速度。

如图6所示，重参数化模块在训练阶段有3个分支，可以获得更丰富的梯度信息和更强大的表征能力，但该结构推理速度较慢。因此，步骤S103）中对网络模型进行训练时，还包括：对所述RepVgg网络中的结构重参数化模块构造多分支网络结构，如图6所示，所述多分支网络结构包括依次串联的33卷积模块、add融合模块和激活函数，add融合模块输入端还与1/>1卷积模块连接，使得在网络训练阶段，特征图数据并行输入add融合模块、3/>3卷积模块和1/>1卷积模块，且3/>3卷积模块和1/>1卷积模块处理后的数据均输入add融合模块。

图7是将图6结构参数等效转换为另一种更简单的结构，该结构只有一路分支，推理时比图6更快，但保持了图6的高性能。因此，步骤S103）中对网络模型进行训练之后，还包括：对所述RepVgg网络中的结构重参数化模块构造简化结构，如图7所示，所述简化结构包括依次串联的33卷积模块和激活函数。

本实施例中的SE注意力模块如图8所示，SE注意力模块包括依次连接的残差模块、归一化加权操作层与add融合模块，残差模块还通过依次连接的池化操作层、全连接层（本实施例中称为第一全连接层以进行区分）、激活层（本实施例中称为第一激活层以进行区分）、全连接层（本实施例中称为第二全连接层以进行区分）、激活层（本实施例中称为第二激活层以进行区分）与归一化加权操作层连接，使得特征图数据并行输入残差模块与归一化加权操作层，且残差模块处理后的数据一路输入归一化加权操作层，另一路依次通过池化操作层、第一全连接层、第一激活层、第二全连接层、第二激活层处理后输入归一化加权操作层，以提高模型精度。

输入SE注意力模块的特征图可表示为HC,其中H/>C分别代表特征图的高度和宽度，经过SE模块中的全连接层结构后，转为了1/>的特征图，尺度变小，后续的卷积核可以获得更宽的视野，能捕获到全局信息，有利于网络提取目标的整体特征，让具有重要特征的通道得到加强，不重要部分得以减弱，该结构已被多个算法证明可以加强网络模型的性能。

基于巡检机器人所采集的数字表数字检测数据集，执行上述步骤进行实验，目标检测的结果如下表所示，实验的环境为Ubuntu20.0,GPU为Nvidia3060：

表1. 实验数据结果

通过表1可见，使用本实施例的网络模型针对尺度均衡目标进行目标检测时，相比目前目标检测算法（yolov7m算法）网络模型的参数量减少了54.8%，模型复杂度降低了13.3%，速度快26.5%，而算法精度mAP仅牺牲0.18%，几乎可以忽略不计，进而证明了本实施例的网络模型的有效性。

实施例二

本实施例提出一种用于检测尺度均衡目标的目标检测系统，包括互相连接的微处理器和计算机可读存储介质，所述微处理器被编程或者配置以执行实施例一所述的用于检测尺度均衡目标的目标检测方法。

本实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序用于被微处理器编程或配置以执行实施例一所述的用于检测尺度均衡目标的目标检测方法。

综上所述，本发明针对现有目标检测算法的特征融合网络进行改进，使用一个检测头输出，解决了训练阶段相同尺度的目标样本被强行与不同大小anchor匹配而导致难以训练最佳模型的问题，在一个检测头的具体设计上，使用改进型的融合结构对于主干网络进行多尺度融合，简化了原算法的结构模型，降低了模型参数。

本发明基于改进后的网络模型提出了检测尺度均衡目标的目标检测方法，改进后网络模型的特征融合网络采用超列hypercolumn结构解决了目前的目标检测算法算法结构冗余、计算量大的问题，更适用于单一检测头输出的情景。同时引入了重参数化模块和SE注意力机制的设计，解决了超列hypercolumn结构精度较低的问题。从实验结果可知，本发明的目标检测方法在目标的尺度大小相近的应用场景中，获得几乎与现有目标检测算法精度相同的效果，同时极大降低了模型参数和计算量。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种用于检测尺度均衡目标的目标检测方法，其特征在于，包括：

S101）获取包含待检测目标的待检测图像；

2.根据权利要求1所述的用于检测尺度均衡目标的目标检测方法，其特征在于，步骤S101中，获取包含待检测目标的待检测图像之后，包括：在待检测图像上标注待检测目标，若所有待检测目标的尺度大小接近，则执行步骤S102。

3.根据权利要求1所述的用于检测尺度均衡目标的目标检测方法，其特征在于，步骤S102中，上一层的特征图进行一次上采样操作后与下一层的特征图进行融合时，包括：

4.根据权利要求1所述的用于检测尺度均衡目标的目标检测方法，其特征在于，所述重参数化模块为RepVgg网络中的结构重参数化模块。

5.根据权利要求4所述的用于检测尺度均衡目标的目标检测方法，其特征在于，步骤S103）中对网络模型进行训练时，还包括：对所述RepVgg网络中的结构重参数化模块构造多分支网络结构，所述多分支网络结构包括依次串联的33卷积模块、add融合模块和激活函数，add融合模块输入端还与1/>1卷积模块连接，使得特征图数据并行输入add融合模块、33卷积模块和1/>1卷积模块，且3/>3卷积模块和1/>1卷积模块处理后的数据均输入add融合模块。

6.根据权利要求4所述的用于检测尺度均衡目标的目标检测方法，其特征在于，步骤S103）中对网络模型进行训练之后，还包括：对所述RepVgg网络中的结构重参数化模块构造简化结构，所述简化结构包括依次串联的33卷积模块和激活函数。

7.根据权利要求1所述的用于检测尺度均衡目标的目标检测方法，其特征在于，所述SE注意力模块包括依次连接的残差模块、归一化加权操作层与add融合模块，所述残差模块还通过依次连接的池化操作层、第一全连接层、第一激活层、第二全连接层、第二激活层与归一化加权操作层连接，使得特征图数据并行输入残差模块与归一化加权操作层，且残差模块处理后的数据一路输入归一化加权操作层，另一路依次通过池化操作层、第一全连接层、第一激活层、第二全连接层、第二激活层处理后输入归一化加权操作层。

8.根据权利要求1所述的用于检测尺度均衡目标的目标检测方法，其特征在于，所述最佳模型为测试集中目标检测结果的均值平均精度最高的模型。

9.一种用于检测尺度均衡目标的目标检测系统，其特征在于，包括互相连接的微处理器和计算机可读存储介质，所述微处理器被编程或者配置以执行权利要求1~8任一项所述的用于检测尺度均衡目标的目标检测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其特征在于，所述计算机程序用于被微处理器编程或配置以执行权利要求1~8任一项所述的用于检测尺度均衡目标的目标检测方法。