CN115471667A

CN115471667A - 一种改进yolox网络结构的轻量化目标检测方法

Info

Publication number: CN115471667A
Application number: CN202211096542.4A
Authority: CN
Inventors: 瞿中; 高乐园; 王升烨
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2022-12-13

Abstract

本发明涉及目标检测技术领域，具体涉及一种改进YOLOX网络结构的轻量化目标检测方法，使用改进的YOLOX网络作为主干网络，将FPN结构、FPN分而治之思想和通道剪枝策略等模块融入到网络中，生成了一个新的目标检测器，与原轻量级网络相比有更高的检测精度和更好的检测效率，应用到互联网移动设备上可实现端到端的实时多目标检测。本发明解决以下技术问题：一是针对原始网络采用的路径聚合网络导致重复计算过多的特征信息，而忽略其他有用信息以及计算量过大的问题；二是针对轻量级网络模型在保持参数量不增加的前提下提升检测精度和检测效率的问题；三是针对被原始网络过多关注网络的尾部空间信息而忽略了头部的语义信息，造成网络的检测效果不好的问题。

Description

一种改进YOLOX网络结构的轻量化目标检测方法

技术领域

本发明涉及目标检测技术领域，具体涉及一种改进YOLOX网络结构的轻量化目标检测方法。

背景技术

随着深度学习应用到目标检测，取得了巨大的进展，衍生出了其他很多研究领域，包括边缘检测、姿势检测、自动驾驶、行人检测等。同时，随着互联网技术的快速发展和移动设备的不断普及，要求把神经网络移植到移动互联网设备上实现端到端的及时检测，满足人们之间的日常交流、学习和工作等，如人脸识别、视频直播、美颜相机等移动式应用。

YOLOX是在2021年被提出的基于YOLO算法的一种目标检测方法，并且开发者团队一直在对YOLOX网络模型进行改进和维护，因此基于YOLOX网络结构的目标检测方法得到了广泛的应用。

在特征处理阶段，现有的YOLOX模型使用路径聚合网络进行特征加强，与特征金字塔网络相比，它的参数量更多且计算量更大，对网络的大小也有一定的影响，通过路径聚合网络提取到的信息比通过特征金字塔网络提取到的信息要多，同时也存在信息冗余的问题；而在轻量级网络模型中，因为宽度和深度有限，存在检测精度不足的问题；最后由于YOLOX方法关注网络的深层信息比浅层信息多，导致大部分的计算都集中在网络的尾部，从而忽略了头部信息，这样会导致很大一部分细节信息在头部就丢失了，影响最终网络的检测效果。

发明内容

本发明的目的在于提供一种改进YOLOX网络结构的轻量化目标检测方法，旨在对现有的YOLOX网络结构的轻量级模型进行改进，保持不增加计算量的情况下提升网络的检测准确率和检测效率，并能很好地移植到互联网移动应用上。

为实现上述目的，本发明提供了一种改进YOLOX网络结构的轻量化目标检测方法，包括下列步骤：

准备两个训练用的数据集；

在两个数据集上分别训练原始网络模型，并记录评估性能的指标；

使用改进方法改进YOLOX网络模型；

在两个数据集上分别训练改进YOLOX网络模型，对模型进行评估，并以原始网络模型训练获得的指标为标准进行比较；

改进后的方法若满足性能要求，则对其进行检测分析；如不能满足性能要求，则对改进方法进行调整，直至满足性能要求为止；

在测试集上对改进方法进行验证和分析；

将有效的改进方法应用到移动设备上，实现端到端的实时有效检测。

其中，使用改进方法改进YOLOX网络模型的过程，包括下列步骤：

简化PANet结构为FPN结构；

在FPN结构中应用分而治之方法，添加新的两个不同分支作为头部的预测输出层，则改进后的网络结构分别有P3、P4、P5、P6和P7共五个预测输出层；

将YOLOX中的一般3×3卷积改进成通道混合卷积；

将每个模块的效果分别在YOLO基线网络上进行训练，并记录结果；

将所有模块组合在一起形成新的单阶段目标检测器；

对网络模型进行训练。

其中，改进的FPN结构起特征增强的作用，减少了下采样和拼接带来的计算量，减少的计算量作为头部增加预测输出窗口的基础。

其中，在FPN结构中应用分而治之方法的过程中，增加的分支均作为解耦头的输入，传输到网络的头部进行预测输出。

其中，在将YOLOX中的一般3×3卷积改进成通道混合卷积的过程中，除了在每个组之间进行单独的卷积计算外，还需要将组与组之间的信息进行有规则的排列组合，得到打乱之后的通道信息。

其中，新的单阶段目标检测器包含特征提取、特征增强和预测输出三个部分，其中特征提取部分将骨干网络的3×3卷积改进为通道混洗策略，特征增强部分将原始的PANet结构简化为FPN结构，预测输出部分采用分而治之的思想将原始的三个输出窗口扩展成五个输出窗口，并且每个输出窗口的尺度都不同。

其中，对网络模型进行训练的过程，包括下列步骤：

选用PyTorch对网络模型进行实现；

根据原始模型的参数配置网络，设置训练图像分辨率的为416×416，训练轮次为100轮，训练预热为5轮，其余参数保持与原始模型一致；

在配备Linux＝3.10.0-1127.el7.x86 64和GPU＝GTX2080Ti的服务器上进行实验；

根据实验结果对网络模型的参数进行调整，使检测的正确率和速度达到最高；

重复训练且不断调整网络模型参数，使检测效果达到最好。

本发明提供了一种改进YOLOX网络结构的轻量化目标检测方法，使用改进的YOLOX网络作为主干网络，将FPN结构、FPN分而治之思想和通道剪枝策略等模块融入到网络中，组成了一个新的网络架构，生成了一个新的目标检测器，新的目标检测器与YOLOX轻量级网络相比有更高的检测精度和更好的检测效率，应用到互联网移动设备上还可以实现端到端的实时多目标检测，本发明解决以下技术问题：一是针对原始网络采用的路径聚合网络导致重复计算过多的特征信息，而忽略其他有用信息以及计算量过大的问题；二是针对轻量级网络模型在保持参数量不增加的前提下提升检测精度和检测效率的问题；三是针对被原始网络过多关注网络的尾部空间信息而忽略了头部的语义信息，造成网络的检测效果不好的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种改进YOLOX网络结构的轻量化目标检测方法的流程示意图。

图2是路径聚合网络结构示意图。

图3是本发明将PANet结构简化成FPN结构之后的YOLOX模型的结构示意图。

图4是本发明的FPN分而治之结构示意图。

图5是本发明的改进YOLOX网络结构的增加两个预测分支后的结构示意图。

图6是神经网络中一般分组卷积与通道混洗策略过程示意图。

图7是本发明的改进的通道混洗方法替换YOLOX骨干网络中的一般分组卷积的结构示意图。

图8是本发明改进后的目标检测网络模型结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1，本发明提供了一种改进YOLOX网络结构的轻量化目标检测方法，包括下列步骤：

S1：准备两个训练用的数据集；

S2：在两个数据集上分别训练原始网络模型，并记录评估性能的指标；

S3：使用改进方法改进YOLOX网络模型；

S4：在两个数据集上分别训练改进YOLOX网络模型，对模型进行评估，并以原始网络模型训练获得的指标为标准进行比较；

S5：改进后的方法若满足性能要求，则对其进行检测分析；如不能满足性能要求，则对改进方法进行调整，直至满足性能要求为止；

S6：在测试集上对改进方法进行验证和分析；

S7：将有效的改进方法应用到移动设备上，实现端到端的实时有效检测。

使用改进方法改进YOLOX网络模型的过程，包括下列步骤：

S31：简化PANet结构为FPN结构；

S32：在FPN结构中应用分而治之方法，添加新的两个不同分支作为头部的预测输出层，则改进后的网络结构分别有P3、P4、P5、P6和P7共五个预测输出层；

S33：将YOLOX中的一般3×3卷积改进成通道混合卷积；

S34：将每个模块的效果分别在YOLO基线网络上进行训练，并记录结果；

S35：将所有模块组合在一起形成新的单阶段目标检测器；

S36：对网络模型进行训练。

进一步的，对网络模型进行训练的过程，包括下列步骤：

S361：选用PyTorch对网络模型进行实现；

S362：根据原始模型的参数配置网络，设置训练图像分辨率的为416×416，训练轮次为100轮，训练预热为5轮，其余参数保持与原始模型一致；

S363：在配备Linux＝3.10.0-1127.el7.x86 64和GPU＝GTX2080Ti的服务器上进行实验；

S364：根据实验结果对网络模型的参数进行调整，使检测的正确率和速度达到最高；

S365：重复步骤S362至步骤S364，训练且不断调整网络模型参数，使检测效果达到最好。

以下结合相关背景技术以及实施步骤对本发明作进一步说明：

路径聚合网络(Path Aggregation Network，PANet)是在特征金字塔网络(Feature Pyramidal Network，FPN)的基础上优化的。如图2所示，图2由5个模块组成，分别是FPN主干网络、自上而下的特征增强、自适应特征池、边界框回归以及全连接融合。如图2(a)所示，在主干网络进行特征提取的基础上增加了一条自上而下的路径，将主干网络和自上而下两条路径中提取到的特征进行特征融合，可以达到增强特征信息的目的。

随着网络深度的加深，浅层特征图具有较丰富的语义信息但是空间信息不足，深层特征图具有较丰富的空间信息但是语义信息被抽象。PANet结构综合考虑了深层特征信息与浅层特征信息的特点，另外增加了一条自下而上的特征增强路径，如图2(b)所示，这可以对那些在主干网络中被忽略的信息进行加强，使之变成有用的信息，有利于提升检测精度。图2(a)中自上而下的特征金字塔网络结构和图2(b)中自下而上的聚合路径组成了PANet结构。该方法在只增加较少计算量的前提下，就实现了检测精度的大幅度提升。

在本发明的步骤S1中，选取的数据集包括PASCAL VOC 2007和PASCAL VOC 2012数据集(包含16551幅训练图像和4952幅测试图像)、MS COCO2017数据集(包含118287幅训练图像、5000幅验证图像和40670幅测试图像)。

优选的，在步骤S2中，记录评估性能的指标，包括mAP@.5、mAP@.75、mAP@.5:.95、Params(M)和FLOPs(G)，作为后续性能评估的标准。

本发明中使用改进的YOLOX网络作为主干网络，将FPN结构、FPN分而治之思想和通道剪枝策略等模块融入到网络中，组成了一个新的网络架构，生成了一个新的目标检测器。这个新的目标检测器与YOLOX轻量级网络相比有更高的检测精度和更好的检测效率，将其应用到互联网移动设备上可以实现端到端的实时多目标检测。

(1)简化PANet结构为FPN结构

YOLOX模型使用PANet结构对骨干网络提取的特征信息进行加强处理，但是通过分析网络结构可知，PANet通过“自下而上”路径不断与“自上而下”路径进行特征融合，这个过程占用了整个网络大部分的计算资源，PANet结构是YOLOX网络模型参数量的主要来源。对于轻量化模型来说，网络模型的参数量是至关重要的，如果参数量过大导致检测速度降低，会影响该方法应用到移动设备上的性能。所以出于轻量化的考虑，将PANet简化为FPN结构是有必要的。

在特征增强阶段，虽然通过PANet提取到的信息比通过特征金字塔网络提取到的信息要多，但是这些信息中大部分抽象信息都是重复的，这样的信息对网络的检测作用很小，可以适当地丢弃。如果一直学习重复的信息对模型的检测并没有帮助，应该致力于怎样获得更多的被骨干网络忽略的信息，从而弥补网络学习能力的不足。

如图3所示，是将PANet结构简化成FPN结构之后的YOLOX模型，改进后的网络模型变得更简洁，减少了很多下采样和拼接操作带来的计算量。

(2)FPN分而治之

FPN结构打破了只采用顶层特征做预测的传统方法，FPN网络结构的预测是在不同的特征层上独立进行的，通过提取浅层的特征与深层的特征进行融合，将融合后的特征层作为输出进行预测。在YOLOF网络架构中，提出并证明了FPN结构的成功不在于多尺度特征融合，而在于“分而治之”的思想。YOLOF以RetinaNet网络架构为基线，提出了多进多出(Multiple-in-Multiple-out，MiMo)、单进多出(Single-in-Multiple-out，SiMo)、多进单出(Multiple-in-Single-out，MiSo)和单进单出(Single-in-Single-out，SiSo)四种结构，在MS COCO 2017数据集上分别实现了35.9％，35.0％，23.9％和23.7％的AP。MiMo结构比SiMo仅仅高了0.9％，但是MiMo比MiSo结构却高了12％。如图4所示，展示了MiMo和SiMo结构图。从实验结果可以得出结论，影响FPN网络结构成功的因素，多尺度特征层预测起到的作用远远大于多特征层融合。

因此提出在YOLOX模型上应用FPN分而治之的思想，如图5所示，在改进方法一的基础上再增加两个预测分支，增加的分支均作为解耦头的输入，传输到网络的头部进行预测输出，该方法可以弥补简化PANet结构后丢失的特征信息，通过对已经获得的特征进行多方面全覆盖的检测和分析，该方法既可以保持该神经网络整体的参数量不增加，也可以提升检测准确率。

(3)通道混洗策略

在YOLOX中使用的卷积核大小为3×3，则一个深度可分离卷积的FLOPs可以通过公式计算为“3×3×特征图的高×特征图的宽×输入通道数×卷积核的数量”。为了降低卷积的FLOPs，ShuffleNet提出了通道混洗策略，将3×3的卷积分成三组，分别进行计算，如图6所示。如图6(a)所示，是未分解之前的3×3分组卷积计算平面简化图，从输入开始将其通道分为三个组，即图中用三种不同颜色表示，该方法三组通道之间的信息是互不干扰的，信息之间没有任何流通。如图6(b)和图6(c)所示，为提出的通道混洗(Channel Shuffle)操作。同样将输入通道分为三组，在图中每组用不同颜色表示，如果只是将每个通道进行简单的堆叠，那么就会造成每个组之间的信息是互不关联的，这会影响网络的学习能力。因此除了在每个组之间进行单独的卷积计算外，还需要将组与组之间的信息进行有规则的排列组合，得到打乱之后的通道信息，重新整合之后的通道就包含了来自每个组的不同的特征，就实现了组与组之间的信息交互，有利于网络的学习和提升网络的鲁棒性，从而提升了检测准确率。

一般分组卷积后的FLOPs可计算为“3×3×特征图的高×特征图的宽×输入通道数×卷积核的数量”。通过通道混洗策略排列后的FLOPs可计算为“3×(1×1×特征图的高×特征图的宽×输入通道数×卷积核的数量)”。明显可以得出，前者的FLOPs计算量比后者要大得多。因为轻量级网络追求的是高精度和低计算量，这样才能很好地应用到互联网移动设备上，才能实现较好的多目标检测效果。

将通道混洗策略运用到YOLOX骨干网络中，替换部分普通的3×3卷积，如图7所示，左下角以及虚线圈中部分是网络中改进后的通道混洗策略，能够在保持不增加网络计算量的前提下，也不降低整个网络的检测速度，同时提升网络的检测精度。

(4)改进后的目标检测网络模型

本发明提出的目标检测网络模型包含特征提取、特征增强和预测输出三个部分。如图8所示，在特征提取部分，将骨干网络的3×3卷积改进为通道混洗策略，不仅可以降低网络的计算量，还可以提升网络的检测速度。在特征增强部分，将原始的PANet结构简化为FPN结构，可以减少PANet结构中的信息冗余，造成特征的重复计算，从而浪费计算资源，同时FPN结构也可以实现较好的效果，能够满足性能需求。在预测输出部分，采用分而治之的思想，将原始的三个输出窗口扩展成五个输出窗口，并且每个输出窗口的尺度都是不一样的，可以实现对不同尺度的多目标的检测。

综上所述，本发明主要解决了三个方面的技术问题，一是针对原始网络采用的路径聚合网络导致重复计算过多的特征信息，而忽略其他有用信息以及计算量过大的问题；二是针对轻量级网络模型在保持参数量不增加的前提下提升检测精度和检测效率的问题；三是针对被原始网络过多关注网络的尾部空间信息而忽略了头部的语义信息，造成网络的检测效果不好的问题。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种改进YOLOX网络结构的轻量化目标检测方法，其特征在于，包括下列步骤：

准备两个训练用的数据集；

使用改进方法改进YOLOX网络模型；

在测试集上对改进方法进行验证和分析；

2.如权利要求1所述的改进YOLOX网络结构的轻量化目标检测方法，其特征在于，

使用改进方法改进YOLOX网络模型的过程，包括下列步骤：

简化PANet结构为FPN结构；

将YOLOX中的一般3×3卷积改进成通道混合卷积；

将所有模块组合在一起形成新的单阶段目标检测器；

对网络模型进行训练。

3.如权利要求2所述的改进YOLOX网络结构的轻量化目标检测方法，其特征在于，

改进的FPN结构起特征增强的作用，减少了下采样和拼接带来的计算量，减少的计算量作为头部增加预测输出窗口的基础。

4.如权利要求2所述的改进YOLOX网络结构的轻量化目标检测方法，其特征在于，

在FPN结构中应用分而治之方法的过程中，增加的分支均作为解耦头的输入，传输到网络的头部进行预测输出。

5.如权利要求2所述的改进YOLOX网络结构的轻量化目标检测方法，其特征在于，

在将YOLOX中的一般3×3卷积改进成通道混合卷积的过程中，除了在每个组之间进行单独的卷积计算外，还需要将组与组之间的信息进行有规则的排列组合，得到打乱之后的通道信息。

6.如权利要求2所述的改进YOLOX网络结构的轻量化目标检测方法，其特征在于，

新的单阶段目标检测器包含特征提取、特征增强和预测输出三个部分，其中特征提取部分将骨干网络的3×3卷积改进为通道混洗策略，特征增强部分将原始的PANet结构简化为FPN结构，预测输出部分采用分而治之的思想将原始的三个输出窗口扩展成五个输出窗口，并且每个输出窗口的尺度都不同。

7.如权利要求2所述的改进YOLOX网络结构的轻量化目标检测方法，其特征在于，

对网络模型进行训练的过程，包括下列步骤：

选用PyTorch对网络模型进行实现；

在配备Linux＝3.10.0-1127.el7.x8664和GPU＝GTX2080Ti的服务器上进行实验；

重复训练且不断调整网络模型参数，使检测效果达到最好。