CN115661614A

CN115661614A - 一种基于轻量化YOLO v1的目标检测方法

Info

Publication number: CN115661614A
Application number: CN202211576459.7A
Authority: CN
Inventors: 周康; 王彬; 徐凯; 张永生; 程银; 袁明亮
Original assignee: Jiangsu Daoyuan Technology Group Co ltd
Current assignee: Jiangsu Daoyuan Technology Group Co ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-01-31
Anticipated expiration: 2042-12-09
Also published as: CN115661614B

Abstract

本发明公开了一种基于轻量化YOLO v1的目标检测方法，轻量化YOLO v1的主干网络包括第一层至第五层结构，以及对第三层输出进行下采样后与第四层输出进行深度上的拼接后输入第五层的支路。本发明采用Conv层+GConv层+Conv层的组合作为一个基本特征提取卷积模块，在卷积过程中使输出的通道数等于输入通道数，从而使存储读取成本最小。通过对传统YOLO v1主干网络的修改精简，降低其网络权重参数的大小；此外，不用设置Anchor Box，能够直接从数据中得到检测框的位置及大小信息。

Description

一种基于轻量化YOLO v1的目标检测方法

技术领域

本发明涉及一种图像处理方法，具体涉及一种图像的目标检测方法。

背景技术

深度神经网络已经被证明可以有效的解决图像、自然语言等不同领域的问题。同时伴随着移动互联网技术的不断发展，便携式设备得到了迅速的普及，用户提出了越来越多的需求。工业界对深度学习网络在终端应用的关注度越来越高，尤其是对于如何保持速度和精度上的平衡，也形成了不小的研究热度。

在目标检测领域，one-stage的目标检测网络因结构相对简单并且速度很快，所以目前对于轻量化的已部署在移动端的网络多以one-stage网络为主。但即便其相对精简，但是其动辄数百MB的网络参数权重对于移动终端仍然过于庞大，因而需将网络进行轻量化处理才能将其部署至移动终端。

在one-stage中，较为经典的有YOLO系列网络，YOLO系列网络自YOLO v2之后采用了Anchor Box进行目标边界框检测以提升精度，但利用Anchor进行目标检测需要预先设定Anchor Box的尺寸，而针对不同的数据集、不同的检测目标其Anchor Box的尺寸会有着差别，因而其泛化性能将会受到一定程度的限制，并且每应用于不同的数据集时都需重新设定Anchor Box的尺寸，增加了网络部署的难度。

发明内容

发明目的：针对上述现有技术，提出一种基于轻量化YOLO v1的目标检测方法，降低网络参数权重，并且不用设置Anchor Box。

技术方案：一种基于轻量化YOLO v1的目标检测方法，包括：对采集的数据进行预处理，预处理后的数据输入轻量化YOLO v1，所述轻量化YOLO v1的输出包括检测框的位置及大小信息；

所述轻量化YOLO v1的主干网络包括第一层至第五层结构，以及对第三层输出进行下采样后与第四层输出进行深度上的拼接后输入第五层的支路；

第一层由Mode1模块构成，第一层的输入与输出尺寸分别为：3*448*448、36*112*112；

第二层至第四层均为由Mode2模块连接Mode3模块构成，第二层至第四层的输入与输出尺寸分别为：36*112*112、72*56*56，72*56*56、144*28*28，144*28*28、288*14*14；

第五层由Mode1模块构成，第五层的输入与输出尺寸分别为：288*14*14、30*7*7；

所述支路的输入与输出尺寸分别为：144*28*28、144*14*14；

其中，Mode1模块的结构为：依次连接的1个Conv层以及1个MaxPooling层；

Mode2模块的结构为：依次连接的1个Conv层、2个Gconv层以及1个Conv层；

Mode3模块的结构为：依次连接的1个Conv层、1个Gconv层以及1个Conv层。

进一步的，所述主干网络还包括连接第五层输出的三个检测头，所述三个检测头均由1个Conv层组成，三个检测头的输出尺寸分别为5*7*7、5*7*7、20*7*7，三个检测头的输出数据进行深度拼接后形成最终的输出数据。

有益效果：1.轻量化：通过对传统YOLO v1主干网络的修改精简，降低其网络权重参数的大小。

2.不用设置Anchor Box，能够直接从数据中得到检测框的位置及大小信息。

传统YOLO v1中，Anchor Box使用预设尺寸的Box进行定位，因而最终输出的数据格式为（x,y,q,e），其中，x、y分别为目标中心点相对于box中心点差值，q、e分别为目标长和宽相对于box长和宽的缩放指数；而本方法对YOLO v1主干网络改进后不再需要使用AnchorBox，而是能够将物体所在的特征区域(cell)的中心点直接作为目标中心点，最终输出目标4个边框到中心点的距离，其输出格式为（x1,x2,y1,y2）。

附图说明

图1为本发明中轻量化YOLO v1的主干网络所采用的三种模块结构图；

图2为实施例1中轻量化YOLO v1的主干网络结构图；

图3为实施例2中轻量化YOLO v1的主干网络结构图。

具体实施方式

下面结合附图对本发明做更进一步的解释。

实施例1：

一种基于轻量化YOLO v1的目标检测方法，首先对采集的数据进行预处理，预处理包括图像裁剪以及去向去噪处理，预处理后的数据输入轻量化YOLO v1，轻量化YOLO v1的输出包括检测框的位置、大小信息，此外还包括置信度信息。

如图2所示，轻量化YOLO v1的主干网络包括第一层至第五层结构，以及对第三层输出进行下采样后与第四层输出进行深度上的拼接后输入第五层的支路。

第一层由Mode1模块构成，第一层的输入与输出尺寸分别为：3*448*448、36*112*112。

第二层至第四层均由Mode2模块连接Mode3模块构成，第二层至第四层的输入与输出尺寸分别为：36*112*112、72*56*56，72*56*56、144*28*28，144*28*28、288*14*14。

第五层由Mode1模块构成，第五层的输入与输出尺寸分别为：288*14*14、30*7*7。

支路的输入与输出尺寸分别为：144*28*28、144*14*14。

如图1所示，Mode1模块的结构为：1个普通卷积（Conv）层+1个最大池化下采样（MaxPooling）层；用于网络第一层进行第一步的特征图通道数扩展以及最后一层的通道数调整。

Mode2模块的结构为：1个普通卷积（Conv）层+2个深度可分卷积（Gconv）层+1个普通卷积（Conv）层；用于除了第一层以外的对特征图深度需要进行扩展的情况。

Mode3模块的结构为：1个普通卷积（Conv）层+1个深度可分卷积（Gconv）层+1个普通卷积（Conv）层；用于网络中的正向传播。

第一层特征提取时采用扩展深度的普通卷积（Conv）层将特征图像深度由3通道扩展为36通道。第二层至第四层中，Mode2模块利用两个输出深度与输入深度一致的深度可分卷积（Gconv）层进行深度拼接以完成深度扩展；Mode3模块采用普通卷积（Conv）层+深度可分卷积（GConv）层+普通卷积（Conv）层的组合作为一个基本特征提取卷积模块。本发明中，Mode2模块和Mode3模块只采用了1个或2个深度可分卷积（GConv）层，GConv层的输入与输出保持一致，而网络整体深度越来越大是必然的，为尽量实现轻量化，采用Gconv层时保持其输入与输出通道数一致，在必要的扩展阶段采取深度拼接，本质上不涉及通过卷积进行通道扩展，以此降低计算量。

网络的碎片化程度越高，其运行速度越慢；且网络中算子的运算操作也是影响效率的重要因素。本实施例中，仅采用Mode1、Mode2、Mode3模块，最大程度的降低了网络的碎片化程度，且减少了需用到的算子。

主干网络通过第一层至第五层结构完成网络轻量化，但由于参数量的减少，导致网络的精度降低并且收敛困难。因此，本实施例通过一条分支将第三层输出的特征图引出，对其进行下采样后与第四层输出进行深度上的拼接后再输入第五层中。网络第四层输出的特征图具有强语义信息，但尺寸较小，期望能检测到大目标；第三层引出的分支其尺寸较大，感受野较小，具有强定位信息，期望能够检测到小目标；通过支路将强语义信息与强定位信息集合，即增强语义表达又可以增强定位能力，如此即可提升网络的精度。

完成将网络主干替换后，网络的参数权重文件由107.2MB降低至3.86MB，降低为原大小的3.6%。

实施例2：

为了增加在有限数据量的情况下获取更多的数据结果，本发明的主干网络还增加了检测头的机制，与实施例1的区别在于，如图3所示，主干网络还包括连接第五层输出的三个检测头，三个检测头均由1个Conv层组成，三个检测头的输出尺寸分别为5*7*7、5*7*7、20*7*7，三个检测头的输出数据进行深度拼接后形成最终的输出数据。

网络第五层输出数据尺寸为30*7*7，其中7*7为特征图的高宽，30个数据通道构成为“5+5+20”，两个“5”分别为目标检测得到的两个检测框的4个边框到中心点的距离及置信度（x1,x2,y1,y2,c），“20”为检测目标的数量，其分别对应20个数字标签，当第n个为1时，就表示检测到的目标为目标集合中第n个目标。增加的三个检测头均是由普通卷积（Conv）层构成，三个检测头的输出尺寸分别为5*7*7、5*7*7、20*7*7，三个检测头的输出数据进行深度拼接后形成最终的输出数据，如此即可以权重略微增大为代价，增加检测参数来提升检测精度。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于轻量化YOLO v1的目标检测方法，其特征在于，包括：对采集的数据进行预处理，预处理后的数据输入轻量化YOLO v1，所述轻量化YOLO v1的输出包括检测框的位置及大小信息；

所述支路的输入与输出尺寸分别为：144*28*28、144*14*14；

2.根据权利要求1所述的基于轻量化YOLO v1的目标检测方法，其特征在于，所述主干网络还包括连接第五层输出的三个检测头，所述三个检测头均由1个Conv层组成，三个检测头的输出尺寸分别为5*7*7、5*7*7、20*7*7，三个检测头的输出数据进行深度拼接后形成最终的输出数据。