CN112270331A

CN112270331A - 一种基于yolov5改进的广告牌检测方法

Info

Publication number: CN112270331A
Application number: CN202011221274.5A
Authority: CN
Inventors: 罗智勇; 王建明; 张文博
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-01-26

Abstract

本发明公开了一种基于YOLOv5改进空洞卷积的广告牌违法检测，设及人工智能领域，包括以下步骤：(1)广告牌图像信息的获取；(2)广告牌图像样本的划分；(3)广告牌图像的特征提取；(4)违法广告牌识别模型的构建。本发明采用PANet进行违法广告牌检测模型的构建，提出一种空洞卷积神经网络模型能够提取更多、更有效的特征信息，且可以避免过拟合，使用性能较好的GPU进行训练极大提高了训练的速度，扩大了感受野，不仅可以检测分割大目标且没有降低分辨率，非常适合违法广告牌的精准、快速检测。

Description

一种基于YOLOV5改进的广告牌检测方法

技术领域

本发明设及一种基于YOLOv5改进的广告牌违法检测方法，属于人工智能的领域。

背景技术

为了规范城镇户外广告设施和店招标牌设施的设置行为，确保广告设施的安全可靠，创建健康、有序的城市视觉环境，城市管理部门需要对违法广告设施做定期肃清。但目前执法依赖执法人员在街道上拍照取证，由于涉及街道范围较广，需要耗费大量人力，而且效率也比较低。

因此本文提出一种新型的“违法广告牌快速检测系统”--基于YOLOv5的检测系统，主要针对是“广告牌检测”，该系统能检测与标记违法广告牌，并在检测出违法广告牌时给出提示，在不影响店铺正常营业的情况下快速检测，更好的提高民众的生活保障。

发明内容

针对上述问题，本发明提出一种快速简单的违法广告牌识别方法。

为实现上述目的，本发明发采用的技术方案为：一种基于YOLOv5改进的广告牌违法检测方法，包括以下步骤：

(1)广告牌图像信息的获取；

(2)广告牌图像样本的划分；

(3)广告牌图像的特征提取；

(4)PANet违法广告牌识别模型的构建。

作为优选，所述步骤(1)中，获取广告牌的图像信息，得到广告牌的图像数据集。

作为优选，所述步骤(2)中，采用随机抽样的方式将所采集的广告牌图像数据按一定比例划分为独立不重复的验证集和测试集。

作为优选，所述步骤(3)中，用于提取广告牌图像信息特征的路径聚合网络PANet，其中PANet，其中PANet包括四个部分，分别为：FPN特征金字塔；自底向上路径扩充；自适应池化特征层；全连接层等。

作为优选，所述步骤(4)中，在训练和测试阶段，在PANet的全连接层加入空洞卷积网络，利用PANet提取广告牌图像特征在验证集上构建违法广告牌识别模型，确定识别模型的参数，然后利用测试集来检测识别效果，验证模型性能。

通过上述技术方案，本发明的有益效果是：提出一种新的基于路径聚合网路PANet模型，引入空洞卷积网络，扩大了感受野，捕获多尺度上下文信息，从而获取更多、更有效的图像信息，有利于快速、准确检测出街道的违法广告牌。与现有技术相比，本发明的优点是：(1)由PANet网络对数据集进行训练，得到一个高效的训练结果，由此可以对违法广告牌的快速定位，比起以往的方法更高效，节省了大量的时间和人工成本；(2)加入空洞卷积层，可以更好地扩大感受野，捕获多尺度上下文信息，从而实现准确的定位和分类违法广告牌；(3)加入空洞卷积，使得输出不同层的特征图更精确，优化了输出数据，提高定位和分类的准确性。

YOLOv5主要从以下几个方面有所改进：

Data Augmentation:图像增强是从现有的训练数据中创建新的训练样本。实验中不可能为每一个现实世界场景捕捉一个图像，因需要调整现有的训练数据以推广到其他情况，从而允许模型适应更广泛的情况。

多样化的先进数据增强技术是最大限度地利用数据集，使对象检测框架取得性能突破的关键。通过一系列图像增强技术步骤，可以在不增加推理时延的情况下提高模型的性能。

YOLOv5通过数据加载器传递每一批训练数据，并同时增强训练数据。

数据加载器进行三种数据增强：缩放，色彩空间调整和马赛克增强。马赛克数据增强确实能有效解决模型训练中最头疼的“小对象问题”，即小对象不如大对象那样准确地被检测到。

Auto Learning Bounding Box Anchors：自适应锚框，在YOLOv5之前，主流是采用K均值和遗传学习算法对自定义数据集进行分析，获得适合自定义数据集中对象边界框预测的预设锚框。

在YOLOv5中锚框是基于训练数据自动学习的。不仅适用于标准数据集(例如COCO，PASCALVOC等)，同时也适用于自定义数据集；由于目标识别框架往往需要缩放原始图片尺寸，并且数据集中目标对象的大小可能不同，因此YOLOv5会重新自动学习锚框的尺寸。

Backbone：跨阶段局部网络(CSPDarket)，从输入图像中提取丰富的信息特征。CSPNet解决了其他大型卷积神经网络框架Backbone中网络优化的梯度信息重复问题，将梯度的变化从头到尾地集成到特征图中，因此减少了模型的参数量和FLOPS数值，既保证了推理速度和准确率，又减小了模型尺寸。

Neck:路径聚合网络(PANet)，用于生成特征金字塔，其会增强模型对于不同缩放尺度对象的检测，从而能够识别不同大小和尺度的同一个物体。

Head：YOLO通用检测层，用于最终检测部分，在特征图上应用锚框，并生成带有类概率、对象得分和包围框的最终输出向量。

Activation Function:激活函数的选择对于深度学习网络是至关重要的。YOLOv5在中间/隐藏层使用了Leaky ReLU和最后的检测层使用了Sigmoid激活函数。

Optimization Function：提供了两个优化函数Adam和SGD，并都预设了与之匹配的训练超参数。默认为SGD。如果需要训练较小的自定义数据集，Adam是更合适的选择，尽管Adam的学习率通常比SGD低；但是如果训练大型数据集，对于YOLOv5来说SGD效果比Adam好。

Cost Function：损失计算是基于目标得分、类得分和框回归得分，使用GIoU损失作为框损失计算，另外再采用二进制交叉熵和Logistic损失函数计算类概率和目标得分的损失。

附图说明

图1本发明实施违法广告牌识别方法的训练流程图。

图2本发明实施用于提取图像特征改进后的网络结构简图。

图3本发明实施检测改进前后的卷积图。

图4本发明实施改进前后的检测效果对比图。

图5本发明实施改进前后的实验数据分析图。

具体实施方式

下面结合说明书附图，对本发明作进一步说明，以让本领域技术

人员参照说明书文字能够具体实施。

本发明在Ubuntu16.04.4LTS环境下工作，采用PyTorch为框架进行搭建，主要参数有：初始学习率为0.001，动量参数为0.937，权重系数为0.0005，训练阈值为0.65，imagesize为896 896，epoch为400等，此外，为了提高数据的多样性，对图片进行数据增强，每个步骤均以0.5的概率选择是否使用。

本发明采用的技术方案为：一种基于YOLOv5改进空洞卷积的广告牌违法检测方法，包括以下步骤：

(1)广告牌图像信息的获取；

(2)广告牌图像样本的划分；

(3)广告牌图像的特征提取；

(4)PANet违法广告牌识别模型的构建。

下面结合附图，对发明作进一步详细说明，本发明提供一种基于YOLOv5改进空洞卷积的广告牌违法检测方法，训练步骤如图1所示：

广告牌图像信息的获取：获取广告牌的图像信息，得到广告牌的图像数据集，为了提高本发明在实际场景中的应用能力，所收集的数据集图片均来自于现实生活中的场景，然后利用目标检测标注工具进行标注，将图片格式化为一定的图片尺寸，进而获得广告牌图像信息，包含违法与不违法两大类。

广告牌图像样本的划分：本发明采用随机抽样的方式对街道中的违法广告牌和正常广告牌的图像数据按照验证集80％,测试集20％的比例将广告牌图像数据划分为独立的验证集和测试集。

PANet广告牌图像的特征提取，如附图2中展示了网络的结构图，该网络主要包括四个部分：(1)FPN特征金字塔，主要作用是通过融合高低层特征提升目标检测的效果，尤其是可以提高小尺寸目标的检测，例如在店面排列拥挤，广告牌尺寸较小，选择FPN可以显著提升效果；(2)自底向上路径扩充，主要考虑到网络浅层特征信息对于实例分割非常重要，浅层特征多是边缘形状等特征，而实例分割是像素级别的分类；(3)自适应池化特征层，主要目的是特征融合，将单层特征换成多层特征，使得提取到的ROI特征更加丰富；(4)全连接层是针对原有的分割支路引入一个前背景二分类的全连接支路，又加入空洞卷积网络.普通卷积网络在检测中精度低且容易出现漏检的情况。因此我们在输出头加入空洞卷积，扩大了感受野的同时没有降低分辨率，提高了精度，且大幅度改善了漏检的情况。如图3所示，在不用池化层(池化层会导致信息损失)且计算量相当的情况下，提供更大的感受野。从直观上讲，感受野就是视觉感受区域的大小。在卷积神经网络中，感受野的定义是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小。扩大感受野是为了增加感受野且降低计算量，总要进行降采样，这样虽然可以增加感受野，但空间分辨率降低了，进而导致信息丢失。为了能不丢失分辨率，且仍然扩大感受野，可以使用空洞卷积。这在检测，分割任务中十分有用。一方面感受野大了可以检测分割大目标，另一方面分辨率高了可以精确定位目标。池化层内部数据结构丢失；空间层级化信息丢失。小物体信息无法重建而空洞卷积就有内部数据结构的保留和避免使用下采样这样的特性，在相同的计算条件下，空洞卷积提供了更大的感受野，使得输出更加精确。

图4展示了本发明的测试后的效果图，共挑选了两组进行对比。本文挑选了街边两个场景作为样本进行研究。图4(c),4(d)是使用了空洞卷积网络改进后的测试效果图，图4(a),4(b)是没有使用空洞卷积网络改进前的测试效果图。对于改进前来说，精度低且存在漏检的项目，改进后，检测精度明显高于之前，缓解了漏检的缺陷。总的来说，此项目使用空洞卷积对检测准确性起到了一定的提升作用。

图5中展示了本模型的各个参数指标，改参数指标是在epoch为400，batchsize为32，imagesize为896×896情况下训练得到的；其中，GIoU(GeneralizedIntersection overUnion)是指任意两个边框的度量，本文中的GloU是指损失度量。

Objectness在本文中表示“置信度”，其对应的是布尔值类型的二分类标签，表示成对应的真实和错误的逻辑值；其他指标分别是性能评价指标、精准率、回归率、平均精度，mAP@＝0.5是指IOU＝0.5时测得模型的精度，同理，mAP@＝0.5～0.95是指IOU＝0.5～0.95时测得模型的精度。

鉴于计算机硬件的限制，本发明只做了400次的训练，就可以证明改进的有效性，下表是取epoch第一次和最后一次参数，如下表所示：

表一：训练阶段epoch为1和epoch为400时的对比

由表1知：在epoch为1时，改进前和改进后的变化微乎其微，但随着训练次数的增加，改进后的效果明显好于改进前。我们重点分析epoch为400时的几个常见参数，改进前的回归率为0.9831，改进后的回归率为0.9841，提高了0.001；改进前的mAP@0.5为0.9006，改进后的mAP@0.5为0.9303，提高了0.0297；改进前的mAP@0.5:0.95为0.6616，改进后的mAP@0.5:0.95为0.7396，提高了0.078；根据实验数据所得，伴随着训练次数的增加，GloU的损失不断减小；精准率和回归率之间存在一种博弈关系，该模型在回归率增长的同时保持较高的准准率；mAP随着IOU值得不同表现出较高的精度；该实验数据证明了本模型是个好模型，可以应用于实际情况。此外，本发明只验证了输出头可加入空洞卷积有效，对于其它层是否可加以及有效，本发明未涉及，这也是需要后续更进一步的工作深入。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例的技术方案也可以经适当的组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于YOLOv5改进的广告牌违法检测，包括以下步骤：

广告牌图像信息的获取；

广告牌图像样本的划分；

广告牌图像的特征提取；

违法广告牌识别模型的构建

根据权利要求1所描述的一种基于YOLOv5改进的广告牌违法检测方法，其特征在于：所描述步骤(1)中，获取广告牌的图像信息，得到广告牌的图像数据集，为了提高本发明在实际场景中的应用能力，所收集的数据集图片均来自于现实生活中的场景，然后利用目标检测标注工具进行标注，将图片格式化为一定的图片尺寸，进而获得广告牌图像信息，包含违法与不违法两大类。

2.根据权利要求1所描述的一种基于YOLOv5改进的广告牌违法检测方法，其特征在于：所描述步骤(2)中，采取随机抽样的方式将所采集的广告牌图像数据按一定的比例划分为独立不重复的验证集和测试集。

3.根据权利要求1所描述的一种基于YOLOv5改进的广告牌违法检测方法，其特征在于所描述步骤(3)中用于提取广告牌图像信息特征的路径聚合网络

(Path AggregationNetworks，PANet)，是一种实例分割框架下的网络，目的在于提高提高基于提议的实例分割框架的信息流。

4.具体而言，通过自上而下的路径增强在较低层使用精确定位信号来增强整个要素层次结构，缩短了较低层和最顶层功能之间的信息路径。

5.PANet主要包括以下四个部分：

(1)FPN(Feature PyramidNetworks):通过融合高低层特征提升目标检测的效果；

(2)自底向上路径扩充(bottom-up path augmentation)：主要考虑网络浅层特征信息对于实例分割的重要性；

(3)自适应池化特征层(Adaptive Feature Pooling)：每个proposal利用金字塔所有层的特征，避免proposal的随意分配；

(4)全连接层(Fully-connected Fusion)：给掩码预测增加信息来源，并在输出检测头加入空洞卷积网络，提供更大的感受野，使得融合输出的分支结果更加精确。

6.根据权利要求1所描述的一种基于YOLOv5改进的广告牌违法检测方法，其特征在于所描述步骤(4)中，在训练和测试阶段，在PANet的全连接层中加入空洞卷积网络，利用PANet提取广告牌图像特征在验证集上构建违禁广告牌识别模块，确定识别模块的参数，然后利用测试集来检测识别效果，验证模块性能。