CN112418020A

CN112418020A - 一种基于注意力机制的YOLOv3违法广告牌智能检测方法

Info

Publication number: CN112418020A
Application number: CN202011243239.3A
Authority: CN
Inventors: 邓壮壮; 张茜茜; 王方召
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-26

Abstract

本发明公开了一种基于注意力机制的YOLOv3违法广告牌智能检测方法，包括采集广告牌图像，获取由违法和合法广告牌图像组成的广告牌数据集；将广告牌数据集划分为独立不重复的验证集和测试集；对验证集和测试集中每个广告牌图像的特征提取，获得各广告牌图像的特征；基于Darknet53网络模型增加由通道注意力模块和空间注意力模块构成的CBAM模块，得到广告牌检测模型；将验证集内广告牌图像的特征作为输入模型参数；将测试集内广告牌图像的特征输入，获得检测结果。本发明可实现准确的定位和分类违法广告，缓解对于大量人力的依赖，提高了对违法广告的检测。

Description

一种基于注意力机制的YOLOv3违法广告牌智能检测方法

技术领域

本发明涉及一种基于注意力机制的YOLOv3违法广告牌智能检测方法，属于智能检测的技术领域。

背景技术

随着经济社会的快速发展，人民生活水平得到了提高，各色各样的商铺广告出现在我们的生活中，不仅在城市有很多商铺广告，在城镇也有很多商铺广告；而城市中可以得到有效地管理，但在缺乏管理的城镇，广告设施杂乱，影响城市乡镇的视觉环境。

为了规范城镇户外广告设施和店招标牌设施的设置行为，确保广告设施的安全可靠，创造健康、有序的城市视觉环境，城市管理部门需对违法广告设施做定期肃清。但目前执法依赖执法人员在街道拍照取证，由于涉及街道范围较广，需要耗费大量人力，而且效率也较低。

发明内容

本发明所要解决的技术问题在于克服现有技术的不足，提供一种基于注意力机制的YOLOv3违法广告牌智能检测方法，该智能检测算法定位和分类准确，在一定程度上缓解了对于人力资源的依赖，有助于创造健康、有序的城市视觉环境。

本发明具体采用以下技术方案解决上述技术问题：

一种基于注意力机制的YOLOv3违法广告牌智能检测方法，包括以下步骤：

步骤1、采集广告牌图像，获取由违法和合法广告牌图像组成的广告牌数据集；

步骤2、将获取的广告牌数据集划分为独立不重复的验证集和测试集；

步骤3、对所划分的验证集和测试集中每个广告牌图像的特征提取，分别获得验证集和测试集内各广告牌图像的特征；

步骤4、基于Darknet53网络模型增加由通道注意力模块和空间注意力模块构成的CBAM模块，并进行训练得到广告牌检测模型；将验证集内广告牌图像的特征输入基于Darknet53网络模型训练得到的广告牌检测模型中，得到验证集内广告牌图像的中间特征映射，将中间特征映射输入CBAM模块得到空间注意力特征，并通过对广告牌检测模型验证，获取得到广告牌检测模型的参数；将测试集内广告牌图像的特征输入带参数的广告牌检测模型中，获得检测结果。

进一步地，作为本发明的一种优选技术方案，所述步骤1中利用目标检测标注工具对广告牌图像进行标注，将标注的广告牌图像格式化为设定尺寸，以采集得到广告牌图像。

进一步地，作为本发明的一种优选技术方案，所述步骤2中采用随机抽样法对广告牌数据集划分。

进一步地，作为本发明的一种优选技术方案，所述步骤4将验证集内广告牌图像的特征输入广告牌检测模型得到验证集内广告牌图像的中间特征映射，包括以下步骤：

将验证集内广告牌图像的特征输入广告牌检测模型中，得到中间特征映射；

将中间特征映射先输入CBAM模块的通道注意力模块，分别经过基于并行的两个通道进行最大池化层和平均池化层操作，获取基于最大池化层处理的特征和基于平均池化层处理的特征，再将该两个特征分别经过共享网络多层感知器MLP输出得到两个特征；将共享网络多层感知器MLP分别输出的两个特征进行相乘，再同基于最大池化层处理的特征和基于平均池化层处理的特征进行加和操作，最后采用sigmoid激活函数，生成权重通道注意力特征；将权重通道注意力特征和输入的中间特征映射进行乘法操作，生成最终的输出通道注意力特征；

将最终的输出通道注意力特征输入空间注意力模块，分别经过基于并行的两个通道最大池化层和平均池化层的操作，获取基于最大池化层处理的特征和基于平均池化层处理的特征，再将这两个特征基于通道做拼接操作后经过一个卷积操作降维，采用sigmoid激活函数，生成权重空间注意力特征；

将生成的权重通道注意力特征与权重空间注意力特征进行乘法操作，得到最终的输出空间注意力特征。

本发明采用上述技术方案，能产生如下技术效果：

本发明的基于注意力机制的YOLOv3违法广告牌智能检测方法，聚焦违法广告的智能检测，可以提升违法广告检验的准确度，降低对大量人工的依赖，同时提升违法广告检测的效果。该发明既可以检测场景中是否包含违法广告，又可以给出违法广告具体的位置和类别。该发明不仅可以考察违法广告的检出能力、也考察违法广告定位和分类能力。在一定程度上提高了违法广告检测的效率，降低了对人力的消耗，实现智能化检测。与现有技术相比，本发明的优点有：

(1)由Darknet网络模型对数据集进行训练，得到一个高效的训练结果，由此可以对违法广告的快速定位，比起以往的方法更高效，节省了大量的时间和人工成本；(2)加入CBAM模块，可以更好的倾向于关注图像中辅助判断的部分信息，并忽略不相关的信息，从而实现准确的定位和分类违法广告；(3)加入CBAM模块，使得输出不同层的特征图更精确，优化了输出数据，提高定位和分类的准确性。

因此，本发明方法可以有效地规范城镇户外广告设施和店招标牌设施的设置行为，创造健康、有序的城市视觉环境。

附图说明

图1为本发明实施违法广告检测的训练流程图。

图2为本发明改进Darknet53网络结构的简易图。

图3为本发明增加注意力机制CBAM模块的简易图。

图4为本发明注意力机制CBAM与卷积层融合的示意图。

图5(a)和图5(b)分别为本发明未增加与增加CBAM模块的测试效果对比图。

图6(a)和图6(b)分别为本发明未增加与增加CBAM模块的实验数据分析对比图。

具体实施方式

下面结合说明书附图对本发明的实施方式进行描述。

如图1所示，本发明涉及了一种基于注意力机制的YOLOv3违法广告牌智能检测方法，该方法具体包括以下步骤：

步骤1、采集广告牌图像，获取由违法和合法广告牌图像组成的广告牌数据集。

本发明方法的广告牌数据集是通过网络收集得到，所收集的数据集图片均来自于现实生活中的场景，然后利用目标检测标注工具对广告牌图像进行标注，将标注的广告牌图像格式化为设定的尺寸，以采集得到广告牌图像，数据集由违法广告牌和合法广告牌组成。

步骤2、将获取的广告牌数据集划分为独立不重复的验证集和测试集。

本发明方法对于广告牌图像样本的划分，采用随机抽样法将广告牌图像数据按验证集80％、测试集20％的比例划分为独立不重复的验证集和测试集。

步骤3、对所划分的验证集和测试集中每个广告牌图像的特征提取，分别获得验证集和测试集内各广告牌图像的特征。

步骤4、基于Darknet53网络模型增加由通道注意力模块和空间注意力模块构成的CBAM模块，并进行训练得到广告牌检测模型；将验证集内广告牌图像的特征输入基于Darknet53网络模型训练得到的广告牌检测模型中，得到验证集内广告牌图像的中间特征映射，将中间特征映射输入CBAM模块得到空间注意力特征，并通过对广告牌检测模型验证，获取得到广告牌检测模型的参数；将测试集内广告牌图像的特征输入带参数的广告牌检测模型中，获得检测结果。具体如下：

首先，获取Darknet53网络模型。所述Darknet53网络模型一共包含53层卷积，除去最后一个全连接层，总共52个卷积用于当做主体网络。Darknet53网络模型共降维5次，通过上采样和下采样，可以达到多尺度融合预测；如图2所示是本发明的改进后网络层，将第26层后的CBAM模块去掉，就是原始的Darknet53网络，Type为层的类别，Convolutional为卷积层，Residual为残差模块，共有三个输出头。其中，主体网络的52层卷积层，是由5组重复的残差单元组成，每个单元由1个单独的卷积层与一组重复执行的卷积层构成，重复执行的卷积层分别重复1次、2次、8次、8次和4次，一共是52层，1+1+(1+1)×1+1+(1+1)×2+1+(1+1)×8+1+(1+1)×8+1+(1+1)×4＝52，再加上最后一层全连接层。

本发明在此基础上引进了即插即用的CBAM模块(Convolutional BlockAttention Module)，CBAM模块的简易图如图3所示，CBAM表示卷积模块的注意力机制，主要是一种结合了通道(channel)和空间(spatial)的注意力机制模块，学习了通道之间的相关性，筛选出了针对通道的注意力，稍微增加了一点计算量。此外，通过了解要强调或抑制的信息有助于网络内的信息流动。主要网络架构简单，包含一个是通道注意力模块，另一个是空间注意力模块，CBAM模块就是先后集成了通道注意力模块和空间注意力模块。在共用主体网络结束前，也就是第26层卷积层后，添加CBAM模块。

然后，将验证集内广告牌图像的特征输入由Darknet53网络模型训练得到的广告牌检测模型中，得到验证集内广告牌图像的中间特征映射；

再将验证集内广告牌图像的中间特征映射输入CBAM模块，CBAM模块的大致工作流程如下：

给出了一个验证集内广告牌图像的中间特征映射

其中F是输入特征，C是通道数，H是特征高，W是特征宽；模块按照两个独立的维度，通道和空间顺序推断出注意力映射，其中，一维权重通道注意力特征

二维权重空间注意力特征

将中间特征映射先输入CBAM模块的通道注意力模块，分别经过基于并行的两个通道进行最大池化层和平均池化层操作，获取基于最大池化层处理的特征和基于平均池化层处理的特征，通过此操作，对某个区域内的网络特征仅保留最大值或平均值，使得在保证不影响图像原本信息的前提下，极大地减少了网络的参数量。再将该两个特征分别经过共享网络多层感知器MLP(Multi-Layer Perception)输出得到两个特征；然后将共享网络多层感知器MLP分别输出的两个特征进行相乘，再同基于最大池化层处理的特征和基于平均池化层处理的特征进行加和操作，最后采用sigmoid激活函数，生成权重通道注意力特征M_C(F)，数学化过程表示为：M_C(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))，其中σ为sigmoid激活函数。

然后，将权重通道注意力特征和输入的中间特征映射进行乘法操作，生成最终的输出通道注意力特征，同时也是空间注意力模块需要的输入特征F'，数学化过程表示为，

对于二维权重空间注意力特征

将最终的输出通道注意力特征输入空间注意力模块，分别经过基于并行的两个通道最大池化层和平均池化层的操作，获取基于最大池化层处理的特征和基于平均池化层处理的特征，再将这两个特征基于通道做拼接操作后，经过一个卷积操作降维，输出层采用sigmoid激活函数，生成权重空间注意力特征M_S(F')，将其数学化的过程可以表示为：

M_S(F')＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))

其中，σ同上。最终，将生成的权重通道注意力特征F'与权重空间注意力特征M_S(F')进行乘法操作，得到最终的输出空间注意力特征F”，数学化过程表示为

将通道注意力模块和空间注意力模块整合在一起，如图4所示，数学化过程的表示为：

其中

表示逐元素乘法，F"为最终输出的空间注意力特征。

将验证集内广告牌图像的特征作为输入，进行训练广告牌检测模型，然后通过对广告牌检测模型验证后，获取得到广告牌检测模型的参数，其中，主要参数有：初始学习率设置为0.01，当验证集的损失不再下降时，进行学习率调整，最终学习率调整为0.0005；动量参数设置为0.937，权重系数设置为0.0005；广告牌相对来说是属于大目标，在YOLOv3中的选择大图片输入尺寸为608×608进行训练；训练阈值设置为0.5，以确保有足够的正负样本；epoch为400等。

最后，将测试集内广告牌图像的特征输入带参数的广告牌检测模型中，获得检测结果，利用测试集来检测识别效果，验证模型性能。

如图5(a)和图5(b)所示，展示了采用本发明方法测试前后的效果对比图，左侧是未加入CBAM模块的测试效果图，右侧是本发明方法加入CBAM模块的测试效果图。对于图5(a)组来说，可以看出未添加之前是存在漏检的项目，但检测精度也很可观，添加后的模型可以缓解漏检的缺陷；对于图5(b)组来说，在一定程度上可以提高检测的精度，总的来说，本发明加入CBAM模块对检测准确性能起到了一定的提升作用。

如图6(a)和图6(b)所示，分别是本发明未增加与增加CBAM模块的实验数据分析对比图，展示了该模型的精度和各个指标，是在参数epoch为400，batchsize为16，imagesize为608×608情况下训练得到的；GIoU(Generalized Intersection over Union)表示任意两个边框的度量，此发明中的GIoU作为一种损失度量,其中GIoU和IoU计算公式如下：

其中，A、B代表任意的两个框，C代表能够包住它们的最小方框。

Objectness以具象化理解为“置信度”，Objectness对应的是布尔值类型的二分类标签，理解成对应的真实和错误的逻辑值；其他分别是，分类模型的性能评价指标、精准率、回归率、平均精度，mAP@0.5是指IoU＝0.5时测得模型的精度，F1是指P-R的调和平均，F1由精准率和回归率两个因素决定，计算公式为：

其中，Recall为召回率，Precision为精准率。

鉴于计算机硬件，本发明只验证了400个epoch就可以得到明显的提升。实验数据分析：实验采取epoch为0和epoch为399对比，如下表所示：

表1：epoch为0和epoch为399时的对比

分析表1中几个主要参数，在epoch为0时，未加入CBAM时，精准率为0.0686，加入CBAM之后,精准率为0.08061，提高了0.01201；未加入CBAM时，召回率为0.0806，加入CBAM之后,召回率为0.0877，提高了0.0071；未加入CBAM时，map@0.5为0.0377，加入CBAM之后,map@0.5为0.0436，提高了0.0059；未加入CBAM时，F1为0.0742，加入CBAM之后,F1为0.0874，提高了0.0132；在epoch为399时，未加入CBAM时，精准率为0.308，加入CBAM之后,精准率为0.313，提高了0.005；未加入CBAM时，召回率为0.299，加入CBAM之后,召回率为0.34，提高了0.041；未加入CBAM时，map@0.5为0.277，加入CBAM之后,map@0.5为0.271，下降了0.006，纵观其他参数指标，总体还是提升的；未加入CBAM时，F1为0.302，加入CBAM之后,F1为0.324，提高了0.022；由实验数据知，加入该机制是有效的。

表2：综合对比

由实验数据分析，加入CBAM模块后，精度有略微的提升，而测试的时候，也证实了这一点，如图4所示。此外，本发明只验证了Darknet53网络模型的第26层，在添加了CBAM模块达到了可观的效果。

因此，本发明方法采用Darknet53进行广告牌检测模型的构建，在此基础上再加入CBAM模块，可以更好的倾向于关注图像中辅助判断的部分信息，并忽略不相关的信息，从而实现准确的定位和分类违法广告，缓解对于大量人力的依赖，提高了对违法广告的检测。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本设计不受上述实施例的限制，上述实施案例和说明书中描述的只是说明本设计的原理，在不脱离本设计精神和范围的前提下，本设计还会有各种变化和改进，这些变化和改进都落入要求保护的本设计范围内。本设计要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于注意力机制的YOLOv3违法广告牌智能检测方法，其特征在于，包括以下步骤：

步骤4、基于Darknet53网络模型增加由通道注意力模块和空间注意力模块构成的CBAM模块，并进行训练得到广告牌检测模型；将验证集内广告牌图像的特征输入基于Darknet53网络模型训练得到的广告牌检测模型中，得到验证集内广告牌图像的中间特征映射，将中间特征映射输入CBAM模块得到空间注意力特征，并通过对广告牌检测模型验证，获取广告牌检测模型的参数；将测试集内广告牌图像的特征输入带参数的广告牌检测模型中，获得检测结果。

2.根据权利要求1所述基于注意力机制的YOLOv3违法广告牌智能检测方法，其特征在于，所述步骤1中利用目标检测标注工具对广告牌图像进行标注，将标注的广告牌图像格式化为设定尺寸，以采集得到广告牌图像。

3.根据权利要求1所述基于注意力机制的YOLOv3违法广告牌智能检测方法，其特征在于：所述步骤2中采用随机抽样法对广告牌数据集划分。

4.根据权利要求1所述基于注意力机制的YOLOv3违法广告牌智能检测方法，其特征在于，所述步骤4将验证集内广告牌图像的特征输入广告牌检测模型得到验证集内广告牌图像的中间特征映射，包括以下步骤：