CN112215190A

CN112215190A - 基于yolov4模型的违章建筑检测方法

Info

Publication number: CN112215190A
Application number: CN202011133561.0A
Authority: CN
Inventors: 王也; 周龙; 汤淼; 葛家明
Original assignee: Nanjing Smart Aviation Research Institute Co ltd
Current assignee: Nanjing Smart Aviation Research Institute Co ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-01-12

Abstract

本发明属于图像识别目标检测技术领域，具体涉及一种基于YOLOV4模型的违章建筑检测方法，其包括：根据预选区域的视频获取违章建筑的图片；对图片进行标注，并根据标注后的图片获取先验框；将由图片构成的数据集划分为训练集和测试集；对训练集进行预处理；根据预处理后的训练集对YOLOV4模型进行训练；根据测试集对训练后的YOLOV4模型进行调整；以及将视频输入调整后的YOLOV4模型以检测视频内的违章建筑，实现了快速精准的对违章建筑的识别。

Description

基于YOLOV4模型的违章建筑检测方法

技术领域

本发明属于图像识别目标检测技术领域，具体涉及一种基于YOLOV4模型的违章建筑检测方法。

背景技术

随着城市化不断发展，房产价值也随之水涨船高，非法占用土地新增违章建筑或者改变原有建筑设计加盖违章建筑的事件层出不穷，由于建筑楼顶违章建筑的隐蔽性，往往很难发现，这些违章建筑一直都是拆违工作中的难点，但由于人力资源以及信息途径有限，导致很多违章建筑不能得到快速的发现并拆除。

目前随着深度学习在目标检测领域的优异的表现以及无人机的普及，为解决建筑楼顶违章建筑的发现和拆穿提供了非常有力的解决方案。但是目前的算法大多都是基于现有的数据集进行优化，如ImageNet、COCO、VOC等，在实际的应用中，对特定场景下的特定目标物的识别还没有形成标准化的方法，如低空无人机拍摄视频中的违章建筑的识别。由于无人机的飞行高度较高，每张图像的像素尺寸较大，这为无人机违章建筑的识别带来了一些困难，并且无人机拍摄的违章建筑的样本比较难以获得。

在违章建筑识别中，主要有两种方法，一种是基于图像对比的方法，一种是基于图像识别的方法，具体如下：

基于图像识别的方法主要依赖与深度学习模型的优异表现，通过标注好的数据集训练出一个模型，输入新的航拍数据，就能得到违章建筑的信息。

基于图像对比的方法识别出不同之后，可能需要人为的判断，目前的一些图像识别的方法效率过低不适合视频的识别。因此急需一种高效可行的方案对低空无人机拍摄的视频进行目标物的检测。

因此，基于上述技术问题需要设计一种新的基于YOLOV4模型的违章建筑检测方法。

发明内容

本发明的目的是提供一种基于YOLOV4模型的违章建筑检测方法。

为了解决上述技术问题，本发明提供了一种违章建筑检测方法，包括：

根据预选区域的视频获取违章建筑的图片；

对图片进行标注，并根据标注后的图片获取先验框；

将由图片构成的数据集划分为训练集和测试集；

对训练集进行预处理；

根据预处理后的训练集对YOLOV4模型进行训练；

根据测试集对训练后的YOLOV4模型进行调整；以及

将视频输入调整后的YOLOV4模型以检测视频内的违章建筑。

进一步，所述根据预选区域的视频获取违章建筑的图片的方法包括：

拍摄预选区域的视频，选取视频中带有违章建筑的视频片段，以获得带有违章建筑的图片，并且将图片的分辨率调整至预设分辨率。

进一步，所述对图片进行标注，并根据标注后的图片获取先验框的方法包括：

对分辨率调整后的图片中违章建筑的位置进行标注，获取目标框，获取标记数据中目标框的长和宽以及位置；

以标注的物体类别以及目标框的长和宽，以及位置作为该图片的标签，并对目标框的长和宽进行归一化：

其中，w_r是归一化之后目标框的宽；h_r是归一化之后目标框的高；w为目标框的宽；h为目标框的高；W为图片的宽；H为图片的高；

初始化先验框的类别数量和聚类中心，并计算每个目标框与所有聚类中心的距离IOU：

in＝min(h₁,h₂)min(w₁,w₂)；

un＝h₁w₁+h₂w₂；

其中，in为两个目标框的交集；un为两个目标框的并集；h₁为一个目标框的高；w₁为一个目标框的宽；h₂为另一个目标框的高；w₂为另一个目标框的宽；

选取最近的聚类中心为该目标框的类别；

根据每个簇的均值作为下次迭代的聚类中心，直到每个类别的中心位置在相邻两次迭代的误差在ε内，则最后的聚类中心为先验框。

进一步，所述将由图片构成的数据集划分为训练集和测试集的方法包括：

将由分辨率调整后的图片构成的数据集按预设比例划分为训练集和测试集。

进一步，所述对训练集进行预处理的方法包括：

对训练集进行数据增强，即

每次选取训练集中预设张数的图片，对图片进行翻转、缩放、色域变化处理，并将各图片按预设位置摆放，以进行图片的组合和框的组合；

将图片的类别编号编码为one-hot编码，并对标签进行处理。

进一步，所述根据预处理后的训练集对YOLOV4模型进行训练的方法包括：

获取YOLOV4模型在COCO数据集上预训练的参数，并根据该参数对YOLOV4网络进行初始化；

输入训练集中的数据以及先验框，进行YOLOV4网络正向传播，根据YOLOV4模型的损失函数计算出预测结果与真实标签之间的损失值，即

获取YOLOV4模型的回归优化损失值CIOU：

其中，ρ²(b,b^gt)为预测框与真实框的中心点的欧式距离；c为同时包含预测框和真实框的最小闭包区域的对角线距离；w^p为预测框的宽；h^p为预测框的高；w^gt为真实框的宽；h^gt为真实框的高；

损失值Loss_CIOU为：

Loss_CIOU＝1-CIOU；

根据损失值对YOLOV4网络的权重以及偏置进行调整，完成YOLOV4网络的一次迭代，循环直到达到早停条件或者最大迭代次数，以完成YOLOV4模型的训练。

进一步，所述根据测试集对训练后的YOLOV4模型进行调整的方法包括：

将测试集中的数据输入训练后的YOLOV4模型，以获取检验结果，根据检验结果对训练后的YOLOV4模型进行调整。

进一步，所述将视频输入调整后的YOLOV4模型以检测视频内的违章建筑的方法包括：

将视频输入调整后的YOLOV4模型，对每帧的图片进行预测分析，检测图片内的违章建筑，并在图片上标注。

本发明的有益效果是，本发明通过根据预选区域的视频获取违章建筑的图片；对图片进行标注，并根据标注后的图片获取先验框；将由图片构成的数据集划分为训练集和测试集；对训练集进行预处理；根据预处理后的训练集对YOLOV4模型进行训练；根据测试集对训练后的YOLOV4模型进行调整；以及将视频输入调整后的YOLOV4模型以检测视频内的违章建筑，实现了快速精准的对违章建筑的识别。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所涉及的基于YOLOV4模型的违章建筑检测方法的流程图；

图2是本发明所涉及的数据增强的结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明所涉及的基于YOLOV4模型的违章建筑检测方法的流程图。

如图1所示，本实施例提供了一种违章建筑检测方法，包括：根据预选区域的视频获取违章建筑的图片；对图片进行标注，并根据标注后的图片获取先验框；将由图片构成的数据集划分为训练集和测试集；对训练集进行预处理；根据预处理后的训练集对YOLOV4模型进行训练；根据测试集对训练后的YOLOV4模型进行调整；以及将视频输入调整后的YOLOV4模型以检测视频内的违章建筑，实现了快速精准的对违章建筑的识别。

在本实施例中，所述根据预选区域的视频获取违章建筑的图片的方法包括：使用无人机对选定区域(预选区域)进行拍摄，拍摄预选区域的视频，选取视频中带有违章建筑的视频片段进行处理，以获得带有违章建筑的图片，并且将图片的分辨率调整至预设分辨率；考虑到无人机拍摄的高清图像(图片)像素太大，会影响后续的处理，把图片的分辨率降低到预设分辨率(例如，1024*1024)。

在本实施例中，所述对图片进行标注，并根据标注后的图片获取先验框的方法包括：使用Labelimg对分辨率调整后的图片中违章建筑的位置进行标注，获取目标框，获取标记数据中目标框的长和宽以及位置；以标注的物体类别以及目标框的长和宽，以及位置作为该图片的标签，并对目标框的长和宽进行归一化：(考虑到不同尺度的场景，标注框的大小不一样，所以根据图片的高和宽对目标框进行归一化处理，根据下列公式进行归一化)：

in＝min(h₁,h₂)min(w₁,w₂)；

un＝h₁w₁+h₂w₂；

选取最近的聚类中心为该目标框的类别；

根据每个簇的均值作为下次迭代的聚类中心；

重复进行计算每个目标框与所有聚类中心的距离IOU和根据每个簇的均值作为下次迭代的聚类中心，直到每个类别的中心位置在相邻两次迭代的误差在ε内，则最后的聚类中心为先验框，通过K-Means聚类得到9个先验框。

在本实施例中，所述将由图片构成的数据集划分为训练集和测试集的方法包括：将由分辨率调整后的图片构成的数据集按预设比例划分为训练集和测试集，根据原始数据中标签中的物体类别按照8：2的比例进行测试集和训练集的划分。

图2是本发明所涉及的数据增强的结果示意图。

在本实施例中，所述对训练集进行预处理的方法包括：对训练集进行Mosaic数据增强，即每次选取训练集中预设张数的图片，对图片进行翻转、缩放、色域变化处理，并将各图片按预设位置摆放，以进行图片的组合和框的组合，例如首先每次读取四张图片，其次分别对四张图片进行翻转，缩放，色域变化等，并且按照四个方向位置摆好，最后进行照片的组合和框的组合(如图2所示)；将图片的类别编号编码为one-hot编码，并通过Label-smooth的方法对标签进行平滑处理，从而提高YOLOV4模型的泛化能力。

在本实施例中，所述根据预处理后的训练集对YOLOV4模型进行训练的方法包括：

获取YOLOV4模型在COCO数据集上预训练的参数(例如，从相关网站下载)，并根据该参数对YOLOV4网络进行初始化；

获取YOLOV4模型的回归优化损失值CIOU：

其中，ρ²(b,b^gt)为预测框(YOLOV4模型的预测输出)与真实框(真实的目标框)的中心点的欧式距离；c为同时包含预测框和真实框的最小闭包区域的对角线距离；w^p为预测框的宽；h^p为预测框的高；w^gt为真实框的宽；h^gt为真实框的高；

损失值Loss_CIOU为：

Loss_CIOU＝1-CIOU；

根据损失值使用反向传播算法对YOLOV4网络的权重以及偏置进行调整，完成YOLOV4网络的一次迭代，循环直到达到早停条件或者最大迭代次数，以完成YOLOV4模型的训练。

在本实施例中，所述根据测试集对训练后的YOLOV4模型进行调整的方法包括：将测试集中的数据输入训练后的YOLOV4模型(训练后的YOLOV4模型为混合模型)，以获取检验结果，根据检验结果对训练后的YOLOV4模型进行调整。

在本实施例中，所述将视频输入调整后的YOLOV4模型以检测视频内的违章建筑的方法包括：将视频输入调整后的YOLOV4模型，对每帧的图片进行预测分析，检测图片内的违章建筑，并在图片上标注，然后形成视频展示。

在本实施例中，通过无人机航拍获取了一套针对性的训练数据，通过数据处理技术能够提高模型(YOLOV4模型)识别的精度，使用目前最新的目标识别模型YOLOV4在速度以及精度上都有很好的表现。

综上所述，本发明通过根据预选区域的视频获取违章建筑的图片；对图片进行标注，并根据标注后的图片获取先验框；将由图片构成的数据集划分为训练集和测试集；对训练集进行预处理；根据预处理后的训练集对YOLOV4模型进行训练；根据测试集对训练后的YOLOV4模型进行调整；以及将视频输入调整后的YOLOV4模型以检测视频内的违章建筑，实现了快速精准的对违章建筑的识别。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。