CN113610838A

CN113610838A - 一种螺栓缺陷数据集扩充方法

Info

Publication number: CN113610838A
Application number: CN202110982508.6A
Authority: CN
Inventors: 赵文清; 徐敏夫; 王继发
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-11-05

Abstract

本发明提供了一种螺栓缺陷数据集扩充方法，所述扩充方法包括：将数据集中的缺陷螺栓目标裁剪出来并保存；随机选择裁剪得到的缺陷螺栓图像，并调整图像的尺寸；确定图像粘贴的中心位置；计算原始标注框与新标注框的交并比IoU，将裁剪得到的缺陷螺栓图像采用像素填充的方式粘贴到巡检图片中。第一，充分利用已有的螺栓缺陷图片数据，合成了新的数据，增加了训练图片数量，有利于网络模型充分训练，提高其泛化能力；第二，经过数据扩充后，巡检图片中包含有更多的缺陷螺栓目标，不仅增加了缺陷螺栓在图片中的占比，还增加了缺陷螺栓的数量，从而增加了缺陷螺栓目标在计算网络的回归和分类损失时的贡献。

Description

一种螺栓缺陷数据集扩充方法

技术领域

本发明涉及数据扩充技术领域，具体涉及一种螺栓缺陷数据集扩充方法。

背景技术

深度学习在计算机视觉领域中的图像分类、目标检测和图像分割等任务上展现出强大的性能，促进了许多研究领域的快速发展。作为深度学习的驱动力，数据对网络模型的训练至关重要。在相同的网络结构和先验知识的基础上，用更多的新数据去训练网络，能够取得更好的效果，提高模型的性能。但是在某些研究领域获取到充足的训练数据比较困难，数据量不足容易导致网络模型的过拟合问题，从而导致模型泛化能力差、测试效果不好等问题，无法应用在相关研究领域。通过对已有的数据进行相关变换处理能够生成新数据，数据扩充成为了一种常用的增加训练样本、提高网络模型泛化能力的重要方法。

数据扩充是一种在有限的已有数据基础上，增加样本数据的数量和多样性的方法，目的就是为了充分利用已有数据，从中提取出更多有利于网络模型训练的信息。对于计算机视觉任务中的图像数据，数据扩充可以分为两类，一种是数据变形，另一种是数据的过采样。基本的图像变换操作都属于数据变形类的扩充方法，而采用多幅图像进行信息混合以及随机删除图像中的局部信息等操作属于数据的过采样方法。

随着深度学习与目标检测算法被应用到输电线路的巡检中去，其在绝缘子、输电线以及均压环等大目标部件的识别和检测中，取得了较好的效果。但是，对于输电线路中的螺栓部件检测效果仍然很差，影响其检测效果的因素主要有两点：一是包含螺栓缺陷的图像数据量不足，目前没有公开标准的螺栓缺陷检测数据集，导致螺栓缺陷检测网络训练不充分，网络模型泛化能力差，检测效果差；二是螺栓目标尺寸过小，在整张图片中占比很小，属于小目标，而且整张巡检图片中包含的缺陷螺栓目标数量也较少，对于计算网络的回归和分类损失贡献较小，不利于网络的训练，导致缺陷螺栓的识别和检测效果差。

因此，本发明针对无人机输电线路巡检收集的包含螺栓缺陷目标的图片数据集，提出了一种螺栓缺陷数据集扩充方法。

现有的图像数据扩充方法有很多，主要有以下三类方法：

一是常规的图像数据增强处理，包括调整图片尺度、裁剪、翻转和旋转一定角度、调整图片亮度和对比度以及添加不同类型的噪声等操作。

二是多幅图像数据混合，常用的有Mixup和Moasic两种方法，其中Mixup方法是将缺陷图片与正常图片随机进行融合，Moasic方法是随机合成几张图片为一张图片。

三是通过生成对抗网络GAN进行图像数据过采样，通过训练GAN网络，学习数据分布，在数据分布中进行过采样生成新的图像数据。

上述方法针对通用数据集的数据扩充能够取得较好的效果，实际应用到螺栓缺陷数据集的扩充中，能够增加螺栓缺陷数据集中图片的数量，但是并未完全解决螺栓缺陷目标在巡检图片中占比过小且数量较少的问题。

发明内容

本发明的目的是提供一种螺栓缺陷数据集扩充方法。

为实现上述目的，本发明提供了如下方案：一种螺栓缺陷数据集扩充方法，所述扩充方法包括：

将数据集中的缺陷螺栓目标裁剪出来并保存；

随机选择裁剪得到的缺陷螺栓图像，并调整图像的尺寸；

确定图像粘贴的中心位置；

计算原始标注框与新标注框的交并比IoU；

IoU的计算公式表示为：

式中，原始标注框为原始巡检图片中原始的标注框，新标注框为在中心位置粘贴图像时的标注框，IoU＝0时进行粘贴；

将裁剪得到的缺陷螺栓图像采用像素填充的方式粘贴到巡检图片中。

可选的，所述确定图像粘贴的中心位置具体包括：

随机采样得到粘贴图像时的中心位置，随机采用的公式表示为：

式中，(x,y)表示随机采样得到的中心位置坐标，crop_w和crop_h表示裁剪图像的宽和高，w和h表示巡检图片的宽和高。

可选的，所述将裁剪得到的缺陷螺栓图像采用像素填充的方式粘贴到巡检图片中具体包括：

像素填充粘贴的公式表示为：

式中，x_A对应原始巡检图片，x_B对应调整尺寸后的裁剪图像，

是粘贴后的新图片；M是一个与原始巡检图片维度相同的由0和1组成的矩阵，标记需要粘贴的区域和保留的区域，需要粘贴的区域值均为0，其余位置为1；⊙代表逐像素相乘操作；1是一个与裁剪图像维度相同的元素都为1的矩阵。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种螺栓缺陷数据集扩充方法，第一，充分利用已有的螺栓缺陷图片数据，合成了新的数据，增加了训练图片数量，有利于网络模型充分训练，提高其泛化能力；第二，经过数据扩充后，巡检图片中包含有更多的缺陷螺栓目标，不仅增加了缺陷螺栓在图片中的占比，还增加了缺陷螺栓的数量，从而增加了缺陷螺栓目标在计算网络的回归和分类损失时的贡献。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种螺栓缺陷数据集扩充方法的流程图；

图2为本发明实施例1提供的螺栓缺陷检测数据集中的巡检图片；

图3为本发明实施例1随机选择裁剪得到的螺栓缺陷图像一；

图4为本发明实施例1随机选择裁剪得到的螺栓缺陷图像二；

图5为本发明实施例1随机选择裁剪得到的螺栓缺陷图像三；

图6为本发明实施例1随机选择裁剪得到的螺栓缺陷图像四；

图7为本发明实施例1随机选择裁剪得到的螺栓缺陷图像五；

图8为本发明实施例1提供的随机采样中心位置的示意图；

图9为本发明实施例1提供的处理后的巡检图片示意图；

图10为本发明实施例2提供的处理前的巡检图片示意图；

图11为本发明实施例2提供的处理后的巡检图片示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种螺栓缺陷数据集扩充方法。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

如图1所示，一种螺栓缺陷数据集扩充方法，所述扩充方法包括：

将数据集中的缺陷螺栓目标裁剪出来并保存；

随机选择裁剪得到的缺陷螺栓图像，并调整图像的尺寸；

确定图像粘贴的中心位置；

计算原始标注框与新标注框的交并比IoU；

IoU的计算公式表示为：

将裁剪得到的缺陷螺栓图像采用像素填充的方式粘贴到巡检图片中；

像素填充粘贴的公式表示为：

如图2所示，是一张螺栓缺陷检测数据集中的巡检图片，其中包含两个销钉缺失类缺陷螺栓(visible-pin-losing)和一个正常螺栓(normalbolt)。

(1)随机选择裁剪得到的螺栓缺陷图像并调整到合适尺寸，如图3、4、5、6、7所示。

(2)随机采样中心位置，在图8框内中的像素点进行随机采样。

(3)计算裁剪图像3、4、5、6、7在采样中心粘贴时与图中三个原始标注框和图片边界的IoU。

(4)将裁剪图像3、4、5、6、7粘贴到背景图片中去。

处理后的巡检图片如下图所示：(注:图中的3、4、5、6、7对应(1)中的裁剪图像。

与原始的巡检图片2相比，经随机粘贴处理后的巡检图片9，其中包含的销钉缺失类缺陷螺栓由2个增加为7个，而且没有与图片中原始的标注框和图片边界发生重叠。

案例二

如图10所示，处理前的巡检图片中包含一个销钉缺失类缺陷螺栓和两个正常螺栓。如图11所示，随机粘贴处理后，图片中包含六个销钉缺失类缺陷螺栓和两个正常螺栓，销钉缺失类缺陷螺栓的数量明显增加。

通过上述方法对螺栓缺陷数据集进行数据扩充，不仅增加了数据集中的图片数量，而且得到的新图片中螺栓缺陷目标增多，使网络模型的训练效果更好，泛化能力更强，有助于提高螺栓缺陷的检测准确率。

螺栓缺陷数据集的扩充方法，以一种随机的先裁剪后粘贴的方式进行螺栓缺陷图片数据的扩充。中心位置的选取方法，通过随机采样的方法来确定进行图像粘贴时的中心位置。螺栓裁剪图像的粘贴方法，先计算原始标注框与新标注框的IoU值，如果IoU＝0，将裁剪图像通过像素填充的方式粘贴到巡检图片中。

有益效果：

根据本发明所提的算法可知：第一，充分利用已有的螺栓缺陷图片数据，合成了新的数据，增加了训练图片数量，有利于网络模型充分训练，提高其泛化能力；第二，经过数据扩充后，巡检图片中包含有更多的缺陷螺栓目标，不仅增加了缺陷螺栓在图片中的占比，还增加了缺陷螺栓的数量，从而增加了缺陷螺栓目标在计算网络的回归和分类损失时的贡献。这些优点决定了该方法针对螺栓缺陷数据集的扩充具有较好的适应性和实用性，丰富了螺栓图像数据扩充的方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种螺栓缺陷数据集扩充方法，其特征在于，所述扩充方法包括：

将数据集中的缺陷螺栓目标裁剪出来并保存；

随机选择裁剪得到的缺陷螺栓图像，并调整图像的尺寸；

确定图像粘贴的中心位置；

计算原始标注框与新标注框的交并比IoU；

IoU的计算公式表示为：

2.根据权利要求1所述的一种螺栓缺陷数据集扩充方法，其特征在于，所述确定图像粘贴的中心位置具体包括：

3.根据权利要求1所述的一种螺栓缺陷数据集扩充方法，其特征在于，所述将裁剪得到的缺陷螺栓图像采用像素填充的方式粘贴到巡检图片中具体包括：

像素填充粘贴的公式表示为：