CN114418898B

CN114418898B - 一种基于目标重叠度计算和自适应调整的数据增强方法

Info

Publication number: CN114418898B
Application number: CN202210274449.1A
Authority: CN
Inventors: 仇祎诚; 廖佳纯; 牛力; 沙枫; 宋文杰; 张磊; 勾鹏; 唐攀攀; 刘昊
Original assignee: Nanhu Laboratory
Current assignee: Nanhu Laboratory
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-07-26
Anticipated expiration: 2042-03-21
Also published as: CN114418898A

Abstract

本发明提供了一种基于目标重叠度计算和自适应调整的数据增强方法，包括：S1、将已标注的目标检测任务的数据集作为对象；S2、对待扩展目标进行选择：选定一个或多个目标类别作为待扩展类别，筛选出整个数据集中包含所述待扩展类别的图片的集合作为待扩展集合，从整个数据集中随机选取一定比例数量的图片组成集合作为待生成集合；S3、所述待扩展集合与所述待生成集合中的图片随机组合，通过重叠度计算与自适应调整的方法，生成新图片与新标签以进行数据增强。本发明可以提升数据集中的图片数量、目标数量、目标与背景组合的多样性，提升深度神经网络模型的训练效率和性能。

Description

一种基于目标重叠度计算和自适应调整的数据增强方法

技术领域

本发明属于图片处理数据增强技术领域，具体涉及一种基于目标重叠度计算和自适应调整的数据增强方法。

背景技术

目标检测任务的目的是对图像或视频中出现的物体进行识别、分类以及定位，该任务是通过对深度学习技术中的深度神经网络来构建的模型的训练来实现。在训练过程中，需要使用到已标记的数据集——即对图片中需要识别的目标完成类别和位置的标注后的数据集，因此数据集的图片数量、目标数量、背景数量、标注的准确度等等都会影响模型的训练效果。目标检测任务往往需要进行数据增强，数据增强又可称为数据扩展。在目标检测的模型进行训练前，对数据集进行数据增强处理是通过增加目标数量、增加背景的多样性、提升图片样本数量等一系列方法来提升用该数据集训练后的模型的检测能力的方法。数据增强方法是在不实质性的修改数据集中原有的图片以及标签的前提下，通过一些算法将数据集的图片数量、目标数量、背景数量等进行扩增，从而使有限的数据产生等价于更多数据的效果。

现有的数据增强方法主要有mosaic增强和mixup增强，其中mosaic增强主要是将四张图片进行随机裁剪，再拼接成一张新图片。该方法虽然提升了每张图片中的检测背景的多样性，但是一次需要用到4张图片，对数据集的图片数量、目标数量的需求较大，且无法有效、定向地解决目标在各个类别之间数量的不平衡性。因此该方法不适合于较稀疏或者各个类别目标数量不均衡的数据集。mixup增强主要是将一张图片与另一张图片的像素值按一定比例进行融合，生成到一张新图片。该方法虽然一次只需要用到2张图片，但是生成的图片的背景、目标可能会出现重叠过多情况，导致在图片在局部的一些特征不明确，从而影响模型的训练效果。

如申请号为CN202111224250.X，发明名称为一种用于目标检测的图像样本生成方法及应用，该发明提出了一种用于目标检测的图像样本生成方法及应用，具体包括：对前景样本和/或背景样本进行分区，得到多个图像样本拼接区域，并分别建立多个图像样本拼接区域的限定越界区；通过图像数据增强策略搜索空间对正样本及负样本进行数据增强；将增强后的正样本及负样本黏贴至前景样本、背景样本的不同的图像样本拼接区域内，根据正样本及负样本在前景样本及背景样本中的所在位置，计算目标检测框的坐标，获得增强后的前景样本、背景样本，以及增强后的前景样本、背景样本的数据标签；对含有正样本的混合样本使用残缺增强策略进行数据增强。该方法存在的问题有：

1. 将数据集样本基于有无目标框、目标框是否需要识别等条件分为前景样本、背景样本等共4类，但是实际情况下，多数公开或自制的目标检测数据集中每张图都必带有一定类别和数量的需要被识别的目标框；因此该方法现阶段的泛用性并不高，并且该方法进一步划分数据集的步骤会加剧数据集的稀疏程度；

2. 该方法在得到拼接区域时，对所有目标的检测框之间做交并比计算，以及在后续步骤中需要用到距离计算、求导计算、散度计算等，该方法需要的计算量大，步骤繁琐，耗费更多的计算资源及时间成本；

3. 该方法建立了在生成样本时的限定越界区，限定新样本的生成区域会减少生成的新样本的多样性。

发明内容

本发明的目的是针对上述问题，提供一种基于目标重叠度计算和自适应调整的数据增强方法，可以提升数据集中的图片数量、目标数量、背景多样性，且能够适用于大多数的目标检测数据集解决目标位置配置不当的问题。

为达到上述目的，本发明采用了下列技术方案：

一种基于目标重叠度计算和自适应调整的数据增强方法，包括：

S1、将已标注的目标检测任务的数据集作为对象；

S2、对待扩展目标进行选择：选定一个或多个目标类别作为待扩展类别，筛选出整个数据集中包含所述待扩展类别的图片的集合作为待扩展集合，从整个数据集中随机选取一定比例数量的图片组成集合作为待生成集合；

S3、将所述待扩展集合与所述待生成集合中的图片随机组合，通过用于衡量目标内容位置重合程度的重叠度计算与自适应调整的方法，生成新图片与新标签以进行数据增强。本发明对待扩展目标进行选择可以提升数据集中的图片数量、目标数量和背景多样性，提升较稀疏的目标的数量，能够增加待扩展目标的可选择性，即可以定向的提升某个或者多个类别的目标数量，同时通过重叠度计算和自适应尺寸调整的方法可以解决在实现过程中出现的目标位置配置不当的问题。

进一步的，目标检测任务的数据集包括原图片和标签文件，所述标签文件记录有所述原图片中各个待检测目标的类别名称和位置框的坐标值信息。本发明目标检测任务的数据集利用图片的标签文件中目标对应的类别名称，可以选择要增加目标数量的类别。

进一步的，通过各个所述待检测目标对应的位置框的坐标值信息，从图像样本中获取待检测目标的像素内容，对待检测目标的位置框进行修改，并直接生成修改后的位置框的坐标值信息。本发明通过待检测目标对应的位置框坐标从图像样本中获取该目标的像素内容，从而可以对这些目标的位置、尺寸进行修改，这些修改不会改变位置框中的目标本身的像素特征，并且能够直接生成转换后的位置框信息，用于生成新标签。

进一步的，步骤S3包括：

S301、随机选取所述待扩展集合中的一张待扩展图片，读取所述待扩展图片中的一个或多个类别属于所述待扩展目标的类别名称和位置框的坐标值信息；

S302、根据所述待扩展目标的标签文件，通过基于重叠度计算的自适应尺寸调整改变待扩展类别的像素区域范围，将所述待扩展类别的像素区域范围作为待复制的像素区域；

S303、随机选取待生成集合中的一张待生成图片，并选取所述待生成图片中的随机位置作为待粘贴的区域，通过基于重叠度计算的自适应尺寸调整来调整待粘贴的区域的范围；

S304、将所述待扩展图片中得到的包含待扩展目标的像素区域粘贴进所述待粘贴的区域并替代所述待粘贴的区域的像素内容，生成一张新图片，并同时得到新标签。

进一步的，新图片基于所述待生成图片上的内容且增加了一个或者多个待扩展目标；所述新图片的标签内容为新标签，所述新标签包括待生成图片中的原有标签和所述待扩展目标的类别名称、位置框的坐标值信息。

进一步的，待复制的像素区域的范围包括待扩展目标的全部内容，并且对所述待扩展目标的内容进行扩大。

进一步的，重叠度计算包括目标检测任务的数据集中图片上的一个区域与同一图片中其他目标的位置框中的内容在像素级别的位置重合程度。本发明重叠度可以代表图片中某个区域对其他目标在像素级别的内容上的影响。

进一步的，重叠度计算的公式为：

其中，

表示计算重叠度，

表示待复制的像素区域，

表示待复制的像素区域的位置框，

表示图片中其他目标的集合，

表示计算面积，

表示其他目标的位置框，

表示一个可调整的系数且

。

进一步的，自适应调整的数据增强方法中包括放缩系数，所述放缩系数的自适应调整公式为：

其中，

表示目标位置框的尺寸的各个放缩系数包括

、

、

、

，

表示

在

轮各个放缩系数的状态，

表示在

轮迭代更新后各个放缩系数的状态并且用于下一个周期

轮的迭代，

和

为初始设定的系数，

表示基于本轮迭代的放缩系数

生成的目标位置框与图片中其他目标的集合的重叠度。

进一步的，步骤S3中设定有阈值，待扩展目标的自适应放缩的区域与其他目标的重叠度超过所述阈值时，通过迭代来自适应调整所述区域的尺寸使所述区域的重叠度逐步降低至低于所述阈值。

与现有的技术相比，本发明的优点在于：

1.本发明一种基于目标重叠度计算和自适应调整的数据增强方法通过提取数据集中原图像的一部分像素内容，复制粘贴到新图像中，生成新的内容，且不需要从数据集外部收集新图片，即可提升数据集中的图片数量、目标数量、背景多样性等；还提升了待扩展目标的可选择性，即可以定向的提升某个或者多个类别的目标数量，同时对于本发明一种基于目标重叠度计算和自适应调整的数据增强方法在实现过程中出现的目标位置配置不当问题，提出了重叠度计算和自适应尺寸调整的解决方法；

2. 本发明可用于对目标检测中训练数据集的数据增强，可以提升样本数据的样本数量、均衡度、复杂度，还可以提升较稀疏的目标的数量，提升整个数据集中样本的均衡度；

3.本发明可以增加目标与不同背景的组合的可能性，能够提升数据集中内容的多样性。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1是本发明的流程图；

图2是本发明实施例的具体流程图；

图3是本发明的效果图。

具体实施方式

为了使本技术领域的人员更好的理解本实施例方案，下面将结合附图，对本实施例中的技术方案进行清楚、完整的描述。

如图1和图2所示，本实施例一种基于目标重叠度计算和自适应调整的数据增强方法，包括：

S1、将已标注的目标检测任务的数据集作为对象；

S2、对待扩展目标进行选择：选定一个或多个目标类别作为待扩展类别，待扩展类别的目标在整个数据集中倾向于数量较为稀疏，本实施例的方法可以对该类别的目标进行数据扩展；根据数据集的标签文件的类别信息，筛选出整个数据集中所有包含待扩展类别的图片的集合作为待扩展集合；从整个数据集中随机选取一定比例数量的图片组成集合作为待生成集合；

S3、将所述待扩展集合与所述待生成集合中的图片随机组合，通过用于衡量目标内容位置重合程度的重叠度计算与自适应调整的方法，生成新图片与新标签以进行数据增强。本实施例对待扩展目标进行选择可以提升数据集中的图片数量、目标数量和背景多样性，提升较稀疏的目标的数量，将目标检测任务的数据集作为对象增加了待扩展目标的可选择性，即可以定向的提升某个或者多个类别的目标数量，同时可以通过重叠度计算和自适应尺寸调整的方法解决在实现过程中出现的目标位置配置不当的问题。

本实施例目标检测任务的数据集包括原图片和标签文件，所述标签文件记录所述原图片中各个待检测目标的类别名称和位置框的坐标值信息。本实施例目标检测任务的数据集利用图片的标签文件中目标对应的类别名称，可以选择要增加目标数量的类别。

本实施例通过各个所述待检测目标对应的位置框的坐标值信息，从图像样本中获取待检测目标的像素内容，对待检测目标的位置框进行修改，并直接生成修改后的位置框的坐标值信息。本实施例通过待检测目标对应的位置框坐标从图像样本中获取该目标的像素内容，从而可以对这些目标的位置、尺寸进行修改，这些修改不会改变位置框中的目标本身的像素特征，并且能够直接生成转换后的位置框信息，用于生成新标签。

本实施例步骤S3包括：

S302、根据所述待扩展目标的标签文件，通过基于重叠度计算的自适应尺寸调整的方法改变待扩展类别的像素区域范围，将所述待扩展类别的像素区域范围作为待复制的像素区域；

S303、随机选取待生成集合中的一张待生成图片，并选取所述待生成图片中的随机位置作为待粘贴的区域，通过基于重叠度计算的自适应尺寸调整的方法来调整待粘贴的区域的范围；

本实施例的重叠度用于衡量在已完成标签标注的目标检测数据集中，表示某张图片中的某个区域与该图片中其他目标的位置框中的内容在像素级别的位置重合程度。重叠度代表图片中某个区域的对其他目标的在像素级别的内容上的影响，重叠度的计算公式是以交并比（IoU）为基础。本实施例设定了阈值，当图片中某个区域与其他目标的重叠度超过该阈值时，表示重叠度过大从而可能对其他目标在像素级别的内容造成影响，可能会导致目标检测的模型的网络在训练过程中无法准确识别目标的特征，从而降低训练效果；所述图片中的某个区域代表了待扩展目标的自适应放缩的区域。

本实施例放缩尺寸自适应调整用于实现在某个区域的重叠度大于阈值情况下，通过迭代的方法来调整该区域的尺寸，使该区域的重叠度逐步降低，最终使重叠度低于阈值。为了提高迭代效率，每个迭代周期的尺寸调整幅度与当前的重叠度的相关。

本实施例可用于但不限于对目标检测中，训练数据集的数据增强，本实施例数据扩展的流程为：

A.整个训练数据集的所有图片定义为

，用

表示一张或多张图片中所包含的已标注出来的所有类别，且设定一个或者多个目标的类别作为待扩展类别

；

B.根据整个训练数据集的所有图片

的标签文件的类别信息，筛选出整个训练数据集的所有图片

中所有包含待扩展类别

的图片的集合，称为待扩展集合

；再从整个训练数据集的所有图片

中按一定比例随机选取一定数量的图片组成集合，称为待生成集合

；

C.随机选取待扩展集合

中的一张待扩展图片

，读取

中的一个或多个类别属于待扩展类别

的目标

的类别名称和位置框信息，根据

的标签信息，通过基于重叠度计算的自适应尺寸调整的方法来改变待扩展类别的像素区域范围，这些改变将生成一个待复制的像素区域

；本实施例

的范围应该是包括了目标

的全部内容，并在此基础上有所扩大，但是尽量避免包含

中除目标

以外的其他目标；

D.随机选取待生成集合

中的一张待生成图片

，选取

中的随机坐标作为待粘贴的区域，该区域的像素内容将由从

中得到的包含目标

的

粘贴并替代；通过基于重叠度计算的自适应尺寸调整，使粘贴后的

的像素内容的领域范围应尽量避免超出

的尺寸范围以外，并且

的领域范围也应该尽量避免影响

中原有的其他目标；

E．通过上述步骤生成一张基于

的内容上增加一个或者多个新目标

的新图片

，

的标签内容即为在

中的原有标签基础上增加了包含目标

的类别名称和位置坐标信息后，组成了新标签，至此一次数据扩展完成。

本实施例的流程图如图2所示，本实施例目标的位置框坐标的形式为

，其中

表示位置框的中点在图片中的横轴的坐标，

表示位置框的中点在图片中的纵轴的中点坐标，

表示位置框的宽度，

表示位置框的高度；

表示基于目标

的宽度

进行放缩后得到的

的宽度；

表示基于目标

的高度

进行放缩后得到的

的高度。

表示计算

与其他位置框的重叠度，

表示设定一个重叠度的阈值，当重叠度高于

的

视为与

中的其他目标的位置框的重叠部分过多，对

、

进行迭代自适应调整。

当

与

中的其他目标重叠度不大于

的情况，

将准备复制粘贴到

的随机位置中。

表示基于随机数产生的位置的横、纵轴的坐标，

表示

的

、

的放缩系数。为了避免影响

中原有的其他目标，

也会与

中其他各个目标的位置框计算重叠度，当重叠度大于

的情况进行迭代自适应调整

，调整得到的

尺寸为

。

当

与

中其他目标的位置框的重叠度不大于

的情况，

将正式复制粘贴到

中，并覆盖

中

的位置框范围所对应的原内容。最后生成

以及新标签

，其中

表示目标

的类别名称。

本实施例

与其他目标位置框重叠度的计算公式为：

上式中，

表示

的位置框，

表示图片中其他目标的集合，

表示对括号内的目标面积的计算，

表示某个其他目标的位置框，

表示一个可调整的系数。通过上式，可以计算

与图片中其他目标的位置框的重叠度。

本实施例放缩系数的自适应调整公式：

上式中，

表示目标位置框的尺寸的各个放缩系数包括

、

、

、

，

表示

在第

轮各个放缩系数的状态，

表示在

轮迭代更新后各个放缩系数的状态并且其将用于下一个周期

轮的迭代，

和

为初始设定的系数，

表示基于本轮迭代的放缩系数

生成的目标位置框与图片中其他目标的集合的重叠度。

图3为基于本发明的方法的实现效果图。如图3所示，数据集的内容为基于“是否穿了反光衣”的目标检测数据集。

表示待扩展集合的一张图片，

表示待生成集合中的一张图片，实线框表示目标位置框的标签可视化，字符表示目标的类别名（0代表反光衣，1代表其他衣服）。数据增强的待扩展目标为其他衣服，虚线框表示生成的

的范围的可视化，

表示经数据增强后新生成的图片，

中的框表示新生成的标签可视化，

中的字符表示新目标的类别名。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于目标重叠度计算和自适应调整的数据增强方法，其特征在于，包括：

S1、将已标注的目标检测任务的数据集作为对象；

S3、将所述待扩展集合与所述待生成集合中的图片随机组合，通过用于衡量目标内容位置重合程度的重叠度计算与自适应调整的方法，生成新图片与新标签以进行数据增强；

所述步骤S3包括：

S302、根据待扩展目标的标签文件，通过基于重叠度计算的自适应尺寸调整改变待扩展类别的像素区域范围，将所述待扩展类别的像素区域范围作为待复制的像素区域；

S304、将所述待扩展图片中得到的包含待扩展目标的像素区域粘贴进所述待粘贴的区域并替代所述待粘贴的区域内的像素内容，生成一张新图片，并同时得到新标签；

所述重叠度计算包括目标检测任务的数据集中图片上的一个区域与同一图片中其他目标的位置框中的内容在像素级别的位置重合程度；

自适应调整的数据增强方法中包括放缩系数，所述放缩系数的自适应调整公式为：

其中，

表示目标位置框的尺寸的各个放缩系数包括

、

、

、

，

表示

在

轮各个放缩系数的状态，

表示在

轮迭代更新后各个放缩系数的状态并且用于下一个周期

轮的迭代，

和

为初始设定的系数，

表示基于本轮迭代的放缩系数

生成的目标位置框与图片中其他目标的集合的重叠度；

所述步骤S3中设定有阈值，待扩展目标的自适应放缩的区域与其他目标的重叠度超过所述阈值时，通过迭代来调整所述区域的尺寸使所述区域的重叠度逐步降低至低于所述阈值。

2.根据权利要求1所述的一种基于目标重叠度计算和自适应调整的数据增强方法，其特征在于，所述目标检测任务的数据集包括原图片和标签文件，所述标签文件记录有所述原图片中各个待检测目标的类别名称和位置框的坐标值信息。

3.根据权利要求2所述的一种基于目标重叠度计算和自适应调整的数据增强方法，其特征在于，通过各个所述待检测目标对应的位置框的坐标值信息，从图像样本中获取待检测目标的像素内容，对待检测目标的位置框进行修改，并直接生成修改后的位置框的坐标值信息。

4.根据权利要求1所述的一种基于目标重叠度计算和自适应调整的数据增强方法，其特征在于，所述新图片基于所述待生成图片上的内容且增加了一个或者多个待扩展目标；所述新图片的标签内容为新标签，所述新标签包括待生成图片中的原有标签和所述待扩展目标的类别名称、位置框的坐标值信息。

5.根据权利要求1所述的一种基于目标重叠度计算和自适应调整的数据增强方法，其特征在于，所述待复制的像素区域的范围包括待扩展目标的全部内容，并且对所述待扩展目标的内容进行扩大。

6.根据权利要求1所述的一种基于目标重叠度计算和自适应调整的数据增强方法，其特征在于，所述重叠度计算的公式为：

其中，

表示计算重叠度，

表示待复制的像素区域，

表示待复制的像素区域的位置框，

表示图片中其他目标的集合，

表示计算面积，

表示其他目标的位置框，

表示一个可调整的系数且

。