CN111242839B

CN111242839B - 一种基于尺度等级的图像缩放裁剪方法

Info

Publication number: CN111242839B
Application number: CN202010032589.9A
Authority: CN
Inventors: 周靖凯; 刘琼
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2023-04-21
Anticipated expiration: 2040-01-13
Also published as: CN111242839A

Abstract

本发明公开了一种基于尺度等级的图像缩放裁剪方法。所述方法包括以下步骤：获取包括训练图像的训练集，计算训练图像的图像尺度指数，根据图像尺度指数生成大、中、小三种尺度等级的标注；根据尺度等级的标注，训练尺度等级分类器；获取包括测试图像的测试集，使用尺度等级分类器分类测试图像的尺度等级；根据尺度等级缩放、裁剪测试图像。本发明对测试图像进行区别化的缩放和裁剪，显著提高小目标的检测精度，同时避免了引入过多的虚警。此外，由于区别化的缩放和裁剪，本发明只增加的少量检测时的计算开销。

Description

一种基于尺度等级的图像缩放裁剪方法

技术领域

本发明涉及一种数据增强方法，更具体地，涉及一种基于尺度等级的图像缩放裁剪方法。

背景技术

尽管深度学习方法在通用目标检测领域获得了巨大的成功，它们在小目标检测上的表现不尽人意。小目标挑战通常包括三个方面：更多的小目标、更低的目标平均分辨率和更小的目标相对尺度。下文对比性分析了COCO、ImageNet和VisDrone 2018数据集，进一步阐述这三个方面。

更多的小目标。我们统计了COCO和VisDrone 2018训练集中的目标像素面积分布，VisDrone 2018中约有60％的目标面积不超过1000像素，约75％的目标面积不超过2000像素。而COCO中这样的目标分别只有约40％和55％。由此可见，小目标挑战数据集VisDrone2018有更多的小目标。

更低的目标的平均分辨率。COCO中目标平均面积为2.05e+4像素。而VisDrone2018中目标平均面积仅为2.49e+3像素，是COCO的1/8。更低的分辨率意味着目标携带的外观信息更少、信噪比更低，更难被检测器检出。

除绝对尺度外，小目标挑战的另一方面是目标相对尺度也较小。在检测阶段，图像会被缩放至预设大小。小的目标相对尺度导致缩放后的目标分辨率低，外观信息少，影响检测精度。我们统计了COCO、ImageNet DET和VisDrone 2018中ORS的累计分布。相比于COCO和ImageNet，VisDrone 2018中绝大多数目标具有更小的相对尺度。其中约97％的目标占图像面积不到1％。VisDrone 2018、COCO和ImageNet中ORS的中位数分别为1.73e-2,9.56e-2和5.14e-1。如果让VisDrone 2018中的目标同COCO或ImageNet中的目标尺度相当，VisDrone2018的图片将被放大至COCO图片的5倍、ImageNet图片的29倍。受限于GPU显存，现有深度学习方法难以直接处理如此庞大的图片。

为了解决上述三个小目标挑战，本发明提出一种基于尺度等级的图像缩放裁剪方法：计算训练图像的图像尺度指数，根据图像尺度指数生成大、中、小三种尺度等级的标注；根据尺度等级的标注，训练尺度等级分类器；使用尺度等级分类器分类测试图像的尺度等级；根据尺度等级缩放、裁剪测试图像。

本发明涉及到以下现有技术：

现有技术1(He Kaiming,et al."Deep residual learning for imagerecognition."Proceedings of the IEEE conference on computer vision andpattern recognition.2016.)提出残差网络，利用残差链接降低深层网络的训练难度，得出具有强大表征/分类能力的深层特征图。现有技术2(Kong Tao,et al."Hypernet:Towards accurate region proposal generation and joint object detection."Proceedings of the IEEE conference on computer vision and patternrecognition.2016.)介绍了一种将主干特征拼接为超特征的方法，超特征同时具有浅层特征的低级外观信息和深层特征的高级语义信息，具有很强的表征能力。现有技术3(Hu Jie,Li Shen,and Gang Sun."Squeeze-and-excitation networks."Proceedings of theIEEE conference on computer vision and pattern recognition.2018.)介绍了一种通道注意力机制，通过对特征的各个通道赋予权重，调整特征在通道维度上的注意力，进一步增强特征表征能力。本发明涉及的尺度等级分类器，使用现有技术1提取主干特征，使用现有技术2拼接主干特征形成超特征，使用现有技术3调整超特征的通道权重，以更好的分类图像尺度等级。进一步地，本发明不局限于使用现有技术1提取多阶特征，可使用任何其他骨干网络提取多阶特征。

现有技术4(Ledig Christian,et al."Photo-realistic single image super-resolution using a generative adversarial network."Proceedings of the IEEEconference on computer vision and pattern recognition.2017.)提出了基于对抗生成网络的超分辨率方法，能从低分辨率图像中恢复高分辨率图像，补全低分辨率图像缺失的高频信息，使得高分辨率图像更具真实感。本发明实施例中采用现有技术4作为深度超分辨率方法缩放图像，但本发明不局限于现有技术4，使用其他超分辨率方法亦可。

发明内容

本发明旨在通过数据增强的方式改善小目标检测精度。为了达到上述目的，根据本发明提供一种基于尺度等级的图像缩放裁剪方法，计算图像尺度指数生成训练图像的尺度等级的标注，利用尺度等级的标注训练尺度等级分类器，使用训练得到的分类器预测测试图像的尺度等级，根据尺度等级缩放、裁剪测试图像。

本发明的目的至少通过如下技术方案之一实现。

一种基于尺度等级的图像缩放裁剪方法，包括以下步骤：

步骤一、获取包括训练图像的训练集，计算训练图像的图像尺度指数，根据图像尺度指数生成大、中、小三种尺度等级的标注；

步骤二、根据尺度等级的标注，训练尺度等级分类器；

步骤三、获取包括测试图像的测试集，使用尺度等级分类器分类测试图像的尺度等级；

步骤四，根据尺度等级缩放、裁剪测试图像。

进一步地，步骤一中，所述图像尺度指数计算方法如下：

①依据现实世界中物体的长、宽、高划分训练集各个目标类别形成超类，所述超类指多个类别组成的超级类别；

②选定某一超类作为基准，计算超类间目标尺度转换系数；

③依据公式计算图像尺度指数，具体如下：

其中，a(c)为超类c的尺度转换系数，ORS(c)为超类c的目标相对尺度，n_c表示当前图像中属于超类c的目标的个数，n_image表示当前图像中目标的个数，R_super表示所有超类的集合。

进一步地，所述超类间目标尺度转换系数的计算公式如下：

其中I_sub-train代表训练集的子集，该子集中每一张训练图像i均同时包含超类c和基准超类，|*|表示计算子集的训练图像数，对于子集中的训练图像i，ORS(c)表示超类c的目标相对尺度，ORS(baseline)表示基准超类的目标相对尺度。

进一步地，所述目标相对尺度的计算公式如下：

其中，Area_o代表属于超类c的目标o的面积，Area_image表示训练图像的面积，n_c表示当前训练图像中属于超类c的目标的个数。

进一步地，步骤一中，所述生成大、中、小三种尺度等级的标注，是统计训练集的图像尺度指数分布，人为设定两个图像尺度指数阈值，划分大、中、小三种尺度等级。

进一步地，步骤二中，所述尺度等级分类器由主干网络、感知野自适应模块和全连接分类模块串联组成，先将图像输入主干网络提取主干特征，再将主干特征输入感知野自适应模块进行特征调整，最后将调整好的特征输入全连接分类模块分类图像尺度等级；

所述主干网络为50层的残差网络，该残差网络包括五阶，每一阶均由若干个残差模块串联而成且每一阶的特征尺寸相同，相邻各阶之间存在2倍下采样层，下采样后特征尺寸缩小两倍；最终提取的主干特征为主干网络二阶至五阶每阶最后一张特征图的集合；

所述感知野自适应模块先使用特征归一化层对特征进行通道归一化，再使用特征拼接操作，拼接特征形成超特征，最后使用通道注意力分支，调整超特征的通道注意力；所述特征归一化层是步长为1、补零填充为0的1*1卷积层，用于使主干特征的通道数归一化至256；所述特征拼接操作将主干特征在通道维度上拼接；所述通道注意力分支由全局池化层、1024*512的全连接层和512*1024的全连接层串联组成；

所述全连接分类模块由全局池化层、1024*512的全连接层和512*3的全连接层串联组成。

进一步地，训练尺度等级分类器使用交叉熵函数作为损失函数，使用随机梯度下降作为网络优化方法。

进一步地，步骤三中，所述使用尺度等级分类器分类测试图像的尺度等级，是指将测试图像输入尺度等级分类器获取输入测试图像的尺度等级。

进一步地，步骤四中，所述根据尺度等级缩放、裁剪图像，其中缩放图像步骤为对尺度等级为中、大等级的测试图像使用双线性插值进行缩放，对尺度等级为小等级的测试图像使用深度超分辨率算法进行缩放；所述深度超分辨率算法指将低分辨率图映射至高分辨率图的深度学习方法。

进一步地，步骤四中，所述根据尺度等级缩放、裁剪图像，其中裁剪图像步骤为对尺度等级为大等级的图像不进行裁剪，对尺度等级为中等级的图像进行四分裁剪，对尺度等级为小等级的图像进行九分裁剪；所述四分裁剪指四等分裁剪图像，所述九分裁剪指九等分裁剪图像。

相比于现有技术，本发明的优点在于：

本发明对测试图像进行区别化的缩放和裁剪，显著提高小目标的检测精度，同时避免了引入过多的虚警。此外，由于区别化的缩放和裁剪，本发明只增加的少量检测时的计算开销。

附图说明

图1为本发明实施例中一种基于尺度等级的图像缩放裁剪方法的流程图；

图2为本发明实施例中训练集尺度指数的分布图；

图3为本发明实施例中尺度等级分类器的结构图；

图4为本发明实施例中不同尺度等级下裁剪方法的示意图。

具体实施方式

提供以下参照附图的描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体的细节来帮助理解，但是这些被认为仅仅是示例性的。因此，本领域的普通技术人员将认识到，在不脱离本发明公开的范围和精神的情况下，可以对本发明描述的各种实施例进行各种改变和修改。另外，为了清楚和简明，可以省略对公知功能和结构的描述。

在下面的描述和权利要求中使用的术语和词语不限于书面含义，而是仅由发明人使用使得能够清楚和一致地理解本公开。因此，本领域技术人员应该清楚，提供本发明公开的各种实施例的以下描述仅用于说明的目的，而不是为了限制由所附权利要求及其等同物限定的本公开。

实施例：

一种基于尺度等级的图像缩放裁剪方法，如图1所示，包括以下步骤：

步骤110、获取包括训练图像的训练集，计算训练图像的图像尺度指数，根据图像尺度指数生成大、中、小三种尺度等级的标注；

在本实施例中，提供训练图像的训练集为VisDrone 2018训练集

所述图像尺度指数计算方法如下：

②选定某一超类作为基准，计算超类间目标尺度转换系数；所述超类间目标尺度转换系数的计算公式如下：

其中I_sub-train代表训练集的子集，该子集中每一张训练图像i均同时包含超类c和基准超类，|*|表示计算子集的训练图像数，对于子集中的训练图像i，ORS(c)表示超类c的目标相对尺度，ORS(baseline)表示基准超类的目标相对尺度；所述目标相对尺度的计算公式如下：

③依据公式计算图像尺度指数，具体如下：

本实施例中，对训练集中每一张训练图像计算图像尺度指数，统计训练集的图像尺度指数分布如图2所示。

本实施例中，人为设定了0.064和0.085两个阈值，并依据阈值生成训练图像的尺度等级标注。图像尺度指数小于0.064的图像被标注为小等级，图像尺度指数在0.064和0.085之间的图像被标注为中等级，图像尺度指数大于0.085的图像被标注为大等级。

步骤120、根据尺度等级的标注，训练尺度等级分类器；如图3所示，所述尺度等级分类器由主干网络、感知野自适应模块和全连接分类模块串联组成，先将图像输入主干网络提取主干特征，再将主干特征输入感知野自适应模块进行特征调整，最后将调整好的特征输入全连接分类模块分类图像尺度等级。

本实施例中，所述主干网络为Resnet-50残差网络，该残差网络包括五阶，每一阶均由若干个残差模块串联而成且每一阶的特征尺寸相同，相邻各阶之间存在2倍下采样层，下采样后特征尺寸缩小两倍；最终提取的主干特征为主干网络二阶至五阶每阶最后一张特征图的集合；

本实施例中，使用反向传播的方式训练尺度等级分类器。训练的每次迭代，输入一批训练图像和其对应的尺度等级的标注，尺度等级分类器根据训练图像预测尺度等级，使用交叉熵函数计算预测尺度等级和尺度等级的标注之间的误差，随后根据误差使用梯度下降的方式优化尺度等级分类器的各个参数。

步骤130、获取包括测试图像的测试集，使用训练好的尺度等级分类器分类测试图像的尺度等级；

本实施例中，提供测试图像的测试集为VisDrone 2018验证集

所述使用训练好的尺度等级分类器分类测试图像的尺度等级，是指将测试图像输入训练好的尺度等级分类器获取输入测试图像的尺度等级。

本实施例中，先将测试图像短边缩放至800像素，随后对测试图像进行中心裁剪，得到800*800的图像输入训练好的尺度等级分类器，进行尺度等级分类。

步骤140，根据尺度等级缩放、裁剪测试图像；

缩放图像步骤为对尺度等级为中、大等级的测试图像使用双线性插值进行缩放，对尺度等级为小等级的测试图像使用深度超分辨率算法进行缩放；所述深度超分辨率算法指将低分辨率图映射至高分辨率图的深度学习方法。本实施例中，所使用的深度超分辨率算法为SR-GAN。

如图4所示，裁剪图像步骤为对尺度等级为大等级的图像不进行裁剪，对尺度等级为中等级的图像进行四分裁剪，对尺度等级为小等级的图像进行九分裁剪；所述四分裁剪指四等分裁剪图像，所述九分裁剪指九等分裁剪图像。

本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于尺度等级的图像缩放裁剪方法，其特征在于，包括以下步骤：

步骤一、获取包括训练图像的训练集，计算训练图像的图像尺度指数，根据图像尺度指数生成大、中、小三种尺度等级的标注；所述图像尺度指数计算方法如下：

②选定某一超类作为基准，计算超类间目标尺度转换系数；

③依据公式计算图像尺度指数，具体如下：

其中，a(c)为超类c的尺度转换系数，ORS(c)为超类c的目标相对尺度，n_c表示当前图像中属于超类c的目标的个数，n_image表示当前图像中目标的个数，R_super表示所有超类的集合；所述超类间目标尺度转换系数的计算公式如下：

其中，Area_o代表属于超类c的目标o的面积，Area_image表示训练图像的面积，n_c表示当前训练图像中属于超类c的目标的个数；

步骤二、根据尺度等级的标注，训练尺度等级分类器；

步骤四，根据尺度等级缩放、裁剪测试图像。

2.根据权利要求1所述的一种基于尺度等级的图像缩放裁剪方法，其特征在于，步骤一中，所述生成大、中、小三种尺度等级的标注，是统计训练集的图像尺度指数分布，人为设定两个图像尺度指数阈值，划分大、中、小三种尺度等级。

3.根据权利要求1所述的一种基于尺度等级的图像缩放裁剪方法，其特征在于，步骤二中，所述尺度等级分类器由主干网络、感知野自适应模块和全连接分类模块串联组成，先将图像输入主干网络提取主干特征，再将主干特征输入感知野自适应模块进行特征调整，最后将调整好的特征输入全连接分类模块分类图像尺度等级；

4.根据权利要求3所述的一种基于尺度等级的图像缩放裁剪方法，其特征在于，训练尺度等级分类器使用交叉熵函数作为损失函数，使用随机梯度下降作为网络优化方法。

5.根据权利要求1所述的一种基于尺度等级的图像缩放裁剪方法，其特征在于，步骤三中，所述使用尺度等级分类器分类测试图像的尺度等级，是指将测试图像输入尺度等级分类器获取输入测试图像的尺度等级。

6.根据权利要求1所述的一种基于尺度等级的图像缩放裁剪方法，其特征在于，步骤四中，所述根据尺度等级缩放、裁剪图像，其中缩放图像步骤为对尺度等级为中、大等级的测试图像使用双线性插值进行缩放，对尺度等级为小等级的测试图像使用深度超分辨率算法进行缩放；所述深度超分辨率算法指将低分辨率图映射至高分辨率图的深度学习方法。

7.根据权利要求1所述的一种基于尺度等级的图像缩放裁剪方法，其特征在于，步骤四中，所述根据尺度等级缩放、裁剪图像，其中裁剪图像步骤为对尺度等级为大等级的图像不进行裁剪，对尺度等级为中等级的图像进行四分裁剪，对尺度等级为小等级的图像进行九分裁剪；所述四分裁剪指四等分裁剪图像，所述九分裁剪指九等分裁剪图像。