CN114943869B

CN114943869B - 风格迁移增强的机场目标检测方法

Info

Publication number: CN114943869B
Application number: CN202210332513.7A
Authority: CN
Inventors: 王欣; 李屹; 许雅玺; 傅强; 刘晓东; 潘磊
Original assignee: Civil Aviation Flight University of China
Current assignee: Civil Aviation Flight University of China
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2023-06-30
Anticipated expiration: 2042-03-30
Also published as: CN114943869A

Abstract

本发明涉及机场目标检测技术领域，具体地说，涉及一种风格迁移增强的机场目标检测方法，其包括以下步骤：一、使用基于生成对抗网络的风格迁移网络学习训练集中非边缘信息；二、利用学习得到的模型对原始的机场目标检测数据集进行风格迁移得到新的数据集；三、通过边缘检测算法对新的数据集进行边缘轮廓特征提取和增强；四、利用增强的特征对机场进行目标检测。本发明能较佳地进行机场目标检测。

Description

风格迁移增强的机场目标检测方法

技术领域

本发明涉及机场目标检测技术领域，具体地说，涉及一种风格迁移增强的机场目标检测方法。

背景技术

在交通运输体系中，机场有着重要的战略价值。在民航运输方面，机场位置的准确性对航路的设计，飞机的导航，以及突发情况下的应急备降有着至关重要的意义。由于全球经济发展，人口增长等原因，随着时间的推移，机场或类似的建筑物或多或少会进行扩建、搬迁等，这导致许多已经标注好的机场坐标点不再适用于现在的机场，例如大小不合适，中心点偏移等，因此需要针对机场坐标进行修正，而修正的前提就是需要对机场目标轮廓进行准确识别。随着深度学习技术的发展，基于深度学习的算法在目标检测领域的各个方面均取得了不错的效果，这使得利用深度学习算法识别机场目标成为可能。

在复杂环境目标检测任务中，目标检测算法的性能主要依赖于数据集的训练样本质量，样本的质量可以理解为提取的特征的质量。然而在真实的采集环境中，由于环境、采集器甚至人为因素的影响导致图像中存在大量的噪声，从这样的样本中难以提取出针对目标提取任务的有效信息。针对这类问题，传统的方法大多是通过人为设计复杂网络进而抑制噪声以提取有效特征，即利用各种复杂的模型从负样本中提取相关有用信息。但是图像中往往会存在面积大且难以利用算法模型忽略的噪声，例如在在识别建筑物时周围的树林等环境不仅难以剔除，他所占有的图像的面积还可能远远超过检测对象，这种噪声会大大影响目标检测的精度。同时随着科技的发展，采集器的采集图像的分辨率逐步上升，一方面获取了更多的信息，但是在另一方面也加大了上述问题的处理的难度。针对此类本身就属于图像一部分的噪声，非常需要一种有效的方法来降低对目标检测特征提取阶段的影响。同时在目标检测任务中，由于目标检测定位的时候大多数是利用的浅层语义信息，其更多的是包含边缘和轮廓信息。因此有必要设计一个简单且健壮的噪声抑制器来增强边缘轮廓特征提取器的效果从而解决上述问题。

发明内容

本发明的内容是提供一种风格迁移增强的机场目标检测方法，其能够克服现有技术的某种或某些缺陷。

根据本发明的一种风格迁移增强的机场目标检测方法，其包括以下步骤：

一、使用基于生成对抗网络的风格迁移网络学习训练集中非边缘信息；

二、利用学习得到的模型对原始的机场目标检测数据集进行风格迁移得到新的数据集；

三、通过边缘检测算法对新的数据集进行边缘轮廓特征提取和增强；

四、利用增强的特征对机场进行目标检测。

作为优选，步骤一中，选择了循环生成对抗网络CycleGAN对图像进行风格迁移，CycleGAN使用两个不同领域的数据库，利用其中未配对的图像进行训练；CycleGAN使用两个生成器GA、GB和两个判别器DA、DB来制定环形网络；生成器GA、GB分别将B类图像和A类图像转化为假A类图像和假B类图像，再将生成的假图像经由GB和GA重构回输入的原图像；判别器DA、DB对转化的图像进行判别，判断给定的图像是真实图像或由生成器生成的图像；以生成器DA、DB目标函数如公式(1)、(2)所示，判别器GA、GB标函数公式如公式(3)、(4)所示：

其中A、B分别代表两种不同风格的数据集，G代表生成器，D代表判别器；

同时为了恢复原始域中的图像，采用循环一致性损失cycle-consistency loss，使用数据集中其他的图像对生成器进行验证，防止生成器过拟合，如公式(5)所示：

L_cyc＝E_a∈A[||G(F(a))-a||]+E_b∈B[||F(G(b))-b||] (5)

其中，b代表不同风格数据集的图像。

作为优选，步骤二中，对生成对抗网络获取的图像进行灰度化处理，将RGB图转化为灰度图如公式(6)所示：

Gray＝0.2989*R+0.5870*G+0.1140*B (6)

其中R、G、B代表RGB图像中的红色,绿色和蓝色分量，Gray表示最后获得的灰度图。

作为优选，步骤三中，使用Sobel算子进行边缘检测，Sobel算子是一种离散型差分算子，用于运算图像亮度函数的灰度近似值，在图像中某一点使用这一算子都将产生灰度矢量；Sobel算子中包含两组3*3的矩阵，分别用于提取横向和纵向的边缘和轮廓特征，具体来说利用两个矩阵对图像进行平面卷积就可以获得横向及纵向的亮度差分近似值；最后将横向和纵向的图像相加获得最后的边缘轮廓检测图像；Sobel算子如公式(7)所示：

Sobel＝Gray_x+Gray_y (7)

其中Grayx、Grayy分别代表横和纵方向的边缘检测图像，Sobel表示对横纵方向图像直接相加后的图像；

边缘检测后将图像进行了二值化处理，图像二值化的公式如公式(8)所示：

其中Edge代表最终获得的边缘检测图像。

作为优选，步骤四中，选择单阶段目标检测算法中的YOLO v5算法，YOLOv5模型分为Backbone层、Neck层及预测层；

Backbone层为YOLOv5模型的主干网络层，包括Focus结构和CSP结构；Focus结构用于对图像进行切片操作，从高分辨率中周期性地抽出像素点重构到低分辨率图像中从而提高每个点感受野，并减少原始信息的丢失；CSP结构用于解决神经网络中的大量推理计算问题；

Neck层用于更好的融合特征信息，包括SPP结构模块、FPN+PAN结构以及与Backbone层相同功能的用于Neck层的CSP结构；SPP模块用于实现局部特征和全局特征的融合，丰富了特征图所拥有的表达能力；FPN+PAN结构中，FPN是目标检测技术中自顶向下的结构，能将高层特征通过上采样和低层特征做融合得到进行预测的特征图，PAN是一个自底向上的特征金字塔，将这FPN+PAN进行结合能增强语义信息和定位信息；

输出层是进行损失函数计算和输出最终预测结果的层；采用GIoU损失作为最终的损失函数并采用NMS技术解决一个目标多个候选框的问题；GIOU先计算两个框的最小闭包区域面积，随后对其进行IoU计算，之后计算闭包区域中不属于两个框的区域占闭包区域的比重，最后用IoU减去这个比重得到GIoU的值，其公式如公式(9)所示：

其中，IoU为真实矩形框和预测矩形框之间的交集面积和并集面积的比值，U为真实框和预测框并集的面积，A^C为预测矩形框和真实矩形框的最小的包围框的面积。

本发明利用了生成对抗网络在无监督深度学习学习方面的优势，使用与边缘轮廓等无关的特征信息，重新生成数据集，有效抑制噪声，使得边缘提取算法更有效地提取有用信息提高机场目标检测算法精度；本发明的所有算法网络均为轻量级算法，在检测速度方面有着一定优势；本发明在特征提取方面效果优于其他算法且具有鲁棒性高等优点。

附图说明

图1为实施例1中一种风格迁移增强的机场目标检测方法的流程图；

图2为实施例1中CycleGAN网络架构图；

图3为实施例1中生成的边缘检测图像的具体过程示意图；

图4为实施例1中YOLOv5网络架构图；

图5为实施例1中风格迁移的图像示意图；

图6为实施例1中机场目标检测数据集图像示意图；

图7为实施例1中STAOD算法检测结果图像示意图；

图8为实施例1中边缘提取对比的图像示意图；

图9为实施例1中风格迁移增强效果图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。应当理解的是，实施例仅仅是对本发明进行解释而并非限定。

实施例1

如图1所示，本实施例提供了一种风格迁移增强的机场目标检测方法(StyleTransfer Inspired Airport Object Detection，STAOD)，其包括以下步骤：

一、使用基于生成对抗网络(Generative Adversarial Network，GAN)的风格迁移网络学习训练集中非边缘信息；

四、利用增强的特征对机场进行目标检测。

为了将图像从无人机采集图像转换为简略的Google地图图像从而抑制森林等物体的边缘噪声，选择了CycleGAN网络对图像进行风格迁移。CycleGAN在训练图像的领域转化方面有一个非常大的优势，即转化所使用的数据集不需要一一对应。例如使用原始的pix2pix网络在进行现实图像和动画图像转换的训练时，需要提供现实图像的训练集以及其对应的动画图像的训练集，然而在真实的应用场景中，难以获取这样的数据集。而CycleGAN能很好地解决这一问题，针对与pix2pix类似的任务时，只需要提供一类相同风格的训练集以及一类目标风格的训练集，网络将采用无监督学习的方式学习其中转化的特点，而不需要将图像进行一一对应，这大量减少了采集样本的难度。同时CycleGAN是基于无监督学习，这意味着并不需要人工对两个不同风格的数据集的差异进行标注，这样不仅减少了人工的成本还意味着算法有能力迁移到同类的其他领域问题中。

步骤一中，选择了循环生成对抗网络CycleGAN对图像进行风格迁移，CycleGAN使用两个不同领域的数据库，利用其中未配对的图像进行训练；CycleGAN使用两个生成器GA、GB和两个判别器DA、DB来制定环形网络；生成器GA、GB分别将B类图像和A类图像转化为假A类图像和假B类图像，再将生成的假图像经由GB和GA重构回输入的原图像；判别器DA、DB对转化的图像进行判别，判断给定的图像是真实图像或由生成器生成的图像；以生成器DA、DB目标函数如公式(1)、(2)所示，判别器GA、GB标函数公式如公式(3)、(4)所示：

L_cyc＝E_a∈A[||G(F(a))-a||]+E_b∈B[||F(G(b))-b||] (5)

其中，b代表不同风格数据集的图像。

CycleGAN的网路架构图如图2所示。其中，(a)是整体网络架构，(b)和(c)分别是针对单一判别器及生成器的算法流程。

步骤二中，对生成对抗网络获取的图像进行灰度化处理，和原本的彩色图像相比，灰度图像减少了处理时图像的复杂程度，提高的运算速度且更能突出图像的梯度信息。将RGB图转化为灰度图如公式(6)所示：

Gray＝0.2989*R+0.5870*G+0.1140*B (6)

步骤三中，使用Sobel算子进行边缘检测，Sobel算子是一种离散型差分算子，用于运算图像亮度函数的灰度近似值，在图像中某一点使用这一算子都将产生灰度矢量；Sobel算子中包含两组3*3的矩阵，分别用于提取横向和纵向的边缘和轮廓特征，具体来说利用两个矩阵对图像进行平面卷积就可以获得横向及纵向的亮度差分近似值；最后将横向和纵向的图像相加获得最后的边缘轮廓检测图像；Sobel算子如公式(7)所示：

Sobel＝Gray_x+Gray_y (7)

边缘检测后将图像进行了二值化处理，使得经过灰度处理后的图像中像素值更加单一、图像更加简单且能过滤掉绝大部分弱边缘，图像二值化的公式如公式(8)所示：

其中Edge代表最终获得的边缘检测图像。

在图3展示了使用提出的方法生成的边缘检测图像的具体过程，(a)原始图像；(b)原始图像通过GAN网络生成的图像；(c)GAN网络生成图像进行灰度处理获得的图像；(d)灰度图像进行边缘检测获得的图像；(e)边缘检测图像进行二值化处理获得的图像。子图(e)中的边缘检测算法具体地说是使用高斯模糊减少部分噪声后再使用Sobel算子对边缘和轮廓进行提取。

步骤四中，选择单阶段目标检测算法中的YOLO v5算法，YOLOv5网络架构图如图4所示，YOLOv5模型分为Backbone层、Neck层及预测层；

Backbone层为YOLOv5模型的主干网络层，包括Focus结构和CSP(Cross StagePartial)结构；Focus结构用于对图像进行切片操作，从高分辨率中周期性地抽出像素点重构到低分辨率图像中从而提高每个点感受野，并减少原始信息的丢失；CSP结构用于解决神经网络中的大量推理计算问题；

Neck层用于更好的融合特征信息，包括SPP(Spatial Pyramid Pooling)结构模块、FPN(Feature Pyramid Networks)+PAN(Path Aggregation Network)结构以及与Backbone层相同功能的用于Neck层的CSP结构；SPP模块用于实现局部特征和全局特征的融合，丰富了特征图所拥有的表达能力；FPN+PAN结构中，FPN是目标检测技术中自顶向下的结构，能将高层特征通过上采样和低层特征做融合得到进行预测的特征图，PAN是一个自底向上的特征金字塔，将这FPN+PAN进行结合能增强语义信息和定位信息；

输出层是进行损失函数计算和输出最终预测结果的层；采用GIoU损失作为最终的损失函数并采用NMS(Non-Maximum Suppression)技术解决一个目标多个候选框的问题；GIOU先计算两个框的最小闭包区域面积，随后对其进行IoU计算，之后计算闭包区域中不属于两个框的区域占闭包区域的比重，最后用IoU减去这个比重得到GIoU的值，其公式如公式(9)所示：

实验结果

数据集

地图航拍数据集：本实施例所使用的

数据集，数据集一共4388张图像，包含2194张航拍图像和与之对应的2194张地面图像,其中训练图像2192张，测试图像2196张。数据集案例如图5所示。

机场数据集：本实施例所使用的机场目标检测数据集截取自武汉大学和华中科技大学“AID”遥感数据集及Google卫星地图，其中包含337张训练图片及66张测试图片。数据集案例如图6所示。

实验环境

实验所使用的硬件环境：1块Nvidia RTX 2080GPU，1块Xeon E-2276GCPU,32GBDDR4内存。

风格迁移算法CycleGAN所使用的超参数如表1第1行所示。目标检测算法YOLOv5所使用的超参数如表1第2行所示。

用于对比YOLOv5的目标检测算法：Faster R-CNN、SSD、Cascade R-CNN、Mask R-CNN、FCOS所使用的超参数如表1第3～7行所示，其中Faster R-CNN、Cascade R-CNN、MaskR-CNN、FCO算法使用在ImageNet进行训练的ResNet-50模型作为特征提取器的预训练模型。

用于验证CycleGAN增强边缘检测效果的传统边缘检测算法：Canny、LoG(Marr-Hildreth)、Sobel算法使用原始的算子和梯度计算公式，基于机器学习的Fast算法和基于深度学习的HED、RCF(Richer Convolutional Features for Edge Detection)算法所使用的超参数如表1第9～10行所示，其中HED和RCF使用原文提供的在公开数据集BSDS500上训练好的模型。

表1算法超参数设置

算法	学习率	批处理大小	迭代次数
				CycleGAN	0.0002	1	100
YOLOv5	0.01	16	300
				Faster R-CNN	0.02	4	12
SSD	0.01	24	24
				Cascade R-CNN	0.002	4	12
Mask R-CNN	0.02	4	12
				FCOS	0.002	4	12
HED	0.000001	10	10000
				RCF	0.000001	10	40000

实验结果评估指标：采用目标检测算法精度上常用的平均精度(AveragePrecision,AP)作为衡量算法性能的评价指标。精确率(Precision,P)的计算公式如公式(9)所示。在测试速度方面，采用实验所用CPU平均每秒处理帧数(Frames Per Second，FPS)指标。

实验分析

目标检测算法实验：本实施例将YOLOv5算法与目前主流的单阶段目标检测和双阶段目标检测算法进行对比，通过结果可以看出YOLOv5算法在检测精度和检测速度方面有优异的性能。目标检测效果如图7所示。

边缘检测算法增强实验：为了验证本实施例提出的方法的有效性，本实施例将图像分为三类进行处理，如图8所示，图8中，(a)为原始图像；(b)Canny算法为例，为了减少森林、房屋等目标的边缘信息设定较高边缘提取阈值导致机场边缘的特征信息提取不足的图像；(c)以Canny算法为例，为了提取机场边缘轮廓及跑道等相关特征信息，较大范围进行边缘提取导致特征信息提取过度的图像；(d)使用CycleGAN网络生成图像后再使用Canny算法进行特征提取获得的图像。针对(b)、(c)、(d)三类图像进行目标检测，结果如表2所示，从表格结果分析得出，目标检测的结果容易受到边缘提取效果的影响，其中针对原始数据集直接进行检测得到检测结果为94.9％，而针对信息提取过度的图像进行检测得到的结果为87.8％，由此分析得到边缘提取算法提取的细节过多则会导致针对机场边缘轮廓的检测受到周围房屋边缘轮廓带来的影响导致整体识别效果反而不如原始的数据集好。同理针对信息提取不足的图像进行检测得到结果为85.3％，分析得到如果边缘提取算法提取的细节不够则会导致机场中跑到边缘轮廓信息和机场本身边缘轮廓信息不足，而使得机场目标检测网络训练时没有充足且有效的信息。因此本实施例使用风格迁移算法重新生成机场图像，去除周围环境等噪声对于特征提取影响后，再使用边缘提取算法提取机场图像的特征，经过这样处理之后就可以一定程度上避免上述两类问题的发生，最后使得目标检测网络能够合理使用有效信息提高检测精度。

表2不同特征提取程度对机场目标检测平均精度影响的结果

目标检测算法	类型	结果
			YOLOv5	原始图像	94.9
YOLOv5	特征提取不足	85.3
			YOLOv5	特征提取过度	87.8
YOLOv5	STAOD	97.7

目标检测鲁棒性实验：为了验证本实施例提出的方法的性能，本实施例对原始的机场目标检测数据集进行风格迁移并利用多种不同目标检测算法对结果进行测试。结果如表3所示，结果表明不论是单阶段目标检测算法还是双阶段目标检测算法在使用本实施例提出的方法进行特征提取后，都能够在原始的基础上提升一定的精确度。因此本实施例提出的STAOD方法能较好地提取边缘特征并提升目标检测算法的性能。

表3分别在原始机场目标检测数据集和边缘特征强化机场目标检测数据集实验的平均精度(AP)

目标检测算法	原始数据集	STAOD数据集	速度
				Faster R-CNN	92.1	93.6	0.4
SSD	93.4	93.3	4.6
				Cascade R-CNN	91.0	91.8	0.2
Mask R-CNN	80.5	83.7	0.4
				FCOS	91.4	93.0	0.7
YOLOv5	94.9	97.7	5.7

风格迁移鲁棒性实验：为了验证风格迁移增强方法的鲁棒性，本实施例使用生成对抗网络对多种边缘检测算法进行增强，并利用YOLOv5算法进行目标检测，将融合后的边缘提取算法和融合前的边缘提取算法进行结果对比。风格迁移增强各种不同边缘检测算法的效果图如图9所示，增强后使用目标检测算法进行检测的结果如表4所示。通过表4中结果还可以看出基于深度学习算法不论是直接进行边缘检测还是进行增强后进行边缘检测的结果都不一定比传统的边缘检测算法更优，这主要是由于深度学习算法过于依赖于训练集和测试集的相似性，然而针对机场或建筑物修正问题缺少公开的边缘标注数据集，这就导致很多性能不错的基于深度学习边缘检测算法难以发挥其应有的能力。而本实施例的STAOD算法则是对这类问题提出另一种解决思路，即利用生成对抗网络算法对现有的数据集中的噪声进行抑制，相比于对每一类问题进行分别进行大批量人工边缘标注，利用生成对抗网络的特性对两种容易获取的数据集进行风格迁移是一种更加节约时间和精力的方案。

同时，尽管基于深度学习的边缘算法在精度上面高于一部分传统边缘检测算法，其所消耗的时间却远远高于传统边缘检测，从表4中能看出，精度最高的RCF算法不论是结合风格迁移算法前还是结合风格迁移算法后所消耗的时间都是传统边缘检测算法的几十倍，更重要的是，传统的边缘检测算法在使用生成对抗网络对噪声进行抑制之后的性能已经不弱于基于深度学习的算法，甚至有一些算法的性能已经高于基于深度学习的算法，这是由于深度学习算法在学习的时候已经将部分噪声进行了学习，而本实施例提出的噪声抑制方法几乎将噪声全部抑制，这样的图像虽然对基于深度学习的边缘检测算法性能有所提升但更适合直接使用传统的方法提取。综合结果表明本实施例提出的利用风格迁移网络来抑制噪声干扰的方法在噪声多且复杂的情况下有着不错的效果且在速度方面有着一定的优势。

表4 YOLOv5算法在经过不同边缘特征强化方法机场目标检测数据集实验的平均精度(AP)

本实施例利用了生成对抗网络在无监督深度学习学习方面的优势。使用与边缘轮廓等无关的特征信息，重新生成数据集，有效抑制噪声，使得边缘提取算法更有效地提取有用信息提高机场目标检测算法精度。本实施例中，所有算法网络均为轻量级算法，在检测速度方面有着一定优势。实验结果表明，本实施例的算法在特征提取方面效果优于其他算法且具有鲁棒性高等优点。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。