CN112395987B

CN112395987B - 基于无监督域适应cnn的sar图像目标检测方法

Info

Publication number: CN112395987B
Application number: CN202011290954.2A
Authority: CN
Inventors: 杜兰; 石钰; 郭昱辰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2023-07-28
Anticipated expiration: 2040-11-18
Also published as: CN112395987A

Abstract

本发明公开了一种基于无监督域适应CNN的SAR图像目标检测方法,主要针对现有技术的不足，提出了一种基于无监督域适应CNN的SAR图像目标检测方法用于SAR图像目标检测。其实现步骤是：(1)生成源域数据集；(2)生成目标域训练集和目标域测试集；(3)构建多层特征域适应网络；(4)训练循环一致性生成对抗网络；(5)训练多层特征域适应网络；(6)利用迭代伪标记方法训练Faster R‑CNN；(7)对目标域测试集中的测试SAR图像进行位置检测。本发明借助了有标记源域数据的知识，具有准确率高且在目标域不需要使用标记的SAR图像训练目标检测的优点。

Description

基于无监督域适应CNN的SAR图像目标检测方法

技术领域

本发明属于雷达图像处理技术领域，更进一步涉及雷达图像自动目标识别技术领域中的一种基于无监督域适应卷积神经网络CNN(Convolutional Neural Network)的合成孔径雷达SAR(Synthetic Aperture Radar)图像目标检测方法。本发明可以用于从SAR图像中检测感兴趣目标，例如地面车辆检测。

背景技术

合成孔径雷达SAR具有在全天时和全天候条件下提供遥感图像的优势，被广泛用于军事和民用领域。随着雷达成像技术的高速发展，SAR自动目标识别领域发展迅速。而SAR图像目标检测作为SAR自动目标识别中的一项具有挑战性的任务，受到了广泛的关注。恒虚警率CFAR是使用最广泛、最深入的传统SAR目标检测方法，它根据给定的虚警概率计算检测阈值，然后通过滑动窗口将像素的灰度值与某个自适应阈值进行比较，得到检测结果。随着深度学习的发展，许多基于卷积神经网络的方法被提出。由于大量的有标记的训练数据被网络学习，这些方法在目标检测中取得了重大进展。尽管基于卷积神经网络的目标检测方法已经取得了出色的性能，但是因为缺少大量的标记数据，使得基于CNN的SAR目标检测方法仍然面临着巨大的挑战。

北京理工大学在其申请的专利文献“基于分割组合的SAR图像自适应恒虚警率目标检测方法”(专利申请号：201010292987.0，公开号：CN10197594OA)中提出了一种基于分割组合的SAR图像自适应恒虚警率目标检测方法。该方法首先利用参考窗策略得到用来估计背景杂波模型的参数，再利用虚警概率以及杂波模型之间的关系得到检测器的检测阈值，最后通过滑动窗口将像素的灰度值与某阈值进行比较，得到检测结果。该方法在一些简单场景的SAR图像中具有良好的性能，但是，该方法仍然存在的不足之处是：由于该方法要对SAR图像建立背景杂波模型，该模型的建立需要非常强的专业知识和经验，建立难度大且对于多样性变化的目标并没有很好的鲁棒性，使得当遇到场景复杂的SAR图像时检测准确率不高。

西安电子科技大学在其申请的专利文献“基于半监督CNN的SAR图像目标检测系统和方法”(专利申请号：2019100164131，公开号：CN109740549A)中公开了一种半监督SAR图像目标检测方法。该方法基于卷积神经网络设计目标检测网络，先使用少量切片级标记的图像训练目标检测网络，然后使用迭代挑选候选切片的方式对网络进行训练，当训练收敛之后，使用训练好后的目标检测模型对SAR图像进行测试，得到测试结果。该方法利用卷积神经网络的特征表达能力和半监督方法只需部分标记数据的特点，一定程度上解决了卷积神经网络对标记数据的依赖性。但是，该方法仍然存在的不足之处是，由于该方法仍然需要使用标记的图像训练目标检测网络，在一些SAR图像标记数据获取困难的情况下，该方法限制了SAR图像的应用范围。

发明内容

本发明的目的是针对上述现有技术存在的不足，提出了一种基于无监督域适应CNN的SAR图像目标检测方法，用于解决现有技术检测准确率不高和需要使用标记的图像训练目标检测网络的问题。

实现本发明目的的思路是：先将源域数据集中的图像和转换域图像组成有标记的多样化域，构建多层特征域适应网络，将有标记的多样化域图像和无标记的目标域训练集图像并行输入到多层特征域适应网络中，再将目标域训练集中的图像输入到训练好的多层特征域适应网络，输出带有目标框的位置、目标框的类别和目标框的置信度得分的伪标记图像，然后利用多样化域利用迭代伪标记方法训练Faster R-CNN得到收敛后的目标检测模型，最后将目标域测试集中的测试SAR图像输入到收敛后的目标检测模型中，输出测试SAR图像的目标框位置。

本发明的具体步骤包括如下：

(1)生成源域数据集：

从合成孔径雷达SAR图像集的有标记图像中，任意选取带有各自标记的至少300个图像组成源域数据集；

(2)生成目标域训练集和目标域测试集：

(2a)从合成孔径雷达SAR图像集的无标记图像中，任意选取无标记的至少100个图像组成目标域训练集；

(2b)从合成孔径雷达SAR图像集的无标记图像中，除目标域训练集所选图像之外的图像中任意选取无标记的至少30个图像组成目标域测试集；

(3)构建多层特征域适应网络：

(3a)搭建一个18层的基础卷积子网络，其结构依次为：第一卷积层，第二卷积层，第一池化层，第三卷积层，第四卷积层，第二池化层，第五卷积层，第六卷积层，第七卷积层，第三池化层，第八卷积层，第九卷积层，第十卷积层，第四池化层，第十一卷积层，第十二卷积层，第十三卷积层，第五池化层；

(3b)各层参数设置如下：将第一至十三卷积层的卷积核大小均设置为3×3；将第一至十三卷积层的卷积核数量分别设置为64、64、128、128、256、256、256、512、512、512、512、512、512；将第一至第五池化层的池化区域大小均设置为2×2；

(3c)搭建一个6层的全局特征域适应子网络，其结构依次为：输入层，第一卷积层，第二卷积层，第三卷积层，第一全连接层，输出层；

(3d)各层参数设置如下：将第一至三卷积层的卷积核大小均设置为3×3；将第一至三卷积层的卷积核数量分别设置为512,128,128；将第一全连接层的输出维度设置为2；

(3e)搭建一个5层的实例层区域特征域适应子网络，其结构依次为：输入层，第一全连接层，第二全连接层，第三全连接层，输出层；

(3f)各层参数设置如下：将第一至第三全连接层的输出维度分别设置为：100、100、2；

(3g)将全局特征域适应子网络的输入层与基础卷积子网络的第十一个卷积层并联后得到第一并联网络；将全局特征域适应子网络的输入层与Faster R-CNN中的RPN并联后得到第二并联网络；将实例层区域特征域适应子网络的输入层与Faster R-CNN中的检测头子网络并联后得到第三并联网络；将基础卷积子网络的第十个卷积层、将第一并联网络、第二并联网络、Faster R-CNN中的ROI和第三并联网络依次串联，组成多层特征域适应网络；

(4)训练循环一致性生成对抗网络：

(4a)将源域数据集中的图像和目标域训练集中的图像并行输入到现有技术的循环一致性生成对抗网络中，经Adam算法迭代更新该对抗网络的权值至损失函数收敛，输出与目标域数据集图像分布相似且与源域数据集中图像共享标记的转换域图像；

(4b)将源域数据集中的图像和转换域图像组成有标记的多样化域；

(5)训练多层特征域适应网络：

(5a)将有标记的多样化域图像和无标记的目标域训练集图像并行输入到多层特征域适应网络中，经随机梯度下降算法迭代更新该多层特征域适应网络的权值，每次迭代时，第一并联网络中全局特征域适应子网络对每个输入特征图进行加权，优化多层特征域适应网络的损失直至收敛，得到训练好的多层特征域适应网络；同时输出输入图像的所有目标框的位置、目标框的类别和目标框的置信度得分；

(5b)将目标域训练集中的图像输入到训练好的多层特征域适应网络，输出带有目标框的位置、目标框的类别和目标框的置信度得分的伪标记图像；

(6)利用迭代伪标记方法训练Faster R-CNN：

(6a)从每个伪标记图像中挑选出所有目标框的置信度高于置信度阈值的目标框，组成该伪标记图像的实例级伪标记图像；

(6b)将所有实例级伪标记图像组成候选图像集；

(6c)将候选图像集中每个实例级伪标记图像的所有目标框的置信度得分的平均值排序；

(6d)将平均值排序的前二分之一的实例级伪标记图像组成初始图像集；

(6e)将初始图像集的图像输入到Faster R-CNN中，进行迭代训练直至Faster R-CNN的损失函数收敛，得到训练好的Faster R-CNN，同时输出输入图像的所有目标框的位置、目标框的类别和目标框的置信度得分；

(6f)将候选样本集中平均值排序的后二分之一的实例级伪标记图像去除实例级伪标记后输入到训练好的Faster R-CNN中，输出带有目标框的位置、目标框的类别和目标框的置信度得分的二次伪标记图像；

(6g)从每个二次伪标记图像中挑选出所有目标框的置信度高于置信度阈值的目标框，组成该二次伪标记图像的二次实例级伪标记图像；

(6h)将所有二次实例级伪标记图像与初始图像集组成更新图像集，将更新图像集输入Faster R-CNN，进行迭代训练直至Faster R-CNN的损失函数收敛，训练完成，得到训练好的目标检测模型；

(7)对目标域测试集中的测试SAR图像进行位置检测：

将目标域测试集中的测试SAR图像输入到收敛后的目标检测模型中，输出测试SAR图像的目标框位置；

本发明与现有技术相比具有以下优点：

第一，由于本发明将源域数据集中的图像和转换域图像组成有标记的多样化域，构建多层特征域适应网络和利用迭代伪标记方法训练Faster R-CNN，借助了有标记的源域数据的知识生成伪标记，提高了无标记目标域图像特征的判别性，克服了现有技术难以对目标域数据进行背景杂波模型建模导致的准确率不高的问题，使得本发明可以在无标记的目标域数据情况下取得较高的准确率。

第二，由于本发明训练循环一致性生成对抗网络并输出与目标域数据集图像分布相似且与源域数据集中图像共享标记的转换域图像，再将有标记的多样化域图像和无标记的目标域训练集图像并行输入到多层特征域适应网络中，然后利用迭代伪标记方法训练Faster R-CNN，整个过程不需要带有标记的目标域数据，克服了现有技术中目标域需要使用标记的图像训练目标检测网络的缺点,使得本发明具有不需要人工标记的目标域数据的优点。

附图说明

图1是本发明的流程图；

图2是本发明的仿真图。

具体实施方式

下面结合附图对本发明做进一步的描述。

参照图1，对本发明实现的具体步骤做进一步的描述。

步骤1，生成源域数据集。

从合成孔径雷达SAR图像集的有标记图像中，任意选取带有各自标记的至少300个图像组成源域数据集。

步骤2，目标域训练集和目标域测试集。

从合成孔径雷达SAR图像集的无标记图像中，任意选取无标记的至少100个图像组成目标域训练集。

从合成孔径雷达SAR图像集的无标记图像中，除目标域训练集所选图像之外的图像中任意选取无标记的至少30个图像组成目标域测试集。

步骤3，构建多层特征域适应网络。

搭建一个18层的基础卷积子网络，其结构依次为：第一卷积层，第二卷积层，第一池化层，第三卷积层，第四卷积层，第二池化层，第五卷积层，第六卷积层，第七卷积层，第三池化层，第八卷积层，第九卷积层，第十卷积层，第四池化层，第十一卷积层，第十二卷积层，第十三卷积层，第五池化层。

各层参数设置如下：将第一至十三卷积层的卷积核大小均设置为3×3；将第一至十三卷积层的卷积核数量分别设置为64、64、128、128、256、256、256、512、512、512、512、512、512；将第一至第五池化层的池化区域大小均设置为2×2。

搭建一个6层的全局特征域适应子网络，其结构依次为：输入层，第一卷积层，第二卷积层，第三卷积层，第一全连接层，输出层。

各层参数设置如下：将第一至三卷积层的卷积核大小均设置为3×3；将第一至三卷积层的卷积核数量分别设置为512,128,128；将第一全连接层的输出维度设置为2。

搭建一个5层的实例层区域特征域适应子网络，其结构依次为：输入层，第一全连接层，第二全连接层，第三全连接层，输出层。

各层参数设置如下：将第一至第三全连接层的输出维度分别设置为：100、100、2。

将全局特征域适应子网络的输入层与基础卷积子网络的第十一个卷积层并联后得到第一并联网络；将全局特征域适应子网络的输入层与Faster R-CNN中的RPN并联后得到第二并联网络；将实例层区域特征域适应子网络的输入层与Faster R-CNN中的检测头子网络并联后得到第三并联网络；将基础卷积子网络的第十个卷积层、将第一并联网络、第二并联网络、Faster R-CNN中的ROI和第三并联网络依次串联，组成多层特征域适应网络。

步骤4，训练循环一致性生成对抗网络。

将源域数据集中的图像和目标域训练集中的图像并行输入到现有技术的循环一致性生成对抗网络中，经Adam算法迭代更新该对抗网络的权值至损失函数收敛，输出与目标域数据集图像分布相似且与源域数据集中图像共享标记的转换域图像。

将源域数据集中的图像和转换域图像组成有标记的多样化域。

步骤5，训练多层特征域适应网络。

将有标记的多样化域图像和无标记的目标域训练集图像并行输入到多层特征域适应网络中，经随机梯度下降算法迭代更新该多层特征域适应网络的权值，每次迭代时，第一并联网络中全局特征域适应子网络对每个输入特征图进行加权，优化多层特征域适应网络的损失直至收敛，得到训练好的多层特征域适应网络；同时输出输入图像的所有目标框的位置、目标框的类别和目标框的置信度得分。

对每个输入特征图进行加权的步骤如下：

第1步，按照下式，计算每个输入特征图的权值：

其中，w_i表示第i个输入特征图的权值，表示第i个输入特征图在第一并联网络中的全局特征域适应子网络的输出概率，log表示以10为底的对数操作；

第2步，按照下式，对每个输入特征图进行加权：

R_i＝f_i×(1+w_i).

其中，R_i表示第i个输入特征图加权后的特征图，f_i表示第i个输入特征图。

多层特征域适应网络的损失为：

其中，表示多层特征域适应网络的损失，/>表示多层特征域适应网络输出目标框的位置损失，/>表示多层特征域适应网络输出目标框的类别损失，/>表示多层特征域适应网络中全局特征域适应损失，/>表示多层特征域适应网络中实例层特征向量域适应损失，λ表示域适应损失函数的权重，λ∈[0,1]。

所述全局特征域适应损失为：

其中，m表示输入特征图的序号，k表示全局特征域适应子网络的序号，k＝1表示第一并联网络中的全局特征域适应子网络，k＝2表示第二并联网络中的全局特征域适应子网络，d_m表示第m个输入特征图的域标签，表示第m个输入特征图在第k个全局特征域适应子网络的输出概率。

优化全局特征域适应损失时，全局特征域适应子网络权值的梯度在反向传播过程中保持不变，最小化全局特征域适应损失；对与全局特征域适应子网络串联的基础卷积子网络权值的梯度使用梯度反转操作取反，最大化全局特征域适应的损失。

所述实例层区域特征域适应损失为：

其中，n表示输入特征图的序号，j表示输入特征图的特征向量的序号，p_n,j表示第n个输入特征图的第j个特征向量在实例层区域特征域适应子网络的输出概率。

优化实例层区域特征域适应损失时，实例层区域特征域适应子网络权值的梯度在反向传播过程中保持不变，最小化实例层区域特征域适应损失；对与实例层区域特征域适应子网络串联部分的梯度使用梯度反转操作取反，最大化实例层区域特征域适应损失。

将目标域训练集中的图像输入到训练好的多层特征域适应网络，输出带有目标框的位置、目标框的类别和目标框的置信度得分的伪标记图像。

步骤6，利用迭代伪标记方法训练Faster R-CNN。

从每个伪标记图像中挑选出所有目标框的置信度高于置信度阈值的目标框，组成该伪标记图像的实例级伪标记图像。

所述的置信度阈值是在0.5至1.0之间由经验选取的任意数值。

将所有实例级伪标记图像组成候选图像集。

将候选图像集中每个实例级伪标记图像的所有目标框的置信度得分的平均值排序。

将平均值排序的前二分之一的实例级伪标记图像组成初始图像集。

将初始图像集的图像输入到Faster R-CNN中，进行迭代训练直至Faster R-CNN的损失函数收敛，得到训练好的Faster R-CNN，同时输出输入图像的所有目标框的位置、目标框的类别和目标框的置信度得分。

将候选样本集中平均值排序的后二分之一的实例级伪标记图像去除实例级伪标记后输入到训练好的Faster R-CNN中，输出带有目标框的位置、目标框的类别和目标框的置信度得分的二次伪标记图像。

从每个二次伪标记图像中挑选出所有目标框的置信度高于置信度阈值的目标框，组成该二次伪标记图像的二次实例级伪标记图像。

将所有二次实例级伪标记图像与初始图像集组成更新图像集，将更新图像集输入Faster R-CNN，进行迭代训练直至Faster R-CNN的损失函数收敛，训练完成，得到训练好的目标检测模型。

步骤7，利用迭代伪标记方法训练Faster R-CNN。

将目标域测试集中的测试SAR图像输入到收敛后的目标检测模型中，输出测试SAR图像的目标框位置。

下面结合仿真实验对本发明的效果做进一步的描述。

1.仿真实验条件。

本发明的仿真实验的硬件平台为：处理器Intel Xeon CPU，处理器主频2.10GHz，内存128GB，图形处理器NVIDIA GeForce GTX 2080Ti GPU。

本发明的仿真实验的软件平台为：Ubuntu 18.04Linux操作系统，Pytorch。

本发明的仿真实验的所使用的源域数据集来自FARADSAR数据集，该数据集是由美国桑迪亚国家实验室2015年采集的停车场数据集，本发明的仿真实验挑选了78张原始遥感大图，图像大小在1300×580像素到1700×1850像素之间，图像格式为png，78张大图经过裁剪得到330张300×300像素的子图像，组成了源域数据集。

本发明的仿真实验的所使用的目标域数据集来自miniSAR数据集，该数据集是由美国桑迪亚国家实验室2005年采集的停车场数据集，本发明的仿真实验挑选了9张原始遥感大图，图像大小均为1638×2510像素，图像格式为png，其中七张大图经过裁剪得到110张300×300像素的子图像，组成了目标域训练集，剩余两张大图经过裁剪得到33张300×300像素的子图像，构成了目标域测试集。

2.仿真实验内容及结果分析：

本发明的仿真实验是采用本发明和现有技术Faster R-CNN分别对输入的miniSAR数据集中的测试图像进行目标检测，得到检测结果。

在本发明的仿真实验中的现有技术Faster R-CNN仅使用源域数据集进行训练并对输入的miniSAR数据集中的测试图像进行目标检测，现有技术Faster R-CNN是指，S.Ren等人在“Faster R-CNN:Towards realtime object detection with region proposalnetworks.,Proc.Adv.Neural Inf.Process.,pp.91–99,2015”中提出的目标检测方法。

下面结合图2的仿真图对本发明的效果做进一步的描述。

图2为本发明与现有技术在miniSAR数据集中的两张测试原始大图上的检测结果，图中白色的矩形框表示正确的检测结果，白色虚线的矩形框表示错误的检测结果，黑色的矩形框表示漏检的车辆目标。图2(a)为仅使用源域数据集进行训练现有技术Faster R-CNN对miniSAR数据集的第一幅测试原始大图的检测结果。图2(b)为仅使用源域数据集进行训练现有技术Faster R-CNN对miniSAR数据集的第二幅测试原始大图的检测结果。图2(c)为本发明对miniSAR数据集的第一幅测试原始大图的检测结果。图2(d)为本发明对miniSAR数据集的第二幅测试原始大图的检测结果。

由图2(a)可以看出，仅使用源域数据集进行训练现有技术Faster R-CNN的检测结果图中的左上角、右上角和右侧车辆目标集中区域存在大量的漏警目标。

由图2(b)可以看出，仅使用源域数据集进行训练现有技术Faster R-CNN的检测结果图中右侧车辆目标集中区域存在许多漏警目标。

由图2(c)可以看出，图中的左上角、右侧车辆目标集中区域仅有少量漏警，图中右上角漏警情况有所减少，这是因为车辆目标过于密集，给检测带来了一定难度。

由图2(d)可以看出，图中右侧车辆目标集中区域仅有少量漏警。

对比图2(a)和图2(c)，图2(b)和图2(d)的检测结果可以发现，本发明的方法能够有效地减少目标检测中漏警的数量，提高了SAR目标检测的性能。

利用F1-score对本发明仿真实验中所使用的两种方法的检测结果进行下面评价。利用下面公式，计算F1-score,将所有计算结果绘制成表1：

表1.仿真实验中本发明和现有技术检测结果的定量分析表

结合表1可以看出，本发明的F1-score比现有的技术Faster R-CNN提升了7.96％，说明本发明相比于现有的技术具有更为优良的检测性能，具有重要的实际意义。

综上所述，本发明通过借助有标记的源域数据的知识帮助目标域数据学习，有效的提高了SAR图像目标的检测精度。

Claims

1.一种基于无监督域适应CNN的SAR图像目标检测方法，其特征在于，组成有标记的多样化域，构建多层特征域适应网络，利用迭代式伪标记方法训练Faster R-CNN，对无标记的目标域测试集图像进行位置检测，该方法的具体步骤包括如下：

(1)生成源域数据集：

(2)生成目标域训练集和目标域测试集：

(3)构建多层特征域适应网络：

(4)训练循环一致性生成对抗网络：

(5)训练多层特征域适应网络：

(6)利用迭代伪标记方法训练Faster R-CNN：

(6b)将所有实例级伪标记图像组成候选图像集；

(7)对目标域测试集中的测试SAR图像进行位置检测：

2.根据权利要求1所述的基于无监督域适应CNN的SAR图像目标检测方法，其特征在于，步骤(5a)中所述对每个输入特征图进行加权的步骤如下：

第一步，按照下式，计算每个输入特征图的权值：

第二步，按照下式，对每个输入特征图进行加权：

R_i＝f_i×(1+w_i).

3.根据权利要求1中所述的基于无监督域适应CNN的SAR图像目标检测方法，其特征在于，步骤(5a)中所述的多层特征域适应网络的损失为：

L＝L_loc+L_cls+λ(L_g+L_ins)

其中，L表示多层特征域适应网络的损失，L_loc表示多层特征域适应网络输出目标框的位置损失，L_cls表示多层特征域适应网络输出目标框的类别损失，L_g表示多层特征域适应网络中全局特征域适应损失，L_ins表示多层特征域适应网络中实例层区域特征域适应损失，λ表示域适应损失函数的权重，λ∈[0,1]；

所述全局特征域适应损失为：

其中，m表示输入特征图的序号，k表示全局特征域适应子网络的序号，k＝1表示第一并联网络中的全局特征域适应子网络，k＝2表示第二并联网络中的全局特征域适应子网络，d_m表示第m个输入特征图的域标签，表示第m个输入特征图在第k个全局特征域适应子网络的输出概率；

所述实例层区域特征域适应损失为：

4.根据权利要求1所述的基于无监督域适应CNN的SAR图像目标检测方法，其特征在于，步骤(6a)、(6g)中所述的置信度阈值是在0.5至1.0之间由经验选取的任意数值。