CN112115916A - 域适应Faster R-CNN半监督SAR检测方法 - Google Patents
域适应Faster R-CNN半监督SAR检测方法 Download PDFInfo
- Publication number
- CN112115916A CN112115916A CN202011046498.7A CN202011046498A CN112115916A CN 112115916 A CN112115916 A CN 112115916A CN 202011046498 A CN202011046498 A CN 202011046498A CN 112115916 A CN112115916 A CN 112115916A
- Authority
- CN
- China
- Prior art keywords
- domain
- target
- data
- cnn
- rpn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Astronomy & Astrophysics (AREA)
- Multimedia (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于域适应Faster R‑CNN半监督SAR检测方法,解决了少量标记图像下SAR目标检测性能下降的问题。实现步骤:获取含标签的源域和少量标签的目标域数据;利用源域数据训练原始Faster R‑CNN;构建域适应Faster R‑CNN并初始化,利用源域和目标域数据进行训练,得到训练好的模型;将目标域测试数据输入训练好的模型,得到测试数据的检测结果。本发明构建域适应Faster R‑CNN,增设域适应和解码器模块,用含光学遥感图像辅助SAR目标检测,降低了对含标签SAR图像的依赖性,并通过解码器模块学习目标域数据全局信息,进一步提升检测性能。应用于SAR图像目标检测。
Description
技术领域
本发明属于雷达图像处理技术领域,更进一步涉及合成孔径雷达(SAR,SyntheticAperture Radar)图像自动目标识别,具体是一种基于域适应Faster R-CNN的半监督SAR目标检测方法,可以用于SAR图像目标检测,包括对于停车场车辆检测。
背景技术
合成孔径雷达(SAR)是主动式微波成像雷达,可以实现对静止目标(如舰船、车辆等)全天候、全天时的实时远距离监测。随着雷达成像技术的高速发展,SAR自动目标识别(ATR)领域发展迅速。通常,SAR ATR包括以下三步:目标检测、目标鉴别和目标识别。目标检测作为SAR ATR步骤中的第一步,主要用于确定SAR图像中的感兴趣目标的位置,SAR目标检测技术在民用和军用的众多领域得到了广泛的应用。
现有的SAR目标检测方法中,由于模型简单和检测速度快等优点,恒虚警检测(CFAR)成为了一种广泛应用的检测方法。CFAR算法要求SAR图像中的目标与杂波对比度较高,并且假设杂波服从高斯分布。该算法需要首先给定虚警率概率,计算检测阈值;然后计算待检测像素点的统计检测量;最后将待检测像素点的统计检测量与检测阈值对比,如果大于阈值则判断为目标对应的像素点,否则判断为杂波对应的像素点。由于CFAR算法需要对整幅SAR图像中的每个像素点进行相同的操作,因此检测时间较长。同时,由于CFAR算法需要根据目标的先验信息设置固定大小的窗口,因此当SAR图像中不用目标的尺寸相差较大时算法的检测性能下降明显。
随着卷积神经网络(CNN)的发展,CNN由于其强大的特征提取能力,在图像目标检测、分割和识别等领域取得了广泛的应用。西安电子科技大学在其申请的专利文献“基于卷积神经网络的SAR图像目标检测方法”(专利申请号:CN201610561587.2,公开号:CN106228124A)中公开了一种SAR图像目标检测方法。该方法的处理步骤是:首先构建基于CNN的目标检测网络,然后利用含有标记的SAR图像进行模型训练,当模型训练收敛之后,采用训练好的检测网络对测试图像进行测试,得到测试图像的检测结果。该方法采用了CNN设计目标检测网络,充分利用了CNN的强大特征提取能力,并实现了较好的目标检测性能。但是该方法依赖于大量的标记训练图像,当含标记的图像获取困难,该方法的SAR目标检测性能大幅下降。Girshick等人提出R-CNN模型,结合了选择搜索(selective search)算法预测感兴趣的区域从而有效提升了检测准确性和速度。借鉴空间金字塔(SPP-nets)的思想,Girshick等人进一步地提出了Fast R-CNN,避免了区域中特征的重复提取。Fast R-CNN克服了R-CNN的速度限制并且进一步提升了检测精度。但是Fast R-CNN中由于存在选择性搜索,需要找出所有的候选框,仍然十分耗时。Ren等人使用区域提取网络(RPN)代替原来的选择性搜索算法得到Faster R-CNN,最终构成一个端到端的检测框架,有效的提升了检测效率。但是Faster R-CNN需要大量的含标记训练数据用于网络训练,当含标记的训练数据较少时,Faster R-CNN的检测性能明显下降。
现有的目标检测方法,无论是传统的CNN还是改进后的Faster R-CNN,均是全监督的目标检测方法,其存在的问题均是需要大量含有标记的训练样本进行网络训练,标记训练样本较少的情况下,这些全监督的目标检测方法在训练时容易过拟合,导致对测试数据的SAR目标检测性能明显下降。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种在少量标记SAR图像下具有更好目标检测性能的基于域适应Faster R-CNN的半监督目标检测方法。
本发明是一种基于域适应Faster R-CNN的半监督SAR目标检测方法,其特征在于,包括有以下步骤:
(1)获取源域和目标域数据:源域和目标域数据对应为相似场景下的光学遥感图像和SAR图像数据,其中含有标签的源域数据表示为i表示含有标签的源域数据中的样本索引,且i=1,…,Ns,其中Ns表示源域的样本总个数,表示源域的第i个样本,表示源域第i个样本对应的标签;含有少量标签样本的目标域训练数据表示为Dt=Dl∪Du,其中目标域中有标签的训练数据表示为k1表示含有少量标签的目标域训练数据中的样本索引,且k1=1,…,Nl,Nl表示目标域训练数据中含有标签的样本总个数,表示目标域训练数据中含有标签的第k1个样本,表示目标域的第k1个样本的标签;目标域中不含标签的训练数据表示为k2表示含有不含标签的目标域训练数据中的样本索引,且k2=1,…,Nu,其中Nu表示目标域训练数据中不含标签的样本总个数,目标域训练数据中含标签的样本数量较少,即Nl<<Nu;不含标签的目标域测试数据表示为m表示含有少量标签的目标域训练数据中的样本索引,且m=1,…,Ntest,其中Ntest表示目标域中测试样本总个数,表示目标域测试数据中的第m个样本;
(2)利用源域数据训练并优化原始Faster R-CNN:调用原始的Faster R-CNN,该网络依次连接有基础网络,RPN和ROI结构,其中基础网络采用vgg16结构,RPN包括两个卷积层,ROI包含两个全连接层;vgg16采用在ImageNet数据集上预训练的模型作为基础网络的初始化,而RPN和ROI这两部分结构采用随机初始化;计算原始Faster R-CNN的损失函数L'supervised=L'RPN+L'ROI,其中L'RPN表示RPN结构的损失函数,L'ROI表示ROI结构的损失函数;采用随机梯度下降算法优化原始Faster R-CNN的损失函数L'supervised,学习原始Faster R-CNN中的基础网络、RPN和ROI这三部分的网络参数,得到训练好的原始Faster R-CNN;
(3)构造域适应Faster R-CNN模型:在原始Faster R-CNN框架下增设了一个域适应模块和一个解码器模块,构造的域适应Faster R-CNN模型具体地包括两个并列的基础网络,即源域的基础网络和目标域的基础网络,在目标域的基础网络之后并行连接有RPN结构和解码器结构,在RPN结构之后连接ROI结构;源域的基础网络和目标域的基础网络各自提取的特征图之间增加了一个基于最大均值差异(MMD)的约束项,构成了增设的域适应模块,目标域的基础网络之后连接的解码器结构构成了增设的解码器模块;域适应Faster R-CNN模型的输入分别是源域数据输入到源域基础网络,目标域数据输入到目标域基础网络中,域适应Faster R-CNN模型具有两个输出,一个输出是ROI结构的输出,该输出完成对目标域数据的检测,另一个输出是解码器模块的输出,解码器模块对目标域数据重构,整体形成域适应Faster R-CNN模型;
(4)对构建的域适应Faster R-CNN模型参数初始化:目标域的基础网络采用vgg16结构,并利用在ImageNet数据集上预训练的vgg16结构进行初始化,域适应Faster R-CNN模型中的源域基础网络采用已经训练好的原始Faster R-CNN的基础网络,RPN、ROI结构和解码器部分的网络参数采用随机初始化;
(5)利用源域和目标域数据训练并优化构建的域适应Faster R-CNN:具体训练包括:
(5a)计算域适应Faster R-CNN的损失函数L:域适应Faster R-CNN的损失函数L=Lsupervised+αLMMD+βLrecon包括三项,第一项Lsupervised表示RPN、ROI的检测损失,第二项LMMD为是源域和目标域数据的特征图之间的域适应损失,第三项Lrecon为目标域数据的重构损失,其中α和β分别表示域适应损失和重构损失的权重;RPN、ROI的检测损失表示为Lsupervised=LRPN+LROI,RPN结构的损失表示为LRPN=LRPN_reg+LRPN_cls,其中LRPN_reg表示RPN部分的边框回归损失,LRPN_cls表示RPN结构的分类损失;ROI结构的损失表示为LROI=LROI_reg+LROI_cls,其中LROI_reg表示ROI结构的边框回归损失,LROI_cls表示ROI结构的分类损失;
(5b)设置参数:设置优化算法的学习率λ以及迭代次数t,迭代次数初始化为t=1,迭代总次数设置为epoch,同时设置域适应损失和重构损失的权重分别α和β,α∈[0,1],β∈[0,1];
(5c)域适应Faster R-CNN模型训练:采用随机梯度下降算法对域适应Faster R-CNN模型的损失函数L进行优化,学习目标域的基础网络、RPN、ROI和解码器这四个模块的网络参数;
(5d)判断:判断当前迭代次数t=epoch是否成立,若是,得到训练好的域适应Faster R-CNN模型,执行步骤(6),对目标域测试数据进行测试,否则t<epoch,令t=t+1,执行步骤(5c),继续进行域适应Faster R-CNN模型的训练;
(6)对目标域测试数据进行测试:将目标域的测试数据输入到已经训练好的域适应Faster R-CNN的目标域基础网络中,通过前向传播得到测试数据的特征图,然后将测试数据特征图输入到RPN结构中,输出则为预测的疑似目标区域的位置信息,最后将RPN输出的疑似目标区域的位置信息输入到RIO结构中,RIO结构输出即为SAR图像测试数据的目标检测结果,完成半监督SAR目标检测,得到最终检测结果。
本发明解决了少量标记图像下SAR目标检测性能下降的问题。
与现有技术相比,本发明具有如下优点:
减小对标记样本的依赖性:本发明提出的域适应Faster R-CNN在原始Faster R-CNN网络的基础上增设了域适应和解码器模块,其中增设的域适应模型利用含有丰富标记样本的光学遥感图像来辅助含有少量标记图像的SAR目标检测,由于光学遥感图像数据量丰富、标记容易,大量含标记的光学遥感图像可以学习表达性能较好的特征,本发明利用域适应的思想,约束SAR图像的特征,使其和光学图像的特征尽可能相似,使得学习得到的SAR图像特征的表达性能也得到提升,降低了目标检测对含标记SAR图像的依赖性。相对于目前的技术,本发明只用了少量的含标记SAR图像,达到了较好的检测性能。
检测性能进一步提高:本发明提出的域适应Faster R-CNN在原始Faster R-CNN网络的基础上增设了域适应和解码器模块,其中增设的解码器模块,用于对目标域中的SAR图像进行重构,从SAR图像中学习特征的全局信息,使得域适应Faster R-CNN对SAR图像提取的特征包含的目标信息更加丰富,从而进一步提升SAR目标检测性能。实验的实测数据也表明,本发明的方法将SAR目标的检测率F1-Score提升5.15%。
附图说明
图1为本发明的流程图。
图2为预训练源域Faster R-CNN的网络结构示意图。
图3为域适应Faster R-CNN的网络结构示意图。
图4为测试阶段的网络结构示意图。
图5为本发明与现有技术的检测结果对比图。
下面结合附图和具体实施例,对本发明作进一步详细描述。
具体实施方式
实施例1
目前大部分的SAR目标检测方法需要大量的含标签数据进行训练,这些SAR目标检测方法对标记样本的依赖性较强。由于SAR图像一般数量较少、标记需耗费大量的人力物力,因此,含标记的SAR图像获取较困难,通常含标记的SAR图像数据量较少。当含标签的SAR图像训练数据较少时,这些SAR目标检测方法提取的特征对目标的表达性能有限,进一步影响检测性能,导致目前基于CNN的SAR目标检测方法的检测性能急剧下降。本发明针对上述现状,展开了研究与实验,提出了一种基于域适应Faster R-CNN的半监督SAR目标检测方法,可以明显提升少量标记下的SAR目标检测性能。
本发明是一种基于域适应Faster R-CNN的半监督SAR目标检测方法,本发明针对SAR图像数量有限、标记困难的问题,利用数量充足、标记丰富的相似场景下的光学遥感图像来辅助SAR目标检测,同时引入一个解码器来进一步提升检测性能,参见图1,包括有以下步骤:
(1)获取源域和目标域数据,并将目标域数据划分为训练和测试数据:源域和目标域数据对应为相似场景,比如停车场数据,相似场景的光学遥感图像和SAR图像数据,其中含有标签的源域数据表示为i表示含有标签的源域数据中的样本索引,且i=1,…,Ns,其中Ns表示源域的样本总个数,表示源域的第i个样本,表示源域第i个样本对应的标签。含有少量标签样本的目标域训练数据表示为Dt=Dl∪Du,其中目标域中有标签的训练数据表示为k1表示含有少量标签的目标域训练数据中的样本索引,且k1=1,…,Nl,Nl表示目标域训练数据中含有标签的样本总个数,表示目标域训练数据中含有标签的第k1个样本,表示目标域的第k1个样本的标签。目标域中不含标签的数据表示为k2表示含有不含标签的目标域训练数据中的样本索引,且k2=1,…,Nu,其中Nu表示目标域训练数据中不含标签的样本总个数,目标域训练数据中含标签的样本数量较少,即Nl<<Nu。不含标签的目标域测试数据表示为m表示含有少量标签的目标域训练数据中的样本索引,且m=1,…,Ntest,其中Ntest表示目标域中测试样本总个数,表示目标域测试数据中的第m个样本。源域数据中含有标记的样本数量相比于目标域中含有标记的样本数据更丰富,即Ns>>Nl。
(2)利用源域数据训练并优化原始Faster R-CNN:调用原始的Faster R-CNN,该网络依次连接有基础网络,RPN和ROI结构,参考图2,在图2中显示为Base Net1、RPN和FC。源域数据经过基础网络(Base Net1)得到特征图(feature map),然后该特征图输入到RPN结构中,RPN的输出和特征图一起输入ROI结构(FC)中,ROI结构(FC)的输出为对源域数据的检测结果。其中基础网络采用vgg16结构,RPN包括两个卷积层,ROI包含两个全连接层。vgg16采用在ImageNet数据集上预训练的模型作为基础网络的初始化,而RPN和ROI这两部分结构采用随机初始化;计算原始Faster R-CNN的损失函数L'supervised=L'RPN+L'ROI,其中L'RPN表示RPN结构的损失函数,L'ROI表示ROI结构的损失函数。采用随机梯度下降算法优化原始Faster R-CNN的损失函数L'supervised,学习原始Faster R-CNN中的基础网络、RPN和ROI这三部分的网络参数,得到训练好的原始Faster R-CNN,具体包括有如下步骤:
(2a)调用原始的Faster R-CNN结构:原始Faster R-CNN中依次连接有基础网络,RPN和ROI结构。基础网络采用vgg16结构,vgg16中包含了13个卷积层和4个最大池化层,RPN包括两个卷积层,ROI包含两个全连接层。
(2b)原始Faster R-CNN的权值参数初始化:采用在ImageNet数据集上预训练的vgg16作为基础网络的初始化,而RPN和ROI这两部分结构采用随机初始化。原始Faster R-CNN的基础网络也可以采用随机初始化的方式,由于vgg16的卷积层数较多,采用随机初始化会使得原始Faster R-CNN在训练过程收敛较慢,需要较多的迭代次数进行训练,耗费更多的训练时间。ImageNet数据集包含数据量非常大,在该数据集上训练的vgg16具有较好的特征提取能力。因此本发明采用在ImageNet数据集上预训练的vgg16作为基础网络的初始化,这可以加快模型的收敛速度,减少模型训练的迭代次数,减少训练耗费的时间。
(2c)计算原始Faster R-CNN的损失函数:原始Faster R-CNN的损失函数包括RPN和ROI这两部分的损失,表示为L'supervised=L'RPN+L'ROI,RPN结构的损失表示为L'RPN=L'RPN_reg+L'RPN_cls,其中L'RPN_reg表示RPN部分的边框回归损失,L'RPN_cls表示RPN结构的分类损失;ROI部分的损失表示为L'ROI=L'ROI_reg+L'ROI_cls,其中L'ROI_reg表示ROI结构的边框回归损失,L'ROI_cls表示ROI结构的分类损失。原始的Faster R-CNN是一个两步检测网络,其中第一步的检测网络由RPN结构完成,RPN结构输出源域数据中的疑似目标的预测位置以及类别判断,第二步的检测网络由ROI结构完成,在RPN结构的初步检测结果基础上,经过ROI结构进一步得到对源域数据的目标精细检测结果,包括对目标的预测位置以及类别判断。
(2d)设置参数:设置随机梯度下降算法的学习率λ1以及迭代次数t1,迭代次数初始化为t1=1,迭代总次数设置为epoch1。本发明采用随机梯度下降算法优化原始Faster R-CNN,该随机梯度下降算法的参数包括学习率λ1和迭代总次数epoch1,学习率λ1∈(0,1],学习率越大,表示每次优化更新损失函数的步长越大,但是学习率过大,会导致随机梯度下降算法优化损失函数时,越过最优值,无法学习得到最优的参数;但是学习率过小,会导致随机梯度下降算法优化损失函数时,陷入局部最小值,仍然无法学习得到最优的参数。随机梯度下降算法的迭代次数epoch1如果设置的过小,网络的损失函数没有完全收敛,无法学习到较好的网络参数;epoch1如果设置的过大,所需要的迭代次数较多,耗费的训练时间较长。一般地,本发明根据经验,采用随机梯度下降算法优化原始Faster R-CNN时,学习率设置为10-5~10-4,迭代总次数一般epoch1设置为15~30。
(2e)网络参数优化:采用随机梯度下降算法对原始Faster R-CNN的损失函数L进行优化,学习基础网络、RPN和ROI这三部分的网络参数。原始Faster R-CNN的优化方式有两种,一种是四步迭代法,这种方法耗费时间长,另一种是对原始Faster R-CNN的损失函数L联合优化,这种方式训练时间短,效果更好。本发明对原始Faster R-CNN的损失函数采用联合优化的方式对对原始Faster R-CNN进行训练。
(2f)判断:判断当前迭代次数t1=epoch1是否成立,若是,得到训练好的Faster R-CNN,继续执行步骤(3),否则t1<epoch1,令t1=t1+1,执行步骤(2e)继续下一次迭代时的网络参数优化。
(3)构造域适应Faster R-CNN模型:在原始Faster R-CNN框架下增设了一个域适应模块和一个解码器模块,构造的域适应Faster R-CNN模型具体地包括两个并列的基础网络,即源域的基础网络和目标域的基础网络,在目标域的基础网络之后并行连接有RPN结构和解码器结构,在RPN结构之后连接ROI结构。参考图3,搭建的域适应Faster R-CNN模型包括目标域的基础网络、源域的基础网络、RPN、ROI、解码器模块,在图3分别显示为Encoder(Base Net2)、Base Net1、RPN、FC、Decoder。目标域数据经过目标域的基础网络Encoder(Base Net2)得到目标域数据的特征图,源域数据经过源域的基础网络(Base Net1)得到源域数据的特征图(feature map),源域和目标域数据的特征图之间采用了MMD的约束,目标域数据的特征图输入到RPN结构中,RPN的输出和特征图一起输入ROI结构(FC)中,ROI结构(FC)的输出为对目标域数据的检测结果,目标域数据的特征图输入到解码器(Decoder)中,输出对目标域数据的重构结果。目标域的基础网络,其之后连接的RPN、ROI构成原始的Faster R-CNN,源域的基础网络和目标域的基础网络各自提取的特征图之间增加了一个基于最大均值差异(MMD)的约束项,构成了增设的域适应模块,目标域的基础网络之后连接的解码器结构构成了增设的解码器模块。域适应Faster R-CNN模型的输入包括两部分,分别是源域数据输入到源域基础网络,目标域数据输入到目标域基础网络中,域适应Faster R-CNN模型具有两个输出,一个输出是ROI结构的输出,该输出完成对目标域数据的检测,另一个输出是解码器模块的输出,解码器模块对目标域数据重构,整体形成域适应Faster R-CNN模型。本发明提出的域适应Faster R-CNN模型,在原始Faster R-CNN的基础上增设的域适应模块和一个解码器模块可以有效的解决原始Faster R-CNN对含标签训练数据的依赖性,并且目标域中无标记的训练数据可以参与目标域数据的特征提取,学习有利于SAR目标检测的特征。
(4)对构建的域适应Faster R-CNN模型参数初始化:目标域的基础网络采用vgg16结构,并利用在ImageNet数据集上预训练的vgg16进行初始化,域适应Faster R-CNN模型中的源域基础网络采用步骤(2)中在源域数据上已经训练好的原始Faster R-CNN的基础网络,RPN、ROI结构和解码器部分的网络参数采用随机初始化。在ImageNet数据集上预训练的vgg16具有较好的特征提取能力,而且ImageNet数据集的数据量巨大,学习的vgg16具有较好的泛化能力。本发明基础网络的vgg16采用ImageNet数据集上预训练的结构,这减少了域适应Faster R-CNN模型的训练时间。
(5)利用源域和目标域数据训练并优化构建的域适应Faster R-CNN:对于构建好的域适应Faster R-CNN模型,采用源域和目标域数据分别输入到域适应Faster R-CNN模型中的源域基础网络和目标域基础网络并计算的模型损失函数,然后设置域适应Faster R-CNN模型的网络参数,采用随机梯度算法训练并优化构建的域适应Faster R-CNN,具体训练包括:
(5a)计算域适应Faster R-CNN的损失函数:域适应Faster R-CNN的损失函数L=Lsupervised+αLMMD+βLrecon包括三项,第一项Lsupervised表示RPN、ROI的检测损失,第二项LMMD为是源域和目标域数据的特征图之间的域适应损失,第三项Lrecon为目标域数据的重构损失,其中α和β分别表示域适应损失和重构损失的权重。RPN、ROI的检测损失Lsupervised=LRPN+LROI,RPN结构的损失表示为LRPN=LRPN_reg+LRPN_cls,其中LRPN_reg表示RPN部分的边框回归损失,LRPN_cls表示RPN结构的分类损失;ROI部分的损失表示为LROI=LROI_reg+LROI_cls,其中LROI_reg表示ROI结构的边框回归损失,LROI_cls表示ROI结构的分类损失,因此,域适应Faster R-CNN的损失函数表示为L=Lsupervised+αLMMD+βLrecon,其中α和β分别表示域适应损失和重构损失的权重,α∈[0,1],β∈[0,1]。本发明根据经验,α取值在0.1~0.5,β取值在0.5~1时,域适应Faster R-CNN模型的检测效果较好。
(5b)设置参数:本发明采用随机梯度下降算法优化域适应Faster R-CNN模型,设置随机梯度下降算法的学习率λ以及迭代次数t,迭代次数初始化为t=1,迭代总次数设置为epoch,同时设置域适应损失和重构损失的权重分别α和β。本发明根据经验,在优化域适应Faster R-CNN模型时,随机梯度下降算法的学习率λ取值范围在10-5~10-4,迭代总次数epoch一般取15~25,可以取得较好的优化结果,检测性能较好。
(5c)域适应Faster R-CNN模型训练:采用随机梯度下降算法对域适应Faster R-CNN模型的损失函数L进行优化,学习目标域的基础网络、RPN、ROI和解码器这四个模块的网络参数。
(5d)判断:判断当前迭代次数t=epoch是否成立,若是,得到训练好的域适应Faster R-CNN模型,执行步骤(6),对目标域测试数据进行测试,否则t<epoch,令t=t+1,执行步骤(5c),继续进行域适应Faster R-CNN模型的训练。
(6)对目标域测试数据进行测试:参考图4,图4包括已训练好的域适应Faster R-CNN中的目标域的基础网络、RPN、ROI,在图4分别显示为Encoder(Base Net2)、RPN、FC。将目标域的测试数据输入到已经训练好的域适应Faster R-CNN的目标域基础网络Encoder(Base Net2)中,通过前向传播得到测试数据的特征图,然后将测试数据特征图输入到RPN结构中,输出则为预测的疑似目标区域的位置信息,最后将RPN输出的疑似目标区域的位置信息输入到RIO结构(FC)中,RIO结构输出即为SAR图像测试数据的目标检测结果,完成半监督SAR目标检测,得到最终检测结果。
现有的SAR目标检测方法依赖于大量的含标记训练样本,当标记样本数减少,SAR目标检测性能急剧下降。针对这一问题,本发明采用域适应Faster R-CNN,充分利用含有丰富标签的光学遥感图像来辅助SAR图像的目标检测。由于光学遥感图像更易获得,数量相对更多,同时标记相对更加容易,更易获取大量含有标签的光学遥感图像,因此本发明利用光学遥感图像辅助SAR图像的目标检测。而光学遥感图像和SAR图像为不同域的数据,本发明采用域适应的方法学习两个域的相似特征,约束SAR图像的特征使其和光学图像的特征尽可能相似,利用含有丰富标签信息的光学遥感图像来辅助SAR目标检测。通过域适应模块对光学遥感图像和SAR图像的特征图之间的最大均值差异(MMD)约束项来提取SAR图像中更具表征能力的特征,降低对标记SAR图像的依赖性。再者,本发明增设的解码器通过对目标域数据的重构来学习目标域数据的全局特征,使得提取的特征包含目标信息更加丰富,进一步提升对目标域数据的检测性能。
本发明给出了一个基于域适应Faster R-CNN的半监督SAR目标检测的完整的技术方案,采用域适应Faster R-CNN减少对标记SAR图像的依赖性,并提升少量标记图像下的SAR目标检测性能。
实施例2
基于域适应Faster R-CNN的半监督SAR目标检测方法同实施例1,本发明的步骤(3)中所述的构建域适应Faster R-CNN模型中,源域的基础网络和目标域的基础网络各自提取的特征图之间增加了一个基于最大均值差异(MMD)的约束项,构成了增设的域适应模块,所述基于最大均值差异(MMD)的约束项的表达如下:
源域和目标域数据经过各自的基础网络得到对应的特征图,源域和目标域数据的特征图之间采用最大均值差异(MMD)约束,令源域第i个样本和目标域第k个样本对应的特征图表示为和那么源域数据的特征图和目标域数据的特征图之间的MMD约束项LMMD表示为:
其中||·||2表示L2范数,Ns和Nt表示源域和目标域的样本数。
SAR图像含有标记的数量少,直接采用少量的含标签SAR数据训练网络,使得原始的Faster R-CNN提取特征的泛化性能较差,原始的Faster R-CNN检测性能受限。光学遥感图像含有丰富的标签数据,采用原始的Faster R-CNN可以提取对目标特性表达能力较好的特征。本发明提出的域适应Faster R-CNN中增设的域适应模型,充分利用含有丰富标签的光学遥感图像来辅助SAR图像的目标检测。具体地,该域适应模块是在源域和目标域数据的特征之间增设了一个基于最大均值差异(MMD)的约束,该约束使得目标域数据的特征和源域数据的特征整体分布尽可能相似。本发明通过增设域适应模块有效提升了含有少量标记图像下对SAR图像的特征表达能力,降低对含标记SAR图像的依赖能力。
根据经验,MMD约束项LMMD稳定在1~3范围内,域适应模块的效果较好,域适应Faster R-CNN模型的检测性能也越好。
实施例3
基于域适应Faster R-CNN的半监督SAR目标检测方法同实施例1-2,步骤(3)中所述构建的域适应Faster R-CNN模型中,目标域的基础网络之后连接的解码器结构构成增设的解码器模块,用于对目标域数据进行重构,该重构表达为约束项,具体如下:
将目标域数据经过域适应Faster R-CNN中的目标域基础网络提取目标域数据的特征图,然后将目标域数据的特征图输入解码器模块,解码器模块的输出为对输入的目标域数据的重构,令解码器对目标域数据中的第k个样本的重构为那么重构的约束项Lrecon表示为:
其中||·||2表示L2范数,Nt表示目标域的样本数;
本发明提出的域适应Faster R-CNN中增设的解码器模块,其结构采用的是和目标域基础网络相互对称的结构,由于基础网络采用vgg16结构,其包含13个卷积层(convolution)和4个最大池化层(maxpooling),那么对称地,解码器模块包含13个解卷积(deconvolution)和4个反最大池化层(unmaxpooling),完成对目标域中所有含标记和不含标记的SAR图像的重构。解码器模块不需用到标签信息,是一个无监督的过程,完成对目标域中大量不含有标签数据重构,学习目标域数据的全局特征信息,进一步提升域适应Faster R-CNN的目标检测性能。本发明在域适应Faster R-CNN中增设的解码器模块,通过重构损失项对目标域数据进行约束,重构损失项越小,表示重构效果越好,对特征提取的帮助作用越明显。
本发明在实践中Lrecon的值稳定在0.1~0.2范围时,重构效果较好,域适应FasterR-CNN对SAR图像的目标检测性能提升更明显。
本发明在域适应Faster R-CNN中增设的解码器模块,用于对目标域中的SAR图像进行重构,从SAR图像中学习目标特征的全局信息。域适应Faster R-CNN对SAR图像提取的特征包含的目标信息更加丰富,进一步提升SAR目标检测性能。
实施例4
基于域适应Faster R-CNN的半监督SAR目标检测方法同实施例1-3,步骤(5a)中所述的域适应Faster R-CNN的损失函数L,表示为
L=Lsupervised+αLMMD+βLrecon
其中参数α为用来控制域适应损失LMMD的权重,参数β为用来控制重构损失Lrecon的权重,是域适应Faster R-CNN模型的一个可调参数。域适应Faster R-CNN的损失函数L采用随机梯度下降算法进行优化,联合学习域适应Faster R-CNN模型中的目标域基础网络、RPN、ROI和解码器模块,而域适应Faster R-CNN模型中源域基础网络采用由步骤(2)中训练好的原始Faster R-CNN中的基础网络,其网络参数保持固定,不再随域适应Faster R-CNN模型中其他模块的参数的更新而更新。
本发明提出的基于域适应Faster R-CNN的半监督SAR目标检测方法,在原始Faster R-CNN的基础上增设了域适应模块和解码器模块,其中增设的域适应模块在目标域和源域数据的特征图之间加上了基于最大均值差异(MMD)的约束项,用于学习目标域和源域数据的相似特征;解码器模块通过对目标域数据进行重构,采用一个重构约束项,学习目标域的全局特征。域适应模块和解码器模块可以使得域适应Faster R-CNN在少量目标域标记训练数据下达到较好的SAR目标检测性能。参数α和β为用来控制域适应损失和重构损失的权重,且α∈[0,1],β∈[0,1],α和β可以根据源域和目标域数据的不同在域适应FasterR-CNN模型的优化过程中进行调整,本例中α取值在0.1~0.5,β取值在0.5~1时,所提域适应Faster R-CNN的检测性能较好。
下面给出一个结合停车场数据的更加详尽的例子,对本发明进一步说明:
实施例5
基于域适应Faster R-CNN的半监督SAR目标检测方法同实施例1-4,
(1)获取源域和目标域数据,并将目标域数据划分为训练和测试集:
(1a)构造源域训练数据:本例中获取多张停车场的光学遥感图像,每张图像经裁剪得到尺寸为M×N的子图像,允许尺寸有一定浮动,保证不会将某个目标截断;根据原始光学遥感图像上的标记信息以及裁剪尺寸可以得到对应子图像的标记信息。图像裁剪的尺寸主要考虑原始SAR图像中目标的尺寸,以及对网络计算量的要求;如果目标尺寸较大,为了保证裁剪的子图像中含有足够多的目标,M和N取较大的值;如果期望网络的计算量小,为了降低网络输入图像的尺寸,M和N取较小的值;本例中M=300,N=300,在实际中可以根据具体数据和要求进行调整。本实施例中原始训练图像共13张大图,13张大图经过裁剪共1430张M×N的子图像构成了源域训练数据集。
(1b)目标域数据划分为训练和测试集:本例中获取多张停车场的SAR图像,从中选取几张图像作为测试图像,剩余图像作为训练图像;同源域数据处理方式,将目标域的每张SAR图像经裁剪得到尺寸为M×N的子图像,允许尺寸有一定浮动,保证不会将某个目标截断,训练图像裁剪后的所有子图构成训练数据集,测试图像裁剪后的图像构成测试数据集。本例中M=300,N=300,在实际中可以根据具体数据和要求进行调整。本发明目标域训练数据多于测试数据,本实施例中原始训练图像共7张大图,测试图像2张大图。7张训练大图经过裁剪共多张M×N的子图像构成了目标域训练数据集,2张测试大图经过裁剪得110张M×N的子图像构成了目标域测试数据集。
(2)利用含有标签的源域数据训练原始Faster R-CNN:
(2a)搭建原始Faster R-CNN框架:原始Faster R-CNN包括基础网络(Base Net1)、RPN和ROI结构,参考图2,在图2中显示有Base Net1、RPN和FC。源域数据经过基础网络(BaseNet1)得到特征图(feature map),然后该特征图输入到RPN结构中,RPN的输出和特征图一起输入ROI结构(FC)中,ROI结构(FC)的输出为对源域数据的检测结果。在本发明中基础网络(Base Net1)采用VGG16结构,分别包含13个卷积层,13个Relu层和4个pooling层,具体结构为:第一个卷积层→第一个Relu层→第二个卷积层→第二个Relu层→第一个pooling层→第三个卷积层→第三个Relu层→第四个卷积层→第四个Relu层→第二个pooling层→第五个卷积层→第五个Relu层→第六个卷积层→第六个Relu层→第七个卷积层→第七个Relu层→第三个pooling层→第八个卷积层→第八个Relu层→第九个卷积层→第九个Relu层→第十个卷积层→第十个Relu层→第四个pooling层→第十一个卷积层→第十一个Relu层→第十二个卷积层→第十二个Relu层→第十三个卷积层→第十三个Relu层。RPN的具体结构为:第一个卷积层→第一个Relu层→第二个卷积层以及第三个卷积层,分别得到目标区域的预测边框以及类别。ROI结构(FC),包含两个全连接层,第一个全连接层→第一个Relu层→第二个全连接层→第二个Relu层,分别得到最终的目标预测类别以及预测框;vgg16中所有卷积核的尺寸均为3×3,卷积核步长均为1,13个卷积层中卷积核的数量分别为64、64、128、128、256、256、256、512、512、512、512、512、512;RPN中三个卷积核的尺寸分别为3×3、1×1和1×1,数量分别为512、18和36;ROI结构的两个全连接层的节点数均为4096。
(2b)Faster R-CNN参数初始化:基础网络vgg16采样在ImageNet上预训练的模型作为网络参数初始化,RPN以及ROI结构采用随机初始化。
(2c)利用含有标签的源域数据训练原始Faster R-CNN:
(2c1)构造目标函数:原始Faster R-CNN的目标函数包含RPN和ROI两部分结构的损失函数,而且每一部分的损失都包含分类损失和回归损失,其表达式为:
L’supervised=L’RPN+L’ROI
=L’RPN_reg+L’RPN_cls+L’ROI_reg+L’ROI_cls
其中RPN部分的分类损失L'RPN_cls为二分类的交叉熵损失,而ROI部分的分类损失L'ROI_cls为多分类的交叉熵损失;RPN部分和ROI部分的回归损失分别表示为L'RPN_reg和L'ROI_reg;
(2c2)网络参数优化:设置minibatch1大小,迭代次数t1,迭代次数初始化为t1=1,迭代总次数设置为epoch1,梯度下降算法的学习率λ1;从源域训练数据中每次随机选取minibatch1个样本输入到基础网络进行特征提取,然后再输入到RPN网络进行目标区域粗提取,得到预测的目标框,然后将特征图和RPN输出的目标框经过ROI Pooling得到相同尺度的特征向量,再输入到ROI模块,经过两个全连接层得到预测的类别和边框参数;采用随机梯度下降算法对原始Faster R-CNN的损失函数L'supervised进行优化,学习基础网络、RPN和ROI这三部分的网络参数;
(2c3)判断:判断当前迭代次数t1=epoch1是否成立,若是,得到训练好的FasterR-CNN,然后执行步骤(3),搭建域适应Faster R-CNN模型,否则t1<epoch1,令t1=t1+1,执行步骤(2c2),继续进行下一次迭代的网络参数优化。本实例中堆积梯度下降算法,λ1=10-5,epoch1=20;minibatch1=1。
(3)搭建域适应Faster R-CNN模型:域适应Faster R-CNN模型包括目标域的基础网络、源域的基础网络、RPN、ROI、解码器模块,参考图3,在图3分别显示为Encoder(BaseNet2)、Base Net1、RPN、FC、Decoder。目标域数据经过目标域的基础网络Encoder(BaseNet2)得到目标域数据的特征图,源域数据经过源域的基础网络(Base Net1)得到源域数据的特征图(feature map),源域和目标域数据的特征图之间采用了MMD的约束,目标域数据的特征图输入到RPN结构中,RPN的输出和特征图一起输入ROI结构(FC)中,ROI结构(FC)的输出为对目标域数据的检测结果,目标域数据的特征图输入到解码器(Decoder)中,输出对目标域数据的重构结果。目标域的基础网络Encoder(Base Net2)采用VGG16结构,分别包含13个卷积层,13个Relu层和4个pooling层,具体结构为:第一个卷积层→第一个Relu层→第二个卷积层→第二个Relu层→第一个pooling层→第三个卷积层→第三个Relu层→第四个卷积层→第四个Relu层→第二个pooling层→第五个卷积层→第五个Relu层→第六个卷积层→第六个Relu层→第七个卷积层→第七个Relu层→第三个pooling层→第八个卷积层→第八个Relu层→第九个卷积层→第九个Relu层→第十个卷积层→第十个Relu层→第四个pooling层→第十一个卷积层→第十一个Relu层→第十二个卷积层→第十二个Relu层→第十三个卷积层→第十三个Relu层;RPN的具体结构为:第一个卷积层→第一个Relu层→第二个卷积层以及第三个卷积层,分别得到目标区域的预测边框以及类别。ROI结构(FC),包含两个全连接层,第一个全连接层→第一个Relu层→第二个全连接层→第二个Relu层→第三个全连接层以及第四个全连接层,分别得到最终的目标预测类别以及预测框;Decoder模块具有和Encoder对称的结构,包含13个解卷积层,13个Relu层和4个unpooling层,具体结构:第一个解卷积层→第一个Relu层→第二个解卷积层→第二个Relu层→第三个解卷积层→第三个Relu层→第一个unpooling层→第四个解卷积层→第四个Relu层→第五个解卷积层→第五个Relu层→第六个解卷积层→第六个Relu层→第二个unpooling层→第七个解卷积层→第七个Relu层→第八个解卷积层→第八个Relu层→第九个解卷积层→第九个Relu层→第三个unpooling层→第十个解卷积层→第十个Relu层→第十一个解卷积层→第十一个Relu层→第四个unpooling层→第十二个解卷积层→第十二个Relu层→第十三个解卷积层→第十三个Relu层;源域的基础网络Base Net1固定为采用源域数据已训练的VGG16结构。Encoder中的VGG16所有卷积核的尺寸均为3×3,卷积核步长均为1,13卷积核的数量数据分别为64、64、128、128、256、256、256、512、512、512、512、512、512;RPN中三个卷积核的尺寸分别为3×3、1×1和1×1,数量分别为512、18和36;ROI网络的两个全连接层的节点数均为4096;目标域Decoder所有卷积核的尺寸均为3×3,卷积核步长均为1,13个卷积核的数量分别为512、512、512、512、512、512、256、256、256、128、128、64、64。
(4)对构建的域适应Faster R-CNN参数初始化:目标域基础网络Encoder采用vgg16结构,并利用在ImageNet数据集上预训练的vgg16结构进行初始化,RPN以及ROI结构采样随机初始化;域适应Faster R-CNN模型中的源域Base Net1采用在源域数据上已经训练好的原始Faster R-CNN的基础网络,保持固定。
(5)利用目标域和源域数据训练域适应Faster R-CNN:对于构建好的域适应Faster R-CNN模型,采用源域和目标域数据分别输入到域适应Faster R-CNN模型中的源域基础网络和目标域基础网络并计算的模型损失函数,然后设置域适应Faster R-CNN模型的网络参数,采用随机梯度算法训练并优化构建的域适应Faster R-CNN,具体训练包括:
(5a)计算目标函数:域适应Faster R-CNN的目标函数包含监督损失项Lsupervised、域适应约束项LMMD和重构约束项Lrecon,其中监督损失项为RPN和ROI两部分结构的损失函数,即Lsupervised=LRPN+LROI,而LRPN和LROI各自包含分类和回归损失两项,即监督损失项Lsupervised表示为:
Lsupervised=LRPN_reg+LRPN_cls+LROI_reg+LROI_cls
域适应模块:源域和目标域数据经过各自的基础网络得到对应的特征图,源域和目标域数据的特征图之间采用最大均值差异(MMD)约束,令源域第i个样本和目标域第k个样本对应的特征图表示为和那么源域数据的特征图和目标域数据的特征图之间的MMD约束项LMMD表示为:
其中||·||2表示L2范数,Ns和Nt表示源域和目标域的样本数。
重构模块:将目标域数据经过域适应Faster R-CNN中的目标域基础网络提取目标域数据的特征图,然后将目标域数据的特征图输入解码器模块,解码器模块的输出为对输入的目标域数据的重构,令解码器对目标域数据中的第k个样本的重构为那么重构的约束项Lrecon表示为:
其中||·||2表示L2范数,Nt表示目标域的样本数。
因此,域适应Faster R-CNN模型的整体损失函数表示为
L=Lsupervised+αLMMD+βLrecon
其中参数α和β可以用来控制域适应损失和重构损失的权重,也是网络的一个可调参数;本实例中α=1和β=0.1;
(5b)网络参数优化:设置minibatch大小,迭代次数epoch,采用梯度下降算法的学习率λ;从目标域中随机选取minibatch个样本,其中第k个样本输入到目标域对应的Encoder(Base Net2)中进行特征提取得到特征图同时从源域训练数据中随机选取minibatch个样本,其中第i个样本输入到源域对应的Base Net1中进行特征提取得到特征图源域中minibatch个样本的特征图目标域中minibatch个样本的特征图对目标域和源域提取的特征图Zt和Zs计算MMD损失;如果选取的目标域样本含有标签,则将对应的特征图输入到RPN结构中进行目标区域提取,分别得到预测类别和边框回归预测值,计算得到RPN部分的损失函数,并将RPN的输出与特征图一起输入到ROI的全连接层(FC)中对感兴趣的目标区域进行目标分类和边框回归,计算得到ROI部分的损失函数;将目标域图像的特征图输入到解码模块Decoder进行图像重构,计算重构后的图像与原始图像之间的重构误差;采用随机梯度下降算法优化域适应Faster R-CNN模型的整体损失函数L,学习域适应Faster R-CNN中的目标域基础网络、RPN、ROI和解码器这四部分的网络参数,得到训练好的域适应Faster R-CNN;本实例中目标域中含有的标签的训练数据占比30%,不含标签的训练数据占比70%,共同构成目标域中30%含有标签的训练数据集;本例中采用随机梯度下降算法,λ=10-5;minibatch=1;迭代次数t,迭代次数初始化为t=1,迭代总次数设置为epoch=20。本例中域适应Faster R-CNN训练结束后,LMMD=2.11,Lrecon=0.16。
(6)目标域测试数据输入已训练的域适应Faster R-CNN中进行测试:
(6a)参考图4,图4包括已训练好的域适应Faster R-CNN中的目标域的基础网络、RPN、ROI,在图4分别显示为Encoder(Base Net2)、RPN、FC。目标域测试数据中的多个子图经过目标域的基础网络Encoder(Base Net2)得到目标域数据子图对应的特征图,然后将特征图输入到RPN结构中得到预测的目标位置以及类别信息,然后将RPN的输出与特征图一起输入到ROI结构中得到目标域测试数据的子图检测结果,包括对目标域测试数据子图的预测目标类别和边框回归结果;
(6b)将目标域测试数据集中的子图预测结果按照原始截取子图的信息恢复到原始目标域测试图像的大图上,得到最终对目标域测试图像的检测结果。
本发明解决了少量标记图像下SAR目标检测性能下降的问题。实现步骤:分别获取含有标签的源域和含有少量标签数据的目标域数据;利用含有标签的源域数据训练原始的Faster R-CNN;构建域适应Faster R-CNN模型并初始化,利用源域和目标域数据训练域适应Faster R-CNN模型,得到训练好的域适应Faster R-CNN模型;将目标的测试图像输入到已训练好的域适应Faster R-CNN,得到测试数据的检测结果。本发明的域适应Faster R-CNN在含有少量标记SAR图像情况下检测性能较好;应用于SAR图像车辆目标检测。
以下结合仿真实验,对本发明的技术效果作以说明。
实施例6
基于域适应Faster R-CNN的半监督SAR目标检测方法同实施例1-5,
仿真条件和内容:
本实验所用数据为实测的SAR图像和光学遥感图像数据,其中SAR图像采用miniSAR数据集,具体为停车场场景的数据,光学遥感图像数据采用Toronto数据集。其中miniSAR数据集中包含9张尺寸不一的原始大图,7张选为训练,2张选为测试,Toronto数据集中13张尺寸不一的原始大图。实验中对miniSAR数据集的7张训练大图经过裁剪得到110张300×300的子图,构成目标域训练数据,目标域训练数据中含有标记的数据在所有的训练数据中占比30%,不含标记的训练数据占比70%。实验中对Toronto数据集中13张大图经过裁剪得到1430张300×300的子图,构成源域训练数据。
现有技术原始Faster R-CNN仅采用30%含有标记的目标域训练数据进行训练,本发明采用30%含有标记的目标域训练数据、70%不含有标记的目标域训练数据和所有源域训练数据一起训练本发明所提出并构建的域适应Faster R-CNN,并对测试结果进行分析和评价。硬件平台为:处理器Intel Xeon(R)CPU E5-2620V3,显卡GeForce GTX TITAN X/PCIe/SSE2。操作系统为Ubuntu16.04。仿真实验软件平台为Pytorch,Python3.5。
仿真结果分析
参照图5,图5为本发明与现有技术的检测结果对比图,具体为本发明与现有技术在nimiSAR数据集中的两张测试图像上的检测结果,图中白色实线的矩形框表示正确的检测结果,黑色实线的矩形框表示错误的检测结果,白色虚线的矩形框表示漏检的车辆目标。
图5(a)为原始Faster R-CNN对miniSAR数据集的一幅测试图像检测结果,与图5(a)相对应的,图5(c)为本发明对同一幅测试图像的检测结果。通过图5(a)可以看出,图中左上角,右上角和右侧的车辆目标集中区域,很多的目标车辆都被能被检测到,但是存在较多的错误的检测结果以及一些漏检的车辆目标。通过图5(c)可以看出,图中左上角,右上角和右侧的车辆目标集中区域,大部分的车辆目标都能被检测到,只有少量的漏检,这是因为车辆目标过于密集,给检测带来了一定的难度,同时图中错误检测的数量也较少。对比图5(a)和图5(c)的检测结果可以看出,本发明有效地降低了错误检测和漏检的数量,提高了检测准确性,提升了SAR目标检测性能。
图5(b)为原始Faster R-CNN对miniSAR数据集的另一幅测试图像检测结果,与图5(b)相对应的,图5(d)为本发明对这幅测试图像的检测结果。通过图5(b)可以看出,图中右侧有大量车辆目标的区域,很多的目标车辆都被能被检测到,但是存在较多的错误的检测结果以及较多的漏检的车辆目标。通过图5(d)可以看出,图中右侧的大量车辆目标的区域,大部分的车辆目标都能被准确的检测到,只有少量几个漏检,同时图中错误检测的数量也相对较少。对比图5(b)和图5(d)的检测结果可以看出,相比于原始Faster R-CNN本发明对SAR图像的错误检测和漏检的数量有效较少,尤其是漏检数量明显减少,这说明本发明在少量标记样本下具有良好的检测性能。
实施例7
基于域适应Faster R-CNN的半监督SAR目标检测方法同实施例1-5,仿真实验条件与内容同实施例6,
实施例6从直观上给出了本发明与现有技术检测结果的对比,本例从定量的角度对本发明的检测效果再做说明。
为了定量给出检测性能,本发明采用F1-score作为检测效果的衡量指标,其定义为:
其中TP是检测结果中的正确目标个数,FP是错误目标个数,NP是真实目标个数,P是检测精度Precision,R是召回率Recall,F1-score是评价性能的主要指标。
表1是原始Faster R-CNN和本发明的定量检测结果。通过表1可以看出,本发明的方法的Precision比原始Faster R-CNN高,显著地提高了检测的准确率,降低了检测虚警率,说明检测结果中正确目标的比例高,错误目标的比例低。本发明的检测Recall比原始Faster R-CNN高,说明本发明漏警率较低,说明检测结果中正确目标的数量与真实目标的数量差距小。本发明的F1-socre也比原始Faster R-CNN高,说明本发明的整体检测性能高。根据表1的结果可知,本发明的F1-score比现有的技术Faster R-CNN提升了5.15%,说明本发明相比于现有的技术具有更优的检测性能,具有重要的实际意义。
表1.原始Faster R-CNN和本发明的检测结果
综上所述,本发明公开了一种基于域适应Faster R-CNN的半监督SAR目标检测方法,解决了少量标记图像下SAR目标检测性能下降的问题。实现步骤:分别获取含有标签的源域和含有少量标签数据的目标域数据;利用含有标签的源域数据训练原始的Faster R-CNN;构建域适应Faster R-CNN模型并初始化,利用源域和目标域数据训练域适应FasterR-CNN模型,得到训练好的域适应Faster R-CNN模型;将目标的测试图像输入到已训练好的域适应Faster R-CNN,得到测试数据的检测结果。本发明构建了域适应Faster R-CNN,相对于原始的Faster R-CNN增设了一个域适应和解码器模块,有效地利用了含有丰富标签的光学遥感图像辅助SAR目标检测,降低了对含标签的SAR图像的依赖性,同时利用解码器模块对目标域数据进行重构,学习目标域数据中的全局信息,进一步提升了检测性能。应用于SAR图像目标检测。
Claims (5)
1.一种基于域适应Faster R-CNN的半监督SAR目标检测方法,其特征在于,包括有以下步骤:
(1)获取源域和目标域数据:源域和目标域数据对应为相似场景下的光学遥感图像和SAR图像数据,其中含有标签的源域数据表示为i表示含有标签的源域数据中的样本索引,且i=1,…,Ns,其中Ns表示源域的样本总个数,表示源域的第i个样本,表示源域第i个样本对应的标签;含有少量标签样本的目标域训练数据表示为Dt=Dl∪Du,其中目标域中有标签的训练数据表示为k1表示含有少量标签的目标域训练数据中的样本索引,且k1=1,…,Nl,Nl表示目标域训练数据中含有标签的样本总个数,表示目标域训练数据中含有标签的第k1个样本,表示目标域的第k1个样本的标签;目标域中不含标签的训练数据表示为k2表示含有不含标签的目标域训练数据中的样本索引,且k2=1,…,Nu,其中Nu表示目标域训练数据中不含标签的样本总个数,目标域训练数据中含标签的样本数量较少,即Nl<<Nu;不含标签的目标域测试数据表示为m表示含有少量标签的目标域训练数据中的样本索引,且m=1,…,Ntest,其中Ntest表示目标域中测试样本总个数,表示目标域测试数据中的第m个样本;
(2)利用源域数据训练并优化原始Faster R-CNN:调用原始的Faster R-CNN,该网络依次连接有基础网络,RPN和ROI结构,其中基础网络采用vgg16结构,RPN包括两个卷积层,ROI包含两个全连接层;vgg16采用在ImageNet数据集上预训练的模型作为基础网络的初始化,而RPN和ROI这两部分结构采用随机初始化;计算原始Faster R-CNN的损失函数L'supervised=L'RPN+L'ROI,其中L'RPN表示RPN结构的损失函数,L'ROI表示ROI结构的损失函数;采用随机梯度下降算法优化原始Faster R-CNN的损失函数L'supervised,学习原始Faster R-CNN中的基础网络、RPN和ROI这三部分的网络参数,得到训练好的原始Faster R-CNN;
(3)构造域适应Faster R-CNN模型:在原始Faster R-CNN框架下增设了一个域适应模块和一个解码器模块,构造的域适应Faster R-CNN模型具体地包括两个并列的基础网络,即源域的基础网络和目标域的基础网络,在目标域的基础网络之后并行连接有RPN结构和解码器结构,在RPN结构之后连接ROI结构;源域的基础网络和目标域的基础网络各自提取的特征图之间增加了一个基于最大均值差异(MMD)的约束项,构成了增设的域适应模块,目标域的基础网络之后连接的解码器结构构成了增设的解码器模块;域适应Faster R-CNN模型的输入分别是源域数据输入到源域基础网络,目标域数据输入到目标域基础网络中,域适应Faster R-CNN模型具有两个输出,一个输出是ROI结构的输出,该输出完成对目标域数据的检测,另一个输出是解码器模块的输出,解码器模块对目标域数据重构,整体形成域适应Faster R-CNN模型;
(4)对构建的域适应Faster R-CNN模型参数初始化:目标域的基础网络采用vgg16结构,并利用在ImageNet数据集上预训练的vgg16结构进行初始化,域适应Faster R-CNN模型中的源域基础网络采用已经训练好的原始Faster R-CNN的基础网络,RPN、ROI结构和解码器部分的网络参数采用随机初始化;
(5)利用源域和目标域数据训练并优化构建的域适应Faster R-CNN:具体训练包括:
(5a)计算域适应Faster R-CNN的损失函数:域适应Faster R-CNN的损失函数L=Lsupervised+αLMMD+βLrecon包括三项,分别是源域和目标域数据的特征图之间的域适应损失LMMD、目标域数据的重构损失Lrecon以及RPN、ROI的检测损失Lsupervised=LRPN+LROI,RPN结构的损失表示为LRPN=LRPN_reg+LRPN_cls,其中LRPN_reg表示RPN部分的边框回归损失,LRPN_cls表示RPN结构的分类损失;ROI部分的损失表示为LROI=LROI_reg+LROI_cls,其中LROI_reg表示ROI结构的边框回归损失,LROI_cls表示ROI结构的分类损失,因此,域适应Faster R-CNN的损失函数表示为L=Lsupervised+αLMMD+βLrecon,其中α和β分别表示域适应损失和重构损失的权重;
(5b)设置参数:设置优化算法的学习率λ以及迭代次数t,迭代次数初始化为t=1,迭代总次数设置为epoch,同时设置域适应损失和重构损失的权重分别α和β,α∈[0,1],β∈[0,1];
(5c)域适应Faster R-CNN模型训练:采用随机梯度下降算法对域适应Faster R-CNN模型的损失函数L进行优化,学习目标域的基础网络、RPN、ROI和解码器这四个模块的网络参数;
(5d)判断:判断当前迭代次数t=epoch是否成立,若是,得到训练好的域适应FasterR-CNN模型,执行步骤(6),对目标域测试数据进行测试,否则t<epoch,令t=t+1,执行步骤(5c),继续进行域适应Faster R-CNN模型的训练;
(6)对目标域测试数据进行测试:将目标域的测试数据输入到已经训练好的域适应Faster R-CNN的目标域基础网络中,通过前向传播得到测试数据的特征图,然后将测试数据特征图输入到RPN结构中,输出则为预测的疑似目标区域的位置信息,最后将RPN输出的疑似目标区域的位置信息输入到RIO结构中,RIO结构输出即为SAR图像测试数据的目标检测结果,完成半监督SAR目标检测,得到最终检测结果。
2.根据权利要求1中所述的基于域适应Faster R-CNN的半监督SAR目标检测方法,其特征在于,步骤(1)中所述的获取源域和目标域数据,对应的是相似场景的光学遥感图像和SAR图像数据,通常目标域数据量较少、标签难以获取,而源域数据丰富、标签充足,用源域数据辅助目标域数据的学习。
3.根据权利要求1中所述的基于域适应Faster R-CNN的半监督SAR目标检测方法,其特征在于,步骤(3)中所述的构建域适应Faster R-CNN模型中,源域的基础网络和目标域的基础网络各自提取的特征图之间增加了一个基于最大均值差异(MMD)的约束项,构成了增设的域适应模块,所述基于最大均值差异(MMD)的约束项的表达如下:
源域和目标域数据经过各自的基础网络得到对应的特征图,源域和目标域数据的特征图之间采用最大均值差异(MMD)约束,令源域第i个样本和目标域第k个样本对应的特征图表示为和那么源域数据的特征图和目标域数据的特征图之间的MMD约束项LMMD表示为:
其中||·||2表示L2范数,Ns和Nt表示源域和目标域的样本数。
4.根据权利要求1中所述的基于域适应Faster R-CNN的半监督SAR目标检测方法,其特征在于,步骤(3)中所述构建的域适应Faster R-CNN模型中,目标域的基础网络之后连接的解码器结构构成增设的解码器模块,用于对目标域数据进行重构,该重构表达为约束项,具体如下:
将目标域数据经过域适应Faster R-CNN中的目标域基础网络提取目标域数据的特征图,然后将目标域数据的特征图输入解码器模块,解码器模块的输出为对输入的目标域数据的重构,令解码器对目标域数据中的第k个样本的重构为那么重构的约束项Lrecon表示为:
其中||·||2表示L2范数,Nt表示目标域的样本数;
域适应Faster R-CNN中解码器模块的网络结构是与基础网络相互对称的结构,由于基础网络采用vgg16结构,一共包含13个卷积层(convolution)和4个最大池化层(maxpooling),那么对称地,解码器模块包含13个解卷积(deconvolution)和4个反最大池化层(unmaxpooling)。
5.根据权利要求1中所述的基于域适应Faster R-CNN的半监督SAR目标检测方法,其特征在于,步骤(5a)中所述的域适应Faster R-CNN的损失函数,表示为
L=Lsupervised+αLMMD+βLrecon
其中参数α和β为用来控制域适应损失和重构损失的权重,是域适应Faster R-CNN模型的一个可调参数,采用随机梯度下降算法对域适应Faster R-CNN模型的损失函数进行优化,联合学习域适应Faster R-CNN模型中的目标域基础网络、RPN、ROI和解码器模块,而域适应Faster R-CNN模型中源域基础网络采用训练好的原始Faster R-CNN中的基础网络,其参数保持固定,不再随域适应Faster R-CNN模型中其他模块的参数的更新而更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011046498.7A CN112115916B (zh) | 2020-09-29 | 2020-09-29 | 域适应Faster R-CNN半监督SAR检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011046498.7A CN112115916B (zh) | 2020-09-29 | 2020-09-29 | 域适应Faster R-CNN半监督SAR检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115916A true CN112115916A (zh) | 2020-12-22 |
CN112115916B CN112115916B (zh) | 2023-05-02 |
Family
ID=73798399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011046498.7A Active CN112115916B (zh) | 2020-09-29 | 2020-09-29 | 域适应Faster R-CNN半监督SAR检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115916B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801718A (zh) * | 2021-02-22 | 2021-05-14 | 平安科技(深圳)有限公司 | 用户行为预测方法、装置、设备及介质 |
CN112926673A (zh) * | 2021-03-17 | 2021-06-08 | 清华大学深圳国际研究生院 | 一种基于一致性约束的半监督目标检测方法 |
CN113343855A (zh) * | 2021-06-09 | 2021-09-03 | 西南交通大学 | 基于引导式子领域自适应的滚动轴承故障诊断系统及方法 |
CN113569940A (zh) * | 2021-07-23 | 2021-10-29 | 中山大学 | 一种基于知识迁移和概率校正的少样本目标检测方法 |
CN113807420A (zh) * | 2021-09-06 | 2021-12-17 | 湖南大学 | 一种考虑类别语义匹配的域自适应目标检测方法及系统 |
CN117036918A (zh) * | 2023-08-09 | 2023-11-10 | 北京航空航天大学 | 一种基于域适应的红外目标检测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977918A (zh) * | 2019-04-09 | 2019-07-05 | 华南理工大学 | 一种基于无监督域适应的目标检测定位优化方法 |
CN110161480A (zh) * | 2019-06-18 | 2019-08-23 | 西安电子科技大学 | 基于半监督深度概率模型的雷达目标识别方法 |
CN110309798A (zh) * | 2019-07-05 | 2019-10-08 | 中新国际联合研究院 | 一种基于域自适应学习和域泛化的人脸欺骗检测方法 |
CN110363122A (zh) * | 2019-07-03 | 2019-10-22 | 昆明理工大学 | 一种基于多层特征对齐的跨域目标检测方法 |
US20190325861A1 (en) * | 2018-04-18 | 2019-10-24 | Maneesh Kumar Singh | Systems and Methods for Automatic Speech Recognition Using Domain Adaptation Techniques |
CN110533044A (zh) * | 2019-05-29 | 2019-12-03 | 广东工业大学 | 一种基于gan的域适应图像语义分割方法 |
US20200082221A1 (en) * | 2018-09-06 | 2020-03-12 | Nec Laboratories America, Inc. | Domain adaptation for instance detection and segmentation |
CN111126361A (zh) * | 2019-11-19 | 2020-05-08 | 西安电子科技大学 | 基于半监督学习和特征约束的sar目标鉴别方法 |
CN111340021A (zh) * | 2020-02-20 | 2020-06-26 | 中国科学技术大学 | 基于中心对齐和关系显著性的无监督域适应目标检测方法 |
CN111444955A (zh) * | 2020-03-25 | 2020-07-24 | 哈尔滨工程大学 | 一种基于类意识领域自适应的水下声纳图像无监督分类方法 |
CN111476805A (zh) * | 2020-05-22 | 2020-07-31 | 南京大学 | 一种基于多重约束的跨源无监督域适应分割模型 |
-
2020
- 2020-09-29 CN CN202011046498.7A patent/CN112115916B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190325861A1 (en) * | 2018-04-18 | 2019-10-24 | Maneesh Kumar Singh | Systems and Methods for Automatic Speech Recognition Using Domain Adaptation Techniques |
US20200082221A1 (en) * | 2018-09-06 | 2020-03-12 | Nec Laboratories America, Inc. | Domain adaptation for instance detection and segmentation |
CN109977918A (zh) * | 2019-04-09 | 2019-07-05 | 华南理工大学 | 一种基于无监督域适应的目标检测定位优化方法 |
CN110533044A (zh) * | 2019-05-29 | 2019-12-03 | 广东工业大学 | 一种基于gan的域适应图像语义分割方法 |
CN110161480A (zh) * | 2019-06-18 | 2019-08-23 | 西安电子科技大学 | 基于半监督深度概率模型的雷达目标识别方法 |
CN110363122A (zh) * | 2019-07-03 | 2019-10-22 | 昆明理工大学 | 一种基于多层特征对齐的跨域目标检测方法 |
CN110309798A (zh) * | 2019-07-05 | 2019-10-08 | 中新国际联合研究院 | 一种基于域自适应学习和域泛化的人脸欺骗检测方法 |
CN111126361A (zh) * | 2019-11-19 | 2020-05-08 | 西安电子科技大学 | 基于半监督学习和特征约束的sar目标鉴别方法 |
CN111340021A (zh) * | 2020-02-20 | 2020-06-26 | 中国科学技术大学 | 基于中心对齐和关系显著性的无监督域适应目标检测方法 |
CN111444955A (zh) * | 2020-03-25 | 2020-07-24 | 哈尔滨工程大学 | 一种基于类意识领域自适应的水下声纳图像无监督分类方法 |
CN111476805A (zh) * | 2020-05-22 | 2020-07-31 | 南京大学 | 一种基于多重约束的跨源无监督域适应分割模型 |
Non-Patent Citations (6)
Title |
---|
MINGSHENG LONG 等: "Deep Transfer Learning with Joint Adaptation Networks", 《ARXIV:1605.06636V2》 * |
YUNDONG LI 等: "Semi-supervised classification of hurricane damage from postevent aerial imagery using deep learning", 《REMOTE SENSING》 * |
姚明海等: "基于主动学习的半监督领域自适应方法研究", 《高技术通讯》 * |
王翎等: "基于域适应的多场景车辆检测", 《计算机技术与发展》 * |
程杰: "基于空间信息和长短时记忆网络的极化SAR图像分类", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
蔡瑞初 等: "基于类内最大均值差异的无监督领域自适应算法", 《计算机应用研究》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801718A (zh) * | 2021-02-22 | 2021-05-14 | 平安科技(深圳)有限公司 | 用户行为预测方法、装置、设备及介质 |
CN112926673A (zh) * | 2021-03-17 | 2021-06-08 | 清华大学深圳国际研究生院 | 一种基于一致性约束的半监督目标检测方法 |
CN112926673B (zh) * | 2021-03-17 | 2023-01-17 | 清华大学深圳国际研究生院 | 一种基于一致性约束的半监督目标检测方法 |
CN113343855A (zh) * | 2021-06-09 | 2021-09-03 | 西南交通大学 | 基于引导式子领域自适应的滚动轴承故障诊断系统及方法 |
CN113343855B (zh) * | 2021-06-09 | 2022-09-16 | 西南交通大学 | 基于引导式子领域自适应的滚动轴承故障诊断系统及方法 |
CN113569940A (zh) * | 2021-07-23 | 2021-10-29 | 中山大学 | 一种基于知识迁移和概率校正的少样本目标检测方法 |
CN113569940B (zh) * | 2021-07-23 | 2023-06-06 | 中山大学 | 一种基于知识迁移和概率校正的少样本目标检测方法 |
CN113807420A (zh) * | 2021-09-06 | 2021-12-17 | 湖南大学 | 一种考虑类别语义匹配的域自适应目标检测方法及系统 |
CN113807420B (zh) * | 2021-09-06 | 2024-03-19 | 湖南大学 | 一种考虑类别语义匹配的域自适应目标检测方法及系统 |
CN117036918A (zh) * | 2023-08-09 | 2023-11-10 | 北京航空航天大学 | 一种基于域适应的红外目标检测方法 |
CN117036918B (zh) * | 2023-08-09 | 2024-01-30 | 北京航空航天大学 | 一种基于域适应的红外目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112115916B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112115916B (zh) | 域适应Faster R-CNN半监督SAR检测方法 | |
Li et al. | Learning deep semantic segmentation network under multiple weakly-supervised constraints for cross-domain remote sensing image semantic segmentation | |
CN109285139A (zh) | 一种基于深度学习的x射线成像焊缝检测方法 | |
CN108764006B (zh) | 一种基于深度强化学习的sar图像目标检测方法 | |
CN110796048B (zh) | 一种基于深度神经网络的船舰目标实时检测方法 | |
CN112395987B (zh) | 基于无监督域适应cnn的sar图像目标检测方法 | |
CN107491734B (zh) | 基于多核融合与空间Wishart LapSVM的半监督极化SAR图像分类方法 | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
CN110659601B (zh) | 基于中心点的深度全卷积网络遥感图像密集车辆检测方法 | |
CN114926693A (zh) | 基于加权距离的sar图像小样本识别方法及装置 | |
Liu et al. | Survey of road extraction methods in remote sensing images based on deep learning | |
CN111259733A (zh) | 一种基于点云图像的船舶识别方法及装置 | |
CN113723572B (zh) | 船只目标识别方法、计算机系统及程序产品、存储介质 | |
CN113591608A (zh) | 一种基于深度学习的高分辨率遥感影像不透水面提取方法 | |
CN112270285A (zh) | 一种基于稀疏表示和胶囊网络的sar图像变化检测方法 | |
US20230298335A1 (en) | Computer-implemented method, data processing apparatus and computer program for object detection | |
Zou et al. | Cross-scene target detection based on feature adaptation and uncertainty-aware pseudo-label learning for high resolution sar images | |
Dutta et al. | Weed detection in close-range imagery of agricultural fields using neural networks | |
CN115761667A (zh) | 一种基于改进fcos算法的无人车辆搭载摄像头目标检测方法 | |
CN113158806B (zh) | 一种基于OTD_Loglogistic的SAR数据海洋目标检测方法 | |
CN115035429A (zh) | 一种基于复合主干网络和多预测头的航拍目标检测方法 | |
CN113239895A (zh) | 基于注意力机制的胶囊网络的sar图像变化检测方法 | |
Inik et al. | Prediction of Soil Organic Matter with Deep Learning | |
Wang et al. | Semi-supervised image-to-image translation for lane detection in rain | |
Royer et al. | Localizing grouped instances for efficient detection in low-resource scenarios |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |