CN113902978A

CN113902978A - 基于深度学习的可解释性sar图像目标检测方法及系统

Info

Publication number: CN113902978A
Application number: CN202111064473.4A
Authority: CN
Inventors: 陈立福; 罗汝; 潘舟浩; 袁志辉; 邢学敏; 邢进; 蔡兴敏
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2022-01-07

Abstract

本发明公开了一种基于深度学习的可解释性SAR图像目标检测方法及系统，本发明包括为深度学习神经网络选取骨干网络：采用SAR图像数据集对不同的骨干网络进行训练并保存最优权重模型；利用混合全局归因映射HGAM对各个保存最优权重模型后的骨干网络进行事后可解释性分析，并选择最优的骨干网络作为深度学习神经网络的骨干网络；该深度学习神经网络包括最优骨干网络的选取、融合模块PANet以及检测头的可视化。本发明采用了混合全局归因映射HGAM这一可解释的人工智能对各个保存最优权重模型后的骨干网络进行分析，可实现对骨干网络的性能评估，从而获得最优的骨干网络，以提升对深度学习神经网络内部功能的洞察力，提升深度学习神经网络的检测准确度。

Description

基于深度学习的可解释性SAR图像目标检测方法及系统

技术领域

本发明涉及合成孔径雷达(Synthetic Aperture Radar,SAR)图像的目标检测技术，具体涉及一种基于深度学习的可解释性SAR图像目标检测方法及系统。

背景技术

合成孔径雷达(Synthetic Aperture Radar,SAR)可以提供对地球上各种物体的连续观测，已经在大量的目标检测中得到广泛研究。随着获得的SAR图像分辨率的提升，使得SAR图像的数据量的增加，二，复杂背景的干扰和破碎的图像特征使得SAR图像目标检测更具挑战性。在各种SAR图像分析方法中，机器学习方法由于其对大量SAR图像的高精度和自动处理而引起了相当大的兴趣。深度神经网络(Deep Neural Network,DNN)是一种受大脑系统结构和功能启发的先进机器学习方法，在遥感图像的目标检测中得到广泛应用。

然而，大多数DNN都因其黑盒特性而受到批评，而且这种黑盒与注意机制和数据增强技术等高级深度学习方法一起使用，使这种黑盒变得更加难以探索。大多数情况下，仅是高精度不足以评估给定DNN的性能，用户可以在多大程度上理解DNN的功能就变得同等甚至重要。因此，这些可解释人工智能(eXplainable Artificial Intelligence,XAI)的方法开始揭示哪些特征或神经元是重要的，在图像分析的哪个阶段它们是重要的。XAI可以提供对DNN内部功能的洞察力，以提高对DNN应用的可理解性、透明度、可追溯性、因果关系和信任度。尽管如此，XAI尚未在SAR图像目标检测中开展DNN的应用和研究。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于深度学习的可解释性SAR图像目标检测方法及系统，本发明采用了混合全局归因映射HGAM这一可解释的人工智能(eXplainable Artificial Intelligence,XAI)对各个保存最优权重模型后的骨干网络进行分析，可实现对骨干网络的性能评估，从而获得最优的骨干网络，以提升对深度学习神经网络内部功能的洞察力，提升深度学习神经网络的检测准确度。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于深度学习的可解释性SAR图像目标检测方法，包括为用于对输入的SAR图像获得对应的目标检测结果的深度学习神经网络选取骨干网络的步骤：

1)采用SAR图像数据集对不同的骨干网络进行训练并保存最优权重模型；

2)利用混合全局归因映射HGAM对各个保存最优权重模型后的骨干网络进行分析，并选择最优的骨干网络作为深度学习神经网络的骨干网络。

可选地，所述骨干网络为多个阶段的特征提取模块和下采样模块堆叠组成，且由最后三个阶段的特征提取模块输出的特征图作为骨干网络的输出。

可选地，步骤2)包括：

2.1)针对SAR图像数据集中的SAR图像，基于各个保存最优权重模型后的骨干网络输出的特征图构成的四维张量X采用积分梯度方法生成局部观测归因，所述局部观测归因包括正归因PA和正归因比例PAP；

2.2)采用全局归因映射GAM的方法基于局部积分梯度IG的观测归因对各个骨干网络的检测性能进行全局分析，并选择最优的骨干网络作为深度学习神经网络的骨干网络。

可选地，步骤2.1)中采用积分梯度方法生成局部观测归因的步骤包括：

2.1.1)将四维张量X利用全局平均池化GAP压缩特征图的空间维数；

2.1.2)利用卷积核数为3×(5+C)的1×1的卷积对压缩空间维数后的四维张量进行卷积操作，并利用行列变换操作生成大小为3×(5+C)的二维向量X₁，并将其作为网络的最终输出向量；

2.1.3)将二维向量X₁作为骨干网络F的最终输出向量，计算从四维张量X的基线图像

移动到四维张量X对应的输入图像的总成本

并通过计算输入图像的四维张量X到四维张量X对应的基线图像

的路径上每个点的梯度值的总和，得到由所有点的梯度值的总和构成的四维局部观测张量attributions_ig；

2.1.4)将四维局部观测张量attributions_ig采用ReLU激活函数进行筛选获得正归因PA，并基于得到的四维局部观测张量attributions_ig将正归因PA进行归一化处理得到正归因比例PAP。

可选地，步骤2.1.4)中基于到由所有点的梯度值的总和构成的四维局部观测张量attributions_ig将正归因PA进行归一化处理得到正归因比例PAP的函数表达式为：

上式中，PA为正归因，min为最小值函数，max为最大值函数，attributions-ig为由输入图像到基线图像上的所有点的梯度值的总和构成的四维张量。

可选地，步骤2.2)包括：

2.2.1)针对每一个骨干网络，将其每一个局部观测归因中的正归因PA和正归因比例PAP计算平均值，然后将所有局部观测归因对应的平均值构建加权归因向量θ_w，根据下式归一化为标准百分比形式的标准化归因并进行联合排序；

上式中，normalize(θ_w)表示加权归因向量θ_w的归一化得到的标准化归因，

表示归因向量θ_w中任意第i个特征的权重，o是哈达玛积；

2.2.2)将K-Medoid和加权斯皮尔曼等级相关系数平方秩距离相结合去分组相似的标准化归因，得到K个标准化归因的聚类；

2.2.3)将K个标准化归因聚类作为全局归因映射GAM的全局解释，每个全局归因映射GAM的全局解释都产生了一个位于聚类中最集中的特征重要性向量，该特征重要性向量包含了每一个骨干网络在该聚类中的正归因PA的排名和正归因比例PAP的排名，且根据K个标准化归因聚类的大小作为对应全局解释的解释力来对每个全局解释进行排序；

2.2.4)根据下式计算每一个骨干网络的全局正归因GPA全局正归因比例GPAP：

上式中，K表示标准化归因的聚类数，N为骨干网络的样本总数，N_i表示第i个聚类中的样本数量，rank(PA)i和rank(PAP)i分别是第i个聚类中正归因PA和正归因比例PAP的排名值。

2.2.5)选择全局正归因GPA和全局正归因比例GPAP最优的骨干网络作为深度学习神经网络的骨干网络。

可选地，所述深度学习神经网络包括：骨干网络，用于将输入的SAR图提取目标特征得到具有不同的分辨率和感受野的多个特征图；融合模块PANet，用于将骨干网输出的具有不同的分辨率和感受野的三个特征图进行相互融合，得到数量相同的融合后的增强特征图；可视化检测头，用于针对三个融合后的增强特征图进行多尺度的目标检测得到目标检测结果以及可视化结果。

可选地，所述可视化检测头采用YOLOv3 Head对每一个融合后的特征图进行对应尺度的目标检测得到目标检测结果，且所述YOLOv3 Head在每个1×1网格下生成的三组边界框的信息被编码到相应的3×(5+C)向量中，且目标检测结果的每个边界框包含1个置信分数、4个坐标、C个条件类别概率值Pr，所述4个坐标包括边界框中心坐标X，Y、宽度W和高度H；且所述可视化检测头还包括计算条件类别概率值Pr和每个边界框的置信分数的乘积得到类别特定置信分数CCS，将类别特定置信分数CCS生成热图并上采样到输入的SAR图像大小，并乘以原始输入图像得到掩模图像，将掩模图像再次输入YOLOv3 Head得到增强后的热图，并作为可视化输出结果输出。

此外，本发明还提供一种基于深度学习的可解释性SAR图像目标检测系统，包括相互连接的微处理器和存储器，该微处理器被编程或配置以执行所述基于深度学习的可解释性SAR图像目标检测方法的步骤。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行所述基于深度学习的可解释性SAR图像目标检测方法的计算机程序。

和现有技术相比，本发明具有下述优点：本发明包括为用于对输入的SAR图像获得对应的目标检测结果的深度学习神经网络选取骨干网络的步骤：采用SAR图像数据集对不同的骨干网络进行训练并保存最优权重模型；利用混合全局归因映射HGAM对各个保存最优权重模型后的骨干网络进行分析，并选择最优的骨干网络作为深度学习神经网络的骨干网络。本发明采用了混合全局归因映射HGAM这一可解释的人工智能对各个保存最优权重模型后的骨干网络进行分析，可实现对骨干网络的性能评估，从而获得最优的骨干网络，以提升对深度学习神经网络内部功能的洞察力，提升深度学习神经网络的检测准确度。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例方法的总体架构示意图。

图3为本发明实施例中选取骨干网络的网络结构原理图。

图4为本发明实施例中检测过程可视化的原理图。

图5为本发明实施例中骨干网络阶段3～5的积分梯度(IG)绝对归因的可视化结果。

图6为本发明实施例中基于积分梯度(IG)的全局正归因的分析。

图7为本发明实施例中基于积分梯度(IG)的全局正归因比例的分析。

图8为本发明实施例中场景Ⅰ的可视化热图结果和输入标签图像。

图9为本发明实施例中场景Ⅱ的可视化热图结果和输入标签图像。

具体实施方式

虽然DNN已被证明在飞机自动检测中是成功的，但其黑盒行为阻碍了DNN在SAR图像分析中的可理解性和更广泛的应用。因此，不仅需要利用DNN来了解其特征提取和决策的过程，还需要获得更多关于DNN设计和开发的骨干网络选择的理解。在地理空间图像分析中，原始的XAI工作很少，且尚未扩展到包括飞机在内的目标检测。目前XAI技术都用于分类研究，而不是目标检测。当使用XAI进行包括飞机在内的目标检测时，存在下述挑战：(1)最重要的挑战来自于协调局部和全局XAI技术以确定骨干网络的问题。局部XAI专注于用给定的输入图像解释DNN中每一层的特征提取归因；而全局XAI通常具有整体DNN模型的可理解性。我们不愿意选择一个具有良好目标检测性能但在特征提取方面性能较差的骨干网络，因此，考虑将局部和全局方法的集成作为混合XAI方法来确定骨干网络是非常必要的。(2)另一个挑战在于定制了SAR图像分析中的目标检测的XAI技术，甚至大多数都是为分类而设计的。与分类任务不同的是，在目标检测中DNN被用于在输入图像中定位和分类(通常是多个目标)。因此，我们需要解释该目标的检测结果及其位置信息。目前，如何结合目标的内部分类结果和位置信息成为XAI研究中一个有趣的课题。(3)检测头(检测网络)的特征提取性能是难以理解的，我们仍然缺乏一个有效的度量来描述这种特征提取的归因。检测头的性能在目标检测中起着关键作用，对最终的目标检测结果有很大的贡献。因此，我们需要理解他们的行为，视觉解释就变得很有吸引力。为了解决这些研究挑战，本发明结合了局部和全局的XAI方法，提出了一种基于深度学习的可解释性SAR图像目标检测方法及系统，专门用于解释SAR图像分析中的目标检测。同时，我们还提出了自己的可视化方法来描述检测头对最终目标检测结果的归因。下文将以飞机作为SAR图像目标检测的对象为例，对本发明基于深度学习的可解释性SAR图像目标检测方法及系统进行进一步的详细说明。

如图1所示，本实施例基于深度学习的可解释性SAR图像目标检测方法，包括为用于对输入的SAR图像获得对应的目标检测结果的深度学习神经网络选取骨干网络的步骤：

2)利用混合全局归因映射HGAM(Hybrid Global Attribution Mapping)对各个保存最优权重模型后的骨干网络进行分析，并选择最优的骨干网络作为深度学习神经网络的骨干网络。

需要说明的是，对输入的SAR图像获得对应的目标检测结果的深度学习神经网络是目前进行目标检测的常规方法，而骨干网络也叫特征提取骨干网络、主干网络、或特征提取主干网络，其用途是实现对输入的SAR图像的特征提取，选择具有较强特征提取能力的骨干网络在目标检测和分类领域起着重要作用。

本实施例中步骤1)中采用SAR图像数据集对不同的骨干网络进行训练时，所采用的数据集为包含Gaofen-3系统成像的1m分辨率的SAR飞机影像数据。

如图2所示，本实施例中骨干网络为多个阶段(本实施例中具体为阶段1～阶段5一共五个阶段，数量可根据需要选择)的特征提取模块和下采样模块(图中省略未绘出)堆叠组成，不同层次特征图的语义信息和空间细节的有效整合，有助于提高网络检测精度。作为一种可选的实施方式，本实施例中选择最后三个阶段(阶段3～阶段5)的特征提取模块输出的特征图作为骨干网络的输出。

本实施例中，步骤2)中的混合全局归因映射HGAM(Hybrid Global AttributionMapping)由积分梯度(Integrated Gradients,IG)和全局归因映射(Global AttributionMapping,GAM)融合而成。具体地，基于上述积分梯度和全局归因映射的融合，步骤2)包括：

2.1)针对SAR图像数据集中的SAR图像，基于各个保存最优权重模型后的骨干网络输出的特征图构成的四维张量X采用积分梯度方法生成局部观测归因，局部观测归因包括正归因PA和正归因比例PAP；

由主干网络输出的特征图可以用一个四维张量X来表示，如图3所示。全局平均池化(Global Average Pooling，GAP)可以有效地保存空间信息和目标位置信息，同时减少网络的参数数量和浮点型计算量(FLoating point of OPerations，FLOPs)。因此，利用GAP来压缩从主干网络输出的特征图的空间维数。然后，利用1×1的卷积(卷积核数为3×(5+C)，并利用行列变换操作(reshape)生成大小为3×(5+C)的二维向量X₁。在这里，二维向量X₁对应于深度学习神经网络的检测网络中预测特征图的1×1网格下的三个预测框的信息，它对每个预测框的位置坐标、目标置信度得分和条件类别概率分数进行编码。以最大类别得分框作为目标的最终检测结果，采用IG方法生成局部观察归因(包括正归因和负归因)，帮助我们了解输入特征中的每个成分对最终类别预测的重要性。积分梯度(IG)考虑了从输入图像X到基线图像

的路径上每个点的梯度值，有效地克服了朴素梯度方法存在的梯度饱和问题。

如图3所示，本实施例步骤2.1)中采用积分梯度方法生成局部观测归因的步骤包括：

移动到四维张量X对应的输入图像的总成本

本实施例中，步骤2.1.3)中总成本

的计算函数表达式为：

其中，

这是一个连接原始图像X及其基线图像

的参数曲线，α为权重参数。τ(0)和τ(1)分别表示原始图像和基线图像。因此有：

上式中，

表示输入特征X的第i个分量的重要性，

表示梯度算子，进而，

表示F(τ(α))在τ(α)处的梯度，τ′(α)表示τ(α)对α的导数。

本实施例中，选择与输入图像相同大小的黑色图像(例如所有像素值均为零)作为基线，以获得网络输出的局部观测归因，步骤2.1.4)中将四维局部观测张量attributions_ig采用ReLU激活函数进行筛选获得正归因PA的函数表达式为：

PA＝relu(attributions_ig)，

上式中，PA为正归因，relu为ReLU激活函数(用于筛选阳性归因)，attributions_ig为由输入图像到基线图像上的所有点的梯度值的总和构成的四维局部观测张量。

步骤2.1.4)中基于到由所有点的梯度值的总和构成的四维局部观测张量attributions_ig将正归因PA进行归一化处理得到正归因比例PAP的函数表达式为：

上式中，PA为正归因，min为最小值函数，max为最大值函数，attributions_ig为由输入图像到基线图像上所有点的梯度值的总和构成的四维张量，用于表示最终输出的局部观测归因。

在获得骨干网络最后三个阶段单个输入样本的PA和PAP平均值后，注入合理数量的测试样本(本实施例中启发式选择200个飞机测试样本)，然后即可采用全局归因映射GAM的方法基于局部观测归因对各个骨干网络的检测性能进行全局分析。

本实施例中，步骤2.2)包括：

表示归因向量θ_w中任意第i个特征的权重，o是哈达玛积(Hadamard product)；由于归因中的每个归因向量(由每个骨干网络输出的PA或PAP输出的平均值组成)代表了四个网络中的输入样本特征对最终预测的重要性。因此，这些归因是联合的排名。此外，为了消除原始输入样本中大小差异的影响，将归因归一化为标准的百分比。

上式中，K表示标准化归因的聚类数，N为骨干网络的样本总数，N_i表示第i个聚类中的样本数量，rank(PA)_i和rank(PAP)_i分别是第i个聚类中正归因PA和正归因比例PAP的排名值。

受聚类思想的启发，将相似的归因数据进行分组，获得最集中的特征重要性向量，形成K个聚类。K是一个超级参数。K的值表示获得的解释簇的数量，可以调整以控制全局归因的解释细度。在分组过程中，有必要度量局部归因之间的相似性来实现归因分组。在考虑时间复杂度的基础上，本实施例中选择了加权斯皮尔曼等级相关系数平方秩距离(Weighted Spearman′s Rho squared rank distances)，如下式所示：

上式中，SpearDist(Rσ，Rμ)表示加权斯皮尔曼等级相关系数平方秩距离，μ和σ代表两个标准化的归因向量，Rμ(i)和Rσ(i)分别表示归因向量μ和σ中特征i的排名，μ_w(i)和σ_w(i)表示相应排名Rμ(i)和Rσ(i)中特征i的权重。通过对归因特征的重要性进行加权联合排序，得到了全局解释。在对相似的归一化归因进行分组后，得到K个聚类作为全局归因映射GAM的方法的全局解释。每个GAM的全局解释都产生了一个位于聚类中最集中的特征重要性向量。此外，每个全局解释的解释能力可以根据相应集群的大小来衡量。与k-means等其他聚类方法不同，全局归因映射GAM的方法在聚类过程中同时考虑了秩中编码的归属值和权重(称为加权联合排名)，这是全局归因映射GAM的方法的独特优势。

如图2所示，本实施例中的深度学习神经网络包括：

骨干网络，用于将输入的SAR图提取目标特征得到具有不同的分辨率和感受野的多个特征图；

融合模块PANet，用于将骨干网输出的具有不同的分辨率和感受野的三个特征图进行相互融合，得到数量相同的融合后的增强特征图；

可视化检测头，用于针对融合后的三个特征图进行多尺度的目标检测得到目标检测结果以及可视化结果。

骨干网络即为前文得到的最优骨干网络。

融合模块PANet用于将骨干网输出的具有不同的分辨率和感受野的三个特征图进行相互融合以丰富特征的表达。参见图2，融合模块PANet包含两个分支。在一个分支中，将高级特征图所携带的丰富语义信息逐步注入到低级特征图中，以提高前景与背景的辨别能力。在另一个分支中，包含大量有利于目标定位的空间细节信息的底层特征图逐渐传输到高层特征图中。通过融合模块PANet进行特征增强后，将三个不同分辨率的预测特征图(P1，P2，P3)输入可视化检测头进行多尺度预测，以提高网络捕获不同尺度目标的能力。

可视化检测头的功能一方面包括进行多尺度检测，然后生成标记边界框形式的检测结果。另一方面，为了更全面地了解网络的检测归因，本实施例提出了类特定置信得分映射(Class-specific Confidence Scores Mapping，CCSM)，对检测头输出的预测特征图进行可视化，以帮助理解网络的检测归因。参见图2和图4，本实施例中可视化检测头采用YOLOv3 Head对三个特征图进行对应尺度的目标检测得到目标检测结果，且YOLOv3 Head在每个1×1网格下生成的三组边界框的信息被编码到相应的3×(5+C)向量中，且目标检测结果的每个边界框包含1个置信分数、4个坐标、C个条件类别概率值Pr(可表示为Pr(Class|Object)，其中Class为类别，Object为对象)，所述4个坐标包括中心坐标X，Y、宽度W和高度H；且所述可视化检测头还包括计算条件类别概率值Pr和每个边界框的置信分数的乘积得到类别特定置信分数(Category-specific Confidence Score，CCS)，将类别特定置信分数CCS生成热图并上采样到输入的SAR图像大小，并乘以原始输入图像得到掩模图像，将掩模图像再次输入YOLOv3Head得到增强后的热图，并作为可视化输出结果输出，以更好地描述目标类别信息和定位坐标的准确性。

在分类领域，CAM(类激活映射)能够可视化输入图像上的特定预测类别分数，突出显示DNN学习的目标的判别部分。为了更直观地理解网络的检测结果，本实施例中提出了针对类特定置信评分映射(CCSM)方法将类别特定置信分数CCS生成热图，将检测头输出的类特定置信得分(CCS)值进行可视化，以了解网络的最终检测归因。受Score-CAM的启发，将CCSM生成的热图上采样到输入图像的大小，并乘以原始输入图像，得到掩模图像，形成一个反馈分支。此时，掩模图像主要保留所得热图中的关键信息，并过滤掉原始图像中冗余背景信息的干扰。然后，再次输入网络进行预测，通过二次校正得到增强的热图。本实施例中，将类别特定置信分数CCS生成热图的步骤包括：

S1)指定要进行可视化的类别和置信度分数。对于每个预测的特征映射的每个网格，将生成三个边界框的信息。因此，有必要以单个特征图下生成的预测框的最大类别得分layer_classes和最大置信度得分layer_scores作为最终的可视化得分。

S2)归一化。在获得每个特征图上指定的最大类别得分layer_classes和最大置信度得分layer_scores后，根据下式将各个预测框归一化到相同的范围，这有利于在三个不同大小的独立特征图上生成的后续热图的叠加显示。

上式中，norm表示归一化函数，min为最小值函数，max为最大值函数。

S3)为单个预测特征图生成热图。以预测框的最大类别得分layer_classes和最大置信度得分layer_scores的乘积作为可视化因子，并归一化生成热图。

S4)可视化最终检测结果中的关键区域。在获得在三个预测特征图上生成的热图后，将热图向上采样到原始输入图像的大小。一方面，热图可以与原始输入图像相结合，逐层地可视化预测结果。另一方面，将三个热图(对应于三个不同尺度上的预测特征图)与原始输入图像集成，以可视化网络的最终输出。

下文将进一步通过实验对本实施例基于深度学习的可解释性SAR图像目标检测方法进行验证。

1、实验环境及数据。

实验环境为：Unbuntu18.04、Pytorch1.5、Python3.8和单个具有11GB内存的NVIDIA RTX2080Ti GPU。实验数据采用15幅1m分辨率的Gaofen-3系统的大尺度SAR图像，都包括了机场目标。在飞机被SAR专家手动标记和确认后，这些SAR图像被自动分割成512×512像素的样本。共获得899个样本，然后为独立的测试集随机保留200个样本。对于剩余的样本，我们结合了旋转、平移(宽度和高度方向)、翻转和镜像的方法来增强数据，并获得了3495个飞机数据样本。训练集与验证集的比率为4:1。

2、评价指标。

2.1、骨干网络的评价指标：本实施例采用两种有效的指标来综合评价骨干网络的性能：全局正归因(global positive attribution,GPA)和全局正归因比例(globalpositive attribution proportion,GPAP)。单个样本的正归因(PA)值越大，网络的目标特征提取能力就越强。然而，较大的正归因并不能表达网络预测的良好效果。因此，我们进一步提出了PAP(正归因比例)来衡量网络提取目标特征的鲁棒性。GPA和GPAP是通过结合基于多个样本的PA和PAP的全局信息来评估的全局指标，其函数表达式在前文已有记载。

2.2、可视化检测头的评价指标：

本实施例中，针对可视化检测头采用两个评价指标来评价检测头性能：总体框平均响应(Overall box average response,OBAR)和相对辨识度(RelativeDiscrimination,RD)。OBAR用于评估网络对目标区域的平均响应性。RD用于测量网络的关注重要目标区域的相对响应性。其计算函数表达式如下：

上式中，N表示输入图像上飞机标记框的数量，BAR(i)表示第i个标记框中的平均响应值。GAR是在整个热图上的全局平均响应。

3、骨干网络选择的实验。

具有超特征表达能力的骨干网络是保持目标检测性能的重要基石。同时，网络的复杂性和效率也是重要的考虑因素。因为参数小的轻量级网络有利于工程部署，解决实际问题，具有良好的实用价值。因此，我们比较了三个轻量级骨干网络和一个具有中等参数量的骨干网络：ShuffleNet v2(ShuffleNet v2×1.0Version)、MobileNet v3(MobileNetv3-small×1.0 Version)、YOLOv5s(YOLOv5-small Version)和残差网络ResNet-50。

图5给出了阶段3～5中四个骨干网络的绝对归因的可视化结果，其中(a1)-(c1)、(a2)-(c2)、(a3)-(c3)和(a4)-(c4)分别代表ShuffleNet v2、MobileNet v3、ResNet-50和YOLOv5s在阶段3、阶段4和阶段5基于IG的绝对归因可视化结果。在包含飞机的输入单个样本中，归因由IG计算。三个阶段ShuffleNet v2(图5中的(a1)、(b1)、(c1))的归因值较低，飞机特征的视觉意义较差，说明ShuffleNet v2网络的特征提取能力较弱。相比之下，MobileNet v3的绝对归因图(图5中的(a2)、(b2)和(c2))中飞机比ShuffleNet v2具有更清晰更好的视觉效果。对于ResNet-50，在图5中的(a3)和(b3)中仍然可以很好地保留总体飞机信息。在图5中的(c3)中，ResNet-50的响应值较大，主要集中在背景区域，飞机的散射特性的比例相对较低。因此，飞机的散射特征信息被淹没，不利于飞机的探测。对于YOLOv5s，阶段3(图5中的(a1)所示)和阶段4(图5中的(b1)所示)的绝对归因值达到了较高的响应值。随着网络的深入，所获得的语义信息越来越丰富，背景噪声的影响也越来越小。在阶段5(如图5中的(c1)所示)，飞机的特征仍然具有较大的响应值和良好的视觉效果。从这组实验中可以看出，YOLOv5s在该飞机样本上的检测性能具有优势。

单个示例并不足以反映每个网络的整体性能评估。因此，GAM算法用独立测试样本为200个(包括军用飞机和民用飞机)来评估每个网络的全局性能。在实验中，选择K＝2生成两个可解释性簇(聚类)。图6和图7分别显示了最后3个阶段4个网络的全局正归因排名和全局正归因比例排名。

图6为基于积分梯度(IG)的全局正归因的分析，其中(a1)-(b1)、(a2)-(b2)、(a3)-(a3)分别代表四个骨干网络在阶段3、阶段4和阶段5的正归因分布。对于正归因的全局排名，在阶段3(图6中的(a1)-(b1))和阶段4(图6中的(a2)-(b2)所示)，ResNet-50和YOLOv5s都具有较大的全局正归因排名，分别排名第一和第二。ShuffleNet v2和MobileNet v3的排名较低。在阶段5(图6中的(a3)-(b3)所示)，ResNet-50在167个测试样本中的重要性排名最高(占测试样本总数的83.5％)，如图6中的(a3)所示。然而，ResNet-50在其余33个测试样本中的重要性最低(占总测试样本的16.5％)，仅占4个网络排名的1％，如图6中的(b3)所示。同时，YOLOv5s在两个聚类中实现的检测归因最平衡。在聚类1(由167个测试样本组成)中，YOLOv5s占30％，紧随ResNet-50之后，位居第二。在聚类2(由剩下的33个测试样本组成)中，YOLOv5s占52％，获得了最大的正归因优势。一般来说，YOLOv5s的骨干网络在阶段3、阶段4和阶段5的正归因排名最平衡。因此，YOLOv5s网络具有良好的特征提取能力，非常适合于构建飞机检测网络。

图7为基于IG的全局正归因比例的分析，其中(a1)-(b1)、(a2)-(b2)、(a3)-(b3)分别代表4个骨干网络在阶段3、阶段4和阶段5中的正归因比例分布。对于正归因比例的全局排名，无论是单阶段两个聚类的水平比较还是各个阶段的垂直比较，直观地看，每个网络的全局正归因比例差异不大，如图7所示。为了更直观地理解每个阶段的归因贡献，表1显示了四种骨干网络最后三个阶段中的全局正归因(global positive attribution,GPA)和全局正归因比例的指标值。在全局正归因(GPA)方面，ResNet-50在四个网络中最高，它的平均值为48.98。YOLOv5s是第二个，平均GPA为26.67％。MobileNet v3和ShuffleNet v2的平均GPA较小，分别为13.72％和10.63％。结果表明，MobileNet v3和ShuffleNet v2对飞机检测中的特征提取贡献较弱。在GPAP方面，4个骨干网络的最后3个阶段只有微小的差异。在每个网络的平均GPAP值中，最大值和最小值之间的差值不超过1.2％。在GPAP值相似的情况下，GPA越大，骨干网络提取飞机有效和稳健特征的能力就越好。总的来说，ResNet-50的GPA和GPAP值最高，其次是YOLOv5s。结果表明，与MobileNet v3和ShuffleNet v2相比，ResNet-50和YOLOv5s的骨干网络可以提取出更具代表性和鲁棒性的飞机特征。

表1：四个网络在最后三个阶段的GPA和GPAP指标的比较。

4、可视化检测头的可视化。

本实施例对大型民用飞机(场景Ⅰ)和小型飞机(场景Ⅱ)的检测结果进行了可视化分析，更有利于了解网络对多尺度目标的检测性能。

场景Ⅰ：图8显示了融合三个检测分支的预测特征图后的热图的可视化结果，具体为场景Ⅰ的可视化热图结果和输入标签图像，(a)是中国虹桥机场Ⅰ的真实场景，飞机目标用红框进行了标记。(b-d)分别是MobileNet v3、ShuffleNet v2、ResNet-50和YOLOv5s输出的热图。图8中的(a)是来自Gaofen-3系统的中国虹桥机场的局部SAR图像。可以看到，机场有四架大型民用飞机(用红色框标记)。飞机特征是离散的，而且一些飞机的机翼成像较弱。由于机身的整体形状相对明显，由四个网络生成的热图可以更多地关注飞机所在的区域。MobileNet v3(如图8中的(b)所示)和ResNet-50(如图8中的(d)所示)在图像的边缘区域具有较高的响应。相比之下，ShuffleNet v2(如图8中的(b)所示)和YOLOv5s(图8中的(e)所示)网络在背景区域具有良好的视觉效果，主要分布在较低的对应颜色区域，像素值在50-150之间。

表2显示了相对辨识度和总体框平均响应的值，用于全面评估网络，并衡量重要目标区域的焦点程度。对于ResNet-50和MobileNet v3，它们的总体框平均响应(Overall BoxAverage Response,OBAR)值更高，但相对辨识度(Relative Discrimination,RD)的值低于ShuffleNet v2和YOLOv5s。结果表明，该网络在飞机区域和背景区域中都具有较高的像素响应值，因此对有效飞机特征的识别能力相对较弱。ShuffleNet v2在四种网络中OBAR和RD最低，说明ShuffleNet v2在飞机检测方面较弱。虽然YOLOv5的OBAR低于ResNet-50和MobileNet v3，但值得注意的是，YOLOv5的OBAR值明显高于其余3个骨干网络，这表明YOLOv5有很好的区分飞机和背景的能力。

表2：四个骨干网络的可视化热图性能分析。

网络	总体框平均响应(OBAR)	相对辨识度(RD)
			ShuffleNet v2	127	5.98
MobileNet v3	155	5.66
			ResNet-50	160	5.83
YOLOv5s	128	6.54

场景Ⅱ：图9显示了来自Gaofen-3系统成像的中国首都机场的局部SAR图像和4个骨干网络的输出热图，具体为场景Ⅱ的可视化热图和输入标签图像。(a)是中国首都机场Ⅱ的真实场景，飞机目标用红框进行了标记。(b-d)分别是MobileNet v3、ShuffleNet v2、ResNet-50和YOLOv5s输出的热图。这里的飞机的大小比场景1中的要小得多，但飞机的散射特性较为明显。从图9中的(b)、(c)、(d)和(e)中可以看出，这4个网络可以有效地捕捉飞机的特性。YOLOv5s具有最好的视觉效果，并且比其他三个网络覆盖更少的背景噪声。同时，YOLOv5s在飞机机身上的像素响应值较高，总体聚集性较好。它没有太关注飞机周围的背景信息。因此可以说，YOLOv5s网络可以更好地关注该样本上飞机的有效特性，并具有良好的抗干扰能力。ShuffleNet v2和MobileNet v3的背景杂波有一些显著的影响。特别是ResNet-50网络的背景区域响应值(如图9中的(d)所示)是四个网络中最大的，这反映了ResNet-50在最终预测结果中背景信息的具有较高影响，更有可能出现虚警问题。

表3给出了来自4个骨干网络的可视化热图的性能分析。

表3：四个网络的视觉热图的性能分析。

根据表3可知，所有这4种网络都达到了一个较大的OBAR值。在相对鉴别度(RD)方面，YOLOv5比ShuffleNet v2、MobileNet v3和ResNet-50具有显著优势，RD值为14.24。其中，ResNet-50网络的RD最低，值为10.21，再次表明背景杂波的影响很大，需要进一步加强ResNet-50网络的鲁棒性，以获得更好的飞机探测性能。

为了更客观地了解每个骨干网络的检测性能，表4显示了精度(Precision)、召回率(Recall)和平均精度(mAP)的指标比较。整个实验采用控制单变量的原理，只有骨干网络的选择不同。在4个骨干网络中使用了相同的PANet融合模块、YOLOv3 head和超级参数设置。所有的网络都在同一数据集上进行训练，并在测试集中记录这些指标。可以看出，YOLOv5s和ResNet-50在召回率和mAP方面的结果非常相似。但YOLOv5s的精度比ResNet-50高出2.38％。这表明YOLOv5s网络的鲁棒性优于ResNet-50。MobileNet v3各项指标均次于ResNet-50和YOLOv5s，排名第三，其精度、召回率和mAP分别为86.82％、92.14％和90.33％。相比之下，ShuffleNet v2的精度、召回率和mAP值都为最低值，其中mAP仅为88.06％。由此可知，YOLOv5s和ResNet-50比ShuffleNet v2和MobileNet v3具有更好的飞机探测性能。这与利用IG和GAM方法对骨干网络进行选择的结论一致，验证了本文提出的骨干网络选择方法的有效性和可行性。

表4：四个主干检测网络的性能比较。

综上所述，如今在目标检测研究中，选择合适的骨干网络与优化技术(如超参数调优)一样重要。随着网络变得越来越复杂，网络的黑箱行为会被更频繁地注意到，这通常会阻碍研究人员理解网络的归因。为了提高检测算法的透明度，实施例中提出了一种基于YOLO的SAR图像飞机检测的创新型XAI框架。由于飞机的散射图像特征、飞机尺寸的差异性以及复杂背景的干扰，从SAR图像中进行飞机检测是一项非常具有挑战性的任务。因此，选择一个具有优秀特征提取能力的骨干网络尤其重要，特别是对于飞机检测而言。本实施例提出了HGAM来选择最适合将飞机从SAR图像中进行特征提取的骨干网络。从表1可知，ResNet-50和YOLOv5s网络的GPA和GPAP值均远高于ShuffleNet v2和MobileNet v3网络，显示了ResNet-50和YOLOv5s网络在提取飞机有效特征方面更具优势。从图6可以看出，YOLOv5s在这3个阶段的全局正归因排名都相对稳定，排名较高。特别地，在阶段5的聚类2(如图6中的(b3)所示)中，YOLOv5s获得了最高的归因排名值52％，具有很大的优势，而ResNet-50只占全局正归因排名的1％。这意味着在某些样本上，ResNet-50的顶层模块(Stage 5)的输出能力和可靠性都低于YOLOv5s。此外，结合本实施例提出的CCSM可视化方法的指标，如表2和表3所示，YOLOv5s具有良好的OBAR值，其RD在4个骨干网络中最高。这也表明，YOLOv5的背景信息对最终预测结果的影响最小，而且YOLOv5可以提取具有良好鲁棒性的飞机特征，在SAR飞机检测方面具有优势。此外，表4也对此进行了验证。YOLOv5s不仅具有最高的飞机检测精度，而且在mAP和召回率方面也非常接近ResNet-50，明显优于ShuffleNet v2和MobileNet v3。因此，本实施例提出的方法可以为给定输入数据集的特征提取的有效性提供可靠的解释和分析，并选择合适的骨干网络，这可以为其他学者在SAR图像分析中解释DNN提供重要参考。本实施例方法将HGAM算法、PANet和CCSM的指标结合到具有高性能和可理解性的深度卷积神经网络透明盒中，可为SAR图像目标检测任务中选取骨干网络提供了解释信息，并提供了检测头鉴别性的可视化，这是基于SAR图像的目标检测研究中的首个XAI工作，它为未来探索XAI铺平了道路，以提高对DNN使用的可理解性、透明度、可追溯性、因果关系和信任度。

此外，本实施例还提供一种基于深度学习的可解释性SAR图像目标检测系统，包括相互连接的微处理器和存储器，该微处理器被编程或配置以执行前述基于深度学习的可解释性SAR图像目标检测方法的步骤。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行前述基于深度学习的可解释性SAR图像目标检测方法的计算机程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度学习的可解释性SAR图像目标检测方法，其特征在于，包括为用于对输入的SAR图像获得对应的目标检测结果的深度学习神经网络选取骨干网络的步骤：

2.根据权利要求1所述的基于深度学习的可解释性SAR图像目标检测方法，其特征在于，所述骨干网络为多个阶段的特征提取模块和下采样模块堆叠组成，且由最后三个阶段的特征提取模块输出的特征图作为骨干网络的输出。

3.根据权利要求2所述的基于深度学习的可解释性SAR图像目标检测方法，其特征在于，步骤2)包括：

4.根据权利要求3所述的基于深度学习的可解释性SAR图像目标检测方法，其特征在于，步骤2.1)中采用积分梯度方法生成局部观测归因的步骤包括：

移动到四维张量X对应的输入图像的总成本

5.根据权利要求4所述的基于深度学习的可解释性SAR图像目标检测方法，其特征在于，步骤2.1.4)中基于到由所有点的梯度值的总和构成的四维局部观测张量attributions_ig将正归因PA进行归一化处理得到正归因比例PAP的函数表达式为：

上式中，PA为正归因，min为最小值函数，max为最大值函数，attributions_ig为由输入图像到基线图像上的所有点的梯度值的总和构成的四维张量。

6.根据权利要求5所述的基于深度学习的可解释性SAR图像目标检测方法，其特征在于，步骤2.2)包括：

表示归因向量θ_w中任意第i个特征的权重，ο是哈达玛积；

7.根据权利要求1～6中任意一项所述的基于深度学习的可解释性SAR图像目标检测方法，其特征在于，所述深度学习神经网络包括：骨干网络，用于将输入的SAR图提取目标特征得到具有不同的分辨率和感受野的多个特征图；融合模块PANet，用于将骨干网输出的具有不同的分辨率和感受野的三个特征图进行相互融合，得到数量相同的融合后的增强特征图；可视化检测头，用于针对三个融合后的特征图进行多尺度的目标检测得到目标检测结果以及可视化结果。

8.根据权利要求7所述的基于深度学习的可解释性SAR图像目标检测方法，其特征在于，所述可视化检测头采用YOLOv3 Head对融合后的三个不同尺度特征图进行对应尺度的目标检测得到目标检测结果，且所述YOLOv3 Head在每个1×1网格下生成的三组边界框的信息被编码到相应的3×(5+C)向量中，且目标检测结果的每个边界框包含1个置信分数、4个坐标、C个条件类别概率值Pr，所述4个坐标包括边界框的中心坐标X,Y、宽度W和高度H；且所述可视化检测头还包括计算条件类别概率值Pr和每个边界框的置信分数的乘积得到类别特定置信分数CCS，将类别特定置信分数CCS生成热图并上采样到输入的SAR图像大小，并乘以原始输入图像得到掩模图像，将掩模图像再次输入YOLOv3 Head得到增强后的热图，并作为可视化输出结果输出。

9.一种基于深度学习的可解释性SAR图像目标检测系统，包括相互连接的微处理器和存储器，其特征在于，该微处理器被编程或配置以执行权利要求1～8中任意一项所述基于深度学习的可解释性SAR图像目标检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有被编程或配置以执行权利要求1～8中任意一项所述基于深度学习的可解释性SAR图像目标检测方法的计算机程序。