CN112036419B

CN112036419B - 一种基于VGG-Attention模型的SAR图像部件解译方法

Info

Publication number: CN112036419B
Application number: CN202010978115.3A
Authority: CN
Inventors: 吴彬倩; 张弓; 贺广均
Original assignee: Nanjing University of Aeronautics and Astronautics; Beijing Institute of Satellite Information Engineering
Current assignee: Nanjing University of Aeronautics and Astronautics; Beijing Institute of Satellite Information Engineering
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2024-04-05
Anticipated expiration: 2040-09-17
Also published as: CN112036419A

Abstract

本发明公开了一种基于VGG‑Attention模型的SAR图像部件解译方法，首先对原始VGG网络进行改进，并在改进后的VGG网络中添加注意力模块，得到VGG‑Attention模型，在训练过程中输入给定标签的SAR图像，VGG‑Attention模型提取SAR图像的整体数据特征，残差注意力模块将所提取的深层特征中的重要特征进行加强和集中，通过优化网络参数实现对SAR图像显著部件的解译。本发明在不降低解译效果的前提下减少了训练所需时间，提升了网络的鲁棒性，能有效对SOC和大俯仰角EOC条件下的SAR目标图像中的显著部件进行较准确的解译。

Description

一种基于VGG-Attention模型的SAR图像部件解译方法

技术领域

本发明属于SAR图像分析技术领域。

背景技术

SAR图像是地物目标及环境的雷达回波后向散射形成的图像信息，与光学图像相比，其信息提供模式与人的视觉感知模式有一定差异，因此视觉可读性较差。且由于SAR系统相干成像原理和运动成像的特点，SAR图像与成像系统参数关系密切，导致SAR图像解译更加困难。随着高分辨率雷达的迅速发展，如何快速对海量SAR图像的信息进行有效解译是SAR图像应用中迫切需要解决的问题之一。

作为获取SAR图像信息的基本过程，SAR图像解译就是通过对SAR图像中已知的目标先验信息和目标所表现的各种特征信息进行分析、推理与判断，最终获得对目标最直白的解释。随着近年来人工智能技术的巨大进展，基于机器学习、深度学习的方法越来越多的被应用到SAR图像领域，并取得了良好的效果，为SAR图像的智能解译奠定了基础。

注意力模型作为深度学习一个重要的领域分支，近几年得到了广泛的应用。注意力模型源于人脑的注意力机制，其本质是对数据特征进行了加权，凸显在决策过程中起重要作用的区域，因此具有良好的可解释性。但是现有技术中VGG网络在SAR图像的应用中存在不利于提取图像局部特征等问题；而且现有技术中对SAR图像领域目标的部件级解译几乎还处于空白阶段。

发明内容

发明目的：为解决背景技术中存在的问题，本发明提供了一种基于VGG-Attention模型的SAR图像部件解译方法。

技术方案：本发明提供了一种基于VGG-Attention模型的SAR图像部件解译方法，具体包括如下步骤：

步骤1：将SAR图像中物体的某个部件作为目标，对SAR图像库中所有的SAR图像按是否存在目标进行标注，并将SAR图像库中的图像按照俯仰角划分训练集和测试集；

步骤2：将残差注意力模型Attention与VGG网络模型结合，得到VGG-Attention模型；

步骤3：将训练样本输入至VGG-Attention模型中，对VGG-Attention模型进行训练；

步骤4：训练结束后，计算训练集中每个SAR图像经VGG-Attention模型得到的输出值与该SAR图像的原始标注之间的交叉熵，将该交叉熵作为VGG-Attention模型的损失函数，并根据损失函数对VGG-Attention模型的每一层网络进行调整，从而更新VGG-Attention模型，判断更新后的VGG-Attention模型是否达到收敛状态，若是，则转步骤5；否则转步骤3，对更新后的VGG-Attention模型再次进行训练；

步骤5：利用测试集计算更新后的VGG-Attention模型的准确率是否达到预设的值，若是，则转步骤6；否则对该VGG-Attention模型的超参数进行调整，并转步骤3；

步骤6：将需要进行目标解译的SAR图像输入至VGG-Attention模型中，该VGG-Attention模型对SAR图像进行目标解译，并得到目标的解译值。

进一步的，所述步骤2中的VGG-Attention模型包括：依次连接的第一卷积单元，第二卷积单元和第三卷积单元，第一残差注意力单元，第四卷积单元，第二残差注意力单元，第一全连接层，Dropout层和第二全连接层；第一、二卷积单元包括均值池化层和两个3*3的卷积层，第三、四卷积单元包括均值池化层和三个3*3的卷积层。

进一步的，所述第一、二残差注意力单元均包括第一～三残差单元，主干分支，掩膜分支和加权计算模块；所述三个残差单元均采用恒等映射函数，第一，二残差单元依次对输入至残差注意力单元的特征值进行进一步提取，得到语义特征的特征值x，并将x分别输入至主干分支和掩膜分支，所述主干分支采用残差网络对输入的x进行拟合，并将拟合后的结果T(x)输入至加权计算模块，所述掩膜分支通过降采样和升采样的方式对输入的x进行处理，并将输出结果M(x)输入至加权计算模块，所述加权计算模块通过如下公式对T(x)和M(x)进行计算，并将计算结果F(x)输入第三残差单元：

F(x)＝(1+M(x))*T(x)。

进一步的，所述所述掩膜分支通过降采样和升采样对输入的语义特征进行处理具体为：掩膜分支采用的卷积核对输入的语义特征值x进行卷积计算，并使用最大池化进行降维操作，然后再逐层使用双线性差值的方法扩张降维后的x的维度，将扩张过程中和缩小过程中相同维度的特征值通过残差块进行连接，将所有连接后的特征值相加，然后采用2个1*1的卷积层对相加后的特征值的通道进行整合计算，输出一个与原始x的维度相同，通道数为1的特征值，最后采用Sigmoid激活函数将该通道数为1的特征值归一化到0～1之间。

进一步的，所述步骤4中采用softmax损失函数计算交叉熵。

进一步的，所述步骤4中根据损失函数对VGG-Attention模型的每一层网络进行调整具体为：从下往上分别计算损失函数对VGG-Attention模型中每一个网络层的权重的偏导数和偏置的偏导数，依据当前网络层的权重偏导数和偏置偏导数，以及下一层网络层的权重偏导数和偏置偏导数对当前网络层的权重和偏置进行调整，并将该层的偏导数继续回传至上一层，修改上一层的权重和偏置。

有益效果：本发明提供的VGG-Attention模型在不降低解译效果的前提下减少了训练所需时间，且添加了残差注意力的VGG-Attention网络提取特征的鲁棒性有提升，能有效对SOC和大俯仰角EOC条件下的SAR目标图像中的显著部件进行较准确的解译。本发明所提出的SAR图像解译方法对于SAR图像可解释性的研究有很好的启发和意义。

附图说明

图1为本发明的网络结构示意图；

图2为本发明卷积单元的结构示意图；

图3为本发明中添加的残差注意力模块结构示意图；

图4为本发明的残差注意力模块中掩膜分支的原理示意图；

图5为本发明训练时损失函数的变化曲线示意图；

图6为本发明训练过程中准确率的变化曲线示意图。

具体实施方式

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

本发明提供了一种基于VGG-Attention模型的SAR图像部件解译方法，具体包括如下步骤，

训练步骤：将SAR图像中物体的某个部件作为目标，对SAR图像库中所有的SAR图像按是否存在目标进行标注；将SAR图像库中的图像按照俯仰角划分训练集和测试集；将残差注意力模型与VGG网络结合，得到VGG-Attention网络模型，将训练集输入至VGG-Attention网络模型中，对该网络模型进行训练和调整，并采用测试集对该网络进行经准确率计算；

测试步骤：输入新一批待测SAR目标图像到训练好的网络中，获得待测图像有无显著部件的解译结果。

优选的，所述训练步骤具体为：

步骤1：将训练样本输入至VGG-Attention模型中，对VGG-Attention模型进行训练；

步骤2：训练结束后，计算训练集中每个SAR图像经VGG-Attention模型得到的输出值与该SAR图像的原始标注之间的交叉熵，将该交叉熵作为模型的损失函数，并根据损失函数对VGG-Attention模型的每一层网络进行调整，从而更新VGG-Attention模型，判断更新后的VGG-Attention模型是否达到收敛状态，若是，则转步骤3；否则转步骤1，对更新后的VGG-Attention模型进行训练；

步骤3：利用测试集计算更新后的VGG-Attention模型的准确率是否达到预设的值，若是则结束训练，否则对该VGG-Attention模型的超参数进行调整，并转步骤1。

优选的，如图1所示，本发明的VGG-Attention模型包括依次连接的第一～三卷积单元，第一残差注意力单元，第四卷积单元，第二残差注意力单元，第一全连接层，Dropout层和第二全连接层；VGG-Attention模型中的顶层输入由224*224*3替换为与SAR图像相对应的64*64*1。

原始的VGG(Visual Geometry Group)网络采取最大池化层进行池化，但对于特征较复杂的SAR图像，最大池化不利于保存图像整体的数据特征，所以如图2所示，本发明的中的卷积层中的池化层全部采用平均池化层，且第一、二卷积单元包括两个3*3卷积核和均值池化层；第三，四卷积单元包括三个卷积层和均值池化层且原始的VGG网络采中参数量巨大，导致训练时间长且调参困难，因此在本发明的VGG-Attention(VGG-残差注意力单元)模型中去除最后一个block，并将三层的全连接层替换为两层，在第一个全连接层后加入dropout层(dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃)防止过拟合；由于深层次的特征图具有更高的抽象性和语义表达能力，对于目标部件级的解译较浅层特征有较大的作用。因此在最后两个平均池化层后接入残差注意力模块，使模型更易捕获显著特征的语义信息；

训练集与一系列3*3的卷积核进行卷积，提取SAR目标图像的整体数据特征，对提取到的特征进行均值池化，获得降维后的特征，降维之后的特征输入残差注意力模块中，如图3所示，残差注意力模块可以结合到目前的大部分深层网络中，做到端到端的训练结果，因为残差结构的存在，可以很容易将网络扩展到百数层。并且使用该种策略可以在达到其他大网络的分类准确率的同时显著降低计算量，在注意力模模块不断优化的过程中能够不断聚焦到最具辨别性的区域进行图像分类，同时还能增强该部分区域的特征。

残差注意力模块中的前两个残差块用于进一步提取更深层的语义特征x，且由于残差块是恒等映射函数，保证在网络深度加深的同时不影响特征提取的效果。

对残差块所提取到的特征x，分别输入主干分支和掩膜分支中，所述主干分支采用残差网络对输入的x进行拟合得到T(x)；掩膜分支通过通过降采样和升采样对输入特征x进行处理，输出维度一致与原始x维度一致的注意力特征M(x)，然后使用点乘加权操作将两个分支的特征组合在一起，得到特征F(x)；并将F(x)输入第三残差单元；

F(x)＝(1+M(x))*T(x)；

通过上述公式可以增强显著的特征并抑制来自主干特征中的噪声。

M(x)为[0,1]区间内的取值，与1相加之后可以很好的解决一中提出来的会降低特征值的问题；掩码分支采取自底向上、自顶向下的结构来实现特征选择。T(x)是由残差网络结构来学习拟合，结合掩膜分支输出的结果，可以使得T(x)输出特征图中重要的特征得到加强，而不重要的特征被抑制。最终注意力模块可以使得逐渐的提升网络的表达能力。

在掩膜分支(mask branch)中，特征图的处理操作主要包含为前向的降采样过程和上采样过程，前者是为了快速编码、获取特征图的全局特征，而后者主要是将提取出来的全局高维特征上采样之后与之前未降采样的特征组合在一起，目的使得上下文，高低纬度的特征能够更好的组合在一起，类似于FPN网络的做法。

掩膜分支的操作如图4所示：图中对于输入x，使用多层卷积计算之后，再使用最大池化操作对特征图进行降维操作，一直降维直到x维度达到多层卷积输出特征图的最小尺寸，比如7x7，然后逐层使用双线性差值的方法扩张降维后的x，将扩张过程中和缩小过程中相同维度的特征值通过残差块进行连接，将所有连接后的特征值相加，这里的考量是结合了全局的和局部的特征，增强了特征图的表达能力。然后采用2个1x1的卷积层对相加后的特征值的通道做整合计算输出一个与原始x中文高宽维度相同，通道数为1的特征值，最后采用Sigmoid激活函数层将该通道数为1的特征值归一化到0～1之间。

优选的，采用softmax的交叉熵损失作为网络的损失函数；从下往上分别计算损失函数对VGG-Attention模型中每一个网络层的权重的偏导数和偏置的偏导数，依据当前网络层的权重偏导数和偏置偏导数，以及下一层网络层的权重偏导数和偏置偏导数对当前网络层的权重和偏置进行调整；通过最小化原始标签与网络输出结果间的交叉熵，优化网络参数，待模型收敛时，冻结网络参数和模型；如图5、6所示，可通过损失函数和准确率的变化曲线来判别模型是否收敛，图5为训练过程中损失函数的变化曲线图，图6为训练过程中准确率变化曲线图，当损失函数基本不下降且训练准确率也基本不升高时，则模型达到收敛状态。

本发明中采用tensorflow1.8及NVIDIA1080Ti实验平台仿真本方法对SAR目标图像的解译效果，实验结果验证了本发明的正确性、可行性和有效性。表1为采用俯仰角为17°SOC(Standard Operating Condition——标准操作条件)条件下的MSTAR(Moving andStationary TargetAcquisitionand Recognition)数据集进行训练，15°SOC条件下的数据集进行测试所获得的解译结果，可以看出本发明在此条件下对显著部件具有较高的解译精度。同时，表2和表3分别为17°EOC(Extended OperatingCondition——扩展工作条件)条件下训练，30°和45°EOC条件下测试的解译结果。表4给出了前述三种条件下总体SAR目标图像的平均解译正确率，根据SAR图像相关知识，在俯仰角差异大时SAR目标图像的差别很大，容易导致解译性能的急剧降低，但本发明的实验结果显示在大俯仰角差异时的解译效果没有较多的下降，验证了本发明对显著部件解译的有效性和鲁棒性，并且改善了大俯仰角下SAR图像解译性能剧烈下降的问题。

表1

表2

表3

表4

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于VGG-Attention模型的SAR图像部件解译方法，其特征在于，具体包括如下步骤：

步骤2：将残差注意力模型Attention与VGG网络结合，得到VGG-Attention模型；

步骤4：训练结束后，计算训练集中每个SAR图像经VGG-Attention模型得到的输出值与该SAR图像的原始标注之间的交叉熵，将该交叉熵作为VGG-Attention模型的损失函数，并根据损失函数对VGG-Attention模型的每一层网络进行调整，从而更新VGG-Attention模型，判断更新后的VGG-Attention模型是否达到收敛，若是，则转步骤5；否则转步骤3，对更新后的VGG-Attention模型再次进行训练；

2.根据权利要求1所述的一种基于VGG-Attention模型的SAR图像部件解译方法，其特征在于，所述步骤2中的VGG-Attention模型包括：依次连接的第一卷积单元，第二卷积单元，第三卷积单元，第一残差注意力单元，第四卷积单元，第二残差注意力单元，第一全连接层，Dropout层和第二全连接层；第一、二卷积单元包括均值池化层和两个3*3的卷积层，第三、四卷积单元包括均值池化层和三个3*3的卷积层。

3.根据权利要求2所述的一种基于VGG-Attention模型的SAR图像部件解译方法，其特征在于，所述第一、二残差注意力单元均包括第一～三残差单元，主干分支，掩膜分支和加权计算模块；所述三个残差单元均采用恒等映射函数，第一，二残差单元依次对输入至残差注意力单元的特征值进行进一步提取，得到语义特征的特征值x，并将x分别输入至主干分支和掩膜分支，所述主干分支采用残差网络对输入的x进行拟合，并将拟合后的结果T(x)输入至加权计算模块，所述掩膜分支通过降采样和升采样的方式对输入的x进行处理，并将处理结果M(x)输入至加权计算模块，所述加权计算模块通过如下公式对T(x)和M(x)进行计算，并将计算结果F(x)输入第三残差单元；

F(x)＝(1+M(x))*T(x)。

4.根据权利要求3所述的一种基于VGG-Attention模型的SAR图像部件解译方法，其特征在于，所述掩膜分支通过降采样和升采样对输入的语义特征进行处理具体为：掩膜分支采用卷积核对输入的语义特征值x进行卷积计算，并使用最大池化进行降维操作，然后再逐层使用双线性差值的方法扩张降维后的x的维度，将扩张过程中和缩小过程中相同维度的特征值通过残差块进行连接，将所有连接后的特征值相加，然后采用2个1*1的卷积层对相加后的特征值的通道进行整合计算，输出一个与原始x的维度相同且通道数为1的特征值，最后采用Sigmoid激活函数将该特征值归一化到0～1之间。

5.根据权利要求1所述的一种基于VGG-Attention模型的SAR图像部件解译方法，其特征在于，所述步骤4中采用softmax损失函数计算交叉熵。

6.根据权利要求1所述的一种基于VGG-Attention模型的SAR图像部件解译方法，其特征在于，所述步骤4中根据损失函数对VGG-Attention模型的每一层网络进行调整具体为：从下往上分别计算损失函数对VGG-Attention模型中每一个网络层的权重的偏导数和偏置的偏导数，依据当前网络层的权重偏导数和偏置偏导数，以及下一层网络层的权重偏导数和偏置偏导数对当前网络层的权重和偏置进行调整，并将该层的偏导数继续回传至上一层，修改上一层的权重和偏置。