CN117095309A

CN117095309A - 一种极化sar影像旋转域特征表达提取与分类方法

Info

Publication number: CN117095309A
Application number: CN202311362154.0A
Authority: CN
Inventors: 王磊; 赵书伟; 洪汉玉; 张耀宗; 华夏; 吕琪文
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2023-11-21
Anticipated expiration: 2043-10-20
Also published as: CN117095309B

Abstract

本发明公开了一种极化SAR影像旋转域特征表达提取与分类方法，该方法包括以下步骤：获取PolSAR图像中各像素的极化相干矩阵，利用不同极化方向角对应的极化旋转矩阵生成待分类像素的旋转域极化相干矩阵序列，作为3D卷积视觉Transformer的输入；在3D卷积视觉Transformer中先使用两个3D卷积块来捕获极化相干矩阵的中级特征映射；将第二个3D卷积块的输出作为后续两个3D视觉Transformer块和两个3D池化层的输入，学习旋转域极化相干矩阵的高级特征表示；利用3D视觉Transformer学习输入特征图的局部和全局特征表示；利用所提出的3D卷积视觉Transformer输出的高级特征图进行分类，即将特征表示输入分类器进行PolSAR图像分类。本发明能够高效完成对极化合成合成孔径雷达图像的分类任务。

Description

一种极化SAR影像旋转域特征表达提取与分类方法

技术领域

本发明属于深度学习及图像处理技术领域，具体涉及一种基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法。

背景技术

随着遥感卫星技术的快速发展，星载合成孔径雷达（Synthetic Aperture Radar，SAR）技术朝着多极化、多模式、高分辨率等方向发展。SAR具有全天候工作、全天候条件下工作、具有一定的穿透能力、高分辨率、范围大等优点，在土地利用规划、防灾、军事目标探测识别等方面发挥着不可替代的作用。随着SAR系统的快速发展，大量的SAR数据自动解译成为一个新的挑战。深度学习在自然语言处理、图像处理等研究领域中发挥着革命性的作用，在SAR图像分类、变化检测、目标检测等方面表现出优异的性能和巨大的潜力。与传统的机器学习方法相比，深度学习具有显著的优势。基于深度学习的SAR图像解译，一直是一种不可抗拒的普遍趋势。

极化合成孔径雷达（PolSAR）图像中目标的散射特性与目标的方向直接相关。同一目标在不同方向上的散射特性可能会有很大的不同。这种由目标方向引起的解译模糊性是PolSAR图像解译的主要技术瓶颈之一。基于这一问题，提出了一种基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法。

发明内容

本发明的目的在于，提供一种极化SAR影像旋转域特征表达提取与分类方法，解决由目标方向引起的解译模糊性问题，提高对极化合成孔径雷达图像的解译性能，完成对极化合成合成孔径雷达图像的分类。

本发明所采用的技术方案如下：

一种基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法，该方法包括以下步骤：

S1、获取PolSAR图像中各像素的极化相干矩阵，利用不同极化方向角对应的极化旋转矩阵生成待分类像素的旋转域极化相干矩阵序列，作为3D卷积视觉Transformer的输入；其中，3D卷积视觉Transformer的结构依次为：输入3D卷积块/>3D卷积块/>3D视觉Transformer块/>3D池化层/>3D视觉Transformer块/>3D池化层/>3D卷积块/>输出；

S2、在3D卷积视觉Transformer中先使用两个3D卷积块来捕获极化相干矩阵的中级特征映射；

S3、将第二个3D卷积块的输出作为后续两个3D视觉Transformer块和两个3D池化层的输入，学习旋转域极化相干矩阵的高级特征表示；

S4、利用3D视觉Transformer学习输入特征图的局部和全局特征表示；

S6、利用所提出的3D卷积视觉Transformer输出的高级特征图进行分类，即将特征表示输入分类器进行PolSAR图像分类。

接上述技术方案，步骤S1中，极化相干矩阵包含PolSAR图像中目标的完全散射特性，如下所示：

式中，是极化相干矩阵/>中的元素，/>；

每个像素的偏振信息都用一个向量t _P来定义：

将极化相干矩阵乘以极化旋转矩阵/>，得到旋转域极化相干矩阵/>：

其中，表示极化方向角POA，T表示转置，极化旋转矩阵/>为：

则中的元素/>如下所示：

PolSAR图像中每个像素的旋转域极化数据定义为一个向量：

式中，和/>分别表示/>的实部和虚部。

接上述技术方案，当对PolSAR图像中的一个像素进行分类时，将使用该像素的邻域窗数据作为输入；在旋转域中，再生成一系列具有不同极化方向角POA的邻域窗数据，最后输入至3D卷积视觉Transformer中；

设C表示通道数，也为每个像素的旋转域极化数据中的元素数，D表示不同极化方向角的数量，H和W表示邻域窗的高度和宽度，则输入数据的大小为，即旋转域极化相干矩阵序列的特征映射为4D的/>张量，是一个具有不同极化方向角POA的序列。

接上述技术方案，将极化方向角POA由0变为，步长为/>，从而生成9个旋转域极化相干矩阵。

接上述技术方案，步骤S2中，3D卷积块和3D池化层学习图像序列的特征表示，用旋转域极化相干矩阵序列来描述PolSAR旋转域的极化信息；设输入张量是输入，输出张量是输出/>，则3D卷积操作输出张量的第j个特征图由下式进行计算：

其中，input表示输入，out表示输出，是可学习的权重，/>是可学习的偏差，p是变量参数，/>是有效的3D互相关操作。

接上述技术方案，使用的池化操作是3D最大池化，设3D最大池化的第个特征映射为：

其中，、/>和/>表示池化核大小，d、h和w为数据坐标，步幅stride为窗的步幅，0、1和2表示3个维度，i、m和n是变量参数；大小为/>的内核滑过输入数据并计算输出值。

接上述技术方案，3D卷积块包含三层，即3D卷积、3D批处理归一化BN和Sigmoid-weighed加权线性单位SiLU激活层。

接上述技术方案，3D视觉Transformer块结构为：将特征映射通过两个卷积层展开后学习全局表示/>折叠/>通过一个卷积层后与特征映射结合再次通过一个卷积层/>得到输出特征映射。

接上述技术方案，在3D视觉Transformer中，展开和折叠操作被设计以适应4D张量；设为3D视觉Transformer中前两个3D卷积块的输出，/>被看作是视觉Transformer中的分裂补丁，所以通过简单地合并H和W的维度来展开；

设表示已展开的特征图，以及/>，然后将/>输入到Transformer中，学习全局表示/>；由于空间顺序不改变，/>折叠得到；最后，将/>与输入特征映射/>连接，使用3D卷积块融合特征，得到输出特征映射/>；

在一个3D视觉Transformer块中有4个3D卷积块，每个3D卷积块包含一个3D卷积层、一个3D-BN层和一个SiLU层；每个3D视觉Transformer块都有一个Transformer层，3D视觉Transformer块使用卷积和Transformer来学习局部和全局表示。

接上述技术方案，该方法还包括步骤：

S5、利用3D视觉Transformer中的自注意力机制描述不同观察角度下极化相干矩阵之间的规律和差异性，提高极化合成孔径雷达图像的解译性能。

本发明与现有技术相比，具有以下优点及有益效果：

本发明提出了一种基于3D-CNN和3D卷积视觉Transformer的极化SAR影像旋转域的极化相干矩阵序列特征表达提取框架，基于3D视觉Transformer块设计的3D卷积视觉Transformer主干量级轻，可以用性能低的GPU进行训练和推理；所提出的3D视觉Transformer也有其独特的优势，将其引入三维卷积，可以学习极化合成孔径雷达图像旋转域的极化相干矩阵序列的特征表示，每个极化相干矩阵的特征映射没有被分割成块，而是作为一个整体，3D卷积视觉Transformer中的3D卷积块和视觉Transformer块可以学习旋转域极化相干矩阵的高级特征表示；旋转域邻域窗数据包含全极化信息和旋转域隐藏特征，可以提高PolSAR图像的解译性能。此外，利用Transformer的自注意力机制，刻画极化SAR影像旋转域的极化相干矩阵序列之间的内在关系，提取具有相互关系的极化相干矩阵序列的特征表达。因此，该Transformer可以编码极化相干矩阵之间的自注意关系，从而提高了对极化合成孔径雷达图像的解译性能，能够高效完成对极化合成合成孔径雷达图像的分类任务。

附图说明

图1为实现极化SAR影像旋转域特征表达提取与分类方法的流程图；

图2为3D卷积视觉Transformer结构图；

图3为PolSAR图像中的一个像素的输入邻域窗数据示意图；

图4为3D数据特征学习示意图；

图5为3D视觉Transformer块结构图；

图6为PolSAR图像分类的工作流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明公开了一种基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法，包括以下步骤：利用极化旋转矩阵生成了一个极化相干矩阵序列，作为3D卷积神经网络的输入；使用3D卷积神经网络来捕获极化相干矩阵序列的高级特征表示；利用两个3D卷积块来学习极化相干矩阵的中层特征映射，然后将第二个3D卷积块的输出作为两个3D视觉Transformer和两个池化层的输入，学习旋转域极化相干矩阵的高级特征表示；利用3D视觉Transformer学习输入特征图的局部和全局特征表示；利用视觉Transformer中的自注意机制可以表达不同极化方向角的极化相干矩阵的规律性，提高极化合成孔径雷达图像的解译性能；用所提出的3D卷积视觉Transformer输出的高级特征图进行分类。本发明能够高效完成对极化合成合成孔径雷达图像的分类任务。

本发明实施例的基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法，如图1所示，包括以下步骤：

S1、利用极化旋转矩阵生成极化相干矩阵序列，作为3D卷积视觉Transformer的输入。

3D卷积视觉Transformer的具体结构为：输入3D卷积块/>3D卷积块/>3D视觉Transformer块/>3D池化层/>3D视觉Transformer块/>3D池化层/>3D卷积块/>输出，如图2所示。

极化相干矩阵包含了PolSAR图像中目标的完全散射特性，如下所示：

除了对角线上的元素外，极化相干矩阵中的元素都是复数。每个像素的偏振信息都可以用一个向量/>来定义：

其中，是极化相干矩阵/>中的元素，/>。/>和/>分别表示/>的实部和虚部。将极化相干矩阵/>乘以旋转矩阵/>，然后将旋转域极化相干矩阵/>定义如下：

其中，表示极化方向角POA，T表示转置，极化旋转矩阵/>为：

则中的元素/>如下所示：

每个像素的旋转域极化数据可以定义为一个向量：

在本方法中，将POA由0变为，步长为/>，从而生成9个旋转域极化相干矩阵。通常，当对PolSAR图像中的一个像素进行分类时，将使用该像素的邻域窗数据作为输入，如图3所示，即将待分类像素邻域窗内的像素的旋转域极化数据作为输入。在旋转域中，生成一系列具有不同POA的邻域窗数据，并可以输入到本方法中。

设C表示通道数，也为每个像素的旋转域极化数据中的元素数，D表示极化方向角的数量，H和W表示邻域窗数据的高度和宽度，那么输入数据的大小为，即极化相干矩阵的特征映射为4D的/>张量。

输入数据具有空间信息，是一个具有不同POA的序列，因此将其命名为“角度-空间”数据。在这种数据形式中，所提出的3D卷积视觉Transformer中的3D卷积块和视觉Transformer可以学习旋转域极化相干矩阵的高级特征表示。旋转域邻域窗数据包含全极化信息和旋转域隐藏特征，可以提高PolSAR图像的解译性能。

S2、在3D卷积视觉Transformer中使用两个3D卷积块来捕获极化相干矩阵的中级特征映射。

3D卷积块和3D池化层可以学习图像序列的特征表示，自然地可以用极化相干矩阵序列来描述PolSAR旋转域的极化信息。在最简单的情况下，如果输入张量是输入，而输出张量是输出/>，则3D卷积操作输出张量的第j个特征图可由下式进行计算：

该方法中使用的池化操作是3D最大池化。设3D最大池化的第个特征映射为：

其中，、/>和/>表示池化核大小，d、h和w为数据坐标，步幅stride为窗的步幅，0、1和2表示3个维度，i、m和n是变量参数。大小为/>的内核滑过输入数据并计算输出值。

图4显示了3D卷积和3D池化操作。大小为的内核滑过输入数据并计算输出值。本方法中使用的3D卷积块包含三层，即3D卷积、3D批处理归一化（BN）和Sigmoid-weighed加权线性单位（SiLU）激活层。BN层可以减少内部协变量的偏移，加速深度网络的训练。3D池化层是3D最大池化层。在3D卷积操作中，只有H和W维度被向下采样，角度维度D保持不变。

S3、将第二个3D卷积块的输出作为两个3D视觉Transformer和两个池化层的输入。极化相干矩阵的特征映射为4D的张量。故在本发明中，将卷积层均设计为3D卷积层，命名为3D视觉Transformer块。其具体结构为：将特征映射通过两个卷积层/>展开后学习全局表示/>折叠/>通过一个卷积层后与特征映射结合再次通过一个卷积层/>得到输出特征映射，如图5所示。

S4、利用3D视觉Transformer学习输入特征图的局部和全局特征表示。

在3D视觉Transformer中，展开和折叠操作被设计以适应4D张量。设为3D视觉Transformer中前两个3D卷积块的输出。/>可以被看作是视觉Transformer中的分裂补丁，所以它可以通过简单地合并H和W的维度来展开。设表示已展开的特征图，以及/>。然后将/>输入到Transformer中，学习全局表示/>。由于空间顺序不改变，/>可以折叠得到/>。最后，将/>与输入特征映射/>连接，使用3D卷积块融合特征，得到输出特征映射/>。

在一个3D视觉Transformer模块中有4个3D卷积块，每个3D卷积块包含一个3D卷积层、一个3D-BN层和一个SiLU层。每个3D视觉Transformer块都有一个Transformer层，因此所提出的方法只有两个Transformer层。所提出的3D视觉Transformer块可以使用卷积和Transformer来学习局部和全局表示。3D视觉Transformer块也可以看作Transformer的卷积，因此基于3D视觉Transformer块设计的3D卷积视觉Transformer主干量级轻，可以用性能低的GPU进行训练和推理。所提出的3D视觉Transformer也有其独特的优势。将其引入三维卷积，可以学习极化合成孔径雷达图像旋转域的极化相干矩阵序列的特征表示。每个极化相干矩阵的特征映射没有被分割成块，而是作为一个整体。利用Transformer的自注意力机制，刻画极化SAR影像旋转域的极化相干矩阵序列之间的内在关系，提取具有相互关系的极化相干矩阵序列的特征表达。因此，该Transformer可以编码极化相干矩阵之间的自注意关系，从而提高了对极化合成孔径雷达图像的解译性能。

S5、利用3D视觉Transformer中的自注意力机制可以描述不同观察角度下极化相干矩阵之间的规律和差异性，提高极化合成孔径雷达图像的解译性能；

S6、用所提出的3D卷积视觉Transformer输出的高级特征图进行分类。用本方法所提出的3D卷积视觉Transformer用于PolSAR图像的区分特征表示学习。然后将特征表示输入分类器进行PolSAR图像分类，如图6所示。对于分类任务，输入数据为旋转域中一个像素的邻域窗序列数据，通道数为C = 9，角度数为D = 9。

最后，在不同数据集上对不同方法进行了实验并进行性能评估。在RS-2 SAN数据集上测试所用方法分别为：(a) RF；(b) LeNet；(c) VGGNet；(d) MobileViT；(e) 3D-Conv-ViT。性能评估结果如表1所示。

表1 在RS-2 SAN数据集上与其他方法的性能评估对比表

如表1所示，本方法在RS-2 SAN数据集上取得了较为优秀的结果。

在RS-2 FLEVOLAND数据集上测试所用方法分别为：(a)RF；(b)LeNet；(c)VGGNet；(d)MobileViT；(e)3D-Conv-ViT。性能评估结果如表2所示。

表2 在AIRSAR FLEVOLAND数据集与其他方法的性能评估对比表

如表2所示，本方法在AIRSAR FLEVOLAND数据集也取得了较为优秀的结果。

需要说明的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

本领域的技术人员容易理解，以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法，其特征在于，步骤S1中，极化相干矩阵包含PolSAR图像中目标的完全散射特性，如下所示：

式中，是极化相干矩阵/>中的元素，/>；

每个像素的偏振信息都用一个向量t _P来定义：

其中，表示极化方向角POA，T表示转置，极化旋转矩阵/>为：

则中的元素/>如下所示：

PolSAR图像中每个像素的旋转域极化数据定义为一个向量：

式中，和/>分别表示/>的实部和虚部。

3.根据权利要求1或2所述的基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法，其特征在于，当对PolSAR图像中的一个像素进行分类时，将使用该像素的邻域窗数据作为输入；在旋转域中，再生成一系列具有不同极化方向角POA的邻域窗数据，最后输入至3D卷积视觉Transformer中；

4.根据权利要求3所述的基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法，其特征在于，将极化方向角POA由0变为，步长为/>，从而生成9个旋转域极化相干矩阵。

5.根据权利要求1所述的基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法，其特征在于，步骤S2中，3D卷积块和3D池化层学习图像序列的特征表示，用旋转域极化相干矩阵序列来描述PolSAR旋转域的极化信息；设输入张量是输入，输出张量是输出/>，则3D卷积操作输出张量的第j个特征图由下式进行计算：

6.根据权利要求5所述的基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法，其特征在于，使用的池化操作是3D最大池化，设3D最大池化的第个特征映射为：

7.根据权利要求5或6所述的基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法，其特征在于，3D卷积块包含三层，即3D卷积、3D批处理归一化BN和Sigmoid-weighed加权线性单位SiLU激活层。

8.根据权利要求1所述的基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法，其特征在于，3D视觉Transformer块结构为：将特征映射通过两个卷积层展开后学习全局表示/>折叠/>通过一个卷积层后与特征映射结合再次通过一个卷积层得到输出特征映射。

9.根据权利要求8所述的基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法，其特征在于，在3D视觉Transformer中，展开和折叠操作被设计以适应4D张量；设为3D视觉Transformer中前两个3D卷积块的输出，/>被看作是视觉Transformer中的分裂补丁，所以通过简单地合并H和W的维度来展开；

10.根据权利要求1所述的基于3D卷积视觉Transformer的极化SAR影像旋转域特征表达提取与分类方法，其特征在于，该方法还包括步骤：