CN110647794B

CN110647794B - 基于注意力机制的多尺度sar图像识别方法及装置

Info

Publication number: CN110647794B
Application number: CN201910630658.3A
Authority: CN
Inventors: 翟懿奎; 邓文博; 徐颖; 甘俊英; 曾军英; 应自炉; 柯琪锐; 周文略
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2023-01-03
Anticipated expiration: 2039-07-12
Also published as: US11017275B2; CN110647794A; US20210012146A1; WO2021008398A1

Abstract

本发明公开了基于注意力机制的多尺度SAR图像识别方法及装置，在SAR训练图像经过注意力预测子网、感兴趣区域定位子网和图像分类子网训练结合网络损失对整体的图像识别网络进行调整，大大调高了网络的性能；此外，通过注意力机制生成注意力预测图，定位SAR图像中最显著的特征部分，极大地消除了机器视觉中图像特征的冗余度，有效地确定感兴趣区域，减少图像噪声的干扰，大大地减少了图像处理时间，以及提高目标识别准确性，有利于下一步目标定位，整体上对网络识别速度有了显著提升。

Description

基于注意力机制的多尺度SAR图像识别方法及装置

技术领域

本发明涉及图像处理领域，特别是基于注意力机制的多尺度SAR图像识别方法及装置。

背景技术

合成孔径雷达，英文全称为Synthetic Aperture Radar，英文简称为SAR，凭借其全天候、远距离探测、多角度和多分辨率等优势，被广泛的应用在军事、灾害监视等领域，从而实现对不同目标的探测和定位。同时SAR图像识别受SAR成像固有模糊和目标数据不充分等因素影响，分类识别中导致目标识别精度不足。这大大增加了SAR图像识别的难度，造成SAR图像处理的处理时间长且准确性低。

发明内容

本发明的目的在于至少解决现有技术中存在的技术问题之一，提供基于注意力机制的多尺度SAR图像识别方法及装置，通过注意力机制有效提高SAR图像识别性能。

本发明解决其问题所采用的技术方案是：

本发明的第一方面，提供了基于注意力机制的多尺度SAR图像识别方法，包括以下步骤：

训练步骤：输入SAR训练图像对原始的图像识别网络进行训练和调整，其中图像识别网络包括依次连接的注意力预测子网、感兴趣区域定位子网和图像分类子网；

分类步骤：输入SAR待测图像至训练完成的图像识别网络处理输出分类结果；

所述训练步骤包括：

注意力预测：使SAR训练图像经过注意力预测子网处理得到注意力预测图，并计算注意力预测损失；

初步定位：使SAR训练图像经过感兴趣区域定位子网结合注意力预测图处理得到初步定位SAR图像，并计算感兴趣区域定位损失；分类训练：使初步定位SAR图像经过图像分类子网处理输出分类结果，并计算分类损失；

网络调整：根据注意力预测损失、感兴趣区域定位损失和分类损失计算网络损失并根据网络损失调整图像识别网络。

根据本发明的第一方面，基于注意力机制的多尺度SAR图像识别方法，还包括以下步骤：

定位优化：得到初步定位SAR图像后，将所述初步定位SAR图像进行区域框定并筛选，得到带候选框区域特征的优化定位图像；其中分类训练步骤中，将所述优化定位图像作为图像分类子网的输入。

根据本发明的第一方面，所述注意力预测步骤具体包括：

提取SAR训练图像的RGB通道信息并以张量表示，并根据张量使SAR训练图像经过8个构建块处理得到多尺度特征；

根据多尺度特征为SAR训练图像匹配权重，得到定位特征；

使定位特征经过特征归一化处理和反卷积处理结合SAR图像得到注意力预测图；

计算注意力预测损失。

根据本发明的第一方面，所述初步定位步骤具体包括：

使注意力预测图以热图的形式对SAR训练图像遮掩生成掩膜并提取掩膜特征；

经感兴趣区域对齐得到初步定位SAR图像；

计算感兴趣区域定位损失。

根据本发明的第一方面，网络损失为Loss＝α·Loss_a+β·Loss_f+γ·Loss_c，其中Loss_α、Loss_f和Loss_c分别是注意力预测损失、感兴趣区域定位损失和分类损失，α、β和γ是平衡注意力预测损失、感兴趣区域定位损失和分类损失之间权衡的超参数。

本发明第二方面，提供了应用本发明第一方面的基于注意力机制的多尺度SAR图像识别方法的装置，包括：

训练模块，用于输入SAR训练图像对原始的图像识别网络进行训练和调整，其中图像识别网络包括依次连接的注意力预测子网、感兴趣区域定位子网和图像分类子网；

以及与训练模块连接的分类模块，用于输入SAR待测图像至训练模块训练完成的图像识别网络处理输出分类结果；

所述训练模块具体包括：

注意力预测模块，用于使SAR训练图像经过注意力预测子网处理得到注意力预测图，并计算注意力预测损失；

初步定位模块，用于使SAR训练图像经过感兴趣区域定位子网结合注意力预测图处理得到初步定位SAR图像，并计算感兴趣区域定位损失；

分类训练模块，用于使初步定位SAR图像经过图像分类子网处理输出分类结果，并计算分类损失；

网络调整模块，用于根据注意力预测损失、感兴趣区域定位损失和分类损失计算网络损失并根据网络损失调整图像识别网络。

根据本发明第二方面的装置，还包括：与分类训练模块连接的定位优化模块，用于将所述初步定位SAR图像进行区域框定并筛选，得到带候选框区域特征的优化定位图像；其中，将所述优化定位图像作为分类训练模块的输入。

本发明提供的技术方案，至少具有如下有益效果：通过注意力预测子网对SAR图像处理，生成注意力预测图，注意力预测子网定位SAR图像中最显著的特征部分，极大地消除了机器视觉中图像特征的冗余度，注意力预测子网有效地确定目标的感兴趣区域，减少图像噪声的干扰，大大地减少了图像处理的时间，以及提高对目标识别的准确性，有利于下一步的目标定位，整体上对网络识别速度有了显著的提升。

附图说明

下面结合附图和实例对本发明作进一步说明。

图1是本发明实施例基于注意力机制的多尺度SAR图像识别方法的原理步骤图；

图2是本发明另一个实施例基于注意力机制的多尺度SAR图像识别方法的原理步骤图；

图3是本发明实施例应用基于注意力机制的多尺度SAR图像识别方法的装置的结构图；

图4是本发明另一个实施例应用基于注意力机制的多尺度SAR图像识别方法的装置的结构图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

参照图1，本发明的一个实施例，提供了基于注意力机制的多尺度SAR图像识别方法，包括以下步骤：

步骤S100、训练步骤：输入SAR训练图像对原始的图像识别网络10进行训练和调整，其中图像识别网络10包括依次连接的注意力预测子网11、感兴趣区域定位子网12和图像分类子网13；

步骤S200、分类步骤：输入SAR待测图像至训练完成的图像识别网络10处理输出分类结果；

所述步骤S100包括：

步骤S110、注意力预测：使SAR训练图像经过注意力预测子网11处理得到注意力预测图，并计算注意力预测损失；

步骤S120、初步定位：使SAR训练图像经过感兴趣区域定位子网12结合注意力预测图处理得到初步定位SAR图像，并计算感兴趣区域定位损失；

步骤S130、分类训练：使初步定位SAR图像经过图像分类子网13处理输出分类结果，并计算分类损失；

步骤S140、网络调整：根据注意力预测损失、感兴趣区域定位损失和分类损失计算网络损失并根据网络损失调整图像识别网络10。

在该实施例中，输入大量的SAR训练图像对原始的图像识别网络10进行训练和调整，提高图像识别网络10的识别度；再对SAR待测图像识别分类。通过注意力预测子网11对SAR图像处理，生成注意力预测图，注意力预测子网11定位SAR图像中最显著的特征部分，极大地消除了机器视觉中图像特征的冗余度，注意力预测子网11有效地确定目标的感兴趣区域，减少图像噪声的干扰，大大地减少了图像处理的时间，以及提高对目标识别的准确性，有利于下一步的目标定位。

参照图2，另一个实施例，基于注意力机制的多尺度SAR图像识别方法，还包括以下步骤：

步骤S150、定位优化：得到初步定位SAR图像后，将所述初步定位SAR图像进行区域框定并筛选，得到带候选框区域特征的优化定位图像；更具体地，将初步定位SAR图像通过区域候选框网络以生成检测框区域；比较检测框区域与真值区域的交并比与阈值，并输出检测框区域与真值区域的交并比大于阈值的正样本图像；利用非最大抑制方法筛选出置信值最大的k个带候选框区域特征的优化定位图像。其中下一步的分类训练步骤中，将所述优化定位图像作为图像分类子网13的输入。对初步定位SAR图像进一步筛选和优化，提高分类准确性。

进一步，所述步骤S110具体包括：

步骤S111、提取SAR训练图像的RGB通道信息并以张量表示，并根据张量使SAR训练图像经过8个构建块处理得到四个多尺度特征，大小分别为64×64，32×32,16×16，8×8，具体地，张量的大小为128×128×3。

步骤S112、根据多尺度特征为SAR训练图像匹配权重，得到定位特征；为从大量图像信息中有选择地筛选出少量重要信息并忽略大多不重要的信息，聚焦到这些重要信息上，给每个构建块输出的含有多尺度特征的图像分配不同的注意力权重，聚焦SAR图像中所关注的部分，聚焦的过程体现在权重系数的计算上，权重越大表示越聚焦该信息上，即权重代表了信息的重要性。定位特征按照以下公式计算：

其中第一个过程是根据参数Query和多尺度特征Key_i计算权重系数，第二个过程根据权重系数对图像区域Value_i进行加权求和。而第一个过程又可以细分为两个阶段：第一个阶段根据参数Query和多尺度特征Key_i计算两者的相似性或者相关性；第二个阶段对第一阶段的原始分值进行归一化处理。

步骤S113、使定位特征经过特征归一化处理和反卷积处理结合SAR图像得到注意力预测图。

步骤S114、计算注意力预测损失。其中注意力预测损失为

式中，A_ij为注意力预测图中的各项元素，

为注意力预测图，i和j是注意力预测图的长度和宽度，I和J分别是i和j的集合。

进一步，所述步骤S120具体包括：

步骤S121、使注意力预测图

以热图的形式对SAR训练图像遮掩生成掩膜并提取掩膜特征F'，遮掩过程如下：

式中θ为控制掩膜的阈值，F为定位特征；

步骤S122、经感兴趣区域对齐得到初步定位SAR图像；这能有效抑制与SAR图像分类检测无关的冗余特征，并突出显示感兴趣区域。

步骤S123、计算感兴趣区域定位损失。其中感兴趣区域定位损失为

式中l为注意力预测图的预测标签。

进一步，在所述步骤S130中：图像分类子网13由一个7×7卷积层、1个最大池层、4个多尺度模块以及两个全连接层组成。该4个多尺度模块将具有不同内核大小的4个卷积层C1、C2、C3和C4通道连接起来，以提取多尺度特征，其中C1和C3大小为3×3，C2大小为5×5，C4大小为7×7；最后应用两个全连接层输出分类结果。另外，分类损失为

其计算机制与感兴趣区域定位损失相同。

进一步，步骤S140中，网络损失为Loss＝α·Loss_a+β·Loss_f+γ·Loss_c，其中Loss_α、Loss_c和Loss_f分别是注意力预测损失、感兴趣区域定位损失和分类损失；α、β和γ是平衡注意力预测损失、分类损失和感兴趣区域定位损失之间权衡的超参数。需要说明的是，在训练前期，设置α》β＝γ以加快注意力预测子网11的收敛速度；在训练中后期，设置α《β＝γ使感兴趣区域定位损失和分类损失最小化，提高注意力预测的收敛性。

本发明的另一个实施例，提供了应用上述的基于注意力机制的多尺度SAR图像识别方法的装置，包括：

训练模块1，用于输入SAR训练图像对原始的图像识别网络10进行训练和调整，其中图像识别网络10包括依次连接的注意力预测子网11、感兴趣区域定位子网12和图像分类子网13；

以及与训练模块1连接的分类模块2，用于输入SAR待测图像至训练模块1训练完成的图像识别网络10处理输出分类结果；

所述训练模块1具体包括：

注意力预测模块3，用于使SAR训练图像经过注意力预测子网11处理得到注意力预测图，并计算注意力预测损失；

初步定位模块4，用于使SAR训练图像经过感兴趣区域定位子网12结合注意力预测图处理得到初步定位SAR图像，并计算感兴趣区域定位损失；

分类训练模块5，用于使初步定位SAR图像经过图像分类子网13处理输出分类结果，并计算分类损失；

网络调整模块6，用于根据注意力预测损失、感兴趣区域定位损失和分类损失计算网络损失并根据网络损失调整图像识别网络10。

另一个实施例，所述装置还包括：与分类训练模块5连接的定位优化模块7，用于将所述初步定位SAR图像进行区域框定并筛选，得到带候选框区域特征的优化定位图像；其中，将所述优化定位图像作为分类训练模块5的输入。

本发明另一个实施例还提供了一种装置，包括处理器和用于与所述处理器连接的存储器；所述存储器存储有可被所述处理器执行的指令，所述指令被所述处理器执行，以使所述处理器能够执行如上述的基于注意力机制的多尺度SAR图像识别方法。

本发明另一个实施例提供了一种存储介质，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述的基于注意力机制的多尺度SAR图像识别方法。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。

Claims

1.基于注意力机制的多尺度SAR图像识别方法，其特征在于，包括以下步骤：

所述训练步骤包括：

初步定位：使SAR训练图像经过感兴趣区域定位子网结合注意力预测图处理得到初步定位SAR图像，并计算感兴趣区域定位损失；

分类训练：使初步定位SAR图像经过图像分类子网处理输出分类结果，并计算分类损失；

2.根据权利要求1所述的基于注意力机制的多尺度SAR图像识别方法，其特征在于，还包括以下步骤：

定位优化：得到初步定位SAR图像后，将所述初步定位SAR图像进行区域框定并筛选，得到带候选框区域特征的优化定位图像；

其中分类训练步骤中，将所述优化定位图像作为图像分类子网的输入。

3.根据权利要求1或2所述的基于注意力机制的多尺度SAR图像识别方法，其特征在于，所述注意力预测步骤具体包括：

根据多尺度特征为SAR训练图像匹配权重，得到定位特征；

计算注意力预测损失。

4.根据权利要求1或2所述的基于注意力机制的多尺度SAR图像识别方法，其特征在于，所述初步定位步骤具体包括：

经感兴趣区域对齐得到初步定位SAR图像；

计算感兴趣区域定位损失。

5.根据权利要求1或2所述的基于注意力机制的多尺度SAR图像识别方法，其特征在于，网络损失为Loss＝α·Loss_a+β·Loss_f+γ·Loss_c，其中Loss_α、Loss_f和Loss_c分别是注意力预测损失、感兴趣区域定位损失和分类损失，α、β和γ是平衡注意力预测损失、感兴趣区域定位损失和分类损失之间权衡的超参数。

6.应用权利要求1-5任一项所述的基于注意力机制的多尺度SAR图像识别方法的装置，其特征在于，包括：

所述训练模块具体包括：

7.根据权利要求6所述的装置，其特征在于，还包括：与分类训练模块连接的定位优化模块，用于将所述初步定位SAR图像进行区域框定并筛选，得到带候选框区域特征的优化定位图像；其中，将所述优化定位图像作为分类训练模块的输入。