CN115345790A

CN115345790A - 基于窗口的自注意力神经网络的探地雷达图像增强方法

Info

Publication number: CN115345790A
Application number: CN202210920558.6A
Authority: CN
Inventors: 刘先翠; 黄俊革; 刘宇; 鲁宁琦; 王继豪; 周云健; 征雷
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-11-15

Abstract

本发明涉及一种基于窗口的自注意力神经网络的探地雷达图像增强方法，通过探地雷达对道路地下异常进行监测，得到带有异常体的地质雷达图像，利用探地雷达正演模拟软件GprMax建立地下病害体的模型，从而生成不同病害的正演模拟图像，对于正演模拟图像图像进行预处理构建原始图像数据集。构建Swin Transformer网络架构，提取直达波干扰信号特征，输出提取直达波信号后的特征图像。构建恢复模块，将前面步骤提取的特征图像作为输入，处理后得到增强的地质雷达图像。本发明有效解决了GprMax图像中因直达波和噪声的干扰所造成的图像异常体形态特征不清晰的问题，从而达到实现GprMax图像增强的目的；本发明还可以根据提出的图像增强方法，设计用于实现图像增强方法的图像增强系统。

Description

基于窗口的自注意力神经网络的探地雷达图像增强方法

技术领域

本发明涉及一种图像处理技术，特别涉及一种基于窗口的自注意力神经网络的探地雷达图像增强方法。

背景技术

在对探地雷达做正演模拟的过程中，会在正演模拟图像中存在其能量远大于其他反射波信号的直达波，当地下管线埋深较浅时，会存在有效的反射信号被较强的直达波信号所覆盖的现象。另外，当地下反射信号较弱的时候，强直达波的存在会使雷达双曲线波形不明显或不易被发现。因此，在实际探测中，存在干扰和其他影响所得的数据图像无法直接的进行识别和解释，必须用信号处理手段处理带有干扰的雷达图像，让正演的结果更加具有可信度。

早期的探地雷达信号的直达波消除主要采用的方法有小波变换和自适应滤波法。小波变换是一种新的变换分析方法，它继承和发展了短时傅立叶变换局部化的思想，同时又克服了窗口大小不随频率变化等缺点，能够提供一个随频率改变的“时间-频率”窗口，是进行信号时频分析和处理的理想工具，但该方法需要大量的内存，因此计算效率很低。自适应滤波的核心技术在于直达波信号与反射回波信号的弱相关性。自适应滤波器是通过自适应滤波算法根据自身输入、输出和参考值按照一定准则调整相对应的权向量系数，使滤波器达到有效跟踪外部环境的变化。自适应滤波是在输入信号统计特征不明或变化的情况下，能够自动迭代调整滤波器参数，在满足某种准则的条件下，实现最优滤波，此方法在处理非均匀噪声时无法达到满意的效果。

Transformer架构是一个在计算机视觉领域取得广泛应用的，目前在图像分类、检测和分割领域的效果首屈一指。Swin transformer是一个基于移动窗口的多头自注意力机制。是通过一种叫做窗口的方式来学习，移动窗口不仅带来了更大的效益，同时在窗口内计算自注意力大大降低了序列长度，通过Shifting移动操作能够让相邻的两个窗口之间有更多的交互，从而达到全局建模的能力，这种层级式建模的优点在于不仅可以灵活的提供各个尺度的特征信息，而且在小窗口内去计算自注意力，所以算法的计算复杂度是随着这个图像大小而线性增长。

发明内容

针对GprMax图像中因直达波和噪声的干扰所造成的图像异常体形态特征不清晰的问题，提出了一种基于窗口的自注意力神经网络的探地雷达图像增强方法，通过探地雷达对道路地下异常进行监测，得到带有异常体的探地雷达图像，对于图像进行预处理构建原始图像数据集。构建Swin Transformer网络架构，提取直达波干扰信号特征，输出提取直达波信号后的特征图像。构建恢复模块，将前面步骤提取的特征图像作为输入，处理后得到增强的探地雷达图像。

本发明的技术方案为：一种基于窗口的自注意力神经网络的探地雷达图像增强方法，具体包括如下步骤：

1)通过正演模拟软件获得探地雷达正演图像，对进行预处理，该预处理输出的是特征图像的数据集；

2)对图像大小使用区域划分不重合模块，建立符合Swin Transformer模块的图像尺寸后，再进入Swin Transformer模块进行特征提取；

3)构建恢复模块，将步骤2)得到的特征图像恢复成增强后的无噪声的雷达图像。

进一步，所述步骤1)中预处理：对正演模拟获得探地雷达正演图像通过PatchPartition层进行预处理，其中Patch Partition层为卷积操作，卷积核大小为4*4，特征映射总数为48个；每4*4相邻的像素为一个Patch，在通道方向上展平；输入图像大小为H*W*3，经过Patch Partition层输出图像大小为H/4*W/4*48。

进一步，所述步骤2)对图像大小使用区域划分不重合模块具体方法：通过LinearEmbedding层分成一个个小区域块，其中Linear Embedding为线性运算，对特征图像做线性映射，卷积核大小为H/4*W/4，特征映射总数为C个；划分给予符合规定的区域大小，确保每个区域块不重合，得到输出图像的尺寸大小，输出是大小为H/4*W/4*C的特征图像。

进一步，所述步骤2)中Swin Transformer模块包括；

模块一：输入特征图像→LN正则化层→W-MSA模块→残差连接层→LN正则化层→MLP架构→残差连接→输出特征；

模块二，模块一的输出作为输入→LN正则化层→SW-MSA模块→残差连接层→LN正则化层→MLP架构→残差连接→输出特征；

两个模块成对出现，重复循环多次。

进一步，所述步骤2)中Linear Embedding层/Patch Merging层+SwinTransformer模块构成一个Stage，将步骤1)的输出图像通过四个Stage构建不同大小的特征图，其中除了Stage1是先通过一个Linear Embedding层，其他三个Stage是先通过一个Patch Merging层进行下采样，每经过一步下采样，特征图像的高和宽就会减半，通道维度就会翻倍，然后重复偶次数堆叠Swin Transformer模块，进行图像特征提取。

进一步，所述Patch Merging层用于降采样，每次降采样是两倍，在行和列的方向上每相隔两个位置的像素上选取元素，划分为一个patch，再把每个patch上相同位置像素拼接在一起形成一整个张量，最后把这个张量在深度方向上展开，此时通道维度会变成原先的4倍，再通过一个全连接层在张量的深度方向上做线性变化，将通道维度变为原先的2倍，通过Patch Merging层后，特征图像的高和宽会减半，深度会翻倍。

进一步，所述步骤3)恢复模块结构：Swin transformer模块的输入特征作为输入→Patch Expanding层→Linear层→输出图像。

进一步，所述Swin Transformer模块使用L₁损失函数和感知损失函数来训练模型，

其中，L₁范数损失函数也称为平均绝对误差损失函数，在目标轮廓的对比度和均匀区域的平滑效果上具有很大的优势，具体公式为：

式中，I_gt代表真实图像，I_h代表预测图像，l代表非零常数，取10-6；

其中，感知损失函数通过计算真实图像和预测图像之间的差异，目的是使得预测图像和真实图像的特征信息更为接近，公式为：

式中，C为通道，H、W分别特征图的高度和宽度，y_i代表真实图像，

代表预测图像，φ为特征提取函数，一般选用VGG16作为特征提取函数；

总损失函数：将上述两个损失合并后模型的总损失函数如下：

L_total＝L_L1+λL_pl

式中，λ用来调整两个损失项平横的系数，并且通过实验验证，当λ＝0.5时模型得到的效果最好。

进一步，所述步骤1)通过正演模拟获得的探地雷达正演图像，在训练Swintransformer模块时所用探地雷达正演图像为：采用正演模拟软件对设计的道路常见病害类型，通过GprMax软件进行正演模拟生成探地雷达正演模拟图像；对常见道路病害设计结构模型，GprMax中文本的输入文件包括模型大小、离散化、时间窗口、几何、材料和激励源的类型，输入GprMax后得到单通道探地雷达各场分量曲线图和探地雷达正演模拟图像。

本发明的有益效果在于：本发明基于窗口的自注意力神经网络的探地雷达图像增强方法，对图像中特征图像进行增强，解决干扰造成图像不清晰问题。本发明方法可用于需要实现图像增强的系统中。

附图说明

图1为本发明基于窗口的自注意力神经网络的探地雷达图像增强方法的流程图；

图2为本发明方法中构建的预处理模块的结构示意图；

图3为本发明方法中构建的Swin Transformer模块的结构示意图；

图4为本发明方法中构建的恢复模块的结构示意图；

图5为部分探地雷达正演模拟图像增强前图；

图6为本发明方法对图5进行图像增强后图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示基于窗口的自注意力神经网络的探地雷达图像增强方法的流程图，所述方法包括：

步骤S1：通过正演模拟获得探地雷达正演图像，进行预处理，该预处理输出的是特征图像的数据集；

S101：用不同的方法对电磁波在地下介质中的传播过程进行数值模拟，叫做探地雷达的正演模拟。

训练时：采用正演模拟软件对设计的道路常见病害类型(如塌陷、空洞、地下管线等对道路损害有潜在危险的病害类型)，通过GprMax软件进行正演模拟生成探地雷达正演模拟图像。对常见道路病害设计结构模型，GprMax中文本的输入文件包括模型大小、离散化、时间窗口、几何、材料和激励源的类型，输入GprMax后得到单通道探地雷达各场分量曲线图和探地雷达正演模拟图像，将常见的各种常见病害的探地雷达正演模拟图像作为训练集送后续步骤进行模型训练。在正演模拟图像中呈现出清晰的病害模型反射形态，可根据形态推测出病害的位置、大小和形态在后续进行验证得到正演模拟结果的准确性。

模型训练后，将需要图像增强道路病害类型结构和所用探地雷达参数对应输入，获得探地雷达正演模拟图像。

S102：对步骤S101得到的探地雷达正演图像通过Patch Partition(分区)层进行预处理，其中Patch Partition层为卷积操作，卷积核大小为4*4，特征映射总数为48个；

S103：原始图像大小为H*W*3，此步骤输出图像大小为H/4*W/4*48。

此步骤：输入大小为224*224*3的探地雷达正演图像，经过Patch Partition层处理后，每4*4相邻的像素为一个Patch，在通道方向上展平，得到输出结果为56*56*48的图像大小。

S2：对图像大小使用区域划分不重合模块，建立符合Swin Transformer模块的图像尺寸后，再进入Swin Transformer模块进行特征提取，具体步骤如下：

S201：将步骤S103得到的探地雷达正演图像，通过Linear Embedding(线性嵌入)分成一个个小区域块，其中Linear Embedding为线性运算，对特征图像做线性映射，卷积核大小为H/4*W/4，特征映射总数为C个；

S202：对于步骤S201的划分给予符合规定的区域大小，确保每个区域块不重合，得到输出图像的尺寸大小，此步骤的输出是大小为H/4*W/4*C的特征图像。

此步骤：输入为步骤S103处理过的大小为56*56*48的图像，经过LinearEmbedding层处理后，对每个像素的通道数据做线性变换，由48变成96，得到输出结果为56*56*96的图像大小。

步骤S203：构建Swin Transformer模块，将步骤S202所得到的特征图像数据集经过处理输出提取特征的图像；

S2031：模块一，输入特征图像→LN正则化层→W-MSA模块→残差连接层→LN正则化层→多层感知机(MLP)架构→残差连接→输出特征；

S2032：模块二，模块一的输出作为输入→LN正则化层→SW-MSA模块→残差连接层→LN正则化层→多层感知机(MLP)架构→残差连接→输出特征；

S2033：两个模块成对出现，重复循环多次。

此步骤：Linear Embedding/Patch Merging+Swin Transformer构成一个Stage，将步骤S1的输出图像通过四个Stage构建不同大小的特征图，其中除了Stage1是先通过一个Linear Embedding层，其他三个Stage是先通过一个Patch Merging层进行下采样，每经过一步下采样，特征图像的高和宽就会减半，通道维度就会翻倍。然后重复偶次数堆叠SwinTransformer模块。其中Patch Merging层的作用是降采样，每次降采样是两倍，在行和列的方向上每相隔两个位置的像素上选取元素，划分为一个patch，再把每个patch上相同位置像素拼接在一起形成一整个张量，最后把这个张量在深度方向上展开，此时通道维度会变成原先的4倍，再通过一个全连接层在张量的深度方向上做线性变化，将通道维度变为原先的2倍。所以通过Patch Merging层后，特征图像的高和宽会减半，深度会翻倍。

输入为步骤S1处理过的大小为56*56*96的图像，经过S2步骤模块后，得到输出结果为7*7*768的图像大小。

步骤S3：构建恢复模块，将步骤S2得到的特征图像恢复成增强后的无噪声的雷达图像；

S301：步骤S2的输出结果作为输入→Patch Expanding(斑块扩张)层→Linear层→输出图像；

S302：该输出特征图像的尺寸大小为H*W*3。

此步骤：输入为步骤S2处理过的大小为7*7*768的图像，经过Patch Expanding层进行上采样，Linear Embedding层映射处理后，得到输出结果为224*224*3的图像大小。

本发明依次通过对初始图像进行预处理获取特征图像；对特征图像大小使用区域划分不重合模块，建立符合Swin transformer模块的图像尺寸；构建Swin transformer模块对特征图像进行特征提取，并获取当前图像特征；将获取的图像特征输入构建的恢复模块，并恢复至原始图像大小。其中预处理模块是将原始探地雷达图像作为输入，经过PatchPartition模块，将原始图像进行分块，分成4*4的大小相同的非重合的Patch；然后通过Linear Embedding模块对特征图像作线性映射，将投影的维度映射成特征维度，建立符合构建的模型的图像尺寸；将处理好的特征图像输入到构建的Swin transformer模块中去，通过对输入的图像进行窗口划分，在划分出来的一个个窗口内去使用多头自注意力机制进行计算，从而获得图像特征。通过对窗口进行偏移的操作，再对偏移后的窗口进行窗口划分，对划分的新窗口内去做自注意力计算，解决了不同窗口之间的信息交互的问题；恢复模块是通过Patch Expanding恢复特征图像尺寸，通过Linera将特征图像维度映射到原始图像的维度，保证输出图像的尺寸为原始图像尺寸。

本发明的方法，利用上述的网络框架，按照以下步骤具体实施：

预处理模块：输入原始探地雷达正演模拟图像，进行预处理，该预处理输出的是特征图像的数据集；

根据图2，预处理模块的步骤为：输入探地雷达原始图像→Patch Partition模块→Linear Embedding模块→输出特征图像。

具体实施步骤为：

将图片输入到Patch Partition模块进行分块，即每4*4相邻的像素为一个Patch，其中Patch Partition层为卷积操作，卷积核大小为4*4，特征映射总数为48个；每个4*4*3patch都被视为一个patch token，然后在通道方向展平，每个patch被展平为48(4*4*3)维的token向量。通过Patch Partition后图像像素由(H,W,3)变成了(H/4,W/4,48)。

Linear Embedding模块是对每个像素的通道数据做线性变换，即图像像素由(H/4,W/4,48)变成了(H/4,W/4,C)，其中Linear Embedding为线性运算，对特征图像做线性映射，卷积核大小为H/4*W/4，特征映射总数为96个。

根据图3，Swin transformer模块为：经过预处理输出提取特征的图像作为输入，先进行模块一，输入特征图像→LN正则化层→W-MSA模块→残差连接层→LN正则化层→多层感知机(MLP)架构→残差连接→输出特征，再进行模块二，模块一的输出作为输入→LN正则化层→SW-MSA模块→残差连接层→LN正则化层→多层感知机(MLP)架构→残差连接→输出特征；在Swin transformer模块中，模块一和模块二成对出现，多次循环。

LN正则化处理是对输入数据进行归一化处理，将输入特征映射到0-1之间。

残差连接是进行残差连接，避免梯度爆炸和消失问题；

多层感知机(MLP)架构是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。

在训练基于Swin transformer的探地雷达正演图像增强网络过程中，使用L₁损失函数和感知损失函数来训练模型，并获得较好的增强效果。

式中，I_gt代表真实图像，I_h代表预测图像，l代表非零常数，取10-6。

代表预测图像，φ为特征提取函数，一般选用VGG16作为特征提取函数。

L_total＝L_L1+λL_pl

根据图4，恢复模块的目的是将提取特征图像的大小为H/4*W/4*C作为输入，恢复成大小为H*W*3的增强图像。

恢复模块的结构步骤为：Swin transformer模块的输入特征作为输入→PatchExpanding层→Linear层→输出图像。

其中，Patch Expanding层在进行上采样之前，对输入特征加一个线性层，将特征维数增加到原始维数的2倍，然后，利用rearrange operation将输出特征的分辨率扩大到输入分辨率的2倍，将特征维度降低到输入维度的1/4；

Linear层将输入特征映射到输出特征中，卷积核大小为H*W，特征映射总数为3个。

如图5、6探地雷达正演模拟图像增强前、后图，增强前地下病害的反射形态模糊，无法判断具体位置和大小，增强后可以清晰的看到病害的具体特征信息，为实际工程探地雷达探测的识别与判断提供了较大的帮助。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于窗口的自注意力神经网络的探地雷达图像增强方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述基于窗口的自注意力神经网络的探地雷达图像增强方法，其特征在于，所述步骤1)中预处理：对正演模拟获得探地雷达正演图像通过Patch Partition层进行预处理，其中Patch Partition层为卷积操作，卷积核大小为4*4，特征映射总数为48个；每4*4相邻的像素为一个Patch，在通道方向上展平；输入图像大小为H*W*3，经过PatchPartition层输出图像大小为H/4*W/4*48。

3.根据权利要求1所述基于窗口的自注意力神经网络的探地雷达图像增强方法，其特征在于，所述步骤2)对图像大小使用区域划分不重合模块具体方法：通过LinearEmbedding层分成一个个小区域块，其中Linear Embedding为线性运算，对特征图像做线性映射，卷积核大小为H/4*W/4，特征映射总数为C个；划分给予符合规定的区域大小，确保每个区域块不重合，得到输出图像的尺寸大小，输出是大小为H/4*W/4*C的特征图像。

4.根据权利要求3所述基于窗口的自注意力神经网络的探地雷达图像增强方法，其特征在于，所述步骤2)中Swin Transformer模块包括；

两个模块成对出现，重复循环多次。

5.根据权利要求4所述基于窗口的自注意力神经网络的探地雷达图像增强方法，其特征在于，所述步骤2)中Linear Embedding层/Patch Merging层+Swin Transformer模块构成一个Stage，将步骤1)的输出图像通过四个Stage构建不同大小的特征图，其中除了Stage1是先通过一个Linear Embedding层，其他三个Stage是先通过一个Patch Merging层进行下采样，每经过一步下采样，特征图像的高和宽就会减半，通道维度就会翻倍，然后重复偶次数堆叠Swin Transformer模块，进行图像特征提取。

6.根据权利要求5所述基于窗口的自注意力神经网络的探地雷达图像增强方法，其特征在于，所述Patch Merging层用于降采样，每次降采样是两倍，在行和列的方向上每相隔两个位置的像素上选取元素，划分为一个patch，再把每个patch上相同位置像素拼接在一起形成一整个张量，最后把这个张量在深度方向上展开，此时通道维度会变成原先的4倍，再通过一个全连接层在张量的深度方向上做线性变化，将通道维度变为原先的2倍，通过Patch Merging层后，特征图像的高和宽会减半，深度会翻倍。

7.根据权利要求4、5或6所述基于窗口的自注意力神经网络的探地雷达图像增强方法，其特征在于，所述步骤3)恢复模块结构：Swin transformer模块的输入特征作为输入→Patch Expanding层→Linear层→输出图像。

8.根据权利要求4、5或6所述基于窗口的自注意力神经网络的探地雷达图像增强方法，其特征在于，所述Swin Transformer模块使用L₁损失函数和感知损失函数来训练模型，

L_total＝L_L1+λL_pl

9.根据权利要求8所述基于窗口的自注意力神经网络的探地雷达图像增强方法，其特征在于，所述步骤1)通过正演模拟获得的探地雷达正演图像，在训练Swin transformer模块时所用探地雷达正演图像为：采用正演模拟软件对设计的道路常见病害类型，通过GprMax软件进行正演模拟生成探地雷达正演模拟图像；对常见道路病害设计结构模型，GprMax中文本的输入文件包括模型大小、离散化、时间窗口、几何、材料和激励源的类型，输入GprMax后得到单通道探地雷达各场分量曲线图和探地雷达正演模拟图像。