CN116824525B

CN116824525B - 一种基于交通道路影像的图像信息提取方法

Info

Publication number: CN116824525B
Application number: CN202311091102.4A
Authority: CN
Inventors: 伍友周; 王珺; 刘伟锋; 刘宝弟; 杨兴浩; 张冰峰; 王英杰
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-11-14
Anticipated expiration: 2043-08-29
Also published as: CN116824525A

Abstract

本发明公开一种基于交通道路影像的图像信息提取方法，属于电数字数据处理、图形数据读取和图像数据处理技术领域，用于提取交通道路影像的图像信息，包括获得交通道路影像、构建基于交通道路影像的图像信息提取网络、将训练集、验证集、测试集中的交通道路影像分别输入构建好的基于交通道路影像的图像信息提取网络中。本发明通过对不同通道进行不同的卷积，增强模型对遥感图像中复杂场景和多样性目标的建模能力，更有利于局部特征的提取，提高准确性和泛化能力；多层的平均池化操作在缩小特征图尺寸的同时，也将局部信息进行了整合，得到了整个特征图的平均值，并引入近似的低频信息。这有助于提取全局信息，捕捉图像中的整体结构和上下文关系。

Description

一种基于交通道路影像的图像信息提取方法

技术领域

本发明公开一种基于交通道路影像的图像信息提取方法，属于电数字数据处理、图形数据读取和图像数据处理技术领域。

背景技术

在道路提取、城市规划、环境检测等领域中，图像信息提取发挥着至关重要的作用。由于图像信息存在类别丰富、空间分布广泛、空间关联性强、背景复杂、类内方差大的特点，这使得对应的图像信息提取充满挑战。传统的图像信息提取方法主要基于图像处理和机器学习技术，这些方法通常依赖于手动提取特征和设置分类器的参数，对于复杂的地物类别和背景噪声较多的情况效果可能有限，在面对大尺度、高分辨率的图像时往往难以给出精确的提取结果。另外传统的提取方法并不能很好的处理图像的频率信息、细节信息、全局信息。

发明内容

本发明的目的在于提供一种基于交通道路影像的图像信息提取方法，以解决现有技术中，交通道路影像的图像信息提取精度差的问题。

一种基于交通道路影像的图像信息提取方法，包括：

S1.获得交通道路影像，将交通道路影像按照2：1：1的比例划分为训练集、测试集和验证集，将划分后的交通道路影像进行裁剪，等待下一步处理；

将训练集、测试集和验证集的影像，人为进行图像信息提取，将图像信息提取结果保存留作后续对照；

S2.构建基于交通道路影像的图像信息提取网络，具体是将U-Net神经网络中的所有卷积模块替换为综合转换器模块DT，DT包括两个归一化层、一个多重信息融合模块HLP和一个多层感知机模块MLP；

归一化层不保存训练批次的均值和方差，取同一个样本的不同通道做归一化；HLP是基于小波变换的转换器模块、多层卷积模块和多层池化模块的并行操作，采用桥连接方法加强全局和局部之间的联系；MLP先将数据先映射到高维空间再映射到低维空间；

S3.将训练集中的交通道路影像输入S2构建好的基于交通道路影像的图像信息提取网络中，得到基于交通道路影像的图像信息提取结果，将图像信息提取结果和训练集人为进行图像信息提取的结果进行误差计算，如果误差大于设置的阈值，反向传播更新参数，反复迭代直至误差小于设置的阈值，停止更新参数并保存网络参数；

S4.将验证集中的交通道路影像输入S2构建好的基于交通道路影像的图像信息提取网络中，网络的输出为基于交通道路影像的图像信息提取网络的信息提取结果，将图像信息提取结果和验证集人为进行图像信息提取的结果进行误差计算，如果误差大于设置的阈值，返回S3，如果误差小于设置的阈值，执行S5；

S5.把测试集中的交通道路影像输入S2构建好的基于交通道路影像的图像信息提取网络中，网络的输出为基于交通道路影像的图像信息提取网络的最终信息提取结果。

S2中的HLP的结构包括一个基于小波变换的转换器模块、一个多层卷积模块和一个多层池化模块并行结构、一个成比例的合并层、两个交叉的桥连接和一个1X1的卷积层。

S2中的HLP运行过程为：

B1.HLP的输入为特征数据块X，设X的行数为H、列数为W，通道数为C，X同时输入到基于小波变换的转换器模块、多层卷积模块和多层池化模块，对应三个模块的输出为Y1、Y2、Y3，维度均为H×W×C：

Y1、Y2、Y3=DWT-CSWTF(X)，ML-CNN(X)，ML-PL(X)；

式中，DWT-CSWTF是基于小波变换的转换器模块架构，由小波变换和十字交叉注意力串联产生，DWT-CSWTF(X)表示让X通过基于小波变换的转换器模块，ML-CNN是多层卷积模块，由三个并行的卷积层、一个拼接层和一个归一化层构成，ML-CNN(X)表示让X通过多层卷积模块，ML-PL是多层池化模块，由4个并行的平局池化层、一个上采样层、一个拼接层和一个激活函数层构成，ML-PL(X)表示让X通过多层池化模块；

B2.通过桥连接求Y1和Y2的结果的交叉注意力，设输出为Z1和Z2：

Z1，Z2=GB(Y1)，LB(Y2)；

GB表示全局桥，是由全局到局部的信息连接桥；LB表示局部桥，是由局部到全局的信息连接桥，GB(Y1)表示对小波变换的转换器输出和多层卷积的输出求解交叉注意力机制，将多层卷积的结果引入到小波变换的转换器中在全局信息中引入细节信息；LB(Y2)表示将在细节信息中引入全局信息；

B3.将Z1、Z2和Y3按2:2:1比例相加，通过1X1卷积进行通道交互，将经过桥连接优化后的Z1和Z2与多层池化输出进行融合，将全局信息、局部信息频率信息进行交互，HLP的最终输出M：

M=con1×1(2Z1+2Z2+Y3)；

其中con1×1是卷积核大小为1×1的卷积运算函数。

基于小波变换的转换器模块包括基于小波变换和逆小波变换的补偿模块、基于小波变换的频率重组模块、基于十字交叉注意力的转换器模块；

基于小波变换和逆小波变换的补偿模块为于残差结构，基于小波变换的频率重组模块将高低频率进行重新组合，产生适合提取的频率组合，再从频率重组后的信息获取K'和V'矩阵，从输入特征获得Q矩阵，将其Q、K'和V'三个矩阵输入到基于十字交叉注意力的转换器模块：

Y2=Attention(Q、K'、V')+IDWT(DWT(X))；

其中Q是来自X的映射矩阵，小波变换重组后的X记为X₀，K'和V'是来自的X₀映射矩阵，DWT表示小波变换，IDWT表示逆小波变换，Attention是十字交叉注意力全局注意力图的函数。

基于小波变换的频率重组模块包括：两个1X1的卷积层、一个3X3的卷积层、一个细化的小波变换过程和两个可学习的权重A和B；

将特征输入到小波变换的频率重组模块中，先经过1×1的卷积将整体的通道数调整为C/2，再将变化后的特征输入到细化的小波变换过程中，小波输出产生三个高频信号：低高频XLH，高低频XHL，高高频XHH，一个低频信号：低低频XLL，每个高频信号和低频信号张量大小为H/2×W/2×C/2；

将三个高频信号按照通道进行拼接此时维度为H/2×W/2×3C/2，再通过1×1卷积对其进行通道降维将维度变为H/2×W/2×C/2，此时获取到合并后的高频信息，分别对获得高低频信息乘以两个权重A和B，再输入给一个3X3的卷积：

XHL，XHH，XLH，XLL=DWT(con1×1(X))；

X₀=con3×3(concat(con1×1(conact(XHL，XHH，XLH))，XLL))；

其中concat表示按通道进行拼接操作，con3X3表示进行3X3卷积运算，con1X1表示经过1X1卷积运算。

基于十字交叉注意力的转换器模块的求解公式如下：

；

Attention(Q，K'，V')=concat(H-Attention(Q，K'，V')，L-Attention(Q，K'，V'))；

其中Q，K' ，V'的张量大小为S×W，H-Attention是求取行注意力图的函数，L-Attention是求取列注意力图的函数，softmax是激活函数，d_k'是K'的空间维度，对应HLP的窗口sw的取值和初始的十字交叉注意力中的保持一致，分别为[1，2，7，7]。

HLP中的多层卷积模块包括一个通道划分模块、三个并行的不同大小的卷积层、一个按通道拼接层个一个归一化层；

三个并行的卷积层的大小分别为3X3卷积、5X5卷积和7X7卷积，特征数据块X经过通道划分模块后输入每一个卷积层的张量大小变为HW/>C/3，三个卷积对输入的张量进行卷积，将三个卷积输出的结果重新按照通道数进行拼接，拼接后的整体张量大小H/>W/>C：

Y1=Batchnorm(concat(con3×3(split(X))，con5×5(split(X))，con7×7(split(X))))；

其中split表示对输入按照通道进行划分，con3×3是卷积核大小为3x3的卷积运算函数，con5×5是卷积核大小为5x5的卷积运算函数，con7×7是卷积核大小为7x7的卷积运算函数，Batchnorm表示进行归一化。

多层池化模块包括一个通道划分模块、四个不同大小的池化层、一个双线性插值层、一个拼接层和一个激活函数层；

4个并行的池化的大小分别为1X1池化层、2X2池化层、3X3池化层和6X6池化层，池化选择平均池化，输入的张量先经过并行池化层进行池化操作，再通过双线性插值扩充分辨率到，此时经过双线性插值的每一个张量大小为H×W×C/4，再按照通道数进行拼接，通过激活函数relu进行激活：

Y3=Relu(concat(up(pl1(split(X)))，up(pl2(split(X)))，up(pl3(split(X)))，up(pl6(split(X)))))；

其中Relu表示激活函数，pl1、pl 2、pl 3、pl 6分别表示1X1，2X2，3X3，6X6的平均池化层，up表示采用双线性插值的方式对池化后的特征进行扩充。

桥连接包括GB和LB；

对于GB，在计算交叉注意力时，Q和V的映射矩阵来自全局注意力的输出结果，K来自多层卷积模块：

；

对于LB，在计算交叉注意力时，Q和V来自多层卷积模块的输出，K来自全局注意力的输出：

；

其中Q、K、V来自基于小波变换的转换器模块的输出，X'来自多层卷积层的结果输出。

采用Adam优化算法进行参数求解，在误差反向传播时，根据误差梯度信息对参数进行更新，损失函数为：

；

式中，N为批量处理数据数量，F表示基于交通道路影像的图像信息提取网络，（X_i，Y_i）代表验证集的数据以及对应的信息的训练对，θ是基于交通道路影像的图像信息提取网络的参数。

相对比现有技术，本发明具有以下有益效果：

本发明通过对不同通道进行不同的卷积，增强模型对遥感图像中复杂场景和多样性目标的建模能力，更有利于局部特征的提取，并引入近似高频信息，提高准确性和泛化能力；多层的平均池化操作在缩小特征图尺寸的同时，也将局部信息进行了整合，得到了整个特征图的平均值，并引入近似的低频信息。这有助于提取全局信息，捕捉图像中的整体结构和上下文关系；基于小波变换的转换器模块通过引入两个权重，将可调节的频率信息映入转换器中，能强化转换器对于整体信息的建模；桥连接使得模型能够兼顾全局和局部特征，提高模型对于不同尺度、不同层次特征的感知能力，从而更好地提取道路图像的信息。

附图说明

图1是本发明的基于UNET结构的整体结构图；

图2是DT模块的基本结构图；

图3为HLP模块结构图；

图4为多层卷积模块结构图；

图5是本发明中的多层池化模块结构图；

图6是基于小波变换的转换器模块的结构；

图7是小波变换的频率重组模块结构图；

图8桥连接结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于交通道路影像的图像信息提取方法，包括：

S2中的HLP运行过程为：

Y1、Y2、Y3=DWT-CSWTF(X)，ML-CNN(X)，ML-PL(X)；

Z1，Z2=GB(Y1)，LB(Y2)；

M=con1×1(2Z1+2Z2+Y3)；

其中con1×1是卷积核大小为1×1的卷积运算函数。

Y2=Attention(Q、K'、V')+IDWT(DWT(X))；

XHL，XHH，XLH，XLL=DWT(con1×1(X))；

X₀=con3×3(concat(con1×1(conact(XHL，XHH，XLH))，XLL))；

基于十字交叉注意力的转换器模块的求解公式如下：

；

桥连接包括GB和LB；

；

现有技术的一些相关方法如下：卷积神经网络在计算机视觉领域占有很大比重，是一种比较成熟的特征提取方法。卷积神经网络以其卓越的特征提取和表示能力，在图像分析领域展现了强大的潜力。通过多层卷积和池化层，可以自动学习图像中的高级特征表示以获得比较好的提取结果。对于图像而言，卷积神经网络能够从原始像素级别提取出地物的纹理、形状、光谱等特征，从而有效地捕捉地物的信息。除此之外卷积神经网络通过使用具有局部感受野的卷积核和池化操作，可以捕捉到像素与其周围像素的空间关系，从而有效地利用地物的上下文信息。目前大部分的基于卷积神经网络的模型有着比较精细的提取结构，例如：以编码器-解码器的结构为基础的深度学习的U型网络U-Net。以空洞卷积结构为基础的模型深度标注DeepLab和以金字塔池化模块将多尺度特征进行融合的金字塔池化网络PSPNet。虽然与传统的基于图像处理和机器学习的方法相比，基于卷积神经网络方法的性能有了显著提高，但是还是存在一些缺陷，例如当图像的类内方差较大时，也就是同一类的大小存在比较大的差异时，卷积神经网络由于局部感受野的限制很难获得比较好的处理效果。由于卷积网络的局部特征的提取，对于图像中的全局上下文和空间关联性信息的利用相对较弱，导致模型对于大范围的物体边界和细节的提取效果不佳。传统卷积神经网络的池化操作虽然能对图像进行降采样降低计算量，但这会造成部分细节丢失，导致提取的结果精度下降。总之，卷积神经网络局部性虽然有利于提取图像的地物细节或边缘信息，但由于其感受野的限制无法构建基于像素点的全局建模。

小波变换是一种有效的时频分析方法，用于分析信号和图像的频域特征。基于小波函数的变换，可以将信号或图像分解成不同的频率成分，从而提取出信号或图像的频率特征。通过小波变换能够同时捕捉到信号或图像的低频和高频信息，从而提供了更丰富的特征表示。由于遥感图像含有丰富频率信息，小波变换可以将遥感图像转换到小波域，通过分析小波系数的幅值和相位信息，可以提取图像的频域特征。这些特征可以用于遥感图像的提取任务，帮助识别不同类别的目标或地物。另外，小波变换由于具有可逆性和保留所有信息的能力，因此在卷积神经网络架构中被用于各种视觉任务的性能提升，例如：在小波子带上对卷积神经网络进行训练有利于图像恢复任务，利用多级小波变换在不丢失信息的情况下扩大感受野进行图像恢复。

转换器是一种基于自注意力机制的深度学习模型，通过对输入序列中不同位置的关系进行学习，使得模型能够准确捕捉到序列中的依赖关系，并能并行处理序列中的不同位置信息。转换器在遥感图像中的提取任务中具有优势，传统的卷积神经网络在处理长距离依赖关系时存在一定的限制。而转换器模型通过自注意力机制可以有效地捕捉图像中像素之间的长距离依赖关系，使得模型能够更好地理解遥感图像中的地理特征和空间结构。通过全局自注意力机制可以对整个图像进行全局感知和理解，从而更好地推断每个像素点的标签，并提高遥感图像提取的精度和准确性。由于遥感图像通常背景复杂和类内方差大的特点，纯转换器建模的方式可能难以获得完备的空间和背景细节信息，且遥感图像丰富的频率信息也没有得到充分的利用。另外，转换器的计算复杂性较高，特别是对于大尺寸的遥感图像。由于遥感图像通常具有高分辨率和大尺寸，使用转换器模型进行提取可能需要大量的计算资源和时间，计算量也是一个要面对的问题。

本发明需准备三种数据集：训练集、验证集和测试集，三者的比例大约为2：1：1。其中，数据集使用Vaihingen数据集和Postdom数据集，Vaihingen数据集由33个非常精细的空间分辨率TOP图像块组成，平均大小为2494X2064像素。该数据集包括五个前景类(不透水表面、建筑物、低植被、树木、汽车)和一个背景类也就是含有6个类的提取目标。Postdom数据集包含38个非常精细的空间分辨率TOP图像块，大小为6000X6000像素，涉及与Vaihingen数据集相同的类别信息。对于Vaihingen数据集利用ID: 2、4、6、8、10、12、14、16作为测试集，ID:20、22、24、27、29、31、33、35、38作为验证集，剩下的16张遥感图像用于训练。对于Postdom数据集也采用近似的操作。最后，将输入遥感图像大小裁剪成为长宽分别为1024，1024大小的图像作为输入。每块切割后的遥感图像都对应着一块去信息提取后的数据。

UNET结构的整体结构图如图1所示，包括了8个DT以及4次跳跃连接，DT模块的基本结构如图2所示；HLP模块结构如图3所示，多层卷积模块结构图如图4所示，多层卷积模块在特征表示上引入更多的多样性，以更好地捕捉不同通道之间的相关性和特征的细节。而且三层并行的卷积层可以很好处理遥感图像中的尺度差异过大的情况，不同大小的感受野可以更有效的获取不同大小地物信息的细节信息，也可以在特征表示上引入更多的多样性，以更好地捕捉不同通道之间的相关性和特征的细节；多层池化模块结构如图5所示，多层池化模块结构的1X1的池化其实也就就是将原信息输入进来，其实就是类似一种残差连接，去减少池化产生的影响。这里是为了整体的一致性，所以采用这种结构。池化操作可以降低类内的差异性，多层的平均池化操作在缩小特征图尺寸的同时，也将局部信息进行了整合，得到了整个特征图的平均值，得到一种近似的低频信息。基于小波变换的转换器模块的结构如图6所示，小波变换的频率重组模块结构如图7所示，小波变换的频率重组模块能将频率信息映入到转换器中，合理的高低比例能大大提升图像提取的效果。举一个例子，当遥感图像中的物类比较密集时，需要提高频信息的权重，减少低频信息的权重。高频代表细节信息，提高高频信息占比能强化这种类与类的差异性，提高模型的图像提取效果，当遇到类内方差大的时候，也就是说同一类事物，其大小不一样，这个时候就应该提高其低频权重，降低高频权重去弱化这种类间差异，提高同类之间的相识性。桥连接结构如图8所示，用来加强全局信息和局部信息的联系。

对HLP模型的计算量进行可行性的分析，对于整个HLP模块来说其计算量主要集中在基于小波变换的转换器模块中，而这个模块中的计算量则是集中在MSA（多头注意力)的计算，常规的MSA和CSW-MSA的计算量公式如下：

；

其中Ω（MSA）表示常规转换器的多头注意力的计算量，Ω（CSW-MSA）表示十字交叉注意力（CSWin-转换器）的注意力计算量，h，w，C分别表示输入特征图的长，宽和通道数。sw表示十字交叉注意力（CSWin-转换器）的窗口大小。4hwC ²表示4个映射矩阵的运算量。2(hw)² C则是实际Q，K，V的计算量。实际上决定计算上限的就是2(hw) ² C。十字交叉注意力（CSWin-转换器）中由于窗口（sw）取值为1，2，7，7，其大小远远小于特征长和宽的大小，所以改用十字交叉注意力（CSWin-转换器）能大大减小注意力的计算量。另外，小波变换将整体的分辨率将为原来的1/2，也就是说在进行全局注意力运算时整体的计算量会下降，例如：将一个HXWXC大小的特征进行放入传统的转换器其运算量为(HW)²C，而使用小波变换后的由于Q来自原来的图像，K，V来自小波变换后的图像，其分辨率仅为原来的一半，所以其运算量为((HW)²/4)C。基于DWT的小波变换的计算量为：

；

Ω（DWT-CSW-MSA）表示基于小波变换的十字交叉注意力（CSWin-转换器）的计算复杂度，这里除以4的原因是窗口（sw）的长宽都变为原来的1/2。所以基于小波变换的十字交叉注意力（CSWin-转换器）的计算量相对于原始的转换器的计算量大大减少了。

以上实施例仅用于说明本发明的技术方案，而非对其限制，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换，而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于交通道路影像的图像信息提取方法，其特征在于，包括：

S5.把测试集中的交通道路影像输入S2构建好的基于交通道路影像的图像信息提取网络中，网络的输出为基于交通道路影像的图像信息提取网络的最终信息提取结果；

S2中的HLP运行过程为：

Y1、Y2、Y3=DWT-CSWTF(X)，ML-CNN(X)，ML-PL(X)；

Z1，Z2=GB(Y1)，LB(Y2)；

M=con1×1(2Z1+2Z2+Y3)；

其中con1×1是卷积核大小为1×1的卷积运算函数。

2.根据权利要求1所述的一种基于交通道路影像的图像信息提取方法，其特征在于，S2中的HLP的结构包括一个基于小波变换的转换器模块、一个多层卷积模块和一个多层池化模块并行结构、一个成比例的合并层、两个交叉的桥连接和一个1X1的卷积层。

3.根据权利要求1所述的一种基于交通道路影像的图像信息提取方法，其特征在于，基于小波变换的转换器模块包括基于小波变换和逆小波变换的补偿模块、基于小波变换的频率重组模块、基于十字交叉注意力的转换器模块；

Y2=Attention(Q、K'、V')+IDWT(DWT(X))；

4.根据权利要求3所述的一种基于交通道路影像的图像信息提取方法，其特征在于，基于小波变换的频率重组模块包括：两个1X1的卷积层、一个3X3的卷积层、一个细化的小波变换过程和两个可学习的权重A和B；

XHL，XHH，XLH，XLL=DWT(con1×1(X))；

X₀=con3×3(concat(con1×1(conact(XHL，XHH，XLH))，XLL))；

5.根据权利要求4所述的一种基于交通道路影像的图像信息提取方法，其特征在于，基于十字交叉注意力的转换器模块的求解公式如下：

；

6.根据权利要求5所述的一种基于交通道路影像的图像信息提取方法，其特征在于，HLP中的多层卷积模块包括一个通道划分模块、三个并行的不同大小的卷积层、一个按通道拼接层个一个归一化层；

7.根据权利要求6所述的一种基于交通道路影像的图像信息提取方法，其特征在于，多层池化模块包括一个通道划分模块、四个不同大小的池化层、一个双线性插值层、一个拼接层和一个激活函数层；

其中Relu表示激活函数，pl1、pl2、pl3、pl6分别表示1X1，2X2，3X3，6X6的平均池化层，up表示采用双线性插值的方式对池化后的特征进行扩充。

8.根据权利要求7所述的一种基于交通道路影像的图像信息提取方法，其特征在于，桥连接包括GB和LB；

；

9.根据权利要求8所述的一种基于交通道路影像的图像信息提取方法，其特征在于，采用Adam优化算法进行参数求解，在误差反向传播时，根据误差梯度信息对参数进行更新，损失函数为：

；