CN116824525B - 一种基于交通道路影像的图像信息提取方法 - Google Patents
一种基于交通道路影像的图像信息提取方法 Download PDFInfo
- Publication number
- CN116824525B CN116824525B CN202311091102.4A CN202311091102A CN116824525B CN 116824525 B CN116824525 B CN 116824525B CN 202311091102 A CN202311091102 A CN 202311091102A CN 116824525 B CN116824525 B CN 116824525B
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- module
- attention
- traffic road
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 81
- 238000011176 pooling Methods 0.000 claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 14
- 108091006146 Channels Proteins 0.000 claims description 46
- 230000009466 transformation Effects 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 230000008521 reorganization Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000005215 recombination Methods 0.000 claims description 8
- 230000006798 recombination Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/58—Extraction of image or video features relating to hyperspectral data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开一种基于交通道路影像的图像信息提取方法,属于电数字数据处理、图形数据读取和图像数据处理技术领域,用于提取交通道路影像的图像信息,包括获得交通道路影像、构建基于交通道路影像的图像信息提取网络、将训练集、验证集、测试集中的交通道路影像分别输入构建好的基于交通道路影像的图像信息提取网络中。本发明通过对不同通道进行不同的卷积,增强模型对遥感图像中复杂场景和多样性目标的建模能力,更有利于局部特征的提取,提高准确性和泛化能力;多层的平均池化操作在缩小特征图尺寸的同时,也将局部信息进行了整合,得到了整个特征图的平均值,并引入近似的低频信息。这有助于提取全局信息,捕捉图像中的整体结构和上下文关系。
Description
技术领域
本发明公开一种基于交通道路影像的图像信息提取方法,属于电数字数据处理、图形数据读取和图像数据处理技术领域。
背景技术
在道路提取、城市规划、环境检测等领域中,图像信息提取发挥着至关重要的作用。由于图像信息存在类别丰富、空间分布广泛、空间关联性强、背景复杂、类内方差大的特点,这使得对应的图像信息提取充满挑战。传统的图像信息提取方法主要基于图像处理和机器学习技术,这些方法通常依赖于手动提取特征和设置分类器的参数,对于复杂的地物类别和背景噪声较多的情况效果可能有限,在面对大尺度、高分辨率的图像时往往难以给出精确的提取结果。另外传统的提取方法并不能很好的处理图像的频率信息、细节信息、全局信息。
发明内容
本发明的目的在于提供一种基于交通道路影像的图像信息提取方法,以解决现有技术中,交通道路影像的图像信息提取精度差的问题。
一种基于交通道路影像的图像信息提取方法,包括:
S1.获得交通道路影像,将交通道路影像按照2:1:1的比例划分为训练集、测试集和验证集,将划分后的交通道路影像进行裁剪,等待下一步处理;
将训练集、测试集和验证集的影像,人为进行图像信息提取,将图像信息提取结果保存留作后续对照;
S2.构建基于交通道路影像的图像信息提取网络,具体是将U-Net神经网络中的所有卷积模块替换为综合转换器模块DT,DT包括两个归一化层、一个多重信息融合模块HLP和一个多层感知机模块MLP;
归一化层不保存训练批次的均值和方差,取同一个样本的不同通道做归一化;HLP是基于小波变换的转换器模块、多层卷积模块和多层池化模块的并行操作,采用桥连接方法加强全局和局部之间的联系;MLP先将数据先映射到高维空间再映射到低维空间;
S3.将训练集中的交通道路影像输入S2构建好的基于交通道路影像的图像信息提取网络中,得到基于交通道路影像的图像信息提取结果,将图像信息提取结果和训练集人为进行图像信息提取的结果进行误差计算,如果误差大于设置的阈值,反向传播更新参数,反复迭代直至误差小于设置的阈值,停止更新参数并保存网络参数;
S4.将验证集中的交通道路影像输入S2构建好的基于交通道路影像的图像信息提取网络中,网络的输出为基于交通道路影像的图像信息提取网络的信息提取结果,将图像信息提取结果和验证集人为进行图像信息提取的结果进行误差计算,如果误差大于设置的阈值,返回S3,如果误差小于设置的阈值,执行S5;
S5.把测试集中的交通道路影像输入S2构建好的基于交通道路影像的图像信息提取网络中,网络的输出为基于交通道路影像的图像信息提取网络的最终信息提取结果。
S2中的HLP的结构包括一个基于小波变换的转换器模块、一个多层卷积模块和一个多层池化模块并行结构、一个成比例的合并层、两个交叉的桥连接和一个1X1的卷积层。
S2中的HLP运行过程为:
B1.HLP的输入为特征数据块X,设X的行数为H、列数为W,通道数为C,X同时输入到基于小波变换的转换器模块、多层卷积模块和多层池化模块,对应三个模块的输出为Y1、Y2、Y3,维度均为H×W×C:
Y1、Y2、Y3=DWT-CSWTF(X),ML-CNN(X),ML-PL(X);
式中,DWT-CSWTF是基于小波变换的转换器模块架构,由小波变换和十字交叉注意力串联产生,DWT-CSWTF(X)表示让X通过基于小波变换的转换器模块,ML-CNN是多层卷积模块,由三个并行的卷积层、一个拼接层和一个归一化层构成,ML-CNN(X)表示让X通过多层卷积模块,ML-PL是多层池化模块,由4个并行的平局池化层、一个上采样层、一个拼接层和一个激活函数层构成,ML-PL(X)表示让X通过多层池化模块;
B2.通过桥连接求Y1和Y2的结果的交叉注意力,设输出为Z1和Z2:
Z1,Z2=GB(Y1),LB(Y2);
GB表示全局桥,是由全局到局部的信息连接桥;LB表示局部桥,是由局部到全局的信息连接桥,GB(Y1)表示对小波变换的转换器输出和多层卷积的输出求解交叉注意力机制,将多层卷积的结果引入到小波变换的转换器中在全局信息中引入细节信息;LB(Y2)表示将在细节信息中引入全局信息;
B3.将Z1、Z2和Y3按2:2:1比例相加,通过1X1卷积进行通道交互,将经过桥连接优化后的Z1和Z2与多层池化输出进行融合,将全局信息、局部信息频率信息进行交互,HLP的最终输出M:
M=con1×1(2Z1+2Z2+Y3);
其中con1×1是卷积核大小为1×1的卷积运算函数。
基于小波变换的转换器模块包括基于小波变换和逆小波变换的补偿模块、基于小波变换的频率重组模块、基于十字交叉注意力的转换器模块;
基于小波变换和逆小波变换的补偿模块为于残差结构,基于小波变换的频率重组模块将高低频率进行重新组合,产生适合提取的频率组合,再从频率重组后的信息获取K'和V'矩阵,从输入特征获得Q矩阵,将其Q、K'和V'三个矩阵输入到基于十字交叉注意力的转换器模块:
Y2=Attention(Q、K'、V')+IDWT(DWT(X));
其中Q是来自X的映射矩阵,小波变换重组后的X记为X0,K'和V'是来自的X0映射矩阵,DWT表示小波变换,IDWT表示逆小波变换,Attention是十字交叉注意力全局注意力图的函数。
基于小波变换的频率重组模块包括:两个1X1的卷积层、一个3X3的卷积层、一个细化的小波变换过程和两个可学习的权重A和B;
将特征输入到小波变换的频率重组模块中,先经过1×1的卷积将整体的通道数调整为C/2,再将变化后的特征输入到细化的小波变换过程中,小波输出产生三个高频信号:低高频XLH,高低频XHL,高高频XHH,一个低频信号:低低频XLL,每个高频信号和低频信号张量大小为H/2×W/2×C/2;
将三个高频信号按照通道进行拼接此时维度为H/2×W/2×3C/2,再通过1×1卷积对其进行通道降维将维度变为H/2×W/2×C/2,此时获取到合并后的高频信息,分别对获得高低频信息乘以两个权重A和B,再输入给一个3X3的卷积:
XHL,XHH,XLH,XLL=DWT(con1×1(X));
X0=con3×3(concat(con1×1(conact(XHL,XHH,XLH)),XLL));
其中concat表示按通道进行拼接操作,con3X3表示进行3X3卷积运算,con1X1表示经过1X1卷积运算。
基于十字交叉注意力的转换器模块的求解公式如下:
;
Attention(Q,K',V')=concat(H-Attention(Q,K',V'),L-Attention(Q,K',V'));
其中Q,K' ,V'的张量大小为S×W,H-Attention是求取行注意力图的函数,L-Attention是求取列注意力图的函数,softmax是激活函数,dk'是K'的空间维度,对应HLP的窗口sw的取值和初始的十字交叉注意力中的保持一致,分别为[1,2,7,7]。
HLP中的多层卷积模块包括一个通道划分模块、三个并行的不同大小的卷积层、一个按通道拼接层个一个归一化层;
三个并行的卷积层的大小分别为3X3卷积、5X5卷积和7X7卷积,特征数据块X经过通道划分模块后输入每一个卷积层的张量大小变为HW/>C/3,三个卷积对输入的张量进行卷积,将三个卷积输出的结果重新按照通道数进行拼接,拼接后的整体张量大小H/>W/>C:
Y1=Batchnorm(concat(con3×3(split(X)),con5×5(split(X)),con7×7(split(X))));
其中split表示对输入按照通道进行划分,con3×3是卷积核大小为3x3的卷积运算函数,con5×5是卷积核大小为5x5的卷积运算函数,con7×7是卷积核大小为7x7的卷积运算函数,Batchnorm表示进行归一化。
多层池化模块包括一个通道划分模块、四个不同大小的池化层、一个双线性插值层、一个拼接层和一个激活函数层;
4个并行的池化的大小分别为1X1池化层、2X2池化层、3X3池化层和6X6池化层,池化选择平均池化,输入的张量先经过并行池化层进行池化操作,再通过双线性插值扩充分辨率到,此时经过双线性插值的每一个张量大小为H×W×C/4,再按照通道数进行拼接,通过激活函数relu进行激活:
Y3=Relu(concat(up(pl1(split(X))),up(pl2(split(X))),up(pl3(split(X))),up(pl6(split(X)))));
其中Relu表示激活函数,pl1、pl 2、pl 3、pl 6分别表示1X1,2X2,3X3,6X6的平均池化层,up表示采用双线性插值的方式对池化后的特征进行扩充。
桥连接包括GB和LB;
对于GB,在计算交叉注意力时,Q和V的映射矩阵来自全局注意力的输出结果,K来自多层卷积模块:
;
对于LB,在计算交叉注意力时,Q和V来自多层卷积模块的输出,K来自全局注意力的输出:
;
其中Q、K、V来自基于小波变换的转换器模块的输出,X'来自多层卷积层的结果输出。
采用Adam优化算法进行参数求解,在误差反向传播时,根据误差梯度信息对参数进行更新,损失函数为:
;
式中,N为批量处理数据数量,F表示基于交通道路影像的图像信息提取网络,(Xi,Yi)代表验证集的数据以及对应的信息的训练对,θ是基于交通道路影像的图像信息提取网络的参数。
相对比现有技术,本发明具有以下有益效果:
本发明通过对不同通道进行不同的卷积,增强模型对遥感图像中复杂场景和多样性目标的建模能力,更有利于局部特征的提取,并引入近似高频信息,提高准确性和泛化能力;多层的平均池化操作在缩小特征图尺寸的同时,也将局部信息进行了整合,得到了整个特征图的平均值,并引入近似的低频信息。这有助于提取全局信息,捕捉图像中的整体结构和上下文关系;基于小波变换的转换器模块通过引入两个权重,将可调节的频率信息映入转换器中,能强化转换器对于整体信息的建模;桥连接使得模型能够兼顾全局和局部特征,提高模型对于不同尺度、不同层次特征的感知能力,从而更好地提取道路图像的信息。
附图说明
图1是本发明的基于UNET结构的整体结构图;
图2是DT模块的基本结构图;
图3为HLP模块结构图;
图4为多层卷积模块结构图;
图5是本发明中的多层池化模块结构图;
图6是基于小波变换的转换器模块的结构;
图7是小波变换的频率重组模块结构图;
图8桥连接结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于交通道路影像的图像信息提取方法,包括:
S1.获得交通道路影像,将交通道路影像按照2:1:1的比例划分为训练集、测试集和验证集,将划分后的交通道路影像进行裁剪,等待下一步处理;
将训练集、测试集和验证集的影像,人为进行图像信息提取,将图像信息提取结果保存留作后续对照;
S2.构建基于交通道路影像的图像信息提取网络,具体是将U-Net神经网络中的所有卷积模块替换为综合转换器模块DT,DT包括两个归一化层、一个多重信息融合模块HLP和一个多层感知机模块MLP;
归一化层不保存训练批次的均值和方差,取同一个样本的不同通道做归一化;HLP是基于小波变换的转换器模块、多层卷积模块和多层池化模块的并行操作,采用桥连接方法加强全局和局部之间的联系;MLP先将数据先映射到高维空间再映射到低维空间;
S3.将训练集中的交通道路影像输入S2构建好的基于交通道路影像的图像信息提取网络中,得到基于交通道路影像的图像信息提取结果,将图像信息提取结果和训练集人为进行图像信息提取的结果进行误差计算,如果误差大于设置的阈值,反向传播更新参数,反复迭代直至误差小于设置的阈值,停止更新参数并保存网络参数;
S4.将验证集中的交通道路影像输入S2构建好的基于交通道路影像的图像信息提取网络中,网络的输出为基于交通道路影像的图像信息提取网络的信息提取结果,将图像信息提取结果和验证集人为进行图像信息提取的结果进行误差计算,如果误差大于设置的阈值,返回S3,如果误差小于设置的阈值,执行S5;
S5.把测试集中的交通道路影像输入S2构建好的基于交通道路影像的图像信息提取网络中,网络的输出为基于交通道路影像的图像信息提取网络的最终信息提取结果。
S2中的HLP的结构包括一个基于小波变换的转换器模块、一个多层卷积模块和一个多层池化模块并行结构、一个成比例的合并层、两个交叉的桥连接和一个1X1的卷积层。
S2中的HLP运行过程为:
B1.HLP的输入为特征数据块X,设X的行数为H、列数为W,通道数为C,X同时输入到基于小波变换的转换器模块、多层卷积模块和多层池化模块,对应三个模块的输出为Y1、Y2、Y3,维度均为H×W×C:
Y1、Y2、Y3=DWT-CSWTF(X),ML-CNN(X),ML-PL(X);
式中,DWT-CSWTF是基于小波变换的转换器模块架构,由小波变换和十字交叉注意力串联产生,DWT-CSWTF(X)表示让X通过基于小波变换的转换器模块,ML-CNN是多层卷积模块,由三个并行的卷积层、一个拼接层和一个归一化层构成,ML-CNN(X)表示让X通过多层卷积模块,ML-PL是多层池化模块,由4个并行的平局池化层、一个上采样层、一个拼接层和一个激活函数层构成,ML-PL(X)表示让X通过多层池化模块;
B2.通过桥连接求Y1和Y2的结果的交叉注意力,设输出为Z1和Z2:
Z1,Z2=GB(Y1),LB(Y2);
GB表示全局桥,是由全局到局部的信息连接桥;LB表示局部桥,是由局部到全局的信息连接桥,GB(Y1)表示对小波变换的转换器输出和多层卷积的输出求解交叉注意力机制,将多层卷积的结果引入到小波变换的转换器中在全局信息中引入细节信息;LB(Y2)表示将在细节信息中引入全局信息;
B3.将Z1、Z2和Y3按2:2:1比例相加,通过1X1卷积进行通道交互,将经过桥连接优化后的Z1和Z2与多层池化输出进行融合,将全局信息、局部信息频率信息进行交互,HLP的最终输出M:
M=con1×1(2Z1+2Z2+Y3);
其中con1×1是卷积核大小为1×1的卷积运算函数。
基于小波变换的转换器模块包括基于小波变换和逆小波变换的补偿模块、基于小波变换的频率重组模块、基于十字交叉注意力的转换器模块;
基于小波变换和逆小波变换的补偿模块为于残差结构,基于小波变换的频率重组模块将高低频率进行重新组合,产生适合提取的频率组合,再从频率重组后的信息获取K'和V'矩阵,从输入特征获得Q矩阵,将其Q、K'和V'三个矩阵输入到基于十字交叉注意力的转换器模块:
Y2=Attention(Q、K'、V')+IDWT(DWT(X));
其中Q是来自X的映射矩阵,小波变换重组后的X记为X0,K'和V'是来自的X0映射矩阵,DWT表示小波变换,IDWT表示逆小波变换,Attention是十字交叉注意力全局注意力图的函数。
基于小波变换的频率重组模块包括:两个1X1的卷积层、一个3X3的卷积层、一个细化的小波变换过程和两个可学习的权重A和B;
将特征输入到小波变换的频率重组模块中,先经过1×1的卷积将整体的通道数调整为C/2,再将变化后的特征输入到细化的小波变换过程中,小波输出产生三个高频信号:低高频XLH,高低频XHL,高高频XHH,一个低频信号:低低频XLL,每个高频信号和低频信号张量大小为H/2×W/2×C/2;
将三个高频信号按照通道进行拼接此时维度为H/2×W/2×3C/2,再通过1×1卷积对其进行通道降维将维度变为H/2×W/2×C/2,此时获取到合并后的高频信息,分别对获得高低频信息乘以两个权重A和B,再输入给一个3X3的卷积:
XHL,XHH,XLH,XLL=DWT(con1×1(X));
X0=con3×3(concat(con1×1(conact(XHL,XHH,XLH)),XLL));
其中concat表示按通道进行拼接操作,con3X3表示进行3X3卷积运算,con1X1表示经过1X1卷积运算。
基于十字交叉注意力的转换器模块的求解公式如下:
;
Attention(Q,K',V')=concat(H-Attention(Q,K',V'),L-Attention(Q,K',V'));
其中Q,K' ,V'的张量大小为S×W,H-Attention是求取行注意力图的函数,L-Attention是求取列注意力图的函数,softmax是激活函数,dk'是K'的空间维度,对应HLP的窗口sw的取值和初始的十字交叉注意力中的保持一致,分别为[1,2,7,7]。
HLP中的多层卷积模块包括一个通道划分模块、三个并行的不同大小的卷积层、一个按通道拼接层个一个归一化层;
三个并行的卷积层的大小分别为3X3卷积、5X5卷积和7X7卷积,特征数据块X经过通道划分模块后输入每一个卷积层的张量大小变为HW/>C/3,三个卷积对输入的张量进行卷积,将三个卷积输出的结果重新按照通道数进行拼接,拼接后的整体张量大小H/>W/>C:
Y1=Batchnorm(concat(con3×3(split(X)),con5×5(split(X)),con7×7(split(X))));
其中split表示对输入按照通道进行划分,con3×3是卷积核大小为3x3的卷积运算函数,con5×5是卷积核大小为5x5的卷积运算函数,con7×7是卷积核大小为7x7的卷积运算函数,Batchnorm表示进行归一化。
多层池化模块包括一个通道划分模块、四个不同大小的池化层、一个双线性插值层、一个拼接层和一个激活函数层;
4个并行的池化的大小分别为1X1池化层、2X2池化层、3X3池化层和6X6池化层,池化选择平均池化,输入的张量先经过并行池化层进行池化操作,再通过双线性插值扩充分辨率到,此时经过双线性插值的每一个张量大小为H×W×C/4,再按照通道数进行拼接,通过激活函数relu进行激活:
Y3=Relu(concat(up(pl1(split(X))),up(pl2(split(X))),up(pl3(split(X))),up(pl6(split(X)))));
其中Relu表示激活函数,pl1、pl 2、pl 3、pl 6分别表示1X1,2X2,3X3,6X6的平均池化层,up表示采用双线性插值的方式对池化后的特征进行扩充。
桥连接包括GB和LB;
对于GB,在计算交叉注意力时,Q和V的映射矩阵来自全局注意力的输出结果,K来自多层卷积模块:
;
对于LB,在计算交叉注意力时,Q和V来自多层卷积模块的输出,K来自全局注意力的输出:
;
其中Q、K、V来自基于小波变换的转换器模块的输出,X'来自多层卷积层的结果输出。
采用Adam优化算法进行参数求解,在误差反向传播时,根据误差梯度信息对参数进行更新,损失函数为:
;
式中,N为批量处理数据数量,F表示基于交通道路影像的图像信息提取网络,(Xi,Yi)代表验证集的数据以及对应的信息的训练对,θ是基于交通道路影像的图像信息提取网络的参数。
现有技术的一些相关方法如下:卷积神经网络在计算机视觉领域占有很大比重,是一种比较成熟的特征提取方法。卷积神经网络以其卓越的特征提取和表示能力,在图像分析领域展现了强大的潜力。通过多层卷积和池化层,可以自动学习图像中的高级特征表示以获得比较好的提取结果。对于图像而言,卷积神经网络能够从原始像素级别提取出地物的纹理、形状、光谱等特征,从而有效地捕捉地物的信息。除此之外卷积神经网络通过使用具有局部感受野的卷积核和池化操作,可以捕捉到像素与其周围像素的空间关系,从而有效地利用地物的上下文信息。目前大部分的基于卷积神经网络的模型有着比较精细的提取结构,例如:以编码器-解码器的结构为基础的深度学习的U型网络U-Net。以空洞卷积结构为基础的模型深度标注DeepLab和以金字塔池化模块将多尺度特征进行融合的金字塔池化网络PSPNet。虽然与传统的基于图像处理和机器学习的方法相比,基于卷积神经网络方法的性能有了显著提高,但是还是存在一些缺陷,例如当图像的类内方差较大时,也就是同一类的大小存在比较大的差异时,卷积神经网络由于局部感受野的限制很难获得比较好的处理效果。由于卷积网络的局部特征的提取,对于图像中的全局上下文和空间关联性信息的利用相对较弱,导致模型对于大范围的物体边界和细节的提取效果不佳。传统卷积神经网络的池化操作虽然能对图像进行降采样降低计算量,但这会造成部分细节丢失,导致提取的结果精度下降。总之,卷积神经网络局部性虽然有利于提取图像的地物细节或边缘信息,但由于其感受野的限制无法构建基于像素点的全局建模。
小波变换是一种有效的时频分析方法,用于分析信号和图像的频域特征。基于小波函数的变换,可以将信号或图像分解成不同的频率成分,从而提取出信号或图像的频率特征。通过小波变换能够同时捕捉到信号或图像的低频和高频信息,从而提供了更丰富的特征表示。由于遥感图像含有丰富频率信息,小波变换可以将遥感图像转换到小波域,通过分析小波系数的幅值和相位信息,可以提取图像的频域特征。这些特征可以用于遥感图像的提取任务,帮助识别不同类别的目标或地物。另外,小波变换由于具有可逆性和保留所有信息的能力,因此在卷积神经网络架构中被用于各种视觉任务的性能提升,例如:在小波子带上对卷积神经网络进行训练有利于图像恢复任务,利用多级小波变换在不丢失信息的情况下扩大感受野进行图像恢复。
转换器是一种基于自注意力机制的深度学习模型,通过对输入序列中不同位置的关系进行学习,使得模型能够准确捕捉到序列中的依赖关系,并能并行处理序列中的不同位置信息。转换器在遥感图像中的提取任务中具有优势,传统的卷积神经网络在处理长距离依赖关系时存在一定的限制。而转换器模型通过自注意力机制可以有效地捕捉图像中像素之间的长距离依赖关系,使得模型能够更好地理解遥感图像中的地理特征和空间结构。通过全局自注意力机制可以对整个图像进行全局感知和理解,从而更好地推断每个像素点的标签,并提高遥感图像提取的精度和准确性。由于遥感图像通常背景复杂和类内方差大的特点,纯转换器建模的方式可能难以获得完备的空间和背景细节信息,且遥感图像丰富的频率信息也没有得到充分的利用。另外,转换器的计算复杂性较高,特别是对于大尺寸的遥感图像。由于遥感图像通常具有高分辨率和大尺寸,使用转换器模型进行提取可能需要大量的计算资源和时间,计算量也是一个要面对的问题。
本发明需准备三种数据集:训练集、验证集和测试集,三者的比例大约为2:1:1。其中,数据集使用Vaihingen数据集和Postdom数据集,Vaihingen数据集由33个非常精细的空间分辨率TOP图像块组成,平均大小为2494X2064像素。该数据集包括五个前景类(不透水表面、建筑物、低植被、树木、汽车)和一个背景类也就是含有6个类的提取目标。Postdom数据集包含38个非常精细的空间分辨率TOP图像块,大小为6000X6000像素,涉及与Vaihingen数据集相同的类别信息。对于Vaihingen数据集利用ID: 2、4、6、8、10、12、14、16作为测试集,ID:20、22、24、27、29、31、33、35、38作为验证集,剩下的16张遥感图像用于训练。对于Postdom数据集也采用近似的操作。最后,将输入遥感图像大小裁剪成为长宽分别为1024,1024大小的图像作为输入。每块切割后的遥感图像都对应着一块去信息提取后的数据。
UNET结构的整体结构图如图1所示,包括了8个DT以及4次跳跃连接,DT模块的基本结构如图2所示;HLP模块结构如图3所示,多层卷积模块结构图如图4所示,多层卷积模块在特征表示上引入更多的多样性,以更好地捕捉不同通道之间的相关性和特征的细节。而且三层并行的卷积层可以很好处理遥感图像中的尺度差异过大的情况,不同大小的感受野可以更有效的获取不同大小地物信息的细节信息,也可以在特征表示上引入更多的多样性,以更好地捕捉不同通道之间的相关性和特征的细节;多层池化模块结构如图5所示,多层池化模块结构的1X1的池化其实也就就是将原信息输入进来,其实就是类似一种残差连接,去减少池化产生的影响。这里是为了整体的一致性,所以采用这种结构。池化操作可以降低类内的差异性,多层的平均池化操作在缩小特征图尺寸的同时,也将局部信息进行了整合,得到了整个特征图的平均值,得到一种近似的低频信息。基于小波变换的转换器模块的结构如图6所示,小波变换的频率重组模块结构如图7所示,小波变换的频率重组模块能将频率信息映入到转换器中,合理的高低比例能大大提升图像提取的效果。举一个例子,当遥感图像中的物类比较密集时,需要提高频信息的权重,减少低频信息的权重。高频代表细节信息,提高高频信息占比能强化这种类与类的差异性,提高模型的图像提取效果,当遇到类内方差大的时候,也就是说同一类事物,其大小不一样,这个时候就应该提高其低频权重,降低高频权重去弱化这种类间差异,提高同类之间的相识性。桥连接结构如图8所示,用来加强全局信息和局部信息的联系。
对HLP模型的计算量进行可行性的分析,对于整个HLP模块来说其计算量主要集中在基于小波变换的转换器模块中,而这个模块中的计算量则是集中在MSA(多头注意力)的计算,常规的MSA和CSW-MSA的计算量公式如下:
;
其中Ω(MSA)表示常规转换器的多头注意力的计算量,Ω(CSW-MSA)表示十字交叉注意力(CSWin-转换器)的注意力计算量,h,w,C分别表示输入特征图的长,宽和通道数。sw表示十字交叉注意力(CSWin-转换器)的窗口大小。4hwC 2 表示4个映射矩阵的运算量。2(hw)2 C则是实际Q,K,V的计算量。实际上决定计算上限的就是2(hw) 2 C。十字交叉注意力(CSWin-转换器)中由于窗口(sw)取值为1,2,7,7,其大小远远小于特征长和宽的大小,所以改用十字交叉注意力(CSWin-转换器)能大大减小注意力的计算量。另外,小波变换将整体的分辨率将为原来的1/2,也就是说在进行全局注意力运算时整体的计算量会下降,例如:将一个HXWXC大小的特征进行放入传统的转换器其运算量为(HW)2C,而使用小波变换后的由于Q来自原来的图像,K,V来自小波变换后的图像,其分辨率仅为原来的一半,所以其运算量为((HW)2/4)C。基于DWT的小波变换的计算量为:
;
Ω(DWT-CSW-MSA)表示基于小波变换的十字交叉注意力(CSWin-转换器)的计算复杂度,这里除以4的原因是窗口(sw)的长宽都变为原来的1/2。所以基于小波变换的十字交叉注意力(CSWin-转换器)的计算量相对于原始的转换器的计算量大大减少了。
以上实施例仅用于说明本发明的技术方案,而非对其限制,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种基于交通道路影像的图像信息提取方法,其特征在于,包括:
S1.获得交通道路影像,将交通道路影像按照2:1:1的比例划分为训练集、测试集和验证集,将划分后的交通道路影像进行裁剪,等待下一步处理;
将训练集、测试集和验证集的影像,人为进行图像信息提取,将图像信息提取结果保存留作后续对照;
S2.构建基于交通道路影像的图像信息提取网络,具体是将U-Net神经网络中的所有卷积模块替换为综合转换器模块DT,DT包括两个归一化层、一个多重信息融合模块HLP和一个多层感知机模块MLP;
归一化层不保存训练批次的均值和方差,取同一个样本的不同通道做归一化;HLP是基于小波变换的转换器模块、多层卷积模块和多层池化模块的并行操作,采用桥连接方法加强全局和局部之间的联系;MLP先将数据先映射到高维空间再映射到低维空间;
S3.将训练集中的交通道路影像输入S2构建好的基于交通道路影像的图像信息提取网络中,得到基于交通道路影像的图像信息提取结果,将图像信息提取结果和训练集人为进行图像信息提取的结果进行误差计算,如果误差大于设置的阈值,反向传播更新参数,反复迭代直至误差小于设置的阈值,停止更新参数并保存网络参数;
S4.将验证集中的交通道路影像输入S2构建好的基于交通道路影像的图像信息提取网络中,网络的输出为基于交通道路影像的图像信息提取网络的信息提取结果,将图像信息提取结果和验证集人为进行图像信息提取的结果进行误差计算,如果误差大于设置的阈值,返回S3,如果误差小于设置的阈值,执行S5;
S5.把测试集中的交通道路影像输入S2构建好的基于交通道路影像的图像信息提取网络中,网络的输出为基于交通道路影像的图像信息提取网络的最终信息提取结果;
S2中的HLP运行过程为:
B1.HLP的输入为特征数据块X,设X的行数为H、列数为W,通道数为C,X同时输入到基于小波变换的转换器模块、多层卷积模块和多层池化模块,对应三个模块的输出为Y1、Y2、Y3,维度均为H×W×C:
Y1、Y2、Y3=DWT-CSWTF(X),ML-CNN(X),ML-PL(X);
式中,DWT-CSWTF是基于小波变换的转换器模块架构,由小波变换和十字交叉注意力串联产生,DWT-CSWTF(X)表示让X通过基于小波变换的转换器模块,ML-CNN是多层卷积模块,由三个并行的卷积层、一个拼接层和一个归一化层构成,ML-CNN(X)表示让X通过多层卷积模块,ML-PL是多层池化模块,由4个并行的平局池化层、一个上采样层、一个拼接层和一个激活函数层构成,ML-PL(X)表示让X通过多层池化模块;
B2.通过桥连接求Y1和Y2的结果的交叉注意力,设输出为Z1和Z2:
Z1,Z2=GB(Y1),LB(Y2);
GB表示全局桥,是由全局到局部的信息连接桥;LB表示局部桥,是由局部到全局的信息连接桥,GB(Y1)表示对小波变换的转换器输出和多层卷积的输出求解交叉注意力机制,将多层卷积的结果引入到小波变换的转换器中在全局信息中引入细节信息;LB(Y2)表示将在细节信息中引入全局信息;
B3.将Z1、Z2和Y3按2:2:1比例相加,通过1X1卷积进行通道交互,将经过桥连接优化后的Z1和Z2与多层池化输出进行融合,将全局信息、局部信息频率信息进行交互,HLP的最终输出M:
M=con1×1(2Z1+2Z2+Y3);
其中con1×1是卷积核大小为1×1的卷积运算函数。
2.根据权利要求1所述的一种基于交通道路影像的图像信息提取方法,其特征在于,S2中的HLP的结构包括一个基于小波变换的转换器模块、一个多层卷积模块和一个多层池化模块并行结构、一个成比例的合并层、两个交叉的桥连接和一个1X1的卷积层。
3.根据权利要求1所述的一种基于交通道路影像的图像信息提取方法,其特征在于,基于小波变换的转换器模块包括基于小波变换和逆小波变换的补偿模块、基于小波变换的频率重组模块、基于十字交叉注意力的转换器模块;
基于小波变换和逆小波变换的补偿模块为于残差结构,基于小波变换的频率重组模块将高低频率进行重新组合,产生适合提取的频率组合,再从频率重组后的信息获取K'和V'矩阵,从输入特征获得Q矩阵,将其Q、K'和V'三个矩阵输入到基于十字交叉注意力的转换器模块:
Y2=Attention(Q、K'、V')+IDWT(DWT(X));
其中Q是来自X的映射矩阵,小波变换重组后的X记为X0,K'和V'是来自的X0映射矩阵,DWT表示小波变换,IDWT表示逆小波变换,Attention是十字交叉注意力全局注意力图的函数。
4.根据权利要求3所述的一种基于交通道路影像的图像信息提取方法,其特征在于,基于小波变换的频率重组模块包括:两个1X1的卷积层、一个3X3的卷积层、一个细化的小波变换过程和两个可学习的权重A和B;
将特征输入到小波变换的频率重组模块中,先经过1×1的卷积将整体的通道数调整为C/2,再将变化后的特征输入到细化的小波变换过程中,小波输出产生三个高频信号:低高频XLH,高低频XHL,高高频XHH,一个低频信号:低低频XLL,每个高频信号和低频信号张量大小为H/2×W/2×C/2;
将三个高频信号按照通道进行拼接此时维度为H/2×W/2×3C/2,再通过1×1卷积对其进行通道降维将维度变为H/2×W/2×C/2,此时获取到合并后的高频信息,分别对获得高低频信息乘以两个权重A和B,再输入给一个3X3的卷积:
XHL,XHH,XLH,XLL=DWT(con1×1(X));
X0=con3×3(concat(con1×1(conact(XHL,XHH,XLH)),XLL));
其中concat表示按通道进行拼接操作,con3X3表示进行3X3卷积运算,con1X1表示经过1X1卷积运算。
5.根据权利要求4所述的一种基于交通道路影像的图像信息提取方法,其特征在于,基于十字交叉注意力的转换器模块的求解公式如下:
;
Attention(Q,K',V')=concat(H-Attention(Q,K',V'),L-Attention(Q,K',V'));
其中Q,K' ,V'的张量大小为S×W,H-Attention是求取行注意力图的函数,L-Attention是求取列注意力图的函数,softmax是激活函数,dk'是K'的空间维度,对应HLP的窗口sw的取值和初始的十字交叉注意力中的保持一致,分别为[1,2,7,7]。
6.根据权利要求5所述的一种基于交通道路影像的图像信息提取方法,其特征在于,HLP中的多层卷积模块包括一个通道划分模块、三个并行的不同大小的卷积层、一个按通道拼接层个一个归一化层;
三个并行的卷积层的大小分别为3X3卷积、5X5卷积和7X7卷积,特征数据块X经过通道划分模块后输入每一个卷积层的张量大小变为HW/>C/3,三个卷积对输入的张量进行卷积,将三个卷积输出的结果重新按照通道数进行拼接,拼接后的整体张量大小H/>W/>C:
Y1=Batchnorm(concat(con3×3(split(X)),con5×5(split(X)),con7×7(split(X))));
其中split表示对输入按照通道进行划分,con3×3是卷积核大小为3x3的卷积运算函数,con5×5是卷积核大小为5x5的卷积运算函数,con7×7是卷积核大小为7x7的卷积运算函数,Batchnorm表示进行归一化。
7.根据权利要求6所述的一种基于交通道路影像的图像信息提取方法,其特征在于,多层池化模块包括一个通道划分模块、四个不同大小的池化层、一个双线性插值层、一个拼接层和一个激活函数层;
4个并行的池化的大小分别为1X1池化层、2X2池化层、3X3池化层和6X6池化层,池化选择平均池化,输入的张量先经过并行池化层进行池化操作,再通过双线性插值扩充分辨率到,此时经过双线性插值的每一个张量大小为H×W×C/4,再按照通道数进行拼接,通过激活函数Relu进行激活:
Y3=Relu(concat(up(pl1(split(X))),up(pl2(split(X))),up(pl3(split(X))),up(pl6(split(X)))));
其中Relu表示激活函数,pl1、pl2、pl3、pl6分别表示1X1,2X2,3X3,6X6的平均池化层,up表示采用双线性插值的方式对池化后的特征进行扩充。
8.根据权利要求7所述的一种基于交通道路影像的图像信息提取方法,其特征在于,桥连接包括GB和LB;
对于GB,在计算交叉注意力时,Q和V的映射矩阵来自全局注意力的输出结果,K来自多层卷积模块:
;
对于LB,在计算交叉注意力时,Q和V来自多层卷积模块的输出,K来自全局注意力的输出:
;
其中Q、K、V来自基于小波变换的转换器模块的输出,X'来自多层卷积层的结果输出。
9.根据权利要求8所述的一种基于交通道路影像的图像信息提取方法,其特征在于,采用Adam优化算法进行参数求解,在误差反向传播时,根据误差梯度信息对参数进行更新,损失函数为:
;
式中,N为批量处理数据数量,F表示基于交通道路影像的图像信息提取网络,(Xi,Yi)代表验证集的数据以及对应的信息的训练对,θ是基于交通道路影像的图像信息提取网络的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311091102.4A CN116824525B (zh) | 2023-08-29 | 2023-08-29 | 一种基于交通道路影像的图像信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311091102.4A CN116824525B (zh) | 2023-08-29 | 2023-08-29 | 一种基于交通道路影像的图像信息提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116824525A CN116824525A (zh) | 2023-09-29 |
CN116824525B true CN116824525B (zh) | 2023-11-14 |
Family
ID=88127718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311091102.4A Active CN116824525B (zh) | 2023-08-29 | 2023-08-29 | 一种基于交通道路影像的图像信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824525B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190024636A (ko) * | 2017-08-30 | 2019-03-08 | 한국과학기술원 | 확장된 뉴럴 네트워크를 이용한 영상 복원 방법 및 장치 |
CN111784676A (zh) * | 2020-07-03 | 2020-10-16 | 湖南大学 | 一种用于肝脏ct影像的特征提取与分割新方法 |
CN112418027A (zh) * | 2020-11-11 | 2021-02-26 | 青岛科技大学 | 一种改进U-Net网络的遥感影像道路提取方法 |
CN113850825A (zh) * | 2021-09-27 | 2021-12-28 | 太原理工大学 | 基于上下文信息和多尺度特征融合的遥感图像道路分割方法 |
CN115147921A (zh) * | 2022-06-08 | 2022-10-04 | 南京信息技术研究院 | 基于多域信息融合的重点区域目标异常行为检测与定位方法 |
CN115439751A (zh) * | 2022-09-22 | 2022-12-06 | 桂林理工大学 | 一种融合多注意力的高分辨率遥感影像道路提取方法 |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
CN116071650A (zh) * | 2023-02-16 | 2023-05-05 | 南京信息工程大学 | 一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法 |
CN116229295A (zh) * | 2023-02-28 | 2023-06-06 | 西安电子科技大学 | 基于融合卷积注意力机制的遥感图像目标检测方法 |
CN116309640A (zh) * | 2023-03-21 | 2023-06-23 | 南京工业大学 | 一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法 |
CN116630964A (zh) * | 2023-06-02 | 2023-08-22 | 北京工商大学 | 一种基于离散小波注意力网络的食品图像分割方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287978B (zh) * | 2020-10-07 | 2022-04-15 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
US20220415027A1 (en) * | 2021-06-29 | 2022-12-29 | Shandong Jianzhu University | Method for re-recognizing object image based on multi-feature information capture and correlation analysis |
-
2023
- 2023-08-29 CN CN202311091102.4A patent/CN116824525B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190024636A (ko) * | 2017-08-30 | 2019-03-08 | 한국과학기술원 | 확장된 뉴럴 네트워크를 이용한 영상 복원 방법 및 장치 |
CN111784676A (zh) * | 2020-07-03 | 2020-10-16 | 湖南大学 | 一种用于肝脏ct影像的特征提取与分割新方法 |
CN112418027A (zh) * | 2020-11-11 | 2021-02-26 | 青岛科技大学 | 一种改进U-Net网络的遥感影像道路提取方法 |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
CN113850825A (zh) * | 2021-09-27 | 2021-12-28 | 太原理工大学 | 基于上下文信息和多尺度特征融合的遥感图像道路分割方法 |
CN115147921A (zh) * | 2022-06-08 | 2022-10-04 | 南京信息技术研究院 | 基于多域信息融合的重点区域目标异常行为检测与定位方法 |
CN115439751A (zh) * | 2022-09-22 | 2022-12-06 | 桂林理工大学 | 一种融合多注意力的高分辨率遥感影像道路提取方法 |
CN116071650A (zh) * | 2023-02-16 | 2023-05-05 | 南京信息工程大学 | 一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法 |
CN116229295A (zh) * | 2023-02-28 | 2023-06-06 | 西安电子科技大学 | 基于融合卷积注意力机制的遥感图像目标检测方法 |
CN116309640A (zh) * | 2023-03-21 | 2023-06-23 | 南京工业大学 | 一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法 |
CN116630964A (zh) * | 2023-06-02 | 2023-08-22 | 北京工商大学 | 一种基于离散小波注意力网络的食品图像分割方法 |
Non-Patent Citations (3)
Title |
---|
Gravel Extraction from FMI Based on DSAM-DeepLabV3+ Network;Zaifeng Jiao 等;《2022 16th IEEE International Conference on Signal Processing (ICSP)》;全文 * |
一种多尺度卷积神经网络道路提取方法;戴激光;杜阳;金光;陶德志;;遥感信息(第01期);全文 * |
多尺度特征融合空洞卷积 ResNet遥感图像建筑物分割;徐胜军;欧阳朴衍;郭学源;Taha Muthar Khan;段中兴;;光学精密工程(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116824525A (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110599401A (zh) | 遥感图像超分辨率重建方法、处理装置及可读存储介质 | |
CN111523546B (zh) | 图像语义分割方法、系统及计算机存储介质 | |
Xu et al. | Image fusion based on nonsubsampled contourlet transform and saliency-motivated pulse coupled neural networks | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
Chen et al. | Single image super-resolution using deep CNN with dense skip connections and inception-resnet | |
CN116258658B (zh) | 基于Swin Transformer的图像融合方法 | |
CN113222823A (zh) | 基于混合注意力网络融合的高光谱图像超分辨率方法 | |
CN112257741B (zh) | 一种基于复数神经网络的生成性对抗虚假图片的检测方法 | |
CN114138919A (zh) | 一种基于非局部注意力卷积神经网络的地震数据重建方法 | |
CN115908772A (zh) | 一种基于Transformer和融合注意力机制的目标检测方法及系统 | |
CN106508048B (zh) | 一种基于多尺度基本形式的相似尺度图像融合方法 | |
CN115937697A (zh) | 一种遥感影像变化检测方法 | |
CN112686830B (zh) | 基于图像分解的单一深度图的超分辨率方法 | |
CN116824525B (zh) | 一种基于交通道路影像的图像信息提取方法 | |
CN116091492B (zh) | 一种图像变化像素级检测方法与系统 | |
CN112396657A (zh) | 一种基于神经网络的深度位姿估计方法、装置及终端设备 | |
Wang et al. | Road extraction based on improved DeepLabv3 plus in remote sensing image | |
CN114022362A (zh) | 一种基于金字塔注意力机制和对称网络的图像超分辨率方法 | |
CN115035408A (zh) | 基于迁移学习和注意力机制的无人机影像树种分类方法 | |
CN117788296B (zh) | 基于异构组合深度网络的红外遥感图像超分辨率重建方法 | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
CN117474764B (zh) | 一种针对复杂退化模型下遥感图像的高分辨率重建方法 | |
Xing et al. | Image super-resolution using aggregated residual transformation networks with spatial attention | |
Yang et al. | Bi-path network coupling for single image super-resolution | |
Vo et al. | A Study on Applying the SRCNN Model and Bicubic Interpolation to Enhance Low-Resolution Weeds Images for Weeds Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |