CN116844041A - 一种基于双向卷积时间自注意力机制的耕地提取方法 - Google Patents
一种基于双向卷积时间自注意力机制的耕地提取方法 Download PDFInfo
- Publication number
- CN116844041A CN116844041A CN202310720547.8A CN202310720547A CN116844041A CN 116844041 A CN116844041 A CN 116844041A CN 202310720547 A CN202310720547 A CN 202310720547A CN 116844041 A CN116844041 A CN 116844041A
- Authority
- CN
- China
- Prior art keywords
- time
- convolution
- input
- formula
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 36
- 230000007246 mechanism Effects 0.000 title claims abstract description 19
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 15
- 230000015654 memory Effects 0.000 claims abstract description 15
- 238000005070 sampling Methods 0.000 claims abstract description 12
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 54
- 238000013507 mapping Methods 0.000 claims description 24
- 238000010586 diagram Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 14
- 230000007787 long-term memory Effects 0.000 claims description 12
- 210000004027 cell Anatomy 0.000 claims description 11
- 210000002569 neuron Anatomy 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 238000013136 deep learning model Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims 1
- 230000009191 jumping Effects 0.000 abstract description 4
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/188—Vegetation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
本发明属于土地利用监测技术领域,具体为一种基于双向卷积时间自注意力机制的耕地提取方法。本发明首先,对时间序列下的每个原始图像的地块进行特征提取,将提取到的时间序列空间特征图像输送到双向卷积长短期记忆网络中进行时序特征提取,利用时间序列特征充分考虑到耕地作物生长随时间变化的趋势,提高了模型的准确性和鲁棒性;然后将提取到的时空特征送到自注意力模块,得到的原始时间特征通过自注意力模块,捕获长程的时间依赖性;再将上采样结果与编码器中具有相同分辨率的子模块的输出进行跳跃连接;最后将测试集数据输入到训练好的模型中,得到耕地地块的提取结果。本发明有效解决了当前耕地提取方法结果准确性低的问题。
Description
技术领域
本发明属于土地利用监测技术领域,尤其涉及一种基于双向卷积时间自注意力机制的耕地提取方法。
背景技术
随着全球人口的增长和城市化进程的加速,农业生产面临着越来越大的压力。作为重要的农业资源,耕地的保护和利用尤为重要。耕地提取是土地利用变化监测中的一个关键任务,它能够提供土地利用的空间分布信息,并且能够及时发现和解决耕地面积减少、荒漠化等问题。传统的耕地提取方法基于手工设计的特征和规则,其准确性和效率都受到很大限制。而近年来,深度学习在图像处理领域的成功应用,为耕地提取提供了一种新的思路。
在耕地作物地块提取中,时间序列特征可以反映不同耕作期作物的特征,如生长速度、形态、生理状态等,有利于提高作物分类的准确性。利用时间序列特征进行耕地地块提取,可以提高提取的准确性和稳定性,使得机器学习算法在耕地作物地块提取中更加有效。因此,基于时序的深度学习方法成为了耕地提取领域的研究热点。利用时序数据,结合卷积神经网络、循环神经网络等深度学习方法,能够更好地识别和分析耕地的时空变化特征,进而实现耕地提取任务。
然而,传统的深度学习模型并不能很好地处理时间序列数据。基于时空特征融合的耕地提取方法需要综合考虑时空特征,设计合适的特征提取算法和分类器,但是由于遥感影像的复杂性和时空变化的复杂性,算法的准确性难以保证。另一方面,需要处理大量的遥感影像数据,且需要将多期遥感数据进行配准和融合,以提高提取结果的准确性和稳定性。这些处理步骤需要使用复杂的图像处理算法和计算机视觉技术,处理过程相对复杂。
发明内容
针对上述存在问题或不足,为解决当前耕地提取方法对时间序列数据处理不佳导致结果准确性低的问题,本发明提供了一种基于双向卷积时间自注意力机制的耕地提取方法,利用遥感影像数据像素周围的空间上下文信息,建模时间序列数据中的长期依赖关系,更好地理解耕地的状态变化,从而有效提升耕地提取的准确性。
一种基于双向卷积时间自注意力机制的耕地提取方法,包括以下步骤:
步骤1、对原始耕地图像时序数据和对应的原始标签图像时序数据分别进行分块处理:设两种原始图像的高为h,宽为w,通道个数为c,时间序列长度为t,对于多个时间序列下的原始图像同时对每个时间序列下的图像按相同的随机值随机产生分块高度、宽度的起始像素值,且同一个图像下不同时间序列的分块划分方式保持一致,也就是产生的随机值对于一个时间序列下的多个图像是一致的,这样做保证了对同一个地块的时间序列特征进行学习。
因此构建的每一个地块下的数据特征为一个四维数组,以img_h为高,以img_w为宽,以c为通道,以t为时间序列划分出m个子像素序列其中每个像素序列X的大小为img_h×img_w×c×t,以X作为原始图像序列;每个标签序列Y的大小为img_h×img_w×c,为对应时间序列下地块的标签值。
将最终获得的分块原始耕地图像时序数据和对应的分块原始标签图像时序数据分别存放在集合src_set和label_set,作为后续深度学习的数据集;
步骤2、构造训练集和数据集,对src_set和label_set按照3:1:1的比例进行划分,分别构造训练集train_set,验证集val_set和测试集test_set;
步骤3、在U-net框架下构造基于双向卷积长短期记忆网络(Bi_CovLSTM)的时间自注意力机制模型。将训练集数据通过以U-net作为骨干网络的深度学习模型,提取不同尺度下图像的时空特征。空间尺度共有l个,在每个尺度i下得到序列空间特征图其维度大小hi×wi×ci×t。
上式中,Cov(·)为卷积块函数,包括两层3×3的卷积层和ReLu激活函数,通过卷积层得到空间关系特征,Relu(·)为激活函数。
步骤4、提取原始时间特征:将步骤3中得到的特征图输入到Bi_CovLSTM模型中,生成时间特征图/>维度大小为hi×wi×ci;
步骤5、将步骤4得到的时间特征图通过自注意力模块,捕获长程的时间依赖性,得到注意力特征图/>维度大小为hi×wi×ci;
步骤6、将步骤5中在最低分辨率下得到的注意力特征图作为解码器模块的输入,并采用转置卷积进行多层上采样操作,将每层上采样得到的结果与编码器部分对应尺度下的自注意力特征图进行跳跃连接。至此得到训练好的模型。
步骤7、将测试集数据输入到步骤6所得训练好的模型中,完成耕地的分割。
进一步的,所述步骤4具体包括以下步骤:
步骤4.1、构造前向卷积长短期记忆网络CovLSTM。
LSTM是一种时间循环神经网络,采用门机制调节信息流,每一层单元结构包括输入门it、遗忘门ft、和输出门ot三种门结构,它们可以分别学习时间特征并能保持长短时间记忆。然而对时序图像序列,需要考虑到空间位置信息,而LSTM主要是针对时间序列进行处理,因此采用CovLSTM,用卷积层代替全连接层,能够更好地获取时空关系,并进行时空序列预测,具体公式如下所示:
上式为输入门公式,为前向输入门,其中σ是sigmoid激活函数,/>则代表的是时间序列图像的前向输入,/>是卷积操作,/>代表的是映射操作,bi为输入门的偏置系数,Wxi为输入x到输入门的映射权重矩阵,Whi为隐藏层h到i的映射权重矩阵,/>为上一时刻神经元的短时记忆,/>代表上一时刻神经元的细胞输出。
上式为遗忘门公式,为前向遗忘门,Wxf为输入x到遗忘门的映射权重矩阵,/>为前向输入,Whf为隐藏层到遗忘门的映射权重矩阵,Wcf为细胞到遗忘门的映射权重矩阵,bf为遗忘门的偏置系数。
上式为更新单元公式,为前向更新单元,Wxc为输入x到更新单元的映射权重矩阵,Whc为隐藏层到更新单元的映射权重矩阵,tanh为激活函数,将一个实数输入映射到[-1,1]范围内,bc为更新单元的偏置系数。
上式为输出门公式,为前向输出门,Wxo为输入x到输出门的映射权重矩阵,Who为隐藏层到输出门的映射权重矩阵,Wco为神经元细胞到输出门的映射权重矩阵,bo为输出门的偏置系数。
上式为隐藏状态ht公式,代表前向卷积网络的隐藏状态,对短时记忆信息更为敏感;/>代表前向卷积LSTM网络的细胞状态,用来表征长期记忆信息。
其中代表前向卷积长短期记忆网络CovLSTM在当前时刻得到的网络输出;/>则代表的是时间序列图像的前向输入,W、V表示权重矩阵,b为偏置系数。
步骤4.2、构建后向卷积长短期记忆网络CovLSTM,与步骤4.1类似,对时间序列图像的反向输入进行特征提取。
上式为输入门公式,为后向输入门,/>则代表的是时间序列图像的后向输入,为下一时刻神经元的短时记忆,/>代表下一时刻神经元的细胞输出。
上式为遗忘门公式,为后向遗忘门。
上式为更新单元公式,为后向更新单元。
上式为输出门公式,为后向输出门。
上式为隐藏状态ht公式,代表后向卷积网络的隐藏状态,对短时记忆信息更为敏感;/>代表后向卷积LSTM网络的细胞状态,用来表征长期记忆信息。
将的前向输入序列/>输入到Bi_CovLSTM网络中,每一时刻下得到的网络输出为/>其中f表示经过每一层CovLSTM单元结构对上一时刻的输出和当前时刻的输入进行更新操作,W、V表示权重矩阵,b为偏置系数。
步骤4.3、双向卷积长短期记忆网络Bi_CovLSTM,将前向和反向输入得到的结果特征图进行连接,更好地获取图像在时间维度上的前后关系,得到Bi_CovLSTM的输出即时间特征图:
进一步的,所述步骤5具体包括以下步骤:
步骤5.1、将步骤4得到的每一个时间序列下的输出特征表示成向量:
步骤5.2、通过线性矩阵变换为每个时间节点下的特征矩阵创建查询矩阵Query(Q)、索引矩阵Key(K)、值矩阵Value(V),并创建Q和K矩阵组成的键值对。
Q=WQY
K=WKY
V=WVY
其中WQ,WK,WV分别代表不同的权重矩阵。
步骤5.3、利用得到的Q和K计算输入向量之间的相关性,也就是这两个向量之间attention的值α,计算方式采用点乘的方式,并经过softmax方式进行归一化,利用得到的α和V矩阵计算每个特征矩阵对应的self-attention层的输出矩阵:
其中dk表示Q和K矩阵的维度大小,是为了防止得到attention值过大,导致输出矩阵稀疏。
进一步的,所述步骤6具体包括以下步骤:
步骤6.1、将步骤5中在最低分辨率下得到的注意力特征图作为解码器模块的输入,并对注意力特征图/>进行上采样,将每一层下的上采样结果/>与编码器中的相同分辨率下卷积模块的输出/>进行跳跃连接,并将该结果/>作为下一个上采样模块的输入,得到下一层的上采样结果/>
其中Covu4是上采样模块,采用双线性插值+卷积的方式完成尺度变换,将变换后的特征图与对应尺度下的编码器模块的输出结果进行连接。
步骤6.2、构建交叉熵损失函数评价图像分割的效果:
上式中y是真实标签值(正类值为1,负类值为0);为预测概率值,/>表示真实样本标签和预测概率之间的差异。
本发明以U-net为骨干网络,协同双向卷积长短期记忆网络Bi_CovLSTM与自注意力机制进行耕地地块的时空特征提取与特征融合:首先,在编码器部分通过对原始耕地图像序列数据和对应的原始标签图像数据进行数据处理构建训练集与数据集,将其输送网络模型提取时间序列图像的空间特征图然后,将空间特征图/>输入到Bi_CovLSTM模型中进行时序特征提取,生成时间特征图/>之后将得到的原始时间特征通过自注意力模块,捕获长程的时间依赖性,得到/>最后,最低分辨率下得到的注意力特征图/>作为解码器模块的输入,并采用转置卷积进行多层上采样操作,将每层上采样得到的结果与编码器部分对应尺度下的自注意力特征图进行跳跃连接,作为解码器中下一个子模块的输入,输出耕地提取结果图。
综上所述,本发明充分利用了影像的时空分布特征,基于提出的双向卷积时间注意力机制下的网络框架进行了特征提取与特征融合,极大的提高了准确性和鲁棒性,有效解决了当前耕地提取方法结果准确性低的问题。
附图说明
图1为本发明的流程结构示意图;
图2为本发明的流程图;
图3为本发明实施例提供的双向卷积长短期记忆网络的结构示意图;
图4为本发明实施例提供的自注意力模块的结构示意图;
图5为实施例耕地提取结果图,其中白色部分代表耕地,黑色部分代表背景。
图6为实施例模型训练和验证过程中损失函数随训练过程的变化曲线图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
本实施例采用计算机软件实现自动运行流程,在python3.6的环境下,采用tensorflow框架实现模型的搭建和训练。
一种基于双向卷积时间自注意力机制的耕地提取方法,包括以下步骤:
步骤1、对原始耕地图像时序数据和对应的原始标签图像时序数据分别进行分块处理:设两种原始图像的高为h,宽为w,通道个数为3,时间序列长度为10,对于多个时间序列下的原始图像同时对每个时间序列下的图像按相同的随机值随机产生分块高度、宽度的起始像素值,且同一个图像下不同时间序列的分块划分方式保持一致,也就是产生的随机值对于一个时间序列下的多个图像是一致的,这样做保证了对同一个地块的时间序列特征进行学习。
构建的每一个地块下的数据特征为一个四维数组,划分出m个地块序列其中每个地块序列X的大小为256×256×3×10,以此作为原始图像序列;每个标签序列Y的大小为256×256,为对应时间序列下地块的标签值。
将最终获得的两类分块数据分别构建集合src_set和label_set,作为后续深度学习的数据集。
步骤2、构造训练集和数据集,对src_set和label_set按照3:1:1的比例进行划分,分别构造训练集train_set,验证集val_set和测试集test_set。
步骤3、在U-net框架下构造基于双向卷积长短期记忆网络Bi_CovLSTM的时间自注意力机制模型。
将训练数据通过以U-net作为骨干网络的深度学习模型,提取不同尺度下图像的时空特征。空间尺度共有l个,在每个尺度i下得到序列空间特征图其维度大小分别为256×256×32×10,128×128×64×10,64×64×128×10,32×32×256×10,16×16×512×10。
步骤4、提取原始时间特征:将步骤3中得到的特征图输入到Bi_CovLSTM模型中,生成时间特征图/>其维度大小分别为256×256×32,128×128×64,64×64×128,32×32×256,16×16×512。
步骤4.1、构造前向卷积长短期记忆网络CovLSTM。对时序图像序列,需要考虑到空间位置信息,而LSTM主要是针对时间序列进行处理,因此采用CovLSTM,用卷积层代替全连接层,能够更好地获取时空关系,并进行时空序列预测,具体公式如下所示:
输入门公式:
遗忘门公式:
更新单元公式:
输出门公式:
隐藏状态ht公式:
代表前向卷积长短期记忆网络CovLSTM在当前时刻得到的网络输出:
步骤4.2、构建后向卷积长短期记忆网络CovLSTM,对时间序列图像的反向输入进行特征提取。
输入门公式:
遗忘门公式:
更新单元公式:
输出门公式:
隐藏状态ht公式:
将的前向输入序列/>输入到Bi_CovLSTM网络中,每一时刻下得到的网络输出为/>
步骤4.3、双向卷积长短期记忆网络Bi_CovLSTM将前向和反向输入得到的结果特征图进行连接,更好地获取图像在时间维度上的前后关系,得到Bi_CovLSTM的输出特征图:
步骤5、将步骤4得到的原始时间特征通过自注意力模块,捕获长程的时间依赖性,得到注意力特征图/>其维度大小分别为256×256×32,128×128×64,64×64×128,32×32×256,16×16×512。
步骤5.1、将步骤4得到的每一个时间序列下的输出特征表示成向量:
步骤5.2、通过线性矩阵变换为每个时间节点下的特征矩阵创建查询矩阵Q、索引矩阵K、值矩阵V,并创建Q和K矩阵组成的键值对。
Q=WQY
K=WKY
V=WVY
步骤5.3、利用得到的Q和K采用点乘的方式计算attention的值α,并经过softmax方式进行归一化,利用得到的α和V矩阵计算每个特征矩阵对应的self-attention层的输出矩阵:
步骤6、将步骤5中在最低分辨率下得到的注意力特征图作为解码器模块的输入,并采用转置卷积进行多层上采样操作,将每层上采样得到的结果与编码器部分对应尺度下的自注意力特征图进行跳跃连接,至此得到训练好的模型。
步骤6.1、将步骤5中在最低分辨率下得到的注意力特征图作为解码器模块的输入,并对注意力特征图/>进行上采样,将每一层下的上采样结果/>与编码器中的相同分辨率下卷积模块的输出/>进行跳跃连接,并将该结果/>作为下一个上采样模块的输入,得到下一层的上采样结果/>
步骤6.2、构建交叉熵损失函数评价图像分割的效果:
上式中y是真实标签值(正类值为1,负类值为0);为预测概率值,/>表示真实样本标签和预测概率之间的差异。图6为实施例模型训练和验证过程中损失函数随训练过程的变化曲线图。
步骤7、将测试集数据输入到步骤6训练好的模型中,完成耕地的分割。
最后本实施例,选取精确率(Precision)、召回率(Recall)、F1分数(F1-Score)评价指标对本发明的模型分割结果进行定量评估:
其中TP表示真实标签为正例,预测结果为正例;FP表示真实标签为负例,预测结果为正例;FN表示真实标签为正例,预测结果为负例。
经过模型训练,最后本实施例模型下耕地提取的精确度、召回率、F1分数分别为90.21%,91.53%,88.76%。
通过以上实施例可见,本发明通过构建基于双向卷积时间注意力机制的U-net网络结构来提取耕地的时空特征信息,并对耕地地块进行分割。首先,对时间序列下的每个原始图像的地块进行特征提取,将提取到的时间序列空间特征图像输送到双向卷积长短期记忆网络Bi_CovLSTM中进行时序特征提取,利用时间序列特征充分考虑到耕地作物生长随时间变化的趋势,提高了模型的准确性和鲁棒性。然后将提取到的时空特征送到自注意力模块,得到的原始时间特征通过自注意力模块,捕获长程的时间依赖性。再将上采样结果与编码器中具有相同分辨率的子模块的输出进行跳跃连接,有效减少梯度消失和网络退化问题。采用与编码器类似的层层解码模块最终得到模型输出。最后将测试集数据输入到训练好的模型中,得到耕地地块的提取结果。本发明极大的提高了准确性和鲁棒性,有效解决了当前耕地提取方法结果准确性低的问题。
Claims (4)
1.一种基于双向卷积时间自注意力机制的耕地提取方法,其特征在于,包括以下步骤:
步骤1、对原始耕地图像时序数据和对应的原始标签图像时序数据分别进行分块处理:
设两种原始图像的高为h,宽为w,通道个数为c,时间序列长度为t,对于多个时间序列下的原始图像同时对每个时间序列下的图像按相同的随机值随机产生分块高度、宽度的起始像素值,且同一个图像下不同时间序列的分块划分方式保持一致;
构建的每一个地块下的数据特征为一个四维数组,以img_h为高,以img_w为宽,以c为通道,以t为时间序列划分出m个子像素序列其中每个像素序列X的大小为img_h×img_w×c×t,以X作为原始图像序列;每个标签序列Y的大小为img_h×img_w×c,为对应时间序列下地块的标签值;
将最终获得的分块原始耕地图像时序数据和对应的分块原始标签图像时序数据分别存放在集合src_set和label_set,作为后续深度学习的数据集;
步骤2、构造训练集和数据集,对src_set和label_set按照3:1:1的比例进行划分,分别构造训练集train_set,验证集val_set和测试集test_set;
步骤3、在U-net框架下构造基于双向卷积长短期记忆网络Bi_CovLSTM的时间自注意力机制模型;
将训练集数据通过以U-net作为骨干网络的深度学习模型,提取不同尺度下图像的时空特征;空间尺度共有l个,在每个尺度i下得到序列空间特征图其维度大小hi×wi×ci×t;
上式中,Cov(·)为卷积块函数,包括两层3×3的卷积层和ReLu激活函数,通过卷积层得到空间关系特征,Relu(·)为激活函数;
步骤4、提取原始时间特征:将步骤3中得到的特征图输入到Bi_CovLSTM模型中,生成时间特征图/>维度大小为hi×wi×ci;
步骤5、将步骤4得到的时间特征图通过自注意力模块,捕获长程的时间依赖性,得到注意力特征图/>维度大小为hi×wi×ci;
步骤6、将步骤5中在最低分辨率下得到的注意力特征图作为解码器模块的输入,并采用转置卷积进行多层上采样操作,将每层上采样得到的结果与编码器部分对应尺度下的自注意力特征图进行跳跃连接;至此得到训练好的模型;
步骤7、将测试集数据输入到步骤6所得训练好的模型中,完成耕地的分割。
2.如权利要求1所述基于双向卷积时间自注意力机制的耕地提取方法,其特征在于,所述步骤4具体包括以下步骤:
步骤4.1、构造前向卷积长短期记忆网络CovLSTM;
LSTM是一种时间循环神经网络,采用门机制调节信息流,每一层单元结构包括输入门it、遗忘门ft、和输出门ot三种门结构;采用CovLSTM,用卷积层代替全连接层,并进行时空序列预测,具体公式如下所示:
上式为输入门公式,为前向输入门,其中σ是sigmoid激活函数,/>则代表的是时间序列图像的前向输入,/>是卷积操作,/>代表的是映射操作,bi为输入门的偏置系数,Wxi为输入x到输入门的映射权重矩阵,Whi为隐藏层h到i的映射权重矩阵,/>为上一时刻神经元的短时记忆,/>代表上一时刻神经元的细胞输出;
上式为遗忘门公式,为前向遗忘门,Wxf为输入x到遗忘门的映射权重矩阵,/>为前向输入,Whf为隐藏层到遗忘门的映射权重矩阵,Wcf为细胞到遗忘门的映射权重矩阵,bf为遗忘门的偏置系数;
上式为更新单元公式,为前向更新单元,Wxc为输入x到更新单元的映射权重矩阵,Whc为隐藏层到更新单元的映射权重矩阵,tanh为激活函数,将一个实数输入映射到[-1,1]范围内,bc为更新单元的偏置系数;
上式为输出门公式,为前向输出门,Wxo为输入x到输出门的映射权重矩阵,Who为隐藏层到输出门的映射权重矩阵,Wco为神经元细胞到输出门的映射权重矩阵,bo为输出门的偏置系数;
上式为隐藏状态ht公式,代表前向卷积网络的隐藏状态,对短时记忆信息更为敏感;代表前向卷积LSTM网络的细胞状态,用来表征长期记忆信息;
其中代表前向卷积长短期记忆网络CovLSTM在当前时刻得到的网络输出;/>则代表的是时间序列图像的前向输入,W、V表示权重矩阵,b为偏置系数;
步骤4.2、构建后向卷积长短期记忆网络CovLSTM,对时间序列图像的反向输入进行特征提取;
上式为输入门公式,为后向输入门,/>则代表的是时间序列图像的后向输入,/>为下一时刻神经元的短时记忆,/>代表下一时刻神经元的细胞输出;
上式为遗忘门公式,为后向遗忘门;
上式为更新单元公式,为后向更新单元;
上式为输出门公式,为后向输出门;
上式为隐藏状态ht公式,代表后向卷积网络的隐藏状态,对短时记忆信息更为敏感;代表后向卷积LSTM网络的细胞状态,用来表征长期记忆信息;
将的前向输入序列/>输入到Bi_CovLSTM网络中,每一时刻下得到的网络输出为/>其中f表示经过每一层CovLSTM单元结构对上一时刻的输出和当前时刻的输入进行更新操作,W、V表示权重矩阵,b为偏置系数;
步骤4.3、双向卷积长短期记忆网络Bi_CovLSTM将前向和反向输入得到的结果特征图进行连接,得到Bi_CovLSTM的输出即时间特征图:
3.如权利要求1所述基于双向卷积时间自注意力机制的耕地提取方法,其特征在于,所述步骤5具体包括以下步骤:
步骤5.1、将步骤4得到的每一个时间序列下的输出特征表示成向量:
步骤5.2、通过线性矩阵变换为每个时间节点下的特征矩阵创建查询矩阵Q、索引矩阵K、值矩阵V,并创建Q和K矩阵组成的键值对;
Q=WQY
K=WKY
V=WVY
其中WQ,WK,WV分别代表不同的权重矩阵;
步骤5.3、利用得到的Q和K计算输入向量之间的相关性,也就是这两个向量之间attention的值α,计算方式采用点乘的方式,并经过softmax方式进行归一化,利用得到的α和V矩阵计算每个特征矩阵对应的self-attention层的输出矩阵:
其中dk表示Q和K矩阵的维度大小。
4.如权利要求1所述基于双向卷积时间自注意力机制的耕地提取方法,其特征在于,所述步骤6具体包括以下步骤:
步骤6.1、将步骤5中在最低分辨率下得到的注意力特征图作为解码器模块的输入,并对注意力特征图/>进行上采样,将每一层下的上采样结果/>与编码器中的相同分辨率下卷积模块的输出/>进行跳跃连接,并将该结果/>作为下一个上采样模块的输入,得到下一层的上采样结果/>
其中Covu4是上采样模块,采用双线性插值+卷积的方式完成尺度变换,将变换后的特征图与对应尺度下的编码器模块的输出结果进行连接;
步骤6.2、构建交叉熵损失函数评价图像分割的效果:
上式中y是真实标签值,正类值为1,负类值为0;为预测概率值,/>表示真实样本标签和预测概率之间的差异。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310720547.8A CN116844041A (zh) | 2023-06-16 | 2023-06-16 | 一种基于双向卷积时间自注意力机制的耕地提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310720547.8A CN116844041A (zh) | 2023-06-16 | 2023-06-16 | 一种基于双向卷积时间自注意力机制的耕地提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116844041A true CN116844041A (zh) | 2023-10-03 |
Family
ID=88164500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310720547.8A Pending CN116844041A (zh) | 2023-06-16 | 2023-06-16 | 一种基于双向卷积时间自注意力机制的耕地提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844041A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117096875A (zh) * | 2023-10-19 | 2023-11-21 | 国网江西省电力有限公司经济技术研究院 | 一种基于ST-Transformer模型的短期负荷预测方法及系统 |
CN117690165A (zh) * | 2024-02-02 | 2024-03-12 | 四川泓宝润业工程技术有限公司 | 一种钻杆与液压钳间人员穿行检测方法及装置 |
-
2023
- 2023-06-16 CN CN202310720547.8A patent/CN116844041A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117096875A (zh) * | 2023-10-19 | 2023-11-21 | 国网江西省电力有限公司经济技术研究院 | 一种基于ST-Transformer模型的短期负荷预测方法及系统 |
CN117096875B (zh) * | 2023-10-19 | 2024-03-12 | 国网江西省电力有限公司经济技术研究院 | 一种基于Spatio-Temporal Transformer模型的短期负荷预测方法及系统 |
CN117690165A (zh) * | 2024-02-02 | 2024-03-12 | 四川泓宝润业工程技术有限公司 | 一种钻杆与液压钳间人员穿行检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111612066B (zh) | 基于深度融合的卷积神经网络的遥感图像分类方法 | |
CN107506740B (zh) | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 | |
CN109492830B (zh) | 一种基于时空深度学习的移动污染源排放浓度预测方法 | |
CN109492822B (zh) | 空气污染物浓度时空域关联预测方法 | |
CN105512289B (zh) | 基于深度学习和哈希的图像检索方法 | |
CN116844041A (zh) | 一种基于双向卷积时间自注意力机制的耕地提取方法 | |
CN110570035B (zh) | 同时建模时空依赖性和每日流量相关性的人流量预测系统 | |
CN109886496B (zh) | 一种基于气象信息的农产量预测方法 | |
CN112949828A (zh) | 一种基于图学习的图卷积神经网络交通预测方法及系统 | |
CN113807318B (zh) | 一种基于双流卷积神经网络和双向gru的动作识别方法 | |
CN113011397B (zh) | 基于遥感图像4D-FractalNet的多因素蓝藻水华预测方法 | |
CN112560966B (zh) | 基于散射图卷积网络的极化sar图像分类方法、介质及设备 | |
CN111738074B (zh) | 基于弱监督学习的行人属性识别方法、系统及装置 | |
CN113705641A (zh) | 基于富上下文网络的高光谱图像分类方法 | |
CN112785066A (zh) | 基于卷积-递归神经网络的全球野火次季节时空预测方法 | |
CN114359631A (zh) | 基于编码-译码弱监督网络模型的目标分类与定位方法 | |
CN114662791A (zh) | 一种基于时空注意力的长时序pm2.5预测方法及系统 | |
CN114942951A (zh) | 一种基于ais数据的渔船捕鱼行为分析方法 | |
CN111242028A (zh) | 基于U-Net的遥感图像地物分割方法 | |
CN116306780B (zh) | 一种动态图链接生成方法 | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN117197632A (zh) | 一种基于Transformer的电镜花粉图像目标检测方法 | |
CN112200103A (zh) | 一种基于图注意力的视频分析系统和方法 | |
CN115953902A (zh) | 一种基于多视图时空图卷积网络的交通流预测方法 | |
CN116541767A (zh) | 一种基于图神经网络的多元温室环境参数预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |