CN116844041A

CN116844041A - 一种基于双向卷积时间自注意力机制的耕地提取方法

Info

Publication number: CN116844041A
Application number: CN202310720547.8A
Authority: CN
Inventors: 李世华; 常明会; 汪友平; 赵涛; 穆羽; 蒋晓静; 谢忠元; 胡月明
Original assignee: Land Consolidation Center Of Sichuan Province; University of Electronic Science and Technology of China
Current assignee: Land Consolidation Center Of Sichuan Province; University of Electronic Science and Technology of China
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-10-03

Abstract

本发明属于土地利用监测技术领域，具体为一种基于双向卷积时间自注意力机制的耕地提取方法。本发明首先，对时间序列下的每个原始图像的地块进行特征提取，将提取到的时间序列空间特征图像输送到双向卷积长短期记忆网络中进行时序特征提取，利用时间序列特征充分考虑到耕地作物生长随时间变化的趋势，提高了模型的准确性和鲁棒性；然后将提取到的时空特征送到自注意力模块，得到的原始时间特征通过自注意力模块，捕获长程的时间依赖性；再将上采样结果与编码器中具有相同分辨率的子模块的输出进行跳跃连接；最后将测试集数据输入到训练好的模型中，得到耕地地块的提取结果。本发明有效解决了当前耕地提取方法结果准确性低的问题。

Description

一种基于双向卷积时间自注意力机制的耕地提取方法

技术领域

本发明属于土地利用监测技术领域，尤其涉及一种基于双向卷积时间自注意力机制的耕地提取方法。

背景技术

随着全球人口的增长和城市化进程的加速，农业生产面临着越来越大的压力。作为重要的农业资源，耕地的保护和利用尤为重要。耕地提取是土地利用变化监测中的一个关键任务，它能够提供土地利用的空间分布信息，并且能够及时发现和解决耕地面积减少、荒漠化等问题。传统的耕地提取方法基于手工设计的特征和规则，其准确性和效率都受到很大限制。而近年来，深度学习在图像处理领域的成功应用，为耕地提取提供了一种新的思路。

在耕地作物地块提取中，时间序列特征可以反映不同耕作期作物的特征，如生长速度、形态、生理状态等，有利于提高作物分类的准确性。利用时间序列特征进行耕地地块提取，可以提高提取的准确性和稳定性，使得机器学习算法在耕地作物地块提取中更加有效。因此，基于时序的深度学习方法成为了耕地提取领域的研究热点。利用时序数据，结合卷积神经网络、循环神经网络等深度学习方法，能够更好地识别和分析耕地的时空变化特征，进而实现耕地提取任务。

然而，传统的深度学习模型并不能很好地处理时间序列数据。基于时空特征融合的耕地提取方法需要综合考虑时空特征，设计合适的特征提取算法和分类器，但是由于遥感影像的复杂性和时空变化的复杂性，算法的准确性难以保证。另一方面，需要处理大量的遥感影像数据，且需要将多期遥感数据进行配准和融合，以提高提取结果的准确性和稳定性。这些处理步骤需要使用复杂的图像处理算法和计算机视觉技术，处理过程相对复杂。

发明内容

针对上述存在问题或不足，为解决当前耕地提取方法对时间序列数据处理不佳导致结果准确性低的问题，本发明提供了一种基于双向卷积时间自注意力机制的耕地提取方法，利用遥感影像数据像素周围的空间上下文信息，建模时间序列数据中的长期依赖关系，更好地理解耕地的状态变化，从而有效提升耕地提取的准确性。

一种基于双向卷积时间自注意力机制的耕地提取方法，包括以下步骤：

步骤1、对原始耕地图像时序数据和对应的原始标签图像时序数据分别进行分块处理：设两种原始图像的高为h，宽为w，通道个数为c，时间序列长度为t，对于多个时间序列下的原始图像同时对每个时间序列下的图像按相同的随机值随机产生分块高度、宽度的起始像素值，且同一个图像下不同时间序列的分块划分方式保持一致，也就是产生的随机值对于一个时间序列下的多个图像是一致的，这样做保证了对同一个地块的时间序列特征进行学习。

因此构建的每一个地块下的数据特征为一个四维数组，以img_h为高，以img_w为宽，以c为通道，以t为时间序列划分出m个子像素序列其中每个像素序列X的大小为img_h×img_w×c×t，以X作为原始图像序列；每个标签序列Y的大小为img_h×img_w×c，为对应时间序列下地块的标签值。

将最终获得的分块原始耕地图像时序数据和对应的分块原始标签图像时序数据分别存放在集合src_set和label_set，作为后续深度学习的数据集；

步骤2、构造训练集和数据集，对src_set和label_set按照3:1:1的比例进行划分，分别构造训练集train_set，验证集val_set和测试集test_set；

步骤3、在U-net框架下构造基于双向卷积长短期记忆网络(Bi_CovLSTM)的时间自注意力机制模型。将训练集数据通过以U-net作为骨干网络的深度学习模型，提取不同尺度下图像的时空特征。空间尺度共有l个，在每个尺度i下得到序列空间特征图其维度大小h_i×w_i×c_i×t。

上式中，Cov(·)为卷积块函数，包括两层3×3的卷积层和ReLu激活函数，通过卷积层得到空间关系特征，Relu(·)为激活函数。

步骤4、提取原始时间特征：将步骤3中得到的特征图输入到Bi_CovLSTM模型中，生成时间特征图/>维度大小为h_i×w_i×c_i；

步骤5、将步骤4得到的时间特征图通过自注意力模块，捕获长程的时间依赖性，得到注意力特征图/>维度大小为h_i×w_i×c_i；

步骤6、将步骤5中在最低分辨率下得到的注意力特征图作为解码器模块的输入，并采用转置卷积进行多层上采样操作，将每层上采样得到的结果与编码器部分对应尺度下的自注意力特征图进行跳跃连接。至此得到训练好的模型。

步骤7、将测试集数据输入到步骤6所得训练好的模型中，完成耕地的分割。

进一步的，所述步骤4具体包括以下步骤：

步骤4.1、构造前向卷积长短期记忆网络CovLSTM。

LSTM是一种时间循环神经网络，采用门机制调节信息流，每一层单元结构包括输入门i_t、遗忘门f_t、和输出门o_t三种门结构，它们可以分别学习时间特征并能保持长短时间记忆。然而对时序图像序列，需要考虑到空间位置信息，而LSTM主要是针对时间序列进行处理，因此采用CovLSTM，用卷积层代替全连接层，能够更好地获取时空关系，并进行时空序列预测，具体公式如下所示：

上式为输入门公式，为前向输入门，其中σ是sigmoid激活函数，/>则代表的是时间序列图像的前向输入，/>是卷积操作，/>代表的是映射操作，b_i为输入门的偏置系数，W_xi为输入x到输入门的映射权重矩阵，W_hi为隐藏层h到i的映射权重矩阵，/>为上一时刻神经元的短时记忆，/>代表上一时刻神经元的细胞输出。

上式为遗忘门公式，为前向遗忘门，W_xf为输入x到遗忘门的映射权重矩阵，/>为前向输入，W_hf为隐藏层到遗忘门的映射权重矩阵，W_cf为细胞到遗忘门的映射权重矩阵，b_f为遗忘门的偏置系数。

上式为更新单元公式，为前向更新单元，W_xc为输入x到更新单元的映射权重矩阵，W_hc为隐藏层到更新单元的映射权重矩阵，tanh为激活函数，将一个实数输入映射到[-1,1]范围内，b_c为更新单元的偏置系数。

上式为输出门公式，为前向输出门，W_xo为输入x到输出门的映射权重矩阵，W_ho为隐藏层到输出门的映射权重矩阵，W_co为神经元细胞到输出门的映射权重矩阵，b_o为输出门的偏置系数。

上式为隐藏状态h_t公式，代表前向卷积网络的隐藏状态，对短时记忆信息更为敏感；/>代表前向卷积LSTM网络的细胞状态，用来表征长期记忆信息。

其中代表前向卷积长短期记忆网络CovLSTM在当前时刻得到的网络输出；/>则代表的是时间序列图像的前向输入，W、V表示权重矩阵，b为偏置系数。

步骤4.2、构建后向卷积长短期记忆网络CovLSTM，与步骤4.1类似，对时间序列图像的反向输入进行特征提取。

上式为输入门公式，为后向输入门，/>则代表的是时间序列图像的后向输入，为下一时刻神经元的短时记忆，/>代表下一时刻神经元的细胞输出。

上式为遗忘门公式，为后向遗忘门。

上式为更新单元公式，为后向更新单元。

上式为输出门公式，为后向输出门。

上式为隐藏状态h_t公式，代表后向卷积网络的隐藏状态，对短时记忆信息更为敏感；/>代表后向卷积LSTM网络的细胞状态，用来表征长期记忆信息。

将的前向输入序列/>输入到Bi_CovLSTM网络中，每一时刻下得到的网络输出为/>其中f表示经过每一层CovLSTM单元结构对上一时刻的输出和当前时刻的输入进行更新操作，W、V表示权重矩阵，b为偏置系数。

步骤4.3、双向卷积长短期记忆网络Bi_CovLSTM，将前向和反向输入得到的结果特征图进行连接，更好地获取图像在时间维度上的前后关系，得到Bi_CovLSTM的输出即时间特征图：

进一步的，所述步骤5具体包括以下步骤：

步骤5.1、将步骤4得到的每一个时间序列下的输出特征表示成向量：

步骤5.2、通过线性矩阵变换为每个时间节点下的特征矩阵创建查询矩阵Query(Q)、索引矩阵Key(K)、值矩阵Value(V)，并创建Q和K矩阵组成的键值对。

Q＝W_QY

K＝W_KY

V＝W_VY

其中W_Q,W_K,W_V分别代表不同的权重矩阵。

步骤5.3、利用得到的Q和K计算输入向量之间的相关性，也就是这两个向量之间attention的值α，计算方式采用点乘的方式，并经过softmax方式进行归一化，利用得到的α和V矩阵计算每个特征矩阵对应的self-attention层的输出矩阵：

其中d_k表示Q和K矩阵的维度大小，是为了防止得到attention值过大，导致输出矩阵稀疏。

进一步的，所述步骤6具体包括以下步骤：

步骤6.1、将步骤5中在最低分辨率下得到的注意力特征图作为解码器模块的输入，并对注意力特征图/>进行上采样，将每一层下的上采样结果/>与编码器中的相同分辨率下卷积模块的输出/>进行跳跃连接，并将该结果/>作为下一个上采样模块的输入，得到下一层的上采样结果/>

其中Cov_u4是上采样模块，采用双线性插值+卷积的方式完成尺度变换，将变换后的特征图与对应尺度下的编码器模块的输出结果进行连接。

步骤6.2、构建交叉熵损失函数评价图像分割的效果：

上式中y是真实标签值(正类值为1，负类值为0)；为预测概率值，/>表示真实样本标签和预测概率之间的差异。

本发明以U-net为骨干网络，协同双向卷积长短期记忆网络Bi_CovLSTM与自注意力机制进行耕地地块的时空特征提取与特征融合：首先，在编码器部分通过对原始耕地图像序列数据和对应的原始标签图像数据进行数据处理构建训练集与数据集，将其输送网络模型提取时间序列图像的空间特征图然后，将空间特征图/>输入到Bi_CovLSTM模型中进行时序特征提取，生成时间特征图/>之后将得到的原始时间特征通过自注意力模块，捕获长程的时间依赖性，得到/>最后，最低分辨率下得到的注意力特征图/>作为解码器模块的输入，并采用转置卷积进行多层上采样操作，将每层上采样得到的结果与编码器部分对应尺度下的自注意力特征图进行跳跃连接，作为解码器中下一个子模块的输入，输出耕地提取结果图。

综上所述，本发明充分利用了影像的时空分布特征，基于提出的双向卷积时间注意力机制下的网络框架进行了特征提取与特征融合，极大的提高了准确性和鲁棒性，有效解决了当前耕地提取方法结果准确性低的问题。

附图说明

图1为本发明的流程结构示意图；

图2为本发明的流程图；

图3为本发明实施例提供的双向卷积长短期记忆网络的结构示意图；

图4为本发明实施例提供的自注意力模块的结构示意图；

图5为实施例耕地提取结果图，其中白色部分代表耕地，黑色部分代表背景。

图6为实施例模型训练和验证过程中损失函数随训练过程的变化曲线图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

本实施例采用计算机软件实现自动运行流程，在python3.6的环境下，采用tensorflow框架实现模型的搭建和训练。

步骤1、对原始耕地图像时序数据和对应的原始标签图像时序数据分别进行分块处理：设两种原始图像的高为h，宽为w，通道个数为3，时间序列长度为10，对于多个时间序列下的原始图像同时对每个时间序列下的图像按相同的随机值随机产生分块高度、宽度的起始像素值，且同一个图像下不同时间序列的分块划分方式保持一致，也就是产生的随机值对于一个时间序列下的多个图像是一致的，这样做保证了对同一个地块的时间序列特征进行学习。

构建的每一个地块下的数据特征为一个四维数组，划分出m个地块序列其中每个地块序列X的大小为256×256×3×10，以此作为原始图像序列；每个标签序列Y的大小为256×256，为对应时间序列下地块的标签值。

将最终获得的两类分块数据分别构建集合src_set和label_set，作为后续深度学习的数据集。

步骤2、构造训练集和数据集，对src_set和label_set按照3：1：1的比例进行划分，分别构造训练集train_set,验证集val_set和测试集test_set。

步骤3、在U-net框架下构造基于双向卷积长短期记忆网络Bi_CovLSTM的时间自注意力机制模型。

将训练数据通过以U-net作为骨干网络的深度学习模型，提取不同尺度下图像的时空特征。空间尺度共有l个，在每个尺度i下得到序列空间特征图其维度大小分别为256×256×32×10，128×128×64×10，64×64×128×10，32×32×256×10，16×16×512×10。

步骤4、提取原始时间特征：将步骤3中得到的特征图输入到Bi_CovLSTM模型中，生成时间特征图/>其维度大小分别为256×256×32，128×128×64，64×64×128，32×32×256，16×16×512。

步骤4.1、构造前向卷积长短期记忆网络CovLSTM。对时序图像序列，需要考虑到空间位置信息，而LSTM主要是针对时间序列进行处理，因此采用CovLSTM，用卷积层代替全连接层，能够更好地获取时空关系，并进行时空序列预测，具体公式如下所示：

输入门公式：

遗忘门公式：

更新单元公式：

输出门公式：

隐藏状态h_t公式：

代表前向卷积长短期记忆网络CovLSTM在当前时刻得到的网络输出：

步骤4.2、构建后向卷积长短期记忆网络CovLSTM，对时间序列图像的反向输入进行特征提取。

输入门公式：

遗忘门公式：

更新单元公式：

输出门公式：

隐藏状态h_t公式：

将的前向输入序列/>输入到Bi_CovLSTM网络中，每一时刻下得到的网络输出为/>

步骤4.3、双向卷积长短期记忆网络Bi_CovLSTM将前向和反向输入得到的结果特征图进行连接，更好地获取图像在时间维度上的前后关系，得到Bi_CovLSTM的输出特征图：

步骤5、将步骤4得到的原始时间特征通过自注意力模块，捕获长程的时间依赖性，得到注意力特征图/>其维度大小分别为256×256×32，128×128×64，64×64×128，32×32×256，16×16×512。

步骤5.2、通过线性矩阵变换为每个时间节点下的特征矩阵创建查询矩阵Q、索引矩阵K、值矩阵V，并创建Q和K矩阵组成的键值对。

Q＝W_QY

K＝W_KY

V＝W_VY

步骤5.3、利用得到的Q和K采用点乘的方式计算attention的值α，并经过softmax方式进行归一化，利用得到的α和V矩阵计算每个特征矩阵对应的self-attention层的输出矩阵：

步骤6、将步骤5中在最低分辨率下得到的注意力特征图作为解码器模块的输入，并采用转置卷积进行多层上采样操作，将每层上采样得到的结果与编码器部分对应尺度下的自注意力特征图进行跳跃连接，至此得到训练好的模型。

步骤6.2、构建交叉熵损失函数评价图像分割的效果：

上式中y是真实标签值(正类值为1，负类值为0)；为预测概率值，/>表示真实样本标签和预测概率之间的差异。图6为实施例模型训练和验证过程中损失函数随训练过程的变化曲线图。

步骤7、将测试集数据输入到步骤6训练好的模型中，完成耕地的分割。

最后本实施例，选取精确率(Precision)、召回率(Recall)、F1分数(F1-Score)评价指标对本发明的模型分割结果进行定量评估：

其中TP表示真实标签为正例，预测结果为正例；FP表示真实标签为负例，预测结果为正例；FN表示真实标签为正例，预测结果为负例。

经过模型训练，最后本实施例模型下耕地提取的精确度、召回率、F1分数分别为90.21％，91.53％，88.76％。

通过以上实施例可见，本发明通过构建基于双向卷积时间注意力机制的U-net网络结构来提取耕地的时空特征信息，并对耕地地块进行分割。首先，对时间序列下的每个原始图像的地块进行特征提取，将提取到的时间序列空间特征图像输送到双向卷积长短期记忆网络Bi_CovLSTM中进行时序特征提取，利用时间序列特征充分考虑到耕地作物生长随时间变化的趋势，提高了模型的准确性和鲁棒性。然后将提取到的时空特征送到自注意力模块，得到的原始时间特征通过自注意力模块，捕获长程的时间依赖性。再将上采样结果与编码器中具有相同分辨率的子模块的输出进行跳跃连接，有效减少梯度消失和网络退化问题。采用与编码器类似的层层解码模块最终得到模型输出。最后将测试集数据输入到训练好的模型中，得到耕地地块的提取结果。本发明极大的提高了准确性和鲁棒性，有效解决了当前耕地提取方法结果准确性低的问题。

Claims

1.一种基于双向卷积时间自注意力机制的耕地提取方法，其特征在于，包括以下步骤：

步骤1、对原始耕地图像时序数据和对应的原始标签图像时序数据分别进行分块处理：

设两种原始图像的高为h，宽为w，通道个数为c，时间序列长度为t，对于多个时间序列下的原始图像同时对每个时间序列下的图像按相同的随机值随机产生分块高度、宽度的起始像素值，且同一个图像下不同时间序列的分块划分方式保持一致；

构建的每一个地块下的数据特征为一个四维数组，以img_h为高，以img_w为宽，以c为通道，以t为时间序列划分出m个子像素序列其中每个像素序列X的大小为img_h×img_w×c×t，以X作为原始图像序列；每个标签序列Y的大小为img_h×img_w×c，为对应时间序列下地块的标签值；

步骤3、在U-net框架下构造基于双向卷积长短期记忆网络Bi_CovLSTM的时间自注意力机制模型；

将训练集数据通过以U-net作为骨干网络的深度学习模型，提取不同尺度下图像的时空特征；空间尺度共有l个，在每个尺度i下得到序列空间特征图其维度大小h_i×w_i×c_i×t；

上式中，Cov(·)为卷积块函数，包括两层3×3的卷积层和ReLu激活函数，通过卷积层得到空间关系特征，Relu(·)为激活函数；

步骤6、将步骤5中在最低分辨率下得到的注意力特征图作为解码器模块的输入，并采用转置卷积进行多层上采样操作，将每层上采样得到的结果与编码器部分对应尺度下的自注意力特征图进行跳跃连接；至此得到训练好的模型；

2.如权利要求1所述基于双向卷积时间自注意力机制的耕地提取方法，其特征在于，所述步骤4具体包括以下步骤：

步骤4.1、构造前向卷积长短期记忆网络CovLSTM；

LSTM是一种时间循环神经网络，采用门机制调节信息流，每一层单元结构包括输入门i_t、遗忘门f_t、和输出门o_t三种门结构；采用CovLSTM，用卷积层代替全连接层，并进行时空序列预测，具体公式如下所示：

上式为输入门公式，为前向输入门，其中σ是sigmoid激活函数，/>则代表的是时间序列图像的前向输入，/>是卷积操作，/>代表的是映射操作，b_i为输入门的偏置系数，W_xi为输入x到输入门的映射权重矩阵，W_hi为隐藏层h到i的映射权重矩阵，/>为上一时刻神经元的短时记忆，/>代表上一时刻神经元的细胞输出；

上式为遗忘门公式，为前向遗忘门，W_xf为输入x到遗忘门的映射权重矩阵，/>为前向输入，W_hf为隐藏层到遗忘门的映射权重矩阵，W_cf为细胞到遗忘门的映射权重矩阵，b_f为遗忘门的偏置系数；

上式为更新单元公式，为前向更新单元，W_xc为输入x到更新单元的映射权重矩阵，W_hc为隐藏层到更新单元的映射权重矩阵，tanh为激活函数，将一个实数输入映射到[-1,1]范围内，b_c为更新单元的偏置系数；

上式为输出门公式，为前向输出门，W_xo为输入x到输出门的映射权重矩阵，W_ho为隐藏层到输出门的映射权重矩阵，W_co为神经元细胞到输出门的映射权重矩阵，b_o为输出门的偏置系数；

上式为隐藏状态h_t公式，代表前向卷积网络的隐藏状态，对短时记忆信息更为敏感；代表前向卷积LSTM网络的细胞状态，用来表征长期记忆信息；

其中代表前向卷积长短期记忆网络CovLSTM在当前时刻得到的网络输出；/>则代表的是时间序列图像的前向输入，W、V表示权重矩阵，b为偏置系数；

步骤4.2、构建后向卷积长短期记忆网络CovLSTM，对时间序列图像的反向输入进行特征提取；

上式为输入门公式，为后向输入门，/>则代表的是时间序列图像的后向输入，/>为下一时刻神经元的短时记忆，/>代表下一时刻神经元的细胞输出；

上式为遗忘门公式，为后向遗忘门；

上式为更新单元公式，为后向更新单元；

上式为输出门公式，为后向输出门；

上式为隐藏状态h_t公式，代表后向卷积网络的隐藏状态，对短时记忆信息更为敏感；代表后向卷积LSTM网络的细胞状态，用来表征长期记忆信息；

将的前向输入序列/>输入到Bi_CovLSTM网络中，每一时刻下得到的网络输出为/>其中f表示经过每一层CovLSTM单元结构对上一时刻的输出和当前时刻的输入进行更新操作，W、V表示权重矩阵，b为偏置系数；

步骤4.3、双向卷积长短期记忆网络Bi_CovLSTM将前向和反向输入得到的结果特征图进行连接，得到Bi_CovLSTM的输出即时间特征图：

3.如权利要求1所述基于双向卷积时间自注意力机制的耕地提取方法，其特征在于，所述步骤5具体包括以下步骤：

步骤5.2、通过线性矩阵变换为每个时间节点下的特征矩阵创建查询矩阵Q、索引矩阵K、值矩阵V，并创建Q和K矩阵组成的键值对；

Q＝W_QY

K＝W_KY

V＝W_VY

其中W_Q,W_K,W_V分别代表不同的权重矩阵；

其中d_k表示Q和K矩阵的维度大小。

4.如权利要求1所述基于双向卷积时间自注意力机制的耕地提取方法，其特征在于，所述步骤6具体包括以下步骤：

其中Cov_u4是上采样模块，采用双线性插值+卷积的方式完成尺度变换，将变换后的特征图与对应尺度下的编码器模块的输出结果进行连接；

步骤6.2、构建交叉熵损失函数评价图像分割的效果：

上式中y是真实标签值，正类值为1，负类值为0；为预测概率值，/>表示真实样本标签和预测概率之间的差异。