CN115829162A

CN115829162A - 作物产量预测方法、装置、电子设备及介质

Info

Publication number: CN115829162A
Application number: CN202310043479.6A
Authority: CN
Inventors: 杨锋; 王开义; 刘忠强; 张东峰; 韩焱云; 张秋思; 张祺
Original assignee: Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Current assignee: Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Priority date: 2023-01-29
Filing date: 2023-01-29
Publication date: 2023-03-21
Anticipated expiration: 2043-01-29
Also published as: CN115829162B

Abstract

本发明提供了一种作物产量预测方法、装置、电子设备及介质，涉及产量预测技术领域，包括：归一化处理待预测作物原始数据，获取待预测作物特征数据；输入待预测作物特征数据至作物产量预测模型，获取作物产量预测模型输出的产量预测数据；作物产量预测模型是根据所有具备完整维度特征的样本数据训练得到的；所述具备完整维度特征的样本数据是根据生成对抗网络对图网络中节点缺失的缺失维度特征进行数据插补后确定的。本发明利用不同种植地点的不同作物数据之间存在强相关性这一特点，为缺失维度特征的数据插补提供线索依据，进而优化作物产量预测模型，即使在某些作物性状缺失的情况下也能准确预测作物产量，进而提高作物产量预测精度。

Description

作物产量预测方法、装置、电子设备及介质

技术领域

本发明涉及产量预测技术领域，尤其涉及一种作物产量预测方法、装置、电子设备及介质。

背景技术

作物产量预测对粮食供应链、农业保险、农业政策制定具有重要意义，作物产量预测任务异常复杂，其原因在于产量取决于多种因素，如气象环境、土壤质量、作物本身的性状及其相互作用。目前的预测模型主要是基于作物生长的独立的气象环境，忽略了不同地点之间的气象环境空间相关性及其相互影响，且作物种植数据中的数据缺失问题严重影响作物产量预测的准确性。

发明内容

本发明提供一种作物产量预测方法、装置、电子设备及介质，用以解决现有作物产量预测不够准确的技术问题，本发明通过图网络建立不同种植地点的空间相关性，以填补缺失的性状属性，并实现收获前作物产量的精准预测。

第一方面，本发明提供了一种作物产量预测方法，包括：

归一化处理待预测作物原始数据，获取待预测作物特征数据；

输入所述待预测作物特征数据至作物产量预测模型，获取所述作物产量预测模型输出的产量预测数据；

所述作物产量预测模型是根据所有具备完整维度特征的样本数据训练得到的；

所述具备完整维度特征的样本数据是根据生成对抗网络对图网络中节点缺失的缺失维度特征进行数据插补后确定的；

所述图网络是将所有具备原始维度特征的样本数据的各个维度特征作为节点特征而构建的；

所述所有具备原始维度特征的样本数据至少包括缺失维度特征的样本数据。

根据本发明提供的作物产量预测方法，归一化处理待预测作物原始数据，获取待预测作物特征数据，包括：

获取每一待预测作物原始数据中的所有性状数据以及所有气象数据，计算每一气象数据的平均值以及方差；

将每一性状数据、每一气象数据的平均值和方差作为维度特征，计算每一维度特征与作物产量间的皮尔逊相关系数，并按照皮尔逊相关系数从高至低的顺序对所有维度特征进行排序，获取排序后维度特征；

归一化处理所述排序后维度特征，获取待预测作物特征数据；

所述气象数据包括日最高气温、日平均气温、日最低气温、日温差、日平均地面气压、日平均相对湿度、日降水量、日平均风速、日最大风速、日风力等级以及日日照时数；

所述性状数据包括品种类型、株型、穗型、持绿性、幼苗叶鞘色、轴色，穗腐病、大斑病、灰斑病，株高、穗位高、空杆率、穗长、秃尖长、行粒数、穗柄长度、穗粗以及生育期；

所述待预测作物特征数据包括株型维度特征、穗型维度特征、持绿性维度特征、幼苗叶鞘色维度特征、轴色维度特征、穗腐病维度特征、大斑病维度特征、灰斑病维度特征、株高维度特征、穗位高维度特征、空杆率维度特征、穗长维度特征、秃尖长维度特征、行粒数维度特征、穗柄长度维度特征、穗粗维度特征、生育期维度特征、日最高气温平均值维度特征、日最高气温方差维度特征、日平均气温平均值维度特征、日平均气温方差维度特征、日最低气温平均值维度特征、日最低气温方差维度特征、日温差平均值维度特征、日温差方差维度特征、日平均地面气压平均值维度特征、日平均地面气压方差维度特征、日平均相对湿度平均值维度特征、日平均相对湿度方差维度特征、日降水量平均值维度特征、日降水量方差维度特征、日平均风速平均值维度特征、日平均风速方差维度特征、日最大风速平均值维度特征、日最大风速方差维度特征、日风力等级平均值维度特征、日风力等级方差维度特征、日日照时数平均值维度特征以及日日照时数方差维度特征。

根据本发明提供的作物产量预测方法，在输入所述待预测作物特征数据至作物产量预测模型，获取所述作物产量预测模型输出的产量预测数据之前，还包括：

将所有具备原始维度特征的样本数据的各个维度特征作为所有样本数据的节点特征，根据所有样本数据的节点特征构建图网络；

根据生成对抗网络对图网络中节点缺失的缺失维度特征进行数据插补，获取所有具备完整维度特征的样本数据；

根据所有具备完整维度特征的样本数据以及每一样本数据所对应的样本产量进行训练，获取作物产量预测模型；

所述缺失维度特征包括灰斑病维度特征、穗腐病维度特征、大斑病维度特征、轴色维度特征、品种类型维度特征、持绿性维度特征、穗型维度特征、穗长维度特征、秃尖长维度特征、穗粗维度特征、空杆率维度特征以及穗柄长度维度特征中的至少一种。

根据本发明提供的作物产量预测方法，所述根据所有样本数据的节点特征构建图网络，包括：

计算任意两个样本数据间节点特征的余弦距离；

将余弦距离大于预设数值的两个样本数据确定为关联节点对；

以所有样本数据作为节点、以所有关联节点对的连接作为边，构建所述图网络。

根据本发明提供的作物产量预测方法，所述根据生成对抗网络对图网络中节点缺失的缺失维度特征进行数据插补，包括：

输入所述图网络中节点缺失的缺失维度特征至所述生成对抗网络，根据所述生成对抗网络的网络结构以及属性的联合分布，获取生成对抗网络输出的存在特征缺失的节点所对应的插补特征；

根据所述插补特征更新样本数据，获取所有具备完整维度特征的样本数据。

根据本发明提供的作物产量预测方法，所述作物产量预测模型为图注意力网络模型；

所述输入所述待预测作物特征数据至作物产量预测模型，获取所述作物产量预测模型输出的产量预测数据，包括：

所述图注意力网络模型由一个多头图注意力网络层、一个单头图注意力网络层和全连接层构成，将所述待预测作物特征数据作为待预测节点特征输入至图注意力网络模型，依次经过多头图注意力网络层、单头图注意力网络层、全连接层，最终获取所述图注意力网络模型输出的产量预测数据。

根据本发明提供的作物产量预测方法，所述依次经过多头图注意力网络层、单头图注意力网络层、全连接层，最终获取所述图注意力网络模型输出的产量预测数据，包括：

将所述图网络中每一节点的完整维度特征作为节点初始特征嵌入向量，计算每个节点与其所有邻居节点的注意力系数并作为节点受邻居节点影响的权重，根据权重加权求和计算特征变换后的节点特征向量；

根据所述全连接层以及所述变换后的节点特征向量获取所述产量预测数据。

根据本发明提供的作物产量预测方法，所述根据所有具备完整维度特征的样本数据以及每一样本数据所对应的样本产量进行训练，获取作物产量预测模型，包括：

根据预设划分策略划分所述所有具备完整维度特征的样本数据，确定测试样本数据以及训练样本数据；

根据测试样本数据以及每一测试样本数据所对应的测试样本产量确定测试集，根据训练样本数据以及每一训练样本数据所对应的训练样本产量确定训练集；

根据所述训练集进行模型训练，获取作物产量预测模型；

所述预设划分策略包括：

将缺失维度特征的特征数量大于预设数量的样本数据确定为测试样本数据，将缺失维度特征的特征数量小于或等于预设数量的样本数据确定为训练样本数据；

或，根据预设比例划分所述样本数据，确定测试样本数据以及训练样本数据。

第二方面，提供了一种作物产量预测装置，包括：

获取单元：用于归一化处理待预测作物原始数据，获取待预测作物特征数据；

输入单元：用于输入所述待预测作物特征数据至作物产量预测模型，获取所述作物产量预测模型输出的产量预测数据；

第三方面，还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的作物产量预测方法。

第四方面，还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的作物产量预测方法。

本发明有益效果为：本发明提供了一种作物产量预测方法、装置、电子设备及介质，本发明首先根据所有样本数据的节点特征构建图网络，然后根据生成对抗网络对图网络中节点缺失的缺失维度特征进行数据插补，获取所有具备完整维度特征的样本数据，并根据所有具备完整维度特征的样本数据构建作物产量预测模型，以使得在将待预测作物特征数据输入至作物产量预测模型的情况下，获取产量预测数据，本发明利用不同种植地点的不同作物数据之间存在强相关性这一特点，为缺失维度特征的数据插补提供线索依据，进而优化作物产量预测模型，即使在某些作物性状缺失的情况下也能准确预测作物产量，进而提高作物产量预测精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的作物产量预测方法的流程示意图之一；

图2是本发明提供的获取待预测作物特征数据的流程示意图；

图3是本发明提供的作物产量预测方法的流程示意图之二；

图4是本发明提供的构建图网络的流程示意图；

图5是本发明提供的对图网络中节点缺失的缺失维度特征进行数据插补的流程示意图；

图6是本发明提供的获取作物产量预测模型的流程示意图；

图7是本发明提供的基于图神经网络的作物产量预测框架图；

图8是本发明提供的用于填充缺失维度特征的框架图；

图9是本发明提供的基于图卷积网络的作物产量预测框架图；

图10是本发明提供的基于图注意力网络的作物产量预测框架图；

图11是本发明提供的作物产量预测装置的结构示意图；

图12是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

产量预测是实现可持续集约化和充分利用自然资源的重要途径，然而气候变化给全球粮食安全带来了巨大隐患，及早预测作物产量对于确保全球粮食安全至关重要。

目前，作物产量预测方法主要有三种，即基于调查的方法、基于过程的物理作物方法和基于过程的统计方法：基于调查的方法主要是基于种植者的种植报告和客观测量来推断作物产量，这些方法大多受到资源限制、可靠性问题和效率低下的困扰；基于过程的物理作物方法通常使用作物参数、养分循环、土壤植物动态、水分平衡或作物基因作为输入来模拟作物的生长和发育。这些方法可以描述作物生长，而不考虑空间和时间限制，然而大多数包含复杂的校准步骤，不容易转移到大规模复杂场景。基于过程的统计方法通过建立产量驱动因素与历史产量记录之间的经验关系来进行产量估算，而不依赖作物的具体参数，统计模型为作物产量提供了合理的解释，但这些方法通常无法了解在相似的空间和时间条件下作物产量的自然相关性。

为了解决上述技术问题，本发明提供了一种作物产量预测方法、装置、电子设备及介质，图1是本发明提供的作物产量预测方法的流程示意图之一，提供了一种作物产量预测方法，包括：

在步骤101中，所述待预测作物原始数据为文本特征数据，本发明首先需要将文本特征数据转换为数字标签数据，以玉米为例，如下表所示：

；

上表描述了玉米文本特征到数字标签的转换过程，在将气象特征和性状特征输入图神经网络进行产量预测之前，有必要对每个维度的气象特征和特征进行重新排序，并对这些特征进行归一化，每个维度特征的大小有很大差异，不同维度之间的差异往往会干扰网络的梯度下降率，在将数据输入到图神经网络进行训练之前，基于零均值归一化方法处理每个维度特征。

在步骤102中，输入所述待预测作物特征数据至作物产量预测模型，获取所述作物产量预测模型输出的产量预测数据，在输入所述待预测作物特征数据至作物产量预测模型之前，首先需要训练作物产量预测模型，并对所述作物产量预测模型进行优化，具体地，根据所有具备完整维度特征的样本数据训练得到所述作物产量预测模型，所述具备完整维度特征的样本数据是根据生成对抗网络对图网络中节点缺失的缺失维度特征进行数据插补后确定的，所述图网络是将所有具备原始维度特征的样本数据的各个维度特征作为节点特征而构建的，所述所有具备原始维度特征的样本数据至少包括缺失维度特征的样本数据。

本领域技术人员理解，田间作物生长试验中缺少品种性状观测数据是一个普遍存在的问题，大多数当前产量预测方法没有考虑特征缺失数据对产量预测的负面影响。此外，作物育种和品种评价试验性状观测数据往往不平衡。这种数据的不平衡可能是完全随机的，也可能是非随机的。有两种常见情况会导致数据的缺失：首先，非人为因素，如暴雨等自然灾害；其次，人为因素，如一些试验地点的种子不足、作物生长受到人为迫害以及数据收集人员的工作失误。

在分析数据之前处理缺失维度特征很重要，因为忽略缺失维度特征可能会导致错误的分析，如果直接删除缺失维度特征所对应的数据，将减少作物种植数据量，从而降低作物产量预测的鲁棒性。如果选择了不正确的数据插补方法，则相当于给作物特征添加了噪声，这将干扰产量预测模型。当前的数据插补方法很少利用数据的整体结构信息，这使得很难有效地探索不同属性之间的相关性。事实上，来自不同种植地点的不同作物数据之间存在着很强的相关性，这种潜在的相关性可以为填补缺失的品种性状提供线索。

本发明通过收集分布于各试验地点的作物种植数据，构建时空图来表达不同地点作物种植数据之间的相关性，并根据图的结构特征和图中每个节点的属性特征之间潜在的空间关系，基于图神经网络（Graph Neural Network，GNN）和对抗策略生成节点特征的分布，并生成新数据填充缺失的属性，最后基于填充的节点属性和GNN模型来预测作物产量。

可选地，所述作物产量预测模型为图卷积网络模型；

输入所述待预测作物特征数据至所述图卷积网络模型的图卷积网络层，获取更新后待预测作物特征数据；

输入所述更新后待预测作物特征数据至所述图卷积网络模型的全连接层，获取所述全连接层输出的产量预测数据。

如图9所示，图9是本发明提供的基于图卷积网络的作物产量预测框架图，其中，

为节点，W为权重，Y为产量，GCN为图卷积网络，Linear为线性函数，实线圆框内节点为训练集，虚线圆框内节点为测试集，实线圆框与虚线圆框共同组成了图结构作为输入图，并将其输入至五个GCN层和一个全连接层，基于图卷积神经网络更新节点特征，并最终输出图。

作为一个可选实施例，图卷积神经网络通过来自相邻节点的特征信息和连接节点之间的拓扑关系来更新目标节点的特征，每个相邻节点对目标节点的影响程度相同，这意味着与预测产量所需数据相关的每个数据对预测结果的影响相同。节点下方的数字表示节点的特征尺寸，基于图卷积网络的作物产量预测的流程可写成：

（1）

式（1）中，

表示GCN层数，

表示邻接矩阵，

表示图的度矩阵，

表示用于学习的权重参数，

表示激活函数，

为节点特征矩阵。图9中的网络由五个GCN层和一个全连接层组成，每个方框下的数字表示每个层之后的节点维度变化，全连接层将更新的节点特征转换为作物产量预测结果。可选地，本发明可以使用L1损失函数进行反向传播，使训练集的真实产量和预测产量之间的绝对差值之和最小化。可选地，初始学习率为0.005，训练轮数为2000，在第400、800、1200和1600个阶段，学习率降低到原来的一半。

作为本发明的一个优选实施例，本发明将训练集和测试集构建为基于特征相似度的图，每个数据表示图中的一个节点，其中不同节点分别表示训练集以及测试集，节点下的数字表示节点特征的维度，所述作物产量预测模型为图注意力网络模型；

图神经网络GNN是挖掘不同数据之间高阶关联的有效模型，在各种预测任务中取得了优异的结果。为了在收获前几周准确预测作物产量，本发明提出了一种基于图神经网络GNN的作物产量预测方法，通过探讨了在气象或作物性状特征数据存在缺失情况的产量预测问题，并基于对抗策略填充了含有缺失特征的作物数据。此外，本申请基于GNN建立在不同时间不同试验地点的所有玉米种植数据之间的空间关系，以预测作物产量，所述图注意力网络（Graph Attention Networks，GAT）模型作为一种图神经网络，能够准确的进行作物产量预测。

本领域技术人员理解，在图结构中，每组相邻作物种植点的特征和产量对目标数据的作物产量预测结果有不同的影响，因此不同相邻节点和目标节点之间的权重应该具有可变性。根据图注意力网络的启发，图10是本发明提供的基于图注意力网络的作物产量预测框架图，

为节点，W为权重，Y为产量，GAT为图注意力网络，Linear为线性函数，在输入图以及输出图中，实线圆框内节点为训练集，虚线圆框内节点为测试集，如图10所示，本发明通过构建包含两层GAT网络的作物产量预测模型，所述作物产量预测模型可以自适应地为不同的相邻节点分配不同的权重。本发明首先通过多头GAT层向每个相邻节点分配不同的权重，然后通过单头GAT层再次更新权重参数和节点特征，最后通过全连接层计算作物产量。多头GAT可以被看作是由不同的单头GAT层输出的节点特征的堆叠操作，第1个单头GAT层中节点

对节点

的影响权重，计算如下：

（2）

式（2）中，

表示激活函数，

表示可学习权重参数，

表示目标的相邻节点的集合，并且

表示堆叠操作，GAT层的L个头首先独立地变换为式（2），然后将它们的特征堆叠起来，得到以下输出特征表示：

（3）

在图10中，

为节点

对节点

的影响权重，

表示GCN层数，

为头数，

表示激活函数，多头GAT包含两个头部，每个头部为每个节点输出128维特征向量，因此，双头GAT通过堆叠操作生成维度特征，然后在单头GAT层和完全连接层之后输出作物产量预测结果，基于GAT的网络中的学习速率和学习迭代次数与基于GCN的网络相同。

本领域技术人员理解，准确进行作物产量预测对农业生产至关重要，现有机器学习模型只能在特定的空间域上工作，并且需要高数据完整性，严重限制了模型的应用。而本发明通过属性估算模型学习数据结构和数据属性的联合分布，从而生成最接近真实生长条件的作物性状。可选地，本发明中的产量预测模型使用气象特征和作物性状特征来预测作物产量，而不受特定空间维度的限制，基于GNN模型建立了不同种植地点之间的时空相关性，其预测精度高于其他机器学习模型。

本发明提供了一种作物产量预测方法、装置、电子设备及介质，本发明首先根据所有样本数据的节点特征构建图网络，然后根据生成对抗网络对图网络中节点缺失的缺失维度特征进行数据插补，获取所有具备完整维度特征的样本数据，并根据所有具备完整维度特征的样本数据构建作物产量预测模型，以使得在将待预测作物特征数据输入至作物产量预测模型的情况下，获取产量预测数据，本发明利用不同种植地点的不同作物数据之间存在强相关性这一特点，为缺失维度特征的数据插补提供线索依据，进而优化作物产量预测模型，即使在某些作物性状缺失的情况下也能准确预测作物产量，进而提高作物产量预测精度。

图2是本发明提供的获取待预测作物特征数据的流程示意图，归一化处理待预测作物原始数据，获取待预测作物特征数据，包括：

在步骤1011中，获取每一待预测作物原始数据中的所有性状数据以及所有气象数据，计算每一气象数据的平均值以及方差，气象数据共有11个维度，包括日最高气温、日平均气温、日最低气温、日温差、日平均地面气压、日平均相对湿度、日降水量、日平均风速、日最大风速、日风力等级和日日照时数，其中，作物种植数据记录作物的种植日期、成熟日期和县级种植地点，作物的生长周期从播种日开始，到成熟日结束。为了获得作物气象特征，本发明提取相应在生长周期内每天的气象数据，然后计算各组的平均值和方差，平均值用于描述每个气象特征的平均水平，方差用于描述作物生长周期中每个气象特征每天的变化量。在这个计算过程之后，每一维气象数据被扩展为平均值和方差，原始的11维气象特征被扩展到22维。此外，作物生长周期和极端炎热天气期间的平均日温度积累也是影响作物产量的重要因素，可分别根据日平均温度和最高日温度进行计算。极热天数代表作物生长周期中最高温度高于35°C的天数。气象特征有22个维度，分别为日最高气温平均值维度特征、日最高气温方差维度特征、日平均气温平均值维度特征、日平均气温方差维度特征、日最低气温平均值维度特征、日最低气温方差维度特征、日温差平均值维度特征、日温差方差维度特征、日平均地面气压平均值维度特征、日平均地面气压方差维度特征、日平均相对湿度平均值维度特征、日平均相对湿度方差维度特征、日降水量平均值维度特征、日降水量方差维度特征、日平均风速平均值维度特征、日平均风速方差维度特征、日最大风速平均值维度特征、日最大风速方差维度特征、日风力等级平均值维度特征、日风力等级方差维度特征、日日照时数平均值维度特征以及日日照时数方差维度特征。

可选地，作物性状记录了关键特征、病害虫和以及性状表现，每组特征具有18个维度，主要特征包括：品种类型、株型、穗型、持绿性、幼苗叶鞘色、轴色；害虫和疾病暴露包括：穗腐病、大斑病、灰斑病，它们的指标被分类为0-9，0代表该组中没有患病的植物，9代表最严重的害虫和疾病；成熟期的性状表现包括：株高、穗位高、空杆率、穗长、秃尖长、行粒数、穗柄长度、穗粗、生育期，所有性状数据包括株型维度特征、穗型维度特征、持绿性维度特征、幼苗叶鞘色维度特征、轴色维度特征、穗腐病维度特征、大斑病维度特征、灰斑病维度特征、株高维度特征、穗位高维度特征、空杆率维度特征、穗长维度特征、秃尖长维度特征、行粒数维度特征、穗柄长度维度特征、穗粗维度特征以及生育期维度特征。

具体地，作物生长环境中的温度、降水、土壤质量和湿度等气象因素将共同影响作物产量，特别是极端天气对作物产量的影响更为显著。例如，极端高温可能会大幅降低作物产量，尤其是在关键生长阶段。玉米的极端高温阈值被确定为36.06°C。干旱和洪水也会显著降低作物产量。例如，极端干旱干扰玉米根系生长，洪水和强降雨直接破坏农田。所有上述因素都会导致玉米产量显著下降。同时，玉米性状特征也可以反映玉米产量。例如，行粒数是影响夏季玉米产量的主要因素，穗长是影响玉米小区产量的主要因素，长穗和粗穗产量较高，而短穗和细穗产量一般较低。

在步骤1012中，将每一性状数据、每一气象数据的平均值和方差作为维度特征，计算每一维度特征与作物产量间的皮尔逊相关系数，并按照皮尔逊相关系数从高至低的顺序对所有维度特征进行排序，获取排序后维度特征，在将气象特征和性状特征输入图神经网络进行数据插补和产量预测之前，有必要对每个维度的气象特征和特征进行重新排序，并对这些特征进行归一化。

可选地，所述维度特征由气象特征和性状特征组成，其被拼接成40个维度。基于皮尔逊的相关系数计算40维特征与作物产量之间的相关性，皮尔逊的相关性系数被广泛用于衡量两个变量之间的相关性程度，根据从最高到最低的相关性对所有维度特征的每个维度重新排序。该过程根据属性对作物产量影响的重要性更新属性的顺序，并为后续基于GNN的作物产量预测提供先验条件。

在步骤1013中，归一化处理所述排序后维度特征，获取待预测作物特征数据，所有维度特征进行排序后的每个维度特征的大小有很大差异。例如，有效积温取值范围为2000-4000°C，而秃尖长取值范围为0.1-7cm。不同维度之间的差异往往会干扰网络的梯度下降率。因此，在将数据输入到图神经网络之前，基于零均值归一化方法处理每个维度特征，可表示为：

（4）

式（4）中，

表示平均值，

表示标准差，

为排序后维度特征，

为待预测作物特征数据，这个过程将所有数据转换为正态分布，并加快网络的收敛速度，转换后的特征将用于产量预测。

图3是本发明提供的作物产量预测方法的流程示意图之二，在输入所述待预测作物特征数据至作物产量预测模型，获取所述作物产量预测模型输出的产量预测数据之前，还包括：

在步骤201中，将所有具备原始维度特征的样本数据的各个维度特征作为所有样本数据的节点特征，根据所有样本数据的节点特征构建图网络。

由于温度、光照和风速等环境因素的差异，作物在不同地区的分布不均，以玉米为例，玉米品种试验点主要位于东北地区、北部地区和西南地区，以使得试验数据覆盖所有主要的作物试验场，根据玉米种植分布，本发明的样本数据来自8个生态区，即东北中晚熟春玉米区、黄淮海夏玉米区、北方极早熟春玉米区、西南春玉米区、东北中熟春玉米区、东华北中早熟春玉米区、东南春玉米区和京津冀早熟夏玉米区。在产量数据采集阶段，本发明采集数据来自2017年至2021的县域试验点历史产量记录。每个试验点作物在同一天种植、同一天收获，每个品种有三组试验。该数据集共记录了13000组作物生长期间的多维性状特征和收获时的产量值。具体而言，所有作物产量均以“千克/亩”为单位进行测量。

在气象特征和作物性状特征收集阶段，气象数据共有10个维度，包括日最高气温、日平均气温、日最低气温、日温差、日平均地面气压、日平均相对湿度、日降水量、日平均风速、日最大风速、日风力等级和日日照时数，将原始的11维气象特征被扩展到22维，用

表示，其中

表示数据数量，

。作物性状记录了关键特征、病害虫和以及性状表现，每组特征具有18个维度，用

表示。

在将气象特征和性状特征进行数据插补之前，对每组样本数据中各维度的气象特征和特征进行重新排序，并对这些特征进行归一化。第

组作物特征由气象特征

和性状特征

组成，它们被拼接成40个维度，表示为

，根据

从最高到最低的相关性对

的每个维度重新排序，表示为

，

中每个维度特征的大小有很大差异，不同维度之间的差异往往会干扰网络的梯度下降率，基于零均值归一化方法处理每个维度特征，转换后的特征表示为

，用于插补属性缺失的作物性状特征。

本领域技术人员理解，不同作物种植区的作物品种、土壤条件和气候环境之间存在空间相关性，纬度和经度相近的地区具有相近的气候特征，作物产量具有很强的空间相关性。例如，东北区域普遍种植春作物，黄淮海地区普遍种植夏作物。事实上，一个作物某年在一个种植点收获颇丰，其相邻种植点在同一年内的产量也会较高。而在没有极端天气的情况下，同一种植点的作物产量在几年内也差不多。基于上述依据，不同作物种植点之间的时空相关性可以通过图结构来建立，当需要对作物种植地点进行预测时，基于GNN的模型可以将具有相似特征的其他节点的特征与其自身特征相结合，以提高预测能力，本发明的作物产量预测可以分为两个阶段，包括插补属性缺失的作物性状数据和利用图神经网络预测作物产量。

图7是本发明提供的基于图神经网络的作物产量预测框架图，如图7所示，在作物特征数据补全中，左侧虚线框中为存在缺失特征的作物特征数据图网络，将其分别输入至属性特征生成器、属性特征判别器，以及结构特征生成器、结构特征判别器，补全缺失特征的作物特征数据图网络。在基于图神经网络的作物产量预测中，将补全缺失特征的作物特征数据图网络进一步地输入至隐藏层，最终获取作物产量预测结果。本发明将来自不同时间和地点的作物种植数据，即将气象特征和性状特征转换为时空图，然后将作物产量预测问题转换为基于图神经网络的回归问题。具体而言，将预设历史年间的预设数量组的多维作物特征转换为时空图，每组作物特征包含40个维度，40维特征被用作时空图的节点特征。

可选地，所述预设数量组为13000组，则时空图总共包含13000个节点，图边用于连接具有较高特征相似度的节点，每个节点都有

条边，即每个节点都连接到与其特征最相似的其他

个节点。事实上，具有相似气候特征和性状特征的不同地区具有相似的产量，因此可以通过时空图和图神经网络来挖掘不同地区作物产量的相关性。

可选地，图神经网络GNN是一个用于处理图结构化数据的深度学习框架，它基于节点自身的特征及其邻居的特征生成新的节点特征。对于图

，其中，节点

与初始节点特征嵌入相关联，并且边

表示出了成对节点之间的关系

。图神经网络模型包含多个层，每一层都学习通过聚集来自节点和邻居的信息来更新节点和邻居的特征向量。R层GNN可以从节点的R跳邻居学习嵌入的新节点，并且学习多跳内的相邻节点的特征有利于捕获图结构的全局信息。本发明所构建的多层GNN可以学习不同作物种植数据之间的高阶相关性，更新每个数据的气象特征和性状特征，并准确预测作物产量。

在步骤202中，根据生成对抗网络对图网络中节点缺失的缺失维度特征进行数据插补，获取所有具备完整维度特征的样本数据。

可选地，作物生长数据缺失的常见形式包括随机缺失和非随机缺失，随机缺失主要是由试验者的记录错误造成的；非随机缺失主要是由于不同性状位点之间不同数据记录方式的差异造成的。例如，在Z省的一些试验点，玉米花丝颜色是重点关注的特征之一，然而在Y省的试验点的育种人员认为，花丝颜色与作物产量无关，因此这些试验点的所有数据都没有记录花丝颜色。非随机缺失的数据会导致信息的大量丢失，降低数据的可信度，因此选择合适的方法来填充缺失的作物性状特征对于作物产量预测非常重要。

可选地，本发明所采集的样本数据包含13000组共计40维作物特征，其中12维特征面临特征缺失问题，所述缺失维度特征包括灰斑病维度特征、穗腐病维度特征、大斑病维度特征、轴色维度特征、品种类型维度特征、持绿性维度特征、穗型维度特征、穗长维度特征、秃尖长维度特征、穗粗维度特征、空杆率维度特征以及穗柄长度维度特征中的至少一种。基于其他28维特征的相似性，本发明为13000组数据构建了一个包含13000个节点的图，而最终形成不缺少缺失维度特征的完整样本数据。

具体地，而图网络中的相邻节点相似，代表这些试验地点的气象特征和作物性状特征相似，因此，图结构包含13000组作物特征之间的高阶相关性。在本发明中，可以从图结构中获得填补属性缺失的作物性状的关键线索，图结构和图属性是来自两种不同分布的两种资源，假设图结构和属性彼此相关，并且来自相同的潜在分布空间，对抗学习机制可以从图结构和相同的潜在空间生成新的属性值，以填充缺失的属性。

在步骤203中，根据所有具备完整维度特征的样本数据以及每一样本数据所对应的样本产量进行训练，获取作物产量预测模型，本领域技术人员理解，传统作物产量预测方法基于机器学习或深度学习模型，以构建多个非线性映射函数，学习权重参数，并独立学习每组样本特征与作物产量之间的关联，但这些方法没有考虑每组作物数据之间的时空关联，不同地区和不同种植环境中作物生长状态的可变性往往会降低常见作物产量预测模型的学习性能，从而导致可传递性较差。本发明不仅基于气象特征和作物性状特征预测作物产量，还提出了一种基于图神经网络的作物产量预测网络模型，该网络模型基于图数据结构建立全国种植点之间的时空相关性。

图4是本发明提供的构建图网络的流程示意图，所述根据所有样本数据的节点特征构建图网络，包括：

计算任意两个样本数据间节点特征的余弦距离；

在步骤2011中，本发明将节点特征的余弦距离作为图网络的边，并根据对应的源节点和目标节点来构造图网络，具体地，计算任意两个样本数据间节点特征的余弦距离。

在步骤2012中，将余弦距离大于预设数值的两个样本数据确定为关联节点对，图边用于连接具有较高特征相似度的节点，每个节点都有多条边，即每个节点都连接到与其特征最相似的其他多个节点。

在步骤2013中，以所有样本数据作为节点、以所有关联节点对的连接作为边，构建所述图网络，本发明以所有样本数据作为图网络的节点，以所有关联节点对的连接作为图网络的边，构建图网络结构数据。

图5是本发明提供的对图网络中节点缺失的缺失维度特征进行数据插补的流程示意图，所述根据生成对抗网络对图网络中节点缺失的缺失维度特征进行数据插补，包括：

在步骤2021中，图8是本发明提供的用于填充缺失维度特征的框架图，如图8所示，将图的结构信息和属性信息输入至属性插补网络，即图8中的第1列，根据所述生成对抗网络的网络结构以及属性的联合分布，获取生成对抗网络输出的存在特征缺失的节点所对应的插补特征，所述生成对抗网络的网络结构以及属性的联合分布为图8中的第2、3、4列，在第二列中包含多层感知机编码以及图卷积网络编码，在第三列中包含属性特征嵌入以及结构特征嵌入，在第四列中包含两个多层感知机解码，进而根据第5列中的补全属性特征以及更新图结构，输出估算的存在特征缺失的节点所对应的插补特征。

可选地，将

和

表示为节点

的属性向量和结构向量，

表示用于描述节点

的成对样本，联合概率密度函数表示为

，整个图的联合对数似然度由单个节点似然度的和组成

，对应于图8中的分布图，所述分布图是对抗分布匹配的基础，可以对潜在空间编码施加任意的先验分布。

根据上述规则，对抗分布匹配的损失可以写为：

（5）

式（5）中，

表示共享潜在空间的先验分布，

表示从用于对抗学习的先验

中采样的真实样本，

和

分别表示属性嵌入和结构嵌入，D表示网络中的共享鉴别器。式（4）鼓励潜在嵌入匹配整个真实数据分布，从而以全局方式学习整个图，即所有种植点中每个属性的分布，从而更有效地输入属性缺失的作物特征。

然后，使用成对结构属性匹配策略来重构属性嵌入和结构嵌入，参考图8中的箭头，联合重建损失记为：

（6）

式（6）中，

表示对交叉重构流进行加权的超参数，

表示将

编码为

的编码器，同样，

表示将

编码为

的编码器，相反，

代表解码过程。

式（6）中，

以及

表示自重构流，这意味着来自属性/结构的信息被解码为属性/结构，

以及

表示交叉重构流，这意味着来自属性/结构的信息被解码为属性/结构。

可选地，属性插补网络的最终损失函数可以表示为：

，所述属性插补网络挖掘观察到的节点属性和结构之间的相关性，从而有助于属性缺失图的学习，多层感知机（Multilayer Perceptron，MLP）解码输出的属性最终特征是通过输入属性缺失的作物性状特征来完成的。

在步骤2022中，根据所述插补特征更新样本数据，获取所有具备完整维度特征的样本数据，本发明旨在根据插补后的具备完整维度特征的样本数据构建作物产量预测模型，由于所述作物产量预测模型结合了地理知识，进一步提高了预测能力，本发明的缺失特征插补方法优于现有数据插补方法，且基于GNN的作物产量预测模型比现有基于机器学习的模型和基于深度学习的模型具有更好的预测性能。

图6是本发明提供的获取作物产量预测模型的流程示意图，所述根据所有具备完整维度特征的样本数据以及每一样本数据所对应的样本产量进行训练，获取作物产量预测模型，包括：

根据所述训练集进行模型训练，获取作物产量预测模型；

所述预设划分策略包括：

在步骤2031中，根据预设划分策略划分所述所有具备完整维度特征的样本数据，确定测试样本数据以及训练样本数据，可选地，所述预设划分策略为：将缺失维度特征的特征数量大于预设数量的样本数据确定为测试样本数据，将缺失维度特征的特征数量小于或等于预设数量的样本数据确定为训练样本数据，所述预设数量为3，在一个可选地实施例中，若一共存在13000组数据，缺少作物特征的填充属性用

表示，

是数据编号，基于缺失特征的维度对样本数据进行划分，其优点在于提高数据估算的有效性，例如，共存在有6836组缺失特征少于或等于3个的训练样本数据和6164组缺失特征多于3个的测试样本数据。

而在另一个可选地实施例中，根据预设比例划分所述样本数据，确定测试样本数据以及训练样本数据，基于交叉验证方法来划分数据，其优点在于提高产量预测模型的有效性，若一共存在13000组数据，若所述预设比例为1:1，则将其划分为6500组训练样本数据和6500组测试样本数据，这些样本数据是随机划分的，没有交集。

在步骤2032中，根据测试样本数据以及每一测试样本数据所对应的测试样本产量确定测试集，根据训练样本数据以及每一训练样本数据所对应的训练样本产量确定训练集，本发明获取每一测试样本数据所对应的测试样本产量以及每一训练样本数据所对应的训练样本产量，并分别与对应的测试样本数据以及训练样本数据组成相应地测试集以及训练集。

在步骤2033中，根据所述训练集进行模型训练，获取作物产量预测模型，本发明根据训练集训练作物产量预测模型，根据所述训练集计算损失函数，根据所述损失函数调整所述作物产量预测模型的模型参数，并对模型进行更新，最终获取参数优化后的作物产量预测模型。

图11是本发明提供的作物产量预测装置的结构示意图，提供了一种作物产量预测装置，包括获取单元1：用于归一化处理待预测作物原始数据，获取待预测作物特征数据，所述获取单元1的工作原理可以参考前述步骤101，在此不予赘述。

所述作物产量预测装置还包括输入单元2：用于输入所述待预测作物特征数据至作物产量预测模型，获取所述作物产量预测模型输出的产量预测数据，所述输入单元2的工作原理可以参考前述步骤102，在此不予赘述。

图12是本发明提供的电子设备的结构示意图。如图12所示，该电子设备可以包括：处理器（processor）110、通信接口（Communications Interface）120、存储器（memory）130和通信总线140，其中，处理器110，通信接口120，存储器130通过通信总线140完成相互间的通信。处理器110可以调用存储器130中的逻辑指令，以执行作物产量预测方法，该方法包括：归一化处理待预测作物原始数据，获取待预测作物特征数据；输入所述待预测作物特征数据至作物产量预测模型，获取所述作物产量预测模型输出的产量预测数据；所述作物产量预测模型是根据所有具备完整维度特征的样本数据训练得到的；所述具备完整维度特征的样本数据是根据生成对抗网络对图网络中节点缺失的缺失维度特征进行数据插补后确定的；所述图网络是将所有具备原始维度特征的样本数据的各个维度特征作为节点特征而构建的；所述所有具备原始维度特征的样本数据至少包括缺失维度特征的样本数据。

此外，上述的存储器130中的逻辑指令可以通过软件功能单元的形式实现并作为待解析的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的一种作物产量预测方法，该方法包括：归一化处理待预测作物原始数据，获取待预测作物特征数据；输入所述待预测作物特征数据至作物产量预测模型，获取所述作物产量预测模型输出的产量预测数据；所述作物产量预测模型是根据所有具备完整维度特征的样本数据训练得到的；所述具备完整维度特征的样本数据是根据生成对抗网络对图网络中节点缺失的缺失维度特征进行数据插补后确定的；所述图网络是将所有具备原始维度特征的样本数据的各个维度特征作为节点特征而构建的；所述所有具备原始维度特征的样本数据至少包括缺失维度特征的样本数据。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供作物产量预测方法，该方法包括：归一化处理待预测作物原始数据，获取待预测作物特征数据；输入所述待预测作物特征数据至作物产量预测模型，获取所述作物产量预测模型输出的产量预测数据；所述作物产量预测模型是根据所有具备完整维度特征的样本数据训练得到的；所述具备完整维度特征的样本数据是根据生成对抗网络对图网络中节点缺失的缺失维度特征进行数据插补后确定的；所述图网络是将所有具备原始维度特征的样本数据的各个维度特征作为节点特征而构建的；所述所有具备原始维度特征的样本数据至少包括缺失维度特征的样本数据。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种作物产量预测方法，其特征在于，包括：

2.根据权利要求1所述的作物产量预测方法，其特征在于，归一化处理待预测作物原始数据，获取待预测作物特征数据，包括：

3.根据权利要求1所述的作物产量预测方法，其特征在于，在输入所述待预测作物特征数据至作物产量预测模型，获取所述作物产量预测模型输出的产量预测数据之前，还包括：

4.根据权利要求3所述的作物产量预测方法，其特征在于，所述根据所有样本数据的节点特征构建图网络，包括：

计算任意两个样本数据间节点特征的余弦距离；

5.根据权利要求3所述的作物产量预测方法，其特征在于，所述根据生成对抗网络对图网络中节点缺失的缺失维度特征进行数据插补，包括：

6.根据权利要求1所述的作物产量预测方法，其特征在于，所述作物产量预测模型为图注意力网络模型；

7.根据权利要求6所述的作物产量预测方法，其特征在于，所述依次经过多头图注意力网络层、单头图注意力网络层、全连接层，最终获取所述图注意力网络模型输出的产量预测数据，包括：

8.根据权利要求3所述的作物产量预测方法，其特征在于，所述根据所有具备完整维度特征的样本数据以及每一样本数据所对应的样本产量进行训练，获取作物产量预测模型，包括：

根据所述训练集进行模型训练，获取作物产量预测模型；

所述预设划分策略包括：

9.一种作物产量预测装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一项所述的作物产量预测方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的作物产量预测方法。