CN115564145B

CN115564145B - 基于分布式数据的农作物品种产量预测方法及装置

Info

Publication number: CN115564145B
Application number: CN202211437703.1A
Authority: CN
Inventors: 潘守慧; 王开义; 刘忠强; 韩焱云; 王书锋
Original assignee: Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Current assignee: Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-06-30
Anticipated expiration: 2042-11-17
Also published as: CN115564145A

Abstract

本发明提供一种基于分布式数据的农作物品种产量预测方法及装置，属于农业信息处理领域，该方法包括：获取产量预测指标集的指标值，作为预测数据存储在对应节点服务器上；每个节点服务器只存储所属区域内种植的品种对应的预测数据；将预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算，得到特征数据；将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型，输出每个待预测品种的产量预测结果；产量预测模型，是根据每个节点服务器基于本地训练数据进行本地训练后，再利用所有节点服务器的训练参数进行全局协同训练后得到。该方法不仅较好地解决了现实中品种试验数据难以共享的难题，还可使预测结果更为准确。

Description

基于分布式数据的农作物品种产量预测方法及装置

技术领域

本发明涉及农业信息处理领域，尤其涉及一种基于分布式数据的农作物品种产量预测方法及装置。

背景技术

农作物产量的高低，直接关系到粮食安全。近年来，随着商业化育种进程的不断加快，每年都有大量的审定品种上市销售，农户面临选择难等问题。基于品种试验数据预测每个品种在不同区域的产量，有助于农户选择与其所在区域环境条件相适应的农作物品种，对于提升农作物品种精准推广水平具有重要意义。

在现有的品种区域试验管理机制中，由于受经费、人员等因素的限制，试验站点的数量往往较少，导致试验点的布局合理性和代表性不足，因而难以直接根据品种试验数据评估其在每个精细区域内（例如：县区）的适应性和产量。其次，现有的农作物品种产量预测方法，大多是利用统计学模型或机器学习方法对品种的育种值进行估计，没有考虑环境、品种以及环境交互等因素对产量的影响。最后，现有品种产量预测方法，需要对所有试验数据进行统一汇总处理之后才能进行模型的训练，然而，在实际工作中，由于品种试验数据与育种者的商业秘密和技术秘密密切相关，相关育种主体大多不愿共享品种试验数据，往往导致样本训练数据不足和模型过耦合，严重影响到模型预测的准确度，制约了机器学习技术在农作物品种产量预测中的广泛应用。

发明内容

针对现有技术存在的问题，本发明提供一种基于分布式数据的农作物品种产量预测方法及装置。

本发明提供一种基于分布式数据的农作物品种产量预测方法，包括：确定产量预测指标集，所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集；获取待预测品种对应的所述产量预测指标集的指标值，并作为预测数据存储在对应的节点服务器上；其中，每个节点服务器只存储所属区域内种植的品种对应的预测数据；将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算，得到特征数据；将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型，输出每个待预测品种的产量预测结果；其中，所述产量预测模型，是根据每个节点服务器基于本地训练数据进行本地训练后，再利用所有节点服务器的训练参数进行全局协同训练后得到；所述本地训练数据，为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合；所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据。

根据本发明提供的一种基于分布式数据的农作物品种产量预测方法，所述输出每个待预测品种的产量预测结果之后，还包括：根据所有待预测品种的预测结果，在电子地图上可视化展示待预测品种在待预测区域内的产量热力图，并根据所有待预测品种和待预测区域，生成推广指示信息；其中，所述推广指示信息包括特定品种的若干最适宜种植区域，或者特定区域内的若干最适宜种植品种。

根据本发明提供的一种基于分布式数据的农作物品种产量预测方法，所述获取待预测品种对应的所述产量预测指标集的指标值之后，作为预测数据存储在对应的节点服务器之前，还包括：从历年品种区域试验数据中，获取对照品种与待预测品种在各试验点的每个性状的表型值；获取对照品种与待预测品种的SNP（单核苷酸多态性）分子标记数据；构建基于G矩阵的最佳线性无偏预测GBLUP模型，根据所述待预测品种与对照品种的性状表型值和SNP分子标记数据，确定待预测品种每个性状指标的基因型效应值；将所述基因型效应值作为所述待预测品种的性状指标值。

根据本发明提供的一种基于分布式数据的农作物品种产量预测方法，所述将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型，输出每个待预测品种的产量预测结果，包括：将每个待预测品种的特征数据，分别输入至预设的多个基于联邦学习的产量预测模型，输出每个待预测品种在每个模型中的产量预测结果；根据在每个模型中的产量预测结果，输出每个待预测品种最终的产量预测结果；

所述根据在每个模型中的产量预测结果，输出每个待预测品种最终的产量预测结果，包括：

其中，

，

为品种

在区域

的最终的产量预测值，

为第

个模型中品种

在区域

的产量预测值，

表示第

个待预测品种，

表示第

个待预测区域，

为联邦学习模型的个数，

为第

个联邦学习模型的预测精度，

的计算方式包括：

其中，

表示第

个训练样本数据的真实产量，

表示第

个样本数据在第

个联邦学习模型中的产量预测值，

为总样本数；

其中，所述多个基于联邦学习的产量预测模型，是分别根据不同的机器学习算法构建得到，所述不同的机器学习算法包括支持向量机、决策树和卷积神经网络。

根据本发明提供的一种基于分布式数据的农作物品种产量预测方法，所述将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型之前，还包括：获取区域样本品种种植过程的所述产量预测指标集的指标值，并作为训练数据存储在本地节点服务器，将每个样本品种的训练数据和产量数据的组合作为本地的训练样本；将每个训练样本中的性状指标值与环境指标值进行笛卡尔乘积运算，得到训练样本的特征数据，并结合训练样本的已知产量数据作为目标值，对初始的本地模型进行本地训练；将本地训练后的本地模型的模型信息发送到由多个节点服务器构成的区块链网络中，以用于区块链网络根据共识机制从所有节点服务器中选出全局服务器，所述全局服务器用于根据每个节点服务器发送的本地模型的模型信息，计算全局模型的梯度，并生成包括全局模型梯度的新区块；每个节点服务器从所述新区块中，获取全局模型的梯度，对本地模型进行更新；其中，所述模型信息包括模型参数、损失函数值和训练时间。

根据本发明提供的一种基于分布式数据的农作物品种产量预测方法，所述对初始的本地模型进行本地训练，包括：根据如下损失函数，基于本地训练样本，对每个本地模型进行本地训练：

其中，

，

为模型参数

对单个训练样本

的代价函数；

表示第i个训练样本的预测指标向量，

表示第i个训练样本的产量；

表示第

个节点服务器；

为第

个节点服务器本地模型上的训练样本数；

为第

个节点服务器上的数据样本集合；

为参数向量

的

范数；

为正则化参数。

根据本发明提供的一种基于分布式数据的农作物品种产量预测方法，所述根据每个节点服务器发送的本地模型的模型信息，计算全局模型的梯度，包括基于如下损失函数计算全局梯度：

其中，

为参与训练的节点服务器总个数，所有节点服务器本地模型上的总样本数为

；

为第

轮迭代时全局模型的损失函数，

是第

轮迭代时的模型参数，

为第

个本地模型在第

轮迭代时的预测值与真实值的离差平方和，

表示第 i个训练样本的产量值，

为所有本地模型在第

轮迭代时的离差平方和的总和，

为预设常数；

为第

个节点服务器上的数据样本集合；

为第

个节点服务器本地模型上的训练样本数。

本发明还提供一种基于分布式数据的农作物品种产量预测装置，包括：指标筛选模块，用于确定产量预测指标集，所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集；采集模块，用于获取待预测品种对应的所述产量预测指标集的指标值，并作为预测数据存储在对应的节点服务器上；其中，每个节点服务器只存储所属区域内种植的品种对应的预测数据；生成模块，用于将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算，得到特征数据；处理模块，用于将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型，输出每个待预测品种的产量预测结果；其中，所述产量预测模型，是根据每个节点服务器基于本地训练数据进行本地训练后，再利用所有节点服务器的训练参数进行全局协同训练后得到；所述本地训练数据，为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合；所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于分布式数据的农作物品种产量预测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于分布式数据的农作物品种产量预测方法。

本发明提供的基于分布式数据的农作物品种产量预测方法及装置，选取与品种产量相关的环境指标和性状指标构建基于联邦学习的预测模型，不仅考虑了品种自身的遗传因素，而且考虑了区域环境因素对品种的影响，可使预测结果更为准确。通过每个节点服务器根据本地训练数据进行本地训练后，再根据所有节点服务器的训练参数进行全局更新，可在不共享本地数据的情况下对农作物品种产量预测模型进行联合训练，不仅较好地解决了现实中品种试验数据难以共享的难题，而且与仅使用本地数据训练模型相比，预测模型的性能和准确度大幅提高。本发明有助于品种所有者精准选择推广区域，也有助于农户选择与其所在区域环境相适应的品种，对于提升农作物品种精准推广的智能化水平具有重要意义。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于分布式数据的农作物品种产量预测方法的流程示意图；

图2是本发明提供的基于分布式数据的农作物品种产量预测装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1至图3描述本发明的基于分布式数据的农作物品种产量预测方法及装置。图1是本发明提供的基于分布式数据的农作物品种产量预测方法的流程示意图，如图1所示，本发明提供基于分布式数据的农作物品种产量预测方法，包括：

101、确定产量预测指标集，所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集。

分别从待分析区域的环境指标集和待预测农作物的性状特征中选取与农作物产量相关的上述环境指标集和性状指标集，得到初选的环境指标集和性状指标集。一种实施方式是将初选的环境指标集和性状指标集，作为产量预测指标集。

其中，待分析区域是由一系列单元区域组成，最终得到每个品种在每个单元区域的产量预测值。为叙述方便，下文中有时也将“单元区域”简称为“区域”。

优选地，为了实现品种在每个精细区域内的产量预测，可将单元区域设为县级行政区。

可选地，还包括对上述初选指标集进行筛选和约简，得到最终的环境指标集和性状指标集（作为上述产量预测指标集）。其中，筛选和约简方法包括：关联规则挖掘、聚类分析、层次分析法、因子分析法、灰色关联分析法中任意一种或多种。

其中，环境指标集，包括基础地理类、气候气象类和土壤墒情类中的一种或多种。例如，基础地理类指标包括：地形、地貌、高程、经度和纬度等；气候气象类指标包括：有效积温、日照时长、平均气温、最低气温、最高气温、地表温度、最大风力、平均降水量、最大降水量、平均湿度、气压、光热积和光热比；土壤墒情类指标包括：土壤类型、土壤质地、土壤容重、土壤田间持水量、土壤湿度和土壤温度。

其中，性状指标集可从作物性状特征中选取与产量相关的部分，上述性状特征，是指包括农作物的生育期、株高、叶面积、果实重量等可代表农作物品种特点且能被观察到的特征。例如：小麦的性状主要包括：生育期、株高、叶数、分蘖数、小穗数、穗粒数和千粒重。水稻的性状主要包括：生育期、有效分蘖数、主茎叶数、株高、剑叶长、剑叶宽、穗数、穗长、穗粒数和千粒重。玉米的性状主要包括：千粒重、穗粗、株高、穗行数、行粒数和穗重。大豆的性状主要包括：单株粒数、百粒重、单株荚数和株高。

针对不同种类的作物，从上述环境指标集和性状特征中选取，与产量相关的环境指标集和性状指标集。

102、获取待预测品种对应的所述产量预测指标集的指标值，并作为预测数据存储在对应的节点服务器上；其中，每个节点服务器只存储所属区域内种植的品种对应的预测数据。

其中，所述待预测品种对应的所述产量预测指标集的指标值，是指待预测品种在待分析区域内的部分单元区域内种植后得到的某些性状的表型值。在此基础上，计算出待预测品种在未被种植过的单元区域内的产量。

本发明中可利用多个节点服务器定期获取辖区内待预测品种的产量预测指标集对应的指标值数据（即产量预测指标集对应的具体取值），并对所获取的数据进行预处理后存储。

其中，每个节点服务器只存储所属区域品种对应的预测数据，这样可以满足保密性的需求。而所属区域不限于一个单元区域，可以由多个单元区域构成。例如，节点服务器可同时管辖区域X、Y和Z。

具体而言，每个节点服务器，只存储在某些区域内进行试验的品种试验数据。例如，品种A在北京、济南、郑州开展试验；品种B在北京、石家庄、郑州开展试验；品种C在沈阳、济南、大同开展试验。若每个试验点设一个节点服务器（实际中也可将多个地点的数据，存储在一个节点服务器中），则“北京”节点服务器仅存储品种A和B在北京试验点的试验数据；品种A在其他试验点的试验数据由其他服务器存储；“济南”节点服务器仅存储品种A和C在济南试验点的数据，“郑州”节点服务器仅存储品种A和B在郑州试验点的数据。

优选地，可按品种的权属关系将所有品种分为N组，同时设置N个节点服务器用于获取、处理和存储每组品种的样本数据，即第i部分品种的相关数据由第i个节点服务器进行获取、处理和存储，其中，

。

区域环境指标值数据可从国家地理信息公共服务平台、气象数据网、国家土壤信息服务平台、土壤科学数据库、国家农业科学数据中心、国家测土配方施肥数据管理平台等数据源获取。若某个单元区域内缺少某个环境指标值，可使用空间插值法对相应指标值进行估计，所述空间插值法包括：克里金插值法、反距离加权插值法、自然邻点插值法、最近邻点插值法中任意一种或多种。

区域环境指标值数据经数据预处理和数据融合后，可通过品种试验地点的经纬度与待分析区域经纬度范围之间的关系，将品种试验数据与区域环境数据之间建立关联关系。

其中，所述数据融合方法包括综合运用本体对齐、实体链接和冲突解决技术，对所获取的区域环境数据进行语义关联，消除不同来源数据之间的异构性。

该步骤中，还包括对预测指标集的指标值进行预处理，包括动态脱敏、数据清洗、缺失值处理、噪声数据处理、数据归一化和标准化中任意一种或多种。

进一步地，数据归一化方法包括：若指标

为正向指标，则

若指标

为逆向指标，则

若指标

为适度指标，则

其中，

为第

个品种的第

个指标归一化后的值，

为第

个品种的第

个指标的原始值，

为所有数据中第

个指标的最大值，

为所有数据中第

个指标的最小值，

为第

个指标的理想值。

103、将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算，得到特征数据。

例如：品种集合

，每个品种包含3个性状指标值，即

，其中

表示第i个品种的第j个性状指标的值，

，

；单元区域集合

，每个区域包含2个环境指标值，即

，其中

表示第k个品种的第 j个性状指标的值，

，

。则进行笛卡尔乘积运算后，得到的特征数据为：

若品种

已在区域

内开展过种植试验，则品种

的性状指标值与区域

的环境指标值构成的特征数据可作为训练数据用于预测模型的构建。

在实际应用中，一个品种大多只在一个生态区内推广种植。因此，在生成一个品种的“品种-区域环境”的特征数据时，需要限定该品种对应的待分析区域范围，即该品种的性状指标值只能与指定生态区的单元区域的环境指标值进行笛卡尔乘积运算，进而得到特征数据。

104、将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型，输出每个待预测品种的产量预测结果。

其中，所述产量预测模型，是根据每个节点服务器基于本地训练数据进行本地训练后，再利用所有节点服务器的训练参数进行全局协同训练后得到；所述本地训练数据，为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合；所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据。

具体而言，每个节点服务器基于本地训练数据进行本地训练，本地训练后，将本地训练的训练参数发送给网络中的其他节点服务器。基于所有节点服务器的训练参数进行全局更新，得到最终的模型训练参数，每个节点服务器采用最终的模型训练参数，最终形成基于联邦学习的农作物品种产量预测模型。其中，每个节点服务器的模型结构相同。

由于本发明的联邦学习通过迭代训练运算方式实现了“数据可用不可见”、“数据不出门”，不仅解决了传统机器学习中心化依赖、数据隐私保护的问题，而且可引入更多育种企业或组织的试验数据加入，有利于从整体上提升模型的预测精度。

优选地，为了使本发明所述预测方法达到最佳效果，在对农作物品种产量进行预测时，应确保预测模型的训练数据和测试数据均来自于同种作物，最好是栽培季节相同的同种作物。也就是说，利用作物A的品种的样本数据训练后得到的模型参数，不能直接用于作物B的品种产量预测，需要使用作物B的样本数据重新训练模型。

本发明的基于分布式数据的农作物品种产量预测方法，选取与农作物品种产量相关的环境指标和性状指标构建基于联邦学习的预测模型，不仅考虑了品种自身的遗传因素，而且考虑了区域环境因素对品种的影响，可使预测结果更为准确。每个节点服务器根据本地训练数据进行本地训练后，再根据所有节点服务器的训练参数进行全局更新，可以在不共享本地数据的情况下对农作物品种产量预测模型进行联合训练，不仅较好地解决了现实中品种试验数据难以共享的难题，而且与仅使用本地数据训练模型相比，预测模型的性能和准确度大幅提高。本发明有助于品种所有者精准选择推广区域，也有助于农户选择与其所在区域环境相适应的品种，对于提升农作物品种精准推广的智能化水平具有重要意义。

在一个实施例中，所述输出每个待预测品种的产量预测结果之后，还包括：根据所有待预测品种的预测结果，在电子地图上可视化展示待预测品种在待预测区域内的产量热力图，并根据所有待预测品种和待预测区域，生成推广指示信息；其中，所述推广指示信息包括特定品种的若干最适宜种植区域，或者特定区域内的若干最适宜种植品种。

可选地，所述特定品种的若干最适宜种植区域，是指为一个特定品种筛选出产量最高的K个单元区域；所述指定区域内的最适宜种植品种，是指为一个特定单元区域内筛选出产量最高的K个品种。

在一个实施例中，所述获取待预测品种对应的所述产量预测指标集的指标值之后，作为预测数据存储在对应的节点服务器之前，还包括：从历年品种区域试验数据中，获取对照品种与待预测品种在各试验点的每个性状的表型值；获取对照品种与待预测品种的SNP分子标记数据；构建基于G矩阵的最佳线性无偏预测GBLUP模型，根据所述待预测品种与对照品种的性状表型值和SNP分子标记数据，确定待预测品种每个性状指标的基因型效应值；将所述基因型效应值作为所述待预测品种的性状指标值。其中，对照品种是同种类型作物中具有较强环境稳定性的成熟品种，本实施例中可为计算待预测品种的基因型效应值提供参考标杆。

本发明实施例中，通过GBLUP模型对待预测品种的每一表型性状值进行建模，计算每一表型性状值中品种自身的遗传因素所占的贡献，即估计出品种的每一性状的基因型效应值，并将所述性状的基因型效应值作为性状指标值，进行后续103和104的预测。

具体而言，先获取对照品种与待预测品种的SNP分子标记数据。其中，SNP分子标记数据可委托第三方机构进行基因检测后得到，也可从现有的植物SNP数据库中查询得到。

然后，构建基于G矩阵的GBLUP模型，得到每个品种基因组的基因型效应值，可表示为：

其中，

为

维的品种表型性状值向量（向量中每个元素的值为对应品种的表型性状值），n为品种的表型观测样本数，

为

维的固定效应的设计矩阵（p为试验点数量），

为

维的随机加性遗传效应的设计矩阵（q为待分析品种个数），

和

中的元素是由已知的0和1组成，即对于

中的第i行元素与第i个观测样本对应，若第i个观测样本在第j（j=1,2, … , p）个区域种植过，则

的值为1，否则为0；同理，对于

中的第i行元素与第i个观测样本对应，若第i个观测样本对应的品种为品种j（j=1,2, … , q），则

的值为1，否则为0；

为

维的固定效应，

为

维的随机加性遗传效应，

为

维的残差向量。其中，

和

为待估计值，

与地点相关，

与遗传效应相关，因此主要对

进行估计。对应的混合模型方程组，可表示为：

进而可以得到：

其中，

为随机加性遗传效应变量

的估计值（即品种个体对应性状的基因型效应值）；

为固定效应变量

的估计值；

，

为误差方差，

为加性遗传效应方差，

为性状的遗传力；

为矩阵

的转置；

为矩阵

的转置；矩阵

为品种之间的关系矩阵，通过计算品种之间的SNP标记的相关性而构建，其中

为品种

的SNP标记与品种

的SNP标记之间的相关性系数；在计算品种之间的相关性时，首先将品种的SNP字母标记转换为一组由数字构成的向量。本发明中，可采用0/1/2编码方式对每个标记进行转换，即用数字0、1、2分别表示不同类型的SNP标记，其中0表示主效基因标记，1表示杂合标记，2表示微效基因标记。

本发明实施例的基于分布式数据的农作物品种产量预测方法，基于G矩阵的最佳线性无偏预测GBLUP模型，根据待预测品种与对照品种的SNP分子标记数据和性状表型值，确定待预测品种每个性状指标的基因型效应值，消除了待预测品种性状指标值中受环境影响而导致的性状表现，确定的基因型效应值是只反应遗传效应和基因表现的性状。将基因型效应值作为待预测品种的性状指标值，然后结合环境指标进行104中的预测，可提高品种产量预测的准确度。

在一个实施例中，所述将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型，输出每个待预测品种的产量预测结果，包括：将每个待预测品种的特征数据，分别输入至预设的多个基于联邦学习的产量预测模型，输出每个待预测品种在每个模型中的产量预测结果；根据在每个模型中的产量预测结果，输出每个待预测品种最终的产量预测结果；其中，所述多个基于联邦学习的产量预测模型，是分别根据不同的机器学习算法构建得到，所述不同的机器学习算法包括支持向量机、决策树和卷积神经网络。

为了提高农作物品种产量预测的准确度，本发明实施例中同时构建多个不同类型的基于联邦学习的预测模型，每个模型分别使用不同的机器学习算法进行联邦学习，比如可构建三种使用不同机器学习算法的联邦学习模型，分别使用支持向量机、决策树、卷积神经网络三种机器学习算法进行模型训练，分别得到每个模型的预测精度，然后对所有模型给出的产量预测结果进行加权求和，进而得到最终的产量预测结果。可用公式描述如下：

其中，

，

为品种

在区域

的最终的产量预测值，

为第

个联邦学习模型中品种

在区域

的产量预测值，

表示第

个待预测品种，

表示第

个待预测区域，

为联邦学习模型的个数，

为第

个联邦学习模型的预测精度，

的计算方式包括：

其中，

表示第

个训练样本数据的真实产量，

表示第

个样本数据在第

个联邦学习模型中的产量预测值，

为总样本数。

在一个实施例中，所述将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型之前，还包括：获取区域样本品种种植过程的所述产量预测指标集的指标值，并作为训练数据存储在本地节点服务器，将每个样本品种的训练数据和产量数据的组合作为本地训练样本；将每个训练样本中的性状指标值与环境指标值进行笛卡尔乘积运算，得到训练样本的特征数据，并结合训练样本的已知产量数据作为目标值，对初始的基于联邦学习的产量预测模型中的每个本地模型进行本地训练。

将本地训练后的本地模型的模型信息发送到由多个节点服务器构成的区块链网络中，以用于区块链网络根据共识机制从所有节点服务器中选出全局服务器，所述全局服务器用于根据每个节点服务器发送的本地模型的模型信息，计算全局模型的梯度，并生成包括全局模型梯度的新区块；每个节点服务器从所述新区块中，获取全局模型的梯度，对本地模型进行更新；其中，所述模型信息包括模型参数、损失函数值和训练时间。

具体而言，上述基于联邦学习的农作物品种产量预测模型，是在所有节点服务器无需共享本地原始数据的情况下利用分布式数据与算力进行联合训练得到。此外，为了解决联邦学习模型训练过程中遇到的“中心依赖”难题，即模型训练过程中需要依赖一个中心服务器去分享、整合训练模型，本发明实施例的模型在训练过程中是利用区块链存储和更新模型信息。模型训练过程包括：

（1）本地模型初始化：为所有节点服务器上的本地模型设置初始化参数；

（2）本地模型训练：所有节点服务器分别基于本地数据进行训练，经过若干次本地迭代后，得到更新后的本地模型参数；

（3）本地模型上传：节点服务器向附近关联的区块链网络上的节点服务器上传本地模型信息，包括：模型参数、损失函数差值，还可包括模型计算时间；

（4）交叉验证：附近关联的所有节点服务器将上述节点服务器上传的本地模型信息进行广播传递和验证，验证通过后将其记录在区块链网络中相关节点服务器的候选块中；

（5）块生成与广播：通过共识机制从区块链网络上的所有节点服务器中通过共识机制选举领导者，负责计算全局模型的梯度并生成新区块，对新区块的合法性进行验证后，并向区块链网络上的其他节点服务器全网发送ACK（Acknowledge Character）标识广播通过验证的区块；

（6）全局本地模型下载更新：每个节点服务器从附近关联的区块链网络上的服务器下载新区块，从中获取全局模型的梯度，进而更新本地模型。

进一步地，全局模型与每个本地模型都是使用的同一类型的机器学习方法，各模型都具有相同类型的参数。实际应用中，每个本地模型既可以是卷积神经网络、循环神经网络、生成对抗网络、决策树、贝叶斯、支持向量机、条件随机场等任一方法实现的单分类器；也可以是基于集成学习思想实现的组合分类器，包括：随机森林、bagging、boosting。优选地，可以利用遗传算法或粒子群算法寻找模型的初始化参数。

进一步地，共识机制包括：工作量证明机制、权益证明机制、股份授权证明机制和Pool验证池。

由于区块链是一个去中心化分布式账本，规避了中心化系统数据可能泄露的弊端，因而可解决传统联邦学习中遇到的“中心依赖”难题；由于区块链中的信息具有不可篡改和可以追溯的特性，可一定程度上避免模型训练过程中恶意数据拥有者对系统的破坏；此外，区块链通过共识机制设计，还可以解决传统联邦学习训练过程中个别节点激励不足的问题，即数据量小的用户对联邦学习感兴趣，数据量大的用户缺乏动力。本发明的方法，有助于提升数据安全性、系统稳定性和预测模型性能。

在一个实施例中，所述对基于联邦学习的产量预测模型中的每个本地模型进行本地训练，包括：根据如下损失函数，基于本地训练样本，对每个本地模型进行本地训练：

其中，

，

为模型参数

对单个训练样本

的代价函数；

表示第i个训练样本的预测指标向量，

表示第i个训练样本的产量；

表示第

个节点服务器；

为第

个节点服务器本地模型上的训练样本数；

为第

个节点服务器上的数据样本集合；

为参数向量

的

范数；

为正则化参数。

在一个实施例中，所述根据每个节点服务器发送的本地模型的模型信息，计算全局模型的梯度，包括基于如下损失函数计算全局梯度：

其中，

；

为第

轮迭代时全局模型的损失函数，

是第

轮迭代时的模型参数，

为第

个本地模型在第

轮迭代时的预测值与真实值的离差平方和，

表示第 i个训练样本的产量值，

为所有本地模型在第

轮迭代时的离差平方和的总和，

为预设常数；

为第

个节点服务器上的数据样本集合；

为第

个节点服务器本地模型上的训练样本数。

其中，共有

个节点服务器（本地模型）参与训练，第

个本地模型上的数据样本数为

，所有本地模型上的总样本数为

，待优化目标函数为

，其中

为

的假设空间。本地模型的训练目标是使其损失函数最小，即

进一步地，在定义全局模型的总体损失函数时，既要考虑每个本地模型中样本数据量，又要考虑其每次迭代时的模型性能，为此将全局模型的总体损失函数的计算公式定义为上述

形式。

为内置常数，一般取值为0.5。

优选地，可采用随机梯度下降算法以最小化本地模型的损失函数。经过

轮迭代后，第

个本地模型的参数更新可表示为：

其中，

为第

个本地模型在第

轮时的参数值，

为第

个本地模型在第

轮时的参数值，

为全局模型在第

轮迭代时的梯度，

为学习率。

下面对本发明提供的基于分布式数据的农作物品种产量预测装置进行描述，下文描述的基于分布式数据的农作物品种产量预测装置与上文描述的基于分布式数据的农作物品种产量预测方法可相互对应参照。

图2是本发明提供的基于分布式数据的农作物品种产量预测装置的结构示意图，如图2所示，该基于分布式数据的农作物品种产量预测装置包括：指标筛选模块201、采集模块202、生成模块203和处理模块204。其中，指标筛选模块201用于确定产量预测指标集，所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集；采集模块202用于获取待预测品种对应的所述产量预测指标集的指标值，并作为预测数据存储在对应的节点服务器上；其中，每个节点服务器只存储所属区域内种植的品种对应的预测数据；生成模块203用于将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算，得到特征数据；处理模块204用于将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型，输出每个待预测品种的产量预测结果；其中，所述产量预测模型，是根据每个节点服务器基于本地训练数据进行本地训练后，再利用所有节点服务器的训练参数进行全局协同训练后得到；所述本地训练数据，为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合；所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

本发明实施例所提供的基于分布式数据的农作物品种产量预测装置，其实现原理及产生的技术效果和前述基于分布式数据的农作物品种产量预测方法实施例相同，为简要描述，基于分布式数据的农作物品种产量预测装置实施例部分未提及之处，可参考前述基于分布式数据的农作物品种产量预测方法实施例中相应内容。

图3是本发明提供的电子设备的结构示意图，如图3所示，该电子设备可以包括：处理器（processor）301、通信接口（Communications Interface）302、存储器（memory）303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令，以执行基于分布式数据的农作物品种产量预测方法，该方法包括：确定产量预测指标集，所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集；获取待预测品种对应的所述产量预测指标集的指标值，并作为预测数据存储在对应的节点服务器上；其中，每个节点服务器只存储所属区域内种植的品种对应的预测数据；将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算，得到特征数据；将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型，输出每个待预测品种的产量预测结果；其中，所述产量预测模型，是根据每个节点服务器基于本地训练数据进行本地训练后，再利用所有节点服务器的训练参数进行全局协同训练后得到；所述本地训练数据，为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合；所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于分布式数据的农作物品种产量预测方法，该方法包括：确定产量预测指标集，所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集；获取待预测品种对应的所述产量预测指标集的指标值，并作为预测数据存储在对应的节点服务器上；其中，每个节点服务器只存储所属区域内种植的品种对应的预测数据；将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算，得到特征数据；将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型，输出每个待预测品种的产量预测结果；其中，所述产量预测模型，是根据每个节点服务器基于本地训练数据进行本地训练后，再利用所有节点服务器的训练参数进行全局协同训练后得到；所述本地训练数据，为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合；所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于分布式数据的农作物品种产量预测方法，其特征在于，包括：

确定产量预测指标集，所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集；

获取待预测品种对应的所述产量预测指标集的指标值，并作为预测数据存储在对应的节点服务器上；其中，每个节点服务器只存储所属区域内种植的品种对应的预测数据；

将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算，得到特征数据；

将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型，输出每个待预测品种的产量预测结果；

其中，所述产量预测模型，是根据每个节点服务器基于本地训练数据进行本地训练后，再利用所有节点服务器的训练参数进行全局协同训练后得到；所述本地训练数据，为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合；所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据；

其中，所述将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型之前，还包括：

获取区域样本品种种植过程的所述产量预测指标集的指标值，并作为训练数据存储在本地节点服务器，将每个样本品种的训练数据和产量数据的组合作为本地训练样本；

将每个训练样本中的性状指标值与环境指标值进行笛卡尔乘积运算，得到训练样本的特征数据，并结合训练样本的已知产量数据作为目标值，对基于联邦学习的产量预测模型中的每个本地模型进行本地训练；

将本地训练后的本地模型的模型信息发送到由多个节点服务器构成的区块链网络中，以用于区块链网络根据共识机制从所有节点服务器中选出全局服务器，所述全局服务器用于根据每个节点服务器发送的本地模型的模型信息，计算全局模型的梯度，并生成包括全局模型梯度的新区块；

每个节点服务器从所述新区块中，获取全局模型的梯度，并对本地模型进行更新；

其中，所述模型信息包括模型参数、损失函数值和训练时间；

所述对基于联邦学习的产量预测模型中的每个本地模型进行本地训练，包括：

根据如下损失函数，基于本地训练样本，对每个本地模型进行本地训练：

；

其中，

，/>

为模型参数/>

对单个训练样本/>

的代价函数；/>

表示第i个训练样本的预测指标向量，/>

表示第i个训练样本的真实产量；/>

表示第/>

个节点服务器；/>

为第/>

个节点服务器本地模型上的训练样本数；

为第/>

个节点服务器上的数据样本集合；/>

为参数向量/>

的

范数；/>

为正则化参数。

2.根据权利要求1所述的基于分布式数据的农作物品种产量预测方法，其特征在于，所述输出每个待预测品种的产量预测结果之后，还包括：

根据所有待预测品种的预测结果，在电子地图上可视化展示待预测品种在待预测区域内的产量热力图，并根据所有待预测品种和待预测区域，生成推广指示信息；

其中，所述推广指示信息包括特定品种的若干最适宜种植区域，或者特定区域内的若干最适宜种植品种。

3.根据权利要求1所述的基于分布式数据的农作物品种产量预测方法，其特征在于，所述获取待预测品种对应的所述产量预测指标集的指标值之后，作为预测数据存储在对应的节点服务器之前，还包括：

从历年品种区域试验数据中，获取对照品种与待预测品种在各试验点的每个性状的表型值；

获取对照品种与待预测品种的SNP分子标记数据；

构建基于G矩阵的最佳线性无偏预测GBLUP模型，根据所述待预测品种与对照品种的性状表型值和SNP分子标记数据，确定待预测品种每个性状指标的基因型效应值；

将所述基因型效应值作为所述待预测品种的性状指标值。

4.根据权利要求1所述的基于分布式数据的农作物品种产量预测方法，其特征在于，所述将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型，输出每个待预测品种的产量预测结果，包括：

将每个待预测品种的特征数据，分别输入至预设的多个基于联邦学习的产量预测模型，输出每个待预测品种在每个模型中的产量预测结果；

根据在每个模型中的产量预测结果，输出每个待预测品种最终的产量预测结果；

；

其中，

，/>

为品种/>

在区域/>

的最终的产量预测值，/>

为第

个模型中品种/>

在区域/>

的产量预测值，/>

表示第i个待预测品种，/>

表示第j个待预测区域，M为联邦学习模型的个数，/>

为第/>

个联邦学习模型的预测精度，/>

的计算方式包括：

；

其中，

表示第i个训练样本数据的真实产量，/>

表示第i个样本数据在第/>

个联邦学习模型中的产量预测值，/>

为总样本数；

5.根据权利要求1所述的基于分布式数据的农作物品种产量预测方法，其特征在于，所述根据每个节点服务器发送的本地模型的模型信息，计算全局模型的梯度，包括利用如下损失函数计算全局梯度：

；

其中，

为参与训练的节点服务器总个数，所有节点服务器本地模型上的总样本数为/>

；/>

为第/>

轮迭代时全局模型的损失函数，/>

是第/>

轮迭代时的模型参数，

为第/>

个本地模型在第/>

轮迭代时的预测值与真实值的离差平方和，/>

表示第i个训练样本的产量值，/>

为所有本地模型在第/>

轮迭代时的离差平方和的总和，/>

为预设常数；/>

为第/>

个节点服务器上的数据样本集合；/>

为第/>

个节点服务器本地模型上的训练样本数。

6.一种基于分布式数据的农作物品种产量预测装置，其特征在于，包括：

指标筛选模块，用于确定产量预测指标集，所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集；

采集模块，用于获取待预测品种对应的所述产量预测指标集的指标值，并作为预测数据存储在对应的节点服务器上；其中，每个节点服务器只存储所属区域内种植的品种对应的预测数据；

生成模块，用于将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算，得到特征数据；

处理模块，用于将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型，输出每个待预测品种的产量预测结果；

所述装置还用于，将每个待预测品种的特征数据，分别输入至预设的基于联邦学习的产量预测模型之前：

；

其中，

，/>

为模型参数/>

对单个训练样本/>

的代价函数；/>

表示第i个训练样本的预测指标向量，/>

表示第i个训练样本的真实产量；/>

表示第/>

个节点服务器；/>

为第/>

个节点服务器本地模型上的训练样本数；

为第/>

个节点服务器上的数据样本集合；/>

为参数向量/>

的

范数；/>

为正则化参数。

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述基于分布式数据的农作物品种产量预测方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于分布式数据的农作物品种产量预测方法。