CN115564145B - 基于分布式数据的农作物品种产量预测方法及装置 - Google Patents

基于分布式数据的农作物品种产量预测方法及装置 Download PDF

Info

Publication number
CN115564145B
CN115564145B CN202211437703.1A CN202211437703A CN115564145B CN 115564145 B CN115564145 B CN 115564145B CN 202211437703 A CN202211437703 A CN 202211437703A CN 115564145 B CN115564145 B CN 115564145B
Authority
CN
China
Prior art keywords
data
variety
yield
model
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211437703.1A
Other languages
English (en)
Other versions
CN115564145A (zh
Inventor
潘守慧
王开义
刘忠强
韩焱云
王书锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Original Assignee
Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences filed Critical Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Priority to CN202211437703.1A priority Critical patent/CN115564145B/zh
Publication of CN115564145A publication Critical patent/CN115564145A/zh
Application granted granted Critical
Publication of CN115564145B publication Critical patent/CN115564145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Computer Hardware Design (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)

Abstract

本发明提供一种基于分布式数据的农作物品种产量预测方法及装置,属于农业信息处理领域,该方法包括:获取产量预测指标集的指标值,作为预测数据存储在对应节点服务器上;每个节点服务器只存储所属区域内种植的品种对应的预测数据;将预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算,得到特征数据;将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型,输出每个待预测品种的产量预测结果;产量预测模型,是根据每个节点服务器基于本地训练数据进行本地训练后,再利用所有节点服务器的训练参数进行全局协同训练后得到。该方法不仅较好地解决了现实中品种试验数据难以共享的难题,还可使预测结果更为准确。

Description

基于分布式数据的农作物品种产量预测方法及装置
技术领域
本发明涉及农业信息处理领域,尤其涉及一种基于分布式数据的农作物品种产量预测方法及装置。
背景技术
农作物产量的高低,直接关系到粮食安全。近年来,随着商业化育种进程的不断加快,每年都有大量的审定品种上市销售,农户面临选择难等问题。基于品种试验数据预测每个品种在不同区域的产量,有助于农户选择与其所在区域环境条件相适应的农作物品种,对于提升农作物品种精准推广水平具有重要意义。
在现有的品种区域试验管理机制中,由于受经费、人员等因素的限制,试验站点的数量往往较少,导致试验点的布局合理性和代表性不足,因而难以直接根据品种试验数据评估其在每个精细区域内(例如:县区)的适应性和产量。其次,现有的农作物品种产量预测方法,大多是利用统计学模型或机器学习方法对品种的育种值进行估计,没有考虑环境、品种以及环境交互等因素对产量的影响。最后,现有品种产量预测方法,需要对所有试验数据进行统一汇总处理之后才能进行模型的训练,然而,在实际工作中,由于品种试验数据与育种者的商业秘密和技术秘密密切相关,相关育种主体大多不愿共享品种试验数据,往往导致样本训练数据不足和模型过耦合,严重影响到模型预测的准确度,制约了机器学习技术在农作物品种产量预测中的广泛应用。
发明内容
针对现有技术存在的问题,本发明提供一种基于分布式数据的农作物品种产量预测方法及装置。
本发明提供一种基于分布式数据的农作物品种产量预测方法,包括:确定产量预测指标集,所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集;获取待预测品种对应的所述产量预测指标集的指标值,并作为预测数据存储在对应的节点服务器上;其中,每个节点服务器只存储所属区域内种植的品种对应的预测数据;将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算,得到特征数据;将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型,输出每个待预测品种的产量预测结果;其中,所述产量预测模型,是根据每个节点服务器基于本地训练数据进行本地训练后,再利用所有节点服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合;所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据。
根据本发明提供的一种基于分布式数据的农作物品种产量预测方法,所述输出每个待预测品种的产量预测结果之后,还包括:根据所有待预测品种的预测结果,在电子地图上可视化展示待预测品种在待预测区域内的产量热力图,并根据所有待预测品种和待预测区域,生成推广指示信息;其中,所述推广指示信息包括特定品种的若干最适宜种植区域,或者特定区域内的若干最适宜种植品种。
根据本发明提供的一种基于分布式数据的农作物品种产量预测方法,所述获取待预测品种对应的所述产量预测指标集的指标值之后,作为预测数据存储在对应的节点服务器之前,还包括:从历年品种区域试验数据中,获取对照品种与待预测品种在各试验点的每个性状的表型值;获取对照品种与待预测品种的SNP(单核苷酸多态性)分子标记数据;构建基于G矩阵的最佳线性无偏预测GBLUP模型,根据所述待预测品种与对照品种的性状表型值和SNP分子标记数据,确定待预测品种每个性状指标的基因型效应值;将所述基因型效应值作为所述待预测品种的性状指标值。
根据本发明提供的一种基于分布式数据的农作物品种产量预测方法,所述将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型,输出每个待预测品种的产量预测结果,包括:将每个待预测品种的特征数据,分别输入至预设的多个基于联邦学习的产量预测模型,输出每个待预测品种在每个模型中的产量预测结果;根据在每个模型中的产量预测结果,输出每个待预测品种最终的产量预测结果;
所述根据在每个模型中的产量预测结果,输出每个待预测品种最终的产量预测结果,包括:
Figure 912335DEST_PATH_IMAGE001
其中,
Figure 261145DEST_PATH_IMAGE002
Figure 680625DEST_PATH_IMAGE003
为品种
Figure 891027DEST_PATH_IMAGE004
在区域
Figure 322139DEST_PATH_IMAGE005
的最终的产量预测值,
Figure 733529DEST_PATH_IMAGE006
为第
Figure 764939DEST_PATH_IMAGE007
个模型中品种
Figure 762720DEST_PATH_IMAGE004
在区域
Figure 704131DEST_PATH_IMAGE008
的产量预测值,
Figure 411056DEST_PATH_IMAGE004
表示第
Figure 539549DEST_PATH_IMAGE009
个待预测品种,
Figure 108065DEST_PATH_IMAGE008
表示第
Figure 638403DEST_PATH_IMAGE010
个 待预测区域,
Figure 250650DEST_PATH_IMAGE011
为联邦学习模型的个数,
Figure 505920DEST_PATH_IMAGE012
为第
Figure 2760DEST_PATH_IMAGE013
个联邦学习模型的预测精度,
Figure 777818DEST_PATH_IMAGE012
的计算 方式包括:
Figure 170753DEST_PATH_IMAGE014
其中,
Figure 414784DEST_PATH_IMAGE015
表示第
Figure 308791DEST_PATH_IMAGE009
个训练样本数据的真实产量,
Figure 79301DEST_PATH_IMAGE016
表示第
Figure 282618DEST_PATH_IMAGE009
个样本数据在第
Figure 138578DEST_PATH_IMAGE013
个联 邦学习模型中的产量预测值,
Figure 836276DEST_PATH_IMAGE017
为总样本数;
其中,所述多个基于联邦学习的产量预测模型,是分别根据不同的机器学习算法构建得到,所述不同的机器学习算法包括支持向量机、决策树和卷积神经网络。
根据本发明提供的一种基于分布式数据的农作物品种产量预测方法,所述将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型之前,还包括:获取区域样本品种种植过程的所述产量预测指标集的指标值,并作为训练数据存储在本地节点服务器,将每个样本品种的训练数据和产量数据的组合作为本地的训练样本;将每个训练样本中的性状指标值与环境指标值进行笛卡尔乘积运算,得到训练样本的特征数据,并结合训练样本的已知产量数据作为目标值,对初始的本地模型进行本地训练;将本地训练后的本地模型的模型信息发送到由多个节点服务器构成的区块链网络中,以用于区块链网络根据共识机制从所有节点服务器中选出全局服务器,所述全局服务器用于根据每个节点服务器发送的本地模型的模型信息,计算全局模型的梯度,并生成包括全局模型梯度的新区块;每个节点服务器从所述新区块中,获取全局模型的梯度,对本地模型进行更新;其中,所述模型信息包括模型参数、损失函数值和训练时间。
根据本发明提供的一种基于分布式数据的农作物品种产量预测方法,所述对初始的本地模型进行本地训练,包括:根据如下损失函数,基于本地训练样本,对每个本地模型进行本地训练:
Figure 195713DEST_PATH_IMAGE018
其中,
Figure 71396DEST_PATH_IMAGE019
Figure 273707DEST_PATH_IMAGE020
为模型参数
Figure 916041DEST_PATH_IMAGE021
对单个训练样本
Figure 503886DEST_PATH_IMAGE022
的代价函 数;
Figure 940684DEST_PATH_IMAGE023
表示第i个训练样本的预测指标向量,
Figure 630291DEST_PATH_IMAGE015
表示第i个训练样本的产量;
Figure 810737DEST_PATH_IMAGE024
表示第
Figure 754553DEST_PATH_IMAGE024
个节 点服务器;
Figure 486886DEST_PATH_IMAGE025
为第
Figure 539156DEST_PATH_IMAGE024
个节点服务器本地模型上的训练样本数;
Figure 366035DEST_PATH_IMAGE026
为第
Figure 820150DEST_PATH_IMAGE024
个节点服务器上的数据样本集合;
Figure 723384DEST_PATH_IMAGE027
为参数向量
Figure 872737DEST_PATH_IMAGE028
Figure 394985DEST_PATH_IMAGE029
范数;
Figure 828240DEST_PATH_IMAGE030
为正则化参数。
根据本发明提供的一种基于分布式数据的农作物品种产量预测方法,所述根据每个节点服务器发送的本地模型的模型信息,计算全局模型的梯度,包括基于如下损失函数计算全局梯度:
Figure 777742DEST_PATH_IMAGE031
其中,
Figure 647347DEST_PATH_IMAGE032
为参与训练的节点服务器总个数,所有节点服务器本地模型上的总样本 数为
Figure 973286DEST_PATH_IMAGE017
Figure 995468DEST_PATH_IMAGE033
为第
Figure 991237DEST_PATH_IMAGE034
轮迭代时全局模型的损失函数,
Figure 505395DEST_PATH_IMAGE035
是第
Figure 228501DEST_PATH_IMAGE034
轮迭代时的模型参数,
Figure 246135DEST_PATH_IMAGE036
为第
Figure 176920DEST_PATH_IMAGE024
个本地模型在第
Figure 771849DEST_PATH_IMAGE034
轮迭代时的预测值与真实值的离差平方和,
Figure 439591DEST_PATH_IMAGE037
表示第 i个训练样本的产量值,
Figure 921519DEST_PATH_IMAGE038
为所有本地模型在第
Figure 649304DEST_PATH_IMAGE034
轮迭代时的离差平方和的总和,
Figure 997108DEST_PATH_IMAGE039
为预设常数;
Figure 202962DEST_PATH_IMAGE026
为第
Figure 326948DEST_PATH_IMAGE024
个节点服务器上的数据样本集合;
Figure 350268DEST_PATH_IMAGE040
为第
Figure 795156DEST_PATH_IMAGE024
个 节点服务器本地模型上的训练样本数。
本发明还提供一种基于分布式数据的农作物品种产量预测装置,包括:指标筛选模块,用于确定产量预测指标集,所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集;采集模块,用于获取待预测品种对应的所述产量预测指标集的指标值,并作为预测数据存储在对应的节点服务器上;其中,每个节点服务器只存储所属区域内种植的品种对应的预测数据;生成模块,用于将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算,得到特征数据;处理模块,用于将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型,输出每个待预测品种的产量预测结果;其中,所述产量预测模型,是根据每个节点服务器基于本地训练数据进行本地训练后,再利用所有节点服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合;所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于分布式数据的农作物品种产量预测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于分布式数据的农作物品种产量预测方法。
本发明提供的基于分布式数据的农作物品种产量预测方法及装置,选取与品种产量相关的环境指标和性状指标构建基于联邦学习的预测模型,不仅考虑了品种自身的遗传因素,而且考虑了区域环境因素对品种的影响,可使预测结果更为准确。通过每个节点服务器根据本地训练数据进行本地训练后,再根据所有节点服务器的训练参数进行全局更新,可在不共享本地数据的情况下对农作物品种产量预测模型进行联合训练,不仅较好地解决了现实中品种试验数据难以共享的难题,而且与仅使用本地数据训练模型相比,预测模型的性能和准确度大幅提高。本发明有助于品种所有者精准选择推广区域,也有助于农户选择与其所在区域环境相适应的品种,对于提升农作物品种精准推广的智能化水平具有重要意义。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于分布式数据的农作物品种产量预测方法的流程示意图;
图2是本发明提供的基于分布式数据的农作物品种产量预测装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1至图3描述本发明的基于分布式数据的农作物品种产量预测方法及装置。图1是本发明提供的基于分布式数据的农作物品种产量预测方法的流程示意图,如图1所示,本发明提供基于分布式数据的农作物品种产量预测方法,包括:
101、确定产量预测指标集,所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集。
分别从待分析区域的环境指标集和待预测农作物的性状特征中选取与农作物产量相关的上述环境指标集和性状指标集,得到初选的环境指标集和性状指标集。一种实施方式是将初选的环境指标集和性状指标集,作为产量预测指标集。
其中,待分析区域是由一系列单元区域组成,最终得到每个品种在每个单元区域的产量预测值。为叙述方便,下文中有时也将“单元区域”简称为“区域”。
优选地,为了实现品种在每个精细区域内的产量预测,可将单元区域设为县级行政区。
可选地,还包括对上述初选指标集进行筛选和约简,得到最终的环境指标集和性状指标集(作为上述产量预测指标集)。其中,筛选和约简方法包括:关联规则挖掘、聚类分析、层次分析法、因子分析法、灰色关联分析法中任意一种或多种。
其中,环境指标集,包括基础地理类、气候气象类和土壤墒情类中的一种或多种。例如,基础地理类指标包括:地形、地貌、高程、经度和纬度等;气候气象类指标包括:有效积温、日照时长、平均气温、最低气温、最高气温、地表温度、最大风力、平均降水量、最大降水量、平均湿度、气压、光热积和光热比;土壤墒情类指标包括:土壤类型、土壤质地、土壤容重、土壤田间持水量、土壤湿度和土壤温度。
其中,性状指标集可从作物性状特征中选取与产量相关的部分,上述性状特征,是指包括农作物的生育期、株高、叶面积、果实重量等可代表农作物品种特点且能被观察到的特征。例如:小麦的性状主要包括:生育期、株高、叶数、分蘖数、小穗数、穗粒数和千粒重。水稻的性状主要包括:生育期、有效分蘖数、主茎叶数、株高、剑叶长、剑叶宽、穗数、穗长、穗粒数和千粒重。玉米的性状主要包括:千粒重、穗粗、株高、穗行数、行粒数和穗重。大豆的性状主要包括:单株粒数、百粒重、单株荚数和株高。
针对不同种类的作物,从上述环境指标集和性状特征中选取,与产量相关的环境指标集和性状指标集。
102、获取待预测品种对应的所述产量预测指标集的指标值,并作为预测数据存储在对应的节点服务器上;其中,每个节点服务器只存储所属区域内种植的品种对应的预测数据。
其中,所述待预测品种对应的所述产量预测指标集的指标值,是指待预测品种在待分析区域内的部分单元区域内种植后得到的某些性状的表型值。在此基础上,计算出待预测品种在未被种植过的单元区域内的产量。
本发明中可利用多个节点服务器定期获取辖区内待预测品种的产量预测指标集对应的指标值数据(即产量预测指标集对应的具体取值),并对所获取的数据进行预处理后存储。
其中,每个节点服务器只存储所属区域品种对应的预测数据,这样可以满足保密性的需求。而所属区域不限于一个单元区域,可以由多个单元区域构成。例如,节点服务器可同时管辖区域X、Y和Z。
具体而言,每个节点服务器,只存储在某些区域内进行试验的品种试验数据。例如,品种A在北京、济南、郑州开展试验;品种B在北京、石家庄、郑州开展试验;品种C在沈阳、济南、大同开展试验。若每个试验点设一个节点服务器(实际中也可将多个地点的数据,存储在一个节点服务器中),则“北京”节点服务器仅存储品种A和B在北京试验点的试验数据;品种A在其他试验点的试验数据由其他服务器存储;“济南”节点服务器仅存储品种A和C在济南试验点的数据,“郑州”节点服务器仅存储品种A和B在郑州试验点的数据。
优选地,可按品种的权属关系将所有品种分为N组,同时设置N个节点服务器用于 获取、处理和存储每组品种的样本数据,即第i部分品种的相关数据由第i个节点服务器进 行获取、处理和存储,其中,
Figure 414487DEST_PATH_IMAGE041
区域环境指标值数据可从国家地理信息公共服务平台、气象数据网、国家土壤信息服务平台、土壤科学数据库、国家农业科学数据中心、国家测土配方施肥数据管理平台等数据源获取。若某个单元区域内缺少某个环境指标值,可使用空间插值法对相应指标值进行估计,所述空间插值法包括:克里金插值法、反距离加权插值法、自然邻点插值法、最近邻点插值法中任意一种或多种。
区域环境指标值数据经数据预处理和数据融合后,可通过品种试验地点的经纬度与待分析区域经纬度范围之间的关系,将品种试验数据与区域环境数据之间建立关联关系。
其中,所述数据融合方法包括综合运用本体对齐、实体链接和冲突解决技术,对所获取的区域环境数据进行语义关联,消除不同来源数据之间的异构性。
该步骤中,还包括对预测指标集的指标值进行预处理,包括动态脱敏、数据清洗、缺失值处理、噪声数据处理、数据归一化和标准化中任意一种或多种。
进一步地,数据归一化方法包括:若指标
Figure 526799DEST_PATH_IMAGE010
为正向指标,则
Figure 455441DEST_PATH_IMAGE042
若指标
Figure 761526DEST_PATH_IMAGE010
为逆向指标,则
Figure 309182DEST_PATH_IMAGE043
若指标
Figure 400635DEST_PATH_IMAGE010
为适度指标,则
Figure 109965DEST_PATH_IMAGE044
其中,
Figure 670391DEST_PATH_IMAGE045
为第
Figure 21738DEST_PATH_IMAGE009
个品种的第
Figure 702118DEST_PATH_IMAGE010
个指标归一 化后的值,
Figure 487409DEST_PATH_IMAGE046
为第
Figure 394185DEST_PATH_IMAGE009
个品种的第
Figure 142698DEST_PATH_IMAGE010
个指标的原始值,
Figure 84109DEST_PATH_IMAGE047
为所有数据中第
Figure 276187DEST_PATH_IMAGE010
个指标的 最大值,
Figure 529314DEST_PATH_IMAGE048
为所有数据中第
Figure 222464DEST_PATH_IMAGE010
个指标的最小值,
Figure 392283DEST_PATH_IMAGE049
为第
Figure 879896DEST_PATH_IMAGE010
个指标的理想值。
103、将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算,得到特征数据。
例如:品种集合
Figure 885898DEST_PATH_IMAGE050
,每个品种包含3个性状指标值,即
Figure 117159DEST_PATH_IMAGE051
, 其中
Figure 377370DEST_PATH_IMAGE052
表示第i个品种的第j个性状指标的值,
Figure 426098DEST_PATH_IMAGE053
Figure 794762DEST_PATH_IMAGE054
;单元区域集合
Figure 938036DEST_PATH_IMAGE055
,每个区域包含2个环境指标值,即
Figure 442967DEST_PATH_IMAGE056
,其中
Figure 662596DEST_PATH_IMAGE057
表示第k个品种的第 j个性状指标的值,
Figure 518556DEST_PATH_IMAGE058
Figure 701407DEST_PATH_IMAGE059
。则进行笛卡尔乘积运算后,得到的特征数据为:
Figure 451057DEST_PATH_IMAGE060
Figure 451374DEST_PATH_IMAGE061
若品种
Figure 902953DEST_PATH_IMAGE062
已在区域
Figure 545287DEST_PATH_IMAGE063
内开展过种植试验,则品种
Figure 149444DEST_PATH_IMAGE062
的性状指标值与区域
Figure 196028DEST_PATH_IMAGE064
的环境 指标值构成的特征数据可作为训练数据用于预测模型的构建。
在实际应用中,一个品种大多只在一个生态区内推广种植。因此,在生成一个品种的“品种-区域环境”的特征数据时,需要限定该品种对应的待分析区域范围,即该品种的性状指标值只能与指定生态区的单元区域的环境指标值进行笛卡尔乘积运算,进而得到特征数据。
104、将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型,输出每个待预测品种的产量预测结果。
其中,所述产量预测模型,是根据每个节点服务器基于本地训练数据进行本地训练后,再利用所有节点服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合;所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据。
具体而言,每个节点服务器基于本地训练数据进行本地训练,本地训练后,将本地训练的训练参数发送给网络中的其他节点服务器。基于所有节点服务器的训练参数进行全局更新,得到最终的模型训练参数,每个节点服务器采用最终的模型训练参数,最终形成基于联邦学习的农作物品种产量预测模型。其中,每个节点服务器的模型结构相同。
由于本发明的联邦学习通过迭代训练运算方式实现了“数据可用不可见”、“数据不出门”,不仅解决了传统机器学习中心化依赖、数据隐私保护的问题,而且可引入更多育种企业或组织的试验数据加入,有利于从整体上提升模型的预测精度。
优选地,为了使本发明所述预测方法达到最佳效果,在对农作物品种产量进行预测时,应确保预测模型的训练数据和测试数据均来自于同种作物,最好是栽培季节相同的同种作物。也就是说,利用作物A的品种的样本数据训练后得到的模型参数,不能直接用于作物B的品种产量预测,需要使用作物B的样本数据重新训练模型。
本发明的基于分布式数据的农作物品种产量预测方法,选取与农作物品种产量相关的环境指标和性状指标构建基于联邦学习的预测模型,不仅考虑了品种自身的遗传因素,而且考虑了区域环境因素对品种的影响,可使预测结果更为准确。每个节点服务器根据本地训练数据进行本地训练后,再根据所有节点服务器的训练参数进行全局更新,可以在不共享本地数据的情况下对农作物品种产量预测模型进行联合训练,不仅较好地解决了现实中品种试验数据难以共享的难题,而且与仅使用本地数据训练模型相比,预测模型的性能和准确度大幅提高。本发明有助于品种所有者精准选择推广区域,也有助于农户选择与其所在区域环境相适应的品种,对于提升农作物品种精准推广的智能化水平具有重要意义。
在一个实施例中,所述输出每个待预测品种的产量预测结果之后,还包括:根据所有待预测品种的预测结果,在电子地图上可视化展示待预测品种在待预测区域内的产量热力图,并根据所有待预测品种和待预测区域,生成推广指示信息;其中,所述推广指示信息包括特定品种的若干最适宜种植区域,或者特定区域内的若干最适宜种植品种。
可选地,所述特定品种的若干最适宜种植区域,是指为一个特定品种筛选出产量最高的K个单元区域;所述指定区域内的最适宜种植品种,是指为一个特定单元区域内筛选出产量最高的K个品种。
在一个实施例中,所述获取待预测品种对应的所述产量预测指标集的指标值之后,作为预测数据存储在对应的节点服务器之前,还包括:从历年品种区域试验数据中,获取对照品种与待预测品种在各试验点的每个性状的表型值;获取对照品种与待预测品种的SNP分子标记数据;构建基于G矩阵的最佳线性无偏预测GBLUP模型,根据所述待预测品种与对照品种的性状表型值和SNP分子标记数据,确定待预测品种每个性状指标的基因型效应值;将所述基因型效应值作为所述待预测品种的性状指标值。其中,对照品种是同种类型作物中具有较强环境稳定性的成熟品种,本实施例中可为计算待预测品种的基因型效应值提供参考标杆。
本发明实施例中,通过GBLUP模型对待预测品种的每一表型性状值进行建模,计算每一表型性状值中品种自身的遗传因素所占的贡献,即估计出品种的每一性状的基因型效应值,并将所述性状的基因型效应值作为性状指标值,进行后续103和104的预测。
具体而言,先获取对照品种与待预测品种的SNP分子标记数据。其中,SNP分子标记数据可委托第三方机构进行基因检测后得到,也可从现有的植物SNP数据库中查询得到。
然后,构建基于G矩阵的GBLUP模型,得到每个品种基因组的基因型效应值,可表示为:
Figure 761002DEST_PATH_IMAGE065
其中,
Figure 800502DEST_PATH_IMAGE066
Figure 400111DEST_PATH_IMAGE067
维的品种表型性状值向量(向量中每个元素的值为对应品种的表 型性状值),n为品种的表型观测样本数,
Figure 116132DEST_PATH_IMAGE068
Figure 168401DEST_PATH_IMAGE069
维的固定效应的设计矩阵(p为试验点 数量),
Figure 11592DEST_PATH_IMAGE070
Figure 75494DEST_PATH_IMAGE071
维的随机加性遗传效应的设计矩阵(q为待分析品种个数),
Figure 854095DEST_PATH_IMAGE072
Figure 518294DEST_PATH_IMAGE073
中的 元素是由已知的0和1组成,即对于
Figure 774963DEST_PATH_IMAGE074
中的第i行元素与第i个观测样本对应,若第i个观测样 本在第j(j=1,2, … , p)个区域种植过,则
Figure 457486DEST_PATH_IMAGE075
的值为1,否则为0;同理,对于
Figure 266042DEST_PATH_IMAGE076
中的第i行 元素与第i个观测样本对应,若第i个观测样本对应的品种为品种j(j=1,2, … , q),则
Figure 27325DEST_PATH_IMAGE077
的值为1,否则为0;
Figure 228630DEST_PATH_IMAGE078
Figure 391758DEST_PATH_IMAGE079
维的固定效应,
Figure 371215DEST_PATH_IMAGE080
Figure 885373DEST_PATH_IMAGE081
维的随机加性遗传效应,
Figure 857746DEST_PATH_IMAGE082
Figure 15DEST_PATH_IMAGE083
维的残差向量。其中,
Figure 556898DEST_PATH_IMAGE078
Figure 168139DEST_PATH_IMAGE080
为待估计值,
Figure 304722DEST_PATH_IMAGE078
与地点相关,
Figure 301497DEST_PATH_IMAGE080
与遗传效应相关,因此 主要对
Figure 403183DEST_PATH_IMAGE080
进行估计。对应的混合模型方程组,可表示为:
Figure 360775DEST_PATH_IMAGE084
进而可以得到:
Figure 956841DEST_PATH_IMAGE085
其中,
Figure 683489DEST_PATH_IMAGE086
为随机加性遗传效应变量
Figure 191962DEST_PATH_IMAGE080
的估计值(即品种个体对应性状的基因型效 应值);
Figure 761483DEST_PATH_IMAGE087
为固定效应变量
Figure 771028DEST_PATH_IMAGE078
的估计值;
Figure 991662DEST_PATH_IMAGE088
Figure 795670DEST_PATH_IMAGE089
为误差方差,
Figure 852488DEST_PATH_IMAGE090
为加性遗传 效应方差,
Figure 665723DEST_PATH_IMAGE091
为性状的遗传力;
Figure 242329DEST_PATH_IMAGE092
为矩阵
Figure 341872DEST_PATH_IMAGE093
的转置;
Figure 761352DEST_PATH_IMAGE094
为矩阵
Figure 486600DEST_PATH_IMAGE095
的转置;矩阵
Figure 307926DEST_PATH_IMAGE096
为品种之间的关系矩阵,通过计算品种之间的SNP标记的相关性而构建,其中
Figure 312791DEST_PATH_IMAGE097
为品种
Figure 94933DEST_PATH_IMAGE009
的SNP标记与品种
Figure 249971DEST_PATH_IMAGE010
的SNP标记之间的相关性系数;在计算品种之间的相关性 时,首先将品种的SNP字母标记转换为一组由数字构成的向量。本发明中,可采用0/1/2编码 方式对每个标记进行转换,即用数字0、1、2分别表示不同类型的SNP标记,其中0表示主效基 因标记,1表示杂合标记,2表示微效基因标记。
本发明实施例的基于分布式数据的农作物品种产量预测方法,基于G矩阵的最佳线性无偏预测GBLUP模型,根据待预测品种与对照品种的SNP分子标记数据和性状表型值,确定待预测品种每个性状指标的基因型效应值,消除了待预测品种性状指标值中受环境影响而导致的性状表现,确定的基因型效应值是只反应遗传效应和基因表现的性状。将基因型效应值作为待预测品种的性状指标值,然后结合环境指标进行104中的预测,可提高品种产量预测的准确度。
在一个实施例中,所述将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型,输出每个待预测品种的产量预测结果,包括:将每个待预测品种的特征数据,分别输入至预设的多个基于联邦学习的产量预测模型,输出每个待预测品种在每个模型中的产量预测结果;根据在每个模型中的产量预测结果,输出每个待预测品种最终的产量预测结果;其中,所述多个基于联邦学习的产量预测模型,是分别根据不同的机器学习算法构建得到,所述不同的机器学习算法包括支持向量机、决策树和卷积神经网络。
为了提高农作物品种产量预测的准确度,本发明实施例中同时构建多个不同类型的基于联邦学习的预测模型,每个模型分别使用不同的机器学习算法进行联邦学习,比如可构建三种使用不同机器学习算法的联邦学习模型,分别使用支持向量机、决策树、卷积神经网络三种机器学习算法进行模型训练,分别得到每个模型的预测精度,然后对所有模型给出的产量预测结果进行加权求和,进而得到最终的产量预测结果。可用公式描述如下:
Figure 784858DEST_PATH_IMAGE098
其中,
Figure 367149DEST_PATH_IMAGE099
Figure 135122DEST_PATH_IMAGE100
为品种
Figure 687326DEST_PATH_IMAGE004
在区域
Figure 483244DEST_PATH_IMAGE008
的最终的产量预测值,
Figure 111803DEST_PATH_IMAGE101
为第
Figure 462013DEST_PATH_IMAGE007
个联邦学习模型中品种
Figure 83487DEST_PATH_IMAGE004
在区域
Figure 842233DEST_PATH_IMAGE008
的产量预测值,
Figure 766327DEST_PATH_IMAGE004
表示第
Figure 259625DEST_PATH_IMAGE009
个待预测 品种,
Figure 28998DEST_PATH_IMAGE008
表示第
Figure 409295DEST_PATH_IMAGE010
个待预测区域,
Figure 504290DEST_PATH_IMAGE011
为联邦学习模型的个数,
Figure 953726DEST_PATH_IMAGE012
为第
Figure 166270DEST_PATH_IMAGE013
个联邦学习模型的 预测精度,
Figure 525707DEST_PATH_IMAGE012
的计算方式包括:
Figure 916237DEST_PATH_IMAGE102
其中,
Figure 993915DEST_PATH_IMAGE015
表示第
Figure 980456DEST_PATH_IMAGE009
个训练样本数据的真实产量,
Figure 584613DEST_PATH_IMAGE016
表示第
Figure 21411DEST_PATH_IMAGE009
个样本数据在第
Figure 694706DEST_PATH_IMAGE013
个联 邦学习模型中的产量预测值,
Figure 875152DEST_PATH_IMAGE017
为总样本数。
在一个实施例中,所述将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型之前,还包括:获取区域样本品种种植过程的所述产量预测指标集的指标值,并作为训练数据存储在本地节点服务器,将每个样本品种的训练数据和产量数据的组合作为本地训练样本;将每个训练样本中的性状指标值与环境指标值进行笛卡尔乘积运算,得到训练样本的特征数据,并结合训练样本的已知产量数据作为目标值,对初始的基于联邦学习的产量预测模型中的每个本地模型进行本地训练。
将本地训练后的本地模型的模型信息发送到由多个节点服务器构成的区块链网络中,以用于区块链网络根据共识机制从所有节点服务器中选出全局服务器,所述全局服务器用于根据每个节点服务器发送的本地模型的模型信息,计算全局模型的梯度,并生成包括全局模型梯度的新区块;每个节点服务器从所述新区块中,获取全局模型的梯度,对本地模型进行更新;其中,所述模型信息包括模型参数、损失函数值和训练时间。
具体而言,上述基于联邦学习的农作物品种产量预测模型,是在所有节点服务器无需共享本地原始数据的情况下利用分布式数据与算力进行联合训练得到。此外,为了解决联邦学习模型训练过程中遇到的“中心依赖”难题,即模型训练过程中需要依赖一个中心服务器去分享、整合训练模型,本发明实施例的模型在训练过程中是利用区块链存储和更新模型信息。模型训练过程包括:
(1)本地模型初始化:为所有节点服务器上的本地模型设置初始化参数;
(2)本地模型训练:所有节点服务器分别基于本地数据进行训练,经过若干次本地迭代后,得到更新后的本地模型参数;
(3)本地模型上传:节点服务器向附近关联的区块链网络上的节点服务器上传本地模型信息,包括:模型参数、损失函数差值,还可包括模型计算时间;
(4)交叉验证:附近关联的所有节点服务器将上述节点服务器上传的本地模型信息进行广播传递和验证,验证通过后将其记录在区块链网络中相关节点服务器的候选块中;
(5)块生成与广播:通过共识机制从区块链网络上的所有节点服务器中通过共识机制选举领导者,负责计算全局模型的梯度并生成新区块,对新区块的合法性进行验证后,并向区块链网络上的其他节点服务器全网发送ACK(Acknowledge Character)标识广播通过验证的区块;
(6)全局本地模型下载更新:每个节点服务器从附近关联的区块链网络上的服务器下载新区块,从中获取全局模型的梯度,进而更新本地模型。
进一步地,全局模型与每个本地模型都是使用的同一类型的机器学习方法,各模型都具有相同类型的参数。实际应用中,每个本地模型既可以是卷积神经网络、循环神经网络、生成对抗网络、决策树、贝叶斯、支持向量机、条件随机场等任一方法实现的单分类器;也可以是基于集成学习思想实现的组合分类器,包括:随机森林、bagging、boosting。优选地,可以利用遗传算法或粒子群算法寻找模型的初始化参数。
进一步地,共识机制包括:工作量证明机制、权益证明机制、股份授权证明机制和Pool验证池。
由于区块链是一个去中心化分布式账本,规避了中心化系统数据可能泄露的弊端,因而可解决传统联邦学习中遇到的“中心依赖”难题;由于区块链中的信息具有不可篡改和可以追溯的特性,可一定程度上避免模型训练过程中恶意数据拥有者对系统的破坏;此外,区块链通过共识机制设计,还可以解决传统联邦学习训练过程中个别节点激励不足的问题,即数据量小的用户对联邦学习感兴趣,数据量大的用户缺乏动力。本发明的方法,有助于提升数据安全性、系统稳定性和预测模型性能。
在一个实施例中,所述对基于联邦学习的产量预测模型中的每个本地模型进行本地训练,包括:根据如下损失函数,基于本地训练样本,对每个本地模型进行本地训练:
Figure 333815DEST_PATH_IMAGE103
其中,
Figure 816880DEST_PATH_IMAGE019
Figure 603571DEST_PATH_IMAGE020
为模型参数
Figure 446762DEST_PATH_IMAGE028
对单个训练样本
Figure 900877DEST_PATH_IMAGE022
的代价函 数;
Figure 811237DEST_PATH_IMAGE023
表示第i个训练样本的预测指标向量,
Figure 209857DEST_PATH_IMAGE104
表示第i个训练样本的产量;
Figure 466526DEST_PATH_IMAGE024
表示第
Figure 650514DEST_PATH_IMAGE024
个节 点服务器;
Figure 600015DEST_PATH_IMAGE025
为第
Figure 485931DEST_PATH_IMAGE024
个节点服务器本地模型上的训练样本数;
Figure 920193DEST_PATH_IMAGE026
为第
Figure 348900DEST_PATH_IMAGE024
个节点服务器上的数据样本集合;
Figure 328357DEST_PATH_IMAGE027
为参数向量
Figure 576936DEST_PATH_IMAGE028
Figure 316353DEST_PATH_IMAGE029
范数;
Figure 458621DEST_PATH_IMAGE030
为正则化参数。
在一个实施例中,所述根据每个节点服务器发送的本地模型的模型信息,计算全局模型的梯度,包括基于如下损失函数计算全局梯度:
Figure 749925DEST_PATH_IMAGE105
其中,
Figure 594122DEST_PATH_IMAGE032
为参与训练的节点服务器总个数,所有节点服务器本地模型上的总样本 数为
Figure 261864DEST_PATH_IMAGE017
Figure 524218DEST_PATH_IMAGE033
为第
Figure 596211DEST_PATH_IMAGE034
轮迭代时全局模型的损失函数,
Figure 819382DEST_PATH_IMAGE035
是第
Figure 415448DEST_PATH_IMAGE034
轮迭代时的模型参数,
Figure 142096DEST_PATH_IMAGE036
为第
Figure 149104DEST_PATH_IMAGE024
个本地模型在第
Figure 859571DEST_PATH_IMAGE034
轮迭代时的预测值与真实值的离差平方和,
Figure 728169DEST_PATH_IMAGE037
表示第 i个训练样本的产量值,
Figure 450269DEST_PATH_IMAGE038
为所有本地模型在第
Figure 519856DEST_PATH_IMAGE034
轮迭代时的离差平方和的总和,
Figure 311095DEST_PATH_IMAGE039
为预设常数;
Figure 124330DEST_PATH_IMAGE026
为第
Figure 199471DEST_PATH_IMAGE024
个节点服务器上的数据样本集合;
Figure 299014DEST_PATH_IMAGE040
为第
Figure 718494DEST_PATH_IMAGE024
个 节点服务器本地模型上的训练样本数。
其中,共有
Figure 945207DEST_PATH_IMAGE032
个节点服务器(本地模型)参与训练,第
Figure 766533DEST_PATH_IMAGE024
个本地模型上的数据样本 数为
Figure 36977DEST_PATH_IMAGE025
,所有本地模型上的总样本数为
Figure 943753DEST_PATH_IMAGE017
,待优化目标函数为
Figure 207113DEST_PATH_IMAGE106
,其中
Figure 7579DEST_PATH_IMAGE107
Figure 589870DEST_PATH_IMAGE021
的 假设空间。本地模型的训练目标是使其损失函数最小,即
Figure 593729DEST_PATH_IMAGE108
进一步地,在定义全局模型的总体损失函数时,既要考虑每个本地模型中样本数 据量,又要考虑其每次迭代时的模型性能,为此将全局模型的总体损失函数的计算公式定 义为上述
Figure 286879DEST_PATH_IMAGE033
形式。
Figure 207430DEST_PATH_IMAGE039
为内置常数,一般取值为0.5。
优选地,可采用随机梯度下降算法以最小化本地模型的损失函数。经过
Figure 803365DEST_PATH_IMAGE034
轮迭代 后,第
Figure 684734DEST_PATH_IMAGE024
个本地模型的参数更新可表示为:
Figure 40629DEST_PATH_IMAGE109
其中,
Figure 691053DEST_PATH_IMAGE110
为第
Figure 490513DEST_PATH_IMAGE024
个本地模型在第
Figure 452653DEST_PATH_IMAGE111
轮时的参数值,
Figure 487605DEST_PATH_IMAGE112
为第
Figure 366437DEST_PATH_IMAGE024
个本地模型在第
Figure 461432DEST_PATH_IMAGE034
轮时的参数值,
Figure 176447DEST_PATH_IMAGE113
为全局模型在第
Figure 624877DEST_PATH_IMAGE034
轮迭代时的梯度,
Figure 249893DEST_PATH_IMAGE114
为学习率。
下面对本发明提供的基于分布式数据的农作物品种产量预测装置进行描述,下文描述的基于分布式数据的农作物品种产量预测装置与上文描述的基于分布式数据的农作物品种产量预测方法可相互对应参照。
图2是本发明提供的基于分布式数据的农作物品种产量预测装置的结构示意图,如图2所示,该基于分布式数据的农作物品种产量预测装置包括:指标筛选模块201、采集模块202、生成模块203和处理模块204。其中,指标筛选模块201用于确定产量预测指标集,所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集;采集模块202用于获取待预测品种对应的所述产量预测指标集的指标值,并作为预测数据存储在对应的节点服务器上;其中,每个节点服务器只存储所属区域内种植的品种对应的预测数据;生成模块203用于将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算,得到特征数据;处理模块204用于将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型,输出每个待预测品种的产量预测结果;其中,所述产量预测模型,是根据每个节点服务器基于本地训练数据进行本地训练后,再利用所有节点服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合;所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据。
本发明实施例提供的装置实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
本发明实施例所提供的基于分布式数据的农作物品种产量预测装置,其实现原理及产生的技术效果和前述基于分布式数据的农作物品种产量预测方法实施例相同,为简要描述,基于分布式数据的农作物品种产量预测装置实施例部分未提及之处,可参考前述基于分布式数据的农作物品种产量预测方法实施例中相应内容。
图3是本发明提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令,以执行基于分布式数据的农作物品种产量预测方法,该方法包括:确定产量预测指标集,所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集;获取待预测品种对应的所述产量预测指标集的指标值,并作为预测数据存储在对应的节点服务器上;其中,每个节点服务器只存储所属区域内种植的品种对应的预测数据;将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算,得到特征数据;将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型,输出每个待预测品种的产量预测结果;其中,所述产量预测模型,是根据每个节点服务器基于本地训练数据进行本地训练后,再利用所有节点服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合;所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于分布式数据的农作物品种产量预测方法,该方法包括:确定产量预测指标集,所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集;获取待预测品种对应的所述产量预测指标集的指标值,并作为预测数据存储在对应的节点服务器上;其中,每个节点服务器只存储所属区域内种植的品种对应的预测数据;将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算,得到特征数据;将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型,输出每个待预测品种的产量预测结果;其中,所述产量预测模型,是根据每个节点服务器基于本地训练数据进行本地训练后,再利用所有节点服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合;所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于分布式数据的农作物品种产量预测方法,其特征在于,包括:
确定产量预测指标集,所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集;
获取待预测品种对应的所述产量预测指标集的指标值,并作为预测数据存储在对应的节点服务器上;其中,每个节点服务器只存储所属区域内种植的品种对应的预测数据;
将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算,得到特征数据;
将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型,输出每个待预测品种的产量预测结果;
其中,所述产量预测模型,是根据每个节点服务器基于本地训练数据进行本地训练后,再利用所有节点服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合;所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据;
其中,所述将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型之前,还包括:
获取区域样本品种种植过程的所述产量预测指标集的指标值,并作为训练数据存储在本地节点服务器,将每个样本品种的训练数据和产量数据的组合作为本地训练样本;
将每个训练样本中的性状指标值与环境指标值进行笛卡尔乘积运算,得到训练样本的特征数据,并结合训练样本的已知产量数据作为目标值,对基于联邦学习的产量预测模型中的每个本地模型进行本地训练;
将本地训练后的本地模型的模型信息发送到由多个节点服务器构成的区块链网络中,以用于区块链网络根据共识机制从所有节点服务器中选出全局服务器,所述全局服务器用于根据每个节点服务器发送的本地模型的模型信息,计算全局模型的梯度,并生成包括全局模型梯度的新区块;
每个节点服务器从所述新区块中,获取全局模型的梯度,并对本地模型进行更新;
其中,所述模型信息包括模型参数、损失函数值和训练时间;
所述对基于联邦学习的产量预测模型中的每个本地模型进行本地训练,包括:
根据如下损失函数,基于本地训练样本,对每个本地模型进行本地训练:
Figure QLYQS_1
其中,
Figure QLYQS_5
,/>
Figure QLYQS_8
为模型参数/>
Figure QLYQS_10
对单个训练样本/>
Figure QLYQS_11
的代价函数;/>
Figure QLYQS_13
表示第i个训练样本的预测指标向量,/>
Figure QLYQS_16
表示第i个训练样本的真实产量;/>
Figure QLYQS_17
表示第/>
Figure QLYQS_2
个节点服务器;/>
Figure QLYQS_4
为第/>
Figure QLYQS_6
个节点服务器本地模型上的训练样本数;
Figure QLYQS_7
为第/>
Figure QLYQS_9
个节点服务器上的数据样本集合;/>
Figure QLYQS_12
为参数向量/>
Figure QLYQS_14
Figure QLYQS_15
范数;/>
Figure QLYQS_3
为正则化参数。
2.根据权利要求1所述的基于分布式数据的农作物品种产量预测方法,其特征在于,所述输出每个待预测品种的产量预测结果之后,还包括:
根据所有待预测品种的预测结果,在电子地图上可视化展示待预测品种在待预测区域内的产量热力图,并根据所有待预测品种和待预测区域,生成推广指示信息;
其中,所述推广指示信息包括特定品种的若干最适宜种植区域,或者特定区域内的若干最适宜种植品种。
3.根据权利要求1所述的基于分布式数据的农作物品种产量预测方法,其特征在于,所述获取待预测品种对应的所述产量预测指标集的指标值之后,作为预测数据存储在对应的节点服务器之前,还包括:
从历年品种区域试验数据中,获取对照品种与待预测品种在各试验点的每个性状的表型值;
获取对照品种与待预测品种的SNP分子标记数据;
构建基于G矩阵的最佳线性无偏预测GBLUP模型,根据所述待预测品种与对照品种的性状表型值和SNP分子标记数据,确定待预测品种每个性状指标的基因型效应值;
将所述基因型效应值作为所述待预测品种的性状指标值。
4.根据权利要求1所述的基于分布式数据的农作物品种产量预测方法,其特征在于,所述将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型,输出每个待预测品种的产量预测结果,包括:
将每个待预测品种的特征数据,分别输入至预设的多个基于联邦学习的产量预测模型,输出每个待预测品种在每个模型中的产量预测结果;
根据在每个模型中的产量预测结果,输出每个待预测品种最终的产量预测结果;
所述根据在每个模型中的产量预测结果,输出每个待预测品种最终的产量预测结果,包括:
Figure QLYQS_18
其中,
Figure QLYQS_20
,/>
Figure QLYQS_22
为品种/>
Figure QLYQS_24
在区域/>
Figure QLYQS_25
的最终的产量预测值,/>
Figure QLYQS_28
为第
Figure QLYQS_29
个模型中品种/>
Figure QLYQS_31
在区域/>
Figure QLYQS_19
的产量预测值,/>
Figure QLYQS_21
表示第i个待预测品种,/>
Figure QLYQS_23
表示第j个待预测区域,M为联邦学习模型的个数,/>
Figure QLYQS_26
为第/>
Figure QLYQS_27
个联邦学习模型的预测精度,/>
Figure QLYQS_30
的计算方式包括:
Figure QLYQS_32
其中,
Figure QLYQS_33
表示第i个训练样本数据的真实产量,/>
Figure QLYQS_34
表示第i个样本数据在第/>
Figure QLYQS_35
个联邦学习模型中的产量预测值,/>
Figure QLYQS_36
为总样本数;
其中,所述多个基于联邦学习的产量预测模型,是分别根据不同的机器学习算法构建得到,所述不同的机器学习算法包括支持向量机、决策树和卷积神经网络。
5.根据权利要求1所述的基于分布式数据的农作物品种产量预测方法,其特征在于,所述根据每个节点服务器发送的本地模型的模型信息,计算全局模型的梯度,包括利用如下损失函数计算全局梯度:
Figure QLYQS_37
其中,
Figure QLYQS_42
为参与训练的节点服务器总个数,所有节点服务器本地模型上的总样本数为/>
Figure QLYQS_44
;/>
Figure QLYQS_47
为第/>
Figure QLYQS_49
轮迭代时全局模型的损失函数,/>
Figure QLYQS_50
是第/>
Figure QLYQS_52
轮迭代时的模型参数,
Figure QLYQS_54
为第/>
Figure QLYQS_38
个本地模型在第/>
Figure QLYQS_41
轮迭代时的预测值与真实值的离差平方和,/>
Figure QLYQS_43
表示第i个训练样本的产量值,/>
Figure QLYQS_45
为所有本地模型在第/>
Figure QLYQS_46
轮迭代时的离差平方和的总和,/>
Figure QLYQS_48
为预设常数;/>
Figure QLYQS_51
为第/>
Figure QLYQS_53
个节点服务器上的数据样本集合;/>
Figure QLYQS_39
为第/>
Figure QLYQS_40
个节点服务器本地模型上的训练样本数。
6.一种基于分布式数据的农作物品种产量预测装置,其特征在于,包括:
指标筛选模块,用于确定产量预测指标集,所述产量预测指标集包括与农作物产量相关的环境指标集和性状指标集;
采集模块,用于获取待预测品种对应的所述产量预测指标集的指标值,并作为预测数据存储在对应的节点服务器上;其中,每个节点服务器只存储所属区域内种植的品种对应的预测数据;
生成模块,用于将所述预测数据中的性状指标值与环境指标值进行笛卡尔乘积运算,得到特征数据;
处理模块,用于将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型,输出每个待预测品种的产量预测结果;
其中,所述产量预测模型,是根据每个节点服务器基于本地训练数据进行本地训练后,再利用所有节点服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为每个节点服务器所属区域进行种植试验后的样本数据和对应产量数据的组合;所述样本数据为根据品种在已种植试验中各性状的指标值及其对应试验地点所属单元区域的环境指标值得到的特征数据;
所述装置还用于,将每个待预测品种的特征数据,分别输入至预设的基于联邦学习的产量预测模型之前:
获取区域样本品种种植过程的所述产量预测指标集的指标值,并作为训练数据存储在本地节点服务器,将每个样本品种的训练数据和产量数据的组合作为本地训练样本;
将每个训练样本中的性状指标值与环境指标值进行笛卡尔乘积运算,得到训练样本的特征数据,并结合训练样本的已知产量数据作为目标值,对基于联邦学习的产量预测模型中的每个本地模型进行本地训练;
将本地训练后的本地模型的模型信息发送到由多个节点服务器构成的区块链网络中,以用于区块链网络根据共识机制从所有节点服务器中选出全局服务器,所述全局服务器用于根据每个节点服务器发送的本地模型的模型信息,计算全局模型的梯度,并生成包括全局模型梯度的新区块;
每个节点服务器从所述新区块中,获取全局模型的梯度,并对本地模型进行更新;
其中,所述模型信息包括模型参数、损失函数值和训练时间;
所述对基于联邦学习的产量预测模型中的每个本地模型进行本地训练,包括:
根据如下损失函数,基于本地训练样本,对每个本地模型进行本地训练:
Figure QLYQS_55
其中,
Figure QLYQS_59
,/>
Figure QLYQS_60
为模型参数/>
Figure QLYQS_62
对单个训练样本/>
Figure QLYQS_64
的代价函数;/>
Figure QLYQS_65
表示第i个训练样本的预测指标向量,/>
Figure QLYQS_67
表示第i个训练样本的真实产量;/>
Figure QLYQS_69
表示第/>
Figure QLYQS_56
个节点服务器;/>
Figure QLYQS_58
为第/>
Figure QLYQS_61
个节点服务器本地模型上的训练样本数;
Figure QLYQS_63
为第/>
Figure QLYQS_66
个节点服务器上的数据样本集合;/>
Figure QLYQS_68
为参数向量/>
Figure QLYQS_70
Figure QLYQS_71
范数;/>
Figure QLYQS_57
为正则化参数。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述基于分布式数据的农作物品种产量预测方法。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于分布式数据的农作物品种产量预测方法。
CN202211437703.1A 2022-11-17 2022-11-17 基于分布式数据的农作物品种产量预测方法及装置 Active CN115564145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211437703.1A CN115564145B (zh) 2022-11-17 2022-11-17 基于分布式数据的农作物品种产量预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211437703.1A CN115564145B (zh) 2022-11-17 2022-11-17 基于分布式数据的农作物品种产量预测方法及装置

Publications (2)

Publication Number Publication Date
CN115564145A CN115564145A (zh) 2023-01-03
CN115564145B true CN115564145B (zh) 2023-06-30

Family

ID=84769661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211437703.1A Active CN115564145B (zh) 2022-11-17 2022-11-17 基于分布式数据的农作物品种产量预测方法及装置

Country Status (1)

Country Link
CN (1) CN115564145B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780599A (zh) * 2022-04-06 2022-07-22 四川农业大学 基于小麦品比试验数据的综合分析系统
CN115829162B (zh) * 2023-01-29 2023-05-26 北京市农林科学院信息技术研究中心 作物产量预测方法、装置、电子设备及介质
CN116307405B (zh) * 2023-05-25 2023-08-04 日照鲁光电子科技有限公司 一种基于生产数据的二极管性能预测方法及系统
CN116777087B (zh) * 2023-08-24 2023-12-15 夏露 一种智慧农业布局方法及系统
CN117371529B (zh) * 2023-12-07 2024-04-05 北京市农林科学院信息技术研究中心 作物表型数据知识图谱生成方法、装置、电子设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114429398A (zh) * 2022-04-06 2022-05-03 北京市农林科学院信息技术研究中心 数据驱动的新型农业经营主体信用等级生成方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11263707B2 (en) * 2017-08-08 2022-03-01 Indigo Ag, Inc. Machine learning in agricultural planting, growing, and harvesting contexts
CN109242201A (zh) * 2018-09-29 2019-01-18 上海中信信息发展股份有限公司 一种预测农作物产量的方法、装置及计算机可读存储介质
US11574465B2 (en) * 2018-12-21 2023-02-07 Climate Llc In-season field level yield forecasting
CN111027752B (zh) * 2019-11-19 2022-06-21 浙江大学 一种深度时空特征联合学习的农作物产量估测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114429398A (zh) * 2022-04-06 2022-05-03 北京市农林科学院信息技术研究中心 数据驱动的新型农业经营主体信用等级生成方法及装置

Also Published As

Publication number Publication date
CN115564145A (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN115564145B (zh) 基于分布式数据的农作物品种产量预测方法及装置
Bush et al. Connecting Earth observation to high-throughput biodiversity data
Antão et al. Climate change reshuffles northern species within their niches
Obsie et al. Wild blueberry yield prediction using a combination of computer simulation and machine learning algorithms
Bradter et al. Identifying appropriate spatial scales of predictors in species distribution models with the random forest algorithm
Thomassen et al. Spatial modelling and landscape‐level approaches for visualizing intra‐specific variation
Li et al. Estimating crop yield from multi-temporal satellite data using multivariate regression and neural network techniques
Bastos et al. Evaluating the regional cumulative impact of wind farms on birds: how can spatially explicit dynamic modelling improve impact assessments and monitoring?
Jones et al. Measuring long‐distance seed dispersal in complex natural environments: an evaluation and integration of classical and genetic methods
EP3641531A1 (en) Method and system for selecting a plant variety
Fernández‐Chacón et al. Determinants of extinction‐colonization dynamics in M editerranean butterflies: the role of landscape, climate and local habitat features
Schussman et al. Spread and current potential distribution of an alien grass, Eragrostis lehmanniana Nees, in the southwestern USA: comparing historical data and ecological niche models
Bothwell et al. Identifying genetic signatures of selection in a non-model species, alpine gentian (Gentiana nivalis L.), using a landscape genetic approach
Ruegg et al. Genetic assignment with isotopes and habitat suitability (GAIAH), a migratory bird case study
Ukrainetz et al. Climatic drivers of genotype–environment interactions in lodgepole pine based on multi-environment trial data and a factor analytic model of additive covariance
Crow et al. Provisional methods to guide species‐specific seed transfer in ecological restoration
Row et al. Landscape characteristics influencing the genetic structure of greater sage‐grouse within the stronghold of their range: A holistic modeling approach
Queenborough et al. From meso‐to macroscale population dynamics: a new density‐structured approach
CN118134680B (zh) 一种榕树研究方法及系统
Tan et al. Comparison of the generalized likelihood uncertainty estimation and Markov chain Monte Carlo methods for uncertainty analysis of the ORYZA_V3 model
Connor et al. Complex effects of habitat amount and fragmentation on functional connectivity and inbreeding in a giant panda population
Kalaiarasi et al. Crop yield prediction using multi-parametric deep neural networks
Gauffre et al. Agricultural intensification alters marbled newt genetic diversity and gene flow through density and dispersal reduction
Lachmuth et al. Novel genomic offset metrics integrate local adaptation into habitat suitability forecasts and inform assisted migration
Chadœuf et al. Modelling unbiased dispersal kernels over continuous space by accounting for spatial heterogeneity in marking and observation efforts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant