CN112906298B - 一种基于机器学习的蓝莓产量预测方法 - Google Patents

一种基于机器学习的蓝莓产量预测方法 Download PDF

Info

Publication number
CN112906298B
CN112906298B CN202110163561.3A CN202110163561A CN112906298B CN 112906298 B CN112906298 B CN 112906298B CN 202110163561 A CN202110163561 A CN 202110163561A CN 112906298 B CN112906298 B CN 112906298B
Authority
CN
China
Prior art keywords
model
feature
meta
blueberry
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110163561.3A
Other languages
English (en)
Other versions
CN112906298A (zh
Inventor
屈洪春
向蕊
张兴成
李元东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110163561.3A priority Critical patent/CN112906298B/zh
Publication of CN112906298A publication Critical patent/CN112906298A/zh
Application granted granted Critical
Publication of CN112906298B publication Critical patent/CN112906298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Animal Husbandry (AREA)
  • Mining & Mineral Resources (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Agronomy & Crop Science (AREA)

Abstract

本发明涉及一种基于机器学习的蓝莓产量预测方法,属于农作物产量预测技术领域。该方法包括:S1:生成模拟数据集:S2:数据预处理;S3:利用XGBoost选出最优特征子集;S4:构建基学习器,包括随机森林、梯度提升决策树、支持向量机;S5:构建多模型融合的Stacking集成学习元模型:选择Stacking模型集成策略将三种经过优化的基学习器作为模型第一层,将第一层基学习器的输出作为第二层元学习器的输入进行再训练,得到完整的模型;S6:评价元模型预测性能;S7:验证元模型;S8:计算特征重要性程度。本发明解决了农业系统中数据采集困难的问题,能够快速预测蓝莓产量,减少采集数据样本,提高预测精度。

Description

一种基于机器学习的蓝莓产量预测方法
技术领域
本发明属于农作物产量预测技术领域,涉及一种基于机器学习的蓝莓产量预测方法。
背景技术
蓝莓与小麦、玉米等常见秸秆类作物不一样,它属于灌木丛生类作物。它的产量和大多数具有花期的作物一样,会受到蜜蜂、壁蜂等蜂类物种丰度、温度、降雨量、土壤以及一些其它环境因素的因素,但不同的是,蓝莓产量还会与其丛的扩散范围大小有关。蓝莓产量与这些因素并不总是成简单的线性关系,如温度、降雨量以及其它环境因素对蜜蜂生长发育的影响可能会导致田间蜜蜂密度和类群组成的变化,进而影响授粉服务的质量,其他管理活动、景观特征和丛的扩散范围大小也可能影响蜜蜂活动,从而对产量产生影响。这些因素导致各变量和蓝莓产量之间的关系变得愈加复杂,无法依据传统经验和方法直接预测。
目前,农业中最重要和最具挑战的任务是如何准确预测作物产量。种植者以往都是根据历史数据和经验对作物生长趋势做出预判后采取措施,以此提高作物收成。近年来,机器学习因能很好地处理非线性问题被越来越多的研究人员应用到各个领域。典型的机器学习算法通常使用真实的数据来进行模型的训练,从而预测作物产量。但真实的农业数据的采集往往周期很长,成本较高,并且不一定全面,所以不能保证收集的数据一定能够有效的训练机器学习模型,这也是目前农业部门面临的巨大挑战。
利用仿真模型生成的模拟数据训练的机器学习模型被称为元模型。如果元模型预测数据与仿真模型模拟数据之间的误差较小,那么与直接使用任何一种仿真模型相比,它具有两个明显的优势。在一方面,元模型能够称为模拟模型的替代品,相比于仿真模型,元模型可以提供更快的执行速度,减少存储需求,并增加灵活性。另一方面,元模型可以通过查找模拟数据中的模式或聚类来“学习”输入变量和输出变量之间的连接,实时做出的合理预测,对于跨大型地理区域或高维因子空间进行快速筛选更有价值。目前,元模型已被科学界所接受。
传统的基于机器学习的预测方法选择单一模型来进行预测,由于不同样本之间存在差异,可能会由于随机性而导致模型泛化性能不佳。如:(1)公开号为CN107341577A的专利申请“一种农作物产量预测方法及系统”,根据获取历史气象数据对应时间内的历史产量数据来分析气象和产量的量化关系,建立气象-产量统计模型,以此对当期产量变化趋势做出预判。此方法计算过程较为复杂,历史数据采集周期较长,对历史数据可靠性要求很高,并且只考虑了气候对产量的影响,不能保证预测的准确度。(2)公开号为CN110414711A的专利申请“一种基于生长季节降雨量的烟草产量预测方法”通过采集并统计多个植烟区历年生长季节各月降雨量、烟草产量来分析植烟区历年烟草生长季节各月平均降雨量和近5年平均烟草产量,以此建立多元线性回归模型来预测烟草产量。此方法采集数据周期长,花费成本高,并且忽略了降雨量与作物产量之间并不一定是简单的线性关系,同时考虑因素不够全面,不同环境下该方法适应性不高。(3)公开号为CN109829556A的专利申请“一种棉花产量预测方法及系统”通过逐步回归的特征选择方法从19个变量中选取出地上部干物质重、净光合速率、SPAD、LAI、棉铃脱落率、施氮肥量、施钾肥量、施磷肥量、土壤有机质含量9个变量来建立产量预测值最优多元线性回归方程。该方法缺点在于不同的环境变量与作物产量之间并不是简单的线性关系,用线性回归的方法会导致预测精度低,同时,逐步回归的包装式特征选择方法需要评估每一个特征子集对回归结果的影响,效率较低。(4)公开号为CN111582560A的专利申请“一种基于循环神经网络的水稻产量预测方法”利用三层双向LSTM对目标城市预设固定时间内的历史气象监测数据和水稻产量数据建立产量预测模型。神经网络模型计算量很大,比较耗时,模型容易陷入局部最优和过拟合。并且仅仅使用单一模型进行预测并不能保证准确度一定较高。而集成学习是通过构建并结合多个学习器来完成学习任务,往往能够获得比单一学习器显著优越的泛化性能。
因此,目前亟需一种解决农业系统数据采集困难从而降低农业数据采集成本、能够快速预测、采集样本少且预测得准确的蓝莓产量预测方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于机器学习的蓝莓产量预测方法,利用最少的预测因子,建立一个基于优化的集成学习算法的元模型来预测蓝莓产量,分析影响模型输出的重要因素,进而将该模型用以预测国内不同地方未来不同生长环境下的蓝莓产量,为蓝莓种植者提供一些指导性意见,同时克服农业系统中的数据限制,为研究人员提供了一个更便宜、更快捷的方法。
为达到上述目的,本发明提供如下技术方案:
一种基于机器学习的蓝莓产量预测方法,具体包括以下步骤:
S1:生成模拟数据集:根据蓝莓授粉模拟模型设计仿真实验生成模拟数据集,利用该授粉模拟模型可以探索蓝莓丛的扩散范围、异花授粉、自花授粉、不同蜂类组成以及气候条件与蓝莓产量的关系;
S2:数据预处理:对生成的模拟数据中各因子进行归一化处理;
S3:特征选择:利用XGBoost嵌入式特征选择方法对初始特征进行重要性排序,根据重要性程度由高到低设置阈值,依次用一个、两个、三个、一直到所有预测因子建立预测模型,从而选取出最优特征子集;
S4:构建基学习器:将由选取出的最优特征子集与目标变量(野生蓝莓产量)构成的数据集划分成训练集和测试集,其中训练集用于模型的训练,测试集用于模型预测性能的验证;本实施基学习器包括随机森林(RF)、梯度提升决策树(GBDT)、支持向量机(SVR)三种回归模型;
S5:构建多模型融合的Stacking集成学习元模型:选择Stacking模型集成策略将以上三种经过优化的基学习器作为Stacking集成学习元模型第一层,将第一层基学习器的输出作为第二层元学习器的输入进行再训练,从而得到完整的模型;第二层的元学习器选择XGBoost模型;
S6:评价元模型预测性能;
S7:验证元模型;
S8:计算特征重要性程度:通过每个特征对Stacking集成学习元模型输出的影响程度计算出每个特征的重要性,确定影响模型输出的重要因素,为蓝莓种植者提供可靠的指导性意见。
进一步,步骤S1中,生成的模拟数据集包括13个自变量和一个因变量,具体为:蓝莓丛的扩散范围大小、蜜蜂密度、大黄蜂密度、花蜂密度、壁蜂密度、花期最高温度最大值、最高温度最小值、最高温度平均值、最低温度最大值、最低温度最小值、最低温度平均值、花期总的降雨天数、平均降雨天数以及对应的蓝莓产量。
进一步,步骤S3中,特征选择具体包括以下步骤:
S31:将模拟数据集中的13个自变量(蓝莓丛的扩散范围大小、蜜蜂密度、大黄蜂密度、花蜂密度、壁蜂密度、花期最高温度最大值、最高温度最小值、最高温度平均值、最低温度最大值、最低温度最小值、最低温度平均值、花期总的降雨天数、平均降雨天数)组合起来构成原始的特征集合f;
S32:构建目标函数;
S33:计算每个特征的重要性;
S34:根据计算出的每个特征的重要性,按照从大到小的顺序分别对初始的13个自变量特征进行重要性排序,根据重要性由高到低设置阈值,依次用一个、两个、三个、一直到十三个预测因子分别建立预测模型,并用相关系数R2值来比较不同特征集合的好坏,将R2最高的特征集合作为最终最优特征子集,进行接下来的模型训练。
进一步,步骤S32中,构建目标函数具体包括:所用的基本模型为回归树,XGBoost的目标函数由损失函数和正则项两部分组成,损失函数的计算公式为:
Figure BDA0002936551040000041
其中,N为样本个数,yi为第i个样本的标签,fm(xi)为第i个样本在第m次迭代中的预测值,L(θ)以LogLoss为损失函数;设其关于fm(xi)一阶导数和二阶导数分别表示为gi和hi,则通过泰勒展开式将L(θ)近似表示为:
Figure BDA0002936551040000042
正则项表达式如下所示:
Figure BDA0002936551040000043
其中,T为叶子节点个数,wk为第k个叶子节点的权值,γ与λ分别为T和wk的惩罚系数,二者控制树的复杂度从而防止过拟合;
将决策树被归至叶子节点k样本的损失函数的一阶导数和二阶导数之和分别表示为Gk和Hk,去除常数项部分,对其关于wk求导得到使目标函数最小的最优wk,将其带入目标函数,最终得到目标函数为:
Figure BDA0002936551040000044
其中,
Figure BDA0002936551040000045
为叶子节点k对当前模型损失的贡献程度,GL表示当前样本左子树损失函数的一阶导数之和,GR表示当前样本右子树损失函数的一阶导数之和。
进一步,步骤S33中,计算每个特征的重要性,具体包括:通过特征平均增益来确定每个特征的重要性指标,对每个特征的重要性度量指标计算,需要将每个基分类器中的增益相加并取平均,依次计算出每个特征的重要性,公式如下:
Figure BDA0002936551040000046
其中,X为模型中所设置的决策树个数,HL表示当前样本左子树损失函数的二阶导数之和,HR表示当前样本右子树损失函数的二阶导数之和。
进一步,步骤S6中,评价元模型预测性能,具体包括:选择最优预测模型时,有必要研究有效适用的评价方法对预测模型进行评价,了解模型的预测效果。单一评价指标一般只能反映模型的某方面特征,因此需要选择合理的评价指标体系来反映模型的预测效果,本发明以平均绝对误差(MAE)、平均绝对百分误差(MAPE)、均方根误差(RMSE)、决定系数(R2)为评价指标对最终建立的元模型进行性能评价。
进一步,步骤S7中,验证元模型,具体包括:用选取的最优产量预测元模型设计验证实验,将需要预测蓝莓产量地区往年实际的蓝莓丛的扩散范围、不同蜂类密度以及气候条件作为元模型输入参数,并将元模型预测值与实际产量值进行比较,验证元模型对所选地区蓝莓产量进行预测的合理性。
本发明的有益效果在于:
1)本发明利用仿真模型与机器学习相结合的方法,从而建立基于机器学习方法的最优产量预测元模型,有效解决农业领域数据收集困难这一问题,同时机器学习方法能够很好的解决非线性问题,提高了产量预测准确度,克服了传统的作物产量预测方法使用经验模型或仿真模拟方法的局限性。
2)减少了用户后期采集数据样本的成本。本发明在进行模型建立之前,利用XGBoost嵌入式特征选择方法对初始特征进行了重要性排序,根据重要性程度由高到低设置阈值,依次用一个、两个、三个、一直到所有预测因子建立预测模型,从而选取出最优特征子集。嵌入式特征选择方法避免了为了评估每一个特征子集对学习器的影响所进行的重复训练,可以快速地得到最佳特征子集,是一种更为高效的特征选择方法。
3)本发明对基于机器学习的Stacking集成学习回归算法进行优化,并利用优化后的Stacking集成学习算法结合XGBoost算法选取出的最优特征子集来建立蓝莓产量预测元模型。采用网格搜索的方法对每个基学习器进行优化,并结合五折交叉验证的方法选取出基学器最优参数组合,从而选取最优蓝莓产量预测模型。K-fold交叉验证方法能够让算法从有限的学习数据中获取尽可能多的有效信息,有效地避免陷入局部最小值,可以在一定程度上避免模型过拟合问题。
4)本发明通过量化模型输入特征的贡献度,根据每个特征对模型输出的影响程度计算出每个特征的重要性,以此确定影响模型输出最重要的因素,为种植者提供一定的参考意见。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1是本发明蓝莓产量预测方法的总体流程图;
图2是本发明实施例中基学习器随机森林的构建过程流程图;
图3是本发明实施例中基学习器梯度提升决策树的构建过程流程图;
图4是本发明实施例中基学习器支持向量机的构建过程流程图;
图5是本发明实施例中基于网格搜索算法参数寻优流程图;
图6是本发明实施例中Stacking集成学习原理框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图6,本发明实施例提供了一种基于机器学习的蓝莓产量预测方法,因野生蓝莓主要生长在国内北方地区,本实施以预测国内北方地区野生蓝莓产量为例,如图1所示,该方法具体步骤如下:
步骤1,模拟数据集的生成:使用野生蓝莓授粉模拟模型的校准版本,进行一组仿真实验来开发一个模拟数据集,用于机器学习模型的开发和分析。该空间显式模拟模型通过野外观察和近30年来在美国缅因州收集的实验数据已经得到验证。本实施根据现有的研究人员2015-2019年在美国缅因州班戈市观察到的数据,包括野生蓝莓实际生长环境中的丛的扩散范围大小、蜜蜂密度、大黄蜂密度、花蜂密度、壁蜂密度、蓝莓花期日最高温度、日最低温度、日降雨量来设计蓝莓产量的仿真实验。最终生成用于预测建模的模拟数据集,模拟数据集一共包含13个自变量和一个因变量,分别是:丛的扩散范围大小、蜜蜂密度、大黄蜂密度、花蜂密度、壁蜂密度、花期最高温度最大值、最高温度最小值、最高温度平均值、最低温度最大值、最低温度最小值、最低温度平均值、花期总的降雨天数、平均降雨天数以及对应的蓝莓产量。
步骤2,数据预处理:为了提高运行效率和建模的精度,首先对野生蓝莓授粉模型生成的模拟数据中各因子进行归一化处理。采用的归一化处理方法为:
Figure BDA0002936551040000071
其中,x为因子的实际值,xs为归一化后的值,xmin和xmax分别为该因子所有取值中的最大值和最小值,归一化处理有利于避免各因子之间的量级差异,对全部样本的每一因子分别做归一化处理,使每一个因子的数据落入区间[0,1]。
步骤3,特征选择:本实施选择基于XGBoost的嵌入式特征选择方法来减少后期模型输入,特征选择模块包含以下步骤:
1)将由蓝莓丛的扩散范围大小、蜜蜂密度、大黄蜂密度、花蜂密度、壁蜂密度、花期最高温度最大值、最高温度最小值、最高温度平均值、最低温度最大值、最低温度最小值、最低温度平均值、花期总的降雨天数、平均降雨天数13个原始特征组合起来构成原始的特征集合f。
2)构建目标函数:本实施中所用的基本模型为回归树,XGBoost的目标函数由损失函数和正则项两部分组成,损失函数计算公式如下所示:
Figure BDA0002936551040000072
其中,N为样本个数,yi为第i个样本的标签,fm(xi)为第i个样本在第m次迭代中的预测值,L(θ)以LogLoss为损失函数。设其关于fm(xi)一阶导数和二阶导数可分别表示为gi和hi则通过泰勒展开式可以将L(θ)近似表示为:
Figure BDA0002936551040000073
正则项表达式如下所示:
Figure BDA0002936551040000074
其中,T为叶子节点个数,wk为第k个叶子节点的权值,γ与λ分别为T和wk的惩罚系数,二者控制树的复杂度从而防止过拟合。
将决策树被归至叶子节点k样本的损失函数的一阶导数和二阶导数之和分别表示为Gk和Hk,去除常数项部分,对其关于wk求导得到使目标函数最小的最优wk,将其带入目标函数,最终得到目标函数为:
Figure BDA0002936551040000075
其中,
Figure BDA0002936551040000081
为单个叶子节点对当前模型损失的贡献程度,GL表示当前样本左子树损失函数的一阶导数之和,GR表示当前样本右子树损失函数的一阶导数之和。
3)计算每个特征的重要性:通过特征平均增益来确定每个特征的重要性指标,对每个特征的重要性度量指标计算,需要将每个基分类器中的增益相
加并取平均,依次计算出每个特征的重要性,公式如下:
Figure BDA0002936551040000082
其中,X为该模型中所设置的决策树个数,HL表示当前样本左子树损失函数的二阶导数之和,HR表示当前样本右子树损失函数的二阶导数之和。
4)根据计算出的每个特征的重要性,按照从大到小的顺序分别对初始的13个特征进行重要性排序,根据重要性由高到低设置阈值,依次用一个、两个、三个、一直到十三个预测因子分别建立预测模型,并用相关系数R2值来比较不同特征集合的好坏,将R2最高的特征集合作为最终最优特征子集,进行接下来的模型训练。
步骤4,构建基学习器:将由选取出的最优特征子集与目标变量(野生蓝莓产量)构成的数据集划分成训练集和测试集,其中训练集用于模型的训练,测试集用于模型预测性能的验证。本实施基学习器由随机森林(RF)、梯度提升决策树(GBDT)、支持向量机(SVR)三种回归模型作为基学习器组成。下面详细介绍构建每种基学习器模型的每一步:
如图2所示,优化的随机森林基学习器的构建:
1)输入样本集为D={(x1,y1),(x2,y2),(x3,y3),…(xm,ym)},其中,x是原始输入数据,y为原始输出数据。
2)以CART决策树作为弱学习器,从训练样本集D中有放回地随机抽样t个训练数据样本,得到包含t个样本的训练采样集Dt。在抽样过程中,有三分之一的数据不会被抽中,未被抽到的样本为袋外数据,用来对模型性能进行评估。
3)确定训练采样集Dt产生决策树h(x,θt),其中,t=1,2,…,T,x是输入向量,θt是第t棵决策树用来选择样本点的随机向量。
4)通过T轮训练后得到h(x,θ1),h(x,θ2),…,h(x,θk)棵决策树,它们相应的回归预测值为{y1(x),y2(x),…,yk(x),},这些训练序列构建了一个组合预测模型,k个弱学习器得到的回归结果进行平均得到的值为最终的模型输出,其最终的回归预测结果为:
Figure BDA0002936551040000083
5)对构建好的随机森林进行参数调优,首先确定决策树的数量k(n_estimators)和决策树最大深度m(max_depth)的范围,设定步长,在k和m坐标系上建立二维网格,网格节点就是响应的k和m的参数对。
6)对网格节点上的每一组参数,用5折交叉验证方法构建随机森林,并用袋外数据估计平均分类误差。
7)选择分类误差最小的参数k,m,若分类误差或者步长满足要求,则输出最优参数,否则,改变步长,重复(5)(6)步骤,继续搜索。
8)用最优参数建立随机森林模型,并将训练好的模型应用的测试集上。
如图3所示,优化的梯度提升决策树基学习器的构建:
1)初始化模型,根据D={(x1,y1),(x2,y2),(x3,y3),…,(xm,ym)},其中,x是原始输入数据,y为原始输出数据)构建决策树:
Figure BDA0002936551040000091
其中,β为使损失函数极小化的常数值。本实施GBDT算法选取对数损失函数,表达式为:
L(y,f(x))=log(1+exp(-2yf(x)))
2)在前一轮迭代损失函数的梯度下降方向上建立模型,用损失函数来拟合第k轮损失的近似值,第k轮的第i个样本的损失函数的负梯度表达式为:
Figure BDA0002936551040000092
3)拟合负梯度值rik学习一个回归树,针对每一个叶子节点里面的样本,使损失函数最小,计算出沿梯度下降方向的最优步长βck,计算公式如下:
βck=argminβ∑L(yi,fk-1(xi)+β))
4)第T轮模型输出表达式为:
Figure BDA0002936551040000093
其中,Ck为也足节点个数,Rck为对应的叶子节点区域。
5)对构建好的GBDT模型进行参数调优,由训练集确定决策树数量k(n_estimators)和决策树最大深度m(max_depth)的范围,设定步长,在k和m坐标系上建立二维网格,网格节点就是响应的k和m的参数对。
6)对网格节点上的每一组,用5折交叉验证方法参数构建GBDT模型,并估计平均分类误差。
7)选择分类误差最小的参数k,m,若分类误差或者步长满足要求,则输出最优参数,否则,改变步长,重复(5)(6)步骤,继续搜索。
如图4所示,优化的支持向量机基学习器的构建:
1)根据训练集数据逼近变量间的关系函数,表达式如下:
Figure BDA0002936551040000101
其中,x为输入向量,w为权值系数,
Figure BDA0002936551040000102
为映射函数,b为偏置。
2)引入隐式的核函数将非线性问题映射到高维空间,从而构造出线性可分离平面并求解,本实施选择常用于处理非线性问题的径向基核函数(RBF),表达式如下:
Figure BDA0002936551040000103
其中,a′,a为两个低维向量,
Figure BDA0002936551040000104
也叫γ参数,反映映射的分离程度。
3)最小化权值系数平方和保证函数关系的平滑,通过求解二次凸规划问题确定权值系数w和偏置b,其表达式如下:
Figure BDA0002936551040000105
Figure BDA0002936551040000106
其中,ξi,
Figure BDA0002936551040000107
为松弛变量,C为惩罚因子,C>0,yi为第i个样本对应的输出,ε为容许误差。
4)构建好的SVR模型进行参数调优,由训练集确定参数C、γ两个参数的范围,设定步长,在C、γ坐标系上建立二维网格,网格节点就是响应的C、γ的参数对。
5)对网格节点上的每一组参数,采用5折交叉验证方法构建SVR模型,并估计平均分类误差。
6)选择分类误差最小的参数C、γ若分类误差或者步长满足要求,则输出最优参数,否则,改变步长,重复(4)(5)步骤,继续搜索。
步骤5,构建多模型融合的Stacking集成学习元模型,如图6所示,选择Stacking模型集成策略将以上三种优化后的基学习器作为集成模型第一层,将第一层基学习器的输出作为第二层元学习器的输入进行再训练,从而得到完整的模型。本实施第二层的元学习器选择XGBoost模型。
步骤6,元模型预测性能评价,以平均绝对误差(MAE)、平均绝对百分误差(MAPE)、均方根误差(RMSE)、决定系数(R2)为评价指标对最终建立的元模型进行性能评价。各指标计算公式如下:
Figure BDA0002936551040000111
Figure BDA0002936551040000112
Figure BDA0002936551040000113
Figure BDA0002936551040000114
其中,n为样本量,y为样本标签值,
Figure BDA0002936551040000115
为样本预测值,
Figure BDA0002936551040000116
为样本平均值。
步骤7,元模型的验证:收集北方地区野生蓝莓产区实际的蓝莓丛的扩散范围大小、不同蜂类密度以及气候条件作为元模型输入参数,并用最优预测元模型对其进行预测,分别计算预测值与实际值的95%置信区间,将结果进行比较,验证最优产量预测元模型对国内北方野生蓝莓产量预测的合理性。
步骤8,特征重要性计算:通过每个特征对模型输出的影响程度计算出每个特征的重要性,本实施以R2为衡量指标来计算每个特征对模型输出的影响程度,并根据计算结果进行排序,以此确定影响元模型输出的重要因素,为蓝莓种植者提供可靠的参考意见。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于机器学习的蓝莓产量预测方法,其特征在于,该方法具体包括以下步骤:
S1:生成模拟数据集:根据蓝莓授粉模拟模型设计仿真实验生成模拟数据集;
S2:数据预处理:对生成的模拟数据中各因子进行归一化处理;
S3:特征选择:利用XGBoost嵌入式特征选择方法对初始特征进行重要性排序,根据重要性程度由高到低设置阈值,依次用一个、两个、三个、一直到所有预测因子建立预测模型,从而选取出最优特征子集;
S4:构建基学习器:将由选取出的最优特征子集与目标变量构成的数据集划分成训练集和测试集;基学习器包括随机森林RF、梯度提升决策树GBDT、支持向量机SVR三种回归模型;
S5:构建多模型融合的Stacking集成学习元模型:选择Stacking模型集成策略将以上三种经过优化的基学习器作为Stacking集成学习元模型第一层,将第一层基学习器的输出作为第二层元学习器的输入进行再训练,从而得到完整的模型;第二层的元学习器选择XGBoost模型;
S6:评价元模型预测性能;
S7:验证元模型;
S8:计算特征重要性程度:通过每个特征对Stacking集成学习元模型输出的影响程度计算出每个特征的重要性,确定影响模型输出的重要因素。
2.根据权利要求1所述的蓝莓产量预测方法,其特征在于,步骤S1中,生成的模拟数据集包括13个自变量和一个因变量,具体为:蓝莓丛的扩散范围大小、蜜蜂密度、大黄蜂密度、花蜂密度、壁蜂密度、花期最高温度最大值、最高温度最小值、最高温度平均值、最低温度最大值、最低温度最小值、最低温度平均值、花期总的降雨天数、平均降雨天数以及对应的蓝莓产量。
3.根据权利要求2所述的蓝莓产量预测方法,其特征在于,步骤S3中,特征选择具体包括以下步骤:
S31:将模拟数据集中的13个自变量组合起来构成原始的特征集合f;
S32:构建目标函数;
S33:计算每个特征的重要性;
S34:根据计算出的每个特征的重要性,按照从大到小的顺序分别对初始的13个自变量特征进行重要性排序,根据重要性由高到低设置阈值,依次用一个、两个、三个、一直到十三个预测因子分别建立预测模型,并用相关系数R2值来比较不同特征集合的好坏,将R2最高的特征集合作为最终最优特征子集,进行接下来的模型训练。
4.根据权利要求3所述的蓝莓产量预测方法,其特征在于,步骤S32中,构建目标函数具体包括:所用的基本模型为回归树,XGBoost的目标函数由损失函数和正则项两部分组成,损失函数的计算公式为:
Figure FDA0004190842020000021
其中,N为样本个数,yi为第i个样本的标签,fm(xi)为第i个样本在第m次迭代中的预测值,L(θ)以LogLoss为损失函数;设其关于fm(xi)一阶导数和二阶导数分别表示为gi和hi,则通过泰勒展开式将L(θ)近似表示为:
Figure FDA0004190842020000022
正则项表达式如下所示:
Figure FDA0004190842020000023
其中,T为叶子节点个数,wk为第k个叶子节点的权值,γ与λ分别为T和wk的惩罚系数,二者控制树的复杂度从而防止过拟合;
将决策树被归至叶子节点k样本的损失函数的一阶导数和二阶导数之和分别表示为Gk和Hk,去除常数项部分,对其关于wk求导得到使目标函数最小的最优wk,将其带入目标函数,最终得到目标函数为:
Figure FDA0004190842020000024
其中,
Figure FDA0004190842020000025
为叶子节点k对当前模型损失的贡献程度,GL表示当前样本左子树损失函数的一阶导数之和,GR表示当前样本右子树损失函数的一阶导数之和。
5.根据权利要求4所述的蓝莓产量预测方法,其特征在于,步骤S33中,计算每个特征的重要性,具体包括:通过特征平均增益来确定每个特征的重要性指标,对每个特征的重要性度量指标计算,需要将每个基分类器中的增益相加并取平均,依次计算出每个特征的重要性,公式如下:
Figure FDA0004190842020000026
其中,X为模型中所设置的决策树个数,HL表示当前样本左子树损失函数的二阶导数之和,HR表示当前样本右子树损失函数的二阶导数之和。
6.根据权利要求1所述的蓝莓产量预测方法,其特征在于,步骤S6中,评价元模型预测性能,具体包括:以平均绝对误差、平均绝对百分误差、均方根误差、决定系数为评价指标对最终建立的元模型进行性能评价。
7.根据权利要求1所述的蓝莓产量预测方法,其特征在于,步骤S7中,验证元模型,具体包括:用选取的最优产量预测元模型设计验证实验,将需要预测蓝莓产量地区往年实际的蓝莓丛的扩散范围、不同蜂类密度以及气候条件作为元模型输入参数,并将元模型预测值与实际产量值进行比较,验证元模型对所选地区蓝莓产量进行预测的合理性。
CN202110163561.3A 2021-02-05 2021-02-05 一种基于机器学习的蓝莓产量预测方法 Active CN112906298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110163561.3A CN112906298B (zh) 2021-02-05 2021-02-05 一种基于机器学习的蓝莓产量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110163561.3A CN112906298B (zh) 2021-02-05 2021-02-05 一种基于机器学习的蓝莓产量预测方法

Publications (2)

Publication Number Publication Date
CN112906298A CN112906298A (zh) 2021-06-04
CN112906298B true CN112906298B (zh) 2023-05-26

Family

ID=76122746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110163561.3A Active CN112906298B (zh) 2021-02-05 2021-02-05 一种基于机器学习的蓝莓产量预测方法

Country Status (1)

Country Link
CN (1) CN112906298B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283174B (zh) * 2021-06-09 2022-08-30 中国石油天然气股份有限公司 基于算法集成与自控制的储层产能预测方法、系统及终端
CN113537600B (zh) * 2021-07-20 2024-04-02 浙江省水利水电勘测设计院有限责任公司 一种全过程耦合机器学习的中长期降水预报建模方法
CN113537645B (zh) * 2021-08-23 2023-11-24 苏州憨云智能科技有限公司 基于机器学习融合卫星与天气数据的大豆产量预测方法
CN114004389A (zh) * 2021-09-18 2022-02-01 苏州憨云智能科技有限公司 一种对农作物产量预测的混合方法
CN114420290B (zh) * 2022-01-14 2022-11-04 中国科学院地理科学与资源研究所 基于ReliefF-SVM的钉螺密度预测方法及系统
CN114444399B (zh) * 2022-02-26 2024-07-19 华北水利水电大学 一种基于XGBoost的温室滴灌番茄腾发量计算方法
CN114780599A (zh) * 2022-04-06 2022-07-22 四川农业大学 基于小麦品比试验数据的综合分析系统
CN114881359B (zh) * 2022-06-02 2024-05-14 招商局重庆交通科研设计院有限公司 融合GBDT和XGBoost的路面IRI预测方法
CN117116477A (zh) * 2023-07-20 2023-11-24 中国人民解放军海军军医大学第一附属医院 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统
CN116681291B (zh) * 2023-08-02 2023-11-07 杭州小策科技有限公司 一种基于集成模型的风控预测方法及系统
CN118397297B (zh) * 2024-06-28 2024-09-10 杨凌数字农业科技有限公司 一种基于机器学习的玉米产量预测方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111915068A (zh) * 2020-07-17 2020-11-10 同济大学 一种基于集成学习的道路能见度短临预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430725B2 (en) * 2016-06-15 2019-10-01 Akw Analytics Inc. Petroleum analytics learning machine system with machine learning analytics applications for upstream and midstream oil and gas industry
US11263707B2 (en) * 2017-08-08 2022-03-01 Indigo Ag, Inc. Machine learning in agricultural planting, growing, and harvesting contexts
CN110443420B (zh) * 2019-08-05 2023-05-09 山东农业大学 一种基于机器学习的作物产量预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111915068A (zh) * 2020-07-17 2020-11-10 同济大学 一种基于集成学习的道路能见度短临预测方法

Also Published As

Publication number Publication date
CN112906298A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112906298B (zh) 一种基于机器学习的蓝莓产量预测方法
US20220075344A1 (en) A method of finding a target environment suitable for growth of a plant variety
Morales et al. Using machine learning for crop yield prediction in the past or the future
CN117036088A (zh) 一种ai识别绿化植物生长态势的数据采集分析方法
CN116258060A (zh) 基于机器学习的测土配方施肥方法
CN117688404B (zh) 智能施肥配方决策方法、装置、设备、介质及程序产品
Mishra et al. Crop recommendation system using knn and random forest considering indian data set
Chen et al. Construction of a photosynthetic rate prediction model for greenhouse strawberries with distributed regulation of light environment
CN114004389A (zh) 一种对农作物产量预测的混合方法
Pradeep et al. Effective Crop Yield Prediction Using Gradient Boosting To Improve Agricultural Outcomes
Jackson et al. Robust Ensemble Machine Learning for Precision Agriculture
Monica et al. Soil NPK prediction using enhanced genetic algorithm
Marinković et al. Data mining approach for predictive modeling of agricultural yield data
Manivasagam et al. An efficient crop yield prediction using machine learning
Manjula et al. Efficient prediction of recommended crop variety through soil nutrients using deep learning algorithm
Jasti et al. Crop Intelligent: Weather based Crop Selection using Machine Learning
Gong et al. Studies of evolutionary algorithms for the reduced Tomgro model calibration for modelling tomato yields
CN114021816A (zh) 基于混合机器学习与深度学习模型的农作物产量预测方法
Chen et al. Research on dynamic forecast of flowering period based on multivariable lstm and ensemble learning classification task
Jimenez Lopez et al. Forecasting irrigation scheduling based on deep learning models using IoT
Islam et al. Machine learning models to predict soil moisture for irrigation schedule
CN114611804B (zh) 基于tso-grnn组合模型的玉米产量预测方法
CN117933946B (zh) 一种基于大数据的乡村业务管理方法
Reddy Crop and fertilization recommendation using machine learning
Narayanasamy et al. INTELLIGENT AND EFFECTIVE CROP YIELD PREDICTION USING MACHINE LEARNING TECHNIQUES FOR CLOUD-BASED BIG DATA ANALYTICS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant