CN112785047A - 农作物的采收量预测方法和装置 - Google Patents

农作物的采收量预测方法和装置 Download PDF

Info

Publication number
CN112785047A
CN112785047A CN202110012278.0A CN202110012278A CN112785047A CN 112785047 A CN112785047 A CN 112785047A CN 202110012278 A CN202110012278 A CN 202110012278A CN 112785047 A CN112785047 A CN 112785047A
Authority
CN
China
Prior art keywords
data
regression tree
monitoring data
tree model
crops
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110012278.0A
Other languages
English (en)
Inventor
张曙华
杨安荣
邬旭栋
马睿涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinlian Information Development Co Ltd
Original Assignee
Shanghai Xinlian Information Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinlian Information Development Co Ltd filed Critical Shanghai Xinlian Information Development Co Ltd
Priority to CN202110012278.0A priority Critical patent/CN112785047A/zh
Publication of CN112785047A publication Critical patent/CN112785047A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S19/00Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
    • G01S19/38Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system
    • G01S19/39Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system the satellite radio beacon positioning system transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
    • G01S19/42Determining position
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N2021/1793Remote sensing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Game Theory and Decision Science (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Agronomy & Crop Science (AREA)
  • Animal Husbandry (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Mining & Mineral Resources (AREA)
  • Primary Health Care (AREA)

Abstract

本发明提供了一种农作物的采收量预测方法和装置。其中,该方法包括:基于全球定位系统、地理信息系统和遥感技术获取农作物的监测数据;确定监测数据对应的特征数据;特征数据表征影响农作物的采收量的数据;将特征数据输入至预先训练完成的回归树模型中,输出农作物的采收量预测数据;其中,回归树模型基于可伸缩回归树算法构建。该方式中,通过全球定位系统、地理信息系统和遥感技术可以监测农作物全生命周期不同阶段的生长数据,建模时使用的数据全面且存量巨大,从数据角度可最大化提升预测准确性;回归树模型基于可伸缩回归树算法构建,该算法对数据量和计算量的增减变化可同步进行,模型具有可伸缩性。

Description

农作物的采收量预测方法和装置
技术领域
本发明涉及深度学习技术领域,尤其是涉及一种农作物的采收量预测方法和装置。
背景技术
随着人口增长、食品安全问题的日益严重,农作物产量面临着亟待提升的压力。另外,全球气候变化给不同地区的农作物造成了难以估计的损失,实时监测农场环境和农作物生长情况很有必要。
对于农作物的采收量,可以通过温室大棚内几项生长要素信息进行预测,根据农作物的历史采收量数据进行简单统计和预测,或者通过遥感技术进行预测。然而,上述几种预测方法中,进行预测的数据并不全面,准确性并不高。
发明内容
有鉴于此,本发明的目的在于提供一种农作物的采收量预测方法和装置,以提高预测的准确性。
第一方面,本发明实施例提供了一种农作物的采收量预测方法,方法包括:基于全球定位系统、地理信息系统和遥感技术获取农作物的监测数据;确定监测数据对应的特征数据;特征数据表征影响农作物的采收量的数据;将特征数据输入至预先训练完成的回归树模型中,输出农作物的采收量预测数据;其中,回归树模型基于可伸缩回归树算法构建。
在本发明较佳的实施例中,上述监测数据包括作物生长监测数据、气候环境监测数据和病虫草害监测数据;上述基于全球定位系统、地理信息系统和遥感技术获取农作物的监测数据的步骤,包括:基于全球定位系统确定指定坐标的农作物的种植区域;基于地理信息系统对农作物的种植区域进行成图处理,输出多个图层;通过遥感技术确定多个图层对应的作物生长监测数据、气候环境监测数据和病虫草害监测数据。
在本发明较佳的实施例中,上述确定监测数据对应的特征数据的步骤,包括:确定影响农作物的采收量的数据的类型;基于数据的类型从监测数据中提取监测数据对应的特征数据。
在本发明较佳的实施例中,上述将特征数据输入至预先训练完成的回归树模型中的步骤,包括:对特征数据进行归一化处理;将归一化处理后的特征数据输入至预先训练完成的回归树模型中。
在本发明较佳的实施例中,上述回归树模型通过以下步骤训练:获取训练样本和训练样本对应的采收量;其中,训练样本和训练样本对应的采收量基于农作物的历史监测数据获取;基于训练样本构建回归树模型的预设数量阈值的回归树;根据训练样本的训练结果调整回归树模型的参数;继续执行获取训练样本和训练样本对应的采收量的步骤,直至满足预设的训练结束条件,将训练得到的回归树模型确定为训练好的回归树模型。
在本发明较佳的实施例中,上述将训练得到的回归树模型确定为训练好的回归树模型的步骤之后,方法还包括:基于预设的验证样本对训练好的回归树模型进行验证。
在本发明较佳的实施例中,上述方法还包括:基于预设比例从农作物的历史监测数据中确定训练样本和验证样本;其中,历史监测数据包含农作物的历史特征数据和历史特征数据对应的采收量。
在本发明较佳的实施例中,上述基于训练样本构建回归树模型的第一棵回归树的步骤,包括:计算训练样本中每个特征的增益值,得到增益值的最大值对应的目标特征;基于目标特征进行分支结点,对训练样本进行划分,并构建回归树模型的第一棵回归树;其中,第一棵回归树的树高不超过预设的高度阈值。
在本发明较佳的实施例中,上述训练结束条件包括:回归树模型的回归树的数量等于数量阈值;并且,回归树模型的参数的改变量小于预设的改变阈值。
第二方面,本发明实施例还提供一种农作物的采收量预测装置,装置包括:监测数据获取模块,用于基于全球定位系统、地理信息系统和遥感技术获取农作物的监测数据;特征数据确定模块,用于确定监测数据对应的特征数据;特征数据表征影响农作物的采收量的数据;采收量预测模块,用于将特征数据输入至预先训练完成的回归树模型中,输出农作物的采收量预测数据;其中,回归树模型基于可伸缩回归树算法构建。
本发明实施例带来了以下有益效果:
本发明实施例提供的一种农作物的采收量预测方法和装置,基于全球定位系统、地理信息系统和遥感技术获取农作物的监测数据,将上述监测数据对应的特征数据输入至基于可伸缩回归树算法构建的回归树模型中,输出农作物的采收量预测数据。该方式中,通过全球定位系统、地理信息系统和遥感技术可以监测农作物全生命周期不同阶段的生长数据,建模时使用的数据全面且存量巨大,从数据角度可最大化提升预测准确性;回归树模型基于可伸缩回归树算法构建,该算法对数据量和计算量的增减变化可同步进行,模型具有可伸缩性。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种农作物的采收量预测方法的流程图;
图2为本发明实施例提供的另一种农作物的采收量预测方法的流程图;
图3为本发明实施例提供的一种农作物的采收量预测方法的示意图;
图4为本发明实施例提供的一种特征数据的示意图;
图5为本发明实施例提供的一种农作物的采收量预测装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,预测农作物的采收量的方法中,进行预测的数据并不全面,准确性并不高。基于此,本发明实施例提供的一种农作物的采收量预测方法和装置,可以借助3S技术和大数据分析技术来实时监测并精准预测未来一段时间内农作物产量,其中,3S技术包括基于全球定位系统(GPS,Global Positioning Systems)、地理信息系统(GIS,GeographyInformation Systems)和遥感技术(RS,Remote Sensing),具体涉及一种基于可伸缩回归树的农作物的采收量预测方法。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种农作物的采收量预测方法进行详细介绍。
实施例一:
本实施例提供了一种农作物的采收量预测方法,参见图1所示的一种农作物的采收量预测方法的流程图,该农作物的采收量预测方法包括如下步骤:
步骤S102,基于全球定位系统、地理信息系统和遥感技术获取农作物的监测数据。
3S技术是以全球定位系统(GPS)、地理信息系统(GIS)和遥感技术(RS)为基础,将RS、GIS、GPS三种独立技术领域中的有关部分与其他技术领域如网络技术、通讯技术等有机地构成一个整体而形成的一项新的综合技术。它集成信息获取、信息处理、信息应用于一身,突出表现在信息获取与处理的高速、实时与应用的高精度和可高度量化方面。3S技术在土地利用调查、土壤侵蚀监测等农业领域得到了广泛应用。
本实施例中借助3S技术来监测大田内农作物实时生长情况和环境信息,使用可伸缩回归树建模预测农作物采收量。基于全球定位系统、地理信息系统和遥感技术获取农作物的监测数据,基于农作物的监测数据预测农作物的采收量。
具体来说,首先用全球定位系统(GPS)对每一个坐标区域范围内拍摄遥感图像,识别农田、大棚内的作物品类信息,再用地理信息系统(GIS)形成作物分布图、GIS采集产量图、土壤物理特性、土壤养分含量、作物农情信息和病虫草害信息。最后,利用遥感技术(RS)的实时信息,对土壤空间信息进行动态监测,再将监测数据回传至数据库,构建回归预测模型并实时预测农作物采收量预估值。
步骤S104,确定监测数据对应的特征数据;特征数据表征影响农作物的采收量的数据。
获取农作物的监测数据之后,可以确定从所有的检测数据中提取出来影响农作物的采收量的数据,作为监测数据对应的特征数据。
步骤S106,将特征数据输入至预先训练完成的回归树模型中,输出农作物的采收量预测数据;其中,回归树模型基于可伸缩回归树算法构建。
本实施例中的回归树模型基于可伸缩回归树算法构建,可伸缩回归树算法为回归预测的一种算法。回归预测是在监督学习场景下,使用标注数据构建回归模型,并预测未来目标值的一种机器学习方法。标注数据是具有特征数据和目标值数据一一对应的数据,回归是用已有的标注数据来构建模型,寻找从特征数据到目标值数据最佳映射的过程。模型训练期间会迭代多次,模型训练完毕后参数趋于稳定,此时可向模型输入特征数据,模型经计算输出预测目标值,这一过程为预测。
分类回归树(CART)是一种用于分类和回归的决策树模型,它通过逐层建立分割结点来实现对数据集的二分类和回归预测,并以属性的信息熵大小作为优先划分分割点的依据,与其他决策树如ID3、C4.5(ID3、C4.5为两种不同高度决策树)不同,CART使用基尼指数作为构建分割结点的指标。CART所构建的是一棵二叉树,通过不断将数据集特征进行分裂,如当前树结点是基于第j个特征值进行分裂的,通常第j个特征的取值有多个,通过计算基尼指数可算出第j个特征在何值取得最佳分割点,设该特征值小于s的样本划分到左子树,大于s的样本划分到右子树。
CART每构建一个分支结点会选择一个特征,并将已有数据集划分为二,分为左子树和右子树,左子树和右子树会继续根据当前数据集中最大的基尼指数来选择其余特征进行分割(不再使用之前用过的特征),以此类推不断生成树,同时对划分后的数据集继续分割,直到满足建模前定义的树的最大高度。CART模型建好后,所有的叶子结点是对每个样本进行分类(或回归预测)的结点。由于每个属性分割后只需选择左右子树,其建树过程通常比其他决策树算法更快。
基尼指数可以通过下述算式计算:R1(j,s)={x|x(j)≤s}andR2(j,s)={x|x(j)>s};其中,x表示数据集中的某一个样本,j表示第j个特征,x(j)表示样本x的第j个特征,s是第j个特征计算出来的split分割点,由于CART树是一棵二叉树,即对节点特征值进行计算分割,分为不同的子节点中,R1和R2为两个分支节点。
CART的目标函数如下式:
Figure BDA0002885128250000071
Figure BDA0002885128250000072
表示预测值
Figure BDA0002885128250000073
与实际标注值y的损失误差,Ω表示对树的惩罚项,惩罚项通过限制树的叶节点个数或树高度,来避免模型过于复杂而导致过拟合。
本发明实施例提供的一种农作物的采收量预测方法,基于全球定位系统、地理信息系统和遥感技术获取农作物的监测数据,将上述监测数据对应的特征数据输入至基于可伸缩回归树算法构建的回归树模型中,输出农作物的采收量预测数据。该方式中,通过全球定位系统、地理信息系统和遥感技术可以监测农作物全生命周期不同阶段的生长数据,建模时使用的数据全面且存量巨大,从数据角度可最大化提升预测准确性;回归树模型基于可伸缩回归树算法构建,该算法对数据量和计算量的增减变化可同步进行,模型具有可伸缩性。
实施例二:
本实施例提供了另一种农作物的采收量预测方法,该方法在上述实施例的基础上实现;本实施例重点描述训练主观评价模型的具体实施方式。参见图2所示的另一种农作物的采收量预测方法的流程图,本实施例中的农作物的采收量预测方法包括如下步骤:
步骤S202,基于全球定位系统、地理信息系统和遥感技术获取农作物的监测数据。
参见图3所示的一种农作物的采收量预测方法的示意图,监测数据包括作物生长监测数据、气候环境监测数据和病虫草害监测数据。可以通过下述步骤获取农作物的监测数据:基于全球定位系统确定指定坐标的农作物的种植区域;基于地理信息系统对农作物的种植区域进行成图处理,输出多个图层;通过遥感技术确定多个图层对应的作物生长监测数据、气候环境监测数据和病虫草害监测数据。
3S技术数据监测即使用全球定位系统对指定坐标的农田和大棚(即农作物的种植区域)进行定位的,借助地理信息系统对指定地理位置所在区域进行成图处理并输出多个图层,涵盖对该地块作物种类判别、土壤地质图、年降水图、年气温变化图等内容。同时借助遥感技术监测输出作物生长数据、气候环境数据和病虫草害数据,再将这些数据生成遥感实时数据流,以流的方式进入数据库。
步骤S204,确定监测数据对应的特征数据;特征数据表征影响农作物的采收量的数据。
本实施例中需要收集一切影响农作物生长的指标数据(即特征数据),,这部分数据可以来源于数据库。具体包括生产数据、气候环境数据和病虫草害数据,分类梳理所收集数据并定义指标。具体来说可以根据不同的特征数据的类型从监测数据中提取特征数据,例如:确定影响农作物的采收量的数据的类型;基于数据的类型从监测数据中提取监测数据对应的特征数据。
参见图4所示的一种特征数据的示意图,作物生长数据可以包括:地块位置(经度、纬度)、地块面积、种植作物类型、作物品种、地块类型等。气候环境数据可以包括:月平均温度、月平均湿度、日最大光照强度、日最高温度、日最低温度等。病虫草害数据可以包括:病害类别、虫害类别、草害类别、危害等级、危害面积等。特征数据收集指从影响农作物采收量的各个方面收集,所收集数据覆盖作物从种植、生长、农事操作、采收等各环节。
步骤S206,对特征数据进行归一化处理。
本实施例中,在建模前需对训练数据进行预处理,由于预测的目标是农作物采收量,该问题是一个回归问题,因此所有特征数据及待预测目标值都需处理为数值型数据,同时为了消除不同属性因统计单位不同而造成数据取值大小不同,在此之前也需进行特征归一化,归一化处理是将所有数据的表示范围映射到[0-1],具体算式如下:
Figure BDA0002885128250000091
步骤S208,将归一化处理后的特征数据输入至预先训练完成的回归树模型中,输出农作物的采收量预测数据。
本实施例中的回归树模型基于可伸缩回归树算法构建,可以通过步骤A1-步骤A4训练:
步骤A1,获取训练样本和训练样本对应的采收量;其中,训练样本和训练样本对应的采收量基于农作物的历史监测数据获取。
本实施例中除了训练样本(也称为训练集)用于训练回归树模型之外,还可以通过验证样本(也称为验证集)验证训练好的回归树模型。训练集和验证集都可以为历史监测数据。因此,本实施例可以基于预设比例从农作物的历史监测数据中确定训练样本和验证样本;其中,历史监测数据包含农作物的历史特征数据和历史特征数据对应的采收量。
本实施例中可以使用5折交叉验证检验模型效果,随机打乱所有标注数据并根据数据量拆分为五份,每条样本数据的对应关系不变,使用所拆分的五份数据,每次迭代训练使用其中4份,剩余1份作为验证集;5次迭代分别使用每一份数据做验证集,用其余的4份做训练集,这样可进行5次训练和验证,并将验证集的结果求均值作为最终结果,即上述验证样本:训练样本的预设比例为1:4。
步骤A2,基于训练样本构建回归树模型的预设数量阈值的回归树。
本实施例中所用算法的目标函数由多棵树累加的损失函数以及多棵树的正则项构成,具体定义如下式:
Figure BDA0002885128250000101
Figure BDA0002885128250000102
其中
Figure BDA0002885128250000103
代表损失函数,其中
Figure BDA0002885128250000104
为预测输出,yi为标注值,fk为第k棵树模型,T为树叶子结点数,w为叶子权重值,γ为叶子树惩罚正则项,用于避免过拟合。本实施例使用的可伸缩回归树是要拟合上次预测的残差的,即当生成第t(t取值为[1,k])棵树后,样本的预测值可写成:
Figure BDA0002885128250000105
同时,可以将目标函数改写成如下表示:
Figure BDA0002885128250000106
Figure BDA0002885128250000107
本实施例在这里使用了二阶泰勒式在ft=0处展开,目标函数近似式为:
Figure BDA0002885128250000108
这样对任意样本,经构建t棵树后的预测值,可以用该样本一阶导数gi和二阶导数hi近似展开。
本实施例在建模时会依次建立多棵CART树(后文叫树),建模时先定义好超参数包括总树棵树K=10,树最大高度H=7。首先用训练集构建第一棵树,第一棵树即回归树模型的第一棵回归树,可以通过以下方式进行训练:计算训练样本中每个特征的增益值,得到增益值的最大值对应的目标特征;基于目标特征进行分支结点,对训练样本进行划分,并构建回归树模型的第一棵回归树;其中,第一棵回归树的树高不超过预设的高度阈值。
对训练集所有特征进行增益值Gain计算,得出Gain最大的特征及对应特征的分割点,依次选择最大Gain值的特征做分支结点,不断生长树并不断划分训练集,满足树高不超过最大高度。增益值Gain的具体算式如下:
Figure BDA0002885128250000111
上式的表达是在结点处把样本分成左子结点和右子结点两个集合,分别求两个集合的GL、HL、GR、HR,然后计算增益Gain。其中GL代表如果分裂的话左叶子结点中样本点的集合的一阶梯度和,GR代表右边结点的,HL代表左叶子结点中样本点的集合的二阶梯度和,同理HR代表右叶子结点中样本点的集合的二阶梯度和。
当第一棵树建好后,即也完成了对训练集所有样本的划分,且都划分到树的叶节点上,但此时无法保证每个样本都能得到最精准的预测,因为很多特征不同的样本被划分到同一个叶子结点上,此时模型可继续构建第二棵树、第三棵树,第二棵树的目标值不是样本原本的标注值,而是基于第一棵树预测值
Figure BDA0002885128250000112
之后与原本目标值y的残差值
Figure BDA0002885128250000113
且模型在选择分支结点对数据集划分时,左右子树在构建时互不影响,从训练数据上经划分后变成无交集的两个子集,从选择最优分割特征和特征值时也互不影响,因此模型在建树时,可以同时(并行计算)生成左子树和右子树,有助于加速训练。
模型训练过程就是依次建树的过程,直到完成建立所有树,虽然在构建每一棵树时是串行的,但对一棵树在构建左子树和右子树时是互不影响,可以并行计算的,直到所有树都构建完成。
步骤A3,根据训练样本的训练结果调整回归树模型的参数。
步骤A4,继续执行获取训练样本和训练样本对应的采收量的步骤,直至满足预设的训练结束条件,将训练得到的回归树模型确定为训练好的回归树模型。
本实施例中的回归树模型的回归树的数量等于数量阈值;并且,回归树模型的参数的改变量小于预设的改变阈值。
本实施例中的模型训练需多次迭代,在建树之前人工设定超参数K代表可伸缩回归树一共构建子树的棵数(K即回归树的预设数量阈值),每一轮训练依次构建K棵树,当K棵都构建完成且模型参数不断更新但不再改变或参数改变小于给定阈值(ξ=0.0001)时表示训练完成,此时模型已收敛,可以使用验证集测试。
在完成对回归树模型进行训练的步骤之后,本实施例还可对回归树模型进行验证,例如:基于预设的验证样本对训练好的回归树模型进行验证。
模型收敛后用验证集数据测试模型的准确性。验证集数据也是标注数据,是在构建训练集时剩余20%数据量的那部分,验证环节要对待测样本依次跑每一棵树的预测结果,并将每棵树的预测结果累加得到最终的预测值。
农作物的采收量预测阶段是用已训练好的可伸缩回归树模型来预测作物采收量的过程。模型训练收敛后,固化模型权重不变,对待预测数据的特征数据进行相同的预处理操作,向模型输入处理后的特征数据,经模型计算可输出不同类别作物的采收量,即农作物的采收量预测数据。
本发明实施例提供的上述方法,可以根据计算增益值Gain来选择树的分支结点,有利于模型对空值、异常值做容错处理。本实施例使用的可伸缩回归树是基于串行残差拟合的树模型,由于依次构建多棵树来拟合训练数据使预测误差不断减小,使得模型较其他回归模型有更高的准确率。本实施例生成每一棵树时,可同时生成左子树和右子树,尤其当树较深时,可以更加充分并行化,可以显著提升模型训练速度。
实施例三:
对应于上述方法实施例,本发明实施例提供了一种农作物的采收量预测装置,参见图5所示的一种农作物的采收量预测装置的结构示意图,该农作物的采收量预测装置包括:
监测数据获取模块51,用于基于全球定位系统、地理信息系统和遥感技术获取农作物的监测数据;
特征数据确定模块52,用于确定监测数据对应的特征数据;特征数据表征影响农作物的采收量的数据;
采收量预测模块53,用于将特征数据输入至预先训练完成的回归树模型中,输出农作物的采收量预测数据;其中,回归树模型基于可伸缩回归树算法构建。
本发明实施例提供的一种农作物的采收量预测装置,基于全球定位系统、地理信息系统和遥感技术获取农作物的监测数据,将上述监测数据对应的特征数据输入至基于可伸缩回归树算法构建的回归树模型中,输出农作物的采收量预测数据。该方式中,通过全球定位系统、地理信息系统和遥感技术可以监测农作物全生命周期不同阶段的生长数据,建模时使用的数据全面且存量巨大,从数据角度可最大化提升预测准确性;回归树模型基于可伸缩回归树算法构建,该算法对数据量和计算量的增减变化可同步进行,模型具有可伸缩性。
上述监测数据包括作物生长监测数据、气候环境监测数据和病虫草害监测数据;上述监测数据获取模块,用于基于全球定位系统确定指定坐标的农作物的种植区域;基于地理信息系统对农作物的种植区域进行成图处理,输出多个图层;通过遥感技术确定多个图层对应的作物生长监测数据、气候环境监测数据和病虫草害监测数据。
上述特征数据确定模块,用于确定影响农作物的采收量的数据的类型;基于数据的类型从监测数据中提取监测数据对应的特征数据。
上述采收量预测模块,用于对特征数据进行归一化处理;将归一化处理后的特征数据输入至预先训练完成的回归树模型中。
上述装置还包括回归树模型训练模块,用于获取训练样本和训练样本对应的采收量;其中,训练样本和训练样本对应的采收量基于农作物的历史监测数据获取;基于训练样本构建回归树模型的预设数量阈值的回归树;根据训练样本的训练结果调整回归树模型的参数;继续执行获取训练样本和训练样本对应的采收量的步骤,直至满足预设的训练结束条件,将训练得到的回归树模型确定为训练好的回归树模型。
上述回归树模型训练模块,还用于基于预设的验证样本对训练好的回归树模型进行验证。
上述回归树模型训练模块,还用于基于预设比例从农作物的历史监测数据中确定训练样本和验证样本;其中,历史监测数据包含农作物的历史特征数据和历史特征数据对应的采收量。
上述回归树模型训练模块,用于计算训练样本中每个特征的增益值,得到增益值的最大值对应的目标特征;基于目标特征进行分支结点,对训练样本进行划分,并构建回归树模型的第一棵回归树;其中,第一棵回归树的树高不超过预设的高度阈值。
上述训练结束条件包括:回归树模型的回归树的数量等于数量阈值;并且,回归树模型的参数的改变量小于预设的改变阈值。
本发明实施例所提供的农作物的采收量预测装置,其实现原理及产生的技术效果和前述农作物的采收量预测方法实施例相同,为简要描述,农作物的采收量预测装置实施例部分未提及之处,可参考前述农作物的采收量预测方法实施例中相应内容。
实施例四:
本发明实施例还提供了一种电子设备,用于运行上述农作物的采收量预测方法;参见图6所示的一种电子设备的结构示意图,该电子设备包括存储器100和处理器101,其中,存储器100用于存储一条或多条计算机指令,一条或多条计算机指令被处理器101执行,以实现上述农作物的采收量预测方法。
进一步地,图6所示的电子设备还包括总线102和通信接口103,处理器101、通信接口103和存储器100通过总线102连接。
其中,存储器100可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述农作物的采收量预测方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的农作物的采收量预测方法和装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和/或装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种农作物的采收量预测方法,其特征在于,所述方法包括:
基于全球定位系统、地理信息系统和遥感技术获取农作物的监测数据;
确定所述监测数据对应的特征数据;所述特征数据表征影响所述农作物的采收量的数据;
将所述特征数据输入至预先训练完成的回归树模型中,输出所述农作物的采收量预测数据;其中,所述回归树模型基于可伸缩回归树算法构建。
2.根据权利要求1所述的方法,其特征在于,所述监测数据包括作物生长监测数据、气候环境监测数据和病虫草害监测数据;
基于全球定位系统、地理信息系统和遥感技术获取农作物的监测数据的步骤,包括:
基于全球定位系统确定指定坐标的所述农作物的种植区域;
基于地理信息系统对所述农作物的种植区域进行成图处理,输出多个图层;
通过遥感技术确定多个所述图层对应的所述作物生长监测数据、所述气候环境监测数据和所述病虫草害监测数据。
3.根据权利要求1所述的方法,其特征在于,确定所述监测数据对应的特征数据的步骤,包括:
确定影响所述农作物的采收量的数据的类型;
基于所述数据的类型从所述监测数据中提取所述监测数据对应的特征数据。
4.根据权利要求1所述的方法,其特征在于,将所述特征数据输入至预先训练完成的回归树模型中的步骤,包括:
对所述特征数据进行归一化处理;
将归一化处理后的所述特征数据输入至预先训练完成的回归树模型中。
5.根据权利要求1所述的方法,其特征在于,所述回归树模型通过以下步骤训练:
获取训练样本和所述训练样本对应的采收量;其中,所述训练样本和所述训练样本对应的采收量基于所述农作物的历史监测数据获取;
基于所述训练样本构建所述回归树模型的预设数量阈值的回归树;
根据所述训练样本的训练结果调整所述回归树模型的参数;
继续执行所述获取训练样本和所述训练样本对应的采收量的步骤,直至满足预设的训练结束条件,将训练得到的所述回归树模型确定为训练好的所述回归树模型。
6.根据权利要求5所述的方法,其特征在于,将训练得到的所述回归树模型确定为训练好的所述回归树模型的步骤之后,所述方法还包括:
基于预设的验证样本对训练好的所述回归树模型进行验证。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
基于预设比例从所述农作物的历史监测数据中确定训练样本和验证样本;其中,所述历史监测数据包含所述农作物的历史特征数据和所述历史特征数据对应的采收量。
8.根据权利要求5所述的方法,其特征在于,基于所述训练样本构建所述回归树模型的第一棵回归树的步骤,包括:
计算所述训练样本中每个特征的增益值,得到所述增益值的最大值对应的目标特征;
基于所述目标特征进行分支结点,对所述训练样本进行划分,并构建所述回归树模型的第一棵回归树;其中,所述第一棵回归树的树高不超过预设的高度阈值。
9.根据权利要求5所述的方法,其特征在于,所述训练结束条件包括:所述回归树模型的回归树的数量等于所述数量阈值;并且,所述回归树模型的参数的改变量小于预设的改变阈值。
10.一种农作物的采收量预测装置,其特征在于,所述装置包括:
监测数据获取模块,用于基于全球定位系统、地理信息系统和遥感技术获取农作物的监测数据;
特征数据确定模块,用于确定所述监测数据对应的特征数据;所述特征数据表征影响所述农作物的采收量的数据;
采收量预测模块,用于将所述特征数据输入至预先训练完成的回归树模型中,输出所述农作物的采收量预测数据;其中,所述回归树模型基于可伸缩回归树算法构建。
CN202110012278.0A 2021-01-06 2021-01-06 农作物的采收量预测方法和装置 Pending CN112785047A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110012278.0A CN112785047A (zh) 2021-01-06 2021-01-06 农作物的采收量预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110012278.0A CN112785047A (zh) 2021-01-06 2021-01-06 农作物的采收量预测方法和装置

Publications (1)

Publication Number Publication Date
CN112785047A true CN112785047A (zh) 2021-05-11

Family

ID=75755677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110012278.0A Pending CN112785047A (zh) 2021-01-06 2021-01-06 农作物的采收量预测方法和装置

Country Status (1)

Country Link
CN (1) CN112785047A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408132A (zh) * 2016-09-30 2017-02-15 深圳前海弘稼科技有限公司 一种基于种植设备的作物产量预测方法及装置
WO2018058821A1 (zh) * 2016-09-30 2018-04-05 深圳前海弘稼科技有限公司 一种基于种植设备的病虫害预测方法及装置
CN109767038A (zh) * 2019-01-04 2019-05-17 平安科技(深圳)有限公司 农作物产量预测方法、装置及计算机可读存储介质
CN110414738A (zh) * 2019-08-01 2019-11-05 吉林高分遥感应用研究院有限公司 一种农作物产量预测方法及系统
CN110443420A (zh) * 2019-08-05 2019-11-12 山东农业大学 一种基于机器学习的作物产量预测方法
CN110852149A (zh) * 2019-09-24 2020-02-28 广州地理研究所 基于分类和回归树算法的植被指数预测方法、系统及设备
CN111461435A (zh) * 2020-04-01 2020-07-28 中国农业科学院农业信息研究所 一种农作物产量的预测方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408132A (zh) * 2016-09-30 2017-02-15 深圳前海弘稼科技有限公司 一种基于种植设备的作物产量预测方法及装置
WO2018058821A1 (zh) * 2016-09-30 2018-04-05 深圳前海弘稼科技有限公司 一种基于种植设备的病虫害预测方法及装置
CN109767038A (zh) * 2019-01-04 2019-05-17 平安科技(深圳)有限公司 农作物产量预测方法、装置及计算机可读存储介质
CN110414738A (zh) * 2019-08-01 2019-11-05 吉林高分遥感应用研究院有限公司 一种农作物产量预测方法及系统
CN110443420A (zh) * 2019-08-05 2019-11-12 山东农业大学 一种基于机器学习的作物产量预测方法
CN110852149A (zh) * 2019-09-24 2020-02-28 广州地理研究所 基于分类和回归树算法的植被指数预测方法、系统及设备
CN111461435A (zh) * 2020-04-01 2020-07-28 中国农业科学院农业信息研究所 一种农作物产量的预测方法和系统

Similar Documents

Publication Publication Date Title
CN111767802B (zh) 一种对象异常状态的检测方法和装置
CN111460990A (zh) 一种基于大数据的高寒牧区草原虫害监测预警系统及方法
CN108090628A (zh) 一种基于pso-lssvm算法的粮情安全检测分析方法
CN111048214A (zh) 外来畜禽疫病传播态势的预警方法及装置
Choudhary et al. Yieldpredict: A crop yield prediction framework for smart farms
CN115618021A (zh) 农作物品种适宜种植区域推荐方法及装置
CN114280276A (zh) 一种农业监测系统及方法
CN117114913A (zh) 一种基于大数据的智能化农业数据采集系统
CN113127464B (zh) 农业大数据环境特征处理方法、装置及电子设备
Anindya et al. IoT Based Climate Prediction System Using Long Short-Term Memory (LSTM) Algorithm as Part of Smart Farming 4.0
CN114140403A (zh) 一种基于卷积神经网络的植物叶片病害检测方法
CN112418073B (zh) 一种基于无人机图像融合特征的小麦植株氮含量估测方法
CN116579521B (zh) 产量预测时间窗口确定方法、装置、设备及可读存储介质
Monica et al. Soil NPK prediction using enhanced genetic algorithm
CN112785047A (zh) 农作物的采收量预测方法和装置
CN116740586A (zh) 冰雹识别方法、装置、电子设备及计算机可读存储介质
CN109828623B (zh) 温室作物情景感知的生产管理方法及装置
Wijayanto et al. Estimating Rice production using machine learning models on multitemporal Landsat-8 satellite images (case study: Ngawi regency, East Java, Indonesia)
CN111524023A (zh) 温室调节方法及系统
FAISAL A pest monitoring system for agriculture using deep learning
JP7452879B2 (ja) 予測システム、予測方法、および予測プログラム
Priya et al. A survey on deep learning based IoT approach for precision crop suggestion
Wedashwara et al. Parallel evolutionary association rule mining for efficient summarization of wireless sensor network data pattern
CN117151354B (zh) 一种农田修复与改良管理方法及系统
CN117095291A (zh) 一种作物生长期精确识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination