CN113127464A - 农业大数据环境特征处理方法、装置及电子设备 - Google Patents

农业大数据环境特征处理方法、装置及电子设备 Download PDF

Info

Publication number
CN113127464A
CN113127464A CN202110313111.8A CN202110313111A CN113127464A CN 113127464 A CN113127464 A CN 113127464A CN 202110313111 A CN202110313111 A CN 202110313111A CN 113127464 A CN113127464 A CN 113127464A
Authority
CN
China
Prior art keywords
environmental
decision tree
characteristic
growth rate
growth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110313111.8A
Other languages
English (en)
Other versions
CN113127464B (zh
Inventor
吴洁
吴腾
袁逢阳
袁成进
严小东
苏子庭
虞周涛
刘振宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fangchenggang Animal Disease Prevention And Control Center
Original Assignee
Fangchenggang Animal Disease Prevention And Control Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fangchenggang Animal Disease Prevention And Control Center filed Critical Fangchenggang Animal Disease Prevention And Control Center
Priority to CN202110313111.8A priority Critical patent/CN113127464B/zh
Publication of CN113127464A publication Critical patent/CN113127464A/zh
Application granted granted Critical
Publication of CN113127464B publication Critical patent/CN113127464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Animal Husbandry (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Agronomy & Crop Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Mining & Mineral Resources (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种农业大数据环境特征处理方法、装置、电子设备及计算机存储介质,该方法包括从多个环境维度出发,分别采集农作物不同生长周期的环境数据以及生长速率;按照环境维度对环境数据进行清洗降噪;计算环境特征与生长速率的相似度;基于相似度高于相似度预设值的环境特征生成关系型数据库;基于关系型数据库中各个环境特征的信息增益,建立决策树训练模型;根据决策树训练模型确定各个环境特征对生长速率影响的权重;将权重高于权重预设值的环境特征作为关键环境特征集。本发明中对农业生产环境大数据进行了针对性处理,得到的关键特征集属于利用价值高的数据,以此为基础进行农作物生长状态预测时,能够精确预测出农作物的生长状态。

Description

农业大数据环境特征处理方法、装置及电子设备
技术领域
本发明涉及农业大数据分析技术领域,特别是涉及一种农业大数据环境特征处理方法、装置、电子设备及计算机存储介质。
背景技术
近年来,智慧农业的不断普及,丰富了农业生产环境监测的手段,诸如传感器,无线设备,移动终端等智能监测设备的使用,产生了大量的环境数据。这些环境数据类型繁多,数据体量大,关联程度高,如何对环境数据进行有效的处理并运用到实际的农业生产活动中是一个关注热点。
目前,在数据采集和存储等领域已经实现智能化,但是存储类型繁多的数据会占用大量的内存资源,而且数据没有经过针对性处理,会存在许多利用价值低的数据。智慧农业的最终目的是要将数据运用到实际的农业生产活动中,创造相应的价值。
现有农业环境数据的研究仅限于单一环境因素对生产状态的影响,涉及因素不够全面,而且农业环境对农作物的生长状态是一个动态变化的过程,单一环境因素在不同的农作物生长周期内影响不同,不能够精确预测农作物的生长状态。
发明内容
鉴于上述问题,本发明提出一种农业大数据环境特征处理方法和模型,以实现农业环境数据特征的有效处理和农业环境数据的高效利用。
本发明提供了一下技术方案:
本发明提供了一种农业大数据环境特征处理方法,所述方法包括:
从多个环境维度出发,分别采集农作物不同生长周期的环境数据;
按照环境维度对所述环境数据进行清洗降噪以及归一化处理,得到特征库;
获取所述农作物不同生长周期的生长速率,并对所述生长速率进行归一化处理;
针对所述特征库中的每个环境特征,计算所述环境特征在各个生长周期的变化趋势与所述生长速率在各个生长周期的变化趋势之间的相似度;
确定相似度高于相似度预设值的环境特征,生成关系型数据库;
针对关系型数据库中的每个环境特征,计算所述环境特征的信息增益;
基于所述环境特征的信息增益,建立决策树训练模型;
根据所述决策树训练模型确定所述决策树训练模型中各个环境特征对生长速率影响的权重;
确定权重高于权重预设值的环境特征,得到关键环境特征集。
进一步地,采集的环境特征至少包括:温度、湿度、气压、光照条件、土壤酸碱度、化学元素、人为因素、种子状态。
进一步地,针对关系型数据库中的每个环境特征,计算所述环境特征的信息增益,包括:
计算所述农作物生长速率的信息熵;
针对关系型数据库中的每个环境特征,将所述环境特征与所述生长速率相结合,计算所述环境特征的信息熵,根据所述农作物生长速率的信息熵和所述环境特征的信息熵得到所述环境特征的信息增益;所述环境特征的信息增益为所述农作物生长速率的信息熵与所述环境特征的信息熵之差。
进一步地,基于所述环境特征的信息增益,建立决策树训练模型,包括:
建立以所述关系型数据库中的所有环境特征为根节点的决策树;
将所述环境特征按照其特征值划分为高、中、低三个等级;按照所述环境特征的信息增益的大小,依次得到所述决策树的内部节点,每个内部结点对应于一个环境特征;
将所述生长速率按照其数值划分为快、中、慢三个等级;将所述生长速率的等级作为所述决策树的叶子节点;
对所述决策树进行剪枝,修剪掉所述生长速率等级为“低”和“中”的分支,将修剪后的决策树作为决策树训练模型。
进一步地,对所述决策树进行剪枝,修剪掉所述生长速率等级为“低”和“中”的分支之后,还包括:
确定相似度低于相似度预设值的环境特征,生成非关系型数据库;
针对非关系型数据库中的每个环境特征,分别计算所述环境特征的互信息,所述互信息表征所述环境特征对所述生长速率的影响大小;
将所述互信息大于互信息预设值的环境特征加入修剪后的决策树,将扩充之后的决策树作为决策树训练模型。
进一步地,根据所述决策树训练模型确定所述决策树训练模型中各个环境特征对生长速率影响的权重,包括:
统计所述决策树训练模型中每个根节点到叶子节点之间各个环境特征出现的次数以及所述决策树训练模型中出现的环境特征总数;
针对所述决策树训练模型中每个环境特征,计算所述环境特征对生长速率影响的权重;所述环境特征对生长速率影响的权重为所述环境特征出现的次数除以出现的环境特征总数。
本发明还提供了一种实现上述农业大数据环境特征处理方法的农业大数据环境特征处理装置,所述装置包括:
环境数据采集单元,用于从多个环境维度出发,分别采集农作物不同生长周期的环境数据;
特征数据清洗单元,用于按照环境维度对所述环境数据采集单元采集的环境数据进行清洗降噪以及归一化处理,得到特征库;
生长速率获取单元,用于获取所述农作物不同生长周期的生长速率,并对所述生长速率进行归一化处理;
相似度计算单元,用于针对所述特征数据清洗单元得到的特征库中的每个环境特征,计算所述环境特征在各个生长周期的变化趋势与所述生长速率获取单元获取的生长速率在各个生长周期的变化趋势之间的相似度;
关系型数据库生成单元,用于确定相似度计算单元计算出的相似度高于相似度预设值的环境特征,生成关系型数据库;
增益计算单元,用于针对关系型数据库生成单元生成的关系型数据库中的每个环境特征,计算所述环境特征的信息增益;
决策树训练模型建立单元,用于基于所述增益计算单元计算出的环境特征的信息增益,建立决策树训练模型;
影响权重计算单元,用于根据所述决策树训练模型建立单元建立的决策树训练模型确定决策树训练模型中各个环境特征对生长速率影响的权重;
关键环境特征集确定单元,用于确定所述影响权重计算单元确定出的权重高于权重预设值的环境特征,得到关键环境特征集。
本发明还提供了一种应用上述农业大数据环境特征处理方法得到的关键环境特征集预测农作物生长状况的方法,包括:
利用上述农业大数据环境特征处理方法得到关键环境特征集;
分析预定周期内所述关键环境特征集中每个环境特征随时间变化的趋势;
结合时间因素,进行二次回归,训练各个环境特征在不同时期对农作物生长速率的影响权重;
基于各个环境特征在不同时期对农作物生长速率的影响权重和动态回归预测模型,预测农作物生长速率。
本发明还提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上述农业大数据环境特征处理方法所执行的操作。
本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如上述农业大数据环境特征处理方法所执行的操作。
本发明的优点和积极效果:
本发明中,针对采集的农业生产环境大数据,按照多维特征对环境数据进行清洗降噪、归一化和离散化处理,增强数据的适用性,通过相似度计算得到关系型数据库,将关系型数据库与各个时期的实际农作物生长速率相匹配,建立决策树训练模型,确立各个环境特征对农作物速率的影响权重,剔除权重较小的特征,降低环境特征维度,形成关键环境特征集。可见,本发明中对农业生产环境大数据进行了针对性处理,得到的关键特征集中包括的环境特征数据与实际农作物生长速率相匹配,且对农作物状态的影响较大,属于利用价值高的数据,能够运用到实际的农业生产活动中,创造相应的价值。
同时,本发明中,以上述关键环境特征集作为基础,引入时间因素,进行二次回归,确定多维环境特征在农作物各个生长周期对农作物生长速率的影响权重,最终实现对农作物生长速率的预测。本发明中在进行农作物生长速率预测时,结合了多种环境因素在不同的农作物生长周期内的影响,符合农业环境对农作物的生长状态动态变化影响的自然规律,能够精确预测出农作物的生长状态。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种农业大数据环境特征处理方法的流程图;
图2为本发明实施例中一种决策树训练模型的示例图;
图3为本发明实施例中一种预测农作物生长状况的方法的流程图;
图4为本发明实施例中一种农业大数据环境特征处理装置的结构示意图;
图5为本发明实施例中一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明提供了农业生产环境数据的动态处理方法以及农作物生长状态的预测方法。农业生产环境数据的动态处理方法包括采集农业生产环境大数据,按照多维特征对环境数据进行清洗降噪、归一化和离散化处理,增强数据的适用性,通过相似度计算得到关系型数据库,将关系型数据库与各个时期的实际农作物生长状态相匹配,建立决策树训练模型,确立各个环境特征对农作物生长状态的影响权重,剔除权重较小的特征,降低环境特征维度,形成关键特征集。农作物生长状态的预测方法包括以上述关键环境特征集作为基础,引入时间因素,进行二次回归,确定多维特征在农作物各个生长周期的影响权重,得到最终农作物生长状态预测结果。
参见图1,其示出了本发明实施例提供的一种农业大数据环境特征处理方法的流程图,该方法涉及农业生产环境数据的特征动态处理,包括:
S101、采集农业生产环境大数据:从多个环境维度出发,分别采集农作物不同生长周期的环境数据。
该环节实际采集过程中,应该不限于温度、湿度、气压、光照条件、土壤酸碱度、化学元素、人为因素、种子状态等特征。
采集方式可以通过传感器、化学仪器、实时预报软件等智能化设备,可以有效降低人为采集所带来的操作困难和数据误差,提高采集效率。
S102、按照环境维度对所述环境数据进行清洗降噪以及归一化处理,得到特征库。
在采集数据的过程中,应做好分类工作,对于温度、湿度、气压、光照条件、土壤酸碱度、化学元素、人为因素、种子状态等环境特征及其特征值应该分类进行采集和存储,方便后续的数据处理。
对数据的清洗降噪主要包括对异常值的处理,重复数据的删除,缺失数据的补充。异常数据包括日期越界,单位不匹配,符号错误等信息,对于这些数据进行人为修正。重复数据例如某一段时间内的环境信息多次进行统计,造成数据重复,对于这部分数据进行删除。缺失数据是采集过程中机器或者人为因素造成的,对于缺失值的补充,可以根据业务知识或经验推测填充缺失值,以同一指标的计算结果,结果不限于均值、中位数、众数等填充缺失值。对数据的清洗降噪之后,形成基础的特征库。
对基础特征库的数据进行归一化处理,特征库中不同评价指标会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性,适合进行综合对比评价。本发明采用min-max标准化,利用原始数据库的均值和标准差进行数据的归一化,映射到[0,1]区间,降低计算的复杂度。
环境特征的数据具有连续性,比如温度,湿度,光照条件等,而分类、聚类等算法,必须是离散型的数据才能执行。为了提高数据的适用性,本发明对环境特征进行了离散化,有效的离散化能减小算法的时间和空间开销,提高系统对样本的分类聚类能力,同时降低异常值对系统的影响。离散化的方法是根据每个环境特征的属性值进行等宽划分,比如温度,可以将最低温度到最高温度的范围,将其划分成几段,[11℃,15℃]、[16℃,20℃]、[21℃,25℃]、[26℃,30℃]等,土壤酸碱度可按照PH值进行分段离散化,种子状态等可按照优、良、差来进行离散化。
S103、获取所述农作物不同生长周期的生长速率,并对所述生长速率进行归一化处理。
S104、针对所述特征库中的每个环境特征,计算所述环境特征在各个生长周期的变化趋势与所述生长速率在各个生长周期的变化趋势之间的相似度。
相似度/相异度计算按照各个环境特征与农作物实际生长状况按照各个生长周期相结合,计算两者之间的距离,如果距离小,那么相似度大,相异度小;如果距离大,那么相似度小,相异度反而大。
结果与特征之间的距离计算可以按照欧式距离计算,利用距离来衡量相似度,设定一个相似度阈值,剔除相似度阈值较低的特征,按照多个时间段内的特征值,分别计算特征与结果之间的欧氏距离,由于特征库进行了归一化与离散化处理,各个特征值都映射到[0,1]区间,所以计算的欧氏距离也会相对收敛到[0,1]区间,欧式距离越小,相似度越大,相异度越小。
S105、确定相似度高于相似度预设值的环境特征,生成关系型数据库;
按照相似距离从小到大进行相似度排序,对于相似度较小的特征,进行剔除,降低特征维度,形成关系型数据库。
S106、针对关系型数据库中的每个环境特征,计算所述环境特征的信息增益。
信息增益是一个统计量,用来描述一个特征区分数据样本的能力,这里信息增益的纯度用信息熵的变化程度来衡量。在决策树构建的过程中,总是希望集合往最快到达纯度更高的子集合方向发展,因此优先选择使得信息增益最大的特征来划分当前样本数据集D。信息增益越大,那么决策树就会越简洁。使用划分前后信息熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。有统计样本S的情况下,计算某特征信息增益的步骤如下:计算不用特征区分的情况下,决策特征在整体样本中的信息熵E(s);计算按照该特征把样本分开之后,决策特征在样本中的信息熵E(p);该特征的信息增益=E(s)-E(p)。
本实施例中,环境特征的信息增益可以按照以下方式计算:首先计算所述农作物生长速率的信息熵;然后针对关系型数据库中的每个环境特征,将所述环境特征与所述生长速率相结合,计算所述环境特征的信息熵;最后根据所述农作物生长速率的信息熵和所述环境特征的信息熵得到所述环境特征的信息增益;所述环境特征的信息增益为所述农作物生长速率的信息熵与所述环境特征的信息熵之差。
计算信息熵,消除不确定性所需信息量的度量,也即未知事件可能含有的信息量,信息熵常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。在决策树的生成过程中,就使用了熵来作为样本最优属性划分的判据。信息熵的计算公式如下:
Figure BDA0002990725680000091
其中,X为生长速率或关系型数据库中的任一环境特征,pi为某种类型的生长速率或环境特征出现的概率;m为生长速率或环境特征的类型总数。
以表1所示的关系型数据库中的部分数据为例,
表1
Figure BDA0002990725680000092
Figure BDA0002990725680000101
生长速率的信息熵计算如下:
总体样本20个,其中生长速率快的有6个,中的有6个,慢的有8个,可将快和中看做正例共12个,占比为0.6,慢看做反例,共8个占比为0.4;
信息熵:
-[0.6log2(0.6)+0.4log2(0.4)]=-[0.6*(-0.7369)+0.4*(-1.3219)]=0.9709;
温度的信息熵计算如下:
温度高的样本有7个,中的样本有7个,低的样本有6个;
温度为高的生长速率共7个,正例有5个,反例有2个;
信息熵:
-[(5/7)log2(5/7)+2/7log2(2/7)]=-[0.7143*(-0.4854)+0.2857*(-1.8074)]=0.8631;
温度为中的生长速率共7个,正例有5个,反例有2个;
信息熵:
-[(5/7)log2(5/7)+2/7log2(2/7)]=-[0.7143*(-0.4854)+0.2857*(-1.8074)]=0.8631;
温度为低的生长速率共6个,正例有4个,反例有2个。
信息熵:
-[(4/6)log2(4/6)+(2/6)log2(2/6)]=-[0.6667*(-0.5849)+0.3333*(-1.5851)]=0.9182
温度的信息增益为:
0.9709-((7/20)*0.8631+(7/20)*0.8631+(6/20)*0.9182)=0.09127。
依次计算其余环境特征的信息增益,结果如表2所示。
表2
特征 信息增益
温度 0.0913
湿度 0.0897
气压 0.6361
光照 0.1357
PH值 0.0832
营养元素 0.0764
S107、基于所述环境特征的信息增益,建立决策树训练模型;
建立决策树训练模型,主要分为以下步骤:
第一,引入环境特征数据,对特征数据进行清洗,进行分类,这些过程可按S102来处理;
第二,建立决策树;一棵决策树包含一个根节点、若干个内部结点和若干个叶子结点,根节点包含了环境特征全集,也就是S105产生的关系型数据库中的特征集;其中叶子节点对应于决策结果,比如农作物生长速率,其他每个结点对应于一个环境特征,比如温度,湿度,光照等。
具体包括:
S701、建立以所述关系型数据库中的所有环境特征为根节点的决策树;将所述环境特征按照其特征值划分为高、中、低三个等级,例如温度可根据数值区间[0,0.4],[0.5,0.7],[0.8,1]对应于低,中,高。
S702、按照所述环境特征的信息增益的大小,依次得到所述决策树的内部节点,每个内部结点对应于一个环境特征;
也就是将信息增益大的环境特征作为优先决策的节点,诸如温度,湿度,种子的状态等信息增益较大,可作为优先决策的节点,植物各个生长时期所依赖的光照和营养元素等信息增益较小,决策顺序靠后。在上面的例子中,决策树的决策节点依次是:光照,温度,湿度,PH值,营养元素,气压。
S703、将所述生长速率按照其数值划分为快、中、慢三个等级;将所述生长速率的等级作为所述决策树的叶子节点;
S704、对所述决策树进行剪枝,修剪掉所述生长速率等级为低和中的分支,将修剪后的决策树作为决策树训练模型。
在对决策树修剪之后,还可以进一步再对决策树进行扩展补充,以包含其他可能对农作物生长速率影响较大的环境因素。在另一种可能的实施方式中,确定相似度低于相似度预设值的环境特征,生成非关系型数据库;针对非关系型数据库中的每个环境特征,分别计算所述环境特征的互信息,将所述互信息大于互信息预设值的环境特征加入修剪后的决策树,将扩充之后的决策树作为决策树训练模型。
其中,互信息表征所述环境特征对所述生长速率的影响大小。互信息越大,表示该环境特征对生长速率的影响越大,互信息为0表示此环境特征对生长速率没有影响。互信息的计算公式如下:
Figure BDA0002990725680000131
其中,X、Y分别表示非关系型数据库中的环境特征和生长速率,p(x,y)是X和Y的联合概率分布函数,p(x)和p(y)表示X和Y的边缘概率分布函数。
互信息预设值可以根据实际需要进行设置,本实施例中,互信息预设值优选为0.5。
S108、根据所述决策树训练模型确定所述决策树训练模型中各个环境特征对生长速率影响的权重。
影响权重的计算方式可以是:统计所述决策树训练模型中每个根节点到叶子节点之间各个环境特征出现的次数以及所述决策树训练模型中出现的环境特征总数;针对所述决策树训练模型中每个环境特征,计算所述环境特征对生长速率影响的权重;所述环境特征对生长速率影响的权重为所述环境特征出现的次数除以出现的环境特征总数。
可以理解的是,这里的决策树训练模型可以是修剪决策树得到的决策树训练模型,也可以是扩展修剪后的决策树得到的决策树训练模型。
以图2示出的仅包括光照、温度、湿度三种环境特征的决策树训练模型为例,该决策树训练模型中共有叶子节点17个,对应17条支路,从左往右进行统计,每条支路上环境特征出现的次数分别为:3、3、3、3、3、3、2、3、3、3、3、3、3、2、2、2、2,出现的环境特征总数为17条支路上出现的环境特征总数,共46个。光照出现的次数为17、温度出现的次数为17、湿度出现的次数为12。则,光照对生长速率影响的权重为17/46,温度对生长速率影响的权重为17/46,湿度对生长速率影响的权重为12/46。
S109、确定权重高于权重预设值的环境特征,得到关键环境特征集。
最优特征集选择,剔除权重较小的特征,降低特征维度,获得关键环境特征集。诸如气压,人为因素,自然灾害等对农作物生长状态影响较小的环境因素就可以剔除,关键环境特征集里包含温度,湿度,光照,种子状态,营养元素等。
本发明实施例中公开的一种农业大数据环境特征处理方法中,对农业生产环境大数据进行了针对性处理,得到的关键特征集中包括的环境特征数据与实际农作物生长状态相匹配,且对农作物状态的影响较大,属于利用价值高的数据,能够运用到实际的农业生产活动中,创造相应的价值。
参见图3,其示出了本发明实施例中一种应用上述农业大数据环境特征处理方法得到的关键环境特征集预测农作物生长状况的方法的流程图,该方法包括:
S201、利用上述农业大数据环境特征处理方法得到关键环境特征集;
S202、分析预定周期内所述关键环境特征集中每个环境特征随时间变化的趋势;
S203、结合时间因素,进行二次回归,训练各个环境特征在不同时期对农作物生长速率的影响权重;
S204、基于各个环境特征在不同时期对农作物生长速率的影响权重和动态回归预测模型,预测农作物生长速率。
本发明实施例中在进行农作物生长状态预测时,结合了多种环境因素在不同的农作物生长周期内的影响,符合农业环境对农作物的生长状态动态变化影响的自然规律,能够精确预测出农作物的生长状态。
对应本发明中的农业大数据环境特征处理方法,本发明还提供了一种农业大数据环境特征处理装置。参见图4,其示出了本发明实施例中一种农业大数据环境特征处理装置的结构示意图,该装置包括:
环境数据采集单元301,用于从多个环境维度出发,分别采集农作物不同生长周期的环境数据;
特征数据清洗单元302,用于按照环境维度对所述环境数据采集单元301采集的环境数据进行清洗降噪以及归一化处理,得到特征库;
生长速率获取单元303,用于获取所述农作物不同生长周期的生长速率,并对所述生长速率进行归一化处理;
相似度计算单元304,用于针对所述特征数据清洗单元302得到的特征库中的每个环境特征,计算所述环境特征在各个生长周期的变化趋势与所述生长速率获取单元303获取的生长速率在各个生长周期的变化趋势之间的相似度;
关系型数据库生成单元305,用于确定相似度计算单元304计算出的相似度高于相似度预设值的环境特征,生成关系型数据库;
增益计算单元306,用于针对关系型数据库生成单元305生成的关系型数据库中的每个环境特征,计算所述环境特征的信息增益;
决策树训练模型建立单元307,用于基于所述增益计算单元306计算出的环境特征的信息增益,建立决策树训练模型;
影响权重计算单元308,用于根据所述决策树训练模型建立单元307建立的决策树训练模型确定决策树训练模型中各个环境特征对生长速率影响的权重;
关键环境特征集确定单元309,用于确定所述影响权重计算单元308确定出的权重高于权重预设值的环境特征,得到关键环境特征集。
特征管理单元310,用于根据所述关键特征集提取单元309获得的关键特征集,建立搜索引擎进行管理,方便特征的统计与检索。
对于本发明实施例的农业大数据环境特征处理装置而言,由于其与上面实施例中的农业大数据环境特征处理方法相对应,所以描述的比较简单,相关相似之处请参见上面实施例中部分的说明即可,此处不再详述。
图5是本发明实施例提供的一种电子设备的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现上述各个方法实施例提供的农业大数据环境特征处理方法。当然,该电子设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该电子设备还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成下述实施例中的农业大数据环境特征处理方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种农业大数据环境特征处理方法,其特征在于,所述方法包括:
从多个环境维度出发,分别采集农作物不同生长周期的环境数据;
按照环境维度对所述环境数据进行清洗降噪以及归一化处理,得到特征库;
获取所述农作物不同生长周期的生长速率,并对所述生长速率进行归一化处理;
针对所述特征库中的每个环境特征,计算所述环境特征在各个生长周期的变化趋势与所述生长速率在各个生长周期的变化趋势之间的相似度;
确定相似度高于相似度预设值的环境特征,生成关系型数据库;
针对关系型数据库中的每个环境特征,计算所述环境特征的信息增益;
基于所述环境特征的信息增益,建立决策树训练模型;
根据所述决策树训练模型确定所述决策树训练模型中各个环境特征对生长速率影响的权重;
确定权重高于权重预设值的环境特征,得到关键环境特征集。
2.根据权利要求1所述的农业大数据环境特征处理方法,其特征在于,采集的环境特征至少包括:温度、湿度、气压、光照条件、土壤酸碱度、化学元素、人为因素、种子状态。
3.根据权利要求1所述的农业大数据环境特征处理方法,其特征在于,针对关系型数据库中的每个环境特征,计算所述环境特征的信息增益,包括:
计算所述农作物生长速率的信息熵;
针对关系型数据库中的每个环境特征,将所述环境特征与所述生长速率相结合,计算所述环境特征的信息熵,根据所述农作物生长速率的信息熵和所述环境特征的信息熵得到所述环境特征的信息增益;所述环境特征的信息增益为所述农作物生长速率的信息熵与所述环境特征的信息熵之差。
4.根据权利要求1所述的农业大数据环境特征处理方法,其特征在于,基于所述环境特征的信息增益,建立决策树训练模型,包括:
建立以所述关系型数据库中的所有环境特征为根节点的决策树;
将所述环境特征按照其特征值划分为高、中、低三个等级;按照所述环境特征的信息增益的大小,依次得到所述决策树的内部节点,每个内部结点对应于一个环境特征;
将所述生长速率按照其数值划分为快、中、慢三个等级;将所述生长速率的等级作为所述决策树的叶子节点;
对所述决策树进行剪枝,修剪掉所述生长速率等级为“低”和“中”的分支,将修剪后的决策树作为决策树训练模型。
5.根据权利要求4所述的农业大数据环境特征处理方法,其特征在于,对所述决策树进行剪枝,修剪掉所述生长速率等级为“低”和“中”的分支之后,还包括:
确定相似度低于相似度预设值的环境特征,生成非关系型数据库;
针对非关系型数据库中的每个环境特征,分别计算所述环境特征的互信息,所述互信息表征所述环境特征对所述生长速率的影响大小;
将所述互信息大于互信息预设值的环境特征加入修剪后的决策树,将扩充之后的决策树作为决策树训练模型。
6.根据权利要求4或5所述的农业大数据环境特征处理方法,其特征在于,根据所述决策树训练模型确定所述决策树训练模型中各个环境特征对生长速率影响的权重,包括:
统计所述决策树训练模型中每个根节点到叶子节点之间各个环境特征出现的次数以及所述决策树训练模型中出现的环境特征总数;
针对所述决策树训练模型中每个环境特征,计算所述环境特征对生长速率影响的权重;所述环境特征对生长速率影响的权重为所述环境特征出现的次数除以出现的环境特征总数。
7.一种实现如权利要求1~6任一项所述的农业大数据环境特征处理方法的农业大数据环境特征处理装置,其特征在于,所述装置包括:
环境数据采集单元,用于从多个环境维度出发,分别采集农作物不同生长周期的环境数据;
特征数据清洗单元,用于按照环境维度对所述环境数据采集单元采集的环境数据进行清洗降噪以及归一化处理,得到特征库;
生长速率获取单元,用于获取所述农作物不同生长周期的生长速率,并对所述生长速率进行归一化处理;
相似度计算单元,用于针对所述特征数据清洗单元得到的特征库中的每个环境特征,计算所述环境特征在各个生长周期的变化趋势与所述生长速率获取单元获取的生长速率在各个生长周期的变化趋势之间的相似度;
关系型数据库生成单元,用于确定相似度计算单元计算出的相似度高于相似度预设值的环境特征,生成关系型数据库;
增益计算单元,用于针对关系型数据库生成单元生成的关系型数据库中的每个环境特征,计算所述环境特征的信息增益;
决策树训练模型建立单元,用于基于所述增益计算单元计算出的环境特征的信息增益,建立决策树训练模型;
影响权重计算单元,用于根据所述决策树训练模型建立单元建立的决策树训练模型确定决策树训练模型中各个环境特征对生长速率影响的权重;
关键环境特征集确定单元,用于确定所述影响权重计算单元确定出的权重高于权重预设值的环境特征,得到关键环境特征集。
8.一种应用如权利要求1~6任一项所述的农业大数据环境特征处理方法得到的关键环境特征集预测农作物生长状况的方法,其特征在于,包括:
利用权利要求1~6任一项所述的农业大数据环境特征处理方法得到关键环境特征集;
分析预定周期内所述关键环境特征集中每个环境特征随时间变化的趋势;
结合时间因素,进行二次回归,训练各个环境特征在不同时期对农作物生长速率的影响权重;
基于各个环境特征在不同时期对农作物生长速率的影响权重和动态回归预测模型,预测农作物生长速率。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1~6任一项所述的农业大数据环境特征处理方法所执行的操作。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1~6任一项所述的农业大数据环境特征处理方法所执行的操作。
CN202110313111.8A 2021-03-24 2021-03-24 农业大数据环境特征处理方法、装置及电子设备 Active CN113127464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110313111.8A CN113127464B (zh) 2021-03-24 2021-03-24 农业大数据环境特征处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110313111.8A CN113127464B (zh) 2021-03-24 2021-03-24 农业大数据环境特征处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN113127464A true CN113127464A (zh) 2021-07-16
CN113127464B CN113127464B (zh) 2022-11-18

Family

ID=76774045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110313111.8A Active CN113127464B (zh) 2021-03-24 2021-03-24 农业大数据环境特征处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113127464B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452358A (zh) * 2023-03-07 2023-07-18 陕西天霖瑞腾网络科技有限公司 基于物联网的智慧农业管理系统
CN116934519A (zh) * 2023-09-19 2023-10-24 四川省商投信息技术有限责任公司 一种基于边缘计算网关的数字农业管理方法及设备
CN116452358B (zh) * 2023-03-07 2024-06-07 东莞市众冠网络科技有限公司 基于物联网的智慧农业管理系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102049420A (zh) * 2009-11-05 2011-05-11 刘斌 基于决策树的精轧温控过程关键特征变量提取方法
CN108593001A (zh) * 2018-05-04 2018-09-28 杨杰 一种农业环境信息采集控制装置
US20180284743A1 (en) * 2016-05-09 2018-10-04 StrongForce IoT Portfolio 2016, LLC Methods and systems for industrial internet of things data collection for vibration sensitive equipment
CN110073301A (zh) * 2017-08-02 2019-07-30 强力物联网投资组合2016有限公司 工业物联网中具有大数据集的数据收集环境下的检测方法和系统
CN110309340A (zh) * 2019-06-24 2019-10-08 杭州嘉灏生态农业科技有限公司 农作物生长异常状况的预警方法及预警装置
CN111241056A (zh) * 2019-12-31 2020-06-05 国网浙江省电力有限公司电力科学研究院 一种基于决策树模型的电力用能数据存储优化方法
CN111582324A (zh) * 2020-04-20 2020-08-25 广州海睿信息科技有限公司 农业大数据分析的方法及装置
CN112085241A (zh) * 2019-06-12 2020-12-15 江苏汇环环保科技有限公司 一种基于机器学习的环境大数据分析和决策平台

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102049420A (zh) * 2009-11-05 2011-05-11 刘斌 基于决策树的精轧温控过程关键特征变量提取方法
US20180284743A1 (en) * 2016-05-09 2018-10-04 StrongForce IoT Portfolio 2016, LLC Methods and systems for industrial internet of things data collection for vibration sensitive equipment
CN110073301A (zh) * 2017-08-02 2019-07-30 强力物联网投资组合2016有限公司 工业物联网中具有大数据集的数据收集环境下的检测方法和系统
CN108593001A (zh) * 2018-05-04 2018-09-28 杨杰 一种农业环境信息采集控制装置
CN112085241A (zh) * 2019-06-12 2020-12-15 江苏汇环环保科技有限公司 一种基于机器学习的环境大数据分析和决策平台
CN110309340A (zh) * 2019-06-24 2019-10-08 杭州嘉灏生态农业科技有限公司 农作物生长异常状况的预警方法及预警装置
CN111241056A (zh) * 2019-12-31 2020-06-05 国网浙江省电力有限公司电力科学研究院 一种基于决策树模型的电力用能数据存储优化方法
CN111582324A (zh) * 2020-04-20 2020-08-25 广州海睿信息科技有限公司 农业大数据分析的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SEYED SOHAIL MADANI 等: "Islanding detection for PV and DFIG using decision tree and AdaBoost algorithm", 《2012 3RD IEEE PES INNOVATIVE SMART GRID TECHNOLOGIES EUROPE (ISGT EUROPE)》 *
张焕雪 等: "基于多时相环境星NDVI时间序列的农作物分类研究", 《遥感技术与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452358A (zh) * 2023-03-07 2023-07-18 陕西天霖瑞腾网络科技有限公司 基于物联网的智慧农业管理系统
CN116452358B (zh) * 2023-03-07 2024-06-07 东莞市众冠网络科技有限公司 基于物联网的智慧农业管理系统
CN116934519A (zh) * 2023-09-19 2023-10-24 四川省商投信息技术有限责任公司 一种基于边缘计算网关的数字农业管理方法及设备
CN116934519B (zh) * 2023-09-19 2024-01-09 四川省商投信息技术有限责任公司 一种基于边缘计算网关的数字农业管理方法及设备

Also Published As

Publication number Publication date
CN113127464B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN105677791A (zh) 用于分析风力发电机组的运行数据的方法和系统
CN110750524A (zh) 一种有源配电网故障特征的确定方法及系统
CN112270129B (zh) 一种基于大数据分析的植物长势预测方法
CN117113235B (zh) 一种云计算数据中心能耗优化方法及系统
CN111027629A (zh) 基于改进随机森林的配电网故障停电率预测方法及系统
CN116911806B (zh) 基于互联网+的电力企业能源信息管理系统
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
CN115021679A (zh) 一种基于多维离群点检测的光伏设备故障检测方法
CN115576981A (zh) 一种基于有监督算法与无监督算法相结合的异常检测方法
CN113127464B (zh) 农业大数据环境特征处理方法、装置及电子设备
CN115795329A (zh) 一种基于大数据网格下的用电异常行为分析方法和装置
CN117195006B (zh) 一种鸡肉用兽药残留数据管理系统
CN111797899B (zh) 一种低压台区kmeans聚类方法及系统
CN115035966B (zh) 基于主动学习和符号回归的超导体筛选方法、装置及设备
Yang et al. Software defect prediction: an ensemble learning approach
CN112308108A (zh) 一种基于网格分类的异常数据检测技术
CN116226468A (zh) 基于网格化终端业务数据存储管理方法
CN114518988A (zh) 资源容量系统及其控制方法和计算机可读存储介质
CN113850432A (zh) 一种电力负荷数据的预测方法、系统、设备和介质
CN112784887A (zh) 一种植物生命状态评价方法及装置
Wedashwara et al. Parallel evolutionary association rule mining for efficient summarization of wireless sensor network data pattern
CN117114105B (zh) 基于科研大数据信息的目标对象推荐方法和系统
Saputra et al. Comparing the Performance of Three Decision Tree Models for Precipitation Prediction in Cengkareng Soekarno Hatta
CN115964216B (zh) 一种基于孤立森林的物联网设备数据异常检测方法
CN113487080B (zh) 一种基于风速分类的风速动态场景生成方法、系统及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant