CN109345137A - 一种基于农业大数据的异常值检测方法 - Google Patents
一种基于农业大数据的异常值检测方法 Download PDFInfo
- Publication number
- CN109345137A CN109345137A CN201811232322.3A CN201811232322A CN109345137A CN 109345137 A CN109345137 A CN 109345137A CN 201811232322 A CN201811232322 A CN 201811232322A CN 109345137 A CN109345137 A CN 109345137A
- Authority
- CN
- China
- Prior art keywords
- data
- itree
- tree
- itree tree
- exceptional value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012360 testing method Methods 0.000 claims abstract description 58
- 230000002159 abnormal effect Effects 0.000 claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 22
- 239000002689 soil Substances 0.000 claims abstract description 14
- 238000012271 agricultural production Methods 0.000 claims abstract description 10
- 238000013480 data collection Methods 0.000 claims abstract description 5
- 238000010276 construction Methods 0.000 claims description 11
- 238000002955 isolation Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 21
- 230000000694 effects Effects 0.000 abstract description 15
- 230000000052 comparative effect Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000009360 aquaculture Methods 0.000 description 2
- 244000144974 aquaculture Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000005086 pumping Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000006424 Flood reaction Methods 0.000 description 1
- 241000257303 Hymenoptera Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000035558 fertility Effects 0.000 description 1
- 239000003337 fertilizer Substances 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 239000000575 pesticide Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000009366 sericulture Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000009331 sowing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- Animal Husbandry (AREA)
- General Health & Medical Sciences (AREA)
- Mining & Mineral Resources (AREA)
- Marine Sciences & Fisheries (AREA)
- Agronomy & Crop Science (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及农业异常值检测领域,具体涉及一种基于农业大数据的异常值检测方法,包括:数据采集步骤,采集农业生产数据、农业土壤数据和农业气象资源数据,并整合成训练数据集;构建iTree树步骤,从训练数据集中选取m个样本点,不断随机选取分裂属性和分裂点,直到达到终止条件;构建孤立森林算法模型步骤,初始化孤立森林中的iTree树的数目t和构建iTree树时抽取的子样本集m,进入循环构建iTree树的步骤,构建相互独立的iTree树,所有iTree树的集合构成孤立森林算法模型;异常值判断步骤,计算异常分值s(x),通过异常分值s(x)判断测试数据x是否为异常值。本发明将孤立森林算法模型应用到农业大数据的异常值检测,能有效地提高农业大数据的异常值的检测效果。
Description
技术领域
本发明涉及农业异常值检测领域,具体涉及一种基于农业大数据的异常值检测方法。
背景技术
信息化管理是农业经济发展的必然趋势,是将传统农业转变为现代化农业的必经过程。随着农业信息化的发展,农业大数据正在成为大数据应用的又一重点。农业大数据是跨专业和跨行业的数据分析和挖掘,将大数据与农业领域的相关科学研究相结合,可以为政府决策、农业科研和涉农企业发展等提供新方法和新思路,具有广阔的发展前景。
异常值是指在一组测定值中与平均值的偏差超过两倍标准差的测定值,在处理数据时应剔除异常值。农业大数据的异常值检测对于实现农业生产监管和提高农业生产决策水平具有重要意义,适时对农业大数据的异常值进行检测,一方面可以避免我们将其当作正常数据去分析处理,导致错误的决策判断,另一方面,可以分析异常值出现的原因,采取相应的措施,降低损失,提升经济效益。
现有技术中农业大数据的异常值检测方法主要有:统计分析法,是运用数学方式建立数学模型,对通过调查获取的各种数据及资料进行数理统计和分析,形成定量的结论,其定额准确性和可靠性差,且反映的是历史情况而不是现实条件变化的影响,其异常值检测效果不好;基于密度和距离的异常值检测方法,时间复杂度高、计算开销大,而且是监督学习算法,对于大量农业数据的异常值检测效率很低。
孤立森林算模型法主要用于网络安全中的攻击监测和异常流量分析、电力调度流数据分析以及金融的欺诈行为挖掘,其处理速度快,还具有线性时间复杂度。与网络、电力以及金融流量数据相比,农业大数据具有高维、海量、数据类型复杂的特点,目前,该算法模型在农业大数据中还没有实践应用。
发明内容
本发明的目的在于提供一种基于农业大数据的异常值检测方法,采用分布式系统结合孤立森林算法模型对农业大数据的异常值进行检测,解决了现有技术中异常值检测效果不好的问题。
本发明的基础方案为:一种基于农业大数据的异常值检测方法,包括:
数据采集步骤,采集农业生产数据、农业土壤数据和农业气象资源数据,并通过抽样训练的方法对数据进行训练,训练后得到若干棵隔离树,隔离树的集合构成训练数据集;
构建iTree树步骤,从训练数据集中选取m个样本点,不断随机选取分裂属性和分裂点,达到终止条件时完成iTree树的构建;
构建孤立森林算法模型步骤,初始化孤立森林算法模型中的iTree树的数目t和构建iTree树时抽取的子样本集m,进入循环构建iTree树的步骤,构建相互独立的iTree树,构建的iTree树均部署在分布式系统上,当iTree树的数目达到预设iTree树的数目t时,停止构建iTree树,所有iTree树的集合构成孤立森林算法模型;
异常值判断步骤,将测试数据x遍历孤立森林算法模型中的每棵iTree树,得到其在每棵iTree树中所处的深度h(x),计算测试数据x的平均深度E(h(x))和异常分值s(x),通过异常分值s(x)判断测试数据x是否为异常值。
本发明的有益效果:
1、现有技术中采用基于密度和距离的异常值检测方法来检测农业大数据的异常值,该方法的时间复杂度高、计算开销大且处理海量数据的效率很低;本发明的农业大数据异常值检测方法结合了孤立森林算法模型,在进行异常值检测时能减少异常的掩盖和淹没效应,还具有线性的时间复杂度,而且不需要计算距离或者密度来寻找异常数据,能有效处理高维数据和海量数据,与现有技术相比,本发明具有时间复杂度可控、计算开销低和能有效处理高维数据和海量数据的优点。
2、现有技术中采用统计分析法来检测农业大数据的异常值,该方法的准确性和可靠性差,且反映的是历史情况而不是现实条件变化的影响;本发明的农业大数据异常值检测方法结合了孤立森林算法模型,在进行异常值检测时会结合孤立森林算法模型中的多棵iTree树实现异常值的判别,与现有技术相比,本发明的抗干扰能力强,准确性更高。
3、现有技术中采用的统计分析法、基于密度和距离的异常值检测方法均为监督学习法,进行异常数据检测时需要大量的带标签数据;本发明的农业大数据异常值检测方法为无监督学习算法,不需要打标签,与现有技术相比,本发明不仅省去了人工识别标注数据的工作量,也能避免农业大数据先验知识缺乏的不足。
4、本发明的农业大数据异常值检测方法可用于分布式系统加速运算,可以很好的处理农业高维数据和大数据,更符合对农业大数据处理实时性的要求,进行异常值检测时响应速度能更快。
进一步,所述构建iTree树步骤包括:
选取根节点步骤,从训练数据集中随机选取m个样本点作为子样本集和iTree树的根节点;选取切割点步骤,随机选定一个维度,并在当前节点数据中随机产生一个该维度的切割点p;维度分类步骤,以切割p点为基准,把节点数据指定维度的大小与切割点p作比较,节点数据指定维度小于切割点p的数据放在当前节点的左子节点,节点数据指定维度大于或等于切割点p的数据放在当前节点的右子节点;构建步骤,在子节点中递归选取切割点步骤和维度分类步骤,不断构造新的子节点,达到iTree树构建的终止条件时停止构造子节点,iTree树构建成功。
进一步,所述iTree树构建的终止条件包括:传入的数据集只有一条记录、传入的数据集为多条一样的记录或树的深度达到限定的深度log2n。
进一步,异常值判断步骤包括:
计算深度步骤,将测试数据x遍历每棵iTree树,得到其在每棵iTree树上的深度h(x);计算平均深度步骤,将测试数据x在每棵iTree树上所处的深度h(x)进行平均值计算,得到平均深度E(h(x));计算异常分值步骤,通过公式计算得到测试数据x的异常分值s(x),其中H(k)=ln(k)+ξ,n为数据集中样本点个数,ξ为欧拉常数;判断步骤,通过测试数据x的异常分值s(x)判断测试数据x是否为异常值。
进一步,测试数据x在iTree树的深度h(x)计算公式为:h(x)=h0(x)+c(T.size),其中,T.size为叶节点的记录数量,
进一步,判断测试数据x是否为异常值的具体方法为:利用测试数据x的异常分值s(x)进行判断,若异常分值s(x)的取值接近1,则测试数据x被判定为异常值;若异常分值s(x)的取值接近0,则测试数据x被判定为非异常值;若异常分值s(x)的取值在0.5附近,则不能判断是否为异常值。
附图说明
图1为本发明一种基于农业大数据的异常值检测方法实施例一的流程图;
图2为本发明实施例一中iTree树构建步骤的流程图;
图3为本发明实施例一中异常值判断步骤的流程图;
图4为本发明一种基于农业大数据的异常值检测系统实施例二的结构框图。
具体实施方式
下面通过具体实施方式进一步详细说明:
实施例一:
如图1所示:一种基于农业大数据的异常值检测方法,包括:
数据采集步骤,采集农业生产数据、农业土壤数据和农业气象资源数据,并通过抽样训练的方法对数据进行训练,训练后得到若干棵隔离树,隔离树的集合构成训练数据集;
构建iTree树步骤,从训练数据集中选取m个样本点,不断随机选取分裂属性和分裂点,达到终止条件时完成iTree树的构建;
构建孤立森林算法模型步骤,初始化孤立森林算法模型中的iTree树的数目t和构建iTree树时抽取的子样本集m,进入循环构建iTree树的步骤,构建相互独立的iTree树,构建的iTree树均部署在分布式系统上,当iTree树的数目达到预设iTree树的数目t时,停止构建iTree树,所有iTree树的集合构成孤立森林算法模型;
异常值判断步骤,将测试数据x遍历孤立森林算法模型中的每棵iTree树,得到其在每棵iTree树中所处的深度h(x),计算测试数据x的平均深度E(h(x))和异常分值s(x),通过异常分值s(x)判断测试数据x是否为异常值。
具体的:
一、数据采集步骤:
采集农业生产数据,农业生产数据包括:种植业生产数据和养殖业生产数据。种植业生产数据包括良种信息、地块耕种历史信息、育苗信息、播种信息、农药信息、化肥信息、农膜信息、灌溉信息、农机信息以及农情信息;养殖业生产数据主要包括个体系谱信息、个体特征信息、饲料结构信息、圈舍环境信息以及疫情状况信息;
采集农业土壤数据,农业土壤数据包括土壤类型、土壤改良、土壤肥力、土壤温度、土壤湿度以及土壤水分等数据;
采集农业气象资源数据,农业气象资源数据包括作物气象、畜牧气象、森林气象、渔业气象、蚕业气象以及养蜂气象等数据;
对采集到的农业生产数据、农业土壤数据以及农业气象资源数据进行整合,并随机抽取100个数据进行训练,训练后会得到100棵隔离树,100棵隔离树的集合构成训练数据集。
二、构建iTree树步骤:
如图2所示:构建iTree树步骤,包括:
选取根节点步骤,从训练数据集中随机选取100个样本点作为子样本集和iTree树的根节点;
选取切割点步骤,随机选定一个维度,并在当前节点数据中随机产生一个该维度的切割点p;
维度分类步骤,以此切割p点为基准,把节点数据指定维度的大小与切割点p作比较,节点数据指定维度小于切割点p的数据放在当前节点的左子节点,节点数据指定维度大于或等于切割点p的数据放在当前节点的右子节点;
构建步骤,在子节点中递归选取切割点步骤和维度分类步骤,不断构造新的子节点,达到iTree树构建的终止条件时停止构造子节点,iTree树构建成功,其中,iTree树构建的终止条件包括传入的数据集只有一条记录、传入的数据集为多条一样的记录或树的深度达到限定的深度log2n,其中,n为数据集中样本点个数。
三、构建孤立森林算法模型步骤:
初始化步骤,初始化孤立森林中iTree树的数目t和抽取的子样本集大小m,本实施例中,预设iTree树的数目t为100棵,预设抽取的子样本集大小m为100;
循环构建iTree树步骤,构建iTree树步骤中抽取的子样本集大小为100棵,进入循环构建iTree树的步骤,构建相互独立的iTree树,当iTree树的数目达到100棵时,停止循环;
构建模型步骤,将构建的100棵iTree树作为一个集合,用该集合搭建构成孤立森林算法模型。
四、异常值判断步骤
如图3所示:异常值判断步骤,包括:
计算深度步骤,将测试数据x遍历每棵iTree树,得到其在每棵iTree树上的深度h(x),其中,深度h(x)的计算公式为:h(x)=h0(x)+c(T.size),T.size为叶节点的记录数量,n为数据集中样本点个数100;
计算平均深度步骤,将测试数据x在每棵iTree树上所处的深度h(x)进行平均值计算,得到平均深度E(h(x)),其中,平均深度E(h(x))的计算公式为a为iTree树的数目;
计算异常分值步骤,通过公式计算得到测试数据x的异常分值s(x),其中H(k)=ln(k)+ξ,n为数据集中样本点个数,ξ为欧拉常数;
判断步骤,通过异常分值s(x)判断测试数据x是否为异常值,其中,判断测试数据x是否为异常值的具体方法为:利用测试数据x的异常分值s(x)进行判断,若异常分值s(x)的取值接近1,则测试数据x被判定为异常值;若异常分值s(x)的取值接近0,则测试数据x被判定为非异常值;若异常分值s(x)的取值在0.5附近,则不能判断是否为异常值。
本实施例的工作过程:
测试人员将测试数据x输入到孤立森林算法模型中,首先计算测试数据x在没棵树上的深度,然后计算测试数据x的平均深度,最后计算测试数据x的异常分值,通过测试数据x的异常分值判断测试数据x是否为异常值。
实施例二:
如图4所示:一种基于农业大数据的异常值检测系统,包括输入模块、输出模块和服务器,输入模块、输出模块与服务器之间通过无线通信模块网络通信,其中,无线通信模块采用Niye AMW006-A1U WiFi模块;
一、输入终端包括:
数据输入模块,用于测试人员输入测试数据x的具体数值,并将测试数据发送给服务器。
二、输出终端包括:
数据输出模块,用于接收服务器的异常值判断结果,并显示该结果。
三、服务器包括:
数据接收模块,接收输入终端的测试数据;
数据库,预存有农业生产数据、农业土壤数据和农业气象资源数据,并抽取100个数据进行训练,训练后会得到100棵隔离树,100棵隔离树的集合构成训练数据集。
模型构建模块,从数据库内的训练数据集中选取样本构建iTree树,循环构建100棵iTree树,100棵iTree树构建成孤立森林算法模型;
运算模块,通过预设的公式并结合孤立森林算法模型得到异常分值的一个计算模型,将数据输入模块接收到的测试数据输入到计算模型中,自动计算出测试数据的异常分值,
异常值判断模块,预设有异常判断模型,将运算模块计算得出的异常分值输入异常值判断模型中,自动判断测试数据是否为异常值,并得到一个异常值判断结果;
结果输出模块,用于接收异常值判断模块的异常值判断结果,并将判断结果发送给输出终端。
具体的:
输入终端为数字输入键盘,输出终端为显示屏,服务器采用Dell PowerEdge T30塔式服务器,这款服务器具有运行稳定、内存充足和价格便宜的优点;
服务器构建iTree树的过程:首先选取根节点,从训练数据集中随机选取100个样本点作为子样本集和iTree树的根节点;其次选取切割点,随机选定一个维度,并在当前节点数据中随机产生一个该维度的切割点p;然后对维度分类,以切割p点为基准,把节点数据指定维度的大小与切割点p作比较,节点数据指定维度小于切割点p的数据放在当前节点的左子节点,节点数据指定维度大于或等于切割点p的数据放在当前节点的右子节点;最后在子节点中递归选取切割点和维度分类,不断构造新的子节点,达到iTree树构建的终止条件时停止构造子节点,iTree树构建成功,其中,iTree树构建的终止条件包括传入的数据集只有一条记录、传入的数据集为多条一样的记录或树的深度达到限定的深度log2n,其中,n为数据集中样本点个数。
孤立森林算法模型构建过程:首先进行初始化,初始化,预设iTree树的数目t为100,预设抽取的子样本集大小m为100;循环构建100棵iTree树,最后将100棵iTree树作为一个集合,该集合为孤立森林算法模型。
异常分值计算的过程:首先计算深度,将测试数据x遍历每棵iTree树,得到其在每棵iTree树上的深度h(x),然后计算平均深度,将测试数据x在每棵iTree树上所处的深度h(x)进行平均值计算,得到平均深度E(h(x));最后计算异常分值步,通过公式计算得到测试数据x的异常分值s(x)。
异常值判断的过程:通过异常分值s(x)判断测试数据x是否为异常值,利用测试数据x的异常分值s(x)进行判断,若异常分值s(x)的取值接近1,则测试数据x被判定为异常值;若异常分值s(x)的取值接近0,则测试数据x被判定为非异常值;若异常分值s(x)的取值在0.5附近,则不能判断是否为异常值。
实施例三:
本实施例列举了五个对比例,五个对比例和实施例一均进行异常值检测模拟实验,将对比例的实验结果和实施例一的实验结果进行对比。
对比例1
采用统计分析法,对农业大数据中的异常值进行检测。
对比例2
采用基于KNN的密度检测算法,对农业大数据中的异常值进行检测。
对比例3
采用基于密度的离群点检测方法,对农业大数据中的异常值进行检测。
对比例4
采用Isolation Forest算法模型,对农业大数据中的异常值进行检测。
对比例5
采用基于多元高斯分布的异常值检测方法,对农业大数据中的异常值进行检测。
表1,记录的是农业大数据异常值的检测结果。
表1
数据样本(个) | 检测时长(S) | 异常值(个) | 误差(%) | 检测效果(排序) | |
实施一 | 10000 | 29 | 10 | 11 | 1 |
对比例1 | 10000 | 80 | 15 | 66 | 6 |
对比例2 | 10000 | 40 | 8 | 11 | 2 |
对比例3 | 10000 | 31 | 12 | 33 | 3 |
对比例4 | 10000 | 25 | 13 | 44 | 5 |
对比例5 | 10000 | 35 | 6 | 33 | 4 |
表1中的检测效果是根据检测时长和误差综合评估的,根据表1的数据可以得出:
实施例一:检测时长比平均时长少了11s(排在第二),误差比平均误差低了二十二个百分点(排在第一),其检测效果排在第一。
对比例1:检测时长比平均时长多了40s(排在第六),误差比平均误差高了三十三个百分点(排在第六),其检测效果排在第六。
对比例2:检测时长等于平均时长(排在第五),误差比平均误差低了二十二个百分点(并列第一),其检测效果排在第二。
对比例3:检测时长比平均时长少了9s(排在第三),误差等于平均误差(排在并列第三),其检测效果排在第三。
对比例4:检测时长比平均时长少了15s(排在第一),误差比平均误差高了十一个百分点(排在第五),其检测效果排在第五。
对比例5:检测时长比平均时长少了5s(排在第四),误差等于平均误差(排在并列第三),其检测效果排在第四。
综上所述,本发明实施例一中的农业大数据异常值检测方法具有的检测速度快、检测误差小和检测效果好的优点。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
Claims (6)
1.一种基于农业大数据的异常值检测方法,其特征在于:包括:
数据采集步骤,采集农业生产数据、农业土壤数据和农业气象资源数据,并通过抽样训练的方法对数据进行训练,训练后得到若干棵隔离树,隔离树的集合构成训练数据集;
构建iTree树步骤,从训练数据集中选取m个样本点,不断随机选取分裂属性和分裂点,达到终止条件时完成iTree树的构建;
构建孤立森林算法模型步骤,初始化孤立森林算法模型中的iTree树的数目t和构建iTree树时抽取的子样本集m,进入循环构建iTree树的步骤,构建相互独立的iTree树,构建的iTree树均部署在分布式系统上,当iTree树的数目达到预设iTree树的数目t时,停止构建iTree树,所有iTree树的集合构成孤立森林算法模型;
异常值判断步骤,将测试数据x遍历孤立森林算法模型中的每棵iTree树,得到其在每棵iTree树中所处的深度h(x),计算测试数据x的平均深度E(h(x))和异常分值s(x),通过异常分值s(x)判断测试数据x是否为异常值。
2.根据权利要求1所述的一种基于农业大数据的异常值检测方法,其特征在于:所述构建iTree树步骤包括:
选取根节点步骤,从训练数据集中随机选取m个样本点作为子样本集和iTree树的根节点;
选取切割点步骤,随机选定一个维度,并在当前节点数据中随机产生一个该维度的切割点p;
维度分类步骤,以切割p点为基准,把节点数据指定维度的大小与切割点p作比较,节点数据指定维度小于切割点p的数据放在当前节点的左子节点,节点数据指定维度大于或等于切割点p的数据放在当前节点的右子节点;
构建步骤,在子节点中递归选取切割点步骤和维度分类步骤,不断构造新的子节点,达到iTree树构建的终止条件时停止构造子节点,iTree树构建成功。
3.根据权利要求2所述的一种基于农业大数据的异常值检测方法,其特征在于:所述iTree树构建的终止条件包括:传入的数据集只有一条记录、传入的数据集为多条一样的记录或树的深度达到限定的深度log2n。
4.根据权利要求1所述的一种基于农业大数据的异常值检测方法,其特征在于:异常值判断步骤包括:
计算深度步骤,将测试数据x遍历每棵iTree树,得到其在每棵iTree树上的深度h(x);计算平均深度步骤,将测试数据x在每棵iTree树上所处的深度h(x)进行平均值计算,得到平均深度E(h(x));
计算异常分值步骤,通过公式计算得到测试数据x的异常分值s(x),其中H(k)=ln(k)+ξ,n为数据集中样本点个数,ξ为欧拉常数;
判断步骤,通过测试数据x的异常分值s(x)判断测试数据x是否为异常值。
5.根据权利要求4所述的一种基于农业大数据的异常值检测方法,其特征在于:测试数据x在iTree树的深度h(x)计算公式为:h(x)=h0(x)+c(T.size),其中,T.size为叶节点的记录数量,
6.根据权利要求5所述的一种基于农业大数据的异常值检测方法,其特征在于:判断测试数据x是否为异常值的具体方法为:利用测试数据x的异常分值s(x)进行判断,若异常分值s(x)的取值接近1,则测试数据x被判定为异常值;若异常分值s(x)的取值接近0,则测试数据x被判定为非异常值;若异常分值s(x)的取值在0.5附近,则不能判断测试数据x是否为异常值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811232322.3A CN109345137A (zh) | 2018-10-22 | 2018-10-22 | 一种基于农业大数据的异常值检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811232322.3A CN109345137A (zh) | 2018-10-22 | 2018-10-22 | 一种基于农业大数据的异常值检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109345137A true CN109345137A (zh) | 2019-02-15 |
Family
ID=65311554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811232322.3A Pending CN109345137A (zh) | 2018-10-22 | 2018-10-22 | 一种基于农业大数据的异常值检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109345137A (zh) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109658699A (zh) * | 2019-02-20 | 2019-04-19 | 张家港江苏科技大学产业技术研究院 | 确定异常车流量数据的方法和装置 |
CN109948669A (zh) * | 2019-03-04 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法及装置 |
CN109948738A (zh) * | 2019-04-11 | 2019-06-28 | 合肥工业大学 | 涂装烘干室的能耗异常检测方法、装置及系统 |
CN110149258A (zh) * | 2019-04-12 | 2019-08-20 | 北京航空航天大学 | 一种基于孤立森林的汽车can总线网络数据异常检测方法 |
CN110232525A (zh) * | 2019-06-14 | 2019-09-13 | 腾讯科技(深圳)有限公司 | 一种企业风险监控方法、装置、服务器及存储介质 |
CN110334085A (zh) * | 2019-05-30 | 2019-10-15 | 广州供电局有限公司 | 配电网数据监测和修正方法、装置、计算机及存储介质 |
CN110399935A (zh) * | 2019-08-02 | 2019-11-01 | 哈工大机器人(合肥)国际创新研究院 | 基于孤立森林机器学习的机器人实时异常监测方法及系统 |
CN110517154A (zh) * | 2019-07-23 | 2019-11-29 | 平安科技(深圳)有限公司 | 数据模型训练方法、系统及计算机设备 |
CN110533108A (zh) * | 2019-09-02 | 2019-12-03 | 四川长虹电器股份有限公司 | 一种基于孤立森林算法的销量异常值检测方法 |
CN110930218A (zh) * | 2019-11-07 | 2020-03-27 | 中诚信征信有限公司 | 一种识别欺诈客户的方法、装置及电子设备 |
CN111159251A (zh) * | 2019-12-19 | 2020-05-15 | 青岛聚好联科技有限公司 | 一种异常数据的确定方法及装置 |
CN111160647A (zh) * | 2019-12-30 | 2020-05-15 | 第四范式(北京)技术有限公司 | 一种洗钱行为预测方法及装置 |
CN111191710A (zh) * | 2019-12-26 | 2020-05-22 | 广州优策科技有限公司 | 一种基于大数据的异常航班识别方法 |
CN111201990A (zh) * | 2020-01-09 | 2020-05-29 | 兰州石化职业技术学院 | 一种基于物联网的农业种植浇灌系统及信息处理方法 |
CN111275547A (zh) * | 2020-03-19 | 2020-06-12 | 重庆富民银行股份有限公司 | 基于孤立森林的风控系统及方法 |
CN111431884A (zh) * | 2020-03-18 | 2020-07-17 | 上海观安信息技术股份有限公司 | 一种基于dns分析的主机失陷检测方法及装置 |
CN111666169A (zh) * | 2020-05-13 | 2020-09-15 | 云南电网有限责任公司信息中心 | 一种基于改进的孤立森林算法和高斯分布的联合数据异常检测方法 |
CN112329350A (zh) * | 2020-11-17 | 2021-02-05 | 南京航空航天大学 | 基于隔离的飞机铅酸蓄电池异常检测半监督方法 |
CN112505549A (zh) * | 2020-11-26 | 2021-03-16 | 西安电子科技大学 | 基于孤立森林算法的新能源汽车电池异常检测方法 |
CN112990330A (zh) * | 2021-03-26 | 2021-06-18 | 国网河北省电力有限公司营销服务中心 | 用户用能异常数据检测方法及设备 |
CN113159244A (zh) * | 2021-04-09 | 2021-07-23 | 西安交通大学 | 一种基于物联网的禽类养殖管理系统 |
CN113327172A (zh) * | 2021-05-07 | 2021-08-31 | 河南工业大学 | 一种基于孤立森林的粮情数据离群点检测方法 |
CN113420816A (zh) * | 2021-06-24 | 2021-09-21 | 北京市生态环境监测中心 | 一种针对全光谱水质监测设备的数据异常值确定方法 |
CN113641772A (zh) * | 2021-08-12 | 2021-11-12 | 亿景智联(北京)科技有限公司 | 一种海量地理数据异常检测场景中的检测方法 |
CN114091019A (zh) * | 2020-12-03 | 2022-02-25 | 奇安信科技集团股份有限公司 | 数据集构建、恶意软件识别、识别模型构建方法及装置 |
CN114580580A (zh) * | 2022-05-07 | 2022-06-03 | 深圳索信达数据技术有限公司 | 一种智能运维异常检测方法及装置 |
CN114720665A (zh) * | 2022-06-10 | 2022-07-08 | 北京市农林科学院智能装备技术研究中心 | 测土配方施肥土壤全氮异常值检测方法及装置 |
CN117609929A (zh) * | 2024-01-24 | 2024-02-27 | 湖南易比特大数据有限公司 | 基于大数据的工业生产线故障在线诊断方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102201037A (zh) * | 2011-06-14 | 2011-09-28 | 中国农业大学 | 农业灾害预测方法 |
CN107018202A (zh) * | 2017-05-10 | 2017-08-04 | 长春市华兴博远科技有限公司 | 一种基于大数据的智能农田监控系统 |
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
WO2018105320A1 (ja) * | 2016-12-06 | 2018-06-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理装置、情報処理方法及びプログラム |
-
2018
- 2018-10-22 CN CN201811232322.3A patent/CN109345137A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102201037A (zh) * | 2011-06-14 | 2011-09-28 | 中国农业大学 | 农业灾害预测方法 |
WO2018105320A1 (ja) * | 2016-12-06 | 2018-06-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理装置、情報処理方法及びプログラム |
CN107018202A (zh) * | 2017-05-10 | 2017-08-04 | 长春市华兴博远科技有限公司 | 一种基于大数据的智能农田监控系统 |
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
Non-Patent Citations (1)
Title |
---|
徐东 等: "基于Isolation forest改进的数据异常检测方法", 《计算机科学》 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109658699A (zh) * | 2019-02-20 | 2019-04-19 | 张家港江苏科技大学产业技术研究院 | 确定异常车流量数据的方法和装置 |
CN109948669A (zh) * | 2019-03-04 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法及装置 |
CN109948669B (zh) * | 2019-03-04 | 2021-07-13 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法及装置 |
CN109948738B (zh) * | 2019-04-11 | 2021-03-09 | 合肥工业大学 | 涂装烘干室的能耗异常检测方法、装置 |
CN109948738A (zh) * | 2019-04-11 | 2019-06-28 | 合肥工业大学 | 涂装烘干室的能耗异常检测方法、装置及系统 |
CN110149258A (zh) * | 2019-04-12 | 2019-08-20 | 北京航空航天大学 | 一种基于孤立森林的汽车can总线网络数据异常检测方法 |
CN110334085A (zh) * | 2019-05-30 | 2019-10-15 | 广州供电局有限公司 | 配电网数据监测和修正方法、装置、计算机及存储介质 |
CN110232525A (zh) * | 2019-06-14 | 2019-09-13 | 腾讯科技(深圳)有限公司 | 一种企业风险监控方法、装置、服务器及存储介质 |
CN110232525B (zh) * | 2019-06-14 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 一种企业风险获取方法、装置、服务器及存储介质 |
CN110517154A (zh) * | 2019-07-23 | 2019-11-29 | 平安科技(深圳)有限公司 | 数据模型训练方法、系统及计算机设备 |
CN110399935A (zh) * | 2019-08-02 | 2019-11-01 | 哈工大机器人(合肥)国际创新研究院 | 基于孤立森林机器学习的机器人实时异常监测方法及系统 |
CN110533108A (zh) * | 2019-09-02 | 2019-12-03 | 四川长虹电器股份有限公司 | 一种基于孤立森林算法的销量异常值检测方法 |
CN110930218A (zh) * | 2019-11-07 | 2020-03-27 | 中诚信征信有限公司 | 一种识别欺诈客户的方法、装置及电子设备 |
CN110930218B (zh) * | 2019-11-07 | 2024-01-23 | 中诚信征信有限公司 | 一种识别欺诈客户的方法、装置及电子设备 |
CN111159251A (zh) * | 2019-12-19 | 2020-05-15 | 青岛聚好联科技有限公司 | 一种异常数据的确定方法及装置 |
CN111191710A (zh) * | 2019-12-26 | 2020-05-22 | 广州优策科技有限公司 | 一种基于大数据的异常航班识别方法 |
CN111160647A (zh) * | 2019-12-30 | 2020-05-15 | 第四范式(北京)技术有限公司 | 一种洗钱行为预测方法及装置 |
CN111160647B (zh) * | 2019-12-30 | 2023-08-22 | 第四范式(北京)技术有限公司 | 一种洗钱行为预测方法及装置 |
CN111201990A (zh) * | 2020-01-09 | 2020-05-29 | 兰州石化职业技术学院 | 一种基于物联网的农业种植浇灌系统及信息处理方法 |
CN111431884A (zh) * | 2020-03-18 | 2020-07-17 | 上海观安信息技术股份有限公司 | 一种基于dns分析的主机失陷检测方法及装置 |
CN111431884B (zh) * | 2020-03-18 | 2022-02-11 | 上海观安信息技术股份有限公司 | 一种基于dns分析的主机失陷检测方法及装置 |
CN111275547A (zh) * | 2020-03-19 | 2020-06-12 | 重庆富民银行股份有限公司 | 基于孤立森林的风控系统及方法 |
CN111666169A (zh) * | 2020-05-13 | 2020-09-15 | 云南电网有限责任公司信息中心 | 一种基于改进的孤立森林算法和高斯分布的联合数据异常检测方法 |
CN111666169B (zh) * | 2020-05-13 | 2023-03-28 | 云南电网有限责任公司信息中心 | 一种基于改进的孤立森林算法和高斯分布的联合数据异常检测方法 |
CN112329350A (zh) * | 2020-11-17 | 2021-02-05 | 南京航空航天大学 | 基于隔离的飞机铅酸蓄电池异常检测半监督方法 |
CN112505549B (zh) * | 2020-11-26 | 2021-09-03 | 西安电子科技大学 | 基于孤立森林算法的新能源汽车电池异常检测方法 |
CN112505549A (zh) * | 2020-11-26 | 2021-03-16 | 西安电子科技大学 | 基于孤立森林算法的新能源汽车电池异常检测方法 |
CN114091019A (zh) * | 2020-12-03 | 2022-02-25 | 奇安信科技集团股份有限公司 | 数据集构建、恶意软件识别、识别模型构建方法及装置 |
CN112990330A (zh) * | 2021-03-26 | 2021-06-18 | 国网河北省电力有限公司营销服务中心 | 用户用能异常数据检测方法及设备 |
CN113159244B (zh) * | 2021-04-09 | 2023-05-02 | 西安交通大学 | 一种基于物联网的禽类养殖管理系统 |
CN113159244A (zh) * | 2021-04-09 | 2021-07-23 | 西安交通大学 | 一种基于物联网的禽类养殖管理系统 |
CN113327172A (zh) * | 2021-05-07 | 2021-08-31 | 河南工业大学 | 一种基于孤立森林的粮情数据离群点检测方法 |
CN113420816A (zh) * | 2021-06-24 | 2021-09-21 | 北京市生态环境监测中心 | 一种针对全光谱水质监测设备的数据异常值确定方法 |
CN113641772A (zh) * | 2021-08-12 | 2021-11-12 | 亿景智联(北京)科技有限公司 | 一种海量地理数据异常检测场景中的检测方法 |
CN113641772B (zh) * | 2021-08-12 | 2024-01-12 | 亿景智联(苏州)科技有限公司 | 一种海量地理数据异常检测场景中的检测方法 |
CN114580580A (zh) * | 2022-05-07 | 2022-06-03 | 深圳索信达数据技术有限公司 | 一种智能运维异常检测方法及装置 |
CN114720665A (zh) * | 2022-06-10 | 2022-07-08 | 北京市农林科学院智能装备技术研究中心 | 测土配方施肥土壤全氮异常值检测方法及装置 |
CN114720665B (zh) * | 2022-06-10 | 2022-09-16 | 北京市农林科学院智能装备技术研究中心 | 测土配方施肥土壤全氮异常值检测方法及装置 |
CN117609929A (zh) * | 2024-01-24 | 2024-02-27 | 湖南易比特大数据有限公司 | 基于大数据的工业生产线故障在线诊断方法及系统 |
CN117609929B (zh) * | 2024-01-24 | 2024-04-09 | 湖南易比特大数据有限公司 | 基于大数据的工业生产线故障在线诊断方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109345137A (zh) | 一种基于农业大数据的异常值检测方法 | |
Rastogi et al. | Leaf disease detection and grading using computer vision technology & fuzzy logic | |
Arumugam | A predictive modeling approach for improving paddy crop productivity using data mining techniques | |
CN112906298B (zh) | 一种基于机器学习的蓝莓产量预测方法 | |
Islam et al. | An image processing technique to calculate percentage of disease affected pixels of paddy leaf | |
An et al. | Real-time monitoring method of strawberry fruit growth state based on YOLO improved model | |
Devika et al. | Analysis of crop yield prediction using data mining technique to predict annual yield of major crops | |
CN103714317A (zh) | 一种基于Android平台的植物叶片识别方法 | |
Bakış et al. | Is biodiversity linked with farm management options in vineyard landscapes? A case study combining ecological indicators within a hybrid modelling framework | |
Manfrini et al. | Innovative approaches to orchard management: Assessing the variability in yield and maturity in a ‘Gala’apple orchard using a simple management unit modeling approach | |
CN102550455A (zh) | 一种大黄鱼刺激隐核虫病害程度的判别方法 | |
CN115797764B (zh) | 一种应用于耕地非农化监测的遥感大数据解译方法及系统 | |
Gul et al. | Spiking neural network (SNN) for crop yield prediction | |
Zhou et al. | Analyzing nitrogen effects on rice panicle development by panicle detection and time-series tracking | |
CN114582439B (zh) | 一种基于应用场景的土壤盐碱地改良剂筛选方法及系统 | |
CN114720665A (zh) | 测土配方施肥土壤全氮异常值检测方法及装置 | |
CN112164041B (zh) | 基于多尺度深度神经网络的黄龙病自动诊疗系统及方法 | |
GUSTI et al. | Oil Palm Plantation Land Suitability Classification using PCA-FCM | |
Jackson et al. | Robust Ensemble Machine Learning for Precision Agriculture | |
Karadağ et al. | Estimation Chickpea Species and Productivity per Decare with Synthetic Data Generation Methods | |
Li et al. | Computer and Computing Technologies in Agriculture XI: 11th IFIP WG 5.14 International Conference, CCTA 2017, Jilin, China, August 12-15, 2017, Proceedings, Part I | |
Shankar et al. | Crops Prediction Based on Environmental Factors Using Machine Learning Algorithm | |
Rubini et al. | An Efficient Energy and Water Management in Agricultural Land using Sensors and Machine Learning Algorithm | |
Lafetá et al. | Modeling of hypsometric distribution of Handroanthus heptaphyllus seedlings in different containers | |
Mallikarjuna et al. | Selective Harvesting of Tobacco Leaves: An Approach Based on Texture Features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190215 |
|
RJ01 | Rejection of invention patent application after publication |