CN113327172A - 一种基于孤立森林的粮情数据离群点检测方法 - Google Patents
一种基于孤立森林的粮情数据离群点检测方法 Download PDFInfo
- Publication number
- CN113327172A CN113327172A CN202110497016.8A CN202110497016A CN113327172A CN 113327172 A CN113327172 A CN 113327172A CN 202110497016 A CN202110497016 A CN 202110497016A CN 113327172 A CN113327172 A CN 113327172A
- Authority
- CN
- China
- Prior art keywords
- isolated
- data
- value
- tree
- grain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013450 outlier detection Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims description 13
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000002955 isolation Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 7
- 238000009826 distribution Methods 0.000 abstract description 4
- 238000012795 verification Methods 0.000 abstract description 2
- 235000013339 cereals Nutrition 0.000 description 59
- 230000006870 function Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 235000013305 food Nutrition 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01D—MEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
- G01D21/00—Measuring or testing not otherwise provided for
- G01D21/02—Measuring two or more variables by means not covered by a single other subclass
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Animal Husbandry (AREA)
- Marine Sciences & Fisheries (AREA)
- Mining & Mineral Resources (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Agronomy & Crop Science (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于孤立森林的粮情数据离群点检测方法,包括如下步骤:粮情数据初始化,孤立树的构造,通过Q统计量法和交叉验证法构造孤立森林,再通过孤立森林对数据进行识别离群点,最终实现粮情检测。本发明基于孤立森林的粮情数据离群点检测方法,很好的解决了传统算法分析粮情数据仅仅是通过粮堆正常温湿等数据来研究粮情分布的特点,忽略有潜在价值的离群点,从而导致粮情预警不及时、不准确等问题,本发明与传统的KNN、LOF等离群检测方法相比检测精度更高,更具稳定性且执行效率上有明显优势。进一步的本发明通过二叉树的快速划分,把离群点分离出来,避免了大量计算距离或密度所消耗的时间。
Description
技术领域
本发明涉及温湿等粮情数据处理技术领域,尤其涉及一种基于孤立森林的粮情数据离群点检测方法。
背景技术
目前,离群点也称异常点,它与其他观测值存在巨大的差异,以至于使人怀疑这些数据并非由于随机偏差导致的,而是产生自不同的机理。离群点检测的主要目的是为了找出明显区别于大多数数据的对象,近年来,国家粮食局和全国各地区各单位积极探索粮食行业信息化建设,我国粮库在各个省市普遍分布,粮库的温湿等粮情数据积累甚多。众多学者一直以来积极探索粮情的变化规律,研究粮堆的变化我们更加关心的是“异常”粮情是否出现,而非简单的分布变化。
而现在粮库信息化建设的规模与日俱增,导致粮情数据量大,传统方法只是单纯地展示出粮温、粮食水分分布,需要人员不断查看并更新粮情,这导致粮情异常发现率低、漏告警和误告警数量多等问题,而且如果不能及时、准确地分析粮情数据,对粮食储藏安全将产生严重的威胁。因此如何有针对性地研究粮情数据来发现离群点并探究出现离群点的原因,从而进行粮情预警,及时保障储粮安全,是实际中急需解决的技术问题。
发明内容
本发明的目的是提供一种基于孤立森林的粮情数据离群点检测方法,能够有效并准确地发现粮情异常数据并及时预警,保证粮食储藏安全。
本发明采用的技术方案为:
一种基于孤立森林的粮情数据离群点检测方法,包括如下步骤:
步骤1:对采集好的粮情数据进行数据预处理,使得粮情数据便于分析处理;
步骤2:将步骤1处理好的粮情数据作为输入值,并初始化孤立森林;
步骤3:对步骤2中的输入数据,随机选择若干个样本点作为子样本集,放入树的根节点;
步骤4:随机指定一个属性,在当前节点数据中随机产生一个切割点,这个切割点产生于当前节点数据中指定属性的最大值和最小值之间;
步骤5:以步骤四随机产生的切割点生成一个超平面,然后将当前节点数据的空间划分为2个子空间:把当前节点数据中指定属性中小于步骤4中产生的切割点的数据放在当前节点的左边,把大于等于步骤4中产生的切割点的数据放在当前节点的右边;
步骤6:在子节点中递归步骤4和步骤5,不断构造新的子节点,直至满足终止条件;所述的终止条件有两个,第一个是数据本身不可再分,即只包括一个样本,或者全部样本相同;第二个是树的深度达到最大深度;
步骤7:通过步骤3到步骤6,构造得到的若干棵孤立树,引入Q统计量法计算任意两棵孤立树之间的差异值,Q统计量的值在[-1,1]之间变化,值越小,表示两棵孤立树的差异度越大;
步骤8:用交叉验证法计算每棵孤立树的精度值:具体的,将输入数据集划分为互不相交的N个子集,每次用N-1个子集进行训练,剩余的一个子集进行测试,最终把N个度量值的平均值作为精度值;
步骤9:通过孤立树的差异值和精度值计算出适应度值,选出适应度结果好的孤立树组成孤立森林,其中适应度可以表示孤立树是否具有较大差异值且有较好精确度;
步骤10:对于一个样本数据,让其遍历每一棵孤立树,然后计算这个样本最终落在每棵孤立树的第几层,最后得出样本在每棵孤立树的平均深度,计算每个样本的离群分数;由于样本在孤立树中的深度越小,离群分数越高,反之亦然,进而通过离群分数可以直观判断出粮情数据异常。
所述的预处理包括属性规约的剔除、缺失值处理和数据归一化处理。
所述的步骤9中适应度函数的构建过程为:
给定训练集Xtrain,如果树Ti能正确检测xk,则yk,i=1,否则yk,i=0,i=1,2,...,t。假设两个学习器为Ti和Tj,N00(N11)为两个学习器都判断错误(正确)的样本数量,N10为Ti判断正确而Tj判断错误的样本数量,N01则为Ti判断错误而Tj判断正确的样本数量,可以发现样本总数量N=N11+N10+N01+N00。Ti与Tj的检测结果关系矩阵如表4-1所示:
表4-1 Ti与Tj的检测结果关系矩阵
Ti与Tj之间的差异值Qi,j:
其中,Nab表示Ti和Tj检测Xtrain中的n个样本,满足yk,i=a和yk,j=b的样本数目,k=1,2,...,n;Q表示t棵孤立树的差异矩阵;Q统计量等于0,两棵孤立树相互独立;Q统计量的取值范围是[-1,1],值越大两棵隔离树的差异度越小;
适应度函数为:
其中,F(Ti)表示Ti的适应度函数,Pi表示Ti的精度值,wP和wQ分别表示精确度和差异性对应的权重。
为了提高优化效果,对适应度函数中两个权重采用动态变化的策略:在初始化时,权重wX和wQ均设置为0.5;在算法每次迭代后,分别计算P和Q的变化量,记为ΔP和ΔQ,而后按公式(2)和(2)更新权重:
wQ=1-wP (3)
式中,Δw是一个预定义的间隔,通常设置在10-3量级。
本发明基于孤立森林的粮情数据离群点检测方法,很好的解决了传统算法分析粮情数据仅仅是通过粮堆正常温湿等数据来研究粮情分布的特点,忽略有潜在价值的离群点,从而导致粮情预警不及时、不准确等问题,我们通过优化后的孤立森林算法针对温湿等粮情数据离群点进行检测,该方法与传统的KNN、LOF等离群检测方法相比检测精度更高,更具稳定性且执行效率上有明显优势。进一步的本发明通过二叉树的快速划分,把离群点分离出来,避免了大量计算距离或密度所消耗的时间;同时该方法中孤立森林是由多棵孤立树组成的,最后的离群决策不是由单一的某一棵树判定的,而是由多棵树共同决定的,使算法更准确和稳定,采用该方法检测粮情数据异常具有非常大的优势。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明所述孤立森林的结构;
图2本发明所述孤立树的构造方法流程图;
图3本发明所述孤立森林的构造方法与离群分数的计算方法流程图;
图4本发明所述基于孤立森林的粮情数据离群点部分效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、2和3所示,本发明包括如下步骤:
步骤1:采集好的粮情数据进行数据预处理,实际应用中可以从粮库中收集粮情历史数据,预处理包括对属性规约,剔除不相关属性;用平均插值法将缺失值补全;用最大最小规范化将数据归一化;使得粮情数据便于分析处理。
步骤2:将步骤1处理好的粮情数据作为输入值,并初始化孤立森林;
步骤3:对步骤2中的输入数据,从粮情训练数据中随机选择若干个样本点作为子样本集,放入树的根节点;
步骤4:随机指定一个属性(这个随机指定的属性就是分裂特征),在当前节点数据中随机产生一个切割点,(这个切割点就是指分裂值)这个切割点产生于当前节点数据中指定维度的最大值和最小值之间;
步骤5:以此切割点生成了一个超平面,然后将当前节点数据空间划分为2个子空间:把指定维度里小于步骤4中产生的切割点的数据放在当前节点的左边,把大于等于步骤4中产生的切割点的数据放在当前节点的右边;
步骤6:在子节点中递归步骤4和步骤5,不断构造新的子节点。终止条件有两个,一个是数据本身不可再分(只包括一个样本,或者全部样本相同),另外一个是树的深度达到最大深度。
步骤7:通过步骤3到步骤6,构造好了若干棵孤立树,利用Q统计量法计算孤立树之间的差异值,Q统计量的值再[-1,1]之间变化,值越小,两棵孤立树的差异度越大;
步骤8:用交叉验证法计算每棵孤立树的精度值,也就是将数据集划分为互不相交的N个子集,每次用N-1个子集进行训练,剩余的一个子集进行测试。最终把N个度量值的平均值作为精度值;
步骤9:通过步骤8和步骤9,计算出了较大差异值且有较好精确度的孤立树,选择前若干个优秀的孤立树组成孤立森林;
步骤10:对于一个样本数据,让其遍历每一棵孤立树,然后计算这个样本最终落在每棵孤立树的第几层,最后得出样本在每棵孤立树的平均深度,计算每个样本的离群分数。样本在孤立树中的深度越小,离群分数越高,反之亦然。通过离群分数可以直观判断出粮情数据异常。
本发明基于孤立森林的粮情数据离群点检测方法,很好的解决了传统算法分析粮情数据仅仅是通过粮堆中正常温湿等数据来研究粮情分布的特点,忽略有潜在价值的离群点,从而导致粮情预警不及时、不准确等问题,我们通过优化后的孤立森林算法针对温湿等粮情数据离群点进行检测,孤立森林是一个基于集成的快速离群点检测方法,具有线性时间复杂度和高精准度。优化后的该方法与传统的KNN、LOF等离群检测方法相比检测精度更高,更具稳定性且执行效率上有明显优势,具体的,由于引入了一个适应度函数用于计算孤立树的差异值和精度值,即利用Q统计量法计算孤立树之间的差异值,选择差异值大的树,利用交叉验证法选择精度值高的树,最后根据孤立树的差异值和精度值的加权平均构建适应度函数从而计算每棵树的适应度值。进一步的本发明通过二叉树的快速划分,把离群点分离出来,避免了大量计算距离或密度所消耗的时间;同时该方法中孤立森林是由多棵孤立树组成的,最后的离群决策不是由单一的某一棵树判定的,而是由多棵树共同决定的,使算法更准确和稳定,采用该方法检测粮情数据异常具有非常大的优势。
下面结合具体的实例对本发明的方法进行举例说明:
步骤1:定义1孤立树:设T是孤立树的节点,T表示没有子节点的外部节点或孤立树中测试的一个内部节点,有两个子节点(Tl,Tr)。
步骤2:实验用到的粮情数据来自新港某试验仓,仓型为高大平房仓,仓中共设18根电缆,每根电缆有三个节点,实验对象为小麦,实验时段选择在2019年1月1日零点至2020年1月1日零点,共365天8760条数据,每小时采集一次。对粮情数据集进行预处理,包括属性规约、缺失值处理、归一化。设数据集是X={x1,x2,...,xn}。
步骤3:接下来开始构造孤立树。对步骤2中的输入数据,从粮情训练数据中随机选择ψ个样本点作为子样本集,放入树的根节点;
步骤4:随机指定一个属性A和切割点P,这个切割点产生于当前节点数据中指定维度的最大值和最小值之间;对每个数据xi,按照A的值(记为di(A))进行划分。如果di(A)<P,则放在左子树,反之放在右子树;直到满足条件(1)数据集X中只剩下一条数据或者多条相同的数据(2)树达到最大高度;
步骤5:定义2路径长度:在一棵孤立树中,从根节点到外部节点所经历边的数目称为路径长度,记为h(x)。给定包含ψ个样本的数据集时,树的平均路径长度是:
其中H(k)=ln(k)+ξ,此处k代表ψ-1,ξ是欧拉常数,其值为0.5772156649。ψ是叶子节点数,样本点x的离群分数的定义是:
其中,h(x)是样本点x在孤立树中检索到的节点的深度。E(h(x))为所有孤立树的h(x)的期望值。s(x,n)的取值范围是(0,1],取值越接近1,被认为是离群点的概率越大。当E(h(x))→0,s→1;当E(h(x))→ψ-1,s→0;当E(h(x))→c(ψ),s→0.5。也就是说离群分数越接近1表示数据是离群点的可能性越高,如果大部分数据的离群分数都接近0.5,说明整个数据都没有明显的离群点。
步骤6:在子节点中递归步骤4和步骤5,不断构造新的子节点,直至满足终止条件;所述的终止条件有两个,第一个是数据本身不可再分,即只包括一个样本,或者全部样本相同;第二个是树的深度达到最大深度;
步骤7:通过步骤3到步骤6,即通过X1到Xn的估计数的构造算法分别构造好了若干棵孤立树,如图中所示iTree-1,iTree-2,……iTree-n,利用Q统计量法计算孤立树之间的差异值,Q统计量的值再[-1,1]之间变化,值越小,两棵孤立树的差异度越大,尽量选择差异较大的孤立树;
步骤8:用交叉验证法计算每棵孤立树的精度值,也就是将数据集划分为互不相交的N个子集,每次用N-1个子集进行训练,剩余的一个子集进行测试。最终把N个度量值的平均值作为精度值,选择精度高的孤立树。
适应度函数的构建过程为:
给定训练集Xtrain,如果树Ti能正确检测xk,则yk,i=1,否则yk,i=0,i=1,2,...,t。假设两个学习器为Ti和Tj,N00(N11)为两个学习器都判断错误(正确)的样本数量,N10为Ti判断正确而Tj判断错误的样本数量,N01则为Ti判断错误而Tj判断正确的样本数量,可以发现样本总数量N=N11+N10+N01+N00。Ti与Tj的检测结果关系矩阵如表4-1所示:
表4-1 Ti与Tj的检测结果关系矩阵
Ti与Tj之间的差异值Qi,j:
其中,Nab表示Ti和Tj检测Xtrain中的n个样本,满足yk,i=a和yk,j=b的样本数目,k=1,2,...,n;Q表示t棵孤立树的差异矩阵;Q统计量等于0,两棵孤立树相互独立;Q统计量的取值范围是[-1,1],值越大两棵隔离树的差异度越小;
适应度函数:
其中,F(Ti)表示Ti的适应度函数,Pi表示Ti的精度值,wP和wQ分别表示精确度和差异性对应的权重。为了提高优化效果,对这两个权重采用动态变化的策略:在初始化时,权重wX和wQ均设置为0.5;在算法每次迭代后,分别计算P和Q的变化量,记为ΔP和ΔQ,而后按公式(4)和(5)更新权重:
wQ=1-wP (3)
式中,Δw是一个预定义的间隔,通常设置在10-3量级。这使得算法能够在精确度和差异性的并行优化上达到较好的平衡。
步骤9:通过步骤8和步骤9,计算出了较大差异值且有较好精确度的孤立树,选择前若干个优秀的孤立树组成孤立森林即iForest;
步骤10:对于一个样本数据,让其遍历每一棵孤立树,然后计算这个样本最终落在每棵孤立树的第几层,最后得出样本在每棵孤立树的平均深度,计算每个样本的离群分数。样本在孤立树中的深度越小,离群分数越高,反之亦然。即通过离群分数可以直观判断出粮情数据异常。
表1不同子采样数量下AUC值对比
由表1,分别设置孤立树的数量和子采样数量,当孤立树数量达到100棵后,再增加其数量对AUC的提高效果不明显。取孤立树的数量为100。随着子采样数的增加,ROC曲线的下的面积AUC在逐渐增加,并在子采样数达到256时取得最大,随后继续增加采样数AUC有所下降。因此孤立树的最佳取值为100,子采样数的最佳取值为256。
表2粮情数据异常点检测结果
实验用到的粮情数据来自新港某试验仓,仓型为高大平房仓,实验共有8760条数据,用预处理后的粮情数据共有9个属性,包括第一层粮温、第二层粮温、第三层粮温、气温、仓温、仓湿、第一层粮湿、第二层粮湿、第三层粮湿等属性。由表2可以知道,将改进的孤立森林算法中应用到粮情数据中,在孤立树数量为100,子采样数为256时,算法最终检测到的异常点是30个。其异常时间以及离群分数从表2看出,label=1代表异常。
需要说明的是,本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
注意,上述仅为本发明的较佳实施例及运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行较详细的说明,但本发明不限于这里所述的特定实施例,在不脱离本发明构思的情况下,还可以包括更多其他等有效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (4)
1.一种基于孤立森林的粮情数据离群点检测方法,其特征在于:包括如下步骤:
步骤1:对采集好的粮情数据进行数据预处理,使得粮情数据便于分析处理;
步骤2:将步骤1处理好的粮情数据作为输入值,并初始化孤立森林;
步骤3:对步骤2中的输入数据,随机选择若干个样本点作为子样本集,放入树的根节点;
步骤4:随机指定一个维度,在当前节点数据中随机产生一个切割点,这个切割点产生于当前节点数据中指定维度的最大值和最小值之间;
步骤5:以步骤四随机产生的切割点生成一个超平面,然后将当前节点数据的空间划分为2个子空间:把当前节点数据中指定维度中小于步骤4中产生的切割点的数据放在当前节点的左边,把大于等于步骤4中产生的切割点的数据放在当前节点的右边;
步骤6:在子节点中递归步骤4和步骤5,不断构造新的子节点,直至满足终止条件;所述的终止条件有两个,第一个是数据本身不可再分,即只包括一个样本,或者全部样本相同;第二个是树的深度达到最大深度;
步骤7:通过步骤3到步骤6,构造得到的若干棵孤立树,引入Q统计量法计算任意两棵孤立树之间的差异值,Q统计量的值在[-1,1]之间变化,值越小,表示两棵孤立树的差异度越大;
步骤8:用交叉验证法计算每棵孤立树的精度值:具体的,将输入数据集划分为互不相交的N个子集,每次用N-1个子集进行训练,剩余的一个子集进行测试,最终把N个度量值的平均值作为精度值;
步骤9:通过孤立树的差异值和精度值计算出适应度值,选出适应度结果好的孤立树组成孤立森林,其中适应度可以表示孤立树是否具有较大差异值且有较好精确度;
步骤10:对于一个样本数据,让其遍历每一棵孤立树,然后计算这个样本最终落在每棵孤立树的第几层,最后得出样本在每棵孤立树的平均深度,计算每个样本的离群分数;由于样本在孤立树中的深度越小,离群分数越高,反之亦然,进而通过离群分数可以直观判断出粮情数据异常。
2.根据权利要求1所述的基于孤立森林的粮情数据离群点检测方法,其特征在于:所述的预处理包括属性规约的剔除、缺失值处理和数据归一化处理。
3.根据权利要求2所述的基于孤立森林的粮情数据离群点检测方法,其特征在于:所述的步骤9中适应度函数的构建过程为:
给定训练集Xtrain,如果树Ti能正确检测xk,则yk,i=1,否则yk,i=0,i=1,2,...,t;假设两个学习器为Ti和Tj,N00(N11)为两个学习器都判断错误或者正确的样本数量,N10为Ti判断正确而Tj判断错误的样本数量,N01则为Ti判断错误而Tj判断正确的样本数量,可以发现样本总数量N=N11+N10+N01+N00;Ti与Tj之间的差异值Qi,j:
其中,Nab表示Ti和Tj检测Xtrain中的n个样本,满足yk,i=a和yk,j=b的样本数目,k=1,2,...,n;Q表示t棵孤立树的差异矩阵;Q统计量等于0,两棵孤立树相互独立;Q统计量的取值范围是[-1,1],值越大两棵隔离树的差异度越小;
其次,用交叉验证法计算每棵孤立树的精度值;将训练数据平均分成N个相互独立的子集,每次训练时把N-1个子集作为训练样本,1个子集作为测试样本;N个子集逐一进行训练和测试,计算得到该棵孤立树的精度值P,也就是N个度量值的平均值;
由此,适应度函数为:
其中,F(Ti)表示Ti的适应度函数,Pi表示Ti的精度值,wP和wQ分别表示精确度和差异性对应的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110497016.8A CN113327172A (zh) | 2021-05-07 | 2021-05-07 | 一种基于孤立森林的粮情数据离群点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110497016.8A CN113327172A (zh) | 2021-05-07 | 2021-05-07 | 一种基于孤立森林的粮情数据离群点检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113327172A true CN113327172A (zh) | 2021-08-31 |
Family
ID=77414144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110497016.8A Pending CN113327172A (zh) | 2021-05-07 | 2021-05-07 | 一种基于孤立森林的粮情数据离群点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113327172A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114611616A (zh) * | 2022-03-16 | 2022-06-10 | 吕少岚 | 一种基于集成孤立森林的无人机智能故障检测方法及系统 |
CN116774639A (zh) * | 2023-08-24 | 2023-09-19 | 中国水利水电第九工程局有限公司 | 一种基于互联网的污水处理设备远程控制系统 |
CN116962272A (zh) * | 2023-08-02 | 2023-10-27 | 北京优特捷信息技术有限公司 | 一种网络指标的异常检测方法、装置、设备及存储介质 |
CN117194920A (zh) * | 2023-09-06 | 2023-12-08 | 万仁企业管理技术(深圳)有限公司 | 一种基于大数据分析的数据系统处理平台及处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345137A (zh) * | 2018-10-22 | 2019-02-15 | 广东精点数据科技股份有限公司 | 一种基于农业大数据的异常值检测方法 |
CN111340063A (zh) * | 2020-02-10 | 2020-06-26 | 北京华电天仁电力控制技术有限公司 | 一种磨煤机数据异常检测方法 |
CN111833172A (zh) * | 2020-05-25 | 2020-10-27 | 百维金科(上海)信息科技有限公司 | 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统 |
US20200374720A1 (en) * | 2018-06-04 | 2020-11-26 | Jiangnan University | Method for Detecting Abnormal Data in Sensor Network |
-
2021
- 2021-05-07 CN CN202110497016.8A patent/CN113327172A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200374720A1 (en) * | 2018-06-04 | 2020-11-26 | Jiangnan University | Method for Detecting Abnormal Data in Sensor Network |
CN109345137A (zh) * | 2018-10-22 | 2019-02-15 | 广东精点数据科技股份有限公司 | 一种基于农业大数据的异常值检测方法 |
CN111340063A (zh) * | 2020-02-10 | 2020-06-26 | 北京华电天仁电力控制技术有限公司 | 一种磨煤机数据异常检测方法 |
CN111833172A (zh) * | 2020-05-25 | 2020-10-27 | 百维金科(上海)信息科技有限公司 | 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统 |
Non-Patent Citations (3)
Title |
---|
徐东 等: "基于Isolation Froest改进的数据异常检测方法", 《计算机科学》 * |
王岩俊: "基于MRBBO-iForest的软件行为异常检测方法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
赵臣啸 等: "基于孤立森林算法的取用水量异常数据检测方法", 《中国水利水电科学研究院学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114611616A (zh) * | 2022-03-16 | 2022-06-10 | 吕少岚 | 一种基于集成孤立森林的无人机智能故障检测方法及系统 |
CN116962272A (zh) * | 2023-08-02 | 2023-10-27 | 北京优特捷信息技术有限公司 | 一种网络指标的异常检测方法、装置、设备及存储介质 |
CN116962272B (zh) * | 2023-08-02 | 2024-02-20 | 北京优特捷信息技术有限公司 | 一种网络指标的异常检测方法、装置、设备及存储介质 |
CN116774639A (zh) * | 2023-08-24 | 2023-09-19 | 中国水利水电第九工程局有限公司 | 一种基于互联网的污水处理设备远程控制系统 |
CN116774639B (zh) * | 2023-08-24 | 2023-10-27 | 中国水利水电第九工程局有限公司 | 一种基于互联网的污水处理设备远程控制系统 |
CN117194920A (zh) * | 2023-09-06 | 2023-12-08 | 万仁企业管理技术(深圳)有限公司 | 一种基于大数据分析的数据系统处理平台及处理方法 |
CN117194920B (zh) * | 2023-09-06 | 2024-05-28 | 北京酷炫网络技术股份有限公司 | 一种基于大数据分析的数据系统处理平台及处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113327172A (zh) | 一种基于孤立森林的粮情数据离群点检测方法 | |
Kumar et al. | Soil sensors-based prediction system for plant diseases using exploratory data analysis and machine learning | |
CN112382352B (zh) | 基于机器学习的金属有机骨架材料结构特征快速评估方法 | |
CN110728411B (zh) | 一种基于卷积神经网络的高低空区域联合降雨预测方法 | |
Shafer et al. | Evaluation of WRF model simulations of tornadic and nontornadic outbreaks occurring in the spring and fall | |
CN110880369A (zh) | 基于径向基函数神经网络的气体标志物检测方法及应用 | |
CN115049026A (zh) | 基于gsnnr的空间非平稳性关系的回归分析方法 | |
CN115563546A (zh) | 一种气体嗅觉智能识别方法、系统、介质、设备及终端 | |
Gowtham Sethupathi et al. | Efficient rainfall prediction and analysis using machine learning techniques | |
Vanarase et al. | Crop Prediction Using Data Mining and Machine Learning Techniques | |
Azmin et al. | Soil classification based on machine learning for crop suggestion | |
Roigé et al. | Self-organizing maps for analysing pest profiles: Sensitivity analysis of weights and ranks | |
CN116738172A (zh) | 一种基于机器学习的大型混合暴露数据分析方法 | |
CN115099493B (zh) | 一种基于cnn的林火向任意方向蔓延速率预测方法 | |
Martinelli et al. | Chemical sensors clustering with the dynamic moments approach | |
Kayakuş et al. | Non-destructive prediction of hazelnut and hazelnut kernel deformation energy using machine learning techniques | |
Nakagawa et al. | Application of random forest to classify weather observation into rainfall using GNSS receiver | |
Kusbandhini et al. | Rice shelf-life prediction using support vector regression algorithm based on electronic nose dataset | |
CN113837913A (zh) | 一种村镇耕地资源承载力关键阈值确定方法及装置 | |
Abouelmagd | E-nose-based optimized ensemble learning for meat quality classification | |
Jiang et al. | Analysis of changes in large-scale circulation patterns driving extreme precipitation events over the central-eastern China | |
Nebylitsa et al. | Revisiting environmental wind and moisture calculations in the context of tropical cyclone intensification | |
Lyimo et al. | Sensitivity Analysis of Coffee Leaf Rust Disease using Three Deep Learning Algorithms | |
Mlakar | Determination of features for air pollution forecasting models | |
Zhang et al. | Four hybrid machine learning algorithms to predict forest fire susceptibility |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210831 |
|
RJ01 | Rejection of invention patent application after publication |