CN113327172A

CN113327172A - 一种基于孤立森林的粮情数据离群点检测方法

Info

Publication number: CN113327172A
Application number: CN202110497016.8A
Authority: CN
Inventors: 李智慧; 吴建军; 刘廷凤; 甄彤; 张仲凯; 徐辉
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-08-31

Abstract

本发明公开了一种基于孤立森林的粮情数据离群点检测方法，包括如下步骤：粮情数据初始化，孤立树的构造，通过Q统计量法和交叉验证法构造孤立森林，再通过孤立森林对数据进行识别离群点，最终实现粮情检测。本发明基于孤立森林的粮情数据离群点检测方法，很好的解决了传统算法分析粮情数据仅仅是通过粮堆正常温湿等数据来研究粮情分布的特点，忽略有潜在价值的离群点，从而导致粮情预警不及时、不准确等问题，本发明与传统的KNN、LOF等离群检测方法相比检测精度更高，更具稳定性且执行效率上有明显优势。进一步的本发明通过二叉树的快速划分，把离群点分离出来，避免了大量计算距离或密度所消耗的时间。

Description

一种基于孤立森林的粮情数据离群点检测方法

技术领域

本发明涉及温湿等粮情数据处理技术领域，尤其涉及一种基于孤立森林的粮情数据离群点检测方法。

背景技术

目前，离群点也称异常点，它与其他观测值存在巨大的差异，以至于使人怀疑这些数据并非由于随机偏差导致的，而是产生自不同的机理。离群点检测的主要目的是为了找出明显区别于大多数数据的对象，近年来，国家粮食局和全国各地区各单位积极探索粮食行业信息化建设，我国粮库在各个省市普遍分布，粮库的温湿等粮情数据积累甚多。众多学者一直以来积极探索粮情的变化规律，研究粮堆的变化我们更加关心的是“异常”粮情是否出现，而非简单的分布变化。

而现在粮库信息化建设的规模与日俱增，导致粮情数据量大，传统方法只是单纯地展示出粮温、粮食水分分布，需要人员不断查看并更新粮情，这导致粮情异常发现率低、漏告警和误告警数量多等问题，而且如果不能及时、准确地分析粮情数据，对粮食储藏安全将产生严重的威胁。因此如何有针对性地研究粮情数据来发现离群点并探究出现离群点的原因，从而进行粮情预警，及时保障储粮安全，是实际中急需解决的技术问题。

发明内容

本发明的目的是提供一种基于孤立森林的粮情数据离群点检测方法，能够有效并准确地发现粮情异常数据并及时预警，保证粮食储藏安全。

本发明采用的技术方案为：

一种基于孤立森林的粮情数据离群点检测方法，包括如下步骤：

步骤1：对采集好的粮情数据进行数据预处理，使得粮情数据便于分析处理；

步骤2：将步骤1处理好的粮情数据作为输入值，并初始化孤立森林；

步骤3：对步骤2中的输入数据，随机选择若干个样本点作为子样本集，放入树的根节点；

步骤4：随机指定一个属性，在当前节点数据中随机产生一个切割点，这个切割点产生于当前节点数据中指定属性的最大值和最小值之间；

步骤5：以步骤四随机产生的切割点生成一个超平面，然后将当前节点数据的空间划分为2个子空间：把当前节点数据中指定属性中小于步骤4中产生的切割点的数据放在当前节点的左边，把大于等于步骤4中产生的切割点的数据放在当前节点的右边；

步骤6：在子节点中递归步骤4和步骤5，不断构造新的子节点，直至满足终止条件；所述的终止条件有两个，第一个是数据本身不可再分，即只包括一个样本，或者全部样本相同；第二个是树的深度达到最大深度；

步骤7：通过步骤3到步骤6，构造得到的若干棵孤立树，引入Q统计量法计算任意两棵孤立树之间的差异值，Q统计量的值在[-1,1]之间变化，值越小，表示两棵孤立树的差异度越大；

步骤8：用交叉验证法计算每棵孤立树的精度值：具体的，将输入数据集划分为互不相交的N个子集，每次用N-1个子集进行训练，剩余的一个子集进行测试，最终把N个度量值的平均值作为精度值；

步骤9：通过孤立树的差异值和精度值计算出适应度值，选出适应度结果好的孤立树组成孤立森林，其中适应度可以表示孤立树是否具有较大差异值且有较好精确度；

步骤10：对于一个样本数据，让其遍历每一棵孤立树，然后计算这个样本最终落在每棵孤立树的第几层，最后得出样本在每棵孤立树的平均深度，计算每个样本的离群分数；由于样本在孤立树中的深度越小，离群分数越高，反之亦然，进而通过离群分数可以直观判断出粮情数据异常。

所述的预处理包括属性规约的剔除、缺失值处理和数据归一化处理。

所述的步骤9中适应度函数的构建过程为：

给定训练集X_train，如果树T_i能正确检测x_k,则y_k,i＝1,否则y_k,i＝0，i＝1,2,...,t。假设两个学习器为T_i和T_j，N⁰⁰(N¹¹)为两个学习器都判断错误(正确)的样本数量，N¹⁰为T_i判断正确而T_j判断错误的样本数量，N⁰¹则为T_i判断错误而T_j判断正确的样本数量，可以发现样本总数量N＝N¹¹+N¹⁰+N⁰¹+N⁰⁰。T_i与T_j的检测结果关系矩阵如表4-1所示：

表4-1 T_i与T_j的检测结果关系矩阵

T_i与T_j之间的差异值Q_i,j：

其中，N_ab表示T_i和T_j检测X_train中的n个样本，满足y_k,i＝a和y_k,j＝b的样本数目，k＝1,2,...,n；Q表示t棵孤立树的差异矩阵；Q统计量等于0，两棵孤立树相互独立；Q统计量的取值范围是[-1,1]，值越大两棵隔离树的差异度越小；

适应度函数为：

其中，F(T_i)表示T_i的适应度函数，P_i表示T_i的精度值，w_P和w_Q分别表示精确度和差异性对应的权重。

为了提高优化效果，对适应度函数中两个权重采用动态变化的策略：在初始化时，权重w_X和w_Q均设置为0.5；在算法每次迭代后，分别计算P和Q的变化量，记为ΔP和ΔQ，而后按公式(2)和(2)更新权重：

w_Q＝1-w_P (3)

式中，Δw是一个预定义的间隔，通常设置在10^-3量级。

本发明基于孤立森林的粮情数据离群点检测方法，很好的解决了传统算法分析粮情数据仅仅是通过粮堆正常温湿等数据来研究粮情分布的特点，忽略有潜在价值的离群点，从而导致粮情预警不及时、不准确等问题，我们通过优化后的孤立森林算法针对温湿等粮情数据离群点进行检测，该方法与传统的KNN、LOF等离群检测方法相比检测精度更高，更具稳定性且执行效率上有明显优势。进一步的本发明通过二叉树的快速划分，把离群点分离出来，避免了大量计算距离或密度所消耗的时间；同时该方法中孤立森林是由多棵孤立树组成的，最后的离群决策不是由单一的某一棵树判定的，而是由多棵树共同决定的，使算法更准确和稳定，采用该方法检测粮情数据异常具有非常大的优势。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1本发明所述孤立森林的结构；

图2本发明所述孤立树的构造方法流程图；

图3本发明所述孤立森林的构造方法与离群分数的计算方法流程图；

图4本发明所述基于孤立森林的粮情数据离群点部分效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1、2和3所示，本发明包括如下步骤：

步骤1：采集好的粮情数据进行数据预处理，实际应用中可以从粮库中收集粮情历史数据，预处理包括对属性规约，剔除不相关属性；用平均插值法将缺失值补全；用最大最小规范化将数据归一化；使得粮情数据便于分析处理。

步骤3：对步骤2中的输入数据，从粮情训练数据中随机选择若干个样本点作为子样本集，放入树的根节点；

步骤4：随机指定一个属性(这个随机指定的属性就是分裂特征)，在当前节点数据中随机产生一个切割点，(这个切割点就是指分裂值)这个切割点产生于当前节点数据中指定维度的最大值和最小值之间；

步骤5：以此切割点生成了一个超平面，然后将当前节点数据空间划分为2个子空间：把指定维度里小于步骤4中产生的切割点的数据放在当前节点的左边，把大于等于步骤4中产生的切割点的数据放在当前节点的右边；

步骤6：在子节点中递归步骤4和步骤5，不断构造新的子节点。终止条件有两个，一个是数据本身不可再分(只包括一个样本，或者全部样本相同)，另外一个是树的深度达到最大深度。

步骤7：通过步骤3到步骤6，构造好了若干棵孤立树，利用Q统计量法计算孤立树之间的差异值，Q统计量的值再[-1,1]之间变化，值越小，两棵孤立树的差异度越大；

步骤8：用交叉验证法计算每棵孤立树的精度值，也就是将数据集划分为互不相交的N个子集，每次用N-1个子集进行训练，剩余的一个子集进行测试。最终把N个度量值的平均值作为精度值；

步骤9：通过步骤8和步骤9，计算出了较大差异值且有较好精确度的孤立树，选择前若干个优秀的孤立树组成孤立森林；

步骤10：对于一个样本数据，让其遍历每一棵孤立树，然后计算这个样本最终落在每棵孤立树的第几层，最后得出样本在每棵孤立树的平均深度，计算每个样本的离群分数。样本在孤立树中的深度越小，离群分数越高，反之亦然。通过离群分数可以直观判断出粮情数据异常。

本发明基于孤立森林的粮情数据离群点检测方法，很好的解决了传统算法分析粮情数据仅仅是通过粮堆中正常温湿等数据来研究粮情分布的特点，忽略有潜在价值的离群点，从而导致粮情预警不及时、不准确等问题，我们通过优化后的孤立森林算法针对温湿等粮情数据离群点进行检测，孤立森林是一个基于集成的快速离群点检测方法，具有线性时间复杂度和高精准度。优化后的该方法与传统的KNN、LOF等离群检测方法相比检测精度更高，更具稳定性且执行效率上有明显优势，具体的，由于引入了一个适应度函数用于计算孤立树的差异值和精度值，即利用Q统计量法计算孤立树之间的差异值，选择差异值大的树，利用交叉验证法选择精度值高的树，最后根据孤立树的差异值和精度值的加权平均构建适应度函数从而计算每棵树的适应度值。进一步的本发明通过二叉树的快速划分，把离群点分离出来，避免了大量计算距离或密度所消耗的时间；同时该方法中孤立森林是由多棵孤立树组成的，最后的离群决策不是由单一的某一棵树判定的，而是由多棵树共同决定的，使算法更准确和稳定，采用该方法检测粮情数据异常具有非常大的优势。

下面结合具体的实例对本发明的方法进行举例说明：

步骤1：定义1孤立树：设T是孤立树的节点，T表示没有子节点的外部节点或孤立树中测试的一个内部节点，有两个子节点(T_l,T_r)。

步骤2：实验用到的粮情数据来自新港某试验仓，仓型为高大平房仓，仓中共设18根电缆，每根电缆有三个节点，实验对象为小麦，实验时段选择在2019年1月1日零点至2020年1月1日零点，共365天8760条数据，每小时采集一次。对粮情数据集进行预处理，包括属性规约、缺失值处理、归一化。设数据集是X＝{x₁,x₂,...,x_n}。

步骤3：接下来开始构造孤立树。对步骤2中的输入数据，从粮情训练数据中随机选择ψ个样本点作为子样本集，放入树的根节点；

步骤4：随机指定一个属性A和切割点P，这个切割点产生于当前节点数据中指定维度的最大值和最小值之间；对每个数据x_i,按照A的值(记为d_i(A))进行划分。如果d_i(A)＜P,则放在左子树，反之放在右子树；直到满足条件(1)数据集X中只剩下一条数据或者多条相同的数据(2)树达到最大高度；

步骤5：定义2路径长度：在一棵孤立树中，从根节点到外部节点所经历边的数目称为路径长度，记为h(x)。给定包含ψ个样本的数据集时，树的平均路径长度是：

其中H(k)＝ln(k)+ξ，此处k代表ψ-1，ξ是欧拉常数，其值为0.5772156649。ψ是叶子节点数，样本点x的离群分数的定义是：

其中，h(x)是样本点x在孤立树中检索到的节点的深度。E(h(x))为所有孤立树的h(x)的期望值。s(x,n)的取值范围是(0,1]，取值越接近1，被认为是离群点的概率越大。当E(h(x))→0,s→1；当E(h(x))→ψ-1,s→0；当E(h(x))→c(ψ),s→0.5。也就是说离群分数越接近1表示数据是离群点的可能性越高，如果大部分数据的离群分数都接近0.5，说明整个数据都没有明显的离群点。

步骤7：通过步骤3到步骤6，即通过X₁到X_n的估计数的构造算法分别构造好了若干棵孤立树，如图中所示iTree-1，iTree-2，……iTree-n，利用Q统计量法计算孤立树之间的差异值，Q统计量的值再[-1,1]之间变化，值越小，两棵孤立树的差异度越大，尽量选择差异较大的孤立树；

步骤8：用交叉验证法计算每棵孤立树的精度值，也就是将数据集划分为互不相交的N个子集，每次用N-1个子集进行训练，剩余的一个子集进行测试。最终把N个度量值的平均值作为精度值，选择精度高的孤立树。

适应度函数的构建过程为：

表4-1 T_i与T_j的检测结果关系矩阵

T_i与T_j之间的差异值Q_i,j：

适应度函数：

其中，F(T_i)表示T_i的适应度函数，P_i表示T_i的精度值，w_P和w_Q分别表示精确度和差异性对应的权重。为了提高优化效果，对这两个权重采用动态变化的策略：在初始化时，权重w_X和w_Q均设置为0.5；在算法每次迭代后，分别计算P和Q的变化量，记为ΔP和ΔQ，而后按公式(4)和(5)更新权重：

w_Q＝1-w_P (3)

式中，Δw是一个预定义的间隔，通常设置在10^-3量级。这使得算法能够在精确度和差异性的并行优化上达到较好的平衡。

步骤9：通过步骤8和步骤9，计算出了较大差异值且有较好精确度的孤立树，选择前若干个优秀的孤立树组成孤立森林即iForest；

步骤10：对于一个样本数据，让其遍历每一棵孤立树，然后计算这个样本最终落在每棵孤立树的第几层，最后得出样本在每棵孤立树的平均深度，计算每个样本的离群分数。样本在孤立树中的深度越小，离群分数越高，反之亦然。即通过离群分数可以直观判断出粮情数据异常。

表1不同子采样数量下AUC值对比

由表1，分别设置孤立树的数量和子采样数量，当孤立树数量达到100棵后，再增加其数量对AUC的提高效果不明显。取孤立树的数量为100。随着子采样数的增加，ROC曲线的下的面积AUC在逐渐增加，并在子采样数达到256时取得最大，随后继续增加采样数AUC有所下降。因此孤立树的最佳取值为100，子采样数的最佳取值为256。

表2粮情数据异常点检测结果

实验用到的粮情数据来自新港某试验仓，仓型为高大平房仓，实验共有8760条数据，用预处理后的粮情数据共有9个属性，包括第一层粮温、第二层粮温、第三层粮温、气温、仓温、仓湿、第一层粮湿、第二层粮湿、第三层粮湿等属性。由表2可以知道，将改进的孤立森林算法中应用到粮情数据中，在孤立树数量为100，子采样数为256时，算法最终检测到的异常点是30个。其异常时间以及离群分数从表2看出，label＝1代表异常。

需要说明的是，本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

注意，上述仅为本发明的较佳实施例及运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行较详细的说明，但本发明不限于这里所述的特定实施例，在不脱离本发明构思的情况下，还可以包括更多其他等有效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于孤立森林的粮情数据离群点检测方法，其特征在于：包括如下步骤：

步骤4：随机指定一个维度，在当前节点数据中随机产生一个切割点，这个切割点产生于当前节点数据中指定维度的最大值和最小值之间；

步骤5：以步骤四随机产生的切割点生成一个超平面，然后将当前节点数据的空间划分为2个子空间：把当前节点数据中指定维度中小于步骤4中产生的切割点的数据放在当前节点的左边，把大于等于步骤4中产生的切割点的数据放在当前节点的右边；

2.根据权利要求1所述的基于孤立森林的粮情数据离群点检测方法，其特征在于：所述的预处理包括属性规约的剔除、缺失值处理和数据归一化处理。

3.根据权利要求2所述的基于孤立森林的粮情数据离群点检测方法，其特征在于：所述的步骤9中适应度函数的构建过程为：

给定训练集X_train，如果树T_i能正确检测x_k,则y_k,i＝1,否则y_k,i＝0，i＝1,2,...,t；假设两个学习器为T_i和T_j，N⁰⁰(N¹¹)为两个学习器都判断错误或者正确的样本数量，N¹⁰为T_i判断正确而T_j判断错误的样本数量，N⁰¹则为T_i判断错误而T_j判断正确的样本数量，可以发现样本总数量N＝N¹¹+N¹⁰+N⁰¹+N⁰⁰；T_i与T_j之间的差异值Q_i,j：

其次，用交叉验证法计算每棵孤立树的精度值；将训练数据平均分成N个相互独立的子集，每次训练时把N-1个子集作为训练样本，1个子集作为测试样本；N个子集逐一进行训练和测试，计算得到该棵孤立树的精度值P，也就是N个度量值的平均值；

由此，适应度函数为：

4.根据权利要求3所述的基于孤立森林的粮情数据离群点检测方法，其特征在于：为了提高优化效果，对适应度函数中两个权重采用动态变化的策略：在初始化时，权重w_P和w_Q均设置为0.5；在算法每次迭代后，分别计算P和Q的变化量，记为ΔP和ΔQ，而后按公式(4-6)和(4-7)更新权重：

w_Q＝1-w_P (3)

式中，Δw是一个预定义的间隔，通常设置在10^-3量级。